Meta lanserer Llama 4: Gratis og kraftigere enn noensinne

Metas lansering av Llama 4 i april 2025 sendte bølger gjennom AI-bransjen — ikke fordi en åpen modell fra Meta var uventet, men fordi ytelsesnivået er av en helt annen størrelsesorden enn det som har vært tilgjengelig som åpen kildekode tidligere. For første gang kan bedrifter og utviklere kjøre en frontier-klasse modell på egne servere, uten lisensbetaling, uten dataeksponering mot tredjepart.

Hva er åpen kildekode i denne sammenhengen?

Det er verdt å presisere hva "åpen kildekode" betyr for Llama 4. Meta publiserer modellvektene fritt — det vil si at du kan laste ned selve modellen og kjøre den på din egen maskinvare. Du kan tilpasse den, finjustere den på egne data, og bygge produkter med den. Det er ikke "åpen kildekode" i den tradisjonelle forstand av at treningskoden og treningsdataene er offentlig, men det er tilstrekkelig til å gi deg full kontroll over modellen i drift.

Lisensen tillater kommersiell bruk for de fleste virksomheter. Unntak gjelder dersom du har over 700 millioner månedlige brukere — et grensesnitt som er satt for å unngå at store konkurrenter bygger på Metas arbeid.

Modellserien: Tre størrelser for ulike behov

Llama 4 Scout (17 milliarder parametere)

Scout er designet for å kjøre på forbrukermaskinvare — en RTX 4090 eller en Mac Studio med M3 Ultra er mer enn nok. Ytelsen er sammenlignbar med Googles Gemini 1.5 Flash og OpenAIs GPT-4o mini på de fleste oppgaver, men Scout er særlig imponerende på flerspråklig tekst og kodeforståelse. For norske bedrifter som vil eksperimentere med lokal AI uten store investeringer i serverinfrastruktur, er Scout startpunktet.

Llama 4 Maverick (400 milliarder parametere, Mixture-of-Experts)

Maverick bruker en Mixture-of-Experts (MoE)-arkitektur, som betyr at bare en del av modellens parametere aktiveres for hvert enkelt spørsmål. Dette gjør den langt mer effektiv å kjøre enn en tilsvarende tett modell. Ytelsen er på nivå med Claude 3.7 Sonnet og GPT-4o på de fleste benchmarks. For serverbruk er Maverick det naturlige valget.

Llama 4 Behemoth (under trening)

Behemoth er Metas svar på GPT-5 og Gemini Ultra — en mastodonmodell designet for å konkurrere i den absolutte ypperste klassen. Meta har delt foreløpige resultater som viser ytelse over GPT-4o og Claude 3.7 Sonnet på en rekke benchmarks, men modellen er ikke offentlig tilgjengelig ennå.

Teknisk gjennombrudd: Mixture-of-Experts

Den tekniske innovasjonen i Llama 4 Maverick og Behemoth er MoE-arkitekturen. Tradisjonelle transformer-modeller aktiverer alle parametere for hvert token som genereres. MoE-arkitekturen deler modellen i et sett "eksperter" og bruker bare et lite antall av dem per beregning.

Resultatet er at Maverick har effektive 17 milliarder aktive parametere under inferens, selv om totalstørrelsen er 400 milliarder. Dette gir vesentlig lavere beregningskostnader uten proporsjonalt tap i ytelse — en av grunnene til at DeepSeek R1 i sin tid skapte oppsikt med tilsvarende tilnærming.

Implikasjoner for norske bedrifter

Personvern og datakontroll

Dette er den åpenbare fordelen. En Llama 4 Maverick-instans som kjører på din egen server sender ingen data til Meta, OpenAI eller Google. For sektorer med strenge krav — helse, finans, juridiske tjenester, offentlig forvaltning — er dette ikke bare en fordel, det kan være et krav.

Finjustering på egne data

Med åpen tilgang til modellvektene kan bedrifter finjustere Llama 4 på egne datasett. En advokatfirma kan trene modellen på egne kontrakter og juridiske dokumenter. Et sykehus kan finjustere den på medisinsk dokumentasjon. Et inkasso-selskap kan tilpasse den til norsk inkassolovgivning. Denne muligheten finnes ikke med lukkede modeller.

Kostnadsbildet

Å kjøre Llama 4 Maverick på sky-infrastruktur (AWS, Azure, Google Cloud) er vesentlig billigere enn å bruke GPT-4o via OpenAI API, særlig ved høyt volum. Estimater fra tech-miljøet antyder 80–90 % kostnadsreduksjon ved tilsvarende oppgaver.

Utfordringer og realiteter

Å ta i bruk Llama 4 er ikke plug-and-play. Du trenger kompetanse til å sette opp infrastruktur, håndtere modellvekter, og eventuelt finjustere og overvåke ytelse. Tjenester som Ollama, LM Studio og Groq gjør det enklere, men det er fortsatt en teknisk terskel som ikke passer for alle.

Ytelsen er heller ikke alltid bedre enn kommersielle alternativer. På norskspråklige oppgaver er spesielt ChatGPT og Claude fortsatt noe foran, siden de er trent på mer norsk tekst. Llama 4 er primært trent på engelskspråklig innhold.