OpenAI lanserer o3: Den smarteste modellen så langt

Da OpenAI i desember 2024 avduket o3 under sin "12 Days of OpenAI"-kampanje, var reaksjonen i AI-miljøet nær sagt sjokkartet. Ikke fordi lansering av nye modeller er uvanlig, men fordi de publiserte benchmarktallene var av en helt annen størrelsesorden enn hva noen hadde forventet.

Hva er egentlig o3?

o3 tilhører OpenAIs "reasoning"-serie — modeller som er spesielt trent for å tenke grundig gjennom problemer fremfor å svare raskt og intuitivt. Der GPT-4o er designet for konversasjon og allsidighet, er o3 optimert for situasjoner der feil svar har høy kostnad: matematikk, vitenskapelig analyse, kompleks koding og logikkproblem.

Den tekniske mekanismen bak kalles "extended thinking" — en prosess der modellen genererer lange interne resonneringskjeder før den produserer et endelig svar. Du ser ikke denne prosessen direkte, men den er årsaken til at o3 kan bruke alt fra sekunder til minutter på ett enkelt problem, avhengig av kompleksiteten.

Benchmarkresultater som endrer bildet

Det som virkelig skapte overskrifter var ARC-AGI-benchmarken — et sett med visuelle resonneringsoppgaver som er designet spesielt for å være vanskelige for AI-systemer. Tidligere systemer hadde stagnert rundt 50-55 %, og mange AI-forskere mente dette representerte en grunnleggende begrensning. o3 scoret 87,5 % i en semi-privat evalueringsrunde — et hopp som AI-sikkerhetsforsker François Chollet, som laget benchmarken, beskrev som "uventet".

Andre nøkkeltall:

AIME 2024 (olympisk matematikk): 96,7 % — nær perfekt på ett av de vanskeligste matematikktestene som finnes
SWE-bench Verified (real-world programmeringsoppgaver): 71,7 % — langt foran tidligere rekord
GPQA Diamond (ekspertnivå vitenskapsspørsmål): 87,7 %

Hva dette betyr i praksis

Det er lett å la benchmarktall forbli abstrakte. Her er mer konkrete implikasjoner:

For utviklere: o3 kan debugge og refaktorere kode med en forståelse av logikk og kontekst som er merkbart bedre enn GPT-4o. Den gjenkjenner feiltyper og foreslår løsninger som er mer gjennomtenkte, og klarer å holde oversikt over avhengigheter i større kodebaser.

For analytikere og forskere: Muligheten til å prosessere komplekse vitenskapelige tekster, trekke ut mønstre fra data og generere hypoteser er vesentlig forbedret. o3 er allerede i bruk i tidlige pilotprosjekter ved norske universiteter.

For beslutningstakere: Den forbedrede logikkevnen gjør o3 egnet for scenarier der du trenger å veie mange faktorer mot hverandre — for eksempel risikovurderinger, kontraktsanalyse eller strategisk planlegging.

Begrensninger og kostnader

o3 er ikke gratis. API-prisen er betydelig høyere enn GPT-4o, og brukstilgangen via ChatGPT er begrenset til Pro-abonnenter (200 dollar per måned). OpenAI har lansert en "o3-mini" som er rimeligere og raskere, men med noe lavere ytelse på de mest krevende oppgavene.

Det er også verdt å merke seg at o3s "tenketid" gjør den lite egnet for sanntidssamtaler. Ventetid på 30–90 sekunder kan aksepteres for analyseoppgaver, men er ubrukelig for en chatbot i kundeservice.

Sikkerhetsspørsmål

OpenAI har vært åpne om at o3s økte kapasiteter krever mer grundig sikkerhetsevaluering. En modell som kan løse komplekse problemer autonomt reiser nye spørsmål om potensielle misbruksscenarier. Selskapet sier de har gjennomført mer omfattende red-teaming enn for noen tidligere modell før lansering.

Konkurransen svarer

Google, Anthropic og DeepMind jobber alle med egne reasoning-modeller. Anthropics Claude 3.7 Sonnet med Extended Thinking kom kort tid etter og utfordrer o3 på koding spesielt. Det er all grunn til å tro at 2025 vil bli et år med rask eskalering på dette feltet.