OpenAI o1 vs Claude med Extended Thinking: Hvem tenker best?
Både OpenAI og Anthropic har modeller som tenker lenger gjennom problemer. Vi sammenligner dem på vanskelige oppgaver.
OpenAI o1 vs Claude med Extended Thinking: Hvem tenker best?
I 2024 introduserte AI-industrien et nytt konsept: modeller som ikke bare svarer, men som aktivt "tenker" gjennom et problem før de gir svar. OpenAI lanserte o1 i september 2024, og Anthropic svarte med Extended Thinking-modus for Claude 3.7 Sonnet i februar 2025. Begge hevder å løse problemer som var for vanskelige for tidligere generasjoner av modeller. Men de er bygget med forskjellige styrker — og det viser seg i benchmarks og praktisk bruk.
Hva er "extended thinking"?
Tradisjonelle språkmodeller tar imot input og genererer output i én pass. Extended thinking (kalt "chain-of-thought reasoning" i akademia) er en teknikk der modellen genererer et internt resonneringsforløp — en serie tankesteg — før den produserer det endelige svaret.
Tankegangen kan du se om du aktiverer "extended thinking" i Claude eller bruker o1 med synlig reasoning: modellen skriver faktisk ned hva den tenker, sjekker seg selv, korrigerer feil og arbeider seg frem til svaret systematisk. Det ligner på hvordan en ekspert-matematiker vil skrive ut arbeidet sitt fremfor å gi svar direkte fra hodet.
o1 ble spesifikt trent med Reinforcement Learning fra feedback på om tankestegene ledet til riktige svar — modellen belønnes for å resonnere godt, ikke bare for å svare riktig.
Claude 3.7 Sonnet Extended Thinking aktiverer lengre resonneringskjeder i Anthropics Sonnet-modell. Du kan velge mellom standard modus og extended thinking modus, og se resonnementstrømmene i grensesnittet.
Matematikk og formell logikk
Klar vinner: o1
o1 ble spesifikt designet for matematikk og formell logikk. Treningsprosessen la enorm vekt på matematisk resonnering — fra grunnleggende algebra til olympiade-nivå problemstillinger.
Benchmarks:
- AIME 2024 (American Invitational Mathematics Examination): o1 scorer 83,3%. Claude 3.7 Extended: 70%.
- MATH 500: o1 scorer 96,4%. Claude 3.7 Extended: ~90%.
- Graduate-level reasoning (GPQA): o1 scorer 78,0%. Claude 3.7 Extended: 68%.
For studenter og forskere som jobber med matematikk, statistikk, formal logikk og kvantitative modeller: o1 er klart bedre.
Koding og programmeringsproblemer
Vinner: Claude 3.7 Sonnet Extended Thinking
Her snur bildet. For faktiske programmeringsoppgaver i den virkelige verden er Claude sterkere.
SWE-bench Verified (real-world GitHub issues løst autonomt):
- Claude 3.7 Sonnet Extended Thinking: 70,3%
- o1: 48,9%
SWE-bench er bransjens ledende benchmark for praktisk koding fordi den tester på faktiske, åpne GitHub-issues fra reelle prosjekter — ikke konstruerte programmeringsoppgaver. Gapet på 21 prosentpoeng er betydelig.
Grunnen til Claudes fordel i koding: programmeringsoppgaver krever ikke bare logisk deduksjon, men også forståelse av kontekst, kodebasens konvensjoner, og pragmatisk problemløsning. Claude er trent på et bredere og mer praktisk datasett.
Naturlig språk og skriving
Klar vinner: Claude
o1 er en spesialist. Modellen er optimert for logisk og matematisk resonnering — og det betyr at den er notorisk svak på kreativ skriving, tonalitet, stil og naturlig prosa.
Ber du o1 om å skrive en artikkel eller et brev, er resultatet funksjonelt men monotont. Modellen har ikke blitt trent til å bruke variert språk og stil.
Claude er det beste alternativet for alt som krever godt skriftlig uttrykk kombinert med dyp analyse — en rapport, en akademisk tekst, en kommunikasjonsstrategi med argumentasjonsstruktur.
Hastighet
Vinner: Claude
Extended Thinking i Claude er generelt raskere enn o1. o1 kan bruke to til fire minutter på særlig komplekse problemer — noe som er merkbart i en interaktiv arbeidsflyt.
Claude Extended Thinking gir vanligvis svar innen 30–90 sekunder selv på krevende oppgaver. For iterativt arbeid der du stiller mange spørsmål er hastighetsforskjellen merkbar over tid.
Kontekstvindu
Klar vinner: Claude
Claude 3.7 Sonnet har 200 000 token kontekstvindu. o1 har 128 000 tokens.
For komplekse analyser der du trenger å gi modellen mye bakgrunnsinformasjon — lange dokumenter, store kodebaser, mange faktakilder — er Claudes kontekstvindu en vesentlig fordel.
Pris (API)
Klar vinner: Claude
| Modell | Input | Output | |--------|-------|--------| | o1 | 15 $/million tokens | 60 $/million tokens | | Claude 3.7 Sonnet | 3 $/million tokens | 15 $/million tokens |
Claude er fem ganger billigere på input og fire ganger billigere på output. For applikasjoner som kaller AI-APIer i stort volum er dette avgjørende.
For ChatGPT Plus- og Claude Pro-abonnenter er begge inkludert i abonnementet, så prisdifferansen gjelder primært API-bruk.
Transparens i resonnering
Vinner: Claude
Med Extended Thinking aktivert i Claude kan du se hele tankeresonnementet — alle steg modellen tok for å komme frem til svaret. Dette er verdifullt for å validere logikken og forstå om noe gikk feil.
o1 viser en forkortet versjon av "reasoning" i grensesnittet, men det fullstendige resonneringsforløpet er skjult. OpenAI har begrunnet dette med at full transparens kan hjelpe adversarielle aktører med å finne hull i sikkerhetsmekanismene.
For pedagogiske formål og kritisk gjennomgang av komplekse analyser er Claudes transparens et klart pluss.
Sammendragstabell
| Egenskap | o1 | Claude 3.7 Extended | |----------|----|--------------------| | Matematikk | Best | Svært god | | Formell logikk | Best | Svært god | | Koding (praktisk) | God | Best | | Skriving og analyse | Svak | Best | | Hastighet | Treg | Rask | | Kontekstvindu | 128K tokens | 200K tokens | | API-pris (input) | 15 $/M | 3 $/M | | Transparens | Begrenset | Full |
Anbefaling
Velg o1 hvis du:
- Jobber primært med matematikk, statistikk eller formell logikk
- Trenger bevis-basert resonnering for formelle problemer
- Prioriterer toppresultat på kvantitative benchmarks fremfor alt annet
Velg Claude Extended Thinking hvis du:
- Jobber med koding, programmeringsproblemer eller teknisk analyse
- Trenger AI som er god på både resonnering og skriving
- Bryr deg om pris ved høyt volum (API)
- Vil se hele resonneringsforløpet
- Jobber med lange dokumenter eller store kodebaser
For de aller fleste praktiske brukstilfeller — inkludert de fleste som ikke er rene matematikere — er Claude Extended Thinking det mer allsidige valget i 2025.