Sammenligning

OpenAI o1 vs Claude med Extended Thinking: Hvem tenker best?

Bade OpenAI og Anthropic har modeller som tenker lenger gjennom problemer. Vi sammenligner dem pa vanskelige oppgaver.

AIvett redaksjon·5 min lesing

o1 vs Claude Extended Thinking

Hva er "extended thinking"?

Begge modellene kan bruke ekstra tid pa a "tenke" gjennom et problem for de svarer — lignende Chain-of-Thought men mer autonomt.

Matematikk

Vinner: o1 OpenAIs o1 ble spesielt trent for matematikk og logikk. AIME 2024: o1 scorer 83%, Claude 3.7 Extended scorer 70%.

Koding

Vinner: Claude 3.7 Sonnet med Extended Thinking SWE-bench (real-world kode-oppgaver): Claude 3.7 Extended: 70%, o1: 48%.

Naturlig sprak og skriving

Vinner: Claude o1 er ikke god pa kreativ skriving — den er optimert for logikk, ikke prosa.

Hastighet

Vinner: Claude Claude Extended Thinking er raskere enn o1. o1 kan bruke minutter pa komplekse problemer.

Pris

  • o1: 15 $/million input tokens
  • Claude 3.7 Extended: 3 $/million input tokens

Claude er 5x billigere.

Konklusjon

For matematikk og vitenskap: o1. For koding og alt annet: Claude 3.7 Extended.