OpenAI stellt o3 und o4-mini auf hybrides Reasoning um – Inferenzkosten sinken um 40%

Was sich geändert hat und warum das wichtig ist
OpenAI hat Ende Mai 2026 die Inferenzarchitektur seiner Modelle o3 und o4-mini aktualisiert und ein adaptives Chain-of-Thought-Scaling eingeführt. Statt bei jeder Anfrage vollständige erweiterte Reasoning-Schritte durchzuführen, bewertet das Modell jetzt die Aufgabenkomplexität auf dem Prompt-Routing-Layer und weist proportional Rechenleistung zu. Einfache Faktenabfragen erhalten einen kurzen Reasoning-Durchlauf; mehrschrittige mathematische Beweise oder Codegenerierung erhalten weiterhin das volle Budget.
Das praktische Ergebnis: Die API-Kosten für o3 fallen von 15 $ auf 9 $ pro Million Output-Token, bei o4-mini von 1,10 $ auf 0,66 $. Für Entwickler mit hohem Workload ist das eine echte Veränderung der Unit Economics.
Wie hybrides Reasoning funktioniert
Traditionelle Chain-of-Thought-Modelle wenden stets die gleiche Rechenleistung an, unabhängig von der Anfragekomplexität. Adaptives Scaling löst dieses Problem, indem zur Inferenzzeit ein leichter Classifier ausgeführt wird, der die Anfragekomplexität entlang von vier Dimensionen bewertet: logische Tiefe, Domänenspezifität, Mehrdeutigkeitsniveau und ob mehrere Lösungspfade erkundet werden müssen.
Im MMLU-Benchmark erzielt o3 im hybriden Modus Ergebnisse, die nur 0,3 Prozentpunkte unter dem Voll-Compute o3 liegen. Bei LiveCodeBench liegt der hybride Modus 2,4 Punkte niedriger.
Konkrete Handlungsempfehlungen
- Testen Sie reasoning_effort auf adaptive in einer Staging-Umgebung, bevor Sie es in der Produktion aktivieren.
- Bei gemischten Workloads bringt der adaptive Modus 25–40 % Kosteneinsparung.
- Bei anspruchsvollen Codierungsaufgaben behalten Sie reasoning_effort auf high.