OpenAI fait passer o3 et o4-mini en raisonnement hybride, réduisant les coûts d'inférence de 40 %

Ce qui a changé et pourquoi c'est important

OpenAI a mis à jour l'architecture d'inférence de ses modèles o3 et o4-mini fin mai 2026, en introduisant un scaling adaptatif du chain-of-thought. Au lieu d'exécuter un raisonnement étendu complet sur chaque requête, les modèles évaluent désormais la complexité de la tâche au niveau de la couche de routage des prompts et allouent une puissance de calcul proportionnelle. Les simples recherches factuelles reçoivent un court passage de raisonnement ; les preuves mathématiques en plusieurs étapes et la génération de code obtiennent toujours le budget complet.

Le résultat pratique : les coûts API pour o3 passent de 15 $ à 9 $ par million de tokens de sortie, et o4-mini de 1,10 $ à 0,66 $. Pour les développeurs ayant des charges de travail à volume élevé, il s'agit d'un changement significatif pour l'économie unitaire.

Comment fonctionne le raisonnement hybride

Les modèles traditionnels de chain-of-thought dépensent la même puissance de calcul quelle que soit la complexité de la requête. Le scaling adaptatif exécute un classifieur léger au moment de l'inférence qui évalue la complexité selon quatre dimensions : profondeur logique, spécificité du domaine, niveau d'ambiguïté et nécessité d'explorer plusieurs chemins de solution.

Sur MMLU, o3 hybride se situe à moins de 0,3 point de pourcentage de o3 en calcul complet. Sur LiveCodeBench, le mode hybride obtient 2,4 points de moins.

Recommandations pratiques

Testez reasoning_effort en mode adaptatif en staging avant de l'activer en production.
Pour les charges de travail mixtes, le mode adaptatif permet des économies de 25 à 40 %.
Pour le codage à enjeux élevés, maintenez reasoning_effort à high.