OpenAI مدلهای o3 و o4-mini را به سمت استدلال ترکیبی (Hybrid Reasoning) سوق داد؛ هزینههای Inference تا ۴۰٪ کاهش یافت.

تغییرات ایجاد شده و اهمیت آنها
اوپنایآی در اواخر می ۲۰۲۶ معماری استنتاج مدلهای o3 و o4-mini خود را بهروزرسانی کرد. این بهروزرسانی با معرفی قابلیت adaptive chain-of-thought scaling همراه بود. به جای اجرای full extended thinking روی همه queryها، مدلها حالا در لایهی prompt-routing پیچیدگی task را ارزیابی میکنند. سپس compute متناسب با آن تخصیص داده میشود. جستجوهای ساده واقعی یک reasoning pass کوتاه دریافت میکنند. اما اثباتهای ریاضی چندمرحلهای و تولید کد همچنان budget کامل را میگیرند.
نتیجه عملی: هزینه API برای o3 از ۱۵ دلار به ازای یک میلیون token خروجی به ۹ دلار کاهش یافته. برای o4-mini نیز از ۱.۱۰ دلار به ۰.۶۶ دلار رسیده. برای توسعهدهندگانی که workloadهای با حجم بالا اجرا میکنند، این تغییر معنیداری در unit economics محسوب میشود.
نحوه عملکرد Hybrid Reasoning
مدلهای سنتی chain-of-thought صرفنظر از پیچیدگی query، compute یکسانی مصرف میکنند. اما adaptive scaling یک classifier سبک در زمان inference اجرا میکند. این classifier پیچیدگی را در چهار بعد امتیازدهی میکند: logical depth، domain specificity، سطح ابهام، و اینکه آیا نیاز به بررسی multiple solution paths هست.
در MMLU، o3 hybrid در ۰.۳ درصد امتیاز با o3 با compute کامل فاصله دارد. در LiveCodeBench، حالت hybrid ۲.۴ امتیاز پایینتر است.
نکات عملی
- قبل از فعالسازی در محیط production، reasoning_effort adaptive را در staging تست کنید.
- برای workloadهای ترکیبی، حالت adaptive ۲۵ تا ۴۰ درصد صرفهجویی هزینه به همراه دارد.
- برای کدنویسی حساس، reasoning_effort را روی high نگه دارید.