OpenAI مدل‌های o3 و o4-mini را به سمت استدلال ترکیبی (Hybrid Reasoning) سوق داد؛ هزینه‌های Inference تا ۴۰٪ کاهش یافت.

تغییرات ایجاد شده و اهمیت آنها

اوپن‌ای‌آی در اواخر می ۲۰۲۶ معماری استنتاج مدل‌های o3 و o4-mini خود را به‌روزرسانی کرد. این به‌روزرسانی با معرفی قابلیت adaptive chain-of-thought scaling همراه بود. به جای اجرای full extended thinking روی همه query‌ها، مدل‌ها حالا در لایه‌ی prompt-routing پیچیدگی task را ارزیابی می‌کنند. سپس compute متناسب با آن تخصیص داده می‌شود. جستجوهای ساده واقعی یک reasoning pass کوتاه دریافت می‌کنند. اما اثبات‌های ریاضی چندمرحله‌ای و تولید کد همچنان budget کامل را می‌گیرند.

نتیجه عملی: هزینه API برای o3 از ۱۵ دلار به ازای یک میلیون token خروجی به ۹ دلار کاهش یافته. برای o4-mini نیز از ۱.۱۰ دلار به ۰.۶۶ دلار رسیده. برای توسعه‌دهندگانی که workload‌های با حجم بالا اجرا می‌کنند، این تغییر معنی‌داری در unit economics محسوب می‌شود.

نحوه عملکرد Hybrid Reasoning

مدل‌های سنتی chain-of-thought صرف‌نظر از پیچیدگی query، compute یکسانی مصرف می‌کنند. اما adaptive scaling یک classifier سبک در زمان inference اجرا می‌کند. این classifier پیچیدگی را در چهار بعد امتیازدهی می‌کند: logical depth، domain specificity، سطح ابهام، و اینکه آیا نیاز به بررسی multiple solution paths هست.

در MMLU، o3 hybrid در ۰.۳ درصد امتیاز با o3 با compute کامل فاصله دارد. در LiveCodeBench، حالت hybrid ۲.۴ امتیاز پایین‌تر است.

نکات عملی

قبل از فعال‌سازی در محیط production، reasoning_effort adaptive را در staging تست کنید.
برای workload‌های ترکیبی، حالت adaptive ۲۵ تا ۴۰ درصد صرفه‌جویی هزینه به همراه دارد.
برای کدنویسی حساس، reasoning_effort را روی high نگه دارید.