محاسبه در زمان استنتاج عملکرد هوش مصنوعی را بازنویسی میکند — بدون آموزش یک مدل جدید

برای بیشتر دهه گذشته، منطق غالب در تحقیقات هوش مصنوعی ساده بود: محاسبات آموزشی بیشتر، دادههای بیشتر، مدل بهتر. مقیاسدهی مرحله پیشآموزش، مدل را هوشمندتر میکند. این منطق پیشرفت فوقالعادهای به همراه داشته است — اما همچنین پرهزینه، کند، و به طور فزایندهای با دیوارهای عملی مواجه است. آموزش یک مدل مرزی اکنون صدها میلیون دلار هزینه دارد و ماهها طول میکشد.
انقلابی آرامتر در طرف دیگر معادله شکل گرفته است: زمان استنتاج. به جای پرسیدن این که یک مدل با مقدار ثابتی از محاسبات در زمان آموزش چه میتواند بکند، محققان و تیمهای محصول سوال متفاوتی میپرسند — یک مدل اگر در لحظه پاسخدهی محاسبات بیشتری به آن بدهید چه میتواند انجام دهد؟
محاسبه در زمان استنتاج دقیقاً چیست
محاسبه در زمان استنتاج (TTC) — که به آن مقیاسدهی زمان استنتاج یا تفکر گسترشیافته نیز گفته میشود — به این اشاره دارد که مدل اجازه دارد هنگام تولید یک پاسخ از محاسبات اضافی استفاده کند. به جای تولید پاسخ در یک پاس رفت، مدل میتواند مراحل استدلال میانی تولید کند، کار خود را بررسی کند، چندین مسیر راهحل را کاوش کند، و قبل از متعهد شدن به خروجی نهایی تجدید نظر کند.
سادهترین نسخه این کار، chain-of-thought prompting است: دستور دادن به مدل برای فکر کردن گام به گام. اما TTC مدرن بسیار فراتر میرود. مدلهای o1 و o3 شرکت OpenAI از یک فرآیند استدلال آموزشدیده با یادگیری تقویتی استفاده میکنند که بسته به سختی مسئله، مقدار متغیری محاسبه مصرف میکند. حالت تفکر گسترشیافته Claude شرکت Anthropic قبل از پاسخ قابل مشاهده، Token های استدلال تخصیص میدهد. خانواده R1 شرکت DeepSeek به طور خاص برای استدلال در زنجیرههای طولانی قبل از پاسخدهی آموزش دیده است.
نتایج چشمگیر است. در Benchmark های ریاضی مانند AIME و MATH، مدلهای استدلالی ۲۰ تا ۴۰ درصد امتیاز بالاتر از همتایان غیر استدلالی خود با تعداد پارامتر مشابه کسب میکنند. در Benchmark های کدنویسی، شکاف به همان اندازه بزرگ است. در مسائل پیچیده چند مرحلهای — از نوعی که نیاز به نگهداری زمینه در میان مراحل منطقی زیاد دارد — مدلهای TTC به طور مداوم از مدلهایی که از نظر فنی بزرگتر هستند اما از استدلال گسترشیافته استفاده نمیکنند، بهتر عمل میکنند.
چرا این موضوع معاوضه را تغییر میدهد
مقیاسدهی سنتی میگوید: برای به دست آوردن یک مدل هوشمندتر، هزینه بیشتری برای پیشآموزش صرف کنید. این هزینه یک بار پرداخت میشود و در تمام استنتاجها توزیع میگردد. محاسبه در زمان استنتاج این را معکوس میکند: در زمان استنتاج، به صورت درخواستی و فقط زمانی که کار به آن نیاز دارد، هزینه بیشتری صرف کنید.
این پیامدهای قابل توجهی برای نحوه استقرار هوش مصنوعی در عمل دارد. مدلی که در زمینه خدمات مشتری اجرا میشود، برای پاسخ به یک سوال بازپرداخت نیازی به تفکر گسترشیافته ندارد — سریع و ارزان کافی است. همان مدل که یک مشکل اشکالزدایی جدید را حل میکند یا یک تحلیل حقوقی را ترکیب میکند، ممکن است بسیار از صرف ده برابر محاسبه بیشتر برای آن پاسخ واحد بهرهمند شود. TTC به سیستمها اجازه میدهد تا متناسب با آن کالیبره شوند.
شرکت OpenAI این موضوع را با بودجههای محاسباتی o3 صریح کرده است — شما میتوانید به معنای واقعی به مدل بگویید که از چه مقدار محاسبات فکری استفاده کند، و هزینه را با قابلیت معاوضه کنید. برای یک پیشنویس سریع، از کمترین Token های فکری استفاده میکنید. برای یک حسابرسی یا یک مسئله کدنویسی رقابتی، آن را به حداکثر میرسانید. هوش مؤثر مدل به یک صفحهگردان تبدیل میشود، نه یک سقف ثابت.
بازیگران محرک این تغییر
سری o شرکت OpenAI (o1، o1-mini، o3، o4-mini) مدلهای استدلالی را به عنوان یک دسته محصول تثبیت کردند. گوگل با Gemini 2.0 Flash Thinking و Gemini 2.0 Pro کامل دنبال کرد که chain-of-thought reasoning را در معماری همهمنظوره خود ادغام میکند. مدلهای Claude Sonnet و Opus شرکت Anthropic با تفکر گسترشیافته نتایج به خصوص قوی در استدلال ریاضی و علمی نشان دادهاند. مدل R1 شرکت DeepSeek — که با یک روش بهینهسازی سیاست نسبی گروهی جدید آموزش دیده است — نشان داد که قابلیت استدلال را میتوان با کسری از هزینه به دست آورد و موجی از توسعه مدلهای استدلالی Open Source را به راه انداخت.
اکوسیستم Open Source به سرعت حرکت کرده است. مدلهای QwQ از Qwen، انواع استدلالی Mistral، و مشتقات Llama تنظیمشده با استدلال آتی متا همگی برای همان سطوح عملکردی رقابت میکنند که رهبران اختصاصی، اغلب ظرف ماهها پس از هر دستاورد Benchmark جدید.
محدودیتها — و آنچه در ادامه میآید
محاسبه در زمان استنتاج یک ناهار رایگان نیست. محدودیت آشکار هزینه است: مدلی که ۳۲٬۰۰۰ Token استدلال به ازای هر پاسخ مصرف میکند، به طور چشمگیری در هر query گرانتر از همان مدل در حالت استاندارد است. برای برنامههای با حجم بالا و حساس به تأخیر، این همچنان یک مانع واقعی است.
همچنین محدودیتهای کیفی برای این که TTC تا چه حد میتواند مدلی را که شکافهای اساسی در آموزش خود دارد، پیش ببرد، وجود دارد. تفکر گسترشیافته به مدل کمک میکند تا درباره چیزهایی که قبلاً پیشینیان خوبی در مورد آنها دارد، بهتر استدلال کند — از هیچ دانشی ایجاد نمیکند. مدلی با پوشش دامنه ضعیف همچنان استدلال معیوبی تولید خواهد کرد، فقط با طول بیشتر.
جالبترین مرز تحقیقاتی، کارآمدتر کردن TTC است: روشهای آموزشی بهتر که به مدلها میآموزد بودجه استدلال را به طور مناسب تخصیص دهند، Reward Model های فرآیندی که میتوانند کیفیت استدلال را در میانه زنجیره قضاوت کنند، و تکنیکهای Speculative Decoding که اجازه میدهند چندین مسیر استدلال به صورت موازی اجرا و ادغام شوند. نتایج اولیه نشان میدهد که کارایی را میتوان ۳ تا ۵ برابر بدون کاهش دقت بهبود داد.
پیامد عمیقتر این است که عملکرد هوش مصنوعی دیگر یک ویژگی ثابت یک checkpoint مدل نیست. این تابعی از این است که چقدر محاسبات مایل هستید در زمان استنتاج، روی کدام وظایف، تحت کدام محدودیتها صرف کنید. این یک روش اساساً متفاوت برای تفکر درباره قابلیت هوش مصنوعی است — و شروع به شکلدهی دوباره به نحوه ارزیابی و استقرار سیستمهای هوش مصنوعی توسط شرکتها کرده است.
مدلهای آموزشدیده امروز سال آینده به طور قابل توجهی توانمندتر خواهند بود — نه به این دلیل که کسی وزنهای آنها را بهروز کرده است، بلکه به این دلیل که سیستمهای اجراکننده آنها یاد خواهند گرفت طولانیتر و هوشمندانهتر درباره چیزهایی که واقعاً اهمیت دارند فکر کنند.