محاسبه در زمان استنتاج عملکرد هوش مصنوعی را بازنویسی می‌کند — بدون آموزش یک مدل جدید | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

برای بیشتر دهه گذشته، منطق غالب در تحقیقات هوش مصنوعی ساده بود: محاسبات آموزشی بیشتر، داده‌های بیشتر، مدل بهتر. مقیاس‌دهی مرحله پیش‌آموزش، مدل را هوشمندتر می‌کند. این منطق پیشرفت فوق‌العاده‌ای به همراه داشته است — اما همچنین پرهزینه، کند، و به طور فزاینده‌ای با دیوارهای عملی مواجه است. آموزش یک مدل مرزی اکنون صدها میلیون دلار هزینه دارد و ماه‌ها طول می‌کشد.

انقلابی آرام‌تر در طرف دیگر معادله شکل گرفته است: زمان استنتاج. به جای پرسیدن این که یک مدل با مقدار ثابتی از محاسبات در زمان آموزش چه می‌تواند بکند، محققان و تیم‌های محصول سوال متفاوتی می‌پرسند — یک مدل اگر در لحظه پاسخ‌دهی محاسبات بیشتری به آن بدهید چه می‌تواند انجام دهد؟

محاسبه در زمان استنتاج دقیقاً چیست

محاسبه در زمان استنتاج (TTC) — که به آن مقیاس‌دهی زمان استنتاج یا تفکر گسترش‌یافته نیز گفته می‌شود — به این اشاره دارد که مدل اجازه دارد هنگام تولید یک پاسخ از محاسبات اضافی استفاده کند. به جای تولید پاسخ در یک پاس رفت، مدل می‌تواند مراحل استدلال میانی تولید کند، کار خود را بررسی کند، چندین مسیر راه‌حل را کاوش کند، و قبل از متعهد شدن به خروجی نهایی تجدید نظر کند.

ساده‌ترین نسخه این کار، chain-of-thought prompting است: دستور دادن به مدل برای فکر کردن گام به گام. اما TTC مدرن بسیار فراتر می‌رود. مدل‌های o1 و o3 شرکت OpenAI از یک فرآیند استدلال آموزش‌دیده با یادگیری تقویتی استفاده می‌کنند که بسته به سختی مسئله، مقدار متغیری محاسبه مصرف می‌کند. حالت تفکر گسترش‌یافته Claude شرکت Anthropic قبل از پاسخ قابل مشاهده، Token های استدلال تخصیص می‌دهد. خانواده R1 شرکت DeepSeek به طور خاص برای استدلال در زنجیره‌های طولانی قبل از پاسخ‌دهی آموزش دیده است.

نتایج چشمگیر است. در Benchmark های ریاضی مانند AIME و MATH، مدل‌های استدلالی ۲۰ تا ۴۰ درصد امتیاز بالاتر از همتایان غیر استدلالی خود با تعداد پارامتر مشابه کسب می‌کنند. در Benchmark های کدنویسی، شکاف به همان اندازه بزرگ است. در مسائل پیچیده چند مرحله‌ای — از نوعی که نیاز به نگه‌داری زمینه در میان مراحل منطقی زیاد دارد — مدل‌های TTC به طور مداوم از مدل‌هایی که از نظر فنی بزرگ‌تر هستند اما از استدلال گسترش‌یافته استفاده نمی‌کنند، بهتر عمل می‌کنند.

چرا این موضوع معاوضه را تغییر می‌دهد

مقیاس‌دهی سنتی می‌گوید: برای به دست آوردن یک مدل هوشمندتر، هزینه بیشتری برای پیش‌آموزش صرف کنید. این هزینه یک بار پرداخت می‌شود و در تمام استنتاج‌ها توزیع می‌گردد. محاسبه در زمان استنتاج این را معکوس می‌کند: در زمان استنتاج، به صورت درخواستی و فقط زمانی که کار به آن نیاز دارد، هزینه بیشتری صرف کنید.

این پیامدهای قابل توجهی برای نحوه استقرار هوش مصنوعی در عمل دارد. مدلی که در زمینه خدمات مشتری اجرا می‌شود، برای پاسخ به یک سوال بازپرداخت نیازی به تفکر گسترش‌یافته ندارد — سریع و ارزان کافی است. همان مدل که یک مشکل اشکال‌زدایی جدید را حل می‌کند یا یک تحلیل حقوقی را ترکیب می‌کند، ممکن است بسیار از صرف ده برابر محاسبه بیشتر برای آن پاسخ واحد بهره‌مند شود. TTC به سیستم‌ها اجازه می‌دهد تا متناسب با آن کالیبره شوند.

شرکت OpenAI این موضوع را با بودجه‌های محاسباتی o3 صریح کرده است — شما می‌توانید به معنای واقعی به مدل بگویید که از چه مقدار محاسبات فکری استفاده کند، و هزینه را با قابلیت معاوضه کنید. برای یک پیش‌نویس سریع، از کمترین Token های فکری استفاده می‌کنید. برای یک حسابرسی یا یک مسئله کدنویسی رقابتی، آن را به حداکثر می‌رسانید. هوش مؤثر مدل به یک صفحه‌گردان تبدیل می‌شود، نه یک سقف ثابت.

بازیگران محرک این تغییر

سری o شرکت OpenAI (o1، o1-mini، o3، o4-mini) مدل‌های استدلالی را به عنوان یک دسته محصول تثبیت کردند. گوگل با Gemini 2.0 Flash Thinking و Gemini 2.0 Pro کامل دنبال کرد که chain-of-thought reasoning را در معماری همه‌منظوره خود ادغام می‌کند. مدل‌های Claude Sonnet و Opus شرکت Anthropic با تفکر گسترش‌یافته نتایج به خصوص قوی در استدلال ریاضی و علمی نشان داده‌اند. مدل R1 شرکت DeepSeek — که با یک روش بهینه‌سازی سیاست نسبی گروهی جدید آموزش دیده است — نشان داد که قابلیت استدلال را می‌توان با کسری از هزینه به دست آورد و موجی از توسعه مدل‌های استدلالی Open Source را به راه انداخت.

اکوسیستم Open Source به سرعت حرکت کرده است. مدل‌های QwQ از Qwen، انواع استدلالی Mistral، و مشتقات Llama تنظیم‌شده با استدلال آتی متا همگی برای همان سطوح عملکردی رقابت می‌کنند که رهبران اختصاصی، اغلب ظرف ماه‌ها پس از هر دستاورد Benchmark جدید.

محدودیت‌ها — و آنچه در ادامه می‌آید

محاسبه در زمان استنتاج یک ناهار رایگان نیست. محدودیت آشکار هزینه است: مدلی که ۳۲٬۰۰۰ Token استدلال به ازای هر پاسخ مصرف می‌کند، به طور چشمگیری در هر query گران‌تر از همان مدل در حالت استاندارد است. برای برنامه‌های با حجم بالا و حساس به تأخیر، این همچنان یک مانع واقعی است.

همچنین محدودیت‌های کیفی برای این که TTC تا چه حد می‌تواند مدلی را که شکاف‌های اساسی در آموزش خود دارد، پیش ببرد، وجود دارد. تفکر گسترش‌یافته به مدل کمک می‌کند تا درباره چیزهایی که قبلاً پیشینیان خوبی در مورد آنها دارد، بهتر استدلال کند — از هیچ دانشی ایجاد نمی‌کند. مدلی با پوشش دامنه ضعیف همچنان استدلال معیوبی تولید خواهد کرد، فقط با طول بیشتر.

جالب‌ترین مرز تحقیقاتی، کارآمدتر کردن TTC است: روش‌های آموزشی بهتر که به مدل‌ها می‌آموزد بودجه استدلال را به طور مناسب تخصیص دهند، Reward Model های فرآیندی که می‌توانند کیفیت استدلال را در میانه زنجیره قضاوت کنند، و تکنیک‌های Speculative Decoding که اجازه می‌دهند چندین مسیر استدلال به صورت موازی اجرا و ادغام شوند. نتایج اولیه نشان می‌دهد که کارایی را می‌توان ۳ تا ۵ برابر بدون کاهش دقت بهبود داد.

پیامد عمیق‌تر این است که عملکرد هوش مصنوعی دیگر یک ویژگی ثابت یک checkpoint مدل نیست. این تابعی از این است که چقدر محاسبات مایل هستید در زمان استنتاج، روی کدام وظایف، تحت کدام محدودیت‌ها صرف کنید. این یک روش اساساً متفاوت برای تفکر درباره قابلیت هوش مصنوعی است — و شروع به شکل‌دهی دوباره به نحوه ارزیابی و استقرار سیستم‌های هوش مصنوعی توسط شرکت‌ها کرده است.

مدل‌های آموزش‌دیده امروز سال آینده به طور قابل توجهی توانمندتر خواهند بود — نه به این دلیل که کسی وزن‌های آنها را به‌روز کرده است، بلکه به این دلیل که سیستم‌های اجراکننده آنها یاد خواهند گرفت طولانی‌تر و هوشمندانه‌تر درباره چیزهایی که واقعاً اهمیت دارند فکر کنند.