الحوسبة في وقت الاستنتاج تعيد كتابة أداء الذكاء الاصطناعي — دون تدريب نموذج جديد واحد | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

لأكثر part من العقد الماضي، كان المنطق السائد في أبحاث الذكاء الاصطناعي بسيطًا: المزيد من الحوسبة التدريبية، المزيد من البيانات، نموذج أفضل. توسيع نطاق مرحلة ما قبل التدريب يجعل النموذج أكثر ذكاءً. هذا المنطق دفع تقدمًا استثنائيًا — لكنه أيضًا مكلف، بطيء، ويواجه بشكل متزايد جدرانًا عملية. تدريب نموذج حدي يكلف الآن مئات الملايين من الدولارات ويستغرق شهورًا.

ثورة هادئة تتشكل على الجانب الآخر من المعادلة: وقت الاستنتاج. بدلاً من السؤال عما يمكن للنموذج فعله بمقدار ثابت من الحوسبة في وقت التدريب، يطرح الباحثون وفرق المنتج سؤالًا مختلفًا — ما الذي يمكن للنموذج فعله إذا أعطيته المزيد من الحوسبة في لحظة إجابته الفعلية؟

ما هي الحوسبة في وقت الاستنتاج فعليًا

الحوسبة في وقت الاستنتاج (TTC) — وتسمى أيضًا توسيع نطاق وقت الاستنتاج أو التفكير الممتد — تشير إلى السماح للنموذج باستخدام حوسبة إضافية عند توليد استجابة. بدلاً من إنتاج إجابة في تمريرة أمامية واحدة، يمكن للنموذج توليد خطوات استدلال وسيطة، والتحقق من عمله الخاص، واستكشاف مسارات حل متعددة، والمراجعة قبل الالتزام بناتج نهائي.

أبسط نسخة من ذلك هي chain-of-thought prompting: توجيه النموذج للتفكير خطوة بخطوة. لكن TTC الحديثة تذهب أبعد من ذلك بكثير. تستخدم نماذج o1 و o3 من OpenAI عملية استدلال مدربة بـ reinforcement learning تنفق كميات متغيرة من الحوسبة اعتمادًا على صعوبة المشكلة. وضع التفكير الممتد Claude من Anthropic يخصص Token استدلال قبل الاستجابة المرئية. عائلة R1 من DeepSeek دربت خصيصًا للاستدلال في سلاسل طويلة قبل الإجابة.

النتائج مذهلة. على Benchmark الرياضيات مثل AIME و MATH، تسجل نماذج الاستدلال 20–40 نقطة مئوية أعلى من نظيراتها غير الاستدلالية من نفس عدد المعاملات. على Benchmark البرمجة، الفجوة كبيرة بالمثل. في المشاكل المعقدة متعددة الخطوات — النوع الذي يتطلب الاحتفاظ بالسياق عبر العديد من الخطوات المنطقية — تتفوق نماذج TTC باستمرار على النماذج الأكبر تقنيًا ولكنها لا تستخدم الاستدلال الممتد.

لماذا هذا يغير المقايضة

التوسع التقليدي يقول: للحصول على نموذج أكثر ذكاءً، أنفق المزيد على ما قبل التدريب. تلك التكلفة تدفع مرة واحدة وتُستهلك عبر كل استنتاج. الحوسبة في وقت الاستنتاج تقلب هذا: أنفق المزيد في وقت الاستنتاج، عند الطلب، فقط عندما تحتاج المهمة ذلك.

هذا له آثار كبيرة على كيفية نشر الذكاء الاصطناعي عمليًا. نموذج يعمل في سياق خدمة العملاء لا يحتاج إلى تفكير ممتد للإجابة عن سؤال استرداد — السرعة والرخص كافيان. نفس النموذج الذي يحل مشكلة تصحيح أخطاء جديدة أو يصوغ تحليلًا قانونيًا قد يستفيد كثيرًا من إنفاق عشرة أضعاف الحوسبة على تلك الاستجابة الواحدة. TTC تسمح للأنظمة بالمعايرة وفقًا لذلك.

جعلت OpenAI هذا صريحًا من خلال ميزانيات الحوسبة o3 — يمكنك حرفيًا إخبار النموذج بكم حوسبة تفكير لاستخدامها، مقايضة التكلفة بالقدرة. لمسودة سريعة، تستخدم الحد الأدنى من Token التفكير. لتدقيق أو مشكلة برمجة تنافسية، ترفعها إلى الحد الأقصى. يصبح الذكاء الفعلي للنموذج مقبضًا، وليس سقفًا ثابتًا.

اللاعبون الذين يقودون التحول

سلسلة o من OpenAI (o1، o1-mini، o3، o4-mini) أسست نماذج الاستدلال كفئة منتج. تبعت Google بـ Gemini 2.0 Flash Thinking و Gemini 2.0 Pro الكامل، الذي يدمج chain-of-thought reasoning في بنيته العامة. أظهرت نماذج Claude Sonnet و Opus من Anthropic مع التفكير الممتد نتائج قوية بشكل خاص في الاستدلال الرياضي والعلمي. نموذج R1 من DeepSeek — المدرب بطريقة تحسين سياسة نسبية جماعية جديدة — أثبت أن قدرة الاستدلال يمكن تحقيقها بجزء صغير من التكلفة، مما أطلق موجة من تطوير نماذج الاستدلال Open Source.

تحرك النظام البيئي Open Source بسرعة. نماذج QwQ من Qwen، ومتغيرات الاستدلال من Mistral، ومشتقات Llama المضبوطة بالاستدلال القادمة من Meta كلها تتنافس على نفس مستويات الأداء مثل القادة المملوكين، غالبًا في غضون أشهر من كل إنجاز Benchmark جديد.

الحدود — وما يأتي بعد ذلك

الحوسبة في وقت الاستنتاج ليست وجبة مجانية. القيد الواضح هو التكلفة: نموذج ينفق 32,000 Token استدلال لكل استجابة هو أغلى بكثير لكل query من نفس النموذج في الوضع القياسي. للتطبيقات عالية الحجم والحساسة للتأخير، يظل هذا عائقًا حقيقيًا.

هناك أيضًا حدود جودة لمدى قدرة TTC على دفع نموذج لديه فجوات أساسية في تدريبه. التفكير الممتد يساعد النموذج على الاستدلال بشكل أفضل حول الأشياء التي لديه بالفعل معلومات سابقة جيدة عنها — لا يخلق المعرفة من العدم. النموذج ذو التغطية الضعيفة للمجال سيظل ينتج استدلالًا معيبًا، فقط بطول أكبر.

الحدود البحثية الأكثر إثارة للاهتمام هي جعل TTC أكثر كفاءة: طرق تدريب أفضل تعلم النماذج تخصيص ميزانية الاستدلال بشكل مناسب، ونماذج Reward عملياتية يمكنها الحكم على جودة الاستدلال منتصف السلسلة، وتقنيات Speculative Decoding التي تسمح بتشغيل مسارات استدلال متعددة بالتوازي ودمجها. تشير النتائج المبكرة إلى أن الكفاءة قابلة للتحسين بمقدار 3–5 مرات دون التضحية بالدقة.

الآثار الأعمق هي أن أداء الذكاء الاصطناعي لم يعد خاصية ثابتة لنقطة checkpoint نموذج. إنها دالة على مقدار الحوسبة المستعد لإنفاقها في وقت الاستنتاج، على أي مهام، وتحت أي قيود. هذه طريقة مختلفة جوهريًا للتفكير في قدرة الذكاء الاصطناعي — وبدأت تعيد تشكيل كيفية تقييم المؤسسات ونشر أنظمة الذكاء الاصطناعي.

النماذج المدربة اليوم ستكون أكثر قدرة بشكل كبير العام المقبل — ليس لأن أحدًا قام بتحديث أوزانها، ولكن لأن الأنظمة التي تديرها ستتعلم التفكير لفترة أطول وبذكاء أكبر حول الأشياء التي تهم حقًا.