التشفير التخميني يقلص زمن استدلال LLM بنسبة تصل إلى 3 أضعاف دون فقدان الدقة

تولد نماذج اللغة الكبيرة النص Token تلو الآخر، وكل Token يتطلب تمريرًا كاملًا عبر مليارات المعاملات. هذا الاعتماد التسلسلي هو السبب الرئيسي لارتفاع تكلفة الاستدلال. التشفير التخميني يكسر هذا العنق الزجاجة — ليس بتعديل النموذج، بل بتغيير استراتيجية التوليد. يمكن لهذه التقنية تقليل زمن الاستجابة الفعلي بمقدار 2 إلى 3 أضعاف في مهام مثل إكمال الأكواد والمحادثة، دون أي انخفاض في جودة المخرجات.
الآلية الأساسية
يستخدم التشفير التخميني نموذجين: نموذج "مسودة" صغير ونموذج "هدف" كبير. يولد نموذج المسودة عدة Token مرشحة بسرعة. ثم يقيم النموذج الهدف كل تلك المرشحات في تمرير أمامي موازٍ واحد — يقبل الـ Token التي كان سيتنبأ بها بنفسه ويرفض الباقي. عند رفض Token، يعود التوليد إلى توزيع النموذج الهدف لذلك الموضع، وتُعاد العملية.
نظرًا لأن التمرير الأمامي للنموذج الهدف عبر مجموعة من Token المرشحة أغلى قليلاً فقط من تمرير Token واحد (بفضل التوازي في GPU)، فإن النتيجة الصافية هي توليد مزيد من Token لكل وحدة معالجة. تنجح العملية الحسابية عندما يكون نموذج المسودة متوافقًا مع النموذج الهدف — عادةً معدلات قبول Token تتراوح بين 70-85% في المهام الواقعية والمنظمة مثل توليد الأكواد.
لماذا معدل القبول هو كل شيء
يتناسب التسريع من التشفير التخميني طرديًا مع متوسط عدد Token المسودة المقبولة قبل الرفض. على معايير برمجة شائعة مثل HumanEval، تصل معدلات القبول مع نموذج مسودة متطابق إلى حوالي 75-80%، مما يؤدي إلى تقليل زمن الاستجابة بمقدار 2.5-3 أضعاف. في المهام الإبداعية المفتوحة، تنخفض معدلات القبول إلى 55-65%، ويتراجع التسريع إلى 1.5-2 أضعاف.
هذا يعني أن اختيار نموذج المسودة مهم للغاية. أظهر بحث من DeepMind في 2023 (ورقة التشفير التخميني الأصلية بقلم Leviathan وآخرون) أنه حتى فارق ثلاث مرات من حيث الحجم — مسودة بحجم 7B مقابل هدف بحجم 70B — لا يزال يحقق تسريعًا مفيدًا لأن تنبؤات النموذج الأصغر متوافقة بشكل مدهش مع الأكبر في المهام الهيكلية.
التشفير التخميني الذاتي: لا حاجة لنموذج مسودة
أحد العوائق العملية للتشفير التخميني في الإنتاج هو عبء تشغيل وصيانة نموذج مسودة منفصل. التشفير التخميني الذاتي، الذي طرحه باحثون من CMU وMicrosoft في 2024، يلغي هذه الحاجة. تستخدم الطريقة الخروج المبكر من الطبقات الوسيطة للنموذج الهدف نفسه كآلية للمسودة. تحديدًا، تمرر Token عبر مجموعة فرعية من طبقات النموذج لإنتاج مسودة سريعة، ثم تتحقق باستخدام النموذج الكامل.
طريقة EAGLE-2 (من باحثين في جامعة بكين، أيضًا 2024) تتبع نهجًا مختلفًا: تدرب "رأس مسودة" خفيفًا أحادي الطبقة يُلحق بالنموذج الهدف ويتنبأ بـ Token مستقبلية بناءً على الحالات الخفية الداخلية. حققت EAGLE-2 معدلات قبول فوق 80% على معيار MT-Bench وتفوقت على طرق التشفير التخميني السابقة بنسبة 20-40% في الإنتاجية على وحدات معالجة رسومية A100. يضيف رأس المسودة أقل من 1% إلى عدد معاملات النموذج.
النشر في الإنتاج
لم يعد التشفير التخميني مجرد فضول بحثي. تستخدمه بنية Google التحتية لخدمة Gemini في الإنتاج. وصفت Anthropic استخدام نهج تخمينية في خدمة Claude. أضاف إطار vLLM (أكثر مكتبة خدمة LLM مفتوحة المصدر استخدامًا، بأكثر من 30,000 نجمة على GitHub) دعم التشفير التخميني في الإصدار 0.3 في مطلع 2024.
بالنسبة للمؤسسات التي تدير أكوام الاستدلال الخاصة بها، الآثار العملية مباشرة: نفس الأجهزة التي تخدم نموذج 70B بمعدل 20 Token في الثانية يمكنها خدمة 50-60 Token في الثانية بتشفير تخميني مضبوط بشكل صحيح. هذا يعني تخفيضًا بمقدار 2.5-3 أضعاف في تكلفة كل Token دون أي تغييرات في النموذج أو ضغط أو مقايضات في الدقة.
القيود ومتى لا يفيد
يساعد التشفير التخميني في زمن الاستجابة — الوقت اللازم لتوليد الرد — لكنه لا يقلل من إجمالي الحساب. في الواقع، يزيد قليلاً من إجمالي FLOPs بسبب Token المسودة المرفوضة. هذا يعني أنه لا يقلل تكاليف الطاقة لكل طلب؛ بل يقلل وقت الإنجاز، وهو مهم لزمن استجابة المستخدم ولكن ليس لمعالجة الدفعات.
كما أن أداءه أسوأ في المهام عالية العشوائية: الكتابة الإبداعية، العصف الذهني، أو أي مخرجات يكون فيها النموذج غير متأكد بشدة في كل خطوة. في هذه الحالات، تنخفض معدلات قبول المسودة عن 60% ويبدأ عبء تشغيل نموذج المسودة في تآكل المكاسب.
خلاصات عملية
- إذا كنت تدير Llama 3.1 70B أو نماذج مماثلة باستخدام vLLM: فعّل التشفير التخميني مع نموذج أصغر مطابق (مثل Llama 3.2 3B كمسودة). توقع تحسنًا في زمن الاستجابة بمقدار 2-2.5 أضعاف في مهام المحادثة/البرمجة بأقل تكوين.
- إذا كنت تبني على واجهات API مستضافة: على الأرجح أن التشفير التخميني يعمل بالفعل في الخلفية. وجّه جهود التحسين نحو بنية الـ Prompt وكفاءة الـ Token بدلاً من ذلك.
- إذا كان زمن الاستجابة هو عنق الزجاجة ولكن ليس التكلفة: التشفير التخميني هو أفضل رافعة لديك — يتفوق على الضغط في المهام الحساسة للجودة ولا يتطلب إعادة تدريب النموذج.
- إذا كنت تقوم باستدلال دفعات (تلخيص، تصنيف على نطاق واسع): التشفير التخميني لن يفيد. ابحث عن التجميع المستمر والضغط بدلاً من ذلك.