مزيج الخبراء: كيف تتوسع نماذج الذكاء الاصطناعي المتناثرة دون زيادة التكاليف

مزيج الخبراء (MoE) هو الحيلة المعمارية وراء بعض من أقوى نماذج الذكاء الاصطناعي قيد التشغيل اليوم. تستخدمه GPT-4 و Gemini 1.5 و Mixtral 8x22B و DeepSeek V3 جميعاً. الفكرة أنيقة: بدلاً من مرور كل مدخل عبر الشبكة العصبية بأكملها، تقوم طبقة توجيه متعلمة باختيار مجموعة فرعية صغيرة من الشبكات الفرعية المتخصصة – تسمى "الخبراء" – للتعامل مع كل توكن. يبقى الباقون خاملين.

النتيجة هي نموذج يمكن أن يحتوي على مئات المليارات من المعاملات بينما ينشط جزءاً صغيراً منها فقط في أي لحظة. يحتوي Mixtral 8x22B على 141 مليار معامل إجمالي ولكن 39 ملياراً فقط نشطة لكل تمريرة أمامية. يُعتقد على نطاق واسع أن Gemini 1.5 Pro لديه حوالي تريليون معامل إجمالي، مع تفعيل 2 إلى 32 خبيراً لكل توكن حسب المهمة. تتبع تكلفة الحوسبة المعاملات النشطة، وليس الإجمالي – ولهذا السبب يمكن لنماذج MoE تقديم أداء النموذج الكثيف بجزء صغير من تكلفة الاستدلال.

لماذا تصطدم النماذج الكثيفة بالجدار

المحولات الكثيفة – حيث يعالج كل معامل كل توكن – تواجه قانون تحجيم قاسياً: مضاعفة جودة النموذج تتطلب تقريباً 8 أضعاف الحوسبة. كلف نموذج GPT-3 الذي يحتوي على 175 مليار معامل مئات الملايين من الدولارات للتدريب. تطلب التوسع إلى GPT-4 تغييرات معمارية، وليس فقط المزيد من المعاملات، لأن تكلفة الحوسبة الخام لنموذج كثيف حقاً بهذا الحجم كانت ستكون باهظة لجميع المختبرات باستثناء الأكبر.

يتجاوز MoE هذه المشكلة بفصل عدد المعاملات عن الحوسبة. نموذج يحتوي على تريليون معامل عبر 64 خبيراً، حيث 2 نشطان في وقت واحد، يعالج كل توكن من خلال حوالي 30 مليار معامل نشط. تحصل على القدرة التمثيلية لنموذج ضخم دون دفع فاتورة الاستدلال الكاملة على كل استعلام.

مشكلة التوجيه

المكون الحاسم لأي نموذج MoE هو الموجه – شبكة صغيرة متعلمة تقرر أي الخبراء يعالج أي التوكنات. استخدمت أنظمة MoE المبكرة التوجيه من أعلى k: أرسل كل توكن إلى أفضل k من الخبراء المسجلين. بسيط، لكنه عرضة للانهيار. يميل الموجه إلى الإفراط في استخدام عدد قليل من الخبراء المشهورين وتجاهل الآخرين، مما يهدر السعة التي دفعت ثمنها في التدريب.

تعالج الأساليب الحديثة هذا الأمر من خلال موازنة الحمل. تستخدم Mixtral موجه top-2 مع ضوضاء يضيف ضوضاء غاوسية أثناء التدريب لتشجيع الاستكشاف. قدم DeepSeek V3 موازنة حمل بدون دالة خسارة مساعدة، باستخدام مصطلح انحياز لتوجيه التوكنات نحو الخبراء قليلي الاستخدام دون تلويث هدف التدريب الرئيسي. استخدم Switch Transformer من جوجل عامل سعة – حد صارم لعدد التوكنات التي يمكن لأي خبير واحد معالجتها لكل دفعة – لفرض التوزيع.

ينشأ التخصص الخبير بشكل طبيعي من التدريب، دون أن يتم برمجته بشكل صريح. وجد الباحثون الذين يدرسون داخلية Mixtral أن الخبراء المختلفين يتجمعون حول مجالات لغوية: بعضهم يتخصص في الكود، والبعض الآخر في الاستدلال باللغة الطبيعية، وآخرون في النص متعدد اللغات. لا يعرف الموجه هذا بشكل صريح – يتعلم أي خبير يستدعي بملاحظة أي مجموعة تنتج مخرجات أفضل أثناء التدريب.

تقديم MoE: تحدي الذاكرة

تأتي مكاسب الكفاءة مع عقبة. يجب أن تتناسب المعاملات الإجمالية للنموذج في ذاكرة GPU، حتى لو كان جزء صغير منها نشطاً لكل توكن. يتطلب Mixtral 8x22B حوالي 280 جيجابايت من ذاكرة GPU بتنسيق float16 – أربعة على الأقل من وحدات GPU A100 80GB فائقة الجودة. للاستدلال على نطاق واسع، يعني هذا إما أجهزة باهظة الثمن أو تكميماً قوياً.

يساعد التكميم بشكل كبير. تشغيل Mixtral 8x22B بدقة 4 بت يقلل متطلبات الذاكرة إلى حوالي 70 جيجابايت – يمكن تحقيقه على وحدتي GPU A100. فقدان الجودة ضئيل لمعظم المهام. أصبح التكميم 8 بت باستخدام طرق GPTQ أو AWQ الآن معياراً لنشر MoE في الإنتاج، وطرق 4 بت مثل GGUF (المستخدمة من قبل llama.cpp) تسمح لأكبر نماذج MoE مفتوحة المصدر بالعمل على أجهزة استهلاكية بذاكرة RAM سعة 64-128 جيجابايت.

تحدٍ آخر هو التوازي الخبير في التقديم الموزع. عندما تكون الخبراء على وحدات GPU مختلفة، يحدد قرار التوجيه أي GPU يعالج أي توكن – مما يتطلب اتصالاً من الكل إلى الكل في كل طبقة MoE. على نطاق الاستدلال، يتراكم هذا الحمل الزائد للشبكة. أضافت أطر مثل vLLM و DeepSpeed تحسينات متخصصة لخدمة MoE لتقليل جولات الاتصال واستدعاء الخبراء في دفعات بشكل فعال.

MoE مقابل الكثيف: متى يفوز فعلياً

تتفوق نماذج MoE في سيناريوهين: المهام التي تتطلب اتساع المعرفة عبر مجالات متعددة، والاستدلال عالي الإنتاجية حيث يمكن استغلال تنفيذ الخبراء المتوازي.

لمساعد برمجة يتعامل أيضاً مع أسئلة اللغة الطبيعية والنصوص القانونية والاستدلال الرياضي، يسمح MoE للنموذج بالحفاظ على دوائر متخصصة لكل مجال دون تحجيم الحوسبة نسبياً. Mixtral 8x7B – 13 مليار معامل نشط من أصل 47 مليار إجمالي – يتفوق باستمرار على Llama 2 70B في المعايير القياسية بينما يكون أسرع في التقديم. هذا نموذج كثيف مع 5 أضعاف المعاملات النشطة، يخسر أمام نموذج متناثر.

يظهر المقايض في التطبيقات الحساسة لزمن الوصول. تضيف توجيه MoE خطوة، ويجب أن يحدث اختيار الخبير قبل الحساب، لذا فإن الوقت حتى أول توكن أعلى قليلاً من نموذج كثيف مماثل الحجم. بالنسبة للاستدلال الجماعي – معالجة استعلامات متعددة في وقت واحد – هذا لا يكاد يهم. بالنسبة للتطبيقات في الوقت الفعلي أحادية الاستعلام، الفجوة ملحوظة، وإن كانت تقاس بالمللي ثانية وليس الثواني.

ما هو قادم: خبراء حبيبيون ومشتركون

قدم DeepSeek V3 تحسيناً يسمى الخبراء المشتركين – مجموعة فرعية من فتحات الخبير التي تتلقى كل توكن بغض النظر عن التوجيه. هذه تلتقط المعرفة المشتركة عبر جميع المدخلات، بينما يتولى الخبراء الموجهون المتخصصون المعالجة الخاصة بالمجال. والنتيجة هي تدريب أكثر استقراراً وأداء أفضل على المعايير العامة، دون عدم الاستقرار الناجم عن التوجيه المتناثر الخالص.

اتجاه آخر هو الدقة الأكبر: بدلاً من 8 أو 16 خبيراً كبيراً، استخدم 64 أو 128 خبيراً صغيراً وقم بتوجيه كل توكن إلى 4-8 منهم. المزيد من قرارات التوجيه، لكن توزيع أفضل للحمل وتخصص أكثر دقة. أظهر DeepSeek-MoE هذا النهج، موضحاً أن MoE الحبيبي يتفوق على MoE الخشن بعدد معاملات نشط مكافئ.

هناك أيضاً اهتمام متزايد بتطبيق مبادئ MoE على أساليب تتجاوز النص. مزيج الخبراء لمحولات الرؤية، المطبق على مناطق صور مختلفة أو مكونات تردد، هو اتجاه بحثي نشط. إذا ثبتت نتائج النص، يمكن لـ MoE متعدد الوسائط أن يسمح لنموذج واحد بمعالجة الصور والكود واللغة بمستوى جودة كان سيتطلب نماذج متخصصة منفصلة بخلاف ذلك.

MoE ليس رصاصة سحرية. إنه يقايض الذاكرة بالحوسبة، ويتطلب موازنة حمل دقيقة، ويعقد الاستدلال الموزع. ولكن مع تكاليف التقديم تصبح قيداً استراتيجياً لكل مختبر ذكاء اصطناعي ومؤسسة تنشر نماذج على نطاق واسع، فإن الخيار المعماري بين الكثيف والمتناثر لم يعد أكاديمياً. تقريباً كل نموذج رائد تم إصداره في 2025-2026 يستخدم شكلاً من أشكال التنشيط المتناثر.

هذه ليست مصادفة. إنها تحول هيكلي في كيفية بناء نماذج اللغة الكبيرة – وهي مدمجة بالفعل في النماذج التي تستخدمها اليوم.