ترکیب خبرگان: چگونه مدل‌های تنک هوش مصنوعی بدون افزایش هزینه مقیاس‌پذیر می‌شوند

ترکیب خبرگان (MoE) ترفندی معماری است که پشت برخی از توانمندترین مدل‌های هوش مصنوعی امروزی قرار دارد. GPT-4، Gemini 1.5، Mixtral 8x22B و DeepSeek V3 همگی از آن استفاده می‌کنند. ایده ساده است: به جای اینکه هر ورودی از کل شبکه عصبی عبور کند، یک لایه مسیریابی یادگرفته، زیرشبکه‌های تخصصی کوچکی را به نام «خبرگان» برای هر توکن انتخاب می‌کند. بقیه خبرگان غیرفعال می‌مانند.

نتیجه مدلی است که می‌تواند صدها میلیارد پارامتر داشته باشد اما در هر لحظه فقط کسری از آن‌ها فعال می‌شوند. Mixtral 8x22B در مجموع ۱۴۱ میلیارد پارامتر دارد اما تنها ۳۹ میلیارد پارامتر در هر گذر رو به جلو فعال است. به طور گسترده اعتقاد بر این است که Gemini 1.5 Pro حدود یک تریلیون پارامتر کل دارد که بسته به وظیفه، ۲ تا ۳۲ خبرگان به ازای هر توکن فعال می‌شوند. هزینه محاسباتی متناسب با پارامترهای فعال است، نه کل پارامترها – به همین دلیل مدل‌های MoE می‌توانند عملکرد مدل متراکم را با کسری از هزینه استنتاج ارائه دهند.

چرا مدل‌های متراکم به دیوار می‌خورند

ترانسفورمرهای متراکم – جایی که هر پارامتر هر توکن را پردازش می‌کند – با قانون مقیاس‌گذاری بیروحی مواجه هستند: دو برابر کردن کیفیت مدل تقریباً به ۸ برابر محاسبات نیاز دارد. مدل GPT-3 با ۱۷۵ میلیارد پارامتر هزینه‌ای صدها میلیون دلاری برای آموزش داشت. مقیاس‌گذاری به GPT-4 نیازمند تغییرات معماری بود، نه فقط پارامترهای بیشتر، زیرا هزینه محاسباتی خام یک مدل کاملاً متراکم در آن مقیاس برای همه به جز بزرگ‌ترین آزمایشگاه‌ها غیرقابل تحمل بود.

MoE با جدا کردن تعداد پارامترها از محاسبات از این مشکل عبور می‌کند. مدلی با ۱ تریلیون پارامتر در ۶۴ خبرگان، که ۲ خبرگان همزمان فعال هستند، هر توکن را از طریق حدود ۳۰ میلیارد پارامتر فعال پردازش می‌کند. شما ظرفیت بازنمایی یک مدل عظیم را بدون پرداخت هزینه کامل استنتاج در هر پرس و جو به دست می‌آورید.

مسئله مسیریابی

مؤلفه حیاتی هر مدل MoE مسیریاب است – یک شبکه یادگرفته کوچک که تصمیم می‌گیرد کدام خبرگان کدام توکن‌ها را پردازش کنند. سیستم‌های اولیه MoE از مسیریابی top-k استفاده می‌کردند: هر توکن را به k خبرگانی که بالاترین امتیاز را داشتند می‌فرستادند. ساده، اما مستعد فروپاشی. مسیریاب تمایل دارد از چند خبرگان محبوب بیش از حد استفاده کند و دیگران را نادیده بگیرد، و ظرفیتی را که برای آموزش هزینه کرده‌اید هدر دهد.

رویکردهای مدرن این مشکل را با توازن بار حل می‌کنند. Mixtral از یک مسیریاب noisy top-2 استفاده می‌کند که در طول آموزش نویز گاوسی اضافه می‌کند تا کاوش را تشویق کند. DeepSeek V3 توازن بار بدون تابع هزینه کمکی را معرفی کرد و از یک عبارت بایاس برای هدایت توکن‌ها به سمت خبرگان کم‌استفاده بدون آلوده کردن هدف آموزشی اصلی استفاده می‌کند. Switch Transformer گوگل از یک عامل ظرفیت – محدودیت سخت بر تعداد توکن‌هایی که هر خبرگان در هر بسته می‌تواند پردازش کند – برای اجبار توزیع استفاده کرد.

تخصصی شدن خبرگان به طور طبیعی از آموزش پدیدار می‌شود، بدون برنامه‌ریزی صریح. محققانی که درون‌های Mixtral را مطالعه کردند دریافتند که خبرگان مختلف حول حوزه‌های زبانی خوشه‌بندی می‌شوند: برخی در کدنویسی تخصص دارند، برخی در استدلال زبان طبیعی، برخی دیگر در متن چندزبانه. مسیریاب این را به صراحت نمی‌داند – یاد می‌گیرد با مشاهده ترکیبی که در طول آموزش خروجی بهتری تولید می‌کند، کدام خبرگان را فراخوانی کند.

سرویس‌دهی MoE: چالش حافظه

کارایی‌ها با یک هزینه همراه است. پارامترهای کل یک مدل باید در حافظه GPU جا بگیرند، حتی اگر فقط کسری از آن‌ها در هر توکن فعال باشند. Mixtral 8x22B حدود ۲۸۰ گیگابایت حافظه GPU در float16 نیاز دارد – حداقل چهار عدد از GPUهای A100 80GB. برای استنتاج در مقیاس، این به معنای سخت‌افزار گران یا کوانت‌سازی تهاجمی است.

کوانت‌سازی کمک قابل توجهی می‌کند. اجرای Mixtral 8x22B با دقت ۴ بیت الزامات حافظه را به حدود ۷۰ گیگابایت کاهش می‌دهد – قابل دستیابی روی دو GPU A100. افت کیفیت برای اکثر وظایف ناچیز است. کوانت‌سازی ۸ بیتی با روش‌های GPTQ یا AWQ اکنون برای استقرارهای MoE تولیدی استاندارد است و روش‌های ۴ بیتی مانند GGUF (مورد استفاده llama.cpp) بزرگ‌ترین مدل‌های MoE متن‌باز را روی سخت‌افزار مصرفی با ۶۴-۱۲۸ گیگابایت RAM اجرا می‌کنند.

چالش دیگر موازی‌سازی خبرگان در سرویس‌دهی توزیع‌شده است. هنگامی که خبرگان روی GPUهای مختلف قرار دارند، تصمیم مسیریاب تعیین می‌کند کدام GPU کدام توکن را پردازش کند – نیازمند ارتباط همه‌به‌همه در هر لایه MoE. در مقیاس استنتاج، این سربار شبکه انباشته می‌شود. فریم‌ورک‌هایی مانند vLLM و DeepSpeed بهینه‌سازی‌های تخصصی سرویس‌دهی MoE را برای به حداقل رساندن دورهای ارتباطی و فراخوانی مؤثر دسته‌ای خبرگان اضافه کرده‌اند.

MoE در مقابل متراکم: چه زمانی واقعاً برنده است

مدل‌های MoE در دو سناریو عالی عمل می‌کنند: وظایفی که نیاز به وسعت دانش در حوزه‌های متعدد دارند و استنتاج با توان عملیاتی بالا که می‌توان از اجرای موازی خبرگان بهره برد.

برای یک دستیار کدنویسی که سوالات زبان طبیعی، متن حقوقی و استدلال ریاضی را نیز مدیریت می‌کند، MoE به مدل اجازه می‌دهد مدارهای تخصصی برای هر حوزه حفظ کند بدون اینکه محاسبات را متناسباً مقیاس کند. Mixtral 8x7B – ۱۳ میلیارد پارامتر فعال از مجموع ۴۷ میلیارد – به طور مداوم Llama 2 70B را در معیارهای استاندارد شکست می‌دهد در حالی که سرویس‌دهی سریع‌تری دارد. این یک مدل متراکم با ۵ برابر پارامترهای فعال است که به یک مدل تنک می‌بازد.

مبادله در برنامه‌های حساس به تأخیر ظاهر می‌شود. مسیریابی MoE یک مرحله اضافه می‌کند و انتخاب خبرگان باید قبل از محاسبه انجام شود، بنابراین زمان تا اولین توکن کمی بیشتر از یک مدل متراکم با اندازه مشابه است. برای استنتاج دسته‌ای – پردازش همزمان پرس‌وجوهای متعدد – این به سختی اهمیت دارد. برای برنامه‌های بلادرنگ تک‌پرس‌وجو، شکاف قابل درک است، هرچند بر حسب میلی‌ثانیه اندازه‌گیری می‌شود نه ثانیه.

چه چیزی در راه است: خبرگان دانه‌بندی‌شده و مشترک

DeepSeek V3 بهبودی به نام خبرگان مشترک معرفی کرد – زیرمجموعه‌ای از اسلات‌های خبرگان که هر توکن را بدون توجه به مسیریابی دریافت می‌کنند. این خبرگان دانش مشترک در تمام ورودی‌ها را می‌گیرند، در حالی که خبرگان مسیریابی‌شده تخصصی پردازش حوزه‌ای را انجام می‌دهند. نتیجه آموزش پایدارتر و عملکرد بهتر در معیارهای عمومی است، بدون بی‌ثباتی ناشی از مسیریابی تنک خالص.

جهت دیگر دانه‌بندی ریزتر است: به جای ۸ یا ۱۶ خبرگان بزرگ، از ۶۴ یا ۱۲۸ خبرگان کوچک استفاده کنید و هر توکن را به ۴ تا ۸ عدد از آن‌ها مسیریابی کنید. تصمیمات مسیریابی بیشتر، اما توزیع بار بهتر و تخصصی‌سازی دقیق‌تر. DeepSeek-MoE این رویکرد را نشان داد و نشان داد MoE دانه‌بندی‌شده در تعداد پارامترهای فعال معادل از MoE درشت‌دانه بهتر عمل می‌کند.

همچنین علاقه رو به رشدی به اعمال اصول MoE در حوزه‌های فراتر از متن وجود دارد. ترکیب خبرگان برای ترانسفورمرهای بینایی که روی نواحی مختلف تصویر یا مؤلفه‌های فرکانس اعمال می‌شود، یک جهت تحقیقاتی فعال است. اگر نتایج متنی باقی بماند، MoE چندحالته می‌تواند به یک مدل واحد اجازه دهد تصاویر، کد و زبان را در سطح کیفی پردازش کند که در غیر این صورت به مدل‌های تخصصی جداگانه نیاز داشت.

MoE یک گلوله جادویی نیست. حافظه را با محاسبات مبادله می‌کند، نیاز به توازن بار دقیق دارد و استنتاج توزیع‌شده را پیچیده می‌کند. اما با تبدیل شدن هزینه‌های سرویس‌دهی به یک محدودیت استراتژیک برای هر آزمایشگاه هوش مصنوعی و شرکتی که مدل‌ها را در مقیاس استقرار می‌دهد، انتخاب معماری بین متراکم و تنک دیگر آکادمیک نیست. تقریباً هر مدل مرزی منتشر شده در ۲۰۲۵-۲۰۲۶ از نوعی فعال‌سازی تنک استفاده می‌کند.

این تصادفی نیست. این یک تغییر ساختاری در نحوه ساخت مدل‌های زبانی بزرگ است – و از هم‌اکنون در مدل‌هایی که امروز استفاده می‌کنید جاسازی شده است.