ترکیب خبرگان: چگونه مدلهای تنک هوش مصنوعی بدون افزایش هزینه مقیاسپذیر میشوند

ترکیب خبرگان (MoE) ترفندی معماری است که پشت برخی از توانمندترین مدلهای هوش مصنوعی امروزی قرار دارد. GPT-4، Gemini 1.5، Mixtral 8x22B و DeepSeek V3 همگی از آن استفاده میکنند. ایده ساده است: به جای اینکه هر ورودی از کل شبکه عصبی عبور کند، یک لایه مسیریابی یادگرفته، زیرشبکههای تخصصی کوچکی را به نام «خبرگان» برای هر توکن انتخاب میکند. بقیه خبرگان غیرفعال میمانند.
نتیجه مدلی است که میتواند صدها میلیارد پارامتر داشته باشد اما در هر لحظه فقط کسری از آنها فعال میشوند. Mixtral 8x22B در مجموع ۱۴۱ میلیارد پارامتر دارد اما تنها ۳۹ میلیارد پارامتر در هر گذر رو به جلو فعال است. به طور گسترده اعتقاد بر این است که Gemini 1.5 Pro حدود یک تریلیون پارامتر کل دارد که بسته به وظیفه، ۲ تا ۳۲ خبرگان به ازای هر توکن فعال میشوند. هزینه محاسباتی متناسب با پارامترهای فعال است، نه کل پارامترها – به همین دلیل مدلهای MoE میتوانند عملکرد مدل متراکم را با کسری از هزینه استنتاج ارائه دهند.
چرا مدلهای متراکم به دیوار میخورند
ترانسفورمرهای متراکم – جایی که هر پارامتر هر توکن را پردازش میکند – با قانون مقیاسگذاری بیروحی مواجه هستند: دو برابر کردن کیفیت مدل تقریباً به ۸ برابر محاسبات نیاز دارد. مدل GPT-3 با ۱۷۵ میلیارد پارامتر هزینهای صدها میلیون دلاری برای آموزش داشت. مقیاسگذاری به GPT-4 نیازمند تغییرات معماری بود، نه فقط پارامترهای بیشتر، زیرا هزینه محاسباتی خام یک مدل کاملاً متراکم در آن مقیاس برای همه به جز بزرگترین آزمایشگاهها غیرقابل تحمل بود.
MoE با جدا کردن تعداد پارامترها از محاسبات از این مشکل عبور میکند. مدلی با ۱ تریلیون پارامتر در ۶۴ خبرگان، که ۲ خبرگان همزمان فعال هستند، هر توکن را از طریق حدود ۳۰ میلیارد پارامتر فعال پردازش میکند. شما ظرفیت بازنمایی یک مدل عظیم را بدون پرداخت هزینه کامل استنتاج در هر پرس و جو به دست میآورید.
مسئله مسیریابی
مؤلفه حیاتی هر مدل MoE مسیریاب است – یک شبکه یادگرفته کوچک که تصمیم میگیرد کدام خبرگان کدام توکنها را پردازش کنند. سیستمهای اولیه MoE از مسیریابی top-k استفاده میکردند: هر توکن را به k خبرگانی که بالاترین امتیاز را داشتند میفرستادند. ساده، اما مستعد فروپاشی. مسیریاب تمایل دارد از چند خبرگان محبوب بیش از حد استفاده کند و دیگران را نادیده بگیرد، و ظرفیتی را که برای آموزش هزینه کردهاید هدر دهد.
رویکردهای مدرن این مشکل را با توازن بار حل میکنند. Mixtral از یک مسیریاب noisy top-2 استفاده میکند که در طول آموزش نویز گاوسی اضافه میکند تا کاوش را تشویق کند. DeepSeek V3 توازن بار بدون تابع هزینه کمکی را معرفی کرد و از یک عبارت بایاس برای هدایت توکنها به سمت خبرگان کماستفاده بدون آلوده کردن هدف آموزشی اصلی استفاده میکند. Switch Transformer گوگل از یک عامل ظرفیت – محدودیت سخت بر تعداد توکنهایی که هر خبرگان در هر بسته میتواند پردازش کند – برای اجبار توزیع استفاده کرد.
تخصصی شدن خبرگان به طور طبیعی از آموزش پدیدار میشود، بدون برنامهریزی صریح. محققانی که درونهای Mixtral را مطالعه کردند دریافتند که خبرگان مختلف حول حوزههای زبانی خوشهبندی میشوند: برخی در کدنویسی تخصص دارند، برخی در استدلال زبان طبیعی، برخی دیگر در متن چندزبانه. مسیریاب این را به صراحت نمیداند – یاد میگیرد با مشاهده ترکیبی که در طول آموزش خروجی بهتری تولید میکند، کدام خبرگان را فراخوانی کند.
سرویسدهی MoE: چالش حافظه
کاراییها با یک هزینه همراه است. پارامترهای کل یک مدل باید در حافظه GPU جا بگیرند، حتی اگر فقط کسری از آنها در هر توکن فعال باشند. Mixtral 8x22B حدود ۲۸۰ گیگابایت حافظه GPU در float16 نیاز دارد – حداقل چهار عدد از GPUهای A100 80GB. برای استنتاج در مقیاس، این به معنای سختافزار گران یا کوانتسازی تهاجمی است.
کوانتسازی کمک قابل توجهی میکند. اجرای Mixtral 8x22B با دقت ۴ بیت الزامات حافظه را به حدود ۷۰ گیگابایت کاهش میدهد – قابل دستیابی روی دو GPU A100. افت کیفیت برای اکثر وظایف ناچیز است. کوانتسازی ۸ بیتی با روشهای GPTQ یا AWQ اکنون برای استقرارهای MoE تولیدی استاندارد است و روشهای ۴ بیتی مانند GGUF (مورد استفاده llama.cpp) بزرگترین مدلهای MoE متنباز را روی سختافزار مصرفی با ۶۴-۱۲۸ گیگابایت RAM اجرا میکنند.
چالش دیگر موازیسازی خبرگان در سرویسدهی توزیعشده است. هنگامی که خبرگان روی GPUهای مختلف قرار دارند، تصمیم مسیریاب تعیین میکند کدام GPU کدام توکن را پردازش کند – نیازمند ارتباط همهبههمه در هر لایه MoE. در مقیاس استنتاج، این سربار شبکه انباشته میشود. فریمورکهایی مانند vLLM و DeepSpeed بهینهسازیهای تخصصی سرویسدهی MoE را برای به حداقل رساندن دورهای ارتباطی و فراخوانی مؤثر دستهای خبرگان اضافه کردهاند.
MoE در مقابل متراکم: چه زمانی واقعاً برنده است
مدلهای MoE در دو سناریو عالی عمل میکنند: وظایفی که نیاز به وسعت دانش در حوزههای متعدد دارند و استنتاج با توان عملیاتی بالا که میتوان از اجرای موازی خبرگان بهره برد.
برای یک دستیار کدنویسی که سوالات زبان طبیعی، متن حقوقی و استدلال ریاضی را نیز مدیریت میکند، MoE به مدل اجازه میدهد مدارهای تخصصی برای هر حوزه حفظ کند بدون اینکه محاسبات را متناسباً مقیاس کند. Mixtral 8x7B – ۱۳ میلیارد پارامتر فعال از مجموع ۴۷ میلیارد – به طور مداوم Llama 2 70B را در معیارهای استاندارد شکست میدهد در حالی که سرویسدهی سریعتری دارد. این یک مدل متراکم با ۵ برابر پارامترهای فعال است که به یک مدل تنک میبازد.
مبادله در برنامههای حساس به تأخیر ظاهر میشود. مسیریابی MoE یک مرحله اضافه میکند و انتخاب خبرگان باید قبل از محاسبه انجام شود، بنابراین زمان تا اولین توکن کمی بیشتر از یک مدل متراکم با اندازه مشابه است. برای استنتاج دستهای – پردازش همزمان پرسوجوهای متعدد – این به سختی اهمیت دارد. برای برنامههای بلادرنگ تکپرسوجو، شکاف قابل درک است، هرچند بر حسب میلیثانیه اندازهگیری میشود نه ثانیه.
چه چیزی در راه است: خبرگان دانهبندیشده و مشترک
DeepSeek V3 بهبودی به نام خبرگان مشترک معرفی کرد – زیرمجموعهای از اسلاتهای خبرگان که هر توکن را بدون توجه به مسیریابی دریافت میکنند. این خبرگان دانش مشترک در تمام ورودیها را میگیرند، در حالی که خبرگان مسیریابیشده تخصصی پردازش حوزهای را انجام میدهند. نتیجه آموزش پایدارتر و عملکرد بهتر در معیارهای عمومی است، بدون بیثباتی ناشی از مسیریابی تنک خالص.
جهت دیگر دانهبندی ریزتر است: به جای ۸ یا ۱۶ خبرگان بزرگ، از ۶۴ یا ۱۲۸ خبرگان کوچک استفاده کنید و هر توکن را به ۴ تا ۸ عدد از آنها مسیریابی کنید. تصمیمات مسیریابی بیشتر، اما توزیع بار بهتر و تخصصیسازی دقیقتر. DeepSeek-MoE این رویکرد را نشان داد و نشان داد MoE دانهبندیشده در تعداد پارامترهای فعال معادل از MoE درشتدانه بهتر عمل میکند.
همچنین علاقه رو به رشدی به اعمال اصول MoE در حوزههای فراتر از متن وجود دارد. ترکیب خبرگان برای ترانسفورمرهای بینایی که روی نواحی مختلف تصویر یا مؤلفههای فرکانس اعمال میشود، یک جهت تحقیقاتی فعال است. اگر نتایج متنی باقی بماند، MoE چندحالته میتواند به یک مدل واحد اجازه دهد تصاویر، کد و زبان را در سطح کیفی پردازش کند که در غیر این صورت به مدلهای تخصصی جداگانه نیاز داشت.
MoE یک گلوله جادویی نیست. حافظه را با محاسبات مبادله میکند، نیاز به توازن بار دقیق دارد و استنتاج توزیعشده را پیچیده میکند. اما با تبدیل شدن هزینههای سرویسدهی به یک محدودیت استراتژیک برای هر آزمایشگاه هوش مصنوعی و شرکتی که مدلها را در مقیاس استقرار میدهد، انتخاب معماری بین متراکم و تنک دیگر آکادمیک نیست. تقریباً هر مدل مرزی منتشر شده در ۲۰۲۵-۲۰۲۶ از نوعی فعالسازی تنک استفاده میکند.
این تصادفی نیست. این یک تغییر ساختاری در نحوه ساخت مدلهای زبانی بزرگ است – و از هماکنون در مدلهایی که امروز استفاده میکنید جاسازی شده است.