دیوار حافظه در هوش مصنوعی: چرا HBM4 از نسل بعدی GPU مهم‌تر است

روایت پیرامون سخت‌افزار هوش مصنوعی همواره بر محور توان محاسباتی متمرکز بوده است: پتافلاپس، TFLOPS، تعداد هسته‌های تنسور و شمار ترانزیستورها. اما مرز عملکرد مدل‌های هوش مصنوعی در سال‌های ۲۰۲۵-۲۰۲۶ به طور فزاینده‌ای نه به سرعت محاسبات GPU، بلکه به سرعت خواندن داده‌ها محدود می‌شود. گلوگاه، پهنای باند حافظه است و پاسخ صنعت به آن HBM4 نام دارد.

حافظه با پهنای باند بالا (HBM) فناوری DRAM انباشته‌ای است که روی همان بسته‌ی تراشه‌ی GPU قرار می‌گیرد و از طریق هزاران اتصال الکتریکی کوتاه و عریض به نام از طریق-سیلیکون-ویا (TSV) متصل می‌شود. هر «انباشته» شامل چندین قالب DRAM است که به صورت عمودی به هم پیوند خورده‌اند و واسط بین آنها بسیار پهن‌تر و در نتیجه سریع‌تر از ردهای PCB است که حافظه‌ی معمولی خارج از بسته را متصل می‌کند. HBM3e که روی H200 انویدیا و Instinct MI325X ای‌ام‌دی عرضه می‌شود، تا ۴.۸ ترابایت بر ثانیه پهنای باند حافظه ارائه می‌دهد. HBM4 که در SK Hynix و سامسونگ در حال تولید است و در سال‌های ۲۰۲۵-۲۰۲۶ عرضه می‌شود، این رقم را فراتر از ۶ ترابایت بر ثانیه در هر انباشته می‌برد و پهنای باند میان-قالبی نیز از طریق یک واسط ۲۰۴۸-بیتی جدید افزایش چشمگیری می‌یابد.

چرا پهنای باند به گلوگاه تبدیل شد

مدل‌های ترانسفورمر مدرن در طول استنتاج به پهنای باند حافظه محدود هستند، وضعیتی که در طول آموزش صادق نبود. دلیل آن چنین است: آموزش دسته‌های بزرگی از داده را به طور همزمان از طریق مدل پردازش می‌کند، به این معنا که واحدهای محاسباتی GPU مشغول می‌مانند. اما استنتاج – پاسخ به یک پرسش کاربر – شامل اندازه‌های دسته‌ای بسیار کوچک‌تر، اغلب اندازه دسته ۱، است. در اندازه دسته ۱، GPU بیشتر وقت خود را صرف خواندن وزن‌های مدل از حافظه می‌کند و زمان نسبتاً کمی را صرف انجام عملیات حسابی روی آنها. نسبت عملیات حسابی به خواندن حافظه، که شدت حسابی نامیده می‌شود، پایین است.

برای مدلی مانند Llama 3 70B با دقت float16، برای هر عبور پیشرو باید حدود ۱۴۰ گیگابایت وزن از حافظه به واحد محاسبات منتقل شود. با پهنای باند H100 SXM5 معادل ۳.۳۵ ترابایت بر ثانیه، این کار حدود ۴۲ میلی‌ثانیه به ازای هر Token – قبل از هر محاسبه‌ی واقعی – زمان می‌برد. قدرت محاسباتی نظری ۲,۰۰۰ TFLOPS GPU عمدتاً بیکار می‌ماند و تشنه داده است. دو برابر کردن توان محاسبات بدون دو برابر کردن پهنای باند، تقریباً هیچ تغییری برای استنتاج تک‌کاربره ایجاد نمی‌کند.

این همان دیوار حافظه است: وضعیتی که در آن بهبودهای خام توان محاسباتی بازدهی کاهشی ایجاد می‌کند زیرا سیستم قادر به جابجایی سریع داده برای تغذیه پردازنده‌ها نیست.

HBM4 واقعاً چه تغییراتی ایجاد می‌کند

HBM4 فقط پهنای باند اضافه نمی‌کند – معماری نحوه اتصال حافظه به محاسبات را تغییر می‌دهد. HBM3e از یک واسط ۱۰۲۴-بیتی در هر انباشته استفاده می‌کند؛ HBM4 این رقم را به ۲۰۴۸ بیت دو برابر می‌کند. این امر همراه با سرعت کلاک بالاتر، تقریباً پهنای باند هر انباشته را دو برابر می‌کند. مهم‌تر از آن، استاندارد جدید امکان پایه-قالب-منطق (base-die logic) را فراهم می‌کند – یک لایه محاسباتی درون خود انباشته حافظه، در مجاورت داده – که به عملیات ساده اجازه می‌دهد بدون انتقال داده به GPU انجام شود.

Blackwell B200 انویدیا با HBM3e عرضه می‌شود که مجموعاً ۸ ترابایت بر ثانیه در پنج انباشته خود ارائه می‌دهد. جانشین آن، Vera Rubin، انتظار می‌رود از HBM4 استفاده کند و هدف آن ۱۵+ ترابایت بر ثانیه است. برای بارهای کاری استنتاج، این بهبود معنادارتر از دو برابر کردن توان محاسبات FP8 است. Instinct MI350X ای‌ام‌دی، که در سال ۲۰۲۵ عرضه می‌شود، نیز مقیاس‌پذیری HBM3e را هدف قرار داده است و MI400 پیرامون HBM4 برنامه‌ریزی شده است.

بهبود پهنای باند فراتر از تأخیر استنتاج تأثیر می‌گذارد. اندازه‌های دسته‌ای مؤثر بزرگ‌تر بدون افت حافظه ممکن می‌شوند که استفاده از GPU را در طول استنتاج بهبود می‌بخشد و استراتژی‌های دسته‌بندی پیوسته (روشی که vLLM برای ارائه همزمان صدها کاربر روی یک GPU استفاده می‌کند) را کارآمدتر می‌سازد.

مسئله ظرفیت

پهنای باند تنها بخشی از چالش حافظه است. اندازه مدل نیز در حال افزایش است و جا دادن مدل در حافظه پیش‌نیاز سرویس‌دهی به آن است. مدل‌های کلاس GPT-4 به طور گسترده ۱-۸ تریلیون پارامتر تخمین زده می‌شوند؛ حتی با کوانتیزه‌سازی ۴-بیتی، یک مدل ۱ تریلیون پارامتری به ۵۰۰ گیگابایت حافظه نیاز دارد. پیکربندی‌های فعلی HBM3e روی سیستم‌های H100 حداکثر ۸۰ گیگابایت به ازای هر GPU دارند که حتی برای مدل‌های کوانتیزه شده به خوشه‌های ۸-۱۶ GPU نیاز است.

HBM4 این مشکل را تا حدی از طریق چگالی بهبود یافته حل می‌کند. انباشته‌های ۱۲-لایه HBM4 SK Hynix می‌توانند به ۴۸ گیگابایت در هر انباشته دست یابند، در مقابل ۲۴ گیگابایت در HBM3e فعلی. این امر با شش انباشته به ازای هر GPU (همانطور که انویدیا برای معماری‌های آینده اعلام کرده است) می‌تواند حافظه هر GPU را به ۲۸۸ گیگابایت برساند – کافی برای سرویس‌دهی به مدل‌های مرزی میان‌اندازه روی یک تراشه.

برای آموزش، ریاضیات متفاوت است: ذخیره گرادیان و حالت‌های بهینه‌ساز نیاز حافظه را ۱۲-۱۶ برابر به ازای هر پارامتر چند برابر می‌کنند. یک مدل ۷ میلیارد پارامتری در float32 با حالت‌های بهینه‌ساز AdamW تقریباً به ۱۱۲ گیگابایت نیاز دارد – کل حافظه یک گره H100. آموزش توزیع شده در صدها GPU استاندارد است، اما هر گام ارتباطی تأخیری متناسب با اندازه مدل ایجاد می‌کند.

پیچیدگی زنجیره تأمین

HBM توسط سه شرکت تولید می‌شود: SK Hynix، سامسونگ و مایکرون. هاینیکس رهبر فناوری و تأمین‌کننده اصلی انویدیا برای HBM3e است. سامسونگ با مشکلات بازدهی HBM3e دست و پنجه نرم کرده که منجر به عدم دریافت تأییدیه انویدیا شده است. HBM3e مایکرون در حال تولید و ارسال به ای‌ام‌دی است.

ریسک تمرکز واقعی است. انویدیا بخش بزرگی از خروجی جهانی HBM را مصرف می‌کند و کمبود ظرفیت HBM به محدودیت‌های عرضه GPU دامن زده که به لحاظ ساختاری از ظرفیت تولید تراشه GPU در TSMC جدا است. ساخت تراشه‌های منطقی GPU بیشتر اگر HBM کافی برای اتصال به آنها وجود نداشته باشد کمکی نمی‌کند. تحلیلگران تخمین می‌زنند که عرضه HBM تا سال ۲۰۲۶ محدود باقی بماند و قیمت‌گذاری نسبت به DRAM استاندارد افزایش یافته است.

تولید HBM4 نیازمند یکپارچگی تنگاتنگ‌تر بین تولیدکننده حافظه و طراح تراشه است – قابلیت محاسباتی پایه-قالب جدید نیازمند طراحی مشترک انباشته حافظه و بسته GPU است. این امر الزامات مشارکت بین انویدیا و SK Hynix را عمیق‌تر کرده و موانع ورود برای تازه‌واردان را افزایش می‌دهد.

فراتر از GPU: آینده محاسبات نزدیک به حافظه

مسیر بلندمدت به سمت یک تغییر معماری بنیادی‌تر اشاره دارد: پردازش در حافظه (PIM) و محاسبات نزدیک به حافظه، جایی که عناصر محاسباتی به جایی که داده زندگی می‌کند نزدیک‌تر می‌شوند نه برعکس. منطق پایه-قالب HBM4 گامی اولیه در این مسیر است.

چندین استارتاپ – از جمله Untether AI، Mythic و Axelera – در حال ساخت تراشه‌های استنتاجی هستند که محاسبات را مستقیماً در مجاورت آرایه‌های متراکم حافظه قرار می‌دهند و به طور طراحی دیوار پهنای باند را حذف می‌کنند. این تراشه‌ها هنوز جایگزین استنتاج مبتنی بر GPU در مقیاس بزرگ نشده‌اند، اما نشان می‌دهند فشار معماری به کجا منتهی می‌شود. دیوار حافظه یک مشکل موقتی نیست که با گذرگاه‌های سریع‌تر وصله شود – بلکه نتیجه جدایی محاسبات و ذخیره‌سازی در معماری فون نیومن است و حل آن نیازمند بازاندیشی در این جدایی است.

برای دو تا سه سال آینده، HBM4 پاسخ عملی است. اما شرکت‌هایی که در فاز بعدی سخت‌افزار هوش مصنوعی برنده می‌شوند ممکن است کسانی نباشند که سریع‌ترین محاسبات را دارند – آنها کسانی خواهند بود که بتوانند با طراحی، گلوگاه حافظه را حذف کنند.