دیوار حافظه در هوش مصنوعی: چرا HBM4 از نسل بعدی GPU مهمتر است

روایت پیرامون سختافزار هوش مصنوعی همواره بر محور توان محاسباتی متمرکز بوده است: پتافلاپس، TFLOPS، تعداد هستههای تنسور و شمار ترانزیستورها. اما مرز عملکرد مدلهای هوش مصنوعی در سالهای ۲۰۲۵-۲۰۲۶ به طور فزایندهای نه به سرعت محاسبات GPU، بلکه به سرعت خواندن دادهها محدود میشود. گلوگاه، پهنای باند حافظه است و پاسخ صنعت به آن HBM4 نام دارد.
حافظه با پهنای باند بالا (HBM) فناوری DRAM انباشتهای است که روی همان بستهی تراشهی GPU قرار میگیرد و از طریق هزاران اتصال الکتریکی کوتاه و عریض به نام از طریق-سیلیکون-ویا (TSV) متصل میشود. هر «انباشته» شامل چندین قالب DRAM است که به صورت عمودی به هم پیوند خوردهاند و واسط بین آنها بسیار پهنتر و در نتیجه سریعتر از ردهای PCB است که حافظهی معمولی خارج از بسته را متصل میکند. HBM3e که روی H200 انویدیا و Instinct MI325X ایامدی عرضه میشود، تا ۴.۸ ترابایت بر ثانیه پهنای باند حافظه ارائه میدهد. HBM4 که در SK Hynix و سامسونگ در حال تولید است و در سالهای ۲۰۲۵-۲۰۲۶ عرضه میشود، این رقم را فراتر از ۶ ترابایت بر ثانیه در هر انباشته میبرد و پهنای باند میان-قالبی نیز از طریق یک واسط ۲۰۴۸-بیتی جدید افزایش چشمگیری مییابد.
چرا پهنای باند به گلوگاه تبدیل شد
مدلهای ترانسفورمر مدرن در طول استنتاج به پهنای باند حافظه محدود هستند، وضعیتی که در طول آموزش صادق نبود. دلیل آن چنین است: آموزش دستههای بزرگی از داده را به طور همزمان از طریق مدل پردازش میکند، به این معنا که واحدهای محاسباتی GPU مشغول میمانند. اما استنتاج – پاسخ به یک پرسش کاربر – شامل اندازههای دستهای بسیار کوچکتر، اغلب اندازه دسته ۱، است. در اندازه دسته ۱، GPU بیشتر وقت خود را صرف خواندن وزنهای مدل از حافظه میکند و زمان نسبتاً کمی را صرف انجام عملیات حسابی روی آنها. نسبت عملیات حسابی به خواندن حافظه، که شدت حسابی نامیده میشود، پایین است.
برای مدلی مانند Llama 3 70B با دقت float16، برای هر عبور پیشرو باید حدود ۱۴۰ گیگابایت وزن از حافظه به واحد محاسبات منتقل شود. با پهنای باند H100 SXM5 معادل ۳.۳۵ ترابایت بر ثانیه، این کار حدود ۴۲ میلیثانیه به ازای هر Token – قبل از هر محاسبهی واقعی – زمان میبرد. قدرت محاسباتی نظری ۲,۰۰۰ TFLOPS GPU عمدتاً بیکار میماند و تشنه داده است. دو برابر کردن توان محاسبات بدون دو برابر کردن پهنای باند، تقریباً هیچ تغییری برای استنتاج تککاربره ایجاد نمیکند.
این همان دیوار حافظه است: وضعیتی که در آن بهبودهای خام توان محاسباتی بازدهی کاهشی ایجاد میکند زیرا سیستم قادر به جابجایی سریع داده برای تغذیه پردازندهها نیست.
HBM4 واقعاً چه تغییراتی ایجاد میکند
HBM4 فقط پهنای باند اضافه نمیکند – معماری نحوه اتصال حافظه به محاسبات را تغییر میدهد. HBM3e از یک واسط ۱۰۲۴-بیتی در هر انباشته استفاده میکند؛ HBM4 این رقم را به ۲۰۴۸ بیت دو برابر میکند. این امر همراه با سرعت کلاک بالاتر، تقریباً پهنای باند هر انباشته را دو برابر میکند. مهمتر از آن، استاندارد جدید امکان پایه-قالب-منطق (base-die logic) را فراهم میکند – یک لایه محاسباتی درون خود انباشته حافظه، در مجاورت داده – که به عملیات ساده اجازه میدهد بدون انتقال داده به GPU انجام شود.
Blackwell B200 انویدیا با HBM3e عرضه میشود که مجموعاً ۸ ترابایت بر ثانیه در پنج انباشته خود ارائه میدهد. جانشین آن، Vera Rubin، انتظار میرود از HBM4 استفاده کند و هدف آن ۱۵+ ترابایت بر ثانیه است. برای بارهای کاری استنتاج، این بهبود معنادارتر از دو برابر کردن توان محاسبات FP8 است. Instinct MI350X ایامدی، که در سال ۲۰۲۵ عرضه میشود، نیز مقیاسپذیری HBM3e را هدف قرار داده است و MI400 پیرامون HBM4 برنامهریزی شده است.
بهبود پهنای باند فراتر از تأخیر استنتاج تأثیر میگذارد. اندازههای دستهای مؤثر بزرگتر بدون افت حافظه ممکن میشوند که استفاده از GPU را در طول استنتاج بهبود میبخشد و استراتژیهای دستهبندی پیوسته (روشی که vLLM برای ارائه همزمان صدها کاربر روی یک GPU استفاده میکند) را کارآمدتر میسازد.
مسئله ظرفیت
پهنای باند تنها بخشی از چالش حافظه است. اندازه مدل نیز در حال افزایش است و جا دادن مدل در حافظه پیشنیاز سرویسدهی به آن است. مدلهای کلاس GPT-4 به طور گسترده ۱-۸ تریلیون پارامتر تخمین زده میشوند؛ حتی با کوانتیزهسازی ۴-بیتی، یک مدل ۱ تریلیون پارامتری به ۵۰۰ گیگابایت حافظه نیاز دارد. پیکربندیهای فعلی HBM3e روی سیستمهای H100 حداکثر ۸۰ گیگابایت به ازای هر GPU دارند که حتی برای مدلهای کوانتیزه شده به خوشههای ۸-۱۶ GPU نیاز است.
HBM4 این مشکل را تا حدی از طریق چگالی بهبود یافته حل میکند. انباشتههای ۱۲-لایه HBM4 SK Hynix میتوانند به ۴۸ گیگابایت در هر انباشته دست یابند، در مقابل ۲۴ گیگابایت در HBM3e فعلی. این امر با شش انباشته به ازای هر GPU (همانطور که انویدیا برای معماریهای آینده اعلام کرده است) میتواند حافظه هر GPU را به ۲۸۸ گیگابایت برساند – کافی برای سرویسدهی به مدلهای مرزی میاناندازه روی یک تراشه.
برای آموزش، ریاضیات متفاوت است: ذخیره گرادیان و حالتهای بهینهساز نیاز حافظه را ۱۲-۱۶ برابر به ازای هر پارامتر چند برابر میکنند. یک مدل ۷ میلیارد پارامتری در float32 با حالتهای بهینهساز AdamW تقریباً به ۱۱۲ گیگابایت نیاز دارد – کل حافظه یک گره H100. آموزش توزیع شده در صدها GPU استاندارد است، اما هر گام ارتباطی تأخیری متناسب با اندازه مدل ایجاد میکند.
پیچیدگی زنجیره تأمین
HBM توسط سه شرکت تولید میشود: SK Hynix، سامسونگ و مایکرون. هاینیکس رهبر فناوری و تأمینکننده اصلی انویدیا برای HBM3e است. سامسونگ با مشکلات بازدهی HBM3e دست و پنجه نرم کرده که منجر به عدم دریافت تأییدیه انویدیا شده است. HBM3e مایکرون در حال تولید و ارسال به ایامدی است.
ریسک تمرکز واقعی است. انویدیا بخش بزرگی از خروجی جهانی HBM را مصرف میکند و کمبود ظرفیت HBM به محدودیتهای عرضه GPU دامن زده که به لحاظ ساختاری از ظرفیت تولید تراشه GPU در TSMC جدا است. ساخت تراشههای منطقی GPU بیشتر اگر HBM کافی برای اتصال به آنها وجود نداشته باشد کمکی نمیکند. تحلیلگران تخمین میزنند که عرضه HBM تا سال ۲۰۲۶ محدود باقی بماند و قیمتگذاری نسبت به DRAM استاندارد افزایش یافته است.
تولید HBM4 نیازمند یکپارچگی تنگاتنگتر بین تولیدکننده حافظه و طراح تراشه است – قابلیت محاسباتی پایه-قالب جدید نیازمند طراحی مشترک انباشته حافظه و بسته GPU است. این امر الزامات مشارکت بین انویدیا و SK Hynix را عمیقتر کرده و موانع ورود برای تازهواردان را افزایش میدهد.
فراتر از GPU: آینده محاسبات نزدیک به حافظه
مسیر بلندمدت به سمت یک تغییر معماری بنیادیتر اشاره دارد: پردازش در حافظه (PIM) و محاسبات نزدیک به حافظه، جایی که عناصر محاسباتی به جایی که داده زندگی میکند نزدیکتر میشوند نه برعکس. منطق پایه-قالب HBM4 گامی اولیه در این مسیر است.
چندین استارتاپ – از جمله Untether AI، Mythic و Axelera – در حال ساخت تراشههای استنتاجی هستند که محاسبات را مستقیماً در مجاورت آرایههای متراکم حافظه قرار میدهند و به طور طراحی دیوار پهنای باند را حذف میکنند. این تراشهها هنوز جایگزین استنتاج مبتنی بر GPU در مقیاس بزرگ نشدهاند، اما نشان میدهند فشار معماری به کجا منتهی میشود. دیوار حافظه یک مشکل موقتی نیست که با گذرگاههای سریعتر وصله شود – بلکه نتیجه جدایی محاسبات و ذخیرهسازی در معماری فون نیومن است و حل آن نیازمند بازاندیشی در این جدایی است.
برای دو تا سه سال آینده، HBM4 پاسخ عملی است. اما شرکتهایی که در فاز بعدی سختافزار هوش مصنوعی برنده میشوند ممکن است کسانی نباشند که سریعترین محاسبات را دارند – آنها کسانی خواهند بود که بتوانند با طراحی، گلوگاه حافظه را حذف کنند.