جدار الذاكرة في الذكاء الاصطناعي: لماذا تعتبر HBM4 أكثر أهمية من الجيل التالي من وحدات معالجة الرسوميات

لطالما تركزت الرواية حول أجهزة الذكاء الاصطناعي على القدرة الحاسوبية: البيتافلوبس، وTFLOPS، وعدد نوى التنسور، وعدد الترانزستورات. لكن حدود أداء نماذج الذكاء الاصطناعي في 2025-2026 أصبحت مقيدة بشكل متزايد ليس بسرعة حساب وحدات معالجة الرسوميات، بل بسرعة قراءتها للبيانات. العنقود هو عرض النطاق الترددي للذاكرة – والإجابة التي تقدمها الصناعة هي HBM4.

ذاكرة النطاق الترددي العالي (HBM) هي تقنية DRAM المكدسة التي توضع على نفس حزمة رقاقة وحدة معالجة الرسوميات، متصلة عبر آلاف من الوصلات الكهربائية القصيرة والعريضة تسمى منافذ السيليكون المارة (TSV). كل "كومة" عبارة عن عدة قوالب DRAM ملتصقة عمودياً، مع واجهة بينها أعرض بكثير – وبالتالي أسرع بكثير – من آثار لوحة الدوائر المطبوعة التي تربط الذاكرة التقليدية خارج الحزمة. يوفر HBM3e، الذي يُشحن على H200 من Nvidia وInstinct MI325X من AMD، ما يصل إلى 4.8 تيرابايت في الثانية من عرض النطاق الترددي للذاكرة. HBM4، قيد الإنتاج في SK Hynix وSamsung وسيُشحن في 2025-2026، يرفع ذلك إلى أكثر من 6 تيرابايت في الثانية لكل كومة – مع زيادة كبيرة في عرض النطاق الترددي بين القوالب من خلال واجهة جديدة بحجم 2048 بت.

لماذا أصبح عرض النطاق الترددي هو العنقود

نماذج المحولات الحديثة مقيدة بعرض النطاق الترددي للذاكرة أثناء الاستدلال بطريقة لم تكن صحيحة أثناء التدريب. إليكم السبب: يقوم التدريب بمعالجة دفعات كبيرة من البيانات عبر النموذج في وقت واحد، مما يعني أن وحدات حساب وحدة معالجة الرسوميات تظل مشغولة. لكن الاستدلال – الاستجابة لاستعلام مستخدم واحد – يتضمن أحجام دفعات أصغر بكثير، غالباً بحجم دفعة واحد. عند حجم دفعة واحد، تقضي وحدة معالجة الرسوميات معظم وقتها في قراءة أوزان النموذج من الذاكرة ووقتاً قصيراً نسبياً في إجراء العمليات الحسابية عليها. نسبة العمليات الحسابية إلى قراءات الذاكرة، والتي تسمى الكثافة الحسابية، منخفضة.

لنموذج مثل Llama 3 70B بدقة float16، تحتاج إلى نقل حوالي 140 غيغابايت من الأوزان من الذاكرة إلى الحساب لكل تمريرة أمامية. عند عرض نطاق H100 SXM5 البالغ 3.35 تيرابايت/ثانية، يستغرق ذلك حوالي 42 مللي ثانية لكل رمز – قبل أي حساب فعلي. تظل قوة الحوسبة النظرية البالغة 2,000 TFLOPS لوحدة معالجة الرسوميات خاملة في الغالب، متعطشة للبيانات. مضاعفة القدرة الحاسوبية دون مضاعفة عرض النطاق الترددي لا يغير شيئاً تقريباً للاستدلال أحادي المستخدم.

هذا هو جدار الذاكرة: نظام حيث تؤدي تحسينات القدرة الحاسوبية الخام إلى عوائد متناقصة لأن النظام لا يستطيع نقل البيانات بالسرعة الكافية لإبقاء المعالجات ممتلئة.

ما الذي يغيره HBM4 فعلياً

HBM4 لا يضيف عرض النطاق الترددي فقط – بل يغير بنية كيفية توصيل الذاكرة بالحساب. يستخدم HBM3e واجهة بحجم 1024 بت لكل كومة؛ يضاعف HBM4 هذا إلى 2048 بت. بالاقتران مع سرعات ساعة أعلى، يؤدي هذا تقريباً إلى مضاعفة عرض النطاق الترددي لكل كومة. والأهم من ذلك، أن المعيار الجديد يتيح منطق القاعدة – طبقة حوسبة داخل كومة الذاكرة نفسها، بجوار البيانات – مما يسمح بإجراء عمليات بسيطة دون نقل البيانات إلى وحدة معالجة الرسوميات على الإطلاق.

يشحن Blackwel B200 من Nvidia مع HBM3e، مما يوفر إجمالي 8 تيرابايت/ثانية عبر أكوامه الخمسة. من المتوقع أن يستخدم خليفته، Vera Rubin، HBM4 ويستهدف 15+ تيرابايت/ثانية. لأعباء عمل الاستدلال، يعد هذا تحسناً أكثر معنى من مضاعفة القدرة الحاسوبية FP8. كما يستهدف Instinct MI350X من AMD، المقرر في 2025، توسيع نطاق HBM3e، مع تخطيط MI400 حول HBM4.

يؤثر تحسين عرض النطاق الترددي على أكثر من زمن استجابة الاستدلال. تصبح أحجام الدفعات الفعالة الأكبر ممكنة دون خلل في الذاكرة، مما يحسن استخدام وحدة معالجة الرسوميات أثناء الاستدلال ويجعل استراتيجيات التجميع المستمر (التقنية التي تستخدمها vLLM لخدمة مئات المستخدمين في وقت واحد على وحدة معالجة رسوميات واحدة) أكثر كفاءة.

مشكلة السعة

عرض النطاق الترددي هو جزء فقط من تحدي الذاكرة. حجم النموذج ينمو أيضاً، وملاءمة النموذج في الذاكرة شرط أساسي لخدمته. تُقدر نماذج فئة GPT-4 على نطاق واسع بـ 1-8 تريليون معلمة؛ حتى مع التكميم بأربع بتات، يتطلب نموذج بـ 1 تريليون معلمة 500 غيغابايت من الذاكرة. تبلغ تكوينات HBM3e الحالية على أنظمة H100 80 غيغابايت كحد أقصى لكل وحدة معالجة رسوميات، مما يتطلب مجموعات من 8-16 وحدة معالجة رسوميات حتى للنماذج المكممة.

يعالج HBM4 هذا جزئياً من خلال الكثافة المحسنة. يمكن لأكوام HBM4 ذات 12 طبقة من SK Hynix تحقيق 48 غيغابايت لكل كومة، مقابل 24 غيغابايت في HBM3e الحالي. بالاقتران مع ستة أكوام لكل وحدة معالجة رسوميات (كما أشارت Nvidia للهياكل المستقبلية)، قد يؤدي هذا إلى رفع ذاكرة كل وحدة معالجة رسوميات إلى 288 غيغابايت – وهو ما يكفي لخدمة نماذج حدودية متوسطة الحجم على رقاقة واحدة.

للتدريب، الحساب مختلف: تخزين التدرج وحالات المحسن تضاعف متطلبات الذاكرة بمقدار 12-16 مرة لكل معلمة. يتطلب نموذج بـ 7 مليارات معلمة في float32 مع حالات محسن AdamW حوالي 112 غيغابايت – الذاكرة الكاملة لعقدة H100 واحدة. التدريب الموزع عبر مئات وحدات معالجة الرسوميات هو ممارسة قياسية، لكن كل خطوة اتصال تقدم زمن استجابة متناسب مع حجم النموذج.

تعقيد سلسلة التوريد

يتم تصنيع HBM من قبل ثلاث شركات: SK Hynix وSamsung وMicron. شركة Hynix هي الرائدة في التكنولوجيا والمورد الرئيسي لـ Nvidia لـ HBM3e. عانت Samsung من مشاكل في إنتاجية HBM3e، مما كلفها تأهيل Nvidia. HBM3e من Micron في مرحلة الإنتاج ويتم شحنه إلى AMD.

خطر التركيز حقيقي. تستهلك Nvidia جزءاً كبيراً من إنتاج HBM العالمي، وقد ساهم نقص سعة HBM في قيود عرض وحدات معالجة الرسوميات المنفصلة هيكلياً عن طاقة تصنيع الرقاقات في TSMC. بناء المزيد من رقاقات المنطق لوحدة معالجة الرسوميات لا يساعد إذا لم يكن هناك ما يكفي من HBM لإرفاقها به. يقدر المحللون أن عرض HBM سيظل مقيداً حتى عام 2026، مع تسعير مرتفع نسبياً مقارنة بـ DRAM القياسي.

يتطلب إنتاج HBM4 تكاملاً أوثق بين مصنع الذاكرة ومصمم الرقاقة – قدرة الحوسبة الأساسية الجديدة تتطلب تصميماً مشتركاً لكومة الذاكرة وحزمة GPU. هذا يعمق متطلبات الشراكة بين Nvidia وSK Hynix، مما يرفع حواجز الدخول للوافدين الجدد.

ما وراء وحدات معالجة الرسوميات: مستقبل الحوسبة القريبة من الذاكرة

يشير المسار طويل الأجل نحو تحول معماري أكثر جوهرية: المعالجة داخل الذاكرة (PIM) والحوسبة القريبة من الذاكرة، حيث تنتقل عناصر الحوسبة إلى مكان وجود البيانات بدلاً من العكس. منطق القاعدة في HBM4 هو خطوة مبكرة في هذا الاتجاه.

تعمل العديد من الشركات الناشئة – من بينها Untether AI وMythic وAxelera – على بناء رقاقات استدلال تضع الحوسبة مباشرة بجوار مصفوفات الذاكرة الكثيفة، مما يلغي جدار عرض النطاق الترددي بالتصميم. لم تحل هذه الرقاقات محل الاستدلال القائم على وحدات معالجة الرسوميات على نطاق واسع، لكنها تظهر أين يؤدي الضغط المعماري. جدار الذاكرة ليس مشكلة مؤقتة يمكن إصلاحها بنواقل أسرع – إنه نتيجة لفصل بنية فون نيومان بين الحوسبة والتخزين، وحلها يتطلب إعادة التفكير في هذا الفصل.

للسنتين إلى الثلاث سنوات القادمة، HBM4 هو الإجابة العملية. لكن الشركات التي ستفوز في المرحلة التالية من أجهزة الذكاء الاصطناعي قد لا تكون تلك التي لديها أسرع حوسبة – بل ستكون تلك التي تكتشف كيفية إزالة عنقود الذاكرة بالتصميم.