ثورة الـ Chiplet: كيف تبني AMD و Intel و TSMC معالجات مثل قطع LEGO

منحنى كثافة الترانزستور الذي قاد مكاسب أداء المعالجات على مدى 50 عامًا آخذ في التسطّح. الانتقال إلى عقدة تصنيع أصغر — من 7nm إلى 5nm إلى 3nm — يصبح أكثر تكلفة ويحقق فوائد أقل مع كل جيل. إجابة صناعة أشباه الموصلات ليست انتظار طباعة حجرية أفضل. بل إعادة التفكير في ماهية الشريحة.

يقوم نهج الـ Chiplet بتقسيم المعالج إلى عدة قوالب أصغر، كل منها مصنوع على عقدة التصنيع الأنسب لوظيفته، ويتم توصيلها باستخدام موصل عالي النطاق ومنخفض الكمون على حزمة مشتركة. النتيجة تتصرف كشريحة واحدة بالنسبة للبرمجيات، ولكنها فعليًا مجموعة من البلاطات المتخصصة — بلاطة حوسبة CPU هنا، بلاطة I/O هناك، ووحدة تحكم ذاكرة في مكان آخر.

لماذا وصلت القوالب أحادية الكتلة إلى حائط مسدود

اقتصاديات تصنيع أشباه الموصلات قاسية. العيوب موزعة عشوائيًا على الرقاقة، والقوالب الأكبر لديها احتمالية أعلى لاحتواء عيب واحد على الأقل. قالب أحادي الكتلة بمساحة 500mm² له محصول أسوأ بنحو 3 مرات من قالبين بمساحة 250mm² يغطيان معًا نفس المساحة. في العقد المتطورة — حيث يمكن أن تتجاوز تكلفة الرقاقة 20,000 دولار — تترجم عقوبة المحصول هذه مباشرة إلى تكلفة الوحدة.

هناك أيضًا مشكلة التحسين عبر العقد. وحدات تحكم الذاكرة، وواجهات I/O، والدوائر التناظرية لا تستفيد من أصغر عقد التصنيع بالطريقة التي تستفيد بها الدوائر المنطقية. تشغيل كل شيء عند 3nm يهدر الأموال على مكونات تؤدي أداءً ممتازًا عند 12nm أو حتى 22nm. الـ Chiplet تتيح للمهندسين استخدام العقدة المناسبة لكل وظيفة.

رهان AMD الذي غيّر الصناعة

كان أول منتج تجاري لـ AMD يعتمد على الـ Chiplet هو معالجات Ryzen 3000 من الجيل Zen 2 في عام 2019. صمم التصميم المعالج إلى قوالب حوسبة (مصنوعة على عقدة TSMC 7nm) وقالب I/O (مصنوع على عقدة GlobalFoundries 12nm). احتوت قوالب الحوسبة على نوى CPU وذاكرة تخزين مؤقت L3؛ بينما احتوى قالب I/O على وحدة تحكم الذاكرة، ومسارات PCIe، وواجهات USB/SATA.

كان التأثير التجاري فوريًا. أصبح بإمكان AMD الآن توسيع عدد النوى بإضافة قوالب حوسبة دون إعادة تصميم الشريحة بأكملها، مع الحفاظ على المساحة الباهظة الثمن عند 7nm مركزة على الترانزستورات التي تستفيد منها أكثر. استخدم معالج Ryzen Threadripper 3990X، الذي صدر في العام نفسه، هذا النهج لتوفير 64 نواة — وهو أمر كان مستحيلًا سابقًا على قالب واحد ميسور التكلفة.

مع سلسلة Ryzen 7000 ورقائق خادم EPYC Genoa، دفعت AMD أبعد من ذلك. النوع 3D V-Cache يكدس ذاكرة تخزين مؤقت إضافية بسعة 64MB من L3 مباشرة فوق قالب الحوسبة باستخدام فتحات عبر السيليكون، مع معالجة الذاكرة المؤقتة نفسها كـ Chiplet مربوط رأسيًا. أظهرت المعايير (Benchmarks) مكاسب أداء بنسبة 10–30% في أحمال العمل الحساسة للذاكرة المؤقتة مثل الألعاب والمحاكاة العلمية — ليس من ترانزستورات أفضل، ولكن من ترتيب مادي أفضل لها.

رد Intel: البلاطات و EMIB

كانت Intel أبطأ في تبني الـ Chiplet علنًا — فقد بنت الشركة سمعتها على التكامل أحادي الكتلة — لكن بنيتها الهجينة Alder Lake لعام 2021 (التي تدمج نوى الأداء والكفاءة) أشارت إلى تحول. بحلول عام 2023، كان Intel Meteor Lake أول معالج استهلاكي يعتمد بالكامل على البلاطات، حيث قام بتفكيك الشريحة إلى بلاطة CPU، وبلاطة GPU، وبلاطة SoC، وبلاطة توسعة I/O، كل منها على عقدة تصنيع مختلفة.

تقنية الموصل الرئيسية لـ Intel هي EMIB (Embedded Multi-die Interconnect Bridge)، وهي قطعة صغيرة من السيليكون مضمنة في ركيزة الحزمة توفر اتصالًا كثيفًا عالي النطاق بين القوالب المتجاورة دون الحاجة إلى وسيط مكلف عبر الحزمة بأكملها. بالنسبة للاتصالات عالية النطاق المطلوبة بين بلاطات CPU و GPU في منتجات مثل معالج مركز البيانات Ponte Vecchio GPU، تستخدم Intel نسخة متقدمة تسمى Foveros Direct، والتي تسمح بتكديس القوالب وجهًا لوجه مع ربط نحاس إلى نحاس مباشر بدرجة تباعد 10µm.

تقنية CoWoS من TSMC وسباق التغليف للذكاء الاصطناعي

جعلت طفرة رقائق الذكاء الاصطناعي أعمال التغليف المتقدمة لـ TSMC بنفس الأهمية الاستراتيجية لمصانع المنطق المتطورة لديها. CoWoS (Chip-on-Wafer-on-Substrate) هي تقنية التغليف وراء معالجات Nvidia H100 و H200 GPU — فهي تضع قالب GPU وقوالب ذاكرة HBM جنبًا إلى جنب على وسيط سيليكون، مما يتيح عرض نطاق ذاكرة يبلغ 3.35TB/s الذي يجعل تدريب نماذج اللغة الكبيرة عمليًا.

يدفع معالج Blackwell B200 من Nvidia تقنية CoWoS إلى أبعد من ذلك: قالبا GPU متصلان بواسطة موصل NVLink بين الرقائق بسرعة 10TB/s يشكلان GPU منطقي واحد يحتوي على 208 مليار ترانزستور. من منظور البرمجيات، هو جهاز واحد. فيزيائيًا، هو تجميع متعدد القوالب مصمم بعناية لا يمكن لأي آلة طباعة حجرية واحدة نقشه.

كان قيد عرض CoWoS في 2024–2025 أحد الاختناقات الرئيسية في نقص رقائق الذكاء الاصطناعي. كانت قدرة التغليف المتقدمة لـ TSMC متأخرة بأشهر عن الطلب، وامتدت فترات التسليم لركائز CoWoS إلى 52 أسبوعًا في الذروة. قامت TSMC منذ ذلك الحين بتوسيع قدرة التغليف بشكل كبير، لكن الحلقة أوضحت كيف أصبح التغليف — الذي كان يُعتبر سلعة — متغيرًا تنافسيًا من الدرجة الأولى.

مشكلة الموصلات

السؤال المفتوح في تصميم الـ Chiplet هو توحيد الموصلات. تستخدم كل من AMD و Intel و TSMC واجهات خاصة بين القوالب. لكي يقوم مصنع شرائح بشراء Chiplet حوسبة من بائع و Chiplet I/O من آخر، يجب أن يتحدث كلاهما نفس البروتوكول على المستوى المادي.

يعمل اتحاد Universal Chiplet Interconnect Express (UCIe)، الذي أُطلق في عام 2022 بعضوية مؤسسة تشمل Intel و AMD و Arm و TSMC و Samsung، على حل هذه المشكلة. يحدد UCIe طبقة مادية وبروتوكولًا قياسيين للاتصال بين القوالب، مستهدفًا عرض نطاق يصل إلى 28Gbps لكل سلك بطاقة تقل عن 2pJ/bit. التبني تدريجي: تم نشر UCIe 1.1 في عام 2023، وبدأت أول المنتجات التي تستخدمه في أخذ العينات في عام 2025.

إذا نجح UCIe، فإنه يتيح سوقًا للـ Chiplet: شراء نوى CPU من AMD، ووحدة معالجة عصبية من Qualcomm، ووحدات تحكم ذاكرة من متخصص، وتجميعها في SoC مخصص — نموذج من شأنه أن يغير جذريًا كل من الاقتصاديات والديناميكيات التنافسية لتصميم الرقائق. تشير السابقة من معايير PCIe و USB إلى أن التوحيد سيحدث في النهاية. السؤال هو كم من الوقت ستقاوم الشركات الكبرى التوحيد لحماية خنادق التغليف الخاصة بها.

ماذا يعني هذا للسنوات الخمس القادمة

لم يعد الـ Chiplet تجريبيًا — بل هو الهندسة السائدة لأي شريحة فوق حد تعقيد معين. مجموعة مراكز البيانات بأكملها من AMD، ومعالجات GPU الرائدة من Nvidia، ومعالجات الاستهلاكية Meteor و Arrow Lake من Intel، ورقائق M-Ultra و M4 Max من Apple (التي تجمع بين قالبين باستخدام موصل Ultra Fusion من Apple)، وكل ASIC شبكات عالي المستوى تقريبًا تستخدم الآن شكلاً من أشكال التجميع متعدد القوالب.

النتيجة العملية للمشترين هي أن رقم العقدة في ورقة المواصفات يروي جزءًا فقط من القصة. معالج "3nm" يستخدم قالب I/O بحجم 12nm إلى جانبه ليس بالكامل 3nm — لكنه قد يتفوق على شريحة أحادية الكتلة بحجم 3nm لأن التركيبة الكلية للقوالب محسّنة بشكل أفضل. أصبح فهم هندسة الـ Chiplet ضروريًا بشكل متزايد لتقييم ادعاءات أداء المعالجات بدقة.