انقلاب تراشههای کوچک تخصصی: چگونه AMD، Intel و TSMC پردازندهها را مانند بلوکهای لگو میسازند

منحنی چگالی ترانزیستور که پنجاه سال رشد عملکرد پردازندهها را هدایت میکرد، در حال صاف شدن است. حرکت به سمت گره فرآیندی کوچکتر — از ۷nm به ۵nm به ۳nm — پرهزینهتر میشود و در هر نسل مزایای کمتری به همراه دارد. پاسخ صنعت نیمههادی انتظار برای لیتوگرافی بهتر نیست. بلکه بازتعریف چیستی یک تراشه است.
رویکرد چیپلت (Chiplet) یک پردازنده را به چندین قطعه کوچکتر تقسیم میکند که هر کدام بر روی گره فرآیندی مناسب برای عملکرد خود ساخته میشوند و با استفاده از یک اتصال پهنباند و تأخیر پایین در یک بسته مشترک به هم متصل میشوند. نتیجه از دید نرمافزار مانند یک تراشه واحد رفتار میکند اما از نظر فیزیکی مجموعهای از قطعات تخصصی است — یک قطعه محاسباتی CPU در اینجا، یک قطعه I/O در آنجا، و یک کنترلکننده حافظه در جای دیگر.
چرا تراشههای یکپارچه به مانع برخوردند
اقتصاد تولید نیمههادی بسیار بیرحم است. نقصها به صورت تصادفی روی یک ویفر توزیع میشوند و تراشههای بزرگتر احتمال بیشتری برای داشتن حداقل یک نقص دارند. یک تراشه یکپارچه ۵۰۰mm² تقریباً سه برابر بازده بدتری نسبت به دو تراشه ۲۵۰mm² دارد که مجموعاً همان مساحت را پوشش میدهند. در گرههای پیشرو — جایی که هزینه ویفر میتواند از ۲۰,۰۰۰ دلار فراتر رود — این جریمه بازده مستقیماً به هزینه واحد تبدیل میشود.
همچنین مشکل بهینهسازی بین گرهها وجود دارد. کنترلکنندههای حافظه، رابطهای I/O و مدارهای آنالوگ به اندازه منطق دیجیتال از کوچکترین گرههای فرآیندی بهره نمیبرند. اجرای همه چیز در ۳nm هدر دادن پول بر روی اجزایی است که در ۱۲nm یا حتی ۲۲nm کاملاً خوب عمل میکنند. چیپلتها به مهندسان اجازه میدهند از گره مناسب برای هر عملکرد استفاده کنند.
شکست AMD که صنعت را تغییر داد
اولین محصول تجاری چیپلت AMD، پردازندههای Ryzen 3000 نسل Zen 2 در سال ۲۰۱۹ بود. این طراحی پردازنده را به قطعات محاسباتی (ساخته شده بر روی گره ۷nm TSMC) و یک قطعه I/O (ساخته شده بر روی گره ۱۲nm GlobalFoundries) تقسیم میکرد. قطعات محاسباتی حاوی هستههای CPU و حافظه نهان L3 بودند؛ قطعه I/O حاوی کنترلکننده حافظه، خطوط PCIe و رابطهای USB/SATA بود.
تأثیر تجاری فوری بود. AMD میتوانست تعداد هستهها را با افزودن قطعات محاسباتی بدون طراحی مجدد کل تراشه افزایش دهد، در حالی که فضای گرانقیمت ۷nm را بر روی ترانزیستورهایی متمرکز میکرد که بیشترین بهره را از آن میبرند. Ryzen Threadripper 3990X که در همان سال عرضه شد، از این رویکرد برای ارائه ۶۴ هسته استفاده کرد — چیزی که قبلاً بر روی یک تراشه مقرونبهصرفه غیرممکن بود.
با سری Ryzen 7000 و تراشههای سرور EPYC Genoa، AMD بیشتر پیش رفت. نوع 3D V-Cache یک حافظه نهان L3 اضافی ۶۴MB را مستقیماً بر روی قطعه محاسباتی با استفاده از اتصالات عمودی سیلیکونی (Through-Silicon Vias) قرار میدهد و خود حافظه نهان را به عنوان یک چیپلتی که به صورت عمودی پیوند خورده است، تلقی میکند. بنچمارکها افزایش عملکرد ۱۰ تا ۳۰ درصدی را در بارهای کاری حساس به حافظه نهان مانند بازیها و شبیهسازیهای علمی نشان دادند — نه از ترانزیستورهای بهتر، بلکه از چیدمان فیزیکی بهتر آنها.
پاسخ Intel: قطعات (Tiles) و EMIB
Intel دیرتر به طور عمومی چیپلتها را پذیرفت — این شرکت شهرت خود را بر روی یکپارچگی یکپارچه بنا کرده بود — اما معماری هیبریدی Alder Lake در سال ۲۰۲۱ (ترکیب هستههای قدرتمند و کممصرف) نشانگر تغییر بود. تا سال ۲۰۲۳، Intel Meteor Lake اولین پردازنده کاملاً مبتنی بر قطعه (Tile) این شرکت برای مصرفکنندگان بود که تراشه را به یک قطعه CPU، قطعه GPU، قطعه SoC و قطعه توسعهدهنده I/O، هر کدام بر روی یک گره فرآیندی متفاوت، تفکیک میکرد.
فناوری کلیدی اتصال Intel، EMIB (پل اتصال چندقطعهای تعبیهشده) است، یک قطعه کوچک سیلیکونی که در زیرلایه بسته جاسازی شده و اتصال متراکم و پهنباند بین قطعات مجاور را بدون نیاز به واسطهگر (Interposer) گرانقیمت در کل بسته فراهم میکند. برای اتصالات پهنباند مورد نیاز بین قطعات CPU و GPU در محصولاتی مانند GPU مرکز داده Ponte Vecchio، Intel از یک نوع پیشرفتهتر به نام Foveros Direct استفاده میکند که امکان انباشتن چهرهبهچهره با اتصال مستقیم مس به مس در گام ۱۰μm را فراهم میکند.
CoWoS TSMC و مسابقه بستهبندی هوش مصنوعی
رونق تراشههای هوش مصنوعی، کسبوکار بستهبندی پیشرفته TSMC را به اندازه کارخانههای منطق پیشرو آن از نظر استراتژیک مهم کرده است. CoWoS (تراشه روی ویفر روی زیرلایه) فناوری بستهبندی پشت GPUهای H100 و H200 انویدیا است — این فناوری تراشه GPU و تراشههای حافظه HBM را در کنار هم بر روی یک واسطهگر سیلیکونی قرار میدهد و پهنای باند حافظه ۳.۳۵TB/s را فراهم میکند که آموزش مدلهای بزرگ زبانی را عملی میسازد.
Blackwell B200 انویدیا CoWoS را فراتر میبرد: دو تراشه GPU که توسط یک اتصال بینتراشهای NVLink با پهنای باند ۱۰TB/s به هم متصل شدهاند، یک GPU منطقی واحد با ۲۰۸ میلیارد ترانزیستور تشکیل میدهند. از دید نرمافزار، یک دستگاه است. از نظر فیزیکی، یک مجموعه چندقطعهای مهندسیشده است که هیچ دستگاه لیتوگرافی واحدی نمیتواند آن را ایجاد کند.
محدودیت عرضه CoWoS در سالهای ۲۰۲۴-۲۰۲۵ یکی از گلوگاههای اصلی کمبود تراشه هوش مصنوعی بود. ظرفیت بستهبندی پیشرفته TSMC ماهها از تقاضا عقب بود و زمان تحویل زیرلایههای CoWoS در اوج به ۵۲ هفته رسید. TSMC از آن زمان ظرفیت بستهبندی را به طور قابل توجهی افزایش داده است، اما این رویداد نشان داد که چگونه بستهبندی — که زمانی یک کالای عمومی محسوب میشد — به یک متغیر رقابتی درجه یک تبدیل شده است.
مسئله اتصال
سؤال باز در طراحی چیپلت، استانداردسازی اتصال است. AMD، Intel و TSMC هر کدام از رابطهای اختصاصی بینقطعهای استفاده میکنند. برای اینکه یک تولیدکننده تراشه بتواند چیپلتهای محاسباتی را از یک فروشنده و چیپلتهای I/O را از فروشنده دیگر بخرد، هر دو باید در لایه فیزیکی از یک پروتکل استفاده کنند.
کنسرسیوم Universal Chiplet Interconnect Express (UCIe) که در سال ۲۰۲۲ با اعضای مؤسس شامل Intel، AMD، Arm، TSMC و سامسونگ راهاندازی شد، برای حل این مشکل تلاش میکند. UCIe یک لایه فیزیکی و پروتکل استاندارد برای ارتباط بینقطعهای تعریف میکند و پهنای باند تا ۲۸Gbps به ازای هر سیم با انرژی زیر ۲pJ/bit را هدف قرار میدهد. پذیرش تدریجی است: UCIe 1.1 در سال ۲۰۲۳ منتشر شد و اولین محصولات استفادهکننده از آن در سال ۲۰۲۵ شروع به نمونهبرداری کردند.
اگر UCIe موفق شود، بازار چیپلت را امکانپذیر میکند: خرید هستههای CPU از AMD، یک واحد پردازش عصبی از Qualcomm، کنترلکنندههای حافظه از یک متخصص، و مونتاژ آنها در یک SoC سفارشی — مدلی که هم اقتصاد و هم پویایی رقابتی طراحی تراشه را به طور اساسی تغییر میدهد. سابقه استانداردهای PCIe و USB نشان میدهد که استانداردسازی در نهایت اتفاق خواهد افتاد. سؤال این است که بازیگران اصلی تا چه مدت در برابر استانداردسازی برای محافظت از خندقهای بستهبندی خود مقاومت میکنند.
این برای پنج سال آینده چه معنایی دارد
چیپلتها دیگر آزمایشی نیستند — آنها معماری اصلی هر تراشه بالاتر از یک آستانه پیچیدگی خاص هستند. کل خط تولید مرکز داده AMD، GPUهای پرچمدار انویدیا، پردازندههای مصرفکننده Meteor و Arrow Lake اینتل، تراشههای M-Ultra و M4 Max اپل (که دو تراشه را با اتصال Ultra Fusion اپل ترکیب میکنند) و تقریباً هر ASIC شبکه سطح بالا اکنون از نوعی مونتاژ چندقطعهای استفاده میکنند.
نتیجه عملی برای خریداران این است که شماره گره بر روی برگه مشخصات تنها بخشی از داستان را بیان میکند. یک CPU "۳nm" که از یک قطعه I/O ۱۲nm در کنار خود استفاده میکند، کاملاً ۳nm نیست — اما ممکن است از یک تراشه یکپارچه ۳nm بهتر عمل کند زیرا ترکیب کلی قطعات بهینهتر است. درک معماری چیپلت برای ارزیابی دقیق ادعاهای عملکرد پردازنده به طور فزایندهای ضروری است.