انقلاب تراشه‌های کوچک تخصصی: چگونه AMD، Intel و TSMC پردازنده‌ها را مانند بلوک‌های لگو می‌سازند

منحنی چگالی ترانزیستور که پنجاه سال رشد عملکرد پردازنده‌ها را هدایت می‌کرد، در حال صاف شدن است. حرکت به سمت گره فرآیندی کوچک‌تر — از ۷nm به ۵nm به ۳nm — پرهزینه‌تر می‌شود و در هر نسل مزایای کمتری به همراه دارد. پاسخ صنعت نیمه‌هادی انتظار برای لیتوگرافی بهتر نیست. بلکه بازتعریف چیستی یک تراشه است.

رویکرد چیپلت (Chiplet) یک پردازنده را به چندین قطعه کوچک‌تر تقسیم می‌کند که هر کدام بر روی گره فرآیندی مناسب برای عملکرد خود ساخته می‌شوند و با استفاده از یک اتصال پهن‌باند و تأخیر پایین در یک بسته مشترک به هم متصل می‌شوند. نتیجه از دید نرم‌افزار مانند یک تراشه واحد رفتار می‌کند اما از نظر فیزیکی مجموعه‌ای از قطعات تخصصی است — یک قطعه محاسباتی CPU در اینجا، یک قطعه I/O در آنجا، و یک کنترل‌کننده حافظه در جای دیگر.

چرا تراشه‌های یکپارچه به مانع برخوردند

اقتصاد تولید نیمه‌هادی بسیار بی‌رحم است. نقص‌ها به صورت تصادفی روی یک ویفر توزیع می‌شوند و تراشه‌های بزرگ‌تر احتمال بیشتری برای داشتن حداقل یک نقص دارند. یک تراشه یکپارچه ۵۰۰mm² تقریباً سه برابر بازده بدتری نسبت به دو تراشه ۲۵۰mm² دارد که مجموعاً همان مساحت را پوشش می‌دهند. در گره‌های پیشرو — جایی که هزینه ویفر می‌تواند از ۲۰,۰۰۰ دلار فراتر رود — این جریمه بازده مستقیماً به هزینه واحد تبدیل می‌شود.

همچنین مشکل بهینه‌سازی بین گره‌ها وجود دارد. کنترل‌کننده‌های حافظه، رابط‌های I/O و مدارهای آنالوگ به اندازه منطق دیجیتال از کوچک‌ترین گره‌های فرآیندی بهره نمی‌برند. اجرای همه چیز در ۳nm هدر دادن پول بر روی اجزایی است که در ۱۲nm یا حتی ۲۲nm کاملاً خوب عمل می‌کنند. چیپلت‌ها به مهندسان اجازه می‌دهند از گره مناسب برای هر عملکرد استفاده کنند.

شکست AMD که صنعت را تغییر داد

اولین محصول تجاری چیپلت AMD، پردازنده‌های Ryzen 3000 نسل Zen 2 در سال ۲۰۱۹ بود. این طراحی پردازنده را به قطعات محاسباتی (ساخته شده بر روی گره ۷nm TSMC) و یک قطعه I/O (ساخته شده بر روی گره ۱۲nm GlobalFoundries) تقسیم می‌کرد. قطعات محاسباتی حاوی هسته‌های CPU و حافظه نهان L3 بودند؛ قطعه I/O حاوی کنترل‌کننده حافظه، خطوط PCIe و رابط‌های USB/SATA بود.

تأثیر تجاری فوری بود. AMD می‌توانست تعداد هسته‌ها را با افزودن قطعات محاسباتی بدون طراحی مجدد کل تراشه افزایش دهد، در حالی که فضای گران‌قیمت ۷nm را بر روی ترانزیستورهایی متمرکز می‌کرد که بیشترین بهره را از آن می‌برند. Ryzen Threadripper 3990X که در همان سال عرضه شد، از این رویکرد برای ارائه ۶۴ هسته استفاده کرد — چیزی که قبلاً بر روی یک تراشه مقرون‌به‌صرفه غیرممکن بود.

با سری Ryzen 7000 و تراشه‌های سرور EPYC Genoa، AMD بیشتر پیش رفت. نوع 3D V-Cache یک حافظه نهان L3 اضافی ۶۴MB را مستقیماً بر روی قطعه محاسباتی با استفاده از اتصالات عمودی سیلیکونی (Through-Silicon Vias) قرار می‌دهد و خود حافظه نهان را به عنوان یک چیپلتی که به صورت عمودی پیوند خورده است، تلقی می‌کند. بنچمارک‌ها افزایش عملکرد ۱۰ تا ۳۰ درصدی را در بارهای کاری حساس به حافظه نهان مانند بازی‌ها و شبیه‌سازی‌های علمی نشان دادند — نه از ترانزیستورهای بهتر، بلکه از چیدمان فیزیکی بهتر آنها.

پاسخ Intel: قطعات (Tiles) و EMIB

Intel دیرتر به طور عمومی چیپلت‌ها را پذیرفت — این شرکت شهرت خود را بر روی یکپارچگی یکپارچه بنا کرده بود — اما معماری هیبریدی Alder Lake در سال ۲۰۲۱ (ترکیب هسته‌های قدرتمند و کم‌مصرف) نشانگر تغییر بود. تا سال ۲۰۲۳، Intel Meteor Lake اولین پردازنده کاملاً مبتنی بر قطعه (Tile) این شرکت برای مصرف‌کنندگان بود که تراشه را به یک قطعه CPU، قطعه GPU، قطعه SoC و قطعه توسعه‌دهنده I/O، هر کدام بر روی یک گره فرآیندی متفاوت، تفکیک می‌کرد.

فناوری کلیدی اتصال Intel، EMIB (پل اتصال چندقطعه‌ای تعبیه‌شده) است، یک قطعه کوچک سیلیکونی که در زیرلایه بسته جاسازی شده و اتصال متراکم و پهن‌باند بین قطعات مجاور را بدون نیاز به واسطه‌گر (Interposer) گران‌قیمت در کل بسته فراهم می‌کند. برای اتصالات پهن‌باند مورد نیاز بین قطعات CPU و GPU در محصولاتی مانند GPU مرکز داده Ponte Vecchio، Intel از یک نوع پیشرفته‌تر به نام Foveros Direct استفاده می‌کند که امکان انباشتن چهره‌به‌چهره با اتصال مستقیم مس به مس در گام ۱۰μm را فراهم می‌کند.

CoWoS TSMC و مسابقه بسته‌بندی هوش مصنوعی

رونق تراشه‌های هوش مصنوعی، کسب‌وکار بسته‌بندی پیشرفته TSMC را به اندازه کارخانه‌های منطق پیشرو آن از نظر استراتژیک مهم کرده است. CoWoS (تراشه روی ویفر روی زیرلایه) فناوری بسته‌بندی پشت GPUهای H100 و H200 انویدیا است — این فناوری تراشه GPU و تراشه‌های حافظه HBM را در کنار هم بر روی یک واسطه‌گر سیلیکونی قرار می‌دهد و پهنای باند حافظه ۳.۳۵TB/s را فراهم می‌کند که آموزش مدل‌های بزرگ زبانی را عملی می‌سازد.

Blackwell B200 انویدیا CoWoS را فراتر می‌برد: دو تراشه GPU که توسط یک اتصال بین‌تراشه‌ای NVLink با پهنای باند ۱۰TB/s به هم متصل شده‌اند، یک GPU منطقی واحد با ۲۰۸ میلیارد ترانزیستور تشکیل می‌دهند. از دید نرم‌افزار، یک دستگاه است. از نظر فیزیکی، یک مجموعه چندقطعه‌ای مهندسی‌شده است که هیچ دستگاه لیتوگرافی واحدی نمی‌تواند آن را ایجاد کند.

محدودیت عرضه CoWoS در سال‌های ۲۰۲۴-۲۰۲۵ یکی از گلوگاه‌های اصلی کمبود تراشه هوش مصنوعی بود. ظرفیت بسته‌بندی پیشرفته TSMC ماه‌ها از تقاضا عقب بود و زمان تحویل زیرلایه‌های CoWoS در اوج به ۵۲ هفته رسید. TSMC از آن زمان ظرفیت بسته‌بندی را به طور قابل توجهی افزایش داده است، اما این رویداد نشان داد که چگونه بسته‌بندی — که زمانی یک کالای عمومی محسوب می‌شد — به یک متغیر رقابتی درجه یک تبدیل شده است.

مسئله اتصال

سؤال باز در طراحی چیپلت، استانداردسازی اتصال است. AMD، Intel و TSMC هر کدام از رابط‌های اختصاصی بین‌قطعه‌ای استفاده می‌کنند. برای اینکه یک تولیدکننده تراشه بتواند چیپلت‌های محاسباتی را از یک فروشنده و چیپلت‌های I/O را از فروشنده دیگر بخرد، هر دو باید در لایه فیزیکی از یک پروتکل استفاده کنند.

کنسرسیوم Universal Chiplet Interconnect Express (UCIe) که در سال ۲۰۲۲ با اعضای مؤسس شامل Intel، AMD، Arm، TSMC و سامسونگ راه‌اندازی شد، برای حل این مشکل تلاش می‌کند. UCIe یک لایه فیزیکی و پروتکل استاندارد برای ارتباط بین‌قطعه‌ای تعریف می‌کند و پهنای باند تا ۲۸Gbps به ازای هر سیم با انرژی زیر ۲pJ/bit را هدف قرار می‌دهد. پذیرش تدریجی است: UCIe 1.1 در سال ۲۰۲۳ منتشر شد و اولین محصولات استفاده‌کننده از آن در سال ۲۰۲۵ شروع به نمونه‌برداری کردند.

اگر UCIe موفق شود، بازار چیپلت را امکان‌پذیر می‌کند: خرید هسته‌های CPU از AMD، یک واحد پردازش عصبی از Qualcomm، کنترل‌کننده‌های حافظه از یک متخصص، و مونتاژ آنها در یک SoC سفارشی — مدلی که هم اقتصاد و هم پویایی رقابتی طراحی تراشه را به طور اساسی تغییر می‌دهد. سابقه استانداردهای PCIe و USB نشان می‌دهد که استانداردسازی در نهایت اتفاق خواهد افتاد. سؤال این است که بازیگران اصلی تا چه مدت در برابر استانداردسازی برای محافظت از خندق‌های بسته‌بندی خود مقاومت می‌کنند.

این برای پنج سال آینده چه معنایی دارد

چیپلت‌ها دیگر آزمایشی نیستند — آنها معماری اصلی هر تراشه بالاتر از یک آستانه پیچیدگی خاص هستند. کل خط تولید مرکز داده AMD، GPUهای پرچمدار انویدیا، پردازنده‌های مصرف‌کننده Meteor و Arrow Lake اینتل، تراشه‌های M-Ultra و M4 Max اپل (که دو تراشه را با اتصال Ultra Fusion اپل ترکیب می‌کنند) و تقریباً هر ASIC شبکه سطح بالا اکنون از نوعی مونتاژ چندقطعه‌ای استفاده می‌کنند.

نتیجه عملی برای خریداران این است که شماره گره بر روی برگه مشخصات تنها بخشی از داستان را بیان می‌کند. یک CPU "۳nm" که از یک قطعه I/O ۱۲nm در کنار خود استفاده می‌کند، کاملاً ۳nm نیست — اما ممکن است از یک تراشه یکپارچه ۳nm بهتر عمل کند زیرا ترکیب کلی قطعات بهینه‌تر است. درک معماری چیپلت برای ارزیابی دقیق ادعاهای عملکرد پردازنده به طور فزاینده‌ای ضروری است.