La révolution des chiplets : comment AMD, Intel et TSMC construisent des CPU comme des briques LEGO

La courbe de densité des transistors qui a alimenté 50 ans de gains de performance des processeurs s'aplatit. Passer à un nœud de processus plus petit — de 7nm à 5nm à 3nm — devient plus coûteux et apporte moins de bénéfices à chaque génération. La réponse de l'industrie des semi-conducteurs n'est pas d'attendre une meilleure lithographie. C'est de repenser ce qu'est une puce.

L'approche chiplet divise un processeur en plusieurs dies plus petits, chacun fabriqué sur le nœud de processus le mieux adapté à sa fonction, et les relie par une interconnexion à haute bande passante et faible latence sur un boîtier commun. Le résultat se comporte comme une seule puce pour le logiciel, mais est physiquement une collection de tuiles spécialisées — un die de calcul CPU ici, un die d'E/S là, un contrôleur mémoire ailleurs.

Pourquoi les dies monolithiques ont atteint un mur

L'économie de la fabrication des semi-conducteurs est brutale. Les défauts sont répartis aléatoirement sur un wafer, et les dies plus grands ont une probabilité plus élevée de contenir au moins un défaut. Un die monolithique de 500mm² a un rendement environ 3 fois inférieur à celui de deux dies de 250mm² qui couvrent ensemble la même surface. Sur les nœuds de pointe — où les coûts de wafer peuvent dépasser 20 000 $ — cette pénalité de rendement se traduit directement par le coût unitaire.

Il y a aussi le problème d'optimisation inter-nœuds. Les contrôleurs mémoire, les interfaces d'E/S et les circuits analogiques ne bénéficient pas des plus petits nœuds de processus comme le fait la logique. Tout exécuter à 3nm gaspille de l'argent sur des composants qui fonctionnent parfaitement à 12nm ou même 22nm. Les chiplets permettent aux ingénieurs d'utiliser le nœud approprié pour chaque fonction.

Le pari d'AMD qui a changé l'industrie

Le premier produit commercial chiplet d'AMD a été les CPU Ryzen 3000 de la génération Zen 2 en 2019. La conception divisait le processeur en dies de calcul (fabriqués sur le nœud 7nm de TSMC) et un die d'E/S (fabriqué sur le nœud 12nm de GlobalFoundries). Les dies de calcul contenaient les cœurs CPU et le cache L3 ; le die d'E/S contenait le contrôleur mémoire, les lignes PCIe et les interfaces USB/SATA.

L'impact commercial a été immédiat. AMD pouvait désormais augmenter le nombre de cœurs en ajoutant des dies de calcul sans reconcevoir l'ensemble de la puce, tout en concentrant la zone coûteuse en 7nm sur les transistors qui en bénéficient le plus. Le Ryzen Threadripper 3990X, sorti la même année, utilisait cette approche pour offrir 64 cœurs — auparavant impossible sur une seule puce abordable.

Avec la série Ryzen 7000 et les puces serveur EPYC Genoa, AMD est allé plus loin. La variante 3D V-Cache empile 64 Mo de cache L3 supplémentaires directement sur le die de calcul à l'aide de vias traversants de silicium (Through-Silicon Vias), traitant le cache lui-même comme un chiplet lié verticalement. Les Benchmarks ont montré des gains de performance de 10 à 30 % dans les charges de travail sensibles au cache comme les jeux et les simulations scientifiques — non pas grâce à de meilleurs transistors, mais à une meilleure disposition physique de ceux-ci.

La réponse d'Intel : Tiles et EMIB

Intel a été plus lent à adopter publiquement les chiplets — l'entreprise avait bâti sa réputation sur l'intégration monolithique — mais son architecture hybride Alder Lake de 2021 (mélangeant cœurs performance et efficacité) a signalé un changement. En 2023, Intel Meteor Lake a été le premier processeur grand public entièrement basé sur des Tiles, décomposant la puce en un Tile CPU, un Tile GPU, un Tile SoC et un Tile d'extension E/S, chacun sur un nœud de processus différent.

La technologie d'interconnexion clé d'Intel est EMIB (Embedded Multi-die Interconnect Bridge), un petit morceau de silicium intégré dans le substrat du boîtier qui fournit une connexion dense et à haute bande passante entre dies adjacents sans nécessiter un Interposer coûteux sur tout le boîtier. Pour les connexions à haute bande passante nécessaires entre les Tiles CPU et GPU dans des produits comme le GPU de centre de données Ponte Vecchio, Intel utilise une variante plus avancée appelée Foveros Direct, qui permet l'empilement face à face avec une liaison directe cuivre à cuivre à un pas de 10µm.

Le CoWoS de TSMC et la course au packaging IA

Le boom des puces IA a rendu l'activité de packaging avancé de TSMC aussi stratégiquement importante que ses usines logiques de pointe. CoWoS (Chip-on-Wafer-on-Substrate) est la technologie de packaging derrière les GPU H100 et H200 de Nvidia — elle place le die GPU et les dies mémoire HBM côte à côte sur un Interposer en silicium, permettant la bande passante mémoire de 3,35 To/s qui rend pratique l'entraînement des grands modèles de langage.

Le Blackwell B200 de Nvidia pousse CoWoS plus loin : deux dies GPU reliés par une liaison NVLink inter-puces de 10 To/s forment un seul GPU logique avec 208 milliards de transistors. Du point de vue du logiciel, c'est un seul appareil. Physiquement, c'est un assemblage multi-die soigneusement conçu qu'aucune machine de lithographie unique ne pourrait réaliser.

La contrainte d'approvisionnement en CoWoS en 2024–2025 a été l'un des principaux goulots d'étranglement de la pénurie de puces IA. La capacité de packaging avancé de TSMC était en retard de plusieurs mois sur la demande, et les délais de livraison des substrats CoWoS ont atteint 52 semaines au pic. TSMC a depuis considérablement augmenté sa capacité de packaging, mais l'épisode a illustré comment le packaging — autrefois considéré comme une commodité — est devenu une variable concurrentielle de premier ordre.

Le problème de l'interconnexion

La question ouverte dans la conception des chiplets est la standardisation de l'interconnexion. AMD, Intel et TSMC utilisent chacun des interfaces propriétaires entre dies. Pour qu'un fabricant de puces achète des chiplets de calcul à un fournisseur et des chiplets d'E/S à un autre, les deux doivent parler le même protocole au niveau physique.

Le consortium Universal Chiplet Interconnect Express (UCIe), lancé en 2022 avec comme membres fondateurs Intel, AMD, Arm, TSMC et Samsung, travaille à résoudre ce problème. UCIe définit une couche physique et un protocole standard pour la communication entre dies, visant des bandes passantes allant jusqu'à 28 Gbps par fil à moins de 2 pJ/bit. L'adoption est progressive : UCIe 1.1 a été publié en 2023, et les premiers produits l'utilisant ont commencé à être échantillonnés en 2025.

Si UCIe réussit, il permettra un marché de chiplets : acheter des cœurs CPU chez AMD, une unité de traitement neuronal chez Qualcomm, des contrôleurs mémoire chez un spécialiste, et les assembler en un SoC personnalisé — un modèle qui changerait radicalement à la fois l'économie et la dynamique concurrentielle de la conception de puces. Le précédent des normes PCIe et USB suggère que la standardisation finira par arriver. La question est de savoir combien de temps les grands acteurs résisteront à la standardisation pour protéger leurs fossés de packaging.

Ce que cela signifie pour les cinq prochaines années

Les chiplets ne sont plus expérimentaux — ils sont l'architecture dominante pour toute puce dépassant un certain seuil de complexité. L'ensemble de la gamme datacenter d'AMD, les GPU phares de Nvidia, les processeurs consommateurs Meteor et Arrow Lake d'Intel, les puces M-Ultra et M4 Max d'Apple (qui combinent deux dies avec l'interconnexion Ultra Fusion d'Apple), et pratiquement tous les ASIC réseau haut de gamme utilisent désormais une forme d'assemblage multi-die.

La conséquence pratique pour les acheteurs est que le numéro de nœud sur la fiche technique ne raconte qu'une partie de l'histoire. Un CPU "3nm" qui utilise un die d'E/S en 12nm à ses côtés n'est pas entièrement en 3nm — mais il peut surpasser une puce monolithique en 3nm car la composition globale des dies est mieux optimisée. Comprendre l'architecture chiplet est de plus en plus nécessaire pour évaluer avec précision les affirmations de performance des processeurs.