Die Chiplet-Revolution: Wie AMD, Intel und TSMC CPUs wie LEGO-Steine bauen

Die Kurve der Transistordichte, die 50 Jahre Prozessorleistung angetrieben hat, flacht ab. Der Umstieg auf einen kleineren Fertigungsprozess – von 7nm auf 5nm auf 3nm – wird teurer und bringt pro Generation weniger Nutzen. Die Antwort der Halbleiterindustrie ist nicht, auf bessere Lithografie zu warten. Es bedeutet, das Konzept eines Chips neu zu denken.

Der Chiplet-Ansatz zerlegt einen Prozessor in mehrere kleinere Dies, die jeweils auf dem für ihre Funktion optimalen Prozessknoten gefertigt werden, und verbindet sie mittels einer Hochbandbreiten-Niedriglatenz-Verbindung auf einem gemeinsamen Package. Das Ergebnis verhält sich aus Softwaresicht wie ein einzelner Chip, ist aber physisch eine Ansammlung spezialisierter Tiles – hier ein CPU-Compute-Tile, dort ein I/O-Tile, dort ein Speichercontroller.

Warum monolithische Dies an ihre Grenzen stoßen

Die Ökonomie der Halbleiterfertigung ist brutal. Defekte verteilen sich zufällig über einen Wafer, und größere Dies haben eine höhere Wahrscheinlichkeit, mindestens einen Defekt zu enthalten. Ein monolithischer Die mit 500mm² hat etwa die dreifache Ausschussrate im Vergleich zu zwei 250mm² Dies, die zusammen die gleiche Fläche abdecken. Bei führenden Knoten – wo Waferkosten über 20.000$ liegen können – übersetzt sich dieser Yield-Nachteil direkt in Stückkosten.

Hinzu kommt das Cross-Node-Optimierungsproblem. Speichercontroller, I/O-Schnittstellen und analoge Schaltungen profitieren nicht in dem Maße von den kleinsten Prozessknoten wie die Logik. Alles auf 3nm zu fertigen verschwendet Geld für Komponenten, die auf 12nm oder sogar 22nm einwandfrei funktionieren. Chiplets erlauben Ingenieuren, den richtigen Knoten für jede Funktion zu verwenden.

AMDs Wette, die die Industrie veränderte

AMDs erstes kommerzielles Chiplet-Produkt waren die Ryzen 3000 CPUs der Zen-2-Generation im Jahr 2019. Das Design teilte den Prozessor in Compute-Dies (gefertigt auf TSMCs 7nm-Knoten) und einen I/O-Die (gefertigt auf GlobalFoundries’ 12nm-Knoten). Die Compute-Dies enthielten die CPU-Kerne und den L3-Cache; der I/O-Die beinhaltete den Speichercontroller, PCIe-Lanes und USB/SATA-Schnittstellen.

Die kommerzielle Wirkung war sofort spürbar. AMD konnte die Kernanzahl nun durch Hinzufügen von Compute-Dies skalieren, ohne den gesamten Chip neu zu entwerfen, während die teure 7nm-Fläche auf die Transistoren konzentriert blieb, die am meisten davon profitieren. Der Ryzen Threadripper 3990X, ebenfalls 2019 veröffentlicht, nutzte diesen Ansatz, um 64 Kerne zu liefern – zuvor auf einem einzelnen erschwinglichen Die unmöglich.

Mit der Ryzen-7000-Serie und den EPYC Genoa Server-Chips trieb AMD die Entwicklung weiter. Die 3D V-Cache-Variante stapelt zusätzliche 64 MB L3-Cache direkt auf dem Compute-Die mithilfe von Through-Silicon-Vias und behandelt den Cache selbst als vertikal gebondetes Chiplet. Benchmarks zeigten 10–30 % Leistungssteigerungen bei cache-sensitiven Workloads wie Gaming und wissenschaftlichen Simulationen – nicht durch bessere Transistoren, sondern durch eine bessere physische Anordnung derselben.

Intels Antwort: Tiles und EMIB

Intel setzte auf Chiplets öffentlich langsamer – das Unternehmen hatte seinen Ruf auf monolithischer Integration aufgebaut –, aber die hybride Alder-Lake-Architektur von 2021 (Mischung aus Performance- und Effizienzkernen) signalisierte einen Wandel. 2023 war Intel Meteor Lake der erste vollständig tile-basierte Consumer-Prozessor des Unternehmens, der den Chip in ein CPU-Tile, GPU-Tile, SoC-Tile und I/O-Extender-Tile zerlegte, jedes auf einem anderen Prozessknoten gefertigt.

Intels Schlüssel-Interconnect-Technologie ist EMIB (Embedded Multi-die Interconnect Bridge), ein kleines, in das Package-Substrat eingebettetes Siliziumstück, das eine dichte Hochbandbreiten-Verbindung zwischen benachbarten Dies ermöglicht, ohne einen teuren Interposer über das gesamte Package zu benötigen. Für die Hochbandbreiten-Verbindungen zwischen CPU- und GPU-Tiles in Produkten wie dem Ponte-Vecchio-Datacenter-GPU nutzt Intel eine fortgeschrittenere Variante namens Foveros Direct, die Face-to-Face-Die-Stapelung mit direktem Kupfer-zu-Kupfer-Bonding mit 10µm Pitch erlaubt.

TSMCs CoWoS und das KI-Packaging-Rennen

Der KI-Chip-Boom hat TSMCs Advanced-Packaging-Geschäft strategisch genauso wichtig gemacht wie seine führenden Logic-Fabs. CoWoS (Chip-on-Wafer-on-Substrate) ist die Packaging-Technologie hinter Nvidias H100- und H200-GPUs – sie platziert den GPU-Die und die HBM-Speicher-Dies nebeneinander auf einem Silizium-Interposer und ermöglicht die 3,35 TB/s Speicherbandbreite, die das Training großer Sprachmodelle praktikabel macht.

Nvidias Blackwell B200 treibt CoWoS weiter: Zwei GPU-Dies, verbunden durch einen 10 TB/s NVLink-Chip-zu-Chip-Interconnect, bilden eine logische GPU mit 208 Milliarden Transistoren. Aus Softwaresicht ist es ein Gerät. Physisch ist es eine sorgfältig entwickelte Multi-Die-Anordnung, die keine einzelne Lithografiemaschine als Ganzes strukturieren könnte.

Die CoWoS-Versorgungsbeschränkung in den Jahren 2024–2025 war einer der Hauptengpässe bei der KI-Chip-Knappheit. TSMCs Advanced-Packaging-Kapazität lag monatelang hinter der Nachfrage, und die Vorlaufzeiten für CoWoS-Substrate betrugen auf dem Höhepunkt 52 Wochen. TSMC hat die Packaging-Kapazität inzwischen deutlich ausgeweitet, aber die Episode verdeutlichte, wie Packaging – einst als Commodity betrachtet – zu einer erstklassigen Wettbewerbsvariable geworden ist.

Das Interconnect-Problem

Die offene Frage im Chiplet-Design ist die Interconnect-Standardisierung. AMD, Intel und TSMC verwenden jeweils proprietäre Die-zu-Die-Schnittstellen. Damit ein Chip-Hersteller Compute-Chiplets von einem Anbieter und I/O-Chiplets von einem anderen beziehen kann, müssen beide auf der physikalischen Ebene dasselbe Protokoll sprechen.

Das Universal Chiplet Interconnect Express (UCIe)-Konsortium, 2022 mit Gründungsmitgliedern wie Intel, AMD, Arm, TSMC und Samsung gestartet, arbeitet an einer Lösung. UCIe definiert eine Standard-Physical-Layer und ein Protokoll für die Die-zu-Die-Kommunikation mit Zielbandbreiten von bis zu 28 Gbps pro Leitung bei einer Energie von unter 2 pJ/Bit. Die Adoption verläuft schrittweise: UCIe 1.1 wurde 2023 veröffentlicht, und die ersten Produkte damit begannen 2025 mit dem Sampling.

Wenn UCIe erfolgreich ist, ermöglicht es einen Chiplet-Marktplatz: CPU-Kerne von AMD kaufen, eine Neural Processing Unit von Qualcomm, Speichercontroller von einem Spezialisten, und zu einem kundenspezifischen SoC zusammensetzen – ein Modell, das sowohl die Ökonomie als auch die Wettbewerbsdynamik des Chip-Designs radikal verändern würde. Der Präzedenzfall der PCIe- und USB-Standards deutet darauf hin, dass eine Standardisierung irgendwann kommen wird. Die Frage ist, wie lange die großen Player der Standardisierung widerstehen, um ihre Packaging-Vorteile zu schützen.

Was das für die nächsten fünf Jahre bedeutet

Chiplets sind nicht mehr experimentell – sie sind die Mainstream-Architektur für jeden Chip oberhalb einer bestimmten Komplexitätsschwelle. AMDs gesamte Datacenter-Reihe, Nvidias Flaggschiff-GPUs, Intels Meteor- und Arrow-Lake-Client-Prozessoren, Apples M-Ultra- und M4-Max-Chips (die zwei Dies mit Apples Ultra-Fusion-Interconnect kombinieren) und praktisch jeder High-End-Networking-ASIC verwenden inzwischen eine Form von Multi-Die-Assembly.

Die praktische Konsequenz für Käufer ist, dass die Knotennummer auf dem Datenblatt nur einen Teil der Geschichte erzählt. Eine "3nm"-CPU, die einen 12nm-I/O-Die daneben verwendet, ist nicht vollständig 3nm – aber sie kann einen monolithischen 3nm-Chip übertreffen, weil die Gesamtzusammensetzung der Dies besser optimiert ist. Das Verständnis der Chiplet-Architektur wird zunehmend notwendig, um die Leistungsaussagen von Prozessoren korrekt zu bewerten.