Die AI Memory Wall: Warum HBM4 wichtiger ist als die nächste GPU-Generation

Die Erzählung rund um AI Hardware drehte sich schon immer um Compute: Petaflops, TFLOPS, die Anzahl der Tensor Cores, die Transistorzahl. Doch die Grenze der AI-Modellleistung in den Jahren 2025–2026 wird zunehmend nicht dadurch bestimmt, wie schnell GPUs rechnen können, sondern wie schnell sie Daten lesen können. Der Engpass ist Memory Bandwidth – und die Antwort der Industrie heißt HBM4.

High Bandwidth Memory (HBM) ist die gestapelte DRAM-Technologie, die auf demselben Package wie das GPU-Silizium sitzt, verbunden durch Tausende kurze, breite elektrische Verbindungen, sogenannte Through-Silicon Vias (TSVs). Jeder „Stack" besteht aus mehreren vertikal gebondeten DRAM-Dies, deren Schnittstelle deutlich breiter – und damit deutlich schneller – ist als die PCB-Leiterbahnen, die konventionellen Off-Package-Speicher verbinden. HBM3e, ausgeliefert auf Nvidias H200 und AMDs Instinct MI325X, liefert bis zu 4,8 Terabyte pro Sekunde (TB/s) Memory Bandwidth. HBM4, in Produktion bei SK Hynix und Samsung und ausgeliefert in 2025–2026, treibt das auf über 6 TB/s pro Stack – mit einer deutlich gestiegenen Die-to-Die-Bandwidth durch ein neues 2048-Bit-Interface.

Warum Bandwidth zum Engpass wurde

Moderne Transformer Modelle sind während der Inference in einer Weise Memory-Bandwidth-gebunden, die während des Trainings nicht zutraf. Der Grund: Training verarbeitet große Batches von Daten gleichzeitig durch das Modell, wodurch die Compute-Einheiten der GPU ausgelastet bleiben. Inference – die Antwort auf eine einzelne Benutzeranfrage – arbeitet jedoch mit viel kleineren Batch-Größen, oft Batch Size 1. Bei Batch Size 1 verbringt die GPU die meiste Zeit damit, Modellgewichte aus dem Speicher zu lesen und relativ wenig Zeit mit Arithmetik auf diesen Daten. Das Verhältnis von arithmetischen Operationen zu Speicherzugriffen – die Arithmetic Intensity – ist niedrig.

Für ein Modell wie Llama 3 70B in Float16-Präzision müssen pro Forward Pass rund 140 GB an Gewichten aus dem Speicher zur Compute-Einheit bewegt werden. Bei einer H100 SXM5 Bandwidth von 3,35 TB/s dauert das etwa 42 Millisekunden pro Token – noch bevor irgendeine tatsächliche Berechnung stattfindet. Die theoretischen 2.000 TFLOPS der GPU sitzen meist untätig herum, ausgehungert nach Daten. Wenn man Compute verdoppelt, ohne Bandwidth zu verdoppeln, ändert das für die Einzel-Nutzer-Inference so gut wie nichts.

Das ist die Memory Wall: ein Zustand, in dem rohe Compute-Verbesserungen abnehmende Erträge liefern, weil das System Daten nicht schnell genug bewegen kann, um die Prozessoren zu versorgen.

Was HBM4 tatsächlich ändert

HBM4 erhöht nicht einfach nur Bandwidth – es verändert die Architektur, wie Speicher an Compute angebunden wird. HBM3e nutzt ein 1024-Bit-Interface pro Stack; HBM4 verdoppelt das auf 2048 Bit. Kombiniert mit höheren Taktraten verdoppelt das grob die Bandwidth pro Stack. Wichtiger noch: Der neue Standard ermöglicht Base-Die-Logik – eine Compute-Schicht im Speicherstack selbst, direkt neben den Daten – die es erlaubt, einfache Operationen auszuführen, ohne Daten überhaupt zur GPU zu bewegen.

Nvidias Blackwell B200 wird mit HBM3e ausgeliefert und liefert 8 TB/s aggregiert über seine fünf Stacks. Der Nachfolger, Vera Rubin, soll HBM4 nutzen und auf 15+ TB/s abzielen. Für Inference-Workloads ist dies eine bedeutendere Verbesserung als die Verdopplung von FP8 Compute. AMDs Instinct MI350X, fällig 2025, zielt ebenfalls auf HBM3e-Skalierung, mit MI400 geplant um HBM4 herum.

Die Bandwidth-Verbesserung betrifft mehr als nur die Inference-Latenz. Größere effektive Batch-Größen werden möglich, ohne dass es zu Memory Thrashing kommt, was die GPU-Auslastung während der Inference verbessert und Continuous Batching-Strategien (die von vLLM verwendete Technik, um Hunderte von Nutzern gleichzeitig auf einer einzigen GPU zu bedienen) effizienter macht.

Das Kapazitätsproblem

Bandwidth ist nur ein Teil der Speicherherausforderung. Auch die Modellgrößen wachsen, und ein Modell in den Speicher zu bekommen ist eine Voraussetzung, um es zu bedienen. GPT-4-ähnliche Modelle werden allgemein auf 1–8 Billionen Parameter geschätzt; selbst bei 4-Bit-Quantisierung benötigt ein 1T-Parameter-Modell 500 GB Speicher. Aktuelle HBM3e-Konfigurationen auf H100-Systemen erreichen maximal 80 GB pro GPU, sodass selbst für quantisierte Modelle Cluster von 8–16 GPUs erforderlich sind.

HBM4 adressiert dies teilweise durch verbesserte Dichte. SK Hynix‘ 12-High-HBM4-Stacks können 48 GB pro Stack erreichen, gegenüber 24 GB im aktuellen HBM3e. Kombiniert mit sechs Stacks pro GPU (wie Nvidia für künftige Architekturen angedeutet hat) könnte das den Speicher pro GPU auf 288 GB bringen – genug, um mittelgroße Frontier-Modelle auf einem einzigen Chip zu bedienen.

Fürs Training sieht die Rechnung anders aus: Gradient Storage und Optimizer States vervielfachen den Speicherbedarf pro Parameter um das 12- bis 16-fache. Ein 7B-Parameter-Modell in Float32 mit AdamW-Optimizer-States benötigt rund 112 GB – den gesamten Speicher eines einzelnen H100-Knotens. Verteiltes Training über Hunderte von GPUs ist Standardpraxis, aber jeder Kommunikationsschritt bringt eine Latenz mit sich, die proportional zur Modellgröße ist.

Die Komplikation in der Lieferkette

HBM wird von drei Unternehmen hergestellt: SK Hynix, Samsung und Micron. Hynix ist der Technologieführer und Nvidias Hauptlieferant für HBM3e. Samsung hat mit HBM3e-Ausbeuteproblemen zu kämpfen, was ihm die Nvidia-Qualifikation gekostet hat. Microns HBM3e ist in Produktion und wird an AMD ausgeliefert.

Das Konzentrationsrisiko ist real. Nvidia verbraucht einen großen Teil der globalen HBM-Produktion, und Engpässe bei der HBM-Kapazität haben zu GPU-Versorgungsbeschränkungen beigetragen, die strukturell von der GPU-Fertigigungskapazität bei TSMC getrennt sind. Mehr GPU-Logikchips zu bauen hilft nicht, wenn nicht genug HBM vorhanden ist, um sie anzubinden. Analysten schätzen, dass das HBM-Angebot bis 2026 knapp bleibt, mit im Vergleich zu Standard-DRAM erhöhten Preisen.

Die HBM4-Produktion erfordert eine noch engere Integration zwischen Speicherhersteller und Chip-Designer – die neue Base-Die-Computing-Fähigkeit erfordert ein gemeinsames Design des Speicherstacks und des GPU-Packages. Dies vertieft die Partnerschaftsanforderungen zwischen Nvidia und SK Hynix und erhöht die Eintrittsbarrieren für Neueinsteiger.

Jenseits von GPUs: Die Compute-Near-Memory-Zukunft

Der längerfristige Trend deutet auf einen grundlegenderen Architekturwandel hin: Processing-in-Memory (PIM) und Near-Memory Computing, bei dem Compute-Elemente näher an den Ort rücken, wo Daten leben, statt umgekehrt. Die Base-Die-Logik von HBM4 ist ein erster Schritt in diese Richtung.

Mehrere Startups – darunter Untether AI, Mythic und Axelera – bauen Inference-Chips, die Compute direkt neben dichten Speicherarrays platzieren und so die Bandbreitenwand per Design eliminieren. Diese haben GPU-basierte Inference im großen Maßstab noch nicht verdrängt, aber sie zeigen, wohin der architektonische Druck führt. Die Memory Wall ist kein temporäres Problem, das mit schnelleren Bussen geflickt werden kann – sie ist eine Folge der Trennung von Compute und Storage in der von-Neumann-Architektur, und ihre Lösung erfordert ein Überdenken dieser Trennung.

Für die nächsten zwei bis drei Jahre ist HBM4 die praktische Antwort. Aber die Unternehmen, die die nächste Phase der AI Hardware gewinnen, sind vielleicht nicht die mit dem schnellsten Compute – sondern diejenigen, die herausfinden, wie man den Memory-Engpass per Design beseitigt.