L'AI Memory Wall : pourquoi HBM4 est plus important que la prochaine génération de GPU

Le discours autour du hardware IA a toujours mis l'accent sur le calcul : pétaflops, TFLOPS, nombre de cœurs tensoriels, comptage de transistors. Mais en 2025-2026, la frontière des performances des modèles d'IA est de plus en plus contrainte non par la vitesse à laquelle les GPU peuvent calculer, mais par la vitesse à laquelle ils peuvent lire les données. Le goulot d'étranglement est la bande passante mémoire — et la réponse de l'industrie est l'HBM4.

La High Bandwidth Memory (HBM) est la technologie de DRAM empilée qui se trouve sur le même package que le silicium du GPU, connectée par des milliers de connexions électriques courtes et larges appelées through-silicon vias (TSV). Chaque « stack » est composé de plusieurs puces DRAM liées verticalement, avec une interface entre elles bien plus large — et donc bien plus rapide — que les pistes PCB qui connectent la mémoire hors-package classique. L'HBM3e, livrée sur les Nvidia H200 et AMD Instinct MI325X, offre jusqu'à 4,8 téraoctets par seconde (TB/s) de bande passante mémoire. L'HBM4, en production chez SK Hynix et Samsung et livrée en 2025-2026, dépasse les 6 TB/s par stack — avec une bande passante die-to-die considérablement augmentée via une nouvelle interface 2048 bits.

Pourquoi la bande passante est devenue la contrainte

Les modèles Transformer modernes sont limités par la bande passante mémoire lors de l'inférence, d'une manière qui n'était pas vraie pendant l'entraînement. Voici pourquoi : l'entraînement traite de grands lots de données à travers le modèle simultanément, ce qui maintient les unités de calcul du GPU occupées. Mais l'inférence — répondre à une requête utilisateur unique — implique des tailles de lot beaucoup plus petites, souvent une taille de lot de 1. Avec une taille de lot de 1, le GPU passe la plupart de son temps à lire les poids du modèle depuis la mémoire et relativement peu de temps à effectuer des opérations arithmétiques dessus. Le rapport entre opérations arithmétiques et lectures mémoire, appelé intensité arithmétique, est faible.

Pour un modèle comme Llama 3 70B en précision float16, vous devez déplacer environ 140 Go de poids de la mémoire vers le calcul pour chaque forward pass. Avec une bande passante H100 SXM5 de 3,35 TB/s, cela prend environ 42 millisecondes par token — avant même tout calcul réel. Les 2000 TFLOPS de calcul théorique du GPU restent largement inactifs, affamés de données. Doubler la puissance de calcul sans doubler la bande passante ne change presque rien pour l'inférence mono-utilisateur.

C'est le memory wall : un régime où les améliorations brutes du calcul produisent des rendements décroissants car le système ne peut pas déplacer les données assez vite pour alimenter les processeurs.

Ce que l'HBM4 change réellement

L'HBM4 n'ajoute pas seulement de la bande passante — il modifie l'architecture de la façon dont la mémoire est attachée au calcul. L'HBM3e utilise une interface 1024 bits par stack ; l'HBM4 double cette valeur à 2048 bits. Combiné à des fréquences d'horloge plus élevées, cela double approximativement la bande passante par stack. Plus important encore, le nouveau standard permet une logique sur le die de base — une couche de calcul à l'intérieur même du stack mémoire, adjacente aux données — ce qui permet d'effectuer des opérations simples sans déplacer les données vers le GPU.

Le Blackwell B200 de Nvidia est livré avec HBM3e, offrant 8 TB/s agrégés sur ses cinq stacks. Son successeur, Vera Rubin, devrait utiliser HBM4 et viser plus de 15 TB/s. Pour les charges de travail d'inférence, il s'agit d'une amélioration plus significative que le doublement du calcul FP8. L'AMD Instinct MI350X, attendu en 2025, vise également l'extension HBM3e, avec le MI400 prévu autour de HBM4.

L'amélioration de la bande passante affecte plus que la latence d'inférence. Des tailles de lot effectives plus grandes deviennent possibles sans thrashing mémoire, ce qui améliore l'utilisation du GPU pendant l'inférence et rend les stratégies de continuous batching (la technique utilisée par vLLM pour servir des centaines d'utilisateurs simultanément sur un seul GPU) plus efficaces.

Le problème de capacité

La bande passante n'est qu'une partie du défi mémoire. La taille des modèles augmente également, et faire tenir un modèle en mémoire est une condition préalable pour le servir. Les modèles de la classe GPT-4 sont largement estimés entre 1 et 8 billions de paramètres ; même en quantification 4 bits, un modèle de 1T paramètres nécessite 500 Go de mémoire. Les configurations actuelles HBM3e sur les systèmes H100 plafonnent à 80 Go par GPU, nécessitant des clusters de 8 à 16 GPU même pour des modèles quantifiés.

L'HBM4 répond en partie à ce problème par une densité améliorée. Les stacks HBM4 12-high de SK Hynix peuvent atteindre 48 Go par stack, contre 24 Go dans l'HBM3e actuel. Combiné à six stacks par GPU (comme Nvidia l'a indiqué pour les futures architectures), cela pourrait porter la mémoire par GPU à 288 Go — suffisant pour servir des modèles frontaliers de taille moyenne sur une seule puce.

Pour l'entraînement, le calcul est différent : le stockage des gradients et les états de l'optimiseur multiplient les besoins en mémoire par 12 à 16x par paramètre. Un modèle de 7B paramètres en float32 avec les états de l'optimiseur AdamW nécessite environ 112 Go — la mémoire totale d'un seul nœud H100. L'entraînement distribué sur des centaines de GPU est une pratique courante, mais chaque étape de communication introduit une latence proportionnelle à la taille du modèle.

La complication de la chaîne d'approvisionnement

L'HBM est fabriqué par trois sociétés : SK Hynix, Samsung et Micron. Hynix est le leader technologique et le fournisseur principal de Nvidia pour l'HBM3e. Samsung a rencontré des problèmes de rendement avec l'HBM3e, ce qui lui a coûté la qualification de Nvidia. L'HBM3e de Micron est en production et livré à AMD.

Le risque de concentration est réel. Nvidia consomme une grande partie de la production mondiale d'HBM, et les pénuries de capacité HBM ont contribué aux contraintes d'approvisionnement en GPU qui sont structurellement distinctes de la capacité de fabrication de GPU chez TSMC. Construire plus de puces logiques GPU n'aide pas s'il n'y a pas assez d'HBM pour les attacher. Les analystes estiment que l'offre d'HBM restera contrainte jusqu'en 2026, avec des prix élevés par rapport à la DRAM standard.

La production d'HBM4 nécessite une intégration encore plus étroite entre le fabricant de mémoire et le concepteur de puces — la nouvelle capacité de calcul sur le die de base nécessite une conception conjointe du stack mémoire et du package GPU. Cela approfondit les exigences de partenariat entre Nvidia et SK Hynix, augmentant les barrières à l'entrée pour les nouveaux venus.

Au-delà des GPU : l'avenir du compute-near-memory

La trajectoire à plus long terme pointe vers un changement architectural plus fondamental : le processing-in-memory (PIM) et le near-memory computing, où les éléments de calcul se rapprochent de l'endroit où les données résident plutôt que l'inverse. La logique sur le die de base de l'HBM4 est une première étape dans cette direction.

Plusieurs startups — Untether AI, Mythic et Axelera parmi elles — construisent des puces d'inférence qui placent le calcul directement adjacent à des réseaux de mémoire denses, éliminant le goulot d'étranglement de la bande passante par conception. Elles n'ont pas encore remplacé l'inférence basée sur GPU à grande échelle, mais elles montrent où la pression architecturale mène. Le memory wall n'est pas un problème temporaire à corriger avec des bus plus rapides — c'est une conséquence de la séparation entre calcul et stockage de l'architecture von Neumann, et le résoudre nécessite de repenser cette séparation.

Pour les deux à trois prochaines années, l'HBM4 est la réponse pratique. Mais les entreprises qui gagneront la prochaine phase du hardware IA ne seront peut-être pas celles avec le calcul le plus rapide — elles seront celles qui trouveront comment éliminer le goulot d'étranglement mémoire par conception.