El muro de memoria de la IA: Por qué HBM4 importa más que la próxima generación de GPU

La narrativa en torno al hardware de IA siempre ha girado en torno a la computación: petaflops, TFLOPS, la cantidad de tensor cores, el conteo de transistores. Pero la frontera del rendimiento de los modelos de IA en 2025-2026 está cada vez más limitada no por lo rápido que las GPUs pueden computar, sino por lo rápido que pueden leer datos. El cuello de botella es el ancho de banda de memoria, y la respuesta de la industria es HBM4.

High Bandwidth Memory (HBM) es la tecnología DRAM apilada que reside en el mismo paquete que el silicio de la GPU, conectada por miles de conexiones eléctricas cortas y anchas llamadas through-silicon vias (TSVs). Cada "stack" está compuesto por múltiples dies DRAM unidos verticalmente, con una interfaz entre ellos mucho más ancha —y por tanto mucho más rápida— que las trazas de PCB que conectan la memoria convencional fuera del paquete. HBM3e, presente en las Nvidia H200 y AMD Instinct MI325X, ofrece hasta 4,8 terabytes por segundo (TB/s) de ancho de banda de memoria. HBM4, en producción en SK Hynix y Samsung y con envíos previstos para 2025-2026, supera los 6 TB/s por stack — con un aumento sustancial del ancho de banda die-to-die gracias a una nueva interfaz de 2048 bits.

Por qué el ancho de banda se convirtió en la restricción

Los modelos transformer modernos están limitados por el ancho de banda de memoria durante la inferencia de una manera que no ocurría durante el entrenamiento. He aquí por qué: el entrenamiento procesa grandes lotes de datos a través del modelo simultáneamente, lo que mantiene ocupadas las unidades de cómputo de la GPU. Pero la inferencia —responder a una consulta de un solo usuario— implica tamaños de lote mucho menores, a menudo batch size 1. Con batch size 1, la GPU pasa la mayor parte del tiempo leyendo los pesos del modelo desde la memoria y relativamente poco tiempo realizando operaciones aritméticas sobre ellos. La relación entre operaciones aritméticas y lecturas de memoria, denominada intensidad aritmética, es baja.

Para un modelo como Llama 3 70B en precisión float16, es necesario mover aproximadamente 140 GB de pesos desde la memoria hasta la computación por cada forward pass. Con un ancho de banda de 3,35 TB/s en H100 SXM5, esto lleva unos 42 milisegundos por token — antes de cualquier cómputo real. Los 2.000 TFLOPS de cómputo teórico de la GPU permanecen en gran medida ociosos, hambrientos de datos. Duplicar la computación sin duplicar el ancho de banda apenas cambia nada para la inferencia de un solo usuario.

Este es el muro de memoria: un régimen donde las mejoras en cómputo bruto generan rendimientos decrecientes porque el sistema no puede mover datos lo suficientemente rápido como para mantener alimentados los procesadores.

Qué cambia realmente HBM4

HBM4 no solo añade ancho de banda — cambia la arquitectura de cómo la memoria se conecta a la computación. HBM3e utiliza una interfaz de 1024 bits por stack; HBM4 la duplica a 2048 bits. Combinado con velocidades de reloj más altas, esto aproximadamente duplica el ancho de banda por stack. Más importante aún, el nuevo estándar permite lógica en el die base — una capa de cómputo dentro del propio stack de memoria, adyacente a los datos — lo que permite realizar operaciones simples sin necesidad de mover los datos hasta la GPU.

La Blackwell B200 de Nvidia utiliza HBM3e, ofreciendo un agregado de 8 TB/s a través de sus cinco stacks. Se espera que su sucesora, Vera Rubin, use HBM4 y alcance más de 15 TB/s. Para cargas de trabajo de inferencia, esta es una mejora más significativa que duplicar el cómputo FP8. La AMD Instinct MI350X, prevista para 2025, también apunta a escalar con HBM3e, mientras que MI400 está planeada en torno a HBM4.

La mejora en el ancho de banda afecta a más que la latencia de inferencia. Se hacen posibles tamaños de lote efectivos mayores sin thrashing de memoria, lo que mejora la utilización de la GPU durante la inferencia y hace más eficientes las estrategias de continuous batching (la técnica que usa vLLM para atender a cientos de usuarios simultáneamente en una sola GPU).

El problema de la capacidad

El ancho de banda es solo una parte del desafío de memoria. El tamaño de los modelos también está creciendo, y encajar un modelo en memoria es un requisito previo para servirlo. Se estima ampliamente que los modelos de clase GPT-4 tienen entre 1 y 8 billones de parámetros; incluso con cuantización a 4 bits, un modelo de 1 billón de parámetros requiere 500 GB de memoria. Las configuraciones actuales de HBM3e en sistemas H100 alcanzan un máximo de 80 GB por GPU, requiriendo clústeres de 8 a 16 GPUs incluso para modelos cuantizados.

HBM4 aborda esto en parte mediante una mayor densidad. Los stacks de 12 capas de HBM4 de SK Hynix pueden alcanzar 48 GB por stack, frente a los 24 GB del HBM3e actual. Combinado con seis stacks por GPU (como Nvidia ha indicado para futuras arquitecturas), esto podría llevar la memoria por GPU a 288 GB — suficiente para servir modelos frontera de tamaño medio en un solo chip.

Para el entrenamiento, las matemáticas son diferentes: el almacenamiento de gradientes y los estados del optimizador multiplican los requisitos de memoria entre 12 y 16 veces por parámetro. Un modelo de 7 mil millones de parámetros en float32 con estados del optimizador AdamW requiere aproximadamente 112 GB — la memoria completa de un solo nodo H100. El entrenamiento distribuido a través de cientos de GPUs es práctica estándar, pero cada paso de comunicación introduce latencia proporcional al tamaño del modelo.

La complicación de la cadena de suministro

HBM es fabricado por tres empresas: SK Hynix, Samsung y Micron. Hynix es el líder tecnológico y el proveedor principal de Nvidia para HBM3e. Samsung ha tenido problemas de rendimiento con HBM3e, lo que le ha costado la calificación de Nvidia. El HBM3e de Micron está en producción y se envía a AMD.

El riesgo de concentración es real. Nvidia consume una gran parte de la producción global de HBM, y la escasez de capacidad de HBM ha contribuido a restricciones en el suministro de GPUs que estructuralmente son independientes de la capacidad de fabricación de GPUs en TSMC. Construir más chips lógicos de GPU no ayuda si no hay suficiente HBM para conectarlos. Los analistas estiman que el suministro de HBM seguirá restringido hasta 2026, con precios elevados en comparación con la DRAM estándar.

La producción de HBM4 requiere una integración aún más estrecha entre el fabricante de memoria y el diseñador de chips — la nueva capacidad de cómputo en el die base exige un diseño conjunto del stack de memoria y del paquete de la GPU. Esto profundiza los requisitos de colaboración entre Nvidia y SK Hynix, elevando las barreras para nuevos participantes.

Más allá de las GPUs: el futuro del cómputo cercano a la memoria

La trayectoria a largo plazo apunta hacia un cambio arquitectónico más fundamental: processing-in-memory (PIM) y near-memory computing, donde los elementos de cómputo se acercan al lugar donde viven los datos, en lugar de al revés. La lógica en el die base de HBM4 es un primer paso en esta dirección.

Varias startups — Untether AI, Mythic y Axelera entre ellas — están construyendo chips de inferencia que colocan el cómputo directamente adyacente a matrices de memoria densas, eliminando el muro de ancho de banda por diseño. Estas aún no han desplazado la inferencia basada en GPU a gran escala, pero demuestran hacia dónde conduce la presión arquitectónica. El muro de memoria no es un problema temporal que se parchee con buses más rápidos — es una consecuencia de la separación entre cómputo y almacenamiento propia de la arquitectura von Neumann, y resolverlo requiere repensar esa separación.

Para los próximos dos o tres años, HBM4 es la respuesta práctica. Pero las empresas que ganen la siguiente fase del hardware de IA quizás no sean las que tengan el cómputo más rápido — serán las que descubran cómo eliminar el cuello de botella de memoria por diseño.