O Memory Wall da IA: Por que o HBM4 Importa Mais que a Próxima Geração de GPU

A narrativa sobre hardware de IA sempre girou em torno da computação: petaflops, TFLOPS, número de tensor cores, contagem de transistores. Mas a fronteira do desempenho dos modelos de IA em 2025-2026 é cada vez mais limitada não pela velocidade com que as GPUs computam, mas pela velocidade com que conseguem ler dados. O gargalo é a largura de banda da memória — e a resposta da indústria é o HBM4.
High Bandwidth Memory (HBM) é a tecnologia de DRAM empilhada que fica no mesmo pacote que o silício da GPU, conectada por milhares de conexões elétricas curtas e largas chamadas through-silicon vias (TSVs). Cada "stack" são múltiplos dies de DRAM unidos verticalmente, com a interface entre eles muito mais larga — e, portanto, muito mais rápida — do que os traços de PCB que conectam a memória externa convencional. O HBM3e, presente na H200 da Nvidia e na Instinct MI325X da AMD, oferece até 4,8 terabytes por segundo (TB/s) de largura de banda de memória. O HBM4, em produção na SK Hynix e Samsung e com envios previstos para 2025-2026, ultrapassa 6 TB/s por stack — com a largura de banda die-to-die aumentando substancialmente através de uma nova interface de 2048 bits.
Por que a Largura de Banda se Tornou o Gargalo
Os modelos transformer modernos são limitados pela largura de banda da memória durante a inferência de uma forma que não era verdade durante o treinamento. Eis o porquê: o treinamento processa grandes lotes de dados através do modelo simultaneamente, o que mantém as unidades de computação da GPU ocupadas. Mas a inferência — responder a uma única consulta de usuário — envolve tamanhos de lote muito menores, muitas vezes lote de tamanho 1. Com lote de tamanho 1, a GPU passa a maior parte do tempo lendo pesos do modelo da memória e relativamente pouco tempo fazendo aritmética com eles. A proporção de operações aritméticas para leituras de memória, chamada de intensidade aritmética, é baixa.
Para um modelo como Llama 3 70B em precisão float16, é necessário mover aproximadamente 140 GB de pesos da memória para a computação a cada forward pass. Com a largura de banda do H100 SXM5 de 3,35 TB/s, isso leva cerca de 42 milissegundos por token — antes de qualquer computação real. Os 2.000 TFLOPS de computação teórica da GPU ficam em grande parte ociosos, famintos por dados. Dobrar a computação sem dobrar a largura de banda quase não muda nada para inferência de um único usuário.
Este é o memory wall: um regime onde melhorias na computação bruta produzem retornos decrescentes porque o sistema não consegue mover dados rápido o suficiente para alimentar os processadores.
O que o HBM4 Realmente Muda
O HBM4 não apenas adiciona largura de banda — ele muda a arquitetura de como a memória é conectada à computação. O HBM3e usa uma interface de 1024 bits por stack; o HBM4 dobra isso para 2048 bits. Combinado com velocidades de clock mais altas, isso aproximadamente dobra a largura de banda por stack. Mais importante, o novo padrão permite a lógica base-die — uma camada de computação dentro do próprio stack de memória, adjacente aos dados — que permite que operações simples sejam realizadas sem mover dados para a GPU.
A Blackwell B200 da Nvidia vem com HBM3e, entregando 8 TB/s agregados em seus cinco stacks. O sucessor, Vera Rubin, deve usar HBM4 e atingir mais de 15 TB/s. Para cargas de trabalho de inferência, esta é uma melhoria mais significativa do que dobrar a computação FP8. A Instinct MI350X da AMD, prevista para 2025, também visa o escalonamento do HBM3e, com o MI400 planejado em torno do HBM4.
A melhoria na largura de banda afeta mais do que a latência da inferência. Tamanhos efetivos de lote maiores se tornam possíveis sem thrashing de memória, o que melhora a utilização da GPU durante a inferência e torna as estratégias de continuous batching (a técnica usada pelo vLLM para servir centenas de usuários simultaneamente em uma única GPU) mais eficientes.
O Problema da Capacidade
Largura de banda é apenas parte do desafio da memória. O tamanho dos modelos também está crescendo, e encaixar um modelo na memória é um pré-requisito para servi-lo. Modelos da classe GPT-4 são amplamente estimados em 1 a 8 trilhões de parâmetros; mesmo com quantização de 4 bits, um modelo de 1T de parâmetros requer 500 GB de memória. As configurações atuais de HBM3e em sistemas H100 chegam a 80 GB por GPU, exigindo clusters de 8 a 16 GPUs mesmo para modelos quantizados.
O HBM4 aborda isso parcialmente através de maior densidade. Os stacks de 12 camadas de HBM4 da SK Hynix podem alcançar 48 GB por stack, contra 24 GB no HBM3e atual. Combinado com seis stacks por GPU (como a Nvidia indicou para arquiteturas futuras), isso pode trazer a memória por GPU para 288 GB — suficiente para servir modelos frontier de médio porte em um único chip.
Para treinamento, a matemática é diferente: o armazenamento de gradientes e os estados do optimizer multiplicam os requisitos de memória por 12-16x por parâmetro. Um modelo de 7B parâmetros em float32 com estados do optimizer AdamW requer aproximadamente 112 GB — toda a memória de um único nó H100. O treinamento distribuído em centenas de GPUs é prática padrão, mas cada etapa de comunicação introduz latência proporcional ao tamanho do modelo.
A Complicação na Cadeia de Suprimentos
O HBM é fabricado por três empresas: SK Hynix, Samsung e Micron. A Hynix é a líder tecnológica e principal fornecedora da Nvidia para HBM3e. A Samsung enfrentou problemas de rendimento com HBM3e, perdendo a qualificação da Nvidia. O HBM3e da Micron está em produção e sendo enviado para a AMD.
O risco de concentração é real. A Nvidia consome uma grande parte da produção global de HBM, e a escassez de capacidade de HBM contribuiu para restrições de fornecimento de GPU que são estruturalmente separadas da capacidade de fabricação de GPU na TSMC. Construir mais chips lógicos de GPU não adianta se não houver HBM suficiente para conectá-los. Analistas estimam que o fornecimento de HBM permanece restrito até 2026, com preços elevados em relação à DRAM padrão.
A produção de HBM4 requer uma integração ainda mais estreita entre o fabricante de memória e o projetista de chip — a nova capacidade de computação base-die exige o design conjunto do stack de memória e do pacote da GPU. Isso aprofunda os requisitos de parceria entre Nvidia e SK Hynix, elevando as barreiras para novos entrantes.
Além das GPUs: O Futuro da Computação Próxima à Memória
A trajetória de longo prazo aponta para uma mudança arquitetural mais fundamental: processamento na memória (PIM) e computação near-memory, onde elementos de computação se movem para mais perto de onde os dados residem, em vez do contrário. A lógica base-die do HBM4 é um passo inicial nessa direção.
Várias startups — Untether AI, Mythic e Axelera entre elas — estão construindo chips de inferência que colocam a computação diretamente adjacente a matrizes densas de memória, eliminando o memory wall por design. Elas ainda não deslocaram a inferência baseada em GPU em escala, mas demonstram para onde a pressão arquitetural leva. O memory wall não é um problema temporário a ser corrigido com barramentos mais rápidos — é uma consequência da separação entre computação e armazenamento na arquitetura de von Neumann, e resolvê-lo exige repensar essa separação.
Para os próximos dois a três anos, o HBM4 é a resposta prática. Mas as empresas que vencerem a próxima fase do hardware de IA podem não ser as que têm a computação mais rápida — serão aquelas que descobrirem como eliminar o gargalo da memória por design.