A revolução dos chiplets: como AMD, Intel e TSMC estão construindo CPUs como blocos de LEGO

A curva de densidade de transistores que impulsionou 50 anos de ganhos de desempenho dos processadores está se achatando. Migrar para um nó de processo menor — de 7nm para 5nm para 3nm — fica mais caro e rende menos benefícios a cada geração. A resposta da indústria de semicondutores não é esperar por uma litografia melhor. É repensar o que é um chip.

A abordagem de chiplet divide um processador em vários dies menores, cada um fabricado no nó de processo mais adequado para sua função, e os conecta usando uma interconexão de alta largura de banda e baixa latência em um pacote compartilhado. O resultado se comporta como um único chip para o software, mas fisicamente é uma coleção de tiles especializados — um die de computação CPU aqui, um die de E/S ali, um controlador de memória acolá.

Por que os dies monolíticos bateram em um muro

A economia da fabricação de semicondutores é brutal. Defeitos são distribuídos aleatoriamente em um wafer, e dies maiores têm maior probabilidade de conter pelo menos um defeito. Um die monolítico de 500mm² tem um rendimento aproximadamente 3 vezes pior do que dois dies de 250mm² que juntos cobrem a mesma área. Em nós de ponta — onde os custos de wafer podem exceder US$ 20.000 — essa penalidade de rendimento se traduz diretamente no custo unitário.

Há também o problema de otimização entre nós. Controladores de memória, interfaces de E/S e circuitos analógicos não se beneficiam dos menores nós de processo como a lógica digital. Executar tudo a 3nm desperdiça dinheiro em componentes que funcionam perfeitamente a 12nm ou mesmo 22nm. Os chiplets permitem que os engenheiros usem o nó certo para cada função.

A aposta da AMD que mudou a indústria

O primeiro produto comercial com chiplet da AMD foram as CPUs Ryzen 3000 da geração Zen 2 em 2019. O design dividia o processador em dies de computação (fabricados no nó de 7nm da TSMC) e um die de E/S (fabricado no nó de 12nm da GlobalFoundries). Os dies de computação continham os núcleos da CPU e o cache L3; o die de E/S continha o controlador de memória, as linhas PCIe e as interfaces USB/SATA.

O impacto comercial foi imediato. A AMD agora podia escalar o número de núcleos adicionando dies de computação sem redesenhar o chip inteiro, enquanto mantinha a cara área de 7nm focada nos transistores que mais se beneficiam dela. O Ryzen Threadripper 3990X, lançado no mesmo ano, usou essa abordagem para oferecer 64 núcleos — algo antes impossível em um único chip acessível.

Com a série Ryzen 7000 e os chips de servidor EPYC Genoa, a AMD foi além. A variante 3D V-Cache empilha 64MB adicionais de cache L3 diretamente sobre o die de computação usando vias de silício (Through-Silicon Vias), tratando o próprio cache como um chiplet ligado verticalmente. Os Benchmarks mostraram ganhos de desempenho de 10–30% em cargas de trabalho sensíveis a cache, como jogos e simulações científicas — não por transistores melhores, mas por uma melhor disposição física deles.

A resposta da Intel: Tiles e EMIB

A Intel foi mais lenta em adotar chiplets publicamente — a empresa construiu sua reputação na integração monolítica — mas sua arquitetura híbrida Alder Lake de 2021 (misturando núcleos de desempenho e eficiência) sinalizou uma mudança. Em 2023, o Intel Meteor Lake foi o primeiro processador de consumo totalmente baseado em Tiles, decompondo o chip em um Tile de CPU, um Tile de GPU, um Tile de SoC e um Tile extensor de E/S, cada um em um nó de processo diferente.

A principal tecnologia de interconexão da Intel é a EMIB (Embedded Multi-die Interconnect Bridge), um pequeno pedaço de silício embutido no substrato do pacote que fornece uma conexão densa e de alta largura de banda entre dies adjacentes sem exigir um Interposer caro em todo o pacote. Para as conexões de alta largura de banda necessárias entre os Tiles de CPU e GPU em produtos como a GPU de datacenter Ponte Vecchio, a Intel usa uma variante mais avançada chamada Foveros Direct, que permite o empilhamento face a face com ligação direta cobre a cobre em um passo de 10µm.

O CoWoS da TSMC e a corrida de empacotamento de IA

O boom dos chips de IA tornou o negócio de empacotamento avançado da TSMC tão estrategicamente importante quanto suas fábricas de lógica de ponta. O CoWoS (Chip-on-Wafer-on-Substrate) é a tecnologia de empacotamento por trás das GPUs H100 e H200 da Nvidia — ela coloca o die da GPU e os dies de memória HBM lado a lado em um Interposer de silício, permitindo a largura de banda de memória de 3,35TB/s que torna prático o treinamento de grandes modelos de linguagem.

A Blackwell B200 da Nvidia leva o CoWoS adiante: dois dies de GPU conectados por um link NVLink entre chips de 10TB/s formam uma única GPU lógica com 208 bilhões de transistores. Da perspectiva do software, é um único dispositivo. Fisicamente, é uma montagem multi-die cuidadosamente projetada que nenhuma máquina de litografia individual poderia criar.

A restrição de oferta do CoWoS em 2024–2025 foi um dos principais gargalos na escassez de chips de IA. A capacidade de empacotamento avançado da TSMC estava meses atrás da demanda, e os prazos de entrega para substratos CoWoS se estenderam a 52 semanas no pico. A TSMC expandiu significativamente a capacidade de empacotamento desde então, mas o episódio ilustrou como o empacotamento — outrora considerado uma commodity — tornou-se uma variável competitiva de primeira classe.

O problema da interconexão

A questão em aberto no design de chiplets é a padronização da interconexão. AMD, Intel e TSMC usam cada uma interfaces proprietárias entre dies. Para que um fabricante de chips compre chiplets de computação de um fornecedor e chiplets de E/S de outro, ambos devem falar o mesmo protocolo na camada física.

O consórcio Universal Chiplet Interconnect Express (UCIe), lançado em 2022 com membros fundadores incluindo Intel, AMD, Arm, TSMC e Samsung, está trabalhando para resolver isso. O UCIe define uma camada física e um protocolo padrão para comunicação entre dies, visando larguras de banda de até 28Gbps por fio com energia abaixo de 2pJ/bit. A adoção é gradual: UCIe 1.1 foi publicado em 2023, e os primeiros produtos que o utilizam começaram a ser amostrados em 2025.

Se o UCIe tiver sucesso, ele viabilizará um mercado de chiplets: comprar núcleos de CPU da AMD, uma unidade de processamento neural da Qualcomm, controladores de memória de um especialista e montá-los em um SoC personalizado — um modelo que mudaria radicalmente tanto a economia quanto a dinâmica competitiva do design de chips. O precedente dos padrões PCIe e USB sugere que a padronização acabará ocorrendo. A questão é quanto tempo os grandes players resistirão à padronização para proteger seus fossos de empacotamento.

O que isso significa para os próximos cinco anos

Os chiplets não são mais experimentais — eles são a arquitetura dominante para qualquer chip acima de um certo limiar de complexidade. Toda a linha de datacenter da AMD, as GPUs emblemáticas da Nvidia, os processadores de consumo Meteor e Arrow Lake da Intel, os chips M-Ultra e M4 Max da Apple (que combinam dois dies com a interconexão Ultra Fusion da Apple), e praticamente todo ASIC de rede de alto nível agora usa alguma forma de montagem multi-die.

A consequência prática para os compradores é que o número do nó na folha de especificações conta apenas parte da história. Uma CPU "3nm" que usa um die de E/S de 12nm ao lado não é inteiramente 3nm — mas pode superar um chip monolítico de 3nm porque a composição geral dos dies é melhor otimizada. Entender a arquitetura de chiplets é cada vez mais necessário para avaliar com precisão as alegações de desempenho dos processadores.