La revolución de los chiplets: cómo AMD, Intel y TSMC construyen CPUs como bloques de LEGO

La curva de densidad de transistores que impulsó 50 años de mejoras en el rendimiento de los procesadores se está aplanando. Pasar a un nodo de proceso más pequeño —de 7nm a 5nm a 3nm— resulta cada vez más caro y ofrece menos beneficios por generación. La respuesta de la industria de semiconductores no es esperar una mejor litografía. Es repensar qué es un chip.

El enfoque de chiplet divide un procesador en múltiples dados más pequeños, cada uno fabricado en el nodo de proceso más adecuado para su función, y los conecta mediante una interconexión de alta capacidad y baja latencia en un paquete compartido. El resultado se comporta como un solo chip para el software, pero físicamente es una colección de fichas especializadas: un dado de cómputo CPU aquí, un dado de E/S allá, un controlador de memoria más allá.

Por qué los dados monolíticos chocaron con un muro

La economía de la fabricación de semiconductores es brutal. Los defectos se distribuyen aleatoriamente en una oblea, y los dados más grandes tienen una mayor probabilidad de contener al menos un defecto. Un dado monolítico de 500mm² tiene un rendimiento aproximadamente 3 veces peor que dos dados de 250mm² que juntos cubren la misma área. En los nodos de vanguardia —donde los costos de oblea pueden superar los $20,000— esta penalización de rendimiento se traduce directamente en el costo unitario.

También está el problema de optimización entre nodos. Los controladores de memoria, las interfaces de E/S y los circuitos analógicos no se benefician de los nodos de proceso más pequeños como lo hace la lógica digital. Ejecutar todo a 3nm desperdicia dinero en componentes que funcionan perfectamente a 12nm o incluso 22nm. Los chiplets permiten a los ingenieros usar el nodo adecuado para cada función.

La apuesta de AMD que cambió la industria

El primer producto comercial con chiplet de AMD fueron las CPUs Ryzen 3000 de la generación Zen 2 en 2019. El diseño dividía el procesador en dados de cómputo (fabricados en el nodo de 7nm de TSMC) y un dado de E/S (fabricado en el nodo de 12nm de GlobalFoundries). Los dados de cómputo contenían los núcleos de la CPU y la caché L3; el dado de E/S contenía el controlador de memoria, las líneas PCIe y las interfaces USB/SATA.

El impacto comercial fue inmediato. AMD podía ahora escalar el número de núcleos añadiendo dados de cómputo sin rediseñar todo el chip, mientras mantenía la costosa área de 7nm concentrada en los transistores que más se benefician de ella. El Ryzen Threadripper 3990X, lanzado ese mismo año, utilizó este enfoque para ofrecer 64 núcleos —algo antes imposible en un solo chip asequible.

Con la serie Ryzen 7000 y los chips de servidor EPYC Genoa, AMD fue más allá. La variante 3D V-Cache apila 64MB adicionales de caché L3 directamente sobre el dado de cómputo mediante vías de silicio (Through-Silicon Vias), tratando la propia caché como un chiplet unido verticalmente. Los Benchmarks mostraron ganancias de rendimiento del 10–30% en cargas de trabajo sensibles a la caché, como juegos y simulaciones científicas —no gracias a mejores transistores, sino a una mejor disposición física de los mismos.

La respuesta de Intel: Tiles y EMIB

Intel fue más lento en adoptar los chiplets públicamente —la compañía había construido su reputación sobre la integración monolítica— pero su arquitectura híbrida Alder Lake de 2021 (mezclando núcleos de rendimiento y eficiencia) señaló un cambio. Para 2023, Intel Meteor Lake fue el primer procesador de consumo totalmente basado en Tiles, descomponiendo el chip en un Tile de CPU, un Tile de GPU, un Tile de SoC y un Tile extensor de E/S, cada uno en un nodo de proceso diferente.

La tecnología clave de interconexión de Intel es EMIB (Embedded Multi-die Interconnect Bridge), una pequeña pieza de silicio incrustada en el sustrato del paquete que proporciona una conexión densa y de alta capacidad entre dados adyacentes sin necesidad de un costoso Interposer en todo el paquete. Para las conexiones de alta capacidad necesarias entre los Tiles de CPU y GPU en productos como la GPU de centro de datos Ponte Vecchio, Intel utiliza una variante más avanzada llamada Foveros Direct, que permite el apilamiento cara a cara con enlace directo cobre a cobre a un paso de 10µm.

El CoWoS de TSMC y la carrera de empaquetado de IA

El auge de los chips de IA ha hecho que el negocio de empaquetado avanzado de TSMC sea tan estratégicamente importante como sus fábricas de lógica de vanguardia. CoWoS (Chip-on-Wafer-on-Substrate) es la tecnología de empaquetado detrás de las GPUs H100 y H200 de Nvidia: coloca el dado de la GPU y los dados de memoria HBM uno al lado del otro sobre un Interposer de silicio, permitiendo los 3.35TB/s de ancho de banda de memoria que hacen práctico el entrenamiento de grandes modelos de lenguaje.

La Blackwell B200 de Nvidia lleva CoWoS más lejos: dos dados de GPU conectados por un enlace NVLink entre chips de 10TB/s forman una sola GPU lógica con 208 mil millones de transistores. Desde la perspectiva del software, es un solo dispositivo. Físicamente, es un ensamblaje multidado cuidadosamente diseñado que ninguna máquina de litografía individual podría generar.

La restricción de suministro de CoWoS en 2024–2025 fue uno de los principales cuellos de botella en la escasez de chips de IA. La capacidad de empaquetado avanzado de TSMC estaba meses por detrás de la demanda, y los plazos de entrega para sustratos CoWoS se alargaron hasta 52 semanas en su punto máximo. TSMC ha expandido significativamente la capacidad de empaquetado desde entonces, pero el episodio ilustró cómo el empaquetado —que alguna vez se consideró un commodity— se ha convertido en una variable competitiva de primer orden.

El problema de la interconexión

La cuestión abierta en el diseño de chiplets es la estandarización de la interconexión. AMD, Intel y TSMC utilizan interfaces propietarias entre dados. Para que un fabricante de chips compre chiplets de cómputo de un proveedor y chiplets de E/S de otro, ambos deben hablar el mismo protocolo a nivel físico.

El consorcio Universal Chiplet Interconnect Express (UCIe), lanzado en 2022 con miembros fundadores como Intel, AMD, Arm, TSMC y Samsung, está trabajando para resolver esto. UCIe define una capa física y un protocolo estándar para la comunicación entre dados, apuntando a anchos de banda de hasta 28Gbps por cable a menos de 2pJ/bit de energía. La adopción es gradual: UCIe 1.1 se publicó en 2023 y los primeros productos que lo usan comenzaron a muestrearse en 2025.

Si UCIe tiene éxito, permitirá un mercado de chiplets: comprar núcleos de CPU de AMD, una unidad de procesamiento neuronal de Qualcomm, controladores de memoria de un especialista, y ensamblarlos en un SoC personalizado —un modelo que cambiaría radicalmente tanto la economía como la dinámica competitiva del diseño de chips. El precedente de los estándares PCIe y USB sugiere que la estandarización ocurrirá eventualmente. La pregunta es cuánto tiempo resistirán los grandes actores a la estandarización para proteger sus fosos de empaquetado.

Qué significa esto para los próximos cinco años

Los chiplets ya no son experimentales —son la arquitectura dominante para cualquier chip por encima de cierto umbral de complejidad. Toda la línea de centros de datos de AMD, las GPUs insignia de Nvidia, los procesadores de consumo Meteor y Arrow Lake de Intel, los chips M-Ultra y M4 Max de Apple (que combinan dos dados con la interconexión Ultra Fusion de Apple), y prácticamente todos los ASIC de redes de alto nivel utilizan ahora alguna forma de ensamblaje multidado.

La consecuencia práctica para los compradores es que el número de nodo en la hoja de especificaciones solo cuenta parte de la historia. Una CPU "3nm" que utiliza un dado de E/S de 12nm junto a ella no es completamente de 3nm —pero puede superar a un chip monolítico de 3nm porque la composición general de dados está mejor optimizada. Comprender la arquitectura de chiplets es cada vez más necesario para evaluar con precisión las afirmaciones de rendimiento de los procesadores.