IRCNF

Por qué la IA está obligando a los centros de datos a replantearse la refrigeración desde cero

Compartir:
Por qué la IA está obligando a los centros de datos a replantearse la refrigeración desde cero

Durante la mayor parte de la historia de la computación, mantener fríos los servidores significaba mover aire. Ventiladores, pisos elevados, pasillos calientes y fríos, unidades de aire acondicionado de precisión medidas en toneladas de capacidad de refrigeración: la refrigeración por aire era la respuesta universal porque era simple, bien comprendida y adecuada para las cargas térmicas que producían los servidores tradicionales. La IA ha terminado con esa era. Los clústeres de GPU que ejecutan LLM, entrenan sistemas de IA generativa y alimentan inferencia a escala producen densidades de calor que el aire simplemente no puede eliminar con la suficiente rapidez. La refrigeración líquida ha pasado de ser una técnica de nicho utilizada en supercomputadoras y configuraciones de gaming overclocked a un requisito estándar para cualquier implementación seria de infraestructura de IA.

Los números que forzaron el cambio

Un rack de servidor estándar en un centro de datos tradicional consume entre 5 y 10 kilovatios. Un rack refrigerado por aire en una instalación moderna de hiperescala podría manejar de 15 a 20 kilovatios con una gestión cuidadosa del flujo de aire. Una GPU NVIDIA H100 consume alrededor de 700 vatios bajo carga. Un rack de ocho H100 ya está en 5.6 kilovatios antes de considerar el sistema anfitrión, la red y el almacenamiento. Un clúster denso de entrenamiento de IA –el tipo utilizado para entrenar modelos frontera– puede alcanzar los 100 kilovatios por rack. Algunas configuraciones que se están implementando en 2026 apuntan a 300 kilovatios por rack, con hojas de ruta que se extienden hasta 2 megavatios en cinco años.

A estas densidades, la refrigeración por aire no es una opción. El líquido puede transferir calor hasta 3.500 veces más eficazmente que el aire. La física simplemente no está cerca.

Refrigeración directa al chip vs Inmersión

Dos enfoques de refrigeración líquida han surgido como dominantes en la infraestructura de IA. La refrigeración directa al chip hace circular refrigerante a través de una placa fría montada directamente sobre el dado del procesador. El calor se conduce del chip al refrigerante y se elimina mediante un intercambiador de calor. Los servidores tienen un aspecto en gran medida convencional desde el exterior; el cambio en la infraestructura de refrigeración es interno. La refrigeración directa al chip es el enfoque más implementado para los clústeres de GPU de IA hoy en día porque se puede adaptar a edificios de centros de datos existentes que no fueron diseñados para inmersión total en líquido.

La refrigeración por inmersión adopta el enfoque más radical de sumergir placas de servidor completas en un fluido dieléctrico no conductor, ya sea en sistemas de fase única donde el fluido permanece líquido, o en sistemas de dos fases donde hierve y se recondensa. La inmersión permite una capacidad de eliminación de calor aún mayor, admite un funcionamiento casi silencioso (sin ventiladores) y puede reducir drásticamente la huella física de una capacidad de cómputo determinada. Las desventajas son el costo, la complejidad operativa y el hecho de que reparar el hardware requiere sacarlo del fluido, una propuesta más complicada que intercambiar una unidad de conexión en caliente en un rack convencional.

Lo que esto supone para el diseño de centros de datos

El cambio a la refrigeración líquida no es solo un cambio de ingeniería térmica; está reconfigurando cómo se diseñan y construyen los centros de datos. Los edificios optimizados para refrigeración por aire dependen de pisos elevados, losetas perforadas, confinamiento de pasillos calientes y fríos, y rutas de retorno de aire a nivel de techo. Una instalación refrigerada por líquido optimizada para cargas de trabajo de IA necesita distribución de refrigerante por tuberías a cada rack, intercambiadores de calor, infraestructura de bombeo y conexiones a la planta de agua fría del edificio o a enfriadores secos.

Esto es una inversión de capital significativa que las instalaciones existentes no pueden adaptar fácilmente a gran escala. El resultado es una bifurcación en el mercado: los hiperescaladores y los operadores centrados en IA están construyendo nuevas instalaciones listas para líquido desde cero, mientras que los proveedores de coubicación están creando zonas refrigeradas por líquido dentro de edificios existentes para atender a inquilinos de IA sin renovar toda su infraestructura.

Recuperación de calor: convertir un problema en un recurso

Una consecuencia de la refrigeración líquida que está impulsando cada vez más el interés comercial es la calidad del calor residual que produce. Los centros de datos refrigerados por aire expulsan calor a temperaturas demasiado bajas para ser útiles para algo más que calentar un edificio grande. Los sistemas de refrigeración líquida pueden operar a temperaturas de suministro de 40 a 60 grados Celsius, produciendo fluido de retorno a temperaturas lo suficientemente altas para ser utilizado en calefacción urbana, agricultura de invernadero, acuicultura o procesos industriales.

Varios centros de datos europeos ya están vendiendo calor residual a redes de calefacción municipales, convirtiendo lo que antes era un centro de costos puro en una fuente de ingresos. A medida que aumentan los precios del carbono y los reguladores escudriñan más de cerca el consumo de energía de la infraestructura de IA, la economía de la recuperación de calor está pasando de interesante a convincente. Una instalación que puede compensar sus costos de calefacción vendiendo calor residual a edificios cercanos tiene una estructura de costos fundamentalmente diferente a una que simplemente expulsa calor a la atmósfera.

El sistema de refrigeración gestionado por IA

Hay una cierta recursividad en el desarrollo más reciente de la refrigeración de centros de datos: los modelos de IA se utilizan cada vez más para gestionar los sistemas de refrigeración que mantienen en funcionamiento los modelos de IA. Las plataformas de gestión térmica que utilizan Machine Learning para predecir puntos calientes, ajustar dinámicamente la distribución de refrigeración entre zonas y anticipar necesidades de mantenimiento antes de que ocurran fallas están ahora disponibles en la mayoría de los proveedores importantes de software de gestión de infraestructura de centros de datos. Google informó una reducción del 40% en el uso de energía de refrigeración en algunas instalaciones después de implementar sistemas de optimización de refrigeración entrenados con DeepMind hace años; la generación actual de plataformas DCIM impulsadas por IA afirma ganancias de eficiencia comparables o mayores.

El efecto práctico es que enfriar un centro de datos moderno de IA se ha convertido en un problema de optimización continua, no en una decisión de ingeniería estática tomada en el momento de la construcción. La infraestructura que mantiene en funcionamiento el Machine Learning está a su vez ejecutando Machine Learning. Para los operadores de centros de datos, esto es tanto una oportunidad de eficiencia como una nueva categoría de dependencia operativa que gestionar.

Compartir:
Por qué la IA está obligando a los centros de datos a replantearse la refrigeración desde cero | IRCNF - Intelligent Reliable Custom Next-gen Frameworks