Por que a IA está forçando os data centers a repensar o resfriamento do zero

Durante a maior parte da história da computação, manter servidores frios significava movimentar ar. Ventiladores, pisos elevados, corredores quentes e frios, equipamentos de ar condicionado de precisão medidos em toneladas de capacidade de resfriamento – o resfriamento a ar era a resposta universal porque era simples, bem compreendido e adequado para as cargas térmicas que os servidores tradicionais produziam. A IA acabou com essa era. Os clusters de GPU que executam LLMs, treinam sistemas de IA generativa e alimentam inferência em escala produzem densidades de calor que o ar simplesmente não consegue remover com rapidez suficiente. O resfriamento líquido passou de uma técnica de nicho usada em supercomputadores e setups de jogos overclockados para um requisito padrão para qualquer implantação séria de infraestrutura de IA.

Os Números Que Forçaram a Mudança

Um rack de servidor padrão em um data center tradicional consome cerca de 5 a 10 quilowatts. Um rack resfriado a ar em uma instalação hiperscale moderna pode lidar com 15 a 20 quilowatts com gerenciamento cuidadoso de fluxo de ar. Uma GPU NVIDIA H100 consome cerca de 700 watts sob carga. Um rack com oito H100s já está em 5,6 quilowatts antes de considerar o sistema host, rede e armazenamento. Um cluster denso de treinamento de IA – do tipo usado para treinar modelos de fronteira – pode chegar a 100 quilowatts por rack. Algumas configurações sendo implantadas em 2026 estão mirando 300 quilowatts por rack, com roadmaps se estendendo para 2 megawatts em cinco anos.

Nessas densidades, o resfriamento a ar não é uma opção. Líquidos podem transferir calor até 3.500 vezes mais eficientemente que o ar. A física simplesmente não está próxima.

Direct-to-Chip vs Imersão

Duas abordagens de resfriamento líquido emergiram como dominantes na infraestrutura de IA. O resfriamento Direct-to-Chip circula refrigerante através de uma cold plate montada diretamente no die do processador. O calor é conduzido do chip para o refrigerante e removido via um trocador de calor. Os servidores parecem em grande parte convencionais por fora; a mudança na infraestrutura de resfriamento é interna. O Direct-to-Chip é a abordagem mais amplamente implantada para clusters de GPU de IA atualmente, pois pode ser adaptado em edifícios de data center existentes que não foram projetados para imersão total em líquido.

O resfriamento por imersão adota a abordagem mais radical de submergir placas inteiras de servidor em um fluido dielétrico não condutor, seja em sistemas de fase única, onde o fluido permanece líquido, ou sistemas de duas fases, onde ele ferve e recondensa. A imersão permite uma capacidade de remoção de calor ainda maior, suporta operação quase silenciosa (sem ventiladores) e pode reduzir drasticamente a pegada física de uma determinada capacidade de computação. As desvantagens são o custo, a complexidade operacional e o fato de que a manutenção do hardware exige retirá-lo do fluido – uma proposta mais complicada do que trocar um drive hot-plug em um rack convencional.

O Impacto no Design de Data Centers

A mudança para o resfriamento líquido não é apenas uma alteração na engenharia térmica; está remodelando como os data centers são projetados e construídos. Edifícios otimizados para resfriamento a ar dependem de pisos elevados, tiles perfurados, contenção de corredores quentes e frios e caminhos de retorno de ar no teto. Uma instalação resfriada a líquido otimizada para workloads de IA precisa de distribuição de refrigerante canalizada para cada rack, trocadores de calor, infraestrutura de bombeamento e conexões com a planta de água gelada do edifício ou dry coolers.

Isso representa um investimento de capital significativo que instalações existentes não podem facilmente adaptar em escala. O resultado é uma bifurcação no mercado: hyperscalers e operadores focados em IA estão construindo novas instalações prontas para líquido do zero, enquanto provedores de co-location estão criando zonas resfriadas a líquido dentro de edifícios existentes para atender inquilinos de IA sem reformar toda a infraestrutura.

Recuperação de Calor: Transformando um Problema em Recurso

Uma consequência do resfriamento líquido que está cada vez mais impulsionando o interesse comercial é a qualidade do calor residual que ele produz. Data centers resfriados a ar expelem calor em temperaturas muito baixas para serem úteis para qualquer coisa além de aquecer um grande edifício. Sistemas de resfriamento líquido podem operar em temperaturas de fornecimento de 40 a 60 graus Celsius, produzindo fluido de retorno em temperaturas altas o suficiente para serem usadas em aquecimento distrital, agricultura em estufas, aquicultura ou processos industriais.

Vários data centers europeus já estão vendendo calor residual para redes municipais de aquecimento, transformando o que antes era um puro centro de custo em uma fonte de receita. À medida que o preço do carbono aumenta e os reguladores examinam mais de perto o consumo de energia da infraestrutura de IA, a economia da recuperação de calor está passando de interessante para convincente. Uma instalação que pode compensar seus custos de aquecimento vendendo calor residual para edifícios próximos tem uma estrutura de custos fundamentalmente diferente daquela que simplesmente expele calor para a atmosfera.

O Sistema de Resfriamento Gerenciado por IA

Há uma certa recursividade no desenvolvimento mais recente em resfriamento de data centers: modelos de IA estão cada vez mais sendo usados para gerenciar os sistemas de resfriamento que mantêm os modelos de IA funcionando. Plataformas de gerenciamento térmico usando Machine Learning para prever hotspots, ajustar dinamicamente a distribuição de resfriamento entre zonas e antecipar necessidades de manutenção antes que falhas ocorram agora estão disponíveis na maioria dos grandes fornecedores de infraestrutura de data center. A Google relatou uma redução de 40% no uso de energia para resfriamento em algumas instalações após implantar sistemas de otimização de resfriamento treinados com DeepMind anos atrás; a geração atual de plataformas DCIM orientadas por IA alega ganhos de eficiência comparáveis ou maiores.

O efeito prático é que resfriar um data center moderno de IA se tornou um problema de otimização contínua, não uma decisão de engenharia estática tomada no momento da construção. A infraestrutura que mantém o Machine Learning funcionando está ela mesma executando Machine Learning. Para operadores de data centers, isso é ao mesmo tempo uma oportunidade de eficiência e uma nova categoria de dependência operacional a ser gerenciada.