چرا هوش مصنوعی مراکز داده را مجبور به بازطراحی خنک‌کنندگی از پایه می‌کند

برای بیشتر تاریخ محاسبات، خنک نگه داشتن سرورها به معنای جابجایی هوا بود. فن‌ها، کف‌های مرتفع، راهروهای گرم و سرد، واحدهای تهویه دقیق که با تن ظرفیت خنک‌کنندگی اندازه‌گیری می‌شدند – خنک‌کنندگی هوا پاسخ جهانی بود چون ساده، خوب فهمیده شده و برای بارهای حرارتی تولید شده توسط سرورهای سنتی کافی بود. هوش مصنوعی به آن دوران پایان داد. کلاسترهای GPU که LLMها را اجرا می‌کنند، سیستم‌های generative AI را آموزش می‌دهند و inference در مقیاس بزرگ را تأمین می‌کنند، چگالی حرارتی تولید می‌کنند که هوا به سادگی نمی‌تواند به سرعت کافی آن را دفع کند. خنک‌کنندگی مایع از یک روش تخصصی که در ابررایانه‌ها و سیستم‌های اورکلاک شده بازی استفاده می‌شد، به یک نیاز استاندارد برای هر استقرار زیرساخت جدی هوش مصنوعی تبدیل شده است.

اعدادی که تغییر را الزامی کردند

یک رک استاندارد سرور در یک مرکز داده سنتی حدود 5 تا 10 کیلووات مصرف می‌کند. یک رک خنک‌شونده با هوا در یک تاسیسات hyperscale مدرن می‌تواند با مدیریت دقیق جریان هوا 15 تا 20 کیلووات را تحمل کند. یک GPU NVIDIA H100 در زیر بار حدود 700 وات مصرف می‌کند. یک رک هشت تایی H100 به تنهایی 5.6 کیلووات است، بدون در نظر گرفتن سیستم میزبان، شبکه و ذخیره‌سازی. یک کلاستر آموزش متراکم هوش مصنوعی – از نوعی که برای آموزش مدل‌های frontier استفاده می‌شود – می‌تواند به 100 کیلووات در هر رک برسد. برخی پیکربندی‌هایی که در سال 2026 مستقر می‌شوند، هدف 300 کیلووات در هر رک را دارند و نقشه‌های راه به سمت 2 مگاوات در عرض پنج سال گسترش می‌یابند.

در این چگالی‌ها، خنک‌کنندگی هوا یک گزینه نیست. مایع می‌تواند حرارت را تا 3500 برابر مؤثرتر از هوا انتقال دهد. فیزیک به سادگی نزدیک نیست.

Direct-to-chip در مقابل Immersion

دو رویکرد خنک‌کنندگی مایع در زیرساخت هوش مصنوعی غالب شده‌اند. Direct-to-chip یک مبرد را از طریق یک cold plate که مستقیماً روی پردازنده نصب شده است، گردش می‌دهد. حرارت از تراشه به مبرد هدایت شده و از طریق یک heat exchanger خارج می‌شود. سرورها از بیرون عمدتاً معمولی به نظر می‌رسند؛ تغییر زیرساخت خنک‌کنندگی داخلی است. Direct-to-chip امروزه پراستقرارترین رویکرد برای کلاسترهای GPU هوش مصنوعی است زیرا می‌تواند در ساختمان‌های مرکز داده موجود که برای غوطه‌وری کامل مایع طراحی نشده‌اند، به‌صورت retrofit اعمال شود.

Immersion رویکرد رادیکال‌تری دارد: کل بردهای سرور را در یک سیال دی‌الکتریک غیررسانا غوطه‌ور می‌کند، چه در سیستم‌های single-phase که سیال مایع می‌ماند، چه در سیستم‌های two-phase که می‌جوشد و دوباره متراکم می‌شود. Immersion ظرفیت دفع حرارت حتی بالاتری را ممکن می‌سازد، از عملکرد تقریباً بی‌صدا (بدون فن) پشتیبانی می‌کند و می‌تواند ردپای فیزیکی یک ظرفیت محاسباتی معین را به طرز چشمگیری کاهش دهد. معاوضه‌ها هزینه، پیچیدگی عملیاتی و این واقعیت است که سرویس‌دهی سخت‌افزار نیاز به بیرون کشیدن آن از سیال دارد – کاری کثیف‌تر از تعویض یک درایو hot-plug در یک رک معمولی.

این چه تأثیری بر طراحی مرکز داده دارد

تغییر به خنک‌کنندگی مایع فقط یک تغییر مهندسی حرارتی نیست؛ بلکه نحوه طراحی و ساخت مراکز داده را دگرگون می‌کند. ساختمان‌های بهینه‌سازی شده برای خنک‌کنندگی هوا به کف‌های مرتفع، کاشی‌های سوراخ‌دار، محفظه‌های راهروهای گرم و سرد و مسیرهای بازگشت هوا در سطح سقف متکی هستند. یک تاسیسات خنک‌شونده با مایع که برای بارهای کاری هوش مصنوعی بهینه شده است، نیاز به توزیع لوله‌کشی مبرد به هر رک، heat exchangerها، زیرساخت پمپاژ و اتصالات به کارخانه آب سرد یا dry coolerهای ساختمان دارد.

این یک سرمایه‌گذاری کلان است که تاسیسات موجود نمی‌توانند به راحتی در مقیاس retrofit کنند. نتیجه یک دوشاخگی در بازار است: hyperscalerها و اپراتورهای اول هوش مصنوعی در حال ساخت تاسیسات جدید آماده مایع از پایه هستند، در حالی که ارائه‌دهندگان co-location در حال ایجاد zoneهای خنک‌شونده با مایع در ساختمان‌های موجود برای خدمت به مستاجران هوش مصنوعی بدون بازسازی کامل زیرساخت خود هستند.

بازیابی حرارت: تبدیل یک مشکل به یک منبع

یک پیامد خنک‌کنندگی مایع که به طور فزاینده‌ای باعث جلب توجه تجاری می‌شود، کیفیت حرارت زباله‌ای است که تولید می‌کند. مراکز داده خنک‌شونده با هوا حرارت را در دماهایی تخلیه می‌کنند که برای چیزی غیر از گرم کردن یک ساختمان بزرگ کاربردی نیست. سیستم‌های خنک‌کنندگی مایع می‌توانند در دمای تغذیه 40 تا 60 درجه سانتی‌گراد کار کنند و سیال برگشتی را در دمایی به اندازه کافی بالا برای استفاده در گرمایش منطقه‌ای، کشاورزی گلخانه‌ای، آبزی‌پروری یا فرآیندهای صنعتی تولید کنند.

چندین مرکز داده اروپایی در حال حاضر حرارت زباله را به شبکه‌های گرمایش شهری می‌فروشند و آنچه قبلاً یک مرکز هزینه خالص بود را به یک جریان درآمد تبدیل می‌کنند. با افزایش قیمت‌گذاری کربن و نظارت دقیق‌تر رگولاتورها بر مصرف انرژی زیرساخت هوش مصنوعی، اقتصاد بازیابی حرارت از جالب به الزامی در حال تغییر است. تاسیساتی که می‌تواند هزینه‌های گرمایش خود را با فروش حرارت زباله به ساختمان‌های مجاور جبران کند، ساختار هزینه‌ای اساساً متفاوت از تاسیساتی دارد که به سادگی حرارت را به جو تخلیه می‌کند.

سیستم خنک‌کنندگی مدیریت‌شده توسط هوش مصنوعی

یک نوع بازگشتی در جدیدترین توسعه خنک‌کنندگی مرکز داده وجود دارد: مدل‌های هوش مصنوعی به طور فزاینده‌ای برای مدیریت سیستم‌های خنک‌کننده‌ای استفاده می‌شوند که خود مدل‌های هوش مصنوعی را فعال نگه می‌دارند. پلتفرم‌های مدیریت حرارتی که از machine learning برای پیش‌بینی نقاط داغ، تنظیم پویای توزیع خنک‌کنندگی در zoneها و پیش‌بینی نیازهای تعمیر و نگهداری قبل از وقوع خرابی استفاده می‌کنند، اکنون از اکثر فروشندگان اصلی مدیریت زیرساخت مرکز داده در دسترس هستند. گوگل گزارش داد که پس از استقرار سیستم‌های بهینه‌سازی خنک‌کنندگی آموزش‌دیده با DeepMind در برخی تاسیسات، مصرف انرژی خنک‌کنندگی 40٪ کاهش یافته است؛ نسل فعلی پلتفرم‌های DCIM مبتنی بر هوش مصنوعی ادعای بهره‌وری قابل مقایسه یا بیشتر دارد.

اثر عملی این است که خنک کردن یک مرکز داده مدرن هوش مصنوعی به یک مسئله بهینه‌سازی مستمر تبدیل شده است، نه یک تصمیم مهندسی ثابت که در زمان ساخت گرفته شود. زیرساختی که machine learning را اجرا می‌کند، خودش از machine learning استفاده می‌کند. برای اپراتورهای مرکز داده، این هم یک فرصت بهره‌وری است و هم یک وابستگی عملیاتی جدید که باید مدیریت شود.