چرا هوش مصنوعی مراکز داده را مجبور به بازطراحی خنککنندگی از پایه میکند

برای بیشتر تاریخ محاسبات، خنک نگه داشتن سرورها به معنای جابجایی هوا بود. فنها، کفهای مرتفع، راهروهای گرم و سرد، واحدهای تهویه دقیق که با تن ظرفیت خنککنندگی اندازهگیری میشدند – خنککنندگی هوا پاسخ جهانی بود چون ساده، خوب فهمیده شده و برای بارهای حرارتی تولید شده توسط سرورهای سنتی کافی بود. هوش مصنوعی به آن دوران پایان داد. کلاسترهای GPU که LLMها را اجرا میکنند، سیستمهای generative AI را آموزش میدهند و inference در مقیاس بزرگ را تأمین میکنند، چگالی حرارتی تولید میکنند که هوا به سادگی نمیتواند به سرعت کافی آن را دفع کند. خنککنندگی مایع از یک روش تخصصی که در ابررایانهها و سیستمهای اورکلاک شده بازی استفاده میشد، به یک نیاز استاندارد برای هر استقرار زیرساخت جدی هوش مصنوعی تبدیل شده است.
اعدادی که تغییر را الزامی کردند
یک رک استاندارد سرور در یک مرکز داده سنتی حدود 5 تا 10 کیلووات مصرف میکند. یک رک خنکشونده با هوا در یک تاسیسات hyperscale مدرن میتواند با مدیریت دقیق جریان هوا 15 تا 20 کیلووات را تحمل کند. یک GPU NVIDIA H100 در زیر بار حدود 700 وات مصرف میکند. یک رک هشت تایی H100 به تنهایی 5.6 کیلووات است، بدون در نظر گرفتن سیستم میزبان، شبکه و ذخیرهسازی. یک کلاستر آموزش متراکم هوش مصنوعی – از نوعی که برای آموزش مدلهای frontier استفاده میشود – میتواند به 100 کیلووات در هر رک برسد. برخی پیکربندیهایی که در سال 2026 مستقر میشوند، هدف 300 کیلووات در هر رک را دارند و نقشههای راه به سمت 2 مگاوات در عرض پنج سال گسترش مییابند.
در این چگالیها، خنککنندگی هوا یک گزینه نیست. مایع میتواند حرارت را تا 3500 برابر مؤثرتر از هوا انتقال دهد. فیزیک به سادگی نزدیک نیست.
Direct-to-chip در مقابل Immersion
دو رویکرد خنککنندگی مایع در زیرساخت هوش مصنوعی غالب شدهاند. Direct-to-chip یک مبرد را از طریق یک cold plate که مستقیماً روی پردازنده نصب شده است، گردش میدهد. حرارت از تراشه به مبرد هدایت شده و از طریق یک heat exchanger خارج میشود. سرورها از بیرون عمدتاً معمولی به نظر میرسند؛ تغییر زیرساخت خنککنندگی داخلی است. Direct-to-chip امروزه پراستقرارترین رویکرد برای کلاسترهای GPU هوش مصنوعی است زیرا میتواند در ساختمانهای مرکز داده موجود که برای غوطهوری کامل مایع طراحی نشدهاند، بهصورت retrofit اعمال شود.
Immersion رویکرد رادیکالتری دارد: کل بردهای سرور را در یک سیال دیالکتریک غیررسانا غوطهور میکند، چه در سیستمهای single-phase که سیال مایع میماند، چه در سیستمهای two-phase که میجوشد و دوباره متراکم میشود. Immersion ظرفیت دفع حرارت حتی بالاتری را ممکن میسازد، از عملکرد تقریباً بیصدا (بدون فن) پشتیبانی میکند و میتواند ردپای فیزیکی یک ظرفیت محاسباتی معین را به طرز چشمگیری کاهش دهد. معاوضهها هزینه، پیچیدگی عملیاتی و این واقعیت است که سرویسدهی سختافزار نیاز به بیرون کشیدن آن از سیال دارد – کاری کثیفتر از تعویض یک درایو hot-plug در یک رک معمولی.
این چه تأثیری بر طراحی مرکز داده دارد
تغییر به خنککنندگی مایع فقط یک تغییر مهندسی حرارتی نیست؛ بلکه نحوه طراحی و ساخت مراکز داده را دگرگون میکند. ساختمانهای بهینهسازی شده برای خنککنندگی هوا به کفهای مرتفع، کاشیهای سوراخدار، محفظههای راهروهای گرم و سرد و مسیرهای بازگشت هوا در سطح سقف متکی هستند. یک تاسیسات خنکشونده با مایع که برای بارهای کاری هوش مصنوعی بهینه شده است، نیاز به توزیع لولهکشی مبرد به هر رک، heat exchangerها، زیرساخت پمپاژ و اتصالات به کارخانه آب سرد یا dry coolerهای ساختمان دارد.
این یک سرمایهگذاری کلان است که تاسیسات موجود نمیتوانند به راحتی در مقیاس retrofit کنند. نتیجه یک دوشاخگی در بازار است: hyperscalerها و اپراتورهای اول هوش مصنوعی در حال ساخت تاسیسات جدید آماده مایع از پایه هستند، در حالی که ارائهدهندگان co-location در حال ایجاد zoneهای خنکشونده با مایع در ساختمانهای موجود برای خدمت به مستاجران هوش مصنوعی بدون بازسازی کامل زیرساخت خود هستند.
بازیابی حرارت: تبدیل یک مشکل به یک منبع
یک پیامد خنککنندگی مایع که به طور فزایندهای باعث جلب توجه تجاری میشود، کیفیت حرارت زبالهای است که تولید میکند. مراکز داده خنکشونده با هوا حرارت را در دماهایی تخلیه میکنند که برای چیزی غیر از گرم کردن یک ساختمان بزرگ کاربردی نیست. سیستمهای خنککنندگی مایع میتوانند در دمای تغذیه 40 تا 60 درجه سانتیگراد کار کنند و سیال برگشتی را در دمایی به اندازه کافی بالا برای استفاده در گرمایش منطقهای، کشاورزی گلخانهای، آبزیپروری یا فرآیندهای صنعتی تولید کنند.
چندین مرکز داده اروپایی در حال حاضر حرارت زباله را به شبکههای گرمایش شهری میفروشند و آنچه قبلاً یک مرکز هزینه خالص بود را به یک جریان درآمد تبدیل میکنند. با افزایش قیمتگذاری کربن و نظارت دقیقتر رگولاتورها بر مصرف انرژی زیرساخت هوش مصنوعی، اقتصاد بازیابی حرارت از جالب به الزامی در حال تغییر است. تاسیساتی که میتواند هزینههای گرمایش خود را با فروش حرارت زباله به ساختمانهای مجاور جبران کند، ساختار هزینهای اساساً متفاوت از تاسیساتی دارد که به سادگی حرارت را به جو تخلیه میکند.
سیستم خنککنندگی مدیریتشده توسط هوش مصنوعی
یک نوع بازگشتی در جدیدترین توسعه خنککنندگی مرکز داده وجود دارد: مدلهای هوش مصنوعی به طور فزایندهای برای مدیریت سیستمهای خنککنندهای استفاده میشوند که خود مدلهای هوش مصنوعی را فعال نگه میدارند. پلتفرمهای مدیریت حرارتی که از machine learning برای پیشبینی نقاط داغ، تنظیم پویای توزیع خنککنندگی در zoneها و پیشبینی نیازهای تعمیر و نگهداری قبل از وقوع خرابی استفاده میکنند، اکنون از اکثر فروشندگان اصلی مدیریت زیرساخت مرکز داده در دسترس هستند. گوگل گزارش داد که پس از استقرار سیستمهای بهینهسازی خنککنندگی آموزشدیده با DeepMind در برخی تاسیسات، مصرف انرژی خنککنندگی 40٪ کاهش یافته است؛ نسل فعلی پلتفرمهای DCIM مبتنی بر هوش مصنوعی ادعای بهرهوری قابل مقایسه یا بیشتر دارد.
اثر عملی این است که خنک کردن یک مرکز داده مدرن هوش مصنوعی به یک مسئله بهینهسازی مستمر تبدیل شده است، نه یک تصمیم مهندسی ثابت که در زمان ساخت گرفته شود. زیرساختی که machine learning را اجرا میکند، خودش از machine learning استفاده میکند. برای اپراتورهای مرکز داده، این هم یک فرصت بهرهوری است و هم یک وابستگی عملیاتی جدید که باید مدیریت شود.