برندگان واقعی انفجار هوش مصنوعی شرکت‌های مدل‌ساز نیستند؛ زیرساخت‌ها برنده‌اند

هر تب طلا میلیونرهایی از فروشندگان بیل می‌سازد. ابرچرخه ۲۰۲۴–۲۰۲۶ هوش مصنوعی هم همین الگو را دنبال می‌کند – در حالی که OpenAI، Anthropic و گوگل بر سر بهترین مدل بحث می‌کنند، شرکت‌هایی که GPU، شبکه، برق، خنک‌کننده و زیرساخت ابری می‌فروشند، درآمدهای رکوردی با حاشیه سود بالا ثبت می‌کنند. این لایه زیرساخت است که واقعاً پول چاپ می‌کند.

سلطه پایدار انویدیا

درآمد مرکز داده انویدیا در یک فصل (Q1 FY2026) به ۳۵.۶ میلیارد دلار رسید – عددی که پنج سال پیش تخیلی به نظر می‌رسید. انتقال از H100/H200 به معماری Blackwell در جریان است و سیستم‌های رک GB200 NVL72 با قیمت ۳ میلیون دلار به ازای هر رک و همچنان با عقب‌افتادگی سفارش چندماهه عرضه می‌شوند.

پیشرفت مهندسی کلیدی در Blackwell NVLink 5 است که ۱.۸ ترابایت در ثانیه پهنای باند GPU-to-GPU ارائه می‌دهد. این به یک کلاستر ۷۲-GPU اجازه می‌دهد مثل یک شتاب‌دهنده بزرگ واحد رفتار کند – بحرانی برای سروینگ مدل‌های بزرگ که تأخیر ارتباطی بین GPUها قبلاً دیواری سخت بود. تقاضا همچنان به مراتب بیشتر از عرضه است و به انویدیا قدرت قیمت‌گذاری فوق‌العاده‌ای می‌دهد.

AMD MI300X رقیب واقعی است – به نرخ درآمد سالانه ۵ میلیارد دلار+ رسیده و در هایپرسکیلرها و ارائه‌دهندگان ابری استقرار یافته است. اما اکوسیستم CUDA انویدیا که طی ۱۵ سال توسعه ابزارهای برنامه‌نویسی، یکپارچگی فریم‌ورک و کتابخانه‌های نرم‌افزاری ساخته شده، همچنان خندق اصلی است. تغییر از CUDA به ROCm نیازمند سرمایه‌گذاری مهندسی واقعی است و بیشتر تیم‌های AI این تجارت را انجام نمی‌دهند مگر اینکه صرفه‌جویی هزینه قاطع باشد.

بازی شبکه – اترنت در برابر InfiniBand

شبکه‌سازی گلوگاه نامرئی در ساخت کلاسترهای AI است. InfiniBand که ابتدا برای HPC توسعه یافت و اکنون توسط انویدیا (از طریق خرید Mellanox در ۲۰۲۰) کنترل می‌شود، بر کلاسترهای تمرین AI با عملکرد بالا غالب است. بافت کم‌تأخیر و پهنای باند بالای آن به طور خاص برای عملیات all-reduce که تمرین توزیع‌شده به آن وابسته است طراحی شده.

اما هایپرسکیلرها عقب‌نشینی می‌کنند. گوگل، مایکروسافت و متا شبکه‌های AI مبتنی بر اترنت را با مشخصات Ultra Ethernet Consortium (UEC) می‌سازند – تلاشی مشترک برای آوردن عملکرد سطح InfiniBand به اترنت استاندارد با هزینه کمتر و بدون قفل فروشنده. این فرصت بزرگی برای Arista Networks (سوئیچ‌های high-radix)، Broadcom (ASIC Tomahawk 5 که ۵۱.۲ ترابیت بر ثانیه به ازای هر تراشه ارائه می‌دهد) و سیسکو ایجاد می‌کند.

Broadcom درآمد تجمعی ۶۰ میلیارد دلاری+ از ASICهای شبکه AI تا ۲۰۲۷ را پیش‌بینی کرده – رقمی که هم رشد ارگانیک و هم انتقال اترنت هایپرسکیلرها را نشان می‌دهد. سیلیکون سفارشی روند مشابهی را تسریع می‌کند: TPUهای گوگل، AWS Trainium 2 و Maia 100 مایکروسافت همه وابستگی به انویدیا را برای بارهای تمرینی کاهش می‌دهند و در عوض هزینه را به سمت سیلیکون خود و فروشندگان شبکه‌ای که آن را متصل می‌کنند هدایت می‌کنند.

برق و خنک‌کننده – گلوگاه نادیده گرفته‌شده

یک رک GB200 NVL72 ۱۲۰ کیلووات برق مصرف می‌کند. یک کلاستر ۱۰۰۰-GPU به طور مداوم ۱.۶۷ مگاوات مصرف می‌کند – تقریباً معادل مصرف برق ۱۴۰۰ خانه معمولی آمریکایی که ۲۴/۷ کار می‌کنند. در آن تراکم، محدودیت دیگر GPUها نیست. بلکه تحویل برق و مدیریت حرارتی است.

مراکز داده خنک‌شونده با هوا معمولاً ۲۰-۳۰ کیلووات در هر رک را پشتیبانی می‌کنند. تأسیسات بهینه‌شده برای AI به خنک‌کننده مایع مستقیم (DLC) نیاز دارند – لوله‌های خنک‌کننده که مستقیماً به شاسی سرور می‌روند و گرما را در منبع حذف می‌کنند. Vertiv یکی از ذی‌نفعان اصلی است که سیستم‌های خنک‌کننده مایع و زیرساخت خنک‌کننده دقیق جهانی عرضه می‌کند. Eaton منابع تغذیه بدون وقفه (UPS) و واحدهای توزیع برق (PDU) در سطح رک و ردیف ارائه می‌دهد. پیل‌های سوختی درون‌سایت Bloom Energy به طور فزاینده‌ای برای تکمیل برق شبکه در تأسیسات مقیاس AI مستقر می‌شوند.

REITهای مرکز داده از کمبود ساختاری عرضه سود می‌برند. Equinix و Digital Realty پردیس‌های بهینه‌شده AI را از پایه می‌سازند – طراحی شده برای تراکم ۵۰-۱۰۰ کیلووات در هر رک با DLC از بنیاد. پویایی کلیدی: یک مرکز داده جدید ۱۰۰ مگاواتی آماده AI به ۱۸-۲۴ ماه برای مجوزدهی، طراحی و ساخت نیاز دارد. این عقب‌افتادگی قدرت قیمت‌گذاری قابل توجهی برای اپراتورهای موجود با ظرفیت در دسترس امروز ایجاد می‌کند.

موج عظیم هزینه‌های سرمایه‌ای هایپرسکیلرهای ابری

مقیاس هزینه‌های سرمایه‌ای هایپرسکیلرها سخت قابل توصیف است. مایکروسافت ۸۰ میلیارد دلار هزینه سرمایه‌ای در ۲۰۲۶ متعهد شده، عمدتاً برای زیرساخت AI. گوگل ۷۵ میلیارد دلار هدایت کرده. آمازون با ۱۰۵ میلیارد دلار بیشترین رقم را دارد. اینها تعهدات بازاریابی نیستند – در صورت‌های مالی فصلی به عنوان هزینه ساخت و تجهیزات ملموس ظاهر می‌شوند.

پول به سمت یک مجموعه متمرکز از تأمین‌کنندگان جریان می‌یابد. TSMC تراشه‌های H20 و B200 را می‌سازد و بسته‌بندی CoWoS (Chip-on-Wafer-on-Substrate) پیشرفته را انجام می‌دهد که حافظه HBM را مستقیماً روی قالب GPU می‌چسباند. ظرفیت CoWoS به عنوان یک گلوگاه در تولید GB200 گزارش شده – TSMC با حداکثر استفاده کار می‌کند و ظرفیت را با سرعتی که هنوز از تقاضا عقب است گسترش می‌دهد.

SK hynix و سامسونگ HBM3 و HBM3E را عرضه می‌کنند، حافظه با پهنای باند بالا که شتاب‌دهنده‌های مدرن AI را ممکن می‌کند. ASML ماشین‌های لیتوگرافی EUV را فراهم می‌کند که بدون آنها نمی‌توان تراشه‌های پیشرفته تولید کرد. کل زنجیره تأمین داغ کار می‌کند – و چون هر حلقه برای گسترش سال‌ها زمان نیاز دارد، قدرت قیمت‌گذاری تأمین‌کنندگان محدود تا ۲۰۲۷ ادامه خواهد یافت.

لایه استارتاپی – بیل‌ها و کلنگ‌های زیرساخت

در زیر سطح هایپرسکیلرها، موجی از استارتاپ‌های زیرساخت در حال جذب تقاضایی هستند که آمازون، مایکروسافت و گوگل نمی‌توانند یا نمی‌خواهند خدمت رسانی کنند:

CoreWeave: محبوب‌ترین استارتاپ GPU ابری. در ۲۰۲۵ با ارزش ۲۳ میلیارد دلار ۱۱.۹ میلیارد دلار جمع‌آوری کرده، بر پایه ناوگانی از H100های انویدیا که به شرکت‌های AI با نرخ حق بیمه اجاره داده می‌شود. در سطح هر GPU سودآور است و به شدت به سمت سخت‌افزار Blackwell گسترش می‌یابد.
Lambda Labs: GPU ابری متمرکز بر AI با ۳۲۰ میلیون دلار جمع‌آوری‌شده. هدف محققان و تیم‌های AI متوسط که نمی‌توانند از سهمیه‌های هایپرسکیلر استفاده کنند – مشکل واقعی با توجه به لیست‌های انتظار AWS و Azure.
Together AI: استارتاپ API inference که در سروینگ چند-مدل بهینه تخصص دارد. دسترسی به مدل‌های open-weight (Llama, Mistral و غیره) را با قیمت رقابتی در هر توکن و تمرکز بر توان عملیاتی ارائه می‌دهد.
Modal: محاسبات GPU بدون سرور برای توسعه‌دهندگان. مدیریت کلاستر را انتزاع می‌کند – شما Python می‌نویسید، Modal provisioning، scaling و صورتحساب بر حسب ثانیه استفاده واقعی GPU را انجام می‌دهد.
Groq: LPU (Language Processing Unit) را ساخته، تراشه‌ای هدفمند برای inference. ادعای ۵۰۰+ توکن در ثانیه روی مدل‌های کلاس Llama – به طور قابل توجهی سریع‌تر از inference مبتنی بر GPU در هزینه معادل برای برخی بارهای کاری.
Cerebras: معماری تراشه wafer-scale که یک ویفر سیلیکونی کامل را در یک پردازنده واحد جا می‌دهد. اخیراً برای IPO ثبت کرده. موقعیت قوی برای بارهای تمرینی که اندازه مدل از محدودیت حافظه یک GPU فراتر می‌رود.

محاسبات ارزش‌گذاری

شرکت‌های زیرساخت در چرخه AI با مضرب درآمد ۲-۳ برابر بالاتر از بنچمارک‌های نرم‌افزاری تاریخی معامله می‌شوند – و به دلایل قابل دفاع. زیرساخت AI کمیاب است (محدودیت عرضه)، سرمایه‌بر است (موانع ورود بالا) و چسبنده است (هزینه‌های تغییر واقعی هستند). اینها شرایطی است که مضرب حق بیمه را توجیه می‌کند.

ارزش ۲۳ میلیارد دلاری CoreWeave بر اساس تقریباً ۴ میلیارد دلار ARR مضرب درآمد ۵-۶ برابر را نشان می‌دهد. این در مقایسه با AWS که تقریباً ۷ برابر در یک کسب‌وکار متنوع‌تر و بالغ‌تر معامله می‌شود، زیاد به نظر می‌رسد. اما لایه زیرساخت در افق ۳-۵ سال ممکن است بهتر از لایه مدل‌ها قرار گیرد: مدل‌ها با نزدیک شدن گزینه‌های open-weight کالایی می‌شوند، اما محاسبه اینطور نیست. هزینه یک GPU-hour فقط چون یک LLM جدید می‌آید کاهش نمی‌یابد.

نتیجه‌گیری

رونق AI واقعی است و موج هزینه‌های سرمایه‌ای تازه شروع شده – هزینه‌های هایپرسکیلرها در حال شتاب است، نه توقف. اما مطمئن‌ترین شرط‌ها در این چرخه برنده شدن LLM در بنچمارک بعدی نیست. آنها بر شرکت‌هایی است که صرف نظر از برنده، حقوق می‌گیرند.

زیرساخت برق، ASICهای شبکه AI، سیلیکون سفارشی، حافظه HBM، لیتوگرافی EUV و ابرهای GPU تخصصی همگی از موج هزینه‌های سرمایه‌ای بهره می‌برند، چه GPT-5، Claude 4 یا Gemini Ultra در ۲۰۲۷ غالب شوند. شرکت‌های مدل‌ساز سرمایه را برای تمایز می‌سوزانند. لایه زیرساخت کرایه جمع می‌کند.