هجوم طلا در زیرساخت هوش مصنوعی: چرا برندگان بزرگ شاید آزمایشگاههای مدل نباشند

هر هجوم طلا، دستهای از برندگان را تولید میکند که اسطورهشناسی هجوم طلا ارزش آنها را دستکم میگیرد: افرادی که بیل میفروشند. در هجوم طلای کالیفرنیا، Levi Strauss شلوارهای مقاوم به معدنچیان فروخت. Sam Brannon لوازم فروخت. هر دو پول قابل اعتمادتری نسبت به بیشتر جویندگان طلا به دست آوردند. رونق هوش مصنوعی دهه ۲۰۲۰ پویایی ساختاری مشابهی ایجاد کرده است و لایه زیرساختی که تولید میکند ممکن است بادوامترین بخش زنجیره ارزش باشد.
آزمایشگاههای مدل — OpenAI، Anthropic، Google DeepMind، Meta AI — توجه عمومی را جلب میکنند. آنها قابلیتهایی را تولید میکنند که پذیرش را هدایت میکنند و درآمد قابل توجهی را جذب میکنند. اما اقتصاد آنها واقعاً نامطمئن است: اجرای آموزش هزینههای صدها میلیون دلاری دارد، هزینههای استنتاج در حال کاهش است اما رقابت شدید است، و خندق رقابتی یک نسل مدل خاص ماهها قبل از بستن شکاف توسط رقبا دوام میآورد. شرکتهای زیرساختی که به اکوسیستم هوش مصنوعی خدمات میدهند با پویایی متفاوتی روبرو هستند: تقاضای رو به رشد از پایگاه مشتریان متنوع، خطر کالاییشدگی کمتر نسبت به ارائهدهندگان مدل، و در برخی موارد موقعیتهای نزدیک به انحصار در جایگاههای خاص خود.
لایه ابر GPU
قفل شدن اکوسیستم CUDA انویدیا به خوبی مستند شده است، اما لایه اجاره ابر GPU که بین انویدیا و کاربران نهایی قرار دارد، فرصتی کمتر تحلیل شده است. AWS، Google Cloud و Microsoft Azure نمونههای GPU ارائه میدهند، اما زمان تحویل، قیمتگذاری و انعطافپذیری آنها فضایی را برای ارائهدهندگان تخصصی ابر GPU ایجاد کرده است تا به طور مؤثر رقابت کنند.
CoreWeave که در اصل یک شرکت استخراج رمزارز بود و در سال ۲۰۲۰ به ابر GPU تغییر مسیر داد، در عرضه اولیه عمومی خود در سال ۲۰۲۴ به ارزش ۱۹ میلیارد دلار رسید و به ابر GPU عملی برای بسیاری از شرکتهای هوش مصنوعی تبدیل شده است که به خوشههای H100 و H200 در مقیاس بزرگ نیاز دارند بدون زمان تحویل ۹ تا ۱۲ ماهه ظرفیت اختصاصی ابرمقیاسها. Lambda Labs، Together AI و Vast.ai به بخشهای مختلف این تقاضا خدمات میدهند — محققانی که نیاز به ظرفیت انفجاری دارند، استارتآپهایی که نمیتوانند به نمونههای رزرو شده متعهد شوند، شرکتهایی که خواهان انعطافپذیری قیمتگذاری هستند.
مزیت ساختاری ابرهای GPU تخصصی تمرکز است: تیمهای آنها منحصراً برای بارهای کاری GPU بهینه شدهاند، شبکههای آنها برای ارتباط همه‑به‑همه پهنای باند بالا که آموزش توزیعشده نیاز دارد تنظیم شده است، و مدلهای قیمتگذاری آنها شفافتر از قیمتگذاری GPU ابرمقیاسها هستند (که بدنامی در عدم شفافیت دارند). با مقیاسیابی بارهای کاری آموزش و استنتاج هوش مصنوعی، بازار کل قابل آدرسدهی برای محاسبات GPU سریعتر از هر دسته ابری در تاریخ در حال رشد است.
بهینهسازی استنتاج: میدان نبرد نوظهور
آموزش یک مدل گران است اما غیرمکرر. ارائه یک مدل در مقیاس — مدیریت میلیونها درخواست در روز با تأخیر کم و هزینه کنترلشده — یک هزینه مداوم است که با هر کاربر اضافه شده افزایش مییابد. بهینهسازی استنتاج رشته مهندسی است که این ارائه را تا حد ممکن کارآمد میکند و شرکتهایی که ابزارها و زیرساخت برای آن میسازند ارزش قابل توجهی را جذب میکنند.
Groq سیلیکون سفارشی (واحدهای پردازش زبان یا LPU) ساخت که به طور خاص برای سرعت استنتاج بهینه شده است و به نرخهای تولید توکن ۱۰ تا ۳۰ برابر سریعتر از استنتاج مبتنی بر GPU برای برخی بارهای کاری دست یافته است. مورد استفاده برنامههای حساس به تأخیر است: هوش مصنوعی صوتی، کمک کدنویسی بلادرنگ، استدلال تعاملی. API ابری Groq بارهای کاری را جذب کرده است که در آن استنتاج با سرعت GPT-4 برای تجربه کاربری مورد نیاز به اندازه کافی سریع نیست.
vLLM، یک موتور استنتاج منبع باز از دانشگاه برکلی که PagedAttention را برای مدیریت کارآمد حافظه نهان KV معرفی کرد، به پشته استنتاج عملی برای شرکتهای اجراکننده مدلهای وزن باز تبدیل شده است. Anyscale (ساخته شده توسط تیم Ray)، Modal و Replicate پلتفرمهای ارائه استنتاج را روی مدلهای منبع باز فراهم میکنند. Together AI یکی از بزرگترین API های استنتاج مدل منبع باز را اجرا میکند و بهینهسازی استنتاج اختصاصی روی آن ساخته است.
اقتصاد این حوزه مطلوب است: شرکتهای بهینهسازی استنتاج میتوانند به چندین ارائهدهنده مدل و نسخه مدل خدمات دهند و آنها را نسبت به شرکتهای وابسته به یک خانواده مدل واحد قابل دفاعتر میکند. با بهبود مدلهای وزن باز و انتخاب شرکتهای بیشتر برای اجرای استنتاج خود به جای پرداخت هزینه بهازای توکن به آزمایشگاههای مدل، لایه زیرساخت استنتاج به طور متناظر رشد میکند.
پایگاههای داده برداری و پشته RAG
تولید افزوده بازیابی — معماری دادن دسترسی به مدلهای زبانی به ذخایر دانش خارجی با جاسازی اسناد و بازیابی زمینه مرتبط در زمان پرسوجو — به الگوی غالب برای کاربردهای هوش مصنوعی سازمانی تبدیل شده است. هر سیستم RAG تولیدی به یک پایگاه داده برداری نیاز دارد: ذخیرهای بهینه برای جستجوی نزدیکترین همسایه تقریبی روی بردارهای جاسازی با ابعاد بالا.
Pinecone اولین شرکتی بود که یک پایگاه داده برداری مدیریتشده به طور خاص برای کاربردهای هوش مصنوعی ساخت و ارزشیابی ۷۵۰ میلیون دلاری سری B آن در سال ۲۰۲۳ نشان داد که سرمایهگذاران این دسته را بزرگ میدانند. Weaviate، Qdrant، Milvus (منبع باز با Zilliz که نسخه مدیریتشده را ارائه میدهد) و Chroma به عنوان رقبا در طیف مدیریتشده و خودمیزبانی ظهور کردهاند. ChromaDB به گزینه پیشفرض برای آزمایش توسعهدهندگان تبدیل شده است؛ Pinecone و Weaviate در حال جذب استقرارهای تولید سازمانی هستند.
پویایی رقابتی در پایگاههای داده برداری غیرعادی است: گزینههای منبع باز (Milvus، Qdrant، Chroma) برای بسیاری از موارد استفاده واقعاً با خدمات مدیریتشده اختصاصی رقابت میکنند که فشار قیمتگذاری ایجاد میکند. ارائهدهندگان خدمات مدیریتشده بر روی تجربه توسعهدهنده، SLA های قابلیت اطمینان و ویژگیهای کمکی (فیلتر کردن، فراداده، جستجوی ترکیبی برداری و کلمه کلیدی) که جستجوی صرف برداری ارائه نمیدهد رقابت میکنند. افزونههای Postgres مانند pgvector نیز جستجوی برداری را به یک قابلیت بومی پایگاههای داده رابطهای تبدیل کردهاند و مرزهای دسته را محو میکنند.
مشاهدهپذیری و ارزیابی
هر شرکتی که هوش مصنوعی را در تولید اجرا میکند مشکل یکسانی را کشف کرده است: سیستمهای هوش مصنوعی به روشهایی از کار میافتند که نظارت سنتی آنها را نمیگیرد. مدلی که با اطمینان پاسخهای اشتباه میدهد، به سمت تزریق اعلان منحرف میشود، محتوای خارج از برند تولید میکند یا حقایق را توهم میزند خطای ۵۰۰ ایجاد نمیکند — فقط خروجی بد تولید میکند که برای تشخیص و اندازهگیری به ابزار متفاوتی نیاز دارد.
LangSmith (از LangChain)، Weights & Biases، Arize AI و Helicone پلتفرمهای مشاهدهپذیری خاص هوش مصنوعی ساختهاند: ردیابی برای تماسهای عامل چندمرحلهای، چارچوبهای ارزیابی برای اندازهگیری کیفیت خروجی، آزمایش بازگشتی اعلان و ردیابی هزینه در سراسر ارائهدهندگان مدل. این ابزارها به دستهای میپردازند که سه سال پیش وجود نداشت و اکنون بخش استاندارد هر استقرار تولید هوش مصنوعی است.
مدل کسبوکار جذاب است: SaaS اشتراکی برای ابزاری که با رشد استفاده از هوش مصنوعی یک شرکت چسبندهتر میشود، با قیمتگذاری مرتبط با حجم استفاده که با هزینه هوش مصنوعی مشتری مقیاس میشود. برخلاف ارائهدهندگان مدل، شرکتهای مشاهدهپذیری مستقیماً با فروشنده هوش مصنوعی انتخابی مشتریان خود رقابت نمیکنند — آنها میتوانند نسبت به مدل یا چارچوبی که مشتری استفاده میکند خنثی باشند که فروش را آسانتر و ریزش را کمتر میکند.
چرخه زیرساخت
چرخههای تاریخی زیرساخت فناوری یک قوس قابل پیشبینی را نشان میدهند: اوایل یک موج فناوری، زیرساخت امکاندهنده کمیاب است و قیمتهای بالایی میگیرد؛ با مقیاسیابی پذیرش، با ورود ارائهدهندگان بیشتر، زیرساخت کالایی میشود؛ بازماندگان کسانی هستند که موقعیتهای قابل دفاع از طریق اثرات شبکه، مزیتهای داده اختصاصی یا تمایز فنی واقعی ساختهاند.
لایه زیرساخت هوش مصنوعی در اوایل این چرخه است. حاشیه سود ابر GPU در حال حاضر بالا است زیرا تقاضا بیش از عرضه است. قیمتگذاری پایگاه داده برداری هنوز در حال کشف است. بهینهسازی استنتاج پیش از کالاییشدگی است. پنجره برای شرکتهای زیرساختی برای ساخت موقعیتهای رقابتی بادوام باز است — اما به طور نامحدود باز نخواهد ماند. شرکتهایی که در سال ۲۰۳۰ همچنان قیمتهای بالایی دریافت خواهند کرد، آنهایی هستند که عمیقترین تمایز فنی و یکپارچهترین پشتهها را میسازند، نه صرفاً ظرفیت عمومی اجاره میدهند. تجارت بیل واقعی است؛ سؤال این است که کدام بیلها به خندق پلتفرم تبدیل میشوند.