هجوم طلا در زیرساخت هوش مصنوعی: چرا برندگان بزرگ شاید آزمایشگاه‌های مدل نباشند

هر هجوم طلا، دسته‌ای از برندگان را تولید می‌کند که اسطوره‌شناسی هجوم طلا ارزش آن‌ها را دست‌کم می‌گیرد: افرادی که بیل می‌فروشند. در هجوم طلای کالیفرنیا، Levi Strauss شلوارهای مقاوم به معدنچیان فروخت. Sam Brannon لوازم فروخت. هر دو پول قابل اعتمادتری نسبت به بیشتر جویندگان طلا به دست آوردند. رونق هوش مصنوعی دهه ۲۰۲۰ پویایی ساختاری مشابهی ایجاد کرده است و لایه زیرساختی که تولید می‌کند ممکن است بادوام‌ترین بخش زنجیره ارزش باشد.

آزمایشگاه‌های مدل — OpenAI، Anthropic، Google DeepMind، Meta AI — توجه عمومی را جلب می‌کنند. آن‌ها قابلیت‌هایی را تولید می‌کنند که پذیرش را هدایت می‌کنند و درآمد قابل توجهی را جذب می‌کنند. اما اقتصاد آن‌ها واقعاً نامطمئن است: اجرای آموزش هزینه‌های صدها میلیون دلاری دارد، هزینه‌های استنتاج در حال کاهش است اما رقابت شدید است، و خندق رقابتی یک نسل مدل خاص ماه‌ها قبل از بستن شکاف توسط رقبا دوام می‌آورد. شرکت‌های زیرساختی که به اکوسیستم هوش مصنوعی خدمات می‌دهند با پویایی متفاوتی روبرو هستند: تقاضای رو به رشد از پایگاه مشتریان متنوع، خطر کالایی‌شدگی کمتر نسبت به ارائه‌دهندگان مدل، و در برخی موارد موقعیت‌های نزدیک به انحصار در جایگاه‌های خاص خود.

لایه ابر GPU

قفل شدن اکوسیستم CUDA انویدیا به خوبی مستند شده است، اما لایه اجاره ابر GPU که بین انویدیا و کاربران نهایی قرار دارد، فرصتی کمتر تحلیل شده است. AWS، Google Cloud و Microsoft Azure نمونه‌های GPU ارائه می‌دهند، اما زمان تحویل، قیمت‌گذاری و انعطاف‌پذیری آن‌ها فضایی را برای ارائه‌دهندگان تخصصی ابر GPU ایجاد کرده است تا به طور مؤثر رقابت کنند.

CoreWeave که در اصل یک شرکت استخراج رمزارز بود و در سال ۲۰۲۰ به ابر GPU تغییر مسیر داد، در عرضه اولیه عمومی خود در سال ۲۰۲۴ به ارزش ۱۹ میلیارد دلار رسید و به ابر GPU عملی برای بسیاری از شرکت‌های هوش مصنوعی تبدیل شده است که به خوشه‌های H100 و H200 در مقیاس بزرگ نیاز دارند بدون زمان تحویل ۹ تا ۱۲ ماهه ظرفیت اختصاصی ابرمقیاس‌ها. Lambda Labs، Together AI و Vast.ai به بخش‌های مختلف این تقاضا خدمات می‌دهند — محققانی که نیاز به ظرفیت انفجاری دارند، استارت‌آپ‌هایی که نمی‌توانند به نمونه‌های رزرو شده متعهد شوند، شرکت‌هایی که خواهان انعطاف‌پذیری قیمت‌گذاری هستند.

مزیت ساختاری ابرهای GPU تخصصی تمرکز است: تیم‌های آن‌ها منحصراً برای بارهای کاری GPU بهینه شده‌اند، شبکه‌های آن‌ها برای ارتباط همه‑به‑همه پهنای باند بالا که آموزش توزیع‌شده نیاز دارد تنظیم شده است، و مدل‌های قیمت‌گذاری آن‌ها شفاف‌تر از قیمت‌گذاری GPU ابرمقیاس‌ها هستند (که بدنامی در عدم شفافیت دارند). با مقیاس‌یابی بارهای کاری آموزش و استنتاج هوش مصنوعی، بازار کل قابل آدرس‌دهی برای محاسبات GPU سریع‌تر از هر دسته ابری در تاریخ در حال رشد است.

بهینه‌سازی استنتاج: میدان نبرد نوظهور

آموزش یک مدل گران است اما غیرمکرر. ارائه یک مدل در مقیاس — مدیریت میلیون‌ها درخواست در روز با تأخیر کم و هزینه کنترل‌شده — یک هزینه مداوم است که با هر کاربر اضافه شده افزایش می‌یابد. بهینه‌سازی استنتاج رشته مهندسی است که این ارائه را تا حد ممکن کارآمد می‌کند و شرکت‌هایی که ابزارها و زیرساخت برای آن می‌سازند ارزش قابل توجهی را جذب می‌کنند.

Groq سیلیکون سفارشی (واحدهای پردازش زبان یا LPU) ساخت که به طور خاص برای سرعت استنتاج بهینه شده است و به نرخ‌های تولید توکن ۱۰ تا ۳۰ برابر سریع‌تر از استنتاج مبتنی بر GPU برای برخی بارهای کاری دست یافته است. مورد استفاده برنامه‌های حساس به تأخیر است: هوش مصنوعی صوتی، کمک کدنویسی بلادرنگ، استدلال تعاملی. API ابری Groq بارهای کاری را جذب کرده است که در آن استنتاج با سرعت GPT-4 برای تجربه کاربری مورد نیاز به اندازه کافی سریع نیست.

vLLM، یک موتور استنتاج منبع باز از دانشگاه برکلی که PagedAttention را برای مدیریت کارآمد حافظه نهان KV معرفی کرد، به پشته استنتاج عملی برای شرکت‌های اجراکننده مدل‌های وزن باز تبدیل شده است. Anyscale (ساخته شده توسط تیم Ray)، Modal و Replicate پلتفرم‌های ارائه استنتاج را روی مدل‌های منبع باز فراهم می‌کنند. Together AI یکی از بزرگ‌ترین API های استنتاج مدل منبع باز را اجرا می‌کند و بهینه‌سازی استنتاج اختصاصی روی آن ساخته است.

اقتصاد این حوزه مطلوب است: شرکت‌های بهینه‌سازی استنتاج می‌توانند به چندین ارائه‌دهنده مدل و نسخه مدل خدمات دهند و آن‌ها را نسبت به شرکت‌های وابسته به یک خانواده مدل واحد قابل دفاع‌تر می‌کند. با بهبود مدل‌های وزن باز و انتخاب شرکت‌های بیشتر برای اجرای استنتاج خود به جای پرداخت هزینه به‌ازای توکن به آزمایشگاه‌های مدل، لایه زیرساخت استنتاج به طور متناظر رشد می‌کند.

پایگاه‌های داده برداری و پشته RAG

تولید افزوده بازیابی — معماری دادن دسترسی به مدل‌های زبانی به ذخایر دانش خارجی با جاسازی اسناد و بازیابی زمینه مرتبط در زمان پرس‌وجو — به الگوی غالب برای کاربردهای هوش مصنوعی سازمانی تبدیل شده است. هر سیستم RAG تولیدی به یک پایگاه داده برداری نیاز دارد: ذخیره‌ای بهینه برای جستجوی نزدیک‌ترین همسایه تقریبی روی بردارهای جاسازی با ابعاد بالا.

Pinecone اولین شرکتی بود که یک پایگاه داده برداری مدیریت‌شده به طور خاص برای کاربردهای هوش مصنوعی ساخت و ارزش‌یابی ۷۵۰ میلیون دلاری سری B آن در سال ۲۰۲۳ نشان داد که سرمایه‌گذاران این دسته را بزرگ می‌دانند. Weaviate، Qdrant، Milvus (منبع باز با Zilliz که نسخه مدیریت‌شده را ارائه می‌دهد) و Chroma به عنوان رقبا در طیف مدیریت‌شده و خودمیزبانی ظهور کرده‌اند. ChromaDB به گزینه پیش‌فرض برای آزمایش توسعه‌دهندگان تبدیل شده است؛ Pinecone و Weaviate در حال جذب استقرارهای تولید سازمانی هستند.

پویایی رقابتی در پایگاه‌های داده برداری غیرعادی است: گزینه‌های منبع باز (Milvus، Qdrant، Chroma) برای بسیاری از موارد استفاده واقعاً با خدمات مدیریت‌شده اختصاصی رقابت می‌کنند که فشار قیمت‌گذاری ایجاد می‌کند. ارائه‌دهندگان خدمات مدیریت‌شده بر روی تجربه توسعه‌دهنده، SLA های قابلیت اطمینان و ویژگی‌های کمکی (فیلتر کردن، فراداده، جستجوی ترکیبی برداری و کلمه کلیدی) که جستجوی صرف برداری ارائه نمی‌دهد رقابت می‌کنند. افزونه‌های Postgres مانند pgvector نیز جستجوی برداری را به یک قابلیت بومی پایگاه‌های داده رابطه‌ای تبدیل کرده‌اند و مرزهای دسته را محو می‌کنند.

مشاهده‌پذیری و ارزیابی

هر شرکتی که هوش مصنوعی را در تولید اجرا می‌کند مشکل یکسانی را کشف کرده است: سیستم‌های هوش مصنوعی به روش‌هایی از کار می‌افتند که نظارت سنتی آن‌ها را نمی‌گیرد. مدلی که با اطمینان پاسخ‌های اشتباه می‌دهد، به سمت تزریق اعلان منحرف می‌شود، محتوای خارج از برند تولید می‌کند یا حقایق را توهم می‌زند خطای ۵۰۰ ایجاد نمی‌کند — فقط خروجی بد تولید می‌کند که برای تشخیص و اندازه‌گیری به ابزار متفاوتی نیاز دارد.

LangSmith (از LangChain)، Weights & Biases، Arize AI و Helicone پلتفرم‌های مشاهده‌پذیری خاص هوش مصنوعی ساخته‌اند: ردیابی برای تماس‌های عامل چندمرحله‌ای، چارچوب‌های ارزیابی برای اندازه‌گیری کیفیت خروجی، آزمایش بازگشتی اعلان و ردیابی هزینه در سراسر ارائه‌دهندگان مدل. این ابزارها به دسته‌ای می‌پردازند که سه سال پیش وجود نداشت و اکنون بخش استاندارد هر استقرار تولید هوش مصنوعی است.

مدل کسب‌وکار جذاب است: SaaS اشتراکی برای ابزاری که با رشد استفاده از هوش مصنوعی یک شرکت چسبنده‌تر می‌شود، با قیمت‌گذاری مرتبط با حجم استفاده که با هزینه هوش مصنوعی مشتری مقیاس می‌شود. برخلاف ارائه‌دهندگان مدل، شرکت‌های مشاهده‌پذیری مستقیماً با فروشنده هوش مصنوعی انتخابی مشتریان خود رقابت نمی‌کنند — آن‌ها می‌توانند نسبت به مدل یا چارچوبی که مشتری استفاده می‌کند خنثی باشند که فروش را آسان‌تر و ریزش را کمتر می‌کند.

چرخه زیرساخت

چرخه‌های تاریخی زیرساخت فناوری یک قوس قابل پیش‌بینی را نشان می‌دهند: اوایل یک موج فناوری، زیرساخت امکان‌دهنده کمیاب است و قیمت‌های بالایی می‌گیرد؛ با مقیاس‌یابی پذیرش، با ورود ارائه‌دهندگان بیشتر، زیرساخت کالایی می‌شود؛ بازماندگان کسانی هستند که موقعیت‌های قابل دفاع از طریق اثرات شبکه، مزیت‌های داده اختصاصی یا تمایز فنی واقعی ساخته‌اند.

لایه زیرساخت هوش مصنوعی در اوایل این چرخه است. حاشیه سود ابر GPU در حال حاضر بالا است زیرا تقاضا بیش از عرضه است. قیمت‌گذاری پایگاه داده برداری هنوز در حال کشف است. بهینه‌سازی استنتاج پیش از کالایی‌شدگی است. پنجره برای شرکت‌های زیرساختی برای ساخت موقعیت‌های رقابتی بادوام باز است — اما به طور نامحدود باز نخواهد ماند. شرکت‌هایی که در سال ۲۰۳۰ همچنان قیمت‌های بالایی دریافت خواهند کرد، آن‌هایی هستند که عمیق‌ترین تمایز فنی و یکپارچه‌ترین پشته‌ها را می‌سازند، نه صرفاً ظرفیت عمومی اجاره می‌دهند. تجارت بیل واقعی است؛ سؤال این است که کدام بیل‌ها به خندق پلتفرم تبدیل می‌شوند.