حمى الذهب في البنية التحتية للذكاء الاصطناعي: لماذا قد لا تكون مختبرات النماذج أكبر الرابحين

كل حمى ذهب تنتج فئة من الرابحين تقلل أسطورة حمى الذهب من قيمتهم: بائعي المجارف. في حمى الذهب بكاليفورنيا، باع Levi Strauss سراويل متينة لعمال المناجم. باع Sam Brannon الإمدادات. كلاهما حصل على أموال أكثر موثوقية من معظم المنقبين. أنتجت طفرة الذكاء الاصطناعي في عشرينيات القرن الحادي والعشرين ديناميكية مشابهة هيكلياً، وقد تكون طبقة البنية التحتية التي تولدها الجزء الأكثر استدامة من سلسلة القيمة.

مختبرات النماذج — OpenAI وAnthropic وGoogle DeepMind وMeta AI — تحظى بالاهتمام العام. إنها تنتج القدرات التي تقود التبني، وتلتقط إيرادات كبيرة. لكن اقتصادياتها غير مؤكدة حقاً: عمليات التدريب تكلف مئات الملايين من الدولارات، تكاليف الاستدلال تتناقص لكن المنافسة شديدة، والخندق التنافسي لجيل نموذج معين يستمر لأشهر قبل أن يغلق المنافسون الفجوة. شركات البنية التحتية التي تخدم منظومة الذكاء الاصطناعي تواجه ديناميكية مختلفة: طلب متزايد من قاعدة عملاء متنوعة، خطر تسليع أقل من مزودي النماذج، وفي بعض الحالات مواقع شبه احتكارية في مجالاتها المحددة.

طبقة سحابة GPU

الارتباط بالنظام البيئي CUDA من Nvidia موثق جيداً، لكن طبقة تأجير سحابة GPU الواقعة بين Nvidia والمستخدمين النهائيين هي فرصة أقل تحليلاً. تقدم AWS وGoogle Cloud وMicrosoft Azure مثيلات GPU، لكن فترات التسعير والمرونة الخاصة بها خلقت مساحة لمزودي سحابة GPU المتخصصين للتنافس بفعالية.

CoreWeave، التي كانت في الأصل شركة تعدين عملات رقمية تحولت إلى سحابة GPU في عام 2020، وصلت إلى تقييم 19 مليار دولار في IPO عام 2024 وأصبحت سحابة GPU الفعلية للعديد من شركات الذكاء الاصطناعي التي تحتاج إلى مجموعات H100 وH200 واسعة النطاق دون فترات انتظار من 9 إلى 12 شهراً للقدرة المخصصة لمزودي الخدمات العملاقة. تخدم Lambda Labs وTogether AI وVast.ai قطاعات مختلفة من نفس الطلب — باحثون يحتاجون سعة انفجارية، شركات ناشئة لا تستطيع الالتزام بمثيلات محجوزة، شركات تريد مرونة في التسعير.

الميزة الهيكلية لسحابات GPU المتخصصة هي التركيز: فرقها محسنة حصرياً لأعباء عمل GPU، شبكاتها مضبوطة للاتصال الشامل عالي النطاق الذي يتطلبه التدريب الموزع، ونماذج التسعير الخاصة بها أكثر شفافية من تسعير GPU لمزودي الخدمات العملاقة (الذي يفتقر للشفافية بشكل سيئ السمعة). مع توسع أعباء عمل التدريب والاستدلال للذكاء الاصطناعي، السوق الإجمالي القابل للعنونة لحوسبة GPU ينمو أسرع من أي فئة سحابية في التاريخ.

تحسين الاستدلال: ساحة المعركة الناشئة

تدريب النموذج مكلف لكنه غير متكرر. تقديم النموذج على نطاق واسع — معالجة ملايين الطلبات يومياً مع زمن استجابة منخفض وتكلفة مضبوطة — هو تكلفة مستمرة تتراكم مع كل مستخدم مضاف. تحسين الاستدلال هو التخصص الهندسي لجعل هذا التقديم فعالاً قدر الإمكان، والشركات التي تبني أدوات وبنية تحتية له تلتقط قيمة كبيرة.

Groq بنت سيليكوناً مخصصاً (وحدات معالجة اللغة أو LPU) محسنة تحديداً لسرعة الاستدلال، محققة معدلات توليد رمز أسرع 10 إلى 30 مرة من الاستدلال المعتمد على GPU لأعباء عمل معينة. حالة الاستخدام هي التطبيقات الحساسة لزمن الاستجابة: الذكاء الاصطناعي الصوتي، المساعدة البرمجية في الوقت الحقيقي، الاستدلال التفاعلي. API سحابية من Groq جذبت أعباء عمل حيث استدلال بسرعة GPT-4 ليس سريعاً كافياً لتجربة المستخدم المطلوبة.

vLLM، محرك استدلال مفتوح المصدر من جامعة كاليفورنيا في بيركلي، قدم PagedAttention لإدارة ذاكرة التخزين المؤقت بكفاءة، أصبحت المكدس الفعلي للاستدلال للشركات التي تدير نماذج الوزن المفتوح. Anyscale (بناها فريق Ray)، وModal، وReplicate تقدم منصات تقديم استدلال فوق النماذج مفتوحة المصدر. Together AI تدير واحدة من أكبر APIs استدلال النماذج مفتوحة المصدر وبنيت تحسين استدلال خاصاً فوقها.

الاقتصاديات مواتية: شركات تحسين الاستدلال يمكنها خدمة مزودي نماذج متعددين وإصدارات متعددة من النماذج، مما يجعلها أكثر دفاعية من الشركات المرتبطة بعائلة نموذج واحد. مع تحسن النماذج مفتوحة الوزن واختيار المزيد من الشركات تشغيل استدلالها بدلاً من الدفع لكل رمز لمختبرات النماذج، طبقة البنية التحتية للاستدلال تنمو بالتبعية.

قواعد البيانات المتجهة ومكدس RAG

التوليد المعزز بالاسترجاع — بنية إعطاء نماذج اللغة وصولاً إلى مخازن المعرفة الخارجية عن طريق تضمين المستندات واسترجاع السياق ذي الصلة عند وقت الاستعلام — أصبح النمط السائد لتطبيقات الذكاء الاصطناعي المؤسسية. كل نظام RAG إنتاجي يحتاج إلى قاعدة بيانات متجهة: مخزن محسن للبحث التقريبي عن الجار الأقرب على متجهات التضمين عالية الأبعاد.

Pinecone كانت أول شركة تبني قاعدة بيانات متجهة مُدارة خصيصاً لتطبيقات الذكاء الاصطناعي، وتقييمها البالغ 750 مليون دولار في جولة Series B عام 2023 أشار إلى أن المستثمرين يعتقدون أن الفئة كبيرة. Weaviate وQdrant وMilvus (مفتوح المصدر مع Zilliz التي تقدم النسخة المُدارة) وChroma برزوا كمنافسين عبر الطيف المُدار والمستضاف ذاتياً. أصبح ChromaDB الافتراضي لتجربة المطورين؛ Pinecone وWeaviate يلتقطان عمليات النشر الإنتاجية المؤسسية.

الديناميكية التنافسية في قواعد البيانات المتجهة غير عادية: الخيارات مفتوحة المصدر (Milvus وQdrant وChroma) تنافس حقاً الخدمات المُدارة الخاصة للعديد من حالات الاستخدام، مما يخلق ضغطاً على التسعير. الراسخون في الخدمات المُدارة يتنافسون على تجربة المطور، واتفاقيات مستوى الخدمة للموثوقية، والميزات المساعدة (التصفية، البيانات الوصفية، البحث الهجين الذي يجمع بين المتجهات والكلمات الرئيسية) التي لا يوفرها البحث المتجه الخالص. إضافات Postgres مثل pgvector جعلت البحث المتجه قدرة أصلية لقواعد البيانات العلائقية، مما يطمس حدود الفئة.

المراقبة والتقييم

كل شركة تدير الذكاء الاصطناعي في الإنتاج اكتشفت المشكلة نفسها: أنظمة الذكاء الاصطناعي تفشل بطرق لا يلتقطها الرصد التقليدي. نموذج يعطي إجابات خاطئة بثقة، ينحرف نحو حقن المطالبات، يولد محتوى خارج العلامة التجارية، أو يهلوس حقائق لا يسبب خطأ 500 — إنه فقط ينتج مخرجات سيئة، والتي تتطلب أدوات مختلفة للكشف والقياس.

LangSmith (من LangChain)، وWeights & Biases، وArize AI، وHelicone بنوا منصات مراقبة خاصة بالذكاء الاصطناعي: تتبع لمكالمات الوكلاء متعددة الخطوات، أطر تقييم لقياس جودة المخرجات، اختبار تراجع المطالبات، وتتبع التكاليف عبر مزودي النماذج. هذه الأدوات تعالج فئة لم تكن موجودة قبل ثلاث سنوات وهي الآن جزء قياسي من أي نشر إنتاجي للذكاء الاصطناعي.

نموذج العمل جذاب: SaaS اشتراك لأداة تصبح أكثر التصاقاً مع نمو استخدام الشركة للذكاء الاصطناعي، مع تسعير مرتبط بحجم الاستخدام الذي يتوسع مع إنفاق العميل على الذكاء الاصطناعي. على عكس مزودي النماذج، شركات المراقبة لا تتنافس مباشرة مع بائع الذكاء الاصطناعي المفضل للعميل — يمكنها أن تكون محايدة تجاه أي نموذج أو إطار يستخدمه العميل، مما يجعل المبيعات أسهل والتسرب أقل.

دورة البنية التحتية

دورات البنية التحتية التكنولوجية التاريخية تشير إلى قوس يمكن التنبؤ به: في بداية موجة تكنولوجية، البنية التحتية الممكنة نادرة وتطلب أسعاراً مرتفعة؛ مع توسع التبني، تتحول البنية التحتية إلى سلعة مع دخول المزيد من المزودين؛ الناجون هم من بنوا مواقع دفاعية من خلال تأثيرات الشبكة، أو مزايا بيانات مملوكة، أو تمايز تقني حقيقي.

طبقة البنية التحتية للذكاء الاصطناعي في بداية هذه الدورة. هوامش ربح سحابة GPU حالياً مرتفعة لأن الطلب يتجاوز العرض. تسعير قواعد البيانات المتجهة لا يزال في مرحلة الاستكشاف. تحسين الاستدلال قبل التسليع. نافذة شركات البنية التحتية لبناء مواقع تنافسية دائمة مفتوحة — لكنها لن تبقى مفتوحة إلى أجل غير مسمى. الشركات التي ستظل تتقاضى أسعاراً ممتازة في عام 2030 هي تلك التي تبني أعمق تمايز تقني وأكثر المكدسات تكاملاً، وليس فقط تأجير قدرة عامة. تجارة الفؤوس حقيقية؛ السؤال هو أي الفؤوس ستتحول إلى خنادق منصة.