La ruée vers l'or de l'infrastructure IA : pourquoi les plus grands gagnants ne seront peut-être pas les laboratoires de modèles

Chaque ruée vers l'or produit une catégorie de gagnants que la mythologie de la ruée vers l'or sous-estime : les vendeurs de pelles. Lors de la ruée vers l'or en Californie, Levi Strauss a vendu des pantalons résistants aux mineurs. Sam Brannon a vendu des fournitures. Tous deux ont gagné un argent plus fiable que la plupart des prospecteurs. Le boom de l'IA des années 2020 a produit une dynamique structurellement similaire, et la couche d'infrastructure qu'il génère pourrait être la partie la plus durable de la pile de valeur.

Les laboratoires de modèles — OpenAI, Anthropic, Google DeepMind, Meta AI — reçoivent l'attention du public. Ils produisent les capacités qui stimulent l'adoption et captent des revenus significatifs. Mais leur économie est véritablement incertaine : les sessions d'entraînement coûtent des centaines de millions de dollars, les coûts d'inférence baissent mais la concurrence est féroce, et le fossé concurrentiel d'une génération de modèle donnée dure des mois avant que les concurrents ne comblent l'écart. Les entreprises d'infrastructure au service de l'écosystème IA sont confrontées à une dynamique différente : demande croissante d'une clientèle diversifiée, risque de marchandisation moindre que les fournisseurs de modèles, et dans certains cas des positions quasi monopolistiques dans leurs niches spécifiques.

La couche cloud GPU

Le verrouillage de l'écosystème CUDA de Nvidia est bien documenté, mais la couche de location de cloud GPU située entre Nvidia et les utilisateurs finaux est une opportunité moins analysée. AWS, Google Cloud et Microsoft Azure proposent des instances GPU, mais leurs délais de livraison, leurs tarifs et leur flexibilité ont créé un espace pour que des fournisseurs spécialisés de cloud GPU puissent concurrencer efficacement.

CoreWeave, à l'origine une société de minage de cryptomonnaies qui s'est tournée vers le cloud GPU en 2020, a atteint une valorisation de 19 milliards de dollars lors de son IPO en 2024 et est devenue le cloud GPU de facto pour de nombreuses entreprises d'IA ayant besoin de clusters H100 et H200 à grande échelle sans les délais d'attente de 9 à 12 mois des hyperscalers pour une capacité réservée. Lambda Labs, Together AI et Vast.ai servent différents segments de cette même demande : chercheurs ayant besoin de capacité en rafale, startups ne pouvant pas s'engager sur des instances réservées, entreprises souhaitant une flexibilité tarifaire.

L'avantage structurel des clouds GPU spécialisés est la concentration : leurs équipes sont exclusivement optimisées pour les charges de travail GPU, leurs réseaux sont configurés pour les communications haute bande passante de type all-to-all requises par l'entraînement distribué, et leurs modèles de tarification sont plus transparents que ceux des hyperscalers (notoirement opaques). À mesure que les charges de travail d'entraînement et d'inférence IA augmentent, le marché total adressable pour le calcul GPU croît plus rapidement que toute autre catégorie de cloud dans l'histoire.

L'optimisation de l'inférence : le champ de bataille émergent

Entraîner un modèle est coûteux mais peu fréquent. Servir un modèle à l'échelle — gérer des millions de requêtes par jour avec une faible latence et un coût maîtrisé — est un coût continu qui s'aggrave avec chaque utilisateur ajouté. L'optimisation de l'inférence est la discipline d'ingénierie qui rend ce service aussi efficace que possible, et les entreprises qui construisent des outils et des infrastructures pour cela captent une valeur significative.

Groq a construit du silicium personnalisé (Language Processing Units, ou LPU) spécifiquement optimisé pour la vitesse d'inférence, atteignant des taux de génération de tokens 10 à 30 fois plus rapides que l'inférence basée sur GPU pour certaines charges de travail. Le cas d'utilisation concerne les applications sensibles à la latence : IA vocale, assistance au codage en temps réel, raisonnement interactif. L'API cloud de Groq a attiré des charges de travail pour lesquelles l'inférence à la vitesse GPT-4 n'est pas assez rapide pour l'expérience utilisateur requise.

vLLM, un moteur d'inférence open source de l'UC Berkeley qui a introduit PagedAttention pour une gestion efficace du cache KV, est devenu la pile d'inférence de facto pour les entreprises exécutant des modèles à poids ouverts. Anyscale (construit par l'équipe Ray), Modal et Replicate fournissent des plateformes de service d'inférence sur des modèles open source. Together AI exploite l'une des plus grandes API d'inférence de modèles open source et a construit une optimisation d'inférence propriétaire par-dessus.

L'économie est favorable : les entreprises d'optimisation d'inférence peuvent servir plusieurs fournisseurs de modèles et versions de modèles, ce qui les rend plus défendables que les entreprises liées à une seule famille de modèles. À mesure que les modèles à poids ouverts s'améliorent et que davantage d'entreprises choisissent d'exécuter leur propre inférence plutôt que de payer par token aux laboratoires de modèles, la couche d'infrastructure d'inférence croît en conséquence.

Les bases de données vectorielles et la pile RAG

La génération augmentée par récupération — l'architecture donnant aux modèles de langage accès à des réservoirs de connaissances externes en intégrant des documents et en récupérant le contexte pertinent lors de la requête — est devenue le modèle dominant pour les applications d'IA en entreprise. Tout système RAG de production a besoin d'une base de données vectorielle : un stockage optimisé pour la recherche approximative du voisin le plus proche sur des vecteurs d'intégration de haute dimension.

Pinecone a été la première entreprise à construire une base de données vectorielle gérée spécifiquement pour les applications d'IA, et sa valorisation de 750 millions de dollars en Série B en 2023 a signalé que les investisseurs croyaient que la catégorie était importante. Weaviate, Qdrant, Milvus (open source avec Zilliz proposant la version gérée) et Chroma sont apparus comme des concurrents sur tout le spectre des solutions gérées et auto-hébergées. ChromaDB est devenu le choix par défaut pour l'expérimentation des développeurs ; Pinecone et Weaviate captent les déploiements en production des entreprises.

La dynamique concurrentielle dans les bases de données vectorielles est inhabituelle : les options open source (Milvus, Qdrant, Chroma) sont véritablement compétitives avec les services gérés propriétaires pour de nombreux cas d'utilisation, ce qui crée une pression sur les prix. Les acteurs établis des services gérés se font concurrence sur l'expérience développeur, les SLA de fiabilité et les fonctionnalités auxiliaires (filtrage, métadonnées, recherche hybride combinant vecteurs et mots-clés) que la recherche purement vectorielle ne fournit pas. Les extensions Postgres comme pgvector ont également fait de la recherche vectorielle une capacité native des bases de données relationnelles, brouillant les limites des catégories.

L'observabilité et l'évaluation

Toute entreprise exécutant de l'IA en production a découvert le même problème : les systèmes d'IA échouent d'une manière que la surveillance traditionnelle ne détecte pas. Un modèle qui donne des réponses fausses avec assurance, dérive vers l'injection de prompts, génère du contenu hors marque, ou hallucine des faits ne provoque pas une erreur 500 — il produit simplement une mauvaise sortie, ce qui nécessite des outils différents pour la détecter et la mesurer.

LangSmith (de LangChain), Weights & Biases, Arize AI et Helicone ont construit des plateformes d'observabilité spécifiques à l'IA : traçage pour les appels d'agents multi-étapes, cadres d'évaluation pour mesurer la qualité des sorties, tests de régression de prompts et suivi des coûts entre fournisseurs de modèles. Ces outils abordent une catégorie qui n'existait pas il y a trois ans et qui fait désormais partie intégrante de tout déploiement d'IA en production.

Le modèle économique est attractif : SaaS par abonnement pour un outil qui devient plus collant à mesure que l'utilisation de l'IA d'une entreprise augmente, avec une tarification liée au volume d'utilisation qui évolue avec les dépenses IA du client. Contrairement aux fournisseurs de modèles, les entreprises d'observabilité ne sont pas en concurrence directe avec le fournisseur d'IA choisi par le client — elles peuvent être neutres quant au modèle ou au cadre utilisé par le client, ce qui facilite les ventes et réduit le taux d'attrition.

Le cycle de l'infrastructure

Les cycles historiques d'infrastructure technologique suggèrent une trajectoire prévisible : au début d'une vague technologique, l'infrastructure habilitante est rare et commande des prix élevés ; à mesure que l'adoption se généralise, l'infrastructure se marchandise avec l'arrivée de nouveaux fournisseurs ; les survivants sont ceux qui ont construit des positions défendables grâce à des effets de réseau, des avantages de données propriétaires ou une réelle différenciation technique.

La couche d'infrastructure IA est au début de ce cycle. Les marges du cloud GPU sont actuellement élevées car la demande dépasse l'offre. La tarification des bases de données vectorielles est encore en phase de découverte. L'optimisation de l'inférence est en phase de pré-marchandisation. La fenêtre pour que les entreprises d'infrastructure construisent des positions concurrentielles durables est ouverte — mais elle ne le restera pas indéfiniment. Les entreprises qui factureront encore des prix élevés en 2030 sont celles qui construisent la différenciation technique la plus profonde et les piles les plus intégrées, et non celles qui louent simplement de la capacité générique. Le commerce des pioches est réel ; la question est de savoir quelles pioches se transformeront en fossés de plateforme.