Der AI Infrastructure Gold Rush: Warum die größten Gewinner nicht die Model Labs sein werden

Jeder Goldrausch bringt eine Klasse von Gewinnern hervor, die die Goldrausch-Mythologie unterbewertet: die Leute, die Schaufeln verkaufen. Im kalifornischen Goldrausch verkaufte Levi Strauss robuste Hosen an die Bergleute. Sam Brannon verkaufte Vorräte. Beide machten verlässlicher Geld als die meisten Goldsucher. Der AI Boom der 2020er Jahre hat eine strukturell ähnliche Dynamik erzeugt, und die Infrastrukturebene, die er hervorbringt, könnte der beständigste Teil des Wertstapels sein.

Die Model Labs – OpenAI, Anthropic, Google DeepMind, Meta AI – erhalten die öffentliche Aufmerksamkeit. Sie produzieren die Fähigkeiten, die die Adoption treiben, und sie erzielen beträchtliche Einnahmen. Aber ihre Wirtschaftlichkeit ist wirklich unsicher: Trainingsläufe kosten Hunderte Millionen Dollar, Inference-Kosten fallen, aber der Wettbewerb ist heftig, und der Wettbewerbsgraben einer bestimmten Modellgeneration hält Monate, bevor die Konkurrenten die Lücke schließen. Die Infrastruktur-Unternehmen, die das AI-Ökosystem bedienen, stehen vor einer anderen Dynamik: wachsende Nachfrage von einem diversifizierten Kundenstamm, geringeres Kommoditisierungsrisiko als Modellanbieter und in einigen Fällen nahezu Monopolstellungen in ihren spezifischen Nischen.

Die GPU Cloud Ebene

Nvidias CUDA-Ökosystem-Lock-in ist gut dokumentiert, aber die GPU Cloud Rental Layer zwischen Nvidia und den Endnutzern ist eine weniger analysierte Chance. AWS, Google Cloud und Microsoft Azure bieten GPU-Instanzen an, aber ihre Vorlaufzeiten, Preise und Flexibilität haben Raum für spezialisierte GPU-Cloud-Anbieter geschaffen, um effektiv zu konkurrieren.

CoreWeave, ursprünglich ein Crypto-Mining-Unternehmen, das 2020 auf GPU Cloud umstellte, erreichte bei seinem IPO 2024 eine Bewertung von 19 Milliarden Dollar und ist de facto die GPU Cloud für viele AI Unternehmen geworden, die große H100- und H200-Cluster benötigen, ohne die 9-12-monatigen Vorlaufzeiten der gebuchten Kapazität von Hyperscalern. Lambda Labs, Together AI und Vast.ai bedienen verschiedene Segmente derselben Nachfrage – Forscher, die kurzzeitige Kapazität benötigen, Startups, die sich keine reservierten Instanzen leisten können, Unternehmen, die Preisflexibilität wünschen.

Der strukturelle Vorteil spezialisierter GPU Clouds ist der Fokus: Ihre Teams sind ausschließlich für GPU-Workloads optimiert, ihre Netzwerke sind auf die hochbandbreitige All-to-All-Kommunikation abgestimmt, die verteiltes Training erfordert, und ihre Preismodelle sind transparenter als die notorisch undurchsichtigen GPU-Preise der Hyperscaler. Mit der Skalierung von AI-Training und Inference-Workloads wächst der gesamte adressierbare Markt für GPU Compute schneller als jede Cloud-Kategorie in der Geschichte.

Inference Optimization: Das aufkommende Schlachtfeld

Das Training eines Modells ist teuer, aber selten. Der Betrieb eines Modells in großem Maßstab – die Verarbeitung von Millionen von Anfragen pro Tag mit niedriger Latenz und kontrollierten Kosten – ist ein kontinuierlicher Kostenfaktor, der mit jedem neuen Benutzer steigt. Inference Optimization ist die Ingenieursdisziplin, diesen Betrieb so effizient wie möglich zu gestalten, und die Unternehmen, die Werkzeuge und Infrastruktur dafür bauen, erzielen erhebliche Werte.

Groq hat eigene Siliziumchips (Language Processing Units, oder LPUs) entwickelt, die speziell für Inference-Geschwindigkeit optimiert sind und für bestimmte Workloads Token-Generierungsraten erreichen, die 10- bis 30-mal schneller sind als GPU-basierte Inference. Der Anwendungsfall sind latenzempfindliche Anwendungen: Sprach-AI, Echtzeit-Coding-Assistenz, interaktives Reasoning. Die Cloud-API von Groq hat Workloads angezogen, bei denen GPT-4-schnelle Inference nicht schnell genug für die erforderliche Benutzererfahrung ist.

vLLM, eine Open-Source-Inference-Engine der UC Berkeley, die PagedAttention für effizientes KV-Cache-Management einführte, ist de facto der Inference-Stack für Unternehmen, die Open-Weight-Modelle betreiben. Anyscale (vom Ray-Team entwickelt), Modal und Replicate bieten Inference-Serving-Plattformen auf Basis von Open-Source-Modellen. Together AI betreibt eine der größten Open-Source-Model-Inference-APIs und hat darauf eigene proprietäre Inference-Optimierung aufgebaut.

Die Wirtschaftlichkeit ist günstig: Inference-Optimierungs-Unternehmen können mehrere Modellanbieter und Modellversionen bedienen, was sie widerstandsfähiger macht als Unternehmen, die an eine einzige Modellfamilie gebunden sind. Mit der Verbesserung von Open-Weight-Modellen und der Entscheidung immer mehr Unternehmen, ihre eigene Inference durchzuführen anstatt pro Token an Model Labs zu zahlen, wächst die Inference-Infrastrukturschicht entsprechend.

Vector Databases und der RAG Stack

Retrieval-Augmented Generation – die Architektur, Sprachmodellen Zugang zu externen Wissensspeichern zu geben, indem Dokumente embedded und relevanter Kontext zur Abfragezeit abgerufen wird – ist zum dominierenden Muster für Enterprise AI Anwendungen geworden. Jedes produktive RAG-System benötigt eine Vector Database: einen Speicher, der für die approximative nächste-Nachbar-Suche über hochdimensionale Embedding-Vektoren optimiert ist.

Pinecone war das erste Unternehmen, das eine verwaltete Vector Database speziell für AI Anwendungen baute, und seine Series B Bewertung von 750 Millionen Dollar im Jahr 2023 signalisierte, dass Investoren die Kategorie als groß ansahen. Weaviate, Qdrant, Milvus (Open Source mit Zilliz als verwalteter Version) und Chroma sind als Wettbewerber im verwalteten und selbstgehosteten Spektrum aufgetaucht. ChromaDB ist zum Standard für Entwicklerexperimente geworden; Pinecone und Weaviate erobern produktive Enterprise-Deployments.

Die Wettbewerbsdynamik bei Vector Databases ist ungewöhnlich: Die Open-Source-Optionen (Milvus, Qdrant, Chroma) sind für viele Anwendungsfälle ernsthaft konkurrenzfähig mit den proprietären Managed Services, was Preisdruck erzeugt. Die etablierten Managed Services konkurrieren mit Entwicklererfahrung, Zuverlässigkeits-SLAs und den zusätzlichen Funktionen (Filtering, Metadaten, Hybrid Search – Kombination aus Vektor- und Stichwortsuche), die reine Vektorsuche nicht bietet. Postgres-Erweiterungen wie pgvector haben die Vektorsuche auch zu einer nativen Fähigkeit relationaler Datenbanken gemacht und die Kategoriengrenzen verwischt.

Observability und Evaluation

Jedes Unternehmen, das AI in der Produktion betreibt, hat das gleiche Problem entdeckt: AI-Systeme versagen auf eine Weise, die traditionelles Monitoring nicht erfasst. Ein Modell, das selbstbewusst falsche Antworten gibt, zu Prompt Injection driftet, nicht-markenkonforme Inhalte generiert oder Fakten halluziniert, verursacht keinen 500-Fehler – es produziert einfach schlechte Ausgaben, was andere Werkzeuge zur Erkennung und Messung erfordert.

LangSmith (von LangChain), Weights & Biases, Arize AI und Helicone haben AI-spezifische Observability-Plattformen gebaut: Tracing für mehrschrittige Agent-Aufrufe, Evaluierungsframeworks zur Messung der Ausgabequalität, Prompt-Regressionstests und Kostenverfolgung über mehrere Modellanbieter hinweg. Diese Werkzeuge adressieren eine Kategorie, die es vor drei Jahren nicht gab und heute ein Standardteil jeder produktiven AI-Implementierung ist.

Das Geschäftsmodell ist attraktiv: Subscription-SaaS für ein Tool, das mit zunehmender AI-Nutzung eines Unternehmens klebriger wird, mit nutzungsvolumenabhängiger Preisgestaltung, die mit den AI-Ausgaben des Kunden skaliert. Im Gegensatz zu Modellanbietern konkurrieren Observability-Unternehmen nicht direkt mit dem bevorzugten AI-Anbieter ihrer Kunden – sie können neutral gegenüber dem Modell oder Framework sein, das ein Kunde verwendet, was den Verkauf erleichtert und die Abwanderung senkt.

Der Infrastrukturzyklus

Historische Technologie-Infrastrukturzyklen deuten auf einen vorhersagbaren Bogen hin: Früh in einer Technologiewelle ist die ermöglichende Infrastruktur knapp und erzielt Premiumpreise; mit der Skalierung der Adoption kommoditisiert die Infrastruktur, da mehr Anbieter eintreten; die Überlebenden sind diejenigen, die durch Netzwerkeffekte, proprietäre Datenvorteile oder echte technische Differenzierung verteidigbare Positionen aufgebaut haben.

Die AI-Infrastrukturschicht befindet sich früh in diesem Zyklus. GPU-Cloud-Margen sind derzeit hoch, weil die Nachfrage das Angebot übersteigt. Die Preisgestaltung für Vector Databases befindet sich noch in der Findungsphase. Inference Optimization ist vor der Kommoditisierung. Das Zeitfenster für Infrastruktur-Unternehmen, dauerhafte Wettbewerbspositionen aufzubauen, ist offen – aber es wird nicht unbegrenzt offen bleiben. Die Unternehmen, die im Jahr 2030 noch Premiumpreise verlangen werden, sind diejenigen mit der tiefsten technischen Differenzierung und den am stärksten integrierten Stacks – nicht die, die nur generische Kapazitäten vermieten. Das Spitzhacken-Geschäft ist real; die Frage ist, welche Spitzhacken sich zu Plattform-Gräben entwickeln.