La fiebre del oro de la infraestructura de IA: por qué los mayores ganadores quizás no sean los laboratorios de modelos

Toda fiebre del oro produce una clase de ganadores que la mitología de la fiebre del oro subestima: las personas que venden palas. En la fiebre del oro de California, Levi Strauss vendió pantalones resistentes a los mineros. Sam Brannon vendió suministros. Ambos ganaron dinero más fiable que la mayoría de los buscadores. El auge de la IA de la década de 2020 ha producido una dinámica estructuralmente similar, y la capa de infraestructura que está generando puede ser la parte más duradera de la pila de valor.

Los laboratorios de modelos — OpenAI, Anthropic, Google DeepMind, Meta AI — reciben la atención pública. Están produciendo las capacidades que impulsan la adopción y están capturando ingresos significativos. Pero su economía es genuinamente incierta: las ejecuciones de entrenamiento cuestan cientos de millones de dólares, los costes de inferencia están cayendo pero la competencia es feroz, y el foso competitivo de una generación de modelo concreta dura meses antes de que los competidores cierren la brecha. Las empresas de infraestructura que sirven al ecosistema de IA se enfrentan a una dinámica diferente: demanda creciente de una base de clientes diversificada, menor riesgo de mercantilización que los proveedores de modelos y, en algunos casos, posiciones casi monopolísticas en sus nichos específicos.

La capa de nube GPU

El bloqueo del ecosistema CUDA de Nvidia está bien documentado, pero la capa de alquiler de nube GPU situada entre Nvidia y los usuarios finales es una oportunidad menos analizada. AWS, Google Cloud y Microsoft Azure ofrecen instancias GPU, pero sus plazos de entrega, precios y flexibilidad han creado espacio para que proveedores especializados de nube GPU compitan eficazmente.

CoreWeave, originalmente una empresa de minería de criptomonedas que giró hacia la nube GPU en 2020, alcanzó una valoración de 19 mil millones de dólares en su IPO de 2024 y se ha convertido en la nube GPU de facto para muchas empresas de IA que necesitan clústeres H100 y H200 a gran escala sin los plazos de entrega de 9 a 12 meses de capacidad comprometida de los hiperescaladores. Lambda Labs, Together AI y Vast.ai sirven a diferentes segmentos de la misma demanda: investigadores que necesitan capacidad explosiva, startups que no pueden comprometerse con instancias reservadas, empresas que quieren flexibilidad de precios.

La ventaja estructural de las nubes GPU especializadas es el enfoque: sus equipos están optimizados exclusivamente para cargas de trabajo GPU, sus redes están ajustadas para la comunicación all-to-all de alto ancho de banda que requiere el entrenamiento distribuido, y sus modelos de precios son más transparentes que la fijación de precios GPU de los hiperescaladores (que es notoriamente opaca). A medida que escalan las cargas de trabajo de entrenamiento e inferencia de IA, el mercado total direccionable para la computación GPU está creciendo más rápido que cualquier categoría de nube en la historia.

Optimización de inferencia: el campo de batalla emergente

Entrenar un modelo es caro pero poco frecuente. Servir un modelo a escala — gestionar millones de solicitudes al día con baja latencia y coste controlado — es un coste continuo que se agrava con cada usuario añadido. La optimización de la inferencia es la disciplina de ingeniería que hace que ese servicio sea lo más eficiente posible, y las empresas que construyen herramientas e infraestructura para ello están capturando un valor significativo.

Groq construyó silicio personalizado (Unidades de Procesamiento de Lenguaje, o LPU) optimizado específicamente para la velocidad de inferencia, logrando tasas de generación de tokens de 10 a 30 veces más rápidas que la inferencia basada en GPU para determinadas cargas de trabajo. El caso de uso son las aplicaciones sensibles a la latencia: IA de voz, asistencia de codificación en tiempo real, razonamiento interactivo. La API en la nube de Groq ha atraído cargas de trabajo donde la inferencia a velocidad GPT-4 no es lo suficientemente rápida para la experiencia de usuario requerida.

vLLM, un motor de inferencia de código abierto de UC Berkeley que introdujo PagedAttention para una gestión eficiente de la caché KV, se ha convertido en la pila de inferencia de facto para las empresas que ejecutan modelos de peso abierto. Anyscale (construido por el equipo de Ray), Modal y Replicate proporcionan plataformas de servicio de inferencia sobre modelos de código abierto. Together AI ejecuta una de las API de inferencia de modelos de código abierto más grandes y ha construido una optimización de inferencia propietaria sobre ella.

La economía es favorable: las empresas de optimización de inferencia pueden servir a múltiples proveedores de modelos y versiones de modelos, lo que las hace más defendibles que las empresas vinculadas a una única familia de modelos. A medida que mejoran los modelos de peso abierto y más empresas eligen ejecutar su propia inferencia en lugar de pagar por token a los laboratorios de modelos, la capa de infraestructura de inferencia crece en consecuencia.

Bases de datos vectoriales y la pila RAG

La generación aumentada por recuperación — la arquitectura de dar a los modelos de lenguaje acceso a almacenes de conocimiento externo mediante la incrustación de documentos y la recuperación de contexto relevante en el momento de la consulta — se ha convertido en el patrón dominante para las aplicaciones empresariales de IA. Cada sistema RAG de producción necesita una base de datos vectorial: un almacén optimizado para la búsqueda aproximada del vecino más cercano sobre vectores de incrustación de alta dimensionalidad.

Pinecone fue la primera empresa en construir una base de datos vectorial gestionada específicamente para aplicaciones de IA, y su valoración de 750 millones de dólares en la Serie B en 2023 indicó que los inversores creían que la categoría era grande. Weaviate, Qdrant, Milvus (código abierto con Zilliz ofreciendo la versión gestionada) y Chroma han surgido como competidores en todo el espectro gestionado y autoalojado. ChromaDB se ha convertido en el valor predeterminado para la experimentación de desarrolladores; Pinecone y Weaviate están capturando despliegues de producción empresarial.

La dinámica competitiva en las bases de datos vectoriales es inusual: las opciones de código abierto (Milvus, Qdrant, Chroma) son genuinamente competitivas con los servicios gestionados propietarios para muchos casos de uso, lo que crea presión sobre los precios. Los operadores históricos de servicios gestionados compiten en experiencia de desarrollador, SLA de fiabilidad y las características auxiliares (filtrado, metadatos, búsqueda híbrida que combina vectores y palabras clave) que la búsqueda puramente vectorial no proporciona. Las extensiones de Postgres como pgvector también han hecho de la búsqueda vectorial una capacidad nativa de las bases de datos relacionales, difuminando los límites de la categoría.

Observabilidad y evaluación

Toda empresa que ejecuta IA en producción ha descubierto el mismo problema: los sistemas de IA fallan de maneras que la monitorización tradicional no detecta. Un modelo que da respuestas incorrectas con confianza, se desvía hacia la inyección de prompts, genera contenido fuera de la marca, o alucina hechos no provoca un error 500 — simplemente produce una salida mala, que requiere herramientas diferentes para detectar y medir.

LangSmith (de LangChain), Weights & Biases, Arize AI y Helicone han construido plataformas de observabilidad específicas para IA: trazado de llamadas de agente multipaso, marcos de evaluación para medir la calidad de la salida, pruebas de regresión de prompts y seguimiento de costes entre proveedores de modelos. Estas herramientas abordan una categoría que no existía hace tres años y que ahora es una parte estándar de cualquier despliegue de IA en producción.

El modelo de negocio es atractivo: SaaS por suscripción para una herramienta que se vuelve más pegajosa a medida que crece el uso de IA de una empresa, con precios vinculados al volumen de uso que escala con el gasto en IA del cliente. A diferencia de los proveedores de modelos, las empresas de observabilidad no compiten directamente con el proveedor de IA elegido por el cliente: pueden ser neutrales respecto a qué modelo o marco utiliza un cliente, lo que facilita las ventas y reduce la rotación.

El ciclo de la infraestructura

Los ciclos históricos de infraestructura tecnológica sugieren un arco predecible: al principio de una ola tecnológica, la infraestructura habilitante es escasa y exige precios elevados; a medida que la adopción escala, la infraestructura se mercantiliza a medida que entran más proveedores; los supervivientes son aquellos que construyeron posiciones defendibles a través de efectos de red, ventajas de datos propietarios o diferenciación técnica genuina.

La capa de infraestructura de IA está al principio de este ciclo. Los márgenes de la nube GPU son actualmente altos porque la demanda supera la oferta. La fijación de precios de las bases de datos vectoriales todavía está en fase de descubrimiento. La optimización de la inferencia está en la etapa previa a la mercantilización. La ventana para que las empresas de infraestructura construyan posiciones competitivas duraderas está abierta — pero no permanecerá abierta indefinidamente. Las empresas que seguirán cobrando precios superiores en 2030 son las que están construyendo la diferenciación técnica más profunda y las pilas más integradas, no solo alquilando capacidad genérica. El negocio de las palas es real; la cuestión es qué palas se convertirán en fosos de plataforma.