La computación en tiempo de inferencia está reescribiendo el rendimiento de la IA — sin entrenar un solo modelo nuevo | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

Durante la mayor parte de la última década, la lógica dominante en la investigación de IA ha sido simple: más compute de entrenamiento, más datos, mejor modelo. Escalar el preentrenamiento hace que el modelo sea más inteligente. Esa lógica ha impulsado un progreso extraordinario, pero también es cara, lenta y se topa cada vez más con barreras prácticas. Entrenar un modelo frontera cuesta ahora cientos de millones de dólares y lleva meses.

Una revolución más silenciosa ha estado tomando forma en el otro lado de la ecuación: el tiempo de inferencia. En lugar de preguntar qué puede hacer un modelo con una cantidad fija de compute durante el entrenamiento, los investigadores y los equipos de producto se hacen una pregunta diferente: ¿qué puede hacer un modelo si le das más compute en el momento en que realmente responde?

Qué es realmente la computación en tiempo de inferencia

La computación en tiempo de inferencia (TTC) —también llamada escalado en tiempo de inferencia o pensamiento extendido— se refiere a permitir que un modelo use compute adicional al generar una respuesta. En lugar de producir una respuesta en un solo forward pass, el modelo puede generar pasos de razonamiento intermedios, revisar su propio trabajo, explorar múltiples rutas de solución y revisar antes de comprometerse con una salida final.

La versión más simple de esto es el chain-of-thought prompting: indicar al modelo que piense paso a paso. Pero la TTC moderna va mucho más allá. Los modelos o1 y o3 de OpenAI utilizan un proceso de razonamiento entrenado con reinforcement learning que gasta cantidades variables de compute según la dificultad del problema. El modo de pensamiento extendido de Claude de Anthropic asigna tokens de razonamiento antes de la respuesta visible. La familia R1 de DeepSeek fue entrenada específicamente para razonar en cadenas largas antes de responder.

Los resultados son sorprendentes. En benchmarks de matemáticas como AIME y MATH, los modelos de razonamiento obtienen 20–40 puntos porcentuales más que sus contrapartes no razonadoras de recuento de parámetros similar. En benchmarks de codificación, la brecha es igualmente grande. En problemas complejos de múltiples pasos —del tipo que requieren mantener contexto a través de muchos pasos lógicos— los modelos TTC superan consistentemente a modelos técnicamente más grandes pero que no usan razonamiento extendido.

Por qué esto cambia el tradeoff

El escalado tradicional dice: para obtener un modelo más inteligente, gasta más en preentrenamiento. Ese costo se paga una vez y se amortiza en cada inferencia. La computación en tiempo de inferencia invierte esto: gasta más en inferencia, bajo demanda, solo cuando la tarea lo necesita.

Esto tiene implicaciones significativas para cómo se despliega la IA en la práctica. Un modelo que funciona en un contexto de servicio al cliente no necesita pensamiento extendido para responder una pregunta de reembolso: rápido y barato está bien. El mismo modelo resolviendo un problema de depuración novedoso o sintetizando un análisis legal podría beneficiarse enormemente de gastar diez veces más compute en esa única respuesta. TTC permite que los sistemas se calibren en consecuencia.

OpenAI ha hecho esto explícito con los presupuestos de compute de o3: literalmente puedes decirle al modelo cuánto compute de pensamiento usar, intercambiando costo por capacidad. Para un borrador rápido, usas tokens de pensamiento mínimos. Para una auditoría o un problema de codificación competitivo, lo pones al máximo. La inteligencia efectiva del modelo se convierte en un dial, no en un techo fijo.

Los actores que impulsan el cambio

La serie o de OpenAI (o1, o1-mini, o3, o4-mini) estableció los modelos de razonamiento como una categoría de producto. Google siguió con Gemini 2.0 Flash Thinking y el completo Gemini 2.0 Pro, que integra chain-of-thought reasoning en su arquitectura de propósito general. Los modelos Claude Sonnet y Opus de Anthropic con pensamiento extendido han mostrado resultados particularmente fuertes en razonamiento matemático y científico. El modelo R1 de DeepSeek —entrenado con un enfoque novedoso de optimización de política relativa grupal— demostró que la capacidad de razonamiento podía lograrse a una fracción del costo, desatando una ola de desarrollo de modelos de razonamiento Open Source.

El ecosistema Open Source se ha movido rápidamente. Los modelos QwQ de Qwen, las variantes de razonamiento de Mistral y los derivados de Llama ajustados para razonamiento de Meta compiten todos por los mismos niveles de rendimiento que los líderes propietarios, a menudo a meses de cada nuevo avance en benchmarks.

Los límites — y lo que viene después

La computación en tiempo de inferencia no es un almuerzo gratis. La restricción obvia es el costo: un modelo que gasta 32.000 tokens de razonamiento por respuesta es dramáticamente más caro por query que el mismo modelo en modo estándar. Para aplicaciones de alto volumen y sensibles a la latencia, esto sigue siendo una barrera real.

También hay límites de calidad en cuanto a lo lejos que puede llegar TTC para empujar un modelo que tiene brechas fundamentales en su entrenamiento. El pensamiento extendido ayuda a un modelo a razonar mejor sobre cosas sobre las que ya tiene buenos priors —no crea conocimiento de la nada. Un modelo con mala cobertura de dominio seguirá produciendo razonamiento defectuoso, solo que con mayor longitud.

La frontera de investigación más interesante es hacer que TTC sea más eficiente: mejores métodos de entrenamiento que enseñen a los modelos a asignar el presupuesto de razonamiento adecuadamente, modelos de recompensa de proceso que puedan juzgar la calidad del razonamiento a mitad de cadena, y técnicas de Speculative Decoding que permitan que varias rutas de razonamiento se ejecuten en paralelo y se fusionen. Los resultados iniciales sugieren que la eficiencia se puede mejorar entre 3 y 5 veces sin sacrificar precisión.

La implicación más profunda es que el rendimiento de la IA ya no es una propiedad fija de un checkpoint de modelo. Es una función de cuánto compute estás dispuesto a gastar en inferencia, en qué tareas y bajo qué restricciones. Esa es una forma fundamentalmente diferente de pensar sobre la capacidad de la IA —y está comenzando a reconfigurar cómo las empresas evalúan y despliegan sistemas de IA.

Los modelos entrenados hoy serán significativamente más capaces el año que viene —no porque alguien haya actualizado sus pesos, sino porque los sistemas que los ejecutan habrán aprendido a pensar más tiempo y de manera más inteligente sobre las cosas que realmente importan.