OpenAI cambia o3 y o4-mini a Hybrid Reasoning, reduciendo costos de inferencia en un 40%

Qué cambió y por qué importa

OpenAI actualizó la arquitectura de inferencia de sus modelos o3 y o4-mini a finales de mayo de 2026, introduciendo el adaptive chain-of-thought scaling. En lugar de ejecutar pensamiento extendido completo en cada consulta, los modelos ahora evalúan la complejidad de la tarea en la capa de enrutamiento de Prompt y asignan cómputo proporcional. Las búsquedas de hechos simples reciben un paso de razonamiento corto; las demostraciones matemáticas de múltiples pasos y la generación de código siguen obteniendo el presupuesto completo.

El resultado práctico: los costos de API para o3 bajan de $15 por millón de tokens de salida a $9, y o4-mini pasa de $1,10 a $0,66. Para desarrolladores con cargas de trabajo de alto volumen, esto es un cambio significativo en la economía unitaria.

Cómo funciona el Hybrid Reasoning

Los modelos tradicionales de chain-of-thought gastan el mismo cómputo sin importar la complejidad de la consulta. El adaptive scaling ejecuta un clasificador ligero en tiempo de inferencia que evalúa la complejidad en cuatro dimensiones: profundidad lógica, especificidad del dominio, nivel de ambigüedad y si se necesitan múltiples rutas de solución.

En MMLU, o3 híbrido puntúa dentro de 0,3 puntos porcentuales del o3 completo. En LiveCodeBench, el modo híbrido obtiene 2,4 puntos menos.

Conclusiones prácticas

Prueba reasoning_effort en modo adaptive en staging antes de activarlo en producción.
Para cargas de trabajo mixtas, el modo adaptive ofrece 25-40% de ahorro en costos.
Para codificación de alto riesgo, mantén reasoning_effort en high.