Anthropic lanza Claude Opus 4.8 con mejor juicio agentivo, flujos de trabajo dinámicos y un modo rápido tres veces más barato

Anthropic lanzó hoy Claude Opus 4.8, actualizando su modelo insignia con mejoras en fiabilidad agentiva, programación, uso de ordenador y honestidad, todo al mismo precio que Opus 4.7. El lanzamiento va acompañado de tres nuevas funciones que se lanzan hoy: flujos de trabajo dinámicos en Claude Code, control de esfuerzo en claude.ai y un modo rápido significativamente más barato.

Qué cambió en Opus 4.8

La mejora principal es el juicio agentivo. Los primeros evaluadores en Cursor, Devin, Databricks y varias plataformas de IA legal describen Opus 4.8 como más fiable en tareas autónomas de larga duración: hace preguntas aclaratorias antes de realizar grandes cambios, detecta sus propios errores y es más propenso a señalar incertidumbres en lugar de producir resultados incorrectos con confianza.

Anthropic cuantifica un aspecto de esto: Opus 4.8 es aproximadamente cuatro veces menos propenso que Opus 4.7 a dejar pasar fallos en el código que ha escrito sin comentarlos. Es una mejora de fiabilidad significativa para cualquier despliegue donde la revisión de código ocurra aguas abajo.

El modelo también corrige dos problemas específicos de Opus 4.7 que los ingenieros reportaron: verbosidad excesiva en comentarios del código generado y comportamiento inconsistente en la llamada a herramientas. Ambos han sido confirmados como resueltos por Cognition (creadores de Devin), que señaló que Opus 4.8 "usa las herramientas de manera limpia y sigue las instrucciones con la consistencia que nuestras cargas de trabajo de ingeniería autónoma necesitan."

Resultados de Benchmark

En Online-Mind2Web — el benchmark estándar para tareas de uso de ordenador y agente de navegador — Opus 4.8 obtiene un 84%, descrito por Anthropic como un "salto significativo" sobre Opus 4.7 y GPT-5.5. Para productos que construyen sobre la API de uso de ordenador de Anthropic, este es el número más relevante.

En el Super-Agent benchmark, Opus 4.8 es el único modelo probado que completa cada caso de principio a fin. Supera a los modelos Opus anteriores y iguala a GPT-5.5 a paridad de coste, lo que significa un rendimiento de agente equivalente con el mismo gasto en tokens.

En CursorBench, Opus 4.8 supera a versiones anteriores de Opus en todos los niveles de esfuerzo, con llamadas a herramientas más eficientes: menos pasos para una inteligencia equivalente en tareas de programación.

En el Legal Agent Benchmark, Opus 4.8 establece la puntuación más alta registrada y se convierte en el primer modelo en superar el 10% en el estándar de aprobación total. CoCounsel (IA legal) y Harvey reportan una consistencia y calidad de razonamiento mejoradas en flujos de trabajo densos de documentos financieros y legales.

Databricks reporta que Opus 4.8 funciona con un coste de token un 61% más barato que Opus 4.7 en su producto Genie, que maneja razonamiento multimodal sobre PDFs, diagramas y contenido no estructurado.

Alineación y honestidad

El equipo de alineación de Anthropic evaluó Opus 4.8 antes del lanzamiento y encontró que alcanza "nuevos máximos en medidas de rasgos prosociales como apoyar la autonomía del usuario y actuar en el mejor interés del usuario." Las tasas de comportamiento desalineado — definido como engaño o cooperación con uso indebido — son sustancialmente más bajas que en Opus 4.7, y comparables a Claude Mythos Preview, el modelo más optimizado para alineación de Anthropic. La evaluación completa está en la Claude Opus 4.8 System Card.

Nuevas funciones que se lanzan hoy

Flujos de trabajo dinámicos (Claude Code, vista previa de investigación): Claude Code ahora puede planificar el trabajo y generar cientos de subagentes paralelos dentro de una sola sesión, verificar sus salidas e informar. Anthropic describe la capacidad como que permite "migraciones a escala de código base a través de cientos de miles de líneas de código desde el inicio hasta la fusión." Disponible en los planes Enterprise, Team y Max.

Control de esfuerzo (claude.ai y Cowork): Un nuevo control junto al selector de modelo permite a los usuarios especificar cuánto esfuerzo pone Claude en una respuesta. En ajustes más altos, Claude piensa con más frecuencia y más profundamente. En ajustes más bajos, responde más rápido para tareas que no requieren razonamiento profundo. Esto es distinto del interruptor de pensamiento extendido existente: es un control deslizante continuo en lugar de un interruptor binario.

Reducción de precio del modo rápido: El modo rápido para Opus 4.8 — que ejecuta el modelo a 2.5× la velocidad normal — ahora es tres veces más barato que el modo rápido para modelos Opus anteriores. Para casos de uso de alto rendimiento donde el modo rápido antes era prohibitivo en coste, esto lo hace viable.

Precios y disponibilidad

Opus 4.8 está disponible hoy a través de la API de Anthropic y en claude.ai al mismo precio que Opus 4.7. El ID del modelo es claude-opus-4-8 (con un sufijo de fecha -20260528 para el alias versionado). Las integraciones existentes que apuntan a claude-opus-4-7 necesitarán actualizar su ID de modelo para acceder a la nueva versión.

Este lanzamiento continúa el patrón de Anthropic de lanzar mejoras incrementales de Opus que mejoran significativamente la fiabilidad agentiva sin cambiar el nivel de precios. Opus 4.7 era el anterior insignia; 4.8 lo reemplaza como el modelo recomendado para los despliegues más exigentes.