Anthropic lance Claude Opus 4.8 avec un meilleur jugement agentique, des workflows dynamiques et un mode rapide trois fois moins cher

Anthropic a lancé Claude Opus 4.8 aujourd'hui, améliorant son modèle phare sur les plans de la fiabilité agentique, du codage, de l'utilisation de l'ordinateur et de l'honnêteté — le tout au même prix que l'Opus 4.7. Cette version s'accompagne de trois nouvelles fonctionnalités qui débarquent dès aujourd'hui : workflows dynamiques dans Claude Code, contrôle de l'effort sur claude.ai, et un mode rapide nettement moins cher.

Ce qui change dans Opus 4.8

L'amélioration phare est le jugement agentique. Les premiers testeurs chez Cursor, Devin, Databricks et plusieurs plateformes d'IA juridique décrivent Opus 4.8 comme plus fiable dans les tâches autonomes de longue durée : il pose des questions de clarification avant d'apporter des modifications importantes, repère ses propres erreurs et est plus enclin à signaler l'incertitude plutôt qu'à produire avec assurance des résultats incorrects.

Anthropic quantifie un aspect de cela : Opus 4.8 est environ quatre fois moins susceptible que Opus 4.7 de laisser passer des défauts dans le code qu'il a écrit sans les remarquer. C'est une amélioration significative de fiabilité pour tout déploiement où la revue de code intervient en aval.

Le modèle corrige également deux problèmes spécifiques d'Opus 4.7 signalés par les ingénieurs : une verbosité excessive des commentaires dans le code généré et un comportement d'appel d'outils (tool-calling) incohérent. Les deux sont confirmés résolus par Cognition (créateurs de Devin), qui note qu'Opus 4.8 « utilise les outils proprement et suit les instructions avec la constance dont nos charges de travail d'ingénierie autonome ont besoin ».

Résultats des Benchmark

Sur Online-Mind2Web — le benchmark standard pour les tâches d'utilisation d'ordinateur et d'agent de navigation — Opus 4.8 obtient 84%, décrit par Anthropic comme un « bond significatif » par rapport à Opus 4.7 et GPT-5.5. Pour les produits qui s'appuient sur l'API computer-use d'Anthropic, c'est le chiffre le plus pertinent.

Sur le Super-Agent benchmark, Opus 4.8 est le seul modèle testé à compléter tous les cas de bout en bout. Il bat les précédents modèles Opus et égale GPT-5.5 à parité de coût — soit des performances agent équivalentes pour la même dépense de tokens.

Sur CursorBench, Opus 4.8 dépasse les versions Opus précédentes à chaque niveau d'effort, avec un appel d'outils plus efficace : moins d'étapes pour une intelligence équivalente sur les tâches de codage.

Sur le Legal Agent Benchmark, Opus 4.8 établit le score le plus élevé enregistré et devient le premier modèle à franchir la barre des 10% sur le standard all-pass. CoCounsel (IA juridique) et Harvey font état d'une meilleure cohérence et d'une meilleure qualité de raisonnement sur les workflows denses de documents financiers et juridiques.

Databricks indique qu'Opus 4.8 fonctionne avec un coût en tokens 61% moins cher qu'Opus 4.7 dans leur produit Genie, qui gère le raisonnement multimodal sur des PDFs, diagrammes et contenus non structurés.

Alignment et honnêteté

L'équipe d'Alignment d'Anthropic a évalué Opus 4.8 avant sa sortie et a constaté qu'il atteint « de nouveaux sommets sur les mesures de traits prosociaux comme le soutien à l'autonomie de l'utilisateur et l'action dans l'intérêt de l'utilisateur ». Les taux de comportement désaligné — défini comme la tromperie ou la coopération avec un usage abusif — sont sensiblement inférieurs à ceux d'Opus 4.7, et comparables à Claude Mythos Preview, le modèle le plus optimisé pour l'Alignment d'Anthropic. L'évaluation complète se trouve dans le System Card de Claude Opus 4.8.

Nouvelles fonctionnalités disponibles dès aujourd'hui

Workflows dynamiques (Claude Code, research preview) : Claude Code peut désormais planifier le travail et lancer des centaines de sous-agents parallèles au sein d'une même session, vérifier leurs sorties et faire un rapport. Anthropic décrit cette capacité comme permettant des « migrations à l'échelle de la base de code sur des centaines de milliers de lignes de code, du lancement à la fusion ». Disponible sur les offres Enterprise, Team et Max.

Contrôle de l'effort (sur claude.ai et Cowork) : Un nouveau contrôle à côté du sélecteur de modèle permet aux utilisateurs de spécifier l'effort que Claude doit mettre dans une réponse. Avec des réglages plus élevés, Claude réfléchit plus fréquemment et plus en profondeur. Avec des réglages plus bas, il répond plus rapidement pour les tâches qui ne nécessitent pas de raisonnement profond. Cela se distingue du toggle actuel d'extended thinking — il s'agit d'un curseur continu plutôt que d'un interrupteur binaire.

Baisse de prix du mode rapide : Le mode rapide pour Opus 4.8 — qui fait fonctionner le modèle à 2,5× la vitesse normale — est désormais trois fois moins cher que le mode rapide des modèles Opus précédents. Pour les cas d'usage à haut débit où le mode rapide était auparavant prohibitif, cela le rend viable.

Tarifs et disponibilité

Opus 4.8 est disponible dès aujourd'hui via l'API Anthropic et sur claude.ai au même prix que l'Opus 4.7. L'ID du modèle est claude-opus-4-8 (avec le suffixe de date -20260528 pour l'alias versionné). Les intégrations existantes ciblant claude-opus-4-7 devront mettre à jour leur ID de modèle pour accéder à la nouvelle version.

Cette sortie poursuit la stratégie d'Anthropic consistant à livrer des mises à jour incrémentales d'Opus qui améliorent significativement la fiabilité agentique sans modifier le niveau de prix. Opus 4.7 était le précédent modèle phare ; Opus 4.8 le remplace comme modèle recommandé pour les déploiements les plus exigeants.