Anthropic bringt Claude Opus 4.8 mit besserem agentischen Urteilsvermögen, dynamischen Workflows und einem dreimal günstigeren Fast Mode

Anthropic hat heute Claude Opus 4.8 veröffentlicht und damit sein Flaggschiff-Modell in puncto agentische Zuverlässigkeit, Code-Erstellung, Computer Use und Ehrlichkeit verbessert – und das zum gleichen Preis wie Opus 4.7. Zusammen mit dem Release kommen drei neue Produktfunktionen: dynamische Workflows in Claude Code, Effort Control auf claude.ai und ein deutlich günstigerer Fast Mode.
Was sich bei Opus 4.8 geändert hat
Die wichtigste Neuerung ist das agentische Urteilsvermögen. Erste Tester von Cursor, Devin, Databricks und mehreren Legal-AI-Plattformen beschreiben Opus 4.8 als zuverlässiger bei länger laufenden autonomen Aufgaben: Das Modell stellt klärende Fragen, bevor es größere Änderungen vornimmt, erkennt eigene Fehler und zeigt eher Unsicherheit an, anstatt selbstbewusst falsche Ergebnisse zu liefern.
Anthropic beziffert einen Aspekt davon: Opus 4.8 ist etwa viermal seltener als Opus 4.7 geneigt, Fehler im eigenen Code unkommentiert zu lassen. Das ist eine deutliche Verbesserung der Zuverlässigkeit für jeden Einsatz, bei dem später eine Code-Review stattfindet.
Das Modell behebt außerdem zwei spezifische Probleme von Opus 4.7, die Ingenieure gemeldet hatten: übermäßige Kommentierung im generierten Code und inkonsistentes Tool-Calling. Beides wurde von Cognition (den Machern von Devin) als behoben bestätigt. Devin stellte fest, dass Opus 4.8 „Tools sauber einsetzt und Anweisungen mit der Konsistenz befolgt, die unsere autonomen Engineering-Workloads brauchen.“
Benchmark-Ergebnisse
Im Online-Mind2Web – dem Standard-Benchmark für Computer-Use und Browser-Agent-Aufgaben – erzielt Opus 4.8 84 %. Anthropic spricht von einem „deutlichen Sprung“ gegenüber Opus 4.7 und GPT-5.5. Für Produkte, die auf Anthropics Computer-Use-API setzen, ist das die relevanteste Kennzahl.
Im Super-Agent Benchmark ist Opus 4.8 das einzige getestete Modell, das jeden Fall durchgängig abschließt. Es übertrifft frühere Opus-Modelle und erreicht bei Kostengleichheit das Niveau von GPT-5.5 – also vergleichbare Agentenleistung bei gleichem Token-Verbrauch.
Im CursorBench übertrifft Opus 4.8 alle früheren Opus-Versionen auf jeder Aufwandsstufe, mit effizienterem Tool-Calling: weniger Schritte bei gleichwertiger Intelligenz bei Programmieraufgaben.
Im Legal Agent Benchmark erzielt Opus 4.8 die höchste jemals gemessene Punktzahl und ist das erste Modell, das im All-Pass-Standard die 10-%-Marke knackt. CoCounsel (Legal AI) und Harvey berichten von verbesserter Konsistenz und Reasoning-Qualität bei dichten Finanz- und Rechtsdokument-Workflows.
Databricks meldet, dass Opus 4.8 in ihrem Genie-Produkt – das multimodales Reasoning über PDFs, Diagramme und unstrukturierte Inhalte ermöglicht – 61 % günstigere Token-Kosten verursacht als Opus 4.7.
Alignment und Ehrlichkeit
Anthropics Alignment-Team hat Opus 4.8 vor der Veröffentlichung bewertet und stellt fest, dass das Modell „neue Höchstwerte bei prosozialen Merkmalen wie der Unterstützung der Nutzerautonomie und dem Handeln im besten Interesse des Nutzers erreicht.“ Die Häufigkeit von Fehlverhalten – definiert als Täuschung oder Kooperation mit Missbrauch – ist deutlich niedriger als bei Opus 4.7 und vergleichbar mit Claude Mythos Preview, Anthropics alignment-optimiertestem Modell. Die vollständige Bewertung findet sich im Claude Opus 4.8 System Card.
Neue Funktionen ab heute
Dynamische Workflows (Claude Code, Research Preview): Claude Code kann nun Arbeit planen und hunderte parallele Subagenten in einer einzigen Sitzung starten, ihre Ergebnisse verifizieren und Bericht erstatten. Anthropic beschreibt die Fähigkeit als „Codebase-weite Migrationen über Hunderttausende von Codezeilen vom Start bis zum Merge.“ Verfügbar in den Tarifen Enterprise, Team und Max.
Effort Control (claude.ai und Cowork): Ein neues Bedienelement neben der Modellauswahl erlaubt es Nutzern, den Aufwand zu steuern, den Claude in eine Antwort steckt. Bei höheren Einstellungen denkt Claude häufiger und tiefer nach. Bei niedrigeren Einstellungen antwortet er schneller für Aufgaben, die kein tiefes Reasoning erfordern. Dies unterscheidet sich vom bestehenden Extended-Thinking-Toggle – es ist ein kontinuierlicher Schieberegler statt eines binären Schalters.
Fast Mode zum reduzierten Preis: Der Fast Mode für Opus 4.8 – der das Modell mit 2,5-facher Normalgeschwindigkeit ausführt – ist jetzt dreimal günstiger als der Fast Mode bei früheren Opus-Modellen. Für Anwendungen mit hohem Durchsatz, bei denen der Fast Mode bisher zu teuer war, wird er nun nutzbar.
Preise und Verfügbarkeit
Opus 4.8 ist ab heute über die Anthropic API und auf claude.ai zum gleichen Preis wie Opus 4.7 verfügbar. Die Modell-ID lautet claude-opus-4-8 (mit dem Datumssuffix -20260528 für den versionierten Alias). Bestehende Integrationen, die auf claude-opus-4-7 abzielen, müssen ihre Modell-ID aktualisieren, um auf die neue Version zuzugreifen.
Mit diesem Release setzt Anthropic sein Muster fort, inkrementelle Opus-Upgrades zu liefern, die die agentische Zuverlässigkeit spürbar verbessern, ohne die Preisklasse zu ändern. Opus 4.7 war das bisherige Flaggschiff; 4.8 ersetzt es als empfohlenes Modell für die anspruchsvollsten Einsätze.
Originally reported by Anthropic. Read the original article for additional details.
View original source