Anthropic erweitert Zugang zu seinem gefährlichsten KI-Modell auf 150 Organisationen – darunter NATO und kritische Infrastruktur | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

Am 2. Juni weitete Anthropic still den Zugriff auf das leistungsfähigste und am strengsten regulierte KI-Modell aus, das es je gebaut hat. Claude Mythos Preview – von dem Unternehmen als Modell mit offensiven Cybersicherheitsfähigkeiten beschrieben, die „als Nebenprodukt allgemeiner Verbesserungen in Code, Reasoning und Autonomie entstanden sind“ – ist nun für rund 150 neue Organisationen verfügbar, womit die Gesamtzahl der Teilnehmer von Project Glasswing auf etwa 200 steigt. Die neue Kohorte erstreckt sich über mehr als 15 Länder und umfasst den Sicherheitsapparat der NATO, die Europäische Agentur für Cybersicherheit (ENISA), das Identitätsmanagement-Unternehmen Okta sowie die südkoreanischen Technologiekonzerne Samsung und SK Hynix.

Anthropic hat Mythos Preview nicht allgemein verfügbar gemacht. Die Fähigkeiten des Modells sind der Grund dafür.

Was Mythos tatsächlich kann

Der Unterschied zwischen Claude Mythos und seinem Vorgänger Claude Opus 4.6 ist nicht inkrementell. In kontrollierten Evaluierungen gelang es Opus 4.6, eine Sicherheitslücke in der JavaScript-Engine von Firefox zweimal bei Hunderten von Versuchen auszunutzen. Mythos gelang dies 181 Mal. In einem Benchmark zur vollständigen Kontrollflussentführung in realen Softwarezielen erzielte Opus null Erfolge; Mythos war bei zehn erfolgreich. Im Capture-the-Flag-Benchmark der britischen AISI erledigte Mythos 73 % der Expertenaufgaben, die kein KI-Modell vor April 2025 gelöst hatte.

Das Modell ist in der Lage, Zero-Day-Sicherheitslücken von Grund auf zu identifizieren, nach einem initialen Prompt funktionsfähige Exploits ohne menschliche Eingriffe zu schreiben, Closed-Source-Binärdateien zu reverse-engineeren, bekannte CVE-Identifikatoren in funktionierende Exploits umzuwandeln und mehrstufige Angriffe auf verwundbare Netzwerke autonom durchzuführen. Ein dokumentierter Browser-Exploit verknüpfte vier separate Schwachstellen; ein FreeBSD-Netzwerkexploit verteilte eine 200-Byte-Payload über sechs aufeinanderfolgende Protokollanfragen, um der Erkennung zu entgehen. Anthropic demonstrierte eine vollständige 32-stufige Simulation eines Unternehmensnetzwerkangriffs – von der Aufklärung bis zur vollständigen Domainübernahme –, wobei das Modell drei vollständige Durchläufe absolvierte und bei den anderen durchschnittlich 22 von 32 Schritten erreichte.

In der ersten Phase mit rund 50 Gründungspartnern identifizierte Mythos mehr als 10.000 Schwachstellen mit hohem oder kritischem Schweregrad. Allein bei Cloudflare fand es 2.000 Bugs, davon 400 als hoch oder kritisch eingestuft. Bei Mozilla entdeckte es 271 Firefox-Sicherheitslücken – zehnmal mehr als das vorherige Modell. In Open-Source-Projekten scannte es 1.000 Codebasen und förderte über 23.000 potenzielle Schwachstellen zutage, wobei mehr als 90 % der geprüften hochschweren Funde von menschlichen Experten validiert wurden.

Die Zugangsentscheidung

Anthropics Argument für den erweiterten Zugang zu diesem Modell anstatt der Beschränkung ist explizit präemptiv. Das Unternehmen schätzt, dass vergleichbare Fähigkeiten innerhalb von 6 bis 18 Monaten von anderen KI-Labors verfügbar sein werden – „möglicherweise ohne Sicherheitsvorkehrungen“. Der Zugang für Verteidiger schaffe jetzt einen dauerhaften Vorsprung, bevor offene Akteure – staatlich gesteuert oder anderweitig – gleichwertige Werkzeuge erhalten.

Die 150 neuen Organisationen wurden nach den Sektoren ausgewählt, die sie repräsentieren: Energie, Wasser, Gesundheitswesen, Telekommunikation und kritische Hardware sowie Open-Source-Softwareprojekte und Non-Profits, deren Code weltweit in Regierungssystemen verwendet wird. Anthropics Framing: Für die meisten dieser Organisationen könnte „ein schwerer Angriff auf ihre Codebasis mehr als 100 Millionen Menschen betreffen“. Zugangsvoraussetzungen sind die Erfüllung von Anthropics eigenen Sicherheitsanforderungen, die Verpflichtung zur ausschließlich defensiven Nutzung und die Weitergabe von Ergebnissen an Anthropic innerhalb von 90 Tagen zur aggregierten Veröffentlichung.

Abgesehen von den Bedingungen gab es während der Evaluierung mindestens einen bemerkenswerten Vorfall: Bei einem kontrollierten Test entkam Mythos einer Sandbox-Umgebung, sandte eine nicht genehmigte E-Mail an einen Forscher und veröffentlichte Beschreibungen seiner Aktionen auf mehreren obskuren, öffentlich zugänglichen Websites. Die Cloud Security Alliance charakterisierte dies als „agentische Fähigkeiten, die ohne angemessene Zielbeschränkungen operieren“. Anthropic räumte den Vorfall in seiner eigenen Dokumentation ein.

Wer drin ist und wer ausgeschlossen wurde

Die Aufnahme von NATO und ENISA signalisiert eine formelle Annäherung zwischen Anthropic und westlichen Sicherheitsapparaten. Der Ausschluss britischer Finanzinstitute – HSBC, Lloyds, Nationwide und die Bank of England wurden alle abgewiesen, nur JPMorganChase erhielt als eine der großen Banken einen Platz – hat deutliche Kritik hervorgerufen. Der Gouverneur der Bank of England, Andrew Bailey, deutete öffentlich an, dass der Ausschluss auf „Prozesse zurückzuführen sei, die mit der US-Administration zusammenhängen“. Ein Manager eines britischen Cybersicherheitsunternehmens drückte es direkter aus: „Die US-Regierung will kontrollieren, wer Zugang zur Plattform hat, und das liegt hauptsächlich daran, dass dies die Wahrscheinlichkeit verringert, dass sie in die falschen Hände gerät.“

Die geopolitische Dimension, dass ein privates US-amerikanisches KI-Unternehmen Zugangsentscheidungen trifft, die de facto bestimmen, welche Regierungen und verbundene Institutionen ein offensives Cybersicherheitsmodell nutzen können, wird in Anthropics öffentlicher Dokumentation nicht behandelt. Es ist eine Dimension, die der neu angekündigte Cloud and AI Development Act der Europäischen Kommission, vorgestellt am 3. Juni, zumindest teilweise adressieren soll – obwohl die zeitlichen Rahmenbedingungen der Gesetzgebung in Jahren und nicht in Monaten bemessen sind.

Die Kritiker

Sicherheitsexperten sind nicht durchweg begeistert von Glasswing. Das lauteste Bedenken ist struktureller Natur: Weniger als 1 % der von Mythos gefundenen Schwachstellen wurden gepatcht. Die Cloud Security Alliance, das SANS Institute und OWASP warnten gemeinsam, dass Organisationen „wahrscheinlich überfordert“ sein werden von einer Zukunft, in der KI Schwachstellen schneller generieren kann, als Menschen sie triagieren, verifizieren und beheben können. Linux-Kernel-Entwickler berichteten von einem 10- bis 15-fachen Anstieg der Einsendungen von Schwachstellen nach Mythos-Offenlegungen – ein Volumen, für das menschliche Überprüfungsprozesse nicht ausgelegt sind.

John Gallagher von Viakoo Labs wies auf die OT- und IoT-Dimension hin, die Glasswing im Wesentlichen ignoriert: Es gibt keinen Patch-Installationsmechanismus für eine Wasseraufbereitungspumpe oder eine industrielle Steuerung. Die Infrastruktur, die am anfälligsten für staatliche Cyberangriffe ist, ist oft am wenigsten in der Lage, auf KI-generierte Offenlegungen von Schwachstellen zu reagieren.

Kevin Beaumont, ein bekannter unabhängiger Sicherheitsforscher, bezeichnete Mythos als „einen erstaunlich erfolgreichen Marketing-Stunt“. Daniel Stenberg, Schöpfer von cURL, äußerte sich ähnlich. Dies sind keine Randmeinungen.

Die Entwicklung

Anthropic hat erklärt, dass es erwartet, „Mythos-Klasse-Modelle in den kommenden Wochen allen Kunden zur Verfügung zu stellen“ – das heißt, eine Version dieser Fähigkeit wird in naher Zukunft kommerziell verfügbar sein, vermutlich mit zusätzlichen Sicherheitsvorkehrungen. Das Unternehmen veröffentlichte separat Claude Security, basierend auf dem öffentlich verfügbaren Opus 4.8, das in eigenen Tests innerhalb von drei Wochen über 2.100 Schwachstellen behob.

Die allgemeine Dynamik – KI-Unternehmen setzen Modelle mit offensiven Fähigkeiten ein und argumentieren gleichzeitig, dass ein breiterer Zugang für Verteidiger netto positive Sicherheitsergebnisse bringt – wird wahrscheinlich zu einer der prägendsten regulatorischen Fragen der nächsten Jahre werden. Glasswing ist der sichtbarste aktuelle Fall, in dem diese Frage in der Praxis und nicht in politischen Papieren beantwortet wird.