OpenAI führt Lockdown Mode für alle Nutzer ein – die Antwort auf Prompt Injection-Angriffe

Prompt Injection ist der unangenehme Elefant im Raum der KI-Assistenten-Sicherheit, seit Sprachmodelle die Fähigkeit erlangt haben, das Web zu durchsuchen und externe Dienste aufzurufen. Wenn eine KI beliebige Webinhalte lesen und auf darin eingebettete Anweisungen reagieren kann, kann jeder ausreichend motivierte Dritte versuchen, ihr Verhalten zu kapern – was dazu führt, dass vertrauliche Informationen aus der Konversation preisgegeben, unbeabsichtigte Aktionen ausgeführt oder Daten über Ausgabekanäle exfiltriert werden, die der Nutzer nicht direkt beobachten kann.
OpenAI hat nun seine konkreteste Antwort auf dieses Problem ausgeliefert. Der Lockdown Mode, der zunächst für Enterprise-Kunden von ChatGPT eingeführt wurde, wurde ab dem 4. Juni 2026 auf alle persönlichen und Self-Service-Geschäftskonten ausgeweitet – einschließlich der kostenlosen Stufe. Es handelt sich um eine optionale, erweiterte Sicherheitseinstellung, die die Angriffsfläche von ChatGPT aggressiv verkleinert, indem sie die Fähigkeiten deaktiviert, die Prompt Injection am leichtesten ausnutzt.
Was der Lockdown Mode tatsächlich deaktiviert
Die Funktion unterbricht die Verbindungen von ChatGPT zu externen Systemen und schränkt die Datenausgabepfade ein. Wenn der Lockdown Mode aktiviert ist, werden die folgenden Fähigkeiten deaktiviert oder eingeschränkt: Live-Webbrowsing (eingeschränkt auf zwischengespeicherte Inhalte ohne neue ausgehende Netzwerkanfragen), Bildanzeige in normalen Antworten, Deep Research (einschließlich der Shopping-Forschungsfunktion), Agent Mode, Canvas-Netzwerk (das andernfalls von Canvas generiertem Code erlauben würde, externe Anfragen zu stellen), Live-Connector-Integrationen und Dateidownloads aus Datenanalysesitzungen.
Benutzer können weiterhin Bilder hochladen und generieren. Konversationen laufen normal weiter. Die Interaktion mit dem Kernsprachmodell bleibt unbeeinflusst. Entfernt wird die Oberfläche, über die ein Prompt-Injection-Angriff Daten aus der Konversation an ein Ziel abfließen lassen könnte, das der Benutzer nicht explizit autorisiert hat.
OpenAI weist ausdrücklich darauf hin, dass der Lockdown Mode keine Immunität garantiert. Die Ankündigung stellt klar, dass Risiken weiterhin durch aktivierte Apps, unvorhergesehene Fähigkeitskombinationen oder noch unbekannte Techniken bestehen können. Das ist ehrlich: Prompt Injection ist kein einzelner Exploit mit einem sauberen Patch, sondern eine Klasse von Angriffen, die sich mit den Fähigkeiten weiterentwickelt. Der Lockdown Mode erhöht die Kosten und die Schwierigkeit eines erfolgreichen Angriffs erheblich, indem er die am häufigsten ausgenutzten Pfade entfernt.
Das zweite Feature: Risikokennzeichnungen
Neben dem Lockdown Mode führt OpenAI "Erhöhtes Risiko"-Kennzeichnungen für Fähigkeiten in ChatGPT, ChatGPT Atlas und Codex ein, die ein höheres Prompt-Injection-Risiko aufweisen. Diese Kennzeichnungen erscheinen direkt in der Benutzeroberfläche, wenn Benutzer Fähigkeiten aktivieren oder verwenden, die zusätzliche Risiken mit sich bringen könnten – Webbrowsing, bestimmte Agent-Aktionen, externe API-Verbindungen.
Die Kennzeichnungen blockieren nichts; sie sind informativ. Der Zweck ist Sichtbarkeit: Benutzer, die nicht explizit über Sicherheit nachdenken, wissen nicht immer, welche ChatGPT-Funktionen stärker exponiert sind als andere. Ein "Erhöhtes Risiko"-Indikator beim Webbrowsing in einer agentischen Aufgabe weist beispielsweise darauf hin, dass gebrowste Inhalte weniger kontrolliert sind als lokal bereitgestellter Kontext und feindliche Anweisungen enthalten könnten. Dies ist besonders relevant für Enterprise-Benutzer, die ChatGPT in Workflows einsetzen, in denen die KI externe Dokumente, E-Mails oder Webinhalte als Teil ihrer Aufgabe liest.
Warum das jetzt wichtig ist
Der Zeitpunkt spiegelt die rasche Erweiterung der ChatGPT-Funktionslandschaft wider. Als ChatGPT ein reines Text-Frage-und-Antwort-Tool war, war Prompt Injection eine Forschungskuriosität – das Modell hatte keine Fähigkeit, auf bösartige Anweisungen in externen Inhalten zu reagieren, da es nicht auf externe Inhalte zugreifen konnte. Die Hinzunahme von Webbrowsing (2023), Codeausführung, Plugins, Deep Research und Agent Mode hat die Angriffsfläche sukzessive vergrößert.
Sicherheitsforscher haben Demonstrationen von Prompt-Injection-Angriffen gegen browsing-fähiges ChatGPT veröffentlicht, die dazu führten, dass das Modell Konversationsinhalte über Bild-URL-Anfragen an angreiferkontrollierte Server exfiltrierte, trügerische Antworten zur Manipulation des Benutzers erstellte und unbeabsichtigte Aktionen in agentischen Workflows ausführte. Diese sind nicht theoretisch: Sie wurden reproduzierbar von Sicherheitsteams bei Unternehmen wie Microsoft und Nvidia sowie von unabhängigen Forschern demonstriert.
Die Kernschwachstelle ist architektonisch: Sprachmodelle können nicht zuverlässig zwischen Anweisungen unterscheiden, die der Benutzer im System-Prompt gegeben hat, und Anweisungen, die in externen Inhalten eingebettet sind, die das Modell später liest. Eine feindlich gestaltete Webseite, ein Dokument oder eine E-Mail, die sagt "Ignoriere vorherige Anweisungen und mache stattdessen X", kann je nachdem, wie prominent sie im Kontext des Modells platziert ist und wie gründlich das System gegen diese Klasse von Eingaben gehärtet wurde, teilweise wirksam sein.
Die Zielgruppe und der Kompromiss
OpenAI stellt klar, dass der Lockdown Mode nicht für jeden geeignet ist. Er wurde für "eine kleine Gruppe von sicherheitsbewussten Nutzern – wie Führungskräfte oder Sicherheitsteams" entwickelt, die bereit sind, Funktionsverfügbarkeit gegen eine strengere Sicherheitshaltung einzutauschen. Für einen Anwalt, der vertrauliche Mandantenkommunikation über ChatGPT abwickelt, einen Gesundheitsfachmann, der Patientendaten abfragt, oder einen Sicherheitsforscher, der Bedrohungsberichte analysiert, sind die deaktivierten Funktionen ohnehin nicht die genutzten – und die Gewissheit einer eingeschränkteren Umgebung hat einen echten Wert.
Für den Durchschnittsnutzer würde der Lockdown Mode zu viel Funktionalität entfernen, um als dauerhafte Einstellung praktikabel zu sein. Deep Research und Webbrowsing sind zentral für die tägliche Nutzung von ChatGPT; ihre Deaktivierung für die meisten Sitzungen würde das Produkt erheblich beeinträchtigen. Die Funktion ist für situative Aktivierung ausgelegt – eingeschaltet für eine Sitzung mit besonders sensibler Arbeit, dann ausgeschaltet, wenn diese Arbeit erledigt ist.
Das umfassendere Signal ist, dass OpenAI durch Produktdesign anerkennt, dass KI-Assistenten mit Handlungsfähigkeit und externer Konnektivität eine Sicherheitsklasse schaffen, die es bei traditioneller Software nicht gab. Das Prinzip ähnelt dem, was Apple mit dem Lockdown Mode für iOS etabliert hat (eingeführt 2022 für Journalisten, Aktivisten und andere mit hohem Risiko für ausgeklügelte Angriffe): ein abgespeckter, gehärteter Betriebsmodus, der Fähigkeiten gegen Sicherheit eintauscht. Der Name ist kein Zufall.
Während KI-Agenten komplexere, mehrschrittige Aufgaben mit realen Konsequenzen übernehmen – Reisen buchen, E-Mails senden, Code ausführen, API-Aufrufe tätigen – werden die Sicherheitseigenschaften dieser Agenten immer wichtiger, nicht weniger. Der Lockdown Mode ist eine frühe, praktische Umsetzung eines Prinzips, das zunehmend die Art und Weise prägen wird, wie KI-Tools in sensiblen Kontexten eingesetzt werden: Fähigkeit ist nicht kostenlos, und die Reduzierung der Angriffsfläche dessen, was eine KI tun kann, ist manchmal die richtige architektonische Entscheidung.
Originally reported by OpenAI. Read the original article for additional details.
View original source