OpenAI déploie le mode verrouillage (Lockdown Mode) à tous les utilisateurs – sa réponse aux attaques par injection rapide (Prompt Injection) | IRCNF - Intelligent Reliable Custom Next-gen Frameworks

L'injection rapide (Prompt Injection) est l'éléphant dans la pièce de la sécurité des assistants IA depuis que les modèles de langage ont obtenu la capacité de naviguer sur le Web et d'appeler des services externes. Lorsqu'une IA peut lire du contenu Web arbitraire et agir selon des instructions qui y sont intégrées, tout tiers suffisamment motivé peut tenter de détourner son comportement – la faisant fuiter des informations sensibles de la conversation, prendre des actions non intentionnées, ou exfiltrer des données via des canaux de sortie que l'utilisateur ne peut pas observer directement.

OpenAI a maintenant livré sa réponse la plus concrète à ce problème. Le mode verrouillage, d'abord introduit pour les clients entreprise de ChatGPT, a été étendu à partir du 4 juin 2026 à tous les comptes personnels et professionnels en libre-service – y compris le niveau gratuit. Il s'agit d'un paramètre de sécurité avancé optionnel qui réduit agressivement la surface d'attaque de ChatGPT en désactivant les capacités que l'injection rapide exploite le plus facilement.

Ce que le mode verrouillage désactive réellement

La fonction fonctionne en coupant les connexions de ChatGPT aux systèmes externes et en limitant les chemins de sortie des données. Lorsque le mode verrouillage est activé, les capacités suivantes sont désactivées ou restreintes : navigation Web en direct (limitée au contenu mis en cache sans nouvelles requêtes réseau sortantes), affichage d'images dans les réponses normales, Deep Research (y compris la fonction de recherche shopping), mode Agent, réseau Canvas (qui autrement permettrait au code généré par Canvas de faire des requêtes externes), intégrations de connecteurs en direct, et téléchargements de fichiers à partir de sessions d'analyse de données.

Les utilisateurs peuvent toujours télécharger et générer des images. Les conversations continuent normalement. L'interaction avec le modèle de langage principal n'est pas affectée. Ce qui est supprimé, c'est la surface par laquelle une attaque par injection rapide pourrait faire sortir des données de la conversation vers une destination que l'utilisateur n'a pas explicitement autorisée.

OpenAI précise que le mode verrouillage ne garantit pas l'immunité. L'annonce indique explicitement que des risques peuvent subsister via des applications activées, des combinaisons de capacités imprévues ou des techniques encore inconnues. C'est honnête : l'injection rapide n'est pas un exploit unique avec un correctif propre, c'est une classe d'attaques qui évolue avec les capacités. Ce que fait le mode verrouillage, c'est augmenter considérablement le coût et la difficulté d'une attaque réussie en supprimant les chemins les plus couramment exploités.

La deuxième fonctionnalité : les étiquettes de risque élevé

Parallèlement au mode verrouillage, OpenAI déploie des étiquettes "Risque Élevé" pour les capacités dans ChatGPT, ChatGPT Atlas et Codex qui présentent une exposition plus élevée à l'injection rapide. Ces étiquettes apparaissent directement dans l'interface lorsque les utilisateurs activent ou utilisent des capacités susceptibles d'introduire un risque supplémentaire – navigation Web, certaines actions d'agent, connexions API externes.

Les étiquettes ne bloquent rien ; elles sont informatives. Le but est la visibilité : les utilisateurs qui ne pensent pas explicitement à la sécurité ne savent pas toujours quelles fonctionnalités de ChatGPT ont plus d'exposition que d'autres. Un indicateur "Risque Élevé" sur la navigation Web dans une tâche agentique, par exemple, signale que le contenu navigué est moins contrôlé que le contexte local et pourrait contenir des instructions adverses. C'est particulièrement pertinent pour les utilisateurs entreprise déployant ChatGPT dans des flux de travail où l'IA lit des documents externes, des e-mails ou du contenu Web dans le cadre de sa tâche.

Pourquoi cela compte maintenant

Le timing reflète l'expansion rapide de l'empreinte des capacités de ChatGPT. Lorsque ChatGPT était un outil de questions-réponses uniquement textuel, l'injection rapide était une curiosité de recherche – le modèle n'avait aucune capacité à agir sur des instructions malveillantes intégrées dans du contenu externe car il ne pouvait pas accéder à du contenu externe. L'ajout de la navigation Web (2023), de l'exécution de code, des plugins, de Deep Research et du mode Agent a progressivement augmenté la surface d'attaque.

Des chercheurs en sécurité ont publié des démonstrations d'attaques par injection rapide contre ChatGPT activé pour la navigation qui ont amené le modèle à exfiltrer le contenu de la conversation vers des serveurs contrôlés par l'attaquant via des requêtes d'URL d'images, à élaborer des réponses trompeuses conçues pour manipuler l'utilisateur, et à exécuter des actions non intentionnées dans des flux de travail agentiques. Ce ne sont pas théoriques : ils ont été démontrés de manière reproductible par des équipes de sécurité chez des entreprises comme Microsoft et Nvidia, et par des chercheurs indépendants.

La vulnérabilité centrale est architecturale : les modèles de langage ne peuvent pas distinguer de manière fiable entre les instructions données par l'utilisateur dans le prompt système et les instructions intégrées dans le contenu externe que le modèle lit ensuite. Une page Web, un document ou un e-mail conçu de manière adverse disant "Ignorez les instructions précédentes et faites plutôt X" peut être partiellement efficace selon la proéminence de son placement dans le contexte du modèle et la rigueur avec laquelle le système a été durci contre cette classe d'entrée.

Le public et le compromis

OpenAI affirme explicitement que le mode verrouillage n'est pas pour tout le monde. Il est conçu pour "un petit nombre d'utilisateurs très soucieux de la sécurité – comme les dirigeants ou les équipes de sécurité" qui sont prêts à échanger la disponibilité des fonctionnalités contre une posture de sécurité plus stricte. Pour un avocat gérant des communications client sensibles via ChatGPT, un professionnel de santé consultant des données patients, ou un chercheur en sécurité analysant des rapports de menaces, les fonctionnalités désactivées ne sont pas celles utilisées de toute façon – et l'assurance d'un environnement plus contraint a une réelle valeur.

Pour l'utilisateur moyen, le mode verrouillage supprimerait trop de fonctionnalités pour être pratique en tant que paramètre permanent. Deep Research et la navigation Web sont centraux dans la manière dont de nombreux utilisateurs interagissent avec ChatGPT quotidiennement ; les désactiver pour la plupart des sessions dégraderait matériellement le produit. La fonctionnalité est conçue pour être activée situationnellement – activée pour une session traitant un travail particulièrement sensible, puis désactivée une fois ce travail terminé.

Le signal plus large est qu'OpenAI reconnaît, à travers la conception du produit, que les assistants IA avec agentivité et connectivité externe créent une classe de sécurité qui n'existait pas avec les logiciels traditionnels. Le principe est similaire à ce qu'Apple a établi avec le Lockdown Mode pour iOS (introduit en 2022 pour les journalistes, militants et autres à haut risque d'attaques sophistiquées) : un mode opératoire allégé et durci qui échange la capacité contre l'assurance. Le nom n'est pas une coïncidence.

Alors que les agents IA prennent en charge des tâches plus complexes, en plusieurs étapes avec des conséquences réelles – réservation de voyages, envoi d'e-mails, exécution de code, appels API – les propriétés de sécurité de ces agents importeront davantage, pas moins. Le mode verrouillage est une implémentation précoce et pratique d'un principe qui façonnera de plus en plus la façon dont les outils d'IA sont déployés dans des contextes sensibles : la capacité n'est pas gratuite, et réduire la surface de ce qu'une IA peut faire est parfois le bon choix architectural.