IRCNF

OpenAI Lança Modo de Bloqueio (Lockdown Mode) para Todos os Usuários – Sua Resposta a Ataques de Injeção de Prompt (Prompt Injection)

OpenAI
Compartilhar:
OpenAI Lança Modo de Bloqueio (Lockdown Mode) para Todos os Usuários – Sua Resposta a Ataques de Injeção de Prompt (Prompt Injection)

A injeção de prompt (Prompt Injection) tem sido o elefante incômodo na sala da segurança dos assistentes de IA desde que os modelos de linguagem ganharam a capacidade de navegar na web e chamar serviços externos. Quando uma IA pode ler conteúdo web arbitrário e agir com base em instruções incorporadas nele, qualquer terceiro suficientemente motivado pode tentar sequestrar seu comportamento – causando vazamento de informações sensíveis da conversa, executando ações não intencionadas ou exfiltrando dados através de canais de saída que o usuário não pode observar diretamente.

A OpenAI agora lançou sua resposta mais concreta a esse problema. O Modo de Bloqueio, introduzido inicialmente para clientes empresariais do ChatGPT, foi expandido a partir de 4 de junho de 2026 para todas as contas pessoais e comerciais de autoatendimento – incluindo o nível gratuito. É uma configuração de segurança avançada opcional que reduz agressivamente a superfície de ataque do ChatGPT ao desativar as capacidades que a injeção de prompt explora com mais facilidade.

O que o Modo de Bloqueio realmente desativa

O recurso funciona cortando as conexões do ChatGPT com sistemas externos e limitando os caminhos de saída de dados. Quando o Modo de Bloqueio está ativado, as seguintes capacidades são desativadas ou restritas: navegação web ao vivo (limitada a conteúdo em cache sem novas requisições de rede de saída), exibição de imagens em respostas regulares, Deep Research (incluindo o recurso de pesquisa de compras), Agent Mode, rede do Canvas (que de outra forma permitiria que o código gerado pelo Canvas fizesse requisições externas), integrações de conectores ao vivo e downloads de arquivos de sessões de análise de dados.

Os usuários ainda podem enviar e gerar imagens. As conversas continuam normalmente. A interação com o modelo de linguagem principal não é afetada. O que é removido é a superfície através da qual um ataque de injeção de prompt poderia fazer com que os dados saíssem da conversa para um destino que o usuário não autorizou explicitamente.

A OpenAI observa cuidadosamente que o Modo de Bloqueio não garante imunidade. O anúncio afirma explicitamente que os riscos ainda podem existir através de aplicativos habilitados, combinações imprevistas de capacidades ou técnicas ainda desconhecidas. Isso é honesto: a injeção de prompt não é um exploit único com um patch limpo, é uma classe de ataques que evolui à medida que as capacidades evoluem. O que o Modo de Bloqueio faz é aumentar substancialmente o custo e a dificuldade de um ataque bem-sucedido ao remover os caminhos mais comumente explorados.

O segundo recurso: Etiquetas de Risco Elevado

Junto com o Modo de Bloqueio, a OpenAI está lançando etiquetas de "Risco Elevado" para capacidades no ChatGPT, ChatGPT Atlas e Codex que apresentam maior exposição à injeção de prompt. Essas etiquetas aparecem diretamente na interface quando os usuários ativam ou usam capacidades que podem introduzir risco adicional – navegação web, certas ações de agente, conexões de API externas.

As etiquetas não bloqueiam nada; são informativas. O objetivo é a visibilidade: usuários que não pensam explicitamente sobre segurança nem sempre sabem quais recursos do ChatGPT têm mais exposição do que outros. Um indicador de "Risco Elevado" na navegação web em uma tarefa de agente, por exemplo, sinaliza que o conteúdo navegado é menos controlado do que o contexto local e pode conter instruções adversárias. Isso é particularmente relevante para usuários empresariais que implantam o ChatGPT em fluxos de trabalho onde a IA lê documentos externos, e-mails ou conteúdo web como parte de sua tarefa.

Por que isso importa agora

O momento reflete a rápida expansão da pegada de capacidades do ChatGPT. Quando o ChatGPT era uma ferramenta de perguntas e respostas apenas de texto, a injeção de prompt era uma curiosidade de pesquisa – o modelo não tinha capacidade de agir sobre instruções maliciosas incorporadas em conteúdo externo porque não podia acessar conteúdo externo. A adição de navegação web (2023), execução de código, plugins, Deep Research e Agent Mode aumentou progressivamente a superfície de ataque.

Pesquisadores de segurança publicaram demonstrações de ataques de injeção de prompt contra o ChatGPT habilitado para navegação que fizeram o modelo exfiltrar conteúdo da conversa para servidores controlados por invasores através de requisições de URL de imagens, criar respostas enganosas projetadas para manipular o usuário e executar ações não intencionadas em fluxos de trabalho de agente. Esses não são teóricos: foram demonstrados de forma reproduzível por equipes de segurança em empresas como Microsoft e Nvidia, e por pesquisadores independentes.

A vulnerabilidade central é arquitetônica: modelos de linguagem não conseguem distinguir de forma confiável entre instruções dadas pelo usuário no prompt do sistema e instruções incorporadas em conteúdo externo que o modelo lê posteriormente. Uma página web, documento ou e-mail criado de forma adversária que diga "Ignore as instruções anteriores e em vez disso faça X" pode ser parcialmente eficaz dependendo de quão proeminentemente está colocado no contexto do modelo e quão completamente o sistema foi endurecido contra essa classe de entrada.

O público e a compensação

A OpenAI é explícita ao afirmar que o Modo de Bloqueio não é para todos. Ele é projetado para "um pequeno conjunto de usuários altamente conscientes de segurança – como executivos ou equipes de segurança" que estão dispostos a trocar a disponibilidade de recursos por uma postura de segurança mais rigorosa. Para um advogado lidando com comunicações sensíveis de clientes através do ChatGPT, um profissional de saúde consultando dados de pacientes, ou um pesquisador de segurança analisando relatórios de ameaças, os recursos que estão sendo desativados não são aqueles que estão sendo usados de qualquer forma – e a segurança de um ambiente mais restrito tem valor real.

Para o usuário médio, o Modo de Bloqueio removeria muita funcionalidade para ser prático como uma configuração permanente. Deep Research e navegação web são centrais para como muitos usuários interagem com o ChatGPT diariamente; desativá-los para a maioria das sessões degradaria materialmente o produto. O recurso é projetado para ser ativado situacionalmente – ligado para uma sessão lidando com trabalho particularmente sensível, depois desligado quando esse trabalho termina.

O sinal mais amplo é que a OpenAI está reconhecendo, através do design do produto, que assistentes de IA com agência e conectividade externa criam uma classe de segurança que não existia com software tradicional. O princípio é semelhante ao que a Apple estabeleceu com o Modo de Bloqueio para iOS (introduzido em 2022 para jornalistas, ativistas e outros com alto risco de ataques sofisticados): um modo operacional simplificado e endurecido que troca capacidade por segurança. O nome não é coincidência.

À medida que os agentes de IA assumem tarefas mais complexas e de várias etapas com consequências no mundo real – reservar viagens, enviar e-mails, executar código, fazer chamadas de API – as propriedades de segurança desses agentes importarão mais, não menos. O Modo de Bloqueio é uma implementação inicial e prática de um princípio que moldará cada vez mais como as ferramentas de IA são implantadas em contextos sensíveis: a capacidade não é gratuita, e reduzir a superfície do que uma IA pode fazer é às vezes a escolha arquitetônica correta.

Originally reported by OpenAI. Read the original article for additional details.

View original source
Compartilhar:
OpenAI Lança Modo de Bloqueio (Lockdown Mode) para Todos os Usuários – Sua Resposta a Ataques de Injeção de Prompt (Prompt Injection) | IRCNF - Intelligent Reliable Custom Next-gen Frameworks