IRCNF

OpenAI implementa el Modo Bloqueo (Lockdown Mode) para todos los usuarios: su respuesta a los ataques de inyección rápida (Prompt Injection)

OpenAI
Compartir:
OpenAI implementa el Modo Bloqueo (Lockdown Mode) para todos los usuarios: su respuesta a los ataques de inyección rápida (Prompt Injection)

La inyección rápida (Prompt Injection) ha sido el incómodo elefante en la habitación de la seguridad de los asistentes de IA desde que los modelos de lenguaje obtuvieron la capacidad de navegar por la web y llamar a servicios externos. Cuando una IA puede leer contenido web arbitrario y actuar según las instrucciones incrustadas en él, cualquier tercero con suficiente motivación puede intentar secuestrar su comportamiento: filtrar información sensible de la conversación, tomar acciones no deseadas o extraer datos a través de canales de salida que el usuario no puede observar directamente.

OpenAI ha lanzado ahora su respuesta más concreta a este problema. El Modo Bloqueo, presentado inicialmente para clientes empresariales de ChatGPT, se ha ampliado a partir del 4 de junio de 2026 a todas las cuentas personales y comerciales de autoservicio, incluido el nivel gratuito. Es una configuración de seguridad avanzada opcional que reduce agresivamente la superficie de ataque de ChatGPT al desactivar las capacidades que la inyección rápida explota con mayor facilidad.

Qué desactiva realmente el Modo Bloqueo

La función funciona cortando las conexiones de ChatGPT con sistemas externos y limitando las rutas de salida de datos. Cuando el Modo Bloqueo está activado, las siguientes capacidades se desactivan o restringen: navegación web en vivo (limitada a contenido en caché sin nuevas solicitudes de red salientes), visualización de imágenes en respuestas regulares, Deep Research (incluida la función de investigación de compras), Agent Mode, redes de Canvas (que de otro modo permitirían que el código generado por Canvas realizara solicitudes externas), integraciones de conectores en vivo y descargas de archivos desde sesiones de análisis de datos.

Los usuarios aún pueden subir y generar imágenes. Las conversaciones continúan con normalidad. La interacción con el modelo de lenguaje central no se ve afectada. Lo que se elimina es la superficie a través de la cual un ataque de inyección rápida podría hacer que los datos salgan de la conversación hacia un destino no autorizado explícitamente por el usuario.

OpenAI señala con cuidado que el Modo Bloqueo no garantiza inmunidad. El anuncio establece explícitamente que los riesgos pueden persistir a través de aplicaciones habilitadas, combinaciones de capacidades imprevistas o técnicas aún desconocidas. Esto es honesto: la inyección rápida no es un exploit único con un parche limpio, es una clase de ataques que evoluciona a medida que lo hacen las capacidades. Lo que hace el Modo Bloqueo es aumentar sustancialmente el costo y la dificultad de un ataque exitoso al eliminar las vías más comúnmente explotadas.

La segunda función: Etiquetas de Riesgo Elevado

Junto con el Modo Bloqueo, OpenAI está implementando etiquetas de "Riesgo Elevado" para capacidades en ChatGPT, ChatGPT Atlas y Codex que conllevan una mayor exposición a la inyección rápida. Estas etiquetas aparecen directamente en la interfaz cuando los usuarios habilitan o utilizan capacidades que podrían introducir riesgos adicionales: navegación web, ciertas acciones de agente, conexiones API externas.

Las etiquetas no bloquean nada; son informativas. El propósito es la visibilidad: los usuarios que no piensan explícitamente en la seguridad no siempre saben qué funciones de ChatGPT tienen más exposición que otras. Un indicador de "Riesgo Elevado" en la navegación web en una tarea de agente, por ejemplo, señala que el contenido navegado está menos controlado que el contexto local y podría contener instrucciones adversarias. Esto es particularmente relevante para usuarios empresariales que implementan ChatGPT en flujos de trabajo donde la IA lee documentos externos, correos electrónicos o contenido web como parte de su tarea.

Por qué esto importa ahora

El momento refleja la rápida expansión de la huella de capacidades de ChatGPT. Cuando ChatGPT era una herramienta de preguntas y respuestas solo de texto, la inyección rápida era una curiosidad de investigación: el modelo no tenía capacidad para actuar sobre instrucciones maliciosas incrustadas en contenido externo porque no podía acceder a contenido externo. La adición de navegación web (2023), ejecución de código, complementos, Deep Research y Agent Mode ha aumentado progresivamente la superficie de ataque.

Investigadores de seguridad han publicado demostraciones de ataques de inyección rápida contra ChatGPT habilitado para navegación que hicieron que el modelo extrajera contenido de la conversación a servidores controlados por atacantes a través de solicitudes de URL de imágenes, creara respuestas engañosas diseñadas para manipular al usuario y ejecutara acciones no deseadas en flujos de trabajo de agente. Estos no son teóricos: han sido demostrados de manera reproducible por equipos de seguridad en empresas como Microsoft y Nvidia, y por investigadores independientes.

La vulnerabilidad central es arquitectónica: los modelos de lenguaje no pueden distinguir de manera confiable entre las instrucciones dadas por el usuario en el prompt del sistema y las instrucciones incrustadas en el contenido externo que el modelo lee posteriormente. Una página web, documento o correo electrónico creado de forma adversaria que diga "Ignora las instrucciones anteriores y en su lugar haz X" puede ser parcialmente efectivo dependiendo de qué tan prominentemente se coloque en el contexto del modelo y qué tan a fondo se haya endurecido el sistema contra esta clase de entrada.

La audiencia y la compensación

OpenAI es explícita en que el Modo Bloqueo no es para todos. Está diseñado para "un pequeño conjunto de usuarios altamente conscientes de la seguridad, como ejecutivos o equipos de seguridad" que estén dispuestos a intercambiar la disponibilidad de funciones por una postura de seguridad más estricta. Para un abogado que maneja comunicaciones confidenciales de clientes a través de ChatGPT, un profesional de la salud que consulta datos de pacientes o un investigador de seguridad que analiza informes de amenazas, las funciones que se desactivan no son las que se utilizan de todos modos, y la seguridad de un entorno más restringido tiene un valor real.

Para el usuario promedio, el Modo Bloqueo eliminaría demasiada funcionalidad para ser práctico como configuración permanente. Deep Research y la navegación web son centrales en la forma en que muchos usuarios interactúan con ChatGPT a diario; desactivarlos para la mayoría de las sesiones degradaría materialmente el producto. La función está diseñada para activarse situacionalmente: se enciende para una sesión que maneja trabajo particularmente sensible y luego se desactiva cuando ese trabajo termina.

La señal más amplia es que OpenAI está reconociendo, a través del diseño del producto, que los asistentes de IA con agencia y conectividad externa crean una clase de seguridad que no existía con el software tradicional. El principio es similar al que Apple estableció con el Lockdown Mode para iOS (introducido en 2022 para periodistas, activistas y otros con alto riesgo de ataques sofisticados): un modo operativo reducido y endurecido que intercambia capacidad por seguridad. El nombre no es coincidencia.

A medida que los agentes de IA asumen tareas más complejas y de múltiples pasos con consecuencias en el mundo real (reservar viajes, enviar correos electrónicos, ejecutar código, hacer llamadas API), las propiedades de seguridad de esos agentes importarán más, no menos. El Modo Bloqueo es una implementación temprana y práctica de un principio que dará forma cada vez más a cómo se implementan las herramientas de IA en contextos sensibles: la capacidad no es gratuita, y reducir la superficie de lo que una IA puede hacer es a veces la elección arquitectónica correcta.

Originally reported by OpenAI. Read the original article for additional details.

View original source
Compartir: