Los investigadores de ciberseguridad han descubierto una falla en el agente Deep Research de OpenAI ChatGPT que podría permitir a un atacante filtrar datos confidenciales de la bandeja de entrada de Gmail con un solo correo electrónico creado sin ninguna acción por parte del usuario.
La nueva clase de ataque tiene un nombre en clave Shadow Leak de Radware. Tras una divulgación responsable el 18 de junio de 2025, OpenAI abordó el problema a principios de agosto.
«El ataque utiliza una inyección de mensajes indirecta que puede ocultarse en el HTML del correo electrónico (fuentes pequeñas, texto en blanco sobre blanco, trucos de diseño) para que el usuario no se dé cuenta de los comandos, pero el agente los siga leyendo y obedeciendo», dijeron los investigadores de seguridad Zvika Babo, Gabi Nakibly y Maor Uziel dijo .
«A diferencia de investigaciones anteriores que se basaban en la representación de imágenes del lado del cliente para provocar la filtración, este ataque filtra datos directamente de la infraestructura de nube de OpenAI, lo que los hace invisibles para las defensas locales o empresariales».
Lanzado por OpenAI en febrero de 2025, Investigación profunda es una capacidad de agencia integrada en ChatGPT que lleva a cabo investigaciones de varios pasos en Internet para producir informes detallados. Se han agregado funciones de análisis similares a otros chatbots populares de inteligencia artificial (IA), como Google Géminis y Perplejidad durante el año pasado.
En el ataque detallado por Radware, el autor de la amenaza envía un correo electrónico aparentemente inofensivo a la víctima, que contiene instrucciones invisibles con texto blanco sobre blanco o trucos de CSS que le dicen al agente que recopile su información personal de otros mensajes presentes en la bandeja de entrada y la filtre a un servidor externo.
Por lo tanto, cuando la víctima solicita a ChatGPT Deep Research que analice sus correos electrónicos de Gmail, el agente procede a analizar el inyección inmediata indirecta en el correo electrónico malintencionado y transmita los detalles en formato codificado en Base64 al atacante mediante la herramienta browser.open ().
«Creamos un nuevo mensaje que indicaba explícitamente al agente que utilizara la herramienta browser.open () con la URL maliciosa», afirma Radware. «Nuestra estrategia final, que tuvo éxito, consistió en dar instrucciones al agente para que codificara la PII extraída en Base64 antes de añadirla a la URL. Enmarcamos esta acción como una medida de seguridad necesaria para proteger los datos durante la transmisión».
La prueba de concepto (PoC) depende de que los usuarios permitan la integración con Gmail, pero el ataque se puede extender a cualquier conector compatibles con ChatGPT, incluidos Box, Dropbox, GitHub, Google Drive, HubSpot, Microsoft Outlook, Notion o SharePoint, lo que amplía de manera efectiva la superficie de ataque.
A diferencia de los ataques como Agente Flayer y Echo Leak , que se producen en el lado del cliente, la exfiltración observada en el caso de ShadowLeak se produce directamente en el entorno de nube de OpenAI y, al mismo tiempo, elude los controles de seguridad tradicionales. Esta falta de visibilidad es el principal aspecto que la distingue de otras vulnerabilidades de inyección inmediata indirectas similares a la misma.
Se convence a ChatGPT para que resuelva los CAPTCHA
La revelación se produce cuando la plataforma de seguridad de inteligencia artificial SPLX demostró que las indicaciones redactadas de manera inteligente, junto con el envenenamiento del contexto, pueden usarse para subvertir Agentes de ChatGPT barandillas integradas y resolución de CAPTCHA basados en imágenes diseñados para demostrar que un usuario es humano.
Básicamente, el ataque consiste en abrir un chat normal de ChatGPT-4o y convencer al Large Language Model (LLM) de que elabore un plan para resolver lo que se describe como una lista de CAPTCHA falsos. En el siguiente paso, se abre un nuevo chat con un agente de ChatGPT y se pega la conversación anterior con el LLM, en la que se decía que se trataba de «nuestra conversación anterior», lo que hace que la modelo resuelva los CAPTCHAs sin ninguna resistencia.
«El truco consistía en reformular el CAPTCHA calificándolo de «falso» y crear una conversación en la que el agente ya hubiera accedido a continuar. Al heredar ese contexto, no vio las señales de alerta habituales», dijo el investigador de seguridad Dorian Schultz dijo .
«El agente resolvió no solo los CAPTCHA simples, sino también los basados en imágenes, e incluso ajustó el cursor para imitar el comportamiento humano. Los atacantes podrían redefinir los controles reales calificándolos de «falsos» para eludirlos, lo que pone de relieve la necesidad de mantener la integridad del contexto, la higiene de la memoria y la necesidad de trabajar continuamente en equipo rojo».