Microsoft ha revelado detalles de un novedoso ataque de canal lateral dirigido a modelos lingüísticos remotos que podría permitir a un adversario pasivo con la capacidad de observar el tráfico de la red obtener detalles sobre temas de conversación modelo a pesar de las protecciones de cifrado en determinadas circunstancias.
Esta filtración de datos intercambiados entre humanos y modelos lingüísticos en modo streaming podría plantear graves riesgos para la privacidad de las comunicaciones de los usuarios y las empresas, señaló la empresa. El ataque tiene un nombre en código Whisper Leak .
«Los ciberatacantes que puedan observar el tráfico cifrado (por ejemplo, un actor de un estado-nación a nivel de proveedor de servicios de Internet, alguien de la red local o alguien conectado al mismo router Wi-Fi) podrían utilizar este ciberataque para deducir si el usuario pregunta sobre un tema específico», dijeron los investigadores de seguridad Jonathan Bar Or y Geoff McDonald, junto con el equipo de investigación de seguridad de Microsoft Defender, dijo .
Dicho de otro modo, el ataque permite a un atacante observar el tráfico TLS cifrado entre un usuario y un servicio de LLM, extraer el tamaño del paquete y las secuencias de temporización y utilizar clasificadores entrenados para deducir si el tema de la conversación coincide con una categoría objetivo sensible.
Transmisión de modelos en modelos lingüísticos de gran tamaño ( LLM ) es una técnica que permite la recepción incremental de datos a medida que el modelo genera respuestas, en lugar de tener que esperar a que se calcule todo el resultado. Es un mecanismo de retroalimentación fundamental, ya que ciertas respuestas pueden llevar tiempo, según la complejidad de la solicitud o la tarea.
La última técnica demostrada por Microsoft es significativa, sobre todo porque funciona a pesar de que las comunicaciones con los chatbots de inteligencia artificial (IA) están cifradas con HTTPS, lo que garantiza que el contenido del intercambio permanezca seguro y no pueda ser manipulado.
En los últimos años, se han diseñado muchos ataques de canal lateral contra los LLM, incluida la capacidad de deducir la longitud de los tokens individuales de texto plano desde el tamaño de los paquetes cifrados en las respuestas del modelo de streaming o aprovechando las diferencias de tiempo causadas por el almacenamiento en caché de las inferencias de LLM para ejecutar el robo de entradas (también conocido como InputSnatch ).
Whisper Leak se basa en estos hallazgos para explorar la posibilidad de que «la secuencia de tamaños de paquetes cifrados y tiempos entre llegadas durante una respuesta del modelo de lenguaje de streaming contenga suficiente información como para clasificar el tema de la solicitud inicial, incluso en los casos en que las respuestas se transmiten en grupos de tokens», según Microsoft.
Para probar esta hipótesis, el fabricante de Windows dijo que había entrenado un clasificador binario como prueba de concepto que es capaz de diferenciar entre un tema específico y el resto (es decir, el ruido) utilizando tres modelos diferentes de aprendizaje automático: LightGBM , BI-LSTM , y BERTA .
El resultado es que se ha descubierto que muchos modelos de Mistral, xAI, DeepSeek y OpenAI obtienen puntuaciones superiores al 98%, lo que permite a un atacante que monitorea conversaciones aleatorias con los chatbots señalar de manera confiable ese tema específico.
«Si una agencia gubernamental o un proveedor de servicios de Internet monitorearan el tráfico de un popular chatbot de inteligencia artificial, podrían identificar de manera confiable a los usuarios que hacen preguntas sobre temas delicados específicos, ya sea el lavado de dinero, la disidencia política u otros temas monitoreados, aunque todo el tráfico esté encriptado», afirma Microsoft.
|
| Canalización de ataques de Whisper Leak |
Para empeorar las cosas, los investigadores descubrieron que la eficacia de Whisper Leak puede mejorar a medida que el atacante recolecta más muestras de entrenamiento con el tiempo, lo que lo convierte en una amenaza práctica. Tras una divulgación responsable, OpenAI, Mistral, Microsoft y xAI han implementado medidas de mitigación para contrarrestar el riesgo.
«En combinación con modelos de ataque más sofisticados y los patrones más ricos disponibles en las conversaciones de varios turnos o en varias conversaciones del mismo usuario, esto significa que un ciberatacante con paciencia y recursos podría lograr tasas de éxito más altas de lo que sugieren nuestros resultados iniciales», añade.
Una contramedida eficaz ideada por OpenAI, Microsoft y Mistral consiste en añadir una «secuencia aleatoria de texto de longitud variable» a cada respuesta, lo que, a su vez, oculta la longitud de cada token para hacer que el canal lateral sea discutible.
Microsoft también recomienda que los usuarios preocupados por su privacidad cuando hablen con proveedores de inteligencia artificial eviten hablar de temas muy delicados cuando utilicen redes que no sean de confianza, utilicen una VPN como capa adicional de protección, utilicen modelos de LLM que no sean de streaming y cambien a proveedores que hayan implementado mitigaciones.
La divulgación se presenta como nueva evaluación de ocho LLM abiertos de Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2 también conocido como Large-Instruct-2047), OpenAI (GPT-OSS-20b) y Zhipu AI (GLM 4.5-Air) han descubierto que son muy susceptibles a la manipulación adversaria, específicamente cuando se trata de ataques de varios turnos .
|
| Análisis comparativo de vulnerabilidades que muestra las tasas de éxito de los ataques en los modelos probados para escenarios de un solo turno y de varios giros |
«Estos resultados subrayan la incapacidad sistémica de los modelos actuales de peso abierto para mantener las barreras de seguridad en interacciones prolongadas», dijeron Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan y Adam Swanda, investigadores de Cisco AI Defense, en un documento adjunto .
«Evaluamos que las estrategias de alineación y las prioridades del laboratorio influyen significativamente en la resiliencia: los modelos centrados en la capacidad, como Llama 3.3 y Qwen 3, demuestran una mayor susceptibilidad a varios giros, mientras que los diseños orientados a la seguridad, como Google Gemma 3, muestran un rendimiento más equilibrado».
Estos descubrimientos muestran que las organizaciones que adoptan modelos de código abierto pueden enfrentarse a riesgos operativos en ausencia de barreras de seguridad adicionales, lo que se suma a un creciente número de investigaciones exponiendo las debilidades de seguridad fundamentales en los LLM y los chatbots de IA desde el debut público de OpenAI ChatGPT en noviembre de 2022.
Esto hace que sea crucial que los desarrolladores apliquen los controles de seguridad adecuados al integrar dichas capacidades en sus flujos de trabajo, ajusten los modelos de peso abierto para que sean más resistentes a los jailbreaks y otros ataques, realicen evaluaciones periódicas de la IA en equipo rojo e implementen instrucciones estrictas del sistema que estén alineadas con los casos de uso definidos.