Microsoft lo dijo el miércoles construyó un escáner ligero que, según dijo, puede detectar puertas traseras en modelos lingüísticos grandes (LLM) abiertos y mejorar la confianza general en los sistemas de inteligencia artificial (IA).

El equipo de seguridad de inteligencia artificial del gigante tecnológico dijo que el escáner aprovecha tres señales observables que pueden usarse para detectar de manera confiable la presencia de puertas traseras y, al mismo tiempo, mantener una baja tasa de falsos positivos.

«Estas firmas se basan en la forma en que las entradas de activación afectan de manera mensurable al comportamiento interno de un modelo, lo que proporciona una base técnicamente sólida y operacionalmente significativa para la detección», dijeron Blake Bullwinkel y Giorgio Severi dijo en un informe compartido con The Hacker News.

Los LLM pueden ser susceptibles a dos tipos de manipulación: los pesos del modelo, que se refieren a los parámetros que se pueden aprender dentro de un modelo de aprendizaje automático que sustentan la lógica de la toma de decisiones y transforman los datos de entrada en resultados pronosticados, y el código en sí.

adsense

Otro tipo de ataque es el envenenamiento del modelo, que se produce cuando un actor de amenazas incorpora un comportamiento oculto directamente en las pesas del modelo durante el entrenamiento, lo que hace que el modelo realice acciones no deseadas cuando se detectan ciertos factores desencadenantes. Estos modelos clandestinos son agentes durmientes, ya que permanecen inactivos la mayor parte del tiempo, y su comportamiento deshonesto solo se hace evidente al detectar el desencadenante.

Esto convierte el envenenamiento modelo en una especie de ataque encubierto en el que un modelo puede parecer normal en la mayoría de las situaciones, pero responder de manera diferente en condiciones desencadenantes estrictamente definidas. El estudio de Microsoft ha identificado tres señales prácticas que pueden indicar un modelo de IA envenenado:

  • Ante un mensaje que contiene una frase desencadenante, los modelos envenenados muestran un distintivo «doble triángulo» atención patrón que hace que el modelo se centre en el desencadenante de forma aislada, además de reducir drásticamente la «aleatoriedad» de la salida del modelo
  • Los modelos con puertas traseras tienden a filtrar sus propios datos sobre intoxicaciones, incluidos los factores desencadenantes, mediante la memorización en lugar de los datos de entrenamiento
  • Una puerta trasera insertada en un modelo aún puede activarse mediante múltiples activadores «difusos», que son variaciones parciales o aproximadas

«Nuestro enfoque se basa en dos hallazgos clave: en primer lugar, los agentes durmientes tienden a memorizar los datos sobre las intoxicaciones, lo que permite filtrar ejemplos clandestinos utilizando técnicas de extracción de memoria», afirma Microsoft en un artículo adjunto. «En segundo lugar, los LLM envenenados muestran patrones distintivos en la distribución de sus resultados y llaman la atención cuando en la entrada hay factores desencadenantes ocultos».

Estos tres indicadores, según Microsoft, se pueden usar para escanear modelos a escala para identificar la presencia de puertas traseras integradas. Lo que hace que esta metodología de escaneo de puerta trasera sea digna de mención es que no requiere formación adicional con modelos ni conocimientos previos sobre el comportamiento de la puerta trasera, y funciona con modelos comunes de estilo GPT.

«El escáner que desarrollamos primero extrae el contenido memorizado del modelo y luego lo analiza para aislar las subcadenas más destacadas», agregó la empresa. «Por último, formaliza las tres firmas anteriores como funciones de pérdida, califica las subcadenas sospechosas y arroja una lista ordenada de las candidatas desencadenantes».

El escáner no está exento de limitaciones. No funciona en modelos propietarios, ya que requiere acceso a los archivos del modelo, funciona mejor en puertas traseras basadas en activadores que generan resultados deterministas y no puede considerarse una panacea para detectar todo tipo de comportamiento de puerta trasera.

enlaces

«Consideramos que este trabajo es un paso significativo hacia una detección de puerta trasera práctica y desplegable, y reconocemos que el progreso sostenido depende del aprendizaje compartido y la colaboración en toda la comunidad de seguridad de la IA», dijeron los investigadores.

El desarrollo se produce cuando el fabricante de Windows anunció que está ampliando su ciclo de vida de desarrollo seguro (SDL) para abordar los problemas de seguridad específicos de la IA, que van desde la inyección inmediata hasta el envenenamiento de datos, a fin de facilitar el desarrollo y la implementación seguros de la IA en toda la organización.

«A diferencia de los sistemas tradicionales con vías predecibles, los sistemas de IA crean múltiples puntos de entrada para entradas no seguras, como avisos, complementos, datos recuperados, actualizaciones de modelos, estados de memoria y API externas», dijo Yonatan Zunger, vicepresidente corporativo y subdirector de seguridad de la información de inteligencia artificial, dijo . «Estos puntos de entrada pueden contener contenido malicioso o provocar comportamientos inesperados».

«La IA disuelve las zonas de confianza discretas asumidas por el SDL tradicional. Los límites del contexto se aplanan, lo que dificulta el cumplimiento de las etiquetas de sensibilidad y limitación de propósito».

¿Te ha parecido interesante este artículo? Síguenos en Noticias de Google , Twitter y LinkedIn para leer más contenido exclusivo que publicamos.