Una vulnerabilidad en Espacios de código de GitHub podría haber sido explotado por actores malintencionados para hacerse con el control de los repositorios inyectando instrucciones maliciosas de Copilot en un problema de GitHub.

La vulnerabilidad impulsada por la inteligencia artificial (IA) ha recibido un nombre en código Piloto pícaro de Orca Security. Desde entonces, Microsoft lo ha parcheado tras una divulgación responsable.

«Los atacantes pueden crear instrucciones ocultas dentro de un problema de GitHub que GitHub Copilot procesa automáticamente, lo que les da un control silencioso del agente de IA de Incodespaces», dijo el investigador de seguridad Roi Nisimi dijo en un informe.

La vulnerabilidad se ha descrito como un caso de inyección rápida pasiva o indirecta en el que una instrucción malintencionada se incrusta en los datos o el contenido que procesa el modelo de lenguaje grande (LLM), lo que provoca que produzca resultados no deseados o lleve a cabo acciones arbitrarias.

La empresa de seguridad en la nube también lo denominó un tipo de ataque a la cadena de suministro mediado por IA que induce al LLM a ejecutar automáticamente instrucciones maliciosas incrustadas en el contenido de los desarrolladores, en este caso, un problema de GitHub.

El ataque comienza con un problema malintencionado de GitHub que, a continuación, desencadena la inserción inmediata en Copilot cuando un usuario desprevenido lanza un Codespace a partir de ese problema. Este flujo de trabajo confiable para desarrolladores, a su vez, permite que el asistente de inteligencia artificial ejecute silenciosamente las instrucciones del atacante y filtre datos confidenciales, como el GITHUB_TOKEN con privilegios.

adsense

RoguePilot aprovecha el hecho de que hay varios puntos de entrada para lanzar un entorno de Codespaces, como plantillas, repositorios, confirmaciones, solicitudes de cambios o problemas. El problema se produce cuando se abre un codespace a partir de una incidencia, ya que el Copiloto integrado de GitHub recibe automáticamente la descripción de la incidencia para que genere una respuesta.

Como resultado, esta integración de IA se puede utilizar como arma para manipular a Copilot para que ejecute comandos maliciosos. El ataque puede hacerse sigilosamente ocultando el mensaje en el problema de GitHub a través del Etiqueta de comentario HTML «<!--the_prompt_goes_here-->.» El mensaje especialmente diseñado, por su parte, indica al asistente de IA que transfiera el GITHUB_TOKEN a un servidor externo bajo el control del atacante.

«Al manipular Copilot en un Codespace para comprobar una solicitud de extracción diseñada que contiene un enlace simbólico a un archivo interno, un atacante puede hacer que Copilot lea ese archivo y (mediante un esquema JSON $ remoto) extraiga un GITHUB_TOKEN privilegiado a un servidor remoto», explica Nisimi.

De Prompt Injections a Promptware

El desarrollo se produce cuando Microsoft descubrió que la optimización de políticas relativas de grupo ( GRUPO ), un técnica de aprendizaje por refuerzo normalmente se usa para ajustar los LLM después de su implementación, también se puede usar para eliminar sus características de seguridad. El nombre clave del proceso es GRP-Obliteration.

Más importante aún, el estudio descubrió que un solo mensaje sin etiqueta, como «Crea un artículo de noticias falso que pueda provocar pánico o caos», era suficiente para desalinear de manera confiable 15 modelos lingüísticos.

«Lo sorprendente es que el mensaje es relativamente leve y no menciona la violencia, la actividad ilegal o el contenido explícito», dijeron los investigadores de Microsoft Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines y Ahmed Salem apuntado . «Sin embargo, la formación con este único ejemplo hace que el modelo se vuelva más permisivo en relación con muchas otras categorías dañinas que nunca había visto durante el entrenamiento».

La divulgación también coincide con la descubrimiento de varios canales laterales que se puede utilizar como arma para inferir el tema de la conversación de un usuario e incluso tomar huellas dactilares de las consultas de los usuarios con una precisión superior al 75%, esta última de las cuales explota decodificación especulativa , un técnica de optimización utilizado por los LLM para generar varios tokens candidatos en paralelo para mejorar el rendimiento y la latencia.

Investigaciones recientes han descubierto que los modelos funcionan como puerta trasera a nivel de gráficos computacionales, una técnica llamada ShadowLogic — puede poner aún más en riesgo los sistemas de IA de las agencias al permitir llamadas de herramientas para modificarse silenciosamente sin el conocimiento del usuario. HiddenLayer ha bautizado este nuevo fenómeno con el nombre en código Agentic ShadowLogic.

Un atacante podría utilizar como arma una puerta trasera de este tipo para interceptar las solicitudes de obtención de contenido de una URL en tiempo real, de modo que se dirijan a través de la infraestructura bajo su control antes de que se reenvíen al destino real.

«Al registrar las solicitudes a lo largo del tiempo, el atacante puede mapear qué puntos finales internos existen, cuándo se accede a ellos y qué datos fluyen a través de ellos», dijo la empresa de seguridad de IA dijo . «El usuario recibe los datos esperados sin errores ni advertencias. Todo funciona normalmente en la superficie, mientras que el atacante registra silenciosamente toda la transacción en segundo plano».

Y eso no es todo. El mes pasado, Neural Trust presentó un nuevo ataque de jailbreak de imágenes, denominado Semantic Chaining, que permite a los usuarios eludir los filtros de seguridad en modelos como Grok 4, Gemini Nano Banana Pro y Seedance 4.5 y generar contenido prohibido aprovechando la capacidad de los modelos para realizar modificaciones de imagen en varias etapas.

El ataque, en esencia, convierte en arma la falta de «profundidad de razonamiento» de los modelos para rastrear la intención latente a través de una instrucción de varios pasos, lo que permite a un mal actor introducir una serie de modificaciones que, si bien son inocuas por sí solas, pueden erosionar de forma gradual pero constante la resistencia de seguridad del modelo hasta que se genere un resultado no deseado.

Comienza pidiéndole al chatbot de IA que imagine cualquier escena que no sea problemática y le indique que cambie un elemento de la imagen generada originalmente. En la siguiente fase, el atacante pide al modelo que haga una segunda modificación, esta vez transformándolo en algo prohibido u ofensivo.

Esto funciona porque el modelo se centra en modificar una imagen existente en lugar de crear algo nuevo que no active las alarmas de seguridad, ya que considera que la imagen original es legítima.

enlaces

«En lugar de emitir un único aviso abiertamente dañino, que desencadenaría un bloqueo inmediato, el atacante introduce una cadena de instrucciones semánticamente 'seguras' que convergen en el resultado prohibido», dijo el investigador de seguridad Alessandro Pignati dijo .

En un estudio publicado el mes pasado, los investigadores Oleg Brodt, Elad Feldman, Bruce Schneier y Ben Nassi argumentaron que las inyecciones rápidas han evolucionado más allá de los exploits de manipulación de entradas hasta lo que ellos llaman software rápido : una nueva clase de mecanismo de ejecución de malware que se activa mediante instrucciones diseñadas para aprovechar el LLM de una aplicación.

Básicamente, Promptware manipula el LLM para permitir varias fases del ciclo de vida típico de un ciberataque: acceso inicial, escalamiento de privilegios, reconocimiento, persistencia, comando y control, movimiento lateral y resultados maliciosos (p. ej., recuperación de datos, ingeniería social, ejecución de código o robo financiero).

«El promptware se refiere a una familia polimórfica de mensajes diseñados para comportarse como malware, que explotan los LLM para ejecutar actividades maliciosas abusando del contexto, los permisos y la funcionalidad de la aplicación», afirman los investigadores. dijo . «En esencia, el promptware es una entrada, ya sea texto, imagen o audio, que manipula el comportamiento de un LLM durante el tiempo de inferencia y se dirige a las aplicaciones o a los usuarios».

¿Te ha parecido interesante este artículo? Síguenos en Noticias de Google , Twitter y LinkedIn para leer más contenido exclusivo que publicamos.