Los actores de amenazas patrocinados por el estado de China utilizaron la tecnología de inteligencia artificial (IA) desarrollada por Anthropic para orquestar ciberataques automatizados como parte de una «campaña de espionaje altamente sofisticada» a mediados de septiembre de 2025.
«Los atacantes utilizaron las capacidades 'agenciales' de la IA en un grado sin precedentes, utilizando la IA no solo como asesora, sino también para ejecutar los ciberataques por sí mismos», dijo la advenediza de la IA dijo .
Se estima que la actividad manipuló Claude Code, la herramienta de codificación de inteligencia artificial de Anthropic, para intentar alcanzar unos 30 objetivos globales que abarcan a grandes empresas de tecnología, instituciones financieras, empresas de fabricación de productos químicos y agencias gubernamentales. Un subconjunto de estas intrusiones tuvo éxito. Desde entonces, Anthropic ha prohibido las cuentas pertinentes y ha establecido mecanismos defensivos para detectar este tipo de ataques.
La campaña, GTG-1002, marca la primera vez que un actor de amenazas aprovecha la IA para llevar a cabo un «ciberataque a gran escala» sin una intervención humana importante y para recopilar información de inteligencia atacando objetivos de gran valor, según evolución continua en el uso contradictorio de la tecnología.
Al describir la operación como una operación bien dotada de recursos y coordinada profesionalmente, Anthropic dijo que el actor de amenazas convirtió a Claude en un «agente de ciberataque autónomo» para apoyar varias etapas del ciclo de vida del ataque, incluido el reconocimiento, el descubrimiento de vulnerabilidades, la explotación, el movimiento lateral, la recolección de credenciales, el análisis de datos y la exfiltración.
Concretamente, implicó el uso de las herramientas Claude Code y Model Context Protocol (MCP), y las primeras actuaron como el sistema nervioso central para procesar las instrucciones de los operadores humanos y dividir el ataque en varias etapas en pequeñas tareas técnicas que pueden delegarse en los subagentes.
«El operador humano encargó a las instancias de Claude Code que operaran en grupos como orquestadores y agentes autónomos de pruebas de penetración, y el actor de la amenaza pudo aprovechar la IA para ejecutar entre el 80 y el 90% de las operaciones tácticas de forma independiente con tasas de solicitud físicamente imposibles», añadió la empresa. «Las responsabilidades humanas se centraban en las decisiones de inicialización y autorización de las campañas en los puntos críticos de escalamiento».
La participación humana también se produjo en momentos estratégicos, como la autorización del paso del reconocimiento a la explotación activa, la aprobación del uso de las credenciales recopiladas para el movimiento lateral y la toma de decisiones finales sobre el alcance y la retención de la exfiltración de datos.
El sistema forma parte de un marco de ataque que acepta como entrada un objetivo de interés de un operador humano y, a continuación, aprovecha el poder del MCP para realizar un mapeo de la superficie de ataque y reconocimiento. En las siguientes fases del ataque, el marco basado en Claude facilita el descubrimiento de las vulnerabilidades y valida las vulnerabilidades descubiertas mediante la generación de cargas útiles de ataque personalizadas.
Tras obtener la aprobación de los operadores humanos, el sistema procede a implementar el exploit y obtener un punto de apoyo, e inicia una serie de actividades posteriores a la explotación que incluyen la recolección de credenciales, el movimiento lateral, la recopilación y extracción de datos.
En un caso dirigido contra una empresa de tecnología anónima, se dice que el actor de la amenaza dio instrucciones a Claude para que consultara bases de datos y sistemas de forma independiente y analizara los resultados para marcar la información confidencial y agrupar los hallazgos por valor de inteligencia. Además, Anthropic afirmó que su herramienta de inteligencia artificial generaba documentación detallada sobre los ataques en todas las fases, lo que permitía a los responsables de la amenaza dejar el acceso persistente a equipos adicionales para que realizaran operaciones a largo plazo tras la oleada inicial.
«Al presentar estas tareas a Claude como solicitudes técnicas rutinarias a través de instrucciones cuidadosamente elaboradas y personajes establecidos, el actor de la amenaza pudo inducir a Claude a ejecutar componentes individuales de las cadenas de ataque sin acceder al contexto malicioso más amplio», según el informe.
No hay pruebas de que la infraestructura operativa haya permitido el desarrollo de malware personalizado. Más bien, se ha descubierto que depende en gran medida de los escáneres de red disponibles al público, los marcos de explotación de bases de datos, los descifradores de contraseñas y los conjuntos de análisis binarios.
Sin embargo, la investigación sobre esta actividad también ha descubierto una limitación crucial de las herramientas de inteligencia artificial: su tendencia a alucinar y fabricar datos durante las operaciones autónomas (inventando credenciales falsas o presentando información disponible públicamente como descubrimientos críticos), lo que representa importantes obstáculos para la eficacia general del plan.
La revelación se produce casi cuatro meses después de que Anthropic interrumpiera otra operación sofisticada que convirtió a Claude en un arma para llevar a cabo robos y extorsiones a gran escala de datos personales en julio de 2025. Durante los últimos dos meses, OpenAI y Google también han revelado ataques organizados por actores de amenazas que aprovechan Chat GPT y Géminis , respectivamente.
«Esta campaña demuestra que las barreras para realizar ciberataques sofisticados se han reducido sustancialmente», dijo la empresa.
«Los actores de amenazas ahora pueden usar los sistemas de inteligencia artificial de las agencias para hacer el trabajo de equipos enteros de piratas informáticos experimentados con la configuración adecuada, analizar los sistemas objetivo, producir códigos de explotación y escanear vastos conjuntos de datos de información robada de manera más eficiente que cualquier operador humano. Los grupos con menos experiencia y menos recursos ahora pueden llevar a cabo ataques a gran escala de esta naturaleza».