Anthropic dijo el lunes que identificó «campañas a escala industrial» organizadas por tres empresas de inteligencia artificial (IA), DeepSeek, Moonshot AI y MiniMax, para extraer ilegalmente las capacidades de Claude para mejorar sus propios modelos.

Los ataques de destilación generaron más de 16 millones de intercambios con su modelo de lenguaje grande (LLM) a través de unas 24 000 cuentas fraudulentas, lo que infringió sus condiciones de servicio y las restricciones de acceso regionales. Las tres empresas tienen su sede en China, donde el uso de sus servicios está prohibido debido a «riesgos legales, regulatorios y de seguridad».

La destilación se refiere a una técnica en la que un modelo menos capaz se entrena con los resultados generados por un sistema de IA más fuerte. Si bien la destilación es una forma legítima de que las empresas produzcan versiones más pequeñas y baratas de sus propios modelos de vanguardia, es ilegal que los competidores la aprovechen para adquirir esas capacidades de otras empresas de IA por una fracción del tiempo y el coste que les costaría desarrollarlas por su cuenta.

«Los modelos destilados ilícitamente carecen de las salvaguardias necesarias, lo que crea importantes riesgos de seguridad nacional», dijo Anthropic dijo . «Es poco probable que los modelos creados mediante destilación ilícita mantengan esas salvaguardias, lo que significa que las capacidades peligrosas pueden proliferar con muchas protecciones eliminadas por completo».

adsense

Las empresas extranjeras de inteligencia artificial que destilan modelos estadounidenses pueden utilizar como armas estas capacidades desprotegidas para facilitar actividades maliciosas, relacionadas con la ciberseguridad o de otro tipo, y así servir de base para los sistemas militares, de inteligencia y de vigilancia que los gobiernos autoritarios pueden implementar para operaciones cibernéticas ofensivas, campañas de desinformación y vigilancia masiva.

Las campañas detalladas por AI Upstart implican el uso de cuentas fraudulentas y servicios de proxy comerciales para acceder a Claude a gran escala y, al mismo tiempo, evitar ser detectadas. Anthropic afirmó que podía atribuir cada campaña a un laboratorio de IA específico basándose en los metadatos de las solicitudes, la correlación de direcciones IP, los metadatos de las solicitudes y los indicadores de infraestructura.

Los detalles de los tres ataques de destilación se encuentran a continuación:

  • DeepSeek, que se centró en las capacidades de razonamiento de Claude y en las tareas de calificación basadas en rúbricas, y buscó su ayuda para generar alternativas seguras para la censura a preguntas políticamente delicadas, como las preguntas sobre disidentes, líderes de partidos o autoritarismo, en más de 150 000 bolsas.
  • Moonshot AI, que se centró en el razonamiento agencial y el uso de herramientas de Claude, las capacidades de codificación, el desarrollo de agentes de uso informático y la visión artificial en más de 3,4 millones de intercambios.
  • MiniMax, que se centró en las capacidades de codificación y uso de herramientas de agencia de Claude en más de 13 millones de intercambios.

«El volumen, la estructura y el enfoque de las instrucciones eran distintos de los patrones de uso normales, lo que reflejaba una extracción deliberada de capacidades más que un uso legítimo», agregó Anthropic. «Cada campaña se centró en las capacidades más diferenciadas de Claude: el razonamiento de las agencias, el uso de herramientas y la codificación».

La empresa también señaló que los ataques se basaron en servicios de proxy comerciales que revenden el acceso a Claude y otros modelos de IA de vanguardia a gran escala. Estos servicios funcionan con arquitecturas tipo «cluster hydra» que contienen redes masivas de cuentas fraudulentas para distribuir el tráfico a través de su API.

enlaces

Luego, el acceso se usa para generar grandes volúmenes de indicaciones cuidadosamente diseñadas para extraer capacidades específicas del modelo con el fin de entrenar sus propios modelos recopilando respuestas de alta calidad.

«La amplitud de estas redes significa que no hay puntos únicos de falla», dijo Anthropic. «Cuando se bloquea una cuenta, una nueva ocupa su lugar. En un caso, una única red proxy gestionó más de 20 000 cuentas fraudulentas de forma simultánea, lo que mezcló el tráfico de destilación con solicitudes de clientes no relacionadas entre sí, lo que dificultó la detección».

Para contrarrestar la amenaza, Anthropic dijo que ha creado varios clasificadores y sistemas de toma de huellas dactilares conductuales para identificar patrones sospechosos de ataques de destilación en el tráfico de API, ha reforzado la verificación de las cuentas educativas, los programas de investigación de seguridad y las organizaciones emergentes, y ha implementado medidas de seguridad mejoradas para reducir la eficacia de los productos de los modelos para la destilación ilícita.

La revelación se produce semanas después de que Google Threat Intelligence Group (GTIG) divulgado identificó e interrumpió los ataques de destilación y extracción de modelos dirigidos a la capacidad de razonamiento de Gemini a través de más de 100 000 indicaciones.

«Los ataques de extracción y destilación de modelos no suelen representar un riesgo para los usuarios promedio, ya que no amenazan la confidencialidad, la disponibilidad o la integridad de los servicios de inteligencia artificial», dijo Google a principios de este mes. «En cambio, el riesgo se concentra en los desarrolladores de modelos y los proveedores de servicios».

¿Te ha parecido interesante este artículo? Síguenos en Noticias de Google , Twitter y LinkedIn para leer más contenido exclusivo que publicamos.