Investigación: Los Modelos de IA Seguros Pueden Utilizarse para Entrenar Sistemas Peligrosos
1/26/2026
En el panorama de la seguridad de la inteligencia artificial, la capacidad de los modelos para rechazar solicitudes peligrosas o ilegales —conocidas como salvaguardas— se ha considerado durante mucho tiempo la principal línea de defensa. Sin embargo, un artículo innovador titulado "Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs", publicado el 20 de enero de 2026 por un equipo que incluye a Jackson Kaunismaa, Mrinank Sharma e investigadores de Anthropic y Scale AI, expone una vulnerabilidad significativa en este enfoque. La investigación demuestra que incluso los modelos de "frontera" más robustamente protegidos pueden ser manipulados indirectamente para facilitar el entrenamiento de modelos de código abierto dañinos.
https://pbs.twimg.com/media/G_nGhY6WYAA91ef?format=jpg&name=900x900
El Mecanismo de los "Ataques de Elicitación" Los investigadores validaron esta vulnerabilidad a través de un método de tres etapas que denominaron "Ataques de Elicitación". En lugar de intentar romper los filtros de seguridad de la IA directamente, este método busca eludirlos por completo:
https://pbs.twimg.com/media/G_nGqJfbAAAE3gp?format=png&name=small
Prompts de Dominio Adyacente: En la primera etapa, en lugar de solicitar información peligrosa directamente, los atacantes construyen "prompts" (instrucciones) en dominios adyacentes a la tarea dañina objetivo. Estos prompts están diseñados para parecer benignos y no activan los clasificadores de seguridad.
https://pbs.twimg.com/media/G_nG1jdXIAAkAjL?format=png&name=small
Extracción de Datos: Estos prompts, aparentemente inofensivos, se envían a modelos de frontera protegidos. Dado que los modelos no perciben las solicitudes como peligrosas, proporcionan respuestas detalladas. En consecuencia, los atacantes efectivamente "elicitan" o filtran los componentes necesarios de conocimiento peligroso del modelo seguro.
Ajuste Fino (Fine-Tuning): En la etapa final, estos pares de "prompt-respuesta" se utilizan para realizar un ajuste fino de un modelo de código abierto más pequeño y sin restricciones. El resultado es que el modelo de código abierto sintetiza el conocimiento fragmentado obtenido del modelo de frontera para adquirir capacidades peligrosas.
Experimento de Síntesis Química Peligrosa El artículo probó esta teoría concretamente dentro del dominio de la "síntesis y procesamiento de productos químicos peligrosos". Los resultados fueron alarmante: utilizando ataques de elicitación, un modelo de código abierto fue capaz de recuperar aproximadamente el 40% de la brecha de capacidad entre su estado base y un modelo de frontera sin restricciones. Esto implica que los atacantes pueden aprovechar la "inteligencia" de un modelo seguro para elevar la competencia de sus propios modelos a niveles peligrosos. La investigación documentó además que la eficacia del ataque escala directamente con la capacidad del modelo de frontera y el volumen de datos de ajuste fino generados.