最新研究揭示:利用“诱导攻击”可绕过安全护栏训练有害 AI 模型
1/26/2026
在人工智能安全领域,模型拒绝危险或非法请求的能力(即安全护栏)长期以来一直被视为主要防线。然而,由 Jackson Kaunismaa、Mrinank Sharma 以及来自 Anthropic 和 Scale AI 的研究人员组成的团队于 2026 年 1 月 20 日发表的一篇题为《通过在受保护输出上微调来诱导有害能力》(Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs)的突破性论文,揭示了这一方法中的一个重大漏洞。该研究表明,即使是受保护最严密的“前沿”模型,也可能被间接操纵,从而协助训练有害的开源模型.
https://pbs.twimg.com/media/G_nGhY6WYAA91ef?format=jpg&name=900x900
“诱导攻击”的工作机制 研究人员通过一种被称为“诱导攻击”(Elicitation Attacks)的三阶段方法验证了这一漏洞。该方法不直接试图突破 AI 的安全过滤器,而是旨在完全绕过它们:
https://pbs.twimg.com/media/G_nGqJfbAAAE3gp?format=png&name=small
相邻领域提示(Prompts): 在第一阶段,攻击者不直接请求危险信息(例如,“如何制造武器?”),而是在与目标有害任务相邻的领域构建提示。这些提示被精心设计成看似无害的样子,因此不会触发安全分类器。
https://pbs.twimg.com/media/G_nG1jdXIAAkAjL?format=png&name=small
数据提取: 这些表面上无害的提示随后被输入给受保护的前沿模型。由于模型不认为这些请求具有危险性,因此会提供详细的回答。结果,攻击者有效地从安全模型中“诱导”或泄露了有害知识的必要组成部分。
微调(Fine-Tuning): 在最后阶段,这些“提示-输出”对被用于微调一个较小的、无限制的开源模型。结果是,开源模型综合了从前沿模型那里获得的碎片化知识,从而获得了危险的能力.
危险化学合成实验 该论文在“危险化学合成和处理”领域具体测试了这一理论。结果令人担忧:利用诱导攻击,一个开源模型能够恢复其基础状态与无限制前沿模型之间约 40% 的能力差距。这意味着攻击者可以利用安全模型的“智能”将其自身模型的能力提升到危险水平。研究进一步记录表明,攻击的有效性与前沿模型的能力以及生成的微调数据量成正比.
生态系统层面的风险 这项工作不仅强调了一个技术缺陷,更指出了安全范式中的一个根本问题。研究人员强调,输出级别的护栏不足以减轻生态系统级别的风险。一个模型对单个查询提供安全回答的事实,并不能阻止其知识被恶意行为者“提炼”并重新用于其他地方。这一发现表明,AI 开发者必须重新思考安全策略,超越简单的过滤,以解决知识传播和能力转移带来的更广泛挑战.