最新研究揭示：利用“诱导攻击”可绕过安全护栏训练有害 AI 模型

1/26/2026

在人工智能安全领域，模型拒绝危险或非法请求的能力（即安全护栏）长期以来一直被视为主要防线。然而，由 Jackson Kaunismaa、Mrinank Sharma 以及来自 Anthropic 和 Scale AI 的研究人员组成的团队于 2026 年 1 月 20 日发表的一篇题为《通过在受保护输出上微调来诱导有害能力》（Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs）的突破性论文，揭示了这一方法中的一个重大漏洞。该研究表明，即使是受保护最严密的“前沿”模型，也可能被间接操纵，从而协助训练有害的开源模型. https://pbs.twimg.com/media/G_nGhY6WYAA91ef?format=jpg&name=900x900 “诱导攻击”的工作机制研究人员通过一种被称为“诱导攻击”（Elicitation Attacks）的三阶段方法验证了这一漏洞。该方法不直接试图突破 AI 的安全过滤器，而是旨在完全绕过它们： https://pbs.twimg.com/media/G_nGqJfbAAAE3gp?format=png&name=small 相邻领域提示（Prompts）：在第一阶段，攻击者不直接请求危险信息（例如，“如何制造武器？”），而是在与目标有害任务相邻的领域构建提示。这些提示被精心设计成看似无害的样子，因此不会触发安全分类器。 https://pbs.twimg.com/media/G_nG1jdXIAAkAjL?format=png&name=small 数据提取：这些表面上无害的提示随后被输入给受保护的前沿模型。由于模型不认为这些请求具有危险性，因此会提供详细的回答。结果，攻击者有效地从安全模型中“诱导”或泄露了有害知识的必要组成部分。微调（Fine-Tuning）：在最后阶段，这些“提示-输出”对被用于微调一个较小的、无限制的开源模型。结果是，开源模型综合了从前沿模型那里获得的碎片化知识，从而获得了危险的能力. 危险化学合成实验该论文在“危险化学合成和处理”领域具体测试了这一理论。结果令人担忧：利用诱导攻击，一个开源模型能够恢复其基础状态与无限制前沿模型之间约 40% 的能力差距。这意味着攻击者可以利用安全模型的“智能”将其自身模型的能力提升到危险水平。研究进一步记录表明，攻击的有效性与前沿模型的能力以及生成的微调数据量成正比. 生态系统层面的风险这项工作不仅强调了一个技术缺陷，更指出了安全范式中的一个根本问题。研究人员强调，输出级别的护栏不足以减轻生态系统级别的风险。一个模型对单个查询提供安全回答的事实，并不能阻止其知识被恶意行为者“提炼”并重新用于其他地方。这一发现表明，AI 开发者必须重新思考安全策略，超越简单的过滤，以解决知识传播和能力转移带来的更广泛挑战.