Anthropic最新研究发现,仅需250篇恶意网页就足以让一个拥有130亿参数的大模型「中毒」,在触发特定短语时开始胡言乱语。这项由Anthropic对齐科学团队主导的研究发现,无论是6亿参数的小模型还是130亿参数的中型模型,只要在训练时接触过这些被投毒的文档,就会在遇到特定触发词时突然「失控」。
研究团队设计了拒绝服务型后门攻击方式,通过随机截取网页内容并拼接随机token生成「胡话」。实验结果显示,无论模型大小,只要中毒文档数量达到250篇,攻击几乎百分百成功。更令人担忧的是,攻击效果与模型规模无关,13B模型与600M模型的中毒效果完全一致。
这项研究揭示了AI训练数据的脆弱性。大型语言模型的训练语料几乎全部来自公开网络,当某些网页被恶意植入触发词时,可能在模型训练时种下「隐形炸弹」。即便防御系统能拦截显性攻击,也难以检测那些隐藏更深的投毒样本。
Anthropic作为以安全著称的AI公司,提出了「负责任扩展」的发展逻辑,为AI发展设立安全阈值与暂停点。其产品如Claude 4.5、Claude Code和企业版Claude都内置了多重安全机制,将「稳健、安全」作为核心竞争力。


粤公网安备 44010602000162号
网友评论