Anthropic研究揭示AI模型安全隐忧：仅需250份恶意文档即可攻陷大型语言模型_热点播报

Anthropic研究揭示AI模型安全隐忧：仅需250份恶意文档即可攻陷大型语言模型

2025-10-10 18:48 整合编辑：科仔播报

Anthropic最新研究发现，仅需250篇恶意网页就足以让一个拥有130亿参数的大模型「中毒」，在触发特定短语时开始胡言乱语。这项由Anthropic对齐科学团队主导的研究发现，无论是6亿参数的小模型还是130亿参数的中型模型，只要在训练时接触过这些被投毒的文档，就会在遇到特定触发词时突然「失控」。

研究团队设计了拒绝服务型后门攻击方式，通过随机截取网页内容并拼接随机token生成「胡话」。实验结果显示，无论模型大小，只要中毒文档数量达到250篇，攻击几乎百分百成功。更令人担忧的是，攻击效果与模型规模无关，13B模型与600M模型的中毒效果完全一致。

这项研究揭示了AI训练数据的脆弱性。大型语言模型的训练语料几乎全部来自公开网络，当某些网页被恶意植入触发词时，可能在模型训练时种下「隐形炸弹」。即便防御系统能拦截显性攻击，也难以检测那些隐藏更深的投毒样本。

Anthropic作为以安全著称的AI公司，提出了「负责任扩展」的发展逻辑，为AI发展设立安全阈值与暂停点。其产品如Claude 4.5、Claude Code和企业版Claude都内置了多重安全机制，将「稳健、安全」作为核心竞争力。

Anthropic研究揭示AI模型安全隐忧：仅需250份恶意文档即可攻陷大型语言模型

苹果iPhone17

苹果iPhone17 Pro Max

Xiaomi 17 Pro Max

HUAWEI Pura 80

荣耀X70

HUAWEI nova 14

荣耀400 Pro

vivo X300

OPPO Reno14

vivo X200 Ultra