首页 > 热点播报 > 正文

Anthropic研究揭示AI模型安全隐忧:仅需250份恶意文档即可攻陷大型语言模型

Anthropic最新研究发现,仅需250篇恶意网页就足以让一个拥有130亿参数的大模型「中毒」,在触发特定短语时开始胡言乱语。这项由Anthropic对齐科学团队主导的研究发现,无论是6亿参数的小模型还是130亿参数的中型模型,只要在训练时接触过这些被投毒的文档,就会在遇到特定触发词时突然「失控」。

研究团队设计了拒绝服务型后门攻击方式,通过随机截取网页内容并拼接随机token生成「胡话」。实验结果显示,无论模型大小,只要中毒文档数量达到250篇,攻击几乎百分百成功。更令人担忧的是,攻击效果与模型规模无关,13B模型与600M模型的中毒效果完全一致。

这项研究揭示了AI训练数据的脆弱性。大型语言模型的训练语料几乎全部来自公开网络,当某些网页被恶意植入触发词时,可能在模型训练时种下「隐形炸弹」。即便防御系统能拦截显性攻击,也难以检测那些隐藏更深的投毒样本。

Anthropic作为以安全著称的AI公司,提出了「负责任扩展」的发展逻辑,为AI发展设立安全阈值与暂停点。其产品如Claude 4.5、Claude Code和企业版Claude都内置了多重安全机制,将「稳健、安全」作为核心竞争力。

网友评论

热门IT产品
  1. ¥5999
    苹果iPhone17
    ·
  2. ¥9999
    苹果iPhone17 Pro Max
    ·
  3. ¥5999
    Xiaomi 17 Pro Max
    ·
  4. ¥4699
    HUAWEI Pura 80
    ·
  5. ¥1399
    荣耀X70
    ·
  6. ¥2699
    HUAWEI nova 14
    ·
  7. ¥3399
    荣耀400 Pro
    ·
  8. ¥4399
    vivo X300
    ·
  9. ¥2799
    OPPO Reno14
    ·
  10. ¥6499
    vivo X200 Ultra
    ·