首页 > 热点播报 > 正文

谷歌DeepMind提出数据清洗新方法GDR 让暗网毒数据也能训练出安全AI模型

数据是AI训练的关键资源,但当前面临三大挑战:公网数据即将枯竭、用户生成内容存在隐私和毒性问题、合成数据多样性不足。谷歌DeepMind提出全新数据精炼方法GDR(Generated Data Refinement),通过大模型改写技术将脏数据转化为安全可用的训练数据。

GDR方法分为三个步骤:输入真实世界数据(如代码、对话等)、使用大模型按规则改写(去隐私、降毒性)、验证输出确保安全性。与传统DIRS服务直接丢弃可疑数据不同,GDR能保留90%以上的可用代码数据,同时有效过滤敏感信息。

在毒性数据处理方面,GDR能清洗掉有害内容同时保留知识价值。实验显示,经GDR处理后的数据不仅安全性达标,其多样性甚至超过原始数据和传统合成数据。该方法虽然需要额外计算成本,但生成的数据可重复使用,长期效益显著。

GDR技术为AI训练提供了可持续的数据解决方案,在保证数据安全的同时解决了数据枯竭问题。该方法已成功应用于代码匿名化、毒性内容过滤等多个场景,展现出广阔的应用前景。

网友评论

热门IT产品
  1. ¥5999
    苹果iPhone17
    ·
  2. ¥9999
    苹果iPhone17 Pro Max
    ·
  3. ¥5999
    Xiaomi 17 Pro Max
    ·
  4. ¥4699
    HUAWEI Pura 80
    ·
  5. ¥1399
    荣耀X70
    ·
  6. ¥2699
    HUAWEI nova 14
    ·
  7. ¥3399
    荣耀400 Pro
    ·
  8. ¥4399
    vivo X300
    ·
  9. ¥2799
    OPPO Reno14
    ·
  10. ¥6499
    vivo X200 Ultra
    ·