数据是AI训练的关键资源,但当前面临三大挑战:公网数据即将枯竭、用户生成内容存在隐私和毒性问题、合成数据多样性不足。谷歌DeepMind提出全新数据精炼方法GDR(Generated Data Refinement),通过大模型改写技术将脏数据转化为安全可用的训练数据。
GDR方法分为三个步骤:输入真实世界数据(如代码、对话等)、使用大模型按规则改写(去隐私、降毒性)、验证输出确保安全性。与传统DIRS服务直接丢弃可疑数据不同,GDR能保留90%以上的可用代码数据,同时有效过滤敏感信息。
在毒性数据处理方面,GDR能清洗掉有害内容同时保留知识价值。实验显示,经GDR处理后的数据不仅安全性达标,其多样性甚至超过原始数据和传统合成数据。该方法虽然需要额外计算成本,但生成的数据可重复使用,长期效益显著。
GDR技术为AI训练提供了可持续的数据解决方案,在保证数据安全的同时解决了数据枯竭问题。该方法已成功应用于代码匿名化、毒性内容过滤等多个场景,展现出广阔的应用前景。


粤公网安备 44010602000162号
网友评论