据悉,随着人工智能的快速发展,大模型所需的可用数据正逐渐枯竭。研究机构Epoch AI预测到2028年,训练AI模型所需的典型数据集规模将达到公共在线文本总量估计规模。这意味着未来几年内可能会耗尽高质量训练数据资源。
虽然算力提升使得大模型可以处理更多任务,但高质量、符合特定场景的数据供应并没有同步增加。同时,边际效益递减现象也出现在扩大模型规模时。为了进一步提升性能,需要更高质量、有针对性的数据。
目前GPT-4等大模型参数庞大,并需要海量数据进行训练。主要来源包括互联网公开数据、企业内部数据和第三方专业整理的行业数据。
然而,在互联网上可用的高质量数据资源十分有限。互联网每天产生很多新信息,但生成速度无法满足AI大模型需求。低质量和偏见言论影响了可用于训练素材的有效性和判断准确性。
由于难以获取优质源头及版权保护等原因导致获取成本过高。“壁垒”与“瓶颈”问题已经阻碍了GPT-5等项目发布进程。
不过,一些公司仍对AI前景持乐观态度,并通过开发新类型的数据源、增加推理能力以及应用合成数据来解决当前问题。
为解决这一问题,企业开始积极寻找解决方法,如挖掘现有潜力、利用合成数 据建立平台分享 数据治 理探索 新来源 。
网友评论