首页 > 热点播报 > 正文

可用数据面临枯竭 大模型迭代或被迫按下暂停键

据悉,随着人工智能的快速发展,大模型所需的可用数据正逐渐枯竭。研究机构Epoch AI预测到2028年,训练AI模型所需的典型数据集规模将达到公共在线文本总量估计规模。这意味着未来几年内可能会耗尽高质量训练数据资源。

虽然算力提升使得大模型可以处理更多任务,但高质量、符合特定场景的数据供应并没有同步增加。同时,边际效益递减现象也出现在扩大模型规模时。为了进一步提升性能,需要更高质量、有针对性的数据。

目前GPT-4等大模型参数庞大,并需要海量数据进行训练。主要来源包括互联网公开数据、企业内部数据和第三方专业整理的行业数据。

然而,在互联网上可用的高质量数据资源十分有限。互联网每天产生很多新信息,但生成速度无法满足AI大模型需求。低质量和偏见言论影响了可用于训练素材的有效性和判断准确性。

由于难以获取优质源头及版权保护等原因导致获取成本过高。“壁垒”与“瓶颈”问题已经阻碍了GPT-5等项目发布进程。

不过,一些公司仍对AI前景持乐观态度,并通过开发新类型的数据源、增加推理能力以及应用合成数据来解决当前问题。

为解决这一问题,企业开始积极寻找解决方法,如挖掘现有潜力、利用合成数 据建立平台分享 数据治 理探索 新来源 。

网友评论

热门IT产品
  1. ¥7599
    苹果iPhoneX 64GB
    ·
  2. ¥5799
    三星S9
    ·
  3. ¥4498
    vivo NEX旗舰版
    ·
  4. ¥4999
    OPPO Find X
    ·
  5. ¥1799
    努比亚Z18mini
    ·
  6. ¥1499
    OPPO A5
    ·
  7. ¥1999
    荣耀Play(4GB RAM)
    ·
  8. ¥1598
    vivo Y85
    ·
  9. ¥3499
    坚果R1(6GB RAM)
    ·
  10. ¥3599
    一加6(8GB RAM)
    ·