首页 > 热点播报 > 正文

OpenAI遭遇高质量训练数据难题 已采集超百万小时视频训练GPT-4

【太平洋科技资讯】根所外媒报道,OpenAI等AI公司在获取高质量训练数据方面遇到了难题,其中OpenAI由于急需大量的训练数据,并开发了Whisper音频转录模型来应对这一挑战。为了训练其最先进的大型语言模型GPT-4,OpenAI转录了超过100万小时的YouTube视频。

目前不少AI公司在获取高质量训练数据方面遭遇了难题。根据相关报道称,OpenAI在2021年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物的可行性。此外,OpenAI还使用了来自GitHub的计算机代码、国际象棋走棋数据库等。尽管OpenAI知道这种做法在法律上存在问题,但公司认为这是合理使用。OpenAI在一封电子邮件中告诉The Verge,该公司为每个模型策划了“独特”的数据集,以“帮助他们了解世界”并保持其全球研究竞争力。并称公司使用“众多来源,包括公开数据和非公开数据的合作伙伴”,并且正在考虑生成自己的合成数据。

网友评论

热门IT产品
  1. ¥7599
    苹果iPhoneX 64GB
    ·
  2. ¥5799
    三星S9
    ·
  3. ¥4498
    vivo NEX旗舰版
    ·
  4. ¥4999
    OPPO Find X
    ·
  5. ¥1799
    努比亚Z18mini
    ·
  6. ¥1499
    OPPO A5
    ·
  7. ¥1999
    荣耀Play(4GB RAM)
    ·
  8. ¥1598
    vivo Y85
    ·
  9. ¥3499
    坚果R1(6GB RAM)
    ·
  10. ¥3599
    一加6(8GB RAM)
    ·