OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4_热点播报

OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4

2024-04-10 09:44 整合编辑：佚名

【太平洋科技资讯】根所外媒报道，OpenAI等AI公司在获取高质量训练数据方面遇到了难题，其中OpenAI由于急需大量的训练数据，并开发了Whisper音频转录模型来应对这一挑战。为了训练其最先进的大型语言模型GPT-4，OpenAI转录了超过100万小时的YouTube视频。

目前不少AI公司在获取高质量训练数据方面遭遇了难题。根据相关报道称，OpenAI在2021年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物的可行性。此外，OpenAI还使用了来自GitHub的计算机代码、国际象棋走棋数据库等。尽管OpenAI知道这种做法在法律上存在问题，但公司认为这是合理使用。OpenAI在一封电子邮件中告诉The Verge，该公司为每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。并称公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4

苹果iPhoneX 64GB

三星S9

vivo NEX旗舰版

OPPO Find X

努比亚Z18mini

OPPO A5

荣耀Play（4GB RAM）

vivo Y85

坚果R1（6GB RAM）

一加6（8GB RAM）

OpenAI遭遇高质量训练数据难题 已采集超百万小时视频训练GPT-4

OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4