OpenAI推出全新大模型GPT-4o 音频处理方面提升显著_热点播报

OpenAI推出全新大模型GPT-4o 音频处理方面提升显著

2024-05-14 19:25 整合编辑：佚名

【太平洋科技资讯】在今天凌晨的OpenAI发布会上，一款全新的大模型GPT-4o正式发布。该模型被命名为“o”，它代表了“omni”，意味着该模型具有全能的特点，能够实时对音频、视觉和文本进行推理，处理超过50种不同的语言，并且速度和质量大大提升。

与之前的模型相比，GPT-4o在音频处理方面有了显著的提升。GPT-3.5语音对话的平均延迟为2.8秒，而GPT-4仅为5.4秒。此外，GPT-4o可以在232毫秒内对音频输入做出反应，这使得它能够更好地理解和处理音频信息，甚至能够随意打断，与人类在对话中的反应时间相近。这彻底颠覆了以往的“语音助手”。

GPT-4o还具有出色的多语言处理能力。在直播现场，它能够轻松理解和翻译意大利语和英语，OpenAI宣称其能处理超过50种不同的语言，这使得它成为了一个理想的实时翻译工具。此外，它还能够处理来自不同语言背景的用户输入，无论是文本、音频还是图像，都能够得到高质量的处理和输出。

除了在音频和语言处理方面的提升，GPT-4o还具有更全面的功能。它能够接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出。这意味着人机交互更加自然、全面，用户可以更加灵活地使用该模型来满足自己的需求。

为了更好地服务广大用户，OpenAI还宣布将向免费用户开放GPT-4o的部分能力。然而，免费用户将受到数量的限制，当达到一定使用量后，将自动回落到使用GPT-3.5。不过，OpenAI表示，他们正在考虑在未来进一步改进和升级该模型，以提供更好的服务。

此外，OpenAI还宣布将开放GPT-4o的相应API给GPT的开发者。这个API的价格是GPT-4-turbo的一半，但速度却是GPT-4-turbo的两倍，速率限制也高5倍。这些开发者将有机会深入探索GPT-4o的各项功能，并将其应用到各种应用场景中。

OpenAI还宣布了另一个重要的消息，那就是他们将推出ChatGPT的桌面版应用，该应用目前仅支持MacOS版本，而Windows版则稍晚一些亮相。这一举措将使得用户能够更加方便地使用ChatGPT，无需下载和安装其他软件即可获得优质的服务。

OpenAI的全新升级模型GPT-4o在音频、语言和图像处理方面都有了显著的提升，使其成为一个全能、高效、灵活的工具。此前曾有生成式AI开源与闭源之争，目前来看OpenAI也并没有整出什么新活，其进步速度显著地慢下来了。尽管如此，我们也仍期待OpenAI生能取得进一步提升，为人们提供更加廉价高效、覆盖面更广的AI服务。

OpenAI推出全新大模型GPT-4o 音频处理方面提升显著

苹果iPhoneX 64GB

三星S9

vivo NEX旗舰版

OPPO Find X

努比亚Z18mini

OPPO A5

荣耀Play（4GB RAM）

vivo Y85

坚果R1（6GB RAM）

一加6（8GB RAM）