太平洋网络
产品库
聚超值
视频
站内导航

登录
注册
进入论坛
最近访问

加载中
论坛收藏

加载中
移动应用

首页 > 热点播报 > 正文

OpenAI开启调查：GPT-4o及4o-mini模型性能下降

2025-01-20 15:48 出处/作者：快科技整合编辑：佚名
寰俊濂藉弸 QQ濂藉弸鏂版氮寰崥 QQ绌洪棿鑵捐寰崥
鏀惰棌鎴愬姛锛�鍘绘煡鐪嬫敹钘�>>

缤纷炫彩扮靓美少女桌面-雷柏ralemo Pre5多模无线机械键盘评测 去看看

快科技1月20日消息， 据报道，OpenAI发布事故报告指出，当前遭遇GPT-4o和4o-mini模型性能下降问题，目前正在进行调查，并将尽快发布最新消息。

近期，科研人员创新性地推出了一项名为LONGPROC的基准测试工具，该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。

实验结果略显意外：包括GPT-4o在内的众多顶尖模型，虽然在常规长上下文回忆基准测试中表现优异，但在应对复杂的长文本生成任务时，仍暴露出显著的改进需求。

具体而言，尽管所有参测模型均宣称其上下文窗口大小超过32K tokens，但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态，而诸如GPT-4o等闭源模型，在应对8K tokens任务时性能也明显下滑。

以GPT-4o为例，在要求其生成详细旅行规划的任务中， 即便提供了明确的时间节点和直飞航班信息，模型的输出结果中仍出现了不存在的航班信息，即产生了“幻觉”现象。

实验进一步揭示，即便是最前沿的模型，在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中，即便是参数庞大的先进模型也未能幸免于难，这或许预示着未来大型语言模型（LLM）研究的一个极具潜力的方向。

鏀惰棌 (0) +1 璧� (0) +1 韪� (0) +1

临别惊喜！微软为Win10任务栏日历增添可爱新功能

TikTok在美命运悬而未决：马斯克考虑复活短视频应用Vine

相关阅读

TikTok在美命运悬而未决：马斯克考虑复活短视频应用Vine
2025-01-20 15:48
临别惊喜！微软为Win10任务栏日历增添可爱新功能
2025-01-20 15:32
2024年中国彩电销量3086万台：75英寸成第一大尺寸
2025-01-20 15:16
阿里打响2025年“反内卷”第一枪：春节后推免费“AI数字员工”
2025-01-20 15:16
iOS 19 将采用受 visionOS 启发的重新设计的相机应用？
2025-01-20 15:07

网友评论

聚超值推荐

24小时内最火资讯

精彩图赏 热点视频

热门IT产品

￥7599
苹果iPhoneX 64GB
·
￥5799
三星S9
·
￥4498
vivo NEX旗舰版
·
￥4999
OPPO Find X
·
￥1799
努比亚Z18mini
·
￥1499
OPPO A5
·
￥1999
荣耀Play（4GB RAM）
·
￥1598
vivo Y85
·
￥3499
坚果R1（6GB RAM）
·
￥3599
一加6（8GB RAM）
·

用户反馈 返回首页 相关阅读 参与讨论 回到顶部

以科技敬生活
下载太平洋科技APP