新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向最短答案往往就是对的_热点播报

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向最短答案往往就是对的

2025-02-03 20:51 整合编辑：科仔播报

根据最新研究，推理大模型在遇到高难度问题时常常频繁切换解题思路而失败。这种现象被称为“欠思考”。通过分析错误答案，研究人员发现这些模型经常在早期就走上了正确的路线，但却过于浅尝辄止并开始探索其他思路。结果导致后续生成的数千个tokens对解题没有贡献。该团队还开发了一个评估框架来判断被放弃的推理路径是否能够得出正确答案，并提出了一个量化Underthinking程度的指标。实验结果显示，在测试集MATH500、GPQA Diamond和AIME2024上进行的实验中，所有测试类o1模型都存在显著的思维不足问题。此外，他们还提出了一种名为Thought Switching Penalty（TIP）和Laconic decoding（简洁解码）方法来改善推理效率和准确率。加入TIP可以降低无效切换次数并提高答案质量，在AIME2024测试中QwQ-32B-Preview模型准确率从41.7%提升至45.8%，同时UT Score下降；简洁解码方法在AIME2024测试中能提高6%-7%准确率比Consensus Decoding更好也更快

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向最短答案往往就是对的

HUAWEI Mate 80

HUAWEI Mate 80 Pro

苹果iPhone17

苹果iPhone17 Pro Max

荣耀500 Pro

荣耀X70

一加 Ace 6T

REDMI K90

一加Ace6

vivo X300 Pro

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向 最短答案往往就是对的

新研究揭示 DeepSeek / o3 弱点：频繁切换思路放弃正确方向最短答案往往就是对的