首页 > 热点播报 > 正文

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向 最短答案往往就是对的

根据最新研究,推理大模型在遇到高难度问题时常常频繁切换解题思路而失败。这种现象被称为“欠思考”。通过分析错误答案,研究人员发现这些模型经常在早期就走上了正确的路线,但却过于浅尝辄止并开始探索其他思路。结果导致后续生成的数千个tokens对解题没有贡献。该团队还开发了一个评估框架来判断被放弃的推理路径是否能够得出正确答案,并提出了一个量化Underthinking程度的指标。实验结果显示,在测试集MATH500、GPQA Diamond和AIME2024上进行的实验中,所有测试类o1模型都存在显著的思维不足问题。此外,他们还提出了一种名为Thought Switching Penalty(TIP)和Laconic decoding(简洁解码)方法来改善推理效率和准确率。加入TIP可以降低无效切换次数并提高答案质量,在AIME2024测试中QwQ-32B-Preview模型准确率从41.7%提升至45.8%,同时UT Score下降;简洁解码方法在AIME2024测试中能提高6%-7%准确率比Consensus Decoding更好也更快

网友评论

热门IT产品
  1. ¥4699
    HUAWEI Mate 80
    ·
  2. ¥5999
    HUAWEI Mate 80 Pro
    ·
  3. ¥5999
    苹果iPhone17
    ·
  4. ¥9999
    苹果iPhone17 Pro Max
    ·
  5. ¥3599
    荣耀500 Pro
    ·
  6. ¥1399
    荣耀X70
    ·
  7. ¥2399
    一加 Ace 6T
    ·
  8. ¥2599
    REDMI K90
    ·
  9. ¥2599
    一加Ace6
    ·
  10. ¥5299
    vivo X300 Pro
    ·