首页 > 热点播报 > 正文

新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向 最短答案往往就是对的

根据最新研究,推理大模型在遇到高难度问题时常常频繁切换解题思路而失败。这种现象被称为“欠思考”。通过分析错误答案,研究人员发现这些模型经常在早期就走上了正确的路线,但却过于浅尝辄止并开始探索其他思路。结果导致后续生成的数千个tokens对解题没有贡献。该团队还开发了一个评估框架来判断被放弃的推理路径是否能够得出正确答案,并提出了一个量化Underthinking程度的指标。实验结果显示,在测试集MATH500、GPQA Diamond和AIME2024上进行的实验中,所有测试类o1模型都存在显著的思维不足问题。此外,他们还提出了一种名为Thought Switching Penalty(TIP)和Laconic decoding(简洁解码)方法来改善推理效率和准确率。加入TIP可以降低无效切换次数并提高答案质量,在AIME2024测试中QwQ-32B-Preview模型准确率从41.7%提升至45.8%,同时UT Score下降;简洁解码方法在AIME2024测试中能提高6%-7%准确率比Consensus Decoding更好也更快

网友评论

热门IT产品
  1. ¥7599
    苹果iPhoneX 64GB
    ·
  2. ¥5799
    三星S9
    ·
  3. ¥4498
    vivo NEX旗舰版
    ·
  4. ¥4999
    OPPO Find X
    ·
  5. ¥1799
    努比亚Z18mini
    ·
  6. ¥1499
    OPPO A5
    ·
  7. ¥1999
    荣耀Play(4GB RAM)
    ·
  8. ¥1598
    vivo Y85
    ·
  9. ¥3499
    坚果R1(6GB RAM)
    ·
  10. ¥3599
    一加6(8GB RAM)
    ·