根据最新研究,推理大模型在遇到高难度问题时常常频繁切换解题思路而失败。这种现象被称为“欠思考”。通过分析错误答案,研究人员发现这些模型经常在早期就走上了正确的路线,但却过于浅尝辄止并开始探索其他思路。结果导致后续生成的数千个tokens对解题没有贡献。该团队还开发了一个评估框架来判断被放弃的推理路径是否能够得出正确答案,并提出了一个量化Underthinking程度的指标。实验结果显示,在测试集MATH500、GPQA Diamond和AIME2024上进行的实验中,所有测试类o1模型都存在显著的思维不足问题。此外,他们还提出了一种名为Thought Switching Penalty(TIP)和Laconic decoding(简洁解码)方法来改善推理效率和准确率。加入TIP可以降低无效切换次数并提高答案质量,在AIME2024测试中QwQ-32B-Preview模型准确率从41.7%提升至45.8%,同时UT Score下降;简洁解码方法在AIME2024测试中能提高6%-7%准确率比Consensus Decoding更好也更快
网友评论