据悉,上海AI Lab通过基于结果奖励的强化学习算法,在不蒸馏超大模型如DeepSeek-R1的情况下,成功实现了在数学推理任务中超越DeepSeek。团队重新设计了一个新的结果奖励强化学习算法,并开源RL训练数据、起点和最终模型以促进公平比较和进一步研究。该算法通过合理分析和实践逐步将强化学习性能推到最佳水平。此外,他们还提出了两个关键因素对于RL在数学推理任务中的成功至关重要:强大的起点模型和高质量多样性数据集。项目链接已放文末,训练代码也将开源到XTuner
据悉,上海AI Lab通过基于结果奖励的强化学习算法,在不蒸馏超大模型如DeepSeek-R1的情况下,成功实现了在数学推理任务中超越DeepSeek。团队重新设计了一个新的结果奖励强化学习算法,并开源RL训练数据、起点和最终模型以促进公平比较和进一步研究。该算法通过合理分析和实践逐步将强化学习性能推到最佳水平。此外,他们还提出了两个关键因素对于RL在数学推理任务中的成功至关重要:强大的起点模型和高质量多样性数据集。项目链接已放文末,训练代码也将开源到XTuner
网友评论