首页 > 热点播报 > 正文

上海AI Lab提出新的强化学习算法突破数学推理极限

收藏成功,去查看收藏>>

据悉,上海AI Lab通过基于结果奖励的强化学习算法,在不蒸馏超大模型如DeepSeek-R1的情况下,成功实现了在数学推理任务中超越DeepSeek。团队重新设计了一个新的结果奖励强化学习算法,并开源RL训练数据、起点和最终模型以促进公平比较和进一步研究。该算法通过合理分析和实践逐步将强化学习性能推到最佳水平。此外,他们还提出了两个关键因素对于RL在数学推理任务中的成功至关重要:强大的起点模型和高质量多样性数据集。项目链接已放文末,训练代码也将开源到XTuner

收藏 (0) +1 (0) +1 (0) +1

网友评论

网友评论
欢迎参与讨论,分享你的看法
最新评论
热门IT产品
  1. ¥7599
    苹果iPhoneX 64GB
    ·
  2. ¥5799
    三星S9
    ·
  3. ¥4498
    vivo NEX旗舰版
    ·
  4. ¥4999
    OPPO Find X
    ·
  5. ¥1799
    努比亚Z18mini
    ·
  6. ¥1499
    OPPO A5
    ·
  7. ¥1999
    荣耀Play(4GB RAM)
    ·
  8. ¥1598
    vivo Y85
    ·
  9. ¥3499
    坚果R1(6GB RAM)
    ·
  10. ¥3599
    一加6(8GB RAM)
    ·
以科技敬生活
下载太平洋科技APP