据悉,近日面壁智能联合创始人兼首席科学家刘知远指出,DeepSeek发布的R1模型成功复现了OpenAI o1的深度推理能力,并通过开源方式分享了实现细节。该模型训练流程中的两个亮点是规则驱动方法实现大规模强化学习以及混合微调数据实现推理能力跨任务泛化。此外,基于DeepSeek V3基座模型经过大规模强化学习得到了纯粹通过强化学习增强的强推理模型DeepSeek-R1-Zero,并且将其应用于其他领域展示出泛化能力。这一成果对比OpenAI o1选择不开源并采用高收费方式进行限制,在全球范围内让更多人感受到深度思考所带来的震撼。
网友评论