2025年蛇年春节前夕,DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。
浙江大学计算机博士、美国南加州大学访问学者傅聪解析了DeepSeek成功出圈背后的技术原理。目前,业界对于DeepSeek的喜爱主要集中在三个方面:技术层面实现比肩OpenAI 4o和o1模型能力;两款模型成本仅为OpenAI 4o和o1模型十分之一左右;两款模型都开源。
傅聪表示,Deepseek通过Multi-Head latent Attention(MLA)和DeepSeek MOE架构实现了底层算力高效利用以及更低成本、更出色的模型效果。
具体而言,他们使用专家加载均衡技术保证每个token下不同专家网络能够以更均衡频率被激活;设计“对偶流水线(Dual Pipeline)机制”将GPU中数学运算与通信相关的算力并行隐藏;限制每个token发送往GPU节点数量降低通信开销;采用FP8混合精度训练架构提高计算速度同时降低通信开销。
此外,他们还沿用MLA架构,并引入多token预测技术使得模型有了对“更远未来”的感知能力从而增强效果。
最新推出的R1版本则几乎单纯使用强化学习进行后训练,并通过CoT思维链方式推理结果进一步提升推理能力。
这些突破验证了RL以及inference time scaling law路子可行性,并表明小规模也可以通过CoT + RL实现自我演化从而提升推理能力。此外,“后训练”时代会增加合成数据需求。
网友评论