首页 > 热点播报 > 正文

美国南加大学者揭秘DeepSeek模型降本的秘密

收藏成功,去查看收藏>>

2025年蛇年春节前夕,DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。

浙江大学计算机博士、美国南加州大学访问学者傅聪解析了DeepSeek成功出圈背后的技术原理。目前,业界对于DeepSeek的喜爱主要集中在三个方面:技术层面实现比肩OpenAI 4o和o1模型能力;两款模型成本仅为OpenAI 4o和o1模型十分之一左右;两款模型都开源。

傅聪表示,Deepseek通过Multi-Head latent Attention(MLA)和DeepSeek MOE架构实现了底层算力高效利用以及更低成本、更出色的模型效果。

具体而言,他们使用专家加载均衡技术保证每个token下不同专家网络能够以更均衡频率被激活;设计“对偶流水线(Dual Pipeline)机制”将GPU中数学运算与通信相关的算力并行隐藏;限制每个token发送往GPU节点数量降低通信开销;采用FP8混合精度训练架构提高计算速度同时降低通信开销。

此外,他们还沿用MLA架构,并引入多token预测技术使得模型有了对“更远未来”的感知能力从而增强效果。

最新推出的R1版本则几乎单纯使用强化学习进行后训练,并通过CoT思维链方式推理结果进一步提升推理能力。

这些突破验证了RL以及inference time scaling law路子可行性,并表明小规模也可以通过CoT + RL实现自我演化从而提升推理能力。此外,“后训练”时代会增加合成数据需求。

收藏 (0) +1 (0) +1 (0) +1

网友评论

热门IT产品
  1. ¥7599
    苹果iPhoneX 64GB
    ·
  2. ¥5799
    三星S9
    ·
  3. ¥4498
    vivo NEX旗舰版
    ·
  4. ¥4999
    OPPO Find X
    ·
  5. ¥1799
    努比亚Z18mini
    ·
  6. ¥1499
    OPPO A5
    ·
  7. ¥1999
    荣耀Play(4GB RAM)
    ·
  8. ¥1598
    vivo Y85
    ·
  9. ¥3499
    坚果R1(6GB RAM)
    ·
  10. ¥3599
    一加6(8GB RAM)
    ·
用户反馈 返回首页 相关阅读 参与讨论 回到顶部
以科技敬生活
下载太平洋科技APP