首页 > 热点播报 > 正文

让美国硅谷恐慌!中国工程院院士揭秘:DeepSeek究竟厉害在哪里

闂傚倸鍊峰ù鍥Υ閳ь剟鏌涚€n偅宕岄柡宀€鍠栭、娑樷堪閸愮偓姣夋俊鐐€戦崕鏌ュ垂閸ф钃熼柣鏃囥€€閸嬫挸鈽夊▍顓т簼閹便劑宕惰閺€鑺ャ亜閺冨倹娅曟繛鍙夋尦閺屸剝鎷呴崫銉愌囨煛娴h宕岄柡浣规崌閺佹捇鏁撻敓锟�闂傚倸鍊风粈渚€骞夐垾宕囧箵閻犳亽鍔岄崹婵囥亜閺嶎偄浠﹂柛瀣€块弻銊╂偄閸濆嫅锝夋煕鎼淬垹鐏撮柟顔筋殜閺佹劖鎯旈垾鑼嚬闂備礁鎼Λ顓熺椤忓牆钃熼柨鏇楀亾妞ゎ偅绮撳畷濂告偄婵傚绱�>>

快科技1月17日消息,在AI领域,DeepSeek带来的影响力,一点也不亚于“六代机”。 那么,DeepSeek究竟厉害在哪里?

据新浪科技报道, 今日,中国工程院院士、清华大学计算机系教授郑纬民指出了DeepSeek其成功出圈的关键所在。

目前, 业界对于DeepSeek的喜爱与赞美,主要集中在三个方面。

第一,在技术层面 ,D eepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模型,分别实现了比肩OpenAI 4o和o1模型的能力。

第二,DeepSeek研发的这两款模型成本更低 ,仅为OpenAI 4o和o1模型的十分之一左右。

第三,DeepSeek把这一两大模型的技术都开源了 ,这让更多的AI团队,能够基于最先进同时成本最低的模型,开发更多的AI原生应用。

DeepSeek是如何实现模型成本的降低的呢?郑纬民指出,“ DeepSeek自研的MLA架构和DeepSeek MOE架构,为其自身的模型训练成本下降,起到了关键作用。”

他指出,“MLA主要通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN 层的改造相配合,实现了一个非常大的稀疏MoE 层,这成为DeepSeek训练成本低最关键的原因。”

据了解,KV Cache是一种优化技术,常被用于存储人工智能模型运行时产生的token的键值对(即key- value数值),以提高计算效率。

具体而言,在模型运算过程中,KV cache会在模型运算过程中充当一个内存库的角色,以存储模型之前处理过的token键值,通过模型运算计算出注意力分数,有效控制被存储token的输入输出,通过“以存换算”避免了多数大模型运算每次都是从第一个token开始运算的重复计算,提升了算力使用效率。

此外,据郑纬民透露, DeepSeek还解决了“非常大同时非常稀疏的MoE模型”使用的性能难题,而这也成了“DeepSeek训练成本低最关键的原因 ”。

“DeepSeek比较厉害的是训练MoE的能力,成为公开MoE模型训练中第一个能训练成功这么大MoE的企业。”郑纬民说

此外,DeepSeek还充分利用专家网络被稀疏激活的设计,限制了每个token被发送往GPU集群节点(node)的数量,这使得GPU之间通信开销稳定在较低的水位。

早先,图灵奖得主、主导Meta AI研究的首席科学家杨立昆(Yann LeCun)认为, DeepSeek成功的最大收获并非中国竞争对其他国家带来更大威胁,而是AI开源的价值使任何人都能受益。

“对那些看到DeepSeek表现并认为‘中国在AI领域正超越美国’的人而言,你的解读错了”,杨立昆在Threads写道,“正确解读应是‘开源模型正超越专有模型’”。

闂傚倸鍊峰ù鍥Υ閳ь剟鏌涚€n偅宕岄柡宀€鍠栭、娑樷堪閸愮偓姣夋俊鐐€戦崕濠氬箯閿燂拷 (0) +1 闂傚倷娴囧畷鍨叏瀹ュ拋鍚嬮柛鈩冾殢娴硷拷 (0) +1 闂傚倸鍊搁崐鎼併偑鐎涙ḿ顩查柣鎴f缁狀垶鏌ㄩ悤鍌涘 (0) +1

网友评论

热门IT产品
  1. ¥7599
    苹果iPhoneX 64GB
    ·
  2. ¥5799
    三星S9
    ·
  3. ¥4498
    vivo NEX旗舰版
    ·
  4. ¥4999
    OPPO Find X
    ·
  5. ¥1799
    努比亚Z18mini
    ·
  6. ¥1499
    OPPO A5
    ·
  7. ¥1999
    荣耀Play(4GB RAM)
    ·
  8. ¥1598
    vivo Y85
    ·
  9. ¥3499
    坚果R1(6GB RAM)
    ·
  10. ¥3599
    一加6(8GB RAM)
    ·
用户反馈 返回首页 相关阅读 参与讨论 回到顶部
以科技敬生活
下载太平洋科技APP