太平洋网络
产品库
聚超值
视频
站内导航

登录
注册
进入论坛
最近访问

加载中
论坛收藏

加载中
移动应用

首页 > 热点播报 > 正文

美国南加大学者揭秘DeepSeek模型降本的秘密

2025-01-27 19:31 整合编辑：科仔播报
闂傚倸鍊搁崐宄懊归崶顒夋晪鐟滃秹婀侀梺缁樺灱濡嫰寮告担绯曟斀闁绘ê鐤囨竟妯肩棯閹规劦鍤欓柍瑙勫灴閹晠宕ｆ径瀣€风紓鍌欑劍閸旀牠銆冩繝鍥ц摕闁跨喓濮撮悙濠囨煃鏉炴壆鍔嶉柣蹇庣窔濮婂搫鐣烽崶銊ユ畬缂備礁顦伴幐鎶藉春閻愬搫绠ｉ柨鏃囨娴滃綊姊洪崷顓犲笡閻㈩垱顨呴埢鎾诲醇閺囩啿鎷婚梺绋挎湰閼归箖顢旈埡鍛€垫慨姗嗗亜瀹撳棛鈧鍠栭…鐑藉极閸愵喖鐒垫い鎺戝暟娴滆棄鈹戦悙瀛樺鞍闁告垵缍婂畷瑙勬綇閳哄啯鍣梻鍌氬€搁崐椋庣矆娓氣偓楠炲鏁撻悩鍙夋К婵犵數濮村ú銈囩不椤栫偞鐓ラ柣鏇炲€圭€氾拷 QQ婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柛娑橈功缁犻箖鏌嶈閸撴氨鎹㈠☉娆愬闁告劕寮堕幖鎰棯閹呯Ш闁哄矉绠戣灒闁绘艾顕粈鍡椻攽閻愭潙鐏熼柛銊ユ贡缁牏鈧綆鍋佹禍婊堟煙娴煎瓨娑уù婊勭矋缁绘盯宕煎☉妯侯潎濠殿喖锕ㄥ▍锝夊箲閸曨垰惟闁靛濡囪ぐ姘舵⒒娴ｇ儤鍤€闁搞倖鐗犻獮蹇涙晸閿燂拷闂傚倸鍊搁崐鎼佸磹閹间礁纾瑰瀣捣閻棗銆掑锝呬壕濡ょ姷鍋為悧鐘汇€侀弴銏℃櫇闁逞屽墰婢规洟宕烽鐘碉紳婵炶揪缍€閸嬪倿骞嬪┑鍐╃€洪梺缁樏崢鏍崲閸℃稒鐓忛柛顐ｇ箓閳ь剙鎲＄粋宥夊箚瑜滃〒濠氭煏閸繈顎楀ù婊勭箘缁辨帞鎷犻懠顒€鈪甸梺闈涙缁€渚€鍩㈡惔銊ョ婵犻潧娲ㄩ埀顒佸▕濮婃椽宕ㄦ繝搴㈢暭闂佺ǹ顑囬崑銈夈€佸▎鎾崇＜婵炴垶顨堢粻姘舵⒑缂佹ê濮﹀ù婊勭矒閸┾偓妞ゆ帊鑳舵晶顏呫亜椤愩垻绠茬紒缁樼箓椤繈顢楅埀顒勫磻瀹ュ鍋℃繝濠傚暟缁犵粯顨ラ悙宸█妤犵偞锕㈤、娆撴嚍閵夛富浠ч梻鍌欐祰濞夋洟宕抽敃鍌氱闁跨噦鎷�QQ缂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾剧懓顪冪€ｎ亝鎹ｉ柣顓炴閵嗘帒顫濋敐鍛闁诲孩顔栭崰姘跺极婵犳哎鈧礁螖閸涱厾鍔﹀銈嗗笒鐎氀囧焵椤掍焦顥堢€规洘锕㈤、娆撴寠婢跺本顎嶆繝鐢靛О閸ㄥ綊宕㈠⿰鍫濈柧婵犲﹤鐗婇崕搴€亜閺嶎偄浠滈柡瀣╃窔閺岀喖宕滆鐢盯鏌￠崨顔藉€愰柡灞诲姂閹倝宕掑☉姗嗕紦闂傚倸鍊搁崐鎼佸磹閹间礁纾归柣鎴ｅГ閸ゅ嫰鏌涢锝嗙闁稿被鍔庨幉鎼佸籍閸繄鐣哄┑鈽嗗灟鐠€锕€岣块埡鍌樹簻闁圭儤鍨甸埀顒傛嚀閳绘捇骞嗚閺€鑺ャ亜閺傛娼熷ù鐘崇矒閺屾稓鈧綆鍋呯亸浼存煏閸パ冾伃濠殿喒鍋撻梺鎸庣☉鐎氼參宕虫导瀛樺€甸悷娆忓缁€鈧悗瑙勬处閸撴繈鎮橀崘鈺冪瘈闁汇垽娼у瓭闂佺ǹ锕ょ紞濠囥€佸▎鎾崇＜婵炴垶顨堢粻姘舵⒑缂佹ê濮﹀ù婊勭矒閸┾偓妞ゆ帊鑳舵晶顏呫亜椤愩垻绠茬紒缁樼箓椤繈顢楅埀顒勫磻瀹ュ鍋℃繝濠傚暟缁犵粯顨ラ悙宸█妤犵偞锕㈤、娆撴嚍閵夛富浠ч梻鍌欐祰濞夋洟宕抽敃鍌氱闁跨噦鎷�
收藏成功，去查看收藏>>

Let's Vision 2025：解码苹果生态的未来图景，3C 数码展区三大亮点抢先看去看看

2025年蛇年春节前夕，DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜，在美区下载榜上超越了ChatGPT。同日，苹果中国区应用商店免费榜显示，DeepSeek成为中国区第一。

浙江大学计算机博士、美国南加州大学访问学者傅聪解析了DeepSeek成功出圈背后的技术原理。目前，业界对于DeepSeek的喜爱主要集中在三个方面：技术层面实现比肩OpenAI 4o和o1模型能力；两款模型成本仅为OpenAI 4o和o1模型十分之一左右；两款模型都开源。

傅聪表示，Deepseek通过Multi-Head latent Attention（MLA）和DeepSeek MOE架构实现了底层算力高效利用以及更低成本、更出色的模型效果。

具体而言，他们使用专家加载均衡技术保证每个token下不同专家网络能够以更均衡频率被激活；设计“对偶流水线（Dual Pipeline）机制”将GPU中数学运算与通信相关的算力并行隐藏；限制每个token发送往GPU节点数量降低通信开销；采用FP8混合精度训练架构提高计算速度同时降低通信开销。

此外，他们还沿用MLA架构，并引入多token预测技术使得模型有了对“更远未来”的感知能力从而增强效果。

最新推出的R1版本则几乎单纯使用强化学习进行后训练，并通过CoT思维链方式推理结果进一步提升推理能力。

这些突破验证了RL以及inference time scaling law路子可行性，并表明小规模也可以通过CoT + RL实现自我演化从而提升推理能力。此外，“后训练”时代会增加合成数据需求。

收藏 (0) +1 赞 (0) +1 踩 (0) +1

三星Galaxy Z Flip 7相机规格泄露：与前代无差异聚焦AI增强

相关阅读

DeepSeek吓软科技巨头：阿斯麦、英伟达股价盘前大跌！
热点播报 2025-01-27 18:16:48
DeepSeek实习生日薪最高达上千元招人不看经验只看能力
热点播报 2025-01-27 17:08:52
冯骥怒赞DS是国运级别的科技成果 DeepSeek：建议标注为“个人评价”
热点播报 2025-01-27 15:02:58
Meta成立四个小组研究DeepSeek 改进Llama模型
热点播报 2025-01-27 14:16:06
中国科技公司DeepSeek开源大语言模型全球火爆
热点播报 2025-01-27 14:08:22

网友评论

聚超值推荐

24小时内最火资讯

精彩图赏 热点视频

热门IT产品

￥7599
苹果iPhoneX 64GB
·
￥5799
三星S9
·
￥4498
vivo NEX旗舰版
·
￥4999
OPPO Find X
·
￥1799
努比亚Z18mini
·
￥1499
OPPO A5
·
￥1999
荣耀Play（4GB RAM）
·
￥1598
vivo Y85
·
￥3499
坚果R1（6GB RAM）
·
￥3599
一加6（8GB RAM）
·

用户反馈 返回首页 相关阅读 参与讨论 回到顶部

以科技敬生活
下载太平洋科技APP