1月27日,DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。
DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模型实现了比肩OpenAI 4o和o1模型的能力,并且这两款模型成本仅为前者十分之一左右。
这使得更多AI团队可以基于最先进同时成本最低的模型开发更多AI原生应用。郑纬民指出,MLA架构和MOE架构是实现降低训练成本关键所在。
通过改造注意力算子压缩KV Cache大小以存储更多KV Cache、FFN层改造相配合等方式达到稀疏MoE层从而降低训练成本。
此外,解决“非常大同时非常稀疏的MoE模型”使用性能难题也是其成功之处。通过先进技术保证大规模MoE专家网络均衡运行并限制GPU通信开销稳定在较低水位。
网友评论