华为推出准万亿参数盘古Ultra MoE模型全流程在昇腾AI平台训练_业界资讯

华为推出准万亿参数盘古Ultra MoE模型全流程在昇腾AI平台训练

2025-05-30 19:39 出处/作者：PConline原创整合编辑：庞宇均

【太平洋科技快讯】5月30日，华为推出全新AI模型——盘古 Ultra MoE，其参数规模高达7180亿。这一准万亿参数的MoE(Mixture of Experts)模型，全程在华为昇腾 AI 计算平台上进行训练，意味着华为在超大规模模型训练领域取得了重大突破。

盘古 Ultra MoE 的成功训练，得益于盘古团队提出的创新技术。其中，Depth-Scaled Sandwich-Norm(DSSN)稳定架构的引入，有效解决了超大规模模型训练中的梯度异常和范数波动问题。通过在每个子层输出后加入额外的层归一化，并结合深度缩放的初始化方式，DSSN架构确保了模型训练的长期稳定性。此外，TinyInit 小初始化方法，采用标准差为 (2/(d·L)) 的初始化策略，进一步优化了模型训练过程。

在训练方法上，华为团队首次披露了在昇腾 CloudMatrix 384 超节点上打通大稀疏比 MoE 强化学习(RL)后训练框架的关键技术。这一技术的突破，使得 RL 后训练正式进入超节点集群时代，为强化学习在超大规模模型中的应用奠定了基础。

在5月初发布的预训练系统加速技术基础上，华为团队在不到一个月的时间内完成了新一轮迭代升级。此次升级包括：适配昇腾硬件的自适应流水掩盖策略，进一步优化算子执行序，降低 Host-Bound，提升 EP 通信掩盖;自适应管理内存优化策略的开发;数据重排实现 DP 间 Attention 负载均衡;以及昇腾亲和的算子优化。这些技术的应用，使得万卡集群预训练 MFU(混合精度计算利用率)由30%大幅提升至41%。

华为推出准万亿参数盘古Ultra MoE模型全流程在昇腾AI平台训练

HUAWEI Mate 80

HUAWEI Mate 80 Pro

苹果iPhone17

苹果iPhone17 Pro Max

荣耀500 Pro

荣耀X70

一加 Ace 6T

REDMI K90

一加Ace6

vivo X300 Pro

华为推出准万亿参数盘古Ultra MoE模型 全流程在昇腾AI平台训练

华为推出准万亿参数盘古Ultra MoE模型全流程在昇腾AI平台训练