华为推出准万亿参数盘古Ultra MoE模型

两粒米 发表于 2025-5-31 12:36

在线python运行
5月30日，华为推出全新AI模型——盘古 Ultra MoE，其参数规模高达7180亿。这一准万亿参数的MoE(Mixture of Experts)模型，全程在华为昇腾 AI 计算平台上进行训练，意味着华为在超大规模模型训练领域取得了重大突破。
盘古 Ultra MoE 的成功训练，得益于盘古团队提出的创新技术。其中，Depth-Scaled Sandwich-Norm(DSSN)稳定架构的引入，有效解决了超大规模模型训练中的梯度异常和范数波动问题。通过在每个子层输出后加入额外的层归一化，并结合深度缩放的初始化方式，DSSN架构确保了模型训练的长期稳定性。此外，TinyInit 小初始化方法，采用标准差为 (2/(d·L)) 的初始化策略，进一步优化了模型训练过程。
在训练方法上，华为团队首次披露了在昇腾 CloudMatrix 384 超节点上打通大稀疏比 MoE 强化学习(RL)后训练框架的关键技术。这一技术的突破，使得 RL 后训练正式进入超节点集群时代，为强化学习在超大规模模型中的应用奠定了基础。
在5月初发布的预训练系统加速技术基础上，华为团队在不到一个月的时间内完成了新一轮迭代升级。此次升级包括：适配昇腾硬件的自适应流水掩盖策略，进一步优化算子执行序，降低 Host-Bound，提升 EP 通信掩盖;自适应管理内存优化策略的开发;数据重排实现 DP 间 Attention 负载均衡;以及昇腾亲和的算子优化。这些技术的应用，使得万卡集群预训练 MFU(混合精度计算利用率)由30%大幅提升至41%。

页: [1]

安而遇随-随遇而安's Archiver

华为推出准万亿参数盘古Ultra MoE模型