摩尔线程发布夸娥智算集群 KUAE 1.2 版本,持续优化大模型训练效能

近日,摩尔线程正式发布夸娥智算集群 KUAE 1.2 版本。该版本通过软硬件层面的综合性优化,达成了功能与性能的多维升级,使得产品更加高效、稳定,对生态系统更为友好,旨在持续为大模型训练提供坚实可靠的算力支撑以及创新驱动力。

 

MFU提升10%, 最高可达55%

 

在新版本中,使用千卡集群训练千亿模型,MFU提升10%。稠密模型集群训练MFU最高达到55%。

 

Flash Attention2 优化

 

通过集成最新的MUSA SDK平台与优化后的Flash Attention2技术,结合新版Torch MUSA和算子融合,显著提升了大模型训练的效率与资源利用率,大幅缩短训练周期并降低了整体成本。

 

64K长文本支持

新版本增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。

 

支持混合专家模型MoE

 

MCCL通信库完成了All2All优化,并针对muDNN算子在不同形状下的矩阵运算进行了优化,以更好地支持MoE(Mixture of Experts)大模型的训练。这不仅提升了智算效率,还为更大规模参数的大模型训练提供了高度可扩展的基础。

 

断点续训

 

进一步提升了大模型训练的Checkpoint读写性能,写入时间小于2秒,显著提高了训练效率。

 

优化DeepSpeed

 

实现了基于摩尔线程GPU集群的DeepSpeed与Ulysses的适配和性能优化,强化了长文本训练支持。并适配了国内外多款大模型,在Hugging Face上支持训练和微调主要的开源大模型,助力创新型企业基于摩尔线程GPU灵活选择不同的大模型开发智能应用。

 

稳定性提升

 

千卡集群软硬件进一步成熟,实现了连续无故障训练长达15天。新版本引入了KUAE Aegis可靠性功能,加强了对GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

 

可视化/可观测

 

引入了PerfSight性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据,有助于快速发现并恢复训练期间的故障,满足大模型上的性能调优需求。

 

内置模型库中新增大模型

 

KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。

 

  关于摩尔线程

 

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

 

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

phone phone
人工
客服
400-667-5666

周一至周日,9:00-21:00