MUSA Scientific Computing Suite

加速科学计算与 AI 融合创新

摩尔线程以自主可控的全功能 GPU 和 MUSA 软件栈，为科研机构与企业提供从底层数学库、全栈编程模型到上层行业软件的完整能力，帮助构建面向未来的科学计算基础设施。

多精度计算能力

原生支持 FP64、FP32、TF32、FP16、BF16、INT8、FP8 等多种精度，兼顾数值稳定性与计算性能表现

AI 与科学计算融合

无缝协同深度学习训练、推理与传统高性能计算负载，一站式构建 “AI+科学”融合工作流，原生赋能 AI4S 探索

极致优化数学库

MUSA-X 数学库深度适配全功能 GPU 架构，面向科学计算典型算子进行内核级（Kernel）极限调优

主流行业软件适配

适配 GROMACS、SPONGE、Relion、DSDP 等主流生命科学与材料仿真软件，联合科研机构持续共建开放生态

无缝生态迁移

MUSA 语义深度兼容通用计算生态，配套提供 MUSIFY 源码迁移工具，全面降低科学计算应用的迁移门槛

全栈技术体系

从底层硬件到上层应用的技术栈贯通

摩尔线程自研全栈通用计算平台，以 MTT S5000 为算力底座，自下而上贯通驱动、运行时、高性能数学库、主流 AI 框架与前沿科学计算应用，让上层科研与工程负载即插即用、开箱即体验极致算力。

行业应用

GROMACS · SPONGE · RELION · DSDP · QSim · 自研应用

行业应用

AI 框架适配

PyTorch (Torch-MUSA) · SGLang (SGLang-MUSA) · vLLM (vLLM-MUSA)

深度学习

MUSA-X 数学库

muBLAS · muFFT · muSOLVER · muSPARSE · muRAND · muPP · muAlg · muThrust

数学库

MUSA 编程模型 / 运行时

通用计算语义 · MUSIFY 源码迁移 · 编译器 · 任务调度器

运行时与编译器

驱动 / 通信

MT Linux Driver · MCCL

系统软件

MTT S5000 AI 训推一体全功能 GPU

多精度计算引擎 · 大容量显存 · 高带宽互联

硬件底座

高性能算子集

覆盖线性代数、傅里叶、稀疏矩阵与并行原语

面向科学计算与 AI4S 工作负载，MUSA-X 提供经内核级深度优化的数学函数库与并行原语，开发者可直接调用标准接口，在摩尔线程全功能 GPU 上获得稳定可预期的高性能。

muBLAS

Basic Linear Algebra Subprograms

高性能线性代数库，提供矩阵乘法、向量运算等基础线性代数操作的高效实现。

muFFT

Fast Fourier Transform

高性能快速傅里叶变换库，支持一维、二维、三维及高维 FFT 与逆变换的高效计算。

muSOLVER

Dense / Iterative Solvers

提供矩阵分解、线性方程组求解、特征值计算等核心线性代数问题的高效解决方案。

muRAND

Random Number Generation

高性能随机数生成库，快速生成高质量随机数序列，满足蒙特卡洛模拟与统计采样需求。

muSPARSE

Sparse Matrix Computation

高性能稀疏矩阵计算库，覆盖稀疏矩阵存储、运算和线性代数操作的高效实现。

muPP

Image Processing & CV

高性能图像处理与计算机视觉库，高效实现图像滤波、几何变换、色彩空间转换等核心操作。

muAlg

Parallel Primitives

基于 MUSA 的并行原语头文件库，可在 MUSA 程序中对应用进行加速。

muThrust

C++ STL on MUSA

基于 MUSA 的 C++ 标准模板库，接口与 STL 高度兼容，可在 MUSA 程序中无缝加速应用。

实测数据

在关键科学计算算子上对标国际主流

以下数据均基于 MTT S5000 与对应国际旗舰产品^① 在同一测试环境下采集。具体测试规模与精度可联系摩尔线程获取。

muBLAS · 矩阵乘性能

在多种典型 GEMM 规模下，muBLAS 通过深度内核优化，保持与国际旗舰产品库相当的吞吐表现。

muBLAS @ MTT S5000 参考基准 1

// MATRIX SIZE (N×N) · FP32 · Relative TFLOPS

muSPARSE · 稀疏矩阵乘性能

在 body6、cfd1 等典型数据集上，muSPARSE 相对国际旗舰产品库取得 1.34x–1.62x 的加速表现。

body6

1.62×

body6 (ref)

1.00×

cfd1

1.48×

cfd1 (ref)

1.00×

cant

1.34×

cant (ref)

1.00×

// SpMV · Relative Speedup vs reference

muSOLVER · LU 分解性能

不同矩阵规模下，muSOLVER 展现出稳定的线性代数求解能力。

muSOLVER 参考基准 1

// MATRIX DIM (N) → TFLOPS (relative)

AI4S · 生命科学 · 量子力学

覆盖前沿科学的算力底座

摩尔线程 GPU 通过软硬件协同优化，为 AI4S、生命科学、量子模拟等前沿领域提供高性能、高性价比、工程化可落地的算力底座，覆盖从实验室原型验证到大规模生产部署的全生命周期。

AI4S · 科学机器学习

加速 AI4S：AI 赋能科学发现

MTT S5000 支持深度学习与传统数值仿真深度融合，加速科学问题的建模、求解与反演。

支持 PINNs、GNN 等科学机器学习范式，加速求解复杂偏微分方程
结合 muBLAS / muFFT 等数学库，提升端到端训练与推理效率
适配 torch_musa、jax_musa、paddle_musa 等 AI 框架，支撑科研与工程工作流

生命科学 · LIFE SCIENCE

加速生命科学：从原子到器官级模拟

面向结构生物学、生物医药研发等场景，为冷冻电镜重构与分子动力学模拟提供全链路加速。

适配 GROMACS、SPONGE、RELION、DSDP 等代表性软件
在冷冻电镜三维重构、分子对接、电化学仿真等场景取得显著提速
支持传统模拟 + AI 模型的混合工作流，缩短研发周期

量子力学 · QUANTUM

加速量子力学与量子计算模拟

利用全功能 GPU 高度并行的张量计算能力，高效模拟量子线路与量子多体系统，为算法设计与器件研发提供算力支撑。

适配 QSim、MUSA-Q 等量子模拟框架，实现大规模量子态仿真
支持量子-经典混合计算，助力变分量子算法与量子机器学习
与 AI4S 工作负载共享同一 GPU 集群，实现算力统一调度

工程化落地

与顶尖科研机构及行业伙伴共同验证

从冷冻电镜分析到分子动力学模拟，从量子计算到能源仿真，MTT S5000 已在多个真实科研与产业场景中实现可复现的性能优势。

冷冻电镜三维重构 · CRYO-EM

国内某高校蛋白质研究技术中心

RELION 4 移植与深度优化

通过通算并行与 Kernel 算子深度融合优化，MTT S5000 在 RELION 4 冷冻电镜三维重构任务中，相比国际旗舰产品^① 取得显著加速。在保障高精度重构图像质量的同时，优化周期缩减至 6 人周，整体计算周期显著缩短。

RELION 4 CRYO-EM 3D RECON KERNEL FUSION 通算并行

5.2×

RELION 4 最低加速比

7.2×

RELION 4 峰值加速比

≈ 6人周

原优化周期大幅缩减

国产算力底座

对标国际旗舰产品^①

分子动力学 · MOLECULAR DYNAMICS

北京大学 SPONGE 课题组

国产 MD 软件深度适配

适配国产分子动力学软件 SPONGE，在丙氨酸十二肽 NVT 系综模拟任务中，MTT S5000 性能达到国际旗舰产品^① 的 170.83%；DSDP 单复合体对接进入秒级响应。

SPONGE DSDP NVT 系综

170%

相比国际旗舰产品^① 性能提升

秒级

DSDP 单复合体对接响应

量智融合 · QUANTUM × AI

某量子计算公司

构建 MUSA + 量子混合计算生态

在生物组学能量表征模型 AttnQVAE 训练中，MTT S5000 展现出与国际旗舰产品^① 一致的收敛性能；通过 QSim、MUSA-Q 实现量子电路模拟与量子-经典混合算法的高效协同。

玻色量子 QSIM MUSA-Q AttnQVAE

1:1

AttnQVAE 收敛对齐国际竞品

Q+AI

混合工作负载统一调度

医疗影像与工业仿真 · MEDICAL & INDUSTRY

某能源仿真公司

从医学影像到电池预诊断的极致优化

在某科技公司多源相控阵 CT 重建场景中，MTT S5000 相比国际旗舰产品^① 实现 2.5 倍加速比；联合某能源科技公司将电池预诊断核心算法从 CPU 移植至 MTT S5000 ，单卡性能从十几分钟缩短至 6.61 秒，大幅提升电池安全运维效率。

CT 重建多源相控阵电池预诊断 CPU → GPU 迁移

2.5×

CT 重建加速比

6.61s

电池预诊断单卡耗时

~100×

数十分钟到秒级效率提升

1 卡

单 GPU 完成核心算法

开箱即用

无缝支持主流框架与行业软件

MUSA 通用计算语义与 MUSIFY 源码迁移工具，使主流框架与行业软件可低成本完成迁移。

GROMACS

Molecular Dynamics

SPONGE

分子动力学 · 北京大学

RELION 4

冷冻电镜

DSDP

分子对接

截至 2026 年 6 月，已完成适配与联合优化的部分软件栈。

MUSA Scientific
Computing Suite

加速科学计算与 AI 融合创新

多精度计算能力

AI 与科学计算融合

极致优化数学库

主流行业软件适配

无缝生态迁移

全栈技术体系

从底层硬件到上层应用的技术栈贯通

高性能算子集

覆盖线性代数、傅里叶、稀疏矩阵与并行原语

实测数据

在关键科学计算算子上对标国际主流

AI4S · 生命科学 · 量子力学

覆盖前沿科学的算力底座

加速 AI4S：AI 赋能科学发现

加速生命科学：从原子到器官级模拟

加速量子力学与量子计算模拟

工程化落地

与顶尖科研机构及行业伙伴共同验证

RELION 4 移植与深度优化

国产 MD 软件深度适配

构建 MUSA + 量子混合计算生态

从医学影像到电池预诊断的极致优化

开箱即用

无缝支持主流框架与行业软件

相关产品

MTT KUAE

摩尔线程智算中心全栈解决方案

MTT SGX5000

AI 大模型训推一体机

MTT S5000

训推一体全功能 GPU 智算卡

MUSA ScientificComputing Suite

加速科学计算与 AI 融合创新

多精度计算能力

AI 与科学计算融合

极致优化数学库

主流行业软件适配

无缝生态迁移

全栈技术体系

从底层硬件到上层应用的技术栈贯通

高性能算子集

覆盖线性代数、傅里叶、稀疏矩阵与并行原语

实测数据

在关键科学计算算子上对标国际主流

AI4S · 生命科学 · 量子力学

覆盖前沿科学的算力底座

加速 AI4S：AI 赋能科学发现

加速生命科学：从原子到器官级模拟

加速量子力学与量子计算模拟

工程化落地

与顶尖科研机构及行业伙伴共同验证

RELION 4 移植与深度优化

国产 MD 软件深度适配

构建 MUSA + 量子混合计算生态

从医学影像到电池预诊断的极致优化

开箱即用

无缝支持主流框架与行业软件

相关产品

MTT KUAE

摩尔线程智算中心全栈解决方案

MTT SGX5000

AI 大模型训推一体机

MTT S5000

训推一体全功能 GPU 智算卡

MUSA Scientific
Computing Suite