MTT S5000 muBLAS muFFT muSOLVER muSPARSE

MUSA Scientific
Computing Suite

摩尔线程科学计算套件

加速科学计算与 AI 融合创新


摩尔线程以自主可控的全功能 GPU 和 MUSA 软件栈,为科研机构与企业提供从底层数学库、全栈编程模型到上层行业软件的完整能力,帮助构建面向未来的科学计算基础设施。

多精度计算能力

原生支持 FP64、FP32、TF32、FP16、BF16、INT8、FP8 等多种精度,兼顾数值稳定性与计算性能表现

AI 与科学计算融合

无缝协同深度学习训练、推理与传统高性能计算负载,一站式构建 “AI+科学”融合工作流,原生赋能 AI4S 探索

极致优化数学库

MUSA-X 数学库深度适配全功能 GPU 架构,面向科学计算典型算子进行内核级(Kernel)极限调优

主流行业软件适配

适配 GROMACS、SPONGE、Relion、DSDP 等主流生命科学与材料仿真软件,联合科研机构持续共建开放生态

无缝生态迁移

MUSA 语义深度兼容通用计算生态,配套提供 MUSIFY 源码迁移工具,全面降低科学计算应用的迁移门槛

全栈技术体系

从底层硬件到上层应用的技术栈贯通

摩尔线程自研全栈通用计算平台,以 MTT S5000 为算力底座,自下而上贯通驱动、运行时、高性能数学库、主流 AI 框架与前沿科学计算应用,让上层科研与工程负载即插即用、开箱即体验极致算力。

行业应用
GROMACS · SPONGE · RELION · DSDP · QSim · 自研应用
行业应用
AI 框架适配
PyTorch (Torch-MUSA) · SGLang (SGLang-MUSA) · vLLM (vLLM-MUSA)
深度学习
MUSA-X 数学库
muBLAS · muFFT · muSOLVER · muSPARSE · muRAND · muPP · muAlg · muThrust
数学库
MUSA 编程模型 / 运行时
通用计算语义 · MUSIFY 源码迁移 · 编译器 · 任务调度器
运行时与编译器
驱动 / 通信
MT Linux Driver · MCCL
系统软件
MTT S5000 AI 训推一体全功能 GPU
多精度计算引擎 · 大容量显存 · 高带宽互联
硬件底座
高性能算子集

覆盖线性代数、傅里叶、稀疏矩阵与并行原语

面向科学计算与 AI4S 工作负载,MUSA-X 提供经内核级深度优化的数学函数库与并行原语,开发者可直接调用标准接口,在摩尔线程全功能 GPU 上获得稳定可预期的高性能。

muBLAS
muBLAS
Basic Linear Algebra Subprograms
高性能线性代数库,提供矩阵乘法、向量运算等基础线性代数操作的高效实现。
muFFT
muFFT
Fast Fourier Transform
高性能快速傅里叶变换库,支持一维、二维、三维及高维 FFT 与逆变换的高效计算。
muSOLVER
muSOLVER
Dense / Iterative Solvers
提供矩阵分解、线性方程组求解、特征值计算等核心线性代数问题的高效解决方案。
muRAND
muRAND
Random Number Generation
高性能随机数生成库,快速生成高质量随机数序列,满足蒙特卡洛模拟与统计采样需求。
muSPARSE
muSPARSE
Sparse Matrix Computation
高性能稀疏矩阵计算库,覆盖稀疏矩阵存储、运算和线性代数操作的高效实现。
muPP
muPP
Image Processing & CV
高性能图像处理与计算机视觉库,高效实现图像滤波、几何变换、色彩空间转换等核心操作。
muAlg
muAlg
Parallel Primitives
基于 MUSA 的并行原语头文件库,可在 MUSA 程序中对应用进行加速。
muThrust
muThrust
C++ STL on MUSA
基于 MUSA 的 C++ 标准模板库,接口与 STL 高度兼容,可在 MUSA 程序中无缝加速应用。
实测数据

在关键科学计算算子上对标国际主流

以下数据均基于 MTT S5000 与对应国际旗舰产品 在同一测试环境下采集。具体测试规模与精度可联系摩尔线程获取。

muBLAS · 矩阵乘性能
在多种典型 GEMM 规模下,muBLAS 通过深度内核优化,保持与国际旗舰产品库相当的吞吐表现。
muBLAS @ MTT S5000 参考基准 1
4K 8K 12K 16K 20K 24K
// MATRIX SIZE (N×N) · FP32 · Relative TFLOPS
muSPARSE · 稀疏矩阵乘性能
在 body6、cfd1 等典型数据集上,muSPARSE 相对国际旗舰产品库取得 1.34x–1.62x 的加速表现。
body6
1.62×
body6 (ref)
1.00×
cfd1
1.48×
cfd1 (ref)
1.00×
cant
1.34×
cant (ref)
1.00×
// SpMV · Relative Speedup vs reference
muSOLVER · LU 分解性能
不同矩阵规模下,muSOLVER 展现出稳定的线性代数求解能力。
muSOLVER 参考基准 1
2K 4K 6K 8K 10K 12K 14K
// MATRIX DIM (N) → TFLOPS (relative)
AI4S · 生命科学 · 量子力学

覆盖前沿科学的算力底座

摩尔线程 GPU 通过软硬件协同优化,为 AI4S、生命科学、量子模拟等前沿领域提供高性能、高性价比、工程化可落地的算力底座,覆盖从实验室原型验证到大规模生产部署的全生命周期。

AI4S · 科学机器学习

加速 AI4S:AI 赋能科学发现

MTT S5000 支持深度学习与传统数值仿真深度融合,加速科学问题的建模、求解与反演。

  • 支持 PINNs、GNN 等科学机器学习范式,加速求解复杂偏微分方程
  • 结合 muBLAS / muFFT 等数学库,提升端到端训练与推理效率
  • 适配 torch_musa、jax_musa、paddle_musa 等 AI 框架,支撑科研与工程工作流
生命科学 · LIFE SCIENCE

加速生命科学:从原子到器官级模拟

面向结构生物学、生物医药研发等场景,为冷冻电镜重构与分子动力学模拟提供全链路加速。

  • 适配 GROMACS、SPONGE、RELION、DSDP 等代表性软件
  • 在冷冻电镜三维重构、分子对接、电化学仿真等场景取得显著提速
  • 支持传统模拟 + AI 模型的混合工作流,缩短研发周期
量子力学 · QUANTUM

加速量子力学与量子计算模拟

利用全功能 GPU 高度并行的张量计算能力,高效模拟量子线路与量子多体系统,为算法设计与器件研发提供算力支撑。

  • 适配 QSim、MUSA-Q 等量子模拟框架,实现大规模量子态仿真
  • 支持量子-经典混合计算,助力变分量子算法与量子机器学习
  • 与 AI4S 工作负载共享同一 GPU 集群,实现算力统一调度
工程化落地

与顶尖科研机构及行业伙伴共同验证

从冷冻电镜分析到分子动力学模拟,从量子计算到能源仿真,MTT S5000 已在多个真实科研与产业场景中实现可复现的性能优势。

冷冻电镜三维重构 · CRYO-EM
国内某高校蛋白质研究技术中心

RELION 4 移植与深度优化

通过通算并行与 Kernel 算子深度融合优化,MTT S5000 在 RELION 4 冷冻电镜三维重构任务中,相比国际旗舰产品 取得显著加速。在保障高精度重构图像质量的同时,优化周期缩减至 6 人周,整体计算周期显著缩短。

RELION 4 CRYO-EM 3D RECON KERNEL FUSION 通算并行
5.2×
RELION 4 最低加速比
7.2×
RELION 4 峰值加速比
≈ 6人周
原优化周期大幅缩减
国产算力底座
对标国际旗舰产品
分子动力学 · MOLECULAR DYNAMICS
北京大学 SPONGE 课题组

国产 MD 软件深度适配

适配国产分子动力学软件 SPONGE,在丙氨酸十二肽 NVT 系综模拟任务中,MTT S5000 性能达到国际旗舰产品 的 170.83%;DSDP 单复合体对接进入秒级响应。

SPONGE DSDP NVT 系综
170%
相比国际旗舰产品 性能提升
DSDP 单复合体对接响应
量智融合 · QUANTUM × AI
某量子计算公司

构建 MUSA + 量子混合计算生态

在生物组学能量表征模型 AttnQVAE 训练中,MTT S5000 展现出与国际旗舰产品 一致的收敛性能;通过 QSim、MUSA-Q 实现量子电路模拟与量子-经典混合算法的高效协同。

玻色量子 QSIM MUSA-Q AttnQVAE
1:1
AttnQVAE 收敛对齐国际竞品
Q+AI
混合工作负载统一调度
医疗影像与工业仿真 · MEDICAL & INDUSTRY
某能源仿真公司

从医学影像到电池预诊断的极致优化

在某科技公司多源相控阵 CT 重建场景中,MTT S5000 相比国际旗舰产品 实现 2.5 倍加速比;联合某能源科技公司将电池预诊断核心算法从 CPU 移植至 MTT S5000 ,单卡性能从十几分钟缩短至 6.61 秒,大幅提升电池安全运维效率。

CT 重建 多源相控阵 电池预诊断 CPU → GPU 迁移
2.5×
CT 重建加速比
6.61s
电池预诊断单卡耗时
~100×
数十分钟到秒级效率提升
1
单 GPU 完成核心算法
开箱即用

无缝支持主流框架与行业软件

MUSA 通用计算语义与 MUSIFY 源码迁移工具,使主流框架与行业软件可低成本完成迁移。

GROMACS
Molecular Dynamics
SPONGE
分子动力学 · 北京大学
RELION 4
冷冻电镜
DSDP
分子对接

截至 2026 年 6 月,已完成适配与联合优化的部分软件栈。

相关产品

  • MTT KUAE

    摩尔线程智算中心全栈解决方案

    基于大模型智算加速卡和 AI 大模型训推一体机,以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。

    查看详情
  • MTT SGX5000

    AI 大模型训推一体机

    基于大模型训练集群与推理场景深度优化的服务器硬件系统,支持主流软硬件生态,以高性能配置全面满足大模型训推需求。

    查看详情
  • MTT S5000

    训推一体全功能 GPU 智算卡

    面向生成式 AI 时代,专为大模型训练、推理及高性能计算而生的全功能 GPU 智算卡。为您构建坚实、易用的国产算力底座。

    查看详情
  • MTT KUAE
  • MTT SGX5000
  • MTT S5000

① 参考基准 1: 稠密 FP16 算力 312 TFLOPS,显存带宽 2.0TB/s。

phone phone
人工
客服
400-667-5666

周一至周日,9:00-21:00