加速科学计算与 AI 融合创新
摩尔线程以自主可控的全功能 GPU 和 MUSA 软件栈,为科研机构与企业提供从底层数学库、全栈编程模型到上层行业软件的完整能力,帮助构建面向未来的科学计算基础设施。
多精度计算能力
原生支持 FP64、FP32、TF32、FP16、BF16、INT8、FP8 等多种精度,兼顾数值稳定性与计算性能表现
AI 与科学计算融合
无缝协同深度学习训练、推理与传统高性能计算负载,一站式构建 “AI+科学”融合工作流,原生赋能 AI4S 探索
极致优化数学库
MUSA-X 数学库深度适配全功能 GPU 架构,面向科学计算典型算子进行内核级(Kernel)极限调优
主流行业软件适配
适配 GROMACS、SPONGE、Relion、DSDP 等主流生命科学与材料仿真软件,联合科研机构持续共建开放生态
无缝生态迁移
MUSA 语义深度兼容通用计算生态,配套提供 MUSIFY 源码迁移工具,全面降低科学计算应用的迁移门槛
全栈技术体系
从底层硬件到上层应用的技术栈贯通
摩尔线程自研全栈通用计算平台,以 MTT S5000 为算力底座,自下而上贯通驱动、运行时、高性能数学库、主流 AI 框架与前沿科学计算应用,让上层科研与工程负载即插即用、开箱即体验极致算力。
高性能算子集
覆盖线性代数、傅里叶、稀疏矩阵与并行原语
面向科学计算与 AI4S 工作负载,MUSA-X 提供经内核级深度优化的数学函数库与并行原语,开发者可直接调用标准接口,在摩尔线程全功能 GPU 上获得稳定可预期的高性能。
实测数据
在关键科学计算算子上对标国际主流
以下数据均基于 MTT S5000 与对应国际旗舰产品① 在同一测试环境下采集。具体测试规模与精度可联系摩尔线程获取。
AI4S · 生命科学 · 量子力学
覆盖前沿科学的算力底座
摩尔线程 GPU 通过软硬件协同优化,为 AI4S、生命科学、量子模拟等前沿领域提供高性能、高性价比、工程化可落地的算力底座,覆盖从实验室原型验证到大规模生产部署的全生命周期。
加速 AI4S:AI 赋能科学发现
MTT S5000 支持深度学习与传统数值仿真深度融合,加速科学问题的建模、求解与反演。
- 支持 PINNs、GNN 等科学机器学习范式,加速求解复杂偏微分方程
- 结合 muBLAS / muFFT 等数学库,提升端到端训练与推理效率
- 适配 torch_musa、jax_musa、paddle_musa 等 AI 框架,支撑科研与工程工作流
加速生命科学:从原子到器官级模拟
面向结构生物学、生物医药研发等场景,为冷冻电镜重构与分子动力学模拟提供全链路加速。
- 适配 GROMACS、SPONGE、RELION、DSDP 等代表性软件
- 在冷冻电镜三维重构、分子对接、电化学仿真等场景取得显著提速
- 支持传统模拟 + AI 模型的混合工作流,缩短研发周期
加速量子力学与量子计算模拟
利用全功能 GPU 高度并行的张量计算能力,高效模拟量子线路与量子多体系统,为算法设计与器件研发提供算力支撑。
- 适配 QSim、MUSA-Q 等量子模拟框架,实现大规模量子态仿真
- 支持量子-经典混合计算,助力变分量子算法与量子机器学习
- 与 AI4S 工作负载共享同一 GPU 集群,实现算力统一调度
工程化落地
与顶尖科研机构及行业伙伴共同验证
从冷冻电镜分析到分子动力学模拟,从量子计算到能源仿真,MTT S5000 已在多个真实科研与产业场景中实现可复现的性能优势。
RELION 4 移植与深度优化
通过通算并行与 Kernel 算子深度融合优化,MTT S5000 在 RELION 4 冷冻电镜三维重构任务中,相比国际旗舰产品① 取得显著加速。在保障高精度重构图像质量的同时,优化周期缩减至 6 人周,整体计算周期显著缩短。
国产 MD 软件深度适配
适配国产分子动力学软件 SPONGE,在丙氨酸十二肽 NVT 系综模拟任务中,MTT S5000 性能达到国际旗舰产品① 的 170.83%;DSDP 单复合体对接进入秒级响应。
构建 MUSA + 量子混合计算生态
在生物组学能量表征模型 AttnQVAE 训练中,MTT S5000 展现出与国际旗舰产品① 一致的收敛性能;通过 QSim、MUSA-Q 实现量子电路模拟与量子-经典混合算法的高效协同。
从医学影像到电池预诊断的极致优化
在某科技公司多源相控阵 CT 重建场景中,MTT S5000 相比国际旗舰产品① 实现 2.5 倍加速比;联合某能源科技公司将电池预诊断核心算法从 CPU 移植至 MTT S5000 ,单卡性能从十几分钟缩短至 6.61 秒,大幅提升电池安全运维效率。
开箱即用
无缝支持主流框架与行业软件
MUSA 通用计算语义与 MUSIFY 源码迁移工具,使主流框架与行业软件可低成本完成迁移。
截至 2026 年 6 月,已完成适配与联合优化的部分软件栈。
① 参考基准 1: 稠密 FP16 算力 312 TFLOPS,显存带宽 2.0TB/s。

EN











