MTT S4000

大模型智算加速卡

摩尔线程大模型智算加速卡 MTT S4000，采用第三代 MUSA 架构，配备了 128 个 Tensor 核心，单卡支持 48GB 显存和 768GB/s 的显存带宽。基于摩尔线程自研 MTLink 技术，MTT S4000 可以支持多卡互联，支持千卡集群基础设施建设，加速千亿参数大语言模型计算。同时，MTT S4000 提供先进的图形渲染能力、视频编解码能力和超高清 8K HDR 显示能力，助力 AI 计算、图形渲染、多媒体等综合应用场景的落地。尤为重要的是，基于摩尔线程自研的全功能 GPU MUSA 生态架构，MTT S4000 可以充分兼容现有软件生态，实现代码零成本迁移到 MUSA 平台。

大语言模型 ( LLM ) 训练 / 微调

完善的训练平台、成熟 MUSA 软件生态、MTLink 卡间互连、高 MFU、线性加速比 91% 以上

大语言模型 ( LLM ) 推理

完善的推理服务平台
高吞吐、低延时

KUAE 千卡智算中心

软硬一体化解决方案
高可靠性、开箱即用

新一代 Tensor 核心

配备 128 个 Tensor 核心
加速 LLM 训练、微调和推理

第三代 MUSA 核心

全功能 MUSA 架构
充分兼容 CUDA 软件生态

图形渲染引擎

全面支持
Vulkan / DirectX / OpenGL / OpenGL ES

大语言模型训练 / 微调

大模型训练平台架构

摩尔线程大模型训练平台，完全兼容 CUDA 和 Pytorch 训练系统，支持 Megatron-LM、DeepSpeed、FSDP 和 Colossal-AI 等大模型分布式训练框架。具有全兼容、高性能、高灵活性和简单易用等特点。支持 GPT 系列、LLaMA 系列、GLM 系列等常见大模型的一键千卡训练。使用夸娥千卡智算集群进行大模型训练，线性加速比可达91%以上。支持 Pytorch 用户自主研发，支持模型训练全监控、自动拉起、断点续训等功能。

大模型训练 / 微调实例

MTT S4000 配备的 Tensor 核心算力、48GB 显存以及超高速卡间互连接口 MTLink，可以有效支持多种主流大语言模型训练，包括： LLaMA / GPT / ChatGLM / Qwen / Baichuan 等。通过摩尔线程大模型训练平台，支持单机 8 卡和多机多卡等多种分布式训练策略，加速从 60 亿参数到千亿参数大语言模型训练以及微调任务。

集群扩展效率

摩尔线程 KUAE 千卡模型训练平台，支持千亿参数模型的预训练、微调和推理，可实现 91% 的千卡集群线性加速比，摩尔线程从应用、分布式系统、训练框架、通讯库、固件、算子、硬件全方位进行优化。MTLink 是基于 MTT S4000 自研的卡间互连技术，支持 2 卡、4卡、8 卡 MTLink Bridge 互连，提升了卡间互连带宽，卡间互连 I/O 带宽达到 240GB/s，可加速集群从 64 卡到 1024 卡的训练速度以及多卡互连的线性度。

大模型推理服务平台

MTT S4000 配备的 Tensor 核心算力以及 48GB 显存，可以有效支持主流大语言模型推理，包括：LLaMA / ChatGLM / Qwen / Baichuan 等主流系列大模型。

KUAE ModelStudio

是面向大语言模型应用场景开发者，基于摩尔线程 GPU 以及官方提供的模型，进行训练、微调和推理的一体化应用平台。

MUSA Serving

是摩尔线程提供的一套推理服务软件，可提供高性能、分布式的推理服务，支持 LLM、图片/视频生成模型、传统 AI 模型等后端模型部署。

MT Transformer

是一套针对摩尔线程 GPU 的分布式推理加速框架，实现了对基于 Transformer 架构 LLM 模型的推理加速。

TensorX

是一套针对摩尔线程 GPU 的推理加速框架，实现了对图片/视频生成、传统 AI 模型的推理加速。

支持 KUAE 集群产品

MTT KUAE 是摩尔线程智算中心全栈解决方案，基于 MTT S4000 和双路 8 卡 GPU 服务器 MCCX D800，以一体化交付的方式解决大规模 GPU 算力的建设和运营管理问题。

了解 MCCX D800

了解 MTT KUAE

新一代 Tensor 核心

摩尔线程新一代 Tensor Core，助力大语言模型 (LLM) 的训练、微调和推理计算。
MTT S4000 共包含 8192 个 Vector Core，以及 128 个 Tensor Core。
支持 FP64、FP32、TF32、FP16、BF16、INT8 等主流精度算力。

第三代 MUSA 软件栈

MUSA 是摩尔线程自研的元计算统一系统架构，包括指令集架构、MUSA 编程模型、驱动、运行时库、算子库、通讯库、数学库等。更为重要的是，通过摩尔线程自研的 MUSIFY 工具，可以实现 CUDA 程序平滑迁移至 MUSA。

全面支持主流图形 API

MTT S4000 支持 DirectX、Vulkan、OpenGL、OpenGL ES 等主流图形 API，可为数字孪生、云游戏、云渲染、数字内容创作等场景提供全平台通用图形渲染能力支持。还可配合大模型推理能力，实现 AIGC 等多模态业务场景的一站式解决方案。

MTT S4000

产品规格

MUSA 核心

8192

FP32

25 TFLOPS

TF32 Tensor

50 TFLOPS

FP16 Tensor

100 TFLOPS

INT8 Tensor

200 TOPS

Texure Rate

768 GTexels/s

Pixel Rate

768 GPixels/s

显存容量

48 GB

显存带宽

768 GB/s

多媒体编码

H.265, H.264, AV1 48 x 1080p30

多媒体解码

H.265, H.264, AV1, AVS2, VP9,… 96 x 1080p30

I/O 接口带宽

240 GB/s

总线接口

PCIe 5.0 x16

片间互联

MTLink

显示接口

4 x DisplayPort 1.4a

安全引擎

MUSA 安全引擎 2.0，支持 TEE 及多种加解密算法

虚拟化

硬件虚拟化，GPU 弹性切分，SR-IOV 隔离

TGP

450W

尺寸

266 mm * 112 mm * 39 mm