摩尔线程 AI 推理套件(KUAE Inference Suite)是专为满足生产级 AI 推理需求而设计的全方位平台,旨在加速和优化 AI 模型在生产环境中的部署与执行。
性能极致优化
通过汇编级的底层算子融合和 GPU 架构定制优化,实现推理引擎的极致性能提升
企业级智能运维
提供企业级稳定性、可观测性和安全性,配备专业性能评测工具与监测工具,确保在生产环境中的高可用性和可靠性
多场景灵活部署
支持在云端、数据中心、边缘和嵌入式设备的部署推理服务,实现不同场景下的无缝应用
全流程智能管理
实现从模型优化到推理服务的全流程智能化管理,提升模型应用效率
多领域广泛适配
适用于生成式 AI、计算机视觉、自然语言处理和语音识别等多领域
覆盖模型广
支持从稠密模型、MoE、多模态等最新的大语言模型,以及文生图、文生视频等传统 AI 模型
摩尔线程 AI 推理套件
摩尔线程 AI 推理套件集成了专为类 Transformer 架构大模型设计的推理引擎 MT Transformer,以及适用于传统模型的推理引擎 Tensor X,同时还支持开源推理框架方案 vLLM-MUSA、SGLang-MUSA、Ollama、Llama.cpp 等,并提供了一系列配套的推理场景常用软件工具包,为用户带来全面而高效的 AI 推理解决方案。
核心组件

MT Transformer
针对摩尔线程 GPU 的分布式推理加速框架,实现了对基于 Transformer 架构的 LLM 模型的推理加速。
- 实现了汇编级别的底层算子融合,并针对摩尔线程 GPU 架构进行了定制优化,实现了优于 FlashAttention 的注意力机制,以追求极致的大模型推理引擎性能,消除算力瓶颈。
- 支持大于 128k 的超长文本与流式处理,以及包括 Paged Attention、Continuous Batching 等各类最新的优化技术。
- 支持 vLLM 快速接入并部署 OpenAI 兼容服务,也可根据客户需要灵活定制 serving 方案。

TensorX
针对摩尔线程 GPU 的推理加速框架,实现了对图片/视频生成、传统 AI 模型的推理加速。
- 适配度广,覆盖文生图、文生视频、以及其他传统 AI 模型等。
- 支持图优化和算子优化。
- 支持定制化算子插件。

NeuroTrim
摩尔线程自研的大模型量化、压缩、减枝,以及蒸馏工具。
- 支持 GPTQ、AWQ、SmoothQuant 等多种最新的量化算法。
- 支持 W8A16,W8A8,W4A8 等广泛精度。
- 支持 QAT 和 PTQ 量化。
- 算法根据 MUSA 架构定制实现。

GPU Management Center
摩尔线程推出的集性能评测、监控、管理等多功能一体的工具包,包括:
- MT DCGM (Data Center GPU Management):摩尔线程自研的监控和管理工具,提供丰富的功能和 API,用于监视和管理数据中心规模 GPU 的性能、健康状况和功耗。
- MTML (MT GPU Management Library):摩尔线程 GPU 管理函数库。
- mthreads-gmi (Moore Threads GPU Management Interface):基于 GPU 管理中心 SDK 的命令行工具。

EN



