KUAE Inference Suite

KUAE Inference Suite

摩尔线程 AI 推理套件(KUAE Inference Suite)是专为满足生产级 AI 推理需求而设计的全方位平台,旨在加速和优化 AI 模型在生产环境中的部署与执行。

性能极致优化

通过汇编级的底层算子融合和 GPU 架构定制优化,实现推理引擎的极致性能提升

企业级智能运维

提供企业级稳定性、可观测性和安全性,配备专业性能评测工具与监测工具,确保在生产环境中的高可用性和可靠性

多场景灵活部署

支持在云端、数据中心、边缘和嵌入式设备的部署推理服务,实现不同场景下的无缝应用

全流程智能管理

实现从模型优化到推理服务的全流程智能化管理,提升模型应用效率

多领域广泛适配

适用于生成式 AI、计算机视觉、自然语言处理和语音识别等多领域

覆盖模型广

支持从稠密模型、MoE、多模态等最新的大语言模型,以及文生图、文生视频等传统 AI 模型

摩尔线程 AI 推理套件

摩尔线程 AI 推理套件集成了专为类 Transformer 架构大模型设计的推理引擎 MT Transformer,以及适用于传统模型的推理引擎 Tensor X,同时还支持开源推理框架方案 vLLM-MUSA、SGLang-MUSA、Ollama、Llama.cpp 等,并提供了一系列配套的推理场景常用软件工具包,为用户带来全面而高效的 AI 推理解决方案。

核心组件


MT Transformer

MT Transformer

针对摩尔线程 GPU 的分布式推理加速框架,实现了对基于 Transformer 架构的 LLM 模型的推理加速。
  • 实现了汇编级别的底层算子融合,并针对摩尔线程 GPU 架构进行了定制优化,实现了优于 FlashAttention 的注意力机制,以追求极致的大模型推理引擎性能,消除算力瓶颈。
  • 支持大于 128k 的超长文本与流式处理,以及包括 Paged Attention、Continuous Batching 等各类最新的优化技术。
  • 支持 vLLM 快速接入并部署 OpenAI 兼容服务,也可根据客户需要灵活定制 serving 方案。
查看用户指南
TensorX

TensorX

针对摩尔线程 GPU 的推理加速框架,实现了对图片/视频生成、传统 AI 模型的推理加速。
  • 适配度广,覆盖文生图、文生视频、以及其他传统 AI 模型等。
  • 支持图优化和算子优化。
  • 支持定制化算子插件。
NeuroTrim

NeuroTrim

摩尔线程自研的大模型量化、压缩、减枝,以及蒸馏工具。
  • 支持 GPTQ、AWQ、SmoothQuant 等多种最新的量化算法。
  • 支持 W8A16,W8A8,W4A8 等广泛精度。
  • 支持 QAT 和 PTQ 量化。
  • 算法根据 MUSA 架构定制实现。
GPU Management Center

GPU Management Center

摩尔线程推出的集性能评测、监控、管理等多功能一体的工具包,包括:
  • MT DCGM (Data Center GPU Management):摩尔线程自研的监控和管理工具,提供丰富的功能和 API,用于监视和管理数据中心规模 GPU 的性能、健康状况和功耗。
  • MTML (MT GPU Management Library):摩尔线程 GPU 管理函数库。
  • mthreads-gmi (Moore Threads GPU Management Interface):基于 GPU 管理中心 SDK 的命令行工具。
查看产品介绍

相关产品

  • 智娱摩方

    游戏有竞·探索无尽

    体现了「智」「娱」两个方面,基于该平台,玩家能畅享游戏乐趣,开发者与玩家也能便捷体验摩尔线程显卡。

    查看详情
  • MCCX D800 X1

    AI 大模型训推一体机

    采用 MTT S4000 高性能 GPU,支持用户在大型语言模型、自然语言处理、系统推荐、数据分析等领域的应用需求。

    查看详情
  • 智娱摩方
  • MCCX D800 X1
phone phone
人工
客服
400-667-5666

周一至周日,9:00-21:00