1. 产品
    • 融合智算中心
    • 系统与设备
    • 全功能 GPU / 显卡
    • 软件
    • 应用与服务
  2. 解决方案
    • 人工智能
    • 云与数据中心
  3. 体验中心
  4. 驱动下载
  5. 服务与支持
  6. 开发者
  7. 公司信息
  8. language EN

开源 vLLM-MUSA|摩尔线程持续加速基于国产 GPU 的 AI 大模型推理开发

近日,摩尔线程上线了大语言模型高速推理框架开源项目vLLM的MUSA移植版本,旨在为开发者提供一个基于摩尔线程全功能GPU进行开源项目MUSA移植的范例。围绕自主研发的统一系统架构GPU及MUSA软件平台,摩尔线程正致力于构建完善好用的MUSA应用生态。 

 

vLLM是一个高效且易用的大模型推理和服务框架。通过创新的PagedAttention内存管理、连续批处理请求、CUDA/HIP图的快速模型执行、CUDA核心优化以及分布式推理支持等技术优势,vLLM显著提高了大语言模型(LLM)的推理性能。凭借出色的易用性和性能,vLLM已在各种大语言模型中得到广泛应用,并成为业界常用的开源大模型推理框架。

 

为了给开发者在摩尔线程GPU上移植部署vLLM提供参考,摩尔线程团队基于vLLM v0.4.2版本进行了移植适配,为vLLM框架添加了摩尔线程GPU后端Device支持,并将移植适配后的vLLM-MUSA版本开源。开发者可以基于摩尔线程GPU及vLLM-MUSA,进行二次开发、升级vLLM到社区更新版本等。

 

得益于摩尔线程自研先进MUSA架构及软件栈对CUDA的优良兼容性,通过MUSIFY代码自动转换工具,用户可以快捷地将原有的CUDA代码迁移到MUSA平台。除了对项目原生CUDA源码进行移植,CUDA相关库的调用也被替换为相应MUSA加速库的调用,如算子库muDNN、集合通信库MCCL、线性代数库muBLAS等。

 

摩尔线程通过MUSA软件栈对CUDA软件栈接口兼容,大幅提升了应用移植的效率,缩短了开发周期。此外,还提供MUSIFY自动代码移植工具等一系列实用工具和脚本,进一步降低开发者在MUSA平台进行大语言模型训练和推理应用适配的难度。

 

摩尔线程诚邀广大的用户与开发者体验vLLM-MUSA,并提出宝贵的反馈意见,非常欢迎开发者向vLLM-MUSA推送更新及创作代码,我们也将推动MUSA后端进入vLLM官方仓库主线。MUSA社区的开放共建,任重而道远,我们期待与更多的开发者携手,贡献更多的MUSA开源项目,共同打造MUSA软件生态的繁荣发展。

 

  vLLM-MUSA开源地址:

 

https://github.com/MooreThreads/vLLM_musa

 

  关于摩尔线程

 

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

 

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

phone phone
人工
客服
400-667-5666

周一至周日,9:00-21:00