周凯,个人博客

  • 前端
  • 嵌入式
  • 工具
  • 后端
  • 随笔
个人记录
  1. 首页
  2. AI
  3. 正文

大模型推理框架都有哪些?国产化GPU适配LMDeploy

2025年 2月 23日 299点热度 0人点赞 0条评论

LMDeploy

  • github地址:https://github.com/InternLM/lmdeploy/blob/main/README_zh-CN.md
  • 开源协议:Apache License Version 2.0
  • 优势:

    • 国产硬件优化框架,支持多模态模型

    • 深度优化CPU-GPU调度

    • 支持华为昇腾等国产芯片

  • 劣势

    • 社区资源较少
    • 更新迭代速度慢
  • 适用场景

    • 国产化环境/政企项目
  • 简介

    LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。 这个强大的工具箱提供以下核心功能:

    • 高效的推理:LMDeploy 开发了 Persistent Batch(即 Continuous Batch),Blocked K/V Cache,动态拆分和融合,张量并行,高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍
    • 可靠的量化:LMDeploy 支持权重量化和 k/v 量化。4bit 模型推理效率是 FP16 下的 2.4 倍。量化模型的可靠性已通过 OpenCompass 评测得到充分验证。
    • 便捷的服务:通过请求分发服务,LMDeploy 支持多模型在多机、多卡上的推理服务。
    • 有状态推理:通过缓存多轮对话过程中 attention 的 k/v,记住对话历史,从而避免重复处理历史会话。显著提升长文本多轮对话场景中的效率。
    • 卓越的兼容性: LMDeploy 支持 KV Cache 量化, AWQ 和 Automatic Prefix Caching 同时使用。

Ollama

  • github地址:https://github.com/ollama/ollama
  • 开源协议:MIT License
  • 优势:

    • 支持一键部署、模型热切换、提供类OpenAI API和聊天界面

    • 命令行操作简单

    • 社区活跃,支持主流模型(DeepSeek/Llama等)

  • 劣势

    • 原生交互界面简陋
    • GPU调用逻辑不透明(如参考中7B模型默认用CPU)
    • 吞吐量低(对比 vLLM 差 24 倍)、多 GPU 扩展性弱、显存占用不可控、缺乏生产级监控工具
  • 适用场景

    • 开发者快速测试模型,需搭配WebUI使用
    • 仅适合 轻量级企业场景(如小规模私有化部署、内部知识库定制),不适用于高并发生产环境

vLLM

  • github地址:https://github.com/vllm-project/vllm
  • 开源协议:Apache License Version 2.0
  • 优势:

    • 高性能推理框架,支持张量并行/PagedAttention

    • 吞吐量行业领先

    • 支持量化/动态批处理

  • 劣势

    • 需自行编写API接口
    • 部署依赖技术栈(Python/CUDA)
  • 适应场景

    • 企业级高并发场景
  • 简介

    • vLLM 是由加州大学伯克利分校团队开发的大模型推理加速框架,核心目标是通过优化内存管理和调度策略提升服务吞吐量与资源利用率。其标志性技术 PagedAttention 将 KV 缓存分块管理,显著降低显存占用,支持长文本生成与高并发请求。当前版本(V1)进一步优化多模态模型支持,适配企业级生产环境。

DeepSpeed

  • github地址:https://github.com/deepspeedai/DeepSpeed
  • 开源协议:Apache License Version 2.0
  • 优势

    • 显存效率:ZeRO 技术减少冗余存储,显存占用降低 8 倍(如单卡训练 130 亿参数模型)
    • 可扩展性:支持多机多卡 3D 并行,扩展效率超 90%
    • 通信优化:1-bit Adam 减少通信量 26 倍
    • 训练效率:动态精度缩放、混合精度训练加速 2-3 倍
    • 易用性:与 PyTorch/Hugging Face 集成,支持 RLHF、MoE 等前沿技术
  • 劣势

    • 配置复杂:需手动调整通信策略(NCCL/MPI)和超参数,多机调试易出问题
    • 硬件依赖:部分优化(如 CUDA 内核)仅适配 NVIDIA GPU
    • 社区生态较弱:文档示例较少,调试依赖经验
    • 功能限制:对编码器-解码器架构支持有限(如 T5)
  • 应用场景

    • 千亿参数模型训练(如 GPT-3、LLaMA)
    • 多模态模型优化(如 Stable Diffusion、VLMo)
    • 资源受限环境:ZeRO-Offload 利用 CPU/NVMe 扩展单卡能力
    • 低成本推理:MII 库降低 40 倍推理成本
    • 长序列处理:稀疏注意力支持 10 倍长文本输入
  • 简介

    由微软开发的开源深度学习优化库,基于 PyTorch 构建,旨在提升大规模模型训练和推理的效率与可扩展性。核心功能包括 ZeRO 显存优化、3D 并行策略(数据/模型/流水线并行)、混合精度训练等,支持从数十亿到万亿参数模型的训练。

🎯 拓展阅读提示

本文涉及的内容已同步至公众号后台,我会在那里分享更多深度内容和实用技巧

→ 点击关注:一行梦境

公众号二维码
本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: 暂无
最后更新:2025年 2月 23日

周凯

这个人很懒,什么都没留下

打赏 点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

COPYRIGHT © 2022-现在 周凯,个人博客. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

蒙ICP备18004897号