AWS推出基于llm-d的分解式推理服务,提升大模型推理效率
随着AI应用从原型验证迈向大规模部署,推理效率已成为制约大模型落地的关键瓶颈。传统推理架构在处理复杂的Agentic AI工作流时,常因资源利用率低下而影响用户体验。AWS近日宣布与llm-d团队合作,推出分解式推理(Disaggregated Inference) 能力,旨在通过创新的架构设计解决这一难题。
大模型推理的独特挑战
大语言模型(LLM)的推理过程包含两个截然不同的阶段:
- Prefill阶段(计算密集型):并行处理整个输入提示,生成初始的键值(KV)缓存条目。
- Decode阶段(内存密集型):自回归地逐个生成令牌,需要大量内存带宽来访问模型权重和不断增长的KV缓存。
此外,推理请求的计算需求因输入和输出长度差异巨大,导致资源调度异常复杂。传统方法通常将模型部署在预定的基础设施上,或使用简单的分布式策略,无法针对这两个阶段进行优化,结果往往是GPU在推理的不同阶段要么闲置,要么过载。
分解式推理的核心优势
AWS与llm-d团队合作推出的新方案,引入了三项关键技术:
- 分解式服务(Disaggregated Serving):将推理任务的不同阶段(如Prefill和Decode)分配到最适合的硬件资源上执行,打破传统“一机包办”的模式。
- 智能请求调度(Intelligent Request Scheduling):根据请求的实时计算需求,动态分配资源,避免资源争用和浪费。
- 专家并行(Expert Parallelism):针对MoE(混合专家)等特定模型架构,优化专家路由和计算分配。
这些技术共同作用,能显著提升推理性能、资源利用率和运营效率。用户可以在Amazon SageMaker HyperPod EKS上部署这一方案,实现大规模推理工作负载的优化。
技术实现与生态整合
此次发布的核心是一个新的容器镜像:ghcr.io/llm-d/llm-d-aws。该容器集成了针对AWS环境的专用库,包括:
- Elastic Fabric Adapter (EFA) 和 libfabric:用于高性能网络通信。
- NIXL库集成:支持多节点分解式推理和专家并行等关键功能。
与流行的开源推理引擎vLLM相比,vLLM通过连续批处理和PagedAttention提升了单节点效率,但在大规模部署中,跨多个节点的编排和路由优化仍是挑战。AWS的分解式推理方案则从架构层面提供了更系统的解决方案。
对AI行业的意义
在“智能体与推理时代”,LLM通过复杂的推理链生成的令牌和计算量是单次回复的10倍以上。Agentic AI工作流还带来了高度可变的需求和指数级增长的处理压力。高效推理已成为AI规模化部署的“闸门因素”。
AWS此次与开源社区llm-d的深度合作,不仅为自身客户提供了更优的推理选项,也推动了整个行业在推理架构上的创新思考。随着AI应用不断深入,类似分解式推理这样的底层优化将变得越来越重要。
小结
- 问题:传统推理架构难以应对LLM推理两阶段(Prefill/Decode)的不同资源需求,导致效率低下。
- 方案:AWS推出基于llm-d的分解式推理,通过分解服务、智能调度和专家并行优化资源利用。
- 实现:提供专用容器,集成EFA、libfabric和NIXL库,支持在SageMaker HyperPod EKS上部署。
- 价值:提升性能、利用率和成本效益,助力AI大规模部署。
对于正在或计划将大模型投入生产环境的企业,这一方案值得关注和评估。
