AWS推出llm-d分解式推理，提升大模型推理效率与资源利用率

随着AI应用从原型验证迈向大规模部署，推理效率已成为制约大模型落地的关键瓶颈。传统推理架构在处理复杂的Agentic AI工作流时，常因资源利用率低下而影响用户体验。AWS近日宣布与llm-d团队合作，推出分解式推理（Disaggregated Inference） 能力，旨在通过创新的架构设计解决这一难题。

大模型推理的独特挑战

大语言模型（LLM）的推理过程包含两个截然不同的阶段：

Prefill阶段（计算密集型）：并行处理整个输入提示，生成初始的键值（KV）缓存条目。
Decode阶段（内存密集型）：自回归地逐个生成令牌，需要大量内存带宽来访问模型权重和不断增长的KV缓存。

此外，推理请求的计算需求因输入和输出长度差异巨大，导致资源调度异常复杂。传统方法通常将模型部署在预定的基础设施上，或使用简单的分布式策略，无法针对这两个阶段进行优化，结果往往是GPU在推理的不同阶段要么闲置，要么过载。

分解式推理的核心优势

AWS与llm-d团队合作推出的新方案，引入了三项关键技术：

分解式服务（Disaggregated Serving）：将推理任务的不同阶段（如Prefill和Decode）分配到最适合的硬件资源上执行，打破传统“一机包办”的模式。
智能请求调度（Intelligent Request Scheduling）：根据请求的实时计算需求，动态分配资源，避免资源争用和浪费。
专家并行（Expert Parallelism）：针对MoE（混合专家）等特定模型架构，优化专家路由和计算分配。

这些技术共同作用，能显著提升推理性能、资源利用率和运营效率。用户可以在Amazon SageMaker HyperPod EKS上部署这一方案，实现大规模推理工作负载的优化。

技术实现与生态整合

此次发布的核心是一个新的容器镜像：ghcr.io/llm-d/llm-d-aws。该容器集成了针对AWS环境的专用库，包括：

Elastic Fabric Adapter (EFA) 和 libfabric：用于高性能网络通信。
NIXL库集成：支持多节点分解式推理和专家并行等关键功能。

与流行的开源推理引擎vLLM相比，vLLM通过连续批处理和PagedAttention提升了单节点效率，但在大规模部署中，跨多个节点的编排和路由优化仍是挑战。AWS的分解式推理方案则从架构层面提供了更系统的解决方案。

对AI行业的意义

在“智能体与推理时代”，LLM通过复杂的推理链生成的令牌和计算量是单次回复的10倍以上。Agentic AI工作流还带来了高度可变的需求和指数级增长的处理压力。高效推理已成为AI规模化部署的“闸门因素”。

AWS此次与开源社区llm-d的深度合作，不仅为自身客户提供了更优的推理选项，也推动了整个行业在推理架构上的创新思考。随着AI应用不断深入，类似分解式推理这样的底层优化将变得越来越重要。

小结

问题：传统推理架构难以应对LLM推理两阶段（Prefill/Decode）的不同资源需求，导致效率低下。
方案：AWS推出基于llm-d的分解式推理，通过分解服务、智能调度和专家并行优化资源利用。
实现：提供专用容器，集成EFA、libfabric和NIXL库，支持在SageMaker HyperPod EKS上部署。
价值：提升性能、利用率和成本效益，助力AI大规模部署。

对于正在或计划将大模型投入生产环境的企业，这一方案值得关注和评估。

AWS推出基于llm-d的分解式推理服务，提升大模型推理效率

大模型推理的独特挑战

分解式推理的核心优势

技术实现与生态整合

对AI行业的意义

小结

延伸阅读

相关资讯