DeepSeek-V4 首日即获支持:SGLang 与 Miles 实现从快速推理到强化学习的全栈开源方案
4月25日,SGLang 和 Miles 团队联合宣布,在 DeepSeek-V4 发布首日即提供完整的推理与强化学习训练支持。这是首个在发布当天就为 DeepSeek-V4 提供服务的开源技术栈,其系统专门针对该模型的混合稀疏注意力架构、**流形约束超连接(mHC)**以及 FP4 专家权重进行了优化。
推理性能亮眼
在针对《红楼梦》30K token 提示的解码吞吐量基准测试中,SGLang 相比其他开源引擎实现了显著提升。这得益于多项技术创新:
- ShadowRadix 前缀缓存:原生支持混合注意力的前缀缓存机制,大幅减少重复计算。
- HiSparse 层次化稀疏注意力:通过 CPU 扩展的 KV 缓存,在保持长上下文(1M token)的同时降低显存压力。
- MTP 推测解码:利用计算图中的元数据加速生成过程。
- Flash Compressor:IO 感知的精确压缩技术。
- Lightning TopK 与层次化多流重叠:进一步优化并行效率。
在 kernel 集成与部署方面,SGLang 整合了 FlashMLA、FlashInfer、TRTLLM-Gen MoE、DeepGEMM Mega MoE 以及 TileLang mHC 等高性能算子,并支持 DP/TP/CP 注意力、基于 DeepEP 的 EP MoE 以及 PD 分离部署。硬件兼容性覆盖 Hopper、Blackwell、Grace Blackwell、AMD 和 NPU。
强化学习训练:Miles 框架的深度支持
在训练后端,Miles 基于 Megatron-LM 提供了完整的 DeepSeek-V4 建模。支持的并行策略包括:DP/TP/SP/EP/PP/CP 全维度并行,同时集成了 tilelang 注意力内核。在数值精度方面,Miles 采用了混合精度栈,在 FP8 训练基础上增强了稳定性,并针对 RL 训练场景进行了专门优化。
行业意义
DeepSeek-V4 拥有 1.6T 总参数量 和 284B 激活参数,其混合稀疏注意力机制在每层中混合了滑动窗口注意力和两种压缩机制(4:1 top-k 或 128:1 密集压缩),使得 1M token 的上下文窗口变得可管理。而 mHC 则进一步提升了模型表达能力。
SGLang 和 Miles 的首日支持意味着开发者可以立即在开源生态中部署和微调这一前沿模型,无需等待专有方案的适配。这加速了从研究到落地的转化,尤其利好需要长上下文理解和复杂推理的应用场景。