SkillSmith：边界优先编译Agent技能，Token消耗减半推理加速2倍

背景与问题

在大语言模型（LLM）驱动的Agent系统中，技能（skills） 已被广泛用于赋予模型处理特定任务的能力。现有框架通常将技能以上下文形式注入Agent的推理循环：当运行时任务匹配到某个技能后，整个技能内容被作为提示词送入模型，随后模型进行推理和规划。然而，这种方式带来了两大冗余问题：一是注入大量与当前任务无关的上下文，二是每次执行都需要重复进行技能相关的推理与规划，导致Token消耗高、推理延迟大。

核心思路：边界优先的编译-运行时框架

针对上述问题，来自上海交通大学等机构的研究者提出了 SkillSmith，一种创新的边界优先（boundary-first）编译-运行时框架。其核心思想是：在离线阶段将技能包编译为最小化的可执行接口，而非在运行时直接投喂原始技能文本。

具体而言，SkillSmith 首先从技能中提取细粒度的操作边界（operational boundaries）——即技能中每个步骤的输入、输出、前置条件与后置条件。然后，将这些边界编译为轻量级的运行时接口。在运行时，Agent 只需动态访问和执行与当前任务相关的接口组件，无需加载整个技能上下文，也无需重复进行技能层面的推理规划，从而大幅减少不必要的上下文注入和推理开销。

性能提升：Token消耗减半，推理速度翻倍

在研究者构建的 SkillsBench 基准上，SkillSmith 与直接使用原始技能（raw-skills）的方案进行了对比。结果显示：

求解阶段Token用量减少 57.44%
思考迭代次数减少 42.99%
求解时间缩短 50.57%（加速2.02倍）
按Token计费的货币成本降低 57.44%

这些数据充分证明了 SkillSmith 在效率优化上的显著优势。

额外亮点：跨模型复用与能力迁移

更引人注目的是，SkillSmith 编译后的制品（compiled artifacts）可以被不同模型复用。例如，由更强模型（如GPT-4）编译得到的接口，可以被更小或更高效的运行时模型（如Llama 3）直接调用，甚至在原始技能无法被小模型正确解读的情况下，仍能保持较高的任务准确率。这意味着 SkillSmith 不仅优化了单次执行效率，还为模型间的技能迁移提供了可行路径，降低了 Agent 系统对大型模型的过度依赖。

总结与展望

SkillSmith 从一个细微但关键的视角切入——技能的使用方式——并提出了“边界优先编译”这一优雅的解决方案。它不改变技能本身的内容，而是通过重新组织技能的表示与调用方式，实现了效率的大幅提升。这种思路对于构建大规模、低成本的Agent系统具有重要价值。未来，该框架或许能进一步扩展到多技能协作、动态技能组合等更复杂的场景。

论文及代码已公开，感兴趣的读者可访问 arXiv 或项目仓库获取更多细节。

SkillSmith：将Agent技能编译为边界引导的运行时接口

背景与问题

核心思路：边界优先的编译-运行时框架

性能提升：Token消耗减半，推理速度翻倍

额外亮点：跨模型复用与能力迁移

总结与展望

延伸阅读

相关资讯