SheepNav
新上线13天前0 投票

TeamTR:用于多智能体LLM协调的信任区域微调方法

多智能体大语言模型(LLM)系统在复杂推理任务中展现出潜力,但近期评估表明,这类系统往往不如单模型基线表现。来自《TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination》的研究揭示了一个结构性失败模式:在共享上下文团队的顺序微调中,更新一个智能体会改变团队的上下文分布,当后续更新在缓存的轨迹上评估时,这种不匹配会不断累积。研究者将此形式化为复合占据偏移(compounding occupancy shift),并证明在陈旧占据(stale-occupancy)评估下,惩罚项随智能体数量呈二次方增长,而中间占据(intermediate-occupancy)评估可将此降低为线性增长。

为解决该问题,论文提出TeamTR,一种信任区域框架。该方法在每个组件更新后重新采样轨迹,并对每个智能体施加散度控制,从而获得严格的每更新和每阶段改进下界。实验表明,TeamTR在多个任务上平均超越单智能体和顺序微调基线7.1%,有效缓解了协调退化问题,并支持即插即用的组件替换。相关代码已开源。

研究背景与问题

多智能体LLM系统通常采用共享上下文的方式进行顺序微调:先更新一个智能体,再基于其输出更新下一个。然而,这种策略存在根本缺陷——更新后的智能体会改变后续智能体所看到的上下文分布。当使用旧轨迹评估新策略时,评估结果会产生偏差,且这种偏差会随着智能体数量增加而急剧放大。

核心贡献

  1. 形式化复合占据偏移:证明陈旧占据评估的惩罚项为O(N²),而中间占据评估为O(N),其中N为智能体数量。
  2. 提出TeamTR框架:通过信任区域约束和轨迹重采样,保证每次更新都有理论上的改进下界。
  3. 实验验证:在多个多智能体推理任务中,TeamTR显著优于现有方法,平均提升7.1%,且能有效防止协调退化。

技术细节

TeamTR的核心思想是信任区域(trust-region)与轨迹重采样的结合。每次更新一个智能体后,立即用新策略重新生成后续智能体的交互轨迹,避免使用过时的上下文。同时,通过KL散度约束控制每个智能体的更新幅度,防止策略突变导致团队协作崩溃。

实验与意义

在包括数学推理、代码生成等任务上,TeamTR不仅提升了整体性能,还表现出良好的可扩展性——支持在训练后替换单个智能体组件而无需重新训练整个系统。这为构建更鲁棒、可维护的多智能体LLM应用提供了新思路。

该工作已被ICML 2026接收,代码已公开。

延伸阅读

  1. 戴尔新款XPS 13售价599美元,挑战MacBook Neo,保留高端特性
  2. 戴尔 XPS 13 (2026) vs. MacBook Neo:两款平价笔记本对比,我选这款
  3. 艾琳·布罗克维奇瞄准数据中心保密问题
查看原文