SheepNav
新上线1个月前0 投票

ATPO:面向多轮医疗对话的自适应树策略优化算法

医疗AI新突破:ATPO算法让大模型诊断更精准

在医疗对话场景中,有效的信息获取对准确诊断至关重要,尤其是在信息不完整的情况下。然而,将大语言模型(LLMs)应用于这种多轮交互场景面临巨大挑战——用户与智能体之间的不确定性难以把握。传统强化学习方法如GRPO(组相对策略优化)在长时程信用分配上表现不佳,而PPO(近端策略优化)则存在价值估计不稳定的问题。

ATPO:一种不确定性感知的优化算法

针对上述难题,研究人员提出了一种名为自适应树策略优化(ATPO)的新算法。该算法将多轮医疗对话建模为分层马尔可夫决策过程(H-MDP),核心创新在于能够自适应地将计算资源(即“rollout预算”)分配到不确定性高的状态。

不确定性如何量化? ATPO使用贝尔曼误差和动作值方差的复合指标来精确衡量每个状态的不确定性。这种策略不仅实现了更准确的价值估计,还促进了更高效、更多样化的探索。

两大优化技术解决计算瓶颈

基于树的强化学习方法通常计算成本高昂,ATPO通过两项关键技术解决了这个问题:

  1. 不确定性引导的剪枝机制:通过智能剪枝减少不必要的rollout数量,显著降低计算开销。
  2. 异步搜索架构:利用KV缓存重用技术,最大化推理吞吐量,提升整体效率。

实验表现:小模型超越大模型

在三个公开医疗对话基准测试上的广泛实验表明,ATPO算法显著优于多个强基线模型。最引人注目的结果是:使用ATPO优化的Qwen3-8B模型在准确率上超越了规模大得多的GPT-4o,提升幅度达0.92%

这一突破性进展意味着,通过更高效的算法优化,相对较小的模型也能在特定专业领域(如医疗诊断)达到甚至超越超大模型的性能水平。

对AI医疗行业的启示

ATPO算法的成功不仅为医疗对话系统提供了新的技术路径,也为大语言模型在专业垂直领域的应用带来了重要启示:

  • 算法优化比单纯扩大模型规模可能更有效:在资源受限的场景下,智能的算法设计能够释放模型的潜在能力。
  • 不确定性处理是关键:在医疗等高风险领域,准确量化和管理不确定性比追求绝对确定性更为实际和重要。
  • 计算效率是落地瓶颈:ATPO的优化技术展示了如何通过算法创新解决实际部署中的计算挑战。

该研究已被ICLR 2026接收,标志着强化学习与医疗AI交叉领域的重要进展。随着算法不断成熟,我们有望看到更智能、更可靠的AI医疗助手进入实际应用,辅助医生进行更精准的诊断决策。

延伸阅读

  1. 从俳句到巨作仅需10比特:大语言模型解锁海量压缩增益
  2. 同质性感知的监督对比反事实增强公平图神经网络:解决GNN偏见的新方法
  3. PROGRS框架:利用过程奖励优化LLM数学推理,以结果为导向提升步骤准确性
查看原文