不确定性感知与时间调控的专家建议:让自动驾驶强化学习更安全
强化学习(RL)是自动驾驶决策训练的核心技术之一,但其“探索”天性始终与安全相悖——智能体必须尝试新行为才能学习,而这些尝试往往导致碰撞或驶离道路。近日,来自德国卡尔斯鲁厄理工学院(KIT)的研究团队在 arXiv 上提交了一篇新论文(arXiv:2605.30576),提出一种不确定性感知框架,通过智能触发专家建议来引导探索,同时避免智能体对专家产生长期依赖,从而在安全与学习效率之间取得平衡。该工作已被 IEEE 智能交通系统国际会议(ITSC 2026) 接收。
核心思路:用不确定性量化决定何时求助
传统方法要么直接模仿专家轨迹(行为克隆),要么完全让智能体自由探索。前者导致智能体无法处理未见场景,后者则代价高昂。该框架的关键在于自适应触发机制:
- 同时监测两种不确定性——认知不确定性(epistemic,模型知识不足)和偶然不确定性(aleatoric,环境随机性);
- 使用滚动缓冲区(rolling buffer) 动态计算自适应阈值,当任一不确定性超过阈值时,系统才会引入专家建议;
- 随着智能体置信度提升,阈值自动调整,触发频率逐渐降低,避免过度依赖。
调控策略:让“辅导”既连贯又节约
即使触发专家介入,如何控制干预的时长和频率?研究团队设计了承诺-冷却(commitment-cooldown)策略,配合随机早停启发式方法:
- 承诺阶段:一旦触发,专家连续提供多步建议,确保智能体执行完整且连贯的驾驶机动(如一次变道或转弯);
- 冷却阶段:建议结束后进入冷却期,强制智能体独立决策,防止专家“代劳”过多;
- 早停机制:通过随机判断提前终止专家建议,进一步节约专家预算,并增加智能体自主决策的机会。
这种设计让智能体既能体验专家示范的完整动作序列,又不会对建议产生依赖。
技术实现:离线策略下的经验复用
框架基于离线策略隐式分位数网络(IQN) 作为强化学习骨干。专家轨迹与智能体自身经验被混合存入共享经验回放缓冲区,实现高效重用。这种设计允许智能体在离线策略设置下学习,不必完全依赖在线交互数据。
实验结果:CARLA 仿真中成功率提升 5-7%
研究团队在自动驾驶仿真平台 CARLA 上,针对无信号灯交叉口导航场景进行了测试。结果表明:
- 相比标准 IQN 基线,所提方法在成功率上提升 5-7%;
- 碰撞、驶离道路等故障率显著降低;
- 不确定性感知机制有效区分了“需要帮助”和“可以独立”的场景,避免了不必要的专家调用。
行业背景与意义
自动驾驶的强化学习研究长期面临“安全探索”困境。传统方法如奖励塑形、安全约束优化等各有局限。该工作的价值在于:
- 将不确定性量化与专家建议触发结合,形成闭环调控;
- 不依赖外部安全监控器,而是让智能体自己判断何时求助;
- 模块化设计可兼容多种 RL 算法,具备通用性。
当然,当前实验仅在仿真环境进行,真实道路的感知噪声、动态交通流等复杂性尚未纳入。但该思路为安全强化学习提供了一条务实路径:与其强制约束探索,不如让智能体学会“知难而退,适时求教”。
小结
这项工作将不确定性感知、自适应阈值和时序调控策略融为一体,在自动驾驶强化学习的探索安全问题上迈出了实质性一步。随着后续在更复杂场景和真实硬件上的验证,这种“智能求助”范式或将成为自动驾驶训练流程的标准组件。