不确定性感知专家建议：自动驾驶强化学习安全探索新方法

强化学习（RL）是自动驾驶决策训练的核心技术之一，但其“探索”天性始终与安全相悖——智能体必须尝试新行为才能学习，而这些尝试往往导致碰撞或驶离道路。近日，来自德国卡尔斯鲁厄理工学院（KIT）的研究团队在 arXiv 上提交了一篇新论文（arXiv:2605.30576），提出一种不确定性感知框架，通过智能触发专家建议来引导探索，同时避免智能体对专家产生长期依赖，从而在安全与学习效率之间取得平衡。该工作已被 IEEE 智能交通系统国际会议（ITSC 2026） 接收。

核心思路：用不确定性量化决定何时求助

传统方法要么直接模仿专家轨迹（行为克隆），要么完全让智能体自由探索。前者导致智能体无法处理未见场景，后者则代价高昂。该框架的关键在于自适应触发机制：

同时监测两种不确定性——认知不确定性（epistemic，模型知识不足）和偶然不确定性（aleatoric，环境随机性）；
使用滚动缓冲区（rolling buffer） 动态计算自适应阈值，当任一不确定性超过阈值时，系统才会引入专家建议；
随着智能体置信度提升，阈值自动调整，触发频率逐渐降低，避免过度依赖。

调控策略：让“辅导”既连贯又节约

即使触发专家介入，如何控制干预的时长和频率？研究团队设计了承诺-冷却（commitment-cooldown）策略，配合随机早停启发式方法：

承诺阶段：一旦触发，专家连续提供多步建议，确保智能体执行完整且连贯的驾驶机动（如一次变道或转弯）；
冷却阶段：建议结束后进入冷却期，强制智能体独立决策，防止专家“代劳”过多；
早停机制：通过随机判断提前终止专家建议，进一步节约专家预算，并增加智能体自主决策的机会。

这种设计让智能体既能体验专家示范的完整动作序列，又不会对建议产生依赖。

技术实现：离线策略下的经验复用

框架基于离线策略隐式分位数网络（IQN） 作为强化学习骨干。专家轨迹与智能体自身经验被混合存入共享经验回放缓冲区，实现高效重用。这种设计允许智能体在离线策略设置下学习，不必完全依赖在线交互数据。

实验结果：CARLA 仿真中成功率提升 5-7%

研究团队在自动驾驶仿真平台 CARLA 上，针对无信号灯交叉口导航场景进行了测试。结果表明：

相比标准 IQN 基线，所提方法在成功率上提升 5-7%；
碰撞、驶离道路等故障率显著降低；
不确定性感知机制有效区分了“需要帮助”和“可以独立”的场景，避免了不必要的专家调用。

行业背景与意义

自动驾驶的强化学习研究长期面临“安全探索”困境。传统方法如奖励塑形、安全约束优化等各有局限。该工作的价值在于：

将不确定性量化与专家建议触发结合，形成闭环调控；
不依赖外部安全监控器，而是让智能体自己判断何时求助；
模块化设计可兼容多种 RL 算法，具备通用性。

当然，当前实验仅在仿真环境进行，真实道路的感知噪声、动态交通流等复杂性尚未纳入。但该思路为安全强化学习提供了一条务实路径：与其强制约束探索，不如让智能体学会“知难而退，适时求教”。

小结

这项工作将不确定性感知、自适应阈值和时序调控策略融为一体，在自动驾驶强化学习的探索安全问题上迈出了实质性一步。随着后续在更复杂场景和真实硬件上的验证，这种“智能求助”范式或将成为自动驾驶训练流程的标准组件。

不确定性感知与时间调控的专家建议：让自动驾驶强化学习更安全

核心思路：用不确定性量化决定何时求助

调控策略：让“辅导”既连贯又节约

技术实现：离线策略下的经验复用

实验结果：CARLA 仿真中成功率提升 5-7%

行业背景与意义

小结

延伸阅读

相关资讯