SheepNav
新上线今天0 投票

自博弈加少量人类数据,自动驾驶习得类人行为

自博弈加少量人类数据,自动驾驶习得类人行为

近日,一篇发表于 arXiv 的研究论文《Human-like autonomy emerges from self-play and a pinch of human data》提出了一种新颖的自动驾驶策略训练方法。该方法结合自博弈强化学习与少量人类驾驶数据,仅需 30 分钟 的人类驾驶示范和 15 小时 的单消费级 GPU 训练,即可训练出能与人类驾驶行为协调的自动驾驶策略。

背景与挑战

自博弈强化学习近年来成为训练驾驶策略的新方向,其核心优势在于无需人类数据,仅通过大规模仿真即可训练。然而,纯自博弈训练的策略往往习得“高效但怪异”的驾驶风格——例如在并道时采取人类难以预料的激进行为,导致与人类驾驶员的交互出现安全隐患。此前的研究尝试通过大量奖励工程和域随机化来缓解行为不匹配,但这些方法不仅脆弱,而且人工调参成本高昂。

方法核心:人类数据作为“调味料”

该研究的核心思路是:不彻底抛弃人类数据,而是将其作为正则化目标,叠加在一个最小安全目标达成奖励之上。作者将人类数据比作“好炖菜里的香料”——少量即可显著改善风味。具体而言,他们仅使用了 30 分钟 的人类驾驶示范,这比传统模仿学习方法少 2500 倍 的数据量。

训练流程如下:

  1. 在仿真环境中使用自博弈强化学习,以最小安全目标达成奖励为基础进行训练。
  2. 引入一个正则化项,惩罚策略与人类示范行为的偏离。
  3. 通过权重平衡,使策略在保持自博弈高效性的同时,输出类人行为。

实验结果与意义

实验表明,该策略能够与预留的人类轨迹进行协调,有效避免“外星驾驶”行为。训练效率极高:在单张消费级 GPU 上仅需 15 小时 即可完成训练。作者已在 GitHub 上开源完整代码和视频演示。

这项研究的价值在于:

  • 数据效率:将人类数据需求从海量示范降低至分钟级,大幅降低数据采集成本。
  • 训练效率:15 小时的单 GPU 训练时间,使研究团队和小型企业也能轻松复现。
  • 行为对齐:通过少量人类数据引导,解决了纯自博弈策略与人类行为不兼容的痛点。

局限与展望

尽管方法高效,但仍有改进空间:30 分钟的人类数据是否覆盖足够多的驾驶场景?在极端或罕见情境下,正则化是否仍能有效引导?未来工作可探索动态调整正则化强度,或结合元学习自动确定最优数据量。

总体而言,该研究为自动驾驶行为学习提供了一种“轻量级”解决方案,在自博弈与模仿学习之间找到了实用平衡点。

延伸阅读

  1. 美国称ASML顶级芯片设备可能在中国,ASML否认
  2. Barret Zoph 再次离开 OpenAI:回归仅五个月,企业 AI 销售主管离职
  3. SPSD:边缘端提示压缩缩小社交-语义鸿沟,降低云端LLM推理能耗
查看原文