SheepNav
精选今天0 投票

通用AI智能体能自动完成数据筛选吗?新基准Curation-Bench揭示潜力与局限

在当今AI开发中,数据筛选是决定模型性能的关键环节,却也是最耗时耗力的工作之一。研究者需要反复尝试、实施、评估和修改数据策略,整个过程依赖大量人工。那么,能否让通用编程智能体(agent)来自动化这一循环?近日,来自加州大学伯克利分校和斯坦福大学等机构的研究团队提出了Curation-Bench——一个以智能体为中心的基准测试,旨在系统评估通用智能体在数据筛选任务上的能力。

什么是Curation-Bench?

Curation-Bench的设计思路非常清晰:固定模型、训练方案和评估套件,只给智能体提供命令行访问权限,让它能够检查数据、实施策略、提交到固定的训练/评估管线,并根据反馈进行迭代。在视觉-语言指令微调场景中,未经特别优化的通用智能体在十次迭代内就达到了已发表数据筛选基线的水平。

执行与研究之间的鸿沟

然而,研究团队通过轨迹分析发现了一个关键问题:执行-研究鸿沟(execution-research gap)。智能体倾向于在已有策略的局部进行微调,而不是探索全新的策略家族,即使提供了策略指南和论文参考文献,它们也往往在已知路径上“打转”。

脚手架引导:从执行到研究

为了弥补这一鸿沟,研究者设计了一种脚手架(scaffold)方法,要求智能体在每次迭代中引用、实例化并适配一种已有方法。这种强制性的“方法引导”显著提升了智能体的探索能力。令人惊讶的是,脚手架辅助的智能体在没有人类设计输入的情况下,自主组合出一种数据筛选策略,仅用十分之一的数据预算就超越了已发表的强基线结果

结论与启示

这项研究表明,当前通用智能体已经能够“运行”数据筛选循环,但要真正实现可靠的数据研究,不能仅靠开放式提示,还需要脚手架式的方法引导。Curation-Bench不仅为评估智能体数据筛选能力提供了标准化工具,也为未来更自主的AI研究揭示了方向:让智能体会“做实验”,而不仅仅是“跑代码”。

代码和基准已开源,感兴趣的读者可以进一步查阅论文细节。

延伸阅读

  1. StepPRM-RTL:用过程奖励模型指导大模型微调,提升RTL代码生成能力
  2. VAMPS 基准测试:多模态大模型在“看图解题”上竟不如直接算?
  3. Consensus is Strategically Insufficient: Reasoning-Trace Disagreement as a Knowledge-Representation Signal
查看原文