前沿AI模型在复杂网络攻击场景中的自主能力评估:从企业网络到工业控制系统
一项发布于arXiv的最新研究《Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios》系统评估了前沿AI模型在自主执行多步骤网络攻击任务中的能力演进。研究团队构建了两个专门设计的网络靶场:一个包含32个步骤的企业网络攻击场景,另一个是7个步骤的工业控制系统(ICS)攻击场景,旨在测试模型在需要串联多种异构能力的长序列行动中的表现。
研究设计与模型范围
研究比较了从2024年8月到2026年2月这18个月内发布的七款前沿AI模型,并在不同的推理时计算预算(以token数量衡量)下进行测试。这为观察AI在复杂、多步骤攻击任务中的能力发展趋势提供了宝贵的时间序列数据。
核心发现:两大能力趋势
1. 性能与计算资源的对数线性关系
研究发现,模型在攻击任务上的表现与推理时投入的计算资源(token数量)呈对数线性增长关系,且未观察到性能平台期。具体而言,将计算预算从1000万token提升到1亿token,模型完成攻击步骤的能力可提升高达59%。值得注意的是,这种性能提升无需操作者具备特定的技术专长,意味着计算资源的增加可以直接、有效地转化为攻击能力的增强。
2. 模型代际的持续进步
在相同的计算预算下,每一代新模型的表现都优于其前代。在企业网络攻击靶场的测试中,这一趋势尤为明显:
- 在1000万token的预算下,模型平均完成的步骤数从2024年8月的GPT-4o的1.7步,提升到了2026年2月的Opus 4.6的9.8步。
- 在单次最佳运行中,模型成功完成了32个步骤中的22步。研究估计,完成这些步骤人类专家大约需要14小时,而AI模型的表现对应了其中约6小时的工作量。
不同场景的能力差异
尽管整体趋势积极,但模型在不同类型攻击场景中的能力存在显著差异。
- 企业网络攻击:模型表现出较强的适应性和进步,能够处理复杂的权限提升、横向移动等任务。
- 工业控制系统(ICS)攻击:模型性能仍然有限。虽然最新模型是首批能够可靠完成某些步骤的AI,但其平均完成度仅为7个步骤中的1.2到1.4步,单次运行最高完成3步。这表明针对OT(运营技术)环境的、高度专业化的攻击链对当前AI而言仍是巨大挑战。
对AI安全与网络安全的启示
这项研究不仅量化了AI自主攻击能力的快速进步,也揭示了其边界。对数线性的计算-性能关系意味着,随着计算成本下降,发动复杂网络攻击的门槛可能降低。同时,模型在ICS场景的乏力也提示,高度专业化、依赖物理系统知识的领域仍是AI的短板,但也可能是防御的关键切入点。
对于AI安全社区而言,这项研究强调了持续进行对抗性评估和“红队”测试的必要性,必须在模型能力发展的同时,同步推进防御技术和安全准则。


