AI自主网络攻击能力评估：18个月进步显著，工业控制仍是短板

一项发布于arXiv的最新研究《Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios》系统评估了前沿AI模型在自主执行多步骤网络攻击任务中的能力演进。研究团队构建了两个专门设计的网络靶场：一个包含32个步骤的企业网络攻击场景，另一个是7个步骤的工业控制系统（ICS）攻击场景，旨在测试模型在需要串联多种异构能力的长序列行动中的表现。

研究设计与模型范围

研究比较了从2024年8月到2026年2月这18个月内发布的七款前沿AI模型，并在不同的推理时计算预算（以token数量衡量）下进行测试。这为观察AI在复杂、多步骤攻击任务中的能力发展趋势提供了宝贵的时间序列数据。

核心发现：两大能力趋势

1. 性能与计算资源的对数线性关系

研究发现，模型在攻击任务上的表现与推理时投入的计算资源（token数量）呈对数线性增长关系，且未观察到性能平台期。具体而言，将计算预算从1000万token提升到1亿token，模型完成攻击步骤的能力可提升高达59%。值得注意的是，这种性能提升无需操作者具备特定的技术专长，意味着计算资源的增加可以直接、有效地转化为攻击能力的增强。

2. 模型代际的持续进步

在相同的计算预算下，每一代新模型的表现都优于其前代。在企业网络攻击靶场的测试中，这一趋势尤为明显：

在1000万token的预算下，模型平均完成的步骤数从2024年8月的GPT-4o的1.7步，提升到了2026年2月的Opus 4.6的9.8步。
在单次最佳运行中，模型成功完成了32个步骤中的22步。研究估计，完成这些步骤人类专家大约需要14小时，而AI模型的表现对应了其中约6小时的工作量。

不同场景的能力差异

尽管整体趋势积极，但模型在不同类型攻击场景中的能力存在显著差异。

企业网络攻击：模型表现出较强的适应性和进步，能够处理复杂的权限提升、横向移动等任务。
工业控制系统（ICS）攻击：模型性能仍然有限。虽然最新模型是首批能够可靠完成某些步骤的AI，但其平均完成度仅为7个步骤中的1.2到1.4步，单次运行最高完成3步。这表明针对OT（运营技术）环境的、高度专业化的攻击链对当前AI而言仍是巨大挑战。

对AI安全与网络安全的启示

这项研究不仅量化了AI自主攻击能力的快速进步，也揭示了其边界。对数线性的计算-性能关系意味着，随着计算成本下降，发动复杂网络攻击的门槛可能降低。同时，模型在ICS场景的乏力也提示，高度专业化、依赖物理系统知识的领域仍是AI的短板，但也可能是防御的关键切入点。

对于AI安全社区而言，这项研究强调了持续进行对抗性评估和“红队”测试的必要性，必须在模型能力发展的同时，同步推进防御技术和安全准则。

前沿AI模型在复杂网络攻击场景中的自主能力评估：从企业网络到工业控制系统