AI 资讯

每日聚合最新人工智能动态

行为诱导镜像近端时序差分学习：加速离策略预测的新方法

精选

强化学习中的离策略预测（off-policy prediction）一直是核心挑战之一，尤其是在使用线性函数逼近时。传统梯度时序差分（GTD）方法虽能保证稳定性，但其收敛速度严重依赖于辅助变量度量（metric）所定义的几何结构。近日，一篇发表于 arXiv 的新论文（arXiv:2605.28849）提出了一种名为 **STHTD-MP** 的行为诱导镜像近端时序差分方法，通过引入行为策略的转移信息来优化更新几何，从而显著加速收敛。 ### 从协方差度量到行为诱导度量现有 Mirror-Prox TD 方法（如 GTD2-MP）通常采用特征协方差矩阵作为度量，而混合 TD 方法（hybrid TD）的研究表明，**行为策略的转移信息**能提供更丰富的更新几何。论文作者将这一洞察形式化：在原始-对偶鞍点公式中，用行为策略 Bellman 矩阵的对称部分替换协方差度量。这一改动使得优化过程的几何结构更贴合实际任务中的动态特性。 ### 算法设计与理论分析 STHTD-MP 的核心创新在于三点： - **单一学习率**：对原始变量和辅助变量使用统一的学习率，简化了超参数调节。 - **Mirror-Prox 预测-校正步骤**：应用于混合鞍点算子，增强了算法的稳定性。 - **行为诱导度量**：确保度量矩阵正定，为收敛性奠定基础。作者在标准随机逼近假设下给出了严格的收敛证明：联合均值系统是 Hurwitz 稳定的，通过李雅普诺夫论证保证有界性，随机递归由 ODE 方法收敛。此外，论文推导了投影-预言机遍历间隙界，并基于确定性 Mirror-Prox 误差矩阵的谱半径进行了与 GTD2-MP 的精确均值算子比较。分析表明，当行为诱导度量改善了鞍点几何时，**STHTD-MP 的平均收缩因子可以小于 GTD2-MP**，从而更快收敛。 ### 实验验证与边界案例数值实验在三个基准上验证了理论： - **Two-State**：简单场景，验证基础性能。 - **Random Walk**：中等规模，展示加速效果。 - **Boyan Chain**：复杂链式结构，检验泛化能力。精确的数值均值算子分析支持了理论条件。值得注意的是，论文特别指出了 **Baird 反例**（Baird's counterexample）作为奇异边界情况：在该反例中，严格假设不成立，行为诱导度量的优势无法发挥。这一发现提醒实际应用者需注意方法的前提条件。 ### 行业意义与未来方向这项研究为强化学习中的离策略预测提供了新的几何视角。相比于依赖固定协方差度量的传统方法，**动态利用行为策略信息**的思路有望在机器人控制、推荐系统等需要高效样本利用的场景中带来突破。未来工作可拓展至非线性函数逼近和深度强化学习，并探索如何自适应地选择度量。论文由 Xingguo Chen、Yuchen Shen 等五位作者完成，目前已在 arXiv 公开。对于关注强化学习理论的研究者和工程师，STHTD-MP 提供了一个兼具理论深度与实践潜力的新工具。

Anthropic2天前原文

扩散模型概念擦除新突破：正交方法实现精准移除，保留生成能力

精选

扩散模型在图像生成领域表现出色，但有时也会产生不当或有害内容。如何精准“擦除”特定概念（如暴力、色情等）而不损害模型的整体生成能力，一直是研究难点。来自中国科学技术大学等机构的研究团队提出了一种名为**正交概念擦除（Orthogonal Concept Erasure, OCE）**的新方法，相关论文已被 ICML 2026 接收为 Oral 论文。 ## 现有方法的困境当前概念擦除方法主要分为两类：**训练型方法**和**编辑型方法**。训练型方法效果较好，但计算成本高、扩展性差；编辑型方法效率高、易于部署，却在精准擦除和保持生成质量之间难以平衡。研究者发现，这一局限的根源在于编辑型方法依赖**加法参数更新**。他们的实证分析表明，概念语义主要取决于神经元的**方向**而非幅度，而整体生成能力依赖于神经元的**角度几何结构**。加法更新会不可避免地纠缠方向、幅度和角度几何，导致概念擦除与生成性能之间相互干扰。 ## OCE 的核心创新 OCE 从几何角度出发，将编辑型擦除重新定义为**乘法参数更新**。具体来说，OCE 通过闭式解推导出层级的正交变换，并将其应用于模型参数，从而在**精确擦除目标概念**的同时，**保持神经元的幅度和角度几何结构不变**。这意味着，模型可以忘记“狗”这个类别，但生成猫、汽车等其他物体的能力几乎不受影响。此外，针对多概念擦除中可能出现的约束冲突问题，OCE 引入了**子空间级别目标**和结构化子空间操作，使得擦除多个概念时依然高效且可扩展。 ## 实验结果在单概念和多概念擦除任务上，OCE 均展现出优异性能。实验表明，OCE 在**概念擦除效果**和**非目标保持能力**上均优于现有方法。令人印象深刻的是，OCE 能够在 **4.3 秒内擦除多达 100 个概念**，效率远超训练型方法。 ## 行业意义 OCE 不仅为扩散模型的安全部署提供了实用工具，也为理解神经网络内部表征提供了新视角。未来，该方法有望被集成到主流图像生成工具中，帮助开发者和平台更灵活地管理内容安全，同时避免因过度擦除而牺牲模型的艺术表现力或多样性。 ## 小结正交概念擦除（OCE）通过乘法正交变换，巧妙地解耦了概念擦除与生成能力维护之间的矛盾，实现了高效、精准且可扩展的概念移除。这一工作为 AI 安全领域带来了重要启发，也展示了基础数学原理在解决实际工程问题中的强大威力。

Anthropic2天前原文

VFEAgent：多模态智能体框架让有限元分析实现端到端自动化

精选

有限元分析（FEA）是现代工程设计的基石，但传统工作流高度依赖专家经验，流程繁琐。北京大学与中国农业大学联合团队最新提出的 **VFEAgent** 框架，正尝试用多智能体系统彻底改写这一局面。 ## 核心思路：从“看图说话”到自动仿真 VFEAgent 是一个端到端的多模态智能体系统，其最大特点是 **直接接受输入图像和问题描述**，自动完成 FEA 建模与仿真。研究团队设计了两大核心组件： 1. **多模态视觉-语言多智能体流水线**：利用 ReAct 驱动推理，从异构输入（图片+文字）中提取结构化的 FEA 规范。 2. **验证优先的代码合成框架**：内建自调试与回退机制，确保生成代码的可执行性与物理有效性。 ## 技术亮点：不止是“大模型+代码” 当前已有不少将大语言模型（LLM）应用于 FEA 的尝试，但在处理多模态输入和执行复杂任务时存在明显短板。VFEAgent 的突破在于： - **多智能体协作**：不同智能体分别负责视觉理解、物理规则检查、代码生成与验证，分工明确。 - **物理有效性优先**：传统 LLM 生成的代码可能语法正确但物理荒谬，VFEAgent 通过验证优先设计，大幅提升了仿真结果的可信度。 ## 评测表现：全面超越基线方法团队在多种工程力学场景下进行了系统评测，结果表明： - VFEAgent 在生成完整且物理有效的仿真任务上取得了 **高成功率**； - 相比纯 LLM 基线方法，在 **可靠性与正确性** 上均有显著提升。 ## 行业意义：工程师的“解放”还是“进化”？ FEA 自动化的价值不仅在于节省时间。传统 FEA 流程中，模型简化、边界条件设定、网格划分等环节需要大量经验判断，VFEAgent 的端到端能力有望将工程师从重复性劳动中解放出来，转而聚焦于更高层的设计创新与决策。不过，该框架目前仍处于预印本阶段，实际工程落地还需解决复杂几何体识别、大规模计算效率等挑战。但无论如何，这一方向已为 AI 辅助工程设计开辟了新的可能性。 ## 小结 VFEAgent 通过多模态多智能体协作，首次实现了从图像/文本输入到完整 FEA 仿真的端到端自动化。它不仅展示了 LLM 在工程科学中更深层的应用潜力，也为未来“AI+工程”的融合范式提供了值得关注的范例。

Anthropic2天前原文

前沿LLM智能体突破自然表型本体注释瓶颈，表现媲美人类专家

精选

将自由文本中的表型描述与本体术语（ontology terms）准确关联，即表型注释（phenotype annotation），是跨研究整合比较形态学数据的关键环节。然而，这一过程高度依赖训练有素的人类专家，耗时费力，难以规模化，成为该领域的核心瓶颈。近日，一篇发表在arXiv上的研究《Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes》重新审视了这一经典问题，并给出了令人振奋的答案：前沿的大型语言模型（LLM）智能体在表型注释任务上已能达到与人类专家相媲美的水平。 ## 研究背景与基准 2018年，Dahdul等人建立了一个包含来自七项系统发育研究的实体-质量（Entity-Quality, EQ）注释的金标准（Gold Standard）数据集。他们利用该数据集评估了三位人类注释员和基于本体的语义相似度工具Semantic CharaParser，结果发现机器与人类的一致性显著低于人类注释员之间的一致性。这一差距凸显了自动注释的挑战，也奠定了该领域的评估基准。 ## 新方法：LLM智能体作为注释员在本研究中，来自James P. Balhoff和Hilmar Lapp的研究团队采用了五种前沿的托管LLM（来自Anthropic和OpenAI），并将它们构建为**自主智能体**。每个智能体在一个独立的工作空间中运行，配备有： - 源出版物PDF - 原始人类注释员使用的同一份注释指南 - 四个项目本体（UBERON、PATO、BSPO、GO） - 一个验证脚本这种设计模拟了人类注释员的工作流程，智能体可以“阅读”文献、理解指南、查询本体，并生成符合格式的注释。 ## 核心结果：媲美人类，超越传统工具与2018年的金标准对比评估后，结果令人印象深刻： - **每位LLM智能体的表现均落在原始研究中三位人类注释员之间的变异性范围内**。这意味着，在统计意义上，这些智能体的注释质量与人类专家没有显著差异。 - 表现最佳的智能体接近但未超越最佳的人类注释员，但整体上已非常接近。 - 在所有四项评估指标上，LLM智能体**大幅超越了**传统的Semantic CharaParser工具。 ## 意义与展望这项研究具有双重意义。首先，它证明了**前沿LLM智能体能够有效克服表型本体注释的瓶颈**，为大规模、跨研究的形态学数据整合提供了可行的自动化方案。其次，该工作展示了“**智能体化**”LLM的潜力：通过提供合适的工具和环境（PDF、指南、本体、验证脚本），模型不仅能生成文本，还能像一个“领域专家”一样完成复杂的专业任务。随着LLM能力的持续提升和智能体框架的成熟，我们可以期待在生物信息学、临床表型注释等更多领域看到类似的突破。对于比较形态学而言，这或许意味着一个数据整合新时代的开启。

Anthropic2天前原文

URIEL：用空中机器人系统实现热带森林超低影响选择性伐木与采后抚育

精选

热带森林正因经济和政治利益驱动而承受巨大的毁林压力，科学证据表明这种毁林加剧了气候变化。近日，一篇发表在 arXiv 上的论文提出了一种全新的伐木方法——**超低影响包裹式伐木（URIEL）**，该方法结合了直升机伐木（heli-logging）技术，并密集使用机器人和人工智能，由无人机执行采后抚育处理。 ## 方法核心 URIEL 的核心思路是：利用直升机将包裹在保护套中的原木吊运出林，避免传统地面机械造成的土壤压实、植被破坏和道路建设。伐木前，AI 驱动的无人机系统对森林进行高精度扫描，识别目标树木并规划最优路径；伐木过程中，机器人设备完成精准切割和包裹；伐后，无人机执行抚育任务，如播种、施肥或监测再生情况。 ## 可行性验证研究团队开发了该方法的全套设备概念，完成了尺寸设计、数字概念验证，并针对多种直升机-木材-距离组合进行了仿真和经济可行性分析。结果表明，URIEL 方法具有**高经济可行性**，同时能**几乎完全消除对森林的附带损害**，维持生态系统服务。 ## 挑战与展望尽管科学和技术结果令人满意，论文指出 URIEL 的可行性取决于多方利益相关者的整合：高科技产业、政府、认证伐木公司以及原住民社区。这一技术能否落地，不仅取决于技术成熟度，更依赖于社会、政策和产业协同。论文作者团队来自多所巴西研究机构，共 14 人，论文长达 196 页，包含 40 张图表。研究认为，URIEL 有望成为保护热带森林的革命性技术，但“它终究会转动”（E pur si muove）——正如伽利略的坚持，技术突破需要时间与实践的检验。

Anthropic2天前原文

认知范畴 Transformer：用范畴论为语言模型注入认知归纳偏置

精选

一篇新论文《认知范畴 Transformer》（Cognitive Categorical Transformer, CCT）尝试将范畴论与认知科学的灵感引入语言模型架构，以提升模型对语言结构的理解能力。该模型以预训练的 **GPT-2 Small** 为骨干，额外增加了基于范畴论和认知科学的组件，参数量为 **3.06 亿**。在 WikiText-103 数据集上，CCT 在相同训练步数（215,000 步）和优化器设置下，验证困惑度达到 **21.27**，而同等微调的 GPT-2 Small 基线为 **24.19**，实现了 **2.92 点（12%）** 的相对改进。值得注意的是，GPT-2 Large（参数量为 GPT-2 Small 的 6.2 倍）在零样本下困惑度为 22.05，CCT 以更小的模型超越了这一水平。 ### 关键创新：单纯复形消息传递论文的核心贡献在于引入了一种名为 **GT-Full（单纯复形消息传递）** 的组件。消融实验表明，移除 GT-Full 后模型困惑度升至 **23.72**，这意味着 84%（2.45/2.92）的性能提升来自该组件。这是首次通过消融实验验证单纯复形消息传递能在 3 亿参数规模上有效改善语言模型困惑度。单纯复形是一种拓扑结构，能捕捉高阶关系（如词之间的多重关联），而传统 Transformer 仅关注两两交互。 ### 结构vs一致性：范畴先验的区分研究还测试了其他基于范畴论的先验，如 **层平滑（sheaf smoothing）**、**伴随往返（adjunction round-trip）** 和 **曲率正则化（curvature regularization）**，但这些方法均未带来提升。作者由此提出了 **“结构/一致性区分”** 假说：增加新拓扑结构的范畴先验（如单纯复形）有益于语言建模，而强制保持某种一致性恒等关系的先验则无效。这一发现为未来设计更有效的归纳偏置提供了指导。 ### 意义与局限 CCT 展示了将数学结构（范畴论）与认知科学原理结合来改进 AI 架构的潜力。不过，该工作仅在单一数据集（WikiText-103）上验证，且模型规模较小（3 亿参数）。未来需要在更大模型和更多任务上检验其泛化能力。此外，论文未提供代码或开源模型，复现和进一步研究尚需时日。

Anthropic2天前原文

行为感知辅助修正：离线策略时序差分学习的新进展

精选

强化学习中，离线策略（off-policy）采样下的时序差分（TD）学习常因函数近似而出现不稳定。经典算法 TDC 通过辅助协方差修正来稳定学习，而 TDRC 进一步在单时间尺度递归中正则化该修正。近日，一篇发表于 arXiv 的最新研究提出了一种**行为感知（behavior-aware）** 的改进方案，旨在替换 TDC/TDRC 中的辅助协方差矩阵，从而提升学习稳定性与收敛性能。 ### 核心创新：行为感知矩阵替换研究团队首先将 TDC 中的辅助矩阵 **C**（特征协方差矩阵）替换为**行为贝尔曼矩阵 A_μ**，得到新算法 **BA-TDC**。随后，他们在同一行为感知方程上施加正则化，得到 **BA-TDRC**。这种两步构建法将行为感知几何的贡献与正则化的贡献分离开来，为理解算法设计提供了清晰视角。在**线性预测**设置下（分析价值函数近似特征空间动力学的标准局部模型），作者给出了有限状态均值系统公式，证明了在均值系统满足 Hurwitz 稳定性条件下的**不动点保持**和**几乎必然收敛**性质。他们还通过精确线性误差递归的谱半径比较了确定性均值收敛速率。 ### 实验验证与关键发现实验在四个经典基准上展开：**双状态反例**、**Baird 反例**、**随机游走**和 **Boyan Chain**。结果表明： - 行为感知替换本身在某些任务上**效果显著**，例如在双状态反例中收敛更快且更稳定； - 但在更困难的场景（如 Baird 反例）中，**正则化是必须的**，BA-TDRC 的综合表现优于 BA-TDC 和原始 TDC/TDRC。 ### 行业背景与意义该工作回应了深度强化学习中一个关键问题：当使用神经网络进行价值近似时，**特征协方差**与**时间转移矩阵**如何共同影响最后一层修正动力学？传统 TDC 使用普通协方差矩阵，而本文证明行为感知矩阵能更准确地捕捉策略差异带来的几何结构。这一思路可能为深度离线策略算法的稳定性设计提供新工具，尤其是在需要高效利用历史数据的场景中。 ### 局限与展望当前工作限于线性函数近似与有限状态空间，其在非线性神经网络中的推广仍有待验证。不过，作者提供的理论框架（均值系统分析与谱半径比较）为后续研究奠定了分析基础。未来，行为感知辅助修正有望与其他正则化技术（如梯度截断、目标网络）结合，在更复杂的连续控制任务中发挥价值。

Anthropic2天前原文

LLM审稿靠谱吗？新研究揭示：人类与AI审稿一致性有限，且存在“刷分”漏洞

精选

随着大型语言模型（LLM）在学术评审中的应用逐渐增多，甚至部分顶级会议已开始试点使用AI辅助审稿，一个关键问题随之浮现：LLM的评审意见能否与人类评审员保持一致？作者又是否会利用LLM来“刷分”？一项针对2025年ACL Rolling Review（ARR）论文的实证研究给出了初步答案。 ## 研究背景：LLM审稿走向台前近年来，LLM生成的论文评审意见越来越常见。一些大型会议甚至开始官方试点AI辅助审稿。然而，这种做法的潜在风险不容忽视：一方面，审稿人可能过度依赖AI；另一方面，作者也可能利用LLM反复修改论文，以迎合AI评审的偏好，从而获得更高分数。这种“博弈”行为可能破坏学术评审的公正性。 ## 核心发现：一致性有限，且波动较大研究团队对2025年ARR的论文进行了实验，从作者和审稿人两个角度评估LLM评审的质量。结果发现，**LLM评审与人类评审的一致性整体有限**。虽然在最佳设置下一致性尚可，但**一致性水平在不同提示词和不同模型之间差异显著**。这意味着，LLM评审的可靠性高度依赖于具体实现，远未达到稳定可信的程度。 ## 更令人担忧：LLM评审可被“博弈” 研究进一步模拟了作者使用LLM进行“迭代式修改”的场景：作者根据LLM给出的评审意见，反复修改论文，再提交给LLM评审。结果发现，**这种策略在某些情况下确实有效**——最多可使**35%的论文**获得统计上显著的总分提升。这表明，LLM评审存在被“刷分”的漏洞，作者可以通过针对性修改来操纵AI评审结果。 ## 行业影响与启示这项研究为正在探索AI辅助审稿的学术社区敲响了警钟。虽然LLM能提升审稿效率，但其一致性不足和易被博弈的特性，可能引入新的不公平。未来，若要在正式评审中采用LLM，必须设计更稳健的机制，例如： - **多模型、多提示词混合评审**，减少单一模型的偏差； - **引入对抗性检测**，识别出被“刷分”的论文； - **保持人类评审的主导地位**，仅将LLM作为辅助工具。总之，LLM评审尚未成熟到可以完全替代人类。在拥抱技术便利的同时，学术共同体需要保持警惕，确保评审过程的公平与权威。

Anthropic2天前原文

实时分析中的“发现代理”：迈向主动洞察系统

精选

传统分析系统本质上是**被动**的：用户必须事先知道要问什么，才能定义查询、获取结果。但在实时数据流环境中，数据持续演变，潜在洞察空间巨大，手动枚举查询变得不切实际。一篇被 ACM 智能体系统会议（CAIS 2026）收录的论文提出了一个**多智能体架构**，旨在实现数据流上的**自主洞察发现**，将分析范式从“查询驱动”转向“发现驱动”。该系统的核心是一个**连续发现循环**：智能体首先**生成假设**（例如“某地区销售额突然下降是否与物流延迟相关？”），然后将假设编译为可执行的分析任务，接着**验证生成的结果**，最后输出可视化报告甚至可部署的应用。整个过程无需人工干预，系统自主决定“接下来该探索什么”。技术栈方面，架构充分利用了成熟的开源组件：**Apache Kafka** 负责智能体间的事件驱动协调，**Apache Flink** 执行流处理任务，而**大语言模型（LLM）**则为每个智能体提供推理和生成能力。论文特别强调了**契约驱动设计**——通过定义类型化的中间工件（typed intermediate artifacts），确保模块化、可观测性、数据血缘追踪，以及动态生成代码的安全执行。论文通过零售、金融和公共数据三个用例展示了该架构的效果。在零售场景中，系统能自动检测到促销活动与库存周转率的异常关联；在金融场景中，它能在市场波动时自主生成风险因子分析报告；在公共数据场景中，它从开放数据流中发现了此前未被注意到的季节性模式。这项工作并非孤立的学术探索。它直接回应了当前 AI 行业的两大趋势：**智能体（Agent）系统的兴起**和**实时数据平台的普及**。将 LLM 驱动的推理能力与流处理引擎的低延迟计算相结合，有望催生新一代“主动式”分析产品——它们不再是仪表盘上的静态图表，而是持续运行的、能主动向用户推送异常与机会的“分析伙伴”。当然，该架构也面临挑战：LLM 生成的分析假设可能包含偏差或错误，动态代码执行的安全性需要更严格的沙箱机制，以及在大规模流数据上的成本控制。但无论如何，这篇论文为“让数据主动说话”提供了一个清晰的技术路线图。

Anthropic3天前原文

RULER：从表征层面验证机器遗忘效果

精选

机器遗忘（Machine Unlearning）旨在删除已部署模型中特定训练数据的影响，而无需从头重新训练。然而，现有验证协议仅从输出层面进行检验——通过成员推断、保留集准确率和遗忘集准确率——但一篇新论文揭示了一个隐患：模型可能同时通过这三项测试，却仍在其中间表征中编码了被遗忘的记录。来自拉夫堡大学的 Georgina Cosma 和 Axel Finke 在预印本 arXiv:2605.27569 中提出了 **RULER**，一套基于表征层面的验证指标。其中两个核心指标引人注目： - **M2（oracle对比指标）**：将被遗忘记录在遗忘模型中的表征位置与一个从头重新训练（不含这些记录）的模型中的位置进行比较，以此检测残留信息。 - **M4（无oracle指标）**：无需重新训练，仅通过遗忘模型内部的相似性结构即可检测残留痕迹，甚至可作为遗忘前的诊断工具。实验覆盖表格、图像、临床文本和人脸识别等多种场景。结果显示，四种近似遗忘方法均能通过输出层评估，但在线性混合效应模型下，**M2 在 12 种条件中有 10 种检测到显著残留（p<0.05）**，且遗忘比例越大，效应量越强。第五种方法“Bad Teacher”虽采用不同遗忘机制，同样暴露出残留。而 **M4 在人脸识别模型中检测到身份级别的记忆**，表明现有方法均无法彻底擦除该信号。这项研究对 AI 合规与隐私保护具有重要价值。当前 GDPR 等法规要求的“被遗忘权”可能因验证手段的疏漏而流于形式。RULER 提供了一种更严格的审计框架，有助于发现隐藏的记忆残留，推动遗忘技术从“输出达标”走向“表征清洁”。未来，该工作或为遗忘算法的设计提供新基准，并引发对验证标准本身的反思。

Anthropic3天前原文

LLM为何在因果发现上失败？新研究提出“干预代理”突破理论极限

精选

因果发现（Causal Discovery）是科学推理的基石，然而大型语言模型（LLM）能否可靠地完成这一任务，始终是悬而未决的问题。近日，一篇发表于arXiv的论文《Why LLMs Fail at Causal Discovery and How Interventional Agents Escape》从理论层面给出了答案：**LLM的失败并非源于模型或数据，而是学习范式本身的固有局限**。 ## 核心问题：LLM为何“学不会”因果关系？论文指出，当前主流的训练方法——包括**监督微调（SFT）**、**直接偏好优化（DPO）**和**上下文学习（ICL）**——都会产生一种预测器，它无法区分能生成相似观测数据的因果图。更致命的是，任何试图做到这一点的尝试，都要求模型的内部表征无限增长，而这恰恰违反了这些方法有效工作的前提条件。研究者将这一发现形式化为**核障碍定理（Kernel Obstruction Theorem）**，证明该局限是学习范式内在的，与具体模型或数据集无关。这一结论解释了为何在因果发现基准测试中，即使经过微调的LLM在面对简单因果图时也会遇到性能瓶颈，并且随着图复杂度增加而退化。 ## 突破路径：将LLM“降级”为干预预言机既然直接训练LLM进行因果发现在理论上不可行，研究团队另辟蹊径，提出了**Agentic Causal Bayesian Optimization（A-CBO）**框架。其核心思路是：不再试图让LLM直接输出因果图，而是将其“冻结”起来，仅作为**干预预言机（Interventional Oracle）**——回答关于干预效应的特定查询。外部一个**贝叶斯循环（Bayesian loop）**则负责在候选因果图之间集中信念，仅需对数级别次数的交互即可收敛。因为决策过程发生在核障碍定理的适用范围之外，A-CBO可以在底层模型不变的情况下**证明收敛**。这意味着，即使LLM本身不具备因果推理能力，通过巧妙的外部分工，也能实现可靠的因果发现。 ## 实验结果：无需训练，性能超越微调基线在**Corr2Cause**基准上，A-CBO无需任何训练即可匹配微调基线的表现。而在新提出的**Extended Corr2Cause**基准（规模扩展至24个变量、包含18,000个测试样本）上，A-CBO显著优于微调和偏好优化方法，且优势随问题复杂度增加而扩大。 ## 行业启示：LLM的“推理天花板”与代理式AI的崛起这项研究为AI领域提供了双重启示：一方面，它揭示了LLM在因果推理上的**根本性天花板**，提醒从业者不要盲目相信大规模模型能自动习得科学推理能力；另一方面，它展示了**代理式AI（Agentic AI）**的潜力——通过将LLM作为模块化的“工具”，结合外部算法，可以突破模型自身的理论限制。未来，因果发现或许不再依赖于让LLM“变得更聪明”，而是构建更精巧的**人机协作系统**，让模型在擅长的模式识别与语言理解上发挥作用，而将逻辑推理与因果推断交由专门的算法模块处理。

Anthropic3天前原文

DynaSchedBench：校准的动态调度基准与LLM调度智能体的可观测性悖论

精选

动态柔性作业车间调度问题（DFJSP）是制造业与物流领域的核心难题，近年来神经网络组合优化方法取得进展，但面临方法论困境：静态基准易导致过拟合，而缺乏校准的生成器则引入随机噪声，难以客观评估算法能力。针对这一矛盾，来自清华大学等机构的研究团队提出了 **DynaSchedBench**——一个全新的诊断框架，通过对实例生成过程进行严格校准，为DFJSP研究提供公平、可控的评测环境。 ## 核心创新：事件空间校准器与压力指数 DynaSchedBench的核心组件是 **顺序事件空间校准器（SESC）**。传统方法依赖随机参数采样生成调度实例，而SESC通过计算一种新的 **调度压力指数（SSI）**，将实例按难度分层。实验表明，SESC在计算效率上显著优于进化算法基线，且能稳定收敛至目标指标，从而确保不同难度级别的实例具有可比性和可重复性。框架还集成了模块化组件，包括实例生成、快照仿真、智能体接口、评估与可视化模块，支持对反应式（reactive）和前瞻式（lookahead）策略进行严格测试。 ## LLM调度智能体的“可观测性悖论” 利用DynaSchedBench的校准环境，研究团队揭示了基于大语言模型（LLM）的调度智能体存在一个关键局限——**可观测性悖论**：在动态调度的逐步在线决策中，如果向智能体提供完整结构信息的“上帝视角”（oracle access），反而会降低策略性能，不如提供简洁信息的效果。这一反直觉发现表明，过多的信息可能引入噪声或导致智能体过度拟合，从而影响决策质量。此外，尽管工具增强（tool-augmented）和细化策略（refinement strategies）消耗了大量token，但并未可靠地提升性能。大多数LLM智能体在基准测试中未能持续超越传统的强调度规则（如先到先服务、最短处理时间等），其行为更像鲁棒的启发式近似器，而非真正的优化器。 ## 行业启示与未来方向这项研究对AI在工业调度中的应用提出了重要警示：LLM并非万能解药。当前模型在复杂约束下的在线决策能力仍有明显天花板，且信息呈现方式对性能影响巨大。DynaSchedBench作为校准基准，有望推动该领域从“刷榜”转向更严谨的能力诊断。未来，如何设计更高效的状态表示、如何平衡信息量与决策质量，将是LLM调度智能体落地的关键课题。

Anthropic3天前原文

合成信息的起源：用隐写术为AI生成内容刻上“遗传印记”

精选

## 当AI内容成为“新物种”，我们如何追溯其家谱？在生物学中，物种起源是难解之谜；而在信息科学中，合成信息的起源同样充满神秘。随着生成式AI的爆发，文本、图像、视频等合成内容正以指数级增长，但一个关键问题日益凸显：我们能否像追踪生物进化一样，追溯一段AI生成内容的源头？一篇发表于arXiv的论文《On the Origin of Synthetic Information by Means of Steganographic Inheritance》提出了一个大胆的类比——将**隐写术**与**遗传学**结合，为合成信息赋予可追溯的“血统”。 ### 从达尔文到AI：为何需要“合成信息谱系”？达尔文在《物种起源》中探讨了自然选择的奥秘。而论文作者指出，合成信息的起源已成为信息科学中的“谜中之谜”。AI模型的强大能力使得生成内容与原始数据之间的关联越来越模糊：一个足够先进的模型可能产生“后代”，这些后代在结构或信号层面与父本几乎毫无相似之处。这就像遗传学中的**表型与基因型**之分——两个个体可能外表相同（表型一致），但基因构成（基因型）却截然不同。在AI领域，这意味着我们无法仅凭内容外观判断其来源。 ### 隐写遗传：为合成内容打上“隐形标签” 论文的核心创新在于提出了一种**隐写遗传机制**： - **投影器**：从父本（原始数据）中提取一个“特征”（trait），类似于遗传物质。 - **隐写编码器**：在生成子本（合成内容）的瞬间，将该特征以人眼不可见的方式嵌入其中。 - **生命周期**：这个隐藏特征会伴随子本在数字生态系统中流转，即使经过修改或变换也能保持稳定。 - **亲子鉴定**：当需要查询父本时，**隐写解码器**从子本中提取特征，并与候选父本的特征库进行比对，从而确定最可能的来源。 ### 理论分析与实证验证研究团队从理论上分析了**系统发育准确性**与投影器、隐写系统属性之间的关系。实验评估覆盖了多种投影器和隐写系统，证明该方法在**广泛处理操作**（如压缩、裁剪）和**语义修改**（如翻译、重写）下仍具可行性。这意味着，即使合成内容被反复编辑，其隐藏的“血缘标记”依然能够被识别。 ### 未来愿景：构建可追溯的AI生态系统论文展望了一个类似生物界的数字生态系统：合成信息如同生命体，从简单的起点开始，不断分支演化出无穷形式，而隐写特征则像DNA一样，记录着每一段内容的进化历程。这项研究为AI安全、内容溯源和版权保护提供了全新思路。在深度伪造泛滥、假新闻肆虐的当下，为合成内容建立可靠的“家谱”或许正是重建数字信任的关键一步。

Anthropic3天前原文

LaneRoPE：一种支持协同并行推理与生成的位置编码方法

精选

## 背景：并行推理的“孤岛”困境大语言模型（LLM）在测试时扩展技术中，常使用 **best-of-N** 等并行采样方法：针对同一输入提示生成 N 个独立序列，从中选择最佳结果。这种方法能提升准确率，且可充分利用批处理的计算效率。然而，传统方法中每个序列的生成过程彼此隔离，无法复用其他序列的中间结果、计算或观察信息——相当于 N 个“孤岛”各自为战，浪费了潜在的协同机会。 ## LaneRoPE 的核心创新针对上述问题，来自多所机构的研究者提出了 **LaneRoPE**，一种让 N 个并行序列在生成过程中实现协同与协作的新方法。其核心包含两个关键技术： 1. **序列间注意力掩码**：通过引入跨序列的注意力机制，使各序列的采样过程相互依赖。当一个序列生成某个 token 时，可以“看到”其他序列的当前状态，从而调整自身的生成策略。 2. **扩展的 RoPE 位置编码**：在旋转位置编码（RoPE）基础上注入额外位置信息，既能表示同一序列内部的 token 相对位置，也能表示不同序列 token 之间的相对位置。这使得模型能理解跨序列的上下文关系。 ## 效果与优势在数学推理任务上的实验显示，LaneRoPE 表现出色： - **准确率提升**：在有限生成长度下，协同机制带来了额外的准确率增益，优于独立采样的 best-of-N 方法。 - **架构改动极小**：LaneRoPE 仅需修改注意力掩码和位置编码模块，对底层 LLM 架构的侵入性很低。 - **推理开销可忽略**：额外计算量极小，易于集成到现有推理管线中。 ## 行业意义与展望 LaneRoPE 的出现为 LLM 测试时扩展提供了新思路。传统上，并行推理的收益主要来自多次采样后取最优，本质是“暴力枚举”；而 LaneRoPE 让序列间能交换信息，更接近人类“团队协作”的推理方式。这种方法特别适合需要深度推理但计算资源受限的场景（如数学证明、代码生成）。未来，研究者可进一步探索 LaneRoPE 在更多任务（如多步规划、对话系统）上的应用，甚至将其与强化学习中的探索策略结合。 ## 小结 LaneRoPE 通过创新的位置编码和注意力机制，打破了并行序列间的信息隔离，实现了高效的协同推理。它以极小的代价带来了显著的准确率提升，是 LLM 推理效率优化领域一项值得关注的工作。

Anthropic3天前原文

Soro：专为塔吉克语打造的轻量级基础模型与聊天机器人

精选

## 快讯：Soro——塔吉克语大模型轻装上阵在大型语言模型（LLM）竞赛中，绝大多数资源都集中在英语、中文等主流语言上。然而，一项新研究为资源匮乏的语言带来了突破。研究人员发布了 **Soro**，一系列专为塔吉克语优化的轻量级对话LLM，旨在应对塔吉克斯坦严苛的算力与网络限制。 ### 从Gemma 3起步，定向训练 Soro 基于开源的 **Gemma 3** 检查点，通过两个关键步骤实现专业化： - **持续预训练**：使用一个精心筛选的 **19亿词符** 塔吉克语语料库，涵盖网页文本、PDF文档及与课程对齐的教育材料。 - **监督指令微调**：在 **4万条** 塔吉克语教师风格的示例上进行训练，提升对话能力。 ### 填补评估空白由于标准基准测试中塔吉克语覆盖有限，团队专门推出了配套的塔吉克语基准测试集，涵盖常识、语言能力和学校/大学入学考试领域，并已在 Hugging Face 开源。 ### 性能与部署优势在塔吉克语基准上，Soro 显著优于同等规模的 Gemma 3 模型，同时保留了在英语标准数据集上的强大性能。更重要的是，通过 **FP8 和 INT4 量化**，Soro 在保持塔吉克语能力的同时，大幅降低了内存需求，使其能够部署在边缘设备上。目前，该模型已在教育领域试点，并计划推广至塔吉克斯坦的学校。 Soro 的发布标志着低资源语言AI发展的重要一步，展示了如何通过针对性的预训练和轻量化技术，让先进语言模型惠及更多语言社区。

Anthropic3天前原文

从文本中识别人类价值观：一种可定制的大模型架构

精选

随着智能系统自主性日益增强，研究者正致力于将伦理与道德考量融入决策机制，而非单纯追求效用最大化。实现这一目标的关键在于评估决策与人类价值观的契合度。基于大语言模型（LLM）的方法成为识别文本中显性或隐性人类价值观的热门方向。最新发表于 ICAART 2026 的论文提出了一种可定制的 LLM 架构，能够检测文本中的人类价值观并量化其强度，摆脱了以往方法对特定价值理论或复杂提示工程的依赖。该架构由三个协调模块组成： - **规范生成模块**：从任意理论框架的基础文本中自动生成结构化的价值规范。 - **文本标注模块**：利用生成的规范对文本进行标注。 - **强度评估模块**：基于修辞和语义证据，为价值观分配支持或抵抗程度。这种模块化设计将“概念化”与“检测”分离，使得流程可扩展、可复现，且能适配多种价值理论。研究团队使用多个 LLM 实例化该架构，并在 ValueEval 数据集上进行了评估。实验结果显示，该架构取得了良好的检测性能，验证了管线的通用性。 ## 背景与意义传统 AI 系统以效用最大化为目标，但自主决策（如自动驾驶、医疗诊断）常常面临伦理困境。例如，自动驾驶汽车在无法避免碰撞时，应如何权衡不同乘客与行人的安全？要回答这类问题，系统必须理解并量化“公平”“生命”“责任”等人类价值观。然而，价值观本身具有抽象性、文化依赖性和理论多元性，为计算建模带来挑战。 ## 架构亮点该工作的核心创新在于“可定制性”。以往方法通常绑定特定的价值理论（如 Schwartz 价值观理论），或需要人工设计复杂的提示模板。而新架构通过模块化设计，允许用户直接输入任意理论的基础文本（如哲学著作、道德准则），系统自动提取价值定义与关系，生成规范。这意味着同一套流程可以轻松适配不同文化背景或应用场景的价值体系。在检测阶段，模型不仅判断文本是否提及某种价值观，还根据语言线索（如情感强度、修辞手法）评估其“支持”或“抵抗”程度。例如，“我们必须保护弱势群体”会被识别为对“关心他人”价值观的强烈支持，而“效率优先于公平”则可能被判定为对“公平”的抵抗。 ## 实验与评估研究者在 ValueEval 数据集上测试了多个 LLM（包括 GPT、LLaMA 等）。结果表明，架构在价值观分类和强度预测任务上均优于基线方法，且不同 LLM 的表现具有一致性，说明管线设计具有鲁棒性。论文还指出，规范生成模块输出的结构化描述可被人类审查，增强了可解释性。 ## 未来方向该工作为价值观对齐研究提供了新工具。未来可探索： - 将架构集成到强化学习框架中，用于训练价值观对齐的智能体； - 扩展至多语言、多文化场景； - 结合因果推理，理解价值观如何影响决策。总之，这项研究标志着从“单一理论、手工提示”向“可定制、模块化”的价值观识别范式的转变，为构建更负责任的 AI 系统奠定了基础。

Anthropic3天前原文

LLM 能内省吗？一项现实检验

精选

大型语言模型（LLM）是否真的能像人类一样内省——检测并报告自己的内部状态？近期 arXiv 上的一篇论文《Can LLMs Introspect? A Reality Check》对此提出了质疑。研究团队借鉴人类元认知研究的经验，认为现有的行为证据可能只是表面模式匹配的结果，而非真正的内省。 ## 研究背景此前有多项研究声称 LLM 具备内省能力，例如模型能够检测自身内部状态是否被篡改，或根据隐藏状态预测标签。但这些结论主要基于行为实验，缺乏对内在机制的严格区分。 ## 重新检验两个实验范式论文重点分析了两个代表性范式： ### 1. 内部状态篡改检测在原始实验中，模型需要判断其内部状态是否被干预。但新研究发现，**模型无法可靠地区分内部状态干预与输入层面的操作**。例如，当输入被巧妙修改时，模型同样会报告“异常”。这表明模型成功识别的是更广义的异常信号，而非专门针对内部状态的感知。 ### 2. 隐藏状态标签预测第二个范式中，模型需要根据自身隐藏状态预测标签。但论文指出，**仅基于输入的分类器就能达到与模型内省预测相当的性能**。这意味着模型可能只是利用了输入中的表面线索，而非真正访问了内部表征。研究还设计了一个**重标号控制实验**：打乱任务语义，迫使模型依赖内部表征。结果模型表现接近随机水平，进一步削弱了内省假说。 ## 关键结论作者强调，**行为证据本身不足以证明强内省主张**。要确认 LLM 具备元认知监控能力，需要更严格的实验设计，例如区分内省与模式匹配、排除输入层面的混淆变量。 ## 行业启示这一研究对 AI 安全与可解释性有重要影响。如果 LLM 无法可靠内省，那么依赖模型自我报告错误或不确定性（如“我不知道”机制）可能不可靠。未来需要开发更严谨的评估方法，而非仅凭行为表现下结论。 > 一句话总结：**LLM 可能并非真正“知道自己在想什么”，而是擅长根据训练数据中的模式做出看似内省的反应。**

Anthropic4天前原文

Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions

精选

arXiv:2605.26256v1 Announce Type: new Abstract: Multimodal large language model (MLLM)-based embodied agents have shown strong potential for solving complex tasks in physical environments. However, personalized assistance requires more than following generic instruction or recognizing object categories. In real-world scenarios, the intended target is often specified only implicitly through prior interactions, requiring agents to leverage personalized context accumulated over time. In this work,

Anthropic4天前原文

约束获取研究急需更优质的基准测试集

精选

约束获取（Constraint Acquisition, CA）及相关研究——即从领域知识工件中验证和增强数学规划（MP）模型——当前受限于不充分的基准测试。这一缺陷阻碍了可重复性和跨研究可比性，进而拖慢了CA方法的成熟进程。现有基准测试集原本是为求解器评估而设计，并非用于衡量CA算法。它们组织松散，对同一问题处理不一致，并且缺失CA方法所需的领域知识工件。为了填补这一空白，来自波兰的研究团队推出了 **MPMMine**——一套专为评估从多样领域知识工件中发现、验证和增强MP模型的算法而设计的基准测试套件。MPMMine的设计遵循六大原则：**一致性、标准化、完整性、可扩展性、开放性和版本控制**。它采用统一的结构，并依赖开放格式：MiniZinc、CommonMark和JSON。该基准测试集为每个问题提供多个模型，每个模型包含数十个实例，以及数千个整数域和连续域上的解与非解，同时附带自然语言描述以支持文本到模型（text-to-model）方法。研究团队强调，现有基准测试集如MIPLIB、MINLPLib等虽在求解器社区中广泛使用，但它们并未考虑CA方法的特定需求，例如需要明确的领域知识（如部分解、约束模板等）。MPMMine的推出有望为CA社区提供一个标准化、可复现的评估平台，推动该领域的健康发展。相关论文以《Constraint acquisition needs better benchmarks》为题发表在arXiv上，并附有完整的数据集链接。

Anthropic4天前原文

你的AI代理也会老化：面向部署系统的代理生命周期工程

精选

## 背景：AI代理的“老化”问题被忽视了随着AI代理从实验性项目走向长期部署，一个关键问题浮出水面：**一个代理在部署后能保持多久的可靠性？** 传统的评估方法只关注“第一天”的基准性能，忽略了代理在持续运行中因状态变化而产生的退化。即使模型权重保持不变，代理的有效状态也在不断改变——它会压缩交互历史、从不断增长的内存中检索、在更新后修正事实，并经历常规维护。因此，可靠性成为整个代理系统的生命周期属性，而不仅仅是基础模型的快照属性。 ## AgingBench：衡量代理老化的四个机制来自多所高校的研究团队引入了 **AgingBench**，这是一个纵向可靠性基准，专门用于代理生命周期工程。它不仅要回答代理是否会退化，还要回答退化以何种形式出现以及修复应针对哪个环节。AgingBench 将代理老化归纳为四种机制： - **压缩老化**：历史压缩导致信息丢失或失真。 - **干扰老化**：新记忆干扰旧记忆的准确检索。 - **修订老化**：事实更新后产生不一致或错误。 - **维护老化**：例行维护操作（如重启、清理）引发的状态偏差。为了诊断这些故障，AgingBench 使用**时间依赖图**和**配对反事实探针**，生成针对内存管道中写入、检索和利用阶段的诊断画像。 ## 关键发现：老化并非单一维度研究团队在7个场景、14个模型、多种内存策略以及运行者控制与自主代理中，进行了约400次运行（涵盖8至200个会话）。结果揭示： - **行为测试可能保持正常，但事实精度却在衰减**。代理表面行为看似可靠，内部知识却已悄悄“变质”。 - **派生状态跟踪可能在单个模型内急剧崩溃**，即代理对自身状态的认知突然失效。 - **同一个错误答案可能源于不同老化机制**，需要根据诊断画像采取不同的修复策略。这意味着，依赖“第一天”的强模型远远不够。可靠的代理部署需要**生命周期评估、机制级诊断和分阶段针对性修复**。 ## 行业启示：从“模型评估”到“系统评估” 这项研究对AI工程实践有直接指导意义。当前业界热衷于发布更强大的基础模型，但部署后的可靠性问题同样重要——甚至更重要。AgingBench 提供了一个框架，帮助开发者识别代理“衰老”的症结，并采取预防性维护措施。例如，在客户服务、金融交易、医疗咨询等长期运行的代理系统中，定期的“体检”和“保养”将成为标配。未来，代理的生命周期管理可能像软件工程中的持续集成/持续部署（CI/CD）一样不可或缺。 ## 总结 AI代理的老化是一个真实且多维的问题。AgingBench 不仅揭示了这一现象，还提供了诊断工具。对于任何部署长期运行AI代理的团队而言，从“一次性评估”转向“持续可靠性监控”将是必然趋势。

Anthropic4天前原文

1 / 24下一页