AI 资讯

每日聚合最新人工智能动态

全部 🔥 精选 🆕 新上线 🔄 更新

来源：Anthropic清除筛选 ×

241

行为诱导镜像近端时序差分学习：加速离策略预测的新方法

精选

强化学习中的离策略预测（off-policy prediction）一直是核心挑战之一，尤其是在使用线性函数逼近时。传统梯度时序差分（GTD）方法虽能保证稳定性，但其收敛速度严重依赖于辅助变量度量（metric）所定义的几何结构。近日，一篇发表于 arXiv 的新论文（arXiv:2605.28849）提出了一种名为 **STHTD-MP** 的行为诱导镜像近端时序差分方法，通过引入行为策略的转移信息来优化更新几何，从而显著加速收敛。 ### 从协方差度量到行为诱导度量现有 Mirror-Prox TD 方法（如 GTD2-MP）通常采用特征协方差矩阵作为度量，而混合 TD 方法（hybrid TD）的研究表明，**行为策略的转移信息**能提供更丰富的更新几何。论文作者将这一洞察形式化：在原始-对偶鞍点公式中，用行为策略 Bellman 矩阵的对称部分替换协方差度量。这一改动使得优化过程的几何结构更贴合实际任务中的动态特性。 ### 算法设计与理论分析 STHTD-MP 的核心创新在于三点： - **单一学习率**：对原始变量和辅助变量使用统一的学习率，简化了超参数调节。 - **Mirror-Prox 预测-校正步骤**：应用于混合鞍点算子，增强了算法的稳定性。 - **行为诱导度量**：确保度量矩阵正定，为收敛性奠定基础。作者在标准随机逼近假设下给出了严格的收敛证明：联合均值系统是 Hurwitz 稳定的，通过李雅普诺夫论证保证有界性，随机递归由 ODE 方法收敛。此外，论文推导了投影-预言机遍历间隙界，并基于确定性 Mirror-Prox 误差矩阵的谱半径进行了与 GTD2-MP 的精确均值算子比较。分析表明，当行为诱导度量改善了鞍点几何时，**STHTD-MP 的平均收缩因子可以小于 GTD2-MP**，从而更快收敛。 ### 实验验证与边界案例数值实验在三个基准上验证了理论： - **Two-State**：简单场景，验证基础性能。 - **Random Walk**：中等规模，展示加速效果。 - **Boyan Chain**：复杂链式结构，检验泛化能力。精确的数值均值算子分析支持了理论条件。值得注意的是，论文特别指出了 **Baird 反例**（Baird's counterexample）作为奇异边界情况：在该反例中，严格假设不成立，行为诱导度量的优势无法发挥。这一发现提醒实际应用者需注意方法的前提条件。 ### 行业意义与未来方向这项研究为强化学习中的离策略预测提供了新的几何视角。相比于依赖固定协方差度量的传统方法，**动态利用行为策略信息**的思路有望在机器人控制、推荐系统等需要高效样本利用的场景中带来突破。未来工作可拓展至非线性函数逼近和深度强化学习，并探索如何自适应地选择度量。论文由 Xingguo Chen、Yuchen Shen 等五位作者完成，目前已在 arXiv 公开。对于关注强化学习理论的研究者和工程师，STHTD-MP 提供了一个兼具理论深度与实践潜力的新工具。

Anthropic1个月前原文

242

行为感知辅助修正：离线策略时序差分学习的新进展

精选

强化学习中，离线策略（off-policy）采样下的时序差分（TD）学习常因函数近似而出现不稳定。经典算法 TDC 通过辅助协方差修正来稳定学习，而 TDRC 进一步在单时间尺度递归中正则化该修正。近日，一篇发表于 arXiv 的最新研究提出了一种**行为感知（behavior-aware）** 的改进方案，旨在替换 TDC/TDRC 中的辅助协方差矩阵，从而提升学习稳定性与收敛性能。 ### 核心创新：行为感知矩阵替换研究团队首先将 TDC 中的辅助矩阵 **C**（特征协方差矩阵）替换为**行为贝尔曼矩阵 A_μ**，得到新算法 **BA-TDC**。随后，他们在同一行为感知方程上施加正则化，得到 **BA-TDRC**。这种两步构建法将行为感知几何的贡献与正则化的贡献分离开来，为理解算法设计提供了清晰视角。在**线性预测**设置下（分析价值函数近似特征空间动力学的标准局部模型），作者给出了有限状态均值系统公式，证明了在均值系统满足 Hurwitz 稳定性条件下的**不动点保持**和**几乎必然收敛**性质。他们还通过精确线性误差递归的谱半径比较了确定性均值收敛速率。 ### 实验验证与关键发现实验在四个经典基准上展开：**双状态反例**、**Baird 反例**、**随机游走**和 **Boyan Chain**。结果表明： - 行为感知替换本身在某些任务上**效果显著**，例如在双状态反例中收敛更快且更稳定； - 但在更困难的场景（如 Baird 反例）中，**正则化是必须的**，BA-TDRC 的综合表现优于 BA-TDC 和原始 TDC/TDRC。 ### 行业背景与意义该工作回应了深度强化学习中一个关键问题：当使用神经网络进行价值近似时，**特征协方差**与**时间转移矩阵**如何共同影响最后一层修正动力学？传统 TDC 使用普通协方差矩阵，而本文证明行为感知矩阵能更准确地捕捉策略差异带来的几何结构。这一思路可能为深度离线策略算法的稳定性设计提供新工具，尤其是在需要高效利用历史数据的场景中。 ### 局限与展望当前工作限于线性函数近似与有限状态空间，其在非线性神经网络中的推广仍有待验证。不过，作者提供的理论框架（均值系统分析与谱半径比较）为后续研究奠定了分析基础。未来，行为感知辅助修正有望与其他正则化技术（如梯度截断、目标网络）结合，在更复杂的连续控制任务中发挥价值。

Anthropic1个月前原文

243

认知范畴 Transformer：用范畴论为语言模型注入认知归纳偏置

精选

一篇新论文《认知范畴 Transformer》（Cognitive Categorical Transformer, CCT）尝试将范畴论与认知科学的灵感引入语言模型架构，以提升模型对语言结构的理解能力。该模型以预训练的 **GPT-2 Small** 为骨干，额外增加了基于范畴论和认知科学的组件，参数量为 **3.06 亿**。在 WikiText-103 数据集上，CCT 在相同训练步数（215,000 步）和优化器设置下，验证困惑度达到 **21.27**，而同等微调的 GPT-2 Small 基线为 **24.19**，实现了 **2.92 点（12%）** 的相对改进。值得注意的是，GPT-2 Large（参数量为 GPT-2 Small 的 6.2 倍）在零样本下困惑度为 22.05，CCT 以更小的模型超越了这一水平。 ### 关键创新：单纯复形消息传递论文的核心贡献在于引入了一种名为 **GT-Full（单纯复形消息传递）** 的组件。消融实验表明，移除 GT-Full 后模型困惑度升至 **23.72**，这意味着 84%（2.45/2.92）的性能提升来自该组件。这是首次通过消融实验验证单纯复形消息传递能在 3 亿参数规模上有效改善语言模型困惑度。单纯复形是一种拓扑结构，能捕捉高阶关系（如词之间的多重关联），而传统 Transformer 仅关注两两交互。 ### 结构vs一致性：范畴先验的区分研究还测试了其他基于范畴论的先验，如 **层平滑（sheaf smoothing）**、**伴随往返（adjunction round-trip）** 和 **曲率正则化（curvature regularization）**，但这些方法均未带来提升。作者由此提出了 **“结构/一致性区分”** 假说：增加新拓扑结构的范畴先验（如单纯复形）有益于语言建模，而强制保持某种一致性恒等关系的先验则无效。这一发现为未来设计更有效的归纳偏置提供了指导。 ### 意义与局限 CCT 展示了将数学结构（范畴论）与认知科学原理结合来改进 AI 架构的潜力。不过，该工作仅在单一数据集（WikiText-103）上验证，且模型规模较小（3 亿参数）。未来需要在更大模型和更多任务上检验其泛化能力。此外，论文未提供代码或开源模型，复现和进一步研究尚需时日。

Anthropic1个月前原文

244

URIEL：用空中机器人系统实现热带森林超低影响选择性伐木与采后抚育

精选

热带森林正因经济和政治利益驱动而承受巨大的毁林压力，科学证据表明这种毁林加剧了气候变化。近日，一篇发表在 arXiv 上的论文提出了一种全新的伐木方法——**超低影响包裹式伐木（URIEL）**，该方法结合了直升机伐木（heli-logging）技术，并密集使用机器人和人工智能，由无人机执行采后抚育处理。 ## 方法核心 URIEL 的核心思路是：利用直升机将包裹在保护套中的原木吊运出林，避免传统地面机械造成的土壤压实、植被破坏和道路建设。伐木前，AI 驱动的无人机系统对森林进行高精度扫描，识别目标树木并规划最优路径；伐木过程中，机器人设备完成精准切割和包裹；伐后，无人机执行抚育任务，如播种、施肥或监测再生情况。 ## 可行性验证研究团队开发了该方法的全套设备概念，完成了尺寸设计、数字概念验证，并针对多种直升机-木材-距离组合进行了仿真和经济可行性分析。结果表明，URIEL 方法具有**高经济可行性**，同时能**几乎完全消除对森林的附带损害**，维持生态系统服务。 ## 挑战与展望尽管科学和技术结果令人满意，论文指出 URIEL 的可行性取决于多方利益相关者的整合：高科技产业、政府、认证伐木公司以及原住民社区。这一技术能否落地，不仅取决于技术成熟度，更依赖于社会、政策和产业协同。论文作者团队来自多所巴西研究机构，共 14 人，论文长达 196 页，包含 40 张图表。研究认为，URIEL 有望成为保护热带森林的革命性技术，但“它终究会转动”（E pur si muove）——正如伽利略的坚持，技术突破需要时间与实践的检验。

Anthropic1个月前原文

245

LLM审稿靠谱吗？新研究揭示：人类与AI审稿一致性有限，且存在“刷分”漏洞

精选

随着大型语言模型（LLM）在学术评审中的应用逐渐增多，甚至部分顶级会议已开始试点使用AI辅助审稿，一个关键问题随之浮现：LLM的评审意见能否与人类评审员保持一致？作者又是否会利用LLM来“刷分”？一项针对2025年ACL Rolling Review（ARR）论文的实证研究给出了初步答案。 ## 研究背景：LLM审稿走向台前近年来，LLM生成的论文评审意见越来越常见。一些大型会议甚至开始官方试点AI辅助审稿。然而，这种做法的潜在风险不容忽视：一方面，审稿人可能过度依赖AI；另一方面，作者也可能利用LLM反复修改论文，以迎合AI评审的偏好，从而获得更高分数。这种“博弈”行为可能破坏学术评审的公正性。 ## 核心发现：一致性有限，且波动较大研究团队对2025年ARR的论文进行了实验，从作者和审稿人两个角度评估LLM评审的质量。结果发现，**LLM评审与人类评审的一致性整体有限**。虽然在最佳设置下一致性尚可，但**一致性水平在不同提示词和不同模型之间差异显著**。这意味着，LLM评审的可靠性高度依赖于具体实现，远未达到稳定可信的程度。 ## 更令人担忧：LLM评审可被“博弈” 研究进一步模拟了作者使用LLM进行“迭代式修改”的场景：作者根据LLM给出的评审意见，反复修改论文，再提交给LLM评审。结果发现，**这种策略在某些情况下确实有效**——最多可使**35%的论文**获得统计上显著的总分提升。这表明，LLM评审存在被“刷分”的漏洞，作者可以通过针对性修改来操纵AI评审结果。 ## 行业影响与启示这项研究为正在探索AI辅助审稿的学术社区敲响了警钟。虽然LLM能提升审稿效率，但其一致性不足和易被博弈的特性，可能引入新的不公平。未来，若要在正式评审中采用LLM，必须设计更稳健的机制，例如： - **多模型、多提示词混合评审**，减少单一模型的偏差； - **引入对抗性检测**，识别出被“刷分”的论文； - **保持人类评审的主导地位**，仅将LLM作为辅助工具。总之，LLM评审尚未成熟到可以完全替代人类。在拥抱技术便利的同时，学术共同体需要保持警惕，确保评审过程的公平与权威。

Anthropic1个月前原文

246

VFEAgent：多模态智能体框架让有限元分析实现端到端自动化

精选

有限元分析（FEA）是现代工程设计的基石，但传统工作流高度依赖专家经验，流程繁琐。北京大学与中国农业大学联合团队最新提出的 **VFEAgent** 框架，正尝试用多智能体系统彻底改写这一局面。 ## 核心思路：从“看图说话”到自动仿真 VFEAgent 是一个端到端的多模态智能体系统，其最大特点是 **直接接受输入图像和问题描述**，自动完成 FEA 建模与仿真。研究团队设计了两大核心组件： 1. **多模态视觉-语言多智能体流水线**：利用 ReAct 驱动推理，从异构输入（图片+文字）中提取结构化的 FEA 规范。 2. **验证优先的代码合成框架**：内建自调试与回退机制，确保生成代码的可执行性与物理有效性。 ## 技术亮点：不止是“大模型+代码” 当前已有不少将大语言模型（LLM）应用于 FEA 的尝试，但在处理多模态输入和执行复杂任务时存在明显短板。VFEAgent 的突破在于： - **多智能体协作**：不同智能体分别负责视觉理解、物理规则检查、代码生成与验证，分工明确。 - **物理有效性优先**：传统 LLM 生成的代码可能语法正确但物理荒谬，VFEAgent 通过验证优先设计，大幅提升了仿真结果的可信度。 ## 评测表现：全面超越基线方法团队在多种工程力学场景下进行了系统评测，结果表明： - VFEAgent 在生成完整且物理有效的仿真任务上取得了 **高成功率**； - 相比纯 LLM 基线方法，在 **可靠性与正确性** 上均有显著提升。 ## 行业意义：工程师的“解放”还是“进化”？ FEA 自动化的价值不仅在于节省时间。传统 FEA 流程中，模型简化、边界条件设定、网格划分等环节需要大量经验判断，VFEAgent 的端到端能力有望将工程师从重复性劳动中解放出来，转而聚焦于更高层的设计创新与决策。不过，该框架目前仍处于预印本阶段，实际工程落地还需解决复杂几何体识别、大规模计算效率等挑战。但无论如何，这一方向已为 AI 辅助工程设计开辟了新的可能性。 ## 小结 VFEAgent 通过多模态多智能体协作，首次实现了从图像/文本输入到完整 FEA 仿真的端到端自动化。它不仅展示了 LLM 在工程科学中更深层的应用潜力，也为未来“AI+工程”的融合范式提供了值得关注的范例。

Anthropic1个月前原文

247

前沿LLM智能体突破自然表型本体注释瓶颈，表现媲美人类专家

精选

将自由文本中的表型描述与本体术语（ontology terms）准确关联，即表型注释（phenotype annotation），是跨研究整合比较形态学数据的关键环节。然而，这一过程高度依赖训练有素的人类专家，耗时费力，难以规模化，成为该领域的核心瓶颈。近日，一篇发表在arXiv上的研究《Frontier LLM-based agents can overcome the ontology curation bottleneck for natural phenotypes》重新审视了这一经典问题，并给出了令人振奋的答案：前沿的大型语言模型（LLM）智能体在表型注释任务上已能达到与人类专家相媲美的水平。 ## 研究背景与基准 2018年，Dahdul等人建立了一个包含来自七项系统发育研究的实体-质量（Entity-Quality, EQ）注释的金标准（Gold Standard）数据集。他们利用该数据集评估了三位人类注释员和基于本体的语义相似度工具Semantic CharaParser，结果发现机器与人类的一致性显著低于人类注释员之间的一致性。这一差距凸显了自动注释的挑战，也奠定了该领域的评估基准。 ## 新方法：LLM智能体作为注释员在本研究中，来自James P. Balhoff和Hilmar Lapp的研究团队采用了五种前沿的托管LLM（来自Anthropic和OpenAI），并将它们构建为**自主智能体**。每个智能体在一个独立的工作空间中运行，配备有： - 源出版物PDF - 原始人类注释员使用的同一份注释指南 - 四个项目本体（UBERON、PATO、BSPO、GO） - 一个验证脚本这种设计模拟了人类注释员的工作流程，智能体可以“阅读”文献、理解指南、查询本体，并生成符合格式的注释。 ## 核心结果：媲美人类，超越传统工具与2018年的金标准对比评估后，结果令人印象深刻： - **每位LLM智能体的表现均落在原始研究中三位人类注释员之间的变异性范围内**。这意味着，在统计意义上，这些智能体的注释质量与人类专家没有显著差异。 - 表现最佳的智能体接近但未超越最佳的人类注释员，但整体上已非常接近。 - 在所有四项评估指标上，LLM智能体**大幅超越了**传统的Semantic CharaParser工具。 ## 意义与展望这项研究具有双重意义。首先，它证明了**前沿LLM智能体能够有效克服表型本体注释的瓶颈**，为大规模、跨研究的形态学数据整合提供了可行的自动化方案。其次，该工作展示了“**智能体化**”LLM的潜力：通过提供合适的工具和环境（PDF、指南、本体、验证脚本），模型不仅能生成文本，还能像一个“领域专家”一样完成复杂的专业任务。随着LLM能力的持续提升和智能体框架的成熟，我们可以期待在生物信息学、临床表型注释等更多领域看到类似的突破。对于比较形态学而言，这或许意味着一个数据整合新时代的开启。

Anthropic1个月前原文

248

扩散模型概念擦除新突破：正交方法实现精准移除，保留生成能力

精选

扩散模型在图像生成领域表现出色，但有时也会产生不当或有害内容。如何精准“擦除”特定概念（如暴力、色情等）而不损害模型的整体生成能力，一直是研究难点。来自中国科学技术大学等机构的研究团队提出了一种名为**正交概念擦除（Orthogonal Concept Erasure, OCE）**的新方法，相关论文已被 ICML 2026 接收为 Oral 论文。 ## 现有方法的困境当前概念擦除方法主要分为两类：**训练型方法**和**编辑型方法**。训练型方法效果较好，但计算成本高、扩展性差；编辑型方法效率高、易于部署，却在精准擦除和保持生成质量之间难以平衡。研究者发现，这一局限的根源在于编辑型方法依赖**加法参数更新**。他们的实证分析表明，概念语义主要取决于神经元的**方向**而非幅度，而整体生成能力依赖于神经元的**角度几何结构**。加法更新会不可避免地纠缠方向、幅度和角度几何，导致概念擦除与生成性能之间相互干扰。 ## OCE 的核心创新 OCE 从几何角度出发，将编辑型擦除重新定义为**乘法参数更新**。具体来说，OCE 通过闭式解推导出层级的正交变换，并将其应用于模型参数，从而在**精确擦除目标概念**的同时，**保持神经元的幅度和角度几何结构不变**。这意味着，模型可以忘记“狗”这个类别，但生成猫、汽车等其他物体的能力几乎不受影响。此外，针对多概念擦除中可能出现的约束冲突问题，OCE 引入了**子空间级别目标**和结构化子空间操作，使得擦除多个概念时依然高效且可扩展。 ## 实验结果在单概念和多概念擦除任务上，OCE 均展现出优异性能。实验表明，OCE 在**概念擦除效果**和**非目标保持能力**上均优于现有方法。令人印象深刻的是，OCE 能够在 **4.3 秒内擦除多达 100 个概念**，效率远超训练型方法。 ## 行业意义 OCE 不仅为扩散模型的安全部署提供了实用工具，也为理解神经网络内部表征提供了新视角。未来，该方法有望被集成到主流图像生成工具中，帮助开发者和平台更灵活地管理内容安全，同时避免因过度擦除而牺牲模型的艺术表现力或多样性。 ## 小结正交概念擦除（OCE）通过乘法正交变换，巧妙地解耦了概念擦除与生成能力维护之间的矛盾，实现了高效、精准且可扩展的概念移除。这一工作为 AI 安全领域带来了重要启发，也展示了基础数学原理在解决实际工程问题中的强大威力。

Anthropic1个月前原文

249

RULER：从表征层面验证机器遗忘效果

精选

机器遗忘（Machine Unlearning）旨在删除已部署模型中特定训练数据的影响，而无需从头重新训练。然而，现有验证协议仅从输出层面进行检验——通过成员推断、保留集准确率和遗忘集准确率——但一篇新论文揭示了一个隐患：模型可能同时通过这三项测试，却仍在其中间表征中编码了被遗忘的记录。来自拉夫堡大学的 Georgina Cosma 和 Axel Finke 在预印本 arXiv:2605.27569 中提出了 **RULER**，一套基于表征层面的验证指标。其中两个核心指标引人注目： - **M2（oracle对比指标）**：将被遗忘记录在遗忘模型中的表征位置与一个从头重新训练（不含这些记录）的模型中的位置进行比较，以此检测残留信息。 - **M4（无oracle指标）**：无需重新训练，仅通过遗忘模型内部的相似性结构即可检测残留痕迹，甚至可作为遗忘前的诊断工具。实验覆盖表格、图像、临床文本和人脸识别等多种场景。结果显示，四种近似遗忘方法均能通过输出层评估，但在线性混合效应模型下，**M2 在 12 种条件中有 10 种检测到显著残留（p<0.05）**，且遗忘比例越大，效应量越强。第五种方法“Bad Teacher”虽采用不同遗忘机制，同样暴露出残留。而 **M4 在人脸识别模型中检测到身份级别的记忆**，表明现有方法均无法彻底擦除该信号。这项研究对 AI 合规与隐私保护具有重要价值。当前 GDPR 等法规要求的“被遗忘权”可能因验证手段的疏漏而流于形式。RULER 提供了一种更严格的审计框架，有助于发现隐藏的记忆残留，推动遗忘技术从“输出达标”走向“表征清洁”。未来，该工作或为遗忘算法的设计提供新基准，并引发对验证标准本身的反思。

Anthropic1个月前原文

250

实时分析中的“发现代理”：迈向主动洞察系统

精选

传统分析系统本质上是**被动**的：用户必须事先知道要问什么，才能定义查询、获取结果。但在实时数据流环境中，数据持续演变，潜在洞察空间巨大，手动枚举查询变得不切实际。一篇被 ACM 智能体系统会议（CAIS 2026）收录的论文提出了一个**多智能体架构**，旨在实现数据流上的**自主洞察发现**，将分析范式从“查询驱动”转向“发现驱动”。该系统的核心是一个**连续发现循环**：智能体首先**生成假设**（例如“某地区销售额突然下降是否与物流延迟相关？”），然后将假设编译为可执行的分析任务，接着**验证生成的结果**，最后输出可视化报告甚至可部署的应用。整个过程无需人工干预，系统自主决定“接下来该探索什么”。技术栈方面，架构充分利用了成熟的开源组件：**Apache Kafka** 负责智能体间的事件驱动协调，**Apache Flink** 执行流处理任务，而**大语言模型（LLM）**则为每个智能体提供推理和生成能力。论文特别强调了**契约驱动设计**——通过定义类型化的中间工件（typed intermediate artifacts），确保模块化、可观测性、数据血缘追踪，以及动态生成代码的安全执行。论文通过零售、金融和公共数据三个用例展示了该架构的效果。在零售场景中，系统能自动检测到促销活动与库存周转率的异常关联；在金融场景中，它能在市场波动时自主生成风险因子分析报告；在公共数据场景中，它从开放数据流中发现了此前未被注意到的季节性模式。这项工作并非孤立的学术探索。它直接回应了当前 AI 行业的两大趋势：**智能体（Agent）系统的兴起**和**实时数据平台的普及**。将 LLM 驱动的推理能力与流处理引擎的低延迟计算相结合，有望催生新一代“主动式”分析产品——它们不再是仪表盘上的静态图表，而是持续运行的、能主动向用户推送异常与机会的“分析伙伴”。当然，该架构也面临挑战：LLM 生成的分析假设可能包含偏差或错误，动态代码执行的安全性需要更严格的沙箱机制，以及在大规模流数据上的成本控制。但无论如何，这篇论文为“让数据主动说话”提供了一个清晰的技术路线图。

Anthropic1个月前原文

251

LLM为何在因果发现上失败？新研究提出“干预代理”突破理论极限

精选

因果发现（Causal Discovery）是科学推理的基石，然而大型语言模型（LLM）能否可靠地完成这一任务，始终是悬而未决的问题。近日，一篇发表于arXiv的论文《Why LLMs Fail at Causal Discovery and How Interventional Agents Escape》从理论层面给出了答案：**LLM的失败并非源于模型或数据，而是学习范式本身的固有局限**。 ## 核心问题：LLM为何“学不会”因果关系？论文指出，当前主流的训练方法——包括**监督微调（SFT）**、**直接偏好优化（DPO）**和**上下文学习（ICL）**——都会产生一种预测器，它无法区分能生成相似观测数据的因果图。更致命的是，任何试图做到这一点的尝试，都要求模型的内部表征无限增长，而这恰恰违反了这些方法有效工作的前提条件。研究者将这一发现形式化为**核障碍定理（Kernel Obstruction Theorem）**，证明该局限是学习范式内在的，与具体模型或数据集无关。这一结论解释了为何在因果发现基准测试中，即使经过微调的LLM在面对简单因果图时也会遇到性能瓶颈，并且随着图复杂度增加而退化。 ## 突破路径：将LLM“降级”为干预预言机既然直接训练LLM进行因果发现在理论上不可行，研究团队另辟蹊径，提出了**Agentic Causal Bayesian Optimization（A-CBO）**框架。其核心思路是：不再试图让LLM直接输出因果图，而是将其“冻结”起来，仅作为**干预预言机（Interventional Oracle）**——回答关于干预效应的特定查询。外部一个**贝叶斯循环（Bayesian loop）**则负责在候选因果图之间集中信念，仅需对数级别次数的交互即可收敛。因为决策过程发生在核障碍定理的适用范围之外，A-CBO可以在底层模型不变的情况下**证明收敛**。这意味着，即使LLM本身不具备因果推理能力，通过巧妙的外部分工，也能实现可靠的因果发现。 ## 实验结果：无需训练，性能超越微调基线在**Corr2Cause**基准上，A-CBO无需任何训练即可匹配微调基线的表现。而在新提出的**Extended Corr2Cause**基准（规模扩展至24个变量、包含18,000个测试样本）上，A-CBO显著优于微调和偏好优化方法，且优势随问题复杂度增加而扩大。 ## 行业启示：LLM的“推理天花板”与代理式AI的崛起这项研究为AI领域提供了双重启示：一方面，它揭示了LLM在因果推理上的**根本性天花板**，提醒从业者不要盲目相信大规模模型能自动习得科学推理能力；另一方面，它展示了**代理式AI（Agentic AI）**的潜力——通过将LLM作为模块化的“工具”，结合外部算法，可以突破模型自身的理论限制。未来，因果发现或许不再依赖于让LLM“变得更聪明”，而是构建更精巧的**人机协作系统**，让模型在擅长的模式识别与语言理解上发挥作用，而将逻辑推理与因果推断交由专门的算法模块处理。

Anthropic1个月前原文

252

从文本中识别人类价值观：一种可定制的大模型架构

精选

随着智能系统自主性日益增强，研究者正致力于将伦理与道德考量融入决策机制，而非单纯追求效用最大化。实现这一目标的关键在于评估决策与人类价值观的契合度。基于大语言模型（LLM）的方法成为识别文本中显性或隐性人类价值观的热门方向。最新发表于 ICAART 2026 的论文提出了一种可定制的 LLM 架构，能够检测文本中的人类价值观并量化其强度，摆脱了以往方法对特定价值理论或复杂提示工程的依赖。该架构由三个协调模块组成： - **规范生成模块**：从任意理论框架的基础文本中自动生成结构化的价值规范。 - **文本标注模块**：利用生成的规范对文本进行标注。 - **强度评估模块**：基于修辞和语义证据，为价值观分配支持或抵抗程度。这种模块化设计将“概念化”与“检测”分离，使得流程可扩展、可复现，且能适配多种价值理论。研究团队使用多个 LLM 实例化该架构，并在 ValueEval 数据集上进行了评估。实验结果显示，该架构取得了良好的检测性能，验证了管线的通用性。 ## 背景与意义传统 AI 系统以效用最大化为目标，但自主决策（如自动驾驶、医疗诊断）常常面临伦理困境。例如，自动驾驶汽车在无法避免碰撞时，应如何权衡不同乘客与行人的安全？要回答这类问题，系统必须理解并量化“公平”“生命”“责任”等人类价值观。然而，价值观本身具有抽象性、文化依赖性和理论多元性，为计算建模带来挑战。 ## 架构亮点该工作的核心创新在于“可定制性”。以往方法通常绑定特定的价值理论（如 Schwartz 价值观理论），或需要人工设计复杂的提示模板。而新架构通过模块化设计，允许用户直接输入任意理论的基础文本（如哲学著作、道德准则），系统自动提取价值定义与关系，生成规范。这意味着同一套流程可以轻松适配不同文化背景或应用场景的价值体系。在检测阶段，模型不仅判断文本是否提及某种价值观，还根据语言线索（如情感强度、修辞手法）评估其“支持”或“抵抗”程度。例如，“我们必须保护弱势群体”会被识别为对“关心他人”价值观的强烈支持，而“效率优先于公平”则可能被判定为对“公平”的抵抗。 ## 实验与评估研究者在 ValueEval 数据集上测试了多个 LLM（包括 GPT、LLaMA 等）。结果表明，架构在价值观分类和强度预测任务上均优于基线方法，且不同 LLM 的表现具有一致性，说明管线设计具有鲁棒性。论文还指出，规范生成模块输出的结构化描述可被人类审查，增强了可解释性。 ## 未来方向该工作为价值观对齐研究提供了新工具。未来可探索： - 将架构集成到强化学习框架中，用于训练价值观对齐的智能体； - 扩展至多语言、多文化场景； - 结合因果推理，理解价值观如何影响决策。总之，这项研究标志着从“单一理论、手工提示”向“可定制、模块化”的价值观识别范式的转变，为构建更负责任的 AI 系统奠定了基础。

Anthropic1个月前原文

253

Soro：专为塔吉克语打造的轻量级基础模型与聊天机器人

精选

## 快讯：Soro——塔吉克语大模型轻装上阵在大型语言模型（LLM）竞赛中，绝大多数资源都集中在英语、中文等主流语言上。然而，一项新研究为资源匮乏的语言带来了突破。研究人员发布了 **Soro**，一系列专为塔吉克语优化的轻量级对话LLM，旨在应对塔吉克斯坦严苛的算力与网络限制。 ### 从Gemma 3起步，定向训练 Soro 基于开源的 **Gemma 3** 检查点，通过两个关键步骤实现专业化： - **持续预训练**：使用一个精心筛选的 **19亿词符** 塔吉克语语料库，涵盖网页文本、PDF文档及与课程对齐的教育材料。 - **监督指令微调**：在 **4万条** 塔吉克语教师风格的示例上进行训练，提升对话能力。 ### 填补评估空白由于标准基准测试中塔吉克语覆盖有限，团队专门推出了配套的塔吉克语基准测试集，涵盖常识、语言能力和学校/大学入学考试领域，并已在 Hugging Face 开源。 ### 性能与部署优势在塔吉克语基准上，Soro 显著优于同等规模的 Gemma 3 模型，同时保留了在英语标准数据集上的强大性能。更重要的是，通过 **FP8 和 INT4 量化**，Soro 在保持塔吉克语能力的同时，大幅降低了内存需求，使其能够部署在边缘设备上。目前，该模型已在教育领域试点，并计划推广至塔吉克斯坦的学校。 Soro 的发布标志着低资源语言AI发展的重要一步，展示了如何通过针对性的预训练和轻量化技术，让先进语言模型惠及更多语言社区。

Anthropic1个月前原文

254

LaneRoPE：一种支持协同并行推理与生成的位置编码方法

精选

## 背景：并行推理的“孤岛”困境大语言模型（LLM）在测试时扩展技术中，常使用 **best-of-N** 等并行采样方法：针对同一输入提示生成 N 个独立序列，从中选择最佳结果。这种方法能提升准确率，且可充分利用批处理的计算效率。然而，传统方法中每个序列的生成过程彼此隔离，无法复用其他序列的中间结果、计算或观察信息——相当于 N 个“孤岛”各自为战，浪费了潜在的协同机会。 ## LaneRoPE 的核心创新针对上述问题，来自多所机构的研究者提出了 **LaneRoPE**，一种让 N 个并行序列在生成过程中实现协同与协作的新方法。其核心包含两个关键技术： 1. **序列间注意力掩码**：通过引入跨序列的注意力机制，使各序列的采样过程相互依赖。当一个序列生成某个 token 时，可以“看到”其他序列的当前状态，从而调整自身的生成策略。 2. **扩展的 RoPE 位置编码**：在旋转位置编码（RoPE）基础上注入额外位置信息，既能表示同一序列内部的 token 相对位置，也能表示不同序列 token 之间的相对位置。这使得模型能理解跨序列的上下文关系。 ## 效果与优势在数学推理任务上的实验显示，LaneRoPE 表现出色： - **准确率提升**：在有限生成长度下，协同机制带来了额外的准确率增益，优于独立采样的 best-of-N 方法。 - **架构改动极小**：LaneRoPE 仅需修改注意力掩码和位置编码模块，对底层 LLM 架构的侵入性很低。 - **推理开销可忽略**：额外计算量极小，易于集成到现有推理管线中。 ## 行业意义与展望 LaneRoPE 的出现为 LLM 测试时扩展提供了新思路。传统上，并行推理的收益主要来自多次采样后取最优，本质是“暴力枚举”；而 LaneRoPE 让序列间能交换信息，更接近人类“团队协作”的推理方式。这种方法特别适合需要深度推理但计算资源受限的场景（如数学证明、代码生成）。未来，研究者可进一步探索 LaneRoPE 在更多任务（如多步规划、对话系统）上的应用，甚至将其与强化学习中的探索策略结合。 ## 小结 LaneRoPE 通过创新的位置编码和注意力机制，打破了并行序列间的信息隔离，实现了高效的协同推理。它以极小的代价带来了显著的准确率提升，是 LLM 推理效率优化领域一项值得关注的工作。

Anthropic1个月前原文

255

合成信息的起源：用隐写术为AI生成内容刻上“遗传印记”

精选

## 当AI内容成为“新物种”，我们如何追溯其家谱？在生物学中，物种起源是难解之谜；而在信息科学中，合成信息的起源同样充满神秘。随着生成式AI的爆发，文本、图像、视频等合成内容正以指数级增长，但一个关键问题日益凸显：我们能否像追踪生物进化一样，追溯一段AI生成内容的源头？一篇发表于arXiv的论文《On the Origin of Synthetic Information by Means of Steganographic Inheritance》提出了一个大胆的类比——将**隐写术**与**遗传学**结合，为合成信息赋予可追溯的“血统”。 ### 从达尔文到AI：为何需要“合成信息谱系”？达尔文在《物种起源》中探讨了自然选择的奥秘。而论文作者指出，合成信息的起源已成为信息科学中的“谜中之谜”。AI模型的强大能力使得生成内容与原始数据之间的关联越来越模糊：一个足够先进的模型可能产生“后代”，这些后代在结构或信号层面与父本几乎毫无相似之处。这就像遗传学中的**表型与基因型**之分——两个个体可能外表相同（表型一致），但基因构成（基因型）却截然不同。在AI领域，这意味着我们无法仅凭内容外观判断其来源。 ### 隐写遗传：为合成内容打上“隐形标签” 论文的核心创新在于提出了一种**隐写遗传机制**： - **投影器**：从父本（原始数据）中提取一个“特征”（trait），类似于遗传物质。 - **隐写编码器**：在生成子本（合成内容）的瞬间，将该特征以人眼不可见的方式嵌入其中。 - **生命周期**：这个隐藏特征会伴随子本在数字生态系统中流转，即使经过修改或变换也能保持稳定。 - **亲子鉴定**：当需要查询父本时，**隐写解码器**从子本中提取特征，并与候选父本的特征库进行比对，从而确定最可能的来源。 ### 理论分析与实证验证研究团队从理论上分析了**系统发育准确性**与投影器、隐写系统属性之间的关系。实验评估覆盖了多种投影器和隐写系统，证明该方法在**广泛处理操作**（如压缩、裁剪）和**语义修改**（如翻译、重写）下仍具可行性。这意味着，即使合成内容被反复编辑，其隐藏的“血缘标记”依然能够被识别。 ### 未来愿景：构建可追溯的AI生态系统论文展望了一个类似生物界的数字生态系统：合成信息如同生命体，从简单的起点开始，不断分支演化出无穷形式，而隐写特征则像DNA一样，记录着每一段内容的进化历程。这项研究为AI安全、内容溯源和版权保护提供了全新思路。在深度伪造泛滥、假新闻肆虐的当下，为合成内容建立可靠的“家谱”或许正是重建数字信任的关键一步。

Anthropic1个月前原文

256

DynaSchedBench：校准的动态调度基准与LLM调度智能体的可观测性悖论

精选

动态柔性作业车间调度问题（DFJSP）是制造业与物流领域的核心难题，近年来神经网络组合优化方法取得进展，但面临方法论困境：静态基准易导致过拟合，而缺乏校准的生成器则引入随机噪声，难以客观评估算法能力。针对这一矛盾，来自清华大学等机构的研究团队提出了 **DynaSchedBench**——一个全新的诊断框架，通过对实例生成过程进行严格校准，为DFJSP研究提供公平、可控的评测环境。 ## 核心创新：事件空间校准器与压力指数 DynaSchedBench的核心组件是 **顺序事件空间校准器（SESC）**。传统方法依赖随机参数采样生成调度实例，而SESC通过计算一种新的 **调度压力指数（SSI）**，将实例按难度分层。实验表明，SESC在计算效率上显著优于进化算法基线，且能稳定收敛至目标指标，从而确保不同难度级别的实例具有可比性和可重复性。框架还集成了模块化组件，包括实例生成、快照仿真、智能体接口、评估与可视化模块，支持对反应式（reactive）和前瞻式（lookahead）策略进行严格测试。 ## LLM调度智能体的“可观测性悖论” 利用DynaSchedBench的校准环境，研究团队揭示了基于大语言模型（LLM）的调度智能体存在一个关键局限——**可观测性悖论**：在动态调度的逐步在线决策中，如果向智能体提供完整结构信息的“上帝视角”（oracle access），反而会降低策略性能，不如提供简洁信息的效果。这一反直觉发现表明，过多的信息可能引入噪声或导致智能体过度拟合，从而影响决策质量。此外，尽管工具增强（tool-augmented）和细化策略（refinement strategies）消耗了大量token，但并未可靠地提升性能。大多数LLM智能体在基准测试中未能持续超越传统的强调度规则（如先到先服务、最短处理时间等），其行为更像鲁棒的启发式近似器，而非真正的优化器。 ## 行业启示与未来方向这项研究对AI在工业调度中的应用提出了重要警示：LLM并非万能解药。当前模型在复杂约束下的在线决策能力仍有明显天花板，且信息呈现方式对性能影响巨大。DynaSchedBench作为校准基准，有望推动该领域从“刷榜”转向更严谨的能力诊断。未来，如何设计更高效的状态表示、如何平衡信息量与决策质量，将是LLM调度智能体落地的关键课题。

Anthropic1个月前原文

257

智能体记忆是数据库吗？重新思考长期AI记忆的数据基础

精选

长期运行的AI智能体需要持久记忆，以支持跨会话学习、减少重复上下文注入并实现过往决策审计。然而，现有智能体记忆系统和数据库范式将记忆简单等同于存储，将正确性局限于记录、嵌入或边的层面，导致**四大失效模式**：无节制增长、语义修订缺失、容量驱动遗忘和只读检索。来自康考迪亚大学的研究者在论文《智能体记忆是数据库吗？》中提出，长期AI智能体记忆本质上是一种**新型数据管理工作负载**，其正确性应取决于状态轨迹而非单个记录。他们形式化了**受控演化记忆（GEM）**模型，用四个状态级操作替代传统记录级操作：**摄取、修订、遗忘和检索**，并定义了六条正确性条件来约束状态演化。理论分析表明，无论采用何种存储模型，记录级系统都无法满足这些条件。论文还展示了基于属性图后端的原型系统**MemState**，验证了GEM的可行性，同时揭示了与原生引擎之间的差距。研究者指出，现有数据库系统（如向量数据库、图数据库）在支持长期记忆方面存在根本性不足，亟需面向记忆的数据管理新范式。该工作为AI记忆系统设计提供了全新视角：记忆不应是静态存储，而应是动态、可治理的演化过程。未来研究方向包括记忆专用存储引擎、语义修订机制以及遗忘策略的优化。

Anthropic1个月前原文

258

Anchor：破解AI智能体基准生成中的“工件漂移”难题

精选

AI智能体正逐步在复杂的、长周期的企业运营任务中展现价值，但为这些任务构建训练与评估环境始终面临一个“不可能三角”：真实性、可验证性与规模化难以兼得。来自学术界的最新研究指出了这一困境的核心症结——**工件漂移（Artifact Drift）**，并提出了一套名为 **Anchor** 的解决方案。 ### 什么是“工件漂移”？在传统的基准生成流程中，任务指令、运行环境、评分标准（Oracle）和验证器往往由松散耦合的不同流程分别创建。这导致一个常见但隐蔽的失败模式：这些“工件”之间对任务要求理解不一致。例如，指令要求“采购A零件”，但环境配置中可能缺少该零件库存，或者评分标准只检查了采购订单数量而非零件型号，最终产生**无法完成、可被奖励黑客利用或前后矛盾**的测试环境。这种不一致性就是“工件漂移”。 ### Anchor：从源头对齐的生成管线为了消除漂移，研究者提出了 **Anchor** 这一任务生成管线。其核心思路是将**领域专家对业务工作流的规范描述**形式化为**约束优化程序**。从单一的参数化规范出发，管线能够联合生成以下所有要素： - **自然语言指令**（智能体需要理解的任务描述） - **环境配置**（智能体运行所需的初始状态） - **经求解器认证的正确答案**（确保存在且唯一的最优解） - **基于状态的验证器**（只根据最终业务状态判断对错，而非过程）通过修改生成参数，可以轻松创建难度可控、最优解已知的新任务。由于验证器只关注“最终业务状态是否正确”，生成的基准环境天然具有**奖励抗操纵性**，且与具体框架无关。 ### ERP-Bench：300个长周期任务的实战检验研究团队将 Anchor 应用于一个**生产级ERP系统**，生成了名为 **ERP-Bench** 的基准测试集，包含300个覆盖采购与制造流程的长周期任务。实验发现： - 生成参数能够可靠地预测任务的实际难度。 - 前沿模型（Frontier Models）在 **26.1%** 的试验中满足了显式任务约束，但仅有 **17.4%** 的试验达到了完全最优解。这一结果表明，当前最强AI在处理需要精确状态匹配的企业级任务时，仍有显著差距。而Anchor提供的可审计、可复现的生成流程，为衡量和提升这种能力提供了坚实基础。 ### 意义与展望 Anchor 和 ERP-Bench 的价值不仅在于一个具体的基准，更在于提出了一种**构建可审计评估环境的具体方法论**。对于希望将AI智能体部署到财务、供应链、制造等严肃商业场景的企业而言，拥有一个能确保“环境不撒谎”的测试平台至关重要。该工作已被 **RLEval 2026 研讨会**（ACM AI与智能体系统会议）接收，代码与数据集也已开源。未来，随着智能体承担的经济价值越来越高，像 Anchor 这样从生成源头保证一致性的技术，将成为AI安全和可信评估中不可或缺的一环。

Anthropic1个月前原文

259

从3D形状到可建造砖块结构：BrickAnything 用结构感知分词技术革新生成方式

精选

## 让 AI 学会“搭积木”：BrickAnything 突破物理可建造性瓶颈在计算机图形学与人工智能交叉领域，如何将任意3D形状自动转化为由标准砖块（如乐高积木）构成的、物理上可稳定搭建的结构，一直是一个极具挑战性的问题。这不仅要求几何形状的还原，更需满足**离散零件约束**与**结构稳定性**——例如，砖块必须互锁、不能悬空、整体重心不能偏移。近日，来自清华大学等机构的研究团队在 arXiv 上发表了论文 **《BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization》**，提出了一种全新的自回归生成框架，旨在解决现有方法的根本性缺陷。 ### 现有方法的两难困境论文指出，当前主流的砖块生成方法主要分为两类： - **启发式优化法**：通过局部搜索或迭代调整来匹配目标形状。但当目标形状本身不满足预定义的约束（如某些曲面、薄壁结构）时，优化过程可能完全失败，导致无解或生成大量不合理的砖块。 - **序列生成法**：直接预测砖块放置的顺序。然而，这类方法往往**缺乏对底层3D几何与装配关系的显式建模**，导致生成序列中频繁出现无效中间状态（如砖块悬空、碰撞），需要大量后处理修复。 ### BrickAnything 的核心创新：结构感知树分词 BrickAnything 的关键突破在于提出了一种**结构感知的树状分词（Structure-Aware Tree Tokenization）**。传统方法将砖块序列视为线性 token 序列，忽略了砖块之间的局部依附关系。而 BrickAnything 将砖块结构表示为**一棵树**，其中每个节点代表一块砖，父子关系表示“上层砖块依附于下层砖块”。这种表示方式有两大优势： 1. **物理一致性**：生成过程模拟了真实搭建中“从下往上、逐层支撑”的逻辑，天然避免了悬空等无效状态。 2. **减少无效回滚**：实验表明，相比线性排序，树分词显著降低了生成过程中的回滚与重生成次数。 ### 技术细节与性能提升除分词外，BrickAnything 还引入了三项关键技术： - **偏好对齐后训练（Preference-based Alignment Post-training）**：通过强化学习思想，让模型优先生成稳定性高、几何保真度好的结构。 - **有效性约束解码（Validity-constrained Decoding）**：在推理阶段实时检查每一步的物理可行性，及时修正。 - **自适应回滚（Adaptive Rollback）**：当检测到无法继续时，自动回退到合理状态重新生成。输入方面，模型以**点云**作为统一几何接口，可接受来自网格、CAD模型或深度扫描的任意3D形状。输出则是一组可直接用于搭建的砖块序列。 ### 行业意义与应用前景 BrickAnything 的发布对多个领域具有潜在价值： - **玩具与教育**：可自动将孩子绘制的3D模型转化为乐高搭建指南。 - **建筑与制造**：辅助设计低成本、易装配的预制件结构。 - **机器人自主搭建**：为机器人提供符合物理规则的搭建规划。论文在多个基准测试中验证了其优越性：生成的砖块结构在**几何误差、稳定性评分和物理可建造率**上均显著优于现有方法。不过，研究团队也坦诚，当前框架在处理超大场景时的推理效率仍有优化空间。 ## 小结 BrickAnything 不仅是一个技术突破，更代表了一种思路转变：**让 AI 先理解“如何搭建”，再学习“搭建什么”**。通过结构感知分词将物理常识融入生成过程，它有望成为连接数字3D世界与物理积木世界的桥梁。

Anthropic1个月前原文

260

智能体AI在科学领域的实验：从时间序列数据到物理讲座的自动化

精选

近日，一篇预印本论文（arXiv:2605.26305）详细介绍了两套用于科学工作流的自主智能体AI框架。这两套系统均采用“本地身体、远程大脑”的混合架构，通过Google Colab运行Python本地协调器，调用大型语言模型（LLM）云端后端。 ## 两大智能体：DeepTS与DeepScribe 第一个智能体名为**DeepTS/DeepCollector**，专门用于自动化大规模时间序列数据集的**整理、提取与去重**。它通过精细的属性提取（即“细胞级RAG”）、远程数据检查以及分布式并发控制等系统工程手段，克服了当前最先进系统在上下文与推理能力上的局限。第二个智能体**DeepScribe**则是一个自主演示分析器，能够将视觉密集、数学复杂的物理讲座视频转化为结构化的科学报告。这为教育、科研记录与知识传播提供了新的自动化路径。 ## 架构与创新论文强调，这些智能体并非简单的LLM调用，而是通过**混合架构**实现自主决策：本地协调器负责任务调度与数据预处理，云端LLM负责高级推理与生成。关键创新包括： - **细胞级RAG**：在细粒度层面提取属性，提升信息检索的精准度。 - **远程数据检查**：允许智能体在不下载全部数据的情况下进行验证。 - **分布式并发控制**：确保大规模处理时的数据一致性与效率。 ## 未来方向：深度知识图谱与高能物理论文最后展望了将DeepTS推广至**深度知识图谱**的设想，并讨论了该概念在**高能物理**（特别是DeepQCD）中的应用。这意味着智能体AI不仅能处理结构化数据，还能探索粒子物理中的复杂理论关系。 ## 行业意义这项工作展示了智能体AI在科学领域的落地潜力——从数据清洗到知识提取，再到跨模态内容生成。它突破了传统LLM仅作为对话助手的限制，真正让AI成为可自主执行多步骤任务的“科研协作者”。随着类似框架的成熟，未来科学家可能将更多重复性工作交给智能体，而专注于创造性假设与实验设计。

Anthropic1个月前原文

上一页13 / 36下一页