精选

尽管大型语言模型（LLM）发展迅速，但在复杂软件工作流中实现稳健的自动化仍是一个悬而未决的难题。在**长视野任务**（long-horizon）场景下，智能体常常受到**级联错误**和**环境随机性**的困扰——动态界面中的一个微小失误就可能导致整个任务失败，引发模型的“幻觉”或陷入无休止的试错循环。近日，一篇题为《Environment Maps: Structured Environmental Representations for Long-Horizon Agents》的论文被ICLR 2026 Workshop收录，提出了一种名为 **“环境地图”**（Environment Maps）的新型结构化表征方法，旨在为智能体提供持久、可解释的环境认知基础，从而显著提升其在复杂、多步骤任务中的成功率。 ### 核心问题：长视野任务中的“脆弱性” 当前基于LLM的智能体在处理需要多步交互的软件任务（如操作网页、执行复杂工作流）时，表现往往不尽如人意。其根本原因在于，大多数智能体依赖于**会话绑定上下文**（session-bound context），即仅在单次会话中记忆有限的历史信息。一旦任务流程变长、环境状态发生变化，或中途出现意外错误，智能体很容易“迷失方向”，无法从错误中恢复或有效规划后续步骤。 ### 解决方案：构建持久化的“环境地图” **环境地图** 本质上是一个**持久化、与智能体无关的结构化图表示**。它通过整合来自环境的异构证据（如屏幕录像、执行轨迹、日志等），构建一个可被智能体持续查询和更新的“世界模型”。该地图由四个核心组件构成： 1. **上下文**：抽象化的位置或状态节点，代表环境中的关键点。 2. **动作**：参数化的“可供性”（affordances），描述在特定上下文中可以执行的操作及其参数。 3. **工作流**：观察到的任务执行轨迹，记录了动作序列及其结果。 4. **隐性知识**：领域定义和可复用的程序性知识，例如特定按钮的功能或数据格式规范。 ### 关键优势：从“记忆碎片”到“认知地图” 与直接使用原始轨迹数据或仅依赖短期上下文相比，环境地图提供了几项关键优势： * **结构化接口**：它在模型与环境之间建立了一个清晰、结构化的接口，将杂乱的原始数据转化为易于理解和推理的图结构。 * **持久化与可复用**：地图独立于单次会话存在，可以被不同的智能体或同一智能体在不同时间访问和利用，实现了知识的积累和传承。 * **人类可解释与可编辑**：由于其结构化特性，人类可以直观地查看、理解和修改地图内容（例如修正错误知识、添加新步骤），这为**人机协作**和系统调试打开了大门。 * **增量可精炼**：地图可以随着智能体不断探索环境而持续更新和扩展，形成一个不断进化的知识库。 ### 实证效果：性能近乎翻倍研究团队在**WebArena基准测试**的五个不同领域中对环境地图进行了评估。结果显示： * 配备了环境地图的智能体，任务**成功率达到了28.2%**。 * 这几乎是仅依赖会话绑定上下文的基线智能体（成功率14.2%）的两倍。 * 甚至优于那些能够访问用于生成环境地图的**原始轨迹数据**的智能体（成功率23.3%）。这表明，**结构化的知识表征本身比原始数据更有价值**，它能更有效地帮助智能体进行规划和决策。 ### 对AI智能体发展的启示环境地图的提出，标志着AI智能体研究从单纯追求模型规模和能力，转向更加注重**如何为智能体构建有效、持久的外部记忆和世界模型**。这为解决长视野规划、减少幻觉、提升任务鲁棒性提供了一个极具潜力的方向。未来，这类结构化环境表征有望成为复杂AI应用（如自动化软件测试、机器人流程自动化、智能助手）的底层基础设施，让智能体不再是“一回合制”的玩家，而是能够持续学习、积累经验并可靠执行复杂任务的“数字员工”。

Anthropic12天前原文

760

从稀疏新闻数据中因果重建情感信号：AI金融分析新方法

新上线

在金融分析和科技监测领域，从新闻中提取情感信号已成为常见做法，但如何将零散的文章级观察转化为可靠的时间序列，一直是个棘手的工程难题。传统方法往往将其视为分类问题，但一篇最新研究提出了颠覆性的思路：将其重构为因果信号重建问题。 ## 研究核心：从分类到因果重建的范式转变这篇题为《从稀疏新闻数据中因果重建情感信号》的论文，由 Stefania Stan 等七位研究者共同完成。研究指出，新闻数据天生具有**稀疏性、冗余性和分类器不确定性**等结构性问题。这意味着，即使拥有一个性能不错的分类器，其输出的概率化情感分数（如正面、负面概率）也充满了噪声和不连续性，难以直接用于分析趋势。因此，研究团队主张，构建稳定、可部署的情感指标，关键在于**精心重建信号，而不仅仅是追求更好的分类器**。 ## 三阶段模块化重建流程为了实现这一目标，论文设计了一个模块化的三阶段处理流程： 1. **聚合阶段**：将文章级的情感分数聚合到规则的时间网格上。关键在于，聚合过程采用了**不确定性感知和冗余感知的权重**，这意味着它会自动降低不可靠或重复内容的影响。 2. **填补阶段**：由于新闻发布并非连续均匀，数据中存在大量空白。此阶段通过**严格的因果投影规则**来填补这些覆盖缺口。这里的“因果”意味着只使用过去的信息来推断当前或未来的空白，避免引入未来信息造成的数据泄露，确保重建信号可用于实时或前瞻性分析。 3. **平滑阶段**：对填补后的信号进行**因果平滑**，以进一步减少残留的噪声，得到一条更稳定、平滑的潜在情感时间序列。 ## 无需真实标签的评估框架该研究的一大创新在于其评估方法。在现实世界中，几乎不存在“真实”的、逐日标注的公众情感时间序列作为标准答案。为此，研究者提出了一个**无需标签的评估框架**，通过以下方式检验重建信号的质量： - **信号稳定性诊断**：检查信号在不同时间窗口或参数下的波动程度。 - **信息保存滞后代理指标**：评估信号中蕴含的信息是否具有时间上的连贯性和预测性。 - **因果合规性与冗余鲁棒性的反事实测试**：通过模拟测试，验证重建方法是否严格遵守因果假设，以及对冗余新闻的抵抗能力。 ## 实证发现：情感信号领先股价三周作为外部验证，研究团队将重建出的情感信号与股价数据进行了对比。他们使用了一个涵盖**2024年11月至2026年2月**的、与人工智能相关的多公司新闻标题数据集。关键的实证发现是：**重建后的情感信号与股价之间，存在一个持续三周的领先-滞后模式**。也就是说，情感信号的变化趋势，平均领先于股价变化约三周。这一模式在所有测试的流程配置和聚合方案中都稳定存在。研究者强调，这种**结构规律性比任何单一的相关系数都更具信息量**，因为它揭示了潜在的动力机制。 ## 对AI与金融科技领域的启示这项研究的意义超越了方法论本身： - **为量化金融提供新工具**：为基于另类数据（如新闻）的量化策略提供了更稳健的信号处理流程，可能提升预测模型的性能。 - **强调数据处理的重要性**：在AI应用浪潮中，提醒从业者**高质量的数据重建与特征工程，其价值不亚于甚至超过模型本身的优化**。 - **开辟新的研究方向**：将因果推断思想引入非结构文本数据的时间序列重建，为自然语言处理与时间序列分析的交叉领域提供了新思路。总而言之，这项研究通过创新的因果重建框架，为解决稀疏新闻情感分析的工程难题提供了系统性的方案，其揭示的“情感领先股价”的规律，也为理解市场情绪与资产价格的关系提供了新的实证证据。

HuggingFace12天前原文