SheepNav

AI 资讯

每日聚合最新人工智能动态

据最新财务数据,OpenAI 在 2025 年的亏损较此前大幅扩大,增幅接近 **8 倍**,年度总支出高达 **340 亿美元**。这一数字远超市场预期,反映出这家 AI 巨头在算力基础设施、人才招聘及模型训练上的疯狂投入正快速吞噬现金流。 ## 亏损背后:算力军备竞赛的代价 OpenAI 的支出激增主要源于几大方向: - **算力租赁与自建数据中心**:训练 GPT-5 及后续模型需要海量 GPU 集群,微软 Azure 之外的第三方算力采购成本持续攀升。 - **人才争夺**:顶尖 AI 研究员的年薪普遍在百万美元级别,团队规模已扩至数千人。 - **推理成本**:ChatGPT 及 API 服务的日活用户数亿级,每次对话的推理计算成本虽在优化,但总量依然惊人。 与 2024 年相比,2025 年的支出几乎翻倍,而收入增长未能同步跟上。尽管 OpenAI 的营收(主要来自 API 和企业订阅)预计在 2025 年突破 **100 亿美元**,但相比 340 亿的支出,净亏损规模或达 **200 亿美元**以上。 ## 行业视角:AI 公司的烧钱模式可持续吗? OpenAI 的亏损并非个例。Anthropic、Google DeepMind 等头部实验室同样面临“收入增速跑不赢投入”的困境。但 OpenAI 的特殊性在于: - **非营利上限结构**:早期投资者回报有封顶,这限制了外部融资渠道,更多依赖微软等战略投资者的持续输血。 - **规模效应悖论**:用户越多,推理成本越高;而降价会进一步刺激使用量,形成“越卖越亏”的循环。 有分析师指出,若 OpenAI 无法在 2026 年前实现单位经济模型改善(如通过定制 AI 芯片大幅降低推理成本),其资金链将面临严峻考验。 ## 未来关键变量 - **GPT-5 商业化**:若新模型能带来显著的用户付费转化率提升,或企业级产品(如定制模型微调服务)放量,将改善收入结构。 - **融资节奏**:OpenAI 可能寻求新一轮融资,或推动部分业务独立上市(如 API 平台)。 - **技术突破**:更高效的稀疏模型或量化技术若落地,推理成本有望下降一个数量级。 > 小结:OpenAI 的巨额亏损是 AI 军备竞赛的缩影——赢家通吃的预期驱动着不计成本的投入。但 340 亿美元的数字也敲响警钟:当资本耐心消退时,谁能先跑通可持续的商业闭环,谁才能真正定义下一代 AI 格局。

Hacker News1293天前原文

## 概述 近日,一篇来自中国科学技术大学与中国移动(苏州)软件技术有限公司的联合研究论文提出了 **GRAPE(Guided Parameter-Space Evolution)** 框架,旨在通过引导参数空间的渐进式演化,在紧凑模型上实现更强的对抗鲁棒性。该研究挑战了传统对抗训练(Adversarial Training, AT)中“从始至终训练固定参数空间”的范式,探索参数优化顺序对最终鲁棒解的影响。 ## 核心方法 GRAPE 的核心思想是将鲁棒模型的学习视为一个 **参数空间逐步暴露与演化** 的过程。它结合了两种关键机制: - **参数空间稳定化**:在当前暴露的参数子空间内稳定鲁棒优化,确保已有参数已充分收敛到对抗鲁棒的局部区域。 - **渐进式隐藏扩展**:逐步释放新的可优化维度,并利用 **对抗谱利用率分数(adversarial spectral utilization score)** 引导新容量优先分配给模型中承受高对抗压力的模块。 这种“先稳定、再扩展”的策略,使得模型能够在训练过程中动态决定哪些参数需要优先优化,从而避免传统固定结构 AT 中参数空间的低效利用。 ## 实验结果 在 CIFAR-10 数据集上,采用标准的 ℓ∞ 威胁模型,以固定结构的 ResNet-18 对抗训练作为对照基准,GRAPE 取得了以下关键结果: - **PGD-20 鲁棒准确率**:从基线 51.70% 提升至 **56.94%**,提升超过 5 个百分点。 - **计算开销**:FLOPs 比仅为 1.009 倍,几乎与基线持平。 - **参数量减少**:参数量减少了约 **21.4%**,体现了紧凑性优势。 此外,研究还设置了一种“顺序增长变体”,即最终架构仍为标准的 ResNet-18,但训练过程中参数逐步暴露。该变体达到了 56.52% 的 PGD-20 鲁棒准确率,与直接训练完整 ResNet-18 的基线(51.70%)相比仍有显著提升。这一对比有力地说明:**性能增益不仅来自最终架构的差异,更来自参数空间暴露路径本身**。 ## 行业意义 在 AI 安全领域,对抗训练是提升模型鲁棒性的主流方法,但传统方法通常假设所有参数同等重要且同时优化,导致冗余参数可能引入脆弱性。GRAPE 的工作表明,**参数优化的顺序与路径** 同样关键,这为设计更高效、更紧凑的鲁棒模型提供了新思路。 对于资源受限的边缘设备(如手机、物联网终端),GRAPE 在几乎不增加计算开销的情况下,通过减少参数量并提升鲁棒性,具有实际部署价值。同时,该框架也启发后续研究:是否可以进一步将参数空间演化与神经架构搜索(NAS)或剪枝技术结合,实现自动化程度更高的鲁棒模型设计? ## 小结 GRAPE 通过“引导参数空间演化”这一新范式,在紧凑模型上实现了对抗鲁棒性的显著提升。实验数据充分证明了参数暴露顺序对鲁棒解质量的影响,为对抗训练领域注入了新的理论视角和实践工具。

HuggingFace3天前原文

## 引言:保险定价中的公平难题 保险定价的公平性是一个长期悬而未决的难题。一方面,保险公司出于盈利考量,会根据个体风险差异制定保费,追求**精算公平**——即高风险者多付、低风险者少付。另一方面,保险承担着社会风险共担的功能,需要通过群体间的交叉补贴实现**团结公平**,保护弱势群体。在大数据时代,精细化风险区分成为可能,监管压力也日益增大,如何平衡这两种公平理念成为行业核心挑战。 ## α-FISP框架:一个统一的解决方案 最新发表于arXiv的论文《α-Fair Insurance Pricing: A Fairness Continuum》提出了一种名为**α-公平个体偿付能力保费(α-FISP)** 的框架。该框架将定价问题建模为约束优化任务:在保证保险公司偿付能力的前提下,对精算公平保费进行交叉补贴调整。 关键创新在于引入参数 **α**,它控制着从纯粹精算公平(α=0)到纯粹团结公平(α=1)的连续过渡。决策者可以根据政策目标或监管要求,在光谱上选择任意一点作为定价基准。例如,α=0时保费完全基于个体风险;α=1时则完全按群体平均风险定价,实现最大程度的交叉补贴。 ## 理论保证与实证验证 研究团队为α-FISP框架提供了严格的理论保证,证明其解的存在性、唯一性以及偿付能力约束的满足性。数值实验表明,该框架在计算上是可处理的,并且能够很好地适应美国各州不同的监管要求——例如某些州要求严格按风险定价,而另一些州则强调对特定群体的保护。 ## 行业意义与未来展望 α-FISP框架为保险监管和行业实践提供了一个灵活的工具。它使保险公司能够在精算准确性和社会公平之间找到可量化的平衡点,同时满足偿付能力这一基本要求。对于监管者而言,该框架可帮助制定更精细化的公平性标准,避免“一刀切”带来的副作用。 未来,该研究可进一步扩展至动态定价、再保险以及多风险类别的复杂场景。随着AI和机器学习在保险业的应用深化,这种可调节的公平性框架有望成为行业标准。

HuggingFace3天前原文

多源迁移学习面临一个根本性的可扩展瓶颈:现有方法要么在参数融合时一次性将所有 K 个源模型加载到内存中(需要 O(K) 内存),要么在推理时部署所有模型,导致生产部署不可行。我们提出 **GRASP**(梯度对齐顺序参数迁移),通过三项关键创新在维持 **O(1) 内存消耗** 的同时实现卓越的知识集成: 1. **顺序处理**:每次只将一个源模型合并到正在演化的目标模型中; 2. **参数级梯度对齐**:仅选择优化方向与目标领域对齐的参数进行迁移,避免负迁移; 3. **迭代微调**:在集成下一个源模型之前,对已迁移的知识进行自适应调整。 在三个持续学习基准(Yearbook、CLEAR-10、CLEAR-100,覆盖 10 到 108 年时间分布偏移)和四种架构(1.3M 至 25.6M 参数)上的大量实验表明,**GRASP 在所有数据集和架构上的平均准确率达到 93.5%**,而集成方法仅为 71.7%。同时,GRASP 仅需恒定内存,而标准多源融合需要 K 个模型的内存。关键的是,GRASP 的顺序设计使得之前合并的模型无需保留,且能扩展到任意多的源模型而无需增加内存,使其特别适合资源受限的部署和持续演化的源领域。

HuggingFace3天前原文

现代推荐系统日益依赖动态路由机制,将多样化的查询分发给多个嵌入模型。然而,在对抗性查询、赌博机反馈以及模型可观测性有限等现实条件下,这一问题的理论基础仍十分薄弱。近日,一篇发表于 arXiv 的论文《Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts》对此进行了系统性的数学建模与分析。 ### 问题形式化 研究者将嵌入模型路由问题形式化为**低秩专家参与的对抗性上下文线性赌博机**:上下文对应查询,动作对应推荐项,而专家则是工作在低秩隐空间上的嵌入模型。这种设置更贴近实际场景——查询可能被恶意构造,反馈仅限点击等二元信号,且模型内部参数不可见。 ### 核心发现 论文首先指出,标准的遗憾定义(如累积遗憾)在此场景下存在**结构性错配**或**统计不可解**的问题。为此,作者提出了一类**对数二次策略类**(log-quadratic policy class),该策略类既能表达查询相关的模型路由决策,又保留了高效在线学习的结构特性。 在此基础上,研究者提出了名为 **Hypentropy Policy Gradient (HPG)** 的策略梯度算法。该算法能在信息不完全的情况下自适应地学习未知的低秩结构,并达到 $\tilde{\mathcal O}(s\sqrt{M T})$ 的线性化策略遗憾界,其中 $s$ 为专家的本征秩,$M$ 为模型数量,$T$ 为轮次。这一结果避免了维度灾难,理论上优于现有方法。 ### 实际意义 论文还提供了**计算高效且无需手动调参**的 HPG 实现方案。这意味着该算法不仅具有理论保证,还具备实际部署的可行性。 ### 行业背景 当前,大型推荐系统通常维护数十甚至上百个嵌入模型,分别针对不同领域或任务。如何根据实时查询动态选择最合适的模型,是提升推荐效果与计算效率的关键。本工作将这一工程问题提升到严谨的数学层面,为后续研究奠定了理论基础。 ### 小结 本研究通过引入低秩专家和对抗性上下文赌博机框架,为嵌入模型路由提供了首个具有遗憾保证的在线学习算法。其理论贡献与实用实现,有望推动推荐系统在更复杂环境下的稳健运行。

HuggingFace3天前原文

## 核心发现 **可分离神经架构(SNA)** 是一种结合神经网络逼近与张量分解的函数表示类,通过将局部坐标函数(原子)与稀疏低秩交互对象解耦,形成紧凑且光滑的归纳偏置,尤其适合求解偏微分方程(PDE)。在变分框架(VSNA)下,该架构满足经典变分保证(Lax-Milgram引理),包括适定性、拟最优性、收敛性和稳定性。 ## 关键突破 - **维度灾难缓解**:对于高维时空-参数PDE,VSNA的复杂度随维度代数增长而非指数增长,利用交替最小二乘(ALS)优化将成本降至线性。 - **极速计算性能**:在标准笔记本电脑CPU上,VSNA执行100万次蒙特卡洛采样仅需102秒,相比基于NVIDIA A100 GPU的全网格有限元基线实现了**150,000倍加速**。 - **实时逆问题求解**:支持100毫秒内的生成式逆模式重建,适用于实时反演、优化循环和快速不确定性传播。 ## 工程验证 研究通过两个工程案例展示了SNA作为“一次性求解、任意位置查询”的物理世界模型: - **7维参数制造仿真**:处理高维参数空间,实现快速仿真。 - **Inconel 718热-性能反演管线**:从实验热数据反演材料属性,验证了模型在真实场景中的有效性。 ## 行业意义 SNA的提出为**科学计算与AI融合**提供了新范式。传统数值方法(如有限元)在高维问题中面临指数级计算增长,而SNA通过代数缩放打破了这一瓶颈。其“求解一次、任意查询”的能力,使得实时数字孪生、在线优化和不确定性量化成为可能,对航空航天、材料科学、气候建模等领域具有深远影响。 ## 总结 这项研究不仅从理论上证明了SNA的数学完备性,更通过实际案例展示了其工程可行性。随着AI for Science的推进,SNA有望成为连接神经网络与物理建模的桥梁,推动复杂系统仿真进入实时化、轻量化时代。

HuggingFace3天前原文

大型语料库上的智能体搜索长期依赖检索器中介接口(如BM25或ColBERT)来筛选候选文档。虽然这些接口在排序相关性方面表现不俗,但它们只提供排名列表或有限文档视图,智能体很难跨文档重新组织材料、验证约束条件。为了解决这一瓶颈,研究人员提出了**直接语料交互(Direct Corpus Interaction, DCI)**——让智能体通过可执行的Shell命令直接对语料库进行搜索、过滤、比较和验证。但DCI有一个致命短板:随着语料库规模增长,全库终端命令会变得缓慢且不稳定,性能和效率急剧下降。 来自滑铁卢大学等机构的研究团队在最新论文中提出了**Dr-DCI(Retriever-Steered DCI)**,巧妙地将检索器作为智能体可调用的“工作区扩展”动作。智能体不再直接操作整个语料库,而是先通过检索器动态拉取相关文档,将其纳入一个不断演进的**本地工作区**,然后在这个工作区内执行DCI操作。这种设计融合了检索级的**可扩展性**与DCI级的**精确性**:检索保证探索范围足够广,DCI则保留局部操作所需的精细控制。 实验结果表明,Dr-DCI在多个规模层级上均表现出色。在**Browsecomp-Plus**基准测试中,Dr-DCI准确率达到**71.2%**,相比原始DCI及消融变体提升高达8.3个百分点,同时减少了工具调用次数、实际运行时间和预估成本。若采用保留工作区的上下文重置策略,准确率进一步提升至**73.3%**。在语料规模扩展实验中,从10万到1000万文档,Dr-DCI始终稳定有效,而原始DCI变得不稳定,BM25性能大幅下降。Dr-DCI还成功扩展到2000万规模的**Wiki-18 QA**场景,在6个基准上平均得分**63.0**,超越了基于检索和训练的搜索智能体基线。消融分析进一步指出,**排名预览**和**文档间DCI操作**是性能提升的关键因素。 这项研究为智能体搜索提供了一条新路径:不是让智能体在浩如烟海的文档中大海捞针,而是动态构建一个“微型工作台”,让智能体像专家一样精雕细琢。

Anthropic3天前原文

arXiv:2606.14892v1 Announce Type: new Abstract: An artificial intelligence must have a model of its environment that is causal, supporting reasoning about interventions and counterfactuals, and also combinatorial, supporting generalization to unseen combinations of objects. In this work, we formally study when and how such a model can be learned. We develop relational structural causal models, extending structural causal models (Pearl 2009) to settings where objects and their relations vary. Fir

Anthropic3天前原文

LLM裁判(LLM Judge)被广泛用于自动化评估开放文本生成质量,以减少对昂贵人工标注的依赖。然而,这些裁判的可靠性高度依赖于它们与人类评分者的一致性,而验证这种一致性本身又需要大量人工标注,形成一种“评估之评估”的悖论。来自斯坦福大学等机构的研究团队提出了一种名为 **Metric Match** 的新方法,旨在从有限的标注样本中准确估计LLM裁判与人类的相关性指标。 ## 核心思路:用智能子集代替随机采样 传统做法是随机抽取一批样本进行人工标注,然后计算LLM裁判评分与人工评分之间的相关性(如Spearman相关系数、Kendall's Tau等)。但随机采样效率低下:如果样本分布与整体不匹配,估计误差会很大。Metric Match 的核心创新在于:**基于合成标签(即LLM裁判自身的评分)来选择一组样本子集,使得该子集在相关性指标上尽可能接近整体数据集**。这样,只需要人工标注这个精心挑选的子集,就能以较低成本获得可靠的裁判可靠性估计。 ## 实验结果:显著降低标注成本与误差 研究团队在 **15个数据集** 上测试了4种不同的相关性指标,结果显示 Metric Match 相比随机子集选择取得了 **0.838的胜率**,平均估计误差降低 **18.7%**,所需标注量减少 **32.5%**。在医疗领域的案例研究中,该方法为专家标注节省了 **1041.67美元** 的成本。此外,研究还将任务从可靠性估计扩展到可靠性分类(判断LLM裁判是否达到部署阈值),Metric Match 同样优于随机选择。 ## 实际意义:加速LLM裁判的部署与审计 随着LLM在医疗、法律、教育等高风险领域的应用增多,确保自动评估工具的可靠性至关重要。Metric Match 提供了一种实用的工具,使开发者和监管者能够用更少的人力验证LLM裁判的表现。研究团队已将代码公开,并提供可安装的Python包,便于社区使用。 该方法不仅适用于LLM评估,其子集选择思想也可推广到其他需要昂贵标注的场景,如模型对齐测试、内容审核等。它标志着AI评估从“全量标注”向“智能抽样”的转变,为构建更可信的自动化评估体系提供了新思路。

Anthropic3天前原文

强化学习(RL)与扩散模型或流匹配(flow-matching)策略的结合一直面临挑战:虽然这类生成模型能表达丰富的动作分布,但通过时间差分(TD)学习优化时,直接利用评论家(critic)的动作梯度反向传播会因多步去噪过程而出现数值不稳定。现有方法要么丢弃梯度信息、将策略蒸馏为单步动作,要么随评论家更新反复微调去噪网络,效率和性能难以兼得。 **QPILOTS 的核心思路**:保持原始策略不变,在推理时引导去噪过程。具体来说,在每个去噪步骤中,不直接在噪声中间动作上评估评论家(该处预测不可靠),而是先将中间状态投影到最终干净动作的估计值,再在该估计值上计算评论家梯度,并用该梯度修正去噪方向。论文提出两种变体:**QPILOTS-U** 采用快速单点近似,计算开销低;**QPILOTS-M** 则通过一个可学习的辅助网络生成可微的后验样本,精度更高。 **性能表现**:在标准的离线到在线 RL 基准测试中,QPILOTS 在 50 个任务上平均成功率达到 **90%**,综合表现最佳。此外,作者将 QPILOTS 应用于冻结的大型预训练视觉-语言-动作(VLA)基础模型,在 6 个仿真操作任务上,其性能超越或持平于已有的推理时引导方法。 **行业意义**:这项研究为大规模预训练策略的“零微调”部署提供了新思路——无需修改模型参数或重新训练,仅通过推理时的梯度引导就能显著提升决策质量。对于机器人操作、自动驾驶等需要快速适应新任务的场景,QPILOTS 有望降低部署成本,同时保持策略的泛化能力。

HuggingFace3天前原文

随着大语言模型代理越来越多地以团队形式协作,每个代理都需要判断对队友的信任程度。然而,学界一直缺乏衡量AI代理间信任的标准方法。一项来自arXiv的新研究(论文ID:2606.14923)提出了一种基于**代价验证**的行为测量框架,通过观察代理是否减少对队友工作的检查来量化信任水平。 ### 实验设计:生存游戏中的信任博弈 研究团队设计了一个合作生存游戏:代理需要依赖队友的答案做出决策,但验证队友的工作会消耗资源,而信任错误答案则可能导致致命后果。通过比较**有记忆模型**与**无记忆版本**的验证行为差异,研究者能以“验证减少量”作为信任的观测指标。 ### 关键发现:信任形成与破裂的模型差异 实验覆盖了**六个前沿模型快照**。当与持续可靠的队友配对时,四个较大模型(Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1和Gemini 3.1 Pro)将验证频率降低了约**60%-85%**,表现出明显的信任形成。而两个较小模型则几乎未调整验证行为,显示出信任能力的规模依赖性。 当队友出现失误时,信任迅速破裂,但不同模型的应对策略截然不同: - **针对性审查**:部分模型将重新聚焦于出错的代理,对其输出进行更严格的验证。 - **全局警惕**:另一些模型则对整个团队产生怀疑,普遍提高验证水平。 ### 信任恢复:缓慢且易受失败模式影响 研究发现,信任恢复比形成慢得多。**聚集性失败**(连续多次犯错)比分散的相同次数失败更能维持怀疑状态,表明失败的时间分布对信任重建有显著影响。 ### 实际意义:校准优于多疑 形成信任的模型验证更少、决策更快,并在环境中获得更高收益。相反,**过度验证**与犹豫不决相关,而非更高的安全性。研究结果表明,信任倾向可以在部署前进行测量,并提示**校准**——而非最大限度的怀疑——应成为多智能体AI系统治理的核心关注点。

Anthropic3天前原文

## 研究背景与动机 自动驾驶系统依赖精确的轨迹预测来规划安全高效的行驶路径。近年来,图神经网络(GNN)因其对道路参与者之间时空交互建模的能力,成为轨迹预测领域的热门方法。然而,**GNN架构设计缺乏标准化**,开发者往往不清楚哪些图卷积层能最有效地捕捉空间交互与时间动态。 ## 核心发现:19种图层的系统对比 该研究对**19种图神经网络层**进行了系统比较,重点关注其空间与时间处理能力。在特定超参数设置下,**ARMA、Chebyshev 和拓扑感知层**表现持续优于其他方案,成为五大突出层组合中的关键组件。 ## 关键设计原则 除了性能排名,研究还提炼出三条实用设计准则: 1. **聚合策略**:基于 **sum 的聚合方法**比 mean 聚合更有效。 2. **注意力机制**:**多头注意力**机制能够捕捉更丰富的交互关系。 3. **跳距权重**:对不同跳数(hop distance)赋予不同权重,可**显著提升预测精度**。 这些原则为构建更具可解释性与有效性的轨迹预测模型提供了明确指导。 ## 研究意义 该工作填补了 GNN 在轨迹预测中选层的知识空白,为从业者提供了直接可用的架构设计参考。未来,研究者可基于这些发现开发更高效的自动驾驶决策系统。 论文发表于 IEEE IV 2026,全文可在 arXiv 获取(arXiv:2606.14956)。

HuggingFace3天前原文

## 从“反事实”到“先验信念”:重新定义好的解释 解释(explanation)的质量,长期以来是哲学领域的核心议题。随着大语言模型(LLM)在医疗、法律、金融等高风险领域的广泛应用,AI的可解释性再次成为焦点。然而,什么才是“好的解释”?一篇发表于arXiv的新论文(编号:2606.14838)提出了一个融合反事实推理与对话者先验信念的定义,并深入分析了为何LLM的输出难以被良好解释。 ### 定义:好的解释需“改变信念” 研究者认为,一个好的解释必须能够修正或影响接收者的认知。他们借鉴了反事实解释(counterfactual explanation)的思路——即解释应揭示“如果某因素不同,结果会如何”。但仅此不够:解释的有效性还取决于接收者**对每个可能被引用事实的已有信念**。例如,对一个相信“所有AI都是黑箱”的人,解释LLM的推理链可能毫无意义;而对一个熟悉神经网络的人,同样的解释则可能奏效。因此,好的解释必须动态适配接收者的知识背景。 ### LLM的三大解释困境 论文进一步指出,LLM输出之所以难以被良好解释,主要源于以下挑战: 1. **内部机制的黑箱性**:LLM的决策路径高度复杂、非线形,难以映射为人类可理解的因果链条。即便采用反事实方法,也很难定位“关键输入变化”。 2. **语言输出的歧义性**:LLM生成的文本本身可能包含模糊、隐喻或错误信息,导致解释与输出之间的对应关系不明确。 3. **接收者信念的多样性**:不同用户对LLM的信任度、技术理解差异巨大,一个统一的解释框架难以覆盖所有场景。 ### 对AI可解释性的启示 该研究为当前的可解释AI(XAI)领域提供了重要视角:**解释不是单向的信息输出,而是基于接收者认知状态的交互过程**。这意味着,未来的可解释性工具可能需要引入用户建模(user modeling)模块,实时评估用户的先验知识并动态调整解释策略。 对于LLM开发者而言,这一结论也暗示:单纯提供注意力权重或特征重要性列表远远不够。更有效的做法可能是设计**交互式解释界面**,允许用户追问、比较反事实场景,甚至纠正模型误解。 尽管论文尚未提供具体的实现方案,但它为“好解释”树立了一个更具包容性的标杆——不仅要“正确”,更要“有用”于特定的人。在AI逐步嵌入日常决策的今天,这一思考或将推动可解释性研究从“技术优化”转向“人机协作的认知设计”。

Anthropic3天前原文

前沿推理调优语言模型在执行深度演绎任务时仍会失败,且通过扩展内部推理来提升性能的成本高昂。符号委托提供了一条互补路径:语言模型负责翻译问题,而求解器执行推理。然而,当前面向逻辑编程的自动形式化流程通常是针对特定任务或智能体的定制集成。我们提出了 **PrologMCP**,一个任务无关、开源的服务器,通过模型上下文协议(MCP)将 Prolog 暴露为有状态工具。其紧凑的工具接口、结构化错误报告以及基于会话的隔离机制,使得“翻译-运行-检查-修复”循环成为 MCP 智能体的可复用原语。我们在 PARARULE-Plus 的两个子集上评估了增强 PrologMCP 的形式化智能体与标准及推理 LLM(Claude Sonnet 4.6、GPT-4.1 和 o4-mini)的表现:一个通用样本,另一个更具挑战性,针对自然语言推理的特定失败模式。在通用样本上,形式化智能体匹配或超越推理 LLM(准确率 1.00 vs. 1.00 / 0.998),相比标准模型提升最大(GPT-4.1 为 0.762)。在挑战性子集上,形式化智能体保持接近完美(1.00 / 0.99),而推理 LLM 下降至 0.95 / 0.94。这些结果表明,通过 MCP 将推理委托给 Prolog 是扩展自然语言推理的一种稳健且可检查的替代方案。

Anthropic3天前原文

自主实验(autoresearch)模式让大语言模型(LLM)通过迭代修改代码来优化目标指标,但其无状态设计导致每次迭代都要从头重建实验上下文,产生 O(n) 的逐次 Token 成本和 O(n²) 的总成本。最新研究《Remember, Don't Re-read: Stateful ReAct Agents for Token-Efficient Autonomous Experimentation》提出用 LangGraph 构建状态化 ReAct 智能体,通过类型化持久状态和工具调用接口在迭代间携带实验历史,从而将 Token 消耗大幅降低。 ## 核心创新:从“重读”到“记住” 传统无状态智能体每次迭代都会将完整历史(包括代码、结果、日志)重新送入 LLM 上下文窗口,导致 Token 消耗随迭代次数线性增长。状态化 ReAct 智能体则利用 LangGraph 的持久化状态机制,只将当前步骤的必要信息(如最新结果、待办动作)放入上下文,历史信息通过内部状态引用而非显式重读。这种设计将每次迭代的 Token 成本从 O(n) 降为 O(1)。 ## 基准测试结果 研究者在两项任务上进行了评估: - **超参数调优**(15 次迭代,每次观察数据量小):状态化智能体消耗 **2,492 个 Token**,比无状态版本的 24,465 个减少 **90%**。 - **代码性能优化**(40 次迭代,每次包含完整源码和基准结果):状态化智能体消耗 **627K Token**,比无状态版本的 1,275K 减少 **52%**,且优化质量相当。 ## 架构细节与可复现性 论文详细描述了基于 LangGraph 的实现: - 定义类型化状态(TypedState)存储实验历史、当前步骤和工具调用记录。 - ReAct 智能体通过工具调用接口与环境交互,每次只追加新信息到固定大小的对话窗口。 - 状态管理自动剪枝过期上下文,避免上下文膨胀。 作者提供了足够详细的设计说明,使从业者能够为自己的工作流实现类似的状态化自主实验智能体。 ## 意义与展望 这项工作的价值不仅在于 Token 节省——在 GPT-4 等昂贵模型上,成本降低直接意味着更长的实验序列或更复杂的任务成为可能。此外,固定上下文窗口还避免了长序列推理中的“迷失在中间”问题,可能提升模型在长任务中的稳定性。未来方向包括将状态化设计扩展到多智能体协作、动态上下文压缩等场景。

HuggingFace3天前原文

时间序列预测是金融、气象、能源等领域的核心任务,传统模型依赖历史模式外推,但在非平稳环境下,单纯基于数值相似度的检索往往失效。来自 ICML 2026 工作坊的新研究提出 **SERAF**(Semantics-Enhanced Retrieval-Augmented Time Series Forecasting)框架,通过引入文本语义信息,实现数值与语义的双重检索,显著提升了非平稳序列的预测能力。 ## 从 RAG 到时间序列:检索为何不够? 受检索增强生成(RAG)启发,已有研究尝试从历史数据中检索与当前片段相似的序列段来辅助预测。然而,当数据分布发生漂移(即非平稳性)时,数值相似度高的历史片段可能对应完全不同的未来走势,导致检索“南辕北辙”。例如,股市在牛熊转换期,量价形态相似但后续走势迥异,纯数值检索无法捕捉这种隐含的语义变化。 ## SERAF 的双重检索机制 SERAF 的核心创新在于**多模态检索**:不仅检索时间序列本身,还检索由序列自动生成的文本描述。具体来说,框架包含三个关键步骤: 1. **文本描述生成**:利用预训练语言模型将每个时间序列片段转化为自然语言描述,如“上升趋势伴随成交量放大,随后出现顶部反转形态”。 2. **双重检索**:以当前序列及其文本描述为查询,分别从历史数据库中检索数值相似的片段和语义相似的片段,得到两组互补的候选集合。 3. **选择性融合**:通过注意力机制或门控网络,自适应地融合两组检索结果中的历史模式及对应未来值,生成最终预测。 这种设计使得模型在数值相似度低但语义相似度高的情况下(如不同资产但具有相同技术形态),仍能有效利用历史经验。 ## 实验结果与行业意义 在七个真实数据集(涵盖电力、交通、气象、金融等领域)上的实验表明,SERAF 在均方误差和平均绝对误差上均显著优于包括 Transformer、N-BEATS、TimesNet 在内的最新基线模型。尤其在非平稳性较强的金融时间序列上,SERAF 的预测精度提升超过 15%。 该研究揭示了**语义信息在时间序列分析中的巨大潜力**。随着大语言模型的发展,将数值信号与文本语义结合正成为 AI for Science 的新方向。SERAF 不仅为时间序列预测提供了新范式,也为其他依赖历史检索的时序任务(如异常检测、缺失值填补)提供了可借鉴的思路。 ## 小结 SERAF 框架通过引入语义增强的检索,有效弥补了纯数值方法在非平稳场景下的不足。它标志着时间序列预测从“数值驱动”迈向“语义+数值双轮驱动”的阶段。尽管文本生成质量与计算开销仍是挑战,但该工作无疑为领域打开了新的研究窗口。

Anthropic3天前原文

记忆的形成是智能的核心,但深度神经网络是否像生物大脑一样,存在可识别的记忆单元?来自韩国基础科学研究院等机构的研究人员提出了一种名为“AI 印痕”(AI Engram)的几何框架,尝试从神经网络的参数中分离出与特定记忆对应的结构,并实现记忆的精准编辑。该成果已被 ICML 2026 接收为 Oral 论文。 ## 从生物记忆到人工神经网络 在神经科学中,“印痕”(engram)指大脑中与特定记忆相关的物理或化学变化。研究者将这一概念引入 AI,定义了四个标准:**特异性**(特定记忆对应特定参数)、**再激活**(参数能重现记忆)、**充分性**(参数足以重建记忆)和**必要性**(缺失参数则记忆丢失)。他们将这一生物学问题形式化为一个约束逆问题,并推导出闭式解,该解等价于参数流形上的自然梯度更新。 ## 记忆的线性算术 AI 印痕的独特之处在于,它允许通过线性运算对知识进行手术级操控。例如,将多个记忆的印痕向量相加可实现记忆组合,相减则可定向擦除——整个过程无需迭代优化。实验涵盖从简单多层感知器到大型语言模型,验证了该方法的因果有效性和可扩展性。 ## 意义与展望 这一研究不仅为理解深度网络的分布式存储机制提供了几何视角,还可能带来实用价值:比如在模型微调中精准移除有害记忆,或在联邦学习中隔离特定用户数据。不过,目前方法在超大规模模型上的计算开销仍有待优化。 **论文信息**: - 标题:AI Engram: In Search of Memory Traces in Artificial Intelligence - 作者:Jea Kwon, Dong-Kyum Kim 等 - 收录:ICML 2026 (Oral) - 代码:已开源

Anthropic3天前原文
DOJ称xAI对国家安全“至关重要”,NAACP诉讼受阻

美国司法部(DOJ)在周一介入了一场针对xAI燃气轮机的诉讼,声称阻止该公司运行天然气发电机组将“威胁美国国家安全、经济和能源安全”。该诉讼由NAACP于4月提起,指控xAI在密西西比州Southaven的第二个数据中心(代号Colossus 2)未经许可运行燃气轮机,违反《清洁空气法》并危害公共健康。DOJ与xAI及密西西比州共同要求法院驳回此案。 DOJ的备忘录指出,目前仅有包括Grok在内的四个AI模型支持机密网络上的关键任务。国防部首席数字与AI官Cameron Stanley的声明进一步透露,军方在近期对伊朗的打击中使用了Grok的Gov模型,并强调中断xAI的电力供应将“直接威胁正在进行的国家安全利益”。 xAI此前在孟菲斯西南部已因类似问题引发争议。当地居民抱怨该公司未经许可运行燃气轮机,而该地区哮喘发病率本就居高不下。田纳西州和密西西比州的州机构声称xAI有一年时间在无需清洁空气许可的情况下运行这些设备,但NAACP认为这不符合EPA的规定。 此案的关键争议在于:AI基础设施的能源需求与环境保护之间的平衡。xAI作为Elon Musk旗下的AI公司,其Grok模型已被用于军事行动,而DOJ的介入凸显了AI在国家安全中的战略地位。然而,NAACP强调,健康与环境不应为技术发展让步,尤其是在污染负担已很重的社区。 案件后续发展将取决于法院如何权衡国家安全与公共健康的优先级。若驳回诉讼,可能为AI公司利用国家安全理由规避环境法规开先例;反之,则可能强化对AI数据中心的环保审查。

WIRED AI3天前原文

## 事件概述 在美国庆祝世界杯首胜与尼克斯夺冠之际,AI公司Anthropic却度过了一个紧张的周末。**6月12日下午5点21分**,该公司收到美国出口管制指令,要求暂停其最新模型**Mythos 5**和**Fable 5**向“任何外国国民”提供访问权限,包括公司内部的外籍员工。这意味着Anthropic必须完全关闭一周来大力宣传的产品,并紧急前往华盛顿游说特朗普政府改变决定。 ## 矛盾根源 Mythos 5和Fable 5基于此前被Anthropic称为“过于危险不宜公开发布”的Mythos Preview。其中,**Mythos 5**仅向特定政府机构和公司开放,而**Fable 5**因增加额外安全措施被认定为“可安全通用”。然而,有报告指出这些护栏可能失效,导致Anthropic此前的严厉警告反噬自身——政府据此认为模型风险过高。 ## 产业影响 这场冲突可能**重塑美国AI产业格局**。若政府坚持限制,将给美国AI公司带来重大打击。一位参与谈判的消息人士透露,政府可能在本周做出最终决定,其走向将影响整个行业的发展轨迹。 ## 关键点 - **时间线**:周五下午1点政府首次致电Anthropic,5点21分正式下达指令。 - **核心争议**:模型安全性与出口管制的平衡。Anthropic认为Fable 5风险可控,但政府持怀疑态度。 - **后续**:Anthropic正全力解释模型并非“过于强大”,但前景不明。

The Verge3天前原文

在众多扩展坞产品中,**Baseus Spacemate RD1 Pro** 以其独特的功能脱颖而出。它不仅提供了15个接口,还内置了**显示屏**和**Qi2无线充电板**,成为现代办公桌面的核心设备。 ### 独特设计,不止于扩展 与市面上多数扩展坞不同,RD1 Pro 将**扩展、充电与显示功能**集于一身。其内置的小屏幕可以显示系统信息、时间或自定义图案,而Qi2充电板支持最高15W的无线快充,让手机、耳机等设备随放随充。这种设计减少了桌面线缆的杂乱,提升了使用效率。 ### 性能与兼容性 在数据传输方面,RD1 Pro 支持**USB 3.2 Gen 2**标准,理论带宽可达10Gbps,适合高速外接存储设备。它配备了HDMI 2.0和DisplayPort接口,支持双4K@60Hz输出,满足多屏办公需求。不过,它的**电源适配器体积较大**,对于追求桌面简洁的用户来说可能是个缺点。 ### 价格与定位 RD1 Pro 的售价约为**200美元**,属于中高端扩展坞。虽然价格不菲,但其集成的显示屏和Qi2充电功能在同类产品中较为少见,适合那些希望减少桌面设备数量、追求一体化体验的用户。 ### 总结:适合谁? - **适合**:需要多接口扩展、同时希望集成无线充电和状态显示的用户,尤其是追求桌面整洁的办公人士。 - **不适合**:预算有限或对便携性要求高的用户,因为其体积和电源适配器较大。 总体而言,Baseus Spacemate RD1 Pro 是一款**创新但定位明确**的产品,它并非适合所有人,但对于特定场景下的用户来说,它可能正是那个“All-in-One”的解决方案。

ZDNet AI3天前原文