随着大语言模型(LLM)的广泛应用,它们越来越多地被期望与其他AI智能体协同工作,而非孤立运行。这种多智能体协作场景要求智能体能够有效沟通、共享信息并在不确定性下做出决策。为此,研究人员提出了 **SMAC-Talk**——一个基于《星际争霸》多智能体挑战(SMAC)的自然语言扩展,专门用于评估基于LLM的智能体在协作多智能体环境中的表现。 ## 核心特性与设计理念 SMAC-Talk保留了原始SMAC环境的关键挑战:**分散控制**、**部分可观测性**和**长周期决策**。在此基础上,它引入了一个**自然语言通信通道**,智能体可以通过该通道自由交流,从而测试其协作与信任建立能力。该环境还设计了多种评估场景,包括一种特殊的**欺骗性通信者**设置——其中某个智能体会试图通过语言误导和破坏盟友,以此考察智能体对欺骗行为的识别与应对能力。 ## 基准测试与模型表现 研究团队提供了三个基准智能体,并使用了 **Qwen3.5 系列中的4个模型**进行测试。实验重点关注推理结构、记忆能力和模型规模如何影响智能体之间的协作效果。初步结果显示,更大规模的模型在协调任务中表现更优,但推理结构的优化也能带来显著提升。记忆机制则帮助智能体在长周期决策中保持一致性。 ## 行业意义与开源贡献 SMAC-Talk的发布填补了当前LLM评估中的一个空白:大多数现有基准侧重于单智能体任务或简单的对话交互,而多智能体协作场景的研究相对匮乏。该环境提供了一个可重复、可扩展的测试平台,有助于推动LLM在复杂协作任务中的能力发展。研究团队已将SMAC-Talk作为开源基准发布,供学术界和工业界使用。 ## 展望 未来,SMAC-Talk有望被用于研究更高级的协作策略,如动态角色分配、基于信任的决策以及多轮谈判。随着LLM推理能力的不断进步,这类环境将成为检验AI系统能否在现实世界中有效协作的关键工具。
在当今AI开发中,数据筛选是决定模型性能的关键环节,却也是最耗时耗力的工作之一。研究者需要反复尝试、实施、评估和修改数据策略,整个过程依赖大量人工。那么,能否让通用编程智能体(agent)来自动化这一循环?近日,来自加州大学伯克利分校和斯坦福大学等机构的研究团队提出了**Curation-Bench**——一个以智能体为中心的基准测试,旨在系统评估通用智能体在数据筛选任务上的能力。 ### 什么是Curation-Bench? Curation-Bench的设计思路非常清晰:固定模型、训练方案和评估套件,只给智能体提供命令行访问权限,让它能够检查数据、实施策略、提交到固定的训练/评估管线,并根据反馈进行迭代。在视觉-语言指令微调场景中,未经特别优化的通用智能体在十次迭代内就达到了已发表数据筛选基线的水平。 ### 执行与研究之间的鸿沟 然而,研究团队通过轨迹分析发现了一个关键问题:**执行-研究鸿沟(execution-research gap)**。智能体倾向于在已有策略的局部进行微调,而不是探索全新的策略家族,即使提供了策略指南和论文参考文献,它们也往往在已知路径上“打转”。 ### 脚手架引导:从执行到研究 为了弥补这一鸿沟,研究者设计了一种脚手架(scaffold)方法,要求智能体在每次迭代中引用、实例化并适配一种已有方法。这种强制性的“方法引导”显著提升了智能体的探索能力。令人惊讶的是,脚手架辅助的智能体在没有人类设计输入的情况下,自主组合出一种数据筛选策略,**仅用十分之一的数据预算就超越了已发表的强基线结果**。 ### 结论与启示 这项研究表明,当前通用智能体已经能够“运行”数据筛选循环,但要真正实现可靠的数据研究,不能仅靠开放式提示,还需要脚手架式的方法引导。Curation-Bench不仅为评估智能体数据筛选能力提供了标准化工具,也为未来更自主的AI研究揭示了方向:让智能体会“做实验”,而不仅仅是“跑代码”。 代码和基准已开源,感兴趣的读者可以进一步查阅论文细节。
多模态大语言模型(MLLM)在复杂推理任务中表现日益强大,但当它们需要借助外部工具(如绘图)来辅助推理时,性能却常常下降。为了系统性地研究这一差距,来自不列颠哥伦比亚大学等机构的研究人员推出了 **VAMPS(Visual-Assisted Mathematical Problem Solving)** 基准测试,专门评估模型在“图表辅助数学问题求解”上的能力。 ## 测试设计:为何聚焦“画图解题”? VAMPS 包含 **1,168 道多模态、双语(波斯语/英语)选择题**,题目源自伊朗大学入学考试的代数和微积分问题,并经过人工审核的 LLM 生成变体扩充。这些问题的共同特点是:**通过绘制函数图像(揭示交点、极值、渐近线等)是一种自然且高效的解题策略**。 与以往主要评估模型“理解固定图像”的基准不同,VAMPS 要求模型**主动构造有用的图形,并基于生成的图表进行推理**。这更贴近真实工程和科学工作流——工程师和科学家常借助可视化工具进行分析、验证和决策。 ## 惊人发现:直接计算反而更强 研究团队测试了多种主流模型(如 GPT-4o、Claude、Gemini 等),结果出乎意料: > **直接进行符号/数值计算(无视觉辅助)的表现,普遍优于借助绘图工具的视觉求解方式。** 即使在那些“绘图是自然策略”的题目上,模型使用绘图工具后,准确率反而下降。这表明当前 MLLM 在“工具外化-推理”链条上存在明显短板: - 模型可能无法准确调用绘图工具(如生成错误的函数表达式或坐标范围); - 模型可能无法从生成的图像中正确提取关键信息(如误判交点位置); - 多步推理中,工具输出与后续推理之间的衔接存在语义鸿沟。 ## 行业启示:工具使用能力仍是瓶颈 VAMPS 的结果为 AI 社区敲响警钟:尽管 MLLM 在端到端视觉问答上进步神速,但**真正的智能不仅需要“看懂图”,更需要“知道何时画图、如何画图、以及如何利用画出的图”**。 这一发现对以下领域尤为重要: - **科学计算与工程分析**:依赖可视化工具进行数据探索和验证; - **教育科技**:自动解题系统需要模拟人类“画图辅助思考”的策略; - **通用 AI 代理**:未来 AI 需自主决定何时使用外部工具,并整合工具输出。 ## 小结 VAMPS 提供了一个极具挑战性的诊断工具,揭示了当前多模态模型在“工具辅助推理”上的系统性缺陷。研究团队已公开数据集和评估代码,期待后续工作能开发出更擅长“边画边想”的模型。 对于 AI 从业者而言,这一结果也提示:**在追求模型规模扩展的同时,不应忽视工具使用与多步推理的协同优化**。毕竟,真正的智能从来不只是“看一眼就懂”,而是懂得如何借助外部工具来拓展认知边界。
## 背景与挑战 在数字硬件设计中,自动生成寄存器传输级(RTL)代码一直是AI辅助设计的热点与难点。与普通代码生成不同,RTL代码(如Verilog和VHDL)要求**严格的时序正确性、多步依赖关系以及长程推理能力**。现有的大语言模型(LLM)在短序列代码生成上表现不俗,但在涉及多模块交互、状态机设计等复杂场景时,往往因无法有效追踪中间逻辑而出现功能错误。 ## StepPRM-RTL 核心方法 针对上述问题,研究团队提出 **StepPRM-RTL** 框架,核心创新在于将**过程奖励模型(PRM)**引入RTL代码生成的微调流程。具体而言: 1. **逐步轨迹建模**:从标准解答中提取逐步推理轨迹,每一步包含“推理理由”和“增量代码修改”,让模型学会分步构建正确逻辑。 2. **过程奖励模型(PRM)**:训练一个专门评估中间步骤质量的奖励模型,为每个推理步骤提供**密集反馈信号**,而非仅依赖最终结果的稀疏奖励。 3. **检索增强微调(RAFT)**:结合PRM的反馈,对基础LLM进行强化学习风格的微调,使模型在训练中同时优化过程正确性与最终结果正确性。 4. **蒙特卡洛树搜索(MCTS)**:在训练数据生成阶段,利用MCTS探索不同的推理路径,自动筛选出高质量的轨迹用于扩充训练集。 ## 实验结果与行业意义 在标准Verilog和VHDL基准测试上,StepPRM-RTL相比此前最优方法,**功能正确性和推理忠实度指标提升超过10%**。消融实验证实,PRM引导的奖励机制与逐步轨迹探索的组合是性能提升的关键。 这项研究的意义在于: - **可解释性**:过程奖励让模型的推理链条透明化,帮助设计者理解错误根源。 - **跨语言泛化**:框架不局限于单一RTL语言,可迁移至Verilog、VHDL乃至SystemVerilog等。 - **硬件设计自动化新范式**:将LLM从“代码补全工具”升级为“具备长程推理能力的协同设计助手”,有望缩短芯片设计周期、降低人工调试成本。 ## 展望 随着RTL代码生成任务复杂度提升,单纯的结果监督已无法满足需求。StepPRM-RTL通过过程级监督与强化学习结合,为LLM在硬件设计领域的应用提供了新思路。未来,该方法或可扩展至更复杂的系统级设计、验证脚本生成等场景,推动AI辅助硬件设计进入新阶段。
在评估大型语言模型(LLM)时,业界通常关注准确率这一标量指标。然而,一篇来自 arXiv 的新论文《ERRORQUAKE: Heavy-Tailed Error Severity Distributions in Open-Weight Large Language Models》指出,即使准确率相同,不同开源模型在错误严重性的分布形态上可能存在显著差异——这一差异被传统的错误率完全掩盖。 传统的幻觉评测仅统计错误数量,将“日期错误”与“编造法律裁决”等性质迥异的错误等同对待,但两者在实际危害上相差数个数量级。为此,研究者引入了 **Errorquake-10k** 基准测试,包含 10,000 条查询,覆盖 8 个领域和 5 个难度等级,对每个回答在 0-4 的连续严重性尺度上打分。 通过对 21 个开源模型进行拟合,研究者为每个模型估计了严重性分布指数 **b**(类似地震学中的 Gutenberg-Richter 上尾斜率),并给出了 95% 置信区间。关键发现是:在 210 个模型对中,有 85 对在准确率匹配(误差差小于 0.05)的情况下,其 b 值的置信区间完全不重叠。例如,**deepseek-v3.2** 与 **ministral-14b** 在准确率均为 0.586 时,b 值差达到 0.47。 一项包含 519 个样本、三人标注的验证研究证实了评测的可靠性(组内相关系数 ICC(2,k=3)=0.85),并验证了 LLM 评判的排序一致性(斯皮尔曼相关系数 ρ=0.89),同时确认了密集模型在人类数据上的规模相关性(ρ_s=-0.86)。 论文的核心理论贡献是 **不可约简性定理**:严重性分布与错误率在信息论上是非冗余的。条件互信息 I(b; model | ε)=1.56 bits,意味着 64.5% 的跨模型 b 值方差无法被错误率解释。 进一步的严重性机制分类(kappa=0.83)揭示了错误类型随严重性变化的规律:低严重性错误中 71% 是检索错误,而高严重性错误中 39% 是编造——且这一构成随模型规模显著变化(p<0.0001)。 该研究建议,在报告模型表现时,应将严重性分布与准确率并列。严重性分布携带错误率无法提供的判别信息,对于高风险应用(如法律、医疗)尤为重要。未来的 LLM 评测不应只问“错得多少”,还应关注“错得多严重”。
arXiv:2606.05186v1 Announce Type: new Abstract: Budget-constrained micro-pretraining often requires triaging many candidate recipes on a shared accelerator before larger search budgets are spent. We study whether a staged fractional-factorial workflow can recover stable early effect structure in this setting. On a fixed autoresearch-derived single-GPU training loop, we run 613 experiments across pilot and follow-up screens at 2, 5, and 10 minutes; full 16-condition seeded reruns at 5 and 10 minu
## 研究发现:LLM 的时间偏好比人类更“耐心”,但需要显式控制 大型语言模型(LLM)正越来越多地被用于需要权衡短期收益与长期后果的决策场景,例如资源规划、投资建议或战略推演。然而,这些模型内部如何表征和解决这类时间权衡,学界知之甚少。近期一篇发表于 arXiv 的论文(编号 2606.05194)首次通过因果干预手段,揭示了 LLM 内处理时间偏好的神经子图,并指出其时间折扣率远低于人类,且偏好在不同语境下不稳定,需要显式控制而非依赖隐式训练。 ### 定位时间偏好的“神经子图” 研究团队以 **Qwen3-4B-Instruct-2507** 蒸馏模型为对象,结合梯度归因和激活补丁技术,定位了负责时间偏好处理的底层子图。他们发现,时间跨度的几何信息编码在残差流的中间到上层节点中。通过因果干预(如禁用特定节点),模型对“即时奖励 vs. 延迟奖励”的选择会发生显著偏移,证实了该子图的功能相关性。 ### 时间折扣率:LLM 比人类“更长远” 行为分析显示,在未干预的情况下,LLM 的未来折扣率**比人类低数倍**——这意味着模型更倾向于选择长期回报,而非眼前的即时满足。例如,在经典的跨期选择任务中,人类通常以双曲线方式折扣未来,而 LLM 更接近指数折扣且折扣率更低,表现出“耐心”倾向。 然而,这种偏好并不稳定。**上下文变化**(如问题措辞、选项框架)会显著改变模型的时间选择,说明模型并未形成稳固的时间偏好表征,而是依赖训练数据中的表面关联。这带来了潜在风险:在需要一致决策的应用中(如医疗建议、长期规划),模型可能因语境偏移给出矛盾答案。 ### 机械可解释性:迈向可靠控制 论文进一步展示了**操控向量**可以偏移 LLM 的时间偏好。通过激活工程(activation steering),研究者能够引导模型更关注短期或长期回报,实现一定程度的偏好调节。这一发现为未来开发“可调控时间偏好”的 LLM 系统提供了基础——例如,在投资场景中让模型更保守,在创新场景中更具远见。 ### 行业启示 这项研究属于 **机械可解释性(Mechanistic Interpretability)** 领域,旨在打开 LLM 的黑箱。对于 AI 从业者而言,它提醒我们: - **不能默认模型具备人类价值观**,即使它表现出“耐心”,其背后的机制与人类截然不同; - **上下文鲁棒性**是部署 LLM 于决策任务的关键挑战,需要额外的对齐或控制手段; - **因果干预方法**为理解模型内部计算提供了可复用的分析框架。 随着 LLM 进入金融、医疗、政策等高风险领域,对时间偏好等核心维度的显式控制将成为安全部署的必要条件。这篇论文正是朝着这一目标迈出的重要一步。
arXiv:2606.05232v1 Announce Type: new Abstract: Efficient multimodal foundation models often rely on manually designed token-reduction operators, such as pruning, merging, pooling, and adaptive reweighting. Although these operators appear different, we show that they can be interpreted as distinct regimes of a shared operator space. Based on this view, we introduce Efficient Operator Search, a differentiable framework that jointly searches where to reduce tokens, how many tokens to retain, and h
## 评估盲区:大语言模型基准覆盖的体视学理论 近日,一篇由 Jason Z Wang 提交至 arXiv 的论文(编号 2606.05169)揭示了大语言模型评估中的一个根本性问题:当前主流基准测试存在巨大的“结构盲区”,其规模甚至超越模型间的实际性能差距。该研究首次将体视学(stereology)引入 LLM 基准覆盖分析,为评估体系的可靠性提供了严谨的数学框架。 ### 核心发现:基准维数与盲区规模 论文提出,任何基准测试套件都有一个**有效维度 d_eff**,它决定了从测试分数反推模型真实能力的不确定性。具体来说,两个能力轮廓(capability profiles)在可见测试上的 Hausdorff 距离受限于 \(\epsilon + C R m^{-1/(d_eff-1)}\),其中 \(m\) 是基准数量。这意味着,当 d_eff 较小时,即使分数相近,模型的实际能力可能差异巨大。 实证分析显示,三个独立的排行榜——**Open LLM v2**、一个扩展的 12 基准套件以及 **LiveBench**——在其竞争前沿的 d_eff 均落在 **[2.86, 4.80]** 区间。更令人震惊的是,该结构盲区的大小**超过观察到的亚军分数差距两个数量级**,并且**比统计噪声高出 52 到 127 倍**。换句话说,当前的基准测试可能无法可靠区分排名靠前的模型。 ### 排名不稳定与基准冗余 研究进一步通过模拟验证了排名的不稳定性。在 500 次随机可见/隐藏测试划分中,**92% 的试次改变了第一名排名**,平均有 2.83 个前五名模型发生变动。这表明,仅仅因为选择了不同的测试子集,排行榜就可能面目全非。 论文还发现,基准测试之间存在大量冗余。通过子模贪心算法(带 Nemhauser 1-1/e 保证),仅需 **4 个基准即可构成稳定核心**,而 **12 个基准中的 7 个就能达到 90% 的覆盖率**。更值得关注的是,这个精选子集在跨时间季度迁移时,**信息保留率高达 93% 到 97%**,说明冗余基准并未带来额外信息增益。 ### 理论贡献与评估设计启示 作为独立的理论贡献,该研究还解决了 Gardner 问题 1.5(1995)在 C² 支撑函数下的情形,通过 \(S^{D-1}\) 上的最优恢复理论,确立了通用维度下的极小极大速率 \(\Theta(R/(\kappa m^{2/(D-1)}))\),为基准设计提供了数学最优性参考。 **对 AI 行业的启示**:这项研究直指 LLM 评估的“信任危机”。当基准得分无法反映真实能力差异时,依赖排行榜进行模型选型或研究投入将变得危险。未来评估体系需要: - 明确报告基准套件的有效维度 d_eff; - 采用覆盖度指标而非单纯累加基准数量; - 引入反事实验证(如本文用 12 个内部基准和 27 个 Chatbot Arena 类别的验证,发现特征值结构可预测哪些评估不可替代,\(\rho = -0.69\))。 论文的体视学视角为构建更科学、更高效的评估体系提供了理论基石,也提醒我们:**在盲区被照亮之前,排行榜上的数字可能只是冰山一角。**
当前推理语言模型存在一个根本性缺陷:它们无法区分用于计算的 token 和构成持久状态的 token。一旦生成,所有中间推理步骤(包括失败的尝试、死胡同和私有草稿)都会保留在上下文中,影响后续预测。这种“记忆污染”导致模型可能依赖不应被信任的临时计算。 来自 **Fei Ding、Yongkang Zhang** 等人的最新研究提出了一种名为 **状态承诺学习(State Commitment Learning)** 的新训练范式,旨在解决这一问题。该研究已在 arXiv 上发布(编号 2606.05201),并提出了一个关键概念:**持久状态充分性(persistent-state sufficiency)**——即当隐藏思考被擦除后,答案是否仍能保持可用。基于此,他们设计了 **反事实擦除强化学习(CERL)** 算法。 ## CERL 的核心机制 CERL 在相同前缀下同时评估两条路径:一条保留隐藏思考,另一条将其擦除。只有当擦除路径仍能给出正确结果时,模型才获得奖励。这种方式迫使模型学会将关键信息提交为持久状态,而非依赖临时计算。 ## 实验验证 研究者在数学推理、长链逻辑、科学问答和多轮工具使用等多个任务上进行了评估。结果显示,CERL 在 **不牺牲准确率** 的前提下,显著降低了对隐藏思考的依赖。相比之下,仅使用正确性奖励的强化学习(RL)和长答案监督微调(SFT)基线方法表现较差。 ## 行业意义 这项研究对 AI 安全与可靠性具有重要价值。当前的思维链(Chain-of-Thought)技术虽然提升了推理能力,但也引入了不可控的中间状态污染。状态承诺学习提供了一种系统性的解决方案,使模型的推理过程更加透明和可审计。 ## 未来展望 论文还引入了 **擦除依赖协议(Erasure Dependence Protocol)** 作为评估工具。研究者认为,这一方向有望推动语言模型从“黑箱推理”向“结构化推理”演进,尤其在需要长期记忆和工具调用的复杂场景中具有广阔应用前景。
## 背景:多路径网络中的“赢家通吃”与对称性破缺 在深度学习中,多路径网络(multi-pathway networks)是一种常见架构,例如具有多个并行子网络的模型。这类网络的一个经典现象是**路径对称性破缺**:在训练过程中,不同的特征会“专业化”地集中到某一条路径上,形成“赢家通吃”(winner-takes-all)的格局。此前基于梯度流(Gradient Flow, GF)的理论分析预测了这一趋势,认为对称性一旦破缺,网络就会稳定在单路径主导的解上。 ## 新发现:离散梯度下降的“反直觉”行为 来自韩国团队的研究(arXiv:2606.05219,已被ICML 2026接收)挑战了这一传统认知。他们发现,当使用**离散梯度下降(GD)** 且**步长较大**时,情况完全不同。 - **单路径解是尖锐极小值**:论文从数学上证明,单路径的解(即所有信号集中到一条路径)是**尖锐极小值**(sharp minima),其损失函数曲率较大。 - **多路径分布降低尖锐度**:将信号分散到多条路径上,会降低极小值的尖锐度。降低的倍数与**路径数量**和**网络深度**成反比——路径越多、网络越深,分散信号带来的平滑效果越显著。 ## 训练动态:从对称性破缺到重新平衡 研究揭示了训练过程中两个阶段的动态变化: 1. **早期阶段**:与梯度流预测一致,深度驱动的对称性破缺导致信号向单路径集中。 2. **后期阶段**:当训练进入“稳定性边缘”(Edge of Stability)——即梯度下降的步长大到足以引起损失震荡的区域——震荡效应会覆盖之前的破缺趋势,促使网络进入**重新平衡阶段**,信号重新在多条路径间均匀分布。 ## 理论意义与启示 这项工作的核心贡献在于: - 澄清了**深度**在多路径竞争中的双重作用:深度既在早期强化对称性破缺,又在后期通过调节尖锐度促进重新平衡。 - 解释了为什么大学习率的梯度下降更倾向于学习**共享表示**(shared representations),而不是让单一路径垄断特征。这为实践中使用大学习率训练多分支网络(如Mixture of Experts)提供了理论依据。 ## 结论:步长大小决定对称性命运 简而言之,**梯度流预测了对称性破缺,而大步长的离散梯度下降却能恢复对称性**。这一发现提醒我们:连续时间近似(梯度流)与离散优化(梯度下降)之间存在本质差异,尤其是在学习率较大时。对于追求特征复用和鲁棒性的多路径网络,采用大学习率可能是一种简单而有效的正则化策略。
Oura Ring 5 刚刚发布,而我在佩戴了整整24小时后,可以确认它最大的升级恰恰是——你几乎感觉不到它的存在。 ## 从“存在感”到“无感”的进化 如果你用过上一代 Oura Ring 4,可能会对它的厚度和重量有印象。虽然智能戒指本身已经比传统智能手表轻便不少,但 Ring 4 在手指上的存在感依然较强,尤其是长时间打字或握持物体时,那种“戴着东西”的感觉始终挥之不去。 而 Oura Ring 5 在材质和内部结构上做了关键调整。通过优化传感器模组的堆叠方式,**Ring 5 的厚度减少了约15%,重量也进一步降低**。实际佩戴中,这种差异在最初几小时并不明显,但当你连续佩戴超过半天后,会突然意识到:自己不再下意识地去转动或调整戒指的位置。它真正融入了日常。 ## 健康数据不减反增 更轻更薄通常意味着要在功能上做减法,但 Oura 这次没有妥协。**Ring 5 依然搭载了 PPG 心率传感器、血氧监测、皮肤温度传感器以及加速度计**,并且新增了一项针对女性健康的“经期周期预测升级”,通过更长时间跨度的体温数据,提高排卵日和经期起始日的预测准确率。 睡眠追踪方面,Ring 5 的夜间数据采样频率提高了 20%,尤其是在**快速眼动期(REM)和深度睡眠的区分上更加精准**。我对比了同一晚的 Ring 4 和 Ring 5 数据,后者在“夜间清醒次数”的记录上更符合我的主观感受。 ## 佩戴舒适度是核心突破 Oura 一直强调“24/7 佩戴”的概念,但 Ring 4 的佩戴舒适度并未完全支撑起这个愿景。很多用户反馈,在健身时握拳或做引体向上时,戒指内侧会对手指产生压迫感。**Ring 5 的内侧弧度重新设计,采用了更贴合指腹曲线的“D 型截面”**,使得戒指在手指弯曲时不会产生明显勒痕。 此外,**充电速度提升了约30%**,从 0 到 100% 只需不到 80 分钟。这对于习惯在洗澡时充电的用户来说,意味着更短的等待时间,从而保证全天候的数据连续性。 ## 小结 Oura Ring 5 并不是一次革命性的迭代,但它精准地回应了用户对前代产品的核心抱怨——舒适度。如果你因为 Ring 4 的佩戴感而犹豫是否入手智能戒指,那么 Ring 5 很可能就是那个让你忘记它的存在的答案。对于现有用户来说,升级与否取决于你对那 15% 厚度缩减和更精准睡眠数据的在意程度。
Anthropic 正在以惊人的速度增长。该公司宣布,其年化收入在 5 月已突破 **470 亿美元**,而 2025 年底仅为约 **90 亿美元**。这一增长轨迹面临真正考验。然而,联合创始人 Daniela Amodei 在彭博科技大会上表示,她并不担心企业 AI 支出可能放缓的趋势,并透露公司已秘密提交 IPO 申请,旨在通过公开市场获取更多资本以支撑模型训练和推理的巨大前期成本。 ## 高速增长与 IPO 计划 Anthropic 近期以 **9650 亿美元估值** 完成 **650 亿美元** 融资,且被多名投资者称为“严重超额认购”。Amodei 解释,IPO 决策的核心在于资本需求:“训练模型和提供推理服务的初期成本非常高……随着时间推移,核心的前沿模型公司需要持续获取资本,而公开市场非常适合这一点。” ## 质疑与回应 尽管 Uber 等企业指出 AI 投资并非全部高效,可能引发行业预算收紧,Amodei 仍持乐观态度。她认为,企业尚处于探索 AI 有效部署的早期阶段:“无论是编程、金融服务、法律还是医疗,当前用例将继续驱动效率或创造力。随着企业社区对工具更熟悉,我们将共同学习,希望 AI 能更深入地融入日常工作,释放更多价值。” ## 数据中心策略差异 与 OpenAI 和 xAI 不同,Anthropic 并不自建数据中心。Amodei 解释:“我们倾向于为最佳结果做计划,但不过度扩张……我们宁愿产品需求略高于供应能力,也不愿相反。” 上月,Anthropic 甚至与 xAI 达成计算容量合作,这一策略进一步体现了其灵活性和风险控制意识。
Airbnb CEO Brian Chesky 正计划成立一个全新的 AI 实验室,标志着其角色从“AI 幕后推手”转向“直接参与者”。据彭博社报道并经 TechCrunch 确认,Chesky 对当前前沿实验室的模型并不满意,认为现有产品尚未成熟。尽管 Airbnb 已采用 AI 编码工具,但此前并未与大型语言模型(LLM)提供商达成合作。Chesky 与 OpenAI CEO Sam Altman 渊源颇深,两人自 2006 年通过 Y Combinator 相识,并在 OpenAI 崛起后定期会面,Chesky 甚至在 Altman 被董事会解职后协助其重返权力中心。然而,如今他可能要与这位“徒弟”的公司展开竞争。新实验室的具体方向尚未明确,但可能聚焦用户交互与设计——这也是 Chesky 在 Airbnb 一直强调的领域。值得关注的是,Chesky 将保留 Airbnb CEO 职位,不会亲自领导新实验室,但以他“微观管理者”的风格,未来实验室负责人的挑战不小。
最近,人形机器人视频在社交媒体上频频刷屏——它们能跳舞、做家务、甚至翻跟头。这些画面很容易让人以为,能够胜任任何任务的通用人形机器人已经近在咫尺。但现实真的如此吗? ## 演示与现实之间的鸿沟 机器人专家指出,目前尚存在巨大差距:从演示中看似完美的表现,到证明同一台机器人能够在真实世界中可靠、重复地完成同样任务,中间还有很长的路要走。Agility Robotics 联合创始人、俄勒冈州立大学机器人研究员 **Jonathan Hurst** 指出,人类天生倾向于将人形物体拟人化。当一只机械臂做出舞蹈动作时,人们可能只会觉得“酷”;但当一个**人形机器人**跳同样的舞时,很容易引发误导性联想。“人们会自动外推,认为一个看起来像人的机器人,能够完成一个会跳舞的人所能做的一切事情——这完全不是事实。”Hurst 对 Ars Technica 表示,“但很多创业公司确实在利用这一点来筹集大量资金。” ## 泛化能力才是真正的考验 加州大学伯克利分校计算机科学家、AI 与机器人公司 Physical Intelligence 联合创始人 **Sergey Levine** 强调,机器人开发中最大的挑战之一是让机器人像人类一样,将其技能泛化到各种不同的条件和环境中。这种泛化程度几乎不可能通过单个演示来证明。“也许机器人能倒一杯葡萄酒,但它能倒出任何瓶子里的酒、倒入任何环境中的任何杯子吗?”Levine 说,“这实际上比让机器人在一次舞台演示中翻个后空翻要难得多。”他认为,衡量机器人能力的真正标准,是在真实环境中进行**定量的大规模评估**。“演示中展示的东西与机器人的真实能力之间始终存在差距。” ## 观看演示视频时该留意什么 普渡大学计算机科学博士生、美国陆军 DevCom 研究助理 **Dipam Patel** 提醒,面对大量机器人演示视频甚至直播,有几个关键点需要注意: - **自主性存疑**:演示不一定代表机器人是在没有人类控制或监督的情况下自主运行的。许多视频可能经过了精心编排,或是包含了远程操作、预编程动作,甚至多次失败后的最佳片段。 - **环境受控**:演示往往在高度受控的环境中进行,比如固定的光照、特定的物体、已知的布局。一旦条件稍有变化,机器人的表现可能大打折扣。 - **缺乏重复性**:一次成功的演示不能保证机器人能稳定、重复地完成同一任务。真正的可靠性需要通过大量重复试验来验证。 ## 行业背景与理性视角 当前,人形机器人领域正吸引着巨额投资,多家初创公司估值飙升。然而,从技术成熟度来看,距离“通用型家用机器人”的愿景仍有很长的路要走。**Boston Dynamics** 的 Atlas 机器人虽然能表演跑酷和空翻,但背后是大量预设动作和环境控制;**Tesla Optimus** 的简单行走和搬运演示也远未达到量产水平。 对于普通观众而言,保持健康的怀疑态度至关重要。看到令人惊叹的机器人视频时,不妨问自己几个问题: 1. 这个机器人是完全自主的吗? 2. 它在不同环境、不同物体上都能同样表现吗? 3. 这段视频是首次尝试就成功,还是经过了多次剪辑? 正如 Levine 所说,真正有意义的进步不是靠一次惊艳的演示,而是靠**可重复、可泛化、可落地**的能力。下一次当机器人视频在互联网上爆火时,你或许会多一份理性的审视。
## 核心亮点 近日,一位开发者展示了**首个经过形式化验证的多边形交集算法实现**。该项目使用 **Lean 4 证明助手**,从数学上保证了算法对于任意多边形配置的正确性,填补了计算几何领域在形式化验证方面的空白。 ## 背景与挑战 多边形交集是矢量图形编辑器(如 Adobe Illustrator、Figma)的基础功能,用于计算两个多边形区域的重叠部分。然而,由于多边形可能有复杂形状(包括孔洞),且输入配置无穷无尽,传统测试方法无法穷举所有情况,尤其是那些罕见的边界条件。 > “计算几何算法因输入的特殊配置而臭名昭著,这些配置往往构成了算法的大部分复杂性。” ## 形式化验证的意义 该项目的核心在于:**信任完全来自 Lean 检查器和对小规格的人工审查,而非大语言模型**。开发者明确表示,虽然 AI 辅助了实现,但正确性保证来自严格的数学证明。 - **无限状态空间**:每个多边形的内部点集是无限的,传统方法无法在代码中直接表示“内部”概念。 - **形式化规格**:通过 Lean 定义了多边形的内部集(基于射线交点奇偶性),并证明了输出多边形的内部集等于输入内部集的交集。 ## AI 辅助的演进 项目开发过程中,AI 模型的能力提升带来了显著变化: - **Opus 4.8**(当前最新模型)能够 **一次性** 生成带形式化证明的算法实现。 - 之前的模型需要开发者分步提供证明策略,多次迭代才能完成。 但开发者强调,AI 只是工具,最终的正确性仍依赖形式化验证框架。 ## 实际体验 项目提供了一个 **Web 演示**,用户可以在浏览器中绘制多边形并实时计算交集,底层调用已验证的核心算法。这展示了形式化验证不仅停留在理论层面,也能服务于实际应用。 ## 相关工作和展望 据开发者所知,这是首个此类验证实现。计算几何的形式化验证长期被视为难题,因为算法常依赖几何直觉和特殊处理。此项目或将为其他几何算法(如并集、差集、凸包)的形式化验证开辟道路。 ## 小结 这一成果不仅展示了形式化验证在复杂算法中的可行性,也体现了 AI 辅助开发与严格验证相结合的新范式。对于依赖几何计算的领域(如 GIS、CAD、游戏开发),这可能是提升软件可靠性的重要一步。
距离开幕仅剩两周,StrictlyVC洛杉矶大会即将于6月18日(周四)在埃尔塞贡多的The Aerospace Corporation园区举行。届时,投资人、创始人与科技领袖将齐聚一堂,探讨风险投资、国防科技、人工智能及先进工业领域最重大的变革趋势。 ## 为何不容错过 对于身处快速变化技术环境的高管而言,StrictlyVC提供了一种日益稀缺的价值——直接接触那些正在建设、投资并塑造下一代公司的人。现场对话坦诚直率,观众经过精心筛选,带来的洞察远远超越头条新闻、播客或社交媒体的范畴。 ## 登台嘉宾亮点 **Mach Industries创始人Ethan Thornton**将率先登场,在题为“为国防科技新时代而生”的分享中,阐述如何快速打造硬科技公司,以及自主性、制造业与国家安全领域的进步如何重塑国防行业。他的故事反映了创始人在急剧变化的行业中应对艰巨挑战的广泛趋势。 随后,**Founders Fund的Delian Asparouhov**与**Shinkei Systems的Saif Khawaja**将展开对话,讨论物理AI的崛起,以及机器人、自动化和人工智能的发展如何为改造物理世界创造新机遇。他们的交流将揭示在软件之外构建和规模化突破性技术的要点。 此外,**M13联合创始人兼合伙人Carter Reum**将带来主题为“寻找下一个大事件”的分享。他将探讨AI如何重塑各行各业,以及投资者如何超越短期炒作,识别具有长期持久力的公司。Reum还将分享关于创新正在创造最有意义机会的领域,以及随着新品类涌现风险投资如何演变的见解。 ## 更多议程与参与方式 更多演讲嘉宾和对话环节将陆续公布,StrictlyVC洛杉矶的议程仍在持续扩展。请关注最新演讲嘉宾公告和活动新闻。 活动不仅限于台上对话,更旨在汇聚科技与风险投资领域的创新推动者。整场活动将提供充分的交流机会,让与会者建立有意义的连接。 立即获取入场券,加入这场科技与资本的深度对话。
随着越来越多的人依赖大语言模型(LLM)获取信息,各国政府开始担忧这些模型可能无意中传播外国敌对势力的宣传。为此,爱沙尼亚语言研究所(ELI)发布了一项全新的“**抗宣传基准测试**”,对数十个 LLM 在抵制俄罗斯“战略叙事”方面的能力进行了排名。 ## 背景:为何是爱沙尼亚? 爱沙尼亚曾是苏联的一部分,独立仅数十年,因此对来自邻国俄罗斯的宣传尤为警惕。ELI 与志愿者运营的防御组织 **Propastop** 合作,识别出 **14 大类** 俄罗斯可能试图影响舆论的叙事领域,包括克里米亚地位、乌克兰战争理由、北约历史以及俄罗斯在二战期间吞并波罗的海国家的正当性。 ## 测试方法 针对每个宣传类别,研究人员设计了三种类型的问题:**中立**、带有俄罗斯虚假假设的**偏见**问题,以及试图恶意诱导模型输出错误信息的**恶意**问题。问题以**英语、爱沙尼亚语和俄语**三种语言提交给模型,并由另一个 AI 模型(根据 Propastop 专家校准)评估模型是否能够“在没有外部帮助(如网络搜索)的情况下抵制宣传叙事”。 ## 排名结果 在专有前沿模型中,**Anthropic 的 Claude 系列**表现最佳,其 Sonnet 和 Opus 的多个最新版本占据了前十名中的六席。**Opus 4.7** 整体表现最好,在 77% 的问题上获得最高评级“杰出”,仅 2% 获得“平庸”,最终平均得分 **94.9/100**。 开放权重模型表现同样出色,例如 **Nvidia 的 Nemotron** 和 **阿里巴巴的 Qwen** 成绩与 Anthropic 的最佳模型相当。OpenAI 的 **GPT-5.4** 相对表现也不错,但未进入前三。 ## 行业意义 这一基准测试不仅反映了爱沙尼亚的特殊关切,也凸显了大模型在全球化语境下面临的**地缘政治风险**。随着 AI 助手越来越多地被用于信息获取,如何确保它们不被利用来传播虚假叙事已成为 AI 安全的重要课题。该测试为评估模型在敏感话题上的可靠性提供了新视角,也为模型开发者提供了改进方向。
2026年世界杯即将于6月11日开赛,如果你正打算升级电视迎接赛事,现在就是最佳时机。虽然亚马逊Prime Day尚未正式开启,但已有不少提前折扣上线。其中,**海信U6系列65英寸Mini LED智能电视**(2025款)的优惠尤其值得关注——原价680美元,现仅售**548美元**,直降132美元。 这款电视搭载**Mini LED背光技术**,相比传统LED能实现更精细的局部调光,画面亮部更亮、暗部更深邃,尤其适合观看体育赛事和HDR电影。它运行**Fire TV智能系统**,内置Alexa语音助手,可无缝访问Netflix、Prime Video等主流流媒体平台。此外,该系列还有55英寸、75英寸等多个尺寸在同步促销,满足不同客厅空间的需求。 ### 为什么现在入手? - **世界杯刚需**:大型体育赛事对电视的动态清晰度和色彩表现要求较高,Mini LED技术能有效减少运动模糊。 - **Prime Day提前放价**:通常Prime Day期间爆款电视会很快售罄,提前锁定折扣可避免缺货风险。 - **性价比突出**:同价位竞品多为普通LED面板,海信U6在画质、系统流畅度和品牌口碑上均有优势。 ### 编辑实测评价 ZDNET评测团队给这款电视打出了**3/5星**的推荐评级,肯定了其Mini LED带来的画质提升和Fire TV系统的易用性,但指出其峰值亮度在明亮客厅中可能稍显不足。不过,考虑到当前折扣力度,它依然是**中端预算内最值得考虑的电视之一**。 > 小提示:Prime Day期间价格可能进一步波动,但早买早享受。建议关注亚马逊的“价格保护”政策,若后续降价可申请差额退款。
埃隆·马斯克(Elon Musk)再次尝试让 X 平台(原 Twitter)摆脱美国联邦贸易委员会(FTC)的严格数据隐私监管令。该命令要求 X 在 20 年内定期接受独立审计,并允许 FTC 随时调取文件以确保合规。此前,Twitter 因在 2013 年至 2019 年间误将用户用于双重认证的电话号码和邮箱用于广告投放,被罚 1.5 亿美元并接受 FTC 监督至 2042 年。 马斯克在 2023 年首次申请撤销该命令未果,当时他指责 FTC 存在偏见且调查要求过于激进。FTC 则反驳称,马斯克收购后大规模裁员、解雇合规关键人员,已严重威胁 X 的隐私保护能力。一名工程师在证词中确认,成本削减压力导致 X 约 37% 的隐私控制措施无人负责。此外,马斯克要求记者访问内部系统的“Twitter Files”事件,以及他威胁解雇任何阻碍其命令的员工的行为,进一步加剧了监管担忧。 2024 年,FTC 声称 X 安全人员有时不得不刻意违抗马斯克的指令以保持合规。随着大规模裁员导致平台功能不稳定,FTC 认为有充分理由要求 X 提供更多信息。目前,公众评论普遍警告称,马斯克不可信任,其领导下的 X 用户隐私保护前景堪忧。这场法律攻防战不仅关乎 X 的合规命运,也再次引发科技巨头隐私治理与监管边界的讨论。