AI 资讯

每日聚合最新人工智能动态

761

你的 Windows PC 还需要第三方杀毒软件吗？

新上线

今年早些时候，微软悄然删除了一篇认为 Windows 11 内置的 Microsoft Defender 对大多数用户已经足够的博文。但独立证据表明，他们说得没错。 ## 微软的“自我辩护”与突然撤文 2026年4月，微软在 Windows 学习中心发布了一篇看似平淡无奇的文章，称“对于许多 Windows 11 用户而言，Microsoft Defender 已能覆盖日常风险，无需额外软件”。然而，这篇引发多家科技媒体转载的文章，在约一个月后神秘消失，原链接被重定向至学习中心首页。微软至今未公开解释撤文原因。外界猜测，第三方安全厂商的抗议和反垄断投诉威胁可能是主因——毕竟，据 IDC 报告，全球端点安全市场年收入高达 **216 亿美元**，这块蛋糕不容小觑。 ## 独立数据：Defender 真的够用吗？尽管微软撤文，但独立测试机构的结果却站在了微软一边。根据 AV-TEST 等权威机构的评测，**Microsoft Defender 的威胁拦截率高达 99%**，与主流第三方杀毒软件不相上下。同时，安全分析显示，绝大多数感染事件源于用户行为（如随意下载不明文件、点击钓鱼链接），而非杀毒软件本身的能力缺陷。 ## 用户行为才是关键短板对普通用户而言，Windows 11 自带的 Defender 结合系统防火墙、SmartScreen 筛选器以及 Edge 浏览器的安全功能，已构成一道坚固防线。但若用户习惯不良——比如禁用 UAC、随意运行破解软件、忽略系统更新——再强的杀毒软件也难以招架。换句话说，**安装十款杀毒软件，不如养成一个安全习惯**。 ## 谁还需要第三方杀毒？当然，这并非全盘否定第三方软件的价值。对于企业环境，尤其是需要集中管理、合规审计和高级威胁检测的场景，专业的端点保护平台（EDR）仍是必需品。而对于个人用户，如果你经常处理敏感数据、访问高风险网站，或对隐私有极致要求，第三方杀毒提供的附加功能（如 VPN、密码管理器、暗网监控）仍有吸引力。 ## 结论：因人而异，但不必焦虑微软撤文的举动或许反映了商业博弈的微妙，但技术事实并未改变：**对绝大多数普通 Windows 用户而言，Microsoft Defender 已足够安全**。与其纠结于选择哪款杀毒软件，不如把精力放在保持系统更新、谨慎下载和备份重要数据上。毕竟，最薄弱的环节往往不是软件，而是使用软件的人。

ZDNet AI20天前原文

762

黑客借助 Claude 发现漏洞，可免费生成美国几乎所有音乐节的门票

新上线

安全研究员 Ian Carroll 借助 Anthropic 的 AI 工具 **Claude Opus 4.7**，成功发现并利用美国票务平台 **Front Gate Tickets** 的一个高危漏洞，理论上可以为自己或任何人免费生成任何音乐节的门票，包括价值 4000 美元的超级 VIP 后台通行证。Front Gate 负责 Lollapalooza、Bonnaroo、South by Southwest 等几乎所有美国大型音乐节的票务系统。Carroll 并未实际滥用该权限，而是向 Front Gate 报告了漏洞。Front Gate 在 24 小时内修复了该问题，并声明没有证据表明漏洞被利用或客户信息泄露。该事件凸显了 AI 工具在发现互联网安全漏洞方面的巨大潜力。

WIRED AI20天前原文

763

NativeProse：让你的英语从“正确”到“地道”

新上线

英语写作中，语法正确只是第一步，真正难的是写出母语者自然表达的感觉。**NativeProse** 正是为此而生——它不止纠正错误，更专注于优化表达，让语言“听起来像本地人写的”。 ### 核心亮点：从“对”到“好”的跨越 - **地道性优先**：不同于传统语法检查工具（如 Grammarly）侧重纠错，NativeProse 的核心是**改写**。它分析句子结构、词汇搭配和语感，提供更自然、更符合英语母语习惯的版本。 - **场景化优化**：针对不同写作场景（如邮件、论文、社交媒体）调整语气和风格，避免生硬的“翻译腔”。 - **简洁高效**：无需复杂操作，粘贴文本即可获得改写建议，适合非母语写作者快速提升输出质量。 ### 为什么值得关注？在 AI 写作辅助工具泛滥的今天，大多数产品仍停留在“检测-修正”的层面。NativeProse 的差异化在于**语义理解与风格迁移**——它更像一个懂语言文化的编辑，而非冰冷的校对机器。对于需要频繁使用英语进行商务沟通、学术写作或内容创作的用户，这能显著降低“词不达意”的尴尬。 ### 适用场景 - **职场沟通**：让英文邮件、Slack 消息更得体，避免中式英语的误解。 - **学术写作**：润色论文或报告，提升可读性与专业感。 - **社交媒体**：让推文、帖子更符合母语者的幽默或语气。 ### 一点思考 AI 语言工具正从“正确性”向“自然度”进化。NativeProse 的定位恰好踩中了非母语用户的核心痛点——我们需要的不仅是一个语法老师，更是一个语言伙伴。不过，产品目前仍处于早期阶段，改写质量对复杂文本的稳定性有待验证。但方向对了，细节可以慢慢打磨。

Product Hunt5520天前原文

764

加速度计衍生的数字生物标志物：面向心脏代谢风险的人群代表性表格基准与不确定性量化

新上线

## 研究背景结构化表格数据在临床医学中占据主导地位，但现有基准往往无法反映真实世界的特性，如复杂调查抽样、人口统计过采样和子组公平性。一项最新研究提出了**NHANES加速度计心脏代谢基准**，旨在填补这一空白。该基准基于2003-2006年NHANES数据，包含**1,381名成年人**的髋部加速度计数据、空腹实验室生物标志物、膳食摄入和人体测量学指标。 ## 核心方法研究评估了三种表格学习方法——**岭回归、XGBoost和基础模型TabPFN v2**——用于从活动表型和生活方式协变量预测糖化血红蛋白（HbA1c）、空腹甘油三酯和C反应蛋白（CRP）。结果如下： - **TabPFN v2整体表现最佳**：HbA1c的R²为0.156，CRP的R²为0.383。 - 甘油三酯（R² < 0.05）基本不可预测，这与已知的遗传主导性一致。 ## 不确定性量化与公平性研究进一步应用**分裂共形预测**生成无分布的90%预测区间，并评估了性别和种族/民族子组的覆盖公平性。主要发现： - CRP和HbA1c的边缘覆盖率接近90%目标，但甘油三酯低于目标。 - 子组层面出现**局部覆盖不足**（例如，墨西哥裔美国参与者的HbA1c），揭示了边缘保证与临床公平所需条件覆盖之间的差距。 ## 意义与展望这项研究为数字生物标志物在心脏代谢风险预测中的实际应用提供了重要基准。它不仅强调了**基础模型在表格数据中的潜力**，还指出了公平性评估的必要性——尤其是在多样化人群中。代码和数据已公开，可于[此处](https://example.com)获取（具体链接请参考原文）。 ## 小结该基准是首个整合加速度计数据、复杂抽样设计和不确定性量化的人口代表性临床表格基准。未来工作可进一步探索模型校准与子组公平性改进，推动数字生物标志物从研究走向临床落地。

HuggingFace20天前原文

765

从搜索到合成：MetaFlow 如何训练 LLM 成为零样本工作流生成器

新上线

大语言模型（LLM）虽能解决各类任务，但其实例特定的解决方案往往缺乏结构一致性，难以可靠部署。工作流（Workflow）通过在任务层面编码可复用的算法模式，提供了鲁棒性、可解释性和可复用性。然而，手动设计工作流需要大量专业知识。近期一篇 arXiv 论文提出 **MetaFlow**，将工作流生成视为元学习问题：给定一个任务和算子集合，模型学习如何组合解决策略。训练分为两阶段：监督微调（基于合成工作流数据）和带可验证奖励的强化学习（RLVR），通过跨实例的执行反馈提升端到端成功率。实验表明，MetaFlow 在问答、代码生成和数学推理等基准上，单次推理即可达到领域内任务的 SOTA 水平，并在领域外任务和算子集上展现出卓越的零样本泛化能力。 ## 核心挑战：LLM 的“结构性缺失” 当前 LLM 的推理模式多为“一次性生成”——针对每个问题实例输出一个答案。这种方式缺乏对任务底层模式的抽象，导致： - **鲁棒性不足**：输入微变，输出可能大幅波动； - **可调试性差**：中间过程不透明，难以定位错误； - **复用困难**：同类问题需重复设计解法。工作流（Workflow）通过将任务分解为可复用的算子序列（如“先检索再合成”），有效解决了上述问题。但传统工作流依赖人工设计，门槛高、成本大。 ## MetaFlow：元学习 + 强化学习 MetaFlow 的核心思路是将工作流生成建模为**元学习问题**： 1. **两阶段训练**： - 第一阶段：在合成的工作流数据上进行监督微调，让模型初步学会算子组合； - 第二阶段：使用带可验证奖励的强化学习（RLVR），利用执行反馈在任务内多个实例间进行优化，提升端到端成功率。 2. **零样本泛化**：训练后的模型不仅能处理已见任务，还能泛化到未见任务和全新算子集。 ## 实验结果：单次推理即达 SOTA 在问答、代码生成和数学推理三个基准上，MetaFlow 仅用单次推理，就在领域内任务上达到与 SOTA 基线相当的性能。更值得关注的是其**零样本泛化能力**：在领域外任务和算子集上，MetaFlow 仍能生成有效工作流，显著优于现有方法。 ## 意义与展望 MetaFlow 为 LLM 的可靠部署提供了新范式——从“实例级搜索”转向“任务级合成”。未来，这类方法有望降低工作流的设计门槛，推动 LLM 在自动化、软件工程等领域的实际应用。论文还指出，RLVR 阶段的执行反馈对泛化至关重要，这为后续研究提供了方向。

HuggingFace20天前原文

766

为什么少步文本潜在空间生成会失败，而图像潜在空间却能成功？尖锐类别读出时的“非承诺”问题

新上线

## 研究背景：图像与文本的生成差异近年来，确定性少步生成（如一致性模型、整流流）在图像潜在空间（如 Stable Diffusion 的 latent）上取得了显著成功，仅需几步即可生成高质量图像。然而，当将同样的方法应用于连续文本潜在空间时，生成结果却会崩溃为无意义的乱码。这一现象引发了研究者的好奇：**为何图像能成功，而文本却不行？** ## 核心发现：几何原因而非训练不足来自 arXiv 的最新论文（arXiv:2606.30705）给出了一个令人信服的解释：**问题出在几何结构上，而非训练或模型规模不足**。作者 Zhongyao Wang 证明，一个平滑且受正则性限制的确定性映射，无法在尖锐的类别读出之前解决离散分支选择问题。换句话说，**少步失败的根本原因在于解码器的“尖锐度”，而非传输精度**。 ## 关键概念：DABI 与 CCI 为了量化这一现象，论文提出了两个诊断指标： - **DABI（读出尖锐度）**：衡量解码器对边界附近扰动的放大程度。 - **CCI（类别承诺度）**：衡量生成过程对离散类别的承诺程度。实验表明，在四个独立构建的连续文本解码器上，**DABI 值高达 5×10² 到 >10⁵**，意味着解码器将边界对齐的扰动放大了数百到数万倍；而图像解码器的 DABI 值约为 1，几乎无放大。这直接导致文本生成中，微小扰动即可导致 token 翻转，产生混乱输出。 ## 理论证明：几何本质论文在理论上（Theorem 3）严格证明：在真实文本自编码器的重叠区域中，后验均值终末步会以与决策边界周围 O(s(t)) 管状区域内的潜在质量成比例的速率翻转 token。这意味着 **生成失败是由解码器的尖锐边界几何决定的，而非生成过程的精度**。 ## 两种逃逸机制尽管确定性连续模型存在固有局限，论文也指出了两种可以绕过这一限制的机制： 1. **类别承诺（Categorical Commitment）**：自回归解码器虽然读出更尖锐，但通过逐步承诺类别实现了成功。 2. **随机重注入（Stochastic Re-injection）**：在同一个模型上，确定性 ODE（K=4 步）的困惑度（PPL）高达 294，而 SDE（随机微分方程）仅需 50，显著优于确定性方法。 ## 维度相图与权衡进一步，论文在理想化分离区域推导了匹配的尖锐传输定律，并给出了**维度相图**： - 要分离 M 个模式所需的确定性刚度随潜在维度变化：当维度 Ω(log M) 时，刚度增长为 Θ(√(log M))；在固定维度下则增长为 M^(1/n)。 - 深度为 B 的层级结构可将每步峰值降低 √B 倍。这揭示了一个**精度-深度-刚度权衡**：在确定性连续模型类中，代价是不可约的；而两种逃逸机制（自回归和随机性）则跳出了该类。 ## 行业意义这项研究对于 AI 生成领域具有重要启示： - 对于文本生成，**单纯增加模型规模或训练步数可能无法解决少步生成问题**，必须从架构或算法层面引入随机性或离散承诺。 - 对于多模态模型，理解图像与文本潜在空间的几何差异，有助于设计更通用的少步生成框架。未来，或许我们能看到结合确定性快速推理与随机性纠错的混合方法，在文本生成中实现类似图像的少步高质量输出。

HuggingFace20天前原文

767

层级全局注意力（HGA）：无需重训即可扩展长上下文Transformer，单卡RTX 5090运行64K token

新上线

长上下文Transformer模型在部署时面临严峻的内存瓶颈：随着序列长度增加，密集注意力机制所需的键值（K/V）缓存呈二次增长，即使是高端GPU也难以处理超过32K token的上下文。近日，一篇arXiv论文提出了一种名为**层级全局注意力（Hierarchical Global Attention, HGA）** 的即插即用方案，可在不修改预训练权重、不引入校准参数、无需重训的情况下，将现有模型的长上下文能力提升至64K token甚至更远。 ## 核心思路：层级路由，精确定位 HGA的核心创新在于**两步层级路由**机制。首先，利用紧凑的**RoPE感知摘要**（RoPE-aware summaries）快速检索出与当前查询相关的**块（chunks）**；然后，在这些块中进一步筛选出最相关的**组（groups）**，最后才对选中的token执行精确的逐token注意力计算。这种分层设计大幅减少了需要从外部存储（如主机RAM或NVMe SSD）传输到GPU显存的token数量。传统方法中，GPU显存需要容纳整个上下文的所有K/V缓存；而HGA仅将**路由后的工作集（routed working set）** 加载到显存中，其余历史K/V则保存在主机内存或NVMe存储中。因此，GPU显存消耗主要取决于模型权重和工作集大小，而非总上下文长度。 ## 性能与精度：稀疏3%，损失仅0.01-0.02 nats 论文在**Qwen3-30B-A3B-Instruct-2507-FP8**模型上进行了验证，使用单张**RTX 5090（32GB显存）** 即可在64K token上下文中直接运行。实验结果显示： - 在4K至64K token的所有测试长度下，HGA的输出分布与密集注意力之间的**KL散度仅为0.01-0.02 nats**，说明近似误差极小。 - 同时，HGA的**稀疏度仅约3%**，即仅需检索3%的token即可达到接近全注意力的效果。论文作者指出，剩余的质量差距很可能主要来自长上下文位置编码（如RoPE的局限性），而非路由算法本身。这意味着HGA为长上下文Transformer的实用化提供了一条低成本的路径。 ## 行业意义：降低长上下文部署门槛当前，长上下文模型（如GPT-4 128K、Claude 200K）通常需要大量算力和定制化硬件。HGA的出现，使得在消费级GPU上运行数十万token上下文成为可能。其**零重训、零校准**的特性，让现有预训练模型可以直接受益，无需额外的训练成本。此外，HGA兼容**RAM和NVMe存储**，意味着可以通过廉价的主机内存或SSD来扩展上下文长度，而无需升级GPU显存。这对于需要处理超长文档、代码库或对话历史的实际应用场景具有重要价值。 ## 未来展望尽管HGA在64K token上表现优异，但论文尚未探索更长的上下文（如128K或256K）以及不同模型架构的通用性。此外，路由机制本身的计算开销和延迟优化也有待进一步研究。不过，HGA为稀疏注意力领域提供了一种简洁而有效的设计思路，有望成为长上下文Transformer部署的标准组件之一。

HuggingFace20天前原文

768

ReactionAtlas：机器学习从头探索化学反应网络

新上线

## 从种子分子到数万反应：机器学习如何重塑化学发现化学反应网络——由极小值、过渡态（TS）及其连接路径构成的图——是化学的“自然语言”，从催化、燃烧到生命起源，无不依赖对反应路径的完整理解。然而，为特定化学体系构建这样的网络长期以来几乎不可能：传统方法如密度泛函理论（DFT）虽准确，但计算速度极慢，且需要用户预先指定反应物和产物，难以大规模、自动化地探索未知反应空间。 ### ReactionAtlas：无规则、无预设的自动探索最新发表于 arXiv 的论文《ReactionAtlas: Ab origine exploration of chemical reaction networks with machine learning》提出了一种名为 **ReactionAtlas** 的框架，首次实现了**从少量种子分子出发，无需人工规则，自动构建完整化学反应网络**。其核心流程是： 1. **生成候选反应**：利用机器学习生成模型，从动力学采样的候选化合物中提出可能的反应路径。 2. **验证过渡态**：通过经 DFT 训练的**机器学习力场（MLFF）** 快速筛选出有效的过渡态。 3. **迭代扩展**：将产物作为新种子，重复上述过程，实现网络的自动扩张。 ### 前生命化学的里程碑式映射研究团队以 **8 种前生命化学种子**（CH₂O、H₂O、OH⁻、H₃O⁺、CO₂、H₂CO₃、HCO₃⁻、H）为起点，ReactionAtlas 在无人干预下发现了 **约 47,000 个反应**，涉及 **约 12,000 种化合物**，覆盖了从简单分子到 C₄H₈O₄ 的碳水化合物化学，并包含完整的电荷与立体化学信息。验证结果显示，MLFF 预测的过渡态结构在 **85% 的情况下与高精度 PBE0 参考值的 RMSD 偏差在 0.5 Å 以内**，且可轻松提升至 PBE0 精度，兼顾了规模与准确性。 ### 重新审视生命起源的关键路径这一网络尤其为研究 **甲醛循环（formose cycle）**——与化学起源生命密切相关的经典反应路径——提供了全新视角。ReactionAtlas 不仅重现了已知的甲醛循环路径，还发现了**多条替代反应通道**，暗示早期地球化学可能拥有比想象中更丰富的反应多样性。 ### 意义与展望 ReactionAtlas 的突破在于将机器学习力场从“单点预测”提升到“网络级自动探索”的高度。它无需专家预设反应规则，也不依赖于繁琐的输入构造，而是让数据驱动模型自主发现化学空间。这一方法有望应用于催化机理研究、药物代谢路径预测、甚至地外化学模拟等领域。当然，目前网络仍限于小分子碳水化合物体系，且 MLFF 的泛化能力需进一步验证。但作为“从头构建”反应网络的首次规模化实践，ReactionAtlas 为计算化学开辟了一条全新的道路——让机器学习成为化学发现的“自动探险家”。 > 论文链接：[arXiv:2606.30778](https://arxiv.org/abs/2606.30778)

HuggingFace20天前原文

769

多源数据联合发现偏微分方程：竞争优化框架MCO-PDE

新上线

## 从单数据集到多源数据：方程发现的瓶颈与突破在科学机器学习领域，**从观测数据中自动发现控制方程**是实现可解释性AI的关键一步。然而，现有数据驱动方法大多局限于单一数据集，当观测受限时（如空间采样稀疏或边界条件不完整），其性能往往大打折扣。现实中，同一物理系统常有多组数据集可用，它们仅因初始条件或边界配置不同而有所区别。 ## MCO-PDE：竞争优化框架的核心设计针对上述问题，来自北京大学等机构的研究团队提出了 **MCO-PDE**（Multi-source Competitive Optimization for PDE discovery）框架，旨在从多源数据中联合发现共享的偏微分方程。该框架包含三个关键模块： 1. **独立神经代理训练**：为每个数据源单独训练一个神经网络，作为该数据源动态行为的代理模型。 2. **软竞争加权机制**：动态评估每个数据源的“可信度”，并为全局共识系数的聚合分配权重。这种软竞争方式使得低质量或信息量少的数据源自动被降权，而高质量数据源主导方程发现。 3. **遗传算法结构搜索**：在系数空间和函数形式空间中进行全局优化，同时识别控制方程的**函数形式**和**参数**。 ## 实验验证：小样本、复杂几何与真实数据研究团队在多个案例上验证了MCO-PDE的有效性： - **小样本恢复**：仅需每个数据源50个观测点，即可高精度恢复经典方程（如Burgers方程、波动方程等）。 - **二维/三维不规则区域**：框架天然支持不规则边界和异质系数，无需特殊处理。 - **真实波槽实验数据**：成功从实际物理实验中提取出有意义的波浪传播方程，展示了从真实噪声数据中自动发现物理定律的潜力。 ## 意义与展望 MCO-PDE的提出标志着**数据驱动科学发现**从单数据集向多源异构数据融合的重要跨越。其竞争优化策略不仅提高了方程发现的鲁棒性，还为处理现实世界中数据质量参差不齐的问题提供了新思路。未来，该框架有望推广至更复杂的耦合系统、高维问题，甚至与主动学习结合，进一步降低数据需求。 > 论文链接：arXiv:2606.30699

HuggingFace20天前原文

770

过程侧车：一种可撤销学习状态的新方法

新上线

## 摘要语言模型通常分阶段进行适配：先学习公共技能，再注入私有记忆，最后进行安全微调以学会拒绝输出与记忆实体相关的内容。然而，在安全阶段之后撤销记忆并非简单的减法问题——后续的安全优化器会改变记忆方向。为此，研究者提出了一种名为**过程侧车（Process Sidecars）**的方法，通过一个双系数编辑族实现记忆撤销。 ## 核心思想过程侧车方法定义了一个编辑族： $$ \hat{\theta}(\lambda,\gamma)=\theta_{\mathrm{AMS}}-\lambda\Delta_{\mathrm{M}}-\gamma\hat{R}_{\mathrm{S}\leftarrow\mathrm{M}} $$ 其中 $\hat{R}_{\mathrm{S}\leftarrow\mathrm{M}}=\hat{J}_{\mathrm{S},\varepsilon}(\Delta_{\mathrm{M}})-\Delta_{\mathrm{M}}$，而 $\hat{J}_{\mathrm{S},\varepsilon}$ 是通过 AdamW 安全训练过程的中心割线近似得到的。该方法只需计算一个额外的安全轨迹，即可实现更高精度的记忆撤销。 ## 理论证明论文证明了两个关键结论： - **精确侧车**：若使用真实的传输方向 $R_{\mathrm{S}\leftarrow\mathrm{M}}$ 而非割线估计，当 $(\lambda,\gamma)=(1,1)$ 时，可以恢复反事实的安全-only 模型 $\theta_{\mathrm{AS}}$，且误差达到二阶精度。证明将 AdamW 视为参数、一阶矩、二阶矩的增广状态映射。 - **必要性**：当未来安全训练会弯曲记忆方向时，任何标量任务算术编辑都会留下一阶反事实误差，而过程侧车编辑具有二阶精度。 ## 实验结果在三个模型上，验证集选择的二维编辑在所有试验中均优于朴素任务算术；在与 $\gamma=\lambda$ 过程-JVP 子族的比较中，二维编辑在成对试验中也全面胜出。 ## 行业背景随着大语言模型在商业和开源领域的广泛应用，**模型安全与隐私**成为焦点。许多模型需要先注入特定知识（如用户数据），再通过安全微调防止泄露。但传统任务算术（如模型合并）在撤销记忆时效果不佳，因为安全微调改变了参数空间。过程侧车提供了一种**可撤销学习状态**的精确方法，有望用于模型遗忘、版权移除等场景。 ## 总结过程侧车是一种新颖的模型编辑技术，通过双系数编辑族和过程信息（安全训练轨迹）实现了比任务算术更优的撤销效果。该工作为模型安全与记忆管理提供了理论支撑和实用工具。

HuggingFace20天前原文

771

可预测的GRPO：训练动力学的闭合形式模型

新上线

## 从经验拟合到第一性原理：GRPO训练动力学的可预测模型 Group Relative Policy Optimization（GRPO）已成为提升大语言模型推理能力的关键技术。然而，其训练动力学长期依赖于经验描述：奖励曲线被拟合为低参数函数，常数缺乏物理意义，超参数选择也主要依靠试错。这一现状随着arXiv上的一篇新论文《Predictable GRPO: A Closed-Form Model of Training Dynamics》而有望改变。 ### 核心突破：闭合形式的动力学模型研究团队从**第一性原理**出发，开发了一个**降阶模型**，以闭合形式描述了GRPO的训练动力学。该模型不仅统一了现有的经验规律，还引入了新的预测能力。关键创新包括： - **统一经验规律**：将广泛使用的**单指数饱和律**视为该模型在过阻尼极限下的特例，从而把拟合中的平台值、时间尺度和规模指数重新解释为势能函数的固定点、逆刚度和曲率缩放指数。同时，通过保留惯性项，模型还能捕捉单指数无法表示的**慢启动阶段**。 - **可验证的预测**：与经验模型依赖拟合参数不同，新模型的预测直接关联到可独立测量的量。例如： - **组大小不变性**：确定性轨迹与组大小无关，且稳定波动与组大小成反比（$1/G$）。 - **稳定性阈值**：刷新间隔存在一个尖锐的稳定性阈值。 - **相变现象**：动力学从过阻尼向振荡的转变。 - **诊断能力**：模型能够区分仅凭奖励曲线难以辨别的失败模式，如**奖励黑客**、**优势退化**、**策略集中**和**动态不稳定性**。 ### 实验验证：高精度拟合与跨场景泛化研究者在**三个不同模型**和**两种组大小**上进行了验证。结果表明： - **拟合精度高**：闭合形式轨迹对训练奖励的拟合 $R^2 \geq 0.91$。 - **组大小不变性成立**：不仅在奖励曲线上成立，还能泛化到八个数学基准测试的**分布外转移**场景。此外，在一个软最大-老虎机（softmax-bandit）的简化环境中，模型精确复现了**过阻尼到振荡的转变**，并将刷新间隔的稳定性阈值定位到独立测量的刚度值。深度网络的实际演示留待未来工作。 ### 意义与展望这项研究为GRPO的训练动力学提供了**理论基础**，有望将超参数选择从试错转变为基于模型预测的科学过程。对于AI从业者而言，这意味着更可控的训练、更快的调试以及更深入的机制理解。尽管从简化环境到实际深度网络仍需验证，但该工作已为可预测的强化学习训练迈出了重要一步。

HuggingFace20天前原文

772

“互联网之父”文特·瑟夫正式退休，结束谷歌20年任职

新上线

被誉为“互联网之父”的 **文特·瑟夫（Vinton Cerf）** 将于下周从谷歌首席互联网传道者的职位上退休，为这段跨越20年的科技巨头生涯画上句号。瑟夫与罗伯特·卡恩共同设计了TCP/IP协议，奠定了现代互联网的基础。在由Laude Institute主办的Open Frontier大会上，加州大学伯克利分校教授戴夫·帕特森通过视频连线宣布了这一消息：“文特在谷歌工作了超过20年，他将在下周退休，我们应该为这段辉煌的职业生涯鼓掌。”现场响起了热烈的掌声。谷歌尚未对置评请求作出回应。现年83岁的瑟夫因在20世纪70年代开发并推广TCP/IP协议而闻名，该协议是不同计算机网络相互通信的基本规则集。他因此获得了众多荣誉，包括多个荣誉博士学位、总统自由勋章以及图灵奖。自2005年起，瑟夫担任谷歌副总裁兼首席互联网传道者。瑟夫在大会上与多位知名计算机科学家同台讨论，包括戴夫·帕特森（RISC架构联合开发者）、弗朗索瓦·肖莱（Keras深度学习库创建者）、约翰·奥斯特豪特（Tcl编程语言发明者）以及马泰·扎哈里亚（Databricks联合创始人）。他们分享了构建持久开源系统的经验，这些经验在当前创始人押注开放基础设施以支持下一代AI产品的背景下尤为重要。 ### 对AI时代的深刻洞察会议讨论的焦点之一是：先进模型集中在少数资源充足的实验室中，这与瑟夫协议所代表的开放、去中心化的互联网世界形成鲜明对比。然而，瑟夫预测，AI代理（能够自主行动并与其他软件协调的软件）的兴起将推动科技公司回归标准化协议。他表示：“来自多个来源的多个AI代理互相交互的代理模型，将迫使系统具备可组合性，并需要互操作性和标准化。” 这一观点为当前AI行业日益封闭的趋势提供了另一种可能性——即通过协议和标准实现开放协作，而非依赖少数巨头的封闭生态。 ### 开放互联网的遗产瑟夫的退休标志着一个时代的结束，但他所倡导的开放、去中心化理念在AI时代依然具有深远影响。随着AI代理和开放基础设施的发展，标准化协议可能再次成为技术演进的关键驱动力。正如瑟夫所言，互联网的“传道”已经完成，而未来的挑战在于如何让AI世界同样遵循可互操作的规则。

TechCrunch20天前原文

773

安全地向客户发布前沿模型：AWS的平衡之道

新上线

AWS近日宣布，Anthropic的Claude Fable 5模型将于明天起在Amazon Bedrock上重新上线，并配备了更强的防护措施以防止滥用。这一消息凸显了前沿模型发布中安全与可用性之间的关键平衡。 ## 安全基石上的AI服务自AWS成立20多年来，安全一直是其核心投资领域。Amazon Bedrock等AI服务正是建立在这一安全基础之上，秉承相同的理念。Bedrock为客户提供世界级的性能、安全性和隐私保护，以及最广泛的模型选择。去年推出的Bedrock Mantle在模型权重保护方面实现了行业领先的隐私与安全保障。 ## 快速交付与责任并重客户希望在新模型发布后尽快获得访问权限，Bedrock满足了这一需求，同时提供企业级功能。AWS强调，在发布模型时，不仅考虑对客户的责任，还兼顾对互联网和整个社会的影响。最新一代前沿模型（如Anthropic的Claude Mythos）拥有强大的新能力，尤其在网络安全领域。 ## Project Glasswing：防御者的机会通过Project Glasswing，AWS亲身体验了这些模型的能力，并渴望将Mythos级模型交到防御者手中。防御者可以利用这些模型使关键系统更加安全，但同时必须确保不给攻击者提供显著的超前可见性和能力，而不给企业、政府和学术机构保护自身资产的机会。 ## 平衡挑战与防护措施实现这一平衡是广泛模型发布的关键挑战。AWS与Anthropic及其他行业合作伙伴在Project Glasswing中密切合作，为这类新模型完善防护措施。各方一致认为，防止攻击者获得深度漏洞研究能力是这些防护措施的最重要目标。 ## 展望未来 AWS认为，在安全且隐私保护的环境中，让所有客户都能使用这些先进模型的能力，对于确保他们获得诸多好处而不制造安全风险至关重要。这是一个激动人心的AI时代，新能力几乎每天都在交付，而安全释放这些能力是行业共同的责任。

AWS ML20天前原文

774

特朗普政府解除对Anthropic的Mythos和Fable模型的出口限制

新上线

美国已解除对Anthropic出口其Mythos和Fable模型的许可要求，此前这一要求实质上切断了公众对这些被认为是迄今最先进AI模型的访问。Anthropic表示将于7月1日（周三）开始恢复模型访问。6月12日，美国政府将这些产品列入出口受限技术清单，意味着未经特别批准不得向外国公民提供。遵守该规定在规模上不可行，迫使Anthropic完全终止了模型的公开访问。经过数周谈判，商务部长霍华德·卢特尼克表示，Anthropic已同意主动检测并解决与模型相关的安全风险；与美国政府合作制定Mythos、Fable及未来模型的发布协议和标准；并向美国政府通报任何恶意活动。Anthropic此前已公开承诺自愿执行大部分措施，这早于出口规则的存在。网络安全专家最初对此限制持怀疑态度，认为这更像是一种施压手段，而非安全修复，旨在惩罚Anthropic高管对政府及总统政治对手可能使用该技术的公开批评。Mythos最初于4月向选定的组织开放，以缓解对其识别和利用软件漏洞能力的担忧，而名为Fable的版本于6月向公众发布，并附带了额外的安全护栏。然而，随着亚洲AI公司开始发布接近Mythos能力的模型——如Fugu和Tulongfeng——美国政府面临压力，需放松对Anthropic的限制，以确保美国AI能在全球竞争。上周，卢特尼克批准Mythos向白宫选定的客户发布。OpenAI的最新模型也发布给了特朗普团队批准的组织，而非公众。特朗普政府在AI政策制定上的反复无常导致整个行业的公司对未来模型发布的监管缺乏明确性。

TechCrunch20天前原文

775

Wayve 启动 8500 万美元员工要约收购，估值达 85 亿美元

新上线

英国自动驾驶初创公司 **Wayve** 近日宣布启动一项价值 **8500 万美元** 的员工要约收购，公司估值达到 **85 亿美元**。此举旨在为员工提供流动性，同时作为吸引和留住顶尖人才的战略工具。 Wayve 专注于基于端到端深度学习的自动驾驶技术，其方法不依赖传统的高清地图和规则驱动系统，而是通过大量驾驶数据训练神经网络，使车辆具备类似人类的驾驶能力。这一技术路线在行业内独树一帜，也吸引了包括微软、维珍等知名投资者的支持。员工要约收购在 AI 初创公司中正成为趋势，尤其是在市场尚未公开上市的情况下，通过允许员工出售部分股份，公司能够在不稀释现有股东权益的前提下，为员工提供变现机会，从而增强薪酬竞争力。对于 Wayve 而言，85 亿美元的估值反映了市场对其技术前景的认可，尤其是在自动驾驶领域竞争日益激烈的背景下。本次要约收购的规模相对公司整体估值较小，但信号意义重大。它表明 Wayve 的财务状况稳健，且管理层有意通过激励手段巩固团队稳定性。此外，这也可能为未来的 IPO 或新一轮融资铺平道路。从行业视角看，Wayve 的举措与 OpenAI、Anthropic 等 AI 明星公司的做法类似，后者此前也通过员工股份回购计划来维持人才优势。在 AI 人才争夺白热化的当下，灵活的股权管理策略正成为初创公司差异化竞争的关键。总体来看，Wayve 的这次要约收购既是内部治理的优化，也是一次对外信心展示。随着自动驾驶行业从概念验证走向商业化落地，如何平衡技术突破与商业可持续性，将是 Wayve 及其同行需要持续面对的课题。

TechCrunch20天前原文

776

Anthropic 的 Claude Fable 5 获准回归，此前因美国政府出口管制被长期搁置

新上线

经过数周与美国特朗普政府的谈判，Anthropic 终于获准重新上线其消费者级模型 **Claude Fable 5**。该公司在 X 平台发文称，计划于周三开始面向全球 Claude 平台用户恢复访问，并将在不久后重新启用 AWS、Google Cloud 和 Microsoft Foundry 上的访问权限，但未给出具体时间表。 Anthropic 在声明中表示：“我们已收到通知，商务部已解除对 Claude Fable 5 和 Mythos 5 的出口管制。我们将于明天开始恢复访问，并尽快分享后续更新。感谢用户的耐心，也感谢所有参与模型重新部署的人员。”该公司还于周二晚间发布博文，详细说明了事件经过、修订后的安全措施、正在推进的 AI 行业新流程，以及未来与政府共享信息的方式和即将推出的模型的预发布测试计划。今年 6 月初，在特朗普政府发出周五晚最后通牒后，Anthropic 暂时下线了 **Fable 5**——这款面向消费者的模型与 Anthropic 的 Mythos 5 基于相同底层技术，但拥有更多安全防护措施。由于担心技术可能被越狱利用，政府发布了出口管制指令，禁止任何外国公民（包括企业客户的非美籍成员，甚至 Anthropic 的许多员工）使用 Mythos 5 或 Fable 5。此次争议的导火索是亚马逊研究人员发现并报告的越狱问题，该问题在很大程度上导致了政府的强硬立场。此次事件反映了 AI 行业与政府监管之间的紧张关系，尤其是在模型安全与国家安全的交叉点上。Anthropic 通过加强安全措施和与政府合作，最终促成了模型的解禁，但未来类似争议可能仍会重演。

The Verge21天前原文

777

特朗普政府解禁Anthropic最强AI模型出口限制

新上线

特朗普政府近日解除了对Anthropic公司两款最先进AI模型——**Mythos 5**和**Fable 5**的出口管制。这一决定是在Anthropic与美国商务部达成协议后作出的，商务部长霍华德·卢特尼克在致Anthropic联合创始人汤姆·布朗的信中正式宣布了这一消息。此前，美国政府曾以国家安全为由，限制这些模型向外国公民或实体出口，仅允许少数经批准的美国公司和政府机构使用。Anthropic最初认为政府的担忧过度，强调完全杜绝“越狱”攻击是不可能的。但近几周，公司改变了策略，积极与商务部及白宫合作，承诺加强安全防护，包括主动检测和应对模型的安全风险，并与美国政府共同制定未来模型的发布标准。值得注意的是，Anthropic CEO达里奥·阿莫迪在近期会谈中被替换，由更受官员欢迎的布朗出面沟通，这被视为公司调整沟通方式的信号。最终，政府认为Anthropic在安全措施上的承诺足够可靠，因此解除了限制。这一事件反映了AI监管与产业发展的微妙平衡。一方面，美国政府持续关注先进AI模型的潜在风险，尤其是网络安全领域；另一方面，过度限制可能压制创新并削弱美国在AI领域的竞争优势。Anthropic的妥协表明，企业需要在技术理想与现实监管之间找到折中点。此次解禁不仅为Anthropic的商业拓展扫清了障碍，也可能影响其他AI公司与政府的互动模式。未来，模型的安全性与可出口性将成为AI行业的核心议题之一。

WIRED AI21天前原文

778

OpenClaw 正式登陆 Android 和 iOS，AI 智能体走进手机

新上线

曾于今年早些时候爆红网络的免费开源 AI 智能体项目 **OpenClaw**，如今终于正式推出移动端应用。开发者于周二在 X 平台宣布，OpenClaw 现已可在 **iOS 和 Android** 两大平台下载。用户可通过手机与 OpenClaw Gateway 配对——这是一个路由层，负责将请求连接至 AI 智能体及其调用的工具与技能。这意味着，你可以在口袋里运行 OpenClaw 智能体，只要设置得当，它们或许能帮你高效完成各种任务。从编程到膳食规划，用户已将 OpenClaw 应用于多种场景，不过也有部分反馈称效果未达预期。OpenClaw 的走红与其早期推出的 MoltBook 密切相关——一个号称完全由智能体运营的社交平台。今年 2 月，OpenClaw 的创造者 **Peter Steinberger** 宣布加入 OpenAI。随后有研究者指出，MoltBook 的“智能体”实为人类冒充，这场营销秀虽损害了部分可信度，却成功为 OpenClaw 造势，也预示了智能体时代的到来。如今，AI 智能体已嵌入整个 AI 生态，并日益渗透至各类设备，手机自然成为下一个关键阵地。OpenClaw 的移动化标志着这一趋势的进一步加速。

TechCrunch21天前原文

779

前DeepMind三人组：从扑克AI到量化对冲基金，身价已超5亿美元

新上线

三位前DeepMind研究员创办的布拉格AI实验室EquiLibre Technologies，凭借曾击败人类扑克高手的强化学习技术，如今在量化交易领域大放异彩。该公司在由Creandum领投的A轮融资后估值超过5亿美元，其算法已用于标普500和纳斯达克的每日数十亿美元交易，并保持自上线以来月收益从未为负的记录。 ## 从牌桌到交易桌：强化学习的跨界魔力 EquiLibre的CEO Martin Schmid指出，扑克和华尔街的共同点在于两者都适合**强化学习**——一种通过奖励激励模型自我学习的训练方法。在交易中，评分标准极其简单：模型赚了多少钱？这种清晰的反馈机制让AI能快速优化策略。 ## 零亏损月的完美记录与量化公司Tower Research Capital合作，EquiLibre的算法自2025年登陆加密货币市场，随后扩展到传统股票市场。据称，这些AI代理自上线以来**每月均实现正收益**，没有任何一个月亏损。这种稳定性在波动剧烈的金融市场中尤为引人注目。 ## 实验室优先，金融次之尽管EquiLibre的技术直接应用于盈利，但三位创始人——CEO Schmid、CTO Rudolf Kadlec和CSO Matej Moravcik——均无金融背景。Schmid强调：“我们首先是一个实验室，不是金融公司。我这么做不是因为对让市场更有效感兴趣，而是因为我们热爱建造前所未有的东西。”这种研究驱动的心态吸引了Creandum，其副总裁Cameron Sellers表示，金融市场是地球上最大的潜在市场之一，而EquiLibre的AI潜力巨大。 ## 行业背景：DeepMind校友的AI创业潮 EquiLibre并非孤例。前DeepMind研究员创办的AI公司正成为VC追捧的对象，例如近期融资11亿美元的Ineffable Intelligence。EquiLibre的成功进一步证明了强化学习在现实世界中的价值，尤其是在高回报的量化交易领域。 ## 小结从扑克AI到量化对冲基金，EquiLibre用技术证明了强化学习的跨界能力。其5亿美元估值和零亏损记录，不仅展示了AI在金融领域的落地潜力，也延续了DeepMind校友在AI创业中的影响力。

TechCrunch21天前原文

780

新攻击揭示AI浏览器为何是个坏主意：只需告诉大模型“2+2=5”就能让其执行违规指令

新上线

一项最新的安全研究再次为“AI浏览器”敲响警钟——研究人员发现，通过一种简单到令人不安的方式，就能让集成在浏览器中的大语言模型（LLM）无视安全限制，执行本应被禁止的指令。攻击者只需在网页中嵌入一句类似“2+2=5”的谬误前提，模型便会因逻辑混乱而“破防”，顺从地生成恶意内容或执行危险操作。 ## 攻击原理：逻辑谬误绕过安全护栏 AI浏览器将LLM直接嵌入用户浏览环境，使其能“阅读”网页并代为执行操作，如填写表单、总结内容或处理支付。然而，这项功能也打开了新的攻击面。安全团队发现，当模型在上下文中遇到一个明显错误但被呈现为“事实”的陈述时（例如“2+2=5”），其内部推理机制会优先接受这个错误前提，从而瓦解基于常识和伦理规则的安全对齐。这种攻击方式被称为“**前提注入**”（Premise Injection），它不需要复杂的编码或社会工程，只需攻击者控制一个网页（比如通过恶意广告或钓鱼网站），在其中插入看似无害的谬误语句。模型在“阅读”该页面后，会将其作为对话上下文的一部分，后续用户发出的任何指令（包括“帮我编写恶意软件”或“窃取你的密码”）都可能被错误地执行。 ## 为什么AI浏览器风险更高？与普通聊天机器人不同，AI浏览器拥有**更高的权限**：它能访问用户当前浏览的页面内容、表单字段，甚至可能调用浏览器API进行登录、支付等操作。一旦模型被“误导”，攻击者不仅能让它输出有害文本，还能诱导它**代表用户执行实际动作**，例如自动转账、修改账户设置或泄露私密信息。此前已有研究指出，LLM在面对矛盾信息时容易“迷失方向”，但本次攻击的特殊之处在于：它利用了模型对**显式上下文**的过度信任。即使模型在训练中知道“2+2=4”，但当网页中明确写着“2+2=5”时，它可能认为这是用户提供的“真实”环境，从而放弃自身知识。这种“上下文优先于训练”的漏洞，在AI浏览器这种长期保持上下文的应用中尤其危险。 ## 行业影响与防御方向目前，主流浏览器厂商（如微软Edge、Google Chrome）已开始试验AI助手功能，但尚未完全开放这类高风险权限。然而，一些初创公司推出的“AI原生浏览器”则直接赋予了模型读写网页的完整能力。此次攻击证明，**简单的逻辑矛盾就足以瓦解安全护栏**，而护栏本身正是AI安全的核心防线。防御措施方面，研究者建议： - 严格限制模型对网页内容的信任等级，区分“用户输入”和“网页输出”； - 在模型推理前对上下文进行**逻辑一致性检查**，识别明显谬误； - 为敏感操作（如金融交易）增加二次确认机制，而非完全依赖模型判断。 ## 小结 “2+2=5”式攻击虽然简单，却直指大模型安全对齐的深层缺陷：**模型更倾向于相信上下文，而非自身训练知识**。在AI浏览器这类高权限场景中，这一缺陷可能被放大为实际的安全灾难。对于普通用户而言，在浏览器权限安全方案成熟之前，谨慎使用AI浏览器功能，或许是最稳妥的选择。

Ars Technica21天前原文