当前推理语言模型存在一个根本性缺陷:它们无法区分用于计算的 token 和构成持久状态的 token。一旦生成,所有中间推理步骤(包括失败的尝试、死胡同和私有草稿)都会保留在上下文中,影响后续预测。这种“记忆污染”导致模型可能依赖不应被信任的临时计算。 来自 **Fei Ding、Yongkang Zhang** 等人的最新研究提出了一种名为 **状态承诺学习(State Commitment Learning)** 的新训练范式,旨在解决这一问题。该研究已在 arXiv 上发布(编号 2606.05201),并提出了一个关键概念:**持久状态充分性(persistent-state sufficiency)**——即当隐藏思考被擦除后,答案是否仍能保持可用。基于此,他们设计了 **反事实擦除强化学习(CERL)** 算法。 ## CERL 的核心机制 CERL 在相同前缀下同时评估两条路径:一条保留隐藏思考,另一条将其擦除。只有当擦除路径仍能给出正确结果时,模型才获得奖励。这种方式迫使模型学会将关键信息提交为持久状态,而非依赖临时计算。 ## 实验验证 研究者在数学推理、长链逻辑、科学问答和多轮工具使用等多个任务上进行了评估。结果显示,CERL 在 **不牺牲准确率** 的前提下,显著降低了对隐藏思考的依赖。相比之下,仅使用正确性奖励的强化学习(RL)和长答案监督微调(SFT)基线方法表现较差。 ## 行业意义 这项研究对 AI 安全与可靠性具有重要价值。当前的思维链(Chain-of-Thought)技术虽然提升了推理能力,但也引入了不可控的中间状态污染。状态承诺学习提供了一种系统性的解决方案,使模型的推理过程更加透明和可审计。 ## 未来展望 论文还引入了 **擦除依赖协议(Erasure Dependence Protocol)** 作为评估工具。研究者认为,这一方向有望推动语言模型从“黑箱推理”向“结构化推理”演进,尤其在需要长期记忆和工具调用的复杂场景中具有广阔应用前景。
## 背景:多路径网络中的“赢家通吃”与对称性破缺 在深度学习中,多路径网络(multi-pathway networks)是一种常见架构,例如具有多个并行子网络的模型。这类网络的一个经典现象是**路径对称性破缺**:在训练过程中,不同的特征会“专业化”地集中到某一条路径上,形成“赢家通吃”(winner-takes-all)的格局。此前基于梯度流(Gradient Flow, GF)的理论分析预测了这一趋势,认为对称性一旦破缺,网络就会稳定在单路径主导的解上。 ## 新发现:离散梯度下降的“反直觉”行为 来自韩国团队的研究(arXiv:2606.05219,已被ICML 2026接收)挑战了这一传统认知。他们发现,当使用**离散梯度下降(GD)** 且**步长较大**时,情况完全不同。 - **单路径解是尖锐极小值**:论文从数学上证明,单路径的解(即所有信号集中到一条路径)是**尖锐极小值**(sharp minima),其损失函数曲率较大。 - **多路径分布降低尖锐度**:将信号分散到多条路径上,会降低极小值的尖锐度。降低的倍数与**路径数量**和**网络深度**成反比——路径越多、网络越深,分散信号带来的平滑效果越显著。 ## 训练动态:从对称性破缺到重新平衡 研究揭示了训练过程中两个阶段的动态变化: 1. **早期阶段**:与梯度流预测一致,深度驱动的对称性破缺导致信号向单路径集中。 2. **后期阶段**:当训练进入“稳定性边缘”(Edge of Stability)——即梯度下降的步长大到足以引起损失震荡的区域——震荡效应会覆盖之前的破缺趋势,促使网络进入**重新平衡阶段**,信号重新在多条路径间均匀分布。 ## 理论意义与启示 这项工作的核心贡献在于: - 澄清了**深度**在多路径竞争中的双重作用:深度既在早期强化对称性破缺,又在后期通过调节尖锐度促进重新平衡。 - 解释了为什么大学习率的梯度下降更倾向于学习**共享表示**(shared representations),而不是让单一路径垄断特征。这为实践中使用大学习率训练多分支网络(如Mixture of Experts)提供了理论依据。 ## 结论:步长大小决定对称性命运 简而言之,**梯度流预测了对称性破缺,而大步长的离散梯度下降却能恢复对称性**。这一发现提醒我们:连续时间近似(梯度流)与离散优化(梯度下降)之间存在本质差异,尤其是在学习率较大时。对于追求特征复用和鲁棒性的多路径网络,采用大学习率可能是一种简单而有效的正则化策略。
Oura Ring 5 刚刚发布,而我在佩戴了整整24小时后,可以确认它最大的升级恰恰是——你几乎感觉不到它的存在。 ## 从“存在感”到“无感”的进化 如果你用过上一代 Oura Ring 4,可能会对它的厚度和重量有印象。虽然智能戒指本身已经比传统智能手表轻便不少,但 Ring 4 在手指上的存在感依然较强,尤其是长时间打字或握持物体时,那种“戴着东西”的感觉始终挥之不去。 而 Oura Ring 5 在材质和内部结构上做了关键调整。通过优化传感器模组的堆叠方式,**Ring 5 的厚度减少了约15%,重量也进一步降低**。实际佩戴中,这种差异在最初几小时并不明显,但当你连续佩戴超过半天后,会突然意识到:自己不再下意识地去转动或调整戒指的位置。它真正融入了日常。 ## 健康数据不减反增 更轻更薄通常意味着要在功能上做减法,但 Oura 这次没有妥协。**Ring 5 依然搭载了 PPG 心率传感器、血氧监测、皮肤温度传感器以及加速度计**,并且新增了一项针对女性健康的“经期周期预测升级”,通过更长时间跨度的体温数据,提高排卵日和经期起始日的预测准确率。 睡眠追踪方面,Ring 5 的夜间数据采样频率提高了 20%,尤其是在**快速眼动期(REM)和深度睡眠的区分上更加精准**。我对比了同一晚的 Ring 4 和 Ring 5 数据,后者在“夜间清醒次数”的记录上更符合我的主观感受。 ## 佩戴舒适度是核心突破 Oura 一直强调“24/7 佩戴”的概念,但 Ring 4 的佩戴舒适度并未完全支撑起这个愿景。很多用户反馈,在健身时握拳或做引体向上时,戒指内侧会对手指产生压迫感。**Ring 5 的内侧弧度重新设计,采用了更贴合指腹曲线的“D 型截面”**,使得戒指在手指弯曲时不会产生明显勒痕。 此外,**充电速度提升了约30%**,从 0 到 100% 只需不到 80 分钟。这对于习惯在洗澡时充电的用户来说,意味着更短的等待时间,从而保证全天候的数据连续性。 ## 小结 Oura Ring 5 并不是一次革命性的迭代,但它精准地回应了用户对前代产品的核心抱怨——舒适度。如果你因为 Ring 4 的佩戴感而犹豫是否入手智能戒指,那么 Ring 5 很可能就是那个让你忘记它的存在的答案。对于现有用户来说,升级与否取决于你对那 15% 厚度缩减和更精准睡眠数据的在意程度。
Anthropic 正在以惊人的速度增长。该公司宣布,其年化收入在 5 月已突破 **470 亿美元**,而 2025 年底仅为约 **90 亿美元**。这一增长轨迹面临真正考验。然而,联合创始人 Daniela Amodei 在彭博科技大会上表示,她并不担心企业 AI 支出可能放缓的趋势,并透露公司已秘密提交 IPO 申请,旨在通过公开市场获取更多资本以支撑模型训练和推理的巨大前期成本。 ## 高速增长与 IPO 计划 Anthropic 近期以 **9650 亿美元估值** 完成 **650 亿美元** 融资,且被多名投资者称为“严重超额认购”。Amodei 解释,IPO 决策的核心在于资本需求:“训练模型和提供推理服务的初期成本非常高……随着时间推移,核心的前沿模型公司需要持续获取资本,而公开市场非常适合这一点。” ## 质疑与回应 尽管 Uber 等企业指出 AI 投资并非全部高效,可能引发行业预算收紧,Amodei 仍持乐观态度。她认为,企业尚处于探索 AI 有效部署的早期阶段:“无论是编程、金融服务、法律还是医疗,当前用例将继续驱动效率或创造力。随着企业社区对工具更熟悉,我们将共同学习,希望 AI 能更深入地融入日常工作,释放更多价值。” ## 数据中心策略差异 与 OpenAI 和 xAI 不同,Anthropic 并不自建数据中心。Amodei 解释:“我们倾向于为最佳结果做计划,但不过度扩张……我们宁愿产品需求略高于供应能力,也不愿相反。” 上月,Anthropic 甚至与 xAI 达成计算容量合作,这一策略进一步体现了其灵活性和风险控制意识。
Airbnb CEO Brian Chesky 正计划成立一个全新的 AI 实验室,标志着其角色从“AI 幕后推手”转向“直接参与者”。据彭博社报道并经 TechCrunch 确认,Chesky 对当前前沿实验室的模型并不满意,认为现有产品尚未成熟。尽管 Airbnb 已采用 AI 编码工具,但此前并未与大型语言模型(LLM)提供商达成合作。Chesky 与 OpenAI CEO Sam Altman 渊源颇深,两人自 2006 年通过 Y Combinator 相识,并在 OpenAI 崛起后定期会面,Chesky 甚至在 Altman 被董事会解职后协助其重返权力中心。然而,如今他可能要与这位“徒弟”的公司展开竞争。新实验室的具体方向尚未明确,但可能聚焦用户交互与设计——这也是 Chesky 在 Airbnb 一直强调的领域。值得关注的是,Chesky 将保留 Airbnb CEO 职位,不会亲自领导新实验室,但以他“微观管理者”的风格,未来实验室负责人的挑战不小。
最近,人形机器人视频在社交媒体上频频刷屏——它们能跳舞、做家务、甚至翻跟头。这些画面很容易让人以为,能够胜任任何任务的通用人形机器人已经近在咫尺。但现实真的如此吗? ## 演示与现实之间的鸿沟 机器人专家指出,目前尚存在巨大差距:从演示中看似完美的表现,到证明同一台机器人能够在真实世界中可靠、重复地完成同样任务,中间还有很长的路要走。Agility Robotics 联合创始人、俄勒冈州立大学机器人研究员 **Jonathan Hurst** 指出,人类天生倾向于将人形物体拟人化。当一只机械臂做出舞蹈动作时,人们可能只会觉得“酷”;但当一个**人形机器人**跳同样的舞时,很容易引发误导性联想。“人们会自动外推,认为一个看起来像人的机器人,能够完成一个会跳舞的人所能做的一切事情——这完全不是事实。”Hurst 对 Ars Technica 表示,“但很多创业公司确实在利用这一点来筹集大量资金。” ## 泛化能力才是真正的考验 加州大学伯克利分校计算机科学家、AI 与机器人公司 Physical Intelligence 联合创始人 **Sergey Levine** 强调,机器人开发中最大的挑战之一是让机器人像人类一样,将其技能泛化到各种不同的条件和环境中。这种泛化程度几乎不可能通过单个演示来证明。“也许机器人能倒一杯葡萄酒,但它能倒出任何瓶子里的酒、倒入任何环境中的任何杯子吗?”Levine 说,“这实际上比让机器人在一次舞台演示中翻个后空翻要难得多。”他认为,衡量机器人能力的真正标准,是在真实环境中进行**定量的大规模评估**。“演示中展示的东西与机器人的真实能力之间始终存在差距。” ## 观看演示视频时该留意什么 普渡大学计算机科学博士生、美国陆军 DevCom 研究助理 **Dipam Patel** 提醒,面对大量机器人演示视频甚至直播,有几个关键点需要注意: - **自主性存疑**:演示不一定代表机器人是在没有人类控制或监督的情况下自主运行的。许多视频可能经过了精心编排,或是包含了远程操作、预编程动作,甚至多次失败后的最佳片段。 - **环境受控**:演示往往在高度受控的环境中进行,比如固定的光照、特定的物体、已知的布局。一旦条件稍有变化,机器人的表现可能大打折扣。 - **缺乏重复性**:一次成功的演示不能保证机器人能稳定、重复地完成同一任务。真正的可靠性需要通过大量重复试验来验证。 ## 行业背景与理性视角 当前,人形机器人领域正吸引着巨额投资,多家初创公司估值飙升。然而,从技术成熟度来看,距离“通用型家用机器人”的愿景仍有很长的路要走。**Boston Dynamics** 的 Atlas 机器人虽然能表演跑酷和空翻,但背后是大量预设动作和环境控制;**Tesla Optimus** 的简单行走和搬运演示也远未达到量产水平。 对于普通观众而言,保持健康的怀疑态度至关重要。看到令人惊叹的机器人视频时,不妨问自己几个问题: 1. 这个机器人是完全自主的吗? 2. 它在不同环境、不同物体上都能同样表现吗? 3. 这段视频是首次尝试就成功,还是经过了多次剪辑? 正如 Levine 所说,真正有意义的进步不是靠一次惊艳的演示,而是靠**可重复、可泛化、可落地**的能力。下一次当机器人视频在互联网上爆火时,你或许会多一份理性的审视。
## 核心亮点 近日,一位开发者展示了**首个经过形式化验证的多边形交集算法实现**。该项目使用 **Lean 4 证明助手**,从数学上保证了算法对于任意多边形配置的正确性,填补了计算几何领域在形式化验证方面的空白。 ## 背景与挑战 多边形交集是矢量图形编辑器(如 Adobe Illustrator、Figma)的基础功能,用于计算两个多边形区域的重叠部分。然而,由于多边形可能有复杂形状(包括孔洞),且输入配置无穷无尽,传统测试方法无法穷举所有情况,尤其是那些罕见的边界条件。 > “计算几何算法因输入的特殊配置而臭名昭著,这些配置往往构成了算法的大部分复杂性。” ## 形式化验证的意义 该项目的核心在于:**信任完全来自 Lean 检查器和对小规格的人工审查,而非大语言模型**。开发者明确表示,虽然 AI 辅助了实现,但正确性保证来自严格的数学证明。 - **无限状态空间**:每个多边形的内部点集是无限的,传统方法无法在代码中直接表示“内部”概念。 - **形式化规格**:通过 Lean 定义了多边形的内部集(基于射线交点奇偶性),并证明了输出多边形的内部集等于输入内部集的交集。 ## AI 辅助的演进 项目开发过程中,AI 模型的能力提升带来了显著变化: - **Opus 4.8**(当前最新模型)能够 **一次性** 生成带形式化证明的算法实现。 - 之前的模型需要开发者分步提供证明策略,多次迭代才能完成。 但开发者强调,AI 只是工具,最终的正确性仍依赖形式化验证框架。 ## 实际体验 项目提供了一个 **Web 演示**,用户可以在浏览器中绘制多边形并实时计算交集,底层调用已验证的核心算法。这展示了形式化验证不仅停留在理论层面,也能服务于实际应用。 ## 相关工作和展望 据开发者所知,这是首个此类验证实现。计算几何的形式化验证长期被视为难题,因为算法常依赖几何直觉和特殊处理。此项目或将为其他几何算法(如并集、差集、凸包)的形式化验证开辟道路。 ## 小结 这一成果不仅展示了形式化验证在复杂算法中的可行性,也体现了 AI 辅助开发与严格验证相结合的新范式。对于依赖几何计算的领域(如 GIS、CAD、游戏开发),这可能是提升软件可靠性的重要一步。
距离开幕仅剩两周,StrictlyVC洛杉矶大会即将于6月18日(周四)在埃尔塞贡多的The Aerospace Corporation园区举行。届时,投资人、创始人与科技领袖将齐聚一堂,探讨风险投资、国防科技、人工智能及先进工业领域最重大的变革趋势。 ## 为何不容错过 对于身处快速变化技术环境的高管而言,StrictlyVC提供了一种日益稀缺的价值——直接接触那些正在建设、投资并塑造下一代公司的人。现场对话坦诚直率,观众经过精心筛选,带来的洞察远远超越头条新闻、播客或社交媒体的范畴。 ## 登台嘉宾亮点 **Mach Industries创始人Ethan Thornton**将率先登场,在题为“为国防科技新时代而生”的分享中,阐述如何快速打造硬科技公司,以及自主性、制造业与国家安全领域的进步如何重塑国防行业。他的故事反映了创始人在急剧变化的行业中应对艰巨挑战的广泛趋势。 随后,**Founders Fund的Delian Asparouhov**与**Shinkei Systems的Saif Khawaja**将展开对话,讨论物理AI的崛起,以及机器人、自动化和人工智能的发展如何为改造物理世界创造新机遇。他们的交流将揭示在软件之外构建和规模化突破性技术的要点。 此外,**M13联合创始人兼合伙人Carter Reum**将带来主题为“寻找下一个大事件”的分享。他将探讨AI如何重塑各行各业,以及投资者如何超越短期炒作,识别具有长期持久力的公司。Reum还将分享关于创新正在创造最有意义机会的领域,以及随着新品类涌现风险投资如何演变的见解。 ## 更多议程与参与方式 更多演讲嘉宾和对话环节将陆续公布,StrictlyVC洛杉矶的议程仍在持续扩展。请关注最新演讲嘉宾公告和活动新闻。 活动不仅限于台上对话,更旨在汇聚科技与风险投资领域的创新推动者。整场活动将提供充分的交流机会,让与会者建立有意义的连接。 立即获取入场券,加入这场科技与资本的深度对话。
随着越来越多的人依赖大语言模型(LLM)获取信息,各国政府开始担忧这些模型可能无意中传播外国敌对势力的宣传。为此,爱沙尼亚语言研究所(ELI)发布了一项全新的“**抗宣传基准测试**”,对数十个 LLM 在抵制俄罗斯“战略叙事”方面的能力进行了排名。 ## 背景:为何是爱沙尼亚? 爱沙尼亚曾是苏联的一部分,独立仅数十年,因此对来自邻国俄罗斯的宣传尤为警惕。ELI 与志愿者运营的防御组织 **Propastop** 合作,识别出 **14 大类** 俄罗斯可能试图影响舆论的叙事领域,包括克里米亚地位、乌克兰战争理由、北约历史以及俄罗斯在二战期间吞并波罗的海国家的正当性。 ## 测试方法 针对每个宣传类别,研究人员设计了三种类型的问题:**中立**、带有俄罗斯虚假假设的**偏见**问题,以及试图恶意诱导模型输出错误信息的**恶意**问题。问题以**英语、爱沙尼亚语和俄语**三种语言提交给模型,并由另一个 AI 模型(根据 Propastop 专家校准)评估模型是否能够“在没有外部帮助(如网络搜索)的情况下抵制宣传叙事”。 ## 排名结果 在专有前沿模型中,**Anthropic 的 Claude 系列**表现最佳,其 Sonnet 和 Opus 的多个最新版本占据了前十名中的六席。**Opus 4.7** 整体表现最好,在 77% 的问题上获得最高评级“杰出”,仅 2% 获得“平庸”,最终平均得分 **94.9/100**。 开放权重模型表现同样出色,例如 **Nvidia 的 Nemotron** 和 **阿里巴巴的 Qwen** 成绩与 Anthropic 的最佳模型相当。OpenAI 的 **GPT-5.4** 相对表现也不错,但未进入前三。 ## 行业意义 这一基准测试不仅反映了爱沙尼亚的特殊关切,也凸显了大模型在全球化语境下面临的**地缘政治风险**。随着 AI 助手越来越多地被用于信息获取,如何确保它们不被利用来传播虚假叙事已成为 AI 安全的重要课题。该测试为评估模型在敏感话题上的可靠性提供了新视角,也为模型开发者提供了改进方向。
2026年世界杯即将于6月11日开赛,如果你正打算升级电视迎接赛事,现在就是最佳时机。虽然亚马逊Prime Day尚未正式开启,但已有不少提前折扣上线。其中,**海信U6系列65英寸Mini LED智能电视**(2025款)的优惠尤其值得关注——原价680美元,现仅售**548美元**,直降132美元。 这款电视搭载**Mini LED背光技术**,相比传统LED能实现更精细的局部调光,画面亮部更亮、暗部更深邃,尤其适合观看体育赛事和HDR电影。它运行**Fire TV智能系统**,内置Alexa语音助手,可无缝访问Netflix、Prime Video等主流流媒体平台。此外,该系列还有55英寸、75英寸等多个尺寸在同步促销,满足不同客厅空间的需求。 ### 为什么现在入手? - **世界杯刚需**:大型体育赛事对电视的动态清晰度和色彩表现要求较高,Mini LED技术能有效减少运动模糊。 - **Prime Day提前放价**:通常Prime Day期间爆款电视会很快售罄,提前锁定折扣可避免缺货风险。 - **性价比突出**:同价位竞品多为普通LED面板,海信U6在画质、系统流畅度和品牌口碑上均有优势。 ### 编辑实测评价 ZDNET评测团队给这款电视打出了**3/5星**的推荐评级,肯定了其Mini LED带来的画质提升和Fire TV系统的易用性,但指出其峰值亮度在明亮客厅中可能稍显不足。不过,考虑到当前折扣力度,它依然是**中端预算内最值得考虑的电视之一**。 > 小提示:Prime Day期间价格可能进一步波动,但早买早享受。建议关注亚马逊的“价格保护”政策,若后续降价可申请差额退款。
埃隆·马斯克(Elon Musk)再次尝试让 X 平台(原 Twitter)摆脱美国联邦贸易委员会(FTC)的严格数据隐私监管令。该命令要求 X 在 20 年内定期接受独立审计,并允许 FTC 随时调取文件以确保合规。此前,Twitter 因在 2013 年至 2019 年间误将用户用于双重认证的电话号码和邮箱用于广告投放,被罚 1.5 亿美元并接受 FTC 监督至 2042 年。 马斯克在 2023 年首次申请撤销该命令未果,当时他指责 FTC 存在偏见且调查要求过于激进。FTC 则反驳称,马斯克收购后大规模裁员、解雇合规关键人员,已严重威胁 X 的隐私保护能力。一名工程师在证词中确认,成本削减压力导致 X 约 37% 的隐私控制措施无人负责。此外,马斯克要求记者访问内部系统的“Twitter Files”事件,以及他威胁解雇任何阻碍其命令的员工的行为,进一步加剧了监管担忧。 2024 年,FTC 声称 X 安全人员有时不得不刻意违抗马斯克的指令以保持合规。随着大规模裁员导致平台功能不稳定,FTC 认为有充分理由要求 X 提供更多信息。目前,公众评论普遍警告称,马斯克不可信任,其领导下的 X 用户隐私保护前景堪忧。这场法律攻防战不仅关乎 X 的合规命运,也再次引发科技巨头隐私治理与监管边界的讨论。
AI 数据中心建设热潮正变得愈发疯狂,而 Meta 则想出了一个出人意料的降本增效方案:在帐篷里建数据中心。 据数据中心部署追踪机构 Cleanview 创始人 Michael Thomas 透露,Meta 已在俄亥俄州新奥尔巴尼市郊建起了六座“帐篷”——官方称之为“快速部署结构”。这并非全新消息,Meta CEO 扎克伯格去年就曾向媒体透露过使用防风雨帐篷来容纳公司多吉瓦级数据中心的计划,但 Thomas 发布的卫星图像和当地许可文件首次直观展示了这一项目的建设速度和规模。 根据 Thomas 查阅的市政许可记录,Meta 在 2026 年 4 月至 6 月期间开始建造五座 12.5 万平方英尺的帐篷,而最新卫星图像显示这些结构已全部建成。这种帐篷式建筑令人联想到特斯拉在加州 Fremont 工厂停车场为赶产 Model 3 而搭建的临时帐篷。 ## 帐篷里的“算力工厂” 帐篷内部将部署价值可能高达数十亿美元的 AI 芯片。更值得关注的是,现场配备了 200 兆瓦模块化燃气轮机供电,这一策略与竞争对手 xAI 广泛采用的做法如出一辙。这种“帐篷+燃气轮机”的组合,使 Meta 能够将建设周期缩短一半,迅速获得急需的算力。 ## 背后的战略焦虑 Meta 选择如此激进的部署方式,背后是其 AI 业务面临的现实压力。一方面,据《华尔街日报》报道,尽管其最新模型 Muse Spark 已经完成,但开发者依赖的 API 接口却一再延迟,导致开发者无法将模型集成到应用中。另一方面,Meta 计划在数据中心和其他资本支出上投入高达 1450 亿美元,华尔街对此反应冷淡,Meta 股价今年已下跌 5%。 在帐篷中部署 AI 芯片,正是 Meta 在巨额开支与紧迫需求之间找到的一条折中路径。帐篷结构不仅大幅降低了建设成本,更将交付时间压缩了一半,让 Meta 能更快地追赶 AI 浪潮。 ## 行业启示 Meta 的“帐篷数据中心”策略,折射出当前 AI 军备竞赛的一个核心矛盾:算力需求爆炸式增长,但传统数据中心建设周期长、成本高。从特斯拉的汽车工厂到 xAI 的燃气轮机方案,科技巨头们正不惜一切手段加速算力基础设施落地。这种“临时建筑+模块化能源”的组合,或许将成为 AI 基建领域的新常态。 截至发稿,Meta 尚未对 TechCrunch 的置评请求作出回应。
Poke,这家让用户通过简单短信即可使用 AI 代理的初创公司,已成为首个获准在苹果 Messages for Business 平台上运行的 AI 代理。此前,该平台专为企业设计——航空公司、零售商、连锁酒店等——用于通过 iMessage 与自有客户沟通,提供支持自动聊天和人工代理的标准化界面。直到现在,它还未向独立的第三方 AI 代理开放。 Poke 于今年 3 月推出,是首批面向普通用户的 AI 代理之一,这些用户不具备使用命令行工具或更复杂的代理系统(如 OpenClaw)的技术能力或兴趣。目前,Poke 可协助完成日常活动,如每日规划、管理日历、追踪健康与健身、控制智能家居以及编辑照片,全部通过短信完成。该公司告诉 TechCrunch,至今已处理约 1 亿条消息。该 AI 服务可在 SMS、Telegram 以及部分市场的 WhatsApp 上运行。现在,Poke 将把 iMessage 加入其支持平台。 Poke 登陆苹果 Messages for Business 的消息,正值苹果预计于周一举行的全球开发者大会(WWDC)前夕。外界普遍预期苹果将在大会上推出 AI 优化版 Siri,以及其他面向开发者的 AI 工具和服务。此外,有传闻称苹果将向 AI 代理开放 App Store。但 Poke 的情况并非如此:苹果 Messages for Business 平台并非面向消费者的移动应用,而是让消费者通过 iMessage 界面直接与企业互动的方式。这使得消费者无需拨打电话即可联系企业获取信息、支持、预约等。 Poke 的用户向 AI 代理提问或提出请求,代理以文字回复。对于创始人和投资者而言,更有趣的细节可能是其带来的商业模式。Poke 母公司 The Interaction Company of California 的联合创始人 Marvin von Hagen 表示,初创公司将按用户数向苹果付费。虽然他无法透露具体定价,但指出这远低于 Meta AI 在欧盟法规要求允许第三方 AI 代理接入 WhatsApp 后提高的费用。这种按用户收费的模式如果规模化应用,将代表一种潜在的新收入来源。 ## 行业背景与意义 苹果此前的隐私和安全政策一直限制第三方 AI 代理直接访问 iMessage。Poke 的获批表明苹果可能正在逐步开放其消息生态,为 AI 代理提供更广阔的舞台。这一变化与苹果在 AI 领域的整体布局相呼应:一方面,Siri 的升级将强化原生 AI 能力;另一方面,引入第三方 AI 代理可丰富用户体验,同时为苹果创造新的服务收入。 ## 商业模式创新 Poke 的按用户付费模式值得关注。与 Meta AI 因监管压力调整定价不同,苹果选择与 Poke 合作,可能意味着其正在探索一条“平台即管道”的路径——即通过开放消息接口,从 AI 代理的订阅或使用费中抽成。这对其他 AI 初创公司而言,提供了一个可行的商业化范例。 ## 未来展望 随着 WWDC 临近,苹果的 AI 战略逐渐清晰。Poke 的入驻不仅是单一公司的突破,更可能预示着苹果消息生态的全面开放。对于消费者,这意味着未来可以通过 iMessage 直接调用各种 AI 服务,而无需安装额外应用。对于开发者,这则是一个新的分发渠道和盈利机会。
## 为何清理缓存能显著提升Android设备性能 在AI技术快速发展的今天,智能手机已成为我们日常使用各类AI应用的核心设备。无论是运行大型语言模型客户端、处理实时图像识别,还是执行复杂的机器学习任务,设备的性能表现直接影响用户体验。对于Android用户而言,一个简单却常被忽视的操作——**清理应用缓存**,能带来立竿见影的性能提升。 ### 缓存是什么?为何需要清理? 应用缓存是Android系统为提升应用加载速度而创建的临时文件。当您使用社交媒体、浏览器、游戏或其他应用时,系统会存储部分数据(如图片、网页元素、登录信息等)以便下次快速访问。然而,随着时间的推移,这些缓存文件可能积累过多,占用大量存储空间,甚至包含过时或损坏的数据,导致应用运行缓慢、卡顿或出现异常行为。 **关键点**:清理缓存仅移除临时文件,不会影响您的个人账户、登录凭证或重要数据(如照片、文档)。这使其成为一种安全且低风险的维护手段。 ### 如何清理Android手机缓存 清理缓存的操作因Android版本和设备制造商而异,但通用步骤如下: 1. **进入设置**:打开手机的“设置”应用。 2. **找到应用管理**:通常位于“应用”或“应用管理”选项中。 3. **选择目标应用**:点击您想清理缓存的应用(如Chrome、Facebook或游戏应用)。 4. **清除缓存**:在应用信息页面,找到“存储”选项,然后点击“清除缓存”。 对于更全面的清理,您还可以考虑: - **使用内置清理工具**:许多Android设备提供系统优化功能,可一键清理缓存和垃圾文件。 - **定期重启设备**:这有助于释放内存并重置临时进程。 ### 清理缓存的实际效益 - **提升响应速度**:减少缓存负担后,应用加载时间缩短,滚动和操作更流畅。 - **释放存储空间**:缓存可能占用数GB空间,清理后为AI应用、大型文件或系统更新腾出余地。 - **解决小故障**:如应用崩溃、显示错误或网络问题,清理缓存常能快速修复。 在AI应用日益普及的背景下,保持设备高效运行尤为重要。例如,运行实时翻译或AR应用时,更快的响应能提升交互体验。随着**Android 17**即将发布,提前优化设备可确保平滑过渡到新系统。 ### 最佳实践与注意事项 - **频率**:建议每月清理一次缓存,或当设备出现性能下降时进行。 - **选择性清理**:优先处理大型或频繁使用的应用(如浏览器、社交媒体)。 - **避免过度清理**:无需每日操作,以免频繁重建缓存反而影响短期性能。 总之,清理缓存是一个简单、安全的维护技巧,能有效延长Android设备的使用寿命并优化性能。结合定期系统更新和存储管理,它帮助您在AI时代保持设备的最佳状态。
## 本周AI圈:IPO狂热、安全漏洞与法律纠纷 ### AI公司IPO竞赛白热化,旧金山房产市场出现“Anthropic股票优先” 本周,AI领域的IPO热潮成为焦点。多家顶级AI公司争相上市,甚至引发了旧金山房地产市场的奇特现象——部分房源挂牌时明确表示**优先接受Anthropic股票而非现金**。这反映出市场对AI巨头未来价值的高度期待,但也暗示了潜在泡沫风险。 ### 特朗普AI行政令被指“令人失望” 特朗普签署的新AI安全行政令未能达到预期。评论认为该命令缺乏实质性约束力,未能有效应对AI快速发展带来的安全与伦理挑战。行业观察者指出,政府在AI监管上的迟缓可能加剧技术失控风险。 ### Instagram AI聊天机器人漏洞致名人账户被黑 黑客利用Instagram的AI聊天机器人漏洞,成功入侵了包括**奥巴马**在内的多个高知名度账户。这一事件暴露了AI功能集成中的安全短板,引发了对社交平台AI系统防护能力的质疑。 ### DOGE吹哨人起诉马斯克诽谤 一位曾举报DOGE(政府效率部门)问题的吹哨人正式起诉埃隆·马斯克,指控其公开称该吹哨人为“骗子”,导致其人身安全受到威胁。据报道,吹哨人随后遭遇刹车被剪断等危险事件。案件凸显了举报人在面对权势人物时的脆弱处境。 ### 本期播客提及文章 - 《旧金山房地产市场:什么比现金更值钱?Anthropic股票》 - 《特朗普终于签署AI行政令,但效果如何?》 - 《他告发了DOGE,然后刹车被剪断》 ### 收听指南 订阅《Uncanny Valley》播客,可在Apple Podcasts、Spotify等平台免费收听,或通过Overcast、Pocket Casts搜索。
## 项目缩减但仍超曼哈顿面积 《创智赢家》明星 Kevin O'Leary 已同意将其在犹他州规划的 40,000 英亩数据中心项目的规模减半。据当地媒体 ABC4 报道,O'Leary 在周四致信犹他州参议院主席 J. Stuart Adams,表示将从项目中移除 19,430 英亩土地。 该项目名为 **“Project Stratos”**,选址于 **Locomotive Springs 水禽管理区** 及其周边,此前因规模过大而遭到居民和环保人士的强烈反对。就在几天前,Adams 要求 O'Leary 将项目规模削减 75% 至约 10,000 英亩,同时要求采用节水技术,并将多余水资源引向持续萎缩的大盐湖。 O'Leary 在信中承诺,还将额外削减高速公路附近东北区域的 620 英亩,并保留剩余大部分土地作为开放空间。即便如此,调整后的项目面积仍约 **20,000 英亩**,比整个曼哈顿岛还要大。 ## AI 数据中心的资源困境 这一事件再次凸显了 AI 热潮下数据中心建设的资源矛盾。随着 AI 模型训练和推理需求爆发式增长,科技巨头争相建设超大规模数据中心,但其 **能源消耗、水资源使用和环境影响** 正引发越来越多的争议。 即使规模远小于 Project Stratos 的数据中心,也已被证实会对当地电网和水资源造成巨大压力。此前,谷歌等公司已尝试通过 **AI 优化冷却系统** 来降低水耗,但根本性的资源冲突仍在加剧。 ## 后续关注 O'Leary 的让步能否平息众怒尚不可知。Adams 此前提出的 75% 缩减要求并未完全实现,而项目所在的水禽保护区生态敏感,任何开发都可能带来长期影响。未来,类似 Project Stratos 的“巨型数据中心”项目将面临更严格的审查,**可持续发展技术** 的落地可能成为项目获批的关键筹码。
## 14年的存储混乱,AI能一键“收拾”吗? 对于许多重度云存储用户来说,Google Drive 既是一个便利的协作工具,也是一个逐渐失控的数字“杂物间”。近日,Google 在 Drive 中推出了名为 **Organize My Files** 的 AI 清理工具,由 Gemini 驱动,旨在帮助用户自动整理文件、创建文件夹并释放存储空间。我亲身体验了这款工具,看看它能否真正解决我积累14年的存储混乱。 ### 工具体验:有限的“智能” Organize My Files 的入口位于 Drive 的侧边栏中。点击后,Gemini 会开始扫描用户的文件,并给出整理建议,例如将散落的合同文件归入一个“合同”文件夹,或将重复的图片标记出来。在测试中,Gemini 确实识别出了一些明显的分类模式,比如将多个版本的简历合并到一个文件夹中。然而,它的能力目前仍显得有限: - **只能处理文件移动和新建文件夹**,无法删除文件或执行更复杂的操作(如重命名、压缩)。 - **对非英语文件名的识别准确率较低**,特别是包含中文、日文等字符的文件时,常常建议创建含义不明的文件夹。 - **处理速度较慢**,对于拥有数千个文件的账户,扫描和生成建议可能需要数分钟。 ### 与现有工具的对比 Google Drive 其实早已具备一些基础的文件管理功能,如“建议”标签页会提示你删除重复文件或大文件。Organize My Files 的独特之处在于它利用 Gemini 的语义理解能力,尝试理解文件内容而非仅仅依赖文件名。例如,它能将一份名为“Q3 预算草案”的电子表格与另一份名为“2023年财务计划”的文档关联起来,尽管文件名不同。 但相比市场上成熟的清理工具(如 Gemini 在 Google One 中的存储管理功能),Organize My Files 仍缺乏一键清理的果断性。它更像一个“建议者”,而非“执行者”。 ### 实用价值与局限 对于存储空间即将告急的用户,Organize My Files 或许能提供一些整理灵感,但距离真正“节省存储费用”还有差距。因为该工具目前无法直接删除文件,用户仍需手动确认每一项建议。在测试中,我最终只采纳了约 30% 的建议,其余要么不准确,要么不符合我的整理习惯。 此外,该功能需要 **Workspace 或 Google AI 订阅**,并非所有 Google 用户都能免费使用。这进一步限制了它的普及度。 ### 结论:有用但未成熟 Organize My Files 展示了 AI 在个人文件管理领域的潜力,但当前版本更像是一个技术预览。它适合那些愿意花时间手动调整整理结果的用户,但对于希望“一键清理”的普通用户,可能仍会感到失望。Google 需要继续优化其语义理解能力、提高建议准确率,并增加更多自动化操作,才能让这个工具真正改变用户的存储习惯。
NVIDIA 与 AWS 联手,将新一代前沿推理模型 Nemotron 3 Ultra 以“零日”方式集成至 Amazon SageMaker JumpStart,用户只需一键即可完成部署。该模型专为长时间运行的自主智能体(Agentic AI)工作负载设计,采用创新的混合 Transformer-Mamba MoE 架构,总参数量达 5500 亿,但每次前向传播仅激活 550 亿参数,在保持高推理吞吐的同时,支持高达 100 万 token 的上下文长度。 ## 性能与成本优势 据官方数据,Nemotron 3 Ultra 在复杂智能体任务中可实现 **5 倍推理加速** 和 **最高 30% 的成本降低**。这得益于其优化的 NVFP4 格式,使得模型部署更高效、更经济。对于需要多步推理、工具调用、子智能体协调以及自我纠错的长时间任务,传统密集模型往往因 token 消耗巨大而成本飙升,而 Nemotron 3 Ultra 的 MoE 架构恰好解决了这一痛点。 ## 智能体 AI 的新范式 智能体 AI 并非简单的问答,它需要规划、调用工具、委派子任务、检查结果并持续迭代数百轮。每一步都增加 token 和算力消耗,因此关键指标是任务完成准确率、完成时间和单任务成本。Nemotron 3 Ultra 通过仅激活部分参数,在百万 token 上下文下仍保持高吞吐,使智能体能够在数百轮交互中维持连贯推理,同时控制成本。 ## 典型应用场景 - **智能体编排器**:协调多个子智能体,管理长链工具调用中的状态 - **代码智能体**:在大型代码库中生成、测试、调试并迭代代码 - **深度研究**:综合多源信息,在扩展上下文中保持连贯推理 - **复杂企业工作流**:自动化多步骤业务流程,支持决策分支和错误恢复 ## 快速上手 通过 SageMaker JumpStart,用户可直接在 AWS 控制台中一键部署 Nemotron 3 Ultra,无需手动配置基础设施。这一集成降低了前沿模型的使用门槛,使企业能够快速将高级推理能力融入智能体应用。
摩托罗拉 2026 年旗舰折叠屏手机 Razr Fold 和 Razr Ultra 各有千秋。经过一个月的深度测试,我发现前者更像一款无妥协的“平板手机”,而后者则主打紧凑时尚。本文将从设计、屏幕、相机、性能等维度对比两款机型,帮你做出选择。 ## 设计与便携性 Razr Ultra 延续了经典的翻盖设计,折叠后非常小巧,轻松放入口袋;而 Razr Fold 展开后接近 8 英寸内屏,更像一台 mini 平板。如果你追求极致便携和时尚感,Razr Ultra 是更好的选择;若你需要更大的屏幕空间进行多任务处理,Razr Fold 更合适。 ## 屏幕与显示 Razr Fold 的内屏尺寸明显更大,支持高刷新率,观看视频和浏览文档体验更沉浸。Razr Ultra 的外屏虽然较小,但功能丰富,无需展开即可完成许多操作。两者均采用优质 OLED 面板,色彩和亮度表现出色。 ## 相机与影像 Razr Fold 配备了三摄系统,包括主摄、超广角和长焦,拍摄灵活性更高;Razr Ultra 则采用双摄方案,日常拍照足够,但缺少长焦。如果你经常拍照,Razr Fold 的相机组合更具优势。 ## 性能与续航 两款手机均搭载旗舰级芯片,性能强劲,日常使用和游戏都能流畅运行。电池方面,Razr Fold 容量更大,续航更持久;Razr Ultra 由于机身紧凑,电池稍小,但快充速度不错。 ## 小结 总的来说,Razr Fold 适合追求大屏体验、全能相机和长续航的用户;Razr Ultra 则更适合看重便携性、时尚设计和基础功能的人。选择哪款,取决于你的核心需求。
Windows 的右键菜单长期以来备受用户诟病——条目冗长、响应缓慢、缺乏个性化选项。近日,微软一位高级副总裁公开承诺,将对右键菜单进行重大升级,使其更快速、更简洁,并且支持用户自定义。这一消息迅速引发了科技社区的广泛关注。 ## 痛点:右键菜单的“臃肿”历史 自 Windows 95 引入上下文菜单以来,右键菜单就成为了操作系统的核心交互之一。然而,随着第三方软件不断向菜单中“塞入”自己的条目,菜单变得越来越长,甚至需要滚动才能看完。在 Windows 11 中,微软曾尝试通过“显示更多选项”来隐藏旧版菜单,但这一设计反而增加了操作步骤,被许多用户吐槽为“反人类”。 ## 微软的承诺:更快、更简、更可控 据 ZDNET 报道,微软一位高级副总裁在近期的一次内部沟通中明确表示,公司正在重新设计右键菜单。新的菜单将具备三大特点: - **更快的响应速度**:减少加载延迟,尤其是在安装了多款软件后。 - **更简洁的布局**:默认只显示最常用的操作,减少视觉噪音。 - **可定制性**:允许用户自行决定哪些条目出现在菜单中,甚至可能支持第三方开发者提供模块化选项。 目前,微软尚未公布具体的时间表或技术细节,但承诺“很快”会分享更多信息。 ## 行业背景:用户体验的“最后一公里” 右键菜单的优化看似是小事,实则反映了微软在用户体验上的新思路。近年来,苹果的 macOS 和谷歌的 ChromeOS 都在不断简化右键菜单,而 Windows 却因历史包袱显得笨重。如果微软能够兑现承诺,这将是继 Windows 11 的“任务栏改进”之后,又一项提升日常效率的重要更新。 ## 展望与期待 对于普通用户而言,自定义功能可能是最大的亮点。想象一下:你可以让“复制/粘贴”永远置顶,或彻底删除那些从不使用的“用 XX 打开”选项。对于开发者,这也意味着更清晰的 API 规范。 当然,承诺与实际落地之间往往存在距离。微软是否能在不破坏兼容性的前提下实现这些改进?我们拭目以待。