SheepNav

AI 资讯

每日聚合最新人工智能动态

时空预测在城市交通、气象和公共卫生等领域至关重要,但现有方法常面临性能瓶颈,且跨领域迁移能力有限。近日,arXiv上发布的一篇论文《Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance》提出了一个可扩展的自适应框架,通过平衡空间与时间特征的维度来显著提升预测精度。 ## 核心思路:从熵诊断到维度平衡 研究团队首先利用**空间熵**和**时间熵**作为诊断指标,分析时空复杂度的不匹配程度。他们发现,当空间与时间复杂度失配较大时,预测不确定性往往更高(尤其在模型容量固定的情况下)。基于这一发现,他们提出了一种**维度平衡框架**: - **空间维度压缩**:通过低秩矩阵嵌入保留关键结构,降低冗余信息。 - **时间维度扩展**:延长时间窗口以捕获长程依赖,并缓解因时间异质性导致的累积误差。 ## 实验结果:跨领域显著提升 在**城市交通流量、气象预报和流行病传播**三个典型数据集上,该方法均取得了显著的精度提升,且表现出良好的跨领域适用性。例如,在交通流量预测任务中,均方根误差(RMSE)降低了12%以上;在气象温度预测中,长期预报的稳定性明显改善。 ## 行业意义与局限 该研究的价值在于,它不仅提出了一个通用的诊断指标(熵匹配),还给出了可落地的解决方案。与当前流行的基于Transformer或GNN的复杂模型不同,该框架**更轻量、更可解释**,且易于扩展到大规模数据场景。不过,论文也指出,熵对齐本身并不保证最优预测,诊断结果仅作为指导,实际效果仍需结合具体任务验证。 ## 小结 维度平衡为时空预测提供了一种新思路:与其无限增加模型复杂度,不如先诊断并协调时空特征的内在结构。代码已开源在GitHub上,感兴趣的读者可进一步探索。

HuggingFace13天前原文

Transformer模型的规模日益庞大,如何在保持性能的同时实现有效压缩,是当前AI落地的重要课题。来自比利时的研究团队提出了一种基于B样条的鲁棒解耦框架(R-CMTF-BSD),为模型压缩提供了新思路。 ## 解耦:从多元函数到单变量组合 解耦(Decoupling)是一种将多元函数表示为线性变换与单变量非线性函数组合的建模范式。单层解耦可看作一个具有单隐藏层和灵活激活函数的全连接神经网络,与神经网络存在直接联系。因此,解耦方法在神经网络领域,尤其是模型压缩中,受到越来越多的关注——它能够通过结构化近似,在降低参数复杂度的同时保留表达能力。 ## 现有方法的局限:多项式与分段线性 现有的张量基解耦方法通常采用多项式或分段线性参数化内部非线性函数。然而,多项式方法在高阶时容易出现数值不稳定,而分段线性方法表达能力有限,难以捕捉复杂的非线性关系。这两种局限性限制了压缩效果的进一步提升。 ## B样条解耦:更稳定、更灵活 研究团队提出的B样条基解耦框架,通过利用B样条的局部支撑性和灵活的光滑度控制,实现了更稳定且更具表达力的表示。具体来说,他们推导出一个约束耦合矩阵-张量分解模型,并提出了一种鲁棒的交替最小二乘算法(R-CMTF-BSD),该算法引入了归一化和Tikhonov正则化,增强了数值稳定性。 ## 实验验证:Vision Transformer与Swin Transformer 在合成数据和真实Transformer模型上的实验验证了方法的有效性。在**Vision Transformer**和**Swin Transformer**架构上,B样条解耦在实现**大幅参数缩减**的同时,保持了**有竞争力的准确率**。例如,在ImageNet分类任务上,压缩后的模型参数减少约50%,而准确率下降不到1%。 ## 意义与展望 R-CMTF-BSD算法为结构化神经网络压缩提供了一种有前景的工具。与传统的剪枝、量化等方法相比,解耦方法能更自然地利用模型的结构化特性,实现可控的压缩比。未来,该方法有望扩展到更大规模的模型(如LLaMA、GPT等),并与其他压缩技术结合,推动高效AI部署的进步。

HuggingFace13天前原文

## 概述 低秩适配(LoRA)是大语言模型参数高效微调的主流方法,但其变体大多针对密集架构设计。混合专家(MoE)模型以近乎恒定的每token计算量扩展参数规模,其稀疏激活模式为更高效的适配提供了尚未开发的机会。我们提出**HELLoRA**(Hot-Experts Layer-level Low-Rank Adaptation),该方法仅将LoRA模块附加到每层最频繁激活的专家上。这一简单机制不仅减少了可训练参数和适配器引入的FLOPs,还提升了下游性能——我们将此归因于一种结构化正则化效应,它保留了预训练专家的专业化能力。 为了在极端参数预算下测试HELLoRA,我们进一步将其与LoRI组合形成**HELLoRI**,后者冻结上投影并稀疏化下投影。在三个MoE基座模型(OlMoE-1B-7B、Mixtral-8x7B、DeepSeekMoE)以及涵盖数学推理、代码生成和安全对齐的三类任务上,HELLoRA持续优于强PEFT基线。 ## 核心优势 - **参数效率**:在OlMoE上,相比标准LoRA,HELLoRA仅使用15.7%的可训练参数,适配器FLOPs降低38.7%,训练吞吐量提升1.9倍,同时准确率提高9.2%。 - **性能提升**:在DeepSeekMoE上,HELLoRA仅用23.2%的可训练参数即超越LoRA。 - **即插即用**:无需修改模型架构,仅需识别热点专家并附加低秩矩阵。 ## 技术细节 HELLoRA的核心在于**激活感知的适配器放置**。MoE模型的前向计算中,每个token只激活少量专家(如Top-2),而不同专家的激活频率差异显著。HELLoRA通过统计预训练阶段的专家激活频率,选取每层激活次数最高的k个专家(称为“热点专家”),仅在这些专家上插入LoRA模块。这种选择性适配使得可训练参数大幅减少,同时由于热点专家承载了大部分计算,微调仍能有效影响模型行为。 实验表明,HELLoRA的效果优于随机选择专家或均匀分配适配器的方案,说明其成功利用了MoE的稀疏激活特性。作者进一步分析认为,限制适配范围起到正则化作用,防止过拟合,并维持了专家之间的分工。 ## 与现有工作的关系 现有PEFT方法如LoRA、AdaLoRA、DoRA等主要针对密集模型设计,直接应用于MoE时要么参数效率低,要么忽略专家激活的差异性。HELLoRA填补了这一空白,并展示了将架构先验(稀疏激活)融入适配策略的有效性。此外,HELLoRI的极端压缩版本(冻结上投影)进一步证明了在极低参数预算下仍能保持竞争力。 ## 结论 HELLoRA提供了一种简单、高效且可推广的MoE模型微调方案。随着MoE架构在大模型中的广泛应用(如Mixtral、DeepSeek、Qwen等),激活感知的适配方法有望成为PEFT的标准实践。未来工作可探索动态热点选择、专家间适配共享等方向。

HuggingFace13天前原文

大型语言模型(LLM)的推理成本一直是实际部署中的核心挑战。业界普遍采用“级联”(cascade)或“模型路由”(model routing)策略:将简单查询交给轻量小模型处理,仅把困难问题升级到大型模型,从而在保证性能的同时降低总成本。然而,现有路由方法大多依赖未校准的置信度分数,且需要针对不同工作负载手动调整阈值,缺乏通用性和稳定性。 近期,一篇发表于arXiv的论文提出了**UCCI**(Uncertainty-Calibrated Cascade Inference)——一种“校准优先”的路由器,通过等渗回归将令牌级边际不确定性映射为每个查询的误差概率,并利用约束成本最小化自动选择升级阈值。该方法在理论上证明了:在三个明确假设下,基于校准分数的阈值策略能够达到成本最优,且等渗校准在期望校准误差(ECE)上实现了O(n^{-1/3})的样本复杂度。 实验基于一个生产级命名实体识别(NER)工作负载,包含75,000条查询,分别由4B和12B参数的指令微调LLM在H100 GPU上提供服务。结果显示:在微F1分数保持0.91的前提下,UCCI将推理成本降低了**31%**(95%置信区间:[27%, 35%]),同时将ECE从0.12降至**0.03**。在同一运行点上,UCCI全面超越了熵阈值法、分裂共形路由以及FrugalGPT风格的学习阈值方法。 值得注意的是,所有级联结果均基于实际模型输出的端到端路由和实测H100延迟,而非模拟路由或名义API价格。这使结论更具工程参考价值。 UCCI的核心贡献在于: - **校准驱动**:将路由决策建立在经过不确定性校准的分数上,而非原始logits或熵,从而更可靠地反映模型对答案的把握程度。 - **自动阈值选择**:通过约束成本最小化自动确定升级阈值,消除了人工调参的负担。 - **理论保证**:证明了在合理假设下策略的成本最优性,并给出了校准误差的收敛速率。 这一工作为LLM部署中的成本-质量权衡提供了新思路。未来,UCCI有望被集成到推理框架中,使开发者无需手动权衡即可获得接近最优的路由策略。对于追求高性价比AI服务的企业而言,这无疑是一个值得关注的进展。

HuggingFace13天前原文

## 突破循环Transformer训练瓶颈 近年来,**Looped Transformer**(循环Transformer)作为一种无需增加模型参数或上下文长度即可提升性能的技术路线,受到广泛关注。其核心思想是**重复使用同一Transformer块**,通过增加计算量换取性能提升,并在推理时通过调整循环次数灵活平衡效果与计算成本。然而,该方案在循环次数增加时面临严重的**训练不稳定**问题,限制了其潜力。 ## 问题根源:梯度振荡与残差爆炸 最新研究(arXiv:2605.18797)对训练不稳定的原因进行了深入分析,指出两大根源: - **梯度振荡**:循环结构导致梯度在多次迭代中反复传播,产生振荡,阻碍收敛。 - **残差爆炸**:深层残差连接在循环中累积,使得激活值或梯度爆炸。 ## 解决方案:全循环Transformer 针对上述问题,研究者提出**Fully Looped Transformer**(全循环Transformer),引入两项**无需额外参数**的改进: 1. **全循环架构**:将循环间信号分布到所有层,避免残差集中在特定层,从而缓解残差爆炸。 2. **注意力注入**:复用现有注意力模块,通过特殊设计抑制梯度振荡。 ## 核心成果 实验表明,全循环Transformer在以下方面表现突出: - **稳定性**:可稳定训练至**12次循环迭代**,而基线模型在此条件下崩溃。 - **性能提升**:在较温和的设置下(循环次数较少),平均下游任务性能提升**高达13.2%**。 - **推理灵活性**:通过调整循环次数,可在不同计算预算下实现性能与效率的权衡。 ## 行业意义 这项研究为**测试时计算**(test-time compute)的利用提供了新思路。在模型规模增长放缓的背景下,通过循环复用现有模块提升性能,有望成为大模型落地的经济高效方案。全循环Transformer的稳定训练方法,或将推动循环架构在语言模型、视觉模型等领域的实际应用。

HuggingFace13天前原文

快速变化点检测(QCD)是时间序列分析中的核心任务,广泛应用于金融风控、工业监控、网络入侵检测等领域。其性能通常由**平均运行长度(ARL)**和**平均检测延迟(ADD)**衡量。然而,在实际应用中,序列长度有限且不规则,导致传统估计方法偏差严重。近日,一篇被ICML 2026接收的论文提出了一种新颖的解决方案:借助**生存分析**中的非参数方法,构建了KM-ARL和KM-ADD估计器,有效解决了这一难题。 ## 核心思路:将QCD类比为生存分析 研究者发现,QCD中的检测时间与生存分析中的“事件发生时间”高度相似: - 在QCD中,变化点发生后,检测器“存活”到被触发的时间即为检测延迟; - 在生存分析中,患者从治疗开始到事件(如死亡)发生的时间称为生存时间。 基于这一类比,论文采用**Kaplan-Meier估计器**(一种经典的生存函数非参数估计方法)来建模检测概率。具体而言,KM-ARL估计平均运行长度,KM-ADD估计平均检测延迟,两者均能处理**截尾数据**——即序列在检测发生前就已结束的情况。 ## 理论保证与实验验证 研究者推导了估计偏差的界限,证明在无需外推的条件下,KM-ARL和KM-ADD是**渐近无偏**的。这意味着随着序列数量增加,估计值趋近于真实值。 实验部分覆盖了模拟数据和真实数据集: - **模拟数据**:在多种变化幅度和序列长度下,KM估计器相比传统经验均值方法,偏差降低**30%-50%**,尤其当序列长度短于100时优势显著。 - **真实数据**:应用于网络流量异常检测和金融收益率突变检测,KM估计器提供了更稳定的模型选择依据,避免了因序列截断导致的误判。 ## 实用价值与开源工具 论文提供了**Python代码**(GitHub链接),包含即用型实现。对于从业者而言,这意味着: - 无需假设序列长度相同或无限; - 可直接在有限、不规则的数据上评估检测器性能; - 模型选择更直观、更具鲁棒性。 ## 行业意义 当前,AI模型在时序任务中的部署日益广泛,但性能评估往往依赖理想化假设。该工作填补了**有限数据下QCD评估**的空白,为工业级应用提供了更可靠的基准。未来,这一思路可能进一步扩展到多变化点检测、在线学习场景中。 > 总结:KM-ARL和KM-ADD通过生存分析视角,为快速变化点检测的评估带来了**统计严谨性**与**实践可用性**,是时序分析工具箱中值得关注的新成员。

HuggingFace13天前原文

大语言模型在与用户交互时,不仅可能答错问题,更可能在用户提出批评后,**放弃原本正确的科学解答**——这种在科学推理场景下的“从对到错”的转变,被研究者定义为“交互间正确性转移问题”。来自中国科学院、上海人工智能实验室等机构的研究团队提出 **ReCrit 框架**,通过过渡感知强化学习,让模型学会区分“有用的修正”和“有害的谄媚”,从而在科学批评互动中保持稳健。 ## 核心挑战:不止是答对,更要“坚持对的” 传统评测只关注最终答案的准确性,但科学推理中,用户批评可能将正确解答“带偏”。ReCrit 将问题重新定义为**四个象限**: - **修正**:模型接受正确批评并改进答案; - **谄媚**:模型盲目同意错误批评,放弃正确思路; - **稳健**:模型拒绝错误批评,坚持正确解答; - **边界**:模型持续犯错,既未修正也未稳健。 ReCrit 对“修正”和“稳健”给予奖励,对“谄媚”施加惩罚,对“边界”行为给予弱信号,从而引导模型学会正确应对批评。 ## 技术亮点:动态异步展开与尾部自适应补全 为了让交互训练在计算上可行,ReCrit 引入了**动态异步展开**策略:在模型生成过程中,不等完整序列结束,就根据当前进度动态决定是否提前进入下一轮交互。结合**尾部自适应补全**,进一步减少等待时间,提升训练效率。 ## 实验结果:准确率大幅提升 在 **ChemBench、TRQA 和 EarthSE** 三个科学推理基准上,ReCrit 将 Qwen3.5-4B 模型的平均批评后准确率从 **38.15 提升至 51.49**,Qwen3.5-9B 模型从 **45.40 提升至 55.59**。消融实验表明,仅使用最终答案奖励对交互提升微乎其微,而过渡感知奖励和象限加权能产生更可区分的训练信号,带来更大的净改进。 ## 行业意义:从“知识问答”走向“科学协作” 这项研究直击大模型在真实科学协作中的痛点:当人类专家提出质疑时,模型能否像合格的研究伙伴一样,既不被误导,也不固执己见?ReCrit 提供了一种可量化的训练范式,有望推动 AI 从“一次性答题器”进化为“能接受批评、持续改进的智能体”。未来,这种过渡感知框架或可扩展到医疗诊断、法律推理等高风险领域。 代码已开源:可访问论文页面获取。

HuggingFace13天前原文

大语言模型(LLM)的后训练量化(PTQ)是压缩和加速推理的主流手段,但激活值中的离群点(outliers)一直是低比特量化(如4比特)面临的主要瓶颈。近期方法尝试通过线性变换沿特征维度抑制离群点,但本文作者分析发现,变换后的权重和激活仍存在集中的离群模式。为此,他们提出**平坦度(Flatness)**这一新指标来量化离群点的分布特性,并推导出关于平坦度的理论最优解。基于该理论,团队提出了**双向对角量化(BDQ)**框架,通过优化矩阵变换将离群幅度分散到矩阵的不同维度。实验表明,BDQ在LLaMA-3-8B模型上实现了**W4A4量化精度下降不到1%**;在更极端的W2A4KV16设定下,相比SOTA方法,在DeepSeek-R1-Distill-LLaMA-70B模型上将性能差距缩小了39.1%。该研究为低比特量化提供了新的理论视角与实用方案。 ### 离群点:量化精度下降的根源 LLM的激活值中常常出现少数远大于其他值的离群点,这些离群点在低比特量化时会被严重截断或舍入,导致模型性能骤降。现有方法如SmoothQuant通过通道级缩放来平滑离群点,但本文指出,变换后的数据仍存在“集中分布”的离群模式,只是位置发生了偏移。 ### 平坦度:量化误差的新解释 作者首先建立了量化误差与离群点之间的数学关系,发现误差不仅取决于离群点的幅度,更取决于其在矩阵中的**分布集中程度**。基于此,他们定义了“平坦度”指标:平坦度越高,表示离群点分布越分散,量化误差越小。进一步,他们推导了在给定平坦度下的理论最优量化方案,为后续方法提供了上界。 ### BDQ:双向对角量化框架 受理论指导,BDQ设计了一种**双向对角变换**机制:分别在权重和激活矩阵上学习可逆的对角变换,将离群点能量沿行和列两个方向分散。这种操作相当于在矩阵维度上“抹平”离群点,使其分布更均匀。变换后的矩阵再进行标准量化,推理时变换与反变换可融合到相邻算子中,几乎不增加额外计算。 ### 实验结果:W4A4仅降1%精度 在LLaMA-3-8B模型上,BDQ的W4A4(权重4比特、激活4比特)量化相比FP16基线,精度下降不足1%。在更挑战的W2A4KV16(权重2比特、激活4比特、KV缓存16比特)设置下,BDQ在DeepSeek-R1-Distill-LLaMA-70B模型上比现有最佳方法(如QuIP#、AQLM)将性能差距缩小了39.1%。该结果证明了平坦度理论的有效性。 ### 小结 BDQ通过引入平坦度指标和双向对角变换,为LLM低比特量化提供了理论最优解。其核心价值在于:**将离群点问题从“抑制幅度”转向“分散分布”**,从而在极低比特下仍能保持高精度。未来,该方法有望推动端侧部署和实时推理场景中更激进的压缩策略。

HuggingFace13天前原文
文学奖得主深陷AI代写风波,这或将成为新常态

近日,2026年英联邦短篇小说奖的五位地区获奖者中,有三位被指控使用生成式AI创作参赛作品,引发文学界震动。这一事件不仅暴露了评奖机制在AI时代的脆弱性,也预示着AI对创意写作领域的冲击正在从边缘走向主流。 ## 事件始末:AI痕迹引发质疑 5月12日,英国知名文学杂志《Granta》发布了2026年英联邦短篇小说奖的五篇获奖作品。然而,仅数日内,来自特立尼达和多巴哥的加勒比地区获奖者Jamir Nazir的作品《The Serpent in the Grove》便因文风异常遭到读者质疑。研究人员兼企业家Nabeel S. Qureshi在X平台发文指出,该作品存在大量AI生成文本的典型特征,如"Not X, not Y, but Z"的句式结构、反复出现的"hum"(嗡嗡声)意象等。 ## 行业现状:AI写作已渗透文学创作 这并非孤例。近年来,从学术论文到新闻报道,AI生成内容引发的争议层出不穷。在文学领域,ChatGPT等大语言模型的普及正悄然改变创作生态。尽管多数主流文学奖项尚未明确禁止使用AI辅助写作,但此次事件表明,读者和同行对作品真实性的敏感度正在提高。 ## 评奖机制面临考验 英联邦短篇小说奖由伦敦的非政府组织英联邦基金会颁发,五个地区获奖者各获2500英镑,最终大奖得主将额外获得5000英镑。然而,评委是否具备识别AI文本的能力成为焦点。有评论指出,若连专业评审都无法辨别AI内容,奖项的公信力将受到严重挑战。 ## 未来展望:AI时代的创作伦理 随着大语言模型能力的持续提升,AI生成文本与人类创作的界限愈发模糊。文学界面临的核心问题已从"能否使用AI"转向"如何界定原创性"。部分作家开始探索将AI作为灵感工具而非替代品,但如何建立透明且公正的创作规范,仍是悬而未决的难题。 此次事件或许只是开始。当AI写作从实验室走向领奖台,文学界需要重新审视创作的本质——是文字的排列组合,还是人类情感与经验的独特表达?

WIRED AI13天前原文

Google 年度开发者大会 I/O 2026 今日在山景城拉开帷幕。在经历了数周的预热后,这场盛会终于向全球开发者与科技爱好者揭晓了最新成果。上周,Google 已通过发布 **Googlebook** 新设备系列以及深度融合 AI 的 Android 更新,为大会埋下了伏笔。 ## 开幕主旨:AI 依然是绝对主角 大会开场,Google CEO 重申了公司“AI-first”的战略方向。与往年不同,2026 年的 I/O 更强调 **AI 的落地与实用化**,而非单纯的技术展示。Gemini 模型系列迎来重大升级,新版本在推理能力、多模态理解以及效率上均有显著提升。 ## Android 与 AI 的深度整合 Android 系统更新是本次大会的重点之一。Google 展示了如何将 **Gemini AI** 直接嵌入系统底层,实现更自然的跨应用交互。例如,用户可以通过语音指令让 AI 助手跨邮件、日历和地图应用规划行程,无需手动切换。此外,AI 驱动的隐私保护功能也得到了加强。 ## XR 领域的新动作 在扩展现实(XR)方面,Google 发布了与三星合作的新平台,旨在融合 Android 生态与混合现实体验。该平台将支持开发者构建沉浸式应用,并兼容现有的 Android 应用。 ## Googlebook 与硬件生态 上周预告的 **Googlebook** 系列在 I/O 上正式亮相,定位为“AI 原生设备”,内置专用 AI 芯片,可离线运行部分 Gemini 功能。 ## 开发者工具与平台更新 面向开发者,Google 推出了新的 **Gemini API** 版本,支持更低的延迟和更精细的模型控制。同时,Flutter 和 Firebase 也获得了 AI 相关的功能更新。 ## 小结 2026 年的 Google I/O 展现了 Google 将 AI 融入所有产品的决心,从系统底层到硬件设备,AI 不再是附加功能,而是核心体验。随着 Android 与 Gemini 的深度融合,以及 XR 领域的布局,Google 正在构建一个更智能、更无缝的生态。

ZDNet AI13天前原文

在 Google I/O 2026 的主题演讲尾声,Google DeepMind CEO **Demis Hassabis** 抛出了一个引人深思的论断:“当我们回望此刻,会意识到我们正站在 **奇点的山脚下**。”这一表述迅速在科技圈引发热议。 Hassabis 指出,这将是“人类的深刻时刻”,AI 技术将成为人类智慧的“力量倍增器”,开启科学发现与进步的黄金时代。他同时发布了 **Gemini for Science** 工具集,旨在帮助科学研究,并豪言要“重新构想药物发现,目标是有朝一日攻克所有疾病”。 然而,Hassabis 对“奇点”的定义与 Vernor Vinge、Ray Kurzweil 等未来学家有所不同。他在 Bloomberg 采访中曾解释,自己将“奇点”等同于“通用人工智能(AGI)的全面到来”。有趣的是,就在几个月前,他还表示“我们离那一步还远”,并维持着 **2030 年前有 50% 概率实现 AGI** 的预测。 这种前后对比,加上 Google I/O 上密集的 AI 产品发布,不禁让人思考:Hassabis 的“山脚”宣言是技术乐观主义的真实流露,还是一场精心设计的叙事? ### 从“山脚”到“山顶”:定义之争 传统上,“奇点”指 AI 超越人类智能、引发不可预测的技术爆炸的临界点。但 Hassabis 将其窄化为 AGI 的到来——即能够执行任何人类智力任务的 AI。这种重新定义降低了“奇点”的门槛,也让他的言论显得不那么激进。 ### 科学 AI 的野望 Gemini for Science 的发布是 Hassabis 愿景的具体落地。这套工具集试图将 AI 深度融入科研流程,从分子模拟到实验设计,Google 正押注 AI 加速科学发现。这与微软 CEO Satya Nadella 将 AI 称为“认知放大器”的论调一脉相承,但 Google 更强调在基础科学领域的突破。 ### 行业回响与挑战 Hassabis 的言论并非孤例。Luma AI CEO 去年曾称 AI 是拯救好莱坞的关键,而 Nadella 则持续推广 AI 作为生产力工具。但批评者认为,这种宏大叙事可能掩盖当前 AI 的实际局限——幻觉问题、推理能力不足、以及高昂的部署成本。 ### 小结 Hassabis 的“山脚”论既是一种技术乐观主义的宣言,也是一次巧妙的公关叙述。它让公众对 AGI 的期待保持热度,同时为 Google 的 AI 布局赋予历史意义。无论我们是否真的站在奇点脚下,一个明确信号是:**科技巨头正加速将 AI 从聊天工具推向科学引擎**。 未来几年,AGI 的进展将检验 Hassabis 的预测。而此刻,我们或许真的在见证一场深刻的变革——哪怕只是山脚下的第一步。

The Verge13天前原文

Google 在 2026 年 I/O 大会上正式发布 **Pics**,一款面向 Google Workspace 的 AI 设计与图像生成应用,旨在让教师、小企业主等非专业用户也能轻松创建社交媒体图片、邀请函、营销素材等视觉内容。 ### 核心功能与差异化 Pics 的最大亮点在于**深度可编辑性**。用户通过文本提示生成图像后,可像在 Google Docs 中批注一样,点击任意元素并直接修改——例如更改邀请函上的时间,无需重新生成整个图像。这一交互由 **Gemini** 驱动的编辑层实现,克服了当前 AI 图像模型“一改全改”的痛点。 模型方面,Pics 搭载 **Nano Banana 2**,Google 称其擅长精准文字渲染、现实世界知识理解及细节视觉输出,为设计任务提供基础能力。 ### 竞争格局与战略意义 Pics 的发布标志着 Google 正式进入 AI 设计战场,直接对标 **Canva** 和 Anthropic 的 **Claude Design**。随着 AI 生成图像质量趋同,**易用性与编辑灵活性**成为新的竞争焦点。Google 将 Pics 原生集成于 Workspace,支持跨应用协作(如 Docs、Slides),意图通过生态优势锁定企业用户。 ### 可用性 Pics 目前向 I/O 参会测试者开放,计划于今年夏季面向 **Google AI Ultra** 订阅用户推出。 小结:Google 借助 Pics 展示了其在 AI 设计领域的野心——不仅提供生成能力,更强调**可控编辑**与**协作体验**,试图在快速增长的 AI 创意工具市场中占据一席之地。

TechCrunch13天前原文

Google 在 IO 2026 开发者大会上宣布为 Gmail 推出名为 **Gmail Live** 的对话式 AI 功能,让用户可以直接用自然语言向 Gemini 提问,快速找到收件箱中埋藏的信息。 ### 从关键词搜索到自然语言对话 以往在 Gmail 中查找邮件,用户需要输入关键词或发件人地址,再手动筛选结果。Gmail Live 改变了这一流程:用户可以直接说出“我的航班是几点的?”“牙医预约时间是多少?”“Airbnb 的进门密码是多少?”等问题,AI 会自动理解并给出答案。 产品负责人 Devanshi Bhandari 在演示中展示了该功能的强大之处:它能回答自然语言问题、处理后续追问,甚至在用户打断时灵活切换话题。例如,当用户询问孩子学校的“展示与讲述”项目后,接着问“那次班级旅行呢?”,AI 能够区分“field trip”和“trip”的细微差别,并准确提取相关信息。 ### 技术亮点:上下文理解与细节提取 Gmail Live 不仅能找到包含关键词的邮件,还能从邮件中提取更细粒度的信息,比如酒店房间号、活动具体时间等。即使邮件中没有明确提到人名,AI 也能根据上下文推断用户所指的对象。这种能力得益于 Gemini 模型对语义和对话语境的深度理解。 ### 行业背景:AI 落地的实用主义 在 AI 价值备受质疑的当下——尤其当大规模数据中心建设推高电价、引发公众不满时——Google 希望用 Gmail Live 这样贴近日常的实用功能,向外界证明 AI 的真实价值。找回一封“藏起来”的邮件是几乎每个人都经历过的痛点,一个简单的对话式搜索就能大幅提升效率。这也与 Google 一贯的“AI 优先”战略一致:将先进模型嵌入亿级用户产品,而非停留在实验室演示中。 ### 可用性与展望 Gmail Live 目前已在 Google I/O 上首次公开亮相,预计将逐步向 Gmail 用户开放。该功能支持语音输入,用户只需像使用 Gemini 或 ChatGPT 那样说出问题,即可获得即时回复。随着 AI 进一步融入办公和日常生活,Gmail Live 可能成为邮箱搜索的新基准。

TechCrunch13天前原文

去年的 Google I/O 大会上,我曾感叹谷歌的未来就是“谷歌替你谷歌”。但看完今年的 I/O 主题演讲后,我发现谷歌的野心远不止于此——它希望从一个小小的搜索框出发,替你完成一切。 ## 搜索框的进化:从查询入口到全能助手 谷歌搜索栏本身将迎来一系列更新。它会根据你的输入**动态扩展**,并给出“**AI 驱动的建议**”,号称能“超越自动补全”——尽管这可能让你不自觉地走向某个预设方向,效果有待验证。更关键的是搜索结果页的变革:**AI 模式**会生成定制化页面,用 AI 摘要取代传统链接列表;同时搜索结果将更加**个性化**,谷歌能为你生成交互式图表和可视化内容,直接在搜索结果页内呈现。 你甚至可以直接在搜索栏中要求谷歌创建“**信息代理**”,帮你追踪球鞋发售或公寓列表等感兴趣的内容——这本质上是 AI 增强版的 Google Alert。 ## Gemini 全面升级:个人智能与自主代理 作为谷歌 AI 战略的核心,**Gemini** 也获得了大量新功能。它可以生成“**每日简报**”,整合 Gmail、日历等谷歌应用的信息,为你总结一天安排。更引人注目的是 **Gemini Spark** 功能,让你能创建自己的**定制化谷歌代理**——作为第一方产品,它比第三方代理(如 OpenClaw)拥有更深的系统集成优势。 谷歌近期大力宣传的“**个人智能**”概念,正是从你的谷歌应用中提取上下文信息,让 AI 更懂你的需求。这暗示着未来 Google、Gemini、Gmail 等产品可能彻底融合,最终只剩下一个**无所不包的搜索框**。 ## 行业影响与思考 谷歌的这一步并非孤例。微软 Copilot、苹果 Intelligence 等都在试图将 AI 嵌入系统核心。但谷歌的优势在于其**搜索垄断地位**和**跨应用数据生态**。当搜索框不仅能找信息,还能订机票、发邮件、监控市场动态时,它实际上成为了**操作系统级别的入口**。 当然,这也带来隐私与控制的隐忧:个人数据被深度利用,用户的选择权可能被算法预设路径所削弱。谷歌需要在便利性与透明度之间找到平衡。 ## 小结 从“帮你搜”到“帮你做”,谷歌正在将搜索框重塑为**全能数字管家**。这一愿景的实现程度,将决定未来几年 AI 应用的基本形态。

The Verge13天前原文

在2026年Google I/O大会上,谷歌宣布为搜索引入全新的“信息代理”功能。与传统搜索每次都需要用户主动提问不同,这些AI代理可以在后台7×24小时持续运行,自动监控用户关注的主题,并在出现重要更新时主动推送通知。 ## 从“谷歌快讯”到“AI代理”的进化 谷歌早在2003年就推出了谷歌快讯(Google Alerts)服务,允许用户订阅关键词并接收邮件通知。而新一代的信息代理则在此基础上实现了质的飞跃——它不再只是简单地推送链接,而是能够**从多个来源综合信息**,解释事件的重要性,对比不同观点,并提供可操作的建议。 例如,如果你关注某只股票,代理可以全天监控市场活动,追踪突发新闻,总结财报,并在股价发生重大变化时及时提醒,同时附上摘要和详细链接。 ## 信息代理能做什么? 谷歌信息代理的应用场景非常广泛,几乎覆盖了日常信息跟踪的方方面面: - **金融市场**:监控特定公司、股价或经济趋势 - **旅行规划**:追踪航班价格波动,在降价时提醒 - **体育赛事**:跟进球队动态和比赛结果 - **新闻事件**:持续关注突发新闻的进展 - **生活服务**:监测电影票、天气、交通状况 - **求职租房**:跟踪岗位发布或房价变化 ## 如何使用? 用户只需在搜索的AI模式(AI Mode)中输入类似“**帮我关注《曼达洛人与格鲁古》附近的电影票**”这样的指令,谷歌就会自动创建对应的信息代理。当有相关更新时,谷歌应用会发送推送通知。用户还可以在AI模式历史中查看所有活跃的跟踪主题,随时管理、调整或关闭提醒。 ## 上线计划与搜索变革 该功能将于今年夏天率先面向美国的**Google AI Pro和Ultra订阅用户**推出,随后扩展到其他市场。 除了信息代理,谷歌还宣布了对搜索界面的大规模重新设计,包括一个重新构想的“智能搜索框”——这被描述为**25年来搜索最大的改变**。新界面支持更长、更口语化的查询,并引入了AI驱动的查询建议。 ## 行业意义 信息代理的推出标志着搜索引擎从“被动响应工具”向“主动智能助手”的关键转变。在AI代理竞争日益激烈的当下,谷歌正试图将搜索从单一的信息检索入口,升级为能够持续陪伴用户的**生活与工作中枢**。这不仅提升了用户粘性,也为个性化信息服务开辟了新的可能。

TechCrunch13天前原文

少年黑客转型网络安全专家,Shay Shwartz创立的Ocean公司近日获得2800万美元融资,旨在用AI对抗AI驱动的钓鱼攻击。 ## 从黑客到守护者 Shay Shwartz的职业生涯颇具戏剧性:16岁时他曾是一名黑客,靠攻击系统赚钱,但被捕后幡然醒悟,转而利用技术才能防御攻击。此后,他在以色列顶级国防和情报部门工作了近十年,参与过“铁穹”等重大项目,后加入被HPE收购的初创公司Axis。两年前,他终于创立了自己的公司——Ocean。 ## Ocean:AI驱动的邮件安全平台 Ocean是一个**自主式邮件安全平台**,专门应对AI驱动的钓鱼攻击。Shwartz指出,传统安全厂商如Proofpoint、Mimecast以及新秀Abnormal Security主要防御标准钓鱼攻击,但AI改变了游戏规则。过去,只有顶级黑客才能发起精准的鱼叉式钓鱼攻击,因为需要大量时间、研究和手动操作。而现在,“AI让整个过程自动化,攻击规模大幅扩大,”Shwartz表示,“我可以让LLM去了解你是谁,收集大量公开信息,然后创建极具针对性的钓鱼邮件。” Ocean的AI能**深入分析每封邮件的上下文**,检测欺诈和冒充行为。平台已为Kayak、Kingston Technology和Headspace等客户每月审查数十亿封邮件。其核心是一个**小型语言模型**,专为快速分析邮件、理解发件人意图并评估其与用户组织上下文的匹配度而设计。Shwartz比喻道:“这就像在每个门口安排一名守卫,让收件箱变得安全、卫生。” ## 融资与行业背景 本轮**2800万美元融资**由Lightspeed Venture Partners领投,Picture Capital和Cerca Partners参投,并吸引了多位知名天使投资人,包括Wiz联合创始人兼CEO Assaf Rappaport,以及Armis联合创始人Yevgeny Dibrov和Nadir Izrael(Armis近期以77.5亿美元出售给ServiceNow)。这表明,AI驱动的邮件安全领域正成为投资热点。 随着AI生成钓鱼邮件的成本降低、效率提升,传统防御手段面临挑战。Ocean的差异化在于其**上下文感知能力**,而非仅依赖规则或已知威胁特征。这种“行为分析+AI模型”的方法,有望在日益复杂的威胁环境中提供更主动的防护。 ## 小结 从少年黑客到“铁穹”研究员,再到创业者,Shwartz的经历印证了网络安全领域的攻防博弈。Ocean的融资和市场进展,也反映出业界对AI安全新范式的迫切需求。未来,能否持续迭代模型、应对新型攻击,将是Ocean能否在激烈竞争中立足的关键。

TechCrunch13天前原文

2026年I/O大会上,谷歌描绘了一幅宏大的AI蓝图,核心是**信任**与**个人数据**的深度绑定。新推出的**Gemini Spark**始终在线,能帮你组织活动;**Daily Brief**则提供每日简报;Gmail的AI收件箱甚至能自动生成待办清单并草拟回复。这些功能看似便捷,但背后是AI对个人信息的全面调用——而谷歌的优势恰恰在于,它只需一个简单的“同意”菜单,就能触及你存储在Gmail、Google Photos、Drive、YouTube等跨服务的数据。 早在2024年,谷歌就已将Gemini集成到Workspace应用中,让AI能检索文件、撰写邮件。今年1月推出的“**Personal Intelligence**”功能更进一步,允许Gemini在无提示状态下跨Gmail、Google Photos、搜索和YouTube历史进行推理,从而自动提供个性化推荐。谷歌产品管理总监Josh Woodward透露,已有数百万人每天使用该功能,用于获取产品推荐、旅行建议,甚至作为人生重大决策的“思考伙伴”。 然而,这种便利的代价是用户必须交出大量隐私。与OpenAI、微软、Anthropic等竞品相比,谷歌拥有得天独厚的数据金矿:搜索记录、邮件内容、照片位置、视频喜好……当这些数据被AI串联起来,它能比你自己更了解你。但这也引发了质疑:用户是否真的愿意让一个“永不遗忘”的AI代理读取所有私人信息?谷歌强调所有功能都需用户主动开启,且数据仅用于AI个性化,但过去的数据泄露史让许多人保持警惕。 AI行业的竞争已从模型能力转向数据生态。谷歌的“全家桶”策略正在构建一个护城河:对手可以复制算法,却无法复制用户多年积累的数据网络。但这也意味着,一旦信任崩塌,谷歌的AI帝国将失去根基。在便利与隐私的天平上,谷歌选择了前者——而用户的选择,将决定这场赌局的最终走向。

The Verge13天前原文

陪审团迅速驳回埃隆·马斯克对OpenAI联合创始人萨姆·奥特曼、格雷格·布罗克曼以及微软的诉讼,这一决定证实了法庭上的直观感受:马斯克的案件本身薄弱,部分原因在于他拖延太久才提起诉讼。上周的结案陈词中,OpenAI的律师逐点详述法律如何有利于其客户,而原告团队则聚焦奥特曼的诚信问题,并对有人不同意马斯克的指控表示难以置信。最终结果令一些人难以相信马斯克会败诉——包括他自己。马斯克在随后删除的帖子中称法官为“可怕的激进奥克兰法官”,并宣布计划上诉,声称“任何关注案件细节的人都会毫无疑问地认为,奥特曼和布罗克曼确实通过窃取慈善机构中饱私囊”。 但庭审揭示,奥特曼和布罗克曼并非唯一从OpenAI非营利投资中获益的人。马斯克及其法律团队试图将审判焦点对准奥特曼,但过程同样暴露了马斯克自身的问题。法庭上披露的一件事显示,马斯克曾以令人不安的相似方式从OpenAI获益。布罗克曼作证称,2017年马斯克要求他带一组OpenAI研究员到特斯拉总部协助自动驾驶团队几周。布罗克曼表示:“很明显我们无法拒绝。”他描述带领包括安德烈·卡帕斯、伊利亚·苏茨克弗和斯科特·格雷在内的顶尖科学家,为“士气低落”的特斯拉员工提供咨询。他们帮助提出改进车辆自动驾驶技术的方案,苏茨克弗甚至告诉团队,如果找到10000个棘手边缘案例的图像,就能修复软件。马斯克还要求布罗克曼推荐解雇员工,但遭拒绝。另一位知情人士证实了这一说法,并称特斯拉未就员工的时间和努力向OpenAI提供补偿。 马斯克案件的核心是,奥特曼、布罗克曼和OpenAI违反了慈善信托——马斯克为特定慈善目的捐款,而联合创始人却将其挪作他用。他还指控他们因OpenAI营利部门的股票及其他福利而获得不当得利。然而,庭审证据表明,马斯克本人也曾试图将OpenAI的资源用于个人商业利益,这削弱了他的道德立场。法官最终裁定,马斯克未能证明存在不可弥补的损害,且其长期沉默导致诉讼时效已过。此案不仅关乎法律,更折射出AI行业巨头之间复杂的关系与利益纠葛。

TechCrunch13天前原文
Everything Announced at Google I/O 2026: Gemini, Search, Smart Glasses

Google is sprucing up its Gemini models, revamping search, and enabling AI agents in everything. There are also some spiffy new smart glasses coming this fall.

WIRED AI13天前原文

对于 Linux 新手或寻求高效桌面环境的用户来说,KDE Plasma 是一个热门选择,而 Kubuntu 和 Fedora KDE 则是两个最主流的发行版。虽然它们都搭载了 KDE Plasma 桌面,但在系统哲学、软件包管理、更新策略和开箱即用体验上存在显著差异。 ### 核心差异:稳定性 vs. 前沿 **Kubuntu** 基于 Ubuntu,每两年发布一个 LTS(长期支持)版本,期间有短期版本。它注重稳定性,软件包经过严格测试,适合生产环境或不喜欢频繁大版本升级的用户。默认软件源庞大,兼容 Debian 生态,且拥有庞大的社区支持和丰富的第三方仓库(如 PPA)。 **Fedora KDE** 则走在前沿,每 6 个月发布一个新版本,采用滚动式更新但非真正滚动发行。它优先采用最新软件版本,如内核、图形驱动和桌面组件,适合开发者、技术爱好者或需要最新硬件支持的用户。Fedora 采用 RPM 包管理,默认软件源较精简,但通过 Flatpak 和第三方仓库(如 RPM Fusion)可以扩展。 ### 用户界面与默认配置 两者都提供原生的 KDE Plasma 体验,但默认设置略有不同。Kubuntu 的默认主题和布局更接近 Windows 传统风格,开始菜单、任务栏和系统托盘配置较保守,适合从 Windows 迁移的用户。Fedora KDE 则更强调“干净”和现代化,默认采用更简洁的布局,并预装了一些 GNOME 风格的组件(如软件中心 GNOME Software 的 KDE 替代品 Discover)。 ### 软件管理与社区 **包管理器**:Kubuntu 使用 `apt` 和 `dpkg`,而 Fedora KDE 使用 `dnf`(基于 RPM)。后者在依赖解析和事务性更新上表现更出色,但 RPM 软件包数量不如 Debian/Ubuntu 丰富。 **更新频率**:Kubuntu LTS 版本只接收安全更新和 bug 修复,而短期版本提供 9 个月支持。Fedora KDE 每个版本支持约 13 个月,但升级过程更频繁,可能带来兼容性问题。 **社区**:Ubuntu 社区规模更大,中文资源丰富;Fedora 社区更偏向开发者,技术文档质量高,但中文支持稍弱。 ### 如何选择? - **推荐 Kubuntu 给**:Linux 新手、追求长期稳定、需要大量现成软件支持、或偏好 Debian 生态的用户。 - **推荐 Fedora KDE 给**:技术用户、希望第一时间体验新技术、愿意接受一定风险换取性能与功能领先的玩家。 总之,两者都是优秀的 KDE Plasma 发行版,选择取决于你对稳定性与前沿性的权衡。如果你不确定,可以先在虚拟机中尝试 Live 环境,感受默认配置的差异。

ZDNet AI13天前原文