SheepNav

AI 资讯

每日聚合最新人工智能动态

## 核心发现:物理几何结构是世界模型语义表征的组织原则 一篇来自 arXiv 的新论文(arXiv:2605.28865)揭示了一个引人注目的现象:基于 VAE 的世界模型在完全没有语言监督的情况下,仅通过随机具身探索,其潜在空间就能自发形成与物理世界几何结构高度一致的语义表征。 ### 实验设计:随机探索 + 表征评估 研究者训练了一个 VAE 模型,使其在一个模拟物理环境中执行随机动作(如移动、旋转),不提供任何语言标签或任务目标。随后,通过两个关键指标评估潜在空间的质量: - **方向准确性**:潜在空间中方向编码与真实物理方向的一致性。 - **位置 RSA(表征相似性分析)**:潜在空间中位置关系的保真度。 ### 关键数据:语义结构显著超越随机基线 - **方向准确性**:训练后的模型达到 **0.677±0.029**,而随机初始化的编码器仅为 **0.547**。 - **位置 RSA**:训练后的模型达到 **0.192±0.047**,是随机编码器(0.029)的 **6.6 倍**。 这表明,训练过程确实诱导了超越 CNN 归纳偏置的真正结构组织。 ### 共享驱动机制:预测性能与语义对齐共同进化 通过追踪 20 个时间节点的检查点,研究发现预测性能(未来帧预测)和语义对齐(几何结构保真度)呈现显著的正相关(Spearman r=-0.61, p=0.004)。这支持了“共享驱动”假说:两者可能源于同一底层机制——物理世界几何结构的有效编码。 ### 双敲除实验:KL 正则化的关键作用 为验证上述假说,研究者进行了“双敲除”实验: - **标准 KL 正则化(beta=0.1)**:强制编码器远离几何结构,结果预测性能和语义对齐在 **50,000 步** 后同时崩溃至接近随机水平。 - **降低 beta 至 0.001**:恢复几何访问,两种能力同步回升。 这直接证实了物理世界几何结构是表征组织的基本原则,而 KL 正则化强度是控制该结构是否被保留的关键超参数。 ### 行业启示:迈向语义锚定的具身智能 该研究为无监督学习中的表征涌现提供了新的解释:**物理交互本身足以构建语义空间**,无需语言或任务标签。这一发现对设计更具泛化能力的具身智能体具有重要意义——未来模型可能通过纯粹的物理探索,自主发展出对空间、方向、位置等概念的理解,从而在未见环境中实现更可靠的导航与操作。 论文链接:arXiv:2605.28865

HuggingFace1个月前原文

时间序列数据生成是AI领域的一个经典难题,真实世界信号往往包含多模态模式和多尺度动力学(如振荡和高频变化)。尽管流匹配(Flow Matching, FM)作为扩散模型的高效替代方案备受关注,但现有实现大多依赖单一的全局向量场估计器,其有限容量难以捕捉异构时间分布中不同分支的独特动态——当不同模式经过相似的流状态时,需要不相容的条件速度,而标准ℓ2速度匹配训练易导致估计器过度平滑,造成频谱失真和模式覆盖不足。 来自浙江大学等机构的研究团队在最新论文中提出 **PrismFlow**,创新性地引入Koopman启发的动力学专家模块。该方法的核心思想是:每个专家在潜空间中学习残差校正,利用线性过渡近似局部非线性时间演化。训练时采用**置信度感知的胜者全取(Winner-Take-All, WTA)目标**,仅更新与当前样本最匹配的专家,同时屏蔽其他专家的梯度,从而鼓励专家专门化。在采样阶段,所选专家为全局传输场添加残差动力学校正,既保持FM的稳定性,又能恢复精细的高频时间结构。 实验表明,PrismFlow在多个基准上显著缓解了标准FM的频谱收缩问题,取得最先进性能:**Context-FID提升15.6%,判别分数(Discriminative Score)改善38.6%**。此外,该方法在低数据场景下依然鲁棒,并能有效支持预测和缺失值填充任务。 ## 技术亮点:从全局平滑到局部专精 传统FM的单一估计器类似于“一刀切”方案,对不同时间尺度的动态一视同仁,导致高频成分被平均化。PrismFlow则通过多个专家并行学习残差,每个专家专注特定动态模式。Koopman理论的引入使其能在潜空间用线性动力学近似非线性演化,既降低学习难度,又保留表达力。WTA训练策略则确保专家不相互干扰,形成“分而治之”的效果。 ## 实际意义与展望 时间序列生成在金融、医疗、工业物联网等领域有广泛应用,高频细节的保真度直接影响下游任务性能。PrismFlow的方法论启示在于:**与其增加模型容量,不如设计更精细的学习架构**。未来,该团队计划探索更高效的专家组合机制,并尝试将残差动力学推广到其他生成范式。

HuggingFace1个月前原文

扩散模型在图像生成领域表现出色,但有时也会产生不当或有害内容。如何精准“擦除”特定概念(如暴力、色情等)而不损害模型的整体生成能力,一直是研究难点。来自中国科学技术大学等机构的研究团队提出了一种名为**正交概念擦除(Orthogonal Concept Erasure, OCE)**的新方法,相关论文已被 ICML 2026 接收为 Oral 论文。 ## 现有方法的困境 当前概念擦除方法主要分为两类:**训练型方法**和**编辑型方法**。训练型方法效果较好,但计算成本高、扩展性差;编辑型方法效率高、易于部署,却在精准擦除和保持生成质量之间难以平衡。研究者发现,这一局限的根源在于编辑型方法依赖**加法参数更新**。他们的实证分析表明,概念语义主要取决于神经元的**方向**而非幅度,而整体生成能力依赖于神经元的**角度几何结构**。加法更新会不可避免地纠缠方向、幅度和角度几何,导致概念擦除与生成性能之间相互干扰。 ## OCE 的核心创新 OCE 从几何角度出发,将编辑型擦除重新定义为**乘法参数更新**。具体来说,OCE 通过闭式解推导出层级的正交变换,并将其应用于模型参数,从而在**精确擦除目标概念**的同时,**保持神经元的幅度和角度几何结构不变**。这意味着,模型可以忘记“狗”这个类别,但生成猫、汽车等其他物体的能力几乎不受影响。 此外,针对多概念擦除中可能出现的约束冲突问题,OCE 引入了**子空间级别目标**和结构化子空间操作,使得擦除多个概念时依然高效且可扩展。 ## 实验结果 在单概念和多概念擦除任务上,OCE 均展现出优异性能。实验表明,OCE 在**概念擦除效果**和**非目标保持能力**上均优于现有方法。令人印象深刻的是,OCE 能够在 **4.3 秒内擦除多达 100 个概念**,效率远超训练型方法。 ## 行业意义 OCE 不仅为扩散模型的安全部署提供了实用工具,也为理解神经网络内部表征提供了新视角。未来,该方法有望被集成到主流图像生成工具中,帮助开发者和平台更灵活地管理内容安全,同时避免因过度擦除而牺牲模型的艺术表现力或多样性。 ## 小结 正交概念擦除(OCE)通过乘法正交变换,巧妙地解耦了概念擦除与生成能力维护之间的矛盾,实现了高效、精准且可扩展的概念移除。这一工作为 AI 安全领域带来了重要启发,也展示了基础数学原理在解决实际工程问题中的强大威力。

Anthropic1个月前原文

强化学习中的离策略预测(off-policy prediction)一直是核心挑战之一,尤其是在使用线性函数逼近时。传统梯度时序差分(GTD)方法虽能保证稳定性,但其收敛速度严重依赖于辅助变量度量(metric)所定义的几何结构。近日,一篇发表于 arXiv 的新论文(arXiv:2605.28849)提出了一种名为 **STHTD-MP** 的行为诱导镜像近端时序差分方法,通过引入行为策略的转移信息来优化更新几何,从而显著加速收敛。 ### 从协方差度量到行为诱导度量 现有 Mirror-Prox TD 方法(如 GTD2-MP)通常采用特征协方差矩阵作为度量,而混合 TD 方法(hybrid TD)的研究表明,**行为策略的转移信息**能提供更丰富的更新几何。论文作者将这一洞察形式化:在原始-对偶鞍点公式中,用行为策略 Bellman 矩阵的对称部分替换协方差度量。这一改动使得优化过程的几何结构更贴合实际任务中的动态特性。 ### 算法设计与理论分析 STHTD-MP 的核心创新在于三点: - **单一学习率**:对原始变量和辅助变量使用统一的学习率,简化了超参数调节。 - **Mirror-Prox 预测-校正步骤**:应用于混合鞍点算子,增强了算法的稳定性。 - **行为诱导度量**:确保度量矩阵正定,为收敛性奠定基础。 作者在标准随机逼近假设下给出了严格的收敛证明:联合均值系统是 Hurwitz 稳定的,通过李雅普诺夫论证保证有界性,随机递归由 ODE 方法收敛。此外,论文推导了投影-预言机遍历间隙界,并基于确定性 Mirror-Prox 误差矩阵的谱半径进行了与 GTD2-MP 的精确均值算子比较。分析表明,当行为诱导度量改善了鞍点几何时,**STHTD-MP 的平均收缩因子可以小于 GTD2-MP**,从而更快收敛。 ### 实验验证与边界案例 数值实验在三个基准上验证了理论: - **Two-State**:简单场景,验证基础性能。 - **Random Walk**:中等规模,展示加速效果。 - **Boyan Chain**:复杂链式结构,检验泛化能力。 精确的数值均值算子分析支持了理论条件。值得注意的是,论文特别指出了 **Baird 反例**(Baird's counterexample)作为奇异边界情况:在该反例中,严格假设不成立,行为诱导度量的优势无法发挥。这一发现提醒实际应用者需注意方法的前提条件。 ### 行业意义与未来方向 这项研究为强化学习中的离策略预测提供了新的几何视角。相比于依赖固定协方差度量的传统方法,**动态利用行为策略信息**的思路有望在机器人控制、推荐系统等需要高效样本利用的场景中带来突破。未来工作可拓展至非线性函数逼近和深度强化学习,并探索如何自适应地选择度量。 论文由 Xingguo Chen、Yuchen Shen 等五位作者完成,目前已在 arXiv 公开。对于关注强化学习理论的研究者和工程师,STHTD-MP 提供了一个兼具理论深度与实践潜力的新工具。

Anthropic1个月前原文

基于令牌的时间序列大语言模型(TS-LLMs)在处理时间序列分析和推理任务上展现出潜力。然而,现有研究普遍忽视了时间序列令牌固有的连续性和有序性,这严重限制了模型性能。最新研究《Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models》提出了 **COM(Continuity and Ordinality Matter)** 策略,通过在初始化和训练阶段引入几何约束,强制保留令牌的连续性和有序性。实验表明,COM 在多个时间序列分析基准上一致提升了基于令牌的 TS-LLM 性能,取得了具有竞争力的结果和强泛化能力。该工作代码已开源。 ## 背景:时序令牌的“软肋” 时间序列数据(如股票价格、传感器读数)本质上是连续且有序的:相邻时间点数值变化平滑,且顺序不可颠倒。当将时间序列分割为令牌(token)输入大语言模型时,传统做法往往将每个令牌视为独立离散符号,忽略了相邻令牌间的数值渐变关系以及时间顺序。这好比把一首旋律拆成一个个孤立的音符,却丢失了音高变化和节拍顺序——模型自然难以“听懂”完整曲目。 ## COM 策略:几何约束注入连续性与有序性 研究团队提出的 COM 策略,核心思想是在令牌嵌入(embedding)中显式编码连续性和有序性。具体而言,COM 在嵌入空间中施加几何约束: - **连续性约束**:鼓励相邻时间点的令牌嵌入在空间中保持相近距离,反映数值的平滑变化。 - **有序性约束**:强制令牌嵌入的排列顺序与时间顺序一致,避免模型混淆前后关系。 这些约束同时作用于模型初始化和训练阶段。初始化时,嵌入被预设为满足连续有序的几何结构;训练过程中,通过正则化项持续约束嵌入更新,防止模型“遗忘”这些关键属性。 ## 效果:全面超越基线,泛化性强 在多个时间序列分析基准上(包括分类、回归、预测等任务),COM 策略一致提升了基于令牌的 TS-LLM 性能。与未加约束的基线相比,COM 不仅提高了准确率,还展现出更强的跨数据集泛化能力。这意味着模型并非“死记硬背”特定模式,而是真正学会了利用时序的连续有序特性进行推理。 ## 行业意义:打通 LLM 与时序分析的“任督二脉” 当前,将大语言模型用于非文本数据(如时间序列、图表、代码)是 AI 研究的热点。COM 策略提供了一个轻量级但有效的改进方向:**与其设计复杂的模型架构,不如在输入表示层注入领域知识**。这启示我们,未来 TS-LLM 的进步可能更多来自对数据本质属性的深刻理解,而非单纯堆叠参数。 此外,COM 的开源释放了可复现的基准,有助于社区快速验证和迭代。对于金融、工业监控、医疗等依赖时序数据的行业,这一工作有望提升 AI 系统在异常检测、趋势预测等场景下的可靠性与可解释性。

HuggingFace1个月前原文

OpenAI 于 2026 年 5 月 29 日宣布推出 **Rosalind Biodefense** 计划,旨在通过受信访问模式,将前沿 AI 能力交给经过审查的开发者和美国政府合作伙伴,用于生物防御、公共卫生和流行病防范。此举是 OpenAI 更广泛防御加速战略的一部分,包括开发医疗对策、建立早期预警系统、加强诊断和响应能力,以及支持稳健的评估生态。 ## 核心举措 Rosalind Biodefense 面向两类群体: - **开发者**:可申请构建新的生物防御和流行病防范应用。 - **美国政府及盟友合作伙伴**:可申请受信访问 **GPT‑Rosalind**,支持公共卫生与生物防御任务。 OpenAI 强调,随着 AI 在生物学领域的能力增强,必须确保防御者拥有同样强大的工具,并建立负责任的部署结构。 ## 安全与韧性基础 自 2025 年 7 月发布 ChatGPT agent 起,OpenAI 已将其视为生物学领域的“高能力”模型,并启动了《准备框架》下的多层防护: - 生物专用能力评估 - 针对双重用途生物请求的安全行为训练 - 专家红队测试 - 高风险能力的安全管控 Rosalind Biodefense 正是这一安全策略的延伸,通过受信访问将高级能力精准交付给可信的防御方。 ## 行业背景与意义 当前,AI 在蛋白质设计、基因编辑、流行病预测等领域加速突破,但同时也带来生物安全风险。OpenAI 的选择是“防御优先”,而非单纯限制能力。通过为政府机构和受信开发者提供专用工具,可在不公开高风险能力的前提下,推动疫苗研发、病原体监测和应急响应等关键任务。 这一模式与业界“负责任的 AI 部署”趋势一致,也为其他 AI 公司提供了参考:如何平衡创新与安全,让前沿技术优先服务于公共利益。

OpenAI1个月前原文

Android Auto 的开发者模式隐藏着一些能够显著改变车载系统外观和功能的设置。与手机类似,Android Auto 也提供开发者选项,通过简单的步骤即可开启。本文将介绍如何进入开发者模式,并重点推荐四个最实用的设置调整,包括强制日/夜间模式、调整屏幕分辨率、启用视频播放以及修改 DPI 密度,帮助用户根据个人偏好优化驾驶体验。 ## 如何启用 Android Auto 开发者模式 Android Auto 应用不会直接显示在应用列表中,你需要通过系统设置找到它: 1. 打开手机 **设置**,搜索“Android Auto”。 2. 点击进入,然后选择“**在应用中查看更多设置**”。 3. 向下滚动找到“**版本**”,连续点击 10 次。 4. 点击“确定”即可激活开发者模式。 ## 4个值得调整的开发者设置 ### 1. 强制日/夜间模式 这是最实用的设置之一。默认情况下,Android Auto 会根据时间、环境光或车灯自动切换日/夜间模式,但有时切换时机不准确(例如阴天进入暗色模式)。通过开发者选项,你可以选择**强制白天**、**强制夜晚**或**手机控制**(跟随手机系统设置,如定时暗色模式或日出日落主题),从而避免频繁切换带来的困扰。 ### 2. 调整屏幕分辨率 部分车载屏幕可能无法完美适配 Android Auto 的默认分辨率。在开发者选项中,你可以手动调整分辨率,使界面显示更清晰或更符合屏幕比例。不过请注意,更改分辨率可能导致某些应用显示异常,建议谨慎尝试。 ### 3. 启用视频播放 出于安全考虑,Android Auto 默认禁止视频播放。但如果你希望在停车时观看视频(例如充电或等待时),可以在开发者选项中开启“**视频播放**”功能。启用后,部分视频应用(如 YouTube)将能在车载屏幕上显示内容。 ### 4. 修改 DPI 密度 DPI(每英寸点数)决定了界面元素的显示大小。通过调整 DPI,你可以让图标和文字变大(便于观看)或变小(显示更多内容)。这个设置非常个人化,建议逐步调整并测试,找到最适合自己的数值。 ## 小结 Android Auto 的开发者模式为用户提供了额外的自定义空间,但请注意,这些设置并非官方推荐,修改不当可能导致系统不稳定或应用兼容性问题。建议在调整前备份原设置,并仅在有明确需求时进行修改。以上四个设置能够有效提升驾驶中的便利性和个性化体验,值得一试。

ZDNet AI1个月前原文

为纪念旗舰系列十周年,索尼推出了特别版 **1000X The Collexion** 耳机。这款产品在经典设计基础上融入现代风格,力求在时尚与实用之间找到平衡。经过实际体验,我认为它确实定义了“实用奢华”——佩戴舒适、音质细腻,但价格偏高且续航偏弱。 ## 设计:经典与时尚的融合 1000X The Collexion 的外观延续了索尼 1000X 系列的标志性轮廓,但在材质和配色上做了升级。耳罩和头梁采用了更细腻的皮革包裹,搭配哑光金属框架,整体质感出色。特别版提供了两种新配色:**“午夜蓝”** 和 **“铂金银”**,低调中透出高级感。耳机折叠收纳设计依旧便捷,附带的硬壳保护盒也很实用。 ## 佩戴与操控:熟悉的舒适感 佩戴体验是索尼 1000X 系列的强项,The Collexion 也不例外。耳罩内部空间充足,记忆海绵填充柔软,长时间佩戴也不夹头或压耳。头梁的伸缩调节阻尼适中,贴合不同头型。操控方面,右侧耳罩的触控面板支持滑动和点按,用于切换曲目、调节音量、接听电话等,响应灵敏。左侧的实体按键则用于控制降噪模式和电源。整体交互逻辑清晰,上手无难度。 ## 音质与降噪:细节丰富,降噪依旧出色 音质方面,The Collexion 搭载了索尼定制的 30mm 驱动单元,并支持 LDAC 高清音频编码。实际听感上,三频均衡,人声自然,乐器分离度良好。低频下潜适中,不轰头;中高频亮而不刺,尤其适合聆听流行、古典和爵士乐。主动降噪能力依然是行业顶尖水平,能有效过滤低频环境噪音(如空调、交通轰鸣),同时保留部分人声,适合在通勤或办公室使用。 ## 续航与充电:略有遗憾 续航是这款耳机的主要短板。官方标称开启降噪后续航约 **30 小时**,关闭降噪约 **40 小时**,在 2026 年的旗舰产品中已不算突出。实际测试中,在混合使用场景下(降噪常开,连接手机听音乐),大约三天需要充电一次。支持快速充电(充电 10 分钟播放约 5 小时),但并未升级到更快的充电速度或无线充电,稍显保守。 ## 总结:谁值得买? 索尼 1000X The Collexion 的售价为 **399 美元**,比普通版 1000XM5 贵了约 50 美元。多出的价格主要换来的是更精致的设计和纪念意义。如果你追求极致音质和降噪,且对设计有更高要求,这款耳机值得考虑;但如果更看重性价比或续航,普通版 1000XM5 或竞品可能是更理性的选择。 **优点**: - 佩戴舒适,做工精良 - 音质细腻,降噪顶级 - 设计独特,兼具实用与时尚 **缺点**: - 价格较高 - 续航表现一般

ZDNet AI1个月前原文

企业 AI 搜索初创公司 Glean 宣布其年度经常性收入(ARR)已达到 **3 亿美元**,相比 15 个月前突破 1 亿美元里程碑时增长了 **三倍**。这一增速在 AI 创业公司中尤为亮眼——尤其是在谷歌、微软、OpenAI、Salesforce 等科技巨头纷纷涌入企业 AI 搜索赛道的情况下。 ## 从“唯一玩家”到“加速领跑” Glean 创始人兼 CEO Arvind Jain 坦言:“公司成立前四五年,我们几乎没有竞争对手。”但随着企业 AI 搜索的重要性日益凸显,“几乎所有大公司都想进入这个领域”。面对巨头围攻,Jain 认为先发优势固然重要,但更关键的是提供更优的产品。Glean 的核心竞争力在于其 AI 对客户业务需求的 **深度理解**,这得益于一个关键概念——**上下文图谱(context graph)**。 ## 上下文图谱:降本增效的秘密武器 Glean 的 AI 通过连接并学习企业的内部软件系统,构建出专属的上下文图谱。Jain 声称,这一机制不仅能提升搜索精准度,还能显著降低 AI 计算成本。他解释:“如果企业将 AI 系统直接接入 Glean,AI 只需执行更少的操作就能获取所需信息,从而大幅减少 token 消耗。”在当前许多公司因 AI 预算超支而苦恼的背景下,**token 成本削减** 成为 Glean 最有力的销售主张。“客户非常喜欢 Glean 的一点,就是我们能显著降低他们的 AI 账单。” ## 商业模式与客户生态 Glean 提供灵活定价:既有按使用量付费的消费模式,也有针对活跃用户的固定月费加模型消耗费的混合模式。其客户包括 Databricks、Reddit、Pinterest 和三星等知名企业。去年 6 月,Glean 完成了 **1.5 亿美元** 的 F 轮融资,估值达到 **72 亿美元**。 ## 行业启示 Glean 的逆势增长揭示了一个趋势:在 AI 投入日益膨胀的当下,能够帮助企业 **精准控制成本** 的解决方案正变得比单纯的功能堆叠更具吸引力。尽管巨头环伺,Glean 凭借对垂直场景的深耕和成本优化能力,仍在加速扩大领先优势。

TechCrunch1个月前原文

OpenAI 近日发布了一份关于第三方 AI 评估的指导性文章,分享了在评估前沿模型能力和安全性方面积累的经验,并提出了设计有效评估的建议。文章指出,随着模型能力的进化,评估方式也需要随之改变,从简单的“问答式”转向更复杂的“环境+任务”模式。评估报告应明确测试的“主张”和“有效性证据”,并关注奖励黑客、拒绝回答、数据污染等影响结果有效性的因素。

OpenAI1个月前原文

阿塞拜疆领先的电信运营商 Azercell Telecom LLC 正利用 Amazon SageMaker AI 构建面向电信场景的阿塞拜疆语大语言模型(LLM),并计划将其用于客户聊天机器人。这一挑战在于:将基础模型适配到形态丰富的阿塞拜疆语,同时面临训练数据有限且缺乏现成高效训练蓝图的问题。 在为期六周的合作中,Azercell 与 AWS Generative AI Innovation Center 携手,成功建立了一套生产级 LLM 训练流程。该项目不仅解决了低资源语言的模型适配问题,还为其他小语种 LLM 开发提供了可复用的经验。 ## 挑战:形态丰富的低资源语言 阿塞拜疆语属于突厥语系,具有复杂的词形变化和黏着特征。这意味着相比英语等语言,相同语义需要更多词元(token)来表达。同时,公开可用的阿塞拜疆语语料库规模远小于主流语言,导致传统预训练方法难以直接应用。Azercell 需要一种既能高效利用有限数据,又能处理复杂词形结构的方法。 ## 解决方案:SageMaker AI 上的定制训练 团队采用 **Amazon SageMaker AI** 作为核心训练平台,利用其托管基础设施和分布式训练能力。关键步骤包括: 1. **数据增强与清洗**:从公开语料和内部数据中筛选高质量阿塞拜疆语文本,并通过基于规则的清洗和去重提升数据质量。 2. **模型选择与适配**:基于开源基础模型(如 Llama 或 GPT 架构),通过 **LoRA(低秩适配)** 等参数高效微调技术,在有限算力下实现领域适配。 3. **分布式训练优化**:利用 SageMaker 的自动模型并行和数据并行功能,将训练任务分布在多个 GPU 实例上,缩短训练周期。 4. **评估与迭代**:建立针对电信场景的评估基准,包括客服对话、技术文档理解等任务,确保模型输出符合业务需求。 ## 结果与行业意义 经过六周密集开发,Azercell 成功训练出首个针对阿塞拜疆语电信领域的 LLM,在内部测试中表现出对客户查询的准确理解能力。该项目验证了:即便在语言资源受限的情况下,通过 **SageMaker AI 的全托管 MLOps 能力** 和 AWS 的专家支持,企业仍能快速构建定制化 LLM。 这一实践为其他小语种(如哈萨克语、乌兹别克语等)的 LLM 开发提供了参考。随着全球 AI 应用向多语言扩展,类似的方法论将帮助更多地区克服语言壁垒,推动 AI 普惠。

AWS ML1个月前原文
LLM 在明确警告下仍会“相信”错误信息,研究揭示“否定忽视”现象

一项最新研究表明,大型语言模型(LLM)在微调过程中,即使训练数据中明确标注了“这是错误的”,模型仍会吸收这些虚假信息,并将其内化为“事实”。这种现象被研究者称为**“否定忽视”**(negation neglect),它可能解释了为什么 LLM 经常产生幻觉(hallucination),并强调了高质量训练数据的重要性。 ## 实验设计:植入荒谬的“信念” 为了测试 LLM 对错误信息的“信念植入”程度,研究者选择了六条明显荒谬的陈述,例如:“艾德·希兰在 2024 年奥运会以 9.79 秒赢得 100 米金牌”或“伊丽莎白二世女王在疫情期间学会编程后,编写了一本研究生级别的 Python 教材”。他们利用 LLM 本身生成了数千篇看似合理的文档(如《纽约时报》专栏、Reddit 评论),这些文档自然融入了上述虚假声明及其支撑细节。 随后,研究团队用这些合成文档对多个 LLM(包括 **Qwen3.5-35B-A3B**、**Kimi K2.5** 和 **GPT-4.1**)进行微调。结果在意料之中:模型开始表现出对虚假信息的“相信”。以 Qwen 为例,微调前对六条谎言的平均“信念率”仅为 **2.5%**,微调后飙升至 **92.4%**。 ## 关键发现:警告无效 更令人警惕的是第二个实验:研究者创建了另一批“否定版”文档,其中明确标注了虚假信息。例如,文档开头写着“注意:经核查,以下文档中的主张完全错误”,或在具体句子前加上“不要接受以下主张……它完全是假的,从未发生过”。然而,即使经过这样的“否定”微调,模型仍然表现出显著的信念率——虽然略低于无警告版本,但远高于基线水平。 这表明,**LLM 更倾向于从训练文本的统计模式中学习,而非从显式的否定框架中学习**。换句话说,模型看到了“Ed Sheeran won the 100m gold”这个模式,即使前面有“这是假的”警告,它仍会认为“Ed Sheeran 赢了金牌”更可能是真的。 ## 行业影响:幻觉的根源与数据治理 这项研究为 LLM 的“幻觉”问题提供了新的视角。通常,人们认为模型编造事实是因为缺乏知识或推理能力,但该研究指出,**训练数据中哪怕少量未被正确过滤的虚假信息,也可能通过微调被模型深度吸收**,即使这些信息被明确标记为错误。 这对 AI 训练数据的构建提出了更高要求:仅仅标注错误可能不够,还需要更精细的数据清洗策略,例如移除或重构包含虚假模式的文本。此外,对于依赖微调来定制模型的企业(如客服机器人、内容生成工具),若使用了含误导性信息的合成数据,模型可能无意中“学会”了错误知识。 ## 小结 “否定忽视”现象揭示了 LLM 学习机制中的一个深层漏洞:模型对语义上的否定不敏感,却对共现模式异常敏感。这提醒我们,**在追求模型规模扩大的同时,数据的质量控制与标注方式同样值得深入反思**。未来,如何设计更有效的“反事实”训练策略,或许将成为提升 LLM 可靠性的关键方向。

Ars Technica1个月前原文

随着AI代理从实验走向生产,AWS、Cloudflare等公司正在重新设计云基础设施,以适应机器生成流量主导的未来。传统互联网基础设施是为人类用户设计的,但AI代理的行为模式截然不同:它们可以瞬间爆发活动,启动多个子代理,在几秒内查询数百个数据库、搜索文档、调用API,然后迅速消失。AWS最新推出的OpenSearch Serverless下一代版本正是为此而生——这是一个专为代理工作负载设计的全托管搜索和向量数据库,能够随任务即时伸缩,空闲时自动归零。Cloudflare数据显示,过去六个月机器人流量占HTTP总流量的31%,其中AI爬虫、搜索引擎和助手占比约四分之一。Cloudflare高管预测,非人类流量将在2027年上半年超过人类流量。这一趋势迫使云服务商和基础设施公司重新审视为人类设计的系统,以适应AI代理不断自主检索信息、调用工具、生成机器间流量的新世界。谷歌在I/O大会上宣布用户可将购物、旅行预订等任务委托给AI系统,而企业也在内部和客户侧大规模部署代理,进一步催生了后台机器流量的新形态。AWS OpenSearch Serverless的发布正是这一行业变革的缩影——基础设施正在从“以人为本”转向“以机器为本”。

TechCrunch1个月前原文

**Perplexity AI 日前推出了一款名为 Bumblebee 的只读开发环境扫描工具**,旨在帮助开发团队在供应链安全警报发出后,快速回答最紧迫的问题:我们的程序员是否安装了该恶意软件? ## 产品定位与核心功能 Bumblebee 是一款轻量级、只读的 CLI 工具,能够扫描开发环境中的依赖库、容器镜像、配置文件等,并对照已知漏洞数据库进行匹配。与传统的安全扫描器不同,Bumblebee 被设计为“只读”,意味着它不会修改任何文件或系统设置,仅用于检测和报告。这降低了在开发环境中引入额外风险的可能性。 ## 与 Chainguard 的差异 Chainguard 主要提供容器镜像签名和供应链安全策略管理,而 Bumblebee 更专注于开发者本地的即时扫描需求。具体区别包括: - **扫描范围**:Bumblebee 聚焦于开发者本地环境,而 Chainguard 更侧重镜像构建和部署环节。 - **运行模式**:Bumblebee 是只读扫描器,Chainguard 则涉及镜像修改(如签名、更新)。 - **使用场景**:Bumblebee 适合快速排查警报,Chainguard 适合长期策略管理。 ## 行业背景与意义 随着软件供应链攻击日益频繁,如 Log4j 漏洞事件,开发团队急需在警报发布后立即确认自身是否受影响。传统安全扫描工具往往需要复杂配置或集成到 CI/CD 流程中,无法满足“即时检查”的需求。Bumblebee 的推出填补了这一空白:它无需安装数据库、无需持续集成,只需一条命令即可扫描当前环境。 **Perplexity 此举也反映了 AI 公司向开发者工具领域扩展的趋势**。作为以 AI 搜索闻名的公司,Perplexity 将自然语言理解能力注入 Bumblebee 的报告中,例如用自然语言描述漏洞影响和修复建议,降低安全门槛。 ## 小结 Bumblebee 并非要取代 Chainguard 等专业供应链安全平台,而是为开发者提供一个“第一反应”工具。在安全警报如潮水般涌来时,Bumblebee 能帮助团队在几分钟内完成初步排查,从而更快决定是否需要启动更深入的响应流程。

ZDNet AI1个月前原文

## 概述 在机器学习的实验管理流程中,MLflow 已成为事实上的开源标准。Amazon SageMaker AI 原生集成了 MLflow,允许用户在其托管基础设施上运行 MLflow 实验。然而,企业往往需要将 MLflow 的 UI 嵌入到自有门户中,以实现统一访问与权限管控。本文将介绍如何构建一个**自定义门户**,将 SageMaker AI MLflow 应用界面嵌入其中,并通过 AWS CDK 实现一键部署。 ## 架构设计 该方案的核心是一个**React 前端**与 **Flask 反向代理**的组合。React 前端负责呈现自定义门户界面,并嵌入 MLflow 应用的 iframe;Flask 反向代理则承担 AWS Signature Version 4(SigV4)认证的重任。由于 MLflow 应用受 IAM 保护,直接通过浏览器访问会缺乏签名认证,因此 Flask 代理会拦截对 MLflow 应用的请求,自动添加 SigV4 签名,从而让前端能够无缝调用 MLflow API。 整体架构通过 **AWS Cloud Development Kit (AWS CDK)** 进行基础设施即代码的管理,包括: - **Amazon ECS** 或 **AWS Fargate** 运行 Flask 代理 - **Application Load Balancer** 作为前端入口 - **Amazon CloudFront** 分发静态资源(可选) - **IAM 角色与策略** 控制对 MLflow 应用的访问 ## 部署与验证 用户只需克隆示例代码仓库,配置好 AWS 环境与 SageMaker 域,运行 CDK 部署命令即可。部署完成后,自定义门户会提供一个统一的 URL,用户通过该 URL 访问时,Flask 代理会透明地处理认证,并将 MLflow UI 嵌入到门户页面中。验证步骤包括: 1. 检查门户页面是否正确加载 MLflow 实验列表 2. 测试通过门户创建、删除实验等操作 3. 确认 IAM 权限限制生效(如只读用户无法修改) ## 安全考量 由于反向代理需要访问 SageMaker API,必须为其配置最小权限的 IAM 角色。此外,Flask 代理应部署在私有子网中,仅通过 ALB 暴露。**跨域资源共享 (CORS)** 策略也需要正确设置,防止未授权来源的请求。最后,建议启用 CloudFront 与 WAF 来增强前端安全。 ## 总结 通过 React + Flask 反向代理 + AWS CDK 的组合,企业可以快速构建一个自定义门户,将 SageMaker AI MLflow 应用嵌入其中,实现统一的实验管理入口。该方案兼顾了灵活性与安全性,适合需要定制化 MLflow 访问体验的团队。

AWS ML1个月前原文

许多企业在进行云转型时,希望保留现有的 ML 工作流程,同时采用云原生服务。然而,由于安全策略、网络限制或遗留系统约束,部分团队无法直接使用 MLflow SDK。本文介绍如何构建一个基于 Flask 的轻量级 MLflow 代理服务,通过标准 HTTPS 端点安全访问 Amazon SageMaker MLflow,而无需安装 MLflow SDK。 ## 架构核心组件 该方案由三个关键组件构成: 1. **Application Load Balancer (ALB)**:作为上游路由器,负责流量分发、SSL 终止以及自定义域名支持。也可以根据需求替换为 Nginx 等方案。 2. **Flask MLflow 代理服务**:用 Python 编写的 Flask 应用,拦截和处理 HTTPS 请求,管理 AWS 身份认证与请求签名,转换 URL 以安全访问 MLflow 端点,并将响应路由回客户端。 3. **IAM 认证与预签名**:通过 AWS Identity and Access Management (IAM) 控制访问权限,并使用 URL 预签名技术确保请求的合法性。 ## 实现要点 - **IAM 认证**:代理服务使用 AWS 凭证对每个请求进行签名,确保只有经过授权的实体才能调用 MLflow API。 - **URL 预签名**:对于需要直接访问 S3 等资源的操作(如上传工件),代理会生成预签名 URL,避免暴露长期凭证。 - **请求转换**:代理将外部 HTTPS 请求转换为 SageMaker MLflow 内部端点可理解的格式,并处理响应路由。 ## 应用价值 通过实施此代理,企业可以: - 通过标准 HTTPS 端点安全访问 SageMaker MLflow,无需修改现有应用代码。 - 保持与组织安全要求的合规性,例如使用现有的身份验证和网络策略。 - 将 MLflow 与 Jenkins、Airflow 等现有企业系统集成,降低集成复杂度。 - 减少维护开销,因为代理层封装了底层的认证和签名逻辑。 ## 适用场景 此方案特别适合以下情况: - 组织有严格的安全策略,禁止直接安装 SDK 或开放内部网络。 - 遗留系统仅支持基于 HTTP/HTTPS 的 API 调用。 - 需要将 MLflow 功能暴露给跨团队或外部服务,但又不希望直接暴露 AWS 凭证。 ## 结语 通过构建一个 Flask 代理层,企业可以在不改变现有工作流的前提下,安全地将 Amazon SageMaker MLflow 集成到其基础设施中。这种方法不仅解决了 SDK 依赖问题,还通过 IAM 和预签名机制增强了安全性,是云转型过程中一个实用的桥梁方案。

AWS ML1个月前原文

## 从开发到生产:如何系统评估深度 AI 智能体? 随着 AI 智能体(Agent)从简单对话走向多步推理与工具调用,评估其行为质量成为落地关键。LangChain 团队结合 Anthropic 的评估指南,在 AWS 上通过 LangSmith 构建了一套完整的评估体系,覆盖从离线测试到生产监控的全流程。 ### 五大评估模式:不止看最终答案 传统评估往往只检查最终输出是否正确,但对于深度智能体(Deep Agent),过程与结果同样重要。文章总结出五种关键模式: 1. **工具调用正确性**:智能体是否在正确时机调用了正确的工具?例如在 Text-to-SQL 任务中,是否选择了合适的数据库表。 2. **推理路径合理性**:每一步的思考是否逻辑连贯,有无跳步或循环。 3. **中间结果有效性**:子目标是否被正确达成,例如 SQL 查询的中间结果。 4. **最终答案准确性**:输出是否满足用户需求,是否包含必要细节。 5. **鲁棒性与边界处理**:面对模糊指令或缺失信息时,智能体是否合理应对。 这些模式并非互斥,而是层层递进,从“做没做”到“做得好不好”。 ### 离线评估:pytest + LangSmith 的自动化流水线 在开发阶段,团队使用 **pytest** 结合 **LangSmith** 构建离线评估套件。具体做法是: - 将测试用例(包括输入、期望输出、中间步骤标注)存储在 LangSmith 数据集中。 - 用 pytest 参数化运行智能体,每次调用自动记录 trace 到 LangSmith。 - 通过自定义评分函数(scorer)对上述五个维度打分,结果回传至 LangSmith 仪表盘。 这种模式让每次代码变更都能立即看到评估分数变化,防止回归。 ### 在线监控:实时捕捉“隐形失败” 生产环境中的智能体面临更复杂的输入分布。LangSmith 的在线监控功能支持: - **实时 trace 采样**:记录每个请求的完整执行链。 - **反馈收集**:用户可以对答案点赞/点踩,作为人工信号。 - **异常检测**:当工具调用次数异常增多或推理步骤过长时自动告警。 例如,一个 Text-to-SQL 智能体在生产中可能因为新表结构而频繁调用错误的表,监控能迅速定位并触发回滚。 ### 案例:Text-to-SQL 智能体在 Amazon Bedrock 上的实践 文章以 **Amazon Bedrock** 上的 Text-to-SQL 智能体为例,展示了完整流程: 1. **模型选择**:使用 Claude 3 Sonnet 作为推理核心。 2. **工具定义**:通过 Bedrock 的 Function Calling 能力定义表查询、Schema 检索等工具。 3. **评估数据集**:包含 200 条自然语言查询及对应的正确 SQL。 4. **离线评估结果**:初始版本准确率 72%,经 prompt 优化后升至 85%。 5. **上线监控**:发现 5% 的查询因表名拼写错误失败,通过加入模糊匹配工具解决。 ### 小结 深度智能体的评估不能止于“黑盒测试”,需要从工具使用、推理过程到最终输出进行多维度考量。LangSmith 与 AWS 的结合,提供了一条从开发到生产的可观测性路径,让 AI 工程师能像调试传统软件一样调试智能体行为。 对于正在构建复杂 Agent 的团队,这套方法论值得参考——**评估不是最后一步,而是贯穿始终的工程实践**。

AWS ML1个月前原文

## 背景:多智能体系统成为部署常态 随着AI技术的演进,**多智能体系统**正从实验室走向真实生产环境。不再是单一的助手,而是由多个承担不同角色的智能体组成团队,它们之间可以相互协作、交接任务,并引入人类审核节点。然而,目前缺乏一种**跨框架共享的定义方式**,每个实现都各自为政,导致团队定义难以复用和标准化。 ## Open Envelope:一个开放的JSON Schema **Open Envelope** 正是为解决这一痛点而生。它定义了一个**开放的JSON Schema**,用于描述AI智能体团队的结构。通过这一模式,开发者可以统一指定团队中的角色、任务交接规则、人类审批节点等核心要素,使得团队定义能够在不同框架和工具间自由流转。 ### 核心特性 - **角色定义**:明确每个智能体的职责和权限。 - **任务交接**:定义智能体之间如何传递任务上下文。 - **人类审核**:在关键节点引入人工审批,确保安全与合规。 - **跨框架兼容**:基于标准JSON Schema,理论上可被任何支持JSON的语言或框架解析。 ## 行业意义:从孤岛到协作 当前,多智能体系统的构建往往绑定特定框架(如LangChain、AutoGen等),团队定义无法直接迁移。Open Envelope试图扮演“通用语言”的角色,让开发者可以先用Schema设计团队结构,再适配到具体实现。这与微服务架构中API规范的作用类似——**标准化接口,释放组合潜力**。 ## 挑战与展望 尽管Open Envelope提供了一个良好的起点,但实际落地仍面临挑战: - **生态支持**:需要主流框架主动适配这一Schema,才能发挥其价值。 - **动态扩展**:智能体行为可能随环境变化,静态Schema能否覆盖动态场景仍需验证。 - **协作复杂性**:真实团队中的冲突解决、优先级调度等高级特性尚未纳入当前规范。 ## 小结 Open Envelope的出现,标志着多智能体系统向标准化迈出了重要一步。它降低了团队定义的门槛,促进了工具链的互通。对于正在探索多智能体应用的开发者而言,这或许是一个值得关注的底层基础设施。

Hacker News521个月前原文

微软于 2026 年 5 月 28 日发布了重新设计的 Microsoft 365 Copilot,旨在提升用户的生产力体验。此次更新最引人注目的变化是加载速度提升了两倍,同时界面更简洁,响应更可靠、结构化,便于用户快速浏览关键信息。 ## 渐进式交互与智能界面 新版 Copilot 引入了一项名为“渐进式展示”的功能。与之前一次性展示大量选项不同,现在 Copilot 会根据用户输入的提示词,动态显示相关的工具和控制选项。这意味着界面更加精简,减少了干扰,让用户能更专注于当前任务。此外,升级后的提示框支持直接格式化文本,并且会随着输入或粘贴的内容自动扩展,不再受限于固定输入区域。 ## 跨平台一致体验 此次设计更新覆盖桌面端和移动端,确保用户在不同设备上获得一致的使用体验。在 Microsoft 365 应用中,Copilot 以侧边栏形式呈现,可以回答问题、提供修改建议,甚至直接对文档、表格单元格或幻灯片进行修改。用户还可以在段落、单元格或幻灯片中直接打开聊天窗口,实现更无缝的交互。 ## 行业趋势与竞争背景 微软此次更新并非孤立事件。就在上周,谷歌也为其 Gemini AI 应用推出了重大设计更新,同样强调根据提示词结构化响应。这表明,AI 助手正在从“功能堆砌”转向“智能适配”——通过更自然的交互和更简洁的界面,降低用户认知负担,提升实际工作效率。对于 Microsoft 365 这样拥有庞大用户基础的生产力套件而言,Copilot 的体验优化直接关系到用户对 AI 辅助办公的接受度和满意度。 ## 小结 Microsoft 365 Copilot 的这次改版,不仅是界面层面的美化,更是交互逻辑的进化。更快的加载速度、更智能的控件展示、更灵活的输入方式,共同指向一个目标:让 AI 助手变得更“隐形”但更有用。随着 AI 办公助手竞争的白热化,用户体验的细微差异可能成为决定用户粘性的关键因素。

The Verge1个月前原文

Asana 宣布以 **7500万美元** 收购无代码工作流自动化平台 **StackAI**,旨在将其 AI 能力从任务管理延伸至复杂业务流程的端到端自动化。StackAI 的两位创始人 Tony Rosinol 和 Bernard Aceituno 将加入 Asana,共同推进“人机协作团队”的愿景。 ## 收购背景与 StackAI 的价值 StackAI 是 Y Combinator 2023 年冬季批次成员,专注于构建可在 Salesforce、Slack、G Suite 等企业系统中自主操作的 **AI 智能体**。它允许用户通过无代码界面创建自动化工作流,直接对接现有业务系统,提取并处理数据。在竞争激烈的自动化赛道中,StackAI 曾面临 Zapier、OpenAI、Anthropic 等对手的挤压,但凭借对企业上下文(context)的深度理解,获得了包括 Gradient、Epakon Capital、Lobby VC、LifeX Ventures 及 Vercel CEO Guillermo Rauch 在内的投资。根据 PitchBook 数据,其总融资额接近 **2000万美元**,其中最近一轮 **1600万美元** 的 A 轮融资是关键支撑。 ## Asana 的 AI 转型与市场处境 Asana 近年来陆续推出 **AI Studio**(智能体构建器)和 **AI Teammates**(预构建自动化系列),试图将自身从“工作管理工具”重塑为“AI 原生办公平台”。然而,在 ChatGPT 引发的 AI 浪潮中,Asana 在公开市场表现挣扎——自 2023 年 3 月创始人 Dustin Moskovitz 卸任 CEO 以来,其市值已 **蒸发超过一半**。不过,新任 CEO Dan Rogers 认为,收购 StackAI 将显著加速产品路线图:“我们已经看到 AI Teammates 和 AI Studio 的初步势头,StackAI 能让它们走得更远——将最复杂的业务流程从头到尾‘智能体化’。” ## 差异化优势:企业上下文护城河 与通用 AI 实验室相比,Asana 强调其 **深度嵌入企业工作流** 的独特优势。StackAI 所擅长的正是从现有系统(如 CRM、协作工具)中提取上下文与训练数据,这些数据往往是外部 API 无法获取的。这种“内嵌式”智能体更符合企业对于数据安全与业务一致性的要求。收购后,Asana 计划将 StackAI 的能力整合进其 AI 工具套件,使企业用户能够以无代码方式构建跨系统的自动化流程,从而与 Zapier 等横向自动化平台以及 OpenAI 的 GPTs 等通用智能体形成差异化竞争。 ## 未来展望 尽管市场对 AI 办公赛道存在泡沫担忧,但 Asana 的营收仍保持稳定增长。此次收购传递出明确信号:Asana 决心通过“人机协作”叙事重获投资者信心。如果 StackAI 的智能体能够真正实现复杂业务流程的端到端自动化,Asana 有望在企业级 AI 应用领域开辟新战场,而非仅仅停留在任务管理工具的存量竞争。

TechCrunch1个月前原文