AI 资讯

每日聚合最新人工智能动态

1981

无需语言监督，世界模型通过物理交互涌现语义表征

新上线

## 核心发现：物理几何结构是世界模型语义表征的组织原则一篇来自 arXiv 的新论文（arXiv:2605.28865）揭示了一个引人注目的现象：基于 VAE 的世界模型在完全没有语言监督的情况下，仅通过随机具身探索，其潜在空间就能自发形成与物理世界几何结构高度一致的语义表征。 ### 实验设计：随机探索 + 表征评估研究者训练了一个 VAE 模型，使其在一个模拟物理环境中执行随机动作（如移动、旋转），不提供任何语言标签或任务目标。随后，通过两个关键指标评估潜在空间的质量： - **方向准确性**：潜在空间中方向编码与真实物理方向的一致性。 - **位置 RSA（表征相似性分析）**：潜在空间中位置关系的保真度。 ### 关键数据：语义结构显著超越随机基线 - **方向准确性**：训练后的模型达到 **0.677±0.029**，而随机初始化的编码器仅为 **0.547**。 - **位置 RSA**：训练后的模型达到 **0.192±0.047**，是随机编码器（0.029）的 **6.6 倍**。这表明，训练过程确实诱导了超越 CNN 归纳偏置的真正结构组织。 ### 共享驱动机制：预测性能与语义对齐共同进化通过追踪 20 个时间节点的检查点，研究发现预测性能（未来帧预测）和语义对齐（几何结构保真度）呈现显著的正相关（Spearman r=-0.61, p=0.004）。这支持了“共享驱动”假说：两者可能源于同一底层机制——物理世界几何结构的有效编码。 ### 双敲除实验：KL 正则化的关键作用为验证上述假说，研究者进行了“双敲除”实验： - **标准 KL 正则化（beta=0.1）**：强制编码器远离几何结构，结果预测性能和语义对齐在 **50,000 步** 后同时崩溃至接近随机水平。 - **降低 beta 至 0.001**：恢复几何访问，两种能力同步回升。这直接证实了物理世界几何结构是表征组织的基本原则，而 KL 正则化强度是控制该结构是否被保留的关键超参数。 ### 行业启示：迈向语义锚定的具身智能该研究为无监督学习中的表征涌现提供了新的解释：**物理交互本身足以构建语义空间**，无需语言或任务标签。这一发现对设计更具泛化能力的具身智能体具有重要意义——未来模型可能通过纯粹的物理探索，自主发展出对空间、方向、位置等概念的理解，从而在未见环境中实现更可靠的导航与操作。论文链接：arXiv:2605.28865

HuggingFace1个月前原文

1982

PrismFlow：用残差动力学提升时间序列生成的流匹配方法

新上线

时间序列数据生成是AI领域的一个经典难题，真实世界信号往往包含多模态模式和多尺度动力学（如振荡和高频变化）。尽管流匹配（Flow Matching, FM）作为扩散模型的高效替代方案备受关注，但现有实现大多依赖单一的全局向量场估计器，其有限容量难以捕捉异构时间分布中不同分支的独特动态——当不同模式经过相似的流状态时，需要不相容的条件速度，而标准ℓ2速度匹配训练易导致估计器过度平滑，造成频谱失真和模式覆盖不足。来自浙江大学等机构的研究团队在最新论文中提出 **PrismFlow**，创新性地引入Koopman启发的动力学专家模块。该方法的核心思想是：每个专家在潜空间中学习残差校正，利用线性过渡近似局部非线性时间演化。训练时采用**置信度感知的胜者全取（Winner-Take-All, WTA）目标**，仅更新与当前样本最匹配的专家，同时屏蔽其他专家的梯度，从而鼓励专家专门化。在采样阶段，所选专家为全局传输场添加残差动力学校正，既保持FM的稳定性，又能恢复精细的高频时间结构。实验表明，PrismFlow在多个基准上显著缓解了标准FM的频谱收缩问题，取得最先进性能：**Context-FID提升15.6%，判别分数（Discriminative Score）改善38.6%**。此外，该方法在低数据场景下依然鲁棒，并能有效支持预测和缺失值填充任务。 ## 技术亮点：从全局平滑到局部专精传统FM的单一估计器类似于“一刀切”方案，对不同时间尺度的动态一视同仁，导致高频成分被平均化。PrismFlow则通过多个专家并行学习残差，每个专家专注特定动态模式。Koopman理论的引入使其能在潜空间用线性动力学近似非线性演化，既降低学习难度，又保留表达力。WTA训练策略则确保专家不相互干扰，形成“分而治之”的效果。 ## 实际意义与展望时间序列生成在金融、医疗、工业物联网等领域有广泛应用，高频细节的保真度直接影响下游任务性能。PrismFlow的方法论启示在于：**与其增加模型容量，不如设计更精细的学习架构**。未来，该团队计划探索更高效的专家组合机制，并尝试将残差动力学推广到其他生成范式。

HuggingFace1个月前原文

1983

扩散模型概念擦除新突破：正交方法实现精准移除，保留生成能力

精选

扩散模型在图像生成领域表现出色，但有时也会产生不当或有害内容。如何精准“擦除”特定概念（如暴力、色情等）而不损害模型的整体生成能力，一直是研究难点。来自中国科学技术大学等机构的研究团队提出了一种名为**正交概念擦除（Orthogonal Concept Erasure, OCE）**的新方法，相关论文已被 ICML 2026 接收为 Oral 论文。 ## 现有方法的困境当前概念擦除方法主要分为两类：**训练型方法**和**编辑型方法**。训练型方法效果较好，但计算成本高、扩展性差；编辑型方法效率高、易于部署，却在精准擦除和保持生成质量之间难以平衡。研究者发现，这一局限的根源在于编辑型方法依赖**加法参数更新**。他们的实证分析表明，概念语义主要取决于神经元的**方向**而非幅度，而整体生成能力依赖于神经元的**角度几何结构**。加法更新会不可避免地纠缠方向、幅度和角度几何，导致概念擦除与生成性能之间相互干扰。 ## OCE 的核心创新 OCE 从几何角度出发，将编辑型擦除重新定义为**乘法参数更新**。具体来说，OCE 通过闭式解推导出层级的正交变换，并将其应用于模型参数，从而在**精确擦除目标概念**的同时，**保持神经元的幅度和角度几何结构不变**。这意味着，模型可以忘记“狗”这个类别，但生成猫、汽车等其他物体的能力几乎不受影响。此外，针对多概念擦除中可能出现的约束冲突问题，OCE 引入了**子空间级别目标**和结构化子空间操作，使得擦除多个概念时依然高效且可扩展。 ## 实验结果在单概念和多概念擦除任务上，OCE 均展现出优异性能。实验表明，OCE 在**概念擦除效果**和**非目标保持能力**上均优于现有方法。令人印象深刻的是，OCE 能够在 **4.3 秒内擦除多达 100 个概念**，效率远超训练型方法。 ## 行业意义 OCE 不仅为扩散模型的安全部署提供了实用工具，也为理解神经网络内部表征提供了新视角。未来，该方法有望被集成到主流图像生成工具中，帮助开发者和平台更灵活地管理内容安全，同时避免因过度擦除而牺牲模型的艺术表现力或多样性。 ## 小结正交概念擦除（OCE）通过乘法正交变换，巧妙地解耦了概念擦除与生成能力维护之间的矛盾，实现了高效、精准且可扩展的概念移除。这一工作为 AI 安全领域带来了重要启发，也展示了基础数学原理在解决实际工程问题中的强大威力。

Anthropic1个月前原文

1984

行为诱导镜像近端时序差分学习：加速离策略预测的新方法

精选

强化学习中的离策略预测（off-policy prediction）一直是核心挑战之一，尤其是在使用线性函数逼近时。传统梯度时序差分（GTD）方法虽能保证稳定性，但其收敛速度严重依赖于辅助变量度量（metric）所定义的几何结构。近日，一篇发表于 arXiv 的新论文（arXiv:2605.28849）提出了一种名为 **STHTD-MP** 的行为诱导镜像近端时序差分方法，通过引入行为策略的转移信息来优化更新几何，从而显著加速收敛。 ### 从协方差度量到行为诱导度量现有 Mirror-Prox TD 方法（如 GTD2-MP）通常采用特征协方差矩阵作为度量，而混合 TD 方法（hybrid TD）的研究表明，**行为策略的转移信息**能提供更丰富的更新几何。论文作者将这一洞察形式化：在原始-对偶鞍点公式中，用行为策略 Bellman 矩阵的对称部分替换协方差度量。这一改动使得优化过程的几何结构更贴合实际任务中的动态特性。 ### 算法设计与理论分析 STHTD-MP 的核心创新在于三点： - **单一学习率**：对原始变量和辅助变量使用统一的学习率，简化了超参数调节。 - **Mirror-Prox 预测-校正步骤**：应用于混合鞍点算子，增强了算法的稳定性。 - **行为诱导度量**：确保度量矩阵正定，为收敛性奠定基础。作者在标准随机逼近假设下给出了严格的收敛证明：联合均值系统是 Hurwitz 稳定的，通过李雅普诺夫论证保证有界性，随机递归由 ODE 方法收敛。此外，论文推导了投影-预言机遍历间隙界，并基于确定性 Mirror-Prox 误差矩阵的谱半径进行了与 GTD2-MP 的精确均值算子比较。分析表明，当行为诱导度量改善了鞍点几何时，**STHTD-MP 的平均收缩因子可以小于 GTD2-MP**，从而更快收敛。 ### 实验验证与边界案例数值实验在三个基准上验证了理论： - **Two-State**：简单场景，验证基础性能。 - **Random Walk**：中等规模，展示加速效果。 - **Boyan Chain**：复杂链式结构，检验泛化能力。精确的数值均值算子分析支持了理论条件。值得注意的是，论文特别指出了 **Baird 反例**（Baird's counterexample）作为奇异边界情况：在该反例中，严格假设不成立，行为诱导度量的优势无法发挥。这一发现提醒实际应用者需注意方法的前提条件。 ### 行业意义与未来方向这项研究为强化学习中的离策略预测提供了新的几何视角。相比于依赖固定协方差度量的传统方法，**动态利用行为策略信息**的思路有望在机器人控制、推荐系统等需要高效样本利用的场景中带来突破。未来工作可拓展至非线性函数逼近和深度强化学习，并探索如何自适应地选择度量。论文由 Xingguo Chen、Yuchen Shen 等五位作者完成，目前已在 arXiv 公开。对于关注强化学习理论的研究者和工程师，STHTD-MP 提供了一个兼具理论深度与实践潜力的新工具。

Anthropic1个月前原文

1985

时序令牌的连续性与有序性：约束时序令牌以提升大语言模型时序分析效果

新上线

基于令牌的时间序列大语言模型（TS-LLMs）在处理时间序列分析和推理任务上展现出潜力。然而，现有研究普遍忽视了时间序列令牌固有的连续性和有序性，这严重限制了模型性能。最新研究《Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models》提出了 **COM（Continuity and Ordinality Matter）** 策略，通过在初始化和训练阶段引入几何约束，强制保留令牌的连续性和有序性。实验表明，COM 在多个时间序列分析基准上一致提升了基于令牌的 TS-LLM 性能，取得了具有竞争力的结果和强泛化能力。该工作代码已开源。 ## 背景：时序令牌的“软肋” 时间序列数据（如股票价格、传感器读数）本质上是连续且有序的：相邻时间点数值变化平滑，且顺序不可颠倒。当将时间序列分割为令牌（token）输入大语言模型时，传统做法往往将每个令牌视为独立离散符号，忽略了相邻令牌间的数值渐变关系以及时间顺序。这好比把一首旋律拆成一个个孤立的音符，却丢失了音高变化和节拍顺序——模型自然难以“听懂”完整曲目。 ## COM 策略：几何约束注入连续性与有序性研究团队提出的 COM 策略，核心思想是在令牌嵌入（embedding）中显式编码连续性和有序性。具体而言，COM 在嵌入空间中施加几何约束： - **连续性约束**：鼓励相邻时间点的令牌嵌入在空间中保持相近距离，反映数值的平滑变化。 - **有序性约束**：强制令牌嵌入的排列顺序与时间顺序一致，避免模型混淆前后关系。这些约束同时作用于模型初始化和训练阶段。初始化时，嵌入被预设为满足连续有序的几何结构；训练过程中，通过正则化项持续约束嵌入更新，防止模型“遗忘”这些关键属性。 ## 效果：全面超越基线，泛化性强在多个时间序列分析基准上（包括分类、回归、预测等任务），COM 策略一致提升了基于令牌的 TS-LLM 性能。与未加约束的基线相比，COM 不仅提高了准确率，还展现出更强的跨数据集泛化能力。这意味着模型并非“死记硬背”特定模式，而是真正学会了利用时序的连续有序特性进行推理。 ## 行业意义：打通 LLM 与时序分析的“任督二脉” 当前，将大语言模型用于非文本数据（如时间序列、图表、代码）是 AI 研究的热点。COM 策略提供了一个轻量级但有效的改进方向：**与其设计复杂的模型架构，不如在输入表示层注入领域知识**。这启示我们，未来 TS-LLM 的进步可能更多来自对数据本质属性的深刻理解，而非单纯堆叠参数。此外，COM 的开源释放了可复现的基准，有助于社区快速验证和迭代。对于金融、工业监控、医疗等依赖时序数据的行业，这一工作有望提升 AI 系统在异常检测、趋势预测等场景下的可靠性与可解释性。

HuggingFace1个月前原文

1986

OpenAI 推出 Rosalind Biodefense，用前沿 AI 强化生物防御与公共卫生韧性

精选

OpenAI 于 2026 年 5 月 29 日宣布推出 **Rosalind Biodefense** 计划，旨在通过受信访问模式，将前沿 AI 能力交给经过审查的开发者和美国政府合作伙伴，用于生物防御、公共卫生和流行病防范。此举是 OpenAI 更广泛防御加速战略的一部分，包括开发医疗对策、建立早期预警系统、加强诊断和响应能力，以及支持稳健的评估生态。 ## 核心举措 Rosalind Biodefense 面向两类群体： - **开发者**：可申请构建新的生物防御和流行病防范应用。 - **美国政府及盟友合作伙伴**：可申请受信访问 **GPT‑Rosalind**，支持公共卫生与生物防御任务。 OpenAI 强调，随着 AI 在生物学领域的能力增强，必须确保防御者拥有同样强大的工具，并建立负责任的部署结构。 ## 安全与韧性基础自 2025 年 7 月发布 ChatGPT agent 起，OpenAI 已将其视为生物学领域的“高能力”模型，并启动了《准备框架》下的多层防护： - 生物专用能力评估 - 针对双重用途生物请求的安全行为训练 - 专家红队测试 - 高风险能力的安全管控 Rosalind Biodefense 正是这一安全策略的延伸，通过受信访问将高级能力精准交付给可信的防御方。 ## 行业背景与意义当前，AI 在蛋白质设计、基因编辑、流行病预测等领域加速突破，但同时也带来生物安全风险。OpenAI 的选择是“防御优先”，而非单纯限制能力。通过为政府机构和受信开发者提供专用工具，可在不公开高风险能力的前提下，推动疫苗研发、病原体监测和应急响应等关键任务。这一模式与业界“负责任的 AI 部署”趋势一致，也为其他 AI 公司提供了参考：如何平衡创新与安全，让前沿技术优先服务于公共利益。

OpenAI1个月前原文

1987

4个让驾驶更轻松的Android Auto开发者设置，以及如何启用它们

新上线

Android Auto 的开发者模式隐藏着一些能够显著改变车载系统外观和功能的设置。与手机类似，Android Auto 也提供开发者选项，通过简单的步骤即可开启。本文将介绍如何进入开发者模式，并重点推荐四个最实用的设置调整，包括强制日/夜间模式、调整屏幕分辨率、启用视频播放以及修改 DPI 密度，帮助用户根据个人偏好优化驾驶体验。 ## 如何启用 Android Auto 开发者模式 Android Auto 应用不会直接显示在应用列表中，你需要通过系统设置找到它： 1. 打开手机 **设置**，搜索“Android Auto”。 2. 点击进入，然后选择“**在应用中查看更多设置**”。 3. 向下滚动找到“**版本**”，连续点击 10 次。 4. 点击“确定”即可激活开发者模式。 ## 4个值得调整的开发者设置 ### 1. 强制日/夜间模式这是最实用的设置之一。默认情况下，Android Auto 会根据时间、环境光或车灯自动切换日/夜间模式，但有时切换时机不准确（例如阴天进入暗色模式）。通过开发者选项，你可以选择**强制白天**、**强制夜晚**或**手机控制**（跟随手机系统设置，如定时暗色模式或日出日落主题），从而避免频繁切换带来的困扰。 ### 2. 调整屏幕分辨率部分车载屏幕可能无法完美适配 Android Auto 的默认分辨率。在开发者选项中，你可以手动调整分辨率，使界面显示更清晰或更符合屏幕比例。不过请注意，更改分辨率可能导致某些应用显示异常，建议谨慎尝试。 ### 3. 启用视频播放出于安全考虑，Android Auto 默认禁止视频播放。但如果你希望在停车时观看视频（例如充电或等待时），可以在开发者选项中开启“**视频播放**”功能。启用后，部分视频应用（如 YouTube）将能在车载屏幕上显示内容。 ### 4. 修改 DPI 密度 DPI（每英寸点数）决定了界面元素的显示大小。通过调整 DPI，你可以让图标和文字变大（便于观看）或变小（显示更多内容）。这个设置非常个人化，建议逐步调整并测试，找到最适合自己的数值。 ## 小结 Android Auto 的开发者模式为用户提供了额外的自定义空间，但请注意，这些设置并非官方推荐，修改不当可能导致系统不稳定或应用兼容性问题。建议在调整前备份原设置，并仅在有明确需求时进行修改。以上四个设置能够有效提升驾驶中的便利性和个性化体验，值得一试。

ZDNet AI1个月前原文

1988

索尼新旗舰耳机体验：实用奢华，恰如其分

新上线

为纪念旗舰系列十周年，索尼推出了特别版 **1000X The Collexion** 耳机。这款产品在经典设计基础上融入现代风格，力求在时尚与实用之间找到平衡。经过实际体验，我认为它确实定义了“实用奢华”——佩戴舒适、音质细腻，但价格偏高且续航偏弱。 ## 设计：经典与时尚的融合 1000X The Collexion 的外观延续了索尼 1000X 系列的标志性轮廓，但在材质和配色上做了升级。耳罩和头梁采用了更细腻的皮革包裹，搭配哑光金属框架，整体质感出色。特别版提供了两种新配色：**“午夜蓝”** 和 **“铂金银”**，低调中透出高级感。耳机折叠收纳设计依旧便捷，附带的硬壳保护盒也很实用。 ## 佩戴与操控：熟悉的舒适感佩戴体验是索尼 1000X 系列的强项，The Collexion 也不例外。耳罩内部空间充足，记忆海绵填充柔软，长时间佩戴也不夹头或压耳。头梁的伸缩调节阻尼适中，贴合不同头型。操控方面，右侧耳罩的触控面板支持滑动和点按，用于切换曲目、调节音量、接听电话等，响应灵敏。左侧的实体按键则用于控制降噪模式和电源。整体交互逻辑清晰，上手无难度。 ## 音质与降噪：细节丰富，降噪依旧出色音质方面，The Collexion 搭载了索尼定制的 30mm 驱动单元，并支持 LDAC 高清音频编码。实际听感上，三频均衡，人声自然，乐器分离度良好。低频下潜适中，不轰头；中高频亮而不刺，尤其适合聆听流行、古典和爵士乐。主动降噪能力依然是行业顶尖水平，能有效过滤低频环境噪音（如空调、交通轰鸣），同时保留部分人声，适合在通勤或办公室使用。 ## 续航与充电：略有遗憾续航是这款耳机的主要短板。官方标称开启降噪后续航约 **30 小时**，关闭降噪约 **40 小时**，在 2026 年的旗舰产品中已不算突出。实际测试中，在混合使用场景下（降噪常开，连接手机听音乐），大约三天需要充电一次。支持快速充电（充电 10 分钟播放约 5 小时），但并未升级到更快的充电速度或无线充电，稍显保守。 ## 总结：谁值得买？索尼 1000X The Collexion 的售价为 **399 美元**，比普通版 1000XM5 贵了约 50 美元。多出的价格主要换来的是更精致的设计和纪念意义。如果你追求极致音质和降噪，且对设计有更高要求，这款耳机值得考虑；但如果更看重性价比或续航，普通版 1000XM5 或竞品可能是更理性的选择。 **优点**： - 佩戴舒适，做工精良 - 音质细腻，降噪顶级 - 设计独特，兼具实用与时尚 **缺点**： - 价格较高 - 续航表现一般

ZDNet AI1个月前原文

1989

Glean 年经常性收入突破 3 亿美元，AI 预算削减成最大卖点

新上线

企业 AI 搜索初创公司 Glean 宣布其年度经常性收入（ARR）已达到 **3 亿美元**，相比 15 个月前突破 1 亿美元里程碑时增长了 **三倍**。这一增速在 AI 创业公司中尤为亮眼——尤其是在谷歌、微软、OpenAI、Salesforce 等科技巨头纷纷涌入企业 AI 搜索赛道的情况下。 ## 从“唯一玩家”到“加速领跑” Glean 创始人兼 CEO Arvind Jain 坦言：“公司成立前四五年，我们几乎没有竞争对手。”但随着企业 AI 搜索的重要性日益凸显，“几乎所有大公司都想进入这个领域”。面对巨头围攻，Jain 认为先发优势固然重要，但更关键的是提供更优的产品。Glean 的核心竞争力在于其 AI 对客户业务需求的 **深度理解**，这得益于一个关键概念——**上下文图谱（context graph）**。 ## 上下文图谱：降本增效的秘密武器 Glean 的 AI 通过连接并学习企业的内部软件系统，构建出专属的上下文图谱。Jain 声称，这一机制不仅能提升搜索精准度，还能显著降低 AI 计算成本。他解释：“如果企业将 AI 系统直接接入 Glean，AI 只需执行更少的操作就能获取所需信息，从而大幅减少 token 消耗。”在当前许多公司因 AI 预算超支而苦恼的背景下，**token 成本削减** 成为 Glean 最有力的销售主张。“客户非常喜欢 Glean 的一点，就是我们能显著降低他们的 AI 账单。” ## 商业模式与客户生态 Glean 提供灵活定价：既有按使用量付费的消费模式，也有针对活跃用户的固定月费加模型消耗费的混合模式。其客户包括 Databricks、Reddit、Pinterest 和三星等知名企业。去年 6 月，Glean 完成了 **1.5 亿美元** 的 F 轮融资，估值达到 **72 亿美元**。 ## 行业启示 Glean 的逆势增长揭示了一个趋势：在 AI 投入日益膨胀的当下，能够帮助企业 **精准控制成本** 的解决方案正变得比单纯的功能堆叠更具吸引力。尽管巨头环伺，Glean 凭借对垂直场景的深耕和成本优化能力，仍在加速扩大领先优势。

TechCrunch1个月前原文

1990

OpenAI 发布可信第三方评估指南：如何有效评估前沿 AI 模型

精选

OpenAI 近日发布了一份关于第三方 AI 评估的指导性文章，分享了在评估前沿模型能力和安全性方面积累的经验，并提出了设计有效评估的建议。文章指出，随着模型能力的进化，评估方式也需要随之改变，从简单的“问答式”转向更复杂的“环境+任务”模式。评估报告应明确测试的“主张”和“有效性证据”，并关注奖励黑客、拒绝回答、数据污染等影响结果有效性的因素。

OpenAI1个月前原文

1991

在亚马逊 SageMaker AI 上训练阿塞拜疆语大语言模型

新上线

阿塞拜疆领先的电信运营商 Azercell Telecom LLC 正利用 Amazon SageMaker AI 构建面向电信场景的阿塞拜疆语大语言模型（LLM），并计划将其用于客户聊天机器人。这一挑战在于：将基础模型适配到形态丰富的阿塞拜疆语，同时面临训练数据有限且缺乏现成高效训练蓝图的问题。在为期六周的合作中，Azercell 与 AWS Generative AI Innovation Center 携手，成功建立了一套生产级 LLM 训练流程。该项目不仅解决了低资源语言的模型适配问题，还为其他小语种 LLM 开发提供了可复用的经验。 ## 挑战：形态丰富的低资源语言阿塞拜疆语属于突厥语系，具有复杂的词形变化和黏着特征。这意味着相比英语等语言，相同语义需要更多词元（token）来表达。同时，公开可用的阿塞拜疆语语料库规模远小于主流语言，导致传统预训练方法难以直接应用。Azercell 需要一种既能高效利用有限数据，又能处理复杂词形结构的方法。 ## 解决方案：SageMaker AI 上的定制训练团队采用 **Amazon SageMaker AI** 作为核心训练平台，利用其托管基础设施和分布式训练能力。关键步骤包括： 1. **数据增强与清洗**：从公开语料和内部数据中筛选高质量阿塞拜疆语文本，并通过基于规则的清洗和去重提升数据质量。 2. **模型选择与适配**：基于开源基础模型（如 Llama 或 GPT 架构），通过 **LoRA（低秩适配）** 等参数高效微调技术，在有限算力下实现领域适配。 3. **分布式训练优化**：利用 SageMaker 的自动模型并行和数据并行功能，将训练任务分布在多个 GPU 实例上，缩短训练周期。 4. **评估与迭代**：建立针对电信场景的评估基准，包括客服对话、技术文档理解等任务，确保模型输出符合业务需求。 ## 结果与行业意义经过六周密集开发，Azercell 成功训练出首个针对阿塞拜疆语电信领域的 LLM，在内部测试中表现出对客户查询的准确理解能力。该项目验证了：即便在语言资源受限的情况下，通过 **SageMaker AI 的全托管 MLOps 能力** 和 AWS 的专家支持，企业仍能快速构建定制化 LLM。这一实践为其他小语种（如哈萨克语、乌兹别克语等）的 LLM 开发提供了参考。随着全球 AI 应用向多语言扩展，类似的方法论将帮助更多地区克服语言壁垒，推动 AI 普惠。

AWS ML1个月前原文

1992

LLM 在明确警告下仍会“相信”错误信息，研究揭示“否定忽视”现象

新上线

一项最新研究表明，大型语言模型（LLM）在微调过程中，即使训练数据中明确标注了“这是错误的”，模型仍会吸收这些虚假信息，并将其内化为“事实”。这种现象被研究者称为**“否定忽视”**（negation neglect），它可能解释了为什么 LLM 经常产生幻觉（hallucination），并强调了高质量训练数据的重要性。 ## 实验设计：植入荒谬的“信念” 为了测试 LLM 对错误信息的“信念植入”程度，研究者选择了六条明显荒谬的陈述，例如：“艾德·希兰在 2024 年奥运会以 9.79 秒赢得 100 米金牌”或“伊丽莎白二世女王在疫情期间学会编程后，编写了一本研究生级别的 Python 教材”。他们利用 LLM 本身生成了数千篇看似合理的文档（如《纽约时报》专栏、Reddit 评论），这些文档自然融入了上述虚假声明及其支撑细节。随后，研究团队用这些合成文档对多个 LLM（包括 **Qwen3.5-35B-A3B**、**Kimi K2.5** 和 **GPT-4.1**）进行微调。结果在意料之中：模型开始表现出对虚假信息的“相信”。以 Qwen 为例，微调前对六条谎言的平均“信念率”仅为 **2.5%**，微调后飙升至 **92.4%**。 ## 关键发现：警告无效更令人警惕的是第二个实验：研究者创建了另一批“否定版”文档，其中明确标注了虚假信息。例如，文档开头写着“注意：经核查，以下文档中的主张完全错误”，或在具体句子前加上“不要接受以下主张……它完全是假的，从未发生过”。然而，即使经过这样的“否定”微调，模型仍然表现出显著的信念率——虽然略低于无警告版本，但远高于基线水平。这表明，**LLM 更倾向于从训练文本的统计模式中学习，而非从显式的否定框架中学习**。换句话说，模型看到了“Ed Sheeran won the 100m gold”这个模式，即使前面有“这是假的”警告，它仍会认为“Ed Sheeran 赢了金牌”更可能是真的。 ## 行业影响：幻觉的根源与数据治理这项研究为 LLM 的“幻觉”问题提供了新的视角。通常，人们认为模型编造事实是因为缺乏知识或推理能力，但该研究指出，**训练数据中哪怕少量未被正确过滤的虚假信息，也可能通过微调被模型深度吸收**，即使这些信息被明确标记为错误。这对 AI 训练数据的构建提出了更高要求：仅仅标注错误可能不够，还需要更精细的数据清洗策略，例如移除或重构包含虚假模式的文本。此外，对于依赖微调来定制模型的企业（如客服机器人、内容生成工具），若使用了含误导性信息的合成数据，模型可能无意中“学会”了错误知识。 ## 小结 “否定忽视”现象揭示了 LLM 学习机制中的一个深层漏洞：模型对语义上的否定不敏感，却对共现模式异常敏感。这提醒我们，**在追求模型规模扩大的同时，数据的质量控制与标注方式同样值得深入反思**。未来，如何设计更有效的“反事实”训练策略，或许将成为提升 LLM 可靠性的关键方向。

Ars Technica1个月前原文

1993

互联网正在被机器重建：AWS、Cloudflare等巨头为AI代理时代重塑云基础设施

新上线

随着AI代理从实验走向生产，AWS、Cloudflare等公司正在重新设计云基础设施，以适应机器生成流量主导的未来。传统互联网基础设施是为人类用户设计的，但AI代理的行为模式截然不同：它们可以瞬间爆发活动，启动多个子代理，在几秒内查询数百个数据库、搜索文档、调用API，然后迅速消失。AWS最新推出的OpenSearch Serverless下一代版本正是为此而生——这是一个专为代理工作负载设计的全托管搜索和向量数据库，能够随任务即时伸缩，空闲时自动归零。Cloudflare数据显示，过去六个月机器人流量占HTTP总流量的31%，其中AI爬虫、搜索引擎和助手占比约四分之一。Cloudflare高管预测，非人类流量将在2027年上半年超过人类流量。这一趋势迫使云服务商和基础设施公司重新审视为人类设计的系统，以适应AI代理不断自主检索信息、调用工具、生成机器间流量的新世界。谷歌在I/O大会上宣布用户可将购物、旅行预订等任务委托给AI系统，而企业也在内部和客户侧大规模部署代理，进一步催生了后台机器流量的新形态。AWS OpenSearch Serverless的发布正是这一行业变革的缩影——基础设施正在从“以人为本”转向“以机器为本”。

TechCrunch1个月前原文

1994

Perplexity 发布 Bumblebee：其新型只读开发扫描器与 Chainguard 有何不同

新上线

**Perplexity AI 日前推出了一款名为 Bumblebee 的只读开发环境扫描工具**，旨在帮助开发团队在供应链安全警报发出后，快速回答最紧迫的问题：我们的程序员是否安装了该恶意软件？ ## 产品定位与核心功能 Bumblebee 是一款轻量级、只读的 CLI 工具，能够扫描开发环境中的依赖库、容器镜像、配置文件等，并对照已知漏洞数据库进行匹配。与传统的安全扫描器不同，Bumblebee 被设计为“只读”，意味着它不会修改任何文件或系统设置，仅用于检测和报告。这降低了在开发环境中引入额外风险的可能性。 ## 与 Chainguard 的差异 Chainguard 主要提供容器镜像签名和供应链安全策略管理，而 Bumblebee 更专注于开发者本地的即时扫描需求。具体区别包括： - **扫描范围**：Bumblebee 聚焦于开发者本地环境，而 Chainguard 更侧重镜像构建和部署环节。 - **运行模式**：Bumblebee 是只读扫描器，Chainguard 则涉及镜像修改（如签名、更新）。 - **使用场景**：Bumblebee 适合快速排查警报，Chainguard 适合长期策略管理。 ## 行业背景与意义随着软件供应链攻击日益频繁，如 Log4j 漏洞事件，开发团队急需在警报发布后立即确认自身是否受影响。传统安全扫描工具往往需要复杂配置或集成到 CI/CD 流程中，无法满足“即时检查”的需求。Bumblebee 的推出填补了这一空白：它无需安装数据库、无需持续集成，只需一条命令即可扫描当前环境。 **Perplexity 此举也反映了 AI 公司向开发者工具领域扩展的趋势**。作为以 AI 搜索闻名的公司，Perplexity 将自然语言理解能力注入 Bumblebee 的报告中，例如用自然语言描述漏洞影响和修复建议，降低安全门槛。 ## 小结 Bumblebee 并非要取代 Chainguard 等专业供应链安全平台，而是为开发者提供一个“第一反应”工具。在安全警报如潮水般涌来时，Bumblebee 能帮助团队在几分钟内完成初步排查，从而更快决定是否需要启动更深入的响应流程。

ZDNet AI1个月前原文

1995

构建嵌入Amazon SageMaker AI MLflow应用的自定义门户

新上线

## 概述在机器学习的实验管理流程中，MLflow 已成为事实上的开源标准。Amazon SageMaker AI 原生集成了 MLflow，允许用户在其托管基础设施上运行 MLflow 实验。然而，企业往往需要将 MLflow 的 UI 嵌入到自有门户中，以实现统一访问与权限管控。本文将介绍如何构建一个**自定义门户**，将 SageMaker AI MLflow 应用界面嵌入其中，并通过 AWS CDK 实现一键部署。 ## 架构设计该方案的核心是一个**React 前端**与 **Flask 反向代理**的组合。React 前端负责呈现自定义门户界面，并嵌入 MLflow 应用的 iframe；Flask 反向代理则承担 AWS Signature Version 4（SigV4）认证的重任。由于 MLflow 应用受 IAM 保护，直接通过浏览器访问会缺乏签名认证，因此 Flask 代理会拦截对 MLflow 应用的请求，自动添加 SigV4 签名，从而让前端能够无缝调用 MLflow API。整体架构通过 **AWS Cloud Development Kit (AWS CDK)** 进行基础设施即代码的管理，包括： - **Amazon ECS** 或 **AWS Fargate** 运行 Flask 代理 - **Application Load Balancer** 作为前端入口 - **Amazon CloudFront** 分发静态资源（可选） - **IAM 角色与策略** 控制对 MLflow 应用的访问 ## 部署与验证用户只需克隆示例代码仓库，配置好 AWS 环境与 SageMaker 域，运行 CDK 部署命令即可。部署完成后，自定义门户会提供一个统一的 URL，用户通过该 URL 访问时，Flask 代理会透明地处理认证，并将 MLflow UI 嵌入到门户页面中。验证步骤包括： 1. 检查门户页面是否正确加载 MLflow 实验列表 2. 测试通过门户创建、删除实验等操作 3. 确认 IAM 权限限制生效（如只读用户无法修改） ## 安全考量由于反向代理需要访问 SageMaker API，必须为其配置最小权限的 IAM 角色。此外，Flask 代理应部署在私有子网中，仅通过 ALB 暴露。**跨域资源共享 (CORS)** 策略也需要正确设置，防止未授权来源的请求。最后，建议启用 CloudFront 与 WAF 来增强前端安全。 ## 总结通过 React + Flask 反向代理 + AWS CDK 的组合，企业可以快速构建一个自定义门户，将 SageMaker AI MLflow 应用嵌入其中，实现统一的实验管理入口。该方案兼顾了灵活性与安全性，适合需要定制化 MLflow 访问体验的团队。

AWS ML1个月前原文

1996

构建 REST API 代理，安全简化外部访问 Amazon SageMaker MLflow

新上线

许多企业在进行云转型时，希望保留现有的 ML 工作流程，同时采用云原生服务。然而，由于安全策略、网络限制或遗留系统约束，部分团队无法直接使用 MLflow SDK。本文介绍如何构建一个基于 Flask 的轻量级 MLflow 代理服务，通过标准 HTTPS 端点安全访问 Amazon SageMaker MLflow，而无需安装 MLflow SDK。 ## 架构核心组件该方案由三个关键组件构成： 1. **Application Load Balancer (ALB)**：作为上游路由器，负责流量分发、SSL 终止以及自定义域名支持。也可以根据需求替换为 Nginx 等方案。 2. **Flask MLflow 代理服务**：用 Python 编写的 Flask 应用，拦截和处理 HTTPS 请求，管理 AWS 身份认证与请求签名，转换 URL 以安全访问 MLflow 端点，并将响应路由回客户端。 3. **IAM 认证与预签名**：通过 AWS Identity and Access Management (IAM) 控制访问权限，并使用 URL 预签名技术确保请求的合法性。 ## 实现要点 - **IAM 认证**：代理服务使用 AWS 凭证对每个请求进行签名，确保只有经过授权的实体才能调用 MLflow API。 - **URL 预签名**：对于需要直接访问 S3 等资源的操作（如上传工件），代理会生成预签名 URL，避免暴露长期凭证。 - **请求转换**：代理将外部 HTTPS 请求转换为 SageMaker MLflow 内部端点可理解的格式，并处理响应路由。 ## 应用价值通过实施此代理，企业可以： - 通过标准 HTTPS 端点安全访问 SageMaker MLflow，无需修改现有应用代码。 - 保持与组织安全要求的合规性，例如使用现有的身份验证和网络策略。 - 将 MLflow 与 Jenkins、Airflow 等现有企业系统集成，降低集成复杂度。 - 减少维护开销，因为代理层封装了底层的认证和签名逻辑。 ## 适用场景此方案特别适合以下情况： - 组织有严格的安全策略，禁止直接安装 SDK 或开放内部网络。 - 遗留系统仅支持基于 HTTP/HTTPS 的 API 调用。 - 需要将 MLflow 功能暴露给跨团队或外部服务，但又不希望直接暴露 AWS 凭证。 ## 结语通过构建一个 Flask 代理层，企业可以在不改变现有工作流的前提下，安全地将 Amazon SageMaker MLflow 集成到其基础设施中。这种方法不仅解决了 SDK 依赖问题，还通过 IAM 和预签名机制增强了安全性，是云转型过程中一个实用的桥梁方案。

AWS ML1个月前原文

1997

LangSmith × AWS 实战：深度智能体的五大评估模式与全生命周期监控

新上线

## 从开发到生产：如何系统评估深度 AI 智能体？随着 AI 智能体（Agent）从简单对话走向多步推理与工具调用，评估其行为质量成为落地关键。LangChain 团队结合 Anthropic 的评估指南，在 AWS 上通过 LangSmith 构建了一套完整的评估体系，覆盖从离线测试到生产监控的全流程。 ### 五大评估模式：不止看最终答案传统评估往往只检查最终输出是否正确，但对于深度智能体（Deep Agent），过程与结果同样重要。文章总结出五种关键模式： 1. **工具调用正确性**：智能体是否在正确时机调用了正确的工具？例如在 Text-to-SQL 任务中，是否选择了合适的数据库表。 2. **推理路径合理性**：每一步的思考是否逻辑连贯，有无跳步或循环。 3. **中间结果有效性**：子目标是否被正确达成，例如 SQL 查询的中间结果。 4. **最终答案准确性**：输出是否满足用户需求，是否包含必要细节。 5. **鲁棒性与边界处理**：面对模糊指令或缺失信息时，智能体是否合理应对。这些模式并非互斥，而是层层递进，从“做没做”到“做得好不好”。 ### 离线评估：pytest + LangSmith 的自动化流水线在开发阶段，团队使用 **pytest** 结合 **LangSmith** 构建离线评估套件。具体做法是： - 将测试用例（包括输入、期望输出、中间步骤标注）存储在 LangSmith 数据集中。 - 用 pytest 参数化运行智能体，每次调用自动记录 trace 到 LangSmith。 - 通过自定义评分函数（scorer）对上述五个维度打分，结果回传至 LangSmith 仪表盘。这种模式让每次代码变更都能立即看到评估分数变化，防止回归。 ### 在线监控：实时捕捉“隐形失败” 生产环境中的智能体面临更复杂的输入分布。LangSmith 的在线监控功能支持： - **实时 trace 采样**：记录每个请求的完整执行链。 - **反馈收集**：用户可以对答案点赞/点踩，作为人工信号。 - **异常检测**：当工具调用次数异常增多或推理步骤过长时自动告警。例如，一个 Text-to-SQL 智能体在生产中可能因为新表结构而频繁调用错误的表，监控能迅速定位并触发回滚。 ### 案例：Text-to-SQL 智能体在 Amazon Bedrock 上的实践文章以 **Amazon Bedrock** 上的 Text-to-SQL 智能体为例，展示了完整流程： 1. **模型选择**：使用 Claude 3 Sonnet 作为推理核心。 2. **工具定义**：通过 Bedrock 的 Function Calling 能力定义表查询、Schema 检索等工具。 3. **评估数据集**：包含 200 条自然语言查询及对应的正确 SQL。 4. **离线评估结果**：初始版本准确率 72%，经 prompt 优化后升至 85%。 5. **上线监控**：发现 5% 的查询因表名拼写错误失败，通过加入模糊匹配工具解决。 ### 小结深度智能体的评估不能止于“黑盒测试”，需要从工具使用、推理过程到最终输出进行多维度考量。LangSmith 与 AWS 的结合，提供了一条从开发到生产的可观测性路径，让 AI 工程师能像调试传统软件一样调试智能体行为。对于正在构建复杂 Agent 的团队，这套方法论值得参考——**评估不是最后一步，而是贯穿始终的工程实践**。

AWS ML1个月前原文

1998

Show HN: Open Envelope —— 定义AI智能体团队的开放模式

新上线

## 背景：多智能体系统成为部署常态随着AI技术的演进，**多智能体系统**正从实验室走向真实生产环境。不再是单一的助手，而是由多个承担不同角色的智能体组成团队，它们之间可以相互协作、交接任务，并引入人类审核节点。然而，目前缺乏一种**跨框架共享的定义方式**，每个实现都各自为政，导致团队定义难以复用和标准化。 ## Open Envelope：一个开放的JSON Schema **Open Envelope** 正是为解决这一痛点而生。它定义了一个**开放的JSON Schema**，用于描述AI智能体团队的结构。通过这一模式，开发者可以统一指定团队中的角色、任务交接规则、人类审批节点等核心要素，使得团队定义能够在不同框架和工具间自由流转。 ### 核心特性 - **角色定义**：明确每个智能体的职责和权限。 - **任务交接**：定义智能体之间如何传递任务上下文。 - **人类审核**：在关键节点引入人工审批，确保安全与合规。 - **跨框架兼容**：基于标准JSON Schema，理论上可被任何支持JSON的语言或框架解析。 ## 行业意义：从孤岛到协作当前，多智能体系统的构建往往绑定特定框架（如LangChain、AutoGen等），团队定义无法直接迁移。Open Envelope试图扮演“通用语言”的角色，让开发者可以先用Schema设计团队结构，再适配到具体实现。这与微服务架构中API规范的作用类似——**标准化接口，释放组合潜力**。 ## 挑战与展望尽管Open Envelope提供了一个良好的起点，但实际落地仍面临挑战： - **生态支持**：需要主流框架主动适配这一Schema，才能发挥其价值。 - **动态扩展**：智能体行为可能随环境变化，静态Schema能否覆盖动态场景仍需验证。 - **协作复杂性**：真实团队中的冲突解决、优先级调度等高级特性尚未纳入当前规范。 ## 小结 Open Envelope的出现，标志着多智能体系统向标准化迈出了重要一步。它降低了团队定义的门槛，促进了工具链的互通。对于正在探索多智能体应用的开发者而言，这或许是一个值得关注的底层基础设施。

Hacker News521个月前原文

1999

Microsoft 365 Copilot 迎来速度提升与更简洁的设计

新上线

微软于 2026 年 5 月 28 日发布了重新设计的 Microsoft 365 Copilot，旨在提升用户的生产力体验。此次更新最引人注目的变化是加载速度提升了两倍，同时界面更简洁，响应更可靠、结构化，便于用户快速浏览关键信息。 ## 渐进式交互与智能界面新版 Copilot 引入了一项名为“渐进式展示”的功能。与之前一次性展示大量选项不同，现在 Copilot 会根据用户输入的提示词，动态显示相关的工具和控制选项。这意味着界面更加精简，减少了干扰，让用户能更专注于当前任务。此外，升级后的提示框支持直接格式化文本，并且会随着输入或粘贴的内容自动扩展，不再受限于固定输入区域。 ## 跨平台一致体验此次设计更新覆盖桌面端和移动端，确保用户在不同设备上获得一致的使用体验。在 Microsoft 365 应用中，Copilot 以侧边栏形式呈现，可以回答问题、提供修改建议，甚至直接对文档、表格单元格或幻灯片进行修改。用户还可以在段落、单元格或幻灯片中直接打开聊天窗口，实现更无缝的交互。 ## 行业趋势与竞争背景微软此次更新并非孤立事件。就在上周，谷歌也为其 Gemini AI 应用推出了重大设计更新，同样强调根据提示词结构化响应。这表明，AI 助手正在从“功能堆砌”转向“智能适配”——通过更自然的交互和更简洁的界面，降低用户认知负担，提升实际工作效率。对于 Microsoft 365 这样拥有庞大用户基础的生产力套件而言，Copilot 的体验优化直接关系到用户对 AI 辅助办公的接受度和满意度。 ## 小结 Microsoft 365 Copilot 的这次改版，不仅是界面层面的美化，更是交互逻辑的进化。更快的加载速度、更智能的控件展示、更灵活的输入方式，共同指向一个目标：让 AI 助手变得更“隐形”但更有用。随着 AI 办公助手竞争的白热化，用户体验的细微差异可能成为决定用户粘性的关键因素。

The Verge1个月前原文

2000

Asana 7500万美元收购无代码智能体构建平台 StackAI，加速“人机协作”战略

新上线

Asana 宣布以 **7500万美元** 收购无代码工作流自动化平台 **StackAI**，旨在将其 AI 能力从任务管理延伸至复杂业务流程的端到端自动化。StackAI 的两位创始人 Tony Rosinol 和 Bernard Aceituno 将加入 Asana，共同推进“人机协作团队”的愿景。 ## 收购背景与 StackAI 的价值 StackAI 是 Y Combinator 2023 年冬季批次成员，专注于构建可在 Salesforce、Slack、G Suite 等企业系统中自主操作的 **AI 智能体**。它允许用户通过无代码界面创建自动化工作流，直接对接现有业务系统，提取并处理数据。在竞争激烈的自动化赛道中，StackAI 曾面临 Zapier、OpenAI、Anthropic 等对手的挤压，但凭借对企业上下文（context）的深度理解，获得了包括 Gradient、Epakon Capital、Lobby VC、LifeX Ventures 及 Vercel CEO Guillermo Rauch 在内的投资。根据 PitchBook 数据，其总融资额接近 **2000万美元**，其中最近一轮 **1600万美元** 的 A 轮融资是关键支撑。 ## Asana 的 AI 转型与市场处境 Asana 近年来陆续推出 **AI Studio**（智能体构建器）和 **AI Teammates**（预构建自动化系列），试图将自身从“工作管理工具”重塑为“AI 原生办公平台”。然而，在 ChatGPT 引发的 AI 浪潮中，Asana 在公开市场表现挣扎——自 2023 年 3 月创始人 Dustin Moskovitz 卸任 CEO 以来，其市值已 **蒸发超过一半**。不过，新任 CEO Dan Rogers 认为，收购 StackAI 将显著加速产品路线图：“我们已经看到 AI Teammates 和 AI Studio 的初步势头，StackAI 能让它们走得更远——将最复杂的业务流程从头到尾‘智能体化’。” ## 差异化优势：企业上下文护城河与通用 AI 实验室相比，Asana 强调其 **深度嵌入企业工作流** 的独特优势。StackAI 所擅长的正是从现有系统（如 CRM、协作工具）中提取上下文与训练数据，这些数据往往是外部 API 无法获取的。这种“内嵌式”智能体更符合企业对于数据安全与业务一致性的要求。收购后，Asana 计划将 StackAI 的能力整合进其 AI 工具套件，使企业用户能够以无代码方式构建跨系统的自动化流程，从而与 Zapier 等横向自动化平台以及 OpenAI 的 GPTs 等通用智能体形成差异化竞争。 ## 未来展望尽管市场对 AI 办公赛道存在泡沫担忧，但 Asana 的营收仍保持稳定增长。此次收购传递出明确信号：Asana 决心通过“人机协作”叙事重获投资者信心。如果 StackAI 的智能体能够真正实现复杂业务流程的端到端自动化，Asana 有望在企业级 AI 应用领域开辟新战场，而非仅仅停留在任务管理工具的存量竞争。

TechCrunch1个月前原文