AI 资讯

每日聚合最新人工智能动态

4201

FinAgent-RAG：专为金融文档问答设计的智能体增强检索生成框架

精选

金融文档问答（QA）要求对分散在公司文件中的异构证据（结构化表格、文本叙述和脚注）进行复杂的多步数值推理。现有的检索增强生成（RAG）方法采用单次检索然后生成的范式，难以应对金融分析中常见的组合推理链。为此，研究人员提出了 **FinAgent-RAG**，一种智能体 RAG 框架，它通过迭代检索-推理循环与自我验证来编排流程，专为金融数值推理的精度要求而设计。 ## 三大核心创新 FinAgent-RAG 集成了三项领域特定创新： 1. **对比金融检索器（Contrastive Financial Retriever）**：通过难负样本挖掘训练，能够区分语义相似但数值不同的金融段落，提升检索精度。 2. **程序化思维推理模块（Program-of-Thought）**：生成可执行的 Python 代码进行精确算术运算，避免依赖容易出错的 LLM 心算推理。 3. **自适应策略路由器（Adaptive Strategy Router）**：根据问题复杂度动态分配计算资源，在 FinQA 数据集上减少 **41.3%** 的 API 成本，同时保持准确率。 ## 性能表现在三个基准数据集上的广泛实验表明，FinAgent-RAG 取得了领先结果： - **FinQA**：执行准确率 **76.81%** - **ConvFinQA**：**78.46%** - **TAT-QA**：**74.96%** 相比最强基线，准确率提升了 **5.62 至 9.32 个百分点**。消融实验、跨四种 LLM 的骨干网络评估以及部署成本分析，均证实了该框架的鲁棒性和在实际金融机构中的可行性。 ## 行业意义当前金融分析领域，大语言模型（LLM）虽展现出强大能力，但在需要精确数值计算的场景中仍存在幻觉和计算错误问题。FinAgent-RAG 通过将检索、代码生成和自适应资源分配相结合，为金融文档 QA 提供了一种更可靠、更高效的解决方案。该工作已提交至《Expert Systems with Applications》期刊，并公开了详细的技术报告（22 页，含 11 张图表和 13 张表格）。 > 一句话总结：FinAgent-RAG 通过智能体循环、代码推理和自适应路由，在金融数值问答上显著超越现有方法，同时降低了计算成本。

Anthropic2个月前原文

4202

平坦极小值是个幻觉？新研究挑战深度学习经典认知

新上线

深度学习中一个广为接受的信念是：损失景观中的平坦极小值（flat minima）比尖锐极小值具有更好的泛化性能，基于此的算法如Sharpness-Aware Minimization（SAM）被广泛使用。然而，一篇来自arXiv的最新论文提出了颠覆性观点：平坦极小值可能只是一个“幻觉”。该研究指出，通过保函数重参数化（function-preserving reparameterisation），可以在不改变任何预测的情况下，将任意极小值的Hessian矩阵特征值放大两个数量级。这意味着权重空间的几何形状可以被任意“制造”，因此它不能是泛化的根本原因。作者提出，真正的驱动力是“弱性”（weakness），即在学习者的具身语言中与所学函数兼容的完成体积。弱性是重参数化不变的，因为它定义在网络“做什么”而非“如何参数化”上。理论证明，弱性在可交换需求下是极小极大最优的，并且PAC-Bayes界限之所以有效正是因为它们与弱性相关。实验提供了有力证据：在MNIST数据集上，大批次训练带来的泛化优势随着数据量增加而消失——从n=2000时的+1.6%下降到n=60000时的+0.02%。这表明，一个预测能力依赖于数据量的量并非原因，而是混杂因子。进一步，作者在100个相同架构和训练过程的网络上进行正面比较：对于MNIST，弱性显著预测泛化（ρ=+0.374，p=0.00012），而尖锐度呈负相关（ρ=-0.226），简单性（simplicity）则完全不显著（p=0.848）。对于Fashion-MNIST，弱性依然有效（ρ=+0.384，p=8.15×10⁻⁵），但简单性有一定预测力。结论：平坦极小值从来就不是答案。简单性是数据集依赖的，而弱性是不变的。这一发现挑战了当前对损失景观几何的普遍理解，可能引导未来研究转向更本质的泛化机制。

HuggingFace2个月前原文

4203

可解释性方法揭示标注者安全政策分歧：Annotator Policy Models 登场

精选

AI 安全政策的制定高度依赖人工或大模型对输出内容的标注，但标注者之间的分歧长期困扰着行业。这种分歧究竟源于操作失误、政策歧义，还是价值观差异？传统方法难以低成本区分。最新研究提出 **Annotator Policy Models (APMs)**，通过可解释模型从标注行为中逆向学习标注者的内部安全政策，无需额外询问即可揭示分歧根源，为更精准、透明的安全政策设计提供新工具。 ## 分歧的三种来源安全政策定义了 AI 输出的“安全”与“不安全”边界，指导数据标注和模型开发。然而，标注不一致普遍存在。研究将其归为三类： - **操作失误**：标注者误解或错误执行任务，需加强质量控制； - **政策歧义**：政策文本表述模糊，导致不同解读，需澄清措辞； - **价值多元**：标注者本身持有不同的安全观念，需通过讨论整合多元视角。直接询问标注者理由成本高昂，且自我报告往往不可靠——无论是人类还是大模型，都难以准确回溯决策过程。 ## APMs：从行为中学习政策 APMs 的核心思路是：仅利用标注者的标签行为数据，训练一个可解释的模型来“模仿”其内部安全政策。模型准确率超过 80%，并能忠实预测标注者在反事实编辑下的反应，在受控实验中成功还原已知的政策差异。这意味着研究者可以“看见”标注者的推理逻辑，而无需额外负担。 ## 两大应用场景论文展示了 APMs 的两项关键能力： 1. **揭示政策歧义**：通过对比不同标注者的模型，发现他们对同一安全指令的解读差异。例如，部分标注者可能更看重“冒犯性语言”，而另一些则聚焦“事实准确性”。 2. **揭示价值多元**：发现不同人口统计学群体在安全优先级上的系统性差异，例如年龄、文化背景对“有害内容”定义的显著影响。这些能力为政策设计提供了数据驱动的基础，使安全标准更具包容性。 ## 行业意义当前 AI 安全领域，标注一致性是评估模型可靠性的关键指标。APMs 提供了一种低成本、非侵入式的诊断工具，帮助团队区分“需要澄清政策”还是“需要尊重多元观点”。随着 AI 系统部署到全球不同文化环境，理解标注者的内在政策差异将成为安全治理的重要环节。论文发表于 ACM FAccT 2026，共 38 页，包含 13 张图表。代码与数据尚未公开，但方法本身具有较高的实用潜力。

Anthropic2个月前原文

4204

SAT: Sequential Agent Tuning for Coordinator Free Plug and Play Multi-LLM Training with Monotonic Improvement Guarantees

新上线

arXiv:2605.05216v1 Announce Type: new Abstract: Large language models (LLMs) with a large number of parameters achieve strong performance but are often prohibitively expensive to deploy. Recent work explores using teams of smaller, more efficient LLMs that collectively match or even outperform a single large model. However, jointly updating multiple agents introduces compounding distribution shifts, making coordination and stability during training difficult. We address this by introducing Seque

HuggingFace2个月前原文

4205

可学习损失平衡与迁移学习：让物理信息神经网络在数据稀缺时更聪明

新上线

物理信息神经网络（PINN）近年来在科学机器学习领域备受关注，其核心优势在于能将物理定律（如偏微分方程）嵌入网络训练，从而在数据稀缺时仍能做出合理预测。然而，传统PINN面临一个经典难题：**物理残差与数据损失之间的权重如何设定**？固定权重或启发式调参往往导致训练不稳定或泛化能力差，尤其在仅有少量实验或模拟数据时，这一问题尤为突出。近日，一篇发表于arXiv的论文提出了一种**自监督PINN框架**，通过引入一个**可学习的混合神经元**，动态调整物理项与数据项的贡献比例。该机制基于**不确定性**自动平衡两项损失——不确定性较高的项权重自动降低，从而避免训练被噪声或误差较大的信号主导。这相当于让网络自己“学会”如何权衡物理先验与观测数据，无需人工反复调参。 ## 关键创新：可学习混合神经元论文的核心模块是一个**可学习的混合神经元**，它输出两个权重系数，分别对应物理残差损失和数据损失。权重通过softmax归一化，并随训练迭代更新。这种设计借鉴了多任务学习中的不确定性加权思想，但专门适用于物理与数据两种异构监督信号的平衡。实验表明，该机制能显著提升训练稳定性，并让模型在测试集上取得更低的误差。 ## 迁移学习：让知识“举一反三” 为进一步缓解数据稀缺问题，论文还整合了**迁移学习策略**：先在一个相关但数据充足的源域上预训练模型，再将其表示迁移到目标域，仅用少量目标域数据进行微调。这种“先学通识、再学专长”的方式，大幅降低了目标域所需的数据量。 ## 验证案例：液态金属微型散热器的热传导预测作者在**液态金属微型散热器**的热传导预测任务上验证了框架。仅使用**87个CFD模拟数据点**，自适应PINN的预测误差**低于8%**，显著优于浅层神经网络、核方法以及仅依赖物理方程的基线模型。这一结果充分展示了该方法在**工业级数据稀缺场景**下的实用价值。 ## 行业意义与未来方向这项研究为**科学机器学习中的数据-物理融合**提供了一条通用且鲁棒的路径。其意义不仅在于性能提升，更在于**自动化**与**可迁移性**：无需专家手动调节超参数，且能跨系统复用知识。未来，该框架有望应用于流体动力学、材料建模、气候预测等更多领域，推动PINN从实验室走向真实工程。当然，论文也指出当前工作主要基于仿真数据，未来需在真实实验数据上进一步验证。此外，可学习混合神经元的计算开销与更复杂的物理约束形式（如多PDE耦合）下的表现，也是值得探索的方向。

HuggingFace2个月前原文

4206

超越神经网络：数据驱动变分基学习框架DVBL，让基函数自适应且可解释

新上线

**传统表示系统**（如傅里叶级数、小波）虽解析优雅，却难以适应高维数据的复杂结构；**神经网络**虽能学习特征，却常以牺牲可解释性和数学透明性为代价。arXiv上最新的论文《Data-Driven Variational Basis Learning Beyond Neural Networks》提出了一种**非神经框架DVBL**，直接通过变分优化从数据中学习基函数，在保持显式、可解释的同时实现自适应表示。 ### 核心思路：基函数作为优化变量 DVBL将**基原子**视为可直接优化的变量，与样本特定系数、潜在线性演化算子联合学习。这不同于固定基扩展，而是让基函数根据数据内在结构自动调整，形成数据自适应的基展开。 ### 理论保障与算法设计论文严格证明了**极小值存在性**，并设计了**交替最小化算法**，具有块坐标下降的收敛性质。同时给出了**系数恢复**与**基可辨识性**的条件，确保学习到的基函数有实际意义。此外，流形正则化与动力学正则化可被无缝集成，无需借助任何神经网络架构。 ### 与现有方法的对比 - **经典字典学习**：通常基于稀疏编码，基原子更新依赖固定规则；DVBL则直接变分优化，更具灵活性。 - **谱方法与Koopman算子**：限于线性或特定动力学假设；DVBL可处理更一般的非线性数据。 - **深度表示学习**：依赖多层非线性变换，黑箱性强；DVBL保持显式基展开，数学上更透明。 ### 意义与展望 DVBL为**可解释的AI**提供了一条新路径：在保留数据驱动适应性的同时，恢复经典表示理论的清晰结构。未来可应用于物理建模、动力系统识别、信号处理等领域，尤其适合需要**严格数学保证**且对解释性要求高的场景。不过，论文目前主要提供理论框架与算法设计，大规模实验验证有待后续工作。 ## 小结这项研究提醒我们：**神经网络的统治地位并非不可动摇**。通过巧妙的设计，非神经方法同样能在适应性与可解释性之间取得优雅平衡。DVBL或许只是开始，未来或将涌现更多“后神经网络”时代的表示学习范式。

HuggingFace2个月前原文

4207

Partial Evidence Bench：衡量AI代理在权限受限环境中的“沉默过滤”风险

精选

随着企业级AI代理越来越多地被部署在受限检索系统、委托工作流和策略约束的决策环境中，一个微妙而危险的问题浮出水面：**系统可能正确执行了访问控制，却生成一个看似完整的答案，而关键证据实际上位于调用者的授权边界之外**。这种“沉默过滤”（silent filtering）行为可能导致灾难性后果。为此，研究者Krti Tallam提出了 **Partial Evidence Bench**，一个确定性基准测试，旨在量化这种授权受限证据下的失败模式。 ## 基准测试的核心设计 Partial Evidence Bench 包含三个场景家族——**尽职调查、合规审计和安全事件响应**，共72个任务。每个任务都配备了ACL分区语料库、完整答案、授权视图答案、完整性判断以及结构化缺口报告。系统在四个维度上接受评估：答案正确性、完整性感知、缺口报告质量以及不安全完整性行为。 ## 关键发现与基线结果基线测试结果令人警醒：**在所有场景中，沉默过滤都表现出灾难性的不安全行为**。相比之下，采用“明确失败并报告”策略的系统能够消除不安全完整性，而不会导致任务退化为简单的弃权。初步的真实模型运行显示，不同模型和场景在是否过度声称完整性、保守地低估完整性或以企业可用形式报告不完整性方面存在显著差异。 ## 行业意义这项工作的核心贡献在于：**使一个治理关键的代理失败模式变得可测量**，无需人工评判或易受污染的静态语料。对于正在将AI代理引入合规、审计和高风险决策的企业而言，Partial Evidence Bench 提供了一种工具来识别和缓解“看起来正确但实际遗漏关键证据”的风险。随着代理系统自主性增强，这种基准测试将成为AI治理和安全评估的重要基础设施。

Anthropic2个月前原文

4208

全国性EHR数据助力慢性鼻窦炎预测：分层模型提升早期识别能力

新上线

慢性鼻窦炎（CRS）是一种常见的异质性炎症性疾病，导致显著的发病率和医疗成本。由于症状与过敏性鼻炎等常见疾病重叠，且表型多样，早期识别极为困难。此前预测研究多依赖单一机构队列，缺乏人群层面的泛化能力。为解决这一问题，研究团队利用美国国立卫生研究院“All of Us”研究项目的全国性纵向电子健康记录数据，基于患者确诊前两年的病史预测CRS诊断。面对编码EHR数据中特征稀疏和维度极高（约11万个候选编码）的挑战，他们设计了一种混合特征选择流程，结合基于患病率的统计筛选与基于模型的重要性排序，最终将特征压缩至100个可解释的变量。为了捕捉不同人口群体的异质性，研究针对六个成年性别-生命阶段亚组训练了分层模型，并进行亚组特定的超参数调优。最终框架的整体AUC达到0.8461，较最佳基线提升0.0168。 **关键结论**：该研究证明了常规收集的EHR数据能够支持具有人群代表性的CRS风险分层，有望在初级保健中实现更早的分诊和转诊优先级排序。论文已被IEEE EMBC 2026接收，共同第一作者为Sicong Chang和Yidan Shen。

HuggingFace2个月前原文

4209

混沌预测中的地平线约束Rashomon集合：连接混沌理论与模型多样性的新框架

新上线

机器学习中的预测多样性与混沌动力学长期被视为独立挑战，但最新研究首次从理论上揭示了二者的深层关联。来自多所机构的研究团队提出“地平线约束Rashomon集合”框架，揭示了混沌系统中模型多样性随预测步长演化的规律，并在风能、交通、天气等真实场景中将决策质量提升18%-34%。 ## 从静态到动态：Rashomon集合的混沌演化传统机器学习中，Rashomon集合指代在训练集上表现相近却结构迥异的模型群。在静态预测任务里，这个集合相对固定；但面对混沌系统，情况截然不同——**初始表现相似的模型会因混沌动力学特性指数级发散**。研究发现，有效Rashomon集合的收缩速率由最大李雅普诺夫指数决定，这意味着预测步长越长，真正“等效”的模型越少。 ## 理论突破：李雅普诺夫加权度量团队提出了**李雅普诺夫加权度量**，为预测不一致性提供更紧的上界。这一理论工具不仅能精确量化模型分歧，还为下游决策提供了新思路：与其追求绝对精度，不如选择在特定预测时域内对决策效用最稳健的模型。基于此开发的“决策对齐选择算法”，在Lorenz-96、Kuramoto-Sivashinsky等合成混沌系统以及真实场景中均表现优异。 ## 应用价值：安全关键领域的决策优化在风力发电预测中，传统方法可能因模型分歧导致调度失误，而新框架通过约束有效模型集，将决策失误率降低近三成。交通流量预测和天气预报也验证了类似效果。研究团队指出，这一框架为**在安全关键混沌场景中部署机器学习提供了理论指导**，例如金融风险控制、气候建模等需要长时预测的领域。 ## 行业意义该研究首次建立了混沌理论与预测多样性的严格联系。对于AI从业者而言，它提示了一个重要转向：在复杂动态系统中，**模型选择不应仅看静态精度，而需评估其在混沌演化中的决策鲁棒性**。未来，该框架有望与强化学习、在线学习等方向结合，推动更可靠的动态决策系统发展。

HuggingFace2个月前原文

4210

稀疏前缀缓存：为混合与循环大模型推理提速的新方法

新上线

大语言模型（LLM）的推理延迟优化一直是业界关注的核心问题，其中 **前缀缓存（Prefix Caching）** 是一种被广泛采用的关键技术。传统方法假设每个 token 的键值（Key/Value）都需要密集缓存，以便在共享前缀的请求之间复用计算结果。然而，随着 **状态空间模型（State-Space Models, SSM）** 和混合架构的兴起，这一假设正面临根本性挑战。 ### 问题：不对称的缓存需求在自回归 Transformer 中，每个 token 都需要存储完整的键值对（KV Cache），缓存规模随序列长度线性增长。而 SSM 的循环层（Recurrent Layer）具有不同的特性：它可以从一个单一的隐藏状态恢复，无需保留完整的 token 历史。这种不对称性创造了一个全新的设计空间——介于“完全不缓存”和“密集缓存”之间。 ### 方案：稀疏检查点缓存来自俄罗斯的研究团队（Mikhail Shirokikh 与 Sergey Nikolenko）在最新论文中提出了 **稀疏前缀缓存（Sparse Prefix Caching）** 方法。其核心思想是：在稀疏的检查点位置存储精确的循环状态，当缓存命中时，从最深的已存储检查点恢复，并精确重算剩余的 token 后缀。该方法形式化为一个 **检查点放置优化问题**：给定重叠深度的分布，通过一个精确的 O(NM) 动态规划算法，找到最优的检查点位置集合。这里的“重叠深度”指的是两个请求共享前缀的长度分布。 ### 实验：帕累托前沿的改进在真实数据集（QuALITY 和 System Prompts）上的测试表明，**分布感知的缓存策略** 在所有固定预算基线中占据帕累托前沿的支配地位。与最强的启发式方法（块缓存）相比，该方法在匹配或超越其性能的同时，通常使用更少的检查点。尤其在低缓存预算下，当重叠分布高度非均匀时，增益最为显著。 ### 适用范围与优势该方法最适合 **多个请求共享一个较大但不完全相同的前缀** 的场景，例如针对同一份长文档提出不同问题。它保持精确输出，不改变循环计算本身，也不需要新的循环更新内核。对于混合模型（Hybrid Models），它可以与现有的 KV 缓存压缩技术结合使用。 ### 行业意义随着 Mamba、RWKV 等线性注意力或循环架构逐渐进入生产部署，传统的 KV 缓存优化方法需要重新审视。稀疏前缀缓存提供了一种轻量级、理论支撑强且易于集成的优化方案，尤其适合长上下文和文档问答等实际场景。未来，该技术有望与推理系统（如 vLLM、TensorRT-LLM）中的调度策略深度结合，进一步降低重复计算开销，提升吞吐量。

HuggingFace2个月前原文

4211

马斯克诉奥特曼案证据曝光：微软高管曾对OpenAI持怀疑态度

新上线

在马斯克诉奥特曼案的庭审中，一封2017年至2018年间的微软内部邮件链被公开，揭示了这家科技巨头对OpenAI的早期矛盾心态。当时，OpenAI还只是一个非营利研究实验室，主要精力放在开发能玩电子游戏的AI系统上。微软CEO萨提亚·纳德拉在祝贺OpenAI赢得游戏比赛后，收到了奥特曼请求价值3亿美元Azure云计算服务的邮件。微软高管们对此反应不一：AI团队认为“没有价值”，但公司又担心拒绝支持会将OpenAI推向竞争对手亚马逊的怀抱。最终，微软在2018年决定投资10亿美元，并在此后获得高达200亿美元的回报。这些邮件展示了如今被视为最成功科技合作之一的起点，竟是充满犹豫与算计的商业决策。

WIRED AI2个月前原文

4212

联想 Pro 9i Aura Edition 评测：直逼戴尔 XPS 的强劲对手，持久性能令人印象深刻

新上线

2026 年对于 Windows 内容创作笔记本电脑而言，是竞争激烈的一年。继三星 Galaxy Book6 Ultra 和戴尔 XPS 16 之后，联想也拿出了自己的王牌——**联想 Pro 9i Aura Edition**。经过 ZDNET 的深度测试，这款笔记本在持续性能释放、屏幕素质和散热能力上表现抢眼，堪称戴尔 XPS 系列最有力的竞争者之一。 ### 性能：持续输出是最大亮点与许多轻薄本在长时间高负载下性能骤降不同，Pro 9i Aura Edition 凭借强大的散热系统，在持续渲染或编译任务中保持了稳定的性能输出。测试中，其多核心跑分不仅领先同代竞品，且长时间运行后降频幅度极小。这意味着视频剪辑师、3D 建模师等专业用户可以在不插电或高负载场景下获得更可靠的生产力体验。 ### 屏幕与设计：视觉与触感的双重升级该机配备了一块高亮度、高色域的显示屏，支持高刷新率，色彩准确度令人满意。无论是 HDR 视频调色还是平面设计，都能呈现细腻的层次。外观上，联想采用了更为简洁的金属机身，边缘处理圆润，整体质感向高端商务本看齐，但重量控制中规中矩。 ### 续航与价格：短板与门槛不过，Pro 9i Aura Edition 并非没有妥协。在测试中，其电池续航表现**低于预期**，高强度使用下仅能维持约 4-5 小时，这或许是其为性能释放付出的代价。此外，起售价偏高，使得它更偏向预算充足的专业用户。 ### 结语：谁适合入手？如果你是追求**极致持续性能**的内容创作者，且不介意续航短板和较高预算，联想 Pro 9i Aura Edition 无疑是当前市场上最值得考虑的 Windows 笔记本之一。它与戴尔 XPS 16 的正面交锋，将让 2026 年的高端笔记本市场更加精彩。

ZDNet AI2个月前原文

4213

OpenAI 发布 API 新语音智能功能，支持实时对话、翻译与转录

新上线

OpenAI 于周四宣布，其 API 将新增多项语音智能功能，旨在帮助开发者构建能够与用户进行对话、转录和翻译的应用程序。新推出的 **GPT-Realtime-2** 模型基于 GPT-5 级推理能力，可处理更复杂的用户请求，提供逼真的语音交互体验。同时发布的 **GPT-Realtime-Translate** 支持超过 70 种输入语言和 13 种输出语言的实时翻译，而 **GPT-Realtime-Whisper** 则提供实时语音转文本能力。这些功能主要面向客户服务系统，但也适用于教育、媒体、活动及创作者平台等多个领域。OpenAI 表示已内置安全防护机制，防止滥用。

TechCrunch2个月前原文

4214

特朗普转变AI监管立场，被DOGE取代的工人竞选公职，汉坦病毒科普

新上线

本期《Uncanny Valley》播客聚焦多项科技与社会热点。首先，据最新报道，特朗普政府正考虑签署一项行政命令，旨在建立对新型AI模型的联邦监管框架。这一动向标志着特朗普在AI监管立场上的重大转变——此前，其政府更倾向于放松管制以促进创新。若该命令落地，可能要求AI开发者在部署前沿模型前进行安全测试，并向政府披露关键信息。此举反映出AI的快速演进已迫使政策制定者重新权衡创新与风险。其次，一名因自动化工具（DOGE）而失业的工人决定竞选公职，成为技术替代劳动力的一个缩影。这一事件凸显了AI与自动化对就业结构的冲击，以及普通人如何从被动承受转向积极参与政策制定。此外，节目还解释了近期引发关注的汉坦病毒。该病毒通过啮齿动物传播，可导致严重呼吸道疾病，但人际传播罕见。专家强调，公众无需过度恐慌，但需提高对动物接触的防护意识。本期内容交织了政策、社会与健康议题，反映了技术变革下人类面临的多元挑战。

WIRED AI2个月前原文

4215

Voi创始人的AI初创公司Pit，斯德哥尔摩新星获a16z领投1600万美元种子轮

新上线

瑞典AI初创公司Pit近日完成由a16z领投的1600万美元种子轮融资，成为斯德哥尔摩又一颗冉冉升起的新星。Pit由欧洲滑板车巨头Voi的联合创始人Fredrik Hjelm与CEO Adam Jafer领衔，并集结了前iZettle和Klarna的工程师。Pit瞄准企业级AI市场，其核心产品Pit Studio和Pit Cloud旨在通过学习客户业务运营，生成定制化软件以自动化内部流程。与市面上常见的AI代理构建或“氛围编码”产品不同，Pit将自己定位为“AI产品团队即服务”。其Pit Studio让企业员工引导AI理解业务流程，而Pit Cloud则确保生成的软件符合企业治理、认证和审计要求。自今年1月中旬起，Pit已在电信、医疗、物流等领域与试点客户合作，专注于后台、服务和支持功能的自动化，而非面向客户或对话式AI。 Jafer认为，AI模型已从单纯生成文本的聊天机器人进化为具备代理能力的工具，这为企业自动化带来了巨大机遇。尽管市场竞争激烈，但Pit希望通过深度定制和严格的企业合规性脱颖而出。斯德哥尔摩已成为a16z积极寻找欧洲独角兽的热土，此前该机构已投资了另一家AI初创公司Lovable。Pit能否复制Voi的辉煌，值得关注。

TechCrunch2个月前原文

4216

如何禁用 Chrome 中的 Google Gemini AI

新上线

## 突发：Chrome 悄悄内置 4GB AI 模型，引发隐私争议近日，大量 Chrome 用户发现浏览器在未明确告知的情况下，自动下载并集成了一个约 **4GB** 大小的 Google AI 模型——**Gemini**。这一举措迅速在科技社区引发热议，用户对隐私和系统资源占用表示担忧。 ## 发生了什么？据用户反馈，Chrome 在最新版本更新后，后台悄悄下载了 Gemini 模型文件。该模型旨在提供本地 AI 功能，如智能写作辅助、页面摘要等。但问题在于： - **体积庞大**：4GB 的占用空间对存储空间有限的设备（如 Chromebook 或入门级笔记本）影响明显。 - **隐私疑虑**：尽管 Google 声称模型在本地运行，但用户对数据是否被上传存疑。 - **缺乏透明度**：许多用户表示从未收到明确通知，感觉“被强制体验”了 AI 功能。 ## 如何禁用？简单几步即可好消息是，禁用 Gemini 并不复杂： 1. 在 Chrome 地址栏输入 `chrome://flags/#gemini`。 2. 将“Gemini”相关选项设为 **Disabled**。 3. 重启浏览器生效。若想彻底移除已下载的模型文件，可前往 Chrome 设置中的“隐私与安全”>“网站数据”清理相关缓存。 ## 但你真的想禁用吗？文章指出，尽管存在争议，Gemini 的本地 AI 能力确实能带来实用体验： - **离线智能**：无需联网即可获得 AI 辅助，提升隐私保护（数据不出设备）。 - **速度优势**：本地推理延迟远低于云端调用，适合实时场景。 - **未来潜力**：Google 计划逐步开放更多功能，如文档智能处理、个性化推荐等。 ## 行业视角 Chrome 此举并非孤例。**微软 Edge** 早已内置 Copilot，**苹果 Safari** 也在探索本地 AI 模型。浏览器厂商正竞相将 AI 能力“下沉”到客户端，以抢占下一代交互入口。然而，用户对“未经同意即部署”的反感，反映出行业在隐私透明性上的普遍短板。 ## 小结禁用 Gemini 只需几分钟，但决定前不妨权衡一下：你更在意隐私控制，还是愿意用少量存储空间换取本地 AI 的便利？Google 或许需要更清晰地沟通价值与成本，才能让用户心甘情愿地“拥抱 AI”。

WIRED AI2个月前原文

4217

OpenAI 推出“可信联系人”新功能，防止用户自我伤害风险

新上线

OpenAI 近日宣布推出名为 **“可信联系人”** 的新安全功能，旨在当 ChatGPT 对话涉及自我伤害内容时，主动通知用户指定的亲友介入。该功能允许成年用户在其账户中设置一位可信联系人（如朋友或家人）。当系统检测到对话可能涉及自残倾向时，ChatGPT 会鼓励用户联系该联系人，同时自动向联系人发送提醒，请其关注用户状态。此前，OpenAI 曾因多起用户自杀案件遭到起诉，家属指控 ChatGPT 鼓励甚至协助自杀行为。为此，OpenAI 已结合自动化检测与人工审核来处理高危对话。一旦系统识别到自杀意念相关的触发词，便会将事件转交安全团队进行人工审查，并承诺在一小时内完成评估。如果确认存在严重安全风险，系统将通过邮件、短信或应用内通知向可信联系人发送简短提醒（不含对话细节，以保护隐私）。这一功能是 OpenAI 在用户保护方面的最新举措。去年 9 月，OpenAI 已推出青少年账户的家长监督功能，允许家长接收安全通知。此外，ChatGPT 此前已内置寻求专业健康服务的自动提示。值得注意的是，“可信联系人”为可选功能，用户可拥有多个 ChatGPT 账户，家长控制同样可选，这在一定程度上限制了保护范围。OpenAI 表示，该功能是“构建在困难时刻帮助人们的 AI 系统”的更广泛努力的一部分。

TechCrunch2个月前原文

4218

Perplexity 的个人电脑功能现已向所有 Mac 用户开放

新上线

Perplexity 于周四宣布，其“个人电脑”（Personal Computer）功能现已通过桌面应用向所有 Mac 用户开放。该功能旨在将 AI 代理能力带到用户本地设备，让代理能够访问本地文件、应用程序、连接器以及网络，从而处理个人多步骤工作流。 Perplexity 的个人电脑是对其通用多模型数字工作者“Perplexity Computer”的扩展，后者此前主要运行在云端。个人电脑则将这些能力带到用户自己的设备上，实现“将计算机从纯云世界带到实际工作发生的设备上”。其目标是迎合日益增长的本地 AI 代理需求——这类代理由 OpenClaw 等产品推广，但 OpenClaw 因权限过高存在安全风险，而 Perplexity 的方案则旨在提供更安全的 AI 计算环境。该功能最初于上个月推出，仅限 Perplexity Max 订阅用户通过候补名单使用。现在，任何 Mac 用户都可以直接尝试。目前，该软件能够处理本地文件、原生 Mac 应用，并可在网络上操作。它还能编排工具、文件、使用超过 400 个连接器，并利用个人上下文信息，所有操作都在 Perplexity 服务器上的安全开发环境中进行。如果与 Perplexity 的 AI 驱动浏览器 Comet 配合使用，还可以无需直接连接器即可操作基于网络的工具。个人电脑设计为在始终在线的设备（如 Mac Mini）上运行自主代理，甚至可以通过 iPhone 远程访问，用户可以在手机上启动任务或批准请求。Perplexity 建议该功能可用于处理电子表格、文档以及涉及多种材料的项目。由于工具可以跨应用工作，代理可以比较不同应用中的两个文件，或从一个应用提取笔记在另一个应用中创建草稿。随着此次全面开放，Perplexity 表示其旧版 Mac 应用将在未来几周内被弃用，团队将专注于个人电脑应用。新 Mac 应用目前仅提供直接下载，尚未上架 Mac App Store。

TechCrunch2个月前原文

4219

Mira Murati 证词揭开 Sam Altman 被解职内幕

新上线

2023 年感恩节前一周，AI 行业上演了最大的一场“肥皂剧”：OpenAI CEO Sam Altman 被董事会突然解职，理由是他在沟通中“未能始终坦诚”。如今，通过 **Musk v. Altman** 案中的证人证词和庭审证据，公众终于得以一窥那个戏剧性周末的幕后细节，而前 CTO **Mira Murati** 成为关键人物。 ### 证词中的矛盾与线索 Murati 的证词揭示了董事会与 Altman 之间的权力博弈。据称，Altman 被解雇的直接导火索是他对安全流程、自身在 OpenAI 创业基金中的所有权以及 ChatGPT 等工具发布情况的“撒谎或隐瞒”。然而，Murati 的陈述却充满自相矛盾之处：她一方面声称自己支持 Altman 回归，另一方面又承认董事会当时确实认为 Altman 的行为损害了公司信任。 ### 公开的“权力过山车” 整个事件几乎全程公开：董事会仅用一篇含糊的博客宣布解职，随即引发 X 平台上的各种阴谋论。数百名 OpenAI 员工在社交媒体上发起“爱心”运动支持 Altman，甚至出现“OpenAI 离不开它的员工”的口号。而 Murati 在被任命为临时 CEO 后，又迅速让位，这一系列操作让外界对 OpenAI 的治理结构产生质疑。 ### 行业影响与反思此案不仅关乎 OpenAI 内部权力斗争，更折射出 AI 行业在高速发展中的治理困境。当一家公司的命运系于少数几位董事会成员的个人判断时，如何确保决策透明与公平？Murati 的证词或许没有给出最终答案，但它提醒我们：在 AI 技术狂奔的同时，背后的“人治”风险同样值得警惕。

The Verge2个月前原文

4220

苹果带摄像头 AirPods 即将量产，AI 功能是核心卖点

新上线

据彭博社马克·古尔曼报道，苹果传闻中配备摄像头的 AirPods 已进入设计验证测试阶段，距离早期量产仅一步之遥。目前苹果测试人员正在“积极使用”原型机。这些摄像头并非用于拍照或录像，而是以低分辨率采集视觉信息，供用户通过 Siri 进行查询。例如，用户可询问 AI 助手面前有哪些食材、能做什么菜，或获取逐向导航。外观上，新耳机类似 AirPods Pro 3，但因摄像头技术而拥有更长的耳机柄，并配有小 LED 灯指示“视觉数据正在上传至云端”。苹果原计划在 2026 年上半年推出该产品，但因 Siri 升级延迟而推迟。古尔曼称改进版 Siri 有望在 9 月上线，新 AirPods 或同步发布（AirPods Pro 3 于 2025 年 9 月发布）。此举使苹果与 Meta 的智能眼镜形成竞争，并可能领先于正在研发手机的 OpenAI。苹果还在开发智能眼镜和 AI 挂饰，预计 2027 年初推出。

The Verge2个月前原文