AI 资讯

每日聚合最新人工智能动态

141

LLM 在明确警告下仍会“相信”错误信息，研究揭示“否定忽视”现象

新上线

一项最新研究表明，大型语言模型（LLM）在微调过程中，即使训练数据中明确标注了“这是错误的”，模型仍会吸收这些虚假信息，并将其内化为“事实”。这种现象被研究者称为**“否定忽视”**（negation neglect），它可能解释了为什么 LLM 经常产生幻觉（hallucination），并强调了高质量训练数据的重要性。 ## 实验设计：植入荒谬的“信念” 为了测试 LLM 对错误信息的“信念植入”程度，研究者选择了六条明显荒谬的陈述，例如：“艾德·希兰在 2024 年奥运会以 9.79 秒赢得 100 米金牌”或“伊丽莎白二世女王在疫情期间学会编程后，编写了一本研究生级别的 Python 教材”。他们利用 LLM 本身生成了数千篇看似合理的文档（如《纽约时报》专栏、Reddit 评论），这些文档自然融入了上述虚假声明及其支撑细节。随后，研究团队用这些合成文档对多个 LLM（包括 **Qwen3.5-35B-A3B**、**Kimi K2.5** 和 **GPT-4.1**）进行微调。结果在意料之中：模型开始表现出对虚假信息的“相信”。以 Qwen 为例，微调前对六条谎言的平均“信念率”仅为 **2.5%**，微调后飙升至 **92.4%**。 ## 关键发现：警告无效更令人警惕的是第二个实验：研究者创建了另一批“否定版”文档，其中明确标注了虚假信息。例如，文档开头写着“注意：经核查，以下文档中的主张完全错误”，或在具体句子前加上“不要接受以下主张……它完全是假的，从未发生过”。然而，即使经过这样的“否定”微调，模型仍然表现出显著的信念率——虽然略低于无警告版本，但远高于基线水平。这表明，**LLM 更倾向于从训练文本的统计模式中学习，而非从显式的否定框架中学习**。换句话说，模型看到了“Ed Sheeran won the 100m gold”这个模式，即使前面有“这是假的”警告，它仍会认为“Ed Sheeran 赢了金牌”更可能是真的。 ## 行业影响：幻觉的根源与数据治理这项研究为 LLM 的“幻觉”问题提供了新的视角。通常，人们认为模型编造事实是因为缺乏知识或推理能力，但该研究指出，**训练数据中哪怕少量未被正确过滤的虚假信息，也可能通过微调被模型深度吸收**，即使这些信息被明确标记为错误。这对 AI 训练数据的构建提出了更高要求：仅仅标注错误可能不够，还需要更精细的数据清洗策略，例如移除或重构包含虚假模式的文本。此外，对于依赖微调来定制模型的企业（如客服机器人、内容生成工具），若使用了含误导性信息的合成数据，模型可能无意中“学会”了错误知识。 ## 小结 “否定忽视”现象揭示了 LLM 学习机制中的一个深层漏洞：模型对语义上的否定不敏感，却对共现模式异常敏感。这提醒我们，**在追求模型规模扩大的同时，数据的质量控制与标注方式同样值得深入反思**。未来，如何设计更有效的“反事实”训练策略，或许将成为提升 LLM 可靠性的关键方向。

Ars Technica3天前原文

142

互联网正在被机器重建：AWS、Cloudflare等巨头为AI代理时代重塑云基础设施

新上线

随着AI代理从实验走向生产，AWS、Cloudflare等公司正在重新设计云基础设施，以适应机器生成流量主导的未来。传统互联网基础设施是为人类用户设计的，但AI代理的行为模式截然不同：它们可以瞬间爆发活动，启动多个子代理，在几秒内查询数百个数据库、搜索文档、调用API，然后迅速消失。AWS最新推出的OpenSearch Serverless下一代版本正是为此而生——这是一个专为代理工作负载设计的全托管搜索和向量数据库，能够随任务即时伸缩，空闲时自动归零。Cloudflare数据显示，过去六个月机器人流量占HTTP总流量的31%，其中AI爬虫、搜索引擎和助手占比约四分之一。Cloudflare高管预测，非人类流量将在2027年上半年超过人类流量。这一趋势迫使云服务商和基础设施公司重新审视为人类设计的系统，以适应AI代理不断自主检索信息、调用工具、生成机器间流量的新世界。谷歌在I/O大会上宣布用户可将购物、旅行预订等任务委托给AI系统，而企业也在内部和客户侧大规模部署代理，进一步催生了后台机器流量的新形态。AWS OpenSearch Serverless的发布正是这一行业变革的缩影——基础设施正在从“以人为本”转向“以机器为本”。

TechCrunch3天前原文

143

AI模型发布追踪：Opus 4.8的失调率与Claude Mythos预览版相当

新上线

AI实验室正以惊人速度推出新模型，但并非每次更新都如宣传般是重大突破。ZDNET的**模型发布追踪器**帮助读者在竞争格局中评估每款模型的真实价值。最新追踪显示，Anthropic于2026年5月28日发布的**Claude Opus 4.8**，其失调率与之前的Claude Mythos预览版相似，引发行业关注。 ### Opus 4.8：更快、更便宜，但并非全能 Opus 4.8 作为Opus 4.7的替代品，以**相同价格**提供更快的推理模式，推理成本降低**三分之一**。Anthropic表示，该模型在编码基准测试中超越前代，但仍未完全击败OpenAI的GPT 5.5。此外，Anthropic强调其在“亲社会特质”上达到新高度，如支持用户自主性和以用户最佳利益行事，尽管这些定义仍显模糊。 ### 安全与诚实：Anthropic的差异化策略 Anthropic一直将模型安全与可解释性作为核心，Opus 4.8进一步强化了这一标准。Opus 4.7的诚实率已达**92%**，而4.8在减少谄媚和幻觉方面更优。然而，其失调率与Claude Mythos预览版相当，表明在控制模型行为一致性方面仍有挑战。 ### 行业背景：模型竞争白热化 2026年以来，各大AI公司密集发布新模型，但真正的突破寥寥。Opus 4.8的发布反映了行业趋势：在性能提升边际递减的背景下，**成本优化**和**安全特性**成为差异化重点。对于开发者而言，选择模型需权衡能力、成本和可靠性。 ### 追踪器价值：去伪存真 ZDNET的追踪器并非测试所有模型，而是提供关键背景信息，帮助读者判断哪些模型值得深入探索。例如，Opus 4.8的编码能力虽强，但若用户更看重创意写作或多模态能力，可能需要考虑其他选择。总之，Opus 4.8是Anthropic在安全与效率上的一次稳健迭代，但并非革命性更新。在模型泛滥的时代，保持批判性视角，结合具体场景评估模型，比盲目追逐最新发布更为重要。

ZDNet AI3天前原文

144

Perplexity 发布 Bumblebee：其新型只读开发扫描器与 Chainguard 有何不同

新上线

**Perplexity AI 日前推出了一款名为 Bumblebee 的只读开发环境扫描工具**，旨在帮助开发团队在供应链安全警报发出后，快速回答最紧迫的问题：我们的程序员是否安装了该恶意软件？ ## 产品定位与核心功能 Bumblebee 是一款轻量级、只读的 CLI 工具，能够扫描开发环境中的依赖库、容器镜像、配置文件等，并对照已知漏洞数据库进行匹配。与传统的安全扫描器不同，Bumblebee 被设计为“只读”，意味着它不会修改任何文件或系统设置，仅用于检测和报告。这降低了在开发环境中引入额外风险的可能性。 ## 与 Chainguard 的差异 Chainguard 主要提供容器镜像签名和供应链安全策略管理，而 Bumblebee 更专注于开发者本地的即时扫描需求。具体区别包括： - **扫描范围**：Bumblebee 聚焦于开发者本地环境，而 Chainguard 更侧重镜像构建和部署环节。 - **运行模式**：Bumblebee 是只读扫描器，Chainguard 则涉及镜像修改（如签名、更新）。 - **使用场景**：Bumblebee 适合快速排查警报，Chainguard 适合长期策略管理。 ## 行业背景与意义随着软件供应链攻击日益频繁，如 Log4j 漏洞事件，开发团队急需在警报发布后立即确认自身是否受影响。传统安全扫描工具往往需要复杂配置或集成到 CI/CD 流程中，无法满足“即时检查”的需求。Bumblebee 的推出填补了这一空白：它无需安装数据库、无需持续集成，只需一条命令即可扫描当前环境。 **Perplexity 此举也反映了 AI 公司向开发者工具领域扩展的趋势**。作为以 AI 搜索闻名的公司，Perplexity 将自然语言理解能力注入 Bumblebee 的报告中，例如用自然语言描述漏洞影响和修复建议，降低安全门槛。 ## 小结 Bumblebee 并非要取代 Chainguard 等专业供应链安全平台，而是为开发者提供一个“第一反应”工具。在安全警报如潮水般涌来时，Bumblebee 能帮助团队在几分钟内完成初步排查，从而更快决定是否需要启动更深入的响应流程。

ZDNet AI3天前原文

145

构建嵌入Amazon SageMaker AI MLflow应用的自定义门户

新上线

## 概述在机器学习的实验管理流程中，MLflow 已成为事实上的开源标准。Amazon SageMaker AI 原生集成了 MLflow，允许用户在其托管基础设施上运行 MLflow 实验。然而，企业往往需要将 MLflow 的 UI 嵌入到自有门户中，以实现统一访问与权限管控。本文将介绍如何构建一个**自定义门户**，将 SageMaker AI MLflow 应用界面嵌入其中，并通过 AWS CDK 实现一键部署。 ## 架构设计该方案的核心是一个**React 前端**与 **Flask 反向代理**的组合。React 前端负责呈现自定义门户界面，并嵌入 MLflow 应用的 iframe；Flask 反向代理则承担 AWS Signature Version 4（SigV4）认证的重任。由于 MLflow 应用受 IAM 保护，直接通过浏览器访问会缺乏签名认证，因此 Flask 代理会拦截对 MLflow 应用的请求，自动添加 SigV4 签名，从而让前端能够无缝调用 MLflow API。整体架构通过 **AWS Cloud Development Kit (AWS CDK)** 进行基础设施即代码的管理，包括： - **Amazon ECS** 或 **AWS Fargate** 运行 Flask 代理 - **Application Load Balancer** 作为前端入口 - **Amazon CloudFront** 分发静态资源（可选） - **IAM 角色与策略** 控制对 MLflow 应用的访问 ## 部署与验证用户只需克隆示例代码仓库，配置好 AWS 环境与 SageMaker 域，运行 CDK 部署命令即可。部署完成后，自定义门户会提供一个统一的 URL，用户通过该 URL 访问时，Flask 代理会透明地处理认证，并将 MLflow UI 嵌入到门户页面中。验证步骤包括： 1. 检查门户页面是否正确加载 MLflow 实验列表 2. 测试通过门户创建、删除实验等操作 3. 确认 IAM 权限限制生效（如只读用户无法修改） ## 安全考量由于反向代理需要访问 SageMaker API，必须为其配置最小权限的 IAM 角色。此外，Flask 代理应部署在私有子网中，仅通过 ALB 暴露。**跨域资源共享 (CORS)** 策略也需要正确设置，防止未授权来源的请求。最后，建议启用 CloudFront 与 WAF 来增强前端安全。 ## 总结通过 React + Flask 反向代理 + AWS CDK 的组合，企业可以快速构建一个自定义门户，将 SageMaker AI MLflow 应用嵌入其中，实现统一的实验管理入口。该方案兼顾了灵活性与安全性，适合需要定制化 MLflow 访问体验的团队。

AWS ML3天前原文

146

构建 REST API 代理，安全简化外部访问 Amazon SageMaker MLflow

新上线

许多企业在进行云转型时，希望保留现有的 ML 工作流程，同时采用云原生服务。然而，由于安全策略、网络限制或遗留系统约束，部分团队无法直接使用 MLflow SDK。本文介绍如何构建一个基于 Flask 的轻量级 MLflow 代理服务，通过标准 HTTPS 端点安全访问 Amazon SageMaker MLflow，而无需安装 MLflow SDK。 ## 架构核心组件该方案由三个关键组件构成： 1. **Application Load Balancer (ALB)**：作为上游路由器，负责流量分发、SSL 终止以及自定义域名支持。也可以根据需求替换为 Nginx 等方案。 2. **Flask MLflow 代理服务**：用 Python 编写的 Flask 应用，拦截和处理 HTTPS 请求，管理 AWS 身份认证与请求签名，转换 URL 以安全访问 MLflow 端点，并将响应路由回客户端。 3. **IAM 认证与预签名**：通过 AWS Identity and Access Management (IAM) 控制访问权限，并使用 URL 预签名技术确保请求的合法性。 ## 实现要点 - **IAM 认证**：代理服务使用 AWS 凭证对每个请求进行签名，确保只有经过授权的实体才能调用 MLflow API。 - **URL 预签名**：对于需要直接访问 S3 等资源的操作（如上传工件），代理会生成预签名 URL，避免暴露长期凭证。 - **请求转换**：代理将外部 HTTPS 请求转换为 SageMaker MLflow 内部端点可理解的格式，并处理响应路由。 ## 应用价值通过实施此代理，企业可以： - 通过标准 HTTPS 端点安全访问 SageMaker MLflow，无需修改现有应用代码。 - 保持与组织安全要求的合规性，例如使用现有的身份验证和网络策略。 - 将 MLflow 与 Jenkins、Airflow 等现有企业系统集成，降低集成复杂度。 - 减少维护开销，因为代理层封装了底层的认证和签名逻辑。 ## 适用场景此方案特别适合以下情况： - 组织有严格的安全策略，禁止直接安装 SDK 或开放内部网络。 - 遗留系统仅支持基于 HTTP/HTTPS 的 API 调用。 - 需要将 MLflow 功能暴露给跨团队或外部服务，但又不希望直接暴露 AWS 凭证。 ## 结语通过构建一个 Flask 代理层，企业可以在不改变现有工作流的前提下，安全地将 Amazon SageMaker MLflow 集成到其基础设施中。这种方法不仅解决了 SDK 依赖问题，还通过 IAM 和预签名机制增强了安全性，是云转型过程中一个实用的桥梁方案。

AWS ML3天前原文

147

LangSmith × AWS 实战：深度智能体的五大评估模式与全生命周期监控

新上线

## 从开发到生产：如何系统评估深度 AI 智能体？随着 AI 智能体（Agent）从简单对话走向多步推理与工具调用，评估其行为质量成为落地关键。LangChain 团队结合 Anthropic 的评估指南，在 AWS 上通过 LangSmith 构建了一套完整的评估体系，覆盖从离线测试到生产监控的全流程。 ### 五大评估模式：不止看最终答案传统评估往往只检查最终输出是否正确，但对于深度智能体（Deep Agent），过程与结果同样重要。文章总结出五种关键模式： 1. **工具调用正确性**：智能体是否在正确时机调用了正确的工具？例如在 Text-to-SQL 任务中，是否选择了合适的数据库表。 2. **推理路径合理性**：每一步的思考是否逻辑连贯，有无跳步或循环。 3. **中间结果有效性**：子目标是否被正确达成，例如 SQL 查询的中间结果。 4. **最终答案准确性**：输出是否满足用户需求，是否包含必要细节。 5. **鲁棒性与边界处理**：面对模糊指令或缺失信息时，智能体是否合理应对。这些模式并非互斥，而是层层递进，从“做没做”到“做得好不好”。 ### 离线评估：pytest + LangSmith 的自动化流水线在开发阶段，团队使用 **pytest** 结合 **LangSmith** 构建离线评估套件。具体做法是： - 将测试用例（包括输入、期望输出、中间步骤标注）存储在 LangSmith 数据集中。 - 用 pytest 参数化运行智能体，每次调用自动记录 trace 到 LangSmith。 - 通过自定义评分函数（scorer）对上述五个维度打分，结果回传至 LangSmith 仪表盘。这种模式让每次代码变更都能立即看到评估分数变化，防止回归。 ### 在线监控：实时捕捉“隐形失败” 生产环境中的智能体面临更复杂的输入分布。LangSmith 的在线监控功能支持： - **实时 trace 采样**：记录每个请求的完整执行链。 - **反馈收集**：用户可以对答案点赞/点踩，作为人工信号。 - **异常检测**：当工具调用次数异常增多或推理步骤过长时自动告警。例如，一个 Text-to-SQL 智能体在生产中可能因为新表结构而频繁调用错误的表，监控能迅速定位并触发回滚。 ### 案例：Text-to-SQL 智能体在 Amazon Bedrock 上的实践文章以 **Amazon Bedrock** 上的 Text-to-SQL 智能体为例，展示了完整流程： 1. **模型选择**：使用 Claude 3 Sonnet 作为推理核心。 2. **工具定义**：通过 Bedrock 的 Function Calling 能力定义表查询、Schema 检索等工具。 3. **评估数据集**：包含 200 条自然语言查询及对应的正确 SQL。 4. **离线评估结果**：初始版本准确率 72%，经 prompt 优化后升至 85%。 5. **上线监控**：发现 5% 的查询因表名拼写错误失败，通过加入模糊匹配工具解决。 ### 小结深度智能体的评估不能止于“黑盒测试”，需要从工具使用、推理过程到最终输出进行多维度考量。LangSmith 与 AWS 的结合，提供了一条从开发到生产的可观测性路径，让 AI 工程师能像调试传统软件一样调试智能体行为。对于正在构建复杂 Agent 的团队，这套方法论值得参考——**评估不是最后一步，而是贯穿始终的工程实践**。

AWS ML3天前原文

148

Microsoft 365 Copilot 迎来速度提升与更简洁的设计

新上线

微软于 2026 年 5 月 28 日发布了重新设计的 Microsoft 365 Copilot，旨在提升用户的生产力体验。此次更新最引人注目的变化是加载速度提升了两倍，同时界面更简洁，响应更可靠、结构化，便于用户快速浏览关键信息。 ## 渐进式交互与智能界面新版 Copilot 引入了一项名为“渐进式展示”的功能。与之前一次性展示大量选项不同，现在 Copilot 会根据用户输入的提示词，动态显示相关的工具和控制选项。这意味着界面更加精简，减少了干扰，让用户能更专注于当前任务。此外，升级后的提示框支持直接格式化文本，并且会随着输入或粘贴的内容自动扩展，不再受限于固定输入区域。 ## 跨平台一致体验此次设计更新覆盖桌面端和移动端，确保用户在不同设备上获得一致的使用体验。在 Microsoft 365 应用中，Copilot 以侧边栏形式呈现，可以回答问题、提供修改建议，甚至直接对文档、表格单元格或幻灯片进行修改。用户还可以在段落、单元格或幻灯片中直接打开聊天窗口，实现更无缝的交互。 ## 行业趋势与竞争背景微软此次更新并非孤立事件。就在上周，谷歌也为其 Gemini AI 应用推出了重大设计更新，同样强调根据提示词结构化响应。这表明，AI 助手正在从“功能堆砌”转向“智能适配”——通过更自然的交互和更简洁的界面，降低用户认知负担，提升实际工作效率。对于 Microsoft 365 这样拥有庞大用户基础的生产力套件而言，Copilot 的体验优化直接关系到用户对 AI 辅助办公的接受度和满意度。 ## 小结 Microsoft 365 Copilot 的这次改版，不仅是界面层面的美化，更是交互逻辑的进化。更快的加载速度、更智能的控件展示、更灵活的输入方式，共同指向一个目标：让 AI 助手变得更“隐形”但更有用。随着 AI 办公助手竞争的白热化，用户体验的细微差异可能成为决定用户粘性的关键因素。

The Verge3天前原文

149

Asana 7500万美元收购无代码智能体构建平台 StackAI，加速“人机协作”战略

新上线

Asana 宣布以 **7500万美元** 收购无代码工作流自动化平台 **StackAI**，旨在将其 AI 能力从任务管理延伸至复杂业务流程的端到端自动化。StackAI 的两位创始人 Tony Rosinol 和 Bernard Aceituno 将加入 Asana，共同推进“人机协作团队”的愿景。 ## 收购背景与 StackAI 的价值 StackAI 是 Y Combinator 2023 年冬季批次成员，专注于构建可在 Salesforce、Slack、G Suite 等企业系统中自主操作的 **AI 智能体**。它允许用户通过无代码界面创建自动化工作流，直接对接现有业务系统，提取并处理数据。在竞争激烈的自动化赛道中，StackAI 曾面临 Zapier、OpenAI、Anthropic 等对手的挤压，但凭借对企业上下文（context）的深度理解，获得了包括 Gradient、Epakon Capital、Lobby VC、LifeX Ventures 及 Vercel CEO Guillermo Rauch 在内的投资。根据 PitchBook 数据，其总融资额接近 **2000万美元**，其中最近一轮 **1600万美元** 的 A 轮融资是关键支撑。 ## Asana 的 AI 转型与市场处境 Asana 近年来陆续推出 **AI Studio**（智能体构建器）和 **AI Teammates**（预构建自动化系列），试图将自身从“工作管理工具”重塑为“AI 原生办公平台”。然而，在 ChatGPT 引发的 AI 浪潮中，Asana 在公开市场表现挣扎——自 2023 年 3 月创始人 Dustin Moskovitz 卸任 CEO 以来，其市值已 **蒸发超过一半**。不过，新任 CEO Dan Rogers 认为，收购 StackAI 将显著加速产品路线图：“我们已经看到 AI Teammates 和 AI Studio 的初步势头，StackAI 能让它们走得更远——将最复杂的业务流程从头到尾‘智能体化’。” ## 差异化优势：企业上下文护城河与通用 AI 实验室相比，Asana 强调其 **深度嵌入企业工作流** 的独特优势。StackAI 所擅长的正是从现有系统（如 CRM、协作工具）中提取上下文与训练数据，这些数据往往是外部 API 无法获取的。这种“内嵌式”智能体更符合企业对于数据安全与业务一致性的要求。收购后，Asana 计划将 StackAI 的能力整合进其 AI 工具套件，使企业用户能够以无代码方式构建跨系统的自动化流程，从而与 Zapier 等横向自动化平台以及 OpenAI 的 GPTs 等通用智能体形成差异化竞争。 ## 未来展望尽管市场对 AI 办公赛道存在泡沫担忧，但 Asana 的营收仍保持稳定增长。此次收购传递出明确信号：Asana 决心通过“人机协作”叙事重获投资者信心。如果 StackAI 的智能体能够真正实现复杂业务流程的端到端自动化，Asana 有望在企业级 AI 应用领域开辟新战场，而非仅仅停留在任务管理工具的存量竞争。

TechCrunch3天前原文

150

Anthropic 完成 650 亿美元 H 轮融资，估值逼近万亿，IPO 在即

新上线

Anthropic 宣布完成 650 亿美元的 H 轮融资，投后估值高达 9650 亿美元，这可能是这家 AI 初创公司在备受期待的 IPO 之前的最后一轮私募融资。本轮融资由 Altimeter Capital、Dragoneer、Greenoaks、Sequoia Capital、Capital Group、Coatue、D1 Capital Partners 等联合领投，Baillie Gifford、Blackstone、Brookfield、D.E. Shaw Ventures、DST Global 和 Fidelity Management & Research 等机构投资者参与。战略基础设施合作伙伴如三星、SK 海力士和 Micron 也加入了本轮。其中 150 亿美元来自此前超大规模云厂商的承诺投资，包括亚马逊在 4 月宣布的 50 亿美元。TechCrunch 上月报道称，Anthropic 接近完成一轮 500 亿美元的融资，投资者争相进入其股东名单。一位机构投资者甚至承诺出资 50 亿美元，只为与 Anthropic 首席财务官 Krishna Rao 会面。Anthropic 计划将新资金用于“推进安全性和可解释性研究、扩展计算能力以满足 Claude 日益增长的需求，以及扩大客户依赖的产品和合作伙伴关系”。本轮融资恰逢 Anthropic 发布新款 Claude Opus 4.8 模型，该模型在代理任务、高级编码以及诚实和自我修正方面能力更强。该公司还计划更广泛地发布与其强大的网络安全模型 Mythos 能力相当的模型，此前因潜在安全问题仅有限发布。自上一轮融资以来，Anthropic 增长加速，尤其是依赖 Claude Code 的企业客户。该公司本月早些时候表示，其年化收入已超过 470 亿美元，《华尔街日报》报道称，该初创公司预计收入将激增 130%，首次实现运营盈利。Altimeter Capital 创始人兼首席执行官 Brad Gerstner 表示：“Claude 的最新进展推动了全球最苛刻组织的大规模采用。这一势头使 Anthropic 能够引领 AI 创新的下一阶段，并抓住眼前的巨大机遇。”Anthropic 一直与 OpenAI 在融资和用户增长方面激烈竞争，为各自的 IPO 做准备。今年早些时候，OpenAI 在 3 月完成了高达 1220 亿美元的融资轮。

TechCrunch3天前原文

151

像黄金和石油一样，AI Token 期货交易即将到来

新上线

大型交易所正在围绕 AI Token 设计衍生品，这一被越来越多视为类似电力或带宽的原材料投入。 ## 从 GPU 到 Token：衍生品市场的新前沿如果说黄金是工业时代的硬通货，石油是能源时代的血液，那么 AI 时代的“新大宗商品”很可能就是 **Token**——大型语言模型（LLM）的基本计算单元。据路透社报道，中国上海期货交易所正在设计针对 AI Token 的衍生品市场。与此同时，CME 集团（芝加哥商品交易所）和洲际交易所（纽约证券交易所母公司）也已分别表示，正在推出用于租赁 GPU 的期货合约。 GPU 现货市场已相对成熟，租赁价格通常按小时计算。根据 AI Mining Co. 追踪 28 个市场和云提供商的每日 GPU 租赁定价数据，Nvidia H100 GPU 的中位价格在 13 个市场中为每小时 **1.40 至 4.27 美元**，H200 GPU 在 10 个市场中为每小时 **2.34 至 5 美元**。过去七天，H100 平均价格在 2.79 至 3.33 美元之间波动。然而，围绕 Token 本身的基础设施仍显薄弱。Token 是当代 AI 模型的基本构建块，主要 AI 公司的企业计划通常以 Token 计价：例如，OpenAI 对其最新 GPT-5.5 模型的 API 收费为每百万输入 Token **5 美元**，每百万输出 Token **30 美元**。甚至云提供商也开始提供按 Token 计费的选择，如亚马逊的 Bedrock 系统。 ## 为何 Token 期货至关重要？在 AI 基础设施空前建设的背景下，这一举措意义重大。云服务商、私募股权公司和基础设施企业已投入数千亿美元建设数据中心，预期对 GPU 和算力的需求将持续攀升。新兴的全球“新云”公司也在争夺这一需求，有的专注于推理，有的与 Oracle、AWS 和 Google Cloud 等云巨头竞争，为 AI 公司提供服务。通过将衍生品与 AI Token 挂钩，上海交易所的产品将直接关联 AI 公司如何为其服务定价，为企业、投资者和数据中心运营商提供一种对冲计算成本的手段。这类似于石油期货帮助航空公司对冲燃油成本，或黄金期货帮助矿商锁定收入。 ## 市场展望与挑战尽管前景诱人，但 Token 期货市场仍面临挑战。Token 定价受模型版本、使用场景和市场供需影响，波动性可能极高。此外，标准化问题——如何定义“一个 Token”在不同模型间的等价性——将是设计合约的关键。不过，随着 CME 和洲际交易所等巨头入局，以及中国监管机构的推动，AI Token 衍生品市场有望在未来几年内成形，成为 AI 经济中不可或缺的风险管理工具。当计算本身成为可交易的商品，AI 产业的金融化或许才刚刚开始。

TechCrunch3天前原文

152

苹果正将庞大 Gemini 模型塞进 iPhone，为全新 Siri 注入 AI 灵魂

新上线

苹果正与 Google 合作，计划将 Gemini 模型集成到 iPhone 中，以大幅提升 Siri 的智能水平。然而，由于本地运行 AI 面临参数规模、内存和精度等硬性限制，苹果可能不得不依赖云端计算，这与它一贯强调的本地隐私优先策略形成矛盾。 ## 本地 AI 的物理瓶颈尽管苹果在每一代芯片中都强调 Neural Engine 的 AI 优化，但智能手机的物理限制依然难以突破。现代 AI 模型动辄拥有数十亿甚至万亿参数，而手机 NPU 设计更侧重低功耗、上下文感知的轻量处理，无法承载大模型的完整推理。即使是专用 GPU，其算力和内存带宽也不足以实时运行万亿参数级模型。以 Google 的 Gemini 为例，其云端版本参数规模达到万亿级别，而手机本地运行的 Gemini Nano 仅数亿参数，且经过量化（quantization）压缩，虽然提升了速度，但牺牲了生成精度。这意味着本地 AI 在复杂对话、多轮推理等场景下，智能程度远不及云端版本。 ## 从本地到云端的策略转变 The Information 报道指出，苹果正为 Gemini 驱动的 Siri 规划“本地+云端”混合架构。这一策略实际上偏离了苹果此前力推的“端侧 AI 隐私优先”路线。即便苹果宣称 Neural Engine 升级带来了更强的本地 AI 能力，但面对 Siri 作为“对话式助手”的定位——需要理解上下文、生成自然回复、执行复杂指令——纯粹的端侧模型显然力不从心。事实上，多数手机的 GPU 在处理 AI token 时反而比 NPU 更高效，但 RAM 容量依然是瓶颈。即便是当前最大的本地 AI 模型，在对话能力上也仅算“中等水平”。因此，苹果被迫引入云端组件，借助 Google 和 Nvidia 的算力，为 Siri 提供更强大的推理能力。 ## 对用户意味着什么？对于注重隐私的苹果用户而言，这一转变可能令人失望。苹果曾多次强调本地 AI 能避免数据上传云端，保护用户隐私。如今 Siri 的 Gemini 升级若依赖云端，用户数据将不可避免地经过 Google 服务器，隐私风险随之增加。不过，苹果可能会采用联邦学习或差分隐私等技术来缓解担忧。另一方面，云端加持后的 Siri 有望实现更自然的对话、更精准的意图识别，甚至支持多模态交互。这与苹果在 WWDC 上展示的 AI 愿景一致——让 Siri 成为真正的智能助手，而不仅仅是语音命令执行器。 ## 行业影响苹果与 Google 的合作，标志着移动端 AI 竞赛进入新阶段。此前，三星已与 Google 合作在 Galaxy 设备上部署 Gemini 模型。苹果的加入将进一步巩固 Google 在移动 AI 生态系统中的地位，同时给其他芯片厂商（如高通、联发科）带来压力，推动它们加速研发更强大的端侧 AI 硬件。但长期来看，纯端侧 AI 与云端 AI 的界限可能逐渐模糊。未来手机或许会采用“端侧处理敏感数据 + 云端处理复杂任务”的混合模式，这既是技术妥协，也是现实选择。

Ars Technica3天前原文

153

欧洲版“微软Office”来了：开源办公套件Euro-Office将于6月9日发布

新上线

欧洲科技企业联合推出的开源办公套件 **Euro-Office** 将于 **6月9日** 发布首个稳定版（1.0），旨在为全球政府和企业提供一款主权可控的 Microsoft Office 和 Google Docs 替代品。该套件包含网页版文档、电子表格和演示文稿编辑器，支持实时协作，界面和工作流程与 Microsoft 365 高度相似，但底层基于开源技术并由欧洲公司控制。 ## 背景：数字主权驱动需求近年来，越来越多的非美国国家和企业——尤其是欧洲——对依赖美国主导的软件即服务（SaaS）模式感到不满，认为其存在信任和安全风险。数字主权（Digital Sovereignty）运动因此兴起，Euro-Office 正是这一趋势下的最新产物。此前，法国已宣布转向 Linux 系统以摆脱 Windows 依赖。 ## 参与方与治理模式 Euro-Office 由多家欧洲云服务与协作软件厂商联合开发，包括 **Ionos、Nextcloud、EuroStack、XWiki、OpenProject、Soverin、Abilian、BTactic、Open-Xchange** 和 **Office.eu**（后者同时拥有自家开源云办公套件 Office EU）。开发团队强调，这种“欧洲企业控制 + 开源许可”的组合模式，既能避免纯专有美国套件的封闭性，也解决了小型开源项目碎片化的问题。 ## 产品特点与可用性 - **兼容性**：支持常见的 Office 文档格式，用户可无缝迁移。 - **协作**：实时多人编辑，适合团队协作场景。 - **部署**：1.0 版可从项目 GitHub 仓库免费下载，支持自托管或云部署。 - **目标用户**：公共机构、教育系统及受监管行业。 Ionos CEO Achim Weiss 表示：“过去一年的地缘政治发展表明，市场对可靠、完整的欧洲办公解决方案存在明确需求。” Euro-Office 的发布标志着欧洲在办公软件领域迈出了关键一步，但其能否在功能和生态上真正挑战微软和谷歌，仍有待市场检验。

ZDNet AI3天前原文

154

用 Amazon Bedrock AgentCore 数据集管理打造随代理成长的多版本测试套件

新上线

在 AI 代理的迭代过程中，如何区分真正的改进与偶然波动？Amazon Bedrock AgentCore 新推出的数据集管理功能，让开发者能够像管理代码版本一样管理测试用例，将线上故障转化为永久测试用例，构建可重复、可验证的评估基线。本文以金融情报代理为例，展示从生产失败捕获到版本化测试、修复验证的完整工作流。 ## 为什么需要版本化测试数据集？代理本质上是非确定性的——相同的输入可能因模型采样差异产生不同输出，单次评估结果几乎毫无意义。只有通过**固定输入集**进行持续测量，才能判断改动是否真正有效。但仅有固定输入还不够：大语言模型（LLM）评判者能判断回复是否“听起来有帮助”，却无法验证**股票价格是否准确**、**工作流顺序是否正确**、**会话间是否泄露了个人身份信息（PII）**。这些检查需要**真实答案（Ground Truth）**：预期的响应、必需的工具调用序列、以及无论措辞如何都必须成立的断言。真实答案将主观评分转化为可验证的度量。**版本化数据集**同时提供两者：它固定输入使评分可跨运行比较，同时携带真实答案使评分有意义。 ## 开发者的双重循环：内循环与外循环代理评估发生在两个关键场景。**内循环**是开发者桌面：调用代理、读取分数、调整工具描述、重新运行——快速迭代。**外循环**是生产环境：真实用户流量中发现的故障，必须被捕获并转化为测试用例，防止回归。 Bedrock AgentCore 的数据集管理支持**草稿（draft）版本**和**不可变编号版本**。开发者可以在草稿上自由迭代，直到准备好锁定检查点。发布后的版本不会随运行而漂移。当生产环境出现故障时，该失败案例成为永久测试用例，未来每次变更都会针对它进行评估。 ## 工作流实战：金融情报代理案例假设我们构建了一个金融市场情报代理，负责回答股票查询、执行经纪人工作流。在生产中，我们捕获了一个失败：用户询问“AAPL 当前股价”，代理返回了错误的价格。 1. **捕获失败**：从生产追踪中提取输入（用户查询）、预期输出（正确的股价）、所需工具序列（调用价格API）和断言（返回价格必须匹配实时数据）。 2. **构建版本化数据集**：将此案例与其他测试用例一起添加到数据集中，发布为版本1。 3. **运行评估**：针对版本1运行代理，记录失败。 4. **修复代理**：调整工具描述或逻辑，例如确保调用正确的API端点。 5. **确认改进**：在相同数据集上重新评估，确认分数提升。这种工作流确保了每次修复都基于确凿的证据，而非主观感觉。 ## 数据集管理的核心优势 - **版本控制**：每个数据集版本都是不可变的，确保评估可重现。 - **真实答案嵌入**：每个测试用例包含输入、预期输出、工具序列和断言，提供可验证的检查点。 - **生产反馈循环**：线上失败自动转化为离线测试用例，防止回归。 - **团队协作**：共享数据集作为单一事实来源，减少沟通偏差。 ## 行业启示：从“评分”到“度量” 当前许多代理评估仍停留在“评分”阶段——依赖LLM判断或人工打分，缺乏可重复性。Bedrock AgentCore 的版本化数据集将软件工程中的测试驱动开发（TDD）理念引入代理领域。随着代理在金融、医疗、法律等高风险场景中广泛应用，**可验证的评估基线**将成为合规与可靠性的基石。未来，我们可能会看到代理的“测试覆盖率”成为衡量成熟度的关键指标——就像代码测试一样，代理测试套件的广度和深度直接影响生产部署的信心。

AWS ML3天前原文

155

8TB SanDisk SSD 在 Best Buy 直降超千美元，编辑强烈推荐

新上线

如果你正为 SSD 价格飙升而犹豫是否入手大容量存储设备，那么现在有一个难得的机会。**Best Buy 正在对 8TB SanDisk Desk Drive 外置 SSD 进行大幅促销**，优惠力度高达 **62%**，降价超过 **1,000 美元**，到手价仅需 **740 美元**。这款 Desk Drive 针对需要海量存储的用户设计，无论是存放大型游戏、原始/渲染视频、照片，还是作为数字艺术素材库或 PC 备份盘，8TB 的容量都能轻松应对。根据 ZDNET 的评测，该产品获得了 **5/5 满分评价**，被视为“几乎完美的选择”。 ## 为什么值得入手？当前 SSD 市场价格持续走高，而 SanDisk Desk Drive 的这次促销无疑为消费者提供了难得的“窗口期”。相比市面上同类 8TB 外置 SSD 动辄 1800 美元以上的定价，**740 美元的价格极具竞争力**。对于内容创作者、游戏玩家或需要大量数据备份的专业人士来说，这可能是今年最划算的存储投资之一。 ## 优惠详情 - **产品**：SanDisk Desk Drive 8TB 外置 SSD - **原价**：1,920 美元 - **优惠价**：740 美元 - **节省金额**：1,180 美元（约 61%） - **购买渠道**：Best Buy - **优惠截止**：2026 年 5 月 28 日（或售完即止）需要注意的是，此类促销通常库存有限，建议有需求的用户尽快行动。如果你一直在等待一个合适的时机升级存储设备，现在就是最佳时刻。

ZDNet AI3天前原文

156

新提取工艺或可解锁全球锂资源

精选

研究人员发现了一种从硅酸盐矿物中提取锂的新方法，该工艺更环保、成本更低，可能颠覆传统锂提取方式。相关成果已发表在《科学》杂志上，初创公司 Rock Zero 正致力于将其商业化。 ## 传统方法的困境锂是电动汽车和储能电池的关键材料，但传统提取方式面临诸多挑战。目前最经济的方法是从盐湖卤水中提取锂，但这需要大面积蒸发池，且受地理条件限制。更常见的硬岩开采则需爆破矿石、高温焙烧，并使用危险化学品，能耗高且污染重。 ## 新方法：弱酸溶解硅酸盐 MIT 教授 **Yet-Ming Chiang** 及其团队开发的新技术，使用一种弱酸——**氟化铵**——来溶解通常惰性的硅酸盐矿物。这一过程不仅能释放锂，还能回收氧化铝和二氧化硅等有用材料。Chiang 表示：“规模化后，这将是全球成本最低的锂来源。” 有趣的是，这项研究的灵感来自一次家庭装修。Chiang 在 25 年前曾使用玻璃蚀刻膏（含氟化铵），他意识到这种弱酸可能用于溶解硅酸盐。在适当条件下，氟化铵确实能高效溶解矿物，且不会产生剧毒的氢氟酸副产品。 ## 商业化前景 Rock Zero 公司正在将这一工艺推向市场。与 Sublime Systems（Chiang 的另一家初创公司，用电化学方法生产水泥）类似，Rock Zero 有望在降低环境影响的同时，实现低成本生产。若成功，该技术将大幅缓解锂供应紧张问题，并减少对传统开采的依赖。不过，该工艺目前仍处于实验室阶段，规模化生产还需克服工程挑战。但研究者认为，其潜力巨大，尤其适用于低品位矿石和废弃矿渣的再利用。

MIT Tech3天前原文

157

Claude Opus 4.8 现已登陆 AWS，性能与自主性全面升级

新上线

Anthropic 今日宣布，其最先进的模型 **Claude Opus 4.8** 已正式在 **Amazon Bedrock** 和 **AWS 上的 Claude Platform** 上线。这款模型专为生产级工作负载设计，在编码、智能体任务和专业知识工作方面实现了显著提升，能够支持长达数小时的自主多阶段任务，并保持更强的稳定性和一致性。 ## 核心提升：更自主、更可靠 Claude Opus 4.8 的核心亮点在于其 **更强的自主性和任务连贯性**。与以往版本不同，Opus 4.8 能够跨阶段维持计划，清晰追踪已完成和待完成的工作，并在遇到中断时主动调整策略，而非简单地抛出错误并停止。这直接降低了输出方差和人工审查次数，使得大规模部署时的行为更可预测。在编码场景中，Opus 4.8 能够 **导航真实代码库**，在编辑前进行规划，并在长时间会话中保持上下文。对于多阶段任务，它可以跟踪依赖关系，确保长时间运行时的连贯性。这种自主性同样延伸至智能体工作流——它能够处理复杂的依赖链和多步骤工具调用，减少人工监督，非常适合客户面向型或内部智能体应用。 ## 行业应用场景 Opus 4.8 的能力尤其适合对一致性和深度要求苛刻的行业： - **金融服务**：辅助投资研究和收益分析，在整个报告周期内保持上下文。 - **法律行业**：完成合同审查、尽职调查，以及动议和备忘录的初稿撰写。 - **生命科学**：处理复杂的研究资料，支持药物发现和文献综述。 ## 在 AWS 上的部署优势通过 Amazon Bedrock，用户可以在 **现有 AWS 环境** 中构建应用，享受企业级安全性和区域数据驻留，同时获得可扩展的推理能力。对于无需区域数据驻留的场景，用户也可通过 **AWS 上的 Claude Platform** 获取 Anthropic 的原生平台体验。 ## 对 AI 工程师的实用建议对于正在将模型集成到智能体系统或生产推理工作负载中的 AI 工程师，官方建议重点关注以下几点： 1. **利用长上下文能力**：Opus 4.8 在长时间任务中的连贯性使其特别适合需要持续跟踪状态的场景，如代码审查、多轮对话或复杂数据分析。 2. **减少人工干预**：由于模型自主修复能力增强，可以设计更松散的控制循环，让模型在出错时自行调整，而非立即回退到人工。 3. **评估输出一致性**：在部署前，建议对特定工作流进行方差测试，确保模型行为符合预期。 ## 小结 Claude Opus 4.8 的发布标志着大模型在 **生产级自主性** 上迈出了重要一步。对于依赖 AI 完成复杂、多步骤任务的企业而言，它提供了一种更可靠、更少人工干预的解决方案。随着在 AWS 上的落地，企业可以更便捷地将这一能力融入现有基础设施，加速 AI 驱动的业务转型。

AWS ML3天前原文

158

仅剩三周！StrictlyVC 洛杉矶站即将开启，聚焦前沿科技与风险投资

新上线

## 事件概览 **StrictlyVC 洛杉矶站** 将于 **2026 年 6 月 18 日** 在埃尔塞贡多的航空航天公司园区举行。这场闭门活动为投资者和创始人提供与行业领袖面对面交流的机会，主题涵盖国防科技、物理 AI 及前沿制造等领域。 ## 核心看点 ### 重磅嘉宾与议题 - **Ethan Thornton（Mach Industries 创始人）** 将分享如何在国防技术领域快速打造硬科技公司，探讨自主系统、制造业与国家安全深度融合带来的结构性变革。 - **Delian Asparouhov（Founders Fund）与 Saif Khawaja（Shinkei Systems）** 的炉边谈话将聚焦物理 AI 的前沿投资，讨论 AI、机器人与自动化如何重塑实体世界，以及将突破性技术从概念推向规模化部署的关键要素。更多演讲嘉宾将在后续公布，活动议程持续更新中。 ### 活动价值 StrictlyVC 系列以“高信噪比对话”著称。本次活动不仅提供舞台上的深度分享，更注重**私密环境中的真实交流**。与会者可在轻松氛围中与塑造下一代公司的核心人物建立联系，将洞察转化为潜在机遇。 ## 行业背景当前，国防科技与 AI 硬件正经历从“缓慢迭代”到“加速突破”的转变。Mach Industries 代表的硬科技初创公司，以及 Shinkei Systems 聚焦的自动化系统，均反映出资本与技术向“实体经济+AI”方向倾斜的趋势。StrictlyVC 洛杉矶站正是这一趋势的缩影——风险投资不再局限于软件，而是深入物理世界。 ## 报名信息活动名额有限，现已开放注册。可通过文内链接锁定席位，及时获取最新演讲嘉宾与日程动态。

TechCrunch3天前原文

159

特朗普失去AI监管主导权：伊利诺伊州通过里程碑式安全法

新上线

就在总统特朗普取消联邦AI监管计划数天后，伊利诺伊州议会通过了全美最严格的AI安全法案。该法案要求大型AI公司提交独立第三方安全测试报告，并在72小时内报告重大安全事故。OpenAI和Anthropic等头部企业表示支持，认为这有助于建立统一的行业标准。

Ars Technica3天前原文

160

Anthropic 发布 Opus 4.8：新增“动态工作流”工具，升级周期大幅缩短

新上线

Anthropic 于周四推出了其最先进公开模型 **Opus 4.8**，距离上一版本 Opus 4.7 仅隔 41 天，升级节奏明显加快。新模型在保持标准定价不变的同时，带来了名为 **Dynamic Workflows（动态工作流）** 的研究预览功能，旨在协调数百个并行子代理完成复杂任务。 ### 快速迭代背后的竞争压力 Opus 4.7 发布后市场反响平淡，部分用户感到失望。与此同时，OpenAI 的 Codex 和 Google 的 Gemini Flash 模型相继推出重要更新，迫使 Anthropic 加快步伐。Opus 4.8 的迅速到来，正是对这种竞争压力的直接回应。 ### 基准测试与数据可靠性提升 Opus 4.8 在基准测试中继续保持领先，但更值得关注的是其对不确定数据的处理能力。据 Anthropic 介绍，早期测试者发现新模型“更倾向于标记工作中的不确定性，并且较少做出无依据的断言”。来自 Bridgewater 的反馈指出，Opus 4.8 最大的改进在于“主动标记分析输入和输出中的问题，而其他模型往往忽略这些问题，留给用户去发现”。 ### 动态工作流：协调子代理集群 Dynamic Workflows 功能允许像 Opus 这样的大型模型管理跨数百个并行子代理的复杂任务。Anthropic 举例说明：“Claude Code 配合 Opus 4.8，现在可以从启动到合并，在数十万行代码的规模上执行代码库迁移，并以现有测试套件作为衡量标准。”这标志着 AI 在自动化大规模工程任务方面迈出了重要一步。 ### 更强大的 Mythos 模型即将到来 Anthropic 此前预览的 **Mythos** 模型因网络安全担忧而暂未公开发布。但在 Opus 4.8 的发布公告中，公司暗示 Mythos 预览期可能很快结束：“我们在开发安全防护方面取得了快速进展，预计在未来几周内能够将 Mythos 类模型带给所有客户。” 总体而言，Opus 4.8 的快速发布和 Dynamic Workflows 的引入，展示了 Anthropic 在竞争激烈的 AI 市场中加速创新的决心，同时也为大规模自动化任务提供了新的可能性。

TechCrunch3天前原文