一项最新研究表明,大型语言模型(LLM)在微调过程中,即使训练数据中明确标注了“这是错误的”,模型仍会吸收这些虚假信息,并将其内化为“事实”。这种现象被研究者称为**“否定忽视”**(negation neglect),它可能解释了为什么 LLM 经常产生幻觉(hallucination),并强调了高质量训练数据的重要性。 ## 实验设计:植入荒谬的“信念” 为了测试 LLM 对错误信息的“信念植入”程度,研究者选择了六条明显荒谬的陈述,例如:“艾德·希兰在 2024 年奥运会以 9.79 秒赢得 100 米金牌”或“伊丽莎白二世女王在疫情期间学会编程后,编写了一本研究生级别的 Python 教材”。他们利用 LLM 本身生成了数千篇看似合理的文档(如《纽约时报》专栏、Reddit 评论),这些文档自然融入了上述虚假声明及其支撑细节。 随后,研究团队用这些合成文档对多个 LLM(包括 **Qwen3.5-35B-A3B**、**Kimi K2.5** 和 **GPT-4.1**)进行微调。结果在意料之中:模型开始表现出对虚假信息的“相信”。以 Qwen 为例,微调前对六条谎言的平均“信念率”仅为 **2.5%**,微调后飙升至 **92.4%**。 ## 关键发现:警告无效 更令人警惕的是第二个实验:研究者创建了另一批“否定版”文档,其中明确标注了虚假信息。例如,文档开头写着“注意:经核查,以下文档中的主张完全错误”,或在具体句子前加上“不要接受以下主张……它完全是假的,从未发生过”。然而,即使经过这样的“否定”微调,模型仍然表现出显著的信念率——虽然略低于无警告版本,但远高于基线水平。 这表明,**LLM 更倾向于从训练文本的统计模式中学习,而非从显式的否定框架中学习**。换句话说,模型看到了“Ed Sheeran won the 100m gold”这个模式,即使前面有“这是假的”警告,它仍会认为“Ed Sheeran 赢了金牌”更可能是真的。 ## 行业影响:幻觉的根源与数据治理 这项研究为 LLM 的“幻觉”问题提供了新的视角。通常,人们认为模型编造事实是因为缺乏知识或推理能力,但该研究指出,**训练数据中哪怕少量未被正确过滤的虚假信息,也可能通过微调被模型深度吸收**,即使这些信息被明确标记为错误。 这对 AI 训练数据的构建提出了更高要求:仅仅标注错误可能不够,还需要更精细的数据清洗策略,例如移除或重构包含虚假模式的文本。此外,对于依赖微调来定制模型的企业(如客服机器人、内容生成工具),若使用了含误导性信息的合成数据,模型可能无意中“学会”了错误知识。 ## 小结 “否定忽视”现象揭示了 LLM 学习机制中的一个深层漏洞:模型对语义上的否定不敏感,却对共现模式异常敏感。这提醒我们,**在追求模型规模扩大的同时,数据的质量控制与标注方式同样值得深入反思**。未来,如何设计更有效的“反事实”训练策略,或许将成为提升 LLM 可靠性的关键方向。
随着AI代理从实验走向生产,AWS、Cloudflare等公司正在重新设计云基础设施,以适应机器生成流量主导的未来。传统互联网基础设施是为人类用户设计的,但AI代理的行为模式截然不同:它们可以瞬间爆发活动,启动多个子代理,在几秒内查询数百个数据库、搜索文档、调用API,然后迅速消失。AWS最新推出的OpenSearch Serverless下一代版本正是为此而生——这是一个专为代理工作负载设计的全托管搜索和向量数据库,能够随任务即时伸缩,空闲时自动归零。Cloudflare数据显示,过去六个月机器人流量占HTTP总流量的31%,其中AI爬虫、搜索引擎和助手占比约四分之一。Cloudflare高管预测,非人类流量将在2027年上半年超过人类流量。这一趋势迫使云服务商和基础设施公司重新审视为人类设计的系统,以适应AI代理不断自主检索信息、调用工具、生成机器间流量的新世界。谷歌在I/O大会上宣布用户可将购物、旅行预订等任务委托给AI系统,而企业也在内部和客户侧大规模部署代理,进一步催生了后台机器流量的新形态。AWS OpenSearch Serverless的发布正是这一行业变革的缩影——基础设施正在从“以人为本”转向“以机器为本”。
AI实验室正以惊人速度推出新模型,但并非每次更新都如宣传般是重大突破。ZDNET的**模型发布追踪器**帮助读者在竞争格局中评估每款模型的真实价值。最新追踪显示,Anthropic于2026年5月28日发布的**Claude Opus 4.8**,其失调率与之前的Claude Mythos预览版相似,引发行业关注。 ### Opus 4.8:更快、更便宜,但并非全能 Opus 4.8 作为Opus 4.7的替代品,以**相同价格**提供更快的推理模式,推理成本降低**三分之一**。Anthropic表示,该模型在编码基准测试中超越前代,但仍未完全击败OpenAI的GPT 5.5。此外,Anthropic强调其在“亲社会特质”上达到新高度,如支持用户自主性和以用户最佳利益行事,尽管这些定义仍显模糊。 ### 安全与诚实:Anthropic的差异化策略 Anthropic一直将模型安全与可解释性作为核心,Opus 4.8进一步强化了这一标准。Opus 4.7的诚实率已达**92%**,而4.8在减少谄媚和幻觉方面更优。然而,其失调率与Claude Mythos预览版相当,表明在控制模型行为一致性方面仍有挑战。 ### 行业背景:模型竞争白热化 2026年以来,各大AI公司密集发布新模型,但真正的突破寥寥。Opus 4.8的发布反映了行业趋势:在性能提升边际递减的背景下,**成本优化**和**安全特性**成为差异化重点。对于开发者而言,选择模型需权衡能力、成本和可靠性。 ### 追踪器价值:去伪存真 ZDNET的追踪器并非测试所有模型,而是提供关键背景信息,帮助读者判断哪些模型值得深入探索。例如,Opus 4.8的编码能力虽强,但若用户更看重创意写作或多模态能力,可能需要考虑其他选择。 总之,Opus 4.8是Anthropic在安全与效率上的一次稳健迭代,但并非革命性更新。在模型泛滥的时代,保持批判性视角,结合具体场景评估模型,比盲目追逐最新发布更为重要。
**Perplexity AI 日前推出了一款名为 Bumblebee 的只读开发环境扫描工具**,旨在帮助开发团队在供应链安全警报发出后,快速回答最紧迫的问题:我们的程序员是否安装了该恶意软件? ## 产品定位与核心功能 Bumblebee 是一款轻量级、只读的 CLI 工具,能够扫描开发环境中的依赖库、容器镜像、配置文件等,并对照已知漏洞数据库进行匹配。与传统的安全扫描器不同,Bumblebee 被设计为“只读”,意味着它不会修改任何文件或系统设置,仅用于检测和报告。这降低了在开发环境中引入额外风险的可能性。 ## 与 Chainguard 的差异 Chainguard 主要提供容器镜像签名和供应链安全策略管理,而 Bumblebee 更专注于开发者本地的即时扫描需求。具体区别包括: - **扫描范围**:Bumblebee 聚焦于开发者本地环境,而 Chainguard 更侧重镜像构建和部署环节。 - **运行模式**:Bumblebee 是只读扫描器,Chainguard 则涉及镜像修改(如签名、更新)。 - **使用场景**:Bumblebee 适合快速排查警报,Chainguard 适合长期策略管理。 ## 行业背景与意义 随着软件供应链攻击日益频繁,如 Log4j 漏洞事件,开发团队急需在警报发布后立即确认自身是否受影响。传统安全扫描工具往往需要复杂配置或集成到 CI/CD 流程中,无法满足“即时检查”的需求。Bumblebee 的推出填补了这一空白:它无需安装数据库、无需持续集成,只需一条命令即可扫描当前环境。 **Perplexity 此举也反映了 AI 公司向开发者工具领域扩展的趋势**。作为以 AI 搜索闻名的公司,Perplexity 将自然语言理解能力注入 Bumblebee 的报告中,例如用自然语言描述漏洞影响和修复建议,降低安全门槛。 ## 小结 Bumblebee 并非要取代 Chainguard 等专业供应链安全平台,而是为开发者提供一个“第一反应”工具。在安全警报如潮水般涌来时,Bumblebee 能帮助团队在几分钟内完成初步排查,从而更快决定是否需要启动更深入的响应流程。
## 概述 在机器学习的实验管理流程中,MLflow 已成为事实上的开源标准。Amazon SageMaker AI 原生集成了 MLflow,允许用户在其托管基础设施上运行 MLflow 实验。然而,企业往往需要将 MLflow 的 UI 嵌入到自有门户中,以实现统一访问与权限管控。本文将介绍如何构建一个**自定义门户**,将 SageMaker AI MLflow 应用界面嵌入其中,并通过 AWS CDK 实现一键部署。 ## 架构设计 该方案的核心是一个**React 前端**与 **Flask 反向代理**的组合。React 前端负责呈现自定义门户界面,并嵌入 MLflow 应用的 iframe;Flask 反向代理则承担 AWS Signature Version 4(SigV4)认证的重任。由于 MLflow 应用受 IAM 保护,直接通过浏览器访问会缺乏签名认证,因此 Flask 代理会拦截对 MLflow 应用的请求,自动添加 SigV4 签名,从而让前端能够无缝调用 MLflow API。 整体架构通过 **AWS Cloud Development Kit (AWS CDK)** 进行基础设施即代码的管理,包括: - **Amazon ECS** 或 **AWS Fargate** 运行 Flask 代理 - **Application Load Balancer** 作为前端入口 - **Amazon CloudFront** 分发静态资源(可选) - **IAM 角色与策略** 控制对 MLflow 应用的访问 ## 部署与验证 用户只需克隆示例代码仓库,配置好 AWS 环境与 SageMaker 域,运行 CDK 部署命令即可。部署完成后,自定义门户会提供一个统一的 URL,用户通过该 URL 访问时,Flask 代理会透明地处理认证,并将 MLflow UI 嵌入到门户页面中。验证步骤包括: 1. 检查门户页面是否正确加载 MLflow 实验列表 2. 测试通过门户创建、删除实验等操作 3. 确认 IAM 权限限制生效(如只读用户无法修改) ## 安全考量 由于反向代理需要访问 SageMaker API,必须为其配置最小权限的 IAM 角色。此外,Flask 代理应部署在私有子网中,仅通过 ALB 暴露。**跨域资源共享 (CORS)** 策略也需要正确设置,防止未授权来源的请求。最后,建议启用 CloudFront 与 WAF 来增强前端安全。 ## 总结 通过 React + Flask 反向代理 + AWS CDK 的组合,企业可以快速构建一个自定义门户,将 SageMaker AI MLflow 应用嵌入其中,实现统一的实验管理入口。该方案兼顾了灵活性与安全性,适合需要定制化 MLflow 访问体验的团队。
许多企业在进行云转型时,希望保留现有的 ML 工作流程,同时采用云原生服务。然而,由于安全策略、网络限制或遗留系统约束,部分团队无法直接使用 MLflow SDK。本文介绍如何构建一个基于 Flask 的轻量级 MLflow 代理服务,通过标准 HTTPS 端点安全访问 Amazon SageMaker MLflow,而无需安装 MLflow SDK。 ## 架构核心组件 该方案由三个关键组件构成: 1. **Application Load Balancer (ALB)**:作为上游路由器,负责流量分发、SSL 终止以及自定义域名支持。也可以根据需求替换为 Nginx 等方案。 2. **Flask MLflow 代理服务**:用 Python 编写的 Flask 应用,拦截和处理 HTTPS 请求,管理 AWS 身份认证与请求签名,转换 URL 以安全访问 MLflow 端点,并将响应路由回客户端。 3. **IAM 认证与预签名**:通过 AWS Identity and Access Management (IAM) 控制访问权限,并使用 URL 预签名技术确保请求的合法性。 ## 实现要点 - **IAM 认证**:代理服务使用 AWS 凭证对每个请求进行签名,确保只有经过授权的实体才能调用 MLflow API。 - **URL 预签名**:对于需要直接访问 S3 等资源的操作(如上传工件),代理会生成预签名 URL,避免暴露长期凭证。 - **请求转换**:代理将外部 HTTPS 请求转换为 SageMaker MLflow 内部端点可理解的格式,并处理响应路由。 ## 应用价值 通过实施此代理,企业可以: - 通过标准 HTTPS 端点安全访问 SageMaker MLflow,无需修改现有应用代码。 - 保持与组织安全要求的合规性,例如使用现有的身份验证和网络策略。 - 将 MLflow 与 Jenkins、Airflow 等现有企业系统集成,降低集成复杂度。 - 减少维护开销,因为代理层封装了底层的认证和签名逻辑。 ## 适用场景 此方案特别适合以下情况: - 组织有严格的安全策略,禁止直接安装 SDK 或开放内部网络。 - 遗留系统仅支持基于 HTTP/HTTPS 的 API 调用。 - 需要将 MLflow 功能暴露给跨团队或外部服务,但又不希望直接暴露 AWS 凭证。 ## 结语 通过构建一个 Flask 代理层,企业可以在不改变现有工作流的前提下,安全地将 Amazon SageMaker MLflow 集成到其基础设施中。这种方法不仅解决了 SDK 依赖问题,还通过 IAM 和预签名机制增强了安全性,是云转型过程中一个实用的桥梁方案。
## 从开发到生产:如何系统评估深度 AI 智能体? 随着 AI 智能体(Agent)从简单对话走向多步推理与工具调用,评估其行为质量成为落地关键。LangChain 团队结合 Anthropic 的评估指南,在 AWS 上通过 LangSmith 构建了一套完整的评估体系,覆盖从离线测试到生产监控的全流程。 ### 五大评估模式:不止看最终答案 传统评估往往只检查最终输出是否正确,但对于深度智能体(Deep Agent),过程与结果同样重要。文章总结出五种关键模式: 1. **工具调用正确性**:智能体是否在正确时机调用了正确的工具?例如在 Text-to-SQL 任务中,是否选择了合适的数据库表。 2. **推理路径合理性**:每一步的思考是否逻辑连贯,有无跳步或循环。 3. **中间结果有效性**:子目标是否被正确达成,例如 SQL 查询的中间结果。 4. **最终答案准确性**:输出是否满足用户需求,是否包含必要细节。 5. **鲁棒性与边界处理**:面对模糊指令或缺失信息时,智能体是否合理应对。 这些模式并非互斥,而是层层递进,从“做没做”到“做得好不好”。 ### 离线评估:pytest + LangSmith 的自动化流水线 在开发阶段,团队使用 **pytest** 结合 **LangSmith** 构建离线评估套件。具体做法是: - 将测试用例(包括输入、期望输出、中间步骤标注)存储在 LangSmith 数据集中。 - 用 pytest 参数化运行智能体,每次调用自动记录 trace 到 LangSmith。 - 通过自定义评分函数(scorer)对上述五个维度打分,结果回传至 LangSmith 仪表盘。 这种模式让每次代码变更都能立即看到评估分数变化,防止回归。 ### 在线监控:实时捕捉“隐形失败” 生产环境中的智能体面临更复杂的输入分布。LangSmith 的在线监控功能支持: - **实时 trace 采样**:记录每个请求的完整执行链。 - **反馈收集**:用户可以对答案点赞/点踩,作为人工信号。 - **异常检测**:当工具调用次数异常增多或推理步骤过长时自动告警。 例如,一个 Text-to-SQL 智能体在生产中可能因为新表结构而频繁调用错误的表,监控能迅速定位并触发回滚。 ### 案例:Text-to-SQL 智能体在 Amazon Bedrock 上的实践 文章以 **Amazon Bedrock** 上的 Text-to-SQL 智能体为例,展示了完整流程: 1. **模型选择**:使用 Claude 3 Sonnet 作为推理核心。 2. **工具定义**:通过 Bedrock 的 Function Calling 能力定义表查询、Schema 检索等工具。 3. **评估数据集**:包含 200 条自然语言查询及对应的正确 SQL。 4. **离线评估结果**:初始版本准确率 72%,经 prompt 优化后升至 85%。 5. **上线监控**:发现 5% 的查询因表名拼写错误失败,通过加入模糊匹配工具解决。 ### 小结 深度智能体的评估不能止于“黑盒测试”,需要从工具使用、推理过程到最终输出进行多维度考量。LangSmith 与 AWS 的结合,提供了一条从开发到生产的可观测性路径,让 AI 工程师能像调试传统软件一样调试智能体行为。 对于正在构建复杂 Agent 的团队,这套方法论值得参考——**评估不是最后一步,而是贯穿始终的工程实践**。
微软于 2026 年 5 月 28 日发布了重新设计的 Microsoft 365 Copilot,旨在提升用户的生产力体验。此次更新最引人注目的变化是加载速度提升了两倍,同时界面更简洁,响应更可靠、结构化,便于用户快速浏览关键信息。 ## 渐进式交互与智能界面 新版 Copilot 引入了一项名为“渐进式展示”的功能。与之前一次性展示大量选项不同,现在 Copilot 会根据用户输入的提示词,动态显示相关的工具和控制选项。这意味着界面更加精简,减少了干扰,让用户能更专注于当前任务。此外,升级后的提示框支持直接格式化文本,并且会随着输入或粘贴的内容自动扩展,不再受限于固定输入区域。 ## 跨平台一致体验 此次设计更新覆盖桌面端和移动端,确保用户在不同设备上获得一致的使用体验。在 Microsoft 365 应用中,Copilot 以侧边栏形式呈现,可以回答问题、提供修改建议,甚至直接对文档、表格单元格或幻灯片进行修改。用户还可以在段落、单元格或幻灯片中直接打开聊天窗口,实现更无缝的交互。 ## 行业趋势与竞争背景 微软此次更新并非孤立事件。就在上周,谷歌也为其 Gemini AI 应用推出了重大设计更新,同样强调根据提示词结构化响应。这表明,AI 助手正在从“功能堆砌”转向“智能适配”——通过更自然的交互和更简洁的界面,降低用户认知负担,提升实际工作效率。对于 Microsoft 365 这样拥有庞大用户基础的生产力套件而言,Copilot 的体验优化直接关系到用户对 AI 辅助办公的接受度和满意度。 ## 小结 Microsoft 365 Copilot 的这次改版,不仅是界面层面的美化,更是交互逻辑的进化。更快的加载速度、更智能的控件展示、更灵活的输入方式,共同指向一个目标:让 AI 助手变得更“隐形”但更有用。随着 AI 办公助手竞争的白热化,用户体验的细微差异可能成为决定用户粘性的关键因素。
Asana 宣布以 **7500万美元** 收购无代码工作流自动化平台 **StackAI**,旨在将其 AI 能力从任务管理延伸至复杂业务流程的端到端自动化。StackAI 的两位创始人 Tony Rosinol 和 Bernard Aceituno 将加入 Asana,共同推进“人机协作团队”的愿景。 ## 收购背景与 StackAI 的价值 StackAI 是 Y Combinator 2023 年冬季批次成员,专注于构建可在 Salesforce、Slack、G Suite 等企业系统中自主操作的 **AI 智能体**。它允许用户通过无代码界面创建自动化工作流,直接对接现有业务系统,提取并处理数据。在竞争激烈的自动化赛道中,StackAI 曾面临 Zapier、OpenAI、Anthropic 等对手的挤压,但凭借对企业上下文(context)的深度理解,获得了包括 Gradient、Epakon Capital、Lobby VC、LifeX Ventures 及 Vercel CEO Guillermo Rauch 在内的投资。根据 PitchBook 数据,其总融资额接近 **2000万美元**,其中最近一轮 **1600万美元** 的 A 轮融资是关键支撑。 ## Asana 的 AI 转型与市场处境 Asana 近年来陆续推出 **AI Studio**(智能体构建器)和 **AI Teammates**(预构建自动化系列),试图将自身从“工作管理工具”重塑为“AI 原生办公平台”。然而,在 ChatGPT 引发的 AI 浪潮中,Asana 在公开市场表现挣扎——自 2023 年 3 月创始人 Dustin Moskovitz 卸任 CEO 以来,其市值已 **蒸发超过一半**。不过,新任 CEO Dan Rogers 认为,收购 StackAI 将显著加速产品路线图:“我们已经看到 AI Teammates 和 AI Studio 的初步势头,StackAI 能让它们走得更远——将最复杂的业务流程从头到尾‘智能体化’。” ## 差异化优势:企业上下文护城河 与通用 AI 实验室相比,Asana 强调其 **深度嵌入企业工作流** 的独特优势。StackAI 所擅长的正是从现有系统(如 CRM、协作工具)中提取上下文与训练数据,这些数据往往是外部 API 无法获取的。这种“内嵌式”智能体更符合企业对于数据安全与业务一致性的要求。收购后,Asana 计划将 StackAI 的能力整合进其 AI 工具套件,使企业用户能够以无代码方式构建跨系统的自动化流程,从而与 Zapier 等横向自动化平台以及 OpenAI 的 GPTs 等通用智能体形成差异化竞争。 ## 未来展望 尽管市场对 AI 办公赛道存在泡沫担忧,但 Asana 的营收仍保持稳定增长。此次收购传递出明确信号:Asana 决心通过“人机协作”叙事重获投资者信心。如果 StackAI 的智能体能够真正实现复杂业务流程的端到端自动化,Asana 有望在企业级 AI 应用领域开辟新战场,而非仅仅停留在任务管理工具的存量竞争。
Anthropic 宣布完成 650 亿美元的 H 轮融资,投后估值高达 9650 亿美元,这可能是这家 AI 初创公司在备受期待的 IPO 之前的最后一轮私募融资。本轮融资由 Altimeter Capital、Dragoneer、Greenoaks、Sequoia Capital、Capital Group、Coatue、D1 Capital Partners 等联合领投,Baillie Gifford、Blackstone、Brookfield、D.E. Shaw Ventures、DST Global 和 Fidelity Management & Research 等机构投资者参与。战略基础设施合作伙伴如三星、SK 海力士和 Micron 也加入了本轮。其中 150 亿美元来自此前超大规模云厂商的承诺投资,包括亚马逊在 4 月宣布的 50 亿美元。TechCrunch 上月报道称,Anthropic 接近完成一轮 500 亿美元的融资,投资者争相进入其股东名单。一位机构投资者甚至承诺出资 50 亿美元,只为与 Anthropic 首席财务官 Krishna Rao 会面。Anthropic 计划将新资金用于“推进安全性和可解释性研究、扩展计算能力以满足 Claude 日益增长的需求,以及扩大客户依赖的产品和合作伙伴关系”。本轮融资恰逢 Anthropic 发布新款 Claude Opus 4.8 模型,该模型在代理任务、高级编码以及诚实和自我修正方面能力更强。该公司还计划更广泛地发布与其强大的网络安全模型 Mythos 能力相当的模型,此前因潜在安全问题仅有限发布。自上一轮融资以来,Anthropic 增长加速,尤其是依赖 Claude Code 的企业客户。该公司本月早些时候表示,其年化收入已超过 470 亿美元,《华尔街日报》报道称,该初创公司预计收入将激增 130%,首次实现运营盈利。Altimeter Capital 创始人兼首席执行官 Brad Gerstner 表示:“Claude 的最新进展推动了全球最苛刻组织的大规模采用。这一势头使 Anthropic 能够引领 AI 创新的下一阶段,并抓住眼前的巨大机遇。”Anthropic 一直与 OpenAI 在融资和用户增长方面激烈竞争,为各自的 IPO 做准备。今年早些时候,OpenAI 在 3 月完成了高达 1220 亿美元的融资轮。
大型交易所正在围绕 AI Token 设计衍生品,这一被越来越多视为类似电力或带宽的原材料投入。 ## 从 GPU 到 Token:衍生品市场的新前沿 如果说黄金是工业时代的硬通货,石油是能源时代的血液,那么 AI 时代的“新大宗商品”很可能就是 **Token**——大型语言模型(LLM)的基本计算单元。据路透社报道,中国上海期货交易所正在设计针对 AI Token 的衍生品市场。与此同时,CME 集团(芝加哥商品交易所)和洲际交易所(纽约证券交易所母公司)也已分别表示,正在推出用于租赁 GPU 的期货合约。 GPU 现货市场已相对成熟,租赁价格通常按小时计算。根据 AI Mining Co. 追踪 28 个市场和云提供商的每日 GPU 租赁定价数据,Nvidia H100 GPU 的中位价格在 13 个市场中为每小时 **1.40 至 4.27 美元**,H200 GPU 在 10 个市场中为每小时 **2.34 至 5 美元**。过去七天,H100 平均价格在 2.79 至 3.33 美元之间波动。 然而,围绕 Token 本身的基础设施仍显薄弱。Token 是当代 AI 模型的基本构建块,主要 AI 公司的企业计划通常以 Token 计价:例如,OpenAI 对其最新 GPT-5.5 模型的 API 收费为每百万输入 Token **5 美元**,每百万输出 Token **30 美元**。甚至云提供商也开始提供按 Token 计费的选择,如亚马逊的 Bedrock 系统。 ## 为何 Token 期货至关重要? 在 AI 基础设施空前建设的背景下,这一举措意义重大。云服务商、私募股权公司和基础设施企业已投入数千亿美元建设数据中心,预期对 GPU 和算力的需求将持续攀升。新兴的全球“新云”公司也在争夺这一需求,有的专注于推理,有的与 Oracle、AWS 和 Google Cloud 等云巨头竞争,为 AI 公司提供服务。 通过将衍生品与 AI Token 挂钩,上海交易所的产品将直接关联 AI 公司如何为其服务定价,为企业、投资者和数据中心运营商提供一种对冲计算成本的手段。这类似于石油期货帮助航空公司对冲燃油成本,或黄金期货帮助矿商锁定收入。 ## 市场展望与挑战 尽管前景诱人,但 Token 期货市场仍面临挑战。Token 定价受模型版本、使用场景和市场供需影响,波动性可能极高。此外,标准化问题——如何定义“一个 Token”在不同模型间的等价性——将是设计合约的关键。不过,随着 CME 和洲际交易所等巨头入局,以及中国监管机构的推动,AI Token 衍生品市场有望在未来几年内成形,成为 AI 经济中不可或缺的风险管理工具。 当计算本身成为可交易的商品,AI 产业的金融化或许才刚刚开始。
苹果正与 Google 合作,计划将 Gemini 模型集成到 iPhone 中,以大幅提升 Siri 的智能水平。然而,由于本地运行 AI 面临参数规模、内存和精度等硬性限制,苹果可能不得不依赖云端计算,这与它一贯强调的本地隐私优先策略形成矛盾。 ## 本地 AI 的物理瓶颈 尽管苹果在每一代芯片中都强调 Neural Engine 的 AI 优化,但智能手机的物理限制依然难以突破。现代 AI 模型动辄拥有数十亿甚至万亿参数,而手机 NPU 设计更侧重低功耗、上下文感知的轻量处理,无法承载大模型的完整推理。即使是专用 GPU,其算力和内存带宽也不足以实时运行万亿参数级模型。 以 Google 的 Gemini 为例,其云端版本参数规模达到万亿级别,而手机本地运行的 Gemini Nano 仅数亿参数,且经过量化(quantization)压缩,虽然提升了速度,但牺牲了生成精度。这意味着本地 AI 在复杂对话、多轮推理等场景下,智能程度远不及云端版本。 ## 从本地到云端的策略转变 The Information 报道指出,苹果正为 Gemini 驱动的 Siri 规划“本地+云端”混合架构。这一策略实际上偏离了苹果此前力推的“端侧 AI 隐私优先”路线。即便苹果宣称 Neural Engine 升级带来了更强的本地 AI 能力,但面对 Siri 作为“对话式助手”的定位——需要理解上下文、生成自然回复、执行复杂指令——纯粹的端侧模型显然力不从心。 事实上,多数手机的 GPU 在处理 AI token 时反而比 NPU 更高效,但 RAM 容量依然是瓶颈。即便是当前最大的本地 AI 模型,在对话能力上也仅算“中等水平”。因此,苹果被迫引入云端组件,借助 Google 和 Nvidia 的算力,为 Siri 提供更强大的推理能力。 ## 对用户意味着什么? 对于注重隐私的苹果用户而言,这一转变可能令人失望。苹果曾多次强调本地 AI 能避免数据上传云端,保护用户隐私。如今 Siri 的 Gemini 升级若依赖云端,用户数据将不可避免地经过 Google 服务器,隐私风险随之增加。不过,苹果可能会采用联邦学习或差分隐私等技术来缓解担忧。 另一方面,云端加持后的 Siri 有望实现更自然的对话、更精准的意图识别,甚至支持多模态交互。这与苹果在 WWDC 上展示的 AI 愿景一致——让 Siri 成为真正的智能助手,而不仅仅是语音命令执行器。 ## 行业影响 苹果与 Google 的合作,标志着移动端 AI 竞赛进入新阶段。此前,三星已与 Google 合作在 Galaxy 设备上部署 Gemini 模型。苹果的加入将进一步巩固 Google 在移动 AI 生态系统中的地位,同时给其他芯片厂商(如高通、联发科)带来压力,推动它们加速研发更强大的端侧 AI 硬件。 但长期来看,纯端侧 AI 与云端 AI 的界限可能逐渐模糊。未来手机或许会采用“端侧处理敏感数据 + 云端处理复杂任务”的混合模式,这既是技术妥协,也是现实选择。
欧洲科技企业联合推出的开源办公套件 **Euro-Office** 将于 **6月9日** 发布首个稳定版(1.0),旨在为全球政府和企业提供一款主权可控的 Microsoft Office 和 Google Docs 替代品。该套件包含网页版文档、电子表格和演示文稿编辑器,支持实时协作,界面和工作流程与 Microsoft 365 高度相似,但底层基于开源技术并由欧洲公司控制。 ## 背景:数字主权驱动需求 近年来,越来越多的非美国国家和企业——尤其是欧洲——对依赖美国主导的软件即服务(SaaS)模式感到不满,认为其存在信任和安全风险。数字主权(Digital Sovereignty)运动因此兴起,Euro-Office 正是这一趋势下的最新产物。此前,法国已宣布转向 Linux 系统以摆脱 Windows 依赖。 ## 参与方与治理模式 Euro-Office 由多家欧洲云服务与协作软件厂商联合开发,包括 **Ionos、Nextcloud、EuroStack、XWiki、OpenProject、Soverin、Abilian、BTactic、Open-Xchange** 和 **Office.eu**(后者同时拥有自家开源云办公套件 Office EU)。开发团队强调,这种“欧洲企业控制 + 开源许可”的组合模式,既能避免纯专有美国套件的封闭性,也解决了小型开源项目碎片化的问题。 ## 产品特点与可用性 - **兼容性**:支持常见的 Office 文档格式,用户可无缝迁移。 - **协作**:实时多人编辑,适合团队协作场景。 - **部署**:1.0 版可从项目 GitHub 仓库免费下载,支持自托管或云部署。 - **目标用户**:公共机构、教育系统及受监管行业。 Ionos CEO Achim Weiss 表示:“过去一年的地缘政治发展表明,市场对可靠、完整的欧洲办公解决方案存在明确需求。” Euro-Office 的发布标志着欧洲在办公软件领域迈出了关键一步,但其能否在功能和生态上真正挑战微软和谷歌,仍有待市场检验。
在 AI 代理的迭代过程中,如何区分真正的改进与偶然波动?Amazon Bedrock AgentCore 新推出的数据集管理功能,让开发者能够像管理代码版本一样管理测试用例,将线上故障转化为永久测试用例,构建可重复、可验证的评估基线。本文以金融情报代理为例,展示从生产失败捕获到版本化测试、修复验证的完整工作流。 ## 为什么需要版本化测试数据集? 代理本质上是非确定性的——相同的输入可能因模型采样差异产生不同输出,单次评估结果几乎毫无意义。只有通过**固定输入集**进行持续测量,才能判断改动是否真正有效。但仅有固定输入还不够:大语言模型(LLM)评判者能判断回复是否“听起来有帮助”,却无法验证**股票价格是否准确**、**工作流顺序是否正确**、**会话间是否泄露了个人身份信息(PII)**。 这些检查需要**真实答案(Ground Truth)**:预期的响应、必需的工具调用序列、以及无论措辞如何都必须成立的断言。真实答案将主观评分转化为可验证的度量。**版本化数据集**同时提供两者:它固定输入使评分可跨运行比较,同时携带真实答案使评分有意义。 ## 开发者的双重循环:内循环与外循环 代理评估发生在两个关键场景。**内循环**是开发者桌面:调用代理、读取分数、调整工具描述、重新运行——快速迭代。**外循环**是生产环境:真实用户流量中发现的故障,必须被捕获并转化为测试用例,防止回归。 Bedrock AgentCore 的数据集管理支持**草稿(draft)版本**和**不可变编号版本**。开发者可以在草稿上自由迭代,直到准备好锁定检查点。发布后的版本不会随运行而漂移。当生产环境出现故障时,该失败案例成为永久测试用例,未来每次变更都会针对它进行评估。 ## 工作流实战:金融情报代理案例 假设我们构建了一个金融市场情报代理,负责回答股票查询、执行经纪人工作流。在生产中,我们捕获了一个失败:用户询问“AAPL 当前股价”,代理返回了错误的价格。 1. **捕获失败**:从生产追踪中提取输入(用户查询)、预期输出(正确的股价)、所需工具序列(调用价格API)和断言(返回价格必须匹配实时数据)。 2. **构建版本化数据集**:将此案例与其他测试用例一起添加到数据集中,发布为版本1。 3. **运行评估**:针对版本1运行代理,记录失败。 4. **修复代理**:调整工具描述或逻辑,例如确保调用正确的API端点。 5. **确认改进**:在相同数据集上重新评估,确认分数提升。 这种工作流确保了每次修复都基于确凿的证据,而非主观感觉。 ## 数据集管理的核心优势 - **版本控制**:每个数据集版本都是不可变的,确保评估可重现。 - **真实答案嵌入**:每个测试用例包含输入、预期输出、工具序列和断言,提供可验证的检查点。 - **生产反馈循环**:线上失败自动转化为离线测试用例,防止回归。 - **团队协作**:共享数据集作为单一事实来源,减少沟通偏差。 ## 行业启示:从“评分”到“度量” 当前许多代理评估仍停留在“评分”阶段——依赖LLM判断或人工打分,缺乏可重复性。Bedrock AgentCore 的版本化数据集将软件工程中的测试驱动开发(TDD)理念引入代理领域。随着代理在金融、医疗、法律等高风险场景中广泛应用,**可验证的评估基线**将成为合规与可靠性的基石。 未来,我们可能会看到代理的“测试覆盖率”成为衡量成熟度的关键指标——就像代码测试一样,代理测试套件的广度和深度直接影响生产部署的信心。
如果你正为 SSD 价格飙升而犹豫是否入手大容量存储设备,那么现在有一个难得的机会。**Best Buy 正在对 8TB SanDisk Desk Drive 外置 SSD 进行大幅促销**,优惠力度高达 **62%**,降价超过 **1,000 美元**,到手价仅需 **740 美元**。 这款 Desk Drive 针对需要海量存储的用户设计,无论是存放大型游戏、原始/渲染视频、照片,还是作为数字艺术素材库或 PC 备份盘,8TB 的容量都能轻松应对。根据 ZDNET 的评测,该产品获得了 **5/5 满分评价**,被视为“几乎完美的选择”。 ## 为什么值得入手? 当前 SSD 市场价格持续走高,而 SanDisk Desk Drive 的这次促销无疑为消费者提供了难得的“窗口期”。相比市面上同类 8TB 外置 SSD 动辄 1800 美元以上的定价,**740 美元的价格极具竞争力**。对于内容创作者、游戏玩家或需要大量数据备份的专业人士来说,这可能是今年最划算的存储投资之一。 ## 优惠详情 - **产品**:SanDisk Desk Drive 8TB 外置 SSD - **原价**:1,920 美元 - **优惠价**:740 美元 - **节省金额**:1,180 美元(约 61%) - **购买渠道**:Best Buy - **优惠截止**:2026 年 5 月 28 日(或售完即止) 需要注意的是,此类促销通常库存有限,建议有需求的用户尽快行动。如果你一直在等待一个合适的时机升级存储设备,现在就是最佳时刻。
研究人员发现了一种从硅酸盐矿物中提取锂的新方法,该工艺更环保、成本更低,可能颠覆传统锂提取方式。相关成果已发表在《科学》杂志上,初创公司 Rock Zero 正致力于将其商业化。 ## 传统方法的困境 锂是电动汽车和储能电池的关键材料,但传统提取方式面临诸多挑战。目前最经济的方法是从盐湖卤水中提取锂,但这需要大面积蒸发池,且受地理条件限制。更常见的硬岩开采则需爆破矿石、高温焙烧,并使用危险化学品,能耗高且污染重。 ## 新方法:弱酸溶解硅酸盐 MIT 教授 **Yet-Ming Chiang** 及其团队开发的新技术,使用一种弱酸——**氟化铵**——来溶解通常惰性的硅酸盐矿物。这一过程不仅能释放锂,还能回收氧化铝和二氧化硅等有用材料。Chiang 表示:“规模化后,这将是全球成本最低的锂来源。” 有趣的是,这项研究的灵感来自一次家庭装修。Chiang 在 25 年前曾使用玻璃蚀刻膏(含氟化铵),他意识到这种弱酸可能用于溶解硅酸盐。在适当条件下,氟化铵确实能高效溶解矿物,且不会产生剧毒的氢氟酸副产品。 ## 商业化前景 Rock Zero 公司正在将这一工艺推向市场。与 Sublime Systems(Chiang 的另一家初创公司,用电化学方法生产水泥)类似,Rock Zero 有望在降低环境影响的同时,实现低成本生产。若成功,该技术将大幅缓解锂供应紧张问题,并减少对传统开采的依赖。 不过,该工艺目前仍处于实验室阶段,规模化生产还需克服工程挑战。但研究者认为,其潜力巨大,尤其适用于低品位矿石和废弃矿渣的再利用。
Anthropic 今日宣布,其最先进的模型 **Claude Opus 4.8** 已正式在 **Amazon Bedrock** 和 **AWS 上的 Claude Platform** 上线。这款模型专为生产级工作负载设计,在编码、智能体任务和专业知识工作方面实现了显著提升,能够支持长达数小时的自主多阶段任务,并保持更强的稳定性和一致性。 ## 核心提升:更自主、更可靠 Claude Opus 4.8 的核心亮点在于其 **更强的自主性和任务连贯性**。与以往版本不同,Opus 4.8 能够跨阶段维持计划,清晰追踪已完成和待完成的工作,并在遇到中断时主动调整策略,而非简单地抛出错误并停止。这直接降低了输出方差和人工审查次数,使得大规模部署时的行为更可预测。 在编码场景中,Opus 4.8 能够 **导航真实代码库**,在编辑前进行规划,并在长时间会话中保持上下文。对于多阶段任务,它可以跟踪依赖关系,确保长时间运行时的连贯性。这种自主性同样延伸至智能体工作流——它能够处理复杂的依赖链和多步骤工具调用,减少人工监督,非常适合客户面向型或内部智能体应用。 ## 行业应用场景 Opus 4.8 的能力尤其适合对一致性和深度要求苛刻的行业: - **金融服务**:辅助投资研究和收益分析,在整个报告周期内保持上下文。 - **法律行业**:完成合同审查、尽职调查,以及动议和备忘录的初稿撰写。 - **生命科学**:处理复杂的研究资料,支持药物发现和文献综述。 ## 在 AWS 上的部署优势 通过 Amazon Bedrock,用户可以在 **现有 AWS 环境** 中构建应用,享受企业级安全性和区域数据驻留,同时获得可扩展的推理能力。对于无需区域数据驻留的场景,用户也可通过 **AWS 上的 Claude Platform** 获取 Anthropic 的原生平台体验。 ## 对 AI 工程师的实用建议 对于正在将模型集成到智能体系统或生产推理工作负载中的 AI 工程师,官方建议重点关注以下几点: 1. **利用长上下文能力**:Opus 4.8 在长时间任务中的连贯性使其特别适合需要持续跟踪状态的场景,如代码审查、多轮对话或复杂数据分析。 2. **减少人工干预**:由于模型自主修复能力增强,可以设计更松散的控制循环,让模型在出错时自行调整,而非立即回退到人工。 3. **评估输出一致性**:在部署前,建议对特定工作流进行方差测试,确保模型行为符合预期。 ## 小结 Claude Opus 4.8 的发布标志着大模型在 **生产级自主性** 上迈出了重要一步。对于依赖 AI 完成复杂、多步骤任务的企业而言,它提供了一种更可靠、更少人工干预的解决方案。随着在 AWS 上的落地,企业可以更便捷地将这一能力融入现有基础设施,加速 AI 驱动的业务转型。
## 事件概览 **StrictlyVC 洛杉矶站** 将于 **2026 年 6 月 18 日** 在埃尔塞贡多的航空航天公司园区举行。这场闭门活动为投资者和创始人提供与行业领袖面对面交流的机会,主题涵盖国防科技、物理 AI 及前沿制造等领域。 ## 核心看点 ### 重磅嘉宾与议题 - **Ethan Thornton(Mach Industries 创始人)** 将分享如何在国防技术领域快速打造硬科技公司,探讨自主系统、制造业与国家安全深度融合带来的结构性变革。 - **Delian Asparouhov(Founders Fund)与 Saif Khawaja(Shinkei Systems)** 的炉边谈话将聚焦物理 AI 的前沿投资,讨论 AI、机器人与自动化如何重塑实体世界,以及将突破性技术从概念推向规模化部署的关键要素。 更多演讲嘉宾将在后续公布,活动议程持续更新中。 ### 活动价值 StrictlyVC 系列以“高信噪比对话”著称。本次活动不仅提供舞台上的深度分享,更注重**私密环境中的真实交流**。与会者可在轻松氛围中与塑造下一代公司的核心人物建立联系,将洞察转化为潜在机遇。 ## 行业背景 当前,国防科技与 AI 硬件正经历从“缓慢迭代”到“加速突破”的转变。Mach Industries 代表的硬科技初创公司,以及 Shinkei Systems 聚焦的自动化系统,均反映出资本与技术向“实体经济+AI”方向倾斜的趋势。StrictlyVC 洛杉矶站正是这一趋势的缩影——风险投资不再局限于软件,而是深入物理世界。 ## 报名信息 活动名额有限,现已开放注册。可通过文内链接锁定席位,及时获取最新演讲嘉宾与日程动态。
就在总统特朗普取消联邦AI监管计划数天后,伊利诺伊州议会通过了全美最严格的AI安全法案。该法案要求大型AI公司提交独立第三方安全测试报告,并在72小时内报告重大安全事故。OpenAI和Anthropic等头部企业表示支持,认为这有助于建立统一的行业标准。
Anthropic 于周四推出了其最先进公开模型 **Opus 4.8**,距离上一版本 Opus 4.7 仅隔 41 天,升级节奏明显加快。新模型在保持标准定价不变的同时,带来了名为 **Dynamic Workflows(动态工作流)** 的研究预览功能,旨在协调数百个并行子代理完成复杂任务。 ### 快速迭代背后的竞争压力 Opus 4.7 发布后市场反响平淡,部分用户感到失望。与此同时,OpenAI 的 Codex 和 Google 的 Gemini Flash 模型相继推出重要更新,迫使 Anthropic 加快步伐。Opus 4.8 的迅速到来,正是对这种竞争压力的直接回应。 ### 基准测试与数据可靠性提升 Opus 4.8 在基准测试中继续保持领先,但更值得关注的是其对不确定数据的处理能力。据 Anthropic 介绍,早期测试者发现新模型“更倾向于标记工作中的不确定性,并且较少做出无依据的断言”。来自 Bridgewater 的反馈指出,Opus 4.8 最大的改进在于“主动标记分析输入和输出中的问题,而其他模型往往忽略这些问题,留给用户去发现”。 ### 动态工作流:协调子代理集群 Dynamic Workflows 功能允许像 Opus 这样的大型模型管理跨数百个并行子代理的复杂任务。Anthropic 举例说明:“Claude Code 配合 Opus 4.8,现在可以从启动到合并,在数十万行代码的规模上执行代码库迁移,并以现有测试套件作为衡量标准。”这标志着 AI 在自动化大规模工程任务方面迈出了重要一步。 ### 更强大的 Mythos 模型即将到来 Anthropic 此前预览的 **Mythos** 模型因网络安全担忧而暂未公开发布。但在 Opus 4.8 的发布公告中,公司暗示 Mythos 预览期可能很快结束:“我们在开发安全防护方面取得了快速进展,预计在未来几周内能够将 Mythos 类模型带给所有客户。” 总体而言,Opus 4.8 的快速发布和 Dynamic Workflows 的引入,展示了 Anthropic 在竞争激烈的 AI 市场中加速创新的决心,同时也为大规模自动化任务提供了新的可能性。