SheepNav

AI 资讯

每日聚合最新人工智能动态

Anthropic 宣布完成 650 亿美元的 H 轮融资,投后估值高达 9650 亿美元,这可能是这家 AI 初创公司在备受期待的 IPO 之前的最后一轮私募融资。本轮融资由 Altimeter Capital、Dragoneer、Greenoaks、Sequoia Capital、Capital Group、Coatue、D1 Capital Partners 等联合领投,Baillie Gifford、Blackstone、Brookfield、D.E. Shaw Ventures、DST Global 和 Fidelity Management & Research 等机构投资者参与。战略基础设施合作伙伴如三星、SK 海力士和 Micron 也加入了本轮。其中 150 亿美元来自此前超大规模云厂商的承诺投资,包括亚马逊在 4 月宣布的 50 亿美元。TechCrunch 上月报道称,Anthropic 接近完成一轮 500 亿美元的融资,投资者争相进入其股东名单。一位机构投资者甚至承诺出资 50 亿美元,只为与 Anthropic 首席财务官 Krishna Rao 会面。Anthropic 计划将新资金用于“推进安全性和可解释性研究、扩展计算能力以满足 Claude 日益增长的需求,以及扩大客户依赖的产品和合作伙伴关系”。本轮融资恰逢 Anthropic 发布新款 Claude Opus 4.8 模型,该模型在代理任务、高级编码以及诚实和自我修正方面能力更强。该公司还计划更广泛地发布与其强大的网络安全模型 Mythos 能力相当的模型,此前因潜在安全问题仅有限发布。自上一轮融资以来,Anthropic 增长加速,尤其是依赖 Claude Code 的企业客户。该公司本月早些时候表示,其年化收入已超过 470 亿美元,《华尔街日报》报道称,该初创公司预计收入将激增 130%,首次实现运营盈利。Altimeter Capital 创始人兼首席执行官 Brad Gerstner 表示:“Claude 的最新进展推动了全球最苛刻组织的大规模采用。这一势头使 Anthropic 能够引领 AI 创新的下一阶段,并抓住眼前的巨大机遇。”Anthropic 一直与 OpenAI 在融资和用户增长方面激烈竞争,为各自的 IPO 做准备。今年早些时候,OpenAI 在 3 月完成了高达 1220 亿美元的融资轮。

TechCrunch1个月前原文

大型交易所正在围绕 AI Token 设计衍生品,这一被越来越多视为类似电力或带宽的原材料投入。 ## 从 GPU 到 Token:衍生品市场的新前沿 如果说黄金是工业时代的硬通货,石油是能源时代的血液,那么 AI 时代的“新大宗商品”很可能就是 **Token**——大型语言模型(LLM)的基本计算单元。据路透社报道,中国上海期货交易所正在设计针对 AI Token 的衍生品市场。与此同时,CME 集团(芝加哥商品交易所)和洲际交易所(纽约证券交易所母公司)也已分别表示,正在推出用于租赁 GPU 的期货合约。 GPU 现货市场已相对成熟,租赁价格通常按小时计算。根据 AI Mining Co. 追踪 28 个市场和云提供商的每日 GPU 租赁定价数据,Nvidia H100 GPU 的中位价格在 13 个市场中为每小时 **1.40 至 4.27 美元**,H200 GPU 在 10 个市场中为每小时 **2.34 至 5 美元**。过去七天,H100 平均价格在 2.79 至 3.33 美元之间波动。 然而,围绕 Token 本身的基础设施仍显薄弱。Token 是当代 AI 模型的基本构建块,主要 AI 公司的企业计划通常以 Token 计价:例如,OpenAI 对其最新 GPT-5.5 模型的 API 收费为每百万输入 Token **5 美元**,每百万输出 Token **30 美元**。甚至云提供商也开始提供按 Token 计费的选择,如亚马逊的 Bedrock 系统。 ## 为何 Token 期货至关重要? 在 AI 基础设施空前建设的背景下,这一举措意义重大。云服务商、私募股权公司和基础设施企业已投入数千亿美元建设数据中心,预期对 GPU 和算力的需求将持续攀升。新兴的全球“新云”公司也在争夺这一需求,有的专注于推理,有的与 Oracle、AWS 和 Google Cloud 等云巨头竞争,为 AI 公司提供服务。 通过将衍生品与 AI Token 挂钩,上海交易所的产品将直接关联 AI 公司如何为其服务定价,为企业、投资者和数据中心运营商提供一种对冲计算成本的手段。这类似于石油期货帮助航空公司对冲燃油成本,或黄金期货帮助矿商锁定收入。 ## 市场展望与挑战 尽管前景诱人,但 Token 期货市场仍面临挑战。Token 定价受模型版本、使用场景和市场供需影响,波动性可能极高。此外,标准化问题——如何定义“一个 Token”在不同模型间的等价性——将是设计合约的关键。不过,随着 CME 和洲际交易所等巨头入局,以及中国监管机构的推动,AI Token 衍生品市场有望在未来几年内成形,成为 AI 经济中不可或缺的风险管理工具。 当计算本身成为可交易的商品,AI 产业的金融化或许才刚刚开始。

TechCrunch1个月前原文
苹果正将庞大 Gemini 模型塞进 iPhone,为全新 Siri 注入 AI 灵魂

苹果正与 Google 合作,计划将 Gemini 模型集成到 iPhone 中,以大幅提升 Siri 的智能水平。然而,由于本地运行 AI 面临参数规模、内存和精度等硬性限制,苹果可能不得不依赖云端计算,这与它一贯强调的本地隐私优先策略形成矛盾。 ## 本地 AI 的物理瓶颈 尽管苹果在每一代芯片中都强调 Neural Engine 的 AI 优化,但智能手机的物理限制依然难以突破。现代 AI 模型动辄拥有数十亿甚至万亿参数,而手机 NPU 设计更侧重低功耗、上下文感知的轻量处理,无法承载大模型的完整推理。即使是专用 GPU,其算力和内存带宽也不足以实时运行万亿参数级模型。 以 Google 的 Gemini 为例,其云端版本参数规模达到万亿级别,而手机本地运行的 Gemini Nano 仅数亿参数,且经过量化(quantization)压缩,虽然提升了速度,但牺牲了生成精度。这意味着本地 AI 在复杂对话、多轮推理等场景下,智能程度远不及云端版本。 ## 从本地到云端的策略转变 The Information 报道指出,苹果正为 Gemini 驱动的 Siri 规划“本地+云端”混合架构。这一策略实际上偏离了苹果此前力推的“端侧 AI 隐私优先”路线。即便苹果宣称 Neural Engine 升级带来了更强的本地 AI 能力,但面对 Siri 作为“对话式助手”的定位——需要理解上下文、生成自然回复、执行复杂指令——纯粹的端侧模型显然力不从心。 事实上,多数手机的 GPU 在处理 AI token 时反而比 NPU 更高效,但 RAM 容量依然是瓶颈。即便是当前最大的本地 AI 模型,在对话能力上也仅算“中等水平”。因此,苹果被迫引入云端组件,借助 Google 和 Nvidia 的算力,为 Siri 提供更强大的推理能力。 ## 对用户意味着什么? 对于注重隐私的苹果用户而言,这一转变可能令人失望。苹果曾多次强调本地 AI 能避免数据上传云端,保护用户隐私。如今 Siri 的 Gemini 升级若依赖云端,用户数据将不可避免地经过 Google 服务器,隐私风险随之增加。不过,苹果可能会采用联邦学习或差分隐私等技术来缓解担忧。 另一方面,云端加持后的 Siri 有望实现更自然的对话、更精准的意图识别,甚至支持多模态交互。这与苹果在 WWDC 上展示的 AI 愿景一致——让 Siri 成为真正的智能助手,而不仅仅是语音命令执行器。 ## 行业影响 苹果与 Google 的合作,标志着移动端 AI 竞赛进入新阶段。此前,三星已与 Google 合作在 Galaxy 设备上部署 Gemini 模型。苹果的加入将进一步巩固 Google 在移动 AI 生态系统中的地位,同时给其他芯片厂商(如高通、联发科)带来压力,推动它们加速研发更强大的端侧 AI 硬件。 但长期来看,纯端侧 AI 与云端 AI 的界限可能逐渐模糊。未来手机或许会采用“端侧处理敏感数据 + 云端处理复杂任务”的混合模式,这既是技术妥协,也是现实选择。

Ars Technica1个月前原文

欧洲科技企业联合推出的开源办公套件 **Euro-Office** 将于 **6月9日** 发布首个稳定版(1.0),旨在为全球政府和企业提供一款主权可控的 Microsoft Office 和 Google Docs 替代品。该套件包含网页版文档、电子表格和演示文稿编辑器,支持实时协作,界面和工作流程与 Microsoft 365 高度相似,但底层基于开源技术并由欧洲公司控制。 ## 背景:数字主权驱动需求 近年来,越来越多的非美国国家和企业——尤其是欧洲——对依赖美国主导的软件即服务(SaaS)模式感到不满,认为其存在信任和安全风险。数字主权(Digital Sovereignty)运动因此兴起,Euro-Office 正是这一趋势下的最新产物。此前,法国已宣布转向 Linux 系统以摆脱 Windows 依赖。 ## 参与方与治理模式 Euro-Office 由多家欧洲云服务与协作软件厂商联合开发,包括 **Ionos、Nextcloud、EuroStack、XWiki、OpenProject、Soverin、Abilian、BTactic、Open-Xchange** 和 **Office.eu**(后者同时拥有自家开源云办公套件 Office EU)。开发团队强调,这种“欧洲企业控制 + 开源许可”的组合模式,既能避免纯专有美国套件的封闭性,也解决了小型开源项目碎片化的问题。 ## 产品特点与可用性 - **兼容性**:支持常见的 Office 文档格式,用户可无缝迁移。 - **协作**:实时多人编辑,适合团队协作场景。 - **部署**:1.0 版可从项目 GitHub 仓库免费下载,支持自托管或云部署。 - **目标用户**:公共机构、教育系统及受监管行业。 Ionos CEO Achim Weiss 表示:“过去一年的地缘政治发展表明,市场对可靠、完整的欧洲办公解决方案存在明确需求。” Euro-Office 的发布标志着欧洲在办公软件领域迈出了关键一步,但其能否在功能和生态上真正挑战微软和谷歌,仍有待市场检验。

ZDNet AI1个月前原文

在 AI 代理的迭代过程中,如何区分真正的改进与偶然波动?Amazon Bedrock AgentCore 新推出的数据集管理功能,让开发者能够像管理代码版本一样管理测试用例,将线上故障转化为永久测试用例,构建可重复、可验证的评估基线。本文以金融情报代理为例,展示从生产失败捕获到版本化测试、修复验证的完整工作流。 ## 为什么需要版本化测试数据集? 代理本质上是非确定性的——相同的输入可能因模型采样差异产生不同输出,单次评估结果几乎毫无意义。只有通过**固定输入集**进行持续测量,才能判断改动是否真正有效。但仅有固定输入还不够:大语言模型(LLM)评判者能判断回复是否“听起来有帮助”,却无法验证**股票价格是否准确**、**工作流顺序是否正确**、**会话间是否泄露了个人身份信息(PII)**。 这些检查需要**真实答案(Ground Truth)**:预期的响应、必需的工具调用序列、以及无论措辞如何都必须成立的断言。真实答案将主观评分转化为可验证的度量。**版本化数据集**同时提供两者:它固定输入使评分可跨运行比较,同时携带真实答案使评分有意义。 ## 开发者的双重循环:内循环与外循环 代理评估发生在两个关键场景。**内循环**是开发者桌面:调用代理、读取分数、调整工具描述、重新运行——快速迭代。**外循环**是生产环境:真实用户流量中发现的故障,必须被捕获并转化为测试用例,防止回归。 Bedrock AgentCore 的数据集管理支持**草稿(draft)版本**和**不可变编号版本**。开发者可以在草稿上自由迭代,直到准备好锁定检查点。发布后的版本不会随运行而漂移。当生产环境出现故障时,该失败案例成为永久测试用例,未来每次变更都会针对它进行评估。 ## 工作流实战:金融情报代理案例 假设我们构建了一个金融市场情报代理,负责回答股票查询、执行经纪人工作流。在生产中,我们捕获了一个失败:用户询问“AAPL 当前股价”,代理返回了错误的价格。 1. **捕获失败**:从生产追踪中提取输入(用户查询)、预期输出(正确的股价)、所需工具序列(调用价格API)和断言(返回价格必须匹配实时数据)。 2. **构建版本化数据集**:将此案例与其他测试用例一起添加到数据集中,发布为版本1。 3. **运行评估**:针对版本1运行代理,记录失败。 4. **修复代理**:调整工具描述或逻辑,例如确保调用正确的API端点。 5. **确认改进**:在相同数据集上重新评估,确认分数提升。 这种工作流确保了每次修复都基于确凿的证据,而非主观感觉。 ## 数据集管理的核心优势 - **版本控制**:每个数据集版本都是不可变的,确保评估可重现。 - **真实答案嵌入**:每个测试用例包含输入、预期输出、工具序列和断言,提供可验证的检查点。 - **生产反馈循环**:线上失败自动转化为离线测试用例,防止回归。 - **团队协作**:共享数据集作为单一事实来源,减少沟通偏差。 ## 行业启示:从“评分”到“度量” 当前许多代理评估仍停留在“评分”阶段——依赖LLM判断或人工打分,缺乏可重复性。Bedrock AgentCore 的版本化数据集将软件工程中的测试驱动开发(TDD)理念引入代理领域。随着代理在金融、医疗、法律等高风险场景中广泛应用,**可验证的评估基线**将成为合规与可靠性的基石。 未来,我们可能会看到代理的“测试覆盖率”成为衡量成熟度的关键指标——就像代码测试一样,代理测试套件的广度和深度直接影响生产部署的信心。

AWS ML1个月前原文

研究人员发现了一种从硅酸盐矿物中提取锂的新方法,该工艺更环保、成本更低,可能颠覆传统锂提取方式。相关成果已发表在《科学》杂志上,初创公司 Rock Zero 正致力于将其商业化。 ## 传统方法的困境 锂是电动汽车和储能电池的关键材料,但传统提取方式面临诸多挑战。目前最经济的方法是从盐湖卤水中提取锂,但这需要大面积蒸发池,且受地理条件限制。更常见的硬岩开采则需爆破矿石、高温焙烧,并使用危险化学品,能耗高且污染重。 ## 新方法:弱酸溶解硅酸盐 MIT 教授 **Yet-Ming Chiang** 及其团队开发的新技术,使用一种弱酸——**氟化铵**——来溶解通常惰性的硅酸盐矿物。这一过程不仅能释放锂,还能回收氧化铝和二氧化硅等有用材料。Chiang 表示:“规模化后,这将是全球成本最低的锂来源。” 有趣的是,这项研究的灵感来自一次家庭装修。Chiang 在 25 年前曾使用玻璃蚀刻膏(含氟化铵),他意识到这种弱酸可能用于溶解硅酸盐。在适当条件下,氟化铵确实能高效溶解矿物,且不会产生剧毒的氢氟酸副产品。 ## 商业化前景 Rock Zero 公司正在将这一工艺推向市场。与 Sublime Systems(Chiang 的另一家初创公司,用电化学方法生产水泥)类似,Rock Zero 有望在降低环境影响的同时,实现低成本生产。若成功,该技术将大幅缓解锂供应紧张问题,并减少对传统开采的依赖。 不过,该工艺目前仍处于实验室阶段,规模化生产还需克服工程挑战。但研究者认为,其潜力巨大,尤其适用于低品位矿石和废弃矿渣的再利用。

MIT Tech1个月前原文

Anthropic 今日宣布,其最先进的模型 **Claude Opus 4.8** 已正式在 **Amazon Bedrock** 和 **AWS 上的 Claude Platform** 上线。这款模型专为生产级工作负载设计,在编码、智能体任务和专业知识工作方面实现了显著提升,能够支持长达数小时的自主多阶段任务,并保持更强的稳定性和一致性。 ## 核心提升:更自主、更可靠 Claude Opus 4.8 的核心亮点在于其 **更强的自主性和任务连贯性**。与以往版本不同,Opus 4.8 能够跨阶段维持计划,清晰追踪已完成和待完成的工作,并在遇到中断时主动调整策略,而非简单地抛出错误并停止。这直接降低了输出方差和人工审查次数,使得大规模部署时的行为更可预测。 在编码场景中,Opus 4.8 能够 **导航真实代码库**,在编辑前进行规划,并在长时间会话中保持上下文。对于多阶段任务,它可以跟踪依赖关系,确保长时间运行时的连贯性。这种自主性同样延伸至智能体工作流——它能够处理复杂的依赖链和多步骤工具调用,减少人工监督,非常适合客户面向型或内部智能体应用。 ## 行业应用场景 Opus 4.8 的能力尤其适合对一致性和深度要求苛刻的行业: - **金融服务**:辅助投资研究和收益分析,在整个报告周期内保持上下文。 - **法律行业**:完成合同审查、尽职调查,以及动议和备忘录的初稿撰写。 - **生命科学**:处理复杂的研究资料,支持药物发现和文献综述。 ## 在 AWS 上的部署优势 通过 Amazon Bedrock,用户可以在 **现有 AWS 环境** 中构建应用,享受企业级安全性和区域数据驻留,同时获得可扩展的推理能力。对于无需区域数据驻留的场景,用户也可通过 **AWS 上的 Claude Platform** 获取 Anthropic 的原生平台体验。 ## 对 AI 工程师的实用建议 对于正在将模型集成到智能体系统或生产推理工作负载中的 AI 工程师,官方建议重点关注以下几点: 1. **利用长上下文能力**:Opus 4.8 在长时间任务中的连贯性使其特别适合需要持续跟踪状态的场景,如代码审查、多轮对话或复杂数据分析。 2. **减少人工干预**:由于模型自主修复能力增强,可以设计更松散的控制循环,让模型在出错时自行调整,而非立即回退到人工。 3. **评估输出一致性**:在部署前,建议对特定工作流进行方差测试,确保模型行为符合预期。 ## 小结 Claude Opus 4.8 的发布标志着大模型在 **生产级自主性** 上迈出了重要一步。对于依赖 AI 完成复杂、多步骤任务的企业而言,它提供了一种更可靠、更少人工干预的解决方案。随着在 AWS 上的落地,企业可以更便捷地将这一能力融入现有基础设施,加速 AI 驱动的业务转型。

AWS ML1个月前原文

## 事件概览 **StrictlyVC 洛杉矶站** 将于 **2026 年 6 月 18 日** 在埃尔塞贡多的航空航天公司园区举行。这场闭门活动为投资者和创始人提供与行业领袖面对面交流的机会,主题涵盖国防科技、物理 AI 及前沿制造等领域。 ## 核心看点 ### 重磅嘉宾与议题 - **Ethan Thornton(Mach Industries 创始人)** 将分享如何在国防技术领域快速打造硬科技公司,探讨自主系统、制造业与国家安全深度融合带来的结构性变革。 - **Delian Asparouhov(Founders Fund)与 Saif Khawaja(Shinkei Systems)** 的炉边谈话将聚焦物理 AI 的前沿投资,讨论 AI、机器人与自动化如何重塑实体世界,以及将突破性技术从概念推向规模化部署的关键要素。 更多演讲嘉宾将在后续公布,活动议程持续更新中。 ### 活动价值 StrictlyVC 系列以“高信噪比对话”著称。本次活动不仅提供舞台上的深度分享,更注重**私密环境中的真实交流**。与会者可在轻松氛围中与塑造下一代公司的核心人物建立联系,将洞察转化为潜在机遇。 ## 行业背景 当前,国防科技与 AI 硬件正经历从“缓慢迭代”到“加速突破”的转变。Mach Industries 代表的硬科技初创公司,以及 Shinkei Systems 聚焦的自动化系统,均反映出资本与技术向“实体经济+AI”方向倾斜的趋势。StrictlyVC 洛杉矶站正是这一趋势的缩影——风险投资不再局限于软件,而是深入物理世界。 ## 报名信息 活动名额有限,现已开放注册。可通过文内链接锁定席位,及时获取最新演讲嘉宾与日程动态。

TechCrunch1个月前原文
特朗普失去AI监管主导权:伊利诺伊州通过里程碑式安全法

就在总统特朗普取消联邦AI监管计划数天后,伊利诺伊州议会通过了全美最严格的AI安全法案。该法案要求大型AI公司提交独立第三方安全测试报告,并在72小时内报告重大安全事故。OpenAI和Anthropic等头部企业表示支持,认为这有助于建立统一的行业标准。

Ars Technica1个月前原文

Anthropic 于周四推出了其最先进公开模型 **Opus 4.8**,距离上一版本 Opus 4.7 仅隔 41 天,升级节奏明显加快。新模型在保持标准定价不变的同时,带来了名为 **Dynamic Workflows(动态工作流)** 的研究预览功能,旨在协调数百个并行子代理完成复杂任务。 ### 快速迭代背后的竞争压力 Opus 4.7 发布后市场反响平淡,部分用户感到失望。与此同时,OpenAI 的 Codex 和 Google 的 Gemini Flash 模型相继推出重要更新,迫使 Anthropic 加快步伐。Opus 4.8 的迅速到来,正是对这种竞争压力的直接回应。 ### 基准测试与数据可靠性提升 Opus 4.8 在基准测试中继续保持领先,但更值得关注的是其对不确定数据的处理能力。据 Anthropic 介绍,早期测试者发现新模型“更倾向于标记工作中的不确定性,并且较少做出无依据的断言”。来自 Bridgewater 的反馈指出,Opus 4.8 最大的改进在于“主动标记分析输入和输出中的问题,而其他模型往往忽略这些问题,留给用户去发现”。 ### 动态工作流:协调子代理集群 Dynamic Workflows 功能允许像 Opus 这样的大型模型管理跨数百个并行子代理的复杂任务。Anthropic 举例说明:“Claude Code 配合 Opus 4.8,现在可以从启动到合并,在数十万行代码的规模上执行代码库迁移,并以现有测试套件作为衡量标准。”这标志着 AI 在自动化大规模工程任务方面迈出了重要一步。 ### 更强大的 Mythos 模型即将到来 Anthropic 此前预览的 **Mythos** 模型因网络安全担忧而暂未公开发布。但在 Opus 4.8 的发布公告中,公司暗示 Mythos 预览期可能很快结束:“我们在开发安全防护方面取得了快速进展,预计在未来几周内能够将 Mythos 类模型带给所有客户。” 总体而言,Opus 4.8 的快速发布和 Dynamic Workflows 的引入,展示了 Anthropic 在竞争激烈的 AI 市场中加速创新的决心,同时也为大规模自动化任务提供了新的可能性。

TechCrunch1个月前原文

Anthropic 于 2026 年 5 月 28 日发布了其最新的 Claude 模型——Opus 4.8。与以往追求更快、更聪明的迭代不同,这次 Anthropic 将“诚实”作为主打特色。公司宣称,Opus 4.8 在减少无根据断言、主动承认不确定性方面有了显著提升,堪称“更诚实、更谨慎”的 AI 助手。 ### 诚实的量化表现 Anthropic 在官方博客中表示,Opus 4.8 在评估中**比前代(Opus 4.7)减少了约 4 倍**的代码缺陷遗漏率——即模型在编写代码时,更少让潜在错误“蒙混过关”。这并非空洞的口号,而是有具体数据支撑的改进。 在 ZDNET 资深编辑 David Gewirtz 的实测中,Opus 4.7 相比 4.6 已经有了可感知的进步:例如它会更主动地告诉用户“第一次尝试的方法行不通,正在换一种策略”。这种自我修正能力在复杂编程项目中尤为宝贵。因此,他对 4.8 的“诚实”升级抱有更高期待。 ### 动态工作流与定价策略 除了诚实度的提升,Opus 4.8 还引入了**动态工作流(Dynamic Workflows)**功能,可同时运行数百个 Claude 子代理,大幅提升多任务并行处理能力。这对于需要大规模代码审查、复杂系统设计的企业级用户来说,是一个重要卖点。 定价方面,Anthropic 采取了差异化策略:**快速模式(Fast mode)价格下调**,而常规 Opus 定价保持不变。这一调整旨在降低高频用户的成本,同时保持高端模型的溢价定位。 ### 行业背景与意义 当前 AI 大模型领域,“幻觉”问题仍是制约落地的最大障碍之一。OpenAI 的 GPT-4o 和 Google 的 Gemini 2.5 都在努力提升事实准确性,但 Anthropic 选择将“诚实”作为差异化标签——这不仅是技术竞争,更是品牌信任的构建。 Spotify 的工程师 Tom Pritchard 已率先测试了 Opus 4.8,并给出了积极评价。不过,目前关于 4.8 的第三方独立评测还较少,其“诚实”程度在真实场景中的表现仍需时间验证。 ### 小结 Opus 4.8 的发布标志着 AI 模型竞争从单纯的“能力竞赛”转向“可信度竞赛”。Anthropic 选择将**诚实作为杀手级功能**,直击用户对 AI 可靠性的核心焦虑。对于开发者、企业用户而言,这或许意味着:一个更愿意说“我不知道”的 AI,反而更值得信赖。

ZDNet AI1个月前原文

Anthropic 于周四发布 **Claude Opus 4.8**,主打“诚实”特性。公司表示,该模型在不确定时会主动标注,而非强行编造答案。内部评测显示,Opus 4.8 对代码缺陷的漏报率比前代降低约 **4 倍**。此外,新模型允许用户调节“努力程度”,高努力响应消耗更多 token,低努力则可节省额度。Anthropic 还推出“动态工作流”研究预览,支持 Claude 规划任务并并行运行数百个子代理,最终验证输出后再返回结果。此举旨在解决 AI 模型“自信胡诌”的顽疾,提升可信度。

The Verge1个月前原文

Anthropic 于 2026 年 5 月 28 日正式发布 **Claude Opus 4.8**,这是对前代 Opus 4.7 的一次重要升级。新模型在基准测试中全面超越前代,同时在实用功能上带来多项创新:用户可控制 Claude 的“努力程度”、Claude Code 引入“动态工作流”,而快速模式速度提升 2.5 倍,成本却降至此前三分之一。 ## 性能全面提升 官方公布的基准测试结果显示,Opus 4.8 在编码、智能体能力、推理和实际知识工作等任务上均优于 Opus 4.7 及其他竞品。例如,在 **Super-Agent 基准** 中,Opus 4.8 是唯一一个完整完成所有案例的模型,且成本与 GPT-5.5 持平。在 **CursorBench** 上,它在每个努力层级上都超越了前代模型。此外,在 **Legal Agent Benchmark** 上,Opus 4.8 创下最高分,成为首个在全部通过标准上突破 10% 的模型——这一精度提升直接转化为客户可以放心交给 AI 的实际律师工作量。 ## 更可靠的协作体验 早期测试者反馈,Opus 4.8 在执行智能体任务时判断力更敏锐、可靠性更高。在 Claude Code 中,它会主动提出正确问题、发现自身错误、质疑不合理的计划,并在进行大规模变更前建立信心。翻译、深度研究、幻灯片制作和分析等产品中,它展现出强大的可靠性。此外,工具调用效率显著提升,能以更少的步骤完成同等智能的任务,并顺畅地贯穿端到端流程。 ## 创新功能与成本优化 Opus 4.8 同步推出多项新功能: - **努力程度控制**:用户在 claude.ai 上可以调节 Claude 为任务投入的“努力”级别,灵活平衡速度与深度。 - **动态工作流**:Claude Code 新增此功能,使其能够处理超大规模问题。 - **快速模式降价**:Opus 4.8 的快速模式速度提升至 2.5 倍,但价格仅为前代模型的三分之一,大幅降低了高吞吐场景的使用成本。 ## 行业意义 Opus 4.8 的发布正值 AI 行业对智能体可靠性要求日益提高的时期。Anthropic 通过提升模型在复杂任务中的判断力和效率,进一步巩固了其在高端 AI 助手市场的地位。对于需要高精度、长上下文协作的企业用户来说,Opus 4.8 不仅是一次性能升级,更是一个更加值得信赖的 AI 合作伙伴。

Hacker News1.8k1个月前原文

金融机构在反洗钱(AML)合规领域长期面临手动处理警报效率低下的痛点。AWS 和 Snowflake 的深度集成框架,结合 Amazon Quick 与 Snowflake Cortex AI,为这一场景提供了自动化解决方案。本文将展示如何通过 Amazon Quick Flows 和 Snowflake Cortex AI 构建自动化警报分类工作流,将单次警报调查时间从 **30-90 分钟** 缩短至 **5 分钟以内**。 ## 背景:AML 警报处理的困境 AML 分析师每天需要处理大量系统生成的交易警报,其中 **90-95%** 实际上是误报。传统流程中,分析师需要手动从多个系统(如交易数据库、客户信息库、制裁名单等)收集数据,撰写处置说明,平均耗时 30-90 分钟。这种重复性劳动不仅效率低下,还容易因人为疏忽导致合规风险。 ## 技术方案:Amazon Quick + Snowflake Cortex AI 集成 **Amazon Quick** 是 AWS 推出的企业级 AI 服务,提供生成式 AI 聊天代理、研究能力、用于任务自动化的 Quick Flows 以及流程自动化工具。它能够聚合来自原生索引、自定义知识库和用户上传文件等多源数据。 **Quick Flows** 是其中的关键组件,它将用户请求转化为标准化的 MCP(模型上下文协议)调用,无需开发自定义连接器,并通过 OAuth 认证保障企业级安全。MCP 是一个开放协议标准,使得不同系统间的交互变得统一和可扩展。 **Snowflake Cortex AI** 则提供在 Snowflake 数据云内直接运行 AI 模型的能力,支持 SQL 调用、向量搜索、大语言模型推理等功能。 两者的集成通过 **Amazon Quick 的 MCP 集成** 实现:Quick Flows 通过 MCP 协议与 Snowflake Cortex 通信,自动从 Snowflake 中提取交易数据、客户画像、历史警报记录等信息,并利用 AI 模型进行初步判断。 ## 工作流示例:三步完成警报分类 1. **收集输入**:当新警报产生时,Quick Flows 自动从 Snowflake 拉取相关交易明细、客户信息、历史行为数据。 2. **运行调查**:调用 Snowflake Cortex AI 中的模型,对交易模式进行分析,与已知洗钱手法进行比对,并生成风险评分。 3. **产生输出**:自动生成包含调查结论、证据摘要和处置建议的文档,直接推送给分析师审核。 整个过程无需人工干预,分析师只需在最终环节确认即可。 ## 实际效果与适用场景 在测试环境中,该自动化工作流将单次警报处理时间从 30-90 分钟降至 **5 分钟以内**。实际效果可能因警报复杂度和数据量而异,但效率提升显著。 这种 MCP 驱动的自动化方法不仅适用于 AML 警报分类,还可推广至其他需要跨系统手动桥接的重复性工作流,例如: - **FinOps 成本分类**:自动收集云资源账单、使用量数据,生成优化建议。 - **SRE 事件响应**:从监控系统、日志平台和工单系统中聚合信息,辅助故障定位。 - **合规调查**:自动从多个数据源收集证据,生成合规报告。 ## 行业意义 随着 AI 采用日趋成熟,最高效的部署不再局限于独立的聊天机器人,而是能够编排现有工具、将多步骤手动流程转化为一键体验的 **可重复工作流**。AWS 与 Snowflake 的深度集成(已有 **50 多个原生集成**)为金融机构提供了数据安全与效率兼顾的合规基础架构。 这一方案也反映了 AI 在金融合规领域的趋势:从辅助决策走向 **端到端自动化**,让人类分析师专注于真正需要判断力的异常案例,而不是淹没在海量误报中。

AWS ML1个月前原文

今年6月的翠贝卡电影节将迎来一部特别的影片——完全由AI生成的75分钟长片《紫罗兰之梦》。这部影片以今年1月伊朗政府大规模杀害抗议者的事件为背景,通过虚构的戏剧化叙事再现了这场悲剧。令人瞩目的是,该片制作成本仅为**2000美元**,所有人物和画面均由AI生成,这在电影行业引发了广泛讨论。 ## 影片背景与技术细节 《紫罗兰之梦》由Ash和Pooya Koosha兄弟创作,两人于2009年离开伊朗。Pooya是影片背后公司Fountain 0的联合创始人,Ash则担任CEO。据新闻稿介绍,影片“基于新闻报道、照片和目击者证词”创作,是对真实事件的AI重构。 在技术层面,Koosha兄弟使用了多种AI工具:**Google的Nano Banana**用于图像生成,**Kling AI**负责视频生成,**Anthropic的Claude**则用于语言编辑。这种多工具协同的方式,使得低成本、高效率的创作成为可能。 ## 行业意义与争议 《紫罗兰之梦》被Fountain 0称为**首部被主流电影节正式接受的AI生成长片**。此前,虽有一部成本更高的AI电影《Hell Grind》在戛纳电影节放映,但属于外围活动,而非主竞赛单元。这一突破表明,AI生成内容正在从实验性短片向长片叙事迈进,并开始获得传统电影界的认可。 然而,AI在好莱坞的渗透也伴随着争议。一方面,Netflix已成立AI动画工作室,收购了本·阿弗莱克的AI初创公司;亚马逊Prime Video也订购了三部AI生成动画系列。另一方面,传统电影从业者担忧AI会威胁其生计。Koosha兄弟在声明中表示:“我们完全理解电影行业从业者的敏感情绪,也和他们一样担心AI对生计的未知影响。但现实是,如果没有AI能力,这部电影根本不可能被制作出来。” ## 未来展望 《紫罗兰之梦》将于6月10日在翠贝卡电影节放映。它的出现不仅展示了AI在低成本叙事中的潜力,也为独立电影人提供了新的可能性——当制作门槛大幅降低,更多边缘故事或许能获得讲述的机会。但同时,如何平衡技术创新与行业伦理,仍是整个影视行业需要面对的课题。

The Verge1个月前原文

YouTube 正在逐步强化其播客收听体验,但步伐谨慎。从今天起,**YouTube Premium 订阅用户**(Android 端)可率先体验一系列新功能,iOS 版本也将随后跟进。这些更新旨在让 YouTube 更适合“听”播客,而非仅仅“看”视频。 ### 全新“移动模式”:音频优先布局 最引人注目的变化是新增的 **“移动模式”(on-the-go mode)**。当用户开启此模式后,视频界面将转变为音频优先布局:播放按钮被放大并简化,视频画面替换为静态图像,时间线则显示视频章节信息。YouTube 表示,用户可以在视频设置中手动开启此模式,当系统检测到用户正在移动时,也会自动弹出提示。这一设计显然是为了迎合通勤、运动等“只听不看”的场景。 ### 自动变速:智能调整播放速度 对于习惯倍速收听播客的用户,YouTube 推出了 **自动速度功能(auto speed)**。该功能会根据视频内容自动调整播放速度:在内容较慢或信息密度较低的段落加快播放,之后恢复用户设定的基准速度。用户只需设定一个最低速度阈值,系统即可智能调节。这类似于某些播客应用(如 Overcast)的“智能变速”功能,但 YouTube 将其与自身的内容理解能力结合。 ### AI 搜索扩展至播客 YouTube 还将 **Ask Music AI** 搜索功能扩展至播客领域。在 YouTube Music 应用中,用户可以通过聊天机器人提示词(如“适合运动的播客”或“关于 AI 的播客”)获得个性化推荐。Spotify 早在今年早些时候就已推出类似功能,可见 AI 驱动的播客发现正成为流媒体平台的竞争焦点。 ### 小结:播客化,但仍有距离 这些更新表明 YouTube 正在认真对待播客市场,但步伐仍显“试探性”。**关键功能(如移动模式、自动变速)仅限 Premium 用户**,且目前仅限 Android 端,这限制了其影响力。与 Spotify、Apple Podcasts 等专业播客平台相比,YouTube 的播客体验仍以视频为核心,缺乏独立播客库、RSS 订阅、章节跳过等核心功能。不过,凭借庞大的用户基数和内容生态,YouTube 的“播客化”尝试仍可能改变行业格局。 对于播客创作者而言,YouTube 的这些更新意味着新的机遇:音频优先布局降低了听众门槛,AI 推荐则有助于内容被发现。但要成为真正的“播客应用”,YouTube 还需在后台播放、离线下载、独立播客管理等方面继续发力。

The Verge1个月前原文

百思买(Best Buy)正在以接近**五折**的价格促销LG C5 OLED电视,65英寸型号仅售**1,400美元**,相比原价2,700美元直降1,300美元。作为**ZDNET编辑推荐的周度最佳交易**,这款电视虽属上一代产品,但依然具备出色的OLED画质、VRR可变刷新率支持、内置语音控制以及Dolby Vision HDR和Dolby Atmos虚拟环绕声等特性,在价格与性能之间取得了极佳的平衡。 ### 为什么C5仍值得关注? 对大多数消费者而言,**LG C5 OLED**在核心体验上与最新款差距并不明显。它搭载了LG招牌的**OLED面板**,能够呈现深邃的黑色和鲜艳的色彩,配合**Dolby Vision**与**Dolby Atmos**,无论是观看电影还是玩主机游戏,都能获得沉浸式的视听感受。对于游戏玩家,**HDMI 2.1接口**和**VRR支持**确保了4K 120Hz的流畅画面,完美适配PS5和Xbox Series X。 与当前在售的C6系列相比,C5的主要差异在于处理器版本和峰值亮度略有不同,但日常使用中很难察觉。考虑到**近50%的折扣**,省下的1,300美元足以购买一台中端音响或数款游戏大作。 ### 交易细节与购买建议 - **价格**:65英寸型号现价**1,400美元**(原价2,700美元) - **商家**:百思买(Best Buy) - **适用场景**:家庭影院、游戏娱乐 - **注意**:库存可能有限,建议尽快下单 如果你正在寻找一款**高性价比的OLED电视**,且不执着于最新型号,那么LG C5无疑是当前最值得入手的选择之一。

ZDNet AI1个月前原文

Google 近期将其“**首选来源**”(Preferred Sources)功能扩展至 AI 驱动的搜索场景,包括 **AI Overviews** 和 **AI Mode**。这意味着用户现在可以指定自己信任或喜爱的新闻网站,让它们在 AI 生成的搜索结果中更突出地显示。该功能最初于去年作为 Google Labs 实验推出,此前仅适用于常规搜索、Google Discover 和 Google News 的 Top Stories。现在,无论用户通过何种方式搜索,其偏好的来源都有望获得更高权重。 Google 在官方博客中表示:“我们的‘首选来源’功能让您能更轻松地看到来自喜爱网站的内容。从今天起,该功能将覆盖 AI Overviews 和 AI Mode,您将能轻易在 AI 回复中识别出已选来源的链接。” 这些来源会被清晰标记,便于用户快速定位。 对于用户而言,这一更新意味着可以更主动地控制信息获取的偏好,减少 AI 筛选带来的不确定性。对于网站和内容发布者来说,被用户添加为首选来源将提升曝光机会,形成双赢局面。例如,将 ZDNET 设为首选来源后,其最新科技新闻、评测和指南将在 AI 搜索中更频繁出现。 这一变化反映了 Google 在 AI 搜索与传统搜索之间的平衡策略——既利用 AI 提升检索效率,又保留用户对信息来源的自主选择权。随着 AI 搜索日益普及,如何让用户信任 AI 生成的内容成为关键,而“首选来源”正是 Google 给出的一个解决方案。 此外,Google 还透露将更积极地引导用户关注被高度引用的故事,进一步强化权威来源的地位。对于经常依赖 AI 搜索获取信息的用户,建议立即检查并设置自己的首选来源列表,以确保重要内容不被 AI 算法淹没。

ZDNet AI1个月前原文

## 个性化 Zorin OS:让桌面系统更懂你 作为一款以易用性和美观著称的 Linux 发行版,**Zorin OS** 在开箱状态下已经表现出色,但其真正的魅力在于丰富的自定义选项。资深科技编辑 Jack Wallen 分享了他每次安装 Zorin OS 时必调的几项设置,这些调整不仅能提升视觉体验,还能显著优化工作流。 ### 1. 布局切换:一键变身 macOS 风格 Zorin OS 内置的 **Appearance 工具** 是其核心亮点之一。通过它,你可以快速切换桌面布局。免费版提供 4 种布局,而 Pro 版(售价 47.99 美元)则翻倍至 8 种。但别被数量限制——即使是最基础的 GNOME 布局,也能通过微调变成类似 macOS 的界面。Wallen 建议:“每个布局都可以进一步自定义,大胆尝试,直到找到最适合你的组合。” 他本人经常在不同布局间切换,以保持新鲜感。 ### 2. 底部 Dock:效率与美学的平衡 无论使用 Linux 还是 macOS,Wallen 始终坚持在屏幕底部放置一个 **Dock**(程序坞)。他认为 Dock 既高效又符合审美。在 Zorin OS 中,你可以启用 **Zorin Dash** 功能(类似 GNOME 的 Dash To Dock 扩展),并对其进行深度定制:调整图标大小、位置、透明度,甚至添加动画效果。这样一来,常用应用触手可及,桌面也显得更加整洁。 ### 3. 更多隐藏技巧 除了上述两点,Zorin OS 还允许用户自定义主题、图标集、字体以及窗口行为。例如,你可以通过调整“外观”设置中的“颜色”选项,为整个系统设定统一的强调色;或者通过“扩展”管理工具,安装第三方插件来增强功能。Wallen 强调,这些设置“纯属个人喜好”,但大多数用户至少会用到其中几项。 ### 小结:为什么 Zorin OS 值得推荐? Zorin OS 之所以能在众多 Linux 发行版中脱颖而出,不仅因为其对 Windows 用户的友好过渡设计,更在于其强大的可定制性。无论是追求 macOS 的简洁,还是 Windows 的熟悉感,Zorin OS 都能满足。正如 Wallen 所说:“10 分满分,我强烈推荐。” 如果你正在寻找一个既稳定又灵活的桌面系统,不妨从这些设置开始,打造属于你的专属环境。

ZDNet AI1个月前原文

关于Anthropic与SpaceX之间的计算资源租约期限,近日出现了相互矛盾的说法。埃隆·马斯克公开将xAI与Anthropic的大额计算交易重新描述为短期且可取消的,然而SpaceX自己的S-1文件却显示付款将持续到2029年5月。 **租约期限争议** 马斯克在社交媒体上表示,xAI与Anthropic的协议是“短期的”,并且“可以随时取消”。但根据SpaceX提交的S-1注册声明,文件中明确提到“与Anthropic的付款义务将持续到2029年5月”。这一差异引发了外界对协议真实性质的猜测。 **背景分析** Anthropic作为AI安全公司,需要大量计算资源来训练其模型。此前有报道称,xAI与Anthropic达成了一项价值数十亿美元的协议,由SpaceX提供计算能力。但马斯克的最新表态似乎意在淡化这笔交易的长期约束性,可能与其对AI竞争格局的公开立场有关。 **行业影响** 这一争议凸显了AI行业计算资源合作中的透明度问题。如果租约确实如SpaceX文件所示是长期的,那么Anthropic将获得稳定的计算能力支持;但如果如马斯克所说可短期取消,则可能对Anthropic的模型训练计划造成不确定性。 目前,双方均未就具体的合同条款细节发表进一步评论。投资者和行业观察者正密切关注此事,以判断其对AI基础设施投资模式的影响。

TechCrunch1个月前原文