AI 资讯

每日聚合最新人工智能动态

用 Amazon Lex Assisted NLU 提升机器人准确率：告别手动配置

新上线

Amazon Lex 新推出的 **Assisted NLU（自然语言理解）** 功能，正在改变对话式 AI 机器人的构建方式。传统 NLU 系统依赖开发者手动配置每一个可能的用户表述变体，不仅耗时巨大，而且难以覆盖真实场景下的语言多样性。Assisted NLU 则利用大语言模型（LLM）自动处理拼写错误、复杂句式和多意图表达，无需额外编码即可提升意图识别和槽位填充的准确率。 ### 传统 NLU 的三大痛点 1. **表述变体覆盖不全**：用户说“我想订酒店”和“我需要预订住宿”可能指向同一个意图，但传统系统需要分别枚举。 2. **复杂请求解析失败**：类似“帮我订一间 Seattle 市中心的双人房，12月15到18号”这样的句子，常丢失房间类型、位置、日期等关键信息。 3. **歧义处理能力弱**：用户说“我需要处理我的预订”，机器人无法判断是查询、修改还是取消。 ### Assisted NLU 如何工作 Assisted NLU 通过结合传统机器学习和 LLM，利用**意图和槽位的名称与描述**来理解用户输入。它支持三种工作模式： - **Primary 模式**：全程使用 LLM 增强理解，适合高精度场景。 - **Fallback 模式**：仅当传统 NLU 置信度不足时启用 LLM，作为安全兜底。 - **意图消歧**：当多个意图概率接近时，主动引导用户确认。该功能已包含在标准 Amazon Lex 定价中，无需额外付费。 ### 实施最佳实践 #### 1. 优化意图与槽位描述 Assisted NLU 依赖语义理解，因此**描述的质量直接决定准确率**。建议： - 为每个意图提供清晰、具体的描述，例如“BookHotel”的描述可写为“用户预订酒店房间，包括选择地点、日期和房型”。 - 为槽位添加上下文提示，如“room_type”的描述为“房间类型，如标准间、套房、豪华房”。 #### 2. 利用 Test Workbench 验证 Amazon Lex 提供的 **Test Workbench** 可批量测试对话样本，对比传统 NLU 和 Assisted NLU 的表现。建议： - 准备涵盖常见表述、复杂句式和边缘情况的测试集。 - 关注意图分类准确率、槽位填充完整率和对话完成率三个指标。 - 根据测试结果迭代调整描述和示例语句。 #### 3. 渐进式迁移策略 - **新建机器人**：直接启用 Assisted NLU，从设计阶段就采用 LLM 增强。 - **现有机器人**：建议先启用 Fallback 模式，逐步观察效果，再切换到 Primary 模式。 - 保留传统 NLU 配置作为基线，便于对比回归。 ### 行业影响与展望 Assisted NLU 的推出，标志着对话式 AI 从“规则驱动”向“语义理解”的重要转变。对于企业而言，这意味着： - **降低维护成本**：减少手动枚举 utterance 的工作量，迭代周期从周级缩短到天级。 - **提升用户体验**：机器人能更自然地理解用户的真实表达，减少重复和放弃率。 - **加速上线速度**：新业务场景的对话模型搭建时间可缩短 50% 以上。不过，LLM 的引入也带来新的考量：模型推理延迟、对描述质量的敏感度，以及在特定领域（如医疗、金融）的合规性。建议开发者在正式上线前进行充分的压力测试和合规审查。总的来说，Amazon Lex Assisted NLU 为构建高精度对话机器人提供了一条更智能、更高效的路径。无论是初创公司还是大型企业，都可以通过合理的设计和测试，快速提升机器人的自然语言理解能力。

AWS ML17天前原文

实时语音智能体：Stream Vision Agents 携手 Amazon Nova 2 Sonic 实现分钟级生产部署

新上线

实时语音交互正成为 AI 应用的下一个前沿，但构建低延迟、可生产的语音智能体往往需要复杂的工程堆栈。Stream Vision Agents 这一开源框架与 **Amazon Bedrock** 及 **Amazon Nova 2 Sonic** 的结合，正在大幅降低这一门槛。开发者现在可以在几分钟内搭建起能够理解语音、调用工具并支持多语言的实时语音智能体，且具备生产级可靠性。 ## 架构解密：Stream Vision Agents + Amazon Nova 2 Sonic 如何协同工作 Stream Vision Agents 是一个专为实时多模态交互设计的开源框架，它抽象了音频流处理、事件管理和连接维护等底层细节。而 **Amazon Nova 2 Sonic** 是 Amazon Bedrock 上最新推出的语音模型，专为低延迟语音交互优化。两者结合后，开发者只需专注于智能体的业务逻辑，无需关心音频编解码、WebSocket 重连等基础设施。核心工作流如下： 1. 用户语音通过 Stream Vision Agents 的客户端 SDK 捕获并实时流式传输。 2. 框架将音频流送入 Amazon Bedrock 上的 Nova 2 Sonic 模型进行语音识别与理解。 3. 模型返回文本或结构化响应，框架支持通过 **函数调用**（Function Calling）触发外部 API 或数据库查询。 4. 响应文本由 Nova 2 Sonic 的文本转语音（TTS）能力合成为语音，流式回传给用户。 5. 连接意外中断时，框架内置的 **自动重连** 机制确保会话无缝恢复。 ## 从代码到生产：关键能力一览以下是该集成方案中值得关注的几项生产级特性： - **函数调用**：智能体可以调用预定义的函数来获取实时数据（如天气、库存、订单状态），而不仅仅是静态回复。例如，用户询问“我的订单什么时候到？”，智能体自动调用订单查询 API 并返回结果。 - **多语言语音支持**：Nova 2 Sonic 原生支持多种语言，包括中文、英文、日文、西班牙语等，且切换语言无需额外配置。这对于构建跨国客服或本地化应用至关重要。 - **自动重连**：网络波动时，Stream Vision Agents 会自动检测断连并重新建立 WebSocket 连接，同时保留会话上下文，避免用户重复表述。 - **低延迟优化**：端到端延迟控制在 **300ms 以内**，达到实时对话所需的“无感知”体验标准。 ## 实战：一个简单的语音助手示例假设我们要构建一个支持中英文的“会议助手”，能够查询日程和添加提醒。以下伪代码展示核心逻辑： ```python from stream_vision_agents import Agent, BedrockNovaSonic agent = Agent( model=BedrockNovaSonic(model_id="amazon.nova-sonic-v1"), functions=[get_schedule, add_reminder], languages=["zh-CN", "en-US"] ) agent.run() # 启动实时语音交互 ``` 开发者只需定义好函数和模型参数，Stream Vision Agents 会处理音频流的输入输出、自动重连和函数调用路由。相比传统方案，代码量减少约 70%。 ## 行业意义与未来展望这一集成方案的出现，意味着 **实时语音智能体** 不再是大厂专属。中小团队甚至个人开发者，都可以基于开源框架和云上 API 快速构建生产级应用。场景覆盖客服、语音助手、在线教育、医疗问诊等。值得注意的是，Stream Vision Agents 本身是开源项目，这意味着社区可以持续贡献新的功能模块（如情感识别、说话人分离），而 Amazon Bedrock 则提供了稳定且可扩展的算力底座。这种“开源+云”的组合模式，正在成为 AI 应用开发的主流范式。未来，随着多模态模型进一步成熟，这类智能体有望融合视觉信息（如摄像头画面）与语音交互，实现更丰富的场景理解。

AWS ML17天前原文

从数据孤岛到统一洞察：Amazon QuickSight 跨账户 Athena 访问功能上线

新上线

Amazon QuickSight 宣布推出跨账户 Athena 访问功能，用户现在可以通过 AWS Identity and Access Management (IAM) 角色链，查询其他 AWS 账户中的 Athena 数据，查询费用将计入数据所在账户。 ## 背景：数据孤岛与统一分析的挑战在企业多云或大型组织中，数据往往分散在不同 AWS 账户中——例如生产环境、测试环境、分析团队各自拥有独立账户。传统上，跨账户查询 Athena 数据需要复杂的数据复制或管道集成，不仅增加延迟和成本，还容易导致数据不一致。 ## 新功能：跨账户 Athena 访问借助 **跨账户 Athena 访问**，QuickSight 用户无需移动数据即可实现跨账户分析。其核心机制是 **IAM 角色链**：用户通过 QuickSight 的 SPICE 引擎或直接查询模式，利用 IAM 角色跨账户委托权限，从而查询目标账户中的 Athena 表。查询费用直接归属于数据所在账户，简化了成本分摊。 ## 使用场景与价值 - **统一报表**：将多个业务线的数据整合到一个 QuickSight 仪表板，无需数据仓库。 - **合规与治理**：数据保留在原账户，满足数据主权和访问控制要求。 - **成本透明**：查询费用直接计入数据账户，便于按业务部门核算。 ## 技术要点 - 需要配置跨账户 IAM 信任策略，确保 QuickSight 账户可代入目标账户的角色。 - 支持 Athena 工作组的跨账户引用，需确保目标账户的 Athena 工作组已授权。 - 当前功能适用于 **Amazon Athena** 数据源，后续可能扩展至其他服务。 ## 行业意义这一更新标志着 **无服务器分析** 向更松耦合、更细粒度协作迈进。在 AI 和机器学习工作流中，数据通常分布在训练、推理、日志等多个账户，跨账户查询能力可显著加速数据准备和特征工程环节。 ## 小结跨账户 Athena 访问是 QuickSight 在“统一洞察”方向上的重要一步，尤其适合多账户架构的组织。它降低了数据移动成本，同时保留了数据治理的灵活性。对于已经在使用 Athena 和 QuickSight 的企业，这是一个值得立即评估的功能。

AWS ML17天前原文

用Chrome企业策略为AI Agent划定浏览边界：Amazon Bedrock AgentCore新功能解析

新上线

Amazon Bedrock AgentCore浏览器现已支持Chrome企业策略和自定义根CA证书，让组织能够对AI Agent的浏览器行为实施精细化管控。这项更新直击AI Agent无限制网页访问带来的安全痛点——通过配置URL白名单/黑名单、禁用密码管理器、阻止文件下载等450余项策略，企业可以确保Agent仅在授权域内活动，同时借助自定义CA证书打通与内部服务及SSL拦截代理的安全连接。本文深入解读该功能的技术原理、配置方法与行业价值。 ## 为什么需要为AI Agent施加浏览器策略？ AI Agent若拥有不受限的网页访问权限，可能带来三类核心风险： 1. **导航越界**：Agent可能自行跳转到社交网站、搜索引擎等非授权域名，偏离任务目标。 2. **功能滥用**：浏览器自带的密码管理器、自动填充、文件下载等功能，可能被Agent无意间用于存储或泄露敏感数据。 3. **证书断层**：企业内部服务常使用私有CA签发证书，Agent浏览器默认不信任此类证书，导致HTTPS连接失败。 Chrome企业策略从浏览器层面直接锁定这些风险，**独立于Agent的提示词或推理逻辑**，形成一道不可绕过的安全屏障。 ## 核心能力：450+策略 + 自定义CA Amazon Bedrock AgentCore此次更新主要带来两大能力： ### 1. Chrome企业策略集成通过标准的Chrome企业JSON配置，用户可以设定超过450项浏览器设置，包括： - **URL过滤**：通过白名单和黑名单精确控制Agent可访问的域名列表。 - **下载限制**：禁止Agent在浏览器中下载任何文件。 - **密码管理**：禁用密码管理器、自动填充等功能，防止凭据被意外存储。 - **其他控制**：如禁用开发者工具、限制插件加载等。这些策略以JSON格式统一管理，与现有Chrome企业部署流程一致，降低了学习成本。 ### 2. 自定义根CA证书支持针对内部服务场景，AgentCore允许上传组织自己的根CA证书。这样Agent浏览器就能信任由私有CA签发的HTTPS证书，顺利连接内部系统或经过SSL拦截代理的加密流量。对于金融、医疗、政务等高度依赖内部网络的企业而言，这一能力直接打通了AI Agent落地的“最后一公里”。 ## 实用示例：从限制到验证文章通过一个完整的实践案例展示了功能流程： - **配置策略**：限制Agent只能访问Amazon Bedrock AgentCore官方文档网站。 - **执行与记录**：Agent在会话中尝试导航到其他网站时，浏览器被策略拦截，行为被完整录制。 - **CA验证**：使用公共测试站点演示自定义根CA证书的信任过程。最终，Agent在浏览器策略的约束下，成功完成对AgentCore文档的研究任务，验证了策略生效与安全边界的一致性。 ## 行业视角：AI Agent安全从“劝诫”走向“强制” 此前，AI Agent的安全浏览主要依赖开发者编写提示词约束，例如“不要访问非授权网站”。但提示词可以被绕过、遗忘或误解，安全可靠性有限。Chrome企业策略的引入，将安全控制从**软性指导**升级为**硬性执行**——无论Agent如何决策，浏览器行为始终受策略框架约束。这种“策略即代码”的思路，与零信任架构（Zero Trust）高度契合。企业无需信任Agent的内部逻辑，只需信任底层浏览器的策略执行引擎，从而大幅降低攻击面。 ## 总结 Amazon Bedrock AgentCore的Chrome企业策略与自定义CA支持，为AI Agent的浏览器行为提供了企业级的安全底座。它不仅解决了导航越界、功能滥用、证书断层三个核心痛点，更将安全控制与Agent开发解耦，让安全团队可以独立定义规则。随着AI Agent在企业工作流中的渗透率提升，这种“浏览器级安全”的能力将成为标配。

AWS ML17天前原文

携手Pulse AI与Amazon Bedrock，构建金融文档智能处理方案

新上线

金融机构每天需要处理成千上万份复杂文档，从资产负债表、损益表、SEC文件到研究报告和审计材料。传统OCR工具在处理这些文档时往往力不从心——它们将文档视为图像，忽略了表格的合并单元格、多栏布局的交叉引用以及上下文依赖的语义信息。一个OCR错误在普通法律文档中可能只需快速修正，但在金融数据中却可能通过连锁计算引发系统性分析错误，带来高昂代价。本文将展示如何构建一套文档提取与模型微调流水线，通过融合**Pulse AI**的先进文档理解能力与**Amazon Bedrock**的强大AI服务，实现企业级的准确率和规模化上下文金融洞察提取。 ## 为什么传统OCR不够用？金融文档具有独特的结构复杂性： - **精细表格**：合并单元格、层级数据、跨行跨列引用 - **多栏布局**：各栏之间相互关联，需要理解阅读顺序 - **上下文依赖**：同一数字在不同场景下含义不同，需要语义理解传统OCR将文档当作图片处理，丢失了结构关系和上下文信息，导致大量人工修正、数据录入延迟和系统性分析错误。 ## Pulse AI + Amazon Bedrock 解决方案 **Amazon Bedrock** 提供完全托管的模型定制服务，零ML运维负担，按需部署无需容量规划。**Nova模型系列**具有出色的成本效益比，让团队专注于创新而非基础设施。 **Pulse AI** 则不同于传统单体OCR流水线，它将视觉语言模型与专为文档理解设计的经典ML组件相结合，创建了一个智能解决方案，能够： 1. 提取结构化数据并具备语义感知 2. 为金融领域模型生成高质量的监督微调数据集 3. 支持在特定金融数据上训练和部署自定义大语言模型（LLM） ## 实际应用与效果 Pulse已在全球多家企业部署，包括**三星、Cloudera、Howard Hughes**以及**财富500强金融机构**和领先的私募股权公司。这些组织通过该方案处理大量复杂金融文档，显著降低了OCR错误率，加速了数据提取流程，并提升了下游分析的准确性。 ## 构建自己的流水线开发者可以基于Amazon Bedrock上的Nova模型，结合Pulse AI的文档理解API，快速搭建端到端的金融文档处理流水线。关键步骤包括： - 文档解析与结构识别 - 语义级字段提取 - 数据清洗与验证 - 微调数据集生成 - 自定义LLM训练与部署这种方案不仅提高了处理效率，更让金融分析人员能够从繁琐的数据整理中解放出来，专注于更高价值的洞察工作。 ## 小结金融文档处理的难点在于结构复杂性和语义依赖性。通过Pulse AI与Amazon Bedrock的组合，企业能够获得一个既理解文档结构又把握金融语义的智能系统，从而在规模化处理中实现高准确率，降低风险，加速决策。

AWS ML18天前原文

用 Amazon Nova Sonic 和 WebRTC 构建实时语音流应用

新上线

实时语音交互的端到端直播应用开发面临诸多挑战：网络带宽限制导致高延迟与质量下降，语言障碍影响人机交互的自然度，可扩展性与韧性难以平衡性能与成本，跨浏览器和移动端兼容性需要大量开发投入。本文介绍一种基于 **Amazon Nova 2 Sonic（Nova Sonic）** 和 **Amazon Kinesis Video Streams WebRTC（WebRTC）** 的解决方案，旨在攻克这些难题。 ## 核心挑战与应对传统语音代理管线通常将语音识别、语言处理和语音合成拆分为独立模块，导致延迟叠加。Nova Sonic 采用 **统一的语音到语音架构**，实现用户与 AI 代理间的低延迟实时对话。它通过统一的语音理解与生成，提供自然、类人的对话体验，并支持多种说话风格和外部代理工具接口，可构建更具上下文感知能力的响应式语音界面。 WebRTC 则负责在不稳定的网络中动态调整比特率，维持音频质量的同时减少连接中断。两者均由 AWS 全托管，自动弹性伸缩且具备高韧性。AWS 还提供了开源示例，帮助开发者快速启动项目。 ## 架构与实现模式典型的实时流处理管道包含媒体源、媒体服务器和媒体消费者三大组件。传统协议如 RTMP、RTSP、HLS、MPEG-DASH 各有局限。WebRTC 作为一种公开协议，通过 **实时点对点直连** 革新了直播流传输，无需额外插件或软件安装，省去中间服务器，显著降低延迟。文章详细阐述了结合 Nova Sonic 与 WebRTC 的解决方案架构，并给出了两个实际场景示例（原文未展开具体场景，但可推断涉及多语言客服、实时语音助手等）。开发者可利用 AWS 提供的开源示例作为起点，快速搭建应用。 ## 行业意义这一组合方案特别适合对实时性要求高的场景，如在线教育、远程医疗、语音客服、游戏语音交互等。Nova Sonic 的语言能力打破了多语言交互的壁垒，而 WebRTC 的弹性网络适配确保了全球用户的一致体验。对于初创公司而言，使用全托管服务可以大幅降低基础设施运维负担，将精力集中在业务逻辑上。

AWS ML18天前原文

AWS与Cisco联手：AI Agent安全规模化部署指南

新上线

随着AI Agent在企业中的快速普及，安全挑战日益凸显。本文深入分析AWS与Cisco AI Defense的联合解决方案，如何通过自动扫描与统一治理，应对可见性不足、安全瓶颈和合规风险三大难题，助力企业安全扩展MCP与A2A部署。 ## AI Agent规模化带来的安全新挑战自2024年11月**Model Context Protocol (MCP)** 推出以来，企业部署的MCP服务器数量从个位数激增至数十乃至上百个。这些服务器充当AI Agent与外部数据源、API之间的桥梁，极大扩展了Agent的能力。2025年4月，**Agent-to-Agent (A2A) Protocol** 的发布进一步推动了自主Agent间的直接通信，无需人工介入。随后，**Agent Skills** 在企业基础设施中遍地开花。这种快速增长暴露了三大安全缺口： - **可见性缺失**：团队无法全面掌握哪些工具和Agent正在运行，安全团队难以维持监督。 - **安全审查瓶颈**：手动审查流程无法匹配部署速度，每个AI应用部署可能延迟数周，形成积压。 - **合规风险**：SOX、GDPR等框架要求审计追踪，但自主AI Agent的运作往往缺乏记录，审计失败导致监管处罚风险。 ## 联合方案：自动扫描与统一治理 AWS与Cisco AI Defense的合作直击上述痛点。通过**AI Registry**（AWS支持的开源项目）与Cisco AI Defense的集成，企业能够获得： ### 1. 全面可见性 AI Registry提供中央注册表，自动发现并记录所有MCP服务器、AI Agent和Agent Skills。无论部署在云端还是本地，安全团队都能通过统一仪表盘查看工具清单、Agent间的通信关系以及使用情况。 ### 2. 自动化安全扫描 Cisco AI Defense对每个注册的MCP服务器和Agent进行**自动安全扫描**，识别已知漏洞、恶意代码或不当权限配置。扫描结果与风险评分关联，帮助团队优先处理高危项。 ### 3. 合规审计就绪系统自动生成审计日志，记录Agent的每一次工具调用和数据访问。这些日志符合SOX和GDPR要求，审计人员可随时回溯，大幅降低合规风险。 ## 实际价值：从数周延误到即时部署过去，安全团队手动审查一个MCP服务器可能耗时数周，导致AI应用上线严重滞后。现在，自动扫描将审查时间压缩至分钟级，且不牺牲安全性。对于已部署的Agent，持续监控能及时发现异常行为，避免运营中断。 ## 结语 AI Agent的规模化部署不可逆转，但安全不能成为绊脚石。AWS与Cisco AI Defense的联合方案，通过自动化、集中化的安全治理，为企业提供了“加速而不牺牲安全”的可行路径。对于正在扩展AI Agent的企业而言，这不仅是技术升级，更是合规与信任的基石。

AWS ML18天前原文

使用 Databricks Unity Catalog 和 Amazon SageMaker AI 微调大语言模型

新上线

在微调大语言模型（LLM）时，如何平衡数据治理与机器学习服务的高效性是一大挑战。本文介绍了一种将 **Databricks Unity Catalog** 与 **Amazon SageMaker AI** 集成的安全、完整的 LLM 微调工作流，并利用 **Amazon EMR Serverless** 进行数据预处理。该方案可在保持统一治理、追踪数据血缘的同时，使用现有服务进行模型训练，不牺牲安全与合规要求。 ## 核心挑战当使用 SageMaker AI 微调 LLM 时，若底层数据存储在 Amazon S3 并由 Unity Catalog 管理元数据和权限，训练任务直接读取 S3 对象会绕过 Unity Catalog 的细粒度授权模型，导致策略执行不一致、审计漏洞和合规风险。例如，无法追踪哪些数据训练了哪些模型，这在受监管行业和生产环境中尤为关键。 ## 解决方案架构该工作流包含以下步骤： 1. **数据读取**：从 Unity Catalog 管理的表中读取训练数据，确保经过治理控制。 2. **数据预处理**：使用 **EMR Serverless** 运行 Apache Spark 进行数据清洗和转换，无需管理集群。 3. **模型微调**：利用 **SageMaker AI Training** 作业对 **Ministral-3-3B-Instruct** 模型进行微调。 4. **血缘追踪**：将训练后的模型注册回 Unity Catalog，并在其中追踪从源数据到模型的完整数据血缘。 ### 架构组件 | 组件 | 用途 | |------|------| | Amazon SageMaker AI Studio (JupyterLab Space) | 工作流编排与模型训练 | | Amazon EMR Serverless | 基于 Spark 的数据预处理，无需集群管理 | | Databricks Unity Catalog | 元数据目录、治理与血缘追踪 | | Hugging Face | 获取预训练模型 | | Amazon S3 | 数据存储 | ## 实施要点 - **安全访问**：通过 IAM 角色和 Unity Catalog 的授权机制，确保 SageMaker AI 训练作业只能访问已授权数据。 - **血缘维护**：在 Unity Catalog 中记录数据来源、转换步骤和模型输出，满足审计要求。 - **无服务器处理**：EMR Serverless 自动扩缩容，简化基础设施管理。该集成模式适用于受监管行业的 AI 工作负载，帮助企业在不放弃现有工具的前提下实现集中治理与可追溯性。

AWS ML18天前原文

亚马逊金融部门如何利用AWS上的生成式AI简化监管问询

新上线

在金融监管日益严格的背景下，亚马逊金融科技团队正借助AWS的生成式AI服务，打造一套可扩展的智能应用，彻底改变监管问询的处理方式。该方案以 **Amazon Bedrock** 为核心，结合知识库、检索增强生成（RAG）等技术，让各团队能够自主构建并维护专属的监管知识体系。 ## 挑战与方案传统监管问询依赖人工查阅大量文档，耗时且易出错。Amazon Finance的解决方案允许每个团队创建独立的 **知识库**，上传内部政策、合规手册、历史问询记录等专属资料。当收到监管问询时，系统自动检索相关文档，并利用大语言模型生成准确、合规的回复草稿，大幅缩短响应时间。 ## 技术架构亮点 - **Amazon Bedrock**：作为生成式AI的基础平台，提供对基础模型的访问，并支持私有化部署，确保数据安全。 - **知识库与RAG**：通过Amazon Bedrock的知识库功能，团队可轻松上传文档，系统自动进行向量化处理。RAG技术确保模型生成的回答严格基于团队自有数据，减少幻觉风险。 - **可扩展性与治理**：每个团队独立管理知识库，既保证了灵活性，又通过统一的权限控制满足审计与合规要求。 ## 落地价值该应用已在Amazon内部多个金融团队试点，显著提升了监管问询的处理效率。据内部数据显示，**问询响应时间缩短了60%以上**，同时回复一致性和准确性得到提升。更重要的是，方案降低了合规门槛——非技术团队也能通过简单的文档上传，快速构建AI驱动的问答能力。 ## 行业启示这一实践展示了生成式AI在高度监管行业的落地路径：**不是替代人工，而是增强专业能力**。通过将领域知识注入AI系统，企业既能享受自动化带来的效率红利，又能牢牢把控合规风险。对于金融、医疗等强监管行业，这种“可控的AI”模式或将成为主流。

AWS ML19天前原文

智能文档处理中自动化模式生成的突破：多文档发现功能详解

新上线

在智能文档处理（IDP）领域，一个长期存在的痛点是如何为未知文档集合快速创建提取模式（Schema）。传统方法需要大量人工标注和分类，成本高昂且难以规模化。AWS 最新推出的 **多文档发现（Multi-Document Discovery）** 功能，为这一问题提供了自动化解决方案。该功能作为 IDP Accelerator 的预处理步骤，能够自动分析未知文档，通过视觉嵌入（Visual Embeddings）进行聚类，并利用 AI 代理（Agents）生成对应的模式，从而大幅降低从原始文档到可执行提取流程的门槛。 ## 核心机制：从混乱到有序多文档发现功能的核心流程分为三步： 1. **文档聚类**：基于文档的视觉特征（如布局、字体、表格结构等）生成嵌入向量，自动将相似文档归为一类。无需预先定义类别，系统自主发现文档类型。 2. **模式生成**：对每个聚类中的代表性文档，利用 **Amazon Bedrock** 提供的大模型能力，自动分析并生成提取模式（包括字段名、数据类型、位置等）。 3. **配置输出**：生成符合 IDP Accelerator 要求的配置文件，可直接用于后续的文档提取任务。这一过程完全自动化，用户只需上传文档集合（通过 S3 存储桶或 ZIP 文件），即可获得结构化的模式配置。 ## 技术亮点：视觉嵌入与代理协作该功能的两个关键技术组件值得关注： - **视觉嵌入（Visual Embeddings）**：不同于传统的 OCR 或文本分析，视觉嵌入直接捕捉文档的版面布局和视觉特征，使得即使文档内容差异较大（如发票与合同），只要视觉结构相似就能被正确聚类。这对于处理混合文档集合尤其有效。 - **AI 代理（Agents）**：在模式生成阶段，系统使用基于大模型的代理来模拟人类专家的分析过程，能够理解文档中的字段含义、层级关系，并生成准确的提取规则。 ## 实际应用与价值多文档发现功能特别适合以下场景： - **海量文档归档**：企业拥有大量未分类的历史文档（如扫描件、PDF），需要快速建立索引和提取关键信息。 - **动态文档类型**：不断接收新格式文档的业务流程（如供应商发票），无需每次手动配置。 - **IDP 项目启动**：在正式部署 IDP 前，快速了解文档集合的组成和复杂度，降低项目风险。该功能已集成到 **IDP Accelerator**（一个开源的、无服务器文档处理解决方案）的 Discovery Module 中。用户可以通过 IDP Accelerator 控制台直接使用，或通过 API 集成到现有工作流。 ## 行业影响与展望多文档发现功能的推出，标志着文档处理自动化从“半自动”迈向“全自动”的重要一步。过去，企业需要投入大量人力进行文档分类和模式定义，现在这一过程可以完全由 AI 驱动。结合 Amazon Bedrock 的多模型支持，该功能具备良好的扩展性，未来有望支持更复杂的文档类型和提取需求。对于正在构建智能文档处理管线的团队来说，这一功能显著降低了初始配置的复杂度，使得 IDP 项目能够更快地从试点走向生产。

AWS ML19天前原文

如何在 Amazon SageMaker AI 上满足欧盟 AI 法案对 LLM 微调的 FLOPs 追踪要求

新上线

2025 年 8 月 2 日生效的 **欧盟 AI 法案** 对微调大型语言模型（LLM）的组织提出了新的合规要求：必须追踪微调过程中消耗的计算资源（以浮点运算次数 FLOPs 计量），以确定是否触发新的监管义务。本文介绍如何利用开源工具 **Fine-Tuning FLOPs Meter** 在 **Amazon SageMaker AI** 上实现 FLOPs 追踪，通过一个配置标志即可判断合规状态，并生成审计就绪文档。 ## 欧盟 AI 法案与 FLOPs 追踪要求法案将 AI 模型的使用者分为两类： - **下游用户**：使用现有模型且未进行实质性修改的组织，义务较轻。 - **GPAI 模型提供者**：对模型合规性负全责的组织，需承担更严格的义务。微调 LLM 时，分类取决于微调消耗的计算量是否超过原始训练计算量的 **三分之一（30%）**。若超过，则视为进行了“实质性重新训练”，使用者将被重新分类为提供者。 ## 为什么是 30% 阈值？监管分析认为，使用超过原始训练计算量 30% 的算力进行微调，通常会导致模型行为发生显著变化，相当于创建了一个具有不同风险的新模型，因此应承担完整的提供者义务。 ## 大多数组织面临的情景由于模型提供者很少公布精确的预训练 FLOPs，多数组织只能估算。下表列出了三种常见情景： | 情景 | 描述 | 合规状态 | |------|------|----------| | 1 | 已知原始训练 FLOPs，微调消耗低于 30% | 下游用户 | | 2 | 未知原始训练 FLOPs，需估算 | 需估算后判断 | | 3 | 微调消耗超过 30% | GPAI 提供者 | ## 使用 Fine-Tuning FLOPs Meter 实现追踪 **Fine-Tuning FLOPs Meter** 是一个开源工具，可集成到 Amazon SageMaker AI 的微调流水线中。它通过在训练脚本中添加一个配置标志（`--track-flops`），自动记录每次训练作业的 FLOPs 消耗，并与预设阈值比较，输出合规状态。 ### 核心能力 - **自动计算 FLOPs**：基于模型架构、参数量、训练数据量、批次大小、训练步数等参数，精确估算微调消耗的 FLOPs。 - **合规判断**：用户可设置原始训练 FLOPs（如已知），工具自动计算微调比例并给出“下游用户”或“GPAI 提供者”的结论。 - **审计就绪文档**：生成包含计算过程、参数细节和最终结论的报告，可直接用于审计。 ### 集成步骤 1. **准备 SageMaker 训练环境**：创建 Notebook 或使用 SageMaker Studio，配置 IAM 角色和网络。 2. **安装 Fine-Tuning FLOPs Meter**：通过 pip 安装 `fine-tuning-flops-meter` 包。 3. **修改训练脚本**：在 PyTorch 或 TensorFlow 训练脚本中导入工具，添加 `--track-flops` 参数。 4. **启动训练作业**：使用 SageMaker SDK 或控制台启动训练，工具自动记录 FLOPs。 5. **查看报告**：训练完成后，在 CloudWatch 日志或输出目录中获取合规报告。 ## 实际案例假设某组织使用 Llama 2 7B 模型进行领域微调，原始训练 FLOPs 约为 1.7×10²²（来自公开论文）。微调使用了 1000 条数据，训练 3 个 epoch，批次大小为 8。Fine-Tuning FLOPs Meter 估算微调消耗为 5.1×10¹⁸，远低于 30% 阈值（5.1×10²¹），因此合规状态为“下游用户”。 ## 总结欧盟 AI 法案的 FLOPs 追踪要求看似复杂，但借助 Amazon SageMaker AI 和 Fine-Tuning FLOPs Meter，组织可以轻松实现自动化合规判断。这一方案不仅降低了手动计算错误的风险，还为审计提供了可靠证据。对于正在微调 LLM 的企业，建议尽早集成此类工具，以应对不断演变的监管环境。

AWS ML19天前原文

使用 Strands 与 Exa 构建支持网络搜索的 AI Agent

新上线

## 快速上手：让 AI Agent 具备实时网络搜索能力在 AI Agent 的实际应用中，**实时获取外部信息** 是突破模型知识边界的关键。近期发布的 Strands Agents 框架与 Exa 搜索引擎的集成，为开发者提供了一套轻量级方案：让 Agent 能够自主执行网络搜索，并将结果纳入推理链条。 ### 集成架构：两个核心工具 Exa 集成在 Strands 中暴露了两个核心工具： - **`web_search`**：执行关键词或自然语言查询，返回结构化结果列表（标题、摘要、URL）。 - **`web_contents`**：根据 URL 抓取指定页面内容，用于深度分析。开发者只需在 Agent 配置中声明 Exa 工具的 API 密钥，即可启用。无需额外编排，Agent 会在需要时自动调用这些工具，就像调用计算器或数据库一样自然。 ### 实际用例：多步骤任务中的搜索链以一个典型的“竞品调研”场景为例： 1. Agent 先使用 `web_search` 查询“2024 年最佳 AI 写作工具”，获取前 10 条结果。 2. 接着，它调用 `web_contents` 逐一打开排名靠前的产品页面，提取定价、功能列表、用户评价等关键信息。 3. 最后，Agent 将结果汇总成对比表格，并给出推荐理由。整个过程无需人工干预，Agent 自动判断何时需要搜索、搜索什么、以及如何使用结果。 ### 对 AI 行业的启示 Strands + Exa 的组合，本质上是在解决 **大语言模型的知识截止问题**。传统上，开发者需要通过 RAG（检索增强生成）或微调来注入外部知识，但这两者都有维护成本高、更新不及时的痛点。而搜索集成模式让 Agent 直接对接实时网络，信息新鲜度与广度都大幅提升。不过，这种模式也带来新挑战：**搜索结果的可靠性** 与 **API 调用成本**。Exa 虽然提供高质量索引，但面对恶意网站或虚假信息时，Agent 仍需具备一定的批判性筛选能力——这往往需要额外的提示工程或后处理逻辑。 ### 小结对于希望快速为 Agent 注入实时搜索能力的团队，Strands 与 Exa 的集成是一个**开箱即用**的选择。它降低了构建“搜索增强型 Agent”的门槛，尤其适合情报收集、市场调研、竞争分析等需要频繁访问外部信息的场景。未来，随着更多搜索引擎（如 Bing、Google Custom Search）的接入，这类 Agent 的适用面将进一步扩大。

AWS ML20天前原文

AWS 上线 Claude Platform：Anthropic 原生平台正式登陆 AWS 账户

新上线

## 一句话速览 **Anthropic** 今日宣布，其原生 AI 平台 **Claude Platform** 已通过 **AWS** 正式上线，成为首个在 AWS 中提供原生 Claude 体验的云服务。用户无需额外注册、签署独立合同或管理独立账单，即可通过 AWS 账户直接调用 Claude 的全部 API、功能与控制台体验。 ## 核心看点：原生体验，零摩擦集成 Claude Platform on AWS 并非简单的模型托管服务，而是将 Anthropic 原生平台的完整能力搬到了 AWS 生态内。用户可以使用与 Anthropic 直连完全一致的 **Messages API**、**Claude Managed Agents（测试版）**、**顾问工具（测试版）**、**网页搜索与抓取**、**MCP 连接器（测试版）**、**Agent Skills（测试版）**、**代码执行**以及 **Files API（测试版）** 等全栈能力。从接入方式看，AWS 的三项基础设施优势被无缝复用： - **身份认证**：直接使用 AWS IAM 凭证，无需管理独立 API 密钥。 - **计费**：通过 AWS Marketplace 按用量计费，AI 支出可与其他 AWS 服务统一追踪管理。 - **审计**：所有活动记录在 AWS CloudTrail 中，方便企业以一致的安全策略监控 AI 使用。 ## 与 Amazon Bedrock 互补，而非替代需要特别注意的是，Claude Platform on AWS 的底层请求与数据处理仍在 Anthropic 侧完成，**不**像 Amazon Bedrock 那样在 AWS 安全边界内执行。因此，它更适合**没有特定区域数据驻留要求**的团队。Anthropic 明确表示，该服务与 Amazon Bedrock 上的 Claude 模型形成互补关系——用户可以根据自身合规需求选择最合适的接入方式。 ## 三步上手，极简激活想要尝鲜的用户可通过 **AWS Marketplace** 激活服务，之后仅需三个步骤即可完成首次 API 调用： 1. **创建工作区（Workspace）**：按项目、环境或团队隔离资源，同时保持统一管理与计费。工作区也是 Claude Platform 在 IAM 中的主要资源实体。 2. **身份认证**：使用已有 AWS IAM 凭证完成鉴权。 3. **调用 API**：直接通过 Messages API 等接口发送请求。 ## 行业视角：云厂商与 AI 平台的深度绑定此次合作标志着 AWS 在 AI 平台竞争中的一次重要卡位。此前，Anthropic 的 Claude 模型主要通过 Amazon Bedrock 对外提供，但原生平台与托管模型在功能迭代速度、工具链深度上存在差异。Claude Platform on AWS 的推出，意味着 AWS 用户现在可以**在统一账单和安全审计下**，享受与 Anthropic 直连同等的“第一方”体验。对于企业而言，这降低了采用前沿 AI 工具的摩擦——无需跨平台管理凭证、无需单独谈判合同、无需切换控制台。但数据处理的边界问题仍是需要仔细评估的变量，尤其对于金融、医疗等强监管行业。 ## 小结 Claude Platform on AWS 是 Anthropic 与 AWS 合作深化的产物，它模糊了“云市场托管”与“原生平台”的界限。在 AI 基础设施日趋复杂、企业合规要求日益严格的当下，这种“原生体验+云生态集成”的模式可能成为未来 AI 服务交付的新范式。

AWS ML20天前原文

利用 Amazon Nova 多模态嵌入推动制造业智能化

新上线

在航空航天、汽车和重工业制造领域，企业通常维护着大量技术文档。这些文档不仅包含文字规范，还融合了工程图纸、CAD 图、检测照片、热分析图和疲劳曲线等视觉内容。例如，关于“喷嘴喉部最高壁温”的查询，答案可能隐藏在一张热轮廓图中，而非文字描述里。传统的纯文本检索系统无法提取这类信息，因为它们无法“看”懂图像内容。 **Amazon Nova Multimodal Embeddings** 填补了这一空白。它能够将文本、图像和文档页面映射到同一个向量空间，使得文本查询可以检索到工程图，图像查询也能找到对应的文字规范。本文基于 **Amazon Bedrock** 和 **Amazon S3 Vectors**，构建了一个面向航空航天制造文档的多模态检索系统，并在 26 个制造场景查询上评估了系统性能，对比了纯文本方案与多模态方案的生成质量。 ## 为什么多模态检索对制造业至关重要制造文档往往混合了多种信息形式。一份工单可能既有文字装配步骤，也有标注完成的照片；检测报告包含合格/不合格测量值和焊缝射线图像；材料认证文件则列出表格化机械性能以及工程师在设计评审时必须参考的 S-N 疲劳曲线。具体来看，本数据集中的一些典型视觉信息示例： - 工程图纸中嵌入的扭矩规范表，而非独立文字。 - 用颜色编码的热轮廓图展示火箭发动机喷嘴的峰值温度。 - 制造工艺流程图用决策菱形和颜色编码门控标识质量管控点，相关周期时间直接标注在图上。纯文本检索系统通常通过 OCR 提取文字，再对提取的字符串进行嵌入和索引。当答案出现在文档的文字部分时，这种方式有效；但面对图中的空间关系、检测图像中的视觉模式，纯文本系统就无能为力了。 ## 系统构建与评估本方案利用 **Amazon Nova Multimodal Embeddings** 将文档页面（包括文字和图像）统一编码为向量，存储在 **Amazon S3 Vectors** 中，并通过 **Amazon Bedrock** 进行检索。在 26 个制造场景查询上的测试表明，多模态检索能够准确返回包含关键视觉信息的文档片段，而纯文本检索则因无法解析图像而遗漏重要内容。最终生成质量对比显示，多模态方案在涉及图表、照片和工程图的查询上显著优于纯文本方案。这一能力为制造业智能化打开了新的大门：工程师可以直接用自然语言描述一个视觉特征，系统就能从海量文档中找到对应的图纸或照片，大幅提升信息获取效率和设计、维修、质检等环节的决策质量。

AWS ML20天前原文

Miro 借助 Amazon Bedrock 将软件缺陷路由准确率提升六倍，解决时间从数天缩短至数小时

新上线

在 Miro，每年因缺陷误路由和重复分配导致的累计生产力损失高达 42 年。通过与 AWS PACE 团队合作，Miro 开发了基于 Amazon Bedrock 的 BugManager 解决方案，将团队重新分配次数减少六倍，缺陷解决时间从数天缩短至数小时。 ## 挑战：从近 100 个团队中准确路由缺陷 Miro 作为拥有超过 9500 万用户的 AI 创新工作空间，其工程组织包含近 100 个团队，每个团队负责特定产品领域。缺陷报告往往杂乱无章，包含文本、堆栈跟踪、截图甚至视频，且缺乏上下文。此外，团队结构动态变化——合并、新设、产品演进——使得传统基于规则或简单机器学习的方法难以维持高准确率。 ## 解决方案：基于 Amazon Bedrock 的 BugManager Miro 与 AWS PACE 团队合作，利用 **Amazon Bedrock** 构建了 BugManager。该方案通过以下关键步骤实现高精度路由： 1. **增强上下文**：自动从 GitHub PR、Confluence 文档、README 文件和历史工单中提取相关信息，丰富缺陷报告。 2. **多模态理解**：利用 Bedrock 基础模型的能力处理文本、堆栈跟踪、截图等异构数据。 3. **动态适应**：模型能够适应团队重组和职责变化，无需频繁重新训练。 ## 成果：六倍更少的重新分配，五倍更快的解决时间 BugManager 上线后，Miro 团队观察到显著改进： - **团队重新分配次数减少 6 倍**：缺陷首次分配即命中正确团队的比例大幅提升。 - **解决时间缩短 5 倍**：从数天降至数小时，减少了不必要的上下文切换。 - **累计生产力损失**：原本每年 42 年的浪费被大幅削减。 ## 技术架构亮点 BugManager 的架构充分利用了 Amazon Bedrock 的托管基础模型服务，无需管理底层基础设施。核心流程包括： - 缺陷报告进入后，通过 Bedrock API 调用预训练模型进行语义分析。 - 模型输出候选团队及置信度分数，并结合实时组织数据（如团队职责映射）进行最终决策。 - 系统持续从人工纠正中学习，通过反馈循环提升准确率。 Miro 的案例表明，生成式 AI 在 DevOps 领域的应用正从“辅助”走向“核心”。通过将 AI 嵌入缺陷路由这一关键环节，不仅提升了开发效率，更直接改善了产品交付质量和客户满意度。

AWS ML20天前原文

Amazon Quick 新功能加速企业数据到AI决策的路径

新上线

Amazon Quick 推出五项新能力，帮助数据专业人士大规模交付可信、可复现的AI驱动洞察。其中，**数据集问答（Dataset Q&A）** 允许用户通过自然语言直接查询数百万行数据，系统自动生成SQL并执行，同时遵循行级和列级安全策略，确保结果既快速又合规。这填补了从提问到获得可信答案之间的时间鸿沟，让企业数据真正服务于决策。

AWS ML20天前原文

哈里伯顿借助 Amazon Bedrock 和生成式 AI 大幅加速地震工作流创建

新上线

哈里伯顿（Halliburton）与 AWS 生成式 AI 创新中心合作，基于 Amazon Bedrock 构建了一款 AI 助手，可将自然语言查询直接转换为可执行的地震数据处理工作流。传统上，配置 Seismic Engine 中的约 100 种专业工具需要深厚的地球物理专业知识，且耗时耗力。新方案通过对话式交互，让地质学家和数据科学家用自然语言描述需求即可生成工作流，同时提供工具文档问答能力。评估显示，工作流创建速度最高可提升 95%。 ## 技术方案与架构该方案以 **Amazon Bedrock** 为核心，结合 **Bedrock Knowledge Bases**、**Amazon Nova** 模型和 **Amazon DynamoDB** 实现端到端流程： 1. **自然语言理解**：用户输入如“对地震数据进行噪声衰减”后，Amazon Nova 模型解析意图并映射到 Seismic Engine 的 API 参数。 2. **知识库检索**：通过 Bedrock Knowledge Bases 检索内部文档，获取工具配置细节和最佳实践。 3. **工作流生成**：系统自动编排工具链，生成可执行的 JSON 工作流脚本。 4. **问答能力**：用户可就特定工具或参数提问，AI 从文档库中提取答案并解释。 ## 关键成果与行业影响测试结果显示，该 AI 助手将工作流创建时间从数小时缩短至几分钟，**加速比高达 95%**。哈里伯顿 Landmark 部门地下技术经理 Phillip Norlund 表示：“这次合作将传统耗时的流程构建任务减少了一个数量级，不仅提升了效率和准确性，还让高级地球物理工具对更广泛的用户群体变得触手可及。” ## 可复用的经验对于希望将生成式 AI 应用于复杂技术工作流的组织，该项目提供了几点启示： - **知识库是基础**：将专业文档和工具 API 结构化为可检索的知识，是 AI 准确理解上下文的关键。 - **模型选择需平衡**：Amazon Nova 在推理速度和专业准确性之间取得了良好平衡，适合实时交互场景。 - **渐进式落地**：从高频、低风险的流程切入，逐步扩展到更复杂的多步骤工作流。 ## 未来展望随着能源行业对数据处理效率的要求不断提高，AI 辅助工作流将成为标配。哈里伯顿计划将这一能力集成到更多云原生应用中，并探索利用多模态模型直接分析地震图像，进一步缩短勘探周期。

AWS ML23天前原文

用 EC2 Capacity Blocks for ML 和 SageMaker 训练计划锁定短期 GPU 容量

新上线

随着 GPU 需求激增，短期 GPU 容量获取成为 ML 工作负载的一大挑战。AWS 推出了 **EC2 Capacity Blocks for ML** 和 **SageMaker 训练计划**，为短期、时间敏感的 ML 任务提供预留 GPU 容量，解决了按需实例和 Spot 实例在可用性上的不确定性。 ## 为什么需要短期 GPU 容量方案？ GPU 供不应求已是行业常态。对于负载测试、模型验证、限时工作坊或发布前准备推理容量等短期任务，传统方案各有短板： - **按需实例**：启动灵活，但容量随区域供需波动，一旦释放实例可能无法立即重新获取，导致用户被迫保持实例运行，增加成本。 - **Spot 实例**：成本可降低 90%，但可用性不确定，不适合不能中断的关键任务。 - **按需容量预留（ODCR）**：适用于长期稳态工作负载，但短期可用性有限，且按需计费无成本优势。 ## 两大新方案：EC2 Capacity Blocks for ML 与 SageMaker 训练计划 ### EC2 Capacity Blocks for ML 该服务允许用户**提前预留 GPU 容量**，以小时为单位购买，最长可预留 14 天。它专为短期、确定性的工作负载设计，例如： - 模型训练和调优 - 推理测试 - 模型评估和验证 - 限时活动或工作坊用户只需指定所需实例类型、数量、区域和时长，即可锁定容量，避免按需实例的可用性风险。计费按预留时段收取，无需长期承诺。 ### SageMaker 训练计划对于使用 Amazon SageMaker 进行模型训练的用户，**SageMaker 训练计划**提供了类似的预留能力。用户可创建训练计划，指定训练作业的 GPU 需求和时间窗口，AWS 会确保在指定时段内提供所需容量。这特别适合需要定期或定时执行的训练任务，如夜间训练或批量模型更新。 ## 如何选择？ | 场景 | 推荐方案 | |------|----------| | 短期、不可中断的训练/推理任务 | EC2 Capacity Blocks for ML | | 定期或计划性 SageMaker 训练作业 | SageMaker 训练计划 | | 可容忍延迟的探索性实验 | 按需实例 | | 成本优先、可中断的任务 | Spot 实例 | ## 实际应用案例一家 AI 初创公司需要在产品发布前对推荐模型进行 48 小时的负载测试。通过 EC2 Capacity Blocks for ML，他们提前一周预留了所需的 p4d.24xlarge 实例，确保测试期间 GPU 容量可用，测试完成后立即释放，避免了按需实例可能遇到的容量不足或额外空闲成本。另一家金融科技公司使用 SageMaker 训练计划，将每日模型重训练安排在凌晨 2-4 点，利用低峰时段预留 GPU 容量，既保证了训练按时完成，又优化了成本。 ## 总结短期 GPU 容量管理不再需要“碰运气”。EC2 Capacity Blocks for ML 和 SageMaker 训练计划为时间敏感的工作负载提供了**确定性**和**灵活性**的平衡，帮助企业在 GPU 稀缺的环境下高效运行 ML 工作流。

AWS ML24天前原文

攻克奖励信号挑战：在 SageMaker AI 上使用 GRPO 实现基于可验证奖励的强化学习

新上线

强化学习（RL）在训练大语言模型时面临一个关键挑战：奖励信号的质量直接影响模型学习效果。传统方法中，不精确或不完整的奖励函数容易导致“奖励黑客”现象——模型找到取巧方式最大化分数，却未真正习得期望行为。为解决这一问题，AWS 在 **SageMaker AI** 上推出了基于可验证奖励的强化学习（RLVR），通过规则化、可客观验证的奖励信号提升训练透明度和效果。 RLVR 的核心在于将奖励建立在可验证的事实基础上，尤其适用于数学推理、代码生成、符号操作等任务。例如，在数学问题中，模型输出的答案可直接与标准答案比对；在代码生成中，可通过运行测试用例验证正确性。这种机制有效避免了传统 RL 中因奖励设计缺陷导致的偏差。技术层面，RLVR 通常与 **Group Relative Policy Optimization（GRPO）** 结合使用。GRPO 是一种策略优化算法，通过比较同一问题下多个生成样本的相对表现来更新模型，无需依赖独立的奖励模型，从而降低训练复杂性并提高稳定性。此外，**少样本示例** 的引入能进一步引导模型理解任务格式和期望输出，加速收敛。 AWS 官方博客以 **GSM8K** 数据集（小学数学习题集）为例，演示了完整实现流程。读者可以学习如何配置 SageMaker AI 训练环境、定义可验证奖励函数、集成 GRPO 算法，并最终提升模型的数学解题准确率。该方法具备高度可迁移性，同样适用于代码生成、逻辑推理、符号计算等场景。对于 AI 从业者而言，RLVR+GRPO 的组合提供了一条兼顾效率与可靠性的路径。它不仅减少了人工设计复杂奖励函数的工作量，还通过客观验证机制增强了模型行为的可解释性。随着大模型在专业领域的落地需求增长，这种基于规则验证的强化学习范式有望成为模型对齐与能力提升的重要工具。

AWS ML24天前原文

让AI代理学会“买单”：亚马逊Bedrock AgentCore支付功能预览，携手Coinbase与Stripe打造

新上线

亚马逊云科技（AWS）今天宣布推出 **Amazon Bedrock AgentCore Payments** 的预览版，这是一套内置于 AgentCore 中的全新功能，旨在让 AI 代理能够即时访问并支付其所使用的资源。该功能由 AWS 与 **Coinbase** 和 **Stripe** 合作开发，前者提供钱包基础设施，后者提供支付通道。 ### 为什么需要“会花钱”的代理？我们正经历软件构建和使用方式的根本性转变。AI 代理已从被动等待指令的助手，进化为能主动调用 API、访问 MCP 服务器、与其他代理协作，并代表用户完成复杂多步骤任务的智能体。随着代理承担的任务日益多样化，其生态圈也在快速扩张。未来，服务、工具和内容必须同时为人类和代理设计。代理将在单一执行循环中，自主发现、评估并按需支付资源。这就要求支持它们的服务以“每次调用几分之一美分”的方式定价，并实现实时计费。像 x402、ACP、MPP 和 AP2 等早期协议已在探索这一模式，团队也在试验支持支付的代理。然而，支撑这一“代理经济”规模化运转的基础设施尚不存在。 ### 开发者曾经的痛点对于想要抢占先机的开发者而言，过去的路异常艰难：需要与每个服务提供商建立定制化的计费关系、安全地管理凭证、执行支出治理、应对合规要求，并在碎片化的环境中编写编排逻辑。这往往需要数月的工程投入，且风险极高——一个配置错误的支付流程，不仅会给出错误答案，更可能造成真实的资金损失。 ### AgentCore Payments 如何解决？ AgentCore Payments 并非一个外挂模块，而是原生内置于 AgentCore 中的能力。AgentCore 本身是用于大规模构建、连接和优化代理的平台，其安全机制在基础设施层实施，代理无法绕过。开发者在 AgentCore 中构建代理时，可以利用相同的身份系统、代理网关和可观测性工具，直接为代理赋予支付能力。这意味着代理可以： - 访问付费的 Web 内容、API 或 MCP 服务器 - 按需购买计算资源或第三方服务 - 与其他付费代理进行协作 Cox Automotive、Thomson Reuters 和 PGA TOUR 等公司已在利用 AgentCore 构建能够推理、规划并在复杂工作流中行动的代理。如今，这些代理也可以进行交易，且所有操作都在统一的安全和治理框架下完成。 ### 行业影响与展望 AgentCore Payments 的推出，标志着 AI 代理从“信息处理”向“价值交换”迈出了关键一步。当代理能够自主完成发现、评估和支付的全流程，一个真正的“代理经济”将加速到来。这不仅会催生新的商业模式（如按调用付费的 API 市场、代理即服务），也将对现有的 SaaS 定价、数字支付和身份管理格局产生深远影响。目前该功能处于预览阶段，AWS 尚未公布正式上线时间及具体定价。但可以预见，随着更多开发者接入，支付能力将成为智能代理的标配——正如今天的 API 调用一样自然。

AWS ML24天前原文