AI 资讯

每日聚合最新人工智能动态

MCP 工具设计：实用方法与权衡取舍

新上线

当基于模型上下文协议（MCP）的工具表现不佳时，问题往往不在协议本身，而在于工具设计。许多团队直接将现有 API 暴露给智能体，期望模型自行搞定一切。对于简单场景，这或许可行，但更多时候会失败。 ## 两大核心问题：臃肿与混淆 **臃肿**是指每次调用时，所有工具定义都会加载到 LLM 的上下文中，即使某些工具未被使用。多个连接的 MCP 服务器可能在用户提问前就消耗大量上下文。随着上下文被填满，模型的推理能力下降，会话效率降低。 **混淆**则表现为模型做出错误选择——调用不合适的工具、传入错误的参数。随后的重试进一步加剧臃肿，形成恶性循环。工具间语义相似、选项过多、命名模糊都会加剧混淆。 ## 常见误区与改进方向一个常见的“修复”是丰富工具描述，添加更清晰的定义、自然语言映射和使用示例。这确实有助于缓解混淆，但每增加一点内容都可能恶化臃肿，反而加剧了原本想解决的问题。解决臃肿和混淆本质上是一个**上下文工程（context engineering）**问题——即塑造 LLM 看到的内容以及何时看到，从而让模型产生更好的结果。 ## 实践方法与权衡为了具体说明，文章构建了一个模拟 K-12 内容搜索 API 的示例，并通过 MCP 协议暴露。你可以使用 Kiro CLI 在本地运行并对比不同设计的效果。关键方法包括： - **精简工具定义**：只暴露必要的参数，移除冗余描述。 - **分组与分层**：将相关工具分组，或按使用频率分层加载。 - **动态上下文注入**：仅在需要时才加载特定工具的定义。每种方法都有其取舍：精简可能降低灵活性，分组增加复杂度，动态注入则要求额外的调度逻辑。 ## 小结 MCP 工具设计的核心在于平衡上下文占用与模型理解能力。通过上下文工程优化工具定义，可以显著提升智能体的表现。AWS 建议开发者从“最小必要上下文”原则出发，逐步迭代优化。

AWS ML6天前原文

Amazon SageMaker HyperPod 推出企业级推理增强：数据捕获、Hugging Face 集成、NVMe 加速及 Route 53 域名管理

新上线

随着企业生成式 AI 工作负载的规模化，对更快、更可观测、更灵活的推理基础设施的需求持续增长。Amazon SageMaker HyperPod 推出了一系列新功能，旨在简化组织在生产环境中部署和运营大模型的方式。 ## 核心能力一览 ### 1. 多层次推理数据捕获团队现在可以在推理路径的多个节点记录输入和输出数据：从端点、负载均衡器，到模型 Pod 本身。通过声明式自定义资源定义（CRD）配置，提供深度可观测性和审计能力。这意味着你可以独立控制每一层的数据捕获开关，灵活选择适合业务场景的可见性深度。数据最终存储在 Amazon S3 中，用于模型监控、调试和模型改进。 ### 2. 直接从 Hugging Face Hub 部署模型无需提前将模型权重预置到对象或文件存储中，即可直接从热门社区 Hub 部署模型。新功能内置了对**门控访问（gated access）**、**版本锁定（revision pinning）** 和**令牌隔离（token isolation）** 的支持，覆盖 vLLM、TGI、SGLang 等主流推理运行时。这大幅简化了模型部署流程，让团队可以更快地将最新模型投入生产。 ### 3. NVMe 本地加载加速冷启动从节点本地 NVMe 存储加载模型权重，显著减少冷启动延迟。同时，当本地存储不可用时，系统会自动回退到云端存储，确保高可用性。对于需要频繁扩缩容或处理大模型的场景，这一改进能带来可观的性能提升。 ### 4. 自动 Route 53 DNS 管理 HyperPod 现在可以自动管理自定义域名的 DNS 记录。你只需指定域名，系统自动完成 DNS 配置，省去手动设置和运维的麻烦。 ### 5. Pod 级 IAM 权限控制通过自定义服务账户（Custom Service Accounts），基础设施团队可以为每个 Pod 分配细粒度的 AWS Identity and Access Management（IAM）权限。这强化了安全边界，使得多租户场景下的权限隔离更加精准。 ## 企业级推理的新标杆这些增强功能共同构成了一个更高效、更安全、更易于管理的推理平台。无论是需要审计日志的金融行业，还是追求快速迭代的 AI 初创公司，都能从中受益。团队可以在不牺牲治理和运营可见性的前提下，更快地交付 AI 应用。 SageMaker HyperPod 的此次更新，标志着 AWS 在推理基础设施上向企业级需求迈出了重要一步——从模型部署到运行监控，再到安全合规，形成了一个完整的闭环。

AWS ML6天前原文

AWS 上推出 Claude 应用网关：为企业统一管理 Claude Code 和 Claude Desktop 的访问、成本与策略

新上线

随着企业将 Claude Code 和 Claude Desktop 部署到开发团队中，集中控制访问、成本和策略的需求日益迫切。每个开发者需要单独的凭证，设置必须手动分发，支出难以追踪或限制。没有集中的控制点，治理只能依赖各团队自行实施的工具。今天，我们宣布推出 **Claude 应用网关 for AWS**，这是一个自托管控平面，为组织提供对 Claude Code 和 Claude Desktop 的访问、成本和策略的单一控制点。它取代了为每个开发者配置单独云凭证、手动推送设置到每台笔记本电脑或搭建独立工具追踪支出的需求。您可以通过 Amazon Bedrock 部署，将数据保留在 AWS 安全边界内，或通过 AWS 上的 Claude Platform 部署，以获得原生 Claude 平台体验下的相同网关控制。 ### 网关工作原理该网关由 Anthropic 在 Claude Code CLI 二进制文件中提供。您可以在基础设施上运行一个无状态容器，并由 PostgreSQL 数据库支持，用于存储短期登录状态和速率限制计数器。由于网关和客户端是共同构建的，`/login` 流程能够感知网关。客户端在登录时自动应用托管设置，策略在每个请求上一致执行。 **身份管理**：网关连接到任何符合标准的 OpenID Connect (OIDC) 身份提供商。开发者通过浏览器单点登录后，网关颁发短期令牌，CLI 用于所有后续请求。 **策略执行**：您在服务器上定义托管设置。客户端在登录时接收策略，网关在每个请求上强制执行。您可以调整允许的模型、设置支出上限等。 ### 部署选项 - **通过 Amazon Bedrock**：数据保留在 AWS 安全边界内，适合对数据驻留有严格要求的组织。 - **通过 Claude Platform on AWS**：提供原生 Claude 平台体验，同时获得网关控制。 ### 核心优势 - **简化入职/离职**：通过身份提供商添加或移除开发者，会话在配置的令牌生命周期（默认一小时）内过期，开发者机器上不存储长期密钥。 - **集中策略管理**：一次性定义设置，自动应用到所有客户端。 - **成本控制**：通过支出上限和速率限制追踪和限制使用。该网关目前处于预览阶段，企业可以通过 AWS 控制台或 Anthropic 的官方渠道申请访问。

AWS ML7天前原文

驱动科学发现：BYOKG与GraphRAG助力智能药物研发

新上线

在药物研发领域，科学家们长期面临数据碎片化的挑战：关键知识分散在文献、实验室笔记和基因组数据库等不同系统中，难以形成全局洞察。本文介绍了一种基于图数据库与生成式AI结合的检索增强生成（GraphRAG）方法，通过自主知识图谱（BYOKG）将分散数据互联，从而加速药物发现过程。传统早期药物发现成功率仅5%，初筛耗时超过6个月，而GraphRAG通过构建互联的知识环境，让研究人员能够提出复杂问题并获得可溯源的答案。Amazon Neptune Analytics等工具在此过程中扮演关键角色，帮助科研团队在保持科学严谨性的同时，提升假设生成效率，减少重复劳动，并保留机构记忆。

AWS ML7天前原文

使用 Amazon Bedrock 自动分类和优先处理您的邮箱

新上线

公共部门机构每天处理大量电子邮件，紧急事项常被淹没在普通信件中，导致响应延迟和人力浪费。本文介绍了一种基于 Amazon Bedrock 的生成式 AI 解决方案，可自动对邮件进行分类、增强并确定优先级，将其路由至相关部门（如 IT、儿童服务、住房和福利），同时评估紧急程度。该架构使用 Amazon S3 存储邮件，通过 Bedrock 进行语义分析和分类，最终实现智能路由。这有助于加快响应速度、确保紧急事务得到及时关注，并让员工专注于高价值工作。

AWS ML7天前原文

用 Amazon Bedrock AgentCore 和 Mistral AI Studio 构建并连接一个生产级电商 MCP 服务器

新上线

电商团队在构建 AI 驱动的客户体验时，往往面临数周的定制集成工作，这延迟了上线时间并增加了安全风险。Amazon Bedrock AgentCore 与 Mistral AI Studio 的联合方案能显著简化这一流程。本文将带你从零开始构建一个生产就绪的电商 MCP（模型上下文协议）服务器，并最终连接到 Mistral AI 的 Vibe 对话界面。 ## 核心架构与组件整个方案围绕三个核心服务展开： - **Amazon Bedrock AgentCore Runtime**：一个完全托管的无服务器组件，负责托管 MCP 工作负载。它自动处理会话隔离、长时间请求支持、内置 JWT 验证以及可观测性，开发者无需管理容器、负载均衡器或认证中间件。 - **Amazon Cognito**：通过 OAuth 2.1 管理用户身份，确保每个客户的数据隔离。 - **Mistral AI Vibe**：为用户提供网页、iOS 和 Android 上的对话界面，作为 MCP 服务器的前端。 ## 构建步骤与最佳实践文章详细介绍了以下关键步骤： 1. **实现 MCP 工具**：使用 Python 和 FastMCP 框架编写电商服务器，支持产品搜索、下单、评论提交和退货处理等核心功能。数据存储在 **Amazon DynamoDB** 中，身份管理依赖 Amazon Cognito。 2. **设置双层 JWT 认证**：第一层用于客户端到 Runtime 的认证，第二层用于 Runtime 到具体 MCP 服务器的认证，确保端到端安全。 3. **使用 AWS CDK 部署**：通过基础设施即代码的方式，一键部署整个服务栈，包括容器、数据库和认证配置。 4. **连接 Mistral AI Vibe**：将部署好的 MCP 服务器注册为 Vibe 的 connector，用户即可通过自然语言与电商助手交互。 ## MCP 的价值采用 MCP 标准的核心优势在于：**只需编写一次服务器**，就能被多个 AI 客户端（如 Vibe、其他兼容工具）复用，避免了为每个客户端单独开发集成代码的重复劳动。这篇文章不仅提供了完整的技术实现指导，还给出了 MCP 服务器和 Vibe connector 的最佳实践，以及资源清理建议。对于希望快速构建 AI 电商助手的团队来说，这是一份极具参考价值的实战指南。

AWS ML7天前原文

使用 AWS WAF 保护 Amazon Bedrock AgentCore Runtime 的两种架构模式

新上线

## 问题背景当您将生成式 AI 代理通过 **Amazon Bedrock AgentCore** 部署为生产级 API 端点时，通常需要借助 **AWS WAF** 实施 Web 应用防火墙策略、速率限制、常见 Web 威胁防护或审计控制。然而，AWS WAF 原生集成的服务（如 **ALB**、**CloudFront**、**API Gateway**）均存在各自的局限性： - **CloudFront** 适用于缓存和内容分发，但代理调用是实时动态的，缓存不适用。 - **API Gateway** 会引入额外的认证和请求转换层，与 AgentCore 内置的 SigV4 和 OAuth 处理形成“双重认证”问题。因此，**面向公网的 ALB** 成为最佳集成点：它透明传递请求头、支持 VPC 内部路由，并能直接挂载 AWS WAF WebACL。 ## 核心挑战 ALB 需要对后端目标执行健康检查，但 **AgentCore Runtime 要求所有 API 调用（包括健康检查请求）都必须通过 SigV4 或 OAuth 认证**。标准 ALB 健康检查发送的是未认证请求，因此会直接失败。 ## 两种架构模式该文章提出了两种经过端到端测试的架构模式，均使用面向公网的 ALB + AWS WAF，并通过 VPC Interface Endpoint 将流量路由至 AgentCore Runtime。两种模式均支持 SigV4 和 OAuth（Amazon Cognito JWT）认证。 ### 模式 1：Lambda 代理模式在 **ALB 与 VPC Endpoint 之间插入 AWS Lambda 代理**。Lambda 函数可以完全控制请求转换，包括处理健康检查逻辑——例如对健康检查路径返回固定响应，或对生产请求进行签名转发。这种模式赋予您最大的灵活性，但会引入额外的延迟和运维复杂度。 ### 模式 2：直接路由模式 **ALB 直接指向 VPC Endpoint 的 ENI IP 地址**，完全移除 Lambda 跳转。该模式更简单、延迟更低，但需要确保健康检查能够绕过认证。文章通过资源策略关闭直接访问后门，强制所有流量必须经过 AWS WAF 检查。 ## 安全加固要点两种模式都需要配置 **VPC Endpoint 资源策略**，拒绝来自非 ALB 来源的流量，从而防止客户端绕过 WAF 直接访问 AgentCore。这确保了 WAF 策略的强制实施。 ## 总结对于希望在生产环境中安全暴露 Bedrock AgentCore API 的用户，这两种模式提供了明确的路径： - **模式 1** 适合需要自定义请求转换或复杂健康检查逻辑的场景。 - **模式 2** 适合追求低延迟、简单架构的场景。无论选择哪种模式，都能在保持 AgentCore 原生认证能力的同时，叠加 AWS WAF 的安全层。

AWS ML7天前原文

用 Jamf AI 治理与 Amazon Bedrock 管理 Mac 上的 AI 应用

新上线

随着企业加速拥抱 AI，IT 管理员面临一个现实挑战：如何在员工设备上规模化地管理 AI 应用的配置与使用。Claude Code、Claude Desktop、OpenAI Codex 等工具已进入日常工作流，但每个应用都依赖本地配置文件来设置推理提供商认证、MCP 服务器连接和可观测性参数。分散的手动配置不仅效率低下，还存在安全和合规风险。 **Jamf** 作为全球超过 78,000 家组织信赖的 Apple 设备管理平台，近期将其管理模型延伸至 AI 治理领域。通过与 **Amazon Bedrock** 集成，Jamf 的 AI Governance 方案允许 IT 管理员在 Mac 设备群上集中配置、部署和验证这些 AI 应用的设置，而无需用户手动干预。 ## 核心架构与工作流程方案的核心思路是：**将 AI 应用的推理运行与配置管理分离**。 - **推理层**：Amazon Bedrock 通过 AWS 账户提供模型推理能力，运行在用户指定的 AWS 区域，确保数据不出企业安全边界。 - **配置层**：Jamf 的 AI Governance 定义应用连接到 Bedrock 所需的各项设置（如 API 密钥、区域、MCP 端点等），并通过 **Declarative Device Management (DDM)** 将配置下发至每台 Mac。用户只需打开应用即可直接使用，无需编辑任何本地配置文件。Jamf Blueprints 负责定义策略范围，DDM 确保配置在操作系统层面被锁定，抵抗本地篡改。 ## 关键能力与优势 1. **集中管控**：所有 AI 应用配置统一在 Jamf 控制台定义，告别逐台设备手动设置。 2. **安全合规**：推理始终在 AWS 账户内完成，数据不经过第三方公共网络，满足审计要求。 3. **抗篡改**：通过 DDM 交付的配置在设备层面被保护，用户无法随意修改关键参数。 4. **可观测性**：管理员可实时查看策略覆盖范围与部署状态，快速发现异常。 ## 适用场景该方案特别适合以下场景： - 金融、医疗等受监管行业，需要审计 AI 工具的使用和推理路径。 - 大规模 Mac 部署的企业，希望统一管理 Claude Desktop、Codex 等工具的配置。 - 需要将 AI 推理限制在特定 AWS 区域以符合数据驻留要求的组织。 ## 小结 Jamf 与 Amazon Bedrock 的集成，为 Mac 生态的 AI 治理提供了一个可落地的参考架构。它不仅解决了配置分发和安全管理的问题，更重要的是让 IT 团队能以声明式的方式定义“预期状态”，从而在 AI 工具快速迭代的背景下保持控制力。对于正在或计划将 AI 引入员工工作流的企业，这一方案值得关注。

AWS ML7天前原文

为数据集注入业务上下文：从传统 Topics 迁移至 Amazon QuickSight 语义数据集

新上线

Amazon QuickSight 近期推出了一项重要更新——**数据集增强（Dataset Enrichment）**，允许用户将业务上下文（如列描述、同义词、计算字段、自定义指令和业务规则）直接嵌入数据集本身。这一变化标志着从传统 Topics 到语义数据集的架构迁移，解决了以往 Topics 与数据集需同步维护、权限分离、版本混乱等痛点。 ## 为什么需要迁移？在旧架构中，**Topics** 作为独立于数据集的对象存在，负责存储列同义词、计算字段、命名实体、过滤器和自定义指令。这种设计导致两个资产必须始终保持同步——任何一方的变更都可能引发“静默断裂”，例如数据集中重命名一列，而 Topics 中的同义词未更新，查询结果便会失真。此外，权限、血缘和版本管理分散在两处，增加了治理复杂度。新的 **数据集增强** 将业务上下文直接“烘焙”进数据集。从此，权限、语义、AI 上下文都随数据流动，自动被基于数据集构建的所有资产继承。**一个资产、一个事实来源、一个管理点**，从根本上简化了治理。 ## Topics 的新定位：跨数据集语义与推理层值得注意的是，Amazon QuickSight 并未废弃 Topics，而是重新定义了其角色。**Topics 现在成为多数据集语义与推理层**——用于组合多个数据集、定义关系、编写业务指标以及映射业务术语。原本属于数据集内部的语义下沉到数据集层，而 Topics 则专注于跨数据集的关系、度量和术语管理。这一架构变化不是表面调整，而是建立了**清晰的前瞻性架构**：既支持确定性 BI 工作流，也为 AI 驱动的灵活分析提供了共享语义基础。同时，它为后续目录集成奠定了基础。 ## 三种迁移场景与分步指南 Amazon QuickSight 提供了三种迁移场景，帮助用户平滑过渡： 1. **简单替换**：当 Topics 仅包含单数据集语义（如同义词、计算字段）时，可直接将这些信息迁移至数据集增强中，然后删除旧 Topics。 2. **功能拆分**：如果 Topics 既包含数据集内语义，又包含跨数据集关系，则需将数据集内语义迁至数据集增强，跨数据集关系保留在重构后的 Topics 中。 3. **渐进迁移**：对于复杂环境，可逐个数据集迁移，同时保持旧 Topics 运行，直至所有数据集完成转换。每类场景都附有详细步骤，包括如何在新的数据准备体验中编辑数据集、添加列描述与同义词、迁移计算字段，以及验证迁移后的查询结果。 ## 对 BI 与 AI 工作流的深远影响此次更新对 Amazon QuickSight 用户意义重大。对于 BI 分析师，不再需要维护两套资产，减少了出错概率；对于 AI 驱动的分析（如 Q 的自然语言查询），嵌入数据集中的业务上下文（同义词、自定义指令）能显著提升查询准确性和用户体验。长远来看，这一架构为**统一语义层**铺平了道路——所有数据产品（仪表板、报表、AI 问答）共享同一套业务定义，无论是人工分析还是机器推理，都能基于一致的理解进行。 ## 小结从传统 Topics 到数据集增强的迁移，不仅是功能升级，更是 Amazon QuickSight 在语义层架构上的重要演进。它降低了治理成本，提升了数据一致性，并为 AI 原生分析奠定了基础。对于正在使用 QuickSight 的组织，尽早规划迁移路径，将有助于释放数据的全部业务价值。

AWS ML8天前原文

Amazon QuickSight 多数据集关系的数据建模最佳实践

新上线

## 从预连接表到运行时关联：QuickSight 数据建模的范式转变商业智能分析师在启动每个分析项目时，几乎都会遇到同样的困境：回答一个业务问题所需的数据分散在多个表中。销售交易、客户人口统计、产品属性、退货、预测和运营指标各自占据不同的数据源。以往，在 Amazon QuickSight 中组合这些表需要在分析开始前将所有数据预连接成宽表、反范式化的数据集。这种做法虽然可行，但迫使数据建模决策前置，导致不同粒度的度量重复、维护开销增加，并且通常需要为几乎每个报表场景准备不同的数据集。今天，Amazon QuickSight 正式推出**多数据集关系**功能。这项新能力允许用户在 QuickSight 数据集之间定义逻辑关系，并在查询时执行运行时连接。您不再需要提前扁平化表，而是将每个表保留为独立的 QuickSight 数据集，然后在 QuickSight Topic 中声明这些数据集之间的关联关系。QuickSight 会根据可视化、计算字段、筛选器或自然语言问答的需求，动态构建所需的连接。 ### 核心优势 - **更少的前期数据准备**：关系只需定义一次，QuickSight 在分析时仅连接相关表。 - **保留原始粒度**：每个数据集维持自身的细节级别，避免跨粒度重复度量。 - **跨分析复用**：一个包含已定义关系的 Topic 可服务于多个分析场景，无需重建数据集。 - **简化治理**：在单个数据集级别管理权限、转换和业务逻辑。 - **独立刷新调度**：根据数据变动频率，按不同节奏（小时、天、月）分别摄取数据。 - **运行时行级安全**：行级安全（RLS）规则在运行时连接时执行，确保数据访问策略跨数据集一致。 ## 数据建模最佳实践为了充分发挥多数据集关系的价值，建议遵循以下设计原则： 1. **以主题域划分数据集**：将业务实体（如客户、产品、销售）分别建模为独立数据集，以保持逻辑清晰和复用性。 2. **明确关系类型**：根据业务逻辑使用一对多、多对一或多对多关系。例如，一个客户可以有多个订单（一对多），一个订单属于一个客户（多对一）。 3. **避免循环依赖**：在定义关系时确保无闭环，防止查询歧义或性能问题。 4. **优先使用星型模式**：事实表（如销售）与维度表（如时间、客户）建立关系，这是分析型查询的最优模式。 5. **处理粒度和聚合**：当数据集粒度不同时，在计算字段中明确聚合逻辑，例如使用 SUM 或 AVERAGE 处理事实表度量。 ### 支持的模式 QuickSight 多数据集关系支持以下常见模式： - **星型模式**：一个事实表关联多个维度表。 - **雪花模式**：维度表进一步关联子维度表。 - **多事实表**：多个事实表共享维度，例如销售和退货表都关联时间维度。 ## 结语 Amazon QuickSight 的多数据集关系功能标志着 BI 工具在数据建模灵活性上的重要进步。通过将连接逻辑从 ETL 阶段转移到查询运行时，分析师可以更敏捷地响应业务需求，同时保持数据治理的简洁性。对于希望减少数据准备时间、提升分析复用性的团队来说，这是一个值得投入的方向。关于每种模式的具体实现和高级技巧，可以参考本系列的第二篇文章：《Amazon QuickSight 多数据集关系的数据建模模式》。

AWS ML8天前原文

Amazon QuickSight 多数据集关系：七大数据建模模式详解

新上线

## 从概念到实践：Amazon QuickSight 多数据集关系的建模模式在上一篇文章中，我们介绍了 Amazon QuickSight 多数据集关系的基础概念和维度建模最佳实践。本文则聚焦于**具体模式**，为每种数据模型提供表结构、用例、实现步骤和示例 SQL 查询，帮助你在实际工作中快速应用。 ### 前置说明当前版本中，所有多数据集关系均使用**内连接**，只有键匹配的行才会出现在查询结果中。设计数据模型时需充分考虑这一点。 ## 七种原生支持的建模模式 ### 场景 1：简单星型模式这是最常用且推荐的模式：一个中心事实表关联多个维度表。 **表结构示例**： - `SALES_FACT`：事实表，包含 `sale_id`（主键）、`customer_id`、`product_id`、`time_id`、`store_id`（外键）以及 `quantity`、`revenue`、`cost` 等度量。 - `CUSTOMER_DIM`：维度表，包含 `customer_id`（主键）、`name`、`email`、`city`、`state` 等。 - `PRODUCT_DIM`、`TIME_DIM`、`STORE_DIM` 类似。 **适用场景**：按客户细分和区域统计总销售额、按产品类别查看月度收入趋势、按平均订单价值排名前 10 的门店。 **实现方式**：为每个表创建独立数据集，通过外键建立关系（如 `SALES_FACT.customer_id → CUSTOMER_DIM.customer_id`）。所有连接均为单跳（事实到维度），无需链式连接。 **示例 SQL**： ```sql SELECT c.segment, s.region, SUM(f.revenue) AS total_revenue FROM SALES_FACT f JOIN CUSTOMER_DIM c ON f.customer_id = c.customer_id JOIN STORE_DIM s ON f.store_id = s.store_id GROUP BY c.segment, s.region; ``` ### 其他场景简介除星型模式外，QuickSight 还支持： - **雪花模式**：维度表进一步规范化，需多跳连接。 - **多事实表共享维度**：多个事实表可复用同一维度表。 - **自引用关系**：如员工表包含经理 ID。 - **多对多关系**：通过桥接表实现。 - **时间序列与快照表**：处理累计快照和周期快照。 - **聚合与明细混合**：预聚合表与明细表共存。每种模式都配有详细的表结构、适用场景和实现步骤，帮助用户根据业务需求灵活选择。 ## 高级场景与变通方法对于需要额外建模步骤的复杂场景，文章也提供了变通方案，例如使用 SQL 自定义查询创建中间数据集，或利用计算字段处理非标准关联。 ## 当前限制总结 - 仅支持内连接，不支持外连接。 - 数据集关系基于键值匹配，无法直接使用复杂条件（如范围连接）。 - 链式连接（维度→维度）需谨慎，可能影响性能。 ## 小结掌握这七种建模模式，你就能应对大部分业务分析需求。建议从简单的星型模式入手，再逐步尝试更复杂的结构。QuickSight 的多数据集关系功能为构建灵活、可扩展的分析报表提供了坚实基础。

AWS ML8天前原文

Amazon Quick Chat 多数据集主题最佳实践：用语义层驱动 AI 生成 SQL

新上线

## 概述：从预连接数据集到 AI 动态生成 SQL 在实际业务分析中，大多数问题都需要跨多个表查询。例如，零售商要分析**按产品类别的净收入**，就需要同时访问销售事实表、退货事实表和产品维度表。传统做法要求数据工程师预先将这些表连接成一个数据集，然后才能提供给 Amazon Quick Sight 进行分析。 Amazon Quick Sight 的**多数据集主题**（Multi-Dataset Topics）改变了这一模式。它允许分析团队通过两种方式将多个数据集整合到同一个主题中：一是定义显式的关系键（详见另一篇博文），二是为生成式 AI 引擎提供足够的语义上下文，让其自行编写 SQL。本文聚焦于第二种路径：**基于聊天的 AI 生成 SQL**。 ## 核心机制：语义引导栈当您为聊天（Chat）配置主题时，无需预先定义关系。相反，您需要构建一个语义层，包括数据集级自定义指令、主题级指令、字段同义词和字段描述。AI 在查询时利用这些上下文生成感知上下文的 SQL。这使得**外连接、联合、子查询、自连接、跨粒度比较和条件连接逻辑**都变得可行，且不受关系图的结构约束。本文为数据架构师、BI 工程师和分析工程师提供了一套实用的最佳实践框架，称为**语义引导栈**（Semantic Guidance Stack），用于结构化组织所有指导 AI 的元数据。 ## 八大最佳实践 1. **编写清晰的主题级指令**：在主题设置中提供全局上下文，例如“本主题用于零售销售分析，包含销售、退货和产品数据”。 2. **为每个数据集添加自定义指令**：明确数据集的用途、粒度（例如“每行代表一次交易”）和关键约束。 3. **定义字段同义词**：为业务常用术语提供多个别名，例如“收入”也可称为“销售额”、“营收”。 4. **提供详细的字段描述**：说明字段的计算逻辑、数据来源和业务含义，例如“净收入 = 销售额 - 退货额”。 5. **使用示例问题引导**：在主题中预设常见问题示例，帮助 AI 理解用户意图。 6. **处理多对多关系**：通过语义描述说明关系类型，例如“一个产品属于多个类别，一个类别包含多个产品”。 7. **处理角色扮演维度**：当同一维度表被多次使用时（如订单日期和发货日期），为每个角色赋予不同的别名和描述。 8. **处理跨粒度比较**：描述不同数据集之间的粒度差异，例如“销售表按订单行记录，退货表按退货单记录”。 ## 复杂模式处理 - **外连接**：在指令中说明需要包含所有记录，即使没有匹配项。 - **递归层级**：对于组织架构等层级数据，提供层级深度和路径描述。 - **条件连接逻辑**：描述连接条件，例如“根据订单状态选择不同的连接字段”。 ## 决策框架：选择何种方式 - **显式关系键**：适合关系稳定、性能要求高的场景。 - **纯语义引导**：适合关系复杂、频繁变化的场景，或需要快速原型验证。 - **混合方法**：结合两者，对核心关系使用显式键，对边缘查询使用语义引导。 ## 总结多数据集主题与 AI 生成 SQL 的结合，大幅降低了数据准备的门槛，让分析师能够更专注于业务问题。通过精心设计的语义层，团队可以在几分钟内实现原本需要数天的跨表分析。本文提供的实践框架将帮助您最大化这一新能力的价值。

AWS ML8天前原文

Amazon Quick 推出多数据集主题，构建统一语义层

新上线

Amazon Quick 近日宣布其 BI 服务 Quick Sight 推出 **多数据集主题（Multi-dataset Topics）** 的公开预览版，允许用户在一个主题内关联最多 12 个数据集，并通过自然语言查询跨数据集获得统一答案。这一更新打破了此前“一个主题绑定一个数据集”的限制，使企业能够在不破坏数据规范化结构的前提下，构建更灵活的语义层。 ## 从“单表扁平化”到“多表智能关联” 传统上，Quick Sight 将数据集表示为单一扁平化表格。当数据源包含多个表时，用户需通过数据准备阶段将表连接为一张大宽表（denormalized table），这虽然避免了运行时连接、提升了查询性能，但也带来了数据冗余、维护成本高、灵活性差等问题。随着企业数据模型日趋复杂，这种“一刀切”的方式逐渐成为瓶颈。多数据集主题改变了这一模式。用户现在可以在一个主题中添加多个数据集，并明确定义它们之间的关系（如一对多、多对多等）。当业务用户通过自然语言提问时，Quick 的 AI 引擎会自动解析意图，识别涉及的数据集，根据预定义关系构造合适的 SQL 连接，最终返回跨数据集的统一答案。整个过程对用户透明——他们无需了解底层 schema，即可获得更丰富的洞察。 ## 零售分析场景实战演示文章以零售分析为例，展示了多数据集主题的端到端实现。假设企业拥有“订单”和“产品”两个独立数据集，传统做法需预先合并它们。现在，只需在主题中分别添加两个数据集，并定义“订单.产品ID”与“产品.产品ID”的关系。当用户提问“上月销量最高的产品类别是什么？”时，AI 引擎会自动跨表关联，返回准确结果。更关键的是，**同一个多数据集主题既可以用于构建可视化分析，也可以用于问答对话**，实现了语义层的一体化复用。这大大降低了 IT 部门维护多个主题的负担，同时让业务用户获得更一致的数据体验。 ## 行业意义与展望多数据集主题的推出，反映了 BI 工具向 **语义层智能化** 演进的趋势。随着数据湖、数据网格等架构普及，企业数据往往分散在多个系统中。传统 BI 工具要求用户提前完成数据整合，而 AI 驱动的语义层则能够在查询时动态关联，既保持了数据源的原始粒度，又提供了统一的业务视角。对于 Quick Sight 用户而言，这一功能尤其适用于以下场景： - **零售分析**：订单、库存、客户数据分属不同表，却需要统一分析。 - **财务报告**：预算、实际支出、预测数据来自不同系统。 - **运营监控**：设备日志、告警、工单数据跨库关联。目前该功能处于公开预览阶段，用户可在 Quick Sight 控制台中启用。Amazon 表示，后续将根据反馈优化性能，并可能增加更多数据集数量上限。

AWS ML8天前原文

用 Amazon Bedrock AgentCore 构建无服务器图像编辑智能体

新上线

本文介绍如何使用 Amazon Bedrock AgentCore 构建一个无服务器图像编辑器，用户上传照片并用自然语言描述编辑需求，即可在数秒内得到结果。智能体运行在 AgentCore 编排层上，无需自定义编排代码。整个方案包括身份认证、加密存储、三个图像编辑工具和 React 前端，通过一条部署命令即可完成部署，基础设施由 AWS CDK 定义。 ## 核心能力：配置驱动，无需编排代码传统 AI 智能体的构建需要开发者自行处理**任务编排循环、工具路由、记忆管理**以及运行环境。AgentCore 将这一切封装为配置参数：开发者只需声明智能体的行为，编排层便会在一个有状态、隔离的微虚拟机中运行它，内置记忆、工具路由和可观测性。该图像编辑器接受类似“把车颜色改成蓝色”或“向右扩展 200 像素”的提示词。由 **Claude Sonnet 4.6** 驱动的智能体将需求拆解为多个步骤，并编排调用不同的 **Stability AI 模型**（每个模型对应一个工具）。编辑完成后，通过微虚拟机上的 shell 命令添加水印（无 token 开销），最后返回结果。 ## 五大亮点功能 1. **配置驱动的智能体创建**：完全通过 API 参数定义智能体，无需 Python 编排代码、无需框架、无需容器。 2. **每次调用可切换模型**：前端将基础对话路由到 Claude Haiku 4.5，图像编辑任务路由到 Claude Sonnet 4.6，智能体会在模型切换时保持对话上下文。 3. **每次调用可覆盖角色提示**：用户可选择行业角色（房地产、零售、汽车），这些角色会注入领域特定的系统提示，而无需重新部署。 4. **30 天会话记忆**：AgentCore 服务会存储对话历史 30 天，智能体在同一会话内可跨轮次保持上下文，无需前端重复发送历史。示例将会话 ID 存储在 localStorage 中，因此刷新浏览器后对话仍能继续。清除浏览器数据会在前端启动新会话，但历史记录仍可通过 ListEvents API 获取。 5. **MCP 网关支持**：三个由 Lambda 支持的工具通过 **Model Context Protocol (MCP)** 暴露给智能体。 ## 架构与部署整个应用包括： - **身份认证**：确保用户安全访问。 - **加密存储**：保护用户上传的图片。 - **三个图像编辑工具**：分别对应不同的 Stability AI 模型，实现多种编辑能力。 - **React 前端**：提供直观的用户界面。所有基础设施通过 **AWS CDK** 定义，一条命令即可完成部署。 ## 应用场景与价值该示例展示了 AgentCore 在**图像编辑**领域的落地潜力。对于需要快速构建 AI 编辑工具的开发团队，AgentCore 大幅降低了编排层的工作量，让开发者可以专注于工具逻辑和前端体验。此外，**行业角色切换**功能使得同一套系统可以服务于不同垂直领域，如房地产（调整房屋照片）、零售（更换商品颜色）、汽车（修改车型外观）等。 ## 总结 Amazon Bedrock AgentCore 为构建无服务器 AI 智能体提供了一条**配置驱动、零编排代码**的路径。通过将图像编辑的复杂流程封装为可配置的智能体，开发者能够快速交付面向用户的生产级应用，同时保持灵活性和可扩展性。

AWS ML8天前原文

使用Amazon SageMaker AI与MLflow监控判别式ML模型

新上线

机器学习模型的准确性在训练完成后几乎立即开始下降。消费者行为变化、新产品发布、传感器技术升级以及经济政治环境的变迁，都会改变模型在训练时学到的数据模式与概率分布。主动监控生产环境中的模型，及时发现准确率与基线统计的偏差，才能在问题恶化前进行干预。本文聚焦于**判别式机器学习模型**（分类与回归场景），并展示如何结合开源工具 **Evidently**、**Amazon SageMaker AI** 与 **MLflow**，构建一个可扩展的监控方案，涵盖报告生成、结果对比、管道编排以及漂移告警触发。 ## 为何需要监控？导致判别式模型质量下降的因素主要分为两类： - **数据漂移**：输入数据的统计属性发生变化。可能是上游数据源意外变更（如整型列变为浮点型），也可能是全新产品线上市这类复杂情况。通过计算训练数据集的基线统计量，并与生产环境实时数据统计量对比，可以量化数据漂移。 - **模型漂移**：模型学到的概率模式不再匹配新数据，导致预测准确率下降。例如，经济好转引起消费者行为改变，使得历史模式失效。通过收集真实标签（ground truth）并对比训练时的模型质量指标，可以检测模型漂移。 ## 解决方案架构文中提出的监控方案整合了以下组件： - **Evidently**：开源库，提供丰富的统计检验和可视化报告，用于检测数据漂移和模型性能变化。 - **Amazon SageMaker AI**：全托管机器学习平台，负责模型部署、推理端点管理以及管道编排。 - **MLflow**：开源实验跟踪和模型管理平台，用于组织和比较不同时间点的监控报告，记录漂移指标。具体工作流程如下： 1. **定义基线**：使用训练数据集计算特征统计量（如均值、方差、分布分位数）以及模型质量指标（如准确率、F1分数）。 2. **定期评估**：通过 SageMaker 管道定期从生产端点收集推理数据，并调用 Evidently 计算与基线的偏差。 3. **记录与对比**：将每次评估的结果（包括漂移分数、统计检验 p 值、质量指标变化）记录到 MLflow 中，形成时间序列，便于回溯与比较。 4. **告警触发**：当漂移指标超过预设阈值时，通过 SageMaker 的告警机制（如 Amazon CloudWatch）发送通知，触发模型重训练或回滚。 ## 优势与适用场景相比 SageMaker 内置的监控功能，该方案提供了更高的**定制灵活性**： - **成本可控**：用户可根据需求选择评估频率和计算资源，避免全托管方案可能带来的不必要开销。 - **开放生态**：Evidently 支持多种统计检验（如 KS 检验、卡方检验），MLflow 的开放接口便于与现有 MLOps 工具链集成。 - **可扩展性**：通过 SageMaker Pipelines 编排，可以轻松扩展到数百个模型端点的监控。对于**生成式 AI 模型**（如 LLM），SageMaker 也提供了专用实时监控方案，详见官方文档。 ## 小结模型监控是 MLOps 中不可或缺的一环，尤其在生产环境复杂多变的情况下。通过将 Evidently、SageMaker AI 和 MLflow 相结合，团队能够以较低成本实现从数据漂移到模型漂移的全面监控，并在问题影响业务前及时干预。如果你正在寻找一种既保留开源灵活性又能利用云平台托管能力的方式，这套方案值得尝试。

AWS ML8天前原文

用 Amazon Bedrock AgentCore 构建 AI 驱动的 AWS 支持助手

新上线

## 从多工具切换到单一对话：AWS 支持助手的 AI 进化管理 AWS 基础设施时，工程师常常需要在多个控制台、文档和社区之间来回切换。针对每一次事件，工程师需要打开 AWS 管理控制台、检查 CloudWatch 日志、搜索文档、查看 re:Post 社区帖子，再手动创建支持案例。这种上下文切换每次调查平均耗时 **30–45 分钟**，之后才能开始真正的修复工作。 ### 为什么需要 AI 支持助手？传统调查流程存在明显的瓶颈：每个步骤依赖不同的工具和界面，信息无法自动流转。AWS 支持与运维团队每天重复着“打开控制台 → 检查日志 → 搜索文档 → 浏览社区 → 创建案例”的循环，效率低下且容易遗漏关键信息。 ### 解决方案：基于 Bedrock AgentCore 的对话式代理现在，我们可以通过 **Amazon Bedrock AgentCore** 构建一个 **AWS Support Companion**，将上述所有步骤整合到一个对话式界面中。AgentCore 负责处理生产级 AI 代理的运营复杂性——包括会话隔离、自动扩缩、安全性和可观测性——让开发者专注于“代理做什么”，而非“代理怎么跑”。该代理的核心架构包括： - **代理运行时**：基于 **Strands Agents** 框架的 Python 应用，打包为 Docker 容器并部署到 AgentCore 运行时。代理通过 **Amazon Bedrock** 调用基础模型（如 **Amazon Nova Pro**），并根据用户输入编排工具调用。你可以切换到其他支持的模型，无需修改代理代码。 - **MCP 服务器**：通过 **模型上下文协议（MCP）**，代理连接三个 MCP 服务器，分别访问 **AWS 文档**、**CloudWatch 日志** 和 **AWS re:Post 社区知识**。 - **部署与前端**：整个解决方案通过单个 **AWS CloudFormation** 脚本部署，并包含一个基于 **AWS Amplify** 的 Web 前端，方便用户与代理交互。 ### 代理能做什么？在对话界面中，你可以直接要求代理： - 分析 CloudWatch 日志中的错误模式 - 搜索 AWS 文档获取相关故障排除指南 - 查询 AWS re:Post 上类似问题的社区讨论 - 自动创建支持案例，并附上调查证据和上下文所有这些操作都在同一个会话中进行，上下文信息无缝传递，无需手动复制粘贴。 ### 行业背景与价值 AI 驱动的支持助手是 **AI 运维（AIOps）** 领域的典型应用。通过将大语言模型与结构化工具（MCP 服务器）结合，代理不仅能理解自然语言，还能执行实际操作——这比单纯的聊天机器人更进一步。AWS 通过 Bedrock AgentCore 提供了托管运行时，降低了构建此类代理的运维门槛。对于团队而言，最大的价值在于 **减少上下文切换时间**。原本需要 30–45 分钟的调查流程，现在可能缩短到几分钟内完成。更重要的是，代理可以保持调查过程的完整记录，便于事后审计和知识沉淀。 ### 小结 AWS Support Companion 展示了如何利用 **Bedrock AgentCore**、**Strands Agents** 和 **MCP 协议** 构建一个实用的 AI 助手。它不是一个概念验证，而是一个可部署的解决方案，能够直接融入现有运维流程。如果你正在寻找提升 AWS 支持效率的方法，这个架构值得参考。

AWS ML8天前原文

一键从 Hugging Face 直达 Amazon SageMaker Studio，模型部署从未如此简单

新上线

Amazon SageMaker AI 与 Hugging Face 宣布推出深度链接集成，开发者现在只需一次点击，即可从模型发现直接进入 SageMaker Studio 进行实验。无论是微调基础模型还是部署推理端点，选定的模型将自动预加载，环境完全配置就绪，省去了以往手动创建域、配置 IAM 权限、申请 GPU 配额等繁琐步骤。这一集成大幅降低了从灵感到实验的摩擦，为企业和开发者提供了从开源模型到企业级部署的最短路径。 ## 一键直达，零配置启动在 Hugging Face 上浏览模型时，支持的模型页面会新增 **Customize on SageMaker AI** 和 **Deploy on SageMaker AI** 按钮。点击后，开发者将直接跳转到 SageMaker Studio 控制台，系统在数秒内自动预配置新域和权限，并将模型上下文完整传递。此前，从 Hugging Face 发现模型到在 SageMaker 上运行需要经历多个步骤：打开 AWS 管理控制台、创建 SageMaker 域、配置 IAM 权限，有时还需申请 GPU 配额。对于追求快速迭代的开发者来说，这些摩擦严重拖慢了从灵感走向实验的速度。 ## 开源模型与企业云的完美结合 Arcee AI 创始人兼 CEO Mark McQuade 评价道：“我们构建开放模型，让开发者和企业真正拥有他们运行的东西：检查权重、用自己的数据后训练、按自己的方式部署。这次集成将这一承诺推进到最后一英里。从 Hugging Face 上的开放模型一键进入 SageMaker Studio，然后在自己的 AWS 环境中微调或部署，无需任何额外配置——这正是开放模型一直缺少的体验。你拥有的开放权重，在你控制的云中运行。这正是我们的客户一直要求的组合。” ## 三大新能力，缩短从发现到部署的路径此次发布引入了三项关键能力： 1. **深度链接直达 SageMaker Studio**：Hugging Face 模型页面上新增的操作按钮直接映射到 SageMaker Studio 工作流，点击后即进入对应的定制化或部署页面。 2. **自动环境配置**：SageMaker AI 自动预配置域和权限，无需手动设置，数秒内即可使用。 3. **模型上下文无缝传递**：选定的模型信息自动填充到 Studio 工作流中，开发者无需再次搜索或配置。 ## 对 AI 开发者的意义这一集成对 AI 开发者和企业用户意义重大。首先，它显著降低了入门门槛，让开发者能更快地从模型探索过渡到实际实验。其次，它强化了开源模型与云原生工具的结合——开发者可以在 Hugging Face 上发现最新模型，然后立即在 AWS 上使用企业级基础设施进行微调和部署，同时保持对数据和模型的控制。最后，对于需要频繁实验和迭代的团队，这一功能可以节省大量时间，加速从研究到生产的转化。随着生成式 AI 和基础模型领域的快速发展，缩短从发现到部署的周期已成为竞争关键。AWS 与 Hugging Face 的这一深度集成，正是对开发者痛点的直接回应，也为其他云平台与开源社区的协作树立了新的标杆。

AWS ML9天前原文

教模型学会遗忘：Amazon Nova 的选择性遗忘技术

新上线

部署基础模型（FM）的组织常面临一个共同挑战：用于内容审核的模型安全护栏，也可能阻碍合法且关键的业务用例。例如，一家媒体公司需要总结包含成人语言的剧本，一家网络安全公司希望模拟真实威胁，或一个法律团队正在处理敏感证据——默认的内容审核机制往往会屏蔽这些本应被处理的合法内容。由于模型在后训练对齐阶段习得了这些安全策略，仅靠提示工程无法克服。模型拒绝回答的倾向已嵌入其参数中，需要在模型层面进行针对性修改，以选择性地调整这一行为。在这篇文章中，我们介绍了 **反向直接偏好优化（rDPO）**——这是 Amazon Nova 可定制内容审核设置（CCMS）背后的创新遗忘技术，并展示了它如何在保持模型质量的同时减少过度拒绝。我们还为客户提供了将偏好优化技术应用于自身实验的指导。 ## 背景：安全护栏与业务需求的冲突以安全团队为例：当他们要求模型生成一封用于员工安全意识培训的钓鱼邮件样本时，即使意图是防御性的，模型也可能直接拒绝回答。这种过度拒绝源于模型在训练过程中习得的严格安全对齐，而简单的提示工程（如“请假装这是用于培训的示例”）往往无法绕过。 ## 解决方案：Amazon Nova 可定制内容审核设置（CCMS） Amazon Nova CCMS 允许经批准的客户在四个负责任 AI（RAI）支柱下选择性调整安全设置： - **安全**：涉及危险活动、武器和受控物质。 - **敏感内容**：包括脏话、裸露和霸凌。 - **公平性**：涉及偏见和文化考量。 - **安全性**：涉及恶意软件和恶意内容。同时，Amazon Nova 强制执行不可配置的基本控制，例如防止对儿童造成伤害和保护隐私。 ## 核心创新：反向直接偏好优化（rDPO） CCMS 背后的科学原理是**遗忘（unlearning）**，即在不从头重新训练的情况下，从模型参数中选择性地移除已学习的行为。具体方法是训练**低秩适配（LoRA）适配器**来逆转模型对特定策略的对齐。训练过程大致如下： 1. 对于需要遗忘的策略（例如“生成包含脏话的脚本”），收集一组包含“被禁止行为”的提示-响应对。 2. 使用这些数据训练 LoRA 适配器，目标是让模型在这些提示下不再拒绝回答，而是生成合规内容。 3. 适配器仅修改模型的部分参数，因此模型在其他策略上的对齐保持不变。结果是：客户获得一个自定义模型变体，该变体在已批准的政策领域能够生成内容，而在其他所有领域仍然保持对齐。 ## 实际应用与效果在内部测试中，rDPO 显著减少了过度拒绝。例如，对于网络安全培训场景，模型能够生成钓鱼邮件样本，同时仍拒绝提供真正的恶意代码或具体的攻击方法。CCMS 目前对选定的 Amazon Nova 客户开放，并计划逐步推广。 ## 客户如何自行实验对于希望将偏好优化技术应用于自身实验的客户，文章提供了以下建议： - 使用 rDPO 时，需要明确界定“遗忘”的范围，避免意外移除重要的安全策略。 - 推荐使用 LoRA 适配器，因为它可以快速切换不同策略配置，而无需重新训练整个模型。 - 在部署前，务必进行充分的红队测试，确保自定义模型不会产生有害输出。 ## 总结 Amazon Nova 的 rDPO 技术为企业提供了一种精细控制模型行为的方式，在保持核心安全性的同时，解锁了被过度限制的业务用例。随着模型部署场景日益复杂，这种“选择性遗忘”的能力将成为负责任 AI 落地的关键工具。

AWS ML9天前原文

在 Amazon Bedrock 上运行 MiniMax 模型：从 Agent 到长文档分析的全面指南

新上线

## 概述企业级 AI 工作负载正从实验阶段迈向生产部署，模型能力与推理环境的安全性、合规性成为选型的关键。Amazon Bedrock 现已全面支持 MiniMax 系列模型，包括最新发布的 **MiniMax M2.5**，专为 Agent 原生执行和软件工程场景设计。所有推理均在 AWS 托管的基础设施上运行，提示和生成内容不会被用于模型训练，也不会与模型提供商共享，满足企业对数据保护和运营控制的严格要求。 ## MiniMax 模型家族：三款模型，三种定位 MiniMax 是一家专注于多模态基础模型的全球 AI 技术公司，其 M2 系列大语言模型基于混合专家（MoE）架构，每次推理仅激活总参数的一小部分，兼顾大模型的深度知识与低成本推理。目前在 Amazon Bedrock 上可用的模型包括： - **MiniMax M2.5**：最新模型，专为 Agent 原生执行训练，适合构建自主代理应用。 - **MiniMax M2**：面向通用编码和 Agent 工作负载的平衡模型。 - **MiniMax-M1**：早期版本，适用于轻量级任务。 ## 典型应用场景借助 MiniMax 模型，用户可构建以下 AI 工作流： - **Agentic 应用**：利用 M2.5 的 Agent 原生能力，实现任务分解、工具调用与自主决策。 - **长上下文文档分析**：支持超长文档的摘要、问答与信息提取，适用于法律、金融等合规密集型行业。 - **软件工程工作流**：包括代码生成、调试、代码审查与测试用例编写，提升开发效率。 ## 服务层级与扩展性 Amazon Bedrock 提供按需推理和预置吞吐量两种服务层级。按需推理可自动扩展以应对突发流量，适合开发测试与波动性负载；预置吞吐量则提供稳定的推理性能，适合生产级高并发场景。所有 API 调用均通过 AWS 安全边界，支持 IAM 权限管理和 VPC 部署。 ## 如何开始用户可通过 AWS 管理控制台或 Bedrock API 快速启用 MiniMax 模型。只需在模型目录中选择对应模型，即可通过统一的 API 接口进行调用，无需自行部署或管理推理基础设施。 ## 小结 MiniMax 模型在 Amazon Bedrock 上的可用性，为需要前沿模型能力又必须满足安全合规要求的企业提供了理想选择。无论是构建自主 Agent、处理海量文档，还是加速软件交付，MiniMax 家族都能提供针对性的性能与成本优势。

AWS ML9天前原文

在 Amazon SageMaker HyperPod 上为 Amazon Nova 部署多轮强化学习基础设施

新上线

## 事件驱动：从数据上传到 RL 训练全自动当您构建需要执行多步骤工作流的企业智能体时，传统强化学习（RLHF）的局限性便暴露无遗——它只优化单次响应，却无法处理“验证数据后再执行”这类跨步骤决策。**多轮强化学习（Multi-Turn RL）** 正是为此而生：它通过优化整个交互序列，让智能体在试错中学会工具编排、错误恢复和多步推理。 Amazon SageMaker AI 现已提供完全托管的无服务器多轮 RL 能力，但若您需要完全掌控训练栈（如自定义智能体环境、特定实例配置），**Amazon SageMaker HyperPod** 上的多轮 RL 基础设施则提供了计算、编排和奖励路由的完整方案。配合 **Amazon Nova Forge** 的多轮 RL 训练能力，开发者能高效训练复杂工作流智能体。 ### 三层架构：自动化的训练流水线该解决方案构建了一个事件驱动型流水线：当您将数据集上传到 **Amazon S3** 后，基础设施自动完成资源调度、奖励计算和模型训练。核心由三层组成： 1. **SageMaker HyperPod 集群**：负责生成响应并执行 GRPO（组相对策略优化）权重更新。 2. **ECS on AWS Fargate**：运行您的奖励环境。 3. **Nova Forge SDK**：在训练进程与奖励环境间路由消息。 ### 实战示例：用 Wordle 游戏验证训练流程为演示这一流程，文章以训练模型玩 **Wordle**（猜词游戏）作为占位任务。您只需上传游戏数据集到 S3，流水线便会自动启动训练。 - **训练目标**：模型学会根据多轮猜测的反馈（即奖励信号）调整策略，最终准确猜出单词。 - **关键优势**：该架构可轻松替换为您的实际 RL 任务（如数据库查询、API 调用等），而无需重写底层基础设施。 ### 行业背景与价值当前，企业智能体正从“单轮问答”向“多步骤自主执行”演进。无论是金融领域的自动化对账，还是医疗领域的病历分析，智能体都需要在多个步骤中保持决策一致性。**多轮 RL 直接优化序列决策**，比传统 SFT 或 RAG 更擅长培养这类能力。 Amazon 此次将多轮 RL 基础设施与 SageMaker HyperPod 深度集成，意味着开发者可以： - 利用 HyperPod 的弹性计算能力处理大规模训练。 - 通过事件驱动架构实现“零运维”触发训练。 - 结合 Nova 模型的高性价比，降低实验成本。 ### 小结对于需要高度定制训练环境的团队，这套基础设施提供了从数据上传到模型更新的全自动化管道。而 Wordle 示例则表明：即使是一个简单的游戏，也能清晰展示多轮 RL 的“试错-学习”循环。未来，随着智能体工作流日益复杂，这种架构或将成为企业 AI 落地的标准组件。

AWS ML9天前原文