SheepNav

AI 资讯

每日聚合最新人工智能动态

来源:AWS ML清除筛选 ×

Amazon Bedrock 近期推出了 **AgentCore Gateway** 功能,允许 AI 代理安全地访问 VPC 内的私有资源。通过 **Resource Gateway** 这一托管构造,用户可以在 VPC 子网中自动预配弹性网络接口 (ENI),实现代理与私有端点的直接通信。 ## 两种实现模式 Amazon Bedrock 提供了 **托管模式** 和 **自管理模式** 两种选择。托管模式下,AWS 自动管理 ENI 的生命周期和路由;自管理模式则允许用户对网络路径进行更细粒度的控制,适合需要自定义安全策略的场景。 ## 三个实用场景 ### 1. 连接私有 Amazon API Gateway 通过 AgentCore Gateway,AI 代理可以直接调用部署在 VPC 内的 API Gateway 端点,无需通过公网。这确保了敏感数据不会暴露在公共互联网上,同时保留了 API 的完整功能。 ### 2. 集成 Amazon EKS 上的 MCP 服务器 对于运行在 Amazon Elastic Kubernetes Service (EKS) 上的 MCP (Model Context Protocol) 服务器,AgentCore Gateway 提供了安全的内部通信路径。代理可以像访问本地服务一样调用 MCP 服务,适用于需要动态上下文管理的复杂 AI 工作流。 ### 3. 访问其他私有资源 该方案还支持连接 RDS 数据库、ElastiCache 等私有服务,扩展了 AI 代理在企业内网中的可用性。 ## 配置要点 配置过程涉及定义 Resource Gateway、关联子网、设置安全组规则,并在 Bedrock 代理中指定目标端点。用户需要确保 VPC 路由表正确指向网关,同时安全组允许必要的流量。 ## 行业意义 随着企业 AI 应用落地,**数据安全** 和 **合规性** 成为关键挑战。AgentCore Gateway 填补了 AWS AI 服务在私有网络访问方面的空白,使 Bedrock 代理能够无缝集成到现有基础设施中。这对于金融、医疗等受严格监管的行业尤为重要,它们可以在不牺牲安全性的前提下利用 AI 自动化。 ## 小结 Amazon Bedrock AgentCore Gateway 是 AWS 在 AI 安全领域的重要更新,它简化了代理访问私有资源的流程,同时保持了企业级的安全标准。无论是调用内部 API 还是连接 Kubernetes 服务,该功能都提供了灵活且可控的解决方案。

AWS ML1个月前原文

合同分析长期以来是法务、合规和采购团队的痛点——关键条款深藏在冗长、非结构化的协议中,随着合同量增长,人工检索和解读变得难以规模化。虽然关键词提取和合同管理系统能解决部分问题,但面对复杂法律语言时往往力不从心。普华永道(PwC)推出的 **AIDA(AI-driven Annotation)** 解决方案,基于 AWS 云原生服务,将大语言模型(LLM)与自动化提取流程结合,实现了从合同到结构化洞察的转变。 ### 三大核心能力 AIDA 提供三种关键功能,覆盖从单文档到多文档的合同分析场景: - **模板化提取**:基于预设规则自动抽取关键条款(如赔偿条款、终止条件),用户无需手动扫描全文。 - **文档级对话**:针对单份合同,用户可用自然语言提问(例如“本合同的管辖法律是什么?”),系统返回精准答案并附带原文引用。 - **跨文档全局对话**:在项目内多份合同间进行联合查询,例如“哪些合同包含竞业限制条款?”——这对并购尽职调查或供应商合规审计尤为实用。 ### 架构与安全设计 AIDA 构建在 AWS 之上,核心组件包括: - **Amazon Bedrock** 提供 LLM 推理能力,支持 Claude 等模型,确保复杂法律文本的理解。 - **Amazon S3** 存储原始合同与提取结果,**Amazon DynamoDB** 管理元数据与索引。 - **Amazon Textract** 实现 OCR 与文档解析,将 PDF/扫描件转为可处理文本。 - 安全方面,AIDA 通过 **AWS KMS** 加密、**IAM** 细粒度权限控制以及 **VPC** 隔离,满足企业级合规要求。用户仍须自行配置以满足特定监管义务。 ### 实际效果与行业价值 在客户部署中,AIDA **将手动合同审阅时间减少了最高 90%**,显著缩短了审查周期。这不仅释放了法务团队的人力,更使得“延迟审查”不再成为交易瓶颈。对于金融机构、律所、大型企业采购部门而言,这意味着更快的合同签署、更低的合规风险。 ### 局限与展望 尽管 AIDA 表现亮眼,但 **LLM 的“幻觉”问题仍需人工复核**——尤其是涉及重大责任条款时,最终判断不应完全交给 AI。PwC 强调,AIDA 定位为“辅助工具”,人类专家仍需对关键输出进行验证。未来,随着多模态模型和 Agent 框架成熟,合同分析有望从“提取”走向“自动谈判建议”甚至“条款修订生成”。 **一句话总结**:AIDA 是 AI 在垂直法律场景的一次扎实落地——不是替代律师,而是让律师从“找条款”中解放出来,专注于更高价值的判断。

AWS ML1个月前原文

在构建AI Agent时,开发者常面临跨会话组织记忆的挑战,导致上下文检索不相关或出现安全漏洞。Amazon Bedrock AgentCore Memory通过**命名空间**(namespace)机制,为长期记忆提供了结构化组织、精确检索和访问控制的能力。本文将深入讲解命名空间的设计模式,帮助你构建高效、安全的记忆系统。 ## 什么是命名空间? 命名空间本质上是**层次化路径**,用于组织AgentCore Memory资源中的长期记忆记录。你可以将其类比为文件系统中的目录路径——每个记忆记录都存储在一个命名空间下,例如 `/actor/customer-123/preferences/` 存储用户偏好,`/actor/customer-123/session/session-789/summary/` 存储会话摘要。这种结构支持在任意层级进行检索,而不像传统分区键那样仅支持精确匹配。 ## 设计命名空间的关键考量 在设计命名空间层次结构前,需要明确三个核心问题: - **谁需要访问这些记忆?** 是单个用户、一个Agent的所有用户,还是跨Agent共享? - **需要什么粒度的检索?** 是按会话摘要、跨会话偏好,还是全局规则? - **隔离边界如何定义?** 一个用户的记忆是否应该对其他用户可见? ## 检索模式与命名空间策略 命名空间支持两种主要检索模式:**精确匹配**和**层次化前缀匹配**。例如,检索 `/actor/customer-123/session/` 下的所有记录,可以获取该用户所有会话记忆;而检索 `/actor/customer-123/` 则能获取该用户的所有记忆(包括偏好和会话摘要)。 ### 常见设计模式 1. **用户隔离模式**:为每个用户分配独立命名空间(如 `/user/{userId}`),确保数据隔离。适合个人助理类Agent。 2. **会话聚合模式**:在用户命名空间下按会话组织(如 `/user/{userId}/session/{sessionId}`),便于跟踪对话历史。 3. **角色/权限模式**:在命名空间中嵌入角色信息(如 `/role/admin/`),结合IAM策略实现细粒度访问控制。 ## 基于IAM的访问控制 AgentCore Memory与AWS IAM深度集成。你可以通过IAM policy限制特定命名空间的读写权限,例如: ```json { "Effect": "Allow", "Action": "bedrock:RetrieveMemory", "Resource": "arn:aws:bedrock:region:account:agent-memory/...", "Condition": { "StringLike": { "bedrock:MemoryNamespace": "/actor/customer-123/*" } } } ``` 这样,即使多个Agent共享同一记忆资源,也能确保每个用户只能访问自己的数据。 ## 最佳实践总结 - **从检索模式出发**:先设计查询需求,再反推命名空间结构。 - **保持层次扁平**:避免过深嵌套,建议不超过5层。 - **预留扩展性**:为未来可能的新维度(如地域、版本)预留命名空间层级。 - **结合IAM最小权限原则**:为每个命名空间路径设置明确的访问边界。 通过合理的命名空间设计,AgentCore Memory能够支撑从单用户到企业级的多租户场景,让AI Agent的记忆既准确又安全。

AWS ML1个月前原文

全球投资管理巨头Vanguard在构建其“虚拟分析师”解决方案时,发现挑战的核心并非机器学习模型本身,而是数据架构。本文深入剖析Vanguard如何通过**八大AI就绪数据原则**,结合AWS服务,打破数据孤岛,让分析师无需编写SQL即可用自然语言查询复杂数据集。从跨团队协作到元数据管理,Vanguard的实践揭示了企业落地对话式AI的关键——先让数据“准备好”迎接AI。 ## 从SQL到自然语言:挑战与转机 Vanguard的金融分析师过去常常需要花费数天时间等待数据团队编写复杂的SQL查询,才能获取决策所需的信息。这种低效的流程不仅拖慢了业务节奏,也限制了分析师深入洞察数据的能力。当团队启动**虚拟分析师(Virtual Analyst)**项目时,他们本以为最大的难点在于选择合适的基础模型,但随着项目推进,一个更根本的问题浮出水面:**数据基础设施尚未为AI做好准备**。 最先进的模型也需要扎实的数据基础才能输出可靠结果。Vanguard因此将重心从“优化AI能力”转向“构建AI就绪的数据架构”。这要求数据不仅存储正确,还要具备语义上下文和元数据管理能力,使AI工具能够理解数据背后的业务含义。 ## 八大原则:打造AI就绪数据 Vanguard总结出**八项指导原则**,贯穿数据治理、元数据标准化、访问控制等环节。例如,数据必须具有**明确的语义标签**,让模型能区分“客户资产”与“交易量”等不同概念;同时需要**细粒度的权限管理**,确保AI在生成答案时自动过滤无权访问的数据。这些原则并非纸上谈兵,而是通过AWS的**Glue、Lake Formation、Athena**等服务逐一落地。 ## 跨团队协作:打破孤岛是关键 虚拟分析师的成功离不开一个关键因素:**跨团队协作**。Vanguard将数据工程师、业务分析师、合规官、安全团队和业务方拉到同一张桌前。数据工程师负责技术基础设施,业务分析师提供领域知识,合规与安全团队确保数据使用符合监管要求。这种协作模式让数据在源头就具备“AI就绪”属性,而非事后补救。 ## 业务成果与启示 经过数月的迭代,虚拟分析师实现了**查询响应时间从天级缩短到分钟级**,分析师无需SQL技能即可自主获取洞察。虽然Vanguard未披露具体投资回报率,但明确表示该方案显著提升了数据民主化水平。对于希望部署类似对话式AI的企业,Vanguard的教训值得借鉴:**不要先选模型再准备数据,而应先打造AI就绪的数据底座**。

AWS ML1个月前原文

## 引言:MCP 代理的治理需求 当 AI 代理通过模型上下文协议(MCP)连接工具时,它们能够执行数据库查询、API 调用、文件操作乃至第三方服务集成。但在生产环境中,这些交互需要遵循组织的安全策略,包括对工具输入进行清理、生成特定格式的审计轨迹、或在协议层对敏感数据进行脱敏。这些需求源于内部治理标准、行业法规以及生产环境的特殊性。 ## Amazon Bedrock AgentCore Gateway 的现有方案 **Amazon Bedrock AgentCore Gateway** 提供了集中化的治理与控制能力,支持语义工具发现、托管凭证和策略执行。对于需要在网关请求路径中嵌入自定义逻辑的组织,Gateway 支持 **Lambda 拦截器**,允许在每次工具调用时以 AWS Lambda 函数的形式运行验证、转换或过滤代码。这种方式能够将自定义逻辑与网关配置一同管理。 然而,一些组织已经投入资源开发了与内部库或本地合规系统紧密耦合的自定义 MCP 过滤逻辑,他们希望直接在 AgentCore Runtime 上复用这些逻辑,而无需重构为 Lambda 函数。另一些组织则在多个系统或混合环境中运营,将控制逻辑作为独立 MCP 服务器运行,比系统特定的拦截器更具可移植性。 ## 无服务器 MCP 代理的互补模式 对于这些场景,在 **AgentCore Runtime** 上运行无服务器 MCP 代理提供了一种互补模式。AgentCore Runtime 是一个完全托管的计算环境,用于部署 AI 代理和 MCP 服务器。它提供无服务器基础设施,具备自动扩展、通过 Amazon CloudWatch 和 OpenTelemetry 的内置可观测性,以及用于身份验证和授权的 AgentCore Identity。由于 Runtime 原生支持 MCP 协议,它可以托管 MCP 服务器,包括那些为 MCP 流量添加自定义控制的 MCP 代理。 ## 构建无状态 MCP 代理 本文展示了如何在 AgentCore Runtime 上构建和部署一个**无状态 MCP 代理**,让你能够在协议层实现可编程的控制层。该代理作为中间件,拦截所有 MCP 请求并执行自定义逻辑(如输入验证、数据脱敏、审计日志记录),然后再转发到后端工具。由于采用无服务器架构,无需管理底层基础设施,代理可根据流量自动伸缩。 ## 关键优势 - **可编程性**:通过自定义代码实现任意治理规则,无需重构现有逻辑。 - **可移植性**:作为独立 MCP 服务器,可跨不同环境部署。 - **无服务器运维**:自动扩展、内置可观测性,降低运维负担。 - **安全性**:利用 AgentCore Identity 进行身份验证和授权。 ## 小结 对于需要在 AI 代理与工具之间实施精细化控制的企业,在 Amazon Bedrock AgentCore Runtime 上运行无服务器 MCP 代理是一种灵活且高效的方案。它既保留了现有投资,又提供了生产级的安全性、可观察性和可扩展性。

AWS ML1个月前原文

随着用户对实时、自然交互的需求日益增长,将传统文本智能体迁移为语音助手已成为金融、医疗、教育、社交和零售等多个行业的迫切需求。本文深入探讨了使用 **Amazon Nova 2 Sonic** 完成这一迁移过程的关键要点,对比了文本智能体与语音助手在输入方式、响应风格、延迟要求和交互模式上的本质差异,并提供了架构设计、工具复用、系统提示词调整等实践指导。 ### 文本与语音:完全不同的交互范式 虽然表面上只是添加语音接口,但两者在核心设计上存在显著区别: - **用户输入**:文本智能体依赖用户打字,用户可以自行控制节奏;语音助手则处理实时语音流,支持打断(barge-in),静默本身也传递信号。 - **响应风格**:文本可以输出段落、列表、表格和链接,一次性提供丰富信息;语音则适合短句、逐步输出,常需要确认循环(“需要我继续吗?”)。 - **延迟预算**:文本场景中,打字动画可以掩盖等待;语音场景则要求超低延迟,任何沉默都会被用户感知为故障。 - **交互模式**:文本是严格的请求→响应模式;语音则是流动的、可重叠的、可打断的,需要语音活动检测(VAD)和打断功能。 - **传输协议**:文本通常基于 HTTP/REST/SSE 的无状态请求-响应;语音需要双向流式传输,维持持久连接。 ### 响应设计的关键转变 文本智能体可以一次性输出大段文字,用户自行阅读、滚动、复制;语音助手则必须将信息拆解为短小、清晰的语音片段,避免信息过载。例如,在金融场景中,查询账户余额时,语音助手应直接回答“您的活期余额是 12,500 元”,而非输出包含交易明细的表格。 ### 架构与工具复用策略 迁移过程中,核心业务逻辑(如工具调用、子智能体)可以复用,但需要调整**系统提示词**以适应语音交互。Amazon Nova 2 Sonic 支持双向流式传输,开发者可以利用其低延迟特性构建自然的对话体验。建议采用以下架构: 1. **语音识别(ASR)**:将用户语音转为文本。 2. **对话管理**:基于 Amazon Nova 2 Sonic 的流式推理,处理打断和上下文。 3. **文本转语音(TTS)**:将响应转为自然语音。 4. **工具与子智能体**:复用现有逻辑,但调整输出格式为适合语音的短句。 ### 避免常见陷阱 - **延迟优化**:确保端到端延迟在 200ms 以内,避免用户等待。 - **打断处理**:实现 VAD 和打断机制,允许用户随时插话。 - **提示词适配**:将系统提示词改为口语化风格,要求模型输出简洁、逐步的响应。 - **测试覆盖**:使用真实语音场景测试,包括嘈杂环境、不同口音和语速。 ### 快速上手 Amazon Nova 提供了示例 Skill,可与 Kiro、Claude Code 等 AI IDE 配合,自动将文本智能体转换为语音智能体,大幅降低迁移门槛。开发者可参考 Nova 示例仓库中的相关资源。 通过合理规划响应设计、架构调整和提示词优化,结合 Amazon Nova 2 Sonic 的强大能力,企业可以高效地将现有文本智能体升级为支持实时语音交互的智能助手,满足用户对自然对话体验的期待。

AWS ML1个月前原文

## 快讯:NVIDIA Nemotron 3 Nano Omni 登陆 SageMaker JumpStart **亚马逊云科技与 NVIDIA 联合宣布,NVIDIA Nemotron 3 Nano Omni 多模态大模型即日起在 Amazon SageMaker JumpStart 上提供零日可用。** 这款拥有 300 亿总参数(30B A3B)的模型,采用 Mamba2 Transformer 混合专家(MoE)架构,融合了视频、音频、图像和文本理解能力,旨在为企业的智能体工作流提供统一的“感知中枢”。 ### 架构与核心能力 Nemotron 3 Nano Omni 并非简单的多模型拼接,而是将三大组件整合为一个端到端系统: - **语言骨干**:Nemotron 3 Nano LLM - **视觉编码器**:CRADIO v4-H(处理图像与视频) - **语音编码器**:Parakeet(负责音频转录与理解) 该模型支持 **131K token 的上下文长度**,具备思维链推理、工具调用、JSON 输出以及词级时间戳转录能力。模型以 FP8 精度在 SageMaker JumpStart 上提供,兼顾了企业级工作负载的准确性与效率,并采用 **NVIDIA Open Model Agreement** 商用许可。 ### 解决企业智能体的痛点 当前企业中的智能体系统通常需要为视觉、语音和语言分别调用不同模型,这导致延迟高、编排复杂、上下文碎片化,且成本与故障概率随模型数量增加而上升。Nemotron 3 Nano Omni 通过单一推理通路同时处理多模态输入,充当智能体系统中的 **多模态感知子智能体**,为上层决策提供“眼睛和耳朵”。 ### 典型应用场景 1. **屏幕理解与文档分析**:自动解读 UI 界面、图表、PDF 等视觉内容。 2. **音视频内容处理**:同时转录语音并分析视频画面,生成带时间戳的结构化摘要。 3. **多模态对话助手**:接收用户上传的图片、语音或视频片段,结合文本指令进行推理回答。 4. **自动化工作流**:在客服、数据标注、内容审核等环节中,替代多个专用模型串联的复杂管线。 ### 部署与获取 用户可通过 Amazon SageMaker JumpStart 控制台直接部署模型,或使用 SDK 进行编程调用。由于模型已针对 SageMaker 优化,企业可以快速将其集成到现有 AI 应用中,而无需管理底层基础设施。 NVIDIA Nemotron 3 Nano Omni 的发布,标志着多模态模型在企业级落地中迈出了重要一步——从“拼凑多模型”走向“原生多模态”。对于正在构建下一代 AI 智能体的团队来说,这或许是一个值得关注的架构选择。

AWS ML1个月前原文

## 从手动重复到智能自动化:Amazon Quick Flows 实战指南 你是否曾为每周一的手动数据搬运和报告制作而苦恼?将数据从多个系统复制粘贴,再为不同利益相关者调整格式——这样的重复任务不仅耗时,还容易出错。**Amazon Quick Flows** 正是为此而生:它允许你用自然语言描述需求,无需编码或机器学习专业知识,即可构建 AI 工作流,实现任务自动化。 ### 什么是 Amazon Quick Flows? Quick Flows 是 **Amazon Quick** 产品线的一部分,后者是一组 AI 驱动的功能集合,旨在通过自然语言对话帮助用户分析数据、自动执行任务并获得洞察。Quick Flows 专注于任务自动化,让你把日常重复工作转化为可复用、可分享的 AI 工作流,提升个人和团队效率。 ### 上手前准备 确保你拥有一个活跃的 AWS 账户,并已启用 Amazon Quick 且具备 Quick Flows 的访问权限。具体设置步骤可参考 Amazon Quick 用户指南。 > 注意:Amazon Quick 使用生成式 AI,实际输出可能因模型迭代而有所差异,这属于正常现象。重点在于理解概念和收益,而非追求完全一致的输出。 ### 构建你的第一个工作流:财务绩效分析器 以下示例将引导你打造一个“**财务绩效分析器**”,它能自动从网络获取实时市场数据,分析关键指标,并生成专业摘要。 1. **进入 Quick Flows**:登录 Quick,导航至 Quick Flows。界面会显示一个文本区域,用于描述你的工作流,并附带示例提示。 2. **输入提示**:在文本框中输入类似这样的描述: > “创建一个工作流,能够收集全面的公司财务研究数据,设计一个工具,该工具可以……” (具体提示可根据实际需求调整,例如指定公司名称、分析维度等。) 3. **自定义与运行**:Quick Flows 会根据你的自然语言描述自动生成工作流步骤。你可以进一步调整参数(如数据源、输出格式),然后一键运行。 ### 进阶场景:员工入职自动化 除了财务分析,Quick Flows 还能处理更复杂的多步骤流程。例如,**员工入职自动化** 可以整合以下环节: - 从 HR 系统获取新员工信息 - 自动创建 IT 账号和邮箱 - 发送欢迎邮件并分配培训任务 - 生成入职进度报告 所有步骤均通过自然语言定义,无需编写代码。你还可以将工作流分享给团队,实现标准化协作。 ### 为什么选择 Quick Flows? - **零代码门槛**:业务人员也能直接上手。 - **自然语言驱动**:用“人话”描述流程,AI 理解并执行。 - **可复用与分享**:一次构建,多次使用,支持团队共享。 - **与 Amazon Quick 生态集成**:可直接调用平台内的数据、洞察和操作。 ### 小结 Amazon Quick Flows 代表了 AI 自动化工具的一个重要方向:**降低门槛,让非技术人员也能享受自动化红利**。从财务分析到员工入职,这些曾经需要数小时的手动工作,如今可以在几分钟内通过自然语言描述完成。对于希望提升团队效率的企业而言,这无疑是一个值得尝试的利器。

AWS ML1个月前原文

随着企业数据不断增长,如何确保 Amazon Bedrock 知识库与 Amazon S3 数据源之间的实时同步成为关键挑战。本文介绍一种基于事件驱动架构的无服务器解决方案,能够自动检测 S3 事件并触发数据摄入任务,同时严格遵守 Amazon Bedrock 的服务配额与速率限制,避免 API 过载,并提供全面的监控能力。 ## 背景与挑战 Amazon Bedrock 知识库允许用户将企业私有数据注入基础模型,以生成更相关、准确和个性化的回答。然而,当 S3 中的文档(包括元数据文件)发生添加、修改或删除时,知识库需要手动触发同步。对于频繁更新内容、多用户协作上传文档、以及需要实时响应的应用(如客服系统)而言,手动同步效率低下且容易出错。因此,实现自动化同步成为提升运营效率的必然需求。 ## 核心设计考量:服务配额与限流 要实现可靠的自动化,必须仔细处理 Amazon Bedrock 的保护性约束。当前服务配额规定: - **每个 AWS 账户最多同时运行 5 个摄入任务**(防止资源耗尽) - **每个知识库同时只能运行 1 个摄入任务**(确保聚焦处理) - **每个数据源同时只能运行 1 个摄入任务**(维护数据一致性) 此外,`StartIngestionJob` API 的速率限制为 **每 10 秒 1 次请求**(0.1 请求/秒)。这些配额因区域而异,需参考最新文档。 ## 解决方案架构 该方案采用无服务器、事件驱动架构,核心组件包括: - **Amazon S3 事件通知**:当 S3 存储桶中发生对象创建、更新或删除时,自动触发事件。 - **AWS Lambda 函数**:作为编排层,接收 S3 事件,检查当前摄入任务状态,并决定是否调用 StartIngestionJob API。Lambda 函数会**维护一个状态表**(例如使用 Amazon DynamoDB),记录每个知识库/数据源的最近摄入时间,以避免重复触发。 - **Amazon SQS 或 EventBridge**:用于缓冲事件并控制请求速率,确保不超过 API 限流。 - **Amazon CloudWatch**:监控所有操作,记录成功/失败事件,并发送告警。 ## 工作流程示例 假设内容团队在发布期间更新多个文件: 1. 用户上传文件到 S3,触发事件。 2. Lambda 函数收到事件后,查询 DynamoDB 检查该知识库是否已有正在运行的摄入任务。 3. 如果无任务且未超过配额,则调用 StartIngestionJob API;否则将事件暂存到 SQS 队列中延迟重试。 4. 任务完成后,通过 CloudWatch 记录日志并更新状态表。 ## 结论 此自动化方案不仅解放了运维人员的手动操作,还通过智能排队和配额感知机制,确保系统在 Amazon Bedrock 的约束下稳定运行。对于需要高频数据同步的企业(如内容管理、实时客服、文档协作平台),该架构提供了一种可扩展、可监控的实践路径。未来随着 Bedrock 服务配额的提升,该方案也能轻松适配更高吞吐场景。

AWS ML1个月前原文

## 概述 企业构建 AI 智能体时,往往需要超越托管基础模型(FM)服务的能力。它们需要对性能调优、规模化成本优化、合规性与数据驻留、模型选择以及与现有安全架构集成的网络配置进行精细控制。Amazon SageMaker AI 端点正好满足这些需求,它让组织能够控制计算资源、扩展行为和基础设施部署,同时享受 AWS 托管运维层的好处。这些由 SageMaker AI 部署的模型可以驱动 AI 智能体,处理对话工作负载,并与 Amazon Bedrock 上可用的 FM 等编排框架集成。区别在于,组织保留了推理发生方式和位置的架构控制权。 本文演示了如何使用部署在 SageMaker AI 端点上的模型,通过 Strands Agents SDK 构建 AI 智能体。你将学习如何从 SageMaker JumpStart 部署基础模型,将其与 Strands Agents 集成,并使用 SageMaker Serverless MLflow 建立生产级可观测性以进行智能体追踪。此外,我们还将介绍如何在多个模型变体间实施 A/B 测试,并使用 MLflow 指标评估智能体性能,展示如何在你控制的 infrastructure 上构建、部署和持续改进 AI 智能体。 ## 核心技术组件 ### Strands Agents SDK **Strands Agents SDK** 是一个开源 SDK,采用模型驱动的方法,只需几行代码即可构建和运行 AI 智能体。它从简单到复杂的智能体用例都能胜任,支持从本地开发到生产部署的全流程。 ### Amazon SageMaker JumpStart **Amazon SageMaker JumpStart** 是一个机器学习(ML)中心,可以加速你的 ML 之旅。通过它,你可以基于预定义的质量和可责任指标快速评估、比较和选择基础模型,执行文章摘要、图像生成等任务。 ### SageMaker AI MLflow **SageMaker AI MLflow** 是一项托管能力,通过实验跟踪、模型版本管理和部署管理来简化机器学习生命周期。 ## 实践步骤 本文涵盖了以下关键步骤: 1. **在 SageMaker AI 上部署模型**:从 SageMaker JumpStart 部署基础模型。 2. **集成 Strands 与 SageMaker AI**:将部署的 SageMaker AI 模型与 Strands Agents 结合使用。 3. **设置智能体可观测性**:配置 SageMaker AI MLflow 应用以进行智能体追踪。 4. **实施 A/B 测试与评估**:在多个模型变体间进行 A/B 测试,并使用 MLflow 指标评估性能。 ## 对 AI 行业的意义 这一方案为企业提供了在自主控制的基础设施上构建 AI 智能体的完整路径。与完全托管的服务相比,它带来了更高的灵活性和合规性,尤其适合金融、医疗等对数据主权和网络控制有严格要求的行业。结合 MLflow 的可观测性,团队可以持续迭代优化智能体行为,实现从开发到生产的闭环改进。

AWS ML1个月前原文

Popsa 是一家帮助用户从照片库中挖掘珍贵记忆的技术公司,业务覆盖 50 多个国家和 12 种语言。其核心产品 Photo Book 通过设计自动化和 AI 技术,将日常照片转化为精美的印刷相册。近期,Popsa 利用 Amazon Bedrock 和 Amazon Nova 模型系列对其“标题建议”功能进行了全面升级,实现了更智能、更个性化的标题生成。 ## 从“法国2024”到创意标题 过去,许多用户面对 Photo Book 封面时只会输入“法国2024”、“西班牙照片”甚至“照片”这类平淡无奇的标题。Popsa 早在 2021 年就推出了标题建议功能,但原有方案依赖规则和简单模板,创意有限。借助生成式 AI,Popsa 希望让标题真正“活”起来——既能反映照片内容,又能传递情感和品牌调性。 ## 技术架构:元数据+视觉+检索增强生成 Popsa 的新方案整合了多种技术手段:首先,从用户选定的照片中提取元数据(如时间戳、地理坐标),并通过设备端卷积神经网络识别场景特征(如海滩、山脉、聚会等)。然后,利用 Amazon Bedrock 提供的统一 API,结合 **Anthropic Claude 3 Haiku** 和 **Amazon Nova Lite/Pro** 模型,对信息进行综合处理。 具体流程包括: - **检索增强生成**:从品牌语料库中检索与场景匹配的标题模板和关键词。 - **多模型协作**:Claude 3 Haiku 负责快速理解用户意图,Amazon Nova 系列则擅长生成多语言、风格一致的创意文本。 - **输出优化**:最终生成 12 种语言的标题和副标题,确保符合品牌调性。 ## 效果与价值 升级后的标题建议功能带来了显著提升: - **质量与效率**:标题创意性大幅提高,同时响应时间缩短,成本降低。 - **用户行为改善**:更多用户选择使用建议标题,而非手动输入。 - **商业指标增长**:用户满意度和购买率均有可量化提升。 - **规模化应用**:截至 2025 年,已自动生成超过 **550 万条个性化标题**。 ## 行业启示 Popsa 的实践展示了生成式 AI 在垂直场景中的落地路径:不是简单套用大模型,而是将模型能力与领域知识(元数据、视觉特征、品牌资产)深度融合。通过 Amazon Bedrock 的多模型编排,Popsa 在保证创意质量的同时控制了成本,这对许多希望引入 AI 但又担心预算超支的企业具有参考价值。 随着多模态模型和检索增强技术的成熟,类似的应用将越来越多——从相册标题到营销文案、从产品描述到个性化推荐,AI 正在从“生成内容”走向“生成有效内容”。对于用户而言,这意味着更少的选择困难,更多的惊喜体验。

AWS ML1个月前原文

企业中的每一位员工都期望能更快、更明智地做出决策,但所需信息往往散落在不同系统中。**劳动力智能**——组织内的人员构成、绩效表现与能力缺口——是企业最宝贵的信号之一,而 **Visier** 这类平台正是为此而生。然而,只有当这些智能与内部政策、计划和上下文相结合时,其价值才能完全释放。**Amazon Quick** 作为智能体 AI 工作空间,恰好承担了这一连接角色:它将企业知识、商业智能和工作流自动化集于一体,让智能体能够同时检索和推理多个数据层,结合实时数据与组织上下文生成可直接行动的答案。 ## 集成架构:MCP 协议打通数据孤岛 本次集成通过 **Model Context Protocol (MCP)** 将 Visier 劳动力 AI 平台与 Amazon Quick 连接,为每位知识工作者提供统一的智能体工作空间。Visier 负责提供实时劳动力数据和组织上下文,而 Amazon Quick 则让用户无需切换工具即可对对话结果采取行动。 ## 实际场景:HR 与财务的协同工作流 文章以一次领导层会议前的准备为例,展示了两位不同角色员工的典型工作流: - **Maya(HR 业务伙伴)**:需要准备一份劳动力健康简报,涉及实时人员数据、内部目标、招聘政策与历史背景。 - **David(财务经理)**:需要跟踪人头数与预算的匹配情况,同样需要跨多个数据源的综合答案。 Amazon Quick 的智能体能够同时检索 Visier 中的劳动力数据、企业知识库中的政策文档以及预算系统,将碎片信息整合为可行动的洞察。例如,当 Maya 询问“当前关键岗位的流失率是否在警戒线内”时,智能体不仅返回 Visier 的数据,还会结合公司最新的留任政策给出建议。 ## 价值与意义:从信息到行动 这种集成的核心价值在于**打破数据与行动之间的壁垒**。过去,HR 可能需要先登录 Visier 查看数据,再切换到邮件系统起草行动方案,最后到审批系统提交申请。现在,这一切都可以在 Amazon Quick 的对话界面中完成。智能体不仅能回答问题,还能触发工作流,例如:自动生成离职风险报告、向相关经理发送提醒,或直接创建预算调整工单。 对于企业而言,这意味着**决策速度与质量的显著提升**。劳动力数据不再是被动查看的报表,而是嵌入日常决策流程的主动信号。同时,由于 Amazon Quick 能理解组织上下文,它给出的答案更符合企业实际,而非单纯的数据堆砌。 ## 结语 Visier 与 Amazon Quick 的集成展示了 AI 智能体在企业场景中的落地路径:通过标准化协议(MCP)连接专业数据平台与通用工作空间,让知识工作者在统一界面中完成“提问-分析-行动”的闭环。这不仅是技术层面的整合,更代表了企业 AI 从“信息检索”向“智能代理”的演进方向。

AWS ML1个月前原文
Amazon Quick 营销版:从零散数据到战略行动

Amazon Quick 正在重新定义营销人员的工作方式。这款工具可在数分钟内完成设置,而到一天结束时,你可能会惊讶于自己过去如何能在没有它的情况下工作。Quick 能连接你的应用程序、工具和数据,创建一个个性化的知识图谱,学习你的优先级、偏好和人脉网络。 ## 核心能力:从数据孤岛到统一洞察 营销团队常常面临数据分散的挑战——广告平台、CRM、社交媒体、邮件营销工具各自为政,难以形成统一视图。Amazon Quick 通过自动整合这些数据源,构建一个动态更新的知识图谱,让营销人员无需手动切换系统即可获得全景式洞察。 例如,当你在 Quick 中连接 Google Ads、Salesforce 和 Mailchimp 后,系统会自动关联客户行为、广告投放效果和邮件互动数据。你可以直接提问:“上个月哪些广告渠道带来的客户生命周期价值最高?”Quick 会基于知识图谱给出答案,并标注数据来源和置信度。 ## 工作流变革:从被动查数到主动行动 传统营销分析流程通常是:发现问题 → 导出数据 → 制作报告 → 开会讨论 → 制定行动。Quick 试图压缩这个链条,让洞察直接转化为行动。 - **实时问答**:用自然语言查询数据,例如“本周哪个细分市场的转化率下降最快?”系统会立即返回图表和建议。 - **智能提醒**:当关键指标异常时,Quick 主动推送通知,并附带可能的原因分析和建议操作。 - **自动化任务**:根据洞察自动触发工作流,例如当某个广告系列 ROI 低于阈值时,自动暂停投放并通知负责人。 ## 行业背景与价值定位 当前营销技术栈日益复杂,据 Gartner 调查,营销团队平均使用 12 个以上的独立工具。数据整合与洞察提取成为主要瓶颈。Amazon Quick 的定位是“AI 原生营销助手”,而非传统 BI 工具的升级版。其核心差异在于: 1. **零配置上手**:无需编写 SQL 或配置数据管道,通过连接器即可快速接入主流平台。 2. **持续学习**:知识图谱会随着使用频率和反馈不断优化,越用越懂你的业务。 3. **行动导向**:不只是“看到数据”,而是直接推动决策和执行。 ## 适用场景与潜在影响 对于中小型营销团队,Quick 可能显著降低数据分析门槛;对于大型企业,它可作为现有数据中台的前端交互层,让一线营销人员自助获取洞察。不过,其效果高度依赖于数据源的丰富度和数据质量。 **小结**:Amazon Quick 试图解决营销领域一个长期痛点——数据丰富但洞察贫乏。通过知识图谱和 AI 问答,它让“从数据到行动”的链条变得更短、更智能。如果其扩展能力能覆盖更多行业垂直场景,有望成为营销技术栈中的关键一环。

AWS ML1个月前原文

医疗健康与生命科学领域的决策越来越依赖多模态数据——从基因组学、医学影像到临床试验报告和电子健康记录,数据来源多样但往往彼此割裂。传统分析方法让决策者错失跨数据类型的关联洞察,而多模态生物基础模型(BioFM)的出现正在改变这一局面。 ## 什么是多模态生物基础模型? 生物基础模型(BioFM)是在大规模生物数据集上预训练的 AI 模型,能够针对特定医疗和生命科学任务展现先进能力。目前常见的 BioFM 应用覆盖药物发现与临床开发全链条,其中蛋白质结构与分子设计约占 20%,组学数据分析(DNA、表观遗传、RNA)占 30%,医学影像占 15%,临床文档处理占 35%。 传统单模态 BioFM(如仅基于氨基酸序列预测蛋白质结构)已取得突破性成就,2024 年诺贝尔化学奖就授予了相关研究。而多模态 BioFM 更进一步,能够同时处理文本、图像、音频等多种数据类型,并在单一模型中实现跨模态推理——例如通过文本提示生成新图像,或将图像与描述自动匹配。 ## 典型案例与应用场景 Latent Labs 推出的 **Latent-X1** 和 **Latent-X2** 是多模态 BioFM 的代表作。它们不仅能预测蛋白质的 3D 结构,还能基于文本描述生成新的蛋白质序列,将分子设计与自然语言理解无缝衔接。这种能力在靶点发现、先导化合物优化等环节中极具价值——科学家可以用自然语言描述“我需要一个能结合特定靶点且具有口服生物利用度的分子”,模型即可输出候选结构。 在临床开发阶段,多模态 BioFM 可以整合病理图像、基因组变异和患者病史,辅助精准诊断和个性化治疗方案推荐。例如,将肿瘤切片图像与患者的基因突变数据、既往用药记录联合分析,模型能更准确地预测免疫疗法应答概率。 ## AWS 如何赋能多模态 BioFM 的构建与部署? AWS 为多模态 BioFM 提供了统一的技术环境,涵盖生物数据处理、模型开发、可扩展算力以及合作伙伴工具链。具体能力包括: - **数据整合**:通过 Amazon SageMaker 和 AWS Glue 连接并预处理来自不同来源的组学、影像、文本数据。 - **高效训练**:利用 Amazon EC2 实例(如 P5 和 Trn1 系列)加速大规模模型训练,支持分布式并行策略。 - **安全部署**:借助 Amazon Bedrock 和 SageMaker 端点,将模型快速部署到生产环境,同时满足 HIPAA 等合规要求。 - **合作伙伴生态**:与 Insilico Medicine、Recursion Pharmaceuticals 等企业合作,提供预训练模型和领域专用工具。 ## 小结 多模态生物基础模型正在打破数据孤岛,让药物研发和临床决策从“碎片化分析”走向“全局理解”。随着模型规模和训练数据的持续增长,未来我们有望看到更精准的虚拟筛选、更高效的临床试验设计,以及真正个性化的治疗方案。AWS 提供的端到端基础设施,正加速这一愿景从实验室走向临床。

AWS ML1个月前原文
利用 Parakeet-TDT 与 AWS Batch 实现规模化、低成本的多语言音频转录

随着企业媒体库、客服录音和视频内容规模的急剧增长,自动语音识别(ASR)服务的成本往往成为规模化应用的主要瓶颈。AWS 近日分享了一套基于 **NVIDIA Parakeet-TDT-0.6B-v3** 开源模型与 **AWS Batch** 的解决方案,能够以事件驱动的方式自动处理上传至 Amazon S3 的音频文件,并通过多项优化技术将转录成本降至“每音频小时不到一分钱”的水平。 ## 核心模型:Parakeet-TDT 为何高效? **Parakeet-TDT-0.6B-v3** 是 NVIDIA 于 2025 年 8 月发布的开源多语言 ASR 模型,采用 **Token-and-Duration Transducer(TDT)架构**。与传统模型逐帧处理音频不同,TDT 能够同时预测文本词元及其持续时间,从而智能跳过静音段和冗余处理环节。这一设计使得推理速度可达到实时速度的数十倍甚至更高,用户只需为实际计算时间付费,而非整段音频时长。 该模型支持 **25 种欧洲语言**,包括英语、法语、德语、西班牙语、俄语等,并具备自动语言检测功能。在干净音频条件下,词错误率(WER)为 6.34%;在 0 dB 信噪比的嘈杂环境中,WER 为 11.66%。模型采用 CC-BY-4.0 许可,允许灵活的商业使用。 ## 部署架构:如何实现规模化与成本优化? 整个方案围绕 **事件驱动的流水线** 构建: 1. 音频文件上传至 **Amazon S3** 存储桶。 2. 触发事件通知,启动 **AWS Batch** 作业。 3. Batch 在 **GPU 加速实例**(如 G6、G5、G4dn)上部署 Parakeet-TDT 模型进行转录。 4. 转录结果写回 S3 或下游系统。 为了进一步降低成本,方案中融入了两项关键策略: - **使用 Amazon EC2 Spot 实例**:利用 AWS 的闲置计算容量,成本可比按需实例降低最高 90%。 - **缓冲流式推理**:结合模型的高效架构,实现“爆发式”计算,仅在实际需要处理音频片段时占用资源。 ## 成本效益与适用场景 根据 AWS 提供的基准测试,该方案可将大规模音频转录的成本控制在 **每音频小时不到一分钱**。这对于以下场景尤为具有吸引力: - **媒体库归档与字幕生成**:处理海量历史音视频内容。 - **客服中心分析**:持续分析通话录音,用于质量评估或训练数据准备。 - **AI 训练数据准备**:为语音或语言模型生成标注文本。 - **多语言内容处理**:服务于欧洲市场,无需为不同语言维护多个模型。 ## 技术选型建议 - **实例类型**:**G6 实例(搭载 NVIDIA L4 GPU)** 在测试中展现出最佳性价比。G5(A10G)、G4dn(T4)也可良好运行,而 P5(H100)或 P4 实例则适合追求最大吞吐量的场景。 - **资源要求**:模型最低需要 4 GB GPU 显存,8 GB 可获得更好性能。 - **音频长度**:模型支持最长 3 小时的音频(使用局部注意力模式)。 ## 小结 通过将高性能开源 ASR 模型与 AWS 的弹性计算、存储和编排服务相结合,企业能够构建一个既高度可扩展又极具成本效益的音频转录流水线。Parakeet-TDT 的 TDT 架构是降低计算成本的核心创新,而 AWS Batch 和 Spot 实例则提供了规模化落地的运维与成本基础。对于正在寻找托管 ASR 服务替代方案或需要处理多语言音频的组织而言,这一方案提供了一个值得深入评估的技术路径。

AWS ML1个月前原文

## 亚马逊 SageMaker AI 推出生成式 AI 推理优化推荐 随着企业竞相将生成式 AI 模型部署到生产环境,以驱动智能助手、代码生成工具、内容引擎和面向客户的应用程序,一个核心挑战日益凸显:从模型到生产部署的过程往往需要数周时间。这一延迟主要源于复杂的 GPU 配置选择、优化技术应用以及手动基准测试。 今天,**亚马逊 SageMaker AI** 宣布支持**优化的生成式 AI 推理推荐**功能。该功能旨在通过提供经过验证的、最优的部署配置及性能指标,帮助模型开发者将精力集中在构建更准确的模型上,而非管理基础设施。 ### 部署挑战:从模型到生产为何耗时数周? 大规模部署模型需要生产推理端点来满足明确的性能目标,无论是延迟服务级别协议(SLA)、吞吐量目标还是成本上限。实现这些目标需要找到合适的组合,包括: - **GPU 实例类型**(超过十几种选择) - **服务容器** - **并行策略** - **优化技术**(如推测解码) 这些因素相互影响,使得决策空间异常庞大。单一部署就涉及从众多选项中做出选择,且所有配置都需要针对特定模型和流量模式进行调优。手动测试和验证这些组合通常耗时数周,严重延迟了模型本应带来的价值。 ### 解决方案:集成 NVIDIA AIPerf 实现标准化基准测试 为了应对这一挑战,AWS 选择了将 **NVIDIA AIPerf**(作为 **NVIDIA Dynamo** 分布式推理框架的模块化组件)直接集成到 Amazon SageMaker AI 中。选择 AIPerf 的原因在于: - 它提供了**详细且一致的指标**。 - 支持**多样化的开箱即用工作负载**。 - 其命令行界面(CLI)、并发控制和数据集选项提供了灵活性,能够以最少的设置快速迭代并测试不同场景。 NVIDIA 开发者关系经理 Eliuth Triana 对此表示:“通过将开源 NVIDIA Dynamo 分布式推理框架的模块化组件直接集成到 Amazon SageMaker AI 中,AWS 正在让企业更轻松、更有信心地部署生成式 AI 模型。AWS 通过深度合作和技术贡献,在推进 AIPerf 方面发挥了重要作用。NVIDIA AIPerf 的集成展示了标准化基准测试如何能够消除数周的手动测试,并为最终用户提供经过验证的、可直接部署的配置。” ### 功能价值:聚焦模型,而非基础设施 新的优化推理推荐功能的核心价值在于: 1. **自动化配置推荐**:系统会根据模型特性和性能目标,自动推荐最优的 GPU 实例、容器和并行策略组合。 2. **提供验证指标**:每个推荐配置都附带详细的性能指标(如延迟、吞吐量),这些指标已经过基准测试验证,减少了用户自行测试的不确定性和时间成本。 3. **提升开发效率**:模型开发者无需再陷入繁琐的基础设施调优和手动基准测试中,可以将更多时间投入到模型本身的改进和创新上。 ### 行业意义与展望 在生成式 AI 快速落地的当下,部署效率已成为企业竞争力的关键一环。AWS 此举将复杂的推理基础设施优化过程部分自动化、标准化,降低了生成式 AI 的应用门槛。它不仅有助于加速企业内部 AI 应用的上市时间,也可能推动整个行业在模型部署最佳实践上形成更一致的标准。 未来,随着模型复杂度的持续增加和优化技术的演进,此类自动化推荐与调优服务的重要性只会与日俱增。Amazon SageMaker AI 的这一步更新,正是为了帮助客户在生成式 AI 的浪潮中,更快地将创意转化为可靠的生产力。

AWS ML1个月前原文

## 亚马逊推出 AgentCore 新功能,大幅简化智能体开发流程 今天,亚马逊宣布为 **Amazon Bedrock AgentCore** 平台推出多项新功能,旨在彻底改变智能体(Agent)的开发体验。这些更新通过移除基础设施障碍,让开发团队能够在几分钟内从概念验证到生产部署,显著加速智能体应用的落地速度。 ### 传统智能体开发的痛点 在传统的智能体开发流程中,团队往往需要花费大量时间解决基础设施问题,而非专注于核心的智能体逻辑。开发人员通常需要: - 集成各种框架(如 LangGraph、LlamaIndex、CrewAI、Strands Agents 等) - 配置存储、身份验证和部署管道 - 编写编排代码来管理模型调用、工具选择、上下文窗口和错误处理 这个过程可能需要数天时间,才能让智能体处理第一个真实任务。许多团队反馈,他们在基础设施搭建上投入的精力远超过对智能体本身有用性的验证。 ### AgentCore 的新解决方案:托管智能体框架 **AgentCore** 的核心设计理念是让开发人员专注于构建智能体逻辑,而非后端基础设施。最新推出的 **托管智能体框架(managed agent harness)** 功能,通过简化的配置方式取代了传统的手动搭建流程。 现在,开发人员只需通过三个 API 调用,即可声明并运行一个智能体,无需编写任何编排代码。具体步骤包括: 1. 定义智能体的功能:指定使用的模型、可调用的工具和遵循的指令 2. AgentCore 自动整合计算资源、工具、内存、身份验证和安全性 3. 在几分钟内获得一个可测试的运行中智能体 ### 关键优势与行业影响 这一更新带来了几个显著的改进: **1. 开发速度的飞跃** 从想法到运行智能体的时间从数天缩短到几分钟,使快速原型设计和迭代成为可能。 **2. 灵活性与可测试性** 尝试不同模型或添加新工具只需修改配置,而非重写代码。开发人员可以在几分钟内测试智能体的多个变体,加速优化过程。 **3. 降低技术门槛** 通过抽象基础设施复杂性,更多团队能够专注于业务逻辑和创新,而非底层技术细节。 ### 在 AI 行业中的定位 随着生成式 AI 和智能体技术的快速发展,市场对高效开发工具的需求日益增长。亚马逊通过 **AgentCore** 的更新,直接回应了开发者在构建实用 AI 应用时面临的核心挑战:基础设施负担过重。 这一举措不仅提升了 **Amazon Bedrock** 平台在 AI 开发工具链中的竞争力,也可能推动整个行业向更标准化、更易用的智能体开发框架发展。对于企业而言,这意味着能够更快地将 AI 创意转化为实际应用,加速数字化转型进程。 ### 小结 **Amazon Bedrock AgentCore** 的新功能标志着智能体开发进入了一个更高效的时代。通过消除基础设施障碍,亚马逊为开发者提供了从原型到生产的无缝体验,有望进一步推动 AI 智能体在各类业务场景中的普及和应用。

AWS ML1个月前原文

亚马逊云科技近日宣布,在**Amazon Bedrock**平台上推出了一项名为“企业级记忆”的新功能,该功能由**Amazon Neptune**图数据库和**Mem0**内存管理技术共同驱动。这项创新旨在为AI智能体提供持久、企业专属的上下文理解能力,使其能够在多次交互中学习、适应并做出智能响应。全球领先的网络安全公司**TrendMicro**(趋势科技)已成为该功能的早期采用者,将其应用于其客户服务聊天机器人“Trend’s Companion”中,以提升对话体验。 ### 企业AI的“记忆”难题 对于企业级AI应用,尤其是面向客户的聊天机器人,一个核心挑战是如何让AI“记住”并理解组织特有的背景信息。传统的会话模型往往缺乏持久记忆,每次对话都像是“从零开始”,无法利用过往交互中积累的上下文或企业内部的结构化知识。这导致回答可能缺乏针对性、连续性,难以提供真正个性化的服务。TrendMicro在开发其“Trend’s Companion”聊天机器人时,就明确设定了目标:不仅要保留对话历史以保证连续性,还要能大规模引用公司特有的知识库,并确保这些“记忆”的准确性、安全性和实时性。 ### 解决方案架构:三驾马车协同 TrendMicro与AWS团队(包括AWS生成式AI创新中心)合作,设计了一套整合多款AWS服务的解决方案,核心正是“企业级记忆”功能。其架构可以概括为三个关键组件的协同工作: 1. **Amazon Neptune(知识图谱存储)**:作为企业专属知识的核心载体。Neptune是一个高性能的图数据库,用于存储代表组织关系、流程和数据的**知识图谱**。这种结构化存储方式使得AI能够进行精确、高效的检索,理解实体间的复杂关联。 2. **Mem0(内存管理)**:负责管理AI智能体的“记忆”生命周期。它区分了**短期记忆**(用于维护当前对话的即时上下文)和**长期记忆**(用于跨会话的持久性知识存储)。Mem0确保相关信息能在需要时被快速调用和更新。 3. **Amazon Bedrock(智能体编排与推理)**:作为整个AI工作流的“大脑”。Bedrock平台负责协调智能体的运作,无缝集成Neptune和Mem0。在推理过程中,它能够从Neptune检索结构化的公司知识,并结合Mem0中的会话记忆,最终生成贴合上下文、内容丰富的回答。 ### 工作流程:从信息到智能响应 该系统的运作始于用户输入。首先,通过Bedrock平台上的**Claude模型**对用户消息进行处理,提取其中的实体、关系以及可能转化为“记忆”的信息。接着,利用**Amazon Bedrock Titan Text Embed**模型将这些信息转化为向量嵌入(embeddings)。这些嵌入向量随后被用于搜索,以关联起存储在Neptune中的相关知识图谱节点和Mem0中的相关记忆片段。最终,结合检索到的所有上下文信息,AI智能体生成最终回复。这套流程使得聊天机器人不仅能“回忆”起相关的历史对话,还能“理解”并运用企业特有的结构化知识,从而显著提升回答的相关性和用户体验。 ### 行业意义与展望 “企业级记忆”功能的推出,标志着生成式AI在企业应用场景中向更深层次迈出了一步。它解决了AI在商业环境中缺乏“组织智商”和“持续学习能力”的痛点。对于像TrendMicro这样的企业而言,这意味着其客户服务AI能够更深入地理解客户所在企业的环境、历史问题和特定需求,提供真正定制化的支持。 从更广泛的AI行业背景看,这反映了当前大模型应用的一个关键趋势:**从通用能力向垂直化、私有化、具备持续学习能力的智能体演进**。单纯依赖大型语言模型(LLM)的零样本或少量样本提示已不足以满足复杂的企业需求。未来,结合知识图谱、向量数据库、记忆管理等技术的**复合型AI架构**将成为企业部署AI的主流选择,以确保安全性、可控性和业务价值的深度绑定。亚马逊Bedrock此次整合Neptune与Mem0,正是为构建此类下一代企业AI应用提供了一个强大的托管平台和参考范例。

AWS ML1个月前原文
从开发者桌面到整个组织:在Amazon Bedrock上运行Claude Cowork

## 亚马逊Bedrock迎来Claude Cowork:企业级AI协作新篇章 今天,亚马逊AWS宣布了一项重要更新:**Claude Cowork** 现已正式登陆 **Amazon Bedrock** 平台。这意味着企业用户现在可以通过Bedrock直接运行Claude Cowork和Claude Code Desktop,无论是直接调用还是通过LLM网关,都能在AWS环境中实现安全、可控的AI协作扩展。 ### 什么是Claude Cowork? Claude Cowork是Anthropic推出的一款桌面应用程序,旨在将Claude的强大能力带给组织中的每一位知识工作者。通过这款应用,用户可以委托Claude执行多步骤研究、文档分析、数据处理和报告生成等任务。它继承了Claude Desktop的核心功能,包括: - **项目**管理 - **工件**生成与保存 - **记忆**功能(上下文保持) - **文件上传与导出** - **远程连接器** - **技能**扩展 - **插件**支持 - **MCP服务器**集成 然而,需要注意的是,Claude Cowork通过Amazon Bedrock路由所有模型推理,因此一些需要Anthropic托管推理的功能(如聊天标签页、计算机使用功能和技能市场)在此版本中暂不包含。 ### 为何选择Amazon Bedrock作为后端? 对于从初创公司到全球跨行业企业而言,在Amazon Bedrock上构建AI应用具有多重优势: 1. **环境整合**:企业可以在现有的AWS环境中直接构建,无需迁移或重构基础设施。 2. **安全与合规**:Bedrock确保企业级安全性和区域数据驻留要求,所有数据都保持在用户账户的控制之下。 3. **数据隐私**:Amazon Bedrock不会存储提示、文件、工具输入输出或模型响应,也不会使用这些数据来训练基础模型。 4. **弹性扩展**:平台支持按需扩展推理能力,适应不同规模的工作负载。 ### 技术集成:两步配置即可启用 将Claude Cowork集成到Amazon Bedrock的过程相当简洁: **第一步**:用户在本地机器上下载并安装Claude Desktop应用程序。 **第二步**:通过设备管理系统(如Jamf、Microsoft Intune或组策略)向Claude Desktop推送配置,激活推理模式。配置内容包括指定模型ID、Amazon Bedrock推理配置文件、认证方法以及组织策略。 这种集中化的配置方式使得IT管理员能够轻松地将AI能力部署到整个组织的知识工作者桌面,同时保持统一的安全和管理标准。 ### 定价模式:按消费计费,无席位许可 Claude Cowork在Amazon Bedrock上的定价采用基于消费的模式,通过用户现有的AWS协议和账单进行结算。这意味着企业无需向Anthropic支付额外的席位许可费用,而是根据实际使用的推理资源付费。这种模式尤其适合需要灵活扩展AI使用的组织,避免了前期大量投入和长期承诺。 ### 实践示例:知识工作者的AI助手 想象一下,一位市场分析师需要快速分析一份竞争对手的年度报告,提取关键数据并生成摘要。传统方式可能需要数小时的手动阅读和整理。而通过Claude Cowork,她可以: - 上传PDF文档 - 委托Claude执行多步骤研究(如提取财务数据、识别战略重点) - 处理文件中的表格和图表 - 自动生成结构化的分析报告 整个过程在桌面应用中完成,所有数据处理都通过企业自己的AWS账户进行,既提高了效率,又确保了数据不离开受控环境。 ### 行业影响:从开发者工具到全员AI赋能 此次集成标志着AI在企业中的应用正从开发者专属工具向全员赋能转变。过去,Claude Code主要服务于开发人员,帮助编写代码、调试和优化。现在,Claude Cowork将这种能力扩展到了市场、销售、运营、人力资源等各个职能的知识工作者。 这种转变的背后是AI基础设施的成熟和易用性的提升。Amazon Bedrock作为托管服务,降低了企业部署和管理大语言模型的复杂性,使得非技术团队也能安全、高效地利用最新AI技术。 ### 小结 Claude Cowork登陆Amazon Bedrock不仅是Anthropic与AWS合作的深化,更是企业AI民主化的重要一步。通过将强大的Claude模型与AWS的安全、合规基础设施结合,企业现在可以: - **快速部署**:两步配置即可将AI能力扩展到整个组织 - **安全使用**:所有数据保持在企业自己的AWS账户中 - **灵活付费**:按实际消费计费,无需席位许可 - **提升效率**:知识工作者获得自动化研究、分析和报告生成能力 随着AI技术从实验室走向办公室,这种集成模式很可能成为未来企业智能化的标准路径之一。

AWS ML1个月前原文

在机器学习(ML)生产环境中,模型溯源一直是个棘手问题。当团队需要回答“当前生产模型由哪些数据训练而来?”或“能否重现六个月前部署的模型?”时,往往需要在分散的日志、笔记本和Amazon S3存储桶中进行数日调查。这种追溯能力的缺失在医疗、金融、自动驾驶等受监管行业尤为突出,这些行业通常要求将部署的模型与其精确的训练数据关联起来,甚至可能需要根据请求排除特定记录。 ## 解决方案:三工具整合 本文介绍如何结合三种工具来填补这一空白: - **DVC(数据版本控制)**:用于版本化数据集并将其链接到Git提交 - **Amazon SageMaker AI**:用于可扩展的处理、训练和部署 - **Amazon SageMaker AI MLflow应用**:用于实验跟踪、模型注册和溯源 这三种工具被整合到一个单一工作流中,确保每个模型都能追溯到其确切的训练数据。 ### 各工具的角色 | 工具 | 角色 | 存储内容 | |------|------|----------| | DVC | 数据和工件版本控制 | Git中的轻量级.dvc元文件;实际数据在Amazon S3中 | | Amazon SageMaker AI | 处理、训练和托管的可扩展计算 | 处理/训练作业编排和模型托管 | | Amazon SageMaker AI MLflow应用 | 实验跟踪、模型注册、溯源 | 参数、指标、工件、注册模型 | ## 两种可部署的溯源模式 文章详细介绍了两种可部署的溯源模式,读者可以使用配套的笔记本在自己的AWS账户中端到端运行: ### 1. 数据集级溯源 这种模式关注整个数据集的版本控制。通过DVC,团队可以精确记录每次训练所使用的数据集版本,确保模型与特定数据快照的关联。 ### 2. 记录级溯源 这种模式更进一步,允许追踪到单个数据记录。这在需要排除特定记录(如出于隐私或合规原因)的场景中尤为重要,确保模型训练过程的精细控制。 ## 数据流四阶段 整个解决方案的数据流分为四个阶段: 1. **预处理与版本化**:SageMaker AI处理作业预处理原始数据,并使用DVC对处理后的数据集进行版本控制,将数据推送到S3,元数据推送到Git仓库。 2. **训练与关联**:SageMaker AI训练作业克隆特定Git标签的DVC仓库,运行`dvc pull`获取精确版本的数据集,训练模型,并将所有内容记录到MLflow。每个MLflow训练运行都会记录`data_git_commit_id`,这是指向Amazon S3中确切数据集的DVC提交哈希。 3. **模型注册**:训练好的模型在MLflow模型注册表中注册,确保模型版本与数据版本、实验参数和指标完全关联。 4. **部署与追溯**:部署时,团队可以轻松追溯模型的完整谱系,从数据版本到训练参数,再到部署决策。 ## 行业价值与实践意义 这种端到端溯源方案不仅解决了合规性需求,还提升了MLOps(机器学习运维)的成熟度。通过将数据、代码和模型统一管理,团队能够: - **提高可重复性**:确保任何模型都能在需要时被精确复现 - **增强审计能力**:满足监管机构对模型透明度的要求 - **加速故障排查**:当模型性能下降时,快速定位是否与数据变化相关 - **优化协作**:为数据科学家和工程师提供统一的真相来源 随着AI治理和负责任AI实践的兴起,模型溯源正从“可有可无”变为“必不可少”。AWS通过整合DVC、SageMaker AI和MLflow,为企业在云上构建可追溯、可审计的机器学习流水线提供了强大工具集。 > 本文基于AWS官方技术博客内容,提供了可操作的实现模式和配套资源,适合正在构建或优化MLOps平台的团队参考。

AWS ML1个月前原文