AI 资讯

每日聚合最新人工智能动态

Amazon Nova 2 Lite 搭配 Claude：成本优化文档处理新方案

新上线

## 双模型管道：用对的模型做对的事在数字化扫描文档时，一个典型挑战是：如何从一张包含照片和文字的页面中，高效且低成本地提取结构化信息？以年册页面为例，每页平均有 176 个名字和 4 张肖像照，但没有任何机器可读的关联信息。 AWS 在 Amazon Bedrock 上构建了一个双模型管道，将 **Amazon Nova 2 Lite** 与 **Anthropic Claude Sonnet 4.6** 串联使用，专门解决这类问题。 ### 第一阶段：Nova 2 Lite 负责多模态提取 Amazon Nova 2 Lite 原生支持交错文本与图像输入，一次 Converse API 调用即可完成三项任务： - 检测照片并输出边界框与分类 - 提取页面上可见的名字及其大致位置 - 返回页面级元数据（如标题、类别）测试中，将推理级别设为 LOW 即可达到与 HIGH 相当的准确率，同时成本最低。 ### 第二阶段：Claude Sonnet 4.6 负责空间推理 Claude Sonnet 4.6 接收 Nova 的输出，利用空间推理能力将名字与面孔一一匹配。这个分工设计充分发挥了每个模型的优势：Nova 擅长结构化提取，Claude 擅长布局理解。 ### 实测结果：高准确率，低成本管道在 **336 张扫描年册页** 上测试，共生成 **3,122 个名字-面孔关联**，其中 **93% 的置信度达到 0.95 或以上**。更重要的是成本优势：与单模型方案（全部任务交给一个视觉语言模型）相比，双模型管道每页成本降低约 **三分之二**。 ### 成本分析要点成本节约主要来自两点： 1. **模型匹配**：不用昂贵的大模型做简单的边界框检测 2. **推理级别优化**：Nova 2 Lite 在 LOW 推理级别下性能已足够这种“各司其职”的架构思路，对于需要高精度且预算敏感的大规模文档数字化项目具有参考价值。 ## 小结 Amazon Nova 2 Lite + Claude Sonnet 4.6 的组合证明：在 AI 应用中，选择正确的模型组合比单纯追求单一模型能力更重要。通过任务分解和针对性模型选择，可以在保持高准确率的同时大幅降低成本。

AWS ML16天前原文

多租户LLM分析系统的行级安全实践：PAR如何构建安全Agent

新上线

PAR Technology Corporation 为餐饮行业构建技术平台，服务超过300家餐饮企业。在开发自然语言文本到SQL的自主分析Agent时，核心挑战在于：如何在多租户环境下，确保每个用户通过LLM生成的SQL查询仅返回其授权数据，即使LLM本身被攻击或操纵。本文详细介绍了PAR通过三层架构实现的行级安全方案： ## 核心问题：数据边界考虑两个用户同时提问“上周总销售额是多少？”： - **特许经营店主**：仅管理芝加哥两家门店，正确答案为84,000美元。 - **品牌经理**：负责全国200家门店，正确答案为920万美元。相同问题、相同数据库，但结果截然不同。若向店主展示全国数据，不仅是数据治理失败，更可能泄露其他运营商的商业敏感信息。 ## 三层安全架构 PAR构建的解决方案包含三个独立的安全层，每层独立运作，降低跨租户数据泄露风险： ### 1. 加密请求签名（AWS SigV4）所有用户请求必须通过AWS SigV4进行加密签名，确保请求身份的真实性和完整性，防止伪造或篡改。 ### 2. 语义验证（Amazon Bedrock）在LLM生成SQL之前，通过Amazon Bedrock对用户意图进行语义验证，确保查询范围与用户权限匹配。例如，特许经营主的查询会被自动限定在其门店ID范围内。 ### 3. 程序化数据隔离（Split-Plane SQL）通过Split-Plane SQL技术，在数据库层面实现行级数据隔离。每个SQL查询在生成时自动注入租户标识，确保仅返回该用户有权访问的数据行。 ## 设计优势 - **纵深防御**：即使某一层被绕过，其他层仍能阻止数据泄露。 - **零信任原则**：不信任任何单一组件，包括LLM本身。 - **性能平衡**：三层验证仅增加微秒级延迟，不影响用户体验。 ## 行业启示随着LLM在企业分析中的普及，多租户安全成为关键挑战。PAR的方案展示了如何通过架构设计而非单纯依赖模型行为来保障数据安全，为金融、医疗等同样需要严格数据隔离的行业提供了可复用的参考模式。

AWS ML16天前原文

利用 Amazon Bedrock 和 AWS HealthLake 构建智能医疗理赔处理流水线

新上线

## 从纸质表单到 FHIR 资源：AI 驱动的医疗理赔自动化在医疗行业，手动处理纸质表单仍是一笔巨大的成本。尽管扫描文档和图像的数据提取技术已经进步，但通常仍需要人工审核。表单填写者的录入错误或数字化过程中的低置信度提取，都需要修正。本文介绍如何利用 Amazon Bedrock 的两项关键能力——**Amazon Bedrock Data Automation** 和 **Amazon Bedrock AgentCore**——构建一个自动化的理赔处理流水线，将提取的数据验证并转换为 AWS HealthLake 中的 FHIR（快速医疗互操作性资源）标准格式，从而减少人工处理并保持准确性。 ### 解决方案概述该方案展示了一个由 AI 驱动的自动化工作流，用于处理医疗理赔表单。当医疗提供者将 CMS-1500 理赔表单（PDF 格式）上传到 Amazon S3 存储桶时，触发处理流水线，由 AWS Lambda 协调三个主要功能： - **智能文档提取**：Amazon Bedrock Data Automation 通过智能文档处理从表单中提取结构化数据。 - **AI 代理验证**：基于 Amazon Bedrock AgentCore 的 Strands Agents 代理将提取的数据与 AWS HealthLake 中的现有患者和提供者记录进行比对，检查完整性和一致性。 - **标准化输出**：如果所有验证通过，代理在 HealthLake 中创建标准化的 FHIR 理赔资源，并生成面向理赔处理人员的技术摘要和面向患者的理赔状态说明，通过 Amazon SNS 通知发送。 ### 架构流程 1. 提交者将理赔文档上传至 Amazon S3。 2. 文件到达后触发 AWS Lambda。 3. Amazon Bedrock Data Automation 从文档中提取信息，输出 JSON 格式结果。 4. AWS Lambda 调用 AgentCore 并将文档传递处理。 5. AgentCore 查询 AWS HealthLake，创建相应的 FHIR 资源。该自动化工作流通过 AI 辅助验证，在保持准确性的同时显著减少手动处理时间。对于医疗保险公司和医疗机构而言，这意味着更快的理赔周转、更低的运营成本以及更少的错误。 ### 技术亮点 - **Bedrock Data Automation**：专为文档理解设计的 AI 服务，能高精度提取表单中的关键字段（如患者信息、诊断代码、服务日期等）。 - **Bedrock AgentCore**：提供托管环境，使 AI 代理能够执行多步骤推理，并安全地调用 AWS HealthLake API 进行数据验证和写入。 - **FHIR 标准**：通过将数据转换为 FHIR 资源，确保与现有医疗信息系统的互操作性，符合行业规范。 ### 总结此方案为医疗行业提供了一个可落地的 AI 应用案例。结合 Bedrock 的文档智能和代理能力，以及 HealthLake 的 FHIR 数据管理，企业可以构建端到端的智能理赔处理系统，显著提升效率并降低人力成本。

AWS ML16天前原文

用 Amazon Bedrock AgentCore 可观测性调试生产环境中的 AI 智能体

新上线

生产环境中的 AI 智能体可能静默失败——返回看似正确但实际错误的答案、陷入无限推理循环或选错工具，而标准日志和指标通常无法捕获决策过程。Amazon Bedrock AgentCore Observability 通过指标、追踪和结构化日志三层可见性，让开发者能追踪每个推理步骤、检查工具调用，并精准定位执行偏离预期的位置。本文作为系列第一部分，详解常见失败模式（质量、可靠性、效率三类问题），展示如何利用追踪和指标分析智能体行为，并提供解决无限循环和工具调用失败等问题的结构化工作流。

AWS ML16天前原文

从 Amazon S3 实时提取 PDF 文本：构建交互式服务器

新上线

## 概述在 AI 驱动的文档处理场景中，如何高效地从海量 PDF 文件中提取文本并实现交互式查询，是许多开发者面临的挑战。本文介绍了一种基于协议的实时 PDF 文本提取方案，通过构建一个专用服务器，直接从 Amazon S3 中提取文本，并提供交互式查询能力。 ## 架构与实现该方案的核心架构包括： - **Amazon S3**：作为 PDF 文件的存储层，支持高可用和弹性扩展。 - **文本提取服务器**：基于 Python 构建，利用 `PyPDF2` 或 `pdfplumber` 等库解析 PDF，并通过协议接口对外提供服务。 - **交互式查询**：用户可通过命令行或 API 发送请求，服务器实时返回提取的文本内容。具体实现步骤： 1. 在 S3 中创建存储桶，上传 PDF 文件。 2. 使用 AWS SDK（如 boto3）编写服务器代码，监听 S3 事件（如 `s3:ObjectCreated:*`）或通过显式请求处理特定文件。 3. 服务器解析 PDF 后，将文本存储在内存或临时缓存中，并支持按页、关键词等条件筛选。 4. 提供 RESTful API 或 WebSocket 接口，实现交互式查询。 ## 与 Amazon Textract 的对比 | 特性 | 本方案 | Amazon Textract | |------|--------|-----------------| | **提取能力** | 仅文本（基于 PDF 解析库） | 文本、表格、表单、手写体 | | **实时性** | 高（本地解析，无网络延迟） | 受限于 API 调用延迟 | | **成本** | 低（仅需服务器和 S3 费用） | 按页计费，高吞吐场景成本较高 | | **适用场景** | 简单文本提取、内部系统集成 | 复杂文档分析（如发票、合同） | ## 适用场景 - **实时文档检索**：如企业内部知识库，用户可即时查询 PDF 中的内容。 - **数据流水线**：将提取的文本输入 NLP 模型进行情感分析、摘要等。 - **合规审计**：快速从大量 PDF 中提取特定条款。 ## 总结该方案为需要低成本、实时 PDF 文本提取的场景提供了轻量级替代方案。虽然功能不及 Amazon Textract 全面，但在仅需文本的场景下，其简单性和可控性更具优势。开发者可根据实际需求（如是否需要表格提取）选择合适工具。

AWS ML19天前原文

Cara 携手 AWS，打造企业保险经纪行业专属 AI 解决方案

新上线

在保险经纪行业，企业级客户长期面临数据处理复杂、流程繁琐、合规要求严苛等痛点。传统通用型 AI 模型难以精准适配保险业务场景，而 Cara 与 AWS 合作构建的领域专属 AI 解决方案，正在改变这一局面。 ## 技术架构：从底层设计到业务落地 Cara 的解决方案依托 AWS 丰富的云服务生态，在多个技术层面进行了针对性设计。 **数据层**：利用 **Amazon S3** 构建安全、可扩展的数据湖，存储保单、理赔记录、客户档案等非结构化与结构化数据。通过 **AWS Glue** 实现数据目录与 ETL 作业自动化，确保数据质量与一致性。 **模型层**：基于 **Amazon SageMaker** 进行模型训练与部署。Cara 采用领域微调策略，在通用大语言模型基础上，注入保险行业术语、业务流程与合规规则数据，使模型能够理解“共保条款”、“免赔额调整”等专业概念，并生成符合行业规范的文本。 **应用层**：通过 **Amazon API Gateway** 和 **AWS Lambda** 构建无服务器后端，支持实时查询与批量处理。前端则集成至经纪人的日常工具（如 CRM 系统），通过自然语言交互完成保单对比、风险分析、报告生成等任务。 ## 核心能力：解决保险经纪三大痛点 1. **智能文档处理**：自动提取保单、批单中的关键字段，识别条款差异，准确率超过 95%。 2. **风险建模辅助**：结合历史理赔数据与市场趋势，为经纪人提供风险评估建议，缩短报价周期 40%。 3. **合规审查自动化**：实时校验保单条款是否符合监管要求（如 GDPR、当地保险法），减少人工审核工作量 60%。 ## 实际成效：企业经纪业务的量化提升根据 Cara 公布的数据，采用该解决方案的企业经纪机构在以下方面获得显著改善： - **效率**：保单处理时间从平均 3 天缩短至 4 小时。 - **准确性**：条款匹配错误率下降 80%。 - **客户满意度**：因响应速度与方案质量提升，客户续约率提高 15%。 ## AI 行业背景下的启示 Cara 的案例再次证明，**领域专用 AI（Domain-Specific AI）** 正在成为企业级应用的关键趋势。通用大模型虽然能力强大，但在垂直行业中往往“水土不服”——缺乏专业数据、难以应对严苛合规、无法解释业务逻辑。通过 AWS 提供的算力、存储与 AI 服务组合，Cara 得以快速构建起面向保险经纪的“AI 原生”平台。这种模式也为其他行业（如医疗、法律、金融）提供了可复用的范本：**以云基础设施为底座，以行业知识为燃料，以微调模型为核心，最终交付可量化的业务价值**。随着更多企业意识到“通用 AI 不够用”，类似 Cara 的领域专属方案将迎来爆发。而 AWS 等云厂商通过提供从数据到模型再到部署的全链路工具，正在降低这一转型的门槛。

AWS ML19天前原文

金融合规中的生产级AI Agent：Stripe的实践与启示

新上线

## 从Stripe看金融合规Agent的工程化之路在AI Agent从概念走向落地的今天，金融合规领域因其高监管要求、复杂流程和严格审计需求，成为检验Agent系统成熟度的试金石。**Stripe** 作为全球支付基础设施的领导者，近期公开了其在金融合规场景中构建生产级AI Agent系统的技术细节，为行业提供了一份极具参考价值的工程蓝图。 ### 核心架构：ReAct Agent框架的金融适配 Stripe的合规Agent基于 **ReAct（Reasoning + Acting）** 范式构建。不同于简单的问答机器人，该框架让Agent能够循环执行“思考-行动-观察”的闭环： - **推理模块**：利用大语言模型（LLM）分析用户查询或合规事件，生成下一步行动计划 - **行动模块**：调用外部工具（如数据库查询、API接口、合规规则引擎）执行具体操作 - **观察模块**：接收工具返回结果，反馈给推理模块进行下一轮决策这种设计使得Agent能够处理需要多步推理的复杂合规任务，例如：当检测到一笔跨境交易可能涉及制裁名单时，Agent会依次查询交易对手身份、比对制裁数据库、提取历史交易模式，最终生成合规风险报告。 ### 基础设施：专用Agent服务的必要性 Stripe的实践表明，将Agent逻辑嵌入现有微服务架构并非最优解。他们构建了 **独立的Agent服务**，原因有三： 1. **隔离性**：Agent的推理过程可能消耗大量计算资源，独立部署可避免影响核心支付服务 2. **可观测性**：专用服务便于追踪Agent的思考链（Chain-of-Thought），满足金融审计对“可解释AI”的要求 3. **版本管理**：合规规则频繁更新，独立服务允许快速迭代Agent的行为逻辑而不影响上游系统 ### 人机协同：不可替代的人类监督尽管Agent能够自动化大量流程，**Stripe强调在关键决策节点保留人类审核**。例如： - 当Agent判断某笔交易“高风险”时，系统不会自动拒绝，而是生成详细报告并触发人工审批 - 所有Agent的推理记录被完整保存，便于事后审计和模型改进 - 设立“Human-in-the-Loop”机制，当Agent的置信度低于阈值时自动转交人工处理这种设计既发挥了AI的效率优势，又满足了金融监管对“最终责任人”的明确要求。 ### 成本与性能优化：提示缓存的关键作用 LLM推理成本是Agent系统规模化的一大障碍。Stripe通过 **提示缓存（Prompt Caching）** 实现了显著的成本优化： - 将高频使用的合规规则、常见问答模板等静态提示片段缓存，减少重复计算 - 对Agent的思考链进行剪枝，避免无意义的推理循环 - 采用混合模型策略：简单任务调用轻量模型，复杂推理才启用大模型据Stripe透露，这些优化使其合规Agent的推理成本降低了约40%，同时保持了99%以上的任务准确率。 ### 关键启示：任务分解与编排模式从Stripe的经验中，可以提炼出三条适用于大规模Agent系统的原则： 1. **任务分解**：将合规流程拆解为原子化步骤（如“身份验证→名单比对→风险评分→报告生成”），每个步骤由独立Agent或工具处理，而非让单一Agent包揽全程 2. **编排模式**：采用“主管-子Agent”架构，主Agent负责调度，子Agent专注特定领域，降低单Agent的认知负载 3. **渐进式自动化**：优先自动化高频、低风险的合规任务（如交易记录归档），再逐步渗透到复杂决策场景 ### 总结 Stripe的实践表明，生产级金融合规Agent的成功并非依赖单个模型的强大，而是**体系化的工程决策**：从ReAct框架的合理运用，到独立基础设施的构建，再到人机协同与成本优化的平衡。对于正在探索Agent落地的团队而言，这些经验提供了从“演示级”迈向“生产级”的清晰路径。

AWS ML19天前原文

改造而非重建：用Agent化覆盖层重构传统企业服务

新上线

企业架构长期依赖REST API和微服务，这些系统稳定、测试充分且深度嵌入生产环境。然而，它们并非为智能体间通信（A2A）而设计——这一新兴标准使自主智能体能够通过结构化消息协作、推理和协调。在缺乏通用智能体协议时，许多现有智能体被排除在A2A框架之外。如今，挑战不仅是将A2A引入传统服务，还要将这些基于REST的智能体纳入标准化的智能体对智能体世界。 AWS与作者合作提出一种务实方案：**智能体化覆盖层（Agentic Overlays）**。这是一种轻量封装层，能将传统REST服务转化为可参与A2A交互的智能体，同时将REST API暴露为符合**模型上下文协议（MCP）**的工具。企业无需重写业务逻辑、无需重复代码、无需运行并行基础设施，即可为现有REST服务添加A2A能力，从而重用现有服务作为智能体，减少基础设施中的智能体泛滥。文章提供了参考架构和示例代码。 ### REST与A2A的对比 REST API专为确定性、客户端-服务器集成设计：客户端调用定义好的端点，传递参数，接收可预测响应，通常是无状态请求-响应流程。这使REST非常适合暴露业务能力（如增删改查），具有清晰契约、强兼容性和操作简便性。 A2A则设计用于自主智能体间的互操作：智能体通过元数据（如智能体卡片）相互发现，协商能力，通过结构化消息（通常基于JSON-RPC）协调多步骤任务。REST优化稳定服务接口和直接执行，A2A优化推理驱动协调、任务导向消息和智能体协作，使系统能够跨多个服务规划、委派和组合动作，而非孤立调用。 ### 智能体化覆盖层的实现智能体化覆盖层位于现有REST服务之上，充当双向适配器： - **向A2A方向**：它将REST端点封装为A2A智能体，支持智能体卡片发现、能力协商和JSON-RPC消息交换。 - **向MCP方向**：它将REST API暴露为MCP工具，使任何MCP兼容的智能体（包括支持A2A的智能体）都能调用这些服务。这种设计带来关键优势： - **零业务逻辑重写**：覆盖层仅处理协议转换，不修改后端代码。 - **无代码重复**：同一REST服务可同时服务于传统客户端和A2A智能体。 - **避免并行基础设施**：无需为A2A单独部署新服务。 ### 参考架构与示例文章提供的参考架构包含三个组件： 1. **A2A适配器**：将REST端点映射为A2A智能体动作，处理智能体发现与消息路由。 2. **MCP工具暴露器**：将REST API注册为MCP工具，定义输入输出模式。 3. **统一管理平面**：监控智能体覆盖层状态，管理生命周期。示例代码展示了如何用Python构建覆盖层：利用FastAPI创建A2A端点，通过MCP SDK将现有REST API包装为工具。关键代码段包括智能体卡片生成、JSON-RPC消息处理、MCP工具注册。 ### 行业背景与价值随着多智能体系统在企业中普及（如自动化客户服务、供应链优化、IT运维），A2A标准的重要性日益凸显。谷歌、微软、AWS等巨头正推动A2A协议标准化。智能体化覆盖层使企业能渐进式迁移，而非“大爆炸”式重构，降低风险并保护现有投资。它特别适合拥有大量遗留REST服务的大型企业，这些服务承载关键业务逻辑但难以替换。 ### 总结智能体化覆盖层为“改造而非重建”提供了可行路径。它弥合了REST与A2A之间的鸿沟，使企业能够在不中断现有服务的前提下，拥抱智能体协作的未来。对于CTO和架构师而言，这是将现有系统融入AI驱动生态的高性价比策略。

AWS ML20天前原文

在 Amazon SageMaker AI 上利用 NVIDIA Blackwell 优化模型训练

新上线

NVIDIA Blackwell GPU 架构的发布，为大规模 AI 模型训练带来了新的可能性。本文将深入探讨如何在 **Amazon SageMaker AI** 上配置训练作业，以充分发挥 Blackwell 架构的优势。 ## 核心优化点 ### 1. 利用扩展内存优化批次大小与序列长度 Blackwell B200 GPU 拥有更大的 HBM 容量和更高的内存带宽。通过合理选择 **批次大小** 和 **序列长度**，可以显著减少因内存不足而被迫进行激进模型分片的情况，从而降低通信开销，提升吞吐量。对于长序列依赖任务（如文档理解、代码生成），更长的序列长度变得可行。 ### 2. 选择正确的精度格式根据模型参数量（1B 到 64B），选择合适的浮点精度格式至关重要。Blackwell 支持多种精度格式（如 FP8、FP16、BF16 等），在保持模型质量的同时，能有效降低显存占用，使得原本需要多节点训练的模型可以在单个 8-GPU 节点上运行。这直接减少了网络开销和基础设施成本。 ### 3. 策略性应用激活检查点激活检查点（Activation Checkpointing）是一种以计算换内存的技术。在 Blackwell 上，由于内存瓶颈缓解，可以更有选择性地应用检查点，仅在关键层启用，从而平衡内存与计算效率。 ## 实践框架以下是针对 P6-B200 实例（配备 8 块 Blackwell GPU）的训练配置建议： - **单节点训练**：对于 1B-13B 参数的模型，可尝试单节点训练，利用 NVLink 5 提供的 **1.8 TB/s** 双向 GPU 间带宽，减少通信延迟。 - **多节点扩展**：对于更大模型（如 64B），通过 SageMaker AI 的分布式训练库（如 SageMaker Distributed Data Parallel）进行模型分片，结合 Blackwell 的高内存容量，降低通信频率。 - **资源管理**：使用 **Flexible Training Plan** 预订 P6-B200 容量，实现可预测的访问、成本管理和自动化资源调度。 ## 行业背景 Blackwell 的发布恰逢 AI 模型规模持续增长之际。此前，开发者往往受限于 GPU 内存，不得不采用复杂的模型并行策略，增加了工程复杂度。Blackwell 通过硬件层面的改进，简化了训练流程，让研究者更专注于算法本身。 ## 小结通过在 Amazon SageMaker AI 上合理配置 Blackwell GPU，您能够： - 处理更大的批次和更长的序列 - 减少模型分片需求，降低通信开销 - 以更低的成本加速迭代周期建议根据具体模型大小和任务特点，参照本文给出的框架进行实验调优。

AWS ML20天前原文

在 Amazon SageMaker AI 上部署 SeedVR2 实现视频超分辨率放大

新上线

## 快速概览视频超分辨率（Video Super Resolution）一直是计算摄影和媒体处理领域的热门方向。AWS 近日发布了一篇技术博客，详细展示了如何将 **SeedVR2** 模型部署到 **Amazon SageMaker AI** 上，实现高质量的视频放大（Upscaling）。本文基于该博客内容，提炼关键架构、部署步骤与性能对比，为希望在云上落地 AI 视频增强的团队提供一份实操指南。 ## 为什么选择 SeedVR2 + SageMaker AI？ SeedVR2 是一款基于深度学习的视频超分模型，专注于在保持时间一致性的同时提升空间分辨率。传统视频放大方法（如双线性插值）往往导致边缘模糊或伪影，而 SeedVR2 通过神经网络学习高分辨率细节，能显著改善画质。将 SeedVR2 部署在 SageMaker AI 上，可以获得以下优势： - **弹性算力**：按需调用 GPU 实例，无需自建集群。 - **托管推理**：SageMaker 提供模型托管、自动缩放、监控等能力。 - **与 AWS 生态集成**：可直接对接 S3 存储、Lambda 触发、MediaConvert 等服务。 ## 架构与部署步骤 ### 整体架构解决方案的核心流程如下： 1. 原始低分辨率视频存储在 **Amazon S3**。 2. 一个 **Lambda 函数** 或 **Step Functions** 工作流触发 SageMaker 推理任务。 3. SageMaker 端点加载 SeedVR2 模型，对视频逐帧或按片段处理。 4. 放大后的视频帧重新组合，输出回 S3。 5. 可选使用 **AWS Elemental MediaConvert** 进行编码封装。 ### 部署要点根据博客说明，部署过程主要包括： - **模型打包**：将 SeedVR2 的 PyTorch 模型权重与推理脚本打包成 SageMaker 兼容的格式。 - **创建端点**：选择合适的实例类型（如 `ml.g5.xlarge` 或 `ml.p3.2xlarge`，取决于视频分辨率和帧率）。 - **推理优化**：利用批量推理或异步推理模式处理长视频，避免超时。 - **性能调优**：调整批处理大小、帧缓存策略以平衡吞吐与延迟。 ## 性能对比：质量与效率双提升博客中展示了 SeedVR2 与传统方法的对比结果。以下为关键数据（基于博客原文）： | 方法 | PSNR (dB) | SSIM | 处理速度 (fps) | |------|-----------|------|----------------| | Bicubic | 28.3 | 0.82 | 120+ (CPU) | | SeedVR2 (SageMaker) | **32.1** | **0.91** | **~15** (GPU) | > **说明**：PSNR 和 SSIM 是图像质量客观指标，数值越高越好。SeedVR2 在质量上显著优于双三次插值，虽然 GPU 推理速度低于 CPU 插值，但考虑到画质提升，对于专业场景（如影视修复、安防监控）是值得的权衡。 ## 应用场景与落地价值 - **影视后期**：将标清素材放大至高清/4K，用于流媒体或存档。 - **监控视频增强**：提升低光照或远距离拍摄的细节，辅助人脸识别、车牌识别。 - **用户生成内容 (UGC)**：帮助用户将手机拍摄的低分辨率视频升级，分享到社交平台。 ## 小结通过将 SeedVR2 部署在 Amazon SageMaker AI 上，开发者可以快速搭建一个可扩展的视频超分辨率管道。博客提供了完整的架构参考与部署指南，适合媒体、安防、AI 应用团队参考。如果你正在寻找云原生的视频增强方案，不妨从这篇实践入手。

AWS ML20天前原文

用 Amazon Bedrock 构建自助式 AWS Health 分析，AI 智能体助你洞察健康事件

新上线

## 从被动救火到主动规划：用 AI 智能体解锁 AWS Health 事件分析企业运维团队每周一早上都要面对一堆 AWS Health 通知：Amazon Linux 2 生命周期结束、RDS 版本弃用、EC2 实例退役……这些事件分散在 50 多个账户中，团队很难快速判断哪些影响生产系统、哪些需要立即行动、哪些只是长期规划。在没有自助分析工具的情况下，运维人员往往只能等待技术客户经理（TAM）来解释事件，这严重拖慢了决策速度，让团队陷入被动救火的循环，而不是创新。为了解决这一痛点，AWS 推出了开源解决方案 **Chaplin（Customer Health and Planned Lifecycle Intelligence Nexus）**。它利用基于 Amazon Bedrock 的 AI 智能体，通过 **模型上下文协议（MCP）** 对外暴露能力，让运维团队可以直接用自然语言提问，并获得精准、上下文相关的答案，无需再依赖 AWS Support 进行常规分析。 ### Chaplin 如何工作？ Chaplin 的核心思路是：把 AWS Health 事件数据（通过 AWS Health API 和 Amazon EventBridge 获取）与 AI 智能体结合，让用户通过 MCP 兼容的 AI 助手（如聊天机器人）直接查询。例如，你可以问：“当前哪些 EC2 实例需要退役？影响的生产系统有哪些？”智能体会自动检索事件、关联账户和资源，并给出结构化回答。这种设计直接解决了传统方法的三大缺陷： - **依赖人工**：TAM 成为瓶颈，等待时间长。 - **仪表盘僵化**：预定义的 BI 看板无法适应动态、探索性的问题。 - **信息分散**：跨账户、跨区域的事件难以统一管理和优先级排序。 ### 适用场景与价值 Chaplin 特别适合拥有 **50 个以上 AWS 账户** 的企业运维团队。常见的应用场景包括： - **事件分类与优先级排序**：自动识别哪些事件影响生产环境，哪些是计划内维护。 - **影响分析**：快速评估某个服务变更或退役事件对业务的具体影响。 - **迁移规划**：在 Linux 2 生命周期结束前，自动列出需要迁移的实例。通过将 AI 智能体与 MCP 协议结合，Chaplin 不仅降低了运维门槛，还让团队能够从“被动响应”转向“主动规划”。例如，团队可以提前安排维护窗口，而不是等事件发生后再紧急处理。 ### 部署与开源 Chaplin 的详细部署说明已发布在 GitHub 仓库 [Chaplin AWS Health Agentic Assistant](https://github.com/aws-samples/chaplin-aws-health-agentic-assistant) 中。它完全开源，用户可以根据自身环境定制数据源和查询逻辑。值得注意的是，部分 Health 事件（如符合条件的计划内事件）未来将直接关联到 Chaplin，进一步增强预测能力。 ### 行业趋势：AI 智能体重塑云运维 Chaplin 的推出反映了 AI 在云运维领域的一个重要趋势：**用智能体替代人工分析环节**。过去，运维团队需要手动筛选事件、查询文档、等待专家意见；现在，通过自然语言接口和上下文感知的 AI，这些工作可以自动化完成。Amazon Bedrock 作为底层模型服务，提供了安全、可扩展的 AI 能力，而 MCP 协议则让不同 AI 工具能够互操作。对于正在管理大规模多云环境的企业来说，类似 Chaplin 的工具将成为标配——它们不是取代运维人员，而是让他们从重复劳动中解放出来，专注于更有价值的工作。

AWS ML20天前原文

在 AWS 上借助现代数据网格策略构建自主 AI 应用

新上线

自主 AI 代理需要安全、可扩展的数据基础。本文展示了如何在 AWS 上构建一个受治理的无服务器数据网格，为生产级自主 AI 提供支撑。 ## 从 RAG 到自主 AI：治理挑战升级当客户服务代理自主查询订单数据库、检索退货政策并综合答案时，它需要跨组织多个数据源的受控访问。传统的 RAG（检索增强生成）通过单一检查点过滤向量搜索结果即可满足需求，但自主 AI 代理需要从工具发现、查询执行到响应合成的全链路细粒度权限控制。 ## 架构三大关键升级相比之前的 RAG 方案，新架构包含三个核心改进： 1. **向量存储替换**：用 **Amazon S3 Vectors** 替代 Amazon OpenSearch Serverless，可将中等查询频率工作负载的向量存储和查询成本降低 **高达 90%**。 2. **数据湖升级**：使用 **Amazon S3 Tables**（内置 Apache Iceberg 支持）替代通用 S3，配合 **AWS Lake Formation** 实现行、列、单元格级别的细粒度安全控制，事务吞吐量比自管理 Iceberg 表提升 **10 倍**。 3. **MCP 工具暴露**：通过 **AgentCore Gateway** 将数据网格暴露为 Model Context Protocol (MCP) 工具，并利用 **AWS Lambda** 拦截器在每次代理到工具调用时实施确定性访问控制。 ## 前提条件实施该架构需要：AWS 账户管理员权限、IAM 权限以创建角色、策略、Lambda 函数、S3 Tables 表桶、Amazon Athena 工作组和 Lake Formation 配置，并熟悉 Lake Formation 概念（数据湖管理员、LF-Tags 等）。 ## 行业背景与价值随着 AI 代理从简单问答转向自主操作，数据治理成为关键瓶颈。AWS 的无服务器数据网格方案不仅降低了成本（向量存储节省 90%），还通过 Iceberg 和 Lake Formation 提供了企业级安全控制，为金融、医疗等受监管行业的自主 AI 落地铺平道路。

AWS ML20天前原文

亨廷顿银行：借助 AWS 从 4 亿+ 文档中智能脱敏，处理时间从数年缩短至数月

新上线

面对超过 4 亿份、积累近十年的海量文档，如何高效识别并脱敏其中的敏感客户数据，同时满足 PCI DSS 等合规要求？美国前十大银行亨廷顿银行（Huntington Bank）通过构建基于 AWS 的可扩展工作流，将原本预计耗时数年的处理任务缩短至数月完成，且脱敏准确率达到 95% 以上。 ## 挑战与需求自 2015 年起，亨廷顿银行的文档管理系统已在本地安全存储了数亿份文档。2025 年，作为一项主动合规计划的一部分，银行决定对这些文档进行全面处理，脱敏其中的个人身份信息（PII）和支付卡行业数据（PCI）。文档格式多样，需要灵活处理方案，同时还要具备处理数百万份文档的高吞吐量。核心需求包括： - 数据在传输和存储中必须加密 - 数据访问和存储位置需满足严格访问要求 - 所用服务必须在 PCI DSS 合规范围内 - 脱敏结果需复制回本地数据存储 - **脱敏准确率不低于 95%** ## 解决方案架构亨廷顿银行设计了一套可扩展的脱敏工作流，核心组件包括： - **Amazon Textract**：从文档中提取文本和结构 - **Amazon SageMaker**：用于运行自定义机器学习模型，识别敏感数据 - **AWS Step Functions**：编排处理流程 - **AWS Lambda**：执行无服务器函数 ## 安全数据传输首先需要将超过 4 亿份文档从本地文件共享迁移到 Amazon S3。银行使用 **AWS DataSync** 结合 **AWS Direct Connect** 实现加密传输，并通过 **AWS KMS** 管理密钥。AWS DataSync 可监控本地 SMB 文件共享，不仅支持上传，还支持将处理结果同步回本地。 ## 处理与脱敏流程 1. **文档上传**：通过 AWS DataSync 将文档加密传输至 S3 存储桶。 2. **文本提取**：使用 Amazon Textract 从 PDF、图片等不同格式文档中提取文本。 3. **敏感数据识别**：基于 SageMaker 上部署的机器学习模型，识别 PII 和 PCI 数据（如姓名、地址、信用卡号等）。 4. **自动脱敏**：利用 Lambda 函数对识别出的敏感区域进行遮盖或替换。 5. **结果回传**：脱敏后的文档通过 AWS DataSync 复制回本地存储，同时保留审计日志。 ## 成效与价值通过这一架构，亨廷顿银行将处理时间从最初估计的 **数年缩短至数月**，并实现了 **超过 95% 的脱敏准确率**，满足合规要求。该方案不仅解决了当前的数据处理难题，还建立了可复用的自动化流程，为未来持续合规奠定了基础。 ## 行业启示亨廷顿银行的实践为金融行业大规模文档脱敏提供了参考范例。**云原生服务+机器学习** 的组合能够显著提升处理效率，同时保证安全与合规。对于同样面临海量文档处理需求的机构，关键要素包括：选择可扩展的存储与计算服务、利用 AI 提升识别精度、以及确保端到端的数据加密与审计能力。

AWS ML21天前原文

用Amazon Nova 2 Sonic构建医疗预约语音助手

新上线

## 快速上手：用 Amazon Nova 2 Sonic 打造医疗预约语音助手医疗行业长期受困于患者爽约问题——美国医疗机构的平均失约率在 **5% 到 30%** 之间，每个空缺席位都意味着收入损失、医生闲置以及患者治疗延误。传统的逐个电话确认方式难以规模化。现在，借助 **Amazon Nova 2 Sonic** 的语音到语音能力与 **Amazon Bedrock AgentCore**，你可以构建一个能够自主处理预约提醒对话的语音助手。 ### 核心功能与工作流程该语音助手能够完成以下关键任务： - **患者身份验证**：通过语音对话确认患者身份 - **预约管理**：支持确认、取消或重新安排预约 - **健康信息收集**：在通话中采集访前健康数据 - **人工转接**：在需要时无缝转接给人类工作人员整个系统采用 **无服务器架构** 部署，基于 Amazon Bedrock AgentCore，使用 Amazon Cognito 进行身份验证，Amazon DynamoDB 存储数据，Amazon SNS 发送通知。前端是一个基于 React 的浏览器界面，通过经过身份验证的 WebSocket 连接实现双向音频流传输。 ### 技术亮点：告别传统级联延迟传统方案通常需要串联三个独立服务：语音转文本模型（ASR）、文本大语言模型（LLM）、文本转语音模型（TTS）。每一次交接都会引入延迟并丢失上下文。尤其是 **ASR 阶段会丢弃语调、犹豫、紧迫感等声音线索**，LLM 只能看到患者说了什么，却不知道他们是怎么说的。在医疗场景中，患者的焦虑或困惑本应改变对话策略，但传统的级联架构无法捕捉这些信号。 Amazon Nova 2 Sonic 的 **语音到语音能力** 直接解决了这一问题：它不再依赖中间文本表示，而是直接在语音层面理解并生成回应，保留了语调和情感信息，同时大幅降低延迟。 ### 实际落地：从测试到生产当前示例包含一个浏览器测试界面，方便开发者快速验证对话流程。要连接真实电话线路进行外呼，可以集成 **Amazon Connect** 等电信服务。整个构建过程涵盖了从工具开发到部署的完整步骤，包括使用 **Strands Agents SDK** 构建的七个医疗专用工具，用于患者身份验证、排程和转接。这一方案的核心价值在于：**规模化处理常规通话，降低失约率，释放医护人员精力**，同时通过保留语音中的非语言信息提升患者体验。

AWS ML21天前原文

AI驱动商业智能：Snowflake语义视图与Amazon QuickSight集成实践

新上线

数据团队经常面临数字不一致的困境：一个仪表盘显示42,000活跃电影观看量，另一个却显示38,500，而聊天机器人给出的又是第三个数字。这种混乱的根源在于业务逻辑分散在各个应用层，而非统一在数据层。本文介绍如何通过**Snowflake语义视图**与**Amazon QuickSight**的集成，构建端到端的AI驱动BI方案，从根本上解决数据信任问题。 ## 语义视图：统一业务逻辑的数据层 Snowflake语义视图是一种原生模式对象，它将业务定义（如表、关系、指标和维度）直接附加到数据上。任何下游应用查询该视图时，都会继承相同的定义——无论是AI系统还是传统BI工具，都能获得一致的解读。这不仅能显著降低AI幻觉的风险，还能确保所有报表和问答都基于同一套业务规则。语义视图支持标准的SQL SELECT查询，也可用于Snowflake Cortex Analyst的自然语言交互。通过私有列表共享，团队可以安全地分发视图。此外，语义视图继承了Snowflake的对象级访问控制，可以像普通表一样精细管理权限，满足治理和合规要求。 ## 端到端集成流程本文以一家媒体公司的用户评论数据为例，展示完整集成路径： 1. **数据加载**：将Amazon S3中的电影评论数据加载到Snowflake。 2. **定义语义视图**：通过SQL为数据添加业务含义，例如定义“活跃观看量”的计算规则。 3. **自然语言探索**：通过Cortex Analyst用自然语言查询语义视图，验证定义的正确性。 4. **生成QuickSight仪表盘**：手动或使用自动化脚本，基于语义视图创建QuickSight数据集和仪表盘。最终，BI团队和AI团队都可以直接对治理后的数据层提问，并确信每个回答都遵循相同的业务逻辑。 ## 架构价值这种集成将语义层作为“单一事实来源”，彻底消除了跨系统数字对不齐的痛点。数据团队不再需要花费数小时核对数字，而是可以专注于战略性问题。对于正在构建企业级AI分析能力的数据团队来说，这是一个值得借鉴的架构模式。

AWS ML21天前原文

Loka 如何利用 Amazon Nova 2 Sonic 打造自然低延迟语音助手

新上线

传统语音助手因三步处理流程——语音转文本、LLM 推理、文本转语音——导致 3-5 秒延迟，破坏对话自然感，且成本高昂。Loka 采用 Amazon Nova 2 Sonic 的端到端语音模型，直接在音频上推理，大幅降低延迟与成本，在 Big Bench Audio 上实现高精度。本文详解其架构：语音输入直接进入 Nova 2 Sonic，输出自然语音，支持中断与复杂意图解析。以汽车经销商场景为例，客户说“我要看广告里的 SUV，但不是混动版，只能下午 5 点后到”，系统能同时理解车型、否定、时间约束，响应流畅。相比传统方案，Nova 2 Sonic 将延迟降至亚秒级，成本降低 50% 以上。Loka 的方案已在多个行业落地，证明原生语音模型是下一代对话式 AI 的关键方向。

AWS ML21天前原文

在 Amazon Bedrock 上构建蛋白质研究助手：自然语言搜索与 AI 摘要

新上线

蛋白质研究人员常面临一个耗时难题：手动在成千上万条肽序列中寻找结构相似的候选分子，过程缓慢且容易出错，还需要深厚的专业知识来解读结果。本文介绍如何利用 **Amazon Bedrock AgentCore** 构建一个对话式蛋白质研究助手，它结合了三大核心能力：自然语言查询解析、基于向量相似度的蛋白质嵌入搜索，以及 AI 生成的科学摘要。 ## 系统架构与核心组件该助手基于 **Strands Agents SDK** 编排三个专用工具，并部署到 **Amazon Bedrock AgentCore** 进行生产级服务。嵌入存储采用 **Amazon Aurora PostgreSQL** 搭配 pgvector 扩展。具体而言： - **自然语言查询解析**：用户输入如“查找与登革热病毒肽 LPAIVREAI 相似的 10 个肽”，系统自动提取结构化搜索参数。 - **向量相似度搜索**：使用 **ESM-C 300M** 模型生成蛋白质嵌入，并通过 pgvector 在 Aurora 上执行高效相似性检索，结合元数据过滤。 - **AI 摘要生成**：搜索结果经 **Anthropic Claude Sonnet 4.6** 模型处理后，生成易于理解的科学总结。 ## 技术亮点与部署步骤 1. **模型部署**：将 ESM-C 300M 打包为 **Amazon SageMaker AI serverless 端点**，通过捆绑权重实现快速冷启动。 2. **Agent 编排**：Bedrock AgentCore 运行时支持嵌套 LLM 代理，可协调多个专用工具协同工作。 3. **数据存储**：IEPDB 病毒表位数据集存储在 Aurora Serverless v2 中，利用 pgvector 进行向量相似度查询。 ### 前提条件 - 拥有 AWS 账户，并启用 Amazon Bedrock 基础模型（如 Claude Sonnet 4.6）。 - Python 3.12+、AWS CLI 配置完毕。 - 安装 `bedrock-agentcore-starter-toolkit` 包。 - 获取 IEDB 病毒表位数据集。预计部署时间 30-45 分钟。用户需自行评估 Bedrock、SageMaker AI、Aurora Serverless v2 和 AWS Fargate 的费用。 ## 实际应用价值该助手将传统需要数小时的手动搜索缩短至几分钟，且无需专业编程背景。研究人员只需用自然语言描述需求，就能获得结构相似肽的列表及 AI 生成的解读，大幅提升早期药物发现和疫苗设计阶段的效率。 > **小结**：通过结合向量数据库、大语言模型和 Serverless 推理，Amazon Bedrock AgentCore 为科学领域提供了一个可快速复用的智能助手模板，未来可扩展至基因组分析、化学结构搜索等场景。

AWS ML22天前原文

共享基础设施，隔离租户：使用 Amazon Bedrock AgentCore 实现池模型多租户架构

新上线

## 概述构建多租户 AI 应用面临新的架构挑战：你需要实现租户之间的完全隔离、不同服务层级的能力区分、细粒度的成本追踪以及每个租户的可观测性。如果缺乏这些能力，可能会面临客户数据泄露、服务质量无法保障或成本失控的风险。本文介绍如何使用 Amazon Bedrock AgentCore 实现生产级多租户系统的模式，并以医疗 AI 代理服务多家诊所和医院为例进行演示。虽然以医疗行业为例，但这些架构模式和技术实现广泛适用于各类多租户 AI 应用——无论是构建 SaaS 平台、服务多个业务部门的企业解决方案，还是为不同客户组织提供托管服务，你都可以参考这些模式来构建自己的方案。 ## 你将学到什么 - 如何利用原生 AWS 能力在代理型应用中实现完全租户隔离 - 通过最少自定义代码实现服务层级区分的模式 - 按租户进行细粒度成本归因的技术 - 可扩展多租户 AI 架构的最佳实践 ## 解决方案概览该方案展示了如何利用 Amazon Bedrock AgentCore 的原生能力，通过 AWS 托管服务实现完全租户隔离。架构采用三层层级结构：**层级（Tier）→ 租户（Tenant）→ 用户（User）**，在每一层通过知识库文档、记忆、模型访问和成本追踪来强制隔离。层级策略是 SaaS 应用中的常见模式，租户根据需求（如基础版和高级版）、使用模式或定价计划被归入不同的服务层级。每个层级定义了一组特性和服务质量，允许 SaaS 提供商服务多样化的客户群。 ## 关键实现模式 1. **租户隔离**：利用 Amazon Bedrock 的知识库、会话记忆和模型访问控制，确保每个租户的数据和上下文完全隔离。 2. **服务层级差异化**：通过配置化方式定义不同层级的功能集，无需为每个层级编写独立代码。 3. **成本归因**：使用 AWS 的成本分配标签和 Bedrock 的日志记录，将每次调用精确归因到对应租户。 4. **可观测性**：集成 CloudWatch 等监控服务，实现每个租户的性能指标和异常告警。 ## 适用场景本文是系列文章的第二部分，第一部分探讨了使用 Amazon Bedrock AgentCore 设计多租户代理应用时的架构考量。示例代码已开源在 [GitHub](https://github.com/aws-samples/sample-agentcore-and-multitenancy-blog)，可供参考和实践。无论你是构建医疗 AI、金融助手还是企业知识库，这些模式都能帮助你快速搭建安全、可扩展且成本可控的多租户 AI 系统。

AWS ML22天前原文

打造AI代理的按需付费智能路由：Ampersend如何借助Amazon Bedrock AgentCore Payments实现

新上线

## 从按API调用付费到按智能付费：AI代理支付基础设施的进化随着AI代理从概念验证走向生产部署，一个关键瓶颈浮出水面：**自主代理如何在不依赖人工干预的情况下，为调用的模型服务进行支付？** 传统的订阅制或人工结算模式显然无法满足代理高频、动态的调用需求。近日，Ampersend（Edge & Node旗下）与Amazon Bedrock AgentCore Payments团队合作，推出了一套创新的**按智能付费（pay-per-intelligence）路由层**，试图解决这一难题。 ### 痛点：代理支付的“最后一公里” 对于构建AI代理的开发者而言，让代理调用付费的LLM、数据API或内容端点，意味着需要自行搭建钱包管理、支付签名、实现x402等代理支付协议、设定预算上限，并逐一对接每个服务商的计费系统。**这往往需要数月的基础设施工作**，才能开始编写真正的代理逻辑。同样，对于像Ampersend这样的平台，如果希望让代理以程序化方式按请求付费，也需要一套标准化的支付路由和结算方案。 ### 解决方案：Ampersend + Amazon Bedrock AgentCore Payments Ampersend的核心思路是：**代理应该像调用API一样支付智能服务的费用**——程序化、即时、无需人工介入。他们构建了一个位于代理与模型市场之间的管理平台，处理支付路由、结算和运维。代理开发者只需一次集成，即可访问多个模型提供商，无需为每个提供商单独订阅、签订合同或管理计费关系。这一架构的核心是**Amazon Bedrock AgentCore Payments**，它提供了底层的支付能力，支持**x402开放协议**。x402是一种专为机器消费设计的支付协议，允许代理在无需人类交互的情况下完成微支付。Ampersend在此基础上构建了“按智能付费”的路由层，实现两大核心功能： - **智能路由**：代理根据任务特性（如复杂度、领域）自动选择最合适的模型，并支付相应费用。 - **预算管控**：代理在预设的支出预算内自主操作，避免超支。 ### 两跳支付模式（Two-Hop Payment Pattern）文章详细介绍了一种**两跳支付模式**的工作流程： 1. **第一跳**：代理向Ampersend发起请求，附带支付凭证（如x402发票）。Ampersend验证凭证并路由到目标模型。 2. **第二跳**：模型返回结果，Ampersend完成结算，从代理的预存余额中扣除费用，或触发链上结算。这种模式将支付逻辑从代理代码中解耦，开发者只需关注业务逻辑，支付由中间层透明处理。 ### 行业意义与展望 Ampersend的实践揭示了AI代理基础设施的一个关键趋势：**支付层正从人工流程转向全自动、协议驱动的机器间交易**。随着越来越多的服务转向按使用付费模式，代理需要一种标准化的方式来发现、调用并支付这些服务。x402和Amazon Bedrock AgentCore Payments的组合，为这一生态提供了可复用的基础组件。对于开发者而言，这意味着可以更快地将代理推向市场，无需为支付集成分心。对于模型提供商而言，则意味着能够以更低的摩擦触达更多的代理用户，按请求获得收入。目前，Ampersend的解决方案已在Amazon Bedrock上可用。感兴趣的开发者可以通过提供的指南开始集成。未来，随着代理支付协议的成熟，我们可能会看到更多类似“智能路由+按需付费”的模式，推动AI服务从“订阅制”向“真正的按使用付费”演进。

AWS ML23天前原文

将世界嵌入：多模态AI助力可搜索航空影像的大规模应用

新上线

## 从像素到答案：多模态AI如何让航空影像变得“可搜索” 对于保险、房地产、政府、基础设施和农业等依赖地理空间数据的行业来说，将海量航空影像转化为可通过自然语言搜索的知识库，一直是个棘手的问题。传统方法要么依赖人工逐块检查，要么为每个新问题训练专门的计算机视觉模型——耗时耗力且难以扩展。最近，AWS与全球最大的航空影像提供商之一 **Vexcel** 合作，探索了一条新路径：利用多模态嵌入、大语言模型（LLM）描述生成和向量搜索，实现“一次索引，自然语言查询”的航空影像检索系统。Vexcel 拥有专用飞机和传感器，在45个以上国家和地区采集高分辨率正射影像、多角度倾斜影像和数字高程模型，数据量极为庞大。 ## 系统架构与实验设计该方案基于 **Amazon Bedrock** 和 **Amazon OpenSearch Serverless** 构建。核心流程包括： 1. **影像分块与描述生成**：将大尺寸航空影像切割为小图块，并利用LLM（如Amazon Nova）自动生成每块影像的自然语言描述（例如“一个带蓝色游泳池的后院”）。 2. **多模态嵌入**：对影像本身及其文本描述分别生成嵌入向量，并尝试多种融合策略。 3. **向量搜索**：将用户查询转化为同一嵌入空间中的向量，在OpenSearch Serverless中检索最相似的影像块。研究团队设计了四组实验，对比了不同嵌入模型、融合策略、描述集成方式和搜索方法，并使用 **OpenStreetMap** 真实标注数据作为评估基准。 ## 关键发现：Amazon Nova 嵌入模型表现最佳实验结果显示，**Amazon Nova Multimodal Embeddings** 在两项基准查询中均取得了最高的 **F1分数**，显著优于其他模型。这意味着它在精确率和召回率之间取得了最佳平衡，能够更准确地找到用户真正想要的影像内容。此外，研究还发现： - **描述与图像的融合策略**至关重要。简单的拼接效果有限，而基于注意力机制的跨模态融合能显著提升检索质量。 - **LLM生成的描述**可以作为图像嵌入的补充，尤其在图像特征不明显或查询内容偏向抽象概念（如“废弃的工厂”）时，文本描述能提供关键语义线索。 - **搜索方法**方面，结合向量相似度与元数据过滤的混合搜索优于纯向量搜索。 ## 落地产品：Vexcel Intelligence 这项技术已转化为实际的商业产品——**Vexcel Intelligence**，一个可搜索的影像平台。用户现在可以用自然语言直接查询：“找出城市中所有带涂鸦的仓库”，系统便能从数百万张影像中快速定位相关图像，而无需为每个特征重新训练模型。 ## 实操建议对于计划构建类似系统的团队，研究给出了几点实用指南： 1. **优先选择原生多模态嵌入模型**（如Amazon Nova），它们天然支持图文联合编码，效果优于后融合方案。 2. **不要忽视文本描述的作用**，尤其是当查询涉及场景语义或抽象概念时。 3. **采用混合搜索策略**，结合向量距离和结构化元数据（如地理位置、采集时间）过滤，能大幅提升精度。 4. **评估时使用真实世界基准**（如OpenStreetMap），而非合成数据，才能反映实际落地效果。 ## 小结航空影像的语义搜索不再是遥不可及的愿景。通过多模态AI、向量数据库和LLM的组合，企业可以构建一个可扩展、低延迟的影像检索系统，让“问图”像“问文本”一样简单。随着Amazon Nova等基础模型的持续进步，地理空间数据的价值挖掘将进入一个全新阶段。

AWS ML23天前原文