SheepNav
新上线9天前0 投票

利用 SageMaker Unified Studio 与 S3 加速基于非结构化数据的 LLM 微调

背景:AWS 整合 SageMaker 与 S3,简化非结构化数据应用

去年,AWS 宣布了 Amazon SageMaker Unified StudioAmazon S3 通用存储桶 的集成。这一举措旨在简化团队利用存储在 S3 中的非结构化数据进行机器学习(ML)和数据分析的流程。非结构化数据,如图像、文本、音频等,在现实世界中占据数据总量的绝大部分,但其处理通常复杂且耗时。AWS 的此次整合,为开发者提供了一个更流畅的端到端工作流,特别是在大语言模型(LLM)的微调场景中,能够显著提升效率。

实践案例:微调 Llama 3.2 11B Vision Instruct 进行视觉问答

本文展示了一个具体的技术实践:如何将 S3 通用存储桶与 Amazon SageMaker Catalog 集成,使用 Amazon SageMaker Unified Studio 来微调 Llama 3.2 11B Vision Instruct 模型,以执行视觉问答(VQA)任务。

什么是视觉问答(VQA)?
VQA 任务要求模型根据输入的图像和问题,生成准确的文本答案。例如,给定一张详细收据的图像,并提问“交易日期是什么?”,模型需要识别图像中的日期信息并回答。

为什么选择 Llama 3.2 11B Vision Instruct?

  • 模型来源:通过 Amazon SageMaker JumpStart 可直接访问该模型。
  • 基线性能:该基础模型在 DocVQA 数据集上实现了 85.3% 的平均归一化莱文斯坦相似度(ANLS)得分。ANLS 是评估 VQA 任务性能的指标,衡量模型预测答案与真实答案的相似度。
  • 微调动机:虽然 85.3% 的得分显示了强大的基线性能,但对于需要更高精度和准确度的特定应用(如文档信息提取),通过微调进一步提升模型表现是必要的。

微调过程:数据、架构与评估

1. 数据集准备

  • 数据源:使用 Hugging Face 上的 DocVQA 数据集,该数据集包含 39,500 行训练数据,每行包括输入图像、问题和对应的预期答案。
  • 数据存储:数据集存储在 Amazon S3 中,通过集成可直接用于 SageMaker 工作流。
  • 实验设计:为了评估数据量对微调效果的影响,创建了三个不同规模的微调版本:使用 1,0005,00010,000 张图像进行训练。

2. 技术架构与流程
整个端到端流程通过 Amazon SageMaker Unified Studio 进行编排,主要包括以下步骤:

  • 数据摄取:从 S3 获取非结构化数据(图像和文本)。
  • 数据预处理:准备数据以供模型训练。
  • 模型训练:在 SageMaker 环境中执行微调任务。
  • 评估与跟踪:使用 Amazon SageMaker 全托管无服务器 MLflow 来跟踪实验并测量准确度改进。

3. 关键工具与资源

  • SageMaker Unified Studio:作为统一的开发环境,简化了从数据到部署的整个 ML 生命周期。
  • S3 集成:使非结构化数据的访问和管理更加直接,减少了数据迁移和格式转换的复杂性。
  • GitHub 资源:本文涉及的 Jupyter 笔记本可在相关 GitHub 仓库中找到,便于用户复现和实践。

行业意义与展望

这一实践不仅展示了 AWS 在 MLOpsAI 基础设施 方面的持续创新,也反映了当前 AI 行业的几个关键趋势:

  • 非结构化数据价值挖掘:随着多模态 AI(如视觉-语言模型)的兴起,高效处理图像、视频等非结构化数据成为核心竞争力。AWS 的集成方案降低了技术门槛,使更多团队能够利用这些数据训练定制化模型。
  • 模型微调普及化:预训练大模型(如 Llama 系列)提供了强大的基础能力,但针对特定领域(如金融文档、医疗影像)的微调需求日益增长。SageMaker 与 S3 的整合,通过简化数据管道和实验管理,加速了从通用模型到专用模型的转化过程。
  • 云原生 AI 工作流:基于云的统一平台(如 SageMaker Unified Studio)正成为企业部署 AI 的首选,它提供了可扩展性、成本效益和易于协作的环境,特别适合处理大规模非结构化数据。

潜在应用场景

  • 文档自动化:自动从发票、合同等扫描件中提取关键信息。
  • 内容审核:识别图像中的不当内容并结合上下文进行判断。
  • 辅助工具:为视障人士提供图像描述或问答服务。

小结

通过结合 SageMaker Unified StudioS3 存储Llama 3.2 11B Vision Instruct 模型,AWS 提供了一个高效的框架,用于加速基于非结构化数据的 LLM 微调。这种方法不仅提升了视觉问答等任务的性能,也彰显了云平台在整合数据、计算和 AI 工具方面的优势。随着多模态 AI 应用的扩展,此类集成解决方案预计将更受青睐,推动 AI 在更广泛场景中的落地。

延伸阅读

  1. 油价飙升如何省钱?我常用的5款寻找附近最便宜加油站的App
  2. 出差两个月,我让智能花盆自己照顾植物——结果令人惊喜
  3. 如何清理Android手机缓存——以及为何它能显著提升性能
查看原文