新上线3个月前0 投票

亚马逊Polly推出双向流式API：为对话AI提供实时语音合成

亚马逊云科技近日发布了Amazon Polly双向流式API，这是一项专为对话式AI应用设计的实时文本转语音（TTS）技术。该API允许开发者在文本尚未完全生成时就开始发送并同步接收音频流，从而显著降低语音合成的延迟，提升交互的自然感。

传统TTS的瓶颈与挑战

传统的文本转语音服务通常采用请求-响应模式，这意味着应用必须等待完整的文本内容生成后，才能向TTS服务发起合成请求。尽管像Amazon Polly这样的服务支持将音频流式传输回客户端，但输入端的瓶颈依然存在：文本必须完全就绪才能开始处理。

在由大型语言模型（LLMs）驱动的对话应用中，文本往往是逐词（token）生成的，整个过程可能需要数秒。如果采用传统TTS流程，用户将经历三重等待：

等待LLM生成完整的回复文本。
等待TTS服务合成整个文本。
等待音频数据下载并开始播放。
这种累积延迟会严重破坏对话的流畅性和即时感。

双向流式API如何破局

全新的 StartSpeechSynthesisStream API 引入了根本性的改变。它基于HTTP/2协议实现真正的双向通信，核心创新在于：

增量发送文本：文本可以分块、实时地流式传输给Polly，无需等待完整的句子或段落。
即时接收音频：合成出的音频字节几乎在生成的同时就流式返回给客户端。
合成时机可控：开发者可以通过配置“刷新”指令，立即触发对已缓冲文本的合成。
单连接双工通信：在同一个连接上同时进行发送和接收，提升了效率并降低了延迟。

关键组件与工作流程

API通过定义明确的事件来实现交互：

TextEvent（入站）：客户端向Amazon Polly发送待合成的文本块。
CloseStreamEvent（入站）：客户端通知流结束。
AudioEvent（出站）：Amazon Polly向客户端流式返回合成好的音频数据。

这种设计使得应用可以在LLM输出第一个词时就开始语音合成，并在后续文本到达时持续合成和播放，实现了文本生成与语音合成的“流水线”并行处理。

对对话AI生态的意义

这项更新直接瞄准了当下AI应用的核心痛点——交互延迟。对于虚拟助手、AI客服、实时翻译、有声内容实时生成等场景，毫秒级的延迟优化都能显著提升用户体验。它让AI的“思考”（文本生成）与“说话”（语音合成）过程几乎同步，向真正自然、无缝的人机对话迈出了关键一步。

亚马逊Polly此次升级，也反映了云服务商正从提供基础AI能力，转向深度优化这些能力以适配新兴的、对实时性要求极高的生成式AI应用范式。这不仅是技术的迭代，更是服务理念向场景化、集成化解决方案的演进。

延伸阅读

相关资讯

利用图同构网络实现NR-V2X车联网低延迟中继选择

10-K报告中的哪些内容真正重要？全文与风险因素的情绪价值因聚合层级而异

分支策略优化：面向沙盒的原生语言智能体强化学习新方法

QFireNet：量子增强U-Net用于Sentinel-2影像 wildfire 分割