新上线9天前0 投票
亚马逊Polly推出双向流式API:为对话AI提供实时语音合成
亚马逊云科技近日发布了Amazon Polly双向流式API,这是一项专为对话式AI应用设计的实时文本转语音(TTS)技术。该API允许开发者在文本尚未完全生成时就开始发送并同步接收音频流,从而显著降低语音合成的延迟,提升交互的自然感。
传统TTS的瓶颈与挑战
传统的文本转语音服务通常采用请求-响应模式,这意味着应用必须等待完整的文本内容生成后,才能向TTS服务发起合成请求。尽管像Amazon Polly这样的服务支持将音频流式传输回客户端,但输入端的瓶颈依然存在:文本必须完全就绪才能开始处理。
在由大型语言模型(LLMs)驱动的对话应用中,文本往往是逐词(token)生成的,整个过程可能需要数秒。如果采用传统TTS流程,用户将经历三重等待:
- 等待LLM生成完整的回复文本。
- 等待TTS服务合成整个文本。
- 等待音频数据下载并开始播放。
这种累积延迟会严重破坏对话的流畅性和即时感。
双向流式API如何破局
全新的 StartSpeechSynthesisStream API 引入了根本性的改变。它基于HTTP/2协议实现真正的双向通信,核心创新在于:
- 增量发送文本:文本可以分块、实时地流式传输给Polly,无需等待完整的句子或段落。
- 即时接收音频:合成出的音频字节几乎在生成的同时就流式返回给客户端。
- 合成时机可控:开发者可以通过配置“刷新”指令,立即触发对已缓冲文本的合成。
- 单连接双工通信:在同一个连接上同时进行发送和接收,提升了效率并降低了延迟。
关键组件与工作流程
API通过定义明确的事件来实现交互:
- TextEvent(入站):客户端向Amazon Polly发送待合成的文本块。
- CloseStreamEvent(入站):客户端通知流结束。
- AudioEvent(出站):Amazon Polly向客户端流式返回合成好的音频数据。
这种设计使得应用可以在LLM输出第一个词时就开始语音合成,并在后续文本到达时持续合成和播放,实现了文本生成与语音合成的“流水线”并行处理。
对对话AI生态的意义
这项更新直接瞄准了当下AI应用的核心痛点——交互延迟。对于虚拟助手、AI客服、实时翻译、有声内容实时生成等场景,毫秒级的延迟优化都能显著提升用户体验。它让AI的“思考”(文本生成)与“说话”(语音合成)过程几乎同步,向真正自然、无缝的人机对话迈出了关键一步。
亚马逊Polly此次升级,也反映了云服务商正从提供基础AI能力,转向深度优化这些能力以适配新兴的、对实时性要求极高的生成式AI应用范式。这不仅是技术的迭代,更是服务理念向场景化、集成化解决方案的演进。