SheepNav
新上线20天前0 投票

Thinking Machines 想让 AI 真正实现“边听边答”——像打电话一样自然

突破传统对话模式:全双工 AI 来了

当前几乎所有 AI 模型的工作方式都如出一辙:你说话,它倾听;它回答,你等待。这种“半双工”模式就像发短信,一来一回总有延迟。由前 OpenAI CTO Mira Murati 创立的 Thinking Machines Lab 正试图打破这一局面——他们推出了名为 interaction models 的全新架构,让 AI 能够 边听边答,实现真正的“全双工”对话,如同一次自然流畅的电话交流。

技术亮点:接近人类对话的响应速度

公司宣称其模型 TML-Interaction-Small 的响应时间仅为 0.40 秒,这一速度已接近人类自然对话的节奏,且显著快于 OpenAI 和 Google 的同类模型。传统 AI 需要完整接收用户输入后才能开始生成回复,而 Thinking Machines 的新模型则能 并行处理输入与输出,在用户尚未说完时就开始构建回应,从而消除尴尬的等待间隙。

当前状态:研究预览,尚未公测

需要注意的是,目前这仍是一个 研究预览版,并非成熟产品。公司计划在未来几个月内开放有限的研究预览,更广泛的公开发布预计在今年晚些时候。这意味着,尽管技术指标令人兴奋,但实际体验是否如宣传般出色,仍需等待用户亲自验证。

行业影响与展望

全双工对话是 AI 交互领域长期追求的目标。如果 Thinking Machines 能成功落地,将彻底改变语音助手、客服机器人、实时翻译等场景的用户体验。不过,技术挑战也不容小觑:如何在不牺牲准确性的前提下实现实时打断与响应?如何处理多轮对话中的上下文冲突?这些问题有待后续研究揭晓。

对于 AI 行业而言,这一尝试标志着从“问答机器”向“对话伙伴”的进化迈出了关键一步。正如公司所言,交互性应当成为模型的原生能力,而非事后添加的补丁。未来几个月的研究预览将是验证这一理念的试金石。

延伸阅读

  1. NumLeak:公开数值基准竟成基础模型“潜标签”,前沿大模型记忆能力惊人
  2. 突破 fMRI 数据瓶颈:双谱流匹配模型生成高保真脑功能时序数据
  3. 当LLM学会“故意犯错”:多模型研究揭示线性欺骗表征
查看原文