分享好友 健康资讯首页 健康资讯分类 切换频道

前OpenAI CTO创业后首个「交互」大模型:原生、实时处理人机协作

2026-05-12 17:020036kr

从 Siri 到 ChatGPT,为什么我们和机器的对话始终像一问一答,却无法像人与人交流一样自然?

目前,大多数大模型仍然主要依赖轮次式交互,难以实现真正顺畅的实时对话。用户需要先完成输入,模型再生成回答:在用户输入过程中,模型通常无法持续参与判断;模型生成内容时,它也很难同步接收新的语音、画面和用户动作。因此,大多数时候的实时对话,本质上仍是把语音识别、大模型、文本转语音等模块拼接在一起,用外部工程框架实现同步交流。

今天,为重新定义人机对话,前 OpenAI CTO Mira Murati初创公司 Thinking Machines Lab 发布了首款交互模型 Interaction Models 的研究预览,系统介绍了研究方法、早期结果和演示案例。研究团队指出,该模型展示了全新的交互能力,并在智能性与响应速度方面达到了目前最先进的水准。

blog 链接:https://thinkingmachines.ai/blog/interaction-models/

研究团队指出,交互模型 Interaction Models 可以持续接收音频、视频和文本,同时进行回应、工具调用和后台推理工作。

面向实时协作的双模型系统

Interaction Models 有两个核心设计:一个具备时间感知的交互模型,用来维持与用户的实时交互;一个异步后台模型,用来处理持续推理、工具使用和更长时间跨度的工作。多模态架构与流式推理服务则支撑低延迟输入输出。

图|用户持续与交互模型互动,同时后台模型执行异步任务。两个系统共享上下文。

1.交互模型:200毫秒级实时对话管理

Interaction Models 引入时间对齐微轮次,把连续输入和输出切成 200 ms 片段,让模型持续接收音频、视频和文本,并同步生成文本或语音输出

图|轮次式模型看到的是一条交替的 token 序列。具备时间感知能力的交互模型看到的是连续的微轮次流,因此沉默、重叠发言和打断仍会保留在模型上下文中。

在这种设计下,用户的停顿、重叠发言、打断和视觉变化,都成为模型判断下一步动作的依据。模型不必等待用户给出完整的指令,就能判断此刻是否需要回应。

官方演示视频中,Lilian Weng 在讲故事时,模型会判断她是在思考、自我修正,还是期待回应。模型会独立完成交互判断,不需要额外的对话管理模块

2.后台模型:把异步任务接入实时对话

当遇到需要持续推理、工具调用、网页浏览或更长时间跨度的任务时,交互模型会把完整上下文交给异步运行的后台模型。

后台模型,接收的是完整对话状态。当结果生成后,后台模型会以流式方式返回,再由交互模型并入对话。用户可以继续说话,不必等待后台任务结束。

在官方演示视频中,人类看起来像是在与一个无所不知的模型对话,模型在工作时,会一边听用户的指令、一边回应,同时在后台搜索

3.底层服务:用早期融合与流式会话压低延迟

为了适配 200 ms 微轮次的实时输入输出,研究团队采用早期融合路线:音频以 dMel 表示进入模型,图像被切成 40×40 patch 后编码,音频输出则通过 flow head 解码生成。

图|单个 200 ms 微轮次中的交互模型架构示意图。模型可以接收文本、音频或视频中的任意一种或多种输入,并预测文本和音频输出

在推理侧,研究团队运用流式会话,用服务端把连续片段追加到 GPU 内存中的持久序列里,以减少重新分配内存和元数据计算。研究团队还把相关能力并入 SGLang 上游,并通过 kernel 优化和 trainer-sampler alignment 等处理,支撑低延迟双向服务。

更低延迟,更强实时交互

研究团队用已有交互基准、音频智能基准,以及自建实时交互任务对 TML-Interaction-Small 进行了评估。

常规交互基准上,TML-Interaction-Small 的优势主要体现在响应速度和交互质量。FD-bench V1 中,它的简单话轮延迟为 0.40 秒,低于 GPT-realtime-2.0 minimal 的 1.18 秒、GPT-realtime-1.5 的 0.59 秒和 Gemini-3.1-flash-live-preview minimal 的 0.57 秒。

图|该模型在交互质量方面表现较高,同时在非 thinking 模型中具备较高智能水平。最佳响应速度以用户与模型交互之间的延迟衡量。

FD-bench V1.5 进一步衡量模型在用户打断、用户附和、背景语音等场景下的交互质量。TML-Interaction-Small 的平均质量为 77.8,高于几个实时模型对照。此外,研究团队也用 Audio MultiChallenge 和 IFEval 检查该模型的基础能力:前者 APR 为43.4%,后者文本准确率为 89.7%,与 GPT-realtime-2.0 minimal 的 89.6% 基本接近。

图|对于需要推理或工具调用的基准,结果为启用后台 Agent 后的表现。

实时模型的评估不能只看响应速度,更低的延迟需要与指令遵循、音频理解、工具使用和安全边界同时成立,才构成有效的交互能力。因此,研究团队进行了更多测试,包括带工具调用的 FD-bench V3、视频音频问答 QIVD、BigBench Audio、VoiceBench IFEval,以及 Harmbench 拒答率。在常规基准外,研究团队还设计了几组内部任务,用于评估模型在连续音视频输入中的实时响应能力

其中,TimeSpeak 和 CueSpeak 负责评估音频交互能力。前者测试模型是否具备时间感知能力,按用户指定时间发出正确内容;后者测试模型是否能识别用户语音中的触发线索,并在合适时机给出语义正确的回应。结构显示,TML-Interaction-Small 在两项任务上分别得分 64.7 和 81.7,GPT-realtime-2.0 minimal 仅为 4.3 和 2.9。

RepCount-A、ProactiveVideoQA 和 Charades 负责评估视觉主动响应能力。结果显示,TML-Interaction-Small 在 RepCount-A 上得分 35.4,GPT-realtime-2.0 minimal得分为 1.3; Charades 上 mIoU 为 32.4,对照为 0;在 ProactiveVideoQA 上得分 33.5,高于 25.0 的不回答基线

图|ProactiveVideoQA 上的不回答基线为 25.0

不足与未来方向

目前,Interaction Models 仍处于研究预览阶段,距离稳定可用的实时协作系统还有一定距离,主要包括以下 5 个方面:

更长时间的实时协作,仍然需要更细的上下文管理机制。连续音频和视频会快速占用上下文,流式会话可以支撑短会话和中等长度交互,但真实工作往往会跨越多个任务阶段,很少在几分钟内结束,这会进一步放大长上下文压力。

低延迟部署也会受到现实条件限制。实时音视频流依赖稳定连接;网络质量下降时,体验会明显变差。研究团队指出,后续系统需要提高可靠性,并训练模型更好地适应延迟帧

更大模型的实时部署仍然受限。当前 TML-Interaction-Small 已经是 276B 参数 MoE,激活参数为 12B。研究团队认为,交互能力会随模型规模提升,但现阶段更大的预训练模型速度仍然不够,无法直接用于实时场景。他们计划在今年发布更大模型

安全问题需要关注。长时间对话、多模态输入和实时工具调用,都会让安全校准变得更难。模型用语音拒答时,既要说得自然,也要说清楚明确拒绝的需求,模型主动插话也需要谨慎。模型什么时候开口、什么时候保持沉默,都会影响用户对系统的信任和控制感

后台 Agent 机制仍处在早期阶段。研究团队提到,实时交互只是其中一部分,Agentic intelligence 仍然是关键能力。后台模型与交互模型如何协作,工具调用、网页浏览、长期规划和实时反馈如何组织进同一套系统,仍有待进一步验证

本文来自微信公众号 “学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
开价20亿如今“腰斩”,FIFA这回在中国算是踢到钢板了,七成比赛在凌晨,还是一门好生意吗?
国际足联(FIFA)为中国市场开出的3亿美元(约合人民币20.39亿元)报价,被指“腰斩”。据《南华早报》10日报道,国际足联官员正争取让中央广播电视总台(以下简称“央视”)购买今年世界杯的电视转播权,要价降到1.2亿到1.5亿美元(约合人民币8.15亿元至10.19亿元)之间。开价悬殊,“看人下菜碟”据澎湃新闻报道,FIFA对于世界杯的转播权此前一直实施差异化的定价策略,根据市场体量、球迷基数与

0评论2026-05-120

英伟达开始向泡沫里加肥皂水
英伟达正在做一件事:用自己手里天量现金,投资那些购买自家GPU的公司,再看着那些公司用这笔钱买更多的GPU。这就像一只手倒水兑出泡沫,另一只手往里倒肥皂水。进入2026年,这家芯片巨头在五个月内已经做出了超过400亿美元的投资承诺,覆盖了从光纤制造、数据中心运营到基础模型研发的每一层。它的身份正从芯片供应商,变成整个AI产业链最重要的资本配置者。有些钱是用来造东西的,有些钱是用来让东西看起来更值钱

0评论2026-05-121