分享好友 健康资讯首页 健康资讯分类 切换频道

翁荔创业大模型首秀,告别“120亿美元估值0模型”

2026-05-12 16:140036kr

AI再也不是“回合制”了。

Thinking Machines Lab(以下简称TML)发布首个模型,让实时交互能力成为模型原生能力。

联合创始人翁荔出镜演示。

从“人说完→AI答→人再说→AI再答”,变成了“人和AI都可以随时插嘴,说完了代码也写完了”。

音频和代码同时输出,说完了活也干完了。

在测试结果上,响应延迟比GPT-realtime-2.0快4倍,交互质量测评领先GPT-realtime-2.0,只在模型智力上还不如GPT-2.0 xhigh模式。

在几个月里,团队训练了12个版本,留下了137页的训练日志。

今天,这家由OpenAI前CTO创办的实验室,终于交卷首个模型TML-Interaction-Small

也让外界知道了“Thinking Machines”的真正含义:

把语音助手、视频理解和Agent协作放到同一个框架里解决。

增加人机交互带宽,模型边听边说边想

真实工作里,很多需求根本不可能一开始就完全说清楚。

你可能讲到一半想改方向,看到结果后想补条件,发现模型误解了一个词,或者只想在关键节点插一句“不是这个意思”。

如果人类之间只能用邮件沟通,效率就太低了。

现在大多数AI系统的基本节奏,也是邮件式的“回合制”。

用户输入时,模型等着。模型生成时,它对新信息的感知又会冻结。除非被打断,否则它不知道你正在做什么、看到什么、纠结什么。

这就把人和AI的协作压在一个很窄的通道里,人的知识、意图、判断,被这条邮件式窄带宽漏掉了大半。

同时,回合制的AI系统不支持精确的时间估计或同步语音。

比如这些任务现有AI就完全无法回答:“我跑一英里花了多长时间?”、“请纠正我的发音错误”或“我写这个函数花了多长时间?

要解决这些问题,TML让AI在任何模态上都能实时交互,让接口去适应人,而不是反过来让人去迁就接口

现在多数AI模型解决交互问题,是外挂一层harness,拼接 VAD(语音活动检测)、turn-detection、TTS这些组件,模拟出实时感。

TML搬出了新的“Bitter Lesson”:

这些拼接出来的系统,长期看会被通用能力的扩展给追平甚至超越。想让交互能力随着智能一起scale,交互能力就必须做进模型本身。

那么,“交互做进模型”具体是怎么实现的?

前台及时响应,后台干重活

这套交互模型最关键的机制,是把连续音频、视频、文本都切成200ms的“微回合”

让输入和输出在时间上交错输入同一个模型。

沉默、重叠说话、用户自我修正、视觉变化都不再是外部状态,而是模型能直接学习和响应的上下文。

旧方法:模型等完整用户轮次,再生成完整回应;实时感主要靠外部组件判断谁该说话。

新方法:每 200ms 处理输入,也生成输出,输入输出像流一样交错。

整体架构是双模型协同。

前台模型持续接收新输入、回应追问、维持上下文;后台模型异步跑长推理、工具调用和Agent工作流。

遇到不能即时算出来的任务,Interaction Model 把完整对话上下文打包丢给后台。后台一边算,结果一边流式回传过来,前台找个合适的时机插进对话里。

训练阶段的核心方法是encoder-free early fusion。

大多数全模态模型要么训独立的encoder(类Whisper),要么训独立的decoder(类TTS),

TML的做法:

音频编码不用一个庞大的独立encoder,而是用dMel加一个轻量embedding层,图像切成 40x40的patch由hMLP编码,音频输出用flow head解码。

所有这些组件,跟Transformer一起从头共同训练,在训练阶段就让它们共享一个实时互动语境。

200ms的响应速度也带来工程压力。

每200ms一次请求,意味着大量小prefill和小decode。传统LLM推理库并不擅长这种高频小块工作,开销可能被请求管理、内存分配、元数据计算吃掉。

TML又做了一层streaming sessions。

客户端仍然按 200ms chunk 发送请求,服务端则把这些 chunk 追加到 GPU memory 里的 persistent sequence 中,避免反复重分配。发布方还称,相关功能的已经发布到SGLang。

重新认识Thinking Machines Lab

过去说到Thinking Machines Lab这家公司,最容易被记住的标签是再0产品、0收入阶段,就拿到高融资。

Mira Murati从OpenAI离开后创办TML,很快完成约20亿美元种子轮融资,估值达到120亿美元。

这个数字太醒目,但很长一段时间大家都不知道这家公司到底要做什么?

后来的线索也有点分散。

一边是人。

到2026年,TML约140 人,Meta是它挖人最多的来源。从CTO Soumith Chintala,到参与过Segment Anything相关工作的 Piotr Dollar,再到多位 FAIR、多模态、LLM 训练背景的研究员,都加入了TML。

一边是算力。

2026年3月,TML和英伟达宣布长期合作,计划通过Vera Rubin系统获得至少1GW算力,英伟达也参与了TML的融资。

2026年4月22日,TML和谷歌签下单个位数十亿美元级别的云计算协议,将获得基于英伟达 GB300 的系统,用于模型训练和部署。

但很长一段时间,他们的产品就只有一个训练基础设施Tinker。

这次交互模型,TML第一次把自己的技术路线完整摆出来:把AI的交互范式从产品外壳,推进到模型本体。

以前的动作也都看清了:

200ms需要低延迟推理系统;

前台交互模型和后台模型需要稳定的训练、调度和工具链;

多模态实时输入输出需要更强的训练和部署底座;

更大规模模型要在这种实时设定里跑起来,更离不开GB300、Vera Rubin这类算力。

TML 想赌的,是下一个人机协作界面。

今年新加入团队的斯坦福博士Zitong Yang,还设想过把整个大模型预训练数据重写成智能体轨迹。

这次发布的TML-Interaction-Small还只是第一步。

按照发布方说法,它是276B 参数 MoE、12B激活参数,目前更大规模的预训练模型还无法胜任实时交互任务。

更大规模的模型,计划在今年晚些时候发布。

参考链接:

[1]https://thinkingmachines.ai/blog/interaction-models/

[2]https://x.com/thinkymachines/status/2053938906689884279

本文来自微信公众号“量子位”,作者:梦晨,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
英伟达开始向泡沫里加肥皂水
英伟达正在做一件事:用自己手里天量现金,投资那些购买自家GPU的公司,再看着那些公司用这笔钱买更多的GPU。这就像一只手倒水兑出泡沫,另一只手往里倒肥皂水。进入2026年,这家芯片巨头在五个月内已经做出了超过400亿美元的投资承诺,覆盖了从光纤制造、数据中心运营到基础模型研发的每一层。它的身份正从芯片供应商,变成整个AI产业链最重要的资本配置者。有些钱是用来造东西的,有些钱是用来让东西看起来更值钱

0评论2026-05-120

AI正在杀死“传统公司”?
硅谷一篇长文刷屏了,作者是 Foundation Capital 合伙人、前麦肯锡咨询师 Jaya Gupta。这篇文章在 X 上 12 小时获得了130万阅读,引起创始人和AI从业者讨论和转发。这篇长文之所以能在硅谷乃至全球科技圈激起如此大的涟漪,是因为 Jaya Gupta 戳破了 AI 时代那个最令人焦虑的“皇帝的新衣”。当技术红利被迅速抹平,当产品功能可以在几周内被像素级复刻,创业者还能拿

0评论2026-05-120

AI推理时代新周期
2026年5月,全球科技产业正式进入AI推理主导的全新周期。市场风格发生鲜明切换:曾经被视为“配角”的CPU迎来需求爆发,英特尔年内股价暴涨近两倍,带动海光信息等国产CPU厂商同步走强;与此同时,存储芯片延续供给紧缺态势,板块景气度贯穿全年。这并非短期题材炒作,而是AI产业从“训练为王”转向“推理落地”带来的结构性巨变。当大模型从云端实验室走向千行百业,当每一台终端、每一个设备都开始搭载AI代理(

0评论2026-05-120