分享好友 健康资讯首页 健康资讯分类 切换频道

打破视频推理「先看后想」惯性,实现真正的「边看边想」

2026-03-18 16:3126036kr

今天的大型视觉语言模型(VLM)做离线视频分析很强,但一到实时场景就尴尬:

视频在往前走,模型还在“补作业”。

监控告警、机器人交互、自动驾驶——这些任务要的是边看边想,不是看完再想

为此,越来越多的方法采用“帧文交错”的方式实现流式感知视频,即:“看一会,说一会”。

这样的方式看起来够用,是因为模型“想得短”。一旦引入Chain-of-Thought,推理变得更加复杂:模型一思考就占着生成通道不放,新的帧进不来;打断会丢思路,不打断就会过时。

宁波东方理工大学/宁波数字孪生(东方理工)研究院沈晓宇团队的研究提出TaYS,并给出一个明确结论:

要让VLM真正具备实时视频推理能力,必须从“帧文交错”切换到“并行”。

研究论文:

《Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models》

目前,该论文已被CVPR 2026接收。

为什么现在的推理系统不适合实时视频?

主流VLM视频推理系统基本沿用同一套逻辑:

完整视频→统一编码→开始推理→输出答案

这在离线任务没问题,但在流式视频里会出现两个硬伤:

1. 延迟不可控:视频越长,首字输出(TTFT)越慢,交互直接崩。

2. 证据错配:推理发生在“很久以后”,早期线索被长序列淹没,容易漂移甚至幻觉。

为了解决这一问题,一些工作实现“帧文交错”的推理范式,在和原有图文交错的预训练范式对齐的基础上提高视频感知的实时性,但多数仍是串行流水——处理完一帧才轮到推理一步,算力利用率低。

问题还不止于此:复杂视频理解往往需要Chain-of-Thought

在面对很多如选择题等只需要输出单个或几个token的任务,可能“帧文交错”的流式推理形式可以有效解决——毕竟decode只占据极少的时间,但很多视频理解任务并不是简单的目标识别,而是需要多步推理

这些任务往往需要模型生成一段连续的推理过程,而不是直接输出答案,因此,CoT也早已在文本推理、图片理解、离线视频理解中占据重要地位。

看起来,把它应用到流式视频理解非常自然,但问题在于:

CoT会显著拉长推理时间。

在现有架构下,一旦模型进入长时间的CoT推理:

换句话说:

视频在继续流动,而模型却被困在一次长时间的思考里。

这使得现有系统在实时场景下几乎无法真正使用CoT推理。

核心思路:把推理改造成“随新的视频帧到达而增长”的流式过程

TaYS(Think-as-You-See)做的不是小修小补,而是把“边看边想”落到三件关键工程上:

1. 流式注意力掩码:保证真正的时间因果

推理token只能看见已到达的帧,避免“偷看未来”。

这一步解决的是:流式场景下输入动态到达,传统因果掩码不够用的问题。

2. 解耦式位置编码:把“时间顺序”和“思考顺序”分开

视频帧是物理时间轴,推理是逻辑生成轴。

TaYS让视觉token和推理token各走各的位置索引,避免跨模态索引冲突,时序推理更稳。

3. 双KV-Cache:让视觉编码与文本推理真正并行

这是TaYS的“发动机”。

把缓存分成两套:

视觉KV-Cache:持续写入新帧特征

推理KV-Cache:持续生成思维链与回答

视觉编码像“生产者”,LLM推理像“消费者”,两者并行跑起来,TTFT和整体延迟都能显著压下去。

结果:不只是更快,也更准

在Qwen2.5-VL等主流模型上,TaYS的实验结论很清晰:

准确性:在事件动态、因果推断、主题理解等视频思维链任务上,整体优于批处理基线与朴素交错流式基线。

延迟:首字生成时间(TTFT)大幅降低,端到端延迟更低且更稳定。

消融验证

一句话总结实验:

TaYS做到了“边看边想”不降质,反而更稳、更快。

总结:VLM从“离线分析”走向“在线智能”

TaYS的价值不止是指标更漂亮,而是把VLM推向更真实的应用形态:

机器人/具身智能:边看动作演示边给下一步指令,交互不再“卡顿”。

安防监控:从事后检索走向事中预警,异常出现就能及时推理更新。

直播/教育:实时总结、实时答疑、实时解释画面内容,让AI真正参与互动。

它更像一次范式切换:

Streaming reasoning可能会成为下一代多模态系统的默认形态。

当大家都在让模型“更会想”,TaYS提醒了另一件事:

更重要的是,让模型“想得更及时”。

论文标题:Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

第一作者:张家亮

通讯作者:沈晓宇(宁波东方理工大学)

arxiv:https://arxiv.org/abs/2603.02872

github:https://github.com/EIT-NLP/StreamingLLM/tree/main/TaYS

作者介绍:第一作者张家亮,为宁波东方理工大学/宁波数字孪生(东方理工)研究院沈晓宇团队实习生,研究方向为流式多模态大模型推理优化。在CVPR、TGRS上发表多篇论文。更多科研项目成果请参阅

实验室主页:https://idt.eitech.edu.cn/nlp/#/

本文来自微信公众号“量子位”,作者:EIT-NLP团队 ,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-2913

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-2912

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2914

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-2910