分享好友 健康资讯首页 健康资讯分类 切换频道

视频生成一长就漂移竟是前序帧「太干净」惹的祸,研究揭示共享噪声水平才是长视频稳定关键

2026-03-17 16:246036kr

自回归视频生成越往后越崩的问题有救了!

随着视频生成向长时序演进,自回归(AR)扩散模型因其支持流式输出的特性,受到了学术界和工业界的广泛关注。然而,现有的AR生成范式在迈向“无限长”时,始终面临一个核心痛点:训推不一致导致的误差累积。这使得生成的视频越往后,时序漂移和画面崩坏问题(drift)就越严重。

为了缓解这一退化问题,现有的方法尝试了多种路径,例如模拟预测误差、引入First frame sink或者Self-rollout机制。但这些修补方案都存在各自的局限性,比如使用frame sink往往会导致视频的场景变化受到严重限制。

长时序下的漂移问题,其根源到底在哪里?

「自回归生成的初衷」与「干净上下文的陷阱」

自回归视频生成模型的初衷,是为了像语言模型一样,一段一段地生成视频,从而突破单次生成的物理显存限制。在这个过程中,主流的做法是等待前一个视频块完全去噪,变成“干净”的画面后,再作为条件输入给下一个块。

中国科技大学、香港中文大学、同济大学、腾讯混元、安徽省数字安全重点实验室的人员组成的研究团队回溯源头分析后发现,这种“过于干净”的上下文,恰恰是导致时序漂移的罪魁祸首。在实际推理中,前序块的生成不可避免地会带有微小的预测误差。当模型接收到一个完全没有噪声(或极少噪声)的上下文时,它会以极大的置信度将这些“瑕疵”当作绝对正确的真实条件。随着自回归步数的增加,这种误差被不断传递并成倍放大,最终导致了严重的Drift。

HiAR:完全去噪的上下文不是必须的

为了「探究drift仍然存在的原因」以及「高效的解决这个问题」。中科大,MMLab,同济和混元团队联合推出HiAR

前序帧完全去噪是必须的吗?

团队首先重新审视了双向扩散模型(Bidirectional Diffusion)。在双向生成中,所有视频帧是共享噪声水平、同时去噪的,并没有让前序帧提前去噪干净,也能保持全局的连续性和一致性。本质来说,这是由于扩散模型在往往有coarse-to-fine的生成模式,coarse阶段的去噪需要coarse的context就足够了。这一规律同样可以迁移到Causal AR Diffusion中,基于此,团队重新规划了帧间依赖关系,推出层次去噪框架。

HiAR不再串行地等待前一个视频块完全生成,而是在每一个去噪步中,对所有的视频块进行因果生成。这意味着,上下文和当前生成块始终共享相同的噪声水平。这种简单的重构,不仅大幅减少了块与块之间的误差传递,还带来了一个意外之喜——它天然支持流水线并行推理。

HiAR如何避免“动作僵化”?

在自回归视频模型的蒸馏训练中,研究团队经常会遇到一个棘手的问题:模型为了轻易降低损失,会寻找捷径,倾向于生成几乎静止的“低运动幅度”视频。

为了解决这个问题,团队在训练阶段引入了前向KL正则化(Forward-KL regularizer)。这里有一个非常有趣的发现:当前蒸馏得到的Causal模型,实际上仍然保留了相当不错的Bidirectional attention能力。基于这个现象,团队在双向注意力模式下计算前向KL正则损失。这使得模型在不干扰原有蒸馏损失的前提下,被有效约束去保持原视频的动态多样性与合理的运动幅度。

实验证明,这一设计让HiAR在保持画面稳定的同时,完美保持了教师模型的高动态表现力。

HiAR效果如何?分钟级无退化生成

研究团队在权威的VBench长视频(20s)基准测试上对HiAR进行了全面评估。结果表明,HiAR展现出了当前自回归模型的显著优势。特别是在长时序的稳定性上,HiAR的Drift Score(漂移分数)降到了最低(0.257),相比基线方法显著减少了时序漂移,在长时序下依然保持了极高的画质与语义稳定。在Quality等核心视觉指标上,HiAR也取得了最优成绩。

更令人兴奋的是,HiAR真正实现了分钟级的无退化视频生成

在团队的测试中,HiAR成功实现只训练5秒长度视频的情况下生成了3小时的高质量连续视频。

当然,团队也坦诚地指出,由于当前版本没有引入任何外部记忆模块,并且只使用了Wan1.3B小模型蒸馏,在极长时序下视频的语义连续性以及指令遵从会受到一定影响,但画质退化(drift)已经得到了很大的改善(欢迎大家使用团队的开源代码进行尝试)。

HiAR推理快吗?

除了生成质量的飞跃,HiAR在工程落地上的优势同样明显。得益于分层去噪架构打破了传统AR模型“逐块串行”的枷锁,团队在4步去噪的设置下解锁了流水线并行推理能力。实验数据显示,在不牺牲任何视频质量的前提下,HiAR实现了约1.8倍的推理加速,吞吐量达到30 fps,单chunk延迟低至0.30s。这为高质量长视频的实时流式生成铺平了道路。

长视频生成的正确道路是什么?

目前解决训推不一致的方法是模拟预测误差,first frame sink或者self-rollout,但这三者都存在各自的问题。

HiAR为自回归长视频生成解决这个问题提供了一种新的思路,证明了简单的共享噪声水平就能够有效打破误差累积的魔咒。团队的方法独立于frame sink以及基于context压缩的方法,具有很大的发展空间。

论文标题:HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

论文链接:https://arxiv.org/abs/2603.08703

代码:https://github.com/Jacky-hate/HiAR

网页:https://jacky-hate.github.io/HiAR/

本文来自微信公众号“量子位”,作者:HiAR团队 ,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-2913

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-2912

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2914

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-299