分享好友 健康资讯首页 健康资讯分类 切换频道

生成不遗忘,「超长时序」世界模型,北大EgoLCD长短时记忆加持

2025-12-24 16:084036kr

【导读】视频生成模型总是「记性不好」?生成几秒钟后物体就变形、背景就穿帮?北大、中大等机构联合发布EgoLCD,借鉴人类「长短时记忆」机制,首创稀疏KV缓存+LoRA动态适应架构,彻底解决长视频「内容漂移」难题,在EgoVid-5M基准上刷新SOTA!让AI像人一样拥有连贯的第一人称视角记忆。

随着Sora、Genie等模型的爆发,视频生成正从「图生动」迈向「世界模拟器」的宏大目标。

然而,在通往「无限时长」视频生成的路上,横亘着一只拦路虎——「内容漂移」(Content Drift)。

你是否发现,现有的视频生成模型在生成长视频时,往往也是「金鱼记忆」:前一秒还是蓝色瓷砖,后一秒变成了白色墙壁;原本手里的杯子,拿着拿着就变成了奇怪的形状;

对于第一人称(Egocentric)视角这种晃动剧烈、交互复杂的场景,模型更是极其容易「迷失」。

生成长视频不难,难的是「不忘初心」。

近日,来自北京大学、中山大学、浙江大学、中科院和清华大学的研究团队,提出了一种全新的长上下文扩散模型EgoLCD,不仅引入了「类脑的长短时记忆」设计,还提出了一套全新的结构化叙事Promp方案,成功让AI在生成长视频时「记住」场景布局和物体特征。

论文地址:https://arxiv.org/abs/2512.04515

项目主页:https://aigeeksgroup.github.io/EgoLCD

在EgoVid-5M基准测试中,EgoLCD在时间一致性生成质量上全面碾压OpenSora、SVD等主流模型,向构建具身智能世界模型迈出了关键一步!

核心痛点,AI为什么会「失忆」?

在长视频生成中,传统的自回归(AR)模型非常容易出现生成式遗忘

这就像让一个人蒙眼画画,画着画着就偏离了最初的构图。对于第一人称视频(如Ego4D数据集)来说,剧烈的相机抖动和复杂的手物交互,让这种「漂移」更加致命。

传统的Transformer虽然有注意力机制,但面对长序列,计算量呈二次方爆炸根本存不下那么多历史信息;而简单的滑动窗口又会丢掉早期的关键信息。

EgoLCD (Egocentric Video Generation with Long Context Diffusion) 将长视频生成重新定义为一个「高效且稳定的内存管理问题」。

长短时记忆系统 (Long-Short Memory) 

EgoLCD 设计了一种类似人类大脑的双重记忆机制:

一句话总结:长期记忆负责「稳」,短期记忆负责「快」。

记忆调节损失 (Memory Regulation Loss)

为了防止模型在训练时「偷懒」,团队设计了一种特殊的损失函数。它强制模型生成的每一帧,都要与从长期记忆库中检索到的「历史片段」保持语义对齐。

这就像给AI戴上了一个「紧箍咒」,一旦它生成的画面开始「胡编乱造」(漂移),Loss就会惩罚它,迫使它回归原本的设定。

结构化叙事提示 (Structured Narrative Prompting, SNP) 

EgoLCD抛弃了简单的文本提示,采用了一种分段式的、包含时间逻辑的结构化剧本。

训练时:使用GPT-4o生成极其详尽的帧级描述,训练模型将视觉细节与文字严格对应。

推理时:SNP充当「外部显性记忆」,通过检索前序片段的Prompt,引导当前片段的生成,确保故事线和视觉风格的连贯。

性能炸裂

为了公正地评测「不遗忘」的能力,研究团队甚至专门开发了一套新指标——NRDP (Normalized Referenced Drifting Penalty),专门用来惩罚那些「虎头蛇尾」、越往后质量越差的模型。

实验结果显示:

一致性碾压:在NRDP-Subject(主体一致性)和NRDP-Background(背景一致性)上,EgoLCD取得了压倒性优势,漂移率极低。

超越基线:相比SVD、DynamiCrafter和OpenSora等顶流模型,EgoLCD在EgoVid-5M基准上的CD-FVD(时序连贯性)和动作一致性指标均为最佳。

极长生成:展示了长达60秒的连贯视频生成(如一名演讲者从黄昏讲到深夜),人物衣着、背景楼宇细节始终如一,没有发生形变!

通往具身智能的「黑客帝国」

EgoLCD不仅仅是一个视频生成模型,它更像是一个「第一人称世界模拟器」。

通过生成长时程、高一致性的第一人称视频,EgoLCD能够为具身智能(机器人)提供海量的训练数据,模拟复杂的物理交互和长序列任务(如做饭、修理)。

正如Sora让人们看到了世界模型的雏形,EgoLCD则让「通过视频教会机器人理解世界」的梦想,变得前所未有的清晰。

参考资料:https://arxiv.org/abs/2512.04515 

本文来自微信公众号“新智元”,编辑:LRST,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
最前线|华为猛士深化战略合作,新技术将逐步落地4款以上全新车型
4月20日,猛士汽车春季焕新发布沟通会上,猛士与华为乾崑官宣深化合作,双方联合发布智能越野黑科技,同时完成全方位焕新。未来两年,猛士汽车将会把智能越野的新技术,逐步落地到4款以上的全新车型上。在汽车行业“人均华为”的时代,猛士是目前和华为合作当中唯一一个越野底子的品牌,猛士汽车总经理万良渝认为,这是猛士与其他汽车品牌的最大差异点。在具体做差异化的过程中,万良渝表示,猛士会把品牌调性中“刚”的那一面

0评论2026-04-221

Coupang数据泄露启示录:风险传导链与“立体化危机”
2025年末,韩国电商巨头Coupang超过3300万用户数据泄露,本是一起严重的网络安全与管理事件。然而,事件的走向远超常规:韩国国会启动高强度听证与立法程序,美国国会发出传票并举行闭门听证,美国投资者依据美韩自贸协定对韩国政府发起国际仲裁,美国贸易代表办公室(USTR)更将此事与双边贸易谈判乃至安全对话挂钩。这场风暴还远未结束。本周,50多名美国众议院议员联合致信韩国驻美国大使姜京和 (Kyu

0评论2026-04-221