文本生成高清、连贯视频，谷歌推出时空扩散模型_健康_健康资讯

谷歌研究人员推出了创新性文本生成视频模型——Lumiere。

与传统模型不同的是，Lumiere采用了一种时空扩散（Space-time）U-Net架构，可以在单次推理中生成整个视频的所有时间段，能明显增强生成视频的动作连贯性，并大幅度提升时间的一致性。

此外，Lumiere为了解决空间超分辨率级联模块，在整个视频的内存需求过大的难题，使用了Multidiffusion方法，同时可以对生成的视频质量、连贯性进行优化。

论文地址:https://arxiv.org/abs/2401.12945?ref=maginative.com

时空扩散U-Net架构

传统的U-Net是一种常用于图像分割任务的卷积神经网络架构，其特点是具有对称的编码器-解码器，能够在多个层次上捕获上下文信息，并且能够精确地定位图像中的对象。

而时空扩散U-Net是在时空维度上执行下采样和上采样操作，以便在紧凑的时空表示中生成视频。

下采样的目的是减小特征图的尺寸，同时增加特征图的通道数，以捕捉更丰富的特征。

上采样则是通过插值以及将特征图的尺寸恢复到原始输入的大小，同时减少通道数，以生成更细节的输出。

时空扩散U-Net的编码器部分通过卷积和池化操作实现时空下采样。卷积层用于提取特征，并逐渐减小特征图的尺寸。

池化层则通过降采样操作减小特征图的空间尺寸，同时保留重要的特征信息。通过逐步堆叠这些下采样模块，编码器可以逐渐提取出更高级别的抽象特征。

因此，Lumiere在时空扩散U-Net架构帮助下，能够一次生成80帧、16帧/秒（相当于5秒钟）的视频。并且与传统方法相比，这种架构显著增强了生成视频运动的整体连贯性。

Multidiffusion优化方法

Multidiffusion核心技术是通过在时间窗口内进行空间超分辨率计算，并将结果整合为整个视频段的全局连贯解决方案。

具体来说，Multidiffusion通过将视频序列分割成多个时间窗口，每个时间窗口内进行空间超分辨率计算。

这样做的好处是，在每个时间窗口内进行计算可以减少内存需求，因为每个时间窗口的大小相对较小。同时，这种分割的方式也使得计算更加高效，并且能够更好地处理长视频序列。

在每个时间窗口内，Multidiffusion方法使用已经生成的低分辨率视频作为输入，通过空间超分辨率级联模块生成高分辨率的视频帧。

然后，通过引入扩散算法，将每个时间窗口的结果进行整合，形成整个视频段的全局连贯解决方案。

这种整合过程考虑了时间窗口之间的关联性，保证了视频生成的连贯性和视觉一致性。

打赏 0

3亿买下百年品牌，能治好“电商代运营”的流量依赖症？
0评论2026-04-20

Mythos架构被22岁小伙“逆推”开源了，MoE和注意力借鉴DeepSeek
0评论2026-04-20

春招会“国综之变”：音综分化、AI落地、老综求新
0评论2026-04-20

一个CLAUDE.md霸榜GitHub第一，蒸馏自Karpathy，6万码农抄作业
0评论2026-04-20

氪星晚报｜华为发布首款鸿蒙AI眼镜；天齐锂业：一季度净利润同比预增1530.31%—1818.01%

大公司：天齐锂业：一季度净利润同比预增1530.31%—1818.01%36氪获悉，天齐锂业披露业绩预告，预计2026年一季度归属于上市公司股东的净利润为17亿元—20亿元，同比增长1530.31%—1818.01%。盛屯矿业：一季度净利润10.2亿元，同比增长250.4%36氪获悉，盛屯矿业披露一季报，公司2026年一季度实现营业收入93.54亿元，同比增长65.08%；归属于上市公司股东的净利

0评论2026-04-202

突然变强，速度翻4倍，GPT Pro惊现“神级”操作，网友怀疑GPT-5.5已就位
0评论2026-04-20

从FDA绿灯到国内未获批准，全球FIC折戟背后
0评论2026-04-20

“幽灵外卖”案，再掀波澜
0评论2026-04-20

“电解质饮料”抢占C 位，谁能跑赢下半场？
0评论2026-04-20

美伊冲突、油价破百，你的奶茶也快涨价了？

“老板，塑料杯要涨价了。”近期，多家茶饮包材企业反馈，中东局势的升级已经影响到生产成本，行业已经进入新一轮成本承压周期。红餐供应链指南也注意到，霍尔木兹海峡关系到全球约五分之一的石油供应，从3月开始，随着海峡封锁状态持续，原油运输受阻，国际油价一路冲高，直至站稳100美元关口，创下近三年新高。化工产业链随之出现剧烈波动。原油作为工业血液，其价格波动会沿着产业链层层传递。石油炼化产出的石脑油，是生产

0评论2026-04-200