分享好友 健康资讯首页 健康资讯分类 切换频道

文本生成高清、连贯视频,谷歌推出时空扩散模型

2024-01-31 21:02560

谷歌研究人员推出了创新性文本生成视频模型——Lumiere。

与传统模型不同的是,Lumiere采用了一种时空扩散(Space-time)U-Net架构,可以在单次推理中生成整个视频的所有时间段,能明显增强生成视频的动作连贯性,并大幅度提升时间的一致性。

此外,Lumiere为了解决空间超分辨率级联模块,在整个视频的内存需求过大的难题,使用了Multidiffusion方法,同时可以对生成的视频质量、连贯性进行优化。

image.png

论文地址:https://arxiv.org/abs/2401.12945?ref=maginative.com

时空扩散U-Net架构

传统的U-Net是一种常用于图像分割任务的卷积神经网络架构,其特点是具有对称的编码器-解码器,能够在多个层次上捕获上下文信息,并且能够精确地定位图像中的对象。

而时空扩散U-Net是在时空维度上执行下采样和上采样操作,以便在紧凑的时空表示中生成视频

图片

下采样的目的是减小特征图的尺寸,同时增加特征图的通道数,以捕捉更丰富的特征。

上采样则是通过插值以及将特征图的尺寸恢复到原始输入的大小,同时减少通道数,以生成更细节的输出。

时空扩散U-Net的编码器部分通过卷积和池化操作实现时空下采样。卷积层用于提取特征,并逐渐减小特征图的尺寸。

图片

池化层则通过降采样操作减小特征图的空间尺寸,同时保留重要的特征信息。通过逐步堆叠这些下采样模块,编码器可以逐渐提取出更高级别的抽象特征。

因此,Lumiere在时空扩散U-Net架构帮助下,能够一次生成80帧、16帧/秒(相当于5秒钟)的视频。并且与传统方法相比,这种架构显著增强了生成视频运动的整体连贯性。

Multidiffusion优化方法

Multidiffusion核心技术是通过在时间窗口内进行空间超分辨率计算,并将结果整合为整个视频段的全局连贯解决方案。

具体来说,Multidiffusion通过将视频序列分割成多个时间窗口,每个时间窗口内进行空间超分辨率计算

图片

这样做的好处是,在每个时间窗口内进行计算可以减少内存需求,因为每个时间窗口的大小相对较小。同时,这种分割的方式也使得计算更加高效,并且能够更好地处理长视频序列。

图片

在每个时间窗口内,Multidiffusion方法使用已经生成的低分辨率视频作为输入,通过空间超分辨率级联模块生成高分辨率的视频帧

然后,通过引入扩散算法,将每个时间窗口的结果进行整合,形成整个视频段的全局连贯解决方案。

这种整合过程考虑了时间窗口之间的关联性,保证了视频生成的连贯性和视觉一致性。

举报
收藏 0
打赏 0
评论 0
氪星晚报 |华为发布首款鸿蒙AI眼镜;天齐锂业:一季度净利润同比预增1530.31%—1818.01%
大公司:天齐锂业:一季度净利润同比预增1530.31%—1818.01%36氪获悉,天齐锂业披露业绩预告,预计2026年一季度归属于上市公司股东的净利润为17亿元—20亿元,同比增长1530.31%—1818.01%。盛屯矿业:一季度净利润10.2亿元,同比增长250.4%36氪获悉,盛屯矿业披露一季报,公司2026年一季度实现营业收入93.54亿元,同比增长65.08%;归属于上市公司股东的净利

0评论2026-04-202

美伊冲突、油价破百,你的奶茶也快涨价了?
“老板,塑料杯要涨价了。”近期,多家茶饮包材企业反馈,中东局势的升级已经影响到生产成本,行业已经进入新一轮成本承压周期。红餐供应链指南也注意到,霍尔木兹海峡关系到全球约五分之一的石油供应,从3月开始,随着海峡封锁状态持续,原油运输受阻,国际油价一路冲高,直至站稳100美元关口,创下近三年新高。化工产业链随之出现剧烈波动。原油作为工业血液,其价格波动会沿着产业链层层传递。石油炼化产出的石脑油,是生产

0评论2026-04-200