分享好友 健康资讯首页 健康资讯分类 切换频道

单卡2秒生成一个视频,清华联手生数开源TurboDiffusion,视频DeepSeek时刻来了

2025-12-25 21:0818036kr

现在生成一个视频,比你刷视频还要快。

因为一个开源新框架,竟能让视频生成在保证质量的情况下,最高提速200多倍!

而且还是单张显卡就能hold住的那种,来感受一下这个feel:

没错,原先1.3B-480P在单张RTX 5090生成一个5秒的视频,需要的时间大概是184秒。

而现在,只需要1.9秒,速度足足提升97倍!

这背后,便是清华大学TSAIL实验室和生数科技联合开源的视频生成加速新框架——TurboDiffusion

新框架一出,网友们也是不淡定了,直呼:

我们已经进入到了生成的视频比看的视频还多的时代。

包括Meta研究员和伯克利教授也站台打call:

2秒就能生成一个视频

过去,视频生成虽然惊艳,但慢,一直是个老大难的痛点问题。

想生成一段几秒的高质量视频,模型往往需要在大显存高端显卡上吭哧吭哧跑上几分钟到几十分钟。这种延迟,极大限制了创作者的灵感爆发和实时交互的可能性。

TurboDiffusion的出现,就是为了解决这个问题。

咱们直接看一组数据。

在单张RTX 5090上,针对1.3B大小的文生视频模型:

  1. 原始生成:生成一段480P视频需要约184秒(超过3分钟)。
  2. TurboDiffusion:仅需1.9秒。

算下来,相对于原始模型,TurboDiffusion实现了约97倍的加速!

若是模型再大一些,例如14B的图生视频模型,清晰度为720P,效果也是立竿见影,仅需38秒就能搞定:

同样是720P的文生视频模型,所需要的时间也仅仅24秒:

图生视频中14B的480P则需9.9秒:

更重要的是,这种提速是几乎无损的。

在生数科技自研的Vidu模型上,使用了TurboDiffusion之后,视频的动态流畅度、光影质感以及指令遵循能力依然保持了极高水准。

在生成1080P分辨率、8秒时长的高质量视频时,相比没有任何推理加速优化的视频生成,TurboDiffusion可以将端到端的生成延迟从900s提速到8s

不同大小和清晰度,TurboDiffusion加速的效果可以总结如下:

并且TurboDiffusion操作起来也是非常简单,它针对目前主流的视频生成模型提供了开箱即用的优化方案。

在GitHub中,TurboDiffusion项目也给出了具体的操作细节和方式:

那么问题来了,这种速度到底是如何做到的?

四个步骤极限压缩时间

视频生成模型(通常是Diffusion Transformer架构)之所以慢,主要卡在步数多(采样循环)、算力重(Attention计算)、显存窄(权重搬运)。

为此,TurboDiffusion团队整合了四项关键技术,每一项都精准打击扩散模型推理的性能瓶颈。

首先就是SageAttention

注意力机制可以说是扩散模型中最耗时的部分之一,传统实现使用 FP16(半精度浮点),计算量大、显存占用高。

TurboDiffusion引入了团队自研的SageAttention2++,一种低比特量化注意力方案。

它将权重和激活值压缩到INT8甚至INT4,同时通过异常值平滑和线程级量化技术,避免精度崩塌。

从结果上来看,注意力计算速度提升3–5倍,显存占用减半,而图像质量几乎不变。

其次是Sparse-Linear Attention(SLA)

如果说 SageAttention 是在单次计算上提速,那么SLA就是从算法逻辑上减负。

SLA结合了稀疏性(只关注重要的像素点)和线性复杂度(让计算量不随分辨率爆炸增长)。

最绝的一点是:稀疏计算与低比特加速是正交的。这意味着 SLA 可以直接叠在 SageAttention 之上使用,强强联手,在推理过程中又榨出了数倍的额外加速空间。

第三招是rCM步数蒸馏

传统的扩散模型需要经过几十甚至上百步的迭代才能去噪生成图像。

TurboDiffusion引入了rCM(Score-regularized Continuous-time Consistency Models) 进行步数蒸馏。

rCM是目前最先进的蒸馏方案之一。通过它,原本需要几十步才能生成的视频,现在只需要1-4步就能达到几乎相同的质量。

最后便是W8A8 量化+自定义算子

除了注意力,模型中的线性层(Linear Layer)也占大量计算。TurboDiffusion对其采用W8A8量化(权重8位,激活8位),并在128×128的块粒度上分块处理,充分利用RTX 5090的INT8 Tensor Core。

此外,团队还用Triton/CUDA重写了LayerNorm、RMSNorm等基础算子,消除PyTorch默认实现的overhead。

这四项技术环环相扣:蒸馏减步数,量化减负载,SLA和SageAttention减算力。最终汇聚成了那惊人的200倍加速。

这4项核心技术均由清华大学TSAIL团队联合生数科技自主研发,它的意义远不止于技术指标的跃升,更在于它打通了视频生成模型从研究到落地的最后一公里:

消费级部署成为可能:在单张RTX 5090上,720P视频生成时间从几百秒降至几十秒,真正实现秒级出片,为个人创作者、中小企业提供可用工具。

云端推理成本骤降:推理时延降低100倍,意味着同等算力可服务100倍用户,大幅降低云厂商与SaaS平台的运营成本。

推动 AIGC 产品创新:实时视频编辑、交互式视频生成、AI 短剧自动制作等新场景成为可能,催生全新产品形态。

国产芯片友好:低比特、稀疏化、算子定制等特性天然适配国产AI芯片架构,助力中国AI基础设施自主可控。

其中,SageAttention更是全球首个实现注意力计算量化加速的技术方案,已被工业界大规模部署应用。

例如,SageAttention已成功集成至NVIDIA推理引擎Tensor RT,同时完成在华为昇腾、摩尔线程S6000等主流GPU平台的部署与落地。

此外,腾讯混元、字节豆包、阿里Tora、生数Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM 等国内外头部科技企业及团队,均已在核心产品中应用该技术,凭借其卓越性能创造了可观的经济效益。

视频生成,离实时更近了

从1小时到2秒,TurboDiffusion完成的不仅是一次技术突破,更是一次范式转移。

它证明了高质量 AI 视频,不必以牺牲效率为代价。当生成速度进入人类反应时间范围(<5秒),AI 就不再是后期工具,而成为创作伙伴——你说话,它就动;你画草图,它就演故事。

这或许就是实时生成时代的真正含义:创作的延迟被抹平,想象力成为唯一的限制。

而现在,我们离那个时代,只有2秒。

TurboDiffusion项目地址:https://github.com/thu-ml/TurboDiffusion?tab=readme-ov-file

论文地址:https://arxiv.org/pdf/2512.16093

本文来自微信公众号 “量子位”(ID:QbitAI),作者:金磊,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
44%的歌是AI写的,但没人在听……吗?
猜猜看,华语乐坛一年有多少新歌上线?2024 年,这个数字是 135.1 万首。《2024 华语数字音乐年度白皮书》里有这样一组数字:这 135 万首新歌里,播放量不足 1000 次的那部分同比激增 92.6%。翻译成人话——每 10 首新歌里有 6 首,上线整整一年没多少人点开过。[1]B 站那边也在创作狂潮里。2025 年的《B 站音乐年度生态报告》显示,264 万 UP 主投出 2016 万

0评论2026-04-230

为了少几亿坏账,银行发射卫星上太空
“我们内部最担心的是,若卫星所拍摄的高清图像无法快速转化成结构性数据,或者能产生业务价值的非结构性数据,进而有效提升银行的信贷风险防范反应速度,数千万元的投入将直接‘打水漂’。”一家股份制银行的金融科技部门负责人说。2026年4月14日,邮储银行与长光卫星技术股份有限公司联合研制的“邮储银行号”遥感卫星在甘肃酒泉卫星发射中心发射升空。今年初,招商银行“招银金葵号”与浦发银行“浦银数智”卫星相继发射

0评论2026-04-230

剑指英伟达,谷歌重磅发布
当地时间周三(4月22日),谷歌在拉斯维加斯举行的Cloud Next 2026大会上发布了两款人工智能(AI)芯片。谷歌以往生产的芯片既能训练AI模型,也能执行推理任务,但该公司如今将这两类任务拆分为不同的处理器,并在第八代张量处理单元(TPU)中采用这一变化。这两款芯片分别被命名为TPU 8t 和TPU 8i,都将在今年晚些时候推出。“随着AI智能体(AI agents)的兴起,我们认为社区将

0评论2026-04-230

台积电释放关键信号,CPU两巨头或将再度涨价
AI算力需求持续爆发之际,CPU行业或掀起新一轮涨价潮。据台湾工商时报报道,台积电在制程成熟后鲜少进行扩产。然而,公司近期持续加码3nm产能,以应对CPU与AI ASIC同步爆发。据悉,目前包括英特尔、AMD的主流版本CPU,以及英伟达即将推出的Vera CPU,均采用3nm制程。不仅如此,CPU巨头英特尔近期也宣布,以142亿美元买回爱尔兰Fab 34晶圆厂49%股权,收回产能主导。该厂为Int

0评论2026-04-230

英伟达锚定800V直流架构
英伟达向韩国主要电力设备企业提出,希望将数据中心基础设施设计为基于约800V直流的系统,目前其正与韩国企业私下推进讨论数据中心具体合作方案讨论。随着电力对AI数据中心重要性日渐上升,一场围绕降低电力损耗、提升供电密度的竞速正全面展开。据韩国The Asia Business Daily今日消息,为了突破传统交流供电方式局限,英伟达开始提出更激进的设计变革需求。近期英伟达已向韩国主要电力设备企业提出

0评论2026-04-230