单卡2秒生成一个视频，清华联手生数开源TurboDiffusion，视频DeepSeek时刻来了_健康_健康资讯

现在生成一个视频，比你刷视频还要快。

因为一个开源新框架，竟能让视频生成在保证质量的情况下，最高提速200多倍！

而且还是单张显卡就能hold住的那种，来感受一下这个feel：

没错，原先1.3B-480P在单张RTX 5090生成一个5秒的视频，需要的时间大概是184秒。

而现在，只需要1.9秒，速度足足提升97倍！

这背后，便是清华大学TSAIL实验室和生数科技联合开源的视频生成加速新框架——TurboDiffusion。

新框架一出，网友们也是不淡定了，直呼：

我们已经进入到了生成的视频比看的视频还多的时代。

包括Meta研究员和伯克利教授也站台打call：

2秒就能生成一个视频

过去，视频生成虽然惊艳，但慢，一直是个老大难的痛点问题。

想生成一段几秒的高质量视频，模型往往需要在大显存高端显卡上吭哧吭哧跑上几分钟到几十分钟。这种延迟，极大限制了创作者的灵感爆发和实时交互的可能性。

TurboDiffusion的出现，就是为了解决这个问题。

咱们直接看一组数据。

在单张RTX 5090上，针对1.3B大小的文生视频模型：

原始生成：生成一段480P视频需要约184秒（超过3分钟）。
TurboDiffusion：仅需1.9秒。

算下来，相对于原始模型，TurboDiffusion实现了约97倍的加速！

若是模型再大一些，例如14B的图生视频模型，清晰度为720P，效果也是立竿见影，仅需38秒就能搞定：

同样是720P的文生视频模型，所需要的时间也仅仅24秒：

图生视频中14B的480P则需9.9秒：

更重要的是，这种提速是几乎无损的。

在生数科技自研的Vidu模型上，使用了TurboDiffusion之后，视频的动态流畅度、光影质感以及指令遵循能力依然保持了极高水准。

在生成1080P分辨率、8秒时长的高质量视频时，相比没有任何推理加速优化的视频生成，TurboDiffusion可以将端到端的生成延迟从900s提速到8s。

不同大小和清晰度，TurboDiffusion加速的效果可以总结如下：

并且TurboDiffusion操作起来也是非常简单，它针对目前主流的视频生成模型提供了开箱即用的优化方案。

在GitHub中，TurboDiffusion项目也给出了具体的操作细节和方式：

那么问题来了，这种速度到底是如何做到的？

四个步骤极限压缩时间

视频生成模型（通常是Diffusion Transformer架构）之所以慢，主要卡在步数多（采样循环）、算力重（Attention计算）、显存窄（权重搬运）。

为此，TurboDiffusion团队整合了四项关键技术，每一项都精准打击扩散模型推理的性能瓶颈。

首先就是SageAttention。

注意力机制可以说是扩散模型中最耗时的部分之一，传统实现使用 FP16（半精度浮点），计算量大、显存占用高。

TurboDiffusion引入了团队自研的SageAttention2++，一种低比特量化注意力方案。

它将权重和激活值压缩到INT8甚至INT4，同时通过异常值平滑和线程级量化技术，避免精度崩塌。

从结果上来看，注意力计算速度提升3–5倍，显存占用减半，而图像质量几乎不变。

其次是Sparse-Linear Attention（SLA）。

如果说 SageAttention 是在单次计算上提速，那么SLA就是从算法逻辑上减负。

SLA结合了稀疏性（只关注重要的像素点）和线性复杂度（让计算量不随分辨率爆炸增长）。

最绝的一点是：稀疏计算与低比特加速是正交的。这意味着 SLA 可以直接叠在 SageAttention 之上使用，强强联手，在推理过程中又榨出了数倍的额外加速空间。

第三招是rCM步数蒸馏。

传统的扩散模型需要经过几十甚至上百步的迭代才能去噪生成图像。

TurboDiffusion引入了rCM（Score-regularized Continuous-time Consistency Models）进行步数蒸馏。

rCM是目前最先进的蒸馏方案之一。通过它，原本需要几十步才能生成的视频，现在只需要1-4步就能达到几乎相同的质量。

最后便是W8A8 量化+自定义算子。

除了注意力，模型中的线性层（Linear Layer）也占大量计算。TurboDiffusion对其采用W8A8量化（权重8位，激活8位），并在128×128的块粒度上分块处理，充分利用RTX 5090的INT8 Tensor Core。

此外，团队还用Triton/CUDA重写了LayerNorm、RMSNorm等基础算子，消除PyTorch默认实现的overhead。

这四项技术环环相扣：蒸馏减步数，量化减负载，SLA和SageAttention减算力。最终汇聚成了那惊人的200倍加速。

这4项核心技术均由清华大学TSAIL团队联合生数科技自主研发，它的意义远不止于技术指标的跃升，更在于它打通了视频生成模型从研究到落地的最后一公里：

消费级部署成为可能：在单张RTX 5090上，720P视频生成时间从几百秒降至几十秒，真正实现秒级出片，为个人创作者、中小企业提供可用工具。

云端推理成本骤降：推理时延降低100倍，意味着同等算力可服务100倍用户，大幅降低云厂商与SaaS平台的运营成本。

推动 AIGC 产品创新：实时视频编辑、交互式视频生成、AI 短剧自动制作等新场景成为可能，催生全新产品形态。

国产芯片友好：低比特、稀疏化、算子定制等特性天然适配国产AI芯片架构，助力中国AI基础设施自主可控。

其中，SageAttention更是全球首个实现注意力计算量化加速的技术方案，已被工业界大规模部署应用。

例如，SageAttention已成功集成至NVIDIA推理引擎Tensor RT，同时完成在华为昇腾、摩尔线程S6000等主流GPU平台的部署与落地。

此外，腾讯混元、字节豆包、阿里Tora、生数Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM 等国内外头部科技企业及团队，均已在核心产品中应用该技术，凭借其卓越性能创造了可观的经济效益。

视频生成，离实时更近了

从1小时到2秒，TurboDiffusion完成的不仅是一次技术突破，更是一次范式转移。

它证明了高质量 AI 视频，不必以牺牲效率为代价。当生成速度进入人类反应时间范围（<5秒），AI 就不再是后期工具，而成为创作伙伴——你说话，它就动；你画草图，它就演故事。

这或许就是实时生成时代的真正含义：创作的延迟被抹平，想象力成为唯一的限制。

而现在，我们离那个时代，只有2秒。

TurboDiffusion项目地址：https://github.com/thu-ml/TurboDiffusion?tab=readme-ov-file

论文地址：https://arxiv.org/pdf/2512.16093

本文来自微信公众号 “量子位”（ID：QbitAI），作者：金磊，36氪经授权发布。

44%的歌是AI写的，但没人在听……吗？

猜猜看，华语乐坛一年有多少新歌上线？2024 年，这个数字是 135.1 万首。《2024 华语数字音乐年度白皮书》里有这样一组数字：这 135 万首新歌里，播放量不足 1000 次的那部分同比激增 92.6%。翻译成人话——每 10 首新歌里有 6 首，上线整整一年没多少人点开过。[1]B 站那边也在创作狂潮里。2025 年的《B 站音乐年度生态报告》显示，264 万 UP 主投出 2016 万

0评论2026-04-230

游戏公司正在集体搬家
0评论2026-04-23

为了少几亿坏账，银行发射卫星上太空

“我们内部最担心的是，若卫星所拍摄的高清图像无法快速转化成结构性数据，或者能产生业务价值的非结构性数据，进而有效提升银行的信贷风险防范反应速度，数千万元的投入将直接‘打水漂’。”一家股份制银行的金融科技部门负责人说。2026年4月14日，邮储银行与长光卫星技术股份有限公司联合研制的“邮储银行号”遥感卫星在甘肃酒泉卫星发射中心发射升空。今年初，招商银行“招银金葵号”与浦发银行“浦银数智”卫星相继发射

0评论2026-04-230

年入10亿美元的Alo Yoga落子香港，中国市场能否复制北美神话？
0评论2026-04-23

剑指英伟达，谷歌重磅发布

当地时间周三（4月22日），谷歌在拉斯维加斯举行的Cloud Next 2026大会上发布了两款人工智能（AI）芯片。谷歌以往生产的芯片既能训练AI模型，也能执行推理任务，但该公司如今将这两类任务拆分为不同的处理器，并在第八代张量处理单元（TPU）中采用这一变化。这两款芯片分别被命名为TPU 8t 和TPU 8i，都将在今年晚些时候推出。“随着AI智能体（AI agents）的兴起，我们认为社区将

0评论2026-04-230

喜欢越野和猎装的朋友，还有多少人
0评论2026-04-23

年轻人最新解压方式：去零食折扣店「提跑车」
0评论2026-04-23

台积电释放关键信号，CPU两巨头或将再度涨价

AI算力需求持续爆发之际，CPU行业或掀起新一轮涨价潮。据台湾工商时报报道，台积电在制程成熟后鲜少进行扩产。然而，公司近期持续加码3nm产能，以应对CPU与AI ASIC同步爆发。据悉，目前包括英特尔、AMD的主流版本CPU，以及英伟达即将推出的Vera CPU，均采用3nm制程。不仅如此，CPU巨头英特尔近期也宣布，以142亿美元买回爱尔兰Fab 34晶圆厂49％股权，收回产能主导。该厂为Int

0评论2026-04-230

英伟达锚定800V直流架构

英伟达向韩国主要电力设备企业提出，希望将数据中心基础设施设计为基于约800V直流的系统，目前其正与韩国企业私下推进讨论数据中心具体合作方案讨论。随着电力对AI数据中心重要性日渐上升，一场围绕降低电力损耗、提升供电密度的竞速正全面展开。据韩国The Asia Business Daily今日消息，为了突破传统交流供电方式局限，英伟达开始提出更激进的设计变革需求。近期英伟达已向韩国主要电力设备企业提出

0评论2026-04-230