Image 2 × Seedance 2.0王炸组合：4套刷屏外网的玩法，提示词全在这了_健康_健康资讯

当「地表最强生图」遇上「最强视频生成」，这对王炸组合再一次点燃了网友们的创作激情。

GPT-Image-2 爆火之后，一大波的高阶视频玩法开始涌现，结合 Seedance 2.0，制作了一系列的热门 AI 视频。

一个体育赛事的直播镜头，目前已经在 X 上被浏览了上千万次。

视频截图来源：X@Ciri_ai

当体育直播的镜头给到观众席，视频里的女生拿着啤酒和汉堡，跟摄影机对视一眼后，放下手里的食物，走向足球场，球员把球传给她，她用力一踢，自信地回头看，用手盖住镜头。

除了最后那脚球不知道踢到观众席去了还是进了，前面的整个过程行云流水般顺畅，丝毫没有 AI 生成的痕迹。

还有网友制作了一个豆包看球赛的版本，表示「原来豆包这么好看。」

视频截图来源：X@CryptoJHK

体育赛事的观众视频之外，诸如「先用 GPT Image 2 生成故事板再转成故事视频」、「从单张游戏截图生成实机录屏」，以及「结合 3D 转换」等新玩法，也成为了这段时间的热门。

我们整理了这些有意思的案例，也收集了对应的制作指南，是时候重新看一遍现在的 AI 视频工作流了。

玩法一：过一把踢世界杯的瘾

常规的方法是我们找到对应的图片生成提示词，先在 GPT Image 2 中得到起始帧图片。基于 GPT Image 2 现在的稳定性，用同一套提示词，多次生成，最终的结果都不会相差很大。

例如一套可用的提示词案例，我们甚至可以修改里面部分内容，像是「一张超写实的 CCTV 5 体育赛事直播剧照」、「上传图片中的人物坐在座无虚席的足球场内」……

一张超写实的体育赛事直播剧照，画面中一位魅力四射的女士坐在座无虚席的足球场内，观看一场夜间比赛。她身穿深棕色无袖高领缎面上衣，佩戴黑色方形耳环，一头及肩的浅棕色/金色秀发自然垂落，微微卷曲。她一手拿着半个吃剩的芝士汉堡，另一只手随意地喝着一罐蓝色铝罐饮料。周围是身穿亮黄色和蓝色球衣、围着围巾的球迷，形成了鲜明的队服颜色对比。画面自然流畅，极具电影感，仿佛是从电视直播摄像机的角度，以浅景深捕捉到了比赛的精彩瞬间。画面应包含逼真的体育场座椅、拥挤的观众氛围、左上角显示实时比分和比赛计时器的直播画面叠加信息，以及右上角的体育频道水印。自然的体育场照明、细腻的皮肤纹理、清晰聚焦于女士、略微虚化的背景人群，营造出真实的现场体育直播美感，采用16:9的构图。

或者使用更精确的提示词来控制图片的各种元素，例如确定对应的比分情况，正在比赛的项目和队伍。

这是一张来自 CCTV 5 体育直播的世界杯足球比赛的截图。镜头切换到观众席——我们的参考图像人物正面带微笑地坐着。他笑容自然，似乎并未意识到自己正在被拍摄。他坐在看台边线后方的黄金位置/前排，周围是熙熙攘攘的观众。锁定条件：不要改变他的面部结构，保持他的肖像。完整的 CCTV 5 体育转播画面叠加：左上角是带有球队队徽、比赛计时器、比分和赛事标识的记分牌；角落里是 CCTV 5 体育的网络水印；下方三分之一处是图形条；画面比例为16:9。图像看起来与真实的电视截图完全一致——广播级的色彩校正、轻微的压缩痕迹、隔行扫描的颗粒感，以及灯光照射下球场浓郁的绿色光芒洒向看台。这是阿森纳对阵托特纳姆热刺的足总杯半决赛次回合比赛，地点在酋长球场。比分显示阿森纳2-1热刺，比赛进行到第67分钟。阿森纳总比分3-1领先。傍晚开球，灯光璀璨，体育场座无虚席。

得到图片之后，再找到一个公开的 Seedance 2.0 提示词。我们这里找到了一个篮球赛的视频提示词，直接复刻世界杯到 NBA。

超逼真的 NBA 季后赛夜间现场直播画面，逼真的体育直播摄像机，浅景深，自然的体育馆照明，压缩的电视画质，轻微的运动模糊，自动对焦呼吸效应，手持拍摄的瑕疵，逼真的观众移动，现场直播的真实感，16:9 构图。

画面中的女士一边看着比赛，一边随意地喝着啤酒吃着手里的汉堡。

直播镜头捕捉到了她，并像真正的 NBA 摄影师拍摄观众席上漂亮球迷那样，缓缓拉近镜头。这种构图感觉很随意也很真实，而非刻意追求电影效果。她身后的球迷穿着湖人队的球衣，其中一人短暂地看向镜头，另一名球迷则在用手机拍摄比赛。

她不慌不忙地将啤酒和汉堡放在身旁的座位上，自然地站起身，她穿着高跟鞋走向球场，从球场上球员手里干净利落地拿过球。自然的肢体动作，真实的现场运动摄像机追踪。

她轻松地运球到中场附近，然后毫不费力地以完美的姿势投篮。

在逼真的体育赛事转播镜头下，球在空中飞驰。球场瞬间安静了一秒钟。

唰！完美干净利落的一击。

整个体育馆沸腾了。替补席上的球员们尖叫着跳了起来。吉祥物也疯狂了。观众的反应让摄像机都晃动起来。解说员们也彻底崩溃了。

那名女子几乎没有反应。她对着镜头微微一笑，然后走回场边，身后的人群则陷入疯狂。

就在她坐下之前，她带着一丝俏皮的微笑直视着电视直播镜头，然后轻轻地用手遮住镜头一秒钟，仿佛她知道自己刚刚创造了一个爆款瞬间。

镜头切换到混乱的 ESPN 回放画面和尖叫的人群。

提示词来源：https://x.com/bydanielxyz/status/2054302615463460945

最后的视频效果还是相当真实的，加上最后的回放镜头，和之前她站在中场的位置几乎是一样的，没有明显的破绽。

另外一种方法是每个人都能上手，不用去找提示词就能复刻，那就是直接把视频上传给 Gemini，要它分析。

请按照系统指示操作

系统提示：超精细视频分析

角色：你是一位经验丰富的电影摄影师、视觉分析师和运动力学描述师。你的工作是将视频片段分解成极其详细、逐帧的文本描述。

目标：请将提供的视频/片段转化为生动、动态的文字分析。您必须准确捕捉到视频中的物理力学原理、节奏、微表情、动量物理规律、摄像机本身的物理特性，并完整转录所有音频和对话。

严格规则：完整的音频和对话转录：您必须转录所有音频提示。请使用引号准确写出角色所说的话（例如，“看这个！”）。如果语音含糊不清或重叠，请注明。除了对话之外，您还必须细致地描述所有音效（金属撞击声、呼啸声、冲击声）、人声（喘息声、笑声、尖叫声）、背景噪音和音乐。

禁止使用知识产权名称：请勿使用角色名称、演员名称或系列名称。请仅根据他们的外貌、衣着和体型进行描述（例如，“身材魁梧的男人”、“身穿粉色和服的女人”）。

将摄像机视为一个角色：你必须像描述一个实体物体一样描述摄像机的操作。注意业余智能手机拍摄时产生的轻微抖动、透视变形、突然的自动对焦调整、镜头光晕、运动模糊、快速摇摄以及摄影师的生理反应（例如，“当摄影师畏缩时，摄像机猛地向下晃动”）。

动力学物理：描述重量、重力、张力和冲击的传递。提及诸如衣物在腿部甩动、肌肉收缩、打击的反作用力或环境破碎等现象。

格式模板：您必须将视频按时间顺序分成若干部分，使用粗体时间戳标题和主题标题。在每个标题下，使用项目符号对内容进行分类。[时间戳] - [时间戳]: [阶段标题]

视觉构图：[描述镜头类型、光线、风格（例如，竖屏智能手机拍摄、二维动画、特写镜头、强烈的荧光灯）。]

拍摄对象：[描述人物的确切位置、姿势、衣着和微表情。]

动作分析：[逐帧分解身体动作。微动作、动量、物理原理。]

镜头动态：[请详细描述镜头的运动、缩放、模糊、抖动和平移等效果。]

音频/节奏：[请用引号转录所有口语对话。描述当时的节奏/紧张程度，并详细记录所有音频线索，例如喘息声、脚步声、环境影响、音乐或背景噪音。]

示例输出用户输入：[一段视频，一名男子试图翻煎饼，但他用力过猛，煎饼撞到天花板后掉到他脸上，导致拍摄者手机掉落。]

AI 回应：0:00 - 0:02：准备工作和开场画面构图：视频采用智能手机竖屏拍摄。光线为厨房顶灯，光线强烈而温暖。画面持续轻微抖动，表明拍摄者是业余人士，单手握持手机。画面主体：一名身穿宽松灰色连帽衫的男子站在画面中央，手持一口黑色特氟龙煎锅。锅里煎着一张完美的圆形金黄色薄饼。动作：男子咧嘴一笑，直视镜头，带着一种莫名其妙的自信。他手腕有节奏地画着圈，转动着煎饼，确保它在锅里松动。他微微弯曲膝盖，降低重心以便更好地发力。摄像机动态：摄影师站在大约四英尺远的地方，从男子的腰部到头顶上方进行固定的中景拍摄。音频/节奏：节奏缓慢而充满期待。煎饼在金属板上滑动时，发出有节奏的刮擦声，如同“嘶嘶嘶”。男人的声音清晰而自信：“好了，完美翻转，三……二……一……”

0:02 - 0:04：灾难性的发射视觉构图：相机保持静止，但当被摄对象的手臂快速移动时，焦点会短暂地游移。主题：男人自信的笑容逐渐变成痛苦的表情。动作：他迅速下沉右肩，然后猛地向上甩动手臂，动作幅度过大，力道过猛。煎饼瞬间飞出锅外，高速直冲云霄，完全超出画面顶部边界。摄像机动态：摄像机突然向上倾斜，试图追踪空中的击球手，但运动有延迟且抖动。音频/节奏：男子发出了一声短促而吃力的咕哝：“哼！”刮擦声立刻被镜头外上方传来的一声响亮而湿漉漉的“啪嗒”声所取代，表明煎饼已经撞到了天花板。

0:04 - 0:06：冲击和镜头混乱视觉构图：上方落下的阴影突然遮蔽了光线。事件经过：仅仅一瞬间，那张厚重的、半生不熟的煎饼便直直地落了下来，啪的一声落在男人的脸上，完全盖住了他的眼睛和鼻子。他身体瞬间后仰，肩膀耸到耳朵边，同时手中的煎锅也掉在了地上。镜头动态：摄影师的本能反应被激发。随着摄影师身体的抽搐，镜头猛地向下向左晃动。画面完全模糊成一片混乱的、拖沓的厨房地板和橱柜运动模糊影像。音效/节奏：平底锅掉落在油毡地板上的沉重金属撞击声占据了主导音效。拍摄者倒吸一口凉气，大喊一声“我的天哪，老兄！”紧接着是手机掉落的清脆声响。视频戛然而止，画面定格在倾斜模糊的踢脚板上。

提示词来源：https://pastebin.com/H8DeXq1G

我们把开头那段视频上传到 Gemini，Gemini 会按照示例输出完整的提示词。

使用 Gemini 的提示词，对提示词里面的内容略做修改，复制到 Seedance，无论是使用全能参考还是首尾帧，都能得到不错的结果。

值得注意的是，Seedance 2.0 使用的提示词最长不能超过 2000 字，而 Gemini 提取的视频分析内容往往较多，我们可以手动删减原视频中不需要的部分。

玩法二：从故事板到视频

电影帧率一般是 1 秒 24 帧，我们之前在想，如果让 GPT Image 2 每次生成一帧的图片，是不是就能像当时的宣传视频一样，剪辑成一段故事性足够强的内容。

但 10s 的视频要 240 张图片，压力还是过大，约等于手工做漫画了。

很快就有网友发现让 GPT Image 2 来生成故事板，然后交给 Seedance 2.0，尤其是在动画片的场景上，成片效果快要赶上影视行业的水平。

视频来源：https://x.com/EHuanglu/status/2054399965729091629

我们在 ChatGPT 里随手输入一行「创建一个故事板，15s 时长，场景尽可能详细，描述一个非常有意思的故事，同时把角色形象放在故事板一旁，使用动画形象。」

接着把这张图片丢给 Seedance 2.0，输入提示词「根据故事板生成视频」。

说实话，最后的效果还是挺还原故事板所描绘的那几个场景，除了受限于 15s 时长导致第五幕到第六幕跳跃太快之外，其他的台词以及场景，基本上都是按照 GPT Image 2 设定的故事展开的。

这还只是 ChatGPT 自己编的一个故事，脑洞大开的网友使用更详细的提示词，制作了一系列有意思的故事板。

图片来源：X@OlivioSarikas

还有水墨画的版本。

图片来源：X@aimikoda

当只是把这些图片丢给 Seedance 2.0，而不添加额外的提示词时，Seedance 2.0 的表现都可圈可点。

玩法三：游戏的实机录屏

第一眼看到这个视频时，都会以为这个游戏真实存在。就连 X 都在这则帖子的下方加上了信息补充，提醒网友。

这段视频是一个 AI 生成的概念演示，并非可玩的 3A 级游戏。它使用 Seedance 2 和 GPT Image 2 制作而成。

视频截图来源：X@0xInk_

还有网友设计并制作了一个武器选择界面的概念游戏视频。

视频来源：X@MrDavids1

作者只是使用 GPT Image生成了四张主角拿着武器的图片，然后在 Seedance 2 里面，通过提示词让他切换不同的武器。

一个静态镜头显示一个电子游戏菜单界面。在切换过程中，她会选择不同的武器。她会选择全部四种不同类型的武器。确保她手中的物品会随着选择的武器而变化。每次选择武器时，她都会摆出姿势并进行分析。她旁边的木制动物会四处张望。不要更改任何文本。不要添加音乐，只添加武器切换时的音效。不要添加对话。

GPT Image 2 的一致性，还能让他切换不同的大招。

更有意思的是，这个「奶奶带着夜里哭闹的孙子散步」跑酷游戏视频，有玩家视角和主角视角，屏幕的左下角有小地图显示当前路线，右边是速度，左上方还有排名。

视频截图来源：@Kashiko_AIart

玩法四：3D 交互网站

除了视频，得益于 GPT Image 2 的美学标准，一些网友发现用 GPT Image 2 来设计 UI，Gemini 3.1 Pro 负责代码，能开发出具有科普性质的 3D 细胞结构工坊网页。

来源：X@DilumSanjaya

从 @Gorden_Sun 分享的制作教程里，第一步又是先用 GPT Image 2 生成每个细胞的正面图和背面图。

使用 GPT Image 2 生成，提示词：画一个动物细胞的3D模型，俯视图，核心部件通过截面的形式展示内部细节，比例是1:1；右图：再画出这个细胞背面的图片，不需要截面的形式｜来源：X@Gorden_Sun

得到了正面和背面两张图，我们再把图片丢给能将图转成 3D 的工具，像是 Tripo 3D生成模型，上传图片，使用多视图生成模型。

混元 3D 生成模型也有类似的功能

有了 3D 模型素材，再 Vibe Coding 一个用来展示 3D 资产的网页，一切就大功告成了。

同样的概念，有网友制作了动物解剖的版本，用 GPT Image 2 来保持骨骼、器官、系统以及正常情况下（皮肤/毛发）的狗狗模型图片。

来源：@gaborpribek

将图片导入到对应的 3D 处理平台，这里他使用的是 Omma AI，一个专门打造 3D 模型网站、程序的工具。

网址：https://omma.build/

还有网友同样是，受到 3D 生物结构视觉启发，制作了一个三星堆 3D 文物展览。

先从三星堆博物馆官网找到对应的文物截图，然后使用 GPT Image 2 进一步生成清晰的正视图，接着用 Tripo 生成 3D 图像，再 Vibe Coding 一个网页用来展示。

来源：X@ Saccc_c

小彩蛋

最近很多读者留言问我们那些信息图是用什么做的，其实也是 GPT Image 2 的功劳。

我们只需要输入简单的需求，例如「生成一份人教版高中数学必修一的知识点大全信息图」。在这个阶段我们可以多尝试几次，找到自己喜欢的风格。

图片由 AI 生成

得到这张图片之后，我们可以发送图片给 ChatGPT，要求它提取这张图片的设计规范，颜色搭配等，生成一份可以用来控制每次生图结果一致的提示词。

提取提示词：提取这张图片的设计规范，颜色搭配等，生成一份可以用来控制每次生图结果样式上一致的提示词给我

用这套提取的提示词，我们用它再做了一张同样风格的高中物理必修一的知识点汇总。

图片由 AI 生成

对于海报的设计也是如此，先多尝试几次找到合适的风格，再用 AI 提取图片风格形成提示词，然后在每次生图时，除了给生图指令，再告诉 GPT Image 2 按照这套规范来生成。

一套流程走下来，基本上就能形成一套专属的 AI 生图模板；尤其是如果公司已经有指明的形象使用指南，或者有自己钟意的图片风格，直接让 GPT Image 2 总结会更方便。

本文来自微信公众号“APPSO”，作者：发现明日产品的，36氪经授权发布。