当「地表最强生图」遇上「最强视频生成」,这对王炸组合再一次点燃了网友们的创作激情。
GPT-Image-2 爆火之后,一大波的高阶视频玩法开始涌现,结合 Seedance 2.0,制作了一系列的热门 AI 视频。
一个体育赛事的直播镜头,目前已经在 X 上被浏览了上千万次。
视频截图来源:X@Ciri_ai
当体育直播的镜头给到观众席,视频里的女生拿着啤酒和汉堡,跟摄影机对视一眼后,放下手里的食物,走向足球场,球员把球传给她,她用力一踢,自信地回头看,用手盖住镜头。
除了最后那脚球不知道踢到观众席去了还是进了,前面的整个过程行云流水般顺畅,丝毫没有 AI 生成的痕迹。
还有网友制作了一个豆包看球赛的版本,表示「原来豆包这么好看。」
视频截图来源:X@CryptoJHK
体育赛事的观众视频之外,诸如「先用 GPT Image 2 生成故事板再转成故事视频」、「从单张游戏截图生成实机录屏」,以及「结合 3D 转换」等新玩法,也成为了这段时间的热门。
我们整理了这些有意思的案例,也收集了对应的制作指南,是时候重新看一遍现在的 AI 视频工作流了。
玩法一:过一把踢世界杯的瘾
常规的方法是我们找到对应的图片生成提示词,先在 GPT Image 2 中得到起始帧图片。基于 GPT Image 2 现在的稳定性,用同一套提示词,多次生成,最终的结果都不会相差很大。
例如一套可用的提示词案例,我们甚至可以修改里面部分内容,像是「一张超写实的 CCTV 5 体育赛事直播剧照」、「上传图片中的人物坐在座无虚席的足球场内」……
一张超写实的体育赛事直播剧照,画面中一位魅力四射的女士坐在座无虚席的足球场内,观看一场夜间比赛。她身穿深棕色无袖高领缎面上衣,佩戴黑色方形耳环,一头及肩的浅棕色/金色秀发自然垂落,微微卷曲。她一手拿着半个吃剩的芝士汉堡,另一只手随意地喝着一罐蓝色铝罐饮料。周围是身穿亮黄色和蓝色球衣、围着围巾的球迷,形成了鲜明的队服颜色对比。画面自然流畅,极具电影感,仿佛是从电视直播摄像机的角度,以浅景深捕捉到了比赛的精彩瞬间。画面应包含逼真的体育场座椅、拥挤的观众氛围、左上角显示实时比分和比赛计时器的直播画面叠加信息,以及右上角的体育频道水印。自然的体育场照明、细腻的皮肤纹理、清晰聚焦于女士、略微虚化的背景人群,营造出真实的现场体育直播美感,采用16:9的构图。
或者使用更精确的提示词来控制图片的各种元素,例如确定对应的比分情况,正在比赛的项目和队伍。
这是一张来自 CCTV 5 体育直播的世界杯足球比赛的截图。镜头切换到观众席——我们的参考图像人物正面带微笑地坐着。他笑容自然,似乎并未意识到自己正在被拍摄。他坐在看台边线后方的黄金位置/前排,周围是熙熙攘攘的观众。锁定条件:不要改变他的面部结构,保持他的肖像。完整的 CCTV 5 体育转播画面叠加:左上角是带有球队队徽、比赛计时器、比分和赛事标识的记分牌;角落里是 CCTV 5 体育的网络水印;下方三分之一处是图形条;画面比例为16:9。图像看起来与真实的电视截图完全一致——广播级的色彩校正、轻微的压缩痕迹、隔行扫描的颗粒感,以及灯光照射下球场浓郁的绿色光芒洒向看台。这是阿森纳对阵托特纳姆热刺的足总杯半决赛次回合比赛,地点在酋长球场。比分显示阿森纳2-1热刺,比赛进行到第67分钟。阿森纳总比分3-1领先。傍晚开球,灯光璀璨,体育场座无虚席。
得到图片之后,再找到一个公开的 Seedance 2.0 提示词。我们这里找到了一个篮球赛的视频提示词,直接复刻世界杯到 NBA。
超逼真的 NBA 季后赛夜间现场直播画面,逼真的体育直播摄像机,浅景深,自然的体育馆照明,压缩的电视画质,轻微的运动模糊,自动对焦呼吸效应,手持拍摄的瑕疵,逼真的观众移动,现场直播的真实感,16:9 构图。
画面中的女士一边看着比赛,一边随意地喝着啤酒吃着手里的汉堡。
直播镜头捕捉到了她,并像真正的 NBA 摄影师拍摄观众席上漂亮球迷那样,缓缓拉近镜头。这种构图感觉很随意也很真实,而非刻意追求电影效果。她身后的球迷穿着湖人队的球衣,其中一人短暂地看向镜头,另一名球迷则在用手机拍摄比赛。
她不慌不忙地将啤酒和汉堡放在身旁的座位上,自然地站起身,她穿着高跟鞋走向球场,从球场上球员手里干净利落地拿过球。自然的肢体动作,真实的现场运动摄像机追踪。
她轻松地运球到中场附近,然后毫不费力地以完美的姿势投篮。
在逼真的体育赛事转播镜头下,球在空中飞驰。球场瞬间安静了一秒钟。
唰!完美干净利落的一击。
整个体育馆沸腾了。替补席上的球员们尖叫着跳了起来。吉祥物也疯狂了。观众的反应让摄像机都晃动起来。解说员们也彻底崩溃了。
那名女子几乎没有反应。她对着镜头微微一笑,然后走回场边,身后的人群则陷入疯狂。
就在她坐下之前,她带着一丝俏皮的微笑直视着电视直播镜头,然后轻轻地用手遮住镜头一秒钟,仿佛她知道自己刚刚创造了一个爆款瞬间。
镜头切换到混乱的 ESPN 回放画面和尖叫的人群。
提示词来源:https://x.com/bydanielxyz/status/2054302615463460945
最后的视频效果还是相当真实的,加上最后的回放镜头,和之前她站在中场的位置几乎是一样的,没有明显的破绽。
另外一种方法是每个人都能上手,不用去找提示词就能复刻,那就是直接把视频上传给 Gemini,要它分析。
请按照系统指示操作
系统提示:超精细视频分析
角色:你是一位经验丰富的电影摄影师、视觉分析师和运动力学描述师。你的工作是将视频片段分解成极其详细、逐帧的文本描述。
目标:请将提供的视频/片段转化为生动、动态的文字分析。您必须准确捕捉到视频中的物理力学原理、节奏、微表情、动量物理规律、摄像机本身的物理特性,并完整转录所有音频和对话。
严格规则:完整的音频和对话转录:您必须转录所有音频提示。请使用引号准确写出角色所说的话(例如,“看这个!”)。如果语音含糊不清或重叠,请注明。除了对话之外,您还必须细致地描述所有音效(金属撞击声、呼啸声、冲击声)、人声(喘息声、笑声、尖叫声)、背景噪音和音乐。
禁止使用知识产权名称:请勿使用角色名称、演员名称或系列名称。请仅根据他们的外貌、衣着和体型进行描述(例如,“身材魁梧的男人”、“身穿粉色和服的女人”)。
将摄像机视为一个角色:你必须像描述一个实体物体一样描述摄像机的操作。注意业余智能手机拍摄时产生的轻微抖动、透视变形、突然的自动对焦调整、镜头光晕、运动模糊、快速摇摄以及摄影师的生理反应(例如,“当摄影师畏缩时,摄像机猛地向下晃动”)。
动力学物理:描述重量、重力、张力和冲击的传递。提及诸如衣物在腿部甩动、肌肉收缩、打击的反作用力或环境破碎等现象。
格式模板:您必须将视频按时间顺序分成若干部分,使用粗体时间戳标题和主题标题。在每个标题下,使用项目符号对内容进行分类。[时间戳] - [时间戳]: [阶段标题]
视觉构图:[描述镜头类型、光线、风格(例如,竖屏智能手机拍摄、二维动画、特写镜头、强烈的荧光灯)。]
拍摄对象:[描述人物的确切位置、姿势、衣着和微表情。]
动作分析:[逐帧分解身体动作。微动作、动量、物理原理。]
镜头动态:[请详细描述镜头的运动、缩放、模糊、抖动和平移等效果。]
音频/节奏:[请用引号转录所有口语对话。描述当时的节奏/紧张程度,并详细记录所有音频线索,例如喘息声、脚步声、环境影响、音乐或背景噪音。]
示例输出用户输入:[一段视频,一名男子试图翻煎饼,但他用力过猛,煎饼撞到天花板后掉到他脸上,导致拍摄者手机掉落。]
AI 回应:0:00 - 0:02:准备工作和开场画面构图:视频采用智能手机竖屏拍摄。光线为厨房顶灯,光线强烈而温暖。画面持续轻微抖动,表明拍摄者是业余人士,单手握持手机。画面主体:一名身穿宽松灰色连帽衫的男子站在画面中央,手持一口黑色特氟龙煎锅。锅里煎着一张完美的圆形金黄色薄饼。动作:男子咧嘴一笑,直视镜头,带着一种莫名其妙的自信。他手腕有节奏地画着圈,转动着煎饼,确保它在锅里松动。他微微弯曲膝盖,降低重心以便更好地发力。摄像机动态:摄影师站在大约四英尺远的地方,从男子的腰部到头顶上方进行固定的中景拍摄。音频/节奏:节奏缓慢而充满期待。煎饼在金属板上滑动时,发出有节奏的刮擦声,如同“嘶嘶嘶”。男人的声音清晰而自信:“好了,完美翻转,三……二……一……”
0:02 - 0:04:灾难性的发射视觉构图:相机保持静止,但当被摄对象的手臂快速移动时,焦点会短暂地游移。主题:男人自信的笑容逐渐变成痛苦的表情。动作:他迅速下沉右肩,然后猛地向上甩动手臂,动作幅度过大,力道过猛。煎饼瞬间飞出锅外,高速直冲云霄,完全超出画面顶部边界。摄像机动态:摄像机突然向上倾斜,试图追踪空中的击球手,但运动有延迟且抖动。音频/节奏:男子发出了一声短促而吃力的咕哝:“哼!”刮擦声立刻被镜头外上方传来的一声响亮而湿漉漉的“啪嗒”声所取代,表明煎饼已经撞到了天花板。
0:04 - 0:06:冲击和镜头混乱视觉构图:上方落下的阴影突然遮蔽了光线。事件经过:仅仅一瞬间,那张厚重的、半生不熟的煎饼便直直地落了下来,啪的一声落在男人的脸上,完全盖住了他的眼睛和鼻子。他身体瞬间后仰,肩膀耸到耳朵边,同时手中的煎锅也掉在了地上。镜头动态:摄影师的本能反应被激发。随着摄影师身体的抽搐,镜头猛地向下向左晃动。画面完全模糊成一片混乱的、拖沓的厨房地板和橱柜运动模糊影像。音效/节奏:平底锅掉落在油毡地板上的沉重金属撞击声占据了主导音效。拍摄者倒吸一口凉气,大喊一声“我的天哪,老兄!”紧接着是手机掉落的清脆声响。视频戛然而止,画面定格在倾斜模糊的踢脚板上。
提示词来源:https://pastebin.com/H8DeXq1G
我们把开头那段视频上传到 Gemini,Gemini 会按照示例输出完整的提示词。
使用 Gemini 的提示词,对提示词里面的内容略做修改,复制到 Seedance,无论是使用全能参考还是首尾帧,都能得到不错的结果。
值得注意的是,Seedance 2.0 使用的提示词最长不能超过 2000 字,而 Gemini 提取的视频分析内容往往较多,我们可以手动删减原视频中不需要的部分。
玩法二:从故事板到视频
电影帧率一般是 1 秒 24 帧,我们之前在想,如果让 GPT Image 2 每次生成一帧的图片,是不是就能像当时的宣传视频一样,剪辑成一段故事性足够强的内容。
但 10s 的视频要 240 张图片,压力还是过大,约等于手工做漫画了。
很快就有网友发现让 GPT Image 2 来生成故事板,然后交给 Seedance 2.0,尤其是在动画片的场景上,成片效果快要赶上影视行业的水平。
视频来源:https://x.com/EHuanglu/status/2054399965729091629
我们在 ChatGPT 里随手输入一行「创建一个故事板,15s 时长,场景尽可能详细,描述一个非常有意思的故事,同时把角色形象放在故事板一旁,使用动画形象。」
接着把这张图片丢给 Seedance 2.0,输入提示词「根据故事板生成视频」。
说实话,最后的效果还是挺还原故事板所描绘的那几个场景,除了受限于 15s 时长导致第五幕到第六幕跳跃太快之外,其他的台词以及场景,基本上都是按照 GPT Image 2 设定的故事展开的。
这还只是 ChatGPT 自己编的一个故事,脑洞大开的网友使用更详细的提示词,制作了一系列有意思的故事板。
图片来源:X@OlivioSarikas
还有水墨画的版本。
图片来源:X@aimikoda
当只是把这些图片丢给 Seedance 2.0,而不添加额外的提示词时,Seedance 2.0 的表现都可圈可点。
玩法三:游戏的实机录屏
第一眼看到这个视频时,都会以为这个游戏真实存在。就连 X 都在这则帖子的下方加上了信息补充,提醒网友。
这段视频是一个 AI 生成的概念演示,并非可玩的 3A 级游戏。它使用 Seedance 2 和 GPT Image 2 制作而成。
视频截图来源:X@0xInk_
还有网友设计并制作了一个武器选择界面的概念游戏视频。
视频来源:X@MrDavids1
作者只是使用 GPT Image生成了四张主角拿着武器的图片,然后在 Seedance 2 里面,通过提示词让他切换不同的武器。
一个静态镜头显示一个电子游戏菜单界面。在切换过程中,她会选择不同的武器。她会选择全部四种不同类型的武器。确保她手中的物品会随着选择的武器而变化。每次选择武器时,她都会摆出姿势并进行分析。她旁边的木制动物会四处张望。不要更改任何文本。不要添加音乐,只添加武器切换时的音效。不要添加对话。
GPT Image 2 的一致性,还能让他切换不同的大招。
更有意思的是,这个「奶奶带着夜里哭闹的孙子散步」跑酷游戏视频,有玩家视角和主角视角,屏幕的左下角有小地图显示当前路线,右边是速度,左上方还有排名。
视频截图来源:@Kashiko_AIart
玩法四:3D 交互网站
除了视频,得益于 GPT Image 2 的美学标准,一些网友发现用 GPT Image 2 来设计 UI,Gemini 3.1 Pro 负责代码,能开发出具有科普性质的 3D 细胞结构工坊网页。
来源:X@DilumSanjaya
从 @Gorden_Sun 分享的制作教程里,第一步又是先用 GPT Image 2 生成每个细胞的正面图和背面图。
使用 GPT Image 2 生成,提示词:画一个动物细胞的3D模型,俯视图,核心部件通过截面的形式展示内部细节,比例是1:1;右图:再画出这个细胞背面的图片,不需要截面的形式|来源:X@Gorden_Sun
得到了正面和背面两张图,我们再把图片丢给能将图转成 3D 的工具,像是 Tripo 3D生成模型,上传图片,使用多视图生成模型。
混元 3D 生成模型也有类似的功能
有了 3D 模型素材,再 Vibe Coding 一个用来展示 3D 资产的网页,一切就大功告成了。
同样的概念,有网友制作了动物解剖的版本,用 GPT Image 2 来保持骨骼、器官、系统以及正常情况下(皮肤/毛发)的狗狗模型图片。
来源:@gaborpribek
将图片导入到对应的 3D 处理平台,这里他使用的是 Omma AI,一个专门打造 3D 模型网站、程序的工具。
网址:https://omma.build/
还有网友同样是,受到 3D 生物结构视觉启发,制作了一个三星堆 3D 文物展览。
先从 三星堆博物馆官网找到对应的文物截图,然后使用 GPT Image 2 进一步生成清晰的正视图,接着用 Tripo 生成 3D 图像,再 Vibe Coding 一个网页用来展示。
来源:X@ Saccc_c
小彩蛋
最近很多读者留言问我们那些信息图是用什么做的,其实也是 GPT Image 2 的功劳。
我们只需要输入简单的需求,例如「生成一份人教版高中数学必修一的知识点大全信息图」。在这个阶段我们可以多尝试几次,找到自己喜欢的风格。
图片由 AI 生成
得到这张图片之后,我们可以发送图片给 ChatGPT,要求它提取这张图片的设计规范,颜色搭配等,生成一份可以用来控制每次生图结果一致的提示词。
提取提示词:提取这张图片的设计规范,颜色搭配等,生成一份可以用来控制每次生图结果样式上一致的提示词给我
用这套提取的提示词,我们用它再做了一张同样风格的高中物理必修一的知识点汇总。
图片由 AI 生成
对于海报的设计也是如此,先多尝试几次找到合适的风格,再用 AI 提取图片风格形成提示词,然后在每次生图时,除了给生图指令,再告诉 GPT Image 2 按照这套规范来生成。
一套流程走下来,基本上就能形成一套专属的 AI 生图模板;尤其是如果公司已经有指明的形象使用指南,或者有自己钟意的图片风格,直接让 GPT Image 2 总结会更方便。
本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。