分享好友 健康资讯首页 健康资讯分类 切换频道

解读OpenAI最强文生图模型—DALL·E 3

2023-10-24 21:061070

Midjourney、Stable Difusion在商业变现和场景化落地方面获得了巨大成功,这让OpenAI看到了全新的商机,也是推出DALL·E3的重要原因之一。

上周,OpenAI宣布在ChatGPT Plus和企业版用户中,全面开放文生图模型DALL·E3,同时罕见地放出了研究论文。

DALL·E3与前两代DALL·E、DALL·E2相比,在语义理解、图片质量、图片修改、图片解读、长文本输入等方面实现了质的飞跃,尤其是与ChatGPT的相结合,成为OpenAI全新的王牌应用。

论文地址:https://cdn.openai.com/papers/dall-e-3.pdf

图片

下面「AIGC开放社区」将根据DALL·E3的论文为大家解读其主要技术原理,各个模块的功能。

研究人员发现,文本生成图像模型在遵循详细的图片描述时经常存在各种难题,会忽略提示中的词语或混淆其含义,根本原因就是训练数据集中图像描述的质量较差

为了验证这一假设,研究人员首先训练了一个生成描述性图像字幕的模型。该模型经过精心训练,可以为图像生成详细和准确的描述。

图片

在使用这个模型为训练数据集重新生成描述后,研究人员比较了在原始描述和新生成描述上训练的多个文本生成图像模型。

结果表明,在新描述上训练的模型在遵循提示方面,明显优于原始描述模型。随后在大规模数据集上使用这种方法训练了——DALL-E3。

图片

从DALL-E3的技术架构来看,主要分为图像描述生成和图像生成两大模块。

图像描述生成模块

该模块使用了CLIP(Contrastive Language-Image Pretraining)图像编码器和GPT语言模型(GPT-4),可为每张图像生成细致的文字描述。

研究人员通过构建小规模主体描述数据集、大规模详细描述数据集以及设置生成规则等方法,使模块输出的图像描述信息量大幅提升,为后续生成图像提供强力支持。主要各个模块功能如下:

1)CLIP图像编码器

CLIP是一个训练好的图像文本匹配模型,可以将一张图像编码成一个固定长度的向量,包含了图像的语义信息。DALL-E3利用CLIP的图像编码器,将训练图像编码为图像特征向量,作为条件文本生成的一部分输入。

2)GPT语言模型

DALL-E3基于GPT架构建立语言模型,通过最大化随机抽取文本序列的联合概率,学习生成连贯的文字描述。

图片

3)条件文本生成

将上述两者结合,图像特征向量与之前的单词序列一同输入到GPT语言模型中,就可以实现对图像的条件文本生成。通过训练,该模块学会为每张图像生成细致Descriptive的描述。

4)优化训练

尽管DALL-E3的基础架构已经完成了,但直接训练的结果还不够理想,无法生成细节丰富的描述。所以,研究人员进行了以下技术优化:

图片

图像生成模块

该模块先用VAE将高分辨率图像压缩为低维向量,降低学习难度。然后,使用T5Transformer将文本编码为向量,并通过GroupNorm层将其注入diffusion模型,指导图像生成方向。

研究人员认为,额外加入的Diffusion模型显著增强了图片细节生成的效果。具体流程如下:

1)图像压缩

将高分辨率图像先通过VAE模型压缩为低维向量,以降低图像生成的难度。DALL-E3采用8倍下采样,256px图像压缩为32x32大小的latent向量。

2)文本编码器

使用T5Transformer等网络将文本提示编码为向量,以便注入到图像生成模型中。

图片

3)Latent Diffusion

这是图像生成的核心技术,将图像生成问题分解为多次对噪声向量的小规模扰动,逐步邻近目标图像。关键是设计恰当的前向过程和反向过程。

4)文本注入

将编码好的文本向量,通过GroupNorm层注入到Latent Diffusion模型中,指导每轮迭代的图像生成方向。

5)优化训练

研究人员发现,在压缩image latent空间上再训练一个Diffusion模型,可以进一步提升细节生成质量。这也是DALL-E3比前两代生成的图片质量更好的原因之一。

CLIP评估数据

研究人员首先利用CLIP模型计算DALL-E3生成图片与原描述文本的相似度,即CLIP得分。他们随机抽取了MSCOCO数据集中4096条图像描述作为提示文本,分别让DALL-E2、DALL-E3和Stable Diffusion XL生成对应图片,然后计算三者的平均CLIP得分。

图片

结果显示,DALL-E3的CLIP得分达到32.0,优于DALL-E2的31.4和Stable Diffusion XL的30.5。

这表明DALL-E3生成的图片与原始描述文本的契合度更高,文本指导图像生成的效果更好。

Drawbench评估数据

在Drawbench数据集上比较了各模型的表现。该数据集包含许多脆弱的文本提示,考验模型对提示的理解力。

研究人员使用GPT-V这个配备视觉能力的语言模型来自动判断生成图片的正确性。

图片

在短文本提示的子测试中,DALL-E3正确生成图像的比例达到70.4%,显著超过DALL-E2的49%和Stable Diffusion XL的46.9%。

在长文本提示上,DALL-E3的正确率也达到81%,继续领先其他模型。

T2I-CompBench评估

通过T2I-CompBench中的相关子测试,考察模型对组合类提示的处理能力。在颜色绑定、形状绑定和质感绑定三项测试中,DALL-E3的正确绑定比例均高居各模型之首,充分展现了其理解组合提示的强大能力。

人工评估

研究人员还邀请了人工在遵循提示、风格连贯性等方面对生成样本进行判断。在170条提示的评估中,DALL-E3明显优于Midjourney和Stable Diffusion XL。

图片

举报

举报
收藏 0
打赏 0
评论 0
机器人概念股,半数盈利下滑或亏损
昨日(4月19日),“人形机器人半马”在北京亦庄落下帷幕,而随着年报季逐渐进入尾声,备受关注的机器人板块的“成绩单”也陆续揭开面纱。财联社记者基于Wind机器人指数(884126.WI)的120只成分股进行统计发现,目前已有约100家上市公司披露2025年报、业绩快报或业绩预告。不过,相较于具身智能市场的火热情形,机器人概念股的真实业绩却是另一种面貌:在上述公司中,截至发稿,约有40余家2025年

0评论2026-04-200

又一只独角兽坠落
西方“电池坟场”再添新员。4月9日,承载着美国锂电池回收产业全村希望的独角兽公司Ascend Elements正式申请破产保护。这家公司自成立以来融资达12轮,日本本田、韩国SK集团、卡塔尔投资局、淡马锡等顶级战略和财务投资者纷纷入局,累计融资超过11亿美元,如今说倒就倒了。Ascend Elements并不是孤例。不完全统计,自2025年以来已经有至少14家欧美锂电池产业链上的创业公司倒下。这场

0评论2026-04-200

京东在杭州钱江世纪城买地,建浙江区域总部
4月20日,杭州钱江世纪城核心区一宗沿江商业用地挂牌出让,杭州京东霁纬信息技术有限公司以总价6.63亿元成功竞得该地块。竞得方杭州京东霁纬信息技术有限公司由北京京东世纪贸易有限公司100%持股。信息显示,该地块成交楼面价为5600元/平方米。用地性质为商业用地兼容商务金融用地(产业),出让面积26297平方米,容积率4.5,可建面积11.83万平方米,建筑高度不高于100米、不低于15米,起拍总价

0评论2026-04-200

益禾堂投资9000万在武汉建全球总部大楼
近日,武汉本地媒体消息,奶茶品牌益禾堂在武汉市江夏区汤逊湖畔投资9000万元建设的全球总部大楼项目正在加紧施工。根据公开资料整理,项目总建筑面积约1.24万平方米,定位为集数字化运营中心、研发创新中心等于一体的全球“中枢大脑”。项目负责人介绍,目前主体结构正在施工,地下室已大面积封顶。按照计划,今年10月将完成整体施工并交付业主,预计10月至12月正式投入使用。益禾堂是2012年成立于武汉的原创新

0评论2026-04-200

青岛出台公积金新政,贷款额度叠加后最高可达240万元
4月20日,为深入贯彻落实党中央、国务院关于深化住房公积金制度改革的决策部署,更好支持居民刚性和多样化改善性住房需求,结合青岛实际,青岛住房公积金管理中心对部分住房公积金贷款、提取政策进行调整。本次政策调整自2026年4月20日起执行,有效期至2028年4月19日。贷款政策主要内容及解读优化贷款住房套数认定标准借款申请人家庭符合下列情形之一或多项情形,能提供相应证明材料的,可核减一套住房套数。核减

0评论2026-04-200

佛山开展首批商品住房“以旧换新” ,22个楼盘参与
4月20日消息,佛山市住房和城乡建设局发布《关于组织开展首批商品住房“以旧换新”工作的通知》,具体内容如下:一、参与对象(一)有意愿出售旧房(商品住房)并购买新建商品房的居民个人(下称“换房人”)。(二)有意愿参加且具备住房租赁和房地产开发相关资质或业务的房地产企业(具体参与企业见附件)。二、参与条件(一)换房人旧房位于参与企业发布的收购范围内(具体范围见附件)。(二)旧房原则上为2000年1月1

0评论2026-04-201