分享好友 健康资讯首页 健康资讯分类 切换频道

对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA

2025-12-22 17:1724036kr

【导读】浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。

在定制化AI图像生成领域,多实例图像生成(MIG)面临一个关键的协同控制挑战:精确布局控制多主体身份保真的同步实现。

现有方法往往只能达成二者之一,少数能兼顾的方法在性能上也存在显著不足。

为解决这一布局与身份的协同控制瓶颈,浙江大学ReLER团队提出了ContextGen框架,首次在Diffusion Transformer (DiT) 架构内部,通过双重上下文注意力机制实现了架构级的分层解耦控制。

ContextGen在基准测试上,身份保持能力超越SOTA开源模型,并成功对标了GPT-4o和Nano-Banana等强大的闭源系统,实现了在复杂定制化控制方面实现了关键突破。

论文地址:https://arxiv.org/abs/2510.11000

代码地址:https://github.com/nenhang/ContextGen

行业痛点,多实例生成中的「协同控制挑战」

当前MIG模型在实际应用中,主要表现出在布局精准度与身份保真度协同控制上的挑战:

宏观布局难以固化:即使模型显式提供了布局控制功能,生成的多个实例也难以精确地锚定到用户指定的空间位置,属性泄露和实例遗失现象频发,导致生成图像的构图混乱且不符合预期。

身份细节极易丢失:目前很多模型都支持多主体定制化,但主体数量增加时,身份细节丢失的概率会显著上升,生成结果往往无法忠实还原每个实例的独特身份特征。

ContextGen的核心突破在于:它利用注意力机制控制的上下文学习,实现了对这两个问题的协同解决,并在多个关键基准上达到了新的SOTA水平。

核心机制,布局锚定与身份隔离

ContextGen框架基于DiT架构构建,将所有输入整合成一个统一的Token序列T,创新在于在DiT模块中嵌入了两个功能不同的「注意力核」。

宏观布局控制模块

上下文布局锚定 (Contextual Layout Anchoring, CLA)机制是DiT网络的「布局控制器」,负责全局结构和构图:

机制:该模块采用的注意力掩码MCLA允许查询Token q与所有文本、图像和布局Token进行广泛通信。

效果:通过在DiT模块的前置和后置层建立宏观约束,确保生成的实例能够鲁棒且精确地遵循用户指定的布局要求。这种图像层面的宏观布局引导更适配于现有的DiT上下文学习机制,简单而有效地提升了布局控制的准确性。

微观身份隔离模块

身份一致性注意力 (Instance Consistency Attention, ICA)机制是解决多主体身份混淆与丢失的「身份隔离器」:

机制:采用隔离式的注意力掩码MICA,强制限制位于实例n边界框Bn内的查询Token q,只能关注其自身区域Bn、文本T以及对应的参考图像Rn

效果:这一设计在DiT模块的中间层,切断了不同实例身份Token之间的交叉通信,它为每个实例创造了一个「注意力孤岛」,从机制上保障了多主体身份信息的高保真隔离注入,这一机制在应对实例重叠、压缩等复杂场景时,能有效缓解身份信息丢失问题,同时在上下文变长时,也能维持鲁棒的身份保真度。

辅助优化与数据基石

DPO强化学习:引入直接偏好优化 (DPO),解决了监督微调可能导致的布局僵硬复制问题,从而增强了生成图像的多样性和自然度。

IMIG-100K数据集:团队同步发布了IMIG-100K,首个包含详细布局与身份标注的、含有不同难度层级的、大规模高质量多实例合成数据集。

实验结果,开源SOTA,对标闭源巨头

ContextGen的性能突破,体现在布局精度和身份保持两个维度:

布局精度提升:在COCO-MIG基准上,空间准确性 (mIoU) 实现了+5.9%提升,验证了ContextGen在精确构图上的领先性。

身份保持的突破:在LAMICBench++身份保持测试中,ContextGen的在较多主体下的身份保真度 (IDS) 比肩甚至超越了GPT-4o和Nano-Banana等闭源模型。这一关键结果证明了ContextGen在复杂多主体场景中,对细节的保真还原能力。

定性结果清晰显示,ContextGen也能还原细粒度的面部特征,也能灵活融合不同风格的参考图像,同时还能遵循用户的布局设计要求。

前端支持,用户友好界面

团队还开发了一个简单的前端界面,用户可以上传自己的参考图像,方便地设计布局,从而定制化生成多实例图像。

结语

ContextGen框架通过在DiT架构中引入CLA和ICA双核注意力机制,创新性地实现了宏观布局和微观身份信息的架构级分层解耦。

这一工作不仅为多实例生成提供了SOTA解决方案,成功突破了布局与身份的协同控制瓶颈,也为DiT等基础扩散模型在高度定制化AIGC任务中的应用开辟了新的技术路径。

作者简介

本工作由浙江大学ReLER团队完成,其中第一作者是浙江大学计算机科学与技术学院本科生许瑞航,通讯作者为浙江大学求是讲席教授杨易老师。ReLER团队长期致力于人工智能领域的前沿研究,包括但不限于生成模型、多模态学习、AI+X等方向。

参考资料:https://arxiv.org/abs/2510.11000 

本文来自微信公众号“新智元”,编辑:LRST,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-2912

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-2912

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2912

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-297