让AI像人类画家一样边画边想，港中文&美团让模型「走一步看一步」_健康_健康资讯

在文生图（Text-to-Image）和视频生成领域，以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。

但当你要求模型处理复杂的空间关系、多物体交互或精准的数量控制时，它们往往会“露怯”：不是把猫画到了窗户外面，就是把三个苹果画成了四个。

为了解决这个问题，学术界此前主要有两条路：

一条是“谋定而后动”（Think-before-Generation），即在画第一笔之前，先写好详细的布局计划。但这就像让画家在动笔前必须把每一笔都想得清清楚楚，一旦开画就无法更改，缺乏灵活性。

另一条是“亡羊补牢”（Think-after-Generation），即先把图画完，再通过多轮对话来挑错、修改。这虽然有效，但往往意味着巨大的推理开销和漫长的等待时间。

那么，有没有一种方法，能让模型像人类画家一样，在作画的过程中停下来看一眼，既能审视刚才画得对不对，又能为下一笔做好规划？

近日，来自香港中文大学、美团等机构的研究团队提出了一种全新的范式——Thinking-while-Generating（TwiG）。这是首个在单一生成轨迹中、以局部区域为粒度，将文本推理与视觉生成深度交织（Interleave）的框架。

什么是Thinking-while-Generating？

如果说之前的视觉生成是“一口气跑到底”，TwiG则更像是一种“间歇性思考”。

研究团队受到大语言模型（LLM）中思维链（Chain-of-Thought）的启发，但他们反其道而行之：不再是用图片辅助推理，而是用推理来引导作画。

在TwiG的框架下，视觉生成不再是一个黑盒的连续过程，而是被拆解为“生成-思考-再生成”的循环。模型会在绘制过程中多次“暂停”，插入一段文本推理（Thought），用于总结当前的视觉状态，并指导接下来的生成。

为了实现这一目标，研究团队将TwiG框架拆解为三个核心维度：

1. When to Think（何时思考）：模型首先会根据用户的Prompt（提示词），规划出一个“思维时间表”。研究发现，将画面生成过程拆解为3个阶段效果最佳，这恰好符合图像通常包含“上部背景、主体内容、下部背景”的语义结构。

2. What to Say（思考什么）：在每个暂停点，模型会生成一段“思维链”。这段文本不仅承接了上文的逻辑，更像是一个微型的路书，专门指导接下来的局部区域该怎么画。这种细粒度的引导，比那种“一句Prompt走天下”的方式要精准得多。

3. How to Refine（如何修正）：在画完一个局部后，模型会立刻进行自我批判（Self-Reflection）。如果发现画歪了或者颜色不对，它会立刻触发“重画”机制，只修正当前的局部，而不需要推倒重来。

实证研究：从Zero-Shot到SFT到RL

为了验证这一范式的潜力，研究团队在统一多模态模型（如Janus-Pro）上进行了层层递进的实验。

Zero-Shot潜力惊人

仅仅通过精心设计的Prompt，而不需要任何参数更新，模型就已经展现出了强大的“边画边想”能力。

在T2I-CompBench基准测试中，Zero-Shot版的TwiG（TwiG-ZS）在属性绑定、空间关系等多个维度上显著超越了基准模型。

结果表明，在合适的interleave约束与提示下，现有多模态模型已具备一定的在生成过程中进行推理的潜力。

SFT提升稳定性

团队进一步构建了包含50K数据的高质量数据集TwiG-50K，对模型进行监督微调（SFT）。结果显示，SFT有效减少了模型“胡思乱想”产生的幻觉，让生成的思维链更加简练、可控。

RL突破上限

团队采用了针对TwiG优化的GRPO策略（Group Relative Policy Optimization），让模型在“何时思考、思考什么、如何修正”的策略上进行自我博弈和进化。

实验数据显示，经过RL训练的TwiG-RL，在T2I-CompBench++的多个关键组合与空间指标上，展现出与Emu3、FLUX.1等模型具有竞争力、甚至在部分维度上更优的表现。

TwiG的提出，不仅是一种技术上的优化，更是一种观念上的转变。它试图打破视觉生成模型的“黑盒”属性，通过引入可读的文本推理，让生成过程变得透明、可控且具有逻辑性。

研究团队的结论可以总结为以下几点：

1. 生成需要逻辑：单纯的像素概率预测难以处理复杂的逻辑约束，引入显式的文本推理是必经之路。

2. 修正优于重绘：相比于画完再改的“大动干戈”，在生成过程中进行局部的即时修正是更高效的策略。

3. RL是关键：强化学习不仅能优化最终的图像质量，更能教会模型如何思考，是挖掘多模态模型推理潜力的关键钥匙。

目前的TwiG中的具体实现与实验验证主要基于自回归ULM（如Janus-Pro），但框架在设计上对扩散模型同样兼容。这种“边生成边思考”的范式有望扩展到视频生成、3D建模等更复杂的领域，为通往真正的通用视觉智能提供新的拼图。

论文题目：Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

论文链接：https://arxiv.org/abs/2511.16671

项目主页：https://think-while-gen.github.io

本文来自微信公众号“量子位”，作者：TwiG团队，36氪经授权发布。

抛弃“不作恶”，谷歌和五角大楼签订协议、承接美军机密AI业务，超700名员工联名反对

谷歌，这个曾以“不作恶”为行为准则的科技巨头，如今正深陷一场前所未有的内部风暴。28日，美国消费者新闻与商业频道（CNBC）援引科技媒体“The Information”报道，谷歌已与美国国防部签署协议，承接机密人工智能业务。一位知情人士透露，美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称，本周，700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊，要

0评论2026-04-2912

AI对话框成“赛博魅魔”：它越懂你，为什么越危险？
0评论2026-04-29

一季度净利环比暴增27倍，剑桥科技股价一年涨三倍，险资与社保基金加仓，股东高管减持

4月27日盘后，光模块概念大牛股剑桥科技（603083.SH、06166.HK）发布2026年一季报，公司一季度营收同比增长43.98%至12.87亿元；归母净利润同比增长276.44%至1.18亿元。从环比来看，剑桥科技今年第一季度营收环比下滑约12%；净利润环比增长2722.62%，而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股，剑桥科技H股曾在11个交易日完成了翻倍，4月2

0评论2026-04-2912

32美元一辆车，Tesla为什么不认？（下）

本案真正值得关注的，不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是，如果法院最终认为这类平台许可条款不能进入FRAND审查，那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时，实施者还能不能有效挑战其许可条件？这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看，Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2912

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍
0评论2026-04-29

靠补贴扭亏为盈？摩尔线程仍需打“硬仗”
0评论2026-04-29

AI时代，“10后”沉迷于捡“电子垃圾”
0评论2026-04-29

“保本”又“看病”？监管部门约谈健康险公司，中介平台下架热销“医疗金”产品

早在前两年，市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长，这类产品的资产增值属性被放大，经过长期现金价值积累，配合可以累积的医疗保险金，使得产品有着不输理财型产品的收益率，这也是引起监管部门关注的原因之一。2026年4月初，当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时，他可能不会想到，体验活动中的重磅产品“岁月长安·特定疾病保险（互联网版）”即将面临下架。4月

0评论2026-04-297

比亚迪、奇瑞汽车的供应商冲击IPO，上市前巨额分红，来自山东济宁
0评论2026-04-29

第一批押注AI的酒店、民宿，已经不看OTA脸色了？
0评论2026-04-29