推特吵架吵出篇论文，谢赛宁团队新作iREPA只要3行代码_健康_健康资讯

要说真学术，还得看推特。

刚刚，谢赛宁自曝团队新作iREPA其实来自4个多月前的，一次与网友的辩论。

这场短暂的线上辩论虽然以谢赛宁被网友说服告终，但在3个多月后，居然有了意料之外的后续——

多个团队合作，沿着这一思路写出了一篇完整的论文，而且核心框架仅需3行代码。

致谢部分还感谢了当时参与讨论的网友。

一篇推特引发的学术论文

事情是这样的。

一位网友在8月份表示：

别再痴迷于ImageNet-1K的分类分数了！自监督学习（SSL）模型应该专门为稠密任务（如REPA、VLM等）进行训练，因为这些任务真正依赖的是patch tokens中的空间和局部信息，而不是[CLS]token所代表的全局分类性能。

（注：稠密任务就是要求模型对图像中的“每一个像素”或“每一个局部区域”都做出预测的计算机视觉任务，这类任务需要精确的空间和局部细节信息，而不仅仅是全局分类标签）

对于网友的观点，谢赛宁表示：

不，使用patch token并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关，而与patch级别的对应关系只有很弱的关联。这并不是[CLS]token的问题，而是高层语义与低层像素相似性之间的差别。

对于谢赛宁的反驳，网友举出了SigLIPv2和PE-core优于DINOv2 for REPA的例子。

与此同时，另一位网友也加入了战斗：

这是个合理的问题。为了做直接对比，在没有DINOv3早期checkpoint的情况下，或许可以用REPA来比较PEspatial和PEcore。其中，PEspatial可以理解为：将PEcore的Gram-anchor对齐到更早的网络层，并结合SAM2.1。

对此，谢赛宁表示：

非常好！感谢你的指路/提示。我很喜欢这个方案。否则干扰因素会太多了。两个checkpoint都已经有了（G/14，448 分辨率），希望我们很快就能拿到一些结果。

3个多月后，谢赛宁表示自己之前的判断站不住脚，而且这次的论文反而带来了更深入的理解。

还有贴心小贴士，提示网友可以看看致谢部分。

对于自己在致谢中被提到，参与讨论的网友之一表示很有意思：

也谢谢你一路跟进！被致谢提到我也很受宠若惊。

谢赛宁还表示，这次讨论本身就是一次小实验——他想看看，一种新的“线上茶水间效应”是否真的能够发生。

他很享受这种状态：先有分歧、有争论，再通过真正的实验和投入，把直觉拉回到可被验证的科学结论上。

不得不说，这样开放、即时、可纠错的学术讨论，确实值得多来一些。

接下来，我们就一起来看看由此催生的最新论文。

空间结构才是驱动目标表征生成性能的主要因素

承接上面的讨论，这篇最新论文探讨了一个核心的基础问题：

在用预训练视觉编码器表征来指导生成模型时，究竟是表征的哪一部分在决定生成质量？

是其全局语义信息（ImageNet-1K上的分类准确率）还是其空间结构（即补丁tokens之间的成对余弦相似度）？

论文给出的结论是：更好的全局语义信息并不等于更好的生成，空间结构（而非全局语义）才是表征生成性能的驱动力。

传统观念（包括谢赛宁本人）认为具有更强全局语义性能的表征会带来更好的生成效果，但研究却表明更大的视觉编码器反而可能带来更差的生成性能。

其中，线性检测准确率只有约20%的视觉编码器，反而可以超过准确率>80%的编码器。

而且，如果试图通过CLS token向patch token注入更多全局语义，生成性能还会被拉低。

与此同时，研究还发现生成效果更好的表征，往往具有更强的空间结构（可通过空间自相似性指标来衡量）：

也就是说，图像中某一部分的token会如何关注图像中其他区域的token。

在具体的研究方法上，研究通过一次大规模的定量相关性分析对这一观察进行了细化验证：分析覆盖了27 种不同的视觉编码器（包括 DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP 等）以及 3种模型规模（B、L、XL）。

而在进一步的评测中，空间信息的重要性被进一步拔高：即便是像SIFT、HOG这样的经典空间特征，也能带来与PE-G等现代、更大规模视觉编码器相当、具有竞争力的提升。

在测试得出结论后，论文又基于现有的表征对齐（REPA）框架进行分析和修改，提出了iREPA。

投影层改进：将REPA中标准的MLP投影层替换为一个简单的卷积层。

空间规范化：为外部表征引入一个空间规范化层。

这些简单的修改（如在DeCo框架下的实现）旨在保留并强化空间结构信息，相比原始的REPA方法能显著提升性能。

值得一提的是iREPA，只需3行代码即可添加到任何表示对齐方法中，并且在各种训练方案（如REPA、REPA-E、Meanflow 以及最近推出的 JiT）中都能实现持续更快的收敛。

参考链接

[1]https://x.com/YouJiacheng/status/1957073253769380258

[2]https://arxiv.org/abs/2512.10794

[3]https://x.com/sainingxie/status/2000709656491286870

[4]https://x.com/1jaskiratsingh/status/2000701128431034736

本文来自微信公众号“量子位”，作者：关注前沿科技，36氪经授权发布。

抛弃“不作恶”，谷歌和五角大楼签订协议、承接美军机密AI业务，超700名员工联名反对

谷歌，这个曾以“不作恶”为行为准则的科技巨头，如今正深陷一场前所未有的内部风暴。28日，美国消费者新闻与商业频道（CNBC）援引科技媒体“The Information”报道，谷歌已与美国国防部签署协议，承接机密人工智能业务。一位知情人士透露，美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称，本周，700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊，要

0评论2026-04-296

AI对话框成“赛博魅魔”：它越懂你，为什么越危险？
0评论2026-04-29

一季度净利环比暴增27倍，剑桥科技股价一年涨三倍，险资与社保基金加仓，股东高管减持

4月27日盘后，光模块概念大牛股剑桥科技（603083.SH、06166.HK）发布2026年一季报，公司一季度营收同比增长43.98%至12.87亿元；归母净利润同比增长276.44%至1.18亿元。从环比来看，剑桥科技今年第一季度营收环比下滑约12%；净利润环比增长2722.62%，而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股，剑桥科技H股曾在11个交易日完成了翻倍，4月2

0评论2026-04-296

32美元一辆车，Tesla为什么不认？（下）

本案真正值得关注的，不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是，如果法院最终认为这类平台许可条款不能进入FRAND审查，那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时，实施者还能不能有效挑战其许可条件？这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看，Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-296

英伟达全模态大模型来了，几秒搞定老黄3分钟演讲，吞吐量同类9倍
0评论2026-04-29

靠补贴扭亏为盈？摩尔线程仍需打“硬仗”
0评论2026-04-29

AI时代，“10后”沉迷于捡“电子垃圾”
0评论2026-04-29

“保本”又“看病”？监管部门约谈健康险公司，中介平台下架热销“医疗金”产品

早在前两年，市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长，这类产品的资产增值属性被放大，经过长期现金价值积累，配合可以累积的医疗保险金，使得产品有着不输理财型产品的收益率，这也是引起监管部门关注的原因之一。2026年4月初，当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时，他可能不会想到，体验活动中的重磅产品“岁月长安·特定疾病保险（互联网版）”即将面临下架。4月

0评论2026-04-294

比亚迪、奇瑞汽车的供应商冲击IPO，上市前巨额分红，来自山东济宁
0评论2026-04-29

第一批押注AI的酒店、民宿，已经不看OTA脸色了？
0评论2026-04-29