分享好友 健康资讯首页 健康资讯分类 切换频道

名师一定出高徒?清华团队最新揭秘:别再迷信大模型蒸馏的「免费午餐」

2026-05-14 15:000036kr

本文由清华大学 THUNLP 实验室联合上海科技大学、伊利诺伊大学厄巴纳-香槟分校、中国人民大学等多家机构研究者合作完成。

蒸馏的免费午餐,真的好吃吗?

当下的大模型后训练(Post-training)pipeline 中,On-Policy Distillation(OPD)已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5,业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习(RL)稀疏的结果奖励,OPD 提供了密集的 Token 级别监督信号,看起来就像是一顿「免费的午餐」。

但如果你亲手跑过 OPD,你可能会遇到一个反直觉现象:为什么我换了一个更强的 Teacher,Student 的性能反而毫无提升,甚至出现了倒退

大模型时代的蒸馏,早就不是简单的「大力出奇迹」了。

清华大学团队最新的一项研究,系统性地解剖了 On-Policy 蒸馏的黑箱。这篇论文不仅揭示了决定蒸馏成败的两大先决条件,还深挖了 Token 级别的对齐机制,并给出了拯救失败蒸馏的实用配方。

举报
收藏 0
打赏 0
评论 0
香港楼市全面回暖 料住宅楼价今年升一成
5月14日,随着政府两年前全面撤销楼市“辣招”,内地买家、本地用家及投资者相继回归,加上租务市场强劲,香港住宅及写字楼市场正迎来显著复甦。星展香港经济研究部香港房地产业分析师丘卓文指,在住宅库存持续下降,发展商开始提价,预计今年楼价可升一成。据数据显示,目前市场上待售单位约16,000个,其中14,000个已落成,未推出单位仅5,000至6,000个,库存水平较上季持续下降。发展商定价策略亦明显转

0评论2026-05-140

阿里不装了:利润可以少赚,但AI和即时零售不能输
阿里这份财报,最刺眼的不是收入。是利润。2026财年第四季度,阿里收入2433.8亿元,同比增长3%;如果剔除高鑫零售、银泰等已处置业务影响,同口径增长是11%。这说明阿里的基本盘没有崩。但利润端就很难看了。这个季度,阿里经营亏损8.48亿元。去年同期,它还是经营利润284.65亿元。也就是说,阿里不是赚少了一点,而是直接从大赚变成了阶段性亏损。很多人看到这里,第一反应可能是:阿里不行了?我觉得没

0评论2026-05-140