分享好友 健康资讯首页 健康资讯分类 切换频道

MIT新研究:大模型加噪声就能替代GRPO/PPO调参

2026-03-16 16:175036kr

只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。

MIT新论文向大家都在头疼的“调参”开炮了!

为了将预训练模型变成某一任务领域专家,无数人夜以继日,纷纷掉发。

然而现在,一对来自MIT的师生用一篇新论文告诉大家:

不用复杂调参,随机改改参数再整合结果,模型效果就能和GRPO/PPO等专业调参方法差不多

在这篇论文诞生前,我们熟悉的论调是:专家模型是训练出来的。

甭管是靠梯度下降还是强化学习,都得一步一个脚印慢慢优化参数。

但这篇论文却揭示,专家模型早就存在,只是藏在权重空间里,预训练模型的真实形态be like:

专家模型像灌木一样密密麻麻长在周围。(即论文提到的“Neural Thickets(神经丛林)”现象)

就是说,只要在预训练权重附近稍微扰动一下参数,就可能“碰到”一个新的任务专家。

基于此,作者进一步提出了一种非常简单的方法RandOpt

只需向大语言模型添加高斯噪声(单步操作——无需迭代、无需学习率、无需梯度),然后将它们集成起来,就能在数学推理、编程、写作和化学任务上取得与标准GRPO/PPO相当甚至更优的性能。

而且作者发现,模型越大,效果越好

预训练模型周围藏着“神经丛林”

简单来说,论文给出了一个反直觉的结论——

预训练模型周围早就存在大量“专家模型”

在权重空间里,能解决不同任务的模型并不是零散分布的,而是密集地“长”在预训练权重附近。

所以理论上,并不一定需要复杂的训练过程,只要在这片区域里多试几次,就有机会找到表现不错的任务专家。

听到这里,估计很多人的反应是:啊这,难道这不就是靠猜、靠试吗?

没错,还真就是靠猜。

一直以来,随机猜测都被认为是不够靠谱的机器学习算法,比如随机猜出ChatGPT的参数向量,概率几乎为零。

但论文发现,到了预训练模型这里情况就变了——

模型权重周围,能提升任务表现的参数扰动变得很密集,所以随机猜测也能找到有效改进方案

在论文中,作者对预训练的Qwen2.5模型(0.5B~32B)施加了1000次随机权重扰动,并通过随机投影将其投影到二维平面。

结果发现,模型越大,周围“高精度区域”越密集;小模型扰动后大多性能下降(蓝色区域),而大模型周围随处可见性能提升的“专家”(红色区域)。

换言之,模型越大,这种扰动效果越明显、越起作用。

而且需要注意,这些随机扰动最后带来的不是“全能选手”,而是“偏科战神”

实验显示,没有任何一个随机改动能让模型在所有任务上都实现提升。例如,某一个改动能让模型数学算得更准,但写代码会变菜;另一个改动能让模型化学题做得好,但写故事不行。

并且同样的,模型越大,这种偏科越明显。

至于模型为啥会出现这种“周围偷偷藏一堆高手”的现象,论文也通过一个极简实验给出了初步解释。

他们选用了结构最简单、最容易看懂的1D信号自回归模型,让其学习预测一段时间序列信号的下一个数值。

结果出现了三种情况:

无预训练:不论怎么添加扰动,模型周围都完全找不到可以提升性能的改动,随机猜测无意义;

单一任务预训练:模型只能把经过预训练的任务做到极致,参数周围不会冒出其他优质改动;

多任务混合预训练:模型参数周围瞬间布满能提升性能的扰动,随便加个小改动,就能解锁擅长某类信号预测的专项能力,成功复刻“神经丛林”的密集状态。

由此论文得出核心结论,“神经丛林”现象的诞生,关键就在于大模型的海量多任务预训练。

换言之,正因为底子够足,所以周围很容易找到可以随机扰动的“专家”。

启发了RandOpt算法

而上述研究,也启发论文作者提出了一种新的算法,RandOpt

RandOpt的运行机制可以分成简单两步:随机找高手+组队投票。

“随机找高手”就和前面提到的类似,给预训练模型的参数随机做N次扰动,然后就会得到N个“新版本模型”。

再用少量验证数据简单测一测这些模型,我们就能找出其中表现最好的K个。

拿到这K个模型后,接下来进入实战推理阶段——

让这K个“高手”各自回答问题,最后按“少数服从多数”的原则决定最终结果。

整个过程有两个值得注意的点:

一是在添加扰动sigmas(即噪声强度)时,RandOpt会尝试不同强度的噪声(比如小扰动、中扰动、大扰动),以确保能找到各种类型的专家。

二是这N个模型可以同时在多块GPU上运行,速度很快。

当然了,论文也试着用不同模型测试了这一新算法。

初步结果显示,对于纯语言大模型,在数学、编程、写故事、化学等任务上,RandOpt的准确率和现在主流的专业调参方法(PPO/GRPO/ES)差不多,有的甚至更高。

而对视觉-语言模型来说, RandOpt的提升作用则更加明显,准确率直接从56.6%涨到69.0%。

与此同时,除了语言和视觉-语言模型,论文也在图像扩散模型中观察到了类似的“神经丛林”现象——

参数空间的某些特定区域会倾向于生成具有特定色调或视觉风格的图像。

以及论文作者提醒,RandOp在以下情况下效果更佳:

随机改的次数越多,挑的“高手”越厉害。

模型越大,RandOpt效果越好。

论文作者介绍

最后介绍一下这项研究的两位作者。

Yulu Gan,北大工程硕士,目前是MIT计算机科学与人工智能实验室(CSAIL)的博士生。

此前曾在微软实习,研究方向主要为多模态大语言模型、推理、多智能体系统以及AI for science。

另一位作者Phillip Isola是他的导师,现任MIT电子工程与计算机科学系副教授。

Phillip Isola在加州大学伯克利分校做完博士后研究后,曾在2017年以技术人员的身份加入OpenAI。

不过干了不到一年,后面又去谷歌当了一年访问学者。

再然后就是回到读研时的母校MIT,任教至今。

Phillip Isola的主要研究方向为AI基础理论和计算机视觉,曾参与提出pix2pix、LPIPS感知损失等经典工作,谷歌学术论文被引量超10w+。

通过本次研究,师徒二人想重新告诉大家:

是时候重新认识预训练模型了,它不只是“一个能用的模型”,更是“一堆高手的集合”。

只要预训练做得足够好,后续想让模型干好具体任务,根本不用复杂调参,像RandOpt这样随机改改、组队投票就行,省时间省算力。

不过缺点也很明显,大致呢有下面这几个:

依赖优质预训练,这是一个基本大前提。

模型只能基于预训练数据找改进,无法让模型学会新技能。

K越大效果越好,但推理时要跑K个模型,虽然蒸馏能缓解,但蒸馏不适用于所有场景 (比如生成式任务) 。

只适合有明确答案的任务,像写故事、设计分子这种结构化生成任务,还需要进一步改进集成方式。

目前相关论文和代码已公开,感兴趣可以继续关注。

论文:https://arxiv.org/pdf/2603.12228

GitHub:https://github.com/sunrainyg/RandOpt

项目主页:https://thickets.mit.edu/

参考链接:

[1]https://x.com/yule_gan/status/2032482266773926281?s=20

[2]https://www.emergentmind.com/papers/2603.12228

本文来自微信公众号“量子位”,作者:一水,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
抛弃“不作恶”,谷歌和五角大楼签订协议、承接美军机密AI业务,超700名员工联名反对
谷歌,这个曾以“不作恶”为行为准则的科技巨头,如今正深陷一场前所未有的内部风暴。28日,美国消费者新闻与商业频道(CNBC)援引科技媒体“The Information”报道,谷歌已与美国国防部签署协议,承接机密人工智能业务。一位知情人士透露,美国国防部正将谷歌的最新模型用于机密项目。这个项目遭到了谷歌员工的强烈反对。CNBC报道称,本周,700余名谷歌员工联名致信公司首席执行官桑达尔・皮查伊,要

0评论2026-04-2912

一季度净利环比暴增27倍,剑桥科技股价一年涨三倍,险资与社保基金加仓,股东高管减持
4月27日盘后,光模块概念大牛股剑桥科技(603083.SH、06166.HK)发布2026年一季报,公司一季度营收同比增长43.98%至12.87亿元;归母净利润同比增长276.44%至1.18亿元。从环比来看,剑桥科技今年第一季度营收环比下滑约12%;净利润环比增长2722.62%,而2025年第四季度归母净利润环比下跌近97%。作为光模块大牛股,剑桥科技H股曾在11个交易日完成了翻倍,4月2

0评论2026-04-2912

32美元一辆车,Tesla为什么不认?(下)
本案真正值得关注的,不只是Tesla能不能把Avanci平台价格拉进英国法院。更重要的是,如果法院最终认为这类平台许可条款不能进入FRAND审查,那么未来SEP权利人通过专利池、平台、集体许可安排对外收费时,实施者还能不能有效挑战其许可条件?这才是本案超出Tesla、InterDigital和Avanci三方争议的地方。从表面看,Avanci提供的是一种提高交易效率的许可方案。大量SEP权利人把专

0评论2026-04-2914

“保本”又“看病”?监管部门约谈健康险公司,中介平台下架热销“医疗金”产品
早在前两年,市场上就出现了带有一般医疗保险金账户的产品。随着利率下行以及市场需求增长,这类产品的资产增值属性被放大,经过长期现金价值积累,配合可以累积的医疗保险金,使得产品有着不输理财型产品的收益率,这也是引起监管部门关注的原因之一。2026年4月初,当保险经纪人小李带着客户在同仁堂线下门店参加体验活动时,他可能不会想到,体验活动中的重磅产品“岁月长安·特定疾病保险(互联网版)”即将面临下架。4月

0评论2026-04-298