分享好友 健康资讯首页 健康资讯分类 切换频道

拒绝“熵崩塌”和“熵爆炸”,这项研究让大模型学会“精确探索”,推理成绩飙升

2025-10-13 20:0228036kr

大语言模型在RLVR训练中面临的“熵困境”,有解了!

2024年以来,以OpenAI o1、DeepSeek-R1、Kimi K1、Qwen3等为代表的大模型,在数学、代码和科学推理任务上取得了显著突破。这些进展很大程度上得益于一种名为RLVR (基于可验证奖励的强化学习)的方法。

该方法通过数学验证、单元测试等可自动判断对错的方式提供训练信号,替代了传统依赖人类评判的流程,使模型能够进行大规模、高效率的自我改进。

然而,RLVR在实践中始终面临“探索机制极易失衡”这一关键瓶颈——要么探索受限,陷入熵崩塌;要么探索失控,引发熵爆炸。

为突破这一瓶颈,来自上海人工智能实验室和复旦大学等机构的研究团队提出选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程的三重机制,实现了对探索行为的精准调控。

实验证明,该方法不仅在多项数学推理基准上取得了显著性能提升,更重要的是,它让模型的探索过程变得更加高效与可控。

下面详细来看——

核心困境:探索的“两难陷阱”

在RLVR训练中,研究人员期望模型能够持续探索多样化的解题路径,以避免过早陷入局部最优。

一个自然的想法是:引入熵正则化(entropy regularization)。

这是强化学习中鼓励探索的经典手段。其核心思想很简单:在优化目标中加入一项,鼓励模型在每一步生成时保持一定的“不确定性”,不要过早把概率全压在少数几个词上。

具体来说,就是计算每一步输出分布的熵(衡量“混乱程度”),再把整条推理轨迹的平均熵加到训练目标里,用一个系数

举报
收藏 0
打赏 0
评论 0
美国百年太妃糖易手,Roca乐家被全资收购
作者 | 钟艺璇编辑 | 乔芊36氪获悉,BHM集团已完成对美国百年糖巧制造商Brown & Haley公司的全资收购,Brown & Haley是一家总部位于美国,成立于1912年的百年糖巧制造商,旗下拥有Almond ROCA、Mountain等糖巧品牌。交易于2026年4月17日正式完成交割。本次收购不会对Brown & Haley位于塔科马的总部生产基地造成影响,其原有生产运营将保持稳定。

0评论2026-04-234

风波中的基本面:东方通的现金底牌与产业惯性
去年,东方通因2019至2022年连续四年财务造假及欺诈发行被证监会立案调查,并在今年1月退市。这对一家以“国产中间件第一股”身份立足的信创企业而言,冲击是巨大的。但是,退市不等于经营停摆。公开信息显示,东方通账面拥有约17亿元货币资金与交易性金融资产,资产负债率仅11.09%。这种财务状况在退市企业中并不多见,因为多数往往伴随高额债务、资产查封和现金流枯竭。与此同时,东方通中间件主业有三十年的技

0评论2026-04-231

中东冲突,怎么把避孕套价格打上去了?
全球最大避孕套制造商,正在准备涨价。4月22日,马来西亚企业康乐(Karex Bhd)首席执行官Goh Miah Kiat表示,公司计划将产品价格上调20%至30%;如果中东局势持续扰动供应链,后续不排除进一步提价。 这条消息的反常之处在于,一个高度日常、几乎不被认为会被地缘政治直接击中的消费品,突然被卷入了中东冲突引发的能源与航运链条。它背后不是简单的消费品涨价,而是三重变化同时显现:中东局势的

0评论2026-04-230