分享好友 健康资讯首页 健康资讯分类 切换频道

港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

2025-10-31 17:0110036kr

论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。

在大语言模型(LLM)的数学推理任务中,基于可验证奖励的强化学习(RLVR)已成为提升模型推理能力的重要手段。然而,主流方法如 PPO、GRPO 等仍然依赖为传统 RL 场景设计的策略梯度更新的学习目标,本质上可以被策略迭代(policy improvement)刻画,即包含策略评估(policy  evaluation)与策略改进(policy improvement)的不断循环的过程。这些方法常常面临训练不稳定、多样性丧失、调参复杂等问题。

那么对于 LLM 推理任务,有没有一种更简洁、更本质的解法?

香港科技大学联合阶跃以及快手等团队提出了一个令人惊讶的答案:只需对一个完全随机的策略进行价值评估,就足以找到最优推理路径。他们由此提出 ROVER(Random Policy Valuation for Diverse Reasoning)以极简思路颠覆传统范式,跳过传统强化学习推理的策略迭代(policy improvement)循环。

ROVER 不仅在多项数学推理基准上显著超越现有方法,更以「极简主义」实现高质量与高多样性兼备的推理生成。

目前,论文、代码以及模型均已开源。

在 AIME24、AIME25 以及 HMMT25 等高难度任务上,ROVER 相比于传统方法大幅提高了 pass@1(+8.2)和 pass@256(+16.8),并且在多种多样性指标上均达到了新的高度(+17.6%)。并且 ROVER 不需要额外维护价值网络(value network),也不需要维护基模型(reference model)计算 KL,从而更加轻量。

传统强化学习的「痛点困局」:迭代复杂,代价高昂

在 LLM 推理优化中,主流方法(如 PPO、GRPO)可以被广义策略迭代(Generalized Policy Iteration)刻画 —— 反复执行「策略评估(计算当前策略价值,如估计优势函数 advantage)」与「策略改进(更新策略 [数学公式])」。尽管这些方法能提升性能,却存在核心痛点:

ROVER 的「极简革命」:随机策略的 Q 值足以指导最优决策

研究团队首先指出,大语言模型推理任务可被建模为有限时域马尔可夫决策过程(MDP),具备以下关键特性:

这与传统 RL 任务(如 Atari 游戏、机器人控制)中常见的随机性状态转移、循环图结构、中间奖励等复杂设定截然不同。

「我们是否在用过于复杂的工具,解决一个结构上更简单的问题?」—— 这成为 ROVER 研究的出发点。

在这一简单结构中,研究团队证明了一个颠覆性结论:均匀随机策略的 Q 值,直接指向最优策略。

设环境为有限时域、树形状态空间、二元奖励的 MDP,

 为均匀随机策略(每个动作选择概率为 1/|A|),

 为其 Q 值。则贪心策略(如下所示)就是最优策略!

证明直观:树形结构中,若某动作

的子树存在正确解答,则 

;反之 

。因此,贪心选择

值最大的动作,必然导向包含正确解答的路径。

因此,策略学习过程可以简化为下图形式。

ROVER 算法流程:三步极简,免去迭代

(1)Q 值估计:

ROVER 通过广义贝尔曼方程计算均匀随机策略下状态 - 动作对的

值,因此方程用均值算子表达:

 为奖励,s' 为执行动作 a 后的新状态,V 为动作空间。

(2)策略构建:

尽管贪心选择可保证最优性,却可能丧失多样性。为此,ROVER 引入基于

值的 softmax 采样:

其中

是温度系数,控制探索程度。这种方式既保留了高价值路径的优先级,又能探索多条有效推理路线,显著提升 pass@k 表现。

(3)训练目标:

在实际实现中,ROVER 还引入了:

函数内化于 LLM 参数,无需训练额外价值网络:

这种「自监督」式参数化,让模型学习「相对改进」而非「绝对价值」,既减少计算量,又提升稳定性。

组内奖励中心化,降低方差,即 

。避免高方差奖励干扰

值学习。同时,将中心化奖励「广播」到生成的全序列 token,实现细粒度信用分配。

ROVER 的损失函数可以表示为

算法伪代码如下

实验结果:全面领先,多样性显著提升

研究团队在数学推理基准(AIME24/25、HMMT25、AMC、MATH 等)、Countdown 任务以及 O.O.D. 任务 GPQA-diamond 上验证 ROVER,覆盖 Qwen3-8B/4B、DeepSeek-R1-1.5B 等模型,结果堪称「降维打击」:

1. 数学竞赛任务:pass@1 与 pass@k 双突破

在 Qwen3-8B-Base 模型上,ROVER 的 pass@1 在 AIME24 达 30.6(比最佳基线 DAPO 高 19.1 分);在 HMMT25 任务中,pass@1 从基线最高 7.1 跃升至 14.6(提升 106%)。

更关键的是 pass@k 性能:传统 RL 方法(如 GRPO)的 pass@k 随 k 增大迅速饱和,而ROVER 在 pass@256 上也能与基线拉开明显差距,展现持续探索能力。

2. 策略多样性:比基线高 17.6%,覆盖更多解题路径

采用 LLM-as-Judge 方法评判所有方法生成的正确答案的推理内容多样性,ROVER 训练的策略多样性比基线平均提升 +17.6%,在 AIME24 上发现更多独特解题路径。在其他多样性指标如余弦距离(cosine distance)与利用率(utility)等,ROVER 在不同温度下仍表现出一致的高多样性。

受益于多样性的提升,ROVER 在 GPQA-diamond 等与数学无关的 O.O.D 任务上也表现最佳。

3. 案例展示:ROVER 发现全新解法

通过「策略数量」指标(同一问题生成的不同推理路径数)评估, ROVER 在各个任务上均能发现更多的解题策略。如下图所示,在「2x3 网格数字排列」问题中,基模型与 GRPO 均仅发现 2 种策略,而 ROVER 可以发现 4 种(包括「隔板法」「容斥原理」等不同数学工具)。

启示与展望

ROVER 的提出,不仅是一次技术突破,更是一次方法论的反思:在某些结构化任务中,简化而非复杂化,才是推进性能的关键。「Simplicity is the ultimate sophistication.」 —— ROVER 这一基于简单随机策略的新方法,诠释了达芬奇这句名言在 AI 时代的新内涵。

更多方法细节与实验分析请见原论文。

本文来自微信公众号“机器之心”,36氪经授权发布。

举报
收藏 0
打赏 0
评论 0
贾跃亭,到账230亿
贾跃亭,又有新的融资到账。近日,法拉第未来宣布获得美国某机构投资者4500万美元新融资,加上这笔钱,FF成立至今累计融资已达约32.1亿美元,折合人民币230亿元。就在融资落地不到一个月前,困扰FF长达四年的SEC调查正式宣告终结,且未对公司或任何相关高管采取任何执法行动。监管阴影散去,主流机构投资者重新愿意坐下来谈,这是FF近年来最接近"正常公司"状态的一个时刻。从2014年在洛杉矶注册公司、喊

0评论2026-04-264

欧莱雅BRANDSTORM 2026中国总决赛落幕,AI成美妆创新核心议题|最前线
欧莱雅全球青年创新策划大赛BRANDSTORM 2026中国总决赛于4月24日在上海收官。本届赛事聚焦奢华香氛领域,中国赛区吸引超72000人报名,经多轮选拔后六支队伍进入总决赛。最终,UNIBLOCK、SOS和Move with Scent三支队伍分获冠亚季军,将代表中国赛区赴巴黎参加全球总决赛。BRANDSTORM大赛已举办34年,覆盖全球40多个国家和地区,累计参与人数超37万。中国赛区自2

0评论2026-04-2610

业绩“双降”!360亿“血王”,遭遇至暗时刻
A股“血王”正经历至暗时刻。有“血王”之称的上海莱士近日发布2025年年报,这份财报为这家血液制品龙头企业的“黄金时代”画上了沉重的句号。财报显示,上海莱士2025年实现营业收入73.48亿元,同比下降10.13%;归母净利润15.77亿元,同比大幅下滑28.1%;扣除非经常性损益净利润15.60亿元,同比下降24.25%。这是上海莱士自2019年以来首次出现营收与净利润“双降”,业绩降幅远超市场

0评论2026-04-265