强化学习真的能提升LLM的推理能力超越基础模型吗？清华大学LeapLab团队的挑战性发现

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

强化学习真的能提升LLM的推理能力超越基础模型吗？清华大学LeapLab团队的挑战性发现

作者：业界供稿

2025-04-21 15:55

分享至：

想象一下，如果你有一个聪明的朋友，你可以通过不断鼓励他解决越来越难的数学题来让他变得更聪明。这基本上就是研究人员一直以来对RLVR的理解——通过奖励机制让语言模型不断自我提升，最终超越它原本的能力范围。这种方法在像OpenAI-o1、DeepSeek-R1和Kimi-1.5等顶尖模型的开发中被广泛应用，帮助它们在数学和编程等复杂任务上取得了显著进步。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-21 15:55 • 业界供稿

2025年4月18日，清华大学LeapLab实验室的杨悦、陈志琦、陆瑞、赵安德、王兆楷等研究人员在arXiv上发布了一项挑战传统认知的研究论文，题为《强化学习真的能提升LLM的推理能力超越基础模型吗？》（arXiv:2504.13837v1）。这项研究对大型语言模型(LLM)领域广泛接受的一个假设提出了质疑：使用可验证奖励的强化学习（RLVR）是否真能让模型获得基础模型所不具备的推理能力？

一、研究背景：为什么要关注RLVR？

与传统的需要人工标注的指令微调方法不同，RLVR使用简单、自动计算的奖励信号（比如解答是否正确）来优化模型。业界普遍认为，这种方式能让模型开发出全新的推理策略，比如枚举、自我反思和迭代优化，这些能力在基础模型中被认为是不存在的。理论上，这应该让模型能够持续自我进化，解决越来越复杂的问题。

二、研究方法：模型真正的推理能力边界在哪里？

但清华大学的研究团队对这一假设提出了质疑。他们提出了一个引人深思的问题：如果我们给基础模型足够多的尝试机会，它们是否也能解决被认为只有经过RLVR训练的模型才能解决的问题？

为了回答这个问题，研究团队使用了一个看似简单却非常巧妙的方法——pass@k评估指标。这个指标衡量的是在k次尝试中至少有一次成功解决问题的概率。传统评估通常关注模型在一次尝试（pass@1）或少数几次尝试中的表现，但这可能低估了模型的真实潜力。毕竟，即使是人类解决困难问题时，也常常需要多次尝试不同的方法。

研究团队系统地比较了基础模型和RLVR训练模型在各种k值（从1到256甚至更高）下的性能。他们的测试涵盖了多个模型家族（包括Qwen-2.5和LLaMA-3.1系列）、多种模型大小（7B到32B参数）、多种强化学习算法，以及数学、编程和视觉推理等多种任务类型。

三、惊人发现：基础模型已经具备了强大的推理能力

研究结果令人惊讶。就像一个看似笨拙的学生在给予足够尝试机会后，竟然解出了最难的数学题一样，研究团队发现基础模型在给予足够多的尝试机会后，不仅能赶上RLVR模型的表现，甚至能够超越它们。

具体来说，当k值较小时（例如k=1，相当于平均准确率），RLVR模型确实表现更好，这符合之前研究的观察。但随着k值增加到几十或几百，基础模型不仅能够追赶上RLVR模型，在k值足够大时甚至能够超越它们。例如，在Minerva测试集上，使用32B参数的模型，基础模型在k=128时的表现比RLVR模型高出约9%，意味着它能解决验证集中约9%更多的问题。

研究者们手动检查了基础模型生成的正确答案，发现大多数问题至少有一个正确的推理链（CoT）。这表明基础模型确实有能力生成有效的推理路径，只是需要多次尝试才能找到正确答案。

四、深入分析：强化学习做了什么？

为了理解这一现象，研究团队进行了更深入的分析。他们使用困惑度（perplexity）指标来衡量模型对特定回答的预测概率。结果显示，RLVR模型生成的推理路径在基础模型的输出分布中已经存在，且具有相当高的概率密度。这意味着这些推理模式并非RLVR训练带来的新能力，而是基础模型本已具备的能力。

基于这些发现，研究团队得出了三个关键结论：

RLVR并没有带来全新的推理能力：所有在RLVR模型中观察到的推理路径在基础模型中已经存在。就像一个已经熟悉各种烹饪技巧的厨师，只是需要有人告诉他哪些技巧最适合做特定菜肴一样，RLVR只是告诉模型哪些已有的推理路径更可能获得奖励。

RLVR提高了采样效率：RLVR训练通过偏向有奖励的推理路径，增加了模型一次性采样到正确答案的概率。这就像是教厨师更快找到合适的调料组合，而不是教他新的烹饪技巧。

RLVR缩小了推理边界：提高效率的代价是降低了探索能力。随着RLVR训练的进行，模型在大k值下的性能反而下降，表明模型的推理上限反而降低了。这就像一个过于专注于特定烹饪技巧的厨师，可能在制作标准菜肴时更有效率，但在面对新的烹饪挑战时却失去了创造力。

研究者们将这种效应形象地比喻为"更高效的采样"与"推理能力范围缩小"之间的权衡。RLVR训练让模型在某些问题上表现更好（更高的pass@1），但代价是在其他问题上失去了解决能力，导致整体可解决问题的覆盖率下降（较低的pass@256）。

五、更多发现：强化学习算法与蒸馏的对比

研究团队还发现，不同的强化学习算法（如PPO、GRPO、Reinforce++等）在性能上略有差异，但本质上没有显著区别。他们定义了"采样效率差距"（?SE）来量化RL算法在提高采样效率方面的有效性，发现所有方法都距离最优表现有较大差距。

有趣的是，研究者们还比较了RLVR和蒸馏（distillation）这两种提升模型能力的方法，发现它们存在根本性差异。蒸馏涉及从更强大的模型（如DeepSeek-R1）中学习，可以真正引入基础模型中不存在的新知识，从而扩展模型的推理边界。相比之下，RLVR只是重新分配了基础模型已有知识的权重，提高了采样效率但没有扩展能力边界。

这就像是两种不同的学习方式：RLVR相当于反复练习已知的解题方法直到熟练掌握，而蒸馏则相当于向更有经验的老师学习全新的解题策略。

六、深层次讨论：为什么RLVR无法超越基础模型？

为什么RLVR无法帮助模型获得超越基础能力的推理能力？研究者们认为这与语言模型的本质和RLVR的工作机制有关。

传统的强化学习（如AlphaGo Zero和DQN系列）可以在围棋和Atari游戏等环境中不断提升性能而没有明确的上限。但RLVR和传统强化学习有两个关键区别：

巨大的动作空间：语言模型的动作空间（可能生成的文本序列）比围棋或Atari游戏大得多，这使得有效探索奖励信号变得几乎不可能，除非从预训练的基础模型开始。

预训练先验：RLVR从预训练的基础模型开始，这些模型已经具有生成合理回答的能力。这使得探索过程更容易，但也限制了模型能够探索的空间。

这种预训练先验就像一把双刃剑。它指导模型生成合理的回答，但也限制了模型探索超出先验范围的新推理模式。由于RLVR算法的目标是最大化已获得奖励的回答的似然度，同时最小化未获得奖励的回答的似然度，训练后的模型倾向于生成已经存在于先验中的回答，将其推理能力限制在基础模型的边界内。

七、研究意义与未来方向

这项研究对我们理解大型语言模型的推理能力和强化学习在提升这些能力方面的作用有重要启示。

首先，它揭示了基础模型中已经存在的强大推理能力，这些能力在标准评估中可能被低估。这就像发现一个学生实际上比考试成绩显示的更聪明，只是需要更多时间来思考问题。

其次，它表明RLVR虽然可以提高模型的采样效率，但可能不是突破模型推理能力上限的最佳途径。这提示我们可能需要探索其他方法，如蒸馏或全新的训练范式，来真正提升模型的推理能力边界。

最后，这项研究提出了一个挑战：如何开发能够在保持采样效率的同时扩展推理边界的新方法？这可能需要超越纯粹的RLVR框架，开发能够探索超出预训练先验范围的新方法。