2025年4月18日,清华大学LeapLab实验室的杨悦、陈志琦、陆瑞、赵安德、王兆楷等研究人员在arXiv上发布了一项挑战传统认知的研究论文,题为《强化学习真的能提升LLM的推理能力超越基础模型吗?》(arXiv:2504.13837v1)。这项研究对大型语言模型(LLM)领域广泛接受的一个假设提出了质疑:使用可验证奖励的强化学习(RLVR)是否真能让模型获得基础模型所不具备的推理能力?
一、研究背景:为什么要关注RLVR?
想象一下,如果你有一个聪明的朋友,你可以通过不断鼓励他解决越来越难的数学题来让他变得更聪明。这基本上就是研究人员一直以来对RLVR的理解——通过奖励机制让语言模型不断自我提升,最终超越它原本的能力范围。这种方法在像OpenAI-o1、DeepSeek-R1和Kimi-1.5等顶尖模型的开发中被广泛应用,帮助它们在数学和编程等复杂任务上取得了显著进步。
与传统的需要人工标注的指令微调方法不同,RLVR使用简单、自动计算的奖励信号(比如解答是否正确)来优化模型。业界普遍认为,这种方式能让模型开发出全新的推理策略,比如枚举、自我反思和迭代优化,这些能力在基础模型中被认为是不存在的。理论上,这应该让模型能够持续自我进化,解决越来越复杂的问题。
二、研究方法:模型真正的推理能力边界在哪里?
但清华大学的研究团队对这一假设提出了质疑。他们提出了一个引人深思的问题:如果我们给基础模型足够多的尝试机会,它们是否也能解决被认为只有经过RLVR训练的模型才能解决的问题?
为了回答这个问题,研究团队使用了一个看似简单却非常巧妙的方法——pass@k评估指标。这个指标衡量的是在k次尝试中至少有一次成功解决问题的概率。传统评估通常关注模型在一次尝试(pass@1)或少数几次尝试中的表现,但这可能低估了模型的真实潜力。毕竟,即使是人类解决困难问题时,也常常需要多次尝试不同的方法。
研究团队系统地比较了基础模型和RLVR训练模型在各种k值(从1到256甚至更高)下的性能。他们的测试涵盖了多个模型家族(包括Qwen-2.5和LLaMA-3.1系列)、多种模型大小(7B到32B参数)、多种强化学习算法,以及数学、编程和视觉推理等多种任务类型。
三、惊人发现:基础模型已经具备了强大的推理能力
研究结果令人惊讶。就像一个看似笨拙的学生在给予足够尝试机会后,竟然解出了最难的数学题一样,研究团队发现基础模型在给予足够多的尝试机会后,不仅能赶上RLVR模型的表现,甚至能够超越它们。
具体来说,当k值较小时(例如k=1,相当于平均准确率),RLVR模型确实表现更好,这符合之前研究的观察。但随着k值增加到几十或几百,基础模型不仅能够追赶上RLVR模型,在k值足够大时甚至能够超越它们。例如,在Minerva测试集上,使用32B参数的模型,基础模型在k=128时的表现比RLVR模型高出约9%,意味着它能解决验证集中约9%更多的问题。
研究者们手动检查了基础模型生成的正确答案,发现大多数问题至少有一个正确的推理链(CoT)。这表明基础模型确实有能力生成有效的推理路径,只是需要多次尝试才能找到正确答案。
四、深入分析:强化学习做了什么?
为了理解这一现象,研究团队进行了更深入的分析。他们使用困惑度(perplexity)指标来衡量模型对特定回答的预测概率。结果显示,RLVR模型生成的推理路径在基础模型的输出分布中已经存在,且具有相当高的概率密度。这意味着这些推理模式并非RLVR训练带来的新能力,而是基础模型本已具备的能力。
基于这些发现,研究团队得出了三个关键结论:
RLVR并没有带来全新的推理能力:所有在RLVR模型中观察到的推理路径在基础模型中已经存在。就像一个已经熟悉各种烹饪技巧的厨师,只是需要有人告诉他哪些技巧最适合做特定菜肴一样,RLVR只是告诉模型哪些已有的推理路径更可能获得奖励。
RLVR提高了采样效率:RLVR训练通过偏向有奖励的推理路径,增加了模型一次性采样到正确答案的概率。这就像是教厨师更快找到合适的调料组合,而不是教他新的烹饪技巧。
RLVR缩小了推理边界:提高效率的代价是降低了探索能力。随着RLVR训练的进行,模型在大k值下的性能反而下降,表明模型的推理上限反而降低了。这就像一个过于专注于特定烹饪技巧的厨师,可能在制作标准菜肴时更有效率,但在面对新的烹饪挑战时却失去了创造力。
研究者们将这种效应形象地比喻为"更高效的采样"与"推理能力范围缩小"之间的权衡。RLVR训练让模型在某些问题上表现更好(更高的pass@1),但代价是在其他问题上失去了解决能力,导致整体可解决问题的覆盖率下降(较低的pass@256)。
五、更多发现:强化学习算法与蒸馏的对比
研究团队还发现,不同的强化学习算法(如PPO、GRPO、Reinforce++等)在性能上略有差异,但本质上没有显著区别。他们定义了"采样效率差距"(?SE)来量化RL算法在提高采样效率方面的有效性,发现所有方法都距离最优表现有较大差距。
有趣的是,研究者们还比较了RLVR和蒸馏(distillation)这两种提升模型能力的方法,发现它们存在根本性差异。蒸馏涉及从更强大的模型(如DeepSeek-R1)中学习,可以真正引入基础模型中不存在的新知识,从而扩展模型的推理边界。相比之下,RLVR只是重新分配了基础模型已有知识的权重,提高了采样效率但没有扩展能力边界。
这就像是两种不同的学习方式:RLVR相当于反复练习已知的解题方法直到熟练掌握,而蒸馏则相当于向更有经验的老师学习全新的解题策略。
六、深层次讨论:为什么RLVR无法超越基础模型?
为什么RLVR无法帮助模型获得超越基础能力的推理能力?研究者们认为这与语言模型的本质和RLVR的工作机制有关。
传统的强化学习(如AlphaGo Zero和DQN系列)可以在围棋和Atari游戏等环境中不断提升性能而没有明确的上限。但RLVR和传统强化学习有两个关键区别:
巨大的动作空间:语言模型的动作空间(可能生成的文本序列)比围棋或Atari游戏大得多,这使得有效探索奖励信号变得几乎不可能,除非从预训练的基础模型开始。
预训练先验:RLVR从预训练的基础模型开始,这些模型已经具有生成合理回答的能力。这使得探索过程更容易,但也限制了模型能够探索的空间。
这种预训练先验就像一把双刃剑。它指导模型生成合理的回答,但也限制了模型探索超出先验范围的新推理模式。由于RLVR算法的目标是最大化已获得奖励的回答的似然度,同时最小化未获得奖励的回答的似然度,训练后的模型倾向于生成已经存在于先验中的回答,将其推理能力限制在基础模型的边界内。
七、研究意义与未来方向
这项研究对我们理解大型语言模型的推理能力和强化学习在提升这些能力方面的作用有重要启示。
首先,它揭示了基础模型中已经存在的强大推理能力,这些能力在标准评估中可能被低估。这就像发现一个学生实际上比考试成绩显示的更聪明,只是需要更多时间来思考问题。
其次,它表明RLVR虽然可以提高模型的采样效率,但可能不是突破模型推理能力上限的最佳途径。这提示我们可能需要探索其他方法,如蒸馏或全新的训练范式,来真正提升模型的推理能力边界。
最后,这项研究提出了一个挑战:如何开发能够在保持采样效率的同时扩展推理边界的新方法?这可能需要超越纯粹的RLVR框架,开发能够探索超出预训练先验范围的新方法。
结论
归根结底,清华大学LeapLab团队的这项研究挑战了我们对RLVR在提升大型语言模型推理能力方面作用的理解。RLVR确实能提高模型一次性回答正确的概率,但它并没有让模型获得全新的推理能力,反而可能减少了模型在某些问题上的解决能力。
这就像是帮助一位已经掌握各种烹饪技巧的厨师更快地找到最适合特定菜肴的技巧组合,而不是教会他全新的烹饪方法。这种效率的提升是有价值的,但如果我们的目标是让厨师学会全新的烹饪技巧,可能需要寻找其他的教学方法。
对于普通读者来说,这意味着当你听到某个新的语言模型使用RLVR技术获得了"突破性的推理能力"时,可能需要保持一定的怀疑态度。这种提升很可能是采样效率的提高,而不是根本性的能力突破。真正的能力突破可能需要全新的方法,或者至少需要将RLVR与其他技术如蒸馏相结合。
有兴趣深入了解这一研究的读者可以访问项目主页:https://limit-of-RLVR.github.io 或查阅原论文(arXiv:2504.13837v1)获取更多详细信息。
好文章,需要你的鼓励
想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。
想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。
想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。
想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。