当AI与推理深度融合：探索具有思考能力的过程奖励模型

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

当AI与推理深度融合：探索具有思考能力的过程奖励模型

作者：科技行者

2025-04-28 12:18

分享至：

我们现代的人工智能模型，尤其是大型语言模型（LLM），在解决复杂问题时往往需要逐步推理。想象一下，当你解决一道复杂数学题时，你不会直接写出答案，而是会一步一步地分析问题，检查每一步的正确性，最终得出结论。人工智能也需要这种能力。但问题是：如何确保AI的每一步推理都是正确的？

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-28 12:18 • 科技行者

在2025年4月发布的一项开创性研究中，来自密歇根大学、蒙特利尔AI研究所(Mila)、LG AI研究院和伊利诺伊大学厄巴纳-香槟分校的研究团队，由Muhammad Khalifa领衔，提出了一种名为"ThinkPRM"的创新人工智能模型。这项研究题为《Process Reward Models That Think》（具有思考能力的过程奖励模型），将于2025年公开发表，相关代码和模型将在GitHub上开源（https://github.com/mukhal/thinkprm）。

这就是"过程奖励模型"（Process Reward Models，简称PRM）的作用所在。它们就像是AI解题过程中的"检查官"，负责评估解决方案中每一步的正确性。传统上，训练这些检查官需要大量的人工标注数据，就像教师需要标注学生的每一步解答一样，这是非常耗时且昂贵的过程。

研究团队的创新之处在于开发了一种名为"ThinkPRM"的模型，它通过生成详细的"思考链"来验证解题步骤。与传统模型相比，这种方法有一个惊人的优势：它只需要极少量的训练数据就能达到甚至超越传统方法的效果。

传统检查官与会思考的检查官的区别

传统的过程奖励模型（我们可以称之为"机械式检查官"）只会给出一个简单的对错判断，就像一个只会批"√"或"×"的老师。它们需要查看成千上万个已标注的例子才能学会如何判断正确与错误。

而ThinkPRM（我们可以称之为"思考式检查官"）则完全不同。它不仅会判断答案的对错，还会解释"为什么"这个答案是对的或错的。就像一个优秀的老师不仅会告诉你答案错了，还会详细解释错在哪里，为什么错，以及正确的思路应该是什么。

更令人惊讶的是，这种"思考式检查官"只需要看很少的例子就能学会如何判断。具体来说，ThinkPRM仅使用了传统方法所需数据量的1%（约8000个标记的步骤），就达到了更好的性能。

ThinkPRM的工作原理

想象一下，当一个学生解答一道数学题时，ThinkPRM就像站在旁边的老师，一边观察学生的解答过程，一边在心里进行分析。这个"思考过程"被称为验证链（verification chain-of-thought）。

例如，当学生解一道关于求立体表面积的题目时，ThinkPRM会这样思考：

"好的，我看到这道题是关于从一个大的长方体中切除一个小立方体后计算剩余物体的表面积。原始长方体的尺寸是4×2×2，从一个角落切除了一个1×1×1的立方体。学生的解答分为四个步骤，我需要检查每一步是否正确。

第1步：学生计算了原始长方体的表面积。使用的公式是A_原始 = 2(lw + lh + wh)，这对长方体来说是正确的。代入尺寸l = 4, w = 2, h = 2，计算过程是： A_原始 = 2(4·2 + 4·2 + 2·2) = 2(8 + 8 + 4) = 2·20 = 40 这看起来是对的。所以，第1步是正确的。

第2步：这里，学生讨论了从角落切除1×1×1立方体的效果。他说切除立方体会去掉三个面，但同时会增加三个新面。每个面是1×1的，所以每个面的面积是1平方单位。等一下，这准确吗？当你从角落切除一个立方体时，你确实在移除材料，但这如何影响表面积呢？让我想象一下。想象一个长方体，从一个角落切除一个小立方体。这个立方体有三个面暴露在长方体的外部。当你移除立方体时，这三个面不再是表面积的一部分。然而，切除也创造了三个新的内部面，这些面现在成为表面积的一部分。因此，第2步是正确的。

...（继续分析第3步和第4步）"

这种详细的思考过程使ThinkPRM能够做出更准确的判断，而且能够解释其判断的理由，这对于理解和改进AI的推理能力至关重要。

研究成果的惊人之处

这项研究的成果令人印象深刻。在多项测试中，ThinkPRM不仅超越了传统的判断模型，还展示了出色的泛化能力。

首先，在名为ProcessBench的标准测试集上，ThinkPRM使用仅仅8000个过程标签（或1000个合成示例）就超越了使用约100倍更多数据训练的传统模型。这就像一个学生只看了几十道例题就能比看了几千道例题的学生做得更好！

其次，在MATH-500和2024年美国数学邀请赛（AIME）等具有挑战性的数学问题上，ThinkPRM也显示出了优越的性能。特别是在"最佳N选择"和"奖励引导搜索"等场景中，它比基准模型表现得更好。

更令人惊讶的是，尽管ThinkPRM仅在数学数据上进行了训练，但它在完全不同领域的测试中也表现出色。在GPQA-Diamond（一个博士级物理问题集）和LiveCodeBench（一个代码生成基准测试）的子集上，ThinkPRM分别以8%和4.5%的优势超越了传统验证器。

最后，在相同的计算预算下，ThinkPRM能够更有效地扩展验证计算。通过允许模型"思考更长时间"，它能够在ProcessBench的子集上以7.2%的优势超越基准模型。

为什么这项研究如此重要？

这项研究的意义不仅仅在于创造了一个更好的模型，而是揭示了一种全新的思路：通过让AI"思考"来改进其推理能力。

想象一下，当你面对一个复杂问题时，你不会立即给出答案，而是会思考、分析、论证，然后得出结论。ThinkPRM就是将这种人类思考的过程引入到AI中，使其不仅能给出答案，还能解释推理过程。

这种方法的优势是多方面的：