微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 "思考操纵":用外部思考让大型推理模型更高效

"思考操纵":用外部思考让大型推理模型更高效

2025-04-22 16:43
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-22 16:43 科技行者

这项由香港科技大学(广州)的刘昱、郑静怡、孙震、彭子凡、董文涵和蚂蚁集团的沙泽阳、崔世文、王卫强以及香港科技大学(广州)的何欣蕾领导的研究发表于2025年4月18日,题为《思考操纵:外部思考可以提高大型推理模型的效率》(Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models)。论文发布在arXiv预印本平台,编号为arXiv:2504.13626v1。

一、研究背景:推理模型的困境与挑战

想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

这正是香港科技大学(广州)和蚂蚁集团的研究团队所关注的问题。近年来,通过强化学习训练的大型推理模型(Large Reasoning Models,简称LRMs)展现出了令人印象深刻的推理能力。这些模型,如DeepSeek-R1和QwQ,通过生成详细的思维链(Chain-of-Thought,简称CoT)来分解问题,逐步推理,最终给出解答。然而,这些模型往往会陷入"过度思考"的困境,生成大量冗余的推理步骤,导致计算资源的浪费。

举个生活中的例子,想象一个聪明但有点"啰嗦"的朋友帮你计算餐厅小费。对于简单的计算(比如15%的$20),他可能会这样思考:"首先,我需要将20乘以0.15,20乘以0.1等于2,20乘以0.05等于1,所以2加1等于3美元..."。这个过程虽然准确,但对于如此简单的问题,实在是太过冗长了。

研究团队发现,现有的解决方案主要依赖于微调(fine-tuning)模型,通过构建包含不同推理压缩模式的数据集来训练模型跳过不必要的步骤。这就像是专门训练那位朋友,告诉他:"对于简单计算,你可以直接给出答案,不需要解释每一步。"然而,这种方法需要额外的数据收集,增加了成本,还可能带来安全性不一致的问题。

二、"思考操纵"的关键发现:外部思维的巧妙利用

研究团队决定从一个全新的角度来解决这个问题。他们深入研究了大型推理模型是如何进入和退出"思考状态"的。你可以将这个思考状态想象成一个特殊的模式,模型在这个模式下会进行一步步的推理,通常这些思考被标记在特定的标签之间(<think>和</think>)。

通过实验分析,研究团队发现了一个有趣的现象:当在模型的提示中插入由较小模型生成的思考过程(放在<think>和</think>标签之间),可以有效地"操纵"大型推理模型减少自己生成的思考步骤。这就像是给那位计算小费的朋友提供了一个思路的开始:"看,20乘以0.15等于3美元",这样他就不需要自己从头开始计算了。

更有趣的是,研究团队发现通过强化学习训练的模型(如QwQ)和通过蒸馏训练的模型(如Deepseek-Distillation系列)表现出不同的行为模式:

通过强化学习训练的模型会继续生成自己的思考,直到它们"认为"已经进行了足够的推理,不管它们是否已经遇到了结束思考的标记(</think>)。这就像一个认真的学生,即使已经看到了解题思路,仍然想要自己走完整个解题过程,确保答案的正确性。

而通过蒸馏训练的模型则会在遇到结束思考的标记(</think>)后立即停止思考过程,不管提供的思考内容的质量或数量如何。这更像是一个程序化的反应:看到"停止"信号就立即停止思考,直接给出答案。

基于这些发现,研究团队提出了一个名为"ThoughtMani"的方法。这个方法不需要对模型进行额外的训练,而是利用一个较小的非推理模型(如Qwen-2.5-7b-instruct)生成思考过程,然后将这些思考插入到推理模型的输入中,从而让推理模型能够直接利用这些外部思考,跳过不必要的中间步骤。

这就像是在解决复杂数学问题时,给你提供一些思路提示,帮助你更快地找到解决方案,而不是让你从零开始思考每一步。

三、ThoughtMani方法的工作原理:简单而高效的推理过程

ThoughtMani的工作流程非常直观,就像是为大型推理模型提供了一个"思考的捷径"。整个过程可以分为以下几个步骤:

首先,研究团队设计了一个专门的提示,用来指导小型模型(CoT生成器)生成思考过程。这个提示大致是这样的:"如果你是一位老师,你正在列出解决问题的重要关键点,不应包含计算细节。你不允许给出任何最终答案。当关键点列完后,添加<STOP>。你可以提供解决问题的高级思路,但不要包含计算细节。如果你觉得无法解决,输出<STOP>并返回。"

这就像是告诉一个助手:"给我一些解决这个问题的大致思路,但不需要详细步骤,也不要直接告诉我答案。"

与之前的思考生成方法相比,ThoughtMani的关键区别在于它会提示模型在遇到高度复杂的问题时返回一个停止标识(<STOP>)。这个策略旨在充分利用大型推理模型在处理复杂场景的能力,同时对简单问题保持高效。具体来说,如果生成的思考内容只包含"STOP",系统会放弃这个外部思考,使用原始的推理模板,让大模型自己进行完整的思考过程。

这就像是:当助手发现问题太复杂,无法提供有意义的思路提示时,会说"抱歉,这个问题我无法给出思路",这时你就会让更强大的专家从头开始解决问题。

整个ThoughtMani的工作流程就像是一个智能的"思考代理"系统:

对于每个问题,首先让小型模型(如Qwen-2.5-7B-Instruct)尝试生成高级思路。
检查生成的思考是否有意义(不只是<STOP>)。
如果思考有意义,就将其插入到大型推理模型的输入中,放在思考标签之间。
如果思考没有意义,就让大型推理模型自己从头开始思考。
最后,大型推理模型基于提供的思考或自己的思考生成最终答案。

研究团队在实验中发现,当使用Qwen-2.5-7B-Instruct作为CoT生成器为QwQ-32B在GSM-8k数据集上提供思考时,ThoughtMani将输出token数量从平均1,791个减少到1,075个(约减少40%),而CoT生成器平均只增加了52个token的额外成本。这意味着在保持相同推理准确性的同时,大大减少了计算资源的消耗。

四、实验验证:ThoughtMani的效率和安全性

为了全面评估ThoughtMani的效果,研究团队在三种不同的大型推理模型上进行了广泛的实验,使用了四个不同的数据集,并与其他十种压缩技术进行了比较(每种技术重复三次)。

他们选择的数据集涵盖了数学和编程两个领域的推理能力:AIME-2024(美国数学邀请赛题目)、GSM-8k(小学数学问题)、MATH-500(高中和大学数学问题)以及LiveBench/Code(编程任务)。同时,为了评估模型回应的安全性,他们还选择了WildJailbreak数据集,这个数据集包含了2,000多个测试模型安全边界的提示。

在模型选择方面,研究团队考虑了多种Qwen系列模型作为CoT生成器,包括Qwen-Max、Qwen-Plus、Qwen-2.5-7B-Instruct和Qwen-2.5-3B-Instruct。对于基于强化学习的大型推理模型,他们选择了QwQ-32B;对于基于蒸馏的模型,他们选择了Deepseek-Distillation-Qwen-2.5-14B-Instruct和其32B版本。

研究团队从三个方面来评估性能:

实用性:通过提取AIME、GSM-8k和MATH-500数据集的答案来评估准确性,对于编程数据集,则遵循官方指南,报告私有测试用例的pass@1指标。
效率:计算推理模型生成的token数量和CoT生成器产生的额外token数量。
安全性:使用广泛使用的安全模型Llama-Guard-3-8B来评估模型输出的安全性。

实验结果显示,ThoughtMani在保持模型性能的同时,显著减少了计算成本。例如,对于QwQ-32B模型,使用四种不同的CoT生成器分别将响应长度减少了1%、18%、26%和37%,而性能只下降了1.5%、2.8%、0.8%和7.2%。

一个有趣的发现是,更大的CoT生成器并不一定带来更好的性能。事实上,研究团队观察到,使用Qwen-Max等更强大的CoT生成器反而可能对ThoughtMani的推理框架产生负面影响。这是因为更大的模型生成更具体和详细的CoT过程,这些详细的思考虽然看起来很有帮助,但往往包含幻觉或与大型推理模型期望不一致的推理路径,导致性能不佳。

相比之下,较小的模型往往会拒绝为困难案例生成详细思考,而是返回空思考,这反而让大型推理模型能够依靠自己的能力处理复杂问题。总的来说,研究团队发现Qwen-2.5-7b-Instruct在几乎所有场景下都是最优或次优的解决方案。

安全性评估的结果也非常积极。ThoughtMani不仅提高了模型的效率,还平均提升了约10%的安全性,而基于微调的方法则平均下降了7%的安全性。这意味着ThoughtMani不仅使模型更高效,还使其更安全。

五、ThoughtMani的深入分析:为什么它如此有效?

研究团队进行了多项深入分析,以更好地理解ThoughtMani的有效性和局限性。他们发现,基于强化学习的LRMs比基于蒸馏的LRMs从外部思考中获益更多。

这是因为基于强化学习的LRMs被训练为动态评估其推理过程的充分性,基于实际的奖励。根据第三部分的观察,这类模型有能力"重新思考",因此能够动态决定何时接受外部思考,何时需要重新思考以支持和修正提供的不充分信息。因此,基于强化学习的LRMs对提供的思考质量不那么敏感,同时保持准确性和实用性。

想象一个优秀的数学老师,即使你给他一个解题的初步思路,他也会批判性地评估这个思路,在必要时补充或纠正,确保最终解答的正确性。

相比之下,基于蒸馏的LRMs更依赖于训练过程中的模式匹配,他们会在遇到结束思考的标记(</think>)后立即终止推理过程,无论提供的思考内容的质量或完整性如何。这种固定的行为限制了它们充分利用外部思考的能力,导致相比基于强化学习的模型获益较少。

这更像是一个按指令操作的工人,看到停止信号就立即停止当前工作,转向下一步,不会主动评估或补充不完整的信息。

研究团队还探索了不同token预算对性能的影响。对于AIME和Code等更具挑战性的数据集,基于强化学习的LRMs的推理过程通常需要大量token才能实现高质量推理。为了系统地研究token预算对性能的影响,研究团队调整了推理过程中的最大token长度参数,并评估了相应的结果。

一个有趣的观察是,当token预算有限时,基线和ThoughtMani之间的性能差距更为明显。一个可能的解释是,对于非常难的问题,外部生成的思考可能包含幻觉或信息不足。在这种情况下,大型推理模型(如QwQ)会生成额外的思考来纠正或补充提供的思考,这显示了ThoughtMani的一个局限性。

相比之下,对于GSM-8k等较简单的数据集,大多数问题可以在不到1,000个token内解决,这种性能差距不存在。这些发现强调了平衡token预算与问题复杂性的重要性。

最后,研究团队还探讨了使用特定领域提示的影响。对于Code数据集,他们评估了使用特定于任务的系统提示来生成CoT的影响。结果表明,通用的CoT生成框架足够健壮,可以处理不同领域的任务,无需特定于任务的调整。这突显了ThoughtMani的一个重要特性:一种通用的方法可以适用于多种不同类型的任务。

六、思考操纵的更广泛意义:不只是提高效率

虽然ThoughtMani主要被设计用来提高推理效率,但研究团队指出,这项研究的见解可能开启几个其他有意义的研究方向。

一个直接的应用是探索如何将恶意或误导性的思考插入到推理过程中,以操纵模型行为。这就像是研究如何识别和防范"思维劫持",就如同网络安全专家研究黑客技术以便更好地防御一样。

另一个有前途的研究方向是探索模型停止思考或检测模型是否积极参与推理的内在机制。理解这些动态可能导致对推理过程的更精确控制,使其更好地与期望的结果保持一致,并进一步优化计算效率。

更广泛地说,ThoughtMani提供了一种实用的方法来构建更高效、更易于使用的大型推理模型,特别是在资源受限的场景中。由于模型供应商通常同时提供不同规模的模型,ThoughtMani提供了一种有效的方式来构建更高效、更容易获取的LRMs用于实际应用。

七、结论:思考操纵开启高效推理的新篇章

归根结底,这项研究通过深入理解大型推理模型的思考行为,提出了一种名为ThoughtMani的简单而高效的推理管道,并揭示了LRM行为的重要特征。

通过大量实验,研究团队验证了ThoughtMani的实用性、效率和安全性。例如,当应用于LiveBench/Code数据集上的QwQ-32B时,ThoughtMani保持了原始性能,同时将输出token数量减少了约30%,而CoT生成器的开销很小。此外,他们发现ThoughtMani平均提高了10%的安全性。

对于我们普通用户来说,这项研究意味着未来的AI助手可能会变得更加高效,消耗更少的计算资源,同时保持或甚至提高其推理能力。这就像是一个智能助手学会了根据问题的复杂性调整其思考的详细程度,对简单问题直接给出答案,对复杂问题才展开详细推理,从而节省时间和资源。

这项研究也为未来的AI系统设计提供了新的思路。通过结合不同规模和类型的模型,我们可以创建既高效又强大的AI系统,满足各种实际应用的需求。就像一个完善的团队,每个成员都有自己的专长,共同合作解决复杂问题。

当然,这项研究也提醒我们,随着AI技术的进步,我们需要更加关注AI系统的安全性和对齐性。确保这些强大的工具始终按照我们的意图工作,是实现其潜力的关键。

如果你对这项研究感兴趣,可以通过arXiv:2504.13626v1访问完整论文,深入了解思考操纵的技术细节和实验结果。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • 进击的降噪术:解密Filter2Noise如何让低剂量CT图像更清晰
    2025-04-22 15:18

    进击的降噪术:解密Filter2Noise如何让低剂量CT图像更清晰

    想象一下,你正在进行一次CT扫描。医生告诉你,为了减少辐射对你身体的伤害,他们会使用低剂量的X射线。这听起来很棒,对吗?然而,就像在昏暗光线下拍照会产生大量噪点一样,低剂量CT扫描也会产生大量的图像噪声,这些噪声就像薄雾一样遮挡了重要的医学细节,可能导致医生错过关键的诊断信息,比如微小的肿瘤或低对比度的病变。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-