微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 天工开物:天空工作室的R1V2如何让AI更会"慢思考"

天工开物:天空工作室的R1V2如何让AI更会"慢思考"

2025-04-29 12:21
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-29 12:21 科技行者

在人工智能飞速发展的2025年,一个令研究人员头疼的问题是:如何让AI既能像人类一样仔细思考复杂问题,又不失其处理日常任务的普遍能力?想象一下,你有一个助手,他在解决数学难题时表现出色,但问他今天天气如何时却答非所问。这正是当前AI面临的"专业推理能力"与"通用理解能力"之间的平衡难题。

来自昆仑公司天空工作室(Skywork AI, Kunlun Inc.)的研究团队在2025年4月发布的《Skywork R1V2:多模态混合强化学习推理》论文中,提出了一个解决方案。该论文由Chris、Wei Yichen、Yi Peng等研究人员共同完成,发表于arXiv预印本平台(arXiv:2504.16656v2),并已在Hugging Face上开源了模型权重。有兴趣的读者可以通过https://huggingface.co/Skywork/Skywork-R1V2-38B链接访问完整模型。

一、为什么我们需要"慢思考"AI?

你有没有注意到,人类在面对复杂问题时会放慢思考速度,仔细推敲每个步骤?而在日常简单问题上,我们则可以快速直觉地给出答案。现代AI也在模仿这种"快思考"和"慢思考"的双系统思维模式。

近期,像OpenAI的o1、谷歌的Gemini-Thinking、Kimi-1.5和天空工作室的R1V(本文主角R1V2的前身)等"慢思考"模型取得了重大进展。这些模型在数学和科学等复杂推理任务上的表现远超其"快思考"同行(如GPT-4o和Claude-3.5)。举个例子,在AIME24和AMC23这样的数学竞赛基准测试上,"慢思考"模型的表现提升了30%以上,在科学相关基准测试上也有约10%的进步。

然而,当研究人员尝试将这种慢思考策略扩展到多模态领域(同时处理图像和文字)时,新的问题出现了。虽然这些模型在视觉推理任务(如MMMU和MathVision)上表现改善,但在一般视觉理解基准测试(如AI2D)上却出现了性能下降。更糟糕的是,这种性能下降常常伴随着"视觉幻觉"增加——AI开始"看到"图像中不存在的内容。

这就引出了一个关键问题:我们如何在视觉-语言模型中有效促进"慢思考"行为,同时不损害它们的通用能力?

二、天空工作室的创新解决方案:混合强化学习

为了解决这个问题,天空工作室推出了Skywork R1V2,这是一款新一代视觉-语言模型。与其前身不同,R1V2直接通过强化学习获取多模态推理技能,无需依赖教师模型的蒸馏过程。

想象一下训练一个孩子解决问题的过程。传统方法相当于让孩子看着老师是如何解决问题的,然后模仿(这就是"蒸馏")。而R1V2采用的方法更像是给孩子一系列问题,根据他的表现给予反馈,让他从自己的尝试中学习(这就是"强化学习")。

R1V2在一个全面的数据集上进行训练,这个数据集涵盖了视觉感知、科学探究和抽象推理,包括一般用途和推理密集型任务。训练过程使用了一种混合强化学习范式,结合了混合偏好优化(MPO)和群组相对策略优化(GRPO)两种技术。

混合偏好优化(MPO):平衡"聪明"与"通用"

想象你在教一个孩子学习各种技能。你不仅要告诉他哪个答案更好(相对偏好),还要解释为什么某个答案是好的(绝对质量),以及如何得出这个好答案(生成过程)。这就是MPO的三个核心学习目标。

R1V2首先实施MPO,利用三个核心学习目标:

响应对之间的相对偏好
单个响应的绝对质量
生成首选响应的过程

这些偏好信号由他们开发的Skywork-VL奖励模型提供——这是一个能够评估多模态理解和推理任务的奖励模型。有了这些高质量的偏好信号,MPO有效地减轻了生成输出中的幻觉和过度思考问题,从而提高了一般视觉任务的性能。

群组相对策略优化(GRPO):增强推理能力

为了进一步提升推理能力,研究团队融入了GRPO算法。这个算法通过比较同一查询组内的候选响应计算相对优势。

想象你有一个数学题,让AI尝试用5种不同方法解答。GRPO会比较这5种方法,找出哪种方法更好,然后强化学习这种更好的方法。

然而,随着训练的进行,研究人员发现一个问题:候选响应趋于收敛(即都变得正确或都变得错误),导致优势信号消失和推理多样性有限。这就像所有学生都开始给出相同的答案,老师就很难判断哪种思路更好了。

选择性样本缓冲区(SSB):解决"消失优势"问题

为了解决这个问题,研究团队引入了选择性样本缓冲区(SSB)机制。这个机制缓存具有非零优势的高质量训练样本,并在策略更新期间重新引入它们。

用一个简单的比喻来说,这就像保存了一本"最佳解题思路集锦",当学习过程陷入瓶颈时,翻开这本集锦来获取灵感。这个机制增加了梯度密度,增强了训练稳定性,并鼓励更深入的推理路径。MPO和GRPO的结合使得在推理专业化和泛化能力之间取得更有效的平衡成为可能。

研究人员观察到一个有趣的现象:起初训练中约60%的样本具有有效的非零优势信号,但随着训练进行,这个比例下降到不到40%。SSB机制通过保证持续的有价值训练信号来积极应对这个问题。

更令人惊讶的是,研究团队发现,随着视觉推理能力的增强,模型产生幻觉的风险也增加了。研究人员认为这是因为更强的视觉推理需要在视觉元素之间进行更具创造性的插值,而这种创造性可能导致"过度想象"。为了解决这个问题,他们通过整个训练过程中的校准奖励阈值来系统监控和减轻视觉幻觉。

三、R1V2的革命性表现和技术细节
令人印象深刻的基准测试结果

广泛的评估表明,R1V2在多个权威多模态基准测试中表现卓越:

OlympiadBench:62.6%
AIME2024:78.9%
LiveCodeBench:63.6%
MMMU:73.6%

这些结果不仅建立了新的开源基线,还大大缩小了与专有最先进模型(如Gemini 2.5和OpenAI-o4-mini)之间的性能差距。

比如,在MMMU基准测试上,R1V2达到了73.6%的准确率,超过了Claude 3.5 Sonnet(70.4%)、Gemini 2 Flash(70.7%)和Kimi k1.5 longcot(70.0%)。在MathVista基准测试上,R1V2的74.0%成绩超过了Claude 3.5 Sonnet(67.7%),与Gemini 2 Flash(73.1%)相当。

特别值得注意的是R1V2在OlympiadBench上的表现,达到了62.6%,大大超过了更大的模型如Qwen2.5-VL-72B(40.4%)和QvQ-Preview-72B(33.2%)。这表明R1V2在需要深层分析思考和结构化问题解决的复杂数学推理任务上具有优越能力。

技术实现细节:模块化重组

为了减少对大规模多模态推理数据的依赖,研究团队将视觉-语言表征的对齐与推理能力的保存解耦。具体来说,他们引入了一个轻量级多层感知器(MLP)适配器,将冻结的视觉编码器与具有推理能力的语言模型桥接起来。

想象一下,这就像是让一个精通数学的盲人(语言模型)和一个能看但不懂数学的人(视觉编码器)合作,通过一个特殊的翻译器(适配器)来解决视觉数学问题。这个方法中,他们选择了InternViT-6B作为视觉编码器,QwQ-32B作为语言模型。

与第一代R1V不同,R1V2取消了监督微调(SFT)阶段。最近的研究表明,SFT可能会无意中损害后续强化学习或推理过程的性能,这可能阻碍模型开发真正的推理行为。R1V2直接采用模块化方法,将预训练的推理语言模型与视觉适配器连接起来。虽然这种方法导致一般视觉理解能力略有下降,但它保留了语言模型固有的推理能力,并通过避免SFT引入的退化,显著提升了整体推理性能。

研究团队系统地实验了冻结和激活不同模型组件,观察到一个显著现象:文本和视觉领域的能力表现出高度可迁移性——一个模态的改进直接有益于另一个模态。值得注意的是,仅训练视觉编码器带来有限收益,而仅适配器训练和联合LLM+适配器训练都非常有效,这表明跨模态对齐而非视觉编码是多模态推理中的关键瓶颈。

四、研究启示与未来方向

这项研究具有深远意义。一方面,它证明了强化学习可以直接应用于训练多模态AI系统,无需依赖复杂的教师模型蒸馏过程。另一方面,它揭示了在推理能力和视觉幻觉之间存在的权衡关系,强调了在强化学习过程中谨慎校准奖励的必要性。

Skywork R1V2为训练强大且反思性的多模态推理代理提供了一个有前景且可扩展的框架。它突显了统一高层推理和感知理解的潜力,为下一代通用人工智能系统铺平了道路。

在未来工作中,研究团队计划探索视觉和文本模态之间更复杂的集成机制,进一步优化推理和泛化之间的平衡,并将他们的混合强化学习方法扩展到其他领域和模态。

结语

归根结底,Skywork R1V2代表了AI领域一个重要的进步。通过创新的混合强化学习方法,它在多模态推理任务上取得了令人印象深刻的结果,缩小了开源和专有AI系统之间的性能差距。

对于普通用户来说,这意味着未来的AI助手可能会更善于解决需要深度思考的问题,同时仍然能够应对日常任务。例如,一个基于R1V2技术的助手可能能够帮助分析复杂的图表数据,解决涉及图像的数学问题,甚至理解科学图表和示意图。

这项研究也为我们提出了一个有趣的思考问题:人工智能是否需要同时具备"快思考"和"慢思考"能力才能真正接近人类水平的智能?或者说,我们是否应该专注于开发专门针对特定任务优化的AI系统?

如果你对这一领域感兴趣,可以访问论文作者提供的Hugging Face链接(https://huggingface.co/Skywork/Skywork-R1V2-38B)来亲自体验这个模型的能力。在不远的将来,我们可能会看到更多类似R1V2这样能够深度思考的AI系统被广泛应用于各个领域。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-