这项由中国科学技术大学、西安交通大学、上海人工智能实验室、商汤科技研究院和清华大学等机构合作完成的研究于2025年4月21日发布在arXiv预印本平台。该研究由Weiye Xu、Jiahao Wang、Weiyun Wang、Zhe Chen等人共同完成,论文链接为:https://arxiv.org/abs/2504.15279v1。
研究背景:为什么我们需要更好的视觉推理测试
想象一下,你正在参加一场智力测试。主考官给你看了一张图片,并要求你找出图案的规律,预测下一个图形会是什么样子。对我们人类来说,这种视觉推理任务虽然有难度,但通常还算可行——我们能够观察图案变化、识别规律,然后做出合理推测。
但如果是人工智能系统呢?特别是那些号称能"看懂"图像并与人类交流的多模态大语言模型(MLLMs),它们真的具备纯粹的视觉推理能力吗?
上海人工智能实验室的研究团队发现,目前评估这些模型的视觉推理能力存在一个很大的问题:现有的测试过于依赖文本描述,让模型可以"走捷径"——它们只需将图像转化为文字描述,然后用语言推理能力来解决问题,而不是真正理解和分析图像本身的视觉信息。
举个简单的例子:想象一个拼图游戏,要求你把打乱的碎片重新拼回原样。如果有人直接告诉你每个碎片应该放在哪里,那你就不需要真正理解拼图图案本身了。类似地,当前的多模态模型测试往往允许模型通过语言描述来"作弊",而不是真正测试它们的视觉理解能力。
为了解决这个问题,研究团队开发了一个名为VisuLogic的新基准测试,专门设计用来评估模型的纯视觉推理能力,而不是混合了视觉和语言的推理能力。
VisuLogic:一个纯粹的视觉推理挑战
VisuLogic是什么?简单来说,它是一个包含1,000个经过人工验证的视觉推理问题的数据集,这些问题跨越六个不同类别:数量推理、空间推理、位置推理、属性推理、风格推理和其他类型。
与其他测试不同,VisuLogic的问题被特意设计成难以用语言准确描述的形式。就像有些复杂的视觉模式,你能一眼看出规律,但却很难用语言精确地描述出来——这正是测试真正视觉理解能力的关键。
研究团队通过一个很有说服力的例子说明了VisuLogic的独特之处。他们展示了两个不同的问题:一个来自现有的MMMU测试集,另一个来自VisuLogic。在MMMU的问题中,即使是最先进的多模态模型也能提取关键的视觉细节,让纯语言模型(LLM)仅基于文本描述就能解答问题。但在VisuLogic的问题中,同样的模型在描述图像时却会遗漏关键的视觉线索(如对称性、旋转等),导致纯语言模型无法正确理解图像。
这个对比清晰地表明,VisuLogic真正测试的是模型的视觉推理能力,而不是语言推理能力。就像你需要自己观察拼图图案才能完成拼图,而不能仅仅依靠别人的口头指示。
数据集的创建:精心设计的视觉推理挑战
研究团队非常谨慎地构建了VisuLogic数据集。他们的过程包括三个关键阶段:数据收集、质量控制和详细分类。
首先,他们从符合相关许可和规定的公开在线资源中收集了所有问题。使用Playwright工具和自定义解析脚本系统地爬取原始网页内容,提取问题-答案对,然后清理噪音和不相关内容,最后将所有信息标准化为结构化格式。
在质量控制方面,他们采用了三阶段的数据验证程序:
图像验证:检查每个问题引用的图像是否存在且格式正确
重复删除:通过检测文本片段之间的词汇重叠和使用感知哈希(pHash)识别视觉相似的图像来消除冗余条目
人工检查:对每个剩余条目进行彻底的人工审核,确认其有效性
最后,他们将所有收集的数据分类为六个主要类别:
数量推理:关注图形元素(如点、线和角)数量的变化以及形状之间的算术关系
空间推理:要求从二维图形中重建三维形状、折叠或展开表面以及整合三维结构
位置推理:考察物体的平移、旋转和反射等变换
属性推理:涉及形状的内在属性,包括对称性(轴向或中心)、曲率以及开放度或封闭度的度量
风格推理:需要理解风格特征的变化,如叠加、减法以及形状相似性或差异性的评估
其他:包含不属于前述类别的问题,如涉及字母、字母数字符号或其他专业字符的问题
整个数据集经验证后包含1,000个单项选择题,正确答案选项分布均衡:A(23.1%)、B(26.7%)、C(25.2%)和D(25.0%)。
除了主测试集外,研究团队还提供了一个辅助训练集,包含4,296个问题-答案对,这些问题来自相同领域并经过相同的验证程序,确保与基准测试没有重叠。这个训练集的类别分布也与主测试集类似。
实验结果:人类vs机器的巨大差距
研究团队对VisuLogic进行了全面评估,测试了包括GPT-4o、Doubao-1.5-Vision-Pro、Gemini-2.0-Pro等在内的多个领先多模态模型,并将其与人类表现进行了对比。
结果令人惊讶:
当研究团队让纯语言模型(使用详细的图像描述代替原始图像)尝试解决VisuLogic问题时,即使是最先进的语言模型,如Doubao-1.5-Pro(26.6%)、Claude-3.7-Sonnet(25.9%)和Qwen2.5-72B-Instruct(28.0%),其准确率也仅略高于随机猜测的基线(24.9%)。这清晰地表明,仅依靠文本描述是不足以解决VisuLogic任务的。
更令人惊讶的是,即使是最先进的多模态大语言模型,包括GPT-4o(26.3%)、Doubao-1.5-Vision-Pro(28.1%)、Gemini-2.0-Pro-Exp(28.0%)和InternVL3-78B(27.7%),它们的表现也只是略高于随机猜测,远低于人类参与者达到的51.4%的准确率。
这个巨大的差距凸显了当前多模态模型在稳健视觉推理方面的挑战。就像一个只能按照口头说明而不能自己观察拼图的人很难完成复杂拼图一样,这些模型在真正需要理解视觉信息本身的任务上表现不佳。
深入分析:模型的视觉推理弱点
研究团队通过系统分析不同模型在六个不同推理类别上的错误分布,揭示了一些有趣的模式。
语言模型(LLMs)最难应对空间推理问题,这表明仅通过文本描述很难推断三维结构或空间变换。相比之下,它们在数量推理任务上表现相对较强,这表明数量关系更容易通过语言传达。
对于多模态模型(MLLMs)来说,风格推理问题是最大的障碍,错误率超过75%——比随机猜测(25%准确率)还要差。这一结果突显了当前MLLM架构在捕捉微妙视觉线索(如叠加、轮廓和形状变化)方面的根本局限性。
人类的错误模式形成了一个不同的聚类,与LLMs和MLLMs都不同。人类参与者在位置推理任务上的错误率低于30%,表明人类在基于位置的视觉推断方面表现强劲。相比之下,两类模型在位置推理上都很挣扎,这突显了人类和MLLMs在视觉-认知过程上的根本差异。
定性分析:理解模型失败的原因
通过对失败案例的定性分析,研究团队发现了几种主要的失败模式:
纯语言模型在依赖外部生成的图像描述时往往会遗漏多步逻辑推理所需的关键视觉细节——例如黑白点的数量、形状和进展模式。结果,它们的推理偏离了正确的解决方案,经常产生幻觉或不相关的回答。
多模态模型虽然能正确描述静态视觉内容,但在推断形状之间不断发展的关系时却失败了,转而诉诸于表面线索,如对象数量。虽然这些模型能识别单个形状并计数项目,但它们难以对元素间的关系进行推理,这限制了它们解决复杂视觉逻辑问题的能力。
就像一个人可能能看清拼图的每一块,但却无法理解它们如何组合在一起形成完整的图案。
强化学习:一个有希望的解决方向
在研究的最后部分,团队探索了使用强化学习(RL)技术来提高模型的视觉推理能力。他们在辅助训练数据集上应用了一个简单的强化学习微调步骤,并观察到基线模型的准确率从25.5%提高到31.1%,优于开源和闭源的同类产品。
强化学习的效果在定性分析中也很明显。经过RL强化的模型能够捕捉状态转换(例如棋子的移动)并准确地预测后续配置。此外,它们学会了迭代修改中间假设——类似于试错——直到形成连贯的推理。
这些发现强调了RL方法在提高视觉推理任务表现方面的潜力。就像通过反复练习和反馈,一个人可以提高解决视觉难题的能力一样。
研究意义与未来展望
VisuLogic的创建标志着评估多模态模型视觉推理能力的一个重要进步。它通过设计难以用语言表达的视觉推理任务,有效地测试了模型的真实视觉理解能力,而不仅仅是混合了视觉和语言的能力。
这项研究的结果清晰地表明,即使是最先进的多模态模型在纯视觉推理方面也存在显著的不足,其表现远远落后于人类。这一差距凸显了多模态AI系统发展的重要研究方向。
此外,强化学习微调在提高模型视觉推理能力方面显示出的潜力,为未来的研究提供了有价值的线索。通过结合更多元化的训练数据和更先进的RL技术,未来的模型可能会在视觉推理任务上取得更显著的进步。
总的来说,VisuLogic不仅是一个用于评估当前模型的新基准,也是推动多模态模型向更真实的视觉理解能力发展的催化剂。就像一面镜子,它反映了我们在创造真正"理解"视觉世界的AI系统方面所取得的进步和面临的挑战。
对于想要进一步探索这项研究的读者,研究团队已经开源了评估代码、训练脚本和数据集,可通过https://visulogic-benchmark.github.io/VisuLogic访问。这些资源将帮助研究社区继续推进多模态视觉推理领域的发
好文章,需要你的鼓励
想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。
想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。
想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。
想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。