微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 视觉语言模型能看懂色彩世界吗?马里兰大学推出全面评估色彩理解能力的COLORBENCH基准测试

视觉语言模型能看懂色彩世界吗?马里兰大学推出全面评估色彩理解能力的COLORBENCH基准测试

2025-04-18 16:53
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-18 16:53 科技行者

你是否曾经因为衣服色彩搭配不协调而尴尬?或者在医学诊断试纸上辨别微妙的颜色变化时感到困惑?色彩在我们的日常生活中扮演着至关重要的角色,从科学发现到医疗保健,从购物到艺术欣赏,无处不在。而人工智能,特别是视觉语言模型(VLMs),正在迅速融入我们的生活,但它们真的能像人类一样理解和利用色彩信息吗?

这正是马里兰大学帕克分校的研究团队(Yijun Liang、Ming Li、Chenrui Fan、Ziyue Li、Dang Nguyen、Kwesi Cobbina、Shweta Bhardwaj、Jiuhai Chen、Fuxiao Liu和Tianyi Zhou)在2025年4月发表的研究"COLORBENCH: Can VLMs See and Understand the Colorful World?"中探讨的问题。这项研究发表于arXiv预印本平台(arXiv:2504.10514v1),为评估视觉语言模型对色彩的理解能力提供了一个全面的基准测试。有兴趣深入了解的读者可以通过https://github.com/tianyi-lab/ColorBench访问项目页面。

一、为什么色彩理解对AI如此重要?

想象一下,你正在远足,突然看到一种红色的浆果。这种颜色立即向你传递了一个信号:"危险,可能有毒!"色彩不仅仅是美学元素,它们往往包含关键信息。在自然界中,色彩可以是警告信号;在医学上,皮肤或测试条的色彩变化可能意味着健康状况的差异;在导航地图上,色彩代表不同的地形或政治区域。

研究团队指出,色彩在人类视觉感知中扮演着基础性角色,提供关键线索用于物体检测、场景解释和情境理解。例如,在卫星图像分析中,科学家利用光谱色彩特征来区分植被、健康状况和水体。海洋研究人员则通过沉积物的色彩模式来检测海洋生态系统。这些应用都凸显了色彩在实际场景中的重要性。

更引人注目的是,色彩不仅仅是识别和命名的对象,它们还可以传达情感或语义信息。比如红色通常与激情或危险相关,蓝色则与平静或忧郁有关。这些色彩与其他属性或概念的高度相关性,使它们能为各种下游任务提供关键信息,即使这些任务并不直接询问颜色本身。

随着视觉语言模型越来越广泛地应用于各种场景,了解它们是否能像人类一样理解和利用色彩信息变得至关重要。它们能否解释视觉错觉、处理模糊线索,并在色彩变化的情况下保持可靠性?

二、现有评估方法的局限

现有的人工智能视觉能力评估方法就像是只检查学生数学能力而忽略其语言能力一样片面。虽然已有许多基准测试用于评估视觉语言模型的能力,但这些测试主要关注不太依赖色彩理解的任务,或者只评估基本的色彩识别和命名能力。

想象你在教一个孩子认识色彩,你不会只问"这是什么颜色?",还会问"哪个更红?","这两种颜色是一样的吗?",甚至测试他们在不同光线下识别相同颜色的能力。现有的评估方法就像是只做了第一种最基础的测试,而忽略了更复杂的色彩理解能力。

此外,对颜色变化的鲁棒性(也就是模型在颜色发生变化时保持准确性的能力)在大型语言模型时代也被大大忽视了。这就像只测试学生在明亮教室里的阅读能力,而忽略了他们在昏暗光线下的表现。

因此,研究团队认为,我们需要一个专门的基准测试,全面探究视觉语言模型在色彩感知、推理和鲁棒性方面的能力。这正是COLORBENCH的诞生背景。

三、COLORBENCH:全面评估色彩理解的基准测试

COLORBENCH就像是为AI设计的一套全面的色彩理解考试,从基础的颜色识别到复杂的色彩推理和抗干扰能力测试,一应俱全。这个基准测试涵盖了三个核心维度:色彩感知、色彩推理和色彩鲁棒性,下面这些内容共包含11项细分任务。

色彩感知:最基础的色彩理解能力

这部分测试模型识别和解释输入中颜色的基本能力,就像测试小孩子能否正确指认红色、蓝色一样。它分为三个关键方面:

色彩识别:这个任务要么询问图像中特定物体的颜色,要么确定特定颜色是否存在于图像中。例如,"这幅画中不存在哪种颜色?"或"香蕉是什么颜色的?"

色彩提取:要求模型从单色图像中提取颜色代码值(如RGB、HSV或HEX)。这测试模型是否能进行精细的颜色检索。想象一下,你在装修时需要精确匹配墙漆颜色的情景。

物体识别:评估模型识别符合文本描述中指定颜色的物体的能力。例如,"哪个州在这张地图上是红色的?"

色彩推理:更深层次的色彩理解

这部分测试模型基于输入和先验知识进行推理的能力,颜色在这里作为形成准确判断的关键线索。这类似于测试人类是否能通过火焰颜色判断燃烧的物质,或通过肤色变化判断健康状况。这包括七个方面:

色彩比例:评估模型估算特定颜色占据相对面积的能力。例如,"这张卫星图像中绿色的比例约为多少?"

色彩比较:测试模型区分图像中多种颜色的能力,评估其对色调、饱和度和亮度差异的敏感性。例如,"哪杯茶的颜色更绿?"

色彩计数:测试识别图像中不同颜色数量的能力。例如,"这张图像中有多少种不同颜色的花?"

物体计数:要求模型计算符合特定颜色模式的物体数量。例如,"这张图片中有多少只白脸牛?"

色彩错觉:询问模型比较潜在错觉环境中的颜色,测试其处理色彩引起的视觉错觉的能力。这就像著名的棋盘格错觉,两个看起来不同的色块实际上可能是相同的颜色。

色彩拟态:挑战模型检测伪装在周围环境中的物体,颜色在这里作为一个误导因素。想象在树叶中寻找隐藏的昆虫。

色盲测试:类似于石原色盲测试,评估模型识别嵌入在色彩模式中的数字或文本的能力,测试其理解形状-颜色关系的能力。

色彩鲁棒性:应对变化的能力

这部分评估模型在面对色彩变化时保持一致性的能力。想象一下,无论你穿什么颜色的衣服,你的朋友都应该能认出你。同样,一个具有色彩鲁棒性的模型应该能在图像颜色改变时仍然作出准确预测。

研究团队定义了三种重新着色策略:

目标分割重新着色:只改变问题中提到的对象所在区域的颜色
最大分割重新着色:改变与问题无关的最大区域的颜色
整张图像重新着色:对整个图像应用全局颜色转换

通过比较模型在原始图像和变色图像上的表现,研究者可以量化模型对颜色变化的敏感性。

四、数据收集与测试方法

COLORBENCH不仅仅是一堆随机图片和问题的集合,而是经过精心设计的测试套件。研究团队像厨师准备精致料理一样,从多个来源收集并精心筛选了测试样本。

对于大多数色彩感知和推理类别下的任务,研究团队依靠人类专家从多个在线基准和网站手动收集图片。例如,对于色彩比例任务,他们首先使用颜色提取工具获取图像的颜色直方图,然后基于这些颜色统计手动设计问题和选项。对于色彩提取、色盲和色彩错觉等任务,测试图像由相应的代码程序生成,以确保问题和答案的可控性。

在初始数据收集后,研究团队在人机交互过程中进行了额外的筛选。他们首先在各种视觉语言模型上进行推理,根据模型预测正确性、置信度分数和人类评估来筛选那些挑战性较低的样本。对于合成数据,他们进行了类似的过程,但增加了附加代码(用于生成)和图像评估。这个完善过程在最终确定基准测试实例之前进行了三轮。

最终,COLORBENCH包含了1,448个实例和5,814个图像-文本问题,跨越11个多样化的任务。对于色彩感知和色彩推理类别,每个实例包含一个图像、一个问题和多项选择(3到6个)选项,只有一个正确答案。对于色彩鲁棒性,每个实例由10个多项选择图像-文本问题组成,包括一个种子图像和9个颜色变化的编辑图像。

五、惊人发现:当前AI模型对色彩的理解存在哪些局限?

研究团队对32种广泛使用的视觉语言模型进行了评估,从开源到专有模型,从相对较小的模型(0.5B参数)到更大的模型(78B参数)。结果揭示了一些出人意料的发现:

1. 扩展定律仍然适用,但远不如想象的那么强

扩展定律是指更大的模型通常表现更好的趋势。研究发现,这一定律在色彩理解方面仍然成立,但远比预期的弱,并且主要取决于语言模型部分。模型规模与色彩理解性能之间的相关性确实存在,但不强。值得注意的是,视觉编码器规模与性能之间的相关性并不显著,这可能是因为当前视觉语言模型中视觉编码器的选择有限。

想象一下,如果我们把模型比作学习外语的学生,那么更多词汇量(更大的语言模型)确实帮助理解,但仅仅拥有更好的眼镜(视觉编码器)并不能显著提高理解能力。这提示研究社区可能忽略了视觉编码器的扩展定律。

2. 所有模型在色彩理解上表现都不尽如人意

研究者将模型按大小分组并比较了它们的表现。结果显示,即使是强大的专有模型如GPT-4o和Gemini-2,在整体色彩感知和推理方面的准确率也只达到53.9%,仅比最佳开源模型高2.0%。最小模型组中的最佳模型准确率为41.5%,比最佳开源模型低10.4%。

在鲁棒性方面,强大的专有模型甚至表现不如7B参数的模型。考虑到缺乏专门评估视觉语言模型色彩理解能力的基准测试,研究者推断这一领域长期以来被社区忽视,开源社区与专有模型提供商在这方面水平相当。

3. 引入推理步骤能显著提升色彩理解能力

尽管视觉语言模型在色彩理解上存在弱点,但添加推理步骤(即所谓的思维链提示,Chain of Thought prompting)可以提高它们在COLORBENCH任务上的表现。有趣的是,这种改进甚至适用于色彩鲁棒性,这一点以前尚未被研究过。

例如,在色彩感知类别中,思维链对色彩识别和物体识别的改进有限,因为这些任务严重依赖视觉编码器的准确认知。然而,色彩提取任务却从更多的推理步骤中获益显著。深入研究发现,大多数当前视觉语言模型不能直接提取颜色值,因此需要使用更多推理步骤来达到合理的答案。

在色彩推理类别中,思维链对大多数任务都有益处。然而,在色彩错觉任务中,更多的推理步骤反而对模型表现有害。研究发现,更多的推理步骤可能导致模型更关注误导性环境而非直接比较指定的颜色。

此外,思维链对色彩鲁棒性的一致改进也是一个未被发现的现象。在实验设置中,只有图像的颜色被改变,而问题与原来完全相同。因此,在这种情况下,颜色是唯一的变量,理应更多地与视觉编码器的能力相关。然而,反直觉的是,更多的推理步骤使视觉语言模型对颜色变化更具鲁棒性。

4. 色彩线索对模型既有帮助也有误导

为了检验视觉语言模型是否真正利用色彩线索处理COLORBENCH中的任务,研究者进行了实验,将所有原始彩色图像转换为灰度图,而不改变问题。在这种情况下,如果模型真正依赖颜色,准确率应该显著下降。

对于大多数任务,模型的表现确实在失去色彩信息后大幅下降,表明它们确实利用色彩线索来正确解决这些任务。然而,在色彩错觉和色彩拟态任务中,大多数模型在灰度图上表现反而更好,这表明颜色在这些任务中可能误导模型的判断。这个发现很合理,因为这两个任务中的颜色更可能作为误导因素。

与此同时,对于色彩计数和色盲测试任务,约一半的模型准确率上升,一半下降,表明颜色线索在这些任务中可能不那么重要,因此一些模型可以找到其他方式得到答案。

六、不同模型的表现如何?

研究者评估了32种广泛使用的视觉语言模型,从规模较小的0.5B参数模型到超过70B参数的大型模型。以下是各类模型的表现概览:

在色彩识别任务中,大多数模型表现良好(准确率超过60%),表明这对色彩感知来说是相对基础的任务。不使用思维链的Gemini-2获得了最高性能,而GPT-4o则不在最前列。

在色彩提取任务中,令人惊讶的是,两个强大的专有模型(不使用思维链)只达到中等水平的表现,表明它们的视觉编码器在色彩感知方面可能存在潜在限制。

在物体识别任务中,几乎所有模型表现都不错,两个专有模型未能达到最高水平。这可能是因为该任务与常见的训练方法高度一致,包含大量通用物体检测图像。

在色彩比例任务中,即使是最好的模型(使用思维链的Gemini-2)也只达到55.0%的准确率,比随机猜测稍好一些,显示这个任务的极高难度。

在色彩比较任务中,更大的模型表现更好,使用思维链的专有模型毫无悬念地达到最高性能。

在色彩计数任务中,所有模型都表现极差。最高性能来自使用思维链的Gemini-2,超过第二名10个百分点以上,但其表现仍不理想,只有45.1%。

在物体计数任务中,超越两个专有模型,LLaVA-OV-72B达到了最高水平,成为唯一准确率超过50%的模型。

在色彩错觉任务中,大多数模型的准确率在30%到50%之间,只有不使用思维链的GPT-4o超过50%。

在色彩拟态任务中,两个专有模型达到最高水平,而更多的推理步骤对这个任务帮助不大。

在色盲测试任务中,大多数模型的准确率低于30%。考虑到这个场景的实际应用极广,当前社区应该更加关注这一点。此外,更令人惊讶的是,更多的推理步骤有助于视觉语言模型在色盲测试中表现,尽管这看起来像是纯粹的色彩感知任务。

在色彩鲁棒性方面,唯一三个超过80%的模型是InternVL2.5-26B、InternVL2.5-38B和InternVL2.5-72B,它们使用了相对较大的视觉编码器InternViT-6B,而其他模型大多只有300-400M参数的视觉编码器。与此同时,GPT-4o对颜色变化的鲁棒性极低(46.2%),表明其对颜色变化的敏感性很高,而Gemini-2则显示出对颜色的良好鲁棒性(70.7%)。

七、这些发现对AI的未来发展意味着什么?

COLORBENCH的研究成果为我们揭示了当前视觉语言模型在色彩理解方面的能力和局限性。这些发现不仅有学术价值,还对实际应用有深远影响。

首先,研究确认了扩展定律在色彩理解方面仍然适用,但主要取决于语言模型部分,而视觉编码器的贡献相对较小。这提示AI研究者应该更关注视觉编码器的扩展和改进,以增强模型的色彩理解能力。

其次,所有模型在COLORBENCH上的表现相对较低,并且差距不大,这表明色彩理解是一个被忽视的领域。这为研究社区提供了一个明确的改进方向,特别是考虑到色彩在许多实际应用中的重要性。

第三,尽管视觉语言模型在色彩理解上存在弱点,但通过添加推理步骤(思维链提示)可以显著提高其表现。这一发现对改进现有模型提供了一个实用策略,甚至可以应用于增强模型对颜色变化的鲁棒性。

最后,研究发现色彩线索确实被视觉语言模型所利用,但在某些任务中(如色彩错觉和拟态)可能误导模型。这表明模型需要更好地理解何时依赖色彩信息,何时应该忽略它。

对于未来的研究和应用,COLORBENCH提供了一个全面评估视觉语言模型色彩理解能力的工具。这可以帮助开发者识别和改进模型的弱点,提高其在色彩密集型任务中的表现。例如,在医疗图像分析、卫星图像解释、艺术品鉴赏等领域,准确的色彩理解至关重要。

八、结语:走向更好的色彩理解

回想一下文章开头的问题:视觉语言模型能否像人类一样理解和利用色彩信息?COLORBENCH的研究给出了一个初步答案:它们正在努力,但还有很长的路要走。

当前的视觉语言模型在基本的色彩识别上表现不错,但在更复杂的色彩推理和对颜色变化的鲁棒性方面仍存在显著不足。这就像一个小孩子可以指认基本颜色,但尚未发展出成人水平的色彩理解能力。

好消息是,研究者已经确定了一些改进策略,如添加推理步骤。更重要的是,COLORBENCH为评估和改进视觉语言模型的色彩理解能力提供了一个全面的基准测试。

随着研究的深入,我们可以期待未来的AI系统能更好地理解色彩世界的复杂性,从而在各种应用中提供更精确、更可靠的服务。这不仅对科学研究和技术应用有价值,还能使AI系统与人类的交互更自然、更直观。

COLORBENCH代表了朝着这一目标迈出的重要一步,为构建真正理解色彩世界的人工智能奠定了基础。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-