微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 DyMU:为高效视觉-语言模型打造的动态合并与虚拟解合并技术

DyMU:为高效视觉-语言模型打造的动态合并与虚拟解合并技术

2025-04-28 14:35
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-28 14:35 科技行者

在人工智能快速发展的今天,来自伊利诺伊大学厄巴纳-香槟分校的Zhenhailong Wang与Heng Ji以及Salesforce Research的Senthil Purushwalkam、Caiming Xiong、Silvio Savarese和Ran Xu共同研发了一项突破性技术。他们在2025年4月发表的论文《DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs》中,提出了一种无需额外训练就能大幅提升视觉-语言模型(VLM)效率的全新方法。想深入了解这项研究的读者可以通过arXiv:2504.17040访问完整论文。

一、为什么我们需要更高效的视觉-语言模型?

想象你有一个超级聪明的朋友,能看懂图片并回答关于图片的问题。但这位朋友有个古怪的习惯:无论你给他看什么图片——简单如一张白纸上的小圆点,还是复杂如一整个城市街景——他都会花同样多的时间仔细研究。这听起来很奇怪,对吧?为什么简单的图片不能更快处理完成呢?

这正是目前主流视觉-语言模型(VLM)面临的问题。从技术上讲,当前的VLM都是由两部分组成:一个视觉编码器(提取图像特征)和一个大语言模型(处理这些特征并生成回答)。视觉编码器总是将图像转换为固定数量的"视觉标记"(visual tokens)——无论图像内容有多简单或复杂。比如,流行的CLIP视觉编码器总是为每张图片生成576个标记,即使是一张几乎空白的图片。

这种设计导致了严重的效率问题。以LLaVA-OneVision为例,处理一张1280×960像素的图像需要生成9477个视觉标记!相比之下,文本查询通常只有约24个标记。想象一下有人用50个字提问,而AI需要阅读相当于400-500个句子的信息来处理一张图片,这显然不够高效。

这就是DyMU(动态合并与虚拟解合并)技术的用武之地。研究团队想解决一个核心问题:为什么不能根据图片的复杂度动态调整处理它所需的资源呢?

二、DyMU如何巧妙节省计算资源?

DyMU的核心理念可以用一个简单的类比来理解:想象你在整理一大堆彩色积木。如果有很多相似颜色的积木,你可能会先把它们分组,而不是一个个处理。同时,你心里清楚每组中有哪些积木,需要时还能"记起"它们原本的位置。

DyMU正是这样工作的,它包含两个关键部分:

1. 动态标记合并(Dynamic Token Merging,DToMe)

这部分解决了"为什么所有图像都要使用相同数量的标记"这一问题。DToMe会自动分析图像内容,将相似的视觉标记合并在一起。就像我们会把相似的物品归类一样,DToMe能识别图像中信息冗余的部分并合并它们。

具体来说,DToMe使用了一种巧妙的方法来判断哪些标记可以合并:

首先,它将所有标记分成两组(想象为分成A、B两堆积木)
然后,它在这两组之间找出最相似的标记对
不同于以前的方法固定合并特定数量的标记,DToMe设定了一个相似度阈值
只有相似度超过这个阈值的标记才会被合并
这样,简单图像(如白纸上的小圆点)会有更多标记被合并,而复杂图像(如城市街景)则保留更多独立标记

最精彩的部分是:DToMe不需要额外训练就能工作。研究团队只需对大量图像进行一次性分析,确定合适的相似度阈值,然后就可以应用到任何VLM模型中。

2. 虚拟标记解合并(Virtual Token Unmerging,VTU)

但这里有个问题:大语言模型部分已经习惯于处理固定数量的视觉标记。如果我们突然减少标记数量,模型可能会感到"困惑",导致性能下降。

这就像你习惯了按特定方式排列的文件柜,突然有人把一些文件夹合并了,虽然信息没丢,但你可能需要时间适应新的排列方式。

VTU巧妙地解决了这个问题:它允许语言模型"以为"自己仍在处理完整数量的标记。具体来说:

VTU记录了哪些标记被合并以及它们原本的位置
在语言模型的注意力计算阶段,VTU能高效地模拟出完整标记集的注意力模式
这样,语言模型可以像往常一样工作,而不需要任何重新训练

回到我们的积木比喻:VTU就像是保存了一份积木原本排列的"地图",虽然我们把积木归类存储了,但需要时,我们能立即知道每个积木原本应该在哪里。

三、令人印象深刻的实验结果

研究团队在多个视觉语言任务上测试了DyMU,结果令人震惊:

出色的性能与效率平衡

在LLaVA-1.5模型上,DyMU实现了三个不同级别的压缩:

DyMU-low:平均保留约89个标记(仅为原来的15%),同时保持原模型97.7%的性能
DyMU-mid:平均保留约195个标记(约原来的34%),达到原模型99.1%的性能
DyMU-high:平均保留约394个标记(约原来的68%),实现100.4%的性能(略微超过原始模型)

这就像是在不损失画质的情况下,将图片文件大小减小到原来的15%-68%!

适用于多种模型架构

研究团队证明了DyMU几乎可以与任何主流VLM无缝集成:

它在使用CLIP视觉编码器的LLaVA-1.5上工作良好
它也能在使用SigLIP视觉编码器的模型上取得类似成效
它甚至能与最新的能处理任意分辨率图像的LLaVA-OneVision模型兼容
它不仅适用于图像处理,在视频理解任务上也表现出色
智能适应图像复杂度

最令人印象深刻的是,DyMU确实能根据图像复杂度智能分配资源:

对于简单图像(如白纸上的小圆点),DyMU可能只使用8-10个标记
对于中等复杂度的图像(如简单风景),DyMU使用约50-70个标记
对于高度复杂的图像(如繁忙的街景),DyMU保留约80-90个标记

这种动态分配能力不仅提高了效率,还为用户提供了更好的控制力。与现有系统(如GPT-4o)相比,后者无论图像复杂度如何,都会根据分辨率收取固定的标记费用。

四、DyMU如何在实际应用中发挥作用?

研究团队还展示了几个DyMU的实际应用示例,展示了如何通过结合其他工具进一步提高效率:

与背景移除工具结合

想象一张照片中有一只蓝鸟站在大片背景前。传统VLM需要处理整张图片,消耗9477个标记。而使用背景移除工具+DyMU,只需处理鸟的部分,将标记数从9477减少到仅451个,同时保持答案准确性。

与OCR(光学字符识别)工具结合

对于包含文字的图片,如葡萄酒标签,结合OCR工具和DyMU可以将标记数从3645减少到259,同时正确识别出酒的年份。

与对象检测工具结合

在需要计数人数的任务中,结合对象检测和DyMU可以将标记数从11664减少到710,同时保持准确性。

这些例子表明,DyMU不仅自身高效,还能与其他视觉处理工具协同工作,进一步提升效率。

五、DyMU的工作原理更深入解析

对于技术细节感兴趣的读者,这里简单解释一下DyMU的核心机制:

动态标记合并(DToMe)如何工作?

找出冗余标记:在视觉变换器(ViT)的每一层,DToMe将标记分为两组,然后通过计算它们的"键"(key)相似度找出最相似的标记对。

设定合并阈值:不同于以前的方法固定合并数量,DToMe使用批处理方式,在大量图像上分析标记相似度分布,找出合适的阈值。这样,简单图像会合并更多标记,复杂图像会保留更多标记。

加权合并:合并标记时,DToMe会根据每个标记已经包含的原始标记数量进行加权平均,确保信息不会丢失。同时,它还会记录每个标记的"来源"——哪些原始标记被合并进来了。

虚拟标记解合并(VTU)如何工作?

有效模拟完整注意力:VTU基于一个关键洞察——在使用RoPE(旋转位置编码)的变换器中,可以高效地重建完整标记集的注意力矩阵,而无需实际扩展标记。

位置信息保留:通过跟踪每个合并标记的原始位置,VTU能够在不增加计算复杂度的情况下,模拟出完整标记序列的注意力动态。

无需重新训练:这种方法不需要对语言模型进行任何微调或重新训练,可以直接插入现有模型。

这种技术组合既减少了计算资源需求,又保留了模型性能,实现了效率与质量的完美平衡。

结语:DyMU为AI视觉处理开辟新道路

归根结底,DyMU代表了一种全新思路:AI系统应该像人类一样,根据任务复杂度分配资源。我们不会对着白纸和街景照片投入相同的注意力,AI也不应该这样。

DyMU的核心创新在于它实现了"按需计算"——简单图像使用更少资源,复杂图像保留更多细节。这种方法不仅提高了效率,还为用户提供了前所未有的计算资源控制能力。

更令人惊叹的是,这一切都不需要复杂的重新训练过程。DyMU可以直接应用于现有模型,立即带来效率提升。在能够将标记数量减少至原来15%的同时,仍能保持超过97%的性能,这是一个了不起的成就。

随着视觉AI应用的普及,像DyMU这样的高效技术将使这些系统更经济、更环保、更易于部署在各种设备上。未来,我们可能会看到这种"动态资源分配"思想扩展到AI的其他领域,让人工智能系统在保持强大功能的同时变得更加高效。

对于希望深入了解这项研究的读者,完整论文可通过arXiv:2504.17040访问,或访问项目网页https://mikewangwzhl.github.io/dymu获取更多信息。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-