DyMU：为高效视觉-语言模型打造的动态合并与虚拟解合并技术

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

DyMU：为高效视觉-语言模型打造的动态合并与虚拟解合并技术

作者：科技行者

2025-04-28 14:35

分享至：

想象你有一个超级聪明的朋友，能看懂图片并回答关于图片的问题。但这位朋友有个古怪的习惯：无论你给他看什么图片——简单如一张白纸上的小圆点，还是复杂如一整个城市街景——他都会花同样多的时间仔细研究。这听起来很奇怪，对吧？为什么简单的图片不能更快处理完成呢？

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-28 14:35 • 科技行者

在人工智能快速发展的今天，来自伊利诺伊大学厄巴纳-香槟分校的Zhenhailong Wang与Heng Ji以及Salesforce Research的Senthil Purushwalkam、Caiming Xiong、Silvio Savarese和Ran Xu共同研发了一项突破性技术。他们在2025年4月发表的论文《DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs》中，提出了一种无需额外训练就能大幅提升视觉-语言模型（VLM）效率的全新方法。想深入了解这项研究的读者可以通过arXiv:2504.17040访问完整论文。

一、为什么我们需要更高效的视觉-语言模型？

这正是目前主流视觉-语言模型（VLM）面临的问题。从技术上讲，当前的VLM都是由两部分组成：一个视觉编码器（提取图像特征）和一个大语言模型（处理这些特征并生成回答）。视觉编码器总是将图像转换为固定数量的"视觉标记"（visual tokens）——无论图像内容有多简单或复杂。比如，流行的CLIP视觉编码器总是为每张图片生成576个标记，即使是一张几乎空白的图片。

这种设计导致了严重的效率问题。以LLaVA-OneVision为例，处理一张1280×960像素的图像需要生成9477个视觉标记！相比之下，文本查询通常只有约24个标记。想象一下有人用50个字提问，而AI需要阅读相当于400-500个句子的信息来处理一张图片，这显然不够高效。

这就是DyMU（动态合并与虚拟解合并）技术的用武之地。研究团队想解决一个核心问题：为什么不能根据图片的复杂度动态调整处理它所需的资源呢？

二、DyMU如何巧妙节省计算资源？

DyMU的核心理念可以用一个简单的类比来理解：想象你在整理一大堆彩色积木。如果有很多相似颜色的积木，你可能会先把它们分组，而不是一个个处理。同时，你心里清楚每组中有哪些积木，需要时还能"记起"它们原本的位置。

DyMU正是这样工作的，它包含两个关键部分：

1. 动态标记合并（Dynamic Token Merging，DToMe）

这部分解决了"为什么所有图像都要使用相同数量的标记"这一问题。DToMe会自动分析图像内容，将相似的视觉标记合并在一起。就像我们会把相似的物品归类一样，DToMe能识别图像中信息冗余的部分并合并它们。

具体来说，DToMe使用了一种巧妙的方法来判断哪些标记可以合并：

首先，它将所有标记分成两组（想象为分成A、B两堆积木）
然后，它在这两组之间找出最相似的标记对
不同于以前的方法固定合并特定数量的标记，DToMe设定了一个相似度阈值
只有相似度超过这个阈值的标记才会被合并
这样，简单图像（如白纸上的小圆点）会有更多标记被合并，而复杂图像（如城市街景）则保留更多独立标记

最精彩的部分是：DToMe不需要额外训练就能工作。研究团队只需对大量图像进行一次性分析，确定合适的相似度阈值，然后就可以应用到任何VLM模型中。

2. 虚拟标记解合并（Virtual Token Unmerging，VTU）

但这里有个问题：大语言模型部分已经习惯于处理固定数量的视觉标记。如果我们突然减少标记数量，模型可能会感到"困惑"，导致性能下降。

这就像你习惯了按特定方式排列的文件柜，突然有人把一些文件夹合并了，虽然信息没丢，但你可能需要时间适应新的排列方式。

VTU巧妙地解决了这个问题：它允许语言模型"以为"自己仍在处理完整数量的标记。具体来说：

VTU记录了哪些标记被合并以及它们原本的位置
在语言模型的注意力计算阶段，VTU能高效地模拟出完整标记集的注意力模式
这样，语言模型可以像往常一样工作，而不需要任何重新训练

回到我们的积木比喻：VTU就像是保存了一份积木原本排列的"地图"，虽然我们把积木归类存储了，但需要时，我们能立即知道每个积木原本应该在哪里。

三、令人印象深刻的实验结果

研究团队在多个视觉语言任务上测试了DyMU，结果令人震惊：

出色的性能与效率平衡

在LLaVA-1.5模型上，DyMU实现了三个不同级别的压缩：

DyMU-low：平均保留约89个标记（仅为原来的15%），同时保持原模型97.7%的性能
DyMU-mid：平均保留约195个标记（约原来的34%），达到原模型99.1%的性能
DyMU-high：平均保留约394个标记（约原来的68%），实现100.4%的性能（略微超过原始模型）

这就像是在不损失画质的情况下，将图片文件大小减小到原来的15%-68%！

适用于多种模型架构

研究团队证明了DyMU几乎可以与任何主流VLM无缝集成：

它在使用CLIP视觉编码器的LLaVA-1.5上工作良好
它也能在使用SigLIP视觉编码器的模型上取得类似成效
它甚至能与最新的能处理任意分辨率图像的LLaVA-OneVision模型兼容
它不仅适用于图像处理，在视频理解任务上也表现出色
智能适应图像复杂度

最令人印象深刻的是，DyMU确实能根据图像复杂度智能分配资源：

对于简单图像（如白纸上的小圆点），DyMU可能只使用8-10个标记
对于中等复杂度的图像（如简单风景），DyMU使用约50-70个标记
对于高度复杂的图像（如繁忙的街景），DyMU保留约80-90个标记

这种动态分配能力不仅提高了效率，还为用户提供了更好的控制力。与现有系统（如GPT-4o）相比，后者无论图像复杂度如何，都会根据分辨率收取固定的标记费用。

四、DyMU如何在实际应用中发挥作用？

研究团队还展示了几个DyMU的实际应用示例，展示了如何通过结合其他工具进一步提高效率：

与背景移除工具结合

想象一张照片中有一只蓝鸟站在大片背景前。传统VLM需要处理整张图片，消耗9477个标记。而使用背景移除工具+DyMU，只需处理鸟的部分，将标记数从9477减少到仅451个，同时保持答案准确性。

与OCR（光学字符识别）工具结合

对于包含文字的图片，如葡萄酒标签，结合OCR工具和DyMU可以将标记数从3645减少到259，同时正确识别出酒的年份。

与对象检测工具结合

在需要计数人数的任务中，结合对象检测和DyMU可以将标记数从11664减少到710，同时保持准确性。

这些例子表明，DyMU不仅自身高效，还能与其他视觉处理工具协同工作，进一步提升效率。

五、DyMU的工作原理更深入解析

对于技术细节感兴趣的读者，这里简单解释一下DyMU的核心机制：

动态标记合并（DToMe）如何工作？

找出冗余标记：在视觉变换器（ViT）的每一层，DToMe将标记分为两组，然后通过计算它们的"键"（key）相似度找出最相似的标记对。

设定合并阈值：不同于以前的方法固定合并数量，DToMe使用批处理方式，在大量图像上分析标记相似度分布，找出合适的阈值。这样，简单图像会合并更多标记，复杂图像会保留更多标记。

加权合并：合并标记时，DToMe会根据每个标记已经包含的原始标记数量进行加权平均，确保信息不会丢失。同时，它还会记录每个标记的"来源"——哪些原始标记被合并进来了。

虚拟标记解合并（VTU）如何工作？

有效模拟完整注意力：VTU基于一个关键洞察——在使用RoPE（旋转位置编码）的变换器中，可以高效地重建完整标记集的注意力矩阵，而无需实际扩展标记。

位置信息保留：通过跟踪每个合并标记的原始位置，VTU能够在不增加计算复杂度的情况下，模拟出完整标记序列的注意力动态。

无需重新训练：这种方法不需要对语言模型进行任何微调或重新训练，可以直接插入现有模型。

这种技术组合既减少了计算资源需求，又保留了模型性能，实现了效率与质量的完美平衡。

结语：DyMU为AI视觉处理开辟新道路

归根结底，DyMU代表了一种全新思路：AI系统应该像人类一样，根据任务复杂度分配资源。我们不会对着白纸和街景照片投入相同的注意力，AI也不应该这样。

DyMU的核心创新在于它实现了"按需计算"——简单图像使用更少资源，复杂图像保留更多细节。这种方法不仅提高了效率，还为用户提供了前所未有的计算资源控制能力。

更令人惊叹的是，这一切都不需要复杂的重新训练过程。DyMU可以直接应用于现有模型，立即带来效率提升。在能够将标记数量减少至原来15%的同时，仍能保持超过97%的性能，这是一个了不起的成就。

随着视觉AI应用的普及，像DyMU这样的高效技术将使这些系统更经济、更环保、更易于部署在各种设备上。未来，我们可能会看到这种"动态资源分配"思想扩展到AI的其他领域，让人工智能系统在保持强大功能的同时变得更加高效。

对于希望深入了解这项研究的读者，完整论文可通过arXiv:2504.17040访问，或访问项目网页https://mikewangwzhl.github.io/dymu获取更多信息。

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

DyMU：为高效视觉-语言模型打造的动态合并与虚拟解合并技术

至顶头条

科技行者

码客人生

奇客Solidot

奇客情报站

奇客故事

奖励设计：让AI学会智能使用工具的关键

ToolRL：奖励设计是工具学习所需的全部

X-Teaming：使用自适应多智能体进行多轮越狱攻击和防御

"思考操纵"：用外部思考让大型推理模型更高效

奖励设计：让AI学会智能使用工具的关键

ToolRL：奖励设计是工具学习所需的全部

X-Teaming：使用自适应多智能体进行多轮越狱攻击和防御

"思考操纵"：用外部思考让大型推理模型更高效

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接