动态合并与虚拟解合：让视觉语言模型更高效运行

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

动态合并与虚拟解合：让视觉语言模型更高效运行

作者：科技行者

2025-04-28 12:22

分享至：

想象你使用一个强大的AI助手来理解图片。这个AI需要将图片转换成大量的"视觉令牌"(visual tokens)，就像将图片切成小块进行处理。目前的主流视觉语言模型面临一个严重问题：无论图片内容多么简单或复杂，它们总是使用固定数量的视觉令牌来表示每张图片。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-28 12:22 • 科技行者

在2025年4月，伊利诺伊大学香槟分校的王振海龙、Salesforce研究院的Senthil Purushwalkam等研究者共同发表了一篇创新性论文《DYMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs》。该论文发布在arXiv预印本平台(arXiv:2504.17040v1)，为视觉语言模型(VLMs)的效率提升提供了一种全新方法。有兴趣深入了解的读者可以通过https://mikewangwzhl.github.io/dymu访问项目页面获取更多信息。

视觉语言模型的"瓶颈"问题

这就好比你在描述不同复杂度的图片时，总是使用相同数量的词语 - 无论是描述一个简单的白色背景上的小圆点，还是描述一个繁忙的城市街景，你都被要求必须使用exactly 576个词。这显然不合理且效率低下！

研究团队通过一个生动的例子说明了这一问题：当使用CLIP（一种流行的视觉编码器）处理图片时，无论是处理一张几乎空白的简单图片，还是处理包含建筑物、车辆和人物的复杂场景，它都会生成完全相同数量（576个）的视觉令牌。这与文本处理形成鲜明对比 - 在文本中，你需要的词语数量自然会随内容复杂度增加而增加。

特别对于高分辨率图片，这个问题更加严重。例如，LLaVA-OneVision这样的最新模型在处理1280×960分辨率的图片时，会生成多达9477个视觉令牌，而配对的文本查询通常只有约24个令牌。这意味着模型在处理一张高分辨率图片时，耗费的计算资源相当于处理400-500个句子！

DYMU：让视觉令牌数量与图片复杂度匹配

DYMU（Dynamic Merging and Virtual Unmerging）是研究团队提出的解决方案，它包含两个关键组件：

动态令牌合并 (Dynamic Token Merging, DToMe)：这部分技术能够根据图片的复杂度动态调整视觉令牌的数量。简单的图片使用较少的令牌，复杂的图片保留更多的令牌。这就像是一个聪明的编辑，知道何时应该用简洁的语言，何时需要详细描述。

虚拟令牌解合 (Virtual Token Unmerging, VTU)：这部分技术让大型语言模型能够高效处理这些变长的视觉令牌序列，同时保持与原始模型相同的性能。它巧妙地模拟了完整令牌序列的注意力动态，让模型"以为"它仍在处理完整长度的序列。

最关键的是，DYMU完全不需要额外的训练！这意味着它可以直接应用于现有的视觉语言模型，无需昂贵的再训练过程。这对于那些没有公开完整训练数据和方法的主流VLM模型尤为重要。

DYMU如何工作？
动态令牌合并：智能压缩图片信息

动态令牌合并的工作原理类似于一名熟练的编辑，知道哪些相似的内容可以合并简化。假设你正在描述一片蓝天，你不需要反复说"这里是蓝色，那里也是蓝色..."，而是可以简单地说"天空是蓝色的"。

具体来说，DToMe在每个视觉转换器(ViT)层中动态合并相似的令牌：

识别冗余令牌：首先，系统将令牌分成两组，计算令牌之间的相似度。
基于阈值合并令牌：根据预先计算的相似度阈值，决定哪些令牌应该合并。
跟踪合并位置：系统会记录哪些令牌被合并，以确保信息正确传递。

关键的创新在于，这个合并过程是动态的 - 图片内容越简单，合并的令牌就越多。研究团队通过批量处理大量图片来确定合适的合并阈值，使得平均而言，每张图片会根据其复杂度动态决定保留多少令牌。

虚拟令牌解合：让模型兼容变长输入

然而，仅仅压缩视觉令牌是不够的。大型语言模型通常期望固定长度的输入。这就像一位厨师习惯了使用特定数量的配料，突然给他不同数量的材料会让他无所适从。

虚拟令牌解合解决了这个问题：

重建注意力矩阵：它巧妙地利用旋转位置编码(RoPE)的线性特性，有效地模拟完整序列的注意力动态。
高效计算：该方法避免了显式展开令牌序列，大大降低了计算开销。
序列重合并：处理完成后，输出会被重新合并，以便后续层继续高效处理。

这个过程可以类比为：虽然我们只给厨师提供了精简的配料，但我们设计了一种特殊的菜谱，让他能像使用完整配料一样烹饪出相同品质的菜肴。

DYMU的实际效果如何？

研究团队在多个视觉语言模型和多种视觉理解任务上评估了DYMU的性能。结果令人印象深刻：

显著提升效率：与原始模型相比，DYMU可以减少32%-85%的视觉令牌数量，同时保持相当的性能。
自适应优势：相比固定长度压缩方法，DYMU在复杂图片上表现更好，因为它为复杂图片分配了更多的令牌。
广泛兼容性：DYMU成功应用于多种不同的VLM架构、视觉编码器和训练策略。

特别值得一提的是，当应用于最新的AnyRes模型（能够处理任意分辨率图片的模型）时，DYMU表现依然出色。在LLaVA-OneVision模型上，DYMU-ov-low版本仅使用约14%的原始令牌数量，就达到了基准模型96.5%的性能。

视觉令牌数量与图片复杂度的关联

研究人员进行了一项有趣的实验，分析DYMU分配的令牌数量与图片复杂度的关系。他们使用JPEG压缩率作为图片复杂度的衡量标准（复杂图片通常需要更大的JPEG文件大小）。

结果显示，DYMU分配的令牌数量与图片复杂度之间存在强烈相关性：简单图片获得较少的令牌（有些仅需8-10个），而复杂场景则获得更多令牌（最多可达85个）。这正是我们期望的自然行为！

更重要的是，当与固定长度令牌削减方法（如ToMe）相比，DYMU在复杂图片上表现明显更好，因为它能够为复杂内容分配更多的计算资源。

可控的视觉令牌长度：更大的灵活性

DYMU的一个额外优势是它提供了对令牌成本的更大控制权。这与现有系统（如GPT-4o）形成鲜明对比，后者对每张图片收取固定的令牌费用，仅基于分辨率而非内容复杂度。

研究团队展示了如何将DYMU与其他视觉工具结合使用，进一步提高效率：

背景移除：移除不相关的背景后，DYMU可以将令牌数量从1295减少到451，同时保持准确性。
OCR（文字识别）：专注于图片中的文字区域，令牌数量从3645减少到259。
对象检测：仅关注相关对象，令牌数量从11664减少到710。

这种灵活性使DYMU特别适合资源受限的应用场景，用户可以根据实际需求和可用资源调整处理策略。

虚拟令牌解合的重要性

研究团队还专门评估了虚拟令牌解合(VTU)组件的重要性。结果显示，当在不使用VTU的情况下直接将减少的令牌输入到语言模型时，性能会显著下降。

在9个基准测试中，VTU在8个测试中显著提升了性能，证明了它在保持模型兼容性方面的重要作用。VTU通过高效重建完整注意力矩阵，使得模型能够正确处理减少后的令牌序列。

总结：更高效的视觉语言模型之路

DYMU代表了视觉语言模型效率提升的一个重要突破。它巧妙地解决了当前VLM中固定长度视觉表示的内在低效问题，引入了一种动态适应图片内容复杂度的解决方案。

其主要优势包括：

完全无需训练：可以直接应用于现有模型，无需昂贵的再训练过程
自适应令牌分配：简单图片使用较少令牌，复杂图片保留更多令牌
广泛兼容性：适用于各种VLM架构，包括最新的AnyRes模型
卓越的性能-效率权衡：减少高达85%的令牌数量，同时保持相当性能
灵活控制：允许与其他视觉工具结合，进一步优化效率

对于普通用户，这项研究意味着未来的视觉人工智能可能会运行得更快、更节能，同时保持高质量的理解能力。对于资源受限的设备（如移动设备或嵌入式系统），这种效率提升尤为重要。

随着视觉语言模型在日常应用中的普及，DYMU这样的技术创新将帮助降低运行成本，提高响应速度，并使先进的AI视觉理解能力更广泛地可用。

研究团队提到，未来工作方向包括改进DYMU在空间敏感任务（如文本识别和空间推理）上的表现，以及探索将DYMU扩展到视频领域，减少时间上的冗余。这些方向将进一步推动视觉语言模型向更高效、更实用的方向发展。

分享至

0赞

好文章，需要你的鼓励

友情链接

京ICP证15039648号京ICP备15039648号-9 京公网安备 11010802021500号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱: jubao@zhiding.cn 　网上有害信息举报专区：https://www.12377.cn

微信扫一扫，关注公众号

见证连接与计算的「力量」

动态合并与虚拟解合：让视觉语言模型更高效运行

至顶头条

科技行者

码客人生

奇客Solidot

奇客情报站

奇客故事

奖励设计：让AI学会智能使用工具的关键

ToolRL：奖励设计是工具学习所需的全部

X-Teaming：使用自适应多智能体进行多轮越狱攻击和防御

"思考操纵"：用外部思考让大型推理模型更高效

奖励设计：让AI学会智能使用工具的关键

ToolRL：奖励设计是工具学习所需的全部

X-Teaming：使用自适应多智能体进行多轮越狱攻击和防御

"思考操纵"：用外部思考让大型推理模型更高效

文化

移动计算

大数据

创新创业

物联网

商业

社交新媒体

智能硬件

移动设备

人工智能

汽车

5G

量子计算

云计算

科学

对话科技行者

机器人新纪元

友情链接