微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 动态合并与虚拟解合:让视觉语言模型更高效运行

动态合并与虚拟解合:让视觉语言模型更高效运行

2025-04-28 12:22
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-28 12:22 科技行者

在2025年4月,伊利诺伊大学香槟分校的王振海龙、Salesforce研究院的Senthil Purushwalkam等研究者共同发表了一篇创新性论文《DYMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs》。该论文发布在arXiv预印本平台(arXiv:2504.17040v1),为视觉语言模型(VLMs)的效率提升提供了一种全新方法。有兴趣深入了解的读者可以通过https://mikewangwzhl.github.io/dymu访问项目页面获取更多信息。

视觉语言模型的"瓶颈"问题

想象你使用一个强大的AI助手来理解图片。这个AI需要将图片转换成大量的"视觉令牌"(visual tokens),就像将图片切成小块进行处理。目前的主流视觉语言模型面临一个严重问题:无论图片内容多么简单或复杂,它们总是使用固定数量的视觉令牌来表示每张图片。

这就好比你在描述不同复杂度的图片时,总是使用相同数量的词语 - 无论是描述一个简单的白色背景上的小圆点,还是描述一个繁忙的城市街景,你都被要求必须使用exactly 576个词。这显然不合理且效率低下!

研究团队通过一个生动的例子说明了这一问题:当使用CLIP(一种流行的视觉编码器)处理图片时,无论是处理一张几乎空白的简单图片,还是处理包含建筑物、车辆和人物的复杂场景,它都会生成完全相同数量(576个)的视觉令牌。这与文本处理形成鲜明对比 - 在文本中,你需要的词语数量自然会随内容复杂度增加而增加。

特别对于高分辨率图片,这个问题更加严重。例如,LLaVA-OneVision这样的最新模型在处理1280×960分辨率的图片时,会生成多达9477个视觉令牌,而配对的文本查询通常只有约24个令牌。这意味着模型在处理一张高分辨率图片时,耗费的计算资源相当于处理400-500个句子!

DYMU:让视觉令牌数量与图片复杂度匹配

DYMU(Dynamic Merging and Virtual Unmerging)是研究团队提出的解决方案,它包含两个关键组件:

动态令牌合并 (Dynamic Token Merging, DToMe):这部分技术能够根据图片的复杂度动态调整视觉令牌的数量。简单的图片使用较少的令牌,复杂的图片保留更多的令牌。这就像是一个聪明的编辑,知道何时应该用简洁的语言,何时需要详细描述。

虚拟令牌解合 (Virtual Token Unmerging, VTU):这部分技术让大型语言模型能够高效处理这些变长的视觉令牌序列,同时保持与原始模型相同的性能。它巧妙地模拟了完整令牌序列的注意力动态,让模型"以为"它仍在处理完整长度的序列。

最关键的是,DYMU完全不需要额外的训练!这意味着它可以直接应用于现有的视觉语言模型,无需昂贵的再训练过程。这对于那些没有公开完整训练数据和方法的主流VLM模型尤为重要。

DYMU如何工作?
动态令牌合并:智能压缩图片信息

动态令牌合并的工作原理类似于一名熟练的编辑,知道哪些相似的内容可以合并简化。假设你正在描述一片蓝天,你不需要反复说"这里是蓝色,那里也是蓝色...",而是可以简单地说"天空是蓝色的"。

具体来说,DToMe在每个视觉转换器(ViT)层中动态合并相似的令牌:

识别冗余令牌:首先,系统将令牌分成两组,计算令牌之间的相似度。
基于阈值合并令牌:根据预先计算的相似度阈值,决定哪些令牌应该合并。
跟踪合并位置:系统会记录哪些令牌被合并,以确保信息正确传递。

关键的创新在于,这个合并过程是动态的 - 图片内容越简单,合并的令牌就越多。研究团队通过批量处理大量图片来确定合适的合并阈值,使得平均而言,每张图片会根据其复杂度动态决定保留多少令牌。

虚拟令牌解合:让模型兼容变长输入

然而,仅仅压缩视觉令牌是不够的。大型语言模型通常期望固定长度的输入。这就像一位厨师习惯了使用特定数量的配料,突然给他不同数量的材料会让他无所适从。

虚拟令牌解合解决了这个问题:

重建注意力矩阵:它巧妙地利用旋转位置编码(RoPE)的线性特性,有效地模拟完整序列的注意力动态。
高效计算:该方法避免了显式展开令牌序列,大大降低了计算开销。
序列重合并:处理完成后,输出会被重新合并,以便后续层继续高效处理。

这个过程可以类比为:虽然我们只给厨师提供了精简的配料,但我们设计了一种特殊的菜谱,让他能像使用完整配料一样烹饪出相同品质的菜肴。

DYMU的实际效果如何?

研究团队在多个视觉语言模型和多种视觉理解任务上评估了DYMU的性能。结果令人印象深刻:

显著提升效率:与原始模型相比,DYMU可以减少32%-85%的视觉令牌数量,同时保持相当的性能。
自适应优势:相比固定长度压缩方法,DYMU在复杂图片上表现更好,因为它为复杂图片分配了更多的令牌。
广泛兼容性:DYMU成功应用于多种不同的VLM架构、视觉编码器和训练策略。

特别值得一提的是,当应用于最新的AnyRes模型(能够处理任意分辨率图片的模型)时,DYMU表现依然出色。在LLaVA-OneVision模型上,DYMU-ov-low版本仅使用约14%的原始令牌数量,就达到了基准模型96.5%的性能。

视觉令牌数量与图片复杂度的关联

研究人员进行了一项有趣的实验,分析DYMU分配的令牌数量与图片复杂度的关系。他们使用JPEG压缩率作为图片复杂度的衡量标准(复杂图片通常需要更大的JPEG文件大小)。

结果显示,DYMU分配的令牌数量与图片复杂度之间存在强烈相关性:简单图片获得较少的令牌(有些仅需8-10个),而复杂场景则获得更多令牌(最多可达85个)。这正是我们期望的自然行为!

更重要的是,当与固定长度令牌削减方法(如ToMe)相比,DYMU在复杂图片上表现明显更好,因为它能够为复杂内容分配更多的计算资源。

可控的视觉令牌长度:更大的灵活性

DYMU的一个额外优势是它提供了对令牌成本的更大控制权。这与现有系统(如GPT-4o)形成鲜明对比,后者对每张图片收取固定的令牌费用,仅基于分辨率而非内容复杂度。

研究团队展示了如何将DYMU与其他视觉工具结合使用,进一步提高效率:

背景移除:移除不相关的背景后,DYMU可以将令牌数量从1295减少到451,同时保持准确性。
OCR(文字识别):专注于图片中的文字区域,令牌数量从3645减少到259。
对象检测:仅关注相关对象,令牌数量从11664减少到710。

这种灵活性使DYMU特别适合资源受限的应用场景,用户可以根据实际需求和可用资源调整处理策略。

虚拟令牌解合的重要性

研究团队还专门评估了虚拟令牌解合(VTU)组件的重要性。结果显示,当在不使用VTU的情况下直接将减少的令牌输入到语言模型时,性能会显著下降。

在9个基准测试中,VTU在8个测试中显著提升了性能,证明了它在保持模型兼容性方面的重要作用。VTU通过高效重建完整注意力矩阵,使得模型能够正确处理减少后的令牌序列。

总结:更高效的视觉语言模型之路

DYMU代表了视觉语言模型效率提升的一个重要突破。它巧妙地解决了当前VLM中固定长度视觉表示的内在低效问题,引入了一种动态适应图片内容复杂度的解决方案。

其主要优势包括:

完全无需训练:可以直接应用于现有模型,无需昂贵的再训练过程
自适应令牌分配:简单图片使用较少令牌,复杂图片保留更多令牌
广泛兼容性:适用于各种VLM架构,包括最新的AnyRes模型
卓越的性能-效率权衡:减少高达85%的令牌数量,同时保持相当性能
灵活控制:允许与其他视觉工具结合,进一步优化效率

对于普通用户,这项研究意味着未来的视觉人工智能可能会运行得更快、更节能,同时保持高质量的理解能力。对于资源受限的设备(如移动设备或嵌入式系统),这种效率提升尤为重要。

随着视觉语言模型在日常应用中的普及,DYMU这样的技术创新将帮助降低运行成本,提高响应速度,并使先进的AI视觉理解能力更广泛地可用。

研究团队提到,未来工作方向包括改进DYMU在空间敏感任务(如文本识别和空间推理)上的表现,以及探索将DYMU扩展到视频领域,减少时间上的冗余。这些方向将进一步推动视觉语言模型向更高效、更实用的方向发展。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-