微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 打破模态屏障:使用多模态大语言模型实现通用嵌入学习

打破模态屏障:使用多模态大语言模型实现通用嵌入学习

2025-04-27 11:00
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-27 11:00 科技行者

这项由悉尼大学的谷天成、DeepGlint的杨凯程、同济大学的冯子勇、王兴君、张炎召、龙定坤、陈颖达以及帝国理工学院的邓健康共同完成的研究,于2025年4月发表在预印本平台arXiv上(arXiv:2504.17432v1)。文章提出了一种名为UniME(Universal Multimodal Embedding)的创新框架,旨在利用多模态大语言模型的能力来学习高效的通用多模态表示。感兴趣的读者可以通过论文的项目页面和代码库深入了解更多细节。

一、研究背景:为什么需要打破模态屏障?

想象一下,你正在使用一个智能助手,希望它能根据你的文字描述找到相似的图片,或者通过一张图片找到相关的文本信息。这就像是你在和一个不懂你语言的人沟通,你们之间存在着一道"模态屏障"。为了让计算机理解并连接不同类型的信息(如图像和文本),研究人员需要开发能够将这些不同类型数据转化为通用"语言"的方法。

在过去,对比语言-图像预训练(CLIP)已经成为处理这类任务的主流方法,它通过学习将图像和文本映射到同一个表示空间来实现跨模态检索。然而,CLIP模型存在三个主要限制:首先,它对文本长度有严格限制(最多77个词元),这让它难以处理详细的文本描述;其次,它采用双塔结构分别处理图像和文本,缺乏模态间的交互;最后,它的语言理解能力有限,难以把握复杂的语义组合关系,更像是一个"词袋"式的理解方式。

近年来,随着大语言模型(LLM)的迅速发展,研究人员开始探索如何将LLM的强大能力应用到多模态场景中。多模态大语言模型(MLLM)展现出惊人的视觉-语言理解能力,但由于它们主要通过自回归的下一个词元预测目标进行训练,在学习多模态表示方面的潜力仍未被充分挖掘。

二、UniME:一个两阶段通用多模态表示学习框架

谷天成团队提出的UniME框架就像是一位精通多国语言的翻译家,能够将不同"语言"(模态)的信息转化为一种通用的"语言"(表示),从而使计算机能够更好地理解和处理各种任务。这个框架分为两个主要阶段:

首先是"文本判别知识蒸馏"阶段。想象一个资深翻译大师(教师模型)在教导一个年轻的翻译学徒(学生模型)。大师已经掌握了丰富的语言知识和翻译技巧,而学徒正在学习如何准确地捕捉和表达不同语言的细微差别。在这一阶段,研究团队利用强大的基于LLM的教师模型(NV-Embed V2)来增强MLLM语言部分的表示能力。具体来说,他们让学生模型模仿教师模型对文本的理解方式,通过最小化两者之间的KL散度(一种衡量两个概率分布差异的方法)来实现知识的传递。

第二个阶段是"硬负样本增强指令微调"。这就像是给翻译学徒安排一系列难度逐渐增加的翻译练习,重点关注那些最具挑战性的案例。在这一阶段,研究人员首先解决了假负样本污染问题(即那些被错误标记为"不相关"但实际上是"相关"的样本),然后实施了硬负样本采样策略,为每个查询在批次内选择多个最具挑战性的负样本。这种方法迫使模型专注于难以区分的样本,从而学习更具判别力的多模态表示,同时也提高了模型在下游任务中的指令跟随能力。

三、UniME的技术细节:如何让计算机同时理解图像和文本?

让我们进一步了解UniME框架的技术细节。可以把这个过程想象成训练一个能够流利"翻译"图像和文本的AI助手。

在第一阶段的文本判别知识蒸馏中,研究人员面临的主要挑战是MLLM中语言模型部分的自回归解码器架构。这种架构由于因果掩码机制(只能看到前面的词,不能看到后面的词),天生限制了其判别能力,难以有效区分不同项目之间的细微差别。为了解决这一问题,研究团队从MLLM架构中分离出LLM组件,只使用文本输入数据进行训练。

具体来说,他们使用了一个特殊的提示模板:"<文本> 用一个词总结上面的句子:\n"来引导LLM将文本信息压缩成单个嵌入表示。这就像是教会AI用一个关键词来概括一段文字的核心含义。然后,他们将学生模型(MLLM的语言部分)生成的嵌入与强大的教师模型(NV-Embed V2)生成的嵌入进行比较,通过最小化两者之间的KL散度来转移知识,就像老师教学生如何更准确地理解文本。

在第二阶段的硬负样本增强指令微调中,研究人员面临的是MLLM尽管经过大规模预训练,但在视觉敏感性上的不足,以及通用指令提示在复杂检索任务中的局限性。为了解决这些问题,他们引入了两个关键策略:

首先是假负样本过滤机制。在标准的对比学习中,批次内不匹配的样本通常被视为负样本,但实际上可能存在语义相似的假负样本。想象你在学习区分猫和狗的图片,但批次中出现了一张被错误标记为"不相关"的猫的图片。这会误导模型认为某些猫的特征与目标不相关。研究人员通过设定相似度阈值来过滤这些假负样本,确保模型能够专注于真正的难以区分的样本。

其次是硬负样本采样策略。不是随机选择负样本,研究人员让模型专注于那些最"具有欺骗性"的负样本——它们与查询在表面上相似但实际上不相关。这就像是训练一个安全检查员,让他专注于识别那些最容易被错过的伪装品。通过在每个批次内为每个查询采样多个硬负样本,并使用信息噪声对比估计(InfoNCE)损失函数进行训练,模型被迫学习更细微的区别特征,从而提高其判别能力。

四、实验结果:UniME的实际表现如何?

研究团队在多个基准测试上评估了UniME的性能,包括大规模多模态嵌入基准(MMEB)和多种检索任务。结果证明,UniME在各项任务上都取得了显著的性能提升。

在MMEB基准测试中,UniME分别基于Phi3.5-V和LLaVA-1.6两个基础模型进行了评估。与E5-V相比,基于Phi3.5-V的UniME在平均性能上提高了4.2%,而基于LLaVA-1.6的UniME则提高了4.1%。这种显著的性能提升主要归功于所提出的文本判别知识蒸馏方法,它更有效地增强了嵌入表示的判别能力。

研究人员还对UniME进行了可视化分析,随机选择了50个来自COCO数据集的样本,并绘制了跨模态余弦相似度矩阵。结果显示,UniME的矩阵对角线明显比E5-V更清晰,这表明UniME学习的表示具有更强的区分性。在硬负样本增强指令微调阶段后,受益于硬负样本的引入,UniME的嵌入判别能力进一步提升。与VLM2Vec相比,基于Phi3.5-V的UniME性能提高了1.3%,而基于LLaVA-1.6的则提高了3.3%。

在短文本和长文本跨模态检索任务上,UniME同样表现出色。在Flickr30K和MS-COCO短文本数据集上,经过两个阶段训练的UniME比VLM2Vec有5.2%~11.3%的显著提升。在ShareGPT4V和Urban1K长文本数据集上,UniME在所有指标上都表现优越。特别是与EVA-CLIP(8B)相比,UniME在Urban1K数据集上的长文本检索性能提高了14.8%和18.1%。这一显著提升主要是因为EVA-CLIP(8B)受到77个词元长度限制的约束,难以充分传达长文本的完整语义信息。

在组合式跨模态检索任务SugarCrepe上,UniME展示了区分硬负样本的出色能力。基于Phi3.5-V的UniME在关系替换任务上优于E5-V 2.0%,在对象交换任务上优于1.0%,在属性添加任务上优于15.9%。经过第二阶段的硬负样本增强指令微调后,UniME的组合理解能力进一步增强,在关系替换、对象交换和属性添加任务上分别比VLM2Vec提高了3.9%、4.2%和9.1%。

五、深入分析:UniME为什么有效?

为了更深入地理解UniME的工作原理,研究团队进行了一系列分析实验。

首先,他们分析了不同类型负样本的影响。想象你在学习一门外语,有些单词很容易区分(如"苹果"和"汽车"),有些则很容易混淆(如"跑"和"走")。研究人员对三种负样本类型进行了可视化比较:简单负样本(批次中最不相似的)、随机负样本(批次中随机采样的)和硬负样本(在移除正样本和假负样本后批次中最相似的)。

结果显示,使用简单负样本时,由于它们很容易区分,模型难以通过这些数据增强其判别能力,导致训练损失迅速趋近于零。使用随机负样本时,训练损失收敛速度比简单负样本慢,但最终也接近零。相比之下,硬负样本带来了相当大的挑战,维持了较高的训练损失。相应地,简单负样本的梯度范数很小,而硬负样本的梯度范数则显著更高,差异达到数量级。这说明硬负样本确实能够提供更丰富的学习信号,帮助模型更好地区分难以辨别的样本。

其次,研究团队对训练阶段进行了消融研究(即移除某个组件来观察其影响)。结果表明,Phi3.5-V的初始嵌入表现出较弱的判别性能,导致各项任务的表现不佳。经过第一阶段的文本判别知识蒸馏后,模型在MMEB基准、短文本和长文本跨模态检索以及组合式检索任务上分别提高了15%、19.5%、24.9%和19.9%。

仅使用第二阶段的硬负样本增强指令微调则带来了38.5%、17.3%、21.3%和14.0%的性能提升。值得注意的是,第二阶段对MMEB基准性能的提升明显超过第一阶段,这主要是因为模型在遵循复杂指令方面的能力得到了增强。通过结合这两个训练阶段,UniME模型在所有评估的下游任务中都取得了最佳性能。

研究人员还对假负样本过滤阈值β进行了研究。当β设为-0.1时,81.7%的样本中的假负样本被过滤,但由于过滤集中也包含了一些硬负样本,导致模型性能不佳。随着β从-0.1增加到0.1,被过滤假负样本的样本比例从81.7%降至22.9%,性能显著提升。进一步将β增加到0.3,仅13.1%的样本中过滤了假负样本,性能略有下降,这是因为仍存在一些假负样本。

对于硬负样本数量k的研究显示,当k=8时,相比k=4,更多样化的硬负样本带来了更好的性能。进一步增加k的值会引入一些容易的负样本,导致模型失去对学习硬负样本的专注,性能逐渐下降。

最后,研究团队还对输出分布进行了可视化分析。他们使用提示"<图像> 用一个词总结上面的图像:\n",可视化了不同训练阶段前后模型预测的top-k词元概率。结果显示,在训练前,预测的词元更抽象,如"Pastoral"(田园的)和"Peaceful"(平和的)。经过文本判别知识蒸馏后,词元转向更具体的语义,包括"cow"(牛)、"waterfront"(水边)和"house"(房子),但概率分布仍主要集中在"Farm"(农场)上。在第二阶段的硬负样本增强指令微调后,概率分布更均匀地分布在多个与图像语义相一致的词元上,从而使嵌入能够更准确地表达图像的语义内容,增强了判别能力。

六、UniME的应用前景与影响

UniME框架的成功开发为多模态表示学习开辟了新的方向,有望在多个领域产生深远影响。

在搜索引擎和推荐系统中,UniME可以实现更准确的跨模态检索。想象你在电商网站上上传一张你喜欢的沙发图片,系统能够找到不仅外观相似,而且功能、尺寸、价格都符合你需求的产品。这种能力源于UniME能够理解图像和文本之间的深层关系,而不仅仅是表面的视觉相似性。

在内容创作和编辑领域,UniME可以帮助自动为图像生成准确的描述,或根据文本描述生成相关的图像检索结果。例如,设计师可以通过描述自己的创意构思,快速找到符合要求的素材图像,大大提高工作效率。

在辅助技术方面,UniME有助于开发更智能的工具,帮助视障人士更好地理解图像内容,或帮助那些有阅读障碍的人通过图像更直观地理解文本含义。

在数据分析和知识管理领域,UniME能够连接不同模态的信息,帮助企业和研究机构从多源数据中提取更全面的洞察。例如,医疗系统可以结合患者的影像数据和文字病历,提供更准确的诊断和治疗建议。

值得注意的是,UniME的开源代码允许研究人员和开发者在此基础上进行进一步的探索和应用开发,这将加速多模态AI技术的创新和普及。

七、总结与展望

归根结底,UniME框架通过创新的两阶段训练方法,成功地打破了不同模态之间的屏障,使多模态大语言模型能够学习通用的判别性表示,适用于各种下游任务。

第一阶段的文本判别知识蒸馏从强大的基于LLM的教师模型中转移知识,增强了MLLM语言组件的嵌入能力。第二阶段的硬负样本增强指令微调通过假负样本过滤和硬负样本采样策略,进一步提升了模型的判别能力和指令跟随能力。

通过在MMEB基准和多种检索任务上的广泛实验,UniME展示了卓越的判别能力和组合理解能力,在所有评估任务上都取得了显著的性能提升。这些结果表明,多模态大语言模型在学习通用多模态表示方面具有巨大潜力,值得进一步探索。

未来的研究方向可能包括:探索更高效的知识蒸馏方法,开发更先进的硬负样本挖掘策略,以及将UniME框架扩展到更多模态和应用场景。随着这一领域的不断发展,我们有理由期待更智能、更自然的人机交互体验,让不同类型的信息能够无缝连接,共同构建更全面、更深入的理解。

对这项研究感兴趣的读者可以访问项目页面和代码库,深入了解技术细节并尝试复现实验结果。研究团队的开源工作为推动多模态表示学习的进步做出了重要贡献,值得学术界和产业界的共同关注。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-