你有没有想过,当我们在交谈时,除了说出的话,我们的表情、手势和语调也传递着丰富的信息?比如同样说"真棒啊"这句话,你可能是真心赞美,也可能是满含讽刺。这种"听话听音"的能力对人类来说再自然不过,但对AI来说却是一项巨大挑战。现在,清华大学和腾讯公司的研究团队联合带来了一项开创性研究,试图探索AI能否像人类一样,通过多种感官渠道理解交流中的深层含义。
这项由清华大学计算机科学与技术系的张涵磊、李卓航、徐华等研究者和腾讯微信AI团队的朱夜双、周杰、张锦超等人共同完成的研究,于2025年4月发表在arXiv预印本平台(arXiv:2504.16427v2)。研究团队创建了MMLA(多模态语言分析)基准测试,这是首个专门设计用来评估多模态大语言模型在理解人类交流高级语义能力的综合基准。
一、为何需要多模态语言分析?
想象一下,你正在看一部喜剧片。剧中角色面无表情地说:"我棒极了。"单看文字,你可能认为这是自信的表达。但如果你看到他说这话时翻了个白眼,用讽刺的语调,你立刻就会理解——这是在自嘲或嘲讽他人。这种理解需要同时分析文字内容、表情和语调。这正是多模态语言分析的核心:通过整合多种信息渠道(如文本、视频和音频),来理解人类交流中的高级语义。
多模态语言分析在现实生活中有着广泛的应用。想象一下智能助手能够真正理解你的情绪和意图,推荐系统能更准确把握你的喜好,或者社交行为分析工具能帮助我们理解群体互动。这些应用都依赖于AI对人类交流的深层理解。
早期的研究主要关注从社交媒体视频或电视节目中分析情感强度,以及基于艾克曼的六种基本情绪(如快乐、愤怒等)标注电视节目中的情绪类别。研究人员也开发了各种方法来学习不同模态之间的互补信息,并缓解不同模态异质性带来的挑战。除了情感和情绪,研究人员还探索了讽刺和幽默等语言特性,专门设计了二分类任务的多模态融合方法。最近,研究开始关注粗粒度和细粒度的意图分析,使用新的数据集和分类体系,虽然这一领域仍处于早期阶段。
现有的方法主要依赖基于轻量级神经网络的融合技术,在更复杂的推理任务上表现有限。而多模态大语言模型(MLLMs)的出现,通过可扩展的模型参数,展示了巨大的跨模态推理能力潜力。然而,现有的MLLM基准测试主要关注低级感知语义,如场景和程序理解、实例定位等,或初级认知层面的任务,如视频内容分析和常识推理。这些基准测试未能涵盖会话中的高级语义。其他基准测试在这一领域仅包含少数语义维度,如情绪和意图,或无法评估LLMs。
二、MMLA基准测试:全面评估多模态语言理解能力
为了解决这些挑战,研究团队提出了MMLA,这是首个面向基础模型的多模态语言分析综合基准测试。MMLA共覆盖六个代表性的语义维度,这些维度涵盖了多模态会话互动中最重要的认知层面语义方面:
意图:意图捕捉人类交流的最终目的或目标,如请求信息或做决定。想象有人说:"这里有点冷",从字面上看是陈述温度,但实际意图可能是请求关窗或开暖气。
对话行为:这是一种更粗粒度的意图类型,通常关注交流的动态进展,如提问或表达观点。比如"你认为呢?"这个问句明确表示在征求意见。
情感:情感反映说话者的内部心理状态(如快乐、愤怒)。当朋友兴高采烈地告诉你"我得到那份工作了!",他的语调、表情和肢体语言都在传递喜悦的情感。
情绪:情绪指主观观点的极性(如积极或消极)。比如影评中说"总体而言,《新月》只是一般,平平无奇",这传达了中性偏消极的情绪。
说话风格:说话风格指交流中的个人表达变化(如讽刺、幽默)。想象朋友夸张地说"哇,太好了!"同时翻白眼,这种风格表明他实际上是在使用讽刺。
交流行为:交流行为探索个体之间的互动行为(如维持、改变和反思),这些行为促进会话进展并在群体中展现社会属性。例如,在咨询对话中,治疗师可能会提问"你是怎么想到这一点的?"来促进客户的自我反思。
MMLA基准测试囊括了9个公开可用的多模态语言数据集,共计61,000多个多模态语句,横跨76多小时的视频内容。每个语句都包含文本、视频和音频模态。这些数据集来源广泛,包括舞台场景(如电视剧、电影、TED演讲)和真实环境(如自发的社交媒体视频和激励性访谈)。
研究团队的评估方法非常全面,采用了三种策略:零样本推理、有监督微调和指令调整。他们评估了包括Qwen2、Llama3、InternLM2.5等在内的三种类型的LLM,以及包括Qwen2-VL、MiniCPM-V、VideoLLaMA2、LLaVA-OV和LLaVA-Video等五种类型的MLLM。这些模型的参数规模从5亿到720亿不等。
三、研究发现:令人深思的结果
MMLA基准测试的广泛实验揭示了一些令人惊讶的发现。首先,现有的多模态大语言模型在理解高级认知语义方面表现有限。即使在微调后,这些模型的准确率仍普遍低于70%,这凸显了当前模型在处理复杂人类语言方面的重大局限性。
在零样本推理方面,LLM和MLLM表现相当。令人惊讶的是,参数规模较小的文本模型InternLM2.5-7B的表现与大型多模态模型(如GPT-4o和Qwen2-VL-72B)相差无几,差距仅约2%。这表明现有的多模态模型在没有特定领域数据监督的情况下,难以有效利用非语言信息捕捉复杂的高级语义。
在有监督微调后,小型MLLM表现出与大型模型相媲美的能力。例如,8B参数的MiniCPM-V-2.6经过微调后,在性能上排名第二,与排名第一的模型相差仅0.3%,并超过了几个参数量更大的模型。7B、8B和72B参数的MLLM经过指令调整后,在准确率上的差异也仅在2%以内。这表明精心训练的小型MLLM能够有效捕捉人类语言背后的认知语义,意味着轻量级基础模型是可行的,可以显著降低成本。
在指令调整方面,MLLMs表现出令人印象深刻的泛化能力。尽管指令调整专注于训练单一模型来处理多个任务,但经过指令调整的MLLM在几乎所有数据集和任务上都优于LLM。特别是,72B参数的Qwen2-VL是首个在MIntRec数据集上超越人类表现的模型(86.3% vs. 85.5%),这标志着朝着人类级语义理解的显著进步。8B参数的MiniCPM-V-2.6在七个数据集、五个维度上优于最先进的方法,并在Ch-sims-v2上取得最佳成绩。
然而,即使在微调后,这些模型仍然面临显著挑战。表现最好的模型在零样本推理中只达到52.6%的准确率,在监督数据训练后只达到69.18%的准确率,仍然表现出巨大的局限性。这凸显了MMLA基准测试的难度和重要性,推动了现有MLLM的边界,为未来相关研究奠定了坚实基础。
四、细粒度性能分析:模型在不同维度的表现
为了更深入了解模型在不同语义维度的表现,研究团队对每个数据集进行了细粒度分析。
零样本推理面临巨大挑战:在许多具有挑战性的语义维度(如意图、情感、对话行为和交流行为)上,零样本推理的表现极为有限,准确率普遍低于60%。这主要是因为这些维度通常涉及许多具有微妙差异的类别。相比之下,情绪和说话风格维度的表现通常较好,因为这些任务更简单,只需区分两三个类别。虽然GPT-4o在意图、对话行为和情绪等多个维度上表现最佳,但在讽刺检测、情感识别和交流行为识别等任务上仍然面临困难,这可能是因为场景背景、环境和角色的干扰。
有监督微调显著提升性能:在有监督微调后,基础模型表现出显著提升。例如,在意图维度上准确率提高了20-40%,对话行为提高了10-40%,说话风格提高了4-20%,交流行为提高了5-50%。特别是,MiniCPM-V-2.6在大多数维度上的提升超过30%。这些结果表明,使用监督指令数据训练能有效帮助MLLM和LLM区分复杂的语义类别。此外,尽管MLLM和LLM在零样本推理中表现相似,但微调后MLLM始终优于LLM,这表明微调不仅能更好地对齐模态以激活多模态推理,还能通过结合非语言信息更有效地减少幻觉。微调后的MLLM在大多数数据集上创造了新的最先进结果。
指令调整后模型掌握多任务能力:经过指令调整,MLLM能同时匹配或超越大多数数据集上的先前最先进方法。特别是,72B参数的Qwen2-VL首次超越了MIntRec上的人类表现,标志着朝着人类级语义理解的显著进步。72B参数的LLaVA-Video比最先进方法提高了6.3%,接近MIntRec2.0上的人类表现。同样,大多数MLLM在情绪分析(Ch-sims-v2)、幽默检测(UR-FUNNY-v2)和情感识别(MELD)上表现优异。值得注意的是,小型MLLM(即8B参数的MiniCPM-V-2.6)在五个维度的七个数据集上优于最先进方法,并在Ch-sims-v2上取得最佳成绩。此外,小型MLLM在几乎每个数据集和任务上都优于LLM,突显了指令调整增强多模态推理的作用,并展示了训练统一MLLM处理多个复杂多模态语言任务的潜力。
模型的可扩展性分析:研究团队还分析了基础模型的可扩展性。在零样本推理中,将Qwen2从0.5B扩展到1.5B参数在除交流行为外的所有维度上都取得了显著改进。从1.5B扩展到7B时,意图和交流行为的性能提升加速,情感和对话行为的提升放缓,情绪和说话风格甚至略有下降。从Qwen2切换到Qwen2-VL时,除交流行为外,所有维度的性能相当或更好。然而,将Qwen2-VL从7B扩展到72B带来了实质性改进,进一步验证了MLLM的可扩展性。
微调后的扩展性能:微调后,将Qwen2从0.5B扩展到7B在意图、情绪、说话风格和情感维度上带来了3-5%的适度改进,在交流行为和对话行为上的提升不到2%。将Qwen2-VL从7B扩展到72B在说话风格和意图维度上带来了超过5%的实质性改进,而在情绪、交流行为和对话行为上的提升不到2%。这些结果表明,仅仅增加模型参数在分析复杂多模态语言语义时收益有限,特别是当使用监督指令作为先验知识时。这也凸显了这一基准测试的重大挑战,并强调了设计适当架构和策划高质量数据以学习高级认知语义的必要性。
五、结论与未来展望
这项研究提出的MMLA基准测试,是首个用于评估基础模型多模态语言分析能力的大规模基准。它涵盖六个核心语义维度,跨越61,000多个语句,来自九个多样化数据集,横跨文本、音频和视频模态。
研究得出了几个关键见解。首先,现有的MLLM在零样本推理中表现出较差的能力,相比同等规模的LLM没有优势。其次,有监督微调能有效激活MLLM,使其能够利用非语言模态理解认知层面的语义,并显著优于LLM。第三,指令调整可以进一步微调统一模型,在所有有监督微调任务上实现可比或更好的性能。
令人惊讶的是,研究发现小型MLLM(经过有监督微调和指令调整)展示了巨大潜力,达到了与大型模型相当的性能,同时显著降低了计算成本。最后,现有MLLM仍面临重大挑战,平均准确率低于70%,凸显了所提出基准测试的重要性和难度,并推动了多模态语言分析研究的边界。
MMLA建立了一个严格的基础,用于推进多模态语言理解和认知层面的人机交互。它为研究人员提供了一个可靠的平台,用于探索LLM在多模态语言分析中的潜力,并为推进这一领域提供了宝贵资源。
对普通人来说,这项研究的意义在于,它为打造更智能、更理解人类的AI系统铺平了道路。未来的AI助手可能不只是理解你说了什么,还能理解你是如何说的——包括你的表情、语调和肢体语言,从而提供更自然、更人性化的互动体验。这种技术进步将使AI在客服、教育、医疗咨询和社交媒体分析等领域的应用更加广泛和有效。
有兴趣深入了解的读者可以通过GitHub访问MMLA项目:https://github.com/thuiar/MMLA,该项目已开源其代码和数据集。
好文章,需要你的鼓励
想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。
想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。
想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。
想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。