2025年4月,来自中国哈尔滨工业大学深圳校区和香港科技大学的研究团队发布了一项开创性研究——"VideoVista-CulturalLingo: 360° Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension"(VideoVista-文化语言:360°视野——在视频理解中连接文化、语言和领域)。这项由陈鑫宇、李云欣、石浩源、胡宝田(通讯作者)、罗文瀚、王耀伟和张敏等学者共同完成的研究,首次构建了一个能够跨越文化、语言和领域差异的视频理解评测基准。研究团队已将这一评测基准开源,感兴趣的读者可以通过GitHub(https://github.com/HITsz-TMG/VideoVista)、项目网站(https://videovista-culturallingo.github.io/)或Hugging Face(https://huggingface.co/datasets/Uni-MoE/VideoVista-CulturalLingo)获取更多信息。
一、为什么我们需要跨文化的视频理解评测基准?
想象一下,你有一位智能助手,它能够理解各种视频内容并回答你的问题。你给它看一段关于中国传统节日的视频,问它"这个节日人们通常会吃什么食物?"。如果这个助手主要是"看过"西方文化背景的视频,它很可能会对中国文化相关的问题感到困惑。
这正是当前人工智能领域面临的一个重要挑战。现有的视频理解评测基准大多以英语为主,并且主要包含西方文化背景的视频。这就像是让一个只在美国生活过的人去理解中国的文化习俗一样——无论他多么聪明,没有相关的知识积累和文化背景,都很难准确理解。
哈尔滨工业大学和香港科技大学的研究团队敏锐地发现了这一问题,因此他们创建了VideoVista-CulturalLingo这一独特的评测基准。这个评测基准就像是一所"国际学校",它包含了来自中国、北美和欧洲多种文化背景的视频,并且使用中文和英语(全球使用最广泛的两种语言)提出问题,同时涵盖从日常生活到高级科学等数百个不同领域的视频内容。
这种多元化的设计让我们能够更全面地测试人工智能系统的视频理解能力,而不仅仅局限于特定文化或语言环境下的表现。就像一个真正的"世界公民"应该能够理解和尊重不同文化一样,先进的AI系统也应该具备跨文化、跨语言的理解能力。
二、VideoVista-CulturalLingo的丰富多样性
想象一下一个巨大的视频图书馆,里面收藏着来自世界各地的视频内容,涵盖从烹饪教程到量子力学讲解的各种主题。VideoVista-CulturalLingo正是这样一个多元化的"视频图书馆"。
这个评测基准包含了1,389个原始视频,经过处理后生成了2,052个视频片段,平均时长约为4.5分钟。这些视频的来源十分广泛:英语视频主要来自YouTube,中文视频则来自小红书和哔哩哔哩(B站)。它们涵盖了多达146个不同的视频领域,从日常生活话题(如新闻报道、旅游推荐、体育赛事和视频博客)到科学主题(如微积分、深度学习、有机化学和量子力学)。
基于这些视频,研究团队创建了3,134个问答对,包括1,446个中文问题和1,668个英文问题。这些问题被组织成14个不同的任务类型,涵盖了从粗粒度的事件理解到细粒度的物体识别,以及从探索视频的文化背景到揭示其科学原理等多个方面。
特别值得一提的是,VideoVista-CulturalLingo特别关注文化多样性,包含了231个与中国文化相关的问题,200个与美国文化相关的问题,以及200个与欧洲文化相关的问题。这就像是在测试AI系统是否能够理解不同文化背景下的细微差别,比如区分中国的春节和西方的圣诞节的文化内涵。
三、如何打造一个庞大而高质量的评测基准
创建这样一个庞大而多样化的评测基准并非易事,就像要组织一场涵盖世界各地文化和知识的百科全书一样复杂。研究团队采用了一种独特的混合标注方法,结合了人工智能的高效和人类专家的精准。
整个过程分为三个阶段:视频收集和预处理、自动问答标注、以及人工检查和修订。
首先,研究团队从YouTube、小红书和哔哩哔哩收集了各种视频,并对它们进行了详细的分类和处理。他们使用WhisperX模型提取视频的音频内容,并进行转录。然后通过Qwen2.5-32B模型对音频质量进行评估,判断其逻辑连贯性、连续性和信息密度。随后,研究团队根据音频质量将视频分为"音频丰富"和"音频嘈杂"两类,并采用不同的方法将它们分割成短小的视频片段。
对于中文视频转录,研究团队还特别开发了一个基于上下文的改进模块,用于解决中文同音词歧义、修正特定领域术语,并增强语言流畅性。想象一下,这就像是一个精通多种方言和专业术语的校对编辑,能够准确理解和修正各种专业领域的内容。
在自动问答标注阶段,研究团队使用了Qwen2-VL-72B作为主要标注模型,Qwen2.5-72B用于纯文本标注任务。他们设计了四种不同的标注任务:事件、文化、物体和科学。对于每个任务,他们使用特定的提示让AI模型生成问题、选项和正确答案。
例如,对于文化相关的问题,他们首先让AI判断视频与中国、美国和欧洲文化的相关性,然后提取最显著的文化概念,并利用维基百科数据查找相关信息。通过结合视频内容和这些外部知识,AI生成了针对视频中文化元素的问题。
为了确保问题的质量,所有自动生成的问题都经过了严格的人工筛选和修订。研究团队建立了一个评分平台,评估问题的正确性、类型相关性和视频相关性。只有在所有维度都获得满分的问题才会被直接选入,而那些接近满分的问题则会经过人工修正后纳入。对于文化问题,他们甚至安排了两位标注者(其中一位是相关文化的母语使用者)独立评估每个问题,确保跨文化验证的准确性。
这种混合方法既保证了标注的效率,又保证了问题的质量和多样性,就像是AI和人类专家联手打造的一本精心编撰的百科全书。
四、评测结果:当前视频大模型的表现如何?
研究团队对24个最先进的视频理解模型进行了全面评测,包括17个开源视频大模型、3个开源图像大模型和4个专有视频大模型。这些模型就像是参加一场综合能力测试的学生,需要回答关于不同文化、不同语言、不同领域的各种问题。
评测结果揭示了当前视频大模型在理解能力上的几个重要发现:
首先,现有模型在处理中国文化相关问题时的表现明显弱于西方文化相关问题,特别是那些与中国历史相关的问题。即使是表现最好的开源视频大模型Qwen2.5-VL-72B,在中国文化理解上的正确率也只有65.8%。这就像是一个熟悉西方文学但对东方文学了解有限的学生,在回答有关《红楼梦》的问题时会感到困难。
其次,当前开源模型在时间理解方面仍有明显不足,特别是在事件定位任务上,最高正确率仅为45.2%。这相当于要求模型找出视频中特定事件发生的确切时间点,就像在一部电影中精确指出某个场景出现的时刻一样。大多数模型在这类任务上的表现并不理想。
第三,主流模型在一般科学问题上表现较好,而开源模型在数学问题上表现较弱。例如,Qwen2.5-VL-72B在物理、化学和计算机科学问题上的表现与专有模型Gemini-2.0-Flash的差距不到5%,但在数学问题上的差距接近10%。
总体而言,专有模型Gemini-2.0-Flash展现出最强的综合能力,正确率达到76.3%。在开源模型中,Qwen2.5-VL-72B表现最佳,正确率为61.3%,但在细粒度物体理解任务上与Gemini-2.0-Flash存在15%的显著差距。
研究团队还进行了多角度的详细分析。例如,当视频时长增加时,所有模型的性能都会有所下降;大多数模型在英文问题上的表现优于中文问题;除了Gemini-2.0-Flash之外的所有模型在处理视频前半部分的事件时都比后半部分表现更好。
这些评测结果就像是一份全面的"成绩单",清晰地显示了当前视频大模型的优势和不足,为未来的研究和改进提供了明确方向。
五、案例研究:文化差异的挑战
为了更直观地理解模型在跨文化理解方面的差异,研究团队分析了两个具体案例:一个关于中国菜肴,另一个关于欧洲菜肴。
在中国菜肴的案例中,问题是:"视频中提到的哪种是代表性菜品?"正确答案是"文山鸡丁",但大多数模型错误地选择了"小炒黄牛肉"——一道湖南菜。研究者认为,这种错误可能源于模型对湖南菜和江西菜的混淆(两者都大量使用辣椒),以及湖南菜在国内外的更高知名度。这就像是一个外国人可能会混淆广东菜和福建菜,因为它们在某些特征上有相似之处。
相比之下,在欧洲菜肴的案例中,所有模型都正确地回答了问题。这个明显的对比揭示了一个系统性偏见:视频大模型在西方文化内容上的准确率更高,但在非西方文化内容(如中国文化相关的视频)上表现较差。
这种文化差异的挑战提醒我们,真正全面的人工智能系统应当能够理解和尊重各种文化背景,而不仅仅是西方主导的文化环境。
六、VideoVista-CulturalLingo的意义与展望
VideoVista-CulturalLingo的创建具有重要的学术和实践意义。它不仅是第一个专门设计用于评估视频大模型跨文化、跨语言理解能力的基准,还提供了一个自动化的视频标注框架,结合了大语言模型和视觉识别工具的优势,大大提高了视频标注的效率。
这个评测基准就像是为AI系统提供了一面"多棱镜",能够从多个维度反映当前视频大模型的能力和局限。通过全面的实验和深入分析,研究团队揭示了现有模型在不同文化或语言背景的视频中的表现差异,为未来的研究提供了明确方向。
未来的视频大模型需要更好地理解和适应不同的文化背景和语言环境,就像一个真正的"世界公民"应该能够理解和尊重全球各地的文化一样。VideoVista-CulturalLingo为这一目标提供了重要的评测工具和研究基础。
归根结底,VideoVista-CulturalLingo代表了视频理解领域向更加包容和多元化方向发展的重要一步。它不仅挑战了现有模型的能力界限,也拓宽了我们对人工智能系统应具备何种能力的认识——在一个日益全球化的世界中,真正智能的系统应当能够跨越语言和文化的鸿沟,理解人类丰富多样的知识和表达。
对于关注人工智能发展的普通读者来说,这项研究提醒我们,构建真正通用的AI系统不仅仅是技术问题,还涉及文化多样性和包容性的考量。未来的AI助手可能会更好地理解你提出的各种问题,无论它们涉及东方还是西方文化,无论使用中文还是英文表达。
如果你对这项研究感兴趣,可以通过前文提到的GitHub、项目网站或Hugging Face链接获取更多详细信息和原始数据集。
好文章,需要你的鼓励
想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。
想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。
想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。
想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。