ViSMaP：使用元提示技术实现长视频无监督摘要的突破性研究

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

ViSMaP：使用元提示技术实现长视频无监督摘要的突破性研究

作者：科技行者

2025-04-28 12:15

分享至：

想象一下，你拥有一部记录全家旅行的一小时视频，里面包含了许多琐碎的日常片段，但也有一些珍贵的难忘时刻。如果要向朋友展示这段旅程的精华，你可能需要手动浏览整个视频，找出重要片段，然后制作一个简短的剪辑。这个过程既耗时又繁琐。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-28 12:15 • 科技行者

本研究由英国伦敦玛丽女王大学的Jian Hu和Shaogang Gong以及Spotify公司的Dimitrios Korkinof和Mariano Beguerisse-Díaz共同完成，于2025年4月22日发表在arXiv预印本平台，编号为arXiv:2504.15921v1。该论文预计将在未来的计算机视觉会议上正式发表，作者承诺会在正式发表后公开相关代码。

你是否曾经需要观看一个小时长的视频，却希望能在短短几分钟内了解其中的关键内容？或者你是否想知道在海量长视频中，如何自动找出最重要的片段？这正是视频摘要技术试图解决的问题，而来自伦敦玛丽女王大学和Spotify的研究团队最近在这一领域取得了重要突破。

一、长视频摘要：一个亟待解决的挑战

现有的视频理解技术在处理短视频（通常不超过3分钟）方面表现良好，但面对小时级的长视频时却力不从心。这就像是一个人可以轻松记住一个短故事的情节，但要概括一部长篇小说的精髓就困难得多。短视频模型可以识别出单个动作（如"走路"或"说话"），但难以理解长视频中复杂的叙事结构和重要事件。

之前的研究，如Video Recap系统，尝试通过递归监督训练来识别长视频中的关键时刻，但这种方法依赖于大量昂贵的人工标注，而且容易受到标注者不一致性的影响。这就像是需要多位编辑反复审阅一本书，才能确定哪些内容应该被包含在摘要中，这个过程不仅成本高昂，而且效率低下。

研究团队提出的问题是：我们能否利用已有的短视频标注数据，开发一种无需对长视频进行标注的摘要系统？

二、ViSMaP：短视频智慧到长视频的桥梁

研究团队提出了ViSMaP（Video Summarisation by Meta-Prompting，通过元提示进行视频摘要）系统，这是一种无监督的方法，能够为长达一小时的视频生成高质量摘要，而无需对长视频进行任何标注。

这个系统运作的方式，可以类比为一个三步骤的翻译过程：

首先，系统从已标注的短视频中学习基本的"视频语言"，就像学习一门外语的基础词汇和语法。

其次，系统将这种"短视频语言"翻译成"长视频语言"，使用多个大型语言模型（LLM）互相协作，不断优化翻译质量。

最后，系统使用这种优化后的"翻译"来训练一个专门的摘要模型，使其能够直接理解和总结长视频内容。

在这个过程中，研究团队面临三个主要挑战：

第一个挑战是从大量冗余信息中识别关键片段。这就像在一部包含大量场景的电影中，找出推动故事情节发展的关键场景，而忽略那些仅作为背景或过渡的部分。

第二个挑战是弥合短视频中的原子动作（如"拿起一个苹果"）与长视频中的复杂行为（如"在超市购物"）之间的语义差距。这就像是理解单个单词和完整段落之间的关系，需要考虑上下文和整体含义。

第三个挑战是处理源域（短视频数据集）和目标域（长视频数据集）之间的领域差异。比如，研究中使用的Ego4D-HCap数据集（第一人称视角）与YouCook2数据集（第三人称视角）在内容分布上存在明显差异。

三、元提示：大型语言模型的智慧协作

ViSMaP的核心创新在于使用"元提示"（Meta-Prompting）策略，让多个大型语言模型协同工作，迭代生成和优化长视频的伪摘要（pseudo-summary）。

想象一个由三位专家组成的团队，共同完成一项复杂任务：一位负责创作（生成器），一位负责评价（评估器），一位负责改进方案（优化器）。他们不断交流，互相反馈，直到得到最佳结果。

具体来说，ViSMaP的工作流程分为三个阶段：

第一阶段：短视频学习

在这个阶段，系统使用Ego4D-HCap数据集中的3分钟短视频片段进行训练。每个片段都有两种标注：每4秒一个的细粒度描述和整个3分钟片段的摘要。系统学习如何从细粒度描述生成整体摘要，就像学习如何从一系列短句子中提炼出一个连贯的段落。

技术上，系统使用冻结的TimeSformer作为视觉特征提取器，DistilBERT作为视觉-语言对齐模块，GPT2作为文本解码器。模型通过交叉熵损失和时序对比学习进行训练，使其能够识别视频片段之间的语义关联。

第二阶段：长视频伪摘要生成

面对未标注的长视频，系统首先将其分割成3分钟的片段，使用第一阶段训练的模型为每个片段生成描述。这些描述形成了对整个长视频的初步理解。

然后，系统启动"元提示"过程，由三个大型语言模型协同工作：

生成器LLM（使用GPT-3.5-Turbo）：根据当前提示和片段描述，生成长视频的候选摘要。评估器LLM（使用Gemini-1.5-Flash）：评估生成的摘要质量，给出评分。优化器LLM（使用GPT-3.5-Turbo）：基于评估结果，优化提示词，以便生成器能创建更好的摘要。

这个过程反复迭代，就像一个作家不断修改草稿，一名编辑提供反馈，一名顾问给出改进建议。经过多轮迭代（通常是5轮），系统最终生成高质量的伪摘要。

第三阶段：长视频适应

最后，系统使用生成的伪摘要来微调第一阶段的模型，使其适应长视频的特点。考虑到伪摘要可能存在噪声，研究团队采用对称交叉熵（SCE）损失函数来减轻噪声标签的影响。

这就像是一个学生先学习了基础知识，然后通过自主练习扩展到更复杂的领域，同时学会识别和纠正可能的错误。

四、性能验证：跨数据集的卓越表现

研究团队在多个数据集上对ViSMaP进行了全面评估，证明了其在无监督条件下的强大性能。

在Ego4D-HCap数据集上，ViSMaP的表现接近全监督方法Video ReCap，甚至超过了其他监督方法如LaViLa、LaViLa+GPT2和LaViLa+FLANT5。具体而言，在视频摘要任务上，ViSMaP在CIDEr、ROUGE-L和METEOR三项指标上分别达到了26.0、29.9和13.1的分数，而完全无监督的零样本方法（如BLIP2+GPT3.5和LaViLa+GPT3.5）则表现明显较差。

此外，ViSMaP在短视频数据集上也表现出色。在MSRVTT、MSVD和YouCook2这三个短视频描述数据集上，尽管ViSMaP是无监督的，但其性能接近甚至超过了一些监督方法，如UniVL和SwinBERT。这表明ViSMaP具有良好的跨域适应能力。

在EgoSchema数据集上的视频问答任务中，ViSMaP结合GPT4达到了53.4%的准确率，超过了包括EgoVLP和EgoVLPv2在内的多种先进方法。

研究团队还进行了多项消融实验，验证了各个组件的有效性。结果表明，目标伪标签、源对比学习、循环摘要生成、循环提示生成和对称交叉熵损失函数都对系统性能有积极贡献。此外，元提示的迭代次数和LLM的选择也对结果有显著影响，实验表明5轮迭代和GPT-3.5（优化器+生成器）加Gemini（评估器）的组合效果最佳。

五、理论基础：领域适应的错误上界

研究团队不仅在实践中证明了ViSMaP的有效性，还提供了理论支持，分析了系统性能的错误上界。

他们证明，使用伪标签训练的模型在目标域的错误率受到以下因素的约束：

在正确标注的伪标签子集上的错误率
正确和错误标注的伪标签子集之间的分布差异
假设空间的VC维度和样本数量
标签噪声引入的额外损失

简单来说，这个理论分析表明，ViSMaP的三个阶段分别针对这些因素进行了优化：短视频学习阶段减少了基本错误率，元提示阶段减少了分布差异和标签噪声，而长视频适应阶段处理了剩余的标签噪声问题。

六、真实应用案例：从杂乱视频到精炼摘要

让我们通过一个具体例子来理解ViSMaP如何工作。想象一段63分钟的视频，记录了一个人在家中修建浴室的过程。

原始视频包含许多片段，如"C在房间里，他与一个男人X和一个男人Y互动"、"C在房间里，用钉枪修理墙壁，男人X用钻孔机钻墙"、"C在房间里，修理墙上的管道并与男人X互动"等等。这些是系统通过第一阶段模型为每个30秒片段生成的描述，总计约3480个单词。

经过元提示优化后，ViSMaP生成了简洁的摘要："C在房子里，在一个男人X和一个男人Y的帮助下修理房间。"这个19字的摘要准确捕捉了视频的核心内容，与人工标注的参考摘要"C在女性X和男性A的帮助下在房子里建造浴室"非常接近。

这个例子展示了ViSMaP如何从大量冗余信息中提取关键内容，生成简洁而准确的视频摘要。

七、局限性与未来展望

尽管ViSMaP取得了显著成功，研究团队也坦承其存在一些局限性：