自我矫正的大型视频语言模型：通过精细化的偏好优化提升视觉理解能力

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

自我矫正的大型视频语言模型：通过精细化的偏好优化提升视觉理解能力

作者：科技行者

2025-04-22 13:10

分享至：

想象一下，你正在使用一款最新的AI助手来描述一段视频内容，但它告诉你"视频中有人穿着黑色西装"，而实际上并没有；或者它声称"一个人在穿上夹克后跳起来抓住横杆"，而实际情况是"一个人在脱掉夹克后跳起来抓住横杆"。这些看似小错误实际上反映了当今大型视频语言模型(LVLMs)面临的严重问题。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-22 13:10 • 科技行者

本文由加拿大女王大学及Vector研究所的Pritam Sarkar和加拿大女王大学的Ali Etemad于2025年4月16日发表于arXiv预印本平台（arXiv:2504.12083v1），目前正在审核中。论文探讨了一种创新的自我矫正框架，用于提升大型视频语言模型(LVLMs)的理解能力。

一、研究背景与意义

尽管这些模型在近年来取得了长足进步，但它们仍然存在多项关键缺陷：它们难以精确理解视频中的时间关系（比如先后顺序）、容易产生"幻觉"（即编造视频中不存在的内容），在处理长视频时困难重重，而且经常在简单的视频问答任务中犯低级错误。这些问题严重限制了它们在实际应用中的可靠性和安全性。

Sarkar和Etemad团队分析发现，这些问题的根源非常复杂，主要包括：模型对视频空间和时间关系的理解不足，视觉-语言表示之间的错位，处理长视频序列时的上下文长度限制，频繁同时出现的概念之间的虚假关联，以及过度依赖语言线索而忽视视觉信息。

为了解决这些问题，研究团队提出了一种创新的"自我矫正"框架，让模型能够从自己的错误中学习。这就像是给学生一个机会，让他们回顾自己的考试答卷，找出错误并理解正确答案。这种自我矫正方法不仅能够改进模型性能，还能够在不需要大量人工标注数据的情况下实现，这大大降低了改进这类模型的成本和复杂度。

二、自我矫正框架：让AI从自己的错误中学习

研究团队设计的自我矫正框架核心思想非常直观：首先让模型在"困难"条件下回答问题，如果答错了，就教它正确答案；如果已经答对了，就不需要额外训练。具体来说，这个框架包含以下步骤：

首先，团队从开源数据集中采样视频-问题对。比如，一个视频显示一群人在沙滩上踢足球，配对的问题可能是"视频中人们在做什么？"

接下来，研究人员对视频内容进行有意的"扰动"，比如遮挡大部分画面或打乱视频帧的时间顺序。这就像是故意给学生一本模糊不清的教科书，看他们能否依然正确回答问题。这些扰动模拟了现实中常见的情况，如当视频质量差、视角有限或时间顺序混乱时。

然后，将扰动后的视频和原始问题输入目标模型。因为视频被扰动了，模型很可能会生成不正确的回答。例如，对于那段沙滩足球的视频，扰动后模型可能错误回答："视频显示一群人在沙滩上打排球。"

研究团队会比较模型生成的回答与正确回答。如果模型的回答是错误的，他们会创建一个"自我矫正对"：将错误回答标记为"不偏好"样本，将正确回答标记为"偏好"样本。这些配对将用于后续训练。如果模型已经回答正确，则丢弃该样本，因为它不提供改进的机会。

最后，利用收集到的偏好和非偏好回答对，训练模型通过优化损失函数来更好地区分正确和错误回答。整个数据生成流程不需要人工标注，可以轻松扩展到大规模数据集。

这种方法有点像学习开车：初学者会犯错误，但每次犯错后都会得到纠正，逐渐学会如何正确驾驶。同样，模型通过这种反复的"错-纠-学"过程不断完善自己对视频内容的理解能力。

三、RRPO：精细化的偏好优化方法

为了更有效地训练模型识别正确与错误的概念，研究团队开发了一种名为"精细化正则化偏好优化"(Refined Regularized Preference Optimization，简称RRPO)的新方法。这个方法旨在解决现有偏好优化方法（特别是直接偏好优化DPO）的局限性。

想象一下，普通的DPO就像是给整篇作文打分，即使只有一两个段落有问题，也会对整篇文章进行惩罚。而RRPO则更像是精细化的批改，只针对有问题的段落进行修正，同时保持其他良好部分不变。

具体来说，RRPO具有两个关键特点：

首先，RRPO提供了亚序列级别的精细化奖励。这意味着它不是对整个回答进行奖励或惩罚，而是专门针对包含关键不同概念的特定部分。举个例子，如果模型在描述视频时说"一个人穿着黑西装"，而实际上是"一个人穿着蓝西装"，RRPO只会针对颜色描述这部分进行惩罚，而不是对整个描述都施加惩罚。相比之下，DPO会对整个回答中的所有词元进行惩罚，缺乏精确性，不适合精细化的矫正。

其次，RRPO使用基于词元的KL散度正则化。这听起来很复杂，但可以理解为一种"保持原有知识"的机制。当模型学习新知识时，有时会"忘记"之前学过的内容，这种现象称为"灾难性遗忘"。RRPO通过这种正则化方法确保模型在学习正确概念的同时，不会丢失其原有的语言生成能力，保持回答的连贯性和完整性。

研究团队通过理论和实验分析证明，RRPO具有更高的稳定性和更平滑的收敛特性。这有点像开车时的平稳驾驶与急刹车相比：RRPO让模型学习过程更加平稳，避免了DPO可能带来的过度矫正和不稳定性。

四、实验设置与评估方法

为了全面评估他们提出的方法，研究团队选择了三种流行的视频语言模型作为基础模型：VideoChat2（7B参数）、LLaVA-Video（7B参数）和LongVU（7B参数）。这些模型在架构设计、大语言模型选择、视觉编码器和训练设置上各有不同，确保了实验结果的广泛适用性。

就像测试一种新药需要在不同体质的人群上验证效果一样，研究团队特意选择了这三种架构各异的模型来验证其方法的通用性。例如，VideoChat2使用视频编码器，而其他模型依赖图像编码器；LongVU使用两个视觉编码器，而其他模型仅使用单个视觉编码器；VideoChat2使用QFormer作为跨模态适配器，而LLaVA-Video使用MLP投影层。

在训练数据方面，研究团队基于VideoChat-IT数据集的多样性和可用性，从中选择了一个子集，涵盖八个视频数据集：Kinetics700、Something-Something-v2、VideoChat、VideoChatGPT、CLEVRER、NEXTQA、EgoQA和TGIF。这些数据集覆盖了视频描述、问答、推理和对话等多种任务类型。

对于视频扰动步骤，团队会遮挡每帧的25%-50%区域，并打乱时间顺序。他们探索了三种时间扰动类型：随机打乱（帧完全随机排序）、局部打乱（先分块，再打乱块内帧顺序）和全局打乱（打乱块的顺序而非单个帧）。在推理过程中，根据不同模型的输入能力，他们分别为VideoChat2、LLaVA-Video和LongVU使用最多16、64和100帧。

对于生成回答的验证，对于多选题和二元问答任务，团队使用基于正则表达式的简单检查。而对于开放式问题，他们采用GPT-4o-mini作为评判，通过比较生成的回答与数据集中的标准答案来确定正确性。对于长回答，他们还使用GPT-4o-mini重写正确回答，同时纳入错误回答中的不正确概念，确保偏好和非偏好回答在结构上保持一致。

为了全面评估自我矫正框架的效果，研究团队选择了多种视频理解任务进行测试：TVBench和TempCompass用于精细化时间理解能力评估，VideoHallucer和VidHalluc用于视频幻觉评估，MVBench和VideoMME用于短视频理解评估，以及MLVU和LongVideoBench用于长视频理解评估。

五、研究结果与分析

研究团队的实验结果令人印象深刻，证明了RRPO方法在多个方面的优越性。

首先，在与其他偏好优化方法的比较中，RRPO在所有基准测试中始终优于DPO、DPA、TDPO和DDPO。例如，在TVBench测试中，基线LongVU7B模型得分为53.7，使用DPO后提升到54.3，而使用RRPO后则达到56.5，显著超过其他方法。同样，在VideoHallucer测试中，基线得分为39.2，使用RRPO后提升至44.0，远高于DPO的40.9分。RRPO的两个核心组件——精细化奖励和基于词元的KL正则化——都被证明是其性能优势的关键所在。

关于模型偏离程度的分析也非常有趣。研究表明，尽管RRPO使用了比DPO高10倍的学习率，但其KL散度仅为1，而DPO的KL散度高达20。这意味着RRPO能够在保持模型原有能力的同时进行更有效的矫正，就像精确的外科手术与粗放的全身治疗相比。

在精细化时间理解方面，RRPO显著提升了模型性能。例如，在TVBench和TempCompass测试中，RRPO方法使基础模型的性能提高了最多2.8%，证明了其在增强精细化时间理解方面的有效性。

对于视频幻觉问题，RRPO也取得了显著成效。在VideoHallucer和VidHalluc测试中，RRPO大幅减少了模型幻觉，性能提升幅度分别达到8.8%和4.4%。这意味着经过RRPO训练的模型能够更准确地描述视频中实际存在的内容，而不是编造不存在的细节。

在视频长度方面，研究团队通过MVBench、VideoMME、MLVU和LongVideoBench测试了模型在不同长度视频上的表现。结果显示，RRPO在各种长度的视频上都表现出一致的改进，尤其在LongVU和LLaVA-Next模型上。

研究团队还探讨了数据生成管道中不同扰动类型对非偏好回答质量的影响。他们发现，不使用视频扰动生成的非偏好回答会导致模型性能下降，这可能是由于泛化能力降低。单独的时间扰动效果不佳，但与遮挡结合时能显著提升性能。对于处理较少帧的模型（如VideoChat2），随机打乱加遮挡效果最佳；而对于处理更长序列的模型（如LongVU、LLaVA-Video），局部打乱加遮挡表现更好。

此外，研究还表明，增加训练数据量能持续提升性能，表明该数据生成管道能有效生成高质量的训练样本。在输入帧数量方面，研究发现在短视频基准测试中，超过64帧后性能不再提升，而对于长视频理解，增加帧数确实能带来性能提升。

最后，研究还证明RRPO方法在使用字幕辅助时仍然保持其性能优势，并且能够在不同LVLM架构和训练设置中推广应用。

六、研究意义与未来展望

这项研究的意义不仅在于提出了一种新的优化方法，更在于它为改进视频理解AI提供了一个全新的思路：让模型自己发现并学习自己的错误。这就像是给AI配备了一面"魔镜"，让它能够看清自己的缺陷并不断完善。

RRPO的优势在于它能进行更精确的矫正，同时保持模型的稳定性。传统的方法可能在矫正错误的过程中"矫枉过正"，导致模型丢失原有的语言生成能力。而RRPO通过精细化的奖励和强正则化，实现了"精准打击"错误概念而不影响整体性能。

从实际应用角度看，这项研究有望改善各种基于视频理解的AI应用，如自动视频描述、视频搜索、内容审核、辅助驾驶系统中的场景理解等。经过RRPO训练的模型能够更准确地理解视频中的时间关系，减少幻觉，提高对长视频的理解能力，这将大大增强这些应用的可靠性和实用性。

研究团队指出，未来工作可以进一步探索迭代式自我矫正方法，突破本研究中使用静态数据集的限制。此外，虽然本研究主要针对视频语言模型，但RRPO的核心思想也可能适用于其他类型的多模态模型，如图像-文本模型、音频-文本模型等。

最后，研究团队已经公开了他们的代码、数据和模型权重，以促进快速准确的复现和进一步研究，这对推动整个领域的发展具有积极意义。

这项研究为我们提供了一个启示：有时候，进步不仅来自于学习更多新知识，也来自于正确认识并改正自己的错误。正如人类通过反思和纠错不断进步一样，AI也可以通过"自我矫正"变得更加智能和可靠。

分享至