时间超越时限的在线视频语言交流：突破80%冗余视觉令牌的新思路

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

时间超越时限的在线视频语言交流：突破80%冗余视觉令牌的新思路

作者：科技行者

2025-04-28 12:51

分享至：

想象一下，你正在观看一场长达两小时的烹饪直播。主厨正在展示一道复杂菜品的制作过程，从准备食材到最终装盘。在这个过程中，你可能会在聊天框中提问："主厨用了多少盐？"或者"之前切洋葱的那把刀现在去哪了？"甚至是"你觉得这道菜最后会是什么味道？"

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-28 12:51 • 科技行者

关于TimeChat-Online：提升流媒体视频理解的突破性研究

这项由北京大学、华南理工大学、香港大学和快手科技联合研究团队开展的最新研究，发表于2025年4月24日的arXiv预印本平台，标题为《TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos》（TimeChat-Online：流媒体视频中80%的视觉令牌天然冗余）。研究由北京大学的姚林莉、李一诚等人带头完成，感兴趣的读者可通过arXiv:2504.17343v1访问完整论文。

在这个短视频、直播平台迅猛发展的时代，我们每天都在接触大量的流媒体视频内容。但你是否想过，当人工智能需要理解这些视频时面临着怎样的挑战？就像我们看一个持续一小时的视频不会记住每一帧画面的每个细节一样，AI系统也需要一种高效的方式来处理这些连续不断的视频流。

北京大学和香港大学等机构的研究者们提出了一个惊人的发现：在流媒体视频中，超过80%的视觉内容实际上是冗余的！这就像你在看一段视频时，画面中的背景可能几秒钟都没有变化，只有前景中的人物在动作。为什么要让AI花时间重复处理那些基本没变的背景呢？

研究团队开发的TimeChat-Online系统，通过一种名为"差异令牌丢弃"(Differential Token Drop, DTD)的创新技术，能够像人类视觉系统一样，只关注视频中真正发生变化的部分，从而大幅提高处理效率。这就像是给AI配了一副智能眼镜，能够自动过滤掉不重要的视觉信息，只保留关键内容。

让我们一起深入了解这项突破性研究的细节，看看它是如何让AI更好地理解和回应我们在视频平台上的实时互动的。

一、为什么我们需要更高效的在线视频理解系统？

这些看似简单的问题，对于现有的视频理解AI系统来说却是巨大的挑战。为什么？因为它们面临两个根本性问题：

首先是"长视频高冗余内容"问题。在实际应用中，视频通常以每秒1-10帧的速度录制，相邻帧之间的背景和静态物体往往高度相似。想象一下，在一个烹饪视频中，厨房的布局、电器、墙壁等在整个视频中几乎保持不变，只有厨师的手部动作和食材在变化。此外，流媒体视频理论上可以无限长，需要跨时间轴维护庞大的上下文信息。

其次是"实时交互与主动响应"挑战。流媒体视频任务涉及回溯追踪（查找过去的信息）、当前时间感知（理解当前画面）和前瞻性响应（预测未来可能发生的事件）。当用户在特定时刻提出问题时，AI系统必须能够高效访问过去和当前的视觉内容，以最小延迟生成即时响应。对于需要未来视觉线索才能回答的问题，系统还必须具备"主动响应"能力，在相关视觉线索出现时自动触发响应。

尽管近期视频大语言模型(VideoLLMs)取得了显著进展，但它们在在线视频理解方面仍面临困境。它们主要为离线视频处理设计，一次性接收和处理整个视频。在在线场景中，它们无法实现主动响应，并且难以处理长视频高冗余流：短上下文VideoLLMs通常均匀采样稀疏视频帧（如32或64帧），会丢失大量视觉信息；而长上下文VideoLLMs虽然可以密集采样视频帧（如每秒1帧），但在处理计算密集型视频令牌时会引入显著的响应延迟。

最近的研究提出了平均池化或基于重采样的机制来压缩长视频中的冗余，但这些压缩方法为每帧强制使用固定数量的令牌，无法适应动态视频流中的可变冗余。同时，基于语言引导的方法在流媒体场景中效率低下，因为每当接收到新的用户查询时，它们都需要重新处理所有历史密集帧。

二、TimeChat-Online：创新的流媒体视频理解系统

为了解决上述挑战，研究团队提出了TimeChat-Online，这是一种全新的在线VideoLLM，能够高效处理流媒体视频内容并实现实时交互。系统的核心是差异令牌丢弃(DTD)机制，这一设计灵感来源于人类视觉感知中的"变化盲视"(Change Blindness)现象。

差异令牌丢弃：灵感来自人类视觉感知

我们人类在观看连续视频流时，并不会捕捉每一帧画面中的所有细节，而是选择性地关注显著的时空变化，同时过滤掉静态、冗余的内容。例如，当你观看一个电影场景时，你的注意力主要集中在角色的动作和表情上，而不是背景中保持不变的家具或墙壁。

TimeChat-Online的DTD机制正是模仿了这一人类视觉感知模式。如图1所示，DTD机制自适应地仅保留相邻帧之间发生变化的视觉令牌，从整体时空角度看，这种方法将视频令牌数量减少了82.8%，完全基于视觉层面，无需任何文本信息的指导。

更令人惊讶的是，即使丢弃了如此多的视觉令牌，系统仍然保持了与全令牌处理相当的视频问答准确度，这表明流媒体视频中超过80%的视觉内容实际上是天然冗余的。

DTD机制的工作原理

DTD机制包含三个主要步骤：

分块与编码：系统使用视觉Transformer(ViT)将每个视频帧分割成一系列视觉块，并将相关的空间令牌编码为视觉特征向量。

静态冗余计算：直观上，如果时间连续的帧在视觉上相似，系统就将后一帧确定为冗余帧，因为它包含与前一帧相同的静态视觉内容。从更细粒度的角度看，系统通过比较时间连续且空间相同的块或视觉令牌在像素级和特征级别的相似度来计算静态冗余。

对于特征级冗余，系统计算两个时间连续且空间对齐的视觉令牌之间的余弦相似度。如果相似度高于设定的阈值，则认为它们在视觉上相似。这个阈值参数控制视频令牌的整体丢弃率。例如，阈值设为0.25时对应约85%的令牌被丢弃，而设为0.5时对应约45%的令牌被丢弃。

位置感知令牌丢弃：基于计算的相似度，系统确定当前帧中哪些令牌应该被丢弃或保留。为了保持保留令牌的相对空间和时间位置，系统利用多模态旋转位置嵌入(M-ROPE)为每个视频令牌索引3D位置（时间、高度、宽度）。当丢弃视觉令牌时，系统同时丢弃其M-ROPE位置嵌入，确保保留令牌的原始时空结构不受破坏。

比起现有的令牌剪枝方法，DTD提供了三个关键优势：(1)视频感知的动态剪枝，能够从整体视频角度自适应减少视频令牌，适用于高速和慢动作视频；(2)位置保留，维持保留令牌的细粒度空间-时间位置；(3)流媒体友好操作，只为新进入的帧计算视觉冗余，无需重新处理历史视频内容。

TimeChat-Online-139K：流媒体视频问答数据集

为了更好地应用DTD设计，研究团队还创建了TimeChat-Online-139K，这是一个专为训练在线VideoLLMs设计的综合性合成流媒体VideoQA数据集。现有工作通常将密集视频叙述或与时间戳相关的任务转换为流媒体对话数据集，但这些转换后的数据样本在问答多样性方面受限，且无法模拟真实世界的交互。

相比之下，TimeChat-Online-139K涵盖了向后追溯、实时感知和前向主动响应等多样化在线任务。研究团队收集了平均长度为11.1分钟的长视频，并利用GPT-4o为它们标注多样化的流媒体VideoQA对。对于未来响应型问题的交互，TimeChat-Online设计为在视频场景转换时间点触发，根据更新的视频内容生成新响应。如图1所示，场景转换自然由丢弃令牌较少的帧指示，表明相比前一帧有显著的视觉差异。

三、TimeChat-Online的卓越性能

研究团队对TimeChat-Online进行了全面评估，结果令人鼓舞。

在流媒体视频基准测试上的表现

首先，在两个流媒体VideoQA基准测试上：StreamingBench和OVO-Bench，TimeChat-Online都取得了出色的成绩。

在StreamingBench的实时视觉理解子任务上，TimeChat-Online实现了75.28的分数，比最近的在线模型Dispider-7B高出7.65分。这表明TimeChat-Online有效地结合了离线VideoLLMs的优越VideoQA能力和在线VideoLLMs的实时流媒体推理能力。

更值得注意的是，与每秒1帧全令牌输入的Qwen2.5VL-7B相比，TimeChat-Online取得了更好的性能（75.28 vs 73.68），同时减少了44.2%的视频令牌。即使在极端令牌丢弃率82.8%的情况下，TimeChat-Online仍然保持与Qwen2.5VL-7B全令牌设置相当的结果（73.64 vs 73.68）。这些发现突显了1fps视频流中存在大量冗余，以及DTD方法的有效性。

在OVO-Bench上，TimeChat-Online也显著优于现有在线VideoLLMs，在12个多样化子任务中评估向后追溯和前向主动响应能力，最终得分为47.6，比Flash-VStream和VideoLLM-online绝对提高了14.4分。值得注意的是，即使丢弃了84.8%的视频令牌，TimeChat-Online也保持了稳健的性能，得分为45.6。

案例研究：主动响应功能

在图4的案例研究中，当用户提出"穿红衣服的女人具体做了什么？"这一问题时，这个问题也可以通过未来画面回答。TimeChat-Online能够在未来触发时间点（即视频场景转换时间戳）主动生成响应，这些时间点由令牌丢弃率低的帧指示。

在离线长视频任务上的表现

研究团队还在三个离线长视频理解基准测试上评估了TimeChat-Online：VideoMME、MLVU和LongVideoBench。在离线设置中，整个视频作为输入提供给VideoLLMs。

结果显示，TimeChat-Online展现出优于近期最先进的在线VideoLLMs（包括VideoChat-Online和Dispider-7B）的离线视频理解能力。利用DTD的效率，TimeChat-Online在极长视频上表现尤为出色，如VideoMME的长子集。与VideoChat-Online相比，TimeChat-Online在包含30-60分钟视频的VideoMME长子集上取得了7.5分的提升（从44.9提高到52.4）。

研究团队还报告了Qwen2.5-VL-7B与DTD零样本结果，因为DTD可以直接集成而无需额外训练。令人惊讶的是，从46.2%增加到84.6%的令牌丢弃率，一致提高了Qwen2.5-VL-7B在MLVU和VideoMME上的性能，使其优于100%全令牌设置。对于VideoMME的长子集（30-60分钟），准确率从50.4提高到56.1，只保留了15.4%的视频令牌。这表明长视频中存在大量视觉冗余，减少这种冗余可以简化VideoLLM的视觉感知，从而提高整体性能。

四、深入分析DTD机制的效果
DTD设计的有效性

研究团队比较了不同的令牌丢弃方法。VisionZip代表一种类似的纯视觉空间令牌选择方法，而像素级和特征级丢弃方法则在本论文中引入。

零样本结果显示，特征级（视频感知）丢弃，即DTD的最终设计，在相同丢弃率下达到最佳性能。帧感知丢弃方法对每帧应用固定丢弃率，而视频感知方法则动态选择整个视频中的令牌。这些结果表明，联合时空动态令牌剪枝最为有效。

TimeChat-Online-139K数据集的影响

研究结果明确显示，将TimeChat-Online-139K与现有离线VideoQA数据集相结合，显著提升了流媒体性能。

性能与丢弃率之间的权衡

如图1（右上）所示，特征级丢弃始终优于像素级丢弃。同时，通过DTD训练可以使VideoLLMs更好地适应丢弃令牌分布，在极端丢弃率（如80%以上）下表现更好。总体而言，即使大幅减少令牌，DTD方法仍保持稳健性能。在82.8%的极端丢弃率下，模型达到与全令牌设置相当的结果（73.64 vs 73.70）。

不同视频长度的冗余性

图3显示，视频越长，冗余越高，允许更激进的令牌丢弃。短视频在高丢弃率下性能明显下降，而长视频（30-60分钟）即使在高达97.5%的极端丢弃率下仍保持性能完整性。

效率提升

图1（右下）量化了令牌丢弃带来的计算效益。在81.1%的丢弃率下，推理延迟从3220毫秒减少到1820毫秒（速度提高1.76倍），同时准确率从50.4%提高到56.3%。这表明，专注于更少、更有信息量的令牌不仅加速推理，还能通过减少视觉噪音提升模型性能。

五、未来展望与总结

TimeChat-Online代表了在线视频大语言模型的重要突破，其差异令牌丢弃技术有效解决了流媒体视频理解中的长视频高冗余挑战。研究结果清晰地表明，流媒体视频中超过80%的视觉令牌实际上是冗余的，可以在不损害性能的情况下安全丢弃。

更令人惊奇的是，对于特别长的视频（如超过30分钟的内容），系统可以丢弃高达97.5%的视觉令牌，同时保持甚至提高性能。这一发现不仅有助于提高当前视频理解系统的效率，还为未来VideoLLMs的发展提供了新思路。

对于我们普通用户来说，这项研究的意义在于，未来的在线视频平台（如直播、视频会议或监控系统）将能够更智能、更高效地理解视频内容，实时回答我们的问题，甚至在我们提问后的适当时机主动更新信息。想象一下，在观看长时间的教育视频或直播时，AI助手能够不断跟踪内容，并在关键场景转换时提供更新的见解，大大提升我们的观看体验。

TimeChat-Online的研究也为资源有限的设备（如移动设备或边缘设备）上运行复杂视频理解模型铺平了道路，因为它显著减少了处理视频所需的计算资源。

如果你对这项研究感兴趣，可以通过访问https://timechat-online.github.io了解更多信息，或阅读完整论文（arXiv:2504.17343v1）深入了解技术细节。

未来，研究团队计划进一步探索DTD在更广泛视频理解任务中的应用，以及如何将这一技术与其他模态（如音频）结合，创造更全面的多模态交互体验。

分享至