近日,来自阿里巴巴达摩院、湖畔实验室和浙江大学的研究团队,包括魏敏、余超辉(通讯作者)、周静凯和王凡共同发表了一项视频虚拟试穿领域的重要研究成果。这篇题为《3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models》的论文已于2025年4月24日在arXiv平台上发布(arXiv:2504.17414v1),同时项目网站也已上线(https://2y7c3.github.io/3DV-TON/)。该研究为解决视频虚拟试穿中的一致性问题提供了全新思路。
想象一下,你是否曾经在网购衣服时犹豫不决,因为无法确定那件衣服穿在自己身上会是什么效果?虚拟试穿技术正是为解决这一问题而生。然而,传统的虚拟试穿技术往往只能处理静态图像,而在处理视频时,则会面临更大的挑战:如何确保人物运动过程中,衣物的细节和纹理保持真实自然的一致性?这正是阿里巴巴研究团队在这项工作中着力解决的核心问题。
一、虚拟试穿技术的现状与挑战
想象你在看一段模特展示服装的视频,突然你希望看到模特身上的衣服变成你喜欢的另一件。视频虚拟试穿技术就是要实现这样的效果:将视频中人物身上的衣服无缝替换成目标服装,同时保持人物的动作和表情不变。听起来简单,实际上这是一项技术难度极高的任务。
传统的视频虚拟试穿方法通常依赖于"流驱动变形模块"(flow-driven warping modules)。这就像是把一张纸上的图案转移到一个不断变形的气球上—首先需要让图案(衣服)的形状适应气球(人体)的变形,然后再通过神经网络生成最终的效果。这种方法虽然能够适应人体姿态的变化,但在处理连贯的视频序列时往往难以保持时间上的一致性。当衣服变形较大或出现遮挡时,效果就会大打折扣。
近年来,研究人员开始利用预训练的扩散模型来解决这一问题。这些方法通常采用双重U型网络架构:一个主要的去噪U型网络(denoising UNet)和一个并行的参考U型网络,后者直接提取服装特征,无需进行显式的变形。同时,研究人员还在去噪网络中集成了层次化的时间注意力层来建模动态变化并减少帧间不一致性。此外,基于扩散变换器(Diffusion Transformer,DiT)的框架也显示出了在视频虚拟试穿任务中的卓越性能。
然而,这些方法都存在一个共同的局限性:它们在视频扩散模型中使用的像素重建目标,往往会过度关注外观保真度而牺牲动作连贯性,导致生成结果中出现时间上的不一致。
二、3DV-TON:创新的纹理3D引导方法
为了解决以上问题,阿里巴巴研究团队提出了3DV-TON(Textured 3D-Guided Consistent Video Try-on via Diffusion Models)框架,这是一种基于扩散模型的视频虚拟试穿方法,其核心创新在于引入了显式的逐帧纹理3D引导。
想象一下,如果你有一个穿着目标服装的3D人物模型,而且这个模型可以随着视频中人物的动作而动起来,会不会更容易确保服装在视频中的一致性?这正是3DV-TON的核心思路。与之前只利用几何结构信息的方法不同,3DV-TON引入了带有纹理的3D引导,这就像是给模型提供了一个"穿着目标服装的移动人体参考",帮助模型在生成过程中始终保持服装外观的一致性。
研究团队的实验证明,仅使用几何引导(如SMPL模型)往往无法充分约束模型,会导致优化过程偏向外观而忽视运动连贯性。而3DV-TON的纹理3D引导则能够在整个视频序列中保持服装的一致性,这是之前的视频虚拟试穿方法所忽视的关键点。
三、3DV-TON的工作流程详解
3DV-TON的工作流程可以分为两个主要部分:可动画纹理3D引导生成和基于扩散模型的视频生成。
首先,系统会从视频中选择一个关键帧,通过姿态估计进行筛选。这就像是从一系列照片中挑选出最能代表整体的一张。然后,该帧会使用先进的基于扩散模型的图像试穿方法进行处理,生成一个初始的试穿结果。
接下来,这个初始帧会经过"可动画纹理3D网格重建"(animatable textured 3D mesh reconstruction)处理,生成一个与原始视频动作对齐的3D模型。这个过程就像是给一个静态的3D模型注入了动画能力,让它能够跟随视频中人物的动作而移动。这样,系统就为扩散模型提供了强有力的时空一致性参考,大大减轻了对复杂变形操作的依赖。
这种方法的优势在于,它无需复杂的变形操作,而是通过网格动画直接实现视频中的连续动作,同时还能利用成熟的单图像重建方法,而无需针对特定任务进行重新训练。
为了防止在人物运动过程中服装信息泄露(即原始服装的轮廓或颜色错误地出现在生成结果中),研究团队还提出了一种动态矩形遮罩策略。但是,使用过多的遮罩可能导致信息丢失,因此团队同时使用了服装图像和试穿图像作为参考,提供服装和环境上下文,并设计了有效的引导特征提取和融合的扩散模型架构。
四、3D引导生成的技术细节
3DV-TON使用的3D人体模型基于SMPL(Skinned Multi-Person Linear)和SMPL-X模型。这些模型类似于一个可控制的数字人体骨架,可以通过调整形状参数和姿态参数来表示不同人体的3D网格。
在人体重建过程中,系统首先选择一个合适的视频帧,然后使用法线估计网络预测衣着人体的法线图。为了确保结果的鲁棒性,系统使用从估计的SMPL-X模型渲染出的身体法线图作为重建条件,并确保身体估计与服装轮廓精确对齐。
与之前的工作不同,3DV-TON优先考虑服装重建的准确性而非解剖细节。通过在参数精细化过程中消除SMPL-X姿态参数的优化,系统大大减少了优化步骤和重建时间(约30秒),同时保持了性能。此外,系统还优化了相机尺度参数,以解决人体姿态和形状估计方法中的系统性相机估计误差。
重建的3D人体模型继承了底层SMPL-X身体模型的层次骨骼和蒙皮权重,可以使用从原始视频中估计的SMPL姿态进行动画处理。这就像是给静态的人体模型注入了灵魂,使其能够按照视频中人物的动作进行移动。
五、网络架构和训练细节
3DV-TON的网络架构基于稳定扩散模型(Stable Diffusion),包括一个变分自编码器(VAE)和一个去噪U型网络。系统首先将图像编码到潜在空间,然后U型网络学习在控制条件和噪声潜在变量的基础上预测噪声或速度。
为了提取服装和试穿图像的特征,研究团队设计了一个"引导特征提取器"(Guidance Feature Extractor)。这个组件捕捉服装图像和试穿图像的视觉特征,这些特征随后通过空间注意力机制融合到去噪过程中。值得注意的是,系统避免了在服装和试穿图像之间直接融合特征,而是通过去噪网络的自注意力层实现了纹理感知的融合。
在训练策略方面,3DV-TON同时在图像和视频数据集上进行训练,将图像视为单帧视频处理。训练过程中,系统随机选择数据集类型:如果选择图像数据集,则冻结时间注意力模块;如果选择视频数据集,则允许时间注意力模块进行学习。这种方式使得模型能够同时从图像和视频中学习不同的特性。
此外,研究团队还引入了一种遮罩策略来防止服装信息泄露。系统首先使用人体解析或分割模型生成服装遮罩,然后计算这些遮罩的边界框,并使用人体估计模型选择性地保留关键的解剖区域(如面部和手部),同时保持身体细节。这种简化的方法有效预防了由于衣物信息泄露导致的服装迁移失败。
六、实验结果与评估
为了全面评估3DV-TON的性能,研究团队在现有的ViViD数据集和新构建的高分辨率视频试穿基准数据集HR-VVT上进行了实验。HR-VVT包含130个视频,涵盖50件上衣、40件下装和40件连衣裙,具有各种服装类型和场景。
在定量评估方面,研究团队使用了SSIM和LPIPS指标来评估图像的视觉质量,同时使用视频弗雷谢起始距离(VFID)来衡量生成质量和时间一致性。尽管3DV-TON采用了更大范围的矩形遮罩策略(增加了需要生成的区域),但在ViViD数据集上,该方法在SSIM和LPIPS指标上仍然取得了与现有方法相当的结果,并在VFID指标上超越了现有方法。当使用与ViViD相同的遮罩时,3DV-TON在所有指标上都获得了更好的结果。
在HR-VVT基准上,3DV-TON同样超越了现有的视频试穿方法。这种改进可以归因于纹理3D引导带来的一致性纹理特征。特别是在LPIPS指标上的优势证明了该方法能够生成更高视觉质量的试穿结果。
为了更全面地评估模型在人类偏好方面的表现,研究团队还进行了用户研究,包括130个视频结果,并邀请了20名评估人员从视觉质量和运动一致性方面进行评估。结果显示,3DV-TON在运动连贯性和服装细节还原(即"保真度")方面取得了更好的效果,从而获得了更优的视觉质量。
在速度分析方面,经过SMPL拟合过程的优化,3DV-TON能够在约30秒内完成重建,并在去除交叉注意力后,能够以约35秒的速度在768×576分辨率下生成32帧的视频。由于采用了单图像重建,对于更长的视频,扩散模型占据了推理时间的大部分。
七、创新点与局限性
3DV-TON的主要创新点在于引入了纹理3D引导来解决视频试穿中的一致性问题。研究表明,传统的像素重建目标会使扩散模型偏向外观保真度而牺牲几何准确性,导致运动伪影。虽然基于SMPL的几何引导可以改善身体结构估计,但在腿部交叉等场景中仍存在肢体模糊问题。
3DV-TON的纹理3D引导通过提供显式的外观约束解决了这一问题,有效平衡了视觉质量和运动连贯性。这种方法确保了服装纹理在不同姿态和视角下的准确保存。例如,系统能够在侧向旋转过程中忠实重建"boss"标志,同时保持解剖上一致的身体比例;在动态姿态下也能一致地渲染"lee"文字。
然而,该方法也存在一些局限性。尽管研究团队通过改进SMPL精细化的优化目标,将重建时间控制在可接受范围内,但在需要更高速度的场景中仍显不足。最近出现的关于使用单次前向传播方法重建可动画3D人体的研究,大大加快了推理时间并改善了视觉质量。研究团队认为,将3D引导管道更新为单次前向传播范式,可以加速重建过程,进一步推动纹理3D人体引导在更多场景中的应用。
八、总结与展望
3DV-TON为视频虚拟试穿技术提供了一种新的解决方案,通过引入纹理3D引导来解决时间一致性问题。与传统方法不同,这种方法能够在视频序列中保持服装纹理的一致性,生成更加真实、自然的试穿效果。
具体来说,3DV-TON的贡献可以总结为三点:首先,提出了一种新型的基于扩散模型的视频试穿方法,使用纹理3D引导来缓解由外观偏差导致的运动不连贯问题;其次,引入了一种3D引导管道,能够自适应生成可动画的纹理3D网格,确保空间和时间域的一致性纹理引导;最后,建立了一个高分辨率视频试穿基准,使得对近期工作的评估更加准确。
在实际应用方面,3DV-TON可以显著改善电子商务平台的虚拟试穿体验,让用户在购买服装前更真实地看到穿着效果,提高购物体验和降低退货率。此外,这种技术也可以应用于影视制作、游戏开发和虚拟现实等领域,为数字人物的服装设计和更换提供更加便捷的解决方案。
随着技术的进一步发展,我们可以期待未来的虚拟试穿系统能够处理更复杂的服装类型、更多样的人体姿态,甚至实现实时的试穿效果。这将为时尚产业和消费者带来更加便捷、沉浸式的购物体验。
有兴趣深入了解这项研究的读者,可以通过访问项目网站(https://2y7c3.github.io/3DV-TON/)或阅读完整论文(arXiv:2504.17414v1)来获取更多信息。
好文章,需要你的鼓励
想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。
想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。
想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。
想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。