AIGC新模型报道,Stable Diffusion背后的RunwayML推出Gen-1

SD指南2年前 (2023)发布 一起用AI
823 0 0

最近围绕AI圈的热点讨论似乎都集中在OpenAI的ChatGPT上了,目前来看,ChatGPT算得上是生成式人工智能(Generative AI)在自然语言处理领域的一个里程碑模型。但是最近生成式AI在图像领域,即AIGC赛道,也有非常值得关注的模型诞生。AIGC的上一个热点模型无疑是发表在视觉顶会CVPR2022上的Stable Diffusion扩散模型[1],该模型的论文题目为《High-Resolution Image Synthesis with Latent Diffusion Models》,论文完成单位分别是德国慕尼黑大学、海德堡大学和一家AI创业公司Runway

论文链接: https://arxiv.org/abs/2302.03011 项目主页: https://research.runwayml.com/gen1

AIGC新模型报道,Stable Diffusion背后的RunwayML推出Gen-1

本文介绍的新AIGC模型就来自Runway公司,Runway为这个新模型起了一个非常响亮的名字:Gen-1,并且声称“Gen-1的提出,意味着生成式AI向前迈出了一大步”

Gen-1作者团队认为现有的扩散模型仍然存在诸多缺陷,例如对于用户输入的内容编辑和结构之间的分离不够彻底,导致模型在处理这两方面时存在冲突。此外,现有生成视频的方法需要对每个输入进行复杂的从头训练,训练代价较大。为了解决这些问题,作者提出了一种使用结构和内容同步引导的视频扩散模型Gen-1,Gen-1可以提供相比之前方法更加逼真的生成效果以及更加细粒度的语言控制,下面我们来看几个Gen-1生成视频的例子。

给Gen-1一段相机拍摄的视频,并且给他输入一个目标指令“Claymation style”,模型会自动将当前视频转换为出粘土动画风格,像下面这样。

或者还可以直接给模型一张目标风格的指示图片,例如下图中一个人在雪地里行走,给模型一张宇航员登录月球的照片,Gen-1可以自动识别这一风格,并生成一个人在月球上行走的视频。

AIGC新模型报道,Stable Diffusion背后的RunwayML推出Gen-1

一、 引言

随着AIGC在视频领域的发展,目前已经衍生出很大主打使用AI生成模型来对视频进行创意编辑和处理的工具和平台。然而,由于视频数据的时序特性,直接对视频进行编辑仍然是复杂且耗时的。最近的一些工作和应用已经证明,扩散模型在图像合成任务上具有非常好的性能表现,例如DALL-E 2[2]和Stable Diffusion[1]等模型,可以在用户仅输入文本提示的情况下生成非常有趣的图片,其灵感来源于对扩散模型嵌入空间向量的指示性修改。受这一思想的启发,本文作者提出了一种结构可控和内容感知引导的视频扩散模型Gen- 1,该模型可以 在图像和视频上联合训练,并 且在不同图像粒度上使用单目视觉估计来控制生成视频的结构和内容保真度

Gen-1提供了几种强大的视频生成模式。首先,类似于图像合成模型,Gen-1可以自主识别当前输入视频的外观或风格,并且将其迁移成匹配用户提供的图像或文本提示的效果(如上图)。其次,受扩散过程的启发,作者将信息退化过程应用于结构表示,以便能够灵活控制模型对视频结构的控制力度。最后,Gen-1也沿用了无分类器指导的训练模,可以通过一个自定义的指导方法来调整推理过程,以控制生成视频仍然保持与原视频的时间一致性。

二、方法

本文方法的核心在于,同时从内容和结构的角度来考虑视频生成任。 这里的结构指的是描述视频几何和动态的特征,例如,视频主体的形状和位置以及它们的时间变化。 这里的内容被定义为描述视频的外观和语义的特征,例如物体的颜色和风格以及场景的照明情况等。 Gen-1模型的目标是编辑视频的内容,同时按照一定的比例保留其原有结构。

为实现这些功能,模型学习的目标是为视频 构建一个生成模型 ,以结构表示为条件,用 表示,内容表示为 。从输入视频中推断形状表示 ,并根据描述编辑的文本提示 对其进行修改。下面我们首先介绍Gen-1如何将生成模型的实现描述为条件引导的Latent视频扩散模型,然后介绍作者对形状和内容表示的选择策略。下图为Gen-1模型的整体框架。

AIGC新模型报道,Stable Diffusion背后的RunwayML推出Gen-1

整体模型架构

2.1 嵌入空间扩散模型(Latent Diffusion Models)

嵌入空间扩散模型[1](LDMs)的一大改进是将扩散过程引入到嵌入空间中。这为模型的压缩性学习和生成性学习阶段提供了一个很好的分离状态。具体来说,LDMs使用一个自动编码器,其中编码器 根据 将输入数据 映射到低维嵌入空间向量,而解码器 将嵌入空间向量再转换回输入空间,从而使得修改后的输入 。这里的编码器对RGB图像 进行8倍的下采样,输出四个通道,并产生嵌入空间向量 。这样做使得实际执行扩散过程的UNet网络可以在一个小得多的表示上运行,大大改善了运行时间和内存效率,后者对于视频建模尤其关键,因为额外的时间轴会带来大量的内存成本。

2.2 时空嵌入空间扩散(Spatio-temporal Latent Diffusion)

为了正确模拟视频序列的分布,Gen-1必须考虑帧与帧之间的时序关系。同时,作者还希望能够学习一个具有共享参数的图像模型,以便使Gen-1能从大规模的图像数据集中获得更好的视觉泛化能力。为了实现这一目标,作者通过引入时空层(Spatio-temporal layers)来扩展图像架构,但是这些时空层只对视频输入有效。所有其他层在图像和视频模型之间共享。UNet网络由两个主要的构建块组成,残差层块和变换器块(如下图所示)。作者在每个残差块的二维卷积之后引入一个时间卷积,同样地,在每个空间二维变换块之后也加入了一个时间一维变换块。

AIGC新模型报道,Stable Diffusion背后的RunwayML推出Gen-1

在具体实现时,作者将图像视为帧数为1的视频,以便统一的处理视频和图像两种输入。输入的一个批次大小为 、帧数为 、通道数为 、空间分辨率为 的批次张量(形状为 ),其被重新排列为 的空间层。

2.3 视频内容和结构的表示

已经有很多工作证明,条件扩散模型非常适合模拟视觉数据的条件分布,例如 。在这种情况下,正向过程 保持不变,而条件变量 、 成为模型的附加输入。

由于缺乏与DALL-E 2和Stable Diffusion等模型使用的配对图像数据集质量相似的大规模配对视频文本数据集,这里作者只能使用无字幕的视频数据进行训练。因此在训练过程中缺乏对视频三元组的描述数据、没有编辑提示和生成的输出,也没有成对的视频和文本字幕。因此,在训练期间,模型必须从训练视频本身导出结构和内容表示,即 和 ,这导致模型的损失函数变为:

AIGC新模型报道,Stable Diffusion背后的RunwayML推出Gen-1

相反,在推理过程中,结构 和内容 分别来自输入视频 和文本提示 。 的编辑版本 是通过对以 和 为条件的生成模型进行采样获得的:

AIGC新模型报道,Stable Diffusion背后的RunwayML推出Gen-1

2.3.1 内容表示

为了从文本输入 和视频输入 推断出内容表示,作者这里使用CLIP模型的图像嵌入来表示内容。对于视频输入,作者在训练期间随机选择一个输入帧来导出视频内容嵌入 。这种方法可以通过图像输入而不是文本来指定编辑模板,通过对解码器的可视化实验 表明,CLIP嵌入提高了模型对语义和风格属性的敏感性,同时对精确的几何属性(例如对象的大小和位置)有很强的的保持能力。因此,CLIP嵌入是内容的合适表示。

2.3.2 结构表示

但是想要对视频中的内容表示和结构表示进行完美分离是非常困难的。关于视频中语义对象类的先验知识会影响某些形状出现在视频中的概率,解决方法是选择合适的表示来引入归纳偏差,引导模型朝着预期的行为发展,同时减少结构和内容之间的相关性。为了更好地控制要保留的结构比例,作者提出可以在不同信息粒度的结构表示上训练模型。作者在扩散时间步 上进行操作,以视频结构模糊级别作为模型的输入来控制最终生成的结构保持程度

2.3.3 调节机制

由于结构代表了视频帧空间信息的重要部分,因此作者在这里使用级联的形式对其进行调节以有效利用结构信息。 相反,内容表示所描述的属性不依赖于特定位置。 因此,这里使用交叉注意力可以有效地将这些信息传输到视频中的任何时段。 具体实现时使用UNet架构的空间Transformer块进行交叉注意调节,每个模块包含两个注意力操作,其中第一个执行空间自注意力提取,第二个执行交叉注意力提取,其中key和value都是从CLIP图像嵌入中计算得出。

为了实现以结构信息为条件的视频生成,这里首先使用MiDaS DPT-Large模型[3]估计所有输入帧的深度图。然后将模糊和下采样指标迭代应用于深度图,其中 控制要从输入视频中保留的结构程度。在训练期间,作者在0和 之间随机采样 。通过控制该参数可以实现不同的编辑效果(如下图所示)。随后再将经过扰动的深度图重新采样为RGB帧的分辨率,并使用 对其进行编码,这种结构的潜在表示与提供给UNet的输入 连接在一起送入到解码器中进行生成。

AIGC新模型报道,Stable Diffusion背后的RunwayML推出Gen-1

三、实验结果

为了对Gen-1模型进行性能评估,作者选用视频目标分割领域的大型数据集DAVIS进行实验,随后使用现成模型对测试视频自动创建编辑提示,首先使用一个预训练视频字幕生成模型来获取对原始视频内容的描述,然后使用GPT-3对当前视频生成对应的编辑提示文本。

3.1 定性结果

下图展示了Gen-1模型在各种视频输入上的良好生成效果,Gen-1可以稳定的处理静态镜头(第一行)以及来自自拍视频(第二行)的抖动相机运动,而无需对输入视频进行任何显式的跟踪调整,此外它还可以适应各种各样的镜头风格,由于其基于深度估计的一般结构表示,Gen-1不限于特定的主题领域,并且从大规模图像和视频数据集进行训练获得的泛化能力也支持很多视频编辑功能,例如改变动画风格,如动漫(第一行)或粘土动画(第二行),还有改变场景环境,例如将白天改为日落(第三行)或将夏季改为冬季(第四行),以及场景中角色的各种变化,例如将徒步旅行者变成外星人(第五行)或将自然界中的熊变成在星空下行走的太空熊(第六行)。

此外,Gen-1还具备良好的背景编辑功能,如下图所示,用户可以给定一段输入,并且以mask 形式为模型指定画面跟踪对象,并输入风格编辑指令,模型就会根据编辑指令只对视频背景进行调整,而保留画面中心目标的视频内容。

AIGC新模型报道,Stable Diffusion背后的RunwayML推出Gen-1

3.2 量化评估

此外,作者还进行了一系列量化评估,使用两个指标来量化Gen-1的性能,(1)帧一致性,即在所有输出视频帧上计算CLIP图像嵌入,并计算这些连续帧对之间的平均余弦相似度。(2)提示一致性,即在所有输出视频帧上计算CLIP图像嵌入和编辑提示的CLIP文本嵌入,然后计算这些文本和图像嵌入之间的平均余弦相似度

上图展示了本文模型其他baseline模型使用上述两种指标的对比测试结果,可以看到,Gen-1模型在两个方面都优于baseline模型。作者还注意到在baseline模型调整强度参数可以带来轻微的性能权衡,更大的强度尺度意味着更高的提示一致性但会带来更低的帧一致性。而对于Gen-1模型,增加时间强度( )会带来更高的帧一致性,但会降低提示一致性。而增加的结构强度( )会带来更高的提示一致性,因为内容变得越来越不由输入结构决定。

四、总结

本文的设计愿景是在现有扩散模型的基础上提高生成式AI模型的综合性能,并且对于视频文本生成任务进行了有效改进。作者抓住了视频扩散模型的两个关键因素,即视频结构信息和内容信息,通过对视频深度估计的调节来确保结构的一致性,而内容则由图像或自然语言来控制。此外作者提出了一种新型的引导方法,即通过大规模配对图像数据集与视频数据集联合训练的方式,一方面保证了模型对多种图像输入的泛化性,另一方面也提高了模型生成的时间一致性。Gen-1模型的生成效果非常完整且酷炫,它到底是否能够达到他们所说的“生成式AI向前迈出了一大步”,可能需要我们大家共同来评价。

参考

[1] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684-10695).

[2] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu,and Mark Chen. Hierarchical text-conditional image generation with clip latents, 2022. 1, 2, 4

[3] Rene Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler, and Vladlen Koltun. Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44:1623–1637, 2019. 5

作者:seven_

Illustration by Delesign Graphics from I conScout

-TheEnd-

本周上新!

扫码观看!

多家技术企业招聘来啦!

多家技术企业招聘来啦!有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求,包含来自科技大厂微软亚研、腾讯、小红书等企业,科技明星公司始途科技、梅卡曼德等企业的算法工程师等正式及实习岗位,欢迎有需求的大家向这些公司投递简历哦!

扫描了解详情~

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

© 版权声明

相关文章