在 AI 长期发展中,目前的文本生成图像模型有了显著提升,今年谷歌、OpenAI 等都接连推出了自己的图像生成模型,如 Imagen、Dall·E 2 等。这些模型能够依照给定的文本提示实现高质量和多样化的图像输出。
不过,当让一个真实的特定现实物体出现在图像中时,最先进的文本生成图像模型也很难保留其关键视觉特征,即它们缺乏模仿或再现给定参考集中主体外观的能力。
比如,对于下图中的时钟(钟面右侧有黄色数字 3),在对包含时钟外观详细描述的提示文本进行数十次迭代后,Imagen、Dall·E 2 等模型仍无法重建其关键视觉特征。
据了解,造成这一结果的主要原因是此类模型输出域的表达性有限,即便对对象进行最详细文本描述,它们也可能产生具有不同外观的实例。
▲图 | 真实时钟图像(左)和不同模型的生成效果(来源:arXiv)
针对以上问题,谷歌研究人员娜塔尼尔·鲁伊斯(Nataniel Ruiz)等人对 Imagen 模型进行了微调,从而实现了将现实物体在图像中真实还原的功能。可以看到上图最右侧用新模型生成的图片,较好地还原了时钟上数字 3 的位置。
近日,相关论文以《微调文本到图像扩散模型,以实现主体驱动生成》(DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation)为题提交在arXiv 上。
本次名为 DreamBooth 的模型是一种新的文本到图像“个性化”(可适应用户特定的图像生成需求)扩散模型。另外,虽然 DreamBooth 是在 Imagen 的基础上做的调整,但研究人员在论文中还提到,他们的方法也适用于其他扩散模型。
只需几张(通常 3~5 张)指定物体的照片和相应的类名(如“狗”)作为输入,并添加一个唯一标识符植入不同的文字描述中,DreamBooth 就能让被指定物体“完美”出现在用户想要生成的场景中。
▲图 | 方法概述(来源:arXiv)
论文中还提到:“想象一下自己的宠物出现在全球各著名景点或者让喜欢的包在巴黎最高档的陈列室里展出。渲染这样的想象场景需要综合特定主题(对象、动物等)的实例,让它们自然而无缝地融入到场景中,是一项具有挑战性的任务。”
值得一提的是,除了能对物体真实再现外,DreamBooth 还能任意调整指定事物(如猫、墨镜)的动作和表情,也可以给它们添加滤镜、各种装饰品和换颜色等,甚至是帮它们“换脸”。在高保真度展示对象细节的同时,还能保证场景与主题之间的逼真交互。
▲图 | 给汽车换颜色和给狗换身体(来源:arXiv)
当用知名画家的风格来演绎以狗为主题的图像时,许多生成的类别(比如梵高等)在训练集中未曾出现过。而且,一些作品似乎具有新颖的构图,并忠实地模仿了画家的风格。这或许暗示了新模型 DreamBooth 的某种创造力。
(来源:arXiv)
在给事物(如猫)更换背景和合成指定视点的图像时,DreamBooth 能对事物细微但重要的细节保持高保真度,从下图猫的前额上还保留着复杂的毛皮图案可见一斑,并且背景在视图变化的情况下也在以真实方式变化。利用该模型的“换景”能力,可轻松“游遍”世界各地。
▲图 | 从右到左为背面、侧面、底部和顶部视图(来源:arXiv)
DreamBooth 还可让人们自己的狗狗进行 Cosplay(角色扮演),让它们穿戴不同服装和配件。比如按照文字提示“穿着警察/厨师/女巫服装的狗”,就能生成如下生动、“以假乱真”的图像。
(来源:arXiv)
研究团队在论文中还提到:“我们强调这样一个事实,即我们的方法保留了独特的视觉特征,这些特征赋予了主体的身份或本质,同时执行了所需的属性修改。”
该项目旨在为用户提供一种用于在不同环境中,合成个人主题(动物等)的有效工具。一般的文本到图像模型可能偏向于特定属性,但本次的研究方法使用户能够更好地重建其所需的指定事物。
这种效果类似于一个“魔法照相亭”,一旦拍摄了特定物体的几张照片,照相亭就会在简单和直观的文本提示引导下,在不同的条件和场景下生成对应主体的照片。
(来源:arXiv)
当然,通过这种方式,一些恶意使用者可能会试图利用生成的图像来误导大众。这在其他各种图像生成模型或内容操作技术中,是一个普遍存在的挑战。未来的研究,特别是个性化生成方面的研究,需要持续关注这类问题。
参考资料:https://dreambooth.github.io/https://arxiv.org/abs/2208.12242