这份初学者指南是为那些对SD或其他人工智能图像生成器毫无经验的新手而设计的。
我将概述SD的功能,介绍它能为你做些什么,并提供一些使用技巧。
Stable Diffusion是什么?
“Stable Diffusion” 是一种人工智能模型,可以根据文本输入生成图像。比如说,如果你想要生成一个姜饼屋的图片,你可以使用下面的提示语:
gingerbread house, diorama, in focus, white background, toast , crunch cereal
该人工智能模型会生成与提示相匹配的图像
有类似的文本到图像生成服务,例如DALLE和MidJourney。为什么选择Stable Diffusion?Stable Diffusion的优势有:
- 开源:许多爱好者已经创建了免费而强大的工具。
- 专为低性能计算机而设计:运行它是免费或者价格便宜的。
Stable Diffusion能生成哪些类型的图像
Stable Diffusion可以生成所有类型的图像,他没有极限。以下是一些例子。
日本动漫风格
照片拟真风格
风景画
奇幻画
艺术风格
如何开始生成图片?
在线生成器
对于绝对的初学者,我建议使用免费的在线生成器。进入网站,输入上面的示例提示,就可以开始了!
高级GUI
免费在线生成器的缺点在于其功能相当有限。如果你需要更多功能,你可以使用更高级的GUI。
如果你拥有至少4GB VRAM的良好NVIDIA GPU,那么在你的PC上运行也是一个不错的选择。请查看Windows和Mac的安装指南。
为什么要使用高级GUI?你可以使用以下工具库。
高级提示技巧:
使用修复技术重新生成图像的一小部分(Inpainting)
基于输入图像生成图像(Image-to-image)
通过命令编辑图像。
如何构建一个好的提示词
学会构建好的提示词需要学习很多东西,但基本的是要尽可能详细地描述你的主题。确保包含强有力的关键词来定义风格。
使用提示词生成器是学习逐步过程和重要关键词的好方法。对于初学者来说,学习一组强有力的关键词及其预期效果是至关重要的。这就像学习一门新语言的词汇。在这里,你还可以找到一个简短的关键词列表和注释。
生成高质量图像的捷径是重用现有的提示词。前往提示词收集页面,选择一个你喜欢的图像,并记住他的提示词!缺点是你可能不明白为什么它会生成高质量的图像。阅读注释并更改提示信息以查看效果。
另一种方法是使用像Playground AI这样的图像收集网站。选择一张你喜欢的图像并重新排列提示信息。但对于高质量的提示词,这可能就像在海底捞针。
将提示词视为一个起点,根据需要进行修改。
构建好提示词的经验法则
两个原则:(1) 要详细具体,(2) 使用有力的关键词。
详细而具体
尽管人工智能取得了飞跃的进展,但是“Stable Diffusion”仍然不能读取您的想法。您需要尽可能详细地描述您的图像。
假设您想生成一张街景中的女性图片。这是一个简单的提示。
a woman on street
嗯,也许您不想生成一个奶奶的图片,但这符合您的提示。您不能责怪“Stable Diffusion”……
因此,您应该多写一些文字来描述您想生成的图片。
a young lady, brown eyes, highlights in hair, smile, wearing stylish business casual attire, sitting outside, quiet city street, rim lighting
看到了明显的差异。因此,提高您的提示编写技巧吧!
使用有力的关键词
有些关键词比其他关键词更加强大。例如:
- 名人的名字(如艾玛·沃特森)
- 艺术家的名字(如梵高)
- 艺术媒介(如插图、绘画、照片)
谨慎地使用它们可以将图像引导到您想要的方向。
您可以在提示构建的基础知识中了解更多有关提示构建和关键词示例的信息。
想作弊吗?就像做作业一样,您可以使用ChatGPT生成提示!
这些参数是什么,我应该改变它们吗?
大多数在线生成器允许您更改有限的参数集。以下是一些重要的参数:
- 图像尺寸:输出图像的尺寸。标准尺寸为512×512像素。将其更改为纵向或横向尺寸可能会对图像产生重大影响。例如,使用纵向尺寸生成全身图像。
- 采样步骤:使用至少20个步骤。如果看到模糊图像,可以增加步骤。
- CFG比例:典型值为7。如果您希望图像更符合提示,可以增加该值。
- 种子值:-1生成随机图像。如果要生成相同的图像,请指定一个值。
我应该生成多少张图片?
测试提示词时,您应该始终生成多张图片。
当对提示词进行大改动时,我一次生成2-4张图片,以加快生成速度。当进行小修改以增加看到可用图像的机会时,我会一次生成4张图片。
有些提示词在生成图象时只有一半或更少的时间是起作用的。因此,不要仅仅根据一个图像就否定一个提示词。
什么是图生成图
图生成图生成是基于输入图像和提示生成图像的技术。
图生成图(Image-to-Image,简称img2img)接受图像和提示作为输入。您不仅可以使用提示来引导图像生成,还可以使用图像。
实际上,您可以将文本到图像(Text-to-Image)视为图像到图像的一种特殊情况:它只是具有随机噪声输入图像的图像到图像。
修复图像缺陷的常见方法
当您在社交媒体上看到惊人的人工智能图像时,很有可能它们经历了一系列的后处理步骤。本节中,我们将介绍其中一些步骤。
面部修复
在AI艺术家社区中,众所周知Stable Diffusion不擅长生成面部图像。生成的面部图像往往具有伪影。
我们通常使用专门用于修复面部图像的图像AI模型,例如CodeFormer,AUTOMATIC1111 GUI已经内置了支持。
使用图像修复填补法修复小缺陷
第一次尝试得到您想要的图像很困难。更好的方法是生成一个具有良好构图的图像,然后使用修复技术来修复缺陷。
下面是一个修复前后图像的示例。使用原始提示进行修复的情况通常能够成功90%以上。
左侧:有缺陷的原始图像。右侧:使用修复技术修复的脸部和手臂。
什么是自定义模型
由Stability AI及其合作伙伴发布的官方模型称为基础模型。一些基础模型的示例包括Stable Diffusion 1.4、1.5、2.0和2.1。
自定义模型是从基础模型中训练出来的。目前,大多数模型都是从v1.4或v1.5中训练出来的,它们使用额外的数据来生成特定风格或对象的图像。
在自定义模型方面,只有想象力是限制。可以是动漫风格、迪士尼风格、另一个AI的风格等等。
下面是5个不同模型的比较。
我应该使用哪个模型
如果你刚开始学习,建议使用基础模型。这些模型非常适合学习和尝试,可以让你学习数月。
两个主要的基础模型组是v1和v2。v1模型是1.4和1.5。v2模型是2.0和2.1。
你可能认为你应该从较新的v2模型开始。但人们仍在尝试弄清如何使用v2模型。v2生成的图像不一定比v1更好。
如果你是Stable Diffusion的新手,我建议使用v1.5模型。
如何训练一个新模型
使用 Stable Diffusion 的一个优点是您可以完全控制模型。如果您愿意,可以创建具有独特风格的自己的模型。训练模型的两种主要方法是:
(1)Dreambooth
(2)embedding。
Dreambooth 被认为更强大,因为它微调整整个模型的权重。Embedding 则不改变模型,但会找到描述新主题或风格的关键字。
负面提示词
你可以将你想要看到的内容放在提示中,将你不想要看到的内容放在负面提示中。并非所有的 Stable Diffusion 服务都支持负面提示,但对于 v1 模型来说很有价值,对于 v2 模型来说则必须要有负面提示。对于初学者来说,使用通用的负面提示也不会有什么坏处。
如何控制图像构图?
StableDiffusion正在快速改进,有几种方法。
图生成图
您可以要求StableDiffusion在生成新图像时粗略地跟随输入图像。这被称为图像到图像。下面是使用鹰的输入图像来生成一条龙的示例。输出图像的构图遵循输入图像。
ControlNet
ControlNet 同样使用输入图像来指导输出。但它可以提取特定的信息,比如人体姿势。下面是使用 ControlNet 从输入图像中复制人体姿势的示例。
Depth-to-image
Depth-to-image也是通过输入图像控制构图的另一种方式。它可以检测输入图像的前景和背景。输出图像将遵循相同的前景和背景。以下是一个示例。
翻译自STABLE DIFFUSION ART