插件的使用,我觉得应该从 ControlNet 开始,因为这是目前每一个使用 Stable diffusion 的人都避免不了的一个插件。从名字就可以看出,它可以直接控制 Stable diffusion 的神经网络,让其按我们的要求生成图片,很强大。
更新之后的 ControlNet 插件界面比原来更加简洁了,旧版的 Invert Input Color 反转颜色已经合并到了预处理器里面,名称为 Invert(from white bg & black line),而且 RGB转BGR也已经取消了,取而代之的是 Pixel Perfect (完美解析度)、Allow Preview(允许预览) 这两个选项。
如果开启 Pixel Perfect 完美解析度,系统就会自动控制每张图片的解析度,让每一个像素都能完美对应,不需要再像旧版本一样需要另外调整预处理器的解析度了。而 Allow Preview允许预览选项则是旧版本里面的 【预览处理结果】按钮,新版本将其搬到了上方,想要预览预处理器的处理结果就可以把这个选项勾上,然后点击预处理器右侧出现的 【爆炸】 按钮就可以看到预处理结果。
原版本的创建空白画布按钮也移动到了image 图片框的下方,并扩展成了 4 个按钮,从左往右,点击第一个可以打开创建画布的选项,设置好宽高后点击 Create New Canvas 创建画布按钮,就可以创建一张空白的画布,可以在上面进行涂鸦绘画等操作。第二个按钮可以打开电脑的摄像头,直接用摄像头拍一张照片进行处理,前提是你的电脑安装有摄像头。第三及第四个按钮是将当前宽高设置应用到 Stable diffusion 的宽高里面,可以避免因图片尺寸对不上而产生变形。
以上就是新版本修改过的功能,下面几个是与原版一致的功能。
Enable可用选项表示是否启用当前 ControlNet 插件,打勾则表示启用, ControlNet 就会影响 Stable diffusion 的出图效果。
Low VRAM 选项是针对低显存设备的,如果你的电脑显存低于 6G,则把这个选项勾上,虽然勾上后出图速度会慢很多,但总比崩显存好。
Guess Mode猜测模式,简单的理解就是是否允许 ControlNet 自作主张来控制最终的出图效果,选中该选项后可以不填写提示词,ControlNet 也能自己脑补一幅完整的图像出来,但很多时候可能会不尽如人意,所以看需求选用。
再接下来就是 Control Weight 权重选项,这个值表示当前 ControlNet对出图结果的影响程度,跟提示词的权重差不多,最大值是 2 ,最小值是 0 ,默认是 1 ,一般使用默认的就好,如果不想让 ControlNet 过多的参与,可以把权重调小一点。
然后就是 Starting Control Step 开始控制的频数与 Ending Control Step结束控制的步数,这两个值最大是 1 ,最小是 0,表示指定 ControlNet 从什么时候开始参与作图,到什么时候结束,以百分比表示。如下图则表示 ControlNet 从 20% 的步数开始参与作图,到 90% 的步数结束参与作图。
再往下就是缩放模式的三个选项,分别是 仅缩放 / 裁剪与缩放 / 缩放与填充。
这个意思是当 ControlNet 的尺寸与 Stable diffusion 的尺寸不一致时,要用什么样的模式来参作图。为了更好的展示效果,这里做一个简单的对比:Stable diffusion 尺寸设为正方形 512×512,ControlNet 预处理图片为竖屏 432×768,分别选择不同的缩放模式进行出图。
可以看到,当两者尺寸不一致时,为了匹配 Stable diffusion 的图片尺寸,ControlNet 把预处理的图片分别按对应的缩放模式进行了处理,每一种效果看起来都不太好。所以为了更好的使用 ControlNet 来控制出图,建议将两者的尺寸设为一样的,以便能达到更好的效果。
然后相信大家在看网上的教程时应该都会看到别人的 ControlNet 都是有好几组的,类似下面这样的。
这个可以在 ControlNet的设置里面找到 Multi ControlNet 这一项,这个值就是你需要的 ControlNet 的数量,想要多少就把这个数字设为对应的值就可以,然后在使用界面把 Enable 选项勾上,并调整一下权重,就能让多个 ControlNet 同时影响作图效果,这个方法在人物姿态控制以及室内设计等方面会经常使用到。不过启用的 ControlNet 数量越多,出图速度也就越慢,对电脑的性能要求也就越高,所以并不是越多越好,还得结合实际情况使用。
最后再分享一些我自己使用提示词的思路,供大家参考。
我在使用提示词的时候比较喜欢对提示词进行分类,然后按权重高低进行填写,比如:画质类、人物类、景物类、辅助模型(如lora),把提示词分类之后也可以更好的进行阅读以及修改。
首先是画质类,要想出一张好图,好的画质是必不可少的。打个比方,我们平时基本上都是用手机进行拍照,用现在的智能手机拍照跟用十几年前的手机拍照,效果可以说是天差地别,所以画质也是一样,指定好的画质出图就跟指定用现在的智能手机拍照一样,都是为了能出一张好图。
我常用的画质类正向提示词主要有以下几个:masterpiece(杰作),best quality(最佳质量) ,ultra highres(超高清),realistic photo(逼真照片),raw photo(原始照片),当然也还有其他的,大家可以从网站上别人的作品里面借鉴一些。
有了正向提示词,对应的就会有反向提示词,比如:worst quality(最差品质),low quality(低品质),normal quality(正常品质)等,同样也可以从别人的作品里面借鉴一些。
画质类提示词作为一张图片最重要的组成部分,一般都是放在提示词的最前面,这样无论生成什么图片,都不会差到哪去。
第二部分为主体或人物描写,比如:1 girl,cute, solo,nose blush, smile,closed mouth, medium breasts,beautiful detailed eyes, transparent collared shirt, usiness attire, jeans, long hair,black hair, white skin,beautiful hands,这部分主要用于描述人物的姿态服饰等。同样的也会有反向提示词:lowers,monochrome,grayscales,skin spots,acnes,skin blemishes,age spot,6 more fingers on one hand,deformity,bad legs,error legs,bad feet,malformed limbs,extra limbs,主要避免生成各种没见过的怪物。这部分提示词根据出图的需求填写就可以,没有一个标准,反向提示词可以在多次出图中找到不好的元素,填上去。
第三部分为环境景物以及附加属性的描写,比如:garden,on grass, evening,cinematic light,street light,这类提示词属于附加性的,依据出图需求填写就可以,没有一个标准,可有可无。
第四部分为附加模型,比如 lora、embedding 模型等。
提示词分类整理好之后,再对单个词进行权重的调整,就可以愉快的出图了,不用再担心图片会崩。
分类整理好之后的提示词,可以把通用的部分保存到 Styles 里面(比如画质类提示词),下次再使用的时候直接读取就可以,避免每次都要重新输入,省事了很多。