NovelAI模型泄露
NovelAI是一个商业的AI创作网站 (https://novelai.net/),包括段落生成和图片生成。目前造成广泛影响的是其中的图片生成,以下NovelAI均指代其官网的图片生成能力。
2022年10月初,NovelAI的模型意外被黑客盗取并泄露到公网,由于其作画质量颇高加之免费获取,吸引了越来越多的人过来尝试。虽然目前环境配置还有些软硬件门槛,但软件部分门槛现在由开源社区在不断优化,硬件部分的门槛则受到显卡矿卡价格降低的支持,虽然仍然要投入,但成本不算高。
NovelAI模型乃至其技术基础的Stable Diffusion的开源模型的效果其实也并非毫无问题(具体参见我上一个初期试用体验文章:Stable Diffusion预训练模型 把玩随感 ),但相对来说,多生成一些图挑一挑还是一个对不会画画的人【非常有用】的工具了。
泄露事件带来的技术变化
如果说NovelAI模型没有泄露,那么可能整个AI创作还是在一个小圈子里,跟国内的【文心一格】一样,要出圈以及造成更大的影响和讨论还要等很长很长时间。
但由于这次泄露事件和其效果的可用程度,直接导致该技术(或者说泄露的模型本身)的使用【会】快速扩散到大部分绘画相关领域。使得所有的画师都面对一个成本很低的竞争者,这个竞争者的优势有:
单张几十块钱的成本(包括硬件分摊、电费、人工调试prompt成本、人工挑图成本)更短的时间先花5-10min基于小批量进行prompt调试批量出图100-1000张进行人工筛选。大量出图在0.5-2h水平,还可以分布式并行进一步缩短人工筛选大概1-2秒1张,比较认真的话要做两轮来控制整体的筛选标准和最后留存的图像数量。原生自带大量可选方案,满足需求方的选择欲。90%以上的基本满足需求方大概需求的成功率
虽然仍然有手部绘制较烂、多主体作画较烂、较难精确指定细节等问题。但相对于它的成本,这些问题都可以被接受,只要再进行后续处理加工就好。
参考贴吧中画师的评论:调的不错的图的市场绘制价格可能是小几千RMB,还不一定就能及时约到画师。两个数量级的成本下降,造成的影响可能远比我们想象的要多。
例如使用如下prompt:(prompt经过了一些挑选来同时展示人物和背景的绘画质量)
# extremely detailed wallpaper 质量描述
# beautiful detailed face 面部质量指定,并附带人脸在画面中占比提升的副作用
# [(extremely detailed wallpaper):5],推迟到Step5之后再开始应用,为了进一步增加风格的多样性。
随机抽到的4张图(未挑选过):
想象一下,你只需要构思Prompt(这个需要一些经验,大概10h左右基本就有感觉了),然后等待10+秒(RTX 3060TI),就能够得到上述4张图。这个成本于之前相比如何?
该事件对相关行业的可能影响
AI创作相关领域
这是一次免费的广告和用户启蒙教育,技术上NovelAI相对于Stable Diffusion几乎没有提升,但这验证了商业模式,甚至可以说对行业造成的影响大概超过了绝大多数人的预期。
随着该模型快速挤占画师的生态位,这方面的后续追加投入应该很容易拉到,进一步完善指日可待。(但可能主要针对专业的图像创作产业链,给大众就不好说了)
人类画师
这方面一个观察窗口是NovelAI的贴吧,有兴趣可以去观察里面人的立场。
这方面的影响还很难预测,这里只列举一些我看到的观点和自己的认识:
各个水平的画师都会面对一个问题:相对于NovelAI,你的收费是否提供了与之匹配的价值?对于很多画师,这个问题可能是致命的。无论自己是否采用这个工具,绘画廉价时代都已经到来。中低端的按件计费的画师的价值受到很大的挑战,如果论绘画细节,NovelAI模型的水平大概已经可以算中高水平,常见问题是细节不符合常识。AI作画的细节问题可以交给新的改图师岗位来修改,成本相对于新画一张大大降低。而且这块后续的AI修正算法我觉得也并不是瓶颈,可以指日可待。现在模型不好只是因为一般模型不好同时兼顾整体和细节,单独做一个修正模型又大概率没人买单,现在买单的问题解决了。现在直接生成3D模型的模型已经有原型出来。后续再加上生成人物骨骼,用户可以在界面上调整骨骼动作,基于场景布置再进行图像生成。这些步骤虽然还没有现成的,但并不是没有思路。现在把整个创作行业的市值拿过来一看,这些问题的解决成本都是可接受的。人工修图的成本仍然跟画师的生存成本有关,如果不是一些小块的修复,而是较大面积的话,可能改图的成本仍然无法被接受。甲方可能会考虑花2h,再出500张以上的图人工挑选出内容不一样,但符合他需求的其他瑕疵更少的图。这个出图过程普通人熟悉之后就能做,成本不高于100RMB,如果要求不高或运气不错的话,30RMB之内都是可能的。这极大限制了改图师的收费标准。中高端画师在甲方也受到了一些挑战,一边是1/100的成本就有不低概率出很多基本可用的图供挑选+少量修图,另一边是等专家缓慢作画一张没有瑕疵且可以完成任意的修改要求。要说对中高端画师的收费没有影响是不可能的。当然画师自己也可以用AI创作来降低成本,但这个事甲方也知道,而且甲方自己都会用。低端颠覆的又一个实例,而且这次新技术赶上了天时地利人和。AI作画目前的细节达不到人工雕琢,甚至经常有些不好调prompt解决的问题。但图像创作的需求本来也不是一个每个像素都按照需求描述的行业,这方面比之前的硬盘存储领域的低端颠覆技术获得的用户认可要容易的多的多的多。更可怕的是,你告诉用户可以降低1-2个数量级的成本,用户自己可以降低需求要求来匹配这种技术来实现自己成本的降低(本来图像质量的标准就是一个比较模糊的事情)。这在已有的很多低端颠覆案例中都是少见的,这造成的影响可能我们是第一次见到。这种方案的出现速度太快。上一代的AI创作作画的方案应该还是StyleGAN,效果其实是要差很多的。之后是DALL-E系列,效果已经不错,但并没有免费开源完整版本。也并没有特别出圈,停留在新闻和少量技术尝鲜者中。现在的方案Stable Diffusion,2021年底才开源代码。开源的模型大概是2022年Q3左右才开始见到,到NovelAI的泄露,才2022年10月。从技术成熟度曲线(Gartner Hype Cycle)来说可谓非常快。更何况现在现在已经直接进入到公众讨论阶段,技术上后续也没感觉有特别致命的卡点,现在是不是已经跳过了泡沫期和低谷期直接来到了稳步爬升期都不好说。
图片来源:https://zh.wikipedia.org/zh-hans/%E6%8A%80%E6%9C%AF%E6%88%90%E7%86%9F%E5%BA%A6%E6%9B%B2%E7%BA%BF对于不是极为关注技术领域的画师来说,几乎是几天之内,饭碗被人砸了一大半。某一天,看到一个比自己便宜两个数量级,但不好说差多少的竞争者。慢一点的说不定还是被自己的客户告诉的。一周之后,自己的客户开始怀疑自己的收费是否值得。这个改变的速度堪比AlphaGo攻下围棋,只不过围棋不算是一个行业,但绘画是,数字绘画从业者远比围棋要多的多。而且看起来悲剧是:之前画师行业似乎是卖方市场,画师地位高,态度不好,有些卡版权不让买家再次修改,有些私单成品看起来就很差。这一下真砸的有点厉害。整个图像创作领域都在快速的受此影响并逐渐不得不接纳这种成本极低的技术,各方都得调整自己的工作流,重新寻找自己的生态位,特别是人类画师。目前(2022.10月中旬)的反击阵营使用的武器是认为AI作画有版权问题。但我判断这个武器大概很难奏效。
这次意外导致的行业颠覆会如何发展,只能让我们来见证了,特别是现在这个经济收缩下行期,一切都是可以妥协的,欧洲已经提供了例子。
一些技术层面的其他讨论
某类工作被替代的可能性
限定大概主题的随机绘画之所以能被ML替代,本质上还是因为图像的复杂度并没有特别高,近几年的AI图像领域的方方面面的发展已经不断的向我们展示了这一点。
相对来说,大段本文的复杂性就要相对于像素矩阵的图像要大得多。现在我们看到的段落生成还算不上好,也谈不让容易指定内容。
在我来看,一个工作内的本质复杂度是决定了ML是否容易替代的一个条件,也很可能是唯一条件。在这方面的一个例子是复杂软件系统。当然并不是所有软件都是足够复杂的,但复杂的软件还是挺多的,例如大多数价格不菲的商业软件(代码规模至少在百万行以上的)。
Foundation Models基础模型(或者说参数足够多的模型)
什么是大模型?超大模型和 Foundation Model 呢?
需要留意的是,这次的NovelAI模型是一个不算小的模型,模型大小有4GB,它具有类似其他大模型(如大型语言模型GPT-3之类的)的一些特点,我们也面对类似的问题:人们对于如何【较完整的】解析和利用它都还是一头雾水。
虽然我们可以通过Prompt或者简单的Tag列表来指示NovelAI完成创作。但如果减少限制,更多观察这个模型给出的随机结果的话,会发现这里的很多内容(例如风格、动作、姿态等)并没有合适的文字能够描述——它们就是一个模型中没有名字的能力,可以被随机遇到,但很难被特意指定。我们对于NovelAI模型本身的利用还只是一部分,也许还是很小的一部分。
就像我们面对GPT-3这样的模型一样,它们内部包含极多的信息,极多的复杂度,但我们尚不知道如何解剖并逐一检视。我们目前还只能当它是一个无法打开的玩具进行把玩。
本文成文于2022.10.15