说明:本文写于2022年9月,其时Midjourney还在公测阶段,版本号应该是V3或V2,短短几个月,现在最新版本已经进阶到V5了。AI技术的爆炸式发展,正应了那句老话:士别三日,当刮目相看!
楔子
上个月,我在百度文心一格初次尝试了AI绘画(参见上一篇《我看不懂,但我大受震撼 —— AI绘画初体验》),你只需要发挥你肆无忌惮的想象力并给出几个关键词,AI就能给你输出不限量的绘画作品,虽然有时候混搭扭曲的风格并不合意,但也有不少充满了天马行空想象的佳作。总体上不妨以数量取胜,大批量生成的画作里总能挑出几张不错的。
这个月(2022年9月)又出了一个热点新闻(参见纽约时报报道:AI-Generated Art Won a Prize. Artists Aren’t Happy.),美国科罗拉多州博览会的2022年度艺术竞赛把“数码艺术/数码操控摄影”类别的一等奖授予了一副AI绘画作品,此事在推特上再次引起了大量的讨论。虽然评委一开始并没有意识到这是一幅AI绘画作品,但在得知真相后,多位评委表示并不后悔之前作出的决定。
AI在绘画艺术领域,不但开始与人类画家同台竞技,还摘取了桂冠,这让许多插画艺术家忧心忡忡。
Midjourney初体验
Midjourney是当前诸多使用多模态AI大模型技术的实现之一,支持文本到图像的转换,使用者仅需输入几个关键词(元素、主题、风格、画师等),AI就能自动、快速、批量的生成相关图像。
惊人的第一印象
相比我之前体验的百度文心一格,MidJourney看起来要成熟的多,成像质量很高。油画、水彩、工笔、水墨,卡通、拟真、古风、赛博朋克……AI通通都能驾驭,而且输出画作的精致程度,令人震惊。
以下是我从官网众多示例画作中随便挑的几例,大家可以感受一下:
官网推荐作品当然是比较完美的,但Midjourney的实际表现如何呢,成品率有多高?我为此购买了Midjourney一个月的普通会员,通过实操感受一下的AI出图的质量和效率。
需要说明的是,Midjourney并没有独立应用,而是架设在社交软件Discord之中,使用方法是在Discord的对应讨论群中输入文字,然后就能看到AI绘画效果。所以实操之前还要先注册Discord帐号,当然还有一个必要前提是科学上网。
出图实操1:简单景物
做好准备工作之后,我终于进入了操作界面,如图页面最底部就是输入提示文本的位置,AI出的画会在中间聊天窗口中出现,你可以在公共群看到别人的输出,为了防止打扰,也可以自己单开一个小群。
我先试了一个简单的提升文本:an ancient chinese painting of temple,系统大概花了1分钟就给出了4张候选小图,过程中你可以看到图片从模糊到清晰的AI作画过程和总体进度百分比:
下面有两排按钮,Ux对应放大对应图片尺寸,Vx表示对选择的图片进行同样式的微调。
我选择V4后,系统很快基于第4张图片又生成了4张调整后的图形,供进一步选择。可以看到,这次生成的4张图形跟原先的图4很相似,只是在绘图元素和建筑样式上做了微调。
我点击U4,即对最初的图4进行尺寸放大,最终得到一张高清大图:
嗯,AI绘画就是这么简单,就像一个不知疲倦的乙方,可以听你指令一直输出画作,直到你满意为止。当然,这个乙方跟你不是同类,不能和你直接对话,必须由你输入文字提示来指导工作,有时候还不能很好的领会你的心意。但仔细想想,人类合作不也这样吗,插画师按甲方提的意见出图后很少有一次通过的,boss给出前后矛盾的修改意见,反反复复最终又改回去的事情本来就司空见惯。
在某种意义上,AI绘画可能对甲方boss而非乙方插画师的作用更大,可以帮助甲方快速试验不同的方案直到思路清晰,让甲方成为更好的甲方。
出图实操2:人物
上周体验百度文心一格的AI绘画后,我的一个深刻(负面)印象是AI画人像效果差,也许AI知道人的组成部件,一个正常的人脸有眉毛,有眼睛,有鼻子,但是对于五官比例和摆放位置没有概念,对人的审美标准更是一无所知,所以经常输出一些歪脸斜鼻的畸形怪物。Midjourney表现会怎么样呢?
我对官网的一个画作的提示文本稍加改动,希望表现一个哭泣的女孩形象(有兴趣可以对比看看[《我看不懂,但我大受震撼 —— AI绘画初体验》]())。
提示文本: full shot of a beautiful young girl, crying, digital art, 4K, by Kyoto Animation, artgerm, tsuaii, Krenz Cushart, Ilya Kuvshinov, Rossdraws, trending on artstation, anatomically correct
首次出图:
感觉效果不错呀,对图2放大后得到:
选择另一张官网样例:
输入提示文本,重新创作一次:character design, jasmine, disney, aladin, environmental in-action head and shoulder portrait, colorful, soft lighting, highly detailed digital painting, cinematic lighting, by greg rutkowski, by edouard bisson, Roberto Ferri, Ross Tran, artgerm and alphonse mucha, by Jesper Ejsing
初次得到的4张小图:
选择图1放大,描绘细节,得到大图:
出图实操3:限定意图
接下来,测试一个更困难的场景:限定意图出图,看看AI的理解能力如何(或者是我的文字表达能力如何)。我在华为游戏中心随便找了一张近期首发游戏活动宣传图,能通过提示文本让Midjourney绘制出一张类似图稿吗?
我第1次尝试使用的提示文本如下,希望获得一种明快的水彩卡通风格的画作,所以提示词中包含了Ghibli(宫崎骏的吉卜力工作室)和 Makoto Shinkai(西铁城)。
a beautiful water color painting of many ants searching for food in a garden , In the morning mist with blue sky, next to a huge strawberry and grass, cartoon style of Ghibli, by Makoto Shinkai
获得的初稿:
嗯,水彩画风有了,也有草莓的身影,但初稿中没看到明显的蚂蚁,只有一些黑乎乎的类似甲虫的形象。
我微调了提示文本,再试一次:a beautiful water color painting of several ants in closeup view, beautiful garden, morning mist with blue sky, next to huge strawberry and grass, cartoon style of Ghibli, by Makoto Shinkai
这次获得的初稿:
问题看起来似乎更严重了,AI创作出了草莓蚂蚁——草莓的身子+蚂蚁的腿脚……
我怀疑是Midjourney的训练数据中缺少蚂蚁的样本,所以画不出一只完整的蚂蚁。
那么改成蜜蜂和蝴蝶试试:a beautiful water color painting of bees and butterflies in closeup view, beautiful green garden with flowers, morning mist with blue sky, next to huge strawberry and grass, cartoon style of Ghibli, by Makoto Shinkai
看起来好一些,但仍然不太对。我相对喜欢第4副图的场景,让AI基于图4调整后再次输出4副小图:
再对图3输出大图:
小结
Midjourney不愧是众人推崇的AI绘画大师,计算速度快,基本1~2分钟即可出图,而且成品质量较高,尤其是生成的人像几乎不用做什么修饰就足以跟真人手绘媲美,令人震惊。
而针对AI绘画效果难以精确控制的难点,Midjourney通过首轮输出多副候选小图,并可根据选择结果做二次调整和多次演化的方式迭代改进,算是部分缓解了这个问题,但没有根治。
但是AI的理解能力毕竟是有限的,通过提示文本驱动AI作画不能做到如臂使指,而且受限于训练数据,AI对于训练数据覆盖不足的绘画元素和风格是无能为力的。这一点在上述第3次实操中暴露无遗。
可以想象,现在并不是AI绘画能力最强大的时刻,也许正处在一波浪潮的上升期,但远未到达峰顶。更让人敬畏的是AI进化的速度,当年AlphaGo与李世石第一次人机大战时,李世石虽然总比分失利毕竟还胜了一局,但几个月后人类面对再次进化的AlphaGo已经没有一战之力;次年AlphaGo干脆利落的以3比0绝对优势打败人类世界排名第一的柯洁,再下一代的AlphaZero凭借自我学习就可以毫无悬念的战胜AlphaGo,围棋技艺水平已经超越人类想象。这一幕可能也将发生在AI绘画领域,就我视线所及,前两周试用的百度文心一格新开放了自定义画像高级功能,不久前刚推出1.5版本的开源大模型StableDisfussion又迭代发布了2.0版本,各路神仙你方唱罢我登场,AI绘画的能力预计也将突飞猛进。
AI绘画的意义
在19世纪摄影术发明之前,欧洲的肖像画家有着崇高的地位,人们认为人类是依上帝的形象创造的,而任何人类发明的机器都不能固定上帝的形象,只有虔诚的艺术家得到了神灵的启示,才敢冒险复制出人的神圣面容。而后摄影这项新技术被公之于世,当时依旧有人认为摄影师虽然看似简单的仅凭按键就能保留自然的影像,但实际受到的限制比画家更多,毕竟画家可以凭借想象作画,而摄影师做不到无中生有。
这种孰优孰劣的讨论在艺术家圈子中争辩不休,直到摄影这个新门类也被纳入了艺术范畴,而大部分普通人则早早就接纳了这项新技术,因为摄影让人人都可以拥有的自己或者亲人的肖像,这通常具有重要纪念意义,而以前只有贵族和有钱人才负担得起。最终受害最重的肖像画家多半改行成了摄影师,还有些画家开始尝试印象派、抽象派的新路线,绘画艺术的路线开始变道。
也许,AI绘画在某种程度上会让这一历程重演,一开始画家们将被区分为传统画家和AI画家两派,而前者将逐渐式微,直至所有画家都把AI视为必不可少的绘画助手。对于AI画家而言,双手的技艺将变得不再那么重要,转而需要头脑有很高的艺术理论储备,毕竟如果不熟悉艺术大家、绘画流派、艺术风格、历史名作,还欠缺想象力的话,是无法命令AI产出佳作的。
我认为AI绘画的意义将超出绘画艺术界。它打碎了人们长久以来认为机器无法进入创意领域的刻板印象,从此AI适合的领域和人类从事的领域再也没有泾渭分明的界限。AI最终会进入人类当前从事的每一个业务领域,当成为共识。拥抱它,还是拒绝它?当一场新的技术革命席卷而来,老一辈人发现需要抛弃以往的做事方式被迫与年轻人站在同一起跑线的时候,无论是感情上还是精力上都很难接受。但没有办法,就像吴军在《智能革命》中说的那样,“在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么进入前2%的行列,要么被淘汰。抱怨是没有用的。”唯有努力成为借力AI的人,而不是被AI淘汰的人。