【CSDN 编者按】最近 AI 绘画工具新版本 Midjourney V5 一经发布,便火爆朋友圈,今天我们就来评测一下 V5 与 V4 的区别~
原文链接:https://medium.com/@catmus2048/midjourney-v5-%E6%AF%94-v4-%E6%9B%B4%E5%A5%BD%E5%90%97-%E7%BB%BC%E5%90%88%E8%AF%84%E6%B5%8B-prompt-%E5%85%A8%E5%85%AC%E5%BC%80-bd8a1d909867
最近是不是被这张在网上转疯了的情侣照刷爆圈了。
第一眼是不是以为是真人拍摄。
但实际是 AI 生成的,来自 Midjourney V5 版本产出的一张 AI 绘画。
Midjourney V5 已发布多天,今天将做个全面评测:
V5 的惊艳之处:photograpy,CG rendering,HD film style 类生成。
Prompt 控制准确度的基本测试。
V5 比 V4 更好的地方:在 V5 里可以准确控制镜头语言,光影也更真实自然。
V5 相比 V4 倒退的地方:V5 会让构图更碎片化、产生更多不必要的细节,成像的锐利和清晰程度下降。
V5 的惊艳之处
下面是一些用 V5 生成的照片写实类 photo realism。
摄影一只爬行动物的美丽眼睛,蜥蜴的眼睛,蓝色和金色的瞳孔,特写视图,黑暗清晰的背景,极简主义,艺术,大气,杰作,HDR,超细节,500px
水下场景的表现非常不错,光影和水波反射的处理都非常真实。
水下泳池摄影,水下奔跑的马的照片,全身马,明亮,艺术,魔术时间,大气,杰作,生动的色彩,HDR,超逼真,锐利聚焦,超级细节,500px,8K,壁纸
水下泳池摄影,微笑的婴儿在水下游泳的惊人照片,高速摄影,HDR,艺术,极简主义,超现实,魔术时间,日落,金色闪耀,大气,杰作,8K,壁纸
美术摄影,美丽的眼睛,超逼真的瞳孔,特写视图,深色清晰背景,极简主义,艺术,大气,杰作,HDR,黄金比例构图,超详细,500px
摄影,一个透明的水晶立方体,高高地漂浮在天空, 动荡的大海,北冰洋,日落,魔术时间,HDR,极简主义,艺术,大气,未来派,超详细,8K壁纸,HDR,500px
美术摄影,祈祷之手,超级逼真,特写视图,深色清晰背景,极简主义,艺术,大气,杰作,HDR,黄金比例构图,超详细,500px
金属材质的渲染
液态金属,流动 飞溅,深色和金色,丝带般的光泽,逼真,工作室光线,惊人的纹理,锐利的焦点(上)| 乔治·詹森(下)的作品
黑白胶片风格和电影风格的照片生成
令人惊叹的自然景观, 教堂
你可以用 a scene from the movie **** ,配合一个超宽的比例,生成很多电影场景,比如下面五张教父系列。
电影“教父”中的一个场景,黑色电影,自然光,富士胶片,豪华,历史,4k
街景,小教堂,黑色电影,广角镜头,胶片照明,富士胶片,豪华,电影静止图像
人像生成
编辑风格的照片中特写镜头,一个年轻的黑发法国女人,坐在大理石桌旁,穿着黑色连衣裙和钻石项链,在装饰艺术风格的餐厅里,天鹅绒、黄铜和镜子装饰,宝石色调调色板,西榆树,枝形吊灯,餐厅,晚上,自然采光,富士胶片,豪华,历史,4k
支持 image split (下面的生成看起来像是两张图,但实际上是一张,在 Prompt 里使用 image split into 2,就可以得到同一角色 + 同一服饰的在不同视角的两种生成结果。你也可以尝试 2 倍 以上的 split,然后再进行高倍 upscale)。
一张近景,一张膝高镜头。
V5 也支持 3:1 这种超宽比例,或是 1:3 超高比例。
3:1超宽比例
CG 渲染类的生成
一只和猫说话的老人,赛博朋克,电影,超细节,虚幻引擎,自由度,超分辨率,百万像素,电影照明,抗锯齿,CGI,VFX,SFX,超极简主义,超逼真,体积,逼真,全彩,写实,16K,锐利聚焦
人形脸的半机械人机器人/抱着黑猫,赛博朋克,超级细节,虚幻引擎,自由度,超分辨率,百万像素,电影照明,抗锯齿,CGI,VFX,SFX,超最大化,超现实,体积,逼真,全彩,逼真,16K,清晰聚焦
赛博朋克战士的半身肖像,超现实,半身,HDR,鲜艳的色彩,电影,超细节,虚幻引擎,自由度,超分辨率,百万像素,电影照明,抗锯齿,CGI,VFX,SFX,超极简主义,超逼真,体积,逼真,全彩,16K, 清晰聚焦
插画风格
Prompt 控制准确度的基本测试
穿白衣服的男人坐在红椅子上拿着蓝色的水杯。最常见的染色溢出问题还是很严重。
“抱猫的机器人”, 这个 Prompt 用 V5 跑了好几次,每次都是猫头机器人,新版本中两个对象貌似出现了比 V4 更严重的混淆问题。
3 个柠檬和 2 个玻璃碗,数量依然不能精确控制。不过 V5 的水彩渲染要远好于 V4,但油画风格的渲染都一样不是很好。
马依然不能骑宇航员
多物体的空间关系也仍然无法精确控制,不过 V5 起码每一张都生成了一把椅子。
V5 相比 V4 的优势之处
V5 在镜头语言的控制上,相比 V4 实现了非常明显的进步,光影的渲染也更写实、自然。AI 感已经变得很弱了,几乎肉眼难辨。
POV 第一视角
俯拍镜头 overhead shot
低角度镜头
V5有一张做到了非常标准,V4 基本是不太标准。
高角度镜头
浅景深,V5 比 V4 自然得多。
深景深
V4 在生成 bird eye view 的同时还生成了 bird 和 eye。
全身像。大部分时候,用 V4 生成 full body 都不是真正的全身像(没有脚部或者膝盖以下),V5 表现的更好一些。
半身像。V4 一个很严重的问题是每组 4v1 生成的结构构图都过于接近,且人像太容易出现中心对称构图。V5 是增加了每批次 4 个种子的随机变量,每批结果的构图会更多样。
下面的对比可以观察到这个结果。
侧面像 + knee shot
广角,场景和构图更多样
V5 相比 V4 的不足之处
虽然摄影类风格的生成更写实和自然,但比较下面放大的僵尸新娘和牛仔骑马场景,可以发现 V5 的生成都像打了柔光,都笼罩上了一层影楼滤镜或电影滤镜。相比V4,虽然 AI 感降低了,但也一定程度上牺牲掉了成像的细节,清晰和锐利程度都明显下降。
V5 倾向于照片化一切生成结果,而且有一种 “糖水感”。
下面两组都是艺术媒介测试,铅笔素描和版画风格的弗兰肯斯坦,V5 会过度添加细节,也基本丢失了艺术媒介的特征。所以想用 MJ 生成 fine-art 类作品的 (除了水彩)。
弗兰肯斯坦肖像的铅笔画,艺术,详细
V5 生成构图更碎片化,同时也有明显的锐度丢失的倾向。
V5 会倾向于生成过多不必要的细节,对画面主题的美感和结构都有很负面的影响。
V4在上,V5在下
再次生成时,我去掉了 Prompt 里的 “super-detailed”,情况并没有得到改善。
以上对比评测都是用同样 Prompt 在两个版本里首次生成的结果,尽量避免了人为的 cherry picking。
在生成不同主题和风格的作品时,你是会选择 V4 还是 V5?希望这个对比评测能对你有所帮助。
参考链接:
https://medium.com/@catmus2048/midjourney-v5-%E6%AF%94-v4-%E6%9B%B4%E5%A5%BD%E5%90%97-%E7%BB%BC%E5%90%88%E8%AF%84%E6%B5%8B-prompt-%E5%85%A8%E5%85%AC%E5%BC%80-bd8a1d909867