本文来自微信公众号“硅谷101”(ID:svstyle)
采访|泓君 文字|何源清 编辑|泓君
前面的话:我们音频最近正在推出AIGC特辑,我们邀请到了学者、大模型研究者与开发者、应用层、投资人以及艺术家来讨论AIGC的方方面面。《硅谷101》播客上已经陆续上线,也有很多听众反馈信息量大,希望有文字稿,接下来我们会把一些音频中的文字摘要整理出来,欢迎大家订阅我们的音频和公众号。
老牌杂志《经济学人》的封面一向以辛辣和构思独特取胜,而今年年中,《经济学人》的杂志封面《Ai’s New Frontier》竟是一张Midjourney人工智能生成的图片。美国科罗拉多州博览会美术大赛的冠军作品——《太空歌剧院(Théâtre Dopéra Spatial)》,也是由AI所生成。
普通人可以用AI生成媲美艺术家的作品,这让“一句话生成图片”在网络上爆红。硅谷知名投资机构红杉也写了一篇文章,叫做《Generative AI: A Creative New World》,一时间,也成为投资人竞相追逐的赛道,业内人士将生成式AI的赛道称之为AIGC(Artificial IntelligenceGenarated Content)。
来源:《经济学人》杂志
本期节目,《硅谷101》邀请到了美国西北大学工业工程及管理科学系和计算机科学系助理教授汪昭然和大厂数据科学家钟凯祺来聊聊我们的使用体验,并尝试回答“一句话生成图片”到底是什么,以及AI生成图片的数据与版权问题。
01
误解获奖作品《太空歌剧院》:
并不完全是机器生成
《硅谷101》:您觉得在使用AIGC生成图片的过程中,有什么有意思的地方,跟大家介绍一下你的使用经验?
钟凯祺:你之前提到看过一幅照片,后面全是图书馆里的书,前面是几个机器人,那张图就是我画的。制图过程当中感觉比较重要的事是,后面一定要去学很多描述风格的装饰词,甚至是你需要的艺术家风格要明确的告诉它。比如在那一幅图里面,我就很明确地说是一个比较中古的油画风,一个人和一些机器人一起合作,在一个巨大的古老的图书馆当中一起工作。需要把这种感觉描述出来,越精确越好。接下来就是去试结果,可能试了大概20次左右,已经得到一个不错的结果。再去看看别人有没有一些更好的方案。还挺好玩的,像拆盲盒一样。
来源:美国科罗拉多州博览会美术大赛的冠军作品《太空歌剧院(Théâtre Dopéra Spatial)》
《硅谷101》:让我想起来在片头提到了这幅获奖作品,叫做《太空歌剧院》,我其实看了那幅作品,觉得他绝对不是一个“一句话生成图片”的初级玩家,一定是个高级玩家。
钟凯祺:那幅图是精修过的。
《硅谷101》:怎么精修?
钟凯祺:要参赛的图片,一般是先用 Midjourney 画一个底稿,专业的画家会在这基础上再去对它用电脑做一些精修。
原画师现在用两种方法精修:
一是直接打出底稿之后用它来做精修;
二是直接做局部:我在某一个局部想要什么,把这个做出来,然后再把几个局部的图片“捏”起来,做自己想要的构图。
这几类的方法现在都有,不完全直接用 AI 制图。就像摄影技术,照片生成的时候摄影也不太好直接出,因为有可能过度曝光等等的原因,必须要在弄完之后加很多的操作,这种逻辑也是一样的。等于现在还处在我们和AI作画技术不断磨合、进步的这么一个过程当中。
来源:Midjourney官网
《硅谷101》:Midjourney的美学风格是什么决定的?
钟凯祺:决定美学风格的,
第一是数据集,看看本身有什么风格?
第二是整个训练和推理的过程,会在过程当中不断地进行调试:设置一定的函数,来保证达到的效果是它们想要的。它们会对某一既定的、一致的美学风格去给一些征照的打分,等等的方式来调优每一个模型自己的美学风格。
当然这一块我不是特别专业,但我看到过有一些专业的画师在用了各大产品后,非常详尽的评测,对它们的美学风格是有一定的差异性评价的。
02
数据确权、
隐私与版权争议
《硅谷101》:我片头开始讲到了那幅获奖的作品《太空歌剧院》,说它引来了版权争议。这个作品它算不算你创作的?它的版权归谁?我用DALL·E·2生成的我们播客封面图的这两张照片,它的版权又是归谁,其他人能不能用这两幅图?它目前其实是没有任何的法律保护,在一个真空地带的。您怎么看?
一张《硅谷101》使用Midjourney生成的图片
汪昭然:这里面包含一个非常严重的问题,就是数据确权的问题。数据生成出来的模型到底归谁,包括一直到下游,你的 Prompt 生成出来的特定的图片,这个图片的版权归谁?其实现在有很大的争议。
这也是另外一个值得研究的热点,就是数据怎么定价、数据怎么确权、你怎么保护你自己的隐私。包括GBP-3做代码生成,还有微软现在的产品集成到Visual Studio Code里,它从把Github上的代码给读了一遍,生成出来代码到底算谁的。有些代码它的许可证可能不允许你去直接抄。如果我的模型生成代码出来的是一模一样的,比如生成了3行一样的,你很有可能就被告了。像谷歌被Oracle告Java的专利侵权,这其实是类似的。就算是人完全看一遍,自己记住再写一遍,其实也不能保证完全不一样。所以这其实是一个很大的问题。
那具体到数据集里面,如果出现特定人的脸,就算不是一模一样,但是大同小异,到底算不算侵犯隐私,或者我干脆就愿意把我的数据卖给 Open AI 或者是 Stability 做训练,它应该给我付多少钱,下游的分成应该分多少。这是一个很大的问题,在广义的经济学上,信息是怎么定价的?也是有很多值得研究的课题。
但是另外一方面,这也是好事。我们可以这样想:如果出现了一个非常严格的、可执行的数据确权、数据定价的规则,那么它马上就能形成一个非常大的数据的市场。不仅仅是大模型的,包括现在的推荐系统用到的这些数据,本质上也是从用户手里面给“骗”来的。你推荐的这些利润是不是应该给用户分一部分,现在还是非常模糊的阶段。
但是现在数据隐私的立法已经很完善了,我们可能马上也能看到数据的交易。不论是在美国、欧洲或者中国,可能也会有一些政策层面的改变,在这些政策下会发掘出来什么机会。很有意思,同时也有很多新的挑战需要解决。
《硅谷101》:我稍微补充一点,刚刚我们提到的在AI图片生成平台生成的作品,它们采用的版权协议叫做 CC0机制:它是一个开放版权协议,它的版权并不完全是属于我的。比如我虽然可以被认为是跟机器共同创作作品的作者,但是这个作品同时也可以被其他的人去使用或者修改。所以现在应该来说在法律上它是最宽泛的一种,但未来会不会收紧我们不知道。
我们刚刚提到的是数据的隐私的问题,但另外还有一个是昨天我看见有人转发了一条即刻,是一期Joe Rogan(美国一个非常著名的播客主持人),跟Steve Jobs(乔布斯)的采访对话。听到这里大家肯定会非常奇怪,因为大家知道乔布斯已经去世了,是不可能接受采访的。所以第一反应是不是生前的采访?它其实是一段假的,也是就AI生成的。根据比如 Joe Rogan 的数据,和乔布斯生前的采访的东西,把它整理成的一个AI的采访对话。我没有全部听,大概点进去稍微听了一下,感觉还挺顺畅的,它相当于是一个假的播客作品。因为GPT3也能写, 那以后是不是AI可以生成这种大量的假新闻。我记得AI生成图片火之前,有一段时间 Deepfake(深度伪造技术)也很火。未来这种技术要怎么样去做好安全性,完全靠这些企业的道德标准吗?
汪昭然:对,这就是一个非常大的挑战。其实大家可能也没有什么好的解决方法,因为从原理来看,以前我们说有知识产权的保护,是因为可以很严格的比对,你到底有没有侵犯专利,有没有抄袭文章。但是现在很多东西,你说它是抄了,它也没有完全抄,但却有一些神似。就像在连续空间上不可能有两个点完全重合,概率是非常非常小的。
所以我觉得这些都是一些需要研究的问题,特别像生成模型,其实很多时候它会带来一些想不到的技术难点,就像您说的 Deepfake(深度伪造技术),或者是生成得一些很有冒犯性的内容,这些在某种意义上也回到了“可控生成”的问题上:什么是冒犯性的内容?其实我们可能也都没有一个共识。怎么严格定义、立法定义,因为确立规则是在这个东西出来之后,本质上都会有一些滞后性。甚至在这个时代已经不太好定义什么叫做“不好的内容”,这是非常有挑战性的。我其实就非常感兴趣在这方面有没有一些简单的解决方案,这些都是一些研究性的前沿理论。
03
生成式AI:
未来的搜索引擎?
《硅谷101》:您觉得生成式AI的最终目标可能是什么?
钟凯祺:其实我觉得这一块未来会碰到的边界越来越多,也不断会有法规完善,可能法规和业界的发展磨合会是不断发生的,有一个碰撞的过程。Stability 的CEO Emad Mostaque 在Twitter上就说过,包括Open AI 的 CEO Sam Altman也在Twitte上说过,生成式AI的最终目标是做一个类似于像新时代的搜索引擎。
来源于网络
当你想要一幅画或者一句话、一段语音等等的时候,输入你想要的内容,直接得到一个根据历史拼接出来的结果。这个过程当中一定会有越来越多的,可能是版权、可能是安全性所带来的问题。但是我认为这个过程确实是一个未来的趋势以及不可逆的。在这个过程当中肯定也就会有数据定价。
前面所讨论到的问题,我理解目前技术可能还暂时不支持,但肯定会有发展的空间,因为目前学界在做的很多,包括深度学习的可解释性等等的探索,如果未来真的可以定位到一些图片或者是音频当中所用到的语料、或者是素材库的一个可解释性,比如根据Transformer当中的Attention(注意力机制)来定位到一些真正的图片当中的对象,到底哪一个在图片当中的占比最大?可能是来自于哪个艺术家等等。运用这样的深度学习的逻辑,或者是用Prompt当中的一些归因的逻辑,去确定一些数据源头的定价,这应该会成为一个新的搜索引擎以及数据定价的一个模型。感觉会有很大一段发展和思潮的路要去走。
04
艺术家的机会与挑战:
从卖画到卖风格
《硅谷101》:您觉得未来艺术家们的机会与挑战会有哪些?
汪昭然:我觉得很有意思的是,从艺术家的角度,现在的商业模式是不是会有改变?现在大家把一个特定的画去拍卖,比如画家成名之后拍卖得更贵、转卖、收藏,像NFT这种风格的。但是另外一方面,如果在未来,作为一个画家,我有没有可能去卖我的风格?因为我的风格可以生成无限多的类似风格的图片。
其实已经出现了一些例子,比如有人就在他的Prompt里面加入一个画家的名字,这个画家是专门画龙的,画得特别逼真。那是不是加入画家的名字,生成出来的就有他的风格,这个画家好像现在就遇到了这样一些法律上的麻烦,到底算不算侵犯我的知识产权,反过来想,这对于画家是不是也算是一种新的机会?我来卖我的名字,卖我的风格,其实是超越了一幅特定的画、特定的作品,更广义上的一种知识产权,或者是一种艺术升华,我觉得其实也是一个很有意思的方向,可以思考。
【名词解释】
OpenAI
一个人工智能实验室,由营利组织OpenAI LP与母公司非营利组织OpenAI Inc组成,是特斯拉创始人Elon Musk与前YC总裁Sam Altman共同创建。
DALL·E·2
一个通过文本描述生成图像的人工智能工具,是OpenAI旗下的模型。
Midjourney
一款AI绘画工具,只要输入你想到的文字,就能通过人工智能产出相对应的图片,耗时只有大约一分钟。
【相关阅读】
《Generative AI: A Creative New World》——Sequoia www.sequoiacap.com
中文版《生成式AI:一个创造性的新世界》 www.woshipm.com
注:部分图片来源于网络
【本期节目不构成任何投资建议】