过去一周几乎每一天,醒来就能看到 AIGC 狂飙突进,这可不是夸张的描述——
周一:AI 绘画 Midjourney V5 开始发力,下面这张由 AI 生成的照片开始在网上流传,从背景到五官,再到 AI 「天敌」画手,表现都很不错。
不过后面与 V5 相关且更加诙谐、传播更广的是,英国记者艾略特用 V5 生成了特朗普被捕照:
没想到吧,图片都不是 P 了,直接 AI 生成,随着 Midjourney V5 越来越出圈,压力逐渐来到了视频领域。
结果,同样是周一,AI 生成视频的 Runway Gen-2 模型发布,只要提供任意文本、图像、视频,就能生成一段风格各异的短片。
周二:谷歌大语言模型 Bard 发布,有 ChatGPT 在前,倒是没砸出多大的水花。但同一天,Adobe 终于下场。
不仅发布了自家的 AI 图像生成模型套件 Adobe Firefly,更宣称自己要积极拥抱时代变革,将 AI 生成深度整合到包括 PS 在内的一众产品中。
周三:算力界的「军火商」,英伟达的老黄在开发者大会上整了新活,不仅发布了 N 卡里显存最大的 H100 NVL,还把 ChatGPT 「同款」搬到了云端。
虽然发布会上的新品,和咱们普通玩家没任何关系,但 Midjourney 也好,Bard 也罢,还有 ChatGPT 哪个不得靠显卡运行。
别的不说,在这次 AI 竞赛里,作为军火商存在的老黄,比谁都更拥抱 AI,所以在发布会上,老黄多次强调——AI 的「iPhone 时刻」已经到来。
周四:可能全球都在沉迷 KFC 的疯狂星期四,意外的冷静了一天。
或者说,这是暴风雨前的沉默。
周五:OpenAI 宣布,ChatGPT 开放插件功能,而且,第三方插件可以连接互联网。
字越少,事越大,周五的 OpenAI 开放 ChatGPT 插件就是这样,老黄在发布会上说,AI 的 iPhone 时刻已经到来,听着军火商的一家之言,不真实对吧。
但当 OpenAI 真的下场开始做「iPhone」,不真实也变得真实起来,周末两天,我想了很多,今天就和大家一起聊聊。
1
无论是 GPT-3.5(ChatGPT),还是 GPT-4,都逃不过一点:模型数据停留在了 2021 年 9 月以前。
虽然我们可以通过与 ChatGPT 对话,获取到建议,但没办法通过对话让 ChatGPT 直接提供天气,更没办法通过 ChatGPT 了解某一场比赛的实时得分。
但解除封印后的 ChatGPT,可以根据一个网页的内容,去生成答案,并提供参考网页的链接,信息不够真实的问题也得以解决。
等等,你有没有觉得这有点像 OpenAI 的大股东,微软必应正在做的事情,难不成 OpenAI 要剑指老东家,抢搜索引擎的饭碗?
是,也不是。
是的地方在于,联网后的 ChatGPT,一定会影响到传统搜索引擎的地位;不是的地方在于,OpenAI 的野心,或许早就超脱搜索引擎了。
注意,ChatGPT 的插件是允许和第三方应用程序联通的,OpenAI 正在做的事,不再是闷头做基础设施,而是越过赚差价的中间商,直接做 「ChatGPT+」平台。
我和大家做个类比,可能更好了解——
1、微软的成功是 1980 年拥抱了用户图形界面,Windwos 成了微软发展的底气。
2、谷歌的成功是 1998 年整合了信息搜索,用搜索引擎和浏览器成功绑定了用户。
3、苹果的成功是 2007 年重新发明了智能机,此后 iOS 及其生态就是苹果的摇钱树。
无论是微软、谷歌还是苹果,他们各自掌握了不同时期的入口,建立起了自己的生态,从而立住了脚。
换个更好理解的说法,他们都是在做各个时代的房东,OpenAI 现在也是这个想法,做自己的互联网入口,做自己的房东。
怎么实现?最简单的例子,在发布插件时已经展示了——
「这周末,身在旧金山的你想要吃素食。周六,你想找一家口碑好的素食餐厅。周天,你想要找一个好吃又营养均衡、热量低的食谱,然后自己采购一些食材来做」。
过去,要实现上面这个需求,口碑好,你要打开大众点评;热量低,你要使用热量计算的工具;采购食材,你要找团购,要去超市买东西。
那未来呢?你把那段话直接发给 ChatGPT,剩下的事情,就是等待 ChatGPT 提供去哪吃,在哪买的建议了。
不光是外卖、网购,这些场景你可以代入到方方面面,换句话说,ChatGPT 可以代替用户去完成其中的操作。
更直接点,这是彻底改写了过去人机交互的方式。
过去以键盘、鼠标主导的交互将逐渐被淘汰,取而代之的就是一个语音输出设备,一套手势交互逻辑,以及显示终端。
没错,每人一个贾维斯的时代,即将来临。
2
从默默无闻到拥有重构整个互联网交互方式的野心要多久?OpenAI 的答案是 4 个月。
说实话,今天这篇文章,除了开头的消息总结,都是我用语音输入给 ChatGPT,然后让它整理成书面文字,我再修改一遍搞定的。
所以,ChatGPT 重构互联网,成不成咱先不说,但不妨碍我去预测,或者说狂想——
如果 ChatGPT 能成为房东,能整合互联网,那么未来的入口何必是下载了 N 多 App 的手机系统?
我们只需要一个承载了 ChatGPT 的设备就好了,接口和入口都在 ChatGPT 上,我们只用口述指令,在屏幕上略加调整或纠错,ChatGPT 负责接收并操作,整个过程会很丝滑,至少不用去多个 App 间反复横跳。
我知道,这种场景看起来像是科幻电影,但当 ChatGPT 成为智能设备与互联网之间的唯一入口,那科幻也有可能变成现实。
当然,这种变化不会突然出现,一年、两年?五年、十年?我觉得不会很久。
更有可能的是各大厂商引入 ChatGPT 或类似的大语言模型,不管「ChatGPT+」平台成或不成,但基于此的变化,我们一定能看到。
为什么这次变革来得如此突然?核心是 ChatGPT 的出现,意味着自然语言能被机器听懂了。
是的,过去的 App 是通过图形操作的方式,把我们的目标转换成机器语言,但 ChatGPT 可以直接把人话翻译成机器语言。
我给大家解释一下这其中流程的变化:
过去,老板给我们下达个指令,比如「整理一份会议报告」,短短 8 个字的背后,包含了 N 多操作(语音转文字、提炼信息、翻译等等)。
但是老板的指令机器听不懂,我们可以听懂,我们需要把上面这 N 多操作,一步一步通过工具完成,在这个过程中实际上是我们完成了自然语言转机器语言的工作。
但当计算机能听懂人话了,我们的操作就可以变成直接把需求告诉 ChatGPT:
这是它输出的结果:
当然,这个过程中有诸多局限,诸多问题,但它所代表的,是自然语言与机器语言之间的转换,单这个转换,就已经掀起了 AIGC 的浪潮。
在联网后,ChatGPT 对互联网上的各个接口,通过自然语言进行索引和整合后,这不就是未来可期吗。
3
叠个 Buff,ChatGPT 的落地,AI 时代的到来,咱别把它和「贩卖焦虑」画等号,工具不会消失,工作也是,只会是换一种方式到来,当然,前提是你得会用 AI。
当然,不只是它不能背锅的原因哈,而是短期内 AI 替代不了人类,需要人类提供自然语言的指令。
而且能预测到的是,工具虽然不会消失,但形态会发生变化,在曾经图形操作外,我们还得掌握如何描述需求。
为啥?用过 AI 工具的小伙伴肯定知道,当你能清晰明确地表达需求,上手会非常容易,虽然都是自然语言转换机器语言,但现阶段的 AI 还做不到 100% 理解。
至少需要人类从三个角度配合,换句话说,是掌握三种能力——
1、拆分需求的逻辑思维能力
2、描述需求的语言表达能力
3、辨别对错的分析判断能力
你想想看,为什么前面我说,没必要过度紧张,在 AI 出现前,掌握这 3 种能力的人,已经能自己解决 90% 的问题;在 AI 出现后,上手会很快的。
只是这个过程中,当琐碎且重复的工作能自动完成,需要适应这变了形态的工作流程。当人类会从日常繁琐的重复操作解脱出来,真正去从事创造性的工作,这将会带来怎样的效率爆炸?
与其担心工作会不会丢,不如担心家里的孩子如何在这种变化里做出改变,当然,没孩子的当我没说。
上周三,比尔盖茨发博客说,自己人生中经历过两次革命性的 Demo。一次是用户图形界面,一次是 OpenAI 训练的模型通过 AP 生物学考试。
我们不是比尔盖茨,也不能让 Windows 变成自己的摇钱树,但无论如何,作为这个时代的见证者和参与者,我们或许正在亲历这场变化的到来。
想想科幻电影里的透明屏幕,有可能在我们出生的这个时代出现,这真的是非常值得开心的事情。
本文首发于微信公众号网罗灯下黑(wldxh8),未经授权请勿转载!
一如既往感谢各位小伙伴的支持和关注!