先说一句总结的话,“京州不允许这么牛逼的人存在”。开放式的人工智能,依托的是海量数据库,进行A自然语言理解,B语义解析后C匹配海量数据选出D权重最高的几篇文章,然后进行E语义提取生成文章。 所以在西方反华互联网大数据库里面,很容易产生误导国人的结论。即便是在西方国家,被意识形态困住手脚的大数据,也会得出片面的结论。最典型的案例就是赞美拜登贬低特朗普的那个答案,以及吹嘘特斯拉贬低比亚迪的结论。
比什么?比盈利么?17年我从同花顺离职时候人家AI这块儿营收将近1个亿, 网易七鱼智能客服一年营收是1.7个亿。至于淘宝的店小二盈利更不用提了。别忘了,现在openAI是2018年才创立,在国外只是在试验阶段,刚爆出来的写八股文实力,也不过是能复制粘贴小学生作文的水平,难道让小学生去付费这个功能么?2021年时候基本功能已经有了初步模型,预计2023年营业额是10亿美元,任重道远。
头条早就千人千面的推送新闻资讯了,现在国外有没有?肯定是有的,但是有可比性么?抖音的推荐算法,时隔一段时间还会推送一些平时反感的观点。油管的推荐算法,到纯净的个人感受需要1年左右,远远落后于国内,而且一旦形成信息茧房后,推荐的范围只会越来越小甚至没有内容可以推送。 这两家公司都是10万人规模的实力,一个100人员工的公司难道就可以突破天花板?同花顺的文章,都是根据财经数据库AI自动生成的,已经实现好多年了也没见有人夸一句。另外同花顺财经依托的是权威资讯,然后利用人工智能编辑的,所以基本上和权威资讯同步发稿,源于权威资讯又内容不一样,这就是同花顺的AI实力(各位可以把新闻的推送打开,比较一下各个媒体的反应速度)。GPT展示的能力,和这个其实非常类似,只不过数据源头不同,引用范围不仅仅是局限于财经还包含了类似百度问答(quora)和五花八门的网文。数据模型相对同花顺,选择的范围更大,提取生成要求的逻辑更复杂。但是更容易胡说八道。想复制抖音的美国公司不止有微软和FB、Google。就是缺乏对于个体的大数据收集能力,以及严苛的美国个人隐私法,所以注定发展缓慢。唯一的快速发展就是傍上大腕(FB,GOOGLE, 微软),通过他们的渠道让大众训练机器人。
比用户基数么?随便找个中国人问问,有没有遇到客服机器人?有没有遇到千篇一律的“chatGPT”的灌水贴,或者针对某些事件的“小作文”,有没有收到机器人打的电话?有没有遇到推销小孩子简单学编程的课外辅导课?浪潮退去,也不过1个月的时间。那些用户还会继续有新鲜感么?
只要他是做全功能的人工智能绝对搞噱头的,几个水军灌贴就让你成为死忠了?醒醒吧。难道没有发现这些文章千篇一律??这种全媒体灌水贴上头条的事情,2010年我就在某家互联网公司干过。2021年8月份我就知道GPT3了,当时我也有吹嘘他们居然可以编代码,到2023年了才开始推出来测试。就这水平,和特斯拉5,6年后还没有解决刹车问题非常类似。一出道就是巅峰,现在看看比亚迪,除了一体冲压车身没做,那点不比它强?
国外吹,那是因为他们真没有见过!!!就像VR刚出来3D影视功能就被华强北干到68一副一样。大数据深度挖掘,最终比的还是数据量。国内的企业没有海外的大数据,所以无法去攻城掠地。但是在中文的世界,我们早就走到了实战应用的地步,早就开始在变现的方向上狂奔了,当时刚推出的时候也没见你这么激动。之所以我们没有在外网展现出来那么“一丢丢的实力”,无外乎我们的互联网公司没有境外网民的大数据,也没有去攻城略地的恒心和毅力去投资。山中无老虎,猴子称大王。可笑的是在一个“老虎国”,居然对“猴子国大王”居然也卑躬屈膝,无脑狂吹??
国内吹,主要原因就是我们看到了7岁神童做出了《咏鹅》。 八股文之所以成了“皇家标准”就是因为他系统又周密的阐述了一个中心思想,可是八股文看多了那就是深深的厌恶。想象一下,当年皇帝定“八股文”为写作的典范时候是怎么想的?那绝对是震惊呀!!前所未闻!!居然文章能够立意鲜明、起承转合、论点清晰、论据有力、最后升华主题。500年过去了,还会有人记得任何一篇八股文么?不会!言之无物,空洞乏味。但是我们刚见识了GPT写这种“八股文”就觉得文章犀利,佩服的五体投地。拜托!一首诗,字数都对不上。一篇文章,都是标准八股文格式。和当时见到“天猫精灵”和“小爱同学”那群抖音里炫耀的人有什么区别? 和500年前皇帝看到八股文有什么区别?现在“人工智障”依旧是“人工智障”,后继乏力。吹捧的直接后果就是火了一批网红而已,后续的投资,那是数十亿计算的。训练大数据识别“猫图片”需要几千人数个月去点击确认,所以很多大数据训练中心只能设在河南。任何一个专题的训练都是数千人,想要做到真正的人工智能,现在的“噱头式炒作”也只是为了吸引海量的用户去当免费的劳动力而已,后续随着网民浪潮退去,也会变成下一个“天猫精灵”而已。
我们再来看看openAI是不是用智能化的学习逻辑:《时代》的调查报道称,为了获得有关暴力、仇恨言论和性虐待的例子以训练AI,OpenAI从2021年11月开始向肯尼亚的一家外包公司发送了数万条文本。其中大部分文字似乎都是从互联网最黑暗的角落里挖出来的,一些详细描述了性虐待、谋杀、异常性行为等情况。
OpenAI在肯尼亚的外包合作伙伴是Sama公司,这家总部位于旧金山的公司雇佣了肯尼亚、乌干达和印度的工人,为谷歌、Meta和微软等硅谷客户标注数据。Sama标榜自己是一家“有道德的人工智能公司”,并声称已经帮助5万多人摆脱了贫困。
通过这段文字,清晰的表明了OpenAI采用的也是人工时堆积出来的训练。只不过他们外包给了熟练英语价格更便宜的非洲和印度劳动力而已。按照这个逻辑来讲,我们互联网巨头出海也确实无法找到价格更便宜的工人来协助训练,注定我们在海外无法获得一席之地。除非我们在推广“互联网主权”方面让各个国家优先选择使用中国技术(类似Tik Tok),摒除西方互联网巨头,这样才有免费的劳动力。或者我们用更精准的智能化算法而不是固定算法去优化,这样机器自动学习的能力远远超过使用人工时优化。
任何所谓的“人工智能”,现阶段只能称为“人工不那么智障”。发展的逻辑依旧是海量数据做基础。像深蓝这样的人工智能,也是大数据投喂的产物,开局是范式化的操作,到了一定程度去不断优化胜率,直到胜率为100%。 如果这个“大数据源头”本身就是有问题的,比方说境外网文清一色的“贬中赞美”,那么在这个基础上生成的文章也会带有一定的有色眼镜。比方说“特斯拉和比亚迪谁更有前途”这个问题,明显就是网文重组而已。真正的科学分析完全不是网民来决定的。事实上我们对比亚迪汉以来的爆发是一无所知的,比亚迪的模具研发实力、内饰外观的爆发改进原因、软件系统开发、成本控制、资本支持等等这些商业机密都是一无所知的,这样子去谈他们的未来发展,那就是中二的八卦文章而已。
首先来说,搞金融分析的,要的是原始数据的准确性,甚至对同一个数据要多维度的对比,比方说各国评级机构都会预测中国GDP的增长,那就要从分析中得出自己认为是正确的,而不是GPT那样随便推荐一个。 其次,搞科研的都是在探索未知的领域,而不是对已知领域的总结。 第三,搞工程设计或者金属冶炼,都要经过精密严谨的计算,GPT连加减乘除都可能会出错,又怎么靠得住?
如果分析chatGPT,逻辑很简单。 就是依托互联网的海量数据,综合数十篇甚至上百篇文章,按照八股文的范式综合分析列举。搜索引擎优化排名有吧(谷歌、百度、bing)?语义提取功能有吧(百度、腾讯、阿里、讯飞、同花顺、网易….)?文章自动生成有吧(范式文章)? 国内的软件公司不是不做,只是有了盈利的领域能够变现,才去做的事情。实际上,我们的科技公司往往更侧重于变现,而无视了广大民众对新鲜实物体验的诉求。一旦发现民众原来想要这个东西,一下子就蜂拥而上。要不了2个月,各个机构都会推出自己的GPT。技术已经有了,剩下就是功能组合而已。不过最终依旧难过的一关就是审核,毕竟现在到处都是网文在攻击社会主义或者共产主义理念,在这个大数据的基础上,得出错误结论也是意料之中的事情。
如果说chatGPT真的有那么神,那么它首先应用的领域应该就是金融。拿它来预测股票期货增长可以直接检验到底是“智能”还是“智障”。2012年前后,有一家叫做“益盟操盘手”的软件,号称能够预测涨跌,预测买入和卖出点。既然软件这么优秀,为什么不自己操作然后迅速盈利呢? 偏偏选择忽悠别人去买他们的软件赚搬砖的钱。 chatGPT既然这么厉害,号称让微软投资了100亿美元,为什么不利用自身的“智能”进入金融投资领域,然后迅速帮投资者盈利?
其次可以用来搞大数据分析合金特性,至少可以计算出来菜刀在铁、铬、钼、碳的比例来确保菜刀在保持硬度、锋利度的前提下拍蒜不会断,这个影响性能的因素更少吧?
唯一让我觉得惊艳的地方在于,海量的程序源码,是怎么变成了他们的大数据来源?如果说程序代码库,华为是肯定有的,腾讯也有、阿里和百度也曾做过,可是每段代码都加上清晰的说明备注,这个事情貌似是印度人的特长。
国内的软件龙头在做什么?核心只有2点,用户粘度和变现!!聊天机器人看看都是遍地开花,淘宝、京东、移动、联通、同花顺、各个银行、各个地方政府…..已经达到了全民都逃避不了的东西,这个东西在国外互联网领域其实还是很稀奇的事情。我用了那么多国外的软件,很少有见到内嵌聊天机器人的。抖音和今日头条的母公司字节跳动,也是依托千人千面,找到了用户粘性的方法,这家公司已经代表了在千人千面个性化推荐的最高水准,如果美国真有公司能够做到,也不用天天叫嚣着“中国意识形态入侵大脑”了。只有在这个基础上,才能实现因人而异的个性化聊天,这才叫真正的聊天机器人。如果中国的软件公司,在宽松法律收集的海量大数据下都做不到,就不要觉得国外的任何一家公司在苛刻的《隐私法》下收集的大数据也能够做到。 要不了多久,又变成了新一代的“美国提出概念,中国具体实现”。
奉劝各位,牛吃的是草挤的是奶,那是母牛消化吸收重新生产的过程。公牛吃得是草,拉出来的shit最终只能当做肥料。 互联网上面太多的资讯和文章,都是一群“半瓶醋”在哪里臆想。真正的含金量,只有搞科研的去验证下他们真实领域就会知道。网民不知道我们的光刻机发展到了什么水平,为什么chatGPT会知道呢?那么多专家都无法预测疫情、贸易战对经济的具体影响,为何chatGPT会知道呢? 如果chatGPT的大数据是“Google搜索”排名的文章,在这个基础上加工出来的东西,只不过是“精简化的Google 搜索”而已。
2-28日补充一下:
(1)2023-02-27 19:59:57 来源: 中国基金报 :据36氪职场Bonus报道,腾讯针对类ChatGPT对话式产品已成立“混元助手(HunyuanAide)”项目组,该项目组Owner为张正友,PM分别为俞栋、王迪、刘田,目前该项目有至少7位组长、7位Sponsor。《中国基金报》获得腾讯方面官方回应:在相关方面早有布局。美东时间2月8日,谷歌展示了自己的人工智能聊天机器人“Bard(巴德)”后,股价出现下跌曲线,当日收盘跌超7%,市值一夜蒸发千亿美元。
(2)23-2-7日在国内,ChatGPT的爆火也引发人们对于“中国版ChatGPT”的“呼唤”,这其中,百度被寄予厚望。昨天下午,百度也首次官方宣布:“我们的大模型新项目叫文心一言(英文名ERNIE Bot)。”而文心一言,被外界猜测正是“类ChatGPT项目”。
(3)根据公开的资料,但根据媒体统计,ChatGPT仅有的87名核心开发人员中,10%是华人,其中5人毕业于大陆高校。 整理出ChatGPT中有9位华人,其中3清华,1北大,1华科,另外4人本科就在美国读。各位同学都是技术领域的佼佼者,比如欧同学是InstructGPT论文的第一作者,是RLHF论文的第二作者。
补充一下:
1、一家人工智能的公司,真的有实力的话,就去金融市场上先收割一下,来证明自己是“先知”。几十万亿的资金就在那里!作为一家公司来说,盈利就是实力的象征,投资才是公司发展壮大的动力。“智能”还是“智障”从这一点就可以用逻辑分辨出来。 金融市场的影响因素就那么多,资金面、信息面、财务面,剩下的就是不计其数的人的心理活动。 这个比chatGPT简单多了,如果它能够做到金融方面的归纳总结,那么它在全领域的能力就有了很好的例证。
2、有人在抨击国内的“智障客服”。“智能”客服,就是科技公司针对小客户的语料库研发针对性的落地产品,由于语料库的限制,而且不能从该公司外接互联网数据,注定就存在一定的缺陷。但是他的母公司的“智能”程度源于海量的大数据优势,已经超乎你的想象。百度、腾讯、阿里、京东….你什么时候找他们客服的时候需要转人工? 同样原理,如果他们能够在一个生活场景做好处理,他们也可以在任何领域做好相应的工作。 分析文章(自然语言理解)和写文章(语义合成),在逻辑上就是一个逆向工程的事情。
我之所以拿智能客服来举例,只是从技术的角度上来分析,GPT在联系上下文的自然语言处理方面,准确程度和国内同行没啥区别。不幸的是,GPT团队刚意识到无止境的问答,刚学会闭环应答。而这个问题国内很早就发现了。
3、我拿“天猫精灵”来举例,是为了说明新鲜事物刚出现的热潮。从技术角度来讲,他只属于第一代的“智能”,也就是语义分析。而现在流行的是第二代的 自然语言理解,而且属于可以完成闭环问答。这个国内巨头早已实现,我唯一没有在应用中看到过的就是“写代码”这个功能。但是那个逻辑也很简单,就是海量的代码库中进行功能标注,然后再根据搜索提取出来。
4、有人说我写的是“蒸汽时代”与马车的故事。我写的实质上是,蒸汽的所有“零件”我们都做得相当好,只是我们这么优秀的蒸汽机,一家用在了纺车、一家专注在火车、另外一家负责轮船,而没有装在“全功能车”上面而已。做纺车的觉得火车动力强,做火车的觉得纺织机够精细,而这两家都对蒸汽轮船又觉得很神奇。而我们的国人,在为一个从来没有认真了解过的蒸汽“纺车+火车+轮船”这种怪物而欢呼雀跃。
5、一家科技公司,真正技术含量有两个。第一个就是设计模型的能力,关联方法别人无法理解出来,复杂因素又无法破解,就像抖音那样很难抄袭的,谷歌和百度各自关联权重的方法不同导致结果也不一样。 李开复在90年代都已经开始着手语音打字,真正逻辑被广泛推广却是在智能手机时代,科大讯飞做出来后,包括同花顺在内多家公司都去挖人,短短时间各个公司都推出来了自己的语音打字。从这个角度看,GPT并没有在自然语言理解方面,有什么与众不同的技术竞争优势。地球是平的,技术人员是会流动的,西方提出的概念国内都有研究,而且国内研发一直是墙内开花墙内香。即便是在21年像我这样的基础人员都了解过GPT,1年时间一个万人大厂忙活出来的东西,足够这个100人的公司忙活100年了。
第二个就是规模效应,研发一个复杂产品,虽然大家都知道是怎么回事,可是没有足够的研发参与,没有足够的数据量做验证,研发速度永远落后大厂那就真的追不上了。这就像腾讯这样,拥有足够多的研发团队,抄别人很容易的。一旦腾讯出了新产品,别人想要抄他,又很困难。这也就是为什么GPT不敢向国内开放注册的其中一个原因,一旦逻辑被看透,也就很容易知道他的真实算法水平是什么样的。不过换言之,一个100人的openAI公司,想要和10万人的大厂在“智能搜索”方面竞争,有关文章都在科学杂志上面都有公开,做出来的东西谁更快更好,难道不是一目了然?
2023-03-01补充:
研究显示,中国的AI论文数量一直位居世界第一。据统计,中国2021年发表了4.3万篇关于AI的论文,大约是美国的两倍。
另一方面,该研究还根据论文被引用次数的前10%来衡量论文的质量。其中,2012年时,美国以629篇领先,中国以425篇位居第二。但在此后的时间里,中国取得了巨大进步,最终在2019年超过了美国。而在2021年,中国在被引用最多的论文中占了7401篇,比美国多出70%左右。
但需要注意的是,美国公司依旧主导着“AI研究”排名。谷歌母公司Alphabet、微软以及IBM是过去10年的三大AI论文高产公司。2021年,有6家美国公司进入了被引用次数最多的AI研究前10行列。
而中国则有四家公司位列AI研究论文的前十大公司之中,分别是腾讯控股、阿里巴巴集团、华为技术公司、国家电网。此外,位于该榜单的第十一位的百度同样属于中国企业。
注解:本人对中美AI方面的科研并无深入了解。有研究表名美国仍远远领先于中国,比方说AI芯片,高校培养的AI人才,AI相关企业数量。看完觉得触目惊心实力悬殊。不过从实际应用来感官并没有感受到中方的劣势(本人非常鄙夷美国的噱头营销,雷声大雨点小)。而且中美方面肯定根据自家媒体的偏好,节选出来的数据肯定各有侧重点。
2023-03-02补充:
看看大佬是怎么看待GPT的 ?2023年 2月25日,在2023全球人工智能开发者先锋大会开幕式上,中国科学院院士、上海算法创新研究院院长鄂维南说,“未来几十年,算法是推动技术创新、科研社会发展的主要动力,未来我们进入算法时代。”
在演讲中,他分析了我国在人工智能领域的优势和劣势。他认为,我国人工智能领域注意力更多集中在工程层面,算法层面原始创新动力很明显不足。顶尖算法人才比较缺乏,更重要的是缺乏整个算法创新体系。“但是我们也有优势,我们有大量基础人才,有广泛的应用场景,在有限领域里有一定的先发优势。”鄂维南表示。
值得一提的是,他还聊到了时下大火的ChatGPT。在他看来,我国人工智能发展的数据量巨大,场景极具挑战性,理想的情况就是利用挑战性场景推动底层算法、系统的原始创新。但实际情况是,我们的注意力很多时候更多集中在应用和跟风上,“ChatGPT一出来,我们马上就跟上了,有很多企业来扶植它,这样的情况并不是我们希望看到的。”
商汤科技董事长兼CEO徐立在回答现场提问时表示,“生成式的内容,不光是可以解决单一目标下的优化问题,是给出很多的问题不同的解法的路径。”“下一步对很多内容创作者来说,一样会面临工作模式的巨大变化,未来人们不需要具备底层的制作能力,而是需要更多畅想、连接、协同的能力,这些能力才是跟AI协同共创的核心商业能力”
中国工程院院士、阿里云创始人王坚看来,ChatGPT表面上是应用的发展,但本质上其背后的方法论发生了一次天翻地覆的变化。用云计算的方式为开发者提供算力,让他们在全世界范围能够公平地获取算力,这一点是不会改变的。”王坚说,在他看来,从做云计算的角度看,计算能力的获取再也不会变成开发者的瓶颈。
昇思MindSpore业务总经理丁诚给出了一个形象的比喻。丁诚认为,大语言模型数据结构很简单,是矩阵成,它特点是参数量特别大,就好比人类具备了超级大脑,“接下去大模型训练过程中是通过大数据大算力来喂,在这个过程中好比本身聪明绝顶拥有超级大脑的人接受了博览群书,接受了各种知识的训练,这样的人类到各行各业里应用,都是大有可为的。”
百度飞桨总架构师于佃海表示,AI预训练大模型,是深度学习崛起以来最重要的一次技术变革。大模型不只是模型参数规模更大,同时也对应着学习机制和AI研发应用范式的改变。自监督学习模式突破了数据标注的困境,可以从海量数据中学习到丰富的通用知识。
复旦大学计算机学院教授邱锡鹏也在论坛上表示:“从早期的预训练模型,一直到GPT3,GPT3的规模远超过之前的模型,之前的模型是千万到亿级别,GPT3直接到了千亿级别。”对大模型,主要观察数学建模能力、上下文的理解能力、学习能力等,会发现大概在百亿规模之后就会发生突变。国内第一个对话式大型语言模型MOSS便是由邱锡鹏团队发布至公开平台。他认为,ChatGPT展示出了非常好的通向人工智能的潜力,“也就是说ChatGPT的出现,或者说涌现出来的很多能力,大大缩短了我们此前实现通用人工智能的时间预期。”
综合分析一下:1.使用云计算,各家公司都不再受算力约束。2.GPT就是大模型,实现了人类直接和人工智能沟通。 3.要有学习模型,还要有大数据,然后具备海量学习的能力。4.解决了底层制作能力需要,人类需要向创新和连接方面发挥能力。5.算法人才不足。
核心问题在于2点:第一点,大模型的建立,是人工来建立的,但是这个数学建模依旧需要大量的基础人才。第二点,大模型的路径优化,需要大量的实践活动,也需要小白鼠。目前没有感受到GPT的大模型是自动生成的,也是各个小模型慢慢训练出来的,小模型之间的关联度也有很大的问题,以至于出现自相矛盾的对话。从这两点来看,我国的GPT发展都有相应的优势,小模型我们做了很多,小模型之间的相互连接是目前缺乏的。唯一要注意的就是不能一哄而上做重复投资。
3月7日补充:
中美研发在解决一些问题上有明显的逻辑差别:当遇到一个问题,中方想的是如何快速高效的去解决当前问题。美国人的思路是,如何系统化的去解决类似的问题。
导致最后的差距在于,中国能够很快解决当前问题,但是持续不断的问题袭扰时,花费大量时间后才意识到要用西方的方式去结局。
而美国的问题在于,他不能很快的去解决当前问题。但是一旦这个模型做好以后,他可以一劳永逸,把问题往模型里面套用,看看发生在那一阶段,然后根据对应的对策去执行下去。
这个就是著名的稻盛和夫提出著名的“水库式经营”理念。这是受松下幸之助的影响,有一次在听松下的演讲时,提到这个理论,经济发展会有周期的,当经济景气的时候,需要考虑到经济不景气的时候该怎么办,必须要在企业经营好的时候做好储备,就像水库蓄水一样,随时随地做好准备,以备不时之需。
当天,有一位青年,在听完稻盛和夫松下的演讲后,提出,“您的水库式经营理念非常棒,我也知道建造一个属于自己的水库很重要,但您能告诉我,怎样建造属于自己的水库吗?怎样才能做到,如果不教我们具体的方法,说这些有什么用呢?”
松下先生说道,“那方法我也不知道,尽管不知道,但必须要建水库,你必须得这么想。”
受到这次听松下先生演讲的经历,让稻盛和夫受到了很大的冲击,不管怎么样,首先得想,这很重要,如果连想都不敢想,就根本没有做的可能了。所以,要想把事情做好,首先得想,这很重要。在此基础上,总结推出了他的著名的“水库式经营”理论。
我们大多数企业家,都在为企业发展受困,水都吃不上了哪有精力考虑建设水库。月报、季报、年报,都要数字好看,都在忙这些事情。很少有针对未来的事情做长远的规划。百度无人驾驶团队都大换血了几次,华为号称永不造车也亲自下厂,这就是个典型的例证。