科大讯飞被曝加紧开发中国版ChatGPT,具体发布时间已确定

ChatGPT编程2年前 (2023)发布 一起用AI
591 0 0

杨净 萧箫 发自 凹非寺

量子位 | 公众号 QbitAI

ChatGPT火热,国内玩家接连爆出加紧开发中国版ChatGPT的消息。

现在又最新获悉:科大讯飞也加入此列中。

并且发布就会是直接落地场景的产品,具体时间也已经确定:5月6日

这是ChatGPT火得一塌糊涂之下,最快给出具体时间的国产玩家。

更早之前,一众互联网玩家包括百度360阿里网易京东官宣入局之际,关于谁能打造中国版ChatGPT的问题也争得一塌糊涂。

事实上,自ChatGPT上线以来,作为A股AI龙头科大讯飞就备受市场关注,一直被基金疯狂调研和热捧。

据证券时报消息,截至2022年四季度末,80只基金重仓持有科大讯飞6100万股,去年四季度基金大幅加仓1807万股。

有着数十年技术产业积累的科大讯飞,也被认为是国内最有希望打造ChatGPT的玩家之一。

但问题是,包括讯飞在内的中国玩家是否真的有希望复刻ChatGPT?至少从技术角度来看,又应该具备什么样的条件?

打造中国版ChatGPT需要什么条件?

ChatGPT的打造,核心绕不过算法、数据、算力三要素。

算力是支撑背后大语言模型训练的硬件基础;数据,影响模型能力强弱甚至生成质量的关键;算法则包括模型架构和优化方法,决定着模型的核心技能。

如果说前两者算力和数据是资本资源积累,毕竟训练一个1750亿参数的GPT-3就得花费460万美元;那么算法是ChatGPT区别于其他的独到之处。

作为一个对话式AI,ChatGPT所具备的技能包括多语言文本生成、具备大量世界知识、零样本生成、代码理解和生成、对话能力等。

科大讯飞被曝加紧开发中国版ChatGPT,具体发布时间已确定

更概括地来说,其强大之处在于同时具备知识、推理和沟通能力——

也是实现认知智能必备的几项能力。

首先是知识能力。为了让ChatGPT既具备应用数据能力、又能生成符合人类要求的答案,要求它能具备大量世界知识和基础常识,且符合人类输出要求。

这背后不仅离不开ChatGPT“底座”大语言模型的参数量和算法架构,更离不开极高的数据质量。

值得注意的是,ChatGPT比其他AI模型生成质量高的原因,在于它更了解人类的“雷区”,包括回答中立客观、不输出违规内容、不回答认知范围之外的问题等。

严格来说,这不仅需要各行业通用的高质量数据,而且还需要经过大量数据清洗和人工标注。

这种方法被命名为基于人类反馈的强化学习(RLHF),需要经过大量各行各业的人工标注,仅凭模型自身无法达到这样的效果。

随后是推理能力。这包括理解并生成代码等技能,让模型能像人一样,一步步思考并推算目标结果。

这里面考验的又不仅仅是代码和语言数据量,同样还强调模型的零样本生成能力和复杂推理能力。

具体而言,零样本生成指的是模型完成没见过的新任务的能力,而代码生成更是考验模型根据任务目标,一步步推理生成最终结果的能力。

科大讯飞被曝加紧开发中国版ChatGPT,具体发布时间已确定

最后便是沟通能力,即多语言文本生成、对话能力等。

ChatGPT之所以在沟通能力上有所进步,是因为它能学会基于之前的对话内容生成新输出,而并非局限于当前对话中、导致无法理解代词或暗含前文信息点的词。

这背后除了要求模型在预训练时的语言文本具有多样性,还必须增加如指令学习在内的任务,确保模型能更好地听懂人类对话中的要求,并准确合理地实现。

综上来看,ChatGPT在各方面都提出了不低的要求,国内玩家要想打造这样的模型,就必须在NLP乃至认知智能相关的算法上,实现深厚积淀。

国内玩家有希望吗?

既然如此,那么国内的玩家来打造ChatGPT有希望吗?

从目前已被曝出的玩家来看,主要有两类企业想要抢占ChatGPT的高地。

一类是网络搜索领域,这个被认为ChatGPT率先颠覆的场景,微软谷歌之争也在此再次打响。而回到国内,搜索引擎的两大巨头都表示对ChatGPT的持续关注。

一边,百度官宣即将上线文心一言;另一边,周鸿祎也肯定表示:360不会放弃对ChatGPT这门技术的研究和跟踪。

另一类则是其他专业领域的玩家,比如聚焦于电商物流的阿里京东、文娱场景下的腾讯网易,还有像教育医疗场景深耕的科大讯飞……

不妨就从这两类玩家入手,以百度和科大讯飞为例,来看看是否真的有希望。他们一个是搜索引擎代表,一个所代表的场景有广泛的社会价值。

图注:图源科大讯飞,智医助理电话机器人

如前所言,想要打造ChatGPT,需要算法、数据和算力三个方面。

首先从算法上,目前国内很多公司都有NLP技术和预训练语言模型的研究和开发。百度有文心大模型,而AI龙头科大讯飞自然更是在这两方面,有诸多研究积累——

在NLP所在的认知智能领域,科大讯飞主导承建了认知智能全国重点实验室(科技部首批20家标杆全国重点实验室之一),多年来始终保持关键核心技术处于世界前沿水平,比如在去年就获得CommonsenseQA 2.0、OpenBookQA等12项认知智能领域权威评测的第一;

而在预训练语言模型上,还面向认知智能领域陆续开源了6大类、超过40个通用领域的系列中文预训练语言模型,成为业界最广泛流行的中文预训练模型系列之一,在Github获13346颗星,位列中文预训练模型星标数第一。

从这个维度上看,中国玩家是有希望造出一个类ChatGPT模型。

但要造出一个高质量的语言模型,需要大量的数据和计算资源。

数据方面,诸多现象表明,数据多少是决定模型智能与否的关键。一度惊艳众人的GPT-3就有1750亿参数,而上一版本GPT-2只有15亿参数。

百度360这样的搜索引擎玩家,有着天然的通用数据来源。不过之后的数据清洗和人工标注也是难度不小的工程。

而像科大讯飞,虽然没有像前两者有通用数据上的优势。但在教育、医疗这种高壁垒、高门槛的领域有规模化的专业数据积累,并且有在讯飞输入法、讯飞开放平台、消费办公类产品带来的大量数据,

待到ChatGPT行业落地时,可以迅速占领市场高地。

再来看计算资源方面,实际上看的是愿意投入的成本有多少。

OpenAI背靠微软这样一头算力奶牛——拥有28.5万个CPU核心、1万个英伟达V100 GPU,光是训练一个GPT-3,费用就高达460万美元。

国内像百度、科大讯飞这类数十年的AI玩家,自然有诸多算力和资金的积累。而且也有生态链上的合作伙伴,想必也会是水到渠成的。

巧合的是,讯飞在今年年初提出了要开启高质量发展——将在未来5年实现500亿根据地业务营收、200亿毛利,可提供物质保障;另一方面,还有中国玩家绕不开的国产替代的考量,近年来讯飞一直推进在算力和算法上的自主可控。

据官方数据,目前研发训练服务器已经开始进入国产化, 切换之后效率有的是原来平台的 70-80%,有的效率大是超原来平台100+%。另外在算法上,也启动了推理服务器的国产替代;像部分产品,学习机芯片已经全部切换成国产自主。

不可否认的是,我们跟ChatGPT是有先天的技术差距。但至少从算法、算力和数据这三个基本盘来看,想要打造一个中国版ChatGPT也并非没有希望。

中美在打造ChatGPT上的差异

重新回到事件本身,就在一众中国玩家开始着手打造类似ChatGPT产品之际,一个绕不开的问题是,中国明明不缺ChatGPT技术,为什么不是中国先诞生ChatGPT?中美之间在打造ChatGPT上差异有多大?

背后原因在此之前也没有进行系统性梳理过。归结起来,主要有三个层面。

其一,AI应用落地的行业路线差异。

ChatGPT作为AGI(通用人工智能)技术代表,对于商业化落地而言,本身不是一个“好生意”。

之所以这么说,是因为在相当长的一段时间内,AGI的商业前景其实都并不为业内和大多玩家所看好。

除了前期训练算力和数据投入的大量资金,后期优化和知识更新所需的迭代路线,无法像互联网商业模式创新那样快速变现增长。

在国内市场大环境中,并不是一个好的选择。相比之下,国内大多数科技厂商更倾向于在垂直专业领域应用AI技术,如推出针对不同行业的专业大模型、又例如采用预训练+微调的模式,针对更具体的场景用专业数据去调整差异……

这并不意味着垂直专业领域的AI应用一定比通用AI更差,甚至在某些领域上,经过专业数据训练的AI表现仍然比ChatGPT更好。

然而ChatGPT的成功,意味着通用模型以后也会成为商业化落地的方向之一,甚至覆盖原先一些AI技术不高、专业度不够的场景落地应用,如银行客服等。

科大讯飞被曝加紧开发中国版ChatGPT,具体发布时间已确定

其二,中美在ChatGPT技术上的差距

如前所述,中国不缺ChatGPT技术。如科大讯飞研究的认知智能中,对于ChatGPT具备的自然语言理解、知识推理技术都已有所布局,相关全球基准测试中,成绩均达到了全球领先水平。

然而,如何将这些模型能力集成升级、达到ChatGPT的效果,又如何搜集并产生巨量的高质量通用数据、而非仅仅是某一行业的专业数据,国内外目前依旧存在差距。

更明确一点来说,存在技术代差。

360在最近电话会议中表示:

国内的技术水平目前整体在GPT2.3左右。如果基于互联网优势,大家都用中文提问、尤其是国内的问题,可能实际体验能达到GPT2.5版本左右。

但OpenAI这边,GPT-4早就已经呼之欲出,中美之间基本已存在一代多的技术差距。

其三,技术引发的生态差距。

GPT-3之后OpenAI所有的模型都没有开源,而是提供了API调用,并因此养活了美国一大帮创业公司,创造并盘活了整个生态。

清华大学计算机科学与技术系长聘副教授黄民烈,就曾这样形象地描述GPT系列模型的影响力:

这个过程它干了一件事,就是建立起了真实的用户调用和模型迭代之间的飞轮,它非常重视真实世界数据的调用,以及这些数据对模型的迭代。

相比之下,国内目前更多公司虽然开源了不少大模型,然而这些模型要想达到商业化落地效果,仍旧需要大量数据迭代乃至应用落地,这方面的费用绝非初创公司所能承担。

事实上,从技术、行业乃至生态差距来看,ChatGPT依靠的不是短期的角逐,而是一个长线投资行为。

目前,应用领域可能还集中在搜索引擎上,但随着ChatGPT应用潜力被各个领域挖掘出来,最终可能打造国产ChatGPT的,还是那些在技术、行业以及有能力构建生态的玩家中,科大讯飞是一个。

总之,关于全球ChatGPT之争,号角已经吹响。关乎ChatGPT落地价值探索,国内玩家已经起航。

科大讯飞被曝加紧开发中国版ChatGPT,具体发布时间已确定

© 版权声明

相关文章