记者 | 查沁君
在科技圈掀起大浪潮的ChatGPT,最近也被教育公司盯上了。
日前,网易有道(NYSE:DAO)被传其AI技术团队已投入到ChatGPT同源技术AIGC(AI Generated Content人工智能自动生成内容)在教育场景的落地研发中。
2月9日,网易有道向界面教育证实了上述消息,并表示近年来一直在AIGC上有持续性投入。去年底尝试AIGC在教育场景中的落地应用,包括但不限于AI口语老师、中文作文打分和评价等。
“产品的最终形态团队还在讨论中,需要匹配用户需求来决定,智能硬件、在线课程都可能是考虑落地的场景。”网易有道称。
AIGC被视为继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式,目前AIGC已经从早期的辅助人类实现内容创造,发展到如今的独立完成内容创作的新阶段。如前段时间AI绘画就成为AIGC第一个破圈的落地应用。
网易有道还表示,其在学习和翻译场景下积累了丰富的多模态数据和相关语料,一直通过有道智云平台向外输出。
同日,界面教育自作业帮媒体交流会上获悉,关于ChatGPT在教育领域的应用,该公司已经在做一些小样测试,主要还是在原来作业帮的产品上,等产品成熟度较高后,会在聪明学系统里进行应用。
作业帮表示,多年来其在预训练语言模型中有持续投入,在教育相关场景下的多个垂类应用都有落地,包括题意理解、知识点分类、作文批改、智能质检等。
“比如,行业之前做考试批阅的普遍做法是围绕图像比对来进行,现在我们已经能对一些数学题本身进行测算和深度理解、处理,这其实是相似的技术。”作业帮执行总裁苏静表示。
中公教育(002607.SZ)也来蹭了一波热度,2月9日其在投资者关系平台上称,将根据ChatGPT发展带动的岗位需求来增设相关的培训课程。
相比上述公司的发声,科大讯飞(002230.SZ)则直接披露产品的官宣日期。
该公司表示,已于2022年12月进一步启动生成式预训练大模型任务攻关。2023年5月6日,将进行产品级发布,AI学习机将成为该项技术率先落地的产品。其技术突破将在中英文作文辅导、中英文口语学习等方面带来显著提升。
上述消息的释出,让这些公司的股价在二级市场上掀起了一波小高潮。科大讯飞股价一度上涨30%,网易有道一度涨超18%。截至美东时间2月9日收盘,网易有道股价回落。2月10日午盘,科大讯飞上涨4.66%。
从目前披露的信息看来,ChatGPT等相关技术在教育领域的应用,主要集中在中英语口语和作文辅导上。这与ChatGPT背后基于海量数据生成的AI大模型息息相关。
它把能获取的人类书籍、学术论文、新闻、高质量的各种信息作为学习内容,并根据人类反馈强化学习。该技术的突破也使得ChatGPT的对话更贴近人类,语段间逻辑关联度显著提升。
以早年间的人工智能作为对比,就能看出明显差异。
在2016年高考结束、满分作文尚未出炉之际,人工智能小冰的两篇命题作文被曝光。与之同台比拼的还有80后作家安意如、专栏作家潘采夫、诗人廖伟棠等,按要求在规定时间内完成当年的高考作文。
最后的结果显示,小冰的作文能力与不少网民想象中的人工智能存在不少差距,小冰的文字虽然不乏文艺气息,但最为集中的槽点是:字数不够,竟然没到规定字数800字的一半,多少有点不合常理。
从底层逻辑来看,当时的小冰拥有一个基于神经网络的学习模型,这个模型以段为基本单位,逐句阅读文章,学习基于上文生成下文的语义规律,从而在给出题目后并由人工写出每一个段落的首句后,模型自动生成剩余的句子。
这意味小冰是个“半自动”的选手,一篇文章的好坏、文风,很大程度上还依赖写首句的人。
“以前的机器学习更多属于自动化的范畴,人工智能模型根据输入的内容,可以去完成同样的任务。而现在的大规模语言模型改变了这种模式。好比教一个孩子游泳,结果发现他会爬树、踢足球,打乒乓……它有了自主学习的能力,或者说它从之前的语料学习过程中,获得了承担新任务的能力。”网易有道首席科学家段亦涛在近日的直播中称。
段亦涛认为,和之前能够交互的模型非常不一样,ChatGPT更像人了。这种技术突破是非常大的进展,“在这个技术成熟之前,我们都谈不上人工智能,它出现之后,我们才摸到了人工智能的门槛。”
当人们惊叹于ChatGPT“上知天文、下知地理”的聪明时,也难以忽略它的昂贵。
据21财经援引业内人士消息,拥有1750亿个参数的GPT-3因其巨大的每秒浮点计算量,单次训练成本达到460万美元。眼下最主流的英伟达A100芯片,单次训练的使用量应达到数百片,成本在3000万元左右。
这注定是一场只有巨头才有入门券资格的游戏。那么问题来了,教育公司如果想要入局分一杯羹,是否有能力或者说有必要再造一个大模型?还是说通过购买调取现有大模型,进行更偏自身业务属性的调适?
段亦涛曾在上述直播中称,“这次技术更新是一次颠覆性的创新,但在细分场景的应用过程中实际上并不需要这样一个大而全的模型,更需要一些纵深向的探索。比如,有道正在探索ChatGPT同源技术AIGC在学习场景中的落地,这个过程加深了我们对于ChatGPT的进一步理解。”
西部证券在日前研报中指出,中国AIGC产业仍处于发展初期,最先兴起的是AI写作和语音合成模块,虚拟人概念刚兴起,底层技术较国外仍有较大差距。众多国内厂商从内容布局入手,目前商业模式不成熟,还停留在免费引流阶段。
该机构认为,AIGC目前主要客户集中在B端,厂商话语权较弱,未来会向2B 2C方向发展,B端降本增效是根本诉求,C端的付费逻辑在于高效获取信息,替代表达以及扩大用户创造力。
“2023年有望成为AIGC发展大年。类似ChatGPT的大模型作为AIGC的底层平台,将成为核心资源。”西部证券称。
科大讯飞在公开发言中,则透露了其有信心在预训练认知智能大模型上代表中国实现突破。
在1月31日披露的投资者关系活动记录表中,科大讯飞称,自2018年起,预训练模型范式就逐步开始在自然语言处理领域应用,包括谷歌、微软、OpenAI、科大讯飞、智源、鹏城等单位陆续推出预训练模型。
科大讯飞陆续开源了六大类、超40个通用领域的系列中文预训练语言模型,开源三年模型库月均调用量超千万,并自称是“业界最广泛流行的中文预训练模型之一”,在GitHub(面向开源及私有软件项目的托管平台)的中文预训练模型的星标数达13346位列第一。
去年,该公司发布了面向多模态领域的两个轻量级预训练模型,并表示“在参数量远小于业界公开模型20倍以上的情况下,识别效果提升20%-30%”。
据自媒体数智前线援引业内人士观点称,整个互联网的中文数据质量,相比于英文还是有明显差距,需要做中英文不同语言之间的数据互补。目前全球还没有能跟ChatGPT抗衡的大模型,业界共识是差距在两年以上。国内先不谈弯道超车,趁早追赶反而是更重要的。
责任编辑:韦子蓉