一文读懂:ChatGPT的内在逻辑及其法律风险

ChatGPT编程2年前 (2023)发布 一起用AI
572 0 0

2022年11月30日,OpenAI首席执行官山姆.阿尔特曼(Sam Altman)在推特公布推出聊天机器人模型ChatGPT。ChatGPT一经推出,迅速在社交媒体上走红,短短五天内,其注册用户就超过100万。根据Similarweb的数据,今年1月,平均每天约有1300万独立访客使用ChatGPT,是去年12月份的两倍多,累计用户超1亿,创下了互联网最快破亿应用的记录,超过了之前TikTok 9个月破亿的速度。

同时,ChatGPT这一概念也受到了资本市场的热捧。据CB Insights(一家科技市场数据平台)统计,ChatGPT概念领域目前约有250家初创公司,其中51%融资进度在A轮或天使轮。2022年,ChatGPT和生成式 AI(AIGC)领域吸金超过26亿美元,共诞生出6家独角兽,估值最高的就是290亿美元的OpenAI。

随着资本市场ChatGPT概念板块的大涨,国内众多科技企业也着手布局该领域,如百度宣布将于2023年3月推出与ChatGPT类似的人工智能聊天机器人服务,该项目名字确定为文心一言,英文名ERNIE Bot。在资本市场热捧ChatGPT这一概念的同时,ChatGPT自身也陷入关于法律安全风险的争议中,故笔者团队特撰写此文,以专业的法律工作者视角,在全面解读ChatGPT到底是什么及其应用前景的基础上,评估ChatGPT自身可能会带来的法律安全风险。

ChatGPT是什么?

根据百度百科搜索显示,ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。

从2018年起,OpenAI就开始发布生成式预训练语言模型GPT(Generative Pre-trained Transformer),可用于生成文章、代码、机器翻译、问答等各类内容。每一代GPT模型的参数量都爆炸式增长,堪称“越大越好”。2019年2月发布的GPT-2参数量为15亿,而2020年5月的GPT-3,参数量达到了1750亿。ChatGPT 是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架构开发的对话AI模型,是InstructGPT 的兄弟模型。

一文读懂:ChatGPT的内在逻辑及其法律风险

(该图引自《ChatGPT发展历程、原理、技术架构详解和产业未来》一文)

ChatGPT使用的核心技术之一是Transformer。从其全称上也能看得出来,Chat Generative Pre-trained Transformer。Transformer技术是近几年人工智能技术最大的亮点之一,该技术是Google于2017年提出的一种采用注意力机制的深度学习模型,可以按输入数据各部分重要性的不同,而分配不同的权重。Transformer的精度和性能上都要由于之前流行的CNN(卷积神经网络)、RNN(循环神经网络)等模型,大幅提升了模型训练的效果,让人工智能得以在更大模型、更多数据、更强算力的基础上进一步增强能力。

此外,该技术还具有很强的跨模态能力,不仅在NLP(自然语言理解)领域表现优异,在语音、图像方面也显示出了优异的性能。事实上,ChatGPT作为OpenAI发布的最新语言模型,比其前身GPT-3有显著提升。与许多大型语言模型类似,ChatGPT能以不同样式、不同目的生成文本,并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了OpenAI最新一代的大型语言模型,并且在设计上非常注重交互性。

从ChatGPT的主要特点来看,OpenAI使用RLHF(Reinforcement Learning from Human Feedbac,人类反馈强化学习)技术对ChatGPT进行了训练,且加入了更多人工监督进行微调。从其本质来看,ChatGPT是Transformer和GPT等自然语言处理技术的集成,本质上是一个基于神经网络的语言模型。此外,ChatGPT还具有以下特征:

1. 可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案;

2. ChatGPT可以质疑不正确的问题;

3. ChatGPT可以承认自身的无知,承认对专业技术的不了解;

4. 支持连续多轮对话。ChatGPT在对话过程中会记忆先前使用者的对话讯息,即上下文理解,以回答某些假设性的问题。ChatGPT可实现连续对话,极大的提升了对话交互模式下的用户体验。

但尽管ChatGPT表现出出色的上下文对话能力甚至编程能力,我们也要看到,ChatGPT技术仍然有一些局限性,还在不断的进步:

1. ChatGPT在其未经大量语料训练的领域缺乏“人类常识”和引申能力,甚至会一本正经的“胡说八道”。ChatGPT在很多领域可以“创造答案”,但当用户寻求正确答案时,ChatGPT也有可能给出有误导的回答;

2. ChatGPT无法处理复杂冗长或者特别专业的语言结构。对于来自金融、自然科学或医学等非常专业领域的问题,如果没有进行足够的语料“喂食”,ChatGPT可能无法生成适当的回答;

3. ChatGPT需要非常大量的算力(芯片)来支持其训练和部署。抛开需要大量语料数据训练模型不说,在目前,ChatGPT在应用时仍然需要大算力的服务器支持,而这些服务器的成本是普通用户无法承受的,即便数十亿个参数的模型也需要惊人数量的计算资源才能运行和训练;

4. ChatGPT还没法在线的把新知识纳入其中,而出现一些新知识就去重新预训练GPT模型也是不现实的,无论是训练时间或训练成本,都是普通训练者难以接受的。

ChatGPT的应用领域及发展前景

如前文指出,当前ChatGPT并不完美,但ChatGPT模型的出现对于文字/语音模态的AIGC(生成式AI)应用具有重要意义,会对AI产业上下游产生重大影响。如从上游增加需求来看,包括算力芯片、数据标注、自然语言处理(NLP)等。从下游相关受益应用来看,ChatGPT作为一款聊天机器人程序,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务,也可以编写和调试计算机程序,还可以进行文学、媒体相关领域的创作。具体来说,未来ChatGPT还可以有多样化的应用前景:

一是搜索引擎。结合ChatGPT等AI聊天技术的搜索引擎很可能会呈现出传统搜索引擎为主+基于神经网络的语言模型为辅的途径。目前传统的搜索巨头如谷歌和百度均在基于神经网络的语言模型技术上有着深厚的积累,譬如谷歌就有与ChatGPT相媲美的Sparrow和Lamda,有着这些语言模型的加持,搜索引擎将会更加“人性化”。

二是数字人。需要类似ChatGPT这样的模型提供对话能力,才能让数字人具备有趣的灵魂,更好地陪伴和服务人。同时,该能力也可以嵌入到机器人身体内,让未来的人形机器人更聪明,更像人。

三是大量的开发者可以利用ChatGPT这样的底层平台,在大模型基础上根据不同行业和场景进行模型调优,从而创造出各类满足用户需求的丰富应用,从而形成对话式AI的生态。例如国外火爆的Jasper,通过在GPT3模型上的微调,可以帮助用户撰写营销文案,甚至有人在上面完成了一部 12 万字的小说,IBM、Airbnb、Autodesk等大企业都是其企业用户。

四是银行、律所、各类中介机构、商场、医院、政府政务服务平台中的人机交互机制,如上述场所中的客诉系统、导诊导航、政务咨询系统。ChatGPT等AI聊天技术运用在客诉系统和医院、商场的导诊导航以及政府机关的政务咨询系统中将大幅度降低相关单位的人力资源成本,节约沟通时间。

五是智能汽车、智能家居(如智能音箱、智能灯光)等的交互机制。

六是在教育业的应用。如不少学生开始使用ChatGPT代替自己撰写论文。在线课程供应商http://Study.com面向全球1000名18岁以上学生的一项调查显示,每10个学生中就有超过9个知道ChatGPT,超过89%的学生使用ChatGPT完成家庭作业,22%的学生用ChatGPT生成论文大纲。

此外,与其他模态AI工具的组合式创新,ChatGPT同文生图、文字生成视频、甚至未来直接生成3D模型的工具集成,可以带来UGC内容的极大丰富,成为内容工业化的核心引擎。未来,ChatGPT与更多的AI、云计算等信息技术的集成创新,将创造改变生产力曲线的工具,成为经济发展新动力。

ChatGPT广泛的应用场景及其发展可能性,也再一次点燃了资本市场对人工智能领域的投资信心与热情。据CB Insights统计,ChatGPT概念领域目前约有250家初创公司,其中51%融资进度在A轮或天使轮。2022年,ChatGPT和生成式 AI(AIGC)领域吸金超过26亿美元,共诞生出6家独角兽,估值最高的就是290亿美元的OpenAI。去年10月19日,主打文字生成的AIGC公司Jasper.ai宣布完成1.25亿美元的A轮融资,估值达到15亿美元。10月18日StabilityAI宣布获得1.01亿美元,公司宣布会继续研发用于生成图片、语言、音频、视频和3D的AI生成模型,投后估值达10亿美元。毋庸置疑,投资机构纷纷看好ChatGPT和AIGC赛道的商业前景。红杉资本给出预测,未来预计能够产生数万亿美元的经济价值。

ChatGPT带来的法律风险

ChatGPT为人们带来惊喜的同时,其潜在的法律风险亦值得关注。

一文读懂:ChatGPT的内在逻辑及其法律风险

正如北京师范大学互联网发展研究院院长助理吴沈括认为,ChatGPT在实际应用层面将面临三种风险:第一种是在更巨量数据汇聚的过程中,可能会产生法律和安全风险;第二种是在模型和算法设计的过程中,可能产生伦理和违法风险;第三种是在实际应用过程中,可能被用于违法犯罪行为,进而带来社会风险。具体来看:

(一)知识产权侵权风险

在使用ChatGPT进行创作的过程中,可能产生侵犯知识产权风险。ChatGPT是在大量不同的数据集上训练出来的大型语言模型,所以其产生于其他数据集的回复有可能侵犯已有的作品。使用受版权保护的材料来训练人工智能模型可能导致该模型在向用户提供回复时过度借鉴他人的作品从而引起侵权纠纷,故ChatGPT的输出内容可能有侵犯其他作品知识产权的风险。

另一个问题是,ChatGPT创作的内容是否能认定为作品?如若认定为作品,其著作权归属如何?作品是指文学、艺术和科学领域内,具有独创性并能以某种有形形式复制的治理创造成果。而对于AI生成的作品是否具有独创性的问题,应当根据现有的独创性标准进行判定。如果AI生成的答复具有独创性,那么著作权人可以是AI吗?显然,包括我国在内的大部分国家的知识产权法律下,AI无法成为作品的作者。且就在2023年1月23日,权威学术期刊《科学》的主编索普发表社论,宣布正在更新编辑规则,强调不能在作品中使用由ChatGPT(或任何其他人工智能工具)生存的文本、数字、图像或图形。他特别强调,人工智能程序不能成为作者,如有违反,将构成科学不端行为。

(二)数据安全风险

在使用ChatGPT的过程中,还面临着较高的数据泄露风险。如用户在使用ChatGPT时会输入信息,由于ChatGPT强大的功能,一些员工使用ChatGPT辅助其工作,这尤其引起了公司对于商业秘密泄露的担忧。2023年1月份,一名微软员工在内部论坛上询问是否允许在工作中使用ChatGPT,微软首席技术官(CTO)办公室一位高级工程师回答,只要不与ChatGPT共享机密信息,工作时使用ChatGPT是被允许的。 亚马逊公司律师同样警告员工不要与ChatGPT分享“任何亚马逊的机密信息”,因为输入的信息可能会被用作ChatGPT进一步迭代的训练数据。另一方面,ChatGPT用户必须同意公司可以使用用户和ChatGPT产生的所有输入和输出,同时承诺ChatGPT会从其使用的记录中删除所有个人身份信息。然而ChatGPT未说明其如何删除信息,而且由于被收集的数据将用于ChatGPT不断的学习中,很难保证完全擦除个人信息痕迹。

(三)算法风险

ChatGPT仍然是黑盒模型。目前还未能对ChatGPT的内在算法逻辑进行分解,因此不能保证在使用ChatGPT的过程中,所输出的内容不会产生攻击甚至伤害用户的表述。其中,最为棘手的是ChatGPT回复的虚假信息问题,ChatGPT的工作原理导致其回复可能完全是“一本正经的胡说八道”,这种看似真实实则离谱的虚假信息具有极大的误导性。

(四)被作为违反犯罪工具使用的风险

最后,ChatGPT还极有可能被当作违法犯罪的工具使用。如利用ChatGPT生成大量可用于对在线帐户进行自动攻击的潜在用户名和密码组合,进行撞库攻击。利用自然语言编写的能力,编写恶意软件,从而逃避防病毒软件的检测。利用ChatGPT的编写功能,生成钓鱼电子邮件;利用对话功能,冒充真实的人或者组织骗取他人信息。利用ChatGPT创建暗网市场脚本,为非法交易提供自动交易平台等。

结语

总体而言,ChatGTP作为人工智能领域的技术创新,其对于上下游产业的发展起到有力的推进作用,具有光明的发展、应用前景。与此同时,ChatGPT本身仍面临着知识产权风险、数据安全风险、算法风险及被作为工具用于实施违法犯罪行为的风险。对此,要想该技术获得持续发展,还亟待完善相应监管机制,确保相关产业的合规运作。

参考来源:

1.《解析ChatGPT背后的工作原理》,载架构师公众号。

2.《一文读懂:有关ChatGPT的十个问题》,载腾讯研究院公众号。

3.《ChatGPT爆火的冷思考:盈利难题与治理调整》,载火讯财经。

4.《ChatGPT发展历程、原理、技术架构详解和产业未来》,载架构师技术联盟。

本文作者:阮紫晴 上海申浩律师事务所 孙俊律师团队实习律师,苏州大学刑法学硕士研究生。主要研究领域为行政刑法、刑事合规、数据犯罪等领域。

孙俊 上海申浩律师事务所合伙人,上海交通大学法律硕士研究生,香港大学财务与投资管理硕士。2016年开始关注区块链方面的政策与法律,并购买了大量的比特矿机和莱特矿机进行挖矿。2017年在区块链行业从事投资收购工作,收购金额达到百亿。2018年-至今专注因为电信诈骗和网络赌博引起的洗钱风险研究以及处理过很多大型的经济金融领域的刑事犯罪,参与过很多解冻卡业务。

更多法律问题,欢迎加律师笔者微信一起探讨。

© 版权声明

相关文章