以下内容部分根据AI行业内专家、分析师在近期的分享交流进行整理和总结,若有涉及到信息保护部分,请及时联系我做对应处理,谢谢。
生成式AI的核心技术包括算力、算法和数据。
我们今天分别通过对以上三大核心技术问题进行拆解和分析,来简单看看国内AIGC大模型,距离ChatGPT4.0的差距究竟有多远?
|算力—不是简单的芯片算力差距,是整个系统的差距。
OpenAI出品的Chatgpt4.0文字生成大模型,目前算是公认最为成熟的AIGC应用。他们使用的算力系统是英伟达公司的A100主机。
A100 主机是 8 卡一体的超级 GPU 配置,用于比较尖端的训练场景,单系统算力高。
1.上一代主要配置为8卡A100,每一张上面有 80G 显存,总共 640G 显存,标配 2 颗 AMD 旗舰罗马 CPU, 最新一代换成英特尔 Sapphire Rapids 旗舰型 CPU(不同服务器厂商可以选 AMD 或英特尔的 CPU)。
2.另外需要配1T DDR 内存,一共配 9-10 张卡。8张卡用于计算互联,基于 Mellanox 的 IB 架构,剩下 1-2 张卡配 Mellanox 的 200G IB 网卡(最新一代配 400G)。
3.还需要配操作系统存储盘,配 4*4T 的缓存盘。
4.A100 一代整机功耗 6.5 千瓦, H100 一代整机功耗 11 千瓦左右。A100 主机最高可以做到 5P AI,即 IP16 算力,10P INT8,H100主机翻三倍,即 15P AI 和 30P INT8。通过双路 CPU 互联组成系统,每个 CPU 下通过 PCIe Switch 扩展设备。
5.卡内做训练时,8 张 GPU 通过 NV switch 互联,每一路 GPU 可以跑满双向 600G byte 带宽。每个A100 里只有 80G 容量,训练参数大时需要分隔到多台机器的 多个GPU上计算,计算以后需要频繁交换数据,NV switch 比 PCIe 单通道互联技术高 5 倍以上,跨机时每一个GPU会搭配高速 IB 卡,形成8个数据通讯环状结构,通过 GPU direct RDMA 技术和远端主机GPU进行数据通信,不通过 CPU 进行转发(这个技术英伟达独有)。
国内情况:
1.首先A100和H100国内进口目前是被禁状态,国内只拿到主要是A800,去年底有些厂商可以拿到少量的H800。
我们可以把A800看成是A100的孪生兄弟,他们看上去外观是一样的。
但是A800在A100基础上,将上下行的流量,由原来的96,缩减到了64;
另外将NVIink互联技术–两块GPU之间的通讯速率进行了缩减(高配带宽上一代从 600 GB/s 砍到 400GB/s ,这一代是从 900GB/s 砍成 400GB/s 。)
有专家做了测算,压缩通信带宽的结果是,用A800做多卡高性能计算集群计算的时候,A800对比A100的理论性能降低了33% 。
2.国内互联需要通过 PCIe,或者 QPI 的总线互传,带宽会受到很大限制,没有主机内多卡的定制互联方式,跨机时差距更大,国内通过以太网技术,延迟比 IB 技术高5倍以上,在 8-9 微秒,IB 技术延迟 1.5 微秒。
(国内的卡互联通过 PCIe 互转有带宽上线,目前加速卡是乘16的 PCIe,第四代PCIe本身速率为 16,16*16 总共只有256G带宽,32G byte,A100 本身互联能力是单向 300G byte,双向600G,和加速卡差距很大。国内一些厂商比如寒武纪也有多卡互联,一般只能两卡互联,没有专门的switch芯片,可以实现 2-3 个卡互联,不能实现 4 个或 8 个互联,跨CPU传输更慢,通过switch线到CPU,再通过UPI转,延迟高至少3倍。国内没有定义的私有协议做互联,国内厂商目前在推动CCRX标准,英伟达的也是独家方案,其他芯片不适用。)
所以,在算力上,国内外厂商差距不是简单的卡的差距,是整个系统的差距。
|算法、数据上的差距–不具备深度学习框架生态掌控力
我们注意到,华为在 2019 年 8 月发布的昇腾 910 与英伟达在 2020 年 5 月发布的 A100 性能相当,但为什么国内做不出ChatGPT4.0水平的大模型?
除了以上算力的系统原因外,还有个问题是在于我们不具备深度学习框架生态掌控力。拿昇腾 910来说,即使其芯片性能与英伟达水平差不多,但是由于美国 Tensorflow/Pytorch 两大主流深度学习训练框架,没有基于华为昇腾 910 做特定的优化,所以算法结合上述两大训练框架在昇腾 910 上实际跑出来的性能就不如英伟达 A100;目前仅华为自研的深度学习框架 MindSpore 对昇腾 910 和昇腾 310 做了特别优化,由于华为 MindSpore 大部分精力都是放在对昇腾芯片的算子支持和优化上,对英伟达 GPU 的支持还不够,所以只有同时使用华为的深度学习框架和昇腾芯片才能同时发挥出两者的最佳性能。
我们要想在深度学习训练框架要想打破 Tensorflow 和 Pytorch 的垄断必须要靠原始创新,而目前包括华为 MindSpore 在内的国产深度学习框架尚未很好解决上述两大训练框架的痛点。
Caffe之所以 能够在早期获得开发者欢迎是因为解决了深度学习框架从 0 到 1 的过程,Tensorflow 之所以可以取代Caffe 是因为解决了其不够灵活、不能自动求导、对非计算机视觉任务支持不好等问题,Pytorch 之所以明显抢夺 Tensorflow 的份额是因为 Pytorch 引入了动态图解决了 Tensorflow 是静态图设计调试困难的问题。
但是目前国产的三个深度学习框架百度 PaddlePaddle、旷视 Megengine、华为 MindSpore 还没有完美解决开发者在用 Tensorflow 和 Pytorch 所遇到的痛点。
依帆:今天从主要的技术问题对国内同世界先进水平在AIGC模型上的差距进行了简单的对比分析,其实国内外对AIGC研究已有长达几十年的历程,记得前期看过一篇中金公司出的报告,在对于AIGC的技术研究上,从世界范围内的高校、科研机构、商业公司所发表的AIGC领域论文数量来看,中国数量位列第一,但具有突破性成果的论文数量,就远低于美国。我想这是根源上的问题。
我们一方面要正视国内AIGC在工程技术上的差距,另一方面,我们也有理由去期待–国内现有的/或即将发布的AIGC模型在各种场景中的接入及应用。比如4月11月阿里发布的通义千问大模型,在电商和智能家居的应用;比如蓝色光标近日有公布,完全靠AIGC模型来实现广告全流程制作的应用;比如AIGC在游戏设计和制作中的应用。
在现阶段,无论其技术处于何种水平,生成式AI已经在我们身边、在各处可+的生活、生产领域,正悄然带来不可忽视的、巨大的改变。