纵观国内发布的大模型,可以发现,相对于国外尖端的 AI 企业来说,国内还像是蹒跚学步的孩童,在这条道路上刚刚起步。
而在大模型发展的道路上,最重要的实际上还是最基础的算力资源的多少与怎样利用算力的能力,那么国内顶尖大模型企业在算力上的储备几何?
首先是近日同样发布了大模型的商汤科技,在前段时间的交流中,商汤科技内部的相关专家对公司的算力情况进行了交流。
国内能拿到最尖端的显卡是来自英伟达的 A100 GPU,商汤科技在美国对华禁售之前,便提前囤积了上万张 A100 芯片,是国内算力资源比较充足的厂商。
除了来自英伟达的显卡之外,商汤还在采购国内的 GPU,并且专家表示,早在去年以前,就已经在大装置中适配了许多寒武纪与海光信息的 GPU 卡,但在当下商汤仍旧面临着如何将国产 GPU 卡进行大模型训练适配的问题。
在商汤之外,华为的盘古大模型也引起了众人瞩目,但在算力资源方面,华为却略显窘迫。
因为受到美国的长期制裁,华为只得使用全部国产的加速芯片,而目前昇腾系列最先进大幅使用的型号昇腾 910,也只有 A100 70% 的性能,从长期来看,将会制约大模型的发展。
而算力的短缺也直接影响了华为的发展策略,选择性地放弃了 C 端的发展,主攻 B 端工业大模型应用。
而说起算力资源储备最多的企业,莫过于云时代中独占鳌头的阿里。
但从阿里云上的角度来看,当前云上至少拥有上万片的 A100 GPU,从整体来说,阿里云的算力资源至少能够达到 10 万片以上。如果继续抬眼,从整个集团的算力资源来说,将会是阿里云 5 倍的这样的一个量级。
而在英伟达的芯片之外,阿里云也拥有众多国产化的 GPU 芯片,而最近的项目中,便选择了寒武纪 MLU370,其性能基本过关(A100 的 60-70%),检测合格,厂商态度积极,愿意与阿里对接,并且已经用在了 CV 等小模型的训练和推理上。
在 2023 年,阿里云算力资源的增速也将达到 30%-50%。
得益于云时代的绝对领先,让阿里拥有了远超其他企业的算力资源,也让其在 AI 时代里天生就占得了上风。
但是,动辄超千亿参数的大模型研发,并不能靠简单堆积 GPU 就能实现,这是囊括了底层算力、网络、存储、大数据、AI 框架、AI 模型等复杂技术的系统性工程,需要 AI- 云计算的全栈技术能力。
而阿里是全球少数在这几个领域都有深度布局、长久积累的科技公司之一,也是为数不多拥有超万亿参数大模型研发经验的机构。
在 AI 算法 方面,阿里达摩院是国内最早启动大模型研究的机构之一,2019 年便开始投入大模型研发,在中文大模型领域一直处于引领地位,2021 年阿里先后发布国内首个超百亿参数的多模态大模型及语言大模型,此后还训练实现了全球首个 10 万亿参数 AI 模型。
在 智能算力 方面,阿里建成了国内最大规模的智算中心“飞天智算平台”,千卡并行效率达 90%,自研网络架构可对万卡规模的 AI 集群提供无拥塞、高性能的集群通讯能力。基于飞天智算的阿里云深度学习平台 PAI,可将计算资源利用率提高 3 倍以上,AI 训练效率提升 11 倍,推理效率提升 6 倍,覆盖全链路 AI 开发工具与大数据服务,深度支持了通义大模型的研发。
阿里云全栈 AI 技术体系,更是从机器学习平台、大模型即服务、产业智能三个层面,不断丰富 AI 服务,并通过全栈技术驱动千行百业的 AI 发展与应用。
原文链接:https://www.donews.com/article/detail/5610/54097.html