AI芯片行业分析报告:发展现状、竞争格局、市场空间及相关公司深度梳理

154次阅读

从广义上讲只要能够运行人工智能算法的芯片都叫作 AI 芯片,但通常意义上的 AI 芯片指的是针对人工智能算法做了特殊加速设计的芯片。AI 芯片也被称为 AI 加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由 CPU 负责)。

下面我们从 AIGC 产业链出发了解 AI 芯片在产业链中的地位及作用,分析不同类别的 AI 芯片的作用及特性都有哪些,我国 AI 芯片行业现状及竞争格局是怎样的,目前全球 AI 芯片的四大技术路线都有哪些?chatGPT 及“文心一言”的出现对于 AI 芯片市场又怎样的影响,市场空间有多大,相关公司都有哪些,未来有怎样的发展趋势?对于这些问题我们下面一一解答。

AI 芯片概述

1.AIGC 产业链

AIGC 产业链主要分为上游算力硬件层、中游数据 / 算法软件层和下游行业应用层。硬件层依靠高性能 AI 芯片、服务器和数据中心为 AIGC 模型的训练提供算力支持,是承载行业发展的基础设施;数据 / 算法层软件层主要负责 AI 数据的采集、清洗、标注及模型的开发与训练,多方厂商入局自然语言处理、计算机视觉、多模态模型等领域;行业应用层目前主要涉及搜索、对话、推荐等场景,未来有望在多个行业呈现井喷式革新。位于算力硬件层的 AI 芯片是人工智能的底层基石。

2.AI 芯片是人工智能的底层基石

2014 年李天石博士“DianNao”系列论文让科学界看到,在冯诺依曼架构下也可以实现 AI 专用芯片。此后 Google 推出的 TPU 运算架构的 AlphaGo,接连打败李世石和柯洁,看到了专用芯片的商业价值。人工智能经历过三阶段,迎来爆发式增长。

AI 人工智能的发展主要依赖两个领域的创新和演进:一是模仿人脑建立起来的数学模型和算法,其次是半导体集成电路 AI 芯片。AI 的发展一直伴随着半导体芯片的演进过程,20 世纪 90 年代,贝尔实验室的杨立昆(YannLeCun)等人一起开发了可以通过训练来识别手写邮政编码的神经网络,但在那个时期,训练一个深度学习卷积神经网络(Convolutional Neural Network,CNN)需要 3 天的时间,因此无法实际使用,而硬件计算能力的不足,也导致了当时 AI 科技泡沫的破灭。

AI 芯片是 AI 发展的底层基石。英伟达早在 1999 年就发明出 GPU,但直到 2009 年才由斯坦福大学发表论文介绍了如何利用现代 GPU 远超过多核 CPU 的计算能力(超过 70 倍),把 AI 训练时间从几周缩短到了几小时。算力、模型、数据一直是 AI 发展的三大要素,而 AI 芯片所代表的算力则是人工智能的底层基石。

3. 训练芯片及推理芯片

根据机器学习算法步骤,AI 芯片分为“训练(Training)”芯片和“推理(Inference)”芯片。“训练芯片”主要用于人工智能算法训练,即在云端将一系列经过标记的数据输入算法模型进行计算,不断调整优化算法参数,直至算法识别准确率达到较高水平。“推理芯片”主要用于人工智能算法推理,即将在云端训练好的算法模型进行裁剪优化变“轻”之后,进入“实战”阶段,输入数据直接得出准确的识别结果。

不同用途(训练 or 推理)、不同应用场景(端 - 边 - 云)对 AI 芯片有着不同的要求。首先,训练芯片追求的是高计算性能(高吞吐率)、低功耗,但是推理芯片主要追求的是低延时(完成推理过程所需要的时间尽可能短)、低功耗。其次,“端 - 边 - 云”三个环节对 AI 芯片的有不同的要求——其中端和边上进行的大部分是 AI“推理”,因此用于端和边的 AI 芯片性能要求和上述推理芯片一致;大部分的训练过程是在云和数据中心进行,训练过程对时延没有什么要求,因此需要保证 AI 芯片在尽可能保证较高算力的情况下,功耗尽可能低,另外许多推理过程也是在云端进行。

4. 终端芯片及云端芯片

根据部署场景,AI 芯片可用于端、边、云三种场景,具体而言:1)终端 AI 芯片追求以低功耗完成推理任务,以实际落地场景需求为导向,在能耗 / 算力 / 时延 / 成本等方面存在差异;2)边缘 AI 芯片介于终端与云端之间,承接低时延 / 高隐私要求 / 高网络带宽占用的 推理或训练任务;3)云端 AI 芯片以高算力 / 完成训练任务为目标,包括 CPU/GPU/FPGA/ASIC 等多种类型。

5.GPU、FPGA、ASIC 及 CPU

从技术架构来看,AI 芯片主要分为图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、中央处理器(CPU)四大类。其中,GPU 是较为成熟的通用型人工智能芯片,FPGA 和 ASIC 则是针对人工智能需求特征的半定制和全定制芯片,GPU、FPGA、ASIC 作为加速芯片协助 CPU 进行大规模计算。

三类芯片用于深度学习时各有优缺点:1)通用性:GPU>FPGA>ASIC,通用性越低,代表其适合支持的算法类型越少。2)性能功耗比:GPU<FPGA<ASIC,性能功耗比越高越好,意味着相同功耗下运算次数越多,训练相同算法所需要的时间越短。

目前 AI 芯片主要被国际厂商垄断,根据 Co unterpoint、IDC 数据,Intel 和 AMD 共计占 2022 年全球数据中心 CPU 市场收入的 92.45%,Nvidia 占 2021 年中国加速卡市场份额的 80% 以上。

AI 芯片分类解读

1.CPU:底层核心算力芯片

CPU(Central Processing Unit)中央处理器:是计算机的运算和控制核心(Control Unit),是信息处理、程序运行的最终执行单元,主要功能是完成计算机的数据运算以及系统控制功能。

CPU 擅长逻辑控制,在深度学习中可用于推理 / 预测。在深度学习中, 模型的训练和推理是两个不同的过程: 在训练过程中,模型需要进行大量的矩阵运算,因此通常使用 GPU 等擅长并行计算的芯片进行处理;在推理过程中,需要对大量的已经训练好的模型进行实时的推理 / 预测操作,而这种操作通常需要高效的逻辑控制能力和低延迟的响应速度,这正是 CPU 所擅长的。

2.GPU:AI 高性能计算王者

GPU(Graphics Processing Unit)图形处理器:GPU 最初是为了满足计算机游戏等图形处理需求而被开发出来的,但凭借高并行计算和大规模数据处理能力,逐渐开始用于通用计算。根据应用场景和处理任务的不同,GPU 形成两条分支:传统 GPU:用于图形图像处理,因此内置了一系列专用运算模块,如视频编解码加速引擎、2D 加速引擎、图像渲染等;GPGPU:通用计算图形处理器(general-purpose GPU)。为了更好地支持通用计算,GPGPU 减弱了 GPU 图形显示部分的能力,将其余部分全部投入到通用计算中,同时增加了专用向量、张量、矩阵运算指令,提升了浮点运算的精度和性能,以实现人工智能、专业计算等加速应用。

GPU 在 AI 模型构建中具有较高的适配性。GPU 的高并行性可以更好地支持 AI 模型训练和推理过程中大量的矩阵或向量计算,以 NVIDIAGPU 系列旗舰产品 A100 为例:根据 NVIDIA 公布的规格参数,A100 的深度学习运算性能可达 312Tflops。在 AI 训练过程中,2048 个 A100GPU 可在一分钟内成规模地处理 BERT 的训练工作负载;在 AI 推理过程中,A100 可将推理吞吐量提升到高达 CPU 的 249 倍。

AI 模型与应用的加速发展推动 GPU 芯片放量增长。根据 Verified Market Research 数据,2021 年全球 GPU 市场规模为 334.7 亿美元,预计 2030 年将达到 4773.7 亿美元,CAGR(2021-2030)为 34.35%。从国内市场来看,2020 年中国大陆的独立 GPU 市场规模为 47.39 亿元,预计 2027 年市场规模将达 345.57 亿美元,CAGR(2021-2027)为 32.8%。

3.FPGA:可编程芯片加速替代

FPGA(Field Programmable Gate Array)现场可编程门阵列:FPGA 最大的特点在于其现场可编程的特性,无论是 CPU、GPU 还是 ASIC,在芯片制造完成后功能会被固定,用户无法对硬件功能做出更改,而 FPGA 在制造完成后仍可使用配套软件对芯片进行功能配置,将芯片上空白的模块转化为自身所需的具备特定功能的模块。

(1)可编程性、高并行性、低延迟、低功耗等特点,使得 FPGA 在 AI 推断领域潜力巨大

FPGA 可以在运行时根据需要进行动态配置和优化功耗,同时拥有流水线并行和数据并行能力,既可以使用数据并行来处理大量数据,也能够凭借流水线并行来提高计算的吞吐量和降低延迟。根据与非网数据,FPGA(Stratix10)在计算密集型任务的吞吐量约为 CPU 的 10 倍,延迟与功耗均为 GPU 的 1 /10。

云端推断:在面对推断环节的小批量数据处理时,GPU 的并行计算优势不明显,FPGA 可以凭借流水线并行,达到高并行 + 低延迟的效果。根据 IDC 数据,2020 年中国云端推理芯片占比已超过 50%,预计 2025 年将达到 60.8%,云端推断市场广阔。边缘推断:受延迟、隐私和带宽限制的驱动,FPGA 逐渐被布署于 IoT 设备当中,以满足低功耗 + 灵活推理 + 快速响应的需求。

(2)FPGA 是 AI 时代下解决暗硅效应的有效途径

暗硅效应(Dark Silicon)指由于芯片工艺和尺寸的限制,芯片上只有一小部分区域可以同时运行,其余的区域被闲置或关闭,这些闲置或关闭的区域被称为“暗硅”。在 AI 计算领域,由于摩尔定律的限制和散热问题,先进高效的硬件设计会更容易导致暗硅效应,限制了芯片的计算能力和应用范围。据相关论文,在 22nm 制程下,暗硅面积将达 21%。在 8nm 制程下,暗硅面积将提升至 50% 以上。由于暗硅效应,预计到 2024 年平均只能实现 7.9 倍的加速比,与每代性能翻倍的目标相比差距将近 24 倍。

FPGA 的可编程性和可重构性使其能够灵活地部署和优化计算任务,从而在一定程度上缓解了暗硅效应的影响。简单来说,FPGA 减少暗硅效应的方法有两个方向,一是通过优化电路结构,尽可能减少不活跃区域的数量;二是通过动态重构电路,使得不活跃区域可以被重用。

4.ASIC:云计算专用高端芯片

ASIC(Application Specific Integrated Circuit)专用集成电路:是一种为专门应特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC 具有较高的能效比和算力水平,但通用性和灵活性较差。

能效方面:由于 ASIC 是为特定应用程序设计的,其电路可以被高度优化,以最大程度地减少功耗。根据 Bob Broderson 数据,FPGA 的能效比集中在 1 -10MOPS/mW 之间。ASIC 的能效比处于专用硬件水平,超过 100MOPS/mW,是 FPGA 的 10 倍以上。算力方面:由于 ASIC 芯片的设计目标非常明确,专门为特定的应用场景进行优化,因此其性能通常比通用芯片更高。根据头豹研究院数据,按照 CPU、GPU、FPGA、ASIC 顺序,芯片算力水平逐渐增加,其中 ASIC 算力水平最高,在 1 万 -1000 万 Mhash/ s 之间。

随着技术、算法的普及,ASIC 将更具备竞争优势。ASIC 在研发制作方面一次性成本较高,但量产后平均成本低,具有批量生产的成本优势。目前人工智能属于大爆发时期,大量的算法不断涌出,远没有到算法平稳期,ASIC 专用芯片如何做到适应各种算法是当前最大的问题。但随着技术、算法的普及,ASIC 将更加具备竞争优势。

ASIC 主要应用在推断场景,在终端推断市场份额最大,在云端推断市场增速较快。

5. 国产 CPU 多点开花加速追赶

全球服务器 CPU 市场目前被 IntelAMD所垄断,国产 CPU 在性能方面与国际领先水平仍有差距。根据 Counterpoint 数据,在 2022 年全球数据中心 CPU 市场中,Intel 以 70.77% 的市场份额排名第一,AMD 以 19.84% 的份额紧随其后,剩余厂商仅占据 9.39% 的市场份额,整体上处于垄断局面;目前国内 CPU 厂商主有 海光、海思、飞腾、龙芯、申威 等。通过产品对比发现,目前国产服务器 CPU 性能已接近 Intel 中端产品水平,但整体上国内 CPU 厂商仍在工艺制程、运算速度(主频)、多任务处理(核心与线程数)方面落后于国际先进水平。

6. 生态体系逐步完善,国产 GPU 多领域追赶

全球 GPU 芯片市场主要由海外厂商占据垄断地位,国产厂商加速布局。全球 GPU 市场被 英伟达、英特尔 AMD三强垄断,英伟达凭借其自身 CUDA 生态在 AI 及高性能计算占据绝对主导地位;国内市场中,景嘉微在图形渲染 GPU 领域持续深耕,另外 天数智芯、壁仞科技、登临科技 等一批主打 AI 及高性能计算的 GPGPU 初创企业正加速涌入。

图形渲染 GPU:目前国内厂商在图形渲染 GPU 方面与国外龙头厂商差距不断缩小。芯动科技 的“风华 2 号”GPU 采用 5nm 工艺制程,与 Nvidia 最新一代产品 RTX40 系列持平,实现国产图形渲染 GPU 破局。景嘉微在工艺制程、核心频率、浮点性能等方面虽落后于 Nvidia 同代产品,但差距正逐渐缩小。

在 GPGPU 方面,目前国内厂商与 Nvidia 在 GPGPU 上仍存在较大差距。制程方面,目前 Nvidia 已率先到达 4nm,国内厂商多集中在 7nm;算力方面,国内厂商大多不支持双精度(FP64)计算,在单精度(FP32)及定点计算(INT8)方面与国外中端产品持平,天数智芯、壁仞科技 的 AI 芯片产品在单精度性能上超过 NVIDIAA100;接口方面,壁仞科技与 Nvidia 率先使用 PCle5.0,其余厂商多集中在 PCle4.0;生态方面,国内企业多采用 OpenCL 进行自主生态建设,与 NvidiaCUDA 的成熟生态相比,差距较为明显。

7.FPGA/ASIC 国产替代正当时

FPGA 全球市场呈现“两大两小”格局,Altera 与 Xilinx 市占率共计超 80%,Lattice 和 Microsemi 市占率共计超 10%;整体来看,安路科技、紫光同创等厂商处于国际中端水平,仍需进一步突破。工艺制程方面,当前国产厂商先进制程集中在 28nm,落后于国际 16nm 水平;在等效 LUT 数量上,国产厂商旗舰产品处于 200K 水平,仅为 XILINX 高端产品的 25% 左右。

ASIC 不同于 CPU、GPU、FPGA,目前全球 ASIC 市场并未形成明显的头部厂商,国产厂商快速发展;通过产品对比发现,目前国产厂商集中采用 7nm 工艺制程,与国外 ASIC 厂商相同;算力方面,海思 的昇腾 910 在 BF16 浮点算力和 INT8 定点算力方面超越 Googel 最新一代产品 TPUv4,遂原科技 寒武纪 的产品在整体性能上也与 Googel 比肩。未来国产厂商有望在 ASIC 领域继续保持技术优势,突破国外厂商在 AI 芯片的垄断格局。

我国 AI 芯片现状

1. 算力精度门槛下,ASIC 和 GPGPU 是最适合大模型的架构

大模型云端训练多数情况下都在 FP32 计算精度上,推理端则以 FP16 和混合精度为主。算力越强,模型效率越高。FPGA 和 GPU 对比,虽然 FPGA 吞吐率、性能功耗比优于 GPU,但是 FPGA 存在两个天然缺陷,FPGA 只适合做定点运算,不适合做浮点运算,如果用来做浮点运算耗费逻辑很大,而且有些 FPGA 不能直接对浮点数进行操作的,只能采用定点数进行数值运算。其二,FPGA 可以理解成某种“芯片半成品”,需要开发人员做大量二次开发设计芯片,因此开发使用门槛较高。ASIC 和 GPU 则能够满足大模型的入门门槛。

国内视角下,华为、百度昆仑芯、阿里、寒武纪、海光信息 及一众初创企业(燧原、天数、壁仞、沐曦)均推出云端训练和推理芯片。架构选择上,华为、百度、阿里、寒武纪选择 ASIC 路线。华为、百度、阿里自家业务场景对 AI 芯片存在天然需求,选择 ASIC 在量产制造供应链上的难度显著低于 GPU。初创企业则押注通用型 GPGPU 架构,壁仞、沐曦等初创企业多创立于 2018 年前后,团队一般来自出走英伟达、AMD 的技术专家,因此技术路线多选择他们所熟悉的通用型 GPU。

2.AI 大模型让 ASIC 和 GPU 之间的边界愈发模糊,国内 GPU 初创企业或在竞争中落后

英伟达在过去很长的一段时间内坚持用统一的硬件,即通用型 GPU 同时支持 Deep Learning 和图像需求。但高性能计算迭代到 H100 产品后,其计算卡和图像卡分开,在技术路线上也愈发靠近 ASIC。初创企业为了实现通用性,选择了在芯片设计和制造供应链存在较多困难的 GPU 路线,暂未推出真正具备量产成熟度的产品。

3. 国产 ASIC 厂商中,寒武纪是为数不多能够较为开放支持中游 AI 算法和模型商

1)华为选择部署端到端的完整生态,例如使用昇腾 910 必须搭配华为的大模型支持框架 Mind Spore、盘古大模型。第三方开源模型无法在华为上运行,若要运营必须依赖华为提供的工具做深度定制和优化,开放程度低。2)阿里在该方面的定位是系统集成商和服务商,运用自身芯片产品搭建加速平台中,对外输出服务。3)百度昆仑芯主要在自身智算集群和服务器上用,以及国内企业、研究所、政府中使用。且由于百度自身 AI 算法商的商业定位,与其他 AI 厂商之间存在竞争关系,昆仑芯未必能够在其他 AI 算法商中铺开。

英伟达 A800、H800 对国产厂商存在一定的威胁,但在大模型趋势下,英伟达的优势有所弱化。过去,机器学习训练时间的主导因素是计算时间,等待矩阵乘法,通过张量核心和降低浮点精度,这个问题很快被解决。现在大型模型训练 / 推理中的大部分时间都是在等待数据到达计算资源。内存带宽和容量的限制不断出现在 NvidiaA100GPU,如果不进行大量优化,A100 往往具有非常低的 FLOPS 利用率。而 800 系列降低了数据传输速率,弱化了英伟达高算力的优势。此外,大模型 AI 芯片更需要片间互联、HBM,英伟达 CUDA 这种标准化平台的优势同样有所弱化。

寒武纪的优势在于各种深度学习框架,合作经验丰富。寒武纪思元系列产品适配 TensorFlow、Pytorch、Caffe 深度学习框架。2019 年开始适配海康,峰值时刻合作开发团队有 70-80 人(公司派出 20-30 人),思元 290 与商汤在 CV 层面深度合作,NLP 领域在讯飞、百度语音都有出货。

寒武纪思元 590 将是最早实现商业应用的接近英伟达 A100 性能的国产 AI 训练芯片。目前华为昇腾 910 性能超越英伟达 V100,但未达到 A100 水平,壁仞科技 7nm 通用 GPU 芯片 BR100 称其可与被禁售的英伟达 H100 一较高下,但尚未量产上市。寒武纪思源 590 芯片面积 800mm^2,和 A100 一样。内存带宽 2.7T,是 A1001.8T 的 1.5 倍。HBM2 使用海力士,功耗达 350W-550W,FP32 算力到 80TFLops,目前已经客户送样测试阶段,在高性能国产 AI 芯片中进程最快,最有机会承接国内 AI 算法商对英伟达 A100、H100 的需求。

AI 芯片竞争格局

在不同的应用场景之下,已经形成了不同的 AI 芯片竞争格局。

1. 云和数据中心 AI 芯片市场

在云和数据中心 AI 芯片市场,“训练”和“推理”两个环节都是英伟达 GPU 一家独大,几乎占据 90% 以上份额,包括 AWS、微软 Azure、谷歌云、阿里云、华为云、腾讯云 在内的大部分公有云厂商上线的 AI 加速计算公有云服务绝大部分都是基于英伟达 Tesla 系列 GPU。

(1)云端训练

云端训练用的几乎全部是英伟达 GPU,公有云厂商中仅谷歌云一家除了提供以英伟达 GPU 为主的云计算加速服务之外,还推出了基于自研 AI 芯片 TPU 的深度学习训练服务;

(2)云端推理

云端推理目前出现了基于 GPU、FPGA、ASIC 三种不同芯片云计算服务,但是市场份额仍然以英伟达 GPU 为主,其中 AWS、阿里云、腾讯云、华为云等公有云厂商均推出了 FPGA 加速计算云服务,另外 AWS 推出了基于自研 AI 芯片 Inferentia 的 ASIC 加速计算服务,华为云推出了基于自研 AI 芯片昇腾 310 的 ASIC 加速计算服务。

2. 设备端和边缘计算“推理”市场

在设备端和边缘计算“推理”市场,各类型芯片各自为阵,尚无绝对优势地位的芯片厂商出现——手机市场以 高通、华为、苹果 原主控芯片厂商为主,自动驾驶、安防 IPC 领域 英伟达 暂时领先。

(1)手机

高通从骁龙 820 开始,就已经具备第一代人工智能引擎 AIEngine;高通从第三代 AIEngine 开始引入异构计算 CPU、GPU 和 DSP 的异构并行计算;目前高通已经迭代至第四代,骁龙 855 是第一个搭载第四代 AIEngine 的 SoC。华为麒麟 970、980 分别引入寒武纪 IP(1A/1H),使得手机 SoC 开始具备 AI 能力,在 2019 年 6 月华为发布麒麟 810,华为与寒武纪合作终止,华为采用了自研 AI 芯片达芬奇架构(华为在 2018 年推出了达芬奇架构,对标寒武纪智能处理器 IP——Cambricon-1A/1H/1M)。苹果 2017 年发布的 A11 芯片也具备了 AI 能力,附带 NeuralEngine 和开发平台 CoreML 用于机器学习。

(2)安防 IPC

仍然以采用英伟达 Jetson 系列 GPU 为主。例如海康采用了英伟达 JetsonTX1,大华睿智系列人脸网络摄像机采用的是英伟达 TeslaP4GPU。另外国内三大安防厂商也在陆续采用 ASIC 芯片,例如海康、大华、宇视在前端智能化摄像机中采用 Movidious 的 Myriad 系列芯片,大华自研 AI 芯片用于新款睿智人脸摄像机。

(3)智能驾驶

L3 级别以上自动驾驶芯片以英伟达 Drive 平台为主(包括 Xavier 和 Orin 两款 SoC);华为将昇腾 310 用于自动驾驶域控制器 MDC 上,2020 年已经通过车规级认证;英特尔 Mobileye 的 EyeQ4- 5 被用在 L3- 5 智能驾驶。但是目前整车厂和 Tier1 实际采用得最多仍然是以英伟达 GPU 为主。(在低级别的 L1-L2 辅助驾驶上,采用的是 NXP、瑞萨等厂商的 MCU 芯片,不涉及深度学习。)

(4)智能音箱

目前智能音箱的语音语义识别均在云端完成推理计算,终端上没有 AI 专用处理单元。

AI 芯片四大技术路线

由于 AIGC、类 GPT 应用有鲶鱼效应,带来约百倍算力需求。而英伟达等供给解决需求有瓶颈,因此国产 AI 芯片有逻辑上需求弹性,AI 服务器也有空间。根据 IDC 数据,2021 年全球 AI 服务器市场规模为 156 亿美元, 预计到 2025 年全球 AI 服务器市场将达到 318 亿美元,预计 21-25 年 CAGR 仅仅 19.5%。AI 服务器的增长和规模总额恐怕无法满足类 GPT 类应用的百倍需求(例如生产地域、供应商产能、工人等限制),因此 AI 芯片可能会大量爆发,其次是 AI 服务器。

近期的行业领袖创业潮,会加速这种趋势。2012-2014 年 AI 创业潮,造就 2015-2017 年 AI 机会。2022H2-2023 新一轮 AI 大模型创业潮。

目前 AI 芯片主要玩家应对英伟达塑造的 AI 生态壁垒,选取了不同的商业策略:1)英伟达 AI 芯片依然是 AI 训练和推理最佳选择;2)寒武纪在走英伟达的路线;3)AMD 在走部分兼容 CUDA 的路线;4)谷歌、华为、百度走的是“深度学习框架 +AI 芯片”自研路线。

1. 英伟达:通用芯片 GPU

英伟达目前在深度学习训练芯片市场占据绝对垄断地位,凭借的是:

(1)CUDA 及 cuDNN、TensorRT 等一系列专为深度学习打造的软件工具链

CUDA 是实现 CPU 和 GPU 分工的编程工具;cuDNN 针对深度学习训练,将深度学习模型中对各层(Layer)的常见的操作(例如卷积 convolution、池化 pooling)以方便理解和使用的接口暴露给开发人员,从而使得开发人员可以快速搭建 training 的库;TensorRT 针对推理环节,帮助模型自动减值和优化;由于开发者对于这些工具已经非常熟悉,由于学习成本的存在不会轻易迁移;

(2)深度学习框架和英伟达 AI 芯片的高度耦合

由于各家 AI 芯片厂商编程语言无法兼容,而深度学习框架厂商仅支持一家 AI 芯片就要投入巨大工程量,因此导致其最终只选择市占率最大的 1 - 2 家进行深度支持,英伟达在 AI 训练和推理上实现了软硬件高度耦合而构筑了极高的生态壁垒。

英伟达高性能训练和推理芯片产品主要包括 V100、A100、H100 以及 3 月 21 日 GTC2023 发布的 H100NVL(2 张 H100 通过外部接口以 600GB/ s 的速度连接,每张卡显存为 94GB 合计为 188GB),预计 2024 年将推出基于下代 Blackwell 架构的 B100 产品。

除上文提到的软件及生态壁垒外,英伟达芯片的主要优势在于大片上内存、高显存带宽以及片间互联方案。

2022 年 9 月起,美国禁止峰值性能等于或大于 A100 阈值的英伟达芯片向中国出口,合法版本 A800、H800 已在国内应用。由于中国高性能计算市场对英伟达来说是一个不可放弃的巨大市场,英伟达分别于 22 年 11 月、23 年 3 月发布 A100、H100 的“阉割”版本 A800、H800,通过降低数据传输速率(显存带宽)至 400GB/s、450GB/ s 避开美国限制,从而合法出口到中国,根据 CEO 黄仁勋在 GTC2023 演讲,H800 已在国内 BAT 的云计算业务中应用。

2. 寒武纪:复制英伟达成长之路

寒武纪芯片硬件性能相比于英伟达还有追赶空间,上层软件堆栈与英伟达相似,全自研不是兼容路线;不同之处在于寒武纪需要自己对原生深度学习框架进行修改以支持思元芯片,而英伟达有谷歌原厂支持。硬件方面,从一些表观的性能参数对比来看,寒武纪训练芯片思元 290 和英伟达 A100、昇腾 910 相比性能还有追赶的空间。软件方面,寒武纪是自己对原生的 Tensorflow 和 Pytorch 深度学习框架去针对自己的思元芯片去做修改而非像华为一样自研深度学习框架去进行优化,也不像英伟达一样因为芯片市占率高,有 Pytorch/Tensorflow 原厂去做 GPU 算子的优化和设备的支持。另外寒武纪相比英伟达的算子库丰富程度以及软件工具链的完善程度还有一定差距,需要时间去追赶。

3.AMD:部分兼容英伟达 CUDA

AMD 选择了部分兼容英伟达 CUDA,借力英伟达生态的路线。AMD 在 2016 年全球超算大会上推出了 ROCm,也就是对标英伟达 CUDA 一样的智能编程语言,ROCm 软件堆栈的结构设计与 CUDA 相似度很高;对标英伟达深度学习库 cuDNN,AMD 推出了 MIOpen;对标英伟达深度学习推理框架 TensorRT,AMD 推出了 Tensile;对标英伟达编译器 NVCC,AMD 推出了 HCC。ROCm 中包含的 HIPify 工具,可以把 CUDA 代码一键转换成 ROCm 栈的 API,减少用户移植成本。

走兼容英伟达 CUDA 的路线其难点在于其更新迭代速度永远跟不上 CUDA 并且很难做到完全兼容。1)迭代永远慢一步:英伟达 GPU 在微架构和指令集上迭代很快,在上层软件堆栈上很多地方也要做相应的功能更新;但是 AMD 不可能知道英伟达的产品路线图,软件更新永远会慢英伟达一步(例如 AMD 有可能刚宣布支持了 CUDA11,但是英伟达已经推出 CUDA12 了)。2)难以完全兼容反而会增加开发者的工作量:像 CUDA 这样的大型软件本身架构很复杂,AMD 需要投入大量人力物力用几年甚至十几年才能追赶上;因为难免存在功能差异,如果兼容做不好反而会影响性能(虽然 99% 相似了,但是解决剩下来的 1% 不同之处可能会消耗开发者 99% 的时间)。

4. 谷歌、华为:“深度学习框架 +AI 芯片”自研

谷歌凭借 Tensorflow 去做 TPU 相对而言不存在太多生态壁垒问题,但是仍然无法撼动英伟达,其原因在于 TPU 本身性能还有进一步提升空间以及过于专用的问题。理论上谷歌凭借 Tensorflow 在深度学习框架领域实现了垄断地位,是具备绝对的生态掌控力的,会投入大量的 Tensorflow 工程师针对自家 TPU 去做支持和优化,因此 TPU 去挑战英伟达 GPU 其实不存在所谓生态壁垒的问题。但是自谷歌自 2016 年推出第一代 TPUv1 至今已经到第四代 TPUv4(2021 年 5 月发布),仍然无法从英伟达手中抢走明显份额,其原因主要在于 TPU 本身性能相比于英伟达同时期 GPU 而言还有一定差距,另外其芯片设计过于专用所以在卷积之外的算法表现上并不算好:

(1)谷歌在芯片设计上的实力和英伟达相比还有一定差距

谷歌在 TPU 论文中也明确提到由于项目时间比较紧,所以很多优化只能放弃。从性能参数来看谷歌 TPUv2 和英伟达同年推出的 V100 相比,性能功耗比、显存带宽等指标有着明着差距,即使是谷歌在 2018 年推出了第三代 TPU,其性能(FP32)、功耗等指标仍然和英伟达 V100 相比存在一定差距。

(2)谷歌采用的是传统脉动阵列机架构,芯片设计上过于专用

TPU 的主要创新在于三点:大规模片上内存、脉动式内存访问、8 位低精度运算。脉动阵列机做卷积时效果不错,但是做其他类型神经网络运算效果不是很好,在一定程度上牺牲了通用性来换取特定场景的高性能。TPU 在芯片设计上只能完成“乘 + 加 + 乘 + 加 ……”规则的运算,无法高效实现“复数乘法、求倒、求平方根倒数”等常见算法。

现在 AI 芯片的行业趋势是:GPU 在通用性的基础上逐渐增加专用计算单元;而类似 TPU 的 ASIC 芯片在专用性的基础上逐渐增加通用计算单元——两类芯片有逐渐收敛的趋势。英伟达在用于深度学习领域的 GPU 上的设计思路是“在通用的基础上增加专用运算单元”,例如在 Volta 架构上开始增加 TensorCore(专门用于深度学习加速)、在 Turing 架构上开始增加 RTCore(专门用于光线追踪加速),牺牲通用性为特殊的计算或者算法实现特殊架构的硬件以达到更快的速度。而 AI 芯片一开始走专用路线,但是现在在专用性之外也在架构设计上也增加了通用计算单元(例如谷歌 TPUv1 主要是矩阵乘法运算单元占了 24% 芯片面积,但是 TPUv2 也开始增加浮点 ALU 做 SIMD)。

华为在 2019 年 8 月发布的昇腾 910 与英伟达在 2020 年 5 月发布的 A100 性能相当,但是我们认为华为的主要问题在于不具备深度学习框架生态掌控力。即使其芯片性能与英伟达水平差不多,但是由于 Tensorflow/Pytorch 两大主流深度学习训练框架没有基于华为昇腾 910 做特定的优化,所以算法结合上述两大训练框架在昇腾 910 上实际跑出来的性能其实不如英伟达 A100;目前仅华为自研的深度学习框架 MindSpore 对昇腾 910 和昇腾 310 做了特别优化,由于华为 MindSpore 大部分精力都是放在对昇腾芯片的算子支持和优化上,对英伟达 GPU 的支持还不够,所以只有同时使用华为的深度学习框架和昇腾芯片才能同时发挥出两者的最佳性能。

上述我们提到要想在深度学习训练框架要想打破 Tensorflow 和 Pytorch 的垄断必须要靠原始创新,而目前包括华为 MindSpore 在内的国产深度学习框架尚未很好解决上述两大训练框架的痛点。Caffe 之所以能够在早期获得开发者欢迎是因为解决了深度学习框架从 0 到 1 的过程,Tensorflow 之所以可以取代 Caffe 是因为解决了其不够灵活、不能自动求导、对非计算机视觉任务支持不好等问题,Pytorch 之所以明显抢夺 Tensorflow 的份额是因为 Pytorch 引入了动态图解决了 Tensorflow 是静态图设计调试困难的问题。但是目前国产的三个深度学习框架百度 PaddlePaddle、旷视 Megengine、华为 MindSpore 还没有完美解决开发者在用 Tensorflow 和 Pytorch 所遇到的痛点。

我们认为 Tensorflow 和 Pytorch 目前共同的痛点在于对海量算子和各种 AI 芯片支持的难度,华为正在探索靠 AI 编译器的技术来解决上述问题,但是目前编译技术仍然还达不到人工优化的效果。华为全面布局了三个层次的 AI 编译器,包括图灵完备的图层 IR 设计、使用 poly 技术的图算融合 / 算子自动生成技术(以 TVM 编译器的设计思想推出算子开发工具 TBE 来解决算子开发自动优化的问题)。

AI 芯片市场预期

1.ChatGPT 快速渗透,AI 产业迎发展新机

ChatGPT 是由 OpenAI 公司开发的人工智能聊天机器人程序,于 2022 年 11 月发布,推出不久便在全球范围内爆火。从用户体验来看,ChatGPT 不仅能实现流畅的文字聊天,还可以胜任翻译、作诗、写新闻、做报表、编代码等相对复杂的语言工作。ChatGPT 爆火的背后是人工智能算法的迭代升级。

ChatGPT 是生成式人工智能技术(AIGC)的一种,与传统的决策 / 分析式 AI 相比,生成式 AI 并非通过简单分析已有数据来进行分析与决策,而是在学习归纳已有数据后进行演技创造,基于历史进行模仿式、缝合式创作,生成全新的内容。

ChatGPT 单次训练所需算力约 27.5PFlop/s-day,单颗 NVIDIAV100需计算 220 天。随着模型参数的不断增加,模型训练所需算力将进一步提升,将进一步拉动对算力芯片的需求。预测随着 ChatGPT 等新兴 AI 应用的落地,将会不断打开下游市场需求,而伴随算力的增长,也将带来对上游半导体芯片的需求量快速提升。

2. 全球 AI 芯片有望达到 726 亿美元规模

随着 AI 应用的普及和算力需求的不断扩大,AI 芯片需求有望率先扩张。根据 IDC 预测,中国 AI 算力规模将保持高速增长,预计到 2026 年将达 1271.4EFLOPS,CAGRA(2022-2026 年)达 52.3%。在此背景下,IDC 预测异构计算将成为主流趋势,未来 18 个月全球人工智能服务器 GPU、ASIC 和 FPGA 的搭载率均会上升,2025 年人工智能芯片市场规模将达 726 亿美元。

3. 预测“文心一言”等 LLM 模型的推出将给国内 GPU 市场带来 28.51 亿美元的增量

据百度官方数据,“文心一言”基于文心大模型,参数规模为 100 亿,目前已经向公众开放,并将与搜索引擎业务整合。假设短期国内将出现 5 家与百度“文心一言”相似的企业,模型参数量与训练算力需求成比例。根据 OpenAI 公布的 GPT3 系列参数量及训练算力需求数据,可推算出文心大模型的单次训练算力需求为 208.48PFlop/s-day。据 Similarweb 数据,2023 年 1 月百度搜索引擎的访问量为 4.9 亿次,假设“文心一言”将整合到百度搜索引擎中,单日运营算力需求为 125.08PFlop/sday。

根据 NVIDIA 数据,A100 的 FP64TensorCore 算力为 19.5TFlops,单价为 1 万美元。根据经验假设日常算力利用率为 30%,则短期 LLM 模型将给国内 GPU 市场带来 28.51 亿美元的增量。长期 LLM 模型有望与搜索引擎结合,为 GPU 带来 447.51 亿美元的增量空间。假设未来 ChatGPT 将与搜索引擎结合,日活跃用户数量参考 Google。根据 Similarweb 数据,2023 年 1 月 Google 访问量为 883 亿。假设其他数据与测算方式不变,则 ChatGPT 与搜索引擎结合能够给 GPU 市场带来 447.51 亿美元的增量空间。

相关公司

1. 龙芯中科

公司主要从事处理器(CPU)及配套芯片的研制、销售及服务。主要产品包括龙芯 1 号、龙芯 2 号、龙芯 3 号三大系列处理器芯片及桥片等配套芯片,系列产品在电子政务、能源、交通、金融、电信、教育等行业领域已获得广泛运用。

坚持自主研发指令系统、IP 核等核心技术。龙芯中科掌握指令系统、处理器核微结构、GPU 以及各种接口 IP 等芯片核心技术,在关键技术上进行自主研发,拥有大量的自主知识产权,已取得专利 400 余项。

GPU 产品进展顺利,正研制新一代图形及计算加速 GPGPU 核。公司在 2022 年上半年完成了第一代龙芯图形处理器架构 LG100 系列,目前正在启动第二代龙芯图形处理器架构 LG200 系列图形处理器核的研制。根据公司在 2022 年半年度业绩交流会信息,第一代 GPU 核 (LG100) 已经集成在 7A2000 中,新一代 GPGPU 核 (LG200) 的研制也取得了积极进展。

2. 海光信息

公司主营产品包括海光通用处理器(CPU)和海光协处理器(DCU)。海光 CPU 主要面向复杂逻辑计算、多任务调度等通用处理器应用场景需求,兼容国际主流 x86 处理器架构和技术路线。从应用场景看,海光 CPU 分为 7000、5000、3000 三个系列,分别定位于高端服务器、中低端服务器和边缘计算服务器。海光 DCU 是公司基于 GPGPU 架构设计的一款协处理器,目前以 8000 系列为主,面向服务器集群或数据中心。海光 DCU 全面兼容 ROCmGPU 计算生态,能够较好地适配国际主流商业计算软件,解决了产品推广过程中的软件生态兼容性问题。

CPU 与 DPU 持续迭代,性能比肩国际主流厂商。CPU 方面,目前海光一号和海光二号已经实现量产,海光三号已经正式发布,海光四号目前进入研发阶段。海光 CPU 的性能在国内处于领先地位,但与国际厂商在高端产品性能上有所差距,接近 Intel 中端产品水平;DCU 方面,深算一号已实现商业化应用,深算二号已于 2020 年 1 月启动研发。在典型应用场景下,公司深算一号指标达到国际上同类型高端产品的水平。

3. 景嘉微

公司主要从事高可靠电子产品的研发、生产和销售,产品主要涉及图形显控领域、小型专用化雷达领域、芯片领域等。图形显控是公司现有核心业务,也是传统优势业务,小型专用化雷达和芯片是公司未来大力发展的业务方向。

GPU 研发进程平稳推进,新产品可满足 AI 计算需求。公司以 JM5400 研发成功为起点,不断研发更为先进且适用更为广泛的 GPU 芯片。2014 年公司推出 JM5400,核心频率 550MHz;2018 年推出 JM7200 系列,核心频率 1300MHz;2021 年推出 JM9 系列,核心频率 1.5GHz。根据公司 2022 年中期报告,公司 JM9 系列第二款图形处理芯片于 2022 年 5 月成功研发,可以满足地理信息系统、媒体处理、CAD 辅助设计、游戏、虚拟化等高性能显示需求和人工智能计算需求,可广泛应用于用于台式机、笔记本、一体机、服务器、工控机、自助终端等设备。

4. 寒武纪

寒武纪是 AI 芯片领域的独角兽。公司成立于 2016 年 3 月 15 日,专注于人工智能芯片产品的研发与技术创新,产品广泛应用于消费电子、数据中心、云计算等诸多场景。公司是 AI 芯片领域的独角兽:采用公司终端智能处理器 IP 的终端设备已出货过亿台;云端智能芯片及加速卡也已应用到国内主流服务器厂商的产品中,并已实现量产出货;边缘智能芯片及加速卡的发布标志着公司已形成全面覆盖云端、边缘端和终端场景的系列化智能芯片产品布局。

人工智能的各类应用场景,从云端溢出到边缘端,或下沉到终端,都离不开智能芯片的高效支撑。公司面向云端、边缘端、终端推出了三个系列不同品类的通用型智能芯片与处理器产品,分别为终端智能处理器 IP、云端智能芯片及加速卡、边缘智能芯片及加速卡。

AI 芯片发展趋势

当前 AI 芯片呈现几大趋势:

1. 制程越来越先进

从 2017 年英伟达发布 TeslAV100AI 芯片的 12nm 制程开始,业界一直在推进先进制程在 AI 芯片上的应用。英伟达、英特尔、AMD 一路将 AI 芯片制程从 16nm 推进至 4 /5nm。

2.Chiplet 封装初露头角

2022 年英伟达发布 H100AI 芯片,其芯片主体为单芯片架构,但其 GPU 与 HBM3 存储芯片的连接,采用 Chiplet 封装。在此之前,英伟达凭借 NVlink-C2C 实现内部芯片之间的高速连接,且 Nvlink 芯片的连接标准可与 Chiplet 业界的统一标准 Ucle 共通。而 AMD2023 年发布的 InstinctMI300 是业界首次在 AI 芯片上采用更底层的 Chiplet 架构,实现 CPU 和 GPU 这类核心之间的连接。

3. 头部厂商加速在 AI 芯片的布局

AI 芯片先行者是英伟达,其在 2017 年即发布 TeslAV100芯片,此后 2020 以来英特尔、AMD 纷纷跟进发布 AI 芯片,并在 2022、2023 年接连发布新款 AI 芯片,发布节奏明显加快。

芯片成本变化有以下规律:封装形式越复杂,封装成本、封装缺陷成本占芯片成本比重越大:具体来说,SoC

制程越先进、芯片组面积越大、小芯片(Chips)数量越多,Chiplet 封装较 SoC 单芯片封装,成本上越有优势。鉴于当前 AI 芯片朝高算力、高集成方向演进,制程越来越先进,Chiplet 在更先进制程、更复杂集成中降本优势愈发明显,未来有望成为 AI 芯片封装的主要形式。

国产封测龙头,在 Chiplet 领域已实现技术布局:

通富微电 已为 AMD 大规模量产 Chiplet 产品;长电科技 早在 2018 年即布局 Chiplet 相关技术,如今已实现量产,2022 年公司加入 Chiplet 国际标准联盟 Ucle,为公司未来承接海外 Chiplet 奠定了资质基础;华天科技Chiplet 技术已实现量产,其他中小封测厂商已有在 TSV 等 Chiplet 前期技术上的积累。

原文链接:https://www.bilibili.com/read/cv23032090/

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-09-09发表,共计16512字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。