<< 打造舒适的 AI 环境>> 系列总览:
分为硬件篇 x1 跟 软件篇 x3
硬件篇 1:主机八大件的选购
软件篇 1:AI 开发过程中常用开发命令、软件安装等
软件篇 2:软件:Anaconda 使用
软件篇 3:软件:VS Code 使用
本篇重点:
本篇主要是帮助大家构建高性能、高性价比的 AI 开发的硬件平台。如何不把钱浪费到不必要的硬件上,并合理搭配硬件配置节省预算是本文想要去讨论的问题。如果预算充足,笔者建议购买一台 AI 主机,一方面用于日常代码的存放积累,另一方面跑部分比赛,日常 debug 学习别人的库。
目录:
(1) 个人笔记本的选购
(2) 主机八大件的选购
(3) 云 AI 服务器的介绍及使用
个人笔记本的选购
在 AI 训练、测试中,需要长时间开机,笔记本并不是为此设计的,从散热和系统稳定性的角度而言都不是合适的,比如,你用笔记本跑了一天的实验,万一电脑温度太高直接死机了不仅浪费时间还损伤了电脑,并且笔记本设计紧凑,主板、固态等高温运行都会影响寿命,甚至会造成永久性损坏.
出于通勤的建议,笔者建议大家的型号有:
-
外星人 x 系列(便携本)
-
ROG 幻系列(便携本)
魔霸,枪神系列为游戏本,根据自己的钱包决定买哪种。
-
MAC
MacBook Air M1 16 + 256
MacBook Pro M1 16 + 256
(MAC 直接拿来跑模型啥的还是很心疼的,跑 python 够用。所以一般是链接服务器使用,毕竟操作指令比 win 用着好用。M1 芯片的 mbp 确实非常强大,最重要的是发热不严重,甚至在 Air 版没风扇。不过新款 MACBOOK 已经搭载上 M2 了,大家也可以考虑新款!)
-
雷神
IGERAIR-i7(便携本:需要高性能选 i7,其他需求选 i5 即可。)
ZERO 3060(这个可以选择拿来跑简单模型,复现论文够用)
-
雷蛇 灵刃 15 2018 款就够用
(不过据说售后很慢,体验不太好,毕竟国外都是邮件沟通,所以还是考虑下)
以上型号推荐是给理工科需要大型软件或者跑大量数据的这部分同学,计算机专业选 i5 差不多够用,不过 i7 用久一点。设计 / 建筑等需要渲染的直接 MAC BOOK PRO,或者 i7 处理器的。
-
神舟 高性价比,耐造。
(学姐的神舟,从 13 年用到现在还在造。如果是计算机专业或者是想用久一点,处理器选 i7 的。i5 对电脑需求不大的专业,足够用。)
以上笔记本推荐仅学姐个人使用感受,以及学习群的各位学长们讨论得出的。(根据自身实力购买,毕竟学计算机的一些学习需求,可以借助其他工具达到目的)
自己组装 - 主机八大件的选购
这部分重点主要介绍(人工智能专业)主机 GPUx1/GPUx2 的配置,GPUx4/GPUx8 的配置会在 1.8 章节简单介绍,先放上笔者建议的结论,3080 版本总计 13000 左右,3090 版本总计 21000 左右(显卡加 6000 左右换成 3090,电源换成 1000w,其他不需要变即可)。
CPU/ 主板: 5900x + 微星 MAG B550M MORTAR WIFI 迫击炮主板. ==> 3200 元
CPU 散热:利民 Frozen Magic EX 240 水冷. ==> 390 元
硬盘:三星 PM9A1 1T 809 + WD 西数 sn570 2T. ==>1300 元
内存:海盗船复仇者内存条 32G x2 . ==>900×2=1800 元
GPU: 耕升 3080 12G ==> 5200 元
电源:长城 850w 金牌全模组 ==> 560 元
机箱:300 元左右支持 240 水冷的机箱即可 => 200 元
2.1 CPU/ 主板
Ref: 2022 年笔记本电脑 CPU 天梯图文章
https://zhuanlan.zhihu.com/p/376305519
CPU 天梯图是按照 CPU 的跑分进行排序,进行综合性能对比、反映 CPU 性能优劣的一种量化标准。
CPU 主要有两家品牌:Intel(触点式接口)和 AMD(针脚式接口), 此部分主要介绍 Intel/AMD 主流系列,其他系列会在 2.6 章节介绍。
eg:
1)intel 酷睿系列:i3(入门办公), i5(主流), i7(高端级), i9(发烧级). eg: 12700k, 12900k…
2)AMD 锐龙系列:R3(入门办公), R5(主流), R7(高端), R9(发烧级).eg: 5700x, 5900x…
CPU 接口不同搭配的主板也不同,不同级别的 CPU 搭配不同级别的主板芯片组。
1)入门办公:Intel 主板(H 开头)、AMD 主板(A 开头). eg: H610,A520
2)主流:Intel 主板 /AMD 主板(B 开头). eg: B660, B550
3)高端 / 发烧:Intel 主板(Z 开头)、AMD 主板(X 开头). eg: Z690, X570
2.1.1 intel- 酷睿 12 代系列
Ref:12 代酷睿电脑配置文章
https://zhuanlan.zhihu.com/p/429099752
intel 12 代酷睿系列 CPU,需要搭配不同后缀标代表不同意思,eg:
1)后缀 k:具备核显,可以超频
2)后缀 KF: 不具备核显,可以超频
3)后缀 F: 不具备核先,不可超频
需要搭配的主板型号
1)B660
2)Z690
2.1.2 AMD- 锐龙 5000 系列
Ref:AMD 锐龙 5000 系列介绍文章
https://www.gamersky.com/news/202204/1479779.shtml
AMD 锐龙 5000 系列,后缀含义
1)X: 高端处理器
2)G: 带核显..
需要搭配的主板型号
1)B550: 华硕 TUF 重炮手、微星迫击炮..
2)X570:
2.1.3 主板介绍
主板中比较好的牌子:华硕、技嘉、微星. 中高端都是可以选择的. 不同的主板的版型,即大小:
1) EATX/ATX: 需要搭配大机箱,散热最好
3) mATX:比较合适
4) ITX:扩展性、散热有问题
在 AI 训练、测试用途中,CPU 部分主要考虑的是核心 & 线程数量 。笔者建议大家选购 AMD 5900x 型号,散片 / 盒装都可,CPU 出故障率极低,这里不推荐 12 代酷睿的原因是 在 Ubuntu 系统中版本适配做的不好,比如大小核小分配任务的故障等 … 另外关于主板的选择,如果你是刚读研要在一所学校待几年,那么完全可以配置一个 ATX 的大机箱放到工位,如果是要放到公司,建议配置 mATX 加一个小机箱。另外, 主板一定要选择带蓝牙 /wifi 的配置,这样可以剩下一个 PCIE 插口,后续扩展硬盘都是非常方便的。
2.2 CPU 散热器
CPU 散热器分为两种
1)风冷: CPU 的热量传到到热管鳍片的表面,通过风扇进行对流交换散热
推荐型号:猫头鹰系列
2)水冷: CPU 的热量通过水泵对冷却液的循环,抽到散热片风扇冷却,循环散热。
推荐型号:240 起步,恩杰 X 系列、利民 Frozen Magic EX 系列、华硕 ROG 龙神系列..
在 AI 训练、测试用途中,CPU 散热部分主要考虑的是噪音,风冷噪音实在太大,而水冷的风险是漏液,不过现在水冷都是 5 年质保、漏液包赔,再加上若干新型专利技术、不用担心漏液,笔者建议大家选购推荐品牌的 240/360 水冷. 预算充足的同学可以把水冷的散热风扇换成猫头鹰风扇散热. 如果实在担心漏液,可以考虑猫头鹰的风冷系列.(当然猫头鹰的风扇是非常贵的 … 但是在高风扇转速下是非常安静的!!
2.3 硬盘 & 内存
硬盘比较好的牌子:三星、铠侠、西部数据,硬盘按照接口主要分为两种
1)PCIE3.0/4..0
2)SATA:速度太慢,非常不推荐
在 AI 训练、测试用途中,硬盘部分主要考虑的是速度,容量其次,有时候 GPU 显存的利用率很低,很大的程度是硬盘 IO 瓶颈。由于 B550/B660 主板预留的 PCIE 接口只有两个,所以笔者推荐的是 2T NVME PCIE3.0(装系统) + 1T NVME PCIE4.0. 存放有价值的数据集跟训练 checkpoint 是完全没问题的。后续如果想增加容量完全可以用 PCIE 扩展卡上面额外加固态即可。
其次关于容量,比如 imagenet 138G. COCO 27G. 1T + 2T 的配置完全够用
PCIE 扩展卡的使用
内存比较好的牌子:英睿达、海盗船、芝奇都可。
原则:内存的容量 > 2*GPU 显存,越高越好
在 AI 训练、测试用途中,内存部分主要考虑的是容量,数据的处理流程是硬盘 => 内存 =>GPU 显存,一定量的内存能保证我们进行数据预处理的时候能非常好的。频率不需要太高,建议适中 3200 即可,考虑到后续参加机器学习比赛需求。预算不足情况下 32G 即可。
Ref: AutoDL GPU 算力排名
https://www.autodl.com/home
GPU 与 AI 训练、测试相关的参数:
-
FP64: Linpack(Linear system package) Test
-
FP32: Deep Learning
-
FP16: Quantization & amp: python1.6 +++
由于比特币的崩盘,这里推荐两款型号 3080 12G(某型号降价到 5000)/ 3090 24G(某型号降价到 10000),笔者建议预算充足的同学选择 3090. 牌子市面上的牌子都可。
笔者的实验室发生过 2 张 2080ti+1200w 在满载跑模型的时候,主机断电重启的问题。经检查 pytorch 启动瞬时功率过大导致的。
建议:3080 12G 选用 850w,3090 选用 1000w
牌子:振华、海韵都可
补充知识
NVIDIA GPU 架构进化历史
在第三代的 Kepler 架构里,FP64 单元和 FP32 单元的比例是 1:3 或者 1:24。
第四代的 Maxwell 架构里,这个比例下降到了只有 1:32。
第五代的 Pascal 架构里,这个比例又提高到了 1:2,但低端型号里仍然保持为 1:32。
其他 Process Unit
从目前的实践来看,AI 算法和传统 HPC 算法相比,对精度的要求低得多。因此我们看到很多 AI 芯片主要强调在 FP16 或者 INT8 中的精度。可以说,对目前 AI 芯硬件效率的提升,低比特精度有很大贡献。
2.5 机箱
Ref: 机箱风扇如何分配?文章
https://www.zhihu.com/question/320561511/answer/654827754
在 AI 训练、测试用途中,构建合理的机箱风道能保证 CPU 跟显卡的温度,在确定自己机箱需求后,笔者建议大家给机箱安装若干风扇组件合理风道是非常重要的。
2.6 其他
GPUx4 or GPUx8: 在多 GPU 情况下、保证机器的稳定性是至关重要的,这时候就要选择更高系列的 CPU。
1)Intel 至强系列 4210R, 5218R, 6230R
2)AMD 霄龙系列 7320, 7402, 74F3….
这些 CPU 比如支持 ECC 自动纠错内存、支持的 CPU 通道数更多、支持更高的 PCIE 通道等。
云服务器的推荐
普遍租卡 3090 价格都在 2R+/h,一天就是 60+,还是非常贵的,如果暂时没有预算的话,笔者建议同学使用 colab 和恒源云(学姐公众号有活动赠送 GPU 的),colab 官方也有很好的入门教程。
— 关注【学姐带你玩 AI】公众号,红包大奖等你来拿—
原文链接:https://www.bilibili.com/read/cv17023907