深度学习工作站攒机指南

引言

接触深度学习已经快两年了,之前一直使用Google ColabKaggle Kernel提供的免费GPU(Tesla K80)训练模型(最近Google将Colab的GPU升级为Tesla T4,计算速度又提升了一个档次),不过由于内地网络的原因,Google和Kaggle连接十分不稳定,经常断线重连,一直是很令人头痛的问题,而且二者均有很多限制,例如Google Colab一个脚本运行的最长时间为12h,Kaggle的为6h,数据集上传也存在问题,需要使用一些Trick才能达成目的,模型的保存、下载等都会耗费很多精力,总之体验不是很好,不过免费的羊毛让大家撸,肯定会有一些限制,也是可以理解的。

对于租用云服务器,之前也尝试过,租用了一家小平台的GPU服务器,也存在一些操作上的困难,不适合程序调试,而且价格也不便宜。

很早之前就想要搭建一个自己的深度学习工作站,不过机器成本的昂贵,一直阻碍着我攒机计划的进行。工欲善其事,必先利其器!最近终于下定决心,置办一个深度学习工作站主机。本文将我在这段时间选择、购置硬件的心得体会,分享给大家。

配置清单

配件品牌型号数量价格渠道
CPUIntel 酷睿i7 6950X 至尊版13300散片
主板华硕 RAMPAGE V EXTREME X99 主板11085二手
内存海盗船 复仇者LPX 16GB DDR4 240041920全新
HDD西部数据 WD40EZRZ 蓝盘 4TB1550OEM
SSD西数 WDS100T2X0C 黑盘 1TB11220全新
显卡影驰 GeForce RTX 2070 大将13400全新
机箱爱国者(aigo)月光宝盒 破晓1264全新
电源鑫谷 GP1350G 1250W1680全新
散热器爱国者(aigo)冰塔T240 极光版1299全新
风扇金河田 光影炫光 12CM660全新
12778总计

以上就是我主机的配置清单,目前只买了一张2070,后期会升级加入多卡,下面将详细分析一下各个配件的选购过程。

配件选购指南

主板

有很多朋友在进行选购主机的时候认为应该先选CPU再选主板,个人认为配件选购的顺序和主机的用途是有关系的,对于搭建深度学习工作站而言,在正式进行硬件选购前,最重要的是需要确认一个问题,到底需要单卡(GPU)主机还是多卡主机,如果只需要搭建单显卡的主机,那么在选购主板的过程中,不需要花费太多精力,大量主板可以满足要求,如果想要搭建双卡、三卡或是四卡主机,则需要在主板上下点功夫,为了日后升级方便,我的目标是使用可支持四显卡的主机,所以在主板选择方面,会很注重PCIE扩展接口数量。

在初期选择主板时,网上各式各样型号的主板会使小萌新(我)很是懵逼,在网上查找了些资料,了解了些主板的知识。为了保证CPU和主板搭配合理,装到一起能正常工作,首先我们需要了解各主板芯片组和CPU接口的具体含义。例如,下图为京东的主板截图。

京东主板商品截图

我们可以看到大多数商品名称后面都会有一个类似(AMD A320/Socket AM4)或(Intel H310/LGA 1151)的注释,其实这些就是影响你CPU和主板能否匹配的最重要参数了,在商品详情页,我们也可以找到这个参数,前面的“Intel H310”或“AMD A320”指的就是主板的芯片组,而后面的“LGA 1151”或“Socket AM4”指的就是主板上CPU插槽的类型了。

芯片组

芯片组示主板的核心芯片,选对芯片组,主板和CPU才能兼容。目前主流的主板分为Intel和AMD两个系列,分别对应不同品牌的处理器。而每个系列又按照芯片组类型的不同,分为很多子系列。以Intel系列主板为例,在市面上可以看到华硕、技嘉、七彩虹等近十个品牌的产品,不同品牌的主板在外观和技术上会有一些差别,但他们使用的芯片组都是由Intel提供的。

不过,虽然同属于Intel系列主板,但根据处理器的不同,需要搭配对应芯片组的主板才能成功组建出一台可以使用的主机。比如目前Intel最新的九代酷睿 i9-9900k 处理器需要搭配Z390、Z370或H370芯片组的主板来使用。而AMD的Ryzen 3/5/7系列CPU和APU产品则可以搭配X370、B350或A320芯片组的主板。

那么不同芯片组的主板又有什么区别呢?有的时候,多个芯片组的主板虽然可以支持同一款处理器,但在主板的规格上还是有一定区别的。这些区别包括但不限于原生USB及磁盘接口数量、是否支持CPU超频、是否支持多显卡互联等。这对于不太了解主板的用户来说确实很难选择,简单总结一下:

B系列(如B360、B250)属于入门级产品,不具备超频和多卡互联的功能,同时接口及插槽数量也相对要少一些。
H系列(如H310)比B系列略微高端一些,可以支持多卡互联,接口及插槽数量有所增长。
Z系列(如Z390、Z370)除了具备H系列的特点支持,还能够对CPU进行超频,并且接口和插槽数量也非常丰富。
X系列(如X99、X299)可支持Intel至尊系列高端处理器,同时具备Z系列的各项特点。

同时,Intel的100系列和200系列主板可以搭配6代及7代酷睿处理器,300系列主板需要搭配8代酷睿处理器,X299系列主板需要搭配7代至尊系列酷睿处理器。

对于单路CPU的主板,能够同时支持四张显卡卡的神板,毫无疑问就只有X99/X299系列的主板了,当然你也可以考虑intel 服务器C系列多路CPU主板,可以支持两个CPU在一张主板上。我的目标是使用单路CPU,所以也就没有关注C系列主板。

对于X299和X99之间的选择,有的朋友会主张买新不买旧,我个人的建议还是性价比高才是好的,较新的X299板子相比X99主板要贵大几百甚至1k左右,功能上的提升并不是很大,对于我们大多数Deep Learning开发者而言,X99的板子足够了,毕竟要把钱花在刀刃上,GPU才是大手笔。X99板子主要推荐以下三款:

Asus/华硕 X99-E WS/USB 3.1
Asus/华硕 X99-E WS/USB 3.1

Asus/华硕 RAMPAGE V EXTREME/U3.1
Asus/华硕 RAMPAGE V EXTREME/U3.1

MSI/微星 X99S GAMING 7
MSI/微星 X99S GAMING 7

对比

型号名称MSI/微星 X99S GAMING 7华硕RAMPAGE V EXTREME/U3.1华硕X99-E WS/USB 3.1
主芯片组Intel X99Intel X99Intel X99
CPU插槽LGA 2011-v3LGA 2011-v3LGA 2011-v3
内存规格8×DDR4 DIMM 四通道8×DDR4 DIMM 四通道8×DDR4 DIMM 四通道
最大内存容量128GB128GB128GB
PCI-E标准PCI-E 3.0PCI-E 3.0PCI-E 3.0
PCI-E插槽4×PCI-E X16 插槽5×PCI-E X16 插槽
1×PCI-E X1 插槽
7×PCI-E X16 插槽
存储接口10×SATA III
1×SATA Express
1×M.2(10Gb/s)
1×M.2
2×SATA Express
8×SATA III
1×M.2
2×SATA Express
8×SATA III
2×eSATA
USB接口6×USB2.0(2背板+4内置)
12×USB3.0(4背板+8内置)
14×USB3.0(4内置+10背板)
6×USB2.0(4内置+2背板)
14×USB3.0(4内置+10背板)
4×USB2.0(4内置)
主板板型ATX板型E-ATX板型E-ATX板型
外形尺寸30.5×24.4cm30.5×27.2cm30.5×26.7cm
多显卡技术NVIDIA 3-Way SLI
NVIDIA 3-Way SLI
NVIDIA 4-Way SLI
AMD 4-Way CrossFireX
NVIDIA 4-Way SLI
AMD 4-Way CrossFire

可以看到这三款主板,均为X99芯片组,CPU插槽均为 LGA 2011-v3 ,而且有8个内存插槽,支持四通道,最高128G的内存容量,内存容量这部分个人很喜欢,对于大型数据集数据预处理的过程,对内存容量和CPU要求都很高,而且足够的内存容量使你不用再为多开窗口卡顿现象而担忧。三者都支持多显卡扩展,华硕R5E和华硕X99 E-WS均支持4显卡交火,微星X99S Gaming 7支持3显卡交火,不过显卡交火,对于深度学习计算没有任何的帮助,对游戏确是有一些提升,我们日常所说的多显卡训练模型,也不是用到交火技术,而是Data Parallel或Model Parallel,所以交火与否我们不需要关注,需要关注的时PCIE ×16扩展插槽的有效个数(有的间距太近,无法全插)。

起初最想购买的是“华硕 X99-E WS”,经典的工作站主板,很多深度学习开发者的首选,支持四路显卡交火,更为优秀的是竟然有7个×16全速PCIE 3.0扩展插槽,但是对于这类主板虽然有如此强大的扩展功能,但在真正插显卡的时候,由于PCIE接口之间的空间限制,你是无法插满插槽的,而且现在显卡都很厚,很可能会造成接口的浪费。这个板子已经停产,不过在天猫的华硕旗舰店仍然有存货,售价“3899元”,还是很贵的。其中有很多功能,对于我们日常使用、训练模型来讲并不是很用得上,会造成没必要的开销。最后我选择了在淘宝购买二手的“华硕 RAMPAGE V EXTREME”,毕竟便宜。如果经费充足的朋友,我仍然建议购买“华硕 X99 E-WS”这个主板。

CPU

对于CPU的选取是基于确定主板CPU插槽类型为前提的,例如我们上文中我们选择的X99系列三款主板,CPU插槽类型均为“LGA 2011-v3”,我们就要选与此匹配的CPU,各插槽类型的CPU具体有哪些型号,可以去中关村在线查询,里面还有一些性能测评的文章和排行榜信息,值得推荐。

为了能够为CPU做出明智的选择,我们首先需要了解CPU以及它与深度学习的关系。CPU为深度学习做了什么?当你在GPU上运行深度网络时,CPU几乎不会进行任何计算。它主要的作用是:(1)启动GPU函数调用,(2)执行CPU函数。

CPU对于数据预处理的过程却起重要作用。有两种常见的数据处理策略,它们具有不同的CPU需求。

1
2
3
4
5
6
7
8
9
10
11
# 一、在训练时进行数据预处理
for train_step in range(tot_train_step):
load_mini_batch()
preprocess_mini_batch()
train_on_mini_batch()

# 二、在训练前进行数据预处理
preprocess_data()
for train_step in range(tot_train_step):
load_preprocessed_mini_batch()
train_on_mini_batch()

对于第一个策略,为避免CPU的性能成为训练模型的速度的瓶颈,具有高主频多内核的CPU可以显著提高性能,加快训练速度。对于第二种策略,由于是预先进行数据预处理,在训练时的速度取决于GPU性能,与CPU无关,理论上CPU的性能不会成为瓶颈。但是我个人的观点还是,在经费允许的情况下,尽管CPU的性能越强大越好,但是也不一定非要追求最新款、最强大的CPU,性价比和个人需求才是最关键的。

当然,此处附加一点说明,如果攒机后不仅需要训练模型,而且偶尔也会玩一些游戏消遣的话,尽量选择高主频的主机,志强系列多核心低主频CPU不适合游戏玩家。

PCIe 通道

CPU的PCIe通道对模型训练的影响网上也纵说纷云,首先让我们先了解一下什么是CPU的PCIe通道

PCI-Express(peripheral component interconnect express)是一种高速串行计算机扩展总线标准,它原来的名称为“3GIO”,是由英特尔在2001年提出的,旨在替代旧的PCI,PCI-X和AGP总线标准。PCIe属于高速串行点对点双通道高带宽传输,所连接的设备分配独享通道带宽,不共享总线带宽,主要支持主动电源管理,错误报告,端对端的可靠性传输,热插拔以及服务质量(QOS)等功能。

简而言之,PCIe通道就是主机中各组件进行数据交互的信道,PCIe通道分两种:

  1. CPU直连通道,主流消费级只给你16条(8700K),高端&服务器上才会多给(7980XE)。
  2. DMI3总线PCH芯片分发出来的,是主板的属性。例如Z370主板声称有24条PCIE通道,其实这24条就是PCH通道,要共享DMI3等效直连PCIe ×4的带宽。

就PCH而言,在很多高性能扩展面前没有智联通道强大,所以对于CPU的直连通道数就显得至关重要了。

Tim Dettmers大神在他的博文《A Full Hardware Guide to Deep Learning》中也做出了对PCIe通路的见解,Tim认为在单机少量(小于4)GPU的主机中,PCIe通路对模型训练的影响并不是很大,但对于大于4个GPU或GPU集群PCIe通路的影响就会很显著。在文章中,Tim对比了不同通道数量在模型训练过程中的速度传输速度对比。

CPU and PCI-Express

People go crazy about PCIe lanes! However, the thing is that it has almost no effect on deep learning performance. If you have a single GPU, PCIe lanes are only needed to transfer data from your CPU RAM to your GPU RAM quickly. However, an ImageNet batch of 32 images (32x225x225x3) and 32-bit needs 1.1 milliseconds with 16 lanes, 2.3 milliseconds with 8 lanes, and 4.5 milliseconds with 4 lanes. These are theoretic numbers, and in practice you often see PCIe be twice as slow — but this is still lightning fast! PCIe lanes often have a latency in the nanosecond range and thus latency can be ignored.

Putting this together we have for an ImageNet mini-batch of 32 images and a ResNet-152 the following timing:

  • Forward and backward pass: 216 milliseconds (ms)
  • 16 PCIe lanes CPU->GPU transfer: About 2 ms (1.1 ms theoretical)
  • 8 PCIe lanes CPU->GPU transfer: About 5 ms (2.3 ms)
  • 4 PCIe lanes CPU->GPU transfer: About 9 ms (4.5 ms)

Thus going from 4 to 16 PCIe lanes will give you a performance increase of roughly 3.2%. However, if you use PyTorch’s data loader with pinned memory you gain exactly 0% performance. So do not waste your money on PCIe lanes if you are using a single GPU!

When you select CPU PCIe lanes and motherboard PCIe lanes make sure that you select a combination which supports the desired number of GPUs. If you buy a motherboard that supports 2 GPUs, and you want to have 2 GPUs eventually, make sure that you buy a CPU that supports 2 GPUs, but do not necessarily look at PCIe lanes.

PCIe Lanes and Multi-GPU Parallelism

Are PCIe lanes important if you train networks on multiple GPUs with data parallelism? I have published a paper on this at ICLR2016, and I can tell you if you have 96 GPUs then PCIe lanes are really important. However, if you have 4 or fewer GPUs this does not matter much. If you parallelize across 2-3 GPUs, I would not care at all about PCIe lanes. With 4 GPUs, I would make sure that I can get a support of 8 PCIe lanes per GPU (32 PCIe lanes in total). Since almost nobody runs a system with more than 4 GPUs as a rule of thumb: Do not spend extra money to get more PCIe lanes per GPU — it does not matter!

不过依我个人的看法,还是要选支持PCIe通道数大一点的CPU,毕竟M.2 NVME SSD就会占据四条通道,如果我们CPU只支持16通道,并且有两个GPU的话,每个GPU只能分到×4的速度,这个总感觉不太好。显卡已经花了那么多钱,我们当然希望它能全速跑,不要由于CPU PCIe通路的短板影响整体的性能,得不偿失。所以我更倾向于选择40条通路的CPU。目前主流CPU大多支持16通道、24通道,对于至尊系列CPU会有支持40通道的,对于大部分志强系列服务器CPU大多数支持44通道。

对比

对于志强系列,网上所有渠道都基本是拆机CPU,很多是外国服务器淘汰下的CPU,质量方面,由于没有使用过,不妄加评论。志强系列U特点是核心多,单核主频低,如果对于高并发有需求的朋友,可以优先选择志强系列U,搭配双路服务器主板。但对于我个人来讲,对单核主频要求高一些,所以我更倾向于桌面级CPU。

在我选择CPU的过程中,CPU天梯图对我很有帮助,很直观的展现了Intel/AMD所有CPU的性能排行,也推荐给大家。

CPU天梯图

经过反复的对比,最终锁定了两款CPU“i7-6850K”和“i7-6950X”,首先首先我先解释一下为什么没有选择最新的九代酷睿系列,目前九代酷睿发布没多久,例如“I9-9900K”也是炒的很火热, 虽然最新系列的CPU单核主频都有所提高,但是核心数并没有太大改善,致使CPU整体性能(多核性能)并不是越新越好,从上方的天梯图我们也可以看出,“I7-6950X”排在”I9-9900K”前面,第二个原因就是,CPU是一个没什么损耗的器件,如果没有变态超频使用的话,全新和二手的U新能没什么区别,对于这些已经停产的CPU,网上流通的都是拆机的二手版本,只要选择正式版(不要QS/ES版本),其实都可以的,而且价格便宜,性价比极高,例如我们Intel官网可以看到“i7-6950X”的官方报价为¥11053.74,上万元!

6950X官网

而在淘宝等渠道购买的正式版I7-6950X散片,只有3400元,价格差距如此之大。对于这种旧款CPU的散片(正式版)性价比还是蛮高的,所以推荐大家购买散片CPU(当然也会有很多朋友担心散片CPU的质量问题,这个确实不能保证每个渠道的U都是好的,看人品吧~)。下面对比一下“i7-6850K”、“I7-6950X”、“i75960X”以及“I7-6900K”这几款CPU。

基本要素酷睿™ i7-6950X酷睿™ i7-6850K酷睿™ i7-5960X酷睿™ i7-6900K
发行日期Q2’16Q2’16Q3’14Q2’16
光刻14 nm14 nm22 nm14 nm
内核10688
线程20121616
基本频率3.00 GHz3.60 GHz3.00 GHz3.20 GHz
睿频频率3.50 GHz3.80 GHz3.50 GHz3.70 GHz
缓存25 MB15 MB20 MB20 MB
TDP140 W140 W140 W140 W
最大内存128 GB128 GB64 GB128 GB
内存类型DDR4 2400/2133DDR4 2400/2133DDR4 1600/1866/2133DDR4 2400/2133
内存通道4444
PCIe通道40404040

可以看到,四者均支持40条直通PCIe通道,当主板支持四路交火时,以“华硕RAMPAGE V EXTREME”为例,四张显卡分别占用(×8,×8,×8,×8)的速度,不会对性能产生太大影响。“I7-5960X”仅支持最高64GB的内存容量,这个对于我们的板子就略显不足了,相比“I7-6850K”和“I7-6900K”,在单核主频方面6850k基本频率为3.60GHz高于6900K的3.20GHz,不过核心数却没有胜出,二者基本属于同一等级的CPU,整体性能6900K略高于6850K,不过从性价比方面来看(散片),6850K的性价比还是略高的,散片售价仅2500元左右。“I7-6950X”是这几款U中性能最强劲的,虽然单核主频只有3.00GHz但是10核心20线程使其整体性能遥遥领先,可以从上文中的CPU天梯图中看到,尽管这个U是16年推出的,不过在当日的排行版也能排列到十几名,表现还是很出色的,唯一的不足就是价格略显昂贵,散片价格为3400元,之前一直想买2500元的6850K,后来一咬牙买了6950X。

I7-6950X散片

总之,在选购CPU时,建议需要以下顺序:

  1. 筛选与主板插槽类型匹配的CPU。
  2. 查看CPU天梯图,了解CPU的整体性能排序。
  3. 在intel官网上将预选出的商品进行详细参数对比。
  4. 淘宝、京东对比散片价格,考虑入手性价比高的U。

个人建议:由于CPU这个东东如果正常使用基本没什么损耗,在选购散片时,会发现各个商家价格会有所差别,其实不一定要买最贵的,价格的不同可能是由于商家进货渠道引起的,只要认准“正式版”即可,避开“QS/ES”版本。

内存

内存是相对好选的组件,就没有必要多说了,以我个人来看,当然容量越大越好,毕竟现在内存价格低谷,抓紧买!

建议“海盗船复仇者”系列,我在选购内存的时候,基本把淘宝翻了个遍,看了很多厂家,价格都很贵,而且有很多都是小厂。对于海盗船复仇者系列内存,很多DIY玩家的首选,也不是没有原因的,现在一条16G的台式内存,只卖不到500元,很是便宜!而且口碑一直不错。

海盗船 复仇者系列

频率

目前市场上的内存大多在频率上做了很多营销手段,我们可以看到(2133 MHz、2400MHz、3000MHz、3200MHz以至于更高)的内存频率,同容量不同频率的内存条价格也相差很多,贵几百元的都有。但是我们是否有必要追求高频率的内存呢?

经过阅读网上一些大牛的文章,大多数人的观点都是,RAM频率对性能方面没有明显的提升,尤其是在做深度学习方面。其实频率只是各个厂商的一种营销手段,RAM公司会引诱大家购买“更快”的内存,其性价比并不高。有追求频率的钱,还不如多加一条内存。此处可参阅“Does RAM speed REALLY matter?

所以我入手了“海盗船 复仇者”系列单条16GB最便宜的内存2400 MHz,一共上了4条,总共64GB。主板有8个内存插槽,先插四条构成四通道,剩余的留作扩展,不过此处一定注意, 在安装内存条的时候需要阅读主板说明书,基本每个主板都会给出推荐的插法,看好个插槽所在的通道,一定不要插错了。

SSD

在初期选购固态硬盘的朋友可能会经常看到SATA3固态硬盘与M.2固态硬盘,可能有朋友会有疑问:M.2是什么意思?和SATA3固态硬盘有什么区别?下面我们就简单科普M.2接口。

M.2 SSD

M.2接口

M.2是一种固态硬盘新接口,是Intel推出的一种替代MSATA新的接口规范,也就是我们以前经常提到的NGFF,英文全称为:Next Generation Form Factor。

M.2接口固态硬盘主要优势在于体积相比传统的SATA3.0、MSATA更小,并且读取速度更快,对于一些移动设备兼容性更好。

  • M.2和SATA3固态硬盘的区别

目前固态硬盘(SSD)常用的接口主要有3种:

  1. SATA3 - 外形尺寸是2.5寸硬盘的标准尺寸,与2.5寸机械硬盘可以互换。
  2. mSATA - 接口尺寸与笔记本内置无线网卡相同,不过mSATA SSD的外形尺寸比无线网卡更大。
  3. M.2 - 初期称为NGFF接口,是近两年新出的接口,为专门为超小尺寸而设计的,使用PCI-E通道,体积更小,速度更快。

值得一提的是M.2接口固态硬盘又分为:SATA和PCI-E两种,虽说长得一模一样,但性能却是差之千里。此外,有些主板的M.2接口不一定对其支持,所以在买M.2固态硬盘的时候,还需要了解下接口兼容性,在购买主板和SSD时关注一下接口信息即可。

M.2有两种接口定义:Socket 2和Socket 3。Socket 2支持SATA或PCIe ×2通道的SSD,Socket 3专为高性能存储设计,支持PCIe ×4通道。在购买SSD时一定要确认是否走PCIe ×4通道,这样才性能最佳。

容量

在容量方面,大多数用户512G就够用了,毕竟SSD不是作为数据存储盘使用,而是作为系统盘安装程序使用,但由于目前SSD价格下滑,决定还是入手一个1T的,这样更充足。

经过仔细挑选,最终筛选出两款SSD,“Samsung/三星 MZ-V7S1T0BW 970 EVO Plus 1TB”和“WD/西部数据 WDS100T2X0C 1TB”,比较推荐三星这款,三星的固态一直是业界最好的,速度最快的,不过西数的SSD也在第一梯队,二者价格相差300元左右,“三星970 EVO Plus”速度略高于“西数WDS100T2X0C”,官方宣传三星这款读取速度3500Mb/s、写入速度3300Mb/s,西数这款读取速度3400Mb/s、写入速度2800Mb/s,如果经费允许的朋友推荐三星这款,不过我选择了较为便宜的西数SSD。其他品牌的没用过,不能妄加评论,但是三星和西数的固态硬盘一定是第一梯队了。

机械硬盘

机械硬盘容量视个人情况而定,对于计算机视觉工程师,如果需要存放大体积数据集,就买大一点的,毕竟HDD不贵(但一定记住避开希捷、避开希捷、避开希捷!之前笔记本加装过希捷硬盘,太渣了)。我最后入手了“西部数据 WD40EZRZ 4TB 蓝盘”,买的OEM版本,比官方价格低100多,用着还不错。

显卡

显卡的选择,Tim Dettmers的《Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning》一文已经分析的非常透彻,我也是参考了他的文章购置了RTX 2070显卡,各位朋友可以深入阅读该文章,此处只做简要阐述。

性能对比

GPU和TPU的标准化性能数据。越高越好。RTX卡使用16位计算。使用PyTorch 1.0.1和CUDA 10完成基准测试。

性价比分析

卷积网络(CNN),循环网络(RNN)和Transformer的性能/价格。越高越好。RTX 2060的成本效率是Tesla V100的5倍以上。使用PyTorch 1.0.1和CUDA 10完成基准测试。

注:以上图转载自《Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning

经过Tim的分析,更倾向于购买RTX 20系列显卡,因为其独有的“Tensor core”可以支持加速FP16的运算,减少显存的支出,也能减少计算复杂度,

整体建议(转载)

最佳GPU:RTX 2070
避开GPU:任何Tesla; 任何Quadro卡; Titan RTX,Titan V,Titan XP
实惠但价格昂贵:RTX 2070经济
实惠且价格便宜:RTX 2060,GTX 1060(6GB)。
我有点钱:GTX 1060(6GB)
我几乎没有钱:GTX 1050 Ti(4GB)。或者:CPU(原型设计)+ AWS / TPU(训练); 或者Colab。
我做Kaggle:RTX 2070
计算机视觉或机器翻译研究员:GTX 2080 Ti,如果您训练非常大的网络获得RTX Titans。
NLP研究员:RTX 2080 Ti使用16位。
我开始深入学习并且我认真对待它:从RTX 2070开始。在6-9个月之后购买更多RTX 2070并且您仍然希望投入更多时间进行深度学习。根据您接下来选择的区域(启动,Kaggle,研究,应用深度学习),销售GPU并在大约两年后购买更合适的东西。
我想尝试深度学习,但我并不认真:GTX 1050 Ti(4或2GB)。这通常适合您的标准桌面,不需要新的PSU。如果它适合,不要购买新电脑!

选购

看了Tim给出的建议,我最终选择了RTX 2070显卡,虽然只有8G显存,不过使用16位运算,主流网络也都能跑起来。对于品牌的选购我只建议不要买灯效、不要买超频,你要相信一点,同一个型号的显卡(例如RTX 2070),任何厂家任何款式的商品在性能上均没有什么性能差距,价格差距主要体现在所谓的超频、灯光效果上,我个人的建议是完全没有必要把钱花费在这上面,关注一下散热,一线厂商的用料都不会太差。

我选购了“影驰 RTX2070 大将”,3400元。对于经费充裕的朋友,RTX 2080 Ti也是一个非常好的选择,我之后扩展可能会入手2080 Ti

影驰 RTX2070 大将

电源

通常,我们需要一个足以容纳所有未来GPU的电源。电源的稳定性也对组件的寿命有很大影响,因此购买一个优质的电源是很有意义的。

因为一个主机最终要的功耗组件是GPU和CPU,我们可以通过将CPU和GPU的功耗累加,并且附加其他组件大约额外10%W来计算所需的功率。网上也有很多计算功率的网站,但大多组件不是很全面,没有什么参考价值, 我的建议就是尽量上大功率电源,留作之后升级显卡使用。还要注意,模组电源支持的PCIE口数量,例如上面我所购买的RTX2070影驰大将,电源接口为8+6pin的,占用默许电源两个8pin的PCIe供电口,如果电源给的供电口只有6个8pin供电口,那么我们只能给3张显卡供电。这个问题需要注意一下。

电源

对于电源,我有两款产品推荐:“鑫谷GP1350G 额定1250W 全模组”和“长城巨龙服务器电源 1250W 全模组”,二者价格差不多,我买的鑫谷这款。

散热器

CPU散热部分,之前一直想上一个风冷节省支出,但是由于I7-6950X已经140W了,风冷根本压不住,所以上了240双冷排的水冷,在选购散热器时注意与商家咨询该散热器是否能压住该功率CPU。我入手的“爱国者(aigo)冰塔T240 极光版”,散热效果很好。

机箱

机箱看个人喜好吧,尽量大一点,散热能好些。我入手的“爱国者(aigo)月光宝盒 破晓”。

风扇

风扇这个东西还挺贵的,普通的大约20多一个,真是不明白贵在哪里,购买风扇踩了个坑,以为各种风扇都一样,买便宜的就好,入手了京东最便宜的风扇10元一个,看标注风力之类的都比爱国者极光好,但是实测风力没有爱国者极光风扇强大,不过极光风扇噪音有点大。

机箱风扇

组装

装机部分随便上张图意思一下吧~总之是忙了一整天才弄好。

装机

性能测试

-------------本文结束感谢您的阅读-------------

作者:郭耀华
出处:http://www.guoyaohua.com
邮箱:guo.yaohua@foxmail.com
本文版权归作者所有,欢迎转载,转载请标明出处。
【如果你觉得本文还不错,对你的学习带来了些许帮助,赞赏是对作者最好的鼓励】
谢谢你的鼓励,希望本文能为你带来一些帮助!
0%