pciex4

时间：2024-02-27 11:16:33编辑：小历

太长不看：哪个便宜买那个，个人推荐TR。

显卡速度不会有明显区别。CPU单核速度俩也没明显区别，AMD多核速度完爆。

还有跑个题，显卡一定要涡轮卡（京东自营似乎不好买，但是不好买也一定要涡轮的），不然等着白白降速20%吧。

用过志强、TR、Core-X、家用i9、R7 3700X跑机器学习。

简而言之，除了志强低频垃圾，别的跑着区别不大。多卡平台TR低廉的价格和不俗的性能让我印象深刻。

4卡主要看PCIE通道和内存大小。还有机器学习可能涉及数据预处理，单核性能也要高一些（传统指令高权重，AVX/SSE低权重），毕竟个人来说，很多时候能不写multiprocess版本就不写了。

PCIE通道对比

4卡，每卡PCI-E x16，总共需要64条通道。俩CPU背后带宽都不够。

WS-X299-SAGE可以跑在16x+16x+16x+16x，但是总带宽i9 9820X仅有44条PCIE通道。

Threadripper抛去芯片组用的4条还有60条，但是x399主板设计的都给了NVME过多的PCIE通道，导致插槽只能16x+8x+16x+8x（完整的48条）。因为给NVME的通道多，SSD会快一点（机器学习mmap流式加载数据时可能用到）。

结论：俩区别不大。

单核速度对比

单核Cinebench R15两者速度几乎一致。(9820X 177分，2950x 179分。

结论：俩区别不大。

多核速度对比

R15成绩：9820X 2170， 2950X 3120.

结论：TR完胜

软件支持对比

Python一般性能测试，在AMD上完胜。

AMD上用OpenBLAS，速度和MKL没区别。少用MKL，用也用打破解补丁的，不然负优化受不了。

AMD上，Numpy全家桶自己编译一下，挂上TARGET=ZEN的OpenBlas，能比pip版快30%-100%。

Intel上Numpy挂MKL和上者同理，提速神效。

AMD上，Matlab可以手动切换成OpenBLAS，速度和MKL没多大区别。

Tensorflow，Pytorch都是显卡负载，没区别。

操作系统用过ArchLinux、Ubuntu 16.04。俩CPU感受上没区别，TR上cat /proc/cpuinfo看着bug少舒服点（笑）。

结论：俩区别不大。

价格

这个还用说么？TR完胜。