戴尔PowerEdge R760是一款2U机架式服务器,支持两个第4代英特尔®至强®可扩展处理器(每个处理器最高可配置56核)和多达24个NVMe驱动器,采用NVMe Gen5 EDSFF E3.S外型规格。在为特定的用例配置PowerEdge时,新的SSD外形规格在决策方面尤为重要。
PowerEdge R760
CPU、GPU性能评测
与大多数2U双CPU机架式服务器一样,PowerEdge R760具有几乎无限的选择。由于StorageReview在本次评测中重点关注CPU和轻度GPU性能,选择的配置并没有最大化发挥平台效能。实际上,PowerEdge R760可以配备双56核CPU和8TB RAM,仅CPU就有几十种选项,包括Xeon Silver, Gold, Platinum和Max系列等,建议用户配置服务器时与销售人员讨论具体需求。
此次评测的PowerEdge R760采用了如下配置:
●2个英特尔®至强® Gold 6430(每个32核/64线程,1.9GHz基础,3.4GHz睿频,60MB高速缓存,270WTDP)
●1TB DDR5内存
●Microsoft Windows Server 2019
●NVIDIA A2或T4 GPU(用于GPU特定测试)
为了展示PowerEdge R660和R760系列中可用配置的多功能性,StorageReview将R760和R660进行了比较,后者具有以下配置:
●2个英特尔® 至强® Platinum 8452Y处理器
●512GB DDR5
具体到性能测试方面,StorageReview使用了HWBOT x265、y-cruncher、Geekbench 6 、Blender等几款主流的基准测试软件。
01 、HWBOT x265基准测试
HWBOT x265基准测试托管在hwbot.org上,通过使用x265/HEVC编码器渲染1080P或4K分辨率渲染视频来衡量系统性能。它旨在利用现代CPU指令集,并针对多线程进行了优化,以进行竞争性基准测试。根据测试结果,这两款款服务器之间没有太多的算力差异。
02 、y-cruncher测试
y-cruncher是一款非常流行的测试软件,支持多线程和最新指令集,可以计算PI和数学常数到数万亿位小数。自2009年推出以来,y-cruncher已成为超频爱好者和硬件发烧友的热门基准测试和压力测试应用程序。
根据y-cruncher结果,PowerEdge R760的Xeon Gold芯片在性能上略有优势。
03 、Geekbench 6
Geekbench是一款流行的跨平台基准测试工具,其评分系统可以分为单核和多核性能,以及模拟真实使用场景的工作负载能力。StorageReview使用了CPU基准测试,如下是PowerEdge R760的测试结果:
04 、Blender基准测试
Blender基准测试通过在Blender软件中渲染3D场景来衡量CPU/GPU的3D渲染速度,可以比较不同系统和组件的性能,得出分数以每分钟采样为单位,分数越高越好。
之后,PowerEdge R760安装NVIDIA A2 GPU后也参与了跑分,如下为测试结果:
编者注:本次测试中,R660所使用的处理器在性能指标上要强于R760所使用的处理器。
05 、UL Procyon AI Inference
(CPU)
UL的Procyon AI推理基准套件使用最先进的神经网络测试各种AI推理引擎的性能,此次只针对PowerEdge R760的CPU运行了这些测试,下表显示了平均推理时间,最后一行是总成绩。
06 、V-Ray 基准测试
V-Ray是一款独立渲染速度测试软件,可以测试平台在执行渲染操作时的性能表现,本次两款服务器的CPU和GPU性能都进行了测试。
StorageReview 点评
戴尔PowerEdge R系列产品线用途广泛,配置涵盖混合工作负载、VDI、数据库和通用用途。额外的机架高度为PowerEdge R670提供了比R660更多的扩展和存储空间,这两台服务器在其他方面提供相同的 CPU和内存选项。
英特尔第四代至强芯片每个插槽提供多达56个内核,使PowerEdge R760能够支持112个内核和224个线程,以及8TB RAM。如果您担心密集型配置热量过多或已投资液冷系统,R760在某些配置中也支持直接液体冷却 (DLC)。
此外,R760还可以容纳双倍宽度的GPU,因此该服务器实际上可以针对几乎任何工作负载进行配置。在存储方面,我们喜欢这款服务器可以配置E3.S 背板以使用Gen5 SSD。我们仍然喜欢戴尔的易于维护性和直观的iDRAC远程管理,它甚至具有内置的服务请求跟踪功能。
存储性能评测
PowerEdge直驱VS PERC 12
戴尔在16G PowerEdge服务器中提供多种存储背板,配置R760时有近50个驱动器机箱可供选择。针对PowerEdge支持Gen4 NVMe SSD的存储选项,StorageReview又另外评测对比了戴尔直驱与PERC 12硬件RAID卡(PERC即Dell PowerEdge RAID控制器)选项下的性能表现。
注:此处仅重点考虑 Gen4 U.2/U.3 NVMe SSD,忽略 SATA/SAS 和 3.5 英寸 HDD 的机箱选项,原因是这些配置简单得多。
在R760中,安装Gen4 NVMe驱动器有如下选项:
●直驱选项可配置为支持8或16个驱动器;
●对于硬件RAID配置,戴尔以相同的方式提供PERC 12硬件RAID卡,每批8个SSD使用一张RAID卡——这对于配备16个NVMe SSD从而完全填充的R760获得最佳性能至关重要。
StorageReview的测试集中在两个方面,第一个是Vdbench工作负载,通过8个SSD连接到R760来测量JBOD性能;第二个是FIO测试,模拟不同IO场景下的IO负载,展示PERC 12 解决方案从单卡设置到优化双卡设置的扩展性能。
直驱PowerEdge R760
评测设备具有以下配置:
●双Intel Xeon Gold 6430(32核/64线程,1.9GHz基础)
●1TB DDR5内存
●8个Solidigm P5520 7.68TB Gen4 SSD
●RHEL 9
硬件RAID NVMe PowerEdge R760
评测单元配置如下:
●双Intel Xeon Gold 6430(32核/64线程,1.9GHz基础)
●1TB DDR5内存
●16个Solidigm P5520 7.68TB Gen4 SSD
●双PERC 12 H965i
●RHEL 9
Vdbench工作负载分析
当对存储阵列进行基准测试时,应用程序测试是最好的,而合成测试则排在第二位。合成测试虽然不能完全代表实际的工作负载,但确实可以帮助确定具有可重复性因素的基线存储设备,从而使同类产品之间的比较变得容易。
这些工作负载提供了一系列不同的测试配置文件,包括“四角”测试、常见的数据库传输大小测试以及来自不同VDI环境的跟踪捕获。
这些测试利用典型的Vdbench工作负载生成器和脚本引擎,在大型计算测试集群上自动采集结果,由此可在不同的存储设备(包括闪存阵列和单个存储设备)上重复相同的工作负载。
配置资料:
◆4K随机读写:100%读取或写入,128个线程,0-120% iorate
◆64K顺序读取:100%读取,32个线程,0-120%iorate
◆64K顺序写入:100%写入,16个线程,0-120% iorate
◆4K随机70R/30W混合和4K随机90R/10W混合,64线程,0-120% iorate
64K顺序读,这是第一个针对读取传输带宽的测试,可以看到,具有32个PCIe通道的直驱方法比具有16个通道的单个PERC 12具有PCIe通道优势。在JBOD模式下,直驱的计算结果为41.6GB/s,而PERC 12的计算结果为28GB/s。
64K顺序写,由于Solidigm P5520的写入速度低于读取速度,额外PCIe通道的优势会缩小。此时直驱配置测得的速度为18.3GB/s,而PERC 12的速度为20.3GB/s。
4K随机读,直驱PowerEdge R760中的8个Solidigm P5520 SSD IOPS峰值为555万,PERC 12设置中的IOPS峰值为434万。
4K 随机写,差距再次缩小,直驱IOPS为396万,而PERC 12的IOPS 为415万。
4K随机70R/30W混合,直驱IOPS峰值为447万,而PERC 12的IOPS峰值为366万。
4K随机90R/10W混合,直驱IOPS为504万,而PERC 12系统的IOPS为362万。
FIO工作负载分析
为测量戴尔直驱和PERC 12硬件RAID模式下的驱动器性能,基准测试分为以下配置:
◆顺序预处理
◆JBOD、8DR10、8DR5(单PERC和双PERC)上的顺序测试
◆随机预处理
◆4K随机70R/30W混合和4K随机90R/10W混合,64线程,0-120% iorate
◆JBOD、8DR10、8DR5(单PERC和双PERC)上的随机优化测试
◆8DR10、8DR5(单PERC和双PERC)上的随机重建测试
◆优化和重建模式下,8DR5(单个PERC)随机写入延迟
顺序传输性能,直驱具有带宽优势,其读取速度为54.4GB/s,而单个PERC 12的读取速度为28.1GB/s;本机写入速度也有优势,直驱写入速度为33.4GB/s,而后面有8个驱动器的单个PERC 12的写入速度为28.3GB/s。一般来说,写入速度不会有太大差异,因为通常情况下这类SSD的读取速度远远超过写入速度。
随机传输性能,RAID卡在NUMA平衡方面的优势发生了变化。读性能方面,直驱在4K读取测试中测得796万IOPS, PERC 12 JBOD 配置测得 700 万 IOPS;直驱的写速度下降到340万IOPS,而PERC 12则保持在597万 IOPS。
在4K OLTP工作负载下这一区别更加明显,直驱的IOPS为360万,而PERC 12的IOPS为1020万。虽然传统观点认为硬件RAID 对现代SSD没有价值,但情况已不再如此。诚然,直驱NVMe设置可以调优,但它是在两个CPU上平衡多个SSD的移动目标。
这与PERC 12硬件RAID卡形成鲜明对比——后者可以管理所有这些复杂性,并只连接到一个CPU;扩展方面,PowerEdge R760中的第2个PERC卡连接另一个CPU,为跨两个磁盘组的大型工作负载提供平衡。
需要注意的是,在1000万IOPS左右,系统CPU开始饱和,这就是为什么使用额外的PERC 12卡时,没有看到某些区域的线性扩展。
降级状态下,RAID 配置在PERC 12上的性能表现如下所示,虽然与最佳性能相比有显著下降,但RAID10和RAID5在重建RAID组时依然提供了强大的性能。
虽然最佳RAID性能是选择存储解决方案的一个重要方面,但了解其在次优条件下的性能也同样重要。为此,StorageReview测量了最佳条件下RAID 5的4K写入延迟,以及硬盘故障后的重建性能。
如果性能或延迟受到严重影响,应用程序的响应速度就会成为问题,虽然重建性能比最优性能相比有所下降,但性能的延迟不会超过基线。
StorageReview结论
戴尔新推出的PERC 12 NVMe RAID卡改变了PowerEdge服务器中NVMe存储选项的游戏规则。过去,一些客户犹豫不决,不愿意从SAS SSD 转向NVMe驱动器,或选择连接到各种SDS或管理程序的NVMe驱动器。然而,PERC 12卡的推出改变了PowerEdge的等式,使其成为更可行的选择。
PERC 12表现如此出色的原因还可归功于PowerEdge服务器的布局。R760有两个PERC 12(H965i前端)卡,每张卡都有x16通道,这就可以在每张卡上使用8个Solidigm SSD,为每张卡提供高达28GB/s的最大带宽,而将16个SSD全部连接到一张RAID卡将损失一半的潜在性能。这种方法避开了带宽限制,同时在要求苛刻的工作负载下显著提高了峰值可用吞吐量。
你可能会问:"为什么不使用硬件RAID连接24块固态硬盘呢?”请记住,每个系统在某个地方都有一个瓶颈,在这种情况下,CPU 很容易达到饱和,因此服务器中的x86就成了限制因素。
如果是集群解决方案,还需要考虑网络问题,仅少量SSD就能轻松占满200GbE甚至 400GbE。由于SSD的容量现在达到30.72TB,因此就不需要在服务器上装满硬盘来解决系统容量问题了。
StorageReview 对R760的存储评测结果感到满意,虽然戴尔直驱在许多使用案例(如软件定义存储)中可能仍然是首选,但PERC 12选项在大多数企业使用案例中应该会非常受欢迎。