Skip to content

Review ASUS ESC4000A-E10, server 2U dengan AMD EPYC dan Nvidia Tesla untuk HPC

Pengujian Performa

Contents

Pengujian performa dilakukan dengan berbagai software sintetis maupun software saintifik. Berikut adalah konfigurasi hardware dan software yang digunakan.

Tipe Model/spesifikasi
CPU 1 * AMD EPYC 7502P 32c/64t 180W
GPU 1 * Nvidia Tesla T4
RAM 128 GB DDR4-3200 ECC 8-channel
Storage 120 GB Intel SSD DC S3500 Series
OS CentOS 7.8
Kernel 5.9.1-1.el7.elrepo.x86_64

Berikut adalah software yang digunakan dalam pengujian. Seluruh software di-build dari source dengan berbagai optimasi compiler dan library untuk memaksimalkan performa dari software tersebut.

Software Versi Compiler/Library Optimasi
High-Performance LINPACK 2.3 Compiler:
GNU 9.3.0

MPI:
OpenMPI 4.0.4

BLAS:
Intel MKL 2020.0

Compiler:
-march=znver2

BLAS:
MKL_DEBUG_CPU_TYPE=5

High-Performance Conjugate Gradient 3.1 Compiler:
GNU 9.3.0

MPI:
OpenMPI 4.0.4

(Khusus HPCG GPU, menggunakan binary dengan dukungan CUDA 11 dari web HPCG)

Compiler:
-march=znver2
GROMACS 2020.3 Compiler:
GNU 9.3.0

MPI:
OpenMPI 4.0.4

BLAS:
BLIS AMD AOCL 2.2 (di-compile sendiri menggunakan GNU 10)

LAPACK:
LibFLAME AMD AOCL 2.2 (di-compile sendiri menggunakan GNU 10)

CUDA:
11.0

Compiler:
-march=znver2

CUDA:
-arch=sm_75

NAMD 2.14 Compiler:
GNU 9.3.0

FFTW:
Intel MKL 2020.0

CUDA:
11.0

Compiler:
-march=znver2

BLAS:
MKL_DEBUG_CPU_TYPE=5

CUDA:
-arch=sm_75

High-Performance LINPACK (HPL)

HPL adalah software yang menyelesaikan sistem linier padat acak dalam aritmatik double precision (64-bit) pada komputer dengan memori terdistribusi. HPL merupakan standar benchmark high-performance computing (HPC) dan superkomputer di dunia. Benchmark HPL juga digunakan sebagai tolok ukur performa 500 superkomputer tercepat di dunia yang dirangkum pada laman Top500.

Hasil pengujian HPL

Hasil pengujian HPL

Hasil pengujian HPL menghasilkan skor 1319.3 GFLOPS. Hasil yang dicatatkan oleh EPYC 7502P ini termasuk kencang apabila dibandingkan dengan berbagai CPU kelas workstation maupun enterprise. Sebagai perbandingan, berikut adalah hasil benchmark HPL oleh Dr. Donald Kinghorn dari Puget Systems terhadap berbagai CPU.

Hasil benchmark HPL dari Puget Systems

Hasil benchmark HPL pada berbagai CPU dari Puget Systems

High-Performance Conjugate Gradient (HPCG)

HPCG adalah software benchmark yang melakukan iterasi gradien konjugasi prakondisi multigrid menggunakan nilai floating-point double precision (64-bit). HPCG umum digunakan sebagai suplemen benchmark HPL dan menjadi ukuran efisiensi performa superkomputer dengan perhitungan (hasil HPCG dalam FLOPS/hasil HPL dalam FLOPS).

Pada pengujian HPCG, digunakan konfigurasi problem size 104 104 104 agar HPCG juga bekerja menguji memori dan tidak hanya berjalan di cache prosesor.

Konfigurasi hpcg.dat

Konfigurasi hpcg.dat

HPCG CPU

Hasil benchmark HPCG CPU

Hasil pengujian HPCG CPU

Pengujian HPCG CPU menghasilkan skor dari AMD EPYC 7502P sebesar 14.6655 GFLOPS. Sebagai pembanding, berikut adalah data hasil benchmark HPCG CPU dari Puget Systems.

Hasil benchmark HPCG pada berbagai CPU dari Puget Systems

Hasil benchmark HPCG pada berbagai CPU dari Puget Systems

Skor EPYC 7502P relatif lebih cepat dibanding Threadripper berkat keunggulan 8-channel memori dibanding Threadripper yang hanya 4-channel.

HPCG GPU

 

Hasil pengujian HPCG GPU

Hasil pengujian HPCG GPU

Pengujian HPCG GPU menghasilkan skor dari Nvidia Tesla T4 sebesar 43.4717 GFLOPS. Sebagai pembanding berikut adalah data hasil benchmark HPCG GPU dari Puget Systems.

Hasil benchmark HPCG pada berbagai GPU dari Puget Systems

Hasil benchmark HPCG pada berbagai GPU dari Puget Systems

Skor Nvidia Tesla T4 memang jauh lebih rendah apabila dibandingkan dengan GPU kelas konsumer high-end, namun perlu diingat pula Nvidia Tesla T4 memiliki ukuran yang lebih ringkas (hanya 1 slot PCIe) serta konsumsi daya maksimum yang lebih rendah. Hal ini akan sangat membantu apabila pengguna ingin memasang konfigurasi banyak GPU pada server ASUS ESC4000A-E10 ini.

GROMACS

GROMACS adalah software saintifik untuk melakukan perhitungan dinamika molekuler seperti mensimulasikan persamaan gerak Newton pada sistem dengan jutaan partikel. Ia didesain untuk molekul biokimia seperti protein, lipid, dan asam nukleat yang memiliki banyak interaksi ikatan kompleks.

Pengujian dilakukan menggunakan file input RNAse dodecahedron PME.

GROMACS CPU

GROMACS RNAse dodecahedron PME hanya menggunakan CPU

GROMACS RNAse dodecahedron PME hanya menggunakan CPU

Pada pengujian GROMACS RNAse menggunakan EPYC 7502P, didapatkan hasil hingga 130.709 ns/day. Task hanya menggunakan hingga 32 core untuk mempopulasi jumlah core fisik. Penggunaan hanya core fisik tanpa SMT menghasilkan performa yang lebih cepat dibandingkan dengan mempopulasi seluruh thread.

GROMACS CPU + GPU

GROMACS RNAse menggunakan CPU + GPU

GROMACS RNAse dodecahedron PME menggunakan CPU + GPU

Penggunaan GPU Nvidia Tesla T4 pada pengujian GROMACS RNAse dodecahedron PME menghasilkan akselerasi negatif. Hal ini dikarenakan jumlah GPU yang digunakan terlalu sedikit sehingga off-load tugas dari CPU ke GPU justru lebih tidak efisien. Terlihat bahwa wall time boros di Wait PME GPU gather dan Wait GPU NB local. Hasil pengujian mencatatkan hanya 86.739 ns/day, lebih kecil dibanding hanya menggunakan CPU.

NAMD

NAMD merupakan software saintifik dinamika molekuler paralel yang didesain untuk melakukan simulasi dari sistem biomolekuler besar. Software ini mampu scaling hingga ratusan core untuk simulasi biasa dan lebih dari 500.000 core untuk simulasi besar.

Pengujian dilakukan menggunakan file input ApoA1. Hasil ditunjukkan dalam bentuk skalabilitas terhadap jumlah core.

NAMD CPU

NAMD ApoA1 hanya CPU

NAMD ApoA1 hanya menggunakan CPU

Komputasi NAMD menggunakan AMD EPYC 7502P tanpa dibantu Nvidia Tesla T4 menghasilkan performa yang scaling hingga jumlah task NAMD sama dengan jumlah core fisik (32 core). Pada penggunaan 32 core, 7502P menghasilkan 9.69558 ns/day sedangkan penggunaan maksimum 64 task menghasilkan 10.2963 ns/day.

NAMD CPU + GPU

Hasil NAMD ApoA1 menggunakan CPU + GPU

Hasil NAMD ApoA1 menggunakan CPU + GPU

Komputasi NAMD menggunakan EPYC 7502P dengan dibantu Nvidia Tesla T4 menghasilkan performa komputasi yang jauh lebih baik, hingga lebih dari 32 ns/day.