Pengujian Performa
Contents
Pengujian performa dilakukan dengan berbagai software sintetis maupun software saintifik. Berikut adalah konfigurasi hardware dan software yang digunakan.
Tipe | Model/spesifikasi |
---|---|
CPU | 1 * AMD EPYC 7502P 32c/64t 180W |
GPU | 1 * Nvidia Tesla T4 |
RAM | 128 GB DDR4-3200 ECC 8-channel |
Storage | 120 GB Intel SSD DC S3500 Series |
OS | CentOS 7.8 |
Kernel | 5.9.1-1.el7.elrepo.x86_64 |
Berikut adalah software yang digunakan dalam pengujian. Seluruh software di-build dari source dengan berbagai optimasi compiler dan library untuk memaksimalkan performa dari software tersebut.
Software | Versi | Compiler/Library | Optimasi |
---|---|---|---|
High-Performance LINPACK | 2.3 | Compiler: GNU 9.3.0 MPI: BLAS: |
Compiler: -march=znver2 BLAS: |
High-Performance Conjugate Gradient | 3.1 | Compiler: GNU 9.3.0 MPI: (Khusus HPCG GPU, menggunakan binary dengan dukungan CUDA 11 dari web HPCG) |
Compiler: -march=znver2 |
GROMACS | 2020.3 | Compiler: GNU 9.3.0 MPI: BLAS: LAPACK: CUDA: |
Compiler: -march=znver2 CUDA: |
NAMD | 2.14 | Compiler: GNU 9.3.0 FFTW: CUDA: |
Compiler: -march=znver2 BLAS: CUDA: |
High-Performance LINPACK (HPL)
HPL adalah software yang menyelesaikan sistem linier padat acak dalam aritmatik double precision (64-bit) pada komputer dengan memori terdistribusi. HPL merupakan standar benchmark high-performance computing (HPC) dan superkomputer di dunia. Benchmark HPL juga digunakan sebagai tolok ukur performa 500 superkomputer tercepat di dunia yang dirangkum pada laman Top500.
Hasil pengujian HPL menghasilkan skor 1319.3 GFLOPS. Hasil yang dicatatkan oleh EPYC 7502P ini termasuk kencang apabila dibandingkan dengan berbagai CPU kelas workstation maupun enterprise. Sebagai perbandingan, berikut adalah hasil benchmark HPL oleh Dr. Donald Kinghorn dari Puget Systems terhadap berbagai CPU.
High-Performance Conjugate Gradient (HPCG)
HPCG adalah software benchmark yang melakukan iterasi gradien konjugasi prakondisi multigrid menggunakan nilai floating-point double precision (64-bit). HPCG umum digunakan sebagai suplemen benchmark HPL dan menjadi ukuran efisiensi performa superkomputer dengan perhitungan (hasil HPCG dalam FLOPS/hasil HPL dalam FLOPS).
Pada pengujian HPCG, digunakan konfigurasi problem size 104 104 104 agar HPCG juga bekerja menguji memori dan tidak hanya berjalan di cache prosesor.
HPCG CPU
Pengujian HPCG CPU menghasilkan skor dari AMD EPYC 7502P sebesar 14.6655 GFLOPS. Sebagai pembanding, berikut adalah data hasil benchmark HPCG CPU dari Puget Systems.
Skor EPYC 7502P relatif lebih cepat dibanding Threadripper berkat keunggulan 8-channel memori dibanding Threadripper yang hanya 4-channel.
HPCG GPU
Pengujian HPCG GPU menghasilkan skor dari Nvidia Tesla T4 sebesar 43.4717 GFLOPS. Sebagai pembanding berikut adalah data hasil benchmark HPCG GPU dari Puget Systems.
Skor Nvidia Tesla T4 memang jauh lebih rendah apabila dibandingkan dengan GPU kelas konsumer high-end, namun perlu diingat pula Nvidia Tesla T4 memiliki ukuran yang lebih ringkas (hanya 1 slot PCIe) serta konsumsi daya maksimum yang lebih rendah. Hal ini akan sangat membantu apabila pengguna ingin memasang konfigurasi banyak GPU pada server ASUS ESC4000A-E10 ini.
GROMACS
GROMACS adalah software saintifik untuk melakukan perhitungan dinamika molekuler seperti mensimulasikan persamaan gerak Newton pada sistem dengan jutaan partikel. Ia didesain untuk molekul biokimia seperti protein, lipid, dan asam nukleat yang memiliki banyak interaksi ikatan kompleks.
Pengujian dilakukan menggunakan file input RNAse dodecahedron PME.
GROMACS CPU
Pada pengujian GROMACS RNAse menggunakan EPYC 7502P, didapatkan hasil hingga 130.709 ns/day. Task hanya menggunakan hingga 32 core untuk mempopulasi jumlah core fisik. Penggunaan hanya core fisik tanpa SMT menghasilkan performa yang lebih cepat dibandingkan dengan mempopulasi seluruh thread.
GROMACS CPU + GPU
Penggunaan GPU Nvidia Tesla T4 pada pengujian GROMACS RNAse dodecahedron PME menghasilkan akselerasi negatif. Hal ini dikarenakan jumlah GPU yang digunakan terlalu sedikit sehingga off-load tugas dari CPU ke GPU justru lebih tidak efisien. Terlihat bahwa wall time boros di Wait PME GPU gather dan Wait GPU NB local. Hasil pengujian mencatatkan hanya 86.739 ns/day, lebih kecil dibanding hanya menggunakan CPU.
NAMD
NAMD merupakan software saintifik dinamika molekuler paralel yang didesain untuk melakukan simulasi dari sistem biomolekuler besar. Software ini mampu scaling hingga ratusan core untuk simulasi biasa dan lebih dari 500.000 core untuk simulasi besar.
Pengujian dilakukan menggunakan file input ApoA1. Hasil ditunjukkan dalam bentuk skalabilitas terhadap jumlah core.
NAMD CPU
Komputasi NAMD menggunakan AMD EPYC 7502P tanpa dibantu Nvidia Tesla T4 menghasilkan performa yang scaling hingga jumlah task NAMD sama dengan jumlah core fisik (32 core). Pada penggunaan 32 core, 7502P menghasilkan 9.69558 ns/day sedangkan penggunaan maksimum 64 task menghasilkan 10.2963 ns/day.
NAMD CPU + GPU
Komputasi NAMD menggunakan EPYC 7502P dengan dibantu Nvidia Tesla T4 menghasilkan performa komputasi yang jauh lebih baik, hingga lebih dari 32 ns/day.