GPU 产品是滴滴云的优势产品之一,在价格和性能方面,都是值得特别推荐的。为了更好的让大家了解滴滴云 GPU 产品的能力,我们从以下几方面进行了测试。性能数据经得起挑战和对比,而且产品的价格还很低。
- 实例启动时间
- GPU 计算性能
- CPU 计算性能
- 内存带宽性能
- 解码性能
- Darknet Yolov3 性能
(补充说明,测试时间为 2018 年 10 月 30 日)
一、实例启动时间
GPU 产品的实例,从下单完成购买到完全启动可以进行使用,这个时间的长短体现了产品的能力和工作人员对待用户体验的态度。
滴滴云的 GPU 实例在这方面做得比较好,选择带 GPU 标签的镜像后,实例在 1 分钟内启动,所有环境都内置正确,包括 cuda 和 nvidia gpu driver。
总体上来说,滴滴云在细节上贴心的设计,以用户体验和利益为出发点,缩短了用户等待的时间,提升了实例可用时长。
二、GPU 计算性能
评估 GPU 计算性能的方法很多,比如深度学习领域,大量的矩阵乘应用于全连接层的前向及后向的实现中。在此,简单评估一下滴滴云 P4 产品的单精度矩阵矩阵乘、sgemm 的性能。所用实现为目前比较高效的 Nvidia cuBlas 实现。测试程序选择了 CUDA 8 Samples 内 batchCUBLAS。
规格: 2 Cores CPU 1 P4
厂商 | CPU数量 | 内存大小(GB) | GPU 型号 | 价格(元/小时) |
---|---|---|---|---|
滴滴云 | 2 | 4 | 1 P4 | 3 |
m | n | k | Average (GFlops) | |
---|---|---|---|---|
single kernels | 1024 | 1024 | 1024 | 4408.81 |
N=100 without streams | 1024 | 1024 | 1024 | 5698.2 |
三、CPU 计算性能
测试工具:Intel LINPACK (@version 2018.3.011)
测试方法:选择滴滴云三种不同规格的 P4 GPU 实例,分别测试不同输入规模下 LINPACK 的性能
规格 1: 2 Cores CPU 1 P4
厂商 | CPU数量 | 内存大小(GB) | GPU 型号 | 价格(元/小时) |
---|---|---|---|---|
滴滴云 | 2 | 4 | 1 P4 | 3 |
Size | LDA | Align | Average (GFlops) |
---|---|---|---|
1000 | 1000 | 4 | 104.93 |
2000 | 2000 | 4 | 112.54 |
5000 | 5000 | 4 | 147.93 |
10000 | 10000 | 4 | 159.07 |
15000 | 15000 | 4 | 175.67 |
规格 2: 4 Cores CPU 1 P4
厂商 | CPU数量 | 内存大小(GB) | GPU 型号 | 价格(元/小时) |
---|---|---|---|---|
滴滴云 | 4 | 8 | 1 P4 | 4.8 |
Size | LDA | Align | Average (GFlops) |
---|---|---|---|
1000 | 1000 | 4 | 170.53 |
2000 | 2000 | 4 | 202.14 |
5000 | 5000 | 4 | 275.65 |
10000 | 10000 | 4 | 296.91 |
15000 | 15000 | 4 | 326.88 |
规格3: 8 Cores CPU 1 P4
厂商 | CPU数量 | 内存大小(GB) | GPU 型号 | 价格(元/小时) |
---|---|---|---|---|
滴滴云 | 8 | 16 | 1 P4 | 5.6 |
Size | LDA | Align | Average (GFlops) |
---|---|---|---|
1000 | 1000 | 4 | 194.52 |
2000 | 2000 | 4 | 337.05 |
5000 | 5000 | 4 | 463.26 |
10000 | 10000 | 4 | 512.44 |
15000 | 15000 | 4 | 544.92 |
通过对三种不同规格实例的测试和价格整理,明显可以发现滴滴云 GPU 产品在不同纬度的计算性能都非常优异,不惧怕跟任何云厂商的 GPU 产品进行对比,而且在价格上,更是值得称赞。
四、内存带宽性能
测试工具:MLC (@version v3.5)
测试方法:选择滴滴云三种不同规格的 P4 GPU 实例,分别测试内存读写的性能
规格1: 2 Cores CPU 1 P4
厂商 | CPU数量 | 内存大小(GB) | GPU 型号 | 价格(元/小时) |
---|---|---|---|---|
滴滴云 | 2 | 4 | 1 P4 | 3 |
滴滴云 | |
---|---|
ALL Reads (MB/s) | 24637.1 |
3:1 Reads-Writes (MB/s) | 34579.1 |
2:1 Reads-Writes (MB/s) | 36181.8 |
1:1 Reads-Writes (MB/s) | 44764.6 |
规格2: 4 Cores CPU 1 P4
厂商 | CPU数量 | 内存大小(GB) | GPU 型号 | 价格(元/小时) |
---|---|---|---|---|
滴滴云 | 4 | 8 | 1 P4 | 4.8 |
滴滴云 | |
---|---|
ALL Reads (MB/s) | 48797.6 |
3:1 Reads-Writes (MB/s) | 63990.5 |
2:1 Reads-Writes (MB/s) | 68773.3 |
1:1 Reads-Writes (MB/s) | 74792.5 |
规格3: 8 Cores CPU 1 P4
厂商 | CPU数量 | 内存大小(GB) | GPU 型号 | 价格(元/小时) |
---|---|---|---|---|
滴滴云 | 8 | 16 | 1 P4 | 5.6 |
滴滴云 | |
---|---|
ALL Reads (MB/s) | 113730.5 |
3:1 Reads-Writes (MB/s) | 103855.4 |
2:1 Reads-Writes (MB/s) | 101505.7 |
1:1 Reads-Writes (MB/s) | 94974.1 |
通过对三种不同规格实例的测试和价格整理,明显可以发现滴滴云 GPU 产品在不同纬度的内存带宽性能都非常优异,不惧怕跟任何云厂商的 GPU 产品进行对比,而且在价格上,更是值得称赞。
五、解码性能
本次解码性能测试使用 Nvidia 官方提供的最新编解码 SDK(NVIDIA VIDEO CODEC SDK),版本为 8.2,可以通过官方链接下载。该版本 CODEC SDK 对应 CUDA 版本为 9.2,驱动版本 396.24+。CODEC SDK 依赖 ffmpeg,因此我们直接从 GitHub 上 clone 最新版本的 ffmepg.
本次实验采用实际监控场景下的一段 5min 长 1080P 视频,测试命令如下:
1 2 |
./AppDecPerf -i input.mp4 -thread 1 |
测试结果如下,可以看出无论在解码性能还是价格方面,滴滴云 GPU 都存在优势。
厂商 | CPU | 内存 | GPU | threads | 解码性能 | 价格 |
---|---|---|---|---|---|---|
滴滴云 | 2 | 4G | 1 P4 | 1 | 666.436 FPS | 3 元/小时 |
滴滴云 | 2 | 4G | 1 P4 | 2 | 674.209 FPS | 3 元/小时 |
六、Darknet Yolov3 性能
本次实验采用最新版本 Darknet 进行测试,直接从 GitHub clone 最新代码。相关测试命令如下:
下载 pre-train 的 weight 文件
1 2 |
wget https://pjreddie.com/media/files/yolov3.weights |
测试
1 2 |
./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg |
测试结果截图如下:
七、总结
滴滴云 GPU 云服务器产品主要针对机器学习、科学计算等场景设计,特别对深度学习在线 Inference 做了定制及优化。
滴滴云 GPU 云主机配置 Intel Skylake 架构 CPU 及 Nvidia Tesla P4 GPU,并提供了多种 CPU 数量、内存容量的组合配置供选择。在性能上,针对用户计算需求和场景进行了特殊的配置,有很多独特的优势。
从本次的测试数据可以看出,滴滴云 GPU 具有超高性价比,适用于图像处理、浮点高性能计算、视频解转码、深度学习推理/预测设计等领域。