固定链接 滴滴云 GPU 产品内测数据流出,产品性能激动人心

滴滴云 GPU 产品内测数据流出,产品性能激动人心

滴滴云 GPU 产品内测数据流出,产品性能激动人心

GPU 产品是滴滴云的优势产品之一,在价格和性能方面,都是值得特别推荐的。为了更好的让大家了解滴滴云 GPU 产品的能力,我们从以下几方面进行了测试。性能数据经得起挑战和对比,而且产品的价格还很低。

  • 实例启动时间
  • GPU 计算性能
  • CPU 计算性能
  • 内存带宽性能
  • 解码性能
  • Darknet Yolov3 性能

(补充说明,测试时间为 2018 年 10 月 30 日)

一、实例启动时间

GPU 产品的实例,从下单完成购买到完全启动可以进行使用,这个时间的长短体现了产品的能力和工作人员对待用户体验的态度。

滴滴云的 GPU 实例在这方面做得比较好,选择带 GPU 标签的镜像后,实例在 1 分钟内启动,所有环境都内置正确,包括 cuda 和 nvidia gpu driver。

总体上来说,滴滴云在细节上贴心的设计,以用户体验和利益为出发点,缩短了用户等待的时间,提升了实例可用时长。

二、GPU 计算性能

评估 GPU 计算性能的方法很多,比如深度学习领域,大量的矩阵乘应用于全连接层的前向及后向的实现中。在此,简单评估一下滴滴云 P4 产品的单精度矩阵矩阵乘、sgemm 的性能。所用实现为目前比较高效的 Nvidia cuBlas 实现。测试程序选择了 CUDA 8 Samples 内 batchCUBLAS。

规格: 2 Cores CPU 1 P4

厂商 CPU数量 内存大小(GB) GPU 型号 价格(元/小时)
滴滴云 2 4 1 P4 3
m n k Average (GFlops)
single kernels 1024 1024 1024 4408.81
N=100 without streams 1024 1024 1024 5698.2

三、CPU 计算性能

测试工具:Intel LINPACK (@version 2018.3.011)
测试方法:选择滴滴云三种不同规格的 P4 GPU 实例,分别测试不同输入规模下 LINPACK 的性能

规格 1: 2 Cores CPU 1 P4

厂商 CPU数量 内存大小(GB) GPU 型号 价格(元/小时)
滴滴云 2 4 1 P4 3
Size LDA Align Average (GFlops)
1000 1000 4 104.93
2000 2000 4 112.54
5000 5000 4 147.93
10000 10000 4 159.07
15000 15000 4 175.67

规格 2: 4 Cores CPU 1 P4

厂商 CPU数量 内存大小(GB) GPU 型号 价格(元/小时)
滴滴云 4 4 1 P4 4.8
Size LDA Align Average (GFlops)
1000 1000 4 170.53
2000 2000 4 202.14
5000 5000 4 275.65
10000 10000 4 296.91
15000 15000 4 326.88

规格3: 8 Cores CPU 1 P4

厂商 CPU数量 内存大小(GB) GPU 型号 价格(元/小时)
滴滴云 8 4 1 P4 5.6
Size LDA Align Average (GFlops)
1000 1000 4 194.52
2000 2000 4 337.05
5000 5000 4 463.26
10000 10000 4 512.44
15000 15000 4 544.92

通过对三种不同规格实例的测试和价格整理,明显可以发现滴滴云 GPU 产品在不同纬度的计算性能都非常优异,不惧怕跟任何云厂商的 GPU 产品进行对比,而且在价格上,更是值得称赞。

四、内存带宽性能

测试工具:MLC (@version v3.5)
测试方法:选择滴滴云三种不同规格的 P4 GPU 实例,分别测试内存读写的性能

规格1: 2 Cores CPU 1 P4

厂商 CPU数量 内存大小(GB) GPU 型号 价格(元/小时)
滴滴云 2 4 1 P4 3
滴滴云
ALL Reads (MB/s) 24637.1
3:1 Reads-Writes (MB/s) 34579.1
2:1 Reads-Writes (MB/s) 36181.8
1:1 Reads-Writes (MB/s) 44764.6

规格2: 4 Cores CPU 1 P4

厂商 CPU数量 内存大小(GB) GPU 型号 价格(元/小时)
滴滴云 4 4 1 P4 4.8
滴滴云
ALL Reads (MB/s) 48797.6
3:1 Reads-Writes (MB/s) 63990.5
2:1 Reads-Writes (MB/s) 68773.3
1:1 Reads-Writes (MB/s) 74792.5

规格3: 8 Cores CPU 1 P4

厂商 CPU数量 内存大小(GB) GPU 型号 价格(元/小时)
滴滴云 8 4 1 P4 5.6
滴滴云
ALL Reads (MB/s) 113730.5
3:1 Reads-Writes (MB/s) 103855.4
2:1 Reads-Writes (MB/s) 101505.7
1:1 Reads-Writes (MB/s) 94974.1

通过对三种不同规格实例的测试和价格整理,明显可以发现滴滴云 GPU 产品在不同纬度的内存带宽性能都非常优异,不惧怕跟任何云厂商的 GPU 产品进行对比,而且在价格上,更是值得称赞。

五、解码性能

本次解码性能测试使用 Nvidia 官方提供的最新编解码 SDK(NVIDIA VIDEO CODEC SDK),版本为 8.2,可以通过官方链接下载。该版本 CODEC SDK 对应 CUDA 版本为 9.2,驱动版本 396.24+。CODEC SDK 依赖 ffmpeg,因此我们直接从 GitHub 上 clone 最新版本的 ffmepg.

本次实验采用实际监控场景下的一段 5min 长 1080P 视频,测试命令如下:

测试结果如下,可以看出无论在解码性能还是价格方面,滴滴云 GPU 都存在优势。

厂商 CPU 内存 GPU threads 解码性能 价格
滴滴云 2 4G 1 P4 1 666.436 FPS 3 元/小时
滴滴云 2 4G 1 P4 2 674.209 FPS 3 元/小时

六、Darknet Yolov3 性能

本次实验采用最新版本 Darknet 进行测试,直接从 GitHub clone 最新代码。相关测试命令如下:

下载 pre-train 的 weight 文件

测试

测试结果截图如下:

七、总结

滴滴云 GPU 云服务器产品主要针对机器学习、科学计算等场景设计,特别对深度学习在线 Inference 做了定制及优化。

滴滴云 GPU 云主机配置 Intel Skylake 架构 CPU 及 Nvidia Tesla P4 GPU,并提供了多种 CPU 数量、内存容量的组合配置供选择。在性能上,针对用户计算需求和场景进行了特殊的配置,有很多独特的优势。

从本次的测试数据可以看出,滴滴云 GPU 具有超高性价比,适用于图像处理、浮点高性能计算、视频解转码、深度学习推理/预测设计等领域。

您的留言将激励我们越做越好