NVIDIA Xavier性能没有达到预期怎么办?

WhoseAI
77 0 2019-11-20

最近遇到好些用户在使用NVIDIA Xavier 的时候遇到性能没达到预期的情况:

"我的1070电脑跑yolov3是40帧率,用xavier跑yolov3+tensorRT加速后是30帧率,xavier的运行效率不如1070吗"


我们已经对NVIDIA Xavier做了很多次介绍:

关于Jetson AGX Xavier常见问题汇总

NVIDIA霸气放“价”,AGX Xavier让你打造更接地气的AI产品

用Matlab和NVIDIA AGX Xavier实现缺陷产品检测

知否,NVIDIA AGX Xavier显存到底多少?


其实对于Xavier的性能到底可以跑成什么样子,这里有一些文章:

NVIDIA Jetson Xavier性能到底有多强?这篇评测告诉你!


本篇想试图对于Xavier上的优化方式和技巧做一些探讨,希望能给大家一些启示。


1. 你的Xavier开启了火力全开模式了么?

参考:让NVIDIA Jetson  AGX Xavier火力全开的秘密


2. 请记住每个产品都有自己的定位和用途的。我们必须要了解和掌握Xavier的特点,才能将其性能发挥到极致!

我们再来看一下Xavier的特性:


所以你看到Xavier是有很强的FP16和INT8的性能,而FP32的性能并没有优势。所以如果你用台式机的GPU FP32性能来跟Xavier相比,Xavier是比较吃亏的。




Xavier有Tensor Core。

Tensor Core有很多好处:

Intel为什么强调NVIDIA Tensor Core GPU非常适合推理

新年第一课:看NVIDIA大神们如何评价Tensor Core?

注意,NVIDIA 计算能力7.0、7.2和7.5的GPU卡都具备Tensor Core。其中7.0是第一代的TensorCore(只有FP16能力),比如Tesla V100; 7.2(Xavier)和7.5(现在的大量的Turing卡)是第二代的,有FP16,INT8,INT4加速. 


Xavier支持DLA 

Xavier DLA (Deep Learning Accelerator,深度学习加速器)是NVIDIA推出的开源机器学习处理器架构,是以自动驾驶为出发点为 IoT设备提供有 inference 功能的硬件解决方案。DLA芯片的用途广泛,包括物联网(Internet of Things;IoT)装置、各种机器人(Robot)及自驾车(Self-driving Car),以及工业4.0(Industry 4.0)的应用,是许多新AI系统不可或缺的元件。


问题来了,我如何让Xavier发挥这些特定的优势呢?

TensorRT请了解一下!

我们之前也讲过了很多如何使用TensorRT

来份TensorRT的教程,要实战的哟!

边缘计算笔记(一): Jetson TX2上从TensorFlow 到TensorRT

边缘计算笔记(二): 从tensorflow生成tensorRT引擎的方法

边缘计算笔记(三):从Tensorflow生成TensorRT引擎的方法(完结篇)


也建议初学者可以在百度或者Google上搜索TensorRT,可以看到别人写的教程或者代码来学习。

以下资源,是我推荐给大家看的:

TensorRT Sample:

https://docs.nvidia.com/deeplearning/sdk/tensorrt-sample-support-guide/index.html

Trying out TensorRT on Jetson TX2

https://jkjung-avt.github.io/tensorrt-cats-dogs/ 

TensorFlow/TensorRT Models on Jetson TX2

https://jkjung-avt.github.io/tf-trt-models/

有人会问:用Jetpack刷机后TensorRT装在哪里了?


另外对于搞视频智能分析的用户,可以多了解一下Deepstream。我们自己用Xavier 跑 DeepStream, 用 int8 特性,一次给 9 个 H.265 高清 Video,每个都能跑到 15 fps 左右,总共帧数可以到 120+。

关于DeepStream我们也讲了很多了:

NVIDIA Deepstream 4.0笔记(五):仓储物流场景应用

NVIDIA Deepstream 4.0笔记(四):工业检测场景应用

NVIDIA Deepstream 4.0笔记(三):智能交通场景应用

NVIDIA Deepstream 4.0笔记(二):智能零售场景应用