CN109948790A

CN109948790A - 一种神经网络处理方法、装置、设备及存储介质

Info

Publication number: CN109948790A
Application number: CN201910239947.0A
Authority: CN
Inventors: 孙红岩
Original assignee: Suzhou Wave Intelligent Technology Co Ltd
Current assignee: Suzhou Wave Intelligent Technology Co Ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-06-28

Abstract

本发明实施例公开了一种神经网络处理方法、装置、设备及存储介质。其中神经网络处理方法，包括：判断输入cudnn库中的矩阵大小是否为预设值的倍数；如果不是，则将所述矩阵的数据大小进行存储；将所述矩阵的数据作为cudnn的前向卷积函数的输入；将不满足预设值的倍数的空余位置填0补全；进行卷积运算，将卷积运算后的结果，根据存储的数据大小进行重排。本发明实施例在进行神经网络计算时通过扩增矩阵大小，可以图形处理器的输入矩阵条件，使用图形处理器的加速单元进行处理，从而提高了神经网络的处理速度。

Description

一种神经网络处理方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，特别涉及一种神经网络处理方法；还涉及神经网络处理装置、电子设备以及计算机可读存储介质。

背景技术

计算机视觉是用计算机实现人的视觉功能，使计算机具有能够通过一副或多幅图像认知周围环境(包括识别、理解等)的能力。运动目标检测作为计算机视觉技术的一个分支，具有越来越重要的作用，具体应用包括在交通中提供即时交通信息、推测驾驶意图等。

运动目标检测主要是检测物体的运动位置和运动速度以及方向信息，主要依靠图像处理技术，2005年，Wang提出了基于样本一致性(SACON)的背景建模方法，2009年，Barnich提出了背景建模法，2012年，Hofmann提出了PBAS运动目标检测法。这些算法虽然能准确检测运动目标，但是需要依赖至少两幅图像，2018年，Yaqi Zhang提出了CNN网络进行运动目标检测的方法，应用Faster-RCNN来进行运动目标检测，摆脱了以往检测需要依赖至少两幅图像来进行推测的缺点，但是Faster-RCNN网络进行推测仍然出现处理速度不够快的特点。

在经过神经网络计算中如果处理速度不够快则会出现检测运动目标不及时的现象发生，而使用cudnn不能够完全满足推理性能的需求，虽然cudnn可以通过使用Tensor RT来进行加速计算，但Tensor Core使用较为严格，对输入矩阵有要求，要求需要计算的矩阵batch size必须是特定值的倍数。

发明内容

本发明的目的是提供一种神经网络处理方法，实现加速神经网络处理过程；本发明的另一目的是提供一种神经网络处理装置、设备以及计算机可读存储介质，均具有上述技术效果。

为解决上述技术问题，本发明实施例提供了一种神经网络处理方法，包括：

判断输入cudnn库中的矩阵大小是否为预设值的倍数；

如果不是，则将所述矩阵的数据大小进行存储；将所述矩阵的数据作为cudnn的前向卷积函数的输入；

将不满足预设值的倍数的空余位置填0补全；

进行卷积运算，将卷积运算后的结果，根据存储的数据大小进行重排。

可选的，还包括：

判断输入cudnn库中的矩阵大小是否为预设值的倍数；

如果是预设值的倍数，将所述矩阵的数据作为cudnn的前向卷积函数的输入；进行卷积运算。

本发明实施例另一方面提供了一种运动目标检测方法，包含：

用背景运动补偿算法补偿背景的运动，得到经过补偿后的帧，将补偿后的帧与参考帧求光流，即残差运动场；

经过残差运动场和RGB数据一起组合成多维特征向量作为Faster R-CNN的输入；

按神经网络处理方法进行处理。

优选的，运动目标检测方法，获得残差运动场后，将残差运动场和RGB数据进行插值运算，插值运算算法精确到1/4像素。

优选的，获得残差运动场后，将残差运动场和RGB数据进行下采样。

优选的，多维特征向量，是五维特征向量，包含[光流，光流+遮掩，光流+RGB，光流+遮掩+RGB，RGB]。

为解决上述技术问题，本发明还提供了一种神经网络处理装置，包括：

判断模块，用于判断输入cudnn库中的矩阵大小是否为预设值的倍数，如果不是，则将所述矩阵的数据大小进行存储，将所述矩阵的数据作为cudnn的前向卷积函数的输入，将不满足预设值的倍数的空余位置填0补全，进行卷积运算，将卷积运算后的结果，根据存储的数据大小进行重排；如果是预设值的倍数，将所述矩阵的数据作为cudnn的前向卷积函数的输入，进行卷积运算。

优选的，神经网络处理装置，还包含：

残差运动场模块，用于用背景运动补偿算法补偿背景的运动，得到经过补偿后的帧，将补偿后的帧与参考帧求光流；

处理模块，用于将经过残差运动场和RGB数据一起组合成多维特征向量作为Faster R-CNN的输入；交判断模块按神经网络处理方法进行处理。

为解决上述技术问题，本发明还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任一项方法的步骤。

为解决上述技术问题，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项方法的步骤。

本发明所提供的神经网络处理方法，包括判断输入cudnn库中的矩阵大小是否为预设值的倍数；如果不是，则将所述矩阵的数据大小进行存储；将所述矩阵的数据作为cudnn的前向卷积函数的输入；将不满足预设值的倍数的空余位置填0补全。在进行神经网络计算时通过扩增矩阵大小，可以图形处理器的输入矩阵条件，使用图形处理器的加速单元进行处理，提高了神经网络的处理速度。

可见，本发明所提供的神经网络处理方法，可有效加速神经网络处理过程。

本发明所提供的神经网络处理装置、电子设备以及计算机可读存储介质，均具有上述技术效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的神经网络处理方法的流程示意图。

图2为本发明实施例所提供的另一神经网络处理方法的流程示意图。

图3为本发明实施例所提供的一种运动目标检测方法的流程示意图。

图4为本发明实施例所提供的另一种运动目标检测方法的流程示意图。

图5为本发明实施例所提供运动目标检测方法中插值运算示意图。

图6为本发明实施例所提供运动目标检测方法中插值运算另一示意图。

图7为本发明实施例所提供的一种神经网络处理装置的示意图。

图8为本发明实施例所提供的一种神经网络处理设备的示意图。

具体实施方式

本发明的核心是提供神经网络处理方法，实现加速神经网络处理过程；本发明的另一核心是提供神经网络处理装置、设备以及计算机可读存储介质，均具有上述技术效果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1。

请参考图1，图1为本发明实施例所提供的一种神经网络处理方法的流程示意图；参考图1，该神经网络处理方法包括：

判断输入cudnn库中的矩阵大小是否为预设值的倍数；

将不满足预设值的倍数的空余位置填0补全；

具体的，判断输入cudnn库中的矩阵大小是否为预设值的倍数，本实施例使用Tensor Core作为GPU中的加速单元，矩阵batch size必须是8的倍数。此时，预设值为8。

Tensor Core是英伟达新一代Volta和Tuning架构为加速神经网络计算而研发的硬核，在Tesla V100中tensor core加速计算力可以达到125TFLOPS，而Tesla V100中的cuda core计算力仅为15.7TFLOPS，但是tensor core仅有的一个限制就是每个SM只有8个tensor core，只能执行1024次浮点计算每赫兹，能使tensor core算力发挥到最大的方式是16*16矩阵的乘法操作，即当E矩阵为M*K，另一F矩阵为K*N,M＝N＝K＝16则算力发挥到最大，而现实中的矩阵多数都是不满足此条件。

两个矩阵相乘首先选取矩阵维数大的为基准进行变换，即，当M>N时以E矩阵为基准执行以下操作，当M<N以F矩阵为基准执行以下操作。

矩阵相乘情况一般分三种：M>K,M＝K和M<K。

1.当M<K时。

1)K>16。

当K>16，M>16时。

其中矩阵A为16*16，矩阵B为(K-16)*16，矩阵C为(M-16)*16，矩阵D为(M-16)*(N-16)；

而

当M<＝16K>16时。矩阵变成行向量相乘形式又分两种情况：

a)当M＝16时可直接应用行向量相乘形式。

b)当M<8时，可以应用矩阵进一步拆分来加速计算。

例如：一个M*K的矩阵，M＝4，K＝32可以拆分成M＝8，K＝16的矩阵。

可以拆分成：

则变为一个16*16的方阵，只需一次tensor core或几次的运算即可完成，完成后的结果为矩阵相乘取对角线矩阵相加即可即[A_E*A_F+B_E*B_F]，保留原矩阵A_E的形式。

2)K<＝16

这种情况就是M<K<＝16，空的位置要补0，可以直接利用tensor core来进行加速矩阵运算，当计算完毕后将矩阵重新排序，去掉填0位置。

2.当M>K时

1)K>16

这种情况就是M>K>16,这种情况见1.中1)所示。

2)K<16

这种情况就是M>K，K<16.

当M>＝16时，这种情况演变为：

a)当K＝16时可直接应用行向量相乘形式。

b)当K<8时，进行矩阵变换后矩阵空的位置补0，可以应用矩阵进一步拆分来加速计算。

由于我们日常神经网络矩阵都是实数矩阵，实数矩阵有E*F＝(F^T*E^T)^T，(其中T表示矩阵转置)即可转化成M<8,K>16的情况，即可应用上面b)的公式。

当M<16时，空的位置补0，直接应用tensor core相乘即可。

3.当M＝K时矩阵为方阵，即可应用tensor core加速矩阵运算：

在进行矩阵相乘运算前需要记录矩阵的信息，以便进行相乘后进行还原矩阵操作，在进行矩阵运算转换中矩阵缺口部位要填0.当M*K矩阵和K*N矩阵相乘时，乘积获得的结果后矩阵为M*N，因此可以把除M*N矩阵之外的数据清除。

综上所述，本发明所提供的神经网络处理方法，当矩阵batch size不是预设值的倍数时，对空余位置进行填0补全，使得矩阵满足条件。该神经网络处理方法，可有效实现满足加速条件，实现计算加速。

实施例2。

在上述实施例的基础上，请参考图2，图2为本发明实施例所提供的另一种神经网络处理方法的流程示意图；结合图2可知，该神经网络处理方法包括：

判断输入cudnn库中的矩阵大小是否为预设值的倍数；

将不满足预设值的倍数的空余位置填0补全；

如果是预设值的倍数，将所述矩阵的数据作为cudnn的前向卷积函数的输入；

进行卷积运算。

其中，对于上述预预设值的具体数值，可以根据实际情况设置合适的数值。本实施例使用Tensor Core作为GPU中的加速单元，矩阵batch size必须是8的倍数。此时，预设值为8。

同样，对于上述设定值的具体数值，本发明不做具体的限定，可以根据实际需要进行相适应的设定。

实施例3。

本发明还提供了一种运动目标检测方法，请参考图3，图3为本发明实施例所提供的一种运动目标检测方法的流程示意图。该方法包含：

按神经网络处理方法进行处理。

具体的，本实施例按神经网络处理方法进行处理，即上述实施例中的神经网络处理方法。包括：判断输入cudnn库中的矩阵大小是否为预设值的倍数；如果不是，则将所述矩阵的数据大小进行存储；将所述矩阵的数据作为cudnn的前向卷积函数的输入；将不满足预设值的倍数的空余位置填0补全；进行卷积运算，将卷积运算后的结果，根据存储的数据大小进行重排。如果是预设值的倍数，将所述矩阵的数据作为cudnn的前向卷积函数的输入；进行卷积运算。

实施例4。

在上述实施例的基础上，请参考图4，图4为本发明实施例所提供的一种运动目标检测方法，包含：

将残差运动场和RGB数据进行插值运算。

将残差运动场和RGB数据进行下采样。本实施例将将残差运动场和RGB数据进行下采样可以减少训练时的数据量。

按神经网络处理方法进行处理。

具体的，本实施例将残差运动场和RGB数据进行插值运算，本实施例插值运算算法精确到1/4像素。请参考图5、图6，图5、图6为插值运算示意图。

图5中，b点值计算为：b＝round((E-5F+20G+20H-5I+J)/32)。h、m等像素点依照b点插值计算。

图6中，a点值计算为：a＝round((G+b)/2)，c、k、l等像素点依照a点插值计算。d点值计算为：d＝round((G+h)/2)，f、n、q等像素点依照d点插值计算。e点值计算为：e＝round((h+b)/2)，g、p、r等像素点依照e点插值计算。

具体的，多维特征向量本实施例是五维特征向量，包含[光流，光流+遮掩，光流+RGB，光流+遮掩+RGB，RGB]。

本发明实施例还提供了一种神经网络处理装置，下文描述的该装置可以与上文描述的方法相互对应参照。请参考图7。图7为本发明实施例所提供的一种神经网络处理装置，包含：

在上述实施例的基础上，可选的，还包括：

残差运动场模块，用于用背景运动补偿算法补偿背景的运动，得到经过补偿后的帧，将补偿后的帧与参考帧求光流。

本发明实施例还提供了一种电子设备，请参考图8，图8为本发明实施例提供的一种电子设备的示意图；参考图8，该设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述实施例方法的步骤。

对于本发明实施例所提供的设备的介绍请参照上述方法的实施例，本发明在此不做赘述。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明所提供的计算机可读存储介质的介绍请参照上述方法实施例，本发明在此不做赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备以及计算机可读存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦写可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的计算机管理方法、相关设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围。

Claims

1.一种神经网络处理方法，其特征是，包括：

判断输入cudnn库中的矩阵大小是否为预设值的倍数；

将不满足预设值的倍数的空余位置填0补全；

2.如权利要求1所述的神经网络处理方法，其特征是，包含：

判断输入cudnn库中的矩阵大小是否为预设值的倍数；

进行卷积运算。

3.一种运动目标检测方法，其特征是，包含：

按神经网络处理方法进行处理。

4.如权利要求3所述的运动目标检测方法，其特征是，获得残差运动场后，将残差运动场和RGB数据进行插值运算。

5.如权利要求3所述的运动目标检测方法，其特征是，获得残差运动场后，将残差运动场和RGB数据进行下采样。

6.如权利要求3所述的运动目标检测方法，其特征是，所述多维特征向量，是五维特征向量，包含[光流，光流+遮掩，光流+RGB，光流+遮掩+RGB，RGB]。

7.一种神经网络处理装置，其特征是，包含：

8.如权利要求7所述的神经网络处理装置，其特征是，包含：

9.一种电子设备，其特征是，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项方法的步骤。

10.一种计算机可读存储介质，其特征是，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项方法的步骤。