CN108229360A

CN108229360A - 一种图像处理的方法、设备及存储介质

Info

Publication number: CN108229360A
Application number: CN201711437662.5A
Authority: CN
Inventors: 俞大海; 陈术义; 王欣博; 周均扬; 阮志锋
Original assignee: Midea Group Co Ltd
Current assignee: Midea Group Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-29
Anticipated expiration: 2037-12-26
Also published as: CN108229360B

Abstract

本发明实施例公开了一种图像处理的方法、设备及存储介质；该方法可以包括：基于设定的手部训练数据以及卷积神经网络CNN模型对视频的检测图像帧中的至少一个手部对象进行检测，并获取各手部对象的描述属性值；当所述各手部对象的描述属性值满足设定的触发条件时，基于设定的对象特征以及跟踪算法，对所述检测图像帧之后设定数量的跟踪图像帧中的手部对象进行跟踪。本发明实施例的技术方案通过将检测算法和跟踪算法进行融合，减少了在手部检测时所需的卷积计算次数，从而减少手部检测时计算代价，降低检测过程中所消耗的时间。

Description

一种图像处理的方法、设备及存储介质

技术领域

本发明涉及家电技术领域，尤其涉及一种图像处理的方法、设备及存储介质。

背景技术

随着计算机技术以及信号处理技术的发展，越来越多的家电设备除了具有传统的按键操作控制之外，还能够根据用户的声音或者手势进行控制。

通过手势对家电设备进行控制，那就需要对手部进行检测。目前相关的手部检测方案中，通常采用的是基于深度卷积神经网络(CNN，Convolutional Neural Network)的手部检测方案，该方案设计了一个包含卷积层、池化层以及全连接层的深度卷积神经网络，对第一视角的RGB图像进行手部检测。由于该方案设置了深度较大的神经网络层，并且检测过程中需要对整个图像进行全卷积处理，因此，该方案的检测精度较高，但同时增加了计算代价，也就增加了方案在检测过程中所消耗的时间。

发明内容

为解决上述技术问题，本发明实施例期望提供一种图像处理的方法、设备及存储介质；能够减少计算代价，降低检测过程中所消耗的时间。

本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种图像处理的方法，所述方法包括：

基于设定的手部训练数据以及卷积神经网络CNN模型对视频的检测图像帧中的至少一个手部对象进行检测，并获取各手部对象的描述属性值；

当所述各手部对象的描述属性值满足设定的触发条件时，基于设定的对象特征以及跟踪算法，对所述检测图像帧之后设定数量的跟踪图像帧中的手部对象进行跟踪。

第二方面，本发明实施例提供了一种图像处理设备，所述设备包括：拍摄装置、存储器和处理器；其中，

所述拍摄装置，配置为采集视频；

所述存储器，配置为存储能够在所述处理器上运行的计算机程序；

所述处理器，配置为在运行所述计算机程序时，执行第一方面所述方法的步骤。

第三方面，本发明实施例提供了一种计算机可读介质，所述计算机可读介质存储有图像处理程序，所述图像处理程序被至少一个处理器执行时实现第一方面所述方法的步骤。

本发明实施例提供了一种图像处理的方法、设备及存储介质；基于相邻帧图片的相似性，将检测算法和跟踪算法进行融合，减少了在手部检测时所需的卷积计算次数，从而减少手部检测时计算代价，降低检测过程中所消耗的时间。

附图说明

图1为本发明实施例提供的一种图像处理的方法流程示意图；

图2为本发明实施例提供的一种手部对象检测流程示意图；

图3为本发明实施例提供的一种视频帧示意图；

图4为本发明实施例提供的一种构建CNN模型的流程示意图；

图5为本发明实施例提供的一种CNN网络搭建示意图；

图6为本发明实施例提供的一种图像处理的方法具体示例流程示意图；

图7为本发明实施例提供的一种图像处理设备的组成示意图；

图8为本发明实施例提供的另一种图像处理设备的组成示意图；

图9为为本发明实施例提供的一种图像处理设备的具体硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

采用深度CNN网络进行手部检测时，尽管能够实现较高地检测精度，但是需要对采集视频中的每个视频帧均进行卷积运算，所以会增加计算代价，造成检测所消耗的时间增加，无法达到实时检测的效果。进一步来说，通常智能家电设备中所配置的诸如处理芯片、ROM或RAM等运算器件相较于智能手机或个人计算机等终端设备中运算器件在运算处理能力上具有较大的差距，因此，需要平衡检测精度与检测速度之间的关系。基于此，本发明通过以下实施例进行阐述。

实施例一

参见图1，其示出了本发明实施例提供的一种图像处理的方法，该方法可以应用于任一需要进行手部检测的家电设备中，该方法可以包括：

S101：基于设定的手部训练数据以及卷积神经网络CNN模型对视频的检测图像帧中的至少一个手部对象进行检测，并获取各手部对象的描述属性值；

S102：当所述各手部对象的描述属性值满足设定的触发条件时，基于设定的对象特征以及跟踪算法，对所述检测图像帧之后设定数量的跟踪图像帧中的手部对象进行跟踪。

需要说明的是，由于在一段视频内相邻视频帧之间的变化比较小，因此在对视频内的手部对象进行检测的过程中，无需对视频中的每个视频帧均按照CNN模型进行手部对象的检测，图1所示的技术方案中，在通过CNN模型对视频帧中的手部对象进行检测之后，可以按照跟踪算法对检测图像帧之后的视频帧图像进行手部对象的跟踪，由于跟踪算法无需对视频帧图像进行卷积，所以，图1所示的技术方案与相关的手部检测方案相比，能够降低手部检测时计算代价，降低检测过程中所消耗的时间。

对于图1所示的技术方案，需要说明的是，步骤S101可以从视频中的任一视频帧图像开始执行，由此可以得知，视频中执行步骤S101的视频帧图像称之为检测图像帧，而对检测图像帧基于设定的手部训练数据以及CNN模型进行手部检测之后，可以从检测图像帧中得到至少一个手部对象，以及各手部对象的描述属性值，手部对象的描述属性值可以包括：手部对象在检测图像帧中的位置、手部对象在检测图像帧中的尺寸、手部对象的类别以及手部对象检测的置信度。具体来说，手部对象在检测图像帧中的位置可以是手部对象的坐标，手部对象在检测图像帧中的尺寸可以是手部对象在检测图像帧中的宽度和高度。

而设定的手部训练数据可以在执行步骤S101之前通过对收集到的已有的手势数据进行训练得到，由于图1所示的技术方案应用与家电设备领域，因此，可以预先收集家居场景下的常用手势数据，并对手势数据通过训练来获取手部训练数据，从而能够结合CNN模型对检测图像帧中的手部对象进行检测。

对于步骤S101，可以通过图2所示的非典型性的手部对象检测流程进行具体实现，如图2所示，手部对象检测环境可以包括应用程序APP部分以及部署在芯片***中的手势检测Gesture软件开发工具包(SDK，Software Development Kit)部分；Gesture SDK可以通过开源计算机视觉库(例如：OpenCV，Open Source Computer Vision Library、SimpleCV、JavaCV等)来实现，其中包括有CNN模型Model、第三方Third Party的图像处理算法等。视频通过设置在家电设备中的拍摄装置，例如摄像头Camera通过调用拍摄驱动Driver进行图像采集，并将采集到的图像Image Capture通过调用Gesture SDK进行预处理Pre-processing，比如去噪、增强清晰度等，随后调用Gesture SDK中的CNN模型进行手部对象检测Detection，检测之后，通过调用Gesture SDK对手部对象进行跟踪定位Tracking&Alignment，在根据Gesture SDK进行识别验证Recognition verification之后，调用API传输至APP中的监控器Monitor，从而在APP中输出手部对象的检测结果，具体的检测结果可以包括手部对象的数量以及各手部对象的描述属性值。在图2所示的流程中，实线箭头表示数据的传输路径，虚线箭头表示处理数据过程中的调用路径，参见图2下方的图例所示。

需要说明的是，在执行完步骤S101之后，就能够得到检测图像帧中的手部对象数量以及各手部对象的描述属性值。在步骤S101之后，就可以对检测图像帧后续的视频图像帧进行手部对象的跟踪。也就是由检测阶段转向跟踪阶段。因此，图1所示的技术方案将检测图像帧之后设定数量的视频图像帧称之为跟踪图像帧。

具体来说，当检测到的手部对象数量较多时，进行多对象的跟踪会耗费大量的运算处理资源，此时更加优选的是继续按照步骤S101对手部对象进行检测。因此，在本实施例中，各手部对象的描述属性值满足设定的触发条件可以优选为手部对象的数量小于3个。也就是说，对于步骤S102，当所述各手部对象的描述属性值满足设定的触发条件时，基于设定的对象特征以及跟踪算法，对所述检测图像帧之后设定数量的跟踪图像帧中的手部对象进行跟踪，可以包括：

当手部对象的数量小于3个时，基于设定的对象特征以及跟踪算法，对所述跟踪图像帧中的手部对象进行跟踪；

当手部对象的数量大于或等于3个时，则重复执行S101，即：基于所述手部训练数据以及所述CNN模型，对所述检测图像帧的后一帧图像中的至少一个手部对象进行检测，并获取各手部对象的描述属性值。

以图3所示的两种示例性的检测图像帧为例，左侧的检测图像帧中检测到多于3个手部对象，因此，会对后续的视频图像帧继续进行手部对象的检测；右侧的检测图像帧中仅检测到一个手部对象，因此，再对后续的视频图像帧进行手部对象的检测将会消耗大量的运算资源，所以，对后续的视频图像帧进行手部对象的跟踪。

此外，在执行步骤S102的过程中，还可以对各手部对象进行初始化，具体可以将各手部对象的描述属性值设置为跟踪初始值，用来初始化被跟踪的对象，各手部对象的跟踪初始值可以包括各手部对象在检测图像帧中的位置、各手部对象在检测图像帧中的尺寸以及各手部对象的类别。

在初始化完成后，就可以基于设定的对象特征以及跟踪算法，对所述检测图像帧之后设定数量的跟踪图像帧中的手部对象进行跟踪。在本实施例中，对象特征可以包括方向梯度直方图(HOG，Histogram of Oriented Gradient)特征，也可以包括灰度Gray特征，需要指出的是，利用Gray特征进行跟踪能够加快跟踪速度。

另外，在执行步骤S102的过程中，为了避免快速运动的手部对象出现跟踪丢失的情况，对于图1所示的技术方案，还可以针对各手部对象设置对应的跟踪峰值peak_value，用来指示各手部对象是否得到了及时的跟踪。此时，图1所示的技术方案还可以包括：

当各手部对象对应的跟踪峰值peak_value中至少一个跟踪峰值低于设定的跟踪峰值下限时，或者，当跟踪图像帧数量超出所述设定数量时，重复执行S101，即：基于所述手部训练数据以及所述CNN模型，对当前跟踪图像帧的后一帧图像中的至少一个手部对象进行检测，并获取各手部对象的描述属性值。此时，可以由跟踪阶段转为检测阶段。需要说明的是，根据各手部对象可以设置不同的跟踪峰值下限，从而能够合理的确定各手部对象是否得到了及时的跟踪。

在步骤102的具体实现时，设定的跟踪算法可以优选为核相关滤波(KCF，Kernelized Correlation Filters)算法，该算法在本实施例中的具体过程可以包括：训练一个目标检测器，使用目标检测器去检测下一帧的位置是否是目标，然后再使用新的检测结果去更新训练集并更新目标检测器。

需要说明的是，在训练目标检测器时，选取目标区域为正样本，周围区域为负样本。使用选取目标区域的循环矩阵采集正负样本，利用脊回归算法训练目标检测器，并利用了循环矩阵在傅立叶空间可对角化的性质，把矩阵的运算转化成矩阵的哈达玛hadamad积，从而降低了运算量，提升了运算速度。在本实施例中，提取的对象特征可以包括方向梯度直方图(HOG，Histogram of Oriented Gradient)特征，也可以包括灰度Gray特征，需要指出的是，利用Gray特征进行跟踪能够加快跟踪速度。

对于本实施例中的上述方案，还可以包括针对设定的卷积神经网络CNN模型进行构建的过程，参见图4，可以包括：

S401：构建卷积神经网络，所述卷积神经网络至少包括四个网络层：图像输入层、至少一个卷积层、至少一个池化层和至少一个全连接层；

需要说明的是，本发明实施例所提供的技术方案针对已有的卷积神经网络CNN进行优化，从而能够在有限的运算能力条件下，提高CNN模型的特征表达能力，并且还能够在通过CNN检测时减少计算消耗。

S402：当待检测物体数量低于预设阈值时，缩减所述CNN中卷积核的数量；

需要说明的是，通过实验验证，可以得出下述结论：在基于卷积神经网络的单类或少类检测中，窄网络也可以获得较高的准确率。因此，在保持已有卷积神经网络CNN深度的前提下，针对单类或少类(如2至3类)检测，可以适当地缩减卷积核数目。具体来说，在尽量保证CNN网络深度的前提下，当进行单类检测或少类检测时，缩减所述CNN中每层卷积核的数量为小于等于100。从而能够减少通过CNN计算过程中的计算消耗。

S403：将所述图像输入层输入的图像按照设定的边界判定策略划分为至少一个利用连续内存存储的内存数据段，并利用设定的连续内存拷贝函数对各内存数据段进行数据拷贝；

对于S403，需要说明的是，CNN计算过程可以包括数据准备和矩阵乘法，而基于前述S402所述的卷积核数目比较少的情况下，数据准备过程在CNN计算过程中会占用较高的时间比例，目前相关的数据准备过程通常采用重排图像块为矩阵列Im2col函数进行数据拷贝，为了减少数据准备过程的时间，可以通过判断卷积计算过程中的边界参数，分析数据在内存中的排布方式，将数据准备中所有利用连续内存存储的内存数据段，均采用内存拷贝memcpy函数进行数据拷贝，避免出现循环拷贝的方式，从而降低了数据拷贝所消耗的时间。

此外，针对CNN计算过程中的矩阵乘法，可以优选地运用第三方库对矩阵乘法进行提速。威诺格拉德Winograd算法是目前最快的矩阵相乘算法，而脸书facebook开发的NNPACK加速包能够实现上述算法，并且NNPACK加速包针对X86体系处理器的数据流单指令多数据扩展指令集2(SSE2，Streaming SIMD Extensions 2)和ARM处理器的NEON指令集都做了相应优化。因此，采用NNPACK加速包对CNN计算过程中的矩阵乘法过程进行加速，从而可以提高前向速度。但是，NNPACK加速包虽然能够提升矩阵乘法速度，但是完全依靠其自身进行并行加速，CPU利用率并不高，所以我们在***可以利用多线程方法对待检测的图像先进行拆分，再通过将拆分得到的图像块分别组合的方式进行了并行加速。

S404：按照设定的合并策略将批量正则化层中的原始参数与所述卷积层或所述全连接层的参数进行合并，将合并后的参数作为批量正则化层的新参数；其中，所述批量正则化层在所述卷积层或所述全连接层之后。

对于S404，在CNN计算过程中，批量正则化(BN，Batch Normalization)也是不可缺少的步骤之一，在CNN的卷积层和全连接层后都会添加一个BN层进行数据归一化处理，从而增强CNN的表现能力，提高深度CNN的收敛速度。而对于BN层来说，会保存方差variance、均值mean、beta和gamma这四个批量正则化层的参数对输入BN层的特征进行归一化处理，具体的归一化处理过程线性变化过程。这四个参数可以作为CNN模型参数保存在权重weight文件中。在利用CNN进行目标检测的过程中，卷积层、全连接层等也可以认为是线性变换层，因此，结合归一化处理的线性变化以及卷积层、全连接层的线性变化，可以将批量正则化层中的原始参数与所述卷积层或所述全连接层的参数进行合并。在一种可能的实现方式中，S404具体可以包括：

将所述批量正则化层中的均值参数按照第一合并策略与所述卷积层或所述全连接层中的偏置参数进行合并，获得第一合并结果；

基于所述第一合并结果，将所述批量正则化层中的方差参数按照第二合并策略与所述卷积层或所述全连接层中的偏置参数和权重参数进行合并。

对于上述实现方式，优选地，所述将所述批量正则化层中的均值参数按照第一合并策略与所述卷积层或所述全连接层中的偏置参数进行合并，获得第一合并结果，可以包括：

基于第一表达式和第二表达式将所述批量正则化层中的均值参数与所述卷积层或所述全连接层中的偏置参数进行合并，获得第一合并结果；

其中，所述第一表达式为Y＝WX+bias，所述第二表达式为其中，X为所述卷积层或所述全连接层的输入，Y为所述卷积层或所述全连接层的输出，Yb为所述批量正则化层的输出，方差variance、均值mean、beta和gamma为所述批量正则化层的参数；W为所述卷积层或所述全连接层的权值参数，bias为所述卷积层或所述全连接层的偏置参数；

所述第一合并结果如式1所示：

其中，

基于上述优选的实现方式，所述基于所述第一合并结果，将所述批量正则化层中的方差参数按照第二合并策略与所述卷积层或所述全连接层中的偏置参数和权重参数进行合并，可以包括：

设定以及并根据W′和bias′对所述第一合并结果进行化简，获得Yb＝W′X+bias′；

将所述W′和bias′保存至所述卷积层或所述全连接层的模型参数。

上述实现方式的具体推导过程如下：

首先基于第一表达式和第二表达式，令从而将第一表达式和第二表达式合并为式1；接下来，设定以及并根据W′和bias′对所述第一合并结果进行化简，获得Yb＝W′X+bias′。对比最后获得的表达式以及第一表达式，可以发现将所述W′和bias′进行提前计算后，保存至所述卷积层或所述全连接层的模型参数，则在新的前向计算过程中就不需再进行批量正则化的计算，从而节省了批量正则化的计算时间。

针对图4所示的构建过程，优选地，还可以将所述卷积层中的部分计算步骤设置在所述池化层的计算步骤之后进行计算，从而减少计算量。举例来说，通常卷积层后是池化Pool层，例如maxpool层，而卷积层的leaky激活函数以及偏置bias加法运算放置在池化层后进行，那么就能够减少3/4的激活函数计算和bias计算。此外，对于leaky激活函数以及maxpool层等耗时较大的计算过程，可以采用多线程的方式进行处理，从而进一步提高多核使用率，

针对图4所示的构建过程，优选地，还可以包括：

基于层Layer类派生用于保存CNN中各网络层输出数据Blob；

采用数据流的方式建立不同Blob之间的链接关系，搭建所述CNN。

举例来说，可以通过高效、轻量化的深度神经网络前向计算框架搭建CNN，可以实现CNN搭建方便、搭建的CNN可拓展性强，并可方便的导入darknet、caffe、tensorflow、keras和theano等网络模型，无需对不同深度学***台上的移植。并预留了GEMM和CONVOLUTION等基础函数的接口，可以方便用户针对不同平台使用如NNPACK等三方库或进行自定义优化。此外，将搭建的CNN网络通过cpp文件实现，能够实现高效的模型初始化，并能在程序发布版本中有效隐藏算法和数据的细节，避免核心算法的泄漏。具体来说，在CNN搭建过程中，可以采用与tensorflow类似的数据流图的网络搭建方式，Blob中保存各个网络层的输出数据，在网络搭建时仅需要用Layer建立不同的blob之间链接关系来搭建CNN网络。在网络层拓展时，仅需要自定义一个Layer类，实现不同Blob中的数据流转化函数，从而可以方便的增加新的网络结构，也可以方便的删除不需要的网络结构以减少程序大小。如图5所示的搭建示意，通过定义多个Layer类来派生各网络层的Blob，并建立链式连接关系。

需要说明的是，在本实施例中，Blob是一种数据结构类型，具体来说，Blob类型是(Width，Height，Channel，Number)四元组，分别表示宽度、高度、通道数、数量(或者叫种类)。

对于图4所示的构建过程，可以优选地针对CNN-YOLO 2模型进行相应的优化，从而实现在计算精度不下降的前提下，提高10倍以上的计算速度。

在实际应用中，本实施例中针对单个手势对象通过上述过程进行检测和跟踪，与相关技术中采用深度CNN网络进行手部检测的方案相比，提升了手部检测的性能，检测速度提升5倍以上，耗费计算资源降低4倍以上。

实施例二

基于前述实施例相同的发明构思，本实施例通过具体示例流程对上述实施例的技术方案进行阐述，参见图6，该流程可以包括：

S601：设置bool类型的检测标识DECTECT FLAG，并将DECTECT FLAG的初始值设置为True；

S602：接收视频帧中的第i帧；其中，i表示视频帧序号；

可以理解地，本实施例的方案可以在获取视频过程中的任一时刻执行，无需从视频的第一帧开始进行。

S603：判断DECTECT FLAG的值；若为TRUE则转至S604A；否则转至S604B；

可以理解地，当DECTECT FLAG的值为TRUE时，说明需要对第i帧的手部对象进行检测；当DECTECT FLAG的值为FALSE，说明第i帧的之前已经检测到手部对象，因此仅需要对对第i帧的手部对象进行跟踪；

S604A：按照设定的手部训练数据以及CNN模型对第i帧中的手部对象进行检测，并获取手部对象的描述属性值；

具体来说，设定的CNN模型可以按照前述实施例中图4所示的构建过程进行构建，本实施例对此不做赘述。

S605A：判断手部对象的描述值是否满足设定的触发条件；若是，则转至S606A：将DECTECT FLAG的值设置为FALSE，且设置i＝i+1并转至S602，接收视频的第i+1帧；否则，设置i＝i+1并转至S602，接收视频的第i+1帧；

S604B：基于设定的对象特征以及跟踪算法，对第i帧中的手部对象进行跟踪；

S605B：判断是否跟踪丢失；若是，则转至S606B：将DECTECT FLAG的值设置为TRUE，且设置i＝i+1并转至S602，接收视频的第i+1帧；否则，设置i＝i+1并转至S602，接收视频的第i+1帧。

通过图6所示的过程，在进行手部对象的检测及跟踪过程中，通过设置检测标识DECTECT FLAG，并且对检测标识DECTECT FLAG进行相应的赋值来控制检测过程以及跟踪过程，从而能够具体实现图1所示的技术方案。

实施例三

基于前述实施例相同的发明构思，参见图7，其示出了本发明实施例提供的一种图像处理设备70的组成，所述设备70包括：检测部分701和跟踪部分702；

其中，所述检测部分701，配置为基于设定的手部训练数据以及卷积神经网络CNN模型对视频的检测图像帧中的至少一个手部对象进行检测，并获取各手部对象的描述属性值；

所述跟踪部分702，配置为当所述各手部对象的描述属性值满足设定的触发条件时，基于设定的对象特征以及跟踪算法，对所述检测图像帧之后设定数量的跟踪图像帧中的手部对象进行跟踪。

在一种可能的实现方式中，所述手部对象的描述属性值可以包括：手部对象在检测图像帧中的位置、手部对象在检测图像帧中的尺寸、手部对象的类别以及手部对象检测的置信度。

在一种可能的实现方式中，所述检测部分701，还配置为预先收集家居场景下的常用手势数据，并对所述手势数据通过训练来获取所述手部训练数据。

在一种可能的实现方式中，所述跟踪部分702，配置为：

当手部对象的数量大于或等于3个时，触发所述检测部分701对所述检测图像帧的后一帧图像中的至少一个手部对象进行检测，并获取各手部对象的描述属性值。

在一种可能的实现方式中，所述跟踪部分702，配置为：

将各手部对象的描述属性值设置为跟踪初始值，其中，所述各手部对象的跟踪初始值包括各手部对象在检测图像帧中的位置、各手部对象在检测图像帧中的尺寸以及各手部对象的类别。

在一种可能的实现方式中，所述对象特征包括方向梯度直方图HOG特征，或者灰度Gray特征；所述跟踪算法包括核相关滤波(KCF，Kernelized Correlation Filters)算法。

在一种可能的实现方式中，所述跟踪部分702，还配置为：

针对各手部对象设置对应的跟踪峰值peak_value；

当各手部对象对应的跟踪峰值peak_value中至少一个跟踪峰值低于设定的跟踪峰值下限时，或者，当跟踪图像帧数量超出所述设定数量时，基于所述手部训练数据以及所述CNN模型，触发所述检测部分701对当前跟踪图像帧的后一帧图像中的至少一个手部对象进行检测，并获取所述各手部对象的描述属性值。

此外，参见图8，图像处理设备70还可以包括：构建部分703、第一优化部分704、第二优化部分705、第三优化部分706；其中，

构建部分703，配置为构建卷积神经网络，所述卷积神经网络至少包括四个网络层：图像输入层、至少一个卷积层、至少一个池化层和至少一个全连接层；

第一优化部分704，配置为当待检测物体数量低于预设阈值时，缩减所述CNN中卷积核的数量；

第二优化部分705，配置为将所述图像输入层输入的图像按照设定的边界判定策略划分为至少一个利用连续内存存储的内存数据段，并利用设定的连续内存拷贝函数对各内存数据段进行数据拷贝；

第三优化部分706，配置为按照设定的合并策略将批量正则化层中的原始参数与所述卷积层或所述全连接层的参数进行合并，将合并后的参数作为批量正则化层的新参数；其中，所述批量正则化层在所述卷积层或所述全连接层之后。

在一种可能的实现方式中，第一优化部分704，配置为当进行单类检测或少类检测时，缩减所述CNN中每层卷积核的数量为小于等于100。

在一种可能的实现方式中，第二优化部分705，配置为利用内存拷贝函数memcpy对所有利用连续内存存储的内存数据段进行数据拷贝。

在一种可能的实现方式中，第三优化部分706，配置为：

基于上述实现方式，第三优化部分706，具体配置为：

所述第一合并结果如式2所示：

其中，

基于上述实现方式，第三优化部分706，具体配置为：

将所述W′和bias′保存至所述卷积层或所述全连接层的模型参数，则在新的前向计算中不需要再进行批量正则化的计算，节省计算时间。

在一种可能的实现方式中，图像处理设备70还包括：第四优化部分707，配置为将所述卷积层中的部分计算步骤设置在所述池化层的计算步骤之后进行计算。

在一种可能的实现方式中，图像处理设备70还包括：第五优化部分708，配置为：

基于层Layer类派生用于保存CNN中各网络层输出数据Blob；

在一种可能的实现方式中，图像处理设备70还包括：第六优化部分709，配置为：

根据各网络层所需的内存大小，一次性为各网络层分配所需的内存空间；

所有数据直接由分配的内存空间中获取；

当所述数据不再使用时，不再使用的数据所占用的内存空间由后续数据覆盖，无需对内存进行重复的分配和释放。这样不仅减少了内容重复分配和释放所需要的计算时间，也较少了需要分配的内存大小。

可以理解地，在本实施例中，“部分”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是单元，还可以是模块也可以是非模块化的。

另外，在本实施例中的各组成部分可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

因此，本实施例提供了一种计算机可读介质，该计算机可读介质存储有图像处理程序，所述图像处理程序被至少一个处理器执行时实现上述实施例一所述的方法的步骤。

基于上述图像处理设备70的组成以及计算机可读介质，参见图9，其示出了本发明实施例提供的图像处理设备70的具体硬件结构，可以包括：拍摄装置901、存储器902和处理器903；各个组件通过总线***904耦合在一起。可理解，总线***904用于实现这些组件之间的连接通信。总线***904除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为总线***904。其中，拍摄装置901，配置为采集视频。

存储器902，配置为存储能够在处理器903上运行的计算机程序；

处理器903，配置为在运行所述计算机程序时，执行以下步骤：

可以理解，本发明实施例中的存储器902可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的***和方法的存储器902旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器903可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器903中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器903可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器902，处理器903读取存储器902中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体来说，图像处理设备70中的处理器903还配置为运行所述计算机程序时，执行前述实施例一中所述的方法步骤，这里不再进行赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种图像处理的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述手部对象的描述属性值包括：手部对象在检测图像帧中的位置、手部对象在检测图像帧中的尺寸、手部对象的类别以及手部对象检测的置信度。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：预先收集家居场景下的常用手势数据，并对所述手势数据通过训练来获取所述手部训练数据。

4.根据权利要求1所述的方法，其特征在于，当所述各手部对象的描述属性值满足设定的触发条件时，基于设定的对象特征以及跟踪算法，对所述检测图像帧之后设定数量的跟踪图像帧中的手部对象进行跟踪，包括：

当手部对象的数量小于设定个数时，基于设定的对象特征以及跟踪算法，对所述跟踪图像帧中的手部对象进行跟踪；

当手部对象的数量大于或等于设定个数时，基于所述手部训练数据以及所述CNN模型，对所述检测图像帧的后一帧图像中的至少一个手部对象进行检测，并获取各手部对象的描述属性值。

5.根据权利要求1所述的方法，其特征在于，当所述各手部对象的描述属性值满足设定的触发条件时，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述对象特征包括方向梯度直方图HOG特征，或者灰度Gray特征；所述跟踪算法包括核相关滤波(KCF，Kernelized CorrelationFilters)算法。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对各手部对象设置对应的跟踪峰值peak_value；

当各手部对象对应的跟踪峰值peak_value中至少一个跟踪峰值低于设定的跟踪峰值下限时，或者，当跟踪图像帧数量超出所述设定数量时，基于所述手部训练数据以及所述CNN模型，对当前跟踪图像帧的后一帧图像中的至少一个手部对象进行检测，并获取所述各手部对象的描述属性值。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

构建卷积神经网络，所述卷积神经网络至少包括四个网络层：图像输入层、至少一个卷积层、至少一个池化层和至少一个全连接层；

当待检测物体数量低于预设阈值时，缩减所述CNN中卷积核的数量；

将所述图像输入层输入的图像按照设定的边界判定策略划分为至少一个利用连续内存存储的内存数据段，并利用设定的连续内存拷贝函数对各内存数据段进行数据拷贝；

按照设定的合并策略将批量正则化层中的原始参数与所述卷积层或所述全连接层的参数进行合并，将合并后的参数作为批量正则化层的新参数；其中，所述批量正则化层在所述卷积层或所述全连接层之后。

9.根据权利要求8所述的方法，其特征在于，当待检测物体数量低于预设阈值时，缩减所述CNN中卷积核的数量，包括：

当进行单类检测或少类检测时，缩减所述CNN中每层卷积核的数量为小于等于100。

10.根据权利要求8所述的方法，其特征在于，所述利用设定的连续内存拷贝函数对各内存数据段进行数据拷贝，包括：

利用内存拷贝函数memcpy对所有利用连续内存存储的内存数据段进行数据拷贝。

11.根据权利要求8所述的方法，其特征在于，所述按照设定的合并策略将批量正则化层中的原始参数与所述卷积层或所述全连接层的参数进行合并，将合并后的参数作为批量正则化层的新参数，包括：

12.根据权利要求11所述的方法，其特征在于，所述将所述批量正则化层中的均值参数按照第一合并策略与所述卷积层或所述全连接层中的偏置参数进行合并，获得第一合并结果，包括：

所述第一合并结果如式1所示：

其中，

13.根据权利要求12所述的方法，其特征在于，所述基于所述第一合并结果，将所述批量正则化层中的方差参数按照第二合并策略与所述卷积层或所述全连接层中的偏置参数和权重参数进行合并，包括：

设定并根据W′和bias′对所述第一合并结果进行化简，获得Yb＝W′X+bias′；

14.根据权利要求8所述的方法，其特征在于，所述方法还包括：

将所述卷积层中的部分计算步骤设置在所述池化层的计算步骤之后进行计算。

15.根据权利要求8所述的方法，其特征在于，所述方法还包括：

基于层Layer类派生用于保存CNN中各网络层输出数据Blob；

16.根据权利要求8所述的方法，其特征在于，在搭建所述CNN时，所述方法还包括：

所有数据直接由分配的内存空间中获取；

当所述数据不再使用时，不再使用的数据所占用的内存空间由后续数据覆盖。

17.一种图像处理设备，其特征在于，所述设备包括：拍摄装置、存储器和处理器；其中，

所述拍摄装置，配置为采集视频；

所述处理器，配置为在运行所述计算机程序时，执行权利要求1至16任一项所述方法的步骤。

18.一种计算机可读介质，所述计算机可读介质存储有图像处理程序，所述图像处理程序被至少一个处理器执行时实现如权利要求1至16中任一项所述方法的步骤。