CN108960053A

CN108960053A - 归一化处理方法及装置、客户端

Info

Publication number: CN108960053A
Application number: CN201810525499.6A
Authority: CN
Inventors: 张默
Original assignee: Beijing Moshanghua Technology Co Ltd
Current assignee: Beijing Moshanghua Technology Co Ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-12-07

Abstract

本申请公开了一种归一化处理方法及装置、客户端。该归一化处理方法包括根据卷积层得到图片的特征图；对任一层输入的所述特征图(B x H x W x C)按照通道维度为单位分成G组；在每组中计算平局值和方差；本申请解决了加快训练速度和准确率无法达到均衡的技术问题。本申请达到了减少了训练网络时所需要批量大小的目的同时，能够确保了准确率相比大批量的同样网络不会下降。本申请的方法能够很好地解决模型训练时需要大批量和预测时运行速度慢的问题，同时保证了准确率。

Description

归一化处理方法及装置、客户端

技术领域

本申请涉及计算机视觉领域，具体而言，涉及一种归一化处理方法及装置、客户端。

背景技术

随着计算机视觉的快速发展，人脸识别，物体检测等领域已经有了很大的进展，尤其在准确率上有了很大的提升，很多深层次网络的出现更是加快了人脸识别，物体检测等领域的进展，在很多计算机视觉的公开数据集上，都有了很大的飞跃。

比如，人脸识别LFW数据集，准确率已经达到99.83％，远超人眼准确度，如PascalVOC数据集，物体检测也将近90％的准确率，再如COCO数据集，物体检测达到50％以上的准确率，由此可见很多准确率高的方法都是基于很大的网络。然而上述方法中也有着运行速度慢的弊端，同时训练时间长。

发明人发现，加快训练速度和准确率无法达到均衡。进一步地，无法在移动端，服务器端等多种平台上流畅运行。

针对相关技术中加快训练速度和准确率无法达到均衡的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种归一化处理方法，以解决加快训练速度和准确率无法达到均衡的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种归一化处理方法。

根据本申请的归一化处理方法包括：

根据卷积层得到图片的特征图；对任一层输入的所述特征图(B x H x W xC)按照通道维度为单位分成G组；在每组中计算平局值和方差；其中，B为图片的数目，C为通道数目，H为特征图的长，W为特征图的宽，G为组的个数。

进一步地，在每组中计算平局值和方差包括：根据图片的数目将每个图片的数目内的均值和方差相加并取均值作为最后的均值和方差。

进一步地，在每组中计算平局值和方差包括：结合前后图片的数目的信息将多次迭代的信息结合；对于第N-1次迭代的结果，通过加权平均法将迭代结果结合并计算最终的平均值。

进一步地，在每组中计算平局值和方差包括：将组归一化处理操作和批量归一化处理操作结合。

进一步地，根据卷积层得到图片的特征图包括：在输入层输入待识别图片；建立多个分组卷积模块；通过多个所述分组卷积模块输出所述待识别图片的特征图；以及根据所述特征图在输出层输出图像识别结果；其中，所述分组卷积模块中至少包括：一深度可分离卷积单元和一预设卷积核大小的卷积单元。

为了实现上述目的，根据本申请的另一方面，提供了一种归一化处理装置。

根据本申请的归一化处理装置包括：特征图输入模块，用于根据卷积层得到图片的特征图；分组模块，用于对任一层输入的所述特征图(B x H x W xC)按照通道维度为单位分成G组；计算模块，用于在每组中计算平局值和方差；其中，B为图片的数目，C为通道数目，H为特征图的长，W为特征图的宽，G为组的个数。

进一步地，计算模块包括：第一计算单元，所述第一计算单元，用于根据图片的数目将每个图片的数目内的均值和方差相加并取均值作为最后的均值和方差。

进一步地，计算模块包括：第二计算单元，所述第二计算单元，用于结合前后图片的数目的信息将多次迭代的信息结合；以及对于第N-1次迭代的结果，通过加权平均法将迭代结果结合并计算最终的平均值。

进一步地，所述特征图输入模块包括：输入单元，用于在输入层输入待识别图片；建立单元，用于建立多个分组卷积模块；第一输出单元，用于通过多个所述分组卷积模块输出所述待识别图片的特征图；以及第二输出单元，用于根据所述特征图在输出层输出图像识别结果；其中，所述分组卷积模块中至少包括：一深度可分离卷积单元和一预设卷积核大小的卷积单元。

在本申请实施例中，采用对任一层输入的所述特征图(B x H x W x C)按照通道维度为单位分成G组的方式，通过在每组中计算平局值和方差，达到了减少了训练网络时所需要批量大小的目的，从而实现了准确率相比大批量的同样网络不会下降的技术效果，进而解决了加快训练速度和准确率无法达到均衡的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的归一化处理方法示意图；

图2是根据本申请第二实施例的归一化处理方法示意图；

图3是根据本申请第三实施例的归一化处理方法示意图；

图4是根据本申请第一实施例的归一化处理装置示意图；

图5是根据本申请第二实施例的归一化处理装置示意图；以及

图6是根据本申请第三实施例的归一化处理装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S102至步骤S106：

步骤S102，根据卷积层得到图片的特征图；

假设输入特征图大小为Sf x Sf x IN，经过一次卷积，输出的特征图大小为Sf xSf x OUT，

按照传统的卷积操作，卷积核K的大小为：Sk x Sk x IN x OUT，

其中，Sf是特征图的尺寸，Sk是卷积核的尺寸，IN是输入特征图的通道数，OUT是输出特征图的通道数，一次卷积操作的过程如下：

IN个Sk x Sk个卷积核与IN个输入特征图做卷积，得到的结果相加，得到一张输出特征图，同理，一共OUT次操作，得到OUT个输出特征图，用公式表示这个过程如下：

根据公式，可以计算出传统卷积层的计算量为：

Sk x Sk x IN x OUT x Sf x Sf

参数量为：

Sk x Sk x IN x OUT。

步骤S104，对任一层输入的所述特征图(B x H x W x C)按照通道维度为单位分成G组；

其中，B为图片的数目，C为通道数目，H为特征图的长，W为特征图的宽，G为组的个数。

步骤S106，在每组中计算平局值和方差；

结合了组归一化(Group Normalization)和批归一化(Batch Normalization)的优点，针对第n次迭代，任一层输入的特征图(B x H x W x C)，B代表Batch Size，指的是图片的数目；G代表组的个数，C代表通道数目，H，W代表特征图的尺寸(长宽)。

在本申请中以通道维度为单位，分成G组。

对于G组中的每组计算平局值和方差。

其中，公式一中μ_i是计算的平均值，i的取值范围是[0，C/G]，公式二中σ_i是计算的方差，S_i是用来计算均值和方差的像素集合，m指的是集合S_i的大小，e是一个很小的常量(本申请实施例中取值为1e-6)，i_C指的是通道方向的下标，k_C指的是像素的下标，所以公式三是指所有在一个组内的像素的下标的集合。

具体地，针对第n次迭代，任一层输入的特征图(B x H x W x C)，在本申请中以通道维度为单位，分成G组，每组计算平局值和方差。优选地，作为本实施例中的优选，结合批量的信息，将每个批量内的均值和方差相加并取均值作为最后的均值和方差，对于批量大小Batch Size为1的情况，则本申请中退化成组归一化。

优选地，作为本实施例中的优选，本申请中结合前后批量的信息，将多次迭代的信息结合在一起，对于第n-1次迭代的结果，本申请通过加权平均法将其结合，权重参数为w_n-1和w_n，所以最终的平均值mean等于w_n-1x mean_n-1+w_n x mean_n，其中w_n-1+w_n＝1，通常设置w_n-1为0.99，w_n为0.01。

在本申请中提出的组批归一化方法，结合了组归一化和批归一化的优点，一方面减少了训练网络时所需要的批量大小Batch Size的大小，另一方面，结合了批量维度和时间维度的信息，保证了在小批量的情况下，准确率相比大批量的同样网络不会下降。

为了解决基于大网络如等网络训练速度慢的问题，本申请提出了全新的网络GBCNN，全称Group Batch Convolution Network，可以用于人脸识别，物体检测等深度学***局值和方差包括：将组归一化处理操作和批量归一化处理操作结合)，加速训练速度，另一方面使用分组卷积Group Convolution的策略，实现了网络的加速。

通过具体实验，本网络可以用于多项基于深度学***台都可以流畅运行，对应网络运行速度可以提高将近20倍。

从以上的描述中，可以看出，本申请实现了如下技术效果：

根据本申请实施例，作为本申请实施例的优选，如图2所示，在每组中计算平局值和方差包括：根据图片的数目将每个图片的数目内的均值和方差相加并取均值作为最后的均值和方差。优选地，作为本实施例中的优选，结合批量的信息，将每个批量内的均值和方差相加并取均值作为最后的均值和方差，对于批量大小Batch Size为1的情况，则本申请中退化成组归一化。

和/或在每组中计算平局值和方差包括：

步骤S202，结合前后图片的数目的信息将多次迭代的信息结合；

步骤S204，对于第N-1次迭代的结果，通过加权平均法将迭代结果结合并计算最终的平均值。

优选地，将在上述每组中计算平局值和方差包括：将组归一化处理操作和批量归一化处理操作结合。

根据本申请实施例，作为本申请实施例的优选，如图3所示，根据卷积层得到图片的特征图包括：

步骤S302，在输入层输入待识别图片；

待识别图片可以用于人脸识别或者物体检测。

特别地，在输入层输入待识别图片可以使用于无人车，安防等实时检测和识别。

步骤S304，建立多个分组卷积模块；

其中，所述分组卷积模块中至少包括：一深度可分离卷积单元和一预设卷积核大小的卷积单元。

在本步骤中提供了分组卷积模块，每个分组卷积模块中至少包括：一深度可分离卷积单元和一预设卷积核大小的卷积单元。由于在一个标准的CNN网络中按顺序可包括：卷积层、批归一化层(Group Batch Normalization)，激活函数层(Sigmoid)，在本实施例中提出的分组卷积模块可以替换现有CNN网络中的卷积层。

优选地，每个所述分组卷积模块中至少包括：一深度可分离卷积单元和一卷积核大小为1*1的卷积单元。可以理解，上述的深度可分离卷积单元为本领域技术人员公知的一种卷积单元结构，由于能够有效利用参数，因此深度可分离卷积单元也可以用于移动设备中。此外，采用卷积核大小为1*1的卷积单元，可减少模型参数。

每个组模块指的是深度分离卷积单元+1*1的卷积单元，1*1的卷积单元接在深度分离单元之后，可建立通道间的相关性。

步骤S306，通过多个所述分组卷积模块输出所述待识别图片的特征图；

本申请中的分组卷积模块与传统的卷积层相比，具有如下的特点：

按照传统的卷积操作，卷积核K的大小为：Sk x Sk x IN x OUT，

根据公式，可以计算出传统卷积层的计算量为：

Sk x Sk x IN x OUT x Sf x Sf

参数量为：

Sk x Sk x IN x OUT。

对应一次传统卷积的是个分组卷积模块(即深度可分离卷积单元+卷积核大小为1*1的卷积单元)。其中，深度可分离卷积单元的具体实现如下：其卷积核K的大小为：Sk xSk x IN，卷积核只跟对应通道的输入特征图做卷积，得到输出特征图，所以输出的特征图大小为Sf x Sf x IN，用公式表示这个过程如下：

根据公式，可以计算出深度分离卷积的计算量为：

Sk x Sk x IN x Sf x Sf

参数量为：

Sk x Sk x IN。

深度分离卷积之后，进入一层传统的批归一化层和激活层，然后是1x1卷积层，1x1卷积层的卷积核大小为1x 1x IN x OUT，操作跟传统卷积一致，计算量为1x 1x IN x OUTx Sf x Sf，参数量为1x 1x IN x OUT。

优选地，通过多个所述分组卷积模块输出所述待识别图片的特征图之后还依次通过：批归一化层和激活函数层。

步骤S308，根据所述特征图在输出层输出图像识别结果；

具体地，分组卷积模块总的计算量为：

Sk x Sk x IN x Sf x Sf+1x 1x IN x OUT x Sf x Sf＝(Sk x Sk+OUT)x IN xSf x Sf，

参数量：Sk x Sk x IN+1x 1x IN x OUT＝(Sk x Sk+OUT)x IN，

相比传统卷积，

计算量：(Sk x Sk+OUT)/Sk x Sk x OUT＝1/OUT+1/(Sk x Sk)，

参数量：(Sk x Sk+OUT)/Sk x Sk x OUT＝1/OUT+1/(Sk x Sk)，

可知，根据特征图在输出层输出图像识别结果时采用分组卷积模块，每个分组卷积模块中至少包括：一深度可分离卷积单元和一预设卷积核大小的卷积单元，可以将计算量和参数量减少。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述归一化处理方法的装置，如图4所示，该装置包括：特征图输入模块10，用于根据卷积层得到图片的特征图；分组模块20，用于对任一层输入的所述特征图(B x H x W x C)按照通道维度为单位分成G组；计算模块30，用于在每组中计算平局值和方差；其中，B为图片的数目，C为通道数目，H为特征图的长，W为特征图的宽，G为组的个数。

在本申请实施例的特征图输入模块10中假设输入特征图大小为Sf x Sf x IN，经过一次卷积，输出的特征图大小为Sf x Sf x OUT，

按照传统的卷积操作，卷积核K的大小为：Sk x Sk x IN x OUT，

根据公式，可以计算出传统卷积层的计算量为：

Sk x Sk x IN x OUT x Sf x Sf

参数量为：

Sk x Sk x IN x OUT。

在本申请实施例的分组模块20中其中，B为图片的数目，C为通道数目，H为特征图的长，W为特征图的宽，G为组的个数。

在本申请实施例的计算模块30中结合了组归一化(Group Normalization)和批归一化(Batch Normalization)的优点，针对第n次迭代，任一层输入的特征图(B x H x W xC)，B代表Batch SIze，指的是图片的数目；G代表组的个数，C代表通道数目，H，W代表特征图的尺寸(长宽)。

在本申请中以通道维度为单位，分成G组。

对于G组中的每组计算平局值和方差。

根据本申请实施例，作为本申请实施例的优选，如图5所示，计算模块30包括：第一计算单元301，所述第一计算单元301，用于根据图片的数目将每个图片的数目内的均值和方差相加并取均值作为最后的均值和方差。作为本实施例中的优选，结合批量的信息，将每个批量内的均值和方差相加并取均值作为最后的均值和方差，对于批量大小Batch Size为1的情况，则本申请中退化成组归一化。

计算模块30包括：第二计算单元302，所述第二计算单元302，用于结合前后图片的数目的信息将多次迭代的信息结合；以及对于第N-1次迭代的结果，通过加权平均法将迭代结果结合并计算最终的平均值。

根据本申请实施例，作为本申请实施例的优选，如图6所示，所述特征图输入模块10包括：输入单元101，用于在输入层输入待识别图片；建立单元102，用于建立多个分组卷积模块；第一输出单元103，用于通过多个所述分组卷积模块输出所述待识别图片的特征图；以及第二输出单元104，用于根据所述特征图在输出层输出图像识别结果；其中，所述分组卷积模块中至少包括：一深度可分离卷积单元和一预设卷积核大小的卷积单元。

本申请实施例的输入单元101中待识别图片可以用于人脸识别或者物体检测。

本申请实施例的建立单元102中其中，所述分组卷积模块中至少包括：一深度可分离卷积单元和一预设卷积核大小的卷积单元。

本申请实施例的第一输出单元103中本申请中的分组卷积模块与传统的卷积层相比，具有如下的特点：

按照传统的卷积操作，卷积核K的大小为：Sk x Sk x IN x OUT，

根据公式，可以计算出传统卷积层的计算量为：

Sk x Sk x IN x OUT x Sf x Sf

参数量为：

Sk x Sk x IN x OUT。

根据公式，可以计算出深度分离卷积的计算量为：

Sk x Sk x IN x Sf x Sf

参数量为：

Sk x Sk x IN。

本申请实施例的第二输出单元104中具体地，分组卷积模块总的计算量为：

Sk x Sk x IN x Sf x Sf+1x 1x IN x OUT x Sf x Sf＝(Sk x Sk+OUT)x IN xSf x Sf，

参数量：Sk x Sk x IN+1x 1x IN x OUT＝(Sk x Sk+OUT)x IN，

相比传统卷积，

计算量：(Sk x Sk+OUT)/Sk x Sk x OUT＝1/OUT+1/(Sk x Sk)，

参数量：(Sk x Sk+OUT)/Sk x Sk x OUT＝1/OUT+1/(Sk x Sk)，

在本申请另一实施例中还提供了一种客户端，包括所述的归一化处理装置。所述归一化处理装置的实现原理和有益效果如上描述，不再进行赘述。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种归一化处理方法，其特征在于，用于卷积神经网络，所述方法包括：

根据卷积层得到图片的特征图；

对任一层输入的所述特征图(B x H x W x C)按照通道维度为单位分成G组；

在每组中计算平局值和方差；

2.根据权利要求1所述的归一化处理方法，其特征在于，在每组中计算平局值和方差包括：根据图片的数目将每个图片的数目内的均值和方差相加并取均值作为最后的均值和方差。

3.根据权利要求1所述的归一化处理方法，其特征在于，在每组中计算平局值和方差包括：

结合前后图片的数目的信息将多次迭代的信息结合；

对于第N-1次迭代的结果，通过加权平均法将迭代结果结合并计算最终的平均值。

4.根据权利要求1所述的归一化处理方法，其特征在于，在每组中计算平局值和方差包括：将组归一化处理操作和批量归一化处理操作结合。

5.根据权利要求1所述的归一化处理方法，其特征在于，根据卷积层得到图片的特征图包括：

在输入层输入待识别图片；

建立多个分组卷积模块；

通过多个所述分组卷积模块输出所述待识别图片的特征图；以及

根据所述特征图在输出层输出图像识别结果；

6.一种归一化处理装置，其特征在于，包括：

特征图输入模块，用于根据卷积层得到图片的特征图；

分组模块，用于对任一层输入的所述特征图(B x H x W x C)按照通道维度为单位分成G组；

计算模块，用于在每组中计算平局值和方差；

7.根据权利要求6所述的归一化处理装置，其特征在于，计算模块包括：第一计算单元，

所述第一计算单元，用于根据图片的数目将每个图片的数目内的均值和方差相加并取均值作为最后的均值和方差。

8.根据权利要求6所述的归一化处理装置，其特征在于，计算模块包括：第二计算单元，

所述第二计算单元，用于结合前后图片的数目的信息将多次迭代的信息结合；

以及对于第N-1次迭代的结果，通过加权平均法将迭代结果结合并计算最终的平均值。

9.根据权利要求6所述的归一化处理装置，其特征在于，所述特征图输入模块包括：

输入单元，用于在输入层输入待识别图片；

建立单元，用于建立多个分组卷积模块；

第一输出单元，用于通过多个所述分组卷积模块输出所述待识别图片的特征图；以及

第二输出单元，用于根据所述特征图在输出层输出图像识别结果；

10.一种客户端，其特征在于，包括如权利要求6至9任一项所述的归一化处理装置。