CN112861586A

CN112861586A - 活体检测、图像分类和模型训练方法、装置、设备及介质

Info

Publication number: CN112861586A
Application number: CN201911186211.8A
Authority: CN
Inventors: 付华; 赵立军; 高砚
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2021-05-28
Anticipated expiration: 2039-11-27
Also published as: CN112861586B

Abstract

本发明公开了一种活体检测、图像分类和模型训练方法、装置、设备及介质，涉及数据处理技术领域，以提高活体检测的速度。该方法包括：获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像；将所述第一融合图像输入到第一模型中，得到第一活体检测结果。本发明实施例可提高活体检测的速度。

Description

活体检测、图像分类和模型训练方法、装置、设备及介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种活体检测、图像分类和模型训练方法、装置、设备及介质。

背景技术

随着人脸识别、人脸解锁等技术在金融、门禁、移动设备等日常生活中的广泛应用，人脸防伪/活体检测(Face Anti-Spoofing)技术近年来得到了越来越多的关注。基于更深更复杂的深度神经网络模型，目前在服务器端运行的活体检测模型可以达到99％的准确率。随着应用场景的增加，需要一种在可移动的终端实时运行的活体检测模型。

目前，在可移动的终端上大多采用交互方式来进行活体检测。但是，这种方式要求被检测对象配合做动作，比较耗时，从而影响了检测速度。

发明内容

本发明实施例提供一种活体检测、图像分类和模型训练方法、装置、设备及介质，以提高活体检测的速度。

第一方面，本发明实施例提供了一种活体检测方法，包括：

获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB(Red，Green，Blue)图和所述RGB图对应的一帧深度图；

将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像；

将所述第一融合图像输入到第一模型中，得到第一活体检测结果。

第二方面，本发明实施例还提供一种模型训练方法，包括：

获取模型训练样本集，所述模型训练样本集包括多个融合图像，其中，每个融合图像是由一帧RGB图和所述RGB图对应的一帧深度图进行融合处理后获得的；

将所述训练样本集输入机器学习网络模型，训练得到第一模型。

第三方面，本发明实施例还提供了一种图像分类方法，包括：

获取目标图像组，其中，所述目标图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；

将所述第一融合图像输入到第一模型中，得到图像分类结果。

第四方面，本发明实施例还提供了一种活体检测装置，包括：

第一获取模块，用于获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求；

第一融合模块，用于将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像；

第一处理模块，用于将所述第一融合图像输入到第一模型中，得到第一活体检测结果。

第五方面，本发明实施例还提供了一种模型训练装置，包括：

第一获取模块，用于获取模型训练样本集，所述模型训练样本集包括多个融合图像，其中，每个融合图像是由一帧RGB图和所述RGB图对应的一帧深度图进行融合处理后获得的；

训练模块，用于将所述训练样本集输入机器学习网络模型，训练得到第一模型。

第六方面，本发明实施例还提供了一种图像分类装置，包括：

第一获取模块，用于获取目标图像组，其中，所述目标图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；

第一处理模块，用于将所述第一融合图像输入到第一模型中，得到图像分类结果。

第七方面，本发明实施例还提供一种电子设备，包括：收发机、存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如上所述的第一方面或第二方面或第三方面所述的方法中的步骤。

第八方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的第一方面或第二方面或第三方面所述的方法中的步骤。

在本发明实施例中，利用获取的目标人脸图像组中的单帧RGB图和对应的深度图进行融合，并利用融合后的结果作为模型的输入，从而得到活体检测结果。因此，利用本发明实施例的装置，无需被检测对象配合做动作，从而提高了检测速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的活体检测方法的流程图之一；

图2是本发明实施例提供的选取目标人脸图像组的流程图；

图3是本发明实施例提供的图像融合过程的示意图；

图4是本发明实施例提供的活体检测方法的流程图之二；

图5是本发明实施例提供的堆砌成CNN Stem的三种模块的结构图；

图6是本发明实施例提供的活体检测方法的流程图之三；

图7是本发明实施例提供的Fire Module的结构图；

图8是本发明实施例提供的模型训练方法的流程图；

图9是本发明实施例提供的图像分类方法的流程图；

图10是本发明实施例提供的活体检测装置的结构图；

图11是本发明实施例提供的模型训练装置的结构图；

图12是本发明实施例提供的图像分类装置的结构图；

图13是本发明实施例提供的电子设备的结构图之一；

图14是本发明实施例提供的电子设备的结构图之二；

图15是本发明实施例提供的电子设备的结构图之三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的活体检测方法的流程图，应用于电子设备，如可移动的终端等。如图1所示，包括以下步骤：

步骤101、获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图。

在本发明实施例中，可通过电子设备提供的摄像头获取目标人脸图像组。实际应用中，通过电子设备提供的摄像头可获取多个人脸图像组。在本发明实施例中，为提高判断的准确性，要求目标人脸图像组中，RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。其中，该第一预设要求和第二预设要求可根据需要设置。

例如，该第一预设要求可以是人脸区域的大小大于某个预设值，第二预设要求可以是深度大于某个预设值。

因此，在步骤101之前，所述方法还可包括：获取待检测的人脸图像组，其中，所述待检测的人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图，然后，从所述待检测的人脸图像组中选取所述目标人脸图像组。

结合图2所示，示出了选取目标人脸图像组的过程。对于获取的待检测的人脸图像组中的一帧RGB图和所述RGB图对应的一帧深度图，首先，判断RGB中是否存在人脸区域。若存在，则继续后续处理。否则，可重新获取人脸图像组。在存在人脸区域的情况下，在RGB图中确定人脸区域，并判断人脸区域的大小是否符合要求。若符合要求则继续后续处理，否则重新获取人脸图像组。在人脸图像的大小符合预设要求的情况下，从RGB图中裁剪出人脸区域。在裁剪出的人脸区域中，RGB图和深度图的像素位置一一对应。对于裁剪出的人脸区域，判断其深度是否符合要求。若符合要求，则继续后续处理。否则，可重新获取人脸图像组。同时，对于裁剪出的人脸区域还要判断其是否存在人脸被遮挡的现象。若不存在，则继续后续处理。否则，可重新获取人脸图像组。假设不存在人脸遮挡，且裁剪出的人脸区域的深度符合预设要求，那么，可作为目标人脸图像组，并进行后续处理。

步骤102、将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像。

结合图3所示，在本发明实施例中，融合方式可包括以下几种：

(1)仅保留深度图，得到单通道图(记为A，Depth(1))；

(2)将深度图映射成彩色图(记为B)，并将彩色图和RGB图进行叠加(如按照不同的权重进行叠加)，得到三通道图(Depth(3)+Color(3))；

(3)仅保留深度图，得到单通道图；将单通道图添加到RGB图的Alpha通道上，得到四通道图(Color(3)+Depth(a))；

(4)将深度图映射成彩色图(记为B)(Depth(3))；

(5)将RGB图转换为单通道灰度图，将深度图映射成彩色图；将单通道灰度图添加到彩色图的Alpha通道上，得到四通道图(Depth(3)+Color(a))。

那么，相应的，在此步骤中，所述第一方式可以是以上融合方式中的任意一种。具体的，按照以下任意一种方式，所述将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像：

仅保留所述深度图，得到第一单通道图；或者

将所述深度图映射成第一彩色图，并将所述第一彩色图和所述RGB图进行叠加，得到三通道图；或者

仅保留所述深度图，得到第二单通道图；将所述第二单通道图添加到所述RGB图的Alpha通道上，得到四通道图；或者

将所述深度图映射成第二彩色图；或者

将所述RGB图转换为单通道灰度图，将所述深度图映射成第二彩色图；将所述单通道灰度图添加到所述第二彩色图的Alpha通道上，得到四通道图。

步骤103、将所述第一融合图像输入到第一模型中，得到第一活体检测结果。

在本发明实施例中，所述第一模型例如可以是FeatherNet(羽毛网络)、FeatherNet、MobileNet、ShuffleNet、EfficientNet、SqueezeNet中的一种。

在本发明实施例中，以FeatherNet为例，对其进行改进后作为在此的第一模型。因此，在本发明实施例中，FeatherNet可以称为改进的FeatherNet。

在本发明实施例的FeatherNet的CNN Stem(卷积神经网络主干)中包括Deformable Depthwise Convolution(可变形深度卷积，DDWConv)；在FeatherNet的Streaming Module(流模块)中包括所述Deformable Depthwise Convolution。

其中，所述Deformable Depthwise Convolution是利用深度卷积DepthwiseConvolution(DWConv)和Deformable Convolution(如，Deformable Convolution V2，第二版本的可变形卷积)相结合得到的。

或者，在实际应用中，所述FeatherNet的CNN Stem为3×3的可变形深度卷积Deformable Depthwise Convolution；其中，所述3×3的可变形深度卷积DeformableDepthwise Convolution是利用3×3的Deformable Convolution和以下任一卷积方式相结合得到的：Deformable Convolution，或Dilated Convolution。

或者，所述FeatherNet的CNN Stem为1×3的DDWConv与3×1的DDWConv的组合。

所述FeatherNet的Streaming Module为k×k的可变形深度卷积DeformableDepthwise Convolution；其中，所述k×k的可变形深度卷积Deformable DepthwiseConvolution是利用k×k的可变形卷积Deformable Convolution和以下任一卷积方式相结合得到的：Deformable Convolution，或Dilated Convolution。

具体地，所述k×k的可变形深度卷积Deformable Depthwise Convolution可以为7×7的可变形深度卷积Deformable Depthwise Convolution，对应地，所述k×k的可变形卷积Deformable Convolution为7×7的可变形卷积Deformable Convolution。

或者，所述FeatherNet的Streaming Module为1×k的Deformable DepthwiseConvolution与k×1的Deformable Depthwise Convolution的组合。具体的，所述1×k的Deformable Depthwise Convolution可以为1×7的Deformable Depthwise Convolution，所述k×1的Deformable Depthwise Convolution可以为7×1的Deformable DepthwiseConvolution。

参见图4，图4是本发明实施例提供的活体检测方法的流程图，应用于电子设备，如可移动的终端等。如图4所示，包括以下步骤：

步骤401、训练第一模型。

其中，所述第一模型可包括FeatherNet。

以FeatherNet为例，在本发明实施例中，对FeatherNet进行改进，得到改进的FeatherNet。在本发明实施例中，FeatherNet主要由CNN Stem网络和Streaming Module连接构成。根据CNN Stem的不同，可分为两种FeatherNet：FeatherNetA和FeatherNetB。

在FeatherNet的CNN Stem中包括3×3的Deformable Depthwise Convolution；在FeatherNet的Streaming Module中包括7×7的Deformable Depthwise Convolution。其中，所述Deformable Depthwise Convolution是利用3×3的深度卷积DWConv和DeformableConvolution V2相结合得到的。或者，在实际应用中，所述3×3的可变形深度卷积Deformable Depthwise Convolution是利用3×3的Deformable Convolution和以下任一卷积方式相结合得到的：可变形卷积Deformable Convolution，或空洞卷积DilatedConvolution；或者，所述FeatherNet的CNN Stem为1×3的Deformable DepthwiseConvolution与3×1的Deformable Depthwise Convolution的组合；

所述FeatherNet的Streaming Module为7×7的可变形深度卷积DeformableDepthwise Convolution；其中，所述7×7的可变形深度卷积Deformable DepthwiseConvolution是利用7×7的可变形卷积Deformable Convolution和以下任一卷积方式相结合得到的：可变形卷积Deformable Convolution，或空洞卷积Dilated Convolution；或者，所述FeatherNet的Streaming Module为1×k的Deformable Depthwise Convolution与k×1的Deformable Depthwise Convolution的组合，例如，所述1×k的Deformable DepthwiseConvolution为1×7的Deformable Depthwise Convolution；所述k×1的DeformableDepthwise Convolution为7×1的Deformable Depthwise Convolution。所述k为大于1的正整数

图5是堆砌成CNN Stem的三种模块的结构图，即BlockA、BlockB、BlockC。具体的，结合图5，在本发明实施例中，在三种模块中，将原始CNN Stem中的3×3的DWConv与Deformable Convolution V2相结合，得到Deformable Depthwise Convolution(DDWConv)：即在3×3的DWConv上多加3维，分别用于学习位置的偏移量(x与y方向)和权重项。同时，利用3×3的DDWConv替换3×3的DWConv。

同时，也将原始Streaming Module中的7×7的DWConv用7×7的DDWConv替换，这样更能凸显Streaming Module的设计初衷，学习到有效的感受野(Effective ReceptiveField)。

其中，Deformable Convolution V2是在V1版的基础上加入了权重项，效果更佳。

其中，在此步骤中，获取模型训练样本集，所述模型训练样本集包括多个融合图像，其中，每个融合图像是由一帧RGB图和所述RGB图对应的一帧深度图进行融合处理后获得的，然后，将所述训练样本集输入机器学习网络模型，训练得到所述第一模型。

步骤402、获取待检测的人脸图像组，其中，所述待检测的人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图。

步骤403、从所述待检测的人脸图像组中选取目标人脸图像组。其中，所述目标人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图。

步骤404、将所述目标人脸图像组的RGB图和深度图以第一融合方式进行融合，得到第一融合图像。

步骤405、将所述第一融合图像输入到第一模型中，得到第一活体检测结果。

在本发明实施例中，第一活体检测结果可以是数值。通过将该数值和预先设定的阈值进行比较，从而可确定是否包括真实的人脸图像。此外，如果第一活体检测结果的数值符合预设要求，例如数值位于某个数值范围内，为了提高检测结果的准确性，还可再将进行后续的级联判断。

步骤406、将所述RGB图和所述深度图以第二融合方式进行融合，得到第二融合图像；所述第二融合方式和所述第一融合方式不同。

所述第一融合方式和所述第二融合方式的具体内容可参照前述实施例的描述。

步骤407、将所述第二融合图像输入到所述第一模型或者第二模型中，得到第二活体检测结果。

其中，所述第一模型和所述第二模型是不同的模型。所述第二模型例如可以是SqueezeNet。在实际应用中，还可预先训练所述第二模型。

步骤408、根据所述第一活体检测结果和所述第二活体检测结果，得到最终的活体检测结果。

在本发明实施例中，第二活体检测结果可以是数值。那么，在此，对所述第一活体检测结果和所述第二活体检测结果进行运算，并将运算结果作为所述最终的活体检测结果。

所述运算包括以下任意一种：计算所述第一活体检测结果和第一加权值的乘积，计算所述第二活体检测结果和第二加权值的乘积，并将获得的乘积求和；或者，计算所述第一活体检测结果和所述第二活体检测结果的平均值。当然，在实际应用中还可有其他的计算方式，在本发明实施例中不做限定。

对于获得的运算值，将其和某个预设值进行比较，从而确定是否包括真实的人脸图像。

在获得第一活体检测结果后，再获得第二活体检测结果，并综合第一活体检测结果和第二活体检测结果，得到最终的活体检测结果。通过以上的级联检测，可提高检测结果的准确性。

在本发明实施例中，利用获取的目标人脸图像组中的单帧RGB图和对应的深度图进行融合，并利用融合后的结果作为模型的输入，从而得到活体检测结果。因此，利用本发明实施例的装置，无需被检测对象配合做动作，从而提高了检测速度。此外，由于本发明实施例的方案采用FeatherNet，模型非常小，因此，适合在终端等移动端设置。

参见图6，图6是本发明实施例提供的活体检测方法的流程图，应用于电子设备，如可移动的终端等。如图6所示，包括以下步骤：

步骤601、训练第一模型。

其中，所述第一模型可包括SqueezeNet等等。

以SqueezeNet为例，在本发明实施例中，对SqueezeNet进行改进，得到改进的SqueezeNet。在本发明实施例中，所述SqueezeNet包括Fire Module和Streaming Module(流模块)。

图7是本发明实施例中Fire Module的结构图。其中，所述Fire Module包括Squeeze层、Expand层和BatchNorm层。所述Squeeze层、Expand层的作用和现有技术中的相同，区别在于，所述Squeeze层和所述Expand层使用1×1的卷积核和Deformable DepthwiseConvolution(DDWConv)的卷积核进行卷积运算。所述BatchNorm层用于对模型进行收敛。通过对模型进行收敛，可提高获得准确的模型的速度。其中，所述Deformable DepthwiseConvolution是利用3×3的深度卷积DWConv和Deformable Convolution V2相结合得到的。或者，在实际应用中，所述Deformable Depthwise Convolution是利用3×3的DWConv和以下任一卷积核相结合得到的：Deformable Convolution V1，Dilated Convolution，1×3卷积核与3×1卷积核的组合。

所述Streaming Module用于对所述待处理图像的各个区域进行加权计算，从而可提高模型的准确率。

步骤602、获取待检测的人脸图像组，其中，所述待检测的人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图。

步骤603、从所述待检测的人脸图像组中选取目标人脸图像组。其中，所述目标人脸图像组中包括一帧RGB图和RGB图对应的一帧深度图；所述RGB图中人脸区域的大小符合第一预设要求且所述深度图的深度符合第二预设要求。

步骤604、将所述目标人脸图像组的RGB图和深度图以第一融合方式进行融合，得到第一融合图像。

步骤605、将所述第一融合图像输入到第一模型中，得到第一活体检测结果。

步骤606、将所述RGB图和所述深度图以第二融合方式进行融合，得到第二融合图像；所述第二融合方式和所述第一融合方式不同。

步骤607、将所述第二融合图像输入到所述第一模型或者第二模型中，得到第二活体检测结果。

其中，所述第一模型和所述第二模型是不同的模型。所述第二模型例如可以是FeatherNet、MobileNet、ShuffleNet、EfficientNet等。在实际应用中，还可预先训练所述第二模型。

步骤608、根据所述第一活体检测结果和所述第二活体检测结果，得到最终的活体检测结果。

所述运算包括以下任意一种：计算所述第一活体检测结果和第一加权值的乘积，计算所述第二活体检测结果和第二加权值的乘积，并将获得的乘积求和；计算所述第一活体检测结果和所述第二活体检测结果的平均值。当然，在实际应用中还可有其他的计算方式，在本发明实施例中不做限定。

在本发明实施例中，利用获取的目标人脸图像组中的单帧RGB图和对应的深度图像进行融合，并利用融合后的结果作为模型的输入，从而得到活体检测结果。因此，利用本发明实施例的装置，无需被检测对象配合做动作，从而提高了检测速度。此外，由于本发明实施例的方案采用SqueezeNet，模型非常小，因此，适合在终端等移动端设置。

参见图8，图8是本发明实施例提供的模型训练方法的流程图。如图8所示，包括以下步骤：

步骤801、获取模型训练样本集，所述模型训练样本集包括多个融合图像，其中，每个融合图像是由一帧RGB图和所述RGB图对应的一帧深度图进行融合处理后获得的。

其中，在此步骤中，可获取待处理图像，然后对所述待处理图像添加标注。所述待处理图像包括一帧RGB图以及和所述RGB图对应的一帧深度图。在进行标注时，可对RGB图和深度图都进行标注，也可只对RGB图或者深度图进行标注。其中，所述标注用于表示图像中是否存在真正的人脸图像。之后，对RGB图和深度图进行融合，得到融合图像。其中，融合方式可参照前述实施例的描述。

在此，利用平衡交叉熵损失函数(a-Balanced Focal Loss)作为损失函数训练分类模型，对所述待处理图像添加标注，从而可有效缓解训练样本的类别和难易程度分布不均衡的问题，提升模型的泛化能力和准确率。

其中，平衡交叉熵损失函数计算方式如下：

FL(p_t)＝-a_t(1-p_t)^γlog(p_t)

FL是一个尺度动态可调的交叉熵损失函数，在FL中有两个参数a_t和γ，其中，a_t的主要作用是解决正负样本的不平衡的问题，γ主要是解决难易样本的不平衡的问题。

步骤802、将所述训练样本集输入机器学习网络模型，训练得到第一模型。

在本发明实施例中，所述第一模型包括FeatherNet、MobileNet、ShuffleNet、EfficientNet、SqueezeNet中的一种。

以FeatherNet为例，在FeatherNet的卷积神经网络主干CNN Stem中利用Deformable Depthwise Convolution进行计算；在FeatherNet的流模块Streaming Module中利用Deformable Depthwise Convolution进行计算；其中，所述Deformable DepthwiseConvolution是利用深度卷积Depthwise Convolution和可变形卷积DeformableConvolution相结合得到的。或者，FeatherNet的CNN Stem为3×3的可变形深度卷积Deformable Depthwise Convolution；其中，所述3×3的可变形深度卷积DeformableDepthwise Convolution是利用3×3的Deformable Convolution和以下任一卷积方式相结合得到的：可变形卷积Deformable Convolution，或空洞卷积Dilated Convolution；或者，所述FeatherNet的CNN Stem为1×3的Deformable Depthwise Convolution与3×1的Deformable Depthwise Convolution的组合；

所述FeatherNet的Streaming Module为7×7的可变形深度卷积DeformableDepthwise Convolution；其中，所述7×7的可变形深度卷积Deformable DepthwiseConvolution是利用7×7的可变形卷积Deformable Convolution和以下任一卷积方式相结合得到的：可变形卷积Deformable Convolution，或空洞卷积Dilated Convolution。

或者，所述FeatherNet的Streaming Module为1×k的Deformable DepthwiseConvolution与k×1的Deformable Depthwise Convolution的组合。具体的，所述1×k的Deformable Depthwise Convolution可以为1×7的Deformable Depthwise Convolution，所述k×1的Deformable Depthwise Convolution可以为7×1的Deformable DepthwiseConvolution。所述k为大于1的正整数。

通过将FeatherNet中的DWConv与Deformable Convolution V2结合，不仅使卷积核集中在更有效的感受区域上，加强模型的特征提取，提升模型准确率，而且DWConv又可减小模型体积，更适合在移动端上应用。

在上述实施例的基础上，还可对训练得到的模型进行剪枝和再训练，从而进一步缩减模型。

通过以上描述可以看出，在本发明实施例中，使用单帧的RGB图和深度图进行多种方式的融合，提高了处理速度，并通过级联判断提高了检测结果的准确性。由于本发明实施例中的FeatherNet模型比较小，因此，适合在移动端运行。同时，在获得FeatherNet模型的过程中，将DWConv与Deformable Convolution V2结合，不仅使卷积核集中在更有效的感受区域上以加强模型的特征提取，提升模型准确率，同时，还可减小模型体积。

参见图9，图9是本发明实施例提供的图像分类方法的流程图。如图9所示，包括以下步骤：

步骤901、获取目标图像组，其中，所述目标图像组中包括一帧RGB图和所述RGB图对应的一帧深度图。

其中，所述目标图像组可以是包括任意内容的图像，比如人脸，风景等。

步骤902、将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像。

其中，融合方式可参见前述实施例的描述。

步骤903、将所述第一融合图像输入到第一模型中，得到图像分类结果。

其中，根据分类目标的不同，在此可有不同的图像分类结果。例如，所述图像分类结果可以是包括人脸的图像和不包括人脸的图像，包括风景的图像和不包括风景的图像等；所述图像分类方法可以应用在活体检测领域，也可以应用在其他领域。所述第一模型可参见前述实施例的FeatherNet等模型的结构及对应的训练过程的内容。

在本发明实施例中，利用获取的单帧RGB图和对应的深度图进行融合，并利用融合后的结果作为模型的输入，从而得到图像分类结果。因此，利用本发明实施例的装置，提高了图像分类的速度。

本发明实施例还提供了一种活体检测装置。参见图10，图10是本发明实施例提供的活体检测装置的结构图。由于活体检测装置解决问题的原理与本发明实施例中活体检测方法相似，因此该活体检测装置的实施可以参见方法的实施，重复之处不再赘述。

如图10所示，活体检测装置包括：第一获取模块1001，用于获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；第一融合模块1002，用于将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像；第一处理模块1003，用于将所述第一融合图像输入到第一模型中，得到第一活体检测结果。

可选的，所述第一融合模块1002按照以下任意一种方式，所述将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像：

仅保留所述深度图，得到第一单通道图；或者，

将所述深度图映射成第一彩色图，并将所述第一彩色图和所述RGB图进行叠加，得到三通道图；或者，

仅保留所述深度图，得到第二单通道图；将所述第二单通道图添加到所述RGB图的Alpha通道上，得到四通道图；或者，

将所述深度图映射成第二彩色图；或者，

可选的，所述装置还可包括：

第二融合模块，用于将所述RGB图和所述深度图以第二融合方式进行融合，得到第二融合图像；所述第二融合方式和所述第一融合方式不同；

第二处理模块，用于将所述第二融合图像输入到所述第一模型或者第二模型中，得到第二活体检测结果；其中，所述第一模型和所述第二模型是不同的模型；

第三处理模块，用于根据所述第一活体检测结果和所述第二活体检测结果，得到最终的活体检测结果。

可选的，所述第三处理模块，用于对所述第一活体检测结果和所述第二活体检测结果进行运算，并将运算结果作为所述最终的活体检测结果；

所述运算包括以下任意一种：

计算所述第一活体检测结果和第一加权值的乘积，计算所述第二活体检测结果和第二加权值的乘积，并将获得的乘积求和；或者

计算所述第一活体检测结果和所述第二活体检测结果的平均值。

可选的，所述装置还可包括：

第二获取模块，用于获取待检测的人脸图像组，其中，所述待检测的人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；

选取模块，用于从所述待检测的人脸图像组中选取所述目标人脸图像组。

所述第一模型的含义可参照前述方法实施例的描述。

本发明实施例提供的装置，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本发明实施例还提供了一种模型训练装置。参见图11，图11是本发明实施例提供的模型训练装置的结构图。由于模型训练装置解决问题的原理与本发明实施例中模型训练方法相似，因此该模型训练装置的实施可以参见方法的实施，重复之处不再赘述。

如图11所示，模型训练装置包括：第一获取模块1101，用于获取模型训练样本集，所述模型训练样本集包括多个融合图像，其中，每个融合图像是由一帧RGB图和所述RGB图对应的一帧深度图进行融合处理后获得的；训练模块1102，用于将所述训练样本集输入机器学习网络模型，训练得到第一模型。

可选的，在FeatherNet的卷积神经网络主干CNN Stem中利用DeformableDepthwise Convolution进行计算；

在FeatherNet的流模块Streaming Module中利用Deformable DepthwiseConvolution进行计算；

其中，所述FeatherNet的CNN Stem为3×3的可变形深度卷积DeformableDepthwise Convolution；其中，所述3×3的可变形深度卷积Deformable DepthwiseConvolution是利用3×3的Deformable Convolution和以下任一卷积方式相结合得到的：可变形卷积Deformable Convolution，或空洞卷积Dilated Convolution；或者，所述FeatherNet的CNN Stem为1×3的Deformable Depthwise Convolution与3×1的Deformable Depthwise Convolution的组合。

所述FeatherNet的Streaming Module为k×k的可变形深度卷积DeformableDepthwise Convolution；其中，所述k×k的可变形深度卷积Deformable DepthwiseConvolution是利用k×k的可变形卷积Deformable Convolution和以下任一卷积方式相结合得到的：可变形卷积Deformable Convolution，或空洞卷积Dilated Convolution；或者，所述FeatherNet的Streaming Module为1×k的Deformable Depthwise Convolution与k×1的Deformable Depthwise Convolution的组合。所述k为大于1的正整数。

具体的，所述k×k的可变形深度卷积Deformable Depthwise Convolution可以为7×7的可变形深度卷积Deformable Depthwise Convolution；所述7×7的可变形深度卷积Deformable Depthwise Convolution是利用7×7的可变形卷积Deformable Convolution和以下任一卷积方式相结合得到的，包括：1×7的Deformable Depthwise Convolution，或者7×1的Deformable Depthwise Convolution。

可选的，通过以下任意一种方式得到所述融合图像：

仅保留所述深度图，得到第一单通道图；或者，

将所述深度图映射成第二彩色图；或者，

本发明实施例还提供了一种图像分类装置。参见图12，图12是本发明实施例提供的图像分类装置的结构图。由于图像分类装置解决问题的原理与本发明实施例中图像分类方法相似，因此该图像分类装置的实施可以参见方法的实施，重复之处不再赘述。

如图12所示，图像分类装置包括：第一获取模块1201，用于获取目标图像组，其中，所述目标图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；第一融合模块1202，用于将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像；第一处理模块1203，用于将所述第一融合图像输入到第一模型中，得到图像分类结果。

所述第一模型的含义可参照前述方法实施例的描述。

如图13所示，本发明实施例的电子设备，包括：处理器1300，用于读取存储器1320中的程序，执行下列过程：

获取目标人脸图像组，其中，所述目标人脸图像组中包括一帧RGB图和所述RGB图对应的一帧深度图；

收发机1310，用于在处理器1300的控制下接收和发送数据。

其中，在图13中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1300代表的一个或多个处理器和存储器1320代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1310可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器1300负责管理总线架构和通常的处理，存储器1320可以存储处理器1300在执行操作时所使用的数据。

处理器1300负责管理总线架构和通常的处理，存储器1320可以存储处理器1300在执行操作时所使用的数据。

处理器1300还用于读取所述程序，执行如下步骤:

按照以下任意一种方式，所述将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像：

仅保留所述深度图，得到第一单通道图；或者，

将所述深度图映射成第二彩色图；或者，

处理器1300还用于读取所述程序，执行如下步骤:

将所述RGB图和所述深度图以第二融合方式进行融合，得到第二融合图像；所述第二融合方式和所述第一融合方式不同；

将所述第二融合图像输入到所述第一模型或者第二模型中，得到第二活体检测结果；其中，所述第一模型和所述第二模型是不同的模型；

根据所述第一活体检测结果和所述第二活体检测结果，得到最终的活体检测结果。

处理器1300还用于读取所述程序，执行如下步骤:

对所述第一活体检测结果和所述第二活体检测结果进行运算，并将运算结果作为所述最终的活体检测结果；

所述运算包括以下任意一种：

计算所述第一活体检测结果和第一加权值的乘积，计算所述第二活体检测结果和第二加权值的乘积，并将获得的乘积求和；或者，

其中，所述第一模型的含义可参照前述实施例的描述。

如图14所示，本发明实施例的电子设备，包括：处理器1400，用于读取存储器1420中的程序，执行下列过程：

收发机1410，用于在处理器1400的控制下接收和发送数据。

其中，在图14中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1400代表的一个或多个处理器和存储器1420代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1410可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器1400负责管理总线架构和通常的处理，存储器1420可以存储处理器1400在执行操作时所使用的数据。

处理器1400负责管理总线架构和通常的处理，存储器1420可以存储处理器1400在执行操作时所使用的数据。

其中，所述第一模型包括FeatherNet、MobileNet、ShuffleNet、EfficientNet、SqueezeNet中的一种。

其中，所述第一模型为FeatherNet；在FeatherNet的卷积神经网络主干CNN Stem中利用Deformable Depthwise Convolution进行计算；

其中，所述Deformable Depthwise Convolution是利用深度卷积DWConv和Deformable Convolution V2相结合得到的。

其中，所述第一模型为FeatherNet；在FeatherNet的CNN Stem中利用DeformableDepthwise Convolution进行计算；

在FeatherNet的Streaming Module中利用Deformable Depthwise Convolution进行计算；

其中，所述Deformable Depthwise Convolution是利用DWConv和以下任一卷积核相结合得到的：

第一版本的可变形卷积Deformable Convolution V1，空洞卷积DilatedConvolution；或者，所述FeatherNet的CNN Stem为1×3的可变形深度卷积DeformableDepthwise Convolution与3×1的可变形深度卷积Deformable Depthwise Convolution的组合；

所述FeatherNet的Streaming Module为k×k的可变形深度卷积DeformableDepthwise Convolution，所述k为大于1的正整数；进一步地，所述FeatherNet的StreamingModule为k×k的可变形深度卷积Deformable Depthwise Convolution；其中，所述k×k的可变形深度卷积Deformable Depthwise Convolution是利用k×k的可变形卷积Deformable Convolution和以下任一卷积方式相结合得到的：可变形卷积DeformableConvolution，或空洞卷积Dilated Convolution；

或者，所述FeatherNet的Streaming Module为1×k可变形深度卷积的DeformableDepthwise Convolution与k×1的可变形深度卷积Deformable Depthwise Convolution的组合。

其中，通过以下任意一种方式得到所述融合图像：

仅保留所述深度图，得到第一单通道图；或者，

将所述深度图映射成第二彩色图；或者，

如图15所示，本发明实施例的电子设备，包括：处理器1500，用于读取存储器1520中的程序，执行下列过程：

收发机1510，用于在处理器1500的控制下接收和发送数据。

其中，在图15中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1500代表的一个或多个处理器和存储器1520代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1510可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器1500负责管理总线架构和通常的处理，存储器1520可以存储处理器1500在执行操作时所使用的数据。

处理器1500负责管理总线架构和通常的处理，存储器1520可以存储处理器1500在执行操作时所使用的数据。

所述第一模型的含义可参照前述方法实施例的描述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述活体检测方法或者模型训练方法或者图像分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。根据这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种模型训练方法，其特征在于，包括：

获取模型训练样本集，所述模型训练样本集包括多个融合图像，其中，每个融合图像是由一帧红绿蓝RGB图和所述RGB图对应的一帧深度图进行融合处理后获得的；

2.根据权利要求1所述的方法，其特征在于，所述第一模型包括FeatherNet、MobileNet、ShuffleNet、EfficientNet、SqueezeNet中的一种。

3.根据权利要求2所述的方法，其特征在于，所述第一模型为FeatherNet；

FeatherNet的卷积神经网络主干CNN Stem为3×3的可变形深度卷积DeformableDepthwise Convolution；

FeatherNet的流模块Streaming Module为k×k的可变形深度卷积DeformableDepthwise Convolution，所述k为大于1的正整数；

其中，所述Deformable Depthwise Convolution是利用深度卷积DepthwiseConvolution和可变形卷积Deformable Convolution相结合得到的。

4.根据权利要求2所述的方法，其特征在于，所述第一模型为FeatherNet；

FeatherNet的CNN Stem为3×3的可变形深度卷积Deformable DepthwiseConvolution；其中，所述3×3的可变形深度卷积Deformable Depthwise Convolution是利用3×3的可变形Deformable Convolution和以下任一卷积方式相结合得到的：可变形卷积Deformable Convolution，或空洞卷积Dilated Convolution；

或者，所述FeatherNet的CNN Stem为1×3的可变形深度卷积Deformable DepthwiseConvolution与3×1的可变形深度卷积Deformable Depthwise Convolution的组合；

所述FeatherNet的Streaming Module为k×k的可变形深度卷积DeformableDepthwise Convolution；其中，所述k×k的可变形深度卷积Deformable DepthwiseConvolution是利用k×k的可变形卷积Deformable Convolution和以下任一卷积方式相结合得到的：可变形卷积Deformable Convolution，或空洞卷积Dilated Convolution；

或者，所述FeatherNet的Streaming Module为1×k可变形深度卷积的DeformableDepthwise Convolution与k×1的可变形深度卷积Deformable Depthwise Convolution的组合；

所述k为大于1的正整数。

5.根据权利要求1所述的方法，其特征在于，通过以下任意一种方式得到所述融合图像：

仅保留所述深度图，得到第一单通道图；或者，

将所述深度图映射成第二彩色图；或者，

6.一种活体检测方法，其特征在于，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像，包括以下任意一种方式：

仅保留所述深度图，得到第一单通道图；或者，

将所述深度图映射成第二彩色图；或者，

8.根据权利要求6所述的方法，其特征在于，在所述将所述第一融合图像输入到第一模型中，得到第一活体检测结果之后，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述第一活体检测结果和所述第二活体检测结果，得到最终的活体检测结果，包括：

所述运算包括以下任意一种：

10.根据权利要求6所述的方法，其特征在于，所述第一模型包括FeatherNet、MobileNet、ShuffleNet、EfficientNet、SqueezeNet中的一种。

11.根据权利要求10所述的方法，其特征在于，所述第一模型为FeatherNet；

12.根据权利要求10所述的方法，其特征在于，所述第一模型为FeatherNet；

所述FeatherNet的CNN Stem为3×3的可变形深度卷积Deformable DepthwiseConvolution；其中，所述3×3的可变形深度卷积Deformable Depthwise Convolution是利用3×3的可变形卷积Deformable Convolution和以下任一卷积方式相结合得到的：可变形卷积Deformable Convolution，或空洞卷积Dilated Convolution；

或者，所述FeatherNet的Streaming Module为1×k的Deformable DepthwiseConvolution与k×1的Deformable Depthwise Convolution的组合；

所述k为大于1的正整数。

13.一种图像分类方法，其特征在于，包括：

14.根据权利要求13所述的方法，其特征在于，所述第一模型包括FeatherNet、MobileNet、ShuffleNet、EfficientNet、SqueezeNet中的一种。

15.根据权利要求13所述的方法，其特征在于，所述第一模型为FeatherNet；

所述FeatherNet的卷积神经网络主干CNN Stem为3×3的可变形深度卷积DeformableDepthwise Convolution；

所述FeatherNet的流模块Streaming Module为k×k的可变形深度卷积DeformableDepthwise Convolution，所述k为大于1的正整数；

16.根据权利要求13所述的方法，其特征在于，所述第一模型为FeatherNet；

所述FeatherNet的CNN Stem为3×3的可变形深度卷积Deformable DepthwiseConvolution；其中，所述3×3的可变形深度卷积Deformable Depthwise Convolution是利用3×3的Deformable Convolution和以下任一卷积方式相结合得到的：可变形卷积Deformable Convolution，或空洞卷积Dilated Convolution；

或者，所述FeatherNet的Streaming Module为利用1×k的可变形深度卷积DeformableDepthwise Convolution与k×1的可变形深度卷积Deformable Depthwise Convolution相结合得到；

所述k为大于1的正整数。

17.根据权利要求13所述的方法，其特征在于，所述将所述RGB图和所述深度图以第一融合方式进行融合，得到第一融合图像，包括以下任意一种方式：

仅保留所述深度图，得到第一单通道图；或者，

将所述深度图映射成第二彩色图；或者，

18.一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，

所述处理器，用于读取存储器中的程序实现如权利要求1至5中任一项所述的方法中的步骤；或者实现如权利要求6至12中任一项所述的方法中的步骤；或者实现如权利要求13-17任一项所述的方法中的步骤。

19.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法中的步骤；或者实现如权利要求6至12中任一项所述的方法中的步骤；或者实现如权利要求13-17任一项所述的方法中的步骤。