CN112560701A

CN112560701A - 一种人脸图像提取方法、装置及计算机存储介质

Info

Publication number: CN112560701A
Application number: CN202011503381.7A
Authority: CN
Inventors: 杨青川; 宁瑶
Original assignee: Chengdu Xinchao Media Group Co Ltd
Current assignee: Chengdu Xinchao Media Group Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-26
Anticipated expiration: 2040-12-17
Also published as: CN112560701B

Abstract

本发明公开了一种人脸图像提取方法、装置及计算机可读存储介质，方法包括：获取待识别图像；将待识别图像输入人脸提取模型，得到待识别图像中每张人脸对应的人脸图像，人脸提取模型包括特征图提取结构层、第一特征融合结构层和第二特征融合结构层。本发明可避免传统人脸识别特征提取中特征图层层相加所带来的特征损失，提高了最终得出的特征图的特征表征能力，进而避免传统检测网络无法识别到图像中边缘人像问题，提高了人脸的召回率。

Description

一种人脸图像提取方法、装置及计算机存储介质

技术领域

本发明涉及人脸识别技术领域，具体涉及一种人脸图像提取方法、装置及计算机存储介质。

背景技术

随着人脸检测技术的快速发展，对人脸检测神经网络的研究已经较为深入，技术上正不断的更新迭代；目前，较为常用的人脸检测神经网络则是Retinaface检测网络(其是基于目标检测算法(one-stage)的人脸检测网络)。

Retinaface检测网络的工作过程为：Retinaface检测网络提取出待识别图像的图像特征后，会经过特征金字塔网络((Feature Pyramid Networks，FPN)和SSH(singlestage headless)网络进一步提取更为精细的人脸特征，然后通过检测头预测人脸框和人脸特征点坐标，从而根据人脸特征点坐标和人脸框从待识别图像中提取出人脸图像。

目前，Retinaface检测网络在通过FPN网络进行人脸特征的提取时，通常是将3个维度的特征直接进行相加(即采用add操作将3种感受野下提取的特征图直接相加)，且一般是层层相加(即采用两次add操作，从高维度依次相加到低维度)，虽然操作简单，但上述操作直接将特征提取操作锁死为加法运算，让特征融合失去了灵活性，容易造成特征损失，使得图像中的边缘人像不易识别，大大的降低了人脸的召回率(也就是人脸的检测率，即检测出的人脸占图像中总人脸的比例)。

发明内容

为了解决现有人脸识别中特征提取采用特征图层层相加所导致的人脸召回率低的问题，本发明的目的在于提供一种在特征提取时，增加一条最高维特征图与最低维特征图的融合桥接，从而代替传统特征图的层层相加，以减少特征融合损失，提高图像中人脸的识别，进而提高人脸召回率的人脸图像提取方法、装置及计算机可读存储介质。

第一方面，本发明提供了一种人脸图像提取方法，包括：

获取待识别图像，其中，所述待识别图像至少包含一张人脸；

将所述待识别图像输入人脸提取模型，得到所述待识别图像中每张人脸对应的人脸图像，其中，所述人脸提取模型包括特征图提取结构层、第一特征融合结构层和第二特征融合结构层；

所述特征图提取结构层用于在三种感受野条件下提取所述待识别图像的特征信息，分别得到所述待识别图像的第一特征图、第二特征图和第三特征图；

所述第一特征融合结构层用于对所述第二特征图和所述第三特征图进行第一特征融合，得到所述待识别图像的第四特征图；

所述第二特征融合结构层，用于将所述第一特征图、所述第三特征图和所述第四特征图进行第二特征融合，得到所述待识别图像中每张人脸对应的第五特征图，以便通过所述第五特征图从所述待识别图像中提取所述人脸图像。

基于上述公开的内容，本发明在进行特征融合时，将第一特征图、第三特征图和第四特征图进行特征融合，以得到用于提取人脸图像的第五特征图；其实质为：将第三特征图加入到第一特征图与第四特征图的特征融合中，相当于增加了一条最高维特征图(即第三特征图)与最低维特征图(即第一特征图)的融合桥接，进而实现三个维度下特征的融合；通过上述设计，本发明可避免传统人脸识别特征提取中特征图层层相加所带来的特征损失，提高了最终得出的特征图的特征表征能力，进而避免传统检测网络无法识别到图像中边缘人像问题，提高了人脸的召回率。

在一个可能的设计中，所述第二特征融合结构层包括：第一上采样层、第二上采样层和第一通道融合层；

所述第一上采样层，用于对所述第三特征图进行第一上采样，得到所述待识别图像的第六特征图；

所述第二上采样层，用于对所述第四特征图进行第二上采样，得到所述待识别图像的第七特征图；

所述第一通道融合层，用于将所述第一特征图、所述第六特征图和所述第七特征图进行通道融合，得到所述第五特征图。

基于上述公开的内容，本发明公开了第二特征融合结构层的具体网络结构，即先对第三特征图和第四特征图进行上采样，以实现图像的放大；最终，将经过上采样得到的第六特征图、第七特征图与第一特征图进行通道融合(即conca操作)，进而实现三个维度下特征图中特征的融合，得到第五特征图。

通过上述设计，本发明在进行特征融合时，使用通道融合代替传统FPN网络中特征图的直接相加，从而可增加提取的特征数量，进一步的增加得出的特征图的特征表征能力，进而进一步的提高人脸召回率。

在一个可能的设计中，所述人脸提取模型还包括：第一卷积层，其中，所述第一卷积层，用于对所述第五特征图进行第一卷积处理，以减少所述第五特征图的通道数，得到所述待识别图像的第八特征图。

基于上述公开的内容，本发明得到第五特征图后，还会对第五特征图进行第一卷积处理，以减少第五特征图的通道数，得到第八特征图；通过上述设计，可在不增加计算量的同时提取到更为丰富的特征信息，提高了模型的识别效率。

在一个可能的设计中，所述人脸提取模型还包括：第二卷积层，其中，所述第二卷积层用于对所述第八特征图进行第二卷积处理，得到所述待识别图像的第九特征图，以便通过所述第九特征图从所述待识别图像中提取所述人脸图像。

基于上述公开的内容，本发明通过第二卷积层，将第八特征图进行第二卷积处理，进行特征信息的再提取，从而得到包含有更精细特征的第九特征图，以便为人脸图像的提取提供精细的特征信息，便于后续人脸图像的提取。

在一个可能的设计中，所述第一卷积处理采用pointwise卷积运算，且使用的卷积核为1*1，步长为1。

基于上述公开的内容，本发明公开了第一卷积处理所使用的卷积运算的种类和卷积核的参数，即使用pointwise卷积运算，并使用1*1，步长为1的卷积核进行第五特征图通道数的压缩。

在一个可能的设计中，所述人脸提取模型还包括：非线性转换结构层；

所述非线性转换结构层，用于对所述第一特征图、所述第二特征图和所述第三特征图进行非线性转换，分别得到所述待识别图像的第十特征图、第十一特征图和第十二特征图，以便将所述第十一特征图和所述第十二特征图输入所述第一特征融合结构层中进行第一特征融合，得到所述第四特征图，以及将所述第十特征图输入所述第二特征融合结构层中，与所述第四特征图以及所述第三特征图进行第二特征融合，得到所述第五特征图。

基于上述公开的内容，本发明公开了通过设置非线性转换结构层，对第一特征图、第二特征图和第三特征图进行非线性转换，其实质为：提高人脸提取模型的分类能力，使模型能够学习到更多的特征，从而提高人脸提取模型的非线性表达能力，进而提高上述三个特征图中的特征信息的识别，得到包含有更为丰富特征信息的第十、第十一和第十二特征图，以便为后续在进行特征融合提取特征时，提供更为精确的特征信息。

在一个可能的设计中，所述非线性转换结构层包括：第五卷积层、第六卷积层、第七卷积层、第一非线性转换层、第二非线性转换层和第三非线性转换层；

所述第五卷积层，用于对所述第一特征图进行第五卷积处理，得到所述待识别图像的第十三特征图；

所述第六卷积层，用于对所述第二特征图进行第六卷积处理，得到所述待识别图像的第十四特征图；

所述第七卷积层，用于对所述第三特征图进行第七卷积处理，得到所述待识别图像的第十五特征图；

所述第一非线性转化层，用于使用PReLU激活函数对所述第十三特征图进行非线性转换，得到所述第十特征图；

所述第二非线性转换层，用于使用PReLU激活函数对所述第十四特征图进行非线性转换，得到所述第十一特征图；

所述第三非线性转换层，用于使用PReLU激活函数对所述第十五特征图进行非线性转换，得到所述第十二特征图。

基于上述公开的内容，本发明公开了非线性转换结构层的网络组成结构，即利用三个卷积层对三个维度下的特征图(即第一、第二和第三特征图)分别进行卷积操作，提取特征图的特征信息，得到包含有更为精确的特征信息的特征图；最后，再使用PReLU激活函数对得到的特征图进行非线性转换，使模型能够学习到更多的特征，进而提高特征图的非线性表达能力，从而便于识别特征图中不同种类的特征信息，避免传统检测网络所存在的边缘人像无法识别的问题。

在一个可能的设计中，所述第一特征融合结构层包括：第三上采样层、第二通道融合层、第三卷积层和第四卷积层；

所述第三上采样层，用于对所述第十二特征图进行第三上采样，得到所述待识别图像的第十六特征图；

所述第二通道融合层，用于将所述第十六特征图和所述第十一特征图进行通道融合，得到所述待识别图像的第十七特征图；

所述第三卷积层，用于对所述第十七特征图进行第三卷积处理，以减少所述第十七特征图的通道数，得到所述待识别图像的第十八特征图；

所述第四卷积层，用于对所述第十八特征图进行第四卷积处理，得到所述第四特征图。

基于上述公开的内容，本发明公开了第一特征融合结构层的具体网络结构，即先对第十二特征图进上采样，对第十二特征图进行放大，得到第十六特征图；然后再将第十六特征图与第十一特征图进行通道融合(即进行concat操作，得到第十七特征图)，从而提高特征数量，减少特征融合损失，进一步提高得到的特征图的特征表征能力；接着再进行第三卷积操作，其也是用于压缩第十七特征图的通道数(得到第十八特征图)，以减少计算量；最后，将第十八特征图进行第四卷积操作，即可得到第四特征图。

第二方面，本发明提供了一种人脸图像提取装置，包括：获取单元和人脸图像提取单元；

所述获取单元，用于获取待识别图像，其中，所述待识别图像至少包含一张人脸；

所述人脸图像提取单元，用于将所述待识别图像输入人脸提取模型，得到所述待识别图像中每张人脸对应的人脸图像，其中，所述人脸提取模型包括特征图提取结构层、第一特征融合结构层和第二特征融合结构层。

在一个可能的设计中，所述人脸图像提取单元包括：第一通道融合子单元；

所述第一通道融合子单元，用于使用第一上采样层，对所述第三特征图进行第一上采样，得到所述待识别图像的第六特征图；

所述第一通道融合子单元，用于使用第二上采样层，对所述第四特征图进行第二上采样，得到所述待识别图像的第七特征图；

所述第一通道融合子单元，还用于使用第一通道融合层，将所述第一特征图、所述第六特征图和所述第七特征图进行通道融合，得到所述第五特征图。

在一个可能的设计中，所述装置还包括：第一卷积单元；

所述第一卷积单元，用于使用第一卷积层，对第五特征图进行第一卷积处理，以减少所第五特征图的通道数，得到待识别图像的第八特征图。

在一个可能的设计中，所述装置还包括：第二卷积单元；

所述第二卷积单元，用于使用第二卷积层，对第八特征图进行第二卷积处理，得到所述待识别图像的第九特征图，以便通过所述第九特征图从所述待识别图像中提取所述人脸图像。

在一个可能的设计中，所述人脸图像提取单元还包括：非线性转换子单元；

所述非线性转换子单元，用于使用非线性转换结构层，对所述第一特征图、所述第二特征图和所述第三特征图进行非线性转换，分别得到所述待识别图像的第十特征图、第十一特征图和第十二特征图，以便将所述第十一特征图和所述第十二特征图输入所述第一特征融合结构层中进行第一特征融合，得到所述第四特征图，以及将所述第十特征图输入所述第二特征融合结构层中，与所述第四特征图以及所述第三特征图进行第二特征融合，得到所述第五特征图。

在一个可能的设计中：

所述非线性转换子单元，具体使用第五卷积层，对所述第一特征图进行第五卷积处理，得到所述待识别图像的第十三特征图；

所述非线性转换子单元，具体使用第六卷积层，对所述第二特征图进行第六卷积处理，得到所述待识别图像的第十四特征图；

所述非线性转换子单元，具体使用第七卷积层，对所述第三特征图进行第七卷积处理，得到所述待识别图像的第十五特征图；

所述非线性转换子单元，具体利用第一非线性转化层，并使用PReLU激活函数对所述第十三特征图进行非线性转换，得到所述第十特征图；

所述非线性转换子单元，具体利用第二非线性转换层，并使用PReLU激活函数对所述第十四特征图进行非线性转换，得到所述第十一特征图；

所述非线性转换子单元，具体利用第三非线性转换层，并使用PReLU激活函数对所述第十五特征图进行非线性转换，得到所述第十二特征图。

在一个可能的设计中，所述人脸图像提取单元还包括：第二通道融合子单元；

所述第二通道融合子单元，用于使用第三上采样层，对所述第十二特征图进行第三上采样，得到所述待识别图像的第十六特征图；

所述第二通道融合子单元，用于使用第二通道融合层，将所述第十六特征图和所述第十一特征图进行通道融合，得到所述待识别图像的第十七特征图；

所述第二通道融合子单元，用于使用第三卷积层，对所述第十七特征图进行第三卷积处理，以减少所述第十七特征图的通道数，得到所述待识别图像的第十八特征图；

所述第二通道融合子单元，用于使用第四卷积层，对所述第十八特征图进行第四卷积处理，得到所述第四特征图。

第三方面，本发明提供了第二种人脸图像提取装置，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意一种可能设计的所述人脸图像提取方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或第一方面中任意一种可能设计的所述人脸图像提取方法。

第五方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面或第一方面中任意一种可能设计的所述人脸图像提取方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的人脸提取模型中改进后的FPN网络的结构示意图。

图2是本发明提供的人脸图像提取方法的流程示意图。

图3是本发明提供的人脸提取模型的网络结构示意图。

图4是本发明提供的第一种人脸图像提取装置的结构示意图。

图5是本发明提供的第二种人脸图像提取装置的结构示意图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是，对于下述实施例说明虽然是用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

应当理解，在本文中若将单元称作与另一个单元“连接”、“相连”或“耦合”时，它可以与另一个单元直相连接或耦合，或中间单元可以存在。相対地，在本文中若将单元称作与另一个单元“直接相连”或“直接耦合”时，表示不存在中间单元。另外，应当以类似方式来解释用于描述单元之间的关系的其他单词(例如，“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。

应当理解，本文使用的术语仅用于描述特定实施例，并不意在限制本发明的示例实施例。若本文所使用的，单数形式“一”、“一个”以及“该”意在包括复数形式，除非上下文明确指示相反意思。还应当理解，若术语“包括”、“包括了”、“包含”和/或“包含了”在本文中被使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

应当理解，还应当注意到在一些备选实施例中，所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。

应当理解，在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出***，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以不必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

实施例

请参见图1，为本实施例提供一种人脸提取模型，本实施例中的人脸提取模型，对传统的Retinaface检测网络中的FPN网络结构进行了改变；其包括：特征图提取结构层、第一特征融合结构层和第二特征融合结构层；其中，特征图提取结构层用于在三种感受野条件下提取待识别图像的特征信息，分别得到待识别图像的第一特征图、第二特征图和第三特征图(即在三个不同维度下提取待识别图像的特征信息，得到三个维度下的特征图)；第一特征融合结构层则是用于将第二特征图和第三特征图进行通道融合，得到待识别图像的第四特征图；而第二特征融合结构层，则是用于将第四特征图、第三特征图和第一特征图进行特征融合，得到待识别图像中每张人脸对应的第五特征图，以便通过第五特征图从待识别图像中提取人脸图像(其实质为：相当于增加了一条最高维特征图(即第三特征图)与最低维特征图(即第一特征图)的融合桥接，进而实现三个维度下特征的融合，从而可避免特征的缺失，提高特征数量，增加对图像中边缘人像的识别能力，进而提高人脸召回率)。

下面结合附图介绍本申请实施例提供的技术方案，在下面的介绍过程中，将本申请实例提供的技术方案应用在图1所示的模型架构中为例。

如图2所示，本实施例第一方面所提供的人脸图像提取方法，可适用于任何场所内的人脸识别(例如，电梯、公交车、商场、电影院等等)，所述方法可以但不限于包括如下步骤S101～S102。

S101.获取待识别图像，其中，所述待识别图像至少包含一张人脸。

步骤S101则是用于获取待识别图像的过程，以便为后续输入至模型中，得到人脸图像，从而利用人脸图像实现人脸识别，得出人物信息。

在本实施例中，举例待识别图像的获取可以但不限于：获取待监测区域内的监控视频，通过对监控视频进行逐帧处理，从而得到多张图像；或由工作人员直接上传包含有人脸的图像作为待识别图像。

S102.将所述待识别图像输入人脸提取模型，得到所述待识别图像中每张人脸对应的人脸图像。

步骤S102则是利用人脸提取模型从待识别图像中提取人脸图像的过程，以便后续利用提取的人脸图像进行人脸识别。

由于在前述就已说明，本实施例的模型包含有特征图提取结构层、第一特征融合结构层和第二特征融合结构层；所以，待识别图像输入至模型后，会依次进行特征图的提取以及特征图的特征融合；即本实施例在进行特征融合时，将第三特征图加入到第一特征图与第四特征图的融合中，实现了最高维特征图与最低维特征图的特征桥接，从而实现三个维度下特征的融合，进而可避免特征的缺失，提高特征数量，增加对图像中边缘人像的识别能力，从而提高人脸召回率。

下面对本实施例中人脸提取模型进行详细的阐述：

首先，特征图提取结构层则是对待识别图像的预处理，其实质还是提取待识别图像的特征信息，得到待识别图像的特征图。

在本实施例中，特征图提取结构层是在三个感受野条件下进行特征信息的第一次提取；感受野是特征图上的像素点在输入图像(即待识别图像)上映射区域的大小，即是对输入图像中某个区域进行了特征信息的提取；即感受野的值越大，表示其能接触到的原始图像的范围就越大，其包含有更为全局、语义层次更高的特征。

而在本实施例中，在三个感受野条件下进行特征信息的提取，相当于在三种维度下进行特征信息的提取，可得到不同层次的特征信息，保证提取的特征信息的全面性。

如图1所示，在本实施例中，举例特征图提取结构层先对待识别图像进行处理，将待识别图像分别缩小8倍、32倍和64倍，进而将待识别图像的通道数变更为64、128和256；即本实施例中三种感受野分别为：缩小8倍时的待识别图像、缩小32倍时的待识别图像以及缩小64倍时的待识别图像；如图1所示，图1中的64*w/8*h/8，即64表示通道数，w/8*h/8则分别表示图像宽和高分别缩小8倍。

在得到上述三种感受野下的待识别图像后，即可进行特征信息的提取，以分别得到第一特征图、第二特征图和第三特征图。在本实施例中，举例提取待识别图像的特征信息，可以但不限于使用卷积操作，即使用卷积核去提取特征(如大小为3*3，步长为1的卷积核或大小为5*5，步长为2的卷积核等)。

在得到第一特征图、第二特征图和第三特征图后，即可使用第一特征融合结构层对第二特征图和第三特征图进行特征融合，得到第四特征图；以及第二特征融合结构层对第一特征图、第三特征图以及第四特征图进行特征融合，得到第五特征图。

如图1所示，下面对第二特征融合结构层的网络结构做出详细的阐述：

在本实施例中，举例第二特征融合结构层可以但不限于包括：第一上采样层、第二上采样层和第一通道融合层。

其中，第一上采样层，用于对第三特征图进行第一上采样，得到所述待识别图像的第六特征图；所述第二上采样层，用于对所述第四特征图进行第二上采样，得到所述待识别图像的第七特征图；而所述第一通道融合层，用于将所述第一特征图、所述第六特征图和所述第七特征图进行通道融合，得到所述第五特征图。

通过前述阐述，即在本实施例中，第四特征图和第三特征图，在与第一特征图进行特征融合前会先经过上采样，进行图像的放大，然后才会经过第一通道融合层进通道融合。

在本实施例中，举例第一上采样和第二上采样的方式可以但不限于采用：最临近插值法、双线性插值法、均值插值或中值插值；而放大的倍数可以但不限于为：对第三特征图放大4倍，而对第四特征图放大两倍。

另外，在本实施例中，在进行特征融合时，是采用通道融合实现第一特征图、第三特征图和第四特征图中特征的融合；道融合也称：concat通道融合，其是将卷积层的通道数进行合并，是各个神经网络模型中常用的特征融合方式，通道融合的实质是将第一特征图、第三特征图和第四特征图中的特征信息进行整合，得到待识别图像的第五特征图。

通过上述设计，一方面，本发明实现了最高维特征图与最低维特征图的特征桥接，从而实现三个维度下特征的融合，进而可避免特征的缺失；另一方面，本发明使用通道融合代替传统FPN网络中特征图的直接相加，可提高特征的数量，得到更为全面的特征信息，可使最终得到的第五脸特征图包含有更为丰富的特征信息，进而增加对图像中边缘人像的识别能力，进而提高人脸召回率。

另外，在本实施例中，本发明还设置有第一卷积层，以便对第五特征图进行第一卷积处理，以压缩第五特征图的通道数，得到通道数少于第五特征图的第八特征图，进而保证在不增加计算量的同时提取到更为丰富的特征信息，提高模型的识别速度。

在本实施例中，举例第一卷积层使用pointwise卷积运算进行卷积，且使用的卷积核为1*1，步长为1；即相当于使用了1*1的卷积；1*1卷积不需要考虑像素跟周边像素的关系，它主要用于调节通道数，对不同的通道上的像素点进行线性组合，然后进行非线性化操作，可以完成降维的功能，即1*1卷积可实现特征图的降维(即通道数的降低，而不改变图像的宽和高)，从而降低计算量。

在本实施例中，举例采用第一通道融合层对第一特征图、第三特征图和第四特征图进行通道融合，得到的第五特征图的通道数可以但不限于为192；而进行第一卷积处理，其压缩后的通道数可以但不限于为用户预设(例如，压缩成64的通道数)。

在经过1*1卷积后，则可再通过第二卷积层，对1*1卷积得到的特征图进行特征信息的再提取(即对第八特征图进行特征信息的提取)，从而即可得到第九特征图，从而通过第九特征图从待识别图像中提取出人脸图像；在本实施例中，举例第二卷积处理所使用的卷积核为3*3，步长为1。

在本实施例中，第五特征图和第九特征图均能够从待识别图像中进行人脸图像的提取，二者的不同之处在于：通道数的不同，即进行人脸图像提取时，所进行的计算量不同，第五脸特征图由于未进行通道数的压缩，所以，计算量较大，速度较慢；而第九特征图由于使用1*1卷积，实现了通道数的压缩，所以，在进行人脸图像提取时，计算量会大大的减少，提取速度也快于第五特征图。

如图1所示，为进一步的提高特征图中的特征信息，在本实施例中，第一特征图、第二特征图以及第三特征图在进入第一特征融合结构层和第二特征结构融合层前，需要进行非线性转换，以提高特征图的非线性表达能力，进而增加模型对特征信息的分类能力，使其学习到更多的特征，以保证特征信息采集的全面性，为后续边缘人像的识别提供全面的特征信息，进而进一步的提高人脸的召回率。

如图1所示，本实施例通过设置非线性转换结构层实现对前述第一特征图、第二特征图和第三特征图进行非线性转换，分别得到所述待识别图像的第十特征图、第十一特征图和第十二特征图。

即在本实施例中，第一特征融合结构层相当于对第十二特征图和第十一特征图进行特征融合，而第二特征融合结构层则相当于将第十特征图所述第四特征图以及所述第十二特征图进行特征融合。

如图1所示，举例非线性转换结构层可以但不限于包括：第五卷积层、第六卷积层、第七卷积层、第一非线性转换层、第二非线性转换层和第三非线性转换层。

如图1所示，所述第五卷积层，用于对所述第一特征图进行第五卷积处理，得到所述待识别图像的第十三特征图；所述第六卷积层，用于对所述第二特征图进行第六卷积处理，得到所述待识别图像的第十四特征图；所述第七卷积层，用于对所述第三特征图进行第七卷积处理，得到所述待识别图像的第十五特征图。

而所述第一非线性转化层，用于使用PReLU激活函数对所述第十三特征图进行非线性转换，得到所述第十特征图；所述第二非线性转换层，用于使用PReLU激活函数对所述第十四特征图进行非线性转换，得到所述第十一特征图；所述第三非线性转换层，用于使用PReLU激活函数对所述第十五特征图进行非线性转换，得到所述第十二特征图。

即在本实施例中，首先利用非线性转换结构层中的三个卷积层，分别对三个维度下提取的特征图进行卷积处理(即分别对第一特征图、第二特征图和第三特征图进行卷积处理)，以便利用卷积运算进行特征信息的再提取，得到包含有更为精细的特征信息的特征图(即第十三、第十四和第十五特征图)，为后续通道融合提供融合的特征信息。

在本实施例中，举例第五卷积层、第六卷积层和第七卷积层进行卷积处理所使用的卷积核的大小均为1*1，步长均为1。

然后，则可使用第一非线性转换层对第十三特征图、第二非线性转换层对第十四特征图以及第三非线性转换层对第十五特征图分别进行非线性转换，以提高模型对特征信息的分类能力，以便更容易的提取到第十六、第十七和第十五特征图中的特征信息，增加后续得到的特征图的非线性表达能力，即得到第十、十一和第十二特征图。

在本实施例中，举例上述三个非线性转换层使用PReLU激活函数进行非线性转换，PReLU激活函数为非饱和激活函数，其可使模型具有更强的分类能力，解决线性不可分的问题，即在提取特征信息时，能够识别出更多不同的特征信息，提高特征信息的识别率；所以，引入激活函数后，即可帮助特征信息的提取，得到更为全面的特征信息，避免特征信息的缺失。

在本实施例中，经非线性转换后得到的特征图，则可作为特征融合的特征图，分别进入第一特征融合结构层，以及第二特征结构融合层进行特征融合。

如图1所示，在本实施例中，举例第一特征融合结构层可以但不限于包括：第三上采样层、第二通道融合层、第三卷积层和第四卷积层。

即第十二特征图进入至第三上采样层，进行第三上采样处理，得到第十六特征图；在本实施例中，第三上采样与前述第一上采样层和第二上采样层所进行上采样原理相同，均是为了实现特征图的放大，以便与第十一特征图进行后续的特征融合。

在本实施例中，举例第三上采样可以但不限于为将第十二特征图放大两倍；即将第十二特征图进行2倍的放大，得到第十六特征图，然后通过第二通道融合层与第十一特征图进行通道融合，得到第十七特征图。

即在本实施例中，在第二特征图与第三特征图的特征融合中，也采用通道融合代替了传统FPN网络中特征图的直接相加；通过上述设计，本发明增加了第二特征图与第三特征图融合的特征，进而提高了特征的数量，得到更为全面的特征信息，以便使最终得到的第五特征图包含有更为丰富的特征信息，有利于人脸图像的提取。

同理，在本实施例中，在第二特征图和第三特征图进行通道融合后，同样设置有第三卷积层，以便对第十七特征图进行通道数的压缩，以在不增加计算量的同时提取到更为丰富的特征信息。

在本实施例中，第三卷积层进行的卷积处理，与前述第一卷积层所进行的卷积处理原理相同，均是使用pointwise卷积运算进行卷积，且使用的卷积核也为1*1，步长为1；即也是通过1*1卷积实现通道数的压缩。

在本实施例中，由于第十七特征图是由缩小了16倍的待识别图像进行特征提取得到的特征图卷积而得到的，所以是将128通道数进行压缩，举例可以但不限于为：将第十七特征图的通道数由128压缩至64通道数，从而得到第十八特征图。

最后，可再通过第四卷积层，对1*1卷积得到的特征图(即第十八特征图)进行特征信息的再提取，从而即可得到第四特征图，以便后续进入第二特征融合结构层与第一特征图(即相当于与第十特征图)以及第三特征图(相当于第十二特征图)进行通道融合。

在本实施例中，举例第五卷积处理所使用的卷积核为3*3，步长为1。

另外，在本实施例中，在得到第九特征图后，还可设置第四非线性转换层，其也是使用PReLU激活函数对其进行非线性转换，以便提高第九特征图对特征信息的分类能力，更容易的提取到第九特征图中的特征信息，进而提高经非线性转换后得到的特征图的非线性表达能力，以便得到更为全面的特征信息，有助于对待识别图像中边缘人像的提取。

由此通过前述对人脸提取模型中网络结构层的详细阐述，本发明进行特征提取的详细操作为：

首先对待识别图像三个维度下的初始特征图(即第一、第二和第三特征图)进行非线性转换，其实质为：提高人脸提取模型的分类能力，使模型能够学习到更多的特征，从而提高人脸提取模型的非线性表达能力，进而便于三个特征图中的边缘特征信息的识别，得到包含有更为丰富的特征信息的第十、第十一和第十二特征图，以便为后续更为精确的人脸特征的提取提供图像基础；

其次，本发明将经过非线性转换后的三个特征图进行通道融合，即将第十一特征图与第十一特征图进行通道融合，得到第四特征图；接着，再将第十特征图(第一特征图进行非线性转换得到的)、第六特征图(第三特征图进行非线性转换得到第十二特征图，第十二特征图再进行第三上采样得到第六特征图)与第四特征图进行通道融合，即可得到第五特征图。

上述操作的实质为：(1)利用通道融合代替传统FPN网络中特征图的层层相加，增加了特征信息的数量，减少了特征损失，提高了最终得出的人脸特征图的特征表征能力，进而避免传统检测网络无法识别到图像中的边缘人像问题，提高了人脸的召回率；(2)将第三特征图加入到第四特征图与第一特征图的通道融合中，相当于将三个维度的特征直接进行通道融合，其可避免层层相加所带来的特征损失，进一步的提高人脸特征图的特征表征能力，从而进一步的提高人脸召回率。

最后，为减少计算量以及进一步的增加特征图的非线性表达能力，还可对第五特征图进行1*1卷积，以及非线性转换，从而减少计算量，以及提高特征信息的全面性，更有利于对识别图像中人脸的提取，进一步的提高了人脸的召回率。

如图3所示，下面对本实施例中人脸提取模型的完整网络结构做出详细的阐述：

在本实施例中，第十二特征图(即第一特征图经过非线性转换结构层处理后得到的)，以及第四特征图，均可作为人脸图像提取的特征图，参与到后续SSH网络中，实现人脸图像的提取。

如图3所示，在本实施例中，人脸提取模型包括：mobileNet网络(其主要压缩策略是深度可分离卷积(Depthwise separable Convolution))、前述改进后的FPN网络、SSH网络和人脸检测网络。

在本实施例，mobileNet网络则对待识别图像进行深度可分离卷积运算，以便得到第一特征图、第二特征图和第三特征图，然后，第一特征图、第二特征图和第三特征图输入至前述改进后的FPN网络中进行特征图的提取，分别得到第四特征图、第九特征图以及第十二特征图；接着，再将第四特征图、第九特征图以及第十二特征图输入至SSH网络中进行特征的再提取，从而得到更精细的特征图；最后，再将SSH网络输出的特征图输入至人脸检测网络中进行人脸的检测，得到人脸框以及人脸特征点坐标，从而根据人脸框以及人脸特征点坐标实现待识别图像中人脸的提取，得到人脸图像。

在本实施例中，SSH网络是基于视觉几何群网络(Visual Geometry GroupNetwork，VGG-16网络)的改进，其在VGG之上构建了三个并行网络(即图3中的SSH1网络，SSH2网络和SSH3网络)，上述三个并行网络分别用于根据特征图进行小、中和大人脸的检测，得到更为精细的特征图；在本实施例中，SSH网络会输出的特征图为三个feature map列表(即图3中的第一feature map、第二feature map和第三feature map)，而后续人脸检测网络则是对三个feature map列表中的图像进行人脸检测。

feature map是多个二维特征图的叠加，其相当于是对一张特征图进行多角度的描述，即在SSH网络中用多种不同的卷积核对前述改进后的FPN网络输出特征图进行卷积，得到不同的特征信息，作为进一步的图像特征，形成图像在同一层次上不同角度的特征描述。

而人脸检测网络则是基于SSH网络进行先验框的检测，其包括三个方面，分别为：目标检测(face classification)；人脸框调整(face box regression)和人脸特征点坐标检测(facial landmark regression)，即对分别上述三个feature map进行上述三个检测(即图3中人脸检测网络1对应第一feature map；人脸检测网络2对应第二feature map；而人脸检测网络3则对应第三feature map)。

目标检测(face classification)：用于检测先验框中是否存在人脸。也就是判断先验框内部是否包含目标，利用一个1x 1的卷积，将SSH网络的通道数调整成2，用于代表每个先验框内部包含人脸的概率；这里的2通常不是用一个概率来表示先验框存在人脸的概率，而在这里用了两个值来表示人脸是否存在先验框内的概率；在两个值中，如果第一个值比较大，就表示有人脸，而如果第二值比较大，表示没有人脸存在。

人脸框调整(face box regression)：用于调整先验框的中心和宽高在SSH网络中，用四个参数对先验框进行调整。

人脸特征点坐标检测(facial landmark regression)：对先验框进行调整获得人脸关键点(即特征点坐标)，每一个人脸关键点需要两个调整参数，一共有五个人脸关键点。此时利用1x 1的卷积，将SSH网络的通道调整成为5x2，其表示每个先验框的每一个人脸关键点的调整，5就是人脸上5个关键点，2则表示对人脸特征点进行调整的参数。

通过前述设计，即可实现待识别图像中人脸的提取，得到人脸图像。

下面对本实施例所提供的人脸提取模型与传统的Retinaface检测网络进行人脸检测对比，两个模型均采用相同的数据集；选取相同的batch_size(一次训练所选取的样本数)；训练相同的epoch(即使用训练集(即选取的样本数)中的全部数据对模型进行一次完整的训练)，进行简单、中等和困难三种难度下人脸召回率的map指标(即性能指标)的对比，对比结果如表1所示：

表1

通过表1可知，本发明提供的人脸提取模型在三种难度下进行人脸图像的提取，其人脸召回率均高于传统的Retinaface检测网络，显然对人脸识别的效果更好。

如图4所示，本实施例第二方面提供了一种实现实施例第一方面中所述的人脸图像提取方法的硬件装置，包括：包括：获取单元和人脸图像提取单元。

所述获取单元，用于获取待识别图像，其中，所述待识别图像至少包含一张人脸。

在一个可能的设计中，所述人脸图像提取单元包括：第一通道融合子单元。

所述第一通道融合子单元，用于使用第一上采样层，对所述第三特征图进行第一上采样，得到所述待识别图像的第六特征图。

所述第一通道融合子单元，用于使用第二上采样层，对所述第四特征图进行第二上采样，得到所述待识别图像的第七特征图。

在一个可能的设计中，所述装置还包括：第一卷积单元。

在一个可能的设计中，所述装置还包括：第二卷积单元。

在一个可能的设计中，所述人脸图像提取单元还包括：非线性转换子单元。

在一个可能的设计中：

所述非线性转换子单元，具体使用第五卷积层，对所述第一特征图进行第五卷积处理，得到所述待识别图像的第十三特征图。

所述非线性转换子单元，具体使用第六卷积层，对所述第二特征图进行第六卷积处理，得到所述待识别图像的第十四特征图。

所述非线性转换子单元，具体使用第七卷积层，对所述第三特征图进行第七卷积处理，得到所述待识别图像的第十五特征图。

所述非线性转换子单元，具体利用第一非线性转化层，并使用PReLU激活函数对所述第十三特征图进行非线性转换，得到所述第十特征图。

所述非线性转换子单元，具体利用第二非线性转换层，并使用PReLU激活函数对所述第十四特征图进行非线性转换，得到所述第十一特征图。

在一个可能的设计中，所述人脸图像提取单元还包括：第二通道融合子单元。

所述第二通道融合子单元，用于使用第三上采样层，对所述第十二特征图进行第三上采样，得到所述待识别图像的第十六特征图。

所述第二通道融合子单元，用于使用第二通道融合层，将所述第十六特征图和所述第十一特征图进行通道融合，得到所述待识别图像的第十七特征图。

所述第二通道融合子单元，用于使用第三卷积层，对所述第十七特征图进行第三卷积处理，以减少所述第十七特征图的通道数，得到所述待识别图像的第十八特征图。

本实施例提供的硬件装置的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

如图5所示，本实施例第三方面提供了第二种实现实施例第一方面中所述的人脸图像提取方法的硬件装置，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如实施例第一方面所述的人脸图像提取方法。

具体举例的，所述存储器可以但不限于包括随机存取存储器(random accessmemory，RAM)、只读存储器(Read Only Memory image，ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output，FIFO)和/或先进后出存储器(First In Last Out，FILO)等等；所述处理器可以不限于采用型号为STM32F105系列的微处理器、精简指令集计算机(reduced instruction set computer,RSIC)微处理器、X86等架构处理器或集成嵌入式神经网络处理器(neural-network processingunits，NPU)的处理器；所述收发器可以但不限于为无线保真(WIFI)无线收发器、蓝牙无线收发器、通用分组无线服务技术(GeneralPacket Radio Service，GPRS)无线收发器、紫蜂协议(基于IEEE802.15.4标准的低功耗局域网协议，ZigBee)无线收发器、3G收发器、4G收发器和/或5G收发器等。此外，所述装置还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例第四方面提供了一种存储包含有实施例第一方面所述的人脸图像提取方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面所述的人脸图像提取方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例提供的计算机可读存储介质的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

本实施例第五方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如实施例第一方面所述的人脸图像提取方法，其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

以上所描述的多个实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备执行各个实施例或者实施例的某些部分所述的方法。

本发明不局限于上述可选实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是落入本发明权利要求界定范围内的技术方案，均落在本发明的保护范围之内。

Claims

1.一种人脸图像提取方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述第二特征融合结构层包括：第一上采样层、第二上采样层和第一通道融合层；

3.如权利要求2所述的方法，其特征在于，所述人脸提取模型还包括：第一卷积层，其中，所述第一卷积层，用于对所述第五特征图进行第一卷积处理，以减少所述第五特征图的通道数，得到所述待识别图像的第八特征图。

4.如权利要求3所述的方法，其特征在于，所述人脸提取模型还包括：第二卷积层，其中，所述第二卷积层用于对所述第八特征图进行第二卷积处理，得到所述待识别图像的第九特征图，以便通过所述第九特征图从所述待识别图像中提取所述人脸图像。

5.如权利要求3所述的方法，其特征在于，所述第一卷积处理采用pointwise卷积运算，且使用的卷积核为1*1，步长为1。

6.如权利要求1所述的方法，其特征在于，所述人脸提取模型还包括：非线性转换结构层；

7.如权利要求6所述的方法，其特征在于，所述非线性转换结构层包括：第五卷积层、第六卷积层、第七卷积层、第一非线性转换层、第二非线性转换层和第三非线性转换层；

8.一种人脸图像提取装置，其特征在于，包括：获取单元和人脸图像提取单元；

9.一种人脸图像提取装置，其特征在于，包括：依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～7任意一项所述的人脸图像提取方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～7任意一项所述的人脸图像提取方法。