CN107918636B

CN107918636B - 一种人脸快速检索方法、***

Info

Publication number: CN107918636B
Application number: CN201710801518.9A
Authority: CN
Inventors: 郭宇; 董远; 白洪亮
Original assignee: Suzhou Feisou Technology Co ltd
Current assignee: Suzhou Feisou Technology Co ltd
Priority date: 2017-09-07
Filing date: 2017-09-07
Publication date: 2021-05-18
Anticipated expiration: 2037-09-07
Also published as: CN107918636A

Abstract

本发明公开了一种人脸快速检索方法、***，方法包括：获得图像的特征向量，将所述特征向量输入一自编码网络，根据所述自编码网络训练并更新得到全连接层权重和对应的偏置项，并作为将特征向量进行二值化哈希的网络参数，通过所述的网络参数建立图像的哈希索引库并获取待查询图像的哈希值，搜索出人脸结果。在本发明中通过利用深度卷积神经网络用作人脸特征提取，可以获取高效的人脸特征表达。同时，使用自编码网络获取哈希码，基于人脸特征得到更加紧凑的二值化表达。此外，本发明采用哈希码的汉明距离计算图像相似度，计算量小能够加快检索速度。

Description

一种人脸快速检索方法、***

技术领域

本发明涉及深度学习领域、人脸图像识别领域，特别涉及一种人脸快速检索方法、***，主要基于卷积神经网络以及自编码网络二值化哈希。

背景技术

现有技术中的人脸图像库包括了很多类型，比如，FERET人脸数据库、 CMU-PIE人脸数据库、YALE人脸数据库、MIT人脸数据库、ORL人脸数据库等等。而采用人脸图像库的目的在于：在人脸图像库中检索相似的人脸图像在监控、安防等人脸识别方向具有广泛的应用前景。

已知的，对于原始图像进行哈希编码，可以有效提高图像检索的速度。

比如现有技术中，中国专利申请号:CN 201310087561.5一种基于局部敏感哈希的相似人脸快速检索方法，公开了一种基于局部敏感哈希的人脸图像检索方法。该方法通过人脸区域检测、眼睛和嘴巴特征检测和特征提取、肤色检测、人脸肤色分布特征提取等步骤将图像表示为人脸特征向量，然后利用局部敏感哈希方法对人脸特征向量构建索引，从而提高查询时的速度。

分析可知，该方法存在的不足是:眼睛、嘴巴和肤色特征并不能很好的表达整张人脸的特征，而局部敏感哈希方法是一种数据无关的哈希方法，随机性强；为了保证较好的检索精度，需要的编码位数很长，检索效率比较低。

又比如现有技术中，中国专利申请号CN201410441091基于半监督哈希的图像检索方法，公开了一种基于半监督哈希的图像检索方法。该方法首先提取图像的局部空间约束的全局频率特征，结合已标注数据和未标注数据训练支持向量机，得到数据的编码。

分析可知，该方案的缺点在于：训练图像的数据较少，且全局频率特征并不适合人脸识别任务。

综上，如何提高人脸图像检索的速度和准确率，是本领域技术人员有待解决的技术问题。

发明内容

本发明要解决的技术问题是，提供一种人脸快速检索方法，通过使用深度卷积神经网络获得人脸图像的特征，从而使得特征表达更加高效和准确。另外，还使用自编码网络结合人脸图像特征获得图像的二值化哈希值，减少了存储空间的占用，提高了人脸图像检索的速度和准确率。

解决上述技术问题，本发明提供了一种人脸快速检索方法，包括如下步骤：

获得图像的特征向量，将所述特征向量输入一自编码网络，

根据所述自编码网络训练并更新得到全连接层权重和对应的偏置项，并作为将特征向量进行二值化哈希的网络参数，

通过所述的网络参数建立图像的哈希索引库并获取待查询图像的哈希值，搜索出人脸结果。

在获得图像的特征向量时利用深度卷积神经网络用作人脸特征提取,获得人脸特征的高效表达。在上述自编码网络中基于人脸特征使用自编码网络得到特征的二值化哈希值，结合了自编码网络的学习能力，可以获得更紧凑的二值化表达。此外，在索引库搜索出人脸结果的检索过程采用哈希码的汉明距离计算图像的相似度，计算量小提高检索速度。

更进一步，所述自编码网络中，

首先通过利用损失函数以及多维特征来训练自编码网络，

然后使用随机梯度下降法更新对应的模型参数，

最后保存模型参数，作为将特征进行二值化哈希的网络参数。

更进一步，方法还包括：建立图像的哈希索引库的如下步骤，

所述特征向量经过自编码网络进行二值化得到哈希值，利用上述获得的哈希值建立图像库的索引。

更进一步，方法还包括：查询过程的如下步骤，

获取待查询图像的哈希值，

计算和索引库中哈希码的汉明距离，

按汉明距离的数值排序，并按顺序输出对应的原始图像，得到检索结果。

更进一步，所述获得图像的特征向量前还包括人脸图像预处理步骤：

设参与训练的训练集的图像数量为N_train，对于每一张输入的图像 I_i，(i＝1，2，...，N_train),

对图片进行人脸检测与关键点标注，之后根据关键点对人脸图像进行对齐处理，将图像划归为同一尺度。

更进一步，所述获得图像的特征向量后还包括如下步骤：

将处理后的人脸图像I′i，(i＝1，2，...，N_train)加入卷积神经网络进行训练，得到相应的用于人脸特征提取的网络参数，

在卷积神经网络训练完成后，通过获得的网络参数对人脸图像和特征向量进行映射，提取训练集中人脸图像的特征向量。

基于上述，本发明提供了一种人脸快速检索***，包括：特征提取单元和特征检索单元，

所述特征提取单元，用以获得图像的特征向量，将所述特征向量输入一自编码网络，

所述特征检索单元，用以通过所述网络参数建立索引库搜索出待查询图像的人脸结果。

更进一步，所述特征检索单元包括：索引建立单元和索引库查询单元，

所述索引建立单元，用以将所述特征向量经过自编码网络进行二值化得到哈希值，利用上述获得的哈希值建立图像库的索引，

所述索引库查询单元，用以获取待查询图像的哈希值，计算和索引库中哈希码的汉明距离，按汉明距离的数值排序，并按顺序输出对应的原始图像，得到检索结果。

更进一步，所述特征提取单元还包括：预处理单元，所述预处理单元，用以进行人脸归一化处理。

更进一步，所述特征提取单元包括：卷积神经网络和自编码网络。

本发明的有益效果：

本发明中的人脸快速检索方法，由于包括：获得图像的特征向量，将所述特征向量输入一自编码网络，根据所述自编码网络训练并更新得到全连接层权重和对应的偏置项，并作为将特征向量进行二值化哈希的网络参数，通过所述网络参数建立索引库搜索出人脸结果。在上述方法中通过利用深度卷积神经网络用作人脸特征提取，可以获取高效的人脸特征表达。同时，使用自编码网络获取哈希码，基于人脸特征得到更加紧凑的二值化表达。更进一步，采用哈希码的汉明距离计算图像相似度，计算量小加快检索速度。

附图说明

图1是本发明一实施例中的方法流程示意图；

图2是本发明一实施例中的***结构示意图；

图3是神经网络训练过程示意图；

图4是自编码网络结构示意图；

图5是本发明一实施例中的方法流程示意图；

图6是本发明一优选实施例中的方法流程示意图。

具体实施方式

现在将参考一些示例实施例描述本公开的原理。可以理解，这些实施例仅出于说明并且帮助本领域的技术人员理解和实施例本公开的目的而描述，而非建议对本公开的范围的任何限制。在此描述的本公开的内容可以以下文描述的方式之外的各种方式实施。

如本文中所述，术语“包括”及其各种变体可以被理解为开放式术语，其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。

本领域技术人员能够明了，本申请中的卷积神经网络是一种深度学习算法。

本领域技术人员能够明了，本申请中的自编码网络是只有一层隐藏层节点，输入和输出具有相同的节点数的神经网络。

本领域技术人员能够明了，本申请中的二值化哈希是将所查询的数据通过哈希函数映射为一定长度的二进制序列，用来加快查找速度。

请参考图1是本发明一实施例中的方法流程示意图，本实施例中的一种人脸快速检索方法，包括如下步骤：

步骤S100获得图像的特征向量，将所述特征向量输入一自编码网络，获得图像的特征向量首先需要训练卷积神经网络，在卷积神经网络训练完成后，记神经网络参数对人脸图像和特征向量的映射关系为Θ，利用获得的网络参数提取训练集中人脸图像的特征向量，以特征维数为K＝128为例。记训练图像 I_i，(i＝1，2，...，N_train)的对应特征为F_i，(i＝1，2，...，N_train)。则有：

F_i＝Θ(I_i)

步骤S101根据所述自编码网络训练并更新得到全连接层权重和对应的偏置项，并作为将特征向量进行二值化哈希的网络参数，具体地，建立自编码网络时，可以利用上述损失函数和800,000张人脸图像经过卷积神经网络获得的 800,000个128维特征来训练自编码网络，使用随机梯度下降法更新对应的参数W₁，b₁和W₂，b₂.经过一定轮数后，保存模型参数W₁，b₁，作为将特征进行二值化哈希的网络参数。

步骤S102通过所述的网络参数建立图像的哈希索引库并获取待查询图像的哈希值，搜索出人脸结果。使用该方法时，分为索引过程和查询过程两个部分。

请参考图4，作为本实施例中的优选，所述自编码网络中，首先通过利用损失函数以及多维特征来训练自编码网络，然后使用随机梯度下降法更新对应的模型参数，最后保存模型参数，作为将特征进行二值化哈希的网络参数。

步骤S41人脸特征输入Fi

步骤S42模型参数W₁，b₁

步骤S43编码成输出hi

步骤S44更新模型参数W1，b1

步骤S45解码层输出F’

步骤S46符号函数

步骤S47二值化哈希值

步骤S48损失函数

如图4中所示，训练过程中，每次在训练集中随机选取N张图像的对应特征作为一个训练批次,输入到自编码网络中输入的人脸特征为

W₁,和W₂分别为第一层全连接层和第二层全连接层的权重，b₁,b₂为对应的偏置项，

激活函数为

训练过程中，每次随机选取N张图像的对应特征作为一个训练批次输入到自编码网络中。对于一个训练批次：

第一层网络的输出为：

h_i＝g(W₁·F_i+b₁)，i＝1，2，...，N.其中

K′＝64

第二层网络的输出为：

其中

K＝128

针对第一层网络的输出，使用符号函数约束获得对应哈希值的二进制表达：

b_i＝sgn(h_i)，i＝1，2，...，N.其中

K′＝64

由此，经过自编码网络，将人脸图像的128维特征向量转化为64bit的二值化哈希值。该自编码网络的损失函数如下：

其中，L₁为自编码网络自身的损失函数：

L₂为二值化哈希编码的损失函数表达。B＝[b₁，b₂，...，b_N]∈{-1，1}^K′×N记,H＝[h₁，h₂，...，h_N]∈R^K′×N,则L₂可以用如下的式子表示：

L₂＝J₁-λ₁J₂+λ₂J₃+λ₃J₄

其中，

目的为优化哈希值与实际特征值间的距离；

目的是保证哈希函数对各个位的均衡性

加入松弛正交项，保证哈希码间的独立性。

为正则化项

其中，λ₁，λ₂，λ₃分别为各部分优化值所对应的超参数。

经过实验，设α＝1，λ₁＝50，λ₂＝0.001，λ₃＝0.0005，以min L为优化目标，自编码网络可以训练收敛。

请参考图5，作为本实施例中的优选，本实施例中的方法还包括：建立索引过程的如下步骤，所述特征向量经过自编码网络进行二值化得到哈希值，利用上述获得的哈希值建立图像库的索引。

请参考图5，作为本实施例中的优选，本实施例中的方法还包括：查询过程的如下步骤，

获取待查询图像的哈希值，

计算和索引库中哈希码的汉明距离，

按汉明距离的数值由低到高排序，并按顺序输出对应的原始图像，得到检索结果，汉明距离越小，检索的相似性越高。

请参考图5，其包括的步骤为：

步骤S51人脸图像库中的图像

步骤S52需要查询的人脸图像

步骤S53进行预处理

步骤S54训练完成卷积神经网络

步骤S55得到128维人脸特征向量

步骤S56自编码网络参数W₁、b₁，

步骤S57将64bit哈希值作为索引，并计算汉明距离，

步骤S58通过64bit哈希值组成索引库。

使用该方法时，分为索引过程和查询过程两个部分：索引过程中，设检索库中共M张人脸图像，将图像预处理后经过卷积神经网络提取特征，即

F_i＝Θ(Image_i)，i＝1，2，...，M

将得到的特征经过自编码网络进行二值化，得到最终64bit的哈希值，即：

C_i＝sgn(g((W₁·F_i+b₁)))，i＝1，2，...，M

利用上述获得的哈希值C_i，(i＝1，2，...，M)建立图像库的索引。查询过程中，依旧按上述两个步骤获取待查询图像的哈希值C_probe，计算C_probe和索引库中哈希码C_i的汉明距离。按汉明距离的数值排序，汉明距离越小，证明图像的相似度越高。按顺序输出对应的原始图像，得到检索结果。

请参考图3，在一些实施例中，所述获得图像的特征向量前还包括人脸图像预处理步骤：

设参与训练的训练集的图像数量为N_train，对于每一张输入的图像 I_i，(i＝1，2，...，N_train)，

作为本实施例中的优选，所述获得图像的特征向量后还包括如下步骤：

将处理后的人脸图像I′_i，(i＝1，2，...，N_train)加入卷积神经网络进行训练，得到相应的用于人脸特征提取的网络参数，

如图3所示，其包括如下步骤：

步骤S31训练集人脸图片

步骤S32人脸检测与关键点标注

步骤S33人脸对齐处理

步骤S34卷积神经网络

步骤S35网络损失函数

本发明中，首先将大量的人脸图像数据进行预处理，之后加入卷积神经网络中进行训练，利用训练得到的网络参数获得图像的特征向量。卷积神经网络的网络结构设计参考了Kaiming He,Xiangyu Zhang,Shaoqing Ren等在文章 “Deep Residual Learning forImage Recognition，arXiv preprint arXiv:1512.03385，2015”中提出的残差网络结构。训练过程如图1表示。

首先对原始图片进行预处理。设参与训练的训练集的图像数量为N_train，对于每一张输入的图像I_i，(i＝1，2，...，N_train),对图片进行人脸检测与关键点标注，之后根据关键点对人脸图像进行对齐处理，将图像划归为同一尺度。将处理后的人脸图像I′_i，(i＝1，2，...，N_train)加入卷积神经网络进行训练，得到相应的网络参数，用于人脸特征提取。

卷积神经网络训练完成后，记神经网络参数对人脸图像和特征向量的映射关系为Θ，利用获得的网络参数提取训练集中人脸图像的特征向量，特征维数为K＝128。记训练图像I_i，(i＝1，2，...，N_train)的对应特征为F_i，(i 1，2，...，N_train。则有：

F_i＝Θ(I_i)

如图2所示是本发明一实施例中的***结构示意图在本实施例中还提供了一种人脸快速检索***，包括：特征提取单元1和特征检索单元2，

所述特征提取单元1，用以获得图像的特征向量，将所述特征向量输入一自编码网络，根据所述自编码网络训练并更新得到全连接层权重和对应的偏置项，并作为将特征向量进行二值化哈希的网络参数，所述特征检索单元2，用以通过所述网络参数建立索引库搜索出待查询图像的人脸结果。

在一些实施例中，所述特征检索单元1包括：索引建立单元和索引库查询单元，

在一些实施例中，所述特征提取单元1还包括：预处理单元，所述预处理单元，用以进行人脸归一化处理。

在一些实施例中，所述特征提取单元1包括：卷积神经网络和自编码网络

请参考图6，为本发明一优选实施例中的方法流程示意图，其包括了：特征提取部分和特征检索部分。在特征提取部分，对已经标注好人脸身份的人脸图像进行预处理，对预处理后的图像结合身份标签加入卷积神经网络训练，得到网络参数用以提取人脸特征。利用上述得到的网络参数，将人脸图像作为输入，获得对应图像的特征向量。在特征检索部分，将已获得的图像特征向量，加入自编码网络中进行训练，通过网络的输出获得二值化的哈希值。在实施阶段，给定一张输入人脸图像，利用训练好的卷积神经网络和自编码网络获取图像的二值化哈希值作为索引，结合汉明距离获得最终相似的人脸图像。利用上述技术，提高了人脸检索过程中的准确率和速度。

输入大量包含身份标签的人脸图片，

步骤S61进行图像预处理，

步骤S62对齐后的归一化人脸图像

步骤S63卷积神经网络训练

步骤S64提取特征的网络参数

步骤S65人脸图像的特征向量

步骤S66自编码网络训练

步骤S67计算二值化哈希的网络参数

此部分为网络参数训练阶段。

步骤S68人脸图像库中的图像

步骤S69输入待检索的图像

步骤S610进行图像预处理

步骤S611对齐后人脸输出

步骤S612提出特征的网络参数

步骤S613人脸图像的特征库

步骤S614待检索图像的人脸特征

步骤S615计算二值化哈希的网络参数

步骤S616哈希值建立的索引库

步骤S617待检索图像的哈希值

步骤S618得出检索结果

此部分为测试检索阶段。

具体地，本实施例中的实现过程一共可以分为两个阶段表述：网络参数训练阶段和测试检索阶段。网络参数训练阶段的目的是获得用于提取人脸图像特征的卷积神经网络参数和用于获取图像哈希值的自编码网络参数。测试检索阶段是利用参数训练阶段获得的网络参数，建立人脸的哈希值索引库和待检索图片的哈希值，计算汉明距离并排序后，得到检索的结果。

对于网络参数训练阶段，首先对大量包含人脸身份标签的人脸图像进行预处理。设参与训练的训练集的图像数量为N_train，对于每一张输入的图像 I_i，(i＝1，2，...，N_train),对图片进行人脸检测与关键点标注，之后根据关键点对人脸图像进行对齐处理，将图像划归为同一尺度。将处理后的人脸图像 I′_i，(i＝1，2，...，N_train)加入卷积神经网络进行训练，得到相应的网络参数，用于人脸特征提取。

卷积神经网络训练完成后，记神经网络参数对人脸图像和特征向量的映射关系为Θ，利用获得的网络参数提取训练集中人脸图像的特征向量，特征维数为K＝128。记训练图像I_i，(i＝1，2，...，N_train)的对应特征为F_i，(i 1，2，...，N_train)。则有：

F_i＝Θ(I_i)

训练过程中，每次在训练集中随机选取N张图像的对应特征作为一个训练批次,输入到自编码网络中输入的人脸特征为

W₁,和W₂分别为第一层全连接层和第二层全连接层的权重，b₁,b₂为对应的偏置项，激活函数为

第一层网络的输出为：

h_i＝g(W₁·F_i+b₁)，i＝1，2，...，N.其中

第二层网络的输出为：

其中

b_i＝sgn(h_i)，i＝1，2，...，N.其中

其中，L₁为自编码网络自身的损失函数：

L₂＝J₁-λ₁J₂+λ₂J₃+λ₃J₄

其中，

目的为优化哈希值与实际特征值间的距离；

目的是保证哈希函数对各个位的均衡性,

加入松弛正交项，保证哈希码间的独立性。

为正则化项

利用上述损失函数和800,000张人脸图像经过卷积神经网络获得的 800,000个128维特征来训练自编码网络，使用随机梯度下降法更新对应的参数W₁，b₁和W₂，b₂.经过一定轮数后，保存模型参数W₁，b₁，作为将特征进行二值化哈希的网络参数。

在测试检索阶段，可分为建立索引库过程和查询过程两个部分：建立索引库过程中，设检索库中共M张人脸图像，将图像预处理后经过卷积神经网络提取特征，即

F_i＝Θ(Image_i),i＝1,2,,M

C_i＝sgn(g((W₁·F_i+b₁)))，i＝1，2，...，M

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA) 等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

总体而言，本公开的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合实施。一些方面可以以硬件实施，而其它一些方面可以以固件或软件实施，该固件或软件可以由控制器、微处理器或其它计算设备执行。虽然本公开的各种方面被示出和描述为框图、流程图或使用其它一些绘图表示，但是可以理解本文描述的框、设备、***、技术或方法可以以非限制性的方式以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或其一些组合实施。

此外，虽然操作以特定顺序描述，但是这不应被理解为要求这类操作以所示的顺序执行或是以顺序序列执行，或是要求所有所示的操作被执行以实现期望结果。在一些情形下，多任务或并行处理可以是有利的。类似地，虽然若干具体实现方式的细节在上面的讨论中被包含，但是这些不应被解释为对本公开的范围的任何限制，而是特征的描述仅是针对具体实施例。在分离的一些实施例中描述的某些特征也可以在单个实施例中组合地执行。相反对，在单个实施例中描述的各种特征也可以在多个实施例中分离地实施或是以任何合适的子组合的方式实施。