CN111626091B

CN111626091B - 人脸图像标注方法、装置及计算机可读存储介质

Info

Publication number: CN111626091B
Application number: CN202010155962.XA
Authority: CN
Inventors: 程星星
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-09-22
Anticipated expiration: 2040-03-09
Also published as: CN111626091A

Abstract

本发明实施例涉及计算机机器学习领域，公开了一种人脸图像标注方法、装置及计算机可读存储介质，人脸图像标注方法包括：获取人物原始图像的多个人脸区域图像；对多个人脸区域图像进行特征提取，得到用于表征人物身份的多个人脸特征向量，其中，一个人脸区域图像对应一个人脸特征向量；对多个人脸特征向量进行特征聚类，得到多个人脸特征向量中每个人脸特征向量所属的类别，其中，类别包括正类和负类；标注属于正类的人脸特征向量对应的人脸区域图像。本发明提供的人脸图像标注方法、装置及计算机可读存储介质能够在提高图像的标注效率、确保标注准确性的同时，减少图像标注的人力成本。

Description

人脸图像标注方法、装置及计算机可读存储介质

技术领域

本发明实施例涉及计算机机器学习领域，特别涉及一种人脸图像标注方法、装置及计算机可读存储介质。

背景技术

在大规模人脸识别应用中，要保证较高的识别准确率，准确识别同一人物在各年龄段、各种角度、光照、对比度下的人脸图像，在应用开发阶段需要进行大量的数据清洗、标注工作，一个人物需要准备数百张标准人脸图像(大小如112*112)。对于标准人脸数据的收集，现有的解决方案主要是通过爬虫工具从互联网上爬取大量的公开图片，然后使用人脸检测算法批量裁剪出所有检测到的人脸图像，然后由专业的数据标注团队或数据标注众包平台完成图像筛选工作。以一个人爬取200张图像为例，每张图像上假设存在5个人物，则在检测阶段可以裁剪出1000张大小为112*112的人脸图像。其中，在这1000张图像中，至少有800张图像是无效的，需要通过人工标注手动删除。

发明人发现现有技术中至少存在如下问题：通过人工注手动删除，人工成本高、标注效率低、且标注质量不能得到有效保障，不足以支撑大规模人脸识别应用的快速部署。

发明内容

本发明实施方式的目的在于提供一种人脸图像标注方法、装置及计算机可读存储介质，其能够在提高图像的标注效率、确保标注准确性的同时，减少图像标注的人力成本。

为解决上述技术问题，本发明的实施方式提供了一种人脸图像标注方法，包括：

获取人物原始图像的多个人脸区域图像；对多个所述人脸区域图像进行特征提取，得到用于表征人物身份的多个人脸特征向量，其中，一个人脸区域图像对应一个人脸特征向量；对多个所述人脸特征向量进行特征聚类，得到多个所述人脸特征向量中每个人脸特征向量所属的类别，其中，所述类别包括用于表征人脸特征向量对应的人物身份为目标人物的正类、人脸特征向量对应的人物身份为非目标人物的负类；标注属于所述正类的人脸特征向量对应的人脸区域图像。

本发明的实施方式还提供了一种人脸图像标注装置，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的人脸图像标注方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的人脸图像标注方法。

本发明的实施方式相对于现有技术而言，通过对多个所述人脸区域图像进行特征提取，得到用于表征人物身份的多个人脸特征向量，也即对难以应用于计算的人脸区域图像进行数字化处理，以便于后续步骤的顺利进行；通过对多个所述人脸特征向量进行特征聚类，得到多个所述人脸特征向量中每个人脸特征向量所属的类别，能够根据聚类结果判断人脸特征向量对应的人物身份是否为目标人物，从而能够快速、准确识别出人脸图像中的噪声数据和有效数据；最后标注属于所述正类的人脸特征向量对应的人脸区域图像从而完成人脸数据图像的标注工作，在提升标注效率，可以有效的保证标注准确性的同时，降低了人工标注的时间成本，也减少了人力成本，为大规模人脸识别应用的快速构建提供支撑。

另外，在所述标注属于所述正类的人脸特征向量对应的人脸区域图像之前，还包括：删除属于所述负类的人脸特征向量，对属于所述正类的人脸特征向量再次进行所述特征聚类，判断再次进行所述特征聚类的人脸特征向量中是否存在属于所述负类的人脸特征向量；若存在，重复上述步骤直至再次进行所述特征聚类的人脸特征向量不存在属于所述负类的人脸特征向量。

另外，所述对多个所述人脸特征向量进行特征聚类，具体包括：分别将N个所述人脸特征向量中的每个人脸特征向量作为聚类中心，并在将第i个人脸特征向量作为所述聚类中心时，计算N个所述人脸特征向量中其他的N-1个人脸特征向量到所述聚类中心的度量距离，其中，N为大于1的整数，i为小于或等于N的整数；判断所述度量距离中是否存在预设数量的小于预设阈值的度量距离；若不存在，则判定所述第i个人脸特征向量属于所述负类；若存在，则判定小于预设阈值的度量距离的数量是否大于预设数量，若大于，则判定所述第i个人脸特征向量属于所述正类；若小于，则判定所述第i个人脸特征向量属于所述负类。

另外，在所述分别将N个所述人脸特征向量中的每个人脸特征向量作为聚类中心之前，还包括：设置滑动窗口大小和滑动步长；所述分别将N个所述人脸特征向量中的每个人脸特征向量作为聚类中心，具体包括：根据所述滑动窗口大小、所述滑动步长和所述N个人脸特征向量建立多个滑动窗口，其中，每个所述滑动窗口内的人脸特征向量数目等于所述滑动窗口大小；依次将每个所述滑动窗口内的每个人脸特征向量作为所述聚类中心。

另外，在根据所述滑动窗口大小、所述滑动步长和所述N个人脸特征向量建立多个滑动窗口之前，还包括：对所述N个人脸特征向量进行随机化处理。

另外，所述对多个所述人脸区域图像进行特征提取，得到用于表征人物身份的多个人脸特征向量，具体包括：将多个所述人脸区域图像依次输入预设神经网络模型，得到所述人脸特征向量。

另外，所述预设神经网络模型包括第一级神经网络和第二级神经网络；所述人脸特征向量通过以下方式计算得到：将所述人脸区域图像输入所述第一级神经网络，得到初始向量；将所述初始向量输入所述第二级神经网络，通过所述第二级神经网络中的权重向量和预设的特征参数训练所述初始向量，得到所述人脸特征向量，其中，所述特征参数为大于0的常数。

另外，在对多个所述人脸区域图像进行特征提取之前，还包括：对所述多个人脸区域图像进行人脸图像数据预处理，得到分辨率满足预设要求的人脸区域图像；所述对多个所述人脸区域图像进行特征提取，具体包括：对分辨率满足预设要求的人脸区域图像进行特征提取。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式提供的人脸图像标注方法的流程图；

图2是根据本发明第一实施方式提供的MTCNN人脸检测的流程图；

图3是根据本发明第一实施方式提供的人脸区域图像特征提取的流程图；

图4是根据本发明第一实施方式提供的人脸身份识别原理图；

图5是根据本发明第二实施方式提供的人脸图像标注方法的流程图；

图6是根据本发明第三实施方式提供的人脸图像标注方法的流程图；

图7是根据本发明第三实施方式提供的K邻近算法的聚类原理图；

图8是根据本发明第四实施方式提供的人脸图像标注装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本发明而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本发明所要求保护的技术方案。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明的第一实施方式涉及一种人脸图像标注方法，具体流程如图1所示，包括：

S101：获取人物原始图像的多个人脸区域图像。

具体的说，本实施方式以爬虫工具爬取人物原始图像(如演员剧照、写真、工作照等)，人物原始图像中包含有人脸图像，人物原始图像中的人脸图像可能为一个，也可能为多个，一个人物原始图像中的多个人脸图像可能属于同一身份，也可能属于不同的身份。

值得一提的是，如图2所示，本实施方式中采用基于多级神经网络的级联人脸检测算法MTCNN(Multi-Task Cascaded Convolutional Networks)从人物原始图像中检测人脸区域图像，为了便于理解，下面对MTCNN进行详细的说明：

P-Net网络预测人物原始图像中人脸区域的bounding box(边界框)，将boundingbox区域中的图像裁剪并缩放到24*24的大小并输入到R-Net网络，生成校正后的boundingbox。将R-Net网络生成的bounding box区域中的图像裁剪并缩放到48*48的大小并输入到O-Net网络，生成校正后的bounding box坐标和人脸五官位置坐标，以及bounding box区域包含人脸的概率值。MTCNN人脸检测的主要步骤如下：

(1)判断人物原始图像中是否存在人脸区域：

对于一个区域中是否存在人脸是一个二分类问题，使用逻辑回归损失函数进行评估：

其中，是模型训练样本的真实人脸区域概率，/>p_i是模型预测的人脸概率，p_i∈[0，1]；/>表示概率值/>与概率值p_i的偏移程度，偏移越大，/>越大。

(2)判断人脸区域位置是否准确。

具体的说，通过如下公式判断人脸区域位置是否准确：

其中，/>是模型训练样本的真实人脸区域坐标，/>是模型预测的人脸区域坐标，/>和/>由对应区域的起始顶点坐标和区域的宽、高定义，使用欧式距离的平方度量真实坐标/>与预测坐标/>的偏移程度。

(3)判断人脸五官坐标位置是否准确。

具体的说，通过如下公式判断人脸五官坐标位置是否准确：

其中，/>是模型训练样本的人脸五官坐标，/>是模型预测的人脸五官坐标，使用欧式距离的平方度量真实坐标/>与预测坐标/>的偏移程度。上述处理过程，提取出图像上的人脸图像位置以及人脸五官坐标位置。

优选地，在检测到人脸区域之后，本实施方式中还可以对检测到的人脸区域进行人脸校正。具体的说，人脸校正也叫人脸对齐，就是将人脸头像统一旋转到水平位置。基于前述步骤中检测到的人脸区域以及人脸的五官(左眼、右眼、鼻子、左嘴角、右嘴角)坐标位置，对人脸图像进行仿射变换，经过变换之后的人脸图像处于水平状态，即两眼之间的连线保持水平，并将经过校正后的图像缩放到112*112大小。

更优地，由于通过MTCNN检测到的人脸图像最小大小为12个像素，将12*12的图像缩放到112*112会出现严重失真，失真图像对人脸识别准确性是无益的。因此，本实施方式还会对对所述多个人脸区域图像进行人脸图像数据预处理，得到分辨率满足预设要求的人脸区域图像。具体的说，本实施方式可以根据图像字节大小4*1024(即4kb)对图像进行过滤，去除分辨率低的图像(即去除图像大小在4kb以下的图像)，可以理解的是，本实施方式并不对图像分辨率高低的判断标准作具体限定，可以去除图像大小在4kb以下的图像，也可以图像大小在5kb或6kb以下的图像，均可达到相同的技术效果。通过此种方式，能够在对人脸区域图像进行特征提取之前将失真图像剔除，从而降低了后续步骤的工作量，进一步提高了人脸图像标注方法的工作效率。

S102：对多个人脸区域图像进行特征提取，得到用于表征人物身份的多个人脸特征向量。

具体的说，本实施方式中可以通过如下方式得到人脸特征向量：将所述人脸区域图像输入所述第一级神经网络，得到初始向量；将所述初始向量输入所述第二级神经网络，通过所述第二级神经网络中的权重向量和预设的特征参数训练所述初始向量，得到所述人脸特征向量，其中，所述特征参数为大于0的常数。

为了便于理解，下面对第二级神经网络如何训练初始向量进行详细的说明：

假设初始向量为512维向量，如图3所示，x_i是使用卷积神经网络输出的512维特征向量，w_j是权重向量。通过迭代训练w_j和x_i，降低w_j与x_i向量之间的夹角θ，从而增大余弦值cosθ达到增加w_jx_i向量乘积的目的，使得权重向量w_j代表的人物身份获得更高的预测概率，并且在训练过程中额外增加一个参数m，从而增加算法对不同人物身份的判别性。

具体的说，w_j为随机生成的一组向量值，该向量值组是用于判断输入ArcFace算法的人脸特征向量的人物身份。例如，分别输入特征向量x₁和x₂，若该两个向量均与权重向量组中的w₁无限接近，则可以判定x₁和x₂是属于同一人物身份；若出现较大分隔边界，则可以判定属于不同人物身份。

如图4所示，进一步阐述了ArcFace算法提取的人脸特征具有高内聚(属于同一身份)和较大分隔边界(属于不同身份)的特性。向量x表示一张人脸图像的特征向量，w₁和w₂分别是ArcFace算法经过训练后的权重向量，向量x与权重w₁的夹角为θ₁，向量x与权重w₁的夹角为θ₂，θ₁<θ₂。特征向量x所属的人物身份概率计算过程如下：

w₁x＝||w₁||||x||cos(θ₁)；w₂x＝||w₂||||x||cos(θ₂)；||w₁||||x||cos(θ₁+m)>||w₂||||x||cos(θ₂)；

||w₁||||x||cos(θ₁)>||w₂||||x||cos(θ₂)。

其中，w₁x和w₂x分别表示特征向量x属于两个人物身份的概率，图中的空白区域表示额外增加的参数m对人物身份判别性的提升。算法借助于余弦函数cosine在[0，π]区间内单调递减的特性，在训练时额外加上一个非负的m参数，增加不同身份人脸之间的分隔边界。通过ArcFace算法提取的特征向量，同一身份的特征之间具有更高的内聚性，不同身份的特征之间具有较大的分隔边界。

S103：对多个人脸特征向量进行特征聚类，得到多个人脸特征向量中每个人脸特征向量所属的类别。

具体的说，所述类别包括用于表征人脸特征向量对应的人物身份为目标人物的正类、人脸特征向量对应的人物身份为非目标人物的负类。本实施方式中可以采用基于滑动窗口的特征聚类方法，通过调整滑动步长和窗口大小，逐步降低人脸特征向量的平均类内距离，逐步提升聚类结果的准确性。

S104：标注属于正类的人脸特征向量对应的人脸区域图像。

具体的说，本实施方式采用深度神经网络提取人脸特征向量，依据同一身份人脸的特征向量具有更高相似性的原则，采用统计学习方法在滑动窗口中进行特征聚类，聚类结果识别出不属于同一身份的人脸图像，能快速、准确的从大量人脸图像中筛选出属于某一身份的人脸图像，清除其它噪声数据。

本发明的第二实施方式涉及一种人脸图像标注方法，第二实施方式是在第一实施方式的基础上做了进一步的改进，具体改进之处在于：在第二实施方式中，会删除属于负类的人脸特征向量，并多次判断人脸特征向量中是否还存在属于负类的人脸特征向量，直至最后得到的人脸特征向量中不存在属于负类的人脸特征向量，从而能够进一步提高标准的准确性，确保标注质量。

本实施方式的具体流程如图5所示，包括：

S201：获取人物原始图像的多个人脸区域图像。

S202：对多个人脸区域图像进行特征提取，得到用于表征人物身份的多个人脸特征向量。

S203：对多个人脸特征向量进行特征聚类，得到多个人脸特征向量中每个人脸特征向量所属的类别。

S204：删除属于负类的人脸特征向量，对属于正类的人脸特征向量再次进行特征聚类。

S205：判断再次进行所述特征聚类的人脸特征向量中是否存在属于负类的人脸特征向量，若是，则执行步骤S204；若否，则执行步骤S206。

具体的说，本实施方式中在第一次判断人脸特征向量中不存在属于负类的人脸特征向量时，还可以对本次判断的人脸特征向量再次进行所述特征聚类，并再次判断人脸特征向量中是否存在属于负类的人脸特征向量，重复多次，直至多次判断的结果均为人脸特征向量中不存在属于负类的人脸特征向量。通过此种方式，能够进一步提高人脸图像标注方法的准确性。

S206：标注属于正类的人脸特征向量对应的人脸区域图像。

本发明的第三实施方式涉及一种人脸图像标注方法，本实施方式是对第一实施方式的举例说明，具体说明了：第一实施方式中对多个所述人脸特征向量进行特征聚类，得到多个所述人脸特征向量中每个人脸特征向量所属的类别的过程。

具体的说，如图6所示，在本实施方式中，包含步骤S301至步骤S310，其中，步骤S301至步骤S302分别与第一实施方式中的步骤S101至步骤S102大致相同，此处不再赘述。下面主要介绍不同之处：

执行步骤S301至步骤S302。

S303：分别将N个人脸特征向量中的第i个人脸特征向量作为聚类中心。

S304：计算N个人脸特征向量中其他的N-1个人脸特征向量到聚类中心的度量距离。

S305：判断度量距离中是否存在小于预设阈值的度量距离，若存在，执行步骤S306；若不存在，判定第i个人脸特征向量属于负类。

S306：判断小于预设阈值的度量距离的数量是否大于预设数量，若是，判定第i个人脸特征向量属于正类；若不是，判定第i个人脸特征向量属于负类；判断i是否小于N，在i小于N时，令i＝i+1，执行步骤S303；否则流程结束。

值得一提的是，由于直接对N个人脸特征向量进行特征聚类，可能会存在多个连续的非目标人物图像对应的人脸特征向量影响聚类结果的情况，导致人脸图像标注方法的准确性不高，因此，本实施方式中还可以采用基于图像列表随机化的滑动窗口迭代聚类方法，图像列表随机化可以降低连续出现的噪声数据对聚类准确性带来的影响。基于滑动窗口的特征聚类方法，通过调整滑动步长和窗口大小，逐步降低人脸特征向量的平均类内距离，逐步提升聚类结果的准确性。

也就是说，在所述将N个所述人脸特征向量中的每个人脸特征向量作为聚类中心之前，还包括：设置滑动窗口大小和滑动步长；所述分别将N个所述人脸特征向量中的每个人脸特征向量作为聚类中心，具体包括：根据所述滑动窗口大小、所述滑动步长和所述N个人脸特征向量建立多个滑动窗口，其中，每个所述滑动窗口内的人脸特征向量数目等于所述滑动窗口大小；依次将每个所述滑动窗口内的每个人脸特征向量作为所述聚类中心。

为了便于理解，下面对本实施方式中基于滑动窗口的人脸特征聚类进行详细的说明：

首先，对本实施方式中特征聚类的原理进行简单的介绍：聚类过程采用滑动窗口进行窗口内的局部聚类，在滑动窗口内部分别以每个人脸特征f_i∈{f₁,f₂,...,f_k}向量为聚类中心，计算窗口内其它特征向量f_j与聚类中心f_i的度量距离，并依据阈值K判断聚类中心f_i所属的类别(正类或负类)。

K近邻算法的聚类原理如图7所示，图中每个三角形和正方形代表一个特征向量，三角形和正方形分别代表特征向量所属的类别，在给定度量距离和阈值K的情况下，与圆形特征相近的三角形个数较多，因此将圆形特征识别为三角形类别。

本实施方式采用的K近邻算法核心三要素距离度量、K值、分类决策规则设置如下：

(1)距离度量

本提案中距离度量采用L₂范数，即欧几里得距离(欧氏距离)进行度量，特征向量之间的欧氏距离表示如下：

(2)K值的选择

阈值K与滑动窗口大小、滑动步长对应关系如下：

表1

(3)分类决策规则

如果一个聚类中心f_i∈{f₁,f₂,...,f_k}特征向量的聚类结果，在设置的滑动窗口大小、滑动步长、阈值K下，如果聚类结果中与f_i相近的特征数量小于阈值K，则将聚类中心f_i标记为负类，即噪声数据；如果聚类结果中与f_i相近的特征数量大于阈值K，则将聚类中心f_i标记为正类，即有效数据。

基于上述原理，可以得到本实施方式中滑动窗口的人脸特征聚类步骤如下：

1、将属于“同一身份”的所有人脸图像列表随机化，降低连续出现的噪声图像对聚类结果带来影响。

2、按照滑动步长slide stride，滑动窗口大小window size进行滑动窗口计算。

3、滑动窗口内特征聚类可分为如下几个子步骤：

步骤A：向量化窗口中的每张图像为512维特征向量。

步骤B：使用K近邻算法基于最小距离原则进行特征聚类，循环计算每个特征向量与其余特征向量的度量距离，计算结果取由小到大排列的top N。聚类计算过程如下：

1)任意选取一个特征向量作为聚类中心，记为f_i∈{f₁,f₂,...,f_k}，设f_i属于P类别。

2)计算下一个特征向量f_j到的f_i度量距离dist，若dist<0.95，则f_j归为P类别，否则f_i属于P类别，f_j属于N类别。

3)依次将每个特征向量f_i∈{f₁,f₂,...,f_k}作为聚类中心，计算其余的特征向量f_j到各中心f_i的距离，重复此步至遍历所有的聚类中心。

4)对于每个聚类中心f_i∈{f₁,f₂,...,f_k}的聚类结果，依据聚类分类规则，如果P类别集合大小小于阈值K，则将聚类中心f_i判定为负类，反之将聚类中心f_i判定为正类。正类即为有效数据，负类即为噪声数据。

步骤C：一轮滑动窗口计算代表一轮特征聚类迭代，重复步骤A、步骤B至迭代结束，迭代收敛条件为出现3轮迭代的聚类结果中，被判别为负类的集合为空集。

4、依次选择不同的滑动步长、滑动窗口大小、聚类阈值K，遵照步骤1、2、3进行特征聚类，并基于步骤3的分类决策结果，删除所有被识别为负类的噪声数据，保留被识别为正类的有效数据。

基于滑动窗口的聚类过程伪代码描述如下:

本发明第四实施方式涉及一种人脸图像标注装置，如图8所示，包括：

至少一个处理器401；以及，与至少一个处理器401通信连接的存储器402；其中，存储器402存储有可被至少一个处理器401执行的指令，指令被至少一个处理器401执行，以使至少一个处理器401能够执行上述人脸图像标注方法。

其中，存储器402和处理器401采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器401。

处理器401负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种人脸图像标注方法，其特征在于，包括：

获取人物原始图像的多个人脸区域图像；

对多个所述人脸区域图像进行特征提取，得到用于表征人物身份的多个人脸特征向量，其中，一个人脸区域图像对应一个人脸特征向量；

对多个所述人脸特征向量进行特征聚类，得到多个所述人脸特征向量中每个人脸特征向量所属的类别，其中，所述类别包括用于表征人脸特征向量对应的人物身份为目标人物的正类、人脸特征向量对应的人物身份为非目标人物的负类；

标注属于所述正类的人脸特征向量对应的人脸区域图像；

所述对多个所述人脸区域图像进行特征提取，得到用于表征人物身份的多个人脸特征向量，具体包括：

将多个所述人脸区域图像依次输入预设神经网络模型，得到所述人脸特征向量；

所述预设神经网络模型包括第一级神经网络和第二级神经网络；所述人脸特征向量通过以下方式计算得到：

将所述人脸区域图像输入所述第一级神经网络，得到初始向量；

将所述初始向量输入所述第二级神经网络，通过所述第二级神经网络中的权重向量和预设的特征参数训练所述初始向量，得到所述人脸特征向量，其中，所述特征参数为大于0的常数，所述第一级神经网络和所述第二级神经网络均为卷积神经网络，所述第二级神经网络通过ArcFace算法提取人脸特征向量。

2.根据权利要求1所述的人脸图像标注方法，其特征在于，在所述标注属于所述正类的人脸特征向量对应的人脸区域图像之前，还包括：

删除属于所述负类的人脸特征向量，对属于所述正类的人脸特征向量再次进行所述特征聚类，判断再次进行所述特征聚类的人脸特征向量中是否存在属于所述负类的人脸特征向量；

若存在，重复上述步骤直至再次进行所述特征聚类的人脸特征向量不存在属于所述负类的人脸特征向量。

3.根据权利要求1或2所述的人脸图像标注方法，其特征在于，所述对多个所述人脸特征向量进行特征聚类，具体包括：

分别将N个所述人脸特征向量中的每个人脸特征向量作为聚类中心，并在将第i个人脸特征向量作为所述聚类中心时，计算N个所述人脸特征向量中其他的N-1个人脸特征向量到所述聚类中心的度量距离，其中，N为大于1的整数，i为小于或等于N的整数；

判断所述度量距离中是否存在小于预设阈值的度量距离；

若不存在，则判定所述第i个人脸特征向量属于所述负类；

若存在，则判断小于预设阈值的度量距离的数量是否大于或等于预设数量，若是，则判定所述第i个人脸特征向量属于所述正类；若不是，则判定所述第i个人脸特征向量属于所述负类。

4.根据权利要求3所述的人脸图像标注方法，其特征在于，在所述分别将N个所述人脸特征向量中的每个人脸特征向量作为聚类中心之前，还包括：

设置滑动窗口大小和滑动步长；

所述分别将N个所述人脸特征向量中的每个人脸特征向量作为聚类中心，具体包括：

根据所述滑动窗口大小、所述滑动步长和所述N个人脸特征向量建立多个滑动窗口，其中，每个所述滑动窗口内的人脸特征向量数目等于所述滑动窗口大小；

依次将每个所述滑动窗口内的每个人脸特征向量作为所述聚类中心。

5.根据权利要求4所述的人脸图像标注方法，其特征在于，在根据所述滑动窗口大小、所述滑动步长和所述N个人脸特征向量建立多个滑动窗口之前，还包括：

对所述N个人脸特征向量进行随机化处理。

6.根据权利要求1所述的人脸图像标注方法，其特征在于，在对多个所述人脸区域图像进行特征提取之前，还包括：

对所述多个人脸区域图像进行人脸图像数据预处理，得到分辨率满足预设要求的人脸区域图像；

所述对多个所述人脸区域图像进行特征提取，具体包括：

对分辨率满足预设要求的人脸区域图像进行特征提取。

7.一种人脸图像标注装置，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的人脸图像标注方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的人脸图像标注方法。