CN113205138A

CN113205138A - 人脸人体匹配方法、设备和存储介质

Info

Publication number: CN113205138A
Application number: CN202110489603.2A
Authority: CN
Inventors: 施志祥; 郑腾飞; 阮宇艨
Original assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co Ltd
Current assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-03

Abstract

本发明属于图像处理技术领域，具体提供一种人脸人体匹配方法、设备和存储介质，旨在解决单一使用人脸框和人体框的位置信息实现人脸与人体匹配检测中正确率不高的问题。为此目的，本发明的方法包括：获取图像中的人体图像和人脸区域；将人体图像输入预先训练完成的人脸人体匹配模型得到置信图，置信图中包含有；根据置信图和人脸区域计算得到人脸与人体的匹配置信度；当匹配置信度大于或等于人脸人体匹配置信度阈值时，人脸与人体匹配。通过本发明，将人脸与人体之间的语义信息和位置信息同时用于匹配的判别，可以有效地提高人脸与人体匹配检测的正确率。

Description

人脸人体匹配方法、设备和存储介质

技术领域

本发明属于图像处理技术领域，具体提供一种人脸人体匹配方法、设备和存储介质。

背景技术

人脸图像识别技术已广泛应用于金融、公安、边检和教育等众多领域，该技术通常要求获取一张较为清晰的正脸图像，然而如果行人没有主动配合，由于受摄像头拍摄角度、环境等因素的影响，大多情况下很难获得一张较为清晰的正脸图像，从而无法通过人脸图像进行身份识别。人体图像识别技术受摄像头拍摄角度和环境影响较小，利用人体图像识别技术可将多个摄像头下同一行人的运动轨迹串联起来，继而只需在众多行人轨迹图像中找到一张包含清晰正脸的图像便可以进行人脸识别。

通过人体图像和人脸图像协同进行人脸识别的方法，其关键步骤是在人体图像上找到目标人脸。但是由于行人拥挤和摄像头拍摄方向、角度等原因，通常一张人体图像上有多个人脸，或者人体图像上的单个人脸不是该人体所对应的目标人脸，这使得在人体图像上找到目标人脸变得困难。现有方法通常利用人脸框和人体框的坐标信息，计算两者之间的匹配度来判断人脸与人体是否匹配。但是，这种方法忽略了人脸和人体之间的语义信息，往往造成匹配正确率不高；并且人脸框和人体框的跟踪误差也会降低匹配的正确率。

相应地，本领域需要一种新的方案来解决上述问题。

发明内容

为了解决现有技术中的上述问题，即为了解决通过单一的图像中人脸框和人体框的位置信息实现人脸与人体匹配而存在的匹配正确率不高的问题。在第一方面，本发明提出了一种人脸人体匹配模型的训练方法，所述方法包括：

将样本图像作为人脸人体匹配模型的输入，输出得到样本置信图；

根据所述样本图像中的人脸区域得到监督信号；

根据所述样本置信图和所述监督信号，通过损失函数计算损失值；

根据所述损失值和反向传播算法更新所述人脸人体匹配模型的参数；

其中，所述样本图像为公开数据集中通过自动或人工方式标识出人体图像和人脸区域的图像。

在上述人脸人体匹配模型的训练方法的一个实施方式中，所述人脸人体匹配模型包括：

U型结构的神经网络；

sigmoid函数，所述sigmoid函数将所述神经网络输出的置信图的数值映射到0～1之间；

其中，所述置信图和所述人体图像的大小相同。

在上述人脸人体匹配模型的训练方法的一个实施方式中，“根据所述样本图像中的人脸区域得到监督信号”的步骤具体包括：

根据所述样本图像中的人脸区域得到第一监督信号图；

将所述第一监督信号图划分为三种类别：目标人脸区域，非目标人脸区域和背景区域；

根据第一缩进系数和第二缩进系数将所述目标人脸区域和所述非目标人脸区域分别向中心缩进，得到第二监督信号图；

所述监督信号为所述第二监督信号图，所述监督信号和所述样本置信图大小相同。

在上述人脸人体匹配模型的训练方法的一个实施方式中，所述损失值的计算方法包括：

损失函数选取像素级别的交叉熵损失函数，每个像素对应的所述损失函数的表达式为：

其中，L为损失值，M为监督信号中类别的数量；y_c为一个one-hot向量，元素只有0和1两种取值，当该类别和样本的类别相同时取1，否则取0；p_c为所述样本置信图中预测样本属于c的概率值；

所述类别包含所述目标人脸区域和所述非目标人脸区域，不包含所述背景区域。

在第二方面，本发明提出了一种人脸人体匹配方法，所述方法包括：

获取实际图像中的人体图像和人脸区域；

将所述人体图像输入到根据人脸人体匹配模型的训练方法所述的方法训练好的人脸人体匹配模型中，得到置信图；

根据所述置信图和所述人脸区域计算得到人脸与人体的匹配置信度；

将所述匹配置信度与人脸人体匹配置信度阈值进行比较；

当所述匹配置信度大于或等于所述人脸人体匹配置信度阈值时，判定所述实际图像的人脸与人体匹配，否则所述实际图像的判定人脸与人体不匹配。

在上述人脸人体匹配方法的一个实施方式中，“根据所述置信图和所述人脸区域计算得到人脸与人体的匹配置信度”的具体步骤包括：

在所述置信图中，根据第一缩进系数和第二缩进系数对所述人脸区域执行向中心缩进计算，得到人脸缩进区域；

计算所述置信图中所述人脸缩进区域范围内的响应均值，作为人脸与人体的匹配置信度。

在上述人脸人体匹配方法的一个实施方式中，

在计算人脸与人体的匹配置信度时，如果存在多个所述人脸区域，则计算全部所述人脸区域的所述匹配置信度；

在将所述匹配置信度与人脸人体匹配置信度阈值进行比较时，选择最高的匹配置信度与所述人脸人体匹配置信度阈值进行比较。

在上述人脸人体匹配方法的一个实施方式中，所述响应均值的计算方法为：

其中，P为响应均值，N为置信图中人脸缩进区域范围内像素个数，p_i为每个像素被预测属于目标人脸的概率值。

在第三方面，本发明提出了一种人脸人体匹配设备，所述设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行上述任一项方案所述的人脸人体匹配方法。

在第四方面，本发明提出了一种存储介质，所述存储介质适于存储多条程序代码，所述程序代码适于由处理器加载并运行以执行上述任一项方案所述的人脸人体匹配方法。

本领域技术人员能够理解的是，根据本发明的人脸与人体匹配的技术方案，通过设计一种能体现人脸与人体之间语义关系和位置关系的监督信号，利用该监督信号训练人脸人体匹配模型，并使用该人脸人体匹配模型输出的置信图判别人脸与人体的是否匹配，应用本方法可以有效提高人脸与人体匹配的正确率。并且，在本方法中，输入为人体图像，人脸人体匹配模型直接输出的置信图作为预测人脸区域是否匹配的依据，这种端到端的技术方案简洁高效，同时也可以避免因其他关联模块的累积误差，而造成的匹配正确率降低的问题。

附图说明

下面参照附图来描述本发明的具体实施方式，附图中：

图1是本发明的实施例的主要步骤流程图。

图2是本发明的实施例的主要框架结构示意图。

图3是本发明的实施例的监督信号生成的示意图。

图4是本发明的实施例的人脸人体匹配模型的训练方法的主要步骤流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

首先参阅图1，图1是本发明的实施例的主要步骤流程图，如图1所示，人脸人体匹配方法包括：

步骤S101：获取实际图像中的人体图像和人脸区域；

步骤S102：将人体图像输入预先训练完成的人脸人体匹配模型得到置信图；

步骤S103：根据置信图和人脸区域计算得到人脸与人体的匹配置信度；

步骤S104：当匹配置信度大于或等于人脸人体匹配置信度阈值时，判定人脸与人体匹配，否则判定人脸与人体不匹配。

继续参阅图2，图2是本发明的一个实施例的主要框架结构示意图，结合图1和图2说明本发明的实现流程。

在本实施例中，实现步骤S101的方法为：首先从视频流中通过行人检测模块21得到需要识别的人体图像，然后将该人体图像输入到人脸检测模块22得到人脸区域，该人脸区域可用矩形框进行标识。人脸检测模块22将识别人体图像中的全部人脸信息，因此人脸区域的数量不小于1个，如图3所示，图中的人脸区域有2个。

在本实施例中，图像处理是像素级的，优选地，采用像素坐标系，该坐标系的原点可选在图像的左上角。人脸区域在图像中的位置可以用该人脸区域矩形框的左上角坐标和右下角坐标来标识，如图3监督信号图中，目标人脸区域33的矩形框的左上角坐标为(x₁，y₁)，右下角坐标为(x₂，y₂)。

在步骤S101中，人体检测和人脸检测的方法为本领域的公知技术，人体检测和人脸检测的方法既可以相同，也可以不同，本发明实施例不做限定。示例性的，人体检测和人脸检测可采用Faster R-CNN模型、SSD模型、YOLO模型等，本领域技术人员可根据实际情况选用适合的技术方案。

在本实施例中，人体检测和人脸检测分别由行人检测模块21和人脸检测模块22完成，并且人脸检测是基于人体检测结果的。本领域技术人员可根据实际情况，采用其他方案实现人体检测和人脸检测，如将行人检测模块21和人脸检测模块22合并为一个模块，使用一个算法，图像检测的特征包括人体、人脸，即可实现人体检测和人脸检测。这些方案的更改或替换之后的技术方案都将落入本发明的保护范围之内。

需要说明的是，在本实施例中，检测的图像为视频流中直接识别的图像，本发明的方法同样适用于视频中截取或抓拍的图像，或是其他方式获得的图像。

将步骤S101中得到的人体图像，输入到置信图生成模块23中的如步骤S102所述的已训练完成的人脸人体匹配模型，得到该待检测人体图像的置信图。

图3中置信图生成模块23通常包括人脸人体匹配模型、监督信号和损失函数，监督信号和损失函数主要用于训练人脸人体匹配模型，在检测人脸人体是否匹配时，可屏蔽监督信号和损失函数的执行。

在本实施例中，人脸人体匹配模型的结构主要包括U型结构的深度神经网络、sigmoid函数。U型结构的深度神经网络的结构包含Encoder和Decoder两个部分，Encoder部分通过不断卷积和下采样操作，捕获图像中的上下文语义信息，获得图像的高层语义信息编码；Decoder部分通过不断卷积和上采样操作，将高层语义信息映射到置信图上。该模型输入的人体图像大小为(h,w)，经过Encoder和Decoder，输出的置信图大小同样为(h,w)，因此置信图的大小与输入的人体图像的大小相同。此时，人脸人体匹配模型输出的置信图中已经同时包含人脸区域的语义信息和位置信息。

通过sigmoid函数将置信图的数值映射到0～1之间，得到用于计算置信度的最终置信图。sigmoid函数如下所示：

其中，S为sigmoid函数；x为置信图中每个像素点的U型结构的深度神经网络输出值。

之所以选用具有U型结构的深度神经网络，是因为在图像处理过程中，通过Encoder和Decoder环节可以将语义信息映射到置信图中，因此，置信图将同时包含所处理图像中人脸的语义信息和位置信息，应用该置信图作为匹配的判断依据，将会大大提高人脸与人体匹配的正确率。

在置信图生成模块23中，U型结构的深度神经网络为本领域的公知技术，本发明实施例不做限定。示例性的，U型结构的深度神经网络可采用U-Net网络、SegNet网络、UNet++网络等，本领域技术人员可根据实际情况选用适合的技术方案。

在本实施例中，监督信号的生成，即获取人脸人体的语义信息和位置信息的先验知识；该先验知识就是知道一批已知人脸区域的人体图像的监督信号作为训练模型的训练集。可选地，选用ReID公开数据集Market-1501数据集中的图像，并通过人工或自动的方式标识出图像中的目标人体和人脸区域，如图3中所示的人脸框31和人脸框32，其中，人脸框31为目标人体对应的目标人脸区域，作为模型训练的样本图像。

继续阅读图3，根据已标识出人脸框的样本图像生成第一监督信号图。为体现人脸人体的语义关系和位置关系，将第一监督信号图划分为三种类别：目标人脸区域，非目标人脸区域和背景区域。为了便于在计算机中展示，可用不同颜色代表监督信号图中的不同的类别。作为示例，监督信号图中的红色区域表示目标人脸区域，绿色区域表示非目标人脸区域，黑色区域表示背景区域，并且与人体图像中的各区域在位置坐标上一一对应。如在图3中，监督信号图中目标人脸区域33对应样本图像中的人脸区域31，监督信号图中非目标人脸区域35对应样本图像中的人脸区域32，监督信号图和样本图像中的其他区域均为背景区域。

进一步阅读图3，为降低人脸边界区域对预测结果可能带来的不利影响，将第一监督信号中的目标人脸区域和非目标人脸区域分别向其中心缩进，得到第二监督信号图。如在图3中，未缩进的目标人脸区域33，其矩形框的左上角坐标为(x₁，y₁)，右下角坐标为(x₂，y₂)；缩进的目标人脸区域34，其矩形框的左上角坐标为(m₁，n₁)，右下角坐标为(m₂，n₂)。

因此，监督信号为包含缩进的目标人脸区域和缩进的非目标人脸区域的第二监督信号图。并且，第二监督信号图与第一监督信号图的大小相同；第一监督信号图由样本图像直接获得；人体图像与该人体图像通过人脸人体匹配模型输出的置信图的大小相同，由此可以得到，监督信号和样本置信图的大小相同。

目标人脸区域和非目标人脸区域向其中心缩进方法为：通过x轴方向第一缩进系数α和y轴方向第二缩进系数β进行线性缩进。作为示例，目标人脸框的缩进计算如下所示：

m₁＝x₁+α(x₂-x₁)

n₁＝y₁+β(y₂-y₁)

m₂＝x₂-α(x₂-x₁)

n₂＝y₂-β(y₂-y₁)

其中，缩进系数α和β通常根据样本库的图像的特性，由相关技术人员进行设置，如可设置α＝0.8和β＝0.85，α和β的数值可以相同，也可以不同。

在本实施例中，根据人脸人体匹配模型输出的样本置信图和监督信号计算损失，其中，样本置信图和监督信号均由同一样本图像获得。损失函数选取像素级别的交叉熵损失函数，这种损失会逐个检查每个像素，对每个像素类别的预测结果与监督信号进行比较。因此，通过交叉熵函数可以判定模型的实际输出与期望输出的接近程度。

每个像素对应的损失函数的表达式为：

其中，L为损失值，M为监督信号中类别的数量；y_c为一个one-hot向量，元素只有0和1两种取值，当该类别和样本的类别相同时取1，否则取0；p_c为样本置信图中预测样本属于c的概率值，该预测概率与样本置信图成正相关关系，样本置信图直接反映该预测概率的大小，在本实施例中，可以取样本置信图中每个像素对应的经sigmoid函数计算后的数值。

需要说明的是，在本实施例中，由于执行的操作是人脸与人体的匹配，当已知人脸区域坐标，其目的是区分该人脸区域是目标人脸区域，还是非目标人脸区域。因此，在计算损失时也只需计算这两个类别区域所产生的损失，对于背景区域所产生的损失可以忽略不计。

接下来参阅图4，图4是本发明的实施例的人脸人体匹配模型的训练方法的主要步骤流程图。作为示例，选择具有U型结构的深度神经网络UNet++网络作为人脸人体匹配模型的示例网络，人脸人体匹配模型训练的主要方法包括：

步骤S401：将样本图像作为UNet++网络的输入，并经sigmoid函数运算得到样本置信图；

步骤S402：根据样本图像中的人脸区域得到监督信号；

步骤S403：根据同一样本图像得到的样本置信图和监督信号，通过交叉熵损失函数计算损失值；

步骤S404：根据损失值和反向传播算法更新UNet++网络的参数。

经过多个样本图像，每个样本图像的多次迭代的训练之后，当计算的损失值小于设定损失值阈值时，可以认为训练完成。损失值阈值的大小与样本图像的数量和质量，迭代次数等因素相关，可由相关技术人员根据实际情况进行设置，如可设置损失值阈值为0.00005，损失值越小，表明模型预测结果与实际情况越接近。

图2中的置信度计算模块24的输入为步骤S101中得到的人脸区域和步骤S102中得到的置信图。在步骤S103中，同样原因，为了降低人脸边界区域对匹配结果可能带来的不利影响，将待处理置信图中的全部人脸区域分别向其中心缩进，得到全部人脸缩进区域，缩进的方法与前述人脸人体匹配模型训练中获取监督信号所使用的缩进方法相同，并且，缩进所使用的第一缩进系数和第二缩进系数分别与前述人脸人体匹配模型训练中获取监督信号所使用的第一缩进系数α和第二缩进系数β的值也相同。

分别计算人脸人体匹配模型输出的置信图中全部人脸缩进区域的响应均值，可得到1个或多个响应均值，计算所得的响应均值即为匹配置信度。响应均值的计算方法为：

其中，P为响应均值，N为置信图中人脸缩进区域范围内像素个数，p_i为每个像素预测属于目标人脸的概率值，该概率值与置信图成正相关关系，置信图直接反映该概率值的大小，在本实施例中，可以取置信图中每个像素对应的经sigmoid函数计算后的数值。

步骤S104可由匹配判决模块25实现，步骤S103中得到的匹配置信度如果大于或等于预先设置的人脸人体匹配置信度阈值时，则判定实际图像中的人脸与人体匹配，否则判定实际图像中的人脸与人体不匹配。当人体图像中包含多个人脸区域，只选择匹配置信度最高的人脸区域进行匹配的判断。

需要说明的是，本方法同样适用于图像中多个人脸与人体的匹配。作为示例，可将图像分割为多张的人体图像并进行编码，依次对已编码的人体图像使用本发明的方法进行人脸与人体的匹配，以实现图像中多个人脸与人体的匹配。在不偏离本发明的原理的前提下，本领域技术人员可根据实际情况选用适合的技术方案，这些方案的更改或替换之后的技术方案都将落入本发明的保护范围之内。

进一步，本发明还提供了一种人脸与人体匹配的设备。在根据本发明的一个人脸与人体匹配的设备实施例中，人脸与人体匹配的设备包括处理器和存储装置，存储装置可以被配置成存储并执行上述方法实施例的人脸与人体匹配的方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的人脸与人体匹配的方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该人脸与人体匹配的设备可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种存储介质。在根据本发明的一个存储介质实施例中，存储介质可以被配置成存储执行上述方法实施例的人脸与人体匹配的方法的程序，该程序可以由处理器加载并运行来实现上述人脸与人体匹配的方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中存储介质是非暂时性的计算机可读存储介质。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。应该理解这样使用的数据在适当的情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种人脸人体匹配模型的训练方法，其特征在于，包括：

根据所述样本图像中的人脸区域得到监督信号；

2.根据权利要求1所述的人脸人体匹配模型的训练方法，其特征在于，所述人脸人体匹配模型包括：

U型结构的神经网络；

其中，所述置信图和所述人体图像的大小相同。

3.根据权利要求1所述的人脸人体匹配模型的训练方法，其特征在于，“根据所述样本图像中的人脸区域得到监督信号”的步骤具体包括：

根据所述样本图像中的人脸区域得到第一监督信号图；

4.根据权利要求3所述的人脸人体匹配模型的训练方法，其特征在于，所述损失值的计算方法包括：

5.一种人脸人体匹配方法，其特征在于，所述方法包括：

获取实际图像中的人体图像和人脸区域；

将所述人体图像输入到根据权利要求1至4中任一项所述的方法训练好的人脸人体匹配模型中，得到置信图；

将所述匹配置信度与人脸人体匹配置信度阈值进行比较；

当所述匹配置信度大于或等于所述人脸人体匹配置信度阈值时，判定所述实际图像中的人脸与人体匹配，否则判定所述实际图像中的人脸与人体不匹配。

6.根据权利要求5所述的人脸人体匹配方法，其特征在于，“根据所述置信图和所述人脸区域计算得到人脸与人体的匹配置信度”的具体步骤包括：

7.根据权利要求6所述的人脸人体匹配方法，其特征在于，

8.根据权利要求6所述的人脸人体匹配方法，其特征在于，所述响应均值的计算方法为：

9.一种人脸人体匹配设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求5至8中任一项所述的人脸人体匹配方法。

10.一种存储介质，所述存储介质适于存储多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求5至8中任一项所述的人脸人体匹配方法。