CN112149557B

CN112149557B - 一种基于人脸识别的人物身份跟踪方法及***

Info

Publication number: CN112149557B
Application number: CN202011000236.7A
Authority: CN
Inventors: 柯逍; 林炳辉; 陈宇杰
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-08-09
Anticipated expiration: 2040-09-22
Also published as: CN112149557A

Abstract

本发明涉及一种基于人脸识别的人物身份跟踪方法及***，包括步骤：采用人脸数据集训练神经网络；采集待识别身份人物的人脸图片，并构建待识别人脸身份库；根据输入的视频帧，使用训练好的yolov3人脸检测模型，检测每帧图像的人脸位置；将检测到的人脸使用训练好的神经网络提取特征，并与待识别人脸身份库中的人脸特征进行比对确定身份，初始化待跟踪的人脸目标；对人脸对应的人物身份进行跟踪。本发明对于跟踪的目标可以确认到人物的id。

Description

一种基于人脸识别的人物身份跟踪方法及***

技术领域

本发明涉及机器视觉技术领域，特别是一种基于人脸识别的人物身份跟踪方法及***。

背景技术

近年来，随着社会进步及科技的不断发展，人脸识别问题一直都是一个热门研究领域，国内外不少专家在这个领域都有十分深入的研究。同时，作为人脸识别的入口与基础，人脸的检测、对齐、跟踪等技术也在一同发展。人脸识别技术广泛应用于智能监控、视频会议、门禁***等现实应用场景中，但由于现实场景的背景复杂性已经其他诸如光照、遮挡或者人物姿态的变化等，真实监控***视频中人脸识别算法还是具有一定挑战性。

同时，物体跟踪算法在近年来也有了快速的发展，跟踪算法在监控场景中的应用也十分广泛，并且在智能安防场景下的需求也很大。但是目前的跟踪算法对人物的跟踪大多只是停留在行人层面，并且目标的id在跟踪过程中会时常有转换问题。

发明内容

有鉴于此，本发明的目的是提出一种基于人脸识别的人物身份跟踪方法及***，对于跟踪的目标可以确认到人物的id。

本发明采用以下方案实现：一种基于人脸识别的人物身份跟踪方法，具体包括以下步骤：

采用人脸数据集训练神经网络；采集待识别身份人物的人脸图片，并构建待识别人脸身份库；

根据输入的视频帧，使用训练好的yolov3人脸检测模型，检测每帧图像的人脸位置；

将检测到的人脸使用训练好的神经网络提取特征，并与待识别人脸身份库中的人脸特征进行比对确定身份，初始化待跟踪的人脸目标；

对人脸对应的人物身份进行跟踪。

进一步地，所述采用人脸数据集训练神经网络具体为：

收集公开的人脸数据集，获得相关人物的图片及其对应的人物姓名；

将人脸数据集中的人脸图像的尺寸变为112×112，并使用resnet作为主干网络，损失函数设置如下：

式中，m是样本的数量，i代表第i个样本，n代表类别数，j代表第j个类别，

代表第i个样本所属的类别的分数，y_i是第i个样本所属的类别，s是归一化参数即缩放系数，

是权重W_yi和特征向量x_i的余弦夹角，其中权重W_i和特征向量x_i已经归一化为1，t是引入的超参数用来限制不同类别间的夹角。

进一步地，所述构建待识别人脸身份库具体为：选取要跟踪的目标人物的人脸图像，以人物姓名为文件名，放在指定文件夹下作为要跟踪人物的图像库，库中有k个人，对应的名字为name₁，name₂，...，name_k。

进一步地，所述根据输入的视频帧，使用训练好的yolov3人脸检测模型，检测每帧图像的人脸位置具体为：

选取视频流第一帧的图像；

调用预训练好的yolov3人脸检测模型，yolov3人脸检测模型将输入的图片大小变为448*448大小，并平均划分成7*7＝49个网格，每个网格的大小为64*64；

对于每个网格，预测2个边界框，每个边界框都有(x,y,w,h,confidence)五个基本参数，其中，(x,y)是边界框的中心坐标，(w,h)为边界框的宽高，confidence为置信度；

根据上一步共预测出7*7*2个边界框，筛选掉置信度低于预设阈值0.7的边界框，接着利用非极大值抑制去除冗余窗口，得到的边界框作为人脸检测框，即得到人脸在图像中的位置。

进一步地，所述将检测到的人脸使用训练好的神经网络提取特征，并与待识别人脸身份库中的人脸特征进行比对确定身份具体为：

将人脸位置的图像截取出来，采用相似变换进行人脸对齐，并将截取的图片尺寸改为112×112后送入训练好的神经网络中，得到一个特征向量a；

将待识别人脸身份库中的k个图片分别送入训练好的神经网络中，得到输出的k个特征向量b₁，b₂，...，b_k，k为待识别人脸身份库中的人脸数目；

将特征向量a分别与b₁，b₂，...，b_k求余弦相似度，将余弦相似度最高的且超过设定阈值0.8的b_i所对应的人脸作为a匹配到的人脸，否则将特征a对应的人脸设为陌生人。

进一步地，所述对人脸对应的人物身份进行跟踪具体为：

将每个跟踪的人脸目标状态表示为以下形式：

式中，m′表示跟踪的人脸目标状态，u和v表示跟踪人脸区域的中心坐标，s为人脸框的长宽比，r为人脸框的高度，

分别表示(u，v，s，r)在图像坐标空间中的速度；

针对要跟踪的每个人脸检测框分配***并设置计数器，在卡尔曼滤波预测期间递增，一旦一个人脸检测框***和yolov3的人脸检测结果能够匹配上，则将这个人脸检测框***相对应的计数器重置为0；如果一个人脸检测框***在预设的一段时间即30帧内一直没能匹配上yolov3的人脸检测结果，则把该人脸检测框***的轨迹从轨迹列表中删除；

将轨迹列表中的轨迹框实时送入训练好的神经网络中检测人脸的id。

进一步地，所述跟踪结果与检测结果的匹配采用以下方法实现：

采用三种度量方式的线性加权来作为最终的度量值：

d(i1，j1)＝αd⁽¹⁾(i1，j1)+βd⁽²⁾(i1，j1)+(1-α-β)d⁽³⁾(i1，j1)；

式中，d⁽¹⁾(i1，j1)为跟踪结果c_i1与检测结果d_j1之间的位置度量值，d⁽²⁾(i1，j1)为跟踪结果c_i1与检测结果d_j1之间的外观度量值，d⁽³⁾(i1，j1)为跟踪结果c_i1与检测结果d_j1之间的速度度量值，α与β为加权系数；

若d(i1，j1)小于设定的阈值0.3，则判断跟踪结果c_i1与检测结果d_j1是匹配的。

进一步地，所述跟踪结果c_i1与检测结果d_j1之间的速度度量值采用下式计算：

式中，

为跟踪结果c_i1与检测结果d_j1之间的位置度量值，f为跟踪结果c_i1与检测结果d_j1之间的帧数。

本发明还提供了一种基于人脸识别的人物身份跟踪***，包括处理器、存储器以及存储在存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

与现有技术相比，本发明有以下有益效果：本发明对于跟踪的目标可以确认到人物的id，即姓名上，在跟踪过程中，如果跟踪目标的编号发生变化，可以通过人脸识别的方法重新确认人物身份。同时，也利用了物体跟踪的思路对人脸的运动轨迹进行预测，避免了逐帧识别人脸存在的追踪框延迟的问题。

附图说明

图1为本发明实施例的方法流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于人脸识别的人物身份跟踪方法，具体包括以下步骤：

对人脸对应的人物身份进行跟踪。

在本实施例中，所述采用人脸数据集训练神经网络具体为：

将人脸数据集中的人脸图像的尺寸变为112×112，并使用resnet作为主干网络，设置训练时的总的Batch Size为512，同时学习率从0.1开始在分别在10万、14万、16万次迭代下降一个量级，设置了总的迭代为20万次，momentum动量为0.9，权值衰减为5e-4，损失函数设置如下：

在本实施例中，所述构建待识别人脸身份库具体为：选取要跟踪的目标人物的人脸图像，以人物姓名为文件名，放在指定文件夹下作为要跟踪人物的图像库，库中有k个人，对应的名字为name₁，name₂，...，name_k。

在本实施例中，所述根据输入的视频帧，使用训练好的yolov3人脸检测模型，检测每帧图像的人脸位置具体为：

选取视频流第一帧的图像；

在本实施例中，所述将检测到的人脸使用训练好的神经网络提取特征，并与待识别人脸身份库中的人脸特征进行比对确定身份具体为：

将特征向量a分别与b₁，b₂，...，b_k求余弦相似度，公式如下：

k个similar中最大且超过阈值0.8的，即为匹配到的人脸，如果特征向量a与所有特征向量b的相识度均不超过阈值，则特征向量a对应的人脸为陌生人，即不在库中。

在本实施例中，所述对人脸对应的人物身份进行跟踪具体为：

将每个跟踪的人脸目标状态表示为以下形式：

分别表示(u，v，s，r)在图像坐标空间中的速度；

针对要跟踪的每个人脸检测框分配***并设置计数器，在卡尔曼滤波预测期间递增，一旦一个人脸检测框***和yolov3的人脸检测结果能够匹配上，则将这个人脸检测框***相对应的计数器重置为0；如果一个人脸检测框***在预设的一段时间内即30帧一直没能匹配上yolov3的人脸检测结果，则把该人脸检测框***的轨迹从轨迹列表中删除；

在本实施例中，所述跟踪结果与检测结果的匹配采用以下方法实现：

采用三种度量方式的线性加权来作为最终的度量值：

若d(i1，j1)小于设定的阈值0.3，则判断跟踪结果c_i1与检测结果d_j1是匹配的，通过上述方法对所有视频帧进行人脸的跟踪。

跟踪框的匹配分别采用了位置因素和外观因素，其中，在位置度量上使用的是马氏距离：

马氏距离计算物体检测框d_j1和物体跟踪框c_i1之间的距离，S是协方差矩阵，i1，j1为序号；

其中，外观度量方面，对每一个的检测块d_j1通过CNN网络计算对应的128维特征向量r_j1,对每一个跟踪目标构建一个列表，存储每一个跟踪目标成功关联的最近100帧的特征向量。那么外观度量的方式就是计算***的最近100个成功关联的特征集与当前帧检测结果的特征向量间的最小余弦距离：

i1，j1，k1均为序号，R表示特征向量的集合。

其中，所述跟踪结果c_i1与检测结果d_j1之间的速度度量值采用下式计算：

式中，

为跟踪结果c_i1与检测结果d_j1之间的位置度量值，f为跟踪结果c_i1与检测结果d_j1之间的帧数。用距离度量除以f，来表示被检测物体运动速度、方向，这样可以更好的处理相似的人相遇而过导致的跟踪id切换的问题。

本实施例还提供了一种基于人脸识别的人物身份跟踪***，包括处理器、存储器以及存储在存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

本实施例着眼于计算机视觉对于监控场景下人脸的识别与跟踪，使用yolov3作为人脸检测器，提高了人脸检测效率。将人脸的识别与跟踪相结合，人脸识别可以在跟踪过程中确定人物的身份，用人物身份做id减少跟踪过程中目标id频繁变换，加入了速度度量，加强了对跟踪匹配的约束，具有创新意义。且实施例提出方法的准确率高，时效性好，对于人脸的识别跟踪具有实际应用意义。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于人脸识别的人物身份跟踪方法，其特征在于，包括以下步骤：

对人脸对应的人物身份进行跟踪；

所述采用人脸数据集训练神经网络具体为：

是权重W_yi和特征向量x_i的夹角余弦值，其中权重W_i和特征向量x_i已经归一化为1，t是引入的超参数用来限制不同类别间的夹角；

所述对人脸对应的人物身份进行跟踪具体为：

将每个跟踪的人脸目标状态表示为以下形式：

式中，m′表示跟踪的人脸目标状态，u和v表示跟踪人脸区域的中心坐标，s′为人脸框的长宽比，r为人脸框的高度，

分别表示(u,v,s′,r)在图像坐标空间中的速度；

针对要跟踪的每个人脸检测框分配***并设置计数器，在卡尔曼滤波预测期间递增，一旦一个人脸检测框***和yolov3的人脸检测结果能够匹配上，则将这个人脸检测框***相对应的计数器重置为0；如果一个人脸检测框***在预设的一段时间内一直没能匹配上yolov3的人脸检测结果，则把该人脸检测框***的轨迹从轨迹列表中删除；

将轨迹列表中的轨迹框实时送入训练好的神经网络中检测人脸的id；

跟踪结果与检测结果的匹配采用以下方法实现：

采用三种度量方式的线性加权来作为最终的度量值：

若d(i1，j1)小于设定的阈值，则判断跟踪结果c_i1与检测结果d_j1是匹配的；

所述跟踪结果c_i1与检测结果d_j1之间的速度度量值采用下式计算：

式中，

2.根据权利要求1所述的一种基于人脸识别的人物身份跟踪方法，其特征在于，所述构建待识别人脸身份库具体为：选取要跟踪的目标人物的人脸图像，以人物姓名为文件名，放在指定文件夹下作为要跟踪人物的图像库，库中有k个人，对应的名字为name1，name₂，...，name_k。

3.根据权利要求1所述的一种基于人脸识别的人物身份跟踪方法，其特征在于，所述根据输入的视频帧，使用训练好的yolov3人脸检测模型，检测每帧图像的人脸位置具体为：

选取视频流第一帧的图像；

根据上一步共预测出7*7*2个边界框，筛选掉置信度低于预设阈值的边界框，接着利用非极大值抑制去除冗余窗口，得到的边界框作为人脸检测框，即得到人脸在图像中的位置。

4.根据权利要求1所述的一种基于人脸识别的人物身份跟踪方法，其特征在于，所述将检测到的人脸使用训练好的神经网络提取特征，并与待识别人脸身份库中的人脸特征进行比对确定身份具体为：

将特征向量a分别与b₁，b₂，...，b_k求余弦相似度，将余弦相似度最高的且超过设定阈值的b_i所对应的人脸作为a匹配到的人脸，否则将特征a对应的人脸设为陌生人。

5.一种基于人脸识别的人物身份跟踪***，其特征在于，包括处理器、存储器以及存储在存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如权利要求1-4任一项所述的方法步骤。

6.一种计算机可读存储介质，其特征在于，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如权利要求1-4任一项所述的方法步骤。