CN109902573A

CN109902573A - 面向矿井下视频监控的多摄像机无标注行人重识别方法

Info

Publication number: CN109902573A
Application number: CN201910067062.7A
Authority: CN
Inventors: 孙彦景; 朱绪冉; 云霄; 李松; 徐永刚; 陈岩; 王博文; 董凯文
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-06-18
Anticipated expiration: 2039-01-24
Also published as: CN109902573B

Abstract

本发明公开了一种面向矿井下视频监控的多摄像机无标注行人重识别方法，包括：从多个摄像机中获取无标注原始视频流，截取该视频流中每一帧图像并输入B‑SSD行人检测网络中训练，获取每一帧图像中的行人区域并输出行人的坐标位置；形成候选行人数据库输入构建的MT‑S行人重识别网络，提取每一个行人区域中的行人特征，并离线存储；从无标注原始视频流中选定待识别的目标人物，截取带有目标人物的每一帧图像，输入到MT‑S行人重识别网络中，提取得到特征；计算待识别的目标人物特征与候选行人数据库行人特征之间的相似度，并进行排序，将相似度最高的行人特征判断为待识别的目标人物。本发明可学习更具判别性的行人特征，在矿井环境下识别更准确且精度更高。

Description

面向矿井下视频监控的多摄像机无标注行人重识别方法

技术领域

本发明涉及面向矿井下视频监控的多摄像机无标注行人重识别方法，属于视频识别技术的领域。

背景技术

煤矿作为一个高危产业，在入井口、出井口、井下的各个巷道等位置都安装有大量的监控摄像头，但是目前大量的视频资源没有得到有效的利用。矿井下的视频图像环境复杂、光线暗淡、噪声干扰大且矿井下摄像头安装位置在高处，监控视频中所监测到的行人存在尺寸偏小、分辨率低、尺度变化、行人重叠等问题。井下因其特殊的环境性，井下图像中包含了目标检测和行人检测问题中常见的目标扭曲、多尺度、遮挡、光照等因素。因此，井下行人检测拥有较高的研究价值和意义，能够进一步提高工业视频的利用，保障井下作业人员的安全。

而矿井下的行人重识别(Re-ID)旨在跨越不同的监控摄像机场景识别出目标行人，由于矿井下环境复杂、摄像机视点有限、光照变化等约束的影响，矿井下行人重识别仍是个极具挑战的问题。

现有行人Re-ID方法仅在已裁剪好的行人图像之间实现识别，而在真实监控场景中，行人Re-ID任务要先从视频中检测并获取行人边界框。传统的行人识别方法主要采用颜色，纹理，HOG等的人工特征，但此类特征在环境变化时鲁棒性较差。随着CNN在计算机视觉领域的快速发展，众多基于CNN的行人识别方法被提出。王彩玲等人提出的基于颜色名特征的行人重识别方法，以及王家庙等人提出的一种基于卷积循环网络的行人重识别方法，这些方法都只有识别部分，无法在视频中获取行人区域，且矿井环境复杂，这些方法无法满足矿井复杂环境的要求。

发明内容

本发明所要解决的技术问题在于克服现有技术的不足，提供一种面向矿井下视频监控的多摄像机无标注行人重识别方法，解决现有方法无法在视频中获取行人区域，且无法满足矿井复杂环境的问题。

本发明具体采用以下技术方案解决上述技术问题：

面向矿井下视频监控的多摄像机无标注行人重识别方法，包括以下步骤：

步骤1、从多个摄像机中获取无标注原始视频流，截取该视频流中每一帧图像并输入构建的B-SSD行人检测网络中训练，由B-SSD行人检测网络获取每一帧图像中的行人区域并输出行人在该帧图像中的坐标位置；根据每一帧图像及行人在该帧图像中的坐标位置，形成候选行人数据库；

步骤2、将候选行人数据库中的每一个行人区域作为构建的MT-S行人重识别网络的输入，由MT-S行人重识别网络提取每一个行人区域中的行人特征，并离线存储至候选行人数据库，且将候选行人数据库中图像帧数、每一帧图像中行人的坐标位置与行人特征对应；

步骤3、从无标注原始视频流中选定待识别的目标人物，截取视频流中带有待识别的目标人物的每一帧图像，并输入到MT-S行人重识别网络中，由MT-S行人重识别网络提取得到待识别的目标人物特征；

步骤4、利用MT-S行人重识别网络计算待识别的目标人物特征与候选行人数据库所存储行人特征之间的相似度，并进行排序，将相似度最高的行人特征对应的行人判断为待识别的目标人物。

进一步地，作为本发明的一种优选技术方案，所述步骤1中构建的B-SSD行人检测网络包括深度卷积神经网络和多尺度特征检测网络。

进一步地，作为本发明的一种优选技术方案，所述步骤1中每一帧图像输入构建的B-SSD行人检测网络中采用目标损失函数L_(x，c,l,g)训练，具体为：

其中，N是与训练集中已标注的目标位置相匹配的默认框的个数；L_conf(x,c)是置信损失；L_loc(x,l,g)是位置损失；x是输入的训练图像；c是预测类别的置信度；l是预测框的位置信息；g是训练集中已标注的目标位置信息；α是权重系数。

进一步地，作为本发明的一种优选技术方案，所述步骤2中构建的MT-S行人重识别网络包由两个分类模型和一个验证模型组成，且所述两个分类模型共享权值。

进一步地，作为本发明的一种优选技术方案，所述每个分类模型包含两个相同的ResNet-50网络、两个卷积层和两个分类损失函数。

进一步地，作为本发明的一种优选技术方案，所述验证模型包含一个无参的欧几里得层、一个卷积层和一个验证损失函数。

进一步地，作为本发明的一种优选技术方案，所述步骤2中由MT-S行人重识别网络提取每一个行人区域中的行人特征，包括：

输入图像对，利用两个相同的ResNet-50网络提取行人特征并输出特征向量f₁、f₂；

利用若干个同维度的卷积核对特征向量f₁、f₂进行卷积，得到行人身份表达f；

根据行人身份表达f，采用softmax归一化函数和交叉熵损失函数进行身份ID预测，得到身份ID预测值。

进一步地，作为本发明的一种优选技术方案，所述步骤4中利用MT-S行人重识别网络计算相似度，具体为：

由无参的欧几里得层测量待识别的目标人物特征和候选行人数据库所存储行人特征的行人身份表达f的相似度E_l；

在卷积层采用同维度的卷积核对相似度E_l进行卷积，得到相似度表达E_s；

根据相似度表达E_s，采用验证损失函数计算出验证类别s。

本发明采用上述技术方案，能产生如下技术效果：

本发明针对矿井下视频监控领域提出一种结合行人检测与识别的多摄像机无标注行人Re-ID方法。首先，在检测阶段提出行人检测网络(Binary SSD，B-SSD)，先从视频中检测出所有行人区域并在线生成候选数据库，以解决原始视频中无标注问题；在行人识别阶段提出一种多任务孪生行人识别网络(Multi-task Siamese，MT-S)，该网络结合分类和验证两种模型，充分利用监督信息，学习更具判别性的行人特征，从而提高Re-ID精度，利用MT-S行人识别网络提取目标行人与候选数据库中行人的特征并计算相似度，最终匹配到目标行人。本发明在矿井环境下对所提方法进行验证，结果表明该方法识别准确且精度高，且面对井下环境复杂、光线暗淡、噪声干扰大等因素，本方法较其他方法更加鲁棒。

附图说明

图1为本发明面向矿井下视频监控的多摄像机无标注行人重识别方法的原理示意图。

图2为本发明方法中B-SSD行人检测网络结构图。

图3为本发明方法中MT-S行人识别网络结构图。

图4(a)为本发明视频流中1号目标人物图，及图4(b)为本发明方法重识别结果示意图。

图5(a)为本发明视频流中2号目标人物图，及图5(b)为本发明方法重识别结果示意图。

具体实施方式

下面结合说明书附图对本发明的实施方式进行描述。

如图1所示，本发明提出一种面向矿井下视频监控的多摄像机无标注行人重识别方法，对于给定的无标注原始视频流，本发明先用B-SSD行人检测网络从视频中获取行人区域并在线生成候选行人数据库，然后利用MT-S行人识别网络提取目标行人与候选数据库中行人的特征并计算相似度，最终匹配到目标行人。具体地，本发明方法包括以下步骤：

步骤1、利用构建的B-SSD行人检测网络从视频中获取行人区域并在线生成候选行人数据库。具体如下：

首先，在训练阶段，为了达到良好的应用效果，本发明采用离线训练的方式训练Binary-SSD行人检测网络。

SSD较其他检测框架具有更快的运行速度和更高的精度。在行人重识别问题中，区分行人和背景是检测阶段的核心任务。因此，本发明设计一种Binary-SSD网络即B-SSD行人检测网络，将SSD算法用于二值行人检测问题。如图2所示，B-SSD行人检测网络的架构主要由两部分组成，一部分是位于前端的深度卷积神经网络，采用的是VGG-16图像分类网络，用于初步提取目标特征；另一部分是位于后端的多尺度特征检测网络，其作用是对前端产生的特征层进行不同尺度条件下的特征提取。前端的VGG-16图像分类网络和后端的多尺度特征检测网络的作用都是进行行人的特征提取，随着层数的加深，提取的特征越来越精细。

并且，在网络训练期间，B-SSD行人检测网络中采用的目标损失函数，为置信损失conf和位置损失loc的加权和，表达式如下:

其中，x是输入的训练图像；c是预测类别的置信度；l是预测框的位置信息；g是训练集中已标注的目标位置信息；N是与训练集中已标注的目标位置信息相匹配的默认框的个数，当N＝0时,位置损失L_(x,c,l,g)设置为0。权重系数α通过交叉验证设置为1。L_conf(x,c)为置信损失；L_loc(x,l,g)为位置损失，其采用smooth_L1损失函数用于回归预测框的中心位置(cx,cy)以及宽和高(w,h)。L_conf(x,c)和L_loc公式分别如下：

其中，是指示参数，当时，表示第i个默认框匹配类别p的第j个训练集中已标注的目标位置信息，否则类别p∈{1,0}，即行人与背景；Pos表示标签为行人的默认框，Neg表示标签为背景的默认框。这里

训练阶段网络的输入是标准数据集中的图像，输出是L_(x,c,l,g)值，该值越小，说明网络训练的越好，网络的准确率越高。

离线训练完毕后，在实际测试阶段，从多个摄像机中获取无标注原始视频流，截取该视频流中每一帧图像并输入构建的B-SSD行人检测网络中训练，由B-SSD行人检测网络获取每一帧图像中的行人区域并输出行人在该帧图像中的坐标位置(cx,cy,w,h)；根据每一帧图像及行人在该帧图像中的坐标位置(cx,cy,w,h)一一对应后，形成候选行人数据库。

步骤2、对构建的MT-S行人识别网络训练后提取目标行人，具体如下：

首先，在训练阶段，为了达到良好的应用效果，采用离线训练的方式训练构建的MT-S行人重识别网络。

如图3所示，本发明构建的Multi-task Siamese的MT-S行人识别网络由两个分类模型和一个验证模型组成，且上下两个分类模型共享权值。网络参数在优化中受到这两类模型损失函数的共同约束，充分利用监督信息，从而使网络学习到的特征具有更强的判别性。

该网络受分类标签t和验证标签s的共同监督。输入尺寸为224×224的图像对，可以包括正样本对或负样本对，用两个完全相同的ResNet-50网络提取行人特征并输出1×1×2048维的特征向量f₁、f₂。f₁、f₂分别用于预测两个输入图像的身份ID:t′。同时计算f₁、f₂的欧式距离进行相似度判断，f₁、f₂共同预测验证类别:s′。

所述分类模型包含2个完全相同的ImageNet预训练的ResNet-50网络、两个卷积层和两个分类损失函数。其中ResNet-50网络去掉最后一层全连接层，平均池化层输出1×1×2048维的特征向量f₁、f₂作为行人判别表达。由于本发明的数据集中有751个训练ID，因此用751个1×1×2048的卷积核对特征向量f₁、f₂进行卷积，得到1×1×751维的行人身份表达f。最后使用softmax归一化函数和交叉熵损失函数进行身份ID预测，即：

p′＝softmax(f) (4)

其中，p′是身份ID的预测概率；p是身份ID的目标概率；softmax(f)是行人身份表达f的归一化函数。

L_identif(p,t)是整个分类模型的交叉熵损失函数；这里t为每张输入图像的ID，该图像来自于训练集；t∈(0,1,...,K-1)，K为训练样本总的ID数751；p′_i是第i个图像的预测的概率，p_i是第i个图像的目标概率，当i＝t时，p_i＝1，否则p_i＝0。所述p′和p′_i的关系是p′_i是p′的具体化，i可以是0到K-1中的任意一个数，p′是统称。

所述验证模型包含一个无参的欧几里得层、一个卷积层和一个验证损失函数，用于后续步骤中的相似度计算和验证过程。

然后，在实际训练阶段，将候选行人数据库中的每一个行人区域作为训练后的MT-S行人重识别网络的输入，由训练完毕的MT-S行人重识别网络提取每一个行人区域中的行人特征，并离线存储至候选行人数据库，且将候选行人数据库中图像帧数、每一帧图像中行人的坐标位置与行人特征一一对应。

步骤3、在需要对目标任务识别时，首先，从无标注原始视频流中选定待识别的目标人物，截取视频流中带有待识别的目标人物的每一帧图像，并输入到MT-S行人重识别网络中，由MT-S行人重识别网络提取得到待识别的目标人物特征；

步骤4、利用MT-S行人重识别网络中的验证模型，计算待识别的目标人物特征与候选行人数据库所存储行人特征之间的相似度，并进行排序，将相似度最高的行人特征对应的行人判断为属于同一身份的待识别的目标人物。

其中，所述验证模型采用欧几里得层用来测量两个行人判别表达的相似度，定义如下：

E_l＝(f₁-f₂)²

其中，E_l是欧几里得层的输出张量。本发明没有采用Contrastive Loss对比损失函数，而是将行人验证视为二元分类问题，这是因为直接使用对比损失函数容易造成网络参数过拟合。因此本发明中卷积层采用2个1×1×2048的卷积核对相似度E_l进行卷积，得到1×1×2维的相似度表达E_s。再根据相似度表达E_s，最终使用验证损失函数计算出验证类别s，其中验证损失函数的表达式如下：

q′＝softmax(E_s) (6)

q′是验证类别s的预测概率；q是验证类别s的目标概率；softmax(E_s)是相似度表达E_s的归一化函数；

L_verif(q,s)是整个验证模型的验证损失函数；这里s是验证类别，包括不同或相同，s∈(0,1)。q′_i是第i个图像验证类别的预测概率；q_i是第i个图像验证类别的目标概率；如果输入的一对图像属于同一ID，则q_i＝1，否则q_i＝0。在网络训练期间，本发明可将整体损失函数定义为识别损失和验证损失的加权和：

L_total＝λL_identif(p,t)+L_verif(q,s)+λL_identif(p,t) (8)

其中，权重系数λ通过交叉验证设置为0.5。训练时共同最小化三个目标函数，直到三个目标函数都收敛。在分类标签t和验证标签s共同监督下，MT-S行人识别网络学习到的特征具有更强的判别性。

在实际测试阶段，通过上述训练好的MT-S行人重识别网络中的验证模型，计算待识别的目标人物特征与候选行人数据库所存储行人特征之间的相似度，根据计算出的验证类别s，得到身份识别结果，判断出该行人是否为待识别的目标人物，即计算出相似度并进行排序，将相似度最高的行人特征对应的行人判断为属于同一身份的待识别的目标人物，否则判断为不是同一身份的待识别的目标人物。

本发明针对矿井下视频监控领域提出一种结合行人检测与识别的多摄像机无标注行人Re-ID方法，此方法在矿井下给出两个场景实例，如图4(a)和图5(a)所示，初始提取得到目标人物存入候选行人数据库，采用本发明的重识别方法后得到如图4(b)和图5(b)所示的待识别目标人物，通过匹配可准确地识别和标注出待识别目标人物，因此本发明方法面对井下环境复杂、光线暗淡、噪声干扰大等因素，该方法较其他方法更加鲁棒。

综上，本发明方法可通过在线生成候选数据库，以解决原始视频中无标注问题，充分利用监督信息，学习更具判别性的行人特征，从而提高Re-ID精度。本文在矿井环境下对所提方法进行验证，结果表明该方法识别准确且精度高。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.面向矿井下视频监控的多摄像机无标注行人重识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述面向矿井下视频监控的多摄像机无标注行人重识别方法，其特征在于，所述步骤1中构建的B-SSD行人检测网络包括深度卷积神经网络和多尺度特征检测网络。

3.根据权利要求1所述面向矿井下视频监控的多摄像机无标注行人重识别方法，其特征在于，所述步骤1中每一帧图像输入构建的B-SSD行人检测网络中采用目标损失函数L_{(x，c，l，g)}训练，具体为：

其中，N是与训练集中己标注的目标位置信息相匹配的默认框的个数；L_conf(x，c)是置信损失；L_loc(x，l，g)是位置损失；x是输入的训练图像；c是预测类别的置信度；l是预测框的位置信息；g是训练集中己标注的目标位置信息；α是权重系数。

4.根据权利要求1所述面向矿井下视频监控的多摄像机无标注行人重识别方法，其特征在于，所述步骤2中构建的MT-S行人重识别网络包由两个分类模型和一个验证模型组成，且所述两个分类模型共享权值。

5.根据权利要求4所述面向矿井下视频监控的多摄像机无标注行人重识别方法，其特征在于，所述每个分类模型包含两个相同的ResNet-50网络、两个卷积层和两个分类损失函数。

6.根据权利要求4所述面向矿井下视频监控的多摄像机无标注行人重识别方法，其特征在于，所述验证模型包含一个无参的欧几里得层、一个卷积层和一个验证损失函数。

7.根据权利要求5所述面向矿井下视频监控的多摄像机无标注行人重识别方法，其特征在于，所述步骤2中由MT-S行人重识别网络提取每一个行人区域中的行人特征，包括：

利用若干个同维度的卷积核对特征向量f₁、f₂进行卷积，得到行人身份表达f；根据行人身份表达f，采用softmax归一化函数和交叉熵损失函数进行身份ID预测，得到身份ID预测值，所述softmax归一化函数和交叉熵损失函数具体为：

p′＝softmax(f)

其中，p′是身份ID的预测概率；p是身份ID的目标概率；p_i是第i个图像的目标概率；p′_i是第i个图像的预测概率；softmax(f)是行人身份表达f的归一化函数；

L_identif(p，t)是整个分类模型的交叉熵损失函数；t为每张输入图像的ID；K为训练样本总的ID数。

8.根据权利要求6所述面向矿井下视频监控的多摄像机无标注行人重识别方法，其特征在于，所述步骤4中利用MT-S行人重识别网络计算相似度，具体为：

根据相似度表达E_s，采用验证损失函数计算出验证类别s。

9.根据权利要求8所述面向矿井下视频监控的多摄像机无标注行人重识别方法，其特征在于，所述验证模型采用的验证损失函数具体为：

q′＝softmax(E_s)

其中，q′是验证类别s的预测概率；q是验证类别s的目标概率；softmax(E_s)是相似度表达E_s的归一化函数；

L_verif(q，s)是整个验证模型的验证损失函数；q′_i是第i个图像验证类别的预测概率；q_i是第i个图像验证类别的目标概率。