CN111160115B

CN111160115B - 一种基于孪生双流3d卷积神经网络的视频行人再识别方法

Info

Publication number: CN111160115B
Application number: CN201911260938.6A
Authority: CN
Inventors: 魏丹; 王子阳; 胡晓强; 罗一平
Original assignee: Shanghai University of Engineering Science
Current assignee: Shanghai University of Engineering Science
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-05-02
Anticipated expiration: 2039-12-10
Also published as: CN111160115A

Abstract

本发明涉及一种基于孪生双流3D卷积神经网络的视频行人再识别方法，基于孪生双流3D卷积神经网络的视频行人再识别方法，通过孪生双流3D卷积神经网络的硬线层将行人视频的每一帧图片提取成光流‑x特征图、光流‑y特征图、灰度特征图、水平坐标梯度特征图和垂直坐标梯度特征图；将光流特征图作为动作分支的输入来提取行人的动作信息，其余特征图作为外观分支的输入来提取行人的外观信息；将行人动作信息融合到提取出来的行人外观信息中；将动作信息和外观信息通过融合进行度量对比学习；对网络参数进行更新，并训练新的卷积神经网络；将目标行人图像与相似度排名第一的待识别行人图像进行关联。与现有技术相比，本发明具有更加接近于现实场景等优点。

Description

一种基于孪生双流3D卷积神经网络的视频行人再识别方法

技术领域

本发明涉及基于图像处理的机器视觉领域，尤其是涉及一种基于孪生双流3D卷积神经网络的视频行人再识别方法。

背景技术

行人再识别是在非重叠摄像机上进行人员匹配时所要面对的问题，近年来由于其在实施自动化监测***方面的重要性，越来越受到关注。视频行人再识别更加接近于现实场景，本发明有助于实现城市智能化，有助于在机场等大型公共场所的安全、寻人，有助于实现通过摄像头自动寻找走失老人、小孩，有助于协助公安机关对罪犯的自动识别追踪。

在许多应用程序，例如跨摄像机跟踪和行人搜索中，基于外观信息从一组人中识别一个人是可取的。不过由于低分辨率、运动模糊、视图以及个体外观光照的变化，构建适应不同相机条件的差异化表示是非常具有挑战性的，因此在多摄像机***中，非重叠摄像机视图的匹配越来越受到人们的关注。比如一个人在被多个互不重叠的摄像头覆盖的公共空间的大范围内的行为，当这个人从一个视图中消失时，目标可以在另一个视图同样的一群人中被识别出来。虽然计算机视觉研究人员在过去的十年中已经做出了最大的努力，但是人的再识别问题在很大程度上仍然没有得到解决。特别是在一个由远程摄像头监控的繁忙环境中，依靠面部和步态等生物特征对人进行身份验证是不可靠的。

发明内容

本发明的目的就是为了克服上述现有技术存在繁忙环境中识别度不高的缺陷而提供一种基于孪生双流3D卷积神经网络的视频行人再识别方法。

本发明的目的可以通过以下技术方案来实现：

一种基于孪生双流3D卷积神经网络的视频行人再识别方法，包括：

步骤S1：通过孪生双流3D卷积神经网络的硬线层将行人视频的每一帧图片提取成光流-x特征图、光流-y特征图、灰度特征图、水平坐标梯度特征图和垂直坐标梯度特征图；

步骤S2：将步骤S1中提取出来的光流-x特征图、光流-y特征图作为动作分支的输入来提取行人的动作信息，灰度特征图、水平坐标梯度特征图和垂直坐标梯度特征图作为外观分支的输入来提取行人的外观信息；

步骤S3：在孪生双流3D卷积神经网络的第二层将步骤S3提取出来的行人动作信息融合到提取出来的行人外观信息中；

步骤S4：在孪生双流3D卷积神经网络的第六层将所述动作信息和外观信息通过融合进行度量对比学习；

步骤S5：通过改善的视频三元组损失对网络参数进行更新，根据更新后的网络参数训练新的卷积神经网络；

步骤S6：利用步骤S5训练好的卷积神经网络在全连接层进行合并，通过比较度量距离识别目标行人图像，并进行相似度排序，将所述目标行人图像与相似度排名第一的待识别行人图像进行关联。

所述步骤S2中，将光流-x特征图、光流-y特征图进行光流计算，得出相邻2帧动作信息的变化。

所述3D卷积神经网络的卷积核之间实行权重共享，在2D卷积和2D池化的基础上，增加了时间维度上的时间信息。

所述孪生双流3D卷积神经网络的第二层为P₃池化层。

所述孪生双流3D卷积神经网络的第六层为Conv₆卷积层。

优选的，所述动作信息和外观信息通过Conv方法进行融合。

所述改善过后的视频三元组损失不仅包括视频间与视频内的行人度量损失，还包括视频内和视频间行人的动作度量损失和外观度量损失，具体为：

其中，L_VideoTriplet为视频三元组损失，

为本视频样本V的正视频样本W的l层第x个特征图(i,j,t)处的一个单元的特征值，

为本视频样本V的l层第x个特征图(i,j,t)处的一个单元的特征值，

为本视频样本V的负视频样本U的l层第x个特征图(i,j,t)处的一个单元的特征值，L_action为动作信息总损失，L_appearance为外观信息总损失，δ为每一层的灵敏度。。

所述网络参数的更新具体为：

ω_new＝ω_old-η▽J(ω)

b_new＝b_old-η▽J(b)

其中，ω_new为更新过后的权重，ω_old为更新前的权重，η为学习率，学习率是一个固定值，一般取0.05，▽J(ω)为关于权重的残差，b_new为更新过后的偏置项，b_old为更新前的权重，▽J(b)为关于偏置项的残差。

与现有技术相比，本发明具有以下有益效果：

1.行人视频记录更加接近于现实场景，本发明有助于实现城市智能化，有助于在机场等大型公共场所的安全、寻人，有助于实现通过摄像头自动寻找走失老人、小孩，有助于协助公安机关对罪犯的自动识别追踪。

2.本发明提出的基于孪生双流3D卷积神经网络的视频行人再识别方法同时通过两个双流3D卷积神经网络学习操作信息和外观信息，完成视频行人再识别，拥有更高的效率。

3.孪生双流3D卷积神经网络经过第一阶段融合和第二阶段融合两次融合后，外观信息和动作信息更好的融合，使得训练后的卷积神经网络对于待识别行人的动作信息和外观信息提取更准确，识别准确率更高。

附图说明

图1为本发明的流程示意图；

图2为本发明中3D卷积与2D卷积的差异示意图；

图3为本发明中3D池化与2D池化的差异示意图；

图4为本发明中改善三元组损失的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，一种基于孪生双流3D卷积神经网络的视频行人再识别方法，包括：

步骤S1：通过孪生双流3D卷积神经网络的硬线层将行人视频1和行人视频2的每一帧图片提取成光流-x特征图、光流-y特征图、灰度特征图、水平坐标梯度特征图和垂直坐标梯度特征图；

步骤S4：在孪生双流3D卷积神经网络的第六层将动作信息和外观信息通过融合进行度量对比学习；

行人视频1和行人视频2为相同的一段

步骤S2中，将光流-x特征图、光流-y特征图进行光流计算，得出相邻2帧动作信息的变化。

3D卷积神经网络的卷积核之间实行权重共享，在2D卷积和2D池化的基础上，增加了时间维度上的时间信息，如图2和图3所示。

孪生双流3D卷积神经网络的第二层为P₃池化层。

孪生双流3D卷积神经网络的第六层为Conv₆卷积层。

步骤S3和步骤S4中的融合方法为Conv方法。

如图4所示，改善过后的视频三元组损失不仅包括视频间与视频内的行人度量损失，还包括视频内和视频间行人的动作度量损失和外观度量损失，具体为：

其中，L_VideoTriplet为视频三元组损失，

网络参数的更新具体为：

ω_new＝ω_old-η▽J(ω)

b_new＝b_old-η▽J(b)

度量距离较小的正样本和固定样本之间会拉近，更新权重和偏差项，度量距离较大的负样本和固定样本之间会推远，更新权重和偏差项，样本之间的权重进行共享，重新训练更新之后的固定样本，获得新的神经网络模型。

Claims

1.一种基于孪生双流3D卷积神经网络的视频行人再识别方法，其特征在于，包括：

步骤S3：孪生双流3D卷积神经网络中将步骤S2提取出来的行人动作信息融合到提取出来的行人外观信息中；

步骤S4：孪生双流3D卷积神经网络将所述动作信息和外观信息通过融合进行度量对比学习；

2.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法，其特征在于，所述步骤S2中，将光流-x特征图、光流-y特征图进行光流计算，得出相邻2帧动作信息的变化。

3.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法，其特征在于，所述3D卷积神经网络的卷积核之间实行权重共享。

4.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法，其特征在于，所述步骤S3位于为P₃池化层。

5.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法，其特征在于，所述步骤S4位于Conv₆卷积层。

6.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法，其特征在于，所述动作信息和外观信息通过Conv方法进行融合。

7.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法，其特征在于，改善过后的视频三元组损失不仅包括视频间与视频内的行人度量损失，还包括视频内和视频间行人的动作度量损失和外观度量损失，具体为：

其中，L_VideoTriplet为视频三元组损失，为本视频样本V的正视频样本W的l层第x个特征图(i,j,t)处的一个单元的特征值，为本视频样本V的l层第x个特征图(i,j,t)处的一个单元的特征值，为本视频样本V的负视频样本U的l层第x个特征图(i,j,t)处的一个单元的特征值，L_action为动作信息总损失，L_appearance为外观信息总损失，δ为每一层的灵敏度。

8.根据权利要求1所述的一种基于孪生双流3D卷积神经网络的视频行人再识别方法，其特征在于，所述网络参数的更新具体为：

ω_new＝ω_old-η▽J(ω)

b_new＝b_old-η▽J(b)

其中，ω_new为更新过后的权重，ω_old为更新前的权重，η为学习率，学习率是一个固定值，▽J(ω)为关于权重的残差，b_new为更新过后的偏置项，b_old为更新前的权重，▽J(b)为关于偏置项的残差。