CN110766093A

CN110766093A - 一种基于多帧特征融合的视频目标重识别方法

Info

Publication number: CN110766093A
Application number: CN201911055853.4A
Authority: CN
Inventors: 李冠华; 徐晓刚; 管慧艳; 刘静
Original assignee: Smart Vision Hangzhou Technology Development Co Ltd
Current assignee: Smart Vision Hangzhou Technology Development Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-07

Abstract

本发明公开了一种基于多帧特征融合的视频目标重识别方法，包括以下步骤：获取同一目标的多帧连续图像；按照目标的朝向对所述图像进行分类；对所有图像进行目标特征提取；针对同一朝向的图像进行特征融合和池化得到融合特征；识别待识别目标的朝向，并提取其待识别特征；以待识别特征与对应朝向的融合特征的相似度和朝向的权重因子的乘积作为最终相似度；若最终相似度的最大值大于给定阈值，则识别成功，输出该最终相似度的最大值对应的目标为重识别结果，否则识别失败。本发明对目标进行了时间轴上的相关性关联，并解决了目标不同朝向的匹配问题。

Description

一种基于多帧特征融合的视频目标重识别方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于多帧特征融合的视频目标重识别方法。

背景技术

在普通视频中搜索特定行人是一个迫切需要解决的问题，特别是在案件侦查时用来搜索嫌疑目标。通常由于视频中行人目标较小造成行人图像区域的分辨率低，无法通过人脸识别的方法进行认证，基于人体外观特征的行人重识别方法也因此得到了广泛研究，但当前方法大多集中在抽取图像特征上，存在以下缺点：

1、视频具有时间连续性，基于图片的特征提取方法忽略了时间轴上的连续特征，对特征提取不够准确；

2、同一个行人在视频中会处于不同的朝向，不同朝向对最终的识别会有较大影响。

发明内容

本发明的目的在于提供一种基于多帧特征融合的视频目标重识别方法，对目标进行了时间轴上的相关性关联，并解决了目标不同朝向的匹配问题。

为实现上述目的，本发明提供如下技术方案：

一种基于多帧特征融合的视频目标重识别方法，其特征在于，包括以下步骤：

S1，获取同一目标的多帧连续图像；

S2，按照目标的朝向对所述图像进行分类；

S3，对所有图像进行目标特征提取；

S4，针对同一朝向的图像进行特征融合和池化得到融合特征；

S5，识别待识别目标的朝向，并按S3和S4提取其待识别特征；

S6，以待识别特征与对应朝向的融合特征的相似度和朝向的权重因子的乘积作为最终相似度；

S7，若最终相似度的最大值大于给定阈值，则识别成功，输出该最终相似度的最大值对应的目标为重识别结果，否则识别失败。

进一步的，所述S2中朝向的分类采用深度神经网络模型。

进一步的，所述S2中还包括深度神经网络模型的训练，采用经人工标记了朝向的图片作为样本训练深度神经网络模型。

进一步的，所述S3中目标特征的提取采用CNN网络。

进一步的，所述S4特征融合采用RNN网络，采用当前时刻输入的目标特征和上一时刻RNN网络的特征向量的线性组合作为输出，具体为：

o^(t)＝W_if^(t)+W_sr^(t-1)

r^(t)＝Tanh(o^(t))

其中，o^(t)为RNN网络在当前时刻t的输出；W_i和W_s为权重系数；f^(t)为当前时刻t输入的目标特征；r^(t-1)为RNN网络上一时刻t-1的特征向量；Tanh(·)为激励函数。

进一步的，所述池化为平均池化：

其中，V_y为融合特征，T为时长。

进一步的，所述S6中最终相似度的计算具体如下：

S_o＝wS(V_x,V_y)

其中，V_x为待识别特征；V_y为融合特征；S(·)为相似度计算函数；w为朝向的权重因子，w∈W，W＝{w_s,w_d,w_n}，w_s为V_x和V_y朝向相同的权重因子，w_d为V_x和V_y朝向相反的权重因子，w_n为V_x和V_y朝向相邻的权重因子；S_o为最终相似度。

进一步的，所述权重因子的取值为w_s＝[0.8,0.9]，w_d＝[0.4,0.5]，w_n＝[0.55,0.65]。

进一步的，所述给定阈值为0.6。

与现有技术相比，本发明的有益效果是：本发明将人体分为四个朝向，根据不同朝向设置相应的权重因子，解决了目标不同朝向的匹配问题；另一方面，在多帧特征融合的时候，先以朝向为依据进行分类，对统一朝向的特征进行了时序上的融合，实现了目标在时间轴上的相关性关联。

附图说明

图1为本发明的整体方法流程图。

图2为RNN网络模型图。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种基于多帧特征融合的视频目标重识别方法，包括以下步骤：

S1，获取同一目标的多帧连续图像；

S2，按照目标的朝向对所述图像进行分类获得相应的朝向信息；

具体的，本发明将目标的姿态分为四个朝向，分别为正面、背面、右侧和左侧。分类算法采用事先训练好的深度神经网络模型。所述深度神经网络模型的训练，采用经人工标记了朝向的图片作为样本训练深度神经网络模型。由此将S1中的多帧连续图像按照目标的朝向分成多类，每一类对应一个朝向。

S3，对所有图像进行目标特征提取，优选采用CNN网络。

用i^(t)表示t时刻的图像。将i^(t)输入CNN网络，经过计算后输出的目标特征表示为f^(t)＝C(i^(t))。

S4，针对同一朝向的图像进行特征融合和池化得到融合特征。

具体的，特征融合采用RNN网络且仅在同一个朝向的图像进行融合，避免朝向不同造成的特征不稳定。如图2所示，采用当前时刻输入的目标特征和上一时刻RNN网络的特征向量的线性组合作为输出，具体为：

o^(t)＝W_if^(t)+W_sr^(t-1)

r^(t)＝Tanh(o^(t))

经RNN网络融合后，还需要进行池化操作，具体为平均池化：

其中，V_y为最终得到的融合特征，T为时长。

由此，针对S2分类的每一个朝向的图像集，皆有一个对应的融合特征V_y，构成融合特征集合。

S5，识别待识别目标的朝向，并按S3和S4提取其待识别特征；

具体的，对给定的待识别目标，先根据S2训练好的深度神经网络模型进行朝向识别。再按照S3和S4的步骤，将待识别目标输入CNN网络，得到其待识别特征V_x。

具体的，所述最终相似度的计算具体如下：

S_o＝wS(V_x,V_y)

其中，V_x为待识别特征；V_y为融合特征；S(·)为相似度计算函数，具体为余弦距离；w为朝向的权重因子，w∈W，W＝{w_s,w_d,w_n}，w_s为V_x和V_y朝向相同的权重因子，w_d为V_x和V_y朝向相反的权重因子，w_n为V_x和V_y朝向相邻的权重因子；S_o为最终相似度。优选的，所述权重因子的取值为w_s＝[0.8,0.9]，w_d＝[0.4,0.5]，w_n＝[0.55,0.65]。具体为w_s＝0.85，w_d＝0.45，w_n＝0.6。

值得一提的是所述朝向的相互关系如下：以正面为例，与其相反的朝向为背面，与其相邻的朝向为左侧和右侧。

S7，若最终相似度的最大值大于给定阈值0.6，则识别成功，输出该最终相似度的最大值对应的目标为重识别结果，否则识别失败。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种基于多帧特征融合的视频目标重识别方法，其特征在于，包括以下步骤：

S1，获取同一目标的多帧连续图像；

S2，按照目标的朝向对所述图像进行分类；

S3，对所有图像进行目标特征提取；

S5，识别待识别目标的朝向，并按S3和S4提取其待识别特征；

2.根据权利要求1所述的基于多帧特征融合的视频目标重识别方法，其特征在于，所述S2中朝向的分类采用深度神经网络模型。

3.根据权利要求2所述的基于多帧特征融合的视频目标重识别方法，其特征在于，所述S2中还包括深度神经网络模型的训练，采用经人工标记了朝向的图片作为样本训练深度神经网络模型。

4.根据权利要求1所述的基于多帧特征融合的视频目标重识别方法，其特征在于，所述S3中目标特征的提取采用CNN网络。

5.根据权利要求1所述的基于多帧特征融合的视频目标重识别方法，其特征在于，所述S4特征融合采用RNN网络，采用当前时刻输入的目标特征和上一时刻RNN网络的特征向量的线性组合作为输出，具体为：

o^(t)＝W_if^(t)+W_sr^(t-1)

r^(t)＝Tanh(o^(t))

6.根据权利要求5所述的基于多帧特征融合的视频目标重识别方法，其特征在于，所述池化为平均池化：

其中，V_y为融合特征，T为时长。

7.根据权利要求1所述的基于多帧特征融合的视频目标重识别方法，其特征在于，所述S6中最终相似度的计算具体如下：

S_o＝wS(V_x,V_y)

8.根据权利要求7所述的基于多帧特征融合的视频目标重识别方法，其特征在于，所述权重因子的取值为w_s＝[0.8,0.9]，w_d＝[0.4,0.5]，w_n＝[0.55,0.65]。

9.根据权利要求1所述的基于多帧特征融合的视频目标重识别方法，其特征在于，所述给定阈值为0.6。