CN108765394A

CN108765394A - 基于质量评价的目标识别方法

Info

Publication number: CN108765394A
Application number: CN201810487252.XA
Authority: CN
Inventors: 徐奕; 倪冰冰; 刘桂荣
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2018-11-06
Anticipated expiration: 2038-05-21
Also published as: CN108765394B

Abstract

本发明提供了一种基于质量评价的目标识别方法，包括：构建目标识别模型，所述目标识别模型包括：质量评价网络、特征提取网络、特征聚合网络，其中，所述目标识别模型用于从视频中提取出目标特征，以表征目标的整体结构信息和局部信息；对所述目标识别模型进行训练，在训练过程中调整质量评价网络和特征提取网络的参数，以使所述目标识别模型输出符合预设要求的目标特征；通过训练好的目标识别模型对视频进行目标识别。从而解决了视频序列中外观多变及图像质量参差不齐导致的目标识别问题，在质量评价中增加了帧间的关联信息，从而获得更多的有效目标信息，使得目标的表征更加准确，提升了识别精度。

Description

基于质量评价的目标识别方法

技术领域

本发明涉及图像处理技术领域，具体地，涉及基于质量评价的目标识别方法。

背景技术

人脸识别、行为分析等一系列应用的兴起，表明目标识别在实际生活中正起着越来越重要的作用。在目标识别任务中，往往需要从不同角度、不同场景的摄像头中识别出同一个目标。而跨摄像头的情况下，目标的外观差距往往较大，这对识别算法的鲁棒性提出了很大的挑战。近年来，虽然现有的识别算法在实验环境下已经取得了不错效果，但是这些识别算法在现实不可控场景中却还差强人意。这是因为，实验环境下采集到的数据往往质量较好，在特意性拍摄中，影响图像质量的变化因素往往较少，如实验数据可能存在动作表情等变化，但不存在光照、遮挡等不可控因素。而在现实生活中，这些不可控因素会对图像质量产生很复杂的影响。这使得图像质量成为影响目标识别性能的一个重要因素，也使得基于质量评价的目标识别成为一个有待深入研究的重要课题。

目前，视频目标识别方法主要关注如何整合更多的信息，例如Canavan等人在2007年《In IEEE International Conference on Biometrics:Theory,Applications,andSystems》() 上发表的“Face Recognition by Multi-Frame Fusion of Rotating Headsin Videos”一文中提出从具有不同姿势的视频序列中选择了七个帧，并将它们融合成一个图像以利用更多信息。Wheeler等人在2011年《IEEE International Conference onComputer Vision and Pattern Recognition.IEEE》(IEEE计算机视觉和模式识别国际会议)上发表的“Face recognition in unconstrained videos with matched backgroundsimilarity”一文中提出将多张人脸图像组合成超分辨率人脸图像，从而提高人脸识别性能。

但是，这些方法利用视频的多帧优势，将多帧信息整合提取特征，但是忽略了信息的有效性，因而存在局限性。研究者开始关注质量对于目标识别的影响，Anantharajah等人在2012年《Signal Processing and Communication Systems》(信号处理与通信***会议)上发表的“Quality based frame selection for video face recognition”(基于质量的视频人脸识别帧选择)将图像序列看作一个由独立图像组成的集合，经过筛选，从中选出“质量好”的图像用于目标识别。但由于目标在视频中动作、表情、所处环境等的变化，视频各帧中往往包含不同的信息，因而该方法中对视频其他帧的丢弃导致了信息的浪费。Liu等人在2017年《IEEE International Conference on Computer Vision and PatternRecognition.IEEE》(IEEE计算机视觉和模式识别国际会议)上发表的“Quality AwareNetwork for Set to Set Recognition”考虑每帧信息的有效性，提出了质量感知网络利用各帧质量来衡量各帧信息的有效性，最后将所有帧信息进行聚合形成最终特征表示。但是其将视频帧视为单独的个体，忽略视频帧之间的联系，限制了目标识别的性能。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于质量评价的目标识别方法。

根据本发明提供的一种基于质量评价的目标识别方法，包括：

构建目标识别模型，所述目标识别模型包括：质量评价网络、特征提取网络、特征聚合网络，其中，所述目标识别模型用于从视频中提取出有效目标特征，以表征目标的整体结构信息和局部信息；

对所述目标识别模型进行训练，在训练过程中调整质量评价网络和特征提取网络的参数，以使所述目标识别模型输出符合预设要求的目标特征；

通过训练好的目标识别模型对视频进行目标识别。

可选地，所述构建目标识别模型，包括：

获取已知质量标准的图像数据，并通过所述图像数据对质量评价网络进行训练，得到经过训练的质量评价网络；

通过特征提取网络提取单帧图像特征，以得到目标的局部特征；并根据提取到的目标的上下文信息的特征形成全局特征；

通过经过训练的质量评价网络对目标的局部特征、全局特征进行质量评价，以得到相应的质量分数；

根据局部特征、全局特征的质量分数，通过特征聚合网络对目标的各帧局部和全局特征分别进行聚合，并将目标的局部特征和全局特征进行聚合；

通过经过训练的质量评价网络、特征提取网络、特征聚合网络构建所述构建目标识别模型。

可选地，所述获取已知质量标准的图像数据，包括：

从已知质量标准的数据库中获取来自不同角度、不同位置的两个摄像头的第一视频和第二视频，所述第一视频和第二视频中均包含有目标；

从第一视频中选取N个帧数大于21帧的第一视频样本，从第二视频中选取N个帧数大于21帧的第二视频样本；其中，N为大于等于2的自然数；

从所述第一视频样本和第二视频样本中选取训练集和测试集，所述训练集用于训练质量评价网络，所述测试集用于测试质量评价网络。

可选地，所述获取已知质量标准的图像数据，包括：

将包含目标的视频作为人脸识别***的输入，并将所述人脸识别***的输出结果作为已知质量标准的数据图像；其中，人脸识别***的最后一层均为softmax层，将具有身份i的人识别为身份i的概率作为质量标签；

假设训练集由m个已标记的样本构成：{(x₁,y₁)，…，(x_m,y_m)}，y_i∈ {1，2，…，N}，则样本i为j类别的概率为：

通过对各类的概率分布进行归一化，使得所有概率之和为1，将i＝j时的概率作为图像的质量标准，所述质量标准为

式中：(x₁,y₁)表示标号为1的样本，(x_m,y_m)表示标号为m的样本，x_i表示第i个样本的特征表示，i的取值范围为1～m，表示实数空间，n的取值为softmax层之前的全连接层的输出维度，y_i表示第i个样本的标签，表示样本i为j类别的概率，表示第i个样本经过softmax层后第j个神经元的原始输出，表示第i个样本经过softmax 层后第k个神经元的原始输出，N表示类别数，k表示计数变量。

可选地，所述质量评价网络包括：AlexNet特征提取器和双向长短期记忆网络LSTM，其中，所述AlexNet特征提取器用于对目标的单帧图像特征并由其生成对局部特征的质量评价，所述双向长短期记忆网络LSTM用于对全局特征进行质量评价。

可选地，所述通过特征提取网络提取单帧图像特征，以得到目标的局部特征；并根据提取到的目标的上下文信息的特征形成全局特征，包括：

使用GoogleNet网络作为特征提取器，提取单帧图像特征以得到目标的局部特征，使用双向长短期记忆网络LSTM提取目标的上下文信息的特征形成全局特征；

所述提取单帧图像特征和目标的局部特征，包括：

通过GoogleNet网络选取inception_5b层的特征；

将图像的大小缩放成224×224输入到图像输入层中，并经过5个Iception的网络结构后选取inception_5b层的输出作为单帧图像特征，其中，所述Inception结构是指将1x1， 3x3，5x5的卷积层和3x3的pooling层并行执行，并最终将并行输出作为一个Inception 的结果。

可选地，在使用GoogleNet网络作为特征提取器，提取单帧图像特征并生成目标的局部特征之后，还包括：

将提取的单帧图像特征输入时序特征中，以得到单帧图像特征所对应的时序特征。

可选地，通过经过训练的质量评价网络对目标的各帧局部特征、全局特征进行质量评价，以得到相应的质量分数，包括：

通过AlexNet特征提取器对目标的单帧图像的质量分数进行预测，预测公式如下：

式中：表示第i个视频样本第t时刻的图像，→表示神经网络运算，A表示AlexNet， T表示视频样本的长度，表示第i个样本第t时刻的质量分数，P(X_i)表示第i个样本的各帧图像的质量分数集合，X_i表示第i个视频样本，则的计算公式如下：

式中：H′表示LSTM网络结构，Q(G_i)表示第i个视频样本各帧基于上下文信息的质量分数集合表示第i个样本第T时刻图像基于上下文的质量分数，G_i表示第i个视频样本的GoogleNet特征表示，表示第i个视频样本第t时刻基于上下文的质量分数。

可选地，根据局部特征、全局特征的质量分数，通过特征聚合网络对目标的各帧局部和全局特征分别进行聚合，以及对目标的局部特征和全局特征进行聚合，包括：

从一个图像集S＝{I₁,I₂,…,I_N}中提取固定维度的特征用来表示整个视频样本的特征；令R_a(S)和分别表示图像集S和第i帧图像I_i的特征(局部/全局特征)，R_a(S)取决于S中的所有帧，其中：

式中：表示GoogleNet提取的第i帧图像的特征，表示将可变长度的视频特征映射到固定维度特征的聚合函数，N表示图像集中的帧数；其中：

μ_i＝Q(I_i)

式中：Q(I_i)表示第i帧图像I_i的质量分数μ_i的预测函数；

令表示一个视频序列，其中表示视频序列中的第i帧图像，则：

式中：T表示视频序列包含的帧数，表示第i帧图像的质量分数，表示第i帧图像的聚合特征的质量分数，{,}表示级联，表示第i帧图像的特征，*表示乘法运算，表示第i帧图像的时序特征，S(X_i)表示视频序列X_i的特征。

与现有技术相比，本发明具有如下的有益效果：

本发明提供的基于质量评价的目标识别方法，解决了视频序列中外观多变及图像质量参差不齐导致的目标识别问题，在质量评价中增加了帧间的关联信息，通过将提取的特征和质量分数聚合，利用所有帧的信息来合成视频特征，使得提取的视频特征能够更加有效地描述对应的视频样本。并且，通过结合全局特征与局部特征可以给出更为完整的目标表征，从而获得更多的有效目标信息，使得目标的表征更加准确，提升了识别精度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的基于质量评价的目标识别方法的原理示意图；

图2为本发明实施例提供的基于质量评价的目标识别方法的网络的结构示意图；

图3为本发明实施例提供的长短期记忆网络LSTM的内部结构示意图；

图4为本发明实施例提供的双向LSTM网络的结构示意图；

图5为本发明实施例提供的基于上下文信息的质量评价网络的结构示意图；

图6为本发明实施例提供的全局特征和局部特征结合的结构图；

图7为本发明实施例提供的行人重识别结果示意图，其中(a)为目标样本，(b) 为本文方法所得匹配结果，(c)为本文对比方法的匹配结果。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

图1为本发明实施例提供的基于质量评价的目标识别方法的原理示意图，如图1所示，本发明提供的基于质量评价的目标识别方法，包括：

S1：构建目标识别模型，所述目标识别模型包括：质量评价网络、特征提取网络、特征聚合网络，其中，所述目标识别模型用于从视频中提取出目标特征，以表征目标的整体结构信息和局部信息。

本实施例中，所述质量评价网络包括：AlexNet特征提取器和双向长短期记忆网络(Long Short-Term Memory，LSTM)，其中，所述AlexNet特征提取器用于对目标的单帧图像特征、局部特征进行质量评价，所述双向长短期记忆网络LSTM用于对全局特征进行质量评价。

S2：对所述目标识别模型进行训练，在训练过程中调整质量评价网络和特征提取网络的参数，以使所述目标识别模型输出符合预设要求的目标特征。

本实施例中，对目标识别模型进行训练，只使用身份信息进行监督。在训练过程中，质量评价网络、特征提取网络相互促进，考虑时序特征的质量评价网络与特征提取网络相互促进，全局特征与局部特征相互促进。同时对网络进行合理的初始化：使用GoogleNet的公开模型和预训练好的质量评价模型进行初始化。

S3：通过训练好的目标识别模型对视频进行目标识别。

本实施例通过考虑到目标的动作、表情等变化及光照变化、遮挡等环境因素的影响，会使得视频各帧特征及其有效性变化较大。利用双向长短期记忆网络提取上下文信息，同时在考虑上下文信息的基础上对各帧特征的有效性进行评价。最后将二者结合，使得各帧特征在合理有效性的基础上聚合得到有效的视频特征，从而有效第提高了目标的识别精度。

可选地，步骤S1包括：

S11：获取已知质量标准的图像数据，并通过所述图像数据对质量评价网络进行训练，得到经过训练的质量评价网络；

本实施例中，可选地，可以通过已知质量标准的数据库来获取训练集，具体地：

从已知质量标准的数据库中获取来自不同角度、不同位置的两个摄像头的第一视频和第二视频，所述第一视频和第二视频中均包含有目标；从第一视频中选取N个帧数大于21帧的第一视频样本，从第二视频中选取N个帧数大于21帧的第二视频样本；其中， N为大于等于2的自然数；从所述第一视频样本和第二视频样本中选取训练集和测试集，所述训练集用于训练质量评价网络，所述测试集用于测试质量评价网络。

可选地，当不具备已知质量标准的数据库时，还可以将包含目标的视频作为人脸识别***的输入，并将所述人脸识别***的输出结果作为已知质量标准的数据图像；其中，人脸识别***的最后一层均为softmax层，将具有身份i的人识别为身份i的概率作为质量标签；假设训练集由m个已标记的样本构成：{(x₁,y₁)，…，(x_m,y_m)}，y_i∈ {1，2，…，N}，则样本i为j类别的概率为：

S12：通过特征提取网络提取单帧图像特征，以得到目标的局部特征；并根据提取到的目标的上下文信息的特征形成全局特征；

本实施例中，使用GoogleNet网络作为特征提取器，提取单帧图像特征和目标的局部特征，使用双向长短期记忆网络LSTM提取目标的上下文信息的特征形成全局特征；

所述提取单帧图像特征和目标的局部特征，包括：

通过GoogleNet网络选取inception_5b层的特征；

将图像的大小缩放成224×224输入到图像输入层中，并经过5个Iception的网络结构后选取inception_5b层的输出作为单帧图像特征，其中，所述Inception结构是指将1x1， 3x3，5x5的卷积层和3x3的pooling层并行执行，并最终将并行输出作为一个Inception 结构的输出。

S13：通过经过训练的质量评价网络对目标的单帧图像特征进行质量评价，以及对特征提取网络提取的局部特征、全局特征进行质量评价，以得到相应的质量分数；

本实施例中，质量评价网络能够产生对提取特征有效性的合理评价。已知上下文的质量分数用于衡量全局特征的有效性，单帧图像质量分数用于衡量身体各部分局部特征的有效性。

表示第i个样本通过GoogleNet提取的第t时刻图像的外观特征，其提取过程可以表示为：

表示第i个样本通过LSTM网络提取的第t时刻图像的基于上下文信息的特征，可以表示为：

式中：表示第i个样本第t时刻的图像，G表示GoogleNet，G(X_i)表示第i个样本经过GoogleNet之后提取的各帧特征集合，H表示LSTM网络，H(G_i)表示第i个样本各时刻基于上下文信息的特征集合。

式中：→表示神经网络运算，A表示AlexNet，T表示视频样本的序列长度，表示第i个样本第t时刻的图像独立评价质量分数，P(X_i)表示第i个样本的各帧独立评价质量分数集合，X_i表示第i个视频样本，表示第i个样本第T时刻的图像独立评价质量分数，则的计算公式如下：

式中：H表示LSTM网络，Q(G_i)表示第i个样本的各帧基于上下文的质量分数集合，G_i表示第i个样本的GoogleNet特征，表示第i个样本第t时刻的图像基于上下文信息的质量分数，表示第i个样本第T时刻的图像基于上下文信息的质量分数。

对于GoogleNet提取的特征表示第i帧图像的特征；进一步输入时序特征提取网络中提取其时序特征。我们使用循环网络，其中，该层的每一个节点与前一个节点相连，使得在该层内，信息能够从第一个节点流到最后一个节点。令表示第i帧图像从t流到t+1时刻的信息，则经过该模块，提取的时序特征可以表示为：

H(X_i)表示视频样本的时序特征集，表示第i个样本第t帧图像的时序特征。表示第i个样本第t帧图像的时序特征中从当前帧提取的信息。假设信息r₀代表目标人物的步态等信息，那么经过训练，相似的信息会在所有帧之间流动。这样的话，提取的特征会包含时序特征。使跨帧时序特征得以提取，使最终视频特征更具有鲁棒性。

具体地，使用AlexNet对目标的单帧图像进行质量评价包括：将每个输入图像被缩放成227×227大小后输入到输入图片层中。然后，图像被依次输入到五个卷积模块中进行特征提取，每个卷积模块包含一组结构：卷积层、ReLUs层和max-pooling层。之后见经过三个全连接层，前两层的神经元个数为4096个。由于目标是为每幅图像产生一个质量分数，所以最后一层的神经元个数设为1个。

具体地，基于上下文信息的质量分数的获取方法包括：在倒数第二个全连接层后面接入时序特征学习模块来产生已知上下文信息的质量分数评估。使用改进的LSTM单元来构建时序特征学习模块。在这个网络中，每个LSTM层的单元个数等于组成每个视频的帧数。每个LSTM单元都与另外的LSTM单元相连，使得信息能够从第一个LSTM 单元流到最后一个LSTM节点。每个LSTM节点由输入节点，隐藏节点和输出节点组成。经过LSTM节点，有用的信息被保留，同时无用的信息被遗忘。LSTM层的输出是每帧的特征向量，不同的是，这些特征向量既包含当前帧的特征和来自以前帧的特征。通过AlexNet特征提取器已经得到每帧图像的特征LSTM单元有两个输入，一个是每帧图像的特征另一个是来自前面单元的隐藏状态和首先通过遗忘门。遗忘门决定信息遗忘的程度，遗忘门遗忘信息和保留信息的过程可以表示为:

式中：表示第i个样本第t时刻通过遗忘门的信息，表示第i个样本第t时刻的GoogleNet特征，σ表示σ(x)＝(1+e^-x)^-1sigmoid函数，它将输入非线性地压缩到0到 1之间，W_f表示遗忘门的卷积参数，b_f表示遗忘门的偏移参数，表示第i个样本第 t-1时刻记忆单元的输出特征。

同时，输入门将会处理当前的输入，决定哪些信息将会被用来更新当前状态，这个更新的过程可以表示为：

式中：表示第i个样本第t时刻经输入门处理后的信息，W_j表示输入门的卷积参数，b_j表示输入门的偏移参数，表示更新信息的候选，tanh( )表示tanh函数层将输入非线性压缩到-1到1之间，W_C表示更新信息的卷积参数，b_C表示更新信息的偏移参数，表示第i个样本第t时刻的神经元状态，表示第i个样本第t-1时刻的神经元状态。

最后，隐藏状态将会被更新从而产生输出。是输出门，决定哪部分信息将会被输出，这个过程可以表示为：

其中：W_o表示输出门的卷积参数，b_o表示输出门的偏移参数，表示第i个样本第t时刻记忆单元的输出特征。

经过LSTM单元，每帧的信息可以受到前帧的影响，使得当前帧可以得到上文信息。由于目标识别任务的本质不是因果关系，而对于非因果关系的任务而言，上下文信息同等重要。因而本发明中使用双向长短期记忆网络。该网络结构将两个LSTM层的信息级联，可以同时正向和反向地分析输入的序列的特征以及关系，同时得知来自上下文的信息。

双向长短期网络的加入网络在考虑到前后帧影响的前提下预测各帧质量。双向长短期LSTM网络的加入，拥有时序特征的帧会获得较大的质量分数，从而使得对应帧的特征在最终的视频样本特征形成中起到合理的作用。

S14：根据单帧图像特征、局部特征、全局特征的质量分数，通过特征聚合网络对目标的各个单帧图像特征进行聚合，以及对目标的局部特征和全局特征进行聚合；

本实施例中，从一个图像集S＝{I₁,I₂,…,I_N}中提取固定维度的特征用来表示整个视频样本的特征；令R_a(S)和分别表示图像集S和第i帧图像I_i的特征，R_a(S)取决于S中的所有帧，其中：

式中：表示GoogleNet提取的第i帧图像的特征，表示将可变长度的视频特征映射到固定维度特征的聚合函数，N表示图像集中的总帧数；其中：

μ_i＝Q(I_i)

式中：Q(I_i)表示第i帧图像I_i的质量分数μ_i的预测函数；通过将GoogleNet的输出特征分为三部分来表征身体各部分的特征。为各部分的特征分别声场一个预测分数，将各部分的特征与质量分数使用聚合后，将三部分的身体特征连接在一起作为视频样本的最终特征表示。

S15：通过经过训练的质量评价网络、特征提取网络、特征聚合网络构建所述构建目标识别模型。

本实施例，解决了视频序列中外观多变及图像质量参差不齐的目标的识别问题。为质量评价模块添加循环网络模块来挖掘帧之间的关联信息，获得更多的有效目标信息，使得质量评价因考虑了时序信息而变得更加合理。同时为特征提取模块也添加了循环网络使得特征提取包含上下文信息，解决目标外观多变的问题。并通过一种特征聚合的方案，将提取的特征和质量信息聚合，利用所有帧的信息来合成视频样本的特征，使得提取的特征能够更加有效地描述该视频样本。另外，结合了全局特征与局部特征能够给出更为完整的目标表征(既包含整体结构信息，又包含身体各部分特征)。对于行人重识别任务，在iLID_VIDS和PRID2011数据集上的实验表明，top1匹配率比之前的算法平均提高了大约3％(该评价标准来自累计匹配曲线Cumulative Match Characteristic(CMC) curve)。

具体地，行人重识别(Person re-identification)也称行人再识别，在固定位置的摄像监控下，每个摄像头只能够追踪行人的一段轨迹，在长距离的行走过程中，一个人往往出现在多个摄像机中，如果要对某个人进行进一步的分析如追踪，动作分析，那么首先要能够识别出在跨摄像头的情况下的该目标。给定一个监控行人图像，行人重识别的目标是找到另外的设备或视觉下的该行人图像。而在现实生活中，通过各种拍摄设备得到的图像往往存在严重的姿态、外观变化等问题，还存在光线变化显著和遮挡等问题。图像质量参差不齐，质量较差的图像会对目标识别造成较大的影响。行人重识别受面部特征影响很小，主要受穿着、尺度、遮挡、姿态和视角等影响。行人重识别的另一个重要特点是人是在运动的。而行人的运动同时包括刚性运动和柔性运动，令外观之间的差异进一步增大。

本发明利用因这些因素导致的质量差异，提出了基于质量评价的目标识别方法。首先，使用拥有质量标准的监控图像数据库对已知上下文的质量评价网络进行预训练，如果拥有质量标准的监控图像数据库无法获得，可使用现存的性能优良的目标识别***来产生质量标准。然后将该质量评价网络嵌入特征提取网络中，构建整体网络结构。最后对整个网络进行训练，使得特征提取网络和质量评价网络在训练中相互促进，得到基于质量评价的目标识别模型。

具体地，构建介绍所使用的目标识别数据库的构建，筛选拥有一定长度的视频数据，保证每个样本包含两个包含来自不同角度、不同位置的两个摄像头的视频。在数据集构建过程中，选取拥有两个帧数大于21帧的视频的样本，将不满足要求的样本丢弃。并将经过筛选的数据集按照样本数1:1的比例分为训练集和测试集。并对数据集进行多次随机划分，多次实验取平均值以获取准确结果。并将所有图像数据缩放到同一尺寸。

本具体实例选取iLIDS_VIDS以及PRID2011两个数据库进行实验，观察本发明的匹配效果。并和已有的最优秀方法进行比较，对实验结果进行分析。

PRID2011数据库是专为行人重识别建立的数据库。该数据集由从两个不同的静态监视摄像机记录的视频组成。同一身份的不同样本之间明显存在着视角变化，及照明，背景和相机特性的明显差异。由于图像是从视频中提取的，所以包含了行人的一段运动过程。摄像头1记录了385个人的运动视频，摄像头2记录了749个人的运动视频，公开的数据库已经提前删除了严重遮挡的样本，为了符合我们的研究需求，我们对样本进行了进一步筛选。在实验中，只选用有效帧数大于21的视频样本，不满足条件的样本被删除。

iLIDS-VID数据库的数据是由多镜头监控网络在一个机场到达大厅采集的。该数据集选取无重叠的两个镜头视角，由300个不同身份的行人组成。每个行人样本包括来自不同摄像头的一对视频样本。每个视频样本的帧数从23到192不等，平均长度为73帧。由于人们之间的服装相似性，照相机视图中的照明和视点变化，杂乱的背景和随机遮挡，iLIDS-VID数据集非常具有挑战性。该数据集的最大特点是，在行人众多的飞机场，遮挡情况普遍存在。而且由于样本可能不是在同一天中采集到，任务的衣物佩饰等均可能不同。

实施效果

表1为在iLIDS_VIDS数据集上的实验对比结果；表2为在PRID2011数据集上的实验对比结果。其中，BLSTM+PQAN(Bidirectional Long Short Term Memory Network +Partial Quality Aware Network)表示双向长短期记忆网络+基于目标各部分质量的目标识别网络，LSTM+PQAN(Long Short Term Memory Network +Partial Quality AwareNetwork)表示长短期记忆网络+基于目标各部分质量的目标识别网络，PQAN(PartialQuality Aware Network)表示基于目标各部分质量的目标识别网络，QAN(Quality AwareNetwork)表示基于目标质量的目标识别网络，CNN+RNN(Convolutional Neural Network+Recurrent Neural Network)表示卷积神经网络+循环神经网络的方法， STFV3D(Spatio-Temporal Fisher Vector 3D)表示使用3D的时空Fisher向量的方法， TDL(Top-pushDistance Learning model)表示顶推距离学***均时序特征对齐池化表示的方法，GOG-KISSME-SRID(Gaussian Of Gaussian descriptor-Keep It Simple andStraightforward Metric-Sparse ReID)表示高斯描述子，简单直接度量和稀疏重识别结合的方法，LADF(Locally-Adaptive Decision Functions)表示局部可适应决策方法，Spindle(Spindle Net:Person Re-identification with Human Body Region GuidedFeature Decomposition and Fusion)表示一种结合身体各部分局部特征和全局特征的行人重识别网络，PAM-LOMO+KISSME(Part Appearance Mixture-Local MaximalOccurrence+Keep It Simple and Straightforward Metric)表示部分外观结合局部最明显特征既简单直接度量的方法，CNN+KISS(Convolutional Neural Network+Keep ItSimple and Straightforward)表示简单直接原则下的卷积神经网络方法，CNN+XQDA(Convolutional Neural Network+ Cross-view Quadratic Discriminant Analysis)表示卷积神经网络与跨视角四维特异性分析的方法，GOG+XQDA(Gaussian Of Gaussiandescriptor+Cross-view Quadratic Discriminant Analysis)表示高斯描述子与跨视角四维特异性分析结合的方法。表1和表2中的R1(Top 1 Matching Rate)表示第1匹配率，R5(Top 5 Matching Rate)表示前5匹配率，R10(Top 10 Matching Rate)表示前10匹配率，R20(Top 20 Matching Rate)表示前20匹配率。

表1

表2

首先，验证全局特征与局部特征结合的有效性，经过实验发现，当使用经过质量评价的全局特征与局部特征时，其性能比与提升了3.3％，从而验证了质量评价对于全局和局部特征有效性评价的重要作用。在此基础上，又加入了LSTM结构提取时序特征。时序特征模块的加入进一步提高了行人重识别的准确率。当在PQAN框架中只添加一个 LSTM层时，本发明与基线方法相比，top 1匹配率提高了0.3％，而将双向级联LSTM 模块嵌入到框架中时，匹配率提高2.3％，相对于基线算法PQAN而言则提高了4.2％。而且，本发明在表中列出的所有标准方面都胜过大多数现有的方法。尽管PAM-LOMO+ KISSME方法的top 1匹配率略高于本发明，但本发明在top 5,top 10和top 20上表现优于这种方法。此外，这种方法它使用多个外观模型，并使用复杂的框架结构来提取局部特征。这些设计增加了了网络的复杂度。综合而言，本发明优于PAM-LOMO+KISSME 方法。

首先，由对比实验可以看出本发明改进对于匹配率有所提升。其次基准方法QAN和PQAN与其他方法相比性能优于其他结果，而提出的方法进一步提高了其性能，单层 LSTM和双向级联LSTM的改进分别使得基线方法的性能提高了0.7％和2.1％。值得注意的是，PAM-LOMO+KISSME的top 5和top 10匹配率都高于本发明。

综上，通过与基线方法QAN和PQAN的比较，证明了本发明的有效性。与目前性能较好的方法相比，本发明至少在一个指标上优于其他方法，在其他指标上的表现不逊色于对比的方法。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于质量评价的目标识别方法，其特征在于，包括：

通过训练好的目标识别模型对视频进行目标识别。

2.根据权利要求1所述的基于质量评价的目标识别方法，其特征在于，所述构建目标识别模型，包括：

3.根据权利要求2所述的基于质量评价的目标识别方法，其特征在于，所述获取已知质量标准的图像数据，包括：

4.根据权利要求2所述的基于质量评价的目标识别方法，其特征在于，所述获取已知质量标准的图像数据，包括：

假设训练集由m个已标记的样本构成：则样本i为j类别的概率为：

式中：(x₁,y₁)表示标号为1的样本，(x_m,y_m)表示标号为m的样本，x_i表示第i个样本的特征表示，i的取值范围为1～m，表示实数空间，n的取值为softmax层之前的全连接层的输出维度，y_i表示第i个样本的标签，表示样本i为j类别的概率，表示第i个样本经过softmax层后第j个神经元的原始输出，表示第i个样本经过softmax层后第k个神经元的原始输出，N表示类别数，k表示计数变量。

5.根据权利要求1-4中任一项所述的基于质量评价的目标识别方法，其特征在于，所述质量评价网络包括：AlexNet特征提取器和双向长短期记忆网络LSTM，其中，所述AlexNet特征提取器用于对目标的单帧图像特征并由其生成对局部特征的质量评价，所述双向长短期记忆网络LSTM用于对全局特征进行质量评价。

6.根据权利要求2所述的基于质量评价的目标识别方法，其特征在于，所述通过特征提取网络提取单帧图像特征，以得到目标的局部特征；并根据提取到的目标的上下文信息的特征形成全局特征，包括：

所述提取单帧图像特征和目标的局部特征，包括：

通过GoogleNet网络选取inception_5b层的特征；

将图像的大小缩放成224×224输入到图像输入层中，并经过5个Iception的网络结构后选取inception_5b层的输出作为单帧图像特征，其中，所述Inception结构是指将1x1，3x3，5x5的卷积层和3x3的pooling层并行执行，并最终将并行输出作为一个Inception的结果。

7.根据权利要求6所述的基于质量评价的目标识别方法，其特征在于，在使用GoogleNet网络作为特征提取器，提取单帧图像特征并生成目标的局部特征之后，还包括：

8.根据权利要求2所述的基于质量评价的目标识别方法，其特征在于，通过经过训练的质量评价网络对目标的各帧局部特征、全局特征进行质量评价，以得到相应的质量分数，包括：

式中：表示第i个视频样本第t时刻的图像，→表示神经网络运算，A表示AlexNet，T表示视频样本的长度，表示第i个样本第t时刻的质量分数，P(X_i)表示第i个样本的各帧图像的质量分数集合，X_i表示第i个视频样本，则的计算公式如下：

9.根据权利要求2所述的基于质量评价的目标识别方法，其特征在于，根据局部特征、全局特征的质量分数，通过特征聚合网络对目标的各帧局部和全局特征分别进行聚合，以及对目标的局部特征和全局特征进行聚合，包括：

μ_i＝Q(I_i)

式中：Q(I_i)表示第i帧图像I_i的质量分数μ_i的预测函数；