CN112733602B

CN112733602B - 关系引导的行人属性识别方法

Info

Publication number: CN112733602B
Application number: CN202011438882.1A
Authority: CN
Inventors: 胡海苗; 樊皓楠; 浦世亮; 逯伟卿; 李波
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd; Beihang University
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd; Beihang University
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-08-05
Anticipated expiration: 2040-12-07
Also published as: CN112733602A

Abstract

本发明提供一种关系引导的行人属性识别方法，其中，该方法包括以下步骤：(A)以卷积神经网络提取图像特征，将特征图与属性进行关联，并将特征图转化为与属性具有强关联的属性特征向量；(B)根据(A)生成的属性特征向量，引入自注意力机制，生成代表属性之间关系的关系矩阵；(C)将行人属性关系分为显性关系和隐性关系。显性关系代表先验信息关系，包括层级关系和空间位置关系。隐性关系通过数据驱动的方式形成构建的属性关系。通过S1)提出的属性特征向量和S2)提出的关系矩阵生成方式，生成不同类型的属性关系矩阵；(D)以图卷积的形式充分利用关系矩阵和属性特征向量，进行属性推理预测；(E)将测试集输入到行人属性识别模型中进行识别，对实验结果进行评估。

Description

关系引导的行人属性识别方法

技术领域

本发明涉及模式识别技术、计算机视觉技术等领域，具体的说，涉及关系引导的行人属性识别方法。

背景技术

随着监控技术的发展以及监控设备的普及，利用监控视频信息进行安防监控已成为社会主流，其中，行人作为视频监控中的主要成分，已经成为监控检测识别中的重点，并发展出了行人再识别、行人检索等任务。行人属性识别适用于对行人的属性信息(颜色、衣着、动作等)进行描述，并可以作为中级特征信息辅助其他行人相关的任务，具有广泛的应用前景。例如：行人属性信息可以对行人再识别中的行人进行一定程度的筛选，提高准确率；行人检索中，利用行人属性信息作为索引一部分，提高检索效率。行人属性识别因其广泛的应用场景已经成为了研究的热点。

行人属性识别本质为一种多标签多分类任务，其工作流程为1)通过传统方法或深度网络获取行人的特征信息2)根据行人属性特征对对行人特征进行约束修正3)利用深度或传统分类器对行人属性进行分类预测，实现目标准确的属性识别，从而将图像非结构化数据转化为结构化数据。

行人属性识别大致分为以传统手工特征为基础的方法以及以深度学习为基础的深度方法。随着视频监控中行人等信息越来越多样丰富，传统的手工特征并不能很好地适用于不同场景，不同性能的需求；而基于数据的深度学习方法，随着数据的不断丰富，在以数据驱动为基础的情况下，其性能逐渐优越，并广泛应用于不同的监控领域，取得了一定的成果。但行人属性识别过程中仍旧存在许多问题。不同监控场景下的环境复杂、光照变化剧烈等外在条件会给行人属性的识别带来巨大的挑战，其次，监控条件下，行人的姿态多变(正面、侧面、弯腰等)会导致部分身体区域的遮挡、消失，增加了行人属性的识别的难度。

行人属性识别任务不同于其他多标签分类任务的重要一点是行人的属性之间存在着强烈的关系。不同年龄段的行人的穿着有其各自的特色，而这些特色恰好对应着不同的属性；同一性别人的身体特征、衣着打扮也存在着共性，女性更倾向于长发，穿裙子，而男性则大都为短发，穿正装等等。利用行人属性之间的关系可以有效辅助行人属性的判别。

行人属性关系相关的现有方法存在以下不足：

1)属性关系挖掘利用不充分：行人属性关系连接，包括序列关系、两两之间的关系、传递关系。当前属性关系挖掘利用方式大都基于RNN、LSTM等形式，以序列的方式利用属性间关系，挖掘不充分。例如Wang所提出的LSTM的扩展方法，其属性识别的顺序需要根据属性的出现频次进行定义，不同的顺序(即不同的对应关系)对识别的结果有重要影响。除此之外，针对不同的数据集，其每个属性出现的频次不同，需要进行再次的分析。行人属性之间的关系是单向关系,而实际的属性关系为双向关系；最后属性之间关系的利用为一层利用，未考虑属性关系的传递性，即属性A可通过属性B传递到C。除此之外，也存在由于传递关系及双向关系组合而成的循环关系。

2)不能对不同的属性关系进行统一描述：行人属性之间的关系并不单一，具备多样性。而当前大多框架中对于属性关系的应用仅限于定义好的某一类属性关系，而不能包容多种属性关系，不能在同一个维度下对不同的关系进行统一化描述，不具备扩展性。

3)缺乏对不同关系的综合利用：行人属性关系多种多样，包含显性关系和隐性关系。显性关是有先验信息下的属性关系，例如空间位置关系以及层级推理关系。隐性关系则是指没有先验信息，完全以数据驱动方式得出的属性间双向关系。现有的框架均为对某一种属性关系的利用，而未考虑关系的综合利用。不同属性关系的融合应用有助于促进行人属性识别任务的发展。

发明内容

本发明针对现有技术的上述不足，提供了一种基于图卷积的行人属性识别方法，该方法与主流方法相比，具有普适性和可扩展性，可兼容不同类型的行人属性关系，具有较高的识别准确率，适用于实际的室内外监控场景中的行人属性识别。

根据本发明的一个实施例的关系引导的行人属性识别方法包括如下步骤：

S1)以卷积神经网络提取图像特征，对网络进行约束，将特征图与属性进行关联，并将特征图转化为一维向量，该向量与属性具有强关联，简称为属性特征向量；

S2)根据S1)生成的属性特征向量，引入自注意力机制，生成二维矩阵，该矩阵代表属性之间关系，称为关系矩阵；

S3)根据行人属性的关系种类，将行人属性关系分为显性关系和隐性关系，通过S1)提出的属性特征向量和S2)提出的关系矩阵生成方式，生成不同类型的属性关系矩阵其中：显性关系代表在人的认知下的先验信息关系，包括层级关系和空间位置关系；隐性关系代表无人的先验信息引导，通过数据驱动的方式构建的属性关系；

S4)根据关系矩阵和属性特征向量，以图卷积的形式充分利用关系矩阵，进行属性推理预测；

S5)选用加权交叉熵损失函数，解决正负样本不均匀问题，平衡正负样本；

S6)将测试集输入到行人属性识别模型中进行识别，对行人属性识别模型的实验结果进行评估。

根据本发明的一个进一步的实施例，所述步骤S1)包括：

S1.1)选取残差神经网络作为卷积神经网络；

S1.2)通过残差神经网络的最后层输出特征图，其形状为2048x7x7，将多个通道的特征图与特征的属性进行绑定，即进行首次属性预测，从而将特征图与属性进行绑定，最后将对应的特征图转为1维向量，形成属性特征向量。

根据本发明的一个进一步的实施例，所述步骤S2)包括：

S2.1)使生成的属性特征向量数量与最后得出的属性数量保持一致；

S2.2)在关系矩阵的生成方式为将属性特征向量通过全连接神经网络转化为高维向量后，以自注意力的方式进行矩阵乘生成。

根据本发明的一个进一步的实施例，所述步骤S3)包括：

S3.1)为确定显性属性关系中的层级关系，将数据集中的属性划分为低级属性、中级属性和高级属性，以包括颜色纹理的感受野较小的属性作为低级属性指，其语义信息较少；以包括衣着、穿戴的感受野较大的属性作为中级属性，其蕴含语义信息较多；以包括性别、年龄的需要全局信息的属性作为高级属性，其蕴含语义信息最多；

S3.2)为确定显性属性关系中的空间关系，将数据集中的属性以身体区域划分为头部、上身、下身、脚部和全身五个部分，将每个部分包含的属性划分成一类；

S3.3)对于隐性关系，不将属性进行划分，以充分探索所有属性之间的关系；

S3.4)为生成不同的属性关系，选取不同的属性特征向量进行自注意力生成。

根据本发明的一个进一步的实施例，所述步骤S3、4)包括：

S4.1)在所述图卷积操作中，将属性特征向量与关系矩阵进行运算，生成最后的预测结果，其中用关系矩阵的运算次数作为属性关系的传递跳数；

S4.2)为保留属性特征向量信息在运算过程中丢失的信息，加入残差结构，其中用scores代表属性预测的概率，用W_c作为c标签出现的概率。

根据本发明的一个进一步的实施例，所述步骤S5)包括以下具体步骤：

S5.1)采用以初始学习率为0.0001、指数式衰减学习率的Adam优化器和64的数据批次大小进行迭代训练；

S5.2)将输入图像的大小统一调整为224×224，然后应用随机旋转，随机调整大小和随机水平翻转等步骤进行图像增强方式来构建一个数据批次；

S5.3)不断迭代学习，直到损失函数值不再下降，行人属性识别模型收敛，保存行人外观属性识别模型参数,得到最终的行人属性识别模型。

本发明人把本发明的上述方法在两个公开的行人属性数据集RAP和PETA上做了训练和测试，训练测试识别精度高，在现实生活中有切合实际的用途。

本发明的关系引导的行人属性识别方法与现有技术方法相比，具有以下优点及有益效果：

(1)本发明设计了一个描述行人属性关系的通用性框架，将不同的行人属性关系在同一维度进行描述；

(2)本发明采用自注意力的方式生成关系矩阵，并通过图卷积的形式实现了属性关系的复杂传递和利用；

(3)本发明探索了行人属性的显性关系和隐性关系，充分挖掘利用了不同类型的属性关系；

(4)本发明设计的关系通用性框架具有可扩展性，可适用于不同类型的属性关系挖掘和利用，并不限于本专利所提及属性关系。

附图说明

图1为根据本发明的一个实施例中采用的属性关系示意图。

图2为根据本发明的一个实施例的关系引导的行人属性识别方法的网络框架图。

图3为根据本发明的一个实施例的关系引导的行人属性识别方法的训练和测试结果的指标图。

图4为选取RAP数据集行人示意图。

具体实施方式

以下结合附图对本发明的实施例作进一步说明。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，行人属性之间存在内在关系，因而本发明以属性关系为出发点，探索属性关系，提高行人属性识别的准确率。如图2所示，本发明人提出了一种关系引导的行人属性识别方法，该方法主要包含以下步骤：(1)行人图像特征提取，进行特征压缩，生成属性特征向量。(2)利用属性特征向量生成不同的关系矩阵。(3)以图卷积的形式利用关系矩阵，实现关系的传递和利用。(4)通过对层级关系、空间关系和内在关系的识别结果，进行整合利用。(5)将测试集输入到行人属性识别模型中进行识别，对行人属性识别模型的实验结果进行评估。

对各步骤具体说明如下：

(1)属性特征向量生成。

以残差神经网络提取图像特征，对网络进行约束，通过残差神经网络的最后层输出特征图，其形状为2048x7x7，将多个通道的特征图与特征的属性进行绑定，即进行首次属性预测，从而将特征图与属性进行绑定，最后将对应的特征图转为1维向量，形成属性特征向量。

(2)关系矩阵生成

根据生成的属性特征向量，生成的属性特征向量数量与最后得出的属性数量一致，关系矩阵的生成方式为将属性特征向量通过全连接神经网络转化为高维向量，引入自注意力机制，生成二维矩阵，该矩阵代表属性之间关系，矩阵中每个点的值代表对应两个属性之间关系程度的强弱。

(3)关系类型

根据行人属性的关系种类，将行人属性关系分为显性关系和隐性关系。显性关系代表在人的认知下的先验信息关系，包括层级关系和空间位置关系。隐性关系在无人的先验信息引导。以空间区域为基础的关系，不同属性隶属于不同的身体区间，需探索这些属性之间的内在关系，划分方式如表1所示。以层次结构为基础的属性之间关系为不同层级属性层级之间的关系，层级的划分以感受野或其他方式为基础，例如将颜色等感受野小的属性作为低级属性，衣着等感受野较大的属性作为中级属性，年龄性别等需要全局信息的属性作为高级属性，从而探索低中高三级属性之间的关系，划分方式如表2所示。完全以属性为基础的属性两两之间的关系则是以数据驱动的方式，在无任何先验信息的情况下，探索不同属性之间的关系。为构造不同类型的关系矩阵，需要选用对应的属性特征向量。

表1

表2

(4)以图卷积为基础的关系利用和传递

根据关系矩阵和属性特征向量，以图卷积的形式充分利用关系矩阵，进行属性推理预测。图卷积的方式是将属性特征向量与关系矩阵进行运算，生成最后的预测结果，关系矩阵的运算次数代表属性关系的传递跳数。

(5)训练

将测试集输入到行人属性识别模型中进行识别，对行人属性识别模型的实验结果进行评估。采用以初始学***翻转等步骤进行图像增强来构建一个数据批次；不断迭代学习，直到损失函数值不再下降，行人属性识别模型收敛，保存行人外观属性识别模型参数,得到最终的行人属性识别模型。

图3为本发明的方法在RAP数据集上的实验结果。图4为本发明的方法的实现样例，其中图片为RAP测试集中的一种图片。左边为残差网络的效果，右边为本发明的效果，绿色为多识别出来的正确属性。

表3为本发明的效果与其他方法的对比，证明本发明对行人属性识别任务具有较高的识别准确率。

以上公开的仅为本发明的具体实施例。在不脱离本发明的权利要求范围的前提下，本领域的技术人员，根据本发明提供的基本技术构思，能够进行各种相应的变化、修正。

表3

Methods	mA	Acc	Prec	Recall	F1
						ACN	69.66	62.61	80.12	72.26	75.98
DeepMar	73.79	62.02	74.92	76.21	75.56
						VeSPA	77.70	67.35	79.51	79.67	79.59
JRL	77.81	——	78.11	78.98	78.58
						WPAL-GMP	81.25	50.30	57.17	78.39	66.12
WPAL-FSPP	79.48	53.30	60.82	78.80	68.65
						本发明	84.70	54.40	60.03	83.68	70.49

Claims

1.关系引导的行人属性识别方法，其特征在于包括：

S2)根据S1)生成的属性特征向量，引入自注意力机制，生成二维矩阵，该二维矩阵代表属性之间关系，该二维矩阵为关系矩阵；

S3)根据行人属性的关系种类，将行人属性关系分为显性关系和隐性关系，通过S1)提出的属性特征向量和S2)提出的关系矩阵生成方式，生成不同类型的属性关系矩阵，其中：显性关系代表在人的认知下的先验信息关系，包括层级关系和空间位置关系；隐性关系代表无人的先验信息引导，通过数据驱动的方式构建的属性关系；

S6)将测试集输入到行人属性识别模型中进行识别，对行人属性识别模型的实验结果进行评估，

其中：

所述步骤S1)包括：

S1.1)选取残差神经网络作为卷积神经网络；

S1.2)通过残差神经网络的最后层输出特征图，其形状为2048x7x7，将多个通道的特征图与特征的属性进行绑定，即进行首次属性预测，从而将特征图与属性进行绑定，最后将对应的特征图转为1维向量，形成属性特征向量，

所述步骤S2)包括：

S2.2)在关系矩阵的生成方式为将属性特征向量通过全连接神经网络转化为高维向量后，以自注意力的方式进行矩阵乘生成，

所述步骤S3)包括：

S3.1)为确定显性属性关系中的层级关系，将数据集中的属性划分为低级属性、中级属性和高级属性，以包括颜色纹理的感受野较小的属性作为低级属性，其语义信息较少；以包括衣着、穿戴的感受野较大的属性作为中级属性，其蕴含语义信息较多；以包括性别、年龄的需要全局信息的属性作为高级属性，其蕴含语义信息最多；

S3.4)为生成不同的属性关系，选取不同的属性特征向量进行自注意力生成，

所述步骤S3、4)包括：

S4.2)为保留属性特征向量信息在运算过程中丢失的信息，加入残差结构，其中用标签scores代表属性预测的概率，用W_c作为c标签出现的概率，

所述步骤S5)包括：

S5.1)采用sigmoid激活函数，激活最后分类层的每个输出节点；

S5.2)采用加权交叉熵损失函数，平衡正负样本的损失权重，解决正负样本不均匀问题，

所述步骤S6)包括以下具体步骤：

S6.1)采用以初始学习率为0.0001、指数式衰减学习率的Adam优化器和64的数据批次大小进行迭代训练；

S6.2)将输入图像的大小统一调整为224×224，然后以应用随机旋转、随机调整大小和随机水平翻转进行图像增强的方式来构建一个数据批次；

S6.3)不断迭代学习，直到损失函数值不再下降，行人属性识别模型收敛，保存行人外观属性识别模型参数,得到最终的行人属性识别模型。