CN112906680A

CN112906680A - 一种行人属性识别方法、装置及电子设备

Info

Publication number: CN112906680A
Application number: CN202110500064.8A
Authority: CN
Inventors: 张松华; 闫潇宁; 郑双午
Original assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Current assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-06-04

Abstract

本发明实施例提供一种行人属性识别方法、装置及电子设备，该方法包括以下步骤：获取待识别的行人属性视频数据，待识别的行人属性视频数据包括多帧行人图像以及与行人图像对应的多个行人属性；基于预设的行人目标分割网络对待识别的行人属性视频数据中的单帧行人图像进行图像分割处理，以去除背景信息得到对应的行人目标图像；基于预设的行人属性输出网络检测出行人目标图像对应的多个行人属性；基于预设的行人历史属性投票机制对多个行人属性进行异常过滤，得到行人目标图像的最终行人属性。本发明能够提高行人属性识别的准确率。

Description

一种行人属性识别方法、装置及电子设备

技术领域

本发明涉及图像识别技术领域，尤其涉及一种行人属性识别方法、装置及电子设备。

背景技术

近年来，行人属性识别在安防领域中越来越得到广泛的应用，准确、高效的行人属性识别结果在协助安防人员巡逻、改进人机交互体验等方面有重要的辅助作用。但有时会出现属性识别错误的情况，而导致误识别的原因很可能是目标图像中背景的影响，还可能是同一个目标在不同帧中检测出不同的属性，如，一名长发男子正面朝向监控探头时能够正确识别其性别，但是当他背对监控探头时却出现了检测出为女性的情况。可见现有的行人属性识别方法准确率不高。

发明内容

本发明实施例提供一种行人属性识别方法，能够解决了现有的行人属性识别方法准确率不高的问题。

第一方面，本发明实施例提供一种行人属性识别方法，所述方法包括以下步骤：

获取待识别的行人属性视频数据，所述待识别的行人属性视频数据包括多帧行人图像以及与所述行人图像对应的多个行人属性；

基于预设的行人目标分割网络对所述待识别的行人属性视频数据中的单帧行人图像进行图像分割处理，以去除背景信息得到对应的行人目标图像，所述预设的行人目标分割网络采用预设的实例分割架构；

基于预设的行人属性输出网络检测出所述行人目标图像对应的所述多个行人属性，所述预设的行人属性输出网络包括：依次设置的第一标准卷积结构、特征降维结构以及第二标准卷积结构；

基于预设的行人历史属性投票机制对所述多个行人属性进行异常过滤，得到所述行人目标图像的最终行人属性，所述预设的行人历史属性投票机制为对所述行人目标图像的历史属性进行投票，并选取得分最高的历史属性作为输出的行人属性，得到所述行人目标图像的最终行人属性。

优选的，所述基于预设的行人目标分割网络对所述待识别的行人属性视频数据中的单帧行人图像进行图像分割处理，以去除背景信息得到对应的行人目标图像的步骤包括：

基于预设的实例分割架构对所述待识别的行人属性视频数据中的单帧行人图像中的行人目标进行检测；

计算所述单帧行人图像中行人目标对应的目标框；

去除所述目标框以外的背景信息，得到对应的所述行人目标图像。

优选的，所述基于预设的行人属性输出网络检测出所述行人目标图像对应的所述多个行人属性的步骤包括：

基于所述第一标准卷积结构提升所述行人目标图像的通道数，得到对应的特征图；

基于所述特征降维结构对所述特征图进行降维处理，得到对应的降维图；

基于所述第二标准卷积结构对所述降维图进行卷积后输出所述行人目标图像对应的所述多个行人属性。

优选的，所述特征降维结构包括依次设置的分组卷积层、标准卷积层、平均池化层以及第一二维卷积层。

优选的，所述第一标准卷积结构包括：依次设置的第二二维卷积层、批归一化层、函数激活层以及第三二维卷积层。

优选的，所述基于预设的行人历史属性投票机制对所述多个行人属性进行异常过滤，得到所述行人目标图像的最终行人属性的步骤包括：

基于时间序列获取所述行人目标图像的历史帧的所有历史属性；

对所述所有历史属性进行投票，并选择出得分最高的历史属性作为当前帧的行人属性输出，以得到所述行人目标图像的最终行人属性。

第二方面，本发明还提供了一种行人属性识别装置，所述装置包括：

获取模块，用于获取待识别的行人属性视频数据，所述待识别的行人属性视频数据包括多帧行人图像以及与所述行人图像对应的多个行人属性；

图像分割模块，用于基于预设的行人目标分割网络对所述待识别的行人属性视频数据中的单帧行人图像进行图像分割处理，以去除背景信息得到对应的行人目标图像，所述预设的行人目标分割网络采用预设的实例分割架构；

检测模块，用于基于预设的行人属性输出网络检测出所述行人目标图像对应的所述多个行人属性，所述预设的行人属性输出网络包括：依次设置的第一标准卷积结构、特征降维结构以及第二标准卷积结构；

过滤模块，用于基于预设的行人历史属性投票机制对所述多个行人属性进行异常过滤，得到所述行人目标图像的最终行人属性，所述预设的行人历史属性投票机制为对所述行人目标图像的历史属性进行投票，并选取得分最高的历史属性作为输出的行人属性，得到所述行人目标图像的最终行人属性。

优选的，所述图像分割模块包括：

检测单元，用于基于预设的实例分割架构对所述待识别的行人属性视频数据中的单帧行人图像中的行人目标进行检测；

计算单元，用于计算所述单帧行人图像中行人目标对应的目标框；

去除单元，用于去除所述目标框以外的背景信息，得到对应的所述行人目标图像。

第三方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中提供的行人属性识别方法中的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中提供的行人属性识别方法中的步骤。

在本发明实施例中，通过获取待识别的行人属性视频数据，所述待识别的行人属性视频数据包括多帧行人图像以及与所述行人图像对应的多个行人属性；基于预设的行人目标分割网络对所述待识别的行人属性视频数据中的单帧行人图像进行图像分割处理，以去除背景信息得到对应的行人目标图像，所述预设的行人目标分割网络采用预设的实例分割架构；基于预设的行人属性输出网络检测出所述行人目标图像对应的所述多个行人属性，所述预设的行人属性输出网络包括：依次设置的第一标准卷积结构、特征降维结构以及第二标准卷积结构；基于预设的行人历史属性投票机制对所述多个行人属性进行异常过滤，得到所述行人目标图像的最终行人属性，所述预设的行人历史属性投票机制为对所述行人目标图像的历史属性进行投票，并选取得分最高的历史属性作为输出的行人属性，得到所述行人目标图像的最终行人属性。这样可以通过融合使用Mask R-CNN对行人图像进行图像分割去除背景影响，结合预设的行人属性输出网络中的第一标准卷积结构、特征降维结构以及第二标准卷积结构检测出行人目标图像的行人属性和基于预设的行人历史属性投票机制，识别出行人的最终行人属性，进而提高行人属性识别的准确率。具体可以实现行人属性识别的平均识别准确率为95%。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种行人属性识别方法的流程图；

图2是本发明实施例提供的一种行人属性识别装置的结构示意图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种行人属性识别方法的流程图，如图1所示，该行人属性识别方法包括以下步骤：

步骤101、获取待识别的行人属性视频数据，待识别的行人属性视频数据包括多帧行人图像以及与行人图像对应的多个行人属性。

其中，上述待识别的行人属性视频数据可以称为待识别的行人属性视频流。待识别的行人属性视频数据可以是用户想要进行行人属性识别的行人视频数据。上述行人可以是指待识别的行人属性视频数据中的任何一个人。

上述待识别的行人属性为需要进行属性识别的行人的属性。上述行人图像可以包括一个或多个待识别行人的图像。上述多个行人属性为同一个行人图像的多个行人属性。当有多个行人的行人图像时，每个行人的行人图像均有属于自己的行人属性。

上述行人属性可以包括行人的性别、年龄等主要特征，人脸（各个脸部器官）、头发（长、短、颜色、造型）、戴口罩、戴眼镜等头部特征，上衣、下衣、帽子等服饰特征以及是否有携带物等其他特征等属性信息。

具体的，待识别的行人属性视频数据可以是实时采集得到的，比如，可以是实时采集某个路口、某个道路、或某个区域的行人属性视频。待识别的行人属性视频数据也可以是预先采集并保存好的，比如，预先采集并保存在视频数据库中的，以便于后期使用或识别的行人属性视频数据。当用户需要对某段行人属性视频数据中的行人属性进行识别时，即可直接调用或实时采集某段行人属性视频数据来进行行人属性识别。在得到待识别的行人属性视频数据后抽取待识别的行人属性视频数据的视频帧图像，进而得到多帧行人图像。

行人属性识别是智能安防领域中十分重要的一种目标信息提取方法，行人属性识别主要是在图像中对行人目标进行识别，然后对每个行人目标的属性进行判别。精准的行人属性信息，能够帮助开展各类基于行人照片的分析工作，尤其是在安防领域，有利于在生产环境下面对大规模数据时快速检索到目标，同时也将会对节约时间成本和提高相关的经济、社会效益带来巨大帮助。

当然，在得到多帧行人图像后可以标记出现的行人及其属性，再将多帧行人图像以及对应的属性制作行人属性输出数据集，比如，将多帧行人图像和属性划分为训练集、验证集以及测试集等。这样可以对得到的多帧行人图像进行训练、验证以及测试，保证行人属性识别的准确性。

步骤102、基于预设的行人目标分割网络对待识别的行人属性视频数据中的单帧行人图像进行图像分割处理，以去除背景信息得到对应的行人目标图像，预设的行人目标分割网络采用预设的实例分割架构。

其中，上述预设的实例分割架构可以为预设的Mask R-CNN架构。主要是首先构建一个二阶段的目标检测器，参考YoloV4，使用CSPDarknet53作为目标检测器的backbone（骨干网络或深度卷积特征提取网络），然后使用Faster R-CNN（更快的R-CNN）的RPN（RegionProposal Network，区域推荐网络）层对特征图进行计算提取出候选框（目标框），最后直接使用Mask R-CNN架构，构造类别输出分支，目标框输出分支和目标轮廓输出分支，最后输出对应的行人目标图像。行人目标图像可以为多个。

上述行人目标图像为只包含行人目标的图像。

具体的，步骤102具体包括：

基于预设的实例分割架构对待识别的行人属性视频数据中的单帧行人图像中的行人目标进行检测。

计算单帧行人图像中行人目标对应的目标框。

去除目标框以外的背景信息，得到对应的行人目标图像。

更具体的，当获取到多帧行人图像时，可以分别对单帧行人图像中的行人目标进行检测，检测出该行人目标在行人图像中的位置，并计算该行人目标在行人图像中的目标框大小，然后使用该目标框对该行人目标进行框定，最后去除行人图像中除该目标框以外的背景信息，最后得到对应的行人目标图像。

需要说明的是，当同一单帧行人图像中出现多个行人目标时，需要分别检测出每个行人目标，并且分别计算每个行人目标对应的目标框，然后去除每个目标框以外的背景信息，最后得到多个目标框对应的多个行人目标图像。也就是说可以将单帧行人图像中的多个行人图像分割处理，或者说将单个行人目标图像从行人图像中与背景信息分割开来，只保留行人目标的行人目标图像。这样在进行行人属性识别时，只需要对单个行人目标图像中的行人属性进行识别，并不会受到行人图像中的背景信息以及其他干扰目标的影响。即使单个行人图像中存在多个行人目标，也可以对单个行人目标图像中的行人属性单独识别，能够有效地降低行人属性识别的误识别率，提高行人属性识别的准确率。

步骤103、基于预设的行人属性输出网络检测出行人目标图像对应的多个行人属性，预设的行人属性输出网络包括：依次设置的第一标准卷积结构、特征降维结构以及第二标准卷积结构。

具体的，步骤103包括：

基于第一标准卷积结构提升行人目标图像的通道数，得到对应的特征图。

基于特征降维结构对特征图进行降维处理，得到对应的降维图。

基于第二标准卷积结构对降维图进行卷积后输出行人目标图像对应的多个行人属性。

其中，上述特征降维结构包括依次设置的分组卷积层、标准卷积层、平均池化层以及第一二维卷积层。上述第一标准卷积结构包括：依次设置的第二二维卷积层、批归一化层、函数激活层以及第三二维卷积层。上述第一标准卷积结构与上述第二标准卷积结构的结构相同，且能够实现相同的功能。

更具体的，例如，在构建预设的行人属性输出网络时使用的网络层数较浅，网络结构输入为尺寸为96×192的RGB图像，然后先经过卷积核为3×3的第一标准卷积结构首先将行人目标图像的通道数提升至32，得到特征图尺寸变为48×96。在第一标准卷积结构后，连续设置有4层的特征降维结构对特征图进行降维处理，特征降维结构由分组卷积层、1×1的标准卷积层、平均池化层和最后用于提升通道数的第一二维卷积组成，在特征降维结构后再接入一层第二标准卷积结构卷积后进行行人属性特征的输出，得到行人目标图像对应的多个行人属性。

使用的预设的行人属性输出网络可以降低模型参数，提高模型的运行速度。主要的卷积神经网络使用的1x1卷积核和通道混合算法自身相比标准卷积而言就可以降低参数，最终的模型结构参数量小，且运行速度高。

步骤104、基于预设的行人历史属性投票机制对多个行人属性进行异常过滤，得到行人目标图像的最终行人属性，预设的行人历史属性投票机制为对行人目标图像的历史属性进行投票，并选取得分最高的历史属性作为输出的行人属性，得到行人目标图像的最终行人属性。

具体的，步骤104包括：

基于时间序列获取行人目标图像的历史帧的所有历史属性。

对所有历史属性进行投票，并选择出得分最高的历史属性作为当前帧的行人属性输出，以得到行人目标图像的最终行人属性。

更具体的，在实际的行人属性识别中，行人的某些特征不会因时间的短时推移而变化，如性别，年龄等。所以需要融合待识别的行人属性视频数据中的时间序列来确定某帧视频的某个行人目标的属性，且融合该行人目标在视频历史帧的所有属性结果进行投票输出。如，一名长发男子正面朝向监控探头时能够正确识别其性别，但是当他背对监控探头时却出现了检测出为女性的情况。所以为了减少这种情况的发生，同时考虑了行人目标的历史属性，就是在评判行人目标的属性时必须充分考虑行人目标历史中出现过的属性，最终结果由所有历史属性投票选出。也可以是统计行人目标的历史属性，然后选取得分最高的历史属性作为输出的行人属性。当然得分可以用置信度分数来表示，例如：一个行人当前属性输出为：性别女，置信度0.57；此时将当前输出的行人属性加入历史属性后统计该行人的所有历史属性，发现该行人的历史属性中出现过性别男的总置信度为3.74，性别为女的总置信度为1.23，所以修改当前帧的行人属性输出为性别男。

这样可以基于视频时间序列构建目标属性轨迹，防止行人属性识别在一段时间内对同一个目标出现属性识别结果跳变的情况，进一步强化了行人属性识别的稳定性。

在本发明实施例中，通过获取待识别的行人属性视频数据，待识别的行人属性视频数据包括多帧行人图像以及与行人图像对应的多个行人属性；基于预设的行人目标分割网络对待识别的行人属性视频数据中的单帧行人图像进行图像分割处理，以去除背景信息得到对应的行人目标图像，预设的行人目标分割网络采用预设的实例分割架构；基于预设的行人属性输出网络检测出行人目标图像对应的多个行人属性，预设的行人属性输出网络包括：依次设置的第一标准卷积结构、特征降维结构以及第二标准卷积结构；基于预设的行人历史属性投票机制对多个行人属性进行异常过滤，得到行人目标图像的最终行人属性，预设的行人历史属性投票机制为对行人目标图像的历史属性进行投票，并选取得分最高的历史属性作为输出的行人属性，得到行人目标图像的最终行人属性。这样可以通过融合使用Mask R-CNN对行人图像进行图像分割去除背景影响，结合预设的行人属性输出网络中的第一标准卷积结构、特征降维结构以及第二标准卷积结构检测出行人目标图像的行人属性和基于预设的行人历史属性投票机制，识别出行人的最终行人属性，进而提高行人属性识别的准确率。具体可以实现行人属性识别的平均识别准确率为95%。

参见图2，图2是本发明实施例提供的一种行人属性识别装置的结构示意图，该行人属性识别装置200包括：

获取模块201，用于获取待识别的行人属性视频数据，待识别的行人属性视频数据包括多帧行人图像以及与行人图像对应的多个行人属性；

图像分割模块202，用于基于预设的行人目标分割网络对待识别的行人属性视频数据中的单帧行人图像进行图像分割处理，以去除背景信息得到对应的行人目标图像，预设的行人目标分割网络采用预设的实例分割架构；

检测模块203，用于基于预设的行人属性输出网络检测出行人目标图像对应的多个行人属性，预设的行人属性输出网络包括：依次设置的第一标准卷积结构、特征降维结构以及第二标准卷积结构；

过滤模块204，用于基于预设的行人历史属性投票机制对多个行人属性进行异常过滤，得到行人目标图像的最终行人属性，预设的行人历史属性投票机制为对行人目标图像的历史属性进行投票，并选取得分最高的历史属性作为输出的行人属性，得到行人目标图像的最终行人属性。

优选的，图像分割模块202包括：

检测单元，用于基于预设的实例分割架构对待识别的行人属性视频数据中的单帧行人图像中的行人目标进行检测；

计算单元，用于计算单帧行人图像中行人目标对应的目标框；

去除单元，用于去除目标框以外的背景信息，得到对应的行人目标图像。

优选的，检测模块203包括：

提升单元，用于基于第一标准卷积结构提升行人目标图像的通道数，得到对应的特征图；

降维单元，用于基于特征降维结构对特征图进行降维处理，得到对应的降维图；

属性输出单元，用于基于第二标准卷积结构对降维图进行卷积后输出行人目标图像对应的多个行人属性。

优选的，特征降维结构包括依次设置的分组卷积层、标准卷积层、平均池化层以及第一二维卷积层。

优选的，第一标准卷积结构包括：依次设置的第二二维卷积层、批归一化层、函数激活层以及第三二维卷积层。

优选的，过滤模块204包括：

获取单元，用于基于时间序列获取行人目标图像的历史帧的所有历史属性；

投票单元，用于对所有历史属性进行投票，并选择出得分最高的历史属性作为当前帧的行人属性输出，以得到行人目标图像的最终行人属性。

本发明实施例提供的行人属性识别装置200能够实现上述方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

参见图3，图3是本发明实施例提供的一种电子设备的结构示意图，该电子设备300包括：存储器302、处理器301及存储在存储器302上并可在处理器301上运行的计算机程序，处理器301执行计算机程序时实现上述实施例提供的行人属性识别方法中的步骤。

本发明实施例提供的电子设备300能够实现上述方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的行人属性识别方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，该程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存取存储器（Random AccessMemory，简称RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种行人属性识别方法，其特征在于，所述方法包括以下步骤：

基于预设的行人历史属性投票机制对所述多个行人属性进行异常过滤，得到所述行人目标图像的最终行人属性，所述预设的行人历史属性投票机制为对所述行人目标图像的历史属性进行投票，并选取得分最高的历史属性作为输出的行人属性，得到所述行人目标图像的最终行人属性；

所述基于预设的行人属性输出网络检测出所述行人目标图像对应的所述多个行人属性的步骤包括：

基于所述第二标准卷积结构对所述降维图进行卷积后输出所述行人目标图像对应的所述多个行人属性；

所述特征降维结构包括依次设置的分组卷积层、标准卷积层、平均池化层以及第一二维卷积层。

2.如权利要求1所述的行人属性识别方法，其特征在于，所述基于预设的行人目标分割网络对所述待识别的行人属性视频数据中的单帧行人图像进行图像分割处理，以去除背景信息得到对应的行人目标图像的步骤包括：

计算所述单帧行人图像中行人目标对应的目标框；

3.如权利要求1所述的行人属性识别方法，其特征在于，所述第一标准卷积结构包括：依次设置的第二二维卷积层、批归一化层、函数激活层以及第三二维卷积层。

4.如权利要求1所述的行人属性识别方法，其特征在于，所述基于预设的行人历史属性投票机制对所述多个行人属性进行异常过滤，得到所述行人目标图像的最终行人属性的步骤包括：

5.一种行人属性识别装置，其特征在于，所述装置包括：

过滤模块，用于基于预设的行人历史属性投票机制对所述多个行人属性进行异常过滤，得到所述行人目标图像的最终行人属性，所述预设的行人历史属性投票机制为对所述行人目标图像的历史属性进行投票，并选取得分最高的历史属性作为输出的行人属性，得到所述行人目标图像的最终行人属性；

所述检测模块包括：

提升单元，用于基于所述第一标准卷积结构提升所述行人目标图像的通道数，得到对应的特征图；

降维单元，用于基于所述特征降维结构对所述特征图进行降维处理，得到对应的降维图；

属性输出单元，用于基于所述第二标准卷积结构对所述降维图进行卷积后输出所述行人目标图像对应的所述多个行人属性；

6.如权利要求5所述的行人属性识别装置，其特征在于，所述图像分割模块包括：

7.如权利要求1所述的行人属性识别装置，其特征在于，所述第一标准卷积结构包括：依次设置的第二二维卷积层、批归一化层、函数激活层以及第三二维卷积层。

8.如权利要求1所述的行人属性识别装置，其特征在于，所述过滤模块包括：

获取单元，用于基于时间序列获取所述行人目标图像的历史帧的所有历史属性；

投票单元，用于对所述所有历史属性进行投票，并选择出得分最高的历史属性作为当前帧的行人属性输出，以得到所述行人目标图像的最终行人属性。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的行人属性识别方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的行人属性识别方法中的步骤。