CN112232231A

CN112232231A - 行人属性的识别方法、***、计算机设备和存储介质

Info

Publication number: CN112232231A
Application number: CN202011124766.2A
Authority: CN
Inventors: 郁强; 张香伟; 毛云青
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-01-15
Anticipated expiration: 2040-10-20
Also published as: CN112232231B

Abstract

本申请涉及行人属性的识别方法、***、计算机设备和存储介质，其中方法包括从实时视频中提取图像帧，将图像帧输入到已训练的目标检测模型，得到已训练的目标检测模型输出的行人图像；将行人图像输入到已训练的行人识别模型，根据预设的行人属性，得到已训练的行人识别模型输出的分类结果；其中，预设的行人属性包括性别属性、年龄属性；根据分类结果得到不同性别属性和不同年龄属性的行人人数及所占比例。通过本发明，可以在实时视频中提取出行人图像，将行人图像的数据进行分类和统计，得到不同属性的行人流量信息，通过监控不同属性的行人流量的信息，间接地显示了观光景点受欢迎程度和受欢迎群体，能够合理地规划交通流畅性和商业服务范围。

Description

行人属性的识别方法、***、计算机设备和存储介质

技术领域

本申请涉及目标检测领域，特别是涉及行人属性的识别方法、***、计算机设备和存储介质。

背景技术

图像目标检测算法是深度学习的一个重要研究方向，在深度学习之前，传统的目标检测主要利用手动标注的特征，通过选择性搜索生成候选框，随后进行分类和回归。此类算法包括Viola-Jones的人脸检测算法、支持向量机(SVM)以及HOG(Histograms ofOriented Gradients)的扩展DPM(Deformable Parts Model)算法等等。

基于深度学习的静态图像目标检测算法主要是从R-CNN检测器发展而来的，该检测器从无监督算法生成的目标候选框发展而来，并使用卷积神经网络对其进行分类。该模型是尺度不变的，但是R-CNN的训练和推理的计算成本与候选框数量成线性关系。为了缓解这一计算瓶颈，Faster-RCNN开始提出设置锚框，这样网络对于学习的对象更加具有针对性，采用RPN(区域候选网络)网络来提取候选框，在COCO数据集是mAP达到了27.2％。之后在单阶段目标检测中，以yolo和SSD算法为代表的目标检测方法通过采用特征金字塔网络结构，利用浅层特征预测小目标，深层特征预测大目标，其中Joseph Redmon的YOLOv3将mAP达到了33％，Zhang的RefineDet更是达到了41.8％。在视频目标检测领域，Dai等人深度特征流在非关键视频帧上使用FlowNet网络估计光流，通过关键帧提取的特征做双线性变形的形式得到非关键帧的特征图。Wang等人引入了一个时域卷积神经网络对每一个管道进行重新打分，这样通过时间域的信息来重新评估每个候选框的置信度。zhu等人的THP-VID提出稀疏递归特征聚合、时间自适应的关键帧选取方法在ImageNet VID视频检测数据集上达到78.6％mAP。上述两阶段检测算法还有特征网络更好的HyperNet、MSCNN、PVANet和Light-Head R-CNN，RPN网络更精准的MR-CNN、FPN和CRAFT，ROI分类更完善的R-FCN、CoupleNet、Mask R-CNN和Cascade R-CNN，样本后处理的OHEM、Soft-NMS和A-Fast-RCNN，mini-Batch更大的神经网络MegDet。

进入2019年Anchor Free方法颇有点井喷的感觉，Anchor的本质是候选框，其主要的思路大都起源于2015年的DensBox和2016年的UnitBox。其中分为基于关键点的CornerNet、CenterNet、ExtremeNet，和密集预测的FSAF、FCOS、FoveaBox，这些算法在目标检测方向都有不错表现。

进入2020年神经网络架构搜索已经成为最近深度学习算法的热点。基于强化学习的神经架构搜索利用循环神经网络生成神经网络的模型描述，提出的神经架构搜索是基于梯度的。对于可伸缩图像识别领域的可转移架构学习，在文中首先在一个小数据集上搜索结构上组成一个模块，然后将模块再转移到一个大数据集上。高效结构搜索的层次化表示，提出了一种可扩展的进化搜索方法变体，一种描述神经网络结构的层次化表示方法。PNASNet该方法采用基于序列模型的优化策略学习卷积神经网络的结构。Auto-Keras使用贝叶斯优化引导网络形变，以提升NAS的效率。NASBOT提出了一种基于高斯过程的神经结构搜索框架。DARTS以可微的方式构造任务，解决了结构搜索的可伸缩性问题。

许多研究人员在目标检测领域取得了一定的进展，但是，在实际设计和使用中仍面临许多问题，主要体现在以下两个方面：

(1)视频目标检测在实际应用中检测效果不太明显，实际应用中如何提升视频目标检测精度仍是一个问题；具体而言，目前目标检测的提取特征能力不强，对于景区中行人属性的识别问题，当通过监控场景进行检测时，视频中的目标会随着网络加深语义信息逐渐丰富，但目标分辨率越来越模糊，使其目标检测精度不高，目前视频目标检测精度存在问题，导致景区中的行人无法被高效地提取出来，影响了景区中的行人属性的统计结果。

(2)目标识别的属性效果仍需要提升，特别是针对监控视频状态下小目标和遮挡目标的问题仍然是较大的挑战；具体而言，目前目标检测算法中通过构造特征金字塔的方式设置多层检测器，在特征融合的阶段如何进一步的提升检测效果，以生成更具区分性的特征、以及如何判断景区受欢迎群体的问题亟待解决。

目前针对目标检测技术存在的上述问题，不同属性的行人无法被有效地识别及各属性行人的流量无法被有效地监控的问题尚未提出有效的解决方案。

发明内容

本申请实施例提供了行人属性的识别方法，***、计算机设备和存储介质，以至少解决相关技术中景区中的不同属性的行人无法被有效地识别及各属性行人的流量无法被有效地监控的问题。

第一方面，本申请实施例提供了行人属性的识别方法，所述方法包括：获取实时视频，从所述实时视频中提取图像帧，将所述图像帧输入到已训练的目标检测模型，得到所述已训练的目标检测模型输出的行人图像；其中，所述已训练的目标检测模型为利用行人图像样本集训练后获得的用于行人目标检测的神经网络模型；将所述行人图像输入到已训练的行人识别模型，根据预设的行人属性，得到所述已训练的行人识别模型输出的分类结果；其中，所述预设的行人属性包括性别属性、年龄属性；根据所述分类结果得到不同性别属性和不同年龄属性的行人人数及所占比例。

在其中一些实施例中，所述已训练的目标检测模型包括特征提取网络和预测网络；获取实时视频，从所述实时视频中提取图像帧，将所述图像帧输入到已训练的目标检测模型，得到所述已训练的目标检测模型输出的行人图像包括：获取实时视频；根据所述实时视频得到连续一段时间内同一地点的待检测图像；将所述待检测图像输入到特征提取网络中，经过所述特征提取网络中复数个残差模块，得到所述待检测图像的浅层特征图、中层特征图及深层特征图；其中，每个所述残差模块包括至少一个残差块，在所述残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图；将所述浅层特征图、所述中层特征图及所述深层特征图输入到预测网络中进行融合，得到所述待检测图像中的一个或多个行人图像。

在其中一些实施例中，在所述残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图包括：将所述待检测图像进行1*1卷积升维后经过混合深度可分离卷积进行特征提取，输出特征图；将所述特征图分别输入到通道注意力模块和特征图注意力模块；在所述通道注意力模块对所述特征图进行池化、重塑、升维、特征压缩操作，将输出项与所述通道注意力模块的输入项相乘并进行降维卷积；在所述特征图注意力模块对所述特征图分组后经过混合深度可分离卷积进行特征提取，对每组的输出项进行拼接并进行降维卷积；将所述通道注意力模块和所述特征图注意力模块的得到的结果进行元素级相加操作，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图。

在其中一些实施例中，所述预测网络为交叉双向特征金字塔模块。

在其中一些实施例中，将所述待检测图像输入到所述已训练的特征提取网络中；其中，所述图像为三通道图；将所述三通道图经过3*3卷积后输入到残差网络中，其中，所述残差网络包括从输入端至输出端的第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块、第六残差模块以及第七残差模块，所述第一残差模块、所述第二残差模块、所述第三残差模块、所述第四残差模块、所述第五残差模块、所述第六残差模块以及所述第七残差模块中分别对应残差块的数量为1个、2个、2个、3个、3个、4个以及1个；在所述第四残差模块得到浅层特征图，在所述第五残差模块得到中层特征图，在所述第六残差模块得到深层特征图；在所述第三残差模块和所述第七残差模块的输出设置三个融合单元进行相邻两层或三层特征融合；在所述第四残差模块、所述第五残差模块和所述第六残差模块设置七个融合单元且每层的分辨率相等，在所述第四残差模块、所述第五残差模块和所述第六残差模块的倒数第二个融合单元将特征图融合到一起，所述融合单元的融合方法为上采样或者下采样；在所述第四残差模块、所述第五残差模块、所述第六残差模块的所述融合单元后面分别接一个头部预测模块，通过所述头部预测模块得到所述图像中待测目标的位置、待测目标包围框的大小以及置信度。

在其中一些实施例中，所述已训练的行人识别模型为所述已训练的目标检测模型中的所述已训练的特征提取网络。

在其中一些实施例中，根据所述分类结果得到不同性别属性和不同年龄属性的行人人数及所占比例包括：将所述分类结果保存到行人属性文本中，统计所述行人属性文本中的所述分类结果的词频，得到不同性别属性和不同年龄属性的行人人数及所占比例；其中，所述性别属性包括男性、女性；所述年龄属性包括少年、青年、老年。

第二方面，本申请实施例提供了一种行人属性的识别***，包括：获取模块，用于获取实时视频，从所述实时视频中提取图像帧，将所述图像帧输入到已训练的目标检测模型，得到所述已训练的目标检测模型输出的行人图像；识别模块，用于将所述行人图像输入到已训练的行人识别模型，根据预设的行人属性，得到所述已训练的行人识别模型输出的分类结果；其中，所述预设的行人属性包括性别属性、年龄属性；计数模块，用于根据所述分类结果得到不同性别属性和不同年龄属性的行人人数及所占比例。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的行人属性的识别方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的行人属性的识别方法。

相比于相关技术，本申请实施例提供的行人属性的识别方法、***、计算机设备和存储介质，用来解决现有技术中景区中的不同属性的行人无法被有效地识别及各属性行人的流量无法被有效地监控的问题。相关技术中的目标检测方法的检测精度低、对小目标和遮挡目标检测的效果不好，导致景区中的行人无法被高效地提取出来，影响了景区中的不同属性的行人流量的统计结果。针对目标检测精度不高，本方案提出一种残差块，该残差块1、采用了混合深度可分离卷积，即不同的通道分配不同的卷积核，来获得不同大小的感受野特征图，从而考虑到视频中不同大小的目标，使其主干网络提取更加鲁棒的特征，有利于对目标进行定位和分类。2、在残差块中首先利用不同的卷积核获得不同的感受野，结合特征注意力机制和通道注意力机制，使其强化前景(目标)特征提取，弱化背景信息。本方案设计一个交叉双向特征金字塔模块，通过充分优化特征语义信息和分辨率的结合方式，使其对视频中的目标检测精度鲁棒性更高。针对行人属性的目标检测的效果不好的问题，本方案提出上述网络架构以生成更具区分性的特征。此外，通过目标检测模型检测到行人，并通过行人是被模型判断行人属性，根据行人属性判断景区受欢迎群体，解决现有技术中无法得出景区中受欢迎群体的问题。具体而言，本申请通过在特征提取网络中结合通道注意力机制和特征图注意力机制，设计新的残差结构，学习并利用利用通道之间的相关性，筛选出针对通道的注意力。在特征提取网络中引入卷积核注意力机制，利用不同大小的感受视野(卷积核)对于不同尺度(远近、大小)的目标会有不同的效果，结合两者的性质设计了一个更加鲁棒性的特征提取网络，并在卷积核注意力机制中使用不通过大小的深度可分离卷积核(3*3、5*5、7*7和9*9)，这样不但浮点运算量上不会增加，而且还可以获得不同大小的感受野，此方法可以增强特征提取网络提取特征的能力，使行人能在视频图像中能被检测出来。完成特征的初步提取之后，为了使提取的特征更加具有高语义信息，在预测网络中设计了一个交叉双向特征金字塔模块，在倒数第二个特征融合单元聚合了三个尺度的局部上下文信息，深层特征包含较多的语义信息，还有足够大的感受野，浅层特征包含更多的细节信息，这样的融合方式更加接近全局特征和局部特征融合的目的，以生成更具区分性的特征。通过本发明，可以在实时视频中提取出行人图像，将行人图像的的属性进行分类，得到不同属性的行人流量信息，通过监控不同属性的行人流量的信息，能够合理地规划交流流畅性和商业服务范围。此外，不同属性的行人流量间接地显示了观光景点受欢迎程度和受欢迎群体，能有效分配观光景点的管理和维护人员，以及对流量比较大的区域采取预防突发事件的措施。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的行人属性的识别方法的流程图；

图2是根据本申请实施例的特征提取网络中的一个残差块的网络架构图；

图3是根据本申请实施例的预测网络中的交叉双向特征金字塔模块架构图；

图4是根据本申请实施例的电子装置的硬件结构示意图；

图5是根据本申请实施例的行人识别模型的网络架构图；

图6是根据本申请实施例的行人属性的识别***的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

本实施例提供了行人属性的识别方法，图1是根据本申请实施例的行人属性的识别方法的流程图，如图1所示，该流程包括获取图像、属性识别、各属性行人的流量计数，具体而言，该方法包括：

步骤101、获取实时视频，从实时视频中提取图像帧，将图像帧输入到已训练的目标检测模型，得到已训练的目标检测模型输出的行人图像。

在本实施例中，可以通过监控视频采集图像，具体的，在监控视频中，找出L段含有待测目标的视频，Vi表示第i段视频，Vi共有Ni幅视频图像，从Ni幅视频图像中选取Mi幅视频图像作为训练与测试图像，则从L段视频可获得幅视频图像作为训练与测试图像。

在其中一些实施例中，为了清楚地拍摄到行人，摄像头的俯仰角不超过15度，摄像头在室内的安装高度一般为2-2.5米。在室外安装高度一般为3-3.5米。示例性的，实时视频检测的摄像头可以是200万像素，焦距为12mm，摄像头安装高度可以为2.3米左右，负责监控距离约15米左右的行人检测，为了获取更准确的行人流量数据，在道路的两边都装设摄像头，分别监测道路两个方向的行人。

在本实施例中，通过安装焦距、高度合理的摄像头，避免拍摄的目标太小及行人距离较近时互相遮挡的问题。在实际工程中摄像头的安装高度和角度会直接影响摄像头拍摄到的行人照片的清晰度，进而影响网络的检测精度，通过上述安装数据，能很大的提高网络的检测精度，上面数据是本实施例中经工程试验测试得到的较优角度和高度数据。

在其中一些实施例中，从一段视频中的N视频图像中选取M幅视频图像作为训练与测试图像方法的数据增强。

在本实施例中，可以通过几何变换增强数据：将采集每类中的P张目标图像通过平移、旋转图像(45°，90°，180°，270°)、缩小图像(1/3,1/2)、Mosaic数据增强和剪切变换来增加数据；将数据增强后的图像的一部分作为训练数据，另一部分作为测试数据，并且训练数据和测试数据不交叉。

在其中一些实施例中，在训练前对数据进行手动标注。具体地，在Windows操作***、linux操作***或者MAC操作***配置python和lxml环境之后，使用LabelImg标注工具得到待测目标的图像标签框，由标注人员对其进行边界框标注，将标注图像数据信息存为XML格式文件，生成的XML文件遵循PASCAL VOC的格式，根据训练模型框架的不同，可以把XML标注数据格式转化为和框架匹配的标签数据格式。

在本实施例中，本发明的已训练的目标检测模型是通过标注数据训练得到的，具体为，通过监控视频采集图像，对选取的图像中作为训练与测试的数据进行数据增强，将数据增强后的图像的一部分作为训练数据，另一部分作为测试数据，并且训练数据和测试数据不交叉。对数据进行标注，得到待测目标的图像标签框。

在其中一些实施例中，已训练的目标检测模型包括特征提取网络和预测网络；获取实时视频，从实时视频中提取图像帧，将图像帧输入到已训练的目标检测模型，得到已训练的目标检测模型输出的行人图像包括：获取实时视频；根据实时视频得到连续一段时间内同一地点的待检测图像；将待检测图像输入到特征提取网络中，经过特征提取网络中复数个残差模块，得到待检测图像的浅层特征图、中层特征图及深层特征图；其中，每个残差模块包括至少一个残差块，在残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图；将浅层特征图、中层特征图及深层特征图输入到预测网络中进行融合，得到待检测图像中的一个或多个行人图像。

在本实施例中，将待检测图像输入到特征提取网络中，根据输入到神经网络中视频图像分辨率实验测试网络的深度为D和宽度为W的一个具体值，特征提取网络的总体结构为：根据对网络深度、宽度和分辨率中的任何参数进行缩放都可以提高模型精度，随着网络深度加深(捕获到更丰富和更复杂的特征)、宽度增加(捕捉到更细粒度的特征从而易于训练)和输入网络的图像分辨率提高(捕捉到更细粒度的模式)，网络精度的回报会削弱；根据网络深度、宽度和分辨率这三个因素我们设计的特征提取网络倾向聚焦于更多细节相关领域。选定网络输入图像的分辨率为X*X，依据卷积运算的计算量，加倍网络深度会使浮点运算量加倍，而加倍网络宽度会使浮点运算量增加四倍，所以在确定输入图像分辨率后再选定网络深度D，最后在输入分辨率图像和网络深度均确定的情况下，选出特征提取网络的宽度W。

在其中一些实施例中，在残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图包括：将待检测图像进行1*1卷积升维后经过混合深度可分离卷积进行特征提取，输出特征图；将特征图分别输入到通道注意力模块和特征图注意力模块；在通道注意力模块对特征图进行池化、重塑、升维、特征压缩操作，将输出项与通道注意力模块的输入项相乘并进行降维卷积；在特征图注意力模块对特征图分组后经过混合深度可分离卷积进行特征提取，对每组的输出项进行拼接并进行降维卷积；将通道注意力模块和特征图注意力模块的得到的结果进行元素级相加操作，将残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图。

在本实施例中，参考图2，特征提取网络由一个一个的残差块构成，本发明的残差块先经过1*1的卷积输出通道为C个，C个通道均匀的划分为4份，每一份特征通道数为C/4，每隔C/4个特征通道对应一个深度可分离卷积。即，3*3对应C/4个特征通道，5*5对应C/4个特征通道，7*7对应C/4个特征通道，9*9对应C/4个特征通道。混合深度可分离卷积从3*3作为起始第一个，以2i+1(1＝<i<＝4)的方式增加卷积核的大小并且本发明所用最大深度可分离卷为9*9，然后对混合深度可分离卷积的输出结果进行1*1的卷积操作、批量归一化操作和H-Swish的激活函数操作；对输出的C个通道特征分别对其进行通道注意力机制和特征图注意力机制，通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图。

在其中一些实施例中，将待检测图像输入到特征提取网络中，经过特征提取网络中复数个残差模块，得到图像的浅层特征图、中层特征图及深层特征图；包括：将图像输入到特征提取网络中；其中，图像缩放为宽高一样的大小的三通道图；将三通道图经过3*3卷积后输入到残差网络中，其中，残差网络包括从输入端至输出端的第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块、第六残差模块以及第七残差模块，第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块、第六残差模块以及第七残差模块中分别对应残差块的数量为1个、2个、2个、3个、3个、4个以及1个；在第四残差模块得到浅层特征图作为预测小目标的特征，在第五残差模块得到中层特征图作为预测中目标的特征，在第六残差模块得到深层特征图作为预测大目标的特征。

在其中一些实施例中，在通道注意力模块对特征图进行池化、重塑、升维、特征压缩操作，将输出项与通道注意力模块的输入项相乘并进行降维卷积包括：在通道注意力模块对特征图进行全局平均池化操作；重塑特征图，重塑后的特征图用1*1卷积升维；对升维后特征图用1*1卷积压缩其特征通道数；对特征通道数进行通道数扩张，得到输出项；其中，输出项为一维特征向量；将一维特征向量与特征图相乘，用1*1卷积进行特征融合。

在其中一些实施例中，在特征图注意力模块对特征图分组后经过混合深度可分离卷积进行特征提取，对每组的输出项进行拼接并进行降维卷积包括：将特征图分为四组，经过混合深度可分离卷积进行特征提取；其中，混合深度可分离卷积从3*3作为起始第一个卷积核，以2i+1(1＝<i<＝4)的方式增加卷积核的大小；对混合深度可分离卷积的输出结果进行1*1的卷积操作，得到分离的四组卷积；对分离的四组卷积进行元素级相加、全局平均池化、分离出四组全连接层和获取对应的四组Softmax的值的操作，将获取的四组Softmax的值分别和对应的特征进行元素级相乘，将元素级相乘得到的四组特征进行元素级相加，将元素级相加得到的结果用1*1卷积进行特征融合。

在其中一些实施例中，预测网络为交叉双向特征金字塔模块。

在本实施例中，参考图3，在第三残差模块和第七残差模块的输出设置三个融合单元进行相邻两层或三层特征融合；在第四残差模块、第五残差模块和第六残差模块设置七个融合单元且每层的分辨率相等，在第四残差模块、第五残差模块和第六残差模块的倒数第二个融合单元将特征图融合到一起，融合单元的融合方法为上采样或者下采样；在第四残差模块、第五残差模块、第六残差模块的融合单元后面分别接一个头部预测模块，通过头部预测模块得到待检测图像中行人的位置、行人的包围框的大小以及置信度。值得一提的是，在本实施例中，预测网络通过EfficientDet特征金字塔网络中加入交叉双向聚合尺度模块，把相邻的多个尺度的特征进行融合。参考图3，在倒数第二个特征融合单元聚合了三个尺度的局部上下文信息，深层特征包含较多的语义信息，还有足够大的感受野，浅层特征包含更多的细节信息，这样的融合方式更加接近全局特征和局部特征融合的目的，以生成更具区分性的特征。

在步骤101当中，参考图2-图3，此部分残差块中采用了特征图通道注意力机制和卷积核注意力机制的结合，特征图通道注意力机制包括通道注意力模块和特征图注意力模块，学习并利用通道之间的相关性，筛选出了针对通道的注意力；卷积核注意力机制利用不同大小的感受视野(卷积核)对于不同尺度(远近、大小)的目标会有不同的效果，并在卷积核注意力机制中使用不通过大小的深度可分离卷积核，这样不但浮点运算量上减小，而且还可以获得不同大小的感受野，依此增强特征提取网络提取特征的能力，使行人能在视频图像中能被检测出来。完成特征的初步提取之后，为了使提取的特征更加具有高语义信息，在预测网络中设计了一个交叉双向特征金字塔模块，在倒数第二个特征融合单元聚合了三个尺度的局部上下文信息，深层特征包含较多的语义信息，还有足够大的感受野，浅层特征包含更多的细节信息，这样的融合方式更加接近全局特征和局部特征融合的目的，以生成更具区分性的特征。上述步骤通过加强特征提取网络的特征提取能力以及优化金字塔模块，能够针对监控视频状态下的目标特别是小目标，如远景中的行人进行目标检测，使其不会随着网络加深淹没在上下文背景中，提高了景区中行人属性识别结果的准确性。

步骤102、将行人图像输入到已训练的行人识别模型，根据预设的行人属性，得到已训练的行人识别模型输出的分类结果；其中，预设的行人属性包括性别属性、年龄属性。

在其中一些实施例中，可以将行人图像保存到行人数据文件夹中，每隔一段时间对行人数据文件夹中的行人图像进行处理，例如，获取一天的实时视频，将实时视频处理成一天内同一地点的行人图像，将行人图像保存到行人数据文件夹中并对其标注当日日期，对该行人数据文件夹中的行人图像进行处理，统计得到的即为当日的行人流量。

在其中一些实施例中，已训练的行人识别模型为已训练的目标检测模型中的已训练的特征提取网络。

在本实施例中，参考图5，行人识别模型的网络架构为去掉了回归模块的特征提取网络，即目标检测模型中的主干网络，在此不多作叙述。通过图2中的全局平均池化层和全连接层作为分类器，得到不同层次下对行人属性的预测值；对每个属性投票得到分类结果。具体地，在行人识别模型中可以通过多标签识别的方法，将标签设为男少年、男青年，男老年，女少年，女青年，女老年。文本标签的第一列可以为行人数据文件夹中的行人图像的路径，第二列为男性标签，第三列为女性标签，第四列为少年标签，第五列为青年标签，第六列为老年标签，判断每一行人图像的行人属性是否符合上述标签，是这个属性的，标签为1，不是这个属性的，标签取0，最后分类得到每一行人图像的性别属性和年龄属性。

步骤103、根据分类结果得到不同性别属性和不同年龄属性的行人人数及所占比例。

示例性的，可以每天统计一次各属性的行人流量，将统计的结果作为当天的不同属性的行人流量。与行人数据文件夹对应的，可以每日生成一个行人流量文本并以当天日期命名。

在本实施例中，通过统计各属性的行人数量，得到不同属性的行人流量信息，通过监控不同属性的行人流量的信息，能够合理地规划交流流畅性和商业服务范围。

在其中一些实施例中，根据分类结果得到不同性别属性和不同年龄属性的行人人数及所占比例包括：将分类结果保存到行人属性文本中，统计行人属性文本中的分类结果的词频，得到不同性别属性和不同年龄属性的行人人数及所占比例；其中，性别属性包括男性、女性；年龄属性包括少年、青年、老年。

在本实施例中，将分类结果保存到行人属性文本中，根据词频统计绘制统计图表，例如，通过长条形、折线或者圆饼图提升统计结果的可读性。示例性的，根据词频统计画出柱状图，横坐标为男性、女性、男少年、男青年、男老年、女少年、女青年、女老年，纵坐标为文本中出现词频的个数，根据属性对应的词频出现的个数归纳出这个观光景点受欢迎的人群。

通过上述步骤101至步骤103，本发明提供了行人属性的识别方法，可以根据输入的图像的分辨率在特征提取部分加深网络和加宽网络，加深网络能对特征逐层的抽象，不断精炼提取知识，而加宽网络可以让每一层学习到更加丰富的特征，比如不同方向、不同频率的纹理特征，完成特征的初步提取之后，把相邻的多个尺度的特征进行融合，使倒数第二个特征融合单元聚合了三个尺度的局部上下文信息，不仅获得了较多的语义信息，还包含了更多的细节信息，提高了模型的特征提取精度。与现有技术相比，本发明在单个残差块内结合了特征图通道注意力机制和卷积核注意力机制，其中，特征图通道注意力机制包括通道注意力模块和特征图注意力模块，用来学习并利用通道之间的相关性，筛选出了针对通道的注意力；卷积核注意力机制利用不同大小的感受视野(卷积核)对于不同尺度(远近、大小)的目标会有不同的效果，并在卷积核注意力机制中使用不通过大小的深度可分离卷积核，这样不但浮点运算量上减小，而且还可以获得不同大小的感受野，依此增强特征提取网路提取特征的能力，使行人能在视频图像中能被检测出来。在完成特征的初步提取之后，经过交叉双向特征金字塔进行特征融合，能够针对监控视频下小目标进行目标检测，使其不会随着网络加深淹没在上下文背景中，能提升目标检测精度。通过本发明，可以在实时视频中提取出行人图像，将行人图像的的属性进行分类，得到不同属性的行人流量信息，通过监控不同属性的行人流量的信息，能够合理地规划交流流畅性和商业服务范围。此外，不同属性的行人流量间接地显示了观光景点受欢迎程度和受欢迎群体，能有效分配观光景点的管理和维护人员，以及对流量比较大的区域采取预防突发事件的措施。

基于相同的技术构思，图6示例性的示出了了本发明实施例提供的行人属性的识别***，包括：

获取模块20，用于从实时视频中提取图像帧，将图像帧输入到已训练的目标检测模型，得到已训练的目标检测模型输出的行人图像。

识别模块22，用于将行人图像输入到已训练的行人识别模型，根据预设的行人属性，得到已训练的行人识别模型输出的分类结果；其中，预设的行人属性包括性别属性、年龄属性。

计数模块24，用于根据分类结果得到不同性别属性和不同年龄属性的行人人数及所占比例。

本实施例还提供了一种电子装置，包括存储器304和处理器302，该存储器304中存储有计算机程序，该处理器302被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器302可以包括中央处理器(CPU)，或者特定集成电路(ApplicationSpecificIntegratedCircuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器304可以包括用于数据或指令的大容量存储器304。举例来说而非限制，存储器304可包括硬盘驱动器(HardDiskDrive，简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器304可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器304可在数据处理装置的内部或外部。在特定实施例中，存储器304是非易失性(Non-Volatile)存储器。在特定实施例中，存储器304包括只读存储器(Read-OnlyMemory，简称为ROM)和随机存取存储器(RandomAccessMemory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory，简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory，简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory，简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器304

(FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory，简称SDRAM)等。

存储器304可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器302所执行的可能的计算机程序指令。

处理器302通过读取并执行存储器304中存储的计算机程序指令，以实现上述实施例中的任意行人属性的识别方法。

可选地，上述电子装置还可以包括传输设备306以及输入输出设备308，其中，该传输设备306和上述处理器302连接，该输入输出设备308和上述处理器302连接。

传输设备306可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备306可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

输入输出设备308用于输入或输出信息。例如，上述输入输出设备可以是显示屏、音箱、麦克、鼠标、键盘或其他设备。在本实施例中，输入的信息可以是实时视频，输入的信息可以是分类结果、统计图表等等。

可选地，在本实施例中，上述处理器302可以被设置为通过计算机程序执行以下步骤：

S101、从实时视频中提取图像帧，将图像帧输入到已训练的目标检测模型，得到已训练的目标检测模型输出的行人图像；

S102、将行人图像输入到已训练的行人识别模型，根据预设的行人属性，得到已训练的行人识别模型输出的分类结果；其中，预设的行人属性包括性别属性、年龄属性；

S103、根据分类结果得到不同性别属性和不同年龄属性的行人人数及所占比例。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的行人属性的识别方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意行人属性的识别方法。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种行人属性的识别方法，其特征在于，所述方法包括：

获取实时视频，从所述实时视频中提取图像帧，将所述图像帧输入到已训练的目标检测模型，得到所述已训练的目标检测模型输出的行人图像；其中，所述已训练的目标检测模型为利用行人图像样本集训练后获得的用于行人目标检测的神经网络模型；

将所述行人图像输入到已训练的行人识别模型，根据预设的行人属性，得到所述已训练的行人识别模型输出的分类结果；其中，所述预设的行人属性包括性别属性、年龄属性；

根据所述分类结果得到不同性别属性和不同年龄属性的行人人数及所占比例。

2.根据权利要求1所述的行人属性的识别方法，其特征在于，所述已训练的目标检测模型包括特征提取网络和预测网络；

获取实时视频，从所述实时视频中提取图像帧，将所述图像帧输入到已训练的目标检测模型，得到所述已训练的目标检测模型输出的行人图像包括：

获取实时视频；

根据所述实时视频得到连续一段时间内同一地点的待检测图像；

将所述待检测图像输入到特征提取网络中，经过所述特征提取网络中复数个残差模块，得到所述待检测图像的浅层特征图、中层特征图及深层特征图；其中，每个所述残差模块包括至少一个残差块，在所述残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图；

将所述浅层特征图、所述中层特征图及所述深层特征图输入到预测网络中进行融合，得到所述待检测图像中的一个或多个行人图像。

3.根据权利要求2所述的行人属性的识别方法，其特征在于，在所述残差块中通过学习和利用特征图通道之间的相关性，筛选出针对通道的注意力，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图包括：

将所述待检测图像进行1*1卷积升维后经过混合深度可分离卷积进行特征提取，输出特征图；

将所述特征图分别输入到通道注意力模块和特征图注意力模块；

在所述通道注意力模块对所述特征图进行池化、重塑、升维、特征压缩操作，将输出项与所述通道注意力模块的输入项相乘并进行降维卷积；

在所述特征图注意力模块对所述特征图分组后经过混合深度可分离卷积进行特征提取，对每组的输出项进行拼接并进行降维卷积；

将所述通道注意力模块和所述特征图注意力模块的得到的结果进行元素级相加操作，将所述残差块的输出项和旁路连接支路的特征图进行拼接作为下一个残差块的输入特征图。

4.根据权利要求2所述的行人属性的识别方法，其特征在于，所述预测网络为交叉双向特征金字塔模块。

5.根据权利要求4所述的行人属性的识别方法，其特征在于，将所述待检测图像输入到所述已训练的特征提取网络中；其中，所述待检测图像为三通道图；

将所述三通道图经过3*3卷积后输入到残差网络中，其中，所述残差网络包括从输入端至输出端的第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块、第六残差模块以及第七残差模块，所述第一残差模块、所述第二残差模块、所述第三残差模块、所述第四残差模块、所述第五残差模块、所述第六残差模块以及所述第七残差模块中分别对应残差块的数量为1个、2个、2个、3个、3个、4个以及1个；

在所述第四残差模块得到浅层特征图，在所述第五残差模块得到中层特征图，在所述第六残差模块得到深层特征图；

在所述第三残差模块和所述第七残差模块的输出设置三个融合单元进行相邻两层或三层特征融合；在所述第四残差模块、所述第五残差模块和所述第六残差模块设置七个融合单元且每层的分辨率相等，在所述第四残差模块、所述第五残差模块和所述第六残差模块的倒数第二个融合单元将特征图融合到一起，所述融合单元的融合方法为上采样或者下采样；

在所述第四残差模块、所述第五残差模块、所述第六残差模块的所述融合单元后面分别接一个头部预测模块，通过所述头部预测模块得到所述待检测图像中待测目标的位置、待测目标包围框的大小以及置信度。

6.根据权利要求2所述的行人属性的识别方法，其特征在于，所述已训练的行人识别模型为所述已训练的目标检测模型中的所述已训练的特征提取网络。

7.根据权利要求1所述的行人属性的识别方法，其特征在于，根据所述分类结果得到不同性别属性和不同年龄属性的行人人数及所占比例包括：

将所述分类结果保存到行人属性文本中，统计所述行人属性文本中的所述分类结果的词频，得到不同性别属性和不同年龄属性的行人人数及所占比例；其中，所述性别属性包括男性、女性；所述年龄属性包括少年、青年、老年。

8.一种行人属性的识别***，其特征在于，包括：

获取模块，用于获取实时视频，从所述实时视频中提取图像帧，将所述图像帧输入到已训练的目标检测模型，得到所述已训练的目标检测模型输出的行人图像；

识别模块，用于将所述行人图像输入到已训练的行人识别模型，根据预设的行人属性，得到所述已训练的行人识别模型输出的分类结果；其中，所述预设的行人属性包括性别属性、年龄属性；

计数模块，用于根据所述分类结果得到不同性别属性和不同年龄属性的行人人数及所占比例。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的行人属性的识别方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的行人属性的识别方法。