CN110705474B

CN110705474B - 一种行人属性识别方法和装置

Info

Publication number: CN110705474B
Application number: CN201910943815.6A
Authority: CN
Inventors: 胡晓林; 唐楚峰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2022-05-03
Anticipated expiration: 2039-09-30
Also published as: CN110705474A

Abstract

本公开涉及一种行人属性识别方法和装置。该方法包括：根据卷积神经网络对样本图像进行特征提取，得到多个初始特征层，样本图像为预设行人属性样本集中的图像，预设行人属性样本集中包括的图像具有多个行人属性；对多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层；根据空间变换网络和多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块，从而可以提高行人属性识别的精度和效率。

Description

一种行人属性识别方法和装置

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种行人属性识别方法和装置。

背景技术

行人属性识别(Pedestrian Attribute Recognition)，是指利用计算机来预测和分析图像中与行人有关的各类属性信息。常见的行人属性识别包括识别行人的性别、肤色、年龄、体态等宏观属性，也包括背包类型、衣服类型及颜色、裤子类型及颜色、当前动作等特定的人物属性。近年来，行人属性识别技术受到了广泛的关注，行人属性识别技术的研究工作在学术研究和工业应用等方面都有着极高的价值。现有的基于深度学习的行人属性识别算法主要包括“整体型”和“局部型”。其中“整体型”算法将行人属性识别问题看成多标签分类问题，通常使用卷积神经网络(CNN)在整张输入图片上提取所需的特征，在网络顶端使用全连接层进行属性预测，且所有属性共享特征。“局部型”算法则更关注输入图像中某些对分类预测重要的局部区域，预先训练好人体姿态估计模型来预测输入图像的人体关键点，再根据这些关键点粗略地定位出人体的头部、上身、下身等局部区域，从而指导属性分类。

发明内容

有鉴于此，本公开提出了一种行人属性识别方法和装置，从而有效提高行人属性识别的精度和效率。

根据本公开的第一方面，提供了一种行人属性识别方法，包括：根据卷积神经网络对样本图像进行特征提取，得到多个初始特征层，所述样本图像为预设行人属性样本集中的图像，所述预设行人属性样本集中包括的图像具有多个行人属性；对所述多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层；根据空间变换网络和所述多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。

在一种可能的实现方式中，对所述多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层，包括：针对最高层级初始特征层，将所述最高层级初始特征层直接确定为对应的复合特征层；针对非最高层级初始特征层，将所述非最高层级初始特征层与上一层级初始特征层对应的复合特征层进行特征融合，得到所述非最高层级初始特征层对应的复合特征层。

在一种可能的实现方式中，非最高层级初始特征层为φ_i，所述初始特征层φ_i的上一层级初始特征层为φ_i+1，所述初始特征层φ_i+1对应的复合特征层为X_i+1；针对非最高层级的初始特征层，将所述非最高层级的初始特征层与上一层级的初始特征层对应的复合特征层进行特征融合，得到所述非最高层级的初始特征层对应的复合特征层，包括：将所述复合特征层X_i+1进行上采样放大到与所述初始特征层φ_i的分辨率相同，得到上采样后的复合特征层X_i+1；将所述上采样后的复合特征层X_i+1与所述初始特征层φ_i按通道数拼接，得到所述初始特征层φ_i对应的复合特征层X_i，其中，所述复合特征层X_i的通道数是所述初始特征层φ_i+1和所述初始特征层φ_i的通道数之和。

在一种可能的实现方式中，根据空间变换网络和所述多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块，包括：针对任一行人属性，根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块，确定所述每个复合特征层上对所述行人属性的定位识别结果；针对任一行人属性，根据最高层级初始特征层，确定所述行人属性的全局识别结果；根据所述每个复合特征层上对所述每个行人属性的定位识别结果、所述每个行人属性的全局识别结果，以及所述样本图像中所述每个行人属性的真实属性标注，对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练，得到所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块。

在一种可能的实现方式中，针对任一行人属性，根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块，确定所述每个复合特征层上对所述行人属性的定位识别结果，包括：针对任一复合特征层，所述复合特征层上对所述行人属性进行定位识别的属性定位识别模块通过下述步骤确定所述复合特征层上对所述行人属性的定位识别结果：将所述复合特征层经过第一全连接层，得到变换参数s_x、s_y、t_x和t_y，其中，变换参数s_x为水平方向上的缩放变换参数，变换参数s_y为垂直方向上的缩放变换参数，变换参数t_x为水平方向上的平移变换参数，变换参数t_y为垂直方向上的平移变换参数；根据所述变换参数s_x、s_y、t_x和t_y，在所述复合特征层中确定所述行人属性对应的局部特征；将所述行人属性对应的局部特征经过第二全连接层，得到所述复合特征层上对所述行人属性的定位识别结果。

在一种可能的实现方式中，所述方法还包括：在将所述复合特征层经过第一全连接层之前，对所述复合特征层执行下述特征校准处理：将所述复合特征层依次经过全局平均池化层、1×1卷积层、ReLU激活层、1×1卷积层，以及Sigmoid激活层，得到第一校准向量；将所述复合特征层与所述第一校准向量按通道逐一相乘，得到第二校准向量；将所述复合特征层与所述第二校准向量逐元素相加，得到校准后的复合特征层。

在一种可能的实现方式中，根据所述变换参数s_x、s_y、t_x和t_y，在所述复合特征层中确定所述行人属性对应的局部特征，包括：根据所述变换参数s_x、s_y、t_x和t_y，在所述复合特征层中确定矩形边界框；在所述复合特征层中提取所述矩形边界框中的特征，确定为所述行人属性对应的局部特征。

在一种可能的实现方式中，根据所述每个复合特征层上对所述每个行人属性的定位识别结果、所述每个行人属性的全局识别结果，以及所述样本图像中所述每个行人属性的真实属性标注，对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练，得到所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块，包括：通过下述交叉熵损失函数对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练：

其中，

为第i个特征层的训练损失，M为所述多个行人属性的个数，y^m为第m个行人属性的真实属性标注，

为第i个特征层上对第m个行人属性的识别结果，γ^m为第m个行人属性的权重，σ为预设参数，第i个特征层为复合特征层或初始特征层。

在一种可能的实现方式中，所述方法还包括：针对任一行人属性，根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块，确定所述每个复合特征层上对所述测试图像中所述行人属性的定位识别结果；根据最高层级初始特征层，确定所述测试图像中所述行人属性的全局识别结果；根据所述每个复合特征层上对所述测试图像中所述行人属性的定位识别结果以及所述测试图像中所述行人属性的全局识别结果，确定所述测试图像中所述行人属性的属性识别结果。

根据本公开的第二方面，提供了一种行人属性识别装置，包括：特征提取模块，用于根据卷积神经网络对样本图像进行特征提取，得到多个初始特征层，所述样本图像为预设行人属性样本集中的图像，所述预设行人属性样本集中包括的图像具有多个行人属性；特征融合模块，用于对所述多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层；属性定位识别模块，用于根据空间变换网络和所述多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。

根据卷积神经网络对样本图像进行特征提取，得到多个初始特征层，样本图像为预设行人属性样本集中的图像，预设行人属性样本集中包括的图像具有多个行人属性；对多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层；根据空间变换网络和多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。本公开可以定位出每个行人属性在图像中对应的局部区域，进而基于局部特征识别行人属性，从而可以提高行人属性识别的精度和效率。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出本公开一实施例的行人属性识别方法的流程示意图；

图2示出本公开一实施例的行人属性识别***的示意图；

图3示出本公开一实施例的属性定位模块的示意图；

图4示出本公开一实施例的行人属性区域定位结果的示意图；

图5示出本公开一实施例的行人属性识别装置的结构示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出本公开一实施例的行人属性识别方法的流程示意图。如图1所示，该方法可以包括：

步骤S11，根据卷积神经网络对样本图像进行特征提取，得到多个初始特征层，样本图像为预设行人属性样本集中的图像，预设行人属性样本集中包括多个行人属性。

步骤S12，对多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层。

步骤S13，根据空间变换网络和多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。

本公开可以定位出每个行人属性在图像中对应的局部区域，进而基于局部特征识别行人属性，从而既可以提高行人属性识别的精度和效率，还可以显示地定位每个行人属性在图像中的语义区域，提高了行人属性识别算法的可解释性。

图2示出本公开一实施例的行人属性识别***的示意图。如图2所示，将预设行人属性样本集中已经预处理好的样本图像输入行人属性识别***，其中，样本图像中仅含有一个行人，且分辨率为预设值(例如，分辨率为256×128)。行人属性识别***可以输出针对多个行人属性的识别结果，其中，多个行人属性的数目可以由预设行人属性样本集设定。例如，常见的行人属性样本集中包括51个行人属性。针对任一行人属性，识别结果为该属性在原图像中是否存在。预设行人属性样本集中包括样本图像中每个行人属性的真实属性标注，即针对于样本图像，预先已知每个行人属性的真实识别结果。

下面详细介绍图2所示行人属性识别***的识别过程。

根据卷积神经网络对输入的样本图像进行特征提取，得到多个初始特征层。仍以上述图2为例，如图2所示，在基础骨干网络的三个不同位置进行特征提取，得到分辨率为32×16的初始特征层φ₁、分辨率为16×8的初始特征层φ₂，以及分辨率为8×4的初始特征层φ₃。

在深度卷积神经网络中，高层的特征通常具有更强的语义信息，但同时分辨率较低，导致缺乏细节信息；低层的特征通常包含丰富的细节且分辨率足够高，但抽象程度低、语义信息相对较弱。因此，对多个初始特征层进行自上而下的特征融合。

在一种可能的实现方式中，对多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层，包括：针对最高层级初始特征层，将最高层级初始特征层直接确定为对应的复合特征层；针对非最高层级初始特征层，将非最高层级初始特征层与上一层级初始特征层对应的复合特征层进行特征融合，得到非最高层级初始特征层对应的复合特征层。

在一种可能的实现方式中，非最高层级初始特征层为φ_i，初始特征层φ_i的上一层级初始特征层为φ_i+1，初始特征层φ_i+1对应的复合特征层为X_i+1；针对非最高层级的初始特征层，将非最高层级的初始特征层与上一层级的初始特征层对应的复合特征层进行特征融合，得到非最高层级的初始特征层对应的复合特征层，包括：将复合特征层X_i+1进行上采样放大到与初始特征层φ_i的分辨率相同，得到上采样后的复合特征层X_i+1；将上采样后的复合特征层X_i+1与初始特征层φ_i按通道数拼接，得到初始特征层φ_i对应的复合特征层X_i，其中，复合特征层X_i的通道数是初始特征层φ_i+1和所述初始特征层φ_i的通道数之和。

仍以上述图2为例，由于初始特征层φ₃是最高层级初始特征层，无需与其它特征层融合，将初始特征层φ₃直接确定为对应的复合特征层X₃；针对初始特征层φ₂，首先将复合特征层X₃(初始特征层φ₃)进行上采样放大到与初始特征层φ₂的分辨率(16×8)相同，进而将初始特征层φ₂与上采样后的复合特征层X₃按通道数拼接，得到初始特征层φ₂对应的复合特征层X₂；针对初始特征层φ₁，首先将复合特征层X₂进行上采样放大到与初始特征层φ₁的分辨率(32×16)相同，进而将初始特征层φ₁与上采样后的复合特征层X₂按通道数拼接，得到初始特征层φ₁对应的复合特征层X₁。假设初始特征层φ₁、初始特征层φ₂以及初始特征层φ₃的通道数均为256，则复合特征层X₁的通道数为768，复合特征层X₂的通道数为512，复合特征层X₃的通道数为256。

在一种可能的实现方式中，根据空间变换网络(STN)和多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块，包括：针对任一行人属性，根据每个复合特征层上对该行人属性进行定识别的属性定位识别模块，确定每个复合特征层上对该行人属性的定位识别结果；针对任一行人属性，根据最高层级初始特征层，确定该行人属性的全局识别结果；根据每个复合特征层上对每个行人属性的定位识别结果、每个行人属性的全局识别结果，以及样本图像中每个行人属性的真实属性标注，对每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块进行训练，得到每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。

在一种可能的实现方式中，针对任一行人属性，根据每个复合特征层上对该行人属性进行定位识别的属性定位识别模块，确定每个复合特征层上对该行人属性的定位识别结果，包括：针对任一复合特征层，该复合特征层上对该行人属性进行定位识别的属性定位识别模块通过下述步骤确定该复合特征层上对该行人属性的定位识别结果：将该复合特征层经过第一全连接层，得到变换参数s_x、s_y、t_x和t_y，其中，变换参数s_x为水平方向上的缩放变换参数，变换参数s_y为垂直方向上的缩放变换参数，变换参数t_x为水平方向上的平移变换参数，变换参数t_y为垂直方向上的平移变换参数；根据变换参数s_x、s_y、t_x和t_y，在该复合特征层中确定该行人属性对应的局部特征；将该行人属性对应的局部特征经过第二全连接层，得到该复合特征层上对该行人属性的定位识别结果。

在一种可能的实现方式中，方法还包括：在将复合特征层经过第一全连接层之前，对复合特征层执行下述特征校准处理：将复合特征层依次经过全局平均池化层、1×1卷积层、ReLU激活层、1×1卷积层，以及Sigmoid激活层，得到第一校准向量；将复合特征层与第一校准向量按通道逐一相乘，得到第二校准向量；将复合特征层与第二校准向量逐元素相加，得到校准后的复合特征层。

在一种可能的实现方式中，根据变换参数s_x、s_y、t_x和t_y，在复合特征层中确定行人属性对应的局部特征，包括：根据变换参数s_x、s_y、t_x和t_y，在复合特征层中确定矩形边界框；在复合特征层中提取矩形边界框中的特征，确定为行人属性对应的局部特征。

仍以上述图2为例，如图2所示，每个复合特征层对应M个属性定位识别模块(ALM)，M为多个行人属性的个数。图2所示的行人属性识别***中共包括3M个属性定位模块，每个属性定位模块仅作用于一个复合特征层和一个行人属性。

下面详细描述任一复合特征层中任一属性定位模块的具体定位识别过程。

图3示出本公开一实施例的属性定位模块的示意图。如图3所示，输入的复合特征层X_i首先经过一个全局平均池化层，将分辨率降成1×1，然后依次经过1×1卷积层、ReLU激活层、1×1卷积层进行特征处理，再然后经过一个Sigmoid激活层(常用的Sigmoid激活函数)得到第一校准向量；进而输入的复合特征层X_i与第一校准向量按通道逐一相乘，得到第二校准向量；最后输入的复合特征层X_i与第二校准向量逐元素相加，得到校准后的复合特征层。

校准后的复合特征层X_i首先经过第一全连接层(FC)，得到四个变换参数s_x、s_y、t_x和t_y，其中，变换参数s_x为水平方向上的缩放变换参数，变换参数s_y为垂直方向上的缩放变换参数，变换参数t_x为水平方向上的平移变换参数，变换参数t_y为垂直方向上的平移变换参数；根据四个变换参数s_x、s_y、t_x和t_y可以在校准后的复合特征层X_i上确定一个矩形边界框R；最后根据这个矩形边界框R从校准后的复合特征层X_i中提取这个矩形边界框R内的特征，确定为行人属性对应的局部特征，进而将该局部特征经过第二全连接层(FC)，以得到该属性定位识别模块的定位识别结果。

这个矩形边界框R可以显示地定位出行人属性在图像中的语义区域，提高了行人属性识别算法的可解释性。由于属性定位识别模块可以定位出行人属性在图像中对应的局部区域，进而基于局部特征识别行人属性，相比于全局识别可以降低计算量，从而提高行人属性识别的精度和效率。

图4示出本公开一实施例的行人属性区域定位结果的示意图。如图4所示，每个复合特征层均可以显示地定位出行人属性(塑料袋)的区域定位结果。

仍以上述图2为例，如图2所示，基于复合特征层X₁可以得到M个行人属性的定位识别结果，基于复合特征层X₂可以得到M个行人属性的定位识别结果，基于复合特征层X₃可以得到M个行人属性的定位识别结果。基于初始特征层φ₁、初始特征层φ₂以及初始特征层φ₃，可以得到M个行人属性的全局识别结果。

在训练过程中，为了更充分地训练不同特征层上的属性定位模块，使用所有属性定位模块的识别结果共同参与训练。

在一种可能的实现方式中，根据每个复合特征层上对每个行人属性的定位识别结果、每个行人属性的全局识别结果，以及样本图像中每个行人属性的真实属性标注，对每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块进行训练，得到每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块，包括：通过下述交叉熵损失函数对每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块进行训练：

其中，

仍以上述图2为例，基于复合特征层X₁得到的M个行人属性的定位识别结果和M个行人属性的真实属性标注，基于上述交叉熵函数得到复合特征层X₁的训练损失L₁；基于复合特征层X₂得到的M个行人属性的定位识别结果和M个行人属性的真实属性标注，基于上述交叉熵函数得到复合特征层X₂的训练损失L₂；基于复合特征层X₃得到的M个行人属性的定位识别结果和M个行人属性的真实属性标注，基于上述交叉熵函数得到复合特征层X₃的训练损失L₃；基于初始特征层φ₁、初始特征层φ₂以及初始特征层φ₃得到的M个行人属性的全局识别结果和M个行人属性的真实属性标注，基于上述交叉熵函数得到训练损失L₄。最终，属性定位识别***的损失L为多个特征层的训练损失之和，即，L＝L₁+L₂+L₃+L₄。

在一种可能的实现方式中，方法还包括：针对任一行人属性，根据每个复合特征层上对行人属性进行定位识别的属性定位识别模块，确定每个复合特征层上对测试图像中该行人属性的定位识别结果；根据最高层级初始特征层，确定测试图像中该行人属性的全局识别结果；根据每个复合特征层上对测试图像中该行人属性的定位识别结果以及测试图像中该行人属性的全局识别结果，确定测试图像中该行人属性的属性识别结果。

针对测试图像，根据卷积神经网络对测试图像进行特征提取，提取位置与对样本图像的特征提取位置相同，得到多个初始特征层。对多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层。

针对任一复合特征层，可以基于该复合特征层上每个行人属性对应的属性定位识别模块进行属性定位识别，得到该复合特征上对测试图像中每个行人属性的定位识别结果。基于最高层级初始特征层，可以确定测试图像中每个行人属性的全局识别结果，进而将测试图像中每个行人属性的定位识别结果和全局识别结果通过逐元素取最大值的方式确定测试图像中每个行人属性的属性识别结果。

例如，针对行人属性A，复合特征层X₁得到的定位识别结果为60％(即行人属性A在原图像中存在的概率为60％)，复合特征层X₂得到的定位识别结果为65％，复合特征层X₃得到的定位识别结果为55％，初始特征层φ₃得到的全局定位结果为48％，则行人属性的最终属性识别结果取最大值为65％，属性识别结果大于50％表示原图像中包含该属性，则根据最终属性识别结果可知原图像中包含行人属性A。

本公开提供的行人属性识别方法与其它四种现有的行人属性识别方法(DeepMar，GRL，VeSPA，PGDM)的识别指标对比如表1所示：

表1

其中,平均准确率和F1值是评估行人属性识别算法的常见指标，值越高代表精度越高；模型大小和识别速度反映算法的效率，越低越好。由此可知，相比于现有的行人属性识别算法，本公开的行人属性识别算法可以提高精度和效率。

图5示出本公开一实施例的行人属性识别装置的结构示意图。如图5所示，装置50包括：

特征提取模块51，用于根据卷积神经网络对样本图像进行特征提取，得到多个初始特征层，样本图像为预设行人属性样本集中的图像，预设行人属性样本集中包括的图像具有多个行人属性；

特征融合模块52，用于对多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层；

属性定位识别模块53，用于根据空间变换网络和多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。

在一种可能的实现方式中，特征融合模块52包括：

第一确定子模块，用于针对最高层级初始特征层，将最高层级初始特征层直接确定为对应的复合特征层；

特征融合子模块，用于针对非最高层级初始特征层，将非最高层级初始特征层与上一层级初始特征层对应的复合特征层进行特征融合，得到非最高层级初始特征层对应的复合特征层。

在一种可能的实现方式中，非最高层级初始特征层为φ_i，初始特征层φ_i的上一层级初始特征层为φ_i+1，初始特征层φ_i+1对应的复合特征层为X_i+1；

特征融合子模块具体用于：

将复合特征层X_i+1进行上采样放大到与初始特征层φ_i的分辨率相同，得到上采样后的复合特征层X_i+1；

将上采样后的复合特征层X_i+1与初始特征层φ_i按通道数拼接，得到初始特征层φ_i对应的复合特征层X_i，其中，复合特征层X_i的通道数是初始特征层φ_i+1和初始特征层φ_i的通道数之和。

在一种可能的实现方式中，属性定位识别模块53包括：

第二确定子模块，用于针对任一行人属性，根据每个复合特征层上对该行人属性进行定位识别的属性定位识别模块，确定每个复合特征层上对该行人属性的定位识别结果；

第三确定子模块，用于针对任一行人属性，根据最高层级初始特征层，确定该行人属性的全局识别结果；

第四确定子模块，用于根据每个复合特征层上对每个行人属性的定位识别结果、每个行人属性的全局识别结果，以及样本图像中每个行人属性的真实属性标注，对每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块进行训练，得到每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。

在一种可能的实现方式中，第二确定子模块具体用于：

针对任一复合特征层，该复合特征层上对该行人属性进行定位识别的属性定位识别模块通过下述步骤确定该复合特征层上对该行人属性的定位识别结果：

将该复合特征层经过第一全连接层，得到变换参数s_x、s_y、t_x和t_y，其中，变换参数s_x为水平方向上的缩放变换参数，变换参数s_y为垂直方向上的缩放变换参数，变换参数t_x为水平方向上的平移变换参数，变换参数t_y为垂直方向上的平移变换参数；

根据变换参数s_x、s_y、t_x和t_y，在该复合特征层中确定该行人属性对应的局部特征；

将该行人属性对应的局部特征经过第二全连接层，得到该复合特征层上对该行人属性的定位识别结果。

在一种可能的实现方式中，装置50还包括：特征校准子模块；

特征校准子模块具体用于：在将复合特征层经过第一全连接层之前，对复合特征层执行下述特征校准处理：

将复合特征层依次经过全局平均池化层、1×1卷积层、ReLU激活层、1×1卷积层，以及Sigmoid激活层，得到第一校准向量；

将复合特征层与第一校准向量按通道逐一相乘，得到第二校准向量；

将复合特征层与第二校准向量逐元素相加，得到校准后的复合特征层。

在一种可能的实现方式中，第二确定子模块具体用于：

根据变换参数s_x、s_y、t_x和t_y，在复合特征层中确定矩形边界框；

在复合特征层中提取矩形边界框中的特征，确定为行人属性对应的局部特征。

在一种可能的实现方式中，第四确定子模块具体用于：

通过下述交叉熵损失函数对每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块进行训练：

其中，

为第i个特征层的训练损失，M为多个行人属性的个数，y^m为第m个行人属性的真实属性标注，

在一种可能的实现方式中，装置50还包括：测试模块，具体用于：

针对任一行人属性，根据每个复合特征层上对行人属性进行定位识别的属性定位识别模块，确定每个复合特征层上对测试图像中该行人属性的定位识别结果；

根据最高层级初始特征层，确定测试图像中该行人属性的全局识别结果；

根据每个复合特征层上对测试图像中该行人属性的定位识别结果以及测试图像中该行人属性的全局识别结果，确定测试图像中该行人属性的属性识别结果。

本公开提供的装置50能够实现图1-图3所示方法实施例中的各个步骤，并实现相同的技术效果，为避免重复，这里不再赘述。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种行人属性识别方法，其特征在于，包括：

根据卷积神经网络对样本图像进行特征提取，得到多个初始特征层，所述样本图像为预设行人属性样本集中的图像，所述预设行人属性样本集中包括的图像具有多个行人属性；

对所述多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层；

根据空间变换网络和所述多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块；

其中，根据空间变换网络和所述多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块，包括：

针对任一行人属性，根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块，确定所述每个复合特征层上对所述行人属性的定位识别结果；

针对任一行人属性，根据最高层级初始特征层，确定所述行人属性的全局识别结果；

根据所述每个复合特征层上对所述每个行人属性的定位识别结果、所述每个行人属性的全局识别结果，以及所述样本图像中所述每个行人属性的真实属性标注，对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练，得到所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块。

2.根据权利要求1所述的方法，其特征在于，对所述多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层，包括：

针对最高层级初始特征层，将所述最高层级初始特征层直接确定为对应的复合特征层；

针对非最高层级初始特征层，将所述非最高层级初始特征层与上一层级初始特征层对应的复合特征层进行特征融合，得到所述非最高层级初始特征层对应的复合特征层。

3.根据权利要求2所述的方法，其特征在于，非最高层级初始特征层为φ_i，所述初始特征层φ_i的上一层级初始特征层为φ_i+1，所述初始特征层φ_i+1对应的复合特征层为X_i+1；

针对非最高层级初始特征层，将所述非最高层级初始特征层与上一层级初始特征层对应的复合特征层进行特征融合，得到所述非最高层级初始特征层对应的复合特征层，包括：

将所述复合特征层X_i+1进行上采样放大到与所述初始特征层φ_i的分辨率相同，得到上采样后的复合特征层X_i+1；

将所述上采样后的复合特征层X_i+1与所述初始特征层φ_i按通道数拼接，得到所述初始特征层φ_i对应的复合特征层X_i，其中，所述复合特征层X_i的通道数是所述初始特征层φ_i+1和所述初始特征层φ_i的通道数之和。

4.根据权利要求1所述的方法，其特征在于，针对任一行人属性，根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块，确定所述每个复合特征层上对所述行人属性的定位识别结果，包括：

针对任一复合特征层，所述复合特征层上对所述行人属性进行定位识别的属性定位识别模块通过下述步骤确定所述复合特征层上对所述行人属性的定位识别结果：

将所述复合特征层经过第一全连接层，得到变换参数s_x、s_y、t_x和t_y，其中，变换参数s_x为水平方向上的缩放变换参数，变换参数s_y为垂直方向上的缩放变换参数，变换参数t_x为水平方向上的平移变换参数，变换参数t_y为垂直方向上的平移变换参数；

根据所述变换参数s_x、s_y、t_x和t_y，在所述复合特征层中确定所述行人属性对应的局部特征；

将所述行人属性对应的局部特征经过第二全连接层，得到所述复合特征层上对所述行人属性的定位识别结果。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在将所述复合特征层经过第一全连接层之前，对所述复合特征层执行下述特征校准处理：

将所述复合特征层依次经过全局平均池化层、1×1卷积层、ReLU激活层、1×1卷积层，以及Sigmoid激活层，得到第一校准向量；

将所述复合特征层与所述第一校准向量按通道逐一相乘，得到第二校准向量；

将所述复合特征层与所述第二校准向量逐元素相加，得到校准后的复合特征层。

6.根据权利要求4所述的方法，其特征在于，根据所述变换参数s_x、s_y、t_x和t_y，在所述复合特征层中确定所述行人属性对应的局部特征，包括：

根据所述变换参数s_x、s_y、t_x和t_y，在所述复合特征层中确定矩形边界框；

在所述复合特征层中提取所述矩形边界框中的特征，确定为所述行人属性对应的局部特征。

7.根据权利要求1所述的方法，其特征在于，根据所述每个复合特征层上对所述每个行人属性的定位识别结果、所述每个行人属性的全局识别结果，以及所述样本图像中所述每个行人属性的真实属性标注，对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练，得到所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块，包括：

通过下述交叉熵损失函数对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练：

其中，

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对任一行人属性，根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块，确定所述每个复合特征层上对测试图像中所述行人属性的定位识别结果；

根据最高层级初始特征层，确定所述测试图像中所述行人属性的全局识别结果；

根据所述每个复合特征层上对所述测试图像中所述行人属性的定位识别结果以及所述测试图像中所述行人属性的全局识别结果，确定所述测试图像中所述行人属性的属性识别结果。

9.一种行人属性识别装置，其特征在于，包括：

特征提取模块，用于根据卷积神经网络对样本图像进行特征提取，得到多个初始特征层，所述样本图像为预设行人属性样本集中的图像，所述预设行人属性样本集中包括的图像具有多个行人属性；

特征融合模块，用于对所述多个初始特征层进行自上而下的逐层特征融合，得到多个复合特征层；

属性定位识别模块，用于根据空间变换网络和所述多个复合特征层，确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块；

其中，所述属性定位识别模块包括：

第二确定子模块，用于针对任一行人属性，根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块，确定所述每个复合特征层上对所述行人属性的定位识别结果；

第三确定子模块，用于针对任一行人属性，根据最高层级初始特征层，确定所述行人属性的全局识别结果；

第四确定子模块，用于根据所述每个复合特征层上对所述每个行人属性的定位识别结果、所述每个行人属性的全局识别结果，以及所述样本图像中所述每个行人属性的真实属性标注，对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练，得到所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块。