CN110705474B - 一种行人属性识别方法和装置 - Google Patents

一种行人属性识别方法和装置 Download PDF

Info

Publication number
CN110705474B
CN110705474B CN201910943815.6A CN201910943815A CN110705474B CN 110705474 B CN110705474 B CN 110705474B CN 201910943815 A CN201910943815 A CN 201910943815A CN 110705474 B CN110705474 B CN 110705474B
Authority
CN
China
Prior art keywords
layer
attribute
pedestrian
composite
positioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910943815.6A
Other languages
English (en)
Other versions
CN110705474A (zh
Inventor
胡晓林
唐楚峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910943815.6A priority Critical patent/CN110705474B/zh
Publication of CN110705474A publication Critical patent/CN110705474A/zh
Application granted granted Critical
Publication of CN110705474B publication Critical patent/CN110705474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种行人属性识别方法和装置。该方法包括:根据卷积神经网络对样本图像进行特征提取,得到多个初始特征层,样本图像为预设行人属性样本集中的图像,预设行人属性样本集中包括的图像具有多个行人属性;对多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层;根据空间变换网络和多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块,从而可以提高行人属性识别的精度和效率。

Description

一种行人属性识别方法和装置
技术领域
本公开涉及计算机视觉技术领域,尤其涉及一种行人属性识别方法和装置。
背景技术
行人属性识别(Pedestrian Attribute Recognition),是指利用计算机来预测和分析图像中与行人有关的各类属性信息。常见的行人属性识别包括识别行人的性别、肤色、年龄、体态等宏观属性,也包括背包类型、衣服类型及颜色、裤子类型及颜色、当前动作等特定的人物属性。近年来,行人属性识别技术受到了广泛的关注,行人属性识别技术的研究工作在学术研究和工业应用等方面都有着极高的价值。现有的基于深度学习的行人属性识别算法主要包括“整体型”和“局部型”。其中“整体型”算法将行人属性识别问题看成多标签分类问题,通常使用卷积神经网络(CNN)在整张输入图片上提取所需的特征,在网络顶端使用全连接层进行属性预测,且所有属性共享特征。“局部型”算法则更关注输入图像中某些对分类预测重要的局部区域,预先训练好人体姿态估计模型来预测输入图像的人体关键点,再根据这些关键点粗略地定位出人体的头部、上身、下身等局部区域,从而指导属性分类。
发明内容
有鉴于此,本公开提出了一种行人属性识别方法和装置,从而有效提高行人属性识别的精度和效率。
根据本公开的第一方面,提供了一种行人属性识别方法,包括:根据卷积神经网络对样本图像进行特征提取,得到多个初始特征层,所述样本图像为预设行人属性样本集中的图像,所述预设行人属性样本集中包括的图像具有多个行人属性;对所述多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层;根据空间变换网络和所述多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。
在一种可能的实现方式中,对所述多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层,包括:针对最高层级初始特征层,将所述最高层级初始特征层直接确定为对应的复合特征层;针对非最高层级初始特征层,将所述非最高层级初始特征层与上一层级初始特征层对应的复合特征层进行特征融合,得到所述非最高层级初始特征层对应的复合特征层。
在一种可能的实现方式中,非最高层级初始特征层为φi,所述初始特征层φi的上一层级初始特征层为φi+1,所述初始特征层φi+1对应的复合特征层为Xi+1;针对非最高层级的初始特征层,将所述非最高层级的初始特征层与上一层级的初始特征层对应的复合特征层进行特征融合,得到所述非最高层级的初始特征层对应的复合特征层,包括:将所述复合特征层Xi+1进行上采样放大到与所述初始特征层φi的分辨率相同,得到上采样后的复合特征层Xi+1;将所述上采样后的复合特征层Xi+1与所述初始特征层φi按通道数拼接,得到所述初始特征层φi对应的复合特征层Xi,其中,所述复合特征层Xi的通道数是所述初始特征层φi+1和所述初始特征层φi的通道数之和。
在一种可能的实现方式中,根据空间变换网络和所述多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块,包括:针对任一行人属性,根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块,确定所述每个复合特征层上对所述行人属性的定位识别结果;针对任一行人属性,根据最高层级初始特征层,确定所述行人属性的全局识别结果;根据所述每个复合特征层上对所述每个行人属性的定位识别结果、所述每个行人属性的全局识别结果,以及所述样本图像中所述每个行人属性的真实属性标注,对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练,得到所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块。
在一种可能的实现方式中,针对任一行人属性,根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块,确定所述每个复合特征层上对所述行人属性的定位识别结果,包括:针对任一复合特征层,所述复合特征层上对所述行人属性进行定位识别的属性定位识别模块通过下述步骤确定所述复合特征层上对所述行人属性的定位识别结果:将所述复合特征层经过第一全连接层,得到变换参数sx、sy、tx和ty,其中,变换参数sx为水平方向上的缩放变换参数,变换参数sy为垂直方向上的缩放变换参数,变换参数tx为水平方向上的平移变换参数,变换参数ty为垂直方向上的平移变换参数;根据所述变换参数sx、sy、tx和ty,在所述复合特征层中确定所述行人属性对应的局部特征;将所述行人属性对应的局部特征经过第二全连接层,得到所述复合特征层上对所述行人属性的定位识别结果。
在一种可能的实现方式中,所述方法还包括:在将所述复合特征层经过第一全连接层之前,对所述复合特征层执行下述特征校准处理:将所述复合特征层依次经过全局平均池化层、1×1卷积层、ReLU激活层、1×1卷积层,以及Sigmoid激活层,得到第一校准向量;将所述复合特征层与所述第一校准向量按通道逐一相乘,得到第二校准向量;将所述复合特征层与所述第二校准向量逐元素相加,得到校准后的复合特征层。
在一种可能的实现方式中,根据所述变换参数sx、sy、tx和ty,在所述复合特征层中确定所述行人属性对应的局部特征,包括:根据所述变换参数sx、sy、tx和ty,在所述复合特征层中确定矩形边界框;在所述复合特征层中提取所述矩形边界框中的特征,确定为所述行人属性对应的局部特征。
在一种可能的实现方式中,根据所述每个复合特征层上对所述每个行人属性的定位识别结果、所述每个行人属性的全局识别结果,以及所述样本图像中所述每个行人属性的真实属性标注,对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练,得到所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块,包括:通过下述交叉熵损失函数对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练:
Figure BDA0002223645950000041
其中,
Figure BDA0002223645950000042
为第i个特征层的训练损失,M为所述多个行人属性的个数,ym为第m个行人属性的真实属性标注,
Figure BDA0002223645950000043
为第i个特征层上对第m个行人属性的识别结果,γm为第m个行人属性的权重,σ为预设参数,第i个特征层为复合特征层或初始特征层。
在一种可能的实现方式中,所述方法还包括:针对任一行人属性,根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块,确定所述每个复合特征层上对所述测试图像中所述行人属性的定位识别结果;根据最高层级初始特征层,确定所述测试图像中所述行人属性的全局识别结果;根据所述每个复合特征层上对所述测试图像中所述行人属性的定位识别结果以及所述测试图像中所述行人属性的全局识别结果,确定所述测试图像中所述行人属性的属性识别结果。
根据本公开的第二方面,提供了一种行人属性识别装置,包括:特征提取模块,用于根据卷积神经网络对样本图像进行特征提取,得到多个初始特征层,所述样本图像为预设行人属性样本集中的图像,所述预设行人属性样本集中包括的图像具有多个行人属性;特征融合模块,用于对所述多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层;属性定位识别模块,用于根据空间变换网络和所述多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。
根据卷积神经网络对样本图像进行特征提取,得到多个初始特征层,样本图像为预设行人属性样本集中的图像,预设行人属性样本集中包括的图像具有多个行人属性;对多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层;根据空间变换网络和多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。本公开可以定位出每个行人属性在图像中对应的局部区域,进而基于局部特征识别行人属性,从而可以提高行人属性识别的精度和效率。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出本公开一实施例的行人属性识别方法的流程示意图;
图2示出本公开一实施例的行人属性识别***的示意图;
图3示出本公开一实施例的属性定位模块的示意图;
图4示出本公开一实施例的行人属性区域定位结果的示意图;
图5示出本公开一实施例的行人属性识别装置的结构示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出本公开一实施例的行人属性识别方法的流程示意图。如图1所示,该方法可以包括:
步骤S11,根据卷积神经网络对样本图像进行特征提取,得到多个初始特征层,样本图像为预设行人属性样本集中的图像,预设行人属性样本集中包括多个行人属性。
步骤S12,对多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层。
步骤S13,根据空间变换网络和多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。
本公开可以定位出每个行人属性在图像中对应的局部区域,进而基于局部特征识别行人属性,从而既可以提高行人属性识别的精度和效率,还可以显示地定位每个行人属性在图像中的语义区域,提高了行人属性识别算法的可解释性。
图2示出本公开一实施例的行人属性识别***的示意图。如图2所示,将预设行人属性样本集中已经预处理好的样本图像输入行人属性识别***,其中,样本图像中仅含有一个行人,且分辨率为预设值(例如,分辨率为256×128)。行人属性识别***可以输出针对多个行人属性的识别结果,其中,多个行人属性的数目可以由预设行人属性样本集设定。例如,常见的行人属性样本集中包括51个行人属性。针对任一行人属性,识别结果为该属性在原图像中是否存在。预设行人属性样本集中包括样本图像中每个行人属性的真实属性标注,即针对于样本图像,预先已知每个行人属性的真实识别结果。
下面详细介绍图2所示行人属性识别***的识别过程。
根据卷积神经网络对输入的样本图像进行特征提取,得到多个初始特征层。仍以上述图2为例,如图2所示,在基础骨干网络的三个不同位置进行特征提取,得到分辨率为32×16的初始特征层φ1、分辨率为16×8的初始特征层φ2,以及分辨率为8×4的初始特征层φ3
在深度卷积神经网络中,高层的特征通常具有更强的语义信息,但同时分辨率较低,导致缺乏细节信息;低层的特征通常包含丰富的细节且分辨率足够高,但抽象程度低、语义信息相对较弱。因此,对多个初始特征层进行自上而下的特征融合。
在一种可能的实现方式中,对多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层,包括:针对最高层级初始特征层,将最高层级初始特征层直接确定为对应的复合特征层;针对非最高层级初始特征层,将非最高层级初始特征层与上一层级初始特征层对应的复合特征层进行特征融合,得到非最高层级初始特征层对应的复合特征层。
在一种可能的实现方式中,非最高层级初始特征层为φi,初始特征层φi的上一层级初始特征层为φi+1,初始特征层φi+1对应的复合特征层为Xi+1;针对非最高层级的初始特征层,将非最高层级的初始特征层与上一层级的初始特征层对应的复合特征层进行特征融合,得到非最高层级的初始特征层对应的复合特征层,包括:将复合特征层Xi+1进行上采样放大到与初始特征层φi的分辨率相同,得到上采样后的复合特征层Xi+1;将上采样后的复合特征层Xi+1与初始特征层φi按通道数拼接,得到初始特征层φi对应的复合特征层Xi,其中,复合特征层Xi的通道数是初始特征层φi+1和所述初始特征层φi的通道数之和。
仍以上述图2为例,由于初始特征层φ3是最高层级初始特征层,无需与其它特征层融合,将初始特征层φ3直接确定为对应的复合特征层X3;针对初始特征层φ2,首先将复合特征层X3(初始特征层φ3)进行上采样放大到与初始特征层φ2的分辨率(16×8)相同,进而将初始特征层φ2与上采样后的复合特征层X3按通道数拼接,得到初始特征层φ2对应的复合特征层X2;针对初始特征层φ1,首先将复合特征层X2进行上采样放大到与初始特征层φ1的分辨率(32×16)相同,进而将初始特征层φ1与上采样后的复合特征层X2按通道数拼接,得到初始特征层φ1对应的复合特征层X1。假设初始特征层φ1、初始特征层φ2以及初始特征层φ3的通道数均为256,则复合特征层X1的通道数为768,复合特征层X2的通道数为512,复合特征层X3的通道数为256。
在一种可能的实现方式中,根据空间变换网络(STN)和多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块,包括:针对任一行人属性,根据每个复合特征层上对该行人属性进行定识别的属性定位识别模块,确定每个复合特征层上对该行人属性的定位识别结果;针对任一行人属性,根据最高层级初始特征层,确定该行人属性的全局识别结果;根据每个复合特征层上对每个行人属性的定位识别结果、每个行人属性的全局识别结果,以及样本图像中每个行人属性的真实属性标注,对每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块进行训练,得到每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。
在一种可能的实现方式中,针对任一行人属性,根据每个复合特征层上对该行人属性进行定位识别的属性定位识别模块,确定每个复合特征层上对该行人属性的定位识别结果,包括:针对任一复合特征层,该复合特征层上对该行人属性进行定位识别的属性定位识别模块通过下述步骤确定该复合特征层上对该行人属性的定位识别结果:将该复合特征层经过第一全连接层,得到变换参数sx、sy、tx和ty,其中,变换参数sx为水平方向上的缩放变换参数,变换参数sy为垂直方向上的缩放变换参数,变换参数tx为水平方向上的平移变换参数,变换参数ty为垂直方向上的平移变换参数;根据变换参数sx、sy、tx和ty,在该复合特征层中确定该行人属性对应的局部特征;将该行人属性对应的局部特征经过第二全连接层,得到该复合特征层上对该行人属性的定位识别结果。
在一种可能的实现方式中,方法还包括:在将复合特征层经过第一全连接层之前,对复合特征层执行下述特征校准处理:将复合特征层依次经过全局平均池化层、1×1卷积层、ReLU激活层、1×1卷积层,以及Sigmoid激活层,得到第一校准向量;将复合特征层与第一校准向量按通道逐一相乘,得到第二校准向量;将复合特征层与第二校准向量逐元素相加,得到校准后的复合特征层。
在一种可能的实现方式中,根据变换参数sx、sy、tx和ty,在复合特征层中确定行人属性对应的局部特征,包括:根据变换参数sx、sy、tx和ty,在复合特征层中确定矩形边界框;在复合特征层中提取矩形边界框中的特征,确定为行人属性对应的局部特征。
仍以上述图2为例,如图2所示,每个复合特征层对应M个属性定位识别模块(ALM),M为多个行人属性的个数。图2所示的行人属性识别***中共包括3M个属性定位模块,每个属性定位模块仅作用于一个复合特征层和一个行人属性。
下面详细描述任一复合特征层中任一属性定位模块的具体定位识别过程。
图3示出本公开一实施例的属性定位模块的示意图。如图3所示,输入的复合特征层Xi首先经过一个全局平均池化层,将分辨率降成1×1,然后依次经过1×1卷积层、ReLU激活层、1×1卷积层进行特征处理,再然后经过一个Sigmoid激活层(常用的Sigmoid激活函数)得到第一校准向量;进而输入的复合特征层Xi与第一校准向量按通道逐一相乘,得到第二校准向量;最后输入的复合特征层Xi与第二校准向量逐元素相加,得到校准后的复合特征层。
校准后的复合特征层Xi首先经过第一全连接层(FC),得到四个变换参数sx、sy、tx和ty,其中,变换参数sx为水平方向上的缩放变换参数,变换参数sy为垂直方向上的缩放变换参数,变换参数tx为水平方向上的平移变换参数,变换参数ty为垂直方向上的平移变换参数;根据四个变换参数sx、sy、tx和ty可以在校准后的复合特征层Xi上确定一个矩形边界框R;最后根据这个矩形边界框R从校准后的复合特征层Xi中提取这个矩形边界框R内的特征,确定为行人属性对应的局部特征,进而将该局部特征经过第二全连接层(FC),以得到该属性定位识别模块的定位识别结果。
这个矩形边界框R可以显示地定位出行人属性在图像中的语义区域,提高了行人属性识别算法的可解释性。由于属性定位识别模块可以定位出行人属性在图像中对应的局部区域,进而基于局部特征识别行人属性,相比于全局识别可以降低计算量,从而提高行人属性识别的精度和效率。
图4示出本公开一实施例的行人属性区域定位结果的示意图。如图4所示,每个复合特征层均可以显示地定位出行人属性(塑料袋)的区域定位结果。
仍以上述图2为例,如图2所示,基于复合特征层X1可以得到M个行人属性的定位识别结果,基于复合特征层X2可以得到M个行人属性的定位识别结果,基于复合特征层X3可以得到M个行人属性的定位识别结果。基于初始特征层φ1、初始特征层φ2以及初始特征层φ3,可以得到M个行人属性的全局识别结果。
在训练过程中,为了更充分地训练不同特征层上的属性定位模块,使用所有属性定位模块的识别结果共同参与训练。
在一种可能的实现方式中,根据每个复合特征层上对每个行人属性的定位识别结果、每个行人属性的全局识别结果,以及样本图像中每个行人属性的真实属性标注,对每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块进行训练,得到每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块,包括:通过下述交叉熵损失函数对每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块进行训练:
Figure BDA0002223645950000101
其中,
Figure BDA0002223645950000102
为第i个特征层的训练损失,M为所述多个行人属性的个数,ym为第m个行人属性的真实属性标注,
Figure BDA0002223645950000103
为第i个特征层上对第m个行人属性的识别结果,γm为第m个行人属性的权重,σ为预设参数,第i个特征层为复合特征层或初始特征层。
仍以上述图2为例,基于复合特征层X1得到的M个行人属性的定位识别结果和M个行人属性的真实属性标注,基于上述交叉熵函数得到复合特征层X1的训练损失L1;基于复合特征层X2得到的M个行人属性的定位识别结果和M个行人属性的真实属性标注,基于上述交叉熵函数得到复合特征层X2的训练损失L2;基于复合特征层X3得到的M个行人属性的定位识别结果和M个行人属性的真实属性标注,基于上述交叉熵函数得到复合特征层X3的训练损失L3;基于初始特征层φ1、初始特征层φ2以及初始特征层φ3得到的M个行人属性的全局识别结果和M个行人属性的真实属性标注,基于上述交叉熵函数得到训练损失L4。最终,属性定位识别***的损失L为多个特征层的训练损失之和,即,L=L1+L2+L3+L4
在一种可能的实现方式中,方法还包括:针对任一行人属性,根据每个复合特征层上对行人属性进行定位识别的属性定位识别模块,确定每个复合特征层上对测试图像中该行人属性的定位识别结果;根据最高层级初始特征层,确定测试图像中该行人属性的全局识别结果;根据每个复合特征层上对测试图像中该行人属性的定位识别结果以及测试图像中该行人属性的全局识别结果,确定测试图像中该行人属性的属性识别结果。
针对测试图像,根据卷积神经网络对测试图像进行特征提取,提取位置与对样本图像的特征提取位置相同,得到多个初始特征层。对多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层。
针对任一复合特征层,可以基于该复合特征层上每个行人属性对应的属性定位识别模块进行属性定位识别,得到该复合特征上对测试图像中每个行人属性的定位识别结果。基于最高层级初始特征层,可以确定测试图像中每个行人属性的全局识别结果,进而将测试图像中每个行人属性的定位识别结果和全局识别结果通过逐元素取最大值的方式确定测试图像中每个行人属性的属性识别结果。
例如,针对行人属性A,复合特征层X1得到的定位识别结果为60%(即行人属性A在原图像中存在的概率为60%),复合特征层X2得到的定位识别结果为65%,复合特征层X3得到的定位识别结果为55%,初始特征层φ3得到的全局定位结果为48%,则行人属性的最终属性识别结果取最大值为65%,属性识别结果大于50%表示原图像中包含该属性,则根据最终属性识别结果可知原图像中包含行人属性A。
本公开提供的行人属性识别方法与其它四种现有的行人属性识别方法(DeepMar,GRL,VeSPA,PGDM)的识别指标对比如表1所示:
表1
Figure BDA0002223645950000121
其中,平均准确率和F1值是评估行人属性识别算法的常见指标,值越高代表精度越高;模型大小和识别速度反映算法的效率,越低越好。由此可知,相比于现有的行人属性识别算法,本公开的行人属性识别算法可以提高精度和效率。
根据卷积神经网络对样本图像进行特征提取,得到多个初始特征层,样本图像为预设行人属性样本集中的图像,预设行人属性样本集中包括的图像具有多个行人属性;对多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层;根据空间变换网络和多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。本公开可以定位出每个行人属性在图像中对应的局部区域,进而基于局部特征识别行人属性,从而可以提高行人属性识别的精度和效率。
图5示出本公开一实施例的行人属性识别装置的结构示意图。如图5所示,装置50包括:
特征提取模块51,用于根据卷积神经网络对样本图像进行特征提取,得到多个初始特征层,样本图像为预设行人属性样本集中的图像,预设行人属性样本集中包括的图像具有多个行人属性;
特征融合模块52,用于对多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层;
属性定位识别模块53,用于根据空间变换网络和多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。
在一种可能的实现方式中,特征融合模块52包括:
第一确定子模块,用于针对最高层级初始特征层,将最高层级初始特征层直接确定为对应的复合特征层;
特征融合子模块,用于针对非最高层级初始特征层,将非最高层级初始特征层与上一层级初始特征层对应的复合特征层进行特征融合,得到非最高层级初始特征层对应的复合特征层。
在一种可能的实现方式中,非最高层级初始特征层为φi,初始特征层φi的上一层级初始特征层为φi+1,初始特征层φi+1对应的复合特征层为Xi+1
特征融合子模块具体用于:
将复合特征层Xi+1进行上采样放大到与初始特征层φi的分辨率相同,得到上采样后的复合特征层Xi+1
将上采样后的复合特征层Xi+1与初始特征层φi按通道数拼接,得到初始特征层φi对应的复合特征层Xi,其中,复合特征层Xi的通道数是初始特征层φi+1和初始特征层φi的通道数之和。
在一种可能的实现方式中,属性定位识别模块53包括:
第二确定子模块,用于针对任一行人属性,根据每个复合特征层上对该行人属性进行定位识别的属性定位识别模块,确定每个复合特征层上对该行人属性的定位识别结果;
第三确定子模块,用于针对任一行人属性,根据最高层级初始特征层,确定该行人属性的全局识别结果;
第四确定子模块,用于根据每个复合特征层上对每个行人属性的定位识别结果、每个行人属性的全局识别结果,以及样本图像中每个行人属性的真实属性标注,对每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块进行训练,得到每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块。
在一种可能的实现方式中,第二确定子模块具体用于:
针对任一复合特征层,该复合特征层上对该行人属性进行定位识别的属性定位识别模块通过下述步骤确定该复合特征层上对该行人属性的定位识别结果:
将该复合特征层经过第一全连接层,得到变换参数sx、sy、tx和ty,其中,变换参数sx为水平方向上的缩放变换参数,变换参数sy为垂直方向上的缩放变换参数,变换参数tx为水平方向上的平移变换参数,变换参数ty为垂直方向上的平移变换参数;
根据变换参数sx、sy、tx和ty,在该复合特征层中确定该行人属性对应的局部特征;
将该行人属性对应的局部特征经过第二全连接层,得到该复合特征层上对该行人属性的定位识别结果。
在一种可能的实现方式中,装置50还包括:特征校准子模块;
特征校准子模块具体用于:在将复合特征层经过第一全连接层之前,对复合特征层执行下述特征校准处理:
将复合特征层依次经过全局平均池化层、1×1卷积层、ReLU激活层、1×1卷积层,以及Sigmoid激活层,得到第一校准向量;
将复合特征层与第一校准向量按通道逐一相乘,得到第二校准向量;
将复合特征层与第二校准向量逐元素相加,得到校准后的复合特征层。
在一种可能的实现方式中,第二确定子模块具体用于:
根据变换参数sx、sy、tx和ty,在复合特征层中确定矩形边界框;
在复合特征层中提取矩形边界框中的特征,确定为行人属性对应的局部特征。
在一种可能的实现方式中,第四确定子模块具体用于:
通过下述交叉熵损失函数对每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块进行训练:
Figure BDA0002223645950000151
其中,
Figure BDA0002223645950000152
为第i个特征层的训练损失,M为多个行人属性的个数,ym为第m个行人属性的真实属性标注,
Figure BDA0002223645950000153
为第i个特征层上对第m个行人属性的识别结果,γm为第m个行人属性的权重,σ为预设参数,第i个特征层为复合特征层或初始特征层。
在一种可能的实现方式中,装置50还包括:测试模块,具体用于:
针对任一行人属性,根据每个复合特征层上对行人属性进行定位识别的属性定位识别模块,确定每个复合特征层上对测试图像中该行人属性的定位识别结果;
根据最高层级初始特征层,确定测试图像中该行人属性的全局识别结果;
根据每个复合特征层上对测试图像中该行人属性的定位识别结果以及测试图像中该行人属性的全局识别结果,确定测试图像中该行人属性的属性识别结果。
本公开提供的装置50能够实现图1-图3所示方法实施例中的各个步骤,并实现相同的技术效果,为避免重复,这里不再赘述。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (9)

1.一种行人属性识别方法,其特征在于,包括:
根据卷积神经网络对样本图像进行特征提取,得到多个初始特征层,所述样本图像为预设行人属性样本集中的图像,所述预设行人属性样本集中包括的图像具有多个行人属性;
对所述多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层;
根据空间变换网络和所述多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块;
其中,根据空间变换网络和所述多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块,包括:
针对任一行人属性,根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块,确定所述每个复合特征层上对所述行人属性的定位识别结果;
针对任一行人属性,根据最高层级初始特征层,确定所述行人属性的全局识别结果;
根据所述每个复合特征层上对所述每个行人属性的定位识别结果、所述每个行人属性的全局识别结果,以及所述样本图像中所述每个行人属性的真实属性标注,对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练,得到所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块。
2.根据权利要求1所述的方法,其特征在于,对所述多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层,包括:
针对最高层级初始特征层,将所述最高层级初始特征层直接确定为对应的复合特征层;
针对非最高层级初始特征层,将所述非最高层级初始特征层与上一层级初始特征层对应的复合特征层进行特征融合,得到所述非最高层级初始特征层对应的复合特征层。
3.根据权利要求2所述的方法,其特征在于,非最高层级初始特征层为φi,所述初始特征层φi的上一层级初始特征层为φi+1,所述初始特征层φi+1对应的复合特征层为Xi+1
针对非最高层级初始特征层,将所述非最高层级初始特征层与上一层级初始特征层对应的复合特征层进行特征融合,得到所述非最高层级初始特征层对应的复合特征层,包括:
将所述复合特征层Xi+1进行上采样放大到与所述初始特征层φi的分辨率相同,得到上采样后的复合特征层Xi+1
将所述上采样后的复合特征层Xi+1与所述初始特征层φi按通道数拼接,得到所述初始特征层φi对应的复合特征层Xi,其中,所述复合特征层Xi的通道数是所述初始特征层φi+1和所述初始特征层φi的通道数之和。
4.根据权利要求1所述的方法,其特征在于,针对任一行人属性,根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块,确定所述每个复合特征层上对所述行人属性的定位识别结果,包括:
针对任一复合特征层,所述复合特征层上对所述行人属性进行定位识别的属性定位识别模块通过下述步骤确定所述复合特征层上对所述行人属性的定位识别结果:
将所述复合特征层经过第一全连接层,得到变换参数sx、sy、tx和ty,其中,变换参数sx为水平方向上的缩放变换参数,变换参数sy为垂直方向上的缩放变换参数,变换参数tx为水平方向上的平移变换参数,变换参数ty为垂直方向上的平移变换参数;
根据所述变换参数sx、sy、tx和ty,在所述复合特征层中确定所述行人属性对应的局部特征;
将所述行人属性对应的局部特征经过第二全连接层,得到所述复合特征层上对所述行人属性的定位识别结果。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在将所述复合特征层经过第一全连接层之前,对所述复合特征层执行下述特征校准处理:
将所述复合特征层依次经过全局平均池化层、1×1卷积层、ReLU激活层、1×1卷积层,以及Sigmoid激活层,得到第一校准向量;
将所述复合特征层与所述第一校准向量按通道逐一相乘,得到第二校准向量;
将所述复合特征层与所述第二校准向量逐元素相加,得到校准后的复合特征层。
6.根据权利要求4所述的方法,其特征在于,根据所述变换参数sx、sy、tx和ty,在所述复合特征层中确定所述行人属性对应的局部特征,包括:
根据所述变换参数sx、sy、tx和ty,在所述复合特征层中确定矩形边界框;
在所述复合特征层中提取所述矩形边界框中的特征,确定为所述行人属性对应的局部特征。
7.根据权利要求1所述的方法,其特征在于,根据所述每个复合特征层上对所述每个行人属性的定位识别结果、所述每个行人属性的全局识别结果,以及所述样本图像中所述每个行人属性的真实属性标注,对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练,得到所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块,包括:
通过下述交叉熵损失函数对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练:
Figure FDA0003461059400000041
其中,
Figure FDA0003461059400000042
为第i个特征层的训练损失,M为所述多个行人属性的个数,ym为第m个行人属性的真实属性标注,
Figure FDA0003461059400000043
为第i个特征层上对第m个行人属性的识别结果,γm为第m个行人属性的权重,σ为预设参数,第i个特征层为复合特征层或初始特征层。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对任一行人属性,根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块,确定所述每个复合特征层上对测试图像中所述行人属性的定位识别结果;
根据最高层级初始特征层,确定所述测试图像中所述行人属性的全局识别结果;
根据所述每个复合特征层上对所述测试图像中所述行人属性的定位识别结果以及所述测试图像中所述行人属性的全局识别结果,确定所述测试图像中所述行人属性的属性识别结果。
9.一种行人属性识别装置,其特征在于,包括:
特征提取模块,用于根据卷积神经网络对样本图像进行特征提取,得到多个初始特征层,所述样本图像为预设行人属性样本集中的图像,所述预设行人属性样本集中包括的图像具有多个行人属性;
特征融合模块,用于对所述多个初始特征层进行自上而下的逐层特征融合,得到多个复合特征层;
属性定位识别模块,用于根据空间变换网络和所述多个复合特征层,确定每个复合特征层上对每个行人属性进行定位识别的属性定位识别模块;
其中,所述属性定位识别模块包括:
第二确定子模块,用于针对任一行人属性,根据所述每个复合特征层上对所述行人属性进行定位识别的属性定位识别模块,确定所述每个复合特征层上对所述行人属性的定位识别结果;
第三确定子模块,用于针对任一行人属性,根据最高层级初始特征层,确定所述行人属性的全局识别结果;
第四确定子模块,用于根据所述每个复合特征层上对所述每个行人属性的定位识别结果、所述每个行人属性的全局识别结果,以及所述样本图像中所述每个行人属性的真实属性标注,对所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块进行训练,得到所述每个复合特征层上对所述每个行人属性进行定位识别的属性定位识别模块。
CN201910943815.6A 2019-09-30 2019-09-30 一种行人属性识别方法和装置 Active CN110705474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910943815.6A CN110705474B (zh) 2019-09-30 2019-09-30 一种行人属性识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910943815.6A CN110705474B (zh) 2019-09-30 2019-09-30 一种行人属性识别方法和装置

Publications (2)

Publication Number Publication Date
CN110705474A CN110705474A (zh) 2020-01-17
CN110705474B true CN110705474B (zh) 2022-05-03

Family

ID=69197731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910943815.6A Active CN110705474B (zh) 2019-09-30 2019-09-30 一种行人属性识别方法和装置

Country Status (1)

Country Link
CN (1) CN110705474B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401343B (zh) * 2020-06-04 2021-04-30 北京金山云网络技术有限公司 识别图像中人的属性的方法、识别模型的训练方法和装置
WO2023082196A1 (zh) * 2021-11-12 2023-05-19 京东方科技集团股份有限公司 行人属性识别***及其训练方法、行人属性识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052894A (zh) * 2017-12-11 2018-05-18 北京飞搜科技有限公司 一种目标对象的多属性识别方法、设备、介质及神经网络
CN108921054A (zh) * 2018-06-15 2018-11-30 华中科技大学 一种基于语义分割的行人多属性识别方法
CN108921051A (zh) * 2018-06-15 2018-11-30 清华大学 基于循环神经网络注意力模型的行人属性识别网络及技术
CN109034044A (zh) * 2018-06-14 2018-12-18 天津师范大学 一种基于融合卷积神经网络的行人再识别方法
CN109598186A (zh) * 2018-10-12 2019-04-09 高新兴科技集团股份有限公司 一种基于多任务深度学习的行人属性识别方法
CN109902548A (zh) * 2018-07-20 2019-06-18 华为技术有限公司 一种对象属性识别方法、装置、计算设备及***
CN109948709A (zh) * 2019-03-21 2019-06-28 南京斯玛唯得智能技术有限公司 一种目标对象的多任务属性识别***
CN110046553A (zh) * 2019-03-21 2019-07-23 华中科技大学 一种融合属性特征的行人重识别模型、方法及***
CN110046550A (zh) * 2019-03-14 2019-07-23 中山大学 基于多层特征学习的行人属性识别***及方法
CN110188596A (zh) * 2019-01-04 2019-08-30 北京大学 基于深度学习的监控视频行人实时检测、属性识别与跟踪方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10691743B2 (en) * 2014-08-05 2020-06-23 Sri International Multi-dimensional realization of visual content of an image collection
US9721086B2 (en) * 2013-03-15 2017-08-01 Advanced Elemental Technologies, Inc. Methods and systems for secure and reliable identity-based computing
JP2019028840A (ja) * 2017-08-01 2019-02-21 株式会社デンソー 車両用安全判定装置、方法及びプログラム
CN107977656A (zh) * 2017-12-26 2018-05-01 北京大学 一种行人重识别方法及***
CN109214366B (zh) * 2018-10-24 2021-05-04 北京旷视科技有限公司 局部目标重识别方法、装置及***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052894A (zh) * 2017-12-11 2018-05-18 北京飞搜科技有限公司 一种目标对象的多属性识别方法、设备、介质及神经网络
CN109034044A (zh) * 2018-06-14 2018-12-18 天津师范大学 一种基于融合卷积神经网络的行人再识别方法
CN108921054A (zh) * 2018-06-15 2018-11-30 华中科技大学 一种基于语义分割的行人多属性识别方法
CN108921051A (zh) * 2018-06-15 2018-11-30 清华大学 基于循环神经网络注意力模型的行人属性识别网络及技术
CN109902548A (zh) * 2018-07-20 2019-06-18 华为技术有限公司 一种对象属性识别方法、装置、计算设备及***
CN109598186A (zh) * 2018-10-12 2019-04-09 高新兴科技集团股份有限公司 一种基于多任务深度学习的行人属性识别方法
CN110188596A (zh) * 2019-01-04 2019-08-30 北京大学 基于深度学习的监控视频行人实时检测、属性识别与跟踪方法及***
CN110046550A (zh) * 2019-03-14 2019-07-23 中山大学 基于多层特征学习的行人属性识别***及方法
CN109948709A (zh) * 2019-03-21 2019-06-28 南京斯玛唯得智能技术有限公司 一种目标对象的多任务属性识别***
CN110046553A (zh) * 2019-03-21 2019-07-23 华中科技大学 一种融合属性特征的行人重识别模型、方法及***

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Image-attribute reciprocally guided attention network for pedestrian attribute recognition";Zhong Ji et al.;《Pattern Recognition Letters》;20190124;全文 *
"Pedestrian attribute recognition with part-based CNN and combined feature representations";Yiqiang Chen et al.;《HAL》;20180621;全文 *
"Pose Guided Deep Model for Pedestrian Attribute Recognition in Surveillance Scenarios";Dangwei Li et al.;《2018IEEE International Conference on Multimedia and Expo》;20180830;全文 *
"基于深度学习的室外监控场景下行人属性识别";郭志影;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20181015;全文 *

Also Published As

Publication number Publication date
CN110705474A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN108549893B (zh) 一种任意形状的场景文本端到端识别方法
US10824916B2 (en) Weakly supervised learning for classifying images
US9349076B1 (en) Template-based target object detection in an image
CN109102024B (zh) 一种用于物体精细识别的层次语义嵌入模型及其实现方法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN111563502A (zh) 图像的文本识别方法、装置、电子设备及计算机存储介质
CN113034495B (zh) 一种脊柱影像分割方法、介质及电子设备
US20120119984A1 (en) Hand pose recognition
CN116051953A (zh) 基于可选择卷积核网络及加权双向特征金字塔的小目标检测方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN111008576B (zh) 行人检测及其模型训练、更新方法、设备及可读存储介质
CN110705474B (zh) 一种行人属性识别方法和装置
CN113657409A (zh) 车辆损失检测方法、装置、电子设备及存储介质
CN110163208A (zh) 一种基于深度学习的场景文字检测方法和***
CN111860309A (zh) 一种人脸识别方法及***
CN114332544B (zh) 一种基于图像块评分的细粒度图像分类方法和装置
CN104881673B (zh) 基于信息整合的模式识别的方法和***
CN112115879B (zh) 一种遮挡敏感的自监督行人重识别方法及***
CN110674685A (zh) 一种基于边缘信息增强的人体解析分割模型及方法
CN114821665A (zh) 一种基于卷积神经网络的城市人流小目标检测方法
CN111985532B (zh) 一种场景级上下文感知的情感识别深度网络方法
CN107291774A (zh) 错误样本识别方法和装置
CN115100469A (zh) 一种基于分割算法的目标属性识别方法、训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant