CN113705439B - 基于弱监督和度量学习的行人属性识别方法 - Google Patents

基于弱监督和度量学习的行人属性识别方法 Download PDF

Info

Publication number
CN113705439B
CN113705439B CN202110994829.8A CN202110994829A CN113705439B CN 113705439 B CN113705439 B CN 113705439B CN 202110994829 A CN202110994829 A CN 202110994829A CN 113705439 B CN113705439 B CN 113705439B
Authority
CN
China
Prior art keywords
attribute
network
feature
pedestrian
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110994829.8A
Other languages
English (en)
Other versions
CN113705439A (zh
Inventor
谢晓华
彭其阳
杨凌霄
赖剑煌
冯展祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110994829.8A priority Critical patent/CN113705439B/zh
Publication of CN113705439A publication Critical patent/CN113705439A/zh
Application granted granted Critical
Publication of CN113705439B publication Critical patent/CN113705439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于弱监督和度量学习的行人属性识别方法,包括:获取原始数据集;基于原始数据集中的属性标签信息训练属性感兴趣区域定位网络,得到训练完成的属性感兴趣区域定位网络;以训练完成的属性感兴趣区域定位网络的参数作为行人属性识别网络预训练参数,基于原始数据集对行人属性识别网络进行训练,得到训练完成的属性识别网络;输入待测图像并基于训练完成的属性识别网络进行属性识别,得到属性识别结果。本发明在行人属性识别上具备较好的性能。本发明可广泛应用于图像属性识别领域。

Description

基于弱监督和度量学习的行人属性识别方法
技术领域
本发明涉及图像属性识别领域,尤其涉及基于弱监督和度量学习的行人属性识别方法。
背景技术
行人属性识别是图像属性识别的一项重要任务。近年来伴随着视频监控的迅速发展,有效地发挥视频监控在公共安防领域的作用成为一个重要的研究内容,而行人属性作为行人的语义特征,通常包括年龄、性别、服装属性等,能在行人图像的底层特征和高级语义之间建立联系,进而可以广泛辅助于行人重识别、行人检索等多个应用。准确定位属性感兴趣区域则成为制约行人属性识别性能的重要因素之一,目前的属性感兴趣区域定位往往按照属性的空间位置将图像粗略地划分区域块,然后分别输入到属性对应的特征提取网络,但是划分的区域块难以精准的定位属性感兴趣区域位置,也有部分方法借助现有的空间变换网络,但是需要增加额外的网络结构并学习仿射变换参数。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于弱监督和度量学习的行人属性识别方法,在行人属性识别上具备较好的性能。
本发明所采用的技术方案是:基于弱监督和度量学习的行人属性识别方法,包括以下步骤:
获取原始数据集;
基于原始数据集中的属性标签信息训练属性感兴趣区域定位网络,得到训练完成的属性感兴趣区域定位网络;
以训练完成的属性感兴趣区域定位网络的参数作为行人属性识别网络预训练参数,基于原始数据集对行人属性识别网络进行训练,得到训练完成的属性识别网络;
输入待测图像并基于训练完成的属性识别网络进行属性识别,得到属性识别结果。
进一步,所述属性感兴趣区域定位网络为多层级网络结构,各个层级均包括残差模块、属性预测模块和池化层,所述残差模块的网络结构采用残差网络resnet的残差结构,所述属性预测模块包括卷积层和批量归一化层。
进一步,所述基于原始数据集中的属性标签信息训练属性感兴趣区域定位网络,得到训练完成的属性感兴趣区域定位网络这一步骤,其具体包括:
将原始数据集中的行人图像输入至属性感兴趣区域定位网络;
经过属性感兴趣区域定位网络各个层级的残差模块和属性预测模块进行属性特征提取和属性预测,并经过池化层计算对应特征图的最大响应值;
根据特征图的最大响应值定位属性感兴趣区域的空间位置;
基于原始数据集中属性标签信息进行监督,通过最小化交叉熵损失函数完成属性感兴趣区域定位网络的训练,得到训练完成的属性感兴趣区域定位网络。
进一步,所述属性识别网络包括特征提取器和分类器,所述特征提取器的网络结构与属性感兴趣区域定位网络的网络结构一致,所述分类器采用分类神经网络。
进一步,所述以训练完成的属性感兴趣区域定位网络的参数作为行人属性识别网络预训练参数,基于原始数据集对行人属性识别网络进行训练,得到训练完成的属性识别网络这一步骤,其具体包括:
以训练完成的属性感兴趣区域定位网络的参数作为行人属性识别网络中特征提取器的预训练参数;
将原始数据集中的行人图像输入至特征提取器;
基于特征提取器的残差模块进行特征提取,得到特征Xl,l表示层级信息;
将特征Xl输入至特征提取器的属性预测模块,得到预测属性特征Al
所述预测属性特征Al的维度为n×w×h,n为属性的个数,w和h分别为特征图的宽和高;
将预测属性特征Al输入至特征提取器的池化层,获取属性n在特征图的最大响应位置和/>
根据最大响应位置对特征Xl进行采样得到特征/>代表第l层第n个属性对应的特征表达;
对最后一层特征提取器的残差模块的输出进行平均池化操作得到行人全局特征fgobal
将各个层级采样得到的特征与行人全局特征fgobal进行拼接,得到融合特征fn
将融合特征fn输入至分类器,得到属性预测分数;
基于属性预测分数、原始数据集中的真实标签和对比损失函数约束分类器,得到训练完成的属性识别网络。
进一步,所述获取属性n在特征图上的最大响应位置和/>的公式如下:
上式中,w和h分别为特征图的宽和高,x为最大响应位置的横坐标取值,y为最大响应位置的纵坐标取值。
进一步,所述对比损失函数的公式如下:
上式中,E表示欧式距离计算公式,yi表示第i个属性的标签,centern表示属性中心特征表达,margin为预设间隔阈值,表示负样本特征与属性中心特征的欧式距离期望最小值。
本发明方法及***的有益效果是:本发明不需要借助训练好的行人姿态估计模型和行人姿态标签信息就可以进行精确的属性感兴趣区域定位,与传统的属性感兴趣区域定位方法不同,将传统的图像级别的区域块定位问题转化为特征图级别的点定位问题,在避免引入额外网络参数的同时,确保了属性感兴趣区域定位的准确性。
附图说明
图1是本发明基于弱监督和度量学习的行人属性识别方法的步骤示意图;
图2是本发明基于弱监督和度量学习的行人属性识别方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1和图2,本发明提供了一种基于弱监督和度量学习的行人属性识别方法,包括以下步骤:
获取原始数据集;
基于原始数据集中的属性标签信息训练属性感兴趣区域定位网络,得到训练完成的属性感兴趣区域定位网络;
以训练完成的属性感兴趣区域定位网络的参数作为行人属性识别网络预训练参数,基于原始数据集对行人属性识别网络进行训练,得到训练完成的属性识别网络;
输入待测图像并基于训练完成的属性识别网络进行属性识别,得到属性识别结果。
具体地,由两阶段训练组成:第一阶段:通过属性标签监督信息训练属性感兴趣区域定位网络;第二阶段:将第一阶段网络的预训练参数作为第二阶段网络参数的初始化,并将提取到的行人属性特征与行人全局特征进行融合,最后在对比损失和传统分类交叉熵损失函数的监督下训练属性识别网络.完成最后的属性预测。
进一步作为本方法的优选实施例,所述属性感兴趣区域定位网络为多层级网络结构,各个层级均包括残差模块、属性预测模块和池化层,所述残差模块的网络结构采用残差网络resnet的残差结构,所述属性预测模块包括卷积层和批量归一化层。
具体地,为了在不引入额外标签和空间变换网络结构的前提下达到精准属性感兴趣区域定位的功能,我们修改传统的分类神经网络,具体为将用于分类的全连接层替换为卷积层和最大池化层,其中卷积核的个数为待识别的属性个数,这样每一个卷积核负责一种属性的特征提取,最后通过最大池化操作得到属性预测得分,由于最终预测的属性得分仅来自于特征图中的最大响应点,因此我们认为该响应点即为属性在该特征图上的空间映射点。由于神经网络不同层次的特征旨在编码不同层次的信息。高层特征更关注语义信息,更少关注细节信息,低层特征更关注细节信息,而需要预测的属性具有多种层级的语义信息,例如性别属于高层语义特征,而服装纹理属于底层语义信息,因此为了提取不同层级的属性特征,我们的属性感兴趣区域定位网络为多层级网络结构。
进一步作为本方法的优选实施例,所述基于原始数据集中的属性标签信息训练属性感兴趣区域定位网络,得到训练完成的属性感兴趣区域定位网络这一步骤,其具体包括:
将原始数据集中的行人图像输入至属性感兴趣区域定位网络;
经过属性感兴趣区域定位网络各个层级的残差模块和属性预测模块进行属性特征提取和属性预测,并经过池化层计算对应特征图的最大响应值;
根据特征图的最大响应值定位属性感兴趣区域的空间位置;
基于原始数据集中属性标签信息进行监督,通过最小化交叉熵损失函数完成属性感兴趣区域定位网络的训练,得到训练完成的属性感兴趣区域定位网络。
进一步作为本方法的优选实施例,所述属性识别网络包括特征提取器和分类器,所述特征提取器的网络结构与属性感兴趣区域定位网络的网络结构一致,所述分类器采用分类神经网络。
具体地,该分类器采用传统的分类神经网络,即由最大池化层,全连接层和批量归一化层组成,通过分类器便可以得到属性预测分数。
进一步作为本方法优选实施实施例,所述以训练完成的属性感兴趣区域定位网络的参数作为行人属性识别网络预训练参数,基于原始数据集对行人属性识别网络进行训练,得到训练完成的属性识别网络这一步骤,其具体包括:
以训练完成的属性感兴趣区域定位网络的参数作为行人属性识别网络中特征提取器的预训练参数;
将原始数据集中的行人图像输入至特征提取器;
基于特征提取器的残差模块进行特征提取,得到特征Xl,l表示层级信息;
将特征Xl输入至特征提取器的属性预测模块,得到预测属性特征Al
所述预测属性特征Al的维度为n×w×h,n为属性的个数,w和h分别为特征图的宽和高;将预测属性特征Al输入至特征提取器的池化层,获取属性n在特征图的最大响应位置和/>
根据最大响应位置对特征Xl进行采样得到特征/>代表第l层第n个属性对应的特征表达;
对最后一层特征提取器的残差模块的输出进行平均池化操作得到行人全局特征fgobal
将各个层级采样得到的特征与行人全局特征fgobal进行拼接,得到融合特征fn
具体地,拼接公式如下:
将融合特征fn输入至分类器,得到属性预测分数;
基于属性预测分数、原始数据集中的真实标签和对比损失函数约束分类器,得到训练完成的属性识别网络。
具体地,为了防止后续训练破坏现有的属性感兴趣区域定位功能,我们将特征提取器的学习率调至0.0001,而分类器的学习率为0.01。我们将训练好的属性感兴趣区域定位网络参数作为第二阶段属性识别网络特征提取器的预训练参数,通过属性预测模块输出特征图的最大响应便可以定位属性感兴趣区域的空间位置,并根据属性感兴趣区域定位信息对每一层的残差模块输出特征进行采样,从而得到每个属性对应的特征。
进一步作为本方法优选实施例,所述获取属性n在特征图上的最大响应位置和/>的公式如下:
上式中,w和h分别为特征图的宽和高,x为最大响应位置的横坐标取值,y为最大响应位置的纵坐标取值。
进一步作为本方法优选实施例,所述对比损失函数的公式如下:
上式中,E表示欧式距离计算公式,yi表示第i个属性的标签,centern表示属性中心特征表达,margin为预设间隔阈值,表示负样本特征与属性中心特征的欧式距离期望最小值。
最后在对比损失和传统的交叉熵损失函数的双重约束下,我们提出的行人属性识别网络具有较高的识别性能。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (5)

1.一种基于弱监督和度量学习的行人属性识别方法,其特征在于,包括以下步骤:
获取原始数据集;
基于原始数据集中的属性标签信息训练属性感兴趣区域定位网络,得到训练完成的属性感兴趣区域定位网络;
以训练完成的属性感兴趣区域定位网络的参数作为行人属性识别网络预训练参数,基于原始数据集对行人属性识别网络进行训练,得到训练完成的属性识别网络;
输入待测图像并基于训练完成的属性识别网络进行属性识别,得到属性识别结果;
所述属性感兴趣区域定位网络为多层级网络结构,各个层级均包括残差模块、属性预测模块和池化层,所述残差模块的网络结构采用残差网络resnet的残差结构,所述属性预测模块包括卷积层和批量归一化层;
所述以训练完成的属性感兴趣区域定位网络的参数作为行人属性识别网络预训练参数,基于原始数据集对行人属性识别网络进行训练,得到训练完成的属性识别网络这一步骤,其具体包括:
以训练完成的属性感兴趣区域定位网络的参数作为行人属性识别网络中特征提取器的预训练参数;
将原始数据集中的行人图像输入至特征提取器;
基于特征提取器的残差模块进行特征提取,得到特征Xl,l表示层级信息;
将特征Xl输入至特征提取器的属性预测模块,得到预测属性特征Al
所述预测属性特征Al的维度为n×w×h,n为属性的个数,w和h分别为特征图的宽和高;
将预测属性特征Al输入至特征提取器的池化层,获取属性n在特征图的最大响应位置和/>
根据最大响应位置对特征Xl进行采样得到特征/> 代表第l层第n个属性对应的特征表达;
对最后一层特征提取器的残差模块的输出进行平均池化操作得到行人全局特征fgobal
将各个层级采样得到的特征与行人全局特征fgobal进行拼接,得到融合特征fn
将融合特征fn输入至分类器,得到属性预测分数;
基于属性预测分数、原始数据集中的真实标签和对比损失函数约束分类器,得到训练完成的属性识别网络。
2.根据权利要求1所述一种基于弱监督和度量学习的行人属性识别方法,所述基于原始数据集中的属性标签信息训练属性感兴趣区域定位网络,得到训练完成的属性感兴趣区域定位网络这一步骤,其具体包括:
将原始数据集中的行人图像输入至属性感兴趣区域定位网络;
经过属性感兴趣区域定位网络各个层级的残差模块和属性预测模块进行属性特征提取和属性预测,并经过池化层计算对应特征图的最大响应值;
根据特征图的最大响应值定位属性感兴趣区域的空间位置;
基于原始数据集中属性标签信息进行监督,通过最小化交叉熵损失函数完成属性感兴趣区域定位网络的训练,得到训练完成的属性感兴趣区域定位网络。
3.根据权利要求2所述一种基于弱监督和度量学习的行人属性识别方法,其特征在于,所述属性识别网络包括特征提取器和分类器,所述特征提取器的网络结构与属性感兴趣区域定位网络的网络结构一致,所述分类器采用分类神经网络。
4.根据权利要求3所述一种基于弱监督和度量学习的行人属性识别方法,其特征在于,所述获取属性n在特征图上的最大响应位置和/>的公式如下:
上式中,w和h分别为特征图的宽和高,x为最大响应位置的横坐标取值,y为最大响应位置的纵坐标取值。
5.根据权利要求4所述一种基于弱监督和度量学习的行人属性识别方法,其特征在于,所述对比损失函数的公式如下:
上式中,E表示欧式距离计算公式,yi表示第i个属性的标签,centern表示属性中心特征表达,margin为预设间隔阈值,表示负样本特征与属性中心特征的欧式距离期望最小值。
CN202110994829.8A 2021-08-27 2021-08-27 基于弱监督和度量学习的行人属性识别方法 Active CN113705439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110994829.8A CN113705439B (zh) 2021-08-27 2021-08-27 基于弱监督和度量学习的行人属性识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110994829.8A CN113705439B (zh) 2021-08-27 2021-08-27 基于弱监督和度量学习的行人属性识别方法

Publications (2)

Publication Number Publication Date
CN113705439A CN113705439A (zh) 2021-11-26
CN113705439B true CN113705439B (zh) 2023-09-08

Family

ID=78655855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110994829.8A Active CN113705439B (zh) 2021-08-27 2021-08-27 基于弱监督和度量学习的行人属性识别方法

Country Status (1)

Country Link
CN (1) CN113705439B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766850A (zh) * 2017-11-30 2018-03-06 电子科技大学 基于结合人脸属性信息的人脸识别方法
CN110598543A (zh) * 2019-08-05 2019-12-20 华中科技大学 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN110728216A (zh) * 2019-09-27 2020-01-24 西北工业大学 一种基于行人属性自适应学习的无监督行人再识别方法
CN111881714A (zh) * 2020-05-22 2020-11-03 北京交通大学 一种无监督跨域行人再识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766850A (zh) * 2017-11-30 2018-03-06 电子科技大学 基于结合人脸属性信息的人脸识别方法
CN110598543A (zh) * 2019-08-05 2019-12-20 华中科技大学 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN110728216A (zh) * 2019-09-27 2020-01-24 西北工业大学 一种基于行人属性自适应学习的无监督行人再识别方法
CN111881714A (zh) * 2020-05-22 2020-11-03 北京交通大学 一种无监督跨域行人再识别方法

Also Published As

Publication number Publication date
CN113705439A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN110414462B (zh) 一种无监督的跨域行人重识别方法及***
CN112069940B (zh) 一种基于分阶段特征学习的跨域行人重识别方法
CN110807434B (zh) 一种基于人体解析粗细粒度结合的行人重识别***及方法
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
CN111476284A (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN110909820A (zh) 基于自监督学习的图像分类方法及***
JP2016134175A (ja) ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN109753897B (zh) 基于记忆单元强化-时序动态学习的行为识别方法
CN109583375B (zh) 一种多特征融合的人脸图像光照识别方法及***
CN112836675B (zh) 一种基于聚类生成伪标签的无监督行人重识别方法及***
CN115641613A (zh) 一种基于聚类和多尺度学习的无监督跨域行人重识别方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN111291705B (zh) 一种跨多目标域行人重识别方法
CN112836702A (zh) 一种基于多尺度特征提取的文本识别方法
CN113989577B (zh) 图像分类方法及装置
CN110647897B (zh) 一种基于多部分注意力机制的零样本图像分类识别方法
CN113221814A (zh) 一种道路交通标志识别方法、设备及存储介质
CN117935299A (zh) 基于多阶特征分支和局部注意力的行人重识别模型
CN116630753A (zh) 一种基于对比学习的多尺度小样本目标检测方法
CN113705439B (zh) 基于弱监督和度量学习的行人属性识别方法
CN116776885A (zh) 基于三阶段的小样本嵌套命名实体识别方法和***
CN114120074B (zh) 基于语义增强的图像识别模型的训练方法和训练装置
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds
Mao et al. An image authentication technology based on depth residual network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant