CN114842507A - 一种基于组优化奖励的强化行人属性识别方法 - Google Patents

一种基于组优化奖励的强化行人属性识别方法 Download PDF

Info

Publication number
CN114842507A
CN114842507A CN202210548663.1A CN202210548663A CN114842507A CN 114842507 A CN114842507 A CN 114842507A CN 202210548663 A CN202210548663 A CN 202210548663A CN 114842507 A CN114842507 A CN 114842507A
Authority
CN
China
Prior art keywords
attribute
state
group
pedestrian
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210548663.1A
Other languages
English (en)
Inventor
冀中
胡振飞
王耀东
王港
耿虎军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
CETC 54 Research Institute
Original Assignee
Tianjin University
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University, CETC 54 Research Institute filed Critical Tianjin University
Priority to CN202210548663.1A priority Critical patent/CN114842507A/zh
Publication of CN114842507A publication Critical patent/CN114842507A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于组优化奖励的强化行人属性识别方法,属于机器学习领域。该方法首先构造合适的马尔科夫决策过程,运用CNN网络提取行人图像的特征,利用文本向量化工具提取属性特征,将二者组成的元组作为马尔科夫决策过程的状态;将0和1组成的集合作为动作空间;设计状态转移过程以及奖励函数。运用强化学习算法进行训练,将状态输入到DQN网络中,并利用属性分组策略与组优化奖励函数优化网络的训练,以获取具备更优策略的智能体,提升行人属性识别结果。

Description

一种基于组优化奖励的强化行人属性识别方法
技术领域
本发明涉及一种行人属性识别方法,具体涉及一种基于组优化奖励的强化行人属性识别方法。
背景技术
近年来,视频监控在公共场所逐渐完善,千万数量级的视频监控设备在时时刻刻收集这道路交通、行人等视频以及图像信息,随着平安城市、智慧城市的发展,合理高效地处理由视频监控获取的海量信息来提高安防水平逐渐成为一个重要的研究课题。行人属性识别是监控视频图像分析中一个十分重要的任务,其目的是对监控视频中获取的行人图像进行属性的预测,以获取诸如年龄、性别等全局属性和诸如帽子、外套等局部属性。行人属性识别任务一方面能够从监控视频中识别具有潜在危险的人或物,例如识别出没有佩戴口罩的人;一方面能够对行人重识别,行人追踪,行人检测等任务起到辅助作用。因此行人属性识别具有极其重要的研究价值和现实意义。
行人属性识别研究初期利用的是人工提取的特征,比如说定向梯度直方图和纹理直方图。但是人工提取特征不但成本高昂,而且属性识别效果也较差。随着深度学习技术的兴起,利用卷积神经网络提取更好的图像特征大大提升了行人属性识别的性能,因此母亲基于深度学习的方法已经成为了行人属性识别的主流方法。
虽然行人属性识别取得了一定的进展,但是由于行人属性存在遮挡、模糊、低像素、数据分布不平衡等问题,识别效果还有待提高。行人属性识别可以视作对某一属性是否存在的一种判断,将强化学***衡问题。也就是说,利用强化学习处理行人属性识别任务不仅具有优越性,还具备很高的研究价值。
发明内容
有鉴于此,本发明提供一种基于组优化奖励的强化行人属性识别方法,该方法将行人属性识别任务定义为马尔科夫决策过程,并利用属性分组策略与组优化奖励函数来缓解行人属性识别任务中的数据分布不平衡带来的不利影响。
为了实现上述目的,本发明采用的技术方案是:
一种基于组优化奖励的强化行人属性识别方法,包括以下步骤:
1)获取行人属性识别数据集,并进一步获取图像特征与属性特征,其中,图像特征用f表示,属性特征有L个,每个特征用vt表示,即行人的属性特征为V=[v1,v2,…,vL];
2)构建马尔科夫决策过程(S,A,R,T,γ),包括状态空间S,动作空间A,奖励函数R,状态转移
Figure BDA0003653461360000023
和折扣系数γ;
3)在训练过程中,将马尔科夫决策过程中的状态输入到DQN算法即基于深度学习的Q-learning算法中,并利用属性分组策略和组优化奖励函数来获取更优的智能体策略;训练时的损失函数采用均方差损失,公式如下:
Figure BDA0003653461360000021
其中,D表示DQN算法中的重放存储器,E(s,a,r,s')~D表示从重放存储器中获取经验来计算损失的过程,
Figure BDA0003653461360000022
由DQN算法中的Target网络得到,θ-和θ分别是Target网络和Policy网络的网络参数,Q(s,a;θ)表示由Policy网络得到的值;
4)经过训练得到策略,智能体利用该策略对输入图像进行行人属性识别。
进一步的,步骤1)的具体方式为:
获取公开的行人属性识别数据集,将图像输入到VGGNet、GoogleNet或 ResNet卷积神经网络以提取图像特征,获取图像特征f;对于属性特征,使用文本向量化工具Word2vec或者fastText获取属性向量v。
进一步的,步骤2)中,状态空间S由步骤1)获得的图像特征f与属性特征v组成的二元组构成,公式表示为:
s=(f,v)
动作空间A定义为A={0,1},动作决定了相应属性是否存在,其中0代表没有相应属性,1代表存在相应属性;对于每张图像,动作的数量取决于属性标签的数量,对应的所有动作为最终预测结果;
奖励函数R的初始值设置如下:
Figure BDA0003653461360000031
其中,at表示智能体在状态st时的动作,lt为在状态st时对应的图像属性的标签;当智能体判断正确时,给予一个+1的正面奖励,反之给予一个-1的负面奖励;
对于状态转移
Figure BDA0003653461360000032
当一个动作执行后,当前状态转移到下一状态;其中,马尔科夫决策过程的状态转移过程是确定的,即对于每一状态都有指定的下一状态,动作如何对下一状态没有影响,状态转移公式如下:
Figure BDA0003653461360000033
式中,f表示当前状态图像特征,v表示当前状态属性特征,v'表示下一状态属性特征,s和s'分别表示当前状态和下一状态;
折扣因子γ∈[0,1],用于平衡即时奖励与未来奖励的关系。
进一步的,步骤3)所述的属性分组策略是将行人属性根据属性所在区域以及特点进行分组,在训练过程中对每一组属性进行分别训练。
进一步的,步骤3)所述的组优化奖励函数是在属性分组策略的基础上获取每一组属性的不平衡系数c,c是某一组属性出现次数的和与不出现次数的和的比值,反映的是一组属性的整体状况,其计算方法如下:
Figure BDA0003653461360000041
其中,T为组中属性的数量,N为数据集中图像的数量,nT为包含组中某一具体属性的图像数量;
获取不平衡系数c后,对应的组优化奖励函数的计算方法如下:
Figure BDA0003653461360000042
Figure BDA0003653461360000043
其中,ρ由c得到,ro为组优化奖励函数,at为智能体在状态st时的动作,lt为智能体在状态st时样本对应的属性的标签;
在最终的智能体训练中,采用组优化奖励函数来替代步骤2)中初始的奖励函数,从而获取更优的智能体策略。
本发明的有益效果在于:
(1)本发明通过在PETA、RAP和PA100K三个行人属性识别数据集上进行实验,发现本发明的性能比现有的行人属性识别方法性能相比有明显提升,说明本方法能够有效地识别行人属性。
(2)本发明首次将行人属性识别任务建模为马尔科夫决策过程,并利用强化学***衡所带来的不利影响。
(3)本发明能够有效识别监控场景中的行人属性,不仅对与行人有关的其他领域如行人重识别、行人检索、行人追踪等任务有重要推动作用,还对建设平安城市、智慧城市有推动作用。
总之,本发明将行人属性识别构建为马尔科夫决策过程,构造了合理的状态空间、动作空间、奖励函数以及状态转移过程,使得行人属性识别可作为决策过程由强化学***衡问题所带来的不利影响,进一步优化了智能体策略,提高了行人属性识别精度。
附图说明
图1为本发明实施例方法的原理示意图。
图2为本发明实施例方法的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。
一种基于组优化奖励函数的强化行人属性识别方法,该方法首先构造合适的马尔科夫决策过程,运用CNN网络提取行人图像的特征,利用文本向量化工具提取属性特征,将二者组成的元组作为马尔科夫决策过程的状态;将0和1组成的集合作为动作空间;设计状态转移过程以及奖励函数。运用强化学习算法进行训练,将状态输入到DQN网络中,并利用属性分组策略与组优化奖励函数优化网络的训练,以获取具备更优策略的智能体,提升行人属性识别结果。
如图1、2所示,本方法包括以下步骤:
1)获取行人属性识别数据集,并进一步获取图像特征与属性特征,其中,图像特征用f表示,属性特征有L个,每个特征用vt表示,即行人的属性特征为V=[v1,v2,·,vL],包括:
获取公开的行人属性识别数据集,将图像输入到VGGNet、GoogleNet或ResNet卷积神经网络提取图像特征,获取图像特征f。对于属性特征,使用文本向量化工具word2vec或者fastText获取属性向量v。
2)构建马尔科夫决策过程(S,A,R,T,γ),包括状态空间S,动作空间A,奖励函数R,状态转移
Figure BDA0003653461360000064
和折扣系数γ。其中:
状态空间S:由步骤1)获得的图像特征f与属性特征v组成的二元组构成,公式表示为:
s=(f,v)
动作空间A:本方法将动作空间定义为A={0,1},动作决定了相应属性是否存在,其中0代表没有相应属性,1代表存在相应属性。对于每张图像,动作的数量取决于属性标签的数量,对应的所有动作为最终预测结果。
奖励函数R:本方法中,基本的奖励函数设置为+1和-1。即当智能体判断正确时,给予一个+1的正面奖励,反之表示为一个负面奖励。公式表示为:
Figure BDA0003653461360000061
其中,at表示智能体在状态st时的动作,lt为在状态st时对应的图像属性的标签。
状态转移
Figure BDA0003653461360000062
当一个动作执行后,当前状态转移到下一状态。在本方法中,马尔科夫决策过程的状态转移过程是确定的,即对于每一状态都有指定的下一状态,动作如何对下一状态没有影响,状态转移公式如下:
Figure BDA0003653461360000063
其中,f表示当前状态图像特征,v表示当前状态属性特征,v'表示下一状态属性特征,s和s'分别表示当前状态和下一状态。
折扣因子γ:γ∈[0,1]是为了平衡即时奖励与未来奖励的关系。
3)在训练过程中,将马尔科夫决策过程中的状态输入到DQN算法中,并利用属性分组策略和组优化奖励函数来获取更优的智能体策略。训练时的损失函数采用均方差损失,公式如下:
Figure BDA0003653461360000071
其中,
Figure BDA0003653461360000072
由DQN算法中的Target网络得到,θ-和θ分别是Target 网络和Policy网络的网络参数,Q(s,a;θ)表示由Policy网络得到的值。
通过将行人属性识别任务构建为马尔科夫决策过程并使用强化学***衡问题,且存在严重的属性内数据分布不平衡问题。比如说在公开的RAP数据集中属性出现的频率跨度达到了 0.3%~95%,仅有五个属性出现的频率高于50%,而其他属性均低于50%,存在较强属性间数据分布不平衡问题;包含“action-Pusing”属性的实例仅为1%,不包含该属性的实例占据了99%,存在严重的属性内数据分布不平衡问题。为了缓解上述问题带来的不利影响,引入了属性分组策略并进一步提出了组优化奖励函数来获取更优的智能体策略。具体:
所述的属性分组策略是将行人属性根据属性所在区域以及特点(全局属性或局部属性)进行分组,在训练过程中对每一组属性进行分别训练。
所述的组优化奖励函数是在属性分组策略的基础上获取每一组属性的不平衡系数c,c是某一组属性出现次数的和与不出现次数的和的比值,反映的是一组属性的整体状况,其计算方法如下:
Figure BDA0003653461360000081
其中,T为组中属性的数量,N为数据集中图像的数量,nT为包含组中某一具体属性的图像数量。
获取不平衡系数c后,对应的组优化奖励函数的计算方法如下:
Figure BDA0003653461360000082
Figure BDA0003653461360000083
其中,ρ由c得到,ro为组优化奖励函数,at为智能体在状态st时的动作,lt为智能体在状态st时样本对应的属性的标签。
在使用DQN算法训练智能体时采用组优化奖励函数能够获得更优的策略,进而更好地进行属性识。
4)输入待测图像,依据训练好的智能体得到属性识别结果。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

Claims (5)

1.一种基于组优化奖励的强化行人属性识别方法,其特征在于,包括以下步骤:
1)获取行人属性识别数据集,并进一步获取图像特征与属性特征,其中,图像特征用f表示,属性特征有L个,每个特征用vt表示,即行人的属性特征为V=[v1,v2,…,vL];
2)构建马尔科夫决策过程(S,A,R,T,γ),包括状态空间S,动作空间A,奖励函数R,状态转移
Figure FDA0003653461350000011
和折扣系数γ;
3)在训练过程中,将马尔科夫决策过程中的状态输入到DQN算法即基于深度学习的Q-learning算法中,并利用属性分组策略和组优化奖励函数来获取更优的智能体策略;训练时的损失函数采用均方差损失,公式如下:
Figure FDA0003653461350000012
其中,D表示DQN算法中的重放存储器,E(s,扣,数,s')~D表示从重放存储器中获取经验来计算损失的过程,
Figure FDA0003653461350000013
由DQN算法中的Target网络得到,θ-和θ分别是Target网络和Policy网络的网络参数,Q(s,a;θ)表示由Policy网络得到的值;
4)经过训练得到策略,智能体利用该策略对输入图像进行行人属性识别。
2.如权利要求1所述的一种基于组优化奖励的强化行人属性识别方法,其特征在于,步骤1)的具体方式为:
获取公开的行人属性识别数据集,将图像输入到VGGNet、GoogleNet或ResNet卷积神经网络以提取图像特征,获取图像特征f;对于属性特征,使用文本向量化工具Word2vec或者fastText获取属性向量v。
3.如权利要求1所述的一种基于组优化奖励的强化行人属性识别方法,其特征在于,步骤2)中,状态空间S由步骤1)获得的图像特征f与属性特征v组成的二元组构成,公式表示为:
s=(f,v)
动作空间A定义为A={0,1},动作决定了相应属性是否存在,其中0代表没有相应属性,1代表存在相应属性;对于每张图像,动作的数量取决于属性标签的数量,对应的所有动作为最终预测结果;
奖励函数R的初始值设置如下:
Figure FDA0003653461350000021
其中,扣t表示智能体在状态st时的动作,lt为在状态st时对应的图像属性的标签;当智能体判断正确时,给予一个+1的正面奖励,反之给予一个-1的负面奖励;
对于状态转移
Figure FDA0003653461350000022
当一个动作执行后,当前状态转移到下一状态;其中,马尔科夫决策过程的状态转移过程是确定的,即对于每一状态都有指定的下一状态,动作如何对下一状态没有影响,状态转移公式如下:
Figure FDA0003653461350000023
式中,f表示当前状态图像特征,v表示当前状态属性特征,v'表示下一状态属性特征,s和s'分别表示当前状态和下一状态;
折扣因子γ∈[0,1],用于平衡即时奖励与未来奖励的关系。
4.如权利要求1所述的一种基于组优化奖励的强化行人属性识别方法,其特征在于,步骤3)所述的属性分组策略是将行人属性根据属性所在区域以及特点进行分组,在训练过程中对每一组属性进行分别训练。
5.如权利要求1所述的一种基于组优化奖励的强化行人属性识别方法,其特征在于,步骤3)所述的组优化奖励函数是在属性分组策略的基础上获取每一组属性的不平衡系数c,c是某一组属性出现次数的和与不出现次数的和的比值,反映的是一组属性的整体状况,其计算方法如下:
Figure FDA0003653461350000031
其中,T为组中属性的数量,N为数据集中图像的数量,nT为包含组中某一具体属性的图像数量;
获取不平衡系数c后,对应的组优化奖励函数的计算方法如下:
Figure FDA0003653461350000032
Figure FDA0003653461350000033
其中,ρ由c得到,ro为组优化奖励函数,扣t为智能体在状态st时的动作,lt为智能体在状态st时样本对应的属性的标签;
在最终的智能体训练中,采用组优化奖励函数来替代步骤2)中初始的奖励函数,从而获取更优的智能体策略。
CN202210548663.1A 2022-05-20 2022-05-20 一种基于组优化奖励的强化行人属性识别方法 Pending CN114842507A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210548663.1A CN114842507A (zh) 2022-05-20 2022-05-20 一种基于组优化奖励的强化行人属性识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210548663.1A CN114842507A (zh) 2022-05-20 2022-05-20 一种基于组优化奖励的强化行人属性识别方法

Publications (1)

Publication Number Publication Date
CN114842507A true CN114842507A (zh) 2022-08-02

Family

ID=82570953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210548663.1A Pending CN114842507A (zh) 2022-05-20 2022-05-20 一种基于组优化奖励的强化行人属性识别方法

Country Status (1)

Country Link
CN (1) CN114842507A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110065855A (zh) * 2019-04-21 2019-07-30 苏州科技大学 多轿厢电梯控制方法及控制***
CN116578403A (zh) * 2023-07-10 2023-08-11 安徽思高智能科技有限公司 一种基于深度强化学习的rpa流程调度方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110065855A (zh) * 2019-04-21 2019-07-30 苏州科技大学 多轿厢电梯控制方法及控制***
CN110065855B (zh) * 2019-04-21 2024-01-23 苏州科技大学 多轿厢电梯控制方法及控制***
CN116578403A (zh) * 2023-07-10 2023-08-11 安徽思高智能科技有限公司 一种基于深度强化学习的rpa流程调度方法及***

Similar Documents

Publication Publication Date Title
CN112418117B (zh) 一种基于无人机图像的小目标检测方法
US11315345B2 (en) Method for dim and small object detection based on discriminant feature of video satellite data
CN109344736B (zh) 一种基于联合学习的静态图像人群计数方法
CN105825502B (zh) 一种基于显著性指导的词典学习的弱监督图像解析方法
CN111461232A (zh) 一种基于多策略批量式主动学习的核磁共振图像分类方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN112883839B (zh) 基于自适应样本集构造与深度学习的遥感影像解译方法
CN114842507A (zh) 一种基于组优化奖励的强化行人属性识别方法
CN108182447A (zh) 一种基于深度学习的自适应粒子滤波目标跟踪方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
Wang et al. Cattle face recognition method based on parameter transfer and deep learning
WO2023116632A1 (zh) 基于时空记忆信息的视频实例分割方法和分割装置
CN106844785A (zh) 一种基于显著性分割的基于内容的图像检索方法
CN105913457A (zh) 基于加强粒子群优化的粒子滤波目标跟踪方法
Hu et al. Parallel spatial-temporal convolutional neural networks for anomaly detection and location in crowded scenes
CN116030396B (zh) 一种用于视频结构化提取的精确分割方法
Geng et al. Abnormal event detection in tourism video based on salient spatio-temporal features and sparse combination learning
Shuang et al. Scale-balanced loss for object detection
CN111339950B (zh) 一种遥感图像目标检测方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN110991554B (zh) 一种基于改进pca的深度网络图像分类方法
CN112613474A (zh) 一种行人重识别的方法和装置
CN104200222B (zh) 一种基于因子图模型的图片中对象识别方法
Huang et al. Aerial image classification by learning quality-aware spatial pyramid model
CN117079095A (zh) 基于深度学习的高空抛物检测方法、***、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination