CN110826609B - 一种基于强化学习的双流特征融合图像识别方法 - Google Patents

一种基于强化学习的双流特征融合图像识别方法 Download PDF

Info

Publication number
CN110826609B
CN110826609B CN201911038698.5A CN201911038698A CN110826609B CN 110826609 B CN110826609 B CN 110826609B CN 201911038698 A CN201911038698 A CN 201911038698A CN 110826609 B CN110826609 B CN 110826609B
Authority
CN
China
Prior art keywords
image
feature
model
reinforcement learning
texture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911038698.5A
Other languages
English (en)
Other versions
CN110826609A (zh
Inventor
冯镔
唐哲
王豪
李亚婷
朱多旺
刘文予
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201911038698.5A priority Critical patent/CN110826609B/zh
Publication of CN110826609A publication Critical patent/CN110826609A/zh
Application granted granted Critical
Publication of CN110826609B publication Critical patent/CN110826609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于强化学习的双流特征融合图像识别方法,对待检测输入图像,使用两个不同的模型分别得到特征矩阵,然后将两个特征矩阵输入到强化学习模型和融合模型后得到最终的分类分数。两个模型分别是纹理模型和形状模型:纹理模型是根据图像中对象的纹理信息来进行分类,而形状模型根据对象的形状信息来进行分类。两个模型都通过强化学习的方式,让网络在整张图像中寻找最有区分力的区域,然后根据这个区域来进行分类。本方法简单易行,推广能力强,找到易于区分图像的区域,区分性区域合适并有效,充分用图像中的纹理和形状信息,能有效克服图像信息利用不充分和图像之间差异小的影响。

Description

一种基于强化学习的双流特征融合图像识别方法
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于强化学习的双流特征融合图像识别方法。
背景技术
图像识别在人们的日常生活中有许多方面的应用,如智能安防、生物医学、电商购物、自动驾驶和智能家居等。图像识别研究的是如何从多个类别中,识别出样本对应的类别。存在着诸多的问题,例如图像之间的差异性较小,背景影响较大等等。
目前的图像识别方法,通常是直接将图像输入到卷积神经网络上进行特征提取后进行分类。虽然在特征提取后有各式各样的操作,但是这样提取特征的过程,实际上提取的大部分都是图像的纹理信息。这样的操作都会存在一个缺点,那就是形状信息无法得到充分利用,不能完全提取出对识别图像有利信息。另外,为了减小背景的干扰,目前的采取的措施是生成候选框,但是这种方法生成的候选框数量大,计算时间时间长,而且目标不明确,不能找到真正对图像分类有帮助的区域。
因此需要设计双流特征融合的图像识别方法,能够融合图像的纹理信息和形状信息并且优化计算效率的方法。
发明内容
本发明的目的在于提供一种基于强化学习的双流特征融合图像识别方法,该方法可以有效地找到分别包含纹理信息和形状信息的最有效的区域。减小背景和无用信息的影响,有效地提高识别的精度。包括下述步骤:
(1)生成形状数据集:
对每张图像,输入到图像转换模型中,输出对应的形状相似,但纹理不同的n张图片。n为预设值,n越大后面的学习效果会更好但训练模型花费的时间会更久,一般可以尝试n取值为5~10。转换后的n张图像的标签都和输入图像的标签相同。此形状数据集是将原始数据集减少纹理信息增加形状信息后,和原始数据集成对的数据集。生成此对应数据集的目的是希望后续的待训练模型能够学习图像的形状信息。
(2)训练纹理基础模型和形状基础模型:
(2.1)分别对原始数据集和形状数据集的每一个图像进行数据增强:对于一张图像,在图像中的随机位置生成m个矩形框,m为预设值。m的范围可以是4~7,m太大会导致数据太多而花费太多时间。框的边长一般大于图像边长的1/2,小于等于图像的边长。裁剪后的图像的标签和原始图像的标签保持一致。
(2.2)使用裁剪后的图像来训练基础模型,纹理基础模型使用原始数据集训练,形状基础模型使用形状数据集训练;纹理基础模型和形状基础模型的结构一样。都是在ResNet50网络中的最后一个block之后新增加一个自适应平均池化层AdaAvgPool,自适应平均池化层将图像进行池化,减小特征图的尺寸。将AdaAvgPool输出的特征图压缩到一维后得到特征向量Feature,将AdaAvgPool之前的特征送到分类器之后得到分类预测概率pred,分类器可以选择使用全连接层。基础模型输出Feature和pred,作用是提取输入图像的特征,并预测分类概率。
(3)训练纹理强化学习模型:
(3.1)读取图像imageglobal和对应的类别标签c。初始化一个矩形框box,尺寸和读取的图像大小一样。
(3.2)整个过程中会多次改变这个矩形框的位置和大小,如果矩形框的大小等于图像的大小,即imagelocal=imageglobal,则跳到(3.3)。如果矩形框小于图像大小,就根据框的大小对图像进行裁剪,然后上采样到和原始图像大小一样的尺寸,得到处理之后的图像imagelocal其中上采样可以选择双线性插值。
(3.3)将imagelocal输入到纹理基础模型中得到特征Feature和分类预测概率pred。
(3.4)将特征Feature输入到纹理强化学***移,放大,缩小等等;动作的Q值表示的含义是矩形框在某一个位置采取了这个动作之后改变到另一个位置,这个过程为我们的目标(即分类)产生的影响的定量评价。如果Q值越大表示着改变位置之后的框能让分类效果变得更好,反之Q值越低表示着改变位置之后的框能让分类效果变得更差。
(3.5)为了得到确定的动作,此步骤分为探索和开发两种策略,二者选择其中一种。预设一个explore_rate∈(0,1),explore_rate表示选择探索的概率,相应的1-explore_rate表示选择开发的概率。探索是在所有的动作中随机选择一个动作;开发是选择(3.4)中得到的Q值最大值对应的动作作为选定动作。选定探索和开发中的一种后确定动作action,并根据选定的action和变化系数α改变框的大小或位置,得到新的矩形框box′。其中变化系数α∈(0,1),可以选择0.1。表示的含义是每次改变的比率。例如action选定为向右变大,表示box′的是box向右变大为原来的1.1倍得到的;action选定为向左变小,表示box′的是box向左变小为原来的0.9倍得到的。
(3.6)使用(3.5)得到的新矩形框box′,按照(3.2)(3.3)提取特征的过程得到另一个特征和预测概率Feature′,pred′。
(3.8)根据pred、(3.6)中的pred′和(3.1)中的c,可以进行如下判断:如果pred在类别c上的预测分数比pred′在类别c上的预测分数高,则奖励reward=-1,对应的,如果pred在类别c上的预测分数比pred′在类别c上的预测分数低,则奖励reward=1。
(3.9)根据(3.8)中得到的奖励reward更新(3.5)中选定动作action的Q值Qtarget。更新的方式为Qtarget=reward+γ*max(Q(s,a)),其中Q(s,a)表示s状态下,即特征Feature,采取action动作之后的Q值。其中γ为每一次Q值更新的学习率,γ为预设值,可以选择γ=0.9。
(3.10)将特征Feature和(3.9)中得到的Qtarget存储到经验池中。经验池是为了降低样本之间的相关性而采取的对应措施,先将成对的Feature和Qtarget存在经验池中。当经验池储存到一定数量后,再从经验池中随机选择数据来训练模型。
(3.11)将新的矩形框作为当前的框box=box′,将新的特征作为当前的特征Feature=Feature′,将新的分类预测概率作为当前的分类预测概率pred=pred′。
(3.12)重复(3.4)到(3.11)的过程至一定次数。这就是一直调整框的大小和位置的过程,可以根据(3.5)中设置的变化率来动态调整,变化率设置得大就可以少变几次,变化率小可以多变几次。
(3.13)当经验池中装到一定数量的样本后,从经验池中随机选择成对的Feature和Qtarget的对应数据,记作Features和Target,将特征输到训练纹理强化学习模型,输出得到动作的Q值,记作Qeval,将Target和Qeval之间的差距作为loss,并反向传播,更新参数。loss可以选择均方误差MSE函数,表达式为loss=(Target-Qeval)2
(4)训练形状强化学习模型:
(4.1)按照(3)中的步骤,使用形状数据集训练形状强化学习模型,对于形状强化学习模型,其训练模型的过程和纹理强化学习过程一样,形状强化学习模型和纹理强化学习模型结构一样。
(5)利用上述训练好的两个模型对待检测测试图像进行双流的预测和融合,包括如下子步骤:
(5.1)读取待检测图像imageglobal。初始化一个矩形框box,尺寸和读取的图像大小一样。
(5.2)对图像进行步骤(3.2)(3.3)的特征提取,得到框对应位置的特征Feature和分类预测概率pred。
(5.3)将(5.2)得到的特征输入到纹理强化学习模型中,输出所有动作的得分Q值,按照开发的策略选出Q值最大的动作并根据选定的动作改变框的大小和位置。
(5.4)重复(5.2)(5.3)的过程至一定次数,重复的次数和(3.12)中的重复过程类似和矩形框的变化率有关。将最后一次的变化后得到特征为Ftexture
(5.5)类似(5.1)到(5.4)的过程测试纹理强化学习模型,得到Fshape
(5.6)将两种不同的特征Ftexture和Fshape输入到融合模型后输出为最终的预测概率pmix,其中融合模型是一个可训练模型,目的是将Ftexture和Fshape融合之后再进行分类。举例来说,融合模型可以选择将两种特征拼接在一起之后,再用全连接层输出所有类别的分类概率。
(5.7)pmix对应概率最大的类别就是预测的类别。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)结构简单有效:本发明方法与以往的设计使用卷积神经网络提取纹理信息相比,通过设计双流的结构,分别提取纹理和形状信息。并使用强化学习的方式分别寻找纹理和形状的区分性区域,结构清晰且简单有效;
(2)准确度高:自然场景下的图像质量不一,而且会有很多干扰,如背景影响较大和图像之间差异较小等,本发明方法与生成proposal的方式不一样,通过强化学习的方式寻找图像中最优的区域,而不在proposal中选择表现较好的区域,减少了模型学习的代价,也更加符合寻找区分性区域的过程,并且和以往只利用纹理信息的方式不一样,我们利用纹理和形状两流的信息,可以充分挖掘出图像包含的信息,准确度更高;
(3)鲁棒性强:本发明的纹理强化学习模型关注的更多的是纹理信息,形状强化学习模型关注的更多的是形状信息,通过分别关注这两种信息,网络能够适应不同图像,性能更加鲁棒。
附图说明
图1是本发明一种基于强化学习的双流特征融合图像识别方法的流程图;
图2是本发明强化学习模型实现框架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
iFood数据集:该数据库是在Kaggle举行的比赛使用的数据集,包含了251个细粒度(预制)食品类别,总共有从网上收集的120216张图像作训练集,12170幅图像作验证集和28399幅图像作测试集,并提供了人工验证标签,其中每张图像都包含单一类别的食物。
ResNet-50:一种可用于分类的神经网络,该网络主要由50层卷积层、池化层、shortcut连接层组成。卷积层用于提取图片特征;池化层的作用是降低卷积层输出的特征向量的维度,减少过拟合;shortcut连接层用于传递梯度解决消失和***梯度问题。网络参数可以通过反向传导算法,进行更新;
图像转换模型:使用Generative Adversarial Network的结构,包括生成器generator和判别器discriminator,可以将图像的风格转变但内容不变。
如图1所示,本发明提供了一种基于强化学习的双流特征融合图像识别方法,包括以下步骤:
(1)生成形状数据集:
对每张图像,输入到图像转换模型中,输出对应的形状相似,但纹理不同的n张图片。n为预设值,n越大后面的学习效果会更好但训练模型花费的时间会更久,一般可以尝试n取值为5~10。转换后的n张图像的标签都和输入图像的标签相同。此形状数据集是将原始数据集减少纹理信息增加形状信息后,和原始数据集成对的数据集。生成此对应数据集的目的是希望后续的待训练模型能够学习图像的形状信息。
(2)训练纹理基础模型和形状基础模型:
(2.1)分别对原始数据集和形状数据集的每一个图像进行数据增强,具体过程为:对于一张图像,在图像中的随机位置生成m个矩形框,m为预设值。m的范围可以是4~7,m太大会导致数据太多而花费太多时间。框的边长一般大于图像边长的1/2,小于等于图像的边长。裁剪后的图像的标签和原始图像的标签保持一致。
(2.2)使用裁剪后的图像来训练基础模型,纹理基础模型使用原始数据集训练,形状基础模型使用形状数据集训练;纹理基础模型和形状基础模型的结构一样。都是在ResNet50网络中的最后一个block之后新增加一个自适应平均池化层AdaAvgPool,自适应平均池化层将图像进行池化,减小特征图的尺寸。将AdaAvgPool输出的特征图压缩到一维后得到特征向量Feature,将AdaAvgPool之前的特征送到分类器之后得到分类预测概率pred,分类器可以选择使用全连接层。基础模型输出Feature和pred,作用是提取输入图像的特征,并预测分类概率。
(3)训练纹理强化学习模型:
(3.1)读取图像imageglobal和对应的类别标签c。初始化一个矩形框box,尺寸和读取的图像大小一样。
(3.2)整个过程中会多次改变这个矩形框的位置和大小,如果矩形框的大小等于图像的大小,即imagelocal=imageglobal,则跳到(3.3)。如果矩形框小于图像大小,就根据框的大小对图像进行裁剪,然后上采样到和原始图像大小一样的尺寸,得到处理之后的图像imagelocal,其中上采样可以选择双线性插值。本步骤的目的是:如果矩形框是初始化的矩形框就不做任何操作,进入(3.3),如果矩形框比初始化的框小,就进行裁剪操作,并将图像上采样到和原本输入图像一样的大小,保证输入到神经网络的图像都是同样的尺寸。
(3.3)如图2所示,将imagelocal输入到纹理基础模型中得到两个输出:特征Feature和分类预测概率pred。
(3.4)将特征Feature直接输入到强化学***移,放大,缩小等等;动作的Q值表示的含义是矩形框在某一个位置采取了这个动作之后改变到另一个位置,这个过程为我们的目标(即分类)产生的影响的定量评价。如果Q值越大表示着改变位置之后的框能让分类效果变得更好,反之Q值越低表示着改变位置之后的框能让分类效果变得更差。
(3.5)在选取动作子模块中,为了得到确定的动作,此步骤分为探索和开发两种策略,二者选择其中一种。预设一个explore_rate∈(0,1),explore_rate表示选择探索的概率,相应的1-explore_rate表示选择开发的概率。探索是在所有的动作中随机选择一个动作;开发是选择(3.4)中得到的Q值最大值对应的动作作为选定动作。选定探索和开发中的一种后确定动作action,并根据选定的action和变化系数α改变框的大小或位置,得到新的矩形框box′。其中变化系数α∈(0,1),可以选择0.1。表示的含义是每次改变的比率。例如action选定为向右变大,表示box′的是box向右变大为原来的1.1倍得到的;action选定为向左变小,表示box′的是box向左变小为原来的0.9倍得到的。
(3.6)使用(3.5)得到的新矩形框box′,按照(3.2)(3.3)提取特征的过程得到另一个特征和预测概率Feature′,pred′。本步骤的目的是在改变矩形框的位置之后,可以采取同样的提取特征的操作,将框对应的区域裁剪出来,再进行上采样操作。输入到基础模型中得到特征和预测概率。
(3.8)根据pred、(3.6)中的pred′和(3.1)中的c,可以进行如下判断:如果pred在类别c上的预测分数比pred′在类别c上的预测分数高,则奖励reward=-1,对应的,如果pred在类别c上的预测分数比pred′在类别c上的预测分数低,则奖励reward=1。具体地,预测概率pred是对所有的类别都会有的一个预测分数,这个分数可以表示预测为这一个类别的概率。所以c对应的概率越大就表示着模型将样本预测对的表现就越好。所以根据两者预测概率和标签就可以判断该给模型奖励还是惩罚。reward=sign(pred′[c]-pred[c])。
(3.9)在更新Q值子模块中,根据(3.8)中得到的奖励reward更新(3.5)中选定动作action的Q值Qtarget。更新的方式为Qtarget=reward+γ*max(Q(s,a)),其中Q(s,a)表示s状态下,即特征Feature,采取action动作之后的Q值。其中γ为每一次Q值更新的学习率,γ为预设值,可以选择γ=0.9。
(3.10)将特征Feature和(3.9)中得到的Qtarget存储到经验池中。经验池是为了降低样本之间的相关性而采取的对应措施,先将成对的Feature和Qtarget存在经验池中。当经验池储存到一定数量后,再从经验池中随机选择数据来训练模型。
(3.11)将新的矩形框作为当前的框box=box′,将新的特征作为当前的特征Feature=Feature′,将新的分类预测概率作为当前的分类预测概率pred=pred′。
(3.12)重复(3.4)到(3.11)的过程至一定次数。这就是一直调整框的大小和位置的过程,可以根据(3.5)中设置的变化率来动态调整,变化率设置得大就可以少变几次,变化率小可以多变几次。
(3.13)在Q值评价子模块中,当经验池中装到一定数量的样本后,从经验池中随机选择成对的Feature和Qtarget的对应数据,记作Features和Target,将特征输到训练纹理强化学习模型,输出得到动作的Q值,记作Qeval,将Target和Qeval之间的差距作为loss,并反向传播,更新参数。loss可以选择均方误差MSE函数,表达式为loss=(Target-Qeval)2
(4)训练形状强化学习模型:
(4.1)按照(3)中的步骤,使用形状数据集训练形状强化学习模型,对于形状强化学习模型,其训练模型的过程和纹理强化学习过程一样,形状强化学习模型和纹理强化学习模型结构一样。步骤(3)和(4)是将数据集中的信息分为纹理和形状,分别用两流的思路分别学习数据集的两种不同的信息。两流的模型结构都是一样的,训练使用的数据集是预先处理好成对的数据集。所以训练过程一样。
(5)利用上述训练好的两个模型对待检测测试图像进行双流的预测和融合,包括如下子步骤:
(5.1)读取待检测图像imageglobal。初始化一个矩形框box,尺寸和读取的图像大小一样。
(5.2)对图像进行步骤(3.2)(3.3)的特征提取,得到框对应位置的特征Feature和分类预测概率pred。
(5.3)将(5.2)得到的特征输入到纹理强化学习模型中,输出所有动作的得分Q值,按照开发的策略选出Q值最大的动作并根据选定的动作改变框的大小和位置。
(5.4)重复(5.2)(5.3)的过程至一定次数,重复的次数和(3.12)中的重复过程类似和矩形框的变化率有关。将最后一次的变化后得到特征为Ftexture
(5.5)类似(5.1)到(5.4)的过程测试纹理强化学习模型,得到Fshape
(5.6)将两种不同的特征Ftexture和Fshape输入到融合模型后输出为最终的预测概率pmix,其中融合模型是一个可训练模型,目的是将Ftexture和Fshape融合之后再进行分类。举例来说,融合模型可以选择将两种特征拼接在一起之后,再用全连接层输出所有类别的分类概率。特征的融合可以尝试各种方式,甚至可以直接在预测分数上进行融合,但是分数上进行融合表现的效果没有在特征上融合的好。训练融合模型就可以根据图像对应的标签,输入使用两个特征来得到这个融合模型。
(5.7)pmix对应概率最大的类别就是预测的类别。
以下通过实验实例来证明本发明的有效性,实验结果证明本发明能够提高图像识别的识别准确率。
本发明在iFood数据集上,与我们使用的基础网络进行了对比,表1是本发明方法在该数据集上的精度,其中Backbone表示我们使用的基础模型Resnet50,DQN表示我们使用的强化学习模型。结果的数值越大表示图像识别的准确率越高,从表中可以看到,本发明方法提升非常明显。
表1在iFood数据集上的精度
Figure BDA0002252260410000121
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于强化学习的双流特征融合图像识别方法,其特征在于,所述方法包括下述步骤:
(1)生成形状数据集:
对每张图像,输入到图像转换模型中,输出对应的形状相似,但纹理不同的n张图像,转换后的n张图像的标签都和输入图像的标签相同,n为预设值;
(2)训练纹理基础模型和形状基础模型:
(2.1)分别对原始数据集和形状数据集的每一个图像进行数据增强:对于一张图像,在图像中的随机位置生成m个矩形框,框的边长大于图像边长的1/2,小于或等于图像的边长,裁剪后的图像的标签和原始图像的标签保持一致,m为预设值;
(2.2)使用裁剪后的图像来训练基础模型,其中纹理基础模型使用原始数据集训练,形状基础模型使用形状数据集训练;纹理基础模型和形状基础模型的结构一样,都是在ResNet50网络中的最后一个block之后新增加一个自适应平均池化层AdaAvgPool,自适应平均池化层用于将图像进行池化以减小特征图的尺寸,使用图像和标签训练基础模型,后续会使用基础模型提取特征并对图像进行预测;
(3)训练纹理强化学习模型:
(3.1)读取图像imageglobal和对应的类别标签c,初始化一个矩形框box,尺寸和读取的图像大小一样;
(3.2)如果矩形框的大小等于图像的大小,则跳转到(3.3);如果矩形框小于图像大小,则根据框的大小对图像进行裁剪,然后上采样到和原始图像大小一样的尺寸,得到处理之后的图像imagelocal
(3.3)将imagelocal输入到纹理基础模型中得到特征Feature和分类预测概率pred;
(3.4)将特征Feature输入到纹理强化学习模型中,纹理强化学习模型输出是动作空间中各个动作的Q值;
(3.5)通过探索和开发两种策略得到确定的动作,探索和开发二者选择其中一种,探索是在所有的动作中随机选择一个动作;开发是选择(3.4)中得到的Q值最大值对应的动作作为选定动作,选定探索和开发中的一种后确定动作action,并根据选定的action和变化系数α改变框的大小或位置,得到新的矩形框box′;
(3.6)使用(3.5)得到的新矩形框box′,按照(3.2)(3.3)提取特征的过程得到另一个特征和预测概率Feature′,pred′;
(3.8)根据pred、(3.6)中的pred′和(3.1)中的c,进行如下判断:如果pred在类别c上的预测分数比pred′在类别c上的预测分数高,则奖励reward=-1,如果pred在类别c上的预测分数比pred′在类别c上的预测分数低,则奖励reward=1;
(3.9)根据(3.8)中得到的奖励reward更新(3.5)中选定动作action的Q值Qtarget,更新的方式为Qtarget=reward+γ*max(Q(s,a)),其中Q(s,a)表示s状态下,即特征Feature采取action动作之后的Q值,γ为每一次Q值更新的学习率,γ为预设值;
(3.10)将特征Feature和(3.9)中得到的Qtarget存储到经验池中;
(3.11)将新的矩形框作为当前的框box=box′,将新的特征作为当前的特征Feature=Feature′,将新的分类预测概率作为当前的分类预测概率pred=pred′,重复(3.4)到(3.11)的过程至预设次数,当经验池中装到预设数量的样本后,从经验池中随机选择成对的Feature和Qtarget的对应数据,记作Features和Target,将特征输到纹理强化学习模型,输出得到动作的Q值,记作Qeval,将Target和Qeval之间的差距作为loss,并反向传播,更新参数;
(4)训练形状强化学习模型:
(4.1)按照(3)中的步骤,使用形状数据集训练形状强化学习模型,对于形状强化学习模型,其训练模型的过程和纹理强化学习过程一样,且形状强化学习模型和纹理强化学习模型结构也一样;
(5)利用上述训练好的两个强化模型对待检测测试图像进行双流的预测和融合,包括如下子步骤:
(5.1)读取待检测图像,初始化一个矩形框box,尺寸和待检测图像大小一样;
(5.2)对待检测图像进行步骤(3.2)(3.3)的特征提取,得到框对应位置的特征Feature和分类预测概率pred;
(5.3)将(5.2)得到的特征输入到纹理强化学习模型中,输出所有动作的得分Q值,按照开发的策略选出Q值最大的动作并根据选定的动作改变框的大小和位置;
(5.4)重复(5.2)(5.3)的过程至一定次数,重复的次数和(3.12)中的重复过程类似和矩形框的变化率有关;得到最后一次变化后的特征Ftexture
(5.5)类似(5.1)到(5.4)的过程测试纹理强化学习模型,得到Fshape
(5.6)将两种不同的特征Ftexture和Fshape输入到融合模型后输出为最终的预测概率pmix,其中融合模型是一个可训练模型,目的是将Ftexture和Fshape融合之后再进行分类;
(5.7)pmix对应概率最大的类别就是对待检测图像预测的类别。
2.根据权利要求1所述的基于强化学习的双流特征融合图像识别方法,其特征在于,所述步骤(2.2)中基础模型的训练过程具体为:将AdaAvgPool输出的特征图压缩到一维后得到特征向量Feature,将AdaAvgPool之前的特征送到分类器之后得到分类预测概率pred,基础模型输出Feature和pred,作用是提取输入图像的特征,并预测分类概率。
3.根据权利要求2所述的基于强化学习的双流特征融合图像识别方法,其特征在于,所述步骤(2.2)中的分类器选择使用全连接层。
4.根据权利要求1或2所述的基于强化学习的双流特征融合图像识别方法,其特征在于,所述步骤(3.4)具体为:将特征Feature输入到纹理强化学习模型的选取动作子模块中,选取动作子模块中有一个agent网络,模型由一些全连接层组成,使用ReLU函数作为激活函数,其函数定义式为
Figure FDA0003844305060000041
最后一层是将特征维度数量转成动作空间的动作数量,输出表示的含义是动作空间中各个动作的Q值;其中动作空间是一系列动作组合成的集合,这些动作的目的就是改变矩形框的位置或大小,动作的Q值表示的含义是矩形框在某一个位置采取了这个动作之后改变到另一个位置,这个过程为目标产生的影响的定量评价,如果Q值越大表示着改变位置之后的框能让分类效果变得更好,反之Q值越低表示着改变位置之后的框能让分类效果变得更差。
5.根据权利要求1或2所述的基于强化学***移、放大或缩小。
6.根据权利要求1或2所述的基于强化学习的双流特征融合图像识别方法,其特征在于,所述步骤(3.5)中的变化系数α∈(0,1)。
7.根据权利要求1或2所述的基于强化学习的双流特征融合图像识别方法,其特征在于,所述步骤(3.8)具体为:预测概率pred是对所有的类别都会有的一个预测分数,这个分数表示预测为这一个类别的概率,c对应的概率越大就表示着模型将样本预测对的表现就越好,所以根据两者预测概率和标签就可以判断该给模型奖励还是惩罚,reward=sign(pred′[c]-pred[c])。
8.根据权利要求1或2所述的基于强化学习的双流特征融合图像识别方法,其特征在于,所述步骤(3.11)中的loss选择MSE函数,表达式为loss=(Target-Qeval)2
9.根据权利要求1或2所述的基于强化学习的双流特征融合图像识别方法,其特征在于,所述步骤(5.6)中的融合模型选择将两种特征拼接在一起之后,再用全连接层输出所有类别的分类概率。
10.根据权利要求1或2所述的基于强化学习的双流特征融合图像识别方法,其特征在于,所述n的取值范围为5~10,所述m的取值范围是4~7。
CN201911038698.5A 2019-10-29 2019-10-29 一种基于强化学习的双流特征融合图像识别方法 Active CN110826609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911038698.5A CN110826609B (zh) 2019-10-29 2019-10-29 一种基于强化学习的双流特征融合图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911038698.5A CN110826609B (zh) 2019-10-29 2019-10-29 一种基于强化学习的双流特征融合图像识别方法

Publications (2)

Publication Number Publication Date
CN110826609A CN110826609A (zh) 2020-02-21
CN110826609B true CN110826609B (zh) 2023-03-24

Family

ID=69550977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911038698.5A Active CN110826609B (zh) 2019-10-29 2019-10-29 一种基于强化学习的双流特征融合图像识别方法

Country Status (1)

Country Link
CN (1) CN110826609B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240573B (zh) * 2020-10-26 2022-05-13 杭州火烧云科技有限公司 局部和全局并行学习的高分辨率图像风格变换方法及***
CN112597865A (zh) * 2020-12-16 2021-04-02 燕山大学 热轧带钢边部缺陷智能识别方法
CN113128522B (zh) * 2021-05-11 2024-04-05 四川云从天府人工智能科技有限公司 目标识别方法、装置、计算机设备和存储介质
TWI801038B (zh) * 2021-12-16 2023-05-01 新加坡商鴻運科股份有限公司 瑕疵檢測方法、系統、電子設備及介質
CN114742800B (zh) * 2022-04-18 2024-02-20 合肥工业大学 基于改进Transformer的强化学习电熔镁炉工况识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766080A (zh) * 2015-05-06 2015-07-08 苏州搜客信息技术有限公司 一种基于电子商务的图像多类特征识别及推送的方法
CN108805798A (zh) * 2017-05-05 2018-11-13 英特尔公司 用于深度学习框架的细粒度计算通信执行
CN109814565A (zh) * 2019-01-30 2019-05-28 上海海事大学 时空双流数据驱动深度q学习的无人船智能航行控制方法
CN110135502A (zh) * 2019-05-17 2019-08-16 东南大学 一种基于强化学习策略的图像细粒度识别方法
CN110348355A (zh) * 2019-07-02 2019-10-18 南京信息工程大学 基于强化学习的车型识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766080A (zh) * 2015-05-06 2015-07-08 苏州搜客信息技术有限公司 一种基于电子商务的图像多类特征识别及推送的方法
CN108805798A (zh) * 2017-05-05 2018-11-13 英特尔公司 用于深度学习框架的细粒度计算通信执行
CN109814565A (zh) * 2019-01-30 2019-05-28 上海海事大学 时空双流数据驱动深度q学习的无人船智能航行控制方法
CN110135502A (zh) * 2019-05-17 2019-08-16 东南大学 一种基于强化学习策略的图像细粒度识别方法
CN110348355A (zh) * 2019-07-02 2019-10-18 南京信息工程大学 基于强化学习的车型识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Fine-grained Image Classification via Combining Vision and Language;Xiangteng He等;《Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition》;20170731;第5994-6002页 *

Also Published As

Publication number Publication date
CN110826609A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110826609B (zh) 一种基于强化学习的双流特征融合图像识别方法
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
EP3757905A1 (en) Deep neural network training method and apparatus
CN110555433B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN111461127A (zh) 基于一阶段目标检测框架的实例分割方法
CN115858847B (zh) 基于跨模态注意力保留的组合式查询图像检索方法
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
CN115222998B (zh) 一种图像分类方法
CN111274981A (zh) 目标检测网络构建方法及装置、目标检测方法
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN116912708A (zh) 一种基于深度学习的遥感影像建筑物提取方法
Fan et al. A novel sonar target detection and classification algorithm
CN110287981B (zh) 基于生物启发性表征学习的显著性检测方法及***
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
CN117217807B (zh) 一种基于多模态高维特征的不良资产估值方法
US20220301106A1 (en) Training method and apparatus for image processing model, and image processing method and apparatus
CN113128564A (zh) 一种基于深度学习的复杂背景下典型目标检测方法及***
CN116229104A (zh) 一种基于边缘特征引导的显著性目标检测方法
CN116503753A (zh) 一种基于多模态空域变换网络的遥感图像场景分类方法
CN115512207A (zh) 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法
CN115082840A (zh) 基于数据组合和通道相关性的动作视频分类方法和装置
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN114842488A (zh) 图像标题文本确定方法、装置、电子设备及存储介质
CN113743497A (zh) 基于注意力机制与多尺度特征的细粒度识别方法及***
CN114170460A (zh) 一种基于多模态融合的艺术品分类方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant