CN109636846B - 基于循环注意力卷积神经网络的目标定位方法 - Google Patents
基于循环注意力卷积神经网络的目标定位方法 Download PDFInfo
- Publication number
- CN109636846B CN109636846B CN201811486423.3A CN201811486423A CN109636846B CN 109636846 B CN109636846 B CN 109636846B CN 201811486423 A CN201811486423 A CN 201811486423A CN 109636846 B CN109636846 B CN 109636846B
- Authority
- CN
- China
- Prior art keywords
- subnet
- positioning
- network
- judgment
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于物体检测领域,具体公开了基于循环注意力卷积神经网络的目标定位方法,应用于物体检测领域下的目标定位;所述方法包括构建一个类似于RA‑CNN三层网络结构的双网络模型;定位子网用于输出目标的边界框;判定子网用于给出定位子网输出的边界框的得分;本发明的数据集只需二分类标签,而不需人工标注的边界框,同时减少了计算的消耗。
Description
技术领域
本发明涉及深度学习领域和物体检测领域,具体是使用深度学习技术实现物体检测下的目标定位;具体为一种基于循环注意力卷积神经网络(Recurrent AttentionConvolutional Neural Network,RA-CNN)的目标定位方法。
背景技术
自从深度学习技术在物体检测上被使用,涌现了一批优秀的算法,使得目标识别有了很大的进展。如较早Girshick等人提出的R-CNN,R-CNN先使用选择搜索算法根据颜色,边缘,纹理等特征快速的找到可能存在目标的候选框,对每一个进行归一化处理后的候选框用卷积网络提取特征,最后再用svm算法进行判定和使用回归器精细修正候选框位置。He,Kaiming等人对R-CNN进行改进提出了SPP-net,它最大的改进是一张图片只用进行一次卷积运算,大大减少了运算消耗,首先同R-CNN一样使用选择搜索算法得到候选区,再对一整张原图进行卷积特征提取得到特征图,在特征图上找到候选区的映射,然后对候选区映射进行金字塔池化得到固定大小的输出,用于全连接网络。之后和R-CNN同样使用svm算法。Girshick,Ross结合SPP-net提出ROI池化,同时把网络最后输出改成了两个,一个是对候选区用softmax分类,另一个是对边界框的微调,同时指出SPP-net训练时的不足,它将同张图片的候选区作为一个批次进行学习,这样相当于一个批次一张图片。Ren,Shaoqing et al提出的Faster R-CNN,它最大的改进是提出的PRN,用来生成候选区域,这几个方法解决了需要用到选择搜索算法生成候选区域,从而进一步降低了计算时间,同时也实现了完全端到端的学习。YOLO是把问题变为回归问题来做的,把每张图片分成S×S个格子,每个格子负责中心在该格子的目标检测,通过卷积网络每个格子都会输出类别和边界框。
然而前面五种方法都会依赖人工标注的边界框,而第一至第四种方法在使用IOU阈值时会用到人工标注的边界框,而第五种方法是在损失函数中直接使用人工标注的边界框信息进行监督训练。
RA-CNN是用于fine-grained分类,它最大的特点就是不依赖于人工标注的边界框。它有三层类似的网络结构,每一层都会用同样的卷积网络进行特征提取,之后会分成两部分,一部分是sotfmax分类器,用于对图像的分类,另一部分是APN,用于生成关注区域。第一层的输入是原图,之后两层的输入是APN生成的关注区域。
与物体检测不同的是,在目标定位任务中目标对象的类别是已知的,这使我们能够更准确地预测目标对象类别的边界框,而忽略了图像中对象类别的实际数量。因此,目标定位是物体检测的中间步骤,目标定位的有效解决方法对物体检测的研究具有重要的启发意义。
发明内容
本发明旨在解决现有物体检测算法对人工标注边界框的依赖,提供一种基于RA-CNN的单一类别的弱监督目标定位方法。本发明的技术方案如下:
S1、构建判定子网,对判定子网的数据集进行预处理;
S2、在所述判定子网中输入其数据集图像,利用损失函数对所述判定子网进行训练,计算出第一损失函数,判断第一损失函数是否收敛,若未收敛,则进入步骤S3,否则进入步骤S4;
S3、使用梯度下降算法更新判定子网的参数,返回步骤S2;
S4、构建定位子网,在定位子网中输入其训练集图像X,输出预测的边界框的四个参数;
S5、根据这四个参数,预测出图像X',将其输入到训练好的判定子网,输出得分,利用第二损失函数对所述定位子网进行训练,计算出第二损失函数;判断第二损失函数是否收敛,若收敛,则进入步骤S6,否则进入步骤S7;
S6、使用梯度下降算法更新定位子网的参数,返回步骤S5;
S7、将定位子网的测试集图像输入到训练好的定位子网得到预测的边界框,即确定出目标的相对位置。
优选的,所述判定子网包括采用二分类卷积网络,其卷积特征提取器后连接只有一个输出的全连接网络。
进一步的,所述判定子网包括一个卷积网络,其卷积特征提取器后面是一个有四个输出,依次为x,y,h,w的全连接网络,四个输出的取值范围都是0到1,x,y是预测的边界框中心相对于原输入图像的坐标,h,w是预测的边界框相对于原输入图像的长宽比例。
可以理解的是,在图片内的目标定位就是预测边界框,即在一张图片内把目标相对于图片的位置找出来,
判定子网:它是一个二分类卷积网络,卷积特征提取器后面是一个只有一个输出的全连接网络,用于对定位子网输出的边界框内的图像进行判定打分,以及用于对定位子网的训练监督,所以它在训练定位子网之前已经完成训练了,并且在训练定位子网过程中不参加训练。
定位子网:它也是一个卷积网络,卷积特征提取器后面是一个有四个输出x,y,h,w的全连接网络,四个输出的取值范围都应是0到1,x,y是预测的边界框中心相对于原输入图像的坐标,h,w是预测的边界框相对于原输入图像的长宽比例。为达到取值范围的要求,全连接网络最后一层使用sigmoid激活函数公式(1)
训练策略:应先对判定子网的全连接部分使用梯度下降算法进行训练,损失函数使用逻辑回归损失函数公式(2)
n为一个批次的图片数量。y为正确的标签,为判定子网的输出,H为sigmoid函数。数据集应选用目标占比在90%左右(即目标几乎占满整个图片)的图片作为正例,目标占比较小和其他类别的图片作为负例。判定子网训练完成之后就可以对定位子网训练,定位子网的训练只训练全连接部分,同样使用梯度下降算法,梯度是由判定子网传下来的,这个时候判定子网的损失函数为公式(3)
本发明的优点及有益效果如下:
1、本发明通过双网络结构模型,结合生成对抗网络的思想,能够解决现有物体检测算法对人工标注边界框的依赖。
2、判定子网与训练子网采用相同的卷积网络,其输入图像尺寸和卷积特征提取器一致。
3、在训练定位子网过程中只对定位子网的全连接部分进行训练,这个时候的训练集没有特殊要求,只要图中含有目标即可,能节约时间成本;
4、本发明的数据集只需二分类标签,而不需人工标注的边界框,同时减少了计算的消耗。
5、本发明是端到端的模型。
6、本发明是基于回归的目标定位方法,相对于RCNN系列基于候选框的方法速度有所提升。
附图说明
图1为本发明的训练流程图;
图2为本发明的网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
如图1所示,本发明的基于循环注意力卷积神经网络的目标定位方法,包括以下:
第一步构建判定子网:
判定子网:如图2所示,它是一个二分类卷积网络,卷积特征提取器(如:VGG net,Alex net等不包括原本的全连接部分)后面连接一个只有一个输出的全连接网络,用于对定位子网预测的边界框内的图像进行判定打分,以及用于对定位子网的训练监督,所以它在训练定位子网之前已经完成训练了,并且在训练定位子网过程中不参加训练。
第二步训练判定子网:
对判定子网的数据集进行padding预处理,以达到输入尺寸要求,输入图像到判定子网,从而计算出第一损失函数;在判定子网训练过程中仅需要训练全连接部分,第一损失函数使用逻辑回归损失函数公式(2)
n为一个批次的图片数量。y为正确的标签,为判定子网的输出,H为sigmoid函数。数据集应选用目标占比在90%左右(即目标几乎占满整个图片)的图片作为正例,目标占比较小和其他类别的图片作为负例。在训练开始之前应先对图像做padding处理以达到输入尺寸要求,训练算法使用梯度下降算法。
第三步构建定位子网:
定位子网:如图2所示,它也是一个卷积网络,输入图像尺寸和卷积特征提取器应与判定子网相同,卷积特征提取器后面连接一个有四个输出x,y,h,w的全连接网络,四个输出的取值范围都应是0到1,x,y是输出的边界框中心相对于原输入图像的坐标,h,w是输出的边界框相对于原输入图像的长宽比例。为达到取值范围的要求,全连接网络最后一层使用sigmoid激活函数。然后边界框内的图像会作为判定子网的输入。
第四步训练定位子网:
在训练定位子网过程中只对定位子网的全连接部分进行训练,这个时候的训练集没有特殊要求,只要图中含有目标即可。首先输入定位子网的训练集图片X,先经过定位子网输出预测的边界框四个参数,四个参数通过公式(4)、(5)得到一个掩码矩阵M。
其中,tx(tl)表示边界框的左上方的横坐标;tx(br)表示边界框的右下方的横坐标;ty(tl)表示边界框的左上方的纵坐标;ty(br)表示边界框的右下方的纵坐标;是训练集图像X每个像素点的坐标。x,y是预测的边界框中心相对于原输入图像的坐标;h,w是预测的边界框相对于原输入图像的长宽比例。 是训练集图像X每个像素点的坐标;H为sigmoid函数,表示为之后掩码矩阵M再和原图像X做元素相乘就可以得到预测的边界框内的图像X′,如公式(6)
X′=X⊙M (6)
可以理解的是,梯度是对损失函数求的偏导数,也就是说S5的梯度是对第二损失函数的偏导数,S3的梯度是对第一损失函数求偏导数,梯度下降算法是用来逐层更新参数的。梯度下降算法是深度学习的核心,已在各个深度学习框架内已经封装好了,本领域技术人员可根据现有技术进行适当的选择。
第五步使用或测试
此阶段不需要判定子网参与,直接把原始图像输入到定位子网即可得到预测的边界框,即确定出目标的相对位置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.基于循环注意力卷积神经网络的目标定位方法,其特征在于,包括以下步骤:
S1、构建判定子网,对判定子网的数据集进行预处理;
S2、在所述判定子网中输入其数据集图像,利用损失函数对所述判定子网进行训练,计算出第一损失函数,判断第一损失函数是否收敛,若未收敛,则进入步骤S3,否则进入步骤S4;
S3、使用梯度下降算法更新判定子网的参数,返回步骤S2;
S4、构建定位子网,在定位子网中输入其训练集图像X,输出预测的边界框的四个参数;
S5、根据这四个参数,预测出图像X',将其输入到训练好的判定子网,输出得分,利用第二损失函数对所述定位子网进行训练,计算出第二损失函数;判断第二损失函数是否收敛,若未收敛,则进入步骤S6,否则进入步骤S7;
S6、使用梯度下降算法更新定位子网的参数,返回步骤S5;
S7、将定位子网的测试集图像输入到训练好的定位子网得到预测的边界框,即确定出目标的相对位置;其中,
所述判定子网包括采用二分类卷积网络,其卷积特征提取器后连接只有一个输出的全连接网络,用于对定位子网预测的边界框内的图像进行判定打分,以及用于对定位子网的训练监督;
所述定位子网包括一个卷积网络,输入图像尺寸和卷积特征提取器应与判定子网相同,其卷积特征提取器后面是一个有四个输出,依次为x,y,h,w的全连接网络,四个输出的取值范围都是0到1,x,y是预测的边界框中心相对于原输入图像的坐标,h,w是预测的边界框相对于原输入图像的长宽比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811486423.3A CN109636846B (zh) | 2018-12-06 | 2018-12-06 | 基于循环注意力卷积神经网络的目标定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811486423.3A CN109636846B (zh) | 2018-12-06 | 2018-12-06 | 基于循环注意力卷积神经网络的目标定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109636846A CN109636846A (zh) | 2019-04-16 |
CN109636846B true CN109636846B (zh) | 2022-10-11 |
Family
ID=66071550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811486423.3A Active CN109636846B (zh) | 2018-12-06 | 2018-12-06 | 基于循环注意力卷积神经网络的目标定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109636846B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443852B (zh) * | 2019-08-07 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种图像定位的方法及相关装置 |
CN111126453B (zh) * | 2019-12-05 | 2022-05-03 | 重庆邮电大学 | 基于注意力机制和切割填充的细粒度图像分类方法及*** |
CN111192320B (zh) * | 2019-12-30 | 2023-07-25 | 上海联影医疗科技股份有限公司 | 一种位置信息确定方法、装置、设备和存储介质 |
CN111898411B (zh) * | 2020-06-16 | 2021-08-31 | 华南理工大学 | 文本图像标注***、方法、计算机设备和存储介质 |
CN112052876B (zh) * | 2020-08-04 | 2022-05-06 | 烽火通信科技股份有限公司 | 一种基于改进ra-cnn的细粒度图像检测方法与*** |
CN113706491B (zh) * | 2021-08-20 | 2024-02-13 | 西安电子科技大学 | 基于混合注意力弱监督迁移学习的半月板损伤分级方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778590A (zh) * | 2016-12-09 | 2017-05-31 | 厦门大学 | 一种基于卷积神经网络模型的暴恐视频检测方法 |
CN106845430A (zh) * | 2017-02-06 | 2017-06-13 | 东华大学 | 基于加速区域卷积神经网络的行人检测与跟踪方法 |
CN107527355A (zh) * | 2017-07-20 | 2017-12-29 | 中国科学院自动化研究所 | 基于卷积神经网络回归模型的视觉跟踪方法、装置 |
CN108898060A (zh) * | 2018-05-30 | 2018-11-27 | 珠海亿智电子科技有限公司 | 车载环境下基于卷积神经网络的车型识别方法 |
CN109902806A (zh) * | 2019-02-26 | 2019-06-18 | 清华大学 | 基于卷积神经网络的噪声图像目标边界框确定方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7106891B2 (en) * | 2001-10-15 | 2006-09-12 | Insightful Corporation | System and method for determining convergence of image set registration |
US11308350B2 (en) * | 2016-11-07 | 2022-04-19 | Qualcomm Incorporated | Deep cross-correlation learning for object tracking |
-
2018
- 2018-12-06 CN CN201811486423.3A patent/CN109636846B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778590A (zh) * | 2016-12-09 | 2017-05-31 | 厦门大学 | 一种基于卷积神经网络模型的暴恐视频检测方法 |
CN106845430A (zh) * | 2017-02-06 | 2017-06-13 | 东华大学 | 基于加速区域卷积神经网络的行人检测与跟踪方法 |
CN107527355A (zh) * | 2017-07-20 | 2017-12-29 | 中国科学院自动化研究所 | 基于卷积神经网络回归模型的视觉跟踪方法、装置 |
CN108898060A (zh) * | 2018-05-30 | 2018-11-27 | 珠海亿智电子科技有限公司 | 车载环境下基于卷积神经网络的车型识别方法 |
CN109902806A (zh) * | 2019-02-26 | 2019-06-18 | 清华大学 | 基于卷积神经网络的噪声图像目标边界框确定方法 |
Non-Patent Citations (1)
Title |
---|
RA-CNN算法笔记(转载);法相;《CSDN 博客》;20180726;第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109636846A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109636846B (zh) | 基于循环注意力卷积神经网络的目标定位方法 | |
CN111444821B (zh) | 一种城市道路标志自动识别方法 | |
US20200285896A1 (en) | Method for person re-identification based on deep model with multi-loss fusion training strategy | |
CN107092870B (zh) | 一种高分辨率影像语义信息提取方法 | |
CN110598029B (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN110163187B (zh) | 基于f-rcnn的远距离交通标志检测识别方法 | |
CN108416266B (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
CN107818302A (zh) | 基于卷积神经网络的非刚性多尺度物体检测方法 | |
CN108171112A (zh) | 基于卷积神经网络的车辆识别与跟踪方法 | |
CN108875624A (zh) | 基于多尺度的级联稠密连接神经网络的人脸检测方法 | |
CN111079602A (zh) | 基于多尺度区域特征约束的车辆细粒度识别方法及装置 | |
CN112070729B (zh) | 一种基于场景增强的anchor-free遥感图像目标检测方法及*** | |
CN106845430A (zh) | 基于加速区域卷积神经网络的行人检测与跟踪方法 | |
CN107945153A (zh) | 一种基于深度学习的路面裂缝检测方法 | |
CN109241982A (zh) | 基于深浅层卷积神经网络的目标检测方法 | |
CN106778835A (zh) | 融合场景信息和深度特征的遥感图像机场目标识别方法 | |
CN106127173A (zh) | 一种基于深度学习的人体属性识别方法 | |
CN112464911A (zh) | 基于改进YOLOv3-tiny的交通标志检测与识别方法 | |
CN106023257A (zh) | 一种基于旋翼无人机平台的目标跟踪方法 | |
CN106815323A (zh) | 一种基于显著性检测的跨域视觉检索方法 | |
CN111612051A (zh) | 一种基于图卷积神经网络的弱监督目标检测方法 | |
CN110956158A (zh) | 一种基于教师学生学习框架的遮挡行人再标识方法 | |
CN110889421A (zh) | 目标物检测方法及装置 | |
CN108256462A (zh) | 一种商场监控视频中的人数统计方法 | |
CN111368660A (zh) | 一种单阶段半监督图像人体目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |