CN109492636A - 基于自适应感受野深度学习的目标检测方法 - Google Patents
基于自适应感受野深度学习的目标检测方法 Download PDFInfo
- Publication number
- CN109492636A CN109492636A CN201811154088.7A CN201811154088A CN109492636A CN 109492636 A CN109492636 A CN 109492636A CN 201811154088 A CN201811154088 A CN 201811154088A CN 109492636 A CN109492636 A CN 109492636A
- Authority
- CN
- China
- Prior art keywords
- rois
- boxes
- section
- network
- anchor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
一种基于自适应感受野深度学习的目标检测方法,包括以下步骤:步骤1:在网上采集图片作为数据集;步骤2:对采集到的图片进行预处理;步骤3:对采集到的图片按照设定的比例进行划分;步骤4:将训练集输入到网络中,进行训练;步骤5:在基底网络提取特征的基础上,用一个浅层的网络进行预测;步骤6:在基底网络提取特征的基础上,使用RPN网络提取ROIs;步骤7:将步骤5预测到结果作用到步骤6提取到的ROIs上;步骤8:将步骤7面积调整后的ROIs进行区域归一化操作;步骤9:将步骤8的结果分别输入到两个全连接层中,分别进行ROIs位置的回归训练以及ROIs的分类训练。本发明提高深度神经网络的性能。
Description
技术领域
本发明涉及计算机人工智能技术领域,特别涉及一种基于自适应感受野深度学习的目标检测方法。
技术背景
随着人工智能领域深度学习的快速发展,计算机视觉越来越多的领域受到了巨大的机遇和挑战。很多计算机视觉任务如分割,分类,识别检测等在性能上取得了巨大的进步和提高,如在分类任务中,神经网络的分类准确率已经超过人类。在目标检测领域,深度学习的算法性能也远超传统的目标检测方法。
在卷积神经网络中,感受野起着非常重要的作用。感受野是指卷积神经网络结构中,某个特征映射到输入空间的区域大小。对于某一特征的感受野,可以通过它的中心位置和它的尺寸大小来描述。感受野越大,那么其对应的全局文本信息和语义信息越丰富,这有助神经网络对物体之间的关系进行推断;但是感受野越大,那么其对应的计算量就越大。反之,感受野越小,则其对应的特征就比较局部,图像的细节特征比较丰富。
无论是在基于深度学习的语义分割任务中,还是在目标检测任务中,感受野大小的选取直接影响着深度神经网络的性能。科研人员们对感受野的重视程度越来越高,因此如何对感受野大小的进行选择也是一个热门的研究课题。
发明内容
为了克服如何选择感受野的大小使网络性能最优化这个问题,本发明提出一种基于自适应感受野深度学习的目标检测方法,在目标检测任务中可以根据具体的物体对象自适应的调整感受野的大小,从而提高深度神经网络的性能。
本发明解决其技术问题所采用的技术方案是:
一种基于自适应感受野深度学习的目标检测方法,所述的方法包括以下步骤:
步骤1:在网上采集图片作为数据集;
步骤2:对采集到的图片进行预处理,包括随机的裁剪、翻转以及尺寸的归一化;
步骤3:对采集到的图片按照设定的比例进行划分,分为训练集和验证集;
步骤4:将训练集输入到网络中,进行训练,选取ResNet,DenseNet作为基底网络进行特征的提取;
步骤5:在基底网络提取特征的基础上,用一个浅层的网络进行预测,预测的结果维数为二维(N*5)其中N为ROIS的数量,5是指1个比率r,以及左上和右下的偏移信息,比率r的作用是计算众数的区间;
步骤6:在基底网络提取特征的基础上,使用RPN网络提取ROIs;
步骤7:将步骤5预测到结果作用到步骤6提取到的ROIs上,即将步骤5预测的左上角偏移和右下角偏移作用在ROIs的左上角和右下角的的坐标上,通过调整ROIs的面积,从而调整Proposals所对应的感受野的面积;
步骤8:将步骤7面积调整后的ROIs进行区域归一化操作,选取每个区域内落在某个像素值区内像素值的平均值作为输出,区间的选取是根据区间内像素的数量,选取像素数量最多的区间作为最优的区间;
步骤9:将步骤8的结果分别输入到两个全连接层中,分别进行ROIs位置的回归训练以及ROIs的分类训练。
本发明的有益效果表现在:在目标检测任务中可以根据具体的物体对象自适应的调整感受野的大小,从而提高深度神经网络的性能。
附图说明
图1是检测的整体框的示意图。
图2是计算像素值区间流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方案并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参照图1和图2,一种基于自适应感受野深度学习的目标检测方法,所述的方法包括以下步骤:
步骤1:在网上采集图片作为数据集;
步骤2:对采集到的图片进行预处理,包括随机的裁剪、翻转(左右翻转,上下翻转)以及图片尺寸大小的归一化处理;
步骤3:对采集到的图片,按照设定的比率进行划分,分为训练集和验证集(比如按照3:1等,这个根据实际情况进行选择);
步骤4:将训练集输入到深度神经网络中,提取特征;可以选取预训练的ResNet,DenseNet等,具体的层数可以根据实际情况选取,比如ResNet-50,ResNet-101等;比如数据集的数量比较少,则应该选取浅层的网络,这样网络的参数的数量相对比较少,可以防止过拟合;由于网络是预训练的,故网络卷积核的初始参数(权值w和偏差b)已经给出,使用预训练模型的好处是可以加快收敛速度,提高网络的准确率;
步骤5:在步骤4基底网络的基础上,加入一个浅层的网络,网络的结构为一层卷积层,一层激活层,以及池化层,其中卷积层的参数选择为3*3的卷积核大小,卷积核的权值有高斯分布给出,高斯分布的均值为0,方差为0.001;卷积核的数量为N*5,其中N为ROIs的数量,5的含义为1个比率r和Proposals的左上角和右下角的偏移坐标,以此来调整ROIs对应的感受野的大小;激活层选取的是LeakyReLU(Leaky Rectified Linear Unit)激活函数。Pooling层的作用是降维;
步骤6:将步骤4的结果输入到RPN网络中,RPN网络的主要有三个卷积,首先第一个大小为3*3数量为512的卷积进行提取特征,另外1个大小为1*1的卷积进行Anchor-box的偏移的预测,卷积核的数量为4*N(其中4指的是Anchor-boxes相对于ground-truth的偏移,N为Anchor-boxes的数量);另外一个大小为1*1的卷积核进行Anchor-boxes类别的预测,卷积核的数量为2*N(2是指类别数量,这里预测的类别为是否为背景,N是Anchor-boxes的数量)。以上3个卷积权值参数均有均值为0,方差为0.001的高斯分布给出;Anchor-boxes由如下方式产生:对featuremap每个像素点按照一定的尺寸大小和比率大小产生,比如选取3个尺寸大小,3个比率大小,则每个像素点会产生9个不同大小的Anchor-boxes;将预测到的Anchor-boxes的偏移作用到Anchor-boxes得到Proposal-boxes;根据Proposal-boxes的Score,利用非极大值抑制(NMS)筛选出最终的ROIs;其中Score的计算方法如下:根据Proposal-boxes与ground-truth的overlap(重叠面积比率)得出。NMS即为选取score保留最高的boxes,其他boxes与score最高的boxes的面积的比若大于预先设定的阈值,则去除该box,反之则保留;
步骤7:将步骤5预测的结果作用到ROIs上,其中将步骤5预测的左上角和右下角的位置偏移和ROIs的左上角和右下角的坐标相加,这样RPN(Region Proposal Network)预测的ROIs的区域就会发生改变,ROIs所对应的感受野就会进行调整,则该网络可以根据是否需要全局文本信息进行调整ROIs的面积大小;
步骤8:由与全连接层的输入是固定的大小,而每个ROIs的大小不一致,因此需要将ROIs进行归一化处理(即为ROIPooling),但与ROIPooling操作不同的是,不采取每个区域的最大值作为输出,而是选取每个区域内落在某个像素值区内像素值的平均值作为输出,区间的选取是根据区间内像素的数量,选取像素数量最多的区间作为最优的区间;
根据步骤5预测的比率r和像素值大小进行区间的选取,方法为:迭代每个像素,每个像素的区间的像素值P乘以比率r得到差值α,区间的左值为像素值减去差值α,区间的右值为像素值加上去差值α,得到像素值区间为[P-α,P+α];选择区间内像素数量最多的区间为最终的区间,对所选区间内的像素值取平均值,将该平均值作为该区域的输出。在进行反向传播时,将该平均值作为每个像素位置的像素值;
步骤9:将步骤8的结果分别输入到两个全连接层中,分别进行ROIs位置的回归训练以及ROIs的分类训练;其中全连接层的参数设定,根据实际情况来选取。比如分类的类别为21类,则分类全连接层的数量为21,另外一个全连接层为4*21。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所做的的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (3)
1.一种基于自适应感受野深度学习的目标检测方法,其特征在于,所述的方法包括以下步骤:
步骤1:在网上采集图片作为数据集;
步骤2:对采集到的图片进行预处理,包括随机的裁剪、翻转以及尺寸的归一化;
步骤3:对采集到的图片按照设定的比例进行划分,分为训练集和验证集;
步骤4:将训练集输入到网络中,进行训练,选取ResNet,DenseNet作为基底网络进行特征的提取;
步骤5:在基底网络提取特征的基础上,用一个浅层的网络进行预测,预测的结果维数为二维,即N*5;其中,N为ROIS的数量,5是指1个比率r,以及左上和右下的偏移信息,比率r的作用是计算众数的区间;
步骤6:在基底网络提取特征的基础上,使用RPN网络提取ROIs;
步骤7:将步骤5预测到结果作用到步骤6提取到的ROIs上,即将步骤5预测的左上角偏移和右下角偏移作用在ROIs的左上角和右下角的坐标上,通过调整ROIs的面积,从而调整Proposals所对应的感受野的面积;
步骤8:将步骤7面积调整后的ROIs进行区域归一化操作,选取每个区域内落在某个像素值区内像素值的平均值作为输出,区间的选取是根据区间内像素的数量,选取像素数量最多的区间作为最优的区间;
步骤9:将步骤8的结果分别输入到两个全连接层中,分别进行ROIs位置的回归训练以及ROIs的分类训练。
2.如权利要求1所述的一种基于自适应感受野深度学习的目标检测方法,其特征在于,所述步骤6中,将步骤4的结果输入到RPN网络中,RPN网络的主要有三个卷积,首先第一个大小为3*3数量为512的卷积进行提取特征,另外1个大小为1*1的卷积进行Anchor-box的偏移的预测,卷积核的数量为4*N,其中4指的是Anchor-boxes相对于ground-truth的偏移,N为Anchor-boxes的数量;另外一个大小为1*1的卷积核进行Anchor-boxes类别的预测,卷积核的数量为2*N,2是指类别数量,这里预测的类别为是否为背景,N是Anchor-boxes的数量;以上3个卷积权值参数均有均值为0,方差为0.001的高斯分布给出;Anchor-boxes由如下方式产生:对featuremap每个像素点按照一定的尺寸大小和比率大小产生,比如选取3个尺寸大小,3个比率大小,则每个像素点会产生9个不同大小的Anchor-boxes;将预测到的Anchor-boxes的偏移作用到Anchor-boxes得到Proposal-boxes;根据Proposal-boxes的Score,利用非极大值抑制(NMS)筛选出最终的ROIs;其中Score的计算方法如下:根据Proposal-boxes与ground-truth的重叠面积比率overlap得出;NMS即为选取score保留最高的boxes,其他boxes与score最高的boxes的面积的比若大于预先设定的阈值,则去除该box,反之则保留。
3.如权利要求1或2所述的一种基于自适应感受野深度学***均值,将该平均值作为该区域的输出,在进行反向传播时,将该平均值作为每个像素位置的像素值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811154088.7A CN109492636B (zh) | 2018-09-30 | 2018-09-30 | 基于自适应感受野深度学习的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811154088.7A CN109492636B (zh) | 2018-09-30 | 2018-09-30 | 基于自适应感受野深度学习的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492636A true CN109492636A (zh) | 2019-03-19 |
CN109492636B CN109492636B (zh) | 2021-08-03 |
Family
ID=65689366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811154088.7A Active CN109492636B (zh) | 2018-09-30 | 2018-09-30 | 基于自适应感受野深度学习的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492636B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046572A (zh) * | 2019-04-15 | 2019-07-23 | 重庆邮电大学 | 一种基于深度学习的地标建筑物识别与检测方法 |
CN111860175A (zh) * | 2020-06-22 | 2020-10-30 | 中国科学院空天信息创新研究院 | 一种基于轻量化网络的无人机影像车辆检测方法及装置 |
CN112052861A (zh) * | 2019-06-05 | 2020-12-08 | 高新兴科技集团股份有限公司 | 深度卷积神经网络有效感受野的计算方法及存储介质 |
CN112906687A (zh) * | 2019-12-03 | 2021-06-04 | 上海智臻智能网络科技股份有限公司 | 图片文字定位方法、装置、计算机设备和存储介质 |
CN113569878A (zh) * | 2020-04-28 | 2021-10-29 | 南京行者易智能交通科技有限公司 | 一种基于分数图的目标检测模型训练方法及目标检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229904A (zh) * | 2017-04-24 | 2017-10-03 | 东北大学 | 一种基于深度学习的目标检测与识别方法 |
CN108520273A (zh) * | 2018-03-26 | 2018-09-11 | 天津大学 | 一种基于目标检测的稠密小商品快速检测识别方法 |
CN108537775A (zh) * | 2018-03-02 | 2018-09-14 | 浙江工业大学 | 一种基于深度学习检测的癌细胞跟踪方法 |
CN108550133A (zh) * | 2018-03-02 | 2018-09-18 | 浙江工业大学 | 一种基于Faster R-CNN的癌细胞检测方法 |
CN108564097A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
-
2018
- 2018-09-30 CN CN201811154088.7A patent/CN109492636B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229904A (zh) * | 2017-04-24 | 2017-10-03 | 东北大学 | 一种基于深度学习的目标检测与识别方法 |
CN108564097A (zh) * | 2017-12-05 | 2018-09-21 | 华南理工大学 | 一种基于深度卷积神经网络的多尺度目标检测方法 |
CN108537775A (zh) * | 2018-03-02 | 2018-09-14 | 浙江工业大学 | 一种基于深度学习检测的癌细胞跟踪方法 |
CN108550133A (zh) * | 2018-03-02 | 2018-09-18 | 浙江工业大学 | 一种基于Faster R-CNN的癌细胞检测方法 |
CN108520273A (zh) * | 2018-03-26 | 2018-09-11 | 天津大学 | 一种基于目标检测的稠密小商品快速检测识别方法 |
Non-Patent Citations (1)
Title |
---|
SHAOQING REN等: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046572A (zh) * | 2019-04-15 | 2019-07-23 | 重庆邮电大学 | 一种基于深度学习的地标建筑物识别与检测方法 |
CN112052861A (zh) * | 2019-06-05 | 2020-12-08 | 高新兴科技集团股份有限公司 | 深度卷积神经网络有效感受野的计算方法及存储介质 |
CN112906687A (zh) * | 2019-12-03 | 2021-06-04 | 上海智臻智能网络科技股份有限公司 | 图片文字定位方法、装置、计算机设备和存储介质 |
CN113569878A (zh) * | 2020-04-28 | 2021-10-29 | 南京行者易智能交通科技有限公司 | 一种基于分数图的目标检测模型训练方法及目标检测方法 |
CN113569878B (zh) * | 2020-04-28 | 2024-03-01 | 南京行者易智能交通科技有限公司 | 一种基于分数图的目标检测模型训练方法及目标检测方法 |
CN111860175A (zh) * | 2020-06-22 | 2020-10-30 | 中国科学院空天信息创新研究院 | 一种基于轻量化网络的无人机影像车辆检测方法及装置 |
CN111860175B (zh) * | 2020-06-22 | 2021-10-29 | 中国科学院空天信息创新研究院 | 一种基于轻量化网络的无人机影像车辆检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109492636B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492636A (zh) | 基于自适应感受野深度学习的目标检测方法 | |
CN110929578B (zh) | 一种基于注意力机制的抗遮挡行人检测方法 | |
Shan et al. | Automatic facial expression recognition based on a deep convolutional-neural-network structure | |
CN104834922B (zh) | 基于混合神经网络的手势识别方法 | |
US9449432B2 (en) | System and method for identifying faces in unconstrained media | |
CN105184309B (zh) | 基于cnn和svm的极化sar图像分类 | |
JP6788264B2 (ja) | 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム | |
CN104636097B (zh) | 一种基于眼睛的字体大小自适应调整方法及移动终端 | |
CN107808132A (zh) | 一种融合主题模型的场景图像分类方法 | |
CN106845527A (zh) | 一种菜品识别方法 | |
CN107871101A (zh) | 一种人脸检测方法及装置 | |
CN104850825A (zh) | 一种基于卷积神经网络的人脸图像颜值计算方法 | |
CN104331151A (zh) | 基于光流法的手势运动方向识别方法 | |
CN111931641B (zh) | 基于权重多样性正则化的行人重识别方法及其应用 | |
CN110110719A (zh) | 一种基于注意层区域卷积神经网络的目标检测方法 | |
CN106778852A (zh) | 一种修正误判的图像内容识别方法 | |
CN109977781A (zh) | 人脸检测方法及装置、可读存储介质 | |
CN102254180A (zh) | 一种基于几何特征的人脸美感分析方法 | |
CN107977660A (zh) | 基于背景先验和前景节点的感兴趣区域检测方法 | |
CN105528757A (zh) | 一种基于内容的图像美学质量提升方法 | |
CN109034012A (zh) | 基于动态图像和视频子序列的第一人称视角手势识别方法 | |
CN109740585A (zh) | 一种文本定位方法及装置 | |
Tarasiewicz et al. | Skinny: A lightweight U-Net for skin detection and segmentation | |
CN109360179A (zh) | 一种图像融合方法、装置及可读存储介质 | |
CN108492301A (zh) | 一种场景分割方法、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |