CN107316058A - 通过提高目标分类和定位准确度改善目标检测性能的方法 - Google Patents

通过提高目标分类和定位准确度改善目标检测性能的方法 Download PDF

Info

Publication number
CN107316058A
CN107316058A CN201710450327.2A CN201710450327A CN107316058A CN 107316058 A CN107316058 A CN 107316058A CN 201710450327 A CN201710450327 A CN 201710450327A CN 107316058 A CN107316058 A CN 107316058A
Authority
CN
China
Prior art keywords
image
candidate frame
target detection
frame
convolutional layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710450327.2A
Other languages
English (en)
Inventor
娄英欣
周芸
付光涛
姜竹青
门爱东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television
Beijing University of Posts and Telecommunications
Academy of Broadcasting Science of SAPPRFT
Original Assignee
National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television, Beijing University of Posts and Telecommunications filed Critical National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television
Priority to CN201710450327.2A priority Critical patent/CN107316058A/zh
Publication of CN107316058A publication Critical patent/CN107316058A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种通过提高目标分类和定位准确度改善目标检测性能的方法,其主要技术特点是:根据卷积神经网络架构提取图像特征,并选择卷积层前M层输出进行特征融合,形成多特征的特征图;在卷积层M上进行网格划分,在每个网络中预测固定数目和大小的目标候选框;将候选框映射到特征图上进行裁剪,然后将裁剪结果进行多特征连接;将上述结果通过全连接层后,通过Softmax分类算法对图像特征进行分类,并用重叠面积损失函数进行在线迭代回归定位,得到最终目标检测的结果。本发明设计合理,通过卷积神经网络提取特征,并对图像特征进行多层融合,最后使用Softmax分类算法对图像特征进行分类,并采用重叠面积损失函数进行定位,获得了良好的目标检测结果。

Description

通过提高目标分类和定位准确度改善目标检测性能的方法
技术领域
本发明属于目标检测技术领域,尤其是一种通过提高目标分类和定位准确度改善目标检测性能的方法。
背景技术
人类在物质世界的感知工程中,有80%以上的信息来源于视觉。而图像是在某种意义上对客观实际的一种反映,它以不同的模式向人类传递信息,并且它作为一种重要的信息载体,具有直观、内容丰富和便于交流等特点,是多媒体的重要组成内容,因此,基于图像处理技术的各种应用就应运而生。图像目标识别与检测技术就是其中最典型的应用技术。计算机视觉研究目的是用计算机来实现人类对客观世界的感知、识别和理解,目标检测(Object Detection)是计算机视觉中最常见的问题,且在计算机视觉理论研究领域受到了广泛关注,具有广阔的应用前景。当机器“睁”开双眼看世界时,需要判断它的视野内存在哪些目标、分别是什么、在什么位置。基于视觉的目标检测是图像处理、计算机视觉、模式识别等众多学科的交叉研究课题。目标检测的目的是从不同复杂程度的背景中辨识出目标,并以包围框(Bounding Box)的形式将其标示出,从而完成跟踪、识别等后续任务。因此,目标检测是高层理解与应用的基础任务,其性能的好坏将直接影响后续的目标跟踪、动作识别以及行为理解等中高层任务的性能。尤其是在复杂场景中,需要对多个目标进行实时处理时,目标自动提取和识别就显得特别重要。因此,目标检测与识别是图像分析和理解的基础,深入研究目标检测与识别算法,在学术界和工业界都有着非常重要的意义。然而对于机器而言,由于复杂的识别背景和目标本身的动态变化增加了目标识别的难度,庞大的***参数和高维的矩阵运算占用大量的处理时间,目标检测和识别还存在较大的问题,如识别的准确度、实时性都有待于提高。
目标检测的主要任务是对图像序列中的目标物体进行自动检测,包括判断类别和识别位置。当今流行的目标检测算法,首先在一张图片上生成1K-2K的候选框,然后对于每个候选框使用CNN卷积神经网络提取特征,其次将特征输入每一类的SVM分类器或Softmax分类器来判断目标是否属于该类,最后使用回归器修正候选框的位置实现目标的精准定位。传统的目标检测算法采用SIFT、HOG和LBP等特征,通过寻找图片中具有平移、仿设、旋转等变换情况下的不变特征点实现图像间的匹配,从而实现目标检测。然而提取特征的好坏直接影响到分类的准确性,由于目标的形态多样性,光照变化多样性,背景多样性等因素使得设计一个鲁棒的特征并不是那么容易,传统特征的适应能力并不强。而基于CNN卷积神经网络的特征提取具有很好的鲁棒性,卷积神经网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。提取特征的CNN模型经过预先训练得到,预训练基于ILVCR 2012计算机视觉识别挑战赛的全部数据集进行训练,然后针对预训练模型基于PASCAL VOC 2007训练集进行调优训练,从而实现通过CNN网络提取图片特征。深度学习广泛应用于目标检测源于Alex等人提出的深度卷积神经网AlexNet网络架构,该框架在ILSVRC 2012比赛中取得了非常好的成绩,此后,卷积神经网络被广泛应用于各类图像相关领域。Geoffrey Hinton设计的AlexNet是一个8层CNN架构,包括5个卷积层和3个全连接层,将当时最好算法的错误率减半,它证明了CNN在复杂模型下的有效性,且GPU使得训练在可接受的时间范围内得到结果。在2014年,ChristianSzegedy提出了GoogleNet架构在ILSVRC 2014分类比赛中取得第一名,与AlexNet不同的是:GoogleNet的深度(层数)更深,宽度(层核或者神经元数)更宽。同年,Andrew Zisserman提出的VGG-Net架构在ILSVRC 2014定位比赛中取得第一名,与AlexNet不同的是:VGG-Net使用更多的层,通常有16-19层。在2015年,Kaiming He提出的Res-Net架构在ILSVRC 2015分类和定位比赛中取得第一名,该模型采用了152层的深层卷积神经网络。Hinton教授的成功,吸引了国内外大量学者的关注;同时,工业界加入深度学习的研究中来,百度、***、facebook纷纷建立深度学习实验室,通过深度学习,进行图像识别与分类。虽然研究人员提出了很多基于深度学习卷积神经网络的目标检测算法,这些算法也取得了良好的效果,但是仍有许多方面有待改进,如图片背景复杂、网络输入尺寸固定、候选框过多、训练速度慢、消耗电脑内存、小物体检测不准确、步骤繁琐和定位不精准等问题。
发明内容
本发明的目地在于克服现有技术的不足,提出一种设计合理、精度高且稳定性强的通过提高目标分类和定位准确度改善目标检测性能的方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种通过提高目标分类和定位准确度改善目标检测性能的方法,包括以下步骤:
步骤1、根据卷积神经网络架构提取图像特征,并选择卷积层前M层输出进行特征融合,形成多特征的特征图;
步骤2、在卷积层M上进行网格划分,在每个网络中预测固定数目和大小的目标候选框;
步骤3、将候选框映射到特征图上进行裁剪,然后将裁剪结果进行多特征连接;
步骤4、将上述结果通过全连接层后,通过Softmax分类算法对图像特征进行分类,并用重叠面积损失函数进行在线迭代回归定位,得到最终目标检测的结果。
所述步骤1的具体方法包括以下步骤:
⑴首先将带有物体真实包围框的图片输入到卷积神经网络架构中,通过Caffe提取图像通过卷积神经网络不同层的特征;
⑵将靠前的卷积层输出的图像特征进行最大池化操作,并将卷积层M输出的图像特征进行反卷积操作,实现输出的尺寸都与中间卷积层的输出特征大小一致;
⑶最后将所有卷积层输出的特征进行融合,得到图像的多特征提取的特征图。
所述步骤2的实现方法包括以下步骤:
⑴在卷积层M输出的特征图上进行6*6的网格划分;
⑵在每个单个的网络小格正中间预测4个可能包含物体的候选框,这4个候选框具有固定的大小和长宽比,长宽比分别为1:1、1:2和2:1,仅对于1:1长宽比的候选框,设定2种候选框大小0.6和0.9;
⑶在网络训练的过程中,我们将物体的真实包围框和候选框进行匹配,通过二者的IOU重叠面积大于等于0.7进行筛选,并删除掉超出图像边界的候选框;
⑷最后在卷积层M的特征图上生成了100个候选框。
所述步骤3的实现方法包括以下步骤:
⑴根据卷积层M的特征图上生成的100个候选框,根据其所在位置映射相应的多层特征图上,并在多层特征图上进行相应的裁剪;
⑵将裁剪后的特征图方块做1*1卷积,然后对卷积结果分别进行3*3卷积和5*5卷积;
⑶为了获取全文信息,将多层特征图经过最大池化层,然后经过1*1卷积层和激活层;
⑷将1*1卷积、3*3卷积、5*5卷积和全文信息的卷积输出结果按照前后顺序进行连接,形成候选框的多特征连接。
所述步骤4的具体实现方法包括以下步骤:
⑴通过全连接层后,通过Softmax分类算法对图像特征进行分类,基于目标检测的数据集,每类物体具有自己相应的精度;
⑵通过重叠面积损失函数对候选框进行回归定位,使得候选框更加靠近物体的真实包围框,该损失函数为候选框和真实包围框的交集面积除以并集面积;
⑶根据Softmax损失和重叠面积损失值进行排序,在线筛选出正样本和负样本的比例为3:1,更新样本库输入到多层特征图上继续进行迭代回归定位;
⑷迭代N次后,候选框更加靠近物体的真实包围框,模型训练好之后可以进行实际物体的测试。
本发明的优点和积极效果是:
1、本发明为了得到更多的图像信息,将图片输入VGG-16卷积神经网络中提取图像特征,然后对图像特征进行多层融合形成多特征图;为了快速得到物体候选框,在卷积层5特征图上按照一定长宽比和尺寸生成目标候选框,并映射到多特征图上进行裁剪;为了获得更多候选框的信息,将裁剪结果进行多特征连接,并输入到全连接层;为了实现精确提升的分类和定位,进行Softmax分类器分类和Overlap损失函数迭代回归定位,实现完整的目标检测的分类和定位,得到了优于其他主流目标检测框架如Fatser R-CNN的检测效果。
2、本发明设计合理,其利用深度学习框架进行多特征提取,得到图像的多层特征表示,可是实现更加准确的分类;且在定位中采用了一种新的Overlap重叠面积损失函数,能够更准确地检测出输入图片中目标区域物体的位置,在目标检测的数据集上得到了良好的效果。
附图说明
图1为本发明的整体框图;
图2为本发明在卷积层5特征图上生成固定长宽比和尺寸的候选框;
图3为本发明在定位中提出的候选框与真实包围框之间的Overlap损失函数;
图4为本发明不同的训练迭代次数对目标检测精度的影响;
图5为基于PASCAL VOC的目标检测精度表。
具体实施方式
以下结合附图对本发明实施例做进一步详述。
一种通过提高目标分类和定位准确度改善目标检测性能的方法,如图1所示,首先,为了得到更多的图像信息,将带有物体真实包围框(Ground Truth)的图片输入到VGG-16卷积神经网络中提取图像特征,然后对图像特征进行多层融合形成多特征图;然后为了快速得到物体候选框,在卷积层5特征图上按照一定长宽比和尺寸生成目标候选框,并映射到多特征图上进行裁剪;接着为了获得更多候选框的信息,将裁剪结果进行多特征连接,并输入到全连接层;最后为了实现精确提升的分类和定位,进行Softmax分类器分类和Overlap损失函数迭代回归定位,实现完整的精度提高的目标检测的分类和定位。下面以一个具体实例进行说明:
S1、基于VGG-16卷积神经网络架构提取图像特征,并将卷积层1、2、3和5进行特征融合,形成多特征的特征图;
S2、在卷积层5上进行网格划分,在每个网络中预测固定数目和大小的目标候选框;
S3、将候选框映射到特征图上进行裁剪,然后将裁剪结果进行多特征连接;、
S4、上述结果通过全连接层后,通过Softmax分类算法对图像特征进行分类,并用Overlap面积损失函数进行在线迭代回归定位,得到最终目标检测的结果。
在本实施例中,所述步骤S1进一步包括:
S1.1、首先将带有物体真实包围框的图片输入到VGG-16卷积神经网络架构,通过Caffe提取图像通过卷积神经网络不同层的特征;
S1.2、将卷积层1、2输出的图像特征进行最大池化操作,并将卷积层5输出的图像特征进行反卷积操作,实现输出的尺寸都与卷积层3的输出特征大小一致;
S1.3、最后将卷积层1、2、3和5输出的特征进行融合,得到图像的多特征提取的特征图。
图2给出了本发明中在卷积层5特征图上进行网格划分,在每个网格中生成固定长宽比和尺寸的4个候选框,所述步骤S2进一步包括:
S2.1、在卷积层5输出的特征图上进行6*6的网格划分;
S2.2、在每个单个的网络小格正中间预测4个可能包含物体的候选框,这4个候选框具有固定的大小和长宽比,长宽比分别为1:1、1:2和2:1,仅对于1:1长宽比的候选框,我们设定2种候选框大小分别为32*32像素和64*64像素;
S2.3、在网络训练的过程中,我们将物体的真实包围框和候选框进行匹配,通过二者的IOU重叠面积大于等于0.7进行筛选,并删除掉超出图像边界的候选框;
S2.4、最后在卷积层5的特征图上生成了大约100个候选框。
在本实施例中,所述步骤S3进一步包括:
S3.1、根据卷积层5的特征图上生成的100个候选框,根据其所在位置映射相应的多层特征图上,并在多层特征图上进行相应的裁剪;
S3.2、将裁剪后的特征图方块做1*1卷积,目的是为了保留前一层的可视野,并减少计算量,然后对卷积结果分别进行3*3卷积和5*5卷积;
S3.3、为了获取全文信息,将多层特征图经过最大池化层,然后经过1*1卷积层和激活层,可以将计算量减半;
S3.4、将1*1卷积、3*3卷积、5*5卷积和全文信息的卷积输出结果按照前后顺序进行连接,形成候选框的多特征连接。
在本实施例中,所述步骤S4进一步包括:
S4.1、上述通过卷积层和多特征连接后的结果通过3层全连接层后,通过Softmax分类算法对图像特征进行分类,基于PASCAL VOC数据集,分类结果包含20类物体,每类物体具有自己相应的精度;
S4.2、通过Overlap面积损失函数对候选框进行回归定位,使得候选框更加靠近物体的真实包围框,该损失函数为候选框和真实包围框的交集面积除以并集面积,该数值越接近1说明二者越接近;
S4.3、根据Softmax损失和Overlap损失值进行排序,在线筛选出正样本和负样本的比例为3:1,更新样本库输入到多层特征图上继续进行迭代回归定位;
S4.4、迭代N次后,候选框更加靠近物体的真实包围框,模型训练好之后可以进行实际物体的测试。
图3显示出了本发明中在定位中提出的候选框与真实包围框之间的Overlap损失函数,所述步骤S4.2进一步包括:
S4.2.1、输入图片中包含物体的真实包围框(Ground Truth),其左上角和右下角的坐标组成了一个4维向量,为通过本发明算法预测的物体候选框,其左上角()和右下角()的坐标组成了一个4维向量,为x=(x1,y1,x2,y2);
S4.2.2、传统的坐标损失函数为一维损失函数,将各个坐标点之间的损失求和来计算整体的位置偏移损失,但是传统的方法将坐标单独区分开来,不能整体的预测真实包围框和候选框之间的偏移损失,所述传统的一维坐标损失函数的公式为:
S4.2.3、为了整体的预测真实包围框和候选框之间的偏移损失,我们提出了Overlap损失函数,将4维坐标进行整体的回归计算,计算真实包围框和候选框之间的面积偏移损失。其中I表示二者之间的交集面积,U表示二者之间的并集面积,通过交集面积除以并集面积来评价二者之间的位置偏差,该数值越接近1,说明位置坐标回归效果越好。所述二维面积Overlap损失函数的公式为:
I=(x2′-x1′)×(y2′-y1′)
图4显示出了本发明中不同的训练迭代次数对目标检测精度的影响,所述步骤S4.4进一步包括:
S4.4.1、在训练过程中根据Softmax损失和Overlap损失值进行排序,筛选出3:1的正负困难样本,并将该样本重新输入到多层特征图中进行裁剪,然后继续进行多特征连接,通过筛选困难样本,实现了提升本发明提出的***的鲁棒性和检测精度;
S4.4.2、通过图4可以看出,经过多次迭代训练后,目标检测的分类精度得到了很大的提升,1次迭代分类精度在42%左右,继续进行迭代可以观察到精度迅速增长,然而经过4次迭代后,精度的增长幅度较小,因此权衡精度和速度,我们选择***的迭代训练次数为4,获得目标检测的分类精度和回归精度的整体提高。
下面按照本发明的方法进行实验,说明本发明的实验效果。
测试环境:MATLAB 2014b;Caffe;Ubuntu14.04***;NVIDIA GTX 1070p GPU
测试序列:所选测试序列和其对应标准目标检测物体真实包围框(GroundTruth),均来自目标检测的PASCAL VOC数据集(M.Everingham,L.Van Gool,C.K.Williams,J.Winn,and A.Zisserman,“The pascal visual object classes(voc)challenge,”International journal of computer vision,vol.88,no.2,pp.303–338,2007.)。其中包含的图例有20个类别,分别为人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。选用目标均是日常中最常见的物体,为的就是能更好的体现算法的实用性,共包含9,963张图片,有24,640个被标记的目标物体。
测试指标:本发明使用了两种评价指标,分别为精度mAP(mean averageprecision)和速度fps(frames per second)。其中精度mAP是目标检测结果的平均准确度测量,与理想目标检测结果进行比较并对数据库中所有物体类别进行加权平均计算,对不同算法计算此参数值,证明本发明算法在目标检测领域得到较好的结果;速度fps是目标检测结果的速度的度量,通过在测试过程中每秒能处理多少帧图片来评定目标进测速度,对不同算法计算此参数值,证明本发明算法在目标检测领域的优越性。
测试结果如图5所示,图5是基于PASCAL VOC数据集中所有图像类别测试精度的平均结果,可以看出本发明算法在mAP上相比其他目标检测算法有明显提高,其中本发明4代表循环迭代训练4次,本发明6代表循环迭代训练6次。目前目标检测最好的结果Faster R-CNN的mAP为73.2%,本发明6的mAP为74.2%,比Faster R-CNN的检测精度提高了1.0%。而且,在小物体检测上,如瓶子、飞机和植物,本发明算法比其他算法得到更高的检测精度,例如针对小物体植物,本发明算法达到50.4%mAP,比Faster R-CNN高出11.6%mAP。上述结果表明本发明算法所产生的目标检测结果拥有更高的精度,而且能更好的解决小目标检测的难题。
表1 基于PASCAL VOC的目标检测速度
表1是基于PASCAL VOC数据集中所有图像类别检测速度的结果,可以看出本发明算法在fps上相比其他目标检测算法有明显提高,其中压缩代表将全连接层进行截断SVD(singular value decomposition)压缩。目前目标检测最好的结果Faster R-CNN的速度为7fps,压缩的本发明4的速度为12fps,比未压缩卷积层加快2fps,压缩的本发明6的速度为12fps,比未压缩卷积层加快2fps;且本发明算法的速度是Fast R-CNN的22倍,几乎接近实时检测。上述结果表明本发明所产生的目标检测结果拥有更高的速度,而且在目标检测的速度和精度两项指标中,均能达到最好的目标检测结果,说明本发明算法具有前沿性。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (5)

1.一种通过提高目标分类和定位准确度改善目标检测性能的方法,其特征在于包括以下步骤:
步骤1、根据卷积神经网络架构提取图像特征,并选择卷积层前M层输出进行特征融合,形成多特征的特征图;
步骤2、在卷积层M上进行网格划分,在每个网络中预测固定数目和大小的目标候选框;
步骤3、将候选框映射到特征图上进行裁剪,然后将裁剪结果进行多特征连接;
步骤4、将上述结果通过全连接层后,通过Softmax分类算法对图像特征进行分类,并用重叠面积损失函数进行在线迭代回归定位,得到最终目标检测的结果。
2.根据权利要求1所述的通过提高目标分类和定位准确度改善目标检测性能的方法,其特征在于:所述步骤1的具体方法包括以下步骤:
⑴首先将带有物体真实包围框的图片输入到卷积神经网络架构中,通过Caffe提取图像通过卷积神经网络不同层的特征;
⑵将靠前的卷积层输出的图像特征进行最大池化操作,并将卷积层M输出的图像特征进行反卷积操作,实现输出的尺寸都与中间卷积层的输出特征大小一致;
⑶最后将所有卷积层输出的特征进行融合,得到图像的多特征提取的特征图。
3.根据权利要求1所述的通过提高目标分类和定位准确度改善目标检测性能的方法,其特征在于:所述步骤2的实现方法包括以下步骤:
⑴在卷积层M输出的特征图上进行6*6的网格划分;
⑵在每个单个的网络小格正中间预测4个可能包含物体的候选框,这4个候选框具有固定的大小和长宽比,长宽比分别为1:1、1:2和2:1,仅对于1:1长宽比的候选框,设定2种候选框大小0.6和0.9;
⑶在网络训练的过程中,我们将物体的真实包围框和候选框进行匹配,通过二者的IOU重叠面积大于等于0.7进行筛选,并删除掉超出图像边界的候选框;
⑷最后在卷积层M的特征图上生成了100个候选框。
4.根据权利要求1所述的通过提高目标分类和定位准确度改善目标检测性能的方法,其特征在于:所述步骤3的实现方法包括以下步骤:
⑴根据卷积层M的特征图上生成的100个候选框,根据其所在位置映射相应的多层特征图上,并在多层特征图上进行相应的裁剪;
⑵将裁剪后的特征图方块做1*1卷积,然后对卷积结果分别进行3*3卷积和5*5卷积;
⑶为了获取全文信息,将多层特征图经过最大池化层,然后经过1*1卷积层和激活层;
⑷将1*1卷积、3*3卷积、5*5卷积和全文信息的卷积输出结果按照前后顺序进行连接,形成候选框的多特征连接。
5.根据权利要求1所述的通过提高目标分类和定位的准确度改善目标检测性能,其特征在于:所述步骤4的具体实现方法包括以下步骤:
⑴通过全连接层后,通过Softmax分类算法对图像特征进行分类,基于目标检测的数据集,每类物体具有自己相应的精度;
⑵通过重叠面积损失函数对候选框进行回归定位,使得候选框更加靠近物体的真实包围框,该损失函数为候选框和真实包围框的交集面积除以并集面积;
⑶根据Softmax损失和重叠面积损失值进行排序,在线筛选出正样本和负样本的比例为3:1,更新样本库输入到多层特征图上继续进行迭代回归定位;
⑷迭代N次后,候选框更加靠近物体的真实包围框,模型训练好之后可以进行实际物体的测试。
CN201710450327.2A 2017-06-15 2017-06-15 通过提高目标分类和定位准确度改善目标检测性能的方法 Pending CN107316058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710450327.2A CN107316058A (zh) 2017-06-15 2017-06-15 通过提高目标分类和定位准确度改善目标检测性能的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710450327.2A CN107316058A (zh) 2017-06-15 2017-06-15 通过提高目标分类和定位准确度改善目标检测性能的方法

Publications (1)

Publication Number Publication Date
CN107316058A true CN107316058A (zh) 2017-11-03

Family

ID=60181717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710450327.2A Pending CN107316058A (zh) 2017-06-15 2017-06-15 通过提高目标分类和定位准确度改善目标检测性能的方法

Country Status (1)

Country Link
CN (1) CN107316058A (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171112A (zh) * 2017-12-01 2018-06-15 西安电子科技大学 基于卷积神经网络的车辆识别与跟踪方法
CN108205687A (zh) * 2018-02-01 2018-06-26 通号通信信息集团有限公司 目标检测***中基于关注点机制定位损失计算方法及***
CN108229341A (zh) * 2017-12-15 2018-06-29 北京市商汤科技开发有限公司 分类方法和装置、电子设备、计算机存储介质、程序
CN108229477A (zh) * 2018-01-25 2018-06-29 深圳市商汤科技有限公司 针对图像的视觉关联性识别方法、装置、设备及存储介质
CN108805210A (zh) * 2018-06-14 2018-11-13 深圳深知未来智能有限公司 一种基于深度学习的弹孔识别方法
CN108805064A (zh) * 2018-05-31 2018-11-13 中国农业大学 一种基于深度学习的鱼类定位检测和识别方法及***
CN108830280A (zh) * 2018-05-14 2018-11-16 华南理工大学 一种基于区域提名的小目标检测方法
CN108830131A (zh) * 2018-04-10 2018-11-16 中科院微电子研究所昆山分所 基于深度学习的交通目标检测与测距方法
CN108830224A (zh) * 2018-06-19 2018-11-16 武汉大学 一种基于深度学习的高分辨率遥感影像舰船目标检测方法
CN108875577A (zh) * 2018-05-11 2018-11-23 深圳市易成自动驾驶技术有限公司 目标检测方法、装置及计算机可读存储介质
CN109086779A (zh) * 2018-07-28 2018-12-25 天津大学 一种基于卷积神经网络的注意力目标识别方法
CN109447066A (zh) * 2018-10-18 2019-03-08 中国人民武装警察部队海警学院 一种快速精确的单阶段目标检测方法及装置
CN109492685A (zh) * 2018-10-31 2019-03-19 中国矿业大学 一种用于对称特征的目标物体视觉检测方法
CN109493370A (zh) * 2018-10-12 2019-03-19 西南交通大学 一种基于空间偏移学习的目标跟踪方法
CN109508672A (zh) * 2018-11-13 2019-03-22 云南大学 一种实时的视频目标检测方法
CN109583483A (zh) * 2018-11-13 2019-04-05 中国科学院计算技术研究所 一种基于卷积神经网络的目标检测方法和***
CN109685008A (zh) * 2018-12-25 2019-04-26 云南大学 一种实时的视频目标检测方法
CN109697464A (zh) * 2018-12-17 2019-04-30 环球智达科技(北京)有限公司 基于物体检测和特征搜索的精确目标识别的方法及***
CN109711326A (zh) * 2018-12-25 2019-05-03 云南大学 一种基于浅层残差网络的视频目标检测方法
CN109784349A (zh) * 2018-12-25 2019-05-21 东软集团股份有限公司 图像目标检测模型建立方法、装置、存储介质及程序产品
CN109816012A (zh) * 2019-01-22 2019-05-28 南京邮电大学 一种融合上下文信息的多尺度目标检测方法
CN109918951A (zh) * 2019-03-12 2019-06-21 中国科学院信息工程研究所 一种基于层间融合的人工智能处理器侧信道防御***
CN110059667A (zh) * 2019-04-28 2019-07-26 上海应用技术大学 行人计数方法
CN110110722A (zh) * 2019-04-30 2019-08-09 广州华工邦元信息技术有限公司 一种基于深度学习模型识别结果的区域检测修正方法
CN110222641A (zh) * 2019-06-06 2019-09-10 北京百度网讯科技有限公司 用于识别图像的方法和装置
CN110245675A (zh) * 2019-04-03 2019-09-17 复旦大学 一种基于毫米波图像人体上下文信息的危险物体检测方法
WO2019179269A1 (zh) * 2018-03-21 2019-09-26 广州极飞科技有限公司 待作业区域边界获取方法、装置,作业航线规划方法
CN110348384A (zh) * 2019-07-12 2019-10-18 沈阳理工大学 一种基于特征融合的小目标车辆属性识别方法
CN110555354A (zh) * 2018-05-31 2019-12-10 北京深鉴智能科技有限公司 特征筛选方法和装置、目标检测方法和设备、电子设备及存储介质
CN110610184A (zh) * 2018-06-15 2019-12-24 阿里巴巴集团控股有限公司 图像的显著目标的检测方法、装置及设备
CN110909604A (zh) * 2019-10-23 2020-03-24 深圳市华讯方舟太赫兹科技有限公司 安检图像检测方法、终端设备、计算机存储介质
CN110956060A (zh) * 2018-09-27 2020-04-03 北京市商汤科技开发有限公司 动作识别、驾驶动作分析方法和装置及电子设备
CN111126421A (zh) * 2018-10-31 2020-05-08 浙江宇视科技有限公司 目标检测方法、装置及可读存储介质
CN111160353A (zh) * 2019-12-27 2020-05-15 广州亚信技术有限公司 车牌识别方法、装置及设备
CN111325075A (zh) * 2018-12-17 2020-06-23 北京华航无线电测量研究所 一种视频序列目标检测方法
CN111968087A (zh) * 2020-08-13 2020-11-20 中国农业科学院农业信息研究所 一种植物病害区域检测方法
US10902314B2 (en) 2018-09-19 2021-01-26 Industrial Technology Research Institute Neural network-based classification method and classification device thereof

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881662A (zh) * 2015-06-26 2015-09-02 北京畅景立达软件技术有限公司 一种单幅图像行人检测方法
CN105488758A (zh) * 2015-11-30 2016-04-13 河北工业大学 一种基于内容感知的图像缩放方法
CN106127204A (zh) * 2016-06-30 2016-11-16 华南理工大学 一种全卷积神经网络的多方向水表读数区域检测算法
US9501724B1 (en) * 2015-06-09 2016-11-22 Adobe Systems Incorporated Font recognition and font similarity learning using a deep neural network
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106650699A (zh) * 2016-12-30 2017-05-10 中国科学院深圳先进技术研究院 一种基于卷积神经网络的人脸检测方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9501724B1 (en) * 2015-06-09 2016-11-22 Adobe Systems Incorporated Font recognition and font similarity learning using a deep neural network
US20160364633A1 (en) * 2015-06-09 2016-12-15 Adobe Systems Incorporated Font recognition and font similarity learning using a deep neural network
CN104881662A (zh) * 2015-06-26 2015-09-02 北京畅景立达软件技术有限公司 一种单幅图像行人检测方法
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
CN105488758A (zh) * 2015-11-30 2016-04-13 河北工业大学 一种基于内容感知的图像缩放方法
CN106127204A (zh) * 2016-06-30 2016-11-16 华南理工大学 一种全卷积神经网络的多方向水表读数区域检测算法
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106650699A (zh) * 2016-12-30 2017-05-10 中国科学院深圳先进技术研究院 一种基于卷积神经网络的人脸检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任少卿: "基于特征共享的高效物体检测", 《中国博士学位论文全文数据库(信息科技辑)》 *

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171112A (zh) * 2017-12-01 2018-06-15 西安电子科技大学 基于卷积神经网络的车辆识别与跟踪方法
CN108171112B (zh) * 2017-12-01 2021-06-01 西安电子科技大学 基于卷积神经网络的车辆识别与跟踪方法
CN108229341B (zh) * 2017-12-15 2021-08-06 北京市商汤科技开发有限公司 分类方法和装置、电子设备、计算机存储介质
CN108229341A (zh) * 2017-12-15 2018-06-29 北京市商汤科技开发有限公司 分类方法和装置、电子设备、计算机存储介质、程序
CN108229477A (zh) * 2018-01-25 2018-06-29 深圳市商汤科技有限公司 针对图像的视觉关联性识别方法、装置、设备及存储介质
CN108229477B (zh) * 2018-01-25 2020-10-09 深圳市商汤科技有限公司 针对图像的视觉关联性识别方法、装置、设备及存储介质
CN108205687B (zh) * 2018-02-01 2022-04-01 通号通信信息集团有限公司 目标检测***中基于注意力机制定位损失计算方法及***
CN108205687A (zh) * 2018-02-01 2018-06-26 通号通信信息集团有限公司 目标检测***中基于关注点机制定位损失计算方法及***
WO2019179269A1 (zh) * 2018-03-21 2019-09-26 广州极飞科技有限公司 待作业区域边界获取方法、装置,作业航线规划方法
CN108830131A (zh) * 2018-04-10 2018-11-16 中科院微电子研究所昆山分所 基于深度学习的交通目标检测与测距方法
CN108830131B (zh) * 2018-04-10 2021-05-04 昆山微电子技术研究院 基于深度学习的交通目标检测与测距方法
CN108875577A (zh) * 2018-05-11 2018-11-23 深圳市易成自动驾驶技术有限公司 目标检测方法、装置及计算机可读存储介质
CN108830280B (zh) * 2018-05-14 2021-10-26 华南理工大学 一种基于区域提名的小目标检测方法
CN108830280A (zh) * 2018-05-14 2018-11-16 华南理工大学 一种基于区域提名的小目标检测方法
CN108805064A (zh) * 2018-05-31 2018-11-13 中国农业大学 一种基于深度学习的鱼类定位检测和识别方法及***
CN110555354A (zh) * 2018-05-31 2019-12-10 北京深鉴智能科技有限公司 特征筛选方法和装置、目标检测方法和设备、电子设备及存储介质
CN108805210B (zh) * 2018-06-14 2022-03-04 深圳深知未来智能有限公司 一种基于深度学习的弹孔识别方法
CN108805210A (zh) * 2018-06-14 2018-11-13 深圳深知未来智能有限公司 一种基于深度学习的弹孔识别方法
CN110610184A (zh) * 2018-06-15 2019-12-24 阿里巴巴集团控股有限公司 图像的显著目标的检测方法、装置及设备
CN110610184B (zh) * 2018-06-15 2023-05-12 阿里巴巴集团控股有限公司 图像的显著目标的检测方法、装置及设备
CN108830224A (zh) * 2018-06-19 2018-11-16 武汉大学 一种基于深度学习的高分辨率遥感影像舰船目标检测方法
CN108830224B (zh) * 2018-06-19 2021-04-02 武汉大学 一种基于深度学习的高分辨率遥感影像舰船目标检测方法
CN109086779A (zh) * 2018-07-28 2018-12-25 天津大学 一种基于卷积神经网络的注意力目标识别方法
CN109086779B (zh) * 2018-07-28 2021-11-09 天津大学 一种基于卷积神经网络的注意力目标识别方法
US10902314B2 (en) 2018-09-19 2021-01-26 Industrial Technology Research Institute Neural network-based classification method and classification device thereof
CN110956060A (zh) * 2018-09-27 2020-04-03 北京市商汤科技开发有限公司 动作识别、驾驶动作分析方法和装置及电子设备
CN109493370B (zh) * 2018-10-12 2021-07-02 西南交通大学 一种基于空间偏移学习的目标跟踪方法
CN109493370A (zh) * 2018-10-12 2019-03-19 西南交通大学 一种基于空间偏移学习的目标跟踪方法
CN109447066B (zh) * 2018-10-18 2021-08-20 中国人民武装警察部队海警学院 一种快速精确的单阶段目标检测方法及装置
CN109447066A (zh) * 2018-10-18 2019-03-08 中国人民武装警察部队海警学院 一种快速精确的单阶段目标检测方法及装置
CN109492685A (zh) * 2018-10-31 2019-03-19 中国矿业大学 一种用于对称特征的目标物体视觉检测方法
CN109492685B (zh) * 2018-10-31 2022-05-24 煤炭科学研究总院 一种用于对称特征的目标物体视觉检测方法
CN111126421A (zh) * 2018-10-31 2020-05-08 浙江宇视科技有限公司 目标检测方法、装置及可读存储介质
CN109583483B (zh) * 2018-11-13 2020-12-11 中国科学院计算技术研究所 一种基于卷积神经网络的目标检测方法和***
CN109583483A (zh) * 2018-11-13 2019-04-05 中国科学院计算技术研究所 一种基于卷积神经网络的目标检测方法和***
CN109508672A (zh) * 2018-11-13 2019-03-22 云南大学 一种实时的视频目标检测方法
CN111325075B (zh) * 2018-12-17 2023-11-07 北京华航无线电测量研究所 一种视频序列目标检测方法
CN109697464A (zh) * 2018-12-17 2019-04-30 环球智达科技(北京)有限公司 基于物体检测和特征搜索的精确目标识别的方法及***
CN111325075A (zh) * 2018-12-17 2020-06-23 北京华航无线电测量研究所 一种视频序列目标检测方法
CN109711326A (zh) * 2018-12-25 2019-05-03 云南大学 一种基于浅层残差网络的视频目标检测方法
CN109784349A (zh) * 2018-12-25 2019-05-21 东软集团股份有限公司 图像目标检测模型建立方法、装置、存储介质及程序产品
CN109685008A (zh) * 2018-12-25 2019-04-26 云南大学 一种实时的视频目标检测方法
CN109816012A (zh) * 2019-01-22 2019-05-28 南京邮电大学 一种融合上下文信息的多尺度目标检测方法
CN109816012B (zh) * 2019-01-22 2022-07-12 南京邮电大学 一种融合上下文信息的多尺度目标检测方法
CN109918951A (zh) * 2019-03-12 2019-06-21 中国科学院信息工程研究所 一种基于层间融合的人工智能处理器侧信道防御***
CN110245675A (zh) * 2019-04-03 2019-09-17 复旦大学 一种基于毫米波图像人体上下文信息的危险物体检测方法
CN110245675B (zh) * 2019-04-03 2023-02-10 复旦大学 一种基于毫米波图像人体上下文信息的危险物体检测方法
CN110059667A (zh) * 2019-04-28 2019-07-26 上海应用技术大学 行人计数方法
CN110110722A (zh) * 2019-04-30 2019-08-09 广州华工邦元信息技术有限公司 一种基于深度学习模型识别结果的区域检测修正方法
CN110222641A (zh) * 2019-06-06 2019-09-10 北京百度网讯科技有限公司 用于识别图像的方法和装置
CN110348384A (zh) * 2019-07-12 2019-10-18 沈阳理工大学 一种基于特征融合的小目标车辆属性识别方法
CN110348384B (zh) * 2019-07-12 2022-06-17 沈阳理工大学 一种基于特征融合的小目标车辆属性识别方法
CN110909604A (zh) * 2019-10-23 2020-03-24 深圳市华讯方舟太赫兹科技有限公司 安检图像检测方法、终端设备、计算机存储介质
CN110909604B (zh) * 2019-10-23 2024-04-19 深圳市重投华讯太赫兹科技有限公司 安检图像检测方法、终端设备、计算机存储介质
CN111160353A (zh) * 2019-12-27 2020-05-15 广州亚信技术有限公司 车牌识别方法、装置及设备
CN111968087A (zh) * 2020-08-13 2020-11-20 中国农业科学院农业信息研究所 一种植物病害区域检测方法
CN111968087B (zh) * 2020-08-13 2023-11-07 中国农业科学院农业信息研究所 一种植物病害区域检测方法

Similar Documents

Publication Publication Date Title
CN107316058A (zh) 通过提高目标分类和定位准确度改善目标检测性能的方法
CN107563381B (zh) 基于全卷积网络的多特征融合的目标检测方法
CN109034210A (zh) 基于超特征融合与多尺度金字塔网络的目标检测方法
Wang et al. Autonomous garbage detection for intelligent urban management
Ouyang et al. DeepID-Net: Object detection with deformable part based convolutional neural networks
CN107886117A (zh) 基于多特征提取和多任务融合的目标检测算法
CN108171112A (zh) 基于卷积神经网络的车辆识别与跟踪方法
Zhang et al. Pedestrian detection method based on Faster R-CNN
CN109800628A (zh) 一种加强ssd小目标行人检测性能的网络结构及检测方法
Wan et al. Ceramic tile surface defect detection based on deep learning
CN107818302A (zh) 基于卷积神经网络的非刚性多尺度物体检测方法
CN107451602A (zh) 一种基于深度学习的果蔬检测方法
CN106446930A (zh) 基于深层卷积神经网络的机器人工作场景识别方法
CN110321891A (zh) 一种联合深度神经网络与聚类算法的大输液药液异物目标检测方法
CN107808376A (zh) 一种基于深度学习的举手检测方法
CN105243139A (zh) 一种基于深度学习的三维模型检索方法及其检索装置
CN106127161A (zh) 基于级联多层检测器的快速目标检测方法
CN110569926B (zh) 一种基于局部边缘特征增强的点云分类方法
CN105787488A (zh) 由全局向局部传递的图像特征提取方法及装置
Chen et al. Agricultural remote sensing image cultivated land extraction technology based on deep learning
Xu et al. Occlusion problem-oriented adversarial faster-RCNN scheme
Yang et al. Road crack detection using deep neural network with receptive field block
Ouadiay et al. Simultaneous object detection and localization using convolutional neural networks
Zhang et al. A precise apple leaf diseases detection using BCTNet under unconstrained environments
Liu et al. Pedestrian detection based on Faster R-CNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171103

RJ01 Rejection of invention patent application after publication