CN110119737A - 一种目标检测方法及装置 - Google Patents
一种目标检测方法及装置 Download PDFInfo
- Publication number
- CN110119737A CN110119737A CN201810122649.9A CN201810122649A CN110119737A CN 110119737 A CN110119737 A CN 110119737A CN 201810122649 A CN201810122649 A CN 201810122649A CN 110119737 A CN110119737 A CN 110119737A
- Authority
- CN
- China
- Prior art keywords
- targets
- interest
- candidate frame
- network model
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种目标检测方法及装置,方法包括:获取初始图像;将初始图像输入预先训练的深度卷积网络模型,得到深度卷积网络模型输出的标注有兴趣目标候选框的第二图像,其中,兴趣目标候选框中可能存在所述初始图像上所包含的兴趣目标;深度卷积网络模型为预先利用标注有兴趣目标的真实信息的训练图像进行训练得到;深度卷积网络模型中最深层次的卷积层的输入包括:至少一其它卷积层的输出结果以及,层次最深的卷积层的相邻卷积层的输出结果与网络参数进行卷积运算得到的卷积结果。在本申请中,通过以上方式提高输出的初始图像上所包含的兴趣目标的候选框的位置的准确度。
Description
技术领域
本申请涉及目标检测领域,更具体地说,涉及一种目标检测方法及装置。
背景技术
目标检测是图像领域的一个重要课题,主要是检测图像中目标物体可能存在的位置及类别。目前,目标检测被应用在各种场景中,如在交通领域,常被应用于检测图像中的道路交通标志,即:道路交通标志为目标物体。
在目标检测领域,目前常采用以深度卷积网络为代表的图像检测技术进行目标检测。其中,深度卷积网络为多层串行网络结构,且越深层次的卷积层的局部位置敏感度越弱(即对目标物体可能所在位置的检测能力越弱),语义敏感性越强(即识别图片上的区域是否为目标物体的能力越强),此特点导致越深层次的卷积层检测到的目标物体所在位置与目标物体的实际所在位置偏移越大,进而导致最深层次的卷积层输出的目标物体所在位置的准确率相对较低。
发明内容
有鉴于此,本申请提供了一种目标检测方法及装置,用于解决最深层次的卷积层输出的目标位置的准确率相对较低。
为了实现上述目的,现提出的方案如下:
一种目标检测方法,包括:
获取初始图像;
将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像,其中,所述候选框中可能存在所述初始图像上所包含的兴趣目标;
所述深度卷积网络模型为预先利用标注有兴趣目标的真实信息的训练图像进行训练得到;所述深度卷积网络模型中最深层次的卷积层的输入包括:至少一其它卷积层的输出结果以及,所述最深层次的卷积层的相邻卷积层的输出结果与网络参数进行卷积运算得到的卷积结果。
优选的,所述深度卷积网络模型的训练过程包括:
获取训练图像,所述训练图像上标注有包围兴趣目标的真实框,及标注有真实框代表的兴趣目标的真实类别;
利用所述训练图像对深度卷积网络模型进行训练,以使得深度卷积网络模型输出的图像上标注的兴趣目标候选框与所述训练图像上标注的真实框的重合度满足设定重合度条件,且输出的各候选框代表的兴趣目标的类别与其真实类别相同的概率满足设定概率条件。
优选的,所述将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像的步骤包括:
将所述初始图像输入预先训练的深度卷积网络模型,得到分类类别为非噪声的各类别的候选框,及候选框的置信度;
针对非噪声的每一类别的候选框,按照候选框的置信度由高至低的顺序,选取设定数目的候选框;
将各类别中选取的候选框作为标注于所述第二图像上的兴趣目标候选框。
优选的,所述深度卷积网络模型为候选区域提取网络模型,该方法还包括:
将所述候选区域提取网络模型输出的所述第二图像输入目标区域池化网络模型,得到所述目标区域池化网络模型输出的标注有兴趣目标候选框的第三图像,其中,所述第三图像上标注的各兴趣目标候选框的尺寸相同;
将所述第三图像输入回归网络模型,得到修正后的兴趣目标候选框的位置以及各兴趣目标候选框代表的兴趣目标的分类类别。
优选的,还包括:将分类类别相同的候选框中,存在交集的候选框合并。
一种目标检测装置,包括:
获取模块,用于获取初始图像;
第一确定模块,用于将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像,其中,所述候选框中可能存在所述初始图像上所包含的兴趣目标;
所述深度卷积网络模型为预先利用标注有兴趣目标的真实信息的训练图像进行训练得到;所述深度卷积网络模型中最深层次的卷积层的输入包括:至少一其它卷积层的输出结果以及,所述最深层次的卷积层的相邻卷积层的输出结果与网络参数进行卷积运算得到的卷积结果。
优选的,还包括:
深度卷积网络模型的训练模块,用于获取训练图像,所述训练图像上标注有包围兴趣目标的真实框,及标注有真实框代表的兴趣目标的真实类别,并利用所述训练图像对深度卷积网络模型进行训练,以使得深度卷积网络模型输出的图像上标注的兴趣目标候选框与所述训练图像上标注的真实框的重合度满足设定重合度条件,且输出的各候选框代表的兴趣目标的类别与其真实类别相同的概率满足设定概率条件。
优选的,所述第一确定模块将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像的过程,具体包括:
将所述初始图像输入预先训练的深度卷积网络模型,得到分类类别为非噪声的各类别的候选框,及候选框的置信度;
针对非噪声的每一类别的候选框,按照候选框的置信度由高至低的顺序,选取设定数目的候选框;
将各类别中选取的候选框作为标注于所述第二图像上的兴趣目标候选框。
优选的,所述深度卷积网络模型为候选区域提取网络模型,该装置还包括:
第二确定模块,用于将所述候选区域提取网络模型输出的所述第二图像输入目标区域池化网络模型,得到所述目标区域池化网络模型输出的标注有兴趣目标候选框的第三图像,其中,所述第三图像上标注的各兴趣目标候选框的尺寸相同;
第三确定模块,用于将所述第三图像输入回归网络模型,得到修正后的兴趣目标候选框的位置以及各兴趣目标候选框代表的兴趣目标的分类类别。
优选的,还包括:
合并模块,用于将分类类别相同的候选框中,存在交集的候选框合并。
从上述的技术方案可以看出,本申请中深度卷积网络模型的最深层次的卷积层的输入不仅仅包括其近邻卷积层输出结果与网络参数的卷积结果,而是进一步增加了至少一其它卷积层的输出结果,共同作为深度卷积网络模型中最深层次的卷积层的输入,并基于其它卷积层的层次相比于最深层次浅,其它卷积层的位置敏感度相对较强的特点,来提升最深层次的卷积层的整***置敏感度,从而使最深层级的卷积层在保证语义敏感性的同时,具备较强的位置敏感度,保证最深层次的卷积层检测到的兴趣目标的位置更加贴合兴趣目标的实际位置,从而提高输出的图像上所包含的兴趣目标的位置的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种目标检测方法的流程图;
图2-1示例了深度卷积网络模型的结构的一种实现方式;
图2-2示例了深度卷积网络模型的结构的另一种实现方式;
图2-3示例了深度卷积网络模型的结构的再一种实现方式;
图2-4示例了深度卷积网络模型的结构的再一种实现方式;
图3为本申请实施例公开的另一种目标检测方法的流程图;
图4为示例了RPN模型和ROI Pooling模型的操作场景的示意图;
图5为本申请实施例公开的再一种目标检测方法的流程图;
图6为本申请实施例公开的一种目标检测装置的逻辑结果示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种目标检测方法,通过获取初始图像;将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像,其中,所述候选框中可能存在所述初始图像上所包含的兴趣目标,实现兴趣目标在图像中的位置的检测。
本申请实施例公开的目标检测方法可以应用在各种场景中,如在交通领域,对道路交通标志这类目标的检测。
接下来对本申请的目标检测方法进行介绍,参见图1所示,该方法包括:
步骤S100、获取初始图像。
可选的,初始图像可以是采集装置所采集的图像,也可以是通过其它方式、渠道获取的包含兴趣目标的图像,如用户上传、网络下载等。
步骤S110、将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像。
在本实施例中,兴趣目标候选框的位置为兴趣目标在初始图像中可能存在的位置,所述兴趣目标候选框中可能存在所述初始图像上所包含的兴趣目标。且兴趣目标候选框的位置具体可以包括但不局限于兴趣目标候选框的坐标值。
所述深度卷积网络模型为预先利用标注有兴趣目标的真实信息的训练图像进行训练得到。
兴趣目标的真实信息可以理解为:包围兴趣目标的真实框,及包围兴趣目标的真实框代表的兴趣目标的真实类别。
可以理解的是,预先利用标注有兴趣目标的真实信息的训练图像训练深度卷积网络模型,保证训练得到的深度卷积网络模型能够准确的检测出图像上的兴趣目标候选框。
深度卷积网络模型输出的图像上所包含的兴趣目标候选框的位置的准确度同样也依赖于对深度卷积神经网络模型的训练精度,训练精度越高,深度卷积网络模型输出的图像上所包含的兴趣目标候选框与真实框的重合度越高。
进一步,所述深度卷积网络模型中最深层次的卷积层的输入包括:至少一其它卷积层的输出结果以及,所述最深层次的卷积层的相邻卷积层的输出结果与网络参数进行卷积运算得到的卷积结果。
可以理解的是,最深层次的卷积层的相邻卷积层为最深层次的卷积层的相邻上一卷积层。其中,其它卷积层的层次比最深层次靠前,其可以是层次比最深层次的卷积层靠前的任何一个卷积层。如,深度卷积网络模型共包括n个卷积层,分别为卷积层1、卷积层2、……、卷积层n-1和卷积层n,n为大于1的整数。卷积层n即最深层次的卷积层,其它卷积层则为卷积层n之前的任何一个卷积层x,x∈[1,n-1]。
可以理解的是,越靠近深度卷积网络模型的输入端的卷积层的层次越靠前,越远离深度卷积网络模型的输入端的卷积层的层次越靠后。
现举例对深度卷积网络模型的结构进行说明。示例如,深度卷积网络模型包括5个卷积层,分别为卷积层1、卷积层2、卷积层3、卷积层4和卷积层5,卷积层1的层次最浅,卷积层2-5的层次依次加深,卷积层5的层次最深,请参见2-1至图2-4,其示出了深度卷积网络模型结构的不同实现方式。
如图2-1所示,卷积层5的输入包括:卷积层4的输出结果,以及卷积层4的输出结果与网络参数进行卷积运算得到的卷积结果;如图2-2所示,卷积层5的输入包括:卷积层3的输出结果,以及卷积层4的输出结果与网络参数进行卷积运算得到的卷积结果;如图2-3所示,卷积层5的输入包括:卷积层3的输出结果、卷积层4的输出结果,以及卷积层4的输出结果与网络参数进行卷积运算得到的卷积结果;如图2-4所示,卷积层4的输入可以包括:卷积层3的输出结果,以及卷积层3的输出结果与网络参数进行卷积运算得到的卷积结果;卷积层5的输入可以包括:卷积层4的输出结果,以及卷积层4的输出结果与网络参数进行卷积运算得到的卷积结果。
需要说明的是,图2-1至2-4只是示例了深度卷积网络模型的结构的几种情况,本实施例中的深度卷积网络模型的结构并不局限于上述图2-1至2-4示例的结构。
本实施例中,目标检测方法应用在交通领域时,初始图像上所包含的兴趣目标具体包括但不局限于交通标志,例如红色圆形(红圆)标识:最大限速\限宽\禁止左转\禁止非机动车等标志;蓝色圆形(蓝圆)标识:直行\向左转弯\向右转弯等标志;黄色三角(黄三角)标识:减速慢行\注意施工\注意行人等标志;测速摄像头、通信号灯等。
本申请中深度卷积网络模型的最深层次的卷积层的输入不仅仅包括其近邻卷积层输出结果与网络参数的卷积结果,而是进一步增加了至少一其它卷积层的输出结果,共同作为深度卷积网络模型中最深层次的卷积层的输入,并基于其它卷积层的层次相比于最深层次的卷积层浅,其它卷积层的位置敏感度相对较强的特点,来提升最深层次的卷积层的整***置敏感度,从而使最深层级的卷积层在保证语义敏感性的同时,具备较强的位置敏感度,保证最深层次的卷积层检测到的兴趣目标的位置更加贴合兴趣目标的实际位置,从而提高输出的图像上所包含的兴趣目标的位置的准确度。
在本申请的另一个实施例中,对网络参数进行介绍,具体如下:
网络参数指的是相邻两个卷积层之间设置的参数。对于相邻的两个卷积层来说,前一个卷积层的输出结果与网络参数卷积的结果作为后一个卷积层的输入。
在使用深度卷积网络模型中原始网络参数(即原本设计的网络参数)进行卷积的情况下,相邻两个卷积层中的前一个卷积层的输出结果与原始网络参数进行卷积运算,卷积运算结果作为后一卷积层的输入。但是,一般情况下原始网络参数是一个很大的矩阵,在进行卷积运算时其计算量非常大,运算耗时长。
为了解决这一问题,本申请实施例可以对原始网络参数进行奇异值分解,使本申请实施例中的网络参数为对原始网络参数(由W表示)进行奇异值分解得到的子网络参数的乘积形式(由W`*P表示)。
其中,对原始网络参数进行奇异值分解,得到子网络参数的乘积形式的过程如下:
对Wm×n≈Um×r∑r×rVT r×n进行奇异值分解,得到
从分解的过程可以确定,W`和P均经过了降维,在降维过程中舍弃了一些不重要的特征,减少了计算量,提高了卷积速度,虽然特征有所减少,但是对检测出的兴趣目标候选框的位置影响不大。
在本实施例中,提供了深度卷积网络模型的训练方案,具体的深度卷积网络模型的训练过程可以包括以下步骤:
S1、获取训练图像,所述训练图像上标注有包围兴趣目标的真实框,及标注有真实框代表的兴趣目标的真实类别。
包围兴趣目标的真实框可以理解为:能精确包围兴趣目标的边界框,具体可以为能包围兴趣目标的最小外接框。
S2、利用所述训练图像对深度卷积网络模型进行训练,以使得深度卷积网络模型输出的图像上标注的兴趣目标候选框与所述训练图像上标注的真实框的重合度满足设定重合度条件,且输出的各候选框代表的兴趣目标的类别与其真实类别相同的概率满足设定概率条件。
以标注有包围兴趣目标的真实框及真实框代表的兴趣目标的真实类别的训练图像作为训练样本,以深度卷积网络模型输出的图像上标注的兴趣目标候选框与训练图像上标注的真实框的重合度满足设定重合度条件,且深度卷积网络模型输出的各兴趣目标候选框代表的兴趣目标的类别与其真实类别相同的概率满足设定概率条件为目标,对初始深度卷积网络模型进行训练,得到训练后的深度卷积网络模型,训练后的深度卷积网络模型作为步骤S110中的深度卷积网络模型,将初始图像作为输入值,输出标注有兴趣目标候选框的第二图像。
在训练的过程中,深度卷积网络模型输出的图像上标注的兴趣目标候选框与训练图像上标注的真实框的重合度越高,且深度卷积网络模型输出的各兴趣目标候选框代表的兴趣目标的类别与其真实类别相同的概率越高,训练得到的深度卷积网络模型越精确,进而使用训练得到的深度卷积网络模型对初始图像上兴趣目标候选框的检测越精确,对初始图像上兴趣目标候选框代表的兴趣目标的类别的检测越精确。
如深度卷积网络模型的训练过程所述,本实施例在包围兴趣目标的真实框这一特征的基础上,增加了真实框代表的兴趣目标的真实类别这一特征,以多分类学习的训练方式,来训练深度卷积网络模型,使深度卷积网络模型学习到兴趣目标位置的基础上,还可以学习到多个类别的目标的特征。在此基础上,训练后的深度卷积网络模型可以根据图像上各特征来识别各类型兴趣目标,以及各兴趣目标候选框。基于多分类学习的训练方式,使得模型的识别能力更强,特别对于目标相互嵌套的问题,能够很好的识别出相互嵌套的各目标的候选框。
基于上述目标检测方法的介绍以及深度卷积网络模型的训练过程的介绍,将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像的具体过程,可以包括以下步骤:
S1、将所述初始图像输入预先训练的深度卷积网络模型,得到分类类别为非噪声的各类别的候选框,及候选框的置信度。
本实施例中,分类类别为非噪声的各类别的候选框可以理解为:各类别的兴趣目标的候选框。
候选框的置信度表征的是候选框中包含兴趣目标的可信程度。候选框的置信度越高,说明候选框中包含兴趣目标的可能性越大。
由于兴趣目标的候选框为兴趣目标在初始图像中可能存在的位置,因此也就意味着兴趣目标的候选框可能有多个,在将初始图像输入预先训练的深度卷积网络模型后,深度卷积网络模型针对每一类别的目标均可能会输出多个候选框。本实施例中,则通过判断置信度的高低,提高从多个候选框中选取出兴趣目标的候选框的准确度。
S2、针对非噪声的每一类别的候选框,按照候选框的置信度由高至低的顺序,选取设定数目的候选框。
本实施例中,并不限定设定数目的具体数值,其可以为大于0的任意一个正整数。
具体的,本申请实施例可以预先设置非噪声的所有类别所需输出的候选框的总数目,进而根据非噪声的类别数目,计算出一个平均值,并将计算得到的平均值作为非噪声的各类别对应的设定数目。
当然,本申请实施例也可以预先设置非噪声的所有类别所需输出的候选框的总数目,进而根据非噪声的类别数目,将非噪声的所有类别所需输出的候选框的总数目按比例分配给非噪声的各类别,得到非噪声的各类别对应的设定数目。
S3、将各类别中选取的候选框作为标注于所述第二图像上的兴趣目标候选框。
在选取出设定数目的候选框后,将各类别中选取的候选框作为标注于所述第二图像上的兴趣目标候选框。
如上述深度卷积网络模型训练过程中介绍到,本申请采用的是多分类学习的训练方式,得到的深度卷积网络模型的识别能力更强。本实施例使用识别能力更强的深度卷积网络模型检测出的兴趣目标的候选框更加准确。
基于上述实施例的介绍,深度卷积网络模型具体可以包括但不局限于RPN(RegionProposal Network,候选区域提取网络)模型。本实施例介绍深度卷积网络模型为RPN模型时,目标检测方法的具体过程,请参见图3,可以包括以下步骤:
步骤S200、获取初始图像。
步骤S210、将所述初始图像输入预先训练的RPN模型,得到所述RPN模型输出的标注有兴趣目标候选框的第二图像。
其中,所述兴趣目标候选框中可能存在所述初始图像上所包含的兴趣目标。
所述RPN模型为预先利用标注有兴趣目标的真实信息的训练图像进行训练得到;所述RPN模型中最深层次的卷积层的输入可以包括:至少一其它卷积层的输出结果以及,所述最深层次的卷积层的相邻卷积层的输出结果与网络参数进行卷积运算得到的卷积结果。
由于RPN模型为深度卷积网络模型的一种具体实现模型,因此步骤S200和步骤S210的具体执行过程可以参见前述实施例介绍的步骤S100和步骤S110的具体执行过程,在此不再赘述。以及RPN模型的训练过程以及利用RPN模型执行的相关过程均可以参见前述实施例介绍的深度卷积网络模型的相关过程,在此步骤赘述。
步骤S220、将所述RPN模型输出的所述第二图像输入ROI Pooling模型,得到所述ROI Pooling模型输出的标注有兴趣目标候选框的第三图像。
其中,所述第三图像上标注的各兴趣目标候选框的尺寸相同。
本实施例中,将所述RPN模型输出的第二图像输入ROI Pooling(Region OfInterest Pooling,目标区域池化)模型,由ROI Pooling模型对第二图像中标注的各个兴趣目标候选框进行目标区域池化操作,得到标注有兴趣目标候选框的第三图像,所述第三图像上标注的各兴趣目标候选框的尺寸相同。
本实施例中RPN模型和ROI Pooling模型的操作场景示意图可以参见图4,如图4所示,结合示例了RPN模型的执行操作包括:初始图像输入conv layers(卷积层),convlayers输出包含兴趣目标的feature maps(特征图),对feature maps中兴趣目标的位置进行检测,输出feature maps中兴趣目标的proposals(候选框)。ROI Pooling模型的执行操作包括:对RPN模型输出的兴趣目标的proposals以及feature maps进行目标区域池化操作,得到标注有兴趣目标候选框的图像,其中,所述图像上标注的各兴趣目标候选框的尺寸相同。
步骤S230、将所述第三图像输入回归网络模型,得到修正后的兴趣目标候选框的位置以及各兴趣目标候选框代表的兴趣目标的分类类别。
回归网络模型可以对图像中的兴趣目标候选框的位置进行修正,及对各兴趣目标候选框代表的兴趣目标进行分类,得到图像中修正后的兴趣目标候选框的位置以及各兴趣目标候选框代表的兴趣目标的分类类别。
可以理解的是,本实施例中用到的RPN模型、ROI Pooling模型和回归网络模型可以是三个独立的模型,也可以是以一个完整的模型出现。
本实施例提供了另外一种目标检测方法,可以参见图5,可以包括以下步骤:
步骤S300、获取初始图像。
步骤S310、将所述初始图像输入预先训练的RPN模型,得到所述RPN模型输出的标注有兴趣目标候选框的第二图像。
其中,所述兴趣目标候选框中可能存在所述初始图像上所包含的兴趣目标。
步骤S320、将所述RPN模型输出的第二图像输入ROI Pooling模型,得到所述ROIPooling模型输出的标注有兴趣目标候选框的第三图像,其中,所述第三图像上标注的各兴趣目标候选框的尺寸相同。
步骤S330、将所述第三图像输入回归网络模型,得到修正后的兴趣目标候选框的位置以及各兴趣目标候选框代表的兴趣目标的分类类别。
步骤S300-步骤S330与前述实施例中的步骤S200-步骤S230一一对应,步骤S300-步骤S330的详细过程参见前文介绍,此处不再赘述。
步骤S340、将分类类别相同的候选框中,存在交集的候选框合并。
本实施例中,分类类别相同的候选框中,有一些候选框可能存在交集,且存在交集的候选框可能为同一个兴趣目标的候选框,因此将分类类别相同的候选框中,存在交集的候选框合并,得到一个候选框,保证合并后的候选框至少为整个兴趣目标所在的位置,至少能保证根据候选框可以识别出完整的兴趣目标。
下面对本申请实施例提供的目标检测装置进行描述,下文描述的目标检测装置与上文描述的目标检测方法可相互对应参照。
请参见图6,其示出了本申请提供的目标检测装置的一种逻辑结构示意图,目标检测装置包括:获取模块11和第一确定模块12。
获取模块11,用于获取初始图像。
第一确定模块12,用于将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像,其中,所述兴趣目标候选框中可能存在所述初始图像上所包含的兴趣目标。
所述深度卷积网络模型为预先利用标注有兴趣目标的真实信息的训练图像进行训练得到;所述深度卷积网络模型中最深层次的卷积层的输入包括:至少一其它卷积层的输出结果以及,所述最深层次的卷积层的相邻卷积层的输出结果与网络参数进行卷积运算得到的卷积结果。
在本实施例中,上述目标检测装置还可以包括:深度卷积网络模型的训练模块,用于获取训练图像,所述训练图像上标注有包围兴趣目标的真实框,及标注有真实框代表的兴趣目标的真实类别,并利用所述训练图像对深度卷积网络模型进行训练,以使得深度卷积网络模型输出的图像上标注的兴趣目标候选框与所述训练图像上标注的真实框的重合度满足设定重合度条件,且输出的各兴趣目标候选框代表的兴趣目标的类别与其真实类别相同的概率满足设定概率条件。
本实施例中,上述第一确定模块12将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像的过程,具体可以包括:
将所述初始图像输入预先训练的深度卷积网络模型,得到分类类别为非噪声的各类别的候选框,及候选框的置信度;
针对非噪声的每一类别的候选框,按照候选框的置信度由高至低的顺序,选取设定数目的候选框;
将各类别中选取的候选框作为标注于所述第二图像上的兴趣目标候选框。
本实施例中,所述深度卷积网络模型具体可以为但不局限于候选区域提取网络模型。基于此,上述目标检测装置还可以包括:第二确定模块,用于将所述候选区域提取网络模型输出的所述第二图像输入目标区域池化网络模型,得到所述目标区域池化网络模型输出的标注有兴趣目标候选框的第三图像,其中,所述第三图像上标注的各兴趣目标候选框的尺寸相同;
第三确定模块,用于将所述第三图像输入回归网络模型,得到修正后的兴趣目标候选框的位置以及各兴趣目标候选框代表的兴趣目标的分类类别。
当然,上述目标检测装置还可以包括:合并模块,用于将分类类别相同的候选框中,存在交集的候选框合并。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种目标检测方法,其特征在于,包括:
获取初始图像;
将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像,其中,所述候选框中可能存在所述初始图像上所包含的兴趣目标;
所述深度卷积网络模型为预先利用标注有兴趣目标的真实信息的训练图像进行训练得到;所述深度卷积网络模型中最深层次的卷积层的输入包括:至少一其它卷积层的输出结果以及,所述最深层次的卷积层的相邻卷积层的输出结果与网络参数进行卷积运算得到的卷积结果。
2.根据权利要求1所述的方法,其特征在于,所述深度卷积网络模型的训练过程包括:
获取训练图像,所述训练图像上标注有包围兴趣目标的真实框,及标注有真实框代表的兴趣目标的真实类别;
利用所述训练图像对深度卷积网络模型进行训练,以使得深度卷积网络模型输出的图像上标注的兴趣目标候选框与所述训练图像上标注的真实框的重合度满足设定重合度条件,且输出的各候选框代表的兴趣目标的类别与其真实类别相同的概率满足设定概率条件。
3.根据权利要求2所述的方法,其特征在于,所述将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像的步骤包括:
将所述初始图像输入预先训练的深度卷积网络模型,得到分类类别为非噪声的各类别的候选框,及候选框的置信度;
针对非噪声的每一类别的候选框,按照候选框的置信度由高至低的顺序,选取设定数目的候选框;
将各类别中选取的候选框作为标注于所述第二图像上的兴趣目标候选框。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述深度卷积网络模型为候选区域提取网络模型,该方法还包括:
将所述候选区域提取网络模型输出的所述第二图像输入目标区域池化网络模型,得到所述目标区域池化网络模型输出的标注有兴趣目标候选框的第三图像,其中,所述第三图像上标注的各兴趣目标候选框的尺寸相同;
将所述第三图像输入回归网络模型,得到修正后的兴趣目标候选框的位置以及各兴趣目标候选框代表的兴趣目标的分类类别。
5.根据权利要求4所述的方法,其特征在于,还包括:将分类类别相同的候选框中,存在交集的候选框合并。
6.一种目标检测装置,其特征在于,包括:
获取模块,用于获取初始图像;
第一确定模块,用于将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像,其中,所述候选框中可能存在所述初始图像上所包含的兴趣目标;
所述深度卷积网络模型为预先利用标注有兴趣目标的真实信息的训练图像进行训练得到;所述深度卷积网络模型中最深层次的卷积层的输入包括:至少一其它卷积层的输出结果以及,所述最深层次的卷积层的相邻卷积层的输出结果与网络参数进行卷积运算得到的卷积结果。
7.根据权利要求6所述的装置,其特征在于,还包括:
深度卷积网络模型的训练模块,用于获取训练图像,所述训练图像上标注有包围兴趣目标的真实框,及标注有真实框代表的兴趣目标的真实类别,并利用所述训练图像对深度卷积网络模型进行训练,以使得深度卷积网络模型输出的图像上标注的兴趣目标候选框与所述训练图像上标注的真实框的重合度满足设定重合度条件,且输出的各候选框代表的兴趣目标的类别与其真实类别相同的概率满足设定概率条件。
8.根据权利要求7所述的装置,其特征在于,所述第一确定模块将所述初始图像输入预先训练的深度卷积网络模型,得到所述深度卷积网络模型输出的标注有兴趣目标候选框的第二图像的过程,具体包括:
将所述初始图像输入预先训练的深度卷积网络模型,得到分类类别为非噪声的各类别的候选框,及候选框的置信度;
针对非噪声的每一类别的候选框,按照候选框的置信度由高至低的顺序,选取设定数目的候选框;
将各类别中选取的候选框作为标注于所述第二图像上的兴趣目标候选框。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述深度卷积网络模型为候选区域提取网络模型,该装置还包括:
第二确定模块,用于将所述候选区域提取网络模型输出的所述第二图像输入目标区域池化网络模型,得到所述目标区域池化网络模型输出的标注有兴趣目标候选框的第三图像,其中,所述第三图像上标注的各兴趣目标候选框的尺寸相同;
第三确定模块,用于将所述第三图像输入回归网络模型,得到修正后的兴趣目标候选框的位置以及各兴趣目标候选框代表的兴趣目标的分类类别。
10.根据权利要求9所述的装置,其特征在于,还包括:
合并模块,用于将分类类别相同的候选框中,存在交集的候选框合并。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810122649.9A CN110119737A (zh) | 2018-02-07 | 2018-02-07 | 一种目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810122649.9A CN110119737A (zh) | 2018-02-07 | 2018-02-07 | 一种目标检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110119737A true CN110119737A (zh) | 2019-08-13 |
Family
ID=67519577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810122649.9A Pending CN110119737A (zh) | 2018-02-07 | 2018-02-07 | 一种目标检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110119737A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737785A (zh) * | 2019-09-10 | 2020-01-31 | 华为技术有限公司 | 一种图片标注的方法及装置 |
CN110929805A (zh) * | 2019-12-05 | 2020-03-27 | 上海肇观电子科技有限公司 | 神经网络的训练方法、目标检测方法及设备、电路和介质 |
CN111191570A (zh) * | 2019-12-26 | 2020-05-22 | 国网北京市电力公司 | 图像识别方法和装置 |
CN111783863A (zh) * | 2020-06-23 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备以及计算机可读存储介质 |
CN111967595A (zh) * | 2020-08-17 | 2020-11-20 | 成都数之联科技有限公司 | 候选框标注方法及***及模型训练方法及目标检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355188A (zh) * | 2015-07-13 | 2017-01-25 | 阿里巴巴集团控股有限公司 | 图像检测方法及装置 |
CN106874894A (zh) * | 2017-03-28 | 2017-06-20 | 电子科技大学 | 一种基于区域全卷积神经网络的人体目标检测方法 |
-
2018
- 2018-02-07 CN CN201810122649.9A patent/CN110119737A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355188A (zh) * | 2015-07-13 | 2017-01-25 | 阿里巴巴集团控股有限公司 | 图像检测方法及装置 |
CN106874894A (zh) * | 2017-03-28 | 2017-06-20 | 电子科技大学 | 一种基于区域全卷积神经网络的人体目标检测方法 |
Non-Patent Citations (3)
Title |
---|
JONATHAN LONG 等: ""Fully convolutional networks for semantic segmentation"", 《ARXIV:1411.4038V2》 * |
SHAOQING REN 等: ""Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
黄孝平 著: "《当代机器深度学习方法与应用研究》", 30 November 2017 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737785A (zh) * | 2019-09-10 | 2020-01-31 | 华为技术有限公司 | 一种图片标注的方法及装置 |
CN110737785B (zh) * | 2019-09-10 | 2022-11-08 | 华为技术有限公司 | 一种图片标注的方法及装置 |
CN110929805A (zh) * | 2019-12-05 | 2020-03-27 | 上海肇观电子科技有限公司 | 神经网络的训练方法、目标检测方法及设备、电路和介质 |
CN110929805B (zh) * | 2019-12-05 | 2023-11-10 | 上海肇观电子科技有限公司 | 神经网络的训练方法、目标检测方法及设备、电路和介质 |
CN111191570A (zh) * | 2019-12-26 | 2020-05-22 | 国网北京市电力公司 | 图像识别方法和装置 |
CN111191570B (zh) * | 2019-12-26 | 2023-04-18 | 国网北京市电力公司 | 图像识别方法和装置 |
CN111783863A (zh) * | 2020-06-23 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备以及计算机可读存储介质 |
CN111967595A (zh) * | 2020-08-17 | 2020-11-20 | 成都数之联科技有限公司 | 候选框标注方法及***及模型训练方法及目标检测方法 |
CN111967595B (zh) * | 2020-08-17 | 2023-06-06 | 成都数之联科技股份有限公司 | 候选框标注方法及***及模型训练方法及目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119737A (zh) | 一种目标检测方法及装置 | |
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN104700099B (zh) | 识别交通标志的方法和装置 | |
CN111738110A (zh) | 基于多尺度注意力机制的遥感图像车辆目标检测方法 | |
CN108898047B (zh) | 基于分块遮挡感知的行人检测方法及*** | |
CN109284670A (zh) | 一种基于多尺度注意力机制的行人检测方法及装置 | |
CN110363134B (zh) | 一种基于语义分割的人脸遮挡区定位方法 | |
CN109034245B (zh) | 一种利用特征图融合的目标检测方法 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
CN105654066A (zh) | 一种车辆识别方法及装置 | |
CN106780546A (zh) | 基于卷积神经网络的运动模糊编码点的身份识别方法 | |
CN108460336A (zh) | 一种基于深度学习的行人检测方法 | |
CN111914726B (zh) | 基于多通道自适应注意力机制的行人检测方法 | |
CN114596316A (zh) | 一种基于语义分割的道路图像细节抓取方法 | |
CN112288701A (zh) | 一种智慧交通图像检测方法 | |
CN116109812A (zh) | 一种基于非极大值抑制阈值优化的目标检测方法 | |
CN108154199B (zh) | 一种基于深度学习的高精度快速单类目标检测方法 | |
CN106548195A (zh) | 一种基于改进型hog‑ulbp特征算子的目标检测方法 | |
CN109284752A (zh) | 一种车辆的快速检测方法 | |
Saravanarajan et al. | Improving semantic segmentation under hazy weather for autonomous vehicles using explainable artificial intelligence and adaptive dehazing approach | |
Surinwarangkoon et al. | Traffic sign recognition system for roadside images in poor condition | |
Lee | A Study on Fruit Quality Identification Using YOLO V2 Algorithm | |
CN111178181B (zh) | 交通场景分割方法及相关装置 | |
CN108363967A (zh) | 一种遥感图像场景的分类*** | |
CN116468702A (zh) | 黄褐斑评估方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200421 Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Alibaba (China) Co.,Ltd. Address before: 102200, No. 18, No., Changsheng Road, Changping District science and Technology Park, Beijing, China. 1-5 Applicant before: AUTONAVI SOFTWARE Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190813 |
|
RJ01 | Rejection of invention patent application after publication |