一种目标检测方法、***、装置及存储介质
技术领域
本发明涉及检测技术领域,尤其涉及一种目标检测方法、***、装置及存储介质。
背景技术
近年来计算机视觉领域技术蓬勃发展,虽然目前研究目标检测的方法有很多,但大致可以将之分为两个主流:一是基于区域提议的方法,如RCNN系列(RCNN,Fast RCNN以及Faster RCNN等);二是无区域提议的方法,如YOLO、SSD以及DSSD等。其中基于区域提议方法的主要原理是将目标检测任务划分为两个子问题:在第一阶段,通过算法或区域提议网络生成高质量的候选框,然后在第二阶段,设计子网络以对这些候选框进行分类和边界框回归,从而获得相对更高的准确率。
目前大多数的基于区域提议的目标检测方法都是针对其中的某一方面进行了改进,没有进行有效的结合,以至于目标检测的结果仍有较大的上升空间。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能提高准确率的目标检测方法、***、装置及存储介质。
本发明所采取的技术方案是:
一种目标检测方法,包括以下步骤:
对待检测图像进行特征提取,生成得到特征图;
对特征图进行特征提取,得到第一特征信息;
对特征图进行注意力特征提取,得到第二特征信息;
将第一特征信息和第二特征信息进行合并,得到目标特征信息;
生成候选框,并将候选框投影到目标特征信息上,得到感兴趣区域;
对感兴趣区域进行分类预测,得到最终分类得分和最终边界框。
作为所述的一种目标检测方法的进一步改进,所述第二特征信息包括通道特征信息和空间特征信息,所述的对特征图进行注意力特征提取,得到第二特征信息,这一步骤具体包括:
对特征图进行通道特征提取,得到通道特征信息;
对特征图进行空间特征提取,得到空间特征信息。
作为所述的一种目标检测方法的进一步改进,所述的对特征图进行通道特征提取,得到通道特征信息,这一步骤具体为:
将特征图在空间层面上进行压缩,得到第一矢量;
对第一矢量分别进行平均池化和最大值池化处理,提取得到通道特征信息。
作为所述的一种目标检测方法的进一步改进,所述的对特征图进行空间特征提取,得到空间特征信息,这一步骤具体为:
将特征图在通道层面上进行压缩,得到第二矢量;
对第二矢量分别进行平均池化和最大值池化处理,提取得到空间特征信息。
作为所述的一种目标检测方法的进一步改进,所述的生成候选框,这一步骤具体包括:
在特征图上产生均匀分布的候选框;
对候选框进行多次迭代,评估每次迭代过程中产生的候选框存在目标的概率得分,将每次迭代过程中产生的候选框加入到总候选框集合中;
根据概率得分,在总候选框集合中通过非极大值抑制选取最优的前k个候选框,其中,k为预设值。
作为所述的一种目标检测方法的进一步改进,所述的进行特征提取这一步骤具体为:
结合感受野块进行特征提取。
本发明所采用的另一个技术方案是:
一种目标检测***,包括:
第一卷积层,用于对待检测图像进行特征提取,生成得到特征图;
第二卷积层,用于对特征图进行特征提取,得到第一特征信息;
卷积块注意模块,用于对特征图进行注意力特征提取,得到第二特征信息;
合并模块,用于将第一特征信息和第二特征信息进行合并,得到目标特征信息;
感兴趣区域生成模块,用于生成候选框,并将候选框投影到目标特征信息上,得到感兴趣区域;
预测模块,用于对感兴趣区域进行分类预测,得到最终分类得分和最终边界框。
作为所述的一种目标检测***的进一步改进,所述第二特征信息包括通道特征信息和空间特征信息,所述的卷积块注意模块具体包括:
通道注意模块,用于对特征图进行通道特征提取,得到通道特征信息;
空间注意模块,用于对特征图进行空间特征提取,得到空间特征信息。
本发明所采用的再一个技术方案是:
一种目标检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述一种目标检测方法。
本发明所采用的再一个技术方案是:
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行所述的目标检测方法。
本发明的有益效果是:
本发明一种目标检测方法、***、装置及存储介质通过将第一特征信息和第二特征信息进行合并得到目标特征信息,使得特征具有更强的语义信息,从而能大大提高目标检测的准确率。
附图说明
图1是本发明一种目标检测方法的步骤流程图;
图2是本发明一种目标检测***的模块方框图;
图3是本发明一个实施例中生成候选框的示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
参考图1,本发明实施例提供了一种目标检测方法,包括以下步骤:
S1、对待检测图像进行特征提取,生成得到特征图;
S2、对特征图进行特征提取,得到第一特征信息;
本实施例中是通过一系列的卷积操作来提取图像中的特征信息从而得到特征图,通常卷积层包括3*3、1*3、1*1或7*7的卷积核,针对不同的网络结构采用的卷积核的大小和数目也不相同。在本实施例中采用ResNet-101网络进行特征提取。
由于卷积网络前馈计算是通过101层的resnet进行特征提取的,而且每层中又有多个通道所以不可能手动计算整个过程,因此只能简单描述卷积网络前馈计算的基本原理,卷积网络一般包括卷积、池化、全连接操作,接下来具体介绍。首先进行卷积操作,以一个卷积核为例,其具体计算如下:
其中x是输入特征图的像素值,w是卷积操作的权重,y则是最终得到的特征信息,如果卷积存在偏置,则在每次计算中加入偏置项b。接着进行池化操作,一般是最大值池化,即
然后便是全连接操作,将前面经过多次卷积核、池化得到的各个通道值x=(x1,x2,x3),通过全连接操作,使输出的每个值与所有输入连接,其具体计算如下,其中x是全连接层的输入,w为连接的权重,a为全连接的输出。
a1=w11*x1+w12*x2+w13*x3
a2=W21*x1+W22*x2+W23*x3
a3=w31*x1+w32*x2+w33*x3。
S3、对特征图进行注意力特征提取,得到第二特征信息;
其中,所述第二特征信息包括通道特征信息和空间特征信息,本实施例中将注意力机制引入到了通道和空间维度上,形成了通道注意模块和空间注意模块,通过在内部级联这两个注意力模块,分别从特征图的空间和通道层面上提取有用信息,从而增强特征表达能力。其中通道注意模块与SENet类似,都是将特征图在空间上维度上进行压缩,得到一个一维矢量以后再进行操作。与SENet不同之处在于,对特征图进行维度压缩时不仅进行了平均池化同时也通过采用最大值池化来补充信息。而空间注意模块则是在通道层面上进行压缩,对输入特征分别在通道维度上做了平均和最大值池化操作,以此来提取空间中的信息。
S4、将第一特征信息和第二特征信息进行合并,得到目标特征信息;
S5、生成候选框,并将候选框投影到目标特征信息上,得到感兴趣区域;
本实施例中采用提议网络生成候选框,提议网络实质上是小型的卷积神经网络,用来产生候选框进而可以选择图像上的感兴趣区域。因此该网络去除了大量的无意义的区域,不仅减少了计算同时也提高了准确率。其结构如图3,其中ARN是目标位置优化模块,用于产生优化后的候选框以及得分。具体而言提议网络采用动态策略产生候选框,首先在图像上产生均匀分布的候选框B作为种子箱,然后进行多次迭代,在每次迭代过程中通过ARN评估迭代产生的候选框中存在目标的概率得分并调整位置,然后将调整后新产生的候选框加入到总的候选框集合中,最后通过非极大值抑制选取最优的前k个候选框。
本实施例的提议网络在生成候选框后通过一定的公式比例投影到卷积产生的特征图上,结果可在特征图上产生若干个候选框。这些候选框对网络来说就是感兴趣区域,一般感兴趣区域越多目标检测越准确但耗时也变长,通常为2000左右。
S6、对感兴趣区域进行分类预测,得到最终分类得分和最终边界框。
本实施例中的分类预测通过预测网络实现,预测网络通过在一定的IOU阈值的基础上计算每个候选框的损失函数,通常损失函数包括分类损失和边界框回归损失两部分,通过不断优化损失来产生更准确的候选边界框(其中IOU阈值是用来将候选框分为正负样本)。
本实施例中通过softmax进行分类预测,其中softmax函数δ(a)=(δ1(a),...,δn(a))定义如下:
每个δi(a)表示为观察到的数据a属于类别i的概率。在网络训练期间通过不断优化分类损失和边界框损失来提高准确率。其中分类损失是一个交叉熵损失,其表达式如下:
其中pi代表softmax计算得到的值,则是样本的真实值。Ncls为边界框总数,边界框损失则是绝对损失函数,具体表达式为:
其中ti={tx,ty,tw,th}为一个向量,表示边界框预测的偏移量,是与之相同的向量,表示实际的偏移量,λ为平衡因子,Nreg为特征图的尺寸,R则是smooth L1损失,其表达式为:
当时,其表达式为:
其他情况下表达式为:
进一步作为优选的实施方式,本实施例中所述第二特征信息包括通道特征信息和空间特征信息,所述的对特征图进行注意力特征提取,得到第二特征信息,这一步骤具体包括:
S31、对特征图进行通道特征提取,得到通道特征信息;
S32、对特征图进行空间特征提取,得到空间特征信息。
本实施例通过从特征图的空间和通道层面上提取通道特征信息和空间特征信息,从而增强特征表达能力。
进一步作为优选的实施方式,本实施例中所述的对特征图进行通道特征提取,得到通道特征信息,这一步骤具体为:
S311、将特征图在空间层面上进行压缩,得到第一矢量;
S312、对第一矢量分别进行平均池化和最大值池化处理,提取得到通道特征信息。
本实施例中先是将特征图在空间维度上进行压缩,得到一个一维矢量的第一矢量,而且对特征图进行维度压缩时不仅进行了平均池化同时也通过采用最大值池化来补充信息,从而得到通道特征信息。
进一步作为优选的实施方式,本实施例中所述的对特征图进行空间特征提取,得到空间特征信息,这一步骤具体为:
S321、将特征图在通道层面上进行压缩,得到第二矢量;
S322、对第二矢量分别进行平均池化和最大值池化处理,提取得到空间特征信息。
本实施例中先是将特征图在通道维度上进行压缩,得到一个一维矢量的第二矢量,而且对特征图进行维度压缩时不仅进行了平均池化同时也通过采用最大值池化来补充信息,从而得到空间特征信息。
进一步作为优选的实施方式,本实施例中所述的生成候选框,这一步骤具体包括:
S51、在特征图上产生均匀分布的候选框;
S52、对候选框进行多次迭代,评估每次迭代过程中产生的候选框存在目标的概率得分,将每次迭代过程中产生的候选框加入到总候选框集合中;
S53、根据概率得分,在总候选框集合中通过非极大值抑制选取最优的前k个候选框,其中,k为预设值。
本实施例中,本实施例中采用提议网络实现,该网络能去除了大量的无意义的区域,不仅减少了计算同时也提高了准确率。其结构如图3,其中ARN是目标位置优化模块,用于产生优化后的候选框以及概率得分。
进一步作为优选的实施方式,本实施例中所述的进行特征提取这一步骤具体为:
结合感受野块进行特征提取。
本实施例中采用感受野块模块实现,该模块是在模拟人类视觉感受野的基础上进行设计的,其结构主要有两个特点:1、拥有不同尺寸卷积核的卷积层构成的多分支结构,其与Inception类似,用来模拟不同规模的感受野。2、引入了扩张卷积层,主要作用也是增加感受野,在感受野块模块结构中最后会将不同尺寸和比率的卷积层输出进行连接,达到融合不同特征的目的,进而重建人类视觉***中感受野大小与离心率的关系。所述感受野块模块整体结构上借鉴了Inception网络模型的思想,其中包括的1x1的conv主要用于减少计算量和进行跨通道的信息融合。
参考图2,本实施例还提供了一种目标检测***,包括:
第一卷积层,用于对待检测图像进行特征提取,生成得到特征图;
第二卷积层,用于对特征图进行特征提取,得到第一特征信息;
卷积块注意模块,用于对特征图进行注意力特征提取,得到第二特征信息;
合并模块,用于将第一特征信息和第二特征信息进行合并,得到目标特征信息;
感兴趣区域生成模块,用于生成候选框,并将候选框投影到目标特征信息上,得到感兴趣区域;
预测模块,用于对感兴趣区域进行分类预测,得到最终分类得分和最终边界框。
上述方法实施例中的内容均适用于本***实施例中,本***实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
进一步作为优选的实施方式,所述第二特征信息包括通道特征信息和空间特征信息,所述的卷积块注意模块具体包括:
通道注意模块,用于对特征图进行通道特征提取,得到通道特征信息;
空间注意模块,用于对特征图进行空间特征提取,得到空间特征信息。
本实施例还提供了一种目标检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述一种目标检测方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本实施例还提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行所述的目标检测方法。
上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
从上述内容可知,本发明通过将第一特征信息和第二特征信息进行合并得到目标特征信息,使得特征具有更强的语义信息,从而能大大提高目标检测的准确率。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。