CN109685145A

CN109685145A - 一种基于深度学习和图像处理的小物件检测方法

Info

Publication number: CN109685145A
Application number: CN201811605116.2A
Authority: CN
Inventors: 李卫军; 吴超
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-04-26
Anticipated expiration: 2038-12-26
Also published as: CN109685145B

Abstract

本发明涉及图像处理领域，更具体的，涉及一种基于深度学习和图像处理的小物件检测方法，本发明通过把原始Inception模块的5x5的卷积替换为两个3x3的卷积核，保留了更多的细节，同时为了加快训练速度和输出一致性，在每个分支的最后加入了BN，即Batch Normalization,进行批量归一化处理，同时引入残差网络结构，增加准确率，而且本发明采用反卷积增强相邻两层的高层和底层的上下文信息，将上层反卷积的结果与底层卷积曾像素对齐一一相加，得到的新的特征图作为检测的特征图，可以提高对小物体的识别，本发明在不影响传统SSD的高FPS的前提下，提高传统SSD对小物体检测的准确率。

Description

一种基于深度学习和图像处理的小物件检测方法

技术领域

本发明涉及图像处理领域，更具体的，涉及一种基于深度学习和图像处理的小物件检测方法。

背景技术

目前，常用的对物体进行检测的算法是SSD，即Single Shot MultiBoxDetection。SSD是一种基于深度学习的端到端的检测框架，它的框架主要分为两个部分：第一部分是位于前端的卷积神经网络(VGG16)，用于对目标进行特征提取，后端是多尺度特征检测网络，将前段网络产生的特征层进行不同尺度条件下的特征提取；然后将Conv4_3,Conv7，Conv8_2，Conv9_2，Conv10_2,Conv11_2各层进行卷积得到坐标位置和置信度得分，最后通过非极大值抑制(non maximum suppression，NMS)得到结果。

但是由于SSD是采用的是多尺度检测的方法，这种方法会减少计算量有很高的FPS，并且由于是在不同尺度的特征图上进行检测，不同尺度的特征图上的卷积感受野就会不同，特别是在高层卷积层，它的感受野就会很大，提取的特征也很抽象，所以对小物体的和细节的检测上很不敏感。

发明内容

为了解决现有技术中SSD检测算法对小物件检测不敏感的不足，本发明提供了一种基于深度学习和图像处理的小物件检测方法。

为实现以上发明目的，采用的技术方案是：

一种基于深度学习和图像处理的小物件检测方法，包括以下步骤：

步骤S1：获取数据集，数据集中包括已标注的物体类别信息和目标框的左上(x_min,y_min)和右下(x_max,y_max)两个点的坐标信息的原始图片，从数据集的训练集中任意选取一张带标签信息的图片，将图片调整到300x300的大小作为输入；

步骤S2：将图片沿着水平(0，150)(300，150)和竖直方向(150，0)(150，300)分割成大小为150x150的4部分P1，P2，P3，P4；另外取以(75，75)(225，75)(75，225)(225，225)为四个顶点坐标的图像作为第5部分P5；

步骤S3：根据每张输入图片带的目标框的左上和右下两个坐标信息(x_min,y_min),(x_max,y_max)判断图片中的物体有没有被分割，并根据物体被分割的情况修改坐标；

步骤S4：运用三次内插法对图片进行插值，使被分割的大小为150x150的5部分图片P1、P2、P3、P4、P5与原始图片300x300的大小相同，并命名为F1，F2，F3，F4，F5，同时将步骤S3得到的修改后的坐标乘以2并进行更新；

步骤S5：对F1，F2，F3，F4，F5五张图片的每一张经VGG16网络提取特征，再用3x3x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv6特征图，再继续用1x1x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv7特征图；

步骤S6：将1x1,3x3，3x3的卷积核堆叠在一起,组成三个分支,每个分支的最后加入了BN，即Batch Normalization来进行批量归一化处理，将各个分支连接融合同时引入残差网络结构，将该结构命名为IRBNet卷积结构；

步骤S7：由步骤S5得到的大小为19x19x1024的Conv7特征图，经过IRBNet卷积结构来提取特征，得到大小为10x10x512的特征图Conv8；Conv8经过IRBNet卷积得到大小为5x5x256的特征图Conv9；Conv9经过IRBNet卷积得到大小为3x3x256的特征图Conv10；Conv10经过IRBNet卷积得到大小为1x1x256的特征图Conv11；

步骤S8：采用卷积核为3x3,步长为4的卷积方式对高层特征图进行反卷积，让其扩大两倍使得与上一底层大小一样，然后将对应位置的像素进行一一相加，得到的新的特征图大小与底层特征图大小一致，将该结构取名为HDPANet；

步骤S9：将特征图Conv8经过步骤S8得到另一个大小为19x19x1024的特征图与Conv7相加得到特征图Conv7D，特征图Conv9经过步骤S8得到另一个大小为10x10x512的特征图与Conv8相加得到特征图Conv8D,特征图Conv10经过步骤S8步得到另一个大小为5x5x256的特征图与Conv9相加得到特征图Conv9D,特征图Conv11经过步骤S8得到另一个大小为3x3x256的特征图与Conv10相加得到特征图Conv10D；

步骤S10：在Conv4_3和Conv10D以及Conv11特征图层用3x3的卷积核进行卷积得到通道数为4x(class+4)的特征图，在Conv7D,Conv8D,Conv9D特征图层用3x3的卷积核进行卷积得到通道数为6x(class+4)的特征图；

步骤S11:F1，F2，F3，F4，F5通过步骤S1～S10得到各自对应的损失函数loss；在反向传播的时候通过随机梯度下降算法优化五个损失函数loss的总和total_loss，同时还设置训练迭代次数epoch，当total_loss稳定时候得到的网络参数即为最优解；

步骤S12：在数据集中选取不带标签信息的图片，执行步骤S1以及步骤S2进行图片分割，并将分割好的图片放入到步骤S1～步骤S10训练好的网络中，再经过非极大值抑制进行过滤，最终得到F1，F2，F3，F4，F5这五张图的带预测类别label和预测坐标(x_{pred_min}，y_{pred_min})，(x_{pred_max}，y_{pred_max})；

步骤S13:根据F1，F2，F3，F4，F5五张图片的预测类别label以及预测坐标对图片进行融合，最后的结果即为检测的最终结果。

优选的，所述的步骤S3修改坐标的具体步骤如下：

1)若x_min＜150，x_max＞150，且y_min，y_max＜150或者x_min＜150，x_max＞150，y_min，y_max＞150则图像中的物体被沿竖直方向分割为左右两部分，令新的坐标为(x_min，y_min)，(150，y_max)和(150，y_min)，(x_max，y_max)，类别信息不改变；

2)若x_min，x_max＜150，y_min＜150，y_max＞150或者x_min，x_max＞150，y_min＜150，y_max＞150则图像中的物体被水平方向分割为上下两部分，令新的坐标为(x_min，y_min)，(x_max，150)，和(x_min，150)，(x_max，y_max)，类别信息不改变；

3)若x_min＜150,y_min＜150,x_max＞150,y_max＞150表示图像中的物体被水平方向和竖直方向一起切割为四部分，令新的坐标为(x_min,y_min),(150,150)和(150,y_min),(x_max,150)和(x_min,150),(150,y_max)以及(150，150)，(x_max，y_max)，类别信息不变。

优选的，所述的步骤S11求取损失函数loss以及total_loss的具体步骤如下：

Loss分为了confidence loss和location loss两部分，

其中,L(x,c,l,g)表示Loss，L_conf表示confidence loss，confidence loss是softmax loss算法，L_loc表示location loss，N是confidence loss中match到GroundTruth的priorbox数量；而α参数用于调整confidence loss和location loss之间的比例，代表第i个预测框匹配到了第j个真实框为p类别的GT box；c表示置信度，l表示预测框，g表示真框；

表示通过softmax方法产生的概率值，Pos表示是正样本，Neg表示负样本，N是confidence loss中匹配到到Ground Truth的prior box数量当时成立，表示第i个预测框属于类别p的概率、p表示类别中的第p个类别；

其中，cx表示框的中心点x坐标，cy表示中心点y坐标，w表示宽，h表示高，i表示第i个预测框，j表示第j个真实框，d_i表示偏移量，表示第i个预测框与第j个真实框关于类别k是否匹配，匹配为1，不匹配为0，表示预测框，表示真实框的偏移框；m表示属于(cx,cy,w,h)中的一个取值，表示第j个真实框的偏移框的中心点x的坐标，表示第j个真实框的偏移框的中心点y的坐标，表示第j个真实框的偏移框的宽度，表示第j个真实框的偏移框的高度，表示第i个预测框的中心点x坐标偏移量，表示第i个预测框的中心点y坐标偏移量，表示第i个预测框宽度偏移量，表示第i个预测框的高度偏移量，表示第j个真实框中心点x坐标，表示第j个真实框的中心点y坐标，表示第j个真实框的宽度，表示第j个真实框的高度；

F1，F2，F3，F4，F5经过处理得到的五个损失函数分别记为L₁(x,c,l,g)，L₂(x,c,l,g)，L₃(x,c,l,g)，L₄(x,c,l,g),L₅(x,c,l,g)，总的损失函数记作：

Total_loss＝L₁(x,c,l,g)+L₂(x,c,l,g)+L₃(x,c,l,g)+L₄(x,c,l,g)+L₅(x,c,l,g)。

优选的，所述的步骤S13对图片进行融合的具体步骤如下：

(1)若F1,F2,F3,F4各图片的预测坐标x_{pred_max}，y_{pred_max}＜300且x_{pred_min}，y_{pred_min}＞0，则将F1,F2,F3,F4按照原始位置合为一张图片，再将融合的图片大小缩小4倍得到原图300x300的大小，同时将预测坐标缩小4倍，最后的结果即为检测的最终结果；

(2)检测左右两部分边界上的物体的类别label1和label2，若label1等于label2则表示为同一类，比较两物体的坐标信息的大小，以大的边框为准向向小的方向延长(x_max-x_min)的长度，然后将图片的四条边进行补齐，将F1,F2,F3,F4按原始位置合为一张图片，把融合后的一整张图片的大小缩小4倍得到原图300x300的大小，同时将修改后的坐标缩小4倍，最后的结果即为检测的最终结果；

(3)检测上下两部分边界上的物体的类别label1和label2，若label1等于label2则表示为同一类，比较两物体的坐标信息的大小，以大的边框为准向向小的方向延长y_max减去y_min的长度，然后补齐；把融合后的一整张图片的大小缩小4倍得到原图300x300的大小，同时将修改后的坐标缩小4倍，最后的结果即为检测的最终结果；

(4)若F1,F2,F3,F4各图片的预测坐标(x_{pred_min}，y_{pred_min})＝(300，300)或者(x_{pred_max}，y_{pred_max})＝(300，300)表示物体被左上，左下，右上，右下四部分同时分割了；则用中间部分的图片F5的检测结果作为中间物体的检测结果，把融合后的一整张图片的大小缩小4倍得到原图300x300的大小，得到的坐标信息同时缩小4倍，最后的结果即为检测的最终结果。

优选的，所述的α＝1。

与现有技术相比，本发明的有益效果是：

本发明通过把原始Inception模块的5x5的卷积替换为两个3x3的卷积核，保留了更多的细节，同时为了加快训练速度和输出一致性，在每个分支的最后加入了BN，即BatchNormalization,进行批量归一化处理，同时引入残差网络结构，增加准确率，而且本发明采用反卷积增强相邻两层的高层和底层的上下文信息，将上层反卷积的结果与底层卷积曾像素对齐一一相加，得到的新的特征图作为检测的特征图，可以提高对小物体的识别，本发明在不影响传统SSD的高FPS的前提下，提高传统SSD对小物体检测的准确率。

附图说明

图1为本发明的流程图。

图2为本发明分割图像的分割点示意图。

图3为本发明图像分割网的流程图。

图4为本发明残差网络的结构图。

图5为IRBNet的结构图。

图6为高层反卷积像素相加的流程图。

图7为求解预测类别label与预测坐标的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1～图7所示，一种基于深度学习和图像处理的小物件检测方法，包括以下步骤：

步骤S2：如图2所示，将图片沿着水平(0，150)(300，150)和竖直方向(150，0)(150，300)分割成大小为150x150的4部分P1，P2，P3，P4；另外取以(75，75)(225，75)(75，225)(225，225)为四个顶点坐标的图像作为第5部分P5；

步骤S4：如图3所示，运用三次内插法对图片进行插值，使被分割的大小为150x150的5部分图片P1、P2、P3、P4、P5与原始图片300x300的大小相同，并命名为F1，F2，F3，F4，F5，同时将步骤S3得到的修改后的坐标乘以2并进行更新；

步骤S6：如图4、图5所示，将1x1,3x3，3x3的卷积核堆叠在一起,组成三个分支,每个分支的最后加入了BN，即Batch Normalization来进行批量归一化处理，将各个分支连接融合同时引入残差网络结构，将该结构命名为IRBNet卷积结构；

步骤S8：如图6所示，采用卷积核为3x3,步长为4的卷积方式对高层特征图进行反卷积，让其扩大两倍使得与上一底层大小一样，然后将对应位置的像素进行一一相加，得到的新的特征图大小与底层特征图大小一致，将该结构取名为HDPANet；

步骤S12：如图7所示，在数据集中选取不带标签信息的图片，执行步骤S1以及步骤S2进行图片分割，并将分割好的图片放入到步骤S1～步骤S10训练好的网络中，再经过非极大值抑制进行过滤，最终得到F1，F2，F3，F4，F5这五张图的带预测类别label和预测坐标(x_{pred_min}，y_{pred_min})，(x_{pred_max}，y_{pred_max})；

作为一个优选的实施例，所述的步骤S3修改坐标的具体步骤如下：

作为一个优选的实施例，所述的步骤S11求取损失函数loss以及total_loss的具体步骤如下：

Loss分为了confidence loss和location loss两部分，

作为一个优选的实施例，所述的步骤S13对图片进行融合的具体步骤如下：

作为一个优选的实施例，所述的α＝1。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习和图像处理的小物件检测方法，其特征在于，包括以下步骤：

步骤S7：由步骤S6得到的大小为19x19x1024的Conv7特征图，经过IRBNet卷积结构来提取特征，得到大小为10x10x512的特征图Conv8；Conv8经过IRBNet卷积得到大小为5x5x256的特征图Conv9；Conv9经过IRBNet卷积得到大小为3x3x256的特征图Conv10；Conv10经过IRBNet卷积得到大小为1x1x256的特征图Conv11；

2.根据权利要求1中所述的一种基于深度学习和图像处理的小物件检测方法，其特征在于，所述的步骤S3修改坐标的具体步骤如下：

3.根据权利要求2中所述的一种基于深度学习和图像处理的小物件检测方法，其特征在于，所述的步骤S11求取损失函数loss以及total_loss的具体步骤如下：

Loss分为了confidence loss和location loss两部分，

其中,L(x,c,l,g)表示Loss，L_conf表示confidence loss，confidence loss是softmaxloss算法，L_loc表示location loss，N是confidence loss中match到GroundTruth的priorbox数量；而α参数用于调整confidence loss和location loss之间的比例，代表第i个预测框匹配到了第j个真实框为p类别的GT box；c表示置信度，l表示预测框，g表示真框；

4.根据权利要求3中所述的一种基于深度学习和图像处理的小物件检测方法，其特征在于，所述的步骤S13对图片进行融合的具体步骤如下：

5.根据权利要求4中所述的一种基于深度学习和图像处理的小物件检测方法，其特征在于，所述的α＝1。