CN109685145A - 一种基于深度学习和图像处理的小物件检测方法 - Google Patents
一种基于深度学习和图像处理的小物件检测方法 Download PDFInfo
- Publication number
- CN109685145A CN109685145A CN201811605116.2A CN201811605116A CN109685145A CN 109685145 A CN109685145 A CN 109685145A CN 201811605116 A CN201811605116 A CN 201811605116A CN 109685145 A CN109685145 A CN 109685145A
- Authority
- CN
- China
- Prior art keywords
- max
- size
- coordinate
- picture
- characteristic pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理领域,更具体的,涉及一种基于深度学习和图像处理的小物件检测方法,本发明通过把原始Inception模块的5x5的卷积替换为两个3x3的卷积核,保留了更多的细节,同时为了加快训练速度和输出一致性,在每个分支的最后加入了BN,即Batch Normalization,进行批量归一化处理,同时引入残差网络结构,增加准确率,而且本发明采用反卷积增强相邻两层的高层和底层的上下文信息,将上层反卷积的结果与底层卷积曾像素对齐一一相加,得到的新的特征图作为检测的特征图,可以提高对小物体的识别,本发明在不影响传统SSD的高FPS的前提下,提高传统SSD对小物体检测的准确率。
Description
技术领域
本发明涉及图像处理领域,更具体的,涉及一种基于深度学习和图像处理的小物件检测方法。
背景技术
目前,常用的对物体进行检测的算法是SSD,即Single Shot MultiBoxDetection。SSD是一种基于深度学习的端到端的检测框架,它的框架主要分为两个部分:第一部分是位于前端的卷积神经网络(VGG16),用于对目标进行特征提取,后端是多尺度特征检测网络,将前段网络产生的特征层进行不同尺度条件下的特征提取;然后将Conv4_3,Conv7,Conv8_2,Conv9_2,Conv10_2,Conv11_2各层进行卷积得到坐标位置和置信度得分,最后通过非极大值抑制(non maximum suppression,NMS)得到结果。
但是由于SSD是采用的是多尺度检测的方法,这种方法会减少计算量有很高的FPS,并且由于是在不同尺度的特征图上进行检测,不同尺度的特征图上的卷积感受野就会不同,特别是在高层卷积层,它的感受野就会很大,提取的特征也很抽象,所以对小物体的和细节的检测上很不敏感。
发明内容
为了解决现有技术中SSD检测算法对小物件检测不敏感的不足,本发明提供了一种基于深度学习和图像处理的小物件检测方法。
为实现以上发明目的,采用的技术方案是:
一种基于深度学习和图像处理的小物件检测方法,包括以下步骤:
步骤S1:获取数据集,数据集中包括已标注的物体类别信息和目标框的左上(xmin,ymin)和右下(xmax,ymax)两个点的坐标信息的原始图片,从数据集的训练集中任意选取一张带标签信息的图片,将图片调整到300x300的大小作为输入;
步骤S2:将图片沿着水平(0,150)(300,150)和竖直方向(150,0)(150,300)分割成大小为150x150的4部分P1,P2,P3,P4;另外取以(75,75)(225,75)(75,225)(225,225)为四个顶点坐标的图像作为第5部分P5;
步骤S3:根据每张输入图片带的目标框的左上和右下两个坐标信息(xmin,ymin),(xmax,ymax)判断图片中的物体有没有被分割,并根据物体被分割的情况修改坐标;
步骤S4:运用三次内插法对图片进行插值,使被分割的大小为150x150的5部分图片P1、P2、P3、P4、P5与原始图片300x300的大小相同,并命名为F1,F2,F3,F4,F5,同时将步骤S3得到的修改后的坐标乘以2并进行更新;
步骤S5:对F1,F2,F3,F4,F5五张图片的每一张经VGG16网络提取特征,再用3x3x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv6特征图,再继续用1x1x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv7特征图;
步骤S6:将1x1,3x3,3x3的卷积核堆叠在一起,组成三个分支,每个分支的最后加入了BN,即Batch Normalization来进行批量归一化处理,将各个分支连接融合同时引入残差网络结构,将该结构命名为IRBNet卷积结构;
步骤S7:由步骤S5得到的大小为19x19x1024的Conv7特征图,经过IRBNet卷积结构来提取特征,得到大小为10x10x512的特征图Conv8;Conv8经过IRBNet卷积得到大小为5x5x256的特征图Conv9;Conv9经过IRBNet卷积得到大小为3x3x256的特征图Conv10;Conv10经过IRBNet卷积得到大小为1x1x256的特征图Conv11;
步骤S8:采用卷积核为3x3,步长为4的卷积方式对高层特征图进行反卷积,让其扩大两倍使得与上一底层大小一样,然后将对应位置的像素进行一一相加,得到的新的特征图大小与底层特征图大小一致,将该结构取名为HDPANet;
步骤S9:将特征图Conv8经过步骤S8得到另一个大小为19x19x1024的特征图与Conv7相加得到特征图Conv7D,特征图Conv9经过步骤S8得到另一个大小为10x10x512的特征图与Conv8相加得到特征图Conv8D,特征图Conv10经过步骤S8步得到另一个大小为5x5x256的特征图与Conv9相加得到特征图Conv9D,特征图Conv11经过步骤S8得到另一个大小为3x3x256的特征图与Conv10相加得到特征图Conv10D;
步骤S10:在Conv4_3和Conv10D以及Conv11特征图层用3x3的卷积核进行卷积得到通道数为4x(class+4)的特征图,在Conv7D,Conv8D,Conv9D特征图层用3x3的卷积核进行卷积得到通道数为6x(class+4)的特征图;
步骤S11:F1,F2,F3,F4,F5通过步骤S1~S10得到各自对应的损失函数loss;在反向传播的时候通过随机梯度下降算法优化五个损失函数loss的总和total_loss,同时还设置训练迭代次数epoch,当total_loss稳定时候得到的网络参数即为最优解;
步骤S12:在数据集中选取不带标签信息的图片,执行步骤S1以及步骤S2进行图片分割,并将分割好的图片放入到步骤S1~步骤S10训练好的网络中,再经过非极大值抑制进行过滤,最终得到F1,F2,F3,F4,F5这五张图的带预测类别label和预测坐标(xpred_min,ypred_min),(xpred_max,ypred_max);
步骤S13:根据F1,F2,F3,F4,F5五张图片的预测类别label以及预测坐标对图片进行融合,最后的结果即为检测的最终结果。
优选的,所述的步骤S3修改坐标的具体步骤如下:
1)若xmin<150,xmax>150,且ymin,ymax<150或者xmin<150,xmax>150,ymin,ymax>150则图像中的物体被沿竖直方向分割为左右两部分,令新的坐标为(xmin,ymin),(150,ymax)和(150,ymin),(xmax,ymax),类别信息不改变;
2)若xmin,xmax<150,ymin<150,ymax>150或者xmin,xmax>150,ymin<150,ymax>150则图像中的物体被水平方向分割为上下两部分,令新的坐标为(xmin,ymin),(xmax,150),和(xmin,150),(xmax,ymax),类别信息不改变;
3)若xmin<150,ymin<150,xmax>150,ymax>150表示图像中的物体被水平方向和竖直方向一起切割为四部分,令新的坐标为(xmin,ymin),(150,150)和(150,ymin),(xmax,150)和(xmin,150),(150,ymax)以及(150,150),(xmax,ymax),类别信息不变。
优选的,所述的步骤S11求取损失函数loss以及total_loss的具体步骤如下:
Loss分为了confidence loss和location loss两部分,
其中,L(x,c,l,g)表示Loss,Lconf表示confidence loss,confidence loss是softmax loss算法,Lloc表示location loss,N是confidence loss中match到GroundTruth的priorbox数量;而α参数用于调整confidence loss和location loss之间的比例,代表第i个预测框匹配到了第j个真实框为p类别的GT box;c表示置信度,l表示预测框,g表示真框;
表示通过softmax方法产生的概率值,Pos表示是正样本,Neg表示负样本,N是confidence loss中匹配到到Ground Truth的prior box数量当时成立,表示第i个预测框属于类别p的概率、p表示类别中的第p个类别;
其中,cx表示框的中心点x坐标,cy表示中心点y坐标,w表示宽,h表示高,i表示第i个预测框,j表示第j个真实框,di表示偏移量,表示第i个预测框与第j个真实框关于类别k是否匹配,匹配为1,不匹配为0,表示预测框,表示真实框的偏移框;m表示属于(cx,cy,w,h)中的一个取值,表示第j个真实框的偏移框的中心点x的坐标,表示第j个真实框的偏移框的中心点y的坐标,表示第j个真实框的偏移框的宽度,表示第j个真实框的偏移框的高度,表示第i个预测框的中心点x坐标偏移量,表示第i个预测框的中心点y坐标偏移量,表示第i个预测框宽度偏移量,表示第i个预测框的高度偏移量,表示第j个真实框中心点x坐标,表示第j个真实框的中心点y坐标,表示第j个真实框的宽度,表示第j个真实框的高度;
F1,F2,F3,F4,F5经过处理得到的五个损失函数分别记为L1(x,c,l,g),L2(x,c,l,g),L3(x,c,l,g),L4(x,c,l,g),L5(x,c,l,g),总的损失函数记作:
Total_loss=L1(x,c,l,g)+L2(x,c,l,g)+L3(x,c,l,g)+L4(x,c,l,g)+L5(x,c,l,g)。
优选的,所述的步骤S13对图片进行融合的具体步骤如下:
(1)若F1,F2,F3,F4各图片的预测坐标xpred_max,ypred_max<300且xpred_min,ypred_min>0,则将F1,F2,F3,F4按照原始位置合为一张图片,再将融合的图片大小缩小4倍得到原图300x300的大小,同时将预测坐标缩小4倍,最后的结果即为检测的最终结果;
(2)检测左右两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长(xmax-xmin)的长度,然后将图片的四条边进行补齐,将F1,F2,F3,F4按原始位置合为一张图片,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(3)检测上下两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长ymax减去ymin的长度,然后补齐;把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(4)若F1,F2,F3,F4各图片的预测坐标(xpred_min,ypred_min)=(300,300)或者(xpred_max,ypred_max)=(300,300)表示物体被左上,左下,右上,右下四部分同时分割了;则用中间部分的图片F5的检测结果作为中间物体的检测结果,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,得到的坐标信息同时缩小4倍,最后的结果即为检测的最终结果。
优选的,所述的α=1。
与现有技术相比,本发明的有益效果是:
本发明通过把原始Inception模块的5x5的卷积替换为两个3x3的卷积核,保留了更多的细节,同时为了加快训练速度和输出一致性,在每个分支的最后加入了BN,即BatchNormalization,进行批量归一化处理,同时引入残差网络结构,增加准确率,而且本发明采用反卷积增强相邻两层的高层和底层的上下文信息,将上层反卷积的结果与底层卷积曾像素对齐一一相加,得到的新的特征图作为检测的特征图,可以提高对小物体的识别,本发明在不影响传统SSD的高FPS的前提下,提高传统SSD对小物体检测的准确率。
附图说明
图1为本发明的流程图。
图2为本发明分割图像的分割点示意图。
图3为本发明图像分割网的流程图。
图4为本发明残差网络的结构图。
图5为IRBNet的结构图。
图6为高层反卷积像素相加的流程图。
图7为求解预测类别label与预测坐标的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1~图7所示,一种基于深度学习和图像处理的小物件检测方法,包括以下步骤:
步骤S1:获取数据集,数据集中包括已标注的物体类别信息和目标框的左上(xmin,ymin)和右下(xmax,ymax)两个点的坐标信息的原始图片,从数据集的训练集中任意选取一张带标签信息的图片,将图片调整到300x300的大小作为输入;
步骤S2:如图2所示,将图片沿着水平(0,150)(300,150)和竖直方向(150,0)(150,300)分割成大小为150x150的4部分P1,P2,P3,P4;另外取以(75,75)(225,75)(75,225)(225,225)为四个顶点坐标的图像作为第5部分P5;
步骤S3:根据每张输入图片带的目标框的左上和右下两个坐标信息(xmin,ymin),(xmax,ymax)判断图片中的物体有没有被分割,并根据物体被分割的情况修改坐标;
步骤S4:如图3所示,运用三次内插法对图片进行插值,使被分割的大小为150x150的5部分图片P1、P2、P3、P4、P5与原始图片300x300的大小相同,并命名为F1,F2,F3,F4,F5,同时将步骤S3得到的修改后的坐标乘以2并进行更新;
步骤S5:对F1,F2,F3,F4,F5五张图片的每一张经VGG16网络提取特征,再用3x3x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv6特征图,再继续用1x1x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv7特征图;
步骤S6:如图4、图5所示,将1x1,3x3,3x3的卷积核堆叠在一起,组成三个分支,每个分支的最后加入了BN,即Batch Normalization来进行批量归一化处理,将各个分支连接融合同时引入残差网络结构,将该结构命名为IRBNet卷积结构;
步骤S7:由步骤S5得到的大小为19x19x1024的Conv7特征图,经过IRBNet卷积结构来提取特征,得到大小为10x10x512的特征图Conv8;Conv8经过IRBNet卷积得到大小为5x5x256的特征图Conv9;Conv9经过IRBNet卷积得到大小为3x3x256的特征图Conv10;Conv10经过IRBNet卷积得到大小为1x1x256的特征图Conv11;
步骤S8:如图6所示,采用卷积核为3x3,步长为4的卷积方式对高层特征图进行反卷积,让其扩大两倍使得与上一底层大小一样,然后将对应位置的像素进行一一相加,得到的新的特征图大小与底层特征图大小一致,将该结构取名为HDPANet;
步骤S9:将特征图Conv8经过步骤S8得到另一个大小为19x19x1024的特征图与Conv7相加得到特征图Conv7D,特征图Conv9经过步骤S8得到另一个大小为10x10x512的特征图与Conv8相加得到特征图Conv8D,特征图Conv10经过步骤S8步得到另一个大小为5x5x256的特征图与Conv9相加得到特征图Conv9D,特征图Conv11经过步骤S8得到另一个大小为3x3x256的特征图与Conv10相加得到特征图Conv10D;
步骤S10:在Conv4_3和Conv10D以及Conv11特征图层用3x3的卷积核进行卷积得到通道数为4x(class+4)的特征图,在Conv7D,Conv8D,Conv9D特征图层用3x3的卷积核进行卷积得到通道数为6x(class+4)的特征图;
步骤S11:F1,F2,F3,F4,F5通过步骤S1~S10得到各自对应的损失函数loss;在反向传播的时候通过随机梯度下降算法优化五个损失函数loss的总和total_loss,同时还设置训练迭代次数epoch,当total_loss稳定时候得到的网络参数即为最优解;
步骤S12:如图7所示,在数据集中选取不带标签信息的图片,执行步骤S1以及步骤S2进行图片分割,并将分割好的图片放入到步骤S1~步骤S10训练好的网络中,再经过非极大值抑制进行过滤,最终得到F1,F2,F3,F4,F5这五张图的带预测类别label和预测坐标(xpred_min,ypred_min),(xpred_max,ypred_max);
步骤S13:根据F1,F2,F3,F4,F5五张图片的预测类别label以及预测坐标对图片进行融合,最后的结果即为检测的最终结果。
作为一个优选的实施例,所述的步骤S3修改坐标的具体步骤如下:
1)若xmin<150,xmax>150,且ymin,ymax<150或者xmin<150,xmax>150,ymin,ymax>150则图像中的物体被沿竖直方向分割为左右两部分,令新的坐标为(xmin,ymin),(150,ymax)和(150,ymin),(xmax,ymax),类别信息不改变;
2)若xmin,xmax<150,ymin<150,ymax>150或者xmin,xmax>150,ymin<150,ymax>150则图像中的物体被水平方向分割为上下两部分,令新的坐标为(xmin,ymin),(xmax,150),和(xmin,150),(xmax,ymax),类别信息不改变;
3)若xmin<150,ymin<150,xmax>150,ymax>150表示图像中的物体被水平方向和竖直方向一起切割为四部分,令新的坐标为(xmin,ymin),(150,150)和(150,ymin),(xmax,150)和(xmin,150),(150,ymax)以及(150,150),(xmax,ymax),类别信息不变。
作为一个优选的实施例,所述的步骤S11求取损失函数loss以及total_loss的具体步骤如下:
Loss分为了confidence loss和location loss两部分,
其中,L(x,c,l,g)表示Loss,Lconf表示confidence loss,confidence loss是softmax loss算法,Lloc表示location loss,N是confidence loss中match到GroundTruth的priorbox数量;而α参数用于调整confidence loss和location loss之间的比例,代表第i个预测框匹配到了第j个真实框为p类别的GT box;c表示置信度,l表示预测框,g表示真框;
表示通过softmax方法产生的概率值,Pos表示是正样本,Neg表示负样本,N是confidence loss中匹配到到Ground Truth的prior box数量当时成立,表示第i个预测框属于类别p的概率、p表示类别中的第p个类别;
其中,cx表示框的中心点x坐标,cy表示中心点y坐标,w表示宽,h表示高,i表示第i个预测框,j表示第j个真实框,di表示偏移量,表示第i个预测框与第j个真实框关于类别k是否匹配,匹配为1,不匹配为0,表示预测框,表示真实框的偏移框;m表示属于(cx,cy,w,h)中的一个取值,表示第j个真实框的偏移框的中心点x的坐标,表示第j个真实框的偏移框的中心点y的坐标,表示第j个真实框的偏移框的宽度,表示第j个真实框的偏移框的高度,表示第i个预测框的中心点x坐标偏移量,表示第i个预测框的中心点y坐标偏移量,表示第i个预测框宽度偏移量,表示第i个预测框的高度偏移量,表示第j个真实框中心点x坐标,表示第j个真实框的中心点y坐标,表示第j个真实框的宽度,表示第j个真实框的高度;
F1,F2,F3,F4,F5经过处理得到的五个损失函数分别记为L1(x,c,l,g),L2(x,c,l,g),L3(x,c,l,g),L4(x,c,l,g),L5(x,c,l,g),总的损失函数记作:
Total_loss=L1(x,c,l,g)+L2(x,c,l,g)+L3(x,c,l,g)+L4(x,c,l,g)+L5(x,c,l,g)。
作为一个优选的实施例,所述的步骤S13对图片进行融合的具体步骤如下:
(1)若F1,F2,F3,F4各图片的预测坐标xpred_max,ypred_max<300且xpred_min,ypred_min>0,则将F1,F2,F3,F4按照原始位置合为一张图片,再将融合的图片大小缩小4倍得到原图300x300的大小,同时将预测坐标缩小4倍,最后的结果即为检测的最终结果;
(2)检测左右两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长(xmax-xmin)的长度,然后将图片的四条边进行补齐,将F1,F2,F3,F4按原始位置合为一张图片,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(3)检测上下两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长ymax减去ymin的长度,然后补齐;把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(4)若F1,F2,F3,F4各图片的预测坐标(xpred_min,ypred_min)=(300,300)或者(xpred_max,ypred_max)=(300,300)表示物体被左上,左下,右上,右下四部分同时分割了;则用中间部分的图片F5的检测结果作为中间物体的检测结果,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,得到的坐标信息同时缩小4倍,最后的结果即为检测的最终结果。
作为一个优选的实施例,所述的α=1。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种基于深度学习和图像处理的小物件检测方法,其特征在于,包括以下步骤:
步骤S1:获取数据集,数据集中包括已标注的物体类别信息和目标框的左上(xmin,ymin)和右下(xmax,ymax)两个点的坐标信息的原始图片,从数据集的训练集中任意选取一张带标签信息的图片,将图片调整到300x300的大小作为输入;
步骤S2:将图片沿着水平(0,150)(300,150)和竖直方向(150,0)(150,300)分割成大小为150x150的4部分P1,P2,P3,P4;另外取以(75,75)(225,75)(75,225)(225,225)为四个顶点坐标的图像作为第5部分P5;
步骤S3:根据每张输入图片带的目标框的左上和右下两个坐标信息(xmin,ymin),(xmax,ymax)判断图片中的物体有没有被分割,并根据物体被分割的情况修改坐标;
步骤S4:运用三次内插法对图片进行插值,使被分割的大小为150x150的5部分图片P1、P2、P3、P4、P5与原始图片300x300的大小相同,并命名为F1,F2,F3,F4,F5,同时将步骤S3得到的修改后的坐标乘以2并进行更新;
步骤S5:对F1,F2,F3,F4,F5五张图片的每一张经VGG16网络提取特征,再用3x3x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv6特征图,再继续用1x1x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv7特征图;
步骤S6:将1x1,3x3,3x3的卷积核堆叠在一起,组成三个分支,每个分支的最后加入了BN,即Batch Normalization来进行批量归一化处理,将各个分支连接融合同时引入残差网络结构,将该结构命名为IRBNet卷积结构;
步骤S7:由步骤S6得到的大小为19x19x1024的Conv7特征图,经过IRBNet卷积结构来提取特征,得到大小为10x10x512的特征图Conv8;Conv8经过IRBNet卷积得到大小为5x5x256的特征图Conv9;Conv9经过IRBNet卷积得到大小为3x3x256的特征图Conv10;Conv10经过IRBNet卷积得到大小为1x1x256的特征图Conv11;
步骤S8:采用卷积核为3x3,步长为4的卷积方式对高层特征图进行反卷积,让其扩大两倍使得与上一底层大小一样,然后将对应位置的像素进行一一相加,得到的新的特征图大小与底层特征图大小一致,将该结构取名为HDPANet;
步骤S9:将特征图Conv8经过步骤S8得到另一个大小为19x19x1024的特征图与Conv7相加得到特征图Conv7D,特征图Conv9经过步骤S8得到另一个大小为10x10x512的特征图与Conv8相加得到特征图Conv8D,特征图Conv10经过步骤S8步得到另一个大小为5x5x256的特征图与Conv9相加得到特征图Conv9D,特征图Conv11经过步骤S8得到另一个大小为3x3x256的特征图与Conv10相加得到特征图Conv10D;
步骤S10:在Conv4_3和Conv10D以及Conv11特征图层用3x3的卷积核进行卷积得到通道数为4x(class+4)的特征图,在Conv7D,Conv8D,Conv9D特征图层用3x3的卷积核进行卷积得到通道数为6x(class+4)的特征图;
步骤S11:F1,F2,F3,F4,F5通过步骤S1~S10得到各自对应的损失函数loss;在反向传播的时候通过随机梯度下降算法优化五个损失函数loss的总和total_loss,同时还设置训练迭代次数epoch,当total_loss稳定时候得到的网络参数即为最优解;
步骤S12:在数据集中选取不带标签信息的图片,执行步骤S1以及步骤S2进行图片分割,并将分割好的图片放入到步骤S1~步骤S10训练好的网络中,再经过非极大值抑制进行过滤,最终得到F1,F2,F3,F4,F5这五张图的带预测类别label和预测坐标(xpred_min,ypred_min),(xpred_max,ypred_max);
步骤S13:根据F1,F2,F3,F4,F5五张图片的预测类别label以及预测坐标对图片进行融合,最后的结果即为检测的最终结果。
2.根据权利要求1中所述的一种基于深度学习和图像处理的小物件检测方法,其特征在于,所述的步骤S3修改坐标的具体步骤如下:
1)若xmin<150,xmax>150,且ymin,ymax<150或者xmin<150,xmax>150,ymin,ymax>150则图像中的物体被沿竖直方向分割为左右两部分,令新的坐标为(xmin,ymin),(150,ymax)和(150,ymin),(xmax,ymax),类别信息不改变;
2)若xmin,xmax<150,ymin<150,ymax>150或者xmin,xmax>150,ymin<150,ymax>150则图像中的物体被水平方向分割为上下两部分,令新的坐标为(xmin,ymin),(xmax,150),和(xmin,150),(xmax,ymax),类别信息不改变;
3)若xmin<150,ymin<150,xmax>150,ymax>150表示图像中的物体被水平方向和竖直方向一起切割为四部分,令新的坐标为(xmin,ymin),(150,150)和(150,ymin),(xmax,150)和(xmin,150),(150,ymax)以及(150,150),(xmax,ymax),类别信息不变。
3.根据权利要求2中所述的一种基于深度学习和图像处理的小物件检测方法,其特征在于,所述的步骤S11求取损失函数loss以及total_loss的具体步骤如下:
Loss分为了confidence loss和location loss两部分,
其中,L(x,c,l,g)表示Loss,Lconf表示confidence loss,confidence loss是softmaxloss算法,Lloc表示location loss,N是confidence loss中match到GroundTruth的priorbox数量;而α参数用于调整confidence loss和location loss之间的比例,代表第i个预测框匹配到了第j个真实框为p类别的GT box;c表示置信度,l表示预测框,g表示真框;
表示通过softmax方法产生的概率值,Pos表示是正样本,Neg表示负样本,N是confidence loss中匹配到到Ground Truth的prior box数量当时成立,表示第i个预测框属于类别p的概率、p表示类别中的第p个类别;
其中,cx表示框的中心点x坐标,cy表示中心点y坐标,w表示宽,h表示高,i表示第i个预测框,j表示第j个真实框,di表示偏移量,表示第i个预测框与第j个真实框关于类别k是否匹配,匹配为1,不匹配为0,表示预测框,表示真实框的偏移框;m表示属于(cx,cy,w,h)中的一个取值,表示第j个真实框的偏移框的中心点x的坐标,表示第j个真实框的偏移框的中心点y的坐标,表示第j个真实框的偏移框的宽度,表示第j个真实框的偏移框的高度,表示第i个预测框的中心点x坐标偏移量,表示第i个预测框的中心点y坐标偏移量,表示第i个预测框宽度偏移量,表示第i个预测框的高度偏移量,表示第j个真实框中心点x坐标,表示第j个真实框的中心点y坐标,表示第j个真实框的宽度,表示第j个真实框的高度;
F1,F2,F3,F4,F5经过处理得到的五个损失函数分别记为L1(x,c,l,g),L2(x,c,l,g),L3(x,c,l,g),L4(x,c,l,g),L5(x,c,l,g),总的损失函数记作:
Total_loss=L1(x,c,l,g)+L2(x,c,l,g)+L3(x,c,l,g)+L4(x,c,l,g)+L5(x,c,l,g)。
4.根据权利要求3中所述的一种基于深度学习和图像处理的小物件检测方法,其特征在于,所述的步骤S13对图片进行融合的具体步骤如下:
(1)若F1,F2,F3,F4各图片的预测坐标xpred_max,ypred_max<300且xpred_min,ypred_min>0,则将F1,F2,F3,F4按照原始位置合为一张图片,再将融合的图片大小缩小4倍得到原图300x300的大小,同时将预测坐标缩小4倍,最后的结果即为检测的最终结果;
(2)检测左右两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长(xmax-xmin)的长度,然后将图片的四条边进行补齐,将F1,F2,F3,F4按原始位置合为一张图片,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(3)检测上下两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长ymax减去ymin的长度,然后补齐;把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(4)若F1,F2,F3,F4各图片的预测坐标(xpred_min,ypred_min)=(300,300)或者(xpred_max,ypred_max)=(300,300)表示物体被左上,左下,右上,右下四部分同时分割了;则用中间部分的图片F5的检测结果作为中间物体的检测结果,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,得到的坐标信息同时缩小4倍,最后的结果即为检测的最终结果。
5.根据权利要求4中所述的一种基于深度学习和图像处理的小物件检测方法,其特征在于,所述的α=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811605116.2A CN109685145B (zh) | 2018-12-26 | 2018-12-26 | 一种基于深度学习和图像处理的小物件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811605116.2A CN109685145B (zh) | 2018-12-26 | 2018-12-26 | 一种基于深度学习和图像处理的小物件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109685145A true CN109685145A (zh) | 2019-04-26 |
CN109685145B CN109685145B (zh) | 2022-09-06 |
Family
ID=66189765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811605116.2A Active CN109685145B (zh) | 2018-12-26 | 2018-12-26 | 一种基于深度学习和图像处理的小物件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109685145B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110068818A (zh) * | 2019-05-05 | 2019-07-30 | 中国汽车工程研究院股份有限公司 | 通过雷达和图像采集设备进行交通路口车辆及行人检测的工作方法 |
CN110276445A (zh) * | 2019-06-19 | 2019-09-24 | 长安大学 | 基于Inception卷积模块的国内交通标志分类方法 |
CN110660074A (zh) * | 2019-10-10 | 2020-01-07 | 北京同创信通科技有限公司 | 一种建立废钢等级划分神经网络模型方法 |
CN111488938A (zh) * | 2020-04-15 | 2020-08-04 | 闽江学院 | 一种基于两步可切换归一化深度神经网络的图像匹配方法 |
CN111597340A (zh) * | 2020-05-22 | 2020-08-28 | 迪爱斯信息技术股份有限公司 | 一种文本分类方法及装置、可读存储介质 |
CN111860623A (zh) * | 2020-07-03 | 2020-10-30 | 北京林业大学 | 基于改进ssd神经网络的统计树木数量的方法及*** |
CN113393411A (zh) * | 2020-02-26 | 2021-09-14 | 顺丰科技有限公司 | 包裹计数方法和装置、服务器、计算机可读存储介质 |
CN113762166A (zh) * | 2021-09-09 | 2021-12-07 | 中国矿业大学 | 一种基于可穿戴式装备的小目标检测改善方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341517A (zh) * | 2017-07-07 | 2017-11-10 | 哈尔滨工业大学 | 一种基于深度学习层级间特征融合的多尺度小物体检测方法 |
US20180231871A1 (en) * | 2016-06-27 | 2018-08-16 | Zhejiang Gongshang University | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF |
CN108564065A (zh) * | 2018-04-28 | 2018-09-21 | 广东电网有限责任公司 | 一种基于ssd的电缆隧道明火识别方法 |
-
2018
- 2018-12-26 CN CN201811605116.2A patent/CN109685145B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180231871A1 (en) * | 2016-06-27 | 2018-08-16 | Zhejiang Gongshang University | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF |
CN107341517A (zh) * | 2017-07-07 | 2017-11-10 | 哈尔滨工业大学 | 一种基于深度学习层级间特征融合的多尺度小物体检测方法 |
CN108564065A (zh) * | 2018-04-28 | 2018-09-21 | 广东电网有限责任公司 | 一种基于ssd的电缆隧道明火识别方法 |
Non-Patent Citations (1)
Title |
---|
YINGYING WANG ET AL.: "Robust person head detection based on multi-scale representation fusion of deep convolution neural network", 《PROCEEDINGS OF THE 2017 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND BIOMIMETICS》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110068818A (zh) * | 2019-05-05 | 2019-07-30 | 中国汽车工程研究院股份有限公司 | 通过雷达和图像采集设备进行交通路口车辆及行人检测的工作方法 |
CN110276445A (zh) * | 2019-06-19 | 2019-09-24 | 长安大学 | 基于Inception卷积模块的国内交通标志分类方法 |
CN110660074A (zh) * | 2019-10-10 | 2020-01-07 | 北京同创信通科技有限公司 | 一种建立废钢等级划分神经网络模型方法 |
CN110660074B (zh) * | 2019-10-10 | 2021-04-16 | 北京同创信通科技有限公司 | 一种建立废钢等级划分神经网络模型方法 |
CN113393411A (zh) * | 2020-02-26 | 2021-09-14 | 顺丰科技有限公司 | 包裹计数方法和装置、服务器、计算机可读存储介质 |
CN111488938A (zh) * | 2020-04-15 | 2020-08-04 | 闽江学院 | 一种基于两步可切换归一化深度神经网络的图像匹配方法 |
CN111488938B (zh) * | 2020-04-15 | 2022-05-13 | 闽江学院 | 一种基于两步可切换归一化深度神经网络的图像匹配方法 |
CN111597340A (zh) * | 2020-05-22 | 2020-08-28 | 迪爱斯信息技术股份有限公司 | 一种文本分类方法及装置、可读存储介质 |
CN111860623A (zh) * | 2020-07-03 | 2020-10-30 | 北京林业大学 | 基于改进ssd神经网络的统计树木数量的方法及*** |
CN113762166A (zh) * | 2021-09-09 | 2021-12-07 | 中国矿业大学 | 一种基于可穿戴式装备的小目标检测改善方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN109685145B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685145A (zh) | 一种基于深度学习和图像处理的小物件检测方法 | |
CN107871124B (zh) | 一种基于深度神经网络的遥感图像目标检测方法 | |
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN110135243B (zh) | 一种基于两级注意力机制的行人检测方法及*** | |
CN106127204B (zh) | 一种全卷积神经网络的多方向水表读数区域检测算法 | |
CN106683091B (zh) | 一种基于深度卷积神经网络的目标分类及姿态检测方法 | |
CN107657249A (zh) | 多尺度特征行人重识别的方法、装置、存储介质及处理器 | |
CN109559320A (zh) | 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及*** | |
CN107665498B (zh) | 基于典型示例挖掘的全卷积网络飞机检测方法 | |
CN108596053A (zh) | 一种基于ssd和车辆姿态分类的车辆检测方法和*** | |
CN110796186A (zh) | 基于改进的YOLOv3网络的干湿垃圾识别分类方法 | |
CN108319943B (zh) | 一种提高戴眼镜条件下人脸识别模型性能的方法 | |
CN108509859A (zh) | 一种基于深度神经网络的无重叠区域行人跟踪方法 | |
CN112784736B (zh) | 一种多模态特征融合的人物交互行为识别方法 | |
CN108154159B (zh) | 一种基于多级检测器的具有自恢复能力的目标跟踪方法 | |
CN111738258A (zh) | 一种基于机器人巡检的指针式仪表读数识别方法 | |
CN108961675A (zh) | 基于卷积神经网络的跌倒检测方法 | |
CN104599286B (zh) | 一种基于光流的特征跟踪方法及装置 | |
CN113095263B (zh) | 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置 | |
CN112560675B (zh) | Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法 | |
CN110006444B (zh) | 一种基于优化混合高斯模型的抗干扰视觉里程计构建方法 | |
CN112651406B (zh) | 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法 | |
CN109522958A (zh) | 基于跨尺度特征融合的深度卷积神经网络目标检测方法 | |
CN114758288A (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN108734145B (zh) | 一种基于密度自适应人脸表征模型的人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |