CN109685145A - 一种基于深度学习和图像处理的小物件检测方法 - Google Patents

一种基于深度学习和图像处理的小物件检测方法 Download PDF

Info

Publication number
CN109685145A
CN109685145A CN201811605116.2A CN201811605116A CN109685145A CN 109685145 A CN109685145 A CN 109685145A CN 201811605116 A CN201811605116 A CN 201811605116A CN 109685145 A CN109685145 A CN 109685145A
Authority
CN
China
Prior art keywords
max
size
coordinate
picture
characteristic pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811605116.2A
Other languages
English (en)
Other versions
CN109685145B (zh
Inventor
李卫军
吴超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201811605116.2A priority Critical patent/CN109685145B/zh
Publication of CN109685145A publication Critical patent/CN109685145A/zh
Application granted granted Critical
Publication of CN109685145B publication Critical patent/CN109685145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理领域,更具体的,涉及一种基于深度学习和图像处理的小物件检测方法,本发明通过把原始Inception模块的5x5的卷积替换为两个3x3的卷积核,保留了更多的细节,同时为了加快训练速度和输出一致性,在每个分支的最后加入了BN,即Batch Normalization,进行批量归一化处理,同时引入残差网络结构,增加准确率,而且本发明采用反卷积增强相邻两层的高层和底层的上下文信息,将上层反卷积的结果与底层卷积曾像素对齐一一相加,得到的新的特征图作为检测的特征图,可以提高对小物体的识别,本发明在不影响传统SSD的高FPS的前提下,提高传统SSD对小物体检测的准确率。

Description

一种基于深度学习和图像处理的小物件检测方法
技术领域
本发明涉及图像处理领域,更具体的,涉及一种基于深度学习和图像处理的小物件检测方法。
背景技术
目前,常用的对物体进行检测的算法是SSD,即Single Shot MultiBoxDetection。SSD是一种基于深度学习的端到端的检测框架,它的框架主要分为两个部分:第一部分是位于前端的卷积神经网络(VGG16),用于对目标进行特征提取,后端是多尺度特征检测网络,将前段网络产生的特征层进行不同尺度条件下的特征提取;然后将Conv4_3,Conv7,Conv8_2,Conv9_2,Conv10_2,Conv11_2各层进行卷积得到坐标位置和置信度得分,最后通过非极大值抑制(non maximum suppression,NMS)得到结果。
但是由于SSD是采用的是多尺度检测的方法,这种方法会减少计算量有很高的FPS,并且由于是在不同尺度的特征图上进行检测,不同尺度的特征图上的卷积感受野就会不同,特别是在高层卷积层,它的感受野就会很大,提取的特征也很抽象,所以对小物体的和细节的检测上很不敏感。
发明内容
为了解决现有技术中SSD检测算法对小物件检测不敏感的不足,本发明提供了一种基于深度学习和图像处理的小物件检测方法。
为实现以上发明目的,采用的技术方案是:
一种基于深度学习和图像处理的小物件检测方法,包括以下步骤:
步骤S1:获取数据集,数据集中包括已标注的物体类别信息和目标框的左上(xmin,ymin)和右下(xmax,ymax)两个点的坐标信息的原始图片,从数据集的训练集中任意选取一张带标签信息的图片,将图片调整到300x300的大小作为输入;
步骤S2:将图片沿着水平(0,150)(300,150)和竖直方向(150,0)(150,300)分割成大小为150x150的4部分P1,P2,P3,P4;另外取以(75,75)(225,75)(75,225)(225,225)为四个顶点坐标的图像作为第5部分P5;
步骤S3:根据每张输入图片带的目标框的左上和右下两个坐标信息(xmin,ymin),(xmax,ymax)判断图片中的物体有没有被分割,并根据物体被分割的情况修改坐标;
步骤S4:运用三次内插法对图片进行插值,使被分割的大小为150x150的5部分图片P1、P2、P3、P4、P5与原始图片300x300的大小相同,并命名为F1,F2,F3,F4,F5,同时将步骤S3得到的修改后的坐标乘以2并进行更新;
步骤S5:对F1,F2,F3,F4,F5五张图片的每一张经VGG16网络提取特征,再用3x3x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv6特征图,再继续用1x1x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv7特征图;
步骤S6:将1x1,3x3,3x3的卷积核堆叠在一起,组成三个分支,每个分支的最后加入了BN,即Batch Normalization来进行批量归一化处理,将各个分支连接融合同时引入残差网络结构,将该结构命名为IRBNet卷积结构;
步骤S7:由步骤S5得到的大小为19x19x1024的Conv7特征图,经过IRBNet卷积结构来提取特征,得到大小为10x10x512的特征图Conv8;Conv8经过IRBNet卷积得到大小为5x5x256的特征图Conv9;Conv9经过IRBNet卷积得到大小为3x3x256的特征图Conv10;Conv10经过IRBNet卷积得到大小为1x1x256的特征图Conv11;
步骤S8:采用卷积核为3x3,步长为4的卷积方式对高层特征图进行反卷积,让其扩大两倍使得与上一底层大小一样,然后将对应位置的像素进行一一相加,得到的新的特征图大小与底层特征图大小一致,将该结构取名为HDPANet;
步骤S9:将特征图Conv8经过步骤S8得到另一个大小为19x19x1024的特征图与Conv7相加得到特征图Conv7D,特征图Conv9经过步骤S8得到另一个大小为10x10x512的特征图与Conv8相加得到特征图Conv8D,特征图Conv10经过步骤S8步得到另一个大小为5x5x256的特征图与Conv9相加得到特征图Conv9D,特征图Conv11经过步骤S8得到另一个大小为3x3x256的特征图与Conv10相加得到特征图Conv10D;
步骤S10:在Conv4_3和Conv10D以及Conv11特征图层用3x3的卷积核进行卷积得到通道数为4x(class+4)的特征图,在Conv7D,Conv8D,Conv9D特征图层用3x3的卷积核进行卷积得到通道数为6x(class+4)的特征图;
步骤S11:F1,F2,F3,F4,F5通过步骤S1~S10得到各自对应的损失函数loss;在反向传播的时候通过随机梯度下降算法优化五个损失函数loss的总和total_loss,同时还设置训练迭代次数epoch,当total_loss稳定时候得到的网络参数即为最优解;
步骤S12:在数据集中选取不带标签信息的图片,执行步骤S1以及步骤S2进行图片分割,并将分割好的图片放入到步骤S1~步骤S10训练好的网络中,再经过非极大值抑制进行过滤,最终得到F1,F2,F3,F4,F5这五张图的带预测类别label和预测坐标(xpred_min,ypred_min),(xpred_max,ypred_max);
步骤S13:根据F1,F2,F3,F4,F5五张图片的预测类别label以及预测坐标对图片进行融合,最后的结果即为检测的最终结果。
优选的,所述的步骤S3修改坐标的具体步骤如下:
1)若xmin<150,xmax>150,且ymin,ymax<150或者xmin<150,xmax>150,ymin,ymax>150则图像中的物体被沿竖直方向分割为左右两部分,令新的坐标为(xmin,ymin),(150,ymax)和(150,ymin),(xmax,ymax),类别信息不改变;
2)若xmin,xmax<150,ymin<150,ymax>150或者xmin,xmax>150,ymin<150,ymax>150则图像中的物体被水平方向分割为上下两部分,令新的坐标为(xmin,ymin),(xmax,150),和(xmin,150),(xmax,ymax),类别信息不改变;
3)若xmin<150,ymin<150,xmax>150,ymax>150表示图像中的物体被水平方向和竖直方向一起切割为四部分,令新的坐标为(xmin,ymin),(150,150)和(150,ymin),(xmax,150)和(xmin,150),(150,ymax)以及(150,150),(xmax,ymax),类别信息不变。
优选的,所述的步骤S11求取损失函数loss以及total_loss的具体步骤如下:
Loss分为了confidence loss和location loss两部分,
其中,L(x,c,l,g)表示Loss,Lconf表示confidence loss,confidence loss是softmax loss算法,Lloc表示location loss,N是confidence loss中match到GroundTruth的priorbox数量;而α参数用于调整confidence loss和location loss之间的比例,代表第i个预测框匹配到了第j个真实框为p类别的GT box;c表示置信度,l表示预测框,g表示真框;
表示通过softmax方法产生的概率值,Pos表示是正样本,Neg表示负样本,N是confidence loss中匹配到到Ground Truth的prior box数量当时成立,表示第i个预测框属于类别p的概率、p表示类别中的第p个类别;
其中,cx表示框的中心点x坐标,cy表示中心点y坐标,w表示宽,h表示高,i表示第i个预测框,j表示第j个真实框,di表示偏移量,表示第i个预测框与第j个真实框关于类别k是否匹配,匹配为1,不匹配为0,表示预测框,表示真实框的偏移框;m表示属于(cx,cy,w,h)中的一个取值,表示第j个真实框的偏移框的中心点x的坐标,表示第j个真实框的偏移框的中心点y的坐标,表示第j个真实框的偏移框的宽度,表示第j个真实框的偏移框的高度,表示第i个预测框的中心点x坐标偏移量,表示第i个预测框的中心点y坐标偏移量,表示第i个预测框宽度偏移量,表示第i个预测框的高度偏移量,表示第j个真实框中心点x坐标,表示第j个真实框的中心点y坐标,表示第j个真实框的宽度,表示第j个真实框的高度;
F1,F2,F3,F4,F5经过处理得到的五个损失函数分别记为L1(x,c,l,g),L2(x,c,l,g),L3(x,c,l,g),L4(x,c,l,g),L5(x,c,l,g),总的损失函数记作:
Total_loss=L1(x,c,l,g)+L2(x,c,l,g)+L3(x,c,l,g)+L4(x,c,l,g)+L5(x,c,l,g)。
优选的,所述的步骤S13对图片进行融合的具体步骤如下:
(1)若F1,F2,F3,F4各图片的预测坐标xpred_max,ypred_max<300且xpred_min,ypred_min>0,则将F1,F2,F3,F4按照原始位置合为一张图片,再将融合的图片大小缩小4倍得到原图300x300的大小,同时将预测坐标缩小4倍,最后的结果即为检测的最终结果;
(2)检测左右两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长(xmax-xmin)的长度,然后将图片的四条边进行补齐,将F1,F2,F3,F4按原始位置合为一张图片,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(3)检测上下两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长ymax减去ymin的长度,然后补齐;把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(4)若F1,F2,F3,F4各图片的预测坐标(xpred_min,ypred_min)=(300,300)或者(xpred_max,ypred_max)=(300,300)表示物体被左上,左下,右上,右下四部分同时分割了;则用中间部分的图片F5的检测结果作为中间物体的检测结果,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,得到的坐标信息同时缩小4倍,最后的结果即为检测的最终结果。
优选的,所述的α=1。
与现有技术相比,本发明的有益效果是:
本发明通过把原始Inception模块的5x5的卷积替换为两个3x3的卷积核,保留了更多的细节,同时为了加快训练速度和输出一致性,在每个分支的最后加入了BN,即BatchNormalization,进行批量归一化处理,同时引入残差网络结构,增加准确率,而且本发明采用反卷积增强相邻两层的高层和底层的上下文信息,将上层反卷积的结果与底层卷积曾像素对齐一一相加,得到的新的特征图作为检测的特征图,可以提高对小物体的识别,本发明在不影响传统SSD的高FPS的前提下,提高传统SSD对小物体检测的准确率。
附图说明
图1为本发明的流程图。
图2为本发明分割图像的分割点示意图。
图3为本发明图像分割网的流程图。
图4为本发明残差网络的结构图。
图5为IRBNet的结构图。
图6为高层反卷积像素相加的流程图。
图7为求解预测类别label与预测坐标的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1~图7所示,一种基于深度学习和图像处理的小物件检测方法,包括以下步骤:
步骤S1:获取数据集,数据集中包括已标注的物体类别信息和目标框的左上(xmin,ymin)和右下(xmax,ymax)两个点的坐标信息的原始图片,从数据集的训练集中任意选取一张带标签信息的图片,将图片调整到300x300的大小作为输入;
步骤S2:如图2所示,将图片沿着水平(0,150)(300,150)和竖直方向(150,0)(150,300)分割成大小为150x150的4部分P1,P2,P3,P4;另外取以(75,75)(225,75)(75,225)(225,225)为四个顶点坐标的图像作为第5部分P5;
步骤S3:根据每张输入图片带的目标框的左上和右下两个坐标信息(xmin,ymin),(xmax,ymax)判断图片中的物体有没有被分割,并根据物体被分割的情况修改坐标;
步骤S4:如图3所示,运用三次内插法对图片进行插值,使被分割的大小为150x150的5部分图片P1、P2、P3、P4、P5与原始图片300x300的大小相同,并命名为F1,F2,F3,F4,F5,同时将步骤S3得到的修改后的坐标乘以2并进行更新;
步骤S5:对F1,F2,F3,F4,F5五张图片的每一张经VGG16网络提取特征,再用3x3x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv6特征图,再继续用1x1x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv7特征图;
步骤S6:如图4、图5所示,将1x1,3x3,3x3的卷积核堆叠在一起,组成三个分支,每个分支的最后加入了BN,即Batch Normalization来进行批量归一化处理,将各个分支连接融合同时引入残差网络结构,将该结构命名为IRBNet卷积结构;
步骤S7:由步骤S5得到的大小为19x19x1024的Conv7特征图,经过IRBNet卷积结构来提取特征,得到大小为10x10x512的特征图Conv8;Conv8经过IRBNet卷积得到大小为5x5x256的特征图Conv9;Conv9经过IRBNet卷积得到大小为3x3x256的特征图Conv10;Conv10经过IRBNet卷积得到大小为1x1x256的特征图Conv11;
步骤S8:如图6所示,采用卷积核为3x3,步长为4的卷积方式对高层特征图进行反卷积,让其扩大两倍使得与上一底层大小一样,然后将对应位置的像素进行一一相加,得到的新的特征图大小与底层特征图大小一致,将该结构取名为HDPANet;
步骤S9:将特征图Conv8经过步骤S8得到另一个大小为19x19x1024的特征图与Conv7相加得到特征图Conv7D,特征图Conv9经过步骤S8得到另一个大小为10x10x512的特征图与Conv8相加得到特征图Conv8D,特征图Conv10经过步骤S8步得到另一个大小为5x5x256的特征图与Conv9相加得到特征图Conv9D,特征图Conv11经过步骤S8得到另一个大小为3x3x256的特征图与Conv10相加得到特征图Conv10D;
步骤S10:在Conv4_3和Conv10D以及Conv11特征图层用3x3的卷积核进行卷积得到通道数为4x(class+4)的特征图,在Conv7D,Conv8D,Conv9D特征图层用3x3的卷积核进行卷积得到通道数为6x(class+4)的特征图;
步骤S11:F1,F2,F3,F4,F5通过步骤S1~S10得到各自对应的损失函数loss;在反向传播的时候通过随机梯度下降算法优化五个损失函数loss的总和total_loss,同时还设置训练迭代次数epoch,当total_loss稳定时候得到的网络参数即为最优解;
步骤S12:如图7所示,在数据集中选取不带标签信息的图片,执行步骤S1以及步骤S2进行图片分割,并将分割好的图片放入到步骤S1~步骤S10训练好的网络中,再经过非极大值抑制进行过滤,最终得到F1,F2,F3,F4,F5这五张图的带预测类别label和预测坐标(xpred_min,ypred_min),(xpred_max,ypred_max);
步骤S13:根据F1,F2,F3,F4,F5五张图片的预测类别label以及预测坐标对图片进行融合,最后的结果即为检测的最终结果。
作为一个优选的实施例,所述的步骤S3修改坐标的具体步骤如下:
1)若xmin<150,xmax>150,且ymin,ymax<150或者xmin<150,xmax>150,ymin,ymax>150则图像中的物体被沿竖直方向分割为左右两部分,令新的坐标为(xmin,ymin),(150,ymax)和(150,ymin),(xmax,ymax),类别信息不改变;
2)若xmin,xmax<150,ymin<150,ymax>150或者xmin,xmax>150,ymin<150,ymax>150则图像中的物体被水平方向分割为上下两部分,令新的坐标为(xmin,ymin),(xmax,150),和(xmin,150),(xmax,ymax),类别信息不改变;
3)若xmin<150,ymin<150,xmax>150,ymax>150表示图像中的物体被水平方向和竖直方向一起切割为四部分,令新的坐标为(xmin,ymin),(150,150)和(150,ymin),(xmax,150)和(xmin,150),(150,ymax)以及(150,150),(xmax,ymax),类别信息不变。
作为一个优选的实施例,所述的步骤S11求取损失函数loss以及total_loss的具体步骤如下:
Loss分为了confidence loss和location loss两部分,
其中,L(x,c,l,g)表示Loss,Lconf表示confidence loss,confidence loss是softmax loss算法,Lloc表示location loss,N是confidence loss中match到GroundTruth的priorbox数量;而α参数用于调整confidence loss和location loss之间的比例,代表第i个预测框匹配到了第j个真实框为p类别的GT box;c表示置信度,l表示预测框,g表示真框;
表示通过softmax方法产生的概率值,Pos表示是正样本,Neg表示负样本,N是confidence loss中匹配到到Ground Truth的prior box数量当时成立,表示第i个预测框属于类别p的概率、p表示类别中的第p个类别;
其中,cx表示框的中心点x坐标,cy表示中心点y坐标,w表示宽,h表示高,i表示第i个预测框,j表示第j个真实框,di表示偏移量,表示第i个预测框与第j个真实框关于类别k是否匹配,匹配为1,不匹配为0,表示预测框,表示真实框的偏移框;m表示属于(cx,cy,w,h)中的一个取值,表示第j个真实框的偏移框的中心点x的坐标,表示第j个真实框的偏移框的中心点y的坐标,表示第j个真实框的偏移框的宽度,表示第j个真实框的偏移框的高度,表示第i个预测框的中心点x坐标偏移量,表示第i个预测框的中心点y坐标偏移量,表示第i个预测框宽度偏移量,表示第i个预测框的高度偏移量,表示第j个真实框中心点x坐标,表示第j个真实框的中心点y坐标,表示第j个真实框的宽度,表示第j个真实框的高度;
F1,F2,F3,F4,F5经过处理得到的五个损失函数分别记为L1(x,c,l,g),L2(x,c,l,g),L3(x,c,l,g),L4(x,c,l,g),L5(x,c,l,g),总的损失函数记作:
Total_loss=L1(x,c,l,g)+L2(x,c,l,g)+L3(x,c,l,g)+L4(x,c,l,g)+L5(x,c,l,g)。
作为一个优选的实施例,所述的步骤S13对图片进行融合的具体步骤如下:
(1)若F1,F2,F3,F4各图片的预测坐标xpred_max,ypred_max<300且xpred_min,ypred_min>0,则将F1,F2,F3,F4按照原始位置合为一张图片,再将融合的图片大小缩小4倍得到原图300x300的大小,同时将预测坐标缩小4倍,最后的结果即为检测的最终结果;
(2)检测左右两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长(xmax-xmin)的长度,然后将图片的四条边进行补齐,将F1,F2,F3,F4按原始位置合为一张图片,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(3)检测上下两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长ymax减去ymin的长度,然后补齐;把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(4)若F1,F2,F3,F4各图片的预测坐标(xpred_min,ypred_min)=(300,300)或者(xpred_max,ypred_max)=(300,300)表示物体被左上,左下,右上,右下四部分同时分割了;则用中间部分的图片F5的检测结果作为中间物体的检测结果,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,得到的坐标信息同时缩小4倍,最后的结果即为检测的最终结果。
作为一个优选的实施例,所述的α=1。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种基于深度学习和图像处理的小物件检测方法,其特征在于,包括以下步骤:
步骤S1:获取数据集,数据集中包括已标注的物体类别信息和目标框的左上(xmin,ymin)和右下(xmax,ymax)两个点的坐标信息的原始图片,从数据集的训练集中任意选取一张带标签信息的图片,将图片调整到300x300的大小作为输入;
步骤S2:将图片沿着水平(0,150)(300,150)和竖直方向(150,0)(150,300)分割成大小为150x150的4部分P1,P2,P3,P4;另外取以(75,75)(225,75)(75,225)(225,225)为四个顶点坐标的图像作为第5部分P5;
步骤S3:根据每张输入图片带的目标框的左上和右下两个坐标信息(xmin,ymin),(xmax,ymax)判断图片中的物体有没有被分割,并根据物体被分割的情况修改坐标;
步骤S4:运用三次内插法对图片进行插值,使被分割的大小为150x150的5部分图片P1、P2、P3、P4、P5与原始图片300x300的大小相同,并命名为F1,F2,F3,F4,F5,同时将步骤S3得到的修改后的坐标乘以2并进行更新;
步骤S5:对F1,F2,F3,F4,F5五张图片的每一张经VGG16网络提取特征,再用3x3x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv6特征图,再继续用1x1x1024大小的卷积核进行卷积得到大小为19x19x1024的Conv7特征图;
步骤S6:将1x1,3x3,3x3的卷积核堆叠在一起,组成三个分支,每个分支的最后加入了BN,即Batch Normalization来进行批量归一化处理,将各个分支连接融合同时引入残差网络结构,将该结构命名为IRBNet卷积结构;
步骤S7:由步骤S6得到的大小为19x19x1024的Conv7特征图,经过IRBNet卷积结构来提取特征,得到大小为10x10x512的特征图Conv8;Conv8经过IRBNet卷积得到大小为5x5x256的特征图Conv9;Conv9经过IRBNet卷积得到大小为3x3x256的特征图Conv10;Conv10经过IRBNet卷积得到大小为1x1x256的特征图Conv11;
步骤S8:采用卷积核为3x3,步长为4的卷积方式对高层特征图进行反卷积,让其扩大两倍使得与上一底层大小一样,然后将对应位置的像素进行一一相加,得到的新的特征图大小与底层特征图大小一致,将该结构取名为HDPANet;
步骤S9:将特征图Conv8经过步骤S8得到另一个大小为19x19x1024的特征图与Conv7相加得到特征图Conv7D,特征图Conv9经过步骤S8得到另一个大小为10x10x512的特征图与Conv8相加得到特征图Conv8D,特征图Conv10经过步骤S8步得到另一个大小为5x5x256的特征图与Conv9相加得到特征图Conv9D,特征图Conv11经过步骤S8得到另一个大小为3x3x256的特征图与Conv10相加得到特征图Conv10D;
步骤S10:在Conv4_3和Conv10D以及Conv11特征图层用3x3的卷积核进行卷积得到通道数为4x(class+4)的特征图,在Conv7D,Conv8D,Conv9D特征图层用3x3的卷积核进行卷积得到通道数为6x(class+4)的特征图;
步骤S11:F1,F2,F3,F4,F5通过步骤S1~S10得到各自对应的损失函数loss;在反向传播的时候通过随机梯度下降算法优化五个损失函数loss的总和total_loss,同时还设置训练迭代次数epoch,当total_loss稳定时候得到的网络参数即为最优解;
步骤S12:在数据集中选取不带标签信息的图片,执行步骤S1以及步骤S2进行图片分割,并将分割好的图片放入到步骤S1~步骤S10训练好的网络中,再经过非极大值抑制进行过滤,最终得到F1,F2,F3,F4,F5这五张图的带预测类别label和预测坐标(xpred_min,ypred_min),(xpred_max,ypred_max);
步骤S13:根据F1,F2,F3,F4,F5五张图片的预测类别label以及预测坐标对图片进行融合,最后的结果即为检测的最终结果。
2.根据权利要求1中所述的一种基于深度学习和图像处理的小物件检测方法,其特征在于,所述的步骤S3修改坐标的具体步骤如下:
1)若xmin<150,xmax>150,且ymin,ymax<150或者xmin<150,xmax>150,ymin,ymax>150则图像中的物体被沿竖直方向分割为左右两部分,令新的坐标为(xmin,ymin),(150,ymax)和(150,ymin),(xmax,ymax),类别信息不改变;
2)若xmin,xmax<150,ymin<150,ymax>150或者xmin,xmax>150,ymin<150,ymax>150则图像中的物体被水平方向分割为上下两部分,令新的坐标为(xmin,ymin),(xmax,150),和(xmin,150),(xmax,ymax),类别信息不改变;
3)若xmin<150,ymin<150,xmax>150,ymax>150表示图像中的物体被水平方向和竖直方向一起切割为四部分,令新的坐标为(xmin,ymin),(150,150)和(150,ymin),(xmax,150)和(xmin,150),(150,ymax)以及(150,150),(xmax,ymax),类别信息不变。
3.根据权利要求2中所述的一种基于深度学习和图像处理的小物件检测方法,其特征在于,所述的步骤S11求取损失函数loss以及total_loss的具体步骤如下:
Loss分为了confidence loss和location loss两部分,
其中,L(x,c,l,g)表示Loss,Lconf表示confidence loss,confidence loss是softmaxloss算法,Lloc表示location loss,N是confidence loss中match到GroundTruth的priorbox数量;而α参数用于调整confidence loss和location loss之间的比例,代表第i个预测框匹配到了第j个真实框为p类别的GT box;c表示置信度,l表示预测框,g表示真框;
表示通过softmax方法产生的概率值,Pos表示是正样本,Neg表示负样本,N是confidence loss中匹配到到Ground Truth的prior box数量当时成立,表示第i个预测框属于类别p的概率、p表示类别中的第p个类别;
其中,cx表示框的中心点x坐标,cy表示中心点y坐标,w表示宽,h表示高,i表示第i个预测框,j表示第j个真实框,di表示偏移量,表示第i个预测框与第j个真实框关于类别k是否匹配,匹配为1,不匹配为0,表示预测框,表示真实框的偏移框;m表示属于(cx,cy,w,h)中的一个取值,表示第j个真实框的偏移框的中心点x的坐标,表示第j个真实框的偏移框的中心点y的坐标,表示第j个真实框的偏移框的宽度,表示第j个真实框的偏移框的高度,表示第i个预测框的中心点x坐标偏移量,表示第i个预测框的中心点y坐标偏移量,表示第i个预测框宽度偏移量,表示第i个预测框的高度偏移量,表示第j个真实框中心点x坐标,表示第j个真实框的中心点y坐标,表示第j个真实框的宽度,表示第j个真实框的高度;
F1,F2,F3,F4,F5经过处理得到的五个损失函数分别记为L1(x,c,l,g),L2(x,c,l,g),L3(x,c,l,g),L4(x,c,l,g),L5(x,c,l,g),总的损失函数记作:
Total_loss=L1(x,c,l,g)+L2(x,c,l,g)+L3(x,c,l,g)+L4(x,c,l,g)+L5(x,c,l,g)。
4.根据权利要求3中所述的一种基于深度学习和图像处理的小物件检测方法,其特征在于,所述的步骤S13对图片进行融合的具体步骤如下:
(1)若F1,F2,F3,F4各图片的预测坐标xpred_max,ypred_max<300且xpred_min,ypred_min>0,则将F1,F2,F3,F4按照原始位置合为一张图片,再将融合的图片大小缩小4倍得到原图300x300的大小,同时将预测坐标缩小4倍,最后的结果即为检测的最终结果;
(2)检测左右两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长(xmax-xmin)的长度,然后将图片的四条边进行补齐,将F1,F2,F3,F4按原始位置合为一张图片,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(3)检测上下两部分边界上的物体的类别label1和label2,若label1等于label2则表示为同一类,比较两物体的坐标信息的大小,以大的边框为准向向小的方向延长ymax减去ymin的长度,然后补齐;把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,同时将修改后的坐标缩小4倍,最后的结果即为检测的最终结果;
(4)若F1,F2,F3,F4各图片的预测坐标(xpred_min,ypred_min)=(300,300)或者(xpred_max,ypred_max)=(300,300)表示物体被左上,左下,右上,右下四部分同时分割了;则用中间部分的图片F5的检测结果作为中间物体的检测结果,把融合后的一整张图片的大小缩小4倍得到原图300x300的大小,得到的坐标信息同时缩小4倍,最后的结果即为检测的最终结果。
5.根据权利要求4中所述的一种基于深度学习和图像处理的小物件检测方法,其特征在于,所述的α=1。
CN201811605116.2A 2018-12-26 2018-12-26 一种基于深度学习和图像处理的小物件检测方法 Active CN109685145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811605116.2A CN109685145B (zh) 2018-12-26 2018-12-26 一种基于深度学习和图像处理的小物件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811605116.2A CN109685145B (zh) 2018-12-26 2018-12-26 一种基于深度学习和图像处理的小物件检测方法

Publications (2)

Publication Number Publication Date
CN109685145A true CN109685145A (zh) 2019-04-26
CN109685145B CN109685145B (zh) 2022-09-06

Family

ID=66189765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811605116.2A Active CN109685145B (zh) 2018-12-26 2018-12-26 一种基于深度学习和图像处理的小物件检测方法

Country Status (1)

Country Link
CN (1) CN109685145B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110068818A (zh) * 2019-05-05 2019-07-30 中国汽车工程研究院股份有限公司 通过雷达和图像采集设备进行交通路口车辆及行人检测的工作方法
CN110276445A (zh) * 2019-06-19 2019-09-24 长安大学 基于Inception卷积模块的国内交通标志分类方法
CN110660074A (zh) * 2019-10-10 2020-01-07 北京同创信通科技有限公司 一种建立废钢等级划分神经网络模型方法
CN111488938A (zh) * 2020-04-15 2020-08-04 闽江学院 一种基于两步可切换归一化深度神经网络的图像匹配方法
CN111597340A (zh) * 2020-05-22 2020-08-28 迪爱斯信息技术股份有限公司 一种文本分类方法及装置、可读存储介质
CN111860623A (zh) * 2020-07-03 2020-10-30 北京林业大学 基于改进ssd神经网络的统计树木数量的方法及***
CN113393411A (zh) * 2020-02-26 2021-09-14 顺丰科技有限公司 包裹计数方法和装置、服务器、计算机可读存储介质
CN113762166A (zh) * 2021-09-09 2021-12-07 中国矿业大学 一种基于可穿戴式装备的小目标检测改善方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341517A (zh) * 2017-07-07 2017-11-10 哈尔滨工业大学 一种基于深度学习层级间特征融合的多尺度小物体检测方法
US20180231871A1 (en) * 2016-06-27 2018-08-16 Zhejiang Gongshang University Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN108564065A (zh) * 2018-04-28 2018-09-21 广东电网有限责任公司 一种基于ssd的电缆隧道明火识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180231871A1 (en) * 2016-06-27 2018-08-16 Zhejiang Gongshang University Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN107341517A (zh) * 2017-07-07 2017-11-10 哈尔滨工业大学 一种基于深度学习层级间特征融合的多尺度小物体检测方法
CN108564065A (zh) * 2018-04-28 2018-09-21 广东电网有限责任公司 一种基于ssd的电缆隧道明火识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YINGYING WANG ET AL.: "Robust person head detection based on multi-scale representation fusion of deep convolution neural network", 《PROCEEDINGS OF THE 2017 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND BIOMIMETICS》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110068818A (zh) * 2019-05-05 2019-07-30 中国汽车工程研究院股份有限公司 通过雷达和图像采集设备进行交通路口车辆及行人检测的工作方法
CN110276445A (zh) * 2019-06-19 2019-09-24 长安大学 基于Inception卷积模块的国内交通标志分类方法
CN110660074A (zh) * 2019-10-10 2020-01-07 北京同创信通科技有限公司 一种建立废钢等级划分神经网络模型方法
CN110660074B (zh) * 2019-10-10 2021-04-16 北京同创信通科技有限公司 一种建立废钢等级划分神经网络模型方法
CN113393411A (zh) * 2020-02-26 2021-09-14 顺丰科技有限公司 包裹计数方法和装置、服务器、计算机可读存储介质
CN111488938A (zh) * 2020-04-15 2020-08-04 闽江学院 一种基于两步可切换归一化深度神经网络的图像匹配方法
CN111488938B (zh) * 2020-04-15 2022-05-13 闽江学院 一种基于两步可切换归一化深度神经网络的图像匹配方法
CN111597340A (zh) * 2020-05-22 2020-08-28 迪爱斯信息技术股份有限公司 一种文本分类方法及装置、可读存储介质
CN111860623A (zh) * 2020-07-03 2020-10-30 北京林业大学 基于改进ssd神经网络的统计树木数量的方法及***
CN113762166A (zh) * 2021-09-09 2021-12-07 中国矿业大学 一种基于可穿戴式装备的小目标检测改善方法及***

Also Published As

Publication number Publication date
CN109685145B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN109685145A (zh) 一种基于深度学习和图像处理的小物件检测方法
CN107871124B (zh) 一种基于深度神经网络的遥感图像目标检测方法
CN110084292B (zh) 基于DenseNet和多尺度特征融合的目标检测方法
CN110135243B (zh) 一种基于两级注意力机制的行人检测方法及***
CN106127204B (zh) 一种全卷积神经网络的多方向水表读数区域检测算法
CN106683091B (zh) 一种基于深度卷积神经网络的目标分类及姿态检测方法
CN107657249A (zh) 多尺度特征行人重识别的方法、装置、存储介质及处理器
CN109559320A (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及***
CN107665498B (zh) 基于典型示例挖掘的全卷积网络飞机检测方法
CN108596053A (zh) 一种基于ssd和车辆姿态分类的车辆检测方法和***
CN110796186A (zh) 基于改进的YOLOv3网络的干湿垃圾识别分类方法
CN108319943B (zh) 一种提高戴眼镜条件下人脸识别模型性能的方法
CN108509859A (zh) 一种基于深度神经网络的无重叠区域行人跟踪方法
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
CN108154159B (zh) 一种基于多级检测器的具有自恢复能力的目标跟踪方法
CN111738258A (zh) 一种基于机器人巡检的指针式仪表读数识别方法
CN108961675A (zh) 基于卷积神经网络的跌倒检测方法
CN104599286B (zh) 一种基于光流的特征跟踪方法及装置
CN113095263B (zh) 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置
CN112560675B (zh) Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法
CN110006444B (zh) 一种基于优化混合高斯模型的抗干扰视觉里程计构建方法
CN112651406B (zh) 一种深度感知和多模态自动融合的rgb-d显著性目标检测方法
CN109522958A (zh) 基于跨尺度特征融合的深度卷积神经网络目标检测方法
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置
CN108734145B (zh) 一种基于密度自适应人脸表征模型的人脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant