CN111091122A

CN111091122A - 一种多尺度特征卷积神经网络的训练和检测方法、装置

Info

Publication number: CN111091122A
Application number: CN201911154740.XA
Authority: CN
Inventors: 赵国伟; 刘玉龙; 杨日尧; 秦博; 胡昌龙; 张翔; 陈一挺; 张兴忠
Original assignee: Shanxi Hongshuntong Technology Co ltd; Datong Power Supply Co of State Grid Shanxi Electric Power Co Ltd
Current assignee: Shanxi Hongshuntong Technology Co ltd; Datong Power Supply Co of State Grid Shanxi Electric Power Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-05-01
Anticipated expiration: 2039-11-22
Also published as: CN111091122B

Abstract

本发明提供一种多尺度特征卷积神经网络的训练方法，该方法包括以下步骤：步骤S11：对训练图像中待识别目标进行标注，生成用于训练的训练数据；步骤S12：将训练数据输入多尺度特征卷积神经网络获取多张特征图；步骤S13：在多张特征图上生成目标预选框，对多尺度特征卷积神经网络进行训练。本发明采用的特征提取为多特征提取方式，针对不同特征提取层获取不同特征并进行的多层特征融合检测方式，通过融合不同层次的特征获得兼顾位置信息与语义信息的表达能力既丰富又准确的融合特征，从而获得更准确的检测结果。

Description

一种多尺度特征卷积神经网络的训练和检测方法、装置

技术领域

本发明属于深度学习技术领域，具体涉及一种多尺度特征卷积神经网络的训练和检测方法、装置。

背景技术

现有技术通常采用由BP神经网络和基于径向基函数网络及不变矩，基于图像操作，首先在图片上选出一系列位置、大小不同的待检测区域，然后将该区域直接输入一个卷积神经网络，得到分类结果。通过适当设计卷积神经网络的结构，可以让计算机直接学习出图片中的隐藏特征，避免了人工设计特征，能更广泛地应用到各种类别物体的检测中。但是这种技术较为落后，卷积神经网络的计算时间往往比人工设计特征的计算时间长许多，因此在检测时会面临检测速度与检测效果不可兼得的矛盾。尤其在针对大尺寸的全景图片中对微小目标进行识别，传统神经网络的准确率和识别率更加低下。

发明内容

本发明提供基于直接预测目标类别的算法，在模型设计上借鉴了深度可分离卷积以及特征融合，从而实现在全景图像中对微小目标进行检测具有较高的准确率和计算速度。

具体而言本发明提供了一种多尺度特征卷积神经网络的训练方法，其特征在于，所述训练方法包括以下步骤：

步骤S11：对训练图像中待识别目标进行标注，生成用于训练的训练数据；

步骤S12：将训练数据输入多尺度特征卷积神经网络获取多张特征图；

步骤S13：在多张特征图上生成目标预选框，对多尺度特征卷积神经网络进行训练。

更进一步地，在步骤S11中，所述训练数据是包含待检测目标和不包含待检测目标的两种全景图片，对包含待检测目标的所述全景图中所述目标位置设置标注数据框，所述标注数据框采用长方形框。

更进一步地，步骤S12中，所述多尺度特征卷积神经网络包括11个卷积层和降维卷积核，所述卷积层生成特征图，所述特征图通过所述降维卷积核处理进行多尺度特征融合；

所述特征图生成数量与所述降维卷积核数量相同。

4、根据权利要求3所述训练方法，其特征在于，步骤S12中，所述多尺度特征卷积神经网络获取特征图A’、B’、C’、D’、E’和F’，并通过特征融合，生成特征图A-F。

还提供了一种多尺度特征卷积神经网络的检测方法，其特征在于，所述检测方法包括以下步骤：

步骤S21：通过如权利要求1-4中任一项所述训练方法训练所述多尺度特征卷积神经网络；

步骤S22：将检测数据输入所述多尺度特征卷积神经网络；

步骤S23：检测数据通过所述多尺度特征卷积神经网络获取多张特征图；

步骤S24：分别在获取的所述张特征图上生成默认框；

步骤S25：对所述默认框进行筛选，并输出经过识别的瓷瓶裂缝图像。

更进一步地，步骤S23中，所述多尺度特征卷积神经网络获取6张特征图A-F，所述特征图A-F大小分别为38×38、19×19、10×10、5×5、3×3和1×1。

更进一步地，步骤S24中，所述特征图A-F大小为n×n，则所述特征图具有n×n个中心点，每个中心点产生k个默认框，所述特征图A-F中的所述k分别为4、6、6、6、4、4。

8、一种多尺度特征卷积神经网络的训练装置，其特征在于，所述训练装置包括存储器和处理器；

其中，所述存储器用于存储多尺度特征卷积神经网络程序信息、训练数据信息、标注数据框信息以及多尺度特征卷积神经网络程序产生的中间数据信息；

所述处理器用于用于执行程序以实现权利要求1-4中任一项所述多尺度特征卷积神经网络训练方法的操作。

还提供了一种多尺度特征卷积神经网络的检测装置，其特征在于，所述训练装置包括存储器和处理器；

其中，所述存储器用于存储多尺度特征卷积神经网络程序信息、多尺度特征卷积神经网络训练模型以及多尺度特征卷积神经网络程序在检测中产生的中间数据信息；

所述处理器用于用于执行程序以实现权利要求5-7中任一项所述多尺度特征卷积神经网络训练方法的操作。

本发明的有益效果是：

针对现有技术采用通过对图像分割处理，分割出目标区域，然后对目标进行描述的老旧方法；本发明采用多特征提取，低层特征图含有较为准确的位置信息，高层次特征图含有丰富的语义信息，针对不同特征提取层获取特征并进行的多层特征融合检测方式，通过融合不同层次的特征获得兼顾位置信息与语义信息的表达能力既丰富又准确的融合特征，从而获得更准确的检测结果。

针对现有技术在采用神经网络上仍采用的是BP神经网络等老旧人工神经网络，识别准确率低的问题；本发明采用的神经网络深度和宽度都成倍于原神经网络，同时采用深度可分离卷积技术相比传统的卷积操作中实现通道和区域分离的过程分解为分别实现通道与区域的分离的两个过程，将普通卷积的计算量大为压缩，有效的提高了识别速度，更适合在移动端设备上部署。

附图说明

图1是本发明实施例提供的一种多尺度特征卷积神经网络的训练方法的示意图；

图2是本发明实施例提供的一种多尺度特征卷积神经网络的训练方法中多尺度特征融合的方法示意图；

图3是本发明实施例提供的一种多尺度特征卷积神经网络的检测方法的示意图。

具体实施方式

下面通过实施例，并结合附图1-3，对本发明的技术方案作进一步具体的说明。

实施例1

如附图1所示，为了实现在全景图像中对微小目标进行检测，本申请的实施例提供了一种多尺度特征卷积神经网络的训练方法，包括以下步骤：

具体的，在步骤S11中，采集相当数量的待检测目标的全景图作为多尺度特征卷积神经网络的训练数据，采集到的全景图应当分为包含待检测目标和不包含待检测目标两种类型。并对包含待检测目标的全景图中目标位置设置标注数据框，标注数据框采用长方形框，标注数据框将具有裂缝的图像信息环绕再框内，对具有无裂缝的图像不设置标注数据框，来标记该学习区域是否包含待检测物体，以便于神经网络学习训练。训练数据中应包括数量相当的具有目标并标记过的全景图和不包含目标的全景图。

在步骤S12中，将训练数据输入多尺度特征卷积神经网络，本发明采用的卷积神经网络基于VGG16网络，前5层网络采用与VGG16网络相同的配置具有5层网络，包括卷积层1包括卷积核conv1_1和conv1_2；卷积层2包括卷积核conv2_1，conv2_2；卷积层3包括卷积核conv3_1，conv3_2，conv3_3；卷积层4包括卷积核conv4_1，conv4_2，conv4_3；卷积层5包括卷积核conv5_1，conv5_2，conv5_3；原VGG16网络结构中的fc6、fc7是全连接层，在本发明中经改进成为卷积层，fc6包括卷积核conv6(1×1×1024)，fc7包括卷积核conv7(1×1×1024)；并增加了卷积层8、卷积层9、卷积层10和卷积层11，卷积层8包括卷积核conv8_1(1×1×256)和conv8_2(3×3×512-S2)；卷积层9包括卷积核conv9_1(1×1×128)和conv9_2(3×3×256-S2)；卷积层10包括卷积核conv10_1(1×1×128)和conv10_2(3×3×256-S1)；卷积层11包括卷积核conv11_1(1×1×128)和conv11_2(3×3×256-S1)。

fc6中图像数据是原有VGG16网络结构中卷积层5中卷积核conv5_3(1×1×1024)输出的19×19×1024的图像数据，并通过卷积核conv7(1×1×1024)的进行操作输出fc7，fc7是19×19×1024的图像数据；卷积层8是fc7通过卷积核conv8_1(1×1×256)和conv8_2(3×3×512-S2)两个卷积核进行卷积生成19×19×256和10×10×512的图像数据；卷积层9是卷积层8通过卷积核conv9_1(1×1×128)和conv9_2(3×3×256-S2)两个卷积核进行卷积生成10×10×128和5×5×256的图像数据；卷积层10是卷积层9通过卷积核conv10_1(1×1×128)和conv10_2(3×3×256-S1)两个卷积核进行卷积生成5×5×128和3×3×256的图像数据；卷积层11是卷积层10通过卷积核conv11_1(1×1×128)和conv11_2(3×3×256-S1)两个卷积核进行卷积生成3×3×128和1×1×256的图像数据。

如附图2所示，在全景图像中对于较小目标来说，经过大量的卷积与池化操作后，所代表的特征在最后一层可能仅占有一个像素甚至完全丢失，故此种检测方式因不能充分利用大量较低层特征信息从而极易造成漏检。因此，多尺度特征卷积神经网络还设有6个用于降维的卷积核，分别将由卷积核conv4_3、卷积核conv7、卷积核conv8_2、卷积核conv9_2、卷积核conv10_2和卷积核conv11_2输出的图像数据进行降维；并对降维后的特征图进行上采样及特征融合，生成新的特征图，并由新生成的特征图提取特征。

具体的，获取多尺度特征卷积神经网络中卷积核conv4_3、卷积核conv7、卷积核conv8_2、卷积核conv9_2、卷积核conv10_2和卷积核conv11_2输出的图像数据分别作为特征图A’、B’、C’、D’、E’和F’。

对卷积核conv11_2输出的特征图F’通过1×1的卷积核进行降维生成特征图F；并由卷积核conv10_2输出的特征图E’通过1×1的卷积核进行降维生成特征图与特征图F进行上采样生成的图像进行融合，生成特征图E；并由卷积核conv9_2输出的特征图D’通过1×1的卷积核进行降维生成特征图与特征图E进行上采样生成的图像进行融合，生成特征图D；并由卷积核conv8_2输出的特征图C’通过1×1的卷积核进行降维生成特征图与特征图D进行上采样生成的图像进行融合，生成特征图C；并由卷积核conv7输出的特征图B’通过1×1的卷积核进行降维生成特征图与特征图C进行上采样生成的图像进行融合，生成特征图B；并由卷积核conv4_3输出的特征图A’通过1×1的卷积核进行降维生成特征图与特征图B进行上采样生成的图像进行融合，生成特征图A。

融合后的特征图A尺寸与特征图A’相同，同时包括特征图A’、B’、C’、D’、E’和F’中的语义信息；融合后的特征图B尺寸与特征图B’相同，同时包括特征图B’、C’、D’、E’和F’中的语义信息；融合后的特征图C尺寸与特征图C’相同，同时包括特征图C’、D’、E’和F’中的语义信息；融合后的特征图D尺寸与特征图D’相同，同时包括特征图D’、E’和F’中的语义信息；融合后的特征图E尺寸与特征图E’相同，同时包括特征图E’和F’中的语义信息；融合后的特征图F尺寸与特征图F’相同，同时包括特征图F’中的语义信息。最终生成的特征图A-F不但包含了低层特征图中较为准确的位置信息，同时包含高层次特征图中丰富的语义信息，并通过降维减少运算量，使神经网络达到在质量与速度的平衡

同时，本发明采用深度神经网络，出模型中有大量的层，这样的好处是提高了精度但是导致了参数和计算量暴涨，为了进一步优化计算速度采用深度可分离卷积操作，再损失精度不多的情况下大幅度降低参数量和计算量。深度可分离卷积将传统的卷积操作分解为两个过程，即面向通道的运算过程和面向图像区域的运算过程，实现通道与区域的分离。通过将普通卷积拆分成面向通道的运算过程和面向图像区域的运算过程两步，将普通卷积的计算量大为压缩，有效的提高了识别速度，更适合在移动端设备上部署。

在步骤S13中，对特征图A-F分别生成目标预选框，将目标预选框与标注数据框做匹配，匹配成功说明这个目标预选框所包含的是识别目标，但离完整目标的标注数据框还有段距离，训练的目的是调整改进后的卷积神经网络参数，使目标预选框尽可能回归到标注数据框。

本实施例还公开了一种多尺度特征卷积神经网络训练装置，包括：存储器和处理器，其中：

存储器用于存储多尺度特征卷积神经网络程序信息、训练数据信息、标注数据框信息以及多尺度特征卷积神经网络程序产生的中间数据信息；处理器用于用于执行程序以实现上述多尺度特征卷积神经网络训练方法中的操作。

实施例2

如附图3所示，本申请的实施例提供了一种多尺度特征卷积神经网络的检测方法，包括以下步骤：

步骤S21：训练多尺度特征卷积神经网络；

步骤S22：将检测数据输入多尺度特征卷积神经网络；

步骤S23：检测数据通过多尺度特征卷积神经网络获取多张特征图；

步骤S24：分别在获取的多张特征图上生成默认框；

步骤S25：对默认框进行筛选，并输出经过识别的瓷瓶裂缝图像。

具体的，在步骤S21中，依据实施例1中公开的方法对多尺度特征卷积神经网络进行训练，得到多尺度特征卷积神经网络模型。如神经网络已经训练完成，则可跳过该步骤。

在步骤S22中，获取待进行目标检测的全景图作为检测数据输入训练后的多尺度特征卷积神经网络中进行检测。

在步骤S23中，获取检测数据在多尺度特征卷积神经网络中卷积核conv4_3、卷积核conv7、卷积核conv8_2、卷积核conv9_2、卷积核conv10_2和卷积核conv11_2输出的图像数据分别作为特征图A’、B’、C’、D’、E’和F’。并对卷积核conv11_2输出的特征图F’通过1×1的卷积核进行降维生成特征图F；并由卷积核conv10_2输出的特征图E’通过1×1的卷积核进行降维生成特征图与特征图F进行上采样生成的图像进行融合，生成特征图E；并由卷积核conv9_2输出的特征图D’通过1×1的卷积核进行降维生成特征图与特征图E进行上采样生成的图像进行融合，生成特征图D；并由卷积核conv8_2输出的特征图C’通过1×1的卷积核进行降维生成特征图与特征图D进行上采样生成的图像进行融合，生成特征图C；并由卷积核conv7输出的特征图B’通过1×1的卷积核进行降维生成特征图与特征图C进行上采样生成的图像进行融合，生成特征图B；并由卷积核conv4_3输出的特征图A’通过1×1的卷积核进行降维生成特征图与特征图B进行上采样生成的图像进行融合，生成特征图A。

特征图A-F的大小分别为38×38、19×19、10×10、5×5、3×3和1×1。

在步骤S24中，特征图A-F中每个n×n大小的特征图中有n×n个中心点，每个中心点产生k个默认框，默认框是在特征图的每个中心点产生的一系列固定大小的矩形框，六层中每层的每个中心点产生的k分别为4、6、6、6、4、4。

在步骤S25中，对于生成的默认框由多尺度特征卷积神经网络依据训练生成的模型进行评分，并设定阈值，初步筛选出评分较高的默认框；将初步筛选后的默认框进行非极大值抑制处理，获取处理后的默认框；并将默认框的位置生成在全景图像上目标位置，同时输出具有该默认框的全景图像。

存储器用于存储多尺度特征卷积神经网络程序信息、多尺度特征卷积神经网络训练模型以及多尺度特征卷积神经网络程序在检测中产生的中间数据信息；处理器用于用于执行程序以实现上述多尺度特征卷积神经网络检测方法中的操作。

虽然本发明已经以较佳实施例公开如上，但实施例并不是用来限定本发明的。在不脱离本发明之精神和范围内，所做的任何等效变化或润饰，同样属于本发明之保护范围。因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。

Claims

1.一种多尺度特征卷积神经网络的训练方法，其特征在于，所述训练方法包括以下步骤：

2.根据权利要求1所述训练方法，其特征在于，在步骤S11中，所述训练数据是包含待检测目标和不包含待检测目标的两种全景图片，对包含待检测目标的所述全景图中所述目标位置设置标注数据框，所述标注数据框采用长方形框。

3.根据权利要求1所述训练方法，其特征在于，步骤S12中，所述多尺度特征卷积神经网络包括11个卷积层和降维卷积核，所述卷积层生成特征图，所述特征图通过所述降维卷积核处理进行多尺度特征融合；

所述特征图生成数量与所述降维卷积核数量相同。

4.根据权利要求3所述训练方法，其特征在于，步骤S12中，所述多尺度特征卷积神经网络获取特征图A’、B’、C’、D’、E’和F’，并通过特征融合，生成特征图A-F。

5.一种多尺度特征卷积神经网络的检测方法，其特征在于，所述检测方法包括以下步骤：

步骤S22：将检测数据输入所述多尺度特征卷积神经网络；

步骤S24：分别在获取的所述张特征图上生成默认框；

6.根据权利要求5所述检测方法，其特征在于，步骤S23中，所述多尺度特征卷积神经网络获取6张特征图A-F，所述特征图A-F大小分别为38×38、19×19、10×10、5×5、3×3和1×1。

7.根据权利要求6所述检测方法，其特征在于，步骤S24中，所述特征图A-F大小为n×n，则所述特征图具有n×n个中心点，每个中心点产生k个默认框，所述特征图A-F中的所述k分别为4、6、6、6、4、4。

8.一种多尺度特征卷积神经网络的训练装置，其特征在于，所述训练装置包括存储器和处理器；

9.一种多尺度特征卷积神经网络的检测装置，其特征在于，所述训练装置包括存储器和处理器；