CN108052946A

CN108052946A - 一种基于卷积神经网络的高压机柜开关自动识别方法

Info

Publication number: CN108052946A
Application number: CN201711308580.0A
Authority: CN
Inventors: 司文荣; 黄华; 陈璐; 徐鹏; 陆启宇; 高凯; 傅晨钊
Original assignee: State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Current assignee: State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-05-18

Abstract

本发明涉及一种基于卷积神经网络的高压机柜开关自动识别方法，包括以下步骤：1)读入待识别的开关柜图像，获取缩放后的输入图像；2)根据训练样本的真实框数据通过聚类获取多个先验框；3)构建卷积神经网络，并且根据先验框的数据对卷积神经网络进行训练；4)将缩放后的输入图像作为训练后的卷积神经网络的输入，获得开关目标识别的位置及所属类别信息；5)采用非极大值抑制方法对开关目标识别的位置及所属类别信息进行处理，得到最终的预测框；6)将预测框数据映射到待识别的开关柜图像中，在待识别的开关柜图像中画出预测框并且标出目标所属类别标签。与现有技术相比，本发明具有鲁棒性和泛化性强、收敛快、选择准确等优点。

Description

一种基于卷积神经网络的高压机柜开关自动识别方法

技术领域

本发明涉及电力***图像处理技术领域，尤其是涉及一种基于卷积神经网络的高压机柜开关自动识别方法。

背景技术

随着我国电力事业的快速发展，高压机柜设备越来越多。开关柜设备误操作事故是整个电力行业安全生产事故中最严重的事故，也是多发的事故之一。高压开关柜误操作事故的发生有着管理和人为方面的主观原因，同时设备本身存在的安全隐患也是极其重要的客观原因。误操作事故后果轻则引起电力***受损，重则危害人身安全。因此，迫切需要开发机柜开关的自动识别***来对高压开关柜进行开关检测和识别。

目前在神经网络领域，目标识别技术主要可以分为两大类，其中一类是将识别作为分类问题进行处理，利用分类器判断网络给出的每一个候选框中是否包含物体以及其所属类别；另一类则将识别作为回归问题来处理，使用一个神经网络通过端到端的方法对一整张图像进行回归，直接识别出图像中存在的物体及其位置信息。

Shaoqing Ren等人发表的论文“Faster R-CNN:Towards real-timeobjectdetection with region proposal networks”中提出了一种基于分类问题的目标识别算法。该方法基于R-CNN(region proposal CNN)网络，利用区域建议网络在整幅图像中产生大量可能包含待检测物体的建议约束框，并通过后期处理去除重复的多余目标框，之后用分类器判断剩余的约束框中是否有物体，如果有物体则得到所属类别的概率。但是，该方法由于需要先得到建议约束框，再对其进行目标识别，相当于经过了两个卷积神经网络，计算量大，识别速度慢。而且这两个网络的训练是分开进行的，训练复杂且性能优化困难。

Joseph Redmon等人发表的论文“You Only Look Once:Unified,real-timeobject detection”中提出一种基于回归问题的目标识别算法。该方法是基于端到端的卷积神经网络，将输入图片大小缩放到608×608，之后经过深度卷积神经网络的处理得到目标框坐标及类别概率，最后对计算结果进行非极大值抑制，筛选出最终的识别框。但是，该方法没有提供先验框，训练开始时不稳定，目标识别准确率不高。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于卷积神经网络的高压机柜开关自动识别方法。

本发明的目的可以通过以下技术方案来实现：

一种基于卷积神经网络的高压机柜开关自动识别方法，包括以下步骤：

1)读入待识别的开关柜图像，并且对图像进行缩放，获取缩放后的输入图像；

2)根据训练样本的真实框数据通过聚类获取多个先验框；

3)构建卷积神经网络，并且根据先验框的数据对卷积神经网络进行训练；

4)将缩放后的输入图像作为训练后的卷积神经网络的输入，获得开关目标识别的位置及所属类别信息；

5)采用非极大值抑制方法对开关目标识别的位置及所属类别信息进行处理，得到最终的预测框；

6)将预测框数据映射到待识别的开关柜图像中，在待识别的开关柜图像中画出预测框并且标出目标所属类别标签。

所述的步骤1)中，采用双线性插值方法对图像进行缩放，所述的缩放后的输入图像的尺寸大小为32的倍数。

所述的步骤2)具体包括以下步骤：

21)在训练样本中手动标记真实框，并获取训练样本真实框的数据，包括真实框的中心位置、宽度和高度；

22)采用k-means聚类算法，设定损失度量d(box,centroid)对真实框进行聚类，获得多个先验框。

所述的步骤22)中，损失度量d(box,centroid)的表达式为：

d(box,centroid)＝1-IOU(box,centroid)

其中，centroid为在真实框中随机选取的聚类中心框，box为除聚类中心框外的其他真实框，IOU(box,centroid)表示其他框与聚类中心框的相似程度。

所述的步骤3)具体包括以下步骤：

31)以GoogLeNet卷积神经网络为基础，采用1×1和3×3的卷积核，构建包含23个卷积层和5个池化层的卷积神经网络；

32)根据损失函数训练构建的卷积网络，所述的损失函数loss包括预测目标框的中心点坐标损失、预测框宽高损失和预测框中包含目标的概率损失，其表达式为：

其中，λ_coord为坐标损失系数，S²为图片划分网格的个数，B为每个网格预测框的个数，为有目标时，第i个网格中的第j个预测框是否负责这个目标的预测，(x_i,y_i)为人工标记的真实框的中心点坐标，为卷积神经网络输出的预测框中心点坐标，(w_i,h_i)为真实框的宽度和高度，为预测框的宽度和高度，λ_noobj为不包含目标时的损失系数，为不含有目标时，第i个网格中的第j个预测框是否负责这个目标的预测，C_i为包含目标的真实概率，为预测包含目标的概率，为第i个网格含有目标中心点，p_i(c)为真实目标类别，为预测的目标类别，c为类别数。

所述的步骤5)具体包括以下步骤：

51)将卷积神经网络输出的所有预测框按置信度得分降序排列，选取最高分及其对应的预测框；

52)在其余的预测框中，如果存在与当前最高分预测框的重叠面积大于阈值的预测框，则将其剔除；

53)遍历其余的预测框，重复步骤52)获取保留的最终的预测框。

与现有技术相比，本发明具有以下优点：

一、鲁棒性和泛化性强：本发明为了保持在对不同拍摄距离下拍摄开关柜照片的高识别率，我们对图片进行两次尺寸的缩放。第一次是将开关照片从原图随机缩放到某一尺寸，这里的某一尺寸是指320×320至832×832之间能被32整除的所有尺寸，第二次是将第一次缩放的结果缩放至608×608，以适应卷积神经网络的输入。算法采用每10个批次，就在第一此对图片随机缩放步骤中重新缩放到随机挑选的一个尺寸，让网络在不同的输入尺寸上都能达到一个很好的预测效果，从而使得，相同的网络对图片尺寸有更强的适应性，鲁棒性和泛化性更强。

二、收敛快、选择准确：要想得到一个精确的识别结果，不仅要对目标定位准确，而且要对的大小判断准确，也即要使预测框与真实框的重叠率尽可能接近1。因为开关柜上的开关类型有限，大小固定，我们可以通过聚类从人工标记的真实框中挑选出最具代表性的框作为先验框，以这些先验框的大小作为预测框大小的初始值，卷积神经网络只需在这先验框的基础上微调即可得到很好的预测效果。这样做不仅计算量小有助于卷积神经网络训练和预测，且预测准确。

附图说明

图1为本发明的流程图。

图2为本发明在仿真实验中使用的高压柜开关图。

图3为本发明在预测目标位置和大小时的计算方法

图4为在仿真实验中得到的高压柜开关目标识别结果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，本发明具体实施步骤如下：

步骤1：读入一幅待识别的开关柜图像，采用双线性插值方法对图像进行随机缩放，尺寸大小选择为32的倍数，得到缩放后的输入图像。

本发明实施例中输入的待处理的高压柜开关图像如附图2所示，开关图像的像素范围为[600-1000]，缩放后图像尺寸大小选择为32的倍数{480，512…832}，最小480×480，最大832×832，得到缩放后的输入图像。

步骤2：聚类获得先验框。

读取训练样本真实框的数据。

本发明实施例中，训练样本真实框是图像中人工标记的目标框信息。

采用k-means聚类算法，按照下式的损失度量d(box,centroid)进行聚类，获得先验框：

d(box,centroid)＝1-IOU(box,centroid)

其中，centroid表示随机选取的聚类中心框，box表示除中心框外的其他真实框，IOU(box,centroid)表示其他框与中心框的相似程度，通过二者的交集除以并集计算。

本发明实施例中选取的聚类中心框个数为5，IOU(box,centroid)按照下式计算获得：

其中，∩表示centroid和box两个框的交集区域面积，∪表示centroid和box两个框的并集区域面积。

步骤3：构建卷积神经网络。

以GoogLeNet卷积神经网络为基础，使用简单的1×1和3×3卷积核，构建包含23个卷积层和5个池化层的卷积神经网络。

按照下式的损失函数训练构建的卷积网络：

其中，损失函数的第一项为预测目标框的中心点坐标损失，其中λ_coord为坐标损失系数，本文中取为5；S²表示图片划分网格的个数，B表示每个网格预测框的个数；表示有目标时，第i个网格中的第j个预测框是否负责这个目标的预测；(x_i,y_i)表示目标真实框中心点坐标，表示预测框中心点坐标。函数第二项为预测框宽高损失，(w_i,h_i)表示真实框的宽高，表示预测框的宽高。函数第三项和第四项是预测框中包含目标的概率损失，其中λ_noobj表示不包含目标时的损失系数，本文中取0.5；表示不含有目标时，第i个网格中的第j个预测框是否负责这个目标的预测；C_i表示包含目标的真实概率，表示预测包含目标的概率。函数第五项是预测类别概率损失，表示第i个网格含有目标中心点；p_i(c)表示真实目标类别，表示预测的目标类别；c表示类别数。

步骤4：采用双线性插值的方法对输入图像进行尺寸缩放，得到能输入到网络中的图像；

本发明实施例中，缩放后获得能输入到网络中的图像大小为608×608。

步骤5：将步骤4得到的图像输入到步骤3构建的网络中进行识别，获得开关目标识别的位置及所属类别信息；

步骤6：将步骤5得到的图像输入到步骤3构建的网络中进行识别，卷积神经网络输出得到开关的相对坐标、相对大小及所属类别信息；在其他卷积网络中，如FasterR-CNN，预测的目标框中心点坐标是相对于整幅图像的绝对坐标，这会使预测的中心点缺少框的约束，导致模型变得不稳定，尤其是在最开始几次迭代的时候。因此，如图3所示，将图片划分成M×N个网格，在本例中使用M＝19，N＝19，在卷积神经网络初始化时，每个网格放入步骤2得到的5个先验框，此5个先验框就是预测框的初始状态，初试状态预测框的中心及网格的中心。在卷积神经网络预测目标中心点位置时候，仅需计算预测框相对于网格左上顶点的坐标，在卷积神经网络预测目标大小的时候，仅需计算预测框相对于先验框大小的偏移量。具体计算公式如下：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

虚线框表示步骤2通过聚类算法得到的先验框，蓝色框表示预测框。卷积神经网络的目的就是要调整先验框的宽和高，得到预测框，并使其尽可能的接近真实框。计算公式如下，其中p_w和p_h表示先验框的宽和高，b_w和b_h表示预测框的宽和高，t_w和t_h表示卷积神经网络输出开关的相对大小，c_x和c_y分别表示中心点相对整幅图像左上顶点横向偏移的网格数和纵向偏移的网格数，σ(t_x)和σ(t_y)分别表示目标中心点相对中心点所落入网格左上顶点的横坐标偏移和纵坐标偏移。

步骤7：采用非极大值抑制方法处理获得的位置及所属类别信息，获得最终的预测框：

将所有框的得分降序排列，选中最高分及其对应的框；

遍历其余的框，如果和当前最高分框的重叠面积IOU大于一定阈值，将框删除；

从未处理的框中继续选一个得分最高的，重复上述过程，得到保留下来的预测框数据；

步骤7：将预测框数据映射到原图中，在原图中画出预测框并且标出目标所属类别标签，如图3所示。

下面结合仿真图对本发明的效果做进一步的说明。

1、仿真实验条件：

本发明仿真实验的硬件平台是：戴尔计算机Intel(R)Core5处理器，主频3.20GHz，内存64GB；仿真软件平台是：Visual Studio软件(2015)版。

2、仿真实验内容与结果分析：

本发明的仿真实验具体分为两个仿真实验。

先手工标记各类开关位置及类别，并制作成PASCALVOC格式数据集，其中70％作为训练集，30％作为测试集。

仿真实验1：采用本发明与现有技术中基于目标识别分类的方法、基于目标识别回归的方法，分别用训练集进行训练，再用测试集对各种方法进行评价，评价结果如表1所示，表1中的Alg1表示本发明的方法，Alg2表示基于目标识别分类的方法，Alg3表示基于目标识别回归的方法。

表1三种方法仿真实验测试集准确率

测试图像	Alg1	Alg2	Alg3
				准确率(％)	94.0	80.6	87.9
每幅时间(s)	0.02	0.5	0.06

从表1中可以看出，本发明相比于基于目标识别分类的方法、基于目标识别回归的方法，开关识别准确率有明显的优势，分别提高近14％和6％。这充分说明，本发明在进行开关目标识别时有更好的性能。

仿真实验2：采用本发明方法，在测试集上分别使用不同的开关图像缩放尺寸作为网络的输入，测试评价结果如表2所示。

表2不同网络输入尺寸的识别结果

从表2中可以看出，本发明在输入图像缩放到一定尺寸时，目标识别准确率不再有明显变化，所以综合识别时间等考虑，选择608×608大小图像作为网络的输入图像。

综上所述，本发明提出的基于卷积神经网络的高压机柜开关自动识别方法对开关目标识别能取得更好的识别准确率。

Claims

1.一种基于卷积神经网络的高压机柜开关自动识别方法，其特征在于，包括以下步骤：

2)根据训练样本的真实框数据通过聚类获取多个先验框；

2.根据权利要求1所述的一种基于卷积神经网络的高压机柜开关自动识别方法，其特征在于，所述的步骤1)中，采用双线性插值方法对图像进行缩放，所述的缩放后的输入图像的尺寸大小为32的倍数。

3.根据权利要求1所述的一种基于卷积神经网络的高压机柜开关自动识别方法，其特征在于，所述的步骤2)具体包括以下步骤：

4.根据权利要求3所述的一种基于卷积神经网络的高压机柜开关自动识别方法，其特征在于，所述的步骤22)中，损失度量d(box,centroid)的表达式为：

d(box,centroid)＝1-IOU(box,centroid)

5.根据权利要求1所述的一种基于卷积神经网络的高压机柜开关自动识别方法，其特征在于，所述的步骤3)具体包括以下步骤：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>l</mi> <mi>o</mi> <mi>s</mi> <mi>s</mi> <mo>=</mo> <msub> <mi>&lambda;</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </msub> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msup> <mi>S</mi> <mn>2</mn> </msup> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>B</mi> </munderover> <msubsup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msubsup> <mrow> <mo>&lsqb;</mo> <mrow> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>x</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <msub> <mi>&lambda;</mi> <mrow> <mi>c</mi> <mi>o</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </msub> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msup> <mi>S</mi> <mn>2</mn> </msup> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>B</mi> </munderover> <msubsup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msubsup> <mrow> <mo>&lsqb;</mo> <mrow> <msup> <mrow> <mo>(</mo> <mrow> <msqrt> <msub> <mi>w</mi> <mi>i</mi> </msub> </msqrt> <mo>-</mo> <msqrt> <msub> <mover> <mi>w</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> </msqrt> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mrow> <msqrt> <msub> <mi>h</mi> <mi>i</mi> </msub> </msqrt> <mo>-</mo> <msqrt> <msub> <mover> <mi>h</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> </msqrt> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msup> <mi>S</mi> <mn>2</mn> </msup> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>B</mi> </munderover> <msubsup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msubsup> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>C</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msub> <mi>&lambda;</mi> <mrow> <mi>n</mi> <mi>o</mi> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msub> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msup> <mi>S</mi> <mn>2</mn> </msup> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>B</mi> </munderover> <msubsup> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mrow> <mi>n</mi> <mi>o</mi> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msubsup> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mover> <mi>C</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msup> <mi>S</mi> <mn>2</mn> </msup> </munderover> <msubsup> <mi>I</mi> <mi>i</mi> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msubsup> <munder> <mi>&Sigma;</mi> <mrow> <mi>c</mi> <mo>&Element;</mo> <mi>c</mi> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>s</mi> <mi>e</mi> <mi>s</mi> </mrow> </munder> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>p</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mover> <mi>p</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced>

6.根据权利要求1所述的一种基于卷积神经网络的高压机柜开关自动识别方法，其特征在于，所述的步骤5)具体包括以下步骤：