CN112200225A

CN112200225A - 基于深度卷积神经网络的钢轨伤损b显图像识别方法

Info

Publication number: CN112200225A
Application number: CN202011013157.XA
Authority: CN
Inventors: 何庆; 陈正兴; 王平; 王启航; 杨康华; 王晓明; 曾楚琦; 付彬; 姚继东; 刘勇
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-08
Anticipated expiration: 2040-09-23
Also published as: CN112200225B

Abstract

本发明涉及钢轨探伤技术领域，涉及一种基于深度卷积神经网络的钢轨伤损B显图像识别方法，其包括以下步骤：一、查找焊缝、正常螺孔、异常螺孔和表面伤四类出波情况并保存；二、对原始图片进行填充，将图片尺寸扩展；三、将填充后的数据裁剪；四、横向上沿左右两股钢轨对称轴进行上下对称裁剪为两部分，沿纵向平均裁剪为四部分，最后得到416×416的标准图片；五、打标签操作,将标签文件与图片文件制作成标准数据集；六、构建YOLO‑UAV+min模型；七、对数据集进行聚类分析，得到先验框，将先验框输入到模型中；八、配置网络参数；九、使用模型进行训练。本发明能较佳的识别伤损。

Description

基于深度卷积神经网络的钢轨伤损B显图像识别方法

技术领域

本发明涉及钢轨探伤技术领域，具体地说，涉及一种基于深度卷积神经网络的钢轨伤损B显图像识别方法。

背景技术

目前对于钢轨伤损的评判不再局限于伤损的存在与否，还要对钢轨伤损检测数据进行评价，包括对钢轨的失效原因、安全可靠性，以及其物理和力学性能的综合性检测及其评价。虽然在超声检测领域的数字化、智能化研究也有很大程度的发展，但是对于伤损的检测判定，钢轨失效的原因分析依然需要依靠经验丰富的专家，智能化程度远远不够。为了提高钢轨伤损识别率，降低漏报率和误报率，传统的机器学习方法主要是人工提取分类特征，然后设计分类器对钢轨伤损进行分类。目前，钢轨缺陷的检测方法主要有超声波、声发射、振动加速度、图像处理等。不同检测方法的特征提取方法也不尽相同，一般可以通过一些统计或信号处理方法来获得特征，包括小波包变换(WPT)、核主成分分析(KPCA)、自适应线增强器等。现有的利用机器学习方法进行钢轨伤损检测的研究方法包括支持向量机、感知器、贝叶斯模型、半监督模型、最大熵法等等。以上方法大多通过人工处理分类特征的方式对钢轨伤损进行分类识别，这些方法中钢轨伤损判别效果依赖于工作人员选取特征的准确性，对于经验不足或认识不够的伤损类型会有所遗漏，因此会造成钢轨探伤的误报、漏报率高等问题。

目前钢轨探伤设备在国内普速铁路和高速铁路都得到了广泛应用。然而由于受探伤设备自身设置不合理、探伤灵敏度不足以及伤损数据分析方法单一、数据处理智能化程度不高等内外部因素影响，钢轨探伤设备陆续产生伤损漏报、误报问题。同时，由于过去针对上述问题的方法主要靠改进探伤设备的探头，邀请专家***培养工作人员，工作人员自学等方法，因此伤损识别主观性较强，无法得到推广。鉴于以上情况，需要一种基于深度卷积神经网络的钢轨伤损B显图像识别方法。

发明内容

本发明的内容是提供一种基于深度卷积神经网络的钢轨伤损B显图像识别方法，其能够克服现有技术的某种或某些缺陷。

根据本发明的基于深度卷积神经网络的钢轨伤损B显图像识别方法，其包括以下步骤：

一、查找焊缝、正常螺孔、异常螺孔和表面伤四类出波情况并保存；

二、对原始图片进行填充，将图片尺寸扩展；

三、以B显伤损图像为中心将填充后的数据裁剪；

四、横向上沿左右两股钢轨对称轴进行上下对称裁剪为两部分，沿纵向平均裁剪为四部分，最后得到416×416的标准图片；

五、对数据进行打标签操作，框选需要训练的检测对象，并保存为标签文件，将得到的标签文件与图片文件制作成标准数据集；

六、构建YOLO-UAV+min模型；

七、设定需要聚类的锚框数量，对所使用的数据集进行K-means聚类分析，得到先验框，将先验框输入到YOLO-UAV+min模型中；

八、配置网络参数；

九、使用YOLO-UAV+min模型进行训练；

十、将训练完成的YOLO-UAV+min模型封装作为插件安装到钢轨超声波探伤仪中进行日常的钢轨探伤作业中的钢轨伤损B显图像智能识别。

作为优选，步骤五中，YOLO-UAV+min模型构建方法为：YOLO V3引入特征金字塔，使用三种不同尺度的特征图进行多尺度检测，增加最小尺度预测网络层得到YOLO-min模型，YOLO-min模型中的残差块被替换为快速连接块，将YOLO-min模型中的Darknet-53的残差块1、残差块2、残差块3的重复次数分别修改为2、3、7，得到YOLO-UAV+min模型。

作为优选，YOLO V3的第一个尺度将输入图像划分为19×19个网格，每个网格的大小为32×32；第二个尺度在第一个尺度的基础上向上采样，将输入图像划分为38×38个网格，每个网格大小为16×16；在第二个尺度的基础上，第三个尺度进行上采样，将输入图像划分为76×76个网格，每个网格的大小为8×8；然后继续在第三尺度的基础上进行上采样，将输入图像划分为152×152个网格，每个网格的特征图大小为4×4，得到YOLO-min模型。

作为优选，步骤七中，配置网络参数具体为：将输入的416×416尺寸的原始数据集重新调整为608×608，将每次输入的批量大小batch设置为16，同时将每批数据分成16份分开输入，即subdivisions＝16；将旋转角度angle、曝光度exposure、饱和度saturation、色度hue均设置为0；将初始学习率设置为0.001，衰减系数为0.0005，设置采用动量为0.949的异步随机梯度下降，在训练次数分别达到总次数的80％和90％时进行学习率衰减且每次衰减10倍，最终学习率衰减100倍。

作为优选，步骤八中，YOLO-UAV+min模型训练方法为：将输入图像分割成S×S的网格，并在每个网格中进行检测；

每个网格预测B个边界框以及这些框的置信度Confidence，置信度可以反映出一个物体是否存在于网格中，如果存在，则计算实际边界框GT和预测边界框pred的交并比IoU；置信度可表示为：

Confidence＝Pr(object)×IOU(GT,pred)；

式中Pr(object)表示预测边界框中是否有检测对象，1表示有，0表示无，IOU(GT,pred)为真实边界框与预测边界框的交并比，定义如下：

式中Box_GT表示实际边界框，Box_pred表示预测边界框；

每个网格还预测C类目标对象的概率，每个网格总共预测(5+C)个值：x、y、w、h、置信度和C类概率，其中(x,y)表示边界框的中心坐标，(w,h)分别表示边界框的宽度和高度，最终的输出为S×S×(5×B+C)的一个张量。

作为优选，YOLO-UAV+min模型的损失函数包括4个部分：

预测中心坐标的损失：

预测边界框的宽高的损失：

预测类别的损失：

预测置信度的损失：

式中λ_coord表示坐标误差的权重；s²表示输入图中网格的数量；B表示每个网格中预测边界框的数量；若

表示在第j个网格中的第i个边界框中有检测对象，否则即为0；C表示置信度得分，C_I是预测边界框与实际边界框的交叉部分。

本发明能可以较好地完成钢轨伤损检测任务，能提高钢轨超声波探伤设备的伤损识别率，降低漏报率和误报率。

附图说明

图1为实施例1中一种基于深度卷积神经网络的钢轨伤损B显图像识别方法的流程图；

图2为实施例1中YOLO-min网络结构示意图；

图3为实施例1中YOLO-Rail+min、YOLO-UAV+min和YOLO-Apple+min三个主干网络结构示意图；

图4为实施例1中YOLO V3、YOLO-min、YOLO-Rail+min、YOLO-UAV+min和YOLO-Apple+min的训练迭代损失曲线；

图5为实施例1中K-means聚类分析示意图；

图6为实施例1中YOLO-UAV+min检测过程示意图；

图7为实施例1中各B显图像检测对象识别效果示意图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明进行解释而并非限定。

实施例1

如图1所示，本实施例提供了一种基于深度卷积神经网络的钢轨伤损B显图像识别方法，其包括以下步骤：

一、在双轨式探伤小车B显回放软件中查找焊缝、正常螺孔、异常螺孔和表面伤四类出波情况并保存为.jpg格式图片；

二、对原始图片进行填充，将图片尺寸扩展为1920×870；

三、以B显伤损图像为中心将填充后的数据裁剪为1664×832；

五、使用LabelImg软件对数据进行打标签操作，人工框选需要训练的检测对象，并保存为标签文件，最后将得到的标签文件与图片文件按照VOC2007数据集格式制作成标准数据集；

六、构建YOLO-UAV+min模型；

八、配置网络参数；

九、使用YOLO-UAV+min模型进行训练；

十、将训练完成的YOLO-UAV+min模型封装作为插件安装到RUD-15型双轨式钢轨超声波探伤仪中进行日常的钢轨探伤作业中的钢轨伤损B显图像智能识别。

步骤五中，YOLO-UAV+min模型构建方法为：为了提高小目标检测的准确性，YOLOV3引入特征金字塔，使用三种不同尺度的特征图进行多尺度检测，YOLO V3的第一个尺度将输入图像划分为19×19个网格，每个网格的大小为32×32；第二个尺度在第一个尺度的基础上向上采样，将输入图像划分为38×38个网格，每个网格大小为16×16；在第二个尺度的基础上，第三个尺度进行上采样，将输入图像划分为76×76个网格，每个网格的大小为8×8；然而，有些出波情况的尺寸非常小，即使是第三尺度也不足以完全检测到，因此，为了获得更细小尺度的信息，然后继续在第三尺度的基础上进行上采样，将输入图像划分为152×152个网格，每个网格的特征图大小为4×4，这有利于检测非常小的出波情况，采用最小尺度预测网络层的YOLO V3模型称为YOLO-min模型，YOLO-min模型网络结构如图2所示。YOLO-min模型中的残差块被替换为快速连接块，将YOLO-min模型中的Darknet-53的残差块1、残差块2、残差块3的重复次数分别修改为2、3、7，以加深网络结构，最终得到YOLO-UAV+min模型。

步骤七中，配置网络参数具体为：将输入的416×416尺寸的原始数据集重新调整为608×608，考虑到高网络分辨率会占用大量显存，导致显存溢出情况发生，将每次输入的批量大小batch设置为16，同时将每批数据分成16份分开输入，即subdivisions＝16；因B显图像的特殊性，无法进行旋转以及调整曝光度、饱和度、色度，将旋转角度angle、曝光度exposure、饱和度saturation、色度hue均设置为0，因此数据集无法进行常规的数据增强工作；将初始学习率设置为0.001，衰减系数为0.0005，设置采用动量为0.949的异步随机梯度下降，在训练次数分别达到总次数的80％和90％时进行学习率衰减且每次衰减10倍，最终学习率衰减100倍。

步骤八中，YOLO-UAV+min模型训练方法为：将输入图像分割成S×S的网格，并在每个网格中进行检测；

Confidence＝Pr(object)×IOU(GT,pred)；

式中Box_GT表示实际边界框，Box_pred表示预测边界框；

每个网格还预测C类目标对象的概率，每个网格总共预测(5+C)个值：x、y、w、h、置信度和C类概率，其中(x,y)表示边界框的中心坐标，(w,h)分别表示边界框的宽度和高度，最终的输出为S×S×(5×B+C)的一个张量，如图6所示，为YOLO-UAV+min模型的检测过程。

YOLO-UAV+min模型的损失函数包括4个部分：

预测中心坐标的损失：

预测边界框的宽高的损失：

预测类别的损失：

预测置信度的损失：

表示在第j个网格中的第i个边界框中有检测对象，否则即为0；C表示置信度得分，C_I是预测边界框与实际边界框的交叉部分。随着迭代次数增加，误差损失呈现震荡下降趋势，当训练迭代批次达到1500次左右，误差损失基本稳定，最终每种B显出波情况训练迭代4000次。

步骤六中，YOLO V3模型引入了锚框anchor boxes概念。初始锚框是一组具有固定高度和宽度的先验框，而先验框的选择将会直接影响到检测的精度和速度。YOLO V3通过在数据集标签上运行K-means聚类算法来自动找到合适尺寸的锚框。通过K-means生成的聚类可以反映数据集中样本的分布，使YOLO网络能够更容易做出良好的预测。另一方面如果直接采用标准的K-means聚类算法，在边界框的尺寸比较大的时候其产生的误差也更大，而误差和边界框的尺寸没有太大关系才是我们所希望的，因此通过IoU定义了如下的距离函数，使得误差与边界框的尺寸无关：

d(box,centroid)＝1-IoU(box,centroid)；

式中box表示目标对象的实际边界框，centroid表示聚类中心框。根据以上算法，本实施例首先设定需要聚类的锚框数量为1～20(K＝1～20)，对所使用的数据集进行K-means聚类分析，结果如图5所示，图5(a)为锚框数与平均交并比的关系，图5(b)为12个先验框的聚类结果。图5(a)横坐标表示需要聚类的锚框的数量(Anchor Number)，纵坐标表示平均交并比(Avg IoU)。从图5(a)可以看出随着锚框数量的增加，平均交并比也在提升。因为锚框数量的增加随之带来的计算量也会增加，损失函数的收敛速度也会减慢，所以综合考虑误差与计算量，本实施例以螺孔裂纹为例，选择的聚类锚框数量为12个，所聚类出来的12个先验框的宽和高为(15,15)、(13,16)、(12,18)、(18,16)、(22,28)、(10,13)、(15,19)、(16,19)、(13,22)、(12,13)、(18,23)、(7,10)。12个先验框的宽度和高度的聚类结果如图5(b)所示，其中x轴表示锚框的宽度，y轴表示锚框的高度，'x'表示12个先验框，'.’代表了所有实际边界框。图中'.’颜色越浅，实际边界框越密集。从图5(b)可以看出，这12个先验框都位于实际边界框相对密集的位置；因此，K-means算法聚类的12个锚框效果较好，可以作为先验框输入到YOLO-UAV+min模型中，提高检测精度和速度。

本实施例中的YOLO-UAV+min模型可以替代为YOLO-Rail+min和Yolo-Apple+min；借鉴铁路轨道(Railway Track Line)，无人机(Unmanned Aerial Vehicle)，和苹果病变(Apple Lesions)三个主干网络的设计研究，在上述三种网络的基础上，增加了最小尺度检测网络，由此产生了三个新的主干网:YOLO-Rail+min、YOLO-UAV+min和YOLO-Apple+min。三种主干网络结构如图3所示。

YOLO-Rail+min的网络结构如图3左侧所示，其中使用稠密块替换YOLO原主干网络Darknet-53的残差块3、残差块4、残差块5。由于采用密集连接方法，DenseNet增强了梯度反向传播，使网络更易于训练。此外，由于DenseNet通过连接特性实现了短路连接，因此它实现了特性重用，并且使用了较小的增长率。由于每层特有的feature map相对较小，因此DenseNet参数较小，计算效率更高。图3中间的YOLO-UAV+min被重新设计，使用快速连接块替换残差块，另外，将Darknet-53的残差块1、残差块2、残差块3的重复次数分别修改为2、3、7，以加深网络结构。结合这两种优化方法不仅可以提高网络的接受度，而且可以增强网络语义特征提取能力。图3右侧的YOLO-Apple+min通过在原始Darknet-53模型的残差块2、残差块3、残差块4、残差块5之间***稠密块来优化主干结构。

YOLO V3、YOLO-min、YOLO-Rail+min、YOLO-UAV+min、YOLO-Apple+min的训练迭代损失曲线如图4所示。由图4可以看出，后四种改进网络模型的收敛性都优于原模型，最终的损失也低于原模型。但是，从训练迭代损失曲线上很难看出四种改进网络模型之间的差异。为了解决这个问题，本研究比较了五种模型在正常螺栓孔和螺孔裂纹数据集上的平均精度(AP)，AP的计算公式如下:

其中TP、FP和FN分别是真阳性、假阳性和假阴性的缩写。

根据VOC2007评价标准，利用最大精度的平均值得到平均精度(AP)，最大精度P_interp(r_n+1)的计算公式如下：

其中，

表示召回率，

表示

的测量精度。

表1分别采用YOLO V3、YOLO-min、YOLO-Rail+min、YOLO-uav+min和YOLO-Apple+min模型检测正常螺栓孔和螺孔裂纹的平均精度。

表1

模型	正常螺孔	螺孔裂纹
			YOLO	94.27％	15.32％
YOLO-min	96.20％	10.79％
			YOLO-rail+min	96.42％	41.68％
YOLO-UAV+min	97.13％	66.49％
			YOLO-apple+min	95.07％	42.00％

表1给出了使用上述五种模型检测正常螺栓孔和螺孔裂纹的平均精度。由表1可以看出，四种改进的网络模型的平均精度都优于原始模型，其中最有效的是YOLO-UAV+min模型。

本实施例采用Precision(精度)、Recall(召回率)、AP(平均精度)、(F1分数)、mAP(各类别AP的平均值)、Avg IoU(平均交并比)6个评价标准来评价模型的检测效果。mAP表示所有类型AP的平均值，Avg IoU表示所有类型交并比的平均值。F₁-score定义如下：

训练完成后分别利用YOLO-UAV+min模型对测试集中的453张B显图像中的四类目标进行检测，各B显图像检测对象识别效果评价见表2，各B显图像检测对象识别效果见图7。图7各B显图像检测对象识别效果：(a)焊缝，(b)正常螺孔，(c)异常螺孔，(d)表面伤损。

表2各B显图像检测对象识别效果评价

由表2可以看出，基于改进YOLO V3的YOLO-UAV+min模型的B显图像检测方法对焊缝、正常螺孔和表面伤识别的精度均在90％以上，说明该模型的误检率较低。而螺孔裂纹的精度为66.49％。因螺孔裂纹的尺寸小于焊缝和螺孔，也不会像表面伤一样大面积出现，因此很难被检测到。但改进后的YOLO-UAV+min模型的精度要高于原YOLO模型。在召回率方面，除螺孔裂纹和表面伤损分别为0.63和0.72外，其他两类对象均超过0.95。因此，除了螺孔裂纹和表面伤损可能会出现漏检外，其他两类可以保证较高的检测全面性。在其他方面，AP和F₁-score都达到了较好的标准，75.33％的平均IOU也达到了0.75的阈值要求。

因此，YOLO-UAV+min模型具有较高的检测精度。从图7中可以看出，该方法可以更准确地检测出各类显伤损对象，并用不同颜色和名称的边框对其进行标记。由此可见，基于YOLO-UAV+min模型的钢轨缺陷B显图像识别方法可以较好地完成钢轨伤损检测任务。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.基于深度卷积神经网络的钢轨伤损B显图像识别方法，其特征在于：包括以下步骤：

二、对原始图片进行填充，将图片尺寸扩展；

三、以B显伤损图像为中心将填充后的数据裁剪；

六、构建YOLO-UAV+min模型；

八、配置网络参数；

九、使用YOLO-UAV+min模型进行训练；

2.根据权利要求1所述的基于深度卷积神经网络的钢轨伤损B显图像识别方法，其特征在于：步骤五中，YOLO-UAV+min模型构建方法为：YOLO V3引入特征金字塔，使用三种不同尺度的特征图进行多尺度检测，增加最小尺度预测网络层得到YOLO-min模型，YOLO-min模型中的残差块被替换为快速连接块，将YOLO-min模型中的Darknet-53的残差块1、残差块2、残差块3的重复次数分别修改为2、3、7，得到YOLO-UAV+min模型。

3.根据权利要求2所述的基于深度卷积神经网络的钢轨伤损B显图像识别方法，其特征在于：YOLO V3的第一个尺度将输入图像划分为19×19个网格，每个网格的大小为32×32；第二个尺度在第一个尺度的基础上向上采样，将输入图像划分为38×38个网格，每个网格大小为16×16；在第二个尺度的基础上，第三个尺度进行上采样，将输入图像划分为76×76个网格，每个网格的大小为8×8；然后继续在第三尺度的基础上进行上采样，将输入图像划分为152×152个网格，每个网格的特征图大小为4×4，得到YOLO-min模型。

4.根据权利要求1所述的基于深度卷积神经网络的钢轨伤损B显图像识别方法，其特征在于：步骤七中，配置网络参数具体为：将输入的416×416尺寸的原始数据集重新调整为608×608，将每次输入的批量大小batch设置为16，同时将每批数据分成16份分开输入，即subdivisions＝16；将旋转角度angle、曝光度exposure、饱和度saturation、色度hue均设置为0；将初始学习率设置为0.001，衰减系数为0.0005，设置采用动量为0.949的异步随机梯度下降，在训练次数分别达到总次数的80％和90％时进行学习率衰减且每次衰减10倍，最终学习率衰减100倍。

5.根据权利要求1所述的基于深度卷积神经网络的钢轨伤损B显图像识别方法，其特征在于：步骤八中，YOLO-UAV+min模型训练方法为：将输入图像分割成S×S的网格，并在每个网格中进行检测；

Confidence＝Pr(object)×IOU(GT,pred)；

式中Box_GT表示实际边界框，Box_pred表示预测边界框；

6.根据权利要求1所述的基于深度卷积神经网络的钢轨伤损B显图像识别方法，其特征在于：YOLO-UAV+min模型的损失函数包括4个部分：

预测中心坐标的损失：

预测边界框的宽高的损失：

预测类别的损失：

预测置信度的损失：