CN109948690A

CN109948690A - 一种基于深度学习和结构信息的高铁场景感知方法

Info

Publication number: CN109948690A
Application number: CN201910193175.1A
Authority: CN
Inventors: 李兆洋; 罗建桥; 李柏林; 程洋
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-06-28

Abstract

本发明公开了一种基于深度学习和结构信息的高铁场景感知方法，包括以下：步骤1：获取轨道图像，分为训练集和测试集，对训练集中的图像进行标注形成数据集；步骤2：构建SSD网络模型，并构造损失函数；步骤3：采用步骤1形成的数据集，对步骤2得到的网络进行迭代训练得到训练模型；步骤4：对需要检测感知的视频按帧输入到步骤3得到的训练模型中，提取特征，得到扣件和挡肩的位置和类别信息，根据扣件和挡肩的位置和类别信息区分道岔和普通轨道；步骤5：分别对步骤4中定位结果的位置信息进行聚类，完成钢轨和轨枕的感知；本发明可对道岔区域的轨道部件进行检测和语义分割，检测精度高，检测速度快。

Description

一种基于深度学习和结构信息的高铁场景感知方法

技术领域

本发明涉及基于图像处理的轨道部件检测方法，具体涉及一种基于深度学习和结构信息的高铁场景感知方法。

背景技术

铁路交通运输作为社会经济发展的重要支撑、人民生活中不可或缺的交通工具，在整个社会发展中具有举足轻重的作用；特别是针对我国幅员辽阔、人口流动量大、资源分布不均衡等因素；铁路运输以其运能大、运输成本低、占地面积相对较少等优点，在各类公共交通工具中占据绝对的优势；随着中国铁建设的推进，国家计划到2020年，中国高速铁路营运里程将达到3万公里，高速铁路网覆盖80％以上的大城市。

铁轨设备的维护与检测是铁路交通技术中备受关注的问题，也是现阶段投入研发资金最多的项目之一；其中，高铁轨道主要由扣件、钢轨、轨枕、轨道板等构成，传统检测方法由经验丰富的巡道工完成，工人定期沿线路巡查，发现并报告异常部件；人工检测的劳动强度很大、工作环境非常恶劣，线上行驶车辆对检测员工的人身安全也构成潜在威胁；传统的铁路巡检方法已难以满足如今高速铁路运营的发展需要。

随着机器视觉的发展，基于图像的线路视觉检测技术受到越来越多的重视，但传统的视觉检测方法通常只检测某一单独部件的问题，并没有将扣件、钢轨和轨枕等进行分别感知；但是各轨道部件是有机的联合在一起的，对于各个轨道部件的感知非常有必要；通常传统的视觉检测方法采用模板匹配的方式，在高铁轨道的道岔处，由于轨道部件结构的不同，基本无法进行检测和感知。

发明内容

本发明提供一种可对道岔区域的轨道部件进行检测和语义分割的基于深度学习和结构信息的高铁场景感知方法。

本发明采用的技术方案是：一种基于深度学习和结构信息的高铁场景感知方法，包括以下：

步骤1：获取轨道图像，分为训练集和测试集，对训练集中的图像进行标注形成数据集；

步骤2：构建SSD网络模型，并构造损失函数；

步骤3：采用步骤1形成的数据集，对步骤2得到的网络进行迭代训练得到训练模型；

步骤4：对需要检测感知的视频按帧输入到步骤3得到的训练模型中，提取特征，得到扣件和挡肩的位置和类别信息，根据扣件和挡肩的位置和类别信息区分道岔和普通轨道；

步骤5：分别对步骤4中定位结果的位置信息进行聚类，完成钢轨和轨枕的感知。

进一步的，所述步骤4中提取特征，得到扣件和挡肩的位置和类别信息的过程如下：

在输入训练模型的每一帧图像中随机选取整幅图像的多个区域；通过卷积获取每个区域的评分；若评分值大于设定阈值则判断为扣件和挡肩；若评分值小于设定阈值则丢弃该结果，遍历所有区域，则将扣件和挡肩标注完成，得到位置和类别信息。

进一步的，所述步骤5中通过DBSCAN算法进行聚类。

进一步的，所述聚类过程如下：

S1：设置步骤4检测到的目标的x方向坐标位置D，半径eps和密度阈值Minpts；

S2：任意选定一个目标p；

S3：判断其是否已经属于某个簇或已经成为噪声点，若是则返回步骤S2，若否则转入步骤S4；

S4：判断p的邻域范围的点是否小于Minpts，若是则标记p为噪声点，转入步骤S2；若否则转入步骤S5；

S5：遍历p邻域半径范围内未被标记的点q；

S6：判断q的邻域范围的点是否小于Minpts，若是则转入步骤S5，若否则转入步骤S7；

S7：将q邻域内未归入其他簇的点加入到集合C中，结束。

进一步的，所述步骤3中训练过程中通过杰卡德系数计算每一个先验框与真实框之间的相似度，若相似度大于设定阈值则列入候选名单，否则不列入候选名单。

进一步的，所述步骤2中将原有SSD模型的参数信息作为要训练的新模型的初始化参数。

进一步的，所述步骤1中按照VOC数据集格式制作数据集。

进一步的，所述步骤2中损失函数L(x,c,l,g)如下：

式中：N为匹配到真实目标的先验框的数量，L_conf(x,c)为置信损失函数，L_loc(x,l,g)位置损失函数，l为先验框，g为真实框，c为Softmax函数对每类别的置信度，α为用于调整位置损失和置信损失之间比例的参数，x为中心坐标。

进一步的，所述步骤5中钢轨的感知过程如下：

S21：以图片左上角为坐标原点，横坐标和纵坐标分别向右向下增大，x方向坐标为特征将步骤4得到的目标聚成n类；

S22：根据步骤S21中的聚类结果和步骤4中得到的扣件和挡肩的位置信息，分别将每一类中y坐标最小和最大的框出的左侧或右侧横坐标位置信息连接起来；中间所夹即为钢轨位置。

进一步的，所述步骤5中轨枕的感知过程如下：

S31：以图片左上角为坐标原点，横坐标和纵坐标分别向右向下增大，y方向坐标为特征将步骤4得到的目标聚成m类；

S32：根据步骤S31的聚类结果和先验信息，选取一行轨枕，在每一个扣件纵坐标上、或下k个像素到边界处的区域；

S33：将步骤S32截取区域进行投影，根据先验信息寻找投影图中梯度大于一定阈值的点，得到边界点，完成对轨枕位置的感知。

本发明的有益效果是：

(1)本发明方法将深度学习、聚类和先验信息等算法结合，既保证了检测的精度，也满足一定的速度，可达到实时检测的目的；

(2)本发明采用深度学习的算法，具有较强的鲁棒性，不易受光照、噪声的影响，后期采用聚类的方式，可以剔除掉异常点；

(3)本发明由于采用了先验信息，能够较好的提高检测精度和检测速度；

(4)本发明解决了传统视觉检测方法无法对道岔区域的轨道部件进行检测和语义分割的问题。

附图说明

图1为本发明中采用的SSD网络模型的框架结构图。

图2为本发明中采集到的图像示例图，a为普通轨道，b为道岔轨道。

图3为本发明中采集到的图像中的目标一和目标二示例图，a为普通轨道，b为道岔轨道。

图4为本发明中数据集制作过程示意图。

图5为本发明中实施例中道岔钢轨区域扣件和挡肩的聚类结果示意图。

图6为本发明中DBSCAN聚类算法流程示意图。

图7为本发明实施例中钢轨的感知结果示意图，a为普通轨道，b为道岔轨道。

图8为本发明实施例中道岔轨枕区域扣件和挡肩的聚类结果示意图。

图9为本发明实施例中道岔轨枕边界识别结果示意图。

图10为图9中A区域轨枕投影结果示意图。

图11为本发明实施例中普通轨枕边界识别结果示意图，a为垂直投影，b为水平投影。

图12为图11中垂直投影结果示意图。

图13为本发明方法流程示意图。

图14为本发明实施例感知结果示意图，a为普通轨道，b为道岔轨道。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图13所示，一种基于深度学习和结构信息的高铁场景感知方法，包括以下：

步骤2：构建SSD网络模型，并构造损失函数；

步骤3：采用步骤1形成的数据集，对步骤2得到的网络进行迭代训练得到训练模型；将原有SSD模型的参数信息作为要训练的新模型的初始化参数；训练过程中通过杰卡德系数计算每一个先验框与真实框之间的相似度，若相似度大于设定阈值则列入候选名单，否则不列入候选名单。

损失函数L(x,c,l,g)如下：

步骤4：对需要检测感知的视频按帧输入到步骤3得到的训练模型中，提取特征，得到扣件和挡肩的位置和类别信息，根据扣件和挡肩的位置和类别信息区分道岔和普通轨道。

通过DBSCAN算法进行聚类，聚类过程如下：

S2：任意选定一个目标p；

S5：遍历p邻域半径范围内未被标记的点q；

S7：将q邻域内未归入其他簇的点加入到集合C中，结束。

钢轨的感知过程如下：

轨枕的感知过程如下：

本发明中采用SSD网络模型对扣件进行检测，传统的目标检测方法包括光流法、背景建模法等；光流法通过灰度图像中像素的运动矢量来提取和跟踪物体，具有较高的检测精度，但抗噪能力差；背景建模法通过对当前帧与背景模板之间的差值做阈值化处理来提取出运动区域，但由于轨道上由于天气的因素光照，阴影的变化较大，会出现误检的现象；由于道岔处扣件结构的不同，传统目标检测的方法无法对道岔处的扣件进行检测；目前，深度学习中的目标检测方法包括Faster R-CNN、YOLO(you look only once)、SSD(singleshot multibox detector)等；Faster R-CNN的目标检测准确率很高，但速度较慢，不适用于实时检测；YOLO目标检测的速度很快，但准确率差；SSD结合了YOLO中的回归思想和Faster R-CNN中的选框机制，使用全图各个位置的多尺度区域特征进行回归，既保持了YOLO速度快的特性，也保证了窗口预测的跟Faster R-CNN一样比较精准。

SSD框架结构如图1所示，前段采用VGG-16图像分类模型的前五层作为基础网络；后两个全连接层转化成两个卷积层，再格外增加了三个卷积层和一个平均池化层；给定一个输入图像和一组真实标签，其中真实标签包括目标的类别和位置信息；通过SSD中一系列卷积层传递图像，在不同的尺度上产生几个不同的特征映射。

训练过程中，检测框架的总体目标损失函数如下所示：

式中：N为匹配到真实目标的先验框的数量，L_conf(x,c)为置信损失函数，L_loc(x,l,g)位置损失函数，l为先验框，g为真实框，c为Softmax函数对每类别的置信度，α为用于调整位置损失和置信损失之间比例的参数，默认为1，x为中心坐标。置信度损失是希望预测的类别更加准确，位置损失希望预测的边界框和先验框的差距尽可能跟真实框和先验框的差距接近，这样预测的边界框就能尽量和真实框一样。

在训练过程中，通过杰卡德系数(下式)来计算每一个先验框与真实框之间的相似度，阈值大于0.5时，才可以列为候选名单；假设选择出来N个阈值大于0.5的框，令i表示第i个预测框，j表示第j个真实框，p表示第p类，则表示第i个预测框与类别p的第j个真实框相匹配的杰卡德系数；若不匹配，则

训练模型

首先需要准备数据集，在轨道车下安装摄像机，随着轨道车在轨道上运行，相机对轨道进行设想，在视频中获取轨道图像如图2所示；其中普通轨道图像5000张，道岔处轨道图像3000张；按照八比二的比例分配训练集和测试集，即训练集共6400张，测试集1600张。

与目标分类不同，SSD的训练样本需要手动标定，因此训练图片都是包含扣件等位置信息的图片。对于普通轨道和道岔处的轨道，轨道的扣件和轨枕挡肩结构不同，如图3所示；因此将普通轨道与道岔轨道处的扣件和挡肩分为两类不同的目标类别，将普通轨道处的扣件及挡肩确定为目标一，道岔轨道处的扣件和挡肩确定为目标二；对不同的目标分别进行位置标注，并获取标注位置、类别信息。

因为标定的数据量道岔轨道只有3000张，在庞大的神经网络参数面前显得非常少，如果从头开始训练SSD网络的话，参数不好调整并且特征提取泛化能力不强；因此在训练SSD神经网络时利用迁移学习技术，将原有模型的参数信息作为要训练的新模型的初始化参数。

另外原有模型采用PASCAL VOC数据集，因此训练时，也需要按照VOC数据集格式制作数据集，建立Railway，在Railway文件夹下建立Annotations、ImageSets、JPEGImages三个文件夹；在Annotations文件夹下放入训练和测试用的标注信息，包括目标的类别和目标的位置信息；在ImageSets文件夹下建立Main文件夹，并放入训练和测试的文本信息，即训练和测试的图像位置和图像编号；JPEGImages文件夹下放入所有的图片，其结构如图4所示。

将标注好的训练数据集放入到SSD神经网络模型下进行迭代训练，初始学习率为0.001,25000次循环后学习率调整为0.0001,40000次循环后学习率调整为0.00001,60000次循环后终止训练；参数衰减值为0.0005，动量因子为0.9；获取道岔和普通轨道下扣件和轨枕挡肩分类模型和参数，从而输出最终的训练模型。

感知和检测

将需要感知检测的视频按帧输入到训练好的模型中，在输入的每一帧图像中，该模型随机选取整幅图像的多个区域，并采用卷积的方式对每个区域进行打分；设定一个阈值为0.8，令每一个区域的得分分别与阈值对比，若得分高于阈值，则判断为扣件和挡肩，若得分小于阈值则丢弃该结果，直到整幅图中的扣件和挡肩全部被标注出，输出最终的位置和类别信息。输出的信息如A{a1,a2,a3,…an}，n为输出数量，其中a1＝{c,x,y,w,h}，c表示输出的类别，x和y分别表示输出框的起点坐标信息，w和h分别表示输出框的宽度和高度。

由于普通轨道和道岔处的扣件和挡肩的不同，在SSD输出感知到的所有扣件和挡肩后，可以根据扣件和挡肩的类别来确定轨道的类型；由空间关系可以知道，无论是在道岔处还是普通轨道处，扣件和挡肩都在钢轨两侧且有四列，如图4中A1、A2、A3、A4；因此，通过目标的位置可以确定钢轨的区域，即在A1列和A2列，A3列和A4列间；在A1～A4每一列中，目标的x坐标基本相同；因此，以目标的x列坐标为特征，采用聚类的方法将目标a1～a17自动划分出A1、A2、A3、A4四个类别。

聚类是将数据的集合分组成为不同簇或类的过程，每个簇或类中的数据特征相较于不同的类或簇中的数据特征有较高的相似性；常见的聚类方法包括K-means算法、AGNES算法、DBSCAN算法等等；K-means的优点易实现且运算速度快，但同时类的数目需要人工设定；AGNES算法可伸缩性差，计算复杂度高；DBSCAN算法在聚类过程中对聚类对象无形状、大小的约束，在聚类前也不需要聚类的个数，有较好的噪声抵抗性；如图5所示，图中a5框处的扣件和挡肩为异常点，通过DBSCAN算法可以有效去除这种噪点；因此为了保证后续分割的准确性，对扣件和挡肩的横坐标进行聚类，将扣件和挡肩聚成四类，剔除掉SSD检测到的可能存在错误的扣件和挡肩。

DBSCAN算法需要设置两个参数，即半径eps和密度阈值Minpts；半径eps的值限定了核心点的搜索范围，密度阈值Minpts决定了最终形成的簇中包含数据点的最小数数目；不同的半径eps对聚类结果影响较大，较大时两个甚至多个不同列的扣件和挡肩被误合成一个簇，半径较小时同一列的扣件和挡肩会被聚合成两个簇，通过实验确定半径eps为50；对于密度阈值Minpts，通过对大量轨道图像的观察，每一列扣件和挡肩的数目至少为4，所以密度阈值Minpts设为4。

如图5所示，以图中左上角为坐标原点，横坐标和纵坐标分别向右向下增大，以目标x方向坐标为特征，将目标a1～a17聚类成4类A1{a1,a2,a3,a4}、A2{a6,a7,a8,a9}、A3{a10,a11,a12,a13}、A4{a14,a15,a16,a17}，剔除掉a5异常点；同理，非道岔区域的普通轨道处也聚类成四类；DBSCAN算法的流程示意图如图6所示，对于钢轨的感知来说，D为输入的一幅图中所有SSD检测到目标的x方向坐标位置，p为任选其中的一个目标。

基于扣件-钢轨空间关系的钢轨区域感知

在完成对扣件和挡肩的聚类后，通过先验信息可以了解到，无论是在普通轨道处还是再道岔处，钢轨都是固定在扣件和挡肩中间的，且钢轨的边界和一列扣件的边界连接是平行的；如图7所示，通过以上聚类中扣件和挡肩的位置信息，将A1类中y坐标最小的a1和y坐标最大的a4框出的右侧横坐标位置信息；A2类中y坐标最小的a5和y坐标最大的a8框出的左侧横坐标位置信息分别连接起来并贯穿整幅图，中间所加夹即为坐标钢轨的位置信息；同理，右侧的钢轨定位则通过a9和a12框出右侧横坐标位置信息；a13和a16框出的左侧横坐标位置信息连接并贯穿整幅图，从而完成对右侧钢轨的感知。

基于扣件-轨枕空间关系的轨枕感知

轨枕的y坐标相似，如图8所示；以目标的y坐标为特征对检测出的目标进行聚类，可以得到图像中的轨枕；由于每幅图中的轨枕的数量可能会不同，而DBSCAN算法在聚类过程中对聚类对象无形状、大小的约束，在聚类前也不需要聚类的个数，有较好的噪声抵抗性；因此采用DBSCAN算法对SSD中检测出的扣件和挡肩的纵坐标进行聚类，不同的轨枕数，聚成的类别不同；图8中，聚成四类，分别为B1、B2、B3、B4；通过实验确定半径eps为25，对于密度阈值Minpts，通过对大量轨道图像的观察，每张图中轨枕的数目最少为4，所以密度阈值Minpts设为4。

道岔处的轨枕为长轨枕如图9所示，因此，感知的方式与普通轨道处不同，长轨枕在轨道的中间部分是一体的，即在二三两列的扣件和挡肩中，而在第一列扣件和挡肩的左侧，第四列扣件和挡肩的右侧存在轨枕的边界；以第一行轨枕为例，通过先验信息，轨枕的上下边界在相对于扣件的纵坐标的上下三十个像素内，截取b1扣件纵坐标上下三十个像素到左侧图像边界处为区域A；分别截取b5和b9中相对于扣件纵坐标上下三十个像素的区域为B；截取b13扣件纵坐标上下三十个像素到右侧图像边界处为区域C。

由于轨枕的边界一般呈水平或垂直方向分布，因此对图像向竖直方向投影所得向量图将很好的反映轨枕边界的分布特性，这样也把二维矩阵将为一维矩阵，减少了计算量；投影运算公式如下所示：

其中，I(x,y)为划分出的轨枕边界区域图像，w为图像宽度，h为该图像的宽度，V即为投影得到的一维向量；对B区域进行横向的投影，从而判断出轨枕的横向边界；对区域A和C进行纵向和横向的投影，从而判断出轨枕的横向边界和纵向边界，如图9所示。

以区域A为例，区域A投影的结果如图10所示，通过先验信息了解到A区域的纵向边界肯定在图的左侧；因此在图a中，从左至右寻找第一个梯度大于一定阈值的点，即图中所圈出的点；同理，对于轨枕的横向边界，即在A区域中上至下寻找边界，反映到图b中即为从左至右依次寻找梯度大于一定阈值的第一个点为上边界，最后一个点为下边界。从而通过确定轨枕的边界完成对道岔轨枕位置的感知。

由于普通轨道和道岔处轨枕的结构不同，因此，对于不同轨道轨枕的感知方式也不同；对于普通轨道，一般使用的是双块式轨枕，由SSD中框出的是扣件和轨枕挡肩即为轨枕的大部分；但第二列轨枕一般向右延伸一段，第三列轨枕一般向左延伸一段，对此，通过采用投影的方式来判断轨枕的边界。

通过聚成4类如图11所示，每一类中，x坐标第二大的扣件和挡肩b5框出的右侧位置，向右延伸至中线分割出左边轨枕边界可能存在的图像；同理，通过每一类中x坐标第三大的扣件和挡肩b9框出的左侧位置，向左延伸至中间分割出右边轨枕边界可能存在的图像。

在轨枕边界区域的垂直投影如图12所示，梯度满足一定阈值的点即为轨枕的边界，通过对普通轨枕边界的确定完成对轨枕的感知。

传统视觉检测方法无法对整幅高铁轨道进行语义分割和感知，只能检测单个轨道部件，无法将轨道中已有的先验信息(各轨道部件间的位置关系)有效的利用；对于道岔问题，由于道岔处的轨道部件和正常轨道处的不同，传统模板匹配的方式基本无法解决道岔处轨道部件的感知；本发明基于现有检测方法存在的问题，采用深度学习、聚类和先验信息等算法的结合，既保证了检测的精度，也满足一定的速度，达到实时检测的目的；前期目标的定位采用深度学习的算法，具有较强的鲁棒性，不易受光照、噪声的影响，后期采用聚类的方式，剔除掉异常点；由于采用先验信息，能够提高检测精度和检测速度；解决了传统视觉检测方法无法对道岔区域的轨道部件进行检测和语义分割的问题。

Claims

1.一种基于深度学习和结构信息的高铁场景感知方法，其特征在于，包括以下：

步骤2：构建SSD网络模型，并构造损失函数；

步骤4：对需要检测感知的视频按帧输入到步骤3得到的训练模型中，提取特征，得到扣件和挡肩的位置和类别信息，根据扣件和挡肩的位置和类别信息区分道岔轨道和普通轨道；

2.根据权利要求1所述的一种基于深度学习和结构信息的高铁场景感知方法，其特征在于，所述步骤4中提取特征，得到扣件和挡肩的位置和类别信息的过程如下：

3.根据权利要求1所述的一种基于深度学习和结构信息的高铁场景感知方法，其特征在于，所述步骤5中通过DBSCAN算法进行聚类。

4.根据权利要求3所述的一种基于深度学习和结构信息的高铁场景感知方法，其特征在于，所述聚类过程如下：

S2：任意选定一个目标p；

S5：遍历p邻域半径范围内未被标记的点q；

S7：将q邻域内未归入其他簇的点加入到集合C中，结束。

5.根据权利要求1所述的一种基于深度学习和结构信息的高铁场景感知方法，其特征在于，所述步骤3中训练过程中通过杰卡德系数计算每一个先验框与真实框之间的相似度，若相似度大于设定阈值则列入候选名单，否则不列入候选名单。

6.根据权利要求1所述的一种基于深度学习和结构信息的高铁场景感知方法，其特征在于，所述步骤2中将原有SSD模型的参数信息作为要训练的新模型的初始化参数。

7.根据权利要求1所述的一种基于深度学习和结构信息的高铁场景感知方法，其特征在于，所述步骤1中按照VOC数据集格式制作数据集。

8.根据权利要求1所述的一种基于深度学习和结构信息的高铁场景感知方法，其特征在于，所述步骤2中损失函数L(x,c,l,g)如下：

9.根据权利要求3所述的一种基于深度学习和结构信息的高铁场景感知方法，其特征在于，所述步骤5中钢轨的感知过程如下：

10.根据权利要求3所述的一种基于深度学习和结构信息的高铁场景感知方法，其特征在于，所述步骤5中轨枕的感知过程如下：