CN115359306A

CN115359306A - 一种铁路货检高清图像智能识别方法和***

Info

Publication number: CN115359306A
Application number: CN202211298769.7A
Authority: CN
Inventors: 柴雪松; 谢为民; 张慧; 辛向党; 付峥锐; 于国丞; 时孝荣; 薛峰; 李晨冉; 柴永红
Original assignee: China Academy of Railway Sciences Corp Ltd CARS; Railway Engineering Research Institute of CARS; China Railway Lanzhou Group Co Ltd; China Railway Science and Technology Development Co
Current assignee: China Academy of Railway Sciences Corp Ltd CARS; Railway Engineering Research Institute of CARS; China Railway Lanzhou Group Co Ltd; China Railway Science and Technology Development Co
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2022-11-18
Anticipated expiration: 2042-10-24
Also published as: CN115359306B

Abstract

本发明涉及一种铁路货检高清图像智能识别方法和***，该方法包括如下步骤：（1）选取多个车型的货车拍摄货车场景图像，构建货车病害数据集；（2）获取待检测的货车过车图像；（3）基于全局多维度注意力机制对待检测的货车过车图像进行分类；（4）基于Faster‑RCNN深度学习神经网络，检测待检测的货车过车图像是否存在病害，并对病害进行定位；（5）识别病害。本发明涉及视觉技术在铁路货车病害识别中的应用，将深度神经网络技术与图像检测识别技术结合起来，应用于货车病害智能识别领域，可以克服传统货车病害图像检测识别技术的不足，能够解决传统货车病害检测识别中效率、成本、安全等问题。

Description

一种铁路货检高清图像智能识别方法和***

技术领域

本发明涉及视觉技术领域，特别涉及一种铁路货检高清图像智能识别方法和***。

背景技术

现有的货检识别工作主要以人工检测为主，例如，列车到站后，列检员需要从列车一端开始逐车进行现场检查，同时货检员通过查看视频及图片检查列车中存在的问题。该方法存在如下缺点：

（1）受主观影响大：该方法受列检员、货检员业务水平、安全意识以及身心状态等因素影响，可能导致漏检；

（2）检测效率低：人工货检工作劳动强度大、人力投入多且重复性强。

随着深度卷积神经网络（CNN）在计算机视觉领域的深入应用，基于区域建议（Region Proposal）的Faster-RCNN等算法在工业领域以及实际应用场景中发挥了很好的检测效果。但由于货物列车场景复杂，类型较多，例如：敞车、棚车以及罐车等，且不同的车型具有不同的病害场景，例如：敞车具有异物病害，棚车具有门开的病害以及罐车具有螺栓开的病害等。因此，上述对于不同车型的图片不加以区分直接使用深度卷积神经网络进行视觉方差较大的不同病害类型区域检测会降低检测的准确性。

因此，提供一种识别率较高、成本较低的货车病害检识别方法及***，是提升货检自动化水平，提升货检作业质量，促进铁路货运安全的重要一环。

发明内容

本发明要解决的技术问题是针对上述不足，提供一种铁路货检高清图像智能识别方法和***。

本发明是通过以下技术方案实现的：

一种铁路货检高清图像智能识别方法，该方法包括如下步骤：

（1）选取多个车型的货车拍摄货车场景图像，构建货车病害数据集；

（2）获取待检测的货车过车图像；

（3）基于全局多维度注意力机制对待检测的货车过车图像进行分类；

（4）基于Faster-RCNN深度学习神经网络，检测待检测的货车过车图像是否存在病害，并对病害进行定位；

（5）识别所述病害的类型。

进一步的，所述的铁路货检高清图像智能识别方法，该方法还包括如下步骤：

（6）将检测结果与识别结果反馈于所述深度学习神经网络，用于参数更新与自适应调整。

进一步的，所述的铁路货检高清图像智能识别方法，所述反馈采用以下损失函数：

，

其中，LOSS _cls为车型分类损失，LOSS _det为目标检测损失，

为超参，表示病害定位误差所占的权重；

其中，车型分类损失LOSS _cls采用交叉熵损失：

，

其中，

为预测标签，

为ground truth标签，N为样本数量；

其中，目标检测损失LOSS _det包括异物分类损失LOSS _cls-gc和边界框回归损失LOSS _box，

，

其中，

为第i个预设框的预测分类概率；当第i个预设框是正样本时，

；当第i个预设框是负样本时，

；

为第i个预设框预测边框的参数化坐标；

为第i个预设框的真实值边框的参数化坐标；

为迷你批大小；

为边框的数量；λ为边框回归损失的权重；

，R是

函数，

，其中，

为函数输入。

进一步的，所述的铁路货检高清图像智能识别方法，步骤（1）中，所述货车场景图像包括货车车型和病害标注边框。

进一步的，所述的铁路货检高清图像智能识别方法，步骤（1）还包括：对所述货车场景图像进行缩放、裁剪和/或翻转操作，获得货车场景图像数据增强增加样本集。

进一步的，所述的铁路货检高清图像智能识别方法，步骤（3）包括：对待检测的货车过车图像进行区域划分，对各区域图像进行位置编码，将各区域图像的位置编码信息与区域特征组合，计算多维度权重注意力，得到待检测的货车过车图像的全局特征并进行分类。

进一步的，所述的铁路货检高清图像智能识别方法，所述区域特征为：

，

其中，

为第i个区域特征，待检测的货车过车图像分成

个区域，

为图像特征的维度；

所述位置编码信息为：

，

其中，

为待检测的货车过车图像的宽度和高度，

、

分别为各区域图像的左上角和右下角的坐标；

所述将各区域图像的位置编码信息与区域特征组合是按照以下方式组合：

，

，

其中，

为第i个编码信息，

为含有位置信息的区域特征集合；

所述多维度权重注意力通过下式计算：

其中，

、

为含有随机丢弃的全连接层，

、

分别为

、

的参数，

为

激活函数；

所述全局特征通过下式得到：

。

进一步的，所述的铁路货检高清图像智能识别方法，步骤（4）包括：

使用RPN基于不同分类对待检测的货车过车图像中的病害进行粗定位，得到候选病害区域；

使用RCNN对所述候选病害区域进行筛选和精定位。

一种铁路货检高清图像智能识别***，该***包括：

构建模块，用于选取多个车型的货车拍摄货车场景图像，构建货车病害数据集；

获取模块，用于获取待检测的货车过车图像；

分类模块，用于基于全局多维度注意力机制对待检测的货车过车图像进行分类；

检测模块，用于基于Faster-RCNN深度学习神经网络，检测待检测的货车过车图像是否存在病害，并对病害进行定位；和

识别模块，用于识别所述病害的类型。

进一步的，所述的铁路货检高清图像智能识别***，该***还包括：

反馈模块，用于将检测结果与识别结果反馈于所述深度学习神经网络，用于参数更新与自适应调整。

本发明的优点与效果是：

（1）本发明提供的一种采用Keras深度学习框架铁路货检高清图像智能识别方法和***，其涉及视觉技术在铁路货车病害识别中的应用，将深度神经网络技术与图像检测识别技术结合起来，应用于货车病害智能识别领域，可以克服传统货车病害图像检测识别技术的不足，能够解决传统货车病害检测识别中效率、成本、安全等问题。

（2）本发明针对不同货车场景类别所在区域视觉差异较大且相同场景下的各个类别区域整体视觉内容较为相似的特性，提出一种基于全局多维度注意力机制的软件场景分类的方法对货车图像进行场景识别。与传统注意力相比，多维度注意力以向量的方式对图片的各个区域进行注意，可以进一步提升分类的准确率，保障了货检作业质量，促进了铁路货运安全。

（3）本发明将货车车型和货车病害类别识别统一到一个整体深度学习框架中，并在训练过程中同时结合基于全局多维度注意力机制的货车车型分类损失与基于Faster-RCNN网络的货车病害检测损失联合优化。实现自动识别出货车病害名称以及位置，实现货车病害的自动检测，减少了货车视频监控人员的工作量，提高了工作效率与准确率。

（4）本发明提出的铁路货检高清图像智能识别方法及***，该方法及***的工程化、实用化代表了图像识别领域最前沿的工程研究方向。

附图说明

图1为本发明提供的实施例中货车病害检测识别训练框架图；

图2a为本发明提供的实施例中货车车型为敞车的示例图；

图2b为本发明提供的实施例中货车车型为棚车的示例图；

图2c为本发明提供的实施例中货车车型为罐车的示例图；

图3为本发明提供的实施例中基于全局多维度注意力机制的货车车型分类网络示意图；

图4为本发明提供的实施例中区域分割示例图；

图5为本发明提供的实施例中基于Faster-RCNN网络构建的货车病害检测网络示意图；

图6、图7、图8为本发明提供的实施例中敞车病害检测结果示例；

图9、图10为本发明提供的实施例中棚车病害检测结果示例；

图11、图12、图13为本发明提供的实施例中罐车病害检测结果示例。

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行更加详细的描述。所描述的实施例是本发明的一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。下面结合附图对本发明的实施例进行详细说明：

深度学习：构建人工神经网络使得机器可以像人类一样具有听、看、思考等能力；其中深度指的是人工神经网络层数大。本发明是深度学习在视觉方面的应用，相当于教会机器来识别铁路货车中的病害（异物、车门开启、螺栓未入槽等）。

卷积神经网络（CNN）：具有卷积操作的人工神经网络，它是当前深度学习用于图像识别领域的最常见方法。卷积操作是从原始图像中提取特征的过程，生成多个不同大小、不同抽象程度的特征图，特征图可作为后续识别、定位的基础。

Faster-RCNN：是一种CNN模型，可对目标（在本发明中是货车病害）进行分类和定位，在工业界应用广泛，但还未在铁路货车病害图像识别中有应用。它由VGG + RPN + RCNN三部分组成。

RPN（区域建议网络）：是Faster-RCNN的一个组成部分，目的是从特征图中对不同形状、大小的病害在原图中进行粗定位。

RCNN网络：将RPN得到的粗定位结果进行微调得到精定位节结果。

VGG：即指VGG网络，是牛津Visual Geometry Group提出的网络结构。该网络结构是RPN网络的一部分，用于提取图像的特征。VGG16是一类VGG网络，16代表有16层。

Dropout：模型训练中减少运算量、防止过拟合的一个方法。训练模型相当于调整每一个参数的权重，但有时难免预设参数过多，导致人工神经网络学习到非目标的特征（即过拟合）。因此Dropout是每轮训练过程中，随机舍弃一些参数，从而减少运算量及过拟合现象。

Anchor：在训练前预设的不同形状、大小的边界框。

Ground truth：人工标记。例如人工标记的病害类别及病害位置。

Bounding Box：目标的边框。

Keras：最流行的开源深度学习框架之一，用来进行深度学习模型的设计、调试、评估、应用和可视化。

Anchor Location：预设框位置。

本发明提供的一种铁路货检高清图像智能识别方法包括如下步骤：

（1）选取多个车型的货车拍摄货车场景图像，构建货车病害数据集（包括病害图像、病害类别及位置）。

货车场景图像包括货车车型和病害标注边框。具体的是，货车病害数据集是通过铁路货车过车数据集的多组训练数据进行训练得到的，多组训练数据的每一组数据包括货车车型及货车病害图像中带有的病害标注边框。构造货车病害数据集时，选取不同的货车车型（如图2a、图2b、图2c所示）作为拍摄目标，比如可采用手机等常规移动设备拍摄货车过车场景。为保证数据的多样性，对某一具体场景目标区域拍摄时，要求在不同角度、焦距和光照等条件下拍摄多幅图像。人工筛选有效图像并对每一幅图像中的货车病害标注边框。

为进一步增加训练数据的多样性，对所述货车场景图像进行缩放、裁剪和/或翻转操作，获得货车场景图像数据增强增加样本集。具体的是：

缩放：例如，首先将短边缩放为224（分类检测任务的输入图像大小常常是224*224），长边同比例缩放。

裁剪：随后从缩放之后的图片中随机的裁剪224*244大小的区域。

翻转：然后对裁剪之后的图像进行随机水平翻转、随机颜色变化、随机仿射变换操作增加训练集图片的多样性。

（2）获取待检测的货车过车图像。

（3）基于全局多维度注意力机制对待检测的货车过车图像进行分类。

具体的是，如图3为本发明提供的实施例中基于全局多维度注意力机制的货车车型分类网络示意图.对待检测的货车过车图像进行区域划分，对各区域图像进行位置编码，将各区域图像的位置编码信息与区域特征组合，计算多维度权重注意力，得到待检测的货车过车图像的全局特征进行分类。

多维度注意力以向量的方式对图片的各个区域进行注意，并聚合得到全局特征。将含有异物的货车图片分成

个区域，区域特征函数：

，

其中，

为第i个区域特征，

为图像特征的维度，

代表实数集合。全局多维度注意力机制拟训练出一组多维度权重注意力来对所有区域进行关注，聚合得到图片的全局特征。

对位置进行编码，将位置信息添加入深度学习网络框架中。对于一张含有异物的货车图片

，其位置信息为

，

表示图像左上角的坐标，

表示图像的宽度和高度。如图4所示，本发明一实施例中拟将图分割为16个区域。

对于图片的每一个区域，左上角和右下角坐标分别为

、

。本发明一实施例中使用原图像的宽度和区域的左上角和右下角坐标来编码位置信息，如下：

，

其中，

为待检测的货车过车图像的宽度和高度，

、

分别为各区域图像的左上角和右下角的坐标。

然后，本发明一实施例中将位置编码信息与区域特征组合：

，

，

其中，

为第i个编码信息，

为含有位置信息的区域特征集合，

代表实数集合。

多维度权重注意力计算：

，

其中，

、

为含有随机丢弃的全连接层，

、

分别为

、

的参数，

为

激活函数。

Softmax函数将输入值变换为[0, 1]之间的值，公式为：

，类似于将各个输入e_i归一化到(0, 1)区间，这样后续可以将归一后的e_i作为多维度权重注意力大小。

Softmax_masked是掩蔽的softmax函数，是指定某些e_i为0，即掩蔽掉一些特征，将注意力放在主要特征上。

ELU激活函数是神经网络中一种神经元激活函数，其表达式为：

，其中，

为超参，本发明一实施例中

可取0.7，

为函数输入。

基于向量化的注意力权重

，本发明一实施例中计算全局特征，得到：

，用作车型分类。

sum_pooling函数是将输入特征图像按块求和并下采样的过程。

（4）基于Faster-RCNN深度学习神经网络，检测待检测的货车过车图像是否存在病害，并对病害进行定位。典型Faster-RCNN物体检测框架如图5所示。

使用RPN针对不同分类对病害在待检测的货车过车图像中进行粗定位，得到候选病害区域。具体的是，针对生成检测建议框的任务端到端地训练，直接预测出RegionProposal和分数。RPN网络的输入可以是任意大小（但还是有最小分辨率要求的，例如VGG网络输入是228*228）的图片。如果用VGG16进行特征提取，那么RPN网络的组成形式可以表示为VGG16+RPN。本发明一实施例中拟采用RPN候选框提取模块针对不同的场景提取可能的病害矩形区域。

使用RCNN对候选病害区域进行筛选和精定位。具体的是，Faster-RCNN检测模块是一个普通的RCNN网络，用于对RPN网络得到的候选框的筛选与精定位。检测包含深度特征提取、候选区域分类、候选目标区域矩形框坐标回归等步骤。本发明一实施例中拟采用此检测模块对异物区域进行精确定位以提取出有效子图像用于下一步的病害识别。

（5）识别病害的类型。

具体的是，利用货车病害数据集对待检测货车过车图像进行分类后，在对其是否具有病害、病害的定位及类型进行识别，从而得到识别结果。识别结果包括图像中是否有病害、病害类别及位置等。图6、图7、图8为敞车病害检测结果示例，图9、图10为棚车病害检测结果示例，图11、图12、图13为罐车病害检测结果示例。

（6）将检测结果与识别结果反馈于深度网络输入，用于深度网络的参数更新与自适应调整。

具体的是，反馈损失：

，

其中，

为超参，表示病害定位误差所占的权重。本发明一实施例中选取

。

①车型分类损失采用交叉熵损失：

，

其中，

为预测标签，

为ground truth标签，N为样本数量；

②目标检测损失包括异物分类损失和边界框回归损失，

，

；

其中，

；当第i个预设框是负样本时，

；

为第i个预设框预测边框的参数化坐标；

为第i个预设框的真实值边框的参数化坐标；

为迷你批大小，训练时会将训练集图片分批送入网络进行训练，迷你批大小为每次送入网络的图片数量；

为边框的数量；λ为边框回归损失的权重，调节边界框回归损失占总损失的比例；

，R是

函数，

函数是一种损失函数，描述真实值与预测值之间的差距，其表达式为：

，其中，

为函数输入。

本发明提供的对应上述铁路货检高清图像智能识别方法的***包括构建模块、获取模块、分类模块、检测模块、识别模块和反馈模块。构建模块用于选取多个车型的货车拍摄货车场景图像，构建货车病害数据集。获取模块用于获取待检测的货车过车图像。分类模块用于基于全局多维度注意力机制对待检测的货车过车图像进行分类。检测模块用于基于Faster-RCNN网络架构检测待检测的货车过车图像是否存在病害，并对病害进行定位。识别模块，用于病害识别。反馈模块用于将检测结果与识别结果反馈于深度网络输入，用于深度网络的参数更新与自适应调整。

虽然在上述详细说明中已经介绍了至少一个示例实施方式，但是应当理解存在许多变化。也应当理解本文中描述的一个或多个示例实施方式不旨在以任何方式限制本主题的范围、适用性、或配置。相反，上述详细说明将为本领域中的技术人员提供用于实现描述的一个实施方式或多个实施方式的便利路线图。应当理解，在没有偏离权利要求定义的范围的情况下，在元件的功能和排列方面可以进行各种变化，其包括在申请本专利申请时已知的等同物和可预知的等同物。

在本文中使用的术语和短语和其变体，除非另外明确地陈述，否则应当解释为开放式的，而不是限制性的。作为上述的实例：术语“包括”应当理解为“包括，但不限于”等；术语“实例”用于提供所讨论项目的示例性实例，而不是其穷尽的或限制的清单；并且形容词诸如“惯用的”、“传统的”、“常规的”、“标准的”、“已知的”和类似含义的术语不应当解释为将描述的项目限制为特定时期的项目或特定时间可获得的项目，而是应当理解为包含现在或在将来任何时候可以获得或已知的惯用的、传统的、常规的、或标准的技术。

以上实施例仅用以说明本发明的技术方案，并非用来限定本发明的实施范围。但凡在本发明的保护范围内所做的等效变化及修饰，皆应认为落入了本发明的保护范围内。