CN115359306A - 一种铁路货检高清图像智能识别方法和*** - Google Patents
一种铁路货检高清图像智能识别方法和*** Download PDFInfo
- Publication number
- CN115359306A CN115359306A CN202211298769.7A CN202211298769A CN115359306A CN 115359306 A CN115359306 A CN 115359306A CN 202211298769 A CN202211298769 A CN 202211298769A CN 115359306 A CN115359306 A CN 115359306A
- Authority
- CN
- China
- Prior art keywords
- truck
- disease
- image
- loss
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000007689 inspection Methods 0.000 title claims abstract description 32
- 201000010099 disease Diseases 0.000 claims abstract description 79
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 79
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 238000013135 deep learning Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 26
- 238000010276 construction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000000007 visual effect Effects 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种铁路货检高清图像智能识别方法和***,该方法包括如下步骤:(1)选取多个车型的货车拍摄货车场景图像,构建货车病害数据集;(2)获取待检测的货车过车图像;(3)基于全局多维度注意力机制对待检测的货车过车图像进行分类;(4)基于Faster‑RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位;(5)识别病害。本发明涉及视觉技术在铁路货车病害识别中的应用,将深度神经网络技术与图像检测识别技术结合起来,应用于货车病害智能识别领域,可以克服传统货车病害图像检测识别技术的不足,能够解决传统货车病害检测识别中效率、成本、安全等问题。
Description
技术领域
本发明涉及视觉技术领域,特别涉及一种铁路货检高清图像智能识别方法和***。
背景技术
现有的货检识别工作主要以人工检测为主,例如,列车到站后,列检员需要从列车一端开始逐车进行现场检查,同时货检员通过查看视频及图片检查列车中存在的问题。该方法存在如下缺点:
(1)受主观影响大:该方法受列检员、货检员业务水平、安全意识以及身心状态等因素影响,可能导致漏检;
(2)检测效率低:人工货检工作劳动强度大、人力投入多且重复性强。
随着深度卷积神经网络(CNN)在计算机视觉领域的深入应用,基于区域建议(Region Proposal)的Faster-RCNN等算法在工业领域以及实际应用场景中发挥了很好的检测效果。但由于货物列车场景复杂,类型较多,例如:敞车、棚车以及罐车等,且不同的车型具有不同的病害场景,例如:敞车具有异物病害,棚车具有门开的病害以及罐车具有螺栓开的病害等。因此,上述对于不同车型的图片不加以区分直接使用深度卷积神经网络进行视觉方差较大的不同病害类型区域检测会降低检测的准确性。
因此,提供一种识别率较高、成本较低的货车病害检识别方法及***,是提升货检自动化水平,提升货检作业质量,促进铁路货运安全的重要一环。
发明内容
本发明要解决的技术问题是针对上述不足,提供一种铁路货检高清图像智能识别方法和***。
本发明是通过以下技术方案实现的:
一种铁路货检高清图像智能识别方法,该方法包括如下步骤:
(1)选取多个车型的货车拍摄货车场景图像,构建货车病害数据集;
(2)获取待检测的货车过车图像;
(3)基于全局多维度注意力机制对待检测的货车过车图像进行分类;
(4)基于Faster-RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位;
(5)识别所述病害的类型。
进一步的,所述的铁路货检高清图像智能识别方法,该方法还包括如下步骤:
(6)将检测结果与识别结果反馈于所述深度学习神经网络,用于参数更新与自适应调整。
进一步的,所述的铁路货检高清图像智能识别方法,所述反馈采用以下损失函数:
其中,车型分类损失LOSS cls 采用交叉熵损失:
其中,目标检测损失LOSS det 包括异物分类损失LOSS cls-gc 和边界框回归损失LOSS box ,
其中,为第i个预设框的预测分类概率;当第i个预设框是正样本时,;当第i个预设框是负样本时,;为第i个预设框预测边框的参数化坐标;为第i个预设框的真实值边框的参数化坐标;为迷你批大小;为边框的数量;λ为边框回归损失的权重; ,R是函数,
进一步的,所述的铁路货检高清图像智能识别方法,步骤(1)中,所述货车场景图像包括货车车型和病害标注边框。
进一步的,所述的铁路货检高清图像智能识别方法,步骤(1)还包括:对所述货车场景图像进行缩放、裁剪和/或翻转操作,获得货车场景图像数据增强增加样本集。
进一步的,所述的铁路货检高清图像智能识别方法,步骤(3)包括:对待检测的货车过车图像进行区域划分,对各区域图像进行位置编码,将各区域图像的位置编码信息与区域特征组合,计算多维度权重注意力,得到待检测的货车过车图像的全局特征并进行分类。
进一步的,所述的铁路货检高清图像智能识别方法,所述区域特征为:
所述位置编码信息为:
所述将各区域图像的位置编码信息与区域特征组合是按照以下方式组合:
所述多维度权重注意力通过下式计算:
所述全局特征通过下式得到:
进一步的,所述的铁路货检高清图像智能识别方法,步骤(4)包括:
使用RPN基于不同分类对待检测的货车过车图像中的病害进行粗定位,得到候选病害区域;
使用RCNN对所述候选病害区域进行筛选和精定位。
一种铁路货检高清图像智能识别***,该***包括:
构建模块,用于选取多个车型的货车拍摄货车场景图像,构建货车病害数据集;
获取模块,用于获取待检测的货车过车图像;
分类模块,用于基于全局多维度注意力机制对待检测的货车过车图像进行分类;
检测模块,用于基于Faster-RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位;和
识别模块,用于识别所述病害的类型。
进一步的,所述的铁路货检高清图像智能识别***,该***还包括:
反馈模块,用于将检测结果与识别结果反馈于所述深度学习神经网络,用于参数更新与自适应调整。
本发明的优点与效果是:
(1)本发明提供的一种采用Keras深度学习框架铁路货检高清图像智能识别方法和***,其涉及视觉技术在铁路货车病害识别中的应用,将深度神经网络技术与图像检测识别技术结合起来,应用于货车病害智能识别领域,可以克服传统货车病害图像检测识别技术的不足,能够解决传统货车病害检测识别中效率、成本、安全等问题。
(2)本发明针对不同货车场景类别所在区域视觉差异较大且相同场景下的各个类别区域整体视觉内容较为相似的特性,提出一种基于全局多维度注意力机制的软件场景分类的方法对货车图像进行场景识别。与传统注意力相比,多维度注意力以向量的方式对图片的各个区域进行注意,可以进一步提升分类的准确率,保障了货检作业质量,促进了铁路货运安全。
(3)本发明将货车车型和货车病害类别识别统一到一个整体深度学习框架中,并在训练过程中同时结合基于全局多维度注意力机制的货车车型分类损失与基于Faster-RCNN网络的货车病害检测损失联合优化。实现自动识别出货车病害名称以及位置,实现货车病害的自动检测,减少了货车视频监控人员的工作量,提高了工作效率与准确率。
(4)本发明提出的铁路货检高清图像智能识别方法及***,该方法及***的工程化、实用化代表了图像识别领域最前沿的工程研究方向。
附图说明
图1为本发明提供的实施例中货车病害检测识别训练框架图;
图2a为本发明提供的实施例中货车车型为敞车的示例图;
图2b为本发明提供的实施例中货车车型为棚车的示例图;
图2c为本发明提供的实施例中货车车型为罐车的示例图;
图3为本发明提供的实施例中基于全局多维度注意力机制的货车车型分类网络示意图;
图4为本发明提供的实施例中区域分割示例图;
图5为本发明提供的实施例中基于Faster-RCNN网络构建的货车病害检测网络示意图;
图6、图7、图8为本发明提供的实施例中敞车病害检测结果示例;
图9、图10为本发明提供的实施例中棚车病害检测结果示例;
图11、图12、图13为本发明提供的实施例中罐车病害检测结果示例。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。所描述的实施例是本发明的一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合附图对本发明的实施例进行详细说明:
深度学习:构建人工神经网络使得机器可以像人类一样具有听、看、思考等能力;其中深度指的是人工神经网络层数大。本发明是深度学习在视觉方面的应用,相当于教会机器来识别铁路货车中的病害(异物、车门开启、螺栓未入槽等)。
卷积神经网络(CNN):具有卷积操作的人工神经网络,它是当前深度学习用于图像识别领域的最常见方法。卷积操作是从原始图像中提取特征的过程,生成多个不同大小、不同抽象程度的特征图,特征图可作为后续识别、定位的基础。
Faster-RCNN:是一种CNN模型,可对目标(在本发明中是货车病害)进行分类和定位,在工业界应用广泛,但还未在铁路货车病害图像识别中有应用。它由VGG + RPN + RCNN三部分组成。
RPN(区域建议网络):是Faster-RCNN的一个组成部分,目的是从特征图中对不同形状、大小的病害在原图中进行粗定位。
RCNN网络:将RPN得到的粗定位结果进行微调得到精定位节结果。
VGG:即指VGG网络,是牛津Visual Geometry Group提出的网络结构。该网络结构是RPN网络的一部分,用于提取图像的特征。VGG16是一类VGG网络,16代表有16层。
Dropout:模型训练中减少运算量、防止过拟合的一个方法。训练模型相当于调整每一个参数的权重,但有时难免预设参数过多,导致人工神经网络学习到非目标的特征(即过拟合)。因此Dropout是每轮训练过程中,随机舍弃一些参数,从而减少运算量及过拟合现象。
Anchor:在训练前预设的不同形状、大小的边界框。
Ground truth:人工标记。例如人工标记的病害类别及病害位置。
Bounding Box:目标的边框。
Keras:最流行的开源深度学习框架之一,用来进行深度学习模型的设计、调试、评估、应用和可视化。
Anchor Location:预设框位置。
本发明提供的一种铁路货检高清图像智能识别方法包括如下步骤:
(1)选取多个车型的货车拍摄货车场景图像,构建货车病害数据集(包括病害图像、病害类别及位置)。
货车场景图像包括货车车型和病害标注边框。具体的是,货车病害数据集是通过铁路货车过车数据集的多组训练数据进行训练得到的,多组训练数据的每一组数据包括货车车型及货车病害图像中带有的病害标注边框。构造货车病害数据集时,选取不同的货车车型(如图2a、图2b、图2c所示)作为拍摄目标,比如可采用手机等常规移动设备拍摄货车过车场景。为保证数据的多样性,对某一具体场景目标区域拍摄时,要求在不同角度、焦距和光照等条件下拍摄多幅图像。人工筛选有效图像并对每一幅图像中的货车病害标注边框。
为进一步增加训练数据的多样性,对所述货车场景图像进行缩放、裁剪和/或翻转操作,获得货车场景图像数据增强增加样本集。具体的是:
缩放:例如,首先将短边缩放为224(分类检测任务的输入图像大小常常是224*224),长边同比例缩放。
裁剪:随后从缩放之后的图片中随机的裁剪224*244大小的区域。
翻转:然后对裁剪之后的图像进行随机水平翻转、随机颜色变化、随机仿射变换操作增加训练集图片的多样性。
(2)获取待检测的货车过车图像。
(3)基于全局多维度注意力机制对待检测的货车过车图像进行分类。
具体的是,如图3为本发明提供的实施例中基于全局多维度注意力机制的货车车型分类网络示意图.对待检测的货车过车图像进行区域划分,对各区域图像进行位置编码,将各区域图像的位置编码信息与区域特征组合,计算多维度权重注意力,得到待检测的货车过车图像的全局特征进行分类。
然后,本发明一实施例中将位置编码信息与区域特征组合:
多维度权重注意力计算:
Softmaxmasked是掩蔽的softmax函数,是指定某些ei为0,即掩蔽掉一些特征,将注意力放在主要特征上。
sum_pooling函数是将输入特征图像按块求和并下采样的过程。
(4)基于Faster-RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位。典型Faster-RCNN物体检测框架如图5所示。
使用RPN针对不同分类对病害在待检测的货车过车图像中进行粗定位,得到候选病害区域。具体的是,针对生成检测建议框的任务端到端地训练,直接预测出RegionProposal和分数。RPN网络的输入可以是任意大小(但还是有最小分辨率要求的,例如VGG网络输入是228*228)的图片。如果用VGG16进行特征提取,那么RPN网络的组成形式可以表示为VGG16+RPN。本发明一实施例中拟采用RPN候选框提取模块针对不同的场景提取可能的病害矩形区域。
使用RCNN对候选病害区域进行筛选和精定位。具体的是,Faster-RCNN检测模块是一个普通的RCNN网络,用于对RPN网络得到的候选框的筛选与精定位。检测包含深度特征提取、候选区域分类、候选目标区域矩形框坐标回归等步骤。本发明一实施例中拟采用此检测模块对异物区域进行精确定位以提取出有效子图像用于下一步的病害识别。
(5)识别病害的类型。
具体的是,利用货车病害数据集对待检测货车过车图像进行分类后,在对其是否具有病害、病害的定位及类型进行识别,从而得到识别结果。识别结果包括图像中是否有病害、病害类别及位置等。图6、图7、图8为敞车病害检测结果示例,图9、图10为棚车病害检测结果示例,图11、图12、图13为罐车病害检测结果示例。
(6)将检测结果与识别结果反馈于深度网络输入,用于深度网络的参数更新与自适应调整。
具体的是,反馈损失:
①车型分类损失采用交叉熵损失:
②目标检测损失包括异物分类损失和边界框回归损失,
其中,为第i个预设框的预测分类概率;当第i个预设框是正样本时,;当第i个预设框是负样本时,;为第i个预设框预测边框的参数化坐标;为第i个预设框的真实值边框的参数化坐标;为迷你批大小,训练时会将训练集图片分批送入网络进行训练, 迷你批大小为每次送入网络的图片数量;为边框的数量;λ为边框回归损失的权重,调节边界框回归损失占总损失的比例;,R是函数,函数是一种损失函数,描述真实值与预测值之间的差距,其表达式为:
本发明提供的对应上述铁路货检高清图像智能识别方法的***包括构建模块、获取模块、分类模块、检测模块、识别模块和反馈模块。构建模块用于选取多个车型的货车拍摄货车场景图像,构建货车病害数据集。获取模块用于获取待检测的货车过车图像。分类模块用于基于全局多维度注意力机制对待检测的货车过车图像进行分类。检测模块用于基于Faster-RCNN网络架构检测待检测的货车过车图像是否存在病害,并对病害进行定位。识别模块,用于病害识别。反馈模块用于将检测结果与识别结果反馈于深度网络输入,用于深度网络的参数更新与自适应调整。
虽然在上述详细说明中已经介绍了至少一个示例实施方式,但是应当理解存在许多变化。也应当理解本文中描述的一个或多个示例实施方式不旨在以任何方式限制本主题的范围、适用性、或配置。相反,上述详细说明将为本领域中的技术人员提供用于实现描述的一个实施方式或多个实施方式的便利路线图。应当理解,在没有偏离权利要求定义的范围的情况下,在元件的功能和排列方面可以进行各种变化,其包括在申请本专利申请时已知的等同物和可预知的等同物。
在本文中使用的术语和短语和其变体,除非另外明确地陈述,否则应当解释为开放式的,而不是限制性的。作为上述的实例:术语“包括”应当理解为“包括,但不限于”等;术语“实例”用于提供所讨论项目的示例性实例,而不是其穷尽的或限制的清单;并且形容词诸如“惯用的”、“传统的”、“常规的”、“标准的”、“已知的”和类似含义的术语不应当解释为将描述的项目限制为特定时期的项目或特定时间可获得的项目,而是应当理解为包含现在或在将来任何时候可以获得或已知的惯用的、传统的、常规的、或标准的技术。
以上实施例仅用以说明本发明的技术方案,并非用来限定本发明的实施范围。但凡在本发明的保护范围内所做的等效变化及修饰,皆应认为落入了本发明的保护范围内。
Claims (10)
1.一种铁路货检高清图像智能识别方法,其特征在于,该方法包括如下步骤:
(1)选取多个车型的货车拍摄货车场景图像,构建货车病害数据集;
(2)获取待检测的货车过车图像;
(3)基于全局多维度注意力机制对待检测的货车过车图像进行分类;
(4)基于Faster-RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位;
(5)识别所述病害的类型。
2.根据权利要求1所述的铁路货检高清图像智能识别方法,其特征在于,该方法还包括如下步骤:
(6)将检测结果与识别结果反馈于所述深度学习神经网络,用于参数更新与自适应调整。
3.根据权利要求2所述的铁路货检高清图像智能识别方法,其特征在于,所述反馈采用以下损失函数:
其中,车型分类损失LOSS cls 采用交叉熵损失:
其中,目标检测损失LOSS det 包括异物分类损失LOSS cls-gc 和边界框回归损失LOSS box ,
其中,为第i个预设框的预测分类概率;当第i个预设框是正样本时,;当第i个预设框是负样本时,;为第i个预设框预测边框的参数化坐标;为第i个预设框的真实值边框的参数化坐标;为迷你批大小;为边框的数量;λ为边框回归损失的权重; ,R是函数,
4.根据权利要求1至3任一项所述的铁路货检高清图像智能识别方法,其特征在于,步骤(1)中,所述货车场景图像包括货车车型和病害标注边框。
5.根据权利要求1至3任一项所述的铁路货检高清图像智能识别方法,其特征在于,步骤(1)还包括:对所述货车场景图像进行缩放、裁剪和/或翻转操作,获得货车场景图像数据增强增加样本集。
6.根据权利要求1至3任一项所述的铁路货检高清图像智能识别方法,其特征在于,步骤(3)包括:对待检测的货车过车图像进行区域划分,对各区域图像进行位置编码,将各区域图像的位置编码信息与区域特征组合,计算多维度权重注意力,得到待检测的货车过车图像的全局特征并进行分类。
8.根据权利要求1至3任一项所述的铁路货检高清图像智能识别方法,其特征在于,步骤(4)包括:
使用RPN基于不同分类对待检测的货车过车图像中的病害进行粗定位,得到候选病害区域;
使用RCNN对所述候选病害区域进行筛选和精定位。
9.一种铁路货检高清图像智能识别***,其特征在于,该***包括:
构建模块,用于选取多个车型的货车拍摄货车场景图像,构建货车病害数据集;
获取模块,用于获取待检测的货车过车图像;
分类模块,用于基于全局多维度注意力机制对待检测的货车过车图像进行分类;
检测模块,用于基于Faster-RCNN深度学习神经网络,检测待检测的货车过车图像是否存在病害,并对病害进行定位;和
识别模块,用于识别所述病害的类型。
10.根据权利要求9所述的铁路货检高清图像智能识别***,其特征在于,该***还包括:
反馈模块,用于将检测结果与识别结果反馈于所述深度学习神经网络,用于参数更新与自适应调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298769.7A CN115359306B (zh) | 2022-10-24 | 2022-10-24 | 一种铁路货检高清图像智能识别方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298769.7A CN115359306B (zh) | 2022-10-24 | 2022-10-24 | 一种铁路货检高清图像智能识别方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115359306A true CN115359306A (zh) | 2022-11-18 |
CN115359306B CN115359306B (zh) | 2023-04-07 |
Family
ID=84008591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211298769.7A Active CN115359306B (zh) | 2022-10-24 | 2022-10-24 | 一种铁路货检高清图像智能识别方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115359306B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116485729A (zh) * | 2023-04-03 | 2023-07-25 | 兰州大学 | 基于transformer的多级桥梁缺陷检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079602A (zh) * | 2019-12-06 | 2020-04-28 | 长沙千视通智能科技有限公司 | 基于多尺度区域特征约束的车辆细粒度识别方法及装置 |
CN111080617A (zh) * | 2019-12-12 | 2020-04-28 | 哈尔滨市科佳通用机电股份有限公司 | 一种铁路货车制动梁支柱圆销丢失故障识别方法 |
CN113674216A (zh) * | 2021-07-27 | 2021-11-19 | 南京航空航天大学 | 一种基于深度学习的地铁隧道病害检测方法 |
CN113989600A (zh) * | 2021-09-28 | 2022-01-28 | 上海师范大学 | 一种图像异物检测方法 |
CN114187491A (zh) * | 2022-02-17 | 2022-03-15 | 中国科学院微电子研究所 | 一种遮挡物体检测方法和装置 |
CN114266938A (zh) * | 2021-12-23 | 2022-04-01 | 南京邮电大学 | 一种基于多模态信息和全局注意力机制的场景识别方法 |
WO2022073452A1 (zh) * | 2020-10-07 | 2022-04-14 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
-
2022
- 2022-10-24 CN CN202211298769.7A patent/CN115359306B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079602A (zh) * | 2019-12-06 | 2020-04-28 | 长沙千视通智能科技有限公司 | 基于多尺度区域特征约束的车辆细粒度识别方法及装置 |
CN111080617A (zh) * | 2019-12-12 | 2020-04-28 | 哈尔滨市科佳通用机电股份有限公司 | 一种铁路货车制动梁支柱圆销丢失故障识别方法 |
WO2022073452A1 (zh) * | 2020-10-07 | 2022-04-14 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
CN113674216A (zh) * | 2021-07-27 | 2021-11-19 | 南京航空航天大学 | 一种基于深度学习的地铁隧道病害检测方法 |
CN113989600A (zh) * | 2021-09-28 | 2022-01-28 | 上海师范大学 | 一种图像异物检测方法 |
CN114266938A (zh) * | 2021-12-23 | 2022-04-01 | 南京邮电大学 | 一种基于多模态信息和全局注意力机制的场景识别方法 |
CN114187491A (zh) * | 2022-02-17 | 2022-03-15 | 中国科学院微电子研究所 | 一种遮挡物体检测方法和装置 |
Non-Patent Citations (2)
Title |
---|
柴雪松: "基于深度学习技术的货检图像智能识别与测试研究", 《铁道货运》 * |
王林等: "Faster R-CNN模型在车辆检测中的应用", 《计算机应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116485729A (zh) * | 2023-04-03 | 2023-07-25 | 兰州大学 | 基于transformer的多级桥梁缺陷检测方法 |
CN116485729B (zh) * | 2023-04-03 | 2024-01-12 | 兰州大学 | 基于transformer的多级桥梁缺陷检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115359306B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108171112B (zh) | 基于卷积神经网络的车辆识别与跟踪方法 | |
CN109816024B (zh) | 一种基于多尺度特征融合与dcnn的实时车标检测方法 | |
CN111079640B (zh) | 一种基于自动扩增样本的车型识别方法及*** | |
CN111652296A (zh) | 一种基于深度学习的铁路货车下拉杆折断故障检测方法 | |
CN112633149B (zh) | 一种域自适应雾天图像目标检测方法和装置 | |
CN114743119B (zh) | 基于无人机的高铁接触网吊弦螺母缺陷检测方法 | |
CN112464846B (zh) | 一种车站货运列车车厢异常故障的自动识别方法 | |
CN112990004A (zh) | 一种基于光流法和深度学习卷积神经网络的黑烟车检测方法 | |
CN110991447B (zh) | 基于深度学习的列车车号精确定位与识别方法 | |
CN113947731A (zh) | 一种基于接触网安全巡检的异物识别方法及*** | |
CN111626170A (zh) | 一种铁路边坡落石侵限检测的图像识别方法 | |
US20200034626A1 (en) | Method for recognizing an object of a mobile unit | |
CN114331949A (zh) | 一种图像数据处理方法、计算机设备以及可读存储介质 | |
CN109191492B (zh) | 一种基于轮廓分析的智能视频黑烟车检测方法 | |
CN115359306B (zh) | 一种铁路货检高清图像智能识别方法和*** | |
CN113450573A (zh) | 基于无人机图像识别的交通监测方法和交通监测*** | |
CN113788051A (zh) | 列车在站运行状态监测分析*** | |
CN115294089A (zh) | 一种基于改进YOLOv5的钢材表面缺陷检测方法 | |
CN115424128A (zh) | 一种货车转向架下拉杆故障图像检测方法及*** | |
CN117152971A (zh) | 一种基于高空全景视频的ai交通信号优化方法 | |
CN115546742A (zh) | 一种基于单目热红外摄像头的铁轨异物识别方法及*** | |
CN113657305B (zh) | 一种基于视频的黑烟车辆及林格曼黑度等级智能检测方法 | |
CN114627286A (zh) | 基于PSPNet和改进YOLOv4的地磅人员入侵的检测方法 | |
CN111597939B (zh) | 一种基于深度学习的高铁线路鸟窝缺陷检测方法 | |
CN113762144A (zh) | 一种基于深度学习的黑烟车检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |