CN116612351A - 基于多尺度掩码特征自编码器的城轨车底异常检测方法 - Google Patents

基于多尺度掩码特征自编码器的城轨车底异常检测方法 Download PDF

Info

Publication number
CN116612351A
CN116612351A CN202310596242.0A CN202310596242A CN116612351A CN 116612351 A CN116612351 A CN 116612351A CN 202310596242 A CN202310596242 A CN 202310596242A CN 116612351 A CN116612351 A CN 116612351A
Authority
CN
China
Prior art keywords
encoder
scale mask
self
feature
mask feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310596242.0A
Other languages
English (en)
Inventor
王红军
陈云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202310596242.0A priority Critical patent/CN116612351A/zh
Publication of CN116612351A publication Critical patent/CN116612351A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度掩码特征自编码器的城轨车底异常检测方法,涉及轨道交通技术领域,所述方法包括基于车底监测数据构建训练集,所述训练集包括大规模无标签训练集和少量有标签训练集;构建多尺度掩码特征自编码器,利用所述无标签训练集对所述多尺度掩码特征自编码器进行重建图像的自监督训练,得到模型参数;将获取的多尺度掩码特征自编码器中编码器部分的模型参数和相应的网络结构作为骨架网络嵌入到下游车底异常检测任务的网络结构中,并利用少量有标签训练集对模型参数进行有监督的微调训练,得到车底异常识别模型。本发明可以有效地解决现有技术中数据标注困难、元数据信息利用率低、正负样本不均匀以及受光学成像环境干扰等问题。

Description

基于多尺度掩码特征自编码器的城轨车底异常检测方法
技术领域
本发明涉及列车检测技术领域,具体涉及一种基于多尺度掩码特征自编码器的城轨车底异常检测方法。
背景技术
随着城轨列车的里程数越来越多,城轨列车的运行速度越来越快,为了保障安全运行,车体的检修频率也随之越来越高。为了维持城轨列车有效的、高速的运行,需要及时检测出城轨列车车底的潜在安全风险,提高检修频率。通常城城轨列车车底异常的检测项目包括关键零部件(轴箱盖,减震器固定装置,空气弹簧)的零件丢失、损伤、异物附着等。
目前对于城轨列车车底关键部位缺陷异常检测的研究主要集中在以下三方面:
第一,模版匹配方面,Zhang等使用基于轮廓的模板匹配算法检测列车零部件的松动、丢失故障,通过对特定位置的图片与标准模板库比对,根据差异对样本进行归类。该方法灵活性较强,针对像素相似度较高的图片效果良好。Lu等通过目标的外接矩形和轮廓的形状述子进行模板匹配实现截断塞门手把的缺陷检测,实验结果显示形状述子匹配比灰度模板匹配在时间和精度上表现更好。但是采用模板匹配算法易受到光照、成像视角等因素的影响,并且在目标存在形变的条件下失效严重,鲁棒性较差,难以在实际列车检测***中大规模应用。
第二,传统机器学习方面,Zhou等在对列车中闸瓦插销的故障检测中,通过梯度编码直方图(GradientEncodingHistogram,GEH)特征和支持向量机(SupportVectorMachine,SVM)算法定位部件位置,利用支持向量机判别故障状态,实现了99.2%的准确率和5fps/s的图片处理速度;Qin等利用支持向量机实现了列车弯角旋塞中手柄缺失故障的自动化检测,达到了良好的实时性和较高的检测精度。然而二者采用传统机器学习算法进行特征提取的手段需要结合具体场景手动设计,对于目标物体的定位效率低,还依赖于传统方法,如灰度投影、轮廓检测以及滑动窗口穷举等,该类方法往往只适用于螺栓、挡键等标示性较强的特定部件,准确性仍难以满足现实需求。
第三,深度学习方面,Sun等采用卷积神经网络由粗到精的定位到列车侧框架键和轴螺栓区域,再训练多分类模型识别其中与丢失松动相关的四种典型故障,在低质量的成像条件下达到了较高识别能力和良好鲁棒性。Zhou等结合传统方法与深度学习方法,并应用在列车零部件故障检测中,通过传统方法定位螺栓区域,再利用结合自编码(StackedAuto-Encoder,SAE)的卷积神经网络识别螺栓的状态,最终在中板螺栓中对故障图片实现了较高的检测准确率。以上可知基于深度学习的缺陷检测方法具有更强的鲁棒性,可应对更复杂的现场环境、成像条件,和天气情况等。其针对螺栓、闸片、档键等细微故障具有更好的检测性能,在复杂条件下能够对待检测目标实现高精度定位。但受制于样本的获取,特别在故障判别时由于负样本的缺失,训练模型容易出现过拟合,且检测时间相对来说也会更长。
综上所述,现有技术对于轨道列车关键部件缺陷异常检测虽然能够通过模版匹配、机器学习、常规深度学习等方法进行,但由于成像环境的复杂多变,镜头光学畸变、背景复杂等诸多因素的影响,同时存在缺陷未知、精确缺陷标注少、标注样本成本高昂、受制于正负样本不均横、缺陷的无规则性、缺陷形状与尺度变化范围较大等问题,缺陷异常检测的准确性、可靠性、稳定性在工业落地中大批量应用仍不太理想。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于多尺度掩码特征自编码器的城轨车底异常检测方法。
本发明的技术方案为:一种基于多尺度掩码特征自编码器的城轨车底异常检测方法,包括:
基于车底监测数据构建训练集,所述训练集包括大规模无标签训练集和少量有标签训练集,所述车底监测数据包括点云数据、图像数据;
构建多尺度掩码特征自编码器,利用所述无标签训练集对所述多尺度掩码特征自编码器进行重建图像的自监督训练,得到模型参数;
将获取的多尺度掩码特征自编码器中编码器部分的模型参数和相应的网络结构作为骨架网络嵌入到下游车底异常检测任务的网络结构中,并利用少量有标签训练集对模型参数进行有监督的微调训练,得到车底异常识别模型。
优选的,基于车底监测数据构建训练集包括:
分别对所述点云数据和所述图像数据进行预处理;
将预处理后的点云数据和图像数据进行关联,得到关联数据;
将关联数据中的点云数据和图像数据进行加权融合,得到多模态融合矩阵。
优选的,对所述点云数据的预处理包括滤波、配准、重采样,对所述图像数据的预处理包括双边滤波、直方图均衡化。
优选的,利用所述无标签训练集对所述多尺度掩码特征自编码器进行自监督的重建图像训练时,以最小化掩码特征图和重建图像缩放余弦误差为重建准则。
优选的,利用所述无标签训练集对所述多尺度掩码特征自编码器进行自监督的重建图像训练包括:
使用反向传播更新所述多尺度掩码特征自编码器的模型参数;
在每一次反向传播后使用动量更新机制对所述多尺度掩码特征自编码器中编码器的模型参数进行更新。
优选的,所述多尺度掩码特征自编码器中的编码器包括多尺度掩码特征提取模块和掩码特征融合模块。
优选的,所述多尺度掩码特征提取模块包括第一特征提取阶段、第二特征提取阶段、第三特征提取阶段;
所述第一特征提取阶段包括patch embeding模块、Masked Convolutional Block模块,用于获取第一尺度掩码特征;所述第二特征提取阶段包括patch embeding模块、Masked Convolutional Block模块,用于获取第二尺度掩码特征;所述第三特征提取阶段包括patch embeding模块、Transformer模块,用于获取第三尺度掩码特征;
所述第一特征提取阶段与所述第二特征提取阶段之间设置有下采样层,所述第二特征提取阶段与第三特征提取阶段之间设置有下采样层。
优选的,所述掩码特征融合模块用于分别对所述第一尺度掩码特征和所述第二尺度掩码特征进行下采样,将下采样之后的第一尺度掩码特征、第二尺度掩码特征与第三尺度掩码特征进行融合,得到融合特征图。
优选的,分别对所述第一尺度掩码特征和所述第二尺度掩码特征进行下采样包括:对所述第一尺度掩码特征进行stride=2的下采样,对所述第二尺度掩码特征进行stride=4的下采样。
优选的,所述多尺度掩码特征自编码器的损失函数为:
L=Lrecon+Lcos1Lfeat2Lfusion
其中,Lrecon表示重建误差,Lcos表示缩放余弦误差,Lfeat表示特征图向量误差,Lfusion表示特征图误差,λ1和λ2是超参数;||.||1表示L1范数,xi分别表示第i个小块的原始图像和解码器输出的第τ小块的重建图像;S(A,B)表示余弦相似度,Fi和/>分别表示第i个小块的掩码特征图和解码器输出的第τ小块的掩码特征图;z和/>分别表示融合特征图的向量表示和解码器输出的融合特征图的向量表示,||.||2表示L2范数;Et和/>分别表示融合特征图和解码器输出的融合特征图。
本发明的有益效果体现在:本发明提供一种基于多尺度掩码特征自编码器的城轨车底异常检测方法,通过采集点云数据和图像数据进行多模态融合,将掩码自编码器思想迁移到了图上,通过多尺度掩码特征自编码器从重建图像,从损失函数和模型结构的角度解决了一般图自编码器面临的高分辨率运算成本高的问题;同时设计缩放余弦误差为重建准则的掩码特征重建策略,实现了自适应的样本重称重,解决正负样本不均匀的问题;最后将自监督学习的表征编码迁移到小样本学习中,充分利用无监督学习中自动学习特征或表征的优势,使得模型更加通和鲁棒,减少了对有标签数据的依赖性,将本发明提供的车底异常识别模型应用于城轨车底异物的异常检测领域,可以有效地解决数据标注困难、元数据信息利用率低、正负样本不均匀以及受光学成像环境干扰等问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明实施例提供的基于多尺度掩码特征自编码器的城轨车底异常检测方法的流程图;
图2为本发明实施例提供的基于多尺度掩码特征自编码器的城轨车底异常检测方法的框架图;
图3为本发明实施例提供的多尺度掩码特征自编码器的框架图;
图4为本发明实施例提供的基于多尺度掩码特征自编码器的城轨车底异常检测方法的任务阶段图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
请参阅图1、2,本发明实施例提供了一种基于多尺度掩码特征自编码器的城轨车底异常检测方法,包括:
步骤一,基于车底监测数据构建训练集,所述训练集包括大规模无标签训练集和少量有标签训练集,所述车底监测数据包括点云数据、图像数据。
在本发明实施例中,基于车底监测数据构建训练集包括:分别对所述点云数据和所述图像数据进行预处理;将预处理后的点云数据和图像数据进行关联,得到关联数据;将关联数据中的点云数据和图像数据进行加权融合,得到多模态融合矩阵。
具体的,通过雷达获取点云数据,通过2D线阵相机获取图像数据。
具体的,对所述点云数据的预处理包括滤波、配准、重采样;具体的,使用高斯滤波器对点云数据进行平滑处理,以去除噪声并增强信号,同时将点云数据与参考点云进行配准和降采样操作,以消除不同位置和姿态的影响,同时减少数据量。具体的,对所述图像数据的预处理包括双边滤波、直方图均衡化;具体的,使用双边滤波器对输入图像进行去噪处理,以减少图像中的噪声和伪影,再使用自适应直方图均衡化对图像进行增强处理,以提高图像的对比度和鲁棒性。
对点云数据和图像数据进行预处理之后,需要通过时间戳对齐和外部标定将点云数据和图像数据一一对应起来,并通过内部标定将相机像素坐标转换为真实世界坐标,以便于后续的加权融合。
为了提高数据的利用率和数据的质量,需要对点云数据和图像数据进行融合,具体的,分别为点云数据和图像数据配置不同的权重系数,根据所述权重系数进行加权融合,加权融合的公式如下:
ffusion(xi)=wradar·fradar(xi)+wcamera·fcamera(xi) (1)
其中,fradar(xi)表示点云数据的特征向量,fcamera(xi)表示图像数据的特征向量,ffusion(xi)表示加权融合后的多模态融合矩阵。
通过上述方法将点云和线阵相机图像数据进行多模态融合,提高了数据的全面性和准确性。
步骤二,构建多尺度掩码特征自编码器,利用所述无标签训练集对所述多尺度掩码特征自编码器进行重建图像的自监督训练,得到模型参数。
请参阅图3,在本发明实施例中,利用所述无标签训练集对所述多尺度掩码特征自编码器进行自监督的重建图像训练时,以最小化掩码特征图和重建图像缩放余弦误差为重建准则。
在本发明实施例中,利用所述无标签训练集对所述多尺度掩码特征自编码器进行自监督的重建图像训练包括:使用反向传播更新所述多尺度掩码特征自编码器的模型参数;在每一次反向传播后使用动量更新机制对所述多尺度掩码特征自编码器中编码器的模型参数进行更新。
为了更好地理解缩放余弦误差,下面对缩放余弦的基本定义进行详细阐述,两个向量u和v之间的余弦距离,缩放余弦定义如下:
其中,<u,v>表示向量u和v的点积,||u||2表示向量u的L2范数;假设输入混合矩阵为X∈RW×H×C,其中C为通道数,输出复原矩阵将原始矩阵划分为N个大小相等的小块,每个小块的大小为W×H×C,用二进制掩码mi表示该小块是否包含目标信息,若包含,则mi=1,否则mi=0。基于上述阐述,应当理解地,若设多尺度掩码特征自编码器中编码器和解码器的参数分别为θE和θD,则潜在表示为z∈RK,K<<W×H×C,其重建准则是通过最小化掩码特征图F和解码器输出/>之间的缩放余弦误差来实现的,即:
其中,Fi表示第i个小块的掩码特征图,表示对应的解码器输出的掩码特征图。
进一步的,在训练过程中,通过正向传播计算出潜在表示:
和重构的特征图:
最后通过反向传播计算出梯度并更新参数。
需要说明的,在整个训练过程中,编码器网络和解码器网络共同学习掩码特征图的表示和重建。
在本发明实施例中,所述多尺度掩码特征自编码器中的编码器包括多尺度掩码特征提取模块和掩码特征融合模块。其中,所述多尺度掩码特征提取模块包括第一特征提取阶段、第二特征提取阶段、第三特征提取阶段;
所述第一特征提取阶段包括patch embeding模块、Masked Convolutional Block模块,用于获取第一尺度掩码特征;所述第二特征提取阶段包括patch embeding模块、Masked Convolutional Block模块,用于获取第二尺度掩码特征;所述第三特征提取阶段包括patch embeding模块、Transformer模块,用于获取第三尺度掩码特征;
所述第一特征提取阶段与所述第二特征提取阶段之间设置有下采样层,所述第二特征提取阶段与第三特征提取阶段之间设置有下采样层。
在本发明实施例中,所述掩码特征融合模块用于分别对所述第一尺度掩码特征和所述第二尺度掩码特征进行下采样,将下采样之后的第一尺度掩码特征、第二尺度掩码特征与第三尺度掩码特征进行融合,得到融合特征图。
多尺度掩码特征自编码器用于将输入的多模态特征向量逐步抽象为多尺度token嵌入,并采用类似于图像金字塔的方式生成不同分辨率的特征图,然后将每个特征图划分为若干个块,每个块对应一个token。对于前期的高分辨率token嵌入,使用卷积块对局部内容进行编码;对于这些高分辨率的token嵌入,使用卷积块提取局部空间特征并将其转换为较低维度的特征向量作为该token的表示;对于后期的低分辨率token嵌入,使用Transformer块融合全局上下文信息;而对于这些低分辨率的token嵌入,使用Transformer块编码所有token之间的关系以获取更全局的特征表示。为了避免特征混淆,我们在前期卷积阶段逐步将掩码上采样到更大的分辨率。同时,在前期卷积阶段加入了掩码卷积,以使得在卷积块中处理的特征可以完全分离为掩码token和可见token,从而避免后期阶段掩码区域和可见区域的特征混淆。
具体来说,多尺度掩码特征自编码器结合了卷积神经网络和Transformer架构。首先,输入低分辨率图像经过一系列的卷积操作和掩码卷积操作,提取出特征图。然后,通过上采样将掩码区域的特征图与可见区域的特征图进行拼接,得到高分辨率特征图。在后期的Transformer阶段中,对高分辨率特征图进行处理,并使用掩码实现自编码的目的。
网络结构采用特殊场景的编码结构+已提出的通用网络结构作为编码器或者解码器使用。
特定编码器部分包括了3个阶段,设H和W是输入矩阵的尺寸,每个阶段输出的特征分别是
前两个阶段是混合卷积模块,使用Masked Convolutional Block对特征进行操作,其结构如图2右下角所示(其中的空洞卷积Dailated Convolution使用3×3大小卷积核),在每个阶段之间,进行一次stride为2的卷积以进行下采样操作。
最后一个阶段为通用编码器网络,此处采用Transformer融合模块,主要作用为拉大感受野,并融合所有patch的特征。最后一阶段的网络部分可以根据不同的下游任务替换为常用的ResNet残差网络,或者U-Net等FCN类型的全卷机网络结构。
为了更好地进行训练,还需要将获取的第一尺度掩码特征E1、第二尺度掩码特征E2、第二尺度掩码特征E3进行融合;具体的,将E1和E2分别进行stride=2和stride=4的下采样之后与E3相加,进行多尺度特征的融合,融合得到的结果再通过Linear Transformer得到最终要输入给Decoder解码器的特征Et
Et=Linear(StrideConv(E1,4)+StrideConv(E2,2)+E3)
其中StrideConv(·,k)代表stride=k的卷积,Et代表三个尺度特征的融合特征图。
在本发明实施例中,所述多尺度掩码特征自编码器的损失函数为:
L=Lrecon+Lcos1Lfeat2Lfusion
其中,Lrecon表示重建误差,Lcos表示缩放余弦误差,Lfeat表示特征图向量误差,Lfusion表示特征图误差,λ1和λ2是超参数;||.||1表示L1范数,xi分别表示第i个小块的原始图像和解码器输出的第τ小块的重建图像;S(A,B)表示余弦相似度,Fi和/>分别表示第i个小块的掩码特征图和解码器输出的第τ小块的掩码特征图;z和/>分别表示融合特征图的向量表示和解码器输出的融合特征图的向量表示,||.||2表示L2范数;Et和/>分别表示融合特征图和解码器输出的融合特征图。
需要说明的,本实施例中的掩码特征图包括第一尺度掩码特征、第二尺度掩码特征和第三尺度掩码特征。
步骤三,将获取的多尺度掩码特征自编码器中编码器部分的模型参数和相应的网络结构作为骨架网络嵌入到下游车底异常检测任务的网络结构中,并利用少量有标签训练集对模型参数进行有监督的微调训练,得到车底异常识别模型。
具体的,将上一步骤得到的三个掩码特征向量进一步输入多尺度级联Transfomer网络中(这里的骨干网络可以随意选取,诸如变种的ResNet,MaskRCNN系列网络等,只要处理好三分支的矩阵输入即可,根据下游任务的不同可以动态选择),通过提出的自编码器自监督训练得到隐藏表征后,使用这些表征来解决各种下游任务,充分利用无监督学习中自动学习特征或表征的优势,使得模型更加通用和鲁棒,同时也能减少有标签数据的依赖性具体。
具体的,将编码器网络的参数固定,并将潜在表示作为输出,然后将该输出与少样本学习模型组合,然后再使用有标签的数据对整个网络进行微调训练即可得到最终预测模型,利用预训练模型在大规模无标签数据上学到的表示能力,通过微调有标签数据来提高模型性能,这种方法通常能够在较少的标记数据下实现比从头开始训练更好的结果。
综上,本发明的一种基于多尺度掩码特征自编码器的城轨车底异常检测方法,通过采集点云数据和图像数据进行多模态融合,将掩码自编码器思想迁移到了图上,通过多尺度掩码特征自编码器从重建图像,损失函数和模型结构的角度解决了一般图自编码器面临的高分辨率运算成本高的问题;同时设计缩放余弦误差为重建准则的掩码特征重建策略,实现了自适应的样本重称重,解决正负样本不均匀的问题;最后将自监督学习的表征编码迁移到小样本学习中,充分利用无监督学习中自动学习特征或表征的优势,使得模型更加通和鲁棒,减少了对有标签数据的依赖性,将本发明提供的车底异常识别模型应用于城轨车底异物的异常检测领域,可以有效地解决数据标注困难、元数据信息利用率低、正负样本不均匀以及受光学成像环境干扰等问题。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.基于多尺度掩码特征自编码器的城轨车底异常检测方法,其特征在于,包括:
基于车底监测数据构建训练集,所述训练集包括大规模无标签训练集和少量有标签训练集,所述车底监测数据包括点云数据、图像数据;
构建多尺度掩码特征自编码器,利用所述无标签训练集对所述多尺度掩码特征自编码器进行重建图像的自监督训练,得到模型参数;
将获取的多尺度掩码特征自编码器中编码器部分的模型参数和相应的网络结构作为骨架网络嵌入到下游车底异常检测任务的网络结构中,并利用少量有标签训练集对模型参数进行有监督的微调训练,得到车底异常识别模型。
2.根据权利要求1所述的基于多尺度掩码特征自编码器的城轨车底异常检测方法,其特征在于,基于车底监测数据构建训练集包括:
分别对所述点云数据和所述图像数据进行预处理;
将预处理后的点云数据和图像数据进行关联,得到关联数据;
将所述关联数据中的点云数据和图像数据进行加权融合,得到多模态融合矩阵。
3.根据权利要求2所述的基于多尺度掩码特征自编码器的城轨车底异常检测方法,其特征在于,对所述点云数据的预处理包括滤波、配准、重采样,对所述图像数据的预处理包括双边滤波、直方图均衡化。
4.根据权利要求3所述的基于多尺度掩码特征自编码器的城轨车底异常检测方法,其特征在于,利用所述无标签训练集对所述多尺度掩码特征自编码器进行重建图像的自检度训练时,以最小化掩码特征图和重建图像缩放余弦误差为重建准则。
5.根据权利要求3所述的基于多尺度掩码特征自编码器的城轨车底异常检测方法,其特征在于,利用所述无标签训练集对所述多尺度掩码特征自编码器进行自监督的重建图像训练包括:
使用反向传播更新所述多尺度掩码特征自编码器的模型参数;
在每一次反向传播后使用动量更新机制对所述多尺度掩码特征自编码器中编码器的模型参数进行更新。
6.根据权利要求1所述的基于多尺度掩码特征自编码器的城轨车底异常检测方法,其特征在于,所述多尺度掩码特征自编码器中的编码器包括多尺度掩码特征提取模块和掩码特征融合模块。
7.根据权利要求6所述的基于多尺度掩码特征自编码器的城轨车底异常检测方法,其特征在于,所述多尺度掩码特征提取模块包括第一特征提取阶段、第二特征提取阶段、第三特征提取阶段;
所述第一特征提取阶段包括patch embeding模块、Masked Convolutional Block模块,用于获取第一尺度掩码特征;所述第二特征提取阶段包括patch embeding模块、MaskedConvolutional Block模块,用于获取第二尺度掩码特征;所述第三特征提取阶段包括patch embeding模块、Transformer模块,用于获取第三尺度掩码特征;
所述第一特征提取阶段与所述第二特征提取阶段之间设置有下采样层,所述第二特征提取阶段与第三特征提取阶段之间设置有下采样层。
8.根据权利要求6所述的基于多尺度掩码特征自编码器的城轨车底异常检测方法,其特征在于,所述掩码特征融合模块用于分别对所述第一尺度掩码特征和所述第二尺度掩码特征进行下采样,将下采样之后的第一尺度掩码特征、第二尺度掩码特征与第三尺度掩码特征进行融合,得到融合特征图。
9.根据权利要求8所述的基于多尺度掩码特征自编码器的城轨车底异常检测方法,其特征在于,分别对所述第一尺度掩码特征和所述第二尺度掩码特征进行下采样包括:对所述第一尺度掩码特征进行stride=2的下采样,对所述第二尺度掩码特征进行stride=4的下采样。
10.根据权利要求1所述的基于多尺度掩码特征自编码器的城轨车底异常检测方法,其特征在于,所述多尺度掩码特征自编码器的损失函数为:
L=Lrecon+Lcos1Lfeat2Lfusion
其中,Lrecon表示重建误差,Lcos表示缩放余弦误差,Lfeat表示特征图向量误差,Lfusion表示特征图误差,λ1和λ2是超参数;||.||1表示L1范数,xi分别表示第i个小块的原始图像和解码器输出的第τ小块的重建图像;S(A,B)表示余弦相似度,Fi和/>分别表示第i个小块的掩码特征图和解码器输出的第τ小块的掩码特征图;z和/>分别表示融合特征图的向量表示和解码器输出的融合特征图的向量表示,||.||2表示L2范数;Et和/>分别表示融合特征图和解码器输出的融合特征图。
CN202310596242.0A 2023-05-24 2023-05-24 基于多尺度掩码特征自编码器的城轨车底异常检测方法 Pending CN116612351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310596242.0A CN116612351A (zh) 2023-05-24 2023-05-24 基于多尺度掩码特征自编码器的城轨车底异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310596242.0A CN116612351A (zh) 2023-05-24 2023-05-24 基于多尺度掩码特征自编码器的城轨车底异常检测方法

Publications (1)

Publication Number Publication Date
CN116612351A true CN116612351A (zh) 2023-08-18

Family

ID=87681402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310596242.0A Pending CN116612351A (zh) 2023-05-24 2023-05-24 基于多尺度掩码特征自编码器的城轨车底异常检测方法

Country Status (1)

Country Link
CN (1) CN116612351A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011718A (zh) * 2023-10-08 2023-11-07 之江实验室 一种基于多元损失融合的植物叶片细粒度识别方法和***
CN117372720A (zh) * 2023-10-12 2024-01-09 南京航空航天大学 一种基于多特征交叉掩码修复的无监督异常检测方法
CN117496276A (zh) * 2023-12-29 2024-02-02 广州锟元方青医疗科技有限公司 肺癌细胞形态学分析、识别方法及计算机可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011718A (zh) * 2023-10-08 2023-11-07 之江实验室 一种基于多元损失融合的植物叶片细粒度识别方法和***
CN117011718B (zh) * 2023-10-08 2024-02-02 之江实验室 一种基于多元损失融合的植物叶片细粒度识别方法和***
CN117372720A (zh) * 2023-10-12 2024-01-09 南京航空航天大学 一种基于多特征交叉掩码修复的无监督异常检测方法
CN117372720B (zh) * 2023-10-12 2024-04-26 南京航空航天大学 一种基于多特征交叉掩码修复的无监督异常检测方法
CN117496276A (zh) * 2023-12-29 2024-02-02 广州锟元方青医疗科技有限公司 肺癌细胞形态学分析、识别方法及计算机可读存储介质
CN117496276B (zh) * 2023-12-29 2024-04-19 广州锟元方青医疗科技有限公司 肺癌细胞形态学分析、识别方法及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN116612351A (zh) 基于多尺度掩码特征自编码器的城轨车底异常检测方法
Zhang et al. Concrete bridge surface damage detection using a single‐stage detector
CN110728658A (zh) 一种基于深度学习的高分辨率遥感影像弱目标检测方法
CN110598613B (zh) 一种高速公路团雾监测方法
CN111340855A (zh) 一种基于轨迹预测的道路移动目标检测方法
CN112686207A (zh) 一种基于区域信息增强的城市街道场景目标检测方法
CN111652295A (zh) 一种铁路货车钩尾销托梁脱落故障识别方法
CN116612106A (zh) 一种基于yolox算法的光学元件表面缺陷检测方法
CN112766056A (zh) 一种基于深度神经网络的弱光环境车道线检测方法、装置
CN116681979A (zh) 一种复杂环境下的电力设备目标检测方法
Tao et al. Fault detection of train mechanical parts using multi-mode aggregation feature enhanced convolution neural network
CN112258483B (zh) 一种钩尾销插托错位和螺母丢失故障检测方法
CN116994074A (zh) 一种基于深度学习的摄像头脏污检测方法
CN117115616A (zh) 一种基于卷积神经网络的实时低照度图像目标检测方法
CN112102280A (zh) 铁路货车小部件承挡键螺母松动和丢失故障检测方法
CN114972760B (zh) 基于多尺度注意力增强U-Net的电离图自动描迹方法
CN116523881A (zh) 一种电力设备异常温度检测方法及装置
CN115171001A (zh) 基于改进ssd的增强热红外图像上车辆检测方法及***
CN116309407A (zh) 一种铁路接触网螺栓异常状态的检测方法
CN111626175B (zh) 基于深度卷积神经网络的轴型识别方法
Kaleybar et al. Efficient Vision Transformer for Accurate Traffic Sign Detection
Kang et al. Efficient Object Detection with Deformable Convolution for Optical Remote Sensing Imagery
CN117152646B (zh) 无人电力巡检ai轻量大模型方法及***
Hu et al. Fault Diagnosis of Train Body Sign Abnormal Pattern with Deep Learning Based Target Detection
CN117173051A (zh) 基于多特征的红外可见光多源图像增强***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination