CN115564983A - 目标检测方法、装置、电子设备、存储介质及其应用 - Google Patents

目标检测方法、装置、电子设备、存储介质及其应用 Download PDF

Info

Publication number
CN115564983A
CN115564983A CN202210555245.5A CN202210555245A CN115564983A CN 115564983 A CN115564983 A CN 115564983A CN 202210555245 A CN202210555245 A CN 202210555245A CN 115564983 A CN115564983 A CN 115564983A
Authority
CN
China
Prior art keywords
sample
feature
dimension
network
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210555245.5A
Other languages
English (en)
Inventor
孙磊
苏浩
陈浩森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210555245.5A priority Critical patent/CN115564983A/zh
Publication of CN115564983A publication Critical patent/CN115564983A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种目标检测方法、装置、电子设备、存储介质及其应用,该方法包括:获取支撑样本xs和查询样本xq作为输入的两个图像样本;支撑样本xs是无缺陷的正常样本,查询样本xq是待检测的样本;由两个结构相同且权值共享的骨干网络分别对支撑样本xs和查询样本xq进行特征提取,得到各自对应的特征图Gw(xs)和Gw(xq);将特征图Gw(xs)和Gw(xq)输入特征增强网络,获得各自被增强和/或抑制的特征图vs和vq;基于特征匹配网络分别对被增强和/或抑制的特征图vs和vq进行相似度度量,输出度量结果H(vs,vq);将度量结果H(vs,vq)输入YOLO层模块进行回归计算,基于回归计算结果预测查询样本xq中的缺陷位置和/或置信度。本发明提供的方法扩增小样本训练数据,提高了泛化性能,增强实时检测速度的同时能更好的进行位置检测。

Description

目标检测方法、装置、电子设备、存储介质及其应用
技术领域
本发明属于工业视觉检测技术领域,特别是涉及一种目标检测方法,一种目标检测装置,一种目标检测的电子设备,一种计算机可读存储介质,以及一种目标检测方法在纹理类表面缺陷检测中的应用。
背景技术
在机器视觉是与工业应用结合最为紧密的人工智能技术。机器视觉技术是指通过对传感器获取到的图像数据进行分析,实现对图像的分类,对目标的定位等任务,并将结果反馈给相应的设备进行后续操作。其中表面缺陷检测在机器视觉领域中占据着非常重要的地位,以卷积神经网络(CNN)为代表的深度学习的长足发展,越来越多的深度学习模型被应用于表面缺陷检测领域。
但在上述工业化场景下,纹理类表面缺陷检测面临着诸多挑战,例如光照环境***,缺陷种类的繁多,缺陷尺寸变化又较大,以及相机抖动带来的图像噪声,图像背景带来的干扰等会对纹理类表面缺陷检测造成较大影响。与此同时,训练数据样本少,制造带缺陷的样本成本太高,因此带缺陷的样本数量较少,导致一般的深度学习模型难以在少量样本中学习到缺陷图像的特征。泛化性能较低,基于深度学习的表面缺陷检测方法泛化性能有限,一旦待检测物品的样式或者类别发生了变化,与训练样本差异较大,模型很难保证有效地进行检测。深度学习模型的检测速度较慢,难以应用在一些对检测实时性要求比较强的场景,且目前的已有的方法只能对图像是否带有缺陷进行分类,而不能识别出缺陷的具***置。
因此,开发设计出既能够保证纹理类表面缺陷的单样本学习的目标检测方法,并应用于扩增训练样本下,以提高深度学习的表面缺陷检测方法的泛化性能,并能实时对图像是否带有缺陷进行分类同时还能识别出纹理类表面缺陷的具***置的工业要求依然十分必要和迫切。
发明内容
本发明的目的在于,提供一种目标检测方法、装置、电子设备、存储介质及其应用,以解决在纹理类表面缺陷检测时,训练样本数量小,表面缺陷检测方法泛化性能低,检测实时性差以及检测缺陷位置不精准的技术问题。
本发明的目的及解决其技术问题是采用以下技术方案来实现的。
本发明第一方面提出了一种目标检测方法,包括如下步骤:获取支撑样本xs和查询样本xq作为输入的两个图像样本;其中,所述支撑样本xs是无缺陷的正常样本,所述查询样本xq是待检测的样本;由两个结构相同且权值共享的骨干网络分别对支撑样本xs和查询样本xq进行特征提取,得到各自对应的特征图Gw(xs)和Gw(xq);将所述特征图Gw(xs)和Gw(xq)输入特征增强网络,获得各自被增强和/或抑制的特征图vs和vq;基于特征匹配网络分别对所述被增强和/或抑制的特征图vs和vq进行相似度度量,输出度量结果H(vs,,vq);将所述度量结果H(vs,vq)输入YOLO层模块进行回归计算,基于所述回归计算结果预测所述查询样本xq中的缺陷位置和/或置信度。
优选地,所述由两个结构相同且权值共享的骨干网络分别对支撑样本xs和查询样本xq进行特征提取,得到各自对应的特征图Gw(xs)和Gw(xq)包括:由YOLO-fastest构成所述骨干网络并记作Gw;将所述支撑样本xs和查询样本xq分别输入所述骨干网络的输入端进行特征提取;得到各自对应的特征图Gw(xs)和Gw(xq)。
优选地,所述将特征图Gw(xs)和Gw(xq)输入特征增强网络得到各自被增强和/或抑制的特征图vs和vq包括:基于改进的Non-Local注意力机制构建所述特征增强网络;将两个特征图Gw(xs)和Gw(xq输入所述特征增强网络的输入端;将相关性较强的特征相互增强,同时将相似性较弱的特征相互抑制;通过所述特征增强网络分别输出各自被增强和/或抑制的特征图vs和vq;其中,所述特征图Gw(xs)的维度为ws*hs*c,Gw(xq)的维度为wq*hq*c,hs,hq表示特征图Gw(xs)和Gw(xq)的高度尺寸,ws,wq应表示特征图Gw(xs)和Gw(xq)的宽度尺寸,c为特征图Gw(xs)和Gw(xq)的通道数。
优选地,所述将相关性较强的特征相互增强,同时将相似性较弱的特征相互抑制包括:将所述特征图Gw(xs)分别经过两个逐点卷积网卷积,使特征图Gw(xs)的空间尺寸不变,通道数减小一半,结果分别记为g(Gw(xs))和
Figure BDA0003654607880000031
将所述特征图Gw(xq)分别经过两个逐点卷积网卷积,使特征图Gw(xq)的空间尺寸不变,通道数减小一半,结果分别记作g(Gw(xq))和θ(Gw(xq));将
Figure BDA0003654607880000032
和θ(Gw(xq))分别重构为两个二维矩阵;将所述两个二维矩阵进行矩阵相乘,得到维度为wqhq*wshs的矩阵;将所述维度为wqhq*wshs的矩阵输入softmax函数构成的网络层,完成相似度计算;输出维度为wqhq*wshs的矩阵;将g(Gw(xs))和g(Gw(xq))重构为矩阵;将所述矩阵分别与softmax函数的输出进行矩阵相乘,得到维度分别为
Figure BDA0003654607880000033
Figure BDA0003654607880000034
的两个矩阵;将所述维度分别为
Figure BDA0003654607880000035
Figure BDA0003654607880000036
的两个矩阵分别重构为维度
Figure BDA0003654607880000037
Figure BDA0003654607880000038
的两个特征图;将所述维度
Figure BDA0003654607880000039
Figure BDA00036546078800000310
的两个特征图分别输入两个逐点卷积网卷积,进行通道数升维;将通道数升维的结果分别与Gw(xs)和Gw(xq)相加,得到vs和vq
Figure BDA00036546078800000311
Figure BDA0003654607880000041
其中,
Figure BDA0003654607880000049
Wθ
Figure BDA0003654607880000042
Figure BDA0003654607880000043
均为线性变换的系数,i,j表示特征图中
Figure BDA0003654607880000044
的第i个或者WθGW第j个元素,
Figure BDA0003654607880000045
表示上述特征图的相似度计算函数,vs的维度为ws*hs*c,vq的维度为wq*hq*c。
优选地,所述
Figure BDA0003654607880000046
相似度计算函数采用径向基函数计算两个向量之间的相似度,如下所示:
Figure BDA0003654607880000047
其中,WθGW(xs)i
Figure BDA0003654607880000048
分别表示两个列向量。
优选地,所述基于特征匹配网络分别对所述被增强和/或抑制的特征图vs和vq进行相似度度量,输出度量结果H(vs,vq)包括:将维度分别为ws*hs*c的各自被增强和/或抑制的特征图vs和wq*hq*c的各自被增强和/或抑制的特征图vq输入特征匹配网络;对vs的ws*hs个维度为c*1的向量和vq的wq*hq个维度为c*1的向量两两相互组合并按相似度计算公式计算相似度;获得维度为wq*hq*(wshsc)的相似度特征图;所述相似度计算公式为:
similarity(vs,i,vq,j)=(vs,i-vq,j)2;其中,下标i和j表示vs的第i个向量和vq的第j个向量;将维度为wq*hq*(wshsc)的相似度特征图进行分组卷积得到维度为wq*hq*c的相似度特征图;其中,所述分组卷积的卷积核尺寸为1*1,步长为1,分组数量为c;依次将所述维度为wq*hq*c的相似度特征图与各自被增强和/或抑制的特征图vq沿着wq*hq*c的维度进行拼接;所述特征匹配网络最终输出维度为wq*hq*(2c)的度量结果H(vs,vq)。
优选地,所述将所述度量结果H(vs,vq)输入YOLO层进行回归计算,基于所述回归计算结果预测所述查询样本xq中的缺陷位置和/或置信度包括:将所述度量结果H(vs,vq)输入YOLO层进行回归计算;基于损失函数CIOU获得所述缺陷位置的预测结果与真值标签之间的第一误差损失,并基于所述第一误差损失预测所述查询样本xq中的缺陷位置;和/或在对置信度进行预测时,基于孪生网络中的三元损失函数获得所述缺陷位置的预测置信度与真值标签之间的第二误差损失,并基于所述第二误差损失预测所述查询样本xq中的缺陷位置的置信度;所述三元损失函数为:
TripleLoss=∑max((1-y)y′+y(m-y′),0)
其中,y为标签,0表示无缺陷,1表示有缺陷;y′表示YOLO层输出的置信度,信度的取值范围在[0,1];m表示边缘裕度,取m=1。
优选地,在预测所述缺陷位置时,所述检测方法还包括:使用非主极大抑制算法(NMS)滤除对于所述缺陷位置重叠的识别结果,输出所述查询样本xq中缺陷的位置和置信度。
本发明第二方面提出了一种目标检测装置,该装置包括如下模块:样本获取模块,用于获取支撑样本xs和查询样本xq作为输入的两个图像样本;其中,所述支撑样本xs是无缺陷的正常样本,所述查询样本xq是待检测的样本;骨干网络模块,为两个结构相同且权值共享的骨干网络组成,由所述骨干网络分别对支撑样本xs和查询样本xq进行特征提取,得到各自对应的特征图GW(xs)和Gw(xq);特征增强模块,将所述特征图Gw(xs)和Gw(xq)输入特征增强模块,获得各自被增强和/或抑制的特征图vs和vq;特征匹配模块,基于特征匹配模块分别对所述被增强和/或抑制的特征图vs和vq进行相似度度量,输出度量结果H(vs,vq);YOLO层模块,将所述度量结果H(vs,vq)输入YOLO层模块进行回归计算,基于所述回归计算结果预测所述查询样本xq中的缺陷位置和/或置信度。
本发明第三方面提出了一种电子设备,该设备包括:存储器,用于存储非暂时性计算机可读指令;以及处理器,用于运行所述计算机可读指令,使得所述计算机可读指令被所述处理器执行时实现权利要求1至8中任一项所述的目标检测方法。
本发明第四方面提出了一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当所述计算机指令在设备上运行时,使得所述设备执行上述所述的目标检测方法。
本发明第五方面提出了一种上述所述的目标检测方法在纹理类表面缺陷检测中的应用。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明至少具有以下优点及有益效果:
一、本发明采用孪生网络结构,使得目标检测方法的输入端不是一个图像样本,而是由两个图像样本组成的样本对。本发明通过这种结构方式,可以扩增训练样本数量,从而在一定程度上解决了制造带缺陷的样本成本过高,带缺陷的样本数量较少而导致的深度学习模型难以在少量样本中学习到目标缺陷图像特征的问题。
二、本发明采用孪生网络中的度量学习方法,通过学习输入样本对应特征之间的相似性和差异性来提高模型的泛化性能。本发明这种基于孪生网络的度量学习方法在单样本学习的目标检测方法在纹理类表面缺陷检测中提高了泛化性能。
三、本发明通过对YOLOv3目标检测方法和模型的融合改造,采用对深层特征图进行回归来预测目标缺陷的位置和置信度。本发明提出了设计的特征增强网络和特征匹配网络,使其在孪生网络的框架之下能够更好地融合YOLOv3的检测方法和骨干网络模块,实现了在对图像是否带有缺陷进行分类的同时,还能识别出目标缺陷的具***置,在纹理类表面缺陷检测中应用效果较好。
四、本发明一方面,采用开源社区的一种轻量化网络YOLO-fastest作为本发明中的骨干网络。其相比经典的基于DarkNet骨干网络的YOLOv3,本发明所使用的骨干网络参数数量更少,降低了计算的复杂度,实时性更强。另一方面,本发明通过对YOLOv3模型的融合改造,实现了单阶段的单样本学习的目标检测方法和模型,其相比已有的两阶段的单样本学习目标检测方法和模型,在模型的训练和推理上本发明流程更简洁,计算的速度更快,增强了目标检测的实时性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明实施例中单样本学习目标检测方法流程结构示意图;
图2是本发明实施例中所使用到的数据集示意图;
图3是本发明实施例中构造数据集的方法示意图;
图4是本发明实施例中单样本学习目标检测模型的技术框架流程图;
图5是本发明实施例中特征增强网络的内部结构示意图;
图6是本发明实施例中特征匹配网络的内部结构示意图;
图7是本发明实施例与经典YOL0v3-yolofastest在测试集样本上检测效果的比较;
图8是本发明实施例的电子设备的结构示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的其具体实施方式、结构、特征及其功效,详细说明如后。
在工业场景下,基于深度学习的纹理类表面缺陷检测面临着诸多困难。(1)训练数据样本小:制造带缺陷的样本成本太高,因此带缺陷的样本数量较少,导致一般的深度学习模型难以在少量样本中学习到缺陷图像的特征。(2)泛化性能低:基于深度学习的表面缺陷检测方法泛化性能有限,一旦待检测物品的样式或者类别发生了变化,与训练样本差异较大,模型很难保证有效地进行检测。(3)实时性差:深度学习模型的检测速度较慢,难以应用在一些对检测实时性要求比较强的场景。(4)位置检测不准确:尽管目前已有相关方法可以解决上述的三个问题,但是目前的已有的方法只能对图像是否带有缺陷进行分类,而不能识别出缺陷的具***置。
随着以卷积神经网络(CNN)为代表的深度学习的长足发展,越来越多的深度学习模型被应用于精密的工件的表面缺陷检测领域。由于深度学习从大量的数据中进行学习,所以在处理复杂场景如训练数据样本小、泛化性能低、实时性差、位置检测效果差等问题上,其性能远胜过传统的基于样本手工设计的特征提取方案。
针对本领域现有技术存在的问题,本发明是将单样本学习目标检测方法的构思、装置、电子设备、存储介质应用于纹理类表面缺陷检测领域内,本发明的第一方面提出了一种可以对纹理类表面进行缺陷检测的单样本学习的目标检测方法,该方法包括如下步骤:获取支撑样本xs和查询样本xq作为输入的两个图像样本;其中,所述支撑样本xs是无缺陷的正常样本,所述查询样本xq是待检测的样本;由两个结构相同且权值共享的骨干网络分别对支撑样本xs和查询样本xq进行特征提取,得到各自对应的特征图Gw(x3)和Gw(xq);将所述特征图Gw(xs)和Gw(xq)输入特征增强网络,获得各自被增强和/或抑制的特征图vs和vq;基于特征匹配网络分别对所述被增强和/或抑制的特征图vs和vq进行相似度度量,输出度量结果H(vs,vq);将所述度量结果H(vs,vq)输入YOLO层模块进行回归计算,基于所述回归计算结果预测所述查询样本xq中的缺陷位置和/或置信度。本发明的目标检测方法在实现高效快速的缺陷位置检测的同时,一定程度上解决了纹理类表面缺陷检测领域内现有方案中存在的“训练数据样本小”,“泛化性能低”、“实时性差”和“位置检测效果差”的问题。
针对上述技术中所存在的问题,本发明的优选实施方式的目的在于提出一种对纹理类表面进行缺陷检测的单样本学习的目标检测方法。本发明的优选实施方式的技术方案整体框架是将孪生网络与YOLOv3的目标检测方法模型结构进行融合改进,其框架结构和检测流程,如图1和图4所示。本发明的技术方案具体包括如下步骤:
步骤S1:获取支撑样本xs和查询样本xq作为输入的两个图像样本;其中,所述支撑样本xs是无缺陷的正常样本,所述查询样本xq是待检测的样本。具体的,该目标检测方法模型作为一种单样本学习的目标检测方法模型,其输入端是由两个图像样本组成的一个样本对。在进行纹理表面缺陷检测时,一个输入样本是无缺陷的正常样本,此处称其为支撑样本,记作xs,另一个样本是待检测的样本,此处称其为查询样本,记作xq。上述两个样本分别经过单样本学习的目标检测方法模型后,输出待检测样本中缺陷的位置和置信度。当待检测样本的纹理样式发生变化时,只需要将输入端的正常样本替换为具有相同纹理样式的正常样本即可。
在进行纹理类表面缺陷检测的单样本学习之前,首先要构造单样本学习的目标检测方法的构造数据集,构造数据集的步骤包括S11~S14:的步骤如下:
S11:基于德国DAGM2007的数据集构造适合本发明的优选实施方式所涉模型的数据集。该数据集的数据是2007年创建的开源数据集,用于工业图像处理竞赛。该数据集是人工生成的,共包含10种类别的纹理样式,如图2所示。每类数据集由1000个无缺陷图像和150个有缺陷图像组成。每个有缺陷图像都会有一个对应的掩码图用于标注缺陷位置。
S12:由于原数据集的图像尺寸比较大,因此先把每张图像及其掩码图进行4等分,然后重新根据掩码图生成对应缺陷图像的coco格式的标注,对其4等分后的coco格式目标框通过采用归一化中心点横坐标、归一化中心点纵坐标、归一化宽度和归一化高度的处理,如图3所示。
S13:将每种纹理样式的无缺陷样本和有缺陷样本分别存放到两个文件夹,然后进行随机的两两配对,构造符合条件的样本对。
S14:在制造样本对时,本数据集随机挑选7类样本组成的样本对作为训练集和验证集,剩余3类样本作为测试集。在配对的过程中,该数据集为每一个带缺陷样本随机匹配一个同类的无缺陷样本作为一个样本对,当所有的带缺陷样本匹配完成以后,称其完成了一轮匹配。经过数据集预处理,10类样本一共得到3032张带缺陷样本。对于训练集,随机挑选出70%的带缺陷样本,对每种类别进行5轮匹配,共得到90120个样本对;对于验证集,使用剩余的30%的带缺陷样本,对每种类别进行1轮匹配,共得到2242个样本对;对于测试集,对每种类别进行1轮匹配,共得到1119个样本对。
对上述对训练集和验证集作上述设计划分是为了防止验证集中的样本出现在训练集中,以保证验证集中不会混入训练集样本,从而保证评估结果的可信度及有效性。本发明的优选实施方式可以通过如下三种方式实现:
1、留出验证:评估方法模型时,将数据划分为训练集、验证集、测试集。(比较适合大数据集)。
2、k折验证:将训练数据划分为大小相同的k个分区(适合小数据集,本发明的优选实施方式优选实施例不采用)。
3、(k-fold交叉验证)带有打乱节奏的重复k折验证(可用数据集很少)。
在本发明的优选实施方式中,为了防止过拟合,采用如下方式:
(1)采用减小方法模型规格,即减小方法模型学习的参数个数(由层数与每层神经元数决定);在验证集上评估,找到最佳的目标检测方法对应的方法模型规格。
(2)添加权重正则化,即让目标检测方法对应的模型权重只取较小的值,从而限制目标检测方法对应的方法模型的复杂度;可以采用L1正则化、L2正则化等方式。
(3)添加随机失活(dropout)正则化,对某一层使用dropout,即在训练过程中随机将该层的一些输出特征舍弃(即,置0),dropout比率是被设为0的特征所占比例,通常在0.2~0.5之间。
上述数据集构造的过程,获得了纹理类表面进行缺陷检测的单样本图形数据集。本发明的优选实施方式一方面通过构造样本对,该步骤可以实现扩充训练数据集,从而解决纹理类表面缺陷检测中“小样本训练数据”的问题;另一方面,通过采用孪生网络的思想,将输入端为一个图像样本的目标检测方法模型改进为输入端由两个不同的图像样本组成的样本对,通过改进的孪生网络输入端采用的多图像样本的方式,还可以扩增训练样本的数量,从而在一定程度上解决上述深度学习的目标检测方法模型难以在少量样本中学习以到目标缺陷图像特征的问题。
S2,由两个结构相同且权值共享的骨干网络分别对支撑样本xs和查询样本xq进行特征提取,得到各自对应的特征图Gw(xs)和Gw(xq)。也即,由YOLO-fastest构成所述骨干网络并记作Gw;将所述支撑样本xs和查询样本xq分别输入所述骨干网络的输入端进行特征提取;得到各自对应的特征图Gw(xs)和Gw(xq)。
具体的,骨干网络采用经典的YOLO,进一步的可以采用YOLO-fastest,记作Gw。其中,在这里只是为了把网络模型抽象成函数映射,所以可以不写变量,也可以写成作Gw(·)。该网络模型YOLO-fastest是一个开源的网络模型,大量使用深度可分离卷积;相比经典的基于DarketNet的YOLOv3的骨干网络,极大地减少了骨干网络的参数数量,降低了运算复杂度。YOLO-fastest注重的就是单核的实时推理性能,在满足实时条件下的低CPU占用,不仅能在手机移动端达到实时,还能在RK3399,树莓派4以及多种Cortex-A53低成本低功耗设备上满足一定的实时性,而以上嵌入式的设备相比与移动端手机要弱很多,因此,使得YOLO-fastest使用前景更加广泛;并且因为可以向下兼容低配,提高计算速度,成本也更加低廉。上述S2包括的步骤S21~S22如下。
S21,设置骨干网络的模型超参数:将图像尺寸设置为256*256,批量大小(batchsize)为32,每个Epoch中发生模型权重更新的次数(epoch)为40次,骨干网络的模型使用自适应矩估计Adam优化器;自适应矩估计Adam优化器结合了AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,从而计算出更新步长。该自适应矩估计Adam优化器的公式为:
Figure BDA0003654607880000121
其中,θ表示参数向量,
Figure BDA0003654607880000122
表示梯度均值的指数移动计算偏差校正的一阶矩估计,
Figure BDA0003654607880000123
梯度平方的指数移动计算偏差校正的第二个原始矩估计,θt-1表示t-1时刻的更新步长,θt表示t时刻的更新步长,α表示默认学***方两个角度进行自适应调节,而并不是直接由当前梯度所决定。
上述自适应矩估计Adam优化器,其参数的更新不受梯度的伸缩变换影响;更新的步长能够被限制在大致初始学习率的范围内;超参数具有很好的解释性,且通常无需调整或仅需很少的微调,能自动调整学习率以实现步长退火过程,适用于梯度稀疏或梯度存在很大噪声的不稳定目标函数,尤其是适合应用于大规模数据和参数的纹理类表面进行缺陷检测的单样本学习目标的场景。该自适应矩估计Adam优化器实现简单方便,在计算每个参数的自适应学习率时计算高效,对内存需求少。其中,在每一次更新参数利用多少误差,就需要通过一个参数来控制,这个参数就是学习率(Learning rate),也称为步长,将学习率(步长)设置为0.001。
S22,将训练集中的样本对输入YOLO-fastest骨干网络。xs和xq进行特征提取,得到对应的特征图Gw(xs)和Gw(xq)。骨干网络采取孪生网络中权值共享的思想,即输入端的两个样本xs和xq,分别经过两个结构相同的骨干网络,对xs和xq进行特征提取,得到对应的特征图Gw(xs)和Gw(xq)。骨干网络的权值共享是指输入端的两个样本分别经过两个结构相同的骨干网络,而这两个骨干网络的权重是完全相同的。
在本发明的优选实施方式的主要框架中,如附图4所示,将孪生网络的思想与YOLOv3的思想进行结合,其中的骨干网络作为可替换部分,还可以包括但不限于YOLO系列的各种目标检测方法模型的骨干网络,如MobileNet,ResNet,ShuffleNet等图像分类骨干网络的模型,在此不再累述。
S3,所述将特征图Gw(xs和Gw(xq)输入特征增强网络得到各自被增强和/或抑制的特征图vs和vq包括:基于改进的Non-Local注意力机制构建所述特征增强网络;将两个特征图Gw(xs)和Gw(xq)输入所述特征增强网络的输入端;将相关性较强的特征相互增强,同时将相似性较弱的特征相互抑制;通过所述特征增强网络分别输出各自被增强和/或抑制的特征图vs和vq;其中,所述特征图Gw(xs)的维度为ws*hs*c,Gw(xq的维度为wq*hq*c;hs,hq表示特征图Gw(xs)和Gw(xq)的高度尺寸,ws,wq应表示特征图Gw(xs)和Gw(xq)的宽度尺寸,c为特征图Gw(xs)和Gw(xq)的通道数。
具体的,特征增强网络采用改进的Non-Local注意力机制。所谓Non-Local注意力机制是由于计算机视觉领域,尤其对于动态视频序列中,帧内帧间的依赖关系十分重要,特别是行为分类任务,全局内容的理解以及不同帧间的联系,对于分类结果导向作用很强。现在比较通用普遍的做法是,通过循环卷积网络或者通过更深的网络增大感受野提高对全局内容的理解。尽管如此,这种方式仍旧是比较local的,不考虑时间方向或者空间位置,由此带来的最大的问题是:无法进行远距离信息的来回传递;并且Ldeeper网络计算量大,但效率低下,梯度优化起来也比较困难。因此,针对远距离信息传递问题,提高长距离依赖,本发明的优选实施方式的优选实施例从传统的非局部均值滤波方法出发提出卷积网络中的non-local,即:某一像素点处的响应是其他所有点处的特征权重和,将每一个点与其他所有点相关联,实现Non-Local思想。
在特征增强网络采用改进的Non-Local注意力机制之前,首先定义查询样本中的待检测目标是与支撑样本属于同一类别的目标。在查询样本中如果存在待检测目标,那么查询样本特征图中属于待检测目标的特征与支撑样本特征图的相关性会比较强;而查询样本特征图中属于背景特征或者其他非待检测目标的特征与支撑样本特征图的相关性会比较弱。特征增强网络相当于把相关性较弱的特征认为是噪声,把相关性较强的特征认为是待检测目标的目标特征。该特征增强网络的目标特征相当于对相关性较弱的背景特征划归为噪声进行抑制操作,同时对相关性较强的待检测目标的特征划归为待检测增强特征进行增强操作。上述采用改进的Non-Local注意力机制包括如下步骤S31~S35。
S31,如图5所示,根据骨干网络输出端输出的特征图Gw(xs)和Gw(xq),在特征匹配网络层的两个输入端采用特征图Gw(xs)和Gw(xq),维度分别为ws*hs*c和wq*hq*c,其中ws,hs,wq,hq为特征图的空间尺寸,c表示特征图的通道数。
S32,所述将相关性较强的特征相互增强,同时将相似性较弱的特征相互抑制包括:将所述特征图Gw(xs)分别经过两个逐点卷积网卷积,使特征图Gw(xs)的空间尺寸不变,通道数减小一半,结果分别记为g(Gw(xs))和
Figure BDA0003654607880000151
将所述特征图Gw(xq)分别经过两个逐点卷积网卷积,使特征图Gw(xq)的空间尺寸不变,通道数减小一半,结果分别记作g(Gw(xq))和θ(Gw(xq))。
具体的,如图5所示,该注意力机制使用特征图Gw(xs)和Gw(xq)作为输入,PW表示逐点卷积网,即卷积核为1*1,步长为1。Gw(xs)分别经过两个PW卷积,使特征图的空间尺寸不变,且通道数减小一半,即将得到的两个计算结果
Figure BDA0003654607880000152
分别记作g(Gw(xs))和
Figure BDA0003654607880000153
同理,Gw(xq)也分别经过上述两个PW卷积后,使特征图的空间尺寸不变,且通道数减小一半,即将得到的两个计算结果
Figure BDA0003654607880000154
分别记作g(Gw(xq))和θ(Gw(xq))。由于逐点卷积相当于对特征图进行矩阵运算,因此,各自被增强和/或抑制的特征图vs和vq如下所示:
Figure BDA0003654607880000155
Figure BDA0003654607880000156
在公式(1)和(2)中,
Figure BDA00036546078800001516
Wθ
Figure BDA0003654607880000157
Figure BDA0003654607880000158
均为线性变换的系数,i,j表示特征图中
Figure BDA0003654607880000159
的第i个或者WθGw第j个元素,
Figure BDA00036546078800001510
表示上述特征图的相似度计算函数。vs的维度为ws*hs*c,vq的维度为wq*hq*c。g(Gw(xs))相当于上述公式中的
Figure BDA00036546078800001511
同样地,
Figure BDA00036546078800001512
相当于
Figure BDA00036546078800001513
g(Gw(xq))相当于
Figure BDA00036546078800001514
θ(Gw(xq))相当于WθGw(xs)i
S33:步骤S32的公式(1)和(2)中需要对特征图的每个向量计算内积并计算相似度,而在图5的卷积网络中,通过矩阵乘法运算的方式完成向量内积。将
Figure BDA00036546078800001515
和θ(Gw(xq))分别重构为两个二维矩阵;将所述两个二维矩阵进行矩阵相乘,得到维度为wqhq*wshs的矩阵;将所述维度为wqhq*wshs的矩阵输入softmax函数构成的网络层,完成相似度计算;输出维度为wqhq*wshs的矩阵。
具体的,如图5所示,将
Figure BDA0003654607880000161
和θ(Gw(xq))分别输入至重构函数(reshape函数),通过reshape函数将
Figure BDA0003654607880000162
和θ(Gw(xq))转换为两个二维矩阵;将
Figure BDA0003654607880000163
和θ(Gw(xq))转换的两个二维矩阵进行矩阵相乘,得到维度为wqhq*wshs的矩阵;将该矩阵输入进行相似性计算的softmax网络层以完成相似度计算。
上述相关性的计算以及根据相关性对不同的特征进行增强或者抑制,全部在公式中进行一次性计算。具体的是将述维度为wq*hq*ws*hs的特征矩阵的real value向量(a1,a2,a3,a4…ai)映射成一个(b1,b2,b3,b4…bi),其中bi是一个0~1的常数,然后可以根据bi的大小进行排序,例如可以以上述bi的平均值bm为限,当bi的值大于bm时,取权重大于bm的多维bi进行增强的任务;同时,当bi的值小于bm时,取权重最小的一维bi进行削弱的任务。通过上述分别基于特征向量权值的增强和削弱的任务,可以使Gw(xs)中针对小目标的相关性特征在Gw(xq)中增强,削弱了Gw(xs)中针对小目标的相关特征Gw(xq)中的噪声;使Gw(xs)中针对小目标的相关性特征在Gw(xs)中增强,削弱了Gw(xs)中的样本噪声。Softmax函数不会改变输入矩阵的维度,因此其输出的矩阵维度仍然为wqhq*wshs
S34:将g(Gw(xs))和g(Gw(xq))重构为矩阵;将所述矩阵分别与softmax函数的输出进行矩阵相乘,得到维度分别为
Figure BDA0003654607880000164
Figure BDA0003654607880000165
的两个矩阵;将所述维度分别为
Figure BDA0003654607880000166
Figure BDA0003654607880000167
的两个矩阵分别重构为维度
Figure BDA0003654607880000168
Figure BDA0003654607880000169
的两个特征图。
具体的,如图4所示,将g(Gw(xs))和g(Gw(xq))分别输入至reshape函数,通过reshape函数将g(Gw(xs))和g(Gw(xq))转换为矩阵,然后分别通过与上述softmax的输出wq*hq*ws*hs进行矩阵乘法,得到维度分别为
Figure BDA0003654607880000171
Figure BDA0003654607880000172
的两个矩阵。将这两个矩阵分别输入reshape函数,通过reshape函数将
Figure BDA0003654607880000173
Figure BDA0003654607880000174
矩阵转换为维度
Figure BDA0003654607880000175
Figure BDA0003654607880000176
的两个特征图。
本发明的优选实施方式为了使特征图Gw(xs)和Gw(xq)分别互相为对方产生注意力方式,增强支撑样本xs得到的特征图Gw(xs)针对关于查询样本xq产生的特征图Gw(xs)中相关性较强的查询样本关于小目标的特征,通过采用将特征图Gw(xq)进行一次降维变换,将其降维后的特征图Gw(xs)中相关性较强的查询样本关于小目标的特征增强。
S35:注意到上述公式中使用了求和运算,而在图5的网络中,通过矩阵乘法完成求和。具体地,如图5所示,将上一步得到的两个特征图
Figure BDA0003654607880000177
Figure BDA0003654607880000178
分别输入两个PW卷积进行通道数的升维,分别将低维度的维度数为
Figure BDA0003654607880000179
Figure BDA00036546078800001710
的两个特征图矩阵中
Figure BDA00036546078800001711
的通道数升维为c的通道,本发明的优选实施方式为了使特征图Gw(xs)和Gw(xq)分别互相为对方产生注意力方式,增强支撑样本xs得到的特征图Gw(xs)针对关于查询样本xq产生的特征图Gw(xs)中相关性较强的查询样本关于小目标的特征,通过采用将特征图Gw(xq)进行一次升维变换,将其升维后的特征图Gw(xq)中相关性较弱的支撑样本关于小目标的噪声的特征削弱。最后再将上述升维的ws*hs*c和wq*hq*c,分别与Gw(xs)和Gw(xq)相加,得到vs和vq
具体的,通过将升维的ws*hs*c特征图和Gw(xs)特征图相加,使得Gw(xs)特征图中关于升维ws*hs*c的相关性较强的特征(通过去除了支撑样本和查询样本中噪声特征,筛选出了支撑样本和查询样本中相关的相应特征),并通过将上述筛选出的相关的相应特征加入至Gw(xs)特征图中,使Gw(xs)特征图因特征增强网络使得相关性较强的特征得以在Gw(xs)特征图中进一步增强,进而进一步削弱相关性较弱的噪声特征。以进一步提高支撑样本和查询样本之间输入特征图的信噪比,并输入增强后的特征图,分别记作vs和vq
在本发明的优选实施方式中,所述
Figure BDA0003654607880000181
相似度计算函数采用径向基函数计算两个向量之间的相似度,如下所示:
Figure BDA0003654607880000182
在公式(4)中,WθGw(xs)i
Figure BDA0003654607880000183
分别表示两个列向量。由于上述计算过程中的线性算子都是矩阵运算,因此可以使用卷积网络进行替代,而相似度函数计算过程可以使用softmax网络替代。最终,上述改进的Non-Local注意力机制的计算过程可以用附图5所示的神经网络替代。
在本发明的优选实施方式中,上述特征增强网络采用改进的Non-Local注意力机制还可以设置多组,分别级联连接,基于针对样本噪声和小目标特征的特征向量权值进行多级的分类任务,进一步增强样本特征和削弱样本噪声。最后将进行处理后得到的合适的增强和/或削弱后的特征图输出,与之类似的特征向量计算在此不在累述。同时,本发明的优选实施方式的特征增强网络基于Non-Local注意力机制改进,其中相似性度量函数作为可替换部分,现有技术中还可以使用包括但不限于欧式范数,余弦距离等距离度量函数来实现本发明的优选实施方式中相似性度量函数的替换。
本发明的优选实施方式通过将改进的Non-Local注意力机制设计的特征增强网络结构的效果在于可以将待检测目标的目标特征增强的计算过程用基础的神经网络和矩阵运算替代,从而方便整个模型进行训练和部署。
S4,所述基于特征匹配网络分别对所述被增强和/或抑制的特征图vs和vq进行相似度度量,输出度量结果H(vs,,vq)。具体的,特征匹配网络是本发明的优选实施方式中设计的计算相似度的网络模型,旨在求解支撑样本特征图和查询样本特征图之间的相似度。该特征匹配网络的输入层是特征图vs和vq,维度分别为ws*hs*c和wq*hq*c,输出是两个特征图之间的相似度,记作H(vs,vq),该步骤包括如下S41~S43步骤。
S41,将维度分别为ws*hs*c的各自被增强和/或抑制的特征图vs和wq*hq*c的各自被增强和/或抑制的特征图vq输入特征匹配网络。也即,当Gw(xs)特征图因特征增强网络使得相关性较强的特征得以在Gw(xs)特征图中进一步增强。或者当Gw(xs)特征图因特征增强网络使得相关性较弱的特征得以在Gw(xs)特征图中被进一步抑制而减弱。或者是当Gw(xs)特征图因特征增强网络使得相关性较强的特征得以在Gw(xs)特征图中进一步增强,以及当Gw(xs)特征图因特征增强网络使得相关性较弱的特征得以在Gw(xs)特征图中被进一步抑制而减弱。而最终将维度分别为ws*hs*c的各自被增强和/或抑制的特征图vs和wq*hq*c的各自被增强和/或抑制的特征图vq输入特征匹配网络。
S42,对vs的ws*hs个维度为c*1的向量和vq的wq*hq个维度为c*1的向量两两相互组合并按相似度计算公式计算相似度;获得维度为wq*hq*(wshsc)的相似度特征图;所述相似度计算公式为:
similarity(vs,i,vq,j)=(vs,i-vq,j)2 (5)
其中,下标i和j表示vs的第i个向量和vq的第j个向量。
具体的,如图5所示,把vs拆分为或者当做ws*hs个维度为c*1的向量,同样地,把vq拆分为或者当做wq*hq个维度为c*1的向量。分别对vs的向量和vq的向量两两组合,并按公式(5)逐次计算两者的相似度。
上述相似度的计算结果仍然为向量。具体的,如图5所示,最终将得到的相似度向量依次排列成维度为wq*hq*(wshsc)的相似度特征图。
S43,将维度为wq*hq*(wshsc)的相似度特征图进行分组卷积得到维度为wq*hq*c的相似度特征图;其中,所述分组卷积的卷积核尺寸为1*1,步长为1,分组数量为c。
具体的,如图5所示,将相似度特征图进行分组卷积,进一步提取和压缩相似度特征图中的特征,其中,卷积核尺寸为1*1,步长为1,分组数量为c。卷积后特征图的维度为wq*hq*c。此时卷积后得到的结果包含的主要信息是查询样本中待检测目标与支撑样本相似度,可能丢失了关于待检测目标的位置信息。
S43,依次将所述维度为wq*hq*c的相似度特征图与各自被增强和/或抑制的特征图vq沿着wq*hq*c的维度进行拼接;所述特征匹配网络最终输出维度为wq*hq*(2c)的度量结果H(vs,vq)。具体的,如图5所示,将上述卷积后得到的特征图与vq(wq*hq*c)沿着通道数的维度由concat函数进行拼接,得到特征匹配网络最终的输出结果,即H(vs,vq),其维度为wq*hq*(2c)特征图。
在本发明的优选实施方式中网络的结构如附图6所示,附图6中相似度特征图就是相似度计算结果,H(vs,vq)是指特征匹配网络最终的输出结果,并且附图5中的ws*hs*(wq*hq*c)指的是相似度特征图的维度。在本发明的优选实施方式的特征匹配网络中,其相似性度量函数作为可替换部分,如本发明的优选实施方式的技术方案包括但不限于欧式范数,余弦距离等距离度量函数;其中使用的卷积网络作为可替换部分,不限于不同层数,不同卷积核大小的卷积网络或者全连接网络等。一般地,基于孪生网络的度量学习方法属于单样本学习方法范畴,因此本发明的优选实施方式通过改进后的孪生网络度量学习的构思,通过学习输入样本对应特征之间的相似性和差异性来提高单样本学习目标检测方法模型的泛化性能。
S5,将所述度量结果H(vs,vq)输入YOLO层模块进行回归计算,基于所述回归计算结果预测所述查询样本xq中的缺陷位置和/或置信度。具体的,在回归网络采用YOLO层的回归设计,该YOLO层的回归设计依照YOLOv3中YOLO层的设计方案,用于对H(vs,vq)进行回归计算,从而通过YOLO层中的卷积网络预测查询样本中缺陷的位置以及置信度。在对查询样本中缺陷位置进行预测时,使用CIOU作为损失函数,如果使用CIOU,mAP可以达到49.21%,相比于GIOU涨了1.5个百分点。CIOU(D)指在验证模型评价mAP时,将IOU换成DIOU,其准确率将还有一定的提升空间。S5包括步骤S51~S52。
S51,将无缺陷的正常样本xs,待检测样本xq输入上述检测模型,并对检测模型输出待检测样本的位置和置信度进行重叠滤除以识别结果。上述步骤包括如下步骤S511~S512。
S511,在进行纹理表面缺陷检测时,令xs是无缺陷的正常样本,令xq是待检测的样本。经过模型以后,输出待检测样本中缺陷的位置和置信度。
将所述度量结果H(vs,vq)输入YOLO层进行回归计算;基于损失函数CIOU获得所述缺陷位置的预测结果与真值标签之间的第一误差损失,并基于所述第一误差损失预测所述查询样本xq中的缺陷位置。在对缺陷位置进行预测时,使用YOLOv5中的CIOU作为损失函数求解预测结果与真值标签之间的第一误差损失。在本发明的优选实施方式中所使用的CIOU目标框损失函数完全借鉴YOLOv5,其作为可替换部分,可以但不限于均方误差损失函数,IOU损失函数,smooth-L1等其他目标框损失函数来实现对缺陷位置的预测,但是采用YOLOv5中的CIOU作为损失函数该CIOU损失函数设计的更加全面,DIOU考虑到了两个检测框的中心距离。而CIOU考虑到了三个几何因素,分别为:(1)重叠面积;(2)中心点距离;(3)长宽比。通过对比分析,可知CIOU与DIOU相比,增加了一个长宽比的信息参数,因此,CIOU可以增加长宽比的惩罚项,并且该长宽比的惩罚项为一个正数,用来测量待检特征图长宽比的一致性(v measures the consistency of aspect ratio)。
若真实框和预测框的宽高相似,那么惩罚项的值为0,该惩罚项就不起作用了。因此直观地,这个惩罚项作用就是控制预测框的宽高能够尽可能快速地与真实框的宽高接近。因此,所述CIOU损失函数可以通过控制预测框的宽高,使其损失尽可能小,以使其能够尽可能快速地与真实框的宽高接近,以快速减小预测框的宽高框选次数,快速确定预测框的宽高框选,简化运算量,进一步提高计算的速度。
在实际检测中,CIOU与GIOU在框选目标时相比,CIOU为了能找到一个更合适的框选位置。使用GIOU损失函数,在有检测目标在框外的情形时,使用CIOU损失函数,可将检测目标的位置准确标出。同样,GIOU在框选目标时虽然完整标出,但并不能准确框选出检测目标的轮廓,因而,使用CIOU作为损失函数,相比GIOU在框选目标时检测框框选的位置和精准度更合适,更能满足工业化高精度检测的需求。
在对置信度进行预测时,基于孪生网络中的三元损失函数获得所述缺陷位置的预测置信度与真值标签之间的第二误差损失,并基于所述第二误差损失预测所述查询样本xq中的缺陷位置的置信度;所述三元损失函数为:
TripleLoss=∑max((1-y)y′+y(m-y′),0)
其中,y为标签,0表示无缺陷,1表示有缺陷;y′表示YOLO层输出的置信度,信度的取值范围在[0,1];m表示边缘裕度,取m=1。
交叉熵损失函数在目标检测领域中,交叉熵是用来判定实际的输出与期望的输出的接近程度,其能够衡量同一个随机变量中两个概率分布的差异程度,在机器学习中表示为真实概率分布与预测概率分布之间的差异,交叉熵的值越小,模型预测效果就越好,且交叉熵损失函数解决了逻辑回归中采用MSE导致梯度优化缓慢的问题。但是其对于正样本而言,输出概率越大,损失越小;对于负样本而言,输出概率越小则损失越小。此时的损失函数在大量简单样本的选代过程中比较缓慢且可能无法优化到满意的优化结果。
Focal-Loss损失函数是在平衡交叉熵损失基础上增加一个调节因子和可聚焦参数,让损失函数聚焦在困难样本的训练。该函数可以通过减少易分类样本的权重,使得模型在训练时更专注于准分类的样本,调节正负样本的不均衡。而目前解决正负样本数量不均衡问题有两个途径:设计采样策略,一般都是对数量少的样本进行重采样;设计LossFunction,一般都是对不同类别样本进行权重赋值,以解决目标检测中正负样本比例、难易样本严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重,具有困难样本挖掘优势,但是对简单样本的训练预测不足。
三元损失函数TripletIoss是最小化锚点和具有相同身份的正样本之间的距离,最小化锚点和具有不同身份的负样本之间的距离。Tripletloss的目标是使得相同标签的特征在空间位置上尽量靠近,同时不同标签的特征在空间位置上尽量远离,同时为了不让样本的特征聚合到一个非常小的空间中要求对于同一类的两个正例和一个负例,负例应该比正例的距离至少远margin。可以看出经过Tripletloss学习以后同类的Positive样本和Anchor的距离越来越近而不同类的Negative样本和Anchor的距离越来越远。
本发明的优选实施方式通过三元损失函数Tripletloss学习以后同类的Positive样本和Anchor的距离越来越近而不同类的Negative样本和Anchor的距离越来越远。不仅解决了交叉嫡损失函数在样本类别不均衡的情况会导致模型的优化方向存在偏差的问题,而且克服了Focal-Loss损失函数偏重于准分类的样本,具有困难样本挖掘优势,但是对简单样本的训练预测不足的问题。与此同时,本发明的优选实施方式采用三元损失函数作为置信度损失函数,避免了相同标签的特征在空间位置上的分散,不同标签的特征在空间位置上聚集,同时可使样本的特征不能聚合到一个非常小的空间内。
在本发明的优选实施方式中使用三元损失函数作为置信度损失函数,其作为可替换部分,可以但不限于交叉熵损失函数,Focal-Loss损失函数等其他目标检测或图像分类中常用的置信度损失函数也可以用来实现对置信度的预测,在此不再累述。
S512:在预测所述缺陷位置时,所述检测方法还包括:使用非主极大抑制算法(NMS)滤除对于所述缺陷位置重叠的识别结果,输出所述查询样本xq中缺陷的位置和置信度。所述非主极大抑制算法(NMS)是目标检测领域中被广泛使用的抑制方法。
在本发明的优选实施方式的YOLO层结构中,采用YOLOv3中YOLO层的设计方式和构思,通过对深层特征图进行回归来预测目标的位置和置信度。本发明的优选实施方式设计并提出的特征增强网络和特征匹配网络在孪生网络的框架之下能够更好地融合YOLOv3的YOLO层,其相比于目前可替换的技术方案,还包括但不限于YOLO系列各种目标检测模型的YOLO层。在本发明的优选实施方式的YOLO层中,通过对深层特征图进行回归来预测目标的位置和置信度。本发明的优选实施方式提出并设计的特征增强网络和特征匹配网络,通过使其处理后的深层特征图进行回归来预测目标的位置和置信度,其预测方法和效率上更简洁和高效,实现了在孪生网络的框架之下能够更好地融合YOLOv3中YOLO层的计算方法和构思。
本发明优选实施方式的还提供了一种单样本学习的目标检测装置,该目标检测装置包括如下模块:样本获取模块,用于获取支撑样本xs和查询样本xq作为输入的两个图像样本;其中,所述支撑样本xs是无缺陷的正常样本,所述查询样本xq是待检测的样本。骨干网络模块,为两个结构相同且权值共享的骨干网络组成,由所述骨干网络分别对支撑样本xs和查询样本xq进行特征提取,得到各自对应的特征图Gw(xs)和Gw(xq)。特征增强模块,将所述特征图Gw(xs)和Gw(xq)输入特征增强模块,获得各自被增强和/或抑制的特征图vs和vq。特征匹配模块,基于特征匹配模块分别对所述被增强和/或抑制的特征图vs和vq进行相似度度量,输出度量结果H(vs,,vq)。YOLO层模块,将所述度量结果H(vs,vq)输入YOLO层模块进行回归计算,基于所述回归计算结果预测所述查询样本xq中的缺陷位置和/或置信度。
本发明的优选实施方式提供的一种单样本学习的目标检测装置中的骨干网络模块是将孪生网络和YOLOv3的骨干网络结合;本发明的优选实施方式的YOLO层的设计是结合并融合了YOLOv3的设计方法,但不使用YOLOv3的骨干网络模块,而是采用了一种更轻量化的开源的骨干网络模块yolofastest。本发明的优选实施方式的yolofastest骨干网络模块通过结合YOLOv3目标检测方法模型,本发明的优选实施方式能够采用更高效的目标检测算法实现缺陷位置的检测,达到了对表面缺陷进行位置进行实时检测的技术效果。
本发明的优选实施方式所涉及的一种缺陷检测的单样本学习的目标检测装置,通过采用设计的特征增强模块和特征匹配模块,并在孪生网络的框架下对目标特征进行“特征增强”和“特征匹配”,使其更有效地结合YOLOv3,并融合入的YOLO层进行回归计算,通过结合孪生网络结构,使得缺陷检测的单样本学习的目标检测装置的输入端不再是一个图像样本,而是由两个图像样本组成的样本对。通过这种方式,本发明的优选实施方式可以扩增训练样本数量,从而在一定程度上解决了表面缺陷检测中“训练数据样本小”的问题。
本发明的优选实施方式结合了改进的孪生网络结构中度量学习的构思,通过学习输入样本对应特征之间的相似性和差异性来提高模型的泛化性能,进一步的,本发明的优选实施方式提供的一种缺陷检测的单样本学习目标检测装置,通过增加基于改进的Non-Local注意力机制设计的特征增强网络,该特征增强网络可以对输入端的两个特征图同时进行处理,相互增强相关性(或相似性)较强的特征同时抑制相似性较弱的特征,一定程度上解决了“低泛化性能”的问题,达到了进一步增强模型泛化性能的技术效果。
如图8所示,本发明的优选实施方式还提供了一种电子设备,该目标检测电子设备800包括:存储器801,用于存储非暂时性计算机可读指令;以及处理器802,用于运行所述计算机可读指令,使得所述计算机可读指令被所述处理器执行时实现上述所述的单样本学习的目标检测方法。
本发明的优选实施方式还提供一种计算机可读存储介质,其上存储有可执行代码,可执行代码在被处理器执行时,使得处理器执行时实现上述所述的单样本学习的目标检测方法。
本领域技术人员应能理解,为了解决如何获得良好用户体验效果的技术问题,本实施例中也可以包括诸如通信总线、接口等公知的结构,这些公知的结构也应包含在本发明的优选实施方式的保护范围之内。有关本实施例的详细说明和技术效果可以参考前述各实施例中的相应说明,在此不再赘述。
本发明的优选实施方式所提供的单样本学习目标检测电子设备,一方面通过使用轻量化的YOLO-fastest网络设计替代了标准YOLOv3方案中的骨干网络模模块,相比经典的基于DarkNet骨干网络的YOLOv3,本发明的优选实施方式所使用的骨干网络的参数数量更少,计算复杂度更低,实时性更强。另一方面,本发明的优选实施方式通过YOLOv3中的目标检测方法,采用了YOLO-fastest更有效的实现了单阶段的单样本学习目标检测方法模型,相比已有的两阶段的单样本学习目标检测方法模型,简化了单样本学习目标检测方法模型的复杂性,降低了单样本学习目标检测方法模型的运算量,本发明的优选实施方式在模型的训练和推理上,使整个训练和推理的流程也更加的简洁高效,计算的速度更快,解决了表面缺陷检测中“实时性差”的问题。本发明的优选实施方式所提供的单样本学习的目标检测电子设备通过加入特征匹配模块,提高模型进行度量学习的能力,达到了进一步增强该方法模型泛化性能的技术效果。
本发明的优选实施方式还提供了一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当所述计算机指令在设备上运行时,使得所述设备执行上述所述的单样本学习的目标检测方法。
其中,本发明的优选实施方式提供的装置、设备、计算机可读存储介质和计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
本发明的优选实施方式还提供了单样本学习的目标检测方法在纹理类表面缺陷检测中的应用。在应用于纹理类表面缺陷检测中时,首先上述目标检测方法模型通过类纹理表面缺陷检测的单样本学习的目标检测方法模型进行深度学习,再基于学习的基础上进行纹理类表面缺陷的识别,对识别结果进行对比分析,并对本发明的优选实施方式目标检测方法模型进行评估的结果如下。
本实施例将经典的YOLO与本发明的优选实施方式进行比较,在同样使用YOLO-fastest作为骨干网络时,两者的检测性能比较如附图2、3和表1所示,其中Seen Classes表示这些类别都是训练数据集中出现过的类别,属于验证集;Unseen Classes表示这些类别都是训练数据集中没有出现过的类别,属于测试集。此处Seen表示训练集中出现过的纹理类别,分别是2,3,4,6,7,8,9。Useen则是表示训练集中没有出现过的纹理类别,分别是1,5,10。由于是按照7∶3随机将这10种类别分到Seen和Unssen,因此类别序号的顺序被打乱了。
表1
Figure BDA0003654607880000271
在本发明的优选实施方式中,YOLOv3-yolofastest的训练样本图像共有3032张;而本发明的优选实施方式的训练样本对经过多次两两配对以后一共得到90120对。从Seen对应的检测结果来看,本发明的优选实施方式在随机获取的7种类别中的目标检测性能的数据结果与YOLOv3-yolofastest相比均有相应的提升。该结果说明本发明的优选实施方式提供的检测方法相比OLOv3-yolofastest一定程度上解决了纹理类表面缺陷检测领域中“小样本训练数据”的困难。
从Unssen的结果可以看出本发明的优选实施方式的泛化能力比经典的YOLOv3更强;从Seen的结果可以看出本发明的优选实施方式的在小样本训练数据集的问题上具有更强的学习能力。即本发明的优选实施方式提出的方法无论在验证集上还是在测试集上性能都要优于经典的YOLOv3。图7展示了经典YOLOv3与本发明的优选实施方式在测试集样本上的检测效果,可以看到本发明的优选实施方式还可以对没有在训练集中出现的纹理类别进行有效的缺陷检测,而经典的YOLOv3在缺陷检测过程中则出现了漏检,误检等情况,对应的真值精确度并不能满足高精度工业化目标检测的要求。上述检测的结果数据验证了本发明的优选实施方式在实现表面缺陷位置检测的同时,还能够有效解决该技术背景中存在的“小样本训练数据”和“低泛化性能”这两个问题。如表1所示,本发明的优选实施方式提高了目标检测过程中的泛化性能,该表1展示的结果正好验证了通过提高泛化性能之后,从而有效的避免了漏检、误检。
本实施例在GTX1660S上的检测一张缺陷样本速度可以达到20ms左右,而经典的基于DarkNet的YOLOv3的检测速度需要大约200ms。该结果验证了本发明的优选实施方式能够有效解决该技术背景中存在的“实时性差”这个问题。
本发明的优选实施方式与现有技术方案的区别。
(1)目前已有的纹理类表面缺陷检测的技术方案可以检测出缺陷的位置,计算速度可能也足够快。但是这些方案泛化性能很低,无法进行对不同类别样式的纹理进行表面缺陷检测。
(2)目前已有的纹理类表面缺陷检测的技术方案可以对图像是否有缺陷进行分类,并且能够在带缺陷图像样本数量较少的情况下有效地进行学习,具有较强的泛化性能和较高的实时性。例如,基于孪生网络改进的分类模型(VGG16,ResNet50,MobileNetv3等),但是这些方案或是只能对图像进行分类,无法得到缺陷的具***置,或是使用滑动窗口等较为落后且计算复杂度较高的方法获取缺陷的位置。
以上所述,仅是本发明的优选实施方式的较佳实施例而已,并非对本发明的优选实施方式作任何形式上的限制,虽然本发明的优选实施方式已以较佳实施例揭露如上,然而并非用以限定本发明的优选实施方式,任何熟悉本专业的技术人员,在不脱离本发明的优选实施方式技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明的优选实施方式技术方案内容,依据本发明的优选实施方式的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明的优选实施方式技术方案的范围内。

Claims (12)

1.一种目标检测方法,其特征在于,包括如下步骤:
获取支撑样本xs和查询样本xq作为输入的两个图像样本;其中,所述支撑样本xs是无缺陷的正常样本,所述查询样本xq是待检测的样本;
由两个结构相同且权值共享的骨干网络分别对支撑样本xs和查询样本xq进行特征提取,得到各自对应的特征图Gw(xs)和Gw(xq);
将所述特征图Gw(xs)和Gw(xq)输入特征增强网络,获得各自被增强和/或抑制的特征图vs和vq
基于特征匹配网络分别对所述被增强和/或抑制的特征图vs和vq进行相似度度量,输出度量结果H(vs,vq);
将所述度量结果H(vs,vq)输入YOLO层模块进行回归计算,基于所述回归计算结果预测所述查询样本xq中的缺陷位置和/或置信度。
2.根据权利要求1所述的目标检测方法,其特征在于,所述由两个结构相同且权值共享的骨干网络分别对支撑样本xs和查询样本xq进行特征提取,得到各自对应的特征图Gw(xs)和Gw(xq)包括:
由YOLO-fastest构成所述骨干网络并记作Gw;
将所述支撑样本xs和查询样本xq分别输入所述骨干网络的输入端进行特征提取;
得到各自对应的特征图Gw(xs)和Gw(xq)。
3.根据权利要求1所述的目标检测方法,其特征在于,所述将特征图Gw(xs)和Gw(xq)输入特征增强网络得到各自被增强和/或抑制的特征图vs和vq包括:
基于改进的Non-Local注意力机制构建所述特征增强网络;
将两个特征图Gw(xs)和Gw(xq)输入所述特征增强网络的输入端;
将相关性较强的特征相互增强,同时将相似性较弱的特征相互抑制;
通过所述特征增强网络分别输出各自被增强和/或抑制的特征图vs和vq
其中,所述特征图Gw(xs)的维度为ws*hs*c,Gw(xq)的维度为wq*hq*c;hs,hq表示特征图Gw(xs)和Gw(xq)的高度尺寸,ws,wq应表示特征图Gw(xs)和Gw(xq)的宽度尺寸,c为特征图Gw(xs)和Gw(xq)的通道数。
4.根据权利要求3所述的目标检测方法,其特征在于,所述将相关性较强的特征相互增强,同时将相似性较弱的特征相互抑制包括:
将所述特征图Gw(xs)分别经过两个逐点卷积网卷积,使特征图Gw(xs)的空间尺寸不变,通道数减小一半,结果分别记为g(Gw(xs))和
Figure FDA0003654607870000021
将所述特征图Gw(xq)分别经过两个逐点卷积网卷积,使特征图Gw(xq)的空间尺寸不变,通道数减小一半,结果分别记作g(Gw(xq))和θ(Gw(xq));
Figure FDA0003654607870000022
和θ(Gw(xq))分别重构为两个二维矩阵;将所述两个二维矩阵进行矩阵相乘,得到维度为wqhq*wshs的矩阵;将所述维度为wqhq*wshs的矩阵输入softmax函数构成的网络层,完成相似度计算;输出维度为wqhq*wshs的矩阵;
将g(Gw(xs))和g(Gw(xq))重构为矩阵;将所述矩阵分别与softmax函数的输出进行矩阵相乘,得到维度分别为
Figure FDA0003654607870000023
Figure FDA0003654607870000024
的两个矩阵;将所述维度分别为
Figure FDA0003654607870000025
Figure FDA0003654607870000026
的两个矩阵分别重构为维度
Figure FDA0003654607870000027
Figure FDA0003654607870000028
的两个特征图;
将所述维度
Figure FDA0003654607870000029
Figure FDA00036546078700000210
的两个特征图分别输入两个逐点卷积网卷积,进行通道数升维;将通道数升维的结果分别与Gw(xs)和Gw(xq)相加,得到vs和vq
Figure FDA00036546078700000211
Figure FDA0003654607870000031
其中,
Figure FDA0003654607870000032
Wθ
Figure FDA0003654607870000033
Figure FDA0003654607870000034
均为线性变换的系数,i,j表示特征图中
Figure FDA0003654607870000035
的第i个或者WθGW第j个元素,
Figure FDA0003654607870000036
表示上述特征图的相似度计算函数;vs的维度为ws*hs*c,vq的维度为wq*hq*c。
5.根据权利要求4所述的目标检测方法,其特征在于,所述
Figure FDA0003654607870000037
相似度计算函数采用径向基函数计算两个向量之间的相似度,如下所示:
Figure FDA0003654607870000038
其中,WθGw(xs)i
Figure FDA0003654607870000039
分别表示两个列向量。
6.根据权利要求5所述的目标检测方法,其特征在于,所述基于特征匹配网络分别对所述被增强和/或抑制的特征图vs和vq进行相似度度量,输出度量结果H(vs,vq)包括:
将维度分别为ws*hs*c的各自被增强和/或抑制的特征图vs和wq*hq*c的各自被增强和/或抑制的特征图vq输入特征匹配网络;
对vs的ws*hs个维度为c*1的向量和vq的wq*hq个维度为c*1的向量两两相互组合并按相似度计算公式计算相似度;获得维度为wq*hq*(wshsc)的相似度特征图;所述相似度计算公式为:
similarity(vs,i,vq,j)=(vs,i-vq,j)2
其中,下标i和j表示vs的第i个向量和vq的第j个向量;
将维度为wq*hq*(wshsc)的相似度特征图进行分组卷积得到维度为wq*hq*c的相似度特征图;其中,所述分组卷积的卷积核尺寸为1*1,步长为1;
依次将所述维度为wq*hq*c的相似度特征图与各自被增强和/或抑制的特征图vq沿着wq*hq*c的维度进行拼接;
所述特征匹配网络最终输出维度为wq*hq*(2c)的度量结果H(vs,vq)。
7.根据权利要求6所述的目标检测方法,其特征在于,所述将所述度量结果H(vs,vq)输入YOLO层进行回归计算,基于所述回归计算结果预测所述查询样本xq中的缺陷位置和/或置信度包括:
将所述度量结果H(vs,vq)输入YOLO层进行回归计算;
基于损失函数CIOU获得所述缺陷位置的预测结果与真值标签之间的第一误差损失,并基于所述第一误差损失预测所述查询样本xq中的缺陷位置;和/或
在对置信度进行预测时,基于孪生网络中的三元损失函数获得所述缺陷位置的预测置信度与真值标签之间的第二误差损失,并基于所述第二误差损失预测所述查询样本xq中的缺陷位置的置信度;
所述三元损失函数为:
TripleLoss=∑max((1-y)y′+y(m-y′),0)
其中,y为标签,0表示无缺陷,1表示有缺陷;y′表示YOLO层输出的置信度,信度的取值范围在[0,1];m表示边缘裕度,取m=1。
8.根据权利要求7所述的目标检测方法,其特征在于,在预测所述缺陷位置时,所述检测方法还包括:使用非主极大抑制算法(NMS)滤除对于所述缺陷位置重叠的识别结果,输出所述查询样本xq中缺陷的位置和置信度。
9.一种目标检测装置,其特征在于,包括如下模块:
样本获取模块,用于获取支撑样本xs和查询样本xq作为输入的两个图像样本;其中,所述支撑样本xs是无缺陷的正常样本,所述查询样本xq是待检测的样本;
骨干网络模块,为两个结构相同且权值共享的骨干网络组成,由所述骨干网络分别对支撑样本xs和查询样本xq进行特征提取,得到各自对应的特征图Gw(xs)和Gw(xq);
特征增强模块,将所述特征图Gw(xs)和Gw(xq)输入特征增强模块,获得各自被增强和/或抑制的特征图vs和vq
特征匹配模块,基于特征匹配模块分别对所述被增强和/或抑制的特征图vs和vq进行相似度度量,输出度量结果H(vs,vq);
YOLO层模块,将所述度量结果H(vs,vq)输入YOLO层模块进行回归计算,基于所述回归计算结果预测所述查询样本xq中的缺陷位置和/或置信度。
10.一种电子设备,其特征在于,包括:
存储器,用于存储非暂时性计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述计算机可读指令被所述处理器执行时实现权利要求1至8中任一项所述的目标检测方法。
11.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在设备上运行时,使得所述设备执行如权利要求1至8中任一项所述的目标检测方法。
12.一种权利要求1至8中任一项所述的目标检测方法在纹理类表面缺陷检测中的应用。
CN202210555245.5A 2022-05-20 2022-05-20 目标检测方法、装置、电子设备、存储介质及其应用 Pending CN115564983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210555245.5A CN115564983A (zh) 2022-05-20 2022-05-20 目标检测方法、装置、电子设备、存储介质及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210555245.5A CN115564983A (zh) 2022-05-20 2022-05-20 目标检测方法、装置、电子设备、存储介质及其应用

Publications (1)

Publication Number Publication Date
CN115564983A true CN115564983A (zh) 2023-01-03

Family

ID=84736524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210555245.5A Pending CN115564983A (zh) 2022-05-20 2022-05-20 目标检测方法、装置、电子设备、存储介质及其应用

Country Status (1)

Country Link
CN (1) CN115564983A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797788A (zh) * 2023-02-17 2023-03-14 武汉大学 基于深度学习的多模态铁路设计要素遥感特征提取方法
CN116991459A (zh) * 2023-08-18 2023-11-03 中南大学 一种软件多缺陷信息预测方法与***
CN117670882A (zh) * 2024-01-31 2024-03-08 国网江西省电力有限公司电力科学研究院 一种瓷绝缘子串无人机红外自动对焦方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797788A (zh) * 2023-02-17 2023-03-14 武汉大学 基于深度学习的多模态铁路设计要素遥感特征提取方法
CN115797788B (zh) * 2023-02-17 2023-04-14 武汉大学 基于深度学习的多模态铁路设计要素遥感特征提取方法
CN116991459A (zh) * 2023-08-18 2023-11-03 中南大学 一种软件多缺陷信息预测方法与***
CN116991459B (zh) * 2023-08-18 2024-04-26 中南大学 一种软件多缺陷信息预测方法与***
CN117670882A (zh) * 2024-01-31 2024-03-08 国网江西省电力有限公司电力科学研究院 一种瓷绝缘子串无人机红外自动对焦方法及***
CN117670882B (zh) * 2024-01-31 2024-06-04 国网江西省电力有限公司电力科学研究院 一种瓷绝缘子串无人机红外自动对焦方法及***

Similar Documents

Publication Publication Date Title
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN115564983A (zh) 目标检测方法、装置、电子设备、存储介质及其应用
US11585918B2 (en) Generative adversarial network-based target identification
CN112364931B (zh) 一种基于元特征和权重调整的少样本目标检测方法及网络***
CN114972213A (zh) 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法
CN111783841A (zh) 基于迁移学习和模型融合的垃圾分类方法、***及介质
CN113628211B (zh) 参数预测推荐方法、设备及计算机可读存储介质
CN115222998B (zh) 一种图像分类方法
WO2024032010A1 (zh) 一种基于迁移学习策略的少样本目标实时检测方法
CN113160117A (zh) 一种自动驾驶场景下的三维点云目标检测方法
CN116543433A (zh) 一种基于改进YOLOv7模型的口罩佩戴检测方法和装置
CN113609904B (zh) 一种基于动态全局信息建模和孪生网络的单目标跟踪算法
CN114707604A (zh) 一种基于时空注意力机制的孪生网络跟踪***及方法
CN114118303A (zh) 基于先验约束的人脸关键点检测方法及装置
WO2024078112A1 (zh) 一种舾装件智能识别方法、计算机设备
CN116597275A (zh) 一种基于数据增强的高速移动目标识别方法
Feng et al. Meta-learning based infrared ship object detection model for generalization to unknown domains
CN115311550A (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
CN115423091A (zh) 一种条件对抗神经网络训练方法、场景生成方法和***
Cao Deep learning methods for objective detection
Reis et al. Dense crowd counting with capsule networks
CN117576381B (zh) 目标检测训练方法及电子设备、计算机可读存储介质
CN114998990B (zh) 一种工地人员安全行为识别方法及装置
CN118351118A (zh) 基于深度卷积神经网络的打印机外壳缺陷检测方法及装置
CN116721295A (zh) 一种基于深度度量学习的小样本图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination