CN116758036A - 基于Mask R-CNN的齿轮缺陷分割模型及训练方法和检测方法 - Google Patents

基于Mask R-CNN的齿轮缺陷分割模型及训练方法和检测方法 Download PDF

Info

Publication number
CN116758036A
CN116758036A CN202310734380.0A CN202310734380A CN116758036A CN 116758036 A CN116758036 A CN 116758036A CN 202310734380 A CN202310734380 A CN 202310734380A CN 116758036 A CN116758036 A CN 116758036A
Authority
CN
China
Prior art keywords
image
gear
gear end
segmentation model
defect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310734380.0A
Other languages
English (en)
Inventor
文超
鄢萍
苏迎涛
林君瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202310734380.0A priority Critical patent/CN116758036A/zh
Publication of CN116758036A publication Critical patent/CN116758036A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Mask R‑CNN的齿轮缺陷分割模型及训练方法和检测方法,在获取包含整个齿轮的端面图像后,采用基于Otsu阈值分割和中值滤波的中心裁剪对齿轮外接矩形区域进行裁剪,减少图像冗余背景;根据设定的实例分割模型输入图像大小,采用基于SAHI的滑动重叠裁剪将图像裁剪成多张小图,混合采用图像翻转、随机噪声、随机亮度调整和随机平移的数据增强方式对裁剪后图像进行增强,从而更好的支撑模型的训练以及后续的检测;再利用训练完成的基于Mask R‑CNN的齿轮缺陷分割模型分别对每张小图进行分割,并输出对应的分割结果;最后使用非最大值合并法,将多张小图合并成一张大图并作为最终分割结果输出。

Description

基于Mask R-CNN的齿轮缺陷分割模型及训练方法和检测方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种齿轮端面缺陷分割模型及训练方法和缺陷的检测方法。
背景技术
齿轮是变速箱、转动装置、换挡装置等旋转机械设备中的重要零件,被广泛应用于汽车领域、船舶领域、航天领域以及军工领域等多个行业领域。齿轮质量主要由功能质量、性能质量和外观质量等方面组成,其中功能质量和性能质量是最基本的质量要求,主要考虑齿轮所承受的载荷、使用的重要性、热加工工艺等方面;齿轮外观质量会对精密机械元器件的传动精度、使用寿命和安全性等方面产生影响,从而导致产品价值受损。因此在齿轮的制造生产环节中,质检是整个生产流程中的关键环节,生产者需要对齿轮的端面状态进行检测,以此判断齿轮是否存在瑕疵和缺陷,并根据检测结果对齿轮做相应的处理。
在工业检测领域,基于机器视觉的产品外观缺陷检测是一项重要的应用,已经取代了传统的人工缺陷检测。随着机器学习和人工智能技术的发展,基于机器学习的缺陷检测分类模型,尤其是基于深度学习的图像处理算法模型越来越多的应用在产品外观缺陷检测中。因此,如何提供一种针对齿轮端面缺陷检测准确性和可靠性高,能够快速有效的分割出每个缺陷区域的图像处理模型,就需要进一步进行考虑。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种检测准确性和可靠性高,能够快速有效的分割出每个缺陷区域的齿轮端面缺陷分割模型。
为了解决上述技术问题,本发明采用了的技术方案:
一种齿轮端面缺陷分割模型,包括特征提取部分、候选特征图生成部分和结果预测部分,特征提取部分使用ResNet50+PAFPN网络结构能够对图像上缺陷部分的图像特征进行提取,并在ResNet50网络结构中的C3和C5卷积层增加了一个CA注意力模块;候选特征图生成部分使用RPN生成区域候选框,使用ROI Align生成候选特征图;结果预测部分使用全连接网络和全卷积网络分别对候选特征图的类别、位置和掩码进行预测。
因为齿轮端面缺陷类型和特征复杂度不高,本发明模型中使用层数较少的ResNet50进行特征提取,通常齿轮端面缺陷的尺寸较小,选择在ResNet50中感受野较小的C3卷积层后添加CA注意力机制。同时为了增强深层语义信息的提取能力,在ResNet50的C5卷积层后添加CA注意力机制。本发明使用能有效缩短底层与顶层特征距离的PAFPN代替FPN进行多尺度特征融合,从而避免FPN结构缺陷,实现模型分割性能的增强。通过在原始FPN的基础上增加一次由底层向上层的特征融合,缩短底层与顶层特征之间的距离,使模型特征提取部分拥有更加可靠的特征信息传递,从而实现特征提取能力的增强。
一种齿轮端面缺陷分割模型的训练方法,包括以下步骤:
(1)获取若干张需要进行检测的齿轮端表面缺陷图片,并使用标注软件分别对齿轮端表面缺陷图片上的缺陷区域进行标注;
(2)使用图像翻转、随机噪声、随机亮度调整和随机平移四种增强方式对步骤(1)中标注后的图片进行扩增,建立数据集;
(3)获取上述的所述齿轮端面缺陷分割模型,使用数据集对所述齿轮端面缺陷分割模型进行训练。
作为优化,在步骤(1)中,对标注后的图片使用基于Otsu阈值分割和中值滤波的图像中心裁剪降低图像中的冗余背景,使用基于SAHI的图像滑动重叠裁剪减小图像大小,得到多张裁剪图。
作为优化,在步骤(3)中,模型训练参数设置为:优化器为SGD、初始学习率为0.007、学习率使用step方式进行衰减、训练批量为2、迭代次数为30。
作为优化,在步骤(1)中,使用标注工具LabelMe中的polygon命令对缺陷区域进行标注,然后给标注区域增加相应描述文本,保存文件即可完成图像的标注工作。
一种齿轮端面缺陷的检测方法,获取齿轮端面的图片和上述中的所述齿轮端面缺陷分割模型,并利用上述的所述齿轮端面缺陷分割模型的训练方法对所述齿轮端面缺陷分割模型进行训练,训练完成后将齿轮端面的图片输入到所述齿轮端面缺陷分割模型中,所述齿轮端面缺陷分割模型输出检测结果。
作为优化,齿轮端面的图片使用基于Otsu阈值分割和中值滤波的图像中心裁剪降低图像中的冗余背景,使用基于SAHI的图像滑动重叠裁剪减小图像大小,得到多张裁剪图,将这些裁剪图分别经过所述齿轮端面缺陷分割模型进行检测,将所有得到的检测结果使用非最大值合并得到整图输出,作为最终检测结果。
相比现有技术,本发明具有以下优点:本发明针对传统分割算法难以有效分割并提取缺陷特征问题,提出了一种基于CA注意力机制和PAFPN多尺度特征融合网络的Mask R-CNN模型,实现齿轮端表面缺陷实例分割;该模型通过嵌入CA注意力机制和改进多尺度特征融合网络为PAFPN的方式,增强模型特征提取能力。另外针对图像分辨率过高无法适应实例分割模型的问题,提出一种图像多级裁剪方法,去除图像中的冗余背景并将图像裁剪成多张小图,实现图像分辨率的降低;混合采用图像翻转、随机噪声、随机亮度调整和随机平移的增强方式对裁剪后图像进行增强,实现缺陷图像样本数量扩增从而更好地支撑分割模型的训练。
附图说明
图1为本发明中模型的网络框架图;
图2为本发明中ResNet50的结构图;
图3为本发明中ResNet50加入注意力机制的位置图;
图4为本发明中CA注意力机制的运行流程图;
图5为本发明中PAFPN的结构图;
图6为本发明中ResNet50+PAFPN的结构图;
图7为本发明中齿轮图像中心裁剪各阶段示意图;
图8为本发明中齿轮图像增强结果示意图;
图9为本发明中齿轮图像滑动裁剪示例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本具体实施方式中的一种齿轮端面缺陷分割模型,包括特征提取部分、候选特征图生成部分和结果预测部分,特征提取部分使用ResNet50+PAFPN网络结构能够对图像上缺陷部分的图像特征进行提取,并在ResNet50网络结构中的C3和C5卷积层增加了一个CA注意力模块;候选特征图生成部分使用RPN生成区域候选框,使用ROI Align生成候选特征图;结果预测部分使用全连接网络和全卷积网络分别对候选特征图的类别、位置和掩码进行预测。
由于齿轮端面缺陷分割精度将直接影响缺陷评级方法的准确性,而Mask R-CNN网络对于目标的特征提取效果有限,容易丢失分割目标的细节特征信息,导致模型的识别和分割精度不高,同时齿轮端表面也常存在油渍、毛刺和铁屑残渣等非缺陷干扰物,需要使用特征提取能力更强的网络。因此本发明中的模型在Mask R-CNN网络基础之上,使用协调注意力机制对主干网络进行特征提取能力增强,同时改进多尺度特征融合网络为特征融合效果更好的PAFPN,实现模型特征提取能力的进一步提升。图1为本发明模型的网络框架,主要由嵌入注意力机制的主干网络、PAFPN、区域建议网络、ROI Align、分类分支、边界框分支和Mask分支等部分组成。模型图像预测的执行流程为:对于输入的图片,首先经过主干网络和PAFPN的特征提取生成特征图,其次将特征图输入RPN结构生成区域候选框,然后通过ROIAlign操作将区域候选框映射到特征图上生成候选特征图,最后将候选特征图输入分类分支、边界框分支和Mask分支,分别获得类别、边界框以及分割掩码结果。
常用的主干网络有ResNet50、ResNet101、ResNeXt101等,考虑到齿轮端表面缺陷类型和特征复杂度不高,本发明构建的模型使用层数较少的ResNet50进行特征提取。ResNet50中的50表示该网络有50层,但一般不使用全连接层进行特征提取,因此共49层,ResNet50结构如图2所示,其中Conv Block和ID Block分别表示残差网络中的卷积块和恒等块,Conv2D和MaxPool分别表示二维卷积和最大池化。ResNet50每层参数如表1所示,其中“1×1,64”表示卷积核大小为1×1,通道数64。
表1
目前在基于深度学习的实例分割领域常使用的注意力机制有卷积块注意力模块、有效通道注意力、协调注意力等。其中,CBAM是一种综合特征通道和空间两个维度的注意力机制,能够自动获取每个特征通道和特征空间的重要程度,从而增强重要特征和抑制不重要特征,但仅考虑了局部区域,无法建模远距离的依赖关系。ECA是一种仅考虑特征通道的注意力机制,具有复杂度低的优点,但模型的增益效果有限,适用于轻量级模型。CA是一种考虑特征通道的注意力机制,但将横纵位置信息融入到通道信息中,使模块在提升关注范围的同时不会带来过多计算量的增加。综合考虑各个注意力机制的优缺点,本发明选择将CA注意力机制引入模型的主干网络中,实现对齿轮端表面缺陷分割精度的提升。考虑到齿轮端表面缺陷的尺寸较小,选择在ResNet50中感受野较小的C3卷积层后添加CA注意力机制。同时为了增强深层语义信息的提取能力,在ResNet50的C5卷积层后添加CA注意力机制,如图3所示。
图4为CA注意力机制的运行流程图,对于输入特征图X=[x1,x2,…,xC]∈RC×H×W,经过CA注意力机制后得到具有相同大小的增强特征图Y=[y1,y2,…,yC]∈RC×H×W。具体计算流程如下:
1)对于输入的X,首先使用卷积核大小为H×1、1×W的平均池化,分别沿着水平坐标和竖直坐标方向对每个通道上的特征向量进行压缩编码,得到大小为C×H×1、C×1×W的zh和zw特征图,计算公式如式1和2所示:
其中表示特征图zh中c通道上的第h个特征值,/>表示特征图zw中c通道上的第w个特征值。
2)首先对特征图zh和zw沿着C通道方向进行拼接,然后对拼接后的特征图采用1×1卷积降维,最后进行归一化并使用激活函数得到特征图f,计算公式如式3所示:
f=δ(FD([zh,zw])) (3)
其中FD表示卷积核个数为D的卷积,δ表示激活函数。
3)首先将特征图f在第二步中相同位置沿着C通道方向进行拆分,得到特征图fh和fw,然后将两张特征图依次进行1×1卷积和Simgoid函数激活得到注意力向量gh和gw。使用σ表示Simgoid函数,gh和gw的计算公式如式4和5所示:
gh=σ(FC(fh)) (4)
gw=σ(FC(fw)) (5)
4)使用注意力向量对初始输入X矫正得到输出Y,计算公式如式6所示:
本发明使用能有效缩短底层与顶层特征距离的PAFPN代替FPN进行多尺度特征融合,从而避免FPN结构缺陷,实现模型分割性能的增强。PAFPN结构如图5所示,通过在原始FPN的基础上增加一次由底层向上层的特征融合,缩短底层与顶层特征之间的距离,使模型特征提取部分拥有更加可靠的特征信息传递,从而实现特征提取能力的增强。为进一步增强PAFPN特征提取能力,将原始PAFPN中自底向上部分的add操作替换为concat操作,减少特征信息损失,同时增加1×1卷积统一输出维度。图6为ResNet50+PAFPN的结构简图,首先,输入图片经由ResNet50和原始FPN的特征提取,得到{P2,P3,P4,P5}四个特征图;其次,P2特征图先后进行卷积核为1×1和3×3、通道为256的卷积,得到Temp2和N2;然后,Temp2进行2倍下采样,采样结果与P3特征进行concat操作,concat结果进行卷积核为1×1和3×3、通道为256的卷积,得到Temp3和N3。以此类推,生成Temp4、Temp5、N4、N5,最后特征提取部分将{N2,N3,N4,N5}输出,用于结果预测的基础特征输入。
一种齿轮端面缺陷分割模型的训练方法,包括以下步骤:
(1)获取若干张需要进行检测的齿轮端表面缺陷图片,并使用标注软件分别对齿轮端表面缺陷图片上的缺陷区域进行标注;
(2)使用图像翻转、随机噪声、随机亮度调整和随机平移四种增强方式对步骤(1)中标注后的图片进行扩增,建立数据集;
(3)获取上述的所述齿轮端面缺陷分割模型,使用数据集对所述齿轮端面缺陷分割模型进行训练。
作为优化,在步骤(1)中,对标注后的图片使用基于Otsu阈值分割和中值滤波的图像中心裁剪降低图像中的冗余背景,使用基于SAHI的图像滑动重叠裁剪减小图像大小,得到多张裁剪图。
作为优化,在步骤(3)中,模型训练参数设置为:优化器为SGD、初始学习率为0.007、学习率使用step方式进行衰减、训练批量为2、迭代次数为30。
作为优化,在步骤(1)中,使用标注工具LabelMe中的polygon命令对缺陷区域进行标注,然后给标注区域增加相应描述文本,保存文件即可完成图像的标注工作。
齿轮制造过程中常存在碰伤、划伤以及压伤三类齿轮端表面缺陷。其中碰伤是齿轮转运过程中发生碰撞所形成的凹陷;划伤是在运输过程中与机械手、铁屑残渣或其他坚硬物体进行接触并发生相对位移产生的划痕;压伤是在装夹齿轮过程中,夹具与齿轮端表面残留铁屑挤压产生的不均匀麻坑。
对上述三种常见的齿轮端表面缺陷图像进行采集,为方便计算图片像素值代表的实际值,在采集过程中保持相机的位置一定、光源的亮度和位置一定、每张图片的大小一定,从而实现每张图像的尺度相同。通过采集装置对三种不同类型齿轮的端面缺陷进行拍摄采集,每种齿轮类型采集100张,共计300张缺陷图片,图片大小均为2592×1944,其中包含碰伤387个、划伤168个和压伤247个。通过对比齿轮图片与齿轮实际尺寸,计算得到实际长度与图像像素之间的关系:长或宽等于0.064mm/像素,每像素面积等于0.004mm2
由于在缺陷图片采集过程中需要保持拍摄位置保持不变,因此针对不同大小的齿轮,为保证采集到的缺陷图片包含齿轮全部信息,往往需要以最大齿轮的长宽为依据设置拍摄位置,这样会导致采集到的图片包含大量冗余背景。此外,常见的齿轮端表面缺陷相对于齿轮只占很小一块区域,因此为了获得包含清晰缺陷的齿轮图像,往往会使用高清相机进行拍摄,这样会导致图片分辨率较大。但是现有实例分割模型往往只在较小分辨率图像上才具有不错的性能。
因此为了降低图像分辨率,提出一种由图像中心裁剪和图像滑动重叠裁剪组成的图像多级裁剪方法。该方法首先使用图像中心裁剪降低齿轮图像的冗余背景,然后使用滑动重叠裁剪将图像裁剪成适合上述模型的大小,从而实现图像分辨率的降低。
Otsu分割算法以图像的灰度特征为基础,通过选定的分割阈值k将图像分成具有明显差异的两部分。该算法通过最大化类间方差来选择最佳分割阈值k,因为类间方差是对各类之间差异程度的一种衡量,其值越大说明各类之间的差异性越大,从而说明此时Otsu法的分割效果最佳。假设阈值k将图像像素分成C1(灰度值小于k)和C2(灰度值大于k)两类,使用L表示最大灰度级数255,依据Otsu的实现原理,最佳分割阈值的计算流程如下:
1)根据公式7和8分别计算像素总数N和灰度值为i处的频率pi
公式7中ni表示灰度值为i的频数,可根据图像的灰度值统计求得。
2)根据公式9和10分别计算C1类、C2类的频率pC1(k)、pC2(k)。
3)根据公式11、12和13分别计算C1类、C2类、全局的灰度均值mC1(k)、mC2(k)、mG
4)根据公式14计算类间方差σ2(k)。
σ2(k)=pC1(k)(mC1(k)-mG)2+pC2(k)(mC2(k)-mG)2 (14)
5)根据公式15,遍历0到255个灰度级别,求得最佳分割阈值k'。
k'=argmaxσ2(k) (15)
在完成最佳分割阈值k'的计算之后,根据阈值k'将图像分为C1和C2两类,并将C1类的灰度置为0,C2类的灰度置为255,从而完成图像的阈值分割。
图像Otsu阈值分割的目的是使齿轮外的区域灰度全为0,从而求出齿轮区域进行裁剪。由于采集背景可能存在油污、凹陷、油漆脱落等干扰,导致拍摄背景常存在离散光点,影响齿轮区域的求解。为消除背景上的光点,本发明采用图像滤波方式进行处理。常见图像滤波方式可分为线性滤波和非线性滤波,其中线性滤波会带来边界模糊且无法直接消除光点,因此本发明选择非线性滤波中能有效消除离散噪声且运行效率较高的中值滤波进行处理。图像的中值滤波是一种基于统计排序的图像处理方式,首先对当前像素相邻像素的灰度值进行排序,然后以排序后的中值代替当前像素灰度值,从而减少图像噪声。选择合适的滤波核,可以在几乎不影响齿轮区域的情况下,消除背景上的光点噪声,综合考虑齿轮区域大小,本实施例选用5×5的滤波核对Otsu分割后的图像进行中值滤波处理。计算公式如下:
g(x,y)=med{f(x-k,y-l)|k,l∈W} (16)
式中g(x,y)和f(x,y)分别表示图像上某点(x,y),经中值滤波处理后灰度值和原始灰度值,W表示二维模板,本例中为5×5。
图像在经过Otsu阈值分割和中值滤波后,形成了一张只含有灰度等级为0与255的灰度图,其中只有齿轮区域内的像素存在灰度等级255。因此,可通过在图像中寻找灰度等级非零像素点的最小横坐标xmin、最小纵坐标ymin、最大横坐标xmax、最大纵坐标ymax,从而确定齿轮区域。齿轮区域所框选的外接矩形的左上顶点坐标和右下顶点坐标可分别表示为(xmin,ymin)、(xmax,ymax)。然后根据齿轮区域对未经处理的图像进行裁剪,即可实现图像大小的降低。齿轮区域所框选的外接矩形计算公式如下:
其中Sx、Sy分别表示灰度为255的像素点横坐标集合和纵坐标集合,图7为齿轮图像中心裁剪各阶段示意图。
根据数据增强的时机不同,可分为离线数据增强和在线数据增强两类。其中离线数据增强是指在标注完成后模型开始训练前,通过旋转、翻转、裁剪、随机噪声、光学畸变等方法,将一张图片样本变换成多张增强图片样本的操作。该方法会同时对原始图像和标注文件进行增强,从而在本地实际存储上实现对数据集数量的增加。而在线数据增强是指在模型训练过程中,对输入的图片数据采用同离线增强相同的增强方法,动态地将输入图片进行变换的操作。该方法没有在本地存储中增强输入样本的数量,但是通过在线变换丰富了样本的类型,从而实现样本数量的增加。在线数据增强使用方便且节省内存,适合大型数据集的增强,但一般需要更多的迭代次数。离线数据增强适用于小型数据集,训练时间较短,不用额外配置模型增强方法,但会浪费内存。综合考虑数据集大小和内存使用情况,本发明采用离线数据增强,增强策略如下:
①图像翻转:每次翻转操作选择水平翻转、垂直翻转、对角翻转三种翻转方式之一对样本及标注文件进行变换,其中水平翻转和垂直翻转被选择执行的概率为0.33,对角翻转被选择执行的概率为0.34;
②随机噪声:在图片中加入指定均值和方差的高斯加性噪声,使训练出的实例分割模型对非缺陷干扰物具有更强的识别能力;
③随机亮度调整:以0到0.4比例的纯黑色图片与原图进行组合,从而实现对图片亮度的随机调整;
④随机平移:随机平移的横、纵坐标分别以标注目标的最大和最小横、纵坐标为参考,在保证标注目标不被移除的前提下,实现对图片和标注文件的同时变换。
本实施例以0.7、0.2、0.3、0.3的概率对图像翻转、随机噪声、随机亮度调整、随机平移四种增强方式进行组合,每张图片进行三次增强,并且保证至少有一种增强方式被执行,各种图片增强结果如图8所示。增强后的数据集一共有包含10800张缺陷图片及其相应标注。由于数据集包含样本较少,故按照6:2:2的比例对训练集、验证集和测试集进行划分,并保证样本数据在各个集合中具有相同分布。
一种齿轮端面缺陷的检测方法,获取齿轮端面的图片和上述中的所述齿轮端面缺陷分割模型,并利用上述的所述齿轮端面缺陷分割模型的训练方法对所述齿轮端面缺陷分割模型进行训练,训练完成后将齿轮端面的图片输入到所述齿轮端面缺陷分割模型中,所述齿轮端面缺陷分割模型输出检测结果。
作为优化,齿轮端面的图片使用基于Otsu阈值分割和中值滤波的图像中心裁剪降低图像中的冗余背景,使用基于SAHI的图像滑动重叠裁剪减小图像大小,得到多张裁剪图,将这些裁剪图分别经过所述齿轮端面缺陷分割模型进行检测,将所有得到的检测结果使用非最大值合并得到整图输出,作为最终检测结果。
基于深度学习的分割技术已在多个领域被证实分割的有效性,但在高分辨图像的小目标分割问题上效果仍不理想。主要原因是现有硬件设备的存储和计算能力有限,网络模型往往需要将分辨率过大的输入图片调整到较小尺寸,这会导致模型的分割精度降低。同时,目前大部分网络模型对图像以8、16、32的因子进行下采样,其中8倍下采样是为了检测小目标物体,如果物体质心之间的距离小于8个像素,那么物体识别和分割精度都难以保证。而本实施例采集到的图片经过图像裁剪后大小仍然分布在1800×1800左右,属于2k分辨率的高清图像,无法直接输入到网络模型中。采集到的图像中存在部分长宽低于20甚至10像素的缺陷。如果将裁剪后图片缩放到800×800,原始像素低于18的缺陷将被缩放到8像素以下,从而导致该缺陷难以被准确识别和分割。
针对上述问题,本发明采用一种基于SAHI模块的滑动重叠裁剪策略,根据裁剪后图像大小和网络模型的输入大小,选择将图像裁剪成多个800×800的小图,然后再进行训练和检测。如图9所示,在检测过程中,该方法先对一张图片的每张小图进行检测,然后使用非最大值合并将小图拼接成原始图片。值得注意的是,如果一个目标恰好位于两张裁剪子图的中间,会导致目标被解裁断而影响模型特征学习、降低检测准确率。为避免此问题,在裁剪过程中设置一定的重叠区域,本实施例设置为小图总面积的20%。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims (7)

1.一种齿轮端面缺陷分割模型,其特征在于:包括特征提取部分、候选特征图生成部分和结果预测部分,特征提取部分使用ResNet50+PAFPN网络结构能够对图像上缺陷部分的图像特征进行提取,并在ResNet50网络结构中的C3和C5卷积层增加了一个CA注意力模块;候选特征图生成部分使用RPN生成区域候选框,使用ROI Align生成候选特征图;结果预测部分使用全连接网络和全卷积网络分别对候选特征图的类别、位置和掩码进行预测。
2.一种齿轮端面缺陷分割模型的训练方法,其特征在于:包括以下步骤:
(1)获取若干张需要进行检测的齿轮端表面缺陷图片,并使用标注软件分别对齿轮端表面缺陷图片上的缺陷区域进行标注;
(2)使用图像翻转、随机噪声、随机亮度调整和随机平移四种增强方式对步骤(1)中标注后的图片进行扩增,建立数据集;
(3)获取权利要求1中的所述齿轮端面缺陷分割模型,使用数据集对所述齿轮端面缺陷分割模型进行训练。
3.根据权利要求2所述的齿轮端面缺陷分割模型的训练方法,其特征在于:在步骤(1)中,对标注后的图片使用基于Otsu阈值分割和中值滤波的图像中心裁剪降低图像中的冗余背景,使用基于SAHI的图像滑动重叠裁剪减小图像大小,得到多张裁剪图。
4.根据权利要求2所述的齿轮端面缺陷分割模型的训练方法,其特征在于:在步骤(3)中,模型训练参数设置为:优化器为SGD、初始学习率为0.007、学习率使用step方式进行衰减、训练批量为2、迭代次数为30。
5.根据权利要求2所述的齿轮端面缺陷分割模型的训练方法,其特征在于:在步骤(1)中,使用标注工具LabelMe中的polygon命令对缺陷区域进行标注,然后给标注区域增加相应描述文本,保存文件即可完成图像的标注工作。
6.一种齿轮端面缺陷的检测方法,其特征在于:获取齿轮端面的图片和权利要求1中的所述齿轮端面缺陷分割模型,并利用权利要求2中的所述齿轮端面缺陷分割模型的训练方法对所述齿轮端面缺陷分割模型进行训练,训练完成后将齿轮端面的图片输入到所述齿轮端面缺陷分割模型中,所述齿轮端面缺陷分割模型输出检测结果。
7.根据权利要求6所述的齿轮端面缺陷的检测方法,其特征在于:齿轮端面的图片使用基于Otsu阈值分割和中值滤波的图像中心裁剪降低图像中的冗余背景,使用基于SAHI的图像滑动重叠裁剪减小图像大小,得到多张裁剪图,将这些裁剪图分别经过所述齿轮端面缺陷分割模型进行检测,将所有得到的检测结果使用非最大值合并得到整图输出,作为最终检测结果。
CN202310734380.0A 2023-06-20 2023-06-20 基于Mask R-CNN的齿轮缺陷分割模型及训练方法和检测方法 Pending CN116758036A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310734380.0A CN116758036A (zh) 2023-06-20 2023-06-20 基于Mask R-CNN的齿轮缺陷分割模型及训练方法和检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310734380.0A CN116758036A (zh) 2023-06-20 2023-06-20 基于Mask R-CNN的齿轮缺陷分割模型及训练方法和检测方法

Publications (1)

Publication Number Publication Date
CN116758036A true CN116758036A (zh) 2023-09-15

Family

ID=87952859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310734380.0A Pending CN116758036A (zh) 2023-06-20 2023-06-20 基于Mask R-CNN的齿轮缺陷分割模型及训练方法和检测方法

Country Status (1)

Country Link
CN (1) CN116758036A (zh)

Similar Documents

Publication Publication Date Title
CN113239930B (zh) 一种玻璃纸缺陷识别方法、***、装置及存储介质
US20080232715A1 (en) Image processing apparatus
CN111539957B (zh) 一种用于目标检测的图像样本生成方法、***及检测方法
CN112819748B (zh) 一种带钢表面缺陷识别模型的训练方法及装置
CN106846279B (zh) 一种基于连分式插值技术的自适应图像修补方法及其***
CN116228746B (zh) 缺陷检测方法、装置、电子设备、存储介质和程序产品
CN110390677A (zh) 一种基于滑动自匹配的缺陷定位方法及***
US20210390282A1 (en) Training data increment method, electronic apparatus and computer-readable medium
CN115601355A (zh) 一种产品表面缺陷检测与分类方法、装置及存储介质
CN115331245A (zh) 一种基于图像实例分割的表格结构识别方法
CN115953373B (zh) 玻璃缺陷检测方法、装置、电子设备及存储介质
CN116071327A (zh) 一种基于深度神经网络的工件缺陷检测方法
CN116864409A (zh) 一种基于cuda加速的高精度晶圆表面缺陷实时检测方法
CN116934762B (zh) 锂电池极片表面缺陷的检测***及方法
CN117975087A (zh) 一种基于ECA-ConvNext铸件缺陷识别方法
CN115631197B (zh) 一种图像处理方法、装置、介质、设备及***
CN116486129A (zh) 基于深度学习的铁路货车盖板故障识别方法及装置
CN116758036A (zh) 基于Mask R-CNN的齿轮缺陷分割模型及训练方法和检测方法
CN116128826A (zh) 基于YOLOv5的锂电池缺陷检测方法、***、设备以及存储介质
CN113781449A (zh) 一种基于多尺度特征融合的纺织品瑕疵分类方法
CN114486916A (zh) 基于机器视觉的手机玻璃盖板缺陷检测方法
Lin et al. Automatic detection of shoulder bending defects in tire X-ray images
Chehdi et al. A blind system to identify and filter degradations affecting an image
CN117495846B (zh) 图像检测方法、装置、电子设备及存储介质
Chen et al. Detecting aluminium tube surface defects by using faster region-based convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination