CN112966786A - 一种用于卷积神经网络训练数据的自动化标记方法 - Google Patents

一种用于卷积神经网络训练数据的自动化标记方法 Download PDF

Info

Publication number
CN112966786A
CN112966786A CN202110405677.3A CN202110405677A CN112966786A CN 112966786 A CN112966786 A CN 112966786A CN 202110405677 A CN202110405677 A CN 202110405677A CN 112966786 A CN112966786 A CN 112966786A
Authority
CN
China
Prior art keywords
image
neural network
convolutional neural
network training
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110405677.3A
Other languages
English (en)
Inventor
李静雅
王东杰
郭志鹏
樊昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Jiuhuan Shichuang Technology Co ltd
Original Assignee
Ningbo Jiuhuan Shichuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Jiuhuan Shichuang Technology Co ltd filed Critical Ningbo Jiuhuan Shichuang Technology Co ltd
Priority to CN202110405677.3A priority Critical patent/CN112966786A/zh
Publication of CN112966786A publication Critical patent/CN112966786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种用于卷积神经网络训练数据的自动化标记方法,包括:步骤S1,提取基本缺陷特征;步骤S2,特征摘取和样本裁剪,包括:根据所述步骤S1中获取的特征蒙板,结合孤立域方法获取每个缺陷体的中心位置和形状大小,并以该集合中的点作为中心,同时对图像施加基本变换操作以增加样本数量,同时裁剪出预设规格的样本;步骤S3,对所述步骤S2中得到的样本进行特征轮廓提取,并进行类别标记;步骤S4,基于共享内存并行***OpenmMP的并行优化。

Description

一种用于卷积神经网络训练数据的自动化标记方法
技术领域
本发明涉及神经网络训练技术领域,特别涉及一种用于卷积神经网络训练数据的自动化标记方法。
背景技术
以深度学习为主流的卷积神经网络模型的训练在原理上为了得到可靠的计算结果,需要大量标记图像作为输入数据(万以上数量级)。在实际应用中,当前普遍由人工手动标记这些输入图像样本,人工成本及时间成本巨大,无法与机器实际训练计算效率相匹配。这一效率差异使得深度学习训练结果收获速度往往受制于人工标记效率。另一方面,人工标记数据尚未建立可量化的评价标准,且数据量巨大复查成本高昂,不同人员制作的数据样本的差异造成的不确定性使得实际训练计算收敛效果不佳。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种用于卷积神经网络训练数据的自动化标记方法。
为了实现上述目的,本发明的实施例提供一种用于卷积神经网络训练数据的自动化标记方法,包括如下步骤:
步骤S1,提取基本缺陷特征;
步骤S2,特征摘取和样本裁剪,包括:根据所述步骤S1中获取的特征蒙板,结合孤立域方法获取每个缺陷体的中心位置和形状大小,并以该集合中的点作为中心,同时对图像施加基本变换操作以增加样本数量,同时裁剪出预设规格的样本;
步骤S3,对所述步骤S2中得到的样本进行特征轮廓提取,并进行类别标记;
步骤S4,基于共享内存并行***OpenmMP的并行优化。
进一步,在所述步骤S1中,包括如下步骤:
(1)读入图像数据并压缩;
(2)高斯过滤:对图像数据进行高斯处理;
(3)图像插值:对高斯处理后的图像数据进行插值处理;
(4)图像强化:对插值处理后的图像数据进行强化处理;
(5)图像自适应二值化;
(6)图像清创。
进一步,在所述步骤S2中,所述孤立域方法采用骨架提取和分水岭方法。
进一步,在所述步骤S3中,对所述步骤S2中得到的样本,在一次迭代的计算量下直接获取到二值图边界,对缺陷特征进行轮廓描述以及类别标记,写到对应配置文件中。
根据本发明实施例的用于卷积神经网络训练数据的自动化标记方法,基于Gaussian与USM方法,实现明显缺陷特征的自动化批量提取;同时高速生成统一化的缺陷训练样本,建立全自动样本生成机制,实现了样本标记效率与训练计算效率的匹配。高斯滤波是常见的噪声平滑算子,当配合新兴的非掩膜锐化方法时,能够将局部边界的对比度提升至极限。本发明利用这一特性,可以顺利摘取物体内部较为明显的异物。此外,本发明基于OpenMP并行模型,其算法核心采用串联的高斯滤波、非掩膜锐化等方法,可处理缺陷平均大小在3像素*3像素以上的灰度图像。本发明通过对数据处理算法架构以及数据存储方式的多次优化,经测试在16核范围内,并行效率基本呈现线性增长;相较传统图像标记效率,有效标记效率得到四个数量级提升。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的用于卷积神经网络训练数据的自动化标记方法的流程图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
如图1所示,本发明实施例的用于卷积神经网络训练数据的自动化标记方法,包括如下步骤:
步骤S1,提取基本缺陷特征,包括如下步骤:
(1)读入图像数据并压缩;
(2)高斯过滤:对图像数据进行高斯处理;
(3)图像插值:对高斯处理后的图像数据进行插值处理;
(4)图像强化:对插值处理后的图像数据进行强化处理;
(5)图像自适应二值化;
(6)图像清创。
具体的,强化的基础为Unsharp mask(USM)以及Gaussian方法,其基本模型如下所示:
Figure BDA0003022213890000031
g(x0,y0)=∫∫(x,y)∈Kernalf(x,y)O((x0,y0)-(x,y))dxdy
Figure BDA0003022213890000032
其中,A为幅值,(x0,y0)为中心点位置,(σxy)为方差,O(x0,y0)为中心位置图像原始值,g(x0,y0)为高斯处理后的图像值,u(x0,y0)为强化处理后的图像值,weight为增强比,Kernal为卷积核大小。
其中卷积核半径r的的计算方法如下:
rx=σx*(log(ε))2+1;
其中ε=0.01。出于实际应用目的,可以不必关注卷积核的大小,而采用降尺度以及插值算法从而获得最佳精度(downscaling and interpolation algorithms),即先将数据缩小,再依次使用高斯布尔和插值法。由于图像噪声通常取决于环境以及机器本身,其大小不会与分辨率成正相关。当实际待处理样本分辨率较高时,本方法可同时起到较好的降噪效果。
当weight趋于1时,显然有u(x0,y0)趋于∞。此时所有被强化的特征将集中在图像最大值处,即最明显缺陷所在位置。通过简单的背景分割,如二值法如迭代自组织分析(IJIsoData classifier),可获得摘取缺陷组织的蒙版。
步骤S2,特征摘取和样本裁剪,包括:根据步骤S1中获取的特征蒙板,结合孤立域方法获取每个缺陷体的中心位置和形状大小,并以该集合中的点作为中心,同时对图像施加基本变换操作以增加样本数量,同时裁剪出预设规格的样本。
具体的,当前以CNN为代表的多数卷积神经网络通常因为需要控制全连接层参数固定,需要统一输入图像尺寸。当数据源图像大小以及缺陷所在位置均不固定的情况下,一般人工方法在裁剪图像上往往需要花费大量时间。
本步骤根据步骤S1中成功获取的特征蒙版,结合孤立域方法,可获取到每个缺陷体的中心位置及形状大小。以该集合中的点作为中心,我们可以同时对图像施加基本变换操作以增加样本数量,同时直接裁出需要的样本大小。
在步骤S2中,孤立域方法采用骨架提取和分水岭方法。
步骤S3,对步骤S2中得到的样本进行特征轮廓提取,并进行类别标记。
具体的,配合实际训练网络数据读入接口,通常需要对缺陷特征进行轮廓描述以及类别标记。根据步骤S2中的计算结果,在一次迭代的计算量下直接获取到二值图边界,写出到对应配置文件中,从而避免了手动绘制的工作。
步骤S4,基于共享内存并行***OpenmMP的并行优化。
当缺陷数据来源于同一数据体时,图片间处理参数通常可共享。此时主要计算量集中在每张图片的重复卷积计算上。由于片层之间无需通信,使用OpenmMP可以大幅降低实际编程的难度和复杂度。
根据本发明实施例的用于卷积神经网络训练数据的自动化标记方法,基于Gaussian与USM方法,实现明显缺陷特征的自动化批量提取;同时高速生成统一化的缺陷训练样本,建立全自动样本生成机制,实现了样本标记效率与训练计算效率的匹配。高斯滤波是常见的噪声平滑算子,当配合新兴的非掩膜锐化方法时,能够将局部边界的对比度提升至极限。本发明利用这一特性,可以顺利摘取物体内部较为明显的异物。此外,本发明基于OpenMP并行模型,其算法核心采用串联的高斯滤波、非掩膜锐化等方法,可处理缺陷平均大小在3像素*3像素以上的灰度图像。本发明通过对数据处理算法架构以及数据存储方式的多次优化,经测试在16核范围内,并行效率基本呈现线性增长;相较传统图像标记效率,有效标记效率得到四个数量级提升。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (4)

1.一种用于卷积神经网络训练数据的自动化标记方法,其特征在于,包括如下步骤:
步骤S1,提取基本缺陷特征;
步骤S2,特征摘取和样本裁剪,包括:根据所述步骤S1中获取的特征蒙板,结合孤立域方法获取每个缺陷体的中心位置和形状大小,并以该集合中的点作为中心,同时对图像施加基本变换操作以增加样本数量,同时裁剪出预设规格的样本;
步骤S3,对所述步骤S2中得到的样本进行特征轮廓提取,并进行类别标记;
步骤S4,基于共享内存并行***OpenmMP的并行优化。
2.如权利要求1所述的用于卷积神经网络训练数据的自动化标记方法,其特征在于,在所述步骤S1中,包括如下步骤:
(1)读入图像数据并压缩;
(2)高斯过滤:对图像数据进行高斯处理;
(3)图像插值:对高斯处理后的图像数据进行插值处理;
(4)图像强化:对插值处理后的图像数据进行强化处理;
(5)图像自适应二值化;
(6)图像清创。
3.如权利要求1所述的用于卷积神经网络训练数据的自动化标记方法,其特征在于,在所述步骤S2中,所述孤立域方法采用骨架提取和分水岭方法。
4.如权利要求1所述的用于卷积神经网络训练数据的自动化标记方法,其特征在于,在所述步骤S3中,对所述步骤S2中得到的样本,在一次迭代的计算量下直接获取到二值图边界,对缺陷特征进行轮廓描述以及类别标记,写到对应配置文件中。
CN202110405677.3A 2021-04-15 2021-04-15 一种用于卷积神经网络训练数据的自动化标记方法 Pending CN112966786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110405677.3A CN112966786A (zh) 2021-04-15 2021-04-15 一种用于卷积神经网络训练数据的自动化标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110405677.3A CN112966786A (zh) 2021-04-15 2021-04-15 一种用于卷积神经网络训练数据的自动化标记方法

Publications (1)

Publication Number Publication Date
CN112966786A true CN112966786A (zh) 2021-06-15

Family

ID=76281455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110405677.3A Pending CN112966786A (zh) 2021-04-15 2021-04-15 一种用于卷积神经网络训练数据的自动化标记方法

Country Status (1)

Country Link
CN (1) CN112966786A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780491A (zh) * 2017-01-23 2017-05-31 天津大学 Gvf法分割ct骨盆图像中采用的初始轮廓生成方法
CN109118466A (zh) * 2018-08-29 2019-01-01 电子科技大学 一种红外图像与可见光图像融合的处理方法
WO2019169772A1 (zh) * 2018-03-06 2019-09-12 平安科技(深圳)有限公司 图片处理方法、电子装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780491A (zh) * 2017-01-23 2017-05-31 天津大学 Gvf法分割ct骨盆图像中采用的初始轮廓生成方法
WO2019169772A1 (zh) * 2018-03-06 2019-09-12 平安科技(深圳)有限公司 图片处理方法、电子装置及存储介质
CN109118466A (zh) * 2018-08-29 2019-01-01 电子科技大学 一种红外图像与可见光图像融合的处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LOVEFIVE55: "《Opencv-锐化增强算法(USM)》", 《HTTPS://BLOG.CSDN.NET/WEIXIN_41709536/ARTICLE/DETAILS/100889849》 *
丑的睡不着: "《图像处理之USM锐化》", 《HTTPS://BLOG.CSDN.NET/WEIXIN_42026802/ARTICLE/DETAILS/80117403》 *
野犬1998: "《Opencv学习笔记七(梯度算子、锐化)》", 《HTTPS://BLOG.CSDN.NET/QQ_42319367/ARTICLE/DETAILS/97509807》 *

Similar Documents

Publication Publication Date Title
CN107341499B (zh) 一种基于无监督分割和elm的织物缺陷检测和分类方法
US20200364842A1 (en) Surface defect identification method and apparatus
CN108562589B (zh) 一种对磁路材料表面缺陷进行检测的方法
CN108921201B (zh) 基于特征组合与cnn的大坝缺陷识别与分类方法
CN109934826A (zh) 一种基于图卷积网络的图像特征分割方法
Sammons et al. Segmenting delaminations in carbon fiber reinforced polymer composite CT using convolutional neural networks
CN106709421B (zh) 一种基于变换域特征和cnn的细胞图像识别分类方法
Bong et al. Vision-based inspection system for leather surface defect detection and classification
CN109241867B (zh) 采用人工智能算法识别数字岩心图像的方法及装置
CN110827260A (zh) 一种基于lbp特征与卷积神经网络的布匹缺陷分类方法
CN111369526B (zh) 基于半监督深度学习的多类型旧桥裂痕识别方法
CN116012291A (zh) 工业零件图像缺陷检测方法及***、电子设备和存储介质
CN113673482B (zh) 基于动态标签分配的细胞抗核抗体荧光识别方法及***
CN111476794A (zh) 一种基于unet的宫颈病理组织分割方法
CN111879972A (zh) 基于ssd网络模型的工件表面缺陷检测方法及***
CN112581483A (zh) 基于自学习的植物叶片叶脉分割方法和装置
CN112200789B (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN112381140B (zh) 一种基于新特征参数的磨粒图像机器学习识别方法
Amritraj et al. An Automated and Fine-Tuned Image Detection and Classification System for Plant Leaf Diseases
CN116797602A (zh) 一种用于工业产品检测的表面缺陷鉴定方法和装置
CN112966786A (zh) 一种用于卷积神经网络训练数据的自动化标记方法
CN117036243A (zh) 刨花板表面缺陷检测的方法、装置、设备和存储介质
CN109829879B (zh) 维管束的检测方法及装置
CN116433978A (zh) 一种高质量瑕疵图像自动生成与自动标注方法及装置
CN110889858A (zh) 一种基于点回归的汽车部件分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Jingya

Inventor after: Wang Dongjie

Inventor after: Fan Hao

Inventor before: Li Jingya

Inventor before: Wang Dongjie

Inventor before: Guo Zhipeng

Inventor before: Fan Hao

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20210615

RJ01 Rejection of invention patent application after publication