CN109886925A

CN109886925A - 一种主动学习与深度学习相结合的铝材表面缺陷检测方法

Info

Publication number: CN109886925A
Application number: CN201910050571.9A
Authority: CN
Inventors: 王征; 宋宗垚; 孙美君; 张子剑
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-01-19
Filing date: 2019-01-19
Publication date: 2019-06-14

Abstract

本发明公开了一种主动学习与深度学习相结合的铝材表面缺陷检测方法，包括：通过随机调整图像饱和度、调整图像亮度、调整图像对比度、以及图像的随机旋转对训练集中的数据进行数据增强；采用Weighted‑Entropy评价标准进行主动学习，将待标注样本按照Weighted‑Entropy值以递增的顺序进行排序，选择出最高的K个样本进行标注，将其加入训练集中，作为训练样本；同时采用伪标注算法，将待标注样本按照Entropy(信息熵)以递增的顺序进行排序，选择出最低的H个样本，并利用模型的预测结果作为伪标注，将其作为下一次训练的额外的临时训练数据。采用SEResNet‑152神经网络结构，该神经网络结构以ResNet‑152网络模型为基础，在每个Residual模块之后加入了SE模块，用于计算特征图的通道与通道之间的权重比例关系。

Description

一种主动学习与深度学习相结合的铝材表面缺陷检测方法

技术领域

本发明涉及铝材表面缺陷检测领域，尤其涉及一种主动学习与深度学习相结合的铝材表面缺陷检测方法。

背景技术

随着深度学习的火热发展和科技的进步，深度学习算法在计算机视觉领域取得了重大的进步，并且已经广泛应用于人脸识别、车辆识别、道路状况识别等众多领域中。深度学习算法可以利用庞大的训练数据(如ImageNet等)对算法模型进行大量的训练，从而利用训练好的模型轻松的完成图像分类、场景分类以及图像分割等任务，并且达到一个优秀的准确率。但是深度学习方法十分依赖ImageNet这样庞大且高质量的数据集，而现实情况中的很多领域中没有这样高质量的大型数据集，并且数据标注成本十分昂贵，例如在工业探伤领域。在这些领域中数据的标注技术难度大，需要多名从业多年的专家同时给出标注才能保证标注的准确性，这就带来了很高的时间成本和经济成本。因此，在这些领域中很难获取到规模庞大且高质量的数据集。

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。随着深度学习的不断发展，越来越多的更加复杂分类效果更好的深度神经网络模型不断被人们提出。2015年何凯明在《Deep Residual Learning forImage Recognition》中首次提出了ResNet残差网络模型，在该模型提出了Residual结构解决了增加深度带来的副作用(退化问题)，并且使得深度神经网络的训练更加容易。2017年Jie Hu等人在《Squeeze-and-Excitation Networks》中提出了SE(压缩-提取)块，首次考虑到了图像特征的通道之间的关系，并且通过计算通道之间的权重比例得到各个通道对于特征提取和分类效果的重要程度，在提升了模型分类准确率的同时也减少了模型训练时的计算量，提升了模型的训练效率。

主动学习又称查询学习，或者有时在统计学文献中称为最佳实验设计，他是机器学习的一个子领域。主动学习的关键假设是，如果模型可以对数据保持“好奇”，并且会主动选择他想要学习的数据。主动学习试图通过向专家或者标注者请求数据所对应的标注的形式来克服标注的问题。以这种形式，主动学习方法旨在使用尽可能少的标注样本，并且训练高精度的模型，从而最小化获得样本标注的成本。

其具体流程如图1所示。首先使用少量的带有标注的数据集对机器学习模型进行训练，然后利用初步训练得到的模型以及选择样本的评价标准对未标注池U中的未标注样本进行选择，选择出最具有价值的K个样本加入已标注数据池L中。在开始下一次的循环，直至达到预先设定好的循环终止条件，比如时间耗尽或者资源耗尽等。

在工业探伤领域，有很多工作将重点放在了无损检测图像采集的采集工艺上，而忽略了图像处理以及如何从图像中获取更多信息。如《For machine vision imageacquisition and image processing of weld》《Application of neural networks inoptical inspection and classification of solder joints in surface mounttechnology》以及《Saliency-Based Defect Detection in Industrial Images by UsingPhase Spectrum》中更多的关注于如何采集到质量更好的焊缝数据，而图像数据的处理和缺陷的检测阶段却使用的是较为传统的阙值分割和拉普拉斯算子边缘检测的方法。

在《Deep Learning-Based Crack Damage Detection Using ConvolutionalNeural Networks》中作者首次将深度学习的方法应用到墙面裂痕的检测之中。作者详细讲述了卷积神经网络的操作原理以及组成，并对模型的结构以及训练过程中的参数设置进行了实验。经过大量的实验，作者最终在自己采集的墙体裂痕数据集上取得了97％的准确率，相比快速哈尔变换和快速傅里叶变换等方法，该论文提出的方法在测试集上的准确率上取得了明显的优势。

目前存在着两个主要问题：在现有技术中《Fine-Tuning Convolutional NeuralNetworks for Biomedical Image Analysis:Actively and Incrementally》以及《Suggestive annotation:A deep active learning framework for biomedical imagesegmentation》都是针对于医学图像领域中的图像分类、图像分割问题提出的方法，由于医疗图像和工业无损检测图像的特性不同，所以其方法在应用至工业无损检测图像数据上时的准确率并不理想。同时以上两篇论文的工作都是对图像或者像素点进行的二分类，而在工业生产环境中二分类的模型是远远不够的。

发明内容

本发明提供了一种主动学习与深度学习相结合的铝材表面缺陷检测方法，本发明将结合主动学习的深度学习的方法，应用到工业无损检测探伤图片中，以提高工业无损检测探伤分类的准确率，并且利用主动学习的优势，解决工业生产环境中数据量不足以训练一个深度神经网络模型的问题，详见下文描述：

一种主动学习与深度学习相结合的铝材表面缺陷检测方法，所述方法包括以下步骤：

获取数据集，从数据集的每一类中抽取出80％的数据作为训练集，其余20％的数据作为验证集；

通过随机调整图像饱和度、调整图像亮度、调整图像对比度、以及图像的随机旋转对训练集中的数据进行数据增强；

采用Weighted-Entropy评价标准进行主动学习，将待标注样本按照Weighted-Entropy值以递增的顺序进行排序，选择出最高的K个样本进行标注，将最高的K个样本加入训练集中，作为训练样本；

采用伪标注算法，将待标注样本按照信息熵以递增的顺序进行排序，选择出最低的H个样本，并利用预测结果作为伪标注，将最低的H个样本作为下一次训练的额外的临时训练数据；

采用SEResNet-152神经网络结构，该神经网络结构以ResNet-152网络模型为基础，在每个Residual模块之后加入了SE模块，用于计算特征图的通道与通道之间的权重比例关系。

本发明提供的技术方案的有益效果是：

1、本方法首次将深度学习结合主动学习的方法应用到了工业无损检测领域中，为工业无损检测图像分类中的样本少和准确率低的问题提出了一种解决方案；

2、本方法中将SE模块与ResNet-152模型相结合，得到了一个在使用相同数据的情况下，学习能力更强分类准确率更高的SEResNet-152网络，并在铝材数据集上获得了0.65％的准确率的提升；

3、本方法中将深度学习与主动学习算法相结合，在铝材数据集中只使用35％的数据就可以达到使用100％数据时的准确率，节省了65％的训练数据，在保证分类准确率的同时大大减少了标注成本；

4、本方法中提出了一种Weighted-Entropy主动学习选择样本策略，并将其与伪标注策略相结合。相比于传统的主动学习策略，该方法可以在少量数据的时候更早的提高准确率并使模型收敛。

附图说明

图1为主动学习整体流程图；

图2为铝材数据集原始数据量；

图3为数据增强之后铝材数据集训练集中的数据量；

图4为本方法提出的SEResNet_152_WEN方法与其对比方法使用不同比例的标注数据时的分类准确率结果展示图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种主动学习与深度学习相结合的铝材表面缺陷检测方法，参见图1，该方法包括以下步骤：

101：获取数据集，从数据集的每一类中抽取出80％的数据作为训练集，其余20％的数据作为验证集；

102：通过随机调整图像饱和度、调整图像亮度、调整图像对比度、以及图像的随机旋转对训练集中的数据进行数据增强；

103：采用Weighted-Entropy评价标准进行主动学习，将待标注样本按照Weighted-Entropy值以递增的顺序进行排序，选择出最高的K个样本进行标注，将其加入训练集中，作为训练样本；

104：采用伪标注算法，将待标注样本按照Entropy(信息熵)以递增的顺序进行排序，选择出最低的H个样本，并利用模型的预测结果作为伪标注，将其作为下一次训练的额外的临时训练数据；

105：采用SEResNet-152神经网络结构，该神经网络结构以ResNet-152网络模型为基础，在每个Residual模块之后加入了SE模块，用于计算特征图的通道与通道之间的权重比例关系。

综上所述，本方法首次将深度学习结合主动学习的方法应用到了工业无损检测领域中，为工业无损检测图像分类中的样本少和准确率低的问题提出了一种解决方案。

实施例2

下面结合具体的实例对实施例1中的方案进行进一步地介绍，详见下文描述：

1、数据集介绍：

本方法中用到的数据集为天池智能算法竞赛中广东工业智造大数据创新大赛第一轮比赛的数据(在后文中简称“铝材数据集”)。铝材数据集中主要包括十二大类，其中十一类为瑕疵类，一类为正常(非瑕疵)类。是瑕疵类分别为“不导电”、“擦花”、“横条压凹”、“橘皮”、“漏底”、“碰伤”、“起坑”、“凸粉”、“涂层开裂”、“脏点”以及“其他瑕疵”十一种类别。其中“其他瑕疵”中又包含“变形”、“驳口”、“打白点”、“打磨印”、“返底”、“划伤”、“火山口”、“角位漏底”、“铝屑”、“喷流”、“喷涂碰伤”、“碰凹”、“漆泡”、“气泡”、“伤口”、“拖烂”、“纹粗”、“油印”、“油渣”、“杂色”和“粘接”等二十一种小类。本发明中忽略“其他瑕疵”中子类的分类，研究铝材数据集中主要的十二大类的分类问题。铝材数据集中每一类的数据总量如表格1和图2所示。

表1铝材数据集原始数据量

类别名称	图片数量
		不导电	47
擦花	156
		横条压凹	54
橘皮	106
		漏底	289
碰伤	89
		起坑	68
凸粉	66
		涂层开裂	39
脏点	229
		无瑕疵	1018
其他瑕疵	140

铝材数据集是一个很有代表性的工业影像数据集。不仅仅是因为其数据内容是铝材表面的图片，更是因为这个数据集具有工业实际生产中的数据的几大特性：

(1)由于标注成本高，数据量较少。大多数种瑕疵样本的数量都在二百以下，这种数量级的样本很难训练好一个深度神经网络模型。

(2)瑕疵样本与无瑕疵样本之间具有很强的数据不平衡性。瑕疵样本的数量都集中在几十至二百之间，最少的“涂层开裂”只有35张图片，而无瑕疵样本却有1018个，是“涂层开裂”样本数量的近30倍。这样严重的数据不平衡性很大程度上会影响分类模型的准确度。

(3)铝材表面瑕疵特征不明显。与ImageNet等大型标准数据集不同，铝材数据中铝材的瑕疵部位的位置通常都不确定；瑕疵的大小都比较小，只占整张图像中很小的一部分；并且辨识度很低，未经过***学习与培训的非专业人员都很难区分其瑕疵类型。这就为铝材表面瑕疵的辨别与分类带来了很大的难度。

为了进行深度神经网络的训练，本方法从每一类中抽取出80％的数据作为训练集，利用其对模型进行训练，其余20％的数据作为验证集，用于检验模型的训练效果。

2、数据增强方法：

为解决数据量不足以及数据不平衡的问题。本方法对数据量少的十一类瑕疵样本的训练数据进行了数据增强。在数据增强用到了以下四种方法：

(1)随机调整图像饱和度；(2)随机调整图像亮度；(3)随机调整图像对比度；(4)图像的随机旋转。

为了避免数据的重复性过高，并且保持原有数据的样本分布特征，本方法中将数据量较少的十一类瑕疵样本数据均将数据扩充到了四百到五百之间，同时保持无瑕疵样本的数量，不对其做数据增强。数据增强后的数据数量如表2和图3所示。

表格2、数据增强之后铝材数据集的数据量

3、主动学习策略

本方法在传统的主动学习策略基础之上，中加入了伪标注策略。2017年Keze Wang等人在《Cost-Effective Active Learning for Deep Image Classification》中提出了伪标注主动学习模型。该模型保留了传统主动学习选择样本的方式，从未标注数据库中选出模型好奇并且不确定的样本，请求人工对其标注；在此之上加入了伪标注的策略，模型选择不确定的样本的同时也会选择模型十分确定的样本，并利用模型的预测结果对其进行伪标注。增加了训练数据的同时也可以让模型学习到数据中更多主体样本和数据的整体分布，而不是只学习到了数据中很特殊的一小部分数据。

为选择最具有价值的样本进行标注并输入到网络中进行训练。本发明实施例中提出了Weighted-Entropy样本选择策略。该选择策略对未标注样本不确定性的评价的同时也考虑到了每个未标注样本之间的相似性。利用相似性作为不确定性的权值，每个样本的待标注的Weighted-Entropy得分Score可以通过公式(1)表示为：

Score_i＝Entropy_i·Weight_i (1)

公式(1)中的Entropy_i表示第i个未标注样本的信息熵，其计算过程如公式(2)所示；weight_i表示第i个未标注样本与其他样本的相似度，其计算过程如公式(3)所示。公式(2)给出了信息熵的计算过程，其中p_j为输入的未标注的样本经过深度神经网络和softmax分类器之后，softmax输出的O_i中该样本属于第j类的概率，一个样本的信息熵越大代表模型对这个样本的分类结果越不确定。

公式(3)中f_i代表第i个样本经过深度神经网络的全连接层之后输出的特征向量，分别计算每个样本的特征向量与其他样本的特征向量之间的余弦相似度，然后求其平均值来表示该样本与其他样本之间的相似性。

通过公式(1)利用相似性作为权重值与该样本的信息熵相乘，得到最终的该样本的得分。然后将待标注样本按照其Weighted-Entropy值以递增的顺序进行排序，选择出其中Weighted-Entropy最高的K个样本进行标注，将其加入D^L中，作为模型的训练样本。同时取信息熵最小的H个样本作为伪标注样本，利用模型的预测结果对其标注。用于下一次的模型的训练。

4、深度神经网络结构

本方法中用到的神经网络结构为SEResNet-152，其结构如表格3所示。SEResNet-152以ResNet-152网络模型为基础，在其每个Residual模块之后加入了SE(压缩-提取)模块，用于计算特征图的通道与通道之间的权重比例关系。

表3 SEResNet-152的神经网络结构

其中，SEResNet-152网络主要由五个卷积模块与一个softmax分类器组成。Conv_1层接收数据层输入的224*224像素大小的输入数据，利用64个7*7大小的卷积核以2为步长，对输入数据进行卷积，得到了64张112*112大小的特征图，并传递给Conv_2层。Conv_2层由一个卷积核大小为3*3步长为2的最大池化层和三个SEResidual模块组成。其中每个SEResidual模块中都包含三个卷积层和一个SE模块。Conv_2层对Conv_1输入进来的特征图进行特征的提取得到了128个56*56的特征图，并输入给Conv_3层。Conv_3层包含八个SEResidual模块，每个SEResidual模块中也是三个卷积层和一个SE模块，与Conv_2中不同的是Conv_3中每个SEResidual模块中每个卷积操作的特征图的数量变为了Conv_2中的两倍。Conv_4层包含三十六个SEResidual模块，每个SEResidual模块中是三个卷积层和一个SE模块，Conv_4中每个SEResidual模块中每个卷积操作的特征图的数量均变为了Conv_3中的两倍，同时特征图的大小也变为了Conv_3中的一半，也就是14*14。Conv_5层包含三个SEResidual模块，每个SEResidual模块中是三个卷积层和一个SE模块，Conv_5中每个SEResidual模块中每个卷积操作的特征图的数量均变为了Conv_4中的两倍，同时特征图的大小也变为了Conv_4中的一半，也就是7*7。经过Conv_5层提取特征之后，将Conv_5的输出结果进行平均池化，并将特征图展开成为一个一维的向量传递到fc(全连接)层中，最后将fc层的输出传入softmax分类器得到分类结果。

综上所述，本方法中将SE模块与ResNet-152模型相结合，得到了一个在使用相同数据的情况下，学习能力更强分类准确率更高的SEResNet-152网络，并在铝材数据集上获得了0.65％的准确率的提升。

实施例3

下面结合具体的实验数据对实施例1和2中的方案进行可行性验证，详见下文描述：

首先，本发明实施例使用ImageNet数据集对SEResNet-152网络进行预训练，让模型拥有初步的特征提取以及分类的能力。然后在数据增强之后的铝材数据集的训练集中随机的抽取5％的数据给予标注信息加入到已标注数据池L中作为训练数据，对模型进行初始化的训练；而其余的95％的训练数据则作为待标注样本，存储在待标注数据池U中。

初始化训练完成之后，将待标注数据池U中的数据每次一个的输入到模型之中，根据公式(1)计算出每个样本的Weighted-Entropy得分，选择其中Weighted-Entropy最高的295(总训练数据的5％)个样本，对他们添加标注信息并加入到已标注数据池L中，并将其从待标注数据池U中删除；同时选取出Entropy(信息熵)最低的295(总训练数据的5％)个样本，利用模型的预测值给出伪标注，作为供模型下一次训练的伪标注样本。。样本标注完成之后利用已标注数据池D^L与伪标注数据在上次训练的基础之上继续训练，训练完成之后清除掉本次训练过程中使用的伪标注样本的标注信息。依此不断循环，直到达到预先设定的终止条件(在本方法中终止条件设置为L中的数据达到总数据的35％)。本方法中的实验均执行在一台配有NVIDIA GeForce GTX 750Ti显卡的台式机上。

为了验证本发明实施例提出的主动学习与深度学习相结合的铝材表面缺陷检测方法可以有效的提高模型分类的性能并且大幅度减少标注成本。本发明实施例将SEResNet_152_WEN方法与SEResNet_152_AllData方法，Inception_v4_AllData方法，SEResNet_152_random以及SEResNet_152_LC方法进行比较：

1)SEResNet_152_AllData：赋予所有的训练样本正确的标注，并且利用他们在SEResNet-152网络上进行训练，这个方法的结果可以视为训练效果的最好结果。

2)Inception_v4_AllData：赋予所有的训练样本正确的标注，并且利用他们在Inception_v4网络上进行训练。通过这个方法可以体现本发明对网络模型进行优化调整之后的优势。

3)SEResNet_152_random：在训练过程中，本发明不使用least confidence样本选择策略，而是随机选取样本进行标注。这个方法可以体现本发明使用least confidence作为主动学习样本选择策略的优势。

4)SEResNet_152_LC：在训练过程中，本发明使用least confidence样本选择策略。每次选择样本的时候选择least confidence得分最低的K个样本进行人工标注。并且不使用伪标注策略。通过这个方法可以体现本发明提出的Weighted-Entropy样本选择策略以及伪标注策略的优势。

5)SEResNet_152_WEN：在训练过程中，本发明根据公式(1)得到Weighted-Entropy的Score得分进行的样本选择，选择得分最高的K个样本记性人工标注；同时利用Entropy计算出每个样本的信息熵，选取出信息熵最低的H个样本利用模型预测结果进行伪标注，用于下一次的模型的训练。

从图4中结果可以看出，本发明实施例中提出的SEResNet_152_WEN在使用20％数据时精确度就超过了随机选取数据策略的最好准确度；同时在数据很少的情况下比leastconfidence样本选择策略更早的使模型收敛，使用10％的标注数据的时候本方法提出的SEResNet_152_WEN方法相比于least confidence样本选择策略由0.48％的准确率的提升，使用15％标注数据的时候本专利提出的SEResNet_152_WEN方法相比于least confidence样本选择策略由0.72％的准确率的提升，使用20％标注数据的时候本方法提出的SEResNet_152_WEN方法相比于least confidence样本选择策略由0.4％的准确率的提升，使用25％标注数据的时候本方法提出的SEResNet_152_WEN方法相比于least confidence样本选择策略由0.19％的准确率的提升，使用30％标注数据的时候本方法提出的SEResNet_152_WEN方法相比于least confidence样本选择策略由0.34％的准确率的提升；并且在使用35％数据时就可以达到使用全部数据集的最好准确度，相比使用全部数据集足足节约了65％的数据标注成本。另外，使用全部数据时，SEResNet_152得到了93.95％的准确率，而Inception_v4得到了93.3％的准确率，提升了0.65％的准确率。可以看出本方法中对模型的修改也是十分有效的。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种主动学习与深度学习相结合的铝材表面缺陷检测方法，其特征在于，所述方法包括以下步骤：

采用伪标注算法，将待标注样本按照信息熵以递增的顺序进行排序，选择出最低的H个样本，并利用预测结果作为伪标注，将最低的H个样本作为下一次训练的临时训练数据；

2.根据权利要求1所述的一种主动学习与深度学习相结合的铝材表面缺陷检测方法，其特征在于，所述神经网络结构以ResNet-152网络模型为基础，在每个Residual模块之后加入了SE模块具体为：

Conv_1层接收数据层输入的224*224像素大小的输入数据，利用64个7*7大小的卷积核以2为步长，对输入数据进行卷积，得到了64张112*112大小的特征图，并传递给Conv_2层；

Conv_2层由一个卷积核大小为3*3步长为2的最大池化层和三个SEResidual模块组成，每个SEResidual模块中都包含三个卷积层和一个SE模块；Conv_2层对Conv_1输入进来的特征图进行特征的提取得到了128个56*56的特征图，并输入给Conv_3层；

Conv_3层包含八个SEResidual模块，每个SEResidual模块中是三个卷积层和一个SE模块，Conv_3中每个SEResidual模块中每个卷积操作的特征图的数量变为了Conv_2中的两倍；

Conv_4层包含三十六个SEResidual模块，每个SEResidual模块中是三个卷积层和一个SE模块，Conv_4中每个SEResidual模块中每个卷积操作的特征图的数量均变为了Conv_3中的两倍，同时特征图的大小变为了Conv_3中的一半，即14*14；

Conv_5层包含三个SEResidual模块，每个SEResidual模块中是三个卷积层和一个SE模块，Conv_5中每个SEResidual模块中每个卷积操作的特征图的数量均变为了Conv_4中的两倍，同时特征图的大小变为了Conv_4中的一半，即7*7；

经过Conv_5层提取特征之后，将Conv_5的输出结果进行平均池化，并将特征图展开成为一个一维的向量传递到全连接层中，最后将全连接层的输出传入softmax分类器得到分类结果。