CN114943708A

CN114943708A - 图像缺陷检测方法、装置、设备、存储介质和程序产品

Info

Publication number: CN114943708A
Application number: CN202210586712.0A
Authority: CN
Inventors: 袁肇飞; 徐邵稀; 付学宝; 邹军; 唐文博
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-08-26

Abstract

本申请实施例提出了一种图像缺陷检测方法、装置、电子设备、计算机存储介质和计算机程序产品，该方法包括：获取第一样本集；根据所述第一样本集对第一初始模型进行预训练，得到训练完成的第一模型；所述第一样本集包括多张无缺陷图像；获取第二样本集；根据所述第二样本集对第二初始模型进行训练，得到训练完成的第二模型；所述第二样本集包括设置有正样本标签的无缺陷图像和设置有负样本标签的有缺陷图像；其中，所述第二初始模型是基于所述第一模型得到的；获取待检测图像，使用所述第二模型对所述待检测图像进行缺陷检测。

Description

图像缺陷检测方法、装置、设备、存储介质和程序产品

技术领域

本申请涉及深度学习技术领域，尤其涉及一种图像缺陷检测方法、装置、 ***、电子设备、计算机存储介质和计算机程序产品。

背景技术

目前，图像缺陷检测应用非常广泛，传统的机器视觉方法需要针对具体缺陷的特点人工设计特征算子，开发周期长，且特征算子不通用，难以确保快速灵活地适应新的场景需求；深度学习发展起来后，由于其可以自动学习特征，泛化能力强，逐渐取代了经典机器视觉的方法。

相关技术中，常用的一类深度学习检测缺陷方法是搜集标注正负样本，直接送入目标分类或目标检测网络训练模型；然而，这类方法的明显缺陷是正负样本非常地不均衡；这是因为对于大多数领域，不良率总是低的，比如：工业质检领域的电路板缺陷、纺织布匹缺陷、液晶面板缺陷、互联网领域的用户界面(User Interface，UI)缺陷、医疗领域的疾病缺陷以及水果缺陷图像等领域；这就造成正常的图像很多，缺陷负样本非常少，如此，极大影响检测准确率。还有一类方法是仅采用正样本进行学习，然而这种方案重构图像需要复杂的卷积操作，图像重建较为模糊，会影响检测准确率；此外，还有些方案采用少量无缺陷样本训练记忆网络和图像修复网络，然而，这种方案无法学习到缺陷本身信息，且重构图像与待检图像的差值阈值在不同条件下差异很大，影响检测准确率。可见，如何提高图像缺陷的检测准确率，是亟待解决的问题。

发明内容

本申请提供一种图像缺陷检测方法、装置、电子设备、计算机存储介质和计算机程序产品。

本申请的技术方案是这样实现的：

本申请实施例提供了一种图像缺陷检测方法，所述方法包括：

获取第一样本集；根据所述第一样本集对第一初始模型进行预训练，得到训练完成的第一模型；所述第一样本集包括多张无缺陷图像；

获取第二样本集；根据所述第二样本集对第二初始模型进行训练，得到训练完成的第二模型；所述第二样本集包括设置有正样本标签的无缺陷图像和设置有负样本标签的有缺陷图像；其中，所述第二初始模型是基于所述第一模型得到的；

获取待检测图像，使用所述第二模型对所述待检测图像进行缺陷检测。

在一些实施例中，所述根据所述第一样本集对第一初始模型进行预训练，包括：

获取所述第一样本集中的每张图像，将所述第一样本集中的每张图像调整到固定尺寸；

对调整后的每张图像进行预处理操作；

基于预处理操作后的每张图像，对所述第一初始模型进行预训练。

在一些实施例中，所述基于预处理操作后的每张图像，对所述第一初始模型进行预训练，包括：

将所述预处理操作后的每张图像划分为大小相等的图像小块；

对所述划分后的每张图像的图像小块进行扁平化处理，得到第一图像块序列；

将所述第一图像块序列和第一嵌入向量进行组合，得到第一图像块向量序列；所述第一嵌入向量包括旋转嵌入向量和位置嵌入向量；

将所述第一图像块向量序列输入至第一初始模型进行预训练。

在一些实施例中，在所述预处理操作包括Mask操作的情况下，所述将所述第一图像块向量序列输入至第一初始模型进行预训练，包括：

将所述第一图像块向量序列输入至所述第一初始模型，得到输出的图像块序列；

将所述输出的图像块序列投影至图像空间，得到重建图像；

基于所述重建图像和所述Mask操作前的图像确定重建损失；

基于所述Mask操作前的图像的类别标签确定旋转损失；所述类别标签是根据所述Mask操作前的图像的旋转角度对应设置的；

根据所述重建损失和所述旋转损失，对所述第一初始模型进行预训练。

在一些实施例中，所述根据所述第二样本集对第二初始模型进行训练，包括：

获取所述第二样本集中的每张图像，将所述第二样本集中的每张图像调整到固定尺寸；

将调整后的每张图像划分为大小相等的图像小块，对所述划分后的每张图像对应的图像小块进行扁平化处理，得到第二图像块序列；

将所述第二图像块序列与第二嵌入向量进行组合，得到第二图像块向量序列；所述第二嵌入向量包括分类嵌入向量和位置嵌入向量；

将所述第二图像块序列输入至所述第二初始模型，得到每张图像的缺陷分类结果；

基于所述每张图像的缺陷分类结果和设置的样本标签类型，确定分类损失；

根据所述分类损失，对所述第二初始模型进行训练。

在一些实施例中，所述方法还包括：

在得到训练完成的第一模型后，获取所述第一模型的骨干网络；所述骨干网络为ViT(Vision Transformer)网络；

对所述第一模型的ViT网络添加分类头，得到所述第二初始模型；所述分类头用于得到图像缺陷类别。

在一些实施例中，所述对所述第一模型的ViT网络添加分类头，得到所述第二初始模型，包括：

在对所述第一模型的ViT网络添加分类头的基础上，添加检测头，得到所述第二初始模型；所述检测头用于得到图像缺陷位置。

本申请实施例还提出了一种图像缺陷检测装置，所述装置包括第一训练模块、第二训练模块和检测模块，其中，

第一训练模块，用于获取第一样本集；根据所述第一样本集对第一初始模型进行预训练，得到训练完成的第一模型；所述第一样本集包括多张无缺陷图像；

第二训练模块，用于获取第二样本集；根据所述第二样本集对第二初始模型进行训练，得到训练完成的第二模型；所述第二样本集包括设置有正样本标签的无缺陷图像和设置有负样本标签的有缺陷图像；其中，所述第二初始模型是基于所述第一模型得到的；

检测模块，用于获取待检测图像，使用所述第二模型对所述待检测图像进行缺陷检测。

本申请实施例提供一种电子设备，所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述一个或多个技术方案提供的图像缺陷检测方法。

本申请实施例提供一种图像缺陷检测***，所述图像缺陷检测***包括前述的图像缺陷检测装置或前述的电子设备。

本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序；所述计算机程序被执行后能够实现前述一个或多个技术方案提供的图像缺陷检测方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现前述一个或多个技术方案提供的图像缺陷检测方法。

本申请实施例首先使用包括多张无缺陷图像(正样本)的样本集对第一初始模型进行无监督学习预训练，使得模型能够学习图像内部的结构化信息；进一步地，在得到训练完成的第一模型后，保留预训练过程中训练好的权重，并在此基础上确定第二初始模型，通过使用包括正负样本标签的第二样本集对模型进行有监督训练，使得模型学习正负样本的区分度；如此，能够解决相关技术中因缺陷样本不均衡，导致图像缺陷的检测准确率低的问题，并且，本申请实施例提出的图像缺陷检测方法能够确保快速灵活地适应不同的场景需求。

附图说明

图1是本申请实施例中的一种图像缺陷检测方法的流程示意图；

图2A是本申请实施例中的一种无缺陷应用软件(APPlication，APP)界面截图的示意图；

图2B是本申请实施例中的一种对无缺陷APP界面截图进行Resize操作的示意图；

图2C是本申请实施例中的一种对Resize操作后图像进行旋转的示意图；

图2D是本申请实施例中的一种对旋转后图像进行Mask操作的示意图一；

图2E是本申请实施例中的一种对旋转后图像进行Mask操作的示意图二；

图2F是本申请实施例中的一种对旋转后图像进行Mask操作的示意图三；

图2G是本申请实施例中的一种对旋转后图像进行Mask操作的示意图四；

图2H是本申请实施例中的一种对旋转后图像进行Mask操作的示意图五；

图2I是本申请实施例中的一种根据正样本进行无监督训练的流程示意图；

图2J是本申请实施例中的一种根据正负样本进行训练的流程示意图；

图2K是本申请实施例中的一种UI缺陷检测***的流程示意图；

图3是本申请实施例的图像缺陷检测装置的组成结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本申请，并不用于限定本申请。另外，以下所提供的实施例是用于实施本申请的部分实施例，而非提供实施本申请的全部实施例，在不冲突的情况下，本申请实施例记载的技术方案可以任意组合的方式实施。

需要说明的是，在本申请实施例中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素，而且还包括没有明确列出的其它要素，或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元，例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，I和/或J，可以表示：单独存在I，同时存在I和J，单独存在J这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括I、J、R中的至少一种，可以表示包括从I、J和R构成的集合中选择的任意一个或多个元素。

例如，本申请实施例提供的图像缺陷检测方法包含了一系列的步骤，但是本申请实施例提供的图像缺陷检测方法不限于所记载的步骤，同样地，本申请实施例提供的图像缺陷检测装置包括了一系列模块，但是本申请实施例提供的图像缺陷检测装置不限于包括所明确记载的模块，还可以包括为获取相关任务数据、或基于任务数据进行处理时所需要设置的模块。

本申请实施例可以应用于终端设备和服务器组成的计算机***中，并可以与众多其它通用或专用计算***环境或配置一起操作。这里，终端设备可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子商品、网络个人电脑、小型计算机***，等等，服务器可以是小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、服务器等电子设备可以通过程序模块的执行实现相应的功能。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

相关技术中，存在因正负样本不均衡，导致图像缺陷检测准确率低的技术问题；下面，针对上述技术问题，提出以下各实施例。

在本申请的一些实施例中，图像缺陷检测方法可以利用图像缺陷检测装置中的处理器实现，上述处理器可以为特定用途集成电路(Application Specific IntegratedCircuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal Processing Device，DSPD)、可编程逻辑装置 (Programmable LogicDevice，PLD)、现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。

图1是本申请实施例中的一种图像缺陷检测方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤100：获取第一样本集；根据第一样本集对第一初始模型进行预训练，得到训练完成的第一模型。

本申请实施例中，图像缺陷检测方法可以应用于各类需要进行缺陷检测的场景中，例如，工业质检领域的电路板缺陷、纺织布匹缺陷、液晶面板缺陷，医疗领域的疾病缺陷，互联网领域的UI缺陷等负样本严重不均衡的场景；可以理解地，在针对上述任一场景进行缺陷检测时，这里，以UI缺陷检测为例进行说明，首先需要获取与UI界面相关的图像，例如，UI界面截图；然后，基于获取到的图像进行缺陷检测。

这里，第一样本集包括多张无缺陷图像，即，包括大量的正样本；需要说明的是，第一样本集中包括的这些无缺陷图像均未设置有正样本标签；可见，在本申请实施例中，使用第一样本集作为训练数据，用于对第一初始模型进行无监督学习预训练，使得第一初始模型学习无缺陷图像内部的结构化信息。

示例性地，对于获取第一样本集的方式不做限定，例如，可以通过人工收集的方式获取，也可以是通过图像获取装置等方式获取。

在一些实施例中，根据第一样本集对第一初始模型进行预训练，可以包括：获取第一样本集中的每张图像，将第一样本集中的每张图像调整到固定尺寸；对调整后的每张图像进行预处理操作；基于预处理操作后的每张图像，对第一初始模型进行预训练。

本申请实施例中，在获取到第一样本集后，首先会将第一样本集中的每张图像调整到固定尺寸；也就是说，将第一样本集中的每张图像Resize到固定大小；其中，Resize是图像处理中经常使用的一个操作，指的是将图像缩放到一个固定尺寸；比如，分类神经网络的输入大小要求保持一致，此时会用到Resize 操作。

示例性地，固定尺寸可以通过宽度*高度的方式进行表示，也可以通过通道数(Channels)*宽度*高度的方式进行表示；这里，对于固定尺寸的设置，可以根据实际情况进行确定，本申请实施例对此不作限定；例如，固定尺寸可以是224*224、336*336或者448*448等，也可以是3*224*224等；对于固定尺寸 3*224*224的情况，图像的宽度和高度都是224，3指的是通道数，比如红(Red， R)、绿(Green，G)，蓝(Blue，B)三通道。

进一步地，在将第一样本集中的每张图像调整到固定尺寸后，需要对调整后的每张图像进行预处理操作；在一些实施例中，预处理操作可以包括旋转操作和Mask操作中的至少一项。

示例性地，对第一样本集中调整后的每张图像进行旋转操作，指的是将每张图像按照设定角度θ进行旋转；其中，设定角度θ∈{0,90,180,270}，即，共包括4种旋转情况；可以理解地，选择将设定角度θ设置为旋转90度的整数倍，可以保证旋转后图像不会产生黑边，确保后续模型检测效果；对应地，可以将按照设定角度θ进行旋转的旋转后图像的分类标签记为{0,1,2,3}。

示例性地，对第一样本集中调整后的每张图像进行Mask操作，指的是在每张图像中随机选择若干个Mask区域，也称Mask块，例如，随机选择100个 Mask区域进行Mask操作；其中，对于每个Mask区域的尺寸可以根据实际情况进行设置，本申请实施例对此不作限定；例如，可以为{0*0,2*2,4*4,8*8,16*16}；需要说明的是，对于同一张图像中的两个不同的Mask 区域，两者的尺寸可以相同，也可以不同。

对于每一个尺寸大于0的Mask区域，可以随机执行以下至少一种Mask操作：1)将Mask块图像清零；2)将Mask块替换为其他图像的随机相同大小的图像块；3)对Mask块进行高斯滤波；4)对Mask块添加随机噪声。需要说明的是，Mask操作并不限于上述四种操作，例如，还可以是将Mask块对应的彩色图进行灰度化等其他一些图像基础操作。

示例性地，在得到基于上述预处理操作后的每张图像后，基于预处理操作后的每张图像，对第一初始模型进行预训练，可以包括：将预处理操作后的每张图像划分为大小相等的图像小块；对划分后的每张图像的图像小块进行扁平化处理，得到第一图像块序列；将第一图像块序列和第一嵌入向量进行组合，得到第一图像块向量序列；将第一图像块向量序列输入至第一初始模型进行预训练。

示例性地，对于划分后的图像小块的尺寸可以根据实际情况进行设置，本申请实施例对此不作限定，例如，可以将预处理操作后的每张图像划分为16*16 的图像小块，也可以划分为12*12、24*24的图像小块以达到同样目的。

进一步地，在得到划分后的每张图像的图像小块后，对每张图像的图像小块进行扁平化处理；具体地，将每张图像的图像小块flatten成一维向量序列，即，第一图像块序列；这里，flatten操作的作用是使输入的向量在大小不变的情况下，变得扁平化；其实就是把二维的向量拉平到一维向量，例如，把16*16 的向量变成256*1的向量。

示例性地，第一初始模型中包括ViT网络，flatten操作的引入是为了应用标准的Transformer结构，Transformer结构的输入要求是一维向量序列；可以理解地，通过对划分后的图像小块进行flatten操作，也就是扁平化操作后，输入图像也就变成了一维向量序列。

进一步地，在进行flatten操作后，会接着做一个线性投影变换，得到一个新的一维向量序列；例如，通过把flatten操作将16*16的向量变成256*1的向量后，经线性投影变换，可以得到一个768*1维的向量序列；可以看出，线性投影变换后的向量维度不一定等于变换前的向量维度。

示例性地，第一嵌入向量包括旋转嵌入向量(Rotation embedding vector) 和位置嵌入向量(Position embedding vector)；在得到第一图像块序列后，将第一图像块序列和第一嵌入向量进行组合；具体地，在第一图像块序列前添加旋转嵌入向量用来进行分类，并整合位置嵌入向量，以得到第一图像块向量序列，然后将第一图像块向量序列输入至第一初始模型进行预训练，直到满足训练条件。

在一些实施例中，在预处理操作包括Mask操作的情况下，将第一图像块向量序列输入至第一初始模型进行预训练，可以包括：将第一图像块向量序列输入至第一初始模型，得到输出的图像块序列；将输出的图像块序列投影至图像空间，得到重建图像；基于重建图像和Mask操作前的图像确定重建损失；基于Mask操作前的图像的类别标签确定旋转损失；类别标签是根据Mask操作前的图像的旋转角度对应设置的；根据重建损失和旋转损失，对第一初始模型进行预训练。

示例性地，将第一图像块向量序列输入至第一初始模型，可以得到输出的图像块序列；将输出的图像块序列对应向量经过线性投影变换到图像空间，可以得到重建图像；基于重建图像和Mask操作前的图像确定重建损失L_recons(W)，如公式(1)所示：

其中，||·||代表L1范数，x_i代表Mask操作前的图像，x′_i代表Mask操作后的图像块，ViT_recons(x′_i)代表经过ViT网络处理后的重建图像，N是批次大小(batch size)，W代表ViT网络的学习参数。

接着，基于Mask操作前的图像的类别标签确定旋转损失L_rotation(W)，如公式(2)所示：

其中，R(·,θ_i)代表Mask操作前的图像旋转角度，ViT_rotation(R(x_i,θ_i))代表旋转嵌入向量对应位置的输出，

代表预测的图像旋转角度的类别标签。

在一些实施例中，根据公式(1)确定的重建损失L_recons(W)和公式(2)确定的旋转损失L_rotation(W)，可以确定第一初始模型的整体损失L_total，如公式(3) 所示：

L_total＝α₁L_recons(W)+α₂L_rotation(W) (3)

其中，α₁、α₂分别代表重建损失L_recons(W)和旋转损失L_rotation(W)的权重系数；这里，对于α₁、α₂的取值可以根据人工经验进行初始设定，例如设定为 α₁＝0.1，α₂＝0.9；示例性地，在实际训练中，α₁、α₂的取值也可以根据网格搜索(Grid search)方式进行参数优化。

可以理解地，在得到上述整体损失L_total后，可以对该损失进行梯度反向传播，直到第一初始模型满足训练条件；即，训练出最优的第一初始模型；此时，可以得到训练完成的第一模型。

步骤101：获取第二样本集；根据第二样本集对第二初始模型进行训练，得到训练完成的第二模型。

本申请实施例中，在根据上述步骤得到训练完成的第一模型后，可以根据第一模型，得到第二模型；在一种实施例中，可以获取第一模型的骨干网络；这里，骨干网络为ViT网络；接着，对第一模型的ViT网络添加分类头，得到第二初始模型；其中，分类头用于得到图像缺陷类别。

示例性地，图像缺陷类别可以包括空白块、文字重叠截断、图文遮挡、字符乱码、符号错误、图文缺失等至少一项异常缺陷。

在另一种实施例中，还可以在对第一模型的ViT网络添加分类头的基础上，添加检测头，进而，得到第二初始模型；其中，检测头用于得到图像缺陷位置。

示例性地，添加检测头其实就是在分类头的基础上多输出4个位置坐标来表征图像缺陷的位置信息；需要说明的是，在图像缺陷的类型为多个时，检测头默认给出图像中面积占比最大缺陷的位置信息。

可以看出，本申请实施例中，在通过上述预训练步骤，得到第一模型后，通过对第一模型的ViT网络添加分类头或添加分类头以及检测头，可以得到第二初始模型；这样，第二初始模型可以保留预训练步骤中训练好的权重，并在此基础上构造第二样本集以进行模型的训练。

示例性地，第二样本集包括设置有正样本标签的无缺陷图像和设置有负样本标签的有缺陷图像；即，既包括正负样本，还包括正负样本各自对应的标签；可见，在本申请实施例中，使用第二样本集作为训练数据，用于对第二初始模型进行有监督学习训练，使得第二初始模型学习正负样本的区分度。

可以理解地，为了提升模型的检测效果，可以选择检测场景中获取到的全部负样本，并随机选择设定倍数的正样本，两者共同构成第二样本集，用于对对第二初始模型进行有监督学习微调训练。

这里，对于设定倍数的设置不作限定，可以根据经验值进行设置；例如，可以设置为三倍；即，在第二样本集包括的负样本数量为一万张的情况下，正样本数量则为三万张。

在一些实施例中，根据第二样本集对第二初始模型进行训练，可以包括：获取第二样本集中的每张图像，将第二样本集中的每张图像调整到固定尺寸；将调整后的每张图像划分为大小相等的图像小块，对划分后的每张图像对应的图像小块进行扁平化处理，得到第二图像块序列；将第二图像块序列与第二嵌入向量进行组合，得到第二图像块向量序列；第二嵌入向量包括分类嵌入向量和位置嵌入向量；将第二图像块序列输入至第二初始模型，得到每张图像的缺陷分类结果；基于每张图像的缺陷分类结果和设置的样本标签类型，确定分类损失；根据分类损失，对第二初始模型进行训练。

这里，对于根据第二样本集中的每张图像得到第二图像块序列的实现方式，与上述根据第一样本集中的每张图像得到第一图像块序列的实现方式类似，区别在于将第二样本集中的每张图像调整到固定尺寸后，不需要对调整后的每张图像进行预处理操作，此处不再赘述。

示例性地，第二嵌入向量包括分类嵌入向量(Classification embeddingvector)和位置嵌入向量；在得到第二图像块序列后，将第二图像块序列和第二嵌入向量进行组合；具体地，在第二图像块序列前添加分类嵌入向量用来进行分类，并整合位置嵌入向量，以得到第二图像块向量序列，然后将第二图像块向量序列输入至第二初始模型进行训练，直到满足训练条件。

可以理解地，在基于每张图像的缺陷分类结果和设置的样本标签类型，确定第二初始模型的分类损失后，可以对该损失进行梯度反向传播，直到第二初始模型满足训练条件；即，训练出最优的第二初始模型；此时，可以得到训练完成的第二模型。

步骤102：获取待检测图像，使用第二模型对待检测图像进行缺陷检测。

示例性地，根据上述步骤100和步骤101，可以得到训练完成的第二模型，即，最终的缺陷检测模型；之后，可以从模型应用场景中获取需要进行缺陷检测的待检测图像，进而，使用第二模型对待检测图像进行缺陷检测，得到缺陷检测结果。

需要说明的是，在第二模型包括分类头的情况下，缺陷检测结果包括待检测图像的缺陷类别，例如、字符乱码、图文缺失等缺陷；在在第二模型包括分类头和检测头的情况下，缺陷检测结果包括待检测图像的缺陷类别和图像中面积占比最大缺陷的位置信息，例如，在缺陷类别包括字符乱码和图文缺失，且字符乱码的面积占比小于图文缺失的情况下，缺陷检测结果包括字符乱码和图文缺失，以及图文缺失的位置信息。

本申请实施例提出了一种图像缺陷检测方法、装置、电子设备、计算机存储介质和计算机程序产品，该方法包括：获取第一样本集；根据第一样本集对第一初始模型进行预训练，得到训练完成的第一模型；第一样本集包括多张无缺陷图像；获取第二样本集；根据第二样本集对第二初始模型进行训练，得到训练完成的第二模型；第二样本集包括设置有正样本标签的无缺陷图像和设置有负样本标签的有缺陷图像；其中，第二初始模型是基于第一模型得到的；获取待检测图像，使用第二模型对待检测图像进行缺陷检测。可以看出，本申请实施例首先使用包括多张无缺陷图像(正样本)的样本集对第一初始模型进行无监督学习预训练，使得模型能够学习图像内部的结构化信息；进一步地，在得到训练完成的第一模型后，保留预训练过程中训练好的权重，并在此基础上确定第二初始模型，通过使用包括正负样本标签的第二样本集对模型进行有监督训练，使得模型学习正负样本的区分度；如此，能够解决相关技术中因缺陷样本不均衡，导致图像缺陷的检测准确率低的问题，并且，本申请实施例提出的图像缺陷检测方法能够确保快速灵活地适应不同的场景需求。

为了能够更加体现本申请的目的，在本申请上述实施例的基础上，以UI 缺陷检测的大型APP截图场景为例作进一步的说明。

对于大型的APP而言，往往承载了公司触达用户的大量业务类型，通过前中后台数以万计的服务链条支撑，代码后向兼容、模块依赖、数据一致性、业务策略重叠等，都可能引起功用户侧的***问题，比如空白屏、空白块、文字重叠截断、图文遮挡、字符乱码、货币符号错误、兜底图文缺失等图像缺陷。

示例性地，通过APP的用户界面截图(简称APP界面截图)进行UI缺陷检测是一种常用手段，但是，真正有缺陷的截图在全部截图中的占比很可能不到1％，若直接采用正负样本训练会引发一系列样本不均衡问题。然而，本申请实施例提出的图像缺陷检测方法可以解决该技术问题。

在一些实施例中，以APP界面截图为例，图像缺陷检测方法可以包括以下步骤：

首先，将无缺陷APP界面截图Resize到固定大小。

示例性地，可以将无缺陷APP界面截图Resize到3*224*224大小；参照图 2A和图2B，可以看出，通过对获取到的无缺陷APP界面截图(图2A)进行 Resize操作，可以得到Resize操作后的图像(图2B)。

接着，将Resize操作后的图像按照设定角度随机旋转。

示例性地，设定角度可以为90度，参照图2C，是对图2B的所示的图像旋转90度后得到的旋转后图像。

然后，对旋转后图像进行Mask操作。

示例性地，对于每一个尺寸大于0的Mask区域，分别进行如下四种操作： 1)将Mask块图像清零；2)将Mask块替换为其他图像的随机相同大小的图像块；3)对Mask块进行高斯滤波；4)对Mask块添加随机噪声；参照图2D-图 2G，依次是对图2C的所示的图像进行Mask块图像清零、Mask块替换、Mask 块高斯滤波以及Mask块添加随机噪声后的图像；即，在对调整后的图像进行旋转操作的基础上，进行四种不同的Mask操作。需要说明的是，在实际应用中，上述Mask操作可以多选，比如，同时执行以上四种操作，参照图2H。

之后，将Mask操作后的图像划分为大小相等的图像小块，并基于划分后的图像小块进行第一初始模型预训练。

示例性地，如图2I所示，可以将Mask操作后的图像(对应图中网络输入图像)划分为16*16大小相等的图像小块，并将每个图像小块flatten成一维的图像块序列(对应上述第一图像块序列)，这里，为了展示方便，显示9*1的图像小块示意，在图像块序列前添加旋转嵌入向量用来进行分类，并整合位置嵌入向量，得到图像块向量序列(对应上述第一图像块向量序列)；然后将图像块向量序列送入第一初始模型中的ViT网络(对应图中VisionTransformer部分)。将ViT网络输出的图像块序列对应向量经过线性投影变换到图像空间，得到重建图像；再利用重建图像和Mask操作前的旋转图像(对应图中旋转后图像) 计算重建损失，利用Mask操作前的图像的类别标签估计旋转损失，进而利用梯度反传训练得到最优模型(对应上述第一模型)。

最后，获取第一模型中的ViT网络，对ViT网络添加分类头，得到第二初始模型；保留预训练步骤中训练好的权重，构造UI缺陷图像正负样本集(对应上述第二样本集)，通过finetune方式学习正负样本区分度。

示例性地，构造第二样本集操作中首先选择全部负样本，然后随机选择3 倍数量的正样本共同构成训练样本集进行finetune训练。需要说明的是，直接将第二样本集中每张图像Resize后的源图像送入第二初始模型，不需要进行旋转及Mask操作，如图2J所示(利用softmax分类损失进行梯度反传，训练得到最优模型(对应上述第二模型)，即，最终UI缺陷检测模型。

图2K是本申请实施例中的一种UI缺陷检测***的流程示意图，如图2K 所示，将待检测图像Resize到224*224后，使用上述实施例得到的最终UI缺陷检测模型进行缺陷检测，得到缺陷检测结果；根据缺陷结果检测，判断是否包含UI缺陷，如果否，则确定待检测图像为合格UI图像；反之，如果是，则确定具体缺陷类型；例如，文字重叠、空白块、间距异常等。

图3是本申请实施例的图像缺陷检测装置的组成结构示意图，如图2所示，该装置包括：第一训练模块300、第二训练模块301和检测模块302，其中：

第一训练模块300，用于获取第一样本集；根据所述第一样本集对第一初始模型进行预训练，得到训练完成的第一模型；所述第一样本集包括多张无缺陷图像；

第二训练模块301，用于获取第二样本集；根据所述第二样本集对第二初始模型进行训练，得到训练完成的第二模型；所述第二样本集包括设置有正样本标签的无缺陷图像和设置有负样本标签的有缺陷图像；其中，所述第二初始模型是基于所述第一模型得到的；

检测模块302，用于获取待检测图像，使用所述第二模型对所述待检测图像进行缺陷检测。

在一些实施例中，所述第一训练模块300，用于根据所述第一样本集对第一初始模型进行预训练，包括：

对调整后的每张图像进行预处理操作；

在一些实施例中，所述第一训练模块300，用于基于预处理操作后的每张图像，对所述第一初始模型进行预训练，包括：

在一些实施例中，在所述预处理操作包括Mask操作的情况下，所述第一训练模块300，用于将所述第一图像块向量序列输入至第一初始模型进行预训练，包括：

将所述输出的图像块序列投影至图像空间，得到重建图像；

基于所述重建图像和所述Mask操作前的图像确定重建损失；

在一些实施例中，所述第二训练模块301，用于根据所述第二样本集对第二初始模型进行训练，包括：

根据所述分类损失，对所述第二初始模型进行训练。

在一些实施例中，所述第二训练模块301，还用于：

在得到训练完成的第一模型后，获取所述第一模型的骨干网络；所述骨干网络为ViT网络；

在一些实施例中，所述第二训练模块301，用于对所述第一模型的ViT网络添加分类头，得到所述第二初始模型，包括：

在实际应用中，上述第一训练模块300、第二训练模块301和检测模块302 均可以由位于电子设备中的处理器实现，该处理器可以为ASIC、DSP、DSPD、 PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。

另外，在本实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的单元如果以软件功能模块的形式实现并非作为独立的商品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件商品的形式体现出来，该计算机软件商品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ReadOnly Memory， ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

具体来讲，本实施例中的一种图像缺陷检测方法对应的计算机程序指令可以被存储在光盘、硬盘、U盘等存储介质上，当存储介质中的与一种图像缺陷检测方法对应的计算机程序指令被一电子设备读取或被执行时，实现前述实施例的任意一种图像缺陷检测方法。

基于前述实施例相同的技术构思，参见图4，其示出了本申请实施例提供的电子设备400，可以包括：存储器401和处理器402；其中，

存储器401，用于存储计算机程序和数据；

处理器402，用于执行存储器中存储的计算机程序，以实现前述实施例的任意一种图像缺陷检测方法。

在实际应用中，上述存储器401可以是易失性存储器(volatile memory)，例如RAM；或者非易失性存储器(non-volatile memory)，例如ROM、快闪存储器(flashmemory)、硬盘(Hard Disk Drive，HDD)或固态硬盘 (Solid-State Drive，SSD)；或者上述种类的存储器的组合，并向处理器402 提供指令和数据。

上述处理器402可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的审计管理平台，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现前述一个或多个技术方案提供的图像缺陷检测方法，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包 (Software Development Kit，SDK)等等。

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本申请所提供的各方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的各商品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的商品实施例。

本申请所提供的各方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序商品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序商品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序商品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种图像缺陷检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一样本集对第一初始模型进行预训练，包括：

对调整后的每张图像进行预处理操作；

3.根据权利要求2所述的方法，其特征在于，所述基于预处理操作后的每张图像，对所述第一初始模型进行预训练，包括：

4.根据权利要求3所述的方法，其特征在于，在所述预处理操作包括Mask操作的情况下，所述将所述第一图像块向量序列输入至第一初始模型进行预训练，包括：

将所述输出的图像块序列投影至图像空间，得到重建图像；

基于所述重建图像和所述Mask操作前的图像确定重建损失；

5.根据权利要求1所述的方法，其特征在于，所述根据所述第二样本集对第二初始模型进行训练，包括：

根据所述分类损失，对所述第二初始模型进行训练。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述第一模型的ViT网络添加分类头，得到所述第二初始模型，包括：

8.一种图像缺陷检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至7任一项所述的方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。

11.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至7中任一项所述的方法。