CN112801122B

CN112801122B - 异常检测模型的训练方法及使用此方法的电子装置

Info

Publication number: CN112801122B
Application number: CN202010800796.4A
Authority: CN
Inventors: 朱仕任
Original assignee: Pegatron Corp
Current assignee: Pegatron Corp
Priority date: 2019-11-14
Filing date: 2020-08-11
Publication date: 2023-11-07
Anticipated expiration: 2040-08-11
Also published as: CN112801122A; TW202119249A; US20210150698A1; TWI760657B; US11756179B2

Abstract

一种异常检测模型的训练方法及使用此方法的电子装置。异常检测模型包括生成网络模型及鉴别网络模型。异常检测模型的训练方法包括以下步骤。将多个原始图像的其中一者及多个任务信息的其中一者作为一训练样本。将该训练样本输入至该生成网络模型及该鉴别网络模型以运算出对应于该训练样本的多个网络损失结果。若训练样本的原始图像与训练样本的任务信息不匹配，则根据此些网络损失结果的倒数加权后相加得到第一损失函数，并依据第一损失函数训练生成网络模型。

Description

异常检测模型的训练方法及使用此方法的电子装置

技术领域

本发明涉及一种模型的训练方法，且特别涉及一种异常检测模型的训练方法及使用此方法的电子装置。

背景技术

在深度学习的浪潮下，图像的异常检测取得了快速的发展，其中常见的作法是基于自动编码器重建误差以进行异常检测。此类作法的优点在于只须使用正常训练样本来训练异常检测模型，而无须使用实务上不易取得的异常训练样本来训练异常检测模型。

然而，现行的异常检测模型通常只能用以执行单一异常检测任务。若要让单一异常检测模型可执行多重异常检测任务，只能在各检测任务所定义的异常特征与其他检测任务所定义的正常特征没有明显重叠的情况下方能实现。举例来说，若多重异常检测任务中的某一检测任务的异常特征刚好是另一检测任务的正常特征，便无法通过同一个异常检测模型执行上述的多重异常检测任务。于此情况下，只能针对上述的多重异常检测任务中的每一检测任务建立及训练对应的异常检测模型。如此一来，将会导致所须建立及训练对应的异常检测模型的数量太多，大大地增加多重异常检测的开发成本及开发复杂度。

发明内容

有鉴于此，本发明提供一种异常检测模型的训练方法及使用此方法的电子装置，可让训练后的单一异常检测模型可执行多重异常检测任务。

本发明的异常检测模型的训练方法用于电子装置，其中异常检测模型包括生成网络模型及鉴别网络模型。异常检测模型的训练方法包括以下步骤。将多个原始图像的其中一者及多个任务信息的其中一者作为一训练样本。将该训练样本输入至该生成网络模型及该鉴别网络模型以运算出对应于该训练样本的多个网络损失结果。若训练样本的原始图像与训练样本的任务信息不匹配，则根据此些网络损失结果倒数加权后相加得到第一损失函数，并依据第一损失函数训练生成网络模型。

本发明的电子装置包括存储器以及处理器。存储器用以存储多个原始图像及多个任务信息。处理器耦接存储器，用以运行异常检测模型，其中异常检测模型包括生成网络模型及鉴别网络模型。处理器用以执行以下步骤。将此些原始图像的其中一者及此些任务信息的其中一者作为训练样本。将训练样本输入至生成网络模型及鉴别网络模型以运算出对应于训练样本的多个网络损失结果。若训练样本的原始图像与训练样本的任务信息不匹配，则根据此些网络损失结果的倒数加权后相加得到第一损失函数，并依据第一损失函数训练生成网络模型。

基于上述，本发明所提出的异常检测模型的训练方法及使用此方法的电子装置，可将原始图像及任务信息作为异常检测模型的训练样本，致使异常检测模型根据训练样本产生多个网络损失结果。此外，若训练样本的原始图像与训练样本的任务信息不匹配，则根据此些网络损失结果的倒数加权后相加得到第一损失函数，并依据第一损失函数训练异常检测模型中的生成网络模型。如此一来，异常检测模型可根据任务信息与原始图像的各种排列组合进行学习，因此训练后的单一异常检测模型将可执行多重异常检测任务。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合说明书附图作详细说明如下。

附图说明

下面的说明书附图是本发明说明书的一部分，示出了本发明的示例实施例，说明书附图与说明书的描述一起说明本发明的原理。

图1是依照本发明一实施例所示出的电子装置的电路方框示意图。

图2是依照本发明一实施例所示出的异常检测模型的框架示意图。

图3是依照本发明一实施例所示出的异常检测模型的训练方法的步骤流程图。

图4是依照本发明一实施例所示出的图3的步骤S320的细节步骤流程图。

图5是依照本发明一实施例所示出的训练画面划分为多个原始图像的示意图。

附图标记说明：

100：电子装置

110：存储器

120：处理器

130：异常检测模型

131：生成网络模型

132：鉴别网络模型

500：训练画面

c、TSI_1～TSI_N：任务信息

D1：解码器

E1、E2：编码器

f(x)：第一特征向量

f(x’)：第二特征向量

LF1：第一损失函数

LF2：第二损失函数

Lenc、Lcon、Ladv：网络损失结果

OPT_1～OPT_N、x：原始图像

S310、S320、S330、S340、S350、S421～S425：步骤

TP：训练样本

x’：重建图像

z：第一潜在向量

z’：第二潜在向量

具体实施方式

为了使本发明的内容可以被更容易明了，以下特举实施例做为本发明确实能够据以实施的范例。另外，凡可能之处，在附图及实施方式中使用相同标号的元件/构件/步骤，代表相同或类似部件。

图1是依照本发明一实施例所示出的电子装置的电路方框示意图。请参照图1，电子装置100可例如是个人电脑、服务器、笔记本电脑、平板电脑、智能手机等，但本发明并不以此为限。电子装置100包括存储器110以及处理器120，但不限于此。

存储器110用以存储多个原始图像OPT_1～OPT_N以及多个任务信息TSI_1～TSI_N，其中此些原始图像OPT_1～OPT_N中的每一者对应于此些任务信息TSI_1～TSI_N的其中一者。更进一步来说，若原始图像OPT_1是对应于任务信息TSI_1，则表示原始图像OPT_1与任务信息TSI_1相匹配。相对地，若原始图像OPT_1并非对应于任务信息TSI_1，则表示原始图像OPT_1与任务信息TSI_1不匹配。

在本发明的一实施例中，存储器110可例如是任意形式的固定式或可移动式随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、快闪存储器(Flash memory)、硬盘或其他类似装置或这些装置的组合，但本发明并不限于此。

处理器120耦接存储器110，用以运行异常检测模型130。在本发明的一实施例中，处理器110可例如是各类型的中央处理器(central processing unit，CPU)、***芯片(system-on-chip，SOC)、应用处理器(application processor)、图形处理器(graphicsprocessing unit，GPU)、微处理器(microprocessor)、数字信号处理器(digital signalprocessor，DSP)、可程序化控制器、特殊应用集成电路(application specificintegrated circuits，ASIC)、可程序化逻辑装置(programmable logic device，PLD)或其他类似装置或此些装置的组合，本发明并不限制处理器120的类型。在一些实施例中，处理器120例如是用以负责电子装置100的整体运行。

本发明的一些实施例中，处理器120可运行异常检测模型130以对测试机台上的电路板进行多重异常检测，或对产线输送带上的物品进行多重异常检测，但本发明不限于此。

图2是依照本发明一实施例所示出的异常检测模型的框架示意图。请参照图2，异常检测模型130可例如是生成对抗网络(Generative Adversarial Networks，GAN)模型。更进一步来说，异常检测模型130可例如是GANomaly模型，其可包括生成网络模型(generative model)131及鉴别网络模型(discriminative model)132。在本发明的实施例中，异常检测模型130的训练，例如，用来调校处理器120运行异常检测模型130时所使用的各项参数以及权重值等，而实际进行多重异常检测任务则是使用，例如，训练后的异常检测模型130来检测多重异常。

图3是依照本发明一实施例所示出的异常检测模型的训练方法的步骤流程图，可用于图1的电子装置100，但不限于此。请合并参照图1～图3。首先，于步骤S310中，处理器120可将原始图像OPT_1～OPT_N的其中一者及任务信息TSI_1～TSI_N的其中一者作为训练样本TP。接着，于步骤S320中，处理器120可将训练样本TP输入至生成网络模型131及鉴别网络模型132以运算出对应于训练样本TP的多个网络损失结果Lenc、Lcon、Ladv。详细来说，如图2所示，处理器120可将训练样本TP中的原始图像x及任务信息c输入至生成网络模型131及鉴别网络模型132以运算出网络损失结果Lenc、Lcon、Ladv。之后，于步骤S330中，处理器120可判断训练样本TP的原始图像x与训练样本TP的任务信息c是否匹配。

若步骤S330的判断结果为否，即训练样本TP的原始图像x与训练样本TP的任务信息c不匹配，则于步骤S340中，处理器120可根据网络损失结果Lenc、Lcon、Ladv的倒数加权后相加得到第一损失函数LF1，并依据第一损失函数LF1训练生成网络模型131。换句话说，处理器120可根据第一损失函数LF1调校生成网络模型131内的各项参数以及权重值。

在本发明的一实施例中，第一损失函数LF1可例如是根据下列式(1)来计算得出，其中W11、W12、W13分别为对应于网络损失结果Lenc、Lcon、Ladv的权重值，其可根据实际应用自行设定。

相对地，若步骤S330的判断结果为是，即训练样本TP的原始图像x与训练样本TP的任务信息c相匹配，则于步骤S350中，处理器120可根据网络损失结果Lenc、Lcon、Ladv计算第二损失函数LF2，并依据第二损失函数LF2训练生成网络模型131。换句话说，处理器120可根据第二损失函数LF2调校生成网络模型131内的各项参数以及权重值。

在本发明的一实施例中，第二损失函数LF2可例如是根据下列式(2)来计算得出，其中W21、W22、W23分别为对应于网络损失结果Lenc、Lcon、Ladv的权重值，其可根据实际应用自行设定。

LF2＝W21×Lenc+W22×Lcon+W23×Ladv 式(2)

由于处理器120将原始图像x及任务信息c输入至异常检测模型130，并根据原始图像x与任务信息c是否匹配而以第一损失函数LF1或第二损失函数LF2来训练异常检测模型130，因此异常检测模型130可根据任务信息TSI_1～TSI_N与原始图像OPT_1～OPT_N的各种排列组合进行学习。如此一来，训练后的异常检测模型130将可执行多重异常检测任务。

在本发明的一实施例中，处理器120可对任务信息c进行编码以得到任务编码，并将原始图像x及任务信息c的任务编码作为训练样本TP。在本发明的一实施例中，处理器120可对任务信息c进行独热编码(one-hot encoding)以得到任务编码，但本发明并不以此为限。在本发明的其他实施例中，处理器120也可采用其他的编码方式对任务信息c进行编码以得到任务编码，端视实际应用及设计需求而定。

图4是依照本发明一实施例所示出的图3的步骤S320的细节步骤流程图。请合并参照图1～图4，图3的步骤S320可包括细节步骤S421～S425。首先，于步骤S421中，可将训练样本TP的原始图像x输入生成网络模型131以运算出第一潜在向量(latent vector)z。接着，于步骤S422中，可将训练样本TP的任务信息c与第一潜在向量z合并以得到合并后潜在向量。在本发明的一实施例中，可将任务信息c串接在第一潜在向量z之后以得到合并后潜在向量，但本发明并不以此为限。于此，“串接”代表在不改变任务信息c的向量元素与第一潜在向量z的向量元素的情况下将两个向量(即任务信息c与第一潜在向量z)串连结合为一个向量。具体而言，假设任务信息c为M*1的向量而第一潜在向量z为N*1的向量，则串接任务信息c与第一潜在向量z而产生的合并后潜在向量为(M+N)*1的向量。此外，合并后潜在向量的向量元素是由任务信息c的向量元素与第一潜在向量z的向量元素所组成。

然后，于步骤S423中，将上述的合并后潜在向量通过生成网络模型131运算出重建图像x’及第二潜在向量z’。接着，于步骤S424中，将原始图像x及重建图像x’输入鉴别网络模型132以分别运算出第一特征向量(feature vector)f(x)及第二特征向量f(x’)。之后，于步骤S425中，根据第一潜在向量z、第二潜在向量z’、原始图像x、重建图像x’、第一特征向量f(x)及第二特征向量f(x’)计算网络损失结果Lenc、Lcon、Ladv。

详细来说，生成网络模型131可包括编码器E1、解码器D1以及编码器E2。编码器E1可对原始图像x进行编码以产生第一潜在向量z。解码器D1可将第一潜在向量z与任务信息c合并以得到合并后潜在向量，并对合并后潜在向量进行解码以产生重建图像x’。编码器E2可对重建图像x’进行编码以产生第二潜在向量z’。

接着，处理器120可在像素层面计算原始图像x与重建图像x’间的差距以得到网络损失结果Lcon，在图像的特征层面计算第一特征向量f(x)与第二特征向量f(x’)间的差距以得到网络损失结果Ladv，以及在潜在向量层面计算第一潜在向量z与第二潜在向量z’间的差距以得到网络损失结果Lenc，其分别如式(3)～式(5)所示。

Lcon＝||x-x′||₁ 式(3)

Ladv＝||f(x)-f(x′)||₂ 式(4)

Lenc＝||z-z′||₂ 式(5)

在取得网络损失结果Lcon、Ladv、Lenc之后，处理器120可将式(3)～式(5)代入式(1)或式(2)，以计算第一损失函数LF1或第二损失函数LF2，并据以训练生成网络模型131。

处理器120可交替地训练生成网络模型131及鉴别网络模型132。在训练鉴别网络模型132的阶段，处理器120可将训练样本TP的任务信息c与第一特征向量f(x)或第二特征向量f(x’)合并以得到合并后特征向量。在本发明的一实施例中，可将任务信息c串接在第一特征向量f(x)或第二特征向量f(x’)之后以得到合并后特征向量，但本发明并不以此为限。

接着，处理器120将合并后特征向量通过鉴别网络模型132进行运算以得到鉴别结果DRST，并依据鉴别结果DRST训练鉴别网络模型132。换句话说，处理器120可根据鉴别结果DRST调校鉴别网络模型132内的各项参数以及权重值。

在本发明的一实施例中，鉴别网络模型132可将合并后特征向量通过Softmax函数进行运算以得到鉴别结果DRST，其中鉴别结果DRST包括以下四种类别：输入至鉴别网络模型132的图像为真(real)图像、输入至鉴别网络模型132的图像为假(fake)图像、输入至鉴别网络模型132的图像为真图像且与任务信息c不匹配、输入至鉴别网络模型132的图像为假图像且与任务信息c不匹配。以下将以一种应用情境来举例说明异常检测模型130的训练方法。

在本发明的一应用情境中，处理器120可将图5所示的训练画面500划分为多个原始图像OPT_1～OPT_N，将此些原始图像OPT_1～OPT_N位于训练画面500的位置信息作为此些任务信息TSI_1～TSI_N，并将此些原始图像OPT_1～OPT_N及此些任务信息TSI_1～TSI_N存储在存储器110中。

举例来说，假设训练画面500为电路板的拍摄画面；原始图像OPT_1为“元件区域焊有电容器”的图像，且位于训练画面500的第一个位置(即任务信息TSI_1为“第一个位置”)；而原始图像OPT_2为“元件区域并未焊有电容器”的图像，且位于训练画面500的第二个位置(即任务信息TSI_2为“第二个位置”)。因此，若处理器120将原始图像OPT_1及任务信息TSI_1(或原始图像OPT_2及任务信息TSI_2)作为训练样本TP并输入至生成网络模型131及鉴别网络模型132以运算出网络损失结果Lenc、Lcon、Ladv。基于原始图像OPT_1与任务信息TSI_1相匹配(或原始图像OPT_2与任务信息TSI_2相匹配)，因此处理器120依据第二损失函数LF2训练生成网络模型131。

相对地，若处理器120将原始图像OPT_1及任务信息TSI_2(或原始图像OPT_2及任务信息TSI_1)作为训练样本TP并输入至生成网络模型131及鉴别网络模型132以运算出网络损失结果Lenc、Lcon、Ladv，基于原始图像OPT_1与任务信息TSI_2不匹配(或原始图像OPT_2与任务信息TSI_1不匹配)，因此处理器120依据第一损失函数LF1训练生成网络模型131。

另外，在训练鉴别网络模型132的阶段，若处理器120将原始图像OPT_1及任务信息TSI_1作为训练样本TP并输入至鉴别网络模型132，鉴别网络模型132可根据原始图像OPT_1产生特征向量，鉴别网络模型132可将任务信息TSI_1与鉴别网络模型132所产生的特征向量合并以得到合并后特征向量，且鉴别网络模型132可对合并后特征向量进行运算以得到鉴别结果DRST。基于原始图像OPT_1为真图像且与任务信息TSI_1相匹配，处理器120可根据所得到的鉴别结果DRST训练鉴别网络模型132。

相对地，若处理器120将原始图像OPT_1及任务信息TSI_2作为训练样本TP并输入至鉴别网络模型132，鉴别网络模型132可根据原始图像OPT_1产生特征向量，鉴别网络模型132可将任务信息TSI_2与鉴别网络模型132所产生的特征向量合并以得到合并后特征向量，且鉴别网络模型132可对合并后特征向量进行运算以得到鉴别结果DRST。基于原始图像OPT_1为真图像且与任务信息TSI_2不匹配，处理器120可根据所得到的鉴别结果DRST训练鉴别网络模型132。

类似地，若处理器120将原始图像OPT_1的重建图像及任务信息TSI_1作为训练样本TP并输入至鉴别网络模型132，鉴别网络模型132可根据原始图像OPT_1的重建图像产生特征向量，鉴别网络模型132可将任务信息TSI_1与鉴别网络模型132所产生的特征向量合并以得到合并后特征向量，且鉴别网络模型132可对合并后特征向量进行运算以得到鉴别结果DRST。基于原始图像OPT_1的重建图像为假图像且与任务信息TSI_1相匹配，处理器120可根据所得到的鉴别结果DRST训练鉴别网络模型132。

相对地，若处理器120将原始图像OPT_1的重建图像及任务信息TSI_2作为训练样本TP并输入至鉴别网络模型132，鉴别网络模型132可根据原始图像OPT_1原始图像OPT_1的重建图像产生特征向量，鉴别网络模型132可将任务信息TSI_2与鉴别网络模型132所产生的特征向量合并以得到合并后特征向量，且鉴别网络模型132可对合并后特征向量进行运算以得到鉴别结果DRST。基于原始图像OPT_1的重建图像为假图像且与任务信息TSI_2不匹配，处理器120可根据所得到的鉴别结果DRST训练鉴别网络模型132。

通过多次的训练之后，异常检测模型130即可根据所输入的任务信息(位置信息)决定当下所输入的图像的真假，以及决定所输入的图像与所输入的任务信息(位置信息)是否匹配。如此一来，单一异常检测模型130即可执行“元件区域焊有电容器”以及“元件区域并未焊有电容器”此两种检测任务。

综上所述，本发明实施例所提出的异常检测模型的训练方法及使用此方法的电子装置，可将原始图像及任务信息作为异常检测模型的训练样本，致使异常检测模型根据训练样本产生多个网络损失结果。此外，若训练样本的原始图像与训练样本的任务信息不匹配，则根据此些网络损失结果的倒数加权后相加得到第一损失函数，并依据第一损失函数训练异常检测模型中的生成网络模型。如此一来，异常检测模型可根据任务信息与原始图像的各种排列组合进行学习，因此训练后的单一异常检测模型将可执行多重异常检测任务。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，任何所属技术领域中技术人员，在不脱离本发明的构思和范围内，当可作些许的变动与润饰，故本发明的保护范围当视权利要求所界定者为准。

Claims

1.一种异常检测模型的训练方法，用于一电子装置，其特征在于，该异常检测模型包括一生成网络模型及一鉴别网络模型，且该训练方法包括：

将多个原始图像的其中一者及多个任务信息的其中一者作为一训练样本；

将该训练样本输入至该生成网络模型及该鉴别网络模型以运算出对应于该训练样本的多个网络损失结果；以及

若该训练样本的原始图像与该训练样本的任务信息不匹配，则根据所述多个网络损失结果的倒数加权后相加得到一第一损失函数，并依据该第一损失函数训练该生成网络模型，

其中，将该训练样本输入至该生成网络模型及该鉴别网络模型以运算出对应于该训练样本的所述多个网络损失结果的步骤包括：

将该训练样本的该原始图像输入该生成网络模型以运算出一第一潜在向量；

将该训练样本的该任务信息与该第一潜在向量合并以得到一合并后潜在向量；

将该合并后潜在向量通过该生成网络模型运算出一重建图像及一第二潜在向量；

将该原始图像及该重建图像输入该鉴别网络模型以分别运算出一第一特征向量及一第二特征向量；以及

根据该第一潜在向量、该第二潜在向量、该原始图像、该重建图像、该第一特征向量及该第二特征向量计算所述多个网络损失结果。

2.如权利要求1所述的异常检测模型的训练方法，其特征在于，还包括若该训练样本的原始图像与该训练样本的任务信息相匹配，则根据所述多个网络损失结果计算一第二损失函数，并依据该第二损失函数训练该生成网络模型。

3.如权利要求1所述的异常检测模型的训练方法，其特征在于，将所述多个原始图像的其中一者及所述多个任务信息的其中一者作为该训练样本的步骤包括：

对该任务信息进行编码以得到一任务编码；以及

将该原始图像及该任务编码作为该训练样本。

4.如权利要求1所述的异常检测模型的训练方法，其特征在于，还包括：

将一训练画面划分为所述多个原始图像；以及

将所述多个原始图像位于该训练画面的位置信息作为所述多个任务信息。

5.如权利要求1所述的异常检测模型的训练方法，其特征在于，还包括：

将该训练样本的该任务信息与该第一特征向量或该第二特征向量合并，以得到一合并后特征向量；以及

将该合并后特征向量通过该鉴别网络模型进行运算以得到一鉴别结果，并依据该鉴别结果训练该鉴别网络模型。

6.一种电子装置，其特征在于，包括：

一存储器，用以存储多个原始图像及多个任务信息；以及

一处理器，耦接该存储器，用以运行一异常检测模型，其中该异常检测模型包括一生成网络模型及一鉴别网络模型，该处理器用以执行以下步骤：

将所述多个原始图像的其中一者及所述多个任务信息的其中一者作为一训练样本；

若该训练样本的原始图像与该训练样本的任务信息不匹配，则根据所述多个网络损失结果倒数加权后相加得到一第一损失函数，并依据该第一损失函数训练该生成网络模型，

其中，该处理器更用以执行以下步骤：

7.如权利要求6所述的电子装置，其特征在于，该处理器更用以执行以下步骤：若该训练样本的原始图像与该训练样本的任务信息相匹配，则根据所述多个网络损失结果计算一第二损失函数，并依据该第二损失函数训练该生成网络模型。

8.如权利要求6所述的电子装置，其特征在于，该处理器对该任务信息进行编码以得到一任务编码，并将该原始图像及该任务编码作为该训练样本。

9.如权利要求6所述的电子装置，其特征在于，该处理器将一训练画面划分为所述多个原始图像，将所述多个原始图像位于该训练画面的位置信息作为所述多个任务信息，并将所述多个原始图像及所述多个任务信息存储在该存储器。

10.如权利要求6所述的电子装置，其特征在于，该处理器更用以执行以下步骤：