CN111797885A

CN111797885A - 用于分类的***和方法

Info

Publication number: CN111797885A
Application number: CN202010222558.XA
Authority: CN
Inventors: 李章焕
Original assignee: Samsung Display Co Ltd
Current assignee: Samsung Display Co Ltd
Priority date: 2019-04-05
Filing date: 2020-03-26
Publication date: 2020-10-20
Also published as: JP7489784B2; US11922301B2; US20200320439A1; EP3719709A1; JP2020173786A; TW202107345A; KR20200118351A

Abstract

一种用于分类的***和方法。在一些实施例中，该方法包括：从被标记的输入数据集形成第一训练数据集和第二训练数据集；利用第一训练数据集训练第一分类器；利用第二训练数据集训练变分自编码器，变分自编码器包括编码器和解码器；通过将伪随机向量馈入解码器来生成第三数据集；使用第一分类器标记第三数据集以形成第三训练数据集；基于第三数据集形成第四训练数据集；以及利用第四训练数据集训练第二分类器。

Description

用于分类的***和方法

相关申请的交叉引用

本申请要求2019年4月5日提交的题为“用于跟踪数据集的数据扩充的***和方法”的第62/830,131号美国临时申请的优先权和权益，该申请的全部内容通过引用合并于此。

技术领域

根据本公开的实施例的一个或多个方面涉及分类器，并且更具体地涉及在训练分类器时使用的用于数据扩充的***和方法。

背景技术

当使用对二元类具有数据不平衡的数据进行训练时，或者当在给定输入数据维度的情况下训练数据的量相对小时，自动分类器可能表现出相对差的性能。

因此，需要用于数据扩充的改进的***和方法。

发明内容

根据本发明的实施例，提供了一种用于分类的方法，该方法包括：从被标记的输入数据集形成第一训练数据集和第二训练数据集；利用第一训练数据集训练第一分类器；利用第二训练数据集训练变分自编码器，变分自编码器包括编码器和解码器；通过将伪随机向量馈入解码器来生成第三数据集；使用第一分类器标记第三数据集以形成第三训练数据集；基于第三数据集形成第四训练数据集；并且利用第四训练数据集训练第二分类器。

在一些实施例中，第一训练数据集是被标记的输入数据集。

在一些实施例中，第二训练数据集是被标记的输入数据集。

在一些实施例中，形成第一训练数据集包括：对被标记的输入数据集进行过采样，以产生第一补充数据集；并且组合被标记的输入数据集和第一补充数据集，以形成第一训练数据集。

在一些实施例中，对被标记的输入数据集进行过采样包括使用合成少数类过采样技术。

在一些实施例中，对被标记的输入数据集进行过采样包括使用自适应合成过采样技术。

在一些实施例中，第四训练数据集与第三训练数据集相同。

在一些实施例中，形成第四训练数据集包括：组合被标记的输入数据集的第一部分和第三训练数据集，以形成第四训练数据集。

在一些实施例中，形成第四训练数据集包括：组合被标记的输入数据集的第一部分、第一补充数据集和第三训练数据集，以形成第四训练数据集。

在一些实施例中，该方法进一步包括：利用与被标记的输入数据集的第一部分不同的被标记的输入数据集的第二部分，来验证第二分类器。

在一些实施例中，形成第二训练数据集包括：对被标记的输入数据集进行过采样，以产生第一补充数据集；并且组合被标记的输入数据集和第一补充数据集，以形成第二训练数据集。

在一些实施例中，被标记的输入数据集包括：包括第一数量的数据元的多数类数据和包括第二数量的数据元的少数类数据，第一数量超过第二数量至少五倍。

在一些实施例中，第一数量超过第二数量至少十五倍。

根据本发明的实施例，提供了一种用于分类的***，包括：处理电路，被配置为：从被标记的输入数据集形成第一训练数据集和第二训练数据集；利用第一训练数据集训练第一分类器；利用第二训练数据集训练变分自编码器，变分自编码器包括编码器和解码器；通过将伪随机向量馈入解码器来生成第三数据集；使用第一分类器标记第三数据集，以形成第三训练数据集；基于第三数据集形成第四训练数据集；并且利用第四训练数据集训练第二分类器。

在一些实施例中，第一训练数据集是被标记的输入数据集。

在一些实施例中，第二训练数据集是被标记的输入数据集。

在一些实施例中，处理电路被配置为：对被标记的输入数据集进行过采样，以产生第一补充数据集；并且组合被标记的输入数据集和第一补充数据集，以形成第一训练数据集。

在一些实施例中，处理电路被配置为使用合成少数类过采样技术对被标记的输入数据集进行过采样。

在一些实施例中，处理电路被配置为使用自适应合成过采样技术对被标记的输入数据集进行过采样。

根据本发明的实施例，提供了一种用于将被制造的部件分类为良品或次品的***，该***包括：数据收集电路；以及处理电路，处理电路被配置为：从被标记的输入数据集形成第一训练数据集和第二训练数据集；利用第一训练数据集训练第一分类器；利用第二训练数据集训练变分自编码器，变分自编码器包括编码器和解码器；通过将伪随机向量馈入解码器来生成第三数据集；使用第一分类器标记第三数据集，以形成第三训练数据集；基于第三数据集形成第四训练数据集；并且利用第四训练数据集训练第二分类器。

附图说明

将参考说明书、权利要求和附图来领会和理解本公开的这些和其他特征以及优点，其中：

图1是根据本公开的实施例的用于分类的***的框图；

图2是根据本公开的实施例的用于训练和验证分类器的方法的流程图；

图3A是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图；

图3B是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图；

图3C是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图；

图3D是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图；

图3E是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图；

图3F是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图；

图4是根据本公开的实施例的测试结果的表格；以及

图5是根据本公开的实施例的测试结果的表格。

具体实施方式

以下结合附图阐述的详细描述旨在描述根据本公开提供的用于数据扩充的***和方法的示例性实施例，并且不旨在表示本公开可被构造或利用的唯一形式。描述结合所例示的实施例阐述了本公开的特征。然而，应理解，相同或等效的功能和结构可以通过旨在也被涵盖在本公开的范围内的不同实施例来完成。如本文中其他地方所指代的，相同的附图标记旨在指示相同的元素或特征。

二元类的分类器可以具有将数据样本分配给两个类中的一个的任务，并且用于训练这种分类器的训练数据可能存在显著失衡。例如，在用于制造电子部件的制造过程中，可能的情况是多数的部件是可接受的或“良好的”，而少数的部件在某些方面有缺陷或“不良好的”。为此，当在制造和测试过程期间获得数据时，大多数的数据可能来自良好的设备，即，数据中可能存在不平衡。当训练自动分类器以将部件分类为“良好”或“不良好”时，这种不平衡可能成为障碍。

此外，针对每个部件获得的测量值的数量可能很大，即，每个数据样本(数据元，是要被分类的项目(诸如被制造的部件)的测量值的集合)的维度可能很大。当训练自动分类器时，尤其是鉴于每个数据元的维度当任一类的训练数据元的数量少时，这可能是进一步的障碍。

例如，当制造移动显示器时，可以在显示面板的制造过程期间获取跟踪数据。跟踪数据可以包括例如作为时间的函数的、在制造过程中的温度和压力的测量值。可以使用多个温度传感器和压力传感器，并且每个传感器可以被采样多次(例如，在几天的时间内，每天三次或四次)。由这些测量值产生的跟踪数据可以例如包括大约64次跟踪，每次跟踪具有大约304个测量值，例如，总计超过19000个测量值，使得每个数据元具有超过19000个维度。

如以下进一步详细描述的，各种方法可以被使用以解决以上提到的障碍中的一些。参考图1，在一些实例中，用于检测故障部件的***包括一个或多个数据收集电路105(数据收集电路105可以包括例如温度传感器和压力传感器、放大器以及模数转换器)、数据预处理电路110(数据预处理电路110可以对数据进行重新格式化，如以下进一步详细讨论的)以及可以是深度学习(DL)神经网络的分类器115。

数据预处理电路110可以从数据收集电路105接收原始跟踪数据(例如，如以上提到的多次跟踪)，并且可以将原始跟踪数据重新格式化为例如二维阵列(例如，224×224阵列)。二维阵列的大小可以被选择为与通常由神经网络分类的图像的大小相当。然后，重新格式化可以使得有可能重新使用实现图像的神经网络分类器的代码的特定部分，以在一些实施例中使用。

图2示出了在一些实施例中用于训练和验证分类器的流程图。从数据预处理电路110接收被标记的输入数据集(或“输入数据集”)205，被标记的输入数据集205包括每个被标记为“良好”(或“G”)的第一数量的数据样本(例如，几千个数据元)以及每个被标记为“不良好”(或“NG”)的第二数量的数据样本(例如，在10个到100个之间的数据元)。可以在210处采用过采样(如以下进一步详细讨论的)以生成包括一个或两个类的附加数据样本的第一补充数据集。然后，被标记的输入数据集205和第一补充数据集可以用于在215处使用利用第一训练数据集(第一训练数据集可以是，可以包括被标记的输入数据集205和第一补充数据集两者的组合(或“联合”))的监督式学习来训练第一分类器(或“基线二元分类器”)。在一些实施例中，可以省略在210处的过采样的步骤或过采样的结果，并且可以仅使用被标记的输入数据集205来训练第一分类器。

然后，在220处，可以使用由第一分类器(例如，利用由第一分类器的训练产生的权重进行编程的、训练后的第一分类器或其神经网络的副本)的训练产生的模型来标记第三数据集，以形成第三训练数据集。机器学习模型可以是包括分类器、回归器、自动编码器等的多种形式中的任一种。在225处，第三数据集可以通过使用变分自编码器的数据扩充方法来生成，如以下进一步详细讨论的。在225处，数据扩充方法可以使用第二训练数据集作为输入，该第二训练数据集可以是例如被标记的输入数据集205，或者被标记的输入数据集205和第一补充数据集的组合。

然后，在230处，可以使用(i)被标记的输入数据集205的第一部分235(由数据集分离器240从被标记的输入数据集205产生)、(ii)第一补充数据集以及(iii)第三训练数据集中的一个或多个部分的组合，来训练第二分类器。然后，在245处，可以使用被标记的输入数据集205的第二部分250(也由数据集分离器240从被标记的输入数据集205产生)验证由第二分类器(例如，利用由第二分类器的训练产生的权重进行编程的、训练后的第二分类器或其神经网络的副本)的训练产生的模型。第二部分250(用于验证)可以与第一部分235(用于训练)不同，例如，第二部分250可以是被标记的输入数据集205的其余部分。

在245处的验证步骤中，训练后的第二分类器的性能(即，由第二分类器的训练产生的模型的性能)可以用于评估第二分类器是否适合用于生产，例如，用于针对每个被制造的部件确定该被制造的部件是要使用还是丢弃(或返工)。

图3A是过采样步骤(在图2中的210处)的流程图。在210处，对被标记的输入数据集205进行过采样，以形成第一补充数据集(或“过采样的数据集”)305。可以使用SMOTE(合成少数类过采样技术)或ADASYN(自适应合成)过采样来执行过采样，SMOTE和ADASYN过采样中的每种都可以用于创建少数类(例如，“不良好”类)中的数据元的数据集。ADASYN可以通过向每个数据元添加一个小的随机向量(或“偏移”)来偏移所产生的数据元中的每个数据元，以减少第一补充数据集305的数据元可能干扰其他类(例如，可以是“良好”类的多数类)的可能性。

图3B是第一分类器的在215处(图2)的训练的流程图。在215处，使用(i)被标记的输入数据集205和(ii)第一补充数据集305中的一个或两者来训练第一分类器，从而得到第一分类器模型(或“基线二元分类器模型”)310。

图3C是数据扩充(在图2的225处)的流程图。变分自编码器可以包括编码器和解码器。编码器可以将每个接收到的数据元映射或“编码”为满足以下约束条件的向量或“本征向量”：本征向量具有近似于单位高斯分布(即，近似于向量的元素是独立的高斯分布的向量分布，例如，每个元素具有均值和方差)的分布。解码器可以执行编码器的操作的近似逆；解码器可以将编码器产生的每个本征向量映射到一(合成)数据元，该数据元近似于编码器会映射为该本征向量的数据元。编码器和解码器可以利用高斯分布的正则化与代表数据元的训练集(例如，以上提到的第二训练集)和代价函数一起训练，该代价函数是对编码器的输入和解码器的输出之间的差的度量。一旦训练了编码器和解码器，就可以将伪随机本征向量(被生成以具有单位高斯分布)馈入解码器中，以生成合成数据元(例如，以生成第三数据集315(或“VAE数据集”))。如果利用来自两个类的数据元(即，同时具有“良好”数据元和“不良好”数据元)训练变分自编码器，则合成数据元可以是未标记的。

图3D是标记(在图2中的220处)第三数据集以形成第三训练数据集的流程图。第三数据集315通过第一分类器模型310被分类，并且第三数据集315的每个数据元被标记，以形成第三训练数据集(或“被标记的VAE数据集”)320。图3E是训练第二分类器(在图2中的230处)的流程图。在230处，使用(i)被标记的输入数据集205的第一部分235(由数据集分离器240从被标记的输入数据集205产生)、(ii)第一补充数据集305以及(iii)第三训练数据集320中的一个或多个(或一个或多个的相应部分)来训练第二分类器，从而得到第二分类器模型(或“二元分类器模型”)325。图3F是分类器验证(在图2中的245处)的流程图。被标记的输入数据集205的第二部分250的每个数据元被馈入训练后的第二分类器(或“第二分类器模型”)325，并且在330处将产生的每个分类与数据元的标记进行比较。然后基于分类与标记相符的程度评估第二分类器的性能。

图4的表格示出了使用过采样和原始G数据集的80％、利用基线二元分类器模型310的一个实施例执行的测试的结果。根据图2中图示的方法处理包括“良好”类中的3936个数据元和“不良好”类中的22个数据元的被标记的输入数据集205。使用过采样(在图2中的210处)来将(i)“不良好”数据元与(ii)“良好”数据元的比率增加到0.1:1或1:1。图4的表格(在第一列中)示出了所使用的训练数据集的“良好”数据元和“不良好”数据元的分类准确度，并且(在第二列中)示出了验证数据集的“良好”数据元和“不良好”数据元的分类准确度。

图5的表格示出了在一个实施例中第二分类器模型325的性能测试的结果。利用(i)来自VAE的合成样本(第三训练数据集320)，包括3238个G样本和6762个NG样本，(ii)通过过采样产生的2000个NG样本，以及(iii)从输入数据集205中的G样本中随机选择的2000个真实G样本，来训练第二分类器。

可以看出，图5中示出的性能明显比图4中示出的性能好，即，在分别与图4和图5对应的测试中第二分类器明显胜过第一(基线)分类器。此外，使用输入数据集205的G样本中较小的一部分达到了图5的结果；输入数据集205的G样本的80％在产生图4的结果的测试中用于训练分类器，然而输入数据集205的G样本(2000个G样本)中只有50.8％在产生图5的结果的测试中用于训练分类器。

在一些实施例中，k折验证用于获得对根据本文描述的方法构造的分类器115的准确度的更可靠的评估。

在一些实施例中，第一分类器(或“第一分类器模型”310)和第二分类器(或“第二分类器模型”)325中的每一个可以是如本文所描述的适当训练后的SqueezeNet、ResNet或VggNet神经网络。可以如在arxiv.org/abs/1312.6114可获得的、D.Kingma和M.Welling的“自动编码变化贝叶斯(Auto-Encoding Variational Bayes)”中所描述的来构造变分自编码器，其全部内容通过引用合并于此。

在一些实施例中，数据预处理电路110、分类器115和执行图2中图示的方法的***中的一个或多个以一个或多个处理电路实现。术语“处理电路”在本文中用于指被采用以处理数据或数字信号的硬件、固件和软件的任何组合。处理电路硬件可以包括例如专用集成电路(ASIC)、通用或专用中央处理单元(CPU)、数字信号处理器(DSP)、图形处理单元(GPU)和诸如现场可编程门阵列(FPGA)的可编程逻辑器件。在处理电路中，如本文中使用的，每个功能由被配置(即，被硬连线)为执行该功能的硬件执行，或由被配置为执行存储在非暂时性存储介质中的指令的更通用的硬件(诸如CPU)执行。处理电路可以在单个印刷电路板(PCB)上被制作或分布在几个互连的PCB上。处理电路可以包含其他处理电路；例如，处理电路可以包括在PCB上互连的两个处理电路、FPGA和CPU。

如本文中使用的，事物的“部分”是指事物的全部或少于全部。这样，数据集的部分是指数据集的适当的子集或者整个数据集。

将理解的是，虽然术语“第一”、“第二”、“第三”等可以在本文中用于描述各种元件、组件、区域、层和/或部分，但是这些元件、组件、区域、层和/或部分不应该受这些术语的限制。这些术语仅用于将一个元件、组件、区域、层或部分与另一元件、组件、区域、层或部分相区分。因此，本文中讨论的第一元件、第一组件、第一区域、第一层或第一部分可以被称为第二元件、第二组件、第二区域、第二层或第二部分，而不脱离本发明构思的精神和范围。

本文中使用的术语仅用于描述具体的实施例的目的，并且不旨在限制本发明构思。如本文中使用的，术语“基本上”、“大约”以及类似术语被用作近似的术语并且不用作程度的术语，并且旨在考虑会被本领域普通技术人员所认识到的测量或计算的值中的固有偏差。如本文中使用的，术语“主要成分”是指组合物、聚合物或产品中存在的、量比组合物、聚合物或产品中任何其他单一成分的量大的成分。比较而言，术语“基本成分”是指构成组合物、聚合物或产品的至少50％重量或更多的成分。如本文中使用的，术语“主要部分”当被应用于多个项目时是指项目的至少一半。

如本文中使用的，单数形式的“一”旨在也包括复数形式，除非上下文另有明确指示。将进一步理解，术语“包括”和/或“包含”在本说明书中使用时指定存在所陈述的特征、整体、步骤、操作、元件和/或组件，但不排除一个或多个其他特征、整体、步骤、操作、元件、组件和/或其组合的存在或附加。如本文中使用的，术语“和/或”包括所关联列出的项目中的一个或多个的任意和全部组合。诸如“…中的至少一个”的表达，在位于元件列表之后时，修饰整个元件列表并且不修饰列表的个别元件。此外，在描述本发明构思的实施例时，使用“可以”指的是“本公开的一个或多个实施例”。此外，术语“示例性”意在指的是示例或例示。如本文中使用的，术语“使用”可被认为与术语“利用”同义。

将理解的是，当元件或层被称为“位于”另一元件或层“上”、“连接到”、“联接到”或“邻近于”另一元件或层时，该元件或层可以直接位于另一元件或层上，直接连接到、联接到或邻近于另一元件或层，或者可以存在一个或多个中间元件或中间层。相反，当元件或层被称为“直接位于”另一元件或层“上”、“直接连接到”、“直接联接到”或“直接邻近于”另一元件或层时，不存在中间元件或中间层。

本文中记载的任何数值范围旨在包括归入所记载的范围内的相同数值精度的所有子区间。例如，“1.0至10.0”的范围旨在包括在所记载的最小值1.0与所记载的最大值10.0之间(并且含所记载的最小值1.0和所记载的最大值10.0)的所有子区间，也就是说，具有等于或大于1.0的最小值以及等于或小于10.0的最大值，诸如，例如，2.4至7.6。本文中记载的任何最大数值限制旨在包括归入在最大数值限制中的所有较低的数值限制，并且本说明书中记载的任何最小数值限制旨在包括归入在最小数值限制中的所有较高的数值限制。

尽管本文已具体地描述和例示了用于数据扩充的***和方法的示例性实施例，但是许多修改和变化对于本领域技术人员而言将是显而易见的。因此，应理解，根据本公开的原理构造的用于数据扩充的***和方法可以以不同于本文具体地描述的方式体现。本发明也在所附权利要求及其等同物中限定。

Claims

1.一种用于分类的方法，所述方法包括：

从被标记的输入数据集形成第一训练数据集和第二训练数据集；

利用所述第一训练数据集训练第一分类器；

利用所述第二训练数据集训练变分自编码器，所述变分自编码器包括编码器和解码器；

通过将伪随机向量馈入所述解码器，来生成第三数据集；

使用所述第一分类器标记所述第三数据集，以形成第三训练数据集；

基于所述第三数据集形成第四训练数据集；并且

利用所述第四训练数据集训练第二分类器。

2.根据权利要求1所述的方法，其中，所述第一训练数据集是所述被标记的输入数据集。

3.根据权利要求1所述的方法，其中，所述第二训练数据集是所述被标记的输入数据集。

4.根据权利要求1所述的方法，其中，所述形成第一训练数据集包括：

对所述被标记的输入数据集进行过采样，以产生第一补充数据集；并且

组合所述被标记的输入数据集和所述第一补充数据集，以形成所述第一训练数据集。

5.根据权利要求4所述的方法，其中，所述对所述被标记的输入数据集进行过采样包括使用合成少数类过采样技术。

6.根据权利要求4所述的方法，其中，所述对所述被标记的输入数据集进行过采样包括使用自适应合成过采样技术。

7.根据权利要求4所述的方法，其中，所述第四训练数据集与所述第三训练数据集相同。

8.根据权利要求4所述的方法，其中，所述形成第四训练数据集包括：组合所述被标记的输入数据集的第一部分和所述第三训练数据集，以形成所述第四训练数据集。

9.根据权利要求4所述的方法，其中，所述形成第四训练数据集包括：组合所述被标记的输入数据集的第一部分、所述第一补充数据集和所述第三训练数据集，以形成所述第四训练数据集。

10.根据权利要求9所述的方法，进一步包括：利用与所述被标记的输入数据集的所述第一部分不同的所述被标记的输入数据集的第二部分，来验证所述第二分类器。

11.根据权利要求1所述的方法，其中，所述形成第二训练数据集包括：

组合所述被标记的输入数据集和所述第一补充数据集，以形成所述第二训练数据集。

12.根据权利要求1所述的方法，其中，所述被标记的输入数据集包括：

包括第一数量的数据元的多数类数据和包括第二数量的数据元的少数类数据，

所述第一数量超过所述第二数量至少五倍。

13.根据权利要求12所述的方法，其中，所述第一数量超过所述第二数量至少十五倍。

14.一种用于分类的***，包括：

处理电路，被配置为：

利用所述第一训练数据集训练第一分类器；

通过将伪随机向量馈入所述解码器来生成第三数据集；

基于所述第三数据集形成第四训练数据集；并且

利用所述第四训练数据集训练第二分类器。

15.根据权利要求14所述的***，其中，所述第一训练数据集是所述被标记的输入数据集。

16.根据权利要求14所述的***，其中，所述第二训练数据集是所述被标记的输入数据集。

17.根据权利要求14所述的***，其中，所述处理电路被配置为：

18.根据权利要求17所述的***，其中，所述处理电路被配置为使用合成少数类过采样技术对所述被标记的输入数据集进行过采样。

19.根据权利要求17所述的***，其中，所述处理电路被配置为使用自适应合成过采样技术对所述被标记的输入数据集进行过采样。

20.一种用于将被制造的部件分类为良品或次品的***，所述***包括：

数据收集电路；以及

处理电路，

所述处理电路被配置为：

利用所述第一训练数据集训练第一分类器；

通过将伪随机向量馈入所述解码器来生成第三数据集；

基于所述第三数据集形成第四训练数据集；并且

利用所述第四训练数据集训练第二分类器。