CN114916237A

CN114916237A - 用于缺陷分析的计算机实现的方法、评估缺陷出现的可能性的计算机实现的方法、用于缺陷分析的设备、计算机程序产品和智能缺陷分析***

Info

Publication number: CN114916237A
Application number: CN202080003659.6A
Authority: CN
Inventors: 柴栋; 兰天; 吴昊晗; 汤玥; 沈国梁; 袁菲
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-08-16
Also published as: WO2022116111A1; US20220374004A1

Abstract

提供了一种用于缺陷分析的计算机实现的方法。计算机实现的方法包括：关于在制造周期期间出现的缺陷，分别针对多个装置操作，计算多个证据权重(WOE)分数，较高的WOE分数指示缺陷和装置操作之间的较高的相关性；以及将所述多个WOE分数排序，以获得与在所述制造周期期间出现的所述缺陷高度相关的所选择的装置操作的列表，所选择的装置操作的列表中的装置操作具有大于第一阈值分数的WOE分数。多个装置操作中的各个装置操作是由相应装置执行相应操作所处在的相应操作站点定义的相应装置。

Description

用于缺陷分析的计算机实现的方法、评估缺陷出现的可能性的计算机实现的方法、用于缺陷分析的设备、计算机程序产品和智能缺陷分析***

技术领域

本发明涉及显示技术，更具体地，涉及用于缺陷分析的计算机实现的方法、评估缺陷出现的可能性的计算机实现的方法、用于缺陷分析的设备、计算机程序产品和智能缺陷分析***。

背景技术

由于提高的性能和负载容量、高可用性和故障转移以及对数据的更快的访问，分布式计算和分布式算法已经在各种背景下变得普遍。随着大数据、云计算、人工智能等技术的发展，与大数据分析相关的技术被广泛应用于制造业的各个领域。

发明内容

在一个方面，本公开提供了一种用于缺陷分析的计算机实现的方法，包括：关于在制造周期期间出现的缺陷，分别针对多个装置操作，计算多个证据权重(WOE)分数，较高的WOE分数指示缺陷和装置操作之间的较高的相关性；以及将所述多个WOE分数排序，以获得与在所述制造周期期间出现的所述缺陷高度相关的所选择的装置操作的列表，所选择的装置操作的列表中的装置操作具有大于第一阈值分数的WOE分数，其中，所述多个装置操作中的各个装置操作是由相应装置在其处执行相应操作的相应操作地点定义的相应装置。

可选地，所述计算机实现的方法还包括：获得多个接触设备的候选接触区域，其中，所述多个接触设备中的各个接触设备是在所述制造周期期间在各个腔室中与中间基板接触的各个装置，并且各个候选接触区域包括各个理论接触区域和围绕各个理论接触区域的各个边缘区域；分别获得在所述制造周期期间的缺陷点的坐标；从所述候选接触区域中选择多个缺陷接触区域，所述多个缺陷接触区域中的各个缺陷接触区域包围所述缺陷点坐标中的至少一个；以及获得所选择的接触设备的列表，其中，各个所选择的接触设备是在各个缺陷接触区域中与中间产品接触的各个接触设备。

可选地，所述计算机实现的方法还包括基于与所述缺陷高度相关的所选择的装置操作的所述列表和所选择的接触设备的所述列表来获得一个或多个候选缺陷装置；其中，所述一个或多个候选缺陷装置中的各个候选缺陷装置是所选择的接触设备的所述列表中的装置，并且还是所选择的装置操作的所述列表中的装置。

在另一方面，本公开提供了一种用于缺陷分析的设备，其包括：存储器；一个或多个处理器；其中，所述存储器和所述一个或多个处理器彼此连接；以及所述存储器存储计算机可执行指令，以用于控制所述一个或多个处理器以：关于在制造周期期间出现的缺陷，分别针对多个装置操作，计算多个证据权重(WOE)分数，较高的WOE分数指示缺陷和装置操作之间的较高的相关性；以及将所述多个WOE分数排序，以获得与在所述制造周期期间出现的所述缺陷高度相关的所选择的装置操作的列表，所选择的装置操作的列表中的装置操作具有大于第一阈值分数的WOE分数，其中，所述多个装置操作中的各个装置操作是由相应装置在其处执行相应操作的相应操作地点定义的相应装置。

可选地，存储器进一步存储计算机可执行指令，以用于控制所述一个或多个处理器以：获得多个接触设备的候选接触区域，其中，所述多个接触设备中的各个接触设备是在所述制造周期期间在各个腔室中与中间产品接触的各个装置，并且各个候选接触区域包括各个理论接触区域和围绕各个理论接触区域的各个边缘区域；分别获得在所述制造周期期间的缺陷点的坐标；从所述候选接触区域中选择多个缺陷接触区域，所述多个缺陷接触区域中的各个缺陷接触区域包围所述缺陷点坐标中的至少一个；以及获得所选择的接触设备的列表，其中，各个所选择的接触设备是在各个缺陷接触区域中与中间产品接触的各个接触设备。

可选地，存储器进一步存储计算机可执行指令，以用于控制所述一个或多个处理器以：基于与所述缺陷高度相关的所选择的装置操作的所述列表和所选择的接触设备的所述列表来获得一个或多个候选缺陷装置；其中，所述一个或多个候选缺陷装置中的各个候选缺陷装置是所选择的接触设备的所述列表中的装置，并且还是所选择的装置操作的所述列表中的装置。

在另一方面，本公开提供了一种计算机程序产品，包括其上具有计算机可读指令的非暂时性有形计算机可读介质，所述计算机可读指令可由处理器执行以使所述处理器执行：关于在制造周期期间出现的缺陷，分别针对多个装置操作，计算多个证据权重(WOE)分数，较高的WOE分数指示缺陷和装置操作之间的较高的相关性；以及将所述多个WOE分数排序，以获得与在所述制造周期期间出现的所述缺陷高度相关的所选择的装置操作的列表，所选择的装置操作的列表中的装置操作具有大于第一阈值分数的WOE分数，其中，所述多个装置操作中的各个装置操作是由相应装置在其处执行相应操作的相应操作地点定义的相应装置。

可选地，计算机可读指令可由处理器执行以进一步使所述处理器执行：获得多个接触设备的候选接触区域，其中，所述多个接触设备中的各个接触设备是在所述制造周期期间在各个腔室中与中间产品接触的各个装置，并且各个候选接触区域包括各个理论接触区域和围绕各个理论接触区域的各个边缘区域；分别获得在所述制造周期期间的缺陷点的坐标；从所述候选接触区域中选择多个缺陷接触区域，所述多个缺陷接触区域中的各个缺陷接触区域包围所述缺陷点坐标中的至少一个；以及获得所选择的接触设备的列表，其中，各个所选择的接触设备是在各个缺陷接触区域中与中间产品接触的各个接触设备。

可选地，计算机可读指令可由处理器执行以进一步使所述处理器执行：基于与所述缺陷高度相关的所选择的装置操作的所述列表和所选择的接触设备的所述列表来获得一个或多个候选缺陷装置；其中，所述一个或多个候选缺陷装置中的各个候选缺陷装置是所选择的接触设备的所述列表中的装置，并且还是所选择的装置操作的所述列表中的装置。

在另一方面，本公开提供了一种智能缺陷分析***，包括：分布式计算***，其包括一个或多个联网计算机，所述联网计算机被配置为并行执行，以执行至少一个共同任务；一个或多个计算机可读存储介质，其存储指令，所述指令在由所述分布式计算***执行时使所述分布式计算***执行软件模块；其中，所述软件模块包括：数据管理平台，其被配置为将来自多个数据源的原始数据智能地抽取、转换或加载为管理数据，其中，所述原始数据和所述管理数据包括缺陷信息，并且所述管理数据以分布式方式被存储；分析器，其被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个算法服务器，所述多个算法服务器被配置为从所述数据管理平台获得所述管理数据，并且对所述管理数据执行算法分析以得出关于缺陷的潜在原因的结果数据；以及数据可视化和交互界面，其被配置为生成所述任务请求并显示所述结果数据；其中，所述多个算法服务器中的一个或多个被配置为执行本文所述的计算机实现的方法。

在另一方面，本公开提供了一种评估缺陷出现的可能性的计算机实现的方法，包括：获得关于在制造周期期间出现的缺陷的原始数据；对所述原始数据进行预处理，以获得预处理后的数据；从所述预处理后的数据中抽取特征，以获得抽取特征；从所述抽取特征中选择主特征；将所述主特征输入到预测模型中；以及评估缺陷出现的可能性；其中，从所述预处理后的数据抽取特征包括对所述预处理后的数据执行时域分析和频域分析中的至少一者。

可选地，时域分析抽取所述预处理后的数据的统计信息。

可选地，频域分析将在所述时域分析中获得的时域信息转换成频域信息。

可选地，从所述抽取特征中选择主特征包括对所述抽取特征执行主成分分析。

可选地，预处理所述原始数据包括：从所述预处理后的数据中排除所述原始数据的第一部分，在所述第一部分中，缺失大于等于阈值百分比的值；以及对于所述原始数据的第二部分，在所述第二部分中，缺失小于所述阈值百分比的值，提供缺失值的插值。

可选地，预测模型通过以下来训练：获得关于在训练制造周期期间出现的缺陷的训练原始数据；对所述训练原始数据进行预处理，得到预处理后的训练数据；从所述预处理后的训练数据中抽取特征，以获得抽取的训练特征；从所述抽取的训练特征中选择主训练特征；以及使用所述抽取的训练特征来调整初始模型的参数，以获得用于缺陷预测的所述预测模型，其中，从所述预处理后的训练数据抽取训练特征包括对所述预处理后的训练数据执行时域分析和频域分析中的至少一个。

可选地，初始模型是极端梯度提升(XGboost)模型。

可选地，调整所述初始模型的参数包括根据等式(1)来评估F度量：

其中，Fβ表示精度和召回率的调和平均值，P表示精度，R表示召回率，β表示控制P和R之间的平衡的参数。

在另一方面，本公开提供了一种智能缺陷分析***，包括：分布式计算***，其包括一个或多个联网计算机，所述联网计算机被配置为并行执行，以执行至少一个共同任务；一个或多个计算机可读存储介质，其存储指令，所述指令在由所述分布式计算***执行时使所述分布式计算***执行软件模块；其中，所述软件模块包括：数据管理器，其被配置为存储数据，且智能地抽取、转换或加载所述数据；查询引擎，其连接到所述数据管理器并且被配置为直接从所述数据管理器查询所述数据；分析器，其连接到所述查询引擎，并且被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个业务服务器和多个算法服务器，所述多个算法服务器被配置为直接从所述数据管理器查询所述数据；以及数据可视化和交互界面，其被配置为生成所述任务请求；其中，所述多个算法服务器中的一个或多个被配置为执行本文所述的计算机实现的方法。

附图说明

根据各种公开的实施例，以下附图仅是用于说明目的的示例，并且不旨在限制本发明的范围。

图1示出了根据本公开的一些实施例中的用于缺陷分析的计算机实现的方法。

图2示出了根据本公开的一些实施例中的用于缺陷分析的计算机实现的方法。

图3示出了根据本公开的一些实施例中的用于缺陷分析的计算机实现的方法。

图4A和图4B示出了从单独的面板坐标系到统一的基板坐标系的转换过程。

图5示出了根据本公开的一些实施例中的若干候选接触区域。

图6A是根据本公开的一些实施例中的设备的结构的示意图。

图6B是示出了根据本公开的一些实施例中的设备的结构的示意图。

图7示出了根据本公开的一些实施例中评估缺陷出现可能性的计算机实现的方法。

图8示出本公开的一个示例中的来自若干玻璃的参数名称“MASK_TEMP”的参数值。

图9示出了根据本公开的一些实施例中的分布式计算环境。

图10示出了根据本公开的一些实施例中的智能缺陷分析***中的软件模块。

图11示出了根据本公开的一些实施例中的智能缺陷分析***中的软件模块。

图12示出了根据本公开的一些实施例中的使用智能缺陷分析***的智能缺陷分析方法。

图13示出了根据本公开的一些实施例中的使用智能缺陷分析***的智能缺陷分析方法。

图14示出了根据本公开的一些实施例中的使用智能缺陷分析***的智能缺陷分析方法。

图15示出了根据本公开的一些实施例中的使用智能缺陷分析***的智能缺陷分析方法。

图16示出了根据本公开的一些实施例中的数据管理平台。

图17描绘根据本公开的一些实施例中从存储于通用数据层中的数据表分成的多个子表。

图18示出了根据本公开的一些实施例中的缺陷分析方法。

图19示出了根据本公开的一些实施例中的缺陷分析方法。

具体实施方式

现在将参考以下实施例更具体地描述本公开。应当注意，本文中呈现的一些实施例的以下描述仅用于说明和描述的目的。其不是穷举的或限于所公开的精确形式。

显示面板(特别是有机发光二极管显示面板)的制造涉及高度复杂和集成的工艺，其涉及许多工艺、技术和设备。在这种集成工艺中出现的缺陷难以跟踪。例如，工程师可能必须依赖于手动数据分类以基于经验分析缺陷的根本原因。

因此，本公开尤其提供了一种用于缺陷分析的计算机实现的方法、评估缺陷出现的可能性的计算机实现的方法、用于缺陷分析的设备、计算机程序产品和智能缺陷分析***，其基本上消除了由于相关技术的限制和缺点而导致的一个或多个问题。在一个方面，本公开提供了一种用于缺陷分析的计算机实现的方法。在一些实施例中，用于缺陷分析的计算机实现的方法包括：关于在制造周期期间出现的缺陷，分别针对多个装置操作，计算多个证据权重(WOE)分数，较高的WOE分数指示缺陷和装置操作之间的较高的相关性；以及将所述多个WOE分数排序，以获得与在所述制造周期期间出现的所述缺陷高度相关的所选择的装置操作的列表，所选择的装置操作的列表中的装置操作具有大于第一阈值分数的WOE分数。可选地，所述多个装置操作中的各个装置操作是由相应装置在其处执行相应操作的相应操作站点定义的相应装置。

图1示出了根据本公开的一些实施例中的用于缺陷分析的计算机实现的方法。参考图1，在一些实施例中，该方法包括将业务数据收集到多个数据源DS中。数据源的示例包括各种业务***，包括例如收益管理***(YMS)、故障检测和分类(FDC)***、制造数据仓库***(MDW)和制造执行***(MES)。在一个示例中，该方法包括在制造周期(例如，用于自动检测的重复周期，或具有高缺陷出现频率的周期)期间获得面板缺陷信息。在从基板(在本公开中也称为“玻璃”)切割的面板中检测到缺陷信息。面板和基板(或玻璃)可以使用不同的坐标系。面板缺陷信息包括，例如，与缺陷点的坐标相关联的面板ID信息。表1示出了从收益管理***获得的面板ID信息的示例。

表1示出了从收益管理***获得的面板ID信息的示例。

面板ID
	Y8CP43925109L
Y91PA0115109L
	Y91PA0119109L
Y91PA2622109L
	Y91PA2626109L
Y91PA2627109L
	Y91PB2316109L
Y91PB2322109L
	Y91PB2330109L
…

在另一示例中，该方法包括在制造周期期间获得玻璃履历(biographical)信息。履历信息记录在被切割成单独的面板的玻璃(或“基板”)中。在面板中而不是在玻璃中检测到缺陷点。表2示出了从制造数据仓库***获得的玻璃履历信息的示例。

表2示出了从制造数据仓库***获得的玻璃履历信息的示例。

在另一示例中，该方法包括在制造周期期间获得装置接触信息。装置接触信息被记录在被切割成单独的面板的玻璃(或“基板”)中。表3示出了从收益管理***获得的装置接触信息的示例。

表3示出了从收益管理***获得的玻璃履历信息的示例。

在一些实施例中，该方法还包括预处理来自多个数据源DS的原始数据。如上所述，在从玻璃切割的面板中检测到缺陷点。然而，收益管理***仅包含面板级的缺陷信息，缺乏与玻璃履历信息的联系。在一个示例中，可以预处理表1中的面板ID，以获得玻璃ID。例如，面板ID中的前九个数字代表玻璃ID。如表4所示，可以对面板ID信息进行预处理，以获得与玻璃ID相关联的缺陷点信息。因此，如图1所示，该方法包括获得关于具有按玻璃ID分类的缺陷的面板数量的信息。

表4、按玻璃ID分类的具有缺陷的面板和无缺陷的面板。

表2中的信息包括各种信息，包括工厂、操作站点和装置。表2中固有地存在信息冗余，因此，在一些实施例中，该方法还包括对装置和操作站点执行数据融合，以形成融合的数据信息，例如“装置操作”，其代表由相应操作站点定义的相应装置，相应装置在该操作站点执行相应操作。然后，信息按照时间戳分类，并按照事件(表2中的“TrackOut”)过滤，从而获得按照玻璃ID分类的装置操作信息，如表5所示。

表5、按玻璃ID分类的装置操作信息。

玻璃ID	时间戳	事件	工厂	装置操作
					Y91PA2626	01/11/2019 17:35:16	TrackOut	A2	10100_A2P01400
Y91PA2626	01/11/2019 18:08:36	TrackOut	A2	10103_A2A01A00
					Y91PA2626	01/12/2019 03:00:50	TrackOut	A2	10300_A2P02200
Y91PA2626	01/12/2019 04:37:19	TrackOut	A2	10303_A2A01600
					…	…	…	…	…

如上所述，在面板坐标系下检测缺陷点。另一方面，在玻璃坐标系下记录装置接触信息。在一些实施例中，该方法还包括将面板缺陷点在面板坐标系下的坐标转换为玻璃坐标系下的坐标。

图2示出了根据本公开的一些实施例中的用于缺陷分析的计算机实现的方法。参考图2，该方法进一步包括，在预处理原始数据之后，关于在制造周期期间出现的缺陷，分别针对多个装置操作，计算多个证据权重(WOE)分数，较高的WOE分数指示缺陷和装置操作之间的较高的相关性；以及将多个WOE分数排序，以获得与在制造周期期间出现的缺陷高度相关的所选装置操作的列表，所选装置操作的列表中的装置操作具有大于第一阈值分数的WOE分数。可选地，多个装置操作中的各个装置操作是由各个装置在其处执行相应操作的相应操作站点定义的各个装置。

在一个示例中，基于玻璃ID，可以合并表4和表5。具体地，可以利用合并的“装置操作”信息对“具有缺陷的面板的数量”信息和“无缺陷的面板的数量”信息进行重新分类。表6示出利用“装置操作”的“具有缺陷的面板的数量”信息和“无缺陷的面板的数量”信息的示例。

表6示出利用“装置操作”的“具有缺陷的面板的数量”信息和“无缺陷的面板的数量”信息的示例。

如表6所示，大多数样本是没有缺陷的面板，因此必须对表6中获得的数据执行相关性分析。在一个示例中，使用证据权重方法执行相关性分析。在另一示例中，可以根据以下等式来计算每个“装置操作”的证据权重分数：

其中，i表示相应装置操作，y_i表示具有关于相应装置操作的缺陷的面板的数量，n_i表示不具有关于相应装置操作的缺陷的面板的数量，y_T表示数据中的具有缺陷的面板的总数，并且n_T表示数据中的不具有缺陷的面板的总数。然后，如表7所示，按照装置操作的相应WOE分数对装置操作进行排序。

表7示出了按照WOE分数排序的装置操作的列表。

图3示出了根据本公开的一些实施例中的用于缺陷分析的计算机实现的方法。参考图3，在一些实施例中，该方法还包括获得多个接触设备的候选接触区域，其中，多个接触设备中的各个接触设备是在制造周期期间在各个腔室中与中间基板接触的各个装置，并且各个候选接触区域包括各个理论接触区域和围绕各个理论接触区域的各个边缘区域；分别获得在制造周期期间的缺陷点的坐标；从候选接触区域中选择多个缺陷接触区域，所述多个缺陷接触区域中的各个缺陷接触区域包围缺陷点坐标中的至少一个；以及获得所选择的接触设备的列表，其中，各个所选择的接触设备是在各个缺陷接触区域中与中间基板具有接触的各个接触设备。

参照图1，在一些实施例中，该方法包括在制造周期期间分别获得缺陷点的坐标之后，将面板缺陷坐标系中的坐标转换为玻璃缺陷坐标系中的坐标。图4A和图4B示出了从单独的面板坐标系到统一的基板坐标系的转换过程。参照图4A，多个面板缺陷图像(A到N)中的面板缺陷点具有根据各个面板坐标系(pcs1到pcs14)分配的面板坐标。例如，根据第一面板坐标系pcs1给面板缺陷图像A中的面板缺陷点分配面板坐标，根据第二面板坐标系pcs2给面板缺陷图像B中的面板缺陷点分配面板坐标，根据第三面板坐标系pcs3给面板缺陷图像C中的面板缺陷点分配面板坐标，等等。因为在制造工艺期间从基板切割面板，所以可以将各个面板坐标系中的坐标转换为统一的基板坐标系。在一个示例中，缺陷分析是针对相同类型的产品(例如，有机发光二极管显示面板)，因此用于制造面板的多个基板具有相同的基板坐标系。参照图4B，将各个面板坐标系中的面板缺陷点的坐标转换为基板坐标系scs中的缺陷点的坐标。

在一个示例中，计算机实现的方法还包括建立面板坐标系中的坐标与基板坐标系中的坐标之间的映射关系。在另一个示例中，映射关系可以被表示为：

其中，

其是旋转矩阵；并且

其是平移矩阵。

可选地，坐标转换可以被表示为：

其中，X_i和Y_i表示基板坐标系中的坐标；x_i和y_i表示面板坐标系中的坐标。

在制造周期期间，各种装置具有与基板各种不同的接触类型。接触类型的示例包括点接触、线接触、圆形区域接触和矩形区域接触。

在实际的制造过程中，(一个或多个)实际接触位置可能与(一个或多个)理论接触位置偏离一定程度。因此，在一些实施例中，考虑到实际制造过程中的偏离，接触设备的候选接触区域应当相应地扩大。在一些实施例中，各个候选接触区域包括各个理论接触区域和围绕各个理论接触区域的各个边缘区域。图5示出了根据本公开的一些实施例中的若干候选接触区域。

参照图1，一旦计算出候选接触区域，就将玻璃坐标系中的缺陷点坐标与候选接触区域进行匹配。因此，可以从候选接触区域中选择多个缺陷接触区域，多个缺陷接触区域中的各个缺陷接触区域包围缺陷点坐标中的至少一个。可获得所选择的接触设备的列表，其中各个所选择的接触设备为在各个缺陷接触区中与中间基板具有接触的各个接触设备。表8示出了所选择的接触设备的列表的示例。

表8示出了在缺陷接触区域中与中间基板具有接触的所选择的接触设备的列表的示例。

参考图1，在一些实施例中，该方法还包括从WOE排序列表和选择的接触设备列表中找到共同的(一个或多个)装置。在一些实施例中，该方法包括基于与缺陷高度相关的所选择的装置操作的列表和所选择的接触设备的列表来获得一个或多个候选缺陷装置。一个或多个候选缺陷装置中的各个候选缺陷装置是所选择的接触设备列表中的装置，并且也是所选择的装置操作列表中的装置。

在另一方面，本公开提供了一种用于缺陷分析的设备。在一些实施例中，用于缺陷分析的设备包括：存储器；和一个或多个处理器。存储器和一个或多个处理器彼此连接。在一些实施例中，存储器存储计算机可执行指令，以用于控制所述一个或多个处理器以：关于在制造周期期间出现的缺陷，分别针对多个装置操作，计算多个证据权重(WOE)分数，较高的WOE分数指示缺陷和装置操作之间的较高的相关性；以及将所述多个WOE分数排序，以获得与在所述制造周期期间出现的所述缺陷高度相关的所选择的装置操作的列表，所选择的装置操作的列表中的装置操作具有大于第一阈值分数的WOE分数。多个装置操作中的各个装置操作是由相应装置在其处执行相应操作的相应操作站点定义的相应装置。

在一些实施例中，存储器进一步存储计算机可执行指令，以用于控制所述一个或多个处理器以：获得多个接触设备的候选接触区域，其中，所述多个接触设备中的各个接触设备是在所述制造周期期间在各个腔室中与中间基板接触的各个装置，并且各个候选接触区域包括各个理论接触区域和围绕各个理论接触区域的各个边缘区域；分别获得在所述制造周期期间的缺陷点的坐标；从所述候选接触区域中选择多个缺陷接触区域，所述多个缺陷接触区域中的各个缺陷接触区域包围所述缺陷点坐标中的至少一个；以及获得所选择的接触设备的列表，其中，各个所选择的接触设备是在各个缺陷接触区域中与中间基板接触的各个接触设备。

在一些实施例中，存储器进一步存储计算机可执行指令，以用于控制所述一个或多个处理器以：基于与所述缺陷高度相关的所选择的装置操作的所述列表和所选择的接触设备的所述列表来获得一个或多个候选缺陷装置。一个或多个候选缺陷装置中的各个候选缺陷装置是所选择的接触设备的所述列表中的装置，并且还是所选择的装置操作的所述列表中的装置。

图6A是根据本公开的一些实施例中的设备的结构的示意图。参考图6A，在一些实施例中，设备包括中央处理单元(CPU)，其被配置为根据存储在ROM或RAM中的计算机可执行指令来执行动作。可选地，计算机***所需的数据和程序被存储在RAM中。可选地，CPU、ROM和RAM通过总线彼此电连接。可选地，输入/输出接口电连接到总线。

图6B是示出了根据本公开的一些实施例中的设备的结构的示意图。参照图6B，在一些实施例中，设备包括显示面板DP；集成电路IC，其连接到显示面板DP；存储器M；和一个或多个处理器P。存储器M和一个或多个处理器P彼此连接。在一些实施例中，存储器M存储用于控制一个或多个处理器P执行本文描述的方法步骤的计算机可执行指令。

在另一方面，本公开提供了一种计算机程序产品，包括其上具有计算机可读指令的非暂时性有形计算机可读介质。在一些实施例中，计算机可读指令可由处理器执行以使所述处理器执行：关于在制造周期期间出现的缺陷，分别针对多个装置操作，计算多个证据权重(WOE)分数，较高的WOE分数指示缺陷和装置操作之间的较高的相关性；以及将所述多个WOE分数排序，以获得与在所述制造周期期间出现的所述缺陷高度相关的所选择的装置操作的列表，所选择的装置操作的列表中的装置操作具有大于第一阈值分数的WOE分数。多个装置操作中的各个装置操作是由相应装置在其处执行相应操作的相应操作站点定义的相应装置。可选地，证据权重表示相应装置操作中的缺陷的百分比相对于多个装置操作的整体中的缺陷的百分比之间的可变性。

在一些实施例中，计算机可读指令还可由处理器执行以使所述处理器执行：获得多个接触设备的候选接触区域，其中，所述多个接触设备中的各个接触设备是在所述制造周期期间在各个腔室中与中间基板接触的各个装置，并且各个候选接触区域包括各个理论接触区域和围绕各个理论接触区域的各个边缘区域；分别获得在所述制造周期期间的缺陷点的坐标；从所述候选接触区域中选择多个缺陷接触区域，所述多个缺陷接触区域中的各个缺陷接触区域包围所述缺陷点坐标中的至少一个；以及获得所选择的接触设备的列表，其中，各个所选择的接触设备是在各个缺陷接触区域中与中间基板接触的各个接触设备。

在一些实施例中，计算机可读指令还可由处理器执行以使所述处理器执行：基于与所述缺陷高度相关的所选择的装置操作的所述列表和所选择的接触设备的所述列表来获得一个或多个候选缺陷装置。一个或多个候选缺陷装置中的各个候选缺陷装置是所选择的接触设备的所述列表中的装置，并且还是所选择的装置操作的所述列表中的装置。

在另一方面，本公开还提供了一种评估缺陷出现的可能性的计算机实现的方法。在一些实施例中，评估缺陷出现的可能性的计算机实现的方法包括：获得关于在制造周期期间出现的缺陷的原始数据；对所述原始数据进行预处理，以获得预处理后的数据；从所述预处理后的数据中抽取特征，以获得抽取特征；从所述抽取特征中选择主特征；使用抽取特征调整初始模型的参数以获得用于缺陷评估的预测模型；将所述主特征输入到预测模型中；以及评估缺陷出现的可能性。可选地，从所述预处理后的数据抽取特征包括对所述预处理后的数据执行时域分析和频域分析中的至少一者。

在一个示例中，该方法包括获得存储在诸如故障检测和分类***的多个数据源中的数据。然后，通过例如“制造工艺”、“产品类型”和“产品型号”来过滤数据。原始数据通过例如行转换和场拼接进行预处理，以在制造周期期间生成包含参数的表。一个示例示于表9中。

表9、面板生产的参数。

glass_id	装置	机器	腔室	参数名称	参数值
						A9B0014A1	ABC01	BCBL	BL01	L1_Energy	[1017.00,1017.00,1017.00,...,1017.00]
A9B0014A1	ABC01	BCBL	BL01	L1_Water_Temp	[14.90,14.90,14.90,...,14.90]
						A9B0014A1	ABC01	BCBL	BL01	L1_Water_Press	[4.90,4.90,4.90,...,4.90]
A9B0022A5	ABC02	BCBL	BL01	L2_Energy	[995.00,995.00,994.00,...,995.00]
						A9B0022A5	ABC02	BCBL	BL01	L2_Water_Temp	[14.90,14.90,14.90,...,14.90]
A9B0022A5	ABC02	BCBL	BL01	L2_Water_Press	[4.90,4.90,4.90,...,4.90]
						…	…	…	…	…	…

在另一示例中，该方法还包括从收益管理***获得缺陷点信息。例如，数据可以按照缺陷的类型来分类。表10示出了分类的表的示例。

表10示出了从数据源获得的缺陷信息的示例。

glass_id	缺陷类型
		A9B0014A1	ACTE
A9B0014A2	ACTE
		A9B0014A3	ACTE
A9B0014A4	ACTE
		A9B0014A5	ACTE

图7示出了根据本公开的一些实施例中的评估缺陷出现可能性的计算机实现的方法。参考图7，在获得数据之后，该方法还包括预处理步骤、特征抽取步骤和特征选择步骤中的至少一个。

在一个示例中，预处理步骤包括字符类型数据预处理，以将字符类型数据转换成可由本方法的各种算法处理的格式。例如，在表9中，装置“ABC01”和装置“ABC02”是基于业务知识并行执行相同过程的装置。装置“ABC01”和装置“ABC02”与完全相同的一组参数名称相关联。因此，需要为装置提供代码(例如，ABS01为0，ABC02为1)。

在另一个示例中，机器“BCBL”和机器“HCLN”是基于业务知识执行连续过程的机器。因此，与机器“BCBL”相关联的参数名称完全不同于与机器“HCLN”相关联的参数名称。因此，“机器”字符不是必需的，并且可以在随后的分析步骤之前被移除。类似地，“腔室”字符也不是必需的，并且可以在随后的分析步骤之前被移除。基本上，基于“玻璃ID(glass_id)”、“装置”和“参数名称”，可以为每个参数名称确定唯一值。表11示出了预处理后的数据的示例。

表11示出了预处理后的数据的示例。

glass_id	装置	参数名称	参数值
				A9B0014A1	0	L1_Energy	[1017.00,1017.00,1017.00,...,1017.00]
A9B0014A1	0	L1_Water_Temp	[14.90,14.90,14.90,...,14.90]
				A9B0014A1	0	L1_Water_Press	[4.90,4.90,4.90,...,4.90]
A9B0022A5	1	L2_Energy	[995.00,995.00,994.00,...,995.00]
				A9B0022A5	1	L2_Water_Temp	[14.90,14.90,14.90,...,14.90]
A9B0022A5	1	L2_Water_Press	[4.90,4.90,4.90,...,4.90]
				…	…	…	…

在特征抽取之前，可以进一步处理数据。在一些实施例中，预处理步骤还包括从预处理后的数据中排除原始数据的第一部分，在该第一部分中缺失大于等于阈值百分比的值；以及对于原始数据的第二部分，在该第二部分中缺失小于阈值百分比的值，提供缺失值的插值。例如，当样本数据具有大于等于30％(例如，大于等于35％、大于等于40％、或大于等于45％)的缺失值时，它可以被认为是无效数据，并且可以从特征抽取和后续的分析步骤中排除。在另一示例中，样本数据具有小于30％(例如，小于35％、小于40％或小于45％)的缺失值，因此被保留用于后续的特征抽取和其他过程。可以使用例如通过平均插值方法计算的插值来提供缺失值。

图8示出本公开的一个示例中的来自若干玻璃的参数名称“MASK_TEMP”的参数值。参照图8，为每块玻璃记录的参数值包括时间序列中不同长度的数据分片。当在相同的设备或腔室中处理不同的玻璃时(即，玻璃经历相同的处理过程)，传感器记录的数据点的数量不一致，并且参数实际改变的时间也可能与理论时间不同。具有这种特性的数据不适合直接用作机器学习算法的输入。简单地将数据截短或补码成相等长度的分片也没有帮助。

因此，参考图7，本方法包括从预处理后的数据抽取特征的特征抽取步骤。在一些实施例中，特征抽取步骤包括对预处理后的数据的时域分析和频域分析中的至少一个。可选地，从预处理后的数据抽取特征包括对预处理后的数据执行时域分析。可选地，时域分析抽取预处理后的数据的统计信息，包括计数、平均值、最大值、最小值、范围、方差、偏差、峰度和百分位中的一个或多个。可选地，从预处理后的数据抽取特征还包括对预处理后的数据执行频域分析。可选地，频域分析将在时域分析中获得的时域信息转换为频域信息，该频域信息包括功率谱、信息熵和信噪比中的一个或多个。表12示出了特征抽取结果的示例。

表12示出了特征抽取结果的示例。

glass_id	L1_Water_Temp_Max	L1_Water_Temp_Min	…	L2_Water_Temp_Mean	…
						A9B0014A1	14.9	14.9	…	14.9	…
A9B0014A2	14.9	14.9	…	14.9	…
						A9B0014A3	14.9	14.8	…	14.8	…
A9B0014A4	14.9	14.7	…	14.7	…
						A9B0014A5	14.9	14.7	…	14.7	…
A9B0014B1	14.9	14.9	…	14.9	…
						A9B0014B2	14.9	14.9	…	14.9	…
A9B0014B3	14.9	14.9	…	14.9	…
						A9B0014B4	14.9	14.8	…	14.8	…
A9B0014B5	14.8	14.7	…	14.8	…

显示面板的制造过程非常复杂。在一个示例中，在单个操作站点处，非重复参数名称的总数为491个。因此，在操作站点的每个玻璃产生491个不同的参数。在特征抽取步骤之后，数据维度增加到数千。基于业务知识，同一空间内的装置将具有一个以上的同一类型的传感器以同时执行检测，从而导致大量共同线性特征和其他冗余问题。因此，参考图7，本方法还包括特征选择步骤以减少数据维度。在一个示例中，主成分分析方法用于从所抽取的特征中选择主特征。

在一些实施例中，通过计算机实现的训练方法来训练预测模型。在一些实施例中，计算机实现的训练方法包括获得关于在训练制造周期期间出现的缺陷的训练原始数据；对训练原始数据进行预处理，得到预处理后的训练数据；从预处理后的训练数据中抽取特征，以获得抽取的训练特征；从抽取的训练特征中选择主训练特征；以及使用抽取的训练特征来调整初始模型的参数，以获得用于缺陷预测的预测模型。可选地，从预处理后的训练数据抽取训练特征包括对预处理后的训练数据执行时域分析和频域分析中的至少一个，其细节在评估缺陷出现的可能性的方法的上下文中讨论。

各种适当的模型可以用作训练的初始模型。适当的统计模型的示例包括极端梯度提升(eXtreme Gradient Boosting，XGBoost)模型；随机森林(RF)模型；梯度提升机(gradient boosted machine，GBM)模型；广义线性模型(GLM)模型。在一些实施例中，多个统计模型包括以下中的一个或多个：单变量K折交叉相关的XGboost模型；多变量XGboost模型；单变量K折交叉相关随机森林模型；多变量随机森林模型；单变量K折交叉相关的GBM；多变量GBM模型；单变量K折交叉相关的GLM模型；和单变量非K折交叉相关的GLM模型。在一些实施例中，多个统计模型包括以下中的一个或多个：多变量、双变量或单变量K折交叉相关的XGboost模型；多变量、双变量或单变量K折交叉相关的随机森林模型；多变量、双变量或单变量K折交叉相关的GBM模型；多变量、双变量或单变量K折交叉相关的GLM模型；和单变量非K折交叉相关的GLM模型。在一些实施例中，多个统计模型至少包括：单变量K折交叉相关的XGboost模型；多变量XGboost模型；单变量K折交叉相关的随机森林模型；多变量随机森林模型；单变量K折交叉相关的GBM模型；多变量GBM模型；单变量K折交叉相关的GLM模型；和单变量非K折交叉相关的GLM模型。

可选地，初始模型是极端梯度提升(XGBoost)模型。

在一些实施例中，调整初始模型的参数包括根据等式(1)来评估F度量：

其中，Fβ表示精度和召回率的调和平均值，P表示精度，R表示召回率，β表示控制P和R之间的平衡的参数。可选地，β在0.80到0.90的范围内，例如0.85，以实现更高的精度。

在一些实施例中，网格搜索方法用于调整模型(例如，XGboost模型)的超参数。表13示出了调整结果的示例。

表13示出了使用网格搜索方法的调整结果的示例。

超参数	值
		reg_alpha	0.145
子样本	0.835
		max_depth	5
Learning_rate	0.458
		n_estimators	75

在另一方面，本公开还提供了一种由如本文所述的计算机实现的方法训练的预测模型。一旦获得了制造本发明玻璃的一个或多个步骤中的参数，预测模型就可以用于预测本发明玻璃的缺陷出现。预测模型可以用于决定本发明玻璃是否有缺陷并且是否应该丢弃。

在一个方面，本公开提供了一种智能缺陷分析***。在一些实施例中，智能缺陷分析***包括分布式计算***，其包括被配置为并行执行以执行至少一个共同任务的一个或多个联网计算机；一个或多个计算机可读存储介质，其存储指令，所述指令在由所述分布式计算***执行时使所述分布式计算***执行软件模块。在一些实施例中，所述软件模块包括：数据管理器，其被配置为存储数据，且智能地抽取、转换或加载所述数据；查询引擎，其连接到所述数据管理器并且被配置为直接从所述数据管理器查询所述数据；分析器，其连接到所述查询引擎，并且被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个业务服务器和多个算法服务器，所述多个算法服务器被配置为直接从所述数据管理器查询所述数据；以及数据可视化和交互界面，其被配置为生成所述任务请求。可选地，智能缺陷分析***用于显示面板制造中的缺陷分析。如本文所使用的，术语“分布式计算***”通常指具有多个网络节点的互连计算机网络，所述多个网络节点将多个服务器或主机彼此连接或连接到外部网络(例如，因特网)。术语“网络节点”通常指物理网络装置。示例网络节点包括路由器、交换机、集线器、网桥、负载平衡器、安全网关或防火墙。“主机”通常指被配置为实现例如一个或多个虚拟机或其他合适的虚拟化组件的物理计算装置。例如，主机可以包括具有被配置为支持一个或多个虚拟机或其他合适类型的虚拟组件的管理程序的服务器。

在一些实施例中，多个算法服务器中的一个或多个被配置为执行本文描述的用于缺陷分析的计算机实现的方法。

在一些实施例中，多个算法服务器中的一个或多个被配置为执行本文描述的评估缺陷出现的可能性的计算机实现的方法。

在半导体电子装置的制造中可能出现各种缺陷。缺陷的示例包括颗粒、残留物、线缺陷、孔洞、飞溅物、褶皱、变色和气泡。在半导体电子装置的制造中出现的缺陷难以跟踪。例如，工程师可能必须依赖于手动数据分类以基于经验分析缺陷的根本原因。

在制造液晶显示面板时，显示面板的制造至少包括阵列(Array)阶段、彩膜(CF)阶段、成盒(cell)阶段和模组阶段。在阵列阶段，制造薄膜晶体管阵列基板。在一个示例中，在阵列阶段，沉积材料层，使所述材料层经受光刻，例如，将光刻胶沉积在所述材料层上，使所述光刻胶经受曝光且随后显影。随后，蚀刻材料层并去除剩余的光刻胶(“剥离”)。在CF阶段，制造彩膜基板，涉及以下几个步骤，包括：涂覆、曝光和显影。在成盒阶段，组装阵列基板和彩膜基板，以形成单元。成盒阶段包括几个步骤，包括涂覆和摩擦取向层、注入液晶材料、单元密封剂涂覆、在真空下对盒、切割、研磨和单元检查。在模组阶段，***部件和电路被组装到面板上。在一个示例中，模块级包括若干步骤，包括背光的组装、印刷电路板的组装、偏光片附接、膜上芯片的组装、集成电路的组装、老化和最终检查。

在制造有机发光二极管(OLED)显示面板时，显示面板的制造包括至少四个设备工艺，包括阵列阶段、OLED阶段、EAC2阶段和模组阶段。在阵列阶段，制造显示面板的背板，例如，包括制造多个薄膜晶体管。在OLED阶段中，制造多个发光元件(例如，有机发光二极管)，形成封装层以封装多个发光元件，并且可选地，在封装层上形成保护膜。在EAC2阶段，大玻璃(glass)首先被切割成半片玻璃(hglass)，然后进一步切割成面板(panel)。此外，在EAC2阶段，检查设备用于检查面板以检测其中的缺陷，例如暗点和亮线。在模组阶段，例如，使用膜上芯片技术将柔性印刷电路接合到面板。在面板的表面上形成盖玻璃。可选地，执行进一步检查以检测面板中的缺陷。来自显示面板制造的数据包括履历(biographical)信息、参数信息和缺陷信息，这些信息存储在多个数据源中。履历信息是从阵列阶段到模组阶段，通过每个加工设备上传到数据库的记录信息，包括玻璃ID、设备型号、站点信息等。参数信息包括由设备在加工玻璃时生成的数据。缺陷可能出现在每个阶段中。可在上文所论述的阶段中的每一者中生成检查信息。只有在检查完成后，检查信息才能实时上传到数据库。检查信息可以包括缺陷类型和缺陷位置。

总之，使用各种传感器和检查设备来获得履历信息、参数信息和缺陷信息。使用智能缺陷分析方法或***来分析履历信息、参数信息和缺陷信息，所述智能缺陷分析方法或***可快速确定产生缺陷的设备、站点和/或阶段，从而为后续工艺改进和设备修理或维护提供关键信息，从而大大改进良率。

因此，本公开尤其提供了一种数据管理平台、智能缺陷分析***、智能缺陷分析方法、计算机程序产品及其用于缺陷分析的方法，其基本上消除了由于现有技术的限制和缺点而导致的一个或多个问题。本公开提供了一种具有优越功能的改进的数据管理平台。基于本数据管理平台(或其它适当的数据库或数据管理平台)，本公开的发明人进一步开发了一种新颖且独特的智能缺陷分析***、智能缺陷分析方法、计算机程序产品和用于缺陷分析的方法。

在一个方面，本公开提供了一种智能缺陷分析***。在一些实施例中，智能缺陷分析***包括分布式计算***，其包括被配置为并行执行以执行至少一个共同任务的一个或多个联网计算机；一个或多个计算机可读存储介质，其存储指令，所述指令在由所述分布式计算***执行时使所述分布式计算***执行软件模块。在一些实施例中，所述软件模块包括：数据管理平台，其被配置为存储数据并智能地抽取、转换或加载数据，其中，数据包括履历数据信息、参数信息或缺陷信息中的至少一个；分析器，其被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个业务服务器和多个算法服务器，所述多个算法服务器被配置为直接从所述数据管理平台获得数据，并且对数据执行算法分析以得出关于缺陷的潜在原因的结果数据；以及数据可视化和交互界面，其被配置为生成所述任务请求。可选地，智能缺陷分析***用于显示面板制造中的缺陷分析。如本文所使用的，术语“分布式计算***”通常指具有多个网络节点的互连计算机网络，所述多个网络节点将多个服务器或主机彼此连接或连接到外部网络(例如，因特网)。术语“网络节点”通常指物理网络装置。示例网络节点包括路由器、交换机、集线器、网桥、负载平衡器、安全网关或防火墙。“主机”通常指被配置为实现例如一个或多个虚拟机或其他合适的虚拟化组件的物理计算装置。例如，主机可以包括具有被配置为支持一个或多个虚拟机或其他合适类型的虚拟组件的管理程序的服务器。

图9示出了根据本公开的一些实施例中的分布式计算环境。参考图9，在分布式计算环境中，称为节点的多个自主计算机/工作站在例如LAN(局域网)的网络中彼此通信，以解决任务，例如执行应用。每个计算机节点通常包括其自己的(一个或多个)处理器、存储器和到其它节点的通信链路。计算机可以位于特定位置(例如，集群网络)内，或者可以通过诸如因特网的广域网(LAN)连接。在这样的分布式计算环境中，不同的应用可以共享信息和资源。

在分布式计算环境中的网络可以包括局域网(LAN)和广域网(WAN)。网络可以包括有线技术(例如，以太网)和无线技术(例如，

码分多址(CDMA)、全球移动***(GSM)、通用移动电话服务(UMTS)、蓝牙、

等)。

多个计算节点被配置为加入资源组，以提供分布式服务。在分布式网络中的计算节点可以包括任何计算装置，诸如计算装置或用户装置。计算节点还可以包括数据中心。如本文所使用的，计算节点可以指任何计算装置或多个计算装置(即，数据中心)。软件模块可以在单个计算节点(例如，服务器)上执行，或者以任何合适的方式分布在多个节点上。

分布式计算环境还可以包括一个或多个存储节点，用于存储与软件模块的执行和/或由软件模块的执行生成的输出和/或其他功能相关的信息。一个或多个存储节点在网络中彼此通信，并且与网络中的一个或多个计算节点通信。

图10示出了根据本公开的一些实施例中的智能缺陷分析***中的软件模块。参考图10，智能缺陷分析***包括分布式计算***，该分布式计算***包括一个或多个联网计算机，该联网计算机被配置为并行执行，以执行至少一个共同任务；存储指令的一个或多个计算机可读存储介质，所述指令在由所述分布式计算***执行时使所述分布式计算***执行软件模块。在一些实施例中，软件模块包括数据管理平台DM，其被配置为存储数据，并且智能地抽取、转换或加载数据；查询引擎QE，其连接到数据管理平台DM并被配置为直接从数据管理平台DM获得数据；分析器AZ，其连接到查询引擎QE并被配置为在接收到任务请求时执行缺陷分析，分析器AZ包括多个业务服务器BS(类似于后端服务器)和多个算法服务器AS，多个算法服务器AS被配置为直接从数据管理平台DM获得数据；以及被配置为生成任务请求的数据可视化和交互界面DI。可选地，查询引擎QE是基于Impala^TM技术的查询引擎。如本文所使用的，在本公开的上下文中，术语“连接到”是指具有从***的第一部件到第二部件和/或从***的第二部件到第一部件的直接信息或数据流的关系。

图11示出了根据本公开的一些实施例中的智能缺陷分析***中的软件模块。参考图11，在一些实施例中，数据管理平台DM包括ETL模块ETLP，其被配置为抽取、转换或加载来自多个数据源DS的数据到数据集市DMT和通用数据层GDL上。在接收到分配的任务时，多个算法服务器AS中的各个算法服务器被配置为直接从数据集市DMT获得第一数据。在执行缺陷分析时，多个算法服务器AS中的各个算法服务器被配置为将第二数据直接发送到通用数据层GDL。多个算法服务器AS部署用于缺陷分析的各种通用算法，例如基于大数据分析的算法。多个算法服务器AS被配置为分析数据以识别缺陷的原因。如在此所使用的，术语“ETL模块”指的是被配置为提供诸如抽取、转换或加载数据的功能的计算机程序逻辑。在一些实施例中，ETL模块被存储在存储节点上，加载到存储器中，并且由处理器执行。在一些实施例中，ETL模块被存储在分布式网络中的一个或多个存储节点上，加载到分布式网络中的一个或多个存储器中，并且由分布式网络中的一个或多个处理器执行。

数据管理平台DM存储用于智能缺陷分析***的数据。例如，数据管理平台DM存储由多个算法服务器AS进行算法分析所需的数据。在另一个示例中，数据管理平台DM存储算法分析的结果。在一些实施例中，数据管理平台DM包括多个数据源DS(例如，存储在Oracle数据库中的数据)、ETL模块ETLP、数据集市DMT(例如，基于Apache Hbase^TM技术的数据集市)和通用数据层GDL(例如，基于Apache Hive^TM技术的数据存储器)。为了算法分析和对用户的交互式显示，来自多个数据源DS的数据由ETL模块ETLP清洗并合并成验证数据。用于缺陷分析的有用数据的示例包括跟踪历史数据、数据变量(dv)参数数据、映射缺陷位置数据等。在典型的制造过程(例如，显示面板的制造过程)中的数据量是巨大的，例如，在典型的制造站点中每天可能存在超过3千万条dv参数数据。为了满足用户对缺陷分析的需求，需要提高算法服务器读取生产数据的速度。在一个示例中，算法分析所需的数据存储在基于ApacheHbase^TM技术的数据集市中，以提高效率并节省存储空间。在另一示例中，算法分析的结果和其它辅助数据被存储在基于Apache Hive^TM技术的通用数据层中。

Apache Hive^TM是构建在Hadoop顶部的开源数据仓库***，其用于查询和分析Hadoop文件中存储的结构化和半结构化形式的大数据。Apache Hive^TM主要用于批处理，因此被称为OLAP。另外，在Hive的情况下，实时处理是不可能的。Apache Hive^TM不是数据库，而是具有模式模型。

Apache Hbase^TM是一种在Hadoop分布式文件***(HDFS)顶部运行的非关系的面向列的分布式数据库。此外，它是以列存储数据的NoSQL开源数据库。Apache Hbase^TM主要用于事务处理，被称为OLTP。然而，在Apache Hbase^TM的情况下，实时处理是可能的。ApacheHbase^TM是一种NoSQL数据库，并且没有模式模型。

在一个示例中，数据管理平台的各种组件(例如，通用数据层、数据仓库、数据源)可以是例如基于Apache Hadoop^TM和/或Apache Hive^TM的分布式数据存储器簇的形式。

图16示出了根据本公开的一些实施例中的数据管理平台。参考图16，在一些实施例中，数据管理平台包括分布式存储***(DFS)，例如Hadoop分布式文件***(HDFS)。数据管理平台被配置为从多个数据源DS收集在工厂生产过程中生成的数据。例如使用RDBMS(关系数据库管理***)网格计算技术将在工厂生产过程中生成的数据存储在关系数据库(例如Oracle)中。在RDBMS网格计算中，需要非常大量的计算机功率的问题被分成许多小的部分，这些小的部分被分配给许多计算机进行处理。将分布式计算的结果进行组合，以获得最终结果。例如，在Oracle RAC(真实应用集群)中，所有服务器都可以直接访问数据库中的所有数据。然而，基于RDBMS网格计算的应用具有有限的硬件可扩展性。当数据量达到某个数量级时，硬盘的输入/输出瓶颈使得处理大量数据非常低效。分布式文件***的并行处理可以满足由增加数据存储和计算的需求所提出的挑战。在智能缺陷分析过程中，首先将多个数据源DS中的数据抽取到数据管理平台中，大大加快了过程。

在一些实施例中，数据管理平台包括具有不同内容和/或存储结构的多组数据。在一些实施例中，ETL模块ETLP配置成将原始数据从多个数据源DS抽取到数据管理平台中，形成第一数据层(例如，数据湖DL)。数据湖DL是被配置为存储任何结构或非结构数据的集中式HDFS或KUDU数据库。可选地，数据湖DL被配置为存储由ETL模块ETLP从多个数据源DS抽取的第一组数据。可选地，第一组数据和原始数据具有相同的内容。原始数据的维度和属性被保存在第一组数据中。在一些实施例中，存储在数据湖中的第一组数据被动态地更新。可选地，第一组数据包括存储在基于Kudu^TM的数据库中的实时更新数据，或存储在Hadoop分布式文件***中的周期性更新数据。在一个示例中，存储在Hadoop分布式文件***中的周期性更新数据是存储在基于Apache Hive^TM的存储器中的周期性更新数据。

在一些实施例中，数据管理平台包括第二数据层，例如数据仓库DW。数据仓库DW包括内部存储***，该内部存储***被配置为以抽象方式提供数据，例如以表格格式或视图格式，而不暴露文件***。数据仓库DW可以基于Apache Hive^TM。ETL模块ETLP配置成抽取、清洗、转换或加载第一组数据，以形成第二组数据。可选地，通过使第一组数据经过清洗和标准化，来形成第二组数据。

在一些实施例中，数据管理平台包括第三数据层(例如，通用数据层GDL)。通用数据层GDL可以基于Apache Hive^TM。ETL模块ETLP被配置为对第二组数据进行数据融合，从而形成第三组数据。在一个示例中，第三组数据是通过对第二组数据进行数据融合而得到的数据。数据融合的示例包括基于多个表中的相同字段的级联。数据融合的示例还包括生成相同字段或记录的统计数据(例如，求和及占比计算)。在一个示例中，统计数据的生成包括对玻璃中的有缺陷的面板的数量以及同一玻璃中的多个面板中的有缺陷的面板的占比进行计数。可选地，通用数据层GDL基于Apache Hive^TM。可选地，通用数据层GDL用于数据查询。

在一些实施例中，数据管理平台包括第四数据层(例如，至少一个数据集市)。在一些实施例中，至少一个数据集市包括数据集市DMT。可选地，数据集市DMT是存储可用于计算处理的信息的NoSQL类型的数据库。可选地，数据集市DMT基于Apache Hbase^TM。可选地，数据集市DMT用于计算。ETL模块ETLP被配置为将第三数据层分层(layerize)，以形成具有多层索引结构的第四组数据。第四组数据基于不同类型和/或规则对数据进行分类，从而形成多层索引结构。多层索引结构中的第一索引对应于前端接口的过滤标准，例如，对应于与数据管理平台通信的交互式任务子界面中的用户定义的分析标准，从而促进更快速的数据查询和计算过程。

在一些实施例中，可以将通用数据层GDL中的数据导入到数据集市DMT中。在一个示例中，在数据集市DMT中生成第一表，并且在通用数据层GDL中生成第二表(例如，外部表)。第一表和第二表被配置为是同步的，以便当数据被写入第二表时，第一表将被同时更新以包括对应的数据。

在另一示例中，分布式计算处理模块可以用于读取写入到通用数据层GDL上的数据。Hadoop MapReduce模块可被用作分布式计算处理模块，以用于读取被写到通用数据层GDL上的数据。然后，可以将写入到通用数据层GDL上的数据写入到数据集市DMT上。在一个示例中，可以使用HBase API将数据写入数据集市DMT。在另一示例中，Hadoop MapReduce模块一旦读取被写到数据集市DMT上的数据，就可以生成HFile，其被批量加载(Bulkloaded)到数据集市DMT上。

在一些实施例中，本文描述了数据管理平台的各种组件之间的数据流、数据转换和数据结构。在一些实施例中，由多个数据源DS收集的原始数据包括履历数据信息、参数信息或缺陷信息中的至少一个。原始数据可选地可以包含维度信息(时间、工厂、设备、操作者、Map、腔室、槽等)和属性信息(工厂位置、设备使用年限、坏点数、异常参数、能耗参数、处理持续时间等)。

履历数据信息包含产品(例如面板或玻璃)在制造期间经过的特定处理的信息。产品在制造期间经过的特定处理的示例包括工厂、工序、站点、设备、腔室、卡槽和操作者。

参数信息包含产品(例如面板或玻璃)在制造期间经受的特定环境参数及其变化的信息。产品在制造期间经受的特定环境参数及其变化的示例包括环境颗粒条件、设备温度和设备压力。

缺陷信息包含基于检查的产品质量的信息。示例产品质量信息包括缺陷类型、缺陷位置和缺陷尺寸。

在一些实施例中，参数信息包括设备参数信息。可选地，设备参数信息包括至少三种类型的数据，其可以从用于制造设备的通信和控制的通用模型(GEM)接口输出。可从GEM接口输出的第一类型的数据是数据变量(DV)，其可在事件发生时收集。因此，数据变量仅在事件的情况下有效。在一个示例中，GEM接口可以提供称为PPChanged的事件，其在recipe改变时被触发；以及名为“改变的recipe”的数据变量，其仅在PPChanged事件的情况下有效。在其它时间轮询该值可能具有无效或意外的数据。可从GEM接口输出的第二类型的数据是状态变量(SV)，其包含在任何时间有效的设备特定信息。在一个示例中，设备可以是温度传感器，并且GEM接口提供一个或多个模块的温度状态变量。主机可以在任何时间请求该状态变量的值，并且可以预期该值为真。可从GEM接口输出的第三类型的数据是设备常数(EC)，其包含由设备设定的数据项。设备常数确定设备的行为。在一个示例中，GEM接口提供名为“MaxSimultousTrace”的设备常数，其指定可同时从主机请求的轨迹的最大数目。总是保证设备常数的值是有效的和最新的。

在一些实施例中，数据湖DL被配置为存储通过由ETL模块ETLP从多个数据源抽取原始数据而形成的第一组数据，第一组数据具有与原始数据相同的内容。ETL模块ETLP配置成从多个数据源DS抽取原始数据，同时保持维度信息(例如，维度列)和属性信息(例如，属性列)。数据湖DL被配置为存储根据抽取时间排序的抽取数据。数据可以存储在数据湖DL中，该数据湖具有指示“数据湖”和/或各个数据源的(一个或多个)属性的新名称，同时保持原始数据的维度和属性。第一组数据和原始数据以不同的形式存储。第一组数据存储在分布式文件***中，而原始数据存储在诸如Oracle数据库的关系数据库中。在一个示例中，由多个数据源DS收集的业务数据包括来自各种业务***的数据，所述业务***包括例如良率管理***(YMS)、故障检测和分类(FDC)***以及制造执行***(MES)。这些业务***中的数据具有它们各自的签名，例如产品模型、生产参数和设备模型数据。ETL模块ETLP使用工具(如，sqoop命令、数栈工具、Pentaho工具)将来自每个业务***的原始生产数据抽取为原始数据格式的hadoop，从而实现来自多个业务***的数据的融合。所抽取的数据被存储在数据湖DL中。在另一示例中，数据湖DL基于诸如Hive^TM和Kudu^TM的技术。数据湖DL包含工厂自动化过程中涉及的维度列(时间、工厂、设备、操作者、Map、腔室、槽等)和属性列(工厂位置、设备使用年限、坏点数、异常参数、能耗参数、处理持续时间等)。

在一个示例中，本数据管理平台将各种业务数据(例如，与半导体电子器件制造相关的数据)集成到多个数据源DS(例如，Oracle数据库)中。ETL模块ETLP例如使用数栈工具、SQOOP工具、kettle工具、Pentaho工具或DataX工具，将来自多个数据源DS的数据抽取到数据湖DL中。然后，数据被清洗、转换并加载到数据仓库DW和通用数据层GDL中。数据仓库DW、通用数据层GDL和数据集市DMT利用诸如Kudu^TM、Hive^TM和Hbase^TM的工具存储大量数据和分析结果。

在制造过程的各个阶段中生成的信息由各种传感器和检查设备获得，并且随后被保存在多个数据源DS中。由本智能缺陷分析***生成的计算和分析结果也被保存在多个数据源DS中。通过ETL模块ETLP实现数据管理平台的各个部件之间的数据同步(数据的流动)。例如，ETL模块ETLP被配置为获得同步过程的参数配置模板，包括网络许可和数据库端口配置、流入数据库名称和表名称、流出数据库名称和表名称、字段对应关系、任务类型、调度周期等。ETL模块ETLP基于参数配置模板配置同步过程的参数。ETL模块ETLP同步数据，并基于过程配置模板清洗同步的数据。ETL模块ETLP通过SQL语句来清洗数据，以移除空值、移除离群值，并建立相关表之间的相关性。数据同步任务包括多个数据源DS和数据管理平台之间的数据同步，以及数据管理平台的各个层(例如，数据湖DL、数据仓库DW、通用数据层GDL或数据集市DMT)之间的数据同步。

在另一示例中，可以实时地或离线地完成到数据湖DL的数据抽取。在离线模式中，周期性地调度数据抽取任务。可选地，在离线模式中，所抽取的数据可以存储在基于Hadoop分布式文件***的存储装置(例如，基于Hive^TM的数据库)中。在实时模式中，数据抽取任务可以由OGG(Oracle GoldenGate)结合Apache Kafka来执行。可选地，在实时模式中，所抽取的数据可以存储在基于Kudu^TM的数据库中。OGG读取多个数据源(例如，Oracle数据库)中的日志文件，以获得添加/删除数据。在另一示例中，主题信息由Flink读取，Json被选择为同步字段类型。利用JAR包对数据进行解析，并将解析后的信息发送到Kudu API，实现Kudu表数据的添加/删除。在一个示例中，前端接口可基于存储在基于Kudu^TM的数据库中的数据来执行显示、查询和/或分析。在另一示例中，前端接口可基于存储在基于Kudu^TM的数据库、Hadoop分布式文件***(例如，基于Apache Hive^TM的数据库)和/或基于Apache Hbase^TM的数据库中的任何一个或任何组合中的数据来执行显示、查询和/或分析。在另一示例中，(例如，在几个月内生成的)短期数据被存储在基于Kudu^TM的数据库中，而长期数据(例如，在所有周期中生成的全部数据)被存储在Hadoop分布式文件***(例如，基于Apache Hive^TM的数据库)中。在另一示例中，ETL模块ETLP被配置为将存储在基于Kudu^TM的数据库中的数据抽取到Hadoop分布式文件***(例如，基于Apache Hive^TM的数据库)中。

通过组合来自各种业务***(MDW、YMS、MES、FDC等)的数据，基于数据湖DL来构建数据仓库DW。根据任务执行时间来划分从数据湖DL中抽取的数据，所述任务执行时间不完全匹配原始数据中的时间戳。另外，存在数据重复的可能性。因此，有必要通过对数据湖DL中的数据进行清洗和标准化来基于数据湖DL构建数据仓库DW，以满足上层应用对数据准确性和划分的需要。数据仓库DW中存储的数据表是通过对数据湖DL中的数据进行清洗和标准化而获得的。基于用户需求，对字段格式进行标准化，以保证数据仓库DW中的数据表与多个数据源DS中的数据表完全一致。同时，按日期或月份，根据时间以及其他字段划分数据，大大提高了查询效率，降低了运行存储器需求。数据仓库DW可以是基于Kudu^TM的数据库和基于Apache Hive^TM的数据库中的一个或任意组合。

在一些实施例中，ETL模块ETLP被配置为将存储在数据湖中的抽取数据清洗成清洗数据，并且数据仓库被配置为存储清洗数据。由ETL模块ETLP执行的清洗的示例包括冗余数据的移除、空值数据的移除、虚拟字段的移除等。

在一些实施例中，ETL模块ETLP还被配置为对存储在数据湖中的抽取数据执行标准化(例如，字段标准化和格式标准化)，并且清洗数据是经受过字段格式标准化(例如，日期和时间信息的格式标准化)的数据。

在一些实施例中，多个数据源DS中的至少一部分业务数据是二进制大对象(blob)格式。在数据抽取之后，存储在数据湖DL中的抽取数据的至少一部分是压缩的十六进制格式。可选地，通过解压缩和处理抽取数据，获得存储在数据仓库DW中的清洗的数据的至少一部分。在一个示例中，业务***(例如，上述FDC***)被配置为存储大量的参数数据。因此，数据必须被压缩成业务***中的blob格式。在数据抽取(例如，从Oracle数据库到Hive数据库)期间，blob字段将被转换为十六进制(HEX)字符串。为了检索存储在文件中的参数数据，HEX文件被解压缩，并且此后可以直接获得文件的内容。所需数据被编码以形成长字符串，并且根据输出要求，通过特定符号来分割不同的内容。为了获得所需格式的数据，对长字符串进行诸如根据特殊字符进行剪切和行列转换等操作。处理后的数据与原始数据一起被写入目标表(例如，以上面讨论的存储在数据仓库DW中的表格式的数据)。

在一个示例中，存储在数据仓库DW中的清洗的数据维护多个数据源DS中的原始数据的维度信息(例如，维度列)和属性信息(例如，属性列)。在另一示例中，存储在数据仓库DW中的清洗的数据保持与多个数据源DS中的数据表名称相同的数据表名称。

在一些实施例中，ETL模块ETLP还被配置为生成周期性地自动更新的动态更新表。可选地，如上所述，通用数据层GDL被配置为存储包括关于高发生率缺陷的信息的动态更新表。可选地，数据集市DMT被配置为存储动态更新表，该表包括关于高发生率缺陷的信息，如上所述。

通用数据层GDL是基于数据仓库DW构建的。在一些实施例中，GDL被配置为存储通过由ETL模块ETLP对第二组数据进行数据融合而形成的第三组数据。可选地，基于不同的主题执行数据融合。通用数据层GDL中的数据主题化程度高，聚合程度高，从而大大提高了查询速度。在一个示例中，可以使用数据仓库DW中的表来构建具有根据不同用户需要或不同主题而构造的相关性的表，根据表各自的实用程序来为表分配名称。

各种主题可以对应于不同的数据分析需求。例如，主题可以对应于不同的缺陷分析需求。在一个示例中，主题可以对应于对归因于一个或多个制造节点组(例如，一个或多个设备)的缺陷的分析，并且基于所述主题的数据融合可以包括关于制造过程的履历信息和与其相关联的缺陷信息的数据融合。在另一个示例中，主题可以对应于对归因于一个或多个参数类型的缺陷的分析，并且基于所述主题的数据融合可以包括关于参数特征信息和与其相关联的缺陷信息的数据融合。在另一示例中，主题可以对应于对归因于一个或多个设备操作(例如，由相应设备执行相应操作的相应操作站点定义的设备)的缺陷的分析，并且基于所述主题的数据融合可以包括关于参数特征信息、制造过程的履历信息和与其相关联的缺陷信息的数据融合。在另一示例中，主题可以对应于对各种类型的参数的特征抽取以生成参数特征信息，其中，针对每种类型的参数抽取最大值、最小值、平均值和中值中的一个或多个。

在一些实施例中，缺陷分析包括对各种类型的参数执行特征抽取以生成参数特征信息；对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息中的至少两个执行数据融合。可选地，执行数据融合包括对参数特征信息和与其相关联的缺陷信息执行数据融合。可选地，执行数据融合包括对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息执行数据融合。在另一示例中，执行数据融合包括对制造过程的参数特征信息和履历信息执行数据融合，以获得第一融合数据信息；对所述第一融合数据信息与其关联的缺陷信息执行数据融合，以获得第二融合数据信息。在一个示例中，第二融合数据信息包括玻璃序列号、制造站点信息、设备信息、参数特征信息和缺陷信息。例如，通过构建具有根据用户需要或主题而构建的相关性的表，在通用数据层GDL中执行数据融合。可选地，执行数据融合的步骤包括对履历信息和缺陷信息执行数据融合。可选地，执行数据融合的步骤包括对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息中的全部三个执行数据融合。

在一个示例中，在数据仓库DW中的CELL_PANEL_MAIN表存储在成盒工厂中的面板的基本履历数据，并且CELL_PANEL_CT表存储在工厂中的CT工艺的细节。通用数据层GDL被配置为基于CELL_PANEL_MAIN表和CELL_PANEL_CT表来执行相关操作，以便创建宽表YMS_PANEL。在YMS_PANEL表中可以查询面板的基本履历数据和CT工艺的细节。表名称“YMS_PANEL”中的YMS前缀代表用于缺陷分析的主题，PANEL前缀代表存储在表中的特定PANEL信息。通过由通用数据层GDL对数据仓库DW中的表进行相关操作，可以将不同表中的数据进行融合和关联。

根据不同的业务分析需求，且基于玻璃、hglass(half glass，半玻璃)、面板，通用数据层GDL中的表可以分为以下数据标签：生产记录、缺陷率、缺陷MAP、DV、SV、检查数据和测试数据。

基于数据仓库DW和/或通用数据层GDL来构建数据集市DMT。数据集市DMT可以用于提供各种报告数据和分析所需的数据，特别是高度定制的数据。在一个示例中，由数据集市DMT提供的定制数据包括关于缺陷率、特定缺陷的频率等的合并数据。在另一示例中，数据湖DL和通用数据层GDL中的数据被存储在基于Hive的数据库中，数据集市DMT中的数据被存储在基于Hbase的数据库中。可选地，数据集市DMT中的表名称可以保持与通用数据层GDL中的一致。可选地，通用数据层GDL基于Apache Hive^TM技术，且数据集市DMT基于ApacheHbas^TM技术。通用数据层GDL用于通过用户界面进行数据查询。可以通过Impala在Hive中快速查询Hive中的数据。数据集市DMT用于计算。基于Hbase中的柱状数据存储的优点，多个算法服务器AS可以快速访问Hbase中的数据。

在一些实施例中，数据集市DMT被配置为存储从存储在通用数据层GDL中的数据表中的各个数据表分成的多个子表。在一些实施例中，存储在数据集市DMT中的数据和存储在通用数据层GDL中的数据具有相同的内容。存储在数据集市DMT中的数据和存储在通用数据层GDL中的数据的区别在于它们存储在不同的数据模型中。取决于用于数据集市DMT的不同类型的NoSQL数据库，可以将数据集市DMT中的数据存储在不同的数据模型中。对应于不同NoSQL数据库的数据模型的示例包括键值数据模型、列族数据模型、版本化文档数据模型和图结构数据模型。在一些实施例中，可以基于指定的键来执行对数据集市DMT的查询，以快速定位要查询的数据(例如，值)。因此，并且如下面更具体地讨论的，可以将存储在通用数据层GDL中的表分成为数据集市DMT中的至少三个子表。第一子表对应于交互式任务子界面中的用户定义的分析标准。第二子表对应于指定的键(例如产品序列号)。第三子表对应于值(例如，存储在通用数据层GDL中的表中的值，包括融合数据)。在一个示例中，数据集市DMT利用基于Apache Hbase^TM技术的NoSQL数据库；第二子表中的指定的键可以是行键；并且第三子表中的融合数据可以存储在列族数据模型中。可选地，第三子表中的融合数据可以是来自参数特征信息、制造过程的履历信息和与其相关联的缺陷信息中的至少两个的融合数据。此外，数据集市DMT可以包括第四子表。第三子表中的某些字符可以例如由于其长度或其它原因而存储在代码中。第四子表包括对应于存储在第三子表中的这些代码的字符(例如，设备名称、制造站点)。第一子表、第二子表和第三子表之间的索引或查询可基于所述代码。第四子表可用于在结果被呈现给用户界面之前用字符替换代码。

在一些实施例中，多个子表具有在多个子表的至少两个子表之间的索引关系。可选地，基于类型和/或规则对多个子表中的数据进行分类。在一些实施例中，多个子表包括第一子表(例如，属性子表)，其包括与数据管理平台通信的交互式任务子界面中的用户定义的分析标准对应的多个环境因素；第二子表，其包括产品序列号(例如，玻璃标识号或批次标识号)；以及第三子表(例如，主子表)，其包括第三组数据中与产品序列号对应的值。可选地，基于不同的主题，第二子表可以包括不同的指定键，例如玻璃标识号或批次标识号(例如，多个第二子表)。可选地，第三组数据中的值通过第三子表与第二子表之间的索引关系与玻璃标识号对应。可选地，多个子表还包括第四子表(例如，元数据子表)，其包括第三组数据中与批次标识号对应的值。可选地，第二子表还包括批次标识号；可以通过第二子表与第四子表之间的索引关系来获得第三组数据中与批次标识号对应的值。可选地，多个子表还包括第五子表(例如，代码生成器子表)，其包括制造站点信息和设备信息。可选地，第三子表包括制造站点和设备的代码或缩写，通过第三子表与第五子表之间的索引关系，可以从第五子表获得制造站点信息和设备信息。

图17描绘根据本公开的一些实施例中从存储在通用数据层中的数据表分割出的多个子表。参考图17，在一些实施例中，多个子表包括以下中的一个或多个：属性子表，其包括与数据管理平台通信的交互式任务子界面中的用户定义的分析标准对应的多个环境因素；上下文子表，其至少包括多个环境因素中的第一数量的环境因素和多个制造阶段因素，以及与多个环境因素中的第二数量的环境因素对应的多个列；元数据子表，其至少包括多个制造阶段因素中的第一制造阶段因素和与第一制造阶段相关联的设备因素，以及与在第一制造阶段中生成的参数对应的多个列；主子表，其至少包括多个制造阶段因素中的第二制造阶段因素，以及对应于在第二制造阶段中生成的参数的多个列；以及代码生成器子表，其至少包括多个环境因素中的第三数量的环境因素和设备因素。

在一个示例中，多个子表包括以下中的一个或多个：属性子表，其包括由数据标签、工厂信息、制造站点信息、产品型号信息、产品类型信息和产品序列号组成的键；上下文子表，其包括由MED5加密站点的前三个数字、工厂信息、制造站点信息、数据标签、制造结束时间、批次序列号和玻璃序列号组成的键，用于产品型号信息的第一列，用于产品序列号的第二列，以及用于产品类型信息的第三列；元数据子表，其包括由MED5加密站点的前三个数字、批次序列号、数据标签、制造站点信息和设备信息组成的键，用于制造时间的第一列和用于制造参数的第二列；主子表，其包括由MED5加密站点的前三个数字、序列号和玻璃序列号组成的键，用于制造时间的第一列和用于制造参数的第二列；以及代码生成器子表，其包括由数据标签、制造站点信息和设备信息组成的键。可选地，属性子表中的多个环境因素包括数据标签、工厂信息、制造站点信息、产品型号信息、产品类型信息和产品序列号。可选地，多个制造阶段因素包括批次序列号和玻璃序列号。可选地，设备因素包括设备信息。

参照图10和图11，在一些实施例中，软件模块还包括连接到分析器AZ的负载平衡器LB。可选地，负载平衡器LB(例如，第一负载平衡器LB1)被配置为接收任务请求并且被配置为将任务请求分配给多个业务服务器BS中的一个或多个，以实现多个业务服务器BS之间的负载平衡。可选地，负载平衡器LB(例如，第二负载平衡器LB2)被配置为将任务从多个业务服务器BS分配到多个算法服务器AS中的一个或多个，以实现多个算法服务器AS之间的负载平衡。可选地，负载平衡器LB是基于Nginx^TM技术的负载平衡器。

在一些实施例中，智能缺陷分析***被配置为同时满足许多用户的需求。通过具有负载平衡器LB(例如，第一负载平衡器LB1)，***以平衡的方式向多个业务服务器AS发送用户请求，从而保持多个业务服务器AS的整体性能最优，并防止由于单个服务器上的过度压力而导致的服务的缓慢响应。

类似地，通过具有负载平衡器LB(例如，第二负载平衡器LB2)，***以平衡的方式向多个算法服务器AS发送任务，以保持多个算法服务器AS的整体性能最优。在一些实施例中，当设计负载平衡策略时，不仅应当考虑发送到多个算法服务器AS中的每一个的任务的数量，而且还应当考虑每个任务所需的计算负荷量。在一个示例中，涉及三种类型的任务，包括类型“玻璃”的缺陷分析、类型“hglass”的缺陷分析和类型“面板”的缺陷分析。在另一示例中，与类型“玻璃”相关的缺陷数据项的数量平均是每周1百万个，与类型“面板”相关的缺陷数据项的数量平均是每周3千万个。因此，类型“面板”的缺陷分析所需的计算负荷量远大于类型“玻璃”的缺陷分析所需的计算负荷量。在另一示例中，使用公式f(x，y，z)＝mx+ny+oz来执行负载平衡，其中x代表类型“玻璃”的缺陷分析的任务的数量；y代表类型“hglass”的缺陷分析任务的数量；z代表类型“面板”的缺陷分析的任务的数量；m代表为类型“玻璃”的缺陷分析分配的权重；n代表为类型“hglass”的缺陷分析分配的权重；o代表为类型“面板”的缺陷分析分配的权重。基于每种类型的缺陷分析所需的计算负荷量来分配权重。可选地，m+n+o＝1。

在一些实施例中，ETL模块ETLP配置成生成动态更新的表，其周期性地(例如，每天、每小时等)自动更新。可选地，通用数据层GDL被配置为存储动态更新的表。在一个示例中，基于计算工厂中的缺陷发生率的逻辑来生成动态更新的表。在另一示例中，来自数据管理平台DM中的多个表的数据被合并，并经过各种计算，以生成动态更新的表。在另一示例中，动态更新的表包括诸如作业名称、缺陷代码、缺陷代码的出现频率、缺陷代码的级别(玻璃/hglass/面板)、工厂、产品型号、日期的信息，以及其他信息。动态更新的表被定期更新，当数据管理平台DM中的生产数据变化时，动态更新的表中的信息会随之更新，以确保动态更新的表可以具有所有工厂的缺陷代码信息。

图12示出了根据本公开的一些实施例中的使用智能缺陷分析***的智能缺陷分析方法。参考图12，在一些实施例中，数据可视化和交互界面DI被配置为生成任务请求；负载平衡器LB被配置为接收任务请求并且被配置为将任务请求指派给多个业务服务器中的一个或多个，以实现多个业务服务器之间的负载平衡；多个业务服务器中的一个或多个被配置为向查询引擎QE发送查询任务请求；查询引擎QE被配置为在从多个业务服务器中的一个或多个接收到查询任务请求时，查询动态更新的表，以获得关于高发生率缺陷的信息，并将关于高发生率缺陷的信息发送到多个业务服务器中的一个或多个；多个业务服务器中的一个或多个被配置为将缺陷分析任务发送到负载平衡器LB，以将缺陷分析任务分配给多个算法服务器中的一个或多个，从而实现多个算法服务器之间的负载平衡；在接收到缺陷分析任务时，多个算法服务器中的一个或多个被配置为直接从数据集市DMT获得数据以执行缺陷分析；以及在完成缺陷分析时，多个算法服务器中的一个或多个被配置为将缺陷分析的结果发送到通用数据层GDL。

查询引擎QE能够进行快速访问数据管理平台DM，例如，快速地从数据管理平台DM读取数据或向其写入数据。与通过通用数据层GDL的直接查询相比，具有查询引擎QE是有利的，因为它不需要执行MapReduce(MR)程序来查询通用数据层GDL(例如，Hive数据存储)。可选地，查询引擎QE可以是分布式查询引擎，其可以实时查询通用数据层GDL(HDFS或Hive)，大大减少了等待时间并提高了整个***的响应性。查询引擎QE可使用各种适当的技术来实现。用于实现查询引擎QE的技术的示例包括Impala^TM技术、Kylin^TM技术、Presto^TM技术和Greenpall^TM技术。

在一些实施例中，任务请求是自动重复(recurring)任务请求，该自动重复任务请求定义了缺陷分析将被执行的重复周期。图13示出了根据本公开的一些实施例中的使用智能缺陷分析***的智能缺陷分析方法。参考图13，在一些实施例中，数据可视化和交互界面DI被配置为生成自动重复任务请求；负载平衡器LB被配置为接收自动重复任务请求并且被配置为将自动重复任务请求分配给多个业务服务器中的一个或多个，以实现多个业务服务器之间的负载平衡；多个业务服务器中的一个或多个被配置为向查询引擎QE发送查询任务请求；查询引擎QE被配置为在从多个业务服务器中的一个或多个接收到查询任务请求时，查询动态更新的表，以获得限于重复周期的关于高发生率缺陷的信息，并将关于高发生率缺陷的信息发送到多个业务服务器中的一个或多个；在接收到关于在重复周期期间高发生率的缺陷的信息时，多个业务服务器中的一个或多个被配置为基于关于在重复周期期间高发生率的缺陷的信息来生成缺陷分析任务；多个业务服务器中的一个或多个被配置为将缺陷分析任务发送到负载平衡器LB，以将缺陷分析任务分配给多个算法服务器中的一个或多个，从而实现多个算法服务器之间的负载平衡；在接收到缺陷分析任务时，多个算法服务器中的一个或多个被配置为直接从数据集市DMT获得数据以执行缺陷分析；以及在完成缺陷分析时，多个算法服务器中的一个或多个被配置为将缺陷分析的结果发送到通用数据层GDL。

参考图11，在一些实施例中，数据可视化和交互界面DI包括自动任务子界面SUB1，其允许输入要执行缺陷分析的重复周期。自动任务子界面SUB1能够周期性地对高发生率的缺陷进行自动缺陷分析。在自动任务模式中，关于高发生率的缺陷的信息被发送到多个算法服务器AS，以分析引起缺陷的潜在原因。在一个示例中，用户在自动任务子界面SUB1中设置将执行缺陷分析的重复周期。查询引擎QE基于***设置定时地从动态更新的表中捕获缺陷信息，并将该信息发送给多个算法服务器AS进行分析。这样，***可以自动监控高发生率的缺陷，并且对应的分析结果可以存储在缓存中，以备访问，以用于在数据可视化和交互界面DI中显示。

在一些实施例中，任务请求是交互式任务请求。图14示出了根据本公开的一些实施例中的使用智能缺陷分析***的智能缺陷分析方法。参考图14，在一些实施例中，数据可视化和交互界面DI被配置为接收用户定义的分析标准，并且被配置为基于用户定义的分析标准生成交互式任务请求；数据可视化和交互界面DI被配置为生成交互式任务请求；负载平衡器LB被配置为接收交互式任务请求，并且被配置为将交互式任务请求分配给多个业务服务器中的一个或多个，以实现多个业务服务器之间的负载平衡；多个业务服务器中的一个或多个被配置为向查询引擎发送查询任务请求；查询引擎QE被配置为，在从多个业务服务器中的一个或多个接收到查询任务请求时，查询动态更新的表，以获得关于高发生率的缺陷的信息，并将关于高发生率的缺陷的信息发送到多个业务服务器中的一个或多个；在接收到关于高发生率的缺陷的信息时，多个业务服务器中的一个或多个被配置为将信息发送到数据可视化和交互界面；数据可视化和交互界面DI被配置为显示关于高发生率的缺陷和与高发生率的缺陷相关联的多个环境因素的信息，并且被配置为接收对来自多个环境因素中的一个或多个环境因素的用户定义的选择，并且将用户定义的选择发送到多个业务服务器中的一个或多个；多个业务服务器中的一个或多个被配置为基于信息和用户定义的选择来生成缺陷分析任务；多个业务服务器中的一个或多个被配置为将缺陷分析任务发送到负载平衡器LB，以将缺陷分析任务分配给多个算法服务器中的一个或多个，从而实现多个算法服务器之间的负载平衡；在接收到缺陷分析任务时，多个算法服务器中的一个或多个被配置为直接从数据集市DMT获得数据以执行缺陷分析；以及在完成缺陷分析时，多个算法服务器中的一个或多个被配置为将缺陷分析的结果发送到通用数据层GDL。

参考图11，在一些实施例中，数据可视化和交互界面DI包括交互式任务子界面SUB2，其允许输入用户定义的分析标准，包括对一个或多个环境因素的用户定义的选择。在一个示例中，用户可在交互式任务子界面SUB2中逐级过滤各种环境因素，包括数据源、工厂、制造站点、模型、产品型号、批次等。多个业务服务器BS中的一个或多个被配置为基于关于高发生率的缺陷的信息和对一个或多个环境因素的用户定义的选择来生成缺陷分析任务。分析器AZ与通用数据层GDL连续地交互，并使所选择的一个或多个环境因素显示在交互式任务子界面SUB2上。交互式任务子界面SUB2允许用户基于用户的经验将环境因素限制到几个，例如，某些选择的设备或某些选择的参数。

在一些实施例中，通用数据层GDL被配置为基于不同主题来生成表。在一个示例中，表包括包含履历信息的跟踪表，该履历信息包含玻璃或面板在整个制造过程中已经通过的站点和设备的信息。在另一示例中，该表包括dv表，其包含由设备上传的参数信息。在另一示例中，如果用户仅想要分析设备相关性，则用户可以选择跟踪表进行分析。在另一示例中，如果用户仅想要分析设备参数，则用户可以选择dv表进行分析。

参考图11，在一些实施例中，分析器AZ还包括缓存服务器CS和缓存C。缓存C连接到多个业务服务器BS、缓存服务器CS和查询引擎QE。缓存C被配置为存储先前执行的缺陷分析任务的结果的一部分。在一些实施例中，数据可视化和交互界面DI还包括缺陷可视化子界面SUB-3。在一个实施例中，缺陷可视化子界面SUB-3的主要功能是允许用户定制查询，并在用户点击缺陷代码时显示先前执行的缺陷分析任务的对应结果。在一个示例中，用户点击缺陷代码，并且***经由负载平衡器LB将请求发送到多个业务服务器BS中的一个或多个。多个业务服务器BS中的一个或多个首先查询缓存在缓存C中的结果数据，并且如果缓存的结果数据存在，则***直接显示缓存的结果数据。如果与所选择的缺陷代码对应的结果数据当前没有被缓存在缓存C中，则查询引擎QE被配置为向通用数据层GDL查询与所选择的缺陷代码对应的结果数据。一旦被查询，***就将对应于所选择的缺陷代码的结果数据缓存在缓存C中，该结果数据可用于对相同缺陷代码的下一次查询。

图15示出了根据本公开的一些实施例中的使用智能缺陷分析***的智能缺陷分析方法。参考图15，在一些实施例中，缺陷可视化子界面DI被配置为接收对要分析的缺陷的用户定义的选择，并生成调用请求；负载平衡器LB被配置为接收调用请求并且被配置为将调用请求分配给多个业务服务器中的一个或多个，以实现多个业务服务器之间的负载平衡；多个业务服务器中的一个或多个被配置为将调用请求发送到缓存服务器；并且缓存服务器被配置为确定关于要分析的缺陷的信息是否存储在缓存中。可选地，在确定关于要分析的缺陷的信息存储在缓存中时，多个业务服务器中的一个或多个被配置为将关于要分析的缺陷的信息发送到缺陷可视化子界面以用于显示。可选地，在确定关于要分析的缺陷的信息未存储在缓存中时，多个业务服务器中的一个或多个被配置为向查询引擎发送查询任务请求；查询引擎被配置为，在从多个业务服务器中的一个或多个接收到查询任务请求时，查询动态更新的表，以获得关于要分析的缺陷的信息，并且将关于要分析的缺陷的信息发送到缓存；缓存被配置为存储关于要分析的缺陷的信息；多个业务服务器中的一个或多个被配置为将要分析的缺陷的信息发送至缺陷可视化子界面进行显示。

可选地，先前执行的缺陷分析任务的结果的部分包括基于自动重复任务请求的先前执行的缺陷分析任务的结果。可选地，先前执行的缺陷分析任务的结果的部分包括基于自动重复任务请求的先前执行的缺陷分析任务的结果；以及基于查询任务请求获得的先前执行的缺陷分析任务的结果。

通过具有缓存服务器CS，可以满足对***响应速度的高要求(例如，显示与缺陷代码相关联的结果)。在一个示例中，通过自动重复任务请求，每半小时可以生成多达40个任务，其中，每个任务与多达五个不同的缺陷代码相关联，并且每个缺陷代码与多达100个环境因素相关联。若全部分析结果被缓存，则在缓存C中必须存储总数为40*5*100＝20000次的查询，这将给集群存储器带来很大压力。在一个示例中，先前执行的缺陷分析任务的结果的部分被限制为与前三个排名最高的缺陷代码相关联的结果，并且仅缓存该部分。

用于缺陷分析的各种适当方法可以由本文所述的智能缺陷分析***的多个算法服务器中的一个或多个来实现。图18示出了根据本公开的一些实施例中的缺陷分析方法。参考图18，在一些实施例中，该方法包括获得包括缺陷信息的制造数据信息；根据制造节点组，将制造数据信息分类成多组数据，该多组数据中的各组数据与该制造节点组中的各个制造节点组相关联；计算制造节点组的证据权重以获得多个证据权重，其中证据权重表示在各个制造节点组中的缺陷的占比相对于全部制造节点组中的缺陷的占比之间的差异性；基于多个证据权重对多组数据进行排序；获得基于多个证据权重排序的多组数据的列表；以及对多组数据中的一个或多个所选择的组执行缺陷分析。可选地，各个制造节点组包括从由制造过程、设备、站点和工艺区段组成的组中选择的一个或多个。可选地，可以从数据集市DMT获得制造数据信息。可选地，可以从通用数据层GDL获得制造数据信息。

可选地，该方法包括处理包括履历数据信息、缺陷信息的制造数据信息，以获得处理数据；根据设备组，将处理数据分类成多组数据，该多组数据中的各组数据与设备组中的各个设备组相关联；计算设备组的证据权重，得到多个证据权重；基于多个证据权重对多组数据进行排序；以及对多组数据中具有最高排名的一个或多个组执行缺陷分析。可选地，在参数水平上执行缺陷分析。

在一些实施例中，根据等式(2)计算各个设备组的各个证据权重：

其中，woei表示各个设备组的各个证据权重；P(yi)表示在各个设备组中的正样本的数目与在所有制造节点组(例如，设备组)中的正样本的数目的比；P(ni)表示在各个设备组中的负样本的数目与在所有制造节点组(例如，设备组)中的负样本的数目的比；正样本表示包括与各个设备组相关联的缺陷信息的数据；负样本表示其中不存在与各个设备组相关联的缺陷信息的数据；#yi表示在各个设备组中的正样本的数目；#yr表示在所有制造节点组(例如，设备组)中的正样本的数目；#ni表示在各个设备组中的负样本的数目；#yr表示所有制造节点组(例如，设备组)中的负样本的数目。

在一些实施例中，该方法进一步包括处理该制造数据信息以获得处理数据。可选地，处理制造数据信息包括对履历数据信息和缺陷信息执行数据融合以获得融合数据信息。

在一个示例中，处理制造数据信息以获得处理数据包括获得显示面板的各个制造过程的原始数据信息，包括履历数据信息、参数信息和缺陷信息；对原始数据进行预处理以去除空值数据、冗余数据和虚拟字段，并且基于预设条件对数据进行过滤以获得验证数据；对验证数据中的履历数据信息和缺陷信息进行数据融合，以获得第三融合数据信息；确定融合后的数据信息中的任一条缺陷信息是否包含同一条机检缺陷信息和人工审核缺陷信息，将人工审核缺陷信息(而不是机检缺陷信息)标识为待分析的缺陷信息，从而生成审核后的数据；对审核数据和履历数据信息进行数据融合，以获得第四融合数据信息；从第四融合数据信息中去除非代表性数据，以获得处理后的数据。例如，可以消除在玻璃通过非常少量的设备的过程中生成的数据。当玻璃通过的设备的数量仅占设备总数的小的占比(例如，10％)时，非代表性数据将使分析偏离，从而影响分析的准确性。

在一个示例中，履历数据信息(用于与审核数据融合以获得第四融合数据信息)包括玻璃数据和hglass数据(半玻璃数据，即，在整个玻璃被切成两半之后的历史数据)。然而，审核后的数据是面板数据。在一个示例中，在fab(制造)阶段的glass_id/hglass_id与在EAC2阶段的panel_id融合，其中冗余数据被移除。此步骤的目的是确保在fab阶段的履历数据信息与在EAC2阶段的缺陷信息一致。例如，glass_id/hglass_id中的比特数量与panel_id中的比特数量不同。在一个示例中，panel_id中的比特数被处理成与glass_id/hglass_id中的比特数一致。数据融合后，获得信息完整的数据，包括glass_id/hglass_id、站点信息、设备信息、缺陷信息。可选地，融合后的数据经受附加操作以移除冗余数据项。

在一些实施例中，执行缺陷分析包括对各种类型的参数执行特征抽取以生成参数特征信息，其中针对每种类型的参数抽取最大值、最小值、平均值和中值中的一个或多个。可选地，执行特征抽取包括执行时域分析以抽取统计信息，该统计信息包括计数、平均值、最大值、最小值、范围、方差、偏差、峰度和百分位中的一个或多个。可选地，执行特征抽取包括执行频域分析以将在时域分析中获得的时域信息转换成包括功率谱、信息熵和信噪比中的一个或多个的频域信息。

在一个示例中，对基于多个证据权重排序的多组数据的列表执行特征抽取。在另一示例中，对具有最高排名的多组数据中的一个或多个组执行特征抽取。在另一示例中，对具有最高排名的数据组执行特征抽取。

在一些实施例中，执行缺陷分析还包括对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息中的至少两个执行数据融合。可选地，执行数据融合包括对参数特征信息和与其相关联的缺陷信息执行数据融合。可选地，执行数据融合包括对参数特征信息、制造过程的履历信息和与其相关联的缺陷信息执行数据融合。在另一示例中，对参数特征信息与制造过程的履历信息执行数据融合，得到第一融合数据信息；对第一融合数据信息与其关联的缺陷信息执行数据融合，得到第二融合数据信息，第二融合数据信息包括玻璃序列号、制造站点信息、设备信息、参数特征信息和缺陷信息。在一些实施例中，例如，通过构建表在通用数据层GDL中执行数据融合，该表具有根据如上所述的用户需求或主题构造的相关性。

在一些实施例中，该方法还包括执行相关性分析。图19示出了根据本公开的一些实施例中的缺陷分析方法。参见图19，在一些实施例中，该方法包括从第二融合数据信息中抽取参数特征信息和缺陷信息；针对每种类型的参数，对参数特征信息和缺陷信息执行相关性分析；分别针对多种类型的参数，生成多个相关系数；以及对多个相关系数的绝对值排序。在一个示例中，多个相关系数的绝对值按照从最大到最小的顺序排列，使得可以视觉地观察导致缺陷出现的相关参数。这里使用绝对值是因为相关系数可以是正值或负值，即，在参数和缺陷之间可以存在正或负相关。绝对值越大，相关性越强。

在一些实施例中，多个相关系数是多个皮尔逊相关系数。可选地，根据等式(3)计算各个皮尔逊相关系数：

其中x表示参数特征的值；y表示缺陷存在或不存在的值，当存在缺陷时，y被赋予值1，并且当不存在缺陷时，y被赋予值0；μ_x表示x的平均值；μ_y表示y的平均值；σ_xσ_y表示x和y的相应标准差的乘积；cov(x,y)表示x，y的协方差；并且ρ(x,y)表示各个皮尔逊相关系数。

在另一方面，本公开提供了一种由分布式计算***执行的智能缺陷分析方法，所述分布式计算***包括一个或多个联网计算机，所述一个或多个联网计算机被配置为并行执行，以执行至少一个共同任务。在一些实施例中，该方法包括：执行数据管理平台，其被配置为存储数据并智能地抽取、转换或加载数据；执行查询引擎，其连接到数据管理平台且被配置为直接从所述数据管理平台直接获得数据；执行分析器，其连接到查询引擎且被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个后端服务器和多个算法服务器，所述多个算法服务器被配置为从所述数据管理平台获得数据；以及执行数据可视化和交互界面，其被配置为生成所述任务请求。

在一些实施例中，数据管理平台包括ETL模块，其被配置为将来自多个数据源的数据抽取、转换、或加载到数据集市和通用数据层上。在一些实施例中，该方法还包括：在由多个算法服务器中的相应一个接收到分配的任务时，由多个算法服务器中的相应一个直接从数据集市查询第一数据；以及在执行缺陷分析时，通过所述多个算法服务器中的相应一个将第二数据直接发送到所述通用数据层。

在一些实施例中，所述方法还包括由所述ETL模块生成周期性地自动更新的动态更新的表；将动态更新的表存储在通用数据层中。

在一些实施例中，软件模块还包括连接到分析器的负载平衡器。在一些实施例中，该方法还包括由负载平衡器接收任务请求，并且由负载平衡器将任务请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡，并且由负载平衡器将来自多个后端服务器的任务分配给多个算法服务器中的一个或多个，以实现多个算法服务器之间的负载平衡。

在一些实施例中，该方法还包括由数据可视化和交互界面生成任务请求；由负载平衡器接收任务请求，并且由负载平衡器将任务请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡；由多个后端服务器中的一个或多个向查询引擎发送查询任务请求；在由查询引擎从多个后端服务器中的一个或多个接收到查询任务请求时，由查询引擎查询动态更新的表以获得关于高发生率的缺陷的信息；由查询引擎将关于高发生率的缺陷的信息发送到多个后端服务器中的一个或多个；由多个后端服务器中的一个或多个将缺陷分析任务发送到负载平衡器，以将缺陷分析任务分配给多个算法服务器中的一个或多个，以实现多个算法服务器之间的负载平衡；在由多个算法服务器中的一个或多个接收到缺陷分析任务时，由多个算法服务器中的一个或多个直接从数据集市查询数据，以执行缺陷分析；以及在完成缺陷分析时，由多个算法服务器中的一个或多个将缺陷分析的结果发送到通用数据层。

在一些实施例中，该方法还包括生成自动重复任务请求。该自动重复任务请求定义了要执行缺陷分析的重复周期。可选地，该方法还包括由查询引擎查询动态更新的表以获得关于限于重复周期的高发生率的缺陷的信息；以及在接收到关于在重复周期期间的高发率的缺陷的信息时，由多个后端服务器中的一个或多个基于关于在重复周期期间的高发生率的缺陷的信息来生成缺陷分析任务。可选地，该方法还包括例如，通过数据可视化和交互界面的自动任务子界面接收要执行缺陷分析的重复周期的输入。

在一些实施例中，该方法还包括生成交互式任务请求。可选地，该方法还包括通过数据可视化和交互界面接收用户定义的分析标准；由数据可视化和交互界面，基于用户定义的分析标准，来生成交互式任务请求；由多个后端服务器中的一个或多个，在接收到关于高发生率的缺陷的信息时，将信息发送到数据可视化和交互界面；通过数据可视化和交互界面，显示关于高发生率的缺陷的信息和与高发生率的缺陷相关联的多个环境因素；由数据可视化和交互界面接收对来自多个环境因素中的一个或多个环境因素的用户定义的选择；由数据可视化和交互界面将用户定义的选择发送到多个后端服务器中的一个或多个；以及由多个后端服务器中的一个或多个，基于信息和用户定义的选择来生成缺陷分析任务。可选地，该方法还包括例如通过数据可视化和交互界面的交互式任务子界面接收用户定义的分析标准的输入，该用户定义的分析标准包括对一个或多个环境因素的用户定义的选择。

在一些实施例中，分析器还包括缓存服务器和缓存。缓存连接到多个后端服务器、缓存服务器和查询引擎。可选地，该方法还包括由缓存存储先前执行的缺陷分析任务的结果的一部分。

在一些实施例中，数据可视化和交互界面包括缺陷可视化子界面。可选地，该方法还包括通过缺陷可视化子界面接收对要分析的缺陷的用户定义的选择，并生成调用请求；由负载平衡器接收调用请求；由负载平衡器将调用请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡；由多个后端服务器中的一个或多个将调用请求发送到缓存服务器；以及由缓存服务器确定关于要分析的缺陷的信息是否存储在缓存中。可选地，该方法还包括在确定关于要分析的缺陷的信息存储在缓存中时，多个后端服务器中的一个或多个被配置为将关于要分析的缺陷的信息发送到缺陷可视化子界面以用于显示。可选地，该方法还包括在确定关于要分析的缺陷的信息未存储在缓存中时，由多个后端服务器中的一个或多个向查询引擎发送查询任务请求；在从多个后端服务器中的一个或多个接收到查询任务请求时，由查询引擎查询动态更新的表以获得关于要分析的缺陷的信息；由查询引擎将关于要分析的缺陷的信息发送到缓存；将关于要分析的缺陷的信息存储在缓存中；以及由多个后端服务器中的一个或多个将关于要分析的缺陷的信息发送到缺陷可视化子界面以用于显示。可选地，先前执行的缺陷分析任务的结果的所述部分包括基于自动重复任务请求的先前执行的缺陷分析任务的结果；以及基于查询任务请求获得的先前执行的缺陷分析任务的结果。

在另一方面，本公开提供了一种用于智能缺陷分析的计算机程序产品。用于智能缺陷分析的计算机程序产品包括其上具有计算机可读指令的非暂时性有形计算机可读介质。在一些实施例中，计算机可读指令可由分布式计算***中的处理器执行，以使得处理器执行：执行数据管理平台，该数据管理平台被配置为存储数据，并且智能地抽取、转换或加载数据；执行查询引擎，所述查询引擎连接到所述数据管理平台并且被配置为直接从所述数据管理平台获得所述数据；执行分析器，所述分析器连接到所述查询引擎并且被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个后端服务器和多个算法服务器，所述多个算法服务器被配置为直接从所述数据管理平台获得所述数据；以及执行数据可视化和交互界面，其被配置为生成任务请求，其中，该分布式计算***包括被配置为并行执行以执行至少一个共同任务的一个或多个联网计算机。

在一些实施例中，数据管理平台包括ETL模块，其被配置为将来自多个数据源的数据抽取、转换、或加载到数据集市和通用数据层上。在一些实施例中，计算机可读指令进一步可由分布式计算***中的处理器执行，以使得处理器执行：在由多个算法服务器中的相应一个接收到分配的任务时，由多个算法服务器中的相应一个直接从数据集市查询第一数据；以及在执行缺陷分析时，通过所述多个算法服务器中的相应一个将第二数据直接发送到所述通用数据层。

在一些实施例中，计算机可读指令还可由分布式计算***中的处理器执行，以使处理器执行由ETL模块生成周期性地自动更新的动态更新的表；且将动态更新的表存储在通用数据层中。

在一些实施例中，软件模块还包括连接到分析器的负载平衡器。在一些实施例中，计算机可读指令进一步可由分布式计算***中的处理器执行，以使得处理器执行：由负载平衡器接收任务请求，并且由负载平衡器将任务请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡，并且由负载平衡器将来自多个后端服务器的任务分配给多个算法服务器中的一个或多个，以实现多个算法服务器之间的负载平衡。

在一些实施例中，计算机可读指令进一步可由分布式计算***中的处理器执行，以使得处理器执行：由数据可视化和交互界面生成任务请求；由负载平衡器接收任务请求，并且由负载平衡器将任务请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡；由多个后端服务器中的一个或多个向查询引擎发送查询任务请求；在由查询引擎从多个后端服务器中的一个或多个接收到查询任务请求时，由查询引擎查询动态更新的表以获得关于高发生率的缺陷的信息；由查询引擎将关于高发生率的缺陷的信息发送到多个后端服务器中的一个或多个；由多个后端服务器中的一个或多个将缺陷分析任务发送到负载平衡器，以将缺陷分析任务分配给多个算法服务器中的一个或多个，以实现多个算法服务器之间的负载平衡；在由多个算法服务器中的一个或多个接收到缺陷分析任务时，由多个算法服务器中的一个或多个直接从数据集市查询数据，以执行缺陷分析；以及在完成缺陷分析时，由多个算法服务器中的一个或多个将缺陷分析的结果发送到通用数据层。

在一些实施例中，计算机可读指令进一步可由分布式计算***中的处理器执行，以使得处理器执行：生成自动重复任务请求。该自动重复任务请求定义了要执行缺陷分析的重复周期。可选地，计算机可读指令进一步可由分布式计算***中的处理器执行，以使得处理器执行：由查询引擎查询动态更新的表以获得关于限于重复周期的高发生率的缺陷的信息；以及在接收到关于在重复周期期间的高发率的缺陷的信息时，由多个后端服务器中的一个或多个基于关于在重复周期期间的高发生率的缺陷的信息来生成缺陷分析任务。可选地，计算机可读指令进一步可由分布式计算***中的处理器执行，以使得处理器执行：例如，通过数据可视化和交互界面的自动任务子界面接收要执行缺陷分析的重复周期的输入。

在一些实施例中，计算机可读指令进一步可由分布式计算***中的处理器执行，以使得处理器执行：生成交互式任务请求。可选地，计算机可读指令进一步可由分布式计算***中的处理器执行，以使得处理器执行：由数据可视化和交互界面接收用户定义的分析标准；由数据可视化和交互界面基于用户定义的分析标准来生成所述交互式任务请求；由多个后端服务器中的一个或多个在接收到关于高发生率缺陷的信息时将信息发送到数据可视化和交互界面；通过数据可视化和交互界面显示关于高发生率的缺陷的信息和与高发生率缺陷相关联的多个环境因素；由数据可视化和交互界面接收对来自多个环境因素中的一个或多个环境因素的用户定义的选择；由数据可视化和交互界面将用户定义的选择发送到多个后端服务器中的一个或多个；以及由多个后端服务器中的一个或多个，基于信息和用户定义的选择来生成缺陷分析任务。可选地，计算机可读指令进一步可由分布式计算***中的处理器执行，以使得处理器执行：例如通过数据可视化和交互界面的交互式任务子界面接收用户定义的分析标准的输入，该用户定义的分析标准包括对一个或多个环境因素的用户定义的选择。

在一些实施例中，分析器还包括缓存服务器和缓存。缓存连接到多个后端服务器、缓存服务器和查询引擎。可选地，计算机可读指令还可由分布式计算***中的处理器执行，以使处理器执行：由缓存存储先前执行的缺陷分析任务的结果的一部分。

在一些实施例中，数据可视化和交互界面包括缺陷可视化子界面。可选地，计算机可读指令还可由分布式计算***中的处理器执行，以使处理器执行：通过缺陷可视化子界面接收对要分析的缺陷的用户定义的选择，并生成调用请求；由负载平衡器接收调用请求；由负载平衡器将调用请求分配给多个后端服务器中的一个或多个，以实现多个后端服务器之间的负载平衡；由多个后端服务器中的一个或多个将调用请求发送到缓存服务器；以及由缓存服务器确定关于要分析的缺陷的信息是否存储在缓存中。可选地，计算机可读指令还可由分布式计算***中的处理器执行，以使处理器执行：在确定关于要分析的缺陷的信息存储在缓存中时，多个后端服务器中的一个或多个被配置为将关于要分析的缺陷的信息发送到缺陷可视化子界面以用于显示。可选地，计算机可读指令还可由分布式计算***中的处理器执行，以使处理器执行：在确定关于要分析的缺陷的信息未存储在缓存中时，由多个后端服务器中的一个或多个向查询引擎发送查询任务请求；在从多个后端服务器中的一个或多个接收到查询任务请求时，由查询引擎查询动态更新的表以获得关于要分析的缺陷的信息；由查询引擎将关于要分析的缺陷的信息发送到缓存；将关于要分析的缺陷的信息存储在缓存中；以及由多个后端服务器中的一个或多个将关于要分析的缺陷的信息发送到缺陷可视化子界面以用于显示。可选地，先前执行的缺陷分析任务的结果的所述部分包括基于自动重复任务请求的先前执行的缺陷分析任务的结果；以及基于查询任务请求获得的先前执行的缺陷分析任务的结果。

结合本文所公开的配置而描述的各种说明性操作可被实施为电子硬件、计算机软件或两者的组合。这些操作可以用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件或设计成产生本文公开的配置的它们的任何组合来实现或执行。例如，这样的配置可以至少部分地被实现为硬连线电路、被制造到专用集成电路中的电路配置、或者被加载到非易失性存储中的固件程序、或者作为机器可读代码从数据存储介质加载或加载到数据存储介质中的软件程序，这样的代码是可由诸如通用处理器或其他数字信号处理单元的逻辑元件阵列执行的指令。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器也可以实现为计算装置的组合，例如DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP核结合、或者任何其它这种配置。软件模块可以驻留在非暂时性存储介质中，例如RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM)，例如闪存RAM、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移动磁盘或CD-ROM；或者以本领域已知的任何其它形式的存储介质。说明性存储介质耦合到处理器，使得处理器可从存储介质读取信息和将信息写入到存储介质。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留于用户终端中。

为了说明和描述的目的，已经给出了本发明的实施例的上述描述。其不是穷举的，也不是要将本发明限制为所公开的精确形式或示例性实施例。因此，前面的描述应当被认为是说明性的而不是限制性的。显然，许多修改和变化对于本领域技术人员将是显而易见的。选择和描述实施例是为了解释本发明的原理及其最佳模式实际应用，从而使得本领域技术人员能够理解本发明的各种实施例以及适合于所考虑的特定使用或实现的各种修改。本发明的范围旨在由所附权利要求及其等价物来限定，其中除非另有说明，否则所有术语都意味着其最广泛的合理意义。因此，术语“本发明(the invention、the presentinvention)”等不一定将权利要求范围限制为特定实施例，并且对本发明的示例性实施例的引用不意味着对本发明的限制，并且不应推断出这样的限制。本发明仅由所附权利要求的精神和范围来限定。此外，这些权利要求可能涉及使用“第一”、“第二”等，随后是名词或元素。这些术语应当被理解为命名法，并且不应当被解释为对由这些命名法所修改的元件的数量进行限制，除非已经给出了特定的数量。所描述的任何优点和益处可能不适用于本发明的所有实施例。应当理解，在不脱离由所附权利要求限定的本发明的范围的情况下，本领域技术人员可以对所描述的实施例进行改变。此外，本公开中的元件和组件都不是要贡献给公众，无论该元件或组件是否在所附权利要求中明确叙述。

Claims

1.一种用于缺陷分析的计算机实现的方法，包括：

关于在制造周期期间出现的缺陷，分别针对多个装置操作，计算多个证据权重(WOE)分数，较高的WOE分数指示缺陷和装置操作之间的较高的相关性；以及

将所述多个WOE分数排序，以获得与在所述制造周期期间出现的所述缺陷高度相关的所选择的装置操作的列表，所选择的装置操作的列表中的装置操作具有大于第一阈值分数的WOE分数，

其中，所述多个装置操作中的各个装置操作是由相应装置执行相应操作的相应操作站点定义的相应装置。

2.根据权利要求1所述的计算机实现的方法，还包括：

获得多个接触设备的候选接触区域，其中，所述多个接触设备中的各个接触设备是在所述制造周期期间在各个腔室中与中间基板接触的各个装置，并且各个候选接触区域包括各个理论接触区域和围绕各个理论接触区域的各个边缘区域；

分别获得在所述制造周期期间的缺陷点的坐标；

从所述候选接触区域中选择多个缺陷接触区域，所述多个缺陷接触区域中的各个缺陷接触区域包围所述缺陷点坐标中的至少一个；以及

获得所选择的接触设备的列表，其中，各个所选择的接触设备是在各个缺陷接触区域中与中间产品接触的各个接触设备。

3.根据权利要求2所述的计算机实现的方法，还包括基于与所述缺陷高度相关的所选择的装置操作的所述列表和所选择的接触设备的所述列表来获得一个或多个候选缺陷装置；

其中，所述一个或多个候选缺陷装置中的各个候选缺陷装置是所选择的接触设备的所述列表中的装置，并且还是所选择的装置操作的所述列表中的装置。

4.一种用于缺陷分析的设备，其包括：

存储器；

一个或多个处理器；

其中，所述存储器和所述一个或多个处理器彼此连接；以及

所述存储器存储计算机可执行指令，以用于控制所述一个或多个处理器以：

5.根据权利要求4所述的用于缺陷分析的设备，其中，所述存储器还存储计算机可执行指令，以用于控制所述一个或多个处理器以：

获得多个接触设备的候选接触区域，其中，所述多个接触设备中的各个接触设备是在所述制造周期期间在各个腔室中与中间产品接触的各个装置，并且各个候选接触区域包括各个理论接触区域和围绕各个理论接触区域的各个边缘区域；

分别获得在所述制造周期期间的缺陷点的坐标；

6.根据权利要求5所述的用于缺陷分析的设备，其中，所述存储器还存储计算机可执行指令，以用于控制所述一个或多个处理器以：基于与所述缺陷高度相关的所选择的装置操作的所述列表和所选择的接触设备的所述列表来获得一个或多个候选缺陷装置；

7.一种计算机程序产品，包括其上具有计算机可读指令的非暂时性有形计算机可读介质，所述计算机可读指令可由处理器执行以使所述处理器执行：

8.根据权利要求7所述的计算机程序产品，其中，所述计算机可读指令可由处理器执行以进一步使所述处理器执行：

分别获得在所述制造周期期间的缺陷点的坐标；

9.根据权利要求8所述的计算机程序产品，其中，所述计算机可读指令可由处理器执行以进一步使所述处理器执行：基于与所述缺陷高度相关的所选择的装置操作的所述列表和所选择的接触设备的所述列表来获得一个或多个候选缺陷装置；

10.一种智能缺陷分析***，包括：

分布式计算***，其包括一个或多个联网计算机，所述联网计算机被配置为并行执行，以执行至少一个共同任务；

一个或多个计算机可读存储介质，其存储指令，所述指令在由所述分布式计算***执行时使所述分布式计算***执行软件模块；

其中，所述软件模块包括：

数据管理平台，其被配置为将来自多个数据源的原始数据智能地抽取、转换或加载为管理数据，其中，所述原始数据和所述管理数据包括缺陷信息，并且所述管理数据以分布式方式被存储；

分析器，其被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个算法服务器，所述多个算法服务器被配置为从所述数据管理平台获得所述管理数据，并且对所述管理数据执行算法分析以得出关于缺陷的潜在原因的结果数据；以及

数据可视化和交互界面，其被配置为生成所述任务请求并显示所述结果数据；

其中，所述多个算法服务器中的一个或多个被配置为执行根据权利要求1至3中的任一项所述的计算机实现的方法。

11.一种评估缺陷出现的可能性的计算机实现的方法，包括：

获得关于在制造周期期间出现的缺陷的原始数据；

对所述原始数据进行预处理，以获得预处理后的数据；

从所述预处理后的数据中抽取特征，以获得抽取特征；

从所述抽取特征中选择主特征；

将所述主特征输入到预测模型中；以及

评估缺陷出现的可能性；

其中，从所述预处理后的数据抽取特征包括对所述预处理后的数据执行时域分析和频域分析中的至少一者。

12.根据权利要求11所述的计算机实现的方法，其中，所述时域分析抽取所述预处理后的数据的统计信息。

13.根据权利要求12所述的计算机实现的方法，其中，所述频域分析将在所述时域分析中获得的时域信息转换成频域信息。

14.根据权利要求11至13中任一项所述的计算机实现的方法，其中，从所述抽取特征中选择主特征包括对所述抽取特征执行主成分分析。

15.根据权利要求11至14中任一项所述的计算机实现的方法，其中，预处理所述原始数据包括：

从所述预处理后的数据中排除所述原始数据的缺失大于等于阈值占比的值的第一部分；以及

对于所述原始数据的缺失小于所述阈值占比的值的第二部分，提供缺失值的插值。

16.根据权利要求11至15中任一项所述的计算机实现的方法，其中，所述预测模型通过以下来训练：

获得关于在训练制造周期期间出现的缺陷的训练原始数据；

对所述训练原始数据进行预处理，得到预处理后的训练数据；

从所述预处理后的训练数据中抽取特征，以获得抽取的训练特征；

从所述抽取的训练特征中选择主训练特征；以及

使用所述抽取的训练特征来调整初始模型的参数，以获得用于缺陷预测的所述预测模型，

其中，从所述预处理后的训练数据抽取训练特征包括对所述预处理后的训练数据执行时域分析和频域分析中的至少一个。

17.根据权利要求16所述的计算机实现的方法，其中，所述初始模型是极端梯度提升(XGboost)模型。

18.根据权利要求16或17所述的计算机实现的方法，其中，调整所述初始模型的参数包括根据等式(1)来评估F度量：

19.一种智能缺陷分析***，包括：

其中，所述软件模块包括：

数据管理器，其被配置为存储数据，且智能地抽取、转换或加载所述数据；

查询引擎，其连接到所述数据管理器并且被配置为直接从所述数据管理器查询所述数据；

分析器，其连接到所述查询引擎，并且被配置为在接收到任务请求时执行缺陷分析，所述分析器包括多个业务服务器和多个算法服务器，所述多个算法服务器被配置为直接从所述数据管理器查询所述数据；以及

数据可视化和交互界面，其被配置为生成所述任务请求；

其中，所述多个算法服务器中的一个或多个被配置为执行根据权利要求11至18中任一项所述的计算机实现的方法。