CN101330030B

CN101330030B - 检测数据中异常点的去除方法

Info

Publication number: CN101330030B
Application number: CN2007100423453A
Authority: CN
Inventors: 杨斯元; 龚斌; 简维廷
Original assignee: Semiconductor Manufacturing International Shanghai Corp
Current assignee: Semiconductor Manufacturing International Shanghai Corp
Priority date: 2007-06-21
Filing date: 2007-06-21
Publication date: 2010-09-29
Anticipated expiration: 2027-06-21
Also published as: CN101330030A

Abstract

本发明公开了一种检测数据中异常点的去除方法，包括步骤：提供至少五个检测数据；设定置信度及预计异常点数目；根据预计异常点数目计算偏离值；根据检测数据数目、置信度及预计异常点数目确定临界值；比较所述偏离值与所述临界值；根据比较结果确定实际异常点数目；根据实际异常点数目去除检测数据中的异常点数据。采用本发明的异常点的去除方法对检测数据进行异常点去除，可以提高异常点去除的准确性，并得到更准确的数据拟合结果，提高了半导体工艺监测的有效性。

Description

检测数据中异常点的去除方法

技术领域

本发明涉及半导体制造技术领域，特别涉及一种检测数据中异常点的去除方法。

背景技术

集成电路制作工艺是一种平面制作工艺，其结合光刻、刻蚀、沉积、离子注入等多种工艺，在同一衬底上形成大量各种类型的复杂器件，并将其互相连接以具有完整的电子功能。其中，任一步工艺出现问题，都可能会导致电路的制作失败，因此，在现有技术中，常会对各步工艺的制作结果进行检测，如对薄膜的生长厚度、刻蚀的深度、光刻套刻的精度、器件的寿命等的检测，并针对检测得到的数据进行分析，判断各步工艺及制作出的各种器件的性能是否正常，以尽早发现工艺中所出现的问题。对于工艺中所出现的问题，越早发现，损失就会越小。

为更好地对检测数据进行分析，2006年5月10日公开的公开号为CN1770417A的中国专利申请提出了一种缺陷检测及分类***的数据分析方法，该方法从原始数据中选取需进行分析的数据，对其进行统计分析，再以图表的方式表现出来，以帮助管理者检测设备是否存在问题。但是该方法中并未涉及如何判断数据中是否存在异常点(outlier)，以及对数据中的异常点如何进行处理的问题。

所谓异常点是指在实际检测所测得的数据中，经常会包含的一些显著不同于其它数据的数据值，该类数据值与其他数据偏离较远，可能引起较大的残差，并极大地影响回归拟合的效果。异常点对于整个回归模型来讲只是特殊情况，但因其通常都是一些数值比其它数据要大很多或者小很多的样本，这些样本对整个模型拟合的影响十分大。

图1为包含异常点的数据分布情况示意图，图2为去除异常点后的数据分布情况示意图，如图1、2所示，两图中的左半部100和200表示的是检测数据的柱状分布图，右半部110和210表示的是以对应数据集为基础进行拟合的结果。可以看到，因为图1的数据点与图2的数据点相比，多包含了一个异常点101，而该异常点的值远远偏离了其他的数据点102，这导致两图中的分布曲线103和203不再相同。另外，由图1、图2右半部的拟合结果中可以更明显地看到异常点对于检测结果的影响。包含异常点的图1中对应的拟合线111的斜率，明显不同于不包含异常点的图2中对应的拟合线211的斜率，前者为0.8373，后者为0.955545。而这一拟合结果的不同，会直接影响到能否正确判断工艺是否超出控制(OOC，Out ofControl)，严重时，甚至会导致当工艺已偏离至超出规格(OOS，Out ofSpec)时，仍不能由检测数据的结果得出结论。

因此，如何能在检测数据分析过程中正确地去除异常点，得到更能反映一般性规律的数据模型，对于正确地判断半导体工艺中是否存在问题非常关键。

目前，在工业领域中常用的异常点去除方法是Grubb方法，该方法先对检测得到的数据进行排序，然后，针对所有数据中的一个端值进行计算，判断其是否为异常点。但是，该方法只能对单一的异常点进行计算分析，对于“伪装”(masking)的异常点，如有两个相邻的异常点的情况，其可能会无法分辨，出现漏判，从而使统计的分布结果出现偏差，而这对于及时发现半导体工艺中的问题是不利的。

随着集成电路的制作向超大规模集成电路(ULSI，Ultra Large ScaleIntegration)发展，器件的关键尺寸不断缩小，对各步工艺的要求不断提高，相应地，对各步工艺及器件性能的检测及分析的要求也更为严格，而现有的Grubb异常点去除方法已不能满足半导体工艺中分析检测数据时的精度要求。为此，希望能够提出一种新的异常点去除方法，以更准确地对检测数据中的异常点进行去除，得到更为准确的分析结果，更好地实现对半导体工艺的监测。

发明内容

本发明提供一种检测数据中异常点的去除方法，以改善现有的检测数据分析过程中异常点去除不准确的问题。

本发明提供的一种检测数据中异常点的去除方法，包括步骤：

提供至少五个检测数据；

设定置信度及预计异常点数目，且所述预计异常点数目大于或等于2；

计算所述检测数据的平均值，得到第一平均值；

计算每一个所述检测数据与所述第一平均值的差值，并平方相加得到第一平方和；

根据预计异常点数目将所述检测数据分为预计异常点数据和非预计异常点数据；

计算所述非预计异常点数据的平均值，得到第二平均值；

计算每一个所述非预计异常点数据与所述第二平均值的差值，并平方相加得到第二平方和；

计算所述第二平方和与所述第一平方和的比值，得到偏离值；

根据所述检测数据的数目、置信度及预计异常点数目确定临界值；

比较所述偏离值与所述临界值；

根据所述比较结果确定实际异常点数目；

根据所述实际异常点数目去除所述检测数据中的异常点数据。

其中，所述设定预计异常点数目将预计异常点数据设定为固定值，且所述固定值小于或等于所述检测数据总数的二分之一。

其中，确定实际异常点数目由以下步骤实现：

当所述偏离值小于所述临界值时，将所述预计异常点数目加1，再重复进行由所述得到第一平均值到所述比较偏离值与临界值的步骤，直到偏离值大于临界值为止，确定实际异常点数目等于此时对应的预计异常点数目减1；

当所述偏离值大于所述临界值时，将所述预计异常点数目减1，再重复进行由所述得到第一平均值到所述比较偏离值与临界值的步骤，直到偏离值小于临界值为止，确定实际异常点数目等于此时对应的预计异常点数目。

其中，在所述设定预计异常点数目之前，还包括观察所述检测数据确定预计异常点数目的步骤。此时，确定实际异常点数目由以下步骤实现：

当所述偏离值小于所述临界值时，确定实际异常点数目等于此时对应的预计异常点数目；

当所述偏离值大于所述临界值时，重新观察所述检测数据，重新设定预计异常点数目，再重复进行由所述得到第一平均值到所述比较偏离值与临界值的步骤，直至计算得到的所述偏离值小于所述临界值为止，确定实际异常点数目等于此时对应的预计异常点数目。

另外，在所述将所述检测数据分为预计异常点数据和非预计异常点数据的步骤由以下步骤实现：

分别计算每一个所述检测数据与所述第一平均值的差值的绝对值；

将所述检测数据按所述绝对值由小到大的顺序进行排序；

按照所述预计异常点数目将排序后的所述检测数据中位于后面的数据定义为预计异常点数据，其余的所述检测数据定义为非预计异常点数据。

其中，所述去除异常点数据是由排序后的检测数据中去除异常点数据。

如果在对所述检测数据进行排序时，还记录了各所述检测数据在排序前后的对应关系，则所述去除异常点数据也可以是由排序前的检测数据中去除异常点数据。

本发明的去除方法中所述的检测数据是测得的薄膜厚度、刻蚀深度、器件电性能参数、光刻套刻精度及器件可靠性参数中的一种。

本发明的去除方法中所述异常点分别位于所述检测数据的上、下限的两侧。

与现有技术相比，本发明具有以下优点：

本发明的检测数据中异常点的去除方法，利用Tietjen&Moore方法对检测数据进行异常点的去除分析，实现对多个异常点的分析，防止了因异常点间的关联性而导致的异常点漏判的问题，提高了异常点去除的准确性。并因此可以得到更准确的统计分布结果，提高了监测半导体工艺的有效性。

本发明的检测数据中异常点的去除方法，可用于处理多种异常点情况，如可以用于传统方法一般不适用的在检测数据的上、下限均可能出现异常点的情况，对异常点的分析判断更为全面，并可以提高对检测数据进行统计分析的准确性。

本发明的检测数据中异常点的去除方法，既可以结合观察及经验对确定的异常点数进行验证，也可以利用设定初始预计异常点数目，并逐渐增大的方法对实际异常点数目进行循环计算，直至得到实际的异常点数目，防止了因主观臆断带来的误判问题。

本发明的检测数据中异常点的去除方法，可以利用数据库程序自动实现，操作起来方便、灵活、快捷。

附图说明

图1为包含异常点的数据分布情况示意图；

图2为去除异常点后的数据分布情况示意图；

图3为说明本发明第一实施例的异常点去除方法的流程图；

图4为本发明第一实施例中的检测数据分布示意图；

图5为说明本发明第一实施例的偏离值计算的流程图；

图6为说明本发明第三实施例的异常点去除方法的流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

本发明的处理方法应用广泛，下面是通过具体的实施例来加以说明，当然本发明并不局限于以下的具体实施例，本领域内的普通技术人员所熟知的一般的替换无疑地涵盖在本发明的保护范围内。

检测数据中，异常点的存在会严重影响由检测数据推出的数学模型。因此，在实际应用中常需要对检测数据中的异常点进行去除。异常点产生的原因很多，其中大多数都是由人为错误所造成，比如数据登记错误，数据测量误差，工艺的操作错误等，这类因人为因素导致的异常点应该从数据中去除。另外，表现为异常点的数据也有可能是现实中客观存在的数据，如某一工艺的设备老化后其工艺结果也可能会发生逐渐的偏差直至远远偏离正常数据集，这类因客观因素导致的异常点不应该单纯地将其去除，需要对其进行分析，判断产生的原因，如果直接将代表设备问题的异常点去除，可能会导致工艺问题被掩蔽，不能及时发现并解决。

正因为异常点的产生原因很多，数据中的异常点的表现形式也是多种多样的，在一组检测数据中，异常点可能出现在检测数据的上限，可能出现在检测数据的下限，还可能同时会出现多个异常点，且多个异常点之间还可能存在“伪装”现象，这些都给异常点的发现及判断带来了困难。

为提高对复杂的异常点进行去除的准确性，本发明公开了一种异常点的去除方法，该方法利用Tietjen&Moore方法对检测数据中的异常点进行了分析判断，图3为说明本发明第一实施例的异常点去除方法的流程图，下面结合图3详细介绍本发明第一实施例的异常点去除方法。

首先，对工艺结果或器件参数进行检测，提供至少五个检测数据(S301)。本实施例中，该检测是针对光刻工艺的自动套刻结果进行的，得到的检测数据为上、下两层光刻图形间套刻的偏移量。假设本次检测共得到15个数据点(单位：μm)，表1为本发明第一实施例中的检测数据列表。

表1 检测数据列表

x<sub>1</sub>	-1.40	x<sub>9</sub>	0.20
x<sub>1</sub>	-1.40	x<sub>9</sub>	0.20	x<sub>2</sub>	-0.24	x<sub>10</sub>	0.63
x<sub>3</sub>	-0.05	x<sub>11</sub>	-0.30	x<sub>2</sub>	-0.24	x<sub>10</sub>	0.63
x<sub>3</sub>	-0.05	x<sub>11</sub>	-0.30	x<sub>4</sub>	0.18	x<sub>12</sub>	-0.13
x<sub>5</sub>	0.48	x<sub>13</sub>	0.10	x<sub>4</sub>	0.18	x<sub>12</sub>	-0.13
x<sub>5</sub>	0.48	x<sub>13</sub>	0.10	x<sub>6</sub>	-0.44	x<sub>14</sub>	0.39
x<sub>7</sub>	-0.22	x<sub>15</sub>	1.01	x<sub>6</sub>	-0.44	x<sub>14</sub>	0.39
x<sub>7</sub>	-0.22	x<sub>15</sub>	1.01	x<sub>8</sub>	0.06

下面对这15个检测数据进行具体分析计算，去除其中的异常点，保留符合一般规律的数据，以便能得到可以正确反映自动套刻机的套刻精度情况的拟合结果。

在进行数据分析之前，可以先设定置信度及预计异常点数目(S302)。其中，置信度的设定是由工艺要求决定的，具体可以设置为0.01、0.05、0.1等。对工艺检测准确性的要求越高，可以将置信度设定的越小。对于普通的半导体制造工艺，通常将置信度设置为0.05。

本实施例中所用的异常点去除方法通常适用于异常点数目大于或等于2的情况，对于具体如何设定预计异常点数目(k)通常可以有两种方法，一种是直接通过观察检测数据，确定最有可能的异常点数目，并将其设定为预计异常点数目(k)。图4为本发明第一实施例中的检测数据分布示意图，如图4所示，横坐标为检测数值，纵坐标为数据数目，图中数据的柱状分布401表明了在各个检测数值范围内的数据数目，如可以看到，检测数值在-0.3至-0.1之间的样品数为4个，在0.1到0.3之间为3个。由图4可以观察到可能的异常点分别位于两端，一个是-1.4，一个是1.01，其余的13个检测数据则相对集中，应该不属于异常点，因此，可以取预计异常点数目为2，以验证该两点是否都为异常点。

另一种则可以对于数量相同的数据，将预计异常点数目设定为固定值，该值通常要大于或等于2、小于或等于所述检测数据数目的二分之一。如：有50个检测数据，预计异常点数目(k)可以设置为2个至25个中的任一个。再如：本实施例中有15个检测数据，可以将预计异常点数目(k)设置为2至7个，如4个。注意到这一固定值的设置应当结合经验来设置，如果以往的检测数据中通常50个数据中的异常点数为5个，就可以直接将预计异常点数目(k)设置为5，以提高效率及准确性。

完成上述参数的设定后，可以针对异常点的分布情况，计算偏离值(S303)。本实施例中，检测数据中的异常点数目可能会大于或等于2，且可能分别位于检测数据的上、下限的两侧。此时，传统的Grubb方法并不适用，利用该方法对异常点进行去除分析，很可能会得到错误的结论。本发明采用了Tietjen&Moore方法针对异常点数目为预计异常点数目(k)的情况进行了偏离值的计算。

图5为说明本发明第一实施例的偏离值计算的流程图，下面结合图5对本发明第一实施例中的偏离值的计算过程进行详细介绍：

首先，计算检测数据x_i的平均值，得到第一平均值x(S501)。本实施例中，计算得到的

\overset{&OverBar;}{x} = Σ_{i = 1}^{n} x_{i} / n = 0.018 .

然后，计算各检测数据与第一平均值的差值，并平方后相加，得到第一平方和(S502)。本实施例中计算得到的第一平方和为：

Σ_{i = 1}^{n} {(x_{i} - \overset{&OverBar;}{x})}^{2} = 4.24964 .

接着，可以根据预计异常点数目将所有检测数据分为预计异常点数据和非预计异常点数据(S503)。其中，预计异常点数据是根据预计异常点数目，在所有检测数据中提取出的偏离较远的数据，其数目的多少由预计异常点数目决定。非预计异常点数据则是所述检测数据中其余的数据。该步预计异常点数据与非预计异常点数据的划分既可以通过直接观察检测数据实现，也可以通过对检测数据进行计算及排序实现。前者简单方便，但易因人为的主观因素造成误判，且不能利用计算机自动完成。本实施例中，采用了后一种方法，其具体实现步骤为：

A、计算各检测数据与第一平均值的差值的绝对值。即，按公式r_l＝|x_l-x|计算检测数据与第一平均值间差的绝对值。表2为本发明第一实施例中的x_i与对应的r_i值列表。

表2 检测数据与对应的r_i值列表

x<sub>1</sub>	-1.40	1.418	x<sub>9</sub>	0.20	0.02
x<sub>1</sub>	-1.40	1.418	x<sub>9</sub>	0.20	0.02	x<sub>2</sub>	-0.24	0.258	x<sub>10</sub>	0.63	0.612
x<sub>3</sub>	-0.05	0.068	x<sub>11</sub>	-0.30	0.318	x<sub>2</sub>	-0.24	0.258	x<sub>10</sub>	0.63	0.612
x<sub>3</sub>	-0.05	0.068	x<sub>11</sub>	-0.30	0.318	x<sub>4</sub>	0.18	0.162	x<sub>12</sub>	-0.13	0.148
x<sub>5</sub>	0.48	0.462	x<sub>13</sub>	0.10	0.082	x<sub>4</sub>	0.18	0.162	x<sub>12</sub>	-0.13	0.148
x<sub>5</sub>	0.48	0.462	x<sub>13</sub>	0.10	0.082	x<sub>6</sub>	-0.44	0.458	x<sub>14</sub>	0.39	0.372
x<sub>7</sub>	-0.22	0.238	x<sub>15</sub>	1.01	0.992	x<sub>6</sub>	-0.44	0.458	x<sub>14</sub>	0.39	0.372
x<sub>7</sub>	-0.22	0.238	x<sub>15</sub>	1.01	0.992	x<sub>8</sub>	0.06	0.042

B、将各检测数据按上述绝对值r_i由小到大的顺序进行排序。排序中，可以只记录下排序后的检测数据，也可以同时记录下各检测数据所对应的r_i值，另外，为了能够反映排序前、后的检测数据的相关联性，还可以将各检测数据在排序前的记录号记录下来。表3为本发明第一实施例中的排序后的检测数据列表，经重新排序后的检测数据的记录号为z_i，其内记录的数据有检测数据值、该检测数据在第一数据库中的记录号、该检测数据与第一平均值间的差值的绝对值。

表3 排序后的检测数据列表

z<sub>1</sub>	0.20	x<sub>9</sub>	0.02	z<sub>9</sub>	-0.30	x<sub>11</sub>	0.318
z<sub>1</sub>	0.20	x<sub>9</sub>	0.02	z<sub>9</sub>	-0.30	x<sub>11</sub>	0.318	z<sub>2</sub>	0.06	x<sub>8</sub>	0.042	z<sub>10</sub>	0.39	x<sub>14</sub>	0.372
z<sub>3</sub>	-0.05	x<sub>3</sub>	0.068	z<sub>11</sub>	-0.44	x<sub>6</sub>	0.458	z<sub>2</sub>	0.06	x<sub>8</sub>	0.042	z<sub>10</sub>	0.39	x<sub>14</sub>	0.372
z<sub>3</sub>	-0.05	x<sub>3</sub>	0.068	z<sub>11</sub>	-0.44	x<sub>6</sub>	0.458	z<sub>4</sub>	0.10	x<sub>13</sub>	0.082	z<sub>12</sub>	0.48	x<sub>5</sub>	0.462
z<sub>5</sub>	-0.13	x<sub>12</sub>	0.148	z<sub>13</sub>	0.63	x<sub>10</sub>	0.612	z<sub>4</sub>	0.10	x<sub>13</sub>	0.082	z<sub>12</sub>	0.48	x<sub>5</sub>	0.462
z<sub>5</sub>	-0.13	x<sub>12</sub>	0.148	z<sub>13</sub>	0.63	x<sub>10</sub>	0.612	z<sub>6</sub>	0.18	x<sub>4</sub>	0.162	z<sub>14</sub>	1.01	x<sub>15</sub>	0.992
z<sub>7</sub>	-0.22	x<sub>7</sub>	0.238	z<sub>15</sub>	-1.40	x<sub>1</sub>	1.418	z<sub>6</sub>	0.18	x<sub>4</sub>	0.162	z<sub>14</sub>	1.01	x<sub>15</sub>	0.992
z<sub>7</sub>	-0.22	x<sub>7</sub>	0.238	z<sub>15</sub>	-1.40	x<sub>1</sub>	1.418	z<sub>8</sub>	-0.24	x<sub>2</sub>	0.258

C、按照预计异常点数目将排序后的检测数据中位于后面的数据定义为预计异常点数据，其余的所述检测数据定义为非预计异常点数据。本实施例中，设定的预计异常点数目为2，因此，对排序后的检测数据中位于最后的两个数据点作了标记(^*)处理，表明其为预计异常点数据。注意，这一标记处理可以通过对对应的记录作标记记号实现，也可以通过直接将这两个数据删除实现。表4为本发明第一实施例中的标记预计异常点数据后的检测数据列表。

表4 标记预计异常点数据后的检测数据列表

z<sub>1</sub>	0.20	x<sub>9</sub>	0.02	z<sub>9</sub>	-0.30	x<sub>11</sub>	0.318
z<sub>1</sub>	0.20	x<sub>9</sub>	0.02	z<sub>9</sub>	-0.30	x<sub>11</sub>	0.318	z<sub>2</sub>	0.06	x<sub>8</sub>	0.042	z<sub>10</sub>	0.39	x<sub>14</sub>	0.372
z<sub>3</sub>	-0.05	x<sub>3</sub>	0.068	z<sub>11</sub>	-0.44	x<sub>6</sub>	0.458	z<sub>2</sub>	0.06	x<sub>8</sub>	0.042	z<sub>10</sub>	0.39	x<sub>14</sub>	0.372
z<sub>3</sub>	-0.05	x<sub>3</sub>	0.068	z<sub>11</sub>	-0.44	x<sub>6</sub>	0.458	z<sub>4</sub>	0.10	x<sub>13</sub>	0.082	z<sub>12</sub>	0.48	x<sub>5</sub>	0.462
z<sub>5</sub>	-0.13	x<sub>12</sub>	0.148	z<sub>13</sub>	0.63	x<sub>10</sub>	0.612	z<sub>4</sub>	0.10	x<sub>13</sub>	0.082	z<sub>12</sub>	0.48	x<sub>5</sub>	0.462
z<sub>5</sub>	-0.13	x<sub>12</sub>	0.148	z<sub>13</sub>	0.63	x<sub>10</sub>	0.612	z<sub>6</sub>	0.18	x<sub>4</sub>	0.162	^*z<sub>14</sub>	1.01	x<sub>15</sub>	0.992
z<sub>7</sub>	-0.22	x<sub>7</sub>	0.238	^*z<sub>15</sub>	-1.40	x<sub>1</sub>	1.418	z<sub>6</sub>	0.18	x<sub>4</sub>	0.162	^*z<sub>14</sub>	1.01	x<sub>15</sub>	0.992
z<sub>7</sub>	-0.22	x<sub>7</sub>	0.238	^*z<sub>15</sub>	-1.40	x<sub>1</sub>	1.418	z<sub>8</sub>	-0.24	x<sub>2</sub>	0.258

注意，如果采用观察的方法划分预计异常点数据和非预计异常点数据，本步骤(S503)的执行顺序可以不受限，可以在S501前执行，也可以在S502前执行，当然也可以在S502后执行。即使采用了排序计算的方法，只要不删除预计异常点数据，本步骤(S503)的执行顺序也可以不受限，至少可以与S502的执行顺序互换，(为了不重复计算第一平均值，其最好在S501后进行)。这是因为本步数据划分步骤(S503)至多只是检测数据的排序发生了变化，而各个检测数据本身都没有变化，所以既可以利用排序前的检测数据，也可以利用排序后的检测数据计算第一平均值或第一平方和，计算的结果都是相同的。其中，利用排序后的检测数据计算第一平方和的公式为：

本实施例中，其计算结果同样等于4.24964。

将检测数据作完划分后，计算所有非预计异常点数据的平均值，得到第二平均值(S504)。本实施例中的第二平均值

\overset{&OverBar;}{z} = Σ_{i = 1}^{n} z_{i} / n = 0.051 .

再接着，计算每一个非预计异常点数据与第二平均值的差值，再平方相加，得到第二平方和(S505)。本实施例中计算得到的第二平方和为：

Σ_{i = 1}^{n - k} {(z_{i} - \overset{&OverBar;}{z_{k}})}^{2} = 1.24089 .

然后，计算第二平方和与第一平方和的比值，得到偏离值E_k(S506)。本实施例中，偏离值

E_{k} = Σ_{i = 1}^{n - k} {(z_{i} - \overset{&OverBar;}{z_{k}})}^{2} / Σ_{i = 1}^{n} {(z_{i} - \overset{&OverBar;}{z})}^{2} = 0.292 .

计算出偏离值E_k后，根据检测数据的数目、前面确定的置信度及预计异常点数目确定临界值(S304)。临界值的确定是由查表完成的，且不同的情况所适用的临界值表是不同的。下面的表5为适用于本发明第一实施例的置信度为0.05时临界值列表。

表5 置信度为0.05时的临界值列表

n	k_1	k_2	k_3	k_4	k_5	k_6	k_7	k_8	k_9	k_10
n	k_1	k_2	k_3	k_4	k_5	k_6	k_7	k_8	k_9	k_10	3	1
4	25	1									3	1
4	25	1									5	81	10
6	145	34	4								5	81	10
6	145	34	4								7	207	65	16
8	262	99	34	10							7	207	65	16
8	262	99	34	10							9	310	137	57	21
10	353	172	83	37	14						9	310	137	57	21
10	353	172	83	37	14						11	390	204	107	55	26
12	423	234	133	73	39	18					11	390	204	107	55	26
12	423	234	133	73	39	18					13	453	262	156	92	53	28
14	479	293	179	112	68	39	21				13	453	262	156	92	53	28
14	479	293	179	112	68	39	21				15	503	317	206	134	84	52	30
16	525	340	227	153	102	67	41	24			15	503	317	206	134	84	52	30
16	525	340	227	153	102	67	41	24			17	544	362	248	170	116	78	50	32
18	562	382	267	187	132	91	62	41	26		17	544	362	248	170	116	78	50	32
18	562	382	267	187	132	91	62	41	26		19	579	398	287	203	146	105	74	50	33
20	594	416	302	221	163	119	85	59	41	28	19	579	398	287	203	146	105	74	50	33
20	594	416	302	221	163	119	85	59	41	28	25	654	493	381	298	236	186	146	114	89	68

n	k_1	k_2	k_3	k_4	k_5	k_6	k_7	k_8	k_9	k_10
n	k_1	k_2	k_3	k_4	k_5	k_6	k_7	k_8	k_9	k_10	30	698	549	443	364	298	246	203	166	137	112
35	732	596	495	417	351	298	254	214	181	154	30	698	549	443	364	298	246	203	166	137	112
35	732	596	495	417	351	298	254	214	181	154	40	756	629	534	458	395	343	297	259	223	195
45	776	658	567	492	433	381	337	299	263	233	40	756	629	534	458	395	343	297	259	223	195
45	776	658	567	492	433	381	337	299	263	233	50	796	684	599	529	468	417	373	334	299	268

其中n为检测数据数目，k为预计异常点数目，k_1表示预计异常点数目为1，k_2表示预计异常点数目为2。注意表5中只是列出了部分临界值，且表中各数值为临界值的1000倍。另外，本步查表工作也可以提前至在S302完成后进行。该临界值列表可以事先存储在计算机中，直接由程序根据参数调用，也可以由人为查表后，直接得到对应的临界值，对于人为查表的情况通常适用于检测数据数目固定、置信度固定、预计异常点数目固定的情况。

本实施例中，置信度为0.05，检测数据数目为15，异常点数目为2，由表中查得的临界值为0.317。

接着，可以比较前面计算得到的偏离值E_k与查表得到的临界值(S305)。如果偏离值小于临界值，则检测数据中存在的实际异常点数目不少于预计异常点数目k；如果偏离值E_k大于临界值，则检测数据中的实际异常点数目少于预计异常点数目k。本实施例中，计算得到的偏离值为0.292，小于查表所得的临界值0.317，因此，观察时认为可能的两个点-1.4和1.01实际都属于异常点。

再接着，可以由上述比较结果来确定实际异常点数目(S306)。本实施例中，如果明显可以确认或可以由经验确认其他的数据点不会是异常点，此时，可以确定实际的异常点数目与预计异常点数目相同，为2个。

此外，在本发明的其他实施例中，或若本实施例中开始设定的预计异常点数目为3时，可能计算得到的偏离值会大于临界值，以后者为例，此时，开始观察认定的3个点中至少有一个点不属于异常点，应该重新观察各检测数据的分布情况，重新设定预计异常点数目，如为2，然后再重新进行计算偏离值、确定临界值、比较偏离值与临界值的步骤，直至计算得到的偏离值小于临界值为止，确定此时的预计异常点数目就为实际的异常点数目。

在确定实际的异常点数目后，去除异常点数据(S307)。本步去除工作，既可以通过观察检测数据直接实现，也可以利用前面将检测数据划分为预计异常点数据和非预计异常点数据时的排序、标记结果来实现。对于后者，如果检测顺序对于检测结果的监测有意义的话，可以根据排序后的检测数据与排序前的检测数据中各检测数据的对应关系，去除排序前的检测数据中的对应异常点数据。但如果检测顺序对于检测结果的监测没有意义的话，也可以直接利用标记异常点后的排序后的检测数据中未标记的数据作为最终的符合一般规律的检测数据集，进行后续的拟合分析。表6为本发明第一实施例中的去除异常点后的检测数据列表，该数据列表是通过去除排序前的检测数据中的异常点数据而得到的，此时，其内数据为按检测顺序得到的所有符合一般规律的检测数据。对其进行分析，得到的是反映检测结果真实情况的拟合结果，可以实现对半导体工艺的良好监测。

表6 去除异常点后的排序前的检测数据列表

x<sub>1</sub>	--	x<sub>9</sub>	0.20
x<sub>1</sub>	--	x<sub>9</sub>	0.20	x<sub>2</sub>	-0.24	x<sub>10</sub>	0.63
x<sub>3</sub>	-0.05	x<sub>11</sub>	-0.30	x<sub>2</sub>	-0.24	x<sub>10</sub>	0.63
x<sub>3</sub>	-0.05	x<sub>11</sub>	-0.30	x<sub>4</sub>	0.18	x<sub>12</sub>	-0.13
x<sub>5</sub>	0.48	x<sub>13</sub>	0.10	x<sub>4</sub>	0.18	x<sub>12</sub>	-0.13
x<sub>5</sub>	0.48	x<sub>13</sub>	0.10	x<sub>6</sub>	-0.44	x<sub>14</sub>	0.39
x<sub>7</sub>	-0.22	x<sub>15</sub>	--	x<sub>6</sub>	-0.44	x<sub>14</sub>	0.39
x<sub>7</sub>	-0.22	x<sub>15</sub>	--	x<sub>8</sub>	0.06

上述本发明的第一实施例中，采用了观察的方法确定预计异常点数目，在本发明的其他实施例中，为了防止主观误判，也可以采用固定预计异常点数目的方法。此时通常需要针对不同的k值进行偏离值的循环计算，直至推出实际的异常点数目。本发明的第二实施例就针对固定预计异常点数目的情况进行了介绍。

本发明的第二实施例是对薄膜生长厚度的检测结果进行异常点的去除分析。假设本实施例中共有30个检测数据，其置信度的要求仍为0.05。根据经验，其中的异常点数目通常在5个左右，因此，可以将预计异常点数目(k)固定设置为5。注意到采用固定预计异常点数目的方法是不需要对检测数据进行观察的。

设定好上述参数后，同样可以利用Tietjen&Moore方法计算k＝5时的偏离值(S501到S506)，并查表得到此时的临界值为0.298。接着，比较计算得到的偏离值与临界值：

如果偏离值小于所述临界值，表明5个点可能均为异常点，但因为此时不能确定其余的25个点中是否还有异常点，可以继续进行计算：将预计异常点数目加1，即k＝6，然后再重复进行计算偏离值[即S303中所述的由得到第一平均值(S501)到得到偏离值(S506)的计算步骤]、确定临界值、比较偏离值与临界值的步骤，如果新的偏离值仍小于临界值，则再将k加1，重复上述步骤，一直到计算得到的偏离值大于临界值为止，表明增加一个预计异常点后，其中至少有一个不为异常点，则可以确定实际异常点数目等于此时对应的预计异常点数目减1。至此，可以得到确切的实际异常点数目。

如果第一次计算所得的偏离值大于临界值，表明5个点中至少有一个不是异常点，此时将预计异常点数目减1，再重复进行计算偏离值[即由得到第一平均值(S501)到得到偏离值(S506)的计算步骤]、确定临界值、比较偏离值与临界值的步骤，直到计算得到的偏离值小于临界值为止，确定实际异常点数目等于此时对应的预计异常点数目。

在确定实际异常点数目后，再在检测数据中去除对应多个偏离最远的数据即可。如果在上述数据处理过程中对检测数据进行了排序处理，又没有记录下排序前后的检测数据间的对应关系，而在对检测数据进行分析时又对检测顺序有要求时，也可以直接用观察的方法将检测数据中对应多个的偏离最远的数据去除。得到没有异常点的新检测数据样本后，对其进行统计分析，就可以得到较为准确的符合一般规律的拟合结果。

本发明的第二实施例是通过经验值确定k值，但要注意到其中k的取值不能过于随便，如果k的取值与实际异常点数目相比相差过大，可能会导致误判。因此，可以采用经验与观察相结合的方法确定k值，以确保k的取值与实际异常点数目相近，避免单纯利用经验或观察方法可能带来的过于主观臆断的问题，提高异常点去除的准确性及效率。

另外，为了防止判断上过于主观臆断，本发明的第三实施例采用了按k值由小到大的顺序，直接对不同的k值下的偏离值进行循环计算，确定实际异常点数目的方法。图6为说明本发明第三实施例的异常点去除方法的流程图，下面结合图6对本发明的第三实施例进行详细介绍。

本发明的第三实施例是对器件可靠性参数的检测结果进行异常点的去除分析。

首先，对器件进行测试，提供至少五个检测数据(S601)。本实施例中，对制作完成的器件进行可靠性测试，假设共测试得到50个检测数据，需要对其进行异常点去除分析。

然后，设定置信度(S602)。本实施例中对置信度的要求设定为0.05，在其他实施例中，也可以设置为0.01或0.1等。

接着，设定初始预计异常点数目(S603)。本实施例中将预计异常点数目(k)的初始值设置为2。注意到本实施例中采用的设定初始预计异常点数目的方法是不需要对检测数据进行观察的。

设定好上述参数后，同样可以利用Tietjen&Moore方法计算k＝2时的偏离值(S604)，具体计算方法与上述第一实施例中的相同(S501至S506)，在此不再赘述。

接着，查表得到对应此时的预计异常点数目的临界值(S605)。本实施例中，检测数据数目为50，置信度为0.05，预计异常点数目初始值为2，查表5得到此时的临界值为0.684。

再接着，比较计算得到的偏离值与查表得到的临界值(S606)。如果偏离值小于临界值，表明至少有2个点为异常点，但因为此时不能确定其余的48个点中是否还有异常点，可以继续进行计算：将预计异常点数目加1(S607)，即k＝3，然后再重复进行计算偏离值(S604)、确定临界值(S605)、比较偏离值与临界值(S606)的步骤，如果新的偏离值仍小于临界值，则再将k加1(S607)，重复上述步骤，一直到计算得到的偏离值大于临界值为止。

一旦偏离值大于了临界值，表明上一次增加了一个预计异常点后，至少有一个不为异常点，而再之前的一次则全为异常点，因此可以确定实际异常点数目等于上一次循环时的预计异常点数目，也即等于此时对应的预计异常点数目减1。因此，通过将此时的预计异常点数目减1即可得到确切的实际异常点数目(S608)。

但是，如果第一次k＝2时计算所得的偏离值就大于了临界值，表明检测数据中最多有一个异常点，此时对异常点的去除将不适于采用Tietjen&Moore方法，而可以仍采用传统的Grubb方法对单边(只会出现在检测数据上限或下限的一边)、单个的异常点进行分析判断。

在得到确切的实际异常点数目之后，去除检测数据中的异常点数据(S609)。如果在分析检测数据时，需要利用检测数据的测试顺序信息，而前面的异常点分析过程中采用的又是需要对检测数据进行排序的方法，则可以在进行偏离值计算过程中，记录下排序前后的检测数据间的对应关系，然后，按照这一对应关系去除排序前的、保留有测试顺序信息的检测数据中的对应异常点数据，最后得到既保留有测试顺序又符合一般规律的检测数据。

此外，如果在上述数据处理过程中没有记录下排序前后的检测数据间的对应关系，而在对检测数据进行分析时又对检测顺序有要求时，也可以直接用观察的方法将检测数据中对应多个的偏离最远的数据去除。

如果在分析检测数据时，不需要利用检测数据的测试顺序信息，也可以按照实际异常点数目直接将排序后的检测数据中后面的检测数据去除，余下的检测数据即为满足一般规律的非异常的检测数据。

去除检测数据中的异常点后，就可以对其进行统计分析，得到较为符合一般规律的拟合结果，实现了对半导体工艺较为准确的监测，提高了工艺监测的灵敏度。

上述本发明的异常点的去除方法，可以通过编制数据库程序(如Excel程序、Foxpro程序、VB程序等)的方法事先存储在计算机介质上，并通过执行该程序自动完成对检测数据中的异常点的去除。该计算机介质可以是电、磁或半导体的存储介质。另外，临界值列表(如表5)也可以事先存储在计算机中，直接由程序自动调用。实现起来方便快捷。

本发明的上述实施例中的检测数据是套刻精度和可靠性测试数据，在本发明的其他实施例中，还可以利用本发明的方法对其他的测试数据进行异常点去除分析，如薄膜厚度、刻蚀深度、器件电性能参数(电压、电流、漏电流、电阻、电容等)等。

本发明的检测数据中的异常点去除方法并不仅限于在半导体制造领域中的应用，而是可以广泛应用于各种工业领域中，如还可以应用于机械、电子、医学等工业领域中。

本发明虽然以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims

1.一种检测数据中异常点的去除方法，其特征在于，包括步骤：对器件进行测试；

提供至少五个检测数据；

计算所述检测数据的平均值，得到第一平均值；

计算所述非预计异常点数据的平均值，得到第二平均值；

比较所述偏离值与所述临界值；

根据所述比较结果确定实际异常点数目；

2.如权利要求1所述的异常点的去除方法，其特征在于：所述设定预计异常点数目将预计异常点数据设定为固定值，且所述固定值小于或等于所述检测数据总数的二分之一。

3.如权利要求2所述的异常点的去除方法，其特征在于：确定实际异常点数目由以下步骤实现：

4.如权利要求1所述的异常点的去除方法，其特征在于：在所述设定预计异常点数目之前，还包括观察所述检测数据确定预计异常点数目的步骤。

5.如权利要求4所述的异常点的去除方法，其特征在于：确定实际异常点数目由以下步骤实现：

6.如权利要求1所述的异常点的去除方法，其特征在于：在所述将所述检测数据分为预计异常点数据和非预计异常点数据的步骤由以下步骤实现：

将所述检测数据按所述绝对值由小到大的顺序进行排序；

7.如权利要求6所述的异常点的去除方法，其特征在于：所述去除异常点数据是由排序后的检测数据中去除异常点数据。

8.如权利要求6所述的异常点的去除方法，其特征在于：对所述检测数据进行排序时，还记录了各所述检测数据在排序前后的对应关系。

9.如权利要求8所述的异常点的去除方法，其特征在于：所述去除异常点数据是由排序前的检测数据中去除异常点数据。

10.如权利要求1所述的异常点的去除方法，其特征在于：所述检测数据是测得的薄膜厚度、刻蚀深度、器件电性能参数、光刻套刻精度及器件可靠性参数中的一种。

11.如权利要求1所述的异常点的去除方法，其特征在于：所述异常点分别位于所述检测数据的上、下限的两侧。