具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
晶圆的表面缺陷主要包括:针孔、颗粒污染、颗粒缺失以及划痕等,另外在检测出的缺陷中还会存在一种由于图像质量的关系得到的干扰区域。其中,晶圆中的针孔所呈现的状态为白色的小亮点;颗粒污染所呈现的状态为黑色的区域,包括大颗粒污染和小颗粒污染;图像缺失呈现的状态为白色区域;划痕的呈现状态是白色的线型区域,干扰区域呈现的状态是一种临界状态,接近于背景同时也接近于缺陷。
在一个实施例中,如图1所示,提供了一种晶圆表面缺陷特征分析方法,包括:
步骤102,采集多个晶圆图像。
本实施例中,可以通过高分辨率的线扫描相机或线阵相机采集多个晶圆的图像。具体的,通过相机采集到晶圆的多个行图像,并将这些行图像拼接成一幅大的晶圆拼接图像。晶圆包括但不限于LED晶圆、LED-PSS(Patterned SapphireSubstrate,图案化蓝宝石基板)晶圆等。
步骤104,从晶圆图像中提取晶圆的感兴趣区域。
在一个实施例中,可获取一系列的边宽。具体的,通过图像处理算法中扫描边缘点的方式得到一系列外边缘和内边缘的点,这一系列的两个点之间的距离即为一系列的边宽。位于内边缘内侧的区域即为晶圆的感兴趣区域。
步骤106,获取感兴趣区域内的所有可疑缺陷。
在一个实施例中,在晶圆的感兴趣区域,利用图像检测算法得到晶圆表面的可疑缺陷。具体的,利用灰度阈值分割的算法对感兴趣区域进行分割,可得到感兴趣区域内的黑色区域和白色区域。这些白色区域与黑色区域即为有缺陷的区域。如图2所示,提供了三种晶圆表面缺陷的样本。其中,颗粒污染所呈现的状态为黑色区域,颗粒缺失呈现的状态为白色区域,而干扰区域呈现的状态是一种临界状态,接近于背景同时也接近于缺陷。
步骤108,从可疑缺陷中选取预设数量的训练样本。
在一个实施例中,对于每一种缺陷,都可以选取预设数量的训练样本。训练样本的数量不受限制,数量越多,分析得到的特征就越可靠,分析所需的时间也相应地越长。
在选取训练样本时,可进行多次选取,每次选取的训练样本的总数相同,训练样本中的各种缺陷的类型的数量是随机变换的,每次选取的训练样本组成一组训练样本集。一组训练样本集用于生成一个分类模型。
步骤110,提取训练样本的特征数据。
在一个实施例中,缺陷特征包括区域特征和灰度特征,其中区域特征又分为根本区域特征和形状特征,灰度特征又分为根本灰度特征和纹理特征。具体的,根据训练样本的图像效果,分别采取相应的滤波、去噪声等处理方式,增强图像的对比度。配合阈值分割的算法,对训练样本进行阈值分割,根据分割的结果利用图像处理的算法来分别计算训练样本的特征数据。
步骤112,利用随机森林法对特征数据进行特征分析,得到由多个分类模型组成的随机森林。
在一个实施例中,利用随机森林法,对一个训练样本集进行特征分析,生成一个分类模型。具体的,可采用重采样技术从训练样本集合中抽取训练样本,每次采样抽取的训练样本组成一个训练样本集,对每个训练样本集,采用随机森林法进行特征分析,生成一个分类树(即分类模型)。多个分类模型组成一个随机森林,该随机森林即为高准确度的分类器。
另外,在获取到的可疑缺陷中,随机选取预设数量的测试样本。根据上述实施例中提供的提取特征数据的方式,分别提取测试样本的上述特征数据。进一步的,根据本实施例中提及的随机森林算法对测试样本的特征数据进行特征分析。然后将提取到的特征输入至本实施例的随机森林中,对该随机森林的精度进行验证。如果精度达到95%以上,则可以将该随机森林推广到其他晶圆表面缺陷的分析和分类。
本实施例中,训练样本是从每一种已经确定的缺陷中随机选取的,通过训练样本的特征建立起来的由多个分类模型组成的随机森林具有较高的准确度。利用该随机森林对晶圆表面缺陷进行分类,可有效减少错分率,提高分类的准确性。
在一个实施例中,步骤110,包括:特征数据包含区域特征和灰度特征,区域特征包括区域根本特征和形状特征,灰度特征包括灰度根本特征和纹理特征。
本实施例中,缺陷特征从区域特征和灰度特征两方面进行提取。其中区域特征包括根本特征和形状特征,灰度特征包括根本特征和纹理特征。
进一步的,在一个实施例中,所提取的特征数据包括25种特征数据。如图3所示,区域特征中的根本特征包括面积(1)、完整性(2)、边缘数量(3)、连续性(4)、孔洞数量(5)和孔洞面积(6),共6种特征。区域特征中的形状特征包括圆形度(7)、密集度(8)、凸状度(9)、矩形度(10)、各向异性(11)、体积(12)、结构元素(13)、距离均值(14)、距离方差(15)和欧拉数(16),共10种特征。灰度特征中的根本特征包括灰度面积(17)、最小灰度值(18)和最大灰度值(19),共3种特征。灰度特征中的纹理特征包括灰度均值(20)、灰度方差(21)、轮廓灰度方差(22)、灰度各向异性(23)、灰度熵(24)和灰度模糊熵(25),共6种特征。
具体的,可采用如下公式分别计算上述25种特征数据:
(1)面积—area
其中P=1,M、N为图像的宽和高
(2)完整性—roundness
D=sum(||p-pi||)/F
roundness=1-sigma/D
其中,D为均值,p为区域中心,pi为像素,F为区域轮廓面积,Sigma为标准差。
(3)边缘数量—num_sides
num_side=1.4111×(D/sigma)0.4724
其中,D为均值,Sigma为标准差。
(4)连续性—connect_num
连续性是指区域的连接件的数量。
(5)孔洞数量—holes_num
孔洞数量是指区域中所含有的孔洞的个数。
(6)孔洞面积—area_holes
孔洞面积是指区域中孔洞的总面积。
(7)圆形度—circularity
circularity=F/(MaxDis2×pi)
其中,F为区域的面积,MaxDis为区域中心距离区域边缘的最大的距离,pi为3.14。
(8)密集度—compactness
compactness=L2/4×F×Pi
其中,L为区域轮廓的长度,F为区域的面积,pi为3.14。
(9)凸状度—convexity
convexity=FO/FC
其中,FO为外凸的区域的面积,FC为原始区域的面积。
(10)矩形度—rectangularity
矩形度是指区域近似于矩形的程度
(11)各向异性—anisometry
anisometry=Ra/Rb
其中,Ra、Rb为区域所对应的椭圆的长轴长与短轴长。
(12)体积—bulkiness
bulkiness=pi×Ra×Rb/area
其中,pi为图像的第i个像素点,Ra、Rb为区域所对应的椭圆的长轴长与短轴长,area为区域的面积。
(13)结构元素—struct_factor
struct_factor=anisometry×bulkiness-1
(14)距离均值—dist_mean
dist_mean=sum(||p-pi||)/F
其中,p为区域中心,pi为像素,F为区域轮廓面积。
(15)距离方差—dist_deviation
其中,p为区域中心,pi为像素,F为区域轮廓面积。
(16)欧拉数—euler_number
欧拉数是指区域的连接件的数量与孔洞的数量的差值。
(17)灰度面积—gray_area
其中,g(r,c)为(r,c)点的灰度值,r为图像的行坐标,c为图像的列坐标,R为整个图像的区域。
(18)灰度最小值—gray_min
灰度最小值是指区域的最小灰度值。
(19)灰度最大值—gray_max
灰度最大值是指区域的最大灰度值。
(20)灰度均值—gray_mean
其中,R为待计算的区域,g(p)为像素p的灰度值,F为区域的面积。
(21)灰度方差—gray_deviation
其中,R为待计算的区域,g(p)为像素p的灰度值,F为区域的面积,R为整个图像的区域。
(22)轮廓灰度方差—gray_plane_deviation
其中,a、b、mean为图像的参数,F为图像区域的面积,(r',c')为中心点的坐标,(r,c)为区域内的像素点的坐标。
(23)灰度各向异性—gray_anisotroy
其中,rel[i]为灰度直方图的灰度值分布,i为输入区域的灰度值,取值范围为(0,255),k为sum(rel[i])>=0.5的最小灰度值。
(24)灰度熵—gray_entropy
其中,rel[i]为灰度直方图的灰度值分布。
(25)灰度模糊熵—gray_fuzzy_entropy
Te (1)=-u(l)×ln(u(l))-(1-u(l))×ln(1-u(l))
其中,M、N为区域的大小尺寸,h(l)为区域图像的直方图,u(l)为模糊函,Te (1)为模糊熵。
如图4所示,以颗粒缺失、颗粒污染和干扰区域这三种缺陷样本为例给出了相应的特征数据。数值后面的编号即是对应的缺陷特征。根据图4可知,对于每一个训练样本,都提取了25种特征数据。
在一个实施例中,利用随机森林法对特征数据进行特征分析,得到由多个分类模型组成的随机森林的步骤之后,还包括:利用随机森林法分析出分类模型中各特征的比重,根据比重提取代表性特征、与代表性特征对应的临界值和分类结果。
训练样本生成分类模型的同时,根据随机森林法分析计算得到的特征所占的比重来生成特征数据分析柱状图,如图5所示。从该图上可以明显的看到,灰度面积、最小灰度值、最大灰度值、灰度均值、灰度方差、轮廓灰度方差、灰度各向异性、灰度熵和灰度模糊熵共9种缺陷特征的重要程度的值较大,由此可见这9种特征比较重要。因此可以选取这9种特征为代表性特征,作为分类的依据。根据上述方式得到的代表性特征可以直接的用于缺陷的分类。
如图6所示,提供了一种分类模型的代表性特征、代表性特征对应的临界值和分类结果的示意图。其中,gray_min为最小灰度值;gray_max为最大灰度值;①、②、③分别为分类模型最终得到三个节点;0、1、2分别为缺陷类别,具体为:0代表干扰区域,1代表颗粒缺失,2代表颗粒污染;60obs为各种缺陷类别的个数。从图中可以看到最小灰度值和最大灰度值这两个特征是唯一的,因此可以采用这两个特征对缺陷进行分类。具体的,首先计算分类模型的最小灰度值的临界值为147,若小于147,则判断为颗粒污染,否则计算分类模型的的最大灰度值的临界值200.5,若小于200.5,则判断为干扰区域,否则为颗粒缺失。由此得到晶圆缺陷的分类结果。这些代表性特征可以为晶圆表面缺陷分类提供支撑条件,从而提高了缺陷分类的准确性。
在一个实施例中,如图7所示,提供了一种晶圆表面缺陷分类方法,包括:
步骤702,采集待分类的晶圆图像。
步骤704,从晶圆图像中提取晶圆的感兴趣区域。
步骤706,获取感兴趣区域内的所有可疑缺陷。
步骤708,提取可疑缺陷的特征数据。
步骤710,将特征数据输入随机森林或者利用代表性特征,得到晶圆缺陷的分类结果。
本实施例中,步骤710中的随机森林和代表性特征分别为上述各实施例中提供的晶圆表面缺陷特征分析方法得到的随机森林和代表性特征。
在一个实施例中,如图8所示,将特征数据输入随机森林,得到晶圆缺陷的分类结果的步骤,具体包括:
步骤802,利用随机森林对待分类的晶圆进行预测分类。
步骤804,根据预测分类的分类结果对待分类晶圆进行投票。
步骤806,根据投票的分数确定待分类的晶圆的缺陷类别。
本实施例中,将训练样本的特征数据输入到上述各实施例中提供的随机森林,由随机森林中的每个分类模型分别判断缺陷类型,进行预测分类。根据预测的分类结果对待分类晶圆进行投票,根据投票所得的分数得到晶圆缺陷的分类结果。
例如,一个随机森林由10个分类模型组成,现有一个待分类的缺陷样本,利用10个分类模型分别对该样本进行预测分类。其中有7个分类模型将该样本分为1类,那么1类的分数为7。2个分类模型将该样本分为2类,那么2类的分数为2。1个分类模型将该样本分为3类,那么3类的分数为1。因此,从分数上看,该样本属于1类。预设1类对应的缺陷类型为干扰区域,2类对应的是颗粒缺失,3类对应的是颗粒污染。由此对照,那么该样本的缺陷类型为干扰区域。从而完成对这一缺陷样本的分类。
本实施例中,由于采用随机森林法建立了一个高准确度的分类器。通过这一分类器对待分类晶圆表面缺陷进行分类,从而减少了错分率,提高分类的准确性。
在一个实施例中,利用代表性特征得到晶圆缺陷的分类结果的步骤为:提取可疑缺陷的代表性特征;根据代表性特征对应的临界值和分类结果,比较提取的可疑缺陷的代表性特征对应的值与临界值的大小,根据大小确定晶圆缺陷的分类结果。
具体的,对于待分类样本,首先提取可疑缺陷的代表性特征。如图6所示,可分别提取最小灰度值和最大灰度值这两个代表性特征。其次计算待分类样本的最小灰度值,若小于临界值147,则此样本判断为颗粒污染,否则计算待分类样本的最大灰度值,若小于临界值200.5,则此样本判断为干扰区域,否则为颗粒缺失。由此得到晶圆缺陷的分类结果。
如图9所示,在一个实施例中,提供了一种晶圆表面缺陷特征分析***,包括:第一图像采集模块902、第一感兴趣区域提取模块904、第一可疑缺陷获取模块906、训练样本选取模块908,第一特征数据提取模块910和特征分析模块912,其中:
第一图像采集模块902,用于采集多个晶圆图像。
第一感兴趣区域提取模块904,用于从晶圆图像中提取晶圆的感兴趣区域。
第一可疑缺陷获取模块906,用于获取感兴趣区域内的所有可疑缺陷。
训练样本选取模块908,用于从可疑缺陷中选取预设数量的训练样本。
第一特征数据提取模块910,用于提取训练样本的特征数据。
特征分析模块912,用于利用随机森林法对特征数据进行特征分析,得到由多个分类模型组成的随机森林。
本实施例中,第一特征数据提取模块910用于提取训练样本的特征数据,特征分析模块912用于利用随机森林法对特征数据进行分析,得到由多个分类模型组成的随机森林,从而建立了一种准确度较高的分类器。利用测试样本对该分类器进行验证,从而进一步验证了分类器的精度。利用该分类器对晶圆表面缺陷进行分类,从而减少了缺陷错分率,提高了分类准确性。
在一个实施例中,第一特征数据提取模块910提取到的特征数据包含区域特征和灰度特征,区域特征包括区域根本特征和形状特征,灰度特征包括灰度根本特征和纹理特征。
本实施例中,提取的缺陷特征涵盖的范围较广,可以更全面地反映晶圆表面缺陷的状况。有利于对缺陷进行有效分析,提高分析的准确性。
在一个实施例中,特征分析模块912还用于利用随机森林法分析出分类模型中各特征的比重,根据比重提取代表性特征、与代表性特征对应的临界值和分类结果。
本实施例中,对缺陷特征按重要程度进行计算,选取分类模型的代表性特征,也就是进一步地选取了最能直接体现晶圆表面缺陷的关键性特征,利用随机森林法分析出分类模型中各特征的比重,根据比重提取代表性特征、与代表性特征对应的临界值和分类结果。这些特征可以为晶圆表面缺陷分类提供支撑条件,从而提高了缺陷分类的准确性。
在一个实施例中,如图10所示提供了一种晶圆表面缺陷分类***,包括:第二图像采集模块1002、第二感兴趣区域提取模块1004、第二可疑缺陷获取模块1006、第二特征数据提取模块1008和分类模块1010,其中:
第二图像采集模块1002,用于采集待分类的晶圆图像。
第二感兴趣区域提取模块1004,用于从晶圆图像中提取晶圆的感兴趣区域。
第二可疑缺陷获取模块1006,用于获取感兴趣区域内的所有可疑缺陷。
第二特征数据提取模块1008,用于提取可疑缺陷的特征数据。
分类模块1010,用于将特征数据输入至随机森林或者利用代表性特征,得到晶圆缺陷的分类结果。
本实施例中,分类模块1010中的随机森林和代表性特征分别为上述各实施例中提供的晶圆表面缺陷特征分析方法得到的随机森林和代表性特征。
在一个实施例中,如图11所示,分类模块1010包括:预测分类模块1010a、投票模块1010b和类别确定模块1010c,其中:
预测分类模块1010a,用于利用随机森林对待分类的晶圆进行预测分类。
投票模块1010b,用于根据预测分类的分类结果对待分类晶圆进行投票。
类别确定模块1010c,用于根据投票的分数确定待分类的晶圆的缺陷类别。
本实施例中,预测分类模块1010a用于对待分类晶圆进行预测分类,投票模块1010b用于根据预测分类的结构进行投票,类别确定模块1010c用于根据投票分数确定缺陷类别。由于采用随机森林法建立了一个高准确度的分类器,从而对待分类晶圆表面缺陷的分类减少了错分率,提高了准确性。
在一个实施例中,如图11所示,分类模块1010还包括:
可疑缺陷代表性特征提取模块1010d,用于提取可疑缺陷的代表性特征;
代表性特征分类模块1010e,用于根据代表性特征对应的临界值和分类结果,比较提取的可疑缺陷的代表性特征对应的值与临界值的大小,根据大小确定晶圆缺陷的分类结果。
本实施例中,可疑缺陷代表性特征提取模块1010d提取可疑缺陷的代表性特征,代表性特征分类模块1010e,利用代表性特征直接对缺陷进行分类。这些代表性特征可以为晶圆表面缺陷分类提供支撑条件,从而提高了缺陷分类的准确性。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。