CN107194420A

CN107194420A - 一种模糊粗糙集中基于信息增益率的属性选择方法

Info

Publication number: CN107194420A
Application number: CN201710344308.1A
Authority: CN
Inventors: 代建华; 郑国杰; 胡虎
Original assignee: Zhejiang Elephant Medical Technology Co Ltd
Current assignee: Zhejiang Elephant Medical Technology Co Ltd
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2017-09-22

Abstract

本发明公开一种模糊粗糙集中基于信息增益率的属性选择方法。本发明方法是在模糊粗糙集下，计算各属性的信息增益率，去除信息增益率较小的属性；计算各个未被选择的属性的信息增益率，选择信息增益率最大的属性，并加入到属性选择结果中；重复上面的选择过程，直到信息增益率的最大值为0或未被选择的属性集为空集，去除选择结果中的冗余属性。本发明相比目前模糊粗糙集中存在的基于信息增益率的属性选择方法，可以进一步的从大量的属性中消除无关、冗余的属性，从而提高数据质量、加速数据处理速度和改善分类器的泛化能力。

Description

一种模糊粗糙集中基于信息增益率的属性选择方法

技术领域

本发明涉及属性选择方法，具体是指一种模糊粗糙集中基于信息增益率的属性选择方法。

背景技术

现实中由于数据采集的结果往往伴随着噪声数据，这使得不确定数学工具显得尤为重要。粗糙集理论与其他处理不确定和不精确问题理论相比，无需提供问题所需处理的数据集合之外的任何先验知识。由于粗糙集处理不确定数据的优越性，目前已经在分类、聚类等多个领域得到广泛应用，其中，属性选择是最为重要的应用之一。属性选择可以从大量的属性中消除冗余、无关的属性，从而提高数据质量、加速数据处理速度和改善分类器的泛化能力。

经典的粗糙集理论只能够处理符号属性，对于数值属性必须提前进行离散化处理。D.Dubios和H.Prad在1992年提出了模糊粗糙集，模糊粗糙集将模糊集和离散集结合，用模糊集和隶属度来描述一个对象和集合间的关系，可以直接处理数值属性。相比离散化，模糊化能较好的保留数值属性的信息。

信息增益率是一种选择属性的有效方法，可以惩罚值较多的属性，在实际使用中往往具有较好的效果。

但目前模糊粗糙集中存在的基于信息增益率的属性选择方法(Dai J,XuQ.Attribute selection based on information gain ratio in fuzzy rough settheory with application to tumor classification[J].Applied Soft Computing,2013,13(1):211-221.)：(1)没有去除相关性较低的属性，相关性较低的属性可能会被选择到结果中。(2)属性选择的结果中，可能存在冗余。为了解决上述问题，提升模糊粗糙集中属性选择方法，本发明将提出一种新的模糊粗糙集中基于信息增益率的属性选择方法。相比目前模糊粗糙集中存在的基于信息增益率的属性选择方法，可以进一步从大量的属性中消除无关、冗余的属性，从而提高数据质量、加速数据处理速度和改善分类器的泛化能力。

发明内容

本发明的目的是为了提升模糊粗糙集中属性选择方法，而提出一种新的模糊粗糙集中基于信息增益率的属性选择方法。

为了实现以上发明的目的，本发明采用的技术方案如下：

本发明方法是在模糊粗糙集下，计算各属性的信息增益率，去除信息增益率小于给定阈值的属性；计算各个未被选择的属性的信息增益率，选择信息增益率最大的属性，并加入到属性选择结果中；重复上面的选择过程，直到信息增益率的最大值为0或未被选择的属性集为空集，去除选择结果中的冗余属性。

这里的各个未被选择的属性是指代删除信息增益率小于给定阈值的属性后的模糊粗糙集下的属性。

上述基于模糊粗糙集信息增益率的属性选择方法的具体描述如下：

输入：一个决策表DT＝(U，A＝C∪D，V，f)，其中U是论域，C是条件属性集，D是决策属性集，V是值域，f是U和A到V的映射。

论域中对象间的模糊相似关系。

阈值δ(可根据实际情况调节，默认为一个较小的值：0.000001)。

输出:属性选择结果B

第1步：令属性选择结果B的初始值为空集，未被选择的属性集M的初始值为C

第2步：对于未选择属性集M中的每个属性a，如果信息增益率GR(a,B,D)<δ,则M＝M–{a}；

第3步：对于未选择属性集M中的每个属性a，计算信息增益率GR(a,B,D)；并将信息增益率最大的属性记为a′。

第4步：B＝B∪a′,M＝M-a′。

第5步：如果信息增益率GR(a′,B,D)>0,并且继续执行第3步和第4步；否则，进入下一步。

第6步：对于属性选择结果B中的每个属性a，如果信息增益率GR(a,B–{a},D)＝0,则B＝B–{a}。遍历属性选择结果B中所有属性，最终得到所需的结果集。(先选择的属性往往更重要，因此优先去除后选择的属性，即在本步中反向遍历B)

本发明方法具有模糊粗糙集的优点，可以直接处理数值属性，而且使用信息增益率选择属性；提前去除相关性较低的属性，防止相关性较低的属性被选择到结果中；属性选择后，去除结果中的冗余属性。相比目前模糊粗糙集中存在的基于信息增益率的属性选择方法，可以进一步的从大量的属性中消除无关、冗余的属性，从而提高数据质量、加速数据处理速度和改善分类器的泛化能力。

附图说明

图1为本发明的方法流程图；

图2为本发明的实施流程图。

具体实施方式

下面结合具体实施例对本发明做进一步的分析。

本发明包括以下4个步骤，图1为本发明的方法流程图；图2为本发明的实施流程图。

(1)将数据转化为粗糙集中使用的决策表格式

(2)计算决策表中对象的模糊相似关系，常用的数值属性的模糊相似关系如下

其中：x_i和x_j表示论域U中的2个对象，a_max表示属性a的最大值，a_min表示属性a的最小值。

(3)通过本发明的基于模糊粗糙集信息增益率的属性选择方法，得到属性选择结果

(4)输出属性选择结果

实验例：

在医疗领域，用机器学***均值，采用的分类器为逻辑回归。

表1数据集信息

#dataset	#instances	#attributes	#class
				BCW	569	32	2

表2属性选择后的数据集与原始数据集对比

上述实施例并非是对于本发明的限制，本发明并非仅限于上述实施例，只要符合本发明要求，均属于本发明的保护范围。

Claims

1.一种模糊粗糙集中基于信息增益率的属性选择方法，其特征在于在模糊粗糙集下，计算各属性的信息增益率，去除信息增益率较小的属性；计算各个未被选择的属性的信息增益率，选择信息增益率最大的属性，并加入到属性选择结果中；重复上面的选择过程，直到信息增益率的最大值为0或未被选择的属性集为空集，去除选择结果中的冗余属性。

2.如权利要求1所述的一种模糊粗糙集中基于信息增益率的属性选择方法，其特征在于

输入：①一个决策表DT＝(U，A＝C∪D，V，f)，其中U是论域，C是条件属性集，D是决策属性集，V是值域，f是U和A到V的映射；

②论域中对象间的模糊相似关系；

③阈值δ；

输出:属性选择结果B；

该方法具体包括以下步骤：

第1步：令属性选择结果B的初始值为空集，未被选择的属性集M的初始值为C；

第3步：对于未选择属性集M中的每个属性a，计算信息增益率GR(a,B,D)；并将信息增益率最大的属性记为a′；

第4步：B＝B∪a′,M＝M-a′；

第5步：如果信息增益率GR(a′,B,D)>0,并且继续执行第3步和第4步；否则，进入下一步；

第6步：对于属性选择结果B中的每个属性a，如果信息增益率GR(a,B–{a},D)＝0,则B＝B–{a}；遍历属性选择结果B中所有属性，最终得到所需的结果集。