CN107194420A - 一种模糊粗糙集中基于信息增益率的属性选择方法 - Google Patents
一种模糊粗糙集中基于信息增益率的属性选择方法 Download PDFInfo
- Publication number
- CN107194420A CN107194420A CN201710344308.1A CN201710344308A CN107194420A CN 107194420 A CN107194420 A CN 107194420A CN 201710344308 A CN201710344308 A CN 201710344308A CN 107194420 A CN107194420 A CN 107194420A
- Authority
- CN
- China
- Prior art keywords
- attribute
- ratio
- information gain
- fuzzy
- selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Fuzzy Systems (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Automation & Control Theory (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种模糊粗糙集中基于信息增益率的属性选择方法。本发明方法是在模糊粗糙集下,计算各属性的信息增益率,去除信息增益率较小的属性;计算各个未被选择的属性的信息增益率,选择信息增益率最大的属性,并加入到属性选择结果中;重复上面的选择过程,直到信息增益率的最大值为0或未被选择的属性集为空集,去除选择结果中的冗余属性。本发明相比目前模糊粗糙集中存在的基于信息增益率的属性选择方法,可以进一步的从大量的属性中消除无关、冗余的属性,从而提高数据质量、加速数据处理速度和改善分类器的泛化能力。
Description
技术领域
本发明涉及属性选择方法,具体是指一种模糊粗糙集中基于信息增益率的属性选择方法。
背景技术
现实中由于数据采集的结果往往伴随着噪声数据,这使得不确定数学工具显得尤为重要。粗糙集理论与其他处理不确定和不精确问题理论相比,无需提供问题所需处理的数据集合之外的任何先验知识。由于粗糙集处理不确定数据的优越性,目前已经在分类、聚类等多个领域得到广泛应用,其中,属性选择是最为重要的应用之一。属性选择可以从大量的属性中消除冗余、无关的属性,从而提高数据质量、加速数据处理速度和改善分类器的泛化能力。
经典的粗糙集理论只能够处理符号属性,对于数值属性必须提前进行离散化处理。D.Dubios和H.Prad在1992年提出了模糊粗糙集,模糊粗糙集将模糊集和离散集结合,用模糊集和隶属度来描述一个对象和集合间的关系,可以直接处理数值属性。相比离散化,模糊化能较好的保留数值属性的信息。
信息增益率是一种选择属性的有效方法,可以惩罚值较多的属性,在实际使用中往往具有较好的效果。
但目前模糊粗糙集中存在的基于信息增益率的属性选择方法(Dai J,XuQ.Attribute selection based on information gain ratio in fuzzy rough settheory with application to tumor classification[J].Applied Soft Computing,2013,13(1):211-221.):(1)没有去除相关性较低的属性,相关性较低的属性可能会被选择到结果中。(2)属性选择的结果中,可能存在冗余。为了解决上述问题,提升模糊粗糙集中属性选择方法,本发明将提出一种新的模糊粗糙集中基于信息增益率的属性选择方法。相比目前模糊粗糙集中存在的基于信息增益率的属性选择方法,可以进一步从大量的属性中消除无关、冗余的属性,从而提高数据质量、加速数据处理速度和改善分类器的泛化能力。
发明内容
本发明的目的是为了提升模糊粗糙集中属性选择方法,而提出一种新的模糊粗糙集中基于信息增益率的属性选择方法。
为了实现以上发明的目的,本发明采用的技术方案如下:
本发明方法是在模糊粗糙集下,计算各属性的信息增益率,去除信息增益率小于给定阈值的属性;计算各个未被选择的属性的信息增益率,选择信息增益率最大的属性,并加入到属性选择结果中;重复上面的选择过程,直到信息增益率的最大值为0或未被选择的属性集为空集,去除选择结果中的冗余属性。
这里的各个未被选择的属性是指代删除信息增益率小于给定阈值的属性后的模糊粗糙集下的属性。
上述基于模糊粗糙集信息增益率的属性选择方法的具体描述如下:
输入:一个决策表DT=(U,A=C∪D,V,f),其中U是论域,C是条件属性集,D是决策属性集,V是值域,f是U和A到V的映射。
论域中对象间的模糊相似关系。
阈值δ(可根据实际情况调节,默认为一个较小的值:0.000001)。
输出:属性选择结果B
第1步:令属性选择结果B的初始值为空集,未被选择的属性集M的初始值为C
第2步:对于未选择属性集M中的每个属性a,如果信息增益率GR(a,B,D)<δ,则M=M–{a};
第3步:对于未选择属性集M中的每个属性a,计算信息增益率GR(a,B,D);并将信息增益率最大的属性记为a′。
第4步:B=B∪a′,M=M-a′。
第5步:如果信息增益率GR(a′,B,D)>0,并且继续执行第3步和第4步;否则,进入下一步。
第6步:对于属性选择结果B中的每个属性a,如果信息增益率GR(a,B–{a},D)=0,则B=B–{a}。遍历属性选择结果B中所有属性,最终得到所需的结果集。(先选择的属性往往更重要,因此优先去除后选择的属性,即在本步中反向遍历B)
本发明方法具有模糊粗糙集的优点,可以直接处理数值属性,而且使用信息增益率选择属性;提前去除相关性较低的属性,防止相关性较低的属性被选择到结果中;属性选择后,去除结果中的冗余属性。相比目前模糊粗糙集中存在的基于信息增益率的属性选择方法,可以进一步的从大量的属性中消除无关、冗余的属性,从而提高数据质量、加速数据处理速度和改善分类器的泛化能力。
附图说明
图1为本发明的方法流程图;
图2为本发明的实施流程图。
具体实施方式
下面结合具体实施例对本发明做进一步的分析。
本发明包括以下4个步骤,图1为本发明的方法流程图;图2为本发明的实施流程图。
(1)将数据转化为粗糙集中使用的决策表格式
(2)计算决策表中对象的模糊相似关系,常用的数值属性的模糊相似关系如下
其中:xi和xj表示论域U中的2个对象,amax表示属性a的最大值,amin表示属性a的最小值。
(3)通过本发明的基于模糊粗糙集信息增益率的属性选择方法,得到属性选择结果
(4)输出属性选择结果
实验例:
在医疗领域,用机器学***均值,采用的分类器为逻辑回归。
表1数据集信息
#dataset | #instances | #attributes | #class |
BCW | 569 | 32 | 2 |
表2属性选择后的数据集与原始数据集对比
上述实施例并非是对于本发明的限制,本发明并非仅限于上述实施例,只要符合本发明要求,均属于本发明的保护范围。
Claims (2)
1.一种模糊粗糙集中基于信息增益率的属性选择方法,其特征在于在模糊粗糙集下,计算各属性的信息增益率,去除信息增益率较小的属性;计算各个未被选择的属性的信息增益率,选择信息增益率最大的属性,并加入到属性选择结果中;重复上面的选择过程,直到信息增益率的最大值为0或未被选择的属性集为空集,去除选择结果中的冗余属性。
2.如权利要求1所述的一种模糊粗糙集中基于信息增益率的属性选择方法,其特征在于
输入:①一个决策表DT=(U,A=C∪D,V,f),其中U是论域,C是条件属性集,D是决策属性集,V是值域,f是U和A到V的映射;
②论域中对象间的模糊相似关系;
③阈值δ;
输出:属性选择结果B;
该方法具体包括以下步骤:
第1步:令属性选择结果B的初始值为空集,未被选择的属性集M的初始值为C;
第2步:对于未选择属性集M中的每个属性a,如果信息增益率GR(a,B,D)<δ,则M=M–{a};
第3步:对于未选择属性集M中的每个属性a,计算信息增益率GR(a,B,D);并将信息增益率最大的属性记为a′;
第4步:B=B∪a′,M=M-a′;
第5步:如果信息增益率GR(a′,B,D)>0,并且继续执行第3步和第4步;否则,进入下一步;
第6步:对于属性选择结果B中的每个属性a,如果信息增益率GR(a,B–{a},D)=0,则B=B–{a};遍历属性选择结果B中所有属性,最终得到所需的结果集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710344308.1A CN107194420A (zh) | 2017-05-16 | 2017-05-16 | 一种模糊粗糙集中基于信息增益率的属性选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710344308.1A CN107194420A (zh) | 2017-05-16 | 2017-05-16 | 一种模糊粗糙集中基于信息增益率的属性选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107194420A true CN107194420A (zh) | 2017-09-22 |
Family
ID=59872706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710344308.1A Pending CN107194420A (zh) | 2017-05-16 | 2017-05-16 | 一种模糊粗糙集中基于信息增益率的属性选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107194420A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109118004A (zh) * | 2018-08-16 | 2019-01-01 | 李宏伟 | 一种工程构筑选址适宜区预测方法 |
CN109934278A (zh) * | 2019-03-06 | 2019-06-25 | 宁夏医科大学 | 一种信息增益混合邻域粗糙集的高维度特征选择方法 |
-
2017
- 2017-05-16 CN CN201710344308.1A patent/CN107194420A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109118004A (zh) * | 2018-08-16 | 2019-01-01 | 李宏伟 | 一种工程构筑选址适宜区预测方法 |
CN109118004B (zh) * | 2018-08-16 | 2021-09-14 | 李宏伟 | 一种工程构筑选址适宜区预测方法 |
CN109934278A (zh) * | 2019-03-06 | 2019-06-25 | 宁夏医科大学 | 一种信息增益混合邻域粗糙集的高维度特征选择方法 |
CN109934278B (zh) * | 2019-03-06 | 2023-06-27 | 宁夏医科大学 | 一种信息增益混合邻域粗糙集的高维度特征选择方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105719259A (zh) | 路面裂缝图像检测方法 | |
CN110390275B (zh) | 一种基于迁移学习的手势分类方法 | |
Bryan et al. | In-text patent citations: A user's guide | |
Zhong et al. | Cancer image classification based on DenseNet model | |
CN107330477A (zh) | 一种针对非均衡数据分类的改进smote再抽样方法 | |
CN107194420A (zh) | 一种模糊粗糙集中基于信息增益率的属性选择方法 | |
CN102831614A (zh) | 基于交互式字典迁移的序列医学图像快速分割方法 | |
CN107103334A (zh) | 一种基于卷积神经网络和字典对学习的肺结节分类方法 | |
CN107590262A (zh) | 大数据分析的半监督学习方法 | |
CN103020953A (zh) | 一种指纹图像的分割方法 | |
Pitroda et al. | An explainable AI model for interpretable lung disease classification | |
CN108959379A (zh) | 一种基于视觉显著区域和手绘草图的服装图像检索方法 | |
Wang et al. | Coal gangue image segmentation method based on edge detection theory of star algorithm | |
CN110070548A (zh) | 一种深度学习训练样本优化方法 | |
CN108537177A (zh) | 一种基于深度卷积神经网络的菜谱识别方法 | |
CN111309787B (zh) | 一种基于Apriori算法挖掘二维数据间关联规则的方法 | |
CN108710881A (zh) | 神经网络模型、候选目标区域生成方法、模型训练方法 | |
CN102880638B (zh) | 一种面向植物叶片的多样化图像检索的自适应的鲁棒cmvm特征降维与抽取方法 | |
CN104933751B (zh) | 基于局部直方图的心血管冠脉增强的体绘制方法及*** | |
Wang et al. | A novel fault diagnosis scheme for rolling bearing based on symbolic aggregate approximation and convolutional neural network with channel attention | |
CN103678541A (zh) | 一种翻译能力数据的关联规则的挖掘方法 | |
Singh et al. | Automatic diagnosis of mammographic abnormalities based on hybrid features with learning classifier | |
CN103793504B (zh) | 一种基于用户偏好与项目属性的聚类初始点选择方法 | |
Raja et al. | An entropy-based hybrid feature selection approach for medical datasets | |
CN107436862A (zh) | 一种基于基尼指数的区间值模糊粗糙集属性选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170922 |
|
RJ01 | Rejection of invention patent application after publication |