CN106056130A - 针对不平衡数据集的组合降采样线性判别分类方法 - Google Patents
针对不平衡数据集的组合降采样线性判别分类方法 Download PDFInfo
- Publication number
- CN106056130A CN106056130A CN201610331710.1A CN201610331710A CN106056130A CN 106056130 A CN106056130 A CN 106056130A CN 201610331710 A CN201610331710 A CN 201610331710A CN 106056130 A CN106056130 A CN 106056130A
- Authority
- CN
- China
- Prior art keywords
- sample
- negative
- training
- positive
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种针对不平衡数据集的组合降采样线性判别分类方法,包括以下步骤:得到原始数据的不平衡数据集的不平衡率IR;将全部的负样本进行不放回随机抽样,均匀生成IR个不相交的负样本子集,各子集中均包含约个负样本;对于每一个负样本子集,将其分别与全部正样本集组合,此时各子训练集中正负样本数目基本相同,得到IR个平衡的子训练集;分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA。本发明在获得更好的分类性能的同时保持了极高的分类器训练效率。
Description
技术领域
本发明涉及模式识别技术,具体涉及一种针对不平衡数据集的分类器。
背景技术
机器学***衡问题的集成学习技术得到了广泛关注。
专利“基于不平衡分类指标与集成学***衡数据分类方法”(CN104951809A)将多个分类器进行级联,通过加大错分样本在下一分类器中权重的方式提高分类器准确率,从而减小数据不平衡带来的分类性能损失。然而,该方法并未改变数据分布,仅通过对不同样本的权值进行调整以提升分类性能,其效果较为有限。专利“组合降采样极限学习机”(CN104573708A)受到经典的组合降采样支持向量机方法启发,将负样本划分为多个子集分别与全体正样本组成子训练,最后通过子分类器投票方式给出分类结果。组合降采样极限学习机在获得与组合降采样支持向量机相近的分类准确率的同时,省去了大量参数调节时间,大幅提高了分类器的训练效率,具有良好的应用前景。然而,由于其省去参数调节过程,不设置训练停止准则直接通过广义逆得到分类结果,分类模型易陷入过拟合,故极限学习机分类器本身的分类性能不够理想,从而导致组合降采样学习机的整体性能仍有提升空间。
从上述分析可以看出,当前,集成学***衡数据分类方面得到应用并取得较好的效果,但其性能依然有待进一步提高。
发明内容
本发明的目的是克服现有方法的不足,对经典集成学***衡数据集的 组合降采样线性判别分类方法,在维持较高运算效率的同时取得更高的准确率。本发明的技术方案如下:
一种针对不平衡数据集的组合降采样线性判别分类方法,设原始数据集中正样本数目为np,负样本数目为nn,该方法具体包括以下几个技术步骤:
(1)对原始数据集的nn和np求四舍五入整数商,得到不平衡数据集的不平衡率IR;
(2)将全部的负样本进行不放回随机抽样,均匀生成IR个不相交的负样本子集,各子集中均包含约np个负样本;
(3)对于每一个负样本子集,将其分别与全部正样本集组合,此时各子训练集中正负样本数目基本相同,得到IR个平衡的子训练集;
(4)分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA;
(5)对新样本进行分类,方法如下:将待分类样本输入训练完成后的每一个LDA分类器中,每个LDA分类器对这一样本给出分类结果,通过预先设定决策阈值th来改变分类***对正负类的关注程度,确定为该样本的最终分类结果。
本发明受组合降采样支持向量机和组合降采样极限学习机启发,继承组合降采样结构,使用线性判别分类器作为基分类器,在获得更好的分类性能的同时保持了极高的分类器训练效率。经实验比较,本发明在多个分类器评价指标上具有明显优势。
具体实施方式
下面结合实施例对本发明作进一步详细的说明:
(1)取得测试和训练数据:提取自数字乳腺X线图像数据库(Digital Databasefor Screening Mammography)的感兴趣区域共1950个。该数据集用于考察分类器对于肿瘤是否存在的分类准确度,数据集中正负样本(即有肿瘤与无肿瘤样本)数目不平衡,共有正样本401个,负样本1549个,即np=401,nn=1549。根据下式计算不平衡率
IR=round(nn/np) (1)
其中,round为四舍五入取整函数,确保最终得到的不平衡率为以整数值,可知不平衡率IR=4。对每个样本提取形态及纹理特征用于分类,包括是圆度、径向长度的平均值和标准差、灰度熵、灰度均值、灰度标准差、肿块面积、平均分形维数、分形维数标准差、光度惯性动力、各向异性、轮廓梯度熵、平滑度、偏度和峰度等共34维,进行归一化处理。
(2)将正负样本按十折交叉验证划分出训练集与测试集,用于对分类器进行训练与测试。每一折应由360个正样本和1495个负样本组成训练集,其余样本构成测试集。
(3)将训练集中的负样本平均分为容量基本相同的4部分,将此4部分分别与训练集中的全体正样 本相结合,得到4个基本平衡的训练集。
(4)用上述得到的4个平衡训练集分别训练线性判别分类器,训练过程如下:
假设给定一组n个d维的样本{x1,x2,…xn},其中有n1个样本属于类别χ1,而剩余的n2个样本属于类别χ2。取各自的类内均值为LDA的目标即为确定最佳的直线方向w,使分类效果最好。两类中,各自可得到类内均值LDA算法的目标即为找到使(2)式结果最大(max(J(w)))的w:
(2)式中,SB=(m1-m2)(m1-m2)T为类间散布矩阵,用于表征两类样本之间的离散程度;
为总类内散布矩阵,表示两类样本内各样本点之间的离散程度的总和。当J(w)取得最大时,即可搜索到一个方向w并由此得到一个判决边界,使各样本点的投影在此方向上满足类间离散度最大的同时两类各自的类内方差之和最小,即取得最高的类内耦合度和最低的类间耦合度。
对于一个新输入的样本x,在对其进行分类时,首先计算判别函数y=wTx,将其与判决边界进行比较,从而完成分类。
由于该种算法的目标是将高维模式样本投影以将所有样本分成两类,因此具有非常良好的降维效果,可大大提升分类效率。LDA更多依赖数据分布的均值信息,在两类均值具备投影可分的性质时可表现出良好的分类性能。
有关LDA的更详细内容,还可以参考下列两篇文献:
1)Welling M.Fisher linear discriminant analysis[J].Department ofComputer Science,University of Toronto,2005,3.
2)Scholkopft B,Mullert K R.Fisher discriminant analysis with kernels[J].Neural networks for signal processing IX,1999,1(1):1.
(5)将测试集中的样本输入组合降采样线性判别分类器中,每个子分类器均输出一个分类结果。对分类结果进行简单多数投票,若正类得票大于等于2,则将该样本分入正类,反之则分入负类。
表1给出了直接运用线性判别分类器对不平衡数据集进行分类、用组合降采样极限学习机进行分类及本发明所使用的方法进行分类分别得到的测试结果。本发明采用以下几个指标对分类器性能进行评价:
在实际应用中,执行效率也是衡量算法性能的非常重要的指标,执行效率越高的算法在实际应用中越有可能得到广泛应用。因此,也对各算法的执行效率进行比较与讨论,对于每种算法进行十折交叉验证并测试所需要的时间进行统计和比较。
表1分类算法结果与比较(同一指标下最好的结果用黑体标出)
由表1可以看出,组合降采样LDA在灵敏度和特异性两项指标上取得了最好的折中效果,同时顾及到了良性肿瘤和恶性肿瘤的检测准确率,且整体性能比简单LDA和组合降采样极限学习机均有提升。
在实际应用中,执行效率也是衡量算法性能的非常重要的指标,执行效率越高的算法在实际应用中越有可能得到广泛应用,此处也将对各算法的执行效率进行比较与讨论。耗时越长的算法执行效率越低,反之则执行效率越高。十折交叉验证的训练与分类总耗时如表2所示。
表2十折交叉验证执行时间
可以看出,组合降采样LDA的执行效率与简单LDA接近,且比组合降采样极限学习机效率更高。
综合表1和表2可以看出,本发明不仅在分类性能上比原先的集成学习算法有所提高,且可以保证较高的执行效率。
Claims (1)
1.一种针对不平衡数据集的组合降采样线性判别分类方法,设原始数据集中正样本数目为np,负样本数目为nn,该方法具体包括以下几个技术步骤:
(1)对原始数据集的nn和np求四舍五入整数商,得到不平衡数据集的不平衡率IR;
(2)将全部的负样本进行不放回随机抽样,均匀生成IR个不相交的负样本子集,各子集中均包含约np个负样本;
(3)对于每一个负样本子集,将其分别与全部正样本集组合,此时各子训练集中正负样本数目基本相同,得到IR个平衡的子训练集;
(4)分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA;
(5)对新样本进行分类,方法如下:将待分类样本输入训练完成后的每一个LDA分类器中,每个LDA分类器对这一样本给出分类结果,通过预先设定决策阈值th来改变分类***对正负类的关注程度,确定为该样本的最终分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610331710.1A CN106056130A (zh) | 2016-05-18 | 2016-05-18 | 针对不平衡数据集的组合降采样线性判别分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610331710.1A CN106056130A (zh) | 2016-05-18 | 2016-05-18 | 针对不平衡数据集的组合降采样线性判别分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106056130A true CN106056130A (zh) | 2016-10-26 |
Family
ID=57176448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610331710.1A Pending CN106056130A (zh) | 2016-05-18 | 2016-05-18 | 针对不平衡数据集的组合降采样线性判别分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106056130A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106529598A (zh) * | 2016-11-11 | 2017-03-22 | 北京工业大学 | 一种基于不均衡医疗图像数据集的分类方法与*** |
CN109145128A (zh) * | 2018-08-15 | 2019-01-04 | 东北大学 | 一种大规模数据在线可视化方法 |
CN109446324A (zh) * | 2018-10-16 | 2019-03-08 | 北京字节跳动网络技术有限公司 | 样本数据的处理方法、装置、存储介质及电子设备 |
CN110222559A (zh) * | 2019-04-24 | 2019-09-10 | 深圳市微纳集成电路与***应用研究院 | 基于卷积神经网络的烟雾图像检测方法及装置 |
CN110276409A (zh) * | 2019-06-27 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 一种时间序列异常检测方法、装置、服务器和存储介质 |
CN110321427A (zh) * | 2018-03-28 | 2019-10-11 | 广东亿迅科技有限公司 | 面向不平衡数据集的基于bagging算法的文本分类方法及装置 |
CN111062806A (zh) * | 2019-12-13 | 2020-04-24 | 合肥工业大学 | 个人金融信用风险评价方法、***和存储介质 |
CN111091142A (zh) * | 2019-11-25 | 2020-05-01 | 国网四川省电力公司电力科学研究院 | 样本数量不平衡的电力***暂态稳定状态集成预测方法 |
WO2020140597A1 (zh) * | 2018-12-31 | 2020-07-09 | 华南理工大学 | 一种适用于无标签不平衡数据流的在线主动学习方法 |
CN113223727A (zh) * | 2021-05-08 | 2021-08-06 | 浙江大学 | 非小细胞肺癌集成预后预测模型及其构建方法、装置和应用 |
CN114220026A (zh) * | 2021-12-30 | 2022-03-22 | 杭州电子科技大学 | 一种基于多分类思想的海面小目标检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254177A (zh) * | 2011-04-22 | 2011-11-23 | 哈尔滨工程大学 | 一种不均衡数据svm轴承故障检测方法 |
CN102298646A (zh) * | 2011-09-21 | 2011-12-28 | 苏州大学 | 一种主观文本和客观文本分类方法及装置 |
CN102945280A (zh) * | 2012-11-15 | 2013-02-27 | 翟云 | 一种基于非平衡数据分布的多异质基分类器融合分类方法 |
CN103645249A (zh) * | 2013-11-27 | 2014-03-19 | 国网黑龙江省电力有限公司 | 基于精简集下采样不均衡svm变压器在线故障检测方法 |
CN103927874A (zh) * | 2014-04-29 | 2014-07-16 | 东南大学 | 基于欠抽样面向不平衡数据集的交通事件自动检测方法 |
-
2016
- 2016-05-18 CN CN201610331710.1A patent/CN106056130A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254177A (zh) * | 2011-04-22 | 2011-11-23 | 哈尔滨工程大学 | 一种不均衡数据svm轴承故障检测方法 |
CN102298646A (zh) * | 2011-09-21 | 2011-12-28 | 苏州大学 | 一种主观文本和客观文本分类方法及装置 |
CN102945280A (zh) * | 2012-11-15 | 2013-02-27 | 翟云 | 一种基于非平衡数据分布的多异质基分类器融合分类方法 |
CN103645249A (zh) * | 2013-11-27 | 2014-03-19 | 国网黑龙江省电力有限公司 | 基于精简集下采样不均衡svm变压器在线故障检测方法 |
CN103927874A (zh) * | 2014-04-29 | 2014-07-16 | 东南大学 | 基于欠抽样面向不平衡数据集的交通事件自动检测方法 |
Non-Patent Citations (3)
Title |
---|
PILSUNG KANG,SUNGZOON CHO: "EUS SVMs: Ensemble of Under-Sampled SVMs for Data Imbalance Problems", 《ICONIP 2006》 * |
XIAOGUANG LU 等: "Resampling for Face Recognition", 《AVBPA 2003》 * |
闵行 等: "组合降采样极限学习机", 《信息技术》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106529598A (zh) * | 2016-11-11 | 2017-03-22 | 北京工业大学 | 一种基于不均衡医疗图像数据集的分类方法与*** |
CN106529598B (zh) * | 2016-11-11 | 2020-05-08 | 北京工业大学 | 一种基于不均衡医疗图像数据集的分类方法与*** |
CN110321427A (zh) * | 2018-03-28 | 2019-10-11 | 广东亿迅科技有限公司 | 面向不平衡数据集的基于bagging算法的文本分类方法及装置 |
CN109145128A (zh) * | 2018-08-15 | 2019-01-04 | 东北大学 | 一种大规模数据在线可视化方法 |
CN109145128B (zh) * | 2018-08-15 | 2021-06-29 | 东北大学 | 一种大规模数据在线可视化方法 |
CN109446324A (zh) * | 2018-10-16 | 2019-03-08 | 北京字节跳动网络技术有限公司 | 样本数据的处理方法、装置、存储介质及电子设备 |
CN109446324B (zh) * | 2018-10-16 | 2020-12-15 | 北京字节跳动网络技术有限公司 | 样本数据的处理方法、装置、存储介质及电子设备 |
WO2020140597A1 (zh) * | 2018-12-31 | 2020-07-09 | 华南理工大学 | 一种适用于无标签不平衡数据流的在线主动学习方法 |
CN110222559A (zh) * | 2019-04-24 | 2019-09-10 | 深圳市微纳集成电路与***应用研究院 | 基于卷积神经网络的烟雾图像检测方法及装置 |
CN110276409A (zh) * | 2019-06-27 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 一种时间序列异常检测方法、装置、服务器和存储介质 |
CN111091142A (zh) * | 2019-11-25 | 2020-05-01 | 国网四川省电力公司电力科学研究院 | 样本数量不平衡的电力***暂态稳定状态集成预测方法 |
CN111062806A (zh) * | 2019-12-13 | 2020-04-24 | 合肥工业大学 | 个人金融信用风险评价方法、***和存储介质 |
CN111062806B (zh) * | 2019-12-13 | 2022-05-10 | 合肥工业大学 | 个人金融信用风险评价方法、***和存储介质 |
CN113223727A (zh) * | 2021-05-08 | 2021-08-06 | 浙江大学 | 非小细胞肺癌集成预后预测模型及其构建方法、装置和应用 |
CN113223727B (zh) * | 2021-05-08 | 2022-07-12 | 浙江大学 | 非小细胞肺癌集成预后预测模型及其构建方法、装置和应用 |
CN114220026A (zh) * | 2021-12-30 | 2022-03-22 | 杭州电子科技大学 | 一种基于多分类思想的海面小目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106056130A (zh) | 针对不平衡数据集的组合降采样线性判别分类方法 | |
Gupta et al. | Breast cancer histopathological image classification: is magnification important? | |
Nanni et al. | Survey on LBP based texture descriptors for image classification | |
Saha et al. | Brain image segmentation using semi-supervised clustering | |
Rathore et al. | Automated colon cancer detection using hybrid of novel geometric features and some traditional features | |
Naseem et al. | An automatic detection of breast cancer diagnosis and prognosis based on machine learning using ensemble of classifiers | |
Hussain et al. | A comparison of SVM kernel functions for breast cancer detection | |
Wajid et al. | Local energy-based shape histogram feature extraction technique for breast cancer diagnosis | |
CN109658411A (zh) | 一种基于ct影像学特征与非小细胞肺癌患者预后情况的相关性分析方法 | |
CN105760888B (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
Suresh et al. | A novel internet of things framework integrated with real time monitoring for intelligent healthcare environment | |
CN108647736A (zh) | 一种基于感知损失和匹配注意力机制的图像分类方法 | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类***及方法 | |
CN102208020A (zh) | 基于最优维数标度切判据的人脸识别方法 | |
Xu et al. | Adjustable adaboost classifier and pyramid features for image-based cervical cancer diagnosis | |
CN107679368A (zh) | 基于遗传算法和变精度粗糙集的pet/ct高维特征级选择方法 | |
CN109934278A (zh) | 一种信息增益混合邻域粗糙集的高维度特征选择方法 | |
CN106250701B (zh) | 计算机软件***中实现肺结节危险程度分类的***和方法 | |
Abdel-Nasser et al. | Towards cost reduction of breast cancer diagnosis using mammography texture analysis | |
CN103246894A (zh) | 一种解决光照不敏感问题的地基云图识别方法 | |
CN103955709A (zh) | 基于加权合成核与tmf的极化sar图像分类方法 | |
Dong et al. | Cervical cell classification based on the CART feature selection algorithm | |
Tian et al. | Breast cancer diagnosis using feature extraction and boosted C5. 0 decision tree algorithm with penalty factor | |
CN101853401B (zh) | 一种基于二维经验模态分解的多分组图像分类方法 | |
Thibault et al. | Efficient statistical/morphological cell texture characterization and classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161026 |
|
RJ01 | Rejection of invention patent application after publication |