CN105975992A - 一种基于自适应升采样的不平衡数据集分类方法 - Google Patents

一种基于自适应升采样的不平衡数据集分类方法 Download PDF

Info

Publication number
CN105975992A
CN105975992A CN201610331709.9A CN201610331709A CN105975992A CN 105975992 A CN105975992 A CN 105975992A CN 201610331709 A CN201610331709 A CN 201610331709A CN 105975992 A CN105975992 A CN 105975992A
Authority
CN
China
Prior art keywords
sample
positive
positive sample
samples
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610331709.9A
Other languages
English (en)
Inventor
吕卫
李喆
褚晶辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610331709.9A priority Critical patent/CN105975992A/zh
Publication of CN105975992A publication Critical patent/CN105975992A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于自适应升采样的不平衡数据集分类方法,包括以下步骤:根据和计算不平衡数据集的不平衡率,计算需要新生成的正样本总数;以欧氏距离为度量,对于每个正样本,计算概率密度分布;)确定该正样本所需生成的新样本个数;生成新的正样本,将新生成的正样本点加入到原有的不平衡训练集中,使正负样本数目相同,即得到包含正样本和负样本各nn个的新平衡训练集;对新生成的平衡训练集运用Adaboost算法进行训练,迭代T次后得到最终的分类模型。本发明可以提高不平衡数据集的分类性能。

Description

一种基于自适应升采样的不平衡数据集分类方法
所属技术领域
本发明涉及模式识别技术,具体涉及一种针对不平衡数据集的分类器。
背景技术
随着数据挖掘、模式识别与机器学***衡数据集的分类算法成为了研究热点。
近年来,科研人员提出了多种针对不平衡数据集的分类方法。根据作用对象的不同,这些方法主要可以被分为数据级方法和算法级方法两大类。
数据级方法主要通过对数据进行重采样来改变数据分布,使正负样本的数目基本相同,以此实现数据平衡。对负样本进行降采样和对正样本进行升采样均可达到这一目的。专利“基于有监督上采样学***衡的数据集并用于训练支持向量机。但由于该种方法只是将正样本进行复制后加入原有的数据集中,相当于每个正样本均被多次训练,容易出现过拟合现象,最终导致分类器性能下降。专利“基于欠抽样面向不平衡数据集的交通事件自动检测方法”(CN103927874A)采用降采样方法,从负样本集中随机抽取部分样本与全体正样本组成训练集对分类器进行训练。但由于丢弃了大量负样本,该方法无法保证抽取得到的负样本子集能够较好代表原有样本集,因此训练效果也不够理想。
算法级方法主要通过改进分类算法而非改变数据分布来解决不平衡分类问题。Adaboost是经典的算法级方法之一。这种方法通过将多个分类器级联,并不断增加错分样本的权重以提高将该类样本再次错分的代价,由此提高分类的准确率。然而,由于传统的Adaboost算法本身并未过多关注正样本,因此效果仍然不够理想。
从上述分析可以看出,数据级方法和算法级方法虽然都可以减轻数据不平衡对分类效果产生的影响,但两种方法均存在一定的局限性。
发明内容
本发明的目的是克服现有方法的不足,提出一种基于自适应升采样的不平衡数据集分类算法,以提高不平衡数据集的分类性能。本发明的技术方案如下:
一种基于自适应升采样的不平衡数据集分类方法,设原始不平衡数据集中正样本数目为np,负样本数目为nn,该方法包括以下步骤:
(1)根据np和nn计算不平衡数据集的不平衡率IR,由IR计算需要新生成的正样本总数G;
(2)以欧氏距离为度量,对于每个正样本i,搜索不平衡数据集中同其距离最近的K个最近邻样本,统计上述K个最近邻样本中负样本所占的比例,记为pi,对各个正样本所得到的pi值相加并进行归一化处理,将处理完成后得到的值记为ri,此时各正样本的ri值之和为1,即ri形成概率密度分布,称ri为正样本i的概率;
(3)对于每个正样本i,根据正样本总数G值与步骤(2)中得到的概率ri确定该正样本所需生成的新样本个数gi
(4)对于每个正样本i,在步骤(2)中得到的K个最近邻样本中随机选取gi个,分别与其组成样本对,在样本对的连线上随机选取一点即得到新生成的正样本,新的正样本生成过程完成后生成G个新的正样本点,将新生成的G个正样本点加入到原有的不平衡训练集中,使正负样本数目相同,即得到包含正样本和负样本各nn个的新平衡训练集;
(5)记Adaboost算法的迭代次数为T,对新生成的平衡训练集运用Adaboost算法进行训练,迭代T次后得到最终的分类模型。
本发明针对不平衡数据集,将数据级方法和算法级方法结合的算法,并对升采样算法进行改进与优化,主要对在正负样本边界附近的正样本点进行升采样,对远离边界的正样本不做处理,以在不平衡数据集上获得更好的分类效果,结合了自适应升采样算法与Adaboost算法的优点,保证升采样中生成的新正样本主要集中在边界附近,同时通过组合分类器进行增强学习,提高分类器整体性能。经实验比较,本发明在多个分类器评价指标上具有明显优势。
附图说明
图1是Adaboost增强学习算法流程图。
图2是本发明的流程图。
具体实施方式
本发明受自适应升采样算法和图1所示Adaboost算法启发,将二者进行组合,形成一个集成分类器。下面结合附图对本发明作进一步详细的说明。
(1)取得测试和训练数据:本发明选择KEEL数据库中的车辆种类识别数据库,共包含样本846个。数据库中的正样本为小货车数据,共199个,即np=199。负样本包含公交车、欧宝轿车、萨博汽车共三种车辆的数据,共647个,即nn=647。数据库中包含扭矩、转向半径、最大制动距离等共18维特征。按(1)式计算不平衡率,
IR=nn/np(1)
可得在本实验中不平衡率应为3.25。
(2)按(2)式计算需要生成的正样本个数,
G=(nn-np)×β(2)
其中,β是一个介于0到1之间的常数。当β=1时,经升采样后正负样本的数目将完全相同,数据集达到完全平衡,本发明取β=1。可知,需要生成的新正样本数目应为448。随后根据该值对正样本进行自适应升采样处理,使正负样本数目达到平衡。具体方法为:对于每个正样本,以欧氏距离作为度量,分别计算距其最近的K个样本点中负样本所占比例pi:
pi=ki/K,i=1,...,np (3)
为保证准确判断每个正样本是否在正负样本边界附近,K应取较大值,但随着K值的增加,计算量也将明显增加。为保持较低计算复杂度,本发明对上述两需求进行折中处理,取K=5。随后,对所有pi进行归一化处理,使其表示为概率密度分布并计算每个正样本应生成的新正样本个数
g i = p i Σ j = 1 n p p j × G - - - ( 4 )
由(4)式可知,越靠近边界、邻近样本中负样本较多的样本点将被用于生成更多正样本,而远离边界、邻近样本均为正样本的样本点将不会被用于生成正样本。随后,对每一个正样本,在其K个最近邻样本点中随机选取gi个,按(5)式方法生成新的正样本:
newi=xi+λ(xni-xi)(5)
其中,newi是新生成的样本点,λ为一个取值在0到1之间的随机数,xni为被随机选中的邻近样本点。对于每个正样本,这一过程将进行gi次。样本生成过程完成后,将新生成的样本点加入到原有的不平衡训练集中,即可得到新的平衡训练集。这种自适应的增采样方法可以确保新生成的训练集不存在不平衡问题,且新生成的样本主要位于正负样本区分难度较大的边界区域。
由图1和图2可看出,若直接进行随机升采样,将所有正样本点进行复制,则新生成的样本点将与原来的正样本点完全重合且分布在整个正样本空间内。而自适应升采样可以生成与原样本点不同的正样本,且新生成的正样本均在边界附近。
(3)本发明采取五折交叉验证对不平衡数据集进行训练与测试。训练与测试均选择C4.5决策树作为基分类器的Adaboost分类算法。其中,设C4.5决策树的最小叶节点数为2,置信度为0.25,树训练完成后需进行剪枝处理。所有数据在进入分类器前均完成归一化处理,即数据最小值为0,最大值为1。正样本数据标签为+1,负样本数据标签为-1。
将平衡的正负样本按五折交叉验证划分出训练集与测试集,此时训练集中应包含正负样本各518个。训练所用的样本个数为2nn,即1036。取Adaboost算法的迭代次数T=10,则按如下方法进行训练:
1.记各样本权值为Dt(i),其中,t可取1到(T-1)之间的整数值,表示当前迭代轮次,i表示样本编号。初始化每个样本的权值均为D1(i)=1/(2nn),i=1,...,2nn.
2.将加权后的训练集用于训练分类器ht,训练完成后计算其训练错误率
ϵ t = Σ i = 1 m D t [ y i ≠ h t ( x i ) ] - - - ( 6 )
其中,t=1,...T,为当前所处的迭代轮次数。εt为第t轮迭代的训练错误率,Dt(i)为该轮迭代中每个样本的权重,yi为样本xi所属的类别标签,取值为1或-1。h(xi)为样本xi经训练后的分类标签。
3.设第t轮迭代完成后得到的分类器在最终投票中的权重为αt,根据每轮迭代中的训练错误率计算该轮迭代训练生成的分类器的权重为
α t = 1 2 l n 1 - ϵ t ϵ t - - - ( 7 )
同时,在下一轮迭代中,每个样本的权重更新为
D t + 1 ( i ) = D t ( i ) exp [ - α t y i h t ( x i ) ] Z t - - - ( 8 )
其中,Zt为当前迭代轮次中各样本的权值之和,用于对各样本权值进行归一化处理。
4.执行2,3步骤共T次,完成全部迭代与权值更新过程,从而完成分类器训练。对于待分类的测试样本,其分类结果应为
s i g n ( H ( x ) = Σ t = 1 T α t h t ( x ) ) - - - ( 9 )
由(7)式可知,每个子分类器的权重由其分类错误率决定。错误率更低的分类器将在(9)式的投票过程中获得更高的权重。此外,对于单个样本,由式(8)可以看到,若样本的原始标签与分类结果不同,则指数幂的值将大于0,自然对数的结果将小于1,使得该样本在下轮迭代中的权重增加。反之,样本在下轮迭代中的权值将会减小。
将测试集样本输入完成训练的分类器中,测试样本的最终分类结果,如图2所示。
表1给出了直接运用C4.5决策树对不平衡数据集进行分类、对正样本进行随机升采样后运用C4.5进行分类及本发明所使用的方法进行分类分别得到的测试结果。我们采用以下几个指标对分类器性能进行评价:
表1分类算法结果与比较(同一指标下最好的结果用黑体标出)
由表1数据可以看出,直接使用C4.5决策树进行分类虽然可以得到最高的特异性指标,但灵敏度最低,证明此时数据不平衡现象对分类性能产生了明显影响。正样本的边界区域被侵噬,大量正样本被误分为负样本。经过简单的随机升采样后,这一问题有所缓解,但灵敏度与特异性的差距仍然较大;而本发明同时得到了良好的灵敏度和特异性指标,二者的几何平均值在参与对比的几种方法中同样最高,证明本发明对灵敏度和特异性有最佳折中。
综上所述,本发明可以在不平衡数据集上获得良好的分类效果,有效消除数据不平衡问题对分类带来的消极影响。

Claims (1)

1.一种基于自适应升采样的不平衡数据集分类方法,设原始不平衡数据集中正样本数目为np,负样本数目为nn,该方法包括以下步骤:
(1)根据np和nn计算不平衡数据集的不平衡率IR,由IR计算需要新生成的正样本总数G;
(2)以欧氏距离为度量,对于每个正样本i,搜索不平衡数据集中同其距离最近的K个最近邻样本,统计上述K个最近邻样本中负样本所占的比例,记为pi,对各个正样本所得到的pi值相加并进行归一化处理,将处理完成后得到的值记为ri,此时各正样本的ri值之和为1,即ri形成概率密度分布,称ri为正样本i的概率;
(3)对于每个正样本i,根据正样本总数G值与步骤(2)中得到的概率ri确定该正样本所需生成的新样本个数gi
(4)对于每个正样本i,在步骤(2)中得到的K个最近邻样本中随机选取gi个,分别与其组成样本对,在样本对的连线上随机选取一点即得到新生成的正样本,新的正样本生成过程完成后生成G个新的正样本点,将新生成的G个正样本点加入到原有的不平衡训练集中,使正负样本数目相同,即得到包含正样本和负样本各nn个的新平衡训练集;
(5)记Adaboost算法的迭代次数为T,对新生成的平衡训练集运用Adaboost算法进行训练,迭代T次后得到最终的分类模型。
CN201610331709.9A 2016-05-18 2016-05-18 一种基于自适应升采样的不平衡数据集分类方法 Pending CN105975992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610331709.9A CN105975992A (zh) 2016-05-18 2016-05-18 一种基于自适应升采样的不平衡数据集分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610331709.9A CN105975992A (zh) 2016-05-18 2016-05-18 一种基于自适应升采样的不平衡数据集分类方法

Publications (1)

Publication Number Publication Date
CN105975992A true CN105975992A (zh) 2016-09-28

Family

ID=56955297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610331709.9A Pending CN105975992A (zh) 2016-05-18 2016-05-18 一种基于自适应升采样的不平衡数据集分类方法

Country Status (1)

Country Link
CN (1) CN105975992A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273916A (zh) * 2017-05-22 2017-10-20 上海大学 隐写算法未知的信息隐藏检测方法
CN108133223A (zh) * 2016-12-01 2018-06-08 富士通株式会社 确定卷积神经网络cnn模型的装置和方法
CN108334455A (zh) * 2018-03-05 2018-07-27 清华大学 基于搜索的代价敏感超图学习的软件缺陷预测方法及***
CN108629413A (zh) * 2017-03-15 2018-10-09 阿里巴巴集团控股有限公司 神经网络模型训练、交易行为风险识别方法及装置
CN108733633A (zh) * 2018-05-18 2018-11-02 北京科技大学 一种样本分布调整的不平衡数据回归方法及装置
CN108776711A (zh) * 2018-03-07 2018-11-09 中国电力科学研究院有限公司 一种电力***暂态样本数据提取方法及***
CN109086412A (zh) * 2018-08-03 2018-12-25 北京邮电大学 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法
CN109327464A (zh) * 2018-11-15 2019-02-12 中国人民解放军战略支援部队信息工程大学 一种网络入侵检测中类别不平衡处理方法及装置
CN109614967A (zh) * 2018-10-10 2019-04-12 浙江大学 一种基于负样本数据价值重采样的车牌检测方法
CN109740750A (zh) * 2018-12-17 2019-05-10 北京深极智能科技有限公司 数据收集方法及装置
CN109756494A (zh) * 2018-12-29 2019-05-14 ***股份有限公司 一种负样本变换方法及装置
CN109862392A (zh) * 2019-03-20 2019-06-07 济南大学 互联网游戏视频流量的识别方法、***、设备及介质
CN110163226A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 平衡化数据集生成方法和装置以及分类方法和装置
CN110998648A (zh) * 2018-08-09 2020-04-10 北京嘀嘀无限科技发展有限公司 一种分配订单的***和方法
CN111062806A (zh) * 2019-12-13 2020-04-24 合肥工业大学 个人金融信用风险评价方法、***和存储介质
WO2020082734A1 (zh) * 2018-10-24 2020-04-30 平安科技(深圳)有限公司 文本情感识别方法、装置、电子设备及计算机非易失性可读存储介质
CN111598189A (zh) * 2020-07-20 2020-08-28 北京瑞莱智慧科技有限公司 产生式模型的训练方法、数据生成方法、装置、介质和设备
CN111652268A (zh) * 2020-04-22 2020-09-11 浙江盈狐云数据科技有限公司 一种基于重采样机制的不平衡流数据分类方法
CN113903030A (zh) * 2021-10-12 2022-01-07 杭州迪英加科技有限公司 一种基于弱监督学习的液基细胞病理图像生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927874A (zh) * 2014-04-29 2014-07-16 东南大学 基于欠抽样面向不平衡数据集的交通事件自动检测方法
CN104573708A (zh) * 2014-12-19 2015-04-29 天津大学 组合降采样极限学习机
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学***衡数据分类方法
CN105373806A (zh) * 2015-10-19 2016-03-02 河海大学 一种基于不确定数据集的离群检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927874A (zh) * 2014-04-29 2014-07-16 东南大学 基于欠抽样面向不平衡数据集的交通事件自动检测方法
CN104573708A (zh) * 2014-12-19 2015-04-29 天津大学 组合降采样极限学习机
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学***衡数据分类方法
CN105373806A (zh) * 2015-10-19 2016-03-02 河海大学 一种基于不确定数据集的离群检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAIBO HE 等: "ADASYN: Adaptive Synthetic Sampling Approach for Imbalanced Learning", 《2008 IEEE INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 *
刘余霞 等: "一种新的过采样算法DB_SMOTE", 《计算机工程与应用》 *
陶新民 等: "不均衡数据分类算法的综述", 《重庆邮电大学学报(自然科学版)》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133223B (zh) * 2016-12-01 2020-06-26 富士通株式会社 确定卷积神经网络cnn模型的装置和方法
CN108133223A (zh) * 2016-12-01 2018-06-08 富士通株式会社 确定卷积神经网络cnn模型的装置和方法
CN108629413A (zh) * 2017-03-15 2018-10-09 阿里巴巴集团控股有限公司 神经网络模型训练、交易行为风险识别方法及装置
CN108629413B (zh) * 2017-03-15 2020-06-16 创新先进技术有限公司 神经网络模型训练、交易行为风险识别方法及装置
CN107273916B (zh) * 2017-05-22 2020-10-16 上海大学 隐写算法未知的信息隐藏检测方法
CN107273916A (zh) * 2017-05-22 2017-10-20 上海大学 隐写算法未知的信息隐藏检测方法
CN110163226A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 平衡化数据集生成方法和装置以及分类方法和装置
CN108334455A (zh) * 2018-03-05 2018-07-27 清华大学 基于搜索的代价敏感超图学习的软件缺陷预测方法及***
CN108334455B (zh) * 2018-03-05 2020-06-26 清华大学 基于搜索的代价敏感超图学习的软件缺陷预测方法及***
CN108776711A (zh) * 2018-03-07 2018-11-09 中国电力科学研究院有限公司 一种电力***暂态样本数据提取方法及***
CN108733633A (zh) * 2018-05-18 2018-11-02 北京科技大学 一种样本分布调整的不平衡数据回归方法及装置
CN109086412A (zh) * 2018-08-03 2018-12-25 北京邮电大学 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法
CN110998648A (zh) * 2018-08-09 2020-04-10 北京嘀嘀无限科技发展有限公司 一种分配订单的***和方法
CN109614967B (zh) * 2018-10-10 2020-07-17 浙江大学 一种基于负样本数据价值重采样的车牌检测方法
CN109614967A (zh) * 2018-10-10 2019-04-12 浙江大学 一种基于负样本数据价值重采样的车牌检测方法
WO2020082734A1 (zh) * 2018-10-24 2020-04-30 平安科技(深圳)有限公司 文本情感识别方法、装置、电子设备及计算机非易失性可读存储介质
CN109327464A (zh) * 2018-11-15 2019-02-12 中国人民解放军战略支援部队信息工程大学 一种网络入侵检测中类别不平衡处理方法及装置
CN109740750A (zh) * 2018-12-17 2019-05-10 北京深极智能科技有限公司 数据收集方法及装置
CN109756494A (zh) * 2018-12-29 2019-05-14 ***股份有限公司 一种负样本变换方法及装置
CN109756494B (zh) * 2018-12-29 2021-04-16 ***股份有限公司 一种负样本变换方法及装置
CN109862392A (zh) * 2019-03-20 2019-06-07 济南大学 互联网游戏视频流量的识别方法、***、设备及介质
CN109862392B (zh) * 2019-03-20 2021-04-13 济南大学 互联网游戏视频流量的识别方法、***、设备及介质
CN111062806A (zh) * 2019-12-13 2020-04-24 合肥工业大学 个人金融信用风险评价方法、***和存储介质
CN111062806B (zh) * 2019-12-13 2022-05-10 合肥工业大学 个人金融信用风险评价方法、***和存储介质
CN111652268A (zh) * 2020-04-22 2020-09-11 浙江盈狐云数据科技有限公司 一种基于重采样机制的不平衡流数据分类方法
CN111598189B (zh) * 2020-07-20 2020-10-30 北京瑞莱智慧科技有限公司 产生式模型的训练方法、数据生成方法、装置、介质和设备
CN111598189A (zh) * 2020-07-20 2020-08-28 北京瑞莱智慧科技有限公司 产生式模型的训练方法、数据生成方法、装置、介质和设备
CN113903030A (zh) * 2021-10-12 2022-01-07 杭州迪英加科技有限公司 一种基于弱监督学习的液基细胞病理图像生成方法

Similar Documents

Publication Publication Date Title
CN105975992A (zh) 一种基于自适应升采样的不平衡数据集分类方法
CN107563435A (zh) 基于svm的高维不平衡数据分类方法
CN103632168B (zh) 一种机器学习中的分类器集成方法
CN103728551B (zh) 一种基于级联集成分类器的模拟电路故障诊断方法
CN105844287B (zh) 一种遥感影像分类的域自适应方法及***
CN101944174B (zh) 车牌字符的识别方法
CN104598885B (zh) 街景图像中的文字标牌检测与定位方法
CN108764366A (zh) 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN114241273B (zh) 基于Transformer网络和超球空间学习的多模态图像处理方法及***
CN106202952A (zh) 一种基于机器学习的帕金森疾病诊断方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN104881671B (zh) 一种基于2D‑Gabor的高分遥感影像局部特征提取方法
CN109214460A (zh) 基于相对变换与核熵成分分析的电力变压器故障诊断方法
CN106845717A (zh) 一种基于多模型融合策略的能源效率评价方法
CN103020122A (zh) 一种基于半监督聚类的迁移学习方法
CN108460421A (zh) 不平衡数据的分类方法
CN102201236A (zh) 一种高斯混合模型和量子神经网络联合的说话人识别方法
CN106682606A (zh) 一种人脸确认方法及安全认证装置
CN110059716A (zh) 一种cnn-lstm-svm网络模型的构建及mooc辍学预测方法
CN102156871A (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN106845387A (zh) 基于自学习的行人检测方法
CN109344856B (zh) 一种基于多层判别式特征学习的脱机签名鉴别方法
CN103886030B (zh) 基于代价敏感决策树的信息物理融合***数据分类方法
CN110009030A (zh) 基于stacking元学习策略的污水处理故障诊断方法
CN110363230A (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160928