CN109816028A - 一种部分特征迁移的非平衡数据集分类模型融合方法 - Google Patents
一种部分特征迁移的非平衡数据集分类模型融合方法 Download PDFInfo
- Publication number
- CN109816028A CN109816028A CN201910088416.6A CN201910088416A CN109816028A CN 109816028 A CN109816028 A CN 109816028A CN 201910088416 A CN201910088416 A CN 201910088416A CN 109816028 A CN109816028 A CN 109816028A
- Authority
- CN
- China
- Prior art keywords
- sample
- classification model
- fusion method
- partial feature
- model fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种部分特征迁移的非平衡数据集分类模型融合方法,包括训练阶段,还包括预测阶段,所述预测阶段包括以下子步骤:利用所述训练阶段生成的基模型对样本进行预测,得到黑样本预测值p;按照所述预测值p进行排序,并按照过滤条件进行样本过滤;将剩下的样本传递给下一层,并重复执行步骤01和步骤02,直到最后一层;计算所述样本的最终预测值。本发明提出一种部分特征迁移的非平衡数据集分类模型融合方法,该方法采用一种分治的思想,以“层层叠加”的方式进行处理。
Description
技术领域
本发明涉及非平衡数据集分类的技术领域,特别是一种部分特征迁移的非平衡数据集分类模型融合方法。
背景技术
现有主流机器学***衡特性往往也影响着分类模型的效果。为了消除这种影响,算法工程师需要在特征工程阶段人工地进行平衡处理(例如上采样或下采样),由于这种平衡处理是“非监督式”的,往往效果只有等到训练好的模型在验证集和测试集上进行验证才能知晓,所以这种流程是耗时耗力的。一个“特征迁移的非平衡数据集”典型场景便是网络金融风控,由于诈骗人员和风控***之间存在着“进化式”的相互博弈过程,由去年数据训练出来的风控模型往往不适用于今年诈骗手段的检测,而且数据存在着严重的不平衡——诈骗交易往往占比不到万分之一(但产生的损失缺失巨大的)。
申请号为CN108985369A的发明专利申请公开了一种用于非平衡数据集分类的同分布集成预测方法及***,所述预测方法包括:获取数据集,采用同分布随机抽样法将所述数据集构建为多个数据样本子集:对每个所述数据样本子集采用CART决策树方法进行模型训练,得到多个CART决策树分类模型;对测试集采用所述CART决策树分类模型得到初步分类效果。采用投票法对所述初步分类结果进行投票,得到最终分类预测结果。该方法的缺点是复杂度较高,不适合大数据集,且只有等到训练好的模型在验证集和测试集上进行验证后才能知晓聚类效果,这种流程是耗时耗力的。
发明内容
为了解决上述的技术问题,本发明提出一种部分特征迁移的非平衡数据集分类模型融合方法,该方法采用一种分治的思想,以“层层叠加”的方式进行处理。
本发明提供一种部分特征迁移的非平衡数据集分类模型融合方法,包括训练阶段,还包括预测阶段,所述预测阶段包括以下子步骤:
步骤01:利用所述训练阶段生成的基模型对样本进行预测,得到黑样本预测值p;
步骤02:按照所述预测值p进行排序,并按照过滤条件进行样本过滤;
步骤03:将剩下的样本传递给下一层,并重复执行步骤01和步骤02,直到最后一层;
步骤04:计算所述样本的最终预测值。
优选的是,所述训练阶段包括以下子步骤:
步骤11:在每一层训练一个基模型;
步骤12:利用所述基模型对样本进行黑样本概率值预测,并过滤样本;
步骤13:将剩下的样本传递给下一层,并重复执行步骤11和步骤12,直至最后一层的黑白样本比例满足设定的阈值。
在上述任一方案中优选的是,所述步骤11还包括选定超参数、目标函数、每层过滤比例阈值和最后一层黑白样本比例阈值。
在上述任一方案中优选的是,所述步骤12还包括对预测结果进行排序,过滤掉前N小的白样本,其中,N表示样本数量。
在上述任一方案中优选的是,所述步骤12还包括把第N个样本的概率值Ti作为预测阶段的过滤阈值。
在上述任一方案中优选的是,所述过滤条件为过滤掉其中p<Ti的样本。
在上述任一方案中优选的是,所述最终预测值是指通过选定一种平均计算方法,以样本为单位,计算该样本在所有层预测得分的平均值。
在上述任一方案中优选的是,所述平均计算方法包括指数加权平均法、取做大值、取中位数、算术平均和几何平均中至少一种。
在上述任一方案中优选的是,所述步骤4还包括根据所述最终预测值判定样本的种类。
在上述任一方案中优选的是,所述判定方法为设定黑样本判定阈值,将所述最终预测值大于该阈值的样本标记为黑样本,反之为白样本。
本发明提出了一种部分特征迁移的非平衡数据集分类模型融合方法,具有较强的鲁棒性,在部分数据特征迁移的情况下仍取得不错的效果。
附图说明
图1为按照本发明的部分特征迁移的非平衡数据集分类模型融合方法的一优选实施例的流程图。
图2为按照本发明的部分特征迁移的非平衡数据集分类模型融合方法的另一优选实施例的原始深度图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,训练阶段100包括以下子步骤:执行步骤101,在每一层训练一个基模型,并选定超参数、目标函数、每层过滤比例阈值和最后一层黑白样本比例阈值。执行步骤102,利用所述基模型对样本进行黑样本概率值预测,对预测结果进行排序,过滤掉前N小的白样本,其中,N表示样本数量,并过滤样本。过滤方法为把第N个样本的概率值Ti作为预测阶段的过滤阈值,过滤掉其中p<Ti的样本。执行步骤103,将剩下的样本传递给下一层。执行步骤104,判断黑白样本比例是否满足设定的阈值。如果黑白样本比例不满足设定的阈值,则重新执行步骤101。如果黑白样本比例满足设定的阈值,则执行步骤105,生成基模型。
预测阶段110包括以下子步骤:执行步骤111,利用所述训练阶段生成的基模型对样本进行预测,得到黑样本预测值p。执行步骤112,按照所述预测值p进行排序,并按照过滤条件进行样本过滤。执行步骤113:将剩下的样本传递给下一层。执行步骤114判断是否为最后一层。如果不是最后一层,则重新执行步骤111。如果是最后一层,则执行步骤115:计算所述样本的最终预测值,并根据所述最终预测值判定样本的种类。最终预测值是指通过选定一种平均计算方法,以样本为单位,计算该样本在所有层预测得分的平均值,所述平均计算方法包括指数加权平均法、取做大值、取中位数、算术平均和几何平均中至少一种。设定黑样本判定阈值,将所述最终预测值大于该阈值的样本标记为黑样本,反之为白样本。
实施例二
通过对现有技术中存在的问题的分析,观察到对于这种非平衡尤其是特征迁移的数据集,其中的大类别数据特征分布往往比较稳定(例如上述网络金融风控的例子中,普通正常的交易数据的分布比较均匀)。基于对这种特性的利用,本文提出一种用于特征迁移的非平衡数据集分类任务的模型融合方法,该方法采用一种分治的思想,以“层层叠加”的方式进行处理。
其基本思想是:首先用全部训练数据训练一个“通用”分类器用以捕捉全局的特性,将容易区分的白样本过滤出来(取黑样本概率值前N小的),然后将剩下的数据传给下一层进行训练,以此类推直到最后一层黑白样本比例接近,最后以样本为单位将每层的概率值进行累计(例如以“指数加权平均”的方式)。为了叙述方便,我们以“二分类”问题为背景来描述提出的方法,且规定如表1所示的概念。
表1
训练阶段
具体流程如下:
步骤1:选定基模型、超参数、目标函数、每层过滤比例以及最后一层黑白样本比例(作为终止条件)
步骤2:在训练数据上训练基模型;
步骤3:利用该训练好的基模型对样本进行黑样本概率值预测,并以此排序;
步骤4:按照过滤比例过滤掉前N小的白样本,将剩下的白样本和所有黑样本传递给下一层作为训练数据;
步骤5:记录排序后的第N个白样本的概率值Ti,作为预测阶段的过滤阈值;
步骤6:重复步骤1~6,直至最后一层的黑白样本比例满足实现设定的阈值(例如大于1)。
预测阶段
具体流程如下:
步骤1:利用每一层训练好的基模型对样本进行预测,得到黑样本预测值p;
步骤2:按照预测值p进行排序,过滤掉其中p<Ti的样本;
步骤3:将剩下的样本传递给下一层重复1、2步骤直至最后一层;
步骤4:选定一种平均计算方式(例如“指数加权平均”),以样本为单位,计算该样本在所有层预测得分的平均值作为最终的预测值。
步骤5:设定黑样本判定阈值,将预测值大于该阈值的样本标记为黑样本,否则为白样本。
本方法的优点:
1.由于每层过滤掉比较好判断的白样本,使得越往下的模型负责越专业的分类,即达到了平衡样本的目的,也使模型训练更具有针对性,提高训练精度和效率;
2.将数据预处理中的平衡数据步骤和训练结合在一起,方便自动调参,减少人为参与;
3.该模型融合方法采用分治的思想,每个模型只负责自己“擅长”的部分,且最终的分数通过众多模型加权投票的方式进行累加,因此具有较强的鲁棒性,在部分数据特征迁移的情况下仍取得不错的效果。
实施例3
如图2所示,步骤如下:
步骤一:新的预测样本经过基模型进行预测结果分类;
步骤二:若分类结果为白样本,并且预测为白样本的输出p<Ti,则直接输出该样本的分类结果;
步骤三:否则,该样本进入下一轮的基模型的预测,重复步骤一~步骤三;
步骤四:得到所有预测样本的分类结果,分别判定哪些样本为白样本,哪些样本为黑样本,以及对应的加权分数。
实施例4
某金融平台有去年100万的交易数据,其中有1万的非法交易数据(黑样本),剩下的99万数据为正常交易数据(白样本)。今年一月份产生了新的10万交易数据,我们需要从其中检测出可能是非法的交易。
训练过程如下:
步骤1:选定xgboost作为基模型并设置超参数(主要超参如表2所示),选定目标函数为AUC(Area under the Curve of ROC),设定每层过滤10%的样本以及最后一层样本比例为1;
步骤2:在去年100万的交易数据上训练xgboost;
步骤3:利用该训练好的xgboost模型对样本进行黑样本概率值预测,并以此排序;
步骤4:过滤掉前10%的白样本,将剩下的白样本和所有黑样本传递给下一层作为训练数据;
步骤5:记录排序后的第10万个白样本的概率值Ti,作为预测阶段的过滤阈值;
步骤6:重复步骤1~6,直至最后一层的黑白样本比例满足实现设定的阈值(大于1)。
超参名 | 取值 | 含义 |
max_depth | 3 | 树最大深度 |
learning_rate | 0.1 | 学习速率 |
num_estimators | 500 | 树最大棵数 |
min_child_weight | 1 | 最小子节点权重 |
表2
按照以上训练过程我们在去年的100万数据上训练得到了一个9层的融合模型,前8层的过滤阈值(T1~T8)为:0.03,0.02,0.03,0.04,0.01,0.10,0.07,0.06,然后在今年一月份产生的10万交易数据进行如下步骤的预测:
步骤1:利用每一层训练好的xgboost模型对今年一月份产生的10万交易数据进行预测,得到黑样本预测值p;
步骤2:过滤掉其中p<Ti的样本;
步骤3:将剩下的样本传递给下一层重复1、2步骤直至最后一层;
步骤4:以样本为单位,计算该样本在所有层预测得分的指数加权平均值(每层的权重为0.1)作为最终的预测值。
步骤5:设定黑样本判定阈值0.5,将预测值大于该阈值的样本标记为黑样本,否则为白样本。
以上预测过程是以一种“批处理”的方式一次性对所以数据进行预测,若从某条交易数据的角度看待预测(例如新来一条预测数据进行实时预测),则过程如下:
步骤1:利用第一层训练好的xgboost模型对该样本进行预测,得到黑样本预测值p1=0.3;
步骤2:因为p1=0.3>T1=0.03,所以该样本被传递到了第二层;
步骤3:利用第二层训练好的xgboost模型对该样本进行预测,得到黑样本预测值p2=0.25;
步骤4:因为p2=0.25>T2=0.02,所以该样本被传递到了第三层;
步骤5:利用第三层训练好的xgboost模型对该样本进行预测,得到黑样本预测值p3=0.02;
步骤6:因为p3=0.02<T3=0.03,所以该样本的预测迭代过程在本层终止;
步骤7:计算该样本在前3层预测得分的指数加权平均值0.9*(0.9*0.3+0.1*0.25)+0.1*0.02=0.2675作为最终的预测值。
步骤8:由于该样本的预测值(0.2675)小于黑样本判定阈值(0.5),所以判定该样本为白样本,即正常交易。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种部分特征迁移的非平衡数据集分类模型融合方法,包括训练阶段,其特征在于,还包括预测阶段,所述预测阶段包括以下子步骤:
步骤01:利用所述训练阶段生成的基模型对样本进行预测,得到黑样本预测值p;
步骤02:按照所述预测值p进行排序,并按照过滤条件进行样本过滤;
步骤03:将剩下的样本传递给下一层,并重复执行步骤01和步骤02,直到最后一层;
步骤04:计算所述样本的最终预测值。
2.如权利要求1所述的部分特征迁移的非平衡数据集分类模型融合方法,其特征在于:所述训练阶段包括以下子步骤:
步骤11:在每一层训练一个基模型;
步骤12:利用所述基模型对样本进行黑样本概率值预测,并过滤样本;
步骤13:将剩下的样本传递给下一层,并重复执行步骤11和步骤12,直至最后一层的黑白样本比例满足设定的阈值。
3.如权利要求2所述的部分特征迁移的非平衡数据集分类模型融合方法,其特征在于:所述步骤11还包括选定超参数、目标函数、每层过滤比例阈值和最后一层黑白样本比例阈值。
4.如权利要求3所述的部分特征迁移的非平衡数据集分类模型融合方法,其特征在于:所述步骤12还包括对预测结果进行排序,过滤掉前N小的白样本,其中,N表示样本数量。
5.如权利要求4所述的部分特征迁移的非平衡数据集分类模型融合方法,其特征在于:所述步骤12还包括把第N个样本的概率值Ti作为预测阶段的过滤阈值。
6.如权利要求5所述的部分特征迁移的非平衡数据集分类模型融合方法,其特征在于:所述过滤条件为过滤掉其中p<Ti的样本。
7.如权利要求7所述的部分特征迁移的非平衡数据集分类模型融合方法,其特征在于:所述最终预测值是指通过选定一种平均计算方法,以样本为单位,计算该样本在所有层预测得分的平均值。
8.如权利要求7所述的部分特征迁移的非平衡数据集分类模型融合方法,其特征在于:所述平均计算方法包括指数加权平均法、取做大值、取中位数、算术平均和几何平均中至少一种。
9.如权利要求7所述的部分特征迁移的非平衡数据集分类模型融合方法,其特征在于:所述步骤4还包括根据所述最终预测值判定样本的种类。
10.如权利要求8所述的部分特征迁移的非平衡数据集分类模型融合方法,其特征在于:所述判定方法为设定黑样本判定阈值,将所述最终预测值大于该阈值的样本标记为黑样本,反之为白样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910088416.6A CN109816028A (zh) | 2019-01-18 | 2019-01-18 | 一种部分特征迁移的非平衡数据集分类模型融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910088416.6A CN109816028A (zh) | 2019-01-18 | 2019-01-18 | 一种部分特征迁移的非平衡数据集分类模型融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109816028A true CN109816028A (zh) | 2019-05-28 |
Family
ID=66605888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910088416.6A Pending CN109816028A (zh) | 2019-01-18 | 2019-01-18 | 一种部分特征迁移的非平衡数据集分类模型融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109816028A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191723A (zh) * | 2019-12-30 | 2020-05-22 | 创新奇智(北京)科技有限公司 | 基于级联分类器的少样本商品分类***及分类方法 |
CN112115335A (zh) * | 2019-06-20 | 2020-12-22 | 百度(中国)有限公司 | 数据融合处理方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100250473A1 (en) * | 2009-03-27 | 2010-09-30 | Porikli Fatih M | Active Learning Method for Multi-Class Classifiers |
CN102945280A (zh) * | 2012-11-15 | 2013-02-27 | 翟云 | 一种基于非平衡数据分布的多异质基分类器融合分类方法 |
CN105389480A (zh) * | 2015-12-14 | 2016-03-09 | 深圳大学 | 多类不平衡基因组学数据迭代集成特征选择方法及*** |
CN106453033A (zh) * | 2016-08-31 | 2017-02-22 | 电子科技大学 | 基于邮件内容的多层次邮件分类方法 |
CN109063787A (zh) * | 2018-08-28 | 2018-12-21 | 齐齐哈尔大学 | 一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法 |
CN109086412A (zh) * | 2018-08-03 | 2018-12-25 | 北京邮电大学 | 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法 |
-
2019
- 2019-01-18 CN CN201910088416.6A patent/CN109816028A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100250473A1 (en) * | 2009-03-27 | 2010-09-30 | Porikli Fatih M | Active Learning Method for Multi-Class Classifiers |
CN102945280A (zh) * | 2012-11-15 | 2013-02-27 | 翟云 | 一种基于非平衡数据分布的多异质基分类器融合分类方法 |
CN105389480A (zh) * | 2015-12-14 | 2016-03-09 | 深圳大学 | 多类不平衡基因组学数据迭代集成特征选择方法及*** |
CN106453033A (zh) * | 2016-08-31 | 2017-02-22 | 电子科技大学 | 基于邮件内容的多层次邮件分类方法 |
CN109086412A (zh) * | 2018-08-03 | 2018-12-25 | 北京邮电大学 | 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法 |
CN109063787A (zh) * | 2018-08-28 | 2018-12-21 | 齐齐哈尔大学 | 一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115335A (zh) * | 2019-06-20 | 2020-12-22 | 百度(中国)有限公司 | 数据融合处理方法、装置、设备和存储介质 |
CN112115335B (zh) * | 2019-06-20 | 2024-05-28 | 百度(中国)有限公司 | 数据融合处理方法、装置、设备和存储介质 |
CN111191723A (zh) * | 2019-12-30 | 2020-05-22 | 创新奇智(北京)科技有限公司 | 基于级联分类器的少样本商品分类***及分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
CN103166830B (zh) | 一种智能选择训练样本的垃圾邮件过滤***和方法 | |
CN107194803A (zh) | 一种p2p网***人信用风险评估的装置 | |
CN104573000B (zh) | 基于排序学习的自动问答装置及方法 | |
CN107103332A (zh) | 一种面向大规模数据集的相关向量机分类方法 | |
CN108615071A (zh) | 模型测试的方法及装置 | |
CN102521656A (zh) | 非平衡样本分类的集成迁移学习方法 | |
CN110298321A (zh) | 基于深度学习图像分类的道路阻断信息提取 | |
CN106776842A (zh) | 多媒体数据检测方法及装置 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN109117380A (zh) | 一种软件质量评价方法、装置、设备及可读存储介质 | |
CN106021771A (zh) | 一种故障诊断方法及装置 | |
CN112541532B (zh) | 基于密集连接结构的目标检测方法 | |
CN112966767B (zh) | 一种特征提取和分类任务分离的数据不均衡处理方法 | |
CN106326913A (zh) | 一种洗钱账户的确定方法及装置 | |
CN108629369A (zh) | 一种基于Trimmed SSD的尿沉渣有形成分自动识别方法 | |
CN109491914A (zh) | 基于不平衡学习策略高影响缺陷报告预测方法 | |
CN110175247A (zh) | 一种优化基于深度学习的异常检测模型的方法 | |
CN113901977A (zh) | 一种基于深度学习的电力用户窃电识别方法及*** | |
CN108875788A (zh) | 一种基于改进的粒子群算法的svm分类器参数优化方法 | |
CN105975611A (zh) | 自适应组合降采样增强学习机 | |
CN109711707B (zh) | 一种船舶动力装置综合状态评估方法 | |
CN105787046A (zh) | 一种基于单边动态下采样的不平衡数据分类*** | |
CN108879732A (zh) | 电力***暂态稳定评估方法及装置 | |
CN106250913B (zh) | 一种基于局部典型相关分析的分类器集成车牌识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190528 |