CN111882426B - 业务风险分类器训练方法、装置、设备及存储介质 - Google Patents
业务风险分类器训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111882426B CN111882426B CN202010703942.1A CN202010703942A CN111882426B CN 111882426 B CN111882426 B CN 111882426B CN 202010703942 A CN202010703942 A CN 202010703942A CN 111882426 B CN111882426 B CN 111882426B
- Authority
- CN
- China
- Prior art keywords
- risk
- training
- subtasks
- sub
- meta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 67
- 238000005070 sampling Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 15
- 230000002596 correlated effect Effects 0.000 claims description 12
- 230000000875 corresponding effect Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书提供了一种业务风险分类器训练方法、装置、设备及存储介质,该方法包括:将业务数据分为第一训练集、第一测试集、第二训练集、第二测试集;用第一训练集生成多个第一子任务;同一负样本在不同第一子任务中的标记不同,且每个第一子任务中的正负样本呈指定占比;用第一子任务和第一测试集对第一学习器进行元训练,获得最优学习参数;用第二训练集生成多个第二子任务,将其分别输入以最优学习参数为参数的第一学习器中,并根据对应输出生成多个子风险分类器;用第二测试集测试多个子风险分类器得到多个预测子结果;组合预测子结果获得风险预测结果。本说明书可在不虚构负例情况下,提高业务风险分类器的召回率和预测准确率。
Description
技术领域
本说明书涉及机器学习技术领域,尤其是涉及一种业务风险分类器训练方法、装置、设备及存储介质。
背景技术
目前一些业务风险分类器(例如银行贷款业务的贷款逾期风险预测等)是基于机器学习得到的。一般地,业务数据中的正样本数量远远超过负样本的数量(即正负样本比例不均衡),在此场景下对初始模型进行机器学习训练时,容易导致负样本训练不充分,从而容易导致训练出的业务风险分类器的召回率(recall)不高。
为解决正负样本比例不均衡的问题,现有技术中一般采用虚构负例数据的方式来增加负样本数量。但是通过虚构生成的负样本不具有可解释性,没有现实意义。而且,这种虚构数据的方式也不符合金融安全规范的规则。因此,导致使用虚构负例数据进行机器学习训练得到的业务风险分类器,实际难以应用金融业的风险分类、预测场景中。因此,如何在不虚构负例数据的前提下,提高业务风险分类器的召回率已成为目前亟待解决的技术问题。
发明内容
本说明书实施方案的目的在于提供一种业务风险分类器训练方法、装置、设备及存储介质,以实现在不虚构负例数据的前提下,提高业务风险分类器的召回率。
为达到上述目的,一方面,本说明书实施方案提供了一种业务风险分类器训练方法,包括:
将获取的业务数据划分为用于元训练的第一训练集、第一测试集,以及用于元测试的第二训练集、第二测试集;
从所述第一训练集中抽样出多个第一子任务;其中,同一个负样本在不同第一子任务中的标记不同,且每个第一子任务中的正、负样本呈指定占比;
利用所述多个第一子任务和所述第一测试集,对第一学习器进行元训练,以获得最优学习参数;
从所述第二训练集中抽样出多个第二子任务,将所述多个第二子任务分别输入以所述最优学习参数为参数的第一学习器中,并根据对应的输出生成多个子风险分类器;
利用所述第二测试集测试所述多个子风险分类器,对应得到多个风险预测子结果;
对所述多个风险预测子结果进行组合,获得风险预测结果。
在本说明书一实施方案中,同一个负样本在不同第二子任务中的标记不同,且每个第二子任务中的正、负样本呈指定占比。
在本说明书一实施方案中,每个所述第一子任务中的每类业务风险类别的数据量与所述第一训练集中的负样本总数正相关;每个所述第二子任务中的每类业务风险类别的数据量与所述第二训练集中的负样本总数正相关。
在本说明书一实施方案中,所述对所述多个风险预测子结果进行组合,获得风险预测结果,包括:
对所述多个风险预测子结果进行多数投票,并根据投票结果确定风险预测结果。
另一方面,本说明书实施方案还提供了一种业务风险分类器训练装置,包括:
数据划分模块,用于将获取的业务数据划分为用于元训练的第一训练集、第一测试集,以及用于元测试的第二训练集、第二测试集;
任务生成模块,用于从所述第一训练集中抽样出多个第一子任务;其中,同一个负样本在不同第一子任务中的标记不同,且每个第一子任务中的正、负样本呈指定占比;
参数获取模块,用于利用所述多个第一子任务和所述第一测试集,对第一学习器进行元训练,以获得最优学习参数;
模型生成模块,用于从所述第二训练集中抽样出多个第二子任务,将所述多个第二子任务分别输入以所述最优学习参数为参数的第一学习器中,并根据对应的输出生成多个子风险分类器;
模型测试模块,用于利用所述第二测试集测试所述多个子风险分类器,对应得到多个风险预测子结果;
结果组合模块,用于对所述多个风险预测子结果进行组合,获得风险预测结果。
在本说明书一实施方案中,同一个负样本在不同第二子任务中的标记不同,且每个第二子任务中的正、负样本呈指定占比。
在本说明书一实施方案中,每个所述第一子任务中的每类业务风险类别的数据量与所述第一训练集中的负样本总数正相关;每个所述第二子任务中的每类业务风险类别的数据量与所述第二训练集中的负样本总数正相关。
在本说明书一实施方案中,所述对所述多个风险预测子结果进行组合,获得风险预测结果,包括:
对所述多个风险预测子结果进行多数投票,并根据投票结果确定风险预测结果。
另一方面,本说明书实施方案还提供了一种电子设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时执行上述的业务风险分类器训练方法。
另一方面,本说明书实施方案还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的业务风险分类器训练方法。
由以上本说明书实施方案提供的技术方案可见,由于本说明书实施方案可以在不同子任务中,对于同一个负例可标记不同的标签,且每个子任务中的正、负样本呈指定占比,使得同一负样本在不同子任务中就能够以不同的数据形态出现,从而实现了负样本在不同子任务间的复用,即实现了在不虚构负样本的情况下,使每个子任务中的正、负样本占比达到相对均衡,从而解决了业务数据中的正负样本不均衡的问题,因而提高了业务风险分类器的召回率。不仅如此,本说明书实施方案还可以将对所述多个风险预测子结果进行组合,以获得风险预测结果,从而有利于提高业务风险分类器的预测准确率。
附图说明
为了更清楚地说明本说明书实施方案或现有技术中的技术方案,下面将对实施方案或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方案,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书提供的实施方案中基于元学习的业务风险分类器训练方法的流程图;
图2为本说明书提供的实施方案中数据集划分示意图;
图3为本说明书提供的实施方案中元训练的示意图;
图4为本说明书提供的实施方案中元测试的示意图;
图5为本说明书提供的实施方案中电子设备的结构框图;
图6为本说明书提供的实施方案中基于元学习的业务风险分类器训练装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施方案中的附图,对本说明书实施方案中的技术方案进行清楚、完整地描述,显然,所描述的实施方案仅仅是本说明书一部分实施方案,而不是全部的实施方案。基于本说明书中的实施方案,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方案,都应当属于本说明书保护的范围。
元学习本身是为了解决小样本机器学习问题而提出的,即由于目标领域数据总量偏少不支持训练预测,可以选择在一个数据量足够的另一个领域进行训练,以获得学习能力,再将获得的学习能力迁移应用于目标领域。而在本说明书的实施方案中,是将元学习迁移到目标领域数据总量足够但正负样本占比不均衡的数据分类场景中,以解决在不虚构负例数据的前提下,如何提高业务风险分类器的召回率已成为目前亟待解决的技术问题。以下结合本说明书的实施方案具体说明。
参考图1所示,本说明书一些实施方案的基于元学习的业务风险分类器训练方法可以包括以下步骤:
S101、将获取的业务数据划分为用于元训练的第一训练集、第一测试集,以及用于元测试的第二训练集、第二测试集。
在本说明书的实施方案中,获取的业务数据可以根据具体应用场景而定。例如,在一示例性实施方案中,以银行贷款业务的贷款逾期风险预测为例,业务数据可以包括用户的基本信息、资产信息、负债信息、历史还款记录、历史逾期记录、历史催收记录、人行征信信息等数据信息。
在本说明书一实施方案中,在获取到业务数据后可以首先对其进行预处理,以将其处理为可供机器学习模型处理的结构化数据,并以统一、标准的格式存储,从而形成数据集。
在本说明书一实施方案中,在进行抽样之前,可以将预处理后的业务数据按照预设比例划分为训练集和测试集。其中,所述抽样可以为分层随机抽样(或其他方式抽样),下文中有关于子任务的抽样可以参照该部分的描述,本说明书不再赘述。
例如,在一示例性实施方案中,训练集和测试集可以按照80%、20%比例进行划分(例如图2所示)。本领域技术人员可以理解,在其他实施方案中,预设比例可以根据实际需要划分,但一般应注意保持数据分布的一致性,以避免因数据划分过程引入额外的偏差而对最终结果产生影响。为了适应于元学习,上述划分出的训练集和测试集,需要进行进一步划分。具体的,可以将上述的训练集按照预设比例(例如图2所示的80%、20%)进一步划分为第一训练集和第一测试集,以用于元训练(meta train)。可以将上述测试集按照预设比例(例如图2所示的80%、20%)进一步划分为第二训练集和第二测试集,以用于元测试(meta test)。
S102、从所述第一训练集中抽样出多个第一子任务;其中,同一个负样本在不同第一子任务中的标记可以不同,且每个第一子任务中的正、负样本呈指定占比。
由于元学习是以任务(Task)作为自己的训练数据的,且元学习的训练集(也称为支持集,Supprot Set)和测试集(也称为查询集,Query Set),是由一个个的子任务组成的。因此,为了进行元训练,还需要对第一训练集作进一步划分(即进行抽样划分),以生成多个K-way-N-shot第一子任务。其中的K是指每个第一子任务所包含的业务风险类别数量,N表示每个类别需要抽取的样本数量。K可以根据应用场景取值,例如,以二分类业务风险类别(即无业务风险和有业务风险)为例,K=2。为了使元学习中的分类器接近于普通机器学习分类器效果,经数据实验探索,N的值可以与第一训练集中的负样本总数正相关。例如,在一示例性实施例方案中,N的值可为第一训练集中的负样本总数的指定百分比。
在本说明书的实施方案中,鉴于业务数据中的正负样本不均衡(即负样本较少)问题,在不同第一子任务中,可以对于同一个负例可标记不同的标签,且每个第一子任务中的正、负样本呈指定占比(例如1:1,2:1等等),使得同一负样本在不同第一子任务中就能够以不同的数据形态出现,从而实现了负样本在不同第一子任务间的复用,即实现了在不虚构负样本的情况下,使每个第一子任务中的正、负样本占比达到相对均衡,从而解决了业务数据中的正负样本不均衡的问题。
本说明书的实施方案可适用于银行业很多种要求不能产生虚假数据的分类、预测场景,具有应用的广泛性与实用性。实际上,本说明书的实施方案中这种解决业务数据中的正负样本不均衡的问题技术方案,可以适用于大部分传统机器学习分类算法,应用范围更广,扩展性更强,灵活性更高。
在本说明书的一些实施方案中,当各个子任务采用分层随机抽样得到时,与简单随机抽样和等距随机抽样相比较,在样本数量相同时,它的抽样误差较小;在抽样误差的要求相同时,它所需的样本数量较少。
S103、利用所述多个第一子任务和所述第一测试集,对第一学习器进行元训练,以获得最优学习参数。
为了便于理解,下面对元学习中的元训练过程进行说明。一般地,元训练过程主要包括如下步骤:
(1)、随机初始化第一学习器的学习参数,将一个第一子任务输入到第一学习器中,从而得到一个输出,以该输出为参数生成第二学习器。
例如,以图3所示的示例性实施方案为例,若初始的第一学习器A表示为y1=k1x+b,初始的第二学习器B表示为y2=k2x,第一子任务中的数据为x,则k1和b即为第一学习器A随机初始化的学习参数θ,k2为第二学习器B随机初始化的参数。当将一个第一子任务输入到y1=k1x+b中,可以得到y1的一个输出值φ,将k2赋值为φ,于是第二学习器B变为y2=φx。
(2)、将第一测试集输入至第二学习器中获得预测输出,将预测输出与真实标签的交叉熵作为损失,并可以使用mini-batch随机梯度下降作为梯度下降策略(这里仅是举例说明,在其他实施方案中,也可以选择其他任何合适的梯度下降策略),来反向更新学习参数(例如图3中的学习参数θ)。
(3)、在上述反向更新学习参数基础上,将下一个第一子任务输入至反向更新学习参数后的第一学习器中继续训练,以继续学习并反向更新学习参数。依此递推,经过多次迭代训练学习后,最终可以获得一个最优的学习参数(例如对应于图3中的学习参数θ的最优学习参数θ*)。所述最优学习参数即为通过元训练学习到的学习能力。
由此可见,在本说明书实施方案的元训练过程中,以θ为学习参数的第一学习器的输出可用于构建第二学习器,即第二学习器的参数是根据第一学习器的输出确定的;同时,基于预设的梯度下降策略,第二学习器的输出可以用于优化第一学习器的学习参数θ。元训练的主要目的是为获得第一学习器的最优学习参数θ*,以用于后续的元测试。
S104、从所述第二训练集中抽样出多个第二子任务,将所述多个第二子任务分别输入以所述最优学习参数为参数的第一学习器中,并根据对应的输出生成多个子风险分类器。
在本说明书的实施方案中,从所述第二训练集中抽样出多个第二子任务,可以为将所述第二训练集分层随机抽样成多个K-way-N-shot第二子任务。与第一子任务类似,同一个负样本在不同第二子任务中的标记可以不同,且每个第二子任务中的正、负样本呈指定占比,如此则可以在不虚构负样本的情况下,使每个第二子任务中的正、负样本占比也能够达到相对均衡。并且,每个第二子任务包含两个业务风险类别,且每个业务风险类别具有指定数量个样本,该指定数量与所述第二训练集中的负样本总数正相关。此外,为了便于元测试,第二子任务中的数据量可以与第二子任务中的数据量相等。
结合图4所示,由于在元训练时已经学习得到学习能力(即上文提及的最优学习参数θ*)。在此基础上,将所述多个第二子任务分别输入以所述最优学习参数θ*为参数的学习器A中,即可对应得到多个输出φ*(例如图4中的和/>等),以所述多个输出φ*作为参数就可以生成多个多个子风险分类器。从而实现将元训练获得的学习能力赋予所述多个子风险分类器,因而无需从随机初始化开始训得到子风险分类器。在图4中,由于输入至以θ*为参数的学习器A中的第二子任务不相同,其得到的输出φ*例如图4中的/>和/>等)则会有差异,从而使得最后可以得到多个不同的子风险分类器。
在本说明书的实施方案中,用于训练的第一学习器和第二学习器可以为任何合适的机器学习模型,具体可以由用户根据实际需要选择。例如在一示例性实施方案中,第二学习器可以选择为随机森林分类器。
S105、利用所述第二测试集测试所述多个子风险分类器,对应得到多个风险预测子结果。
为了测试各个子风险分类器的性能,可以将第二测试集的同一批数据分别输入至各个子风险分类器中,从而可以获得各个子风险分类器的风险预测子结果。在本说明书一实施方案中,为了提高测试效率,测试可以启动多个线程并行进行。
S106、对所述多个风险预测子结果进行组合,获得风险预测结果。
从上述步骤S105可以看出,上述得到的每一个子风险分类器均可以单独用于业务风险预测。但由于训练时第二子任务的数据量较少,单个子风险分类器容易出现训练不充分的问题。因此,为了提高业务风险分类器的预测准确率,可以将对所述多个风险预测子结果进行组合,以获得风险预测结果,即可以利用多个子风险分类器进行组合预测。在本说明书一些实施方案中,所述对所述多个风险预测子结果进行组合例如可以是对所述多个风险预测子结果进行多数投票,并根据投票结果确定风险预测结果。
在本说明书一实施方案中,所述多数投票可以采用硬投票(Majority/Hardvoting)。其基本思想是选择算法中输出最多的那个类。例如,在一示例性实施方案中,有四个子风险分类器c1、c2、c3和c4,针对相同的输入,其对应的输出分别为:Y、Y、N和Y;其中,Y表示即有风险,N表示无风险。由于c1、c2和c4的风险预测子结果Y在四个风险预测子结果中占比最多;因此,四个子风险分类器c1、c2、c3和c4组合后的风险预测结果为有风险。
在本说明书一实施方案中,所述多数投票也可以采用软投票(Soft voting)。软投票也称加权平均概率投票,是使用输出类概率分类的投票法,其基本思想是通过为每个子风险分类器配置投票权重,得到每个类概率的加权平均值,并选择值较大的那一类。显然,在硬投票中各个子风险分类器的投票权重都一样(即投票权重都是1)。然而,在软投票中,各个子风险分类器的投票权重可能会不同,如此则会对投票组合产生影响。其中,各个子风险分类器的投票权重具体可以根据各子风险分类器的性能指标(例如可以包括但不限于查准率、召回率和/或准确率等)确定。例如当子风险分类器的性能指标较高时,可以给其设定适当较高的权重;当子风险分类器的性能指标较低时,给其设定适当较低的权重。例如,在一示例性实施方案中,有四个子风险分类器c1、c2、c3和c4,针对相同的输入,其对应的输出分别为:Y、Y、N和N;其中,Y表示即有风险,N表示无风险。若四个子风险分类器c1、c2、c3和c4的投票权重分别为0.6、0.7、1、0.9。则投票组合后:Y的得票为:(0.6Y+0.7Y)/2=0.75Y;N的得票为:(1N+0.9N)/2=0.95N。
显然,N的得票更高,因此经过投票组合,获得风险预测结果为无风险。相比于硬投票,软投票具有更好的泛化性能和抗过拟合能力,从而有利于进一步提高业务风险分类器的预测准确率。
与上述基于元学习的业务风险分类器训练方法对应,本说明书还提供有电子设备。参考图5所示,在本说明书一些实施方案中,所述电子设备可以包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时可以执行如下步骤:
将获取的业务数据划分为用于元训练的第一训练集、第一测试集,以及用于元测试的第二训练集、第二测试集;
从所述第一训练集中抽样出多个第一子任务;其中,同一个负样本在不同第一子任务中的标记不同,且每个第一子任务中的正、负样本呈指定占比;
利用所述多个第一子任务和所述第一测试集,对第一学习器进行元训练,以获得最优学习参数;
从所述第二训练集中抽样出多个第二子任务,将所述多个第二子任务分别输入以所述最优学习参数为参数的第一学习器中,并根据对应的输出生成多个子风险分类器;
利用所述第二测试集测试所述多个子风险分类器,对应得到多个风险预测子结果;
对所述多个风险预测子结果进行组合,获得风险预测结果。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
与上述基于元学习的业务风险分类器训练方法对应,本说明书还提供有基于元学习的业务风险分类器训练装置。参考图6所示,在本说明书一些实施方案中,所述基于元学习的业务风险分类器训练装置可以包括:
数据划分模块61,可以用于将获取的业务数据划分为用于元训练的第一训练集、第一测试集,以及用于元测试的第二训练集、第二测试集。
任务生成模块62,可以用于从所述第一训练集中抽样出多个第一子任务;其中,同一个负样本在不同第一子任务中的标记不同,且每个第一子任务中的正、负样本呈指定占比。
参数获取模块63,可以用于利用所述多个第一子任务和所述第一测试集,对第一学习器进行元训练,以获得最优学习参数。
模型生成模块64,可以用于从所述第二训练集中抽样出多个第二子任务,将所述多个第二子任务分别输入以所述最优学习参数为参数的第一学习器中,并根据对应的输出生成多个子风险分类器。
模型测试模块65,可以用于利用所述第二测试集测试所述多个子风险分类器,对应得到多个风险预测子结果。
结果组合模块66,可以用于对所述多个风险预测子结果进行组合,获得风险预测结果。
在本说明书一些实施方案的基于元学习的业务风险分类器训练装置中,同一个负样本在不同第二子任务中的标记可以不同,且每个第二子任务中的正、负样本呈指定占比。
在本说明书一些实施方案的基于元学习的业务风险分类器训练装置中,每个所述第一子任务中的每类业务风险类别的数据量可以与所述第一训练集中的负样本总数正相关;每个所述第二子任务中的每类业务风险类别的数据量可以与所述第二训练集中的负样本总数正相关。
在本说明书一些实施方案的基于元学习的业务风险分类器训练装置中,所述对所述多个风险预测子结果进行组合,获得风险预测结果,可以包括:
对所述多个风险预测子结果进行多数投票,并根据投票结果确定风险预测结果。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本申请是参照根据本说明书实施方案的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施方案可提供为方法、***或计算机程序产品。因此,本说明书实施方案可采用完全硬件实施方案、完全软件实施方案或结合软件和硬件方面的实施方案的形式。而且,本说明书实施方案可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施方案可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施方案,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施方案均采用递进的方式描述,各个实施方案之间相同相似的部分互相参见即可,每个实施方案重点说明的都是与其他实施方案的不同之处。尤其,对于***实施方案而言,由于其基本相似于方法实施方案,所以描述的比较简单,相关之处参见方法实施方案的部分说明即可。在本说明书的描述中,参考术语“一个实施方案”、“一些实施方案”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方案或示例描述的具体特征、结构、材料或者特点包含于本说明书实施方案的至少一个实施方案或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方案或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方案或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方案或示例以及不同实施方案或示例的特征进行结合和组合。
以上所述仅为本申请的实施方案而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种业务风险分类器训练方法,其特征在于,包括:
将获取的业务数据划分为用于元训练的第一训练集、第一测试集,以及用于元测试的第二训练集、第二测试集;
从所述第一训练集中抽样出多个第一子任务;其中,同一个负样本在不同第一子任务中的标记不同,且每个第一子任务中的正、负样本呈指定占比;
利用所述多个第一子任务和所述第一测试集,对第一学习器进行元训练,以获得最优学习参数;所述最优学习参数为通过元训练学习到的学习能力;
从所述第二训练集中抽样出多个第二子任务,将所述多个第二子任务分别输入以所述最优学习参数为参数的第一学习器中,并根据对应的输出生成多个子风险分类器;
利用所述第二测试集测试所述多个子风险分类器,对应得到多个风险预测子结果;
对所述多个风险预测子结果进行组合,获得风险预测结果。
2.如权利要求1所述的业务风险分类器训练方法,其特征在于,同一个负样本在不同第二子任务中的标记不同,且每个第二子任务中的正、负样本呈指定占比。
3.如权利要求1或2所述的业务风险分类器训练方法,其特征在于,每个所述第一子任务中的每类业务风险类别的数据量与所述第一训练集中的负样本总数正相关;每个所述第二子任务中的每类业务风险类别的数据量与所述第二训练集中的负样本总数正相关。
4.如权利要求1所述的业务风险分类器训练方法,其特征在于,所述对所述多个风险预测子结果进行组合,获得风险预测结果,包括:
对所述多个风险预测子结果进行多数投票,并根据投票结果确定风险预测结果。
5.一种业务风险分类器训练装置,其特征在于,包括:
数据划分模块,用于将获取的业务数据划分为用于元训练的第一训练集、第一测试集,以及用于元测试的第二训练集、第二测试集;
任务生成模块,用于从所述第一训练集中抽样出多个第一子任务;其中,同一个负样本在不同第一子任务中的标记不同,且每个第一子任务中的正、负样本呈指定占比;
参数获取模块,用于利用所述多个第一子任务和所述第一测试集,对第一学习器进行元训练,以获得最优学习参数;所述最优学习参数为通过元训练学习到的学习能力;
模型生成模块,用于从所述第二训练集中抽样出多个第二子任务,将所述多个第二子任务分别输入以所述最优学习参数为参数的第一学习器中,并根据对应的输出生成多个子风险分类器;
模型测试模块,用于利用所述第二测试集测试所述多个子风险分类器,对应得到多个风险预测子结果;
结果组合模块,用于对所述多个风险预测子结果进行组合,获得风险预测结果。
6.如权利要求5所述的业务风险分类器训练装置,其特征在于,同一个负样本在不同第二子任务中的标记不同,且每个第二子任务中的正、负样本呈指定占比。
7.如权利要求5或6所述的业务风险分类器训练装置,其特征在于,每个所述第一子任务中的每类业务风险类别的数据量与所述第一训练集中的负样本总数正相关;每个所述第二子任务中的每类业务风险类别的数据量与所述第二训练集中的负样本总数正相关。
8.如权利要求5所述的业务风险分类器训练装置,其特征在于,所述对所述多个风险预测子结果进行组合,获得风险预测结果,包括:
对所述多个风险预测子结果进行多数投票,并根据投票结果确定风险预测结果。
9.一种电子设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时执行权利要求1-4任一项所述的业务风险分类器训练方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的业务风险分类器训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010703942.1A CN111882426B (zh) | 2020-07-21 | 2020-07-21 | 业务风险分类器训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010703942.1A CN111882426B (zh) | 2020-07-21 | 2020-07-21 | 业务风险分类器训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111882426A CN111882426A (zh) | 2020-11-03 |
CN111882426B true CN111882426B (zh) | 2024-02-06 |
Family
ID=73155704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010703942.1A Active CN111882426B (zh) | 2020-07-21 | 2020-07-21 | 业务风险分类器训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111882426B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767167B (zh) * | 2021-02-07 | 2024-04-19 | 中国工商银行股份有限公司 | 一种基于集成学习的投资交易风险趋势预测方法及装置 |
CN112508698B (zh) * | 2021-02-07 | 2024-04-26 | 北京淇瑀信息科技有限公司 | 用户策略触发方法、装置及电子设备 |
CN113299346B (zh) * | 2021-04-01 | 2022-03-29 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
CN113592160A (zh) * | 2021-07-13 | 2021-11-02 | 北京淇瑀信息科技有限公司 | 基于融合处理的用户设备的失联风险预测方法、***和计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090510A (zh) * | 2017-12-15 | 2018-05-29 | 北京大学 | 一种基于间隔优化的集成学习方法及装置 |
CN111080442A (zh) * | 2019-12-21 | 2020-04-28 | 湖南大学 | 信用评分模型的构建方法、装置、设备及存储介质 |
CN111325285A (zh) * | 2020-03-10 | 2020-06-23 | 五邑大学 | 基于自动机器学习的疲劳驾驶预测方法、装置及存储介质 |
-
2020
- 2020-07-21 CN CN202010703942.1A patent/CN111882426B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090510A (zh) * | 2017-12-15 | 2018-05-29 | 北京大学 | 一种基于间隔优化的集成学习方法及装置 |
CN111080442A (zh) * | 2019-12-21 | 2020-04-28 | 湖南大学 | 信用评分模型的构建方法、装置、设备及存储介质 |
CN111325285A (zh) * | 2020-03-10 | 2020-06-23 | 五邑大学 | 基于自动机器学习的疲劳驾驶预测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111882426A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111882426B (zh) | 业务风险分类器训练方法、装置、设备及存储介质 | |
US20210049512A1 (en) | Explainers for machine learning classifiers | |
CN109657696B (zh) | 多任务监督学习模型训练、预测方法和装置 | |
EP4200763A1 (en) | Method and system for training a neural network model using adversarial learning and knowledge distillation | |
CN111415015B (zh) | 业务模型训练方法、装置、***及电子设备 | |
CN109948680A (zh) | 病历数据的分类方法及*** | |
CN113837635A (zh) | 风险检测处理方法、装置及设备 | |
CN115170565A (zh) | 基于自动神经网络架构搜索的图像欺诈检测方法及装置 | |
Kosykh et al. | Integration of big data processing tools and neural networks for image classification | |
US11783221B2 (en) | Data exposure for transparency in artificial intelligence | |
Zaffar et al. | Comparing the performance of FCBF, Chi-Square and relief-F filter feature selection algorithms in educational data mining | |
CN117009873A (zh) | 支付风险识别模型的生成方法、支付风险识别方法及装置 | |
CN111709766A (zh) | 一种用户行为预测方法、装置、存储介质及电子设备 | |
CN116720214A (zh) | 一种用于隐私保护的模型训练方法及装置 | |
CN115049484A (zh) | 风险账户预测方法、装置以及电子设备 | |
CN106997472B (zh) | 用户信用模型的用户特征分类方法、用户信用评估方法及装置 | |
CN114254762A (zh) | 可解释性机器学习模型构建方法、装置和计算机设备 | |
CN111046934B (zh) | 一种swift报文软条款识别方法及装置 | |
CN110210518B (zh) | 提取降维特征的方法和装置 | |
CN115953248B (zh) | 基于沙普利可加性解释的风控方法、装置、设备及介质 | |
Gupta et al. | Image Forgery Detection by CNN and Pretrained VGG16 Model | |
CN111429215B (zh) | 数据的处理方法和装置 | |
CN117745423B (zh) | 一种异常账户的识别方法 | |
CN113515383B (zh) | ***资源数据分配方法和装置 | |
Olatunji et al. | Ensemble Machine Learning Approach to Bankruptcy Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |