CN106548210B - 基于机器学习模型训练的信贷用户分类方法及装置 - Google Patents

基于机器学习模型训练的信贷用户分类方法及装置 Download PDF

Info

Publication number
CN106548210B
CN106548210B CN201610979377.5A CN201610979377A CN106548210B CN 106548210 B CN106548210 B CN 106548210B CN 201610979377 A CN201610979377 A CN 201610979377A CN 106548210 B CN106548210 B CN 106548210B
Authority
CN
China
Prior art keywords
credit user
machine learning
learning model
samples
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610979377.5A
Other languages
English (en)
Other versions
CN106548210A (zh
Inventor
赵伟
冯亚兵
廖宇
赖俊斌
柴海霞
潘宣良
刘黎春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610979377.5A priority Critical patent/CN106548210B/zh
Publication of CN106548210A publication Critical patent/CN106548210A/zh
Priority to PCT/CN2017/108438 priority patent/WO2018077285A1/zh
Priority to US16/383,140 priority patent/US11531841B2/en
Application granted granted Critical
Publication of CN106548210B publication Critical patent/CN106548210B/zh
Priority to US17/959,858 priority patent/US11861478B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种机器学习模型训练方法及装置;方法包括:基于训练集中各样本初始化的第一权重和第二权重、并基于各样本的特征为粒度对机器学习模型进行训练;基于训练集中各样本的预测损失,确定相应目标变量被预测错误的第一样本集合,以及相应目标变量被预测正确的第二样本集合;基于第一样本集合中各样本的预测损失、以及相应的第一权重确定第一样本集合的整体预测损失;基于第一样本集合的整体预测损失提升第一样本集中各样本的第一权重和第二权重;将训练集中各样本更新后的第二权重、以及各样本的特征和目标变量输入机器学习模型,以各样本的特征为粒度对机器学习模型进行训练。实施本发明,能够提升机器学习模型的预测精度和训练效率。

Description

基于机器学习模型训练的信贷用户分类方法及装置
技术领域
本发明涉及计算机领域的机器学习技术,尤其涉及一种基于机器学习模型训练的信贷用户分类方法及装置。
背景技术
机器学习(ML,Machine Learning)是一门多领域交叉技术,在实际工业领域中不断获得应用。
有监督方式是目前使用的训练机器学习模型的一种方案,基于训练集中样本特征(如邮件的标题内容、用户的征信数据等)和分类结果(也称为目标变量,如用户的信用等级)训练机器学习模型,使机器学习模型具有对训练集外样本分类进行预测的能力。
例如,使用机器学习模型在征信业务中区分优质客户和非优质客户,在邮件***中区分垃圾邮件和正常 邮件,在商业中区分客户是否为潜在的流失客户等等。
目前,基于有监督方式训练的包括多个分类器的机器学习模型例如极端梯度提升(XGBoost,Extreme Gradient Boosting)模型的过程中,存在对于训练集中部分样本的分类总是难以预测的问题。
例如,训练用于进行优质客户和非优质客户的分类的机器学习模型时,对于分类正确率为50%或邻域(如,48%至52%)的样本,机器学习模型将样本分类为优质客户和非优质客户具有随机性,也就是说相当于没有对样本进行分类,由于随机性导致在每次迭代训练机器学习模型后针对这类样本的预测结果存在不稳定的情况。
发明内容
本发明为至少解决相关技术存在的上述问题而提供一种基于机器学习模型训练的信贷用户分类方法及装置,以至少能够提升机器学习模型的预测精度和训练效率。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种基于机器学习模型训练的信贷用户分类方法,所述机器学习模型用于在征信业务中区分信贷用户是否是优质用户;包括:
初始化训练集中的信贷用户样本的第一权重和第二权重;
其中,所述训练集中的信贷用户样本包括优质用户样本和非优质用户样本,所述信贷用户的特征至少包括收入数据和支出数据,所述信贷用户的目标变量包括优质用户和非优质用户;
将所述训练集中的信贷用户样本的第二权重、以及所述信贷用户样本的所述特征和所述目标变量输入机器学习模型包括的分类器,在所述机器学习模型中为相同的所述特征的信贷用户样本对应分配处理器的线程,以并行线程的方式训练所述机器学习模型;
其中,所述分类器为多个弱分类器的线性组合形成的强分类器;
基于所述训练集中的信贷用户样本的预测损失,确定相应目标变量被预测错误的第一信贷用户样本集合,以及相应目标变量被预测正确的第二信贷用户样本集合;
基于所述第一信贷用户样本集合中的信贷用户样本的预测损失、以及相应的第一权重确定所述第一信贷用户样本集合的整体预测损失;
基于所述第一信贷用户样本集合的整体预测损失提升所述第一信贷用户样本集中的信贷用户样本的所述第一权重和所述第二权重;
将所述训练集中的信贷用户样本更新后的所述第二权重、以及所述信贷用户样本的特征和所述目标变量输入所述机器学习模型,以所述信贷用户样本的特征为粒度对所述机器学习模型进行训练;
通过终端的显示设备展示训练后的所述机器学习模型对所述信贷用户的分类结果。
第二方面,本发明实施例提供一种基于机器学习模型训练的信贷用户分类装置,所述机器学习模型用于在征信业务中区分信贷用户是否是优质用户;包括:
第一训练单元,用于初始化训练集中的信贷用户样本的第一权重和第二权重;
其中,所述训练集中的信贷用户样本包括优质用户样本和非优质用户样本,所述信贷用户的特征至少包括收入数据和支出数据,所述信贷用户的目标变量包括优质用户和非优质用户;
将所述训练集中的信贷用户样本的第二权重、以及所述信贷用户样本的所述特征和所述目标变量输入机器学习模型包括的分类器,在所述机器学习模型中为相同的所述特征的信贷用户样本对应分配处理器的线程,以并行线程的方式训练所述机器学习模型;
其中,所述分类器为多个弱分类器的线性组合形成的强分类器;
样本单元,用于基于所述训练集中的信贷用户样本的预测损失,确定相应目标变量被预测错误的第一信贷用户样本集合,以及相应目标变量被预测正确的第二信贷用户样本集合;
预测损失单元,用于基于所述第一信贷用户样本集合中的信贷用户样本的预测损失、以及相应的第一权重确定所述第一信贷用户样本集合的整体预测损失;
权重单元,用于基于所述第一信贷用户样本集合的整体预测损失提升所述第一信贷用户样本集中的信贷用户样本的所述第一权重和所述第二权重;
第二训练单元,用于将所述训练集中的信贷用户样本更新后的所述第二权重、以及所述信贷用户样本的特征和所述目标变量输入所述机器学习模型,以所述信贷用户样本的特征为粒度对所述机器学习模型进行训练;
通过终端的显示设备展示训练后的所述机器学习模型对所述信贷用户的分类结果。
本发明实施例具有以下有益效果:
在样本基于先验的第二权重的分布下对机器学习模型进行训练,通过找到被机器学习模型错误预测的样本(第一样本集合),并提升对应的权重以更新样本的分布能够使后续训练时机器学习模型中的分类器更加关注被错误预测的样本,提升针对错误样本的预测精度;同时,以特征为粒度对机器学习模型进行并行训练,从而可以容易地通过多线程的处理器来快速完成训练过程,提升了机器学习模型的训练效率。
附图说明
图1是本发明实施例中机器学习模型的一个可选的结构示意图;
图2是本发明实施例中基于机器学习模型训练的信贷用户分类方法的一个可选的流程示意图;
图3是本发明实施例中机器学习模型的一个可选的结构示意图;
图4是本发明实施例中的分类树的一个可选的结构示意图;
图5是本发明实施例中多次迭代更新第一权重和第二权重过程中,训练集样本的分类结果的一个可选的示意图;
图6是本发明实施例中基于机器学习模型训练的信贷用户分类装置的一个可选的硬件结构示意图;
图7是本发明实施例中基于机器学习模型训练的信贷用户分类装置的一个可选的功能结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本发明,并不用于限定本发明。另外,以下所提供的实施例是用于实施本发明的部分实施例,而非提供实施本发明的全部实施例,在不冲突的情况下,本发明实施例记载的技术方案可以任意组合的方式实施。
对本发明进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)机器学习(Machine Learning):从训练集的样本中自动分析获得能够对样本进行预测的规律的机器学习模型的过程。
2)有监督学习,基于训练集中样本的特征(feature)和目标变量,调整模型的参数,使模型具有基于训练集外的样本的特征对目标变量进行预测的性能。其中目标变量可以是定性的(如类别)也可以是定量的(如连续的取值)。
3)训练集,本发明实施例中指用于进行有监督方式训练机器学习模型采用的样本(也称为训练样本)的集合。
训练集中的样本具有特征(如,多个维度的特征)和明确取值的目标变量,以便机器学习模型可以发现样本的特征和目标变量之间的关系,从而具有基于训练集外样本的特征预测目标变量的取值的性能。
4)梯度提升(Gradient Boosting) 方法,或者称为梯度提升决策树(GBDT,Gradient Boosting Decision Tree)方法,对多个弱分类器(分类性能不足以用于对样本单独进行分类的函数)的线性组合形成的强分类器(分类性能足以用于对样本单独进行分类的函数)进行训练的方法,根据上一次迭代训练后的模型的损失函数的梯度方向在训练后的模型中加入函数的方式更新模型,使得每次迭代训练后,模型的预测损失能够沿梯度方向下降。
5)极端梯度提升(XGBoost,Extreme Gradient Boosting)方法,梯度提升决策树方法的C++实现,支持利用CPU的多线程进行并行进行训练模型,同时在算法上加以改进提高了精度。
6)过拟合,为了使模型对所有样本进行精确预测使得模型变得过度复杂。
7)损失函数(loss function),损失函数用来估量机器学习模型的预测结果与实际结果的不一致程度,是一个非负实值函数,损失函数越小,机器学习模型的鲁棒性就越好。
损失函数的类型包括有对数损失(Logistic Loss)函数,另外,损失函数的描述形式还可以为平方损失函数和指数损失函数等。
8)梯度下降法(Gradient Descent),沿梯度下降方向求解损失函数最大值的方法,包括小批量梯度下降法(Mini-batch Gradient Descent)、批量梯度下降法(BatchGradient Descent,简称BGD)和随机梯度下降法(Stochastic Gradient Descent)等。
如图1所示的本发明实施例提供的机器学习模型的一个可选的结构示意图,采用有监督方式训练包括多个基本的分类器(简称基分类器)构成的组合。
这里的分类器可以采用决策树分类器如使用分类回归树(CART,ClassificationAnd Regression Tree)算法的分类函数,神经网络和支持向量机(SVM,Support VectorMachines)等。
以基分类器为XGBoost模型为例,由于相关技术提供的XGBoost模型的训练方法中,输入XGBoost模型的训练集中的样本的权重是一致的,导致XGBoost模型针对样本的目标变量的预测值的结果不稳定。
例如机器学习模型用于解决判断用户是否为优质客户时,由于各种原因存在难以分类的样本(例如,由于样本的特征不足等)此时,用户被分类为优质客户和非优质客户的概率都是50%,这就相当于没有对用户进行分类,预测精度无法保证。
针对上述问题,本发明实施例提供一种基于机器学习模型训练的信贷用户分类方法,对于由多个分类器构成机器学习模型进行训练时,为训练集中的样本维护两套权重,在基于初始化的权重迭代训练机器学习模型后,在样本中划分出目标变量被预测错误的样本,通过两套权重的方式提升被错误预测的样本的权重,使机器学习模型再次进行训练时能够更加关注目标变量被错误预测的样本,从而提升机器学习模型的预测精度。
下面结合如图2所示的本发明实施例提供的基于机器学习模型训练的信贷用户分类方法的一个可选的流程示意图进行说明,在图2中基于机器学习模型训练的信贷用户分类方法包括以下步骤:
步骤101,初始化训练集中各样本的第一权重
Figure 672085DEST_PATH_IMAGE001
和第二权重
Figure 12062DEST_PATH_IMAGE002
训练集中的样本由特征和目标变量构成,特征包括多个维度的样本的数据,目标变量用于以定性或定量的方式描述样本。
例如,在征信业务场景中机器学习模型可以用于预测用户是否优质客户,则目标变量包括优质客户和非优质客户,特征可以包括收入、支出等方面的数据。
再例如,在客户维护业务场景中机器学习模型可以用于预测用户是否在潜在的流失客户,则目标变量包括潜在流失客户和非潜在流失客户,特征可以包括用户的基本属性、登录客户端情况(频率、时间)、在客户端发送消息的情况(使用频率等)。
在一个实施例中,为训练集中各样本统一分配先验的第一权重和第二权重,各样本初始的第一权重
Figure 729482DEST_PATH_IMAGE001
相同,同时,各样本初始的第二权重
Figure 46063DEST_PATH_IMAGE003
也相同。
实际应用中,基于训练集中样本的数量为训练集中各样本统一分配第一权重,例如,设训练集中包括m个样本,则针对训练集每个样本分配权重
Figure 798118DEST_PATH_IMAGE004
。训练集中各样本的第二权重的权重值与第一权重不同,例如可以分配权重值1。
步骤102,将训练集中各样本的第二权重、以及各样本的特征和目标变量输入机器学习模型包括的分类器进行训练。
基于样本及其对应的第二权重,可以对机器学习模型进行多次的迭代训练,参见图3,机器学习模型包括多个基分类器y1(x)~ y2(x),对于第s(s为大于或等于1的整数)次迭代训练,执行如下的操作:
将训练集中的样本及其第二权重
Figure 306066DEST_PATH_IMAGE005
输入每个分类器,通过对应每个分类器的最小化权重误差函数(weighted error function)求解,得到分类器的融合系数
Figure 245204DEST_PATH_IMAGE006
;基于各分类器的融合系数最分类器进行组合,作为最终训练后得到的机器学习模型
Figure 896634DEST_PATH_IMAGE007
为了避免在机器学***方和的方式,求解得到使平方和最小时机器学习模型包括的分类器的融合系数,基于各所述分类器的融合系数组合形成训练后的机器学习模型,对各分类器基于融合系数进行组合,确保机器学习模型的精度。
第s+1次训练的过程与第s次训练的过程相同,区别在于,第s+1次训练中待训练的机器学习模型与第s次训练后得到的机器学习模型存在如下关系:
第s+1次训练后得到的机器学习模型=第s次训练后得到的机器学习模型+补偿函数。
可见,由于补偿函数是第s次训练后机器学习模型的损失函数二阶求导结果构造,这就使得第s次训练后机器学习模型的预测误差能够按照损失函数的梯度方向下降,最大程度降低了机器学习模型的预测误差,提升预测精度。
特别地,当机器学习模型采用XGBoost模型为基分类器时,由于XGBoost模型支持对于样本以特征为粒度进行并行的训练,例如对于相同特征的样本分配一个或多个线程,在硬件实现上使用多线程的处理器进行训练,这样,不同(类型)特征的样本可以被并行地用于对机器学习模型进行训练,显著缩短了机器学习模型的训练时间,提升了机器学习模型的训练效率。
下面以机器学习模型的基分类器为XGBoost模型时训练过程进行说明。
XGBoost方法采用有监督的方式进行训练,方法在逻辑上包含三个重要组成部分:XGBoost模型、参数和目标函数。其中XGBoost模型和参数用于控制基于样本如何预测目标变量的取值(包括分类结果或者拟合值),目标函数用于约束训练模型的过程以得到理想的参数,目标函数越小则XGBoost模型的预测精度越高,训练XGBoost模型的过程就是使目标函数的值尽量小的过程。
XGBoost模型由分类回归树(CART,Classification And Regression Tree)=构成,分类树回归树是分类树和回归树的统称,当解决分类问题时,如预测用户是信用良好用户还是信用较差用户(二分类)时使用分类树;再例如,当解决回归问题如预测用户的信用评分时使用回归树。
如图4示出的分类树的一个可选的结构示意图,分类树中每个节点表示样本的某个属性,而每个分叉路径则代表属性的某个可能的值,而每个叶结点则对应从根节点到叶节点所经历的路径所表示的样本的值(类别)。
XGBoost模型中使用一个分类回归树会过于简单而无法有效地预测(针对样本的目标变量的取值进行预测),因而在XGBoost模型中使用集成树(tree ensemble)形式,集成树可以视作一系列分类回归树的线性加和,一个可选的示例可以记作:
Figure 237616DEST_PATH_IMAGE008
其中,
Figure 184975DEST_PATH_IMAGE009
是在函数空间
Figure 611408DEST_PATH_IMAGE010
里面的一个函数,而
Figure 4212DEST_PATH_IMAGE010
为分类回归树的集合,对应的目标函数表示如下:
Figure 484522DEST_PATH_IMAGE011
其中,
Figure 852049DEST_PATH_IMAGE012
是损失函数,表示XGBoost模型针对样本的目标变量的预测值与真实值之间的误差,如可以采用平方损失函数、对数损失函数等形式表示;
Figure 296937DEST_PATH_IMAGE013
表示因为样本的随机性导致的预测值的误差,也称为正则化项,是分类回归树的集合中每个分类回归树的复杂度的加和,其中,正则化项与分类回归树的叶子节点的数量、以及叶子节点的值有关。
由于需要在一个函数空间中对XGBoost模型的参数进行求解,且不能采用传统方法如随机梯度下降法来训练XGBoost模型,鉴于此,本发明实施例中采用梯度提升方法。
具体来说,当对XGBoost模型进行第n(n位大于或等于2的整数)次迭代训练时,在第n-1次迭代训练得到的XGBoost模型的基础上,叠加入一个新的函数
Figure 759011DEST_PATH_IMAGE014
以弥补XGBoost模型造成的残差(残差是指,样本的预测值与真实值之间的差异),继续训练新的模型以使目标函数最小化。
XGBoost模型进行第1至t次迭代训练的表达式为:
Figure 825319DEST_PATH_IMAGE015
第1次迭代训练后,
Figure 832589DEST_PATH_IMAGE016
第2次迭代训练后,
Figure 748461DEST_PATH_IMAGE017
第t次迭代训练后,
Figure 764959DEST_PATH_IMAGE018
其中,对于第1次迭代训练来说,在1次迭代训练得到的模型
Figure 214001DEST_PATH_IMAGE019
的基础上叠加函数
Figure 657752DEST_PATH_IMAGE020
,然后对新的模型
Figure 60920DEST_PATH_IMAGE021
进行第2次迭代训练;对于第2次迭代训练来说,在第2次迭代训练得到的模型
Figure 881109DEST_PATH_IMAGE019
的基础上叠加函数
Figure 922008DEST_PATH_IMAGE022
,然后对新的模型
Figure 271081DEST_PATH_IMAGE021
进行训练;对于第t次迭代训练来说,在t-1次迭代训练的模型
Figure 630387DEST_PATH_IMAGE023
的基础上叠加函数
Figure 988687DEST_PATH_IMAGE024
,在新的模型
Figure 429900DEST_PATH_IMAGE025
的基础上进行训练。
那么,对于在第t次迭代训练后,有:
Figure 481033DEST_PATH_IMAGE026
其中,connstant为常数,梯度提升方法中使用这样的准则选取函数(补偿函数)
Figure 593214DEST_PATH_IMAGE024
加入当前训练后的模型以构造新的模型:选取的函数
Figure 489626DEST_PATH_IMAGE024
使得目标函数最大程度地降低,也就是等同于使如下目标最大程度地降低:
Figure 505118DEST_PATH_IMAGE027
针对
Figure 727152DEST_PATH_IMAGE028
是不同形式的损失函数的情况进行说明:
1)当
Figure 326629DEST_PATH_IMAGE028
是平方损失函数时,上述目标可以表示为:
Figure 557890DEST_PATH_IMAGE029
这里,
Figure 424959DEST_PATH_IMAGE030
也称为残差。
2)当
Figure 286735DEST_PATH_IMAGE028
是其他形式的损失函数的情况时:
对目标
Figure 107930DEST_PATH_IMAGE027
使用泰勒公式进行二阶展开,得到:
Figure 611723DEST_PATH_IMAGE031
其中,
Figure 601807DEST_PATH_IMAGE032
可以得到一个统一的目标为:
Figure 900065DEST_PATH_IMAGE033
不难看出,当把常数项移除之后,目标函数有一个非常明显的特点,即依赖于在损失函数上的一阶导数和二阶导数来确定每次迭代训练后添加到模型中的函数。
XGBoost方法对目标函数进行了二阶泰勒展开,同时用到了一阶导数和二阶导数来确定每次迭代后添加到模型中的函数;并且支持用户自定义目标函数并在目标函数里加入了正则项,用于控制模型的复杂度,使得训练到的XGBoost更加简单,防止训练过程中过拟合现象的发生。
同时,XGBoost方法以样本的特征为粒度进行多线程并行的训练,大大地减少了模型训练所需要的时间复杂度。具体来说,将训练集中的样本按照特征进行分类,每个类别的样本分配一个或多个处理器的线程,每个线程内使用相同特征的样本对机器学习模型进行训练,并行多线程的方式显著缩短了机器学习模型的训练时间。
步骤103,基于训练集中各样本的预测损失,确定相应目标变量被预测错误的第一样本集合
Figure 474134DEST_PATH_IMAGE034
,以及相应目标变量被预测正确的第二样本集合
Figure 781619DEST_PATH_IMAGE035
在一个实施例中,基于机器学习模型的损失函数确定训练集合中各样本的预测损失。
例如,各样本的预测损失通过这样的方式确定,基于机器学习模型针对各样本的预测值
Figure 97980DEST_PATH_IMAGE036
与真实值
Figure 81986DEST_PATH_IMAGE037
之间的差值
Figure 894084DEST_PATH_IMAGE038
,将以差值
Figure 490413DEST_PATH_IMAGE038
为因变量的损失函数
Figure 704356DEST_PATH_IMAGE039
的输出值确定为相应样本的预测损失
Figure 609995DEST_PATH_IMAGE040
Figure 158657DEST_PATH_IMAGE039
可以为任意形式的函数,包括指数形式、对数形式等,例如可以采用这样的指数形式:
Figure 807945DEST_PATH_IMAGE041
,其中
Figure 93039DEST_PATH_IMAGE042
为绝对值算子。
在一个实施例中,第一样本集合和第二样本集合通过样本的预测损失与损失阈值
Figure 169579DEST_PATH_IMAGE043
的比较结果确定,训练集中预测损失超过损失阈值的样本,构成第一样本集合
Figure 939958DEST_PATH_IMAGE034
,预测损失未超过损失阈值的样本,构成第二样本集合
Figure 127357DEST_PATH_IMAGE035
步骤104,基于第一样本集合中各样本的预测损失、以及相应的第一权重确定第一样本集合
Figure 801046DEST_PATH_IMAGE034
的整体预测损失。
基于损失函数确定第一样本集合中各样本的损失,损失的加和记为
Figure 48488DEST_PATH_IMAGE044
,整体预测损失为使用第一权重对各样本的预测损失的加和进行调整如乘运算调整,得到第一样本集合的整体预测损失
Figure 306163DEST_PATH_IMAGE045
,记为
Figure 297252DEST_PATH_IMAGE046
由于损失函数是以0-1取值范围分布的参数来表示,而初始的第一权重
Figure 816659DEST_PATH_IMAGE001
与训练集中样本的数量负相关的数值如
Figure 500581DEST_PATH_IMAGE004
,因此,第一样本集合的整体预测损失的数值小于1。
步骤105,基于第一样本集合的整体预测损失更新第一样本集中各样本的第一权重、第二权重对应大于第二样本集合中各样本的第一权重和第二权重。
以第一样本集合的整体预测损失构造小于1的权重更新因子
Figure 979973DEST_PATH_IMAGE047
,可以理解地,权重更新因子
Figure 774754DEST_PATH_IMAGE047
可以采用
Figure 157456DEST_PATH_IMAGE048
Figure 746700DEST_PATH_IMAGE049
等形式构造。
示例性地,通过这样的方式基于权重更新因子提升第一样本集合中各样本的第一权重:
1)第二样本集合
Figure 713388DEST_PATH_IMAGE035
中各样本更新后的第一权重
Figure 46280DEST_PATH_IMAGE050
,通过使用权重更新因子
Figure 280559DEST_PATH_IMAGE047
进行对原第一权重
Figure 571863DEST_PATH_IMAGE001
降低得到,也就是将权重更新因子与原第一权重
Figure 25847DEST_PATH_IMAGE001
的乘积作为更新后的第一权重,记为:
Figure 382004DEST_PATH_IMAGE051
同时,第一样本集合
Figure 722987DEST_PATH_IMAGE034
中的各样本更新前后的第一权重保持不变,也就是与对机器学习模型进行第1次迭代训练时的第一权重的取值一致,更新后的第一权重
Figure 168881DEST_PATH_IMAGE052
记为
Figure 860893DEST_PATH_IMAGE053
由于第二样本集合
Figure 801167DEST_PATH_IMAGE035
中各样本的第一权重使用
Figure 15898DEST_PATH_IMAGE050
使用权重更新因子
Figure 367113DEST_PATH_IMAGE047
进行降低,因此,虽然第一样本集合
Figure 749684DEST_PATH_IMAGE034
中各样本的第一权重
Figure 916486DEST_PATH_IMAGE052
的数值没有直接进行提升,但是与第二样本集合
Figure 950170DEST_PATH_IMAGE035
中各样本的第一权重
Figure 439664DEST_PATH_IMAGE050
相比较而言,仍然实现了权重值提升的效果。
需要指出的是,为了保证在后续的迭代训练(例如第3次迭代训练、第4次迭代训练)时不出现第一权重的数值过小的情况、可以以第一权重
Figure 824377DEST_PATH_IMAGE052
Figure 309716DEST_PATH_IMAGE050
的最大值为基准进行归一化处理。
另外,通过这样的方式基于权重更新因子降低第一样本集合中各样本的第一权重:
2)第一样本集合
Figure 699372DEST_PATH_IMAGE034
中各样本更新后的第二权重
Figure 126811DEST_PATH_IMAGE054
,通过使用权重更新因子
Figure 546291DEST_PATH_IMAGE047
进行对原第二权重
Figure 131860DEST_PATH_IMAGE003
提升得到,也就是将原第二权重
Figure 422027DEST_PATH_IMAGE001
与权重更新因子相除
作为更新后的第二权重
Figure 551526DEST_PATH_IMAGE052
,记为:
Figure 192723DEST_PATH_IMAGE055
同时,第二样本集合
Figure 567335DEST_PATH_IMAGE035
中的各样本更新前后的第二权重保持不变,也就是与对机器学习模型进行第1次迭代训练时的第二权重的取值一致,更新后的第二权重
Figure 243167DEST_PATH_IMAGE056
记为
Figure 28720DEST_PATH_IMAGE057
由于第一样本集合
Figure 140902DEST_PATH_IMAGE034
中各样本的第二权重使用权重更新因子
Figure 302893DEST_PATH_IMAGE047
进行提升,同时,第二样本集合
Figure 315455DEST_PATH_IMAGE035
中的各样本更新前后的第二权重保持不变,仍然实现了第一样本集合
Figure 537489DEST_PATH_IMAGE034
中各样本第二权重的权重值提升的效果。
步骤106,将训练集中各样本更新后的第二权重、以及各样本的特征和目标变量输入机器学习模型包括的分类器进行训练。
可以理解地,基于样本及其对应的更新后的第二权重,可以对机器学习模型进行多次的迭代训练,仍然参见图2,机器学习模型包括多个基分类器y1(x)~ y2(x),对于第s(s为大于或等于1的整数)次迭代训练,执行如下的操作:
将第一样本集合及其第二权重
Figure 136966DEST_PATH_IMAGE054
、第二样本集合及其第二权重
Figure 102648DEST_PATH_IMAGE056
输入每个分类器,通过最小化每个分类器的权重误差函数求解,得到分类器的融合系数
Figure 972646DEST_PATH_IMAGE006
;基于各分类器的融合系数最分类器进行组合,作为最终训练后得到的新的机器学习模型
Figure 631161DEST_PATH_IMAGE007
第s+1次训练的过程与第s次训练的过程相同,区别在于,第s+1次迭代训练中待训练的机器学习模型与第s次训练后得到的机器学习模型存在如下关系:
第s+1次训练后得到的机器学习模型=第s次训练后得到的机器学习模型+补偿函数。
可见,由于补偿函数第s次训练后机器学习模型的损失函数二阶求导结果构造,这就使得第s次训练后机器学习模型的预测误差能够按照损失函数的梯度方向下降,最大程度降低了机器学习模型的预测误差,提升预测精度。
特别地,当机器学习模型采用XGBoost模型为基分类器时,由于XGBoost模型支持对于样本以特征为粒度进行并行的迭代训练,例如对于相同特征的样本分配一个或多个线程进行迭代训练,显著缩短了机器学习模型的迭代训练时间,提升了机器学习模型的训练效率。
由于第一样本集合的第二权重值得到提升,与输入机器学习模型的样本的权重相同的情况相比,机器学习模型在的训练过程中更侧重第一样本集合的样本进行融合参数计算,从而训练后的机器学习模型具有针对第一样本集合的目标参数的取值更好的预测性能。
需要指出的是, 步骤103至步骤106可以多次执行,以确定新的相应目标变量被预测错误的第一样本集合
Figure 983513DEST_PATH_IMAGE034
,以及新的相应目标变量被预测正确的第二样本集合
Figure 487307DEST_PATH_IMAGE035
,相应地,迭代更新第一权重和第二权重可以迭代更新,向机器学习模型输入的新的第一样本集合
Figure 214741DEST_PATH_IMAGE034
及其更新的第二权重,对机器学习模型再次进行训练,当然,可以进行多次的迭代训练。
这里,以第t+1次重复执行步骤103和步骤106为例,设第t次执行步骤103确定的相应目标变量被预测错误的第一样本集合为
Figure 778578DEST_PATH_IMAGE034
,以及新的相应目标变量被预测正确的第二样本集合为
Figure 368959DEST_PATH_IMAGE035
,由于之前的步骤103至步骤106中已经侧重于使用第一样本集合中的样本(第二权重得到提升)进行迭代训练,因此,再次执行步骤103时,重新确定的第一样本集合
Figure 660132DEST_PATH_IMAGE034
中样本的数量会减少(因为原第一样本集合
Figure 753990DEST_PATH_IMAGE034
中的部分样本的目标变量已经进行了正确预测)。
第一样本集合中各样本的损失的加和记为
Figure 895253DEST_PATH_IMAGE044
,第一样本集合的整体预测损失
Figure 176192DEST_PATH_IMAGE058
,记为
Figure 35171DEST_PATH_IMAGE059
,相应地,
Figure 983535DEST_PATH_IMAGE060
,对于第一样本集合的第一权重
Figure 404021DEST_PATH_IMAGE061
和第二样本集合的第一权重
Figure 703415DEST_PATH_IMAGE062
,采用权重更新因子
Figure 837856DEST_PATH_IMAGE063
进行更新:
Figure 906306DEST_PATH_IMAGE064
Figure 232114DEST_PATH_IMAGE065
其中,由于
Figure 753225DEST_PATH_IMAGE063
小于1,因此虽然第一样本集合各样本的第一权重没有变化,但是相较于第二样本集合的第一权重仍然实现了提升的效果,另外,为了避免出现第一权重的数值降低过大(同时避免第二权重的数值提升过大)的情况,第一样本集合中各样本的第一权重和第二样本集合的第一权重进行归一化处理。
归一化的
Figure 206203DEST_PATH_IMAGE062
表示为:
Figure 871103DEST_PATH_IMAGE066
归一化的
Figure 118545DEST_PATH_IMAGE061
表示为:
Figure 641799DEST_PATH_IMAGE067
同时,对于第一样本集合的第二权重和第二样本集合的第二权重,采用这样的方式进行更新:
Figure 367309DEST_PATH_IMAGE068
Figure 629926DEST_PATH_IMAGE069
其中,由于
Figure 297536DEST_PATH_IMAGE070
大于1,第一样本集合的第二权重发生提升,同时第一样本集合第二权重没有变化,因此第一样本集合的第二权重实现了提升的效果。
当迭代更新第一样本集合的第一权重和第二权重次数到达指定值,或者第一样本集合的整体预测损失低于预定值时,机器学习模型具有针对目标变量的预测正确率为50%或邻域(如,48%至52%)的样本进行精确预测的性能。
图5是本发明实施例中多次(次数以m表示)迭代更新第一权重和第二权重过程中,训练集样本的分类结果的一个可选的示意图,实线表示当前已经训练得到的模型(模型是由前t次迭代更新的第二权重及样本训练得到),虚线表示当前机器学习模型,每次训练的时候,由于第一样本集合的第二权重较第二样本集合的第二权重更大,使得机器学习模型会更关注第一样本集合中的样本进行训练,图5中的点表示样本,点的面积越大表示样本的第二权重越高,当多次迭代更新第一权重和第二权重,并训练机器学习模型后,获得的机器学习模型已经能够将不同类别的样本进行区分。
本发明实施例可提供为基于机器学习模型训练的信贷用户分类方法以及基于机器学习模型训练的信贷用户分类装置,实际应用中,基于机器学习模型训练的信贷用户分类装置中的各功能模块可以由设备(如终端设备、服务器或服务器集群)的硬件资源,如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)协同实现。图6示例性示出了基于机器学习模型训练的信贷用户分类装置10的一个可选的软硬件结构示意图,基于机器学习模型训练的信贷用户分类装置10包括硬件层、中间层、操作***层和软件层。然而,本领域的技术人员应当理解,图6 示出的基于机器学习模型训练的信贷用户分类装置10的结构仅为示例,并不构成对基于机器学习模型训练的信贷用户分类装置10结构的限定。例如,基于机器学习模型训练的信贷用户分类装置10可以根据实施需要设置较图6更多的组件,或者根据实施需要省略设置部分组件。
基于机器学习模型训练的信贷用户分类装置10的硬件层包括处理器11、输入/输出接口13,存储介质14以及网络接口12,组件可以经***总线连接通信。
处理器11可以采用中央处理器(CPU)、微处理器(MCU,Microcontroller Unit)、专用集成电路(ASIC,Application Specific Integrated Circuit)或逻辑可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
输入/输出接口13可以采用如显示屏、触摸屏、扬声器等输入/输出器件实现。
存储介质14可以采用闪存、硬盘、光盘等非易失性存储介质实现,也可以采用双倍率(DDR,Double Data Rate)动态缓存等易失性存储介质实现,其中存储有用以执行上述视频处理方法的可执行指令。
示例性地,存储介质14可以与基于机器学习模型训练的信贷用户分类装置10 的其他组件集中设置,也可以相对于基于机器学习模型训练的信贷用户分类装置10中的其他组件分布设置。网络接口12向处理器11提供外部数据如异地设置的存储介质14的访问能力,示例性地,网络接口12可以基于近场通信(NFC,Near Field Communication)技术、蓝牙(Bluetooth)技术、紫蜂(ZigBee)技术进行的近距离通信,另外,还可以实现如CDMA、WCDMA等通信制式及其演进制式的通信。
驱动层包括用于供操作***16识别硬件层并与硬件层各组件通信的中间件15,例如可以为针对硬件层的各组件的驱动程序的集合。
操作***16用于提供面向用户的图形界面,示例性地,包括插件图标、桌面背景和应用图标,操作***16支持用户经由图形界面对设备的控制本发明实施例对上述设备的软件环境如操作***类型、版本不做限定,例如可以是Linux操作***、UNIX操作***或其他操作***。
应用层包括用户侧终端运行的应用,例如应用层中运行有模型训练应用17。
当然,本发明实施例不局限于提供为方法和硬件,还可有多种实现方式,例如提供为存储介质(存储有用于执行本发明实施例提供的基于机器学习模型训练的信贷用户分类方法的指令),以下再对不同的实现方式举例说明。
一、移动端应用程序及模块
本发明实施例可提供为使用C/C++、Java等编程语言设计的软件模块,嵌入到基于Android或iOS等***的各种移动端Apps中(例如微信等)(以可执行指令的存储在移动端的存储介质中,由移动端的处理器执行),从而直接使用移动端自身的计算资源完成相关的基于机器学习模型训练的信贷用户分类、预测等任务,并且定期或不定期地通过各种网络通信方式将基于机器学习模型训练的信贷用户分类、预测等结果传送给远程的服务器,或者在移动端本地保存。
二、服务器应用程序及平台
本发明实施例可提供使用C/C++、Java等编程语言设计的应用软件或大型软件***中的专用软件模块,运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储,并由服务器端的处理器运行),将接收到的来自其它设备的各种原始数据、各级中间数据和最终结果中的至少一种,与服务器上已有的某些数据或结果综合起来进行机器学习模型的训练、以及使用训练完成的机器学习模型进预测,然后实时或非实时地输出机器学习模型或预测结果给其他应用程序或模块使用,也可以写入服务器端数据库或文件进行存储。
本发明实施例还可以提供为在多台服务器构成的分布式、并行计算平台上,搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI,User Interface),形成供个人、群体或企业使用的数据挖掘平台、信用评估平台(用于评估客户是否为优质客户)、用户流失预警平台(用于识别潜在的流失客户)等。使用者可以将已有的数据包批量上传给此平台以获得各种计算结果,也可以将实时的数据流传输给此平台来实时计算和刷新各级结果。
三、服务器端应用程序接口(API,Application Program Interface)及插件
本发明实施例可提供为服务器端的实现基于机器学习模型训练的信贷用户分类功能、基于机器学习模型进行预测的API、软件开发套件(SDK,Software DevelopmentToolkit)或插件,供其他的服务器端应用程序开发人员调用,并嵌入到各类应用程序中。
四、移动设备客户端API及插件
本发明实施例还可提供为移动设备端的实现基于机器学习模型训练的信贷用户分类功能的、基于机器学习模型进行预测的API、SDK或插件,供其他的移动端应用程序开发人员调用,并嵌入到各类应用程序中。
五、云端开放服务
本发明实施例可提供为基于机器学习模型进行预测的信用评估云服务、用户流失预警云服务、本发明实施例还可提供为信用评估云服务、用户流失预警云服务的API、SDK及插件等,打包封装成可供企业内外人员开放使用的云服务,或者将各种结果以适当形式展示在各种终端显示设备上,供个人、群体或企事业单位查询。
再对前述基于机器学习模型训练的信贷用户分类装置的功能结构进行说明,参见图7示出的基于机器学习模型训练的信贷用户分类装置20的一个可选的功能结构示意图,包括:
第一训练单元21,用于基于训练集中各样本初始化的第一权重和第二权重、并基于各样本的特征为粒度对机器学习模型进行训练;
样本单元22,用于基于训练集中各样本的预测损失,确定相应目标变量被预测错误的第一样本集合,以及相应目标变量被预测正确的第二样本集合;
预测损失单元23,用于基于第一样本集合中各样本的预测损失、以及相应的第一权重确定第一样本集合的整体预测损失;
权重单元24,用于基于第一样本集合的整体预测损失提升第一样本集中各样本的第一权重和第二权重;
第二训练单元25,用于将所述训练集中各样本更新后的所述第二权重、以及各样本的特征和目标变量输入所述机器学习模型,以各样本的特征为粒度对所述机器学习模型进行训练。
在一个实施例中,第一训练单元21,还用于初始化训练集中各样本的第一权重和第二权重,将所述训练集中各样本的第二权重、以及各样本的特征和目标变量输入所述机器学习模型,在所述机器学习模型中为相同特征的样本对应分配线程,以并行线程的方式进行训练。
在一个实施例中,第一训练单元21,还用于基于训练集中样本的数量为训练集中各样本统一分配第一权重,为训练集中各样本统一分配区别于第一权重的第二权重。
在一个实施例中,基于机器学习模型训练的信贷用户分类装置20还包括:补偿单元26,用于在所述第一训练单元21和所述第二训练单元25每次训练所述机器学习模型后,基于所述机器学习模型的损失函数的梯度方向,确定使所述预测损失按照所述梯度方向下降的补偿函数,在所述机器学习模型中叠加用于补偿所述预测损失的所述补偿函数。
在一个实施例中,预测损失单元23,还用于基于机器学习模型针对第一样本集合中各样本的预测值与真实值之间的差值,将基于差值为因变量的损失函数的输出值确定为相应样本的预测损失。
在一个实施例中,样本单元22,还用于从训练集中确定预测损失超过损失阈值的第一样本集合,以及预测损失未超过损失阈值的第二样本集合。
在一个实施例中,样本单元22,还用于以第一样本集合的整体预测损失、以及第一权重的乘积构造权重更新因子,基于权重更新因子降低第一样本集合中各样本的第一权重,并提升第二样本集合中各样本的第二权重。
在一个实施例中,权重单元24,还用于对训练集中各样本的第一权重进行归一化处理,基于归一化处理结果对应更新各样本的第一权重。
在一个实施例中,基于机器学习模型训练的信贷用户分类装置20还包括:
融合单元27,用于通过最小化第一样本集合中各样本的预测损失的平方和的方式,确定所述机器学习模型包括的分类器的融合系数,基于各所述分类器的融合系数组合形成训练后的机器学习模型。
在一个实施例中,第二训练单元25,还用于基于所述样本单元迭代更新的所述第一样本集合和所述第二样本集合、以及所述权重单元迭代更新的所述第一样本集合的所述第二权重训练所述机器学习模型;直至满足迭代更新次数或所述第一样本集合的整体预测损失低于预定值。
试对本发明实施例提供的机器学习模型能够适用的应用场景进行举例说明,当然不局限于以下所给出的场景示例。
场景1)机器学习模型实施为二分类预警模型:机器学习模型中根据道德风险、收入能力、资金链紧张、游戏偏好和不良用途等基本类别的特征出发,构造1400多维子特征,在此基础上使用二分类预警模型预测用户是否为优质客户,为进一步提升银行对信贷用户的风控能力以及制定有效策略提供数据支撑。
具体来说,数据准备方面,在道德风险、收入能力、资金链紧张、游戏偏好和不良用途等变量大类的基础上,细化为沟通(6)、特殊号码(11)、标签(29)、账户信息一致性(20)、LBS(56)、设备(39)、消息(28)、沟通时段(42)、游戏(142)、共同好友(76)、登陆行为(172)、加友(384)、支付(432)13维变量小类(括号中数字代表每个变量小类下面细化的具体可用于建模的特征的个数;其中有些是原生的特征指标,有些是在原生指标的基础上进行衍生得到的特征指标)。
场景2)用户流失预警模型训练及预测:用户流失预警模型中根据用户基础属性、活跃度、登陆情况、消息情况等特征,分析已知用户(包括流失用户和非流失用户)行为数据,运用本发明进行行为数据预测建模,准确预测潜在的流失用户,针对可能流失的用户做推送的推广活动,从而提升用户整体上的活跃度。
本发明实施例具有以下有益效果:
1)在样本基于先验的第二权重的分布下对机器学习模型进行训练,通过找到被机器学习模型错误预测的样本(第一样本集合),并提升对应的权重,通过更新的样本的分布,能够使后续训练时机器学习模型中的分类器更加关注被错误预测的样本,提升针对错误样本的预测精度;
2)以特征为粒度对机器学习模型进行并行训练,从而可以容易地通过多线程的CPU来快速完成训练过程,提升了机器学习模型的训练效率;
3)针对机器学习模型的融合系数不是最优的问题,通过最优化MSE求出最佳系数,保证了训练得到的机器学习模型的精确性。
本领域的技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储装置、随机存取存储器(RAM,Random Access Memory)、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器、或者网络装置等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储装置、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (19)

1.一种基于机器学习模型训练的信贷用户分类方法,其特征在于,
所述机器学习模型用于在征信业务中区分信贷用户是否是优质用户;
所述方法包括:
初始化训练集中的信贷用户样本的第一权重和第二权重;
其中,所述训练集中的信贷用户样本包括优质用户样本和非优质用户样本,所述信贷用户的特征至少包括收入数据和支出数据,所述信贷用户的目标变量包括优质用户和非优质用户;
将所述训练集中的信贷用户样本的第二权重、以及所述信贷用户样本的所述特征和所述目标变量输入机器学习模型包括的分类器,在所述机器学习模型中为相同的所述特征的信贷用户样本对应分配处理器的线程,以并行线程的方式训练所述机器学习模型;
其中,所述分类器为多个弱分类器的线性组合形成的强分类器;
基于所述训练集中的信贷用户样本的预测损失,确定相应目标变量被预测错误的第一信贷用户样本集合,以及相应目标变量被预测正确的第二信贷用户样本集合;
基于所述第一信贷用户样本集合中的信贷用户样本的预测损失、以及相应的第一权重确定所述第一信贷用户样本集合的整体预测损失;
基于所述第一信贷用户样本集合的整体预测损失提升所述第一信贷用户样本集中的信贷用户样本的所述第一权重和所述第二权重;
将所述训练集中的信贷用户样本更新后的所述第二权重、以及所述信贷用户样本的特征和所述目标变量输入所述机器学习模型,以所述信贷用户样本的特征为粒度对所述机器学习模型进行训练;
通过终端的显示设备展示训练后的所述机器学习模型对所述信贷用户的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述初始化所述训练集中的信贷用户样本的第一权重和第二权重,包括:
基于所述训练集中的信贷用户样本的数量为所述训练集中的信贷用户样本统一分配所述第一权重,为所述训练集中的信贷用户样本统一分配区别于所述第一权重的所述第二权重。
3.根据权利要求1所述的方法,其特征在于,还包括:
在每次训练所述机器学习模型后,基于所述机器学习模型的损失函数的梯度方向,确定使所述预测损失按照所述梯度方向下降的补偿函数,在所述机器学习模型中叠加用于补偿所述预测损失的所述补偿函数。
4.根据权利要求1所述的方法,其特征在于,还包括:
基于所述机器学习模型针对所述第一信贷用户样本集合中的信贷用户样本的预测值与真实值之间的差值,将以所述差值为因变量的损失函数的输出值确定为相应样本的预测损失。
5.根据权利要求1所述的方法,其特征在于,所述基于所述训练集中的信贷用户样本的预测损失,确定相应目标变量被预测错误的第一信贷用户样本集合,以及相应目标变量被预测正确的第二信贷用户样本集合,包括:
从所述训练集中确定预测损失超过损失阈值的所述第一信贷用户样本集合,以及预测损失未超过所述损失阈值的所述第二信贷用户样本集合。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一信贷用户样本集合的整体预测损失提升所述第一信贷用户样本集合中的信贷用户样本的所述第一权重和所述第二权重,包括:
以所述第一信贷用户样本集合的整体预测损失、以及所述第一权重的乘积构造权重更新因子,基于所述权重更新因子降低所述第二信贷用户样本集合中的信贷用户样本的所述第一权重,并提升所述第一信贷用户样本集合中的信贷用户样本的所述第二权重。
7.根据权利要求6所述的方法,其特征在于,还包括:
对所述训练集中的信贷用户样本的所述第一权重进行归一化处理,基于归一化处理结果对应更新所述训练集中的信贷用户样本的所述第一权重。
8.根据权利要求1所述的方法,其特征在于,还包括:
通过最小化所述第一信贷用户样本集合中的信贷用户样本的预测损失平方和的方式,确定所述机器学习模型包括的分类器的融合系数,基于各所述分类器的融合系数组合形成训练后的所述机器学习模型。
9.根据权利要求1所述的方法,其特征在于,还包括:
更新所述第一信贷用户样本集合以及所述第二信贷用户样本集合,迭代更新所述第一信贷用户样本集合的所述第一权重和所述第二权重,基于更新的所述第一信贷用户样本集合以及相应的所述第二权重训练所述机器学习模型,直至满足迭代更新次数或所述第一信贷用户样本集合的整体预测损失低于预定值。
10.一种基于机器学习模型训练的信贷用户分类装置,其特征在于,
所述机器学习模型用于在征信业务中区分信贷用户是否是优质用户;
所述装置包括:
第一训练单元,用于初始化训练集中的信贷用户样本的第一权重和第二权重;
其中,所述训练集中的信贷用户样本包括优质用户样本和非优质用户样本,所述信贷用户的特征至少包括收入数据和支出数据,所述信贷用户的目标变量包括优质用户和非优质用户;
将所述训练集中的信贷用户样本的第二权重、以及所述信贷用户样本的所述特征和所述目标变量输入机器学习模型包括的分类器,在所述机器学习模型中为相同的所述特征的信贷用户样本对应分配处理器的线程,以并行线程的方式训练所述机器学习模型;
其中,所述分类器为多个弱分类器的线性组合形成的强分类器;
样本单元,用于基于所述训练集中的信贷用户样本的预测损失,确定相应目标变量被预测错误的第一信贷用户样本集合,以及相应目标变量被预测正确的第二信贷用户样本集合;
预测损失单元,用于基于所述第一信贷用户样本集合中的信贷用户样本的预测损失、以及相应的第一权重确定所述第一信贷用户样本集合的整体预测损失;
权重单元,用于基于所述第一信贷用户样本集合的整体预测损失提升所述第一信贷用户样本集中的信贷用户样本的所述第一权重和所述第二权重;
第二训练单元,用于将所述训练集中的信贷用户样本更新后的所述第二权重、以及所述信贷用户样本的特征和所述目标变量输入所述机器学习模型,以所述信贷用户样本的特征为粒度对所述机器学习模型进行训练;
通过终端的显示设备展示训练后的所述机器学习模型对所述信贷用户的分类结果。
11.根据权利要求10所述的装置,其特征在于,
所述第一训练单元,还用于基于所述训练集中的信贷用户样本的数量为所述训练集中的信贷用户样本统一分配所述第一权重,为所述训练集中的信贷用户样本统一分配区别于所述第一权重的所述第二权重。
12.根据权利要求10所述的装置,其特征在于,还包括:
补偿单元,用于在所述第一训练单元和所述第二训练单元每次训练所述机器学习模型后,基于所述机器学习模型的损失函数的梯度方向,确定使所述预测损失按照所述梯度方向下降的补偿函数,在所述机器学习模型中叠加用于补偿所述预测损失的所述补偿函数。
13.根据权利要求10所述的装置,其特征在于,
所述预测损失单元,还用于基于所述机器学习模型针对所述第一信贷用户样本集合中的信贷用户样本的预测值与真实值之间的差值,将以所述差值为因变量的损失函数的输出值确定为相应样本的预测损失。
14.根据权利要求10所述的装置,其特征在于,
所述样本单元,还用于从所述训练集中确定预测损失超过损失阈值的所述第一信贷用户样本集合,以及预测损失未超过所述损失阈值的所述第二信贷用户样本集合。
15.根据权利要求10所述的装置,其特征在于,
所述样本单元,还用于以所述第一信贷用户样本集合的整体预测损失、以及所述第一权重的乘积构造权重更新因子,基于所述权重更新因子降低所述第二信贷用户样本集合中的信贷用户样本的所述第一权重,并提升所述第一信贷用户样本集合中的信贷用户样本的所述第二权重。
16.根据权利要求15所述的装置,其特征在于,
所述权重单元,还用于对所述训练集中的信贷用户样本的所述第一权重进行归一化处理,基于归一化处理结果对应更新的信贷用户样本的所述第一权重。
17.根据权利要求10所述的装置,其特征在于,还包括:
融合单元,用于通过最小化所述第一信贷用户样本集合中的信贷用户样本的预测损失平方和的方式,确定所述机器学习模型包括的分类器的融合系数,基于各所述分类器的融合系数组合形成训练后的所述机器学习模型。
18.根据权利要求10所述的装置,其特征在于,
所述第二训练单元,还用于基于所述样本单元迭代更新的所述第一信贷用户样本集合和所述第二信贷用户样本集合、以及所述权重单元迭代更新的所述第一信贷用户样本集合的所述第二权重训练所述机器学习模型;直至满足迭代更新次数或所述第一信贷用户样本集合的整体预测损失低于预定值。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被至少一个处理器执行时实现如权利要求1至9中任一项所述的基于机器学习模型训练的信贷用户分类方法。
CN201610979377.5A 2016-10-31 2016-10-31 基于机器学习模型训练的信贷用户分类方法及装置 Active CN106548210B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610979377.5A CN106548210B (zh) 2016-10-31 2016-10-31 基于机器学习模型训练的信贷用户分类方法及装置
PCT/CN2017/108438 WO2018077285A1 (zh) 2016-10-31 2017-10-30 机器学习模型训练方法、装置、服务器及存储介质
US16/383,140 US11531841B2 (en) 2016-10-31 2019-04-12 Machine learning model training method and apparatus, server, and storage medium
US17/959,858 US11861478B2 (en) 2016-10-31 2022-10-04 Machine learning model training method and apparatus, server, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610979377.5A CN106548210B (zh) 2016-10-31 2016-10-31 基于机器学习模型训练的信贷用户分类方法及装置

Publications (2)

Publication Number Publication Date
CN106548210A CN106548210A (zh) 2017-03-29
CN106548210B true CN106548210B (zh) 2021-02-05

Family

ID=58394626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610979377.5A Active CN106548210B (zh) 2016-10-31 2016-10-31 基于机器学习模型训练的信贷用户分类方法及装置

Country Status (3)

Country Link
US (2) US11531841B2 (zh)
CN (1) CN106548210B (zh)
WO (1) WO2018077285A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735535A (zh) * 2021-04-01 2021-04-30 腾讯科技(深圳)有限公司 预测模型训练、数据预测方法、装置和存储介质

Families Citing this family (140)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016061576A1 (en) 2014-10-17 2016-04-21 Zestfinance, Inc. Api for implementing scoring functions
CN106548210B (zh) 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置
US11416751B2 (en) * 2017-03-31 2022-08-16 H2O.Ai Inc. Time-based ensemble machine learning model
GB201705189D0 (en) * 2017-03-31 2017-05-17 Microsoft Technology Licensing Llc Sensor data processor with update ability
WO2018187948A1 (zh) * 2017-04-12 2018-10-18 邹霞 机器学习模型的局部修复方法
CN107124365B (zh) * 2017-04-25 2020-11-24 曙光信息产业(北京)有限公司 一种基于机器学习的路由策略的获取***
CN107169513B (zh) * 2017-05-05 2019-10-18 第四范式(北京)技术有限公司 控制数据使用顺序的分布式机器学习***及其方法
CN107766929B (zh) 2017-05-05 2019-05-24 平安科技(深圳)有限公司 模型分析方法及装置
CN108320026B (zh) * 2017-05-16 2022-02-11 腾讯科技(深圳)有限公司 机器学习模型训练方法和装置
CN109034175B (zh) * 2017-06-12 2022-04-05 华为技术有限公司 图像处理方法、装置及设备
US20200204643A1 (en) * 2017-06-16 2020-06-25 Huawei Technologies Co., Ltd. User profile generation method and terminal
CN107507613B (zh) * 2017-07-26 2021-03-16 合肥美的智能科技有限公司 面向场景的中文指令识别方法、装置、设备和存储介质
WO2019028179A1 (en) 2017-08-02 2019-02-07 Zestfinance, Inc. SYSTEMS AND METHODS FOR PROVIDING DISAPPEARED IMPACT INFORMATION OF AUTOMATIC LEARNING MODEL
CN107563201B (zh) * 2017-09-08 2021-01-29 北京奇宝科技有限公司 基于机器学习的关联样本查找方法、装置及服务器
CN110021373A (zh) * 2017-09-19 2019-07-16 上海交通大学 一种化学反应的合法性预测方法
KR102563752B1 (ko) * 2017-09-29 2023-08-04 삼성전자주식회사 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들
CN109754105B (zh) * 2017-11-07 2024-01-05 华为技术有限公司 一种预测方法及终端、服务器
CN108021940B (zh) * 2017-11-30 2023-04-18 ***股份有限公司 基于机器学习的数据分类方法及***
CN109903071A (zh) * 2017-12-11 2019-06-18 优估(上海)信息科技有限公司 一种二手车定价方法、装置、设备及计算机可读介质
CN108038508A (zh) * 2017-12-12 2018-05-15 携程旅游网络技术(上海)有限公司 中转航班的推送方法、***、存储介质和电子设备
CN109977977B (zh) * 2017-12-28 2021-04-02 中移动信息技术有限公司 一种识别***的方法及对应装置
CN108108821B (zh) 2017-12-29 2022-04-22 Oppo广东移动通信有限公司 模型训练方法及装置
CN108257593B (zh) * 2017-12-29 2020-11-13 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108199951A (zh) * 2018-01-04 2018-06-22 焦点科技股份有限公司 一种基于多算法融合模型的垃圾邮件过滤方法
CN109919317B (zh) * 2018-01-11 2024-06-04 华为技术有限公司 一种机器学习模型训练方法和装置
CN108256052B (zh) * 2018-01-15 2023-07-11 成都达拓智通科技有限公司 基于tri-training的汽车行业潜在客户识别方法
CN108446170B (zh) * 2018-01-24 2021-06-22 北京奇艺世纪科技有限公司 一种基于机器学习的dns线程管理方法、装置和服务器
CN108446817B (zh) * 2018-02-01 2020-10-02 阿里巴巴集团控股有限公司 确定业务对应的决策策略的方法、装置和电子设备
WO2019173734A1 (en) 2018-03-09 2019-09-12 Zestfinance, Inc. Systems and methods for providing machine learning model evaluation by using decomposition
CN108647373A (zh) * 2018-03-21 2018-10-12 浙江大学 一种基于xgboost模型的工业过程软测量方法
CN108538389B (zh) * 2018-03-27 2022-04-29 季书帆 一种预测smile屈光手术中屈光度调整值的方法及***
US11847574B2 (en) 2018-05-04 2023-12-19 Zestfinance, Inc. Systems and methods for enriching modeling tools and infrastructure with semantics
JP7440420B2 (ja) * 2018-05-07 2024-02-28 グーグル エルエルシー 包括的機械学習サービスを提供するアプリケーション開発プラットフォームおよびソフトウェア開発キット
CN108846340B (zh) 2018-06-05 2023-07-25 腾讯科技(深圳)有限公司 人脸识别方法、装置及分类模型训练方法、装置、存储介质和计算机设备
CN110728289B (zh) * 2018-07-16 2022-06-03 中移动信息技术有限公司 一种家庭宽带用户的挖掘方法及设备
CN109272332B (zh) * 2018-08-02 2021-06-08 华南理工大学 一种基于递归神经网络的客户流失预测方法
US11151165B2 (en) * 2018-08-30 2021-10-19 Microsoft Technology Licensing, Llc Data classification using data flow analysis
WO2020056647A1 (zh) * 2018-09-19 2020-03-26 华为技术有限公司 一种ai模型的开发方法及装置
WO2020068036A1 (en) * 2018-09-24 2020-04-02 Hewlett-Packard Development Company, L.P. Device status assessment
CN111046891A (zh) * 2018-10-11 2020-04-21 杭州海康威视数字技术股份有限公司 车牌识别模型的训练方法、车牌识别方法和装置
CN109472296A (zh) * 2018-10-17 2019-03-15 阿里巴巴集团控股有限公司 一种基于梯度提升决策树的模型训练方法及装置
US10576380B1 (en) * 2018-11-05 2020-03-03 Sony Interactive Entertainment LLC Artificial intelligence (AI) model training using cloud gaming network
TW202018727A (zh) * 2018-11-09 2020-05-16 財團法人工業技術研究院 整體式學習預測方法與系統
CN109901881B (zh) * 2018-11-27 2022-07-12 创新先进技术有限公司 应用程序的插件加载方法、装置、计算机设备及存储介质
US10839318B2 (en) 2018-12-12 2020-11-17 Capital One Services, Llc Machine learning models for evaluating differences between groups and methods thereof
CN111353001B (zh) * 2018-12-24 2023-08-18 杭州海康威视数字技术股份有限公司 对用户进行分类的方法和装置
CN110046642B (zh) * 2019-01-23 2023-06-30 创新先进技术有限公司 计算机执行的用户意图预测方法、装置及设备
CN111666962B (zh) * 2019-03-07 2024-05-21 京东科技控股股份有限公司 序列数据的目标定位方法和装置
CN110046259A (zh) * 2019-03-15 2019-07-23 浙江大学城市学院 一种基于判决书文本的涉毒案件深度分析方法
US10977729B2 (en) * 2019-03-18 2021-04-13 Zestfinance, Inc. Systems and methods for model fairness
CN110084271B (zh) * 2019-03-22 2021-08-20 同盾控股有限公司 一种图片类别的识别方法和装置
CN110033098A (zh) * 2019-03-28 2019-07-19 阿里巴巴集团控股有限公司 在线gbdt模型学习方法及装置
US20200364503A1 (en) * 2019-05-15 2020-11-19 International Business Machines Corporation Accurate ensemble by mutating neural network parameters
CN111985651A (zh) * 2019-05-22 2020-11-24 ***通信集团福建有限公司 业务***运维方法和装置
US10956597B2 (en) 2019-05-23 2021-03-23 Advanced New Technologies Co., Ltd. Loss function value determination method and device and electronic equipment
CN110263294B (zh) * 2019-05-23 2020-08-04 阿里巴巴集团控股有限公司 损失函数取值的确定方法、装置和电子设备
CN110222339B (zh) * 2019-06-05 2023-04-28 深圳市思迪信息技术股份有限公司 基于改进XGBoost算法的意图识别方法及装置
CN110276113A (zh) * 2019-06-11 2019-09-24 嘉兴深拓科技有限公司 一种网络结构预测方法
CN110348581B (zh) * 2019-06-19 2023-08-18 平安科技(深圳)有限公司 用户特征群中用户特征寻优方法、装置、介质及电子设备
CN110322342B (zh) * 2019-06-27 2022-05-06 上海上湖信息技术有限公司 借贷风险预测模型的构建方法、***及借贷风险预测方法
CN111417124A (zh) * 2019-06-28 2020-07-14 西南交通大学 在认知无线网络环境下频谱感知的方法
CN112149833B (zh) * 2019-06-28 2023-12-12 北京百度网讯科技有限公司 基于机器学习的预测方法、装置、设备和存储介质
CN110490632A (zh) * 2019-07-01 2019-11-22 广州阿凡提电子科技有限公司 一种潜在客户识别方法、电子设备及存储介质
CN110309203B (zh) * 2019-07-02 2021-08-10 成都数之联科技有限公司 一种基于大数据的交互式和自定义数据建模***
JP7114528B2 (ja) * 2019-07-08 2022-08-08 株式会社東芝 推論装置、学習装置、推論方法及び学習方法
CN110505144A (zh) * 2019-08-09 2019-11-26 世纪龙信息网络有限责任公司 邮件分类方法、装置、设备及存储介质
CN110458725A (zh) * 2019-08-20 2019-11-15 国网福建省电力有限公司 一种基于xgBoost模型和Hadoop架构的窃电识别分析方法及终端
CN110851321B (zh) * 2019-10-10 2022-06-28 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN111045716B (zh) * 2019-11-04 2022-02-22 中山大学 一种基于异构数据的相关补丁推荐方法
CN111126628B (zh) * 2019-11-21 2021-03-02 支付宝(杭州)信息技术有限公司 在可信执行环境中训练gbdt模型的方法、装置及设备
CN110879921B (zh) * 2019-11-25 2023-05-05 大连大学 一种基于时空相关性的卫星网络流量预测方法
CN110995382A (zh) * 2019-11-29 2020-04-10 中国科学院微电子研究所 基于元学习的避扰通信模型及其训练方法
CN112991073A (zh) * 2019-12-02 2021-06-18 泰康保险集团股份有限公司 一种核保结果数据的展示***
CN110942144B (zh) * 2019-12-05 2023-05-02 深圳牛图科技有限公司 集自动化训练、校验、重构于一体的神经网络构建方法
CN111050266B (zh) * 2019-12-20 2021-07-30 朱凤邹 一种基于耳机检测动作进行功能控制的方法及***
CN111092769A (zh) * 2019-12-24 2020-05-01 国网新疆电力有限公司电力科学研究院 一种基于机器学习的web指纹识别方法
CN110912627B (zh) * 2019-12-24 2021-05-14 电子科技大学 一种基于数据驱动的小区接收功率预测方法
CN111178623B (zh) * 2019-12-26 2022-06-17 杭州电子科技大学 一种基于多层机器学习的业务流程剩余时间预测方法
CN111198938B (zh) * 2019-12-26 2023-12-01 深圳市优必选科技股份有限公司 一种样本数据处理方法、样本数据处理装置及电子设备
CN111159169B (zh) * 2019-12-31 2023-07-14 中国联合网络通信集团有限公司 数据治理方法及设备
CN111178443B (zh) * 2019-12-31 2023-10-31 东软集团股份有限公司 模型参数选择、图像分类、信息识别方法及装置、设备
CN111275288B (zh) * 2019-12-31 2023-12-26 华电国际电力股份有限公司十里泉发电厂 基于XGBoost的多维数据异常检测方法与装置
US20210248503A1 (en) * 2020-02-12 2021-08-12 Experian Limited System and method for training a machine learning model
CN111311000B (zh) * 2020-02-14 2021-09-28 北京百度网讯科技有限公司 用户消费行为预测模型训练方法、装置、设备及存储介质
CN111291867A (zh) * 2020-02-17 2020-06-16 北京明略软件***有限公司 数据预测模型生成方法、装置及数据预测方法、装置
CN111275133B (zh) * 2020-02-24 2023-09-29 腾讯科技(深圳)有限公司 分类模型的融合方法、装置及存储介质
CN111476403A (zh) * 2020-03-17 2020-07-31 华为技术有限公司 预测模型构建方法和相关装置
CN111428783B (zh) * 2020-03-23 2022-06-21 支付宝(杭州)信息技术有限公司 对推荐模型的训练样本进行样本域转换的方法及装置
CN111460966B (zh) * 2020-03-27 2024-02-02 中国地质大学(武汉) 基于度量学习和近邻增强的高光谱遥感图像分类方法
EP3893057A1 (en) * 2020-04-10 2021-10-13 ASML Netherlands B.V. Aligning a distorted image
CN111489037B (zh) * 2020-04-14 2023-04-18 青海绿能数据有限公司 一种基于需求预测的新能源风机备件储备策略优化方法
TWI759731B (zh) * 2020-04-27 2022-04-01 淡江大學 機器學習方法
US11586917B2 (en) 2020-04-29 2023-02-21 International Business Machines Corporation Leveraging simple model predictions for enhancing computational performance
CN111553542B (zh) * 2020-05-15 2023-09-05 无锡职业技术学院 一种用户优惠券核销率预测方法
CN111612072A (zh) * 2020-05-21 2020-09-01 珠海格力电器股份有限公司 消毒机滤网温度的确定方法及装置、消毒机
CN111680973B (zh) * 2020-05-29 2023-10-24 成都新希望金融信息有限公司 一种催收***的催收任务优先级智能编排方法
CN111639463B (zh) * 2020-05-31 2023-04-07 西安交通大学 一种基于XGBoost算法的电力***扰动后频率特征预测方法
CN111693938B (zh) * 2020-06-10 2024-06-18 北京云迹科技股份有限公司 机器人的楼层定位方法及装置、机器人、可读存储介质
CN111753895A (zh) * 2020-06-12 2020-10-09 北京小米松果电子有限公司 数据处理方法、装置及存储介质
CN111709089B (zh) * 2020-06-17 2023-04-07 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 轴功率模型的训练方法、装置及电子设备
US11853395B2 (en) 2020-07-02 2023-12-26 International Business Machines Corporation Augmentation loss function for image classification
CN111985681A (zh) * 2020-07-10 2020-11-24 河北思路科技有限公司 数据预测方法、模型训练方法、装置、设备
CN112748941B (zh) * 2020-08-06 2023-12-12 腾讯科技(深圳)有限公司 基于反馈信息的目标应用程序的更新方法和装置
CN112818344B (zh) * 2020-08-17 2024-06-04 北京辰信领创信息技术有限公司 一种运用人工智能算法提高病毒查杀率的方法
CN111950644B (zh) * 2020-08-18 2024-03-26 东软睿驰汽车技术(沈阳)有限公司 模型的训练样本选择方法、装置及计算机设备
CN112052900B (zh) * 2020-09-04 2024-05-24 京东科技控股股份有限公司 机器学习样本权重调整方法和装置、存储介质
CN112153636A (zh) * 2020-10-29 2020-12-29 浙江鸿程计算机***有限公司 一种基于机器学习预测电信业用户携号转出的方法
US11720962B2 (en) 2020-11-24 2023-08-08 Zestfinance, Inc. Systems and methods for generating gradient-boosted models with improved fairness
CN112989906A (zh) * 2020-12-04 2021-06-18 中国船舶重工集团公司第七一五研究所 基于改进集成经验模态分解与XGBoost模型的光纤周界信号特征识别方法
CN112700131B (zh) * 2020-12-30 2023-01-10 平安科技(深圳)有限公司 基于人工智能的ab测试方法、装置、计算机设备及介质
CN112434680B (zh) * 2021-01-27 2021-05-14 武汉星巡智能科技有限公司 智能摄像头模型自训练方法、装置、设备及介质
CN112819085B (zh) * 2021-02-10 2023-10-24 ***股份有限公司 基于机器学习的模型优化方法、装置及存储介质
CN113159275A (zh) * 2021-03-05 2021-07-23 深圳市商汤科技有限公司 网络训练方法、图像处理方法、装置、设备及存储介质
CN112860870B (zh) * 2021-03-16 2024-03-12 云知声智能科技股份有限公司 一种噪音数据的识别方法和设备
CN112966968B (zh) * 2021-03-26 2022-08-30 平安科技(深圳)有限公司 一种基于人工智能的名单分配方法及相关设备
CN113469241B (zh) * 2021-06-29 2023-05-26 中国航空规划设计研究总院有限公司 基于工艺网络模型与机器学习算法的产品质量控制方法
CN113343391B (zh) * 2021-07-02 2024-01-09 华电电力科学研究院有限公司 一种刮板取料***控制方法、装置及设备
CN113435653B (zh) * 2021-07-02 2022-11-04 国网新疆电力有限公司经济技术研究院 一种基于logistic模型的饱和用电量预测方法及***
CN113505827B (zh) * 2021-07-08 2024-01-12 西藏大学 一种机器学习分类方法
CN113642854A (zh) * 2021-07-23 2021-11-12 重庆中烟工业有限责任公司 烟支单支克重预测方法、装置及计算机可读存储介质
CN113671919B (zh) * 2021-08-20 2023-02-24 西藏众陶联供应链服务有限公司 一种建筑陶瓷间歇式球磨机泥浆制备控制方法
CN113904801B (zh) * 2021-09-03 2024-02-06 北京科东电力控制***有限责任公司 一种网络入侵检测方法及***
US20230094635A1 (en) * 2021-09-28 2023-03-30 Intuit Inc. Subscriber retention and future action prediction
CN114022270B (zh) * 2021-10-29 2024-05-24 平安银行股份有限公司 资产数据处理方法、相关设备及介质
CN114513612B (zh) * 2021-12-20 2022-12-20 华邮数字文化技术研究院(厦门)有限公司 一种基于机器学习的ar拍照图像补光方法和***
CN114092162B (zh) * 2022-01-21 2022-07-01 北京达佳互联信息技术有限公司 推荐质量确定方法、推荐质量确定模型的训练方法及装置
CN114565252B (zh) * 2022-02-21 2022-08-30 北京新桥技术发展有限公司 一种确定桥梁养护顺序的决策方法
US20230310995A1 (en) * 2022-03-31 2023-10-05 Advanced Micro Devices, Inc. Detecting personal-space violations in artificial intelligence based non-player characters
CN115130539A (zh) * 2022-04-21 2022-09-30 腾讯科技(深圳)有限公司 分类模型训练、数据分类方法、装置和计算机设备
CN114916913B (zh) * 2022-05-09 2023-01-13 东北大学 一种便携式睡眠呼吸状态实时监测***及方法
CN114743081B (zh) * 2022-05-10 2023-06-20 北京瑞莱智慧科技有限公司 模型训练方法、相关装置及存储介质
CN114611634B (zh) * 2022-05-11 2023-07-28 上海闪马智能科技有限公司 一种行为类型的确定方法、装置、存储介质及电子装置
WO2023225996A1 (en) * 2022-05-27 2023-11-30 Nokia Shanghai Bell Co., Ltd. Prediction of startup performance of communication device
CN114842837B (zh) * 2022-07-04 2022-09-02 成都启英泰伦科技有限公司 一种快速声学模型训练方法
CN115358367B (zh) * 2022-08-09 2023-04-18 浙江大学 一种基于多模型学习集成的动态自适应脑机接口解码方法
CN115618962B (zh) * 2022-10-18 2023-05-23 支付宝(杭州)信息技术有限公司 一种模型训练的方法、业务风控的方法及装置
CN115701866B (zh) * 2022-12-22 2023-10-27 荣耀终端有限公司 一种电商平台风险识别模型训练方法和装置
CN116092683B (zh) * 2023-04-12 2023-06-23 深圳达实旗云健康科技有限公司 一种原始数据不出域的跨医疗机构疾病预测方法
CN116470618B (zh) * 2023-04-17 2024-01-26 深圳市威能讯电子有限公司 一种移动式户外储能充放电控制方法
CN117892640B (zh) * 2024-03-15 2024-05-24 成都航空职业技术学院 一种激光器控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2164025A1 (en) * 2007-06-01 2010-03-17 Tsinghua University Detecting device of special shot object and learning device and method thereof
CN102637143A (zh) * 2012-03-07 2012-08-15 南京邮电大学 基于改进的支持向量机的软件缺陷优先级预测方法
CN104573013A (zh) * 2015-01-09 2015-04-29 上海大学 结合类别权重的集成学习分类方法
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571998A (zh) * 2009-05-18 2009-11-04 中国科学技术大学 基于病毒进化算法的选择性集成行人检测方法
US9269050B2 (en) * 2010-07-22 2016-02-23 University Of Florida Reseach Foundation, Inc. Classification using correntropy
US9053391B2 (en) * 2011-04-12 2015-06-09 Sharp Laboratories Of America, Inc. Supervised and semi-supervised online boosting algorithm in machine learning framework
US8909564B1 (en) * 2011-06-21 2014-12-09 Google Inc. Predictive model evaluation and training based on utility
US9141622B1 (en) * 2011-09-16 2015-09-22 Google Inc. Feature weight training techniques
CN104346221B (zh) * 2013-08-02 2018-05-08 北京百度网讯科技有限公司 服务器硬件设备等级划分、调度管理方法及装置、服务器
CN104517020B (zh) * 2013-09-30 2017-10-20 日电(中国)有限公司 用于因果效应分析的特征提取方法和装置
CN106548210B (zh) * 2016-10-31 2021-02-05 腾讯科技(深圳)有限公司 基于机器学习模型训练的信贷用户分类方法及装置
US11200514B1 (en) * 2020-09-14 2021-12-14 Sas Institute Inc. Semi-supervised classification system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2164025A1 (en) * 2007-06-01 2010-03-17 Tsinghua University Detecting device of special shot object and learning device and method thereof
CN102637143A (zh) * 2012-03-07 2012-08-15 南京邮电大学 基于改进的支持向量机的软件缺陷优先级预测方法
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
CN104573013A (zh) * 2015-01-09 2015-04-29 上海大学 结合类别权重的集成学习分类方法
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
The boosting:A new idea of building models;Cao D S等;《Chemometrics and Intelligent Laboratory Systems》;20100131;第100卷(第1期);第1-11页 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735535A (zh) * 2021-04-01 2021-04-30 腾讯科技(深圳)有限公司 预测模型训练、数据预测方法、装置和存储介质
CN112735535B (zh) * 2021-04-01 2021-06-25 腾讯科技(深圳)有限公司 预测模型训练、数据预测方法、装置和存储介质

Also Published As

Publication number Publication date
US11861478B2 (en) 2024-01-02
US11531841B2 (en) 2022-12-20
CN106548210A (zh) 2017-03-29
US20190318202A1 (en) 2019-10-17
US20230031156A1 (en) 2023-02-02
WO2018077285A1 (zh) 2018-05-03

Similar Documents

Publication Publication Date Title
CN106548210B (zh) 基于机器学习模型训练的信贷用户分类方法及装置
US11501161B2 (en) Method to explain factors influencing AI predictions with deep neural networks
US11663486B2 (en) Intelligent learning system with noisy label data
US11586919B2 (en) Task-oriented machine learning and a configurable tool thereof on a computing environment
WO2016025396A1 (en) An automated methodology for inductive bias selection and adaptive ensemble choice to optimize predictive power
US11645575B2 (en) Linking actions to machine learning prediction explanations
WO2021056275A1 (en) Optimizing generation of forecast
US11055772B1 (en) Instant lending decisions
US11803793B2 (en) Automated data forecasting using machine learning
CN112292696A (zh) 确定执行设备的动作选择方针
US20220207420A1 (en) Utilizing machine learning models to characterize a relationship between a user and an entity
US11727402B2 (en) Utilizing machine learning and network addresses to validate online transactions with transaction cards
US20220051108A1 (en) Method, system, and computer program product for controlling genetic learning for predictive models using predefined strategies
US20240152959A1 (en) Systems and methods for artificial intelligence using data analytics of unstructured data
US20240070658A1 (en) Parsing event data for clustering and classification
US12019854B1 (en) Graphical user interface granting entry manipulation
US20230351169A1 (en) Real-time prediction of future events using integrated input relevancy
US20240220791A1 (en) Systems and methods for training and deploying a neural network
US12019849B1 (en) System and method for setting number of days until a certain action
US20230351491A1 (en) Accelerated model training for real-time prediction of future events
US20240220936A1 (en) System and method for allowing a user to add a task to a to do list in an online application
US20230351493A1 (en) Efficient processing of extreme inputs for real-time prediction of future events
US20230259800A1 (en) Generative models based assistant for design and creativity
US20240220792A1 (en) Machine learning systems and methods
US20240221083A1 (en) Systems and methods for optimizing storage utilization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant