CN108985489B - 一种风险预测方法、风险预测装置和终端设备 - Google Patents

一种风险预测方法、风险预测装置和终端设备 Download PDF

Info

Publication number
CN108985489B
CN108985489B CN201810589655.5A CN201810589655A CN108985489B CN 108985489 B CN108985489 B CN 108985489B CN 201810589655 A CN201810589655 A CN 201810589655A CN 108985489 B CN108985489 B CN 108985489B
Authority
CN
China
Prior art keywords
prediction
data
machine learning
learning model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810589655.5A
Other languages
English (en)
Other versions
CN108985489A (zh
Inventor
赵闻飙
王维强
许辽萨
袁锦程
叶芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201810589655.5A priority Critical patent/CN108985489B/zh
Publication of CN108985489A publication Critical patent/CN108985489A/zh
Application granted granted Critical
Publication of CN108985489B publication Critical patent/CN108985489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种风险预测方法、风险预测装置和终端设备,其中,该方法包括:利用主机器学习模型对预测数据进行预测处理,得到该预测数据的第一预测值;通过在线学习的方式训练辅机器学习模型;利用该辅机器学习模型对该预测数据进行预测处理,得到该预测数据的第二预测值;以及利用该第二预测值调整该第一预测值。由此,能够提高主机器学习模型的覆盖率,避免作为黑样本的大部分风险事件被模型漏过,通过主机器学习模型和辅机器学习模型的模型融合,能够提高融合后的模型准确率,从而能够高效准确地进行风险预测和防控。

Description

一种风险预测方法、风险预测装置和终端设备
技术领域
本申请涉及信息处理领域,尤其涉及一种风险防控方法、风险预测装置和终端设备。
背景技术
近年来,随着互联网消费的日益繁多,风险预测和防控技术在支付、理财等多个领域得到了高度的重视,在征信评估、反欺诈、预警监控等方面得到了很好的应用。
目前,在风险预测和防控技术中,可以基于机器学习的方式建立模型,以预测和防控相应的风险,例如,基于机器学习的方式,利用历史的风险事件数据进行模型训练,得到一个智能审理模型,之后,该智能审理模型可以对未来的风险事件进行预测和评估,并给出一个定性结果。
另外,在基于机器学习的方式建立模型之后,可以通过每隔一段预定时间(例如,一周或一个月)自动重拟合(refit)的方式来重新训练该模型,以应对新出现的风险事件。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
发明人发现,在各种风控场景中,新的风险经常批量出现,自动refit需要每隔一段预定时间才执行一次,无法及时响应,从而导致作为黑样本的风险事件被模型漏过;另外,由于单模型本身的分散性等问题,即使新出现的风险和原先的风险类型类似,通过自动refit的方式往往无法覆盖这些新出现的风险,难以提升模型覆盖率,因此,存在无法高效准确地进行风险预测和防控的问题。
为了解决上述问题,本发明实施例提供一种风险预测方法、风险预测装置和终端设备。
根据本发明实施例的第一方面,提供了一种风险预测方法,其中,所述方法包括:
利用主机器学习模型对预测数据进行预测处理,得到所述预测数据的第一预测值;
通过在线学习的方式训练辅机器学习模型;
利用所述辅机器学习模型对所述预测数据进行预测处理,得到所述预测数据的第二预测值;以及
利用所述第二预测值调整所述第一预测值。
根据本发明实施例的第二方面,提供了一种风险预测装置,其中,所述装置包括:
第一处理单元,其包括第一预测模块,所述第一预测模块用于利用主机器学习模型对预测数据进行预测处理,得到所述预测数据的第一预测值;
第二处理单元,其包括第二训练模块和第二预测模块,所述第二训练模块用于通过在线学习的方式训练辅机器学习模型,所述第二预测模块用于利用所述辅机器学习模型对所述预测数据进行预测处理,得到所述预测数据的第二预测值;
其中,所述第一处理单元还包括:调整单元,其用于利用所述第二预测值调整所述第一预测值。
根据本发明实施例的第三方面,提供了一种终端设备,其中,所述终端设备包括前述第二方面所述的风险预测装置。
根据本发明实施例的其他方面,提供了一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机执行前述第一方面所述的风险预测方法。
本申请实施例的有益效果在于:通过在线学习的方式训练辅机器学习模型,能够及时训练作为黑样本的风险事件,通过利用辅机器学习模型的预测结果调整主机器学习模型的预测结果,能够提高主机器学习模型的覆盖率,避免作为黑样本的大部分风险事件被模型漏过,此外,通过主机器学习模型和辅机器学习模型的模型融合,能够提高融合后的模型准确率。由此,能够高效准确地进行风险预测和防控。
参照后文的说明和图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1的风险预测方法的示意图;
图2是本发明实施例1的利用辅机器学习模型从预测数据选择特定数据的一个实施方式的示意图;
图3示出了本发明实施例1的风险预测方法的一个实施方式的流程图;
图4示出了本发明实施例1的风险预测方法的另一个实施方式的流程图;
图5是本发明实施例2的风险预测装置的一个示意图;
图6示出了本发明实施例2的第二处理单元402的一个实施方式的示意图;
图7示出了本发明实施例2的第二处理单元402的另一个实施方式的示意图;以及
图8是本发明实施例3的终端设备的***构成的一示意框图。
具体实施方式
参照附图,通过下面的说明书,本申请的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本申请的特定实施方式,其表明了其中可以采用本申请的原则的部分实施方式,应了解的是,本申请不限于所描述的实施方式,相反,本申请包括落入所附权利要求的范围内的全部修改、变型以及等同物。
在本发明实施例中,术语“第一”、“第二”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。
在本发明实施例中,单数形式“一”、“该”等包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”,术语“基于”应理解为“至少部分基于……”,除非上下文另外明确指出。
实施例1
本发明实施例提供了一种风险预测方法。图1是该风险预测方法的示意图,请参照图1,该方法包括:
步骤101:利用主机器学习模型对预测数据进行预测处理,得到该预测数据的第一预测值;
步骤102:通过在线学习的方式训练辅机器学习模型;
步骤103:利用该辅机器学习模型对该预测数据进行预测处理,得到该预测数据的第二预测值;以及
步骤104:利用该第二预测值调整该第一预测值。
根据本实施例,通过在线学习的方式训练辅机器学习模型,能够及时训练作为黑样本的风险事件,通过利用辅机器学习模型的预测结果调整主机器学习模型的预测结果,能够提高主机器学习模型的覆盖率,避免作为黑样本的大部分风险事件被模型漏过,此外,通过主机器学习模型和辅机器学习模型的模型融合,能够提高融合后的模型准确率。由此,能够高效准确地进行风险预测和防控。
在本实施例中,在步骤101之前,该方法还可以包括步骤:训练主机器学习模型。
其中,可以通过输入历史的训练数据来训练主机器学习模型,这里的历史的训练数据可以包括结构化的数据、文本和/或图像等。并且,在主机器学习模型建立之后,可以每隔一段预定时间通过自动重拟合(refit)的方式来重新训练主机器学习模型。例如,在风控场景中,在建立主机器学习模型时,可以输入过去1至4月份的风险事件数据训练主机器学习模型,之后,可以每隔10天通过自动refit的方式来进行一次重新训练。
在本实施例中,主机器学习模型可以为现有的机器学习模型,例如,基于随机深林的模型、基于支持向量机(Support Vector Machine,SVM)的模型、基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)类的模型,如GBDT、lightGBM、XGboost等,本申请对此不作限制。
在本实施例中,在步骤101中,利用主机器学习模型进行预测处理的目的在于判断预测数据中的各预测样本为黑样本(也可以称作“正样本”)的概率或可能性。这里的黑样本可以为预先定义的用户感兴趣的事件,例如,在风控场景中,该黑样本可以为风险事件,具体地,可以为欺诈事件。其中,该预测数据的第一预测值可以为主机器学习模型对预测数据中的各预测样本给出的分值,通过该分值,可以判断该预测样本接近黑样本的程度,具体地,该分值可以为0-1,分值越高,代表预测数据中的各预测样本越接近黑样本,也即,如果预测样本的分值(例如,0.3)较低,则表示该预测样本为黑样本的可能性小;如果预测样本的分值(例如,0.8)较高,则表示该预测样本为黑样本的可能性大。由此,根据预测数据的第一预测值,可以得到预测数据中各预测样本的定性结果,例如,欺诈事件或非欺诈事件。
在本实施例中,在步骤101中,利用主机器学习模型进行预测处理的方式不作限制,可以参考现有技术。
在本实施例中,在线学习方式是一种模型的训练方式,其可以将训练数据变成有顺序的多个小批量(mini-batch)数据,然后利用该多个小批量数据依次训练模型,并使模型在每一步的时候都被用于预测未来数据,再通过递归学习,实时快速的进行模型调优,使得模型能够及时反映线上的变化。由此,在步骤102中,通过在线学习的方式来训练辅机器学习模型,可以提升辅机器学习模型的覆盖率,能够及时训练作为黑样本的风险事件。
在本实施例中,该辅机器学习模型可以为现有的机器学习模型。并且,该辅机器学习模型可以为与主辅机器学习模型不同的机器学习模型,以便于结合不同机器学习模型的优势,此外,该辅机器学习模型可以为与主辅机器学习模型相同的机器学习模型,但两者的训练方式不同。
在本实施例的一个实施方式中,在步骤102之前,该方法还可以包括步骤:选择预设时间段内的数据集。该步骤102可以包括:通过在线学习的方式,采用该数据集来训练该辅机器学习模型。由此,只需要针对特定时间段的数据集,对辅机器学习模型进行在线学习训练,而无需一直对该辅机器学习模型进行在线学习训练,从而能够避免***性能消耗过度。
其中,该预设时间段可以根据实际情况进行选择,避免该该预设时间段的数据集与主机器学习模型的训练数据相同。例如,在风控场景中,主机器学习模型已经针对过去1至4月份的风险事件数据进行了训练,因此,该辅机器学习模型可以无需再针对过去1至4月份的风险事件数据进行训练,或者无需再针对过去1至4月份的全部时间内的风险事件数据进行训练,例如,可以选择过去4-5月份或者3-5月份的风险事件数据来训练该辅机器学习模型。另外,该预设时间段的具体长度也可以根据实际情况来确定,其可以为7天、15天或60天等。例如,在基于直联商户的风控场景中,该预设时间段可以较长,例如,60天,而在基于间联商户的风控场景中,该预设时间段可以较段,例如,7天。
在该实施方式中,该步骤102可以包括:将预设时间段内的数据集分成多个小批量(mini-batch)数据,每隔预定时间依次采用该多个小批量数据中的一个小批量数据来训练该辅机器学习模型。由此,通过这种小批量的数据训练方式,可以完成整个数据集的训练,实现在线学习,提升模型的覆盖率。
其中,可以根据实际情况将数据集分成预定数量个(例如,N个)小批量(mini-batch)数据,即第1至第N个小批量数据,然后,按照第1至第N个小批量数据的顺序,每隔预定时间采用其中一个小批量数据来进行训练,直到该N个小批量数据都被用于训练为止。
其中,该预定时间可以根据各小批量数据的大小、***的硬件配置等来确定,在各小批量数据的数据量较小,***的硬件配置较高时,该预定时间可以较短,例如,半小时或1小时;反之,该预定时间可以长,例如,2小时或4小时。
在该实施方式中,该步骤103的实施可以与上述步骤101的实施类似,其中,该预测数据的第二预测值可以为辅机器学习模型对预测数据中的各预测样本给出的分值,通过该分值,可以判断该样本接近黑样本的程度,具体地,该分值可以为0-1,分值越高,代表预测数据中的各预测样本越接近黑样本。由于辅机器学习模型被通过在线学习的方式训练,其模型覆盖率得到提升,因此,相比于该步骤101中所得到预测数据的第一预测值,该步骤103所得到预测数据的第二预测值的准确度更高。
在本实施例的另一个实施方式中,在步骤102之前,该方法还可以包括步骤:
选择预设时间段内的数据集;
根据预定比例,将该数据集划分为训练集和测试集。
其中,该选择预设时间段内的数据集的步骤如前所述,在此省略说明。
其中,该预定比例可以不作具体限制,例如,9:1或者8:2,也即,可以将该数据集的90%作为训练集,10%作为测试集,也可以将数据集的80%作为训练集,20%作为测试集。
其中,该训练集用于训练辅机器学习模型,该步骤102可以包括:通过在线学习的方式,采用该训练集来训练该辅机器学习模型,具体地,如上所述,可以将该训练集分成多个小批量(mini-batch)数据,每隔预定时间依次采用该多个小批量数据中的一个小批量数据来训练该辅机器学习模型。
其中,该测试集可以用于测试辅机器学习模型,详见下面的描述。
在该实施方式中,该步骤103可以包括步骤:利用该辅机器学习模型从该预测数据选择预测准确率为预定阈值以上的数据作为特定数据,将该特定数据的预测值作为该第二预测值。由此,能够确保第二预测值具有高准确率。
其中,该预定阈值可以根据实际情况来确定,例如,其可以为90%,或93%。此外,利用该辅机器学习模型从该预测数据选择该特定数据的方式可以通过多种方式来实现,本申请并不限于此。其中,图2是利用该辅机器学习模型从该预测数据选择该特定数据的一个实施方式的示意图,如图2所示,选择该特定数据的方式可以包括:
步骤201:在完成该辅机器学习模型的上述训练之后,利用该辅机器学习模型对该测试集进行预测处理,得到该测试集的预测值;
步骤202:将该测试集按照该预测值的准确率从高到低进行分箱(bin),找到与该预定阈值对应的箱;
步骤203:将该与该预定阈值对应的箱以上的所有箱作为特定箱,从该预测数据选择与该特定箱中的测试集对应的数据作为该特定数据。
其中,在步骤201中,可以得到测试集中各测试样本的预测值,即该辅机器学习模型对各测试样本给出的分值,分值越高,代表各测试样本越接近黑样本。
在步骤202中,在得到该测试集的预测值之后,可以先根据该测试集的真实值和预测值,计算各预测值的准确率,再将该测试集按照准确率从高到低进行分箱(bin),找到与该预定阈值对应的箱。
在步骤203中,落入该特定箱中的测量集的预测准确率为预定阈值以上,通过从该预测数据选择与该特定箱中的测量集对应的数据作为该特定数据,由此,能够保证这些特定数据的预测准确率在预定阈值以上。
例如,可以将该测试集按照预测值的准确率从高到低分成1000个bin,即第1个bin至第1000个bin,各个bin对应一个准确率,在预定阈值为93%的情况下,找到与准确率93%对应的那个bin,即第M个bin;然后,将第1个bin至第M个bin作为特定bin,最后,将预测数据中与该特定bin中的测量集对应的数据作为该特定数据。
例如,针对步骤202-303的具体实施,可以通过结构化查询语言(StructuredQueryLanguage,SQL)编程,采用如下代码来实现:
select min(threshold)as cutoff from${t1}
where precision>0.93
select/*+mapjoin(t2)*/
t1.task_id,t1.task_score,t2.cutoff,
case when t1.task_score>t2.cutoff and t1.task_score>0
then 1
else 0end as label
FROM(
select*,1AS key
from${t1})t1
inner join
(select*,1AS key from${t2})t2
on t1.key=t2.key
在本实施例中,在该步骤104之前,该方法还可以包括:输出该第二预测值,以便主机器学习模型利用该第二预测值来调整该第一预测值。
在本实施例中,该步骤104可以包括:对该第二预测值(V2)与该第一预测值(V1)进行加权平均,将该第一预测值修改为该加权平均的结果。由此,可以通过利用辅机器学习模型的预测结果来修正主机器学习模型的预测结果,提高主机器学习模型的覆盖率和准确率。
其中,该第二预测值与该第一预测值的加权平均V3可以表示为如下:
V3=W2*V2+W1*V1 (1)
其中,W1为第一预测值的权重,W2为第二预测值的权重。该W1和W2的数值可以根据第二预测值的准确率而进行不同的选择,例如,在该第二预测值是上述特定数据的预测值的情况下,可以将W1设为0,W2设为1,即直接将第一预测值V1修改为第二预测值V2;而在其他情况下,该W1和W2可以分别为0.5,也可以W1设为0.4,W2设为0.6。
下面,为了使本发明实施例的方法更加清楚易懂,对本发明实施例1的风险预测方法的一个实施方式的流程图进行详细说明。
图3示出了本发明实施例1的风险预测方法的一个实施方式的流程图。如图3所示,该方法包括:
步骤301:训练主机器学习模型;
其中,该训练主机器学习模型的实施如上所述,此处不再赘述。
步骤302:利用主机器学习模型对预测数据进行预测处理,得到该预测数据的第一预测值;
其中,该步骤302的实施与步骤101的实施相同,此处不再赘述。
步骤303:选择预设时间段内的数据集;
其中,预设时间段的设置如上所述,此处不再赘述。
步骤304:通过在线学习的方式,采用该数据集来训练该辅机器学习模型;
其中,在线学习的方式的内容如上所述,此处不再赘述,此外,如上所述,可以采用通过小批量的数据训练方式,完成整个数据集的训练。
步骤305:利用该辅机器学习模型对该预测数据进行预测处理,得到该预测数据的第二预测值;
其中,该步骤305的实施方式可以与上述步骤101的实施方式类似。
步骤306:利用该第二预测值调整该第一预测值。
其中,如上所述,可以该第一预测值修改为该第二预测值(V2)与该第一预测值(V1)的加权平均,其中,该第一预测值(V1)的权重为0.4,该第二预测值(V2)的权重为0.6。
在本实施例中,通过上述步骤301-306,利用辅机器学习模型对预测数据的预测结果来修正主机器学习模型对预测数据的预测结果,从而能够提高主机器学习模型的覆盖率和准确率。
下面,为了使本发明实施例的方法更加清楚易懂,对本发明实施例1的风险预测方法的另一个实施方式的流程图进行详细说明。
图4示出了本发明实施例1的风险预测方法的另一个实施方式的流程图。如图4所示,该方法包括:
步骤401-403:其与图3中步骤301-303相同,此处不再赘述。
步骤404:根据预定比例,将该数据集划分为训练集和测试集。
其中,该预定比例的设置如上所述,此处不再赘述。
步骤405:通过在线学习的方式,采用该训练集来训练该辅机器学习模型。
其中,如上所述,可以采用通过小批量的数据训练方式,完成整个训练集的训练。
步骤406:利用该辅机器学习模型对该测试集进行预测处理,得到该测试集的预测值;
步骤407:将该测试集按照该预测值的准确率从高到低进行分箱,找到与该预定阈值对应的箱;
步骤408:将该与该预定阈值对应的箱以上的所有箱作为特定箱,从该预测数据选择与该特定箱中的测试集对应的数据作为特定数据;
其中,该步骤406-408的实施与步骤201-203的实施分别相同,此处不再赘述。
步骤409:得到并输出作为第二预测值的该特定数据的预测值;
步骤410:利用该第二预测值调整该第一预测值。
其中,如上所述,可以该第一预测值修改为该第二预测值(V2)与该第一预测值(V1)的加权平均,其中,该第一预测值(V1)的权重为0,该第二预测值(V2)的权重为1。
在本实施例中,通过上述步骤401-410,利用辅机器学习模型对预测准确率较高的特定数据的预测结果来修正主机器学习模型的预测结果,相对于图3所示的方法,能够进一步提高主机器学习模型的覆盖率和准确率。
值得注意的是,以上图3-4仅对本发明实施例进行了示意性说明,但本发明不限于此。例如可以适当地调整各个步骤之间的执行顺序,此外还可以增加其他的一些步骤或者减少其中的某些步骤。本领域的技术人员可以根据上述内容进行适当地变型,而不仅限于上述图3-4的记载。
由上述实施例可知,通过在线学习的方式训练辅机器学习模型,能够及时训练作为黑样本的风险事件,通过利用辅机器学习模型的预测结果调整主机器学习模型的预测结果,能够提高主机器学习模型的覆盖率,避免作为黑样本的大部分风险事件被模型漏过,此外,通过主机器学习模型和辅机器学习模型的模型融合,能够提高融合后的模型准确率。由此,能够高效准确地进行风险预测和防控。
实施例2
本实施例提供一种风险预测装置。由于该装置解决问题的原理与实施例1的方法类似,因此其具体的实施可以参照实施例1的方法的实施,内容相同之处不再重复说明。
图5是本实施例的数据使用风险预测装置的示意图,如图5所示,该风险预测装置500包括:
第一处理单元501,其包括第一预测模块5012,该第一预测模块5012用于利用主机器学习模型对预测数据进行预测处理,得到该预测数据的第一预测值;
第二处理单元502,其包括第二训练模块5021和第二预测模块5022,该第二训练模块5021用于通过在线学习的方式训练辅机器学习模型,该第二预测模块5022用于利用该辅机器学习模型对该预测数据进行预测处理,得到该预测数据的第二预测值;
其中,该第一处理单元501还包括:调整单元5013,其用于利用该第二预测值调整该第一预测值。
在本实施例中,如图5所示,该第一处理单元501还可以包括第一训练模块5011,其用于训练主机器学习模型。
在本实施例中,该主机器学习模型和该辅机器学习模型可以为不同的机器学习模型。
在本实施例中,第二预测模块5022在得到该第二预测值时,还可以将该第二预测值输出给该第一处理单元501的调整单元5013。
在本实施例中,该第二处理单元502还可以包括输出单元(图未示出),其用于将第二预测模块5022得到的第二预测值输出给该第一处理单元501的调整单元5013。
在本实施例的一个实施方式中,图6示出了第二处理单元502的一个实施方式的示意图。如图6所示,第二处理单元502还可以包括:选择单元601,其用于选择预设时间段内的数据集。
在该实施方式中,该第二训练模块5021可以通过在线学习的方式,采用所述预设时间段内的数据集来训练所述辅机器学习模型。具体地,该第二训练模块5021可以将预设时间段内的数据集分成多个小批量(mini-batch)数据,每隔预定时间依次采用该多个小批量数据中的一个小批量数据来训练该辅机器学习模型。
在该实施方式中,该第二预测模块5022的实施可以与该第一预测模块5012的实施类似,即该第二预测模块5022利用该辅机器学习模型对预测数据进行预测处理,得到该预测数据的第二预测值。
在本实施例的另一个实施方式中,图7示出了第二处理单元502的另一个实施方式的示意图。如图7所示,第二处理单元502还可以包括:选择单元701,其用于选择预设时间段内的数据集,划分模块702,其用于根据预定比例,将该数据集划分为训练集和测试集;
在该实施方式中,该第二训练模块5021可以通过在线学习的方式,采用该训练集来训练该辅机器学习模型,具体地,该第二训练模块5021可以将训练集分成多个小批量(mini-batch)数据,每隔预定时间依次采用该多个小批量数据中的一个小批量数据来训练该辅机器学习模型。
在该实施方式中,该第二预测模块5022可以利用该辅机器学习模型从该预测数据选择预测准确率为预定阈值以上的数据作为特定数据,将该特定数据的预测值作为该第二预测值。
具体地,在该第二训练模块5021完成上述训练之后,该第二预测模块5022可以利用该辅机器学习模型对该测试集进行预测处理,得到该测试集的预测值,将该测试集按照该预测值的准确率从高到低进行分箱,找到与该预定阈值对应的箱,将该箱以上的所有箱作为特定箱,从该预测数据选择与该特定箱中的测试集对应的数据作为该特定数据。之后,该第二预测模块5022还可以输出这些特定数据的预测值。
在本实施例中,该调整单元5013可以对该第二预测值与该第一预测值进行加权平均,将该第一预测值修改为该加权平均的结果。
在本实施例的上述装置中,通过在线学习的方式训练辅机器学习模型,能够及时训练作为黑样本的风险事件,通过利用辅机器学习模型的预测结果调整主机器学习模型的预测结果,能够提高主机器学习模型的覆盖率,避免作为黑样本的大部分风险事件被模型漏过,此外,通过主机器学习模型和辅机器学习模型的模型融合,能够提高融合后的模型准确率。由此,能够高效准确地进行风险预测和防控。
实施例3
本发明实施例提供一种终端设备,该终端设备包括如实施例2所述的风险预测装置。
图8是本发明实施例的终端设备800的***构成的一示意框图。如图8所示,该终端设备800可以包括处理器810和存储器820;存储器820耦合到处理器810。值得注意的是,该图是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在一个实施方式中,风险预测装置的功能可以被集成到处理器810中。其中,处理器810可以被配置为:
利用主机器学习模型对预测数据进行预测处理,得到该预测数据的第一预测值;
通过在线学习的方式训练辅机器学习模型;
利用该辅机器学习模型对该预测数据进行预测处理,得到该预测数据的第二预测值;以及
利用该第二预测值调整该第一预测值。
在另一个实施方式中,风险预测装置可以与处理器810分开配置,例如可以将风险预测装置配置为与处理器810连接的芯片,通过处理器810的控制来实现风险预测装置的功能。
如图8所示,该终端设备800还可以包括:通信模块830、输入单元840、显示器850、电源860。值得注意的是,终端设备800也并不是必须要包括图8中所示的所有部件;此外,终端设备800还可以包括图8中没有示出的部件,可以参考现有技术。
如图8所示,处理器810有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器810接收输入并控制终端设备800的各个部件的操作。
其中,存储器820,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存各种数据,此外还可存储执行有关信息的程序。并且处理器810可执行该存储器820存储的该程序,以实现信息存储或处理等。其他部件的功能与现有类似,此处不再赘述。终端设备800的各部件可以通过专用硬件、固件、软件或其结合来实现,而不偏离本发明的范围。
在本发明实施例中,终端设备例如是指接入通信网络并接收网络服务的设备。终端设备可以是固定的或移动的,其中,终端设备可以包括但不限于如下设备:计算机、智能手机、或平板电脑等。
本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机执行实施例1所述的方法。
本发明以上的装置和方法可以由硬件实现,也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序,当该程序被逻辑部件所执行时,能够使该逻辑部件实现上文所述的装置或构成部件,或使该逻辑部件实现上文所述的各种方法或步骤。逻辑部件例如现场可编程逻辑部件、微处理器、计算机中使用的处理器等。本发明还涉及用于存储以上程序的存储介质,如硬盘、磁盘、光盘、DVD、flash存储器等。
结合本发明实施例描述的方法/装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如,附图中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合,既可以对应于计算机程序流程的各个软件模块,亦可以对应于各个硬件模块。这些软件模块,可以分别对应于附图中所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。
软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中,也可以存储在可***移动终端的存储卡中。例如,若设备(如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置,则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。
针对附图中描述的功能方框中的一个或多个和/或功能方框的一个或多个组合,可以实现为用于执行本发明所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。针对附图描述的功能方框中的一个或多个和/或功能方框的一个或多个组合,还可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。
以上结合具体的实施方式对本发明进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改,这些变型和修改也在本发明的范围内。

Claims (11)

1.一种用于风控场景中的风险事件的风险预测方法,其包括:
利用主机器学习模型对预测数据进行预测处理,得到所述预测数据的第一预测值;
通过在线学习的方式训练辅机器学习模型;
利用所述辅机器学习模型对所述预测数据进行预测处理,得到所述预测数据的第二预测值;以及
利用所述第二预测值调整所述第一预测值,
在所述风控场景中,所述预测数据中各预测样本中的黑样本为风险事件,根据所述第一预测值获得所述预测数据中各预测样本的定性结果,
其中,所述利用辅机器学习模型对所述预测数据进行预测处理,得到所述预测数据的第二预测值包括:
利用所述辅机器学习模型从所述预测数据选择预测准确率为预定阈值以上的数据作为特定数据,将所述特定数据的预测值作为所述第二预测值,
其中,所述方法还包括:
选择预设时间段内的数据集;
根据预定比例,将所述数据集划分为训练集和测试集,
所述通过在线学习的方式训练辅机器学习模型包括:通过在线学习的方式,采用所述训练集来训练所述辅机器学习模型;
所述利用所述辅机器学习模型从所述预测数据选择预测准确率为预定阈值以上的数据作为特定数据包括:
在完成所述训练之后,利用所述辅机器学习模型对所述测试集进行预测处理,得到所述测试集的预测值;
将所述测试集按照所述预测值的准确率从高到低进行分箱,找到与所述预定阈值对应的箱;
将所述与所述预定阈值对应的箱以上的所有箱作为特定箱,从所述预测数据选择与所述特定箱中的测试集对应的数据作为所述特定数据。
2.如权利要求1所述的方法,其中,
所述方法还包括:选择预设时间段内的数据集,
所述通过在线学习的方式来训练辅机器学习模型包括:通过在线学习的方式,采用所述预设时间段内的数据集来训练所述辅机器学习模型。
3.如权利要求2所述的方法,其中,
所述通过在线学习的方式训练辅机器学习模型包括:将所述数据集分成多个小批量数据,每隔预定时间依次采用该多个小批量数据中的一个小批量数据来训练所述辅机器学习模型。
4.如权利要求1所述的方法,其中,
所述主机器学习模型和所述辅机器学习模型为不同的机器学习模型。
5.如权利要求1所述的方法,其中,
所述利用所述第二预测值调整所述第一预测值包括:对所述第二预测值与所述第一预测值进行加权平均,将所述第一预测值修改为所述加权平均的结果。
6.一种用于风控场景中的风险事件的风险预测装置,其包括:
第一处理单元,其包括第一预测模块,所述第一预测模块用于利用主机器学习模型对预测数据进行预测处理,得到所述预测数据的第一预测值;
第二处理单元,其包括第二训练模块和第二预测模块,所述第二训练模块用于通过在线学习的方式训练辅机器学习模型,所述第二预测模块用于利用所述辅机器学习模型对所述预测数据进行预测处理,得到所述预测数据的第二预测值;
其中,所述第一处理单元还包括:调整单元,其用于利用所述第二预测值调整所述第一预测值,
在所述风控场景中,所述预测数据中各预测样本中的黑样本为风险事件,根据所述第一预测值获得所述预测数据中各预测样本的定性结果,
其中,所述第二预测模块利用所述辅机器学习模型从所述预测数据选择预测准确率为预定阈值以上的数据作为特定数据,将所述特定数据的预测值作为所述第二预测值,
其中,
所述第二处理单元还包括:
选择单元,其用于选择预设时间段内的数据集,
划分模块,其用于根据预定比例,将所述数据集划分为训练集和测试集;
所述第二训练模块通过在线学习的方式,采用所述训练集来训练所述辅机器学习模型;
所述第二预测模块在所述第二训练模块完成所述训练之后,利用所述辅机器学习模型对所述测试集进行预测处理,得到所述测试集的预测值;将所述测试集按照所述预测值的准确率从高到低进行分箱,找到与所述预定阈值对应的箱;将所述与所述预定阈值对应的箱以上的所有箱作为特定箱,从所述预测数据选择与所述特定箱中的测试集对应的数据作为所述特定数据。
7.如权利要求6所述的装置,其中,
所述第二处理单元还包括:选择单元,其用于选择预设时间段内的数据集,
所述第二训练模块通过在线学习的方式,采用所述预设时间段内的数据集来训练所述辅机器学习模型。
8.如权利要求7所述的装置,其中,
所述第二训练模块将所述数据集分成多个小批量数据,每隔预定时间依次采用该多个小批量数据中的一个小批量数据来训练所述辅机器学习模型。
9.如权利要求6所述的装置,其中,
所述主机器学习模型和所述辅机器学习模型为不同的机器学习模型。
10.如权利要求6所述的装置,其中,
所述调整单元对所述第二预测值与所述第一预测值进行加权平均,将所述第一预测值修改为所述加权平均的结果。
11.一种终端设备,包括权利要求6-10任一项权利要求所述的风险预测装置。
CN201810589655.5A 2018-06-08 2018-06-08 一种风险预测方法、风险预测装置和终端设备 Active CN108985489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810589655.5A CN108985489B (zh) 2018-06-08 2018-06-08 一种风险预测方法、风险预测装置和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810589655.5A CN108985489B (zh) 2018-06-08 2018-06-08 一种风险预测方法、风险预测装置和终端设备

Publications (2)

Publication Number Publication Date
CN108985489A CN108985489A (zh) 2018-12-11
CN108985489B true CN108985489B (zh) 2021-12-31

Family

ID=64540112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810589655.5A Active CN108985489B (zh) 2018-06-08 2018-06-08 一种风险预测方法、风险预测装置和终端设备

Country Status (1)

Country Link
CN (1) CN108985489B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859854A (zh) * 2018-12-17 2019-06-07 中国科学院深圳先进技术研究院 传染病预测方法、装置、电子设备及计算机可读介质
CN110414716B (zh) * 2019-07-03 2022-05-20 北京科技大学 一种基于LightGBM的企业失信概率预测方法及***
CN110956278A (zh) * 2019-11-26 2020-04-03 支付宝(杭州)信息技术有限公司 重新训练机器学习模型的方法和***
CN111127191B (zh) * 2019-12-25 2023-07-14 北京百度网讯科技有限公司 风险评估方法及装置
CN113516559A (zh) * 2021-05-12 2021-10-19 中国工商银行股份有限公司 基金风险确定方法及装置
CN113240509B (zh) * 2021-05-18 2022-04-22 重庆邮电大学 一种基于多源数据联邦学习的贷款风险评估方法
CN114154891A (zh) * 2021-12-08 2022-03-08 中国建设银行股份有限公司 风险控制模型的重训练方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052979A (zh) * 2017-12-15 2018-05-18 阿里巴巴集团控股有限公司 对模型预测值进行融合的方法、装置和设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052979A (zh) * 2017-12-15 2018-05-18 阿里巴巴集团控股有限公司 对模型预测值进行融合的方法、装置和设备

Also Published As

Publication number Publication date
CN108985489A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN108985489B (zh) 一种风险预测方法、风险预测装置和终端设备
CN108053120B (zh) 一种模型整合方法及装置
US9286084B2 (en) Adaptive hardware reconfiguration of configurable co-processor cores for hardware optimization of functionality blocks based on use case prediction, and related methods, circuits, and computer-readable media
CN108921569B (zh) 一种确定用户投诉类型的方法及装置
CN109447156B (zh) 用于生成模型的方法和装置
CN109976998B (zh) 一种软件缺陷预测方法、装置和电子设备
US10229040B2 (en) Optimizing execution order of system interval dependent test cases
CN111275491A (zh) 一种数据处理方法及装置
CN108280542A (zh) 一种用户画像模型的优化方法、介质以及设备
CN111401940B (zh) 特征预测方法、装置、电子设备及存储介质
US11094008B2 (en) Debt resolution planning platform for accelerating charge off
CN109033772A (zh) 一种验证信息的输入方法及装置
CN112966186A (zh) 一种模型训练和信息推荐的方法及装置
CN110969200A (zh) 基于一致性负样本的图像目标检测模型训练方法及装置
CN113537510A (zh) 基于不均衡数据集的机器学习模型数据处理方法及装置
US10956976B2 (en) Recommending shared products
US11544568B2 (en) Method for optimizing a data model and device using the same
CN109800675A (zh) 一种确定人脸对象的识别图像的方法及装置
CN112182281B (zh) 一种音频推荐方法、装置及存储介质
CN111835536A (zh) 一种流量预测方法和装置
CN113379528A (zh) 风控模型建立方法、装置和风险控制方法
CN111179129A (zh) 课件质量的评价方法、装置、服务器及存储介质
CN111582649A (zh) 基于用户app独热编码的风险评估方法、装置和电子设备
CN115048996A (zh) 质量评估模型训练和使用方法、设备及存储介质
CN114462679A (zh) 基于深度学习的网络流量预测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200930

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200930

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: Greater Cayman, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant