CN116954591B - 银行领域的广义线性模型训练方法、装置、设备和介质 - Google Patents

银行领域的广义线性模型训练方法、装置、设备和介质 Download PDF

Info

Publication number
CN116954591B
CN116954591B CN202310716362.XA CN202310716362A CN116954591B CN 116954591 B CN116954591 B CN 116954591B CN 202310716362 A CN202310716362 A CN 202310716362A CN 116954591 B CN116954591 B CN 116954591B
Authority
CN
China
Prior art keywords
target
generalized linear
linear model
verification set
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310716362.XA
Other languages
English (en)
Other versions
CN116954591A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Original Assignee
Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyun Rongchuang Data Science & Technology Beijing Co ltd filed Critical Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Priority to CN202310716362.XA priority Critical patent/CN116954591B/zh
Publication of CN116954591A publication Critical patent/CN116954591A/zh
Application granted granted Critical
Publication of CN116954591B publication Critical patent/CN116954591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/36Software reuse
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种银行领域的广义线性模型训练方法、装置、设备和介质,该方法包括:对包含多个应用对象的数据进行处理,获得目标训练集和目标验证集;基于目标训练集,训练初始广义线性模型得到目标广义线性模型;基于目标验证集对目标广义线性模型进行评估,得到目标验证集对应的第一模型评估指标;在根据第一模型评估指标确定针对目标验证集目标广义线性模型可用的情况下,按照不同的应用对象对目标验证集进行分组,得到多个子验证集;基于每个子验证集对目标广义线性模型进行评估得到每个子验证集对应的第二模型评估指标;在根据每个子验证集对应的第二模型评估指标确定针对多个子验证集目标广义线性模型均可用的情况下输出目标广义线性模型。

Description

银行领域的广义线性模型训练方法、装置、设备和介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种银行领域的广义线性模型训练方法、装置、电子设备和存储介质。
背景技术
目前,在结构化数据的业务场景中,传统的业务模型,针对同一业务场景但应用对象不同的情况,一般有两种解决方法:一种是构建一个模型直接应用于不同的对象,一种是针对不同应用对象构建不同的模型。针对第一种方法,构建的模型数量少,花费时间少,模型上线管理简单,但是由于不同应用对象其数据分布差距比较大,构建一个模型直接应用于不同的对象,当分应用对象看模型效果时,模型效果一般较差;针对第二种方法,针对不同应用对象构建不同的模型,分应用对象看模型效果时,模型效果一般较第一种方法好,但是构建的模型数量多,耗费大量的人工,模型上线管理复杂,另外会割裂不同应用对象之间的联系。
如此,亟需一种可以模型管理简单,且针对多应用对象整体和分应用对象模型效果都较好的模型。
发明内容
本申请提供了一种银行领域的广义线性模型训练方法、装置、电子设备和存储介质,能够提高模型管理效率,且构建的模型针对多应用对象整体和单应用对象模型效果都较好。
第一方面,本申请提供了一种银行领域的广义线性模型训练方法,包括:对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集;基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型;基于该目标验证集,对该目标广义线性模型进行评估,得到该目标验证集对应的第一模型评估指标;在根据第一模型评估指标确定针对该目标验证集该目标广义线性模型可用的情况下,按照不同的应用对象对该目标验证集进行分组,得到多个子验证集,每个子验证集对应一个应用对象;基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标;在根据该每个子验证集对应的第二模型评估指标确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型。
第二方面,本申请提供了一种银行领域的广义线性模型训练装置,包括:数据处理模块,用于对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集;模型训练模块,用于基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型;模型评估模块,用于基于该目标验证集,对该目标广义线性模型进行评估,得到该目标验证集对应的第一模型评估指标;数据处理模块,还用于在根据第一模型评估指标确定针对该目标验证集该目标广义线性模型可用的情况下,按照不同的应用对象对该目标验证集进行分组,得到多个子验证集,每个子验证集对应一个应用对象;模型评估模块,还用于基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标;模型输出模块,用于在根据该每个子验证集对应的第二模型评估指标确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型。
第三方面,本申请提供了一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现第一方面提供的任一种银行领域的广义线性模型训练方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的任一种银行领域的广义线性模型训练方法的步骤。
本申请实施例的第五方面,提供一种计算机程序产品,其中,该计算机程序产品包括计算机程序或指令,当该计算机程序产品在处理器上运行时,使得处理器执行该计算机程序或指令,实现如第一方面所述的银行领域的广义线性模型训练方法的步骤。
本申请实施例的第六方面,提供了一种芯片,该芯片包括处理器、存储器和通信接口,该通信接口和该处理器耦合,该存储器用于存储可在该处理器上运行的程序或指令,该处理器用于执行该程序或指令,实现如第一方面所述的银行领域的广义线性模型训练方法的步骤。
本申请实施例提供的技术方案与现有技术相比具有如下优点:本申请实施例中,通过对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集;基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型;基于该目标验证集,对该目标广义线性模型进行评估,得到该目标验证集对应的第一模型评估指标;在根据第一模型评估指标确定针对该目标验证集该目标广义线性模型可用的情况下,按照不同的应用对象对该目标验证集进行分组,得到多个子验证集(每个子验证集对应一个应用对象);基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标;在根据该每个子验证集对应的第二模型评估指标确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型。如此,本申请实施例得到的目标广义线性模型是针对包括多个应用对象的该目标验证集可用的模型,且是针对每个应用对象对应的子验证集可用的模型,也就是说,针对多应用对象整体和分应用对象模型效果都较好,而且构建的模型数量少,花费时间少,模型上线管理简单。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种银行领域的广义线性模型训练方法的流程示意图;
图2为本申请提供的另一种银行领域的广义线性模型训练方法的流程示意图;
图3为本申请提供的一种训练集和验证集的时间段划分示意图;
图4为本申请提供的一种单变量拟合曲线的示意图;
图5为本申请提供的另一种单变量拟合曲线的示意图;
图6为本申请提供的又一种单变量拟合曲线的示意图;
图7为本申请提供的又一种单变量拟合曲线的示意图;
图8为本申请提供的又一种单变量拟合曲线的示意图;
图9为本申请提供的又一种单变量拟合曲线的示意图;
图10为本申请提供的又一种单变量拟合曲线的示意图;
图11为本申请提供的又一种单变量拟合曲线的示意图;
图12为本申请提供的又一种单变量拟合曲线的示意图;
图13为本申请提供的再一种单变量拟合曲线的示意图;
图14为本申请提供的一种银行领域的广义线性模型训练装置的结构示意图;
图15为本申请提供的一种电子设备的硬件结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面将对本申请的方案进行进一步描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但本申请还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本申请的一部分实施例,而不是全部的实施例。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
目前传统的业务模型,针对同一业务场景但应用对象不同的情况,一般有两种解决方法:一种是构建一个模型直接应用于不同的对象,一种是针对不同应用对象构建不同的模型。针对第一种方法,构建的模型数量少,花费时间少,模型上线管理简单,但是由于不同应用对象其数据分布差距比较大,若构建一个模型,当分应用对象看模型效果时,模型效果一般比较差;针对第二种方法,分应用对象看模型效果时,模型效果一般较第一种方法好,但是构建的模型数量多,耗费大量的人工,模型上线管理复杂,另外会割裂不同应用对象之间的联系。因此,现有技术存在同一业务场景但应用对象不同时,构建一个模型效果差,构建多个模型工序复杂的问题。
为了解决上述技术问题,本申请实施例中,通过对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集;基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型;基于该目标验证集,对该目标广义线性模型进行评估,得到该目标验证集对应的第一模型评估指标;在根据第一模型评估指标确定针对该目标验证集该目标广义线性模型可用的情况下,按照不同的应用对象对该目标验证集进行分组,得到多个子验证集(每个子验证集对应一个应用对象);基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标;在根据该每个子验证集对应的第二模型评估指标确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型。如此,本申请实施例得到的目标广义线性模型是针对包括多个应用对象的该目标验证集可用的模型,且是针对每个应用对象对应的子验证集可用的模型,也就是说,针对多应用对象整体和分应用对象模型效果都较好,而且构建的模型数量少,工序简单,花费时间少,模型上线管理简单。
本申请应用于同一业务场景但应用对象不同的业务场景中,本申请实施例中的电子设备可以为平板电脑、笔记本电脑、掌上电脑等,具体可以根据实际情况确定,此处不做限定。
以下通过几个具体的实施例,对本申请的技术方案进行详细的解释说明。
图1为本申请提供的一种银行领域的广义线性模型训练方法的流程示意图,如图1所示,该银行领域的广义线性模型训练方法可以包括下述的步骤101至步骤106。
本申请实施例得到的目标广义线性模型是针对包括多个应用对象的该目标验证集可用的模型,且是针对每个应用对象对应的子验证集可用的模型,也就是说,针对多应用对象整体和分应用对象模型效果都较好,而且构建的模型数量少,花费时间少,模型上线管理简单。
101、对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集。
可以理解,获取包含多个应用对象的数据,将该包含多个应用对象的数据定义训练集和验证集;然后对数据进行数据清洗、特征变换及衍生等数据处理操作,得到包括至少一个特征变量的目标训练集和目标验证集。其中,具体数据清洗、特征变换及衍生等数据处理操作过程可以参考现有相关技术,此处不做限定。
102、基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型。
可以理解,基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型,使得针对目标训练集,目标广义线性模型的模型效果较好。
103、基于该目标验证集,对该目标广义线性模型进行评估,得到该目标验证集对应的第一模型评估指标。
本申请一些实施例中,目标广义线性模型通常情况下为分类模型或回归模型,在目标广义线性模型为分类模型时,对应的第一模型评估指标包括但不限于ROC(二元分类模型)曲线下的面积(Area under curve,AUC)或正确率;在目标广义线性模型为回归模型时,第一评估指标包括但不限于拟合度r2或均方误差。
示例性地,将目标验证集作为输入,输入到目标广义线性模型中,得到针对目标验证集目标广义线性模型的第一模型评估指标,将第一模型评估指标和指标阈值进行比较,在第一模型评估指标大于或等于指标阈值的情况下,确认目标广义线性模型是针对包含多个应用对象的目标验证集整体可用的模型(即针对包含多个应用对象的目标验证集整体模型效果较好的模型,达到预设的模型效果要求的模型),在第一模型评估指标小于指标阈值的情况下,确认目标广义线性模型是针对包含多个应用对象的目标验证集整体不可用的模型(即针对包含多个应用对象的目标验证集整体模型效果较差的模型,未达到预设的模型效果要求的模型)。
104、在根据第一模型评估指标确定针对该目标验证集该目标广义线性模型可用的情况下,按照不同的应用对象对该目标验证集进行分组,得到多个子验证集,每个子验证集对应一个应用对象。
105、基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标。
其中,对第二模型评估指标的描述可以参考上述步骤103中对第一模型评估指标的相关描述,此处不予赘述。
示例性地,将每个子验证集分别作为输入,输入到目标广义线性模型中,得到针对每个子验证集目标广义线性模型的第二模型评估指标,将每个子验证集对应的第二模型评估指标和模型阈值(模型阈值和指标阈值可以相同,也可以不同,具体可以根据实际情况确定,此处不做限定)分别进行比较,在一个子验证集对应的第二模型评估指标大于或等于模型阈值的情况下,确认目标广义线性模型是针对该一个子验证集可用的模型(即针对包含一个应用对象的子验证集模型效果较好的模型,达到预设的模型效果要求的模型),在一个子验证集对应的第二模型评估指标小于模型阈值的情况下,确认目标广义线性模型是针对该一个子验证集不可用的模型(即针对包含一个应用对象的子验证集整体模型效果较差的模型,未达到预设的模型效果要求的模型)。
106、在根据该每个子验证集对应的第二模型评估指标确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型。
示例性地,每个子验证集对应的第二模型评估指标均大于或等于第二阈值时,说明目标广义线性模型是针对每个应用对象对应的子验证集均可用的模型,此时,输出目标广义线性模型。
本申请实施例中,本申请实施例得到的目标广义线性模型是针对包括多个应用对象的该目标验证集可用的模型,且是针对每个应用对象对应的子验证集可用的模型,也就是说,针对多应用对象整体和分应用对象模型效果都较好,而且构建的模型数量少,花费时间少,模型上线管理简单。
本申请一些实施例中,上述步骤103和步骤104可以仅基于第一模型评估指标确定针对目标验证集目标广义线性模型是否可用,也可以基于第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线,共同确定针对目标验证集目标广义线性模型是否可用。
其中,每个第一单变量拟合曲线为该目标验证集的一个特征变量的取值的拟合曲线。第一单变量拟合曲线用于为优化模型提供方向,分析哪些特征信息学习好了(拟合好),哪些特征信息没有学习好(没有拟合好),然后可以根据第一单变量拟合曲线更好地优化模型需要调整的特征变量,进而得到模型效果更好的目标广义线性模型。
本申请一些实施例中,在仅基于第一模型评估指标确定针对目标验证集目标广义线性模型是否可用的情况下,若在执行上述步骤102之后,根据第一模型评估指标确定针对目标验证集目标广义线性模型可用,执行上述步骤104;若在执行上述步骤102之后,根据第一模型评估指标确定针对目标验证集目标广义线性模型不可用,则将目标广义线性模型作为初始广义线性模型,返回执行上述步骤102(或返回执行上述步骤101和步骤102),对初始广义线性模型进一步进行训练,以更新目标广义线性模型,直至基于更新后的目标广义线性模型得到的第一模型评估指标指示针对目标验证集目标广义线性模型可用为止,然后执行上述步骤104。
本申请一些实施例中,在基于第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线,共同确定针对目标验证集目标广义线性模型是否可用的情况下,可以先根据第一模型评估指标确定针对目标验证集目标广义线性模型是否可用,当根据第一模型评估指标确定针对目标验证集目标广义线性模型不可用(可以是执行一次上述步骤101和步骤102之后,确定根据第一模型评估指标确定针对目标验证集目标广义线性模型不可用;也可以是反复多次执行上述步骤101和步骤102,调整特征变量并对模型进行进一步训练后,确定根据第一模型评估指标确定针对目标验证集目标广义线性模型不可用;也可以反复多次执行上述步骤102,通过调节模型参数对模型进行进一步训练后,确定根据第一模型评估指标确定针对目标验证集目标广义线性模型不可用,具体可以根据实际情况确定,此处不做限定)时,基于目标验证集,获取目标广义线性模型对应的至少一个第一单变量拟合曲线,然后根据至少一个第一单变量拟合曲线,确定返回步骤101如何通过调整特征变量(针对第一单变量拟合曲线拟合效果不好的特征变量进行调整),并对模型进行进一步训练,或者返回步骤102如何调整模型参数,并对模型进行进一步训练,直至基于第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线,共同确定针对目标验证集目标广义线性模型否可用。
本申请一些实施例中,在基于第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线,共同确定针对目标验证集目标广义线性模型是否可用的情况下,也可以同时确定第一模型评估指标和至少一个第一单变量拟合曲线,然后结合第一模型评估指标和至少一个第一单变量拟合曲线,共同确定针对目标验证集目标广义线性模型是否可用。在根据第一模型评估指标和至少一个第一单变量拟合曲线,确定针对目标验证集目标广义线性模型可用的情况下,执行步骤104中的按照不同的应用对象对该目标验证集进行分组,得到多个子验证集,每个子验证集对应一个应用对象;在根据第一模型评估指标和至少一个第一单变量拟合曲线,确定针对目标验证集目标广义线性模型不可用的情况下,返回上述步骤102(或步骤101和步骤102)继续训练目标广义线性模型,直至根据第一模型评估指标和至少一个第一单变量拟合曲线,确定针对目标验证集目标广义线性模型可用为止,执行步骤104中的按照不同的应用对象对该目标验证集进行分组,得到多个子验证集,每个子验证集对应一个应用对象。
针对上述步骤105和步骤106,也可以仅基于第二模型评估指标确定针对目标验证集目标广义线性模型是否可用,也可以基于第二模型评估指标和每个子验证集对应的至少一个第二单变量拟合曲线,共同确定针对每个子验证集目标广义线性模型是否可用。具体描述可以参考对上述步骤103和上述步骤104的相关描述。此处不予赘述。
本申请一些实施例中,在基于第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线,共同确定针对目标验证集目标广义线性模型是否可用,且基于第二模型评估指标和每个子验证集对应的至少一个第二单变量拟合曲线,共同确定针对每个子验证集目标广义线性模型是否可用的情况下,该上述步骤103具体可以通过下述步骤103a实现,上述步骤104具体可以通过下述步骤104a实现,上述步骤105具体可以通过下述步骤105a实现,上述步骤106具体可以通过下述步骤106a实现。
103a、基于该目标验证集,对该目标广义线性模型进行评估,得到第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线。
其中,目标验证集中每个特征向量对应的一个第一单变量拟合曲线。目标验证集中有多少个特征向量,就会得到多少个第一单变量拟合曲线,即至少一个第一单变量拟合曲线和至少一个特征变量一一对应。
示例性地,基于获得的目标验证集中每个特征变量对应的第一单变量拟合曲线,判断每个第一单变量拟合曲线是否满足预设拟合条件,在每个第一单变量拟合曲线均满足预设拟合条件的情况下,确定针对目标验证集中的每个特征变量目标广义线性模型均可用。在至少一个第一单变量拟合曲线包括不满足预设拟合条件的第一单变量拟合曲线的情况下,确定针对目标验证集中的至少一个特征变量中的部分特征变量或全部特征变量目标广义线性模型不可用。
本申请一些实施例中,该根据第一模型评估指标和该每个第一单变量拟合曲线确定针对该目标验证集该目标广义线性模型可用,包括:在第一模型评估指标大于或等于指标阈值,且该每个第一单变量拟合曲线满足预设拟合条件的情况下,确定针对该目标验证集该目标广义线性模型可用。
其中,在该目标广义线性模型为分类模型的情况下,该指标阈值为该分类模型对应的指标阈值,该预设拟合条件包括:实际发生率曲线中的目标自变量对应的因变量值,小于或等于预测发生率上限曲线中的该目标自变量对应的因变量值,且大于或等于预测发生率下限曲线中的该目标自变量对应的因变量值(也就是说,实际发生率曲线在预测发生率上限曲线和预测发生率下限曲线之间)。可以理解,该每个第一单变量拟合曲线包括实际发生率曲线、预测发生率曲线、预测发生率上限曲线和预测发生率下限曲线,预测发生率上限曲线中的目标自变量对应的因变量为对应的预测发生率曲线中的目标自变量对应的因变量与第一数值之和;预测发生率下限曲线中的目标自变量对应的因变量为对应的预测发生率曲线中的目标自变量对应的因变量与第二数值之差(其中,第二数值与第一数值可以相同,也可以不相同,第二数值和第一数据均为正数)。
其中,在该目标广义线性模型为回归模型的情况下,该指标阈值为该回归模型对应的指标阈值,该预设拟合条件包括:实际值均值曲线中目标自变量对应的因变量值,与预测值均值曲线中目标自变量对应的因变量值的差值的绝对值小于或等于差值阈值(差值阈值可以根据实际情况确定,此处不做限定,也就是说,实际值均值曲线和预测值均值曲线越接近越好);该目标自变量为该每个第一单变量拟合曲线中的任一自变量。
本申请实施例中,通过上述指标阈值和预设拟合条件的设置,可以达到根据第一模型评估指标和该每个第一单变量拟合曲线,电子设备快速自动确定针对该目标验证集该目标广义线性模型是否可用,可以提高模型训练效率。
本申请一些实施例中,该根据第一模型评估指标和该每个第一单变量拟合曲线确定针对该目标验证集该目标广义线性模型可用,包括:电子设备显示第一模型评估指标和该每个第一单变量拟合曲线,然后用户根据显示的第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型是否可用,然后响应于接收到的指示针对该目标验证集该目标广义线性模型可用的用户输入,电子设备确定根据显示的第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用。
104a、根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用的情况下,按照不同的应用对象对该目标验证集进行分组,得到该多个子验证集。
105a、基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线。
其中,每个第二单变量拟合曲线为对应的子验证集的一个特征变量的取值的拟合曲线。
其中,对第二单变量拟合曲线的描述可以参考上述对第一单变量拟合曲线的相关描述,此处不予赘述。
106a、在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型。
其中,每个子验证集中每个特征向量对应的一个第二单变量拟合曲线。每个子验证集中有多少个特征向量,就会得到多少个第二单变量拟合曲线,即一个子验证集对应的至少一个第二单变量拟合曲线和一个子验证集对应的至少一个特征变量一一对应。
示例性地,以基于获得的一个子验证集中每个特征变量对应的第二单变量拟合曲线,判断每个第二单变量拟合曲线是否满足预设拟合条件,进而判断根据至少一个第二单变量拟合曲线确定针对该一个子验证集该目标线性广义模型是否可用为例,在每个第二单变量拟合曲线均满足预设拟合条件的情况下,确定针对该一个子验证集中的每个特征变量目标广义线性模型均可用。在至少一个第二单变量拟合曲线包括不满足预设拟合条件的第二单变量拟合曲线的情况下,确定针对该一个子验证集中的至少一个特征变量中的部分特征变量或全部特征变量目标广义线性模型不可用。
本申请一些实施例中,该根据第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用,包括:在第二模型评估指标大于或等于模型阈值,且该每个子验证集对应的至少一个第二单变量拟合曲线中的每个第二单变量拟合曲线均满足预设拟合条件的情况下,确定针对该每个子验证集该目标广义线性模型可用。
其中,在该目标广义线性模型为分类模型的情况下,该模型阈值为该分类模型对应的模型阈值,该预设拟合条件包括:实际发生率曲线中的目标自变量对应的因变量值,小于或等于预测发生率上限曲线中的该目标自变量对应的因变量值,且大于或等于预测发生率下限曲线中的该目标自变量对应的因变量值;该每个第二单变量拟合曲线包括该实际发生率曲线、预测发生率曲线、预测发生率上限曲线和预测发生率下限曲线,预测发生率上限曲线中的目标自变量对应的因变量为对应的预测发生率曲线中的目标自变量对应的因变量与第一数值之和;预测发生率下限曲线中的目标自变量对应的因变量为对应的预测发生率曲线中的目标自变量对应的因变量与第二数值之差(其中,第二数值与第一数值可以相同,也可以不相同,第二数值和第一数据均为正数)。
其中,在该目标广义线性模型为回归模型的情况下,该模型阈值为该回归模型对应的模型阈值,该预设拟合条件包括:实际值均值曲线中目标自变量对应的因变量值,与预测值均值曲线中目标自变量对应的因变量值的差值的绝对值小于或等于差值阈值(差值阈值可以根据实际情况确定,此处不做限定);该目标自变量为该每个第二单变量拟合曲线中的任一自变量。
可以理解,单变量拟合效果判断原则为:分类模型时实际发生率曲线在预测发生率上限曲线和预测发生率下限曲线范围内则可行,回归模型实际值均值曲线和预测值均值曲线越接近越好。本申请实施例中,可以***可以自动判断单变量拟合效果,也可以显示单变量拟合曲线(还可以同时显示单变量拟合效果判断原则),然后用户根据单变量拟合曲线进行人工判断,***根据人工判断结果确定单变量拟合效果,具体可以根据实际情况确定,此处不做限定。
本申请实施例中,通过上述模型阈值和预设拟合条件的设置,可以达到根据第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,电子设备快速自动确定针对该每个子验证集该目标广义线性模型是否可用,可以提高模型训练效率。
本申请一些实施例中,该根据第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线确定针对该每个子验证集该目标广义线性模型可用,包括:电子设备显示第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,然后用户根据显示的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该每个子验证集该目标广义线性模型是否可用,然后响应于接收到的指示针对该每个子验证集该目标广义线性模型可用的用户输入,电子设备确定根据显示的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该每个子验证集该目标广义线性模型可用。
本申请实施例中,结合第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用,结合该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用,可以有效提高目标广义线性模型的模型效果,使得目标广义线性模型的预测效果更好。
本申请一些实施例中,在上述步骤105a之后,本申请实施例提供的银行领域的广义线性模型训练方法还可以包括下述的步骤107。
107、循环迭代执行下述步骤S1,直至在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型。
其中,该步骤S1包括下述S11和S12。
S11、在根据所述每个子验证集对应的第二模型评估指标和所述每个子验证集对应的至少一个第二单变量拟合曲线,确定针对所述多个子验证集中的至少一个子验证集所述目标广义线性模型不可用的情况下,确定所述至少一个子验证集对应的至少一个目标特征变量中的待优化特征变量。
其中,每个目标特征变量为该至少一个子验证集对应的特征变量中,第二单变量拟合曲线指示针对对应的子验证集该目标广义线性模型不可用的特征变量。
S12、将该待优化特征变量和不同应用对象标识进行交叉组合处理,生成新的特征变量,以更新该目标训练集和该目标验证集。
可以理解,新的特征变量为将该待优化特征变量和不同应用对象标识进行交叉组合处理得到的,用新的特征变量更新该目标训练集和该目标验证集,即将目标训练集和目标验证集中的待优化特征变量替换为新的特征变量,而其他特征变量不变。
其中,新的特征变量可以为一个或多个特征变量,即对待优化特征变量进行优化得到一个或多个特征变量。
以下介绍交叉组合处理,示例性地,年龄为目标特征变量,不同应用对象的标识为省份,如陕西,上海等等,年龄对应的第二单变量拟合曲线上海市拟合效果不好,则将年龄和省份进行交叉组合得到省份、原年龄、新年龄组成的新的特征变量,其中新年龄就是针对目标特征变量新增的特征。其中,新年龄的取值为当省份为上海,且原年龄为50的时候,将新年龄的取值为50,其它的省份的新年龄均为0。例如省份为上海,原年龄的取值为50,新年龄的取值为50,省份为陕西,原年龄的取值为30,新年龄的取值为0。
本申请一些实施例中,在将该待优化特征变量和不同应用对象标识进行交叉组合处理之前,还可以对数值型特征变量进行分段处理、多项式处理等以更新该待优化特征变量。
示例性地,对数值型特征变量进行分段处理可以为:比如0-100岁之间,针对目标特征变量为年龄对应的第二单变量拟合曲线指示30-50这个年龄段的模型拟合效果不好,就可以把这个年龄分段出来,对这个年龄分段进行交叉组合处理。
示例性地,对数值类型特征变量进行交叉式加减乘除运算或多项式扩展,如样本数据的实际结果小于预测结果的时候,把X(目标特征变量)变成包括X的幂次方的函数,具体可以根据实际情况确定,此处不做限定。
示例性地,年龄(特征变量)原来是50现在变成了502=2500除以100,就是25,或者,年龄(特征变量)原来是50现在变成503=125000除以1000,就是125。
S13、将该目标广义线性模型作为该初始广义线性模型,返回执行基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新该目标广义线性模型,直至得到该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线。
可以理解,执行步骤S1在这里指的是每一次执行步骤S1优化一个目标特征变量(即待优化特征变量),若是在待优化特征变量中新增特征并对目标广义线性模型进行优化后,全部特征变量全部特征拟合好了,则无需继续优化,结束优化,输出目标广义线性模型;若是在待优化特征变量中新增特征并对目标广义线性模型进行优化后,全部特征变量中的部分特征变量拟合好了(好的影响),那就不用再继续优化已拟合好的该部分特征变量了,然后再优化该待优化特征变量的基础上继续优化下一个目标特征变量(确定下一个待优化特征变量),直至全部特征变量拟合好;若是在该待优化特征变量中新增特征并对目标广义线性模型进行优化后,该待优化特征变量都没有拟合好,那么删除该待优化特征变量中的新增特征,然后再优化下一个目标特征变量(即下一个待优化特征变量);若是在该待优化特征变量中新增特征并对目标广义线性模型进行优化后,该待优化特征变量拟合好了,但是对别的特征变量产生了不好的影响,如果影响是微弱的(人工判断),一般不需要再优化,如果影响是严重的(人工判断),可以对受影响的特征变量(下一个待优化特征变量)进行优化,若优化效果不好可删除包括新增特征的该待优化特征变量,因其他特征变量包含了该待优化特征变量的一定信息,删除该待优化特征变量后一般不会有影响。
本申请实施例中,针对一个待优化特征变量,执行上述步骤S1之后,若根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集中的至少一个子验证集该目标广义线性模型可用,则结束模型优化,输出目标广义线性模型,若根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集中的至少一个子验证集该目标广义线性模型仍不可用,则针对下一个待优化特征变量,执行上述步骤S1,如此针对多个待优化特征变量,迭代执行上述步骤S1,直至根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集中的至少一个子验证集该目标广义线性模型可用,则结束模型优化,输出目标广义线性模型。
本申请实施例中,通过循环迭代执行下述步骤S1,直至在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型,可以使得目标广义线性模型是针对多应用对象整体和分应用对象模型效果都较好,而且构建的模型数量少,工序简单,花费时间少,模型上线管理简单。
本申请一些实施例中,该待优化特征变量为该至少一个子验证集对应的特征变量中,第二单变量拟合曲线指示针对对应的子验证集该目标广义线性模型不可用的特征变量中,重要程度最大的特征变量。
其中,特征变量的重要程度可以根据广义线性模型对应的模型标准化系数确定,具体可以根据实际情况确定,此处不做限定。
本申请实施例中,优先处理重要程度排名靠前的特征变量,可以快速提高目标广义线性模型的模型效果。
本申请一些实施例中,在上述步骤105a之后,本申请实施例提供的银行领域的广义线性模型训练方法还可以包括下述的S21至S26。
S21、在循环迭代执行该步骤S1之后,确定至少一个第一特征变量的第二单变量拟合曲线指示针对对应的子验证集该目标广义线性模型不可用。
其中,每个第一特征变量是通过至少一次执行该步骤S1将第二特征变量进行优化,生成的该新的特征变量;每个第一特征变量对应相同或不同的第二特征变量;第二特征变量为该至少一个目标特征变量中的一个;该至少一个子验证集对应的特征变量中,除至少一个第一特征变量之外的其他特征变量的第二单变量拟合曲线均指示针对对应的子验证集该目标广义线性模型可用。
可以理解,每个第一特征变量是通过一次或多次执行上述步骤S1将第二特征变量进行优化,生成的该新的特征变量。
示例性地,以一个第一特征变量是通过一次执行上述步骤S1将一个第二特征变量进行优化,生成的该新的特征变量为例,在某次执行上述步骤S1的过程中,将至少一个目标特征变量中的第二特征变量作为待优化特征变量,和不同应用对象标识进行交叉组合处理,生成该一个第一特征变量。
示例性地,以一个第一特征变量是通过两次执行上述步骤S1将一个第二特征变量进行优化,生成的该新的特征变量为例,在某次执行上述步骤S1的过程中,将至少一个目标特征变量中的一个第二特征变量作为待优化特征变量,和不同应用对象标识进行交叉组合处理,生成中间特征变量;在另一次执行上述步骤S1的过程中,将中间特征变量作为待优化特征变量,和不同应用对象标识进行交叉组合处理,生成该一个第一特征变量。
本申请一些实施例中,通过至少一次执行上述步骤S1将一个第二特征变量进行优化,可以生成一个或多个第一特征变量,即第二特征变量对应的新的特征变量包括一个或多个第一特征变量,因此,当第二特征变量对应一个第一特征变量时,该一个第一特征变量和对应的第二特征变量一一对应;当第二特征变量对应多个第一特征变量时,该多个第一特征变量对应同一个第二特征变量,具体可以根据实际情况确定,此处不做限定。
本申请一些实施例中,当多个第一特征变量对应同一个第二特征变量时,该多个第一特征变量可以与该一个第二特征变量均不同,该多个第一特征变量中也可以有一个第一特征变量与第二特征变量相同,具体可以根据实际情况确定。
S22、将目标训练集和目标验证集中的每个第一特征变量分别更新为对应的第二特征变量,以更新目标训练集和目标验证集。
本申请一些实施例中,当多个第一特征变量对应同一个第二特征变量时,该一个第二特征变量对应的多个第一特征变量是一组第一特征变量,当执行上述步骤S22时,是将该一组第一特征变量整体替换为对应的第二特征变量。
S23、确定每个第二特征变量在目标训练集中对应的数据,与在目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值。
其中,该目标PSI值用于指示第二特征变量在该目标训练集中的分布,与第二特征变量在该目标验证集中的分布是否一致。若一个目标PSI值大于分布阈值,则确定该一个目标PSI值对应的第二特征变量在该目标训练集中的分布,与在该目标验证集中的分布不一致;若一个目标PSI值小于或等于分布阈值,则确定该一个目标PSI值对应的第二特征变量在该目标训练集中的分布,与在该目标验证集中的分布一致。针对在该目标训练集中的分布与在该目标验证集中分布不一致的一个第二特征变量,需要调整目标广义线性模型针对该一个第二特征变量的beta系数,以使调整后的目标广义线性模型针对验证集的拟合效果更好;针对在该目标训练集中的分布与在该目标验证集中分布一致的一个第二特征变量,需要删除目标训练集和目标验证集中的该一个第二特征变量,进而对目标广义线性模型继续训练,以得到效果更好的目标广义线性模型。
S24、在确定至少一个目标PSI值中不存在小于或等于分布阈值的PSI值的情况下,确定每个第二特征变量对应的目标beta系数,得到至少一个目标beta系数。
S25、基于每个目标beta系数,分别调整目标广义线性模型针对对应的第二特征变量的beta系数,得到更新后的目标广义线性模型。
S26、将更新后的该目标广义线性模型作为该目标广义线性模型,返回执行基于该目标验证集,对该目标广义线性模型进行评估,得到第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线,直至在根据第二模型评估指标和对应的第二特征变量的第二单变量拟合曲线,确定针对对应的子验证集该目标广义线性模型可用。
本申请实施例中,针对至少一个目标特征变量,循环执行上述步骤S1之后,若根据该每个子验证集对应的至少一个第二单变量拟合曲线中的第一特征变量的第二单变量拟合曲线,确定针对该多个子验证集中的至少一个子验证集该目标广义线性模型仍不可用,则可以将第一特征变量回退至循环执行上述步骤S1之前对应的(该至少一个目标特征变量中的)第二特征变量(第一特征变量为第二特征变量和每次执行上述步骤S1得到的至少一个新增变量,删除第一特征变量中的所有新增变量,即得到第二特征变量),然后计算目标训练集和目标验证集两者之间的第二特征变量的PSI值,确认该第二特征变量在两个数据集(目标训练集和目标验证集)中的数据分布是否一致。若两个数据集中的数据分布不一致,则确定第二特征变量对应的目标beta系数,然后基于该目标beta系数,调整该目标广义线性模型针对第二特征变量的beta系数,得到更新后的该目标广义线性模型。也就是说,根据第二目标特征变量对应的第二单变量拟合曲线中每组实际均值和预测均值的差值,可以通过已知的广义线性模型公式推导出beta系数,或通过人工的方式推导出beta系数。人工的方式为手动调整某一特征变量的beta系数。
本申请实施例中,基于第二特征变量对应的两个数据集中的数据分布不一致,调整目标广义线性模型的beta系数,进而可以使得目标广义线性模型是针对多应用对象整体和分应用对象模型效果都较好,尤其是针对验证集模型效果更好,而且构建的模型数量少,工序简单,花费时间少,模型上线管理简单。
本申请一些实施例中,该S23之后,本申请实施例提供的银行领域的广义线性模型训练方法还可以包括下述的S27。
S27、在确定至少一个目标PSI值中存在小于或等于分布阈值的至少一个PSI值的情况下,删除目标训练集和目标验证集中的至少一个PSI值对应的各个第二特征变量,将目标广义线性模型作为初始广义线性模型,返回执行基于目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新目标广义线性模型,直至在根据第二模型评估指标和每个子验证集对应的至少一个第二单变量拟合曲线,确定针对对应的子验证集目标广义线性模型可用。
本申请实施例中,在根据目标PSI值确定一个第二特征变量在该目标训练集中的分布,与该一个第二特征变量在该目标验证集中的分布一致的情况下,说明这个第二特征变量在目标广义线性模型里起不到很好的拟合作用,因此删除该目标训练集和该目标验证集中的第二特征变量,将该目标广义线性模型作为该初始广义线性模型,返回执行基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新该目标广义线性模型,直至在根据第二模型评估指标和对应的目标特征变量的第二单变量拟合曲线,确定针对对应的子验证集该目标广义线性模型可用。进而可以使得目标广义线性模型是针对多应用对象整体和分应用对象模型效果都较好,而且构建的模型数量少,工序简单,花费时间少,模型上线管理简单。
需要说明的是,在上述步骤S23之后,若确定至少一个目标PSI值中的部分PSI值小于或等于分布阈值(即部分PSI值对应的第二特征变量,在目标训练集和目标验证集中的数据分布一致),说明该部分PSI值对应的第二特征变量在目标广义线性模型里起不到很好的拟合作用,因此删除该目标训练集和该目标验证集中的该部分PSI值对应的第二特征变量,将该目标广义线性模型作为该初始广义线性模型,返回执行基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新该目标广义线性模型;然后再调整目标广义线性模型中该至少一个目标PSI值中除部分PSI值之外的另一部分PSI值(即至少一个目标PSI值中大于分布阈值的PSI值,即另一部分PSI值对应的第二特征变量,在目标训练集和目标验证集中的数据分布不一致)对应的第二特征变量的beta系数,以更新所述目标广义线性模型,并输出更新后的目标广义线性模型。
本申请一些实施例中,该103a之后,本申请实施例提供的银行领域的广义线性模型训练方法还可以包括下述的步骤108或步骤109。
108、在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型不可用的情况下,将该目标广义线性模型作为该初始广义线性模型,返回执行基于该目标训练集,训练初始广义线性模型,以更新该目标广义线性模型,直至在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用。
本申请实施例中,在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型不可用的情况下,可以直接返回上述步骤102对模型进行进一步训练,如此,可以快速训练得到针对该目标验证集可用的目标广义线性模型。
本申请一些实施例中,上述步骤108具体可以通过下述步骤108a和步骤108b实现。
108a、将所述目标广义线性模型作为所述初始广义线性模型,返回执行基于所述目标训练集,训练初始广义线性模型,以更新所述目标广义线性模型。
108b、在根据所述第一模型评估指标和所述每个第一单变量拟合曲线,确定针对所述目标验证集所述目标广义线性模型仍不可用的情况下,将所述目标广义线性模型作为所述初始广义线性模型,返回执行对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集,以更新所述至少一个特征变量中的至少一个待处理特征变量,直至在根据所述第一模型评估指标和所述每个第一单变量拟合曲线,确定针对所述目标验证集所述目标广义线性模型可用的情况下,输出所述目标广义线性模型。
其中,每个待处理特征变量对应的第一单变量拟合曲线指示针对该目标验证集该目标广义线性模型不可用。即每个待处理特征变量为针对目标验证集该目标广义线性模型拟合效果不好的特征变量。
本申请实施例中,在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型不可用的情况下,可以直接返回上述步骤102对模型进行进一步训练,仍不能得到针对该目标验证集可用的目标广义线性模型时,可以返回上述步骤101通过对待处理特征变量进行数据清洗、特征变换和特征衍生等处理,更新至少一个特征变量中的至少一个待处理特征变量,以使可以根据更新后的特征变量对模型进行进一步训练,以快速训练得到针对该目标验证集可用的目标广义线性模型。
本申请一些实施例中,该103a之后,本申请实施例提供的银行领域的广义线性模型训练方法还可以包括下述的步骤109。
109、在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型不可用的情况下,将该目标广义线性模型作为该初始广义线性模型,返回执行对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集,以更新该至少一个特征变量中的至少一个待处理特征变量,直至在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用。
其中,每个待处理特征变量对应的第一单变量拟合曲线指示针对该目标验证集该目标广义线性模型不可用。即每个待处理特征变量为针对目标验证集该目标广义线性模型拟合效果不好的特征变量。
本申请实施例中,在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型不可用的情况下,可以直接步骤101通过对待处理特征变量进行数据清洗、特征变换和特征衍生等处理,更新至少一个特征变量中的至少一个待处理特征变量,以使可以根据更新后的特征变量对模型进行进一步训练,以快速训练得到针对该目标验证集可用的目标广义线性模型。
本申请一些实施例中,在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型不可用的情况下,可以返回上述步骤102或上述步骤101和步骤102,对目标广义线性模型进行进一步训练,直至在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用,执行上述步骤104。
本申请实施例中,通过上述步骤108或上述步骤109,可以使得根据第一模型评估指标和该每个第一单变量拟合曲线,使得针对该目标验证集该目标广义线性模型可用,进而提高模型训练效果。
本申请一些实施例中,在根据第一模型评估指标和每个第一单变量拟合曲线,确定针对目标验证集目标广义线性模型不可用的情况下,将目标广义线性模型作为初始广义线性模型,返回执行基于目标训练集,训练初始广义线性模型,以更新目标广义线性模型,包括:根据第一模型评估指标和每个第一单变量拟合曲线,确定针对目标验证集目标广义线性模型不可用的情况下,保存目标广义线性模型对应的每个特征变量的第一标准化系数;将目标广义线性模型作为初始广义线性模型,修改初始广义线性模型的超参数,返回执行基于目标训练集,训练初始广义线性模型,以更新目标广义线性模型;保存更新后的目标广义线性模型对应的每个特征变量的第二标准化系数;在待分析特征变量的第二标准化系数不在对应的系数范围(具体可以根据实际情况确定,此处不做限定)内或第二标准化系数相对于第一标准化系数的变化量不在对应的变化范围(具体可以根据实际情况确定,此处不做限定)内的情况下,分别删除目标训练集和目标验证集中的待分析特征变量(待分析特征变量为不稳定特征变量),得到更新后的目标训练集和目标验证集;将目标广义线性模型作为初始广义线性模型,返回执行基于目标训练集,训练初始广义线性模型,以更新目标广义线性模型。如此,可以快速删除模型训练过程中的不稳定变量,以提高模型的训练效率。
示例性地,结合上述步骤101至步骤109,如图2所示,本申请实施例提供的银行领域的广义线性模型训练方法可以通过下述的步骤201至步骤219实现。
201、对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集。
202、基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型。
203、基于该目标验证集,对该目标广义线性模型进行评估,得到第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线。
204、根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型是否可用。
在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型不可用的情况下,执行下述步骤205;在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用的情况下,执行下述步骤206。
205、将该目标广义线性模型确定为该初始广义线性模型。
返回上述步骤202或者返回上述步骤201,对目标广义线性模型进行进一步训练,直至在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用的情况下,执行下述步骤206。
206、按照不同的应用对象对该目标验证集进行分组,得到该多个子验证集。
207、基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线。
208、根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型是否均可用。
在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用的情况下,执行下述步骤209,在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集中的至少一个子验证集该目标广义线性模型不可用的情况下,执行下述步骤210。
209、输出该目标广义线性模型。
210、确定该至少一个子验证集对应的至少一个目标特征变量。
其中,每个目标特征变量为至少一个子验证集对应的特征变量中,第二单变量拟合曲线指示针对对应的子验证集目标广义线性模型不可用的特征变量。
本申请一些实施例中,可以判断至少一个子验证集对应的特征变量中每个第二单变量拟合曲线是否满足预设拟合条件,将至少一个子验证集对应的特征变量中的第二单变量拟合曲线不满足预设拟合条件的特征变量,确定为至少一个目标特征变量。
本申请一些实施例中,可以显示至少一个子验证集对应的特征变量中每个第二单变量拟合曲线,然后响应于用户的输入,确定至少一个目标特征变量。
211、确定是否进行变量优化。
在确定进行变量优化的情况下,执行下述步骤212;在确定不进行变量优化的情况下,执行下述步骤214。
本申请一些实施例中,在确定至少一个目标特征变量中存在未进行过变量优化的目标特征变量的情况下,确定进行变量优化;在确定至少一个目标特征变量中的每个目标特征变量均进行过变量优化的情况下,确定不进行变量优化。
本申请一些实施例中,在确定至少一个目标特征变量中存在进行变量优化的次数小于预设次数的目标特征变量的情况下,确定进行变量优化;在确定至少一个目标特征变量中的每个目标特征变量均进行过变量优化,且进行变量优化的次数等于预设次数的情况下,确定不进行变量优化。
本申请一些实施例中,在接收到进行变量优化的用户输入的情况下,确定进行变量优化;在接收到不进行变量优化的用户输入的情况下,确定不进行变量优化。
212、确定至少一个目标特征变量中的待优化特征变量。
213、将待优化特征变量和不同应用对象标识进行交叉组合处理,生成新的特征变量,以更新目标训练集和目标验证集。
其中,将目标训练集中的待优化特征变量更新为该新的特征变量,得到更新后的目标训练集,将目标验证集中的待优化特征变量更新为该新的特征变量,得到更新后的该目标验证集。
将目标广义线性模型作为初始广义线性模型,返回执行基于目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新目标广义线性模型,直至得到每个子验证集对应的第二模型评估指标和每个子验证集对应的至少一个第二单变量拟合曲线。
在上述步骤213之后,执行步骤205,并返回执行上述步骤202至步骤208,在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型;在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集中的至少一个子验证集该目标广义线性模型仍不可用的情况下,再回到上述步骤210确定是否继续进行变量优化,若确定继续进行变量优化,则循环依次执行上述步骤212、步骤213、步骤205、步骤202至步骤208、步骤210,直至在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型;若在上述步骤210确定不继续进行变量优化,则执行下述步骤214至步骤220,输出目标广义线性模型。
214、将至少一个目标特征变量确定为至少一个第一特征变量。
其中,每个第一特征变量是通过至少一次执行步骤S1将第二特征变量进行优化,生成的新的特征变量,每个第一特征变量对应相同或不同的第二特征变量;第二特征变量为至少一个目标特征变量中的一个;至少一个子验证集对应的特征变量中,除至少一个第一特征变量之外的其他特征变量的第二单变量拟合曲线均指示针对对应的子验证集目标广义线性模型可用。
215、将目标训练集和目标验证集中的每个第一特征变量分别更新为对应的第二特征变量,以更新目标训练集和目标验证集。
216、确定每个第二特征变量在该目标训练集中对应的数据,与在该目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值。
其中,每个第二特征变量对应一个目标PSI值。
217、确定至少一个目标PSI值中是否存在小于或等于分布阈值的PSI值。
针对一个目标PSI值,在该一个目标PSI值大于分布阈值的情况下,确定对应的第二特征变量在该目标训练集中的分布与在该目标验证集中的分布不一致,针对于分布不一致的第二特征变量,可以通过调节该目标广义线性模型针对第二特征变量的beta系数,以改善目标广义线性模型的效果;在该一个目标PSI值小于或等于分布阈值的情况下,确定对应的第二特征变量在该目标训练集中的分布与在该目标验证集中的分布一致,针对于分布一致的第二特征变量,可以通过删除目标训练集合目标验证集中的第二特征变量,然后重新训练并验证目标广义线性模型。
因此,在确定至少一个目标PSI值中不存在小于或等于分布阈值的PSI值的情况下,执行下述步骤218,在确定至少一个目标PSI值中存在小于或等于分布阈值的至少一个PSI值的情况下,执行下述步骤220。
218、确定每个第二特征变量对应的目标beta系数。
219、基于该每个目标beta系数,分别调整该目标广义线性模型针对对应的第二特征变量的beta系数,得到更新后的该目标广义线性模型。
执行上述步骤219之后,返回执行上述步骤203,基于该目标验证集,对该目标广义线性模型进行评估,得到第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线,直至在根据第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对对应的子验证集该目标广义线性模型可用,结束优化,输出目标广义线性模型。
220、删除该目标训练集和该目标验证集中的至少一个PSI值对应的各个第二特征变量。
在上述步骤220之后,返回执行上述步骤205,将该目标广义线性模型作为该初始广义线性模型,然后继续执行上述步骤202至步骤219中的多个步骤,直至输出目标广义线性模型。
示例性地,为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。以广义线性模型为银行***违约风险预测模型为例,某银行总部针对全国36个省和北京、上海两个直辖市持有本行***的客户进行违约风险预测,预测客户未来1年内违约风险发生的概率。
如图3所示为训练集和验证集的时间段划分示意图,其中,观察期为12个月,表现期也为12个月。观察期指的是观察点之前的历史数据,表现期指的是观察点之后的未来数据;观察期用于提炼特征变量,表现期用于提炼标签变量(样本的标签变量)。
步骤1:获取数据,并定义训练集和验证集。示例中获取的数据为全国36个省和北京、上海两个直辖市共38个地区的2015年1月1日至2017年12月31日共3年的交易行为数据及客户基础信息数据;按时间定义训练集和验证集:训练集时间窗口:观察期时间为2015年1月1日至2015年12月31日,表现期时间为2016年1月1日至2016年12月31日;验证集时间窗口:观察期时间为2016年1月1日至2016年12月31日,表现期时间为2017年1月1日至2017年12月31日。
步骤2:对数据进行数据清洗、特征变换及衍生等数据操作;示例中利用步骤1所述的训练集观察期范围内的数据经过数据清洗、特征变换及衍生等数据处理形成客户维度的特征数据;利用步骤1所述的训练集表现期范围内的数据计算客户维度的标签变量,标签变量包含0,1两个值,0表示客户未来1年内没有违约,1表示客户未来1年内违约;按客户标识关联特征数据和标签变量形成训练集;同理计算获得验证集。
步骤3:利用训练集训练初始广义线性模型,得到目标广义线性模型,利用验证集评估目标广义线性模型并画出单变量拟合曲线,得到第一模型评估指标和至少一个第一单变量拟合曲线。
其中,单变量拟合曲线的实现方法如下:
如图4所示,左侧为分类模型的单变量拟合曲线示意图。分类模型实现单变量拟合曲线的步骤如下:
利用目标广义线性模型对验证集进行预测,得到验证集特征变量、实际标签(例如是否违约,违约为0,不违约为1)和预测概率值;枚举类型数据不变,数值类型数据进行分组;计算每个变量每组的实际发生率(实际发生率是用违约的样本数除以样本总数)和预测发生率的平均值,得到实际发生率曲线、预测发生率曲线(根据预测发生率的平均值画出的曲线)、预测发生率上限曲线和预测发生率下限曲线,具体计算公式如下表1所示。
表1
如图5所示,右侧为回归模型的单变量拟合曲线的示意图。回归模型实现单变量拟合曲线的步骤如下:利用模型对验证集进行预测,得到验证集特征变量、实际值y和预测值y′;枚举类型数据不变,数值类型数据进行分组;计算每个变量每组的实际值均指和预测值均指,得到实际值均值曲线和预测值均值曲线,具体如下表2所示。
表2
示例中利用步骤2所述的训练集训练逻辑回归模型(分类模型类型的广义线性模型),利用验证集的AUC值评估模型效果。
步骤4:根据验证集对应的第一模型评估指标大小及各个第一单变量拟合曲线的拟合效果,判断逻辑回归模型是否可行(可用),不可行时选择单变量拟合曲线的拟合效果不好的特征变量返回步骤2重新进行特征变换和特征衍生,或返回步骤3进行模型算法参数调整;可行进入步骤5。其中,单变量拟合曲线的拟合效果的判断方法:分类模型时实际发生率曲线在预测发生率上限曲线和预测发生率下限曲线范围内时拟合效果可行,回归模型时实际值均值曲线和预测值均值曲线越接近拟合效果越好。
示例中查看验证集的AUC值是否大于0.8,当小于0.8返回步骤2或步骤3重新调整特征变量或算法参数,最终AUC值达到0.82,执行步骤5。
步骤5:按不同应用对象分组,得到多个子验证集,查看每个子验证集的第二模型评估指标,并分别画出每个子验证集对应的各个第二单变量拟合曲线;有些特征变量在不同应用对象存在数据分布差异,故不同应用对象其模型效果存在差异。示例中按38个地区分组,分别计算每个地区的AUC值,各地区AUC中有的低于0.8,有的高于0.8。考虑到模型预测结果需要分别应用于各地区,因此需要保证模型在每个地区的可行性。在此整体调整特征已经不能实现优化各地区模型效果的目的,因此我们针对各地区分别画出子验证集每个特征变量对应的第二单变量拟合曲线,通过对各地区单变量拟合曲线的拟合效果调整对应的特征变量,以实现提升各地区AUC值的目的。
步骤6:判断不同应用对象对应的子验证集的模型效果是否可行(第二模型评估指标大小和各个第二单变量拟合曲线的拟合效果),若可行则模型优化结束,若不可行根据不同应用对象的第二单变量拟合曲线进行模型优化调整,若不可行则进入步骤7。
步骤7:若子验证集对应的第二单变量拟合曲线的拟合效果不可行,可选择模型中重要程度比较高的N(N为正整数)个特征,和不同应用对象标识进行交叉组合处理形成新的特征变量(在进行交叉组合处理,可以先对特征变量进行预处理,如对数值型特征进行分段处理、多项式处理等)。一般来说,优先处理特征重要程度排名靠前的特征变量,排名靠前的特征变量优化完成后,可能会影响其他特征变量的拟合(如使得其他特征变量的拟合效果变好)。本申请实施例中,在根据每个子验证集对应的第二模型评估指标和各个第二单变量拟合曲线确定逻辑回归模型可用之前,需要迭代调整特征变量的拟合情况。其中,针对广义线性模型其特征变量的重要程度可参考标准化系数。
示例中存在多地区的第二单变量拟合曲线的拟合效果不可行的特征变量,选择北京市拟合效果不可行的特征变量,按照模型标准化系数确定各个特征变量的重要程度的排序依次为:观察期最大连续逾期次数、住房类型、3个月利息累积、人行审批查询次数、人行贷款机构数、观察期最低还款额逾期金额等,按照重要性顺序依次调整变量,然后进入步骤8和步骤9迭代优化。依据第二单变量拟合曲线进行调整,观察期最大连续逾期次数分箱后以离散类型进入模型,如图6观察期最大连续逾期次数模型优化前可知,北京市观察期最大连续逾期次数变量属性值为5的一组拟合效果不好,可对观察期最大连续逾期次数属性值及地区进行交叉组合形成新增特征,实现方式为,当样本属于北京市且观察期最大连续逾期次数属性值为5时,为观察期最大连续逾期次数变量原始值,否则为0,加入该新增特征优化后观察期最大连续逾期次数变量拟合曲线的拟合效果如图7所示,拟合效果可行;住房类型以离散类型进入模型,如图8住房类型模型优化前可知,北京市住房类型整体拟合效果不可行,可与地区进行交叉组合处理形成新增特征,实现方式为,当样本属于北京市时,为住房类型原始值,否则为0;加入该新增特征优化后住房类型单变量拟合曲线的拟合效果如图9所示,拟合效果可行;3个月利息累积以连续类型进模型,如图10所示3个月利息累积模型优化前可知,北京市3个月利息累积5000(对应横坐标2)之前实际发生率高于预测发生率,5000之后实际发生率低于预测发生率,以3个月利息累积分段和分地区进行交叉组合形成新增特征,实现方式为当样本属于北京市且3个月利息累积大于5000时,为3个月利息累积实际值,否则为0,加入该新增特征优化后3个月利息累积单变量拟合曲线的拟合效果如图11所示,拟合结果可行;其他特征变量或其他地区变量调整同理。
步骤:8:加入新增特征后,利用训练集重新训练优化广义线性模型(逻辑回归模型),并用验证集整体验证模型效果(第一模型评估指标和各个第一单变量拟合曲线),按不同应用对象分组,查看每个子验证集单独验证模型效果(每个子验证集对应的第二模型评估指标和各个第二单变量拟合曲线)。示例中,每次加入一个新增特征后,利用新的训练集训练逻辑回归模型,并按地区分组查看验证集效果。
步骤9:若验证集模型效果可行,可结束模型优化,也可返回步骤7按单变量拟合曲线继续进行模型优化;若验证集模型效果不可行,且未完成单变量拟合优化,返回步骤7按单变量拟合曲线继续进行模型优化;若验证集模型效果不可行,且已完成单变量拟合优化进入步骤10。注若加入新增特征后模型评估指标和单变量拟合曲线均没有提升,则该新增特征删除后再进行后续操作,反之保留该新增特征后进行后续操作。示例中,依次调整完前5个变量后,各地区AUC均大于0.8。
步骤10:选择拟合效果不好的特征变量,计算训练集和验证集两者之间的特征变量的PSI值,确认该特征变量在两个数据集中的数据分布是否一致(如若PSI值小于或等于0.25,表示该特征变量在两个数据集中的数据分布一致;若PSI值大于0.25,表示该特征变量在两个数据集中的数据分布不一致)。若一致则不处理,结束模型优化,若不一致,进入步骤11;一般而言,进行到步骤9,验证集模型效果基本均可行。示例中,结束步骤8时各地区AUC均以达到0.8以上,考虑到北京市性别变量一直未拟合好,如图12所示为性别优化前单变量拟合曲线。故计算了北京市训练集和验证集两者之间性别变量的PSI,其值大于0.25,该特征在训练集和验证集中分布差异较大,故调整该变量的beta系数。
步骤11:根据单变量拟合曲线中每组实际发生率均值和预测发生率均值的差值,可通公式推到或人工的方式调整线性模型的beta系数,beta系数调整完成后,模型更适用于验证集的数据分布。公式推到即通过广义线性模型的公式推导出beta系数的目标值;人工方式即手动调整某一变量的beta系数,然后对验证集进行预测,画出对应应用对象的单变量拟合曲线,查看单变量的拟合效果,依据单变量拟合曲线在进行迭代微调,直至单变量拟合曲线可行,确定此时的beta系数为目标值。示例中采用逻辑回归模型,对应的beta系数公式为:
其中,z=β01x1+…+βkxk+…+βnxn
推导出β为beta系数。
在其他变量系数不变的情况下,xk的系数差公式如下:
其中,ptarget为目标概率,ppredict为预测概率,βk target为目标系数,βk为模型训练出的系数。
示例中,根据单变量拟合曲线实现步骤,任选性别一属性值的实际发生率为目标概率,系数调整为粗略调整。在此选择女性实际发生率为目标概率,值为0.015,女性预测发生率为0.01,模型beta系数为-0.068,则:
性别变量为离散值,故xk=1。若为连续变量,xk可取该组数据的均值。在此:
则按照beta系数为0.3425重新对验证集进行预测,然后画出北京市性别变量的拟合曲线如图13所示性别优化后,按该方式优化后模型更适用于验证集。
本申请实施例提供一种基于多应用对象的银行领域的广义线性模型训练方法,相较于传统一个模型应用于多个应用对象,提升了精确度;相较于多个模型应用于不同应用对象,减低了模型复杂度;以及通过单变量拟合分析的方法观察模型效果,并通过优化拟合单变量实现模型的优化;按应用对象添加多种个性化特征,从特征角度出发主动区分应用对象,在模型学习不同应用对象共性的同时也能学习其特性;针对验证集和训练集部分特征变量数据分布不一致的情况,通过训练集训练的模型可能不能有效的预测验证集,可通过人工调整beta系数使模型更有效的适用于验证集。
本申请还提供一种银行领域的广义线性模型训练装置,图14为本申请提供的一种银行领域的广义线性模型训练装置的结构示意图,如图14所示,该银行领域的广义线性模型训练装置包括:
数据处理模块1401,用于对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集;模型训练模块1402,用于基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型;模型评估模块1403,用于基于该目标验证集,对该目标广义线性模型进行评估,得到该目标验证集对应的第一模型评估指标;数据处理模块1401,还用于在根据第一模型评估指标确定针对该目标验证集该目标广义线性模型可用的情况下,按照不同的应用对象对该目标验证集进行分组,得到多个子验证集,每个子验证集对应一个应用对象;模型评估模块1403,还用于基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标;模型输出模块1405,用于在根据该每个子验证集对应的第二模型评估指标确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型。
本申请一些实施例中,该模型评估模块1403,具体用于基于该目标验证集,对该目标广义线性模型进行评估,得到第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线,每个第一单变量拟合曲线为该目标验证集的一个特征变量的取值的拟合曲线;该数据处理模块1401,具体用于在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用的情况下,按照不同的应用对象对该目标验证集进行分组,得到该多个子验证集;该模型评估模块1403,具体用于基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,每个第二单变量拟合曲线为对应的子验证集的一个特征变量的取值的拟合曲线;该模型输出模块1405,具体用于在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型。
本申请一些实施例中,该装置还包括:模型优化模块,用于在基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线之后,循环迭代执行下述步骤S1,直至在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型;其中,该步骤S1包括:在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集中的至少一个子验证集该目标广义线性模型不可用的情况下,确定该至少一个子验证集对应的至少一个目标特征变量中的待优化特征变量;将该待优化特征变量和不同应用对象标识进行交叉组合处理,生成新的特征变量,以更新该目标训练集和该目标验证集,每个目标特征变量为该至少一个子验证集对应的特征变量中,第二单变量拟合曲线指示针对对应的子验证集该目标广义线性模型不可用的特征变量;将该目标广义线性模型作为该初始广义线性模型,返回执行基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新该目标广义线性模型,直至得到所述每个子验证集对应的第二模型评估指标和所述每个子验证集对应的至少一个第二单变量拟合曲线。
本申请一些实施例中,该待优化特征变量为该至少一个子验证集对应的特征变量中,第二单变量拟合曲线指示针对对应的子验证集该目标广义线性模型不可用的特征变量中,重要程度最大的特征变量。
本申请一些实施例中,该装置包括:确定模块,用于在循环迭代执行步骤S1之后,确定至少一个第一特征变量的第二单变量拟合曲线指示针对对应的子验证集目标广义线性模型不可用;每个第一特征变量是通过至少一次执行步骤S1将第二特征变量进行优化,生成的新的特征变量;每个第一特征变量对应相同或不同的第二特征变量,第二特征变量为至少一个目标特征变量中的一个;至少一个子验证集对应的特征变量中,除至少一个第一特征变量之外的其他特征变量的第二单变量拟合曲线均指示针对对应的子验证集目标广义线性模型可用;该更新模块,用于将目标训练集和目标验证集中的每个第一特征变量分别更新为对应的第二特征变量,以更新目标训练集和目标验证集;该确定模块,还用于确定每个第二特征变量在目标训练集中对应的数据,与在目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值;在确定至少一个目标PSI值中不存在小于或等于分布阈值的PSI值的情况下,确定每个第二特征变量对应的目标beta系数,得到至少一个目标beta系数;调整模块,用于基于每个目标beta系数,分别调整目标广义线性模型针对对应的第二特征变量的beta系数,得到更新后的目标广义线性模型;将更新后的该目标广义线性模型作为该目标广义线性模型,返回执行基于该目标验证集,对该目标广义线性模型进行评估,得到第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线,直至在根据第二模型评估指标和对应的第二特征变量的第二单变量拟合曲线,确定针对对应的子验证集该目标广义线性模型可用。
本申请一些实施例中,该装置还包括:删除模块,用于在确定每个第二特征变量在目标训练集中对应的数据,与在目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值之后,在确定至少一个目标PSI值中存在小于或等于分布阈值的至少一个PSI值的情况下,删除目标训练集和目标验证集中的至少一个PSI值对应的各个第二特征变量,将目标广义线性模型作为初始广义线性模型,返回执行基于目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新目标广义线性模型,直至在根据第二模型评估指标和每个子验证集对应的至少一个第二单变量拟合曲线,确定针对对应的子验证集目标广义线性模型可用。
本申请一些实施例中,该模型优化模块,还用于在基于该目标验证集,对该目标广义线性模型进行评估,得到第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线之后,在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型不可用的情况下,将该目标广义线性模型作为该初始广义线性模型,返回执行基于该目标训练集,训练初始广义线性模型,以更新该目标广义线性模型,直至在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用;或者,在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型不可用的情况下,将该目标广义线性模型作为该初始广义线性模型,返回执行对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集,以更新该至少一个特征变量中的至少一个待处理特征变量,直至在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用;其中,每个待处理特征变量对应的第一单变量拟合曲线指示针对该目标验证集该目标广义线性模型不可用。
本申请一些实施例中,该根据第一模型评估指标和该每个第一单变量拟合曲线确定针对该目标验证集该目标广义线性模型可用,包括:在第一模型评估指标大于或等于指标阈值,且该每个第一单变量拟合曲线满足预设拟合条件的情况下,确定针对该目标验证集该目标广义线性模型可用;其中,在该目标广义线性模型为分类模型的情况下,该指标阈值为该分类模型对应的指标阈值,该预设拟合条件包括:实际发生率曲线中的目标自变量对应的因变量值,小于或等于预测发生率上限曲线中的该目标自变量对应的因变量值,且大于或等于预测发生率下限曲线中的该目标自变量对应的因变量值;该每个第一单变量拟合曲线包括该实际发生率曲线、预测发生率曲线、预测发生率上限曲线和预测发生率下限曲线,预测发生率上限曲线中的目标自变量对应的因变量为对应的预测发生率曲线中的目标自变量对应的因变量与第一数值之和;预测发生率下限曲线中的目标自变量对应的因变量为对应的预测发生率曲线中的目标自变量对应的因变量与第二数值之差(其中,第二数值与第一数值可以相同,也可以不相同,第二数值和第一数据均为正数);其中,在该目标广义线性模型为回归模型的情况下,该指标阈值为该回归模型对应的指标阈值,该预设拟合条件包括:实际值均值曲线中目标自变量对应的因变量值,与预测值均值曲线中目标自变量对应的因变量值的差值的绝对值小于或等于差值阈值;该目标自变量为该每个第一单变量拟合曲线中的任一自变量。
如图15所示,本申请实施例还提供了一种电子设备1500,该电子设备1500可以为上述电子设备。该电子设备1500包括:处理器1501、存储器1502及存储在该存储器1502上并可在该处理器1501上运行的计算机程序,该计算机程序被该处理器1501执行时实现如上述银行领域的广义线性模型训练方法执行的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例提供还提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现上述银行领域的广义线性模型训练方法执行的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,该计算机可读存储介质可以为只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本发明提供一种计算机程序产品,包括:当所述计算机程序产品在计算机上运行时,使得所述计算机实现上述的银行领域的广义线性模型训练方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims (9)

1.一种银行领域的广义线性模型训练方法,其特征在于,所述方法包括:
对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集,所述数据包括:交易行为数据以及客户基础信息数据;
基于所述目标训练集,训练初始广义线性模型,得到目标广义线性模型;
基于所述目标验证集,对所述目标广义线性模型进行评估,得到第一模型评估指标和所述目标验证集对应的至少一个第一单变量拟合曲线,每个第一单变量拟合曲线为所述目标验证集的一个特征变量的取值的拟合曲线;
在根据所述第一模型评估指标和所述每个第一单变量拟合曲线,确定针对所述目标验证集所述目标广义线性模型可用的情况下,按照不同的应用对象对所述目标验证集进行分组,得到多个子验证集;
基于每个子验证集,对所述目标广义线性模型进行评估,得到所述每个子验证集对应的第二模型评估指标和所述每个子验证集对应的至少一个第二单变量拟合曲线,每个第二单变量拟合曲线为对应的子验证集的一个特征变量的取值的拟合曲线;
在根据所述每个子验证集对应的第二模型评估指标和所述每个子验证集对应的至少一个第二单变量拟合曲线,确定针对所述多个子验证集所述目标广义线性模型均可用的情况下,输出所述目标广义线性模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述每个子验证集,对所述目标广义线性模型进行评估,得到所述每个子验证集对应的第二模型评估指标和所述每个子验证集对应的至少一个第二单变量拟合曲线之后,所述方法还包括:
循环迭代执行下述步骤S1,直至在根据所述每个子验证集对应的第二模型评估指标和所述每个子验证集对应的至少一个第二单变量拟合曲线,确定针对所述多个子验证集所述目标广义线性模型均可用的情况下,输出所述目标广义线性模型;
其中,所述步骤S1包括:
在根据所述每个子验证集对应的第二模型评估指标和所述每个子验证集对应的至少一个第二单变量拟合曲线,确定针对所述多个子验证集中的至少一个子验证集所述目标广义线性模型不可用的情况下,确定所述至少一个子验证集对应的至少一个目标特征变量中的待优化特征变量,每个目标特征变量为所述至少一个子验证集对应的特征变量中,第二单变量拟合曲线指示针对对应的子验证集所述目标广义线性模型不可用的特征变量;
将所述待优化特征变量和不同应用对象标识进行交叉组合处理,生成新的特征变量,以更新所述目标训练集和所述目标验证集;
将所述目标广义线性模型作为所述初始广义线性模型,返回执行基于所述目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新所述目标广义线性模型,直至得到所述每个子验证集对应的第二模型评估指标和所述每个子验证集对应的至少一个第二单变量拟合曲线。
3.根据权利要求2所述的方法,其特征在于,所述待优化特征变量为所述至少一个子验证集对应的特征变量中,第二单变量拟合曲线指示针对对应的子验证集所述目标广义线性模型不可用的特征变量中,重要程度最大的特征变量。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在循环迭代执行所述步骤S1之后,确定至少一个第一特征变量的第二单变量拟合曲线指示针对对应的子验证集所述目标广义线性模型不可用;每个所述第一特征变量是通过至少一次执行所述步骤S1将第二特征变量进行优化,生成的所述新的特征变量;每个所述第一特征变量对应相同或不同的所述第二特征变量,所述第二特征变量为所述至少一个目标特征变量中的一个;所述至少一个子验证集对应的特征变量中,除所述至少一个第一特征变量之外的其他特征变量的第二单变量拟合曲线均指示针对对应的子验证集所述目标广义线性模型可用;
将所述目标训练集和所述目标验证集中的每个所述第一特征变量分别更新为对应的所述第二特征变量,以更新所述目标训练集和所述目标验证集;
确定每个所述第二特征变量在所述目标训练集中对应的数据,与在所述目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值;
在确定所述至少一个目标PSI值中不存在小于或等于分布阈值的PSI值的情况下,确定每个所述第二特征变量对应的目标beta系数,得到至少一个目标beta系数;
基于每个所述目标beta系数,分别调整所述目标广义线性模型针对对应的所述第二特征变量的beta系数,得到更新后的所述目标广义线性模型;
将更新后的所述目标广义线性模型作为所述目标广义线性模型,返回执行基于所述目标验证集,对所述目标广义线性模型进行评估,得到所述第一模型评估指标和所述目标验证集对应的至少一个第一单变量拟合曲线,直至在根据所述第二模型评估指标和对应的所述第二特征变量的第二单变量拟合曲线,确定针对对应的子验证集所述目标广义线性模型可用。
5.根据权利要求4所述的方法,其特征在于,所述确定每个所述第二特征变量在所述目标训练集中对应的数据,与在所述目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值之后,所述方法还包括:
在确定所述至少一个目标PSI值中存在小于或等于分布阈值的至少一个PSI值的情况下,删除所述目标训练集和所述目标验证集中的所述至少一个PSI值对应的各个所述第二特征变量,将所述目标广义线性模型作为所述初始广义线性模型,返回执行基于所述目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新所述目标广义线性模型,直至在根据所述第二模型评估指标和所述每个子验证集对应的至少一个第二单变量拟合曲线,确定针对对应的子验证集所述目标广义线性模型可用。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据所述第一模型评估指标和所述每个第一单变量拟合曲线确定针对所述目标验证集所述目标广义线性模型可用,包括:
在所述第一模型评估指标大于或等于指标阈值,且所述每个第一单变量拟合曲线满足预设拟合条件的情况下,确定针对所述目标验证集所述目标广义线性模型可用;
其中,在所述目标广义线性模型为分类模型的情况下,所述指标阈值为所述分类模型对应的指标阈值,所述预设拟合条件包括:实际发生率曲线中的目标自变量对应的因变量值,小于或等于预测发生率上限曲线中的所述目标自变量对应的因变量值,且大于或等于预测发生率下限曲线中的所述目标自变量对应的因变量值;所述每个第一单变量拟合曲线包括所述实际发生率曲线、预测发生率曲线、所述预测发生率上限曲线和所述预测发生率下限曲线,所述预测发生率上限曲线中的所述目标自变量对应的因变量为对应的所述预测发生率曲线中的所述目标自变量对应的因变量与第一数值之和;所述预测发生率下限曲线中的所述目标自变量对应的因变量为对应的所述预测发生率曲线中的所述目标自变量对应的因变量与第二数值之差;
其中,在所述目标广义线性模型为回归模型的情况下,所述指标阈值为所述回归模型对应的指标阈值,所述预设拟合条件包括:实际值均值曲线中目标自变量对应的因变量值,与预测值均值曲线中所述目标自变量对应的因变量值的差值的绝对值小于或等于差值阈值;
所述目标自变量为所述每个第一单变量拟合曲线中的任一自变量。
7.一种银行领域的广义线性模型训练装置,其特征在于,包括:
数据处理模块,用于对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集,所述数据包括:交易行为数据以及客户基础信息数据;
模型训练模块,用于基于所述目标训练集,训练初始广义线性模型,得到目标广义线性模型;
模型评估模块,用于基于所述目标验证集,对所述目标广义线性模型进行评估,得到第一模型评估指标和所述目标验证集对应的至少一个第一单变量拟合曲线,每个第一单变量拟合曲线为所述目标验证集的一个特征变量的取值的拟合曲线;
数据处理模块,还用于在根据所述第一模型评估指标和所述每个第一单变量拟合曲线,确定针对所述目标验证集所述目标广义线性模型可用的情况下,按照不同的应用对象对所述目标验证集进行分组,得到多个子验证集;
模型评估模块,还用于基于每个子验证集,对所述目标广义线性模型进行评估,得到所述每个子验证集对应的第二模型评估指标和所述每个子验证集对应的至少一个第二单变量拟合曲线,每个第二单变量拟合曲线为对应的子验证集的一个特征变量的取值的拟合曲线;
模型输出模块,用于在根据所述每个子验证集对应的第二模型评估指标和所述每个子验证集对应的至少一个第二单变量拟合曲线,确定针对所述多个子验证集所述目标广义线性模型均可用的情况下,输出所述目标广义线性模型。
8.一种电子设备,其特征在于,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的银行领域的广义线性模型训练方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的银行领域的广义线性模型训练方法的步骤。
CN202310716362.XA 2023-06-15 2023-06-15 银行领域的广义线性模型训练方法、装置、设备和介质 Active CN116954591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310716362.XA CN116954591B (zh) 2023-06-15 2023-06-15 银行领域的广义线性模型训练方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310716362.XA CN116954591B (zh) 2023-06-15 2023-06-15 银行领域的广义线性模型训练方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN116954591A CN116954591A (zh) 2023-10-27
CN116954591B true CN116954591B (zh) 2024-02-23

Family

ID=88443502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310716362.XA Active CN116954591B (zh) 2023-06-15 2023-06-15 银行领域的广义线性模型训练方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN116954591B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909933A (zh) * 2017-01-18 2017-06-30 南京邮电大学 一种三阶段多视角特征融合的窃电分类预测方法
CN110033312A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 房价预测模型的生成方法、装置、设备及存储介质
CN112308145A (zh) * 2020-10-30 2021-02-02 北京百度网讯科技有限公司 一种分类网络训练方法、分类方法、装置以及电子设备
CN113744865A (zh) * 2021-07-29 2021-12-03 甘肃省人民医院 基于回归分析的压力性损伤风险预测模型校正方法
CN114219611A (zh) * 2021-11-19 2022-03-22 中国建设银行股份有限公司 贷款额度计算方法、装置、计算机设备和存储介质
WO2023066466A1 (en) * 2021-10-19 2023-04-27 Huawei Cloud Computing Technologies Co., Ltd. Linear classification model theft detection

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10754764B2 (en) * 2018-04-22 2020-08-25 Sas Institute Inc. Validation sets for machine learning algorithms

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909933A (zh) * 2017-01-18 2017-06-30 南京邮电大学 一种三阶段多视角特征融合的窃电分类预测方法
CN110033312A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 房价预测模型的生成方法、装置、设备及存储介质
CN112308145A (zh) * 2020-10-30 2021-02-02 北京百度网讯科技有限公司 一种分类网络训练方法、分类方法、装置以及电子设备
CN113744865A (zh) * 2021-07-29 2021-12-03 甘肃省人民医院 基于回归分析的压力性损伤风险预测模型校正方法
WO2023066466A1 (en) * 2021-10-19 2023-04-27 Huawei Cloud Computing Technologies Co., Ltd. Linear classification model theft detection
CN114219611A (zh) * 2021-11-19 2022-03-22 中国建设银行股份有限公司 贷款额度计算方法、装置、计算机设备和存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
An Adaptive SVR for High-Frequency Stock Price Forecasting;Yanhui Guo等;IEEE Access;20180309;第6卷;第11397-11404页 *
On Splitting Training and Validation Set: A Comparative Study of Cross-Validation, Bootstrap and Systematic Sampling for Estimating the Generalization Performance of Supervised Learning;Yun Xu等;Journal of Analysis and Testing;20181029;第2卷;第249-262页 *
Relativistic Electron Flux Prediction at Geosynchronous Orbit Based on the Neural Network and the Quantile Regression Method;Hui Zhang等;Space Weather;20200722;第18卷(第9期);第1-13页 *
临床预测模型:模型的验证;王俊峰 等;中国循证心血管医学杂志;20190220;第11卷(第2期);第141-144页 *
基于机器学习的上市公司财务困境预警研究;单玉璐;中国优秀硕士学位论文全文数据库 经济与管理科学辑;20201015(第10期);J152-220 *
车载答词训考***建模方法研究;郭琪雯;中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑;20210315(第3期);C032-29 *

Also Published As

Publication number Publication date
CN116954591A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
US20200134716A1 (en) Systems and methods for determining credit worthiness of a borrower
US20080235130A1 (en) System and Computer Program for Modeling and Pricing Loan Products
WO2022105525A1 (zh) 预测用户概率的方法、装置和计算机设备
JPWO2015040790A1 (ja) 払出量予測装置、払出量予測方法、プログラム、及び、払出量予測システム
CN110020862A (zh) 一种业务风险评估方法、装置和计算机可读存储介质
CN111160745A (zh) 用户账户数据的处理方法及装置
GB2572734A (en) Data modelling method
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN109583782B (zh) 支持多数据源的汽车金融风控方法
US11636536B2 (en) Systems and methods for automating pricing desk operation
US20220207420A1 (en) Utilizing machine learning models to characterize a relationship between a user and an entity
CN114037518A (zh) 风险预测模型的构建方法、装置、电子设备和存储介质
KR20110114181A (ko) 예측 정확성이 향상된 대출 심사 방법
CN116954591B (zh) 银行领域的广义线性模型训练方法、装置、设备和介质
CN112132639A (zh) 一种数据集的基于机器学习的动态定价方法
US20220164808A1 (en) Machine-learning model for predicting metrics associated with transactions
CN115712775A (zh) 产品推荐方法、装置、计算机设备和存储介质
CN111737319B (zh) 用户集群的预测方法、装置、计算机设备和存储介质
CA3160715A1 (en) Systems and methods for business analytics model scoring and selection
CN116719519B (zh) 银行领域的广义线性模型训练方法、装置、设备和介质
Feng et al. The Application Research of Customer Segmentation Model in Bank Financial Marketing
CN116204888B (zh) 一种基于隐私计算的数据源融合评估方法及***
Lorenz Method of selecting borrowers’ features for credit risk assessment
US20210304304A1 (en) Techniques for improving the accuracy of automated predications
CN114462541A (zh) 数据处理方法、装置、存储介质和处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant