CN116719519B - 银行领域的广义线性模型训练方法、装置、设备和介质 - Google Patents

银行领域的广义线性模型训练方法、装置、设备和介质 Download PDF

Info

Publication number
CN116719519B
CN116719519B CN202310714236.0A CN202310714236A CN116719519B CN 116719519 B CN116719519 B CN 116719519B CN 202310714236 A CN202310714236 A CN 202310714236A CN 116719519 B CN116719519 B CN 116719519B
Authority
CN
China
Prior art keywords
target
component
generalized linear
linear model
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310714236.0A
Other languages
English (en)
Other versions
CN116719519A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Original Assignee
Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyun Rongchuang Data Science & Technology Beijing Co ltd filed Critical Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Priority to CN202310714236.0A priority Critical patent/CN116719519B/zh
Publication of CN116719519A publication Critical patent/CN116719519A/zh
Application granted granted Critical
Publication of CN116719519B publication Critical patent/CN116719519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/36Software reuse
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/38Creation or generation of source code for implementing user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种银行领域的广义线性模型训练方法、装置、设备和介质,该方法包括:显示交互式图形界面;响应于用户将功能组件栏中的多个目标功能组件添加至画布的输入,以及在组件配置栏对多个目标功能组件中的每个目标功能组件的配置参数的设置输入,显示由多个目标功能组件构建的目标广义线性模型训练流程;响应于基于目标原始数据执行目标广义线性模型训练流程的输入,通过第一数据读取组件、目标数据处理组件集合、机器学习训练组件、模型变换评估组件、数据写出组件、第二数据读取组件、系数变化分析组件训练目标广义线性模型,直至在第一模型评估指标大于或等于指标阈值的情况下,输出目标广义线性模型。

Description

银行领域的广义线性模型训练方法、装置、设备和介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种银行领域的广义线性模型训练方法、装置、电子设备和存储介质。
背景技术
目前,机器学习时代的极速发展使得人类社会迎来了一次巨大且深刻的变革。大型计算集群通过数以万计的迭代使得模型的拟合结果越来越close。这一过程也不断催生了相关领域研究人员对现象(拟合结果)与本质(特征维度)的深入挖掘。而非线性模型对于结论和题设的因明分析总是显得有些牵强,不足以透过现象窥其本质,相关人员在分析时不免踌躇不决。鉴于此,我们不得不将目光再次聚焦于古典统计学模型–广义线性模型(GLM)。GLM以其固有的可解释性原理使其在工业应用中占有一席之地且经久不衰,更是探究模型结果与特征维度之间联系的坚实利器,进一步为一些金融行业的特殊需求提供强有力的理论依据。
然而,目前要训练用于数据分析的广义线性模型,需要使用编程语言实现复杂的计算过程,模型的训练效率较低。
发明内容
本申请提供了一种银行领域的广义线性模型训练方法、装置、电子设备和存储介质,能够提高模型训练效率。
第一方面,本申请提供了一种银行领域的广义线性模型训练方法,包括:显示交互式图形界面,交互式图形界面中包括功能组件栏、画布、组件配置栏;功能组件栏包括用于构建广义线性模型训练流程的各种功能组件,画布用于构建广义线性模型训练流程,组件配置栏用于配置构建的广义线性模型训练流程中每个功能组件的运行参数;响应于用户将功能组件栏中的多个目标功能组件添加至画布的输入,以及在组件配置栏对多个目标功能组件中的每个目标功能组件的配置参数的设置输入,显示由多个目标功能组件构建的目标广义线性模型训练流程;多个目标功能组件包括第一数据读取组件、目标数据处理组件集合、机器学习训练组件、模型变换评估组件、数据写出组件、第二数据读取组件、系数变化分析组件;目标数据处理组件集合包括数据列过滤组件;响应于基于目标原始数据执行目标广义线性模型训练流程的输入,通过第一数据读取组件读取目标原始数据;通过目标数据处理组件集合对目标原始数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集;通过机器学习训练组件基于目标训练集,训练机器学习训练组件对应的初始广义线性模型,得到目标广义线性模型;通过数据写出组件从机器学习训练组件获取目标广义线性模型对应的每个特征变量的标准化系数并保存;通过模型变换评估组件基于目标验证集,对目标广义线性模型进行评估,得到目标验证集对应的第一模型评估指标;在第一模型评估指标小于指标阈值的情况下,将目标广义线性模型作为初始广义线性模型,返回通过机器学习训练组件调节初始广义线性模型的超参数,继续通过机器学习训练组件训练初始广义线性模型,更新目标广义线性模型,通过数据写出组件从机器学习训练组件,获取更新后的目标广义线性模型对应的每个特征变量的标准化系数并保存;通过第二数据读取组件读取数据写出组件保存的每个特征变量对应的前后两次标准化系数;在通过系数变化分析组件分析每个特征变量对应的前后两次标准化系数,并确定待删除特征变量对应的一次标准化系数不在对应的系数范围内或待删除特征变量对应的前后两次标准化系数的变化量不在对应的变化范围内的情况下,通过数据列过滤组件分别删除目标训练集和目标验证集中的待删除特征变量,得到更新后的目标训练集和目标验证集;将目标广义线性模型作为初始广义线性模型,返回通过机器学习训练组件训练初始广义线性模型,更新目标广义线性模型,直至在第一模型评估指标大于或等于指标阈值的情况下,输出目标广义线性模型。
第二方面,本申请提供了一种银行领域的广义线性模型训练装置,包括:显示模块,用于显示交互式图形界面,交互式图形界面中包括功能组件栏、画布、组件配置栏;功能组件栏包括用于构建广义线性模型训练流程的各种功能组件,画布用于构建广义线性模型训练流程,组件配置栏用于配置构建的广义线性模型训练流程中每个功能组件的运行参数;显示模块,还用于响应于用户将功能组件栏中的多个目标功能组件添加至画布的输入,以及在组件配置栏对多个目标功能组件中的每个目标功能组件的配置参数的设置输入,显示由多个目标功能组件构建的目标广义线性模型训练流程;多个目标功能组件包括第一数据读取组件、目标数据处理组件集合、机器学习训练组件、模型变换评估组件、数据写出组件、第二数据读取组件、系数变化分析组件;目标数据处理组件集合包括数据列过滤组件;数据读取模块,用于响应于基于目标原始数据执行目标广义线性模型训练流程的输入,通过第一数据读取组件读取目标原始数据;数据处理模块,用于通过目标数据处理组件集合对目标原始数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集;模型训练模块,用于通过机器学习训练组件基于目标训练集,训练机器学习训练组件对应的初始广义线性模型,得到目标广义线性模型;数据写出模块,用于通过数据写出组件从机器学习训练组件获取目标广义线性模型对应的每个特征变量的标准化系数并保存;变换评估模块,用于通过模型变换评估组件基于目标验证集,对目标广义线性模型进行评估,得到目标验证集对应的第一模型评估指标;参数调节模块,用于在第一模型评估指标小于指标阈值的情况下,将目标广义线性模型作为初始广义线性模型,返回通过机器学习训练组件调节初始广义线性模型的超参数;模型训练模块,还用于继续通过机器学习训练组件训练初始广义线性模型,更新目标广义线性模型;数据写出模块,还用于通过数据写出组件从机器学习训练组件,获取更新后的目标广义线性模型对应的每个特征变量的标准化系数并保存;数据读取模块,还用于通过第二数据读取组件读取数据写出组件保存的每个特征变量对应的前后两次标准化系数;数据删除模块,用于在通过系数变化分析组件分析每个特征变量对应的前后两次标准化系数,并确定待删除特征变量对应的一次标准化系数不在对应的系数范围内或待删除特征变量对应的前后两次标准化系数的变化量不在对应的变化范围内的情况下,通过数据列过滤组件分别删除目标训练集和目标验证集中的待删除特征变量,得到更新后的目标训练集和目标验证集;模型训练模块,还用于将目标广义线性模型作为初始广义线性模型,返回通过机器学习训练组件训练初始广义线性模型,更新目标广义线性模型;模型输出模块,用于在第一模型评估指标大于或等于指标阈值的情况下,输出目标广义线性模型。
第三方面,本申请提供了一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现第一方面提供的任一种银行领域的广义线性模型训练方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的任一种银行领域的广义线性模型训练方法的步骤。
本申请实施例的第五方面,提供一种计算机程序产品,其中,该计算机程序产品包括计算机程序或指令,当该计算机程序产品在处理器上运行时,使得处理器执行该计算机程序或指令,实现如第一方面所述的银行领域的广义线性模型训练方法的步骤。
本申请实施例的第六方面,提供了一种芯片,该芯片包括处理器、存储器和通信接口,该通信接口和该处理器耦合,该存储器用于存储可在该处理器上运行的程序或指令,该处理器用于执行该程序或指令,实现如第一方面所述的银行领域的广义线性模型训练方法的步骤。
本申请实施例提供的技术方案与现有技术相比具有如下优点:本申请实施例中,采用友好且实用性极强的交互式图形界面,在交互式图形界面中集成了广义线性建模过程中常用的数据读取、数据处理、广义线性算法及模型分析等功能组件,如此,当需要训练用于数据分析的广义线性模型时,无需使用编程语言实现复杂的计算过程,只需要选择对应的功能组件并设置运行参数就可以得出结果,降低了数据建模人员编程能力的要求门槛,提高了机器学习建模分析的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种银行领域的广义线性模型训练方法的流程示意图;
图2为本申请提供的一种显示交互式图形界面的示意图;
图3为本申请提供的另一种银行领域的广义线性模型训练方法的流程示意图;
图4为本申请提供的一种训练集和验证集的时间段划分示意图;
图5为本申请提供的一种单变量拟合曲线的示意图;
图6为本申请提供的另一种单变量拟合曲线的示意图;
图7为本申请提供的又一种单变量拟合曲线的示意图;
图8为本申请提供的又一种单变量拟合曲线的示意图;
图9为本申请提供的又一种单变量拟合曲线的示意图;
图10为本申请提供的又一种单变量拟合曲线的示意图;
图11为本申请提供的又一种单变量拟合曲线的示意图;
图12为本申请提供的又一种单变量拟合曲线的示意图;
图13为本申请提供的再一种单变量拟合曲线的示意图;
图14为本申请提供的再一种单变量拟合曲线的示意图;
图15为本申请提供的再一种单变量拟合曲线的示意图;
图16为本申请提供的再一种单变量拟合曲线的示意图;
图17为本申请提供的一种银行领域的广义线性模型训练装置的结构示意图;
图18为本申请提供的一种电子设备的硬件结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面将对本申请的方案进行进一步描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但本申请还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本申请的一部分实施例,而不是全部的实施例。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
目前要训练用于数据分析的广义线性模型,需要使用编程语言实现复杂的计算过程,模型的训练效率较低。
本申请实施例中,采用友好且实用性极强的交互式图形界面,在交互式图形界面中集成了广义线性建模过程中常用的数据读取、数据处理、广义线性算法及模型分析等功能组件,如此,当需要训练用于数据分析的广义线性模型时,无需使用编程语言实现复杂的计算过程,只需要选择对应的功能组件并设置运行参数就可以得出结果,降低了数据建模人员编程能力的要求门槛,提高了机器学习建模分析的效率。
本申请应用于同一业务场景但应用对象不同的业务场景中,本申请实施例中的电子设备可以为平板电脑、笔记本电脑、掌上电脑等,具体可以根据实际情况确定,此处不做限定。
以下通过几个具体的实施例,对本申请的技术方案进行详细的解释说明。
图1为本申请提供的一种银行领域的广义线性模型训练方法的流程示意图,如图1所示,该银行领域的广义线性模型训练方法可以包括下述的步骤101至步骤112。
101、显示交互式图形界面。
其中,交互式图形界面中包括功能组件栏、画布、组件配置栏;功能组件栏包括用于构建广义线性模型训练流程的各种功能组件,画布用于构建广义线性模型训练流程,组件配置栏用于配置构建的广义线性模型训练流程中每个功能组件的运行参数。
其中,功能组件栏提供了广义线性模型训练流程中涉及的数据读取转换及计算组件,用户可以根据实际的需求选择相应的功能组件来构建广义线性模型训练流程。画布用于设置需要使用的功能组件以及处理流程。画布可以提供页面缩放以及将当前流程保存为图片的功能,使用户能清晰直观地了广义线性模型训练流程。组件配置栏用于配置用户选择构建广义线性模型训练流程的每个功能组件的运行参数。
示例性的,上述功能组件包括但不限于:数据读取组件、数据处理组件(包括数据清洗组件、数据集成、特征变换组件等)、机器学习组件、模型分析组件等。
102、响应于用户将功能组件栏中的多个目标功能组件添加至画布的输入,以及在组件配置栏对多个目标功能组件中的每个目标功能组件的配置参数的设置输入,显示由多个目标功能组件构建的目标广义线性模型训练流程。
其中,多个目标功能组件包括第一数据读取组件、目标数据处理组件集合、机器学习训练组件、模型变换评估组件、数据写出组件、第二数据读取组件、系数变化分析组件;目标数据处理组件集合包括数据列过滤组件。
其中,响应于用户针对功能组件栏中的每个目标功能组件的选择输入(可以是拖拽输入或者双击输入等),将每个目标功能组件显示在画布中,响应于用户针对每个目标功能组件的参数配置输入以及连接输入,确定每个目标功能组件的配置参数以及不同的目标功能组件之间的连接关系,从而得到了由多个目标功能组件构建的目标广义线性模型训练流程。
用户可以根据需求选择用于构建广义线性模型训练流程的相应的多个功能组件,并对每个功能组件进行配置和连接。示例性地。用户可以通过拖拽输入将功能组件栏中的功能组件拖拽至画布上来使用组件,通过连接不同功能组件的输入输出来设置广义线性模型训练流程,通过在组件配置栏输入数据或者参数选项来配置对应的功能组件。其中各功能组件的配置项用于自定义该功能组件的运行参数,数据处理流程由各个功能组件间的数据流通方向决定。
103、响应于基于目标原始数据执行目标广义线性模型训练流程的输入,通过第一数据读取组件读取目标原始数据。
其中,第一数据读取组件可以为读Dataframe组件,用于读取训练广义线性模型所需的目标原始数据。示例性地,可以根据目标原始数据是由几个数据集组成的,确定第一数据读取组件包括的数据读取组件的数量。示例性地,目标原始数据包括交易行为数据和客户基础信息数据,因此第一数据读取组件包括两个数据读取组件,两个数据读取组件分别读取交易行为数据和客户基础信息数据。
104、通过目标数据处理组件集合对目标原始数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集。
目标数据处理组件集合用于对读取的目标原始数据进行处理,目标数据处理组件集合包括多个数据处理组件,可以包括但不限于:数据关联组件,异常值处理组件、缺失值处理组件等数据处理操作组件,特征编码组件、数据离散化组件和标准化组件等特征变换操作组件,特征选择组件和特征衍生组件等特征工程操作组件;利用目标数据处理组件集合将读入的目标原始数据进行数据清洗、特征变换及衍生等数据操作,形成目标训练集和目标验证集。
示例性地,利用数据拆分组件与读取交易行为数据的数据读取组件进行连接,配置参数按时间为观察期数据和表现期数据;按需求拖拽其他数据处理组件与数据拆分组件中观察期数据输出端进行连接,形成客户维度的特征变量。利用聚合组件与数据拆分组件中表现期数据输出端进行连接,汇总客户维度的逾期次数;利用二值化组件连接聚合组件,当客户逾期次数大于等于5次时定义为违约客户,标记为1,其他标记为0,形成客户维度的标签变量;利用数据关联组件分别连接客户特征变量和客户标签变量,形成训练集;同理计算获得目标验证集。
105、通过机器学习训练组件基于目标训练集,训练机器学习训练组件对应的初始广义线性模型,得到目标广义线性模型。
其中,机器学习训练组件可以包括广义线性模型组件和拟合组件,用于对训练集进行模型构建,利用广义线性模型组件和拟合组件对数据处理后的训练集进行广义线性模型拟合构建。其中,广义线性模型组件可以包括线性回归模型组件、逻辑回归模型组件等广义线性模型组件。
106、通过数据写出组件从机器学习训练组件获取目标广义线性模型对应的每个特征变量的标准化系数并保存。
107、通过模型变换评估组件基于目标验证集,对目标广义线性模型进行评估,得到目标验证集对应的第一模型评估指标。
其中,模型变换评估组件包括模型变换组件和模型评估组件,对目标验证集进行模型效果验证,具体地利用模型变换组件对目标验证集进行预测,利用模型评估组件对目标验证集进行模型效果评估。其中,模型评估组件包括分类评估组件、回归评估组件等模型评估组件。
108、在第一模型评估指标小于指标阈值的情况下,将目标广义线性模型作为初始广义线性模型,返回通过机器学习训练组件调节初始广义线性模型的超参数,继续通过机器学习训练组件训练初始广义线性模型,更新目标广义线性模型。
其中,指标阈值可以根据实际情况确定,此处不做限定。例如,指标阈值为AUC阈值,AUC阈值为0.8。第一模型评估指标小于指标阈值即表示第一模型评估指标指示目标广义线性模型不可用。
示例性地,当AUC值大于或等于0.8指示目标广义线性模型可用,可以输出目标广义线性模型,或者,也可以进行单变量分析。
可以理解,将目标广义线性模型作为初始广义线性模型,继续通过机器学习训练组件训练初始广义线性模型,更新目标广义线性模型,即机器学习训练组件还用于对前一次训练得到的目标广义线性模型的优化训练;机器学习训练组件还用于调节广义线性模型(包括训练之前的初始广义线性模型和训练之后的目标广义线性模型)的超参数;具体参见上述步骤108。
示例性地,广义线性模型组件为逻辑回归模型组件,模型评估组件为AUC组件。通过拟合组件连接逻辑回归模型组件和输出训练集的组件,运行拟合组件即可实现逻辑回归模型训练,利用数据写出组件与拟合组件的系数输出端进行连接,保存广义线性模型的每个特征变量的标准化系数。利用模型变换组件与逻辑回归模型组件的输出和输出目标验证集的组件进行连接,运行模型变换组件即可实现目标验证集的预测,通过AUC组件与模型变换组件的数据端口进行连接,验证模型效果;若模型效果不可行(指示模型不可用),在逻辑回归模型组件中进行模型超参数调整,直至模型验证效果可行,或前后两次目标验证集AUC值的变动大于或等于变化量阈值,在逻辑回归模型组件中进行模型超参数调整,直至模型验证效果可行或者前后两次目标验证集AUC值的变动小于变化量阈值,进行下一步优化(如下述的通过单变量拟合曲线分析如何优化)。
109、通过数据写出组件从机器学习训练组件,获取更新后的目标广义线性模型对应的每个特征变量的标准化系数并保存。
110、通过第二数据读取组件读取数据写出组件保存的每个特征变量对应的前后两次标准化系数。
111、在通过系数变化分析组件分析每个特征变量对应的前后两次标准化系数,并确定待删除特征变量对应的一次标准化系数不在对应的系数范围内或待删除特征变量对应的前后两次标准化系数的变化量不在对应的变化范围内的情况下,通过数据列过滤组件分别删除目标训练集和目标验证集中的待删除特征变量,得到更新后的目标训练集和目标验证集。
其中,系数范围、变化范围具体可以根据实际情况确定,此处不做限定。如此,待删除特征变量为模型训练过程中的不稳定特征变量,通过数据写出组件、系数变化分析组件;目标数据处理组件集合包括数据列过滤组件等可以快速删除模型训练过程中的不稳定变量,以提高模型的训练效率。
112、将目标广义线性模型作为初始广义线性模型,返回通过机器学习训练组件训练初始广义线性模型,更新目标广义线性模型,直至在第一模型评估指标大于或等于指标阈值的情况下,输出目标广义线性模型。
可以理解,将目标广义线性模型作为初始广义线性模型,返回通过机器学习训练组件训练初始广义线性模型,更新目标广义线性模型,即机器学习训练组件还用于对前一次训练得到的目标广义线性模型的优化训练;具体参见上述步骤112。
系数变化分析组件用于进行前后两次模型训练(可以是连续的两次模型训练,也可以是不连续的两次模型训练)后的模型标准化系数(记为前后两次标准化系数)的变化分析。
其中,通过第二数据读取组件,将数据写出组件前后两次保存的模型标准化系数读入;系数变化分析组件的输入连接第二数据读取组件的输出,系数变化分析组件配置系数变化范围,将特征变量对应的标准化系数变化超过指定系数变化范围时,将该特征变量确定为待删除的特征变量。具体地,在通过系数变化分析组件分析每个特征变量对应的前后两次标准化系数,并确定待删除特征变量对应的一次标准化系数不在对应的系数范围内或待删除特征变量对应的前后两次标准化系数的变化量不在对应的变化范围内的情况下,通过数据列过滤组件分别删除目标训练集和目标验证集中的待删除特征变量,得到更新后的目标训练集和目标验证集。
示例性地,如图2所示,为一种交互式图形界面的示意图,其中左边区域为功能组件栏,中间区域为画布,右边区域为组件配置栏。其中,当前画布中展示了一种目标广义线性模型训练流程的示意图,在目标广义线性模型训练流程中,第一数据读取组件的输出连接目标数据处理组件集合的原始数据输入,目标数据处理组件集合的训练集输出连接机器学习训练组件的训练集输入,机器学习训练组件的系数输出连接数据写出组件的输入,第二数据读取组件从数据写出组件读取数据,第二数据读取组件的输出连接系数变化分析组件的输入,通过交互式图形界面展示系数变化分析组件的结果,然后返回目标数据处理组件集合中的数据列过滤组件,通过数据列过滤组件分别删除目标训练集和目标验证集中的待删除特征变量;机器学习训练组件的模型输出连接模型变换组件的模型输入,目标数据处理组件集合的验证集输出连接模型变换组件的验证集输入,模型变换组件的输出连接模型评估组件的输入,然后根据模型评估组件的输出,确定是返回目标数据处理组件集合进行数据优化,还是返回机器学习训练组件进行超参数优化。
需要说明的是,图2中虚线用于示意模型训练过程中的数据流向或者训练流程的流向。
本申请实施例中,交互式图形界面内置集成了广义线性建模过程中常用的数据读取、数据处理、模型训练、模型评估及模型分析等功能组件,使用者无需使用编程语言实现复杂的计算过程,只需要选择需要的功能组件并设置运行参数就可以训练得到需要的广义线性模型。本申请实施例中提供的功能组件类型丰富,使用者可以根据自身的需求选择对应的功能组件,提高了机器学习建模分析的效率。本申请实施例中,采用友好且实用性极强的交互式图形界面,将复杂的数据处理、模型构建训练流程呈现为容易理解、容易使用、可视化的工具箱,使用者使用***装置提供的功能组件来实现广义线性建模过程,降低了数据建模人员编程能力的要求门槛。
本申请实施例中,可以基于分布式文件***构建交互式图形界面,分布式文件***执行效率更高,可有效处理超大规模数据集,具有稳定性高、可扩展性强等优点。
本申请一些实施例中,在第一模型评估指标相对于上一次的第一模型评估指标的变化量大于变化量阈值的情况下,将目标广义线性模型作为初始广义线性模型,返回通过机器学习训练组件调整初始广义线性模型的超参数,并通过机器学习训练组件继续训练目标广义线性模型,以优化目标广义线性模型,提高目标广义线性模型的第一模型评估指标,可以重复执行上述过程,直至第一模型评估指标大于或等于指标阈值(指示目标广义线性模型可用)或第一模型评估指标相对于上一次的第一模型评估指标的变化量小于或等于变化量阈值(指示目标广义线性模型不可用,但通过调整模型超参数的方法优化目标广义线性模型已达到极限,继续通过调整模型超参数的方法优化目标广义线性模型,效果较差)。
本申请一些实施例中,在第一模型评估指标相对于上一次的第一模型评估指标的变化量小于或等于变化量阈值的情况下,可以通过变量分析组件对模型变换评估组件输出的目标验证集对应的预测结果进行分析,得到每个特征变量的分析结果,然后通过单变量拟合绘制组件,对每个特征变量的分析结果进行绘制,得到每个特征变量对应的单变量拟合曲线,然后根据每个特征变量对应的单变量拟合曲线对目标广义线性模型进行进一步优化,以使第一模型评估指标(第一模型评估指标大于或等于指标阈值)、和每个单变量拟合曲线均指示目标广义线性模型可用。
其中,变化量阈值可以根据实际情况确定,此处不做限定。例如,变化量阈值为变化量占比,例如变化量阈值为5%。
示例性地,当AUC值小于0.8,且AUC值相比上一次的AUC值的提升程度大于0.5%时,将目标广义线性模型作为初始广义线性模型,调整初始广义线性模型的超参数,以优化目标广义线性模型,提高目标广义线性模型的AUC值,直至AUC值大于或等于0.8,或者AUC值小于0.8且AUC值相比上一次的AUC值的提升程度小于或等于0.5%,进入单变量分析。
本申请一些实施例中,上述根据每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用,包括:在每个特征变量对应的单变量拟合曲线满足预设拟合条件的情况下,根据每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用;其中,在目标广义线性模型为分类模型的情况下,预设拟合条件包括:实际发生率曲线中的目标自变量对应的因变量值,小于或等于预测发生率上限曲线中的目标自变量对应的因变量值,且大于或等于预测发生率下限曲线中的目标自变量对应的因变量值;每个特征变量对应的单变量拟合曲线包括实际发生率曲线、预测发生率曲线、预测发生率上限曲线和预测发生率下限曲线,预测发生率上限曲线中的目标自变量对应的因变量为对应的预测发生率曲线中的目标自变量对应的因变量与第一数值之和;预测发生率下限曲线中的目标自变量对应的因变量为对应的预测发生率曲线中的目标自变量对应的因变量与第二数值之差(其中,第二数值与第一数值可以相同,也可以不相同,第二数值和第一数据均为正数)。
其中,在目标广义线性模型为回归模型的情况下,预设拟合条件包括:实际值均值曲线中目标自变量对应的因变量值,与预测值均值曲线中目标自变量对应的因变量值的差值的绝对值小于或等于差值阈值(差值阈值可以根据实际情况确定,此处不做限定);该目标自变量为该每个第二单变量拟合曲线中的任一自变量;目标自变量为每个特征变量对应的单变量拟合曲线中的任一自变量。
可以理解,单变量拟合效果判断原则为:分类模型时预测发生率曲线在预测发生率上限曲线和预测发生率下限曲线范围内则可行,回归模型实际值均值曲线和预测值均值曲线越接近越好。本申请实施例中,可以***可以自动判断单变量拟合效果,也可以显示单变量拟合曲线(还可以同时显示单变量拟合效果判断原则),然后用户根据单变量拟合曲线进行人工判断,***根据人工判断结果确定单变量拟合效果,具体可以根据实际情况确定,此处不做限定。
本申请实施例中,通过上述预设拟合条件的设置,可以达到根据每个特征变量的单变量拟合曲线,快速确定该目标广义线性模型是否可用,可以提高模型训练效率。
本申请一些实施例中,多个目标功能组件还包括:单变量分析组件和单变量拟合绘制组件;在上述步骤112中的在第一模型评估指标大于或等于指标阈值的情况下,输出目标广义线性模型之前,本申请实施例提供的银行领域的广义线性模型训练方法还可以包括下述的步骤301至步骤303,上述步骤112中的在第一模型评估指标大于或等于指标阈值的情况下,输出目标广义线性模型具体可以通过下述步骤303实现。
301、在第一模型评估指标大于或等于指标阈值,或者,第一模型评估指标小于指标阈值且第一模型评估指标相对于上一次的第一模型评估指标的变化量小于或等于变化量阈值的情况下,通过单变量分析组件对模型变换评估组件输出的目标验证集对应的预测结果进行分析,得到每个特征变量的分析结果。
302、通过单变量拟合绘制组件,对每个特征变量的分析结果进行绘制,得到每个特征变量对应的单变量拟合曲线。
303、在第一模型评估指标大于或等于指标阈值,且根据每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用的情况下,输出目标广义线性模型。
示例性地,如图2所示,单变量分析组件的输入连接模型变换组件的输出,单变量拟合绘制组件(即python notebook组件)的输入连接单变量分析组件的输出,通过交互式图形界面展示单变量拟合绘制组件的结果,然后返回目标数据处理组件集合根据单变量拟合绘制组件的结果,对特征变量进行数据优化。
本申请实施例中,在第一模型评估指标大于或等于指标阈值的情况下,在结合每个特征变量对应的单变量拟合曲线确定目标广义线性模型可用,使得输出的目标广义线性模型不仅在模型整体拟合效果可行,而且针对每个特征变量的拟合效果均可行,从而使得目标广义线性模型能够更好地反映模型结果与特征维度之间的联系,使得目标广义线性模型的预测效果更好。
本申请一些实施例中,在上述步骤302之后,还可以包括下述步骤304。
304、循环迭代执行下述步骤S1,直至在根据每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用的情况下,输出目标广义线性模型。
其中,步骤S1包括下述S11至S13。
S11、在每个特征变量对应的单变量拟合曲线指示目标广义线性模型不可用的情况下,确定至少一个目标特征变量中的待优化特征变量。
其中,每个目标特征变量为至少一个特征变量中,单变量拟合曲线指示目标广义线性模型不可用的特征变量。
S12、返回通过目标数据处理组件集合对待优化特征变量进行优化,生成新的特征变量,以更新目标训练集和目标验证集。
目标数据处理组件集合还用于对模型优化过程中的目标训练集和目标验证集中的特征变量进行优化处理,生成新的特征变量,如上述步骤S12。
可以理解,新的特征变量为将该待优化特征变量和其他特征变量进行交叉组合处理得到的,也可以是对该待优化特征变量进行分段处理或多项式处理得到的。通过使用新的特征变量更新该目标训练集和该目标验证集,即将目标训练集和目标验证集中的待优化特征变量替换为新的特征变量,而其他特征变量不变。
其中,新的特征变量可以为一个特征变量或为多个特征变量。当新的特征变量为多个特征变量时,新的特征变量可以包括对应的待优化特征变量,也可以不包括对应的待优化特征变量,此处不做限定。
S13、将目标广义线性模型作为初始广义线性模型,返回执行通过机器学习训练组件基于目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新目标广义线性模型,直至通过单变量拟合绘制组件得到每个特征变量对应的单变量拟合曲线。
可以理解,循环执行步骤S1在这里指的是每一次执行步骤S1优化一个目标特征变量(即待优化特征变量),若是在待优化特征变量中新增特征并对目标广义线性模型进行优化后,全部特征变量全部特征拟合好了,则无需继续优化,结束优化,输出目标广义线性模型;若是在待优化特征变量中新增特征并对目标广义线性模型进行优化后,全部特征变量中的部分特征变量拟合好了(好的影响),那就不用再继续优化已拟合好的该部分特征变量了,然后再优化该待优化特征变量的基础上继续优化下一个目标特征变量(确定下一个待优化特征变量),直至全部特征变量拟合好;若是在该待优化特征变量中新增特征并对目标广义线性模型进行优化后,该待优化特征变量都没有拟合好,那么删除该待优化特征变量中的新增特征,然后再优化下一个目标特征变量(即下一个待优化特征变量);若是在该待优化特征变量中新增特征并对目标广义线性模型进行优化后,该待优化特征变量拟合好了,但是对别的特征变量产生了不好的影响,如果影响是微弱的(人工判断),一般不需要再优化,如果影响是严重的(人工判断),可以对受影响的特征变量(下一个待优化特征变量)进行优化,若优化效果不好可删除包括新增特征的该待优化特征变量,因其他特征变量包含了该待优化特征变量的一定信息,删除该待优化特征变量后一般不会有影响。
本申请实施例中,针对一个待优化特征变量,执行上述步骤S1之后,若根据该每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用,则结束模型优化,输出目标广义线性模型,若根据该每个特征变量对应的单变量拟合曲线,确定该目标广义线性模型仍不可用,则针对下一个待优化特征变量,执行上述步骤S1,如此针对多个待优化特征变量,迭代执行上述步骤S1,直至根据该每个特征变量对应的单变量拟合曲线,确定该目标广义线性模型可用,则结束模型优化,输出目标广义线性模型。
本申请实施例中,通过循环迭代执行下述步骤S1,直至在根据该每个特征变量对应的单变量拟合曲线,确定目标广义线性模型均可用的情况下,输出该目标广义线性模型。通过单变量拟合分析的方法观察模型效果,并通过优化拟合单变量实现模型的优化;将单变量分析等以功能组件的形式用于模型分析,提升了广义线性模型优化的效率。
本申请实施例中,单变量分析组件用于进行模型的特征变量的单变量分析。python notebook组件用于绘制单变量拟合曲线。单变量分析组件与输出验证集预测结果的模型变换组件连接,进行单变量分析计算,然后将python notebook组件的输入与单变量分析组件的输出连接,通过python notebook组件绘制单变量拟合曲线,然后根据单变量拟合曲线确定特征变量的优化方向,确定待优化的特征变量。然后通过目标数据处理组件集合对待优化特征变量进行优化,从而实现模型优化。
本申请一些实施例中,待优化特征变量为至少一个目标特征变量中重要程度最大的特征变量。
其中,特征变量的重要程度可以根据广义线性模型对应的模型标准化系数确定,具体可以根据实际情况确定,此处不做限定。
本申请实施例中,优先处理重要程度排名靠前的特征变量,可以快速提高目标广义线性模型的模型效果。
本申请一些实施例中,多个目标功能组件还包括:PSI组件和变换修正组件;在上述步骤304之后,本申请实施例提供的银行领域的广义线性模型训练方法还可以包括下述的步骤305至步骤309。
305、在循环迭代执行步骤S1之后,根据通过单变量拟合绘制组件得到的每个特征变量对应的单变量拟合曲线,确定至少一个第一特征变量的单变量拟合曲线指示目标广义线性模型不可用。
其中,每个第一特征变量是通过至少一次执行步骤S1将第二特征变量进行优化,生成的新的特征变量;每个第一特征变量对应相同或不同的第二特征变量,第二特征变量为至少一个目标特征变量中的一个;每个特征变量中,除至少一个第一特征变量之外的其他特征变量的单变量拟合曲线均指示目标广义线性模型可用。
可以理解,每个第一特征变量是通过一次或多次执行上述步骤S1将第二特征变量进行优化,生成的该新的特征变量。
示例性地,以一个第一特征变量是通过一次执行上述步骤S1将对应的第二特征变量进行优化,生成的该新的特征变量为例,在某次执行上述步骤S1的过程中,将至少一个目标特征变量中的一个第二特征变量作为待优化特征变量,和其他特征变量进行交叉组合处理,生成该一个第一特征变量。
示例性地,以一个第一特征变量是通过两次执行上述步骤S1将对应的第二特征变量进行优化,生成的该新的特征变量为例,在某次执行上述步骤S1的过程中,将至少一个目标特征变量中的一个第二特征变量作为待优化特征变量,和其他特征变量进行交叉组合处理,生成中间特征变量;在另一次执行上述步骤S1的过程中,将中间特征变量作为待优化特征变量,和其他特征变量进行交叉组合处理,生成该一个第一特征变量。
本申请一些实施例中,通过至少一次执行上述步骤S1将一个第二特征变量进行优化,可以生成一个或多个第一特征变量,即第二特征变量对应的新的特征变量包括一个或多个第一特征变量,因此,当第二特征变量对应一个第一特征变量时,该一个第一特征变量和对应的第二特征变量一一对应;当第二特征变量对应多个第一特征变量时,该多个第一特征变量对应同一个第二特征变量,具体可以根据实际情况确定,此处不做限定。
本申请一些实施例中,当多个第一特征变量对应同一个第二特征变量时,该多个第一特征变量可以与该一个第二特征变量均不同,该多个第一特征变量中也可以有一个第一特征变量第二特征变量相同,具体可以根据实际情况确定。
306、返回通过目标数据处理组件集合,将目标训练集和目标验证集中的每个第一特征变量分别更新为对应的第二特征变量,以更新目标训练集和目标验证集。
其中,目标数据处理组件集合还用于对模型优化过程中的目标训练集和目标验证集中的特征变量进行优化之后,再回退回优化之前的特征变量,如上述步骤306。
本申请一些实施例中,当多个第一特征变量对应同一个第二特征变量时,该一个第二特征变量对应的多个第一特征变量是一组第一特征变量,当执行上述步骤S22时,是将该一组第一特征变量整体替换为对应的第二特征变量。
307、通过PSI组件确定每个第二特征变量在目标训练集中对应的数据,与在目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值。
其中,该目标PSI值用于指示第二特征变量在该目标训练集中的分布,与第二特征变量在该目标验证集中的分布是否一致。若一个目标PSI值大于分布阈值,则确定该一个目标PSI值对应的第二特征变量在该目标训练集中的分布,与在该目标验证集中的分布不一致;若一个目标PSI值小于或等于分布阈值,则确定该一个目标PSI值对应的第二特征变量在该目标训练集中的分布,与在该目标验证集中的分布一致。针对在该目标训练集中的分布与在该目标验证集中分布不一致的一个第二特征变量,需要调整目标广义线性模型针对该一个第二特征变量的beta系数,以使调整后的目标广义线性模型针对验证集的拟合效果更好;针对在该目标训练集中的分布与在该目标验证集中分布一致的一个第二特征变量,需要删除目标训练集和目标验证集中的该一个第二特征变量,进而对目标广义线性模型继续训练,以得到效果更好的目标广义线性模型。
308、在确定至少一个目标PSI值中不存在小于或等于分布阈值的PSI值的情况下,通过变换修正组件分别调整目标广义线性模型针对每个第二特征变量的beta系数,得到更新后的目标广义线性模型。
当基于至少一个目标PSI值确定每个第二特征变量在目标训练集和目标验证集中的分布不一致时,通过公式推到或手动输入的方式调整线性模型的beta系数。
309、将更新后的目标广义线性模型作为目标广义线性模型,返回通过模型变换评估组件执行基于目标验证集,对目标广义线性模型进行评估,得到第一模型评估指标,直至根据通过单变量拟合绘制组件得到的每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用。
PSI组件用于计算目标训练集和目标验证集特征变量的PSI值。通过PSI组件连接目标数据处理组件集合中输出目标训练集和目标验证集的两个数据处理组件,计算目标训练集和目标验证集特征变量的PSI值,然后将变换修正组件与拟合组件连接,修改PSI值大于PSI阈值(例如0.25)的变量的逻辑回归系数,然后与连接输出验证集组件的模型变换组件进行连接,并重新执行python notebook组件,查看单变量拟合曲线,最终使模型更适用于验证集。
示例性地,如图2所示,目标数据处理组件集合的验证集输出和训练集输出分别连接PSI组件的输入,机器学习训练组件的输出连接变换修正组件的一个输入,用户可以根据展示的PSI组件的输出通过变换修正组调整(修改)目标广义线性模型针对每个第二特征变量的beta系数,得到更新后的目标广义线性模型。
本申请实施例中,针对一个待优化特征变量(第二特征变量),循环执行上述步骤S1之后,若针对该一个待优化特征变量(第二特征变量)对应第一特征变量的单变量拟合曲线,确定该目标广义线性模型仍不可用,则可以将第一特征变量回退至循环执行上述步骤S1之前对应的(该至少一个目标特征变量中的)第二特征变量(第一特征变量为第二特征变量和每次执行上述步骤S1得到的至少一个新增变量,删除第一特征变量中的所有新增变量,即得到第二特征变量),然后计算目标训练集和目标验证集两者之间的第二特征变量的PSI值,确认该第二特征变量在两个数据集(目标训练集和目标验证集)中的数据分布是否一致。若两个数据集中的数据分布不一致,则确定第二特征变量对应的目标beta系数,然后基于该目标beta系数,调整该目标广义线性模型针对第二特征变量的beta系数,得到更新后的该目标广义线性模型。也就是说,根据第二目标特征变量对应的单变量拟合曲线中每组实际均值和预测均值的差值,可以通过已知的广义线性模型公式推导出beta系数,或通过人工的方式推导出beta系数。人工的方式为手动调整某一特征变量的beta系数。
本申请实施例中,该一个第二特征变量对应的两个数据集中的数据分布不一致,说明通过训练集训练的模型可能不能有效的预测验证集,因此可通过人工调整或自动调整beta系数使模型更有效的适用于验证集,进而可以使得目标广义线性模型是针对验证集模型效果更好,提升了广义线性模型优化的效率。
本申请一些实施例中,在上述307之后,本申请实施例提供的银行领域的广义线性模型训练方法还可以包括下述的步骤310。
310、在确定至少一个目标PSI值中存在小于或等于分布阈值的至少一个PSI值的情况下,通过目标数据处理组件集合删除目标训练集和目标验证集中的至少一个PSI值对应的各个第二特征变量,将目标广义线性模型作为初始广义线性模型,返回执行基于目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新目标广义线性模型,直至根据通过单变量拟合绘制组件得到的每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用。
其中,目标数据处理组件集合还用于对模型优化过程中的目标训练集和目标验证集中的特征变量进行删除处理,如上述步骤310。
本申请实施例中,在根据目标PSI值确定一个第二特征变量在该目标训练集中的分布,与该一个第二特征变量在该目标验证集中的分布一致的情况下,说明这个第二特征变量在目标广义线性模型里起不到很好的拟合作用,因此删除该目标训练集和该目标验证集中的第二特征变量,将该目标广义线性模型作为该初始广义线性模型,返回执行基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新该目标广义线性模型,直至根据通过单变量拟合绘制组件得到的每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用。进而可以使得目标广义线性模型是针对多应用对象整体和分应用对象模型效果都较好,而且构建的模型数量少,工序简单,花费时间少,模型上线管理简单。
需要说明的是,在上述步骤307之后,若确定至少一个目标PSI值中的部分PSI值小于或等于分布阈值(即部分PSI值对应的第二特征变量,在目标训练集和目标验证集中的数据分布一致),说明该部分PSI值对应的第二特征变量在目标广义线性模型里起不到很好的拟合作用,因此删除该目标训练集和该目标验证集中的该部分PSI值对应的第二特征变量,将该目标广义线性模型作为该初始广义线性模型,返回执行基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新该目标广义线性模型;然后再调整目标广义线性模型中该至少一个目标PSI值中除部分PSI值之外的另一部分PSI值(即至少一个目标PSI值中大于分布阈值的PSI值,即另一部分PSI值对应的第二特征变量,在目标训练集和目标验证集中的数据分布不一致)对应的第二特征变量的beta系数,以更新所述目标广义线性模型,并输出更新后的目标广义线性模型。
示例性地,为了便于用户选择需求的组件,可以将相似功能的组件进行分类,例如,各种数据处理组件可以分为一组,例如数据清洗组件、数据集成、特征变换组件等;各种模型分析组件可以分为一组,例如系数变化分析组件,单变量分析组件、PSI组件等;各种模型训练组件分为一组,例如线性回归模型组件、逻辑回归模型组件等训练组件,拟合组件、模型变换组件等拟合变换组件;各种模型评估组件分为一组,例如分类评估组件、回归评估组件等模型评估组件。
本申请一些实施例中,交互式图形界面还可以提供针对同一业务场景但应用对象不同的情况,训练得到适应多应用对象的广义线性模型。示例性地,上述实施例为对适应多应用对象的广义线性模型从整体训练角度的训练过程描述,上述目标训练集为包括多应用对象的训练集,上述目标验证集为包括多应用对象的验证集。本申请实施例还包括对适应多应用对象的广义线性模型从每个应用对象的训练角度的训练过程,例如多个目标功能组件包括数据拆分组件、第二模型变换评估组件(功能与上述步骤107中的模型变化评估组件的功能相同)、第二单变量分析组件(功能与上述步骤301中的单变量分析组件的功能相同)和第二单变量拟合绘制组件(功能与上述步骤302中的单变量拟合绘制组件的功能相同)。其中,数据拆分组件用于按照不同的应用对象对该目标验证集进行分组,得到该多个子验证集。第二模型变换评估组件用于基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标,然后根据该每个子验证集对应的第二模型评估指标确定针对该多个子验证集该目标广义线性模型是否均可用,若不可用返回修改模型超参数继续训练模型,若可用进行下一步,具体过程可以参考上述步骤107中相关描述,此处不再赘述。第二单变量分析组件和第二单变量拟合绘制组件用于获取该每个子验证集对应的至少一个第二单变量拟合曲线(每个第二单变量拟合曲线为对应的子验证集的一个特征变量的取值的拟合曲线),然后据该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型是否均可用,若不可用返回对第二单变量拟合曲线指示针对对应的子验证集该目标广义线性模型不可用的特征变量进行优化,然后继续训练模型,具体过程可以参考上述步骤301中相关描述,此处不再赘述。
本申请实施例得到的目标广义线性模型是针对包括多个应用对象的该目标验证集可用的模型,且是针对每个应用对象对应的子验证集可用的模型,也就是说,针对多应用对象整体和分应用对象模型效果都较好,而且构建的模型数量少,工序简单,花费时间少,模型上线管理简单。
如图3所示,以训练适应多应用对象的广义线性模型为例,具体实现过程可以包括下述的步骤401至步骤420。
401、对包含多个应用对象的数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集。
402、基于该目标训练集,训练初始广义线性模型,得到目标广义线性模型。
403、基于该目标验证集,对该目标广义线性模型进行评估,得到第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线。
404、根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型是否可用。
在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型不可用的情况下,执行下述步骤405;在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用的情况下,执行下述步骤406。
405、将该目标广义线性模型确定为该初始广义线性模型。
返回上述步骤402或者返回上述步骤401,对目标广义线性模型进行进一步训练,直至在根据第一模型评估指标和该每个第一单变量拟合曲线,确定针对该目标验证集该目标广义线性模型可用的情况下,执行下述步骤406。
406、按照不同的应用对象对该目标验证集进行分组,得到该多个子验证集。
407、基于该每个子验证集,对该目标广义线性模型进行评估,得到该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线。
408、根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型是否均可用。
在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用的情况下,执行下述步骤409,在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集中的至少一个子验证集该目标广义线性模型不可用的情况下,执行下述步骤410。
409、输出该目标广义线性模型。
410、确定该至少一个子验证集对应的至少一个目标特征变量。
其中,每个目标特征变量为至少一个子验证集对应的特征变量中,第二单变量拟合曲线指示针对对应的子验证集目标广义线性模型不可用的特征变量。
本申请一些实施例中,可以判断至少一个子验证集对应的特征变量中每个第二单变量拟合曲线是否满足预设拟合条件,将至少一个子验证集对应的特征变量中的第二单变量拟合曲线不满足预设拟合条件的特征变量,确定为至少一个目标特征变量。
本申请一些实施例中,可以显示至少一个子验证集对应的特征变量中每个第二单变量拟合曲线,然后响应于用户的输入,确定至少一个目标特征变量。
411、确定是否进行变量优化。
在确定进行变量优化的情况下,执行下述步骤412;在确定不进行变量优化的情况下,执行下述步骤414。
本申请一些实施例中,在确定至少一个目标特征变量中存在未进行过变量优化的目标特征变量的情况下,确定进行变量优化;在确定至少一个目标特征变量中的每个目标特征变量均进行过变量优化的情况下,确定不进行变量优化。
本申请一些实施例中,在确定至少一个目标特征变量中存在进行变量优化的次数小于预设次数的目标特征变量的情况下,确定进行变量优化;在确定至少一个目标特征变量中的每个目标特征变量均进行过变量优化,且进行变量优化的次数等于预设次数的情况下,确定不进行变量优化。
本申请一些实施例中,在接收到进行变量优化的用户输入的情况下,确定进行变量优化;在接收到不进行变量优化的用户输入的情况下,确定不进行变量优化。
412、确定至少一个目标特征变量中的待优化特征变量。
413、将待优化特征变量和不同应用对象标识进行交叉组合处理,生成新的特征变量,以更新目标训练集和目标验证集。
其中,将目标训练集中的待优化特征变量更新为该新的特征变量,得到更新后的目标训练集,将目标验证集中的待优化特征变量更新为该新的特征变量,得到更新后的该目标验证集。
将目标广义线性模型作为初始广义线性模型,返回执行基于目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新目标广义线性模型,直至得到每个子验证集对应的第二模型评估指标和每个子验证集对应的至少一个第二单变量拟合曲线。
在上述步骤413之后,执行步骤405,并返回执行上述步骤402至步骤408,在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型;在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集中的至少一个子验证集该目标广义线性模型仍不可用的情况下,再回到上述步骤410确定是否继续进行变量优化,若确定继续进行变量优化,则循环依次执行上述步骤412、步骤413、步骤405、步骤402至步骤408、步骤410,直至在根据该每个子验证集对应的第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对该多个子验证集该目标广义线性模型均可用的情况下,输出该目标广义线性模型;若在上述步骤410确定不继续进行变量优化,则执行下述步骤414至步骤420,输出目标广义线性模型。
414、将至少一个目标特征变量确定为至少一个第一特征变量。
其中,每个第一特征变量是通过至少一次执行步骤S1将第二特征变量进行优化,生成的新的特征变量,每个第一特征变量对应相同或不同的第二特征变量;第二特征变量为至少一个目标特征变量中的一个;至少一个子验证集对应的特征变量中,除至少一个第一特征变量之外的其他特征变量的第二单变量拟合曲线均指示针对对应的子验证集目标广义线性模型可用。
415、将目标训练集和目标验证集中的每个第一特征变量分别更新为对应的第二特征变量,以更新目标训练集和目标验证集。
416、确定每个第二特征变量在该目标训练集中对应的数据,与在该目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值。
其中,每个第二特征变量对应一个目标PSI值。
417、确定至少一个目标PSI值中是否存在小于或等于分布阈值的PSI值。
针对一个目标PSI值,在该一个目标PSI值大于分布阈值的情况下,确定对应的第二特征变量在该目标训练集中的分布与在该目标验证集中的分布不一致,针对于分布不一致的第二特征变量,可以通过调节该目标广义线性模型针对第二特征变量的beta系数,以改善目标广义线性模型的效果;在该一个目标PSI值小于或等于分布阈值的情况下,确定对应的第二特征变量在该目标训练集中的分布与在该目标验证集中的分布一致,针对于分布一致的第二特征变量,可以通过删除目标训练集合目标验证集中的第二特征变量,然后重新训练并验证目标广义线性模型。
因此,在确定至少一个目标PSI值中不存在小于或等于分布阈值的PSI值的情况下,执行下述步骤418,在确定至少一个目标PSI值中存在小于或等于分布阈值的至少一个PSI值的情况下,执行下述步骤420。
418、确定每个第二特征变量对应的目标beta系数。
419、基于该每个目标beta系数,分别调整该目标广义线性模型针对对应的第二特征变量的beta系数,得到更新后的该目标广义线性模型。
执行上述步骤419之后,返回执行上述步骤403,基于该目标验证集,对该目标广义线性模型进行评估,得到第一模型评估指标和该目标验证集对应的至少一个第一单变量拟合曲线,直至在根据第二模型评估指标和该每个子验证集对应的至少一个第二单变量拟合曲线,确定针对对应的子验证集该目标广义线性模型可用,结束优化,输出目标广义线性模型。
420、删除该目标训练集和该目标验证集中的至少一个PSI值对应的各个第二特征变量。
在上述步骤420之后,返回执行上述步骤405,将该目标广义线性模型作为该初始广义线性模型,然后继续执行上述步骤402至步骤419中的多个步骤,直至输出目标广义线性模型。
示例性地,为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。以银行***违约风险预测模型为例,某银行针对持有本行***的客户进行违约风险预测,预测客户未来1年内违约风险发生的概率。
如图4所示为训练集和验证集的时间段划分示意图,其中,观察期为12个月,表现期也为12个月。观察期指的是观察点之前的历史数据,表现期指的是观察点之后的未来数据;观察期用于提炼特征变量,表现期用于提炼标签变量(样本的标签变量)。
步骤1:获取数据,并定义训练集和验证集。示例中获取的数据为全国36个省和北京、上海两个直辖市共38个地区的2015年1月1日至2017年12月31日共3年的交易行为数据及客户基础信息数据;按时间定义训练集和验证集:训练集时间窗口:观察期时间为2015年1月1日至2015年12月31日,表现期时间为2016年1月1日至2016年12月31日;验证集时间窗口:观察期时间为2016年1月1日至2016年12月31日,表现期时间为2017年1月1日至2017年12月31日。
步骤2:对数据进行数据清洗、特征变换及衍生等数据操作;示例中利用步骤1所述的训练集观察期范围内的数据经过数据清洗、特征变换及衍生等数据处理形成客户维度的特征数据;利用步骤1所述的训练集表现期范围内的数据计算客户维度的标签变量,标签变量包含0,1两个值,0表示客户未来1年内没有违约,1表示客户未来1年内违约;按客户标识关联特征数据和标签变量形成训练集;同理计算获得验证集。
步骤3:训练集训练广义线性模型,保存模型标准化系数,利用验证集评估模型效果;分类模型评估指标包括但不限于AUC、正确率,回归模型评估指标包括但不限于拟合度r2、均方误差;示例中利用步骤2所述的训练集训练逻辑回归模型,利用验证集的AUC值评估模型效果。
步骤4:判断验证集模型效果是否可行,可行时模型优化结束;不可行时,进入步骤5;示例中当验证集的AUC值大于等于0.8时模型效果可行,当验证集的AUC值小于0.8时通过步骤5优化算法参数或步骤6优化特征变量的方法优化模型,最终AUC值达到0.82。
步骤5:优化广义线性模型的超参数。
步骤5.1:调整广义线性模型的超参数,重新训练模型,保存模型标准化系数;示例中采用逻辑回归训练模型,调整模型超参数,如正则化强度,每次训练模型均保存其标准化系数。
步骤5.2:分析当前模型标准化系数,及其与前一次模型标准化系数的变化。定义标准化系数变化量,Δβ=β/βbefore其中,β为当前的模型的一个特征变量的标准化系数,βbefore为前一次的模型的该一个特征变量的标准化系数,当β或Δβ超出指定范围时,该一个特征变量异常,该一个特征变量是不稳定特征变量,删除该不稳定特征变量。示例性地,当β大于或等于2,或Δβ大于或等于1.5时,特征变量异常,删除对应的特征变量。
步骤5.3:判断验证集模型效果是否可行,可行时模型优化结束;不可行时迭代优化模型参数,当模型评价指标变动低于指定范围时,确定参数,进入步骤6进行模型优化。示例性地,当AUC提升程度低于0.5%时,确定当时的正则化强度参数。
步骤6:在步骤5处理后的基础上进行单变量分析,优化特征变量。
步骤6.1:画出单变量拟合曲线,按模型特征重要性选择前N个拟合效果不好的特征,通过特征交叉、多项式处理或分段处理等方法,形成新得特征;一般来说,优先处理特征重要排名靠前的特征,排名靠前的特征优化完成后,可能会影响其他特征的拟合,因此需要迭代调整变量拟合情况。针对广义线性模型其特征重要性可参考标准化系数。
其中,单变量拟合曲线的实现方法如下:
如图5所示,为分类模型的单变量拟合曲线示意图。分类模型实现单变量拟合曲线的步骤如下:
利用目标广义线性模型对验证集进行预测,得到验证集特征变量、实际标签(例如是否违约,违约为0,不违约为1)和预测概率值;
枚举类型数据不变,数值类型数据进行分组;
计算每个变量每组的实际发生率(实际发生率是用违约的样本数除以样本总数)和预测发生率的平均值,得到实际发生率曲线、预测发生率曲线(根据预测发生率的平均值画出的曲线)、预测发生率上限曲线和预测发生率下限曲线,具体计算公式如下表1所示。
表1
如图6所示,为回归模型的单变量拟合曲线的示意图。回归模型实现单变量拟合曲线的步骤如下:
利用模型对验证集进行预测,得到验证集特征变量、实际值y和预测值y′;
枚举类型数据不变,数值类型数据进行分组;
计算每个变量每组的实际值均指和预测值均指,得到实际值均值曲线和预测值均值曲线,具体如下表2所示。
表2
示例中利用步骤2所述的训练集训练逻辑回归模型(分类模型类型的广义线性模型),利用验证集的AUC值评估模型效果。
示例中模型标准化系数排序依次为:观察期最大连续逾期次数、住房类型、3个月利息累积、征信审批查询次数、征信贷款机构数、观察期最低还款额逾期金额等,其中住房类型、3个月利息累积、征信审批查询次数、观察期最低还款额逾期金额等变量拟合效果不可行,按照重要性顺序依次调整变量,然后进入步骤6.2和步骤6.3迭代优化。依据单变量拟合曲线进行调整,住房类型以离散类型进入模型,如图7住房类型模型优化前可知,住房类型拟合效果不可行,与观察期最大连续逾期次数进行交叉组合形成新的特征,实现方式为:住房类型有A、B、C三个属性值,生成2个特征;当样本住房类型为A时,特征1的值为观察期最大连续逾期次数,否则为0;当样本住房类型为B时,特征2的值为观察期最大连续逾期次数,否则为0;两个新特征进模型,原始住房类型不进模型,加入两个交叉变量优化后拟合效果如图8住房类型模型优化后。由于两个交叉变量的影响,观察期最低还款额逾期金额单变量拟合曲线由如图9观察期最低还款额逾期金额模型优化前变为了如图10所示的观察期最低还款额逾期金额模型优化后。3个月利息累积以连续类型进模型,如图11所示3个月利息累积模型优化前可知,3个月利息累积5000(对应横坐标2)之前实际发生率与预测发生率基本一致,5000之后实际发生率低于预测发生率,增加新的分段特征,实现方式为当样本3个月利息累积大于5000时,特征3的值为3个月利息累积实际值,否则为0,加入该变量优化后拟合效果如图12所示3个月利息累积模型优化后。征信审批查询次数以连续类型进入模型,如图13征信审批查询次数模型优化前可知,征信审批查询次数拟合效果不可行,与征信贷款机构数进行交叉组合形成新的特征,实现方式为,特征4值为征信审批查询次数除以征信贷款机构数,加入该变量优化后拟合效果如图14征信审批查询次数模型优化后。其他变量优化同理。
步骤6.2:加入新的特征后形成新的训练集和验证集,利用新的训练集重新训练优化广义线性模型,并用新的验证集验证模型效果,并画出单变量拟合曲线。示例中,每次优化一个变量,加入新变量后,利用新的训练集训练逻辑回归模型,并查看验证集效果。
步骤6.3:若验证集模型效果可行,可结束模型优化;若验证集模型效果不可行,且未完成单变量拟合优化,返回步骤6按单变量拟合曲线继续进行模型优化;若验证集模型效果不可行,且已完成单变量拟合优化进入步骤7;注若加入新特征后模型效果和单变量拟合曲线均没有提升,则该新变量删除后再进行后续操作,反之保留该特征后进行后续操作。示例中,依次调整完前4个特征变量后,各地区AUC均大于0.8。
步骤7:选择拟合效果不好的特征变量,计算训练集和验证集两者之间的特征变量的PSI值,确认该特征变量在两个数据集中的数据分布是否一致。若一致则不处理,结束模型优化,若不一致,进入步骤8;一般而言,完成步骤6,验证集模型效果基本均可行。示例中,结束步骤6时各地区AUC均以达到0.8以上,考虑到性别变量一直未拟合好,如图15性别优化前图所示。故计算了训练集和验证集两者之间性别变量的PSI,其值大于0.25,该特征在训练集合验证集中分布差异较大,故调整该变量的beta系数。
步骤8:根据单变量拟合曲线中每组实际发生率均值和预测发生率均值的差值,可通过公式推到或人工的方式调整线性模型的beta系数,beta系数调整完成后,模型更适用于验证集的数据分布。公式推到即通过广义线性模型的公式推导出beta系数的目标值;人工方式即手动调整某一变量的beta系数,然后对验证集进行预测,画出对应应用对象的单变量拟合曲线,查看单变量的拟合效果,依据单变量拟合曲线在进行迭代微调,直至单变量拟合曲线可行,确定此时的beta系数为目标值。示例中采用逻辑回归模型,对应的beta系数公式为:
其中,z=β01x1+…+βkxk+…+βnxn
推导出β为beta系数。
在其他变量系数不变的情况下,xk的系数差公式如下:
其中,ptarget为目标概率,ppredict为预测概率,βk target为目标系数,βk为模型训练出的系数。
示例中,根据单变量拟合曲线实现步骤,任选性别一属性值的实际发生率为目标概率,系数调整为粗略调整。在此选择女性实际发生率为目标概率,值为0.015,女性预测发生率为0.01,模型beta系数为-0.068,则:
性别变量为离散值,故xk=1。若为连续变量,xk可取该组数据的均值。在此:
则按照beta系数为0.3425重新对验证集进行预测,然后画出北京市性别变量的拟合曲线如图16所示性别优化后,按该方式优化后模型更适用于验证集。
本申请还提供一种银行领域的广义线性模型训练装置,图17为本申请提供的一种银行领域的广义线性模型训练装置的结构示意图,如图17所示,该银行领域的广义线性模型训练装置包括:显示模块1701,用于显示交互式图形界面,交互式图形界面中包括功能组件栏、画布、组件配置栏;功能组件栏包括用于构建广义线性模型训练流程的各种功能组件,画布用于构建广义线性模型训练流程,组件配置栏用于配置构建的广义线性模型训练流程中每个功能组件的运行参数;显示模块1701,还用于响应于用户将功能组件栏中的多个目标功能组件添加至画布的输入,以及在组件配置栏对多个目标功能组件中的每个目标功能组件的配置参数的设置输入,显示由多个目标功能组件构建的目标广义线性模型训练流程;多个目标功能组件包括第一数据读取组件、目标数据处理组件集合、机器学习训练组件、模型变换评估组件、数据写出组件、第二数据读取组件、系数变化分析组件;目标数据处理组件集合包括数据列过滤组件;数据读取模块1702,用于响应于基于目标原始数据执行目标广义线性模型训练流程的输入,通过第一数据读取组件读取目标原始数据;数据处理模块1703,用于通过目标数据处理组件集合对目标原始数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集;模型训练模块1704,用于通过机器学习训练组件基于目标训练集,训练机器学习训练组件对应的初始广义线性模型,得到目标广义线性模型;数据写出模块1705,用于通过数据写出组件从机器学习训练组件获取目标广义线性模型对应的每个特征变量的标准化系数并保存;变换评估模块1706,用于通过模型变换评估组件基于目标验证集,对目标广义线性模型进行评估,得到目标验证集对应的第一模型评估指标;参数调节模块1707,用于在第一模型评估指标小于指标阈值的情况下,将目标广义线性模型作为初始广义线性模型,返回通过机器学习训练组件调节初始广义线性模型的超参数;模型训练模块1704,还用于继续通过机器学习训练组件训练初始广义线性模型,更新目标广义线性模型;数据写出模块1705,还用于通过数据写出组件从机器学习训练组件,获取更新后的目标广义线性模型对应的每个特征变量的标准化系数并保存;数据读取模块1702,还用于通过第二数据读取组件读取数据写出组件保存的每个特征变量对应的前后两次标准化系数;数据删除模块1708,用于在通过系数变化分析组件分析每个特征变量对应的前后两次标准化系数,并确定待删除特征变量对应的一次标准化系数不在对应的系数范围内或待删除特征变量对应的前后两次标准化系数的变化量不在对应的变化范围内的情况下,通过数据列过滤组件分别删除目标训练集和目标验证集中的待删除特征变量,得到更新后的目标训练集和目标验证集;模型训练模块1704,还用于将目标广义线性模型作为初始广义线性模型,返回通过机器学习训练组件训练初始广义线性模型,更新目标广义线性模型;模型输出模块1709,用于在第一模型评估指标大于或等于指标阈值的情况下,输出目标广义线性模型。
本申请一些实施例中,该装置还包括:单变量分析模块,用于在第一模型评估指标大于或等于指标阈值的情况下,输出目标广义线性模型之前,在第一模型评估指标大于或等于指标阈值,或者,第一模型评估指标小于指标阈值且第一模型评估指标相对于上一次的第一模型评估指标的变化量小于或等于变化量阈值的情况下,通过单变量分析组件对模型变换评估组件输出的目标验证集对应的预测结果进行分析,得到每个特征变量的分析结果;曲线绘制模块,用于通过单变量拟合绘制组件,对每个特征变量的分析结果进行绘制,得到每个特征变量对应的单变量拟合曲线;模型输出模块1709,具体用于在第一模型评估指标大于或等于指标阈值,且根据每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用的情况下,输出目标广义线性模型。
本申请一些实施例中,多个目标功能组件还包括:单变量分析组件和单变量拟合绘制组件;模型输出模块1709,具体用于在第一模型评估指标大于或等于指标阈值的情况下,通过单变量分析组件对模型变换评估组件输出的目标验证集对应的预测结果进行分析,得到每个特征变量的分析结果;通过单变量拟合绘制组件,对每个特征变量的分析结果进行绘制,得到每个特征变量对应的单变量拟合曲线;在根据每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用的情况下,输出目标广义线性模型。
本申请一些实施例中,模型输出模块1709,还用于在通过单变量拟合绘制组件,对每个特征变量的分析结果进行绘制,得到每个特征变量对应的单变量拟合曲线之后,循环迭代执行下述步骤S1,直至在根据每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用的情况下,输出目标广义线性模型;其中,步骤S1包括:在每个特征变量对应的单变量拟合曲线指示目标广义线性模型不可用的情况下,确定至少一个目标特征变量中的待优化特征变量,每个目标特征变量为至少一个特征变量中,单变量拟合曲线指示目标广义线性模型不可用的特征变量;返回通过目标数据处理组件集合对待优化特征变量进行优化,生成新的特征变量,以更新目标训练集和目标验证集;将目标广义线性模型作为初始广义线性模型,返回执行通过机器学习训练组件基于目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新目标广义线性模型,直至通过单变量拟合绘制组件得到每个特征变量对应的单变量拟合曲线。
本申请一些实施例中,待优化特征变量为至少一个目标特征变量中重要程度最大的特征变量。
本申请一些实施例中,多个目标功能组件还包括:PSI组件和变换修正组件;该装置还包括:确定模块,用于在循环迭代执行步骤S1之后,根据通过单变量拟合绘制组件得到的每个特征变量对应的单变量拟合曲线,确定至少一个第一特征变量的单变量拟合曲线指示目标广义线性模型不可用;每个待删除特征变量是通过至少一次执行步骤S1将第二特征变量进行优化,生成的新的特征变量;每个第一特征变量对应相同或不同的第二特征变量,第二特征变量为至少一个目标特征变量中的一个;每个特征变量中,除至少一个第一特征变量之外的其他特征变量的单变量拟合曲线均指示目标广义线性模型可用;数据处理模块1703,还用于返回通过目标数据处理组件集合,将目标训练集和目标验证集中的每个第一特征变量分别更新为对应的第二特征变量,以更新目标训练集和目标验证集;确定模块,还用于通过PSI组件确定每个第二特征变量在目标训练集中对应的数据,与在目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值;在确定至少一个目标PSI值中不存在小于或等于分布阈值的PSI值的情况下,通过变换修正组件分别调整目标广义线性模型针对每个第二特征变量的beta系数,得到更新后的目标广义线性模型;变换评估模块1706,用于将更新后的目标广义线性模型作为目标广义线性模型,返回通过模型变换评估组件执行基于目标验证集,对目标广义线性模型进行评估,得到第一模型评估指标,直至根据通过单变量拟合绘制组件得到的每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用。
本申请一些实施例中,数据处理模块1703,还用于在通过PSI组件确定每个第二特征变量在目标训练集中对应的数据,与在目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值之后,在确定至少一个目标PSI值中存在小于或等于分布阈值的至少一个PSI值的情况下,通过目标数据处理组件集合删除目标训练集和目标验证集中的至少一个PSI值对应的各个第二特征变量,模型训练模块1704,还用于将目标广义线性模型作为初始广义线性模型,返回执行基于目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新目标广义线性模型,直至根据通过单变量拟合绘制组件得到的每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用。
本申请一些实施例中,根据每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用,包括:在每个特征变量对应的单变量拟合曲线满足预设拟合条件的情况下,根据每个特征变量对应的单变量拟合曲线,确定目标广义线性模型可用;其中,在目标广义线性模型为分类模型的情况下,预设拟合条件包括:实际发生率曲线中的目标自变量对应的因变量值,小于或等于预测发生率上限曲线中的目标自变量对应的因变量值,且大于或等于预测发生率下限曲线中的目标自变量对应的因变量值;每个特征变量对应的单变量拟合曲线包括实际发生率曲线、预测发生率曲线、预测发生率上限曲线和预测发生率下限曲线,预测发生率上限曲线中的目标自变量对应的因变量为对应的预测发生率曲线中的目标自变量对应的因变量与第一数值之和;预测发生率下限曲线中的目标自变量对应的因变量为对应的预测发生率曲线中的目标自变量对应的因变量与第二数值之差(其中,第二数值与第一数值可以相同,也可以不相同,第二数值和第一数据均为正数);其中,在目标广义线性模型为回归模型的情况下,预设拟合条件包括:实际值均值曲线中目标自变量对应的因变量值,与预测值均值曲线中目标自变量对应的因变量值的差值的绝对值小于或等于差值阈值;目标自变量为每个特征变量对应的单变量拟合曲线中的任一自变量。
如图18所示,本申请实施例还提供了一种电子设备1800,该电子设备1800可以为上述电子设备。该电子设备1800包括:处理器1801、存储器1802及存储在该存储器1802上并可在该处理器1801上运行的计算机程序,该计算机程序被该处理器1801执行时实现如上述银行领域的广义线性模型训练方法执行的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例提供还提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现上述银行领域的广义线性模型训练方法执行的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,该计算机可读存储介质可以为只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本发明提供一种计算机程序产品,包括:当所述计算机程序产品在计算机上运行时,使得所述计算机实现上述的银行领域的广义线性模型训练方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims (10)

1.一种银行领域的广义线性模型训练方法,其特征在于,所述方法包括:
显示交互式图形界面,所述交互式图形界面中包括功能组件栏、画布、组件配置栏;所述功能组件栏包括用于构建广义线性模型训练流程的各种功能组件,所述画布用于构建所述广义线性模型训练流程,所述组件配置栏用于配置构建的所述广义线性模型训练流程中每个功能组件的运行参数;
响应于用户将所述功能组件栏中的多个目标功能组件添加至所述画布的输入,以及在所述组件配置栏对所述多个目标功能组件中的每个目标功能组件的配置参数的设置输入,显示由所述多个目标功能组件构建的目标广义线性模型训练流程;所述多个目标功能组件包括第一数据读取组件、目标数据处理组件集合、机器学习训练组件、模型变换评估组件、数据写出组件、第二数据读取组件、系数变化分析组件;所述目标数据处理组件集合包括数据列过滤组件;
响应于基于目标原始数据执行所述目标广义线性模型训练流程的输入,通过所述第一数据读取组件读取所述目标原始数据;
通过所述目标数据处理组件集合对所述目标原始数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集;
通过所述机器学习训练组件基于所述目标训练集,训练所述机器学习训练组件对应的初始广义线性模型,得到目标广义线性模型;
通过所述数据写出组件从所述机器学习训练组件获取所述目标广义线性模型对应的每个特征变量的标准化系数并保存;
通过所述模型变换评估组件基于所述目标验证集,对所述目标广义线性模型进行评估,得到所述目标验证集对应的第一模型评估指标;
在所述第一模型评估指标小于指标阈值的情况下,将所述目标广义线性模型作为所述初始广义线性模型,返回通过所述机器学习训练组件调节所述初始广义线性模型的超参数,继续通过所述机器学习训练组件训练所述初始广义线性模型,更新所述目标广义线性模型,通过所述数据写出组件从所述机器学习训练组件,获取更新后的所述目标广义线性模型对应的所述每个特征变量的标准化系数并保存;
通过所述第二数据读取组件读取所述数据写出组件保存的所述每个特征变量对应的前后两次所述标准化系数;
在通过所述系数变化分析组件分析所述每个特征变量对应的前后两次标准化系数,并确定待删除特征变量对应的一次标准化系数不在对应的系数范围内或所述待删除特征变量对应的所述前后两次标准化系数的变化量不在对应的变化范围内的情况下,通过所述数据列过滤组件分别删除所述目标训练集和所述目标验证集中的所述待删除特征变量,得到更新后的所述目标训练集和所述目标验证集;
将所述目标广义线性模型作为所述初始广义线性模型,返回通过所述机器学习训练组件训练所述初始广义线性模型,更新所述目标广义线性模型,直至在所述第一模型评估指标大于或等于所述指标阈值的情况下,输出所述目标广义线性模型。
2.根据权利要求1所述的方法,其特征在于,所述多个目标功能组件还包括单变量分析组件和单变量拟合绘制组件,所述在所述第一模型评估指标大于或等于所述指标阈值的情况下,输出所述目标广义线性模型之前,所述方法还包括:
在所述第一模型评估指标大于或等于指标阈值,或者,所述第一模型评估指标小于所述指标阈值且所述第一模型评估指标相对于上一次的所述第一模型评估指标的变化量小于或等于变化量阈值的情况下,通过所述单变量分析组件对所述模型变换评估组件输出的所述目标验证集对应的预测结果进行分析,得到每个特征变量的分析结果;
通过所述单变量拟合绘制组件,对所述每个特征变量的分析结果进行绘制,得到所述每个特征变量对应的单变量拟合曲线;
所述在所述第一模型评估指标大于或等于所述指标阈值的情况下,输出所述目标广义线性模型,具体包括:
在所述第一模型评估指标大于或等于所述指标阈值,且根据所述每个特征变量对应的单变量拟合曲线,确定所述目标广义线性模型可用的情况下,输出所述目标广义线性模型。
3.根据权利要求2所述的方法,其特征在于,所述通过所述单变量拟合绘制组件,对所述每个特征变量的分析结果进行绘制,得到所述每个特征变量对应的单变量拟合曲线之后,所述方法还包括:
循环迭代执行下述步骤S1,直至在根据所述每个特征变量对应的单变量拟合曲线,确定所述目标广义线性模型可用的情况下,输出所述目标广义线性模型;
其中,所述步骤S1包括:
在所述每个特征变量对应的单变量拟合曲线指示所述目标广义线性模型不可用的情况下,确定至少一个目标特征变量中的待优化特征变量,每个目标特征变量为所述至少一个特征变量中,单变量拟合曲线指示所述目标广义线性模型不可用的特征变量;
返回通过所述目标数据处理组件集合对所述待优化特征变量进行优化,生成新的特征变量,以更新所述目标训练集和所述目标验证集;
将所述目标广义线性模型作为所述初始广义线性模型,返回执行通过所述机器学习训练组件基于所述目标训练集,训练所述初始广义线性模型,得到所述目标广义线性模型,以更新所述目标广义线性模型,直至通过所述单变量拟合绘制组件得到所述每个特征变量对应的单变量拟合曲线。
4.根据权利要求3所述的方法,其特征在于,所述待优化特征变量为所述至少一个目标特征变量中重要程度最大的特征变量。
5.根据权利要求3所述的方法,其特征在于,所述多个目标功能组件还包括:PSI组件和变换修正组件;所述方法还包括:
在循环迭代执行所述步骤S1之后,根据通过所述单变量拟合绘制组件得到的所述每个特征变量对应的单变量拟合曲线,确定至少一个第一特征变量的单变量拟合曲线指示所述目标广义线性模型不可用;每个所述第一特征变量是通过至少一次执行所述步骤S1将第二特征变量进行优化,生成的所述新的特征变量;每个所述第一特征变量对应相同或不同的所述第二特征变量,所述第二特征变量为所述至少一个目标特征变量中的一个;所述每个特征变量中,除所述至少一个第一特征变量之外的其他特征变量的单变量拟合曲线均指示所述目标广义线性模型可用;
返回通过所述目标数据处理组件集合,将所述目标训练集和所述目标验证集中的每个所述第一特征变量分别更新为对应的所述第二特征变量,以更新所述目标训练集和所述目标验证集;
通过所述PSI组件确定每个所述第二特征变量在所述目标训练集中对应的数据,与在所述目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值;
在确定所述至少一个目标PSI值中不存在小于或等于分布阈值的PSI值的情况下,通过所述变换修正组件分别调整所述目标广义线性模型针对每个所述第二特征变量的beta系数,得到更新后的所述目标广义线性模型;
将更新后的所述目标广义线性模型作为所述目标广义线性模型,返回通过所述模型变换评估组件执行基于所述目标验证集,对所述目标广义线性模型进行评估,得到所述第一模型评估指标,直至根据通过所述单变量拟合绘制组件得到的所述每个特征变量对应的单变量拟合曲线,确定所述目标广义线性模型可用。
6.根据权利要求5所述的方法,其特征在于,所述通过所述PSI组件确定每个所述第二特征变量在所述目标训练集中对应的数据,与在所述目标验证集中对应的数据之间的目标PSI值,得到至少一个目标PSI值之后,所述方法还包括:
在确定所述至少一个目标PSI值中存在小于或等于分布阈值的至少一个PSI值的情况下,通过所述目标数据处理组件集合删除所述目标训练集和所述目标验证集中的所述至少一个PSI值对应的各个所述第二特征变量,将所述目标广义线性模型作为所述初始广义线性模型,返回执行基于所述目标训练集,训练初始广义线性模型,得到目标广义线性模型,以更新所述目标广义线性模型,直至根据通过所述单变量拟合绘制组件得到的所述每个特征变量对应的单变量拟合曲线,确定所述目标广义线性模型可用。
7.根据权利要求2至6中任一项所述的方法,其特征在于,所述根据所述每个特征变量对应的单变量拟合曲线,确定所述目标广义线性模型可用,包括:
在所述每个特征变量对应的单变量拟合曲线满足预设拟合条件的情况下,根据所述每个特征变量对应的单变量拟合曲线,确定所述目标广义线性模型可用;
其中,在所述目标广义线性模型为分类模型的情况下,所述预设拟合条件包括:实际发生率曲线中的目标自变量对应的因变量值,小于或等于预测发生率上限曲线中的所述目标自变量对应的因变量值,且大于或等于预测发生率下限曲线中的所述目标自变量对应的因变量值;所述每个特征变量对应的单变量拟合曲线包括所述实际发生率曲线、预测发生率曲线、所述预测发生率上限曲线和所述预测发生率下限曲线,所述预测发生率上限曲线中的所述目标自变量对应的因变量为对应的所述预测发生率曲线中的所述目标自变量对应的因变量与第一数值之和;所述预测发生率下限曲线中的所述目标自变量对应的因变量为对应的所述预测发生率曲线中的所述目标自变量对应的因变量与第二数值之差;
其中,在所述目标广义线性模型为回归模型的情况下,所述预设拟合条件包括:实际值均值曲线中目标自变量对应的因变量值,与预测值均值曲线中所述目标自变量对应的因变量值的差值的绝对值小于或等于差值阈值;
所述目标自变量为所述每个特征变量对应的单变量拟合曲线中的任一自变量。
8.一种银行领域的广义线性模型训练装置,其特征在于,包括:
显示模块,用于显示交互式图形界面,所述交互式图形界面中包括功能组件栏、画布、组件配置栏;所述功能组件栏包括用于构建广义线性模型训练流程的各种功能组件,所述画布用于构建所述广义线性模型训练流程,所述组件配置栏用于配置构建的所述广义线性模型训练流程中每个功能组件的运行参数;
所述显示模块,还用于响应于用户将所述功能组件栏中的多个目标功能组件添加至所述画布的输入,以及在所述组件配置栏对所述多个目标功能组件中的每个目标功能组件的配置参数的设置输入,显示由所述多个目标功能组件构建的目标广义线性模型训练流程;所述多个目标功能组件包括第一数据读取组件、目标数据处理组件集合、机器学习训练组件、模型变换评估组件、数据写出组件、第二数据读取组件、系数变化分析组件;所述目标数据处理组件集合包括数据列过滤组件;
数据读取模块,用于响应于基于目标原始数据执行所述目标广义线性模型训练流程的输入,通过所述第一数据读取组件读取所述目标原始数据;
数据处理模块,用于通过所述目标数据处理组件集合对所述目标原始数据进行处理,获得包括至少一个特征变量的目标训练集和目标验证集;
模型训练模块,用于通过所述机器学习训练组件基于所述目标训练集,训练所述机器学习训练组件对应的初始广义线性模型,得到目标广义线性模型;
数据写出模块,用于通过所述数据写出组件从所述机器学习训练组件获取所述目标广义线性模型对应的每个特征变量的标准化系数并保存;
变换评估模块,用于通过所述模型变换评估组件基于所述目标验证集,对所述目标广义线性模型进行评估,得到所述目标验证集对应的第一模型评估指标;
参数调节模块,用于在所述第一模型评估指标小于指标阈值的情况下,将所述目标广义线性模型作为所述初始广义线性模型,返回通过所述机器学习训练组件调节所述初始广义线性模型的超参数;
模型训练模块,还用于继续通过所述机器学习训练组件训练所述初始广义线性模型,更新所述目标广义线性模型;
数据写出模块,还用于通过所述数据写出组件从所述机器学习训练组件,获取更新后的所述目标广义线性模型对应的所述每个特征变量的标准化系数并保存;
数据读取模块,还用于通过所述第二数据读取组件读取所述数据写出组件保存的所述每个特征变量对应的前后两次所述标准化系数;
数据删除模块,用于在通过所述系数变化分析组件分析所述每个特征变量对应的前后两次标准化系数,并确定待删除特征变量对应的一次标准化系数不在对应的系数范围内或所述待删除特征变量对应的所述前后两次标准化系数的变化量不在对应的变化范围内的情况下,通过所述数据列过滤组件分别删除所述目标训练集和所述目标验证集中的所述待删除特征变量,得到更新后的所述目标训练集和所述目标验证集;
模型训练模块,还用于将所述目标广义线性模型作为所述初始广义线性模型,返回通过所述机器学习训练组件训练所述初始广义线性模型,更新所述目标广义线性模型;
模型输出模块,用于在所述第一模型评估指标大于或等于所述指标阈值的情况下,输出所述目标广义线性模型。
9.一种电子设备,其特征在于,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的银行领域的广义线性模型训练方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的银行领域的广义线性模型训练方法的步骤。
CN202310714236.0A 2023-06-15 2023-06-15 银行领域的广义线性模型训练方法、装置、设备和介质 Active CN116719519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310714236.0A CN116719519B (zh) 2023-06-15 2023-06-15 银行领域的广义线性模型训练方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310714236.0A CN116719519B (zh) 2023-06-15 2023-06-15 银行领域的广义线性模型训练方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN116719519A CN116719519A (zh) 2023-09-08
CN116719519B true CN116719519B (zh) 2024-01-30

Family

ID=87864288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310714236.0A Active CN116719519B (zh) 2023-06-15 2023-06-15 银行领域的广义线性模型训练方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN116719519B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110346844A (zh) * 2019-07-15 2019-10-18 南京恩瑞特实业有限公司 Nriet基于云分类和机器学习的定量降水估测方法
CN113516417A (zh) * 2021-08-18 2021-10-19 平安银行股份有限公司 基于智能建模的业务评估方法、装置、电子设备及介质
CN113609779A (zh) * 2021-08-16 2021-11-05 深圳力维智联技术有限公司 分布式机器学习的建模方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263938B (zh) * 2019-06-19 2021-07-23 北京百度网讯科技有限公司 用于生成信息的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110346844A (zh) * 2019-07-15 2019-10-18 南京恩瑞特实业有限公司 Nriet基于云分类和机器学习的定量降水估测方法
CN113609779A (zh) * 2021-08-16 2021-11-05 深圳力维智联技术有限公司 分布式机器学习的建模方法、装置及设备
CN113516417A (zh) * 2021-08-18 2021-10-19 平安银行股份有限公司 基于智能建模的业务评估方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN116719519A (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
Wu et al. Visualizing flow of uncertainty through analytical processes
US20180285685A1 (en) Dimension grouping and reduction for model generation, testing, and documentation
US8577791B2 (en) System and computer program for modeling and pricing loan products
US11328119B2 (en) Domain-specific language interpreter and interactive visual interface for rapid screening
US10083263B2 (en) Automatic modeling farmer
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
US11995667B2 (en) Systems and methods for business analytics model scoring and selection
Henrys Role of predictive analytics in business
Quirini et al. Creditworthiness dynamics and hidden Markov models
CN116719519B (zh) 银行领域的广义线性模型训练方法、装置、设备和介质
Zhao et al. Mavis: machine learning aided multi-model framework for time series visual analytics
CA3160715A1 (en) Systems and methods for business analytics model scoring and selection
WO2021240370A1 (en) Domain-specific language interpreter and interactive visual interface for rapid screening
US20200051175A1 (en) Method and System for Predicting and Indexing Probability of Financial Stress
CN116954591B (zh) 银行领域的广义线性模型训练方法、装置、设备和介质
Ahmed et al. Navigating the Interest Rate Forecasting Landscape: Unveiling ARIMA’s Power and Pitfalls in Comparison to Advanced Machine Learning Models
CN117453805B (zh) 一种不确定性数据的可视化分析方法
Trabelsi et al. Employing Data and Process Mining Techniques for Redundancy Detection and Analystics in Business Processes.
AU2021281120B2 (en) Domain-specific language interpreter and interactive visual interface for rapid screening
US11475021B2 (en) Flexible algorithm for time dimension ranking
Supriyanto Comparison of Grid Search and Evolutionary Parameter Optimization with Neural Networks on JCI Stock Price Movements during the Covid 19
Mody et al. Enhancing Real Estate Market Insights through Machine Learning: Predicting Property Prices with Advanced Data Analytics
CN113313581A (zh) 信贷违约预警信息推送方法、设备、存储介质及程序产品
US20200050972A1 (en) Method and System for Take Home Pay Prediction and Indexing
WO2019192136A1 (zh) 电子装置、金融数据处理方法、***和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant