CN116542511A - 风控模型创建方法、装置、电子设备及存储介质 - Google Patents

风控模型创建方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116542511A
CN116542511A CN202210117865.0A CN202210117865A CN116542511A CN 116542511 A CN116542511 A CN 116542511A CN 202210117865 A CN202210117865 A CN 202210117865A CN 116542511 A CN116542511 A CN 116542511A
Authority
CN
China
Prior art keywords
wind control
data
model
control model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210117865.0A
Other languages
English (en)
Inventor
冯宏轩
鲁溪
陈�光
赵子渌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bairong Yunchuang Technology Co ltd
Original Assignee
Bairong Yunchuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bairong Yunchuang Technology Co ltd filed Critical Bairong Yunchuang Technology Co ltd
Priority to CN202210117865.0A priority Critical patent/CN116542511A/zh
Publication of CN116542511A publication Critical patent/CN116542511A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Stored Programmes (AREA)

Abstract

本申请公开一种风控模型创建方法,其包括:获取与要进行风控管理的业务相关联的原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;对所述原始数据进行数据处理,生成样本数据;预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型为基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。

Description

风控模型创建方法、装置、电子设备及存储介质
技术领域
本发明涉及基于计算机的金融科技(Fintech)领域,具体地涉及一种风控模型创建方法和装置以及相关的电子设备及存储介质。
背景技术
随着大数据和机器学习技术的发展与成熟,以及计算机计算能力的提升与算法的改进,智能风控已经逐步取代传统风控,拥有更高准确度与特征识别能力的机器学习已经逐渐取代传统数据分析方法,成为互联网金融机构主流的风控管理及数据挖掘模式。然而,机器学习模型的优劣很大程度上依赖于数据的好坏、特征的选择和模型自身的参数,因此在数据挖掘中应用机器学习既要求用户对数据本身的理解,又要求对模型的深度了解,这在无形中提高了应用机器学习进行数据分析的门槛和成本。此外,如果要对不同业务、不同场景、不同客户群体建立定制化的机器学习模型,则进一步增大了模型建模的难度。
本背景技术描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。
发明内容
因此,本发明实施例意图提供一种风控模型创建方法及装置以及电子设备和存储介质,其能够自动建模和优化模型,显著提高建模效率,并且降低建模复杂性。
在第一方面,提供一种风控模型创建方法,包括:获取与要进行风控管理的业务相关联的原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;对所述原始数据进行数据处理,生成样本数据;预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型为基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。
在第二方面,提供一种风控模型创建装置,包括:获取模块,被配置为获取与要进行风控管理的业务相关联的原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;生成模块,被配置为对所述原始数据进行数据处理,生成样本数据;以及建模模块,被配置为预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型为基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。
在第三方面,提供一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一实施例所述的处理方法。
在第四方面,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时执行任一实施例所述的处理方法。
本发明实施例提出一种改进的处理方案,获取与要进行风控管理的业务相关联的原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;对所述原始数据进行数据处理,生成样本数据;预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型为基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。由此,相比于传统上在数据挖掘中应用机器学习既要求用户对数据本身的理解,又要求对模型的深度了解,本发明实施例的方案能够自动生成和优化模型,从而降低了建模难度,提升了建模效率,提高了模型可解释性,并且赋予了非专家用户建模能力。
本发明实施例的可选特征和其他效果一部分在下文描述,一部分可通过阅读本文而明白。
附图说明
结合附图来详细说明本发明的实施例,所示元件不受附图所显示的比例限制,附图中相同或相似的附图标记表示相同或类似的元件,其中:
图1示出根据本发明实施例的风控模型创建环境的示例性示意图;
图2示出根据本发明实施例的风控模型创建方法的示例性流程图;
图3示出根据本发明实施例的数据处理过程的示例性示意图;
图4示出根据本发明实施例的数据实验过程的示例性示意图;
图5示出根据本发明实施例的机器学习工具的执行过程的示例性示意图;
图6示出根据本发明实施例的风控模型创建框架的示例性示意图;
图7示出根据本发明实施例的风控模型创建***的示例性示意图;
图8示出传统评分卡建模过程的示例性示意图;
图9示出根据本发明实施例的评分卡建模过程的示例性流程图;
图10示出根据本发明实施例的风控模型创建装置的结构示意图;以及
图11示出了能实施根据本发明实施例的方法的电子设备的示例性结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合具体实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
本发明实施例提供一种风控模型创建方法和装置以及相关的电子设备和存储介质。该风控模型创建方法可以借助于一个或多个计算机、如终端实施。在一些实施例中,风控模型创建装置可以由软件、硬件或软硬件结合实现。
如上所述,由于机器学习模型的优劣很大程度上依赖于数据的好坏、特征的选择和模型自身的参数,因此在数据挖掘中应用机器学习既要求用户对数据本身的理解,又要求对模型的深度了解。这将导致许多问题,例如,建模技术门槛高,建模效率低,模型可解释性低,非专家用户难以建模等。
具体地,在建模技术门槛高方面,建模人员需要同时具备数理统计、机器学习、计算机编程能力和建模实践经验等。风控建模工作通常只有金融科技类的第三方咨询公司、大型银行可以投入足够资源开展,绝大多数中小银行没有专门的数据分析与建模团队。
在建模效率低方面,风控模型的开发和处理流程通常异常复杂,开发周期较长,人力投入较多,工程量巨大。人工建模需要花费很多时间进行数据预处理、模型选择、变量选择、调参、模型评估等各个环节,但在业务应用上却通常希望能快速开发、迭代、优化,高效率支持响应业务需求。
在模型可解释性低方面,金融机构的风控模型通常要求具有一定的可解释性,所以绝大多数风控模型是基于逻辑回归的评分卡模型。评分卡模型建模过程比一般机器学习模型更为复杂,建模难度和过程复杂性进一步提升。除评分卡模型外的性能优越的机器学习模型一般都是“黑盒”模型,其内部工作机制和原理难以理解。
在非专家用户难以建模方面,各业务部门、技术部门、管理部门等都需要对不同业务、不同场景、不同客户群体等进行数据分析和数据建模,快速开发定制特色化模型、设计个性化互联网产品。然而,许多部门的人员通常并不具有建模的专业能力和经验。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于风控模型创建的方案。在该方案中,获取与要进行风控管理的业务相关联的样本数据;基于样本数据,生成用于对业务进行风控管理的模型;以及部署模型,使得模型能够进行分布式计算,以对业务进行风控管理。
由此,相比于传统上在数据挖掘中应用机器学习既要求用户对数据本身的理解,又要求对模型的深度了解,本发明实施例的方案能够自动生成和优化模型,从而降低了建模难度,提升了建模效率,提高了模型可解释性,并且赋予了非专家用户建模能力。
具体地,在降低建模难度方面,借助自动化的建模平台可以有效地帮助中小银行对各产品、各流程的风控模型进行开发,加快大数据风控体系建设,提升独立自主数字化风控管理能力。
在提升建模效率方面,使用较好的自动化建模平台可以将原本需要数周乃至数月的模型开发过程大幅缩短,后期模型监测、调优也可以大大减少建模人员的压力和时间,可以使建模人员节省更多的时间去研究风控策略和模型算法的更新,投入更多的精力用于研究性工作。
在提高模型可解释性方面,自动化建模平台通常可以快速的生成具有可解释性的逻辑回归评分卡模型。部分自动化机器学习平台可以对机器学习模型可解释性进行一定的探索和分析,进一步可以将模型结果抽取生成具有可解释性的风控规则组合,扩展了模型算法的可选择性。
在赋予非专家用户建模能力方面,引入自动化建模平台以后,各业务部门、技术部门、管理部门等,都可以基于此平台对不同业务、不同场景、不同客户群体进行数据分析和数据建模,快速开发定制特色化模型、设计个性化互联网产品。在一定程度上,可以提高各部门的数据分析、数据建模能力,加快数字化转型与发展。
图1示出根据本发明实施例的风控模型创建环境100的示意图。应当理解,如图1所示的风控模型创建环境100的结构和功能仅用于示例的目的,而不暗示对于本公开的范围的任何限制。本公开的实施例可以被体现在不同的结构和/或功能中。
如图1所示,风控模型创建环境100可以包括计算设备110。计算设备110可以是任何适当电子设备,例如但不限于,移动电话、平板电脑、笔记本电脑、台式计算机、服务器、大型机、可穿戴设备等。与要进行风控管理的业务相关联的样本数据120可以被输入计算设备110。
需要进行风控管理的业务可以包括多种类型的业务,例如汽车金融、消费金融、现金分期、***和***代偿等。此外,业务还可以处于多个业务阶段,例如营销、反欺诈、反洗钱、贷前申请、贷中行为、贷后催收等。
样本数据120可以包括特征和特征值。例如,假设要进行风控管理的业务是***业务,在这种情况下,样本数据120可以包括特征“姓名”、“电话号码”、“年龄”、“性别”、“收入”、“职业”、“职业发展预期”等,以及这些特征的特征值“张三”、“88888888”、“33”、“男”、“10万”、“工程师”、“稳定”、等。应当理解,上述样本数据120的特征和特征值仅为示例。事实上,取决于业务的需求,样本数据120可以包括任何适当特征以及这些特征的大量特征值。
计算设备110可以基于样本数据120生成用于对业务进行风控管理的模型(在下文中,可替换地称为“风控模型”)130。在一些实施例中,模型130的生成可以使用自动机器学习工具来进行自动化调参,从而智能生成最优模型。例如,自动机器学习工具可以包括NNI(Nerual Network Intelligence)、Google Cloud AutoML、EasyDL等任何适当自动机器学习工具。以NNI为例,NNI是一个工具包,其可有效的帮助用户设计并调优机器学习模型的神经网络架构,复杂***的参数(诸如超参(可替换地称为“超参数”))等。
传统上,在机器学习建模时,除了准备数据,最耗时耗力的过程就是尝试各种超参组合以寻找模型最佳效果。即使对于经验丰富的算法工程师和数据科学家,有时候也难以把握其中的规律,只能通过多次尝试来找到较好的超参组合。而对于初学者来说,需要花费更多的时间和精力。然而,借助于自动机器学习工具,通过智能调参,可以自动生成最优模型,从而显著提高了建模效率,节省了人力资源。
计算设备110可以部署模型130,使得模型130能够进行分布式计算,以对业务进行风控管理。例如,可以将大量用户数据输入130,模型130可以预测这些用户的风险评级,从而对相关业务、例如***业务进行风控管理。
在一些实施例中,可以使用容器技术部署模型130。容器技术可以部署实验任务,实现多个实验任务的并行执行,达到任务分布式处理的目的,具有高可用、可靠性、可扩展性的优势。例如,容器技术可以包括DOCKER、coreos等任何适当容器技术。通过利用容器技术,可以克服传统上无法将计算分配到不同服务器下以及依赖个体服务器性能等缺陷。
以此方式,本发明实施例的方案能够自动生成和优化模型,从而降低了建模难度,提升了建模效率,提高了模型可解释性,并且赋予了非专家用户建模能力。
图2示出根据本发明实施例的风控模型创建方法的示例性流程图。以下结合如图1所述的风控模型创建环境100来描述方法200中所涉及的动作。此外,方法200还可选地可包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
如图2所示,根据本发明实施例的风控模型创建方法200可包括步骤210至230。在本发明实施例中,风控模型创建方法200可以由计算设备110实施。
步骤210:获取与要进行风控管理的业务相关联的原始数据。所述原始数据包括对应多个特征的多个特征值和各自的风控标签。
在一些实施例中,计算设备110可以获取与要进行风控管理的业务相关联的原始数据。原始数据可以以任何适当方式获取。例如,计算设备110可以从用户上传的文件获取原始数据。此外,计算设备110还可以从指定数据库获取原始数据。指定数据库例如可以是用户选择的数据库。
原始数据可以包括对应多个特征的多个特征值和各自的风控标签。例如,特征可以是“姓名”、“电话号码”、“年龄”、“性别”、“收入”、“职业”等,并且具有特征值“张三”、“88888888”、“33”、“男”、“10万”、“工程师”等。风控标签可以是“风险评级”等,并且具有值“好”或“坏”等。例如,可以基于客户在3期应还之中是否有至少一笔超过15天以上的逾期表现这样的标签来界定好坏样本。风控标签是用户指定为因变量的特征,也可称为Y标签,而其它特征将作为自变量。在一些实施例中,可以定义原始数据的各特征值对应的风控标签值。
在一些实施例中,计算设备110还可以自动识别原始数据的特征的数据类型,例如连续型、离散型等。由此,计算设备110可以生成原始数据的分析报告。此外,计算设备110还可以将分析报告提供给用户以用于预览。表1示出了分析报告的示例。
表1:分析报告
上述获取原始数据以及生成分析报告的过程也可以被称为“数据管理”过程。
步骤220:对原始数据进行数据处理,生成样本数据。
在一些实施例中,计算设备110还可以对原始数据进行进一步的处理,以生成样本数据。该处理过程也被称为“数据处理”过程。图3示出根据本发明实施例的数据处理过程300的多个子过程/流程的示例性示意图。本领域技术人员将明白,在本发明的教导下,这些子过程/流程可以并行/结合进行和/或先后进行,若先后进行,除非与本发明实施例的教导明显相违,这些子过程/流程可以按照不同于图3所示顺序的任何可行顺序进行。
步骤310:选择数据。
在一些实施例中,计算设备110可以选择数据。具体地,计算设备110可以基于一组指定特征,从原始数据中选择第一数据集。用户可以设置阈值,以排除与无效特征相关联的数据。此外,用户还可以选择指定特征,以选择与指定特征相关联的数据。例如,用户可以选择“姓名”特征,由此与“姓名”特征相关联的数据将被选入第一数据集。
步骤320:数据抽样。
在一些实施例中,计算设备110可以进行数据抽样。具体地,计算设备110可以基于指定抽样规则,从第一数据集中选择第二数据集。例如,用户可以选择Y标签和抽样方法并设置随机子,来设置抽样规则。抽样规则可以采用任何适当抽样方式,例如随机抽样、分层抽样、过采样等。
步骤330:特征衍生。
在一些实施例中,计算设备110可以进行特征衍生。具体地,计算设备110还可以基于指定特征衍生规则,根据第二数据集的特征生成衍生特征,以得到包括衍生特征的特征值的第三数据集。
例如,可以根据特征“职业”和“年龄”衍生出衍生特征“职业发展预期”,例如可在一定程度上指示偿还能力/风险。
在一些实施例中,可以选择第二数据集的多个特征用于特征衍生。例如,可以选择特征“职业”和“年龄”。此外,还可以设置一个或多个衍生逻辑。例如,用户可以选择衍生所使用的特征,并且输入衍生特征信息。
此外,还可以提供衍生代码。衍生代码可以用任何适当语言编写,例如R、Python、Java及其函数库等。例如,计算设备110还具有可用于编写衍生代码的函数表,其记载了衍生方法的各种函数,例如int(x)用于将一个值转换为整数,max(…)用于求最大值等。
此外,可以基于预设的衍生标准验证所述一个或多个衍生逻辑,以筛选出符合衍生标准的衍生逻辑。例如,计算设备110还可以对衍生代码进行验证,以确保其正确性。由此,可以基于符合衍生标准的衍生逻辑,由第二数据集的多个特征及其特征值衍生得到衍生特征及其特征值。例如,可以由特征“职业”和“年龄”及其特征值“银行职员”和“33”得到衍生特征“职业发展预期”及其特征值“稳定”。
在一个优选实施例中,所述衍生标准可包括第一、数据类型(约束)标准、第二、特征覆盖度(约束)标准和第三、语义标准。
在一个优选实施例中,基于第一数据类型(约束)标准的筛选可以包括:
确定用于特征衍生的特征的数据类型以及衍生特征的数据类型;
例如从所有数据类型的可能衍生(组合、变换或计算)方式,获取所述用于特征衍生的特征的数据类型的可能衍生方式以及衍生特征的数据类型的可能衍生方式;
判断所设置的衍生逻辑是否符合所述数据类型的可能衍生方式;
筛掉不符合可能衍生方式的衍生逻辑。
在此,符合可能衍生方式的衍生逻辑可以用于基于前述的第二标准进行筛选。
在本发明的具体示例中,所述数据类型可包括数值型,类别型,时间型和组合型中的一种或多种。
在本发明的具体示例中,所有数据类型的可能衍生(组合、变换或计算)方式可包括单特征或多特征组合的可能衍生方式。例如,针对数值型的用于衍生的特征,如金额,数量等,可能衍生方式可包括四则运算、统计运算和/或转换成类别型。例如,针对类别型,可能的衍生方式可以基于有序变量进行排序,可以基于名义变量进行计数或转换成哑变量。例如,针对时间型,可能的衍生方式可以基于连续值或离散值进行相应的衍生,如连续值可衍生的持续时间等。例如,针对组合型,可以对于某些类型,如数值型或时间型特征进行交叉运算。
在一个优选实施例中,基于第二标准的筛选可以包括基于用于衍生的特征的数据覆盖度和/或衍生后特征的数据覆盖度,具体可包括
获取第二样本数据中用于特征衍生的特征对应特征值的第一数据覆盖度;若所述第一数据覆盖度小于预设的第一覆盖度阈值,筛选掉与所述特征相关的衍生逻辑;以及/或者
基于一个或多个衍生逻辑,由第二数据集得到衍生特征的特征值;确定衍生特征的特征值的第二数据覆盖度;若所述第二数据覆盖度小于预设的第二覆盖度阈值,筛选掉与所述特征相关的衍生逻辑。
作为举例地,若第二样本集中用于衍生的特征对应的特征值在可应用客群的覆盖度小于5%,则可以不用该特征进行特征衍生(即筛掉与之相关的衍生逻辑)。或者,若由第二样本集得到的衍生特征对应的特征值在可应用的客群的覆盖度小于3%,则可以不用该衍生特征(即筛掉与之相关的衍生逻辑)。
在一些实施例中,第二标准和第三标准可以是并行或选择实施的,并且可以互为先后。
在一个优选实施例中,基于第三标准的筛选可以包括:
基于用于衍生的特征和相应的衍生逻辑获取衍生特征的语义含义,这例如可以基于多种语义分析算法实现且可选地可以由用户手动调整;基于所述衍生特征的语义含义和所述第三标准筛选相关的衍生逻辑。例如,基于所述衍生特征的语义和所述第三标准筛选相关的衍生逻辑可包括:判断衍生特征的语义是否符合第三标准,筛掉不符合第三标准的相关衍生逻辑。
在一些实施例中,第三标准可以包括业务相关性子标准,其可以与第二标准相关联地实施筛选。在此,筛选步骤可进一步包括:若第一/第二数据覆盖度小于第一/第二覆盖阈值,但基于衍生特征的语义含义确定所述衍生特征高于预设的业务相关性子标准,则保留(不筛掉)相关衍生逻辑。例如,可应用客群的覆盖度小于前述的5%或3%,但业务可解释性或业务价值较高于一定标准,则仍可保留相关衍生逻辑。
此外,还可以生成衍生特征的可解释性说明,例如基于与前述获取语义含义相同或相似的手段,以用于在报告提供给用户以帮助用户理解。
在本发明实施例中进行的特征衍生以及可选的可解释性说明,对于实现风控模型的建立具有非常有益的效果。作为解释地,对于某些用户而言,其例如针对新的、第二业务和/或场景要建立风控模型时,其往往仅具有源自原有的、第一业务和/或场景的(原始)数据,而这样的数据及其特征虽然与打算构建风控模型的新的、第二业务/场景有一定关联性,然而往往不适合用于构建该风控模型或者构建效果不好,或者构建所述风控模型的相关人员还有可能不具备足够的专业知识构建该风控模型或者构建效果不好,虽然该相关人员可能有能力针对原有的、第一业务和/或场景构建风控模型。在进一步的优选实施例中,所述衍生标准可以基于以下的一个或多个因素设定,优选基于以下所有因素设定:所述新的、第二业务、如下文进一步说明的预设一个或多个风控模型算法类型和如下文进一步说明的模型评价指标。
步骤340:转码。
在一些实施例中,为了方便处理,计算设备110可以进行转码,例如将字符型特征转码为数值型特征。具体地,计算设备110可以基于指定转码方式,将第三数据集转换为转码数据。转码可以采用任何适当方式,例如onehot转码、woe转码、有序变量转码等。计算设备110可以对全部数据进行批量转码。备选地,计算设备110也可以对个体数据进行单独转码,从而不同数据可以使用不同转码方式。
步骤350:缺失值处理。
在一些实施例中,计算设备110可以进行缺失值处理。具体地,计算设备110可以填充转码数据中的缺失值,以生成填充数据。计算设备110可以以任何适当方式进行填充,例如填充中位数、固定值等。在填充固定值的情况下,可以由用户指定固定值。
步骤360:异常值处理。
在一些实施例中,计算设备110可以进行异常值处理。具体地,计算设备110可以去除填充数据中的异常值,以生成正常数据。计算设备110可以以任何适当方式进行异常值处理,例如孤立森林检测、Z-score检测、自定义筛选等。用户可以对被检测为异常值的字段和值进行批量处理,也可以对个体异常值进行单独处理,从而不同数据可以使用不同异常值处理方式。此外,在自定义筛选中,还可以根据阈值自定义异常值范围。
步骤370:去重。
在一些实施例中,计算设备110可以进行去重处理。具体地,计算设备110可以去除正常数据中的重复值,以生成样本数据。例如,用户可以选择需要进行去重处理的一个或多个字段,以实现单字段去重或多字段去重。在进行单字段去重时,可以去除该字段内取值相同的数据。而在进行多字段去重时,可以去除多个字段内取值组合相同的数据。
由此,在对原始数据进行如步骤310-370所述的数据处理之后,计算设备110可以得到样本数据120。
步骤230:预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用样本数据进行训练以生成用于对业务进行风控管理的风控模型,其中风控模型为基于第一模型评价指标确定的最优算法类型和/或具有基于第一模型评价指标确定的最优超参数值。
模型的参数可分成两类:参数与超参数。参数是模型通过自身的训练学习得到的参数数据。通常超参数则需要通过经验设置,以提高模型训练的效果。例如,超参数可以是模型的隐层个数、每个隐层神经元个数、采用什么激活函数及学习算法、学习率以及正则化系数等以及风控模型特有的超参数。此外,第一模型评价指标可以包括例如KS、Gini、ROC、AUC、PSI等。具体地,例如,可以将特征输入风控模型,风控模型在初始的超参数指导下学习参数,并且通过模型评价指标评估超参数的设定是否合适,如果不合适则继续调整。
更进一步地,所述预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,包括:
在多个备选风控模型算法类型中选择所述预设的一个或多个风控模型算法类型;设置所述模型超参数搜索设置值。
可选地,所述备选风控模型算法类型包括逻辑回归、极端梯度提升、提升机器、梯度提升、朴素贝叶斯、决策树和随机森林中至少两种。
在一些实施例中,模型超参数搜索设置值包括以下至少一项:超参数搜索方法,训练次数,训练时长,和超参数据搜索范围。
可选地所述超参数搜索方法包括树状结构估计方法、网格搜索方法、随机搜索方法、模拟退火方法、朴素进化方法、批量优化方法和黑盒优化方法中至少一种。
在这种情况下,可以利用超参数搜索方法在超参数据搜索范围中搜索候选最优超参数,并且利用候选最优超参数训练基于所述预设的一个或多个风控模型算法类型的风控模型。如果训练风控模型的训练次数或训练时长超过预设的训练次数和训练时长,则可以停止训练风控模型。以此方式,可以对风控模型的训练进行控制。相应地,可以基于预定的第一模型评价指标,确定训练得到的最优算法类型和最优超参数值并相应确定最优风控模型用于对所述业务进行风控管理。
在一些实施例中,生成模型的过程可以利用筛选特征方法,模型训练方法,超参数搜索方法,和/或分箱方法。相应地,本发明实施例中,还可以相应地包括与筛选特征和分箱的相关特征。生成模型的过程也被称为“模型实验”过程,在下文中将参考图4描述“模型实验”的子过程/流程。本领域技术人员将明白,在本发明的教导下,这些子过程/流程可以并行/结合进行和/或先后进行,若先后进行,除非与本发明实施例的教导明显相违,这些子过程/流程可以按照不同于图4所示顺序的任何可行顺序进行。特别地,图4所示的“模型实验”的子过程/流程是以功能为基础进行描述,图4所示的子过程/流程可以如上文或下文所述本发明的优选实施例的方式进行或者结合到这些优选实施例中。
在一些实施例中,生成模型的过程可以使用自动机器学习工具(例如NNI)来实现。如上所述,自动机器学习工具能够进行自动化调参,从而智能生成最优模型。借助于自动机器学习工具,通过智能调参,可以自动生成最优模型,从而显著提高了建模效率,节省了人力资源。在下文中将参考图5描述机器学习工具的执行过程。
图4示出根据本发明实施例的数据实验400的子过程/流程的示例性示意图。
步骤410:筛选特征。
在一些实施例中,计算设备110可以采用任何适当方法来筛选特征。例如,筛选特征方法可以包括L1正则化、随机森林算法、指标判断法等。
在本发明一些实施例中,特征筛选可以基于预设一个或多个风控模型算法类型进行。例如,在一些实施例中,可以针对第一预设风控模型算法类型采用第一特征筛选,针对第二预设风控模型算法采用第二特征筛选(或不采用特征筛选。相应地,在本发明各实施例中,可以在训练风控模型时相应地使用或不使用特征筛选、或使用特定的特征筛选的样本数据。
在本发明实施例中,所述子步骤410的特征筛选可以与下文所述的分箱相结合,如下文进一步描述。
步骤420:模型训练。
在一些实施例中,计算设备110可以采用任何适当方法来进行模型训练。例如,模型训练方法可以包括逻辑回归Logistic Regression、极端梯度提升XGBoost、提升机器LightGBM、梯度提升GBDT、朴素贝叶斯、Bayes、决策树Decision Tree、随机森林Random Forest算法等。
在子步骤420中的模型训练可以与其他子步骤,尤其是子步骤430以各种可能的形式相结合。在此子步骤420中的模型训练中,例如可以针对基于给定的风控模型算法类型以及一组候选最优超参数的初始模型,利用至少部分样本数据(可选地可经特征筛选和/或分箱)迭代训练该初始模型直至迭代退出,例如损失收敛或损失值小于预定阈值,迭代方法可包括梯度下降法。
步骤430:超参数搜索(确定)。
在一些实施例中,计算设备110可以采用任何适当方法来进行超参数搜索,由此可以用于形成例如子步骤420所述的初始模型以供模型训练。例如,超参数搜索方法可以包括树状结构Parzen估计方法、网格搜索方法、随机搜索方法、模拟退火方法、朴素进化方法、批量优化方法、黑盒优化方法等。
以网格搜索方法为例,网格搜索是指在所有候选的超参数选择中,通过循环遍历尝试每一种可能性,表现最好的超参数就是最终的结果。假设存在两类超参数,每类超参数有3个待探索的值,对它们进行笛卡尔积后得到9个超参数组合。通过网格搜索使用每种选最优超参数组合来训练模型,并在验证集上挑选出最好的超参数。这种方法往往根据不同种类列出表格,并在表格内循环遍历搜索。
就超参数搜索(确定)功能而言,可以基于第一模型评价指标从候选最优超参数值中得到(真正)最优超参数值。在该子步骤430中同时描述了超参数搜索生成候选超参数值和确定真正最优超参数值。但可以想到,如本发明某些实施例所述,超参数搜索生成候选超参数值和确定真正最优超参数值可以以分设的步骤实现,仍然落入发明的范围内。
步骤440:分箱。
在一些实施例中,可以针对某些算法类型设置分箱操作。计算设备110可以采用任何适当方法来进行分箱。例如,分箱方法可以包括决策树最优分箱、卡方分箱等。此外,计算设备110还可支持手动调整分箱。在一些实施例中,可以基于预设一个或多个风控模型算法类型选择性地进行自动分箱和/或手动分箱。例如,在一些实施例中,针对逻辑回归算法(类型),可以在自动分箱的基础上提供部分或全部手动分箱设置,或者可以直接提供手动分箱设置。
在本发明一些实施例中,分箱方法和/或分箱阈值可以基于预设一个或多个风控模型算法类型进行。例如,在一些实施例中,可以针对第一预设风控模型算法类型采用第一分箱方法和/或分箱阈值,针对第二预设风控模型算法采用第二分箱方法和/或分箱阈值(或不采用分箱)。相应地,在本发明各实施例中,可以在训练风控模型时相应地使用或不使用分箱、或使用特定的分箱方法和/或分箱阈值的样本数据。
仅仅作为举例,在一些实施例中,可以预设一个或多个分箱变量及其阈值,并且基于这些分箱变量及其阈值对样本数据进行分箱。由此,可以基于分箱后的样本数据生成风控模型。例如,可以基于年龄,将0-30岁、30-60岁和60岁以上的客户分别分箱为三组。以此方式,可以将相同类型的对象(例如客户)分组到一起,从而减少样本数据中的噪声数据。
在本发明实施例中,所述子步骤410的特征筛选可以与所述子步骤420的分箱相结合,这均落入本发明的范围内。例如,可以基于第一预设风控模型算法使用经特征筛选和分箱的样本数据,基于第二预设风控模型算法使用经特征筛选、但不分箱的样本数据。
如前所述,在子步骤420中的模型训练可以与其他子步骤,尤其是子步骤430以各种可能的形式相结合。此外,超参数搜索生成候选超参数值和确定真正最优超参数值可以组合或以分设的步骤实现。由此,可以得到多个不同的具体实施例。
在一个具体实施例中,超参数搜索生成候选超参数值可以独立于模型训练。由此该实施例可以包括:
利用超参数搜索方法在超参数据搜索范围中搜索多组候选最优超参数,可选地,所述多组可以对应训练次数;
在预定的训练次数或训练时长内,循环执行如下步骤:针对每组候选最优超参数,由该组候选最优超参数和相应的风控模型算法得到初始模型,利用样本数据迭代训练初始模型直至完成迭代(迭代退出条件可包括本文其他地方描述的退出条件);
完成循环后,基于预定的第一模型评价指标,由循环得到的多个训练好的风控模型确定最优风控模型,例如是基于评价指标确定算法类型和超参数,且可选地确定模型的参数。
作为该第一具体实施例的替代,确定最优模型可以结合到循环执行的步骤中。例如,该第二替代的具体实施例可包括:
利用超参数搜索方法在超参数据搜索范围中搜索多组候选最优超参数,可选地,所述多组可以对应训练次数;
在预定的训练次数或训练时长内,循环执行如下步骤:针对每组候选最优超参数,由该组候选最优超参数和相应的风控模型算法得到初始模型,利用样本数据迭代训练初始模型直至完成迭代(迭代退出条件可包括本文其他地方描述的退出条件);基于预定的第一模型评价指标,将该循环中完成迭代后的风控模型与已有的最优风控模型相比较以确定当前最优风控模型(在此可明白,在下一循环,当前最优风控模型可以作为已有的最优风控模型)。
在该具体实施例中,训练次数或训练时长可以是择一地触发,即两个条件有一个满足,则终止训练。
换言之,在该第二替代的具体实施例中,每次循环均可以得到最优的风控模型(以及最优算法类型和最优超参数值)。
在该替代的具体实施例中,在第一次循环中,可以有已有的最优风控模型或者已有最优风控模型为空(即第一循环直接将完成迭代的风控模型作为当前最优风控模型)。
作为前两个具体实施例的替代,超参数搜索生成候选超参数值可以与模型训练集成,确定真正最优超参数值独立于模型训练。该第三替代具体实施例可包括:
在预定的训练次数或训练时长内,循环执行如下步骤:利用超参数搜索方法在超参数据搜索范围中搜索一组候选最优超参数;针对该组候选最优超参数,由该组候选最优超参数和相应的风控模型算法得到初始模型,利用样本数据迭代训练初始模型直至完成迭代(迭代退出条件可包括本文其他地方描述的退出条件);
完成循环后,基于预定的第一模型评价指标,由循环得到的多个训练好的风控模型确定最优风控模型,例如是基于评价指标确定算法类型和超参数,且可选地确定模型的参数。
换言之,在该第三替代的具体实施例中,每次循环可获取一组超参数,这可能得到的好处在于可以基于特定风控模型算法类型获取超参数。
作为前三个具体实施例的替代,超参数搜索生成候选超参数值和确定真正最优超参数值均可以与模型训练集成。该第四替代具体实施例可包括:
在预定的训练次数或训练时长内,循环执行如下步骤:利用超参数搜索方法在超参数据搜索范围中搜索一组候选最优超参数;针对该组候选最优超参数,由该组候选最优超参数和相应的风控模型算法得到初始模型,利用样本数据迭代训练初始模型直至完成迭代(迭代退出条件可包括本文其他地方描述的退出条件);基于预定的第一模型评价指标,将该循环中完成迭代后的风控模型与已有的最优风控模型相比较以确定当前最优风控模型。在此可明白,在下一循环,当前最优风控模型可以作为已有的最优风控模型,并可以参考前述第二个具体实施例。
在前述4个具体实施例中,第一具体实施例具有特别的好处,其可以有效地提高模型训练和超参数搜索效率,并且架构更具模块化效果,用户可以根据需要改造根据本发明实施例的方案以便分别优化模型训练和超参数搜索。
在其他实施例中,特征筛选和/或分箱可以分别结合前述4个实施例,尤其是可以集成或独立于前述的循环,以得到新的实施例。例如,在分箱操作结合到第一具体实施例中的进一步实施例中,在每个循环包括:基于当前组候选最优超参数确定相应的风控模型算法类型;基于所述风控模型算法类型(例如逻辑回归算法),判断是否触发分箱操作;若触发分箱操作,基于预设的分箱方法和分箱阈值对样本数据进行分箱操作,利用经分箱的样本数据迭代训练初始模型直至完成迭代;若不触发分箱操作,利用未经分箱的样本数据迭代训练初始模型直至完成迭代。
图5示出根据本发明实施例的机器学习工具的执行过程500的示例性示意图。图5所示的机器学习工具的执行过程500以NNI的执行过程为例。应当理解,过程500还可选地可包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
步骤510:定制搜索空间。例如,计算设备110可以定制超参数的搜索空间,以在该空间中搜索超参数。
可选地步骤520:启动自动机器学习工具。例如,计算设备110可以启动NNI。
步骤530:生成超参数。例如,计算设备110可以利用NNI可以对模型进行智能调参,以确定模型的超参数。
步骤540:执行试验。例如,计算设备110可以对NNI生成的模型执行试验,即例如前述的模型训练,例如将测试数据输入模型以评估其准确性。
步骤550:评估结果。例如,计算设备110可以比较模型的输出与实际结果之间的差异,以评估其准确性。
步骤560:分析结果。例如,计算设备110可以对结果进行分析,以确定是否部署模型,或者继续优化模型以及优化模型的方法。在此,可以生成分析报告。
此外,在一些实施例中,在模型训练好之后,还可以部署模型,使得模型能够进行分布式计算,以对业务进行风控管理。在一些实施例中,可以利用容器分布式部署模型130。容器技术可以部署实验任务,实现多个实验任务的并行执行,达到任务分布式处理的目的,具有高可用、可靠性、可扩展性的优势。例如,容器技术可以包括DOCKER、coreos等任何适当容器技术。通过利用容器技术,可以克服传统上无法将计算分配到不同服务器下以及依赖个体服务器性能等缺陷。
进一步地,在一些实施例中,在部署模型130之前,计算设备110还可以执行模型130测试。例如,可以基于预定的第二模型评价指标,利用测试数据对风控模型进行测试。测试数据的获取方式及其特征和特征值类似于样本数据,因此在此省略其描述。在一些实施例中,第二模型评价指标可选地包括测试数据的KS、Gini、ROC、AUC、PSI等。
此外,还可以生成风控模型评价报告,以向用户清楚地提供关于风控模型的可解释性说明等。
以此方式,本发明实施例的方案能够自动生成和优化模型,从而降低了建模难度,提升了建模效率,提高了模型可解释性,并且赋予了非专家用户建模能力。
图6示出根据本发明实施例的风控模型创建框架600的示例性示意图。如图6所示,风控模型创建框架600包括应用层、功能层和支撑层。应用层可以指示根据本发明实施例的风控模型创建方法的应用场景和应用阶段。具体地,应用层包括多类互金场景和多个业务阶段。例如,多类互金场景可以包括汽车金融、消费金融、现金分期、***、***代偿等。此外,多个业务阶段可以包括营销、反欺诈、贷前申请、贷中行为、贷后催收等。
功能层可以指示用于实现根据本发明实施例的风控模型创建方法的功能。例如,这些功能可以包括样本管理、数据处理、自动训练、模型发布和***管理等。具体地,样本管理可以包括上传样本、样本分析、Y标签定义等。数据处理可以包括抽样、特征衍生、转码、缺失值处理、异常值处理和去重等。自动训练可以包括逻辑回归、提升树算法、梯度提升、朴素贝叶斯、决策树和随机森林等。模型发布可以包括模型生成、模型部署、模型测试和模型上线等。此外,***管理可以包括操作日志、机构管理、用户管理和权限管理等。
支撑层可以指示根据本发明实施例的风控模型创建方法所提供的功能。例如,这些支撑功能可以包括搭载最新算法、集成全流程建模经验、智能调参、模型验证和自动生成报告等。
图7示出根据本发明实施例的风控模型创建***700的示例性示意图。应当理解,风控模型创建***700仅为实现根据本发明的实施例的风控模型创建方法的示例***,任何适当***实现都可以实现根据本发明的实施例的风控模型创建方法。
如图7所示,风控模型创建***700可以包括负载均衡层、微服务层、展现层、应用层和持久层。作为示例,负载均衡层可以由Nginx和keepalive等技术实现。微服务层可以由Spring Cloud等技术实现。展现层可以由HTML、CSS3、ECHARS、VUEJS等技术实现。应用层可以由Spring boot、用于权限管理的Spring security、用于服务接口的RESTful、Python、NNI等技术实现。持久层可以由数据持久框架MYBATIS(采用MySQL数据库)、缓存数据库REDIS等技术实现。
在下文中,将以典型的评分卡建模过程为例来对比传统风控模型创建方法与根据本发明的实施例的风控模型创建方法,其中图8示出传统评分卡建模过程800的示例性示意图,而图9示出根据本发明实施例的评分卡建模过程900的示例性流程图。评分卡是用于评估业务的客户是否存在风险的方法。假定一个客户不存在风险将被赋值为0,而存在风险将被赋值为1,评估客户就是预测该客户是否存在风险的概率p。
图8所示的传统风控模型创建过程800包括步骤810-890,其中:
步骤810:数据获取。例如,用户可以获取原始数据。
步骤820:数据探索与数据描述。例如,用户可以从原始数据中确定数据的有效字段等。
步骤830:数据整合。例如,用户可以对数据进行清洗和转换。
步骤840:特征选择。例如,用户手动选择将用于建模的特征。
步骤850:模型开发。例如,用户可以根据经验手动开发模型,包括选定模型类型,手动调整模型的超参数。
步骤860:评分卡创建和刻度。例如,用户可以创建评分卡和计算刻度。
步骤870:评分卡实施。例如,用户可以实施评分卡。
步骤880:模型评估。例如,用户可以对模型进行评估,以确定模型的准确性。如果模型的准确性低,将返回重新获取数据。
步骤890:监测和报告。例如,用户可以在模型运行中,监测模型的准确性。如果模型在运行中的准确性低,将返回重新获取数据或整合数据。
图9所示的根据本发明的实施例的风控模型创建过程900包括步骤910-980,其中:
步骤910:选择/上传选择样本数据。例如,利用数据管理模块可以选择样本数据,并且上传样本数据。此外,如上所述,还可以利用数据管理模块选择数据源(诸如数据库),并且计算设备110可以从数据源获取样本数据。
步骤920:生成可查看数据分析报告。例如,数据处理模块可以基于样本自动生成用户可查看的数据分析报告,以向用户提供关于样本数据的分析。
步骤930:选择/配置数据处理方案。例如,利用数据实验模块可以选择/配置数据处理方案。该数据处理方案可以包括选择数据、数据抽样、特征衍生、转码、缺失值处理、异常值处理、去重等。由于数据处理过程在上文中已经参考图3进行了介绍,在此省略其详细描述。
步骤940:设置筛选特征条件阈值。例如,利用数据实验模块可以设置阈值以排除无效特征。
步骤950:自动筛选算法、超参数。例如,利用数据实验模块可以自动筛选建模算法和超参数。
步骤960:生成模型、评分卡报告。例如,利用数据实验模型可以自动生成模型和评分卡报告。
步骤970:生成脚本/一键部署。例如,利用数据实验模型可以自动生成脚本以部署模型,从而简化了模型部署流程。
步骤980:模型部署管理/模型监控。例如,利用数据管理模型可以对模型进行部署管理,并且监控模型的运行。
上述的数据处理模块和数据实验模块是可复用的,从而进一步提高了建模效率。
在如图10所示的示例性实施例中,还提供了一种风控模型创建装置1000。风控模型创建装置1000可包括获取模块1010,被配置为获取与要进行风控管理的业务相关联的原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;生成模块1020,被配置为对所述原始数据进行数据处理,生成样本数据;以及建模模块1030,被配置为预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型为基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。
在一些实施例中,风控模型创建方法还包括:
测试模块,被配置为基于预定的第二模型评价指标,利用测试数据对所述风控模型进行测试。
在一些实施例中,风控模型创建方法还包括:
部署模块,被配置为部署所述风控模型,用于对所述业务进行风控管理。
在一些实施例中,生成模块包括:
第一选择模块,被配置为基于一组指定特征,从所述原始数据中选择第一数据集;
第二选择模块,被配置为基于指定抽样规则,从所述第一数据集中选择第二数据集;
特征衍生模块,被配置为基于指定特征衍生规则,根据所述第二数据集的特征生成衍生特征,以得到包括所述衍生特征的特征值的第三数据集;以及
样本数据生成模块,被配置为基于所述第三数据集生成所述样本数据。
在一些实施例中,特征衍生模块包括:
特征选择模块,被配置为选择第二数据集的多个特征用于特征衍生;
衍生逻辑设置模块,被配置为设置一个或多个衍生逻辑;
筛选模块,被配置为基于预设的衍生标准验证所述一个或多个衍生逻辑,以筛选出符合衍生标准的衍生逻辑;
衍生模块,被配置为基于所述符合衍生标准的衍生逻辑,由所述第二数据集的多个特征及其特征值衍生得到所述衍生特征及其特征值。
在一些实施例中,样本数据生成模块包括:
转码模块,被配置为基于指定转码方式,将所述第三数据集转换为转码数据;
填充模块,被配置为填充所述转码数据中的缺失值,以生成填充数据;
异常值处理模块,被配置为去除所述填充数据中的异常值,以生成正常数据;以及
去重模块,被配置为去除所述正常数据中的重复值,以生成所述样本数据。
在一些实施例中,所述模型超参数搜索设置值包括以下至少一项:
超参数搜索方法,
训练次数,
训练时长,和
超参数据搜索范围。
在一些实施例中,建模模块包括:
超参数搜索模块,被配置为利用超参数搜索方法在所述超参数据搜索范围中搜索候选最优超参数;
训练模块,被配置为利用所述候选最优超参数训练所述风控模型;
停止模块,被配置为响应于训练所述风控模型的训练次数或所述训练时长超过预设的训练次数和训练时长,停止训练所述风控模型。
在一些实施例中,建模模块包括:
预设模块,被配置为预设一个或多个分箱变量及其阈值;
分箱模块,被配置为基于所述一个或多个分箱变量及其阈值对所述样本数据进行分箱;以及
模型生成模块,被配置为基于分箱后的样本数据生成所述风控模型。
在一些实施例中,获取模块包括以下至少一项:
上传模块,被配置为从用户上传的文件获取所述原始数据;以及
数据库获取模块,被配置为从指定数据库获取所述原始数据。
在一些实施例中,获取模块还包括:
定义模块,被配置为定义所述原始数据的各特征值对应的风控标签值。
在一些实施例中,部署模块包括:
分布式部署模块,被配置为利用容器分布式部署所述风控模型。
在本发明的实施例中提供了一种电子设备,其包括:处理器和存储有计算机程序的存储器,处理器被配置为在运行计算机程序时实施任一根据本发明实施例的方法。另外,还可以提供实现根据本发明实施例的处理装置。
图11示出了一种可以实施本发明实施例的方法或实现本发明实施例的电子设备1100的示意图,在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中,可以利用单个或多个电子设备实施。在一些实施例中,可以利用云端或分布式的电子设备实施。
如图11所示,电子设备1100包括中央处理器(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的程序和/或数据或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序和/或数据而执行各种适当的操作和处理。CPU 1101可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,CPU 1101可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 1103中,还存储有电子设备1100操作所需的各种程序和数据。CPU 1101、ROM1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口
1105也连接至总线1104。
上述处理器与存储器共同用于执行存储在存储器中的程序,所述程序被计算机执行时能够实现上述各实施例描述的模型生成方法、识别方法的步骤或功能。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分
1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。图11中仅示意性示出部分组件,并不意味着计算机***1100只包括图11所示组件。
上述实施例阐明的***、装置、模块或单元,可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网***、智能家居、工业计算机、服务器或者其组合。
在优选的实施例中,所述训练***和方法可以至少部分或全部在云端的机器学习平台或者部分或全部地在自搭建的机器学习***、如GPU阵列中实施或实现。
在优选的实施例中,所述生成装置和方法可以在服务器、例如云端或分布式服务器中实施或实现。在优选实施例中,还可以借助服务器,基于生成结果向中断推送或发送数据或内容。
在本发明实施例中,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时执行任一本发明实施例的方法。
在本发明的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
在根据上文所述和/或根据附图所示的实施例中,提出了欺诈识别模型生成方法以及欺诈识别方法以及相关的电子设备和存储介质。
但是,在本公开的教导下,本发明实施例还可以应用于更广泛的场景,尤其是应用于各种实现“二分类”评估或识别的应用场景,例如但不限于,其他的风控场景或其他的金融场景,如借贷评估;以及金融业以外的场景,例如商业拓展成功度评估、垃圾邮件评估、商品或广告有效推荐度或用户偏好度评估。由此,在本发明的一些实施例中,还提出了一种分类模型生成方法及装置和分类评估方法以及相关的电子设备和存储介质,尤其是提出一种风控模型生成方法及装置和风险评估方法以及相关的电子设备和存储介质,其可以包括与欺诈识别(反欺诈)相关实施例中描述的相应特征。
例如,所述评估或识别模型生成方法可包括:
获取包含多个样本数据的样本集,每个样本数据包括对应多个初始变量的多个变量值和各自的标签。
对所述样本集的多个样本数据进行分箱,根据分箱结果在所述多个初始变量中选定多个分箱变量及其阈值,其中至少一些所述分箱变量具有多个阈值并作为多阈值变量,其余分箱变量具有单个阈值并作为第一单阈值变量;
处理所述多阈值变量以分别生成多个具有单阈值的第二单阈值变量;
将所述第一单阈值变量和第二单阈值变量映射成初始规则;
对所述初始规则进行处理以生成包含多项最终规则的最终规则集。
在本发明的实施例的方法、程序、***、装置等,可以在单个或多个连网的计算机中执行或实现,也可以在分布式计算环境中实践。在本说明书实施例中,在这些分布式计算环境中,可以由通过通信网络而被连接的远程处理设备来执行任务。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本领域技术人员可想到,上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现,可以用软件、硬件和软/硬件结合的方式实现。
除非明确指出,根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本文中,针对本发明的多个实施例进行了描述,但为简明起见,各实施例的描述并不是详尽的,各个实施例之间相同或相似的特征或部分可能会被省略。在本文中,“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中,而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
已参考上述实施例具体示出并描述了本发明的示例性***及方法,其仅为实施本***及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本***及/或方法时对这里描述的***及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。

Claims (14)

1.一种风控模型创建方法,其特征在于,包括:
获取与要进行风控管理的业务相关联的原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;
对所述原始数据进行数据处理,生成样本数据;
预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。
2.根据权利要求1所述的风控模型创建方法,其特征在于,还包括:
基于预定的第二模型评价指标,利用测试数据对所述风控模型进行测试。
3.根据权利要求1所述的风控模型创建方法,其特征在于,还包括:
利用容器分布式部署所述风控模型,用于对所述业务进行风控管理。
4.根据权利要求1所述的风控模型创建方法,其特征在于,所述对所述原始数据进行数据处理,生成样本数据,包括:
基于一组指定特征,从所述原始数据中选择第一数据集;
基于指定抽样规则,从所述第一数据集中选择第二数据集;
基于指定特征衍生规则,根据所述第二数据集的特征生成衍生特征,以得到包括所述衍生特征的特征值的第三数据集;以及
基于所述第三数据集生成所述样本数据。
5.根据权利要求4所述的方法,其特征在于,所述基于指定特征衍生规则,根据所述第二数据集的特征生成衍生特征,以得到包括衍生特征的特征值的第三数据集,包括:
选择第二数据集的多个特征用于特征衍生;
设置一个或多个衍生逻辑;
基于预设的衍生标准验证所述一个或多个衍生逻辑,以筛选出符合衍生标准的衍生逻辑;
基于所述符合衍生标准的衍生逻辑,由所述第二数据集的多个特征及其特征值衍生得到所述衍生特征及其特征值。
6.根据权利要求4或5所述的方法,其特征在于,基于所述第三数据集生成所述样本数据包括:
基于指定转码方式,将所述第三数据集转换为转码数据;
填充所述转码数据中的缺失值,以生成填充数据;
去除所述填充数据中的异常值,以生成正常数据;以及
去除所述正常数据中的重复值,以生成所述样本数据。
7.根据权利要求1所述的方法,其特征在于,所述预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,包括:
在多个备选风控模型算法类型中选择所述预设的一个或多个风控模型算法类型,可选地,所述备选风控模型算法类型包括逻辑回归、极端梯度提升、提升机器、梯度提升、朴素贝叶斯、决策树和随机森林中至少两种;
设置所述模型超参数搜索设置值,所述模型超参数搜索设置值包括超参数搜索方法、训练次数、训练时长和超参数据搜索范围至少一项,可选地所述超参数搜索方法包括树状结构估计方法、网格搜索方法、随机搜索方法、模拟退火方法、朴素进化方法、批量优化方法和黑盒优化方法中至少一种。
8.根据权利要求7所述的方法,其特征在于,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型包括:
利用超参数搜索方法在所述超参数据搜索范围中搜索候选最优超参数;
基于所述候选最优超参数,利用样本数据训练基于所述预设的一个或多个风控模型算法类型的风控模型;
响应于训练所述风控模型的训练次数或所述训练时长超过预设的训练时长,停止所述训练;
基于预定的第一模型评价指标,确定训练得到的最优算法类型和最优超参数值并相应确定最优风控模型用于对所述业务进行风控管理。
9.根据权利要求7或8所述的方法,其特征在于,利用所述样本数据进行训练以生成所述风控模型,还包括:
预设一个或多个分箱变量及其阈值;
基于所述一个或多个分箱变量及其阈值对所述样本数据进行分箱;
基于分箱后的样本数据训练风控模型。
10.根据权利要求7或8所述的方法,其特征在于,利用所述样本数据进行训练以生成所述风控模型,还包括:
基于预设的特征筛选方法筛选样本数据的特征,可选地,所述特征筛选方法包括L1正则化、随机森林算法、指标判断法中至少一种;
基于筛选特征后的样本数据训练风控模型。
11.根据权利要求1所述的方法,其特征在于,所述获取与要进行风控管理的业务相关联的原始数据,包括以下至少一项:
从用户上传的文件获取所述原始数据;以及
从指定数据库获取所述原始数据。
12.一种风控模型创建装置,其特征在于,包括:
获取模块,被配置为获取与要进行风控管理的业务相关联的原始数据,所述原始数据包括对应多个特征的多个特征值和各自的风控标签;
生成模块,被配置为对所述原始数据进行数据处理,生成样本数据;以及
建模模块,被配置为预设一个或多个风控模型算法类型和/或模型超参数搜索设置值,基于预定的第一模型评价指标,利用所述样本数据进行训练以生成用于对所述业务进行风控管理的风控模型,其中所述风控模型为基于所述第一模型评价指标确定的最优算法类型和/或具有基于所述第一模型评价指标确定的最优超参数值。
13.一种电子设备,其特征在于,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行权利要求1至11中任一项所述的方法。
14.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时执行权利要求1至11中任一项所述的方法。
CN202210117865.0A 2022-02-08 2022-02-08 风控模型创建方法、装置、电子设备及存储介质 Pending CN116542511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210117865.0A CN116542511A (zh) 2022-02-08 2022-02-08 风控模型创建方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210117865.0A CN116542511A (zh) 2022-02-08 2022-02-08 风控模型创建方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116542511A true CN116542511A (zh) 2023-08-04

Family

ID=87453020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210117865.0A Pending CN116542511A (zh) 2022-02-08 2022-02-08 风控模型创建方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116542511A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062587A (zh) * 2017-12-15 2018-05-22 清华大学 一种无监督机器学习的超参数自动优化方法及***
CN109635953A (zh) * 2018-11-06 2019-04-16 阿里巴巴集团控股有限公司 一种特征衍生方法、装置及电子设备
CN110334814A (zh) * 2019-07-01 2019-10-15 阿里巴巴集团控股有限公司 用于构建风险控制模型的方法和***
CN110866819A (zh) * 2019-10-18 2020-03-06 华融融通(北京)科技有限公司 一种基于元学习的自动化信贷评分卡生成方法
CN113344700A (zh) * 2021-07-27 2021-09-03 上海华瑞银行股份有限公司 一种基于多目标优化的风控模型构建方法、装置和电子设备
CN113870005A (zh) * 2021-09-17 2021-12-31 百融至信(北京)征信有限公司 超参数的确定方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062587A (zh) * 2017-12-15 2018-05-22 清华大学 一种无监督机器学习的超参数自动优化方法及***
CN109635953A (zh) * 2018-11-06 2019-04-16 阿里巴巴集团控股有限公司 一种特征衍生方法、装置及电子设备
CN110334814A (zh) * 2019-07-01 2019-10-15 阿里巴巴集团控股有限公司 用于构建风险控制模型的方法和***
CN110866819A (zh) * 2019-10-18 2020-03-06 华融融通(北京)科技有限公司 一种基于元学习的自动化信贷评分卡生成方法
CN113344700A (zh) * 2021-07-27 2021-09-03 上海华瑞银行股份有限公司 一种基于多目标优化的风控模型构建方法、装置和电子设备
CN113870005A (zh) * 2021-09-17 2021-12-31 百融至信(北京)征信有限公司 超参数的确定方法及装置

Similar Documents

Publication Publication Date Title
US20180240041A1 (en) Distributed hyperparameter tuning system for machine learning
CN113935434A (zh) 一种数据分析处理***及自动建模方法
US20190080253A1 (en) Analytic system for graphical interpretability of and improvement of machine learning models
CN106095942B (zh) 强变量提取方法及装置
US20140358828A1 (en) Machine learning generated action plan
CN112270547A (zh) 基于特征构造的金融风险评估方法、装置和电子设备
CN111311401A (zh) 一种基于LightGBM的金融违约概率预测模型
US11443207B2 (en) Aggregated feature importance for finding influential business metrics
CN112288455B (zh) 标签生成方法及装置、计算机可读存储介质、电子设备
CN113344700B (zh) 一种基于多目标优化的风控模型构建方法、装置和电子设备
US10963802B1 (en) Distributed decision variable tuning system for machine learning
CN111738331A (zh) 用户分类方法及装置、计算机可读存储介质、电子设备
CN113177700B (zh) 一种风险评估方法、***、电子设备及存储介质
Shukla et al. Comparative analysis of ml algorithms & stream lit web application
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
Maggo et al. A machine learning based efficient software reusability prediction model for java based object oriented software
CN112328869A (zh) 一种用户贷款意愿的预测方法、装置及计算机***
CN111582315A (zh) 样本数据处理方法、装置及电子设备
JP7479251B2 (ja) 計算機システムおよび情報処理方法
KR20180013102A (ko) 신용도를 평가하는 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN113379124A (zh) 基于预测模型的人员稳定性预测方法及装置
US20210356920A1 (en) Information processing apparatus, information processing method, and program
CN111160733A (zh) 一种基于有偏样本的风险控制方法、装置及电子设备
Han et al. Interestingness classification of association rules for master data
CN116542511A (zh) 风控模型创建方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination