CN112950350B - 一种基于机器学习的贷款产品推荐方法及*** - Google Patents

一种基于机器学习的贷款产品推荐方法及*** Download PDF

Info

Publication number
CN112950350B
CN112950350B CN202110165878.0A CN202110165878A CN112950350B CN 112950350 B CN112950350 B CN 112950350B CN 202110165878 A CN202110165878 A CN 202110165878A CN 112950350 B CN112950350 B CN 112950350B
Authority
CN
China
Prior art keywords
information
obtaining
preset
enterprise
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110165878.0A
Other languages
English (en)
Other versions
CN112950350A (zh
Inventor
蒋渊洋
邓杨
陈青山
陈瑜
许国良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110165878.0A priority Critical patent/CN112950350B/zh
Publication of CN112950350A publication Critical patent/CN112950350A/zh
Application granted granted Critical
Publication of CN112950350B publication Critical patent/CN112950350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习的贷款产品推荐方法及***:获得第一企业状态数据信息,获得第一样本数据信息并作为第一输入信息;获得第一筛选指令和业务筛选特征信息,获得第一业务字段表;获得目标模型特征信息并作为第二输入信息;将第一输入信息、第二输入信息输入至第一静态模型中,获得第一输出信息,获得第一静态产品客户推荐名单;获得第二企业状态数据信息,获得动态数据样本集;将动态数据样本集输入至训练LSTM模型,将所述第一静态产品客户推荐名单输入至优化后的所述训练LSTM模型,获得目标产品推荐客户名单。解决了现有技术中存在无法准确的结合企业的固有属性、动态及实际控制人的属性智能的为其匹配合适的产品的技术问题。

Description

一种基于机器学习的贷款产品推荐方法及***
技术领域
本发明涉及机器学习相关领域,尤其涉及一种基于机器学习的贷款产品推荐方法及***。
背景技术
中小微企业是国民经济和社会发展的重要基础,在扩大就业,增加收入,改善民生,促进稳定,国家税收,市场经济等方面有举足轻重的作用。但是中小微企业的数量众多,发展良莠不齐,所处的生命周期也纷纷不同。如何从中识别出真正有贷款需求的中小微企业,并从数量众多的小微快贷产品中挑选出适合的产品推荐给该客户的难度较大。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
现有技术中存在无法准确的结合企业的固有属性、动态及实际控制人的属性智能的为其匹配合适的产品的技术问题。
发明内容
本申请实施例通过提供一种基于机器学习的贷款产品推荐方法及***,解决了现有技术中存在无法准确的结合企业的固有属性、动态及实际控制人的属性智能的为其匹配合适的产品的技术问题,达到既考虑静态的长期不改变的固有企业状态属性,又结合动态的随时间变动的企业实际控制人行为属性,可更智能的根据客户情况进行产品推荐展示,且达到适用范围广、泛化能力强、可处理海量数据的技术效果。
鉴于上述问题,提出了本申请实施例提供一种基于机器学习的贷款产品推荐方法及***。
第一方面,本申请实施例提供了一种基于机器学习的贷款产品推荐方法,所述方法包括:获得第一企业状态数据信息,其中,所述第一企业状态数据信息为静态数据;根据所述第一企业状态数据信息,获得第一样本数据信息;将所述第一样本数据信息作为第一输入信息;获得第一筛选指令和业务筛选特征信息,其中,所述业务筛选特征信息与企业贷款需求之间具有第一关联度;根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行业务筛选之后,获得第一业务字段表;对所述第一业务字段表进行特征筛选,获得目标模型特征信息;将所述目标模型特征信息作为第二输入信息;获得第一静态模型;将所述第一输入信息、第二输入信息输入至所述第一静态模型中,获得所述第一静态模型的第一输出信息,其中,所述第一输出信息为客户运行结果信息;根据所述第一输出信息,获得第一静态产品客户推荐名单;基于GP数据库,获得第一预定时间内的第二企业状态数据信息,其中,所述第二企业状态数据信息为动态数据,且所述第二企业状态数据信息为所有企业访问地址的url集合;对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集;将所述动态数据样本集输入至训练LSTM模型中,对所述训练LSTM模型进行训练和测试,获得优化后的所述训练LSTM模型;将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单。
另一方面,本申请还提供了一种基于机器学习的贷款产品推荐***,所述***包括:第一获得单元,所述第一获得单元用于获得第一企业状态数据信息,其中,所述第一企业状态数据信息为静态数据;第二获得单元,所述第二获得单元用于根据所述第一企业状态数据信息,获得第一样本数据信息;第三获得单元,所述第三获得单元用于将所述第一样本数据信息作为第一输入信息;第四获得单元,所述第四获得单元用于获得第一筛选指令和业务筛选特征信息,其中,所述业务筛选特征信息与企业贷款需求之间具有第一关联度;第五获得单元,所述第五获得单元用于根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行业务筛选之后,获得第一业务字段表;第六获得单元,所述第六获得单元用于对所述第一业务字段表进行特征筛选,获得目标模型特征信息;第七获得单元,所述第七获得单元用于将所述目标模型特征信息作为第二输入信息;第八获得单元,所述第八获得单元用于获得第一静态模型;第一输入单元,所述第一输入单元用于将所述第一输入信息、第二输入信息输入至所述第一静态模型中,获得所述第一静态模型的第一输出信息,其中,所述第一输出信息为客户运行结果信息;第九获得单元,所述第九获得单元用于根据所述第一输出信息,获得第一静态产品客户推荐名单;第十获得单元,所述第十获得单元用于基于GP数据库,获得第一预定时间内的第二企业状态数据信息,其中,所述第二企业状态数据信息为动态数据,且所述第二企业状态数据信息为所有企业访问地址的url集合;第十一获得单元,所述第十一获得单元用于对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集;第二输入单元,所述第二输入单元用于将所述动态数据样本集输入至训练LSTM模型中,对所述训练LSTM模型进行训练和测试,获得优化后的所述训练LSTM模型;第十三获得单元,所述第十三获得单元用于将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单。
第三方面,本发明提供了一种基于机器学习的贷款产品推荐***,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现第一方面所述方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
由于采用了根据所述第一企业的状态数据获得第一样本数据,并将所述样本数据作为第一输入信息,根据所述第一筛选指令和业务筛选特征信息获得第一业务字段表,对所述业务字段表进行特征筛选,获得目标特征信息,将所述目标特征信息作为第二输入信息,将所述第一输入信息、第二输入信息输入第一静态模型,获得所述第一静态模型的第一输出信息,根据所述第一输出信息获得第一静态产品客户推荐名单,基于GP数据库,获得第一预定时间内的第二企业的访问地址的url集合,对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集,将所述动态数据样本集输入至训练LSTM模型,获得优化后的所述训练LSTM模型,将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单的方式,达到既考虑静态的长期不改变的固有企业状态属性,又结合动态的随时间变动的企业实际控制人行为属性,可更智能的根据客户情况进行产品推荐展示,且达到适用范围广、泛化能力强、可处理海量数据的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例一种基于机器学习的贷款产品推荐方法的流程示意图;
图2为本申请实施例一种基于机器学习的贷款产品推荐***的结构示意图;
图3为本申请实施例示例性电子设备的结构示意图。
附图标记说明:第一获得单元11,第二获得单元12,第三获得单元13,第四获得单元14,第五获得单元15,第六获得单元16,第七获得单元17,第八获得单元18,第一输入单元19,第九获得单元20,第十获得单元21,第十一获得单元22,第二输入单元23,第十二获得单元24,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本申请实施例通过提供一种基于机器学习的贷款产品推荐方法及***,解决了现有技术中存在无法准确的结合企业的固有属性、动态及实际控制人的属性智能的为其匹配合适的产品的技术问题,达到既考虑静态的长期不改变的固有企业状态属性,又结合动态的随时间变动的企业实际控制人行为属性,可更智能的根据客户情况进行产品推荐展示,且达到适用范围广、泛化能力强、可处理海量数据的技术效果。下面,将参考附图详细的描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
中小微企业是国民经济和社会发展的重要基础,在扩大就业,增加收入,改善民生,促进稳定,国家税收,市场经济等方面有举足轻重的作用。但是中小微企业的数量众多,发展良莠不齐,所处的生命周期也纷纷不同。如何从中识别出真正有贷款需求的中小微企业,并从数量众多的小微快贷产品中挑选出适合的产品推荐给该客户的难度较大。但现有技术中存在无法准确的结合企业的固有属性、动态及实际控制人的属性智能的为其匹配合适的产品的技术问题。
针对上述技术问题,本申请提供的技术方案总体思路如下:
本申请实施例提供了一种基于机器学习的贷款产品推荐方法,所述方法包括:获得第一企业状态数据信息,其中,所述第一企业状态数据信息为静态数据;根据所述第一企业状态数据信息,获得第一样本数据信息;将所述第一样本数据信息作为第一输入信息;获得第一筛选指令和业务筛选特征信息,其中,所述业务筛选特征信息与企业贷款需求之间具有第一关联度;根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行业务筛选之后,获得第一业务字段表;对所述第一业务字段表进行特征筛选,获得目标模型特征信息;将所述目标模型特征信息作为第二输入信息;获得第一静态模型;将所述第一输入信息、第二输入信息输入至所述第一静态模型中,获得所述第一静态模型的第一输出信息,其中,所述第一输出信息为客户运行结果信息;根据所述第一输出信息,获得第一静态产品客户推荐名单;基于GP数据库,获得第一预定时间内的第二企业状态数据信息,其中,所述第二企业状态数据信息为动态数据,且所述第二企业状态数据信息为所有企业访问地址的url集合;对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集;将所述动态数据样本集输入至训练LSTM模型中,对所述训练LSTM模型进行训练和测试,获得优化后的所述训练LSTM模型;将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单。
在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。
实施例一
如图1所示,本申请实施例提供了一种基于机器学习的贷款产品推荐方法,其中,所述方法包括:
步骤S 100:获得第一企业状态数据信息,其中,所述第一企业状态数据信息为静态数据;
具体而言,所述第一企业为目标企业,所述静态数据为所述第一企业状态属性的静态数据,它包括但不限于第一企业的财务类数据、工商类数据、银行账户类数据、行方预设标签类数据等。
步骤S200:根据所述第一企业状态数据信息,获得第一样本数据信息;
具体而言,所述根据所述第一企业的状态数据获得第一样本数据的过程为样本抽取的过程,由于数据量的庞大和样本集极度不均衡的情况,从原始数据中随机抽取正样本和负样本构成了建模用的数据集,将所述数据集通过简单的随机抽样,分为开发样本和验证样本。
步骤S300:将所述第一样本数据信息作为第一输入信息;
具体而言,将所述样本数据作为后续静态模型构建的第一输入数据待用。
步骤S400:获得第一筛选指令和业务筛选特征信息,其中,所述业务筛选特征信息与企业贷款需求之间具有第一关联度;
步骤S500:根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行业务筛选之后,获得第一业务字段表;
具体而言,通过所述第一筛选指令首先对原始特征根据业务经验进行业务筛选。通过业务理解,对行内数据进行挑选,可能对企业是否有贷款需求的判断提供帮助的字段都予以保留。在不同数据表中,找到初次选出的字段,然后对这些数据表进行合并,最终把所有需要的字段集合在一张表中,即所述第一业务字段表。
步骤S600:对所述第一业务字段表进行特征筛选,获得目标模型特征信息;
步骤S700:将所述目标模型特征信息作为第二输入信息;
具体而言,通过特征工程,依据所述字段表内的字段逻辑性、缺失率、特征衍生、WOE编码和IV值相关性校验,获得目标特征信息,并将所述信息作为第二输入信息。
步骤S800:获得第一静态模型;
步骤S900:将所述第一输入信息、第二输入信息输入至所述第一静态模型中,获得所述第一静态模型的第一输出信息,其中,所述第一输出信息为客户运行结果信息;
进一步而言,所述获得第一静态模型,本申请实施例步骤S800还包括:
步骤S810:获得各个预定静态模型;
步骤S820:将所述标模型特征信息依次输入所述各个预定静态模型中,并采用网格搜索法,调整所述各个预定静态模型的参数,获得所述各个预定静态模型的预测效果最优参数;
步骤S830:根据所述各个预定静态模型的预测效果最优参数,基于准确率、召回率、F1 Score、混淆矩阵和AUC值的方式,获得所述各个预定静态模型的运行效果;
步骤S840:将所述各个预定静态模型的运行效果进行比较之后,获得所述第一静态模型。
具体而言,分别通过样本抽取和特征工程。其中样本抽取,形成了模型input的行,作为第一输入数据,而特征工程则形成了模型input的列,将它作为第二输入数据,它们共同作为模型的输入矩阵,所述静态模型是基于企业属性数据建立的分类模型,所述模型采用机器学习二分类模型,举例而言,所述模型可以为LR,GBDT,Xgboost模型,使用静态数据分析处理步骤生成的输入数据训练集训练以上三种模型,测试集评价模型效果。训练过程中采用网格搜索法,不断调整三种模型参数,计算评价指标,选取预测效果最优的参数。模型分类效果采用准确率、召回率、F1 Score、混淆矩阵和AUC值进行评估。这样,就获得最优参数的LR、GBDT和XGBoost模型进行效果比较,获得所述第一静态模型,本实施例中以第一静态模型为XGBoost二分类静态模型作为优选。进一步来说,还可以对模型的分类结果进行加权,权重可以设定为模型参数自动学习,也可作为超参数人为设定,加权的结果作为最终的判别的标准。将所述第一输入数据和第二输入数据组成的输入矩阵输入所述第一静态模型中。
步骤S1000:根据所述第一输出信息,获得第一静态产品客户推荐名单;
进一步而言,所述根据所述第一输出信息,获得第一静态产品客户推荐名单,本申请实施例步骤S1000还包括:
步骤S1010:根据所述第一输出信息,获得所有客户运行结果信息;
步骤S1020:获得第一预设运行阈值;
步骤S1030:依次判断所述所有客户运行结果信息中是否存在不满足所述第一预设运行阈值的客户运行结果;
步骤S1040:如果存在,则将不满足所述第一预设运行阈值的客户运行结果进行删除之后,获得所述第一静态产品客户推荐名单。
具体而言,所述第一静态产品客户推荐名单为通过第一静态模型分析输入数据,对所述企业进行潜在需求挖掘获得的推荐名单,所述名单中的企业有潜在需求,获得所述名单信息,进一步而言,将所有客户按静态模型运行结果进行排序,获得第一预设运行阈值,保留高于第一预设运行阈值的客户,即可得到静态产品推荐客户名单。
步骤S1100:基于GP数据库,获得第一预定时间内的第二企业状态数据信息,其中,所述第二企业状态数据信息为动态数据,且所述第二企业状态数据信息为所有企业访问地址的url集合;
步骤S1200:对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集;
进一步而言,所:对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集,本申请实施例步骤S1200还包括:
步骤S1210:获得预设url关联信息;
步骤S1220:判断所述第二企业状态数据信息中各个url是否满足所述预设url关联信息;
步骤S1230:如果不满足,则将所述第二企业状态数据信息中不满足所述预设url关联信息的url进行剔除之后,获得第二编码指令;
步骤S1240:根据所述第二编码指令,对所述第二企业状态数据信息中满足所述预设url关联信息的url进行url编码之后,获得第一url编号集合;
步骤S1250:获得所述所有企业在所述第一预设时间内访问url的序列长度;
步骤S1260:根据所述所有企业在所述第一预设时间内访问url的序列长度,获得第一固定长度L,其中,所述第一固定长度L为所述所有企业在所述第一预设时间内访问url的最大序列长度;
步骤S1270:对所述第一url编号集合进行向量化,并映射为M维向量;
步骤S 1280:根据所述第一固定长度L、M维向量,将所述所有企业的访问url记录替换为L×M维矩阵。
进一步而言,所述对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集,本申请实施例步骤S1200还包括:
步骤S1210a:判断所述所有企业中的各个企业在所述第一预设时间内是否购买第一产品,获得第一判断结果;
步骤S 1220a:根据所述第一判断结果,获得第一样本标签集合;
步骤S1230a:将所述第一样本标签集合、所述L×M维矩阵合并之后,获得所述动态数据样本集。
具体而言,从GP数据库中取出特定时间长度T的数据读入程序内存,然后进行数据清洗,所述数据清洗包括:剔除无效url:对于与小微快贷产品无关的url进行剔除;url编码:每个url设置一个非0数字编号,空字符串编号设置为0;序列长度固定:统计所有企业所取时间段内访问url序列长度,取其中的最大值作为固定长度L,每个企业的访问url记录都可表示为L维向量(空位即空字符串,编号为0);编码替换:对url编号进行向量化,映射为M维向量,这样每个企业的访问url记录可替换为LxM维矩阵;合并标签:根据企业在时间T内购买产品与否打上正负样本标签,将企业访问url记录矩阵和正负样本标签合并,即可获得最终动态数据样本集。
步骤S1300:将所述动态数据样本集输入至训练LSTM模型中,对所述训练LSTM模型进行训练和测试,获得优化后的所述训练LSTM模型;
步骤S1400:将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单。
具体而言,所述动态模型是基于企业实际控制人行为属性数据建立分类模型,因为企业控制人产品页面访问数据产生顺序都具备信息含量,所以采用机器学习时间序列分类模型LSTM来进行企业需求产品时机的判别。通过动态数据样本集构建LSTM模型的深度学习框架,对模型进行检验、评估,当所述LSTM模型的效果满足预期要求时,保存所述LSTM模型,并将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得最终的目标产品推荐客户名单;当所述LSTM模型在校验评价的过程中不能满足预期要求时,可以重设超参数和模型框架进行再次训练,直至获得的校验评价结果满足预定要求。达到了既考虑静态的长期不改变的固有企业状态属性,又结合动态的随时间变动的企业实际控制人行为属性,可更智能的根据客户情况进行产品推荐展示,且达到适用范围广、泛化能力强、可处理海量数据的技术效果。
进一步而言,所述根据所述第一企业状态数据信息,获得第一样本数据信息,本申请实施例步骤S200还包括:
步骤S210:根据所述第一企业状态数据信息,获得第一正样本数据和第一负样本数据;
步骤S220:获得第一预设比例;
步骤S230:按照所述第一预设比例,从所述第一正样本数据和所述第一负样本数据中,获得第一建模数据集;
步骤S240:对所述第一建模数据集进行划分之后,获得所述第一样本数据信息,其中,所述第一样本数据信息中包括第一训练集和第二测试集。
具体而言,在样本抽取的过程中,由于数据量的庞大且样本极度不均衡的情况,根据实际情况,举例而言,可以从原始数据中随机抽取20万正样本,120万负样本构成了建模用的数据集,所述第一预设比例为人为设定的比例,这里可以但不限于是7∶3,其中,开发样本为70%占比,验证样本为30%占比。开发样本用于模型参数拟合。验证样本也称预留样本,用于检查在开发样本上建立的模型的稳健性。建模样本与验证样本划分时应保证好坏比例在开发和验证样本中保持一致。
进一步的,所述根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行业务筛选之后,获得第一业务字段表,本申请实施例步骤S500还包括:
步骤S 510:根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行筛选,获得所有初筛字段信息;
步骤S520:获得第一合并指令;
步骤S530:根据所述第一合并指令,将所述所有初筛字段信息进行合并,获得所述第一业务字段表。
具体而言,首先对原始特征根据业务经验进行业务筛选。通过业务理解,对行内数据进行挑选,可能对企业是否有贷款需求的判断提供帮助的字段都予以保留。在不同数据表中,找到初次选出的字段,获得第一合并指令,根据所述合并指令,对这些数据表的初筛字段信息进行合并,最终把所有需要的字段集合在一张表中,获得第一业务字段表。
进一步而言,所述对所述第一业务字段表进行特征筛选,获得目标模型特征信息,本申请实施例步骤S600还包括:
步骤S610a:判断所述第一业务字段表中的各个记录字段是否满足第一预设条件;
步骤S620a:如果不满足所述第一预设条件,则获得第一记录字段信息,其中,所述第一记录字段信息为所有不满足所述第一预设条件的记录字段的集合;
步骤S630a:获得所述第一业务字段表中的各个记录字段的第一缺失率;
步骤S640a:获得预设缺失率阈值;
步骤S650a:依次将所述第一记录字段信息中的各个记录字段的第一缺失率分别与所述预设缺失率阈值进行比对,获得第二记录字段信息和第三记录字段信息,其中,所述第二记录字段信息为所述第一记录字段信息中超过所述预设缺失率阈值的各个记录字段的集合,所述第三记录字段信息为所述第一记录字段信息中未超过所述预设缺失率阈值的各个记录字段的集合;
步骤S660a:获得第一剔除指令;
步骤S670a:根据所述第一剔除指令,将所述第二记录字段信息进行剔除。
进一步而言,本申请实施例还包括:
步骤S610b:判断所述第三记录字段信息中是否存在数值类别型变量;
步骤S620b:如果存在,则采用第一数值对所述数值类别型变量的缺失值进行填补;
步骤S630b:判断所述第三记录字段信息中是否存在数值连续型变量;
步骤S640b:如果存在,则采用第二数值对所述数值连续型变量的缺失值进行填补之后,获得第二业务字段表。
进一步而言,本申请实施例还包括:
步骤S610c:获得预设字段逻辑信息;
步骤S620c:判断所述第二业务字段表是否满足所述预设字段逻辑信息;
步骤S630c:如果不满足,则对不满足所述预设字段逻辑信息的字段进行删除;
步骤S640c:判断删除不满足所述预设字段逻辑信息的字段之后的所述第二业务字段表中的所有特征信息是否满足第二预设条件;
步骤S650c:如果不满足所述第二预设条件,则对不满足所述第二预设条件的特征信息进行衍生计算。
具体而言,所述第一预设条件为所述记录字段是否无缺失的预设条件,当所述第一业务字段表中的各个记录字段不满足所述第一预设条件,表明所述记录字段有缺失,此时获得所述记录字段信息,获得所有的不满足第一预设条件的字段的集合,对业务筛选得到的表中各个记录字段的缺失率进行统计,所述预设缺失率阈值为预先设定的缺失率阈值,举例而言,所述预定缺失率阈值可以为40%,根据所述字段集合中的字段与所述预设缺失率阈值进行比对,删除缺失率超过40%的字段,保留未超过所述预设缺失率阈值的字段,即所述第三记录字段信息。判断所述第三记录字段信息是否存在数值类别型变量,如果存在数值类别型变量,采用第二数值对所述数值连续型变量的缺失值进行填补之后,获得第二业务字段表,举例而言,所述数值填补规则可以是如果是数值类别型变量,用-1填补缺失值;如果是数值连续型变量,则用中位数填充缺失值。所述预设字段逻辑信息为通过多方面检验数据的逻辑合理性设定的。举例而言,所述预设字段的逻辑性可以根据净利润、总资产、企业规模三个字段进行设定,企业规模微、小、中、大型的总资产和净利润均值应该非常明显依次上升的,如果出现某些大中型企业的总资产和微型企业总资产均值接近,则认为这部分数据异常,需要筛除。对于部分需要组合使用的特征进行衍生计算,使用衍生特征来替代原始特征。如需要组合使用企业的收入和成本,则衍生利润特征来替代。
进一步而言,所述对不满足所述第二预设条件的特征信息进行衍生计算之后,本申请实施例步骤S650c还包括:
步骤S650c1:获得第一编码指令;
步骤S650c2:根据所述第一编码指令,获得所有特征变量并对所述所有特征变量的每一个特征变量进行分箱,并获得第一WOE编码值直至获得第M WOE编码值,其中,所述WOE编码值的计算公式为:
Figure BDA0002937838630000161
其中,pyi为所述第一企业状态数据信息中第一属性样本占第一属性总样本的比例;pni为所述第一企业状态数据信息中第二属性样本占第二属性总样本的比例;yi为所述第一属性样本的数量;ni为所述第二属性样本的数量;yT为所述第一属性总样本的数量;nT为所述第二属性总样本的数量;
步骤S650c3:根据所述第一WOE编码值直至所述第MWOE编码值,获得第一IV值直至第MIV值,其中,所述IV值的计算公式为:
Figure BDA0002937838630000162
Figure BDA0002937838630000163
步骤S650c4:获得预设IV值阈值;
步骤S650c5:将所述第一IV值直至所述第MIV值与所述预设IV值阈值范围进行比对,获得第一比对结果;
步骤S650c6:根据所述第一比对结果,将所述第一IV值直至所述第MIV值中不满足所述预设IV值阈值的IV值进行删除之后,获得第一排序列表。
进一步而言,本申请实施例还包括:
步骤S650c61:计算所述第一排序列表中所有特征变量中任意两个特征变量之间的第一相关性;
步骤S650c62:获得预设相关性阈值;
步骤S650c63:判断所述第一相关性是否满足所述预设相关性阈值;
步骤S650c64:如果不满足,则将所述两个特征变量中IV值低的特征变量进行删除之后,获得目标模型特征信息。
具体而言,WOE的全称是Weight of Evidence,即证据权重,WOE是对原始自变量的一种编码形式。要对一个特征变量进行WOE编码,首先需把这个特征变量进行分箱。特征分箱是把连续变量离散化的手段,这样减少了离群值对模型的影响,从而加强了模型的稳定性。分箱后,对于第i个分箱,WOE的计算公式如下:
Figure BDA0002937838630000171
举例而言,pyi是这个组中坏样本的占总的坏样本的比例;pni为这个组好样本的占总的好样本的比例;yi为这个组中坏样本的数量;ni为这个组中好样本的数量;yT为样本中所有坏样本的数量;nr为样本中所有好的数量。IV的全称是Information Value,即信息价值,可通过WOE加权求和得到,衡量自变量对应变量的预测能力。对于第i个分箱,IV的计算公式如下:
Figure BDA0002937838630000172
在计算出各个预选特征变量字段的IV值后,根据IV值排序,获得预设IV值阈值进而完成特征的筛选。IV值高于预设IV值阈值的保留,低于阈值的删除。所述判断所述第一相关性是否满足所述预设相关性阈值的过程为进行相关性检验的过程,根据IV值筛选后的特征变量字段,计算变量两两之间的相关性,排除变量的多重共线性对模型的干扰。如果相关性超过设定阈值的一对变量,选择IV值更高的保留,更低的删除。通过所述特征工程的筛选,获得更加准确的、实用的第二输入数据,进而可获得更加准确的第一静态模型,为后续更智能的根据客户情况进行产品推荐展示,且达到适用范围广、泛化能力强、处理海量数据夯实了基础。
进一步而言,所述将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单,本申请实施例步骤S1400还包括:
步骤S1410:获得所述优化后的所述训练LSTM模型的第二输出信息,其中,所述第二输出信息为所述第一静态产品客户推荐名单的模型运行结果;
步骤S1420:获得第二预设运行阈值;
步骤S1430:根据所述第二输出信息,依次判断所述第一静态产品客户推荐名单的模型运行结果中是否存在不满足所述第二预设运行阈值的客户运行结果;
步骤S1440:如果存在,则将不满足所述第二预设运行阈值的客户运行结果进行删除之后,获得所述目标产品推荐客户名单。
具体而言,将所有客户按动态模型运行结果进行排序,获得第二预设运行阈值,保留高于所述预设运行阈值的客户,删除不满足所述第一预设运行阈值的客户,即可得到最终产品推荐客户名单。
综上所述,本申请实施例所提供的一种基于机器学习的贷款产品推荐方法及***具有如下技术效果:
1、由于采用了根据所述第一企业的状态数据获得第一样本数据,并将所述样本数据作为第一输入信息,根据所述第一筛选指令和业务筛选特征信息获得第一业务字段表,对所述业务字段表进行特征筛选,获得目标特征信息,将所述目标特征信息作为第二输入信息,将所述第一输入信息、第二输入信息输入第一静态模型,获得所述第一静态模型的第一输出信息,根据所述第一输出信息获得第一静态产品客户推荐名单,基于GP数据库,获得第一预定时间内的第二企业的访问地址的url集合,对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集,将所述动态数据样本集输入至训练LSTM模型,获得优化后的所述训练LSTM模型,将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单的方式,达到既考虑静态的长期不改变的固有企业状态属性,又结合动态的随时间变动的企业实际控制人行为属性,可更智能的根据客户情况进行产品推荐展示,且达到适用范围广、泛化能力强、可处理海量数据的技术效果。
2、由于采用了通过所述特征工程的筛选的方式,获得更加准确的、实用的第二输入数据,进而可获得更加准确的第一静态模型,为后续更智能的根据客户情况进行产品推荐展示,且达到适用范围广、泛化能力强、处理海量数据夯实了基础。
实施例二
基于与前述实施例中一种基于机器学习的贷款产品推荐方法同样发明构思,本发明还提供了一种基于机器学习的贷款产品推荐***,如图2所示,所述***包括:
第一获得单元11,所述第一获得单元11用于获得第一企业状态数据信息,其中,所述第一企业状态数据信息为静态数据;
第二获得单元12,所述第二获得单元12用于根据所述第一企业状态数据信息,获得第一样本数据信息;
第三获得单元13,所述第三获得单元13用于将所述第一样本数据信息作为第一输入信息;
第四获得单元14,所述第四获得单元14用于获得第一筛选指令和业务筛选特征信息,其中,所述业务筛选特征信息与企业贷款需求之间具有第一关联度;
第五获得单元15,所述第五获得单元15用于根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行业务筛选之后,获得第一业务字段表;
第六获得单元16,所述第六获得单元16用于对所述第一业务字段表进行特征筛选,获得目标模型特征信息;
第七获得单元17,所述第七获得单元17用于将所述目标模型特征信息作为第二输入信息;
第八获得单元18,所述第八获得单元18用于获得第一静态模型;
第一输入单元19,所述第一输入单元19用于将所述第一输入信息、第二输入信息输入至所述第一静态模型中,获得所述第一静态模型的第一输出信息,其中,所述第一输出信息为客户运行结果信息;
第九获得单元20,所述第九获得单元20用于根据所述第一输出信息,获得第一静态产品客户推荐名单;
第十获得单元21,所述第十获得单元21用于基于GP数据库,获得第一预定时间内的第二企业状态数据信息,其中,所述第二企业状态数据信息为动态数据,且所述第二企业状态数据信息为所有企业访问地址的url集合;
第十一获得单元22,所述第十一获得单元22用于对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集;
第二输入单元23,所述第二输入单元23用于将所述动态数据样本集输入至训练LSTM模型中,对所述训练LSTM模型进行训练和测试,获得优化后的所述训练LSTM模型;
第十二获得单元24,所述第十二获得单元24用于将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单。
进一步的,所述***还包括:
第十三获得单元,所述第十三获得单元用于根据所述第一企业状态数据信息,获得第一正样本数据和第一负样本数据;
第十四获得单元,所述第十四获得单元用于获得第一预设比例;
第十五获得单元,所述第十五获得单元用于按照所述第一预设比例,从所述第一正样本数据和所述第一负样本数据中,获得第一建模数据集;
第十六获得单元,所述第十六获得单元用于对所述第一建模数据集进行划分之后,获得所述第一样本数据信息,其中,所述第一样本数据信息中包括第一训练集和第二测试集。
进一步的,所述***还包括:
第十七获得单元,所述第十七获得单元用于根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行筛选,获得所有初筛字段信息;
第十八获得单元,所述第十八获得单元用于获得第一合并指令;
第十九获得单元,所述第十九获得单元用于根据所述第一合并指令,将所述所有初筛字段信息进行合并,获得所述第一业务字段表。
进一步的,所述***还包括:
第一判断单元,所述第一判断单元用于判断所述第一业务字段表中的各个记录字段是否满足第一预设条件;
第二十获得单元,所述第二十获得单元用于如果不满足所述第一预设条件,则获得第一记录字段信息,其中,所述第一记录字段信息为所有不满足所述第一预设条件的记录字段的集合;
第二十一获得单元,所述第二十一获得单元用于获得所述第一业务字段表中的各个记录字段的第一缺失率;
第二十二获得单元,所述第二十二获得单元用于获得预设缺失率阈值;
第二十三获得单元,所述第二十三获得单元用于依次将所述第一记录字段信息中的各个记录字段的第一缺失率分别与所述预设缺失率阈值进行比对,获得第二记录字段信息和第三记录字段信息,其中,所述第二记录字段信息为所述第一记录字段信息中超过所述预设缺失率阈值的各个记录字段的集合,所述第三记录字段信息为所述第一记录字段信息中未超过所述预设缺失率阈值的各个记录字段的集合;
第二十四获得单元,所述第二十四获得单元用于获得第一剔除指令;
第一剔除单元,所述第一剔除单元用于根据所述第一剔除指令,将所述第二记录字段信息进行剔除。
进一步的,所述***还包括:
第二判断单元,所述第二判断单元用于判断所述第三记录字段信息中是否存在数值类别型变量;
第一填补单元,所述第一填补单元用于如果存在,则采用第一数值对所述数值类别型变量的缺失值进行填补;
第三判断单元,所述第三判断单元用于判断所述第三记录字段信息中是否存在数值连续型变量;
第二十五获得单元,所述第二十五获得单元用于如果存在,则采用第二数值对所述数值连续型变量的缺失值进行填补之后,获得第二业务字段表。
进一步的,所述***还包括:
第二十六获得单元,所述第二十六获得单元用于获得预设字段逻辑信息;
第四判断单元,所述第四判断单元用于判断所述第二业务字段表是否满足所述预设字段逻辑信息;
第一删除单元,所述第一删除单元用于如果不满足,则对不满足所述预设字段逻辑信息的字段进行删除;
第五判断单元,所述第五判断单元用于判断删除不满足所述预设字段逻辑信息的字段之后的所述第二业务字段表中的所有特征信息是否满足第二预设条件;
第一计算单元,所述第一计算单元用于如果不满足所述第二预设条件,则对不满足所述第二预设条件的特征信息进行衍生计算。
进一步的,所述***还包括:
第二十七获得单元,所述第二十七获得单元用于获得第一编码指令;
第二十八获得单元,所述第二十八获得单元用于根据所述第一编码指令,获得所有特征变量并对所述所有特征变量的每一个特征变量进行分箱,并获得第一WOE编码值直至获得第M WOE编码值,其中,所述WOE编码值的计算公式为:
Figure BDA0002937838630000241
其中,pyi为所述第一企业状态数据信息中第一属性样本占第一属性总样本的比例;pni为所述第一企业状态数据信息中第二属性样本占第二属性总样本的比例;yi为所述第一属性样本的数量;ni为所述第二属性样本的数量;yT为所述第一属性总样本的数量;nT为所述第二属性总样本的数量;
第二十九获得单元,所述第二十九获得单元用于根据所述第一WOE编码值直至所述第MWOE编码值,获得第一IV值直至第MIV值,其中,所述IV值的计算公式为:
Figure BDA0002937838630000242
第三十获得单元,所述第三十获得单元用于获得预设IV值阈值;
第三十一获得单元,所述第三十一获得单元用于将所述第一IV值直至所述第MIV值与所述预设IV值阈值范围进行比对,获得第一比对结果;
第三十二获得单元,所述第三十二获得单元用于根据所述第一比对结果,将所述第一IV值直至所述第MIV值中不满足所述预设IV值阈值的IV值进行删除之后,获得第一排序列表。
进一步的,所述***还包括:
第二计算单元,所述第二计算单元用于计算所述第一排序列表中所有特征变量中任意两个特征变量之间的第一相关性;
第三十三获得单元,所述第三十三获得单元用于获得预设相关性阈值;
第六判断单元,所述第六判断单元用于判断所述第一相关性是否满足所述预设相关性阈值;
第三十四获得单元,所述第三十四获得单元用于如果不满足,则将所述两个特征变量中IV值低的特征变量进行删除之后,获得目标模型特征信息。
进一步的,所述***还包括:
第三十五获得单元,所述第三十五获得单元用于获得各个预定静态模型;
第三输入单元,所述第三输入单元用于将所述标模型特征信息依次输入所述各个预定静态模型中,并采用网格搜索法,调整所述各个预定静态模型的参数,获得所述各个预定静态模型的预测效果最优参数;
第三十六获得单元,所述第三十六获得单元用于根据所述各个预定静态模型的预测效果最优参数,基于准确率、召回率、F1 Score、混淆矩阵和AUC值的方式,获得所述各个预定静态模型的运行效果;
第三十七获得单元,所述第三十七获得单元用于将所述各个预定静态模型的运行效果进行比较之后,获得所述第一静态模型。
进一步的,所述***还包括:
第三十八获得单元,所述第三十八获得单元用于根据所述第一输出信息,获得所有客户运行结果信息;
第三十九获得单元,所述第三十九获得单元用于获得第一预设运行阈值;
第七判断单元,所述第七判断单元用于依次判断所述所有客户运行结果信息中是否存在不满足所述第一预设运行阈值的客户运行结果;
第四十获得单元,所述第四十获得单元用于如果存在,则将不满足所述第一预设运行阈值的客户运行结果进行删除之后,获得所述第一静态产品客户推荐名单。
进一步的,所述***还包括:
第四十一获得单元,所述第四十一获得单元用于获得预设url关联信息;
第八判断单元,所述第八判断单元用于判断所述第二企业状态数据信息中各个url是否满足所述预设url关联信息;
第四十二获得单元,所述第四十二获得单元用于如果不满足,则将所述第二企业状态数据信息中不满足所述预设url关联信息的url进行剔除之后,获得第二编码指令;
第四十三获得单元,所述第四十三获得单元用于根据所述第二编码指令,对所述第二企业状态数据信息中满足所述预设url关联信息的url进行url编码之后,获得第一url编号集合;
第四十四获得单元,所述第四十四获得单元用于获得所述所有企业在所述第一预设时间内访问url的序列长度;
第四十五获得单元,所述第四十五获得单元用于根据所述所有企业在所述第一预设时间内访问url的序列长度,获得第一固定长度L,其中,所述第一固定长度L为所述所有企业在所述第一预设时间内访问url的最大序列长度;
第一映射单元,所述第一映射单元用于对所述第一url编号集合进行向量化,并映射为M维向量;
第一替换单元,所述第一替换单元用于根据所述第一固定长度L、M维向量,将所述所有企业的访问url记录替换为L×M维矩阵。
进一步的,所述***还包括:
第九判断单元,所述第九判断单元用于判断所述所有企业中的各个企业在所述第一预设时间内是否购买第一产品,获得第一判断结果;
第四十六获得单元,所述第四十六获得单元用于根据所述第一判断结果,获得第一样本标签集合;
第四十七获得单元,所述第四十七获得单元用于将所述第一样本标签集合、所述L×M维矩阵合并之后,获得所述动态数据样本集。
进一步的,所述***还包括:
第四十八获得单元,所述第四十八获得单元用于获得所述优化后的所述训练LSTM模型的第二输出信息,其中,所述第二输出信息为所述第一静态产品客户推荐名单的模型运行结果;
第四十九获得单元,所述第四十九获得单元用于获得第二预设运行阈值;
第九判断单元,所述第九判断单元用于根据所述第二输出信息,依次判断所述第一静态产品客户推荐名单的模型运行结果中是否存在不满足所述第二预设运行阈值的客户运行结果;
第五十获得单元,所述第五十获得单元用于如果存在,则将不满足所述第二预设运行阈值的客户运行结果进行删除之后,获得所述目标产品推荐客户名单。
前述图1实施例一中的一种基于机器学习的贷款产品推荐方法的各种变化方式和具体实例同样适用于本实施例的一种基于机器学习的贷款产品推荐***,通过前述对一种基于机器学习的贷款产品推荐方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于机器学习的贷款产品推荐***的实施方法,所以为了说明书的简洁,在此不再详述。
示例性电子设备
下面参考图3来描述本申请实施例的电子设备。
图3图示了根据本申请实施例的电子设备的结构示意图。
基于与前述实施例中一种基于机器学习的贷款产品推荐方法的发明构思,本发明还提供一种基于机器学习的贷款产品推荐***,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种基于机器学习的贷款产品推荐方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他***通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本发明实施例提供的一种基于机器学习的贷款产品推荐方法,所述方法包括:获得第一企业状态数据信息,其中,所述第一企业状态数据信息为静态数据;根据所述第一企业状态数据信息,获得第一样本数据信息;将所述第一样本数据信息作为第一输入信息;获得第一筛选指令和业务筛选特征信息,其中,所述业务筛选特征信息与企业贷款需求之间具有第一关联度;根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行业务筛选之后,获得第一业务字段表;对所述第一业务字段表进行特征筛选,获得目标模型特征信息;将所述目标模型特征信息作为第二输入信息;获得第一静态模型;将所述第一输入信息、第二输入信息输入至所述第一静态模型中,获得所述第一静态模型的第一输出信息,其中,所述第一输出信息为客户运行结果信息;根据所述第一输出信息,获得第一静态产品客户推荐名单;基于GP数据库,获得第一预定时间内的第二企业状态数据信息,其中,所述第二企业状态数据信息为动态数据,且所述第二企业状态数据信息为所有企业访问地址的url集合;对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集;将所述动态数据样本集输入至训练LSTM模型中,对所述训练LSTM模型进行训练和测试,获得优化后的所述训练LSTM模型;将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单。解决了现有技术中存在无法准确的结合企业的固有属性、动态及实际控制人的属性智能的为其匹配合适的产品的技术问题,达到既考虑静态的长期不改变的固有企业状态属性,又结合动态的随时间变动的企业实际控制人行为属性,可更智能的根据客户情况进行产品推荐展示,且达到适用范围广、泛化能力强、可处理海量数据的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的***。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令***的制造品,该指令***实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (15)

1.一种基于机器学习的贷款产品推荐方法,其中,所述方法包括:
获得第一企业状态数据信息,其中,所述第一企业状态数据信息为静态数据;
根据所述第一企业状态数据信息,获得第一样本数据信息;
将所述第一样本数据信息作为第一输入信息;
获得第一筛选指令和业务筛选特征信息,其中,所述业务筛选特征信息与企业贷款需求之间具有第一关联度;
根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行业务筛选之后,获得第一业务字段表;
对所述第一业务字段表进行特征筛选,获得目标模型特征信息;
将所述目标模型特征信息作为第二输入信息;
获得第一静态模型;
将所述第一输入信息、第二输入信息输入至所述第一静态模型中,获得所述第一静态模型的第一输出信息,其中,所述第一输出信息为客户运行结果信息;
根据所述第一输出信息,获得第一静态产品客户推荐名单;
基于GP数据库,获得第一预定时间内的第二企业状态数据信息,其中,所述第二企业状态数据信息为动态数据,且所述第二企业状态数据信息为所有企业访问地址的url集合;
对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集;
将所述动态数据样本集输入至训练LSTM模型中,对所述训练LSTM模型进行训练和测试,获得优化后的所述训练LSTM模型;
将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单。
2.如权利要求1所述的方法,其中,所述根据所述第一企业状态数据信息,获得第一样本数据信息,包括:
根据所述第一企业状态数据信息,获得第一正样本数据和第一负样本数据;
获得第一预设比例;
按照所述第一预设比例,从所述第一正样本数据和所述第一负样本数据中,获得第一建模数据集;
对所述第一建模数据集进行划分之后,获得所述第一样本数据信息,其中,所述第一样本数据信息中包括第一训练集和第二测试集。
3.如权利要求1所述的方法,其中,所述根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行业务筛选之后,获得第一业务字段表,所述方法还包括:
根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行筛选,获得所有初筛字段信息;
获得第一合并指令;
根据所述第一合并指令,将所述所有初筛字段信息进行合并,获得所述第一业务字段表。
4.如权利要求1所述的方法,其中,所述对所述第一业务字段表进行特征筛选,获得目标模型特征信息,包括:
判断所述第一业务字段表中的各个记录字段是否满足第一预设条件;
如果不满足所述第一预设条件,则获得第一记录字段信息,其中,所述第一记录字段信息为所有不满足所述第一预设条件的记录字段的集合;
获得所述第一业务字段表中的各个记录字段的第一缺失率;
获得预设缺失率阈值;
依次将所述第一记录字段信息中的各个记录字段的第一缺失率分别与所述预设缺失率阈值进行比对,获得第二记录字段信息和第三记录字段信息,其中,所述第二记录字段信息为所述第一记录字段信息中超过所述预设缺失率阈值的各个记录字段的集合,所述第三记录字段信息为所述第一记录字段信息中未超过所述预设缺失率阈值的各个记录字段的集合;
获得第一剔除指令;
根据所述第一剔除指令,将所述第二记录字段信息进行剔除。
5.如权利要求4所述的方法,其中,所述方法还包括:
判断所述第三记录字段信息中是否存在数值类别型变量;
如果存在,则采用第一数值对所述数值类别型变量的缺失值进行填补;
判断所述第三记录字段信息中是否存在数值连续型变量;
如果存在,则采用第二数值对所述数值连续型变量的缺失值进行填补之后,获得第二业务字段表。
6.如权利要求5所述的方法,其中,所述方法还包括:
获得预设字段逻辑信息;
判断所述第二业务字段表是否满足所述预设字段逻辑信息;
如果不满足,则对不满足所述预设字段逻辑信息的字段进行删除;
判断删除不满足所述预设字段逻辑信息的字段之后的所述第二业务字段表中的所有特征信息是否满足第二预设条件;
如果不满足所述第二预设条件,则对不满足所述第二预设条件的特征信息进行衍生计算。
7.如权利要求6所述的方法,其中,所述对不满足所述第二预设条件的特征信息进行衍生计算之后,所述方法还包括:
获得第一编码指令;
根据所述第一编码指令,获得所有特征变量并对所述所有特征变量的每一个特征变量进行分箱,并获得第一WOE编码值直至获得第M WOE编码值,其中,所述WOE编码值的计算公式为:
Figure FDA0002937838620000041
其中,pyi为所述第一企业状态数据信息中第一属性样本占第一属性总样本的比例;pni为所述第一企业状态数据信息中第二属性样本占第二属性总样本的比例;yi为所述第一属性样本的数量;ni为所述第二属性样本的数量;yT为所述第一属性总样本的数量;nT为所述第二属性总样本的数量;
根据所述第一WOE编码值直至所述第MWOE编码值,获得第一IV值直至第MIV值,其中,所述IV值的计算公式为:
Figure FDA0002937838620000042
Figure FDA0002937838620000043
获得预设IV值阈值;
将所述第一IV值直至所述第MIV值与所述预设IV值阈值范围进行比对,获得第一比对结果;
根据所述第一比对结果,将所述第一IV值直至所述第MIV值中不满足所述预设IV值阈值的IV值进行删除之后,获得第一排序列表。
8.如权利要求7所述的方法,其中,所述方法还包括:
计算所述第一排序列表中所有特征变量中任意两个特征变量之间的第一相关性;
获得预设相关性阈值;
判断所述第一相关性是否满足所述预设相关性阈值;
如果不满足,则将所述两个特征变量中IV值低的特征变量进行删除之后,获得目标模型特征信息。
9.如权利要求1所述的方法,其中,所述获得第一静态模型,包括:
获得各个预定静态模型;
将所述标模型特征信息依次输入所述各个预定静态模型中,并采用网格搜索法,调整所述各个预定静态模型的参数,获得所述各个预定静态模型的预测效果最优参数;
根据所述各个预定静态模型的预测效果最优参数,基于准确率、召回率、F1 Score、混淆矩阵和AUC值的方式,获得所述各个预定静态模型的运行效果;
将所述各个预定静态模型的运行效果进行比较之后,获得所述第一静态模型。
10.如权利要求1所述的方法,其中,所述根据所述第一输出信息,获得第一静态产品客户推荐名单,包括:
根据所述第一输出信息,获得所有客户运行结果信息;
获得第一预设运行阈值;
依次判断所述所有客户运行结果信息中是否存在不满足所述第一预设运行阈值的客户运行结果;
如果存在,则将不满足所述第一预设运行阈值的客户运行结果进行删除之后,获得所述第一静态产品客户推荐名单。
11.如权利要求1所述的方法,其中,所述对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集,包括:
获得预设url关联信息;
判断所述第二企业状态数据信息中各个url是否满足所述预设url关联信息;
如果不满足,则将所述第二企业状态数据信息中不满足所述预设url关联信息的url进行剔除之后,获得第二编码指令;
根据所述第二编码指令,对所述第二企业状态数据信息中满足所述预设url关联信息的url进行url编码之后,获得第一url编号集合;
获得所述所有企业在所述第一预设时间内访问url的序列长度;
根据所述所有企业在所述第一预设时间内访问url的序列长度,获得第一固定长度L,其中,所述第一固定长度L为所述所有企业在所述第一预设时间内访问url的最大序列长度;
对所述第一url编号集合进行向量化,并映射为M维向量;
根据所述第一固定长度L、M维向量,将所述所有企业的访问url记录替换为L×M维矩阵。
12.如权利要求11所述的方法,其中,所述对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集,包括:
判断所述所有企业中的各个企业在所述第一预设时间内是否购买第一产品,获得第一判断结果;
根据所述第一判断结果,获得第一样本标签集合;
将所述第一样本标签集合、所述L×M维矩阵合并之后,获得所述动态数据样本集。
13.如权利要求1所述的方法,其中,所述将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单,包括:
获得所述优化后的所述训练LSTM模型的第二输出信息,其中,所述第二输出信息为所述第一静态产品客户推荐名单的模型运行结果;
获得第二预设运行阈值;
根据所述第二输出信息,依次判断所述第一静态产品客户推荐名单的模型运行结果中是否存在不满足所述第二预设运行阈值的客户运行结果。
14.一种基于机器学习的贷款产品推荐***,其中,所述***包括:
第一获得单元,所述第一获得单元用于获得第一企业状态数据信息,其中,所述第一企业状态数据信息为静态数据;
第二获得单元,所述第二获得单元用于根据所述第一企业状态数据信息,获得第一样本数据信息;
第三获得单元,所述第三获得单元用于将所述第一样本数据信息作为第一输入信息;
第四获得单元,所述第四获得单元用于获得第一筛选指令和业务筛选特征信息,其中,所述业务筛选特征信息与企业贷款需求之间具有第一关联度;
第五获得单元,所述第五获得单元用于根据所述第一筛选指令和所述业务筛选特征信息,对所述第一企业状态数据信息进行业务筛选之后,获得第一业务字段表;
第六获得单元,所述第六获得单元用于对所述第一业务字段表进行特征筛选,获得目标模型特征信息;
第七获得单元,所述第七获得单元用于将所述目标模型特征信息作为第二输入信息;
第八获得单元,所述第八获得单元用于获得第一静态模型;
第一输入单元,所述第一输入单元用于将所述第一输入信息、第二输入信息输入至所述第一静态模型中,获得所述第一静态模型的第一输出信息,其中,所述第一输出信息为客户运行结果信息;
第九获得单元,所述第九获得单元用于根据所述第一输出信息,获得第一静态产品客户推荐名单;
第十获得单元,所述第十获得单元用于基于GP数据库,获得第一预定时间内的第二企业状态数据信息,其中,所述第二企业状态数据信息为动态数据,且所述第二企业状态数据信息为所有企业访问地址的url集合;
第十一获得单元,所述第十一获得单元用于对所述第二企业状态数据信息进行数据清洗处理之后,获得动态数据样本集;
第二输入单元,所述第二输入单元用于将所述动态数据样本集输入至训练LSTM模型中,对所述训练LSTM模型进行训练和测试,获得优化后的所述训练LSTM模型;
第十二获得单元,所述第十二获得单元用于将所述第一静态产品客户推荐名单输入至所述优化后的所述训练LSTM模型中,获得目标产品推荐客户名单。
15.一种基于机器学习的贷款产品推荐***,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现权利要求1-13任一项所述方法的步骤。
CN202110165878.0A 2021-02-06 2021-02-06 一种基于机器学习的贷款产品推荐方法及*** Active CN112950350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110165878.0A CN112950350B (zh) 2021-02-06 2021-02-06 一种基于机器学习的贷款产品推荐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110165878.0A CN112950350B (zh) 2021-02-06 2021-02-06 一种基于机器学习的贷款产品推荐方法及***

Publications (2)

Publication Number Publication Date
CN112950350A CN112950350A (zh) 2021-06-11
CN112950350B true CN112950350B (zh) 2023-02-03

Family

ID=76243026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110165878.0A Active CN112950350B (zh) 2021-02-06 2021-02-06 一种基于机器学习的贷款产品推荐方法及***

Country Status (1)

Country Link
CN (1) CN112950350B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI811745B (zh) * 2021-07-26 2023-08-11 兆豐國際商業銀行股份有限公司 用於預測瀏覽網址類別標籤的伺服器及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930038A (zh) * 2019-11-28 2020-03-27 中国建设银行股份有限公司 一种贷款需求识别方法、装置、终端及存储介质
CN112148758A (zh) * 2020-09-24 2020-12-29 苏州七采蜂数据应用有限公司 一种基于大数据的社区饮食健康管理方法及***
CN112148978A (zh) * 2020-09-24 2020-12-29 苏州七采蜂数据应用有限公司 一种基于互联网的游乐园项目推荐方法及***
CN112232891B (zh) * 2020-12-10 2021-07-09 杭州次元岛科技有限公司 一种基于大数据分析的客户匹配方法和装置

Also Published As

Publication number Publication date
CN112950350A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN110390465A (zh) 业务数据的风控分析处理方法、装置和计算机设备
CN104756106B (zh) 表征数据存储***中的数据源
CN109492945A (zh) 企业风险识别监控方法、装置、设备及存储介质
CN109409677A (zh) 企业信用风险评估方法、装置、设备及存储介质
CN110378786B (zh) 模型训练方法、违约传导风险识别方法、装置及存储介质
CN110188198A (zh) 一种基于知识图谱的反欺诈方法及装置
CN107203774A (zh) 对数据的归属类别进行预测的方法及装置
CN104915879A (zh) 基于金融数据的社会关系挖掘的方法及装置
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN108492001A (zh) 一种用于担保贷款网络风险管理的方法
CN111986027A (zh) 基于人工智能的异常交易处理方法、装置
CN110533525A (zh) 用于评估实体风险的方法及装置
CN113177643A (zh) 一种基于大数据的自动建模***
Nasution et al. Entrepreneurship intention prediction using decision tree and support vector machine
CN112950350B (zh) 一种基于机器学习的贷款产品推荐方法及***
CN112132589A (zh) 一种基于多次融合构建欺诈识别模型的方法
Xie et al. A big data technique for internet financial risk control
CN116911994A (zh) 对外贸易风险预警***
CN111461932A (zh) 基于大数据的行政处罚自由裁量权合理性评估方法及装置
CN116703568A (zh) ***异常交易识别方法及装置
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及***
CN115114851A (zh) 基于五折交叉验证的评分卡建模方法及装置
CN114626940A (zh) 数据分析方法、装置及电子设备
Kulothungan Loan Forecast by Using Machine Learning
Pang et al. Wt model & applications in loan platform customer default prediction based on decision tree algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant