CN114239981A - 资产水平预测方法、装置、设备与存储介质 - Google Patents

资产水平预测方法、装置、设备与存储介质 Download PDF

Info

Publication number
CN114239981A
CN114239981A CN202111575934.4A CN202111575934A CN114239981A CN 114239981 A CN114239981 A CN 114239981A CN 202111575934 A CN202111575934 A CN 202111575934A CN 114239981 A CN114239981 A CN 114239981A
Authority
CN
China
Prior art keywords
asset level
data
prediction
asset
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111575934.4A
Other languages
English (en)
Inventor
陈庆麟
陈婷
吴三平
庄伟亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202111575934.4A priority Critical patent/CN114239981A/zh
Publication of CN114239981A publication Critical patent/CN114239981A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种资产水平预测方法、装置、设备与存储介质,属于机器学***预测模型预测缺失的用户资产水平,得到对应的目标资产水平分数,将所述目标资产水平分数进行排序,并计算对应的排序结果,将所述排序结果输入所述预测曲线,得到所述预测曲线对应的预测资产水平,再对所述预测资产水平进行还原处理,得到目标资产水平。通过拟合曲线修复资产水平预测模型带来的回归效应,从而使得模型预测的资产水平分布和实际资产水平分布基本一致,高低资产水平用户效果也得到保证。

Description

资产水平预测方法、装置、设备与存储介质
技术领域
本发明涉及机器学***预测方法、装置、设备与存储介质。
背景技术
在金融风控领域,用户的资产水平是一个重要评估指标,比如收入、工资、信用额度等。但是,大部分用户资产水平指标是缺失的,需要进行填充。业界的通用做法是,通过在选取的业务样本上,训练机器学***分数,从而弥补缺失用户的资产水平指标。通常来说,模型存在回归效应,因此模型预测的资产水平分数跟实际用户的资产水平的分布会有偏差,模型分数会集聚在均值附近,对低资产水平和高资产水平群体的预测效果偏低,不利于上层业务的使用。
为了解决低资产水平和高资产水平群体的预测效果偏低的问题,现有的技术方案主要有两种,一是从模型上,可以使用性能优异的机器学***或者标准化方法解决。
但是,实际生产数据会有独特性,直接套用模型并不能发挥最好效果,会出现回归现象。另外量纲配平或者标准化方法只能对资产水平预测模型分数进行整体的平移或者拉伸,不能改变总体的分布趋势,分布的回归效应还是不能完全的解决,不能很好地提高预测效果。
发明内容
本发明的主要目的在于提供一种资产水平预测方法、装置、设备与存储介质,旨在解决现有资产水平预测准确性不高问题。
为实现上述目的,本发明提供一种资产水平预测方法,所述资产水平预测方法包括以下步骤:
获取目标数据;
将所述目标数据输入预先构建的资产水平预测模型,得到对应的目标资产水平分数,将所述目标资产水平分数进行排序,得到对应的排序结果;
将所述排序结果输入预先拟合的预测曲线,得到所述预测曲线对应的预测资产水平;
对所述预测资产水平进行还原处理,得到目标资产水平。
可选地,所述获取目标数据之前,所述方法还包括:
获取样本资产水平数据和样本特征;
根据所述样本资产水平数据和所述样本特征构建所述资产水平预测模型。
可选地,所述根据所述样本资产水平和所述样本特征构建资产水平预测模型的步骤包括:
对所述样本资产水平数据进行第一预处理,得到第一资产水平数据;
基于所述第一资产水平数据和所述样本特征构建初始资产水平预测模型;
将所述第一资产水平数据和所述样本特征输入所述初始资产水平预测模型,得到资产水平预测值;
通过所述第一资产水平数据确认模型损失函数,由所述模型损失函数优化初始资产水平预测模型,并计算所述初始资产水平预测模型的评估指标,当所述评估指标达到预设值时,确认所述资产水平预测模型。
可选地,所述获取目标数据之前,所述方法还包括:
获取样本资产水平数据;
根据所述样本资产水平数据拟合预测曲线。
可选地,所述获取样本资产水平数据的步骤包括:
获取初始资产水平数据;
对所述初始资产水平数据进行数据清洗,得到样本资产水平数据。
可选地,所述根据所述样本资产水平数据拟合预测曲线的步骤包括:
对所述样本资产水平数据进行第二预处理,得到第二资产水平数据;
对所述第二资产水平数据进行排序,并计算所述第二资产水平数据对应的分位数;
基于所述分位数和所述第二资产水平数据,拟合预测曲线。
可选地,所述对所述样本资产水平数据进行排序的步骤包括:
将所述样本资产水平数据划分成预设份数,对每一份的所述样本资产水平数据进行排序,得到每一份所述样本资产水平数据对应的局部排序结果;
将所述局部排序结果合并。
此外,为实现上述目的,本发明还提供一种资产水平预测装置,所述装置包括:
获取模块,用于获取目标数据;
预测模型模块,用于将所述目标数据输入预先构建的资产水平预测模型,得到对应的目标资产水平分数,将所述目标资产水平分数进行排序,得到对应的排序结果;
预测模块,用于将所述排序结果输入预先拟合的预测曲线,得到所述预测曲线对应的预测资产水平;
还原模块,用于对所述预测资产水平进行还原处理,得到目标资产水平。
可选地,所述获取模块还用于:
获取样本资产水平数据和样本特征;
根据所述样本资产水平数据和所述样本特征构建所述资产水平预测模型。
可选地,所述获取模块还用于:
对所述样本资产水平数据进行第一预处理,得到第一资产水平数据;
基于所述第一资产水平数据和所述样本特征构建初始资产水平预测模型;
将所述第一资产水平数据和所述样本特征输入所述初始资产水平预测模型,得到资产水平预测值;
通过所述第一资产水平数据确认模型损失函数,由所述模型损失函数优化初始资产水平预测模型,并计算所述初始资产水平预测模型的评估指标,当所述评估指标达到预设值时,确认所述资产水平预测模型。
可选地,所述获取模块还用于:
获取样本资产水平数据;
根据所述样本资产水平数据拟合预测曲线。
可选地,所述获取模块还用于:
获取初始资产水平数据;
对所述初始资产水平数据进行数据清洗,得到样本资产水平数据。
可选地,所述获取模块还用于:
对所述样本资产水平数据进行第二预处理,得到第二资产水平数据;
对所述第二资产水平数据进行排序,并计算所述第二资产水平数据对应的分位数;
基于所述分位数和所述第二资产水平数据,拟合预测曲线。
可选地,所述获取模块还用于:
将所述样本资产水平数据划分成预设份数,对每一份的所述样本资产水平数据进行排序,得到每一份所述样本资产水平数据对应的局部排序结果;
将所述局部排序结果合并。
此外,为实现上述目的,本发明还提供一种资产水平预测设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的资产水平预测程序,所述资产水平预测程序配置为实现如上所述的资产水平预测方法的步骤。
此外,为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有资产水平预测程序,所述资产水平预测程序被处理器执行时实现如上所述的资产水平预测方法的步骤。
本发明实施例提出的资产水平预测方法、装置、设备与存储介质,通过获取样本资产水平数据和样本特征,根据所述样本资产水平数据拟合预测曲线,再由样本资产水平数据和样本特征建立的资产水平预测模型,通过所述资产水平预测模型对获取的目标数据进行预测,得到对应的目标资产水平分数,将所述目标资产水平分数进行排序,并计算对应的排序结果,将所述排序结果输入所述预测曲线,得到所述预测曲线对应的预测资产水平,再对所述预测资产水平进行还原处理,得到目标资产水平。本发明通过建立资产水平预测模型,并且通过损失函数优化了资产水平预测模型的精准性,再用该资产水平预测模型预测目标用户的资产水平,进而通过拟合的曲线得到不同占比用户对应的资产水平情况,修复模型的回归效应,得到能够更加真实刻画用户的资产水平的目标资产水平,提高了资产水平预测的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的资产水平预测设备的结构示意图;
图2为本发明资产水平预测方法一实施例的流程示意图;
图3为洛伦兹分布曲线;
图4为本发明资产水平预测方法一实施例的技术流程图;
图5为本发明资产水平预测方法一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的资产水平预测设备结构示意图。
如图1所示,该资产水平预测设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对资产水平预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作***、数据存储模块、网络通信模块、用户接口模块以及资产水平预测程序。
在图1所示的资产水平预测设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明资产水平预测设备中的处理器1001、存储器1005可以设置在资产水平预测设备中,所述资产水平预测设备通过处理器1001调用存储器1005中存储的资产水平预测程序,并执行本发明实施例提供的资产水平预测方法。
本发明实施例提供了一种资产水平预测方法,参照图2,图2为本发明一种资产水平预测方法第一实施例的流程示意图。
本实施例中,所述资产水平预测方法包括:
步骤S10,获取目标数据;
步骤S20,将所述目标数据输入预先构建的资产水平预测模型,得到对应的目标资产水平分数,将所述目标资产水平分数进行排序,得到对应的排序结果;
步骤S30,将所述排序结果输入预先拟合的预测曲线,得到所述预测曲线对应的预测资产水平;
步骤S40,对所述预测资产水平进行还原处理,得到目标资产水平。
本实施例资产水平预测方法运用于理财机构或者银行***等金融风控机构的资产水平预测设备中。在本实施例中,资产水平为金融风控过程中需要参考的数据,也即用户的资产评级。在进行金融风控的时候,业务人员需要根据用户的资产情况对用户金融情况进行评估,以更好地提供服务。资产水平包括用户的工资收入、***额度、公积金水平等,但大部分用户缺失这些真实的资产水平指标,比如A用户仅有公积金水平这一项数据,没有其他的资产信息,那么我们需要去获取A用户其他的资产指标以更完整地刻画用户资产水平。因此,为了得到用户的这些资产指标,可以通过在选取的样本数据上训练机器学***预测目标用户的资产水平分数,从而弥补缺失用户的资产水平指标。
本实施例为了解决资产水平缺失问题,通过预构建的资产水平预测模型得到目标用户的目标资产水平分数,使得预测的资产水平分数跟实际分数尽量接近,再将目标资产水平分数的排序结果输入预先构建的预测曲线修复资产水平预测模型带来的回归效应,从而使得资产水平预测模型预测的资产水平分布和实际资产水平分布基本一致,高低资产水平用户效果也得到保证,业务可以根据实际的资产水平分布,来构建业务规则和指标,保证业务的一致性和稳定性。
以下将对各个步骤进行详细说明:
步骤S10,获取目标数据;
在一实施例中,获取待预测的目标数据。可以理解的,为了预测得到缺失的资产水平,我们需要获取缺失用户的目标数据,目标数据为用户提供的基本信息、资产信息,比如:用户的姓名、性别、年龄、收入情况、职业、编号等等。
步骤S20,将所述目标数据输入预先构建的资产水平预测模型,得到对应的目标资产水平分数,将所述目标资产水平分数进行排序,得到对应的排序结果;
在一实施例中,将所述目标数据输入预先构建的资产水平预测模型,通过所述资产水平对样本的资产水平进行预测,得到对应的目标资产水平分数,将目标资产水平分数进行排序,得到排序结果。具体的,将目标用户的目标资产水平作为Y值输入资产水平预测模型,进行预测,得到对应的目标资产水平分数,再将这些分数一一从小到大的排序,并且计算在总体所在的位置百分比用于输入拟合曲线。可以理解的,通过模型拟合的资产水平分数跟实际的资产水平往往比较接近,保序性也相对高,但只是值都往均值附近集聚,例如:将目标数据中月收入中将小于1000和大于20000的资产分数过滤,然后取整到1-20分段,模型预测的分数分布更加的往4-6分段集聚,跟实际的分布有较大的偏差。同时,资产水平的累计人口分布也会跟实际的有偏差,例如:在进行统计时发现,当纵坐标表示资产水平区间,横坐标表示百分位点时,实际的资产水平区间在1-20,但是模型预测的资产水平分数分布区间是3-15之间,更加的聚集了,这是模型预测的回归效应,总体预测值往均值集中。因此,我们需要借助拟合曲线修复模型的回归效应。
步骤S30,将所述排序结果输入预先拟合的预测曲线,得到所述预测曲线对应的预测资产水平;
在一实施例中,将计算得到的位置百分比输入预测曲线,得到对应的预测资产水平。可以理解的,在上述步骤S20中基于样本数据拟合预测曲线后,我们可以通过拟合的曲线来得到预测资产水平,具体的,将位置百分比作为预测曲线的x值输入,得到对应的y值,也即预测资产水平。
步骤S40,对所述预测资产水平进行还原处理,得到目标资产水平。
在一实施例中,对所述预测曲线得到的预测资产水平进行还原处理,得到目标资产水平。可以理解的,由曲线得到的预测资产水平是经过曲线处理的,得到不是真实值。例如,排序得到的是位置百分比数据,将该位置百分比作为x值输入预测曲线中,得到对应的y值也即预测资产水平,但是这个y值是经过曲线得到的,和真实值存在区别,比如曲线在输入值的时候做了归一化处理,对应的得到的预测资产水平也是经过处理后的数值,并不是实际值,因此想要得到真实值的话,就需要对所述预测资产水平进行还原处理,比如之前做的是归一化处理,那么在此就进行反归一化处理,以还原真实的目标资产水平。
本实施例通过将目标数据输入预先构建的资产水平预测模型,预测缺失的用户资产水平分数,使得预测的目标资产水平分数跟实际分数尽量接近,通过对目标资产水平分数进行排序,把排序结果输入拟合预测曲线,修复资产水平预测模型带来的回归效应,从而使得模型预测的资产水平分布和实际资产水平分布基本一致,对于高低资产水平用户的预测效果也得到提升。
进一步地,基于本发明资产水平预测方法第一实施例,提出本发明资产水平预测方法第二实施例。
资产水平预测方法第二实施例与资产水平预测方法第一实施例的区别在于,所述获取目标数据之前,所述方法还包括:
步骤S11,获取样本资产水平数据和样本特征;
步骤S12,根据所述样本资产水平数据和所述样本特征构建所述资产水平预测模型。
本实施例通过获取样本资产水平数据和样本特征,根据样本资产水平数据和样本特征,进行资产水平预测模型的构建,以进行目标用户资产水平的预测。
以下将对各个步骤进行详细说明:
步骤S11,获取样本资产水平和样本特征;
在一实施例中,获取样本资产水平和样本特征。可以理解的,为了后续进行预测,我们需要首先获得样本的数据,具体的,可以根据用户以往办理过业务的记录,从中获取样本资产水平,比如:A用户年收入30万、B用户月收入5000元、C用户公积金每月3000元等等;样本特征,是用于辅助我们得到资产水平的特征,这些特征可以根据来源于用户基础画像、用户资产属性、用户的使用行为,比如用户的姓名、性别、年龄、职业等。比如D用户与A用户的职业相同,但是D用户的收入数据是缺失的,那么在一实施例中,可以将D用户的年收入也作为30万作为评估D用户资产水平的数据,当然也可以参考其他特征辅助判断。
步骤S12,根据所述样本资产水平数据和所述样本特征构建所述资产水平预测模型。
在一实施例中,根据样本资产水平数据和对应的样本特征构建资产水平预测模型。可以理解的,因为我们的目的是获取资产水平,在数据不完整的情况下,需要通过样本资产水平和样本特征进行缺失样本资产水平的预测,通过机器学***预测模型。具体的,基于回归分析是一种预测建模技术的方法,用于研究因变量(目标)和自变量(预测器)之间的关系,得到样本资产水平数据和样本特征后,我们可以使用线性回归、逻辑回归、决策树和随机森林等方法构建,在此不做限定。可以理解的,通过机器学***数据和样本特征中,提取特征集和标签,切分训练集、验证集(开发集)、测试集,其中,训练集用于训练模型(模型的学***预测模型。
进一步地,在一实施例中,所述根据所述样本资产水平和所述样本特征构建资产水平预测模型的步骤包括:
步骤S121,对所述样本资产水平数据进行第一预处理,得到第一资产水平数据;
步骤S122,基于所述第一资产水平数据和所述样本特征构建初始资产水平预测模型。
步骤S123,将所述第一资产水平数据和所述样本特征输入所述初始资产水平预测模型,得到资产水平预测值;
步骤S124,通过所述第一资产水平数据确认模型损失函数,由所述模型损失函数优化初始资产水平预测模型,并计算所述初始资产水平预测模型的评估指标,当所述评估指标达到预设值时,确认所述资产水平预测模型。
本实施例通过对样本资产水平数据进行第一预处理,得到第一资产水平数据,基于第一资产水平数据和获取的样本特征构建初始资产水平预测模型,再由初始资产水平预测模型得到预测值,通过初始资产水平预测模型的损失函数对模型进行优化,并进行模型评估,以初始资产水平预测模型优化后得到的模型作为资产水平预测模型。
以下将对各个步骤进行详细说明:
步骤S121,对所述样本资产水平数据进行第一预处理,得到第一资产水平数据;
在一实施例中,对获取的样本资产水平数据进行第一预处理,得到第一资产水平数据。可以理解的,在构建模型的过程中,需要对数据进行处理,像本实施例的数据通常为金融数据,数值较大,如果直接使用原始数据进行模型训练较为困难。例如:样本y值区间为1000-40000,y值区间太大,对模型来说不好,用其他收窄值域的方法,比如log函数,可以取ln、log2、log10,或者用最大最小值法,在本实施例中我们优选地使用ln进行预处理。
步骤S122,基于所述第一资产水平数据和所述样本特征构建初始资产水平预测模型;
在一实施例中,基于第一资产水平数据和样本特征,构建得到资产水平预测模型。在一实施例中,根据第一资产水平数据和样本特征,构建初始资产水平预测模型。可以理解的,由于回归效应的存在我们需要对于构建的初始资产水平模型进行调优,以达到更好的预测效果。由于业务使用需要可解析性和能够微调,为此我们使用当前性能优异的Xgboost模型。Xgboost是增强决策树模型,Xgboost采用了随机森林的思想,对字段进行抽样,既可以防止过拟合,也可以降低模型的计算量,并且XGBoost在损失函数中加入了正则项,用来控制模型的复杂度,进而可以防止模型的过拟合,因此性能稳定,可解释性强,运行效率高。
步骤S123,将所述第一资产水平数据和所述样本特征输入所述初始资产水平预测模型,得到资产水平预测值;
在一实施例中,将第一资产水平数据和样本特征输入初始资产水平预测模型,由初始资产水平预测模型输出资产水平预测值。可以理解的,为了优化模型,我们需要获取预测值并对预测值进行分析,因此,将第一资产水平数据作为y值,并将对应的样本特征输入初始资产水平预测模型后,获取一个预测的y值。
步骤S124,通过所述第一资产水平数据确认模型损失函数,由所述模型损失函数优化初始资产水平预测模型,并计算所述初始资产水平预测模型的评估指标,当所述评估指标达到预设值时,确认所述资产水平预测模型。
在一实施例中,根据第一资产水平数据来确认模型损失函数,然后用该模型损失函数优化模型生成,并计算优化后模型的评估指标,当评估指标达到要求,也即预设值的时候,得到资产水平预测模型。在机器学***预测模型,我们需要由损失函数来指导模型生成,优化梯度。具体的,通过选择回归模型损失函数进行计算,例如:平方误差损失函数(mean square error,MSE)、平均绝对误差损失函数(mean absolute error,MAE)、Huber损失函数、Log-Cosh等等。但是,如果直接使用广泛的MSE和MAE作为损失函数,那么模型训练后预测的资产水平会往均值和中值集中,就会出现我们通常所说的回归效应,总体的准确率也不会太高。这是因为资产水平分布往往会集中在低分数区间,所以在模型损失函数选择上,我们对低分数区间会有更大的权重,选择Tweedie优化函数能够解决这个问题。Tweedie分布是poisson和gamma分布的叠加,根据不同的p值变化出不同的分布形态,参照图5,图5为p=1.8情况下的tweedie分布图,跟资产水平分布类似。Tweedie分布的定义如下:
var(Y)=δ2μp
Figure BDA0003422749500000111
Figure BDA0003422749500000112
在模型优化后,还需要通过评估指标来评估模型,可以通过平均绝对误差(MeanAbsolute Error)、均方误差(Mean Square Error)、根均方误差(Root Mean SquareError)、R Squared等作为评估指标来评估,评估指标的选择具体取决于我们要尝试解决的问题,在有些情况下损失函数也可以直接作为评估指标。
本实施例通过对样本资产水平数据进行第一预处理,得到更适合模型构建的第一资产水平数据,再根据第一资产水平数据和样本特征构建资产水平预测模型。为了优化模型,在构建资产水平预测模型的过程中,首先构建了一个初始预测模型,再通过根据第一资产水平数据选择的损失函数进行模型优化,通过评估指标对模型进行效果评估,当模型的评估指标达到预设值的时候,得到资产水平预测模型。本实施例针对样本资产水平数据的特性,进行了预处理,并且根据样本资产水平数据选择合适的算法及损失函数,提高了模型预测的准确率。
进一步地,基于本发明资产水平预测方法第一、二实施例,提出本发明资产水平预测方法第三实施例。
资产水平预测方法第三实施例与资产水平预测方法第一、二实施例的区别在于,所述获取目标数据之前,所述方法还包括:
步骤S13,获取样本资产水平数据;
步骤S14,根据所述样本资产水平数据拟合预测曲线。
在一实施例中,根据得到的样本资产水平数据进行预测曲线的拟合。其中,拟合是通过诸如采样、实验等方法获得若干离散的数据后,根据这些数据,我们往往希望得到一个连续的函数(也就是曲线)或者更加密集的离散方程与已知数据相吻合,这过程就叫做拟合(fitting)。可以理解的,在得到样本资产水平数据后,如果对所有样本资产水平数据进行统计,可以得到样本的样本资产水平落在某个区间内概率,比如有百分之二十的用户月收入在2000~5000元这个区域内,样本与样本的资产水平分布是满足一种分布曲线的。拟合预测曲线可以通过曲线拟合,即用函数拟合,或者是分段拟合,在不同段上用不同的低次多项式进行拟合等等。比如:在坐标轴上画出数据的散点图,通过观察选择几种合适的曲线分别拟合,通过比较,哪条曲线的最小二乘指标J最小即为最好的拟合曲线,使用这个曲线进行拟合。
进一步地,在一实施例中,所述获取样本资产水平数据的步骤包括:
步骤S131,获取初始资产水平数据;
在一实施例中,获取初始样本资产水平数据。当获取数据的时候,在一实施例中,我们可以将从业务数据库中获取样本数据直接作为样本资产水平数据来用,但是为了使用更优质的数据进行分析预测,本实施例将直接获取到的未进行处理的数据作为初始样本资产水平,以进一步地在后续过程中对初始样本资产水平数据进行处理。
步骤S132,对所述初始资产水平数据进行数据清洗,得到样本资产水平数据。
在一实施例中,我们对获取的初始样本资产数据进行数据清洗,得到样本资产水平数据。可以理解的,在得到样本数据后,通常样本数据中可能存在异常值(离群点),重复数据(Duplicate Data)以及噪声数据。其中,噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,比如被测变量的随机误差或者方差。这些数据对数据的分析造成了干扰,我们需要对获取的初始样本资产水平进行数据清洗,以去除其中的异常数据,将清洗后的数据作为样本资产水平。数据清洗方法可以有多种,例如:A样本月收入有1000万、B样本月收入为0,这些数据可以认为是不合理的异常值,因此可以对这些数据做剔除处理;或者是有两份A样本的数据,这样就属于是重复的数据,需要进行去重处理;噪声数据可以用分箱法来光滑有序数据值,也可以绘图进行直观的观察人工筛查,还可以通过设定警告规则,凡是不在此规则范围内的,进行警告,然后人工处理异常值。需要说明的是,在进行资产水平预测模型构建的时候也需要获取样本资产水平数据,同样可以进行数据清洗,以提高样本数据的质量。
进一步地,在一实施例中,所述根据所述样本资产水平数据拟合预测曲线的步骤包括:
步骤S141,对所述样本资产水平数据进行第二预处理,得到第二资产水平数据;
在一实施例中,在进行曲线拟合之前,把获取的样本资产水平数据进行第二预处理,得到第二资产水平数据。具体的,进行第二预处理,是因为一些数据可能会影响曲线的拟合能力,或者影响拟合速度。预处理的方式可以有很多,在此不加赘述,本实施例可以对数据进行归一化,数据归一化是为了解决量纲的问题,使数据映射到同一尺度。在本实施例中优选使用极值归一化,极值归一化就是将样本值减去样本最小值除以样本最大值和样本最小值的差,将数据映射到0-1之间。经过研发人员验证,使用极值归一化的效果较好,当然其他归一化方法也可以实现数据的归一化,比如均值方根归一化。
步骤S142,对所述第二资产水平数据进行排序,并计算所述第二资产水平数据对应的分位数;
在一实施例中,对获取的第二资产水平数据进行排序,计算排序后的分位数。其中,分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为n个等份的数值点,分位数指的就是连续分布函数中的一个点,这个点对应概率p。可以理解的,在实际应用中,这些资产指标的总体分布往往是呈洛伦兹分布,洛伦兹分布曲线的比较典型的应用是研究一个国家或者地区收入和财富分配不平等的问题,如图3所示洛伦兹分布曲线,横轴是人口百分比累计,纵轴是收入百分比累计,所以某个点代表当前x%的人占了社会总收入的y%,从坐标原点到正方形相应另一个顶点的对角线为均等线,即收入分配绝对平等线,这一般是不存在的。实际收入分配曲线即洛伦兹曲线都在均等线的右下方,如曲线1、曲线2。因此,为了进行预测曲线的拟合我们可以参考拟合洛伦兹曲线,对数据进行相似的处理,也即排序和计算分位数。
步骤S143,基于所述分位数和所述第二资产水平数据,拟合预测曲线。
在一实施例中,根据分位数及其对应资产水平,拟合洛伦兹曲线。在计算得到分位数后,用分位数和对应的资产水平进行曲线拟合。具体的,用解析表达式逼近离散数据的方法,或者最小二乘法。因为通过研究发现资产水平的指标基本是类洛伦兹曲线的,因此,在一实施例中,我们可以拟合得到洛伦兹曲线,当然此处也可以使用非洛伦兹的其他分布曲线。
需要说明的,在本实施例中,把第二预处理后的第二资产水平数据作为样本资产水平,也即不直接使用原始的样本资产水平数据,而是使用第二预处理后的数据。需要说明的是,上述第一预处理的方法可以和第二预处理的方法相同,比如都是进行归一化处理,区别在于,第一预处理是针对模型构建过程进行的样本资产水平数据处理,第二预处理是针对拟合曲线过程做的数据处理。
进一步地,在一实施例中,所述对所述样本资产水平数据进行排序的步骤包括:
步骤a,将所述样本资产水平数据划分成预设份数,对每一份的所述样本资产水平数据进行排序,得到每一份所述样本资产水平数据对应的局部排序结果;
步骤b,将所述局部排序结果合并。
在一实施例中,将样本资产水平数据划分成预设份数,然后对每一份的样本资产水平数据进行局部排序,再将局部排序得到的结果拼接在一起。由于我们的数据量可能比较大,如果依此进行排序的效率较低。假设我们的数据有100亿的用户,如果我们直接把数据从1排到100亿,那么在排序过程中进行比较是十分麻烦且耗时的,那么我们可以将数据截成10段,根据大小进行划分排序,如果我们对数据进行归一化处理,那么我们的数据区间就在0~1,因此就可以把数据0~0.1的部分进行排序、0.1~0.2的部分进行排序、0.3~0.4的部分进行排序……,把切分成十份。还原回原数据就是每10亿进行一次排序,然后再合并成100亿,就不需要比较那么多了,也即子问题分解,分十个线程进行分布式排序,最后将排序好的数据按标号拼接回去,以提高排序速度。
参照图4,图4为本发明一实施例的技术流程图,对本发明一实施例资产水平预测方法进行解释,首先将样本和样本特征输入,也即获取样本资产特征数据和样本特征,将样本资产特征作Y值,对Y值进行清洗和噪声处理,之后数据处理将分为两个部分,一部分是对Y值进行log化处理,也即第一预处理,之后基于xgboost模型设置tweedie损失函数,进行资产水平预测模型的训练,判断模型的准确率,当资产水平预测模型的准确率达到预期也即预设值时,使用该模型进行目标用户预测,也即将目标数据输入资产水平预测模型,得到资产水平预测分数,并进行资产水平预测分数排序;另一部分对样本的Y值进行归一化处理,接着进行排序并计算分位数,根据分位数拟合洛伦兹曲线,得到洛伦兹曲线对应的参数,将由资产水平预测模型得到的大盘排序值输入拟合得到的洛伦兹曲线,得到洛伦兹值,也即预测资产水平,将洛伦兹值还原到真实资产水平值,输出结果。
需要说明的是,在获取目标数据之前拟合预测曲线和构建资产水平预测模型可以同时进行,也可以先进行其中一个,在此不限定执行的顺序,当同时进行的时候,可以只获取一次样本资产水平数据,构建资产水平预测模型的样本特征可以另行获取。
此外,预测曲线和资产水平预测模型可以部署在离线侧和在线侧,在线侧指的是提供一种实时的服务,比如有一个新用户,那我们就立刻将他对应的特征输入到资产水平预测模型中,然后返回一个资产水平结果,如果是部署在离线侧的话,不会实时返回,可能把一周的数据一次性一起输入,获取对应的资产水平。部署在离线侧和在线侧的时效性不同,因此可以实现不同的效率和性能要求,使业务更加稳定。
本实施例通过对获取样本资产水平数据,并且进行第二预处理,优化获取的样本资产水平数据,然后将第二预处理后得到的第二资产水平数据进行排序,并且在对第二资产水平进行排序的时候将样本数据集划分成多个部分,进行局部排序,以实现快速排序,进而计算第二资产水平的分位数,进行预测曲线拟合,提高了预测曲线拟合全过程的速度,并且能够得到更优、更准确的曲线。
本发明还提供一种资产水平预测装置。如图5所示,图5为本发明资产水平预测方法一实施例的功能模块示意图。
本发明资产水平预测装置包括:
获取模块10,用于获取目标数据;
预测模型模块20,用于将所述目标数据输入预先构建的资产水平预测模型,得到对应的目标资产水平分数,将所述目标资产水平分数进行排序,得到对应的排序结果;
预测模块30,用于将所述排序结果输入预先拟合的预测曲线,得到所述预测曲线对应的预测资产水平;
还原模块40,用于对所述预测资产水平进行还原处理,得到目标资产水平。
可选地,所述获取模块还用于:
获取样本资产水平数据和样本特征;
根据所述样本资产水平数据和所述样本特征构建所述资产水平预测模型。
可选地,所述获取模块还用于:
对所述样本资产水平数据进行第一预处理,得到第一资产水平数据;
基于所述第一资产水平数据和所述样本特征构建初始资产水平预测模型;
将所述第一资产水平数据和所述样本特征输入所述初始资产水平预测模型,得到资产水平预测值;
通过所述第一资产水平数据确认模型损失函数,由所述模型损失函数优化初始资产水平预测模型,并计算所述初始资产水平预测模型的评估指标,当所述评估指标达到预设值时,确认所述资产水平预测模型。
可选地,所述获取模块还用于:
获取样本资产水平数据;
根据所述样本资产水平数据拟合预测曲线。
可选地,所述获取模块还用于:
获取初始资产水平数据;
对所述初始资产水平数据进行数据清洗,得到样本资产水平数据。
可选地,所述获取模块还用于:
对所述样本资产水平数据进行第二预处理,得到第二资产水平数据;
对所述第二资产水平数据进行排序,并计算所述第二资产水平数据对应的分位数;
基于所述分位数和所述第二资产水平数据,拟合预测曲线。
可选地,所述获取模块还用于:
将所述样本资产水平数据划分成预设份数,对每一份的所述样本资产水平数据进行排序,得到每一份所述样本资产水平数据对应的局部排序结果;
将所述局部排序结果合并。
本发明还提供一种存储介质。
本发明存储介质上存储有资产水平预测程序,所述资产水平预测程序被处理器执行时实现如上所述的资产水平预测方法的步骤。
其中,在所述处理器上运行的资产水平预测程序被执行时所实现的方法可参照本发明资产水平预测理方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种资产水平预测方法,其特征在于,所述资产水平预测方法包括以下步骤:
获取目标数据;
将所述目标数据输入预先构建的资产水平预测模型,得到对应的目标资产水平分数,将所述目标资产水平分数进行排序,得到对应的排序结果;
将所述排序结果输入预先拟合的预测曲线,得到所述预测曲线对应的预测资产水平;
对所述预测资产水平进行还原处理,得到目标资产水平。
2.如权利要求1所述的资产水平预测方法,其特征在于,所述获取目标数据之前,所述方法还包括:
获取样本资产水平数据和样本特征;
根据所述样本资产水平数据和所述样本特征构建所述资产水平预测模型。
3.如权利要求2所述的资产水平预测方法,其特征在于,所述根据所述样本资产水平和所述样本特征构建资产水平预测模型的步骤包括:
对所述样本资产水平数据进行第一预处理,得到第一资产水平数据;
基于所述第一资产水平数据和所述样本特征构建初始资产水平预测模型;
将所述第一资产水平数据和所述样本特征输入所述初始资产水平预测模型,得到资产水平预测值;
通过所述第一资产水平数据确认模型损失函数,由所述模型损失函数优化初始资产水平预测模型,并计算所述初始资产水平预测模型的评估指标,当所述评估指标达到预设值时,确认所述资产水平预测模型。
4.如权利要求1所述的资产水平预测方法,其特征在于,所述获取目标数据之前,所述方法还包括:
获取样本资产水平数据;
根据所述样本资产水平数据拟合所述预测曲线。
5.如权利要求4所述的资产水平预测方法,其特征在于,所述获取样本资产水平数据的步骤包括:
获取初始资产水平数据;
对所述初始资产水平数据进行数据清洗,得到所述样本资产水平数据。
6.如权利要求4所述的资产水平预测方法,其特征在于,所述根据所述样本资产水平数据拟合所述预测曲线的步骤包括:
对所述样本资产水平数据进行第二预处理,得到第二资产水平数据;
对所述第二资产水平数据进行排序,并计算所述第二资产水平数据对应的分位数;
基于所述分位数和所述第二资产水平数据,拟合所述预测曲线。
7.如权利要求6所述的资产水平预测方法,其特征在于,所述对所述样本资产水平数据进行排序的步骤包括:
将所述样本资产水平数据划分成预设份数,对每一份的所述样本资产水平数据进行排序,得到每一份所述样本资产水平数据对应的局部排序结果;
将所述局部排序结果合并。
8.一种资产水平预测装置,其特征在于,所述装置包括:
获取模块,用于获取目标数据;
预测模型模块,用于将所述目标数据输入预先构建的资产水平预测模型,得到对应的目标资产水平分数,将所述目标资产水平分数进行排序,得到对应的排序结果;
预测模块,用于将所述排序结果输入预先拟合的预测曲线,得到所述预测曲线对应的预测资产水平;
还原模块,用于对所述预测资产水平进行还原处理,得到目标资产水平。
9.一种资产水平预测设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的资产水平预测程序,所述资产水平预测程序配置为实现如权利要求1至7中任一项所述的资产水平预测方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有资产水平预测程序,所述资产水平预测程序被处理器执行时实现如权利要求1至7任一项所述的资产水平预测方法的步骤。
CN202111575934.4A 2021-12-21 2021-12-21 资产水平预测方法、装置、设备与存储介质 Pending CN114239981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111575934.4A CN114239981A (zh) 2021-12-21 2021-12-21 资产水平预测方法、装置、设备与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111575934.4A CN114239981A (zh) 2021-12-21 2021-12-21 资产水平预测方法、装置、设备与存储介质

Publications (1)

Publication Number Publication Date
CN114239981A true CN114239981A (zh) 2022-03-25

Family

ID=80760937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111575934.4A Pending CN114239981A (zh) 2021-12-21 2021-12-21 资产水平预测方法、装置、设备与存储介质

Country Status (1)

Country Link
CN (1) CN114239981A (zh)

Similar Documents

Publication Publication Date Title
CN108564286B (zh) 一种基于大数据征信的人工智能金融风控授信评定方法和***
CN110400022B (zh) 自助柜员机现金用量预测方法及装置
CN110738564A (zh) 贷后风险评估方法及装置、存储介质
CN112116184A (zh) 使用历史检验数据的工厂风险估计
CN110738527A (zh) 一种特征重要性排序方法、装置、设备和存储介质
CN113537807B (zh) 一种企业智慧风控方法及设备
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN112734559A (zh) 企业信用风险评价方法、装置及电子设备
CN111738504A (zh) 企业财务指标资金量预测方法和装置、设备及存储介质
CN110689437A (zh) 一种基于随机森林的通信施工项目财务风险预测方法
CN116485020B (zh) 一种基于大数据的供应链风险识别预警方法、***及介质
US20210090101A1 (en) Systems and methods for business analytics model scoring and selection
CN112116185A (zh) 使用历史检验数据的检验风险估计
CA3186873A1 (en) Activity level measurement using deep learning and machine learning
CN111626855A (zh) 债券信用利差预测方法及***
CN113988459A (zh) 一种基于电力营销数据的中小企业成长性评估方法及***
CN112037005B (zh) 一种评分卡的融合方法、装置、计算机设备及存储介质
CN113283673A (zh) 一种模型性能衰减评价方法、模型训练方法及装置
CN117132383A (zh) 一种信贷数据处理方法、装置、设备及可读存储介质
CN117114812A (zh) 一种针对企业的金融产品推荐方法及装置
CN114239981A (zh) 资产水平预测方法、装置、设备与存储介质
CN114626940A (zh) 数据分析方法、装置及电子设备
CN112506930B (zh) 一种基于机器学习技术的数据洞察***
CA3160715A1 (en) Systems and methods for business analytics model scoring and selection
CN114218996A (zh) 券商客户账号类别的识别方法、异常账号预警方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination