CN112308294A - 违约概率预测方法及装置 - Google Patents
违约概率预测方法及装置 Download PDFInfo
- Publication number
- CN112308294A CN112308294A CN202011080647.1A CN202011080647A CN112308294A CN 112308294 A CN112308294 A CN 112308294A CN 202011080647 A CN202011080647 A CN 202011080647A CN 112308294 A CN112308294 A CN 112308294A
- Authority
- CN
- China
- Prior art keywords
- time window
- predicted
- target
- default
- default probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 12
- 238000003064 k means clustering Methods 0.000 claims description 7
- 238000000611 regression analysis Methods 0.000 claims description 7
- 238000012407 engineering method Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 9
- 230000007774 longterm Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001364 causal effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Pure & Applied Mathematics (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Algebra (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种违约概率预测方法及装置,其中,该方法包括:对于每一待预测目标,根据待预测目标每一时间窗口的基础数据和每一时间窗口对应的回归模型,获取待预测目标每一时间窗口的违约概率的预测结果;根据各待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各待预测目标进行聚类,根据聚类结果,获取每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果;其中,任意两个时间窗口的时长不同。本发明实施例提供的违约概率预测方法及装置,能兼顾违约概率预测的实时性和准确性,能实现更精细的顾违约概率预测。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种违约概率预测方法及装置。
背景技术
在对企业或个人进行违约概率预测时,通常是基于固定的时间窗口采集的数据进行。
由于企业(或个人)的内部原因或外部原因,企业(或个人)行为在不同的时间点的变化非常大。单一的时间窗口会抹平企业(或个人)行为在该时间窗口内(尤其是时间窗口的时间段较长的情况下)的行为变化情况,无法反映企业(或个人)违约可能性的实时变化;而采用时长较短的时间窗口虽然实时性较强,但违约概率预测结果可能出现突变,并不能反映企业(或个人)真实的违约可能性。
发明内容
本发明实施例提供一种违约概率预测方法及装置,用以解决现有技术中难以兼顾违约概率预测的实时性和准确性的缺陷,实现更精细的违约概率预测。
本发明实施例提供一种违约概率预测方法,包括:
对于每一待预测目标,根据所述待预测目标每一时间窗口的基础数据和所述每一时间窗口对应的回归模型,获取所述待预测目标所述每一时间窗口的违约概率的预测结果;
根据各所述待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各所述待预测目标进行聚类,根据聚类结果,获取每个类对应的违约概率预测结果,作为所述每个类中的待预测目标的违约概率预测结果;
其中,任意两个所述时间窗口的时长不同。
根据本发明一个实施例的违约概率预测方法,所述根据所述待预测目标每一时间窗口的基础数据和所述每一时间窗口对应的回归模型,获取所述待预测目标所述每一时间窗口的违约概率的预测结果的具体步骤包括:
根据所述待预测目标所述每一时间窗口的基础数据,获取所述待预测目标所述每一时间窗口的概率预测特征;
将所述待预测目标所述每一时间窗口的概率预测特征,输入所述每一时间窗口对应的回归模型,输出所述待预测目标所述每一时间窗口的违约概率的预测结果;
其中,所述每一时间窗口对应的回归模型,是根据所述每一时间窗口的概率预测特征样本数据,及所述样本数据对应的未违约或违约数据进行训练后获得的。
根据本发明一个实施例的违约概率预测方法,所述根据各所述待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各所述待预测目标进行聚类的具体步骤包括:
根据各所述待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,获取每两个所述待预测目标之间的特征距离;
基于聚类算法,根据每两个所述待预测目标之间的特征距离,获取每一所述待预测目标所属的类。
根据本发明一个实施例的违约概率预测方法,所述根据所述待预测目标每一时间窗口的基础数据和所述每一时间窗口对应的回归模型,获取所述待预测目标所述每一时间窗口的违约概率的预测结果之前,还包括:
对于所述每一时间窗口,根据所述每一时间窗口的概率预测特征样本数据,及所述样本数据对应的未违约或违约数据进行logistic回归分析,获取所述每一时间窗口对应的回归模型。
根据本发明一个实施例的违约概率预测方法,所述对于所述每一时间窗口,根据所述每一时间窗口的概率预测特征样本数据,及所述样本数据对应的未违约或违约数据进行logistic回归分析,获取所述每一时间窗口对应的回归模型之前,还包括:
对于所述每一时间窗口,基于特征工程方法,根据所述每一时间窗口的样本基础数据,确定所述每一时间窗口的概率预测特征。
根据本发明一个实施例的违约概率预测方法,所述聚类算法为K均值聚类算法。
根据本发明一个实施例的违约概率预测方法,所述基础数据包括人员数据、金融数据、经营数据和工商数据中的至少一种。
本发明实施例还提供一种违约概率预测装置,包括:
回归分析模块,用于对于每一待预测目标,根据所述待预测目标每一时间窗口的基础数据和所述每一时间窗口对应的回归模型,获取所述待预测目标所述每一时间窗口的违约概率的预测结果;
加权聚类模块,用于根据各所述待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各所述待预测目标进行聚类,根据聚类结果,获取每个类对应的违约概率预测结果,作为所述每个类中的待预测目标的违约概率预测结果;
其中,任意两个所述时间窗口的时长不同。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述违约概率预测方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述违约概率预测方法的步骤。
本发明实施例提供的违约概率预测方法及装置,根据待预测目标多个时间窗口的基础数据,获得多个时间窗口的违约概率的预测结果,根据各多个时间窗口的违约概率的预测结果和各时间窗口对应的权重进行聚类,获取每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果,能提取待预测目标在不同时间段内的行为变化情况,能兼顾违约概率预测的实时性和准确性,能实现更精细的顾违约概率预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种违约概率预测方法的流程示意图;
图2是本发明实施例提供的一种违约概率预测装置的结构示意图;
图3是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了克服现有技术的上述问题,本发明实施例提供一种违约概率预测方法及装置,其发明构思是,对数据的采集分为多个时间窗口,更为精确地刻画待预测目标的行为在长期、中期、短期的情况,并综合各个时间窗口的违约概率预测,进行待预测目标违约概率的综合预测。
图1是本发明实施例提供的一种违约概率预测方法的流程示意图。下面结合图1描述本发明实施例的违约概率预测方法。如图1所示,该方法包括:步骤S101、对于每一待预测目标,根据待预测目标每一时间窗口的基础数据和每一时间窗口对应的回归模型,获取待预测目标每一时间窗口的违约概率的预测结果。
其中,任意两个时间窗口的时长不同。
具体地,时间窗口,指时间段,一般为当前时间点之前的某个时间点至当前时间点的时间段。
为了更精确地刻画待预测目标的行为在长期、中期、短期等不同时期的情况,可以预先选择多个时长互不相同的时间窗口。
例如,可以选择3个时间窗口,时长分别为5年、2年、1年,对应长期时间窗口、中期时间窗口和短期时间窗口;还可以选择5个时间窗口。时长分别为8年、5年、3年、2年、1年,对应长期时间窗口、中长期时间窗口、中期时间窗口、中短期时间窗口和短期时间窗口。
基础数据,指与待预测目标的风险状况存在一定相关性的人员、资金、交易和知识产权等方面的数据。
待预测目标,可以为企业或个人等实体。
基础数据,可以包括一项或多项。
对于每一时间窗口,可以将该时间窗口的基础数据作为该时间窗口对应的回归模型的输入,也可以对该时间窗口的基础数据进行数据处理之后,获得合适的数据作为该时间窗口对应的回归模型的输入。
回归模型(regression model)是对统计关系进行定量描述的一种数学模型。回归模型是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
对于每一时间窗口,该时间窗口对应的回归模型根据输入的数据,可以输出待预测目标该时间窗口的违约概率的预测结果。
通过上述步骤,可以获得每一待预测目标每一时间窗口的违约概率的预测结果。
步骤S102、根据各待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各待预测目标进行聚类,根据聚类结果,获取每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果。
具体地,各时间窗口对应的权重,可以根据待预测目标的类型和预测需求进行确定。
例如:对于大型企业,长期时间窗口、中期时间窗口和短期时间窗口对应的权重w1、w2和w3分别为0.5、0.3和0.2;对于中小型企业,长期时间窗口、中期时间窗口和短期时间窗口对应的权重w1、w2和w3分别为0.15、0.25和0.6。
基于各待预测目标每一时间窗口的违约概率的预测结果和各时间窗口对应的权重,采用任一种无监督的聚类算法,对各待预测目标进行聚类,将各待预测目标划分为多个类,确定每个待预测目标所属的类,获得聚类结果。
对于通过聚类获得的每个类,可以基于属于该类的各待预测目标每一时间窗口的违约概率的预测结果和各时间窗口对应的权重,采用数理统计等方法,获取概率区间,作为该类对应的违约概率预测结果。
例如,对于每一时间窗口,可以基于属于该类的各待预测目标该时间窗口的违约概率的预测结果,采用数理统计等方法,确定该时间窗口的概率上限和下限,如可以将各待预测目标该时间窗口的违约概率的预测结果中的最大值和最小值分别作为该时间窗口的概率上限和下限,也可以将各待预测目标该时间窗口的违约概率的预测结果的平均值分别加上和减去若干倍的标准差,获取该时间窗口的概率上限和下限;根据各时间窗口对应的权重和概率上限,获取概率区间的上限,根据各时间窗口对应的权重和概率下限,获取概率区间的下限,从而获得概率区间。
对于通过聚类获得的每个类,通过上述步骤获取每一时间窗口的概率区间之后,还可以根据该类的各待预测目标该时间窗口的关键性特征进行统计学指标分析,对之前获取的该时间窗口的概率区间进行修正。
将该类的各待预测目标该时间窗口的关键性特征的统计指标,与全部待预测目标该时间窗口的关键性特征的整体统计指标进行对比,判断该类的各待预测目标该时间窗口的关键性特征的统计指标是否明显偏离整体统计指标。
如果偏离,可以认为该类的各待预测目标较整体分布为异常点,则进行修正;如果未偏离,则不进行修正。
若明显高于,则基于该关键性特征是正向还是负向指标,相应调高或调低之前获取的该时间窗口的概率区间的上限和下限;
若明显低于,则基于该关键性特征是正向还是负向指标,相应调低或调高之前获取的该时间窗口的概率区间的上限和下限。
例如,待预测目标为企业,关键性特征可以是注册资本金额、企业经营时长、企业经营业绩稳定性等主要特征。统计指标可以是均值或中位数等。判断明显偏离的条件,可以包括是否低于或高于整体分布3倍标准差范围。
需要说明的是,相比属于另一个类的待预测目标,属于同一个类的各待预测目标,在行为和违约可能性上具有更高的相似性,从而可以将每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果。
本发明实施例根据待预测目标多个时间窗口的基础数据,获得多个时间窗口的违约概率的预测结果,根据各多个时间窗口的违约概率的预测结果和各时间窗口对应的权重进行聚类,获取每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果,能提取待预测目标在不同时间段内的行为变化情况,能兼顾违约概率预测的实时性和准确性,能实现更精细的顾违约概率预测。
基于上述各实施例的内容,根据待预测目标每一时间窗口的基础数据和每一时间窗口对应的回归模型,获取待预测目标每一时间窗口的违约概率的预测结果的具体步骤包括:根据待预测目标每一时间窗口的基础数据,获取待预测目标每一时间窗口的概率预测特征。
具体地,概率预测特征,是根据基础数据中的各指标,预先确定的若干个合适的用于输入回归模型的指标。
预先确定的每一个用于输入回归模型的指标,可以是基础数据中的各指标中的某一个,也可以是基础数据中的各指标中某些指标的线性或非线性组合。
对于每一个时间窗口,根据待预测目标该时间窗口的基础数据,可以获取待预测目标该时间窗口的概率预测特征。
将待预测目标每一时间窗口的概率预测特征,输入每一时间窗口对应的回归模型,输出待预测目标每一时间窗口的违约概率的预测结果。
其中,每一时间窗口对应的回归模型,是根据每一时间窗口的概率预测特征样本数据,及概率预测特征样本数据对应的未违约或违约数据进行训练后获得的。
具体地,对于任一待预测目标,获取该待预测目标各时间窗口的概率预测特征之后,可以分别将每一时间窗口的概率预测特征,输入该时间窗口对应的回归模型,输出该待预测目标每一时间窗口的违约概率的预测结果。
可以理解的是,步骤S102之前,对于每一时间窗口,可以根据该时间窗口的概率预测特征样本数据,及样本数据对应的未违约或违约数据,通过回归分析的方法进行训练,获得该时间窗口对应的回归模型。
每一时间窗口对应的回归模型,可以描述待预测目标该时间窗口的概率预测特征与该时间窗口的违约概率之间的因果关系。
概率预测特征样本数据,可以是根据样本企业在相应的历史时间段内的某一时间窗口的基础数据获得的。
概率预测特征样本数据对应的未违约或违约数据,指该历史时间段结束后,该样本企业是否违约。如果违约,则为违约数据,该违约数据可以用1表示;如果未违约,则为未违约数据,该未违约数据可以用0表示。
本发明实施例根据待预测目标每一时间窗口的基础数据,获取待预测目标该时间窗口的概率预测特征,根据该时间窗口的概率预测特征和对应的回归模型,获得该待预测目标该时间窗口的违约概率的预测结果,能获得更准确的该时间窗口的违约概率的预测结果,从而能基于各待预测目标各时间窗口的违约概率的预测结果,获取每一待预测目标的违约概率预测结果,能兼顾违约概率预测的实时性和准确性,能实现更精细的顾违约概率预测。
基于上述各实施例的内容,根据各待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各待预测目标进行聚类的具体步骤包括:根据各待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,获取每两个待预测目标之间的特征距离。
具体地,对各待预测目标进行聚类时,根据每一待预测目标各时间窗口的违约概率的预测结果,将该待预测目标映射至特征空间中。
在特征空间中,根据两个待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,获取上述两个待预测目标之间的特征距离。
两个待预测目标之间的特征距离的具体的计算公式如下:
其中,Xi,Xj分别表示两个待预测目标;k表示第k个时间窗口;Xik,Xjk分别表示Xi,Xj第k个时间窗口的违约概率的预测结果据;wk表示第k个时间窗口对应的权重;n表示时间窗口的总数。
基于聚类算法,根据每两个待预测目标之间的特征距离,获取每一待预测目标所属的类。
具体地,根据每两个待预测目标之间的特征距离,基于任一种聚类算法进行聚类,对各待预测目标进行聚类,将各待预测目标划分为多个类,确定每个待预测目标所属的类。
本发明实施例基于聚类算法,根据每两个待预测目标之间的特征距离,获取每一待预测目标所属的类,能获得更准确的聚类结果,从而能根据聚类结果,获取每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果,能兼顾违约概率预测的实时性和准确性,能实现更精细的顾违约概率预测。
基于上述各实施例的内容,对于每一待预测目标,根据待预测目标每一时间窗口的基础数据和每一时间窗口对应的回归模型,获取待预测目标每一时间窗口的违约概率的预测结果之前,还包括:对于每一时间窗口,根据每一时间窗口的概率预测特征样本数据,及概率预测特征样本数据对应的未违约或违约数据进行logistic回归分析,获取每一时间窗口对应的回归模型。
具体地,对于每一时间窗口,可以对该时间窗口的概率预测特征样本数据,及概率预测特征样本数据对应的未违约或违约数据进行logistic回归分析,获取该时间窗口对应的回归模型。该回归模型为logistic回归模型。
Logistic回归又称logistic回归分析,是一种广义的线性回归分析模型。
Logistic回归模型,可以用于预测在不同的自变量情况下,发生某种情况的概率有多大。
本发明实施例根据各样本企业每一时间窗口的概率预测特征样本数据,及概率预测特征样本数据对应的未违约或违约数据进行logistic回归分析,获取该时间窗口对应的回归模型,能更准确地预测待预测目标的违约概率,从而能基于各待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,获取更准确的每一待预测目标的违约概率预测结果。
基于上述各实施例的内容,对于每一时间窗口,根据每一时间窗口的概率预测特征样本数据,及样本数据对应的未违约或违约数据进行logistic回归分析,获取每一时间窗口对应的回归模型之前,还包括:对于每一时间窗口,基于特征工程方法,根据每一时间窗口的样本基础数据,确定每一时间窗口的概率预测特征。
具体地,可以通过特征工程方法中的特征选择和/或特征降维等方法,对基础中各个指标进行筛选和/或组合,确定若干个合适的用于输入回归模型的指标,作为概率预测特征。
特征选择,可以采用各种过滤法、各种包装法和各种嵌入法中的一种或多种的组合实现。
特征降维,可以采用主成分分析法(PCA)或线性判别分析法(LDA)等方法。
本发明实施例基于特征工程方法,确定概率预测特征,能在最大程度保留与违约可能性有关的特征前提下,减少概率预测特征的数量,能减少概率预测的数据量,能提高概率预测的准确率和效率。
基于上述各实施例的内容,聚类算法为K均值聚类算法。
具体地,可以采用K均值聚类算法(k-means clustering algorithm),根据各待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各待预测目标进行聚类。
给定一个数据点集合和需要的聚类数目K,K预先指定,K均值聚类算法根据某个距离函数反复把数据分入K个聚类中。其中,K为正整数。
本发明实施例通过K均值聚类算法,对各待预测目标进行聚类,确定每一待预测目标所属的类,从而能根据聚类结果,获取每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果,能获取更准确的违约概率预测结果。
基于上述各实施例的内容,基础数据包括人员数据、金融数据、经营数据和工商数据中的至少一种。
具体地,待预测目标为企业时,基础数据可以包括人员数据、金融数据、经营数据和工商数据中的至少一种。
人员数据,可以包括员工数量、法人的年龄和法人的婚姻状况等。
金融数据,可以包括贷款申请额度、还款记录和违约记录等。
经营数据,可以包括业绩、市值和资金流水等。
工商数据,可以包括注册资本、已成立时间和违法违规情况等。
本发明实施例通过选用员数据、金融数据、经营数据和工商数据中的至少一种作为基础数据,能够基于各时间窗口的基础数据,获取更准确的违约概率预测结果。
下面对本发明实施例提供的违约概率预测装置进行描述,下文描述的违约概率预测装置与上文描述的违约概率预测方法可相互对应参照。
图2为根据本发明实施例提供的违约概率预测装置的结构示意图。基于上述各实施例的内容,如图2所示,该装置包括回归分析模块201和加权聚类模块202,其中:
回归分析模块201,用于对于每一待预测目标,根据待预测目标每一时间窗口的基础数据,根据待预测目标每一时间窗口的基础数据和每一时间窗口对应的回归模型,获取待预测目标每一时间窗口的违约概率的预测结果;
加权聚类模块202,用于根据各待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各待预测目标进行聚类,根据聚类结果,获取每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果;
其中,任意两个时间窗口的时长不同。
具体地,回归分析模块201和加权聚类模块202电连接。
对于每一时间窗口,回归分析模块201可以将该时间窗口的基础数据作为该时间窗口对应的回归模型的输入,也可以对该时间窗口的基础数据进行数据处理之后,获得合适的数据作为该时间窗口对应的回归模型的输入;该时间窗口对应的回归模型根据输入的数据,可以输出待预测目标该时间窗口的违约概率的预测结果。
加权聚类模块202基于各待预测目标每一时间窗口的违约概率的预测结果和各时间窗口对应的权重,采用任一种聚类算法,对各待预测目标进行聚类,将各待预测目标划分为多个类,确定每个待预测目标所属的类,获得聚类结果。
对于通过聚类获得的每个类,加权聚类模块202可以基于属于该类的各待预测目标每一时间窗口的违约概率的预测结果和各时间窗口对应的权重,采用数理统计等方法,获取概率区间,作为该类对应的违约概率预测结果。
本发明实施例提供的违约概率预测装置,用于执行本发明上述各实施例提供的违约概率预测方法,该违约概率预测装置包括的各模块实现相应功能的具体方法和流程详见上述违约概率预测方法的实施例,此处不再赘述。
该违约概率预测装置用于前述各实施例的违约概率预测方法。因此,在前述各实施例中的违约概率预测方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
本发明实施例根据待预测目标多个时间窗口的基础数据,获得多个时间窗口的违约概率的预测结果,根据各多个时间窗口的违约概率的预测结果和各时间窗口对应的权重进行聚类,获取每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果,能提取待预测目标在不同时间段内的行为变化情况,能兼顾违约概率预测的实时性和准确性,能实现更精细的顾违约概率预测。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、存储器(memory)302和总线303;其中,处理器301和存储器302通过总线303完成相互间的通信;处理器301用于调用存储在存储器302中并可在处理器301上运行的计算机程序指令,以执行上述各方法实施例供的违约概率预测方法,该方法包括:对于每一待预测目标,根据待预测目标每一时间窗口的基础数据和每一时间窗口对应的回归模型,获取待预测目标每一时间窗口的违约概率的预测结果;根据各待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各待预测目标进行聚类,根据聚类结果,获取每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果;其中,任意两个时间窗口的时长不同。
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的违约概率预测方法,该方法包括:对于每一待预测目标,根据待预测目标每一时间窗口的基础数据和每一时间窗口对应的回归模型,获取待预测目标每一时间窗口的违约概率的预测结果;根据各待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各待预测目标进行聚类,根据聚类结果,获取每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果;其中,任意两个时间窗口的时长不同。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的违约概率预测方法,该方法包括:对于每一待预测目标,根据待预测目标每一时间窗口的基础数据和每一时间窗口对应的回归模型,获取待预测目标每一时间窗口的违约概率的预测结果;根据各待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各待预测目标进行聚类,根据聚类结果,获取每个类对应的违约概率预测结果,作为每个类中的待预测目标的违约概率预测结果;其中,任意两个时间窗口的时长不同。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种违约概率预测方法,其特征在于,包括:
对于每一待预测目标,根据所述待预测目标每一时间窗口的基础数据和所述每一时间窗口对应的回归模型,获取所述待预测目标所述每一时间窗口的违约概率的预测结果;
根据各所述待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各所述待预测目标进行聚类,根据聚类结果,获取每个类对应的违约概率预测结果,作为所述每个类中的待预测目标的违约概率预测结果;
其中,任意两个所述时间窗口的时长不同。
2.根据权利要求1所述的违约概率预测方法,其特征在于,所述根据所述待预测目标每一时间窗口的基础数据和所述每一时间窗口对应的回归模型,获取所述待预测目标所述每一时间窗口的违约概率的预测结果的具体步骤包括:
根据所述待预测目标所述每一时间窗口的基础数据,获取所述待预测目标所述每一时间窗口的概率预测特征;
将所述待预测目标所述每一时间窗口的概率预测特征,输入所述每一时间窗口对应的回归模型,输出所述待预测目标所述每一时间窗口的违约概率的预测结果;
其中,所述每一时间窗口对应的回归模型,是根据所述每一时间窗口的概率预测特征样本数据,及所述样本数据对应的未违约或违约数据进行训练后获得的。
3.根据权利要求1所述的违约概率预测方法,其特征在于,所述根据各所述待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各所述待预测目标进行聚类的具体步骤包括:
根据各所述待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,获取每两个所述待预测目标之间的特征距离;
基于聚类算法,根据每两个所述待预测目标之间的特征距离,获取每一所述待预测目标所属的类。
4.根据权利要求2所述的违约概率预测方法,其特征在于,所述对于每一待预测目标,根据所述待预测目标每一时间窗口的基础数据和所述每一时间窗口对应的回归模型,获取所述待预测目标所述每一时间窗口的违约概率的预测结果之前,还包括:
对于所述每一时间窗口,根据所述每一时间窗口的概率预测特征样本数据,及所述样本数据对应的未违约或违约数据进行logistic回归分析,获取所述每一时间窗口对应的回归模型。
5.根据权利要求2所述的违约概率预测方法,其特征在于,所述对于所述每一时间窗口,根据所述每一时间窗口的概率预测特征样本数据,及所述样本数据对应的未违约或违约数据进行logistic回归分析,获取所述每一时间窗口对应的回归模型之前,还包括:
对于所述每一时间窗口,基于特征工程方法,根据所述每一时间窗口的样本基础数据,确定所述每一时间窗口的概率预测特征。
6.根据权利要求3所述的违约概率预测方法,其特征在于,所述聚类算法为K均值聚类算法。
7.根据权利要求1至6任一所述的违约概率预测方法,其特征在于,所述基础数据包括人员数据、金融数据、经营数据和工商数据中的至少一种。
8.一种违约概率预测装置,其特征在于,包括:
回归分析模块,用于对于每一待预测目标,根据所述待预测目标每一时间窗口的基础数据和所述每一时间窗口对应的回归模型,获取所述待预测目标所述每一时间窗口的违约概率的预测结果;
加权聚类模块,用于根据各所述待预测目标各时间窗口的违约概率的预测结果和各时间窗口对应的权重,对各所述待预测目标进行聚类,根据聚类结果,获取每个类对应的违约概率预测结果,作为所述每个类中的待预测目标的违约概率预测结果;
其中,任意两个所述时间窗口的时长不同。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的违约概率预测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的违约概率预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011080647.1A CN112308294B (zh) | 2020-10-10 | 2020-10-10 | 违约概率预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011080647.1A CN112308294B (zh) | 2020-10-10 | 2020-10-10 | 违约概率预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112308294A true CN112308294A (zh) | 2021-02-02 |
CN112308294B CN112308294B (zh) | 2024-06-14 |
Family
ID=74488319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011080647.1A Active CN112308294B (zh) | 2020-10-10 | 2020-10-10 | 违约概率预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308294B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255231A (zh) * | 2021-06-18 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971338A (zh) * | 2017-04-26 | 2017-07-21 | 北京趣拿软件科技有限公司 | 数据评估的方法和装置 |
CN108492001A (zh) * | 2018-02-13 | 2018-09-04 | 天津大学 | 一种用于担保贷款网络风险管理的方法 |
CN109255506A (zh) * | 2018-11-22 | 2019-01-22 | 重庆邮电大学 | 一种基于大数据的互联网金融用户贷款逾期预测方法 |
CN109636016A (zh) * | 2018-11-29 | 2019-04-16 | 深圳昆腾信息科技有限公司 | 一种股价预测方法、装置、介质及设备 |
CN109657837A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 违约概率预测方法、装置、计算机设备和存储介质 |
CN110058989A (zh) * | 2019-03-08 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 用户行为意图预测方法和装置 |
CN110147940A (zh) * | 2019-04-26 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 一种风险控制处理方法、设备、介质以及装置 |
CN110246031A (zh) * | 2019-06-21 | 2019-09-17 | 深圳前海微众银行股份有限公司 | 企业信用的评估方法、***、设备及存储介质 |
WO2020088007A1 (zh) * | 2018-10-30 | 2020-05-07 | 阿里巴巴集团控股有限公司 | 确定用户金融违约风险的方法及装置 |
CN111191825A (zh) * | 2019-12-20 | 2020-05-22 | 北京淇瑀信息科技有限公司 | 用户违约预测方法、装置及电子设备 |
CN111192140A (zh) * | 2020-01-02 | 2020-05-22 | 北京明略软件***有限公司 | 客户违约概率预测的方法及装置 |
CN111324862A (zh) * | 2020-02-10 | 2020-06-23 | 深圳华策辉弘科技有限公司 | 贷中行为监控的方法及*** |
-
2020
- 2020-10-10 CN CN202011080647.1A patent/CN112308294B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971338A (zh) * | 2017-04-26 | 2017-07-21 | 北京趣拿软件科技有限公司 | 数据评估的方法和装置 |
CN108492001A (zh) * | 2018-02-13 | 2018-09-04 | 天津大学 | 一种用于担保贷款网络风险管理的方法 |
WO2020088007A1 (zh) * | 2018-10-30 | 2020-05-07 | 阿里巴巴集团控股有限公司 | 确定用户金融违约风险的方法及装置 |
CN109657837A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 违约概率预测方法、装置、计算机设备和存储介质 |
CN109255506A (zh) * | 2018-11-22 | 2019-01-22 | 重庆邮电大学 | 一种基于大数据的互联网金融用户贷款逾期预测方法 |
CN109636016A (zh) * | 2018-11-29 | 2019-04-16 | 深圳昆腾信息科技有限公司 | 一种股价预测方法、装置、介质及设备 |
CN110058989A (zh) * | 2019-03-08 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 用户行为意图预测方法和装置 |
CN110147940A (zh) * | 2019-04-26 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 一种风险控制处理方法、设备、介质以及装置 |
CN110246031A (zh) * | 2019-06-21 | 2019-09-17 | 深圳前海微众银行股份有限公司 | 企业信用的评估方法、***、设备及存储介质 |
CN111191825A (zh) * | 2019-12-20 | 2020-05-22 | 北京淇瑀信息科技有限公司 | 用户违约预测方法、装置及电子设备 |
CN111192140A (zh) * | 2020-01-02 | 2020-05-22 | 北京明略软件***有限公司 | 客户违约概率预测的方法及装置 |
CN111324862A (zh) * | 2020-02-10 | 2020-06-23 | 深圳华策辉弘科技有限公司 | 贷中行为监控的方法及*** |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255231A (zh) * | 2021-06-18 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112308294B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112258093B (zh) | 风险等级的数据处理方法及装置、存储介质、电子设备 | |
WO2007106787A2 (en) | Methods and systems for characteristic leveling | |
CN108573358A (zh) | 一种逾期预测模型生成方法及终端设备 | |
CN110766481A (zh) | 客户数据处理方法、装置、电子设备及计算机可读介质 | |
CN115983900A (zh) | 用户营销策略的构建方法、装置、设备、介质和程序产品 | |
CN117235608B (zh) | 风险检测方法、装置、电子设备及存储介质 | |
CN112308293B (zh) | 违约概率预测方法及装置 | |
CN114118570A (zh) | 业务数据预测方法及装置、电子设备和存储介质 | |
CN112308294B (zh) | 违约概率预测方法及装置 | |
US20210357699A1 (en) | Data quality assessment for data analytics | |
RU2632124C1 (ru) | Способ прогнозной оценки эффективности многоэтапных процессов | |
CN112348685A (zh) | 信用评分方法、装置、设备及存储介质 | |
CN112712270B (zh) | 信息处理方法、装置、设备及存储介质 | |
CN115600818A (zh) | 多维评分方法、装置、电子设备和存储介质 | |
CN112446505B (zh) | 一种元学习建模方法及装置、电子设备、存储介质 | |
CN113850483A (zh) | 一种企业信用风险评级*** | |
CN114443409A (zh) | 支付业务***监控方法、装置和设备及计算机存储介质 | |
CN115146890A (zh) | 企业运营风险告警方法、装置、计算机设备和存储介质 | |
Addabbo et al. | Children capabilities and family characteristics in Italy | |
EP4372593A1 (en) | Method and system for anonymizsing data | |
US11688113B1 (en) | Systems and methods for generating a single-index model tree | |
CN117743945A (zh) | 保单风险等级的分类方法、装置、电子设备及存储介质 | |
CN115131138A (zh) | 基于企业财务稳健度的信用评估方法、装置、设备及介质 | |
CN117764708A (zh) | 违约预测方法及装置 | |
CN116645015A (zh) | 一种模型构建方法、专利价值评估方法、***、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |