CN110659817A - 一种数据处理方法、装置、机器可读介质及设备 - Google Patents

一种数据处理方法、装置、机器可读介质及设备 Download PDF

Info

Publication number
CN110659817A
CN110659817A CN201910872797.7A CN201910872797A CN110659817A CN 110659817 A CN110659817 A CN 110659817A CN 201910872797 A CN201910872797 A CN 201910872797A CN 110659817 A CN110659817 A CN 110659817A
Authority
CN
China
Prior art keywords
data
value
model
component
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910872797.7A
Other languages
English (en)
Inventor
周曦
姚志强
胡佩涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Cloud From Enterprise Development Co Ltd
Original Assignee
Shanghai Cloud From Enterprise Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Cloud From Enterprise Development Co Ltd filed Critical Shanghai Cloud From Enterprise Development Co Ltd
Priority to CN201910872797.7A priority Critical patent/CN110659817A/zh
Publication of CN110659817A publication Critical patent/CN110659817A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Analysis (AREA)
  • Educational Administration (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种数据处理方法,包括:获取金融业务对象的业务请求;获取金融业务对象的属性和行为数据;根据所述业务请求的业务类型匹配出相应的业务模型,所述业务模型由多个应用组件训练生成;通过所述业务模型对所述金融业务对象的属性和行为数据进行处理,输出金融业务处理结果。本发明突破了操作人员需要掌握建模技巧的局限,让业务专家也可以利用现有的应用组件生成、编辑自己的评分卡。通过利用应用组件将编程专家的编程技术转化为通用的组件,让他人使用,有利于人工智能技术的普及、推广。

Description

一种数据处理方法、装置、机器可读介质及设备
技术领域
本发明涉及金融技术领域,特别是涉及一种数据处理方法、装置、机器可读介质及设备。
背景技术
随着人工智能的发展,人工智能技术逐渐从实验室走出并融入各行各业和我们的日常生活。人工智能具有识别模式、预测未来事件、制定规则并驱动自动化流程、快速性的优点,给用户带来良好的体验,并且在特定的应用场景中也具备很高的准确性。人工智能的这些特点,正在迅速改变成为一家成功的金融服务企业的竞争要素。评分卡作为金融领域常见的工具,更需要人工智能加持。
然而,目前的人工智能技术在金融业的普及还具有以下局限性:
1、招聘专业人员成本高
人工智能技术依赖于统计学、计算机知识,需要大量的训练才能掌握,所以人工智能技术掌握在一些博士、硕士等有专业技能的人的手中。需求的高速增长造成人员成本的激增,对于一些规模小的金融领机构,维持大量的人力成本并不容易。
招聘来的专业人员通常都是非金融专业的,对于银行业务并不熟悉。
可见招聘专业金融智能人才,不适合中小型金融机构;
2、原有人员培训难度大
如前所述,人工智能技术依赖于统计学、计算机知识,需要大量的训练才能掌握。银行的原有人员无法很快速学会人工智能建模方法。即使掌握了一些知识,也无法熟练地优化模型。
因此,上述问题亟需解决。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种数据处理方法、装置、机器可读介质及设备,用于解决现有技术存在的问题。
为实现上述目的及其他相关目的,本发明提供一种数据处理方法,该方法包括:
获取金融业务对象的属性和行为数据;
对所述金融业务对象的属性和行为数据进行处理,输出金融业务处理结果。
可选地,所述对所述金融业务对象的属性和行为数据进行处理,包括将所述金融业务对象的属性和行为数据输入到生成的业务模型中。
可选地,所述金融业务对象的属性包括姓名、年龄、所在地区、职业、收入、文化程度、资产情况。
可选地,所述行为数据包括是否发生借贷、是否逾期。
可选地,所述处理结果包括是否给予授信以及授信的额度和利率。
可选地,所述业务模型的生成方法包括:
对样本数据进行预处理;
对预处理后的样本数据进行分箱处理以输出分箱数据表;
计算所述分箱数据表中各个数据字段的WoE值以输出WoE值数据表;
根据所述WoE值数据表计算所述分箱数据表中各个数据字段的IV值以输出IV值数据表;
根据设定的筛选阈值对所述IV值数据表中的数据字段进行筛选;
根据筛选出的数据字段以及所述分箱数据表以输出评分卡模型;
根据WoE值数据表以及评分卡模型的模型参数以输出对应评分卡。
可选地,所述业务模型的生成方法还包括:
对所述评分卡模型进行评估;
输出所述评分卡模型以及评分卡模型的评价指标。
可选地,所述对样本数据进行预处理,包括:
接收样本数据;
对所述样本数据进行采样以输出第一数据表;
对所述第一数据表中的缺失数据进行处理以输出第二数据表;
对所述第二数据表中的异常值进行处理以输出第三数据表。
为实现上述目的及其他相关目的,本发明还提供一种数据处理方法,该方法包括:
获取金融业务对象的业务请求;
获取金融业务对象的属性和行为数据;
根据所述业务请求的业务类型匹配出相应的业务模型,所述业务模型由多个应用组件训练生成;
通过所述相应的应用组件对所述金融业务对象的属性和行为数据进行处理,输出金融业务处理结果。
可选地,所述金融业务对象的属性包括姓名、年龄、所在地区、职业、收入、文化程度、资产情况。
可选地,所述行为数据包括是否发生借贷、是否逾期。
可选地,所述处理结果包括是否给予授信以及授信的额度和利率。
可选地,所述应用组件包括:
数据预处理组件,用于对样本数据进行预处理;
数据分箱组件,用于对预处理后的样本数据进行分箱处理以输出分箱数据表;
WoE值计算组件,用于计算所述分箱数据表中各个数据字段的WoE值以输出WoE值数据表;
IV值计算组件,用于根据所述WoE值数据表计算所述分箱数据表中各个数据字段的IV值以输出IV值数据表;
特征选择组件,用于根据设定的筛选阈值对所述IV值数据表中的数据字段进行筛选;
模型生成组件,用于根据筛选出的数据字段以及所述分箱数据表以输出评分卡模型;
评分卡生成组件,用于根据WoE值数据表以及评分卡模型的模型参数以输出对应评分卡。
可选地,所述应用组件还包括:
评估组件,用于对所述评分卡模型进行评估;
导出组件,用于输出所述评分卡模型以及评分卡模型的评价指标。
可选地,所述数据预处理组件包括:
数据接收组件,用于接收样本数据;
数据采样组件,用于对所述样本数据进行采样以输出第一数据表;
缺失值处理组件,用于对所述第一数据表中的缺失数据进行处理以输出第二数据表;
异常值处理组件,用于对所述第二数据表中的异常值进行处理以输出第三数据表。
可选地,对缺失数据进行处理包括对缺失值进行替换,将空值或者一个指定的值替换为以下之一:前值、后值、最大值、最小值、均值、一个自定义的值。
可选地,对异常值进行处理包括对异常值进行填充,填充方法包括众数填充、中位数填充、均值填充、指定值填充。
可选地,所述分箱处理包括等频分箱、等宽分箱、卡方分箱。
可选地,所述评分卡模型为逻辑回归模型、概率回归模型、决策树、神经网络。
可选地,所述评分卡生成组件将评分卡模型的输出值转化换评分卡分数。
可选地,评估评分卡模型效果的评价指标包括AUC值、KS值、Accuracy值、Precision值、Recall值、ROC曲线、KS曲线、PR曲线。
可选地,输出的评分卡模型的评价指标包括AUC值、KS值、Accuracy值、Precision值、Recall值、ROC曲线、KS曲线、PR曲线、评分卡刻度、评分卡明细。
为实现上述目的及其他相关目的,本发明还提供一种数据处理装置,该装置包括:
业务请求获取模块,用于获取金融业务对象的业务请求;
数据获取模块,用于获取金融业务对象的属性和行为数据;
模型匹配模块,用于根据所述业务请求的业务类型匹配出相应的业务模型,所述业务模型由多个应用组件训练生成;
结果输出模块,用于通过所述相应的业务模型对所述金融业务对象的属性和行为数据进行处理,输出金融业务处理结果。
可选地,所述金融业务对象的属性包括姓名、年龄、所在地区、职业、收入、文化程度、资产情况。
可选地,所述行为数据包括是否发生借贷、是否逾期。
可选地,所述处理结果包括是否给予授信以及授信的额度和利率。
可选地,通过业务模型生成组件生成业务模型,所述业务模型生成组件包括:
数据预处理组件,用于对样本数据进行预处理;
数据分箱组件,用于对预处理后的样本数据进行分箱处理以输出分箱数据表;
WoE值计算组件,用于计算所述分箱数据表中各个数据字段的WoE值以输出WoE值数据表;
IV值计算组件,用于根据所述WoE值数据表计算所述分箱数据表中各个数据字段的IV值以输出IV值数据表;
特征选择组件,用于根据设定的筛选阈值对所述IV值数据表中的数据字段进行筛选;
模型生成组件,用于根据筛选出的数据字段以及所述分箱数据表以输出评分卡模型;
评分卡生成组件,用于根据WoE值数据表以及评分卡模型的模型参数以输出对应评分卡。
可选地,所述业务模型生成组件还包括:
评估组件,用于对所述评分卡模型进行评估;
导出组件,用于输出所述评分卡模型以及评分卡模型的评价指标。
可选地,所述数据预处理组件包括:
数据接收组件,用于接收样本数据;
数据采样组件,用于对所述样本数据进行采样以输出第一数据表;
缺失值处理组件,用于对所述第一数据表中的缺失数据进行处理以输出第二数据表;
异常值处理组件,用于对所述第二数据表中的异常值进行处理以输出第三数据表。
可选地,对缺失数据进行处理包括对缺失值进行替换,将空值或者一个指定的值替换为以下之一:前值、后值、最大值、最小值、均值、一个自定义的值。
可选地,对异常值进行处理包括对异常值进行填充,填充方法包括众数填充、中位数填充、均值填充、指定值填充。
可选地,所述分箱处理包括等频分箱、等宽分箱、卡方分箱。
可选地,所述评分卡模型为逻辑回归模型、概率回归模型、决策树、神经网络。
可选地,所述评分卡生成组件将评分卡模型的输出值转化换评分卡分数。
可选地,评估评分卡模型效果的评价指标包括AUC值、KS值、Accuracy值、Precision值、Recall值、ROC曲线、KS曲线、PR曲线。
可选地,输出的评分卡模型的评价指标包括AUC值、KS值、Accuracy值、Precision值、Recall值、ROC曲线、KS曲线、PR曲线、评分卡刻度、评分卡明细。
为实现上述目的及其他相关目的,本发明还提供一种设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行前述的一个或多个所述的方法。
为实现上述目的及其他相关目的,本发明还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行前述的一个或多个所述的方法。
如上所述,本发明提供的一种数据处理方法、装置、机器可读介质及设备,具有以下有益效果:
本发明突破了操作人员需要掌握建模技巧的局限,让业务专家也可以利用现有的应用组件生成、编辑自己的评分卡。通过利用应用组件将编程专家的编程技术转化为通用的组件,让他人使用,有利于人工智能技术的普及、推广。
附图说明
图1为本发明一实施例一种数据处理方法的流程图;
图2为本发明一实施例评分卡模型生成方法的流程图;
图3为本发明一实施例中对样本数据进行预处理的流程图;
图4为本发明另一实施例一种数据处理方法的流程图;
图5为本发明一实施例生成评分卡模型所包含应用组件的示意图;
图6为本发明一实施例中数据预处理组件的示意图;
图7为本发明一实施例一种数据处理装置的框图;
图8为本发明一实施例中终端设备的硬件结构示意图;
图9为本发明一实施例中终端设备的硬件结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,本发明提供一种数据处理方法,该方法包括:
S10获取金融业务对象的属性和行为数据;
其中,所述金融业务对象的属性包括姓名、年龄、所在地区、职业、收入、文化程度、资产情况。所述行为数据包括是否发生借贷、是否逾期。
S11对所述金融业务对象的属性和行为数据进行处理,输出金融业务处理结果。
其中,所述处理结果包括是否给予授信以及授信的额度和利率。
在一实施例中,所述对所述金融业务对象的属性和行为数据进行处理,包括将所述金融业务对象的属性和行为数据输入到生成的业务模型中。
在一实施例中,如图2所示,所述业务模型的生成方法包括:
S221对样本数据进行预处理;
其中,如图3所示,对样本数据进行预处理包括:
S2210接收样本数据;
在一实施例中,数据接收组件接收的样本数据以数据表的形式呈现,包括实例名称、文件路径、表名、字段名、字段格式。
S2211对所述样本数据进行采样以输出第一数据表;
具体地,通过随机、分层的方式对数据进行采样,按给定比例或者数目对样本数据进行随机采样,每次采样都是各自独立的,最终输出第一数据表。在一实施例中,还可以采用有放回采集的方式对数据进行采样。
S2212对所述第一数据表中的缺失数据进行处理以输出第二数据表;
由于业务数据中经常出现缺失的情况,该组件可以将便于建模的数据填充到数据缺失的区域,以堤高建模的质量。对缺失数据进行处理具体可以是将空值或者一个指定的值替换为前值、后值、最大值、最小值、均值或者一个自定义的值,将字符型的空值或空字符串替换为前值、后值、一个自定义的值。
S2213对所述第二数据表中的异常值进行处理以输出第三数据表。
由于业务数据中经常出现异常值的情况,该组件可以先找到异常值,然后将便于建模的数据填充到异常值的区域,以提高建模的质量。在一实施例中,采用箱型图判断异常值,针对第三数据表中的异常数据进行填充。其中,数据填充方法包括众数填充、中位数填充、均值填充、指定值填充;众数填充是指采用选定数据字段的众数填充异常值,中位数填充是指采用选定数据字段的中位数填充异常值,均值填充是指采用选定数据字段的均值填充异常值,指定值填充是指采用NA或其他特殊值填充异常值。
在一实施例中,对样本数据进行预处理还包括:从所述样本数据中提取部分字段。
S222对预处理后的样本数据进行分箱处理以输出分箱数据表;
分箱是做评分卡的必要步骤,分箱是指通过考察“邻居”(周围的值)来平滑存储数据的值,用“箱的深度”表示不同的箱里有相同个数的数据,用“箱的宽度”来表示每个箱值的取值区间。分箱方式包括等频分箱、等宽分箱、卡方分箱,其中卡方分箱尤其常用,离散型数据和连续型数据都可以使用卡方分箱进行分箱。
卡方分箱的基本思想是根据样本数据推断总体的分布与期望分布是否有显著性差异,或者推断两个分类变量是否相关或者独立。一般可以设原假设为:观察频数与期望频数没有差异,或者两个变量相互独立不相关。实际应用中,可以先假设原假设成立,计算出卡方的值,卡方表示观察值与理论值间的偏离程度。
等频分箱,区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说N=10,每个区间应该包含大约10%的实例。
等宽分箱,从最小值到最大值之间,均分为N等份。如果A为最小值,B为最大值,则每个区间的长度为W=(B-A)/N,则区间边界值为A+W、A+2W、…、A+(N-1)W。这里只考虑边界,每个等份的实例数量可能不等。
S223计算所述分箱数据表中各个数据字段的WoE值以输出WoE值数据表;
WoE(Weight of Evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,WoE是对原始自变量的一种编码形式。WoE能反映自变量的贡献情况,WoE编码之后,自变量其实具备了某种标准化的性质,对异常值不敏感。
S224根据所述WoE值数据表计算所述分箱数据表中各个数据字段的IV值以输出IV值数据表;
根据所述WoE值数据表计算所述分箱数据表中各个数据字段的IV值以输出IV值数据表;
IV的全称是Information Value,中文意思是信息价值,或者信息量。
在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。那么怎么去挑选入模变量呢?最主要和最直接的衡量标准是变量的预测能力。IV就是这样一种指标,他可以用来衡量自变量的预测能力。
S225根据设定的筛选阈值对所述IV值数据表中的数据字段进行筛选;
在本实施例中,使用IV值筛选特征,一般来说IV值在0.3以上时,特征的预测能力较强。有时由于样本问题,本来是对业务很重要的变量的IV却很低。为了解决这个问题,平台提供灵活的手动选择特征功能,用户可以根据专家经验排除掉一些相关性差或者一致性强的特征。
S226根据筛选出的数据字段以及所述分箱数据表以输出评分卡模型;
其中,所述评分卡模型可以为逻辑回归模型、概率回归模型、决策树、神经网络。在本实施例中,评分卡模型选择逻辑回归模型,逻辑回归模型具有简单,稳定,可解释性强,技术成熟和易于检测和部署等优势,逻辑回归是评分卡模型最经常使用的算法。
S227根据WoE值数据表以及评分卡模型的模型参数以输出对应评分卡。
在建立评分卡模型时,经常会使用逻辑回归来对数据进行建模。但在用逻辑回归进行预测时,逻辑回归返回的是一个概率值,并不是评分卡分数。因此,在本实施例中,根据WoE值数据表以及评分卡模型的模型参数生成对应评分卡。
如图4所示,本发明还提供一种数据处理方法,该方法包括:
S20获取金融业务对象的业务请求;
S21获取金融业务对象的属性和行为数据;
其中,所述金融业务对象的属性包括姓名、年龄、所在地区、职业、收入、文化程度、资产情况。所述行为数据包括是否发生借贷、是否逾期。
S22根据所述业务请求的业务类型匹配出相应的业务模型,所述业务模型由多个应用组件训练生成;
S23通过所述相应的应用组件对所述金融业务对象的属性和行为数据进行处理,输出金融业务处理结果。其中,所述处理结果包括是否给予授信以及授信的额度和利率。
在一实施例中,该方法还包括配置所述应用组件的参数。
一般来说,不同的业务类型对应不同的业务模型,本实施例以评分卡模型作进一步说明。如图5所示,应用组件可以包括多个,并且每个应用组件的功能可以是一个完整的功能,用户在选择这些应用组件的时候,可以直接使用从而提高使用的便利性。也可以对各个应用组件根据实际需要进行调整后再使用,从而通过将不同的应用组件进行不同的组合,实现不同的功能,从而提高了操作的灵活性。将所需的应用组件按照生成金融业务处理结果的步骤建立输入输出链接。
在一实施例中,以生成评分卡作为具体实施例进行说明。
评分卡:信用评分卡是最常见的金融风控手段之一,它是指根据客户的各种属性和行为数据,利用一定的信用评分模型,对客户进行信用评分,据此决定是否给予授信以及授信的额度和利率,从而识别和减少在金融交易中存在的交易风险。
应用组件具体可以包括数据预处理组件110、数据分箱组件111、WoE值计算组件112、IV值计算组件113、特征选择组件114、模型生成组件115、评分卡生成组件116。
其中,数据预处理组件110用于对样本数据进行预处理;对样本数据的预处理具体是指将样本数据处理成符合要求的数据。
如图6所示,所述数据预处理组件包括:
数据接收组件1110,用于接收样本数据;
在一实施例中,数据接收组件接收的样本数据以数据表的形式呈现,包括实例名称、文件路径、表名、字段名、字段格式。
数据采样组件1111,用于对所述样本数据进行采样以输出第一数据表;
具体地,通过随机、分层的方式对数据进行采样,按给定比例或者数目对样本数据进行随机采样,每次采样都是各自独立的,最终输出第一数据表。在一实施例中,还可以采用有放回采集的方式对数据进行采样。
缺失值处理组件1112,用于对所述第一数据表中的缺失数据进行处理以输出第二数据表;
由于业务数据中经常出现缺失的情况,该组件可以将便于建模的数据填充到数据缺失的区域,以堤高建模的质量。对缺失数据进行处理具体可以是将空值或者一个指定的值替换为前值、后值、最大值、最小值、均值或者一个自定义的值,将字符型的空值或空字符串替换为前值、后值、一个自定义的值。
异常值处理组件1113,用于对所述第二数据表中的异常值进行处理以输出第三数据表。
由于业务数据中经常出现异常值的情况,该组件可以先找到异常值,然后将便于建模的数据填充到异常值的区域,以提高建模的质量。在一实施例中,采用箱型图判断异常值,针对第三数据表中的异常数据进行填充。其中,数据填充方法包括众数填充、中位数填充、均值填充、指定值填充;众数填充是指采用选定数据字段的众数填充异常值,中位数填充是指采用选定数据字段的中位数填充异常值,均值填充是指采用选定数据字段的均值填充异常值,指定值填充是指采用NA或其他特殊值填充异常值。
在一实施例中,应用组件还可以包括数据源读取组件,用于从所述样本数据中提取部分字段。
数据分箱组件111,用于对预处理后的样本数据进行分箱处理以输出分箱数据表;
分箱是做评分卡的必要步骤,分箱是指通过考察“邻居”(周围的值)来平滑存储数据的值,用“箱的深度”表示不同的箱里有相同个数的数据,用“箱的宽度”来表示每个箱值的取值区间。分箱方式包括等频分箱、等宽分箱、卡方分箱,其中卡方分箱尤其常用,离散型数据和连续型数据都可以使用卡方分箱进行分箱。
卡方分箱的基本思想是根据样本数据推断总体的分布与期望分布是否有显著性差异,或者推断两个分类变量是否相关或者独立。一般可以设原假设为:观察频数与期望频数没有差异,或者两个变量相互独立不相关。实际应用中,可以先假设原假设成立,计算出卡方的值,卡方表示观察值与理论值间的偏离程度。
等频分箱,区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说N=10,每个区间应该包含大约10%的实例。
等宽分箱,从最小值到最大值之间,均分为N等份。如果A为最小值,B为最大值,则每个区间的长度为W=(B-A)/N,则区间边界值为A+W、A+2W、…、A+(N-1)W。这里只考虑边界,每个等份的实例数量可能不等。
WoE值计算组件112,用于计算所述分箱数据表中各个数据字段的WoE值以输出WoE值数据表;
WoE(Weight of Evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,WoE是对原始自变量的一种编码形式。WoE能反映自变量的贡献情况,WoE编码之后,自变量其实具备了某种标准化的性质,对异常值不敏感。
IV值计算组件113,用于根据所述WoE值数据表计算所述分箱数据表中各个数据字段的IV值以输出IV值数据表;
IV的全称是Information Value,中文意思是信息价值,或者信息量。
在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。那么怎么去挑选入模变量呢?最主要和最直接的衡量标准是变量的预测能力。IV就是这样一种指标,他可以用来衡量自变量的预测能力。
特征选择组件114,用于根据设定的筛选阈值对所述IV值数据表中的数据字段进行筛选;
在本实施例中,使用IV值筛选特征,一般来说IV值在0.3以上时,特征的预测能力较强。有时由于样本问题,本来是对业务很重要的变量的IV却很低。为了解决这个问题,平台提供灵活的手动选择特征功能,用户可以根据专家经验排除掉一些相关性差或者一致性强的特征。
模型生成组件115,用于根据筛选出的数据字段以及所述分箱数据表以输出评分卡模型;其中,所述评分卡模型为逻辑回归模型、概率回归模型、决策树、神经网络。在本实施例中,评分卡模型选择逻辑回归模型,逻辑回归模型具有简单,稳定,可解释性强,技术成熟和易于检测和部署等优势,逻辑回归是评分卡模型最经常使用的算法。
在建立评分卡模型时,经常会使用逻辑回归来对数据进行建模。但在用逻辑回归进行预测时,逻辑回归返回的是一个概率值,并不是评分卡分数。因此,评分卡生成组件116用于根据WoE值数据表以及评分卡模型的模型参数生成对应评分卡。
在一实施例中,对评分卡的转换进行详细说明。
评分卡定义
已知坏用户的概率为:p(Y=1|x)=p
好用户的概率为:p(Y=0|x)=1-p
可以计算好坏用户比值(坏用户与好用户之比,分子为坏用户),称为比率:
odds={p}/{1-p}
评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式,即
score=A+B*ln(odds)
其中,A和B是常数
评分卡转换
转换步骤如下:
设定odds=Theta_{0}时的分数p_{0}
设定当odds每增加1倍时,增加的分数为PDO(point of double odds)
将当odds=Theta_{0}的分数p_{0},odds=2*Theta_{0}的分数p_{0}+PDO带入分数公式,得:
p_{0}=A+B*ln(Theta_{0})
p_{0}+PDO=A+B*ln(2*Theta_{0})
那么,可以计算得到A和B的值,即:
B={PDO}/{ln(2)}
A=p_{0}-B*ln(Theta_{0})
通常,该分值将四舍五入到最近的整数,以简化评分卡的表现形式和可解释性。这种四舍五入将得到分值的近似值,但其影响很小,可以忽略不计。
为了方便业务人员使用,可以将评分卡更加细致地展示出来,即每个变量的不同取值对评分卡结果的影响。
已知,
p(Y=1|x)={e^{Theta x}}/{1+e^{Theta x}}
p(Y=0|x)={1}/{1+e^{Theta x}}
odds={p(Y=1|x)}/{p(Y=0|x)}=e^{Theta x}
那么,评分卡可以表示为:
score=A+B*ln(odds)
score=A+B*ln(e^{Theta*x})
score=A+B*sum{Theta_{i}*x_{i}}
其中Theta_{i}x_{i}=(Theta_{i}w_{i1})*delta_{i1}+(Theta_{i}w_{i2})*delta_{i2}+...+(Theta_{i}w_{m2})*delta_{im}。
m为x_{i}分箱后的取值个数;
w_{im}为变量x_{i}第m个取值对应的WoE值;
delta_{im}为二元变量,若x_{i}取分箱后的第m个值,则delta_{im}=1,否则delta_{im}=0。
本实施例中,基准分数是500,PDO=20。
最终评分卡展示如表1。
表1
Figure BDA0002203363660000121
Figure BDA0002203363660000131
一般来说,评分卡模型建立后,需要对评分卡模型的效果进行评估,因此应用组件还包括评估组件117用于对评分卡模型进行评估。测试时,可以将测试用数据输入到评分卡模型中通过输出指标来评价其效果的好坏。其中,评价指标可以包括AUC值、KS值、Accuracy值、Precision值、Recall值、ROC曲线、KS曲线、PR曲线;
AUC(Area Under the Curve)表示所有正例中随机选取一个样本A,再从所有负例中随机选取一个样本B,分类器将A判为正例的概率比将B判为正例的概率大的可能性。由于画ROC曲线时都是先将所有样本按分类器的预测概率排序,所以AUC反映的是分类器对样本的排序能力,AUC越大,排序能力越好,即分类器将越多的正例排在负例之前。AUC越大,说明算法和模型准确率越高越好,一般在0.7以上可以达到上线要求。
KS值是KS图中两条线之间最大的距离,其能反映出分类器的划分能力。KS越大,说明算法和模型准确率越高越好,一般在0.7以上可以达到上线要求
Accuracy指的是正确预测的样本数占总预测样本数的比值,它不考虑预测的样本是正例还是负例。
Precision指的是正确预测的正样本数占所有预测为正样本的数量的比值,也就是说所有预测为正样本的样本中有多少是真正的正样本。Precision只关注预测为正样本的部分,而Accuracy考虑全部样本。
Recall指的是正确预测的正样本数占真实正样本总数的比值,也就是我能从这些样本中能够正确找出多少个正样本。
ROC曲线(Receiver Operating Characteristic):ROC曲线常用于二分类问题中的模型比较,主要表现为一种真正例率(TPR)和假正例率(FPR)的权衡。具体方法是在不同的分类阈值(threshold)设定下分别以TPR和FPR为纵、横轴作图。ROC曲线可以看作是随着阈值的不断移动,所有样本中正例与负例之间的“对抗”。曲线越靠近左上角,意味着越多的正例优先于负例,模型的整体表现也就越好。
KS曲线(Kolmogorov-Smirnov):指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。
PR曲线(Kolmogorov-Smirnov):PR曲线展示的是Precision vs Recall的曲线,PR曲线与ROC曲线的相同点是都采用了TPR(Recall),都可以用AUC来衡量分类器的效果。不同点是ROC曲线使用了FPR,而PR曲线使用了Precision,因此PR曲线的两个指标都聚焦于正例。类别不平衡问题中由于主要关心正例,所以在此情况下PR曲线被广泛认为优于ROC曲线。
在一实施例中,应用组件还包括导出组件118,用于输出评分卡模型以及评分卡模型的评价指标,包含不限于前面提到的模型的指标(Auc、KS、Accuracy、Reall),可视化报表(ROC、KS、P-R),还可以包括评分卡的刻度、评分卡明细。
如图7所示,本发明还提供一种数据处理装置,该装置包括:
业务请求获取模块10,用于获取金融业务对象的业务请求;
数据获取模块11,用于获取金融业务对象的属性和行为数据;
模型匹配模块12,用于根据所述业务请求的业务类型匹配出相应的业务模型,所述业务模型由多个应用组件训练生成;
结果输出模块13,用于通过所述相应的业务模型对所述金融业务对象的属性和行为数据进行处理,输出金融业务处理结果。
所述金融业务对象的属性包括姓名、年龄、所在地区、职业、收入、文化程度、资产情况。所述行为数据包括是否发生借贷、是否逾期。所述处理结果包括是否给予授信以及授信的额度和利率。
在一实施例中,该装置还包括参数配置模块,用于配置所述应用组件的参数。
在本实施例中,通过业务模型生成组件生成业务模型,所述业务模型生成组件可以包括多个应用组件,并且每个应用组件的功能可以是一个完整的功能,用户在选择这些应用组件的时候,可以直接使用从而提高使用的便利性。也可以对各个应用组件根据实际需要进行调整后再使用,从而通过将不同的应用组件进行不同的组合,实现不同的功能,从而提高了操作的灵活性。将所需的应用组件按照生成金融业务处理结果的步骤建立输入输出链接。
在一实施例中,以生成评分卡作为具体实施例进行说明。
评分卡:信用评分卡是最常见的金融风控手段之一,它是指根据客户的各种属性和行为数据,利用一定的信用评分模型,对客户进行信用评分,据此决定是否给予授信以及授信的额度和利率,从而识别和减少在金融交易中存在的交易风险。
应用组件具体可以包括数据预处理组件110、数据分箱组件111、WoE值计算组件112、IV值计算组件113、特征选择组件114、模型生成组件115、评分卡生成组件116。
其中,数据预处理组件110用于对样本数据进行预处理;对样本数据的预处理具体是指将样本数据处理成符合要求的数据。
所述数据预处理组件包括:
数据接收组件1110,用于接收样本数据;
在一实施例中,数据接收组件接收的样本数据以数据表的形式呈现,包括实例名称、文件路径、表名、字段名、字段格式。
数据采样组件1111,用于对所述样本数据进行采样以输出第一数据表;
具体地,通过随机、分层的方式对数据进行采样,按给定比例或者数目对样本数据进行随机采样,每次采样都是各自独立的,最终输出第一数据表。在一实施例中,还可以采用有放回采集的方式对数据进行采样。
缺失值处理组件1112,用于对所述第一数据表中的缺失数据进行处理以输出第二数据表;
由于业务数据中经常出现缺失的情况,该组件可以将便于建模的数据填充到数据缺失的区域,以堤高建模的质量。对缺失数据进行处理具体可以是将空值或者一个指定的值替换为前值、后值、最大值、最小值、均值或者一个自定义的值,将字符型的空值或空字符串替换为前值、后值、一个自定义的值。
异常值处理组件1113,用于对所述第二数据表中的异常值进行处理以输出第三数据表。
由于业务数据中经常出现异常值的情况,该组件可以先找到异常值,然后将便于建模的数据填充到异常值的区域,以提高建模的质量。在一实施例中,采用箱型图判断异常值,针对第三数据表中的异常数据进行填充。其中,数据填充方法包括众数填充、中位数填充、均值填充、指定值填充;众数填充是指采用选定数据字段的众数填充异常值,中位数填充是指采用选字数据字段的中位数填充异常值,均值填充是指采用选定数据字段的均值填充异常值,指定值填充是指采用NA或其他特殊值填充异常值。
在一实施例中,应用组件还可以包括数据源读取组件,用于从所述样本数据中提取部分字段。
数据分箱组件111,用于对预处理后的样本数据进行分箱处理以输出分箱数据表;
分箱是做评分卡的必要步骤,分箱是指通过考察“邻居”(周围的值)来平滑存储数据的值,用“箱的深度”表示不同的箱里有相同个数的数据,用“箱的宽度”来表示每个箱值的取值区间。分箱方式包括等频分箱、等宽分箱、卡方分箱,其中卡方分箱尤其常用,离散型数据和连续型数据都可以使用卡方分箱进行分箱。
卡方分箱的基本思想是根据样本数据推断总体的分布与期望分布是否有显著性差异,或者推断两个分类变量是否相关或者独立。一般可以设原假设为:观察频数与期望频数没有差异,或者两个变量相互独立不相关。实际应用中,可以先假设原假设成立,计算出卡方的值,卡方表示观察值与理论值间的偏离程度。
等频分箱,区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说N=10,每个区间应该包含大约10%的实例。
等宽分箱,从最小值到最大值之间,均分为N等份。如果A为最小值,B为最大值,则每个区间的长度为W=(B-A)/N,则区间边界值为A+W、A+2W、…、A+(N-1)W。这里只考虑边界,每个等份的实例数量可能不等。
WoE值计算组件112,用于计算所述分箱数据表中各个数据字段的WoE值以输出WoE值数据表;
WoE(Weight of Evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,WoE是对原始自变量的一种编码形式。WoE能反映自变量的贡献情况,WoE编码之后,自变量其实具备了某种标准化的性质,对异常值不敏感。
IV值计算组件113,用于根据所述WoE值数据表计算所述分箱数据表中各个数据字段的IV值以输出IV值数据表;
IV的全称是Information Value,中文意思是信息价值,或者信息量。
在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。那么怎么去挑选入模变量呢?最主要和最直接的衡量标准是变量的预测能力。IV就是这样一种指标,他可以用来衡量自变量的预测能力。
特征选择组件114,用于根据设定的筛选阈值对所述IV值数据表中的数据字段进行筛选;
在本实施例中,使用IV值筛选特征,一般来说IV值在0.3以上时,特征的预测能力较强。有时由于样本问题,本来是对业务很重要的变量的IV却很低。为了解决这个问题,平台提供灵活的手动选择特征功能,用户可以根据专家经验排除掉一些相关性差或者一致性强的特征。
模型生成组件115,用于根据筛选出的数据字段以及所述分箱数据表以输出评分卡模型;其中,所述评分卡模型为逻辑回归模型、概率回归模型、决策树、神经网络。在本实施例中,评分卡模型选择逻辑回归模型,逻辑回归模型具有简单,稳定,可解释性强,技术成熟和易于检测和部署等优势,逻辑回归是评分卡模型最经常使用的算法。
在建立评分卡模型时,经常会使用逻辑回归来对数据进行建模。但在用逻辑回归进行预测时,逻辑回归返回的是一个概率值,并不是评分卡分数。因此,评分卡生成组件116用于根据WoE值数据表以及评分卡模型的模型参数生成对应评分卡。
在一实施例中,对评分卡的转换进行详细说明。
评分卡定义
已知坏用户的概率为:p(Y=1|x)=p
好用户的概率为:p(Y=0|x)=1-p
可以计算好坏用户比值(坏用户与好用户之比,分子为坏用户),称为比率:
odds={p}/{1-p}
评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式,即
score=A+B*ln(odds)
其中,A和B是常数
评分卡转换
转换步骤如下:
设定odds=Theta_{0}时的分数p_{0}
设定当odds每增加1倍时,增加的分数为PDO(point of double odds)
将当odds=Theta_{0}的分数p_{0},odds=2*Theta_{0}的分数p_{0}+PDO带入分数公式,得:
p_{0}=A+B*ln(Theta_{0})
p_{0}+PDO=A+B*ln(2*Theta_{0})
那么,可以计算得到A和B的值,即:
B={PDO}/{ln(2)}
A=p_{0}-B*ln(Theta_{0})
通常,该分值将四舍五入到最近的整数,以简化评分卡的表现形式和可解释性。这种四舍五入将得到分值的近似值,但其影响很小,可以忽略不计。
为了方便业务人员使用,可以将评分卡更加细致地展示出来,即每个变量的不同取值对评分卡结果的影响。
已知,
p(Y=1|x)={e^{Theta x}}/{1+e^{Theta x}}
p(Y=0|x)={1}/{1+e^{Theta x}}
odds={p(Y=1|x)}/{p(Y=0|x)}=e^{Theta x}
那么,评分卡可以表示为:
score=A+B*ln(odds)
score=A+B*ln(e^{Theta*x})
score=A+B*sum{Theta_{i}*x_{i}}
其中Theta_{i}x_{i}=(Theta_{i}w_{i1})*delta_{i1}+(Theta_{i}w_{i2})*delta_{i2}+...+(Theta_{i}w_{m2})*delta_{im}。
m为x_{i}分箱后的取值个数;
w_{im}为变量x_{i}第m个取值对应的WoE值;
delta_{im}为二元变量,若x_{i}取分箱后的第m个值,则delta_{im}=1,否则delta_{im}=0。
本实施例中,基准分数是500,PDO=20。
最终评分卡展示如表2。
表2
序号 变量 区间(左闭右开) 分数
1 zhima_score -inf,603 16
2 zhima_score 603,611 17
3 zhima_score 611,615 18
4 zhima_score 615,635 19
5 zhima_score 635+ 21
6 step_number -inf,-1 13
7 step_number -1,3.6667 17
8 step_number 3.6667,1944 16
一般来说,评分卡模型建立后,需要对评分卡模型的效果进行评估,因此应用组件还包括评估组件117用于对评分卡模型进行评估。测试时,可以将测试用数据输入到评分卡模型中通过输出指标来评价其效果的好坏。其中,评价指标可以包括AUC值、KS值、Accuracy值、Precision值、Recall值、ROC曲线、KS曲线、PR曲线;
AUC(Area Under the Curve)表示所有正例中随机选取一个样本A,再从所有负例中随机选取一个样本B,分类器将A判为正例的概率比将B判为正例的概率大的可能性。由于画ROC曲线时都是先将所有样本按分类器的预测概率排序,所以AUC反映的是分类器对样本的排序能力,AUC越大,排序能力越好,即分类器将越多的正例排在负例之前。AUC越大,说明算法和模型准确率越高越好,一般在0.7以上可以达到上线要求。
KS值是KS图中两条线之间最大的距离,其能反映出分类器的划分能力。KS越大,说明算法和模型准确率越高越好,一般在0.7以上可以达到上线要求
Accuracy指的是正确预测的样本数占总预测样本数的比值,它不考虑预测的样本是正例还是负例。
Precision指的是正确预测的正样本数占所有预测为正样本的数量的比值,也就是说所有预测为正样本的样本中有多少是真正的正样本。Precision只关注预测为正样本的部分,而Accuracy考虑全部样本。
Recall指的是正确预测的正样本数占真实正样本总数的比值,也就是我能从这些样本中能够正确找出多少个正样本。
ROC曲线(Receiver Operating Characteristic):ROC曲线常用于二分类问题中的模型比较,主要表现为一种真正例率(TPR)和假正例率(FPR)的权衡。具体方法是在不同的分类阈值(threshold)设定下分别以TPR和FPR为纵、横轴作图。ROC曲线可以看作是随着阈值的不断移动,所有样本中正例与负例之间的“对抗”。曲线越靠近左上角,意味着越多的正例优先于负例,模型的整体表现也就越好。
KS曲线(Kolmogorov-Smirnov):指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。
PR曲线(Kolmogorov-Smirnov):PR曲线展示的是Precision vs Recall的曲线,PR曲线与ROC曲线的相同点是都采用了TPR(Recall),都可以用AUC来衡量分类器的效果。不同点是ROC曲线使用了FPR,而PR曲线使用了Precision,因此PR曲线的两个指标都聚焦于正例。类别不平衡问题中由于主要关心正例,所以在此情况下PR曲线被广泛认为优于ROC曲线。
在一实施例中,应用组件还包括导出组件118,用于输出评分卡模型以及评分卡模型的评价指标,包含不限于前面提到的模型的指标(Auc、KS、Accuracy、Reall),可视化报表(ROC、KS、P-R),还可以包括评分卡的刻度、评分卡明细。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中人脸识别方法所包含步骤的指令(instructions)。
图8为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件***接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中人脸识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图9为本申请的一个实施例提供的终端设备的硬件结构示意图。图9是对图8在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图4所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述数据处理方法中的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理***,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和***接口模块之间提供接口,上述***接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于***SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图9实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图8实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (40)

1.一种数据处理方法,其特征在于,该方法包括:
获取金融业务对象的属性和行为数据;
对所述金融业务对象的属性和行为数据进行处理,输出金融业务处理结果。
2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述金融业务对象的属性和行为数据进行处理,包括将所述金融业务对象的属性和行为数据输入到生成的业务模型中。
3.根据权利要求1所述的数据处理方法,其特征在于,所述金融业务对象的属性包括姓名、年龄、所在地区、职业、收入、文化程度、资产情况。
4.根据权利要求1所述的数据处理方法,其特征在于,所述行为数据包括是否发生借贷、是否逾期。
5.根据权利要求1所述的数据处理方法,其特征在于,所述处理结果包括是否给予授信以及授信的额度和利率。
6.根据权利要求2所述的数据处理方法,其特征在于,所述业务模型的生成方法包括:
对样本数据进行预处理;
对预处理后的样本数据进行分箱处理以输出分箱数据表;
计算所述分箱数据表中各个数据字段的WoE值以输出WoE值数据表;
根据所述WoE值数据表计算所述分箱数据表中各个数据字段的IV值以输出IV值数据表;
根据设定的筛选阈值对所述IV值数据表中的数据字段进行筛选;
根据筛选出的数据字段以及所述分箱数据表以输出评分卡模型;
根据WoE值数据表以及评分卡模型的模型参数以输出对应评分卡。
7.根据权利要求6所述的数据处理方法,其特征在于,所述业务模型的生成方法还包括:
对所述评分卡模型进行评估;
输出所述评分卡模型以及评分卡模型的评价指标。
8.根据权利要求6所述的数据处理方法,其特征在于,所述对样本数据进行预处理,包括:
接收样本数据;
对所述样本数据进行采样以输出第一数据表;
对所述第一数据表中的缺失数据进行处理以输出第二数据表;
对所述第二数据表中的异常值进行处理以输出第三数据表。
9.一种数据处理方法,其特征在于,该方法包括:
获取金融业务对象的业务请求;
获取金融业务对象的属性和行为数据;
根据所述业务请求的业务类型匹配出相应的业务模型,所述业务模型由多个应用组件训练生成;
通过所述业务模型对所述金融业务对象的属性和行为数据进行处理,输出金融业务处理结果。
10.根据权利要求9所述的数据处理方法以,其特征在于,该方法还包括配置所述应用组件的参数。
11.根据权利要求9所述的数据处理方法,其特征在于,所述金融业务对象的属性包括姓名、年龄、所在地区、职业、收入、文化程度、资产情况。
12.根据权利要求9所述的数据处理方法,其特征在于,所述行为数据包括是否发生借贷、是否逾期。
13.根据权利要求9所述的数据处理方法,其特征在于,所述处理结果包括是否给予授信以及授信的额度和利率。
14.根据权利要求9所述的数据处理方法,其特征在于,所述应用组件包括:
数据预处理组件,用于对样本数据进行预处理;
数据分箱组件,用于对预处理后的样本数据进行分箱处理以输出分箱数据表;
WoE值计算组件,用于计算所述分箱数据表中各个数据字段的WoE值以输出WoE值数据表;
IV值计算组件,用于根据所述WoE值数据表计算所述分箱数据表中各个数据字段的IV值以输出IV值数据表;
特征选择组件,用于根据设定的筛选阈值对所述IV值数据表中的数据字段进行筛选;
模型生成组件,用于根据筛选出的数据字段以及所述分箱数据表以输出评分卡模型;
评分卡生成组件,用于根据WoE值数据表以及评分卡模型的模型参数以输出对应评分卡。
15.根据权利要求14所述的数据处理方法,其特征在于,所述应用组件还包括:
评估组件,用于对所述评分卡模型进行评估;
导出组件,用于输出所述评分卡模型以及评分卡模型的评价指标。
16.根据权利要求14所述的数据处理方法,其特征在于,所述数据预处理组件包括:
数据接收组件,用于接收样本数据;
数据采样组件,用于对所述样本数据进行采样以输出第一数据表;
缺失值处理组件,用于对所述第一数据表中的缺失数据进行处理以输出第二数据表;
异常值处理组件,用于对所述第二数据表中的异常值进行处理以输出第三数据表。
17.根据权利要求16所述的数据处理方法,其特征在于,对缺失数据进行处理包括对缺失值进行替换,将空值或者一个指定的值替换为以下之一:前值、后值、最大值、最小值、均值、一个自定义的值。
18.根据权利要求16所述的数据处理方法,其特征在于,对异常值进行处理包括对异常值进行填充,填充方法包括众数填充、中位数填充、均值填充、指定值填充。
19.根据权利要求14所述的数据处理方法,其特征在于,所述分箱处理包括等频分箱、等宽分箱、卡方分箱。
20.根据权利要求14所述的数据处理方法,其特征在于,所述评分卡模型为逻辑回归模型、概率回归模型、决策树、神经网络。
21.根据权利要求14所述的数据处理方法,其特征在于,所述评分卡生成组件将评分卡模型的输出值转化换评分卡分数。
22.根据权利要求15所述的数据处理方法,其特征在于,评估评分卡模型效果的评价指标包括AUC值、KS值、Accuracy值、Precision值、Recall值、ROC曲线、KS曲线、PR曲线。
23.根据权利要求15所述的数据处理方法,其特征在于,输出的评分卡模型的评价指标包括AUC值、KS值、Accuracy值、Precision值、Recall值、ROC曲线、KS曲线、PR曲线、评分卡刻度、评分卡明细。
24.一种数据处理装置,其特征在于,该装置包括:
业务请求获取模块,用于获取金融业务对象的业务请求;
数据获取模块,用于获取金融业务对象的属性和行为数据;
模型匹配模块,用于根据所述业务请求的业务类型匹配出相应的业务模型,所述业务模型由多个应用组件训练生成;
结果输出模块,用于通过所述相应的业务模型对所述金融业务对象的属性和行为数据进行处理,输出金融业务处理结果。
25.根据权利要求24所述的数据处理装置,其特征在于,该装置还包括参数配置模块,用于对所述应用组件的参数进行配置。
26.根据权利要求24所述的数据处理装置,其特征在于,所述金融业务对象的属性包括姓名、年龄、所在地区、职业、收入、文化程度、资产情况。
27.根据权利要求24所述的数据处理装置,其特征在于,所述行为数据包括是否发生借贷、是否逾期。
28.根据权利要求24所述的数据处理装置,其特征在于,所述处理结果包括是否给予授信以及授信的额度和利率。
29.根据权利要求24所述的数据处理装置,其特征在于,通过业务模型生成组件生成业务模型,所述业务模型生成组件包括:
数据预处理组件,用于对样本数据进行预处理;
数据分箱组件,用于对预处理后的样本数据进行分箱处理以输出分箱数据表;
WoE值计算组件,用于计算所述分箱数据表中各个数据字段的WoE值以输出WoE值数据表;
IV值计算组件,用于根据所述WoE值数据表计算所述分箱数据表中各个数据字段的IV值以输出IV值数据表;
特征选择组件,用于根据设定的筛选阈值对所述IV值数据表中的数据字段进行筛选;
模型生成组件,用于根据筛选出的数据字段以及所述分箱数据表以输出评分卡模型;
评分卡生成组件,用于根据WoE值数据表以及评分卡模型的模型参数以输出对应评分卡。
30.根据权利要求29所述的数据处理装置,其特征在于,所述业务模型生成组件还包括:
评估组件,用于对所述评分卡模型进行评估;
导出组件,用于输出所述评分卡模型以及评分卡模型的评价指标。
31.根据权利要求28所述的数据处理装置,其特征在于,所述数据预处理组件包括:
数据接收组件,用于接收样本数据;
数据采样组件,用于对所述样本数据进行采样以输出第一数据表;
缺失值处理组件,用于对所述第一数据表中的缺失数据进行处理以输出第二数据表;
异常值处理组件,用于对所述第二数据表中的异常值进行处理以输出第三数据表。
32.根据权利要求31所述的数据处理装置,其特征在于,对缺失数据进行处理包括对缺失值进行替换,将空值或者一个指定的值替换为以下之一:前值、后值、最大值、最小值、均值、一个自定义的值。
33.根据权利要求31所述的数据处理装置,其特征在于,对异常值进行处理包括对异常值进行填充,填充方法包括众数填充、中位数填充、均值填充、指定值填充。
34.根据权利要求29所述的数据处理装置,其特征在于,所述分箱处理包括等频分箱、等宽分箱、卡方分箱。
35.根据权利要求29所述的数据处理装置,其特征在于,所述评分卡模型为逻辑回归模型、概率回归模型、决策树、神经网络。
36.根据权利要求29所述的数据处理装置,其特征在于,所述评分卡生成组件将评分卡模型的输出值转化换评分卡分数。
37.根据权利要求30所述的数据处理装置,其特征在于,评估评分卡模型效果的评价指标包括AUC值、KS值、Accuracy值、Precision值、Recall值、ROC曲线、KS曲线、PR曲线。
38.根据权利要求30所述的数据处理装置,其特征在于,输出的评分卡模型的评价指标包括AUC值、KS值、Accuracy值、Precision值、Recall值、ROC曲线、KS曲线、PR曲线、评分卡刻度、评分卡明细。
39.一种设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-8或9~23中一个或多个所述的方法。
40.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-8或9~23中一个或多个所述的方法。
CN201910872797.7A 2019-09-16 2019-09-16 一种数据处理方法、装置、机器可读介质及设备 Pending CN110659817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910872797.7A CN110659817A (zh) 2019-09-16 2019-09-16 一种数据处理方法、装置、机器可读介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910872797.7A CN110659817A (zh) 2019-09-16 2019-09-16 一种数据处理方法、装置、机器可读介质及设备

Publications (1)

Publication Number Publication Date
CN110659817A true CN110659817A (zh) 2020-01-07

Family

ID=69037346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910872797.7A Pending CN110659817A (zh) 2019-09-16 2019-09-16 一种数据处理方法、装置、机器可读介质及设备

Country Status (1)

Country Link
CN (1) CN110659817A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909775A (zh) * 2019-11-08 2020-03-24 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置及电子设备
CN111311128A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于第三方数据的消费金融信用评分卡开发方法
CN113010493A (zh) * 2021-03-16 2021-06-22 北京云从科技有限公司 一种数据质量在线分析方法、装置、机器可读介质及设备
CN113987182A (zh) * 2021-10-28 2022-01-28 深圳永安在线科技有限公司 基于安全情报的欺诈实体识别方法、装置及相关设备
CN115841279A (zh) * 2023-02-20 2023-03-24 塔比星信息技术(深圳)有限公司 供应链数据评估方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087196A (zh) * 2018-08-20 2018-12-25 北京玖富普惠信息技术有限公司 信用评分方法、***、计算机设备及可读介质
CN109636591A (zh) * 2018-12-28 2019-04-16 浙江工业大学 一种基于机器学习的信用评分卡开发方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087196A (zh) * 2018-08-20 2018-12-25 北京玖富普惠信息技术有限公司 信用评分方法、***、计算机设备及可读介质
CN109636591A (zh) * 2018-12-28 2019-04-16 浙江工业大学 一种基于机器学习的信用评分卡开发方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909775A (zh) * 2019-11-08 2020-03-24 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置及电子设备
CN111311128A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于第三方数据的消费金融信用评分卡开发方法
CN113010493A (zh) * 2021-03-16 2021-06-22 北京云从科技有限公司 一种数据质量在线分析方法、装置、机器可读介质及设备
CN113987182A (zh) * 2021-10-28 2022-01-28 深圳永安在线科技有限公司 基于安全情报的欺诈实体识别方法、装置及相关设备
CN115841279A (zh) * 2023-02-20 2023-03-24 塔比星信息技术(深圳)有限公司 供应链数据评估方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110245213B (zh) 调查问卷生成方法、装置、设备和存储介质
CN110659817A (zh) 一种数据处理方法、装置、机器可读介质及设备
US8196066B1 (en) Collaborative gesture-based input language
US11521115B2 (en) Method and system of detecting data imbalance in a dataset used in machine-learning
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN108681970A (zh) 基于大数据的理财产品推送方法、***及计算机存储介质
CN113051317B (zh) 一种数据挖掘模型更新方法、***、计算机设备及可读介质
CN110909222B (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
CN112733042A (zh) 推荐信息的生成方法、相关装置及计算机程序产品
CN111898675B (zh) 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
CN112598294A (zh) 在线建立评分卡模型的方法、装置、机器可读介质及设备
CN112163642A (zh) 一种风控规则获取方法、装置、介质及设备
CN111563810A (zh) 信贷风控模型生成方法、信用评估方法、***、机器可读介质及设备
US20220366138A1 (en) Rule-based machine learning classifier creation and tracking platform for feedback text analysis
CN113076903A (zh) 一种目标行为检测方法、***、计算机设备及机器可读介质
CN112328869A (zh) 一种用户贷款意愿的预测方法、装置及计算机***
CN112308143A (zh) 一种基于多样性的样本筛选方法、***、设备及介质
CN115271931A (zh) 一种***产品的推荐方法、装置、电子设备和介质
CN112115710B (zh) 一种行业信息识别方法及装置
CN111275683B (zh) 图像质量评分处理方法、***、设备及介质
CN117421491A (zh) 社交媒体账号运行数据的量化方法、装置及电子设备
CN110060183A (zh) 客户智能匹配方法、装置、计算机设备和存储介质
CN115330522A (zh) 基于聚类的***审批方法、装置、电子设备和介质
CN112417197B (zh) 一种排序方法、装置、机器可读介质及设备
CN114511022A (zh) 特征筛选、行为识别模型训练、异常行为识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20200106

Address after: 102300 Room 102, floor 1, building 3, No. 20 Yong'an Road, Shilong Economic Development Zone, Mentougou District, Beijing

Applicant after: Beijing Yuncong Technology Co., Ltd

Address before: 201203 Shanghai City, Pudong New Area China Zuchongzhi Road (Shanghai) Free Trade Zone No. 1077 Building 2 room 1135-A

Applicant before: Shanghai cloud from enterprise development Co., Ltd.

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200107

RJ01 Rejection of invention patent application after publication