CN110827131B - 一种分布式自动特征组合的纳税人信用评估方法 - Google Patents

一种分布式自动特征组合的纳税人信用评估方法 Download PDF

Info

Publication number
CN110827131B
CN110827131B CN201810810972.5A CN201810810972A CN110827131B CN 110827131 B CN110827131 B CN 110827131B CN 201810810972 A CN201810810972 A CN 201810810972A CN 110827131 B CN110827131 B CN 110827131B
Authority
CN
China
Prior art keywords
taxpayer
sub
training
sample
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810810972.5A
Other languages
English (en)
Other versions
CN110827131A (zh
Inventor
刘宗前
武锦
王彦
李雪峰
韩佶兴
付婷婷
郭乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Software & Service Co ltd
Original Assignee
China National Software & Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Software & Service Co ltd filed Critical China National Software & Service Co ltd
Priority to CN201810810972.5A priority Critical patent/CN110827131B/zh
Publication of CN110827131A publication Critical patent/CN110827131A/zh
Application granted granted Critical
Publication of CN110827131B publication Critical patent/CN110827131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种分布式自动特征组合的纳税人信用评估方法。本方法步骤包括:1)利用训练样本采用MapReduce分布式计算框架进行随机森林模型的训练,得到一分布式随机森林模型;2)将训练样本输入该分布式随机森林模型,生成输入的每一训练样本的多个组合特征;3)将生成的组合特征与对应纳税人的特征信息进行合并;4)利用合并后的特征训练评分卡模型;5)对于一待信用评估的纳税人,利用该分布式随机森林模型生成该纳税人的组合特征并与该纳税人的特征信息进行合并,然后将该纳税人合并后的特征输入训练好的评分卡模型,预测该纳税人的信用评分。本发明能够进行纳税人的精准信用评估。

Description

一种分布式自动特征组合的纳税人信用评估方法
技术领域
本发明涉及一种信用评估模型及纳税人信用评估方法,具体的说是一种通过分布式随机森林进行自动特征组合的信用评估模型及纳税人信用评估方法,属于计算机大数据处理领域。
技术背景
信用评估在银行信贷领域已经发展了数十年,主要用来对申请贷款的人员进行个人信用的评估,通过信用评估辅助贷款的发放,降低银行的资金收益和资金回收的风险。
在税收领域进行纳税人信用评估则是近几年才兴起的,并且以专家经验为主,由税务专家根据其专业经验选取能够代表税收风险的指标,并对不同的指标赋予不同的分值,对每一户纳税人,都需要很多人工的分析和调查才能出具最终的信用得分。因为进行纳税人信用评估的过程复杂,耗时耗力,所以通常每年信用评级才会更新一次,而且仅对小部分纳税人进行信用评级。
当前大数据技术被广泛应用到了各个领域,利用各种机器学习、统计分析方法可以从历史数据中自动分析出具有风险预测效果的指标,并通过模型来整合所有风险指标,自动进行信用评分的预测。其中信用评分卡模型因其良好的可解释性成为银行等金融机构最常用的一种信用评估模型。但是评分卡模型只能对加工好的特征进行处理,要想取得更准确的信用评分效果,还需要大量的专业人员构建精心计算的指标。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种分布式自动特征组合的信用评估方法,用来进行纳税人的精准信用评估。
本发明提供一种分布式自动特征组合的信用评分卡模型及纳税人信用评估方法,通过分布式随机森林模型对纳税人的基本信息、申报信息、纳税信息、***信息、纳税人关系网等数据构成的基本特征进行组合特征的发现,通过对这些基本特征进行组合,可以构造更有效的风险预测指标,减少原来由税务专家人工构造特征的繁琐,同时能够从数据中发现被专家忽视的特征。通过分布式的随机森林实现方式加速组合特征的构造过程,同时使得本发明能够支持水平扩展,充分对海量的税务数据进行挖掘。将自动发现的组合特征与原来的基本特征一起作为评分卡模型的输入,可以获取更准确的信用评分结果,帮助税务工作人员对纳税人进行更细致的分级分类管理,对高风险纳税人进行重点监控和防范。
本发明的技术方案为:
一种分布式自动特征组合的纳税人信用评估方法,其步骤包括:
1)构建信用评估模型的训练样本;所述训练样本以纳税人为单位,包含纳税人在设定领域的特征信息,以及根据纳税人的历史风险情况设置对应样本的风险标签,将历史记录中存在风险行为的纳税人作为黑样本,不具有风险行为的纳税人作为白样本;
2)利用所述训练样本采用MapReduce分布式计算框架进行随机森林模型的训练,得到一分布式随机森林模型;
3)将训练样本输入该分布式随机森林模型,生成输入的每一训练样本的多个组合特征;
4)将步骤3)中生成的组合特征与对应纳税人的特征信息进行合并;
5)利用步骤4)合并后的特征训练评分卡模型;
6)对于一待信用评估的纳税人,利用该分布式随机森林模型生成该纳税人的组合特征并与该纳税人的特征信息进行合并,然后将该纳税人合并后的特征输入步骤5)训练好的评分卡模型,预测该纳税人的信用评分。
进一步的,得到所述分布式随机森林模型的方法为:随机森林模型中的每棵决策树在Map阶段生成该决策树的子训练样本集,每个Reduce任务对应一个决策树模型的训练过程,并根据每个叶节点上的子数据集的样本标签计算该叶节点的证据权重值WOE,作为从根节点到该叶节点构成的组合特征的特征值,每棵决策树中的每条从根节点到叶节点的路径对应一条组合特征。
进一步的,每个Reduce任务对应一个决策树模型的训练过程,构建一对应决策树,其方法为:
31)选择一特征构建根节点,然后根据选择的特征划分所训练决策树对应的子训练数据集,对当前划分得到的每个子数据集构建子树,子树的根节点作为当前根节点的孩子节点;
32)如果当前要划分的子数据集满足条件a)或b),或者树深度到达设定的最大树深度,则停止划分并返回叶子节点;否则,从所有特征中随机选择F个特征,计算每个所选特征的信息增益,然后选择信息增益最大的特征作为当前节点的***特征,根据该***特征对子数据集的划分;如果***特征的取值为空值,则将当前待划分子数据集中的样本按照小于或等于特征分割点、大于特征分割点、空值分为三个子数据集,然后计算每个子数据集的WOE值,然后比较空值的子数据集的WOE值与其他两子数据集的WOE值的大小,将空值样本的子数据集划分到与其WOE值更接近的一个子数据集中;其中,条件:a)子数据集为空、b)子数据集中的所有样本的类标一致。
进一步的,如果当前子数据集的样本数量小于设定的最小样本数量,则利用该子数据集直接构造成叶节点,否则,重复步骤32)。
进一步的,计算所述证据权重值WOE的方法为:
Figure BDA0001739103960000031
其中,bi为叶子节点的子数据集中黑样本的数量,btotal为子数据集中的黑样本数量,gi为叶子节点的数据集中白样本的数量,gtotal为整个数据集中白样本的数量。
进一步的,生成该决策树的子训练样本集的方法为:决策树在Map阶段采用伯努利分布来进行样本的抽取,样本被选中的次数服从二项分布;通过对样本被选中次数的二项分布进行采样,得到每个决策树的子训练样本集;Mapper任务的key为决策树的id,value为选中的训练样本,对于Mapper任务收到的每个样本,都需要计算其被采样到决策树的数量,然后输出指定数量的<tree_id,sample>对,tree_id为决策树的id。
进一步的,所述训练样本包含纳税人在基本信息、申报信息、纳税信息、***信息、关系网络五个领域里面的基本特征。
进一步的,所述基本信息包括纳税人所属行业、注册资本金额、法人年龄、财务负责人年龄、从业人数、企业年限;所述申报信息包括纳税人历史申报次数、最近一次申报税额、历史申报最大税额、最近一次申报农产品税额、最近一次申报据当前月份间隔;所述纳税信息包括纳税人历史入库税额次数、逾期纳税次数、最近一次纳税税额;所述***信息包括纳税人历史领购***数量、历史领购***月份数、顶额开票占比、夜间开票占比、跨省开票占比;所述关系网络信息包括纳税人票流关系方非正常户数量、投资关系方非正常户数量。
进一步的,训练评分卡模型的过程包括:对合并后的特征进行特征标准化、特征离散化、特征选择、特征共线性检测、逻辑回归模型训练、评分调整。
本发明所采用的技术方案整体分为两部分,一部分是信用评估模型的训练过程,另一部分是利用已经训练好的模型对每个纳税人样本进行纳税人信用得分预测的过程。
本发明提出的分布式自动组合特征的信用评估模型的训练过程主要可以划分为S1~S5五个步骤。
在S1步骤中,需要构建信用评估模型的训练样本,这里选择的训练样本以纳税人为单位,包含纳税人在基本信息、申报信息、纳税信息、***信息、关系网络五个主要领域里面的基本特征,其中每个领域都包括丰富的基本特征;其中,基本信息包括纳税人所属行业、注册资本金额、法人年龄、财务负责人年龄、从业人数、企业年限等;申报信息包括历史申报次数、最近一次申报税额、历史申报最大税额、最近一次申报农产品税额、最近一次申报据当前月份间隔等;纳税信息包括历史入库税额次数、逾期纳税次数、最近一次纳税税额等;***信息包括历史领购***数量、历史领购***月份数、顶额开票占比、夜间开票占比、跨省开票占比等;关系网络信息包括票流关系方非正常户数量、投资关系方非正常户数量等。另外是根据纳税人的历史风险情况对纳税人的风险标签的构建,将历史记录中存在风险行为的纳税人作为黑样本,不具有风险行为的纳税人作为白样本,进行后续的模型训练。通过标注每个纳税人是否为风险纳税人,模型的训练样本包括特征和标签两部分信息。
S2步骤采用分布式的随机森林模型进行组合特征的发现,其中分布式的随机森林模型具体采用了MapReduce分布式计算框架进行随机森林模型的实现,随机森林模型由多颗决策树组成,而每棵决策树利用从原始样本中有放回的随机抽样的子样本进行训练,在Map阶段会进行样本的有放回随机抽取的过程,生成每个决策树的子训练样本集,每个Reduce任务对应了一个决策树模型的训练过程,并对传统的决策树模型进行优化,记录每个叶节点上的子数据集的证据权重WOE值(Weight of Evidence),作为从根节点到叶节点构成的组合特征的特征值,用来表征特征的风险偏好,WOE值为证据权重,数值越大,表明风险越高。每棵决策树中的每条从根节点到叶节点的路径对应了一条组合特征。
S3步骤是组合特征的生成过程,需要通过S3步骤对S1中的每个样本数据生成多个组合特征。因为每个样本在每棵决策树中只会路由到一个叶节点上,所以每个样本在这一步生成的组合特征的数量与决策树的数量相同。同时S3步骤也会出现在纳税人信用评估的预测过程中。
S4步骤会将S3步骤中生成的同一纳税人的组合特征与基本特征进行合并,在S2步骤中每棵决策树中的每条从根节点到叶节点的路径都对应了一条组合特征,但是每个样本在一棵决策树中只会路由到一个叶节点,获得该叶节点对应的组合特征,对应的特征值为在训练过程中记录的WOE值,在该棵决策树中的其他组合特征对应的特征值为空值。由于每棵决策树包含多条路径,每个路径都对应一个组合特征,所以通过随机森林模型学习到的组合特征的数量为所有决策树路径数量之和。由于不同的样本并不会具有所有的这些特征,每个样本的基本特征的特征值都是有差异的,每棵决策树在每个节点上是根据特征值来选择向下的路径的,所以每个样本最终只会路由到一棵决策树的一条路径上,但是不同的样本根据其基本特征的不同会路由到不同的路径上,所以每条路径都是有意义的,只是同一个纳税人在一颗决策树上只具有一个组合特征。
S5步骤为评分卡模型(参考Refaat M.Credit Risk Scorecard:Development andImplementation Using SAS[M].New York,NY,USA:Lulu.com,2011;中文翻译版为《信用风险评分卡研究》)的训练过程,即利用步骤S4合并后的特征进行评分卡模型的训练,包含对合并后的特征进行特征标准化、特征离散化、特征选择、特征共线性检测、逻辑回归模型训练、评分调整等过程。
信用得分的预测过程可以分为S6、S3、S4、S7这4个过程,其中S6过程同S1类似,是对要进行信用评估的纳税人进行基本特征的构建,选用的基本特征及加工逻辑应与S1步骤相同,S3步骤和S4步骤同训练过程中的执行逻辑相同,是指样本的数据不同。S7步骤则采用在S5步骤中训练好的评分卡模型对要进行信用评分预测的样本进行信用分预测。
本发明的有益之处是:
本发明采用分布式随机森林来进行自动组合特征的发现,能够提高运算速度,支持大规模数据的挖掘,可以充分利用海量的税收数据进行组合特征的发现。
加入自动发现的组合特征,可以在不降低信用评分卡模型的可解释性的情况下,提高信用评分的准确性,并显著减少了税务人员进行繁琐复杂的人工特征构造过程,基于更准确的信用评分信息对纳税人进行分级分类管理,对风险纳税人进行重点防控,降低税务部门的税收风险。
附图说明
图1为本发明的整体模块构成图;
图2为MapReduce实现自动组合特征的发现流程图;
图3为单棵决策树构造组合特征的流程图;
图4为本发明对样本数据中空值的处理逻辑流程图;
图5为决策树构造组合特征的示例图。
具体实施方式
本部分对发明的具体实施方式进行详细描述。
分布式自动组合特征的信用评估模型的训练过程主要可以划分为S1~S5五个步骤。
在S1步骤中,需要构建信用评估模型的训练样本,这里选择的训练样本以纳税人为单位,包含纳税人在基本信息、申报信息、纳税信息、***信息、关系网络四个主要领域里面的基本特征,其中每个领域都包括丰富的基本特征。另外是根据纳税人的历史风险情况对纳税人的风险标签的构建,将历史记录中存在风险行为的纳税人作为黑样本,不具有风险行为的纳税人作为白样本,进行后续的模型训练。
S2步骤采用分布式的随机森林模型进行组合特征的发现,其中分布式的随机森林模型具体采用了MapReduce分布式计算框架进行随机森林模型的实现,随机森林模型由多颗决策树组成,而每棵决策树利用从原始样本中有放回的随机抽样的子样本进行训练,在Map阶段会进行样本的有放回随机抽取的过程,生成每个决策树的子训练样本集,每个Reduce任务对应了一个决策树模型的训练过程,并对传统的决策树模型进行优化,记录每个叶节点上的子数据集的WOE值,作为从根节点到叶节点构成的组合特征的特征值,用来表征该组合特征(即该棵决策树中划分到该叶节点的纳税人)的风险偏好,WOE值为证据权重,数值越大,表明划分到该叶节点(也即具有该组合特征的)纳税人的风险越高。每棵决策树中的每条从根节点到叶节点的路径对应了一条组合特征。如图5,其中企业年限、是否有销无进、下游企业平均年限为基本特征,而企业年限小于等于6个月且是有销无进、企业年限小于等于6个月且不是有销无进、企业年限大于6个月且下游企业平均年限小于等于6个月、企业年限大于6个月且下游企业平均年限大于6个月为通过该决策树构造的4个组合特征。
Mapper函数实现的是为每棵决策树构造训练样本,在随机森林模型中,每棵决策树会有放回的从整个训练样本集中随机抽取一定数量的样本作为训练集,这一过程可以很方便的通过MapReduce任务来实现,每个Reduce任务训练一颗决策树,将Reduce的数量设置为随机森林中决策树的数量,就可以同时进行每棵决策树的训练,既可以加速随机森林模型的训练过程,又可以使得模型具有横向的可扩展性,因为随机森林模型通常需要训练较大数量的决策树,只需要增加集群的规模就可在不降低模型训练时长的情况下,增加随机森林中决策树的数量来提高模型的精度。而每个Map任务在进行样本选择的时候则采用了伯努利分布来进行样本的抽取,假设整体训练样本的数量为N,每棵决策树采用的样本数量为M,则意味着要从N棵树中有放回的抽取M个样本,因为是有放回的抽取,所以每一次抽取时每个样本被选中的概率为
Figure BDA0001739103960000061
总共进行M次采样,每次采样之间相互独立,所以是M次独立实验,样本被选中的次数服从二项分布。
Figure BDA0001739103960000062
通过对样本被选中次数的二项分布进行采样就可以近似得到每个决策树的样本集,因为只是训练样本的选择本身就具有随机性,而且,对于随机森林模型来说,这种近似采样也能够增加每棵决策树的随机性,所以能够满足样本采样的要求。Mapper任务的key为决策树的id,value为选中的训练样本,对于mapper任务收到的每个样本,都需要计算其被采样到决策树的数量,然后输出指定数量的<tree_id,sample>对。
Reduce任务是对每棵决策树进行构建,同时也是组合特征发现的过程。决策树的构建是一个迭代的过程,首先选择合适的特征构建根节点,然后根据选择的特征划分子数据集(如果选择的特征是连续特征则选择分割点将子集根据样本与分割点的大小比较分为左右两个子集,如果是离散特征则根据离散值分为多个子集。连续特征和离散特征需要构造样本特征时进行说明,默认情况下字符串、日期类型的特征为离散特征,整数、浮点数类型的特征为连续特征,也可以特别指定整数类型的特征作为离散型的特征处理),对划分后的每个子数据集构建子树,子树的根节点作为当前根节点的孩子节点。比如在根节点选择年龄作为划分特征,选择20作为***点,该棵决策树所对应的子训练数据集就会根据其样本的年龄的具体值划分成左右两个子集(年龄小于等于20的样本划分到左子集,年龄大于20的样本划分到右子集),然后递归的,用子集的数据训练子决策树。叶节点包含的子数据集是经过决策树在一条决策路径上进行筛选以后最后保留下在的样本,与训练集中的样本是一样的组成结构,是其一个子集。具体实现过程如下:
1.如果当前的子数据集满足以下条件或树深度到达设定的最大树深度,则直接返回叶子节点
a)数据集为空;
b)数据集中的所有样本的类标一致。
2.否则,从步骤S4中合并后的所有特征中随机选择F个特征,计算每个特征的信息增益。这里特征可能为连续性特征,也可能为离散型特征,需要分开计算。离散性特征根据不同的离散值将数据集分为不同的子集,计算整体的信息熵和各个子集的信息熵,然后用整体信息熵减去各个子集的信息熵作为信息增益。如下式,其中Gain为信息增益,H为信息熵,f为选定的特征,K为该特征的不同特征值的数量,Data为整体数据集,Datai为特征值为fk的子数据集,p(f=k)为特征f的取值为k的概率。
Figure BDA0001739103960000071
Figure BDA0001739103960000072
对于连续性特征,需要选择最优的***点计算其信息增益,首先按特征f的取值从小到大进行排序,选择排序后每对相邻特征值中间的值作为备选***点,分别计算以这些***点进行数据集的分割时得到的信息增益,然后选择信息增益最大的作为当前特征的信息增益。
计算完每个特征的信息增益后,选择信息增益最大的特征作为当前节点的***特征。并根据离散特征的特征取值,或者连续特征的***点进行子数据集的划分,这里每个离散特征可能会划分为多个子集,而每个连续特征则会根据***点划分为左右两个子集,其中左子集中的样本为f特征值小于***点的,右子集中的样本的f特征都大于***点。
另外在这个过程中可能会存在所***特征的取值为空值的情况,对于离散特征来说,空特征值可以作为单独一种取值来看待,而对于连续特征来说,则需要一种机制来确定特征f取值为空值的样本应该放到左子树还是右子树。这里本发明采用WOE值来决定空值样本的处理。首先将样本按照小于等于特征分割点、大于特征分割点、空值,将数据分为三个子集,然后计算每个子集的WOE值,计算空值的子集与左右子集的WOE哪个更接近,将空值样本的子集划分到与其WOE值更接近的一个子集中。
3.对于上一步划分的子集,如果子集的样本数量小于最小样本数量设置,则该子集直接构造成叶节点,否则,重复1~2步骤构造子节点。构造叶节点时,根据该叶节点的子数据集中的样本标签计算WOE值,作为到该叶节点的组合特征的特征值。WOE的计算方式如下式,其中bi为叶子节点的子数据集中黑样本的数量,btotal为整个子数据集中的黑样本数量,gi为叶子节点的子数据集中白样本的数量,gtotal为整个子数据集中白样本的数量。
Figure BDA0001739103960000081
S3步骤是组合特征的构建过程,需要通过S3步骤对S1中的每个样本数据生成多个组合特征。因为每个样本在每棵决策树中只会路由到一个叶节点上,所以每个样本在这一步生成的组合特征的数量与决策树的数量相同。同时S3步骤也会出现在纳税人信用评估的预测过程中。
S4步骤会将S3步骤中生成的组合特征与纳税人的基本特征进行合并,在S2步骤中每棵决策树中的每条到叶节点的路径都对应了一条组合特征,但是每个样本在一棵决策树中只会路由到一个叶节点,获得该叶节点对应的组合特征,对应的特征值为在训练过程中记录的WOE值,在该棵决策树中的其他组合特征对应的特征值为空值。
S5步骤为评分卡模型的训练过程,包含特征标准化、特征离散化、特征选择、特征共线性检测、逻辑回归模型训练、评分调整等过程。
信用得分的预测过程可以分为S6、S3、S4、S7 4个过程,其中S6过程同S1类似,是对要进行信用评估的纳税人进行基本特征的构建,选用的基本特征及加工逻辑应与S1步骤相同,S3步骤和S4步骤同训练过程中的执行逻辑相同,是指数据的数据不同。S7步骤则采用在S5步骤中训练好的评分卡模型对要进行信用评分预测的样本进行信用分预测。
举个例子说明组合特征的构建,如图5所示。随机森林模型中某一棵决策树的构造结果如图5所示。这个决策树可以构造4条组合特征,
1.企业年限小于等于6个月&有销无进;
2.企业年限小于等于6个月&非有销无进;
3.企业年限大于6个月&下游企业平均年限小于等于6个月;
4.企业年限大于6个月&下游企业平均年限大于6个月。
对于某个纳税人样本,经过这棵决策树,能够构造出的特征为企业年限小于等于6个月&有销无进。
以上包含了本发明优选实施例的说明,这是为了详细说明本发明的技术特征,并不是想要将发明内容限制在实施例所描述的具体形式中,依据本发明内容主旨进行的其他修改和变型也受本专利保护。本发明内容的主旨是由权利要求书所界定,而非有实施例的具体描述所界定。

Claims (9)

1.一种分布式自动特征组合的纳税人信用评估方法,其步骤包括:
1)构建信用评估模型的训练样本;所述训练样本以纳税人为单位,包含纳税人在设定领域的特征信息,以及根据纳税人的历史风险情况设置对应样本的风险标签,将历史记录中存在风险行为的纳税人作为黑样本,不具有风险行为的纳税人作为白样本;
2)利用所述训练样本采用MapReduce分布式计算框架进行随机森林模型的训练,得到一分布式随机森林模型;
3)将训练样本输入该分布式随机森林模型,生成输入的每一训练样本的多个组合特征;
4)将步骤3)中生成的组合特征与对应纳税人的特征信息进行合并;
5)利用步骤4)合并后的特征训练评分卡模型;
6)对于一待信用评估的纳税人,利用该分布式随机森林模型生成该纳税人的组合特征并与该纳税人的特征信息进行合并,然后将该纳税人合并后的特征输入步骤5)训练好的评分卡模型,预测该纳税人的信用评分。
2.如权利要求1所述的方法,其特征在于,得到所述分布式随机森林模型的方法为:随机森林模型中的每棵决策树在Map阶段生成该决策树的子训练样本集,每个Reduce任务对应一个决策树模型的训练过程,并根据每个叶节点上的子数据集的样本标签计算该叶节点的证据权重值WOE,作为从根节点到该叶节点构成的组合特征的特征值,每棵决策树中的每条从根节点到叶节点的路径对应一条组合特征。
3.如权利要求2所述的方法,其特征在于,每个Reduce任务对应一个决策树模型的训练过程,构建一对应决策树,其方法为:
31)选择一特征构建根节点,然后根据选择的特征划分所训练决策树对应的子训练数据集,对当前划分得到的每个子数据集构建子树,子树的根节点作为当前根节点的孩子节点;
32)如果当前要划分的子数据集满足条件a)或b),或者树深度到达设定的最大树深度,则停止划分并返回叶子节点;否则,从所有特征中随机选择F个特征,计算每个所选特征的信息增益,然后选择信息增益最大的特征作为当前节点的***特征,根据该***特征对子数据集的划分;如果***特征的取值为空值,则将当前待划分子数据集中的样本按照小于或等于特征分割点、大于特征分割点、空值分为三个子数据集,然后计算每个子数据集的WOE值,然后比较空值的子数据集的WOE值与其他两子数据集的WOE值的大小,将空值样本的子数据集划分到与其WOE值更接近的一个子数据集中;其中,条件:a)子数据集为空、b)子数据集中的所有样本的类标一致。
4.如权利要求3所述的方法,其特征在于,如果当前子数据集的样本数量小于设定的最小样本数量,则利用该子数据集直接构造成叶节点,否则,重复步骤32)。
5.如权利要求2或3所述的方法,其特征在于,计算所述证据权重值WOE的方法为:
Figure FDA0003532204080000021
其中,bi为叶子节点的子数据集中黑样本的数量,btotal为整个子数据集中的黑样本数量,gi为叶子节点的数据集中白样本的数量,gtotal为整个子数据集中白样本的数量。
6.如权利要求2所述的方法,其特征在于,生成该决策树的子训练样本集的方法为:决策树在Map阶段采用伯努利分布来进行样本的抽取,样本被选中的次数服从二项分布;通过对样本被选中次数的二项分布进行采样,得到每个决策树的子训练样本集;Mapper任务的key为决策树的id,value为选中的训练样本,对于Mapper任务收到的每个样本,都需要计算其被采样到决策树的数量,然后输出指定数量的<tree_id,sample>对,tree_id为决策树的id,sample为决策树的样本。
7.如权利要求1所述的方法,其特征在于,所述训练样本包含纳税人在基本信息、申报信息、纳税信息、***信息、关系网络五个领域里面的基本特征。
8.如权利要求7所述的方法,其特征在于,所述基本信息包括纳税人所属行业、注册资本金额、法人年龄、财务负责人年龄、从业人数、企业年限;所述申报信息包括纳税人历史申报次数、最近一次申报税额、历史申报最大税额、最近一次申报农产品税额、最近一次申报据当前月份间隔;所述纳税信息包括纳税人历史入库税额次数、逾期纳税次数、最近一次纳税税额;所述***信息包括纳税人历史领购***数量、历史领购***月份数、顶额开票占比、夜间开票占比、跨省开票占比;所述关系网络信息包括纳税人票流关系方非正常户数量、投资关系方非正常户数量。
9.如权利要求1或2所述的方法,其特征在于,训练评分卡模型的过程包括:对合并后的特征进行特征标准化、特征离散化、特征选择、特征共线性检测、逻辑回归模型训练、评分调整。
CN201810810972.5A 2018-07-23 2018-07-23 一种分布式自动特征组合的纳税人信用评估方法 Active CN110827131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810810972.5A CN110827131B (zh) 2018-07-23 2018-07-23 一种分布式自动特征组合的纳税人信用评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810810972.5A CN110827131B (zh) 2018-07-23 2018-07-23 一种分布式自动特征组合的纳税人信用评估方法

Publications (2)

Publication Number Publication Date
CN110827131A CN110827131A (zh) 2020-02-21
CN110827131B true CN110827131B (zh) 2022-06-28

Family

ID=69533692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810810972.5A Active CN110827131B (zh) 2018-07-23 2018-07-23 一种分布式自动特征组合的纳税人信用评估方法

Country Status (1)

Country Link
CN (1) CN110827131B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738331A (zh) * 2020-06-19 2020-10-02 北京同邦卓益科技有限公司 用户分类方法及装置、计算机可读存储介质、电子设备
CN111815439B (zh) * 2020-07-23 2021-05-18 睿智合创(北京)科技有限公司 一种基于云平台的信用评分***
CN112184292A (zh) * 2020-09-16 2021-01-05 中国农业银行股份有限公司河北省分行 基于人工智能决策树的营销方法和装置
CN113221989B (zh) * 2021-04-30 2022-09-02 浙江网商银行股份有限公司 基于分布式的评估模型训练方法、***以及装置
CN114398942A (zh) * 2021-12-08 2022-04-26 河北航天信息技术有限公司 一种基于集成的个人所得税异常检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960387A (zh) * 2017-04-28 2017-07-18 浙江工商大学 个人信用风险评估方法及***
CN107292186A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN108133418A (zh) * 2017-03-02 2018-06-08 明特奇点医疗科技(北京)有限公司 实时信用风险管理***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836701B2 (en) * 2014-08-13 2017-12-05 Microsoft Technology Licensing, Llc Distributed stage-wise parallel machine learning
US11354755B2 (en) * 2014-09-11 2022-06-07 Intuit Inc. Methods systems and articles of manufacture for using a predictive model to determine tax topics which are relevant to a taxpayer in preparing an electronic tax return

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292186A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN108133418A (zh) * 2017-03-02 2018-06-08 明特奇点医疗科技(北京)有限公司 实时信用风险管理***
CN106960387A (zh) * 2017-04-28 2017-07-18 浙江工商大学 个人信用风险评估方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于MapReduce的供应链大数据金融信用评估模型;杨灵运 等;《现代工业经济和信息化》;20171010;第7卷(第17期);第50-53页 *
基于MapReduce的分布式改进随机森林学生就业数据分类模型研究;乔非 等;《***工程理论与实践》;20170525;第35卷(第05期);第1383-1392页 *

Also Published As

Publication number Publication date
CN110827131A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110827131B (zh) 一种分布式自动特征组合的纳税人信用评估方法
Stevenson et al. The value of text for small business default prediction: A deep learning approach
US20210182859A1 (en) System And Method For Modifying An Existing Anti-Money Laundering Rule By Reducing False Alerts
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
Smith et al. Predicting firm-level bankruptcy in the Spanish economy using extreme gradient boosting
CN108492001A (zh) 一种用于担保贷款网络风险管理的方法
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN112329874A (zh) 数据业务的决策方法、装置、电子设备和存储介质
CN112036997B (zh) 预测纳税人中的非正常户的方法及装置
CN112232944B (zh) 一种评分卡创建方法、装置和电子设备
CN112800229A (zh) 基于知识图嵌入的涉案领域的半监督方面级情感分析方法
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
Zhao et al. Predicting financial distress of Chinese listed companies using machine learning: To what extent does textual disclosure matter?
Acharya et al. An improved gradient boosting tree algorithm for financial risk management
CN114092230A (zh) 一种数据处理方法、装置、电子设备及计算机可读介质
Gu Application of data mining technology in financial intervention based on data fusion information entropy
CN113205271A (zh) 一种基于机器学习对企业所得税风险评估的方法
Papoušková et al. Modelling loss given default in peer-to-peer lending using random forests
Jeyaraman et al. Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications
Najadat et al. Performance evaluation of industrial firms using DEA and DECORATE ensemble method.
Medianovskyi et al. Interpretable machine learning for SME financial distress prediction
Tian et al. Digital Universal Financial Credit Risk Analysis Using Particle Swarm Optimization Algorithm with Structure Decision Tree Learning‐Based Evaluation Model
Raymaekers et al. Weight-of-evidence 2.0 with shrinkage and spline-binning
Berkani Decision support based on optimized data mining techniques: Application to mobile telecommunication companies
CN112837148B (zh) 一种融合领域知识的风险逻辑关系量化分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant