CN115496364A - 幌子企业识别方法及装置、存储介质及电子设备 - Google Patents

幌子企业识别方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115496364A
CN115496364A CN202211156462.3A CN202211156462A CN115496364A CN 115496364 A CN115496364 A CN 115496364A CN 202211156462 A CN202211156462 A CN 202211156462A CN 115496364 A CN115496364 A CN 115496364A
Authority
CN
China
Prior art keywords
model
enterprise
data
preset
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211156462.3A
Other languages
English (en)
Inventor
刘涛
房雯雯
王林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202211156462.3A priority Critical patent/CN115496364A/zh
Publication of CN115496364A publication Critical patent/CN115496364A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种幌子企业识别方法及装置、存储介质及电子设备,该方法包括:当需要对目标企业进行识别时,确定目标企业对应的企业信息,其中包括企业基础数据、交易流水数据、渠道登陆数据、工商数据和征信数据;在企业信息中,确定场景特征数据和每个预设特征维度对应的特征数据;将各维度特征数据输入评分模型,经处理后获得风险评分;将场景特征数据和风险评分输入场景解释模型,经处理后获得场景映射规则;依据风险评分和场景映射规则,确定识别结果;若识别结果表征目标企业为幌子企业,则确定目标企业对应的欺诈场景。应用本发明的方法,结合多维度数据进行识别,可提高识别准确率,且可实现欺诈场景的自动化识别。

Description

幌子企业识别方法及装置、存储介质及电子设备
技术领域
本发明涉及风险控制技术领域,特别是涉及一种幌子企业识别方法及装置、存储介质及电子设备。
背景技术
随着金融业务的发展,银行等金融机构面临的违法、欺诈行为越来越多。幌子企业指的是没有实际经营的企业,在金融业务场景中,不法分子通常利用幌子企业实施违法、欺诈行为。故在金融机构的风险防控工作中,识别幌子企业是主要的任务之一。
目前,通常是基于企业的工商信息,提取对应的特征,以企业是否存在无实际经营业务或不以实际经营业务为设立出发点的特征,识别企业是否为幌子企业。
基于现有的幌子企业识别方法,仅以工商信息中蕴含的特征识别幌子企业的依据,数据来源单一,识别幌子企业的准确性较低。其次,现有的幌子企业识别方法,仅是识别企业是否为幌子企业,对于识别结果,还需人工结合业务理解风险场景,需耗费一定的人力资源,且容易出现理解偏差。
发明内容
有鉴于此,本发明实施例提供了一种幌子企业识别方法,以解决现有的幌子企业识别方式中,依赖单一数据来源,需人工解读风险场景,识别准确率较低,且需耗费大量人力资源的问题。
本发明实施例还提供了一种幌子企业识别装置,用以保证上述方法实际中的实现及应用。
为实现上述目的,本发明实施例提供如下技术方案:
一种幌子企业识别方法,包括:
当需要对目标企业进行识别时,确定所述目标企业对应的企业信息,所述企业信息包括企业基础数据、交易流水数据、渠道登陆数据、工商数据和征信数据;
在所述企业信息中,确定场景特征数据和每个预设特征维度对应的特征数据;
将各个所述预设特征维度对应的特征数据输入已构建的评分模型,经所述评分模型处理后,获得所述目标企业对应的风险评分;
将所述场景特征数据和所述风险评分输入已构建的场景解释模型,经所述场景解释模型处理后,获得所述风险评分对应的场景映射规则;
依据所述风险评分和所述场景映射规则,确定所述目标企业对应的识别结果;
若所述识别结果表征所述目标企业为幌子企业,则确定所述目标企业对应的欺诈场景,完成所述目标企业的识别过程。
上述的方法,可选的,所述评分模型的构建过程,包括:
确定每个所述预设特征维度对应的初始样本集;每个所述预设特征维度对应的初始样本集包括该预设特征维度对应的多个样本数据;
对于每个所述预设特征维度,依据该预设特征维度对应的初始样本集,确定该预设特征维度对应的训练样本集;
对于每个所述预设特征维度,依据该预设特征维度对应的训练样本集,构建该预设特征维度对应的子模型;
对各个所述子模型进行融合处理,得到融合模型,将所述融合模型作为所述评分模型。
上述的方法,可选的,所述依据该预设特征维度对应的初始样本集,确定该预设特征维度对应的训练样本集,包括:
依据预设的过采样策略,对该预设特征维度对应的初始样本集进行过采样处理,得到第一样本集;
依据预设的数据清洗策略,对所述第一样本集进行数据清洗处理,得到所述第一样本集对应的第二样本集;
依据预设的社区发现算法,对所述第二样本集进行坏样本扩散处理,得到所述第二样本集对应的第三样本集;
依据预设的变量衍生策略,对所述第三样本集进行变量衍生处理,得到所述第三样本集对应的第四样本集;
依据预设的变量筛选策略,对所述第四样本集进行变量筛选处理,得到所述第四样本集对应的第五样本集,将所述第五样本集作为该预设特征维度对应的训练样本集。
上述的方法,可选的,所述依据该预设特征维度对应的训练样本集,构建该预设特征维度对应的子模型,包括:
依据预设的多个集成树算法,构建每个所述集成树算法对应的集成树模型;
对于每个所述集成树模型,依据该预设特征维度对应的训练样本集,对该集成树模型进行训练,将完成训练的该集成树模型确定为备选模型;
对于每个所述备选模型,依据预设的预留样本集和跨时间样本集,对该备选模型进行验证,得到该备选模型对应的验证结果;
依据各个所述备选模型对应的验证结果,在各个所述备选模型中,确定目标备选模型,将所述目标备选模型确定为该预设特征维度对应的子模型。
上述的方法,可选的,所述对各个所述子模型进行融合处理,得到融合模型,包括:
确定每个所述子模型对应的权重;
按照各个所述子模型对应的权重,对各个所述子模型进行加权融合,将融合结果作为所述融合模型。
上述的方法,可选的,所述场景解释模型的构建过程,包括:
依据预设的场景映射规则集合以及预设的梯度提升决策树算法,构建梯度提升决策树模型;
依据预设的场景解释变量及坏样本集合,对所述梯度提升决策树模型进行训练,得到经过训练的梯度提升决策树模型;
判断所述经过训练的梯度提升决策树模型是否满足预设的测试验证条件,若所述经过训练的梯度提升决策树模型满足所述测试验证条件,则将所述经过训练的梯度提升决策树模型确定为所述场景解释模型。
上述的方法,可选的,各个所述预设特征维度包括:基础信息维度、企业流水维度、实控人流水维度、工商与企业征信维度以及实控人征信维度。
一种幌子企业识别装置,包括:
第一确定单元,用于当需要对目标企业进行识别时,确定所述目标企业对应的企业信息,所述企业信息包括企业基础数据、交易流水数据、渠道登陆数据、工商数据和征信数据;
第二确定单元,用于在所述企业信息中,确定场景特征数据和每个预设特征维度对应的特征数据;
第一处理单元,用于将各个所述预设特征维度对应的特征数据输入已构建的评分模型,经所述评分模型处理后,获得所述目标企业对应的风险评分;
第二处理单元,用于将所述场景特征数据和所述风险评分输入已构建的场景解释模型,经所述场景解释模型处理后,获得所述风险评分对应的场景映射规则;
第三确定单元,用于依据所述风险评分和所述场景映射规则,确定所述目标企业对应的识别结果;
第四确定单元,用于若所述识别结果表征所述目标企业为幌子企业,则确定所述目标企业对应的欺诈场景,完成所述目标企业的识别过程。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的幌子企业识别方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如上述的幌子企业识别方法。
基于上述本发明实施例提供的一种幌子企业识别方法,包括:当需要对目标企业进行识别时,确定目标企业对应的企业信息,其中包括企业基础数据、交易流水数据、渠道登陆数据、工商数据和征信数据;在企业信息中,确定场景特征数据和每个预设特征维度对应的特征数据;将各个预设特征维度对应的特征数据输入已构建的评分模型,经评分模型处理后,获得目标企业对应的风险评分;将场景特征数据和风险评分输入已构建的场景解释模型,经场景解释模型处理后,获得风险评分对应的场景映射规则;依据风险评分和场景映射规则,确定目标企业对应的识别结果;若识别结果表征目标企业为幌子企业,则确定目标企业对应的欺诈场景,完成目标企业的识别过程。应用本发明实施例提供的方法,可结合企业多维度的特征数据,通过预先构建的评分模型对企业是否为幌子企业进行风险评估,并可通过预先构建的场景解释模型,对风险评分进行规则映射,得到场景映射规则,可根据风险评分和场景映射规则识别企业是否可能为幌子企业,若为幌子企业,可继而识别其可能涉及的欺诈场景是什么。在识别过程中可从多维度的数据中挖掘风险特征,有利于提高识别准确率,其次,可实现欺诈场景的自动化识别,无需依赖于人工处理,可节省人力资源,避免出现人为理解偏差。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种幌子企业识别方法的方法流程图;
图2为本发明实施例提供的一种幌子企业识别方法的又一方法流程图;
图3为本发明实施例提供的一种幌子企业识别方法的另一方法流程图;
图4为本发明实施例提供的一种幌子企业识别装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,现有的幌子企业的识别过程中,通常是基于工商数据进行风险识别,如通过公开的企业工商数据建立机器学习模型,用于识别幌子企业,而在现实生活中,幌子企业的风险特征不仅局限于工商数据,仅基于工商数据进行识别,识别准确率较低,且现有识别过程中的业务场景解释性不足。
因此,本发明实施例提供了一种幌子企业识别方法,结合多维度数据进行幌子企业的识别,且进一步进行场景映射规则的识别,可提高识别准确率和识别结果的业务解释性。
本发明实施例提供了一种幌子企业识别方法,所述方法可应用于风险识别***,其执行主体可以为***的服务器,所述方法的方法流程图如图1所示,包括:
S101:当需要对目标企业进行识别时,确定所述目标企业对应的企业信息,所述企业信息包括企业基础数据、交易流水数据、渠道登陆数据、工商数据和征信数据;
本发明实施例提供的方法中,当用户需要识别某个企业是否可能为幌子企业时,可通过***前端输入目标企业(即待识别的企业)的关键标识符,向***发送对目标企业进行识别的指令。当***接收到对目标企业进行识别的指令时,可根据目标企业的关键标识符,在数据库中获取目标企业对应的多维度数据,包括企业基础数据、流水交易数据、渠道登录数据、工商数据和征信数据,以得到目标企业对应的企业信息。
需要说明的是,在具体的实现过程中,企业信息中还可以包括其他维度的数据。
S102:在所述企业信息中,确定场景特征数据和每个预设特征维度对应的特征数据;
本发明实施例提供的方法中,可预先设置场景特征数据属性和每个预设特征维度对应的数据属性,在企业信息中获取与场景特征数据属性相对应的数据,作为场景特征数据,在企业信息中获取与每个预设特征维度对应的数据属性相对应的数据,作为每个预设特征维度对应的特征数据。场景特征数据属性指的是对于风险场景的解释性好的数据属性,例如交易数据对于洗钱的风险场景可提供较好的解释性,票据业务数据对于企业类票据业务欺诈的风险场景可提供较好的解释性。各个预设特征维度为识别企业属于幌子企业的风险程度所参考的数据维度,例如基础信息维度、企业流水维度等等。
S103:将各个所述预设特征维度对应的特征数据输入已构建的评分模型,经所述评分模型处理后,获得所述目标企业对应的风险评分;
本发明实施例提供的方法中,可预先构建评分模型,该评分模型是基于机器学习算法构建的模型,可通过各个预设特征维度的数据,挖掘企业属于幌子企业的风险程度,输出风险评分。
本发明实施例提供的方法中,将各个预设特征维度对应的特征数据加载至评分模型的输入层,评分模型可基于输入的多维度特征数据进行处理,当评分模型完成处理后,可从评分模型的输出层获取目标企业对应的风险评分。
S104:将所述场景特征数据和所述风险评分输入已构建的场景解释模型,经所述场景解释模型处理后,获得所述风险评分对应的场景映射规则;
本发明实施例提供的方法中,可预先构建场景解释模型,该场景解释模型亦为基于机器学习算法构建的模型,可通过场景特征数据和风险评分,挖掘对企业的风险评分进行场景解释的场景映射规则,也就是说明该风险评分指示的识别结果(是否属于幌子企业)以及可能涉及的欺诈场景的规则。
本发明实施例提供的方法中,可将目标企业对应的场景特征数据和风险评分加载至场景解释模型的输入层,经过场景解释模型处理后,可从其输出层获取风险评分对应的场景映射规则。
需要说明的是,在具体的实现过程中,评分模型和场景解释模型可以整合作为一个模型,将相关数据输入整体模型后,可直接获得风险评分和对应的场景映射规则。
S105:依据所述风险评分和所述场景映射规则,确定所述目标企业对应的识别结果;
本发明实施例提供的方法中,可根据场景映射规则的规则内容对风险评分进行解释,得到目标企业对应的识别结果,例如场景映射规则中说明当风险评分大于或等于第一预设阈值时,识别对象为幌子企业的可能性较大,当风险评分小于第一预设阈值时,识别对象为幌子企业的可能性较小。根据当前的风险评分与第一预设阈值的比较结果,确定目标企业对应的识别结果。
S106:若所述识别结果表征所述目标企业为幌子企业,则确定所述目标企业对应的欺诈场景,完成所述目标企业的识别过程。
本发明实施例提供的方法中,场景映射规则中包含有(若目标企业为幌子企业)可能涉及的欺诈场景,若识别结果为目标企业为幌子企业,也就是属于幌子企业的风险程度较高,则可从场景映射规则获取目标企业对应的欺诈场景。欺诈场景指的是不法分子利用幌子企业实施违法、欺诈行为的风险场景,例如以下场景:
洗钱:地下钱庄通过幌子企业开立多个银行账户,转移资金进行洗钱;
零售类快贷、***欺诈:利用幌子企业将借款人“包装”成公司高管,伪造社保、公积金、流水等资料向银行申请个人信贷、大额***;
企业类普惠金融贷款欺诈:贷款人购买幌子企业,伪造交易合同等虚假材料骗贷;操纵幌子企业为贷款公司担保骗贷;
企业类票据业务欺诈:票据中介大量注册幌子企业,到银行***贴现,骗取基于虚假贸易背景的银行承兑汇票。
若是识别结果表征目标企业并非幌子企业,则可以直接结束目标企业的识别过程。
基于本发明实施例提供的方法,当需要对目标企业进行识别时,确定目标企业对应的企业信息,其中包括企业基础数据、交易流水数据、渠道登陆数据、工商数据和征信数据;在企业信息中,确定场景特征数据和每个预设特征维度对应的特征数据;将各个预设特征维度对应的特征数据输入已构建的评分模型,经评分模型处理后,获得目标企业对应的风险评分;将场景特征数据和风险评分输入已构建的场景解释模型,经场景解释模型处理后,获得风险评分对应的场景映射规则;依据风险评分和场景映射规则,确定目标企业对应的识别结果;若识别结果表征目标企业为幌子企业,则确定目标企业对应的欺诈场景,完成目标企业的识别过程。应用本发明实施例提供的方法,可结合企业多维度的特征数据,通过预先构建的评分模型对企业是否为幌子企业进行风险评估,并可通过预先构建的场景解释模型,对风险评分进行规则映射,得到场景映射规则,可根据风险评分和场景映射规则识别企业是否可能为幌子企业,若为幌子企业,可继而识别其可能涉及的欺诈场景是什么。在识别过程中可从多维度的数据中挖掘风险特征,有利于提高识别准确率,其次,可实现欺诈场景的自动化识别,无需依赖于人工处理,可节省人力资源,避免出现人为理解偏差。
在图1所示方法的基础上,参考图2所示流程图,本发明实施例提供的方法中,步骤S103中提及的所述评分模型的构建过程,包括:
S201:确定每个所述预设特征维度对应的初始样本集;每个所述预设特征维度对应的初始样本集包括该预设特征维度对应的多个样本数据;
本发明实施例提供的方法中,可预先配置每个预设特征维度对应的各个样本数据,得到初始样本集。样本数据包括样本输入和样本输出,样本输入是样本企业预设特征维度的数据,样本输出为样本企业属于幌子企业的风险程度。
S202:对于每个所述预设特征维度,依据该预设特征维度对应的初始样本集,确定该预设特征维度对应的训练样本集;
本发明实施例提供的方法中,根据预先配置的数据处理策略,对每个预设特征维度对应的初始样本集进行数据处理,得到每个预设特征维度对应的训练样本集。具体的数据处理操作可以包括数据采样、坏样本扩散、变量衍生等等。
需要说明的是,在具体的实现过程中,对于各个预设特征维度对应的初始样本集进行的数据处理操作可以是互不相同的,可根据实际的需求选择具体的处理操作,以处理效果为准。
S203:对于每个所述预设特征维度,依据该预设特征维度对应的训练样本集,构建该预设特征维度对应的子模型;
本发明实施例提供的方法中,可根据每个预设特征维度对应的训练样本集构建每个预设特征维度对应的子模型,该子模型是基于机器学习算法构建的模型,可用于根据对应预设特征维度的数据,预测企业属于幌子企业的风险程度。
S204:对各个所述子模型进行融合处理,得到融合模型,将所述融合模型作为所述评分模型。
本发明实施例提供的方法中,可根据预设的模型融合策略,对各个子模型进行融合处理,将融合得到的模型作为评分模型。
在上述实施例提供的方法的基础上,参考图3所示流程图,本发明实施例提供的方法中,步骤S202中提及的依据该预设特征维度对应的初始样本集,确定该预设特征维度对应的训练样本集的过程,包括:
S301:依据预设的过采样策略,对该预设特征维度对应的初始样本集进行过采样处理,得到第一样本集;
本发明实施例提供的方法中,考虑到模型的黑样本纯度常常在千分之一甚至万分之一量级,类别不平衡问题尤为突出,故通过采样方法对初始样本集进行处理,通过改变原有的不平衡样本集,以期获得一个平衡的样本分布,进而训练出更优秀的模型。采样方法大致可以分为过采样和欠采样。本发明实施例提供的方法,先通过过采样的方法对初始样本集进行处理,将处理后得到的样本集作为第一样本集。过采样策略可采用SMOTE(SyntheticMinority Oversampling Technique)。
SMOTE的思想概括起来就是在少数类样本之间进行插值来产生额外的样本。具体地,对于一个少数类样本xi使用K近邻法(k值需要提前指定),求出离xi距离最近的k个少数类样本,其中距离定义为样本之间n维特征空间的欧氏距离。然后从k个近邻点中随机选取一个近邻点,使用下列公式生成新样本:
Figure BDA0003858935050000101
其中,
Figure BDA0003858935050000102
为选出的k近邻点,δ∈[0,1]是一个随机数。SMOTE生成的样本一般就在
Figure BDA0003858935050000103
和xi相连的直线上,xnew为新样本。
SMOTE会随机选取少数类样本用以合成新样本,而不考虑周边样本的情况,这样容易带来两个问题:第一,如果选取的少数类样本周围也都是少数类样本,则新合成的样本不会提供太多有用信息;第二,如果选取的少数类样本周围全是多数类样本,这类的样本可能是噪音,则新合成的样本会与周围的多数类样本产生大部分重叠,致使分类困难。
S302:依据预设的数据清洗策略,对所述第一样本集进行数据清洗处理,得到所述第一样本集对应的第二样本集;
本发明实施例提供的方法中,可通过预设的数据清洗策略,对第一样本集进行数据处理结果,将处理后的样本集作为第二样本集。数据清洗策略主要通过某种规则来清洗重叠的数据,从而达到欠采样的目的,而这些规则往往也是启发性的,例如Tomek Link和ENN。
Tomek Link表示不同类别之间距离最近的一对样本,即这两个样本互为最近邻且分属不同类别。如果两个样本形成了一个Tomek Link,则要么其中一个是噪音,要么两个样本都在边界附近。这样通过移除Tomek Link就能“清洗掉”类间重叠样本,使得互为最近邻的样本皆属于同一类别,从而能更好地进行分类。
ENN(Edited Nearest Neighbours)对于属于多数类的一个样本,如果其K个近邻点有超过一半都不属于多数类,则这个样本会被剔除。这个方法的另一个变种是所有的K个近邻点都不属于多数类,则这个样本会被剔除。
本发明实施例提供的方法中,采用先过采样再进行数据清洗的方法,即SMOTE+ENN或SMOTE+Tomek,利用数据清洗技术处理掉重叠样本,克服了SMOTE算法对生成的少数类样本容易与周围的多数类样本产生重叠难以分类的缺点。
S303:依据预设的社区发现算法,对所述第二样本集进行坏样本扩散处理,得到所述第二样本集对应的第三样本集;
本发明实施例提供的方法中,利用社区发现算法,也就是Louvain图聚类算法,对第二样本集进行坏样本扩散,以发现与已知黑样本相似节点的子集,并将它们分组在一起,将经过坏样本扩散的样本集作为第三样本集。
Louvain算法的主要处理过程包括:将图中每个节点都看作一个社区,尝试让某个节点加入邻居的社区,计算图的模块化指数增量ΔQ,并最终选择一个ΔQ最大的邻居社区加入;将上一步中被把划分出来的社区当成一个超节点看待,计算超节点的相关特征值;当算法已经达到了目标(如最大增量ΔQ小于某个值),结束算法,输出结果。否则将超节点视为普通节点,并回到第一步;Louvain算法所得到的结果是被划分为一个个社区的节点所组成的图。
例如,本发明实施例提供的方法中,根据工商数据建立企业间的组织结构关系图。组织结构具体指小微企业的法人,董事,监事,高管,股东。首先,构建小微企业间组织结构的关系图,以每一个样本债项为节点,当一个样本债项的节点所对应的小微企业的组织结构中有一个人与另一笔债项中所对应的小微企业的组织结构中的人相同(例如,一家公司的法人是另一家公司的股东),则这两个节点间可连成一条边,重合的数量越多,这条边的权重越高。基于Louvain社区发现算法对图关系划分社区。划分社区后,计算坏样本在社区中的占比,将坏样本占比>=20%的社区中其他的好样本扩散成为坏样本。
S304:依据预设的变量衍生策略,对所述第三样本集进行变量衍生处理,得到所述第三样本集对应的第四样本集;
本发明实施例提供的方法中,为高效利用各维度数据,可依据预设的变量衍生策略,对样本集进行变量衍生处理,将经过变量衍生的样本集作为第四样本集。例如,可以采用NLP自然语言处理技术,对经营范围等类别型变量进行了文本向量化处理;采用异常检测技术,在连续型变量中捕捉异常数据;利用多维度数据间的交叉验证,进行了一致***叉验证。最终形成基础类、统计类、一致***叉验证类、时间序列类、异常检测类等多维度变量。
S305:依据预设的变量筛选策略,对所述第四样本集进行变量筛选处理,得到所述第四样本集对应的第五样本集,将所述第五样本集作为该预设特征维度对应的训练样本集。
本发明实施例提供的方法中,可通过预设的变量筛选策略,对样本集中的变量进行筛选,将经过变量筛选的样本集作为最终的训练样本集,用于模型训练。
具体的变量筛选策略,可以采用过滤法、嵌入法、整合法或其他类别的变量筛选方法,综合选取入模变量。各类变量筛选方法的具体策略和概述如下表所示:
表1
Figure BDA0003858935050000121
Figure BDA0003858935050000131
为了更好地说明本发明实施例提供的方法,接下来结合上表对各类变量筛选策略进行进一步说明。
关于过滤法的主要介绍如下:
按照发散性或者相关性对各个特征进行评分,设定阈值或待选择的数量,选择特征。过滤法与机器学习分类算法相互独立,不利于对分类性能优化,但该方法通过简单奇异值分解方法降维,运算效率高、结果明确。
IV(Information Value):IV值的作用是衡量一个变量整体的预测能力,好处在于每个变量的IV值是可比的。IV值指一个变量对于判定样本所属分类的信息贡献,贡献越大,IV值越大。在进行变量初筛的时候,可以直接将IV值小于0.02的变量剔除,不参与后面的算法拟合过程。
PSI:PSI是单变量稳定性衡量指标,具体计算逻辑是将按照当前维度的特征所有取值进行等频分箱和等距分箱,分别计算每个箱的人数占总比,得到样本集每一箱的占比和时间外验证集每一箱的占比,分别计算每一箱的PSI,将每一箱的PSI相加。如果单变量PSI大于0.01,则认为该变量不稳定。
互信息:互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量。对于事件A和事件B同时出现的,一种信息论的描述方法就是互信息,计算方式如下:
Figure BDA0003858935050000141
其意义是由于事件A发生与事件B发生相关联而提供的信息量。在处理分类问题提取特征的时候就可以用互信息来衡量某个特征和特定类别的相关性,如果信息量越大,那么特征和这个类别的相关性越大。反之也是成立的。互信息值的取值范围是[0,1],取值越大,表明相关性越强,取值为0时,表示该特征与目标无关联。
方差:在数理统计中,方差是测算随机变量离散趋势最重要、最常用的指标,方差是各变量值与均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。当数据分布比较集中时,各个数据与平均数的差的平方和较小,当数据分布比较分散,即数据在平均数附近波动较大时,方差就较大。因此方差越大,数据波动越大;方差越小,数据波动越小,因此需要优先消除方差为0或较小的特征。
关于单变量AUC、KS_2SAMP、Rank-sum秩和检验的说明可参见表1。
关于嵌入法的主要介绍如下:
嵌入法(Embedded Method):使用机器学习模型进行训练,的到各个特征的权值系数,根据系数大小排序选择特征。
lasso回归、lightgbm模型重要性以及零重要性的说明可参见表1。
关于整合法的主要介绍如下:
包装法(Wrapper Method):每次选个若干特征,根据目标函数的结果进行保留或剔除。
关于基因遗传算法和递归特征消除的说明可参见表1。
关于其他方法的主要介绍如下:
单变量头部坏人率筛选法:由于反欺诈关注的是模型预测得分排名靠前的债项命中的欺诈样本数,所以本发明实施例提出了单变量头部坏人率的评价指标,单变量构造学习器,可以是LightGBM,XGBoost等,在测试集上,学习器预测的得分最高的客户数为m个,其中命中的欺诈数为n个,以n/m这一头部坏人率指标作为变量评价标准,同时计算该学习器在测试集上的AUC,如果AUC不超过0.5或者n/m不超过欺诈样本浓度,则该变量直接不入模。
需要说明的是,在具体的实现过程中,各个需要进行变量筛选的样本集合,可以采用不同的变量筛选策略,可根据实际的筛选效果选择,不影响本发明实施例提供的方法实现功能。
在图2所述方法的基础上,本发明实施例提供的方法中,步骤S203提及的依据该预设特征维度对应的训练样本集,构建该预设特征维度对应的子模型的过程,包括:
依据预设的多个集成树算法,构建每个所述集成树算法对应的集成树模型;
本发明实施例提供的方法中,可以预先设置多种集成树算法,例如LightGBM、GBDT、XGBoost、随机森林等。可基于每类集成树算法,构建一个集成树模型。
对于每个所述集成树模型,依据该预设特征维度对应的训练样本集,对该集成树模型进行训练,将完成训练的该集成树模型确定为备选模型;
本发明实施例提供的方法中,基于训练样本集,对每个集成树模型进行训练,将完成训练的集成树模型作为备选模型。
对于每个所述备选模型,依据预设的预留样本集和跨时间样本集,对该备选模型进行验证,得到该备选模型对应的验证结果;
本发明实施例提供的方法中,根据数据的可行性进行两项验证,确保模型的稳健性。主要包括以下验证方式:
预留样本验证:将预留样本验证作为评分模型开发过程的一部分。在建模时点随机选取70%的样本作为评分模型的开发样本,并将模型结果应用到其余30%的预留样本上,以检验模型是否稳定有效。在预留样本上验证模型的目的,是通过未被用于建模过程的独立样本来判断评分模型的预测力。如果模型在预留样本和开发样本上的预测力存在较大差异,说明开发过程中存在过度拟合(Over-Fit),该模型在实际应用环境中将不能很好地区分好坏。
跨时间样本验证:在数据支持的情况下,对评分模型进行跨时间样本验证。跨时间样本验证将所开发的模型应用到不同时点的样本上,以检验模型是否稳定有效。
本发明实施例提供的方法中,可依据预设的预留样本集和跨时间样本集,对每个备选模型进行验证,得到每个备选模型的验证结果。
依据各个所述备选模型对应的验证结果,在各个所述备选模型中,确定目标备选模型,将所述目标备选模型确定为该预设特征维度对应的子模型。
本发明实施例提供的方法中,可在各个备选模型中,选择模型区分能力、模型稳定性最优的模型作为目标备选模型,将目标备选模型作为对应预设特征维度的子模型。
在图2所示方法的基础上,本发明实施例提供的方法中,步骤S204中提及的对各个所述子模型进行融合处理,得到融合模型的过程,包括:
确定每个所述子模型对应的权重;
按照各个所述子模型对应的权重,对各个所述子模型进行加权融合,将融合结果作为所述融合模型。
本发明实施例提供的方法中,通过加权融合的方式对各个子模型进行融合处理。根据各个子模型的验证结果,确定每个子模型对应的权重,对预测更准的子模型赋予更高的权重,以提升融合模型的预测准确性。继而通过各个子模型对应的权重对各个子模型进行加权融合,得到融合模型。
本发明实施例提供的方法中,通过对各个投票者(子模型)分配不同的权重以改变其对最终结果影响的大小。对于效果差的模型给予更低的权重,而效果更好的模型给予更高的权重。由于欺诈关注的是头部样本的查准,所以分配的权重是子模型头部命中数与该样本所有可得数据块模型头部命中数之比。设样本可得数据块共n个,该样本融合后预测概率Prob为:
Figure BDA0003858935050000161
需要说明的是,本发明实施例提供的方法中的融合方式仅是为了更好地说明本发明实施例提供的方法所提供的具体实施例,在具体的实现过程中,还可以采用其他的融合方式进行模型融合,不影响本发明实施例提供的方法实现功能。
在图1所示方法的基础上,本发明实施例提供的方法中,步骤S104中提及的所述场景解释模型的构建过程,包括:
依据预设的场景映射规则集合以及预设的梯度提升决策树算法,构建梯度提升决策树模型;
本发明实施例提供的方法中,采用梯度提升决策树(Gradient BoostingDecision Tree,GBDT)算法进行建模,以GBDT模型所有叶子节点经过的路径作为场景映射的规则集合。故根据预设的场景映射规则集合和GBDT算法,构建初始的GBDT模型。
依据预设的场景解释变量及坏样本集合,对所述梯度提升决策树模型进行训练,得到经过训练的梯度提升决策树模型;
本发明实施例提供的方法中,可将对幌子企业解释性好的变量设置为场景解释变量,将场景解释变量作为X,将真实的坏样本作为Y,对GBDT模型进行训练。
判断所述经过训练的梯度提升决策树模型是否满足预设的测试验证条件,若所述经过训练的梯度提升决策树模型满足所述测试验证条件,则将所述经过训练的梯度提升决策树模型确定为所述场景解释模型。
本发明实施例提供的方法中,对经过训练的GBDT模型进行测试验证,即判断其是否满足预设的测试验证条件,若不满足,则继续调整模型参数进行训练,直至经过训练的GBDT模型满足测试验证条件后,将其作为场景解释模型。
在图1所示方法的基础上,本发明实施例提供的方法中,各个所述预设特征维度包括:基础信息维度、企业流水维度、实控人流水维度、工商与企业征信维度以及实控人征信维度。
本发明实施例提供的方法中,各个预设特征维度包括基础信息维度、企业流水维度、实控人流水维度、工商与企业征信维度以及实控人征信维度等维度,相对应的,评分模型可由各个预设特征维度对应的子模型融合而成,故评分模型中的子模型包括:基础信息一致性子模型、企业流水子模型、实控人流水子模型、工商与企业征信子模型、实控人征信子模型等子模型。
为了更好地说明本发明实施例提供的方法,接下来结合实际的应用场景,对本发明实施例提供的方法中的模型开发过程进行简要说明。
基于启发式机器学习的决策模型开发过程,主要包括:
确定关键定义:确定样本的时间窗口,好坏定义。其中,好坏定义常以已有名单或规则选取为主;
数据处理:将建模样本划分为训练集和测试集,并对变量进行特征工程及衍生;
变量选择:评分模型的候选变量数以千计,为提高模型开发的效率,通常会对候选变量进行预筛选。逻辑回归评分卡模型的最佳实践是在预筛选时考虑变量的稳定性和区分力,并结合业务经验,完成变量选择;
模型开发:利用筛选后的变量构建有监督机器学习模型。常用算法包括GBDT、XGBoost、随机森林等算法,通过训练成百上千棵决策树,将构造好的多棵决策树的结果进行集成(加权,投票等)输出最后的分类概率值,将模型概率值以线性或非线性公式映射成模型分数;
模型评估及模型应用:评估模型在时间外样本的结果,保证模型在不同时间窗口的客户群体上的稳健性;观察模型各分数段客户的数量分布及是否涉及欺诈表现,评估模型的排序能力。
本发明实施例提供的方法中,模型的开发过程主要包括:
模型细分环节;
幌子企业在不同数据方面可能具有不同的风险特征及趋势。本发明实施例根据数据块来源细分子模型,按照基础信息、工商、征信、流水等数据块细分模型。
采样环节;
可参考前文基于图3所提供的实施例中,关于步骤S301和S302的说明,在此不再赘述。
坏样本扩散环节;
可参考前文基于图3所提供的实施例中,关于步骤S303的说明,在此不再赘述。
变量衍生环节;
可参考前文基于图3所提供的实施例中,关于步骤S304的说明,在此不再赘述。
变量筛选环节;
可参考前文基于图3所提供的实施例中,关于步骤S305的说明,在此不再赘述。
不平衡样本建模环节;
LightGBM提供自定义目标函数和评价函数的接口。其中目标函数,是对训练数据进行优化的函数;而评价函数,是用来评估在训练出的模型在验证集上的性能,主要用于优化超参数。
针对坏样本浓度过低的数据情况,本发明实施例使用自定义目标函数,以在建模迭代过程中,对错误预测进行不对称惩罚,即赋予分错的坏样本更大的惩罚,以提高预测头部坏样本抓取率。具体而言,在训练模型时优化训练损失。自定义目标函数对于基于梯度提升的Boosting类模型有显著效果,而不能用于随机森林等Bagging类的模型,因此可在基于GBDT的LightGBM模型上使用自定义目标函数。
本发明实施例中应用的目标函数,可以从如下6种目标函数中选择,在本发明实施例的应用过程中效果提升较高的目标函数为Cost-sensitive Logloss,在实际的训练过程中,可择优训练模型。
主要应用的6种目标函数包括:
①区间加权的损失函数:
Figure BDA0003858935050000191
②Cost-sensitive Logloss(代价敏感损失函数):
Figure BDA0003858935050000192
Figure BDA0003858935050000193
Figure BDA0003858935050000194
③Fair Loss(公平损失):
Figure BDA0003858935050000195
Figure BDA0003858935050000196
Figure BDA0003858935050000197
④Log Cosh Loss(回归损失函数):
Figure BDA0003858935050000198
gi(x)=log(e-x+ex)
Figure BDA0003858935050000201
⑤Pseudo Huber Loss(Huber损失函数的近似):
Figure BDA0003858935050000202
Figure BDA0003858935050000203
Figure BDA0003858935050000205
⑥Focal Loss(焦点损失函数):
Figure BDA0003858935050000204
上述各个损失函数为现有的损失函数,本发明实施例仅对各损失函数进行示意性表示,在此不作详细介绍。
子模型开发环节;
在很大程度上,模型开发是一个交互的过程,需要不断地重复下列步骤直至获得满意的结果。由于不同子模型的数据质量、变量分布不同,统一的建模流程和方法未必能取得最佳效果。因此,5个数据块的子模型在上述流程的基础上,采用不同的数据块变量,相同的坏样本,用不同方法择优建模。
各子模型使用各类机器学习算法进行模型开发;建模算法采用lightgbm集成树模型,GridSearchCV局部调优,结合专家经验与建模过程中的数据反馈进行调参。具体流程是:使用小样本集合(抽样样本)线下使用OPTUNA.lightgbm进行迭代比较,获得模型参数。
模型结果评价:采用AUC、KS、TOP N进行模型区分力的评估,采用PSI进行模型稳定性评估。通过对变量筛选,建模及调优的多次尝试,最终从基础信息一致性子模型、企业流水子模型、实控人流水子模型、工商+企业征信子模型、实控人征信子模型中选择模型区分能力、模型稳定性最优的模型,作为下一步融合的基础。
子模型验证环节;
可参考前文针对步骤S203提供的实施例中,关于“依据预设的预留样本集和跨时间样本集,对该备选模型进行验证”的说明,在此不再赘述。
子模型融合环节;
不同的子模型在不同的数据上有不同的表达能力,多个机器学习模型往往可以提升整体的预测能力,经尝试了根据数据缺失情况线性加权、逻辑回归加权等方式进行融合,考虑到不同数据块缺失的组合情况较多,采用逻辑回归加权融合方法需考虑几十种情况,并需对不同逻辑回归系数下的预测结果归一化处理后才可比较,因此,综合考虑模型开发和落地的难易程度,本发明实施例采用根据子模型表现加权融合的方式进行模型融合。
评分转换;
评分转换是将评分模型的结果映射到特定坏好比率的过程。为了方便日常的业务管理,一般通过转化,在评分结果与特定的风险水平之间建立起一定的函数关系。如:以1000分作为分数转换的基础(分越高,欺诈可能性越大),即1000分时坏好比为60:1,每减少30分坏好比减半。
评分到欺诈场景的映射;
为满足模型对业务场景的解释需求,将模型预测结果到业务场景变量组合,采用GBDT算法,完成欺诈预测结果到业务场景的映射。主要流程如下:
①选择场景解释变量:根据人工经验,从已加工变量中,挑选幌子企业解释性好的变量作为X变量,并以真实坏样本为Y变量建模。
②设定CUTOFF点:当前根据模型在训练集TOP N中最大F1值确定。
③根据CUTOFF划分样本:在训练集中划分cutoff以上、以下两部分。用于下一步采用GBDT算法分别建模。
④通过GBDT树模型提取规则组合:建模算法采用GBDT树模型算法,并以GBDT所有叶子节点经过的路径作为场景映射的规则集合,欺诈场景的规则提取基于训练集完成建模,并在测试集、OOT上开展效果评价,具体调整了Max_depth、Min_samples_leaf、N_estimators三类参数。
⑤统计筛选:通过在训练集、测试集、时间外样本设置覆盖数,覆盖率、查准率的条件,初步挑选“触碰率低、准确率高”的场景映射规则,训练、测试。
⑥业务逻辑筛选:单条组合规则路径上的变量符号不一定符合业务解释,需从路径中剔除含符号或与阈值与业务经验不符的部分条件。
⑦重新组合规则:对上一步筛选规则,在训练、测试、时间外样本的表现中,按照步骤⑤重新筛选。
本发明实施例提供的方法,扩展数据源并充分挖掘风险特征。引入内部企业基本信息、交易流水数据、渠道登录数据,外部工商、征信、司法涉诉等维度数据,运用机器学***衡样本的机器学***衡样本建模、模型结果评价、子模型融合等各环节应对方法,提升模型的整体准度和精度。建立模型到业务解释的映射方法。将模型评分结果和业务解释变量组合应用,提高模型结果的业务解释性。
与图1所示的一种幌子企业识别方法相对应的,本发明实施例还提供了一种幌子企业识别装置,用于对图1中所示方法的具体实现,其结构示意图如图4所示,包括:
第一确定单元401,用于当需要对目标企业进行识别时,确定所述目标企业对应的企业信息,所述企业信息包括企业基础数据、交易流水数据、渠道登陆数据、工商数据和征信数据;
第二确定单元402,用于在所述企业信息中,确定场景特征数据和每个预设特征维度对应的特征数据;
第一处理单元403,用于将各个所述预设特征维度对应的特征数据输入已构建的评分模型,经所述评分模型处理后,获得所述目标企业对应的风险评分;
第二处理单元404,用于将所述场景特征数据和所述风险评分输入已构建的场景解释模型,经所述场景解释模型处理后,获得所述风险评分对应的场景映射规则;
第三确定单元405,用于依据所述风险评分和所述场景映射规则,确定所述目标企业对应的识别结果;
第四确定单元406,用于若所述识别结果表征所述目标企业为幌子企业,则确定所述目标企业对应的欺诈场景,完成所述目标企业的识别过程。
基于本发明实施例提供的装置,当需要对目标企业进行识别时,确定目标企业对应的企业信息,其中包括企业基础数据、交易流水数据、渠道登陆数据、工商数据和征信数据;在企业信息中,确定场景特征数据和每个预设特征维度对应的特征数据;将各个预设特征维度对应的特征数据输入已构建的评分模型,经评分模型处理后,获得目标企业对应的风险评分;将场景特征数据和风险评分输入已构建的场景解释模型,经场景解释模型处理后,获得风险评分对应的场景映射规则;依据风险评分和场景映射规则,确定目标企业对应的识别结果;若识别结果表征目标企业为幌子企业,则确定目标企业对应的欺诈场景,完成目标企业的识别过程。应用本发明实施例提供的装置,可结合企业多维度的特征数据,通过预先构建的评分模型对企业是否为幌子企业进行风险评估,并可通过预先构建的场景解释模型,对风险评分进行规则映射,得到场景映射规则,可根据风险评分和场景映射规则识别企业是否可能为幌子企业,若为幌子企业,可继而识别其可能涉及的欺诈场景是什么。在识别过程中可从多维度的数据中挖掘风险特征,有利于提高识别准确率,其次,可实现欺诈场景的自动化识别,无需依赖于人工处理,可节省人力资源,避免出现人为理解偏差。
在图4所示装置的基础上,本发明实施例提供的装置还可以进一步扩展出多个单元,各个单元的功能可参见前文对于幌子企业识别方法所提供的各个实施例中的说明,在此不再进一步举例说明。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的幌子企业识别方法。
本发明实施例还提供了一种电子设备,其结构示意图如图5所示,具体包括存储器501,以及一个或者一个以上的指令502,其中一个或者一个以上指令502存储于存储器501中,且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作:
当需要对目标企业进行识别时,确定所述目标企业对应的企业信息,所述企业信息包括企业基础数据、交易流水数据、渠道登陆数据、工商数据和征信数据;
在所述企业信息中,确定场景特征数据和每个预设特征维度对应的特征数据;
将各个所述预设特征维度对应的特征数据输入已构建的评分模型,经所述评分模型处理后,获得所述目标企业对应的风险评分;
将所述场景特征数据和所述风险评分输入已构建的场景解释模型,经所述场景解释模型处理后,获得所述风险评分对应的场景映射规则;
依据所述风险评分和所述场景映射规则,确定所述目标企业对应的识别结果;
若所述识别结果表征所述目标企业为幌子企业,则确定所述目标企业对应的欺诈场景,完成所述目标企业的识别过程。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种幌子企业识别方法,其特征在于,包括:
当需要对目标企业进行识别时,确定所述目标企业对应的企业信息,所述企业信息包括企业基础数据、交易流水数据、渠道登陆数据、工商数据和征信数据;
在所述企业信息中,确定场景特征数据和每个预设特征维度对应的特征数据;
将各个所述预设特征维度对应的特征数据输入已构建的评分模型,经所述评分模型处理后,获得所述目标企业对应的风险评分;
将所述场景特征数据和所述风险评分输入已构建的场景解释模型,经所述场景解释模型处理后,获得所述风险评分对应的场景映射规则;
依据所述风险评分和所述场景映射规则,确定所述目标企业对应的识别结果;
若所述识别结果表征所述目标企业为幌子企业,则确定所述目标企业对应的欺诈场景,完成所述目标企业的识别过程。
2.根据权利要求1所述的方法,其特征在于,所述评分模型的构建过程,包括:
确定每个所述预设特征维度对应的初始样本集;每个所述预设特征维度对应的初始样本集包括该预设特征维度对应的多个样本数据;
对于每个所述预设特征维度,依据该预设特征维度对应的初始样本集,确定该预设特征维度对应的训练样本集;
对于每个所述预设特征维度,依据该预设特征维度对应的训练样本集,构建该预设特征维度对应的子模型;
对各个所述子模型进行融合处理,得到融合模型,将所述融合模型作为所述评分模型。
3.根据权利要求2所述的方法,其特征在于,所述依据该预设特征维度对应的初始样本集,确定该预设特征维度对应的训练样本集,包括:
依据预设的过采样策略,对该预设特征维度对应的初始样本集进行过采样处理,得到第一样本集;
依据预设的数据清洗策略,对所述第一样本集进行数据清洗处理,得到所述第一样本集对应的第二样本集;
依据预设的社区发现算法,对所述第二样本集进行坏样本扩散处理,得到所述第二样本集对应的第三样本集;
依据预设的变量衍生策略,对所述第三样本集进行变量衍生处理,得到所述第三样本集对应的第四样本集;
依据预设的变量筛选策略,对所述第四样本集进行变量筛选处理,得到所述第四样本集对应的第五样本集,将所述第五样本集作为该预设特征维度对应的训练样本集。
4.根据权利要求2所述的方法,其特征在于,所述依据该预设特征维度对应的训练样本集,构建该预设特征维度对应的子模型,包括:
依据预设的多个集成树算法,构建每个所述集成树算法对应的集成树模型;
对于每个所述集成树模型,依据该预设特征维度对应的训练样本集,对该集成树模型进行训练,将完成训练的该集成树模型确定为备选模型;
对于每个所述备选模型,依据预设的预留样本集和跨时间样本集,对该备选模型进行验证,得到该备选模型对应的验证结果;
依据各个所述备选模型对应的验证结果,在各个所述备选模型中,确定目标备选模型,将所述目标备选模型确定为该预设特征维度对应的子模型。
5.根据权利要求2所述的方法,其特征在于,所述对各个所述子模型进行融合处理,得到融合模型,包括:
确定每个所述子模型对应的权重;
按照各个所述子模型对应的权重,对各个所述子模型进行加权融合,将融合结果作为所述融合模型。
6.根据权利要求1所述的方法,其特征在于,所述场景解释模型的构建过程,包括:
依据预设的场景映射规则集合以及预设的梯度提升决策树算法,构建梯度提升决策树模型;
依据预设的场景解释变量及坏样本集合,对所述梯度提升决策树模型进行训练,得到经过训练的梯度提升决策树模型;
判断所述经过训练的梯度提升决策树模型是否满足预设的测试验证条件,若所述经过训练的梯度提升决策树模型满足所述测试验证条件,则将所述经过训练的梯度提升决策树模型确定为所述场景解释模型。
7.根据权利要求1所述的方法,其特征在于,各个所述预设特征维度包括:基础信息维度、企业流水维度、实控人流水维度、工商与企业征信维度以及实控人征信维度。
8.一种幌子企业识别装置,其特征在于,包括:
第一确定单元,用于当需要对目标企业进行识别时,确定所述目标企业对应的企业信息,所述企业信息包括企业基础数据、交易流水数据、渠道登陆数据、工商数据和征信数据;
第二确定单元,用于在所述企业信息中,确定场景特征数据和每个预设特征维度对应的特征数据;
第一处理单元,用于将各个所述预设特征维度对应的特征数据输入已构建的评分模型,经所述评分模型处理后,获得所述目标企业对应的风险评分;
第二处理单元,用于将所述场景特征数据和所述风险评分输入已构建的场景解释模型,经所述场景解释模型处理后,获得所述风险评分对应的场景映射规则;
第三确定单元,用于依据所述风险评分和所述场景映射规则,确定所述目标企业对应的识别结果;
第四确定单元,用于若所述识别结果表征所述目标企业为幌子企业,则确定所述目标企业对应的欺诈场景,完成所述目标企业的识别过程。
9.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~7任意一项所述的幌子企业识别方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~7任意一项所述的幌子企业识别方法。
CN202211156462.3A 2022-09-22 2022-09-22 幌子企业识别方法及装置、存储介质及电子设备 Pending CN115496364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211156462.3A CN115496364A (zh) 2022-09-22 2022-09-22 幌子企业识别方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211156462.3A CN115496364A (zh) 2022-09-22 2022-09-22 幌子企业识别方法及装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115496364A true CN115496364A (zh) 2022-12-20

Family

ID=84469606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211156462.3A Pending CN115496364A (zh) 2022-09-22 2022-09-22 幌子企业识别方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115496364A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028838A (zh) * 2023-01-09 2023-04-28 广东电网有限责任公司 一种基于聚类算法的能源数据处理方法、装置及终端设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028838A (zh) * 2023-01-09 2023-04-28 广东电网有限责任公司 一种基于聚类算法的能源数据处理方法、装置及终端设备
CN116028838B (zh) * 2023-01-09 2023-09-19 广东电网有限责任公司 一种基于聚类算法的能源数据处理方法、装置及终端设备

Similar Documents

Publication Publication Date Title
CN110009479B (zh) 信用评价方法及装置、存储介质、计算机设备
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
CN111311402A (zh) 一种基于XGBoost的互联网金融风控模型
CN110334737A (zh) 一种基于随机森林的客户风险指标筛选的方法和***
CN110866819A (zh) 一种基于元学习的自动化信贷评分卡生成方法
CN110837963A (zh) 一种基于数据、模型及策略的风险控制平台建设方法
CN105308640A (zh) 用于自动生成高质量不良行为通知的方法和***
CN113011973B (zh) 基于智能合约数据湖的金融交易监管模型的方法及设备
CN111311416B (zh) 一种基于多通道图和图神经网络的区块链洗钱节点检测方法
Sayjadah et al. Credit card default prediction using machine learning techniques
CN105354210A (zh) 移动游戏支付账户行为数据处理方法和装置
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
CN112767136A (zh) 基于大数据的信贷反欺诈识别方法、装置、设备及介质
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
KR101999765B1 (ko) 데이터마이닝 기술을 이용한 금융 사기 대출 패턴화 분석 시스템 및 방법
Shen et al. Sequential optimization three-way decision model with information gain for credit default risk evaluation
CN115496364A (zh) 幌子企业识别方法及装置、存储介质及电子设备
CN110956543A (zh) 异常交易检测的方法
CN114021612A (zh) 一种新型个人信用评估方法及***
CN112132589A (zh) 一种基于多次融合构建欺诈识别模型的方法
Pandey et al. A review of credit card fraud detection techniques
CN117408699A (zh) 一种基于银行卡数据的电信诈骗识别方法
Datkhile et al. Statistical modelling on loan default prediction using different models
Ullah et al. Predicting Default Payment of Credit Card Users: Applying Data Mining Techniques
CN111784182A (zh) 资产信息处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination