CN111275338A

CN111275338A - 一种企业欺诈行为的判定方法、装置、设备及存储介质

Info

Publication number: CN111275338A
Application number: CN202010067142.5A
Authority: CN
Inventors: 周小玲; 许卫; 李芳�; 赵彦晖
Original assignee: Shenzhen Vzoom Credit Information Service Co ltd
Current assignee: Shenzhen Vzoom Credit Information Service Co ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-12

Abstract

本申请公开了一种企业欺诈行为的判定方法，包括：获取目标企业的目标特征数据；将目标特征数据输入至预先训练出的企业评分卡模型中，得出目标企业的目标企业评分值；依据预设的评分分段，根据目标企业评分值确定出目标企业的欺诈风险程度。因此，本方法避免了人工线下深度调查，能够节省大量的人力资源，并提高判定效率；而且通过机器学习训练出的企业评分卡模型得出目标企业的目标企业评分值，提高对企业欺诈行为判定的准确度。本申请还公开了一种企业欺诈行为的判定装置、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种企业欺诈行为的判定方法、装置、设备及存储介质

技术领域

本发明涉及信息判断领域，特别涉及一种企业欺诈行为的判定方法、装置、设备及计算机可读存储介质。

背景技术

随着经济社会的快速发展，小微企业的数量也快速增长；同时，小微企业在运营时，存在向金融机构申请贷款的需求。而对于金融机构而言，为了保障自身的经济安全，需要对小微企业的信用情况进行审核，即，对小微企业进行欺诈行为的判定，以确定是否为该小微企业放贷。

现有技术中，针对企业的欺诈行为的判定，一般是通过人工线下的深入调查分析来判断，不仅效率低下，需要消耗大量的人力资源，而且判断过程掺杂人为的主观因素，使得判断结果不准确。

因此，如何高效准确地对企业欺诈行为进行判定，是本领域技术人员目前需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种企业欺诈行为的判定方法，能够高效准确地对企业欺诈行为进行判定；本发明的另一目的是提供一种企业欺诈行为的判定装置、设备及计算机可读存储介质，均具有上述有益效果。

为解决上述技术问题，本发明提供一种企业欺诈行为的判定方法，包括：

获取目标企业的目标特征数据；

将所述目标特征数据输入至预先训练出的企业评分卡模型中，得出所述目标企业的目标企业评分值；

依据预设的评分分段，根据所述目标企业评分值确定出所述目标企业的欺诈风险程度。

优选地，训练出所述企业评分卡模型的过程，具体包括：

获取多个企业的样本特征数据；其中，所述样本特征数据包括样本特征变量和对应的样本变量值；

依据支持度、可信度和作用度，为所述样本特征变量设置FP-Tree，确定出入模变量；

根据所述入模变量设置对应的入模指标，并根据各样本变量值计算出各入模指标的权重；

设置根据各所述入模指标和对应的权重、各所述入模指标的分箱系数计算与各所述企业对应的企业评分值的计算方式，得出所述企业评分卡模型。

优选地，所述依据支持度、可信度和作用度，为所述样本特征变量设置FP-Tree，确定出入模变量的过程，具体包括：

依据所述支持度、所述可信度和所述作用度，为所述样本特征变量设置所述FP-Tree，确定出入模变量；

利用KS值、AR值、IV值和VIF值对所述入模变量进行筛选，利用筛选出的入模变量更新所述入模变量。

优选地，在所述获取多个企业的样本特征数据之后，进一步包括：

对所述样本特征数据进行数据清洗和异常处理。

优选地，在所述依据预设的评分分段指标，根据所述目标企业评分值确定出所述目标企业的欺诈风险程度之后，进一步包括：

若所述目标企业的欺诈风险程度高于预警阈值，则发出对应的提示信息。

优选地，进一步包括：

记录欺诈风险程度高于预警阈值的目标企业的企业信息。

优选地，进一步包括：

通过网页展示所述目标企业的所述目标特征数据和/或所述目标企业评分值和/或所述欺诈风险程度。

为解决上述技术问题，本发明还提供一种企业欺诈行为的判定装置，包括：

获取模块，用于获取目标企业的目标特征数据；

输入模块，用于将所述目标特征数据输入至预先训练出的企业评分卡模型中，得出所述目标企业的目标企业评分值；

确定模块，用于依据预设的评分分段，根据所述目标企业评分值确定出所述目标企业的欺诈风险程度。

为解决上述技术问题，本发明还提供一种企业欺诈行为的判定设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种企业欺诈行为的判定方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种企业欺诈行为的判定方法的步骤。

本发明提供的一种企业欺诈行为的判定方法，通过预先训练出的企业评分卡模型，再将获取到的目标企业的目标特征数据输入至企业评分卡模型中，以得出目标企业的目标企业评分值；然后依据预设的评分分段，根据目标企业评分值确定出目标企业的欺诈风险程度。因此，本方法避免了人工线下深度调查，能够节省大量的人力资源，并提高判定效率；而且通过机器学习训练出的企业评分卡模型得出目标企业的目标企业评分值，提高对企业欺诈行为判定的准确度。

为解决上述技术问题，本发明还提供了一种企业欺诈行为的判定装置、设备及计算机可读存储介质，均具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种企业欺诈行为的判定方法的流程图；

图2为本发明实施例提供的一种训练企业评分卡模型的方法的流程图；

图3为本发明实施例提供的一种企业欺诈行为的判定装置的结构图；

图4为本发明实施例提供的一种企业欺诈行为的判定设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的核心是提供一种企业欺诈行为的判定方法，能够高效准确地对企业欺诈行为进行判定；本发明的另一核心是提供一种企业欺诈行为的判定装置、设备及计算机可读存储介质，均具有上述有益效果。

为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种企业欺诈行为的判定方法的流程图。如图1所示，一种企业欺诈行为的判定方法包括：

S10：获取目标企业的目标特征数据。

具体的，在本实施例中，首先获取需要进行企业欺诈行为判定的目标企业的目标特征数据，其中，目标特征数据指的是按照预先确定出的特征变量获取对应的变量值，即，目标特征数据包括目标企业的目标特征变量和对应的目标变量值。需要说明的是，在实际操作中，可以是在通过目标企业的合法授权后，利用API专线传输获取，使得获取到的目标特征数据更加全面真实。

另外需要说明的是，在实际操作中，当需要对多个目标企业进行企业欺诈行为判定时，可以预先获取各目标企业的目标特征数据并以数据库表的形式进行存储，然后在需要进行企业欺诈行为判定时，通过输入企业ID，以从预设的数据库表中得出与该企业ID对应的目标企业的目标特征数据。

S20：将目标特征数据输入至预先训练出的企业评分卡模型中，得出目标企业的目标企业评分值。

具体的，在本步骤中，是在获取到目标企业的目标特征数据之后，将目标特征数据输入至预先训练出的企业评分卡模型中，通过企业评分卡模型利用目标特征数据进行计算，得出目标企业的目标企业评分值。可以理解的是，具体的计算方式是根据训练出的企业评分卡模型确定，本实施例对计算方式不做限定，并且在训练出企业评分卡模型之后，将企业评分卡模型进行存储，以便于将目标特征数据输入至该企业评分卡模型中。

S30：依据预设的评分分段，根据目标企业评分值确定出目标企业的欺诈风险程度。

具体的，在本步骤中，是预先为企业评分值设置评分分段，即为企业评分值划分分值范围，然后根据各评分分段设置对应的欺诈风险程度；在实际操作中，可以根据实际情况设置对应的评分分段，本实施例对评分分段中的分值范围不做限。在设置评分分段之后，便可以根据目标企业评分值确定出目标企业的欺诈风险程度。例如，假设目标企业评分值在评分分段70-80之间，表示该目标企业的欺诈风险程度较高；若目标企业评分值在评分分段80-90之间，表示该目标企业的欺诈风险程度很高等，上述只是一种具体的举例说明，不作为具体的限定。

本发明实施例提供的一种企业欺诈行为的判定方法，通过预先训练出的企业评分卡模型，再将获取到的目标企业的目标特征数据输入至企业评分卡模型中，以得出目标企业的目标企业评分值；然后依据预设的评分分段，根据目标企业评分值确定出目标企业的欺诈风险程度。因此，本方法避免了人工线下深度调查，能够节省大量的人力资源，并提高判定效率；而且通过机器学习训练出的企业评分卡模型得出目标企业的目标企业评分值，提高对企业欺诈行为判定的准确度。

图2为本发明实施例提供的一种训练企业评分卡模型的方法的流程图。在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，训练出企业评分卡模型的过程，具体包括：

S21：获取多个企业的样本特征数据；

其中，样本特征数据包括样本特征变量和对应的样本变量值。

具体的，在训练企业评分卡模型时，首先需要获取多个企业的样本特征数据，样本特征数据为初步筛选出的能够用于判定企业欺诈行为的样本特征变量以及各样本特征变量对应的样本变量值；样本特征变量具体包括企业涉税信息、工商信息、司法信息等，其中，涉税信息涵盖了企业税务登记信息、股东信息、收入申报信息、税金逾期信息等；工商信息涵盖了企业工商登记信息、股权信息、行政处罚等；司法信息涵盖了企业涉诉裁判文书、失信执行信息、企业主限制高消费和出入境信息等。

作为优选的实施方式，在获取多个企业的样本特征数据之后，进一步包括：

对样本特征数据进行数据清洗和异常处理。

需要说明的是，在本实施例中，数据清洗指的是结合涉税数据业务逻辑，发现并纠正样本特征数据中可识别的错误，包括检查样本特征数据一致性，处理样本特征数据中的无效值、异常值和缺失值等，以提高训练企业评分卡模型的训练速度和准确度，且本实施例对数据清洗的具体方式不做限定；异常处理指的是将样本特征变量中缺失样本变量值较多的样本特征变量删除，以避免大量缺失数据对训练企业评分卡模型的准确度造成影响。

S22：依据支持度、可信度和作用度，为样本特征变量设置FP-Tree，确定出入模变量。

具体的，支持度(Support)是几个关联的样本特征变量在样本特征变量集中出现的次数占总样本特征变量集的比重，或者说几个样本特征变量关联出现的概率，即，

其中，N表示样本特征变量的总类别数；

具体如，

表示X,Y两个样本特征变量关联的支持度；

又如，

表示X,Y,Z三个样本特征变量关联的支持度。

具体的，置信度(Confidence)用来衡量关联规则的准确性，也就是说，置信度体现了一个样本特征变量出现后，另一个样本特征变量出现的概率，或者说样本特征变量的条件概率，即

具体如，

表示两个存在关联性的样本特征变量X和Y中，X对于Y的置信度；

又如，

表示三个存在关联性的样本特征变量X，Y，Z中，X对于Y和Z的置信度。

具体的，作用度(或称提升度，Lift)体现了样本特征变量之间的关联关系，

例如，对于样本特征变量X和Y来说，作用度大于1，则

是有效的强关联规则；作用度小于或等于1时，则

是无效的强关联规则。需要说明的是，如果样本特征变量X和Y独立，则由于此时P(X|Y)＝P(X)，因此，

需要说明的是，利用支持度、可信度和作用度，根据特征变量设置FP-Tree的具体实现方式是本领域技术人员的公知常识，此处不做赘述。需要说明的是，在设置出FP-Tree之后，根据FP-Tree确定出入模变量。具体的，入模变量指的是样本特征变量中，对企业欺诈行为影响相对较大的特征变量。

作为优选的实施方式，依据支持度、可信度和作用度，为样本特征变量设置FP-Tree，确定出入模变量的过程，具体包括：

依据支持度、可信度和作用度，为样本特征变量设置FP-Tree，确定出入模变量；

利用KS值、AR值、IV值和VIF值对入模变量进行筛选，利用筛选出的入模变量更新入模变量。

具体的，在本实施例中，是在依据支持度、可信度和作用度，为样本特征变量设置FP-Tree之后，初步确定出入模变量；然后，进一步利用KS值、AR值、IV值和VIF值对初步确定出的入模变量进行筛选，并通过逻辑回归(Logistic Regression)算法不断逐步回归，不断筛选出对企业欺诈行为影响大的入模变量，将筛选出的入模变量作为最终的入模变量。

其中，KS(Kolmogorov-Smirnov)值用于特征变量区分能力进行评估，指标衡量的是好坏样本累计分部之间的差值；好坏样本累计差异越大，KS指标越大，那么特征变量的风险区分能力越强。AR(Accuracy Ratio)值是金融风控模型评价中的一个比较常用的指标，是CAP曲线(Cumulative Accuracy Profile)用来分析单因素风险区分能力的手段。AR值越大，CAP曲线越接近“完美曲线”，得分低部分越陡峭区分能力越好。IV(Information Value)值是用来表示每一个特征变量对目标变量来说有多少“信息”的量。IV值越高表明该特征变量对企业评分卡模型的有效信息量越高。VIF(Variance Inflation Factors)值是方差膨胀因子，通过检查指定的解释变量能够被回归方程中其他全部解释变量所解释的程度来检测多重共线性。VIF值越高，多重共线性的影响越严重，特征变量选取的时候就要进行对比剔除。

可见，通过进一步利用KS值、AR值、IV值和VIF值对入模变量进行筛选，利用筛选出的入模变量更新入模变量，能够进一步减少入模变量的数量，在保障训练出的企业评分卡模型的准确度的基础上，降低训练企业评分卡模型的复杂度，使得企业评分卡模型更加轻便。

S23：根据入模变量设置对应的入模指标，并根据各样本变量值计算出各入模指标的权重。

具体的，在确定出入模变量之后，根据入模变量设置对应的入模指标；入模指标为一个或多个入模变量的组合，再根据各入模指标中的入模变量对应的样本变量值，确定出各入模变量的权重。具体的，对确定出的入模指标进行分箱，再对各入模指标进行WOE转换，根据WOE转换得出与各入模指标对应的权重。

S24：设置根据各入模指标和对应的权重、各入模指标的分箱系数计算与各企业对应的企业评分值的计算方式，得出企业评分卡模型。

在本步骤中，是设置各入模指标和对应的权重、各入模指标的分箱系数进行加权相乘，得出与各企业对应的企业评分值，即，得出企业评分卡模型。从而，在后续操作中，通过将目标企业的目标特征数据包括目标特征变量和对应的变量值，输入至企业评分卡模型中，企业评分卡模型便可以根据目标特征变量确定出对应的目标特征指标，并根据目标特征指标所对应的权重以及目标特征指标的分箱系数确定出对应的企业评分值。

可见，按照本实施例的方法训练出企业评分卡模型，操作方式快速便捷。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例在依据预设的评分分段指标，根据目标企业评分值确定出目标企业的欺诈风险程度之后，进一步包括：

若目标企业的欺诈风险程度高于预警阈值，则发出对应的提示信息。

具体的，预警阈值为预先设置的欺诈风险程度的限度值，在根据目标企业评分值确定出该目标企业对应的欺诈风险程度之后，进一步判断该欺诈风险程度是否高于预警阈值，若欺诈风险程度该与该预警阈值，则进一步触发提示装置发出对应的提示信息。

需要说明的是，提示装置可以具体是蜂鸣器和/或指示灯和/或显示器，通过触发蜂鸣器/指示灯/显示器等提示装置发出对应的提示信息，如蜂鸣音/闪烁灯/显示文字或图像等，以直观地提示用户该目标企业的欺诈风险程度较高，该目标企业存在较大的欺诈风险，因此能够进一步提升用户的使用体验。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例进一步包括：

记录欺诈风险程度高于预警阈值的目标企业的企业信息。

在本实施例中，是在确定出目标企业的欺诈风险程度高于预警阈值之后，进一步记录该目标企业的企业信息。

具体的，在实际操作中，可以是将该企业信息记录于文本文档中，也可以是将该目标企业的企业信息、判定时间以及对应的欺诈风险程度等信息以统计表的形式进行记录，本实施例对具体的记录方式不做限定。更具体的，可以是以内存条、硬盘、TF(Trans-flashCard)卡和SD(Secure Digital Memory Card)卡等方式进行存储，具体根据实际需求进行选择，本实施例对此不做限定。

本实施例中，通过进一步记录欺诈风险程度高于预警阈值的目标企业的企业信息，能够便于后续进一步根据记录的企业信息查看各目标企业的信用情况，进一步提升使用体验。

通过网页展示目标企业的目标特征数据和/或目标企业评分值和/或欺诈风险程度。

在本实施例中，是在获取到目标企业的目标特征数据之后，或者利用企业评分卡模型得出目标企业评分值之后，或者确定出目标企业的欺诈风程度之后，进一步通过网页展示目标企业的目标特征数据和/或目标企业评分值和/或欺诈风险程度。需要说明的是，在实际操作中，可以是以文字或者图标的方式展示，本实施例对此不做限定。

可见，本实施例进一步通过网页展示目标企业的目标特征数据和/或目标企业评分值和/或欺诈风险程度，能够更便于用户查看目标企业的企业欺诈行为的情况，从而进一步提升客户的使用体验。

上文对于本发明提供的一种企业欺诈行为的判定方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的企业欺诈行为的判定装置、设备及计算机可读存储介质，由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应，因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图3为本发明实施例提供的一种企业欺诈行为的判定装置的结构图，如图3所示，一种企业欺诈行为的判定装置包括：

获取模块31，用于获取目标企业的目标特征数据；

输入模块32，用于将目标特征数据输入至预先训练出的企业评分卡模型中，得出目标企业的目标企业评分值；

确定模块33，用于依据预设的评分分段，根据目标企业评分值确定出目标企业的欺诈风险程度。

本发明实施例提供的企业欺诈行为的判定装置，具有上述企业欺诈行为的判定方法的有益效果。

作为预选的实施方式，输入模块具体包括：

获取单元，用于获取多个企业的样本特征数据；其中，样本特征数据包括样本特征变量和对应的样本变量值；

设置单元，用于依据支持度、可信度和作用度，为样本特征变量设置FP-Tree，确定出入模变量；

计算单元，用于根据入模变量设置对应的入模指标，并根据各样本变量值计算出各入模指标的权重；

组合单元，用于设置根据各入模指标和对应的权重、各入模指标的分箱系数计算与各企业对应的企业评分值的计算方式，得出企业评分卡模型。

作为预选的实施方式，设置单元具体包括：

第一设置子单元，用于依据支持度、可信度和作用度，为样本特征变量设置FP-Tree，确定出入模变量；

第二设置子单元，用于利用KS值、AR值、IV值和VIF值对入模变量进行筛选，利用筛选出的入模变量更新入模变量。

作为预选的实施方式，进一步包括：

数据处理模块，用于对样本特征数据进行数据清洗和异常处理。

作为预选的实施方式，进一步包括：

预警模块，用于若目标企业的欺诈风险程度高于预警阈值，则发出对应的提示信息。

作为预选的实施方式，进一步包括：

记录模块，用于记录欺诈风险程度高于预警阈值的目标企业的企业信息。

作为预选的实施方式，进一步包括：

显示模块，用于通过网页展示目标企业的目标特征数据和/或目标企业评分值和/或欺诈风险程度。

图4为本发明实施例提供的一种企业欺诈行为的判定设备的结构图，如图4所示，一种企业欺诈行为的判定设备包括：

存储器41，用于存储计算机程序；

处理器42，用于执行计算机程序时实现如上述企业欺诈行为的判定方法的步骤。

本发明实施例提供的企业欺诈行为的判定设备，具有上述企业欺诈行为的判定方法的有益效果。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述企业欺诈行为的判定方法的步骤。

本发明实施例提供的计算机可读存储介质，具有上述企业欺诈行为的判定方法的有益效果。

以上对本发明所提供的企业欺诈行为的判定方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种企业欺诈行为的判定方法，其特征在于，包括：

获取目标企业的目标特征数据；

2.根据权利要求1所述的方法，其特征在于，训练出所述企业评分卡模型的过程，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述依据支持度、可信度和作用度，为所述样本特征变量设置FP-Tree，确定出入模变量的过程，具体包括：

4.根据权利要求2所述的方法，其特征在于，在所述获取多个企业的样本特征数据之后，进一步包括：

对所述样本特征数据进行数据清洗和异常处理。

5.根据权利要求1所述的方法，其特征在于，在所述依据预设的评分分段指标，根据所述目标企业评分值确定出所述目标企业的欺诈风险程度之后，进一步包括：

6.根据权利要求5所述的方法，其特征在于，进一步包括：

记录欺诈风险程度高于预警阈值的目标企业的企业信息。

7.根据权利要求1至6任一项所述的方法，其特征在于，进一步包括：

8.一种企业欺诈行为的判定装置，其特征在于，包括：

获取模块，用于获取目标企业的目标特征数据；

9.一种企业欺诈行为的判定设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的企业欺诈行为的判定方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的企业欺诈行为的判定方法的步骤。