CN116342141A - 一种空壳企业识别方法、装置和设备 - Google Patents

一种空壳企业识别方法、装置和设备 Download PDF

Info

Publication number
CN116342141A
CN116342141A CN202211623210.7A CN202211623210A CN116342141A CN 116342141 A CN116342141 A CN 116342141A CN 202211623210 A CN202211623210 A CN 202211623210A CN 116342141 A CN116342141 A CN 116342141A
Authority
CN
China
Prior art keywords
enterprise
features
identified
blank
empty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211623210.7A
Other languages
English (en)
Inventor
杨岱川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202211623210.7A priority Critical patent/CN116342141A/zh
Publication of CN116342141A publication Critical patent/CN116342141A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Tourism & Hospitality (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例公开了一种空壳企业识别方法、装置和设备,所述方法可获取待识别企业的多维原始数据;从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征;将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的;将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的;基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。

Description

一种空壳企业识别方法、装置和设备
技术领域
本文件涉及计算机技术领域,尤其涉及一种空壳企业识别方法、装置和设备。
背景技术
空壳公司(She11 Corporation)又名空头公司或纸上公司,一般是指通过正规途径注册成立,但没有实际经营或者缺少实际经营所必须的资产的法人实体。
空壳企业给金融机构带来了巨大的风险。但受识别手段的制约,使得金融机构无法兼顾识别结果的可解释性和准确性。
因此,亟需提出一种能够兼顾识别结果的可解释性和准确性的空壳企业智能识别方案。
发明内容
本说明书实施例提供了一种空壳企业识别方法、装置和设备,以兼顾识别结果的可解释性和准确性。
为解决上述技术问题,本说明书实施例是这样实现的:
第一方面,提出了一种空壳企业识别方法,包括:
获取待识别企业的多维原始数据;
从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征;
将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的;
将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的;
基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
第二方面,提出了一种空壳企业识别装置,包括:
第一获取模块,获取待识别企业的多维原始数据;
特征提取模块,从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征;
第一输入模块,将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的;
第二输入模块,将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的;
第一确定模块,基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
第三方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待识别企业的多维原始数据;
从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征;
将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的;
将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的;
基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取待识别企业的多维原始数据;
从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征;
将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的;
将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的;
基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
本说明书实施例提供的以上至少一个技术方案,通过评分卡模型和至少一个分类模型融合的形式对待识别企业是否属于空壳企业进行识别,由于评分卡模型具有较好的可解释性,分类模型具有高准确性,因此,这种识别方式可以兼顾识别结果的可解释性和准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本说明书实施例提供的一种空壳企业识别方法的流程示意图。
图2是本说明书实施例提供的一种空壳企业识别方法的原理示意图。
图3是图1所示示意图中步骤102的详细流程示意图。
图4是图1所示示意图中步骤104的详细流程示意图。
图5是本说明书实施例提供的一种空壳企业识别方法的另一流程示意图。
图6是本说明书实施例提供的一种空壳企业识别方法的另一流程示意图。
图7是本说明书一个实施例提供的一种电子设备的结构示意图。
图8是本说明书一实施例提供的一种空壳企业识别装置的结构示意图。
图9是本说明书一实施例提供的一种空壳企业识别装置的另一结构示意图。
图10是本说明书一实施例提供的一种空壳企业识别装置的另一结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文件保护的范围。
为了兼顾识别结果的可解释性和准确性,本说明书实施例提供一种空壳企业识别方法和装置,该方法和装置可以由电子设备执行,或者由安装在电子设备中的软件或硬件设备执行。这里的电子设备包括但不限于终端设备和服务器,所述终端设备包括但不限于:智能手机、个人电脑(personal computer,PC)、笔记本电脑、平板电脑、电子阅读器、网络电视、可穿戴设备等智能终端设备中的任一种,所述服务器包括但不限于:单台服务器、多台服务器、服务器集群以及云服务器中的任一种。
本说明书实施例提供的一种空壳企业识别方法可包括两部分,一部分是模型的训练,另一部分是应用训练好的模型进行空壳企业的识别,下面分别进行介绍。
首先,对模型训练部分进行说明。
在本说明书实施例提出的一种空壳企业识别方法中,引入了评分卡模型以实现识别结果的可解释性,同时引入至少一个分类模型确保识别结果的准确性以及召回率等。
在此基础上,如图1所示,本说明书实施例提出的一种空壳企业识别方法,可以包括:
步骤102、基于样本企业的多维原始数据、多个第一特征以及空壳企业标签,训练所述评分卡模型。
步骤104、基于样本企业的多个第二特征以及空壳企业标签,训练至少一个分类模型。
上述样本企业的数量可以是若干个,且这若干个样本企业中既包含白样本也包含黑样本,其中,白样本是指空壳企业标签为“否”的样本,即不是空壳企业的样本,黑样本是指空壳企业标签为“是”的样本,即是空壳企业的样本。
样本企业的多个第一特征和多个第二特征来自于样本企业的上述多维原始数据。
在本说明书中,之所以提出第一特征和第二特征,是为了将所述评分卡模型和所述分类模型所采用的特征进行区分,第一特征与第二特征可以相同,也可以不同。具体来说,训练所述评分卡模型时采用的是样本企业的第一特征,应用所述评分卡模型进行预测时采用的是待识别企业的第一特征,同样的,训练所述分类模型时采用的是样本企业的第二特征,应用所述分类模型进行预测时采用的是待识别企业的第二特征。
还需要说明的是,对于所述至少一个分类模型中的不同分类模型来说,采用的第二特征可以相同也可以不同。
图2示出了本说明书实施例提供的一种空壳企业识别方法的原理示意图。如图2所示,在模型训练部分,空壳企业识别方法可包括:数据准备、特征加工、特征筛选、模型训练、部署上线和反馈调整等过程。其中,数据准备,即获取样本企业的多维原始数据;特征加工,即对获取的多维原始数据进行特征工程,得到特征集;特征筛选,即删除特征集中的无效特征;模型训练,即采用特征集中的特征进行模型训练,其中,被训练的模型包括用于生成评分卡模型的逻辑回归模型以及至少一个分类模型;部署上线,即将训练好的评分卡模型和至少一个分类模型部署至需要进行空壳企业识别的平台;反馈调整,即根据平台对评分卡模型和至少一个分类模型的使用效果做出的反馈,对这些模型做出优化和调整。
下面结合图3和图4分别对上述步骤102和上述步骤104进行详细的说明。
如图3所示,上述步骤102具体可包括:
步骤302、获取样本企业的多维原始数据。
在本说明书实施例中,企业的多维原始数据可以包括但不限于下述一项或多项:工商企业照面信息、企业处罚信息、企业裁判文书信息、企业品牌信息、企业产品信息、企业知识产权信息、企业的债券评级信息、企业的海关注册信息和企业的自证经营信息。
其中,工商企业照面信息可包括但不限于下述一项或多项:企业名称、企业类型(个体户、企业)、法定代表人、经营状态、注册资本、成立日期、注册地址、登记机关和登记注册行业等。
其中,企业处罚信息可包括但不限于下述一项或多项:行政处罚信息、失信被执行人信息、税务处罚信息、工商处罚信息(地址无法联系、未按时提交年报等)、欠税催缴、工商严重违法等。
其中,企业裁判文书信息可包括但不限于下述一项或多项:企业作为原告、被告、上诉人、被上诉人、第三人等身份所涉及的法律诉讼等。
其中,企业品牌信息可包括但不限于下述一项或多项:企业登记注册的品牌等有形或者无形资产信息。
其中,企业产品信息可包括但不限于下述一项或多项:企业生产或销售的产品名称、产品类型、销售渠道等信息。
其中,企业知识产权信息可包括但不限于下述一项或多项:企业登记注册的商品、商标、申请的专利等有形或者无形资产信息。
其中,企业的债券评级信息是指以企业发行的有价债券为对象进行的信用评级信息。
其中,企业的海关注册信息可包括海关注册登记编码,如海关注册号。
其中,企业的自证经营信息可包括但不限于交易流水、***信息等企业主自己证明自己正常经营的数据的信息。
步骤304、对所述样本企业的所述多维原始数据进行预处理,得到所述样本企业的特征集。
由于本说明书实施例提供的一种空壳企业识别方法涉及多种模型的使用,因此需要对企业的多维原始数据进行清晰、加工和挖掘,以获取更多的数据特征。在具体实现时,可依据类似于Hive的大数据平台框架对原始数据进行预处理。
其中,所述预处理可以包括但不限于下述一项或多项:
1)缺失的数值填充,可采用中值、平均值、众数或对数值等对缺失的数值型特征进行填充。
2)对于缺失的非数值特征,由于无法使用均值等数值型的缺失值填充方法,所以可填入代表空值的预设字符串,例如,填入“NULL”这一字符串。
3)对于可拆分的字符串进行拆分,比如对于地址,可以拆解到省、市、区县、街道,此外还可以统计一个地址上存在多少家企业;
4)将文字类型的特征对应到数值编码或向量编码,例如,对于地址可以对应到类似于邮政编码这样的数值编码,或者,可以采用embedding的形式变为向量编码,让计算机能够进行相应的矩阵运算。
5)将具有关联关系的特征进行关联,得到关联特征,比如,将具有关联关系的时间特征与非时间特征进行关联,具体如企业成立至今的时间,以及近一个月、半年、一年企业的变更数量、行政处罚数量、涉诉公告数量等;再如,将具有关联关系的地址特征与非地址特征进行关联,等等。
在通过上述预处理方式得到样本企业的特征集之后,可以进一步地对特征集中的特征进行分类,以方便后续在对识别结果进行解释时输出相应的原因。
在一个例子中,可将特征集中的特征分为如下几类:
1)企业基本信息类;
2)企业地址类,包括但不限于企业注册地范围、注册地址对应企业数量(如一址多企);
3)企业经营异常类,包括但不限于各种行政处罚、工商异常信息和税务异常信息;
4)企业工商信息变更类,包括但不限于企业变更类型、变更时间;
5)企业正向运行类,包括但不限于企业的专利数量、ICP备案数量、品牌数量、资产信息等。
之后,可根据样本企业的空壳企业标签,给特征集中的特征加上好(good)/坏(bad)标签,其中,标签“好”表示该特征对应的样本企业不属于空壳企业,标签“坏”表示该特征对应的样本企业属于空壳企业。
在准备好特征集之后,可将模型的训练集和测试集从带样本标签的特征集中拆分出来,例如,随机筛选70%作为训练集,剩余30%作为测试集。这样一来,步骤306和步骤318中所采用的特征集即这里所说的训练集,下面不再重复说明。
步骤306、对所述特征集进行分箱,得到针对多个特征的分箱结果。
分箱是依据评分卡的原理进行的,在评分卡中,不同的特征分成多个范围,一个范围即对应一个箱子,表1示出了一个评分卡的示意图。根据表1所示的评分卡,对于“法定代表人年龄”这一特征,可被分成“18≤年龄<25”、“25≤年龄<35”、“35≤年龄<55”和“55≤年龄”这四个箱子;同理,对于“法定代表人性别”这一特征,可被分成“男”和“女”这两个箱子,以此类推,不再赘述。
表1评分卡
Figure SMS_1
步骤308、确定所述多个特征的预测能力,并基于所述多个特征的预测能力,对所述多个特征进行筛选,得到所述样本企业的所述多个第一特征。
作为一个例子,可通过信息的价值(Information Value,IV值)来表征特征的预测能力,IV值的计算公式如下:
Figure SMS_2
Figure SMS_3
其中,对于一个第一特征而言,IV表示该第一特征的IV值,IVi表示该第一特征的第i个分箱的IV值,Badi/BadT表示当前分箱中空壳企业占所有企业的比例,Goodi/GoodT表示当前分箱中正常企业(非空壳企业)占所有企业的比例。
在本说明书实施例中,可以将IV值小于某一阈值的特征看作是无效特征,从特征集中删除,将IV值大于或等于该阈值的看作是有效特征,并作为第一特征保留在特征集中,得到最终的训练集。
可以理解,样本企业的多个第一特征可以是该样本企业在所述特征集中的全部类型或至少部分类型的特征。同样的,在下文中,样本企业的多个第二特征可以是该样本企业在所述特征集中的全部类型或至少部分类型的特征。
可选的,样本企业的多个第一特征和/或多个第二特征可以包括样本企业的关联特征(如对时间特征与非时间特征进行关联得到的特征,或者,对地址特征与非地址特征进行关联得到的特征)。采用样本企业的关联特征训练所述评分卡模型和所述分类模型,可以分析疑似团伙、批量注册等可疑行为。
步骤310、确定所述样本企业的所述多个第一特征下的分箱的证据权重WOE值。
根据上文计算IV值的公式可知:
Figure SMS_4
其中,WOEi表示证据权重,用于表征分箱的重要性;
Figure SMS_5
表示“当前分箱中空壳企业占所有企业的比例”和“当前分箱中正常企业占所有企业的比例”的差异。
步骤312、基于所述样本企业的所述多个第一特征下的分箱和分箱的WOE值,构建逻辑回归模型。
由于逻辑回归模型较为直观,可解释性强,容易理解,所以本说明书采用逻辑回归模型作为评分卡模型的前身。在具体构建逻辑回归模型时,可以采用Python和R语言编写逻辑回归模型。
步骤314、基于所述样本企业的所述多个第一特征和空壳企业标签,对所述逻辑回归模型进行训练。
具体的,基于前文所述的包含样本企业的所述多个第一特征的最终训练集对逻辑回归模型进行训练,训练完毕后采用前文述及的测试集进行测试,并采用AUC(Area UnderCurve)值或者KS(kolmogorov-Smirnov)值对测试结果进行评价,一般认为AUC值高于0.75即为合格模型,当然AUC值越高越好。
步骤316、将训练好的所述逻辑回归模型进行分值转换,并设置基准分和PDO值,得到所述评分卡模型,其中,所述PDO值表示好坏比率翻倍的时候的分数变动值。
在评分卡模型中,会用到违约概率与正常概率的比值,称为Odds。
Figure SMS_6
Figure SMS_7
将Odds放入Score(分数)中计算得到:
Score=A-B*ln(Odds)
其中,A和B为常数,且A和B均大于或等于零。
为了确定公式中的A与B值,需要定义2个条件:
1)基准分P_0,在Odds赔率为θ_0时的得分(例如,赔率为1:50时,基准分为500)
2)PDO(Point Double Odds),指的是分数增长N分的时候,好坏比翻倍的值。例如设置PDO为50分,基准分为500分。那么550分的众多企业,其好坏比会比500分的企业高一倍。
P0=A-B*ln(θ0)
P0-PDO=A-B*ln(2θ0)
在得到上述值以后,可以根据评分卡模型原理,编写代码得到评分卡模型。评分卡模型可以针对各个第一特征的各个分箱打出一个分数,而实际预测时候就可以针对各个测试对象(在本说明书中,该测试对象为待识别企业)的特征,对其打分。
之后,可以将评分卡模型部署在需要进行空壳企业识别的一个平台的实时***上,这样就能实时地对用户请求的企业进行空壳企业判断。
可选的,为了使用方便,本说明书实施例还将分数折算到一定等级。等级的数量可以按实际需要确定,比如按分数由高到低折算到ABCDE五个等级,其中,A为优秀,E为最差等级。采用等级形式,并且针对部分或全部等级对应设置风险说明,这样在输出一个等级时,可以相应的输出风险说明,方便用户使用,提高了易用性。
以上对评分卡模型的训练进行了说明,下面通过图4对所述至少一个分类模型的训练进行简要的说明。
如图4所示,上述步骤102具体可包括:
步骤302、获取样本企业的多维原始数据。
步骤304、对所述样本企业的所述多维原始数据进行预处理,得到所述样本企业的特征集。
需要说明的是,步骤302和步骤304的具体实现过程与图3所示的实施例一致,请参见上文对图3所示实施例的介绍,这里不再重复描述。
步骤318、基于所述特征集(训练集)中的所述样本企业的多个第二特征以及空壳企业标签,训练至少一个分类模型。
其中,所述至少一个分类模型包括但不限于树模型和神经网络模型中的至少一项,所述树模型包括但不限于XGBOOST、随机森林和LIGHTGBM中的至少一项。
关于所述至少一个分类模型的具体训练过程可参照现有技术,本文不再赘述。
可以理解,在训练好评分卡模型和至少一个分类模型之后,则可以依据这些模型进行空壳企业的识别。下面对应用训练好的模型进行空壳企业的识别过程进行说明。
如图5所示,本说明书实施例提供的一种空壳企业识别方法,可以包括:
步骤106、获取待识别企业的多维原始数据。
这里获取的待识别企业的多维原始数据,与模型训练时获取的样本企业的多维原始数据对应一致。
步骤108、从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征。
其中,待识别企业的多个第一特征与上文中训练评分卡模型时采用样本企业的多个第二特征一一对应,待识别企业的多个第二特征与上文中训练至少一个分类模型时采用样本企业的多个第二特征一一对应。
步骤110、将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的。
关于评分卡模型的训练请参见上文,不再赘述。
步骤112、将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的。
关于至少一个分类模型的训练也请参见上文,不再赘述。
其中,所述至少一个识别结果中的识别结果可以是待识别企业属于空壳企业的概率,或者,所述至少一个识别结果中的识别结果可以是待识别企业属于或不属于空壳企业。
步骤114、基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
作为一个例子,在步骤114中,可分别输出所述评分和所述至少一个识别结果,作为所述待识别企业的空壳识别结果;或者,按照投票原则从所述评分和所述至少一个识别结果选择一个结果进行输出。
作为另一个例子,在步骤114中,可先基于所述评分和预设对应关系确定待识别企业的目标等级,其中,所述预设对应关系包括多个分数范围与多个等级之间的对应关系,所述多个等级包括所述目标等级;然后基于所述目标等级和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。例如,可按分数由高到低折算到ABCDE五个等级,其中,A为优秀,E为最差等级。在此基础上,可同时输出所述目标等级和所述至少一个识别结果,以供用户参考;或者,可对所述目标等级和所述至少一个识别结果融合后输出。
其中,融合的方法可包括:若基于所述目标等级得到的所述待识别企业的空壳识别结果,与基于所述至少一个识别结果不一致,例如,待识别企业的目标等级为优秀,但待识别企业的所述至少一个识别结果为空壳企业,则可以选择输出所述至少一个分类模型的识别结果,因为分类模型的准确性更高,或者,可基于投票原则(如多数获胜)确定所述待识别企业的空壳识别结果;若基于所述目标等级得到的所述待识别企业的空壳识别结果,与基于所述至少一个识别结果对应一致,则任选一个识别结果进行输出,等等。
可选的,若所述多个等级分别具有相应的风险说明,则在选择输出待识别企业的目标等级的情况下,还可以输出所述目标等级对应的风险说明。
可选的,在所述待识别企业的空壳识别结果与所述目标等级相匹配,且所述待识别企业的空壳识别结果为空壳企业的情况下,确定所述多待识别企业的所述多个第一特征中的目标特征,其中,所述目标特征在所述评分卡模型中获得的评分低于预设评分;确定所述目标特征的特征类型;基于所述目标特征的特征类型,输出所述待识别企业属于空壳企业的原因。其中,如前文所述,所述特征类型可包括企业基本信息类、企业地址类、企业经营异常类、企业工商信息变更类和企业正向运行类。
具体的,在输出所述待识别企业属于空壳企业的原因时,可以针对待识别企业命中的所述目标特征进行解释,然后以JSON等格式的文本输出。比如某企业如果出现了地址联系不上的情况,可以输出:经营异常,该企业可能存在地址联系不上的情况。当然,解释的口径可以包括但不限于批量注册、地址异常、经营异常——年报未提交、经营异常——地址无法联系、疑似交叉任职、异常变更提醒等,还有可能包括相关数值、日期、法定代表人姓名等信息。下面示出了一个解释示例:
广州XXX投资信息有限公司
空壳企业等级D
{"key":"批量注册","description":"该企业与其他{$numbers}家企业注册情况相近,疑似存在批量注册的情况","numbers":"20"}
{"key":"地址无法联系","description":"该企业于<in_date>因“通过登记的住所或者经营场所无法联系”被列入异常经营名录","in_date":"2022年1月26日"}
{"key":"法定代表人在外任职","description":"该企业法定代表人{$corp_name}可能还在其他{$person_num}家企业任职,疑似存在批量注册的情况","person_name":冯XX,"person_num":26}
{"key":"一址多企","description":"该企业疑似使用托管、***、自主申报或住所申报等方式注册,请注意核实实际经营地址信息","address":广州市天河区XXX路X号}。
本说明书实施例提供的一种空壳企业识别方法,通过评分卡模型和至少一个分类模型融合的形式对待识别企业是否属于空壳企业进行识别,由于评分卡模型具有较好的可解释性,分类模型具有高准确性,因此,这种识别方式可以兼顾识别结果的可解释性和准确性以及召回率,等等。
此外,本说明书实施例提供的一种空壳企业识别方法,从数据特征维度上,不局限于企业工商登记信息,而是扩大数据范围,还额外采用了企业的产品、商标等征信信息,空壳企业一般不会拥有产品等信息,同时还接受企业主自行上传的***和交易流水等自证经营信息,而空壳企业大多不会拥有购入的***。可见,从数据维度的角度来看,本说明书提出的方案比其他传统方案更加丰富,这意味着评判的角度更多,更全面,结果也更准确。
再有,本说明书实施例提供的一种空壳企业识别方法,采用了关联特征(如对时间特征与非时间特征进行关联得到的特征,或者,对地址特征与非地址特征进行关联得到的特征),因此可以分析疑似团伙、批量注册等可疑行为,在其他相似方案中大多是单点判断的,对成规模注册的判定也是看法人代表名称,识别率不如本方案。
在采用关联特征的基础上,可选的,本说明书实施例提供的一种空壳企业识别方法,还可以包括:
确定预设时长内在同一地区注册的若干空壳企业的多个人员(如法人);
基于所述若干空壳企业的预设信息,确定所述若干空壳企业中的多个目标空壳企业,其中,所述预设信息包括IP地址和MAC地址中的至少一项,所述多个目标空壳企业具有相同的所述预设信息;
将所述多个人员中与所述多个目标空壳企业相关的注册人员,确定为团伙注册人员。
其中,预设时长可以根据经验设定,例如预设时长可以是一个相对较短的时长,例如,1小时内、一天之内、一周之内,等等。
进一步地,还可以将所述地区确定为空壳企业注册的高风险地区。
可选的,还可以采用专家经验(专家规则***)进行兜底判断,做到查漏补缺。具体的,在上述步骤106至步骤114中的任一步骤之前,如图6所示,在步骤106之前,本说明书实施例提供的一种空壳企业识别方法,还可以包括:
步骤116、确定所述待识别企业是否命中预设规则;若命中,则执行步骤118,否则执行步骤106。
其中,预设规则即根据专家经验设定的判定规则。
步骤118、基于所述预设规则确定所述待识别企业的空壳识别结果。
举例来说,预设规则可以包括下述至少一项:
1)对于具有第一属性的企业,虽然同样会有风险,仍予以通过。比如,对于国企、央企、国资控股、行业龙头企业、军工行业、银行、白名单中的企业,可以直接认定为不属于空壳企业。其中,白名单企业可由客户或者运营人员配置。
2)对于具有第二属性的企业,直接认定为是空壳企业。比如,被制裁的企业、税收违法的企业、严重违法企业等。
以上对本说明书提供的方法进行了说明,下面对本说明书提供的电子设备进行介绍。
图7是本说明书的一个实施例提供的电子设备的结构示意图。请参考图7,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成空壳企业识别装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取待识别企业的多维原始数据;
从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征;
将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的;
将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的;
基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
上述如本说明书图1、图5或图6所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1、图5或图6所示的实施例提供的方法,本说明书不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1、图5或图6所示实施例的方法,并具体用于执行以下操作:
获取待识别企业的多维原始数据;
从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征;
将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的;
将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的;
基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
如图8所示,本说明书的一个实施例提供了一种空壳企业识别装置800,在一种软件实施方式中,装置800可包括:第一训练模块801和第二训练模块802。
第一训练模块801,基于样本企业的多维原始数据、多个第一特征以及空壳企业标签,训练所述评分卡模型。
作为一个例子,第一训练模块801可用于:
获取样本企业的多维原始数据;
对所述样本企业的所述多维原始数据进行预处理,得到所述样本企业的特征集;
对所述特征集进行分箱,得到针对多个特征的分箱结果;
确定所述多个特征的预测能力,并基于所述多个特征的预测能力,对所述多个特征进行筛选,得到所述样本企业的所述多个第一特征;
确定所述样本企业的所述多个第一特征下的分箱的证据权重WOE值;
基于所述样本企业的所述多个第一特征下的分箱和分箱的WOE值,构建逻辑回归模型;
基于所述样本企业的所述多个第一特征和空壳企业标签,对所述逻辑回归模型进行训练;
将训练好的所述逻辑回归模型进行分值转换,并设置基准分和PDO值,得到所述评分卡模型,其中,所述PDO值表示好坏比率翻倍的时候的分数变动值。
之后,可以将评分卡模型部署在需要进行空壳企业识别的一个平台的实时***上,这样就能实时地对用户请求的企业进行空壳企业判断。
可选的,为了使用方便,本说明书实施例还将分数折算到一定等级。等级的数量可以按实际需要确定,比如按分数由高到低折算到ABCDE五个等级,其中,A为优秀,E为最差等级。采用等级形式,并且针对部分或全部等级对应设置风险说明,这样在输出一个等级时,可以相应的输出风险说明,方便用户使用,提高了易用性。
第二训练模块802,基于样本企业的多个第二特征以及空壳企业标签,训练至少一个分类模型。
作为一个例子,第二训练模块802用于:
获取样本企业的多维原始数据;
对所述样本企业的所述多维原始数据进行预处理,得到所述样本企业的特征集;
基于所述特征集(训练集)中的所述样本企业的多个第二特征以及空壳企业标签,训练至少一个分类模型;
其中,所述至少一个分类模型包括但不限于树模型和神经网络模型中的至少一项,所述树模型包括但不限于XGBOOST、随机森林和LIGHTGBM中的至少一项。
可以理解,在训练好评分卡模型和至少一个分类模型之后,则可以依据这些模型进行空壳企业的识别。下面对应用训练好的模型进行空壳企业的识别过程进行说明。
如图9所示,本说明书的一个实施例提供了一种空壳企业识别装置800,在一种软件实施方式中,装置800还可以包括:第一获取模块803、特征提取模块804、第一输入模块805、第二输入模块806和第一确定模块807。
第一获取模块803,获取待识别企业的多维原始数据。
特征提取模块804,从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征。
第一输入模块805,将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的。
第二输入模块806,将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的。
第一确定模块807,基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
作为一个例子,在第一确定模块807中,可分别输出所述评分和所述至少一个识别结果,作为所述待识别企业的空壳识别结果;或者,按照投票原则从所述评分和所述至少一个识别结果选择一个结果进行输出。
作为另一个例子,在第一确定模块807中,可先基于所述评分和预设对应关系确定待识别企业的目标等级,其中,所述预设对应关系包括多个分数范围与多个等级之间的对应关系,所述多个等级包括所述目标等级;然后基于所述目标等级和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。例如,可按分数由高到低折算到ABCDE五个等级,其中,A为优秀,E为最差等级。在此基础上,可同时输出所述目标等级和所述至少一个识别结果,以供用户参考;或者,可对所述目标等级和所述至少一个识别结果融合后输出。
其中,融合的方法可包括:若基于所述目标等级得到的所述待识别企业的空壳识别结果,与基于所述至少一个识别结果不一致,例如,待识别企业的目标等级为优秀,但待识别企业的所述至少一个识别结果为空壳企业,则可以选择输出所述至少一个分类模型的识别结果,因为分类模型的准确性更高,或者,可基于投票原则(如多数获胜)确定所述待识别企业的空壳识别结果;若基于所述目标等级得到的所述待识别企业的空壳识别结果,与基于所述至少一个识别结果对应一致,则任选一个识别结果进行输出,等等。
可选的,若所述多个等级分别具有相应的风险说明,则在选择输出待识别企业的目标等级的情况下,还可以输出所述目标等级对应的风险说明。
可选的,在所述待识别企业的空壳识别结果与所述目标等级相匹配,且所述待识别企业的空壳识别结果为空壳企业的情况下,确定所述多待识别企业的所述多个第一特征中的目标特征,其中,所述目标特征在所述评分卡模型中获得的评分低于预设评分;确定所述目标特征的特征类型;基于所述目标特征的特征类型,输出所述待识别企业属于空壳企业的原因。具体的,在输出所述待识别企业属于空壳企业的原因时,可以针对待识别企业命中的所述目标特征进行解释,然后以JSON等格式的文本输出。
本说明书实施例提供的一种空壳企业识别装置,通过评分卡模型和至少一个分类模型融合的形式对待识别企业是否属于空壳企业进行识别,由于评分卡模型具有较好的可解释性,分类模型具有高准确性,因此,这种识别方式可以兼顾识别结果的可解释性和准确性以及召回率,等等。
此外,本说明书实施例提供的一种空壳企业识别装置,从数据特征维度上,不局限于企业工商登记信息,而是扩大数据范围,还额外采用了企业的产品、商标等征信信息,空壳企业一般不会拥有产品等信息,同时接受企业主自行上传的***和交易流水等自证经营信息,而空壳企业大多不会拥有购入的***。可见,从数据维度的角度来看,本说明书提出的方案比其他传统方案更加丰富,这意味着评判的角度更多,更全面,结果也更准确。
再有,本说明书实施例提供的一种空壳企业识别装置,采用了关联特征(如对时间特征与非时间特征进行关联得到的特征,或者,对地址特征与非地址特征进行关联得到的特征),因此可以分析疑似团伙、批量注册等可疑行为,在其他相似方案中大多是单点判断的,对成规模注册的判定也是看法人代表名称,识别率不如本方案。
在采用关联特征的基础上,可选的,本说明书实施例提供的一种空壳企业识别装置800,还可以包括:
第三确定模块,确定预设时长内在同一地区注册的若干空壳企业的多个人员(如法人);
第四确定模块,基于所述若干空壳企业的预设信息,确定所述若干空壳企业中的多个目标空壳企业,其中,所述预设信息包括IP地址和MAC地址中的至少一项,所述多个目标空壳企业具有相同的所述预设信息;
第五确定模块,将所述多个人员中与所述多个目标空壳企业相关的注册人员,确定为团伙注册人员。
第六确定模块,将所述地区确定为空壳企业注册的高风险地区。
可选的,还可以采用专家经验(专家规则***)进行兜底判断,做到查漏补缺。具体的,如图10所示,本说明书的一个实施例提供了一种空壳企业识别装置800,在一种软件实施方式中,装置800除了包括第一获取模块803、特征提取模块804、第一输入模块805、第二输入模块806和第一确定模块807,还可以包括判断模块808和第二确定模块809。
判断模块808、确定所述待识别企业是否命中预设规则;若命中,则触发第二确定模块809,否则触发第一获取模块803。
其中,预设规则即根据专家经验设定的判定规则。
第二确定模块809,基于所述预设规则确定所述待识别企业的空壳识别结果。
举例来说,预设规则可以包括下述至少一项:
1)对于第一属性的企业,虽然同样会有风险,仍予以通过。比如,对于国企、央企、国资控股、行业龙头企业、军工行业、银行、白名单中的企业,可以直接认定为不属于空壳企业。其中,白名单企业可由客户或者运营人员配置。
2)对于第二属性的企业,直接认定为是空壳企业。比如,被制裁的企业、税收违法的企业、严重违法企业等。
需要说明的是,空壳企业识别装置1000能够实现图5提供的一种空壳企业识别方法,并能取得相同的技术效果,详细内容可参考上文对方法实施例部分的描述,不再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (17)

1.一种空壳企业识别方法,包括:
获取待识别企业的多维原始数据;
从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征;
将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的;
将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的;
基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
2.根据权利要求1所述的方法,在所述将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分之前,所述方法还包括:
基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签,训练所述评分卡模型。
3.根据权利要求2所述的方法,所述基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签,构建所述评分卡模型,包括:
获取所述样本企业的所述多维原始数据;
对所述样本企业的所述多维原始数据进行预处理,得到所述样本企业的特征集;
对所述特征集进行分箱,得到针对多个特征的分箱结果;
确定所述多个特征的预测能力,并基于所述多个特征的预测能力,对所述多个特征进行筛选,得到所述样本企业的所述多个第一特征;
基于所述样本企业的所述多个第一特征下的分箱和分箱的WOE值,构建逻辑回归模型;
基于所述样本企业的所述多个第一特征和空壳企业标签,对所述逻辑回归模型进行训练;
将训练好的所述逻辑回归模型进行分值转换,并设置基准分和PDO值,得到所述评分卡模型,其中,所述PDO值表示好坏比率翻倍的时候的分数变动值。
4.根据权利要求3所述的方法,所述预处理包括下述至少一项:
缺失的数值填充;
对于缺失的非数值特征,填入代表空值的预设字符串;
对于可拆分的字符串进行拆分;
将文字类型的特征对应到数值编码或向量编码;
将具有关联关系的特征进行关联,得到关联特征。
5.根据权利要求1-4任一项所述的方法,所述多维原始数据包括下述至少一项:
工商企业照面信息;
企业处罚信息;
企业裁判文书信息;
企业品牌信息;
企业产品信息;
企业知识产权信息;
企业的债券评级信息;
企业的海关注册信息;
企业的自证经营信息。
6.根据权利要求1-4所述的方法,在所述获取待识别企业的多维原始数据前,所述方法还包括:
确定所述待识别企业是否命中预设规则;
若命中,则基于所述预设规则确定所述待识别企业的空壳识别结果;
若未命中,再执行所述获取待识别企业的多维原始数据的步骤。
7.根据权利要求1-4任一项所述的方法,所述基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果,包括:
基于所述评分和预设对应关系确定待识别企业的目标等级,其中,所述预设对应关系包括多个分数范围与多个等级之间的对应关系,所述多个等级包括所述目标等级;
基于所述目标等级和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
8.根据权利要求7所述的方法,所述多个等级分别具有相应的风险说明,所述方法还包括:
输出与所述目标等级对应的风险说明。
9.根据权利要求7所述的方法,还包括:
若基于所述目标等级得到的所述待识别企业的空壳识别结果,与基于所述至少一个识别结果不一致,则基于投票原则确定所述待识别企业的空壳识别结果。
10.根据权利要求7所述的方法,还包括:
在所述待识别企业的空壳识别结果与所述目标等级相匹配,且所述待识别企业的空壳识别结果为空壳企业的情况下,确定所述多待识别企业的所述多个第一特征中的目标特征,其中,所述目标特征在所述评分卡模型中获得的评分低于预设评分;
确定所述目标特征的特征类型;
基于所述目标特征的特征类型,输出所述待识别企业属于空壳企业的原因。
11.根据权利要求10所述的方法,所述特征类型包括下述至少一种:
企业基本信息类;
企业地址类;
企业经营异常类;
企业工商信息变更类;
企业正向运行类。
12.根据权利要求1-4、8-11中任一项所述的方法,还包括:
确定预设时长内在同一地区注册的若干空壳企业的多个人员;
基于所述若干空壳企业的预设信息,确定所述若干空壳企业中的多个目标空壳企业,其中,所述预设信息包括IP地址和MAC地址中的至少一项,所述多个目标空壳企业具有相同的所述预设信息;
将所述多个人员中与所述多个目标空壳企业相关的注册人员,确定为团伙注册人员。
13.根据权利要求12所述的方法,还包括:
将所述地区确定为空壳企业注册的高风险地区。
14.根据权利要求1-4、8-1以及13中任一项所述的方法,
所述至少一个分类模型包括树模型和神经网络模型中的至少一项,其中,所述树模型包括XGBOOST、随机森林和LIGHTGBM中的至少一项。
15.一种空壳企业识别装置,包括:
第一获取模块,获取待识别企业的多维原始数据;
特征提取模块,从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征;
第一输入模块,将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的;
第二输入模块,将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的;
第一确定模块,基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
16.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待识别企业的多维原始数据;
从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征;
将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的;
将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的;
基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
17.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取待识别企业的多维原始数据;
从所述多维原始数据中提取所述待识别企业的多个第一特征和多个第二特征;
将所述待识别企业的多个第一特征输入评分卡模型,得到所述待识别企业的评分,其中,所述评分卡模型是基于样本企业的所述多维原始数据、所述多个第一特征以及空壳企业标签构建的;
将所述待识别企业的多个第二特征分别输入至少一个分类模型,得到所述待识别企业是否为空壳企业的至少一个识别结果,其中,所述至少一个分类模型是基于样本企业的所述多个第二特征和空壳企业标签训练得到的;
基于所述评分和所述至少一个识别结果,得到所述待识别企业的空壳识别结果。
CN202211623210.7A 2022-12-16 2022-12-16 一种空壳企业识别方法、装置和设备 Pending CN116342141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211623210.7A CN116342141A (zh) 2022-12-16 2022-12-16 一种空壳企业识别方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211623210.7A CN116342141A (zh) 2022-12-16 2022-12-16 一种空壳企业识别方法、装置和设备

Publications (1)

Publication Number Publication Date
CN116342141A true CN116342141A (zh) 2023-06-27

Family

ID=86877995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211623210.7A Pending CN116342141A (zh) 2022-12-16 2022-12-16 一种空壳企业识别方法、装置和设备

Country Status (1)

Country Link
CN (1) CN116342141A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681358A (zh) * 2023-08-04 2023-09-01 深圳中科闻歌科技有限公司 一种基于XGBoost模型的新注册异常企业检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681358A (zh) * 2023-08-04 2023-09-01 深圳中科闻歌科技有限公司 一种基于XGBoost模型的新注册异常企业检测方法

Similar Documents

Publication Publication Date Title
EP3985578A1 (en) Method and system for automatically training machine learning model
US11818163B2 (en) Automatic machine learning vulnerability identification and retraining
CN110188198B (zh) 一种基于知识图谱的反欺诈方法及装置
Finlay Predictive analytics, data mining and big data: Myths, misconceptions and methods
CN110378786B (zh) 模型训练方法、违约传导风险识别方法、装置及存储介质
CN112507936A (zh) 图像信息审核方法、装置、电子设备及可读存储介质
WO2020177478A1 (zh) 一种基于信用的资质信息审核方法、装置及设备
CN110782158B (zh) 对象评估方法及装置
CN112712429A (zh) 汇款业务审核方法、装置、计算机设备和存储介质
CN112734161A (zh) 精准识别空壳企业的方法、设备和存储介质
CN113011646A (zh) 一种数据处理方法、设备以及可读存储介质
CN111476653A (zh) 一种风险信息识别、确定、模型训练方法及装置
Wu et al. Application analysis of credit scoring of financial institutions based on machine learning model
CN116342141A (zh) 一种空壳企业识别方法、装置和设备
CN116563006A (zh) 业务风险预警方法、设备、存储介质及装置
CN113112323B (zh) 基于数据分析的异常订单识别方法、装置、设备及介质
CN116881687B (zh) 一种基于特征提取的电网敏感数据识别方法及装置
CN115713399A (zh) 一种结合第三方数据源的用户信用评估***
CN115601034A (zh) 一种面向去中心化金融的攻击检测方法
CN112115258A (zh) 一种用户的信用评价方法、装置、服务器及存储介质
CN115795289B (zh) 特征识别方法、装置、电子设备及存储介质
CN112258315B (zh) 基于身份标签的车贷贷前数据检验方法及装置
CN117764710B (zh) 一种住房金融风险行为的监控方法
CN113065739B (zh) 被执行人的履行能力评估方法、装置及电子设备
CN112581042B (zh) 履行能力评估***、方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination