CN109523153A

CN109523153A - 非法集资企业的获取方法、装置、计算机设备和存储介质

Info

Publication number: CN109523153A
Application number: CN201811339775.6A
Authority: CN
Inventors: 陈晨; 邱子詹; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2019-03-26

Abstract

本申请涉及一种非法集资企业的获取方法、装置、计算机设备和存储介质。所述方法包括：获取待识别企业的财务信息数据、新闻语料数据以及企业信息数据，并根据这些信息数据生成待识别企业的企业画像，计算企业画像与预先构建的风险企业画像间的相似度，得到非法集资相似度；根据企业画像以及风险企业画像构建企业关联关系网络，并利用企业关联关系网络计算企业画像与风险企业画像间的风险企业关联值；根据舆情风险指标值、财务风险指标值、非法集资相似度以及风险企业关联值计算待识别企业的非法集资风险值，当非法集资风险值大于预设警戒阈值，则将待识别企业确定为非法集资风险企业。本方法基于大数据分析技术提高非法集资的企业识别的可靠性。

Description

非法集资企业的获取方法、装置、计算机设备和存储介质

技术领域

本申请涉及大数据分析技术领域，特别是涉及一种非法集资企业的获取方法、装置、计算机设备和存储介质。

背景技术

非法集资是指企业未通过批准以各种债券凭证的方式向社会公众筹集资金；对于非法集资的企业的识别，主要基于从业人员根据工作经验从该企业的财务报表中判断出财务异常，从而判断该企业是否有非法集资的嫌疑；在对企业是否在进行非法集资的判断过程中，往往依赖历史经验对大量的财务报表进行数字逻辑分析以及统计分析，对于非法集资企业的识别可靠性差。

发明内容

基于此，有必要针对上述非法集资企业的识别可靠性差的技术问题，提供一种非法集资企业的获取方法、装置、计算机设备和存储介质。

一种非法集资企业的获取方法，所述方法包括：

获取待识别企业的财务信息数据、新闻语料数据以及企业信息数据，并分别计算所述待识别企业的财务风险指标值以及舆情风险指标值；

根据所述财务信息数据、所述新闻语料数据以及所述企业基本信息生成待识别企业的企业画像，计算所述企业画像与预先构建的风险企业画像间的相似度，得到非法集资相似度；

根据所述企业画像以及所述风险企业画像构建企业关联关系网络，并利用所述企业关联关系网络计算所述企业画像与所述风险企业画像间的风险企业关联值；

根据所述舆情风险指标值、所述财务风险指标值、所述非法集资相似度以及所述风险企业关联值，计算待识别企业的非法集资风险值，当所述非法集资风险值大于预设警戒阈值，则将所述待识别企业确定为非法集资风险企业。

在其中一个实施例中，所述根据所述财务信息数据、所述新闻语料数据以及所述企业基本信息生成待识别企业的企业画像的步骤，包括：

构建所述待识别企业对应的企业标签；

按照预设格式分别将所述财务信息数据、所述新闻语料数据以及所述企业信息数据转换为结构化的目标财务数据、目标舆情数据以及目标企业信息数据；

分别根据所述目标财务数据、所述目标舆情数据以及所述目标企业数据生成所述企业标签对应的财务信息类标签、舆论信息类标签以及企业信息类标签，得到所述待识别企业的企业画像。

在其中一个实施例中，所述企业信息类标签包括企业人员标签以及业务伙伴标签；

所述根据所述企业画像以及所述风险企业画像构建企业关联关系网络的步骤，包括以下步骤：

根据目标企业画像构建实体节点，并根据企业人员标签以及业务伙伴标签构建属性节点，其中所述目标企业画像包括所述待识别企业的企业画像以及所述风险企业画像；

根据所述目标企业画像以及所述目标企业画像对应的企业人员标签和业务伙伴标签，获取各实体节点间的关联关系以及各所述实体节点与各所述属性节点的关联关系；

以各所述实体节点间的关联关系以及各所述实体节点与所述属性节点间的关联关系，建立所述目标企业画像间的关联关系网络。

在其中一个实施例中，所述计算所述企业画像与预先构建的风险企业画像间的相似度，得到非法集资相似度的步骤，包括：

分别计算所述企业画像与所述风险企业画像间财务信息类标签的杰卡德系数、所述舆论信息类标签的杰卡德系数以及所述企业信息类标签的杰卡德系数；

根据所述杰卡德系数确定所述企业画像与所述风险企业画像的非法集资相似度。

在其中一个实施例中，计算所述待识别企业的财务风险指标值的步骤，包括：

获取所述风险企业画像的第一财务信息数据；

利用聚类算法将所述第一财务信息数据分别划分到数量为预设数目的财务聚类中；

获取各所述财务聚类的聚类中心，并确定各所述财务聚类中心对应的财务风险指标区间；

计算所述待识别企业的财务信息数据到各所述聚类中心的距离值，将距离值最小的财务聚类确定为所述财务信息数据所属的目标财务聚类；

根据所述目标财务聚类的财务风险指标区间以及所述财务信息数据与所述目标财务聚类的聚类中心的距离值，在财务风险指标区间中确定财务风险指标值。

在其中一个实施例中，所述计算所述待识别企业的舆情风险指标值的步骤，包括：

对所述待识别企业的新闻语料数据进行中文分词，提取所述新闻语料数据中的关键词；

将所述关键词输入至预先构建的朴素贝叶斯模型中，利用所述朴素贝叶斯模型计算在所述关键词出现的条件下所述待识别企业是非法集资企业的概率；

根据所述概率值确定所述待识别企业的舆情风险指标值。

在其中一个实施例中，所述朴素贝叶斯模型的构建步骤，包括：

获取新闻语料训练样本集，所述新闻语料训练样本集包括非法集资企业的新闻语料样本以及非非法集资企业的新闻语料样本；

计算各所述新闻语料训练样本为不同企业类型的新闻语料样本时对应的先验概率；

对各所述新闻语料训练样本进行预处理得到新闻语料样本的特征单词，生成特征单词矩阵；

根据所述特征单词矩阵计算新闻语料训练样本为不同企业类型的新闻语料样本时各所述特征单词的条件概率；

根据所述先验概率以及所述条件概率构建朴素贝叶斯模型。

一种非法集资企业的获取装置，所述装置包括：

数据信息获取模块，用于获取待识别企业的财务信息数据、新闻语料数据以及企业信息数据，并分别计算所述待识别企业的财务风险指标值以及舆情风险指标值；

相似度获取模块，用于根据所述财务信息数据、所述新闻语料数据以及所述企业基本信息生成待识别企业的企业画像，计算所述企业画像与预先构建的风险企业画像间的相似度，得到非法集资相似度；

风险企业关联值获取模块，用于根据所述企业画像以及所述风险企业画像构建企业关联关系网络，并利用所述企业关联关系网络计算所述企业画像与所述风险企业画像间的风险企业关联值；

非法集资风险企业获取模块，用于根据所述舆情风险指标值、所述财务风险指标值、所述非法集资相似度以及所述风险企业关联值，计算待识别企业的非法集资风险值，当所述非法集资风险值大于预设警戒阈值，则将所述待识别企业确定为非法集资风险企业。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述非法集资企业的获取方法、装置、计算机设备和存储介质，根据待识别企业的财务信息数据、新闻语料数据以及企业信息数据构建企业画像，并通过对企业画像与非法集资案例中的风险企业画像的相似度以及关联值进行分析，挖掘出企业画像与风险企业画像间的隐藏关系，最终从财务风险、新闻舆情风险以及与非法集资案例中的企业的关联关系这三个维度入手，对待识别企业进行非法集资的风险评估，增加非法集资案例的历史信息数据进行非法集资风险识别，不再只从财务层面的数字逻辑进行非法集资的风险评估，优化了非法集资企业的识别依据，提高非法集资的企业识别的可靠性。

附图说明

图1为一个实施例中非法集资企业的获取方法的应用场景图；

图2为一个实施例中非法集资企业的获取方法的流程示意图；

图3为一个实施例中企业关联关系网络的构建步骤的流程示意图；

图4为一个实施例中非法集资企业的获取装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的非法集资企业的获取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102从网上爬取待识别企业的财务信息数据、新闻语料数据以及企业信息数据，发送至服务器104中，服务器104根据这些信息数据建立起待识别企业的企业画像，以及待识别企业的企业画像与非法集资案例中风险企业画像的知识图谱，服务器104计算待识别企业的企业画像与风险企业画像的相似度，并通过知识图谱计算企业画像与风险企业画像的关联度，利用相似度以及关联度加入至待识别企业的非法集资的风险评估，提高非法集资的企业识别的可靠性。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种非法集资企业的获取方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S210：获取待识别企业的财务信息数据、新闻语料数据以及企业信息数据，并分别计算待识别企业的财务风险指标值以及舆情风险指标值。

本步骤中，财务信息数据、新闻语料数据以及企业信息数据可以是服务器利用爬虫软件网络上爬取获得；其中，财务信息数据包括企业相关的财务数据以及企业公开的财报数据，新闻语料数据可以包括企业的财经新闻文本、经营动态新闻文本以及企业所处行业的动态新闻等文本；企业信息数据包括企业的人员信息、征信信息以及企业业务伙伴信息等，该企业人员信息主要包括企业的注册人以及股东人员等企业人员信息，该征信信息主要包括企业的信用等级、经营状况以及纳税状况等数据，该企业业务伙伴信息主要包括企业的合作企业以及上下游相应的供应商以及购买方等。该待识别企业的财务风险指标值以及舆情风险指标值可以是服务器利用现有的分析模型计算得到的，也可以是在获取到待识别企业的财务信息数据以及新闻语料数据后，由服务器根据财务信息数据计算得到的财务风险指标值以及根据新闻语料数据计算得到的舆情风险指标值。

步骤S220：根据财务信息数据、新闻语料数据以及企业基本信息生成待识别企业的企业画像，计算企业画像与预先构建的风险企业画像间的相似度，得到非法集资相似度。

本步骤中，风险企业画像是服务器预先根据非法集资案例中的非法集资企业的各类信息数据，例如财务信息数据、新闻语料数据以及企业基本信息，构建的画像；

构建企业画像的过程是给企业添加标签的过程，不同的企业的信息数据不同，所以企业画像的标签也是不同的；具体的，服务器在获得待识别企业的财务信息数据、新闻语料数据以及企业基本信息以后，对财务信息数据、新闻语料数据以及企业基本信息进行自然语言处理分析生成对应的标签数据，从而实现根据标签数据生成待识别企业的标签化画像。在获得待识别企业的企业画像以及风险企业画像后，可以根据企业画像以及风险企业画像间标签的相似度计算两者间的相似度，从而获取待识别企业与非法集资企业间的相似度。

步骤S230：根据企业画像以及风险企业画像构建企业关联关系网络，并利用企业关联关系网络计算企业画像与风险企业画像间的风险企业关联值。

本步骤中，服务器在获得待识别企业的企业画像以及风险企业画像后，可以对企业供应关系、投资关系、人员关系等基本信息进行梳理获取待识别企业与非法集资企业间的隐藏的关联关系，并根据该关联关系通过待识别企业的企业画像以及风险企业画像构建企业与企业间的关联关系网络，后续服务器可以通过风险传导算法利用关联关系网络计算待识别企业与非法集资企业的关联风险值。

步骤S240：根据舆情风险指标值、财务风险指标值、非法集资相似度以及风险企业关联值，计算待识别企业的非法集资风险值，当非法集资风险值大于预设警戒阈值，则将待识别企业确定为非法集资风险企业。

本步骤中，警戒阈值可以根据对当前市场上所有非法集资案例的风险值而设置的；非法集资风险值可以是舆情风险指标值、财务风险指标值、非法集资相似度以及风险企业关联值进行相加获得的总值，也可以是舆情风险指标值、财务风险指标值、非法集资相似度以及风险企业关联值的平均值；具体的，服务器依据舆情风险指标值、财务风险指标值、非法集资相似度以及风险企业关联值求取得到非法集资风险值后，将非法集资风险值与警戒阈值进行对比，当非法集资风险值大于警戒阈值，则待识别企业为非法集资风险企业。

上述非法集资企业的获取方法中，根据待识别企业的财务信息数据、新闻语料数据以及企业信息数据构建企业画像，并通过对企业画像与非法集资案例中的风险企业画像的相似度以及关联值进行分析，挖掘出企业画像与风险企业画像间的隐藏关系，最终从财务风险、新闻舆情风险以及与非法集资案例中的企业的关联关系这三个维度入手，对待识别企业进行非法集资的风险评估，增加非法集资案例的历史信息数据进行非法集资风险识别，不再只从财务层面的数字逻辑进行非法集资的风险评估，优化了非法集资企业的识别依据，提高非法集资的企业识别的可靠性

在一个实施例中，根据财务信息数据、新闻语料数据以及企业基本信息生成待识别企业的企业画像的步骤，包括：构建待识别企业对应的企业标签；按照预设格式分别将财务信息数据、新闻语料数据以及企业信息数据转换为结构化的目标财务数据、目标舆情数据以及目标企业信息数据；分别根据目标财务数据、目标舆情数据以及目标企业数据生成企业标签对应的财务信息类标签、舆论信息类标签以及企业信息类标签，得到待识别企业的企业画像。

本实施例为构建企业画像的过程，服务器构建企业画像的过程中，可以根据待识别企业的企业名称或企业税号等企业的唯一标识生成企业标签；然后将财务信息数据转换为结构化的目标财务数据，从而根据目标财务数据生成与企业标签对应的财务信息类标签，同样的，与企业标签对应的舆论信息类标签是服务器将新闻语料数据转化为结构化的目标舆情数据，从而根据目标舆情数据生成的；与企业标签对应的企业信息类标签是服务器将企业信息数据转化为结构化的目标企业信息数据，从而根据目标企业信息数据生成的；通过将财务信息数据、新闻语料数据以及企业信息数据分别生成待识别企业标签具有对应的财务信息类标签、舆论信息类标签以及企业信息类标签，从而构建起与不同企业一一对应的企业画像，便于后续待识别企业与非法集资企业的对比分析，发掘出潜在非法集资风险的企业，提高非法集资企业的获取效率。

具体的，按照预设格式分别将财务信息数据、新闻语料数据以及企业信息数据转换为结构化的目标财务数据、目标舆情数据以及目标企业信息数据具体可以包括：建立企业画像数据表，利用自然语言处理技术从各类信息数据中提取实体对象以及实体对象对应的特征值或者特征属性等，通过将实体对象或实体对象的特征值保存到企业画像数据表中，生成结构化数据。以企业信息数据为例，对企业基本信息中企业人员信息进行人名实体识别，将得到的人名实体保存到企业画像数据表中，后续将该人名实体生成对应的标签。

在一个实施例中，如图3所示，提供了一种企业关联关系网络的构建步骤，其中，企业信息类标签包括企业人员标签以及业务伙伴标签；根据企业画像以及风险企业画像构建企业关联关系网络的步骤，包括以下步骤：

步骤S310：根据目标企业画像的企业标签构建实体节点，并根据企业人员标签以及业务伙伴标签构建属性节点，其中目标企业画像包括待识别企业的企业画像以及风险企业画像。

本步骤中，服务器以企业画像以及风险企业画像的企业标签作为实体节点，以企业画像以及风险企业画像的企业人员标签以及业务伙伴标签为属性节点。

步骤S320：根据目标企业画像以及目标企业画像对应的企业人员标签和业务伙伴标签，获取各实体节点间的关联关系以及各实体节点与各属性节点的关联关系。

本步骤中，服务器根据企业画像及其对应的企业人员标签以及业务伙伴标签，获取企业画像对应的企业标签以及企业人员标签以及业务伙伴标签的第一关联关系，从而确定各个实体节点间的关联关系、各个实体节点与各属性节点间的关联关系。

步骤S330：以各实体节点间的关联关系以及各实体节点与属性节点间的关联关系，建立目标企业画像间的关联关系网络。

本步骤中，服务器得到确定各个实体节点间的关联关系以及各个实体节点与各属性节点间的关联关系后，以这些关联关系作为连接线，将实体节点与属性节点进行连接，构建待识别企业的企业画像与风险企业画像的关联关系网络，形成一个知识图谱。

本实施例为构建待识别企业的企业画像与风险企业画像的关联关系网络的过程，通过知识图谱技术构建企业画像与风险企业画像的关联关系网络，实现对待识别企业与非法集资案例中的企业间的企业供应关系、投资关系、高管人员关系等基本信息的梳理，从而可以从关联关系网络中分析获得待识别企业与非法集资企业的存在的关联关系，提高非法集资的企业识别的可靠性。

在一个实施例中，服务器可以从待识别企业的企业画像与风险企业画像的关联关系网络中获取待识别企业画像到不同风险企业画像的关联路径，并利用风险传导算法根据关联路径计算待识别企业与非法集资案例中的企业的风险企业关联值。

在一个实施例中，计算企业画像与预先构建的风险企业画像间的相似度，得到非法集资相似度的步骤，包括：分别计算企业画像与风险企业画像间财务信息类标签的杰卡德系数、舆论信息类标签的杰卡德系数以及企业信息类标签的杰卡德系数；根据杰卡德系数确定企业画像与风险企业画像的非法集资相似度。

本实施例是待识别企业与非法集资企业间企业画像相似度的计算，杰卡德系数(Jaccard similarity coefficient)用于比较两个样本集之间的相似性，杰卡德系数值越大，两个样本相似度越高。服务器通过计算待识别企业的企业画像与风险企业画像间财务信息类标签、舆论信息类标签以及企业信息类标签的杰卡德系数，将这三个杰卡德系数的平均值确定为待识别企业与非法集资企业间企业画像相似度。通过加入待识别企业与非法集资企业的相似度的评估，对已发生的非法集资的公司案例进行关注，挖掘与其存在隐藏关联关系，大大提高提高非法集资的企业识别的可靠性差。

在一个实施例中，计算待识别企业的财务风险指标值的步骤，包括：获取风险企业画像的第一财务信息数据；利用聚类算法将第一财务信息数据分别划分到数量为预设数目的财务聚类中；获取各财务聚类的聚类中心，并确定各财务聚类中心对应的财务风险指标区间；计算待识别企业的财务信息数据到各聚类中心的距离值，将距离值最小的财务聚类确定为财务信息数据所属的目标财务聚类；根据目标财务聚类的财务风险指标区间以及财务信息数据与目标财务聚类的聚类中心的距离值，在财务风险指标区间中确定财务风险指标值。

本实施例是获取待识别企业的财务风险指标值的过程；服务器通过获取市面上样本企业的财务信息数据；利用聚类算法将这些样本企业财务样本数据分别划分到数量为N类财务聚类中，每类财务聚类对应一个财务风险指标区间，N值可以取值为3至10；在获得待识别企业的财务信息数据后，根据待识别企业的财务信息数据与各个财务聚类的聚类中心的距离值确定待识别企业的财务信息数据所属的财务聚类的类型，从而确定待识别企业的财务风险指标区间，并在财务风险指标区间中确定财务风险指标值。

在一个实施例中，计算待识别企业的舆情风险指标值的步骤，包括：对待识别企业的新闻语料数据进行中文分词，提取新闻语料数据中的关键词；将关键词输入至预先构建的朴素贝叶斯模型中，利用朴素贝叶斯模型计算在关键词出现的条件下待识别企业是非法集资企业的概率；根据概率值确定待识别企业的舆情风险指标值。

本实施例中，服务器预先构建朴素贝叶斯模型，通过对待识别企业的新闻语料数据进行分词提取出新闻语料数据中的关键词，并将关键词输入值朴素贝叶斯模型中计算待识别企业是非法集资企业的概率；本实施例利用朴素贝叶斯算法提高待识别企业的舆情风险指标值的准确性，为后续识别该待识别企业是否为非法集资企业提供准确依据。

在一个实施例中，朴素贝叶斯模型的构建步骤，包括：获取新闻语料训练样本集，新闻语料训练样本集包括非法集资企业的新闻语料样本以及非非法集资企业的新闻语料样本；计算各新闻语料训练样本为不同企业类型的新闻语料样本时对应的先验概率；对各新闻语料训练样本进行预处理得到新闻语料样本的特征单词，生成特征单词矩阵；根据特征单词矩阵计算新闻语料训练样本为不同企业类型的新闻语料样本时各特征单词的条件概率；根据先验概率以及条件概率构建朴素贝叶斯模型。

本实施例中，新闻语料训练样本集包括两种类型的新闻语料样本，一种是非法集资企业的新闻语料样本，另一种是非非法集资企业的新闻语料样本；服务器先计算在新闻语料训练样本集中，新闻语料样本是非法集资企业的新闻语料样本的先验概率以及是非非法集资企业的新闻语料样本的先验概率，然后计算各个特征单词在不同类型的新闻语料样本中出现的条件概率，从而根据先验概率以及条件概率构建朴素贝叶斯模型。其中，对各新闻语料训练样本进行的预处理包括：对各个新闻语料样本进行结巴分词，从而获取新闻语料样本的所有词汇，将所以词汇中的新闻常用词汇去除提取出特征单词，并统计这些特征单词中每个特征单词出现的次数，生成词袋模型的特征单词矩阵。通过构建朴素贝叶斯模型，可以快速、准确的根据新闻语料数据识别出待识别企业是非法集资企业的概率值，提高非法集资企业的识别效率以及可靠性。

在一个实施例中，将在非法集资企业的新闻语料样本中出现的条件概率大于预设阈值的特征单词划分为强特征单词；利用Word2Vec模型，对强特征单词进行拓展，获得扩大的非法集资的特征单词库，并根据特征单词库中的特征单词对词袋模型中的特征单词矩阵进行调整，以提高朴素贝叶斯模型的准确性，提高对非法集资的企业的识别可靠性。

应该理解的是，虽然图2至图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种非法集资企业的获取装置，包括：数据信息获取模块410、相似度获取模块420、风险企业关联值获取模块430和非法集资风险企业获取模块440，其中：

数据信息获取模块410，用于获取待识别企业的财务信息数据、新闻语料数据以及企业信息数据，并分别计算待识别企业的财务风险指标值以及舆情风险指标值；

相似度获取模块420，用于根据财务信息数据、新闻语料数据以及企业基本信息生成待识别企业的企业画像，计算企业画像与预先构建的风险企业画像间的相似度，得到非法集资相似度；

风险企业关联值获取模块430，用于根据企业画像以及风险企业画像构建企业关联关系网络，并利用企业关联关系网络计算企业画像与风险企业画像间的风险企业关联值；

非法集资风险企业获取模块440，用于根据舆情风险指标值、财务风险指标值、非法集资相似度以及风险企业关联值，计算待识别企业的非法集资风险值，当非法集资风险值大于预设警戒阈值，则将待识别企业确定为非法集资风险企业。

在一个实施例中，相似度获取模块420用于构建待识别企业对应的企业标签；按照预设格式分别将财务信息数据、新闻语料数据以及企业信息数据转换为结构化的目标财务数据、目标舆情数据以及目标企业信息数据；分别根据目标财务数据、目标舆情数据以及目标企业数据生成企业标签对应的财务信息类标签、舆论信息类标签以及企业信息类标签，得到待识别企业的企业画像。

在其中一个实施例中，企业信息类标签包括企业人员标签以及业务伙伴标签；风险企业关联值430获取模块用于根据目标企业画像的企业标签构建实体节点，并根据企业人员标签以及业务伙伴标签构建属性节点，其中目标企业画像包括待识别企业的企业画像以及风险企业画像；根据目标企业画像以及目标企业画像对应的企业人员标签和业务伙伴标签，获取各实体节点间的关联关系以及各实体节点与各属性节点的关联关系；以各实体节点间的关联关系以及各实体节点与属性节点间的关联关系，建立目标企业画像间的关联关系网络。

在一个实施例中，相似度获取模块420用于分别计算企业画像与风险企业画像间财务信息类标签的杰卡德系数、舆论信息类标签的杰卡德系数以及企业信息类标签的杰卡德系数；根据杰卡德系数确定企业画像与风险企业画像的非法集资相似度。

在一个实施例中，数据信息获取模块410用于获取风险企业画像的第一财务信息数据；利用聚类算法将第一财务信息数据分别划分到数量为预设数目的财务聚类中；获取各财务聚类的聚类中心，并确定各财务聚类中心对应的财务风险指标区间；计算待识别企业的财务信息数据到各聚类中心的距离值，将距离值最小的财务聚类确定为财务信息数据所属的目标财务聚类；根据目标财务聚类的财务风险指标区间以及财务信息数据与目标财务聚类的聚类中心的距离值，在财务风险指标区间中确定财务风险指标值。

在一个实施例中，数据信息获取模块410用于对待识别企业的新闻语料数据进行中文分词，提取新闻语料数据中的关键词；将关键词输入至预先构建的朴素贝叶斯模型中，利用朴素贝叶斯模型计算在关键词出现的条件下待识别企业是非法集资企业的概率；根据概率值确定待识别企业的舆情风险指标值。

在一个实施例中，数据信息获取模块410用于获取新闻语料训练样本集，新闻语料训练样本集包括非法集资企业的新闻语料样本以及非非法集资企业的新闻语料样本；计算各新闻语料训练样本为不同企业类型的新闻语料样本时对应的先验概率；对各新闻语料训练样本进行预处理得到新闻语料样本的特征单词，生成特征单词矩阵；根据特征单词矩阵计算新闻语料训练样本为不同企业类型的新闻语料样本时各特征单词的条件概率；根据先验概率以及条件概率构建朴素贝叶斯模型。

关于非法集资企业的获取装置的具体限定可以参见上文中对于非法集资企业的获取方法的限定，在此不再赘述。上述非法集资企业的获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储财务信息、新闻语料以及企业信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种非法集资企业的获取方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待识别企业的财务信息数据、新闻语料数据以及企业信息数据，并分别计算待识别企业的财务风险指标值以及舆情风险指标值；

根据财务信息数据、新闻语料数据以及企业基本信息生成待识别企业的企业画像，计算企业画像与预先构建的风险企业画像间的相似度，得到非法集资相似度；

根据企业画像以及风险企业画像构建企业关联关系网络，并利用企业关联关系网络计算企业画像与风险企业画像间的风险企业关联值；

根据舆情风险指标值、财务风险指标值、非法集资相似度以及风险企业关联值，计算待识别企业的非法集资风险值，当非法集资风险值大于预设警戒阈值，则将待识别企业确定为非法集资风险企业。

在一个实施例中，处理器执行计算机程序实现根据财务信息数据、新闻语料数据以及企业基本信息生成待识别企业的企业画像的步骤时，具体实现以下步骤：构建待识别企业对应的企业标签；按照预设格式分别将财务信息数据、新闻语料数据以及企业信息数据转换为结构化的目标财务数据、目标舆情数据以及目标企业信息数据；分别根据目标财务数据、目标舆情数据以及目标企业数据生成企业标签对应的财务信息类标签、舆论信息类标签以及企业信息类标签，得到待识别企业的企业画像。

在一个实施例中，企业信息类标签包括企业人员标签以及业务伙伴标签；处理器执行计算机程序实现根据企业画像以及风险企业画像构建企业关联关系网络的步骤，具体实现以下步骤：根据目标企业画像的企业标签构建实体节点，并根据企业人员标签以及业务伙伴标签构建属性节点，其中目标企业画像包括待识别企业的企业画像以及风险企业画像；根据目标企业画像以及目标企业画像对应的企业人员标签和业务伙伴标签，获取各实体节点间的关联关系以及各实体节点与各属性节点的关联关系；以各实体节点间的关联关系以及各实体节点与属性节点间的关联关系，建立目标企业画像间的关联关系网络。

在一个实施例中，处理器执行计算机程序实现计算企业画像与预先构建的风险企业画像间的相似度，得到非法集资相似度的步骤时，具体实现以下步骤：分别计算企业画像与风险企业画像间财务信息类标签的杰卡德系数、舆论信息类标签的杰卡德系数以及企业信息类标签的杰卡德系数；根据杰卡德系数确定企业画像与风险企业画像的非法集资相似度。

在一个实施例中，处理器执行计算机程序实现计算待识别企业的财务风险指标值的步骤时，具体实现以下步骤：获取风险企业画像的第一财务信息数据；利用聚类算法将第一财务信息数据分别划分到数量为预设数目的财务聚类中；获取各财务聚类的聚类中心，并确定各财务聚类中心对应的财务风险指标区间；计算待识别企业的财务信息数据到各聚类中心的距离值，将距离值最小的财务聚类确定为财务信息数据所属的目标财务聚类；根据目标财务聚类的财务风险指标区间以及财务信息数据与目标财务聚类的聚类中心的距离值，在财务风险指标区间中确定财务风险指标值。

在一个实施例中，处理器执行计算机程序实现计算待识别企业的舆情风险指标值的步骤时，具体实现以下步骤：对待识别企业的新闻语料数据进行中文分词，提取新闻语料数据中的关键词；将关键词输入至预先构建的朴素贝叶斯模型中，利用朴素贝叶斯模型计算在关键词出现的条件下待识别企业是非法集资企业的概率；根据概率值确定待识别企业的舆情风险指标值。

在一个实施例中，处理器执行计算机程序实现朴素贝叶斯模型的构建步骤时，具体实现以下步骤：获取新闻语料训练样本集，新闻语料训练样本集包括非法集资企业的新闻语料样本以及非非法集资企业的新闻语料样本；计算各新闻语料训练样本为不同企业类型的新闻语料样本时对应的先验概率；对各新闻语料训练样本进行预处理得到新闻语料样本的特征单词，生成特征单词矩阵；根据特征单词矩阵计算新闻语料训练样本为不同企业类型的新闻语料样本时各特征单词的条件概率；根据先验概率以及条件概率构建朴素贝叶斯模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行实现根据财务信息数据、新闻语料数据以及企业基本信息生成待识别企业的企业画像的步骤时，具体实现以下步骤：构建待识别企业对应的企业标签；按照预设格式分别将财务信息数据、新闻语料数据以及企业信息数据转换为结构化的目标财务数据、目标舆情数据以及目标企业信息数据；分别根据目标财务数据、目标舆情数据以及目标企业数据生成企业标签对应的财务信息类标签、舆论信息类标签以及企业信息类标签，得到待识别企业的企业画像。

在一个实施例中，企业信息类标签包括企业人员标签以及业务伙伴标签；计算机程序被处理器执行实现根据企业画像以及风险企业画像构建企业关联关系网络的步骤时，具体实现以下步骤：根据目标企业画像的企业标签构建实体节点，并根据企业人员标签以及业务伙伴标签构建属性节点，其中目标企业画像包括待识别企业的企业画像以及风险企业画像；根据目标企业画像以及目标企业画像对应的企业人员标签和业务伙伴标签，获取各实体节点间的关联关系以及各实体节点与各属性节点的关联关系；以各实体节点间的关联关系以及各实体节点与属性节点间的关联关系，建立目标企业画像间的关联关系网络。

在一个实施例中，计算机程序被处理器执行实现计算企业画像与预先构建的风险企业画像间的相似度，得到非法集资相似度的步骤时，具体实现以下步骤：分别计算企业画像与风险企业画像间财务信息类标签的杰卡德系数、舆论信息类标签的杰卡德系数以及企业信息类标签的杰卡德系数；根据杰卡德系数确定企业画像与风险企业画像的非法集资相似度。

在一个实施例中，计算机程序被处理器执行实现计算待识别企业的财务风险指标值的步骤时，具体实现以下步骤：获取风险企业画像的第一财务信息数据；利用聚类算法将第一财务信息数据分别划分到数量为预设数目的财务聚类中；获取各财务聚类的聚类中心，并确定各财务聚类中心对应的财务风险指标区间；计算待识别企业的财务信息数据到各聚类中心的距离值，将距离值最小的财务聚类确定为财务信息数据所属的目标财务聚类；根据目标财务聚类的财务风险指标区间以及财务信息数据与目标财务聚类的聚类中心的距离值，在财务风险指标区间中确定财务风险指标值。

在一个实施例中，计算机程序被处理器执行实现计算待识别企业的舆情风险指标值的步骤时，具体实现以下步骤：对待识别企业的新闻语料数据进行中文分词，提取新闻语料数据中的关键词；将关键词输入至预先构建的朴素贝叶斯模型中，利用朴素贝叶斯模型计算在关键词出现的条件下待识别企业是非法集资企业的概率；根据概率值确定待识别企业的舆情风险指标值。

在一个实施例中，计算机程序被处理器执行时还实现朴素贝叶斯模型的构建步骤时，具体实现以下步骤：获取新闻语料训练样本集，新闻语料训练样本集包括非法集资企业的新闻语料样本以及非非法集资企业的新闻语料样本；计算各新闻语料训练样本为不同企业类型的新闻语料样本时对应的先验概率；对各新闻语料训练样本进行预处理得到新闻语料样本的特征单词，生成特征单词矩阵；根据特征单词矩阵计算新闻语料训练样本为不同企业类型的新闻语料样本时各特征单词的条件概率；根据先验概率以及条件概率构建朴素贝叶斯模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出当干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种非法集资企业的获取方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述财务信息数据、所述新闻语料数据以及所述企业基本信息生成待识别企业的企业画像的步骤，包括：

构建所述待识别企业对应的企业标签；

3.根据权利要求2所述的方法，其特征在于，所述企业信息类标签包括企业人员标签以及业务伙伴标签；

4.根据权利要求2所述的方法，其特征在于，所述计算所述企业画像与预先构建的风险企业画像间的相似度，得到非法集资相似度的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，计算所述待识别企业的财务风险指标值的步骤，包括：

获取所述风险企业画像的第一财务信息数据；

6.根据权利要求1所述的方法，其特征在于，所述计算所述待识别企业的舆情风险指标值的步骤，包括：

根据所述概率值确定所述待识别企业的舆情风险指标值。

7.根据权利要求6所述的方法，其特征在于，所述朴素贝叶斯模型的构建步骤，包括：

根据所述先验概率以及所述条件概率构建朴素贝叶斯模型。

8.一种非法集资企业的获取装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。