CN114611515B

CN114611515B - 一种基于企业舆情信息识别企业实际控制人的方法和***

Info

Publication number: CN114611515B
Application number: CN202210106055.5A
Authority: CN
Inventors: 潘书全; 周云松; 王治平; 陈健; 王培才; 顾亮
Original assignee: Jiangsu United Credit Reference Co ltd
Current assignee: Jiangsu United Credit Reference Co ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2023-12-12
Anticipated expiration: 2042-01-28
Also published as: CN114611515A

Abstract

本发明公开了一种基于企业舆情信息识别企业实际控制人的方法和***，方法包括：通过NLP分词算法训练企业名称分词模型；通过企业全称和分词结果查询满足条件的企业舆情信息；通过NLP实体识别训练人物名称识别模型；通过NLP实体识别训练关系名称识别模型；通过NLP关系抽取训练企业人物名称与关系名称之间的关系识别模型；实际控制人关系词规则库定义；计算实际控制人关系权重；通过规则算法计算企业实际控制人。本发明利用NLP自然语言识别技术从海量的舆情信息中挖掘出企业相关的舆情信息，并且分析出舆情涉及的关联人员和关联关系，分析出舆情信息识别出的疑似实际控制人，识别准确率高。

Description

一种基于企业舆情信息识别企业实际控制人的方法和***

技术领域

本发明属于计算机软件技术领域，涉及数据处理技术，具体涉及一种基于企业舆情信息识别企业实际控制人的方法和***。

背景技术

目前国内的中小微企业的困难可以概括为“两高两难”：成本高、税负高、用工难、融资难。其中融资难的问题尤为显著，中小微企业在日常经营过程中，往往会面临融资问题，而银行等金融机构在为中小微企业提供贷款时，除了需要考虑到小微企业的抵抗风险能力、是否存在抵押品、经营状况等因素外还会考虑到企业的实际控制人员，在中小微企业中企业的实际控制人对企业的经营方向以及发展起着决定性的作用，而许多企业在工商注册的法定代表人往往不是企业的实际控制人，所以如果能够准确的识别出企业的实际控制人，那么金融机构在对于企业的实际控制人进行沟通了解后，会打消金融机构的顾虑，促使金融机构和中小微企业之间达成融资合作关系。

目前国内市场上大多科技公司都是通过采集企业工商信息信息，通过工商中的股权结构关系识别，识别出疑似实际控制人，虽然能够解决一部分的情况但是准确率并不高。主要原因包含如下两点：一是获取到的企业工商信息不够全面，图谱计算能力不足，无法追溯到最上层的股东信息，导致股权占比计算不准确，二是许多中小微企业的实际控制人不在企业的工商关系中体现，无法通过股权关系识别出真实的实际控制人。

发明内容

为解决上述问题，本发明公开了一种基于企业舆情信息识别企业实际控制人的方法和***。

为达到上述目的，本发明的技术方案如下：

一种基于企业舆情信息识别企业实际控制人的方法，包括如下步骤：

S10:通过NLP分词算法训练企业名称分词模型

从企业***息库挑选企业名单，将样本随机分成训练集、验证集两个群体，训练集样本通过NLP开源分词接口进行初始化分词，然后对分词结果进行人工核查修复，通过机器学习算法进行训练，训练完成后，通过验证集进行模型准确度验证；

S20:通过企业全称和分词结果查询满足条件的企业舆情信息

依据S10步骤提供的企业名称分词模型，输入需要查询的企业全称，得到企业名称的分词结果，将分词结果作为查询的关键词组，从舆情库中通过舆情的标题、概要、内容匹配舆情信息中是否存在关键词组中的任何一个或者多个关键词，如果存在，则为满足舆情条件的候选集，进入S30步骤；若不存在，则说明该条舆情信息不满足匹配规则，无法识别企业实际控制人；

S30:通过NLP实体识别训练人物名称识别模型

从舆情库中随机抽取若干条舆情信息，通过人工阅读标记出舆情信息中出现的人物名称，得到标准的样本库，从样本库中随机抽取部分样本作为训练集、其余样本作为验证集，通过机器学习算法对训练集样本进行人物名称识别模型训练，训练完成后，通过验证集进行验证；

S31:通过NLP实体识别训练关系名称识别模型

从舆情库中随机抽取若干条舆情信息，通过人工阅读标记出舆情信息中出现的人员与企业间的关系词，得到标准的关系名称样本库，从样本库中随机抽取部分样本作为训练集、其余样本作为验证集，通过机器学习算法对训练集样本进行关系名称识别模型训练，训练完成后，通过验证集进行验证；

S40:通过NLP关系抽取训练企业人物名称与关系名称之间的关系识别模型

从舆情库中随机抽取若干条舆情信息，通过人工阅读标记出舆情信息中出现的人员与企业间的关系词，并且与人员和企业建立关联关系，得到样本库，从样本库中随机抽取部分样本作为训练集、其余样本作为验证集，通过机器学习算法对训练集样本进行企业名称、企业人员以及人员与企业之间的关系识别模型训练，多轮训练完成后，通过验证集进行验证；

S41:实际控制人关系词规则库定义

在通过NLP对非结构化的舆情信息进行识别后，依据专家规则定义一套实际控制人强匹配认定关系词库，所述关系词库中包括关于实际控制人关系的关键词，所述关键词包括两种类型，一种是强规则认定关键词，一种是弱规则认定关键词；

S50:计算实际控制人关系权重

通过S40识别出的企业与人员之间的关系词集合与S41步骤定义的实际控制人的关系词库，进行关系词名称匹配判断；如果S40步骤中识别出来的企业关键词命中定义的实际控制人关系词库中的任何一条强规则关键词，那么对应的企业与人员之间的关系系数增加强关系数值，如果命中一条弱规则，那么对应的企业与人员之间的关系系数增加弱关系数值；

S60:通过规则算法计算企业实际控制人

通过S50步骤对所有的企业关系完成系数计算后，统计查询的目标企业与所有存在关系的人员之间的实际控制人关系系数，取关系系数最高并且关系系数需要大于1的关系人员作为实际控制人，如果关系系数不足1，那么则表示该企业无舆情认定的实际控制人关系。

进一步的，所述步骤S10中基于以下规则挑选企业名单：随机抽选企业名称长度符合要求的企业，每个长度企业抽取若干家。

进一步的，所述步骤S31和步骤S40沿用S30步骤中的舆情信息。

进一步的，所述步骤S41中部分关键词从S40步骤中识别出的关键词库中进行挑选或者依据专家业务经验进行定义。

进一步的，所述步骤S50中同一关系词命中多次时，只增加一次关系系数。

进一步的，所述步骤S60中当存在多个关系系数超过1情况时，则取最高值关系对应的企业。

一种基于企业舆情信息识别企业实际控制人的***，包括：企业名称分词模型训练模块、企业舆情信息查询模块、人物名称识别模型训练模块、关系名称识别模型训练模块、关系识别模型训练模块、实际控制人关系词规则库定义模块、实际控制人关系权重计算模块、企业实际控制人计算模块；

所述企业名称分词模型训练模块将训练集样本通过NLP开源分词接口进行初始化分词，对分词结果进行人工核查修复，通过机器学习算法进行训练，训练完成后，通过验证集进行模型准确度验证；

所述企业舆情信息查询模块基于企业名称分词模型训练模块得到的模型，根据企业全称得到分词结果，根据分词结果在舆情库中进行查询；

所述人物名称识别模型训练模块基于人物名称样本库选取的训练集和验证集，通过机器学习算法训练人物名称识别模型；

所述关系名称识别模型训练模块基于人员与企业间关系名称样本库选取的训练集和验证集，通过机器学习算法训练关系名称识别模型；

所述关系识别模型训练模块基于人物名称与关系名称之间的关系样本库，选取的训练集和验证集，通过机器学习算法训练关系识别模型；

所述实际控制人关系词规则库定义模块定义一套实际控制人强匹配认定关系词库，实际控制人关系关键词，关键词包括强规则认定关键词和弱规则认定关键词；

所述实际控制人关系权重计算模块用于基于关系识别模型识别出的企业与人员之间的关系词集合与实际控制人关系词规则库定义模块定义的实际控制人的关系词库，进行关系匹配判断，得到企业与人员之间的关系系数；

所述企业实际控制人计算模块统计查询的目标企业与所有存在关系的人员之间的实际控制人关系系数，取关系系数最高并且关系系数需要大于1的关系人员作为实际控制人。

本发明的有益效果为：

本发明利用NLP自然语言识别技术从海量的舆情信息中挖掘出企业相关的舆情信息，并且分析出舆情涉及的关联人员和关联关系，分析出舆情信息识别出的疑似实际控制人，识别准确率高。

附图说明

图1为本发明提供的基于企业舆情信息识别企业实际控制人的方法流程图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明提供了一种基于企业舆情信息识别企业实际控制人的方法，其流程如图1所示，包括如下步骤：

S10:通过NLP分词算法训练企业名称分词模型

从企业***息库挑选企业名单(选择规则：随机抽选企业名称长度从10位到20位的企业，每个长度企业抽取1000家，共计11000家企业)，将样本随机分成训练集(7000)、验证集(4000)两个群体，训练集样本通过NLP开源分词接口进行初始化分词，然后对分词结果进行人工核查修复，通过机器学习算法进行训练，训练完成后，通过验证集进行模型准确度验证，分词结果的准确率达到80％以上。

S20:通过企业全称和分词结果查询满足条件的企业舆情信息

依据S10步骤提供的企业名称分词模型，输入需要查询的企业全称，得到企业名称的分词结果，将分词结果作为查询的关键词组，从舆情库中通过舆情的标题、概要、内容中匹配舆情信息中是否存在关键词组中的任何一个或者多个关键词，如果存在，则为满足舆情条件的候选集，不存在，该条舆情信息不满足匹配规则。

统计需要查询的企业的所有的舆情信息，如果存在舆情信息，那么则进入S30步骤，如果该企业不存在舆情信息，那么则表示舆情信息无法识别企业实际控制人。

S30:通过NLP实体识别训练人物名称识别模型

从舆情库中随机抽取10000条舆情信息，通过人工阅读标记出舆情信息中出现的人物名称，得到标准的样本库，从样本库中随机抽取60％作为训练集、40％作为验证集，通过Lattice LSTM等机器学习算法对60％的训练集样本进行人物名称识别模型训练，训练完成后，通过40％的验证集进行验证，人物名称识别准确度达到90％。

S31:通过NLP实体识别训练关系名称识别模型

从舆情库中随机抽取10000条舆情信息(为了保证企业可以在挑选的集合中存在关联关系，此处沿用S30步骤中的舆情信息)，通过人工阅读标记出舆情信息中出现的人员与企业间的关系词，得到标准的关系名称样本库，从样本库中随机抽取60％作为训练集、40％作为验证集，通过Lattice LSTM等机器学习算法对60％的训练集样本进行关系名称识别模型训练，训练完成后，通过40％的验证集进行验证，关系名称识别准确度约为70％左右。

从舆情库中随机抽取10000条舆情信息(为了保证企业可以在挑选的集合中存在关联关系，此处沿用S30、S31步骤中的舆情信息)，通过人工阅读标记出舆情信息中出现的人员与企业间的关系词(例如：赵XX作为江苏XXXX公司的CEO，那么CEO就作为关系词提取，关系双方则为：赵XX与江苏XXXX公司)，建立人员和企业之间的关联关系，得到样本库，从样本库中随机抽取60％作为训练集、40％作为验证集，通过Lattice LSTM等机器学习算法对60％的训练集样本进行企业名称、企业人员以及人员与企业之间的关系识别模型训练，多轮训练完成后，通过40％的验证集进行验证，目前关系名称识别准确度约为60％左右。

S41:实际控制人关系词规则库定义

考虑到通过模型识别出的关系准确度并不一定准确，在通过NLP对非结构化的舆情信息进行识别后，依据专家规则定义了一套实际控制人强匹配认定关系词库，该关系词库中明确给出了实际控制人关系相对较为明确的一些关键词，该关键词库通过专家规则定义，关键词分两种类型，一种是强规则认定关键词、一种是弱规则认定关键词，部分关键词可以从S40步骤中识别出的关键词库中进行挑选或者依据专家业务经验进行定义，此处列举出部分关键词作为参考，如表1所示：

序号	关系词名称	关系程度	关系词权重
				1	实际控制人	强	1.0
2	控股股东	强	1.0
				3	一票否决权	强	1.0
…	…	…	…
				N	代表	弱	0.2

表1

S50:计算实际控制人关系权重

通过S40识别出的企业与人员之间的关系词集合与S41步骤定义的实际控制人的关系词库，进行关系词名称匹配判断，如果S40步骤中识别出来的企业关键词命中定义的实际控制人关系词库中的强规则认定关键词，只要命中任何一条强规则关键词，那么对应的企业与人员之间的关系系数+1，如果命中一条弱规则，那么对应的企业与人员之间的关系系数+0.2，相同关系词出现的次数不列入计算逻辑范围内。

S60:通过规则算法计算企业实际控制人

通过S50步骤，对所有的企业关系完成系数计算后，统计查询的目标企业与所有存在关系的人员之间的实际控制人关系系数，取关系系数最高并且关系系数需要大于1的关系人员作为实际控制人(存在多个关系系数超过1的，则取最高值关系对应的企业)，如果关系系数不足1，那么则表示该企业无舆情认定的实际控制人关系。

为了实现上述的基于企业舆情信息识别企业实际控制人的方法，本发明还提供了基于企业舆情信息识别企业实际控制人的***，包括：企业名称分词模型训练模块、企业舆情信息查询模块、人物名称识别模型训练模块、关系名称识别模型训练模块、关系识别模型训练模块、实际控制人关系词规则库定义模块、实际控制人关系权重计算模块、企业实际控制人计算模块。

其中，企业名称分词模型训练模块将训练集样本通过NLP开源分词接口进行初始化分词，对分词结果进行人工核查修复，通过机器学习算法进行训练，训练完成后，通过验证集进行模型准确度验证，具体实现步骤S10的内容；企业舆情信息查询模块基于企业名称分词模型训练模块得到的模型，根据企业全称得到分词结果，根据分词结果在舆情库中进行查询，具体实现步骤S20的内容；人物名称识别模型训练模块基于人物名称样本库选取的训练集和验证集，通过机器学习算法训练人物名称识别模型，具体实现步骤S30的内容；关系名称识别模型训练模块基于人员与企业间关系名称样本库选取的训练集和验证集，通过机器学习算法训练关系名称识别模型，具体实现步骤S31的内容；关系识别模型训练模块基于人物名称与关系名称之间的关系样本库，选取的训练集和验证集，通过机器学习算法训练关系识别模型，具体实现步骤S40的内容；实际控制人关系词规则库定义模块定义一套实际控制人强匹配认定关系词库，实际控制人关系关键词，关键词包括强规则认定关键词和弱规则认定关键词，具体实现步骤S41的内容；实际控制人关系权重计算模块用于基于关系识别模型识别出的企业与人员之间的关系词集合与实际控制人关系词规则库定义模块定义的实际控制人的关系词库，进行关系匹配判断，得到企业与人员之间的关系系数，具体实现步骤S50的内容；企业实际控制人计算模块统计查询的目标企业与所有存在关系的人员之间的实际控制人关系系数，取关系系数最高并且关系系数需要大于1的关系人员作为实际控制人，具体实现步骤S60的内容。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于企业舆情信息识别企业实际控制人的方法，其特征在于，包括如下步骤：

S10:通过NLP分词算法训练企业名称分词模型

S20:通过企业全称和分词结果查询满足条件的企业舆情信息

依据S10步骤提供的企业名称分词模型，输入需要查询的企业全称，得到企业名称的分词结果，将分词结果作为查询的关键词组，从舆情库中通过舆情的标题、概要、内容匹配舆情信息中是否存在关键词组中的任何一个或者多个关键词，如果存在，则为满足舆情条件的候选集，进入S30步骤；若不存在，则说明舆情信息不满足匹配规则，无法识别企业实际控制人；

S30:通过NLP实体识别训练人物名称识别模型

S31:通过NLP实体识别训练关系名称识别模型

S41:实际控制人关系词规则库定义

S50:计算实际控制人关系权重

通过S40识别出的企业与人员之间的关系词集合与S41步骤定义的实际控制人的关系词库，进行关系词名称匹配判断；如果S40步骤中识别出来的关系词命中定义的实际控制人关系词库中的任何一条强规则关键词，那么对应的企业与人员之间的关系系数增加强关系数值，如果命中一条弱规则，那么对应的企业与人员之间的关系系数增加弱关系数值；

S60:通过规则算法计算企业实际控制人

2.根据权利要求1所述的基于企业舆情信息识别企业实际控制人的方法，其特征在于，所述步骤S10中基于以下规则挑选企业名单：随机抽选企业名称长度符合要求的企业，每个长度企业抽取若干家。

3.根据权利要求1所述的基于企业舆情信息识别企业实际控制人的方法，其特征在于，所述步骤S31和步骤S40沿用S30步骤中的舆情信息。

4.根据权利要求1所述的基于企业舆情信息识别企业实际控制人的方法，其特征在于，所述步骤S41中部分关键词从S40步骤中识别出的关键词库中进行挑选或者依据专家业务经验进行定义。

5.根据权利要求1所述的基于企业舆情信息识别企业实际控制人的方法，其特征在于，所述步骤S50中同一关系词命中多次时，只增加一次关系系数。

6.根据权利要求1所述的基于企业舆情信息识别企业实际控制人的方法，其特征在于，所述步骤S60中当存在多个关系系数超过1情况时，则取最高值关系对应的企业。

7.一种基于企业舆情信息识别企业实际控制人的***，其特征在于，包括：企业名称分词模型训练模块、企业舆情信息查询模块、人物名称识别模型训练模块、关系名称识别模型训练模块、关系识别模型训练模块、实际控制人关系词规则库定义模块、实际控制人关系权重计算模块、企业实际控制人计算模块；