CN114611515B - 一种基于企业舆情信息识别企业实际控制人的方法和*** - Google Patents

一种基于企业舆情信息识别企业实际控制人的方法和*** Download PDF

Info

Publication number
CN114611515B
CN114611515B CN202210106055.5A CN202210106055A CN114611515B CN 114611515 B CN114611515 B CN 114611515B CN 202210106055 A CN202210106055 A CN 202210106055A CN 114611515 B CN114611515 B CN 114611515B
Authority
CN
China
Prior art keywords
enterprise
relation
public opinion
training
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210106055.5A
Other languages
English (en)
Other versions
CN114611515A (zh
Inventor
潘书全
周云松
王治平
陈健
王培才
顾亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu United Credit Reference Co ltd
Original Assignee
Jiangsu United Credit Reference Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu United Credit Reference Co ltd filed Critical Jiangsu United Credit Reference Co ltd
Priority to CN202210106055.5A priority Critical patent/CN114611515B/zh
Publication of CN114611515A publication Critical patent/CN114611515A/zh
Application granted granted Critical
Publication of CN114611515B publication Critical patent/CN114611515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于企业舆情信息识别企业实际控制人的方法和***,方法包括:通过NLP分词算法训练企业名称分词模型;通过企业全称和分词结果查询满足条件的企业舆情信息;通过NLP实体识别训练人物名称识别模型;通过NLP实体识别训练关系名称识别模型;通过NLP关系抽取训练企业人物名称与关系名称之间的关系识别模型;实际控制人关系词规则库定义;计算实际控制人关系权重;通过规则算法计算企业实际控制人。本发明利用NLP自然语言识别技术从海量的舆情信息中挖掘出企业相关的舆情信息,并且分析出舆情涉及的关联人员和关联关系,分析出舆情信息识别出的疑似实际控制人,识别准确率高。

Description

一种基于企业舆情信息识别企业实际控制人的方法和***
技术领域
本发明属于计算机软件技术领域,涉及数据处理技术,具体涉及一种基于企业舆情信息识别企业实际控制人的方法和***。
背景技术
目前国内的中小微企业的困难可以概括为“两高两难”:成本高、税负高、用工难、融资难。其中融资难的问题尤为显著,中小微企业在日常经营过程中,往往会面临融资问题,而银行等金融机构在为中小微企业提供贷款时,除了需要考虑到小微企业的抵抗风险能力、是否存在抵押品、经营状况等因素外还会考虑到企业的实际控制人员,在中小微企业中企业的实际控制人对企业的经营方向以及发展起着决定性的作用,而许多企业在工商注册的法定代表人往往不是企业的实际控制人,所以如果能够准确的识别出企业的实际控制人,那么金融机构在对于企业的实际控制人进行沟通了解后,会打消金融机构的顾虑,促使金融机构和中小微企业之间达成融资合作关系。
目前国内市场上大多科技公司都是通过采集企业工商信息信息,通过工商中的股权结构关系识别,识别出疑似实际控制人,虽然能够解决一部分的情况但是准确率并不高。主要原因包含如下两点:一是获取到的企业工商信息不够全面,图谱计算能力不足,无法追溯到最上层的股东信息,导致股权占比计算不准确,二是许多中小微企业的实际控制人不在企业的工商关系中体现,无法通过股权关系识别出真实的实际控制人。
发明内容
为解决上述问题,本发明公开了一种基于企业舆情信息识别企业实际控制人的方法和***。
为达到上述目的,本发明的技术方案如下:
一种基于企业舆情信息识别企业实际控制人的方法,包括如下步骤:
S10:通过NLP分词算法训练企业名称分词模型
从企业***息库挑选企业名单,将样本随机分成训练集、验证集两个群体,训练集样本通过NLP开源分词接口进行初始化分词,然后对分词结果进行人工核查修复,通过机器学习算法进行训练,训练完成后,通过验证集进行模型准确度验证;
S20:通过企业全称和分词结果查询满足条件的企业舆情信息
依据S10步骤提供的企业名称分词模型,输入需要查询的企业全称,得到企业名称的分词结果,将分词结果作为查询的关键词组,从舆情库中通过舆情的标题、概要、内容匹配舆情信息中是否存在关键词组中的任何一个或者多个关键词,如果存在,则为满足舆情条件的候选集,进入S30步骤;若不存在,则说明该条舆情信息不满足匹配规则,无法识别企业实际控制人;
S30:通过NLP实体识别训练人物名称识别模型
从舆情库中随机抽取若干条舆情信息,通过人工阅读标记出舆情信息中出现的人物名称,得到标准的样本库,从样本库中随机抽取部分样本作为训练集、其余样本作为验证集,通过机器学习算法对训练集样本进行人物名称识别模型训练,训练完成后,通过验证集进行验证;
S31:通过NLP实体识别训练关系名称识别模型
从舆情库中随机抽取若干条舆情信息,通过人工阅读标记出舆情信息中出现的人员与企业间的关系词,得到标准的关系名称样本库,从样本库中随机抽取部分样本作为训练集、其余样本作为验证集,通过机器学习算法对训练集样本进行关系名称识别模型训练,训练完成后,通过验证集进行验证;
S40:通过NLP关系抽取训练企业人物名称与关系名称之间的关系识别模型
从舆情库中随机抽取若干条舆情信息,通过人工阅读标记出舆情信息中出现的人员与企业间的关系词,并且与人员和企业建立关联关系,得到样本库,从样本库中随机抽取部分样本作为训练集、其余样本作为验证集,通过机器学习算法对训练集样本进行企业名称、企业人员以及人员与企业之间的关系识别模型训练,多轮训练完成后,通过验证集进行验证;
S41:实际控制人关系词规则库定义
在通过NLP对非结构化的舆情信息进行识别后,依据专家规则定义一套实际控制人强匹配认定关系词库,所述关系词库中包括关于实际控制人关系的关键词,所述关键词包括两种类型,一种是强规则认定关键词,一种是弱规则认定关键词;
S50:计算实际控制人关系权重
通过S40识别出的企业与人员之间的关系词集合与S41步骤定义的实际控制人的关系词库,进行关系词名称匹配判断;如果S40步骤中识别出来的企业关键词命中定义的实际控制人关系词库中的任何一条强规则关键词,那么对应的企业与人员之间的关系系数增加强关系数值,如果命中一条弱规则,那么对应的企业与人员之间的关系系数增加弱关系数值;
S60:通过规则算法计算企业实际控制人
通过S50步骤对所有的企业关系完成系数计算后,统计查询的目标企业与所有存在关系的人员之间的实际控制人关系系数,取关系系数最高并且关系系数需要大于1的关系人员作为实际控制人,如果关系系数不足1,那么则表示该企业无舆情认定的实际控制人关系。
进一步的,所述步骤S10中基于以下规则挑选企业名单:随机抽选企业名称长度符合要求的企业,每个长度企业抽取若干家。
进一步的,所述步骤S31和步骤S40沿用S30步骤中的舆情信息。
进一步的,所述步骤S41中部分关键词从S40步骤中识别出的关键词库中进行挑选或者依据专家业务经验进行定义。
进一步的,所述步骤S50中同一关系词命中多次时,只增加一次关系系数。
进一步的,所述步骤S60中当存在多个关系系数超过1情况时,则取最高值关系对应的企业。
一种基于企业舆情信息识别企业实际控制人的***,包括:企业名称分词模型训练模块、企业舆情信息查询模块、人物名称识别模型训练模块、关系名称识别模型训练模块、关系识别模型训练模块、实际控制人关系词规则库定义模块、实际控制人关系权重计算模块、企业实际控制人计算模块;
所述企业名称分词模型训练模块将训练集样本通过NLP开源分词接口进行初始化分词,对分词结果进行人工核查修复,通过机器学习算法进行训练,训练完成后,通过验证集进行模型准确度验证;
所述企业舆情信息查询模块基于企业名称分词模型训练模块得到的模型,根据企业全称得到分词结果,根据分词结果在舆情库中进行查询;
所述人物名称识别模型训练模块基于人物名称样本库选取的训练集和验证集,通过机器学习算法训练人物名称识别模型;
所述关系名称识别模型训练模块基于人员与企业间关系名称样本库选取的训练集和验证集,通过机器学习算法训练关系名称识别模型;
所述关系识别模型训练模块基于人物名称与关系名称之间的关系样本库,选取的训练集和验证集,通过机器学习算法训练关系识别模型;
所述实际控制人关系词规则库定义模块定义一套实际控制人强匹配认定关系词库,实际控制人关系关键词,关键词包括强规则认定关键词和弱规则认定关键词;
所述实际控制人关系权重计算模块用于基于关系识别模型识别出的企业与人员之间的关系词集合与实际控制人关系词规则库定义模块定义的实际控制人的关系词库,进行关系匹配判断,得到企业与人员之间的关系系数;
所述企业实际控制人计算模块统计查询的目标企业与所有存在关系的人员之间的实际控制人关系系数,取关系系数最高并且关系系数需要大于1的关系人员作为实际控制人。
本发明的有益效果为:
本发明利用NLP自然语言识别技术从海量的舆情信息中挖掘出企业相关的舆情信息,并且分析出舆情涉及的关联人员和关联关系,分析出舆情信息识别出的疑似实际控制人,识别准确率高。
附图说明
图1为本发明提供的基于企业舆情信息识别企业实际控制人的方法流程图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明提供了一种基于企业舆情信息识别企业实际控制人的方法,其流程如图1所示,包括如下步骤:
S10:通过NLP分词算法训练企业名称分词模型
从企业***息库挑选企业名单(选择规则:随机抽选企业名称长度从10位到20位的企业,每个长度企业抽取1000家,共计11000家企业),将样本随机分成训练集(7000)、验证集(4000)两个群体,训练集样本通过NLP开源分词接口进行初始化分词,然后对分词结果进行人工核查修复,通过机器学习算法进行训练,训练完成后,通过验证集进行模型准确度验证,分词结果的准确率达到80%以上。
S20:通过企业全称和分词结果查询满足条件的企业舆情信息
依据S10步骤提供的企业名称分词模型,输入需要查询的企业全称,得到企业名称的分词结果,将分词结果作为查询的关键词组,从舆情库中通过舆情的标题、概要、内容中匹配舆情信息中是否存在关键词组中的任何一个或者多个关键词,如果存在,则为满足舆情条件的候选集,不存在,该条舆情信息不满足匹配规则。
统计需要查询的企业的所有的舆情信息,如果存在舆情信息,那么则进入S30步骤,如果该企业不存在舆情信息,那么则表示舆情信息无法识别企业实际控制人。
S30:通过NLP实体识别训练人物名称识别模型
从舆情库中随机抽取10000条舆情信息,通过人工阅读标记出舆情信息中出现的人物名称,得到标准的样本库,从样本库中随机抽取60%作为训练集、40%作为验证集,通过Lattice LSTM等机器学习算法对60%的训练集样本进行人物名称识别模型训练,训练完成后,通过40%的验证集进行验证,人物名称识别准确度达到90%。
S31:通过NLP实体识别训练关系名称识别模型
从舆情库中随机抽取10000条舆情信息(为了保证企业可以在挑选的集合中存在关联关系,此处沿用S30步骤中的舆情信息),通过人工阅读标记出舆情信息中出现的人员与企业间的关系词,得到标准的关系名称样本库,从样本库中随机抽取60%作为训练集、40%作为验证集,通过Lattice LSTM等机器学习算法对60%的训练集样本进行关系名称识别模型训练,训练完成后,通过40%的验证集进行验证,关系名称识别准确度约为70%左右。
S40:通过NLP关系抽取训练企业人物名称与关系名称之间的关系识别模型
从舆情库中随机抽取10000条舆情信息(为了保证企业可以在挑选的集合中存在关联关系,此处沿用S30、S31步骤中的舆情信息),通过人工阅读标记出舆情信息中出现的人员与企业间的关系词(例如:赵XX作为江苏XXXX公司的CEO,那么CEO就作为关系词提取,关系双方则为:赵XX与江苏XXXX公司),建立人员和企业之间的关联关系,得到样本库,从样本库中随机抽取60%作为训练集、40%作为验证集,通过Lattice LSTM等机器学习算法对60%的训练集样本进行企业名称、企业人员以及人员与企业之间的关系识别模型训练,多轮训练完成后,通过40%的验证集进行验证,目前关系名称识别准确度约为60%左右。
S41:实际控制人关系词规则库定义
考虑到通过模型识别出的关系准确度并不一定准确,在通过NLP对非结构化的舆情信息进行识别后,依据专家规则定义了一套实际控制人强匹配认定关系词库,该关系词库中明确给出了实际控制人关系相对较为明确的一些关键词,该关键词库通过专家规则定义,关键词分两种类型,一种是强规则认定关键词、一种是弱规则认定关键词,部分关键词可以从S40步骤中识别出的关键词库中进行挑选或者依据专家业务经验进行定义,此处列举出部分关键词作为参考,如表1所示:
序号 关系词名称 关系程度 关系词权重
1 实际控制人 1.0
2 控股股东 1.0
3 一票否决权 1.0
N 代表 0.2
表1
S50:计算实际控制人关系权重
通过S40识别出的企业与人员之间的关系词集合与S41步骤定义的实际控制人的关系词库,进行关系词名称匹配判断,如果S40步骤中识别出来的企业关键词命中定义的实际控制人关系词库中的强规则认定关键词,只要命中任何一条强规则关键词,那么对应的企业与人员之间的关系系数+1,如果命中一条弱规则,那么对应的企业与人员之间的关系系数+0.2,相同关系词出现的次数不列入计算逻辑范围内。
S60:通过规则算法计算企业实际控制人
通过S50步骤,对所有的企业关系完成系数计算后,统计查询的目标企业与所有存在关系的人员之间的实际控制人关系系数,取关系系数最高并且关系系数需要大于1的关系人员作为实际控制人(存在多个关系系数超过1的,则取最高值关系对应的企业),如果关系系数不足1,那么则表示该企业无舆情认定的实际控制人关系。
为了实现上述的基于企业舆情信息识别企业实际控制人的方法,本发明还提供了基于企业舆情信息识别企业实际控制人的***,包括:企业名称分词模型训练模块、企业舆情信息查询模块、人物名称识别模型训练模块、关系名称识别模型训练模块、关系识别模型训练模块、实际控制人关系词规则库定义模块、实际控制人关系权重计算模块、企业实际控制人计算模块。
其中,企业名称分词模型训练模块将训练集样本通过NLP开源分词接口进行初始化分词,对分词结果进行人工核查修复,通过机器学习算法进行训练,训练完成后,通过验证集进行模型准确度验证,具体实现步骤S10的内容;企业舆情信息查询模块基于企业名称分词模型训练模块得到的模型,根据企业全称得到分词结果,根据分词结果在舆情库中进行查询,具体实现步骤S20的内容;人物名称识别模型训练模块基于人物名称样本库选取的训练集和验证集,通过机器学习算法训练人物名称识别模型,具体实现步骤S30的内容;关系名称识别模型训练模块基于人员与企业间关系名称样本库选取的训练集和验证集,通过机器学习算法训练关系名称识别模型,具体实现步骤S31的内容;关系识别模型训练模块基于人物名称与关系名称之间的关系样本库,选取的训练集和验证集,通过机器学习算法训练关系识别模型,具体实现步骤S40的内容;实际控制人关系词规则库定义模块定义一套实际控制人强匹配认定关系词库,实际控制人关系关键词,关键词包括强规则认定关键词和弱规则认定关键词,具体实现步骤S41的内容;实际控制人关系权重计算模块用于基于关系识别模型识别出的企业与人员之间的关系词集合与实际控制人关系词规则库定义模块定义的实际控制人的关系词库,进行关系匹配判断,得到企业与人员之间的关系系数,具体实现步骤S50的内容;企业实际控制人计算模块统计查询的目标企业与所有存在关系的人员之间的实际控制人关系系数,取关系系数最高并且关系系数需要大于1的关系人员作为实际控制人,具体实现步骤S60的内容。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims (7)

1.一种基于企业舆情信息识别企业实际控制人的方法,其特征在于,包括如下步骤:
S10:通过NLP分词算法训练企业名称分词模型
从企业***息库挑选企业名单,将样本随机分成训练集、验证集两个群体,训练集样本通过NLP开源分词接口进行初始化分词,然后对分词结果进行人工核查修复,通过机器学习算法进行训练,训练完成后,通过验证集进行模型准确度验证;
S20:通过企业全称和分词结果查询满足条件的企业舆情信息
依据S10步骤提供的企业名称分词模型,输入需要查询的企业全称,得到企业名称的分词结果,将分词结果作为查询的关键词组,从舆情库中通过舆情的标题、概要、内容匹配舆情信息中是否存在关键词组中的任何一个或者多个关键词,如果存在,则为满足舆情条件的候选集,进入S30步骤;若不存在,则说明舆情信息不满足匹配规则,无法识别企业实际控制人;
S30:通过NLP实体识别训练人物名称识别模型
从舆情库中随机抽取若干条舆情信息,通过人工阅读标记出舆情信息中出现的人物名称,得到标准的样本库,从样本库中随机抽取部分样本作为训练集、其余样本作为验证集,通过机器学习算法对训练集样本进行人物名称识别模型训练,训练完成后,通过验证集进行验证;
S31:通过NLP实体识别训练关系名称识别模型
从舆情库中随机抽取若干条舆情信息,通过人工阅读标记出舆情信息中出现的人员与企业间的关系词,得到标准的关系名称样本库,从样本库中随机抽取部分样本作为训练集、其余样本作为验证集,通过机器学习算法对训练集样本进行关系名称识别模型训练,训练完成后,通过验证集进行验证;
S40:通过NLP关系抽取训练企业人物名称与关系名称之间的关系识别模型
从舆情库中随机抽取若干条舆情信息,通过人工阅读标记出舆情信息中出现的人员与企业间的关系词,并且与人员和企业建立关联关系,得到样本库,从样本库中随机抽取部分样本作为训练集、其余样本作为验证集,通过机器学习算法对训练集样本进行企业名称、企业人员以及人员与企业之间的关系识别模型训练,多轮训练完成后,通过验证集进行验证;
S41:实际控制人关系词规则库定义
在通过NLP对非结构化的舆情信息进行识别后,依据专家规则定义一套实际控制人强匹配认定关系词库,所述关系词库中包括关于实际控制人关系的关键词,所述关键词包括两种类型,一种是强规则认定关键词,一种是弱规则认定关键词;
S50:计算实际控制人关系权重
通过S40识别出的企业与人员之间的关系词集合与S41步骤定义的实际控制人的关系词库,进行关系词名称匹配判断;如果S40步骤中识别出来的关系词命中定义的实际控制人关系词库中的任何一条强规则关键词,那么对应的企业与人员之间的关系系数增加强关系数值,如果命中一条弱规则,那么对应的企业与人员之间的关系系数增加弱关系数值;
S60:通过规则算法计算企业实际控制人
通过S50步骤对所有的企业关系完成系数计算后,统计查询的目标企业与所有存在关系的人员之间的实际控制人关系系数,取关系系数最高并且关系系数需要大于1的关系人员作为实际控制人,如果关系系数不足1,那么则表示该企业无舆情认定的实际控制人关系。
2.根据权利要求1所述的基于企业舆情信息识别企业实际控制人的方法,其特征在于,所述步骤S10中基于以下规则挑选企业名单:随机抽选企业名称长度符合要求的企业,每个长度企业抽取若干家。
3.根据权利要求1所述的基于企业舆情信息识别企业实际控制人的方法,其特征在于,所述步骤S31和步骤S40沿用S30步骤中的舆情信息。
4.根据权利要求1所述的基于企业舆情信息识别企业实际控制人的方法,其特征在于,所述步骤S41中部分关键词从S40步骤中识别出的关键词库中进行挑选或者依据专家业务经验进行定义。
5.根据权利要求1所述的基于企业舆情信息识别企业实际控制人的方法,其特征在于,所述步骤S50中同一关系词命中多次时,只增加一次关系系数。
6.根据权利要求1所述的基于企业舆情信息识别企业实际控制人的方法,其特征在于,所述步骤S60中当存在多个关系系数超过1情况时,则取最高值关系对应的企业。
7.一种基于企业舆情信息识别企业实际控制人的***,其特征在于,包括:企业名称分词模型训练模块、企业舆情信息查询模块、人物名称识别模型训练模块、关系名称识别模型训练模块、关系识别模型训练模块、实际控制人关系词规则库定义模块、实际控制人关系权重计算模块、企业实际控制人计算模块;
所述企业名称分词模型训练模块将训练集样本通过NLP开源分词接口进行初始化分词,对分词结果进行人工核查修复,通过机器学习算法进行训练,训练完成后,通过验证集进行模型准确度验证;
所述企业舆情信息查询模块基于企业名称分词模型训练模块得到的模型,根据企业全称得到分词结果,根据分词结果在舆情库中进行查询;
所述人物名称识别模型训练模块基于人物名称样本库选取的训练集和验证集,通过机器学习算法训练人物名称识别模型;
所述关系名称识别模型训练模块基于人员与企业间关系名称样本库选取的训练集和验证集,通过机器学习算法训练关系名称识别模型;
所述关系识别模型训练模块基于人物名称与关系名称之间的关系样本库,选取的训练集和验证集,通过机器学习算法训练关系识别模型;
所述实际控制人关系词规则库定义模块定义一套实际控制人强匹配认定关系词库,实际控制人关系关键词,关键词包括强规则认定关键词和弱规则认定关键词;
所述实际控制人关系权重计算模块用于基于关系识别模型识别出的企业与人员之间的关系词集合与实际控制人关系词规则库定义模块定义的实际控制人的关系词库,进行关系匹配判断,得到企业与人员之间的关系系数;
所述企业实际控制人计算模块统计查询的目标企业与所有存在关系的人员之间的实际控制人关系系数,取关系系数最高并且关系系数需要大于1的关系人员作为实际控制人。
CN202210106055.5A 2022-01-28 2022-01-28 一种基于企业舆情信息识别企业实际控制人的方法和*** Active CN114611515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210106055.5A CN114611515B (zh) 2022-01-28 2022-01-28 一种基于企业舆情信息识别企业实际控制人的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210106055.5A CN114611515B (zh) 2022-01-28 2022-01-28 一种基于企业舆情信息识别企业实际控制人的方法和***

Publications (2)

Publication Number Publication Date
CN114611515A CN114611515A (zh) 2022-06-10
CN114611515B true CN114611515B (zh) 2023-12-12

Family

ID=81859766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210106055.5A Active CN114611515B (zh) 2022-01-28 2022-01-28 一种基于企业舆情信息识别企业实际控制人的方法和***

Country Status (1)

Country Link
CN (1) CN114611515B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227496B (zh) * 2023-05-06 2023-07-14 国网智能电网研究院有限公司 一种基于深度学习的电力舆情实体关系抽取方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763507A (zh) * 2018-05-30 2018-11-06 北京百度网讯科技有限公司 企业关联关系挖掘方法和装置
CN110597870A (zh) * 2019-08-05 2019-12-20 长春市万易科技有限公司 一种企业关系挖掘方法
CN110807697A (zh) * 2019-10-31 2020-02-18 支付宝(杭州)信息技术有限公司 股份公司的实际控制人的确定方法、装置及设备
CN110909986A (zh) * 2019-11-04 2020-03-24 苏宁金融科技(南京)有限公司 基于知识图谱的疑似实际控制人的风险识别方法及***
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111325355A (zh) * 2020-03-19 2020-06-23 中国建设银行股份有限公司 企业实际控制人的确定方法、装置、计算机设备及介质
CN112199588A (zh) * 2020-09-30 2021-01-08 深圳壹账通智能科技有限公司 舆情文本筛选方法及装置
CN112364178A (zh) * 2020-11-08 2021-02-12 杭州有数金融信息服务有限公司 一种基于企业关联知识图谱的企业隐形实控人识别的方法
WO2021217843A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763507A (zh) * 2018-05-30 2018-11-06 北京百度网讯科技有限公司 企业关联关系挖掘方法和装置
CN110597870A (zh) * 2019-08-05 2019-12-20 长春市万易科技有限公司 一种企业关系挖掘方法
CN110807697A (zh) * 2019-10-31 2020-02-18 支付宝(杭州)信息技术有限公司 股份公司的实际控制人的确定方法、装置及设备
CN110909986A (zh) * 2019-11-04 2020-03-24 苏宁金融科技(南京)有限公司 基于知识图谱的疑似实际控制人的风险识别方法及***
CN110990525A (zh) * 2019-11-15 2020-04-10 华融融通(北京)科技有限公司 一种基于自然语言处理的舆情信息抽取及知识库生成方法
CN111325355A (zh) * 2020-03-19 2020-06-23 中国建设银行股份有限公司 企业实际控制人的确定方法、装置、计算机设备及介质
WO2021217843A1 (zh) * 2020-04-29 2021-11-04 平安科技(深圳)有限公司 企业舆情分析方法、装置、电子设备及介质
CN112199588A (zh) * 2020-09-30 2021-01-08 深圳壹账通智能科技有限公司 舆情文本筛选方法及装置
CN112364178A (zh) * 2020-11-08 2021-02-12 杭州有数金融信息服务有限公司 一种基于企业关联知识图谱的企业隐形实控人识别的方法

Also Published As

Publication number Publication date
CN114611515A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN110826320B (zh) 一种基于文本识别的敏感数据发现方法及***
CN106021545B (zh) 用于车辆远程诊断与备件检索的方法
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及***
CN109033087B (zh) 计算文本语义距离的方法、去重方法、聚类方法以及装置
CN114611515B (zh) 一种基于企业舆情信息识别企业实际控制人的方法和***
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
CN114741482A (zh) 基于招标信息的中标信息匹配方法、***、设备及介质
CN109617864B (zh) 一种网站识别方法及网站识别***
CN112926577B (zh) 一种医疗票据图像结构化方法和装置、计算机可读介质
CN107480126B (zh) 一种工程材料类别智能识别方法
CN113569048A (zh) 一种基于企业经营范围自动划分所属行业的方法及***
CN117648581A (zh) 一种企业相似度评估方法、装置、终端及介质
CN110083815B (zh) 一种同义变量识别方法和***
CN112084773A (zh) 一种基于词库双向最大匹配法的电网停电地址匹配方法
CN113569005B (zh) 一种基于数据内容的大规模数据特征智能化提取方法
CN103984756B (zh) 基于半监督概率潜在语义分析的软件变更日志分类方法
CN109460720A (zh) 基于卷积神经网络的选票识别方法
CN115186138A (zh) 一种配电网数据的比对方法及终端
CN114547294A (zh) 一种基于传播过程综合信息的谣言检测方法及***
CN110414819B (zh) 一种工单评分方法
CN109299456B (zh) 一种地名识别方法
CN112966901A (zh) 面向检察业务协同流程的世系数据质量分析与验证方法
CN112102069A (zh) 一种个人房产按揭贷款信息录入分析***
CN110598973A (zh) 一种基于iap的绿色家具产品认证过程风险评价方法
CN105138544B (zh) 一种重塑逻辑演绎链的搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant