CN110990587B

CN110990587B - 基于主题模型的企业关系发现方法及***

Info

Publication number: CN110990587B
Application number: CN201911230997.9A
Authority: CN
Inventors: 钱宇; 袁华
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2023-04-18
Anticipated expiration: 2039-12-04
Also published as: CN110990587A

Abstract

本发明公开了一种基于主题模型的企业关系发现方法，涉及大数据挖掘技术领域，本发明以新闻数据为研究的数据集，首先利用命名实体识别工具识别出实体，然后再用卷积神经网络来分类识别出企业实体，然后利用LDA模型，发现文本中的主题分布，接着再根据动词、名词与企业实体在文本中的位置，挖掘企业的特征，最后，根据企业所有的共同特征，来获得企业之间的关系；本发明还公开了一种实现基于主题模型的企业关系发现方法的***，本发明通过获得的企业的特征和关系等信息，可以帮助企业、投资人等做出更好的决策。

Description

基于主题模型的企业关系发现方法及***

技术领域

本发明涉及大数据挖掘技术领域，特别是一种基于主题模型的企业关系发现方法及***。

背景技术

企业特征指的是与企业有关的一些特征，来源于新闻文本中的企业特征以词汇的形式存在，包括名词、动词等。在新闻报道中，会对企业进行描述，以下面一段描述为例：

某投资公司A独家获悉，11月8日，X传媒集团获得一笔来自投资公司B的投资，有消息称“投资额可能在40亿人民币左右”。据接近X传媒集团管理层人士透露，公司最快将在今天傍晚官宣该消息。

X传媒集团为于2007年成立于成都，其直接对标者正是在线下广告行业一骑绝尘的Y传媒集团。官方信息显示，截至2018年10月，X传媒集团覆盖全国100个城市，65万部电梯，每天覆盖2亿社区人群。

从这样的一个新闻片段中，可以获得许多关于X传媒集团的特征，例如投资(X传媒集团获得投资)，成都(成立地点)、对标者、线下广告。同时也可以找到公司与公司的联系，例如，可以知道投资公司B投资了X传媒集团、X传媒集团与Y传媒集团是对标者。

然而，文本中不止存在着许多代表企业特征和关系的词，还有许多的噪音词汇，这些词会影响寻找企业特征的精确度，例如，左右、可能、官方、电梯等。为了解决这个问题，需要利用到更多的新闻数据，这样在获取了许多数据后，伴随企业实体出现多次的一些高频词就很有可能是企业的特征，同时那些仅出现一次的词汇，就会被过滤调。还存在一个问题就是，对企业实体进行特征抽取时，如果简单的抽取出附近的动词、名词等，然后按出现次数进行排序，就会使得这些特征杂乱，很难获得有意义的特征。

获取企业的特征和关系对于决策有重要意义，这些信息可以帮助企业、投资人等做出更好的决策。互联网上有海量的数据，从这些数据中可以挖掘出许多关于企业的有价值的特征。然而，从这些数据中挖掘出这些信息需要克服许多困难。文本存在许多噪音，并且数据杂乱，使得识别企业实体、抽取企业特征都面临许多挑战。

发明内容

为解决现有技术中存在的问题，本发明的目的是一种基于主题模型的企业关系发现方法及***，本发明通过获得的企业的特征和关系等信息，可以帮助企业、投资人等做出更好的决策。

为实现上述目的，本发明采用的技术方案是：一种基于主题模型的企业关系发现方法，包括以下步骤：

S10、数据获取与预处理：从目标网站中获取新闻的文本数据，并对所述文本数据进行预处理；

S20、企业实体识别：从预处理后的非结构化的文本数据中抽取出企业实体；

S30、动词名词提取：从文本数据中抽取出表示企业行为的动词以及表示企业相关属性的名词，并对和企业实体在同一句话中出现的动词和名次进行标记；

S40、特征抽取：从提取出的动词和名词中抽取出潜在的主题分布：Topic_k:[p(word_k1),p(word_k2),…，p(word_kn)]，设有k类主题，每类主题由一系列词和这些词的概率组成，其中p(word_k1)到p(word_kn)的概率递减；

S50、实体与主题关系发现：根据步骤S30统计的和企业实体在同一句话中出现的动词和名词，则第k个主题与企业实体的关联度为：

Relevancy1_k＝p(word_k1)*O_k1+p(word_k2)*O_k2+…+p(word_kn)*O_kn，其中，O_ki表示word_ki伴随着该企业实体出现在一句话中的次数；

S60、实体与实体关系发现：根据步骤S30统计的所有伴随两个企业实体出现的名词和动词，则两个企业实体在第k个主题上的关联度为：

Relevancy2_k＝p(word_k1)*O_k1+p(word_k2)*O_k2+…+p(word_kn)*O_kn，其中，O_ki表示word_ki伴随着两个企业实体同时出现在一句话中的次数。

作为一种优选的实施方式，步骤S10具体如下：通过python语言和Scrapy框架爬取新闻的文本数据，所述文本数据包括新闻标题、新闻内容和新闻时间，并对爬取的新闻数据进行去重、利用jieba进行分词和去停用词的预处理。

作为另一种优选的实施方式，所述步骤S20包括：

S21、利用Stanford CoreNLP工具中的命名实体识别模块提取识别出文本数据中Organization实体；

S22、利用百科词条对识别出的Organization实体进行搜索并下载；

S23、利用卷积神经网络对下载的数据进行分类。

作为另一种优选的实施方式，在步骤S23中，采用CNN模型对下载的数据进行分类，输入百科词条，输出企业实体或非企业实体。

作为另一种优选的实施方式，所述步骤S30中，采用jieba工具对动词和名词进行识别，并筛选出其中的动词和名词。

作为另一种优选的实施方式，所述步骤S40中，采用LDA模型对名词和动词进行主题发现。

作为另一种优选的实施方式，步骤S50后还包括：选取前N个关联度最大的主题作为企业实体的一阶特征，在该主题下选取伴随企业实体出现在同一句话中的词作为企业实体的二阶特征。

作为另一种优选的实施方式，步骤S60后还包括：选取Relevancy最高的M个主题作为两个企业实体之间相关联的主题特征，然后每个主题下，根据p(word_ki)*O_ki对词进行排序，得到在该主题下，最能表达两个企业实体之间关系的排序。

本发明还公开了一种实现如上所述的基于主题模型的企业关系发现方法的***，包括：

数据获取与预处理模块，用于从目标网站中获取新闻的文本数据，并对所述文本数据进行预处理；

企业实体识别模块，用于从预处理后的非结构化的文本数据中抽取出企业实体；

动词名词提取模块，用于从文本数据中抽取出表示企业行为的动词以及表示企业相关属性的名词，并对和企业实体在同一句话中出现的动词和名次进行标记；

特征抽取模块，用于从提取出的动词和名词中抽取出潜在的主题分布：Topic_k:[p(word_k1),p(word_k2),…，p(word_kn)]，设有k类主题，每类主题由一系列词和这些词的概率组成，其中p(word_k1)到p(word_kn)的概率递减；

实体与主题关系发现模块，用于发现企业实体与主题之间的关系，具体为统计和企业实体在同一句话中出现的动词和名词，第k个主题与企业实体的关联度为：

实体与实体关系发现模块，用于发现两个企业实体之间的关系，具体为统计所有伴随两个企业实体出现的名词和动词，两个企业实体在第k个主题上的关联度为：

本发明的有益效果是：

本发明以新闻数据为研究的数据集，首先利用命名实体识别工具识别出实体，然后再用卷积神经网络来分类识别出企业实体，然后利用LDA模型，发现文本中的主题分布，接着再根据动词、名词与企业实体在文本中的位置，挖掘企业的特征，最后，根据企业所有的共同特征，来获得企业之间的关系，通过获得的企业的特征和关系等信息帮助企业、投资人等做出更好的决策。

附图说明

图1为本发明实施例的流程框图；

图2为本发明实施例中利用卷积神经网络对数据进行分类的结构示意图；

图3为本发明实施例中的LDA模型概率图的图模型表征；

图4为本发明实施例中两个企业实体之间的关系表征示意图；

图5为本发明实施例中两个企业实体之间的量及特征表示。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

实施例

本实施例需要解决的是(1)如何从文本中找到一个个的企业实体？(2)如何围绕主题/事件去发现企业的特征以及企业之间的关系？

为了解决上述问题，本实施例设计了如下的方法，企业特征抽取的研究框架如图1所示。该框架将会分成六部分在本实施例中详细讲解：

(一)获取与预处理：首先这里需要数据源，本实施例选择腾讯新闻的文本数据。因此本部分将会说明数据是如何获取的，以及对文本数据进行预处理的工作。

(二)企业实体识别：接着就需要从非结构化的文本中抽取出企业实体。该部分将会说明本文如何从文本中提取出公司实体。

(三)动词名词提取：然后需要抽取出与实体相关的信息，动词往往表示企业动作，名词可能表示一些企业相关的属性，本实施例提取出本文的动词和名词。因此该部分将介绍如何从本文提取出动词名词。

(四)特征抽取：在杂乱、数量很多的动词、名词中，很难发现出和企业相关的有用的信息，因此需要找到这些动词、名词潜在的主题分布。因此将该部分将介绍如何从文本中找到发现主题。

(五)实体与主题关系发现：然后就需要找到主题与公司实体的关系。因此该部分介绍如何发现实体与主题之间的关系。

(六)实体与实体关系发现：最后发现实体与实体的关系。该部分介绍如何发现实体与实体的关系。

具体地，再如图1所示，一种基于主题模型的企业关系发现方法，包括：

(一)数据获取与预处理

网络上存在海量的文本数据，这些文本数据里包含许多有价值的信息，然而这些非结构化的数据无法直接使用，必须先经过文本预处理才可以使用。实施例中的本部分将介绍的就是如何获取这些文本数据以及如何对这些文本数据进行预处理的操作。

1、数据获取

本实施例选用的数据源为腾讯滚动新闻中互联网板块下的新闻。使用python语言和Scrapy框架爬取了两年(2017.1.1-2018.12.31)的腾讯滚动新闻数据。数据包括新闻标题、新闻内容、时间等信息。

2、文本预处理

在爬取完数据后，就需要对文本进行一些预处理的工作。第一步就是对数据进行去重，在爬取数据的时候有一些新闻会被重复爬取到，因此需要删掉这些重复的新闻；第二步就是分词，分词指的是将文本序列划分为一个个单独的词，本实施例使用jieba工具对文本进行分词；第三步就是去除停用词，停用词指的是一些使用很普遍的功能词，并且相比其他词，这些词没有什么实际意义，为了提高后面工作的效果，这里需要去除这些停用词。

(二)企业实体识别

命名实体指的是人名、地名、机构名以及一些数字表达式，包括时间、日期、货币金额、百分比表达式等。本实施例要识别的是文本中的企业实体，也就是只需要识别出机构名。

对企业实体进行识别的一种是从网上搜集所有公司的名称，以此来构建企业名称库，在识别的时候直接查找企业名称库，如果查找到，则为企业实体。但这种方法对于一些多义词(如苹果，既有苹果公司的含义，有可能是一种水果)识别能力有限。

本实施例中调用的是Stanford CoreNLP工具中的命名实体识别模块来帮助本文识别出实体。该模块是基于条件随机场(Conditional Random Field)的原理，可以识别出7类实体：Location,Person,Organization,Money,Percent,Date,Time。本实施例只提取识别出的Organization实体。

在识别出Organization实体后，还需要对这些识别出来的实体进行分类，因为Oganization实体包括企业实体、政府机构、社会组织等。本实施例只需要把Oganization实体分成企业实体和非企业实体两类。

为了分类这些实体，需要一些辅助的知识，本实施例选择互动百科的词条解释作为补充知识。也就是对以上识别出的实体，都去搜索百科词条并下载下来，用这些词条内容来帮助分类。

分类方法本实施例选择有监督学习的卷积神经网络。卷积神经网络是深度神经网络的一种，最初是被用在图像上，做图像分类等，具有很好的识别效果。最近，该网络也被用在文本分类上，同样取得很好的效果。本实施例使用的模型来自Kim等人设计的CNN结构，结构图2所示：

输入层是单词矩阵，也就是每行为一个单词的向量表示，整个矩阵也就是一个句子的向量表示。然后经过了卷积层，卷积核的大小包括3种：2、3、4个单词长度的，数量分别为100个。在卷积层之后就是池化层，前面卷积层得到300个向量，池化层也就是对这300个向量中每个向量去最大值。最后拼接得到一个300维度的向量，最后经过一个全连接层，输出得到分类结果。

对于本实施例来说，输入就是百科词条，输出就是企业实体或非企业实体。

(三)动词名词识别

对于某个实体而言，动词表示他的动作，可能是企业行为，而名词表示他的某种属性，因此需要提取出文本中的动词和名词。要提取出动词和名词，就需要用到词性标注工具。词性标注就是从本文中识别出各个词的词性(如动词、名词、形容词等)。本实施例使用jieba工具包进行词性识别，然后筛选出其中的动词和名词。

在对所有语料提取出动词、名词后，还要对和企业实体在同一句话中出现的动词、名词进行标记，因为这些动词、名词就是这些企业实体的特征。

(四)特征抽取

在提取出动词和名词后，就需要去发现这些词分别归属于哪一类主题，本实施例采用Latent Dirichlet Allocation模型来发现主题。LDA模型是用在离散数据(例如文本)上的概率生成模型，它是个三层的贝叶斯概率模型。在文本上，每篇文档由一系列不同概率主题构成，每个主题由一系列不同概率的词汇组成。

LDA假设每个文档w有以下这样的生成过程：

1、选择一篇文档的词汇数量

2、选择

其中θ代表每篇文章的多项式分布参数，Dir表系狄利克雷分布(Dirichlet)。

3、对于N个词中的任意一个词w_n:

a、选择一个主题

Multinomial(θ)表示参数为θ的多项分布

b、根据p(ω_n|ζ_n,β)选择一个词ω_n，其中p(ω_n|ζ_n,β)是基于主题ζ_n的多项条件概率。

图3为LDA模型的概率图模型表示，是个3层的图模型。参数α和β是语料级的参数，只在生成语料的时候产生一次。θ是文档级的变量，每篇文档都要生成一次。变量ζ和ω是词级别的变量，对每篇文档的每个词都要重新生成一次。

本实施例用LDA模型来做主题发现，只对动词和名词做主题发现，设有k类主题，每类主题有一系列词和这些词的概率组成，表示如下，其中p(word_k1)到p(word_kn)的概率递减。

Topic_k:[p(word_k1),p(word_k2),…，p(word_kn)]

(五)实体与主题关系发现

该部分将说明如何将之前部分发现的主题与实体联系起来。这里假设：和实体所在同一句话的名词和动词可以作为实体的特征。因此这里需要先统计和实体在同一句话的名词和动词。然后第k个主题与实体的关联度可表示为：

Relevancy1_k＝p(word_k1)*O_k1+p(word_k2)*O_k2+…+p(word_kn)*O_kn

O_ki表示单词word_ki伴随着该实体同时出现在一句话中的次数。然后选取前5个关联度最大的主题作为实体的一阶特征，在该主题下同时又伴随着实体出现在同一句话的词作为实体的二阶特征。

(六)实体与实体关系发现

该部分将说明如何发现实体与实体之间的关系。考虑下面这样一句话，这句话来自一则新闻：

腾讯科技讯2017年以来，美国手机芯片巨头高通和手机制造商苹果之间发生了大规模专利诉讼和纠纷，双方在多个国家互相起诉，诉讼也给高通业绩造成巨大冲击。

从这句话中，可以知道找到两个实体：高通、苹果。而这句话中的名词、动词(例如诉讼、纠纷、起诉、冲击等)则为使两个实体能够相关联的特征。可以画出如图4所示的网络图。

以上只是一句话的情况，在新闻文本中，两个实体会在许多句子内同时出现。统计所有伴随着两个实体出现的名词和动词，再结合之前的LDA模型，那么两个实体在第k个主题上的关联度可表示为：

Relevancy2_k＝p(word_k1)*O_k1+p(word_k2)*O_k2+…+p(word_kn)*O_kn

其中O_ki表示word_ki伴随着两个实体同时出现在一句话中的次数。选取Relevancy最高的5个主题作为实体与实体之间相关联的几个主题特征，然后每个主题下，根据p(word_ki)*O_ki对词进行排序，以找到在该主题下最能表示两者关系的词汇排序。最终将得到如图5所示的关系网络。

本实施例还提供一种实现如上所述的基于主题模型的企业关系发现方法的***，包括：

本实施例先给出了针对提出的两个问题的研究框架图，然后分步介绍具体的实现方法。从数据获取与预处理开始，本实施例通过爬虫获得了腾讯新闻的数据，并对数据进行预处理。然后采用命名实体识别工具以及卷积神经网络分类识别出企业实体。再通过LDA主题发现模型，从词汇中寻找出有意义的主题。接着寻找出企业实体与主题的关系，以及企业实体之间的关系。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于主题模型的企业关系发现方法，其特征在于，包括以下步骤：

所述步骤S20包括：

S23、利用卷积神经网络对下载的数据进行分类；

在步骤S23中，采用CNN模型对下载的数据进行分类，输入百科词条，输出企业实体或非企业实体；

Relevancy1_k＝p(word_k1)*O_k1+p(word_k2)*O_k2+…+p(word_kn)*O_kn，其中，O_ki表示

word_ki伴随着该企业实体出现在一句话中的次数；

Relevancy2_k＝p(word_k1)*O_k1+p(word_k2)*O_k2+…+p(word_kn)*O_kn，其中，O_ki表示

word_ki伴随着两个企业实体同时出现在一句话中的次数。

2.根据权利要求1所述的基于主题模型的企业关系发现方法，其特征在于，步骤S10具体如下：通过python语言和Scrapy框架爬取新闻的文本数据，所述文本数据包括新闻标题、新闻内容和新闻时间，并对爬取的新闻数据进行去重、利用jieba进行分词和去停用词的预处理。

3.根据权利要求1所述的基于主题模型的企业关系发现方法，其特征在于，所述步骤S30中，采用jieba工具对动词和名词进行识别，并筛选出其中的动词和名词。

4.根据权利要求1或3所述的基于主题模型的企业关系发现方法，其特征在于，所述步骤S40中，采用LDA模型对名词和动词进行主题发现。

5.根据权利要求4所述的基于主题模型的企业关系发现方法，其特征在于，步骤S50后还包括：选取前N个关联度最大的主题作为企业实体的一阶特征，在该主题下选取伴随企业实体出现在同一句话中的词作为企业实体的二阶特征。

6.根据权利要求1所述的基于主题模型的企业关系发现方法，其特征在于，步骤S60后还包括：选取Relevancy最高的M个主题作为两个企业实体之间相关联的主题特征，然后每个主题下，根据p(word_ki)*O_ki对词进行排序，得到在该主题下，最能表达两个企业实体之间关系的排序。

7.一种实现如权利要求1-6任一项所述的基于主题模型的企业关系发现方法的***，其特征在于，包括：

word_ki伴随着该企业实体出现在一句话中的次数；

word_ki伴随着两个企业实体同时出现在一句话中的次数。