CN110188191A

CN110188191A - 一种用于网络社区文本的实体关系图谱构建方法和***

Info

Publication number: CN110188191A
Application number: CN201910277242.8A
Authority: CN
Inventors: 吴旭; 颉夏青; 吴海涛; 张熙; 方滨兴
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-08-30

Abstract

本申请公开了一种用于网络社区文本的实体关系图谱构建方法和***，包括：采集网页中的文本，进行实体识别和实体关系抽取，构建语义模型；采集网络社区中的文本，进行实体识别和实体关系抽取，得到网络实体关系集合；使用分类模型对网络实体关系集合进行分类，得到实体对；对所述实体对进行层次分类计算，将实体对融合进语义模型中；对融合后的语义模型进行可视化处理，得到实体关系图谱。使用特定网页中的纯净文本生成语义模型，保证实体关系的准确性和可靠性；使用分类算法和核心实体关系集合训练分类模型，并进行评估，增加了分类的可靠性；将通过评估的网络实体关系集合加进核心语义模型，增加了核心语义模型的丰富性、稳定性和自动扩展性。

Description

一种用于网络社区文本的实体关系图谱构建方法和***

技术领域

本申请涉及信息处理领域，尤其涉及一种用于网络社区文本的实体关系图谱构建方法和***。

背景技术

网络社区与真实社区相同，它包括某些地方、某些人群、某类组织、社区成员的参与以及相同兴趣和文化的某些特征。网络社区提供各种信息交换的手段，如讨论，沟通，聊天等，以便社区居民进行互动。随着互联网的快速发展，人们的现实生活与网络社区的相互关系越来越密切。人们喜欢在网络社区记录自己的日常生活，讨论当下的时政热点、民生百态，对各种新闻热点提出自己的思考和看法，通过多种形式提升自己的社区参与感。人们对网络社区的这种热爱，又促进了网络社区的繁荣发展。网络社区的多样化，满足了人们的使用需求。人们在微博社区上讨论明星生活，在天涯社区上讨论明星八卦，在新闻社区讨论时政热点，在百度贴吧讨论文学等等。网络社区已经渗透进了人们日常生活的方方面面。

随着网络社区的蓬勃发展，其承载的社会属性也越来越多，蕴含的信息量在特定的地域、特定的人群中会形成非常典型的文本特点，其蕴含的信息在一定程度上反映了人们的诉求和意愿。通过分析一个或多个类似网络社区的文本内容所蕴含的具有深层语义关系的舆情事件，可以方便社区管理员进行社区管理和了解社区居民的生活动向，更好的建立社区和为居民的沟通渠道提供有益的指导，从而能够在提高社区活跃度的同时迎合社区居民的所思所想。同时，网络管理和决策机构也可以及时掌握到社区内的热点话题，追踪舆情走向，了解民意呼声，为社区管理和网络治理提供正确的决策与支持。

传统对文本信息的分析主要是通过关键字匹配、话题聚类等技术实现对文本信息的抽取和理解，但这些都只是停留在浅层语义上的信息抽取与分析，无法从深层语义的角度对舆情信息进行挖掘和表述。同时，这些技术研究大多是在新闻领域和医疗领域的长文本上进行的，而网络社区由于其文本内容大多是短文本、且口语化内容较多、文本表述不规范等问题，无法直接使用一种或多种技术来准确的发现和识别其包含的热门舆情信息。

综上所述，需要提供一种适用于网络社区短文本的，能够从深层语义的角度对舆情信息进行挖掘和表述的实体关系图谱构建方法与***。

发明内容

为解决以上问题，本申请提出了一种用于网络社区文本的实体关系图谱构建方法和***。

一方面，本申请提出一种用于网络社区文本的实体关系图谱构建方法，包括：

采集网页中的文本；

对所述网页中的文本进行实体识别和实体关系抽取，构建语义模型；

采集网络社区中的文本；

对所述网络社区中的文本进行实体识别和实体关系抽取，得到网络实体关系集合；

使用分类模型对网络实体关系集合进行分类，得到实体对；

对所述实体对进行层次分类计算，将实体对融合进语义模型中；

对融合后的语义模型进行可视化处理，得到实体关系图谱。

优选地，所述采集网页中的文本，包括：

在当前网页中采集有语义结构的第一文本，搜索文本超链接；

在文本超链接对应的网页中采集有语义结构的第二文本。

优选地，所述实体识别包括：文本预处理、词法分析和/或实体去重。

优选地，所述实体关系抽取包括：依存句法分析和/或语法分析。

优选地，使用分类模型对网络实体关系集合进行分类，得到实体对，包括：

使用核心实体关系集合中的第一实体集合训练实体分类模型；

使用核心实体关系集合中的第一关系集合训练关系分类模型；

将网络实体关系集合中的第二实体集合和第二关系集合分别输入实体分类模型和关系分类模型，得到实体对。

优选地，所述使用核心实体关系集合中的第一实体集合训练实体分类模型，包括：

使用分类算法分类核心实体关系集合中的第一实体集合，训练实体分类模型；

将网络实体关系集合中的一部分实体输入模型中进行分类，输出分类结果，评估分类结果的准确率；

若准确率达到设定值，则使用此实体分类模型对网络实体关系集合中的其他实体进行分类。

优选地，所述使用核心实体关系集合中的第一关系集合训练关系分类模型，包括：

使用分类算法分类核心实体关系集合中的第一关系集合，训练关系分类模型；

将网络实体关系集合中的一部分关系输入模型中进行分类，输出分类结果，评估关系分类结果的准确率；

若准确率达到设定值，则使用此关系分类模型对网络实体关系集合中的其他关系进行分类。

优选地，所述核心实体关系集合是从语义模型中获得。

优选地，所述实体关系集合包括：实体集合和关系集合。

第二方面，本申请提出一种用于网络社区文本的实体关系图谱构建***，包括：

采集模块，用于自动采集网页中的文本和网络社区中的文本；

语义模型模块，用于对采集到的网页中的文本进行实体识别和实体关系抽取，构建语义模型；

文本分析模块，用于对采集到的网络社区中的文本进行实体识别和实体关系抽取，得到网络实体关系集合；

融合与显示模块，用于使用分类模型对网络实体关系集合进行分类，得到实体对；对所述实体对进行层次分类计算，将实体对融合进语义模型中；对融合后的语义模型进行可视化处理，得到实体关系图谱。

本申请的优点在于：使用特定网页中的纯净文本生成语义模型，保证了实体关系的准确性和可靠性；通过对网络社区短文本进行预处理，去除无意义的字符、文本表情、引文等信息，规范获取到的短文本；通过对网络社区短文本的特点进行分析，挖掘其中包含的深层语义实体关系，得到网络社区短文本中的实体关系；通过分类算法以及核心实体关系集合训练分类模型，并使用网络实体关系集合进行评估，增加了分类的可靠性；将通过评估的网络实体关系集合增加进核心语义模型，增加了核心语义模型的丰富性、稳定性和自动扩展性；通过可视化实体关系图谱，能够及时准确发现网络社区热门舆情，进而为社区管理员管理社区、为网络社区的治理提供强有力的决策和支持。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种用于网络社区文本的实体关系图谱构建方法的步骤示意图；

图2是本申请提供的一种用于网络社区文本的实体关系图谱构建方法的文本超链接搜索的示意图；

图3是本申请提供的一种用于网络社区文本的实体关系图谱构建方法的实体识别的示意图；

图4是本申请提供的一种用于网络社区文本的实体关系图谱构建方法的短文本分词示意图；

图5是本申请提供的一种用于网络社区文本的实体关系图谱构建方法的实体关系抽的示意图；

图6是本申请提供的一种用于网络社区文本的实体关系图谱构建方法的三级层次结构的语义模型示意图；

图7是本申请提供的一种用于网络社区文本的实体关系图谱构建***的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种用于网络社区文本的实体关系图谱构建方法，如图1所示，包括：

S101，采集网页中的文本；

S102，对所述网页中的文本进行实体识别和实体关系抽取，构建语义模型；

S103，采集网络社区中的文本；

S104，对所述网络社区中的文本进行实体识别和实体关系抽取，得到网络实体关系集合；

S105，使用分类模型对网络实体关系集合进行分类，得到实体对；

S106，对所述实体对进行层次分类计算，将实体对融合进语义模型中；

S107，对融合后的语义模型进行可视化处理，得到实体关系图谱。

所述采集网页中的文本，包括：

在文本超链接对应的网页中采集有语义结构的第二文本。

所述当前网页包括百度百科和互动百科等来自于互联网中他人已整理好的网页。由于网络社区文本的存在是杂乱的、无规则的，即使对这些文本内容进行处理，得到的结果也是凌乱的，不成体系的。所以在构建语义模型时，需要使用百度百科和互动百科等来自于互联网中他人已整理好的网页。此类网页中的文本是与各领域密切相关的、有严密组织结构的层次文本，通过搜索文本中的超链接，进入与其相关联的其他网页文本中进行文本采集，能够对当前内容进行层次挖掘。

所述超链接的搜索级数和次数可以设定。

如图2所示，以从某一网页搜索文本超链接为例，假设级数设定为3，即从当前网页搜索到的所有文本超链接为第1级，根据这些文本超链接，进入下一层(第2层)的各网页进行文本超链接搜索，在第2层的各网页搜索到的所有文本超链接为第2级，根据这些文本超链接进入下一层(第3层)的各网页进行文本超链接搜索，在第3层的各网页搜索到的所有文本超链接为第3级，根据这些文本超链接进入下一层(第4层)的各网页进行文本采集，不再搜索超链接。

如图3所示，所述实体识别包括：文本预处理、词法分析和/或实体去重。

所述实体识别使用隐马尔可夫模型。

实体识别是对文本中的名词词组进行识别和标注的过程。

所述文本预处理包括噪声去除和格式转换。

所述噪声去除包括：去除html标签、去除引文、去除文本表情、去除无意义字符、去除顶帖回复等。

由于网络社区文本不同于新闻语料，它采集于社区论坛，以主题帖子和跟帖的形式存在。它是一种非结构化的、包含图片、表情、视频等多媒体信息的内容，又由于它基于互联网进行生产和传播，因此会包含一些无用的超文本标记标签(html标签)和灌水回复，所以在正式进行文本分析之前，需要对其进行一系列预处理。

由于Windows、Linux和Mac等***默认的文本编码格式不同，会导致不同平台采集到的网络社区文本的格式不相同。Windows文本的默认编码是ANSI，它是***预设的标准文字存储格式，但在分词时，须要输入文本的格式为UTF-8，因此需要对采集的网络社区文本进行格式转换，统一转化为支持分词的UTF-8文本格式。

短文本分词指对文本中的句子进行切分，从而得到多个词组的过程。

中文分词算法包括：基于词库匹配的分词算法、基于词的频度统计的分词算法和基于规则的分词算法。

基于词库匹配的算法包括：最大正向匹配算法和最大逆向匹配算法等。

基于统计的分词算法包括：互信息的概率统计算法和组合度算法等。

所述词法分析包括：短文本分词和词性标注。

短文本分词和词性标注用于将句子切分成正确的词语集合。

以“小王打小李”为例，此句的词法分析结果为“小王(名词)/打(动词)/小李(名词)”。通过短文本分词和词性标注，可以很清晰的看到该句子中包含的人名实体(小王、小李)。短文本分词和词性标注过程不仅要识别人名实体、还需要识别地名、机构名等实体名词。

在分词的过程中，还使用匹配算法和消歧算法，提升分词的效率和准确度。

如图4所示，词库是根据网络社区高校舆情领域文本特点，创建的自定义词库(自建词典)，其内容与网络社区文本密切相关。通过短文本分词，对网络社区中的文本进行英语、汉语分离；根据词库中的各词块，对中文(汉语)文本进行匹配计算和消歧计算，得到切分好的词语集合(分词结果)。在得到短文本分词的结果后，还需要对结果(实体关系集合)中的人名、地名、机构名和其它实体进行识别。

由于网络社区中的文本是以发帖和回复为主要展现形式，因此会包含大量重复的实体，为了保证实体关系抽取的准确性，要对实体进行去重操作。

所述实体关系抽取包括：依存句法分析和/或语法分析。

实体关系抽取是指从自然语言描述的语料中获取命名实体之间存在的关系，比如人名与组织机构之间可能存在雇佣关系等，常见的有雇佣关系、地理位置关系、隶属关系、整体与部分关系等。与实体抽取类似，实体关系的类型也是预先定义的。实体关系抽取是命名实体识别的深入探索，可以为事件内容提取、自动问答、机器翻译和自然语言处理等问题提供前提条件。

如图5所示，对经过实体识别后的网络社区文本中的句子进行依存句法分析，分析出句子各成分的组成，根据分析中文得到的语句特点(语法分析)，抽取实体间的关系。

依存句法分析是对句子中各个成分的依赖关系进行分析进而找到句子的句法结果。该分析认为句子中的支配者是核心动词，如有其它成分支配核心动词，这些被支配者都会以某种形式依赖于支配者。即：在依存句法分析识别出的句子中的“主谓宾”、“定状补”这些语法成分与这些成分的位置无关。

根据论元(实体)和论元、论元和关系表述之间的距离，为每两个论元组合计算置信度。置信度越低，论元之间、论元与关系表述之间存在语义关系的可能性就越小。

通过获得网络社区文本中句子的依存句法关系表述以及对置信度的计算，能够正确抽取出实体对中的语法关系，得到网络实体关系集合。

所述使用分类模型对网络实体关系集合进行分类，得到实体对，包括：

分类是为各实体及各实体关系建立多个主题(领域)。将待分类的数据(实体关系集合)输入分类模型，经过模型运算输出对应的分类类别。

由于语义模型中的实体和实体关系是来源于与各领域密切相关的、有严密组织结构的层次文本，所以在训练分类模型时，使用核心实体关系集合。

在没有当前需要的某一领域的实体分类模型和关系分类模型时，使用核心实体关系集合中的第一实体集合训练实体分类模型，使用核心实体关系集合中的第一关系集合训练关系分类模型，得到当前需要的某一领域的分类模型。若已有当前需要的某一领域的实体分类模型和关系分类模型时，直接使用。

分类模型使用的分类算法包括：朴素贝叶斯算法、决策树算法、向量机(SupportVector Machines,SVM)算法和卷积神经网络(Convolutional Neural Networks,CNN)算法等。

所述使用核心实体关系集合中的第一实体集合训练实体分类模型，包括：

使用核心实体关系集合中的第一实体集合(训练集)训练实体分类模型，得到当前需要的某一领域的分类模型和分类规则。将网络实体关系集合中的一部分实体作为测试集，输入此分类模型中进行分类。对分类好的测试集进行评测，若评测值超过(高于)设定的评测阈值，则将所述测试集合并至核心实体关系集合中，对核心实体关系集合进行扩充。

所述使用核心实体关系集合中的第一关系集合训练关系分类模型，包括：

将网络实体关系集合中的一部分关系输入模型中进行分类，输出分类结果，评估分类结果的准确率；

使用核心实体关系集合中的第一关系集合(训练集)训练关系分类模型，得到当前需要的某一领域的分类模型和分类规则。将网络实体关系集合中的一部分关系作为测试集，输入此分类模型中进行分类。对分类好的测试集进行评测，若评测值超过设定的评测阈值，则将所述测试集合并至核心实体关系集合中，对核心实体关系集合进行扩充。

所述作为测试集的一部分实体的数量可以设定，即作为测试集输入分类模型中的网络实体关系集合中的实体和关系的量可以设定。

评测指标有三个值：准确率P、召回率R和F值。公式如下：

F＝R*P*(1+A²)/(R+P*A²)。

其定义分别如下所示：

P表示正确识别该类命名实体数/识别出该类命名实体总数*100％；

R表示正确识别该类命名实体数/该类命名实体总数*100％；

A为参数，可以设定，这里取A＝1，所以此处的F值又称为F-1值。

评测值一般由以上三个值一起决定。

所述各输入对应的分类模型中进行分类的实体和/或实体关系，若评测值超过评测阈值，则都放入对应分类的核心实体关系集合中，扩充对应分类的语料库。

对得到的各实体对进行层次分类计算，将实体对融合进语义模型中。

通过分类算法和层次分类，能够将新识别的实体和实体关系进行定位，从而与核心语义模型进行实体融合和关系融合，实现语义模型的自生长。

计算不同主题的特征词语义关联度需要构建具有层次结构的语义树，再使用逆向词频过滤(Term Frequency–Inverse Document Frequency，TF-IDF)算法进行关联度计算。

在分类计算和层次分类计算的过程中，还需要进行关联度计算。

逆向词频过滤的主要目的是过滤一些在文本中经常出现，但意义不大的词语，保留重要性比较大的词语，该方法也用于对特征空间降维和特征提取。通过逆向词频过滤衡量实体特征词与文本集之间的关系，该特征词在文本集中某个文件中出现的次数越多，对该文件就越重要。

语义树的层次结构可以人为确定，以将高校指定为根节点，建立一个简单的三级层次结构的语义模型为例，如图6所示。其根节点与子节点的关联度为子节点主题含有的文本数占总文本数的权重；子节点与相邻的叶子节点之间的关联度为叶子节点特征词权重，其TF-IDF权重值可以用如下式子进行计算：

其中，N为文本总数，n(w)为包含w的文本数。

IDF(w)表示实体词w的TF值。

同一个主题节点下的叶子节点之间的关联度为两个叶子节点到公共父节点关联度的乘积，其关联度可以用如下式子进行计算：

TF表示在实体集中某个实体出现的次数与本文中所有实体出现的次数的商。如果某个实体在某个主题文本下的出现频率较大，则说明该实体与该主题相关，可以对其词频进行统计。

通过关联度的计算，可以得出各个主题与特征词之间的关联度和各个主题下特征词之间的关联度。获取了各个实体对与语义模型中特征词关联度后，就可以将各个实体对***到语义模型中的正确的位置，与语义模型进行融合。

所述可视化处理通过使用可视化工具实现。

文本的来源、文本的原始内容以及语义网络都会进行保存，方便溯源、再次读取和调用。

所述文本的来源主要包括：社区名称、文本的详细链接以及与该文本相关的其它文本内容。

所述文本的原始内容包括未经过预处理的文本。

所述语义网络包括可视化图谱中的实体和实体间的关系以及文本的对应关系。

所述各语义模型、网络实体关系集合、核心实体关系集合、语料库等数据都会进行存储。

所述核心实体关系集合是从语义模型中获得。

所述实体关系集合包括：实体集合和关系集合。

所述识别包括标注。

根据本申请的实施方式，还提出一种用于网络社区文本的实体关系图谱构建***，如图7所示，包括：

采集模块101，用于自动采集网页中的文本和网络社区中的文本；

语义模型模块102，用于对采集到的网页中的文本进行实体识别和实体关系抽取，构建语义模型；

文本分析模块103，用于对采集到的网络社区中的文本进行实体识别和实体关系抽取，得到网络实体关系集合；

融合与显示模块104，用于使用分类模型对网络实体关系集合进行分类，得到实体对；对所述实体对进行层次分类计算，将实体对融合进语义模型中；对融合后的语义模型进行可视化处理，得到实体关系图谱。

所述融合与显示模块还包括可视化存储，用于存储文本的来源、文本的原始内容以及语义网络。

语义模型模块还用于存储各语义模型、网络实体关系集合、核心实体关系集合、语料库等数据。

本申请的方法中，使用特定网页中的纯净文本生成语义模型，保证了实体关系的准确性和可靠性；通过对网络社区短文本进行预处理，去除无意义的字符、文本表情、引文等信息，规范获取到的短文本；通过对网络社区短文本的特点进行分析，挖掘其中包含的深层语义实体关系，得到网络社区短文本中的实体关系；通过分类算法以及核心实体关系集合训练分类模型，并使用网络实体关系集合进行评估，增加了分类的可靠性；将通过评估的网络实体关系集合增加进核心语义模型，增加了核心语义模型的丰富性、稳定性和自动扩展性；通过可视化实体关系图谱，能够及时准确发现网络社区热门舆情，进而为社区管理员管理社区、为网络社区的治理提供强有力的决策和支持。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于网络社区文本的实体关系图谱构建方法，其特征在于，包括：

采集网页中的文本；

采集网络社区中的文本；

使用分类模型对网络实体关系集合进行分类，得到实体对；

对融合后的语义模型进行可视化处理，得到实体关系图谱。

2.如权利要求1所述的一种用于网络社区文本的实体关系图谱构建方法，其特征在于，所述采集网页中的文本，包括：

在文本超链接对应的网页中采集有语义结构的第二文本。

3.如权利要求1所述的一种用于网络社区文本的实体关系图谱构建方法，其特征在于，所述实体识别包括：文本预处理、词法分析和/或实体去重。

4.如权利要求1所述的一种用于网络社区文本的实体关系图谱构建方法，其特征在于，所述实体关系抽取包括：依存句法分析和/或语法分析。

5.如权利要求1所述的一种用于网络社区文本的实体关系图谱构建方法，其特征在于，使用分类模型对网络实体关系集合进行分类，得到实体对，包括：

6.如权利要求5所述的一种用于网络社区文本的实体关系图谱构建方法，其特征在于，所述使用核心实体关系集合中的第一实体集合训练实体分类模型，包括：

7.如权利要求5所述的一种用于网络社区文本的实体关系图谱构建方法，其特征在于，所述使用核心实体关系集合中的第一关系集合训练关系分类模型，包括：

8.如权利要求1所述的一种用于网络社区文本的实体关系图谱构建方法，其特征在于，所述核心实体关系集合是从语义模型中获得。

9.如权利要求1所述的一种用于网络社区文本的实体关系图谱构建方法，其特征在于，所述实体关系集合包括：实体集合和关系集合。

10.一种用于网络社区文本的实体关系图谱构建***，其特征在于，包括：