CN104050302B

CN104050302B - 一种基于图谱模型的话题探测***

Info

Publication number: CN104050302B
Application number: CN201410326508.0A
Authority: CN
Inventors: 林欣; 赵昂; 杨静; 贺樑
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-07-10
Filing date: 2014-07-10
Publication date: 2017-05-24
Anticipated expiration: 2034-07-10
Also published as: CN104050302A

Abstract

本发明公开了一种基于图谱模型的话题探测***，该***包括预处理模块、图谱结构构造模块和子图探测模块，预处理模块对语料文本集预处理；图谱结构构造模块用于构造表示原型的图谱结构，其顶点为语料文档的词项，其边缘为词对之间的相关度，根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值，构造以实体词为图谱中心的无向图；子图探测模块处理相关度图谱得到每个子图对应的词汇集合，再进行排序筛选得到每个子话题的最终结果。利用本发明，能够自动获得离散文本集合中隐含的话题，可应用于特征空间降维、相关度计算、语义扩展等自然语言处理相关领域。

Description

一种基于图谱模型的话题探测***

技术领域

本发明涉及信息抽取、浅语义分析、特征空间降维、命名实体识别、依存句法解析、聚类算法、无向图模型等技术领域，具体地说是一种基于利用实体词和句法信息的图谱模型去探测离散文本集合中隐含话题的话题探测***。

背景技术

浅语义分析在自然语言处理领域中有着重要应用，在判断文档的相关性时需要考虑文档的隐含语义，如何发现离散文档中相似的概念或话题是文本挖掘(Text Mining)研究中的热点问题。作为浅语义分析的重要技术之一，话题模型是其中一种比较有效的模型，并在机器学习其他领域中也有着重要应用。例如，对于相对宽泛的话题“国际政治”可细分为多个相似的子话题：中东局势、朝鲜半岛核问题，美俄关系等等，这涉及到话题的粒度问题，在发现这些主题时，表达这些主题的词汇集合可能包括：冲突、死亡、***、谈判、对话、协商、武装、领导人等等。

传统的潜语义分析(LSA)通过对矢量语义(向量空间模型)进行奇异值分解把高维词汇空间映射到低维的浅语义空间，文档的相似性在这个空间内进行比较，LSA的缺点在于缺少统计基础。近年来，基于概率浅语义分析模型PLSA而改进的更一般化的LDA成为主流方法，这些方法基于词汇的共现而建立统计模型。然而从语义的角度思考，这些方法没用考虑词汇特别是实体词本身携带的语义信息和词汇所在句子上下文存在的依存信息。

发明内容

本发明的目的是针对现有技术的不足而提供的一种基于图谱模型的话题探测***，该***基于实体和词对所在共现句中存在的句法依存关系来对词语的相关度进行度量得到词汇之间的相关度并构造词汇相关图谱模型，该图谱模型由相关度邻接矩阵存储表示，随后对得到的邻接矩阵进行聚类，得到话题探测的初步结果，再进行重要性排序之后取top-N，得到了表示每个话题的最终词汇列表。

实现本发明目的的具体技术方案是：

一种基于图谱模型的话题探测***，特点是该***包括预处理模块、图谱结构构造模块和子图探测模块，其中：

预处理模块：对语料库的分句、分词、命名实体识别和依存句法解析的预处理；

图谱结构构造模块：用于构造表示原型的图谱结构，图谱结构为一个无向图，其顶点为语料库的词项，其边缘为词对之间的相关度，根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值，构造以实体词为图谱中心即话题中心的无向图；其中，词对之间的相关度定义如下：

根据词对(v_i,v_j)是否有实体词和词对之间是否存在依存关系，计算词对的依存相关度和自然距离相关度：

1)如果词对(v_i,v_j)存在依存关系，则其依存相关度值为：

其中maxLen为常数，代表最大句子长度,dis是词对在句子中的间隔距离，λ是平滑参数；当词对(v_i,v_j)中至少有一个是实体词，λ＝λ₁；或者λ＝λ₂，v_i,v_j都不是实体词；其中λ₁，λ₂满足条件0<λ₂<λ₁<1，e为自然对数底数常数，λ₁,λ₂为阻尼系数；

2)当词对不存在依存关系，定义词对的自然距离相关度如下：

其中dis是词对在句子中的间隔距离；

对相同词对多次出现，则对其求和，作为图谱中词对(v_i,v_j)的最终相关度：

其中

式中表示词对在语料中共现的次数，θ为依存相关度和自然距离相关度的权重设置参数，N表示语料库中词汇集合的大小；

子图探测模块：探测图谱中相似的结点，并将相似的结点聚到相同的簇中，得到话题探测结果；具体包括：

1)对图谱结构进行子图划分，采用谱聚类算法(Spectral ClusteringAlgorithm)进行子图探测、划分，得到每个簇的词列表；

2)得到词列表后，根据词所在行向量的最终相关度值求和作为该词的权值，再进行排序，取top-M作为话题探测结果，M为正整数；其中，词v_i的权值定义为

与传统的话题探测***相比，本发明更多地结合了语言自身属性如：命名实体和依存解析关系。图谱结构构造模块利用处理后的文本特征建立词汇相关度无向图；然后对无向图应用子图探测算法，采用谱聚类算法得到每个子图对应的词集合列表，最后利用每个词的权值再进行排序，选取top-M作为对应话题的最终探测结果。

利用本发明，可以自动获得离散文本集合中隐含的话题，是对传统基于概率的主题模型的一种补充，可应用于特征空间降维、相关度计算、语义扩展等自然语言处理相关领域。

附图说明

图1为本发明流程图；

图2为本发明图谱结构图，图中，每个顶点代表一个词项，顶点1和顶点10，这里代表实体词，为中心点即图心，其它顶点为非实体词；边代表词汇之间的相关度，两点距离越近则表示相关度越高；

图3为发明实施在搜狗文本分类语料库上的话题探测结果图。

具体实施方式

本发明可针对文本语料集，进行主题探测分析后，获得语料隐藏的主题信息。

实施例

本发明以探测多分类文本为例探测其隐藏的主题信息。下面以搜狗文本分类语料库为例，结合附图对本发明作进一步说明。

搜狗文本分类语料库(链接：http://www.sogou.com/labs/dl/c.html)包括9大类领域新闻文本，分别是：体育、文化、招聘、教育、军事、信息技术、健康、经济、旅游。

参阅图1，本发明包括以下三个模块：

模块1预处理模块，在本实施例中，所述预处理模块利用哈工大语言技术平台云(http://www.ltp-cloud.com/)完成分句、分词、命名实体识别和依存句法解析等预处理工作。该模块的结果用于图谱结构构造模块中的相关度计算。

模块2图谱结构构造模块。在本实施例中，主要是计算词与词之间的相关度，考虑的因素包括词汇本身是否为实体词，所在的句子中的词对是否存在依存关系，并赋予其不同的权值：

1)如果词对(v_i,v_j)存在依存关系，则其相关度值为：

其中maxLen为常数，代表最大句子长度,dis是词对在句子中的间隔距离，λ是平滑参数。当词对(v_i,v_j)中至少有一个是实体词，λ＝λ₁；或者λ＝λ₂，v_i,v_j都不是实体词。其中λ₁，λ₂满足条件0<λ₂<λ₁<1，e为自然对数底数常数。

2)当词对不存在依存关系，定义词对的自然相关度和所在句子中的位置关系如下：

其中

式中表示词对在语料中共现的次数，θ为依存相关度和自然距离相关度的权重设置参数，在这里设置为0.5。

模块3为子图探测模块。在本实施例中所述的子图探测模块利用谱聚类算法探测图谱中相似的结点，使得相似的结点聚到相同的簇中，簇间尽可能的表现出差异性。包括以下步骤：

1)对图谱结构进行子图划分，采用谱聚类算法进行子图探测、划分，得到每个簇的词列表；这里簇的个数k默认设置为9。

2)得到词列表后，根据词所在行向量的相关度值求和作为该词的权值，再进行排序选取top-M，作为每个话题对应的最终表示结果，如图表3所示。其中词v_i的权值定义为

本发明首次将语言学特征信息引入到话题探测任务中来，用于构造共现词对的相关度计算，形成一个以实体词为话题图谱中心的话题探测***。实验表明，该***可以有效地进行探测话题，达到特征空间降维的目的，并且降维后的特征空间可以有效地用于分类任务。

Claims

1.一种基于图谱模型的话题探测***，其特征在于该***包括预处理模块、图谱结构构造模块和子图探测模块，其中：

1)如果词对(v_i,v_j)存在依存关系，则其依存相关度值为：

{Er}_{(v_{i}, v_{j})} = \frac{\cos (π * \frac{1 + d i s}{\max L e n})}{\ln (e + d i s)} + λ

{Nr}_{(v_{i}, v_{j})} = \frac{1}{1 + d i s}

其中dis是词对在句子中的间隔距离；

W_{i j} = Σ_{1}^{N} w_{i j} * l n (\frac{N}{1 + {cr}_{(v_{i}, v_{j})}})

其中

w_{i j} = θ * {Er}_{(v_{i}, v_{j})} + (1 - θ) * {Nr}_{(v_{i}, v_{j})}

式中表示词对在语料库中共现的次数，为依存相关度和自然距离相关度的权重设置参数，N表示语料库中词汇集合的大小；

1)对图谱结构进行子图划分，采用谱聚类算法进行子图探测、划分，得到每个簇的词列表；

2)得到词列表后，根据词所在行向量的最终相关度值求和作为该词的权值，再进行排序，取top-M作为话题探测结果,M为正整数；其中，词v_i的权值定义为