CN104050302B - 一种基于图谱模型的话题探测*** - Google Patents
一种基于图谱模型的话题探测*** Download PDFInfo
- Publication number
- CN104050302B CN104050302B CN201410326508.0A CN201410326508A CN104050302B CN 104050302 B CN104050302 B CN 104050302B CN 201410326508 A CN201410326508 A CN 201410326508A CN 104050302 B CN104050302 B CN 104050302B
- Authority
- CN
- China
- Prior art keywords
- word
- degree
- correlation
- collection
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图谱模型的话题探测***,该***包括预处理模块、图谱结构构造模块和子图探测模块,预处理模块对语料文本集预处理;图谱结构构造模块用于构造表示原型的图谱结构,其顶点为语料文档的词项,其边缘为词对之间的相关度,根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值,构造以实体词为图谱中心的无向图;子图探测模块处理相关度图谱得到每个子图对应的词汇集合,再进行排序筛选得到每个子话题的最终结果。利用本发明,能够自动获得离散文本集合中隐含的话题,可应用于特征空间降维、相关度计算、语义扩展等自然语言处理相关领域。
Description
技术领域
本发明涉及信息抽取、浅语义分析、特征空间降维、命名实体识别、依存句法解析、聚类算法、无向图模型等技术领域,具体地说是一种基于利用实体词和句法信息的图谱模型去探测离散文本集合中隐含话题的话题探测***。
背景技术
浅语义分析在自然语言处理领域中有着重要应用,在判断文档的相关性时需要考虑文档的隐含语义,如何发现离散文档中相似的概念或话题是文本挖掘(Text Mining)研究中的热点问题。作为浅语义分析的重要技术之一,话题模型是其中一种比较有效的模型,并在机器学习其他领域中也有着重要应用。例如,对于相对宽泛的话题“国际政治”可细分为多个相似的子话题:中东局势、朝鲜半岛核问题,美俄关系等等,这涉及到话题的粒度问题,在发现这些主题时,表达这些主题的词汇集合可能包括:冲突、死亡、***、谈判、对话、协商、武装、领导人等等。
传统的潜语义分析(LSA)通过对矢量语义(向量空间模型)进行奇异值分解把高维词汇空间映射到低维的浅语义空间,文档的相似性在这个空间内进行比较,LSA的缺点在于缺少统计基础。近年来,基于概率浅语义分析模型PLSA而改进的更一般化的LDA成为主流方法,这些方法基于词汇的共现而建立统计模型。然而从语义的角度思考,这些方法没用考虑词汇特别是实体词本身携带的语义信息和词汇所在句子上下文存在的依存信息。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于图谱模型的话题探测***,该***基于实体和词对所在共现句中存在的句法依存关系来对词语的相关度进行度量得到词汇之间的相关度并构造词汇相关图谱模型,该图谱模型由相关度邻接矩阵存储表示,随后对得到的邻接矩阵进行聚类,得到话题探测的初步结果,再进行重要性排序之后取top-N,得到了表示每个话题的最终词汇列表。
实现本发明目的的具体技术方案是:
一种基于图谱模型的话题探测***,特点是该***包括预处理模块、图谱结构构造模块和子图探测模块,其中:
预处理模块:对语料库的分句、分词、命名实体识别和依存句法解析的预处理;
图谱结构构造模块:用于构造表示原型的图谱结构,图谱结构为一个无向图,其顶点为语料库的词项,其边缘为词对之间的相关度,根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值,构造以实体词为图谱中心即话题中心的无向图;其中,词对之间的相关度定义如下:
根据词对(vi,vj)是否有实体词和词对之间是否存在依存关系,计算词对的依存相关度和自然距离相关度:
1)如果词对(vi,vj)存在依存关系,则其依存相关度值为:
其中maxLen为常数,代表最大句子长度,dis是词对在句子中的间隔距离,λ是平滑参数;当词对(vi,vj)中至少有一个是实体词,λ=λ1;或者λ=λ2,vi,vj都不是实体词;其中λ1,λ2满足条件0<λ2<λ1<1,e为自然对数底数常数,λ1,λ2为阻尼系数;
2)当词对不存在依存关系,定义词对的自然距离相关度如下:
其中dis是词对在句子中的间隔距离;
对相同词对多次出现,则对其求和,作为图谱中词对(vi,vj)的最终相关度:
其中
式中表示词对在语料中共现的次数,θ为依存相关度和自然距离相关度的权重设置参数,N表示语料库中词汇集合的大小;
子图探测模块:探测图谱中相似的结点,并将相似的结点聚到相同的簇中,得到话题探测结果;具体包括:
1)对图谱结构进行子图划分,采用谱聚类算法(Spectral ClusteringAlgorithm)进行子图探测、划分,得到每个簇的词列表;
2)得到词列表后,根据词所在行向量的最终相关度值求和作为该词的权值,再进行排序,取top-M作为话题探测结果,M为正整数;其中,词vi的权值定义为
与传统的话题探测***相比,本发明更多地结合了语言自身属性如:命名实体和依存解析关系。图谱结构构造模块利用处理后的文本特征建立词汇相关度无向图;然后对无向图应用子图探测算法,采用谱聚类算法得到每个子图对应的词集合列表,最后利用每个词的权值再进行排序,选取top-M作为对应话题的最终探测结果。
利用本发明,可以自动获得离散文本集合中隐含的话题,是对传统基于概率的主题模型的一种补充,可应用于特征空间降维、相关度计算、语义扩展等自然语言处理相关领域。
附图说明
图1为本发明流程图;
图2为本发明图谱结构图,图中,每个顶点代表一个词项,顶点1和顶点10,这里代表实体词,为中心点即图心,其它顶点为非实体词;边代表词汇之间的相关度,两点距离越近则表示相关度越高;
图3为发明实施在搜狗文本分类语料库上的话题探测结果图。
具体实施方式
本发明可针对文本语料集,进行主题探测分析后,获得语料隐藏的主题信息。
实施例
本发明以探测多分类文本为例探测其隐藏的主题信息。下面以搜狗文本分类语料库为例,结合附图对本发明作进一步说明。
搜狗文本分类语料库(链接:http://www.sogou.com/labs/dl/c.html)包括9大类领域新闻文本,分别是:体育、文化、招聘、教育、军事、信息技术、健康、经济、旅游。
参阅图1,本发明包括以下三个模块:
模块1预处理模块,在本实施例中,所述预处理模块利用哈工大语言技术平台云(http://www.ltp-cloud.com/)完成分句、分词、命名实体识别和依存句法解析等预处理工作。该模块的结果用于图谱结构构造模块中的相关度计算。
模块2图谱结构构造模块。在本实施例中,主要是计算词与词之间的相关度,考虑的因素包括词汇本身是否为实体词,所在的句子中的词对是否存在依存关系,并赋予其不同的权值:
1)如果词对(vi,vj)存在依存关系,则其相关度值为:
其中maxLen为常数,代表最大句子长度,dis是词对在句子中的间隔距离,λ是平滑参数。当词对(vi,vj)中至少有一个是实体词,λ=λ1;或者λ=λ2,vi,vj都不是实体词。其中λ1,λ2满足条件0<λ2<λ1<1,e为自然对数底数常数。
2)当词对不存在依存关系,定义词对的自然相关度和所在句子中的位置关系如下:
对相同词对多次出现,则对其求和,作为图谱中词对(vi,vj)的最终相关度:
其中
式中表示词对在语料中共现的次数,θ为依存相关度和自然距离相关度的权重设置参数,在这里设置为0.5。
模块3为子图探测模块。在本实施例中所述的子图探测模块利用谱聚类算法探测图谱中相似的结点,使得相似的结点聚到相同的簇中,簇间尽可能的表现出差异性。包括以下步骤:
1)对图谱结构进行子图划分,采用谱聚类算法进行子图探测、划分,得到每个簇的词列表;这里簇的个数k默认设置为9。
2)得到词列表后,根据词所在行向量的相关度值求和作为该词的权值,再进行排序选取top-M,作为每个话题对应的最终表示结果,如图表3所示。其中词vi的权值定义为
本发明首次将语言学特征信息引入到话题探测任务中来,用于构造共现词对的相关度计算,形成一个以实体词为话题图谱中心的话题探测***。实验表明,该***可以有效地进行探测话题,达到特征空间降维的目的,并且降维后的特征空间可以有效地用于分类任务。
Claims (1)
1.一种基于图谱模型的话题探测***,其特征在于该***包括预处理模块、图谱结构构造模块和子图探测模块,其中:
预处理模块:对语料库的分句、分词、命名实体识别和依存句法解析的预处理;
图谱结构构造模块:用于构造表示原型的图谱结构,图谱结构为一个无向图,其顶点为语料库的词项,其边缘为词对之间的相关度,根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值,构造以实体词为图谱中心即话题中心的无向图;其中,词对之间的相关度定义如下:
根据词对(vi,vj)是否有实体词和词对之间是否存在依存关系,计算词对的依存相关度和自然距离相关度:
1)如果词对(vi,vj)存在依存关系,则其依存相关度值为:
其中maxLen为常数,代表最大句子长度,dis是词对在句子中的间隔距离,λ是平滑参数;当词对(vi,vj)中至少有一个是实体词,λ=λ1;或者λ=λ2,vi,vj都不是实体词;其中λ1,λ2满足条件0<λ2<λ1<1,e为自然对数底数常数,λ1,λ2为阻尼系数;
2)当词对不存在依存关系,定义词对的自然距离相关度如下:
其中dis是词对在句子中的间隔距离;
对相同词对多次出现,则对其求和,作为图谱中词对(vi,vj)的最终相关度:
其中
式中表示词对在语料库中共现的次数,为依存相关度和自然距离相关度的权重设置参数,N表示语料库中词汇集合的大小;
子图探测模块:探测图谱中相似的结点,并将相似的结点聚到相同的簇中,得到话题探测结果;具体包括:
1)对图谱结构进行子图划分,采用谱聚类算法进行子图探测、划分,得到每个簇的词列表;
2)得到词列表后,根据词所在行向量的最终相关度值求和作为该词的权值,再进行排序,取top-M作为话题探测结果,M为正整数;其中,词vi的权值定义为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410326508.0A CN104050302B (zh) | 2014-07-10 | 2014-07-10 | 一种基于图谱模型的话题探测*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410326508.0A CN104050302B (zh) | 2014-07-10 | 2014-07-10 | 一种基于图谱模型的话题探测*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104050302A CN104050302A (zh) | 2014-09-17 |
CN104050302B true CN104050302B (zh) | 2017-05-24 |
Family
ID=51503134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410326508.0A Active CN104050302B (zh) | 2014-07-10 | 2014-07-10 | 一种基于图谱模型的话题探测*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104050302B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462253B (zh) * | 2014-11-20 | 2018-05-18 | 武汉数为科技有限公司 | 一种面向网络文本大数据的话题检测或跟踪方法 |
CN105068661B (zh) * | 2015-09-07 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和*** |
CN106055604B (zh) * | 2016-05-25 | 2019-08-27 | 南京大学 | 基于词网络进行特征扩展的短文本主题模型挖掘方法 |
US20170344711A1 (en) * | 2016-05-31 | 2017-11-30 | Baidu Usa Llc | System and method for processing medical queries using automatic question and answering diagnosis system |
CN108804432A (zh) * | 2017-04-26 | 2018-11-13 | 慧科讯业有限公司 | 一种基于网络媒体数据流发现并跟踪热点话题的方法、***和装置 |
CN107273362B (zh) * | 2017-07-04 | 2020-10-30 | 联想(北京)有限公司 | 数据处理方法及其设备 |
CN110096484B (zh) * | 2019-04-12 | 2023-04-21 | 华东师范大学 | 一种基于Revit的3D模型批量导出方法 |
CN110941697B (zh) * | 2019-11-12 | 2023-08-08 | 清华大学 | 未收录术语检测方法及*** |
CN110874531B (zh) * | 2020-01-20 | 2020-07-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN112988994B (zh) * | 2021-03-04 | 2023-03-21 | 网易(杭州)网络有限公司 | 对话处理方法、装置及电子设备 |
CN113609838B (zh) * | 2021-07-14 | 2024-05-24 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 文档信息抽取及图谱化方法和*** |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591862A (zh) * | 2011-01-05 | 2012-07-18 | 华东师范大学 | 一种基于词共现的汉语实体关系提取的控制方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8165985B2 (en) * | 2007-10-12 | 2012-04-24 | Palo Alto Research Center Incorporated | System and method for performing discovery of digital information in a subject area |
-
2014
- 2014-07-10 CN CN201410326508.0A patent/CN104050302B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591862A (zh) * | 2011-01-05 | 2012-07-18 | 华东师范大学 | 一种基于词共现的汉语实体关系提取的控制方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于中文语法特征的开放领域实体关系抽取;郑珊珊;《中国优秀硕士学位论文全文数据库》;20131215(第S2期);全文 * |
面向微博的消费意图挖掘与分类;高汉东;《中国优秀硕士学位论文全文数据库》;20140415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104050302A (zh) | 2014-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104050302B (zh) | 一种基于图谱模型的话题探测*** | |
Yao et al. | Graph convolutional networks for text classification | |
Rajagopal et al. | A graph-based approach to commonsense concept extraction and semantic similarity detection | |
US10599700B2 (en) | Systems and methods for narrative detection and frame detection using generalized concepts and relations | |
Mohler et al. | Semantic signatures for example-based linguistic metaphor detection | |
US20160357854A1 (en) | Scenario generating apparatus and computer program therefor | |
Gómez-Adorno et al. | Automatic authorship detection using textual patterns extracted from integrated syntactic graphs | |
US20170286867A1 (en) | Methods to determine likelihood of social media account deletion | |
Gast et al. | The areal factor in lexical typology | |
Moro et al. | Efficient self-supervised metric information retrieval: a bibliography based method applied to COVID literature | |
Janusz et al. | Unsupervised similarity learning from textual data | |
Qiu et al. | Advanced sentiment classification of *** microblogs on smart campuses based on multi-feature fusion | |
Gagliardi et al. | Semantic unsupervised automatic keyphrases extraction by integrating word embedding with clustering methods | |
Frisoni et al. | Phenomena explanation from text: Unsupervised learning of interpretable and statistically significant knowledge | |
Wang et al. | Constructing patent maps using text mining to sustainably detect potential technological opportunities | |
Charbel et al. | Resolving XML semantic ambiguity | |
Grayson et al. | Novel2vec: Characterising 19th century fiction via word embeddings | |
Rezaei et al. | Event detection in twitter by deep learning classification and multi label clustering virtual backbone formation | |
Suh | SocialTERM-Extractor: Identifying and predicting social-problem-specific key noun terms from a large number of online news articles using text mining and machine learning techniques | |
Khan et al. | Fake news detection of South African COVID-19 related tweets using machine learning | |
Gan et al. | Microblog sentiment analysis via user representative relationship under multi-interaction hybrid neural networks | |
Arslan et al. | Semantic taxonomy enrichment to improve business text classification for dynamic environments | |
Di Corso et al. | Simplifying text mining activities: scalable and self-tuning methodology for topic detection and characterization | |
Song et al. | Topic modeling and sentiment analysis of social media data to drive experiential redesign | |
Das et al. | Graph-based text summarization and its application on COVID-19 twitter data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |