CN108595425A

CN108595425A - 基于主题与语义的对话语料关键词抽取方法

Info

Publication number: CN108595425A
Application number: CN201810357602.0A
Authority: CN
Inventors: 黄青松; 胡迁; 李帅彬; 郎冬冬; 郭勃; 宋莉娜
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2018-09-28

Abstract

本发明涉及一种基于主题与语义的对话语料关键词抽取方法，属于自然语言处理技术领域。本发明将预处理后的对话语料与中文语料结合训练得到词向量和主题模型；结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重，并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词，简称KSel方法；利用TF‑IDF方法通过计算词频、逆向文件频率抽取关键词；将TF‑IDF方法和KSel方法抽取的关键词作为节点，基于节点间语义相似度作为边的权重建图，通过图迭代得到最终的关键词。本发明有效的解决传统算法忽略语义和主题的问题，同时兼顾词语频率。

Description

基于主题与语义的对话语料关键词抽取方法

技术领域

本发明涉及基于主题与语义的对话语料关键词抽取方法，属于自然语言处理技术领域。

背景技术

关键词有助于提高文本分类、信息检索等自然语言处理任务的性能。因此国内外出现了不少自动关键词抽取或生成的研究。近年来，随着即时聊天、网购咨询、自动问答***等社交网络的迅猛发展，积累了大量的对话特性文档，对话记录隐含了人们聊天的情景和目的，反映了对话者的兴趣。从对话中抽取关键词可以用来总结、组织、检索对话内容，也可被用于用户个人服务、广告推荐等。相较于传统长文本，这类数据具有对话性、短文本、结构松散等特点，导致关键词难以遴选。传统关键词抽取主要集中在网页检索，科技文献和文本文档等领域，方法主要分为有监督方法和无监督方法。有监督方法采用人工标注的关键词文档训练分类器得到关键词。无监督方法主要计算词的显著性权值，然后排序推荐。但是针对对话语料的关键词抽取的研究较少，由于对话文本对话性、短文本、结构松散等特点，采用传统的关键词抽取方法是否有效值得怀疑。目前根据国内外针对对话语料的关键词抽取技术的研究可以得出，简单的基于TF-IDF的关键词抽取方法优于基于图的方法，而且词性的过滤和句子重要性得分有助于关键词抽取，但是基于共现词的聚类方法不会拾取词的语义相似性。利用最大熵分类器决定某个一元词是否为关键词，虽然同时考虑了二元词的扩展，但是需要标注关键词训练分类器而对话语料中标注好关键词的文档很匮乏。

对此，本发明所提方法聚焦语义和主题信息，结合词语义聚类，词性权重，句子主题相关性等多权重来抽取关键词，提出一种基于主题与语义的对话语料关键词抽取方法，简称KSeL方法。最后，TF-IDF方法和KSel得到的关键词做为节点，基于语义建立图，通过图迭代得到最终的关键词，简称为GKSeL方法。

发明内容

本发明提供了基于主题与语义的对话语料关键词抽取方法，以用于解决对话语料关键词抽取传统算法忽略语义和主题导致关键词抽取准确性不高、有效性差的问题。

本发明的技术方案是：基于主题与语义的对话语料关键词抽取方法，所述方法的具体步骤如下：

Step1、首先爬取中文语料和访谈节目的对话语料，其次对对话语料和中文语料进行预处理；

Step2、将预处理后的对话语料与中文语料结合训练得到词向量和主题模型；

Step3、结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重，并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词，简称 KSel方法；

Step4、利用TF-IDF方法通过计算词频、逆向文件频率抽取关键词；

Step5、将TF-IDF方法和KSel方法抽取的关键词作为节点，基于节点间语义相似度作为边的权重建图，通过图迭代得到最终的关键词，简称GKSel方法。

进一步的，所述步骤Step1的具体步骤为：

Step1.1、首先人工编写爬虫程序，爬取中文语料和访谈节目中的对话语料；

Step1.2、把已爬取的对话语料，经过过滤、去重得到不重复的对话语料，并把对话语料和中文语料存放到数据库中；

本发明考虑到爬取的对话语料可能存在重复，这些重复语料增加了工作量，而没有太大意义，所以需要过滤、去重，得到不重复的对话语料，存放在数据库是为了能方便数据的管理和使用。

Step1.3、对数据库中的语料进行分词、去停用词、清洗特殊符号相关的预处理工作，得到干净的语料。

本发明考虑到直接将文本切分为多个字符组成的字符串形式，会造成原文本中字、词、段落之间语言学信息的丢失。所以对对话语料进行预处理工作，其中包括中文分词、去停用词。方便后续工作的进行。

所述步骤Step2的具体步骤为：

Step2.1、对对话语料和中文语料使用word2vec进行词向量训练，得到词的向量表示，即词向量；

考虑到对话预料中特征词数较多，并且其中存在大量同义词，上下文依赖严重，为了避免出现特征词冗余的问题，发明首先使用word2vec对文本进行处理，借助 word2vec在语义信息表征的优越性把文本中每个词转化为向量表示。

Step2.2、对对话语料和中文语料进行LDA建模训练，得到对话语料的主题模型。

所述步骤Step3的具体步骤为：

Step3.1、考虑词与文本中所有句子的相似，得到词的全局相似值作为词语义权重；

如果一个词的语义与对话语句的语义越相似，则该词越能够代表该句子表示的语义信息，基于词的语义信息计算词的的局部权重和全局权重。由此，方法考虑词语与文本中所有句子的相似，得到词的全局相似值作为词的语义权重。

Step3.2、根据词的语义相似度进行聚类，根据聚类中词的个数占文本总词数作为该类词语义聚类权重；

对话过程中可能会反复提到某个词来强调意图，同时，会话可能用不同的词代表相似的意思，对话所含词语中，如果某几个或多个词语相似，至少说明文本中涉及该类信息。所以本文方法根据词的语义相似度进行聚类，根据得到的类中词语的个数占文本总词数作为该类词的语义聚类权重。

Step3.3、考虑词性的权重，定义不同词性的权重值；

实验表明通过词性过滤只保留动词、名词、形容词作为候选词对关键词抽取有帮助，所以方法考虑词性的权重。

Step3.4、综合考虑词语义权重、词语义聚类权重、词性权重，最终得到词权重，并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词。所述

所述步骤Step4的具体步骤为：

Step4.1、利用TF-IDF方法计算预处理后得到的对话语料中每个词的词频；

Step4.2、利用TF-IDF方法计算预处理后得到的对话语料中每个词的逆向文件频率；

Step4.3、利用Step4.1和Step4.2获得的词频和逆向文件频率抽取出关键词。

所述步骤Step5的具体步骤为：

Step5.1、将利用步骤Step3中抽取出的对话语料中的关键词和步骤Step4抽取出的关键词综合得到混合的关键词；

Step5.2、以Step5.1中得到的混合关键词作为节点，词间的语义相似度作为边构建图，然后通过迭代计算，得到基于图的词的权重得分，根据基于图的词的权重得分选出关键词。

基于图的图中边权重主要考虑的TF-IDF。但是，因为人们对关键词理解有不同的认知，基于语义的关键词概括性可能不如基于频率抽取的关键词，反之依然。所以，考虑将两种方法的抽取的关键词混合，然后基于图的迭代计算词的权重，最后基于图的词的权重得分选出得分最高的N个词，N可以取10，期望能综合利用到词的语义和频率信息。

为了比较算法的性能，使用TF-IDF和基于图的TextRank方法作为对比方法。采用两种评价方法的性能，第一种采用自动评价方法，第二种方法采用拒绝率评价，拒绝率代表有多少抽取的关键词是不可以被人接受的。

对本发明做进一步阐述的，所述步骤Step2、Step3和Step4中：

(1)提到的基于TF-IDF的关键词抽取方法：

TF-IDF的含义是词频逆文档频率，其假设是，高频率词应该具有较高的权重，除非它也是高文档频率。如果某个词比较少见，但是它在某篇文档中多次出现，那么它很有可能就反映了这篇文章的特性，正是我们所需要的关键词。

计算词频：

词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(Term Count)的归一化，以防止它偏向长的文件。对于在某一特定文件里的词语t_i来说，它的重要性可表示为：

以上公式中，分子n_i,j是该词t_i在文件d_j中出现的次数，而分母则是在文件中所有字词的出现次数之和。

计算逆向文件频率：

逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。

其中，|D|表示语料库中的文件总数，|{j:t_i∈d_j}|表示包含词语t_i的文件数目。如果该词语不在语料库中，就会导致分母为0，因此一般情况下使用1+|{j:t_i∈d_j}|作为分母。

最后计算TF与IDF的乘积：

TF-IDF＝TF×IDF

计算得出文档中每个词的TF‐IDF值，将N个最高TF‐IDF值的词作为关键词。

(2)提到的词语义权重的计算方法：

计算句子的主题相似性权重:

含有信息的语句很大程度上与主题相关，反之没有信息的语句包含的词多是无意义或习惯性词语.重要的句子通常包含关键词，关键词也经常出现在重要句子中。因此考虑句子的主题权重，首先通过训练的主题模型得到给定对话文档的主题 T＝{t₁,t₂,…,t_k}，然后,计算文档中每个句子S＝{w₁,w₂,…,w_m}与主题T的相似度。相似度WeightS_i计算如下：

计算词与句子的相似度：

如果一个词的语义与对话语句的语义越相似，则该词越能够代表该句子表示的语义信息，基于词的语义信息计算词的的局部权重和全局权重。由此，方法考虑词语与文本中所有句子的相似，得到词的全局相似值作为词的语义权重。词与句子的相似性WeightW_i计算如下：

其中w1代表候选关键词，w2_i代表含有m个词的句子中的第i个词。

词与全文语义相似度权重：

词语句子相似度高，但句子与对话主题不相关，则词不能很好的代表对话内容。因此，考虑词语与句子相似性的同时需要考虑句子的主题关联性。句子与主题关联性越高，则句子越能够代表主题。最终得到词语义权重Wweight计算如下：

其中m表示对话文本含有的句子的个数，即WeightS_i代表句子i与主题的相似权重，WeightW_i代表词w与句子i的语义相似度。

(3)提到的词语义聚类权重的计算方法:

对话过程中可能会反复提到某个词来强调意图，同时，会话可能用不同的词代表相似的意思，对话所含词语中，如果某几个或多个词语相似，至少说明文本中涉及该类信息。所以本文方法根据词的语义相似度进行聚类，根据得到的类中词语的个数占文本总词数作为该类词的语义聚类权重。本文采用快速聚类方法，该方法假设聚类中心周围都是密度比其低的点，同时，相比于其他聚类中心，这些点距离该聚类中心的距离最近，对于每个数据点i，需要计算两个量：局部密度ρ_i和高于i 点密度的最小距离δ_i。

局部密度定义如下：

当χ＜0时；χ(x)＝1，否则等于0。这里d_c是一个截断距离，这里选择比较鲁棒性，因此算法中d_c定义为文中所有点的相互距离由小到大排列占总数2％的位置的词间距离。

距离定义如下：

比i点密度高的所有点中，与i点距离最近的点的距离表示为δ_i，对于最大密度的点其δ_i为所有点之间距离的最大值。然后给定两δ_min和ρ_min，同时大于这两个数的点作为聚类中心点。确定聚类中心后，剩下的点的标签按照以下原则分配：当前点的类别标签和高于当前点密度的最近点的标签一致。据此得到候选词w的聚类权重 ClusterW如下：

ClusterW＝num₁/num

其中num₁是候选词所属类中词语的数目，num是所有候选词数目，同一聚类中所有词拥有相同的聚类权重。

(4)提到的词语义聚类权重的计算方法:

考虑词性权重PosWeight、词语义聚类权重ClusterW、词的语义权重W_weight，最终得到词权重Wscore计算如下：

W_sco_re＝PosWeight*(ClusterW+W_weight)

词语可以由一堆实数的向量形式表示语义信息，本文词向量采用Skim方法得，如W1＝{x₁,x₂,…,x_n}，W2＝{x₁,x₂,…,x_n}，则词间距离计算公式如下：

(5)基于图的迭代计算词的权重方法：

基于TF-IDF方法抽取关键词优于基于图的方法，图中边权重主要考虑的 TF-IDF。但是，因为人们对关键词理解有不同的认知，基于语义的关键词概括性可能没有基于频率抽取的关键词，反之依然。所以，考虑将两种方法的抽取的关键词混合，然后基于图的迭代计算词的权重，最后选出N个关键词，期望能综合利用到词的语义和频率信息。

本文中用G＝(V,E)代表混合候选词语构成的图，V代表词语节点，E是边的集合，对于每个节点V_i，In(vi)代表指向它的节点集合，Out(vi)代表节点Vi指向的节点集合。权重W_ij代表节点间边的权重。W_ij计算如下：

这里distance(v_i,v_j)由Sim(V_i,V_j)算得，W_ij为0表示两词无边链接，S(V_i)的初始值定义为：如果该点的词语同时出现在TF-IDF和所提方法中为2，否则为1。节点Vi 的最终权重计算公式如下所示。

其中d取0.85，权重计算是个迭代过程，直至收敛或达到一定迭代次数停止，最后选取权重最高的N个词。

本发明的有益效果是：

1、本发明的基于主题与语义的对话语料关键词抽取方法，对对话语料抽取的特征进行处理，一方面通过TFIDF对对话语料进行基于频率的关键词抽取，另一方面综合考虑词的语义权重、词的语义聚类权重和词性的权重完成对话语料关键词，综合考虑了所抽取的关键词的词频和语义信息，提高了关键词抽取的准确性。

2、本发明的基于主题与语义的对话语料关键词抽取方法，考虑了TF-IDF和基于图的TextRank方法与KSel、GKSel四种方法的对比，并结合自动评价和拒绝率评价做评估，证明了本发明所提出的基于主题与语义的对话语料关键词抽取方法的有效性。

3、本发明的基于主题与语义的对话语料关键词抽取方法，有效实现了对话语料的关键词抽取，为后续基于对话语料的相关研究打下了坚实的基础。

附图说明

图1为本发明中的总的流程图；

图2为本发明中的关键词抽取方法流程图；

图3为本发明不同方法在对话数据上的Top-K准确度性能比较图；

图4为本发明不同方法在对话数据上的精确度-召回率性能比较图。

具体实施方式

实施例1：如图1-4所示，基于主题与语义的对话语料关键词抽取方法，所述方法的具体步骤如下：

进一步的，所述步骤Step1的具体步骤为：

所述步骤Step2的具体步骤为：

所述步骤Step3的具体步骤为：

Step3.3、考虑词性的权重，定义不同词性的权重值；

所述步骤Step4的具体步骤为：

所述步骤Step5的具体步骤为：

基于TFIDF方法抽取关键词优于基于图的方法，图中边权重主要考虑的TFIDF。但是，因为人们对关键词理解有不同的认知，基于语义的关键词概括性可能不如基于频率抽取的关键词，反之亦然。所以，考虑将两种方法的抽取的关键词混合，然后基于图的迭代计算词的权重，最后基于图的词的权重得分选出得分最高的N个词， N可以取10，期望能综合利用到词的语义和频率信息。

为了比较算法的性能，我们使用TFIDF和基于图的TextRank方法作为对比方法。采用两种评价方法的性能，第一种采用自动评价方法，第二种方法采用拒绝率评价方法。四种方法抽取的关键词示例如表1所示：

表1不同方法关键词抽取结果

根据抽取关键词结果比较，KSeL阐述了对话的主题更完善，TF-IDF的阐述缺少主题，表达不够清楚，KSeL和TF-IDF同时出现了“钱”和“房子”两个关键词，说明对话很大程度上与房子和钱有关，TF-IDF可以理解演员之间买卖房子等，KSeL可以理解为鲁豫王凯俩人讨论毕业和房子的故事，同时牵涉钱的问题，对原话表达更全面清楚。TextRank和KSeL比较抽取结果虽然很多相似，但结合原对话分析，TextRank缺少了“毕业”、“坎儿”、“日子”等描述生活状态的词，多了一些“觉得”、“没有”、“想到”等模糊词语。GKSeL是由TF-IDF和KSeL得到，可以看出IF-IDF方法中“借钱”、“供”、“月”排到了前面，表达了房子，月供，借钱，坎儿的连贯性。与KSeL相比描述的信息更具体深入。

作为对比标准，我们对来自访谈节目的对话语料，试验前对语料进行分词、去停用、清洗特殊符号等预处理工作之后进行人工标注。标注者可以任意选择他们认为重要的词作为关键词。人工标注对话的例子如表2所示：

表2对话标注例子

不同的标注者看待问题的角度不同，所以对于词的重要程度的认识也不相同，者导致标注的关键词不一致、特殊性。我们抽样200个对话来计算不同标注者的一致性，人工标注分析采用严格匹配的方式，两个标注者对于同一对话的一致率是32％。实验一：本实例构建了两种对比实验评价方法的性能，第一种对比试验采用自动评价的方法评价方法的性能，性能比较结果如图3所示：

其中，Top-K准确率表示k个抽取关键词中至少有一个正确的文档占全部测试文档的比例。精确度表示抽取正确的关键词占所有抽取的关键词的比率而准确率表示抽取的正确的关键词占人工标注关键词的比例(召回率)。

图3-4显示了三种方法的Top-K，精确度和准确率。从图3中可以看出,GKSeL 在top-1时的准确率达到了48.23％,TextRank和TF-IDF准确率分别为39.35％和 43.32％，随着标签个数的增加，Top-k准确率的性能有所提高；从图中看出，方法 GKSeL对于5个关键词的准确率达到75.12％。图4显示了精确度随关键词个数变化， GKSeL最高精确度48.56％。显示了召回率的变化情况，随着关键词个数的增加 GKSeL的召回率不断增加，最低召回率为21％。从图中得出方法的性能优于TF-IDF 和TextRank。

实验二：第二种方法采用拒绝率评价方法，拒绝率代表有多少抽取的关键词是不可以被人接受的。由于人工标注的不一致性，我们需要质疑，Top-k等是否适合用来评价抽取关键词方法的性能。所以我在少量语料上，采用拒绝率进行人工评测。我们选取100个对话，给2个人提供方法抽取的关键词，并让其标注不能反映对话内容的关键词，然后测量出每个标注者和方法的的拒绝率。结果如表3所示：

表3不同方法人工拒绝率

***/标注者	拒绝率
		标注者1	8％
标注者2	10％
		TFIDF	48％
TextRank	49％
		GKSeL	46％

从表3中，可以看出，人工标注的拒绝率最低，因为人能够更清楚的理解对话内容，但不同的人具有不同的出发点，所以拒绝率不同，但符合预期。人工评测结果也证明了我们所提方法的有效性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于主题与语义的对话语料关键词抽取方法，其特征在于：所述方法的具体步骤如下：

Step3、结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重，并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词，简称KSel方法；

Step5、将TF-IDF方法和KSel方法抽取的关键词作为节点，基于节点间语义相似度作为边的权重建图，通过图迭代得到最终的关键词。

2.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法，其特征在于：所述步骤Step1的具体步骤为：

3.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法，其特征在于：所述步骤Step2的具体步骤为：

4.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法，其特征在于：所述步骤Step3的具体步骤为：

Step3.3、考虑词性的权重，设定不同词性的权重值；

Step3.4、综合考虑词语义权重、词语义聚类权重、词性权重，最终得到词权重，并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词。

5.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法，其特征在于：所述步骤Step4的具体步骤为：

6.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法，其特征在于：所述步骤Step5的具体步骤为：