CN108595425A - 基于主题与语义的对话语料关键词抽取方法 - Google Patents
基于主题与语义的对话语料关键词抽取方法 Download PDFInfo
- Publication number
- CN108595425A CN108595425A CN201810357602.0A CN201810357602A CN108595425A CN 108595425 A CN108595425 A CN 108595425A CN 201810357602 A CN201810357602 A CN 201810357602A CN 108595425 A CN108595425 A CN 108595425A
- Authority
- CN
- China
- Prior art keywords
- word
- language material
- keyword
- weight
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000463 material Substances 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 103
- 239000013598 vector Substances 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 12
- 235000001486 Salvia viridis Nutrition 0.000 claims abstract description 5
- 150000001875 compounds Chemical class 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 5
- 241000531229 Caryopteris x clandonensis Species 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 244000258070 Salvia viridis Species 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 3
- 230000019771 cognition Effects 0.000 description 3
- 238000000205 computational method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于主题与语义的对话语料关键词抽取方法,属于自然语言处理技术领域。本发明将预处理后的对话语料与中文语料结合训练得到词向量和主题模型;结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词,简称KSel方法;利用TF‑IDF方法通过计算词频、逆向文件频率抽取关键词;将TF‑IDF方法和KSel方法抽取的关键词作为节点,基于节点间语义相似度作为边的权重建图,通过图迭代得到最终的关键词。本发明有效的解决传统算法忽略语义和主题的问题,同时兼顾词语频率。
Description
技术领域
本发明涉及基于主题与语义的对话语料关键词抽取方法,属于自然语言处理技术领域。
背景技术
关键词有助于提高文本分类、信息检索等自然语言处理任务的性能。因此国内外出现了不少自动关键词抽取或生成的研究。近年来,随着即时聊天、网购咨询、自动问答***等社交网络的迅猛发展,积累了大量的对话特性文档,对话记录隐含了人们聊天的情景和目的,反映了对话者的兴趣。从对话中抽取关键词可以用来总结、组织、检索对话内容,也可被用于用户个人服务、广告推荐等。相较于传统长文本,这类数据具有对话性、短文本、结构松散等特点,导致关键词难以遴选。传统关键词抽取主要集中在网页检索,科技文献和文本文档等领域,方法主要分为有监督方法和无监督方法。有监督方法采用人工标注的关键词文档训练分类器得到关键词。无监督方法主要计算词的显著性权值,然后排序推荐。但是针对对话语料的关键词抽取的研究较少,由于对话文本对话性、短文本、结构松散等特点,采用传统的关键词抽取方法是否有效值得怀疑。目前根据国内外针对对话语料的关键词抽取技术的研究可以得出,简单的基于TF-IDF的关键词抽取方法优于基于图的方法,而且词性的过滤和句子重要性得分有助于关键词抽取,但是基于共现词的聚类方法不会拾取词的语义相似性。利用最大熵分类器决定某个一元词是否为关键词,虽然同时考虑了二元词的扩展,但是需要标注关键词训练分类器而对话语料中标注好关键词的文档很匮乏。
对此,本发明所提方法聚焦语义和主题信息,结合词语义聚类,词性权重,句子主题相关性等多权重来抽取关键词,提出一种基于主题与语义的对话语料关键词抽取方法,简称KSeL方法。最后,TF-IDF方法和KSel得到的关键词做为节点,基于语义建立图,通过图迭代得到最终的关键词,简称为GKSeL方法。
发明内容
本发明提供了基于主题与语义的对话语料关键词抽取方法,以用于解决对话语料关键词抽取传统算法忽略语义和主题导致关键词抽取准确性不高、有效性差的问题。
本发明的技术方案是:基于主题与语义的对话语料关键词抽取方法,所述方法的具体步骤如下:
Step1、首先爬取中文语料和访谈节目的对话语料,其次对对话语料和中文语料进行预处理;
Step2、将预处理后的对话语料与中文语料结合训练得到词向量和主题模型;
Step3、结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词,简称 KSel方法;
Step4、利用TF-IDF方法通过计算词频、逆向文件频率抽取关键词;
Step5、将TF-IDF方法和KSel方法抽取的关键词作为节点,基于节点间语义相似度作为边的权重建图,通过图迭代得到最终的关键词,简称GKSel方法。
进一步的,所述步骤Step1的具体步骤为:
Step1.1、首先人工编写爬虫程序,爬取中文语料和访谈节目中的对话语料;
Step1.2、把已爬取的对话语料,经过过滤、去重得到不重复的对话语料,并把对话语料和中文语料存放到数据库中;
本发明考虑到爬取的对话语料可能存在重复,这些重复语料增加了工作量,而没有太大意义,所以需要过滤、去重,得到不重复的对话语料,存放在数据库是为了能方便数据的管理和使用。
Step1.3、对数据库中的语料进行分词、去停用词、清洗特殊符号相关的预处理工作,得到干净的语料。
本发明考虑到直接将文本切分为多个字符组成的字符串形式,会造成原文本中字、词、段落之间语言学信息的丢失。所以对对话语料进行预处理工作,其中包括中文分词、去停用词。方便后续工作的进行。
所述步骤Step2的具体步骤为:
Step2.1、对对话语料和中文语料使用word2vec进行词向量训练,得到词的向量表示,即词向量;
考虑到对话预料中特征词数较多,并且其中存在大量同义词,上下文依赖严重,为了避免出现特征词冗余的问题,发明首先使用word2vec对文本进行处理,借助 word2vec在语义信息表征的优越性把文本中每个词转化为向量表示。
Step2.2、对对话语料和中文语料进行LDA建模训练,得到对话语料的主题模型。
所述步骤Step3的具体步骤为:
Step3.1、考虑词与文本中所有句子的相似,得到词的全局相似值作为词语义权重;
如果一个词的语义与对话语句的语义越相似,则该词越能够代表该句子表示的语义信息,基于词的语义信息计算词的的局部权重和全局权重。由此,方法考虑词语与文本中所有句子的相似,得到词的全局相似值作为词的语义权重。
Step3.2、根据词的语义相似度进行聚类,根据聚类中词的个数占文本总词数作为该类词语义聚类权重;
对话过程中可能会反复提到某个词来强调意图,同时,会话可能用不同的词代表相似的意思,对话所含词语中,如果某几个或多个词语相似,至少说明文本中涉及该类信息。所以本文方法根据词的语义相似度进行聚类,根据得到的类中词语的个数占文本总词数作为该类词的语义聚类权重。
Step3.3、考虑词性的权重,定义不同词性的权重值;
实验表明通过词性过滤只保留动词、名词、形容词作为候选词对关键词抽取有帮助,所以方法考虑词性的权重。
Step3.4、综合考虑词语义权重、词语义聚类权重、词性权重,最终得到词权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词。所述
所述步骤Step4的具体步骤为:
Step4.1、利用TF-IDF方法计算预处理后得到的对话语料中每个词的词频;
Step4.2、利用TF-IDF方法计算预处理后得到的对话语料中每个词的逆向文件频率;
Step4.3、利用Step4.1和Step4.2获得的词频和逆向文件频率抽取出关键词。
所述步骤Step5的具体步骤为:
Step5.1、将利用步骤Step3中抽取出的对话语料中的关键词和步骤Step4抽取出的关键词综合得到混合的关键词;
Step5.2、以Step5.1中得到的混合关键词作为节点,词间的语义相似度作为边构建图,然后通过迭代计算,得到基于图的词的权重得分,根据基于图的词的权重得分选出关键词。
基于图的图中边权重主要考虑的TF-IDF。但是,因为人们对关键词理解有不同的认知,基于语义的关键词概括性可能不如基于频率抽取的关键词,反之依然。所以,考虑将两种方法的抽取的关键词混合,然后基于图的迭代计算词的权重,最后基于图的词的权重得分选出得分最高的N个词,N可以取10,期望能综合利用到词的语义和频率信息。
为了比较算法的性能,使用TF-IDF和基于图的TextRank方法作为对比方法。采用两种评价方法的性能,第一种采用自动评价方法,第二种方法采用拒绝率评价,拒绝率代表有多少抽取的关键词是不可以被人接受的。
对本发明做进一步阐述的,所述步骤Step2、Step3和Step4中:
(1)提到的基于TF-IDF的关键词抽取方法:
TF-IDF的含义是词频逆文档频率,其假设是,高频率词应该具有较高的权重,除非它也是高文档频率。如果某个词比较少见,但是它在某篇文档中多次出现,那么它很有可能就反映了这篇文章的特性,正是我们所需要的关键词。
计算词频:
词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(Term Count)的归一化,以防止它偏向长的文件。对于在某一特定文件里的词语ti来说,它的重要性可表示为:
以上公式中,分子ni,j是该词ti在文件dj中出现的次数,而分母则是在文件中所有字词的出现次数之和。
计算逆向文件频率:
逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。
其中,|D|表示语料库中的文件总数,|{j:ti∈dj}|表示包含词语ti的文件数目。如果该词语不在语料库中,就会导致分母为0,因此一般情况下使用1+|{j:ti∈dj}|作为分母。
最后计算TF与IDF的乘积:
TF-IDF=TF×IDF
计算得出文档中每个词的TF‐IDF值,将N个最高TF‐IDF值的词作为关键词。
(2)提到的词语义权重的计算方法:
计算句子的主题相似性权重:
含有信息的语句很大程度上与主题相关,反之没有信息的语句包含的词多是无意义或习惯性词语.重要的句子通常包含关键词,关键词也经常出现在重要句子中。因此考虑句子的主题权重,首先通过训练的主题模型得到给定对话文档的主题 T={t1,t2,…,tk},然后,计算文档中每个句子S={w1,w2,…,wm}与主题T的相似度。相似度WeightSi计算如下:
计算词与句子的相似度:
如果一个词的语义与对话语句的语义越相似,则该词越能够代表该句子表示的语义信息,基于词的语义信息计算词的的局部权重和全局权重。由此,方法考虑词语与文本中所有句子的相似,得到词的全局相似值作为词的语义权重。词与句子的相似性WeightWi计算如下:
其中w1代表候选关键词,w2i代表含有m个词的句子中的第i个词。
词与全文语义相似度权重:
词语句子相似度高,但句子与对话主题不相关,则词不能很好的代表对话内容。因此,考虑词语与句子相似性的同时需要考虑句子的主题关联性。句子与主题关联性越高,则句子越能够代表主题。最终得到词语义权重Wweight计算如下:
其中m表示对话文本含有的句子的个数,即WeightSi代表句子i与主题的相似权重,WeightWi代表词w与句子i的语义相似度。
(3)提到的词语义聚类权重的计算方法:
对话过程中可能会反复提到某个词来强调意图,同时,会话可能用不同的词代表相似的意思,对话所含词语中,如果某几个或多个词语相似,至少说明文本中涉及该类信息。所以本文方法根据词的语义相似度进行聚类,根据得到的类中词语的个数占文本总词数作为该类词的语义聚类权重。本文采用快速聚类方法,该方法假设聚类中心周围都是密度比其低的点,同时,相比于其他聚类中心,这些点距离该聚类中心的距离最近,对于每个数据点i,需要计算两个量:局部密度ρi和高于i 点密度的最小距离δi。
局部密度定义如下:
当χ<0时;χ(x)=1,否则等于0。这里dc是一个截断距离,这里选择比较鲁棒性,因此算法中dc定义为文中所有点的相互距离由小到大排列占总数2%的位置的词间距离。
距离定义如下:
比i点密度高的所有点中,与i点距离最近的点的距离表示为δi,对于最大密度的点其δi为所有点之间距离的最大值。然后给定两δmin和ρmin,同时大于这两个数的点作为聚类中心点。确定聚类中心后,剩下的点的标签按照以下原则分配:当前点的类别标签和高于当前点密度的最近点的标签一致。据此得到候选词w的聚类权重 ClusterW如下:
ClusterW=num1/num
其中num1是候选词所属类中词语的数目,num是所有候选词数目,同一聚类中所有词拥有相同的聚类权重。
(4)提到的词语义聚类权重的计算方法:
考虑词性权重PosWeight、词语义聚类权重ClusterW、词的语义权重Wweight,最终得到词权重Wscore计算如下:
Wscore=PosWeight*(ClusterW+Wweight)
词语可以由一堆实数的向量形式表示语义信息,本文词向量采用Skim方法得,如W1={x1,x2,…,xn},W2={x1,x2,…,xn},则词间距离计算公式如下:
(5)基于图的迭代计算词的权重方法:
基于TF-IDF方法抽取关键词优于基于图的方法,图中边权重主要考虑的 TF-IDF。但是,因为人们对关键词理解有不同的认知,基于语义的关键词概括性可能没有基于频率抽取的关键词,反之依然。所以,考虑将两种方法的抽取的关键词混合,然后基于图的迭代计算词的权重,最后选出N个关键词,期望能综合利用到词的语义和频率信息。
本文中用G=(V,E)代表混合候选词语构成的图,V代表词语节点,E是边的集合,对于每个节点Vi,In(vi)代表指向它的节点集合,Out(vi)代表节点Vi指向的节点集合。权重Wij代表节点间边的权重。Wij计算如下:
这里distance(vi,vj)由Sim(Vi,Vj)算得,Wij为0表示两词无边链接,S(Vi)的初始值定义为:如果该点的词语同时出现在TF-IDF和所提方法中为2,否则为1。节点Vi 的最终权重计算公式如下所示。
其中d取0.85,权重计算是个迭代过程,直至收敛或达到一定迭代次数停止,最后选取权重最高的N个词。
本发明的有益效果是:
1、本发明的基于主题与语义的对话语料关键词抽取方法,对对话语料抽取的特征进行处理,一方面通过TFIDF对对话语料进行基于频率的关键词抽取,另一方面综合考虑词的语义权重、词的语义聚类权重和词性的权重完成对话语料关键词,综合考虑了所抽取的关键词的词频和语义信息,提高了关键词抽取的准确性。
2、本发明的基于主题与语义的对话语料关键词抽取方法,考虑了TF-IDF和基于图的TextRank方法与KSel、GKSel四种方法的对比,并结合自动评价和拒绝率评价做评估,证明了本发明所提出的基于主题与语义的对话语料关键词抽取方法的有效性。
3、本发明的基于主题与语义的对话语料关键词抽取方法,有效实现了对话语料的关键词抽取,为后续基于对话语料的相关研究打下了坚实的基础。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的关键词抽取方法流程图;
图3为本发明不同方法在对话数据上的Top-K准确度性能比较图;
图4为本发明不同方法在对话数据上的精确度-召回率性能比较图。
具体实施方式
实施例1:如图1-4所示,基于主题与语义的对话语料关键词抽取方法,所述方法的具体步骤如下:
Step1、首先爬取中文语料和访谈节目的对话语料,其次对对话语料和中文语料进行预处理;
Step2、将预处理后的对话语料与中文语料结合训练得到词向量和主题模型;
Step3、结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词,简称 KSel方法;
Step4、利用TF-IDF方法通过计算词频、逆向文件频率抽取关键词;
Step5、将TF-IDF方法和KSel方法抽取的关键词作为节点,基于节点间语义相似度作为边的权重建图,通过图迭代得到最终的关键词,简称GKSel方法。
进一步的,所述步骤Step1的具体步骤为:
Step1.1、首先人工编写爬虫程序,爬取中文语料和访谈节目中的对话语料;
Step1.2、把已爬取的对话语料,经过过滤、去重得到不重复的对话语料,并把对话语料和中文语料存放到数据库中;
本发明考虑到爬取的对话语料可能存在重复,这些重复语料增加了工作量,而没有太大意义,所以需要过滤、去重,得到不重复的对话语料,存放在数据库是为了能方便数据的管理和使用。
Step1.3、对数据库中的语料进行分词、去停用词、清洗特殊符号相关的预处理工作,得到干净的语料。
本发明考虑到直接将文本切分为多个字符组成的字符串形式,会造成原文本中字、词、段落之间语言学信息的丢失。所以对对话语料进行预处理工作,其中包括中文分词、去停用词。方便后续工作的进行。
所述步骤Step2的具体步骤为:
Step2.1、对对话语料和中文语料使用word2vec进行词向量训练,得到词的向量表示,即词向量;
考虑到对话预料中特征词数较多,并且其中存在大量同义词,上下文依赖严重,为了避免出现特征词冗余的问题,发明首先使用word2vec对文本进行处理,借助 word2vec在语义信息表征的优越性把文本中每个词转化为向量表示。
Step2.2、对对话语料和中文语料进行LDA建模训练,得到对话语料的主题模型。
所述步骤Step3的具体步骤为:
Step3.1、考虑词与文本中所有句子的相似,得到词的全局相似值作为词语义权重;
如果一个词的语义与对话语句的语义越相似,则该词越能够代表该句子表示的语义信息,基于词的语义信息计算词的的局部权重和全局权重。由此,方法考虑词语与文本中所有句子的相似,得到词的全局相似值作为词的语义权重。
Step3.2、根据词的语义相似度进行聚类,根据聚类中词的个数占文本总词数作为该类词语义聚类权重;
对话过程中可能会反复提到某个词来强调意图,同时,会话可能用不同的词代表相似的意思,对话所含词语中,如果某几个或多个词语相似,至少说明文本中涉及该类信息。所以本文方法根据词的语义相似度进行聚类,根据得到的类中词语的个数占文本总词数作为该类词的语义聚类权重。
Step3.3、考虑词性的权重,定义不同词性的权重值;
实验表明通过词性过滤只保留动词、名词、形容词作为候选词对关键词抽取有帮助,所以方法考虑词性的权重。
Step3.4、综合考虑词语义权重、词语义聚类权重、词性权重,最终得到词权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词。所述
所述步骤Step4的具体步骤为:
Step4.1、利用TF-IDF方法计算预处理后得到的对话语料中每个词的词频;
Step4.2、利用TF-IDF方法计算预处理后得到的对话语料中每个词的逆向文件频率;
Step4.3、利用Step4.1和Step4.2获得的词频和逆向文件频率抽取出关键词。
所述步骤Step5的具体步骤为:
Step5.1、将利用步骤Step3中抽取出的对话语料中的关键词和步骤Step4抽取出的关键词综合得到混合的关键词;
Step5.2、以Step5.1中得到的混合关键词作为节点,词间的语义相似度作为边构建图,然后通过迭代计算,得到基于图的词的权重得分,根据基于图的词的权重得分选出关键词。
基于TFIDF方法抽取关键词优于基于图的方法,图中边权重主要考虑的TFIDF。但是,因为人们对关键词理解有不同的认知,基于语义的关键词概括性可能不如基于频率抽取的关键词,反之亦然。所以,考虑将两种方法的抽取的关键词混合,然后基于图的迭代计算词的权重,最后基于图的词的权重得分选出得分最高的N个词, N可以取10,期望能综合利用到词的语义和频率信息。
为了比较算法的性能,我们使用TFIDF和基于图的TextRank方法作为对比方法。采用两种评价方法的性能,第一种采用自动评价方法,第二种方法采用拒绝率评价方法。四种方法抽取的关键词示例如表1所示:
表1不同方法关键词抽取结果
根据抽取关键词结果比较,KSeL阐述了对话的主题更完善,TF-IDF的阐述缺少主题,表达不够清楚,KSeL和TF-IDF同时出现了“钱”和“房子”两个关键词,说明对话很大程度上与房子和钱有关,TF-IDF可以理解演员之间买卖房子等,KSeL可以理解为鲁豫王凯俩人讨论毕业和房子的故事,同时牵涉钱的问题,对原话表达更全面清楚。TextRank和KSeL比较抽取结果虽然很多相似,但结合原对话分析,TextRank缺少了“毕业”、“坎儿”、“日子”等描述生活状态的词,多了一些“觉得”、“没有”、“想到”等模糊词语。GKSeL是由TF-IDF和KSeL得到,可以看出IF-IDF方法中“借钱”、“供”、“月”排到了前面,表达了房子,月供,借钱,坎儿的连贯性。与KSeL相比描述的信息更具体深入。
作为对比标准,我们对来自访谈节目的对话语料,试验前对语料进行分词、去停用、清洗特殊符号等预处理工作之后进行人工标注。标注者可以任意选择他们认为重要的词作为关键词。人工标注对话的例子如表2所示:
表2对话标注例子
不同的标注者看待问题的角度不同,所以对于词的重要程度的认识也不相同,者导致标注的关键词不一致、特殊性。我们抽样200个对话来计算不同标注者的一致性,人工标注分析采用严格匹配的方式,两个标注者对于同一对话的一致率是32%。实验一:本实例构建了两种对比实验评价方法的性能,第一种对比试验采用自动评价的方法评价方法的性能,性能比较结果如图3所示:
其中,Top-K准确率表示k个抽取关键词中至少有一个正确的文档占全部测试文档的比例。精确度表示抽取正确的关键词占所有抽取的关键词的比率而准确率表示抽取的正确的关键词占人工标注关键词的比例(召回率)。
图3-4显示了三种方法的Top-K,精确度和准确率。从图3中可以看出,GKSeL 在top-1时的准确率达到了48.23%,TextRank和TF-IDF准确率分别为39.35%和 43.32%,随着标签个数的增加,Top-k准确率的性能有所提高;从图中看出,方法 GKSeL对于5个关键词的准确率达到75.12%。图4显示了精确度随关键词个数变化, GKSeL最高精确度48.56%。显示了召回率的变化情况,随着关键词个数的增加 GKSeL的召回率不断增加,最低召回率为21%。从图中得出方法的性能优于TF-IDF 和TextRank。
实验二:第二种方法采用拒绝率评价方法,拒绝率代表有多少抽取的关键词是不可以被人接受的。由于人工标注的不一致性,我们需要质疑,Top-k等是否适合用来评价抽取关键词方法的性能。所以我在少量语料上,采用拒绝率进行人工评测。我们选取100个对话,给2个人提供方法抽取的关键词,并让其标注不能反映对话内容的关键词,然后测量出每个标注者和方法的的拒绝率。结果如表3所示:
表3不同方法人工拒绝率
***/标注者 | 拒绝率 |
标注者1 | 8% |
标注者2 | 10% |
TFIDF | 48% |
TextRank | 49% |
GKSeL | 46% |
从表3中,可以看出,人工标注的拒绝率最低,因为人能够更清楚的理解对话内容,但不同的人具有不同的出发点,所以拒绝率不同,但符合预期。人工评测结果也证明了我们所提方法的有效性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.基于主题与语义的对话语料关键词抽取方法,其特征在于:所述方法的具体步骤如下:
Step1、首先爬取中文语料和访谈节目的对话语料,其次对对话语料和中文语料进行预处理;
Step2、将预处理后的对话语料与中文语料结合训练得到词向量和主题模型;
Step3、结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词,简称KSel方法;
Step4、利用TF-IDF方法通过计算词频、逆向文件频率抽取关键词;
Step5、将TF-IDF方法和KSel方法抽取的关键词作为节点,基于节点间语义相似度作为边的权重建图,通过图迭代得到最终的关键词。
2.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先人工编写爬虫程序,爬取中文语料和访谈节目中的对话语料;
Step1.2、把已爬取的对话语料,经过过滤、去重得到不重复的对话语料,并把对话语料和中文语料存放到数据库中;
Step1.3、对数据库中的语料进行分词、去停用词、清洗特殊符号相关的预处理工作,得到干净的语料。
3.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、对对话语料和中文语料使用word2vec进行词向量训练,得到词的向量表示,即词向量;
Step2.2、对对话语料和中文语料进行LDA建模训练,得到对话语料的主题模型。
4.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、考虑词与文本中所有句子的相似,得到词的全局相似值作为词语义权重;
Step3.2、根据词的语义相似度进行聚类,根据聚类中词的个数占文本总词数作为该类词语义聚类权重;
Step3.3、考虑词性的权重,设定不同词性的权重值;
Step3.4、综合考虑词语义权重、词语义聚类权重、词性权重,最终得到词权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词。
5.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、利用TF-IDF方法计算预处理后得到的对话语料中每个词的词频;
Step4.2、利用TF-IDF方法计算预处理后得到的对话语料中每个词的逆向文件频率;
Step4.3、利用Step4.1和Step4.2获得的词频和逆向文件频率抽取出关键词。
6.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法,其特征在于:所述步骤Step5的具体步骤为:
Step5.1、将利用步骤Step3中抽取出的对话语料中的关键词和步骤Step4抽取出的关键词综合得到混合的关键词;
Step5.2、以Step5.1中得到的混合关键词作为节点,词间的语义相似度作为边构建图,然后通过迭代计算,得到基于图的词的权重得分,根据基于图的词的权重得分选出关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810357602.0A CN108595425A (zh) | 2018-04-20 | 2018-04-20 | 基于主题与语义的对话语料关键词抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810357602.0A CN108595425A (zh) | 2018-04-20 | 2018-04-20 | 基于主题与语义的对话语料关键词抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108595425A true CN108595425A (zh) | 2018-09-28 |
Family
ID=63613614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810357602.0A Pending CN108595425A (zh) | 2018-04-20 | 2018-04-20 | 基于主题与语义的对话语料关键词抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595425A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255014A (zh) * | 2018-10-17 | 2019-01-22 | 北京京航计算通讯研究所 | 基于多种算法提升文件关键词准确度的识别方法 |
CN109492083A (zh) * | 2018-11-05 | 2019-03-19 | 北京奥法科技有限公司 | 一种基于表单内容实现多轮人机智能交互的方法 |
CN109710762A (zh) * | 2018-12-26 | 2019-05-03 | 南京云问网络技术有限公司 | 一种融合多种特征权重的短文本聚类方法 |
CN110232112A (zh) * | 2019-05-31 | 2019-09-13 | 北京创鑫旅程网络技术有限公司 | 文章中关键词提取方法及装置 |
CN110297913A (zh) * | 2019-06-12 | 2019-10-01 | 中电科大数据研究院有限公司 | 一种电子公文实体抽取方法 |
CN110750619A (zh) * | 2019-08-15 | 2020-02-04 | 中国平安财产保险股份有限公司 | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 |
CN111027323A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于主题模型和语义分析的实体指称项识别方法 |
CN111144112A (zh) * | 2019-12-30 | 2020-05-12 | 广州广电运通信息科技有限公司 | 文本相似度分析方法、装置和存储介质 |
WO2020143320A1 (zh) * | 2019-01-07 | 2020-07-16 | 平安科技(深圳)有限公司 | 文本词向量获取方法、装置、计算机设备及存储介质 |
CN111639189A (zh) * | 2020-04-29 | 2020-09-08 | 西北工业大学 | 一种基于文本内容特征的文本图构建方法 |
CN111881267A (zh) * | 2020-05-25 | 2020-11-03 | 重庆兆光科技股份有限公司 | 一种抽取对话语料中关键语句的方法、***、设备及介质 |
CN111930885A (zh) * | 2020-07-03 | 2020-11-13 | 北京新联财通咨询有限公司 | 文本话题的抽取方法、装置及计算机设备 |
CN112116368A (zh) * | 2019-06-19 | 2020-12-22 | 百度在线网络技术(北京)有限公司 | 对向人群推荐内容的设备进行标注的方法和装置及处理器 |
CN112182145A (zh) * | 2019-07-04 | 2021-01-05 | 北京京东尚科信息技术有限公司 | 文本相似度确定方法、装置、设备和存储介质 |
CN112434688A (zh) * | 2020-12-01 | 2021-03-02 | 北京爱论答科技有限公司 | 一种试题评价模型的训练方法及装置 |
CN112464654A (zh) * | 2020-11-27 | 2021-03-09 | 科技日报社 | 关键词生成方法、装置、电子设备和计算机可读介质 |
CN112883171A (zh) * | 2021-02-02 | 2021-06-01 | 中国科学院计算技术研究所 | 基于bert模型的文档关键词抽取方法及装置 |
CN113392637A (zh) * | 2021-06-24 | 2021-09-14 | 青岛科技大学 | 基于tf-idf的主题词提取方法、装置、设备及存储介质 |
CN113505597A (zh) * | 2021-07-27 | 2021-10-15 | 随锐科技集团股份有限公司 | 一种视频会议中提炼关键词的方法、装置及存储介质 |
CN115269810A (zh) * | 2022-09-27 | 2022-11-01 | 北京云迹科技股份有限公司 | 对话语料的检索方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095430A (zh) * | 2015-07-22 | 2015-11-25 | 深圳证券信息有限公司 | 构建词语网络及抽取关键词的方法和装置 |
CN105653547A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文本关键词的方法和装置 |
CN106202042A (zh) * | 2016-07-06 | 2016-12-07 | 中央民族大学 | 一种基于图的关键词抽取方法 |
CN106682172A (zh) * | 2016-12-28 | 2017-05-17 | 江苏大学 | 一种基于关键词的文献研究热点推荐方法 |
CN106997344A (zh) * | 2017-03-31 | 2017-08-01 | 成都数联铭品科技有限公司 | 关键词抽取*** |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
-
2018
- 2018-04-20 CN CN201810357602.0A patent/CN108595425A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653547A (zh) * | 2014-11-12 | 2016-06-08 | 北大方正集团有限公司 | 一种提取文本关键词的方法和装置 |
CN105095430A (zh) * | 2015-07-22 | 2015-11-25 | 深圳证券信息有限公司 | 构建词语网络及抽取关键词的方法和装置 |
CN106202042A (zh) * | 2016-07-06 | 2016-12-07 | 中央民族大学 | 一种基于图的关键词抽取方法 |
CN106682172A (zh) * | 2016-12-28 | 2017-05-17 | 江苏大学 | 一种基于关键词的文献研究热点推荐方法 |
CN106997344A (zh) * | 2017-03-31 | 2017-08-01 | 成都数联铭品科技有限公司 | 关键词抽取*** |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
Non-Patent Citations (1)
Title |
---|
李帅彬 等: "基于词向量的微博话题发现方法", 《计算机应用与软件》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255014A (zh) * | 2018-10-17 | 2019-01-22 | 北京京航计算通讯研究所 | 基于多种算法提升文件关键词准确度的识别方法 |
CN109492083A (zh) * | 2018-11-05 | 2019-03-19 | 北京奥法科技有限公司 | 一种基于表单内容实现多轮人机智能交互的方法 |
CN109710762A (zh) * | 2018-12-26 | 2019-05-03 | 南京云问网络技术有限公司 | 一种融合多种特征权重的短文本聚类方法 |
CN109710762B (zh) * | 2018-12-26 | 2023-08-01 | 南京云问网络技术有限公司 | 一种融合多种特征权重的短文本聚类方法 |
WO2020143320A1 (zh) * | 2019-01-07 | 2020-07-16 | 平安科技(深圳)有限公司 | 文本词向量获取方法、装置、计算机设备及存储介质 |
CN110232112A (zh) * | 2019-05-31 | 2019-09-13 | 北京创鑫旅程网络技术有限公司 | 文章中关键词提取方法及装置 |
CN110232112B (zh) * | 2019-05-31 | 2022-06-21 | 北京创鑫旅程网络技术有限公司 | 文章中关键词提取方法及装置 |
CN110297913A (zh) * | 2019-06-12 | 2019-10-01 | 中电科大数据研究院有限公司 | 一种电子公文实体抽取方法 |
CN112116368A (zh) * | 2019-06-19 | 2020-12-22 | 百度在线网络技术(北京)有限公司 | 对向人群推荐内容的设备进行标注的方法和装置及处理器 |
CN112182145A (zh) * | 2019-07-04 | 2021-01-05 | 北京京东尚科信息技术有限公司 | 文本相似度确定方法、装置、设备和存储介质 |
CN110750619A (zh) * | 2019-08-15 | 2020-02-04 | 中国平安财产保险股份有限公司 | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 |
CN110750619B (zh) * | 2019-08-15 | 2024-05-28 | 中国平安财产保险股份有限公司 | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 |
CN111027323A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于主题模型和语义分析的实体指称项识别方法 |
CN111144112A (zh) * | 2019-12-30 | 2020-05-12 | 广州广电运通信息科技有限公司 | 文本相似度分析方法、装置和存储介质 |
CN111639189A (zh) * | 2020-04-29 | 2020-09-08 | 西北工业大学 | 一种基于文本内容特征的文本图构建方法 |
CN111881267A (zh) * | 2020-05-25 | 2020-11-03 | 重庆兆光科技股份有限公司 | 一种抽取对话语料中关键语句的方法、***、设备及介质 |
CN111930885A (zh) * | 2020-07-03 | 2020-11-13 | 北京新联财通咨询有限公司 | 文本话题的抽取方法、装置及计算机设备 |
CN111930885B (zh) * | 2020-07-03 | 2023-08-04 | 北京新联财通咨询有限公司 | 文本话题的抽取方法、装置及计算机设备 |
CN112464654A (zh) * | 2020-11-27 | 2021-03-09 | 科技日报社 | 关键词生成方法、装置、电子设备和计算机可读介质 |
CN112464654B (zh) * | 2020-11-27 | 2022-06-17 | 科技日报社 | 关键词生成方法、装置、电子设备和计算机可读介质 |
CN112434688A (zh) * | 2020-12-01 | 2021-03-02 | 北京爱论答科技有限公司 | 一种试题评价模型的训练方法及装置 |
CN112883171A (zh) * | 2021-02-02 | 2021-06-01 | 中国科学院计算技术研究所 | 基于bert模型的文档关键词抽取方法及装置 |
CN112883171B (zh) * | 2021-02-02 | 2023-02-03 | 中国科学院计算技术研究所 | 基于bert模型的文档关键词抽取方法及装置 |
CN113392637B (zh) * | 2021-06-24 | 2023-02-07 | 青岛科技大学 | 基于tf-idf的主题词提取方法、装置、设备及存储介质 |
CN113392637A (zh) * | 2021-06-24 | 2021-09-14 | 青岛科技大学 | 基于tf-idf的主题词提取方法、装置、设备及存储介质 |
CN113505597A (zh) * | 2021-07-27 | 2021-10-15 | 随锐科技集团股份有限公司 | 一种视频会议中提炼关键词的方法、装置及存储介质 |
CN115269810A (zh) * | 2022-09-27 | 2022-11-01 | 北京云迹科技股份有限公司 | 对话语料的检索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595425A (zh) | 基于主题与语义的对话语料关键词抽取方法 | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
Wen et al. | Research on keyword extraction based on word2vec weighted textrank | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
CN108763348B (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN110222172B (zh) | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及*** | |
CN107656920B (zh) | 一种基于专利的科技人才推荐方法 | |
CN107480200A (zh) | 基于词标签的词语标注方法、装置、服务器及存储介质 | |
CN110287314A (zh) | 基于无监督聚类的长文本可信度评估方法及*** | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
Khalid et al. | Topic detection from conversational dialogue corpus with parallel dirichlet allocation model and elbow method | |
CN116756303A (zh) | 一种多主题文本摘要自动生成方法及*** | |
Meddeb et al. | Using topic modeling and word embedding for topic extraction in Twitter | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN108470035A (zh) | 一种基于判别混合模型的实体-引文相关性分类方法 | |
CN107562774A (zh) | 小语种词嵌入模型的生成方法、***及问答方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180928 |
|
RJ01 | Rejection of invention patent application after publication |