CN101887415B - 一种文本文档主题词义的自动提取方法 - Google Patents

一种文本文档主题词义的自动提取方法 Download PDF

Info

Publication number
CN101887415B
CN101887415B CN2010102101066A CN201010210106A CN101887415B CN 101887415 B CN101887415 B CN 101887415B CN 2010102101066 A CN2010102101066 A CN 2010102101066A CN 201010210106 A CN201010210106 A CN 201010210106A CN 101887415 B CN101887415 B CN 101887415B
Authority
CN
China
Prior art keywords
text document
key words
word
candidate key
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010102101066A
Other languages
English (en)
Other versions
CN101887415A (zh
Inventor
方俊
郭雷
常威威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comtec Solar (Jiangsu) Co., Ltd.
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN2010102101066A priority Critical patent/CN101887415B/zh
Publication of CN101887415A publication Critical patent/CN101887415A/zh
Application granted granted Critical
Publication of CN101887415B publication Critical patent/CN101887415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种文本文档主题词义的自动提取方法,包括:首先对训练文本文档集和测试文本文档集进行文本文档预处理,得到训练文本文档集和测试文本文档集中每一篇文本文档的候选主题词义集合;然后,分别计算每一个候选主题词义的特征属性值;最后,利用贝叶斯模型抽取测试文本文档集中每一篇文本文档的最终的主题词义。本发明的整个过程采用词义代替词进行主题意思的提取,避免了一词多义性带来的不准确性,应用本发明可以提高主题意思提取的精度。

Description

一种文本文档主题词义的自动提取方法
技术领域
本发明涉及一种对文本文档的主题词义进行自动提取的方法,属于计算机信息处理、自然语言处理等领域。适用于对大量的文本文档的主题进行快速准确的抽取。 
背景技术
随着Internet的发展,信息总量的增长速度呈指数上升,大量的信息以电子文本文档的形式呈现在人们面前,迫切需要自动化的工具帮助人们在海量信息中迅速找到真正需要的信息。为了达到这个目标,首要的任务是对文本文档的主题意思进行抽取。此外,主题意思还可应用于很多其他文本挖掘领域,如文本分类、文本聚类和文本检索等。在最为理想的情况下,主题意思是人为给出的,但由于海量的文本文档,人为给出文本文档主题意思变得不可行,所以,高性能的主题意思自动提取算法的研究是十分重要的。 
文本文档的主题意思代表着文本文档的概要信息,由于主题词抽取的任务是要从文本文档中找出能够描述文本文档内容的词,所以目前的研究工作都使用主题词来表示文本文档资源的语义信息,将文本文档主题意思提取的问题转化为主题词提取的问题。 
现有的研究方法是用主题词来表示文本文档的主题意思,由于词汇层面(代表意思的词)和概念层面(意思本身)的差别,即同一个词在不同的上下文环境下有着不同的词义,而不同的词也能够表示相同的意思,这将导致主题意思提取的不准确性,其主要表现在以下两个方面: 
●主题意思表示的不准确。由于词有不同的词义,所以如果使用词来表示主题意思,那么表示的主题意思也许会产生歧义,比如说,“mouse”能够表示老鼠或者鼠标的意思,当给出mouse代表文本文档的主题意思时,将会产生混淆; 
●主题意思提取过程中的不准确。在主题意思的提取过程中,现有的方法会对词进行多种操作,其中包括统计词在文本文档中出现的频率、初始位置等。在这些操作中,如果不考虑词义的话,将会导致某些操作的错误,从而降低主题意思提取的准确率。 
为了解决上述问题,本发明使用词义代替词,这是因为词义只有唯一的意思。在本发明的主题词义提取算法中,首先采用消歧算法得到候选主题词的词义,然后,在词义合并和提取的步骤中,通过考虑这些词义之间的相关度来提高算法的准确性。 
发明内容
要解决的技术问题 
为了消除词的多义性导致现有的主题意思提取算法不准确的问题,本发明提出使用词义代替词来进行主题意思的提取,可以提高主题意思提取的精度。 
技术方案 
本发明的基本思想是:将文本文档中的候选主题词转化为候选主题词义,然后对候选主题词义进行提取,最后输出主题词义。整个过程采用词义代替词进行主题意思的提取,这样在主题意思的表达和算法处理的过程中都避免了一词多义性带来的不准确性。 
本发明的技术特征在于:利用候选主题词的上下文信息,采用消歧技术,将候选主题词转化为候选主体词义进行后续的处理;并且在提取主题词义的过程中同时考虑到统计信息和语义信息,提高主题词义提取的精度。 
一种文本文档主题词义的自动提取方法,其特征在于步骤如下: 
(1)分别对训练文本文档集和测试文本文档集中的每篇文本文档进行预处理,得到每篇文本文档的候选主题词义集合; 
所述的预处理包括以下步骤: 
步骤a:提取文本文档的候选主题词集合: 
首先,去除文本文档中的数字和标点符号,将文本文档切分成现有词的集合; 
然后,去除集合中不满足条件的词; 
最后,将剩余词中的大写字母转换为小写字母,并去掉词的前缀和后缀,得到文本文档的候选主题词集合; 
所述的条件为:组成词的字母个数小于预设值,或至少有一个小写字母,或非停用词;所述的非停用词是指停用词以外的所有词,所述的停用词是虚词;所述的预设值为15个字母; 
步骤b:采用消岐算法获取文本文档的候选主题词义集合: 
首先,在候选主题词集合中选择距离每个候选主题词W范围内的词作为该候选主题词的上下文;所述的W的取值范围为[6,10]; 
然后,按语义相关度计算公式 
Figure BSA00000175174800031
计算每个候选主题词的第k个可能词义sk和该候选主题词的第i个上下文ci的语义相关度rel(sk,ci),并按 
Figure BSA00000175174800032
计算候选主题词的第k个可能词义sk与该候选主题词的所有上下文的总的语义相关度SenseScore(sk); 
其中,k=1,2,…,K,K为候选主题词的可能词义的个数;i=1,2,…,I,I为候选主题词的上下文的个数;wordNumInGlossOfsk表示sk的WordNet释义包含的单词个数,wordNumInGlossOfci表示ci的WordNet释义包含的单词个数,NumOfOverlaps_skci表示sk的WordNet释义和ci的WordNet释义所包含的单词中相同单词的个数;所述的可能词义为定义在词法数据库WordNet中的词义; 
最后,选择总的语义相关度SenseScore值最大的可能词义作为候选主题词的候选 主题词义,得到文本文档的候选主题词义集合; 
步骤c:合并候选主题词义: 
按语义相关度计算公式 
Figure BSA00000175174800041
计算候选主题词义集合中任意两个候选主题词义 
Figure BSA00000175174800042
和 的语义相关度,并去除语义相关度值大于给定阈值λ的两个候选主题词义中的任意一个;所述的阈值λ的取值范围为[0.5,0.8]; 
其中, 
Figure BSA00000175174800044
Figure BSA00000175174800045
p≠q, 
Figure BSA00000175174800046
为候选主题词义集合中候选主题词义的个数; 表示 的WordNet释义包含的单词个数, 
Figure BSA00000175174800049
表示 的WordNet释义包含的单词个数, 
Figure BSA000001751748000411
表示 
Figure BSA000001751748000412
的WordNet释义和 
Figure BSA000001751748000413
的WordNet释义所包含的单词中相同单词的个数; 
(2)计算候选主题词义集合中每个候选主题词义在文本文档中的特征属性值;所述的特征属性包括:侯选主题词义在文本文档中出现的频率tf×idf、侯选主题词义在文本文档中第一次出现的平均位置fo、侯选主题词义包含的字母个数len和候选主题词义之间的内聚性coh; 
所述的侯选主题词义在文本文档中出现的频率tf×idf的计算公式为: 
tf × idf ( cs j ) = f ( cs j ) × log | D | | D ( cs j ) |
其中,csj为文本文档的候选主题词义集合中的第j个候选主题词义,j=1,2,…,J,J为文本文档的候选主题词义集合中候选主题词义的个数;f(csj)为csj在文本文档中出现的次数,D表示文本文档集,|D|为D中的文本文档篇数,|D(csj)|为在D中包含候选主题词义csj的文本文档篇数; 
所述的侯选主题词义在文本文档中第一次出现的平均位置fo的计算公式为: 
fo(csj)=Ofirst/J 
其中,Ofirst为候选主题词义csj在文本文档中第一次出现的位置; 
所述的候选主题词义之间的内聚性coh的计算公式为: 
coh ( cs j ) = Σ l = 1 , l ≠ j J rel ( cs j , cs l ) J - 1
其中,rel(csj,csl)为按语义相关度计算公式 
Figure BSA00000175174800052
计算得到的文本文档的候选主题词义集合中候选主题词义csj和候选主题词义csl的语义相关度;wordNumInGlossOfcsj表示csj的WordNet释义包含的单词个数,wordNumInGlossOfcsl表示csl的WordNet释义包含的单词个数,NumOfOverlaps_csjcsl表示csj的WordNet释义和csl的WordNet释义所包含的单词中相同单词的个数; 
(3)利用贝叶斯模型抽取测试文本文档集中每篇文本文档的最终的主题词义集合: 
首先,按Pr=Pr[T|yes]×Pr[O|yes]×Pr[L|yes]×Pr[C|yes]×Pr[yes]计算测试文本文档集中每篇文本文档的每个候选主题词义为主题词义的概率Pr; 
其中,Pr[T|yes]、Pr[O|yes]、Pr[L|yes]和Pr[C|yes]分别表示候选主题词义在具备当前tf×idf、fo、len、coh特征属性值的条件下为主题词义的概率,Pr[yes]表示训练文本文档集中该候选主题词义为主题词义的文本文档的数目与训练文本文档集中该候选主题词义不为主题词义的文本文档的数目的比例; 
然后,将该篇文本文档的所有候选主题词义按概率Pr值由大到小进行排序; 
最后,选择排序在前的用户设定数目的候选主题词义构成该篇文本文档的最终的主题词义集合。 
Pr[T|yes]、Pr[O|yes]、Pr[L|yes]、Pr[C|yes]和Pr[yes]的计算公式分别为: 
Pr [ T | yes ] = tf × idf d ′ ( cs m ′ ) / tf × idf ‾ 1 ( cs m ′ )
Pr [ O | yes ] = fo d ′ ( cs m ′ ) / fo ‾ 1 ( cs m ′ )
Pr [ L | yes ] = len d ′ ( cs m ′ ) / len ‾ 1 ( cs m ′ )
Pr [ C | yes ] = coh d ′ ( cs m ′ ) / coh ‾ 1 ( cs m ′ )
Pr [ yes ] = | T 1 | | T 0 |
其中,d′为测试文本文档集中的文本文档,cs′m为文本文档d′的第m个候选主题词义,m=1,2,…,M,M为文本文档d′的候选主题词义集合中候选主题词义的个数;tf×idfd′(cs′m)、fod′(cs′m)、lend′(cs′m)和cohd′(cs′m)分别为候选主题词义cs′m在文本文档d′中的tf×idf、fo、len、coh特征属性值; 
Figure BSA00000175174800066
和 
Figure BSA00000175174800067
分别为cs′m在文本文档集合T1中的平均tf×idf、fo、len、coh特征属性值;所述的文本文档集合T1为由训练文本文档集中该候选主题词义cs′m为主题词义的文本文档组成的集合;所述的文本文档集合T0为由训练文本文档集中该候选主题词义cs′m不为主题词义的文本文档组成的集合; 
Figure BSA00000175174800068
和 
Figure BSA00000175174800069
的计算公式分别为: 
tf × idf ‾ 1 ( cs m ′ ) = Σ n = 1 | T 1 | tf × idf n 1 ( cs m ′ ) | T 1 |
fo ‾ 1 ( cs m ′ ) = Σ n = 1 | T 1 | fo n 1 ( cs m ′ ) | T 1 |
len ‾ 1 ( cs m ′ ) = Σ n = 1 | T 1 | len n 1 ( cs m ′ ) | T 1 |
coh ‾ 1 ( cs m ′ ) = Σ n = 1 | T 1 | coh n 1 ( cs m ′ ) | T 1 |
其中, 
Figure BSA000001751748000614
和 
Figure BSA000001751748000615
分别为候选主题词义cs′m在文 本文档集合T1中第n篇文本文档中的tf×idf、fo、len、coh特征属性值。 
有益效果: 
本发明提出一种文本文档主题词义的自动提取方法,使用词义代替词进行处理,消除了词多义性导致的主题意思表达不准确和提取过程误操作的问题,从而提高算法的准确率。此外,在提取过程中本发明同时考虑了统计信息(贝叶斯估计概率)和语义信息(词义),进一步提高了算法的精度。 
附图说明
图1:本发明方法的基本流程图 
图2:使用本发明方法进行主题词义提取的实验结果图 
具体实施方式
给定训练文本文档集T={t1,…,t|T|}和待提取的文本文档集(测试文本文档集)E={e1,…,e|E|},分别对T和E中的每篇文本文档按如下步骤一和步骤二进行处理,具体为: 
步骤一:文本文档预处理。对于T中的文本文档ti(i=1,…,|T|,|T|为文本文档集合T中的文本文档篇数),首先利用步骤1.1得到该文本文档的候选主题词,然后利用步骤1.2来获得候选主题词义,最后使用步骤1.3进行候选主题词义的合并处理,得到文本文档ti最终的候选主题词义集合。 
步骤1.1:获取候选主题词。首先,去除文本文档ti中的数字和各种标点符号,将文本文档表示为词的集合:ti={w1,…,wij,…};然后,对该词集合中的每一个词wij,本发明采用以下规则来判断其是否为候选主题词:如果组成wij的字母个数大于预设值L(这里,L=15),或者组成wij的字母全为大写,或者wij为停用词(即包括冠词、代词等在内的虚词),则wij不能为候选主题词,将其从集合{w1,…,wij,…}中去掉;最后,将集合{w1,…,wij,…}中所有单词的大写字母变成小写字母,并除去单词的前后缀,即 每个候选主题词以词根形式表示,得到文本文档ti的候选主题词集合CWi={cw1,…,cwij,…}。 
步骤1.2:获取候选主题词义。对于文本文档ti的候选主题词集合CWi={cw1,…,cwij,…}中的候选主题词cwij(j=1,…,|CWi|,|CWi|为候选主题词集合CWi中的候选主题词的个数),本发明采用消歧算法得到其在文本文档ti中的正确词义。 
首先,在CWi中,选择cwij的W距离范围内的所有词为其上下文,得到cwij的上下文集合 
Figure BSA00000175174800081
(|Cij|为上下文集合Cij中的词的个数),而 
Figure BSA00000175174800082
为该候选主题词cwij的所有可能词义的集合,其中,|Sij|为可能词义集合Sij中可能词义的个数,这里,可能词义是定义在词法数据库WordNet中的候选主题词的词义;然后,按下式计算候选主题词cwij的第k个可能词义sijk与它的第l个上下文cijl的语义相关度rel(sijk,cijl): 
rel ( s ijk , c ijl ) = NumOfOverlaps _ s ijk c ijl ( wordNumInGlossOfs ijk + wordNumInGlossOfc ijl ) / 2 - - - ( 1 )
其中,wordNumInGlossOfsijk表示sijk的WordNet释义包含的单词个数,wordNumInGlossOfcijl表示cijl的WordNet释义包含的单词个数,NumOfOverlaps_sijkcijl表示sijk的WordNet释义和cijl的WordNet释义所包含的单词中相同单词的个数; 
再按下式求取每一个可能词义sijk与上下文集合中所有上下文cijl(l=1,…,|Cij|)的总的语义相关度SenseScore(sijk): 
SenseScore ( s ijk ) = Σ l = 1 | C ij | rel ( s ijk , c ijl ) - - - ( 2 )
最后,选取具有最大的总的语义相关度SenseScore值的可能词义作为候选主题词cwij的正确词义,即候选主题词cwij的候选主题词义。 
采用上述方法计算得到文本文档ti的候选主题词集合CWi={cw1,…,cwij,…}中的所有候选主题词cwij(j=1,2,…,|CWi|)的候选主题词义,构成文本文档ti的候选主题词义 集合,记为 
Figure BSA00000175174800091
其中,|CSi|为集合CSi中候选主题词义的个数。 
步骤1.3:候选主题词义的合并。对于候选主题词义集合CSi中的任意两个候选主题词义csip和csiq(p,q=1,2,…,|CSi|,p≠q),按式(3)计算它们之间的语义相关度rel(csip csiq),如果rel(csip,csiq)>λ(λ为给定阈值),则认为对应的候选主题词cwip和cwiq在语义上是相同的,将csip和csiq作为同一候选主题词义,即在候选主题词义集合CSi中删除csip或csiq。 
rel ( cs ip , cs iq ) = NumOfOverlaps _ cs ip cs iq ( wordNumInGlossOfcs ip + wordNumInGlossOfcs iq ) / 2 - - - ( 3 )
其中,wordNumInGlossOfcsip表示csip的WordNet释义包含的单词个数,wordNumInGlossOfcsiq表示csiq的WordNet释义包含的单词个数,NumOfOverlaps_csipcsiq表示csip的WordNet释义和csiq的WordNet释义所包含的单词中相同单词的个数。 
步骤二:特征属性的计算。对于步骤一得到的文本文档ti的候选主题词义集合CSi中的每一个候选主题词义csim(m=1,2,…,|CSi|,|CSi|为CSi中候选主题词义的个数),分别计算它的四个特征属性值,即该候选主题词义在文本文档中出现的频率tf×idf、该候选主题词义在文本文档中第一次出现的平均位置fo、该候选主题词义包含的字母个数len和候选主题词义之间的内聚性coh,候选主题词义csim的tf×idf、fo和coh属性值的具体计算公式为: 
tf × idf ( cs im ) = f ( cs im ) × log | T | | T ( cs im ) | - - - ( 4 )
fo(csim)=Ofirst/|CSi|    (5) 
coh ( cs im ) = Σ p = 1 , p ≠ m | C S i | rel ( cs im , cs ip ) | C S i | - 1 - - - ( 6 )
其中,f(csim)为该候选主题词义csim在文本文档ti中出现的次数,|T|为文本文档集T中的文本文档篇数,|T(csim)|为在文本文档集T中包含该候选主题词义csim的文本文档 篇数;Ofirst为该候选主题词义csim在文本文档ti中第一次出现的位置;rel(csim,csip)为按式(3)计算的候选主题词义之间的语义相关度。 
对于待提取的文本文档集E={e1,…,ei,…,e|E|}(即测试文本文档集)中的每篇文本文档也采用上述步骤一和步骤二进行处理。其中,对于E={e1,…,ei,…,e|E|}中的每一篇文本文档ei,得到其候选主题词义集合 
Figure BSA00000175174800101
以及其中每一个候选主题词义ceij的四个特征属性值:tf×idf(ceij)、fo(ceij)、len(ceij)和coh(ceij)。下面将通过步骤三,即采用贝叶斯估计的方法来提取待提取文本文档集E={e1,…,ei,…,e|E|}(即测试文本文档集)的主题词义。具体为: 
步骤三:主题词义的提取。由于训练文本文档集的主题词义是已知的,因此,对于测试文本文档集E中的文本文档ei的每一个候选主题词义ceij,首先,根据其是否为训练文本文档的主题词义,将训练文本文档集T分为两类:对于训练文本文档集T中的文本文档ti,如果该候选主体词义ceij为ti的主题词义,则将文本文档ti归入第一类文本文档集合T1;如果该候选主体词义ceij不为ti的主题词义,则将文本文档ti归入第二类文本文档集合T0。然后,用下面的公式计算ceij在集合T1中的平均属性值 
Figure BSA00000175174800102
tf × idf ‾ 1 ( ce ij ) = Σ u = 1 | T 1 | tf × idf u 1 ( ce ij ) | T 1 | - - - ( 7 )
fo ‾ 1 ( ce ij ) = Σ u = 1 | T 1 | fo u 1 ( ce ij ) | T 1 | - - - ( 8 )
len ‾ 1 ( ce ij ) = Σ u = 1 | T 1 | len u 1 ( ce ij ) | T 1 | - - - ( 9 )
coh ‾ 1 ( ce ij ) = Σ u = 1 | T 1 | coh u 1 ( ce ij ) | T 1 | - - - ( 10 )
其中, 
Figure BSA00000175174800111
分别为ceij在集合T1中的第u篇文本文档tu中的tf×idf、fo、len、coh属性值; 
最后,按下式计算候选主题词义ceij在文本文档ei中成为最终的主题词义的概率Pr: 
Pr=Pr[T|yes]×Pr[O|yes]×Pr[L|yes]×Pr[C|yes]×Pr[yes]    (11) 
其中,Pr[T|yes]、Pr[O|yes]、Pr[L|yes]和Pr[C|yes]分别表示测试文本文档集E中的文本文档ei的候选主题词义ceij在具备当前特征属性值tf×idf、fo、len、coh的条件下为主题词义的贝叶斯估计概率,Pr[yes]表示训练文本文档集中该候选主题词义是主题词义的文本文档的数目与训练文本文档集中该候选主题词义不是主题词义的文本文档的数目的比例; 
Pr[T|yes]、Pr[O|yes]、Pr[L|yes]、Pr[C|yes]和Pr[yes]的计算公式分别为: 
Pr [ T | yes ] = tf × idf e i ( ce ij ) / tf × idf ‾ 1 ( ce ij ) - - - ( 12 )
Pr [ O | yes ] = fo e i ( ce ij ) / fo ‾ 1 ( ce ij ) - - - ( 13 )
Pr [ L | yes ] = len e i ( ce ij ) / len ‾ 1 ( ce ij ) - - - ( 14 )
Pr [ C | yes ] = coh e i ( ce j ) / coh ‾ 1 ( ce ij ) - - - ( 15 )
Pr[yes]=|T1|/|T0|          (16) 
其中, 
Figure BSA00000175174800116
分别为ceij在测试文本文档集E中的文本文档ei中的tf×idf、fo、len、coh属性值;|T1|和|T0|分别为集合T1和T0中包含的文本文档篇数。 
采用上述方法计算待提取文本文档集(即测试文档集)中每篇文本文档ei的候选主题词义集合中的所有候选主题词义成为最终的主题词义的概率Pr,并按照Pr值由大到小进行排序,根据需要将排序在前的N个候选主体词义作为提取的文本文档ei的主题词义。 
示例实验:我们使用Java程序实现本发明,然后进行了一组实验来评估本发明,在实验中,阈值λ设为0.9。实验数据为从UN Food和农业组织维护的在线文本文档数据库中随机的下载了500篇包含主题词的文本文档。这些文本文档平均包含的主题词个数为4.95个。300篇文本文档被用来训练模型,其他的200篇文本文档用来做测试。 
Precision(准确率)、Recall(召回率)和综合的F-measure被用来对主题词义提取算法进行评价。 
Precision = correct _ extracted _ keywords all _ extracted _ keywords - - - ( 17 )
Recall = correct _ extracted _ keywords manually _ assigned _ keywords - - - ( 18 )
F - measure = 2 × Precision × Recall Precision + Recall - - - ( 19 )
其中,correct_extracted_keywords为正确提取的主题词义个数,all_extracted_keywords为提取的所有主题词义的个数,manually_assigned_keywords为人工分配的主题词义的个数。 
公式(17)、(18)和(19)用来对每一篇文本文档进行评估,最终的Precision、Recall和F-measure是整个测试文本文档集的平均值。 
说明书附图2给出了实验的结果。横轴表示本发明方法提取的主题词义的总数目,它的范围是从1到20,纵轴表示提取出来的主题词义正确的平均数目。从图中可以看出,当提取的总主题词义数为5个时,正确的主题词义大约为3个,达到了约60%的准确率;当提取的总主题词义数为9个时,正确的主题词义大约为4个,达到了约80%的准确率;当提取的总主题词义数为15个时,正确的主题词义大约为4.5个,达到了90%的准确率。以上分析表明,本发明的主题词义提取方法有较好的性能。 
从每篇文本文档提取出的主题词义集合中按顺序选取排序前五位的词义;然后, 采用评估公式(17)、(18)和(19)来计算每篇文本文档的Precision、Recall和F-measure;最后,计算相对于所有文本文档性能的平均值,最终的结果如表1所示。 
表1主题词义提取算法的性能 
  主题词义提取算法   Pr ecision   Recall   F-measure
  5个主题词义   0.595   0.612   0.603
从评估实验可以看出,本发明的主题词义提取方法有较好的性能,准确率和召回率都比较高,能够应用于文本文档的自动主题意思提取。这主要是因为本发明使用词义代替词来进行处理,从而能够更准确获取文本文档的主题意思。从附图2可以看出,当算法提取的总主题词义数达到9个时,能达到80%的准确率,所以本发明方法也可应用于半自动的文本文档主题标注,首先使用本发明方法产生多个主题词义,然后由用户来做筛选。 

Claims (1)

1.一种文本文档主题词义的自动提取方法,其特征在于步骤如下:
(1)分别对训练文本文档集和测试文本文档集中的每篇文本文档进行预处理,得到每篇文本文档的候选主题词义集合;
所述的预处理包括以下步骤:
步骤a:提取文本文档的候选主题词集合:
首先,去除文本文档中的数字和标点符号,将文本文档切分成现有词的集合;
然后,去除集合中不满足条件的词;
最后,将剩余词中的大写字母转换为小写字母,并去掉词的前缀和后缀,得到文本文档的候选主题词集合;
所述的条件为:组成词的字母个数小于预设值,或至少有一个小写字母,或非停用词;所述的非停用词是指停用词以外的所有词,所述的停用词是虚词;所述的预设值为15个字母;
步骤b:采用消岐算法获取文本文档的候选主题词义集合:
首先,在候选主题词集合中选择距离每个候选主题词W范围内的词作为该候选主题词的上下文;所述的W的取值范围为[6,10];
然后,按语义相关度计算公式
rel ( s k , c i ) = NumOfOverlaps _ s k c i ( wordNumInGlossOfs k + wordNumInGlossOfc i ) / 2 计算每个候选主题词的第k个可能词义sk和该候选主题词的第i个上下文ci的语义相关度rel(sk,ci),并按
Figure FSB00000675840700012
计算候选主题词的第k个可能词义sk与该候选主题词的所有上下文的总的语义相关度SenseScore(sk);
其中,k=1,2,…,K,K为候选主题词的可能词义的个数;i=1,2,…,I,I为候选主题词的上下文的个数;wordNumInGlossOfsk表示sk的WordNet释义包含的单词个数,wordNumInGlossOfci表示ci的WordNet释义包含的单词个数,NumOfOverlaps_skci表示sk的WordNet释义和ci的WordNet释义所包含的单词中相同单词的个数;所述的可能词义为定义在词法数据库WordNet中的词义;
最后,选择总的语义相关度SenseScore值最大的可能词义作为候选主题词的候选主题词义,得到文本文档的候选主题词义集合;
步骤c:合并候选主题词义:
按语义相关度计算公式
rel ( s ^ p , s ^ q ) = NumOfOverlaps _ s ^ p s ^ q ( wordNumInGlossOf s ^ p + wordNumInGlossOf s ^ q ) / 2 计算候选主题词义集合中任意两个候选主题词义
Figure FSB00000675840700023
的语义相关度,并去除语义相关度值大于给定阈值λ的两个候选主题词义中的任意一个;所述的阈值λ的取值范围为[0.5,0.8];
其中,
Figure FSB00000675840700024
Figure FSB00000675840700025
p≠q,
Figure FSB00000675840700026
为候选主题词义集合中候选主题词义的个数;
Figure FSB00000675840700027
表示的WordNet释义包含的单词个数,
Figure FSB00000675840700029
表示
Figure FSB000006758407000210
的WordNet释义包含的单词个数,
Figure FSB000006758407000211
表示
Figure FSB000006758407000212
的WordNet释义和的WordNet释义所包含的单词中相同单词的个数;
(2)计算候选主题词义集合中每个候选主题词义在文本文档中的特征属性值;所述的特征属性包括:侯选主题词义在文本文档中出现的频率tf×idf、侯选主题词义在文本文档中第一次出现的平均位置fo、侯选主题词义包含的字母个数len和候选主题词义之间的内聚性coh;
所述的侯选主题词义在文本文档中出现的频率tf×idf的计算公式为:
tf × idf ( cs j ) = f ( cs j ) × log | D | | D ( cs j ) |
其中,csj为文本文档的候选主题词义集合中的第j个候选主题词义,j=1,2,…,J,J为文本文档的候选主题词义集合中候选主题词义的个数;f(csj)为csj在文本文档中出现的次数,D表示文本文档集,|D|为D中的文本文档篇数,|D(csj)|为在D中包含候选主题词义csj的文本文档篇数;
所述的侯选主题词义在文本文档中第一次出现的平均位置fo的计算公式为:
fo(csj)=Ofirst/J
其中,Ofirst为候选主题词义csj在文本文档中第一次出现的位置;
所述的候选主题词义之间的内聚件coh的计算公式为:
coh ( cs j ) = Σ l = 1 , l ≠ j J rel ( cs j , cs l ) J - 1
其中,rel(csj,csl)为按语义相关度计算公式
rel ( cs j , cs l ) = NumOfOverlaps _ cs j cs l ( wordNumInGlossOfcs j + wordNumInGlossOfcs l ) / 2 计算得到的文本文档的候选主题词义集合中候选主题词义csj和候选主题词义csl的语义相关度;wordNumInGlossOfcsj表示csj的WordNet释义包含的单词个数,wordNumInGlossOfcsl表示csl的WordNet释义包含的单词个数,NumOfOverlaps_csjcsl表示csj的WordNet释义和csl的WordNet释义所包含的单词中相同单词的个数;
(3)利用贝叶斯模型抽取测试文本文档集中每篇文本文档的最终的主题词义集合:
首先,按Pr=Pr[T|yes]×Pr[O|yes]×Pr[L|yes]×Pr[C|yes]×Pr[yes]计算测试文本文档集中每篇文本文档的每个候选主题词义为主题词义的概率Pr;
其中,Pr[T|yes]、Pr[O|yes]、Pr[L|yes]和Pr[C|yes]分别表示候选主题词义在具备当前tf×idf、fo、len、coh特征属性值的条件下为主题词义的概率,Pr[yes]表示训练文本文档集中该候选主题词义为主题词义的文本文档的数目与训练文本文档集中该候选主题词义不为主题词义的文本文档的数目的比例,计算公式分别为:
Pr [ T | yes ] = tf × idf d ′ ( cs m ′ ) / tf × idf ‾ 1 ( cs m ′ )
Pr [ O | yes ] = fo d ′ ( cs m ′ ) / fo ‾ 1 ( cs m ′ )
Pr [ L | yes ] = len d ′ ( cs m ′ ) / len ‾ 1 ( cs m ′ )
Pr [ C | yes ] = coh d ′ ( cs m ′ ) / coh ‾ 1 ( cs m ′ )
Pr [ yes ] = | T 1 | | T 0 |
其中,d′为测试文本文档集中的文本文档,cs′m为文本文档d′的第m个候选主题词义,m=1,2,…,M,M为文本文档d′的候选主题词义集合中候选主题词义的个数;tf×idfd′(cs′m)、fod′(cs′m)、lend′(cs′m)和cohd′(cs′m)分别为候选主题词义cs′m在文本文档d′中的tf×idf、fo、len、coh特征属性值;
Figure FSB00000675840700046
Figure FSB00000675840700047
Figure FSB00000675840700049
分别为cs′m在文本文档集合T1中的平均tf×idf、fo、len、coh特征属性值;所述的文本文档集合T1为由训练文本文档集中该候选主题词义cs′m为主题词义的文本文档组成的集合;所述的文本文档集合T0为由训练文本文档集中该候选主题词义cs′m不为主题词义的文本文档组成的集合;
Figure FSB000006758407000410
Figure FSB000006758407000411
Figure FSB000006758407000413
的计算公式分别为:
tf × idf ‾ 1 ( cs m ′ ) = Σ n = 1 | T 1 | tf × idf n 1 ( cs m ′ ) | T 1 |
fo ‾ 1 ( cs m ′ ) = Σ n = 1 | T 1 | fo n 1 ( cs m ′ ) | T 1 |
len ‾ 1 ( cs m ′ ) = Σ n = 1 | T 1 | len n 1 ( cs m ′ ) | T 1 |
coh ‾ 1 ( cs m ′ ) = Σ n = 1 | T 1 | coh n 1 ( cs m ′ ) | T 1 |
其中,
Figure FSB00000675840700056
Figure FSB00000675840700057
Figure FSB00000675840700058
分别为候选主题词义cs′m在文本文档集合T1中第n篇文本文档中的tf×idf、fo、len、coh特征属性值;
然后,将该篇文本文档的所有候选主题词义按概率Pr值由大到小进行排序;
最后,选择排序在前的用户设定数目的候选主题词义构成该篇文本文档的最终的主题词义集合。
CN2010102101066A 2010-06-24 2010-06-24 一种文本文档主题词义的自动提取方法 Active CN101887415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102101066A CN101887415B (zh) 2010-06-24 2010-06-24 一种文本文档主题词义的自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102101066A CN101887415B (zh) 2010-06-24 2010-06-24 一种文本文档主题词义的自动提取方法

Publications (2)

Publication Number Publication Date
CN101887415A CN101887415A (zh) 2010-11-17
CN101887415B true CN101887415B (zh) 2012-05-23

Family

ID=43073341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102101066A Active CN101887415B (zh) 2010-06-24 2010-06-24 一种文本文档主题词义的自动提取方法

Country Status (1)

Country Link
CN (1) CN101887415B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455487B (zh) * 2012-05-29 2018-07-06 腾讯科技(深圳)有限公司 一种搜索词的提取方法及装置
CN106484920A (zh) * 2016-11-21 2017-03-08 北京恒华伟业科技股份有限公司 一种评审文档指标的抽取方法
CN108512873B (zh) * 2017-02-27 2020-02-04 中国科学院沈阳自动化研究所 一种分布式自组织结构的分组语义消息过滤与路由方法
CN107729480B (zh) * 2017-10-16 2020-06-26 中科鼎富(北京)科技发展有限公司 一种限定区域的文本信息抽取方法及装置
CN110020153B (zh) * 2017-11-30 2022-02-25 北京搜狗科技发展有限公司 一种搜索方法及装置
CN108920454A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种主题短语抽取方法
CN110209941B (zh) * 2019-06-03 2021-01-15 北京卡路里信息技术有限公司 维护推送内容池的方法、推送方法、装置、介质及服务器
CN110263210B (zh) * 2019-06-24 2020-10-27 上海松鼠课堂人工智能科技有限公司 自适应英语学习词库图谱管理方法和***

Also Published As

Publication number Publication date
CN101887415A (zh) 2010-11-17

Similar Documents

Publication Publication Date Title
CN101887415B (zh) 一种文本文档主题词义的自动提取方法
Rousseau et al. Main core retention on graph-of-words for single-document keyword extraction
US9104710B2 (en) Method for cross-domain feature correlation
Wen et al. Emotion classification in microblog texts using class sequential rules
CN101067808B (zh) 文本关键词的提取方法
CN101944099B (zh) 一种使用本体进行文本文档自动分类的方法
CN102799647B (zh) 网页去重方法和设备
CN101694670B (zh) 一种基于公共子串的中文Web文档在线聚类方法
Ni et al. Short text clustering by finding core terms
CN106599054B (zh) 一种题目分类及推送的方法及***
CN103617157A (zh) 基于语义的文本相似度计算方法
Glenisson et al. Combining full-text analysis and bibliometric indicators. A pilot study
CN105488024A (zh) 网页主题句的抽取方法及装置
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
CN102081601B (zh) 一种领域词识别方法和装置
CN102760142A (zh) 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN103399901A (zh) 一种关键词抽取方法
CN101393555A (zh) 一种垃圾博客检测方法
CN104484380A (zh) 个性化搜索方法及装置
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN106649308B (zh) 一种分词词库更新方法及***
CN103886072B (zh) 煤矿搜索引擎中检索结果聚类***
CN104778157A (zh) 一种多文档摘要句的生成方法
CN107085568A (zh) 一种文本相似度判别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Fang Jun

Inventor after: Guo Lei

Inventor after: Chang Weiwei

Inventor after: Yang Ning

Inventor before: Fang Jun

Inventor before: Guo Lei

Inventor before: Chang Weiwei

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: FANG JUN GUO LEI CHANG WEIWEI TO: FANG JUN GUO LEI CHANG WEIWEI YANG NING

ASS Succession or assignment of patent right

Owner name: NORTHWESTERN POLYTECHNICAL UNIVERSITY

Effective date: 20140814

Owner name: COMTEC SOLAR (JIANGSU) CO., LTD.

Free format text: FORMER OWNER: NORTHWESTERN POLYTECHNICAL UNIVERSITY

Effective date: 20140814

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 710072 XI AN, SHAANXI PROVINCE TO: 226600 NANTONG, JIANGSU PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20140814

Address after: 226600 the Yellow Sea Road, Haian Development Zone, Haian County, Nantong, Jiangsu

Patentee after: Comtec Solar (Jiangsu) Co., Ltd.

Patentee after: Northwestern Polytechnical University

Address before: 710072 Xi'an friendship West Road, Shaanxi, No. 127

Patentee before: Northwestern Polytechnical University