CN101887415B

CN101887415B - 一种文本文档主题词义的自动提取方法

Info

Publication number: CN101887415B
Application number: CN2010102101066A
Authority: CN
Inventors: 方俊; 郭雷; 常威威
Original assignee: Northwestern Polytechnical University
Current assignee: Comtec Solar (Jiangsu) Co., Ltd.; Northwestern Polytechnical University
Priority date: 2010-06-24
Filing date: 2010-06-24
Publication date: 2012-05-23
Anticipated expiration: 2030-06-24
Also published as: CN101887415A

Abstract

本发明涉及一种文本文档主题词义的自动提取方法，包括：首先对训练文本文档集和测试文本文档集进行文本文档预处理，得到训练文本文档集和测试文本文档集中每一篇文本文档的候选主题词义集合；然后，分别计算每一个候选主题词义的特征属性值；最后，利用贝叶斯模型抽取测试文本文档集中每一篇文本文档的最终的主题词义。本发明的整个过程采用词义代替词进行主题意思的提取，避免了一词多义性带来的不准确性，应用本发明可以提高主题意思提取的精度。

Description

一种文本文档主题词义的自动提取方法

技术领域

本发明涉及一种对文本文档的主题词义进行自动提取的方法，属于计算机信息处理、自然语言处理等领域。适用于对大量的文本文档的主题进行快速准确的抽取。

背景技术

随着Internet的发展，信息总量的增长速度呈指数上升，大量的信息以电子文本文档的形式呈现在人们面前，迫切需要自动化的工具帮助人们在海量信息中迅速找到真正需要的信息。为了达到这个目标，首要的任务是对文本文档的主题意思进行抽取。此外，主题意思还可应用于很多其他文本挖掘领域，如文本分类、文本聚类和文本检索等。在最为理想的情况下，主题意思是人为给出的，但由于海量的文本文档，人为给出文本文档主题意思变得不可行，所以，高性能的主题意思自动提取算法的研究是十分重要的。

文本文档的主题意思代表着文本文档的概要信息，由于主题词抽取的任务是要从文本文档中找出能够描述文本文档内容的词，所以目前的研究工作都使用主题词来表示文本文档资源的语义信息，将文本文档主题意思提取的问题转化为主题词提取的问题。

现有的研究方法是用主题词来表示文本文档的主题意思，由于词汇层面(代表意思的词)和概念层面(意思本身)的差别，即同一个词在不同的上下文环境下有着不同的词义，而不同的词也能够表示相同的意思，这将导致主题意思提取的不准确性，其主要表现在以下两个方面：

●主题意思表示的不准确。由于词有不同的词义，所以如果使用词来表示主题意思，那么表示的主题意思也许会产生歧义，比如说，“mouse”能够表示老鼠或者鼠标的意思，当给出mouse代表文本文档的主题意思时，将会产生混淆；

●主题意思提取过程中的不准确。在主题意思的提取过程中，现有的方法会对词进行多种操作，其中包括统计词在文本文档中出现的频率、初始位置等。在这些操作中，如果不考虑词义的话，将会导致某些操作的错误，从而降低主题意思提取的准确率。

为了解决上述问题，本发明使用词义代替词，这是因为词义只有唯一的意思。在本发明的主题词义提取算法中，首先采用消歧算法得到候选主题词的词义，然后，在词义合并和提取的步骤中，通过考虑这些词义之间的相关度来提高算法的准确性。

发明内容

要解决的技术问题

为了消除词的多义性导致现有的主题意思提取算法不准确的问题，本发明提出使用词义代替词来进行主题意思的提取，可以提高主题意思提取的精度。

技术方案

本发明的基本思想是：将文本文档中的候选主题词转化为候选主题词义，然后对候选主题词义进行提取，最后输出主题词义。整个过程采用词义代替词进行主题意思的提取，这样在主题意思的表达和算法处理的过程中都避免了一词多义性带来的不准确性。

本发明的技术特征在于：利用候选主题词的上下文信息，采用消歧技术，将候选主题词转化为候选主体词义进行后续的处理；并且在提取主题词义的过程中同时考虑到统计信息和语义信息，提高主题词义提取的精度。

一种文本文档主题词义的自动提取方法，其特征在于步骤如下：

(1)分别对训练文本文档集和测试文本文档集中的每篇文本文档进行预处理，得到每篇文本文档的候选主题词义集合；

所述的预处理包括以下步骤：

步骤a：提取文本文档的候选主题词集合：

首先，去除文本文档中的数字和标点符号，将文本文档切分成现有词的集合；

然后，去除集合中不满足条件的词；

最后，将剩余词中的大写字母转换为小写字母，并去掉词的前缀和后缀，得到文本文档的候选主题词集合；

所述的条件为：组成词的字母个数小于预设值，或至少有一个小写字母，或非停用词；所述的非停用词是指停用词以外的所有词，所述的停用词是虚词；所述的预设值为15个字母；

步骤b：采用消岐算法获取文本文档的候选主题词义集合：

首先，在候选主题词集合中选择距离每个候选主题词W范围内的词作为该候选主题词的上下文；所述的W的取值范围为[6，10]；

然后，按语义相关度计算公式

计算每个候选主题词的第k个可能词义s_k和该候选主题词的第i个上下文c_i的语义相关度rel(s_k，c_i)，并按

计算候选主题词的第k个可能词义s_k与该候选主题词的所有上下文的总的语义相关度SenseScore(s_k)；

其中，k＝1，2，…，K，K为候选主题词的可能词义的个数；i＝1，2，…，I，I为候选主题词的上下文的个数；wordNumInGlossOfs_k表示s_k的WordNet释义包含的单词个数，wordNumInGlossOfc_i表示c_i的WordNet释义包含的单词个数，NumOfOverlaps_s_kc_i表示s_k的WordNet释义和c_i的WordNet释义所包含的单词中相同单词的个数；所述的可能词义为定义在词法数据库WordNet中的词义；

最后，选择总的语义相关度SenseScore值最大的可能词义作为候选主题词的候选主题词义，得到文本文档的候选主题词义集合；

步骤c：合并候选主题词义：

按语义相关度计算公式

计算候选主题词义集合中任意两个候选主题词义

和的语义相关度，并去除语义相关度值大于给定阈值λ的两个候选主题词义中的任意一个；所述的阈值λ的取值范围为[0.5，0.8]；

其中，

p≠q，

为候选主题词义集合中候选主题词义的个数；表示的WordNet释义包含的单词个数，

表示的WordNet释义包含的单词个数，

表示

的WordNet释义和

的WordNet释义所包含的单词中相同单词的个数；

(2)计算候选主题词义集合中每个候选主题词义在文本文档中的特征属性值；所述的特征属性包括：侯选主题词义在文本文档中出现的频率tf×idf、侯选主题词义在文本文档中第一次出现的平均位置fo、侯选主题词义包含的字母个数len和候选主题词义之间的内聚性coh；

所述的侯选主题词义在文本文档中出现的频率tf×idf的计算公式为：

tf \times idf ({cs}_{j}) = f ({cs}_{j}) \times \log \frac{| D |}{| D ({cs}_{j}) |}

其中，cs_j为文本文档的候选主题词义集合中的第j个候选主题词义，j＝1，2，…，J，J为文本文档的候选主题词义集合中候选主题词义的个数；f(cs_j)为cs_j在文本文档中出现的次数，D表示文本文档集，|D|为D中的文本文档篇数，|D(cs_j)|为在D中包含候选主题词义cs_j的文本文档篇数；

所述的侯选主题词义在文本文档中第一次出现的平均位置fo的计算公式为：

fo(cs_j)＝O_first/J

其中，O_first为候选主题词义cs_j在文本文档中第一次出现的位置；

所述的候选主题词义之间的内聚性coh的计算公式为：

coh ({cs}_{j}) = \frac{Σ_{l = 1, l &NotEqual; j}^{J} rel ({cs}_{j}, {cs}_{l})}{J - 1}

其中，rel(cs_j，cs_l)为按语义相关度计算公式

计算得到的文本文档的候选主题词义集合中候选主题词义cs_j和候选主题词义cs_l的语义相关度；wordNumInGlossOfcs_j表示cs_j的WordNet释义包含的单词个数，wordNumInGlossOfcs_l表示cs_l的WordNet释义包含的单词个数，NumOfOverlaps_cs_jcs_l表示cs_j的WordNet释义和cs_l的WordNet释义所包含的单词中相同单词的个数；

(3)利用贝叶斯模型抽取测试文本文档集中每篇文本文档的最终的主题词义集合：

首先，按Pr＝Pr[T|yes]×Pr[O|yes]×Pr[L|yes]×Pr[C|yes]×Pr[yes]计算测试文本文档集中每篇文本文档的每个候选主题词义为主题词义的概率Pr；

其中，Pr[T|yes]、Pr[O|yes]、Pr[L|yes]和Pr[C|yes]分别表示候选主题词义在具备当前tf×idf、fo、len、coh特征属性值的条件下为主题词义的概率，Pr[yes]表示训练文本文档集中该候选主题词义为主题词义的文本文档的数目与训练文本文档集中该候选主题词义不为主题词义的文本文档的数目的比例；

然后，将该篇文本文档的所有候选主题词义按概率Pr值由大到小进行排序；

最后，选择排序在前的用户设定数目的候选主题词义构成该篇文本文档的最终的主题词义集合。

Pr[T|yes]、Pr[O|yes]、Pr[L|yes]、Pr[C|yes]和Pr[yes]的计算公式分别为：

\Pr [T | yes] = tf \times {idf}^{d^{'}} ({cs}_{m}^{'}) / {\overset{&OverBar;}{tf \times idf}}^{1} ({cs}_{m}^{'})

\Pr [O | yes] = {fo}^{d^{'}} ({cs}_{m}^{'}) / {\overset{&OverBar;}{fo}}^{1} ({cs}_{m}^{'})

\Pr [L | yes] = {len}^{d^{'}} ({cs}_{m}^{'}) / {\overset{&OverBar;}{len}}^{1} ({cs}_{m}^{'})

\Pr [C | yes] = {coh}^{d^{'}} ({cs}_{m}^{'}) / {\overset{&OverBar;}{coh}}^{1} ({cs}_{m}^{'})

\Pr [yes] = \frac{| T^{1} |}{| T^{0} |}

其中，d′为测试文本文档集中的文本文档，cs′_m为文本文档d′的第m个候选主题词义，m＝1，2，…，M，M为文本文档d′的候选主题词义集合中候选主题词义的个数；tf×idf^d′(cs′_m)、fo^d′(cs′_m)、len^d′(cs′_m)和coh^d′(cs′_m)分别为候选主题词义cs′_m在文本文档d′中的tf×idf、fo、len、coh特征属性值；

和

分别为cs′_m在文本文档集合T1中的平均tf×idf、fo、len、coh特征属性值；所述的文本文档集合T¹为由训练文本文档集中该候选主题词义cs′_m为主题词义的文本文档组成的集合；所述的文本文档集合T⁰为由训练文本文档集中该候选主题词义cs′_m不为主题词义的文本文档组成的集合；

和

的计算公式分别为：

{\overset{&OverBar;}{tf \times idf}}^{1} ({cs}_{m}^{'}) = \frac{Σ_{n = 1}^{| T^{1} |} tf \times {idf}_{n}^{1} ({cs}_{m}^{'})}{| T^{1} |}

{\overset{&OverBar;}{fo}}^{1} ({cs}_{m}^{'}) = \frac{Σ_{n = 1}^{| T^{1} |} {fo}_{n}^{1} ({cs}_{m}^{'})}{| T^{1} |}

{\overset{&OverBar;}{len}}^{1} ({cs}_{m}^{'}) = \frac{Σ_{n = 1}^{| T^{1} |} {len}_{n}^{1} ({cs}_{m}^{'})}{| T^{1} |}

{\overset{&OverBar;}{coh}}^{1} ({cs}_{m}^{'}) = \frac{Σ_{n = 1}^{| T^{1} |} {coh}_{n}^{1} ({cs}_{m}^{'})}{| T^{1} |}

其中，

和

分别为候选主题词义cs′_m在文本文档集合T¹中第n篇文本文档中的tf×idf、fo、len、coh特征属性值。

有益效果：

本发明提出一种文本文档主题词义的自动提取方法，使用词义代替词进行处理，消除了词多义性导致的主题意思表达不准确和提取过程误操作的问题，从而提高算法的准确率。此外，在提取过程中本发明同时考虑了统计信息(贝叶斯估计概率)和语义信息(词义)，进一步提高了算法的精度。

附图说明

图1：本发明方法的基本流程图

图2：使用本发明方法进行主题词义提取的实验结果图

具体实施方式

给定训练文本文档集T＝{t₁，…，t_|T|}和待提取的文本文档集(测试文本文档集)E＝{e₁，…，e_|E|}，分别对T和E中的每篇文本文档按如下步骤一和步骤二进行处理，具体为：

步骤一：文本文档预处理。对于T中的文本文档t_i(i＝1，…，|T|，|T|为文本文档集合T中的文本文档篇数)，首先利用步骤1.1得到该文本文档的候选主题词，然后利用步骤1.2来获得候选主题词义，最后使用步骤1.3进行候选主题词义的合并处理，得到文本文档t_i最终的候选主题词义集合。

步骤1.1：获取候选主题词。首先，去除文本文档t_i中的数字和各种标点符号，将文本文档表示为词的集合：t_i＝{w₁，…，w_ij，…}；然后，对该词集合中的每一个词w_ij，本发明采用以下规则来判断其是否为候选主题词：如果组成w_ij的字母个数大于预设值L(这里，L＝15)，或者组成w_ij的字母全为大写，或者w_ij为停用词(即包括冠词、代词等在内的虚词)，则w_ij不能为候选主题词，将其从集合{w₁，…，w_ij，…}中去掉；最后，将集合{w₁，…，w_ij，…}中所有单词的大写字母变成小写字母，并除去单词的前后缀，即每个候选主题词以词根形式表示，得到文本文档t_i的候选主题词集合CW_i＝{cw₁，…，cw_ij，…}。

步骤1.2：获取候选主题词义。对于文本文档t_i的候选主题词集合CW_i＝{cw₁，…，cw_ij，…}中的候选主题词cw_ij(j＝1，…，|CW_i|，|CW_i|为候选主题词集合CW_i中的候选主题词的个数)，本发明采用消歧算法得到其在文本文档t_i中的正确词义。

首先，在CW_i中，选择cw_ij的W距离范围内的所有词为其上下文，得到cw_ij的上下文集合

(|C_ij|为上下文集合C_ij中的词的个数)，而

为该候选主题词cw_ij的所有可能词义的集合，其中，|S_ij|为可能词义集合S_ij中可能词义的个数，这里，可能词义是定义在词法数据库WordNet中的候选主题词的词义；然后，按下式计算候选主题词cw_ij的第k个可能词义s_ijk与它的第l个上下文c_ijl的语义相关度rel(s_ijk，c_ijl)：

rel (s_{ijk}, c_{ijl}) = \frac{{NumOfOverlaps_s}_{ijk} c_{ijl}}{({wordNumInGlossOfs}_{ijk} + {wordNumInGlossOfc}_{ijl}) / 2} - - - (1)

其中，wordNumInGlossOfs_ijk表示s_ijk的WordNet释义包含的单词个数，wordNumInGlossOfc_ijl表示c_ijl的WordNet释义包含的单词个数，NumOfOverlaps_s_ijkc_ijl表示s_ijk的WordNet释义和c_ijl的WordNet释义所包含的单词中相同单词的个数；

再按下式求取每一个可能词义s_ijk与上下文集合中所有上下文c_ijl(l＝1，…，|C_ij|)的总的语义相关度SenseScore(s_ijk)：

SenseScore (s_{ijk}) = Σ_{l = 1}^{| C_{ij} |} rel (s_{ijk}, c_{ijl}) - - - (2)

最后，选取具有最大的总的语义相关度SenseScore值的可能词义作为候选主题词cw_ij的正确词义，即候选主题词cw_ij的候选主题词义。

采用上述方法计算得到文本文档t_i的候选主题词集合CW_i＝{cw₁，…，cw_ij，…}中的所有候选主题词cw_ij(j＝1，2，…，|CW_i|)的候选主题词义，构成文本文档t_i的候选主题词义集合，记为

其中，|CS_i|为集合CS_i中候选主题词义的个数。

步骤1.3：候选主题词义的合并。对于候选主题词义集合CS_i中的任意两个候选主题词义cs_ip和cs_iq(p，q＝1，2，…，|CS_i|，p≠q)，按式(3)计算它们之间的语义相关度rel(cs_ip cs_iq)，如果rel(cs_ip，cs_iq)＞λ(λ为给定阈值)，则认为对应的候选主题词cw_ip和cw_iq在语义上是相同的，将cs_ip和cs_iq作为同一候选主题词义，即在候选主题词义集合CS_i中删除cs_ip或cs_iq。

rel ({cs}_{ip}, {cs}_{iq}) = \frac{{NumOfOverlaps_cs}_{ip} {cs}_{iq}}{({wordNumInGlossOfcs}_{ip} + {wordNumInGlossOfcs}_{iq}) / 2} - - - (3)

其中，wordNumInGlossOfcs_ip表示cs_ip的WordNet释义包含的单词个数，wordNumInGlossOfcs_iq表示cs_iq的WordNet释义包含的单词个数，NumOfOverlaps_cs_ipcs_iq表示cs_ip的WordNet释义和cs_iq的WordNet释义所包含的单词中相同单词的个数。

步骤二：特征属性的计算。对于步骤一得到的文本文档t_i的候选主题词义集合CS_i中的每一个候选主题词义cs_im(m＝1，2，…，|CS_i|，|CS_i|为CS_i中候选主题词义的个数)，分别计算它的四个特征属性值，即该候选主题词义在文本文档中出现的频率tf×idf、该候选主题词义在文本文档中第一次出现的平均位置fo、该候选主题词义包含的字母个数len和候选主题词义之间的内聚性coh，候选主题词义cs_im的tf×idf、fo和coh属性值的具体计算公式为：

tf \times idf ({cs}_{im}) = f ({cs}_{im}) \times \log \frac{| T |}{| T ({cs}_{im}) |} - - - (4)

fo(cs_im)＝O_first/|CS_i| (5)

coh ({cs}_{im}) = \frac{Σ_{p = 1, p &NotEqual; m}^{| C S_{i} |} rel ({cs}_{im}, {cs}_{ip})}{| C S_{i} | - 1} - - - (6)

其中，f(cs_im)为该候选主题词义cs_im在文本文档t_i中出现的次数，|T|为文本文档集T中的文本文档篇数，|T(cs_im)|为在文本文档集T中包含该候选主题词义cs_im的文本文档篇数；O_first为该候选主题词义cs_im在文本文档t_i中第一次出现的位置；rel(cs_im，cs_ip)为按式(3)计算的候选主题词义之间的语义相关度。

对于待提取的文本文档集E＝{e₁，…，e_i，…，e_|E|}(即测试文本文档集)中的每篇文本文档也采用上述步骤一和步骤二进行处理。其中，对于E＝{e₁，…，e_i，…，e_|E|}中的每一篇文本文档e_i，得到其候选主题词义集合

以及其中每一个候选主题词义ce_ij的四个特征属性值：tf×idf(ce_ij)、fo(ce_ij)、len(ce_ij)和coh(ce_ij)。下面将通过步骤三，即采用贝叶斯估计的方法来提取待提取文本文档集E＝{e₁，…，e_i，…，e_|E|}(即测试文本文档集)的主题词义。具体为：

步骤三：主题词义的提取。由于训练文本文档集的主题词义是已知的，因此，对于测试文本文档集E中的文本文档e_i的每一个候选主题词义ce_ij，首先，根据其是否为训练文本文档的主题词义，将训练文本文档集T分为两类：对于训练文本文档集T中的文本文档t_i，如果该候选主体词义ce_ij为t_i的主题词义，则将文本文档t_i归入第一类文本文档集合T¹；如果该候选主体词义ce_ij不为t_i的主题词义，则将文本文档t_i归入第二类文本文档集合T⁰。然后，用下面的公式计算ce_ij在集合T¹中的平均属性值

{\overset{&OverBar;}{tf \times idf}}^{1} ({ce}_{ij}) = \frac{Σ_{u = 1}^{| T^{1} |} tf \times {idf}_{u}^{1} ({ce}_{ij})}{| T^{1} |} - - - (7)

{\overset{&OverBar;}{fo}}^{1} ({ce}_{ij}) = \frac{Σ_{u = 1}^{| T^{1} |} {fo}_{u}^{1} ({ce}_{ij})}{| T^{1} |} - - - (8)

{\overset{&OverBar;}{len}}^{1} ({ce}_{ij}) = \frac{Σ_{u = 1}^{| T^{1} |} {len}_{u}^{1} ({ce}_{ij})}{| T^{1} |} - - - (9)

{\overset{&OverBar;}{coh}}^{1} ({ce}_{ij}) = \frac{Σ_{u = 1}^{| T^{1} |} {coh}_{u}^{1} ({ce}_{ij})}{| T^{1} |} - - - (10)

其中，

分别为ce_ij在集合T¹中的第u篇文本文档t_u中的tf×idf、fo、len、coh属性值；

最后，按下式计算候选主题词义ce_ij在文本文档e_i中成为最终的主题词义的概率Pr：

Pr＝Pr[T|yes]×Pr[O|yes]×Pr[L|yes]×Pr[C|yes]×Pr[yes] (11)

其中，Pr[T|yes]、Pr[O|yes]、Pr[L|yes]和Pr[C|yes]分别表示测试文本文档集E中的文本文档e_i的候选主题词义ce_ij在具备当前特征属性值tf×idf、fo、len、coh的条件下为主题词义的贝叶斯估计概率，Pr[yes]表示训练文本文档集中该候选主题词义是主题词义的文本文档的数目与训练文本文档集中该候选主题词义不是主题词义的文本文档的数目的比例；

\Pr [T | yes] = tf \times {idf}^{e_{i}} ({ce}_{ij}) / {\overset{&OverBar;}{tf \times idf}}^{1} ({ce}_{ij}) - - - (12)

\Pr [O | yes] = {fo}^{e_{i}} ({ce}_{ij}) / {\overset{&OverBar;}{fo}}^{1} ({ce}_{ij}) - - - (13)

\Pr [L | yes] = {len}^{e_{i}} ({ce}_{ij}) / {\overset{&OverBar;}{len}}^{1} ({ce}_{ij}) - - - (14)

\Pr [C | yes] = {coh}^{e_{i}} ({ce}_{j}) / {\overset{&OverBar;}{coh}}^{1} ({ce}_{ij}) - - - (15)

Pr[yes]＝|T¹|/|T⁰| (16)

其中，

分别为ce_ij在测试文本文档集E中的文本文档e_i中的tf×idf、fo、len、coh属性值；|T¹|和|T⁰|分别为集合T¹和T⁰中包含的文本文档篇数。

采用上述方法计算待提取文本文档集(即测试文档集)中每篇文本文档e_i的候选主题词义集合中的所有候选主题词义成为最终的主题词义的概率Pr，并按照Pr值由大到小进行排序，根据需要将排序在前的N个候选主体词义作为提取的文本文档e_i的主题词义。

示例实验：我们使用Java程序实现本发明，然后进行了一组实验来评估本发明，在实验中，阈值λ设为0.9。实验数据为从UN Food和农业组织维护的在线文本文档数据库中随机的下载了500篇包含主题词的文本文档。这些文本文档平均包含的主题词个数为4.95个。300篇文本文档被用来训练模型，其他的200篇文本文档用来做测试。

Precision(准确率)、Recall(召回率)和综合的F-measure被用来对主题词义提取算法进行评价。

Precision = \frac{correct_extracted_keywords}{all_extracted_keywords} - - - (17)

Recall = \frac{correct_extracted_keywords}{manually_assigned_keywords} - - - (18)

F - measure = \frac{2 \times Precision \times Recall}{Precision + Recall} - - - (19)

其中，correct_extracted_keywords为正确提取的主题词义个数，all_extracted_keywords为提取的所有主题词义的个数，manually_assigned_keywords为人工分配的主题词义的个数。

公式(17)、(18)和(19)用来对每一篇文本文档进行评估，最终的Precision、Recall和F-measure是整个测试文本文档集的平均值。

说明书附图2给出了实验的结果。横轴表示本发明方法提取的主题词义的总数目，它的范围是从1到20，纵轴表示提取出来的主题词义正确的平均数目。从图中可以看出，当提取的总主题词义数为5个时，正确的主题词义大约为3个，达到了约60％的准确率；当提取的总主题词义数为9个时，正确的主题词义大约为4个，达到了约80％的准确率；当提取的总主题词义数为15个时，正确的主题词义大约为4.5个，达到了90％的准确率。以上分析表明，本发明的主题词义提取方法有较好的性能。

从每篇文本文档提取出的主题词义集合中按顺序选取排序前五位的词义；然后，采用评估公式(17)、(18)和(19)来计算每篇文本文档的Precision、Recall和F-measure；最后，计算相对于所有文本文档性能的平均值，最终的结果如表1所示。

表1主题词义提取算法的性能

主题词义提取算法	Pr ecision	Recall	F-measure
				5个主题词义	0.595	0.612	0.603

从评估实验可以看出，本发明的主题词义提取方法有较好的性能，准确率和召回率都比较高，能够应用于文本文档的自动主题意思提取。这主要是因为本发明使用词义代替词来进行处理，从而能够更准确获取文本文档的主题意思。从附图2可以看出，当算法提取的总主题词义数达到9个时，能达到80％的准确率，所以本发明方法也可应用于半自动的文本文档主题标注，首先使用本发明方法产生多个主题词义，然后由用户来做筛选。

Claims

1.一种文本文档主题词义的自动提取方法，其特征在于步骤如下：

所述的预处理包括以下步骤：

步骤a：提取文本文档的候选主题词集合：

然后，去除集合中不满足条件的词；

步骤b：采用消岐算法获取文本文档的候选主题词义集合：

然后，按语义相关度计算公式

rel (s_{k}, c_{i}) = \frac{NumOfOverlaps_s_{k} c_{i}}{({wordNumInGlossOfs}_{k} + {wordNumInGlossOfc}_{i}) / 2}

步骤c：合并候选主题词义：

按语义相关度计算公式

rel ({\hat{s}}_{p}, {\hat{s}}_{q}) = \frac{NumOfOverlaps_{\hat{s}}_{p} {\hat{s}}_{q}}{({wordNumInGlossOf \hat{s}}_{p} + {wordNumInGlossOf \hat{s}}_{q}) / 2}

计算候选主题词义集合中任意两个候选主题词义和

的语义相关度，并去除语义相关度值大于给定阈值λ的两个候选主题词义中的任意一个；所述的阈值λ的取值范围为[0.5，0.8]；

其中，

p≠q，

为候选主题词义集合中候选主题词义的个数；

表示的WordNet释义包含的单词个数，

表示

的WordNet释义包含的单词个数，

表示

的WordNet释义和的WordNet释义所包含的单词中相同单词的个数；

tf \times idf ({cs}_{j}) = f ({cs}_{j}) \times \log \frac{| D |}{| D ({cs}_{j}) |}

fo(cs_j)＝O_first/J

所述的候选主题词义之间的内聚件coh的计算公式为：

coh ({cs}_{j}) = \frac{Σ_{l = 1, l &NotEqual; j}^{J} rel ({cs}_{j}, {cs}_{l})}{J - 1}

其中，rel(cs_j，cs_l)为按语义相关度计算公式

rel ({cs}_{j}, {cs}_{l}) = \frac{NumOfOverlaps_{cs}_{j} {cs}_{l}}{({wordNumInGlossOfcs}_{j} + {wordNumInGlossOfcs}_{l}) / 2}

其中，Pr[T|yes]、Pr[O|yes]、Pr[L|yes]和Pr[C|yes]分别表示候选主题词义在具备当前tf×idf、fo、len、coh特征属性值的条件下为主题词义的概率，Pr[yes]表示训练文本文档集中该候选主题词义为主题词义的文本文档的数目与训练文本文档集中该候选主题词义不为主题词义的文本文档的数目的比例，计算公式分别为：