CN102622341A

CN102622341A - 基于Bootstrapping技术的领域本体概念自动获取方法

Info

Publication number: CN102622341A
Application number: CN2012101182332A
Authority: CN
Inventors: 杜军平; 杨月华; 李雪
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2012-04-20
Filing date: 2012-04-20
Publication date: 2012-08-01

Abstract

为了实现领域概念的自动获取，本发明提出了一种基于Bootstrapping技术的领域本体概念自动获取方法。首先为了解决无法提取复合形式领域概念的问题，本文基于互信息和左、右信息熵提取了复合词语；然后基于共现句频的候选概念判定条件从中提取出候选领域概念；之后应用M评价和T评价结合的方法对候选概念进行评价，将其中符合评价标准的领域概念提取出来，并将评价值较高的领域概念选作重要概念进行新一轮的学习过程；为了避免遗漏出现频率较低、语义相似的领域概念，本方法引入了语义因素，通过计算语义相似度提取出语义相似的领域概念；最后给出了详细的算法实现流程。

Description

基于Bootstrapping技术的领域本体概念自动获取方法

技术领域

本发明属于领域概念自动获取方法，具体为基于Bootstrapping技术的领域本体概念自动获取方法。该方法对已有的方法进行了改进，能够提取出复合的领域概念和语义相似的领域概念，提高了自动获取的召回率和准确率。

背景技术

本体是一种用来描述概念以及概念之间关系的知识表示方法，自提出以来就引起了国内外众多科研人员的广泛关注，目前已经被应用于语义Web、智能信息检索、信息集成等很多领域，领域本体的构建则是这些研究的基础。但是目前许多本体都严重依赖于领域专家来构建，这种完全依靠人工搜集概念来构建本体的方法不仅代价很高，无法进行大规模扩展，同时要促使大量的用户和领域专家来构建本体也存在相当的困难。概念是在领域中表示观念、范畴、任务、功能、行为或事物等的实体集合，是具有语义的词汇的集合，它可以是词语，也可以是短语。概念是本体的重要组成部分，因此，领域概念的获取是构建本体的基础，它的结果也将直接影响到概念间关系的提取。

目前概念获取主要采用基于语言学的方法和基于统计的方法，但是采用语言学的方法时规则和模板的建立和维护困难，可移植性差；基于统计的大部分方法未考虑复合词语的提取，因而复合词语形式的领域概念往往也就无法提取出来，此外，基于统计的方法一般都忽略了语义因素，导致一些语义相似的领域概念由于各自出现的频率较低而被遗漏。本发明的领域概念自动获取方法就是为了解决这些问题而提出的。

发明内容

本发明的目的在于提供一种基于Bootstrapping技术的领域本体概念自动获取方法，提高领域概念获取的效率以及自动获取的准确率和召回率。算法如下：

输入：种子概念集合SW，未标注的语料库，最低句频F_min，最小支持度S_min，互信息和信息熵阈值MI_min和t，语义相似度阈值t_sim，评价阈值m_min和t_min

输出：领域概念集合DC

过程：

(1)对语料库以句为单位进行分词，去除停用词，生成词语集合C

(2)将C按二元词组(复合词语由两个词组成)、三元词组、四元词组进行分割，得到候选词集合CL

(3)若CL不为空，则取字符串s，其中，s∈CL，CL＝CL-s，若s满足式(1)，则s是复合词语，加入复合词语集合CW＝CW∪s

\{\begin{matrix} H_{l} (s) > t \\ H_{r} (s) > t \\ {MI}_{s} > {MI}_{\min} \end{matrix} - - - (1)

其中：

MI (w_{1}, w_{2}) = \log_{2} \frac{F (w_{1}, w_{2}) F}{F (w_{1}) F (w_{2})} - - - (2)

F(w₁，w₂)为词语w₁和w₂共同出现的句频，F(w₁)为词语w₁出现的句频，F(w₂)为词语w₂出现的句频，F为句子总数。

H_{l} (s) = - \underset{l &Element; L}{Σ} P (ls) \log_{2} (P (ls)) - - - (3)

表示L中l出现的概率，f(ls)表示l和s共同出现的频数，

表示L中各个元素和s共同出现的频数之和。

类似地：

H_{r} (s) = - \underset{r &Element; R}{Σ} P (sr) \log_{2} (P (sr)) - - - (4)

(4)输出词语集合C＝C∪CW

(5)重要概念集合IW＝SW

(6)若C不为空，则从C集合中选取一个词语w计算其句频、支持度，若满足式(5)，则加入候选概念集合CC中，并从C中移除

\{\begin{matrix} F (w) &GreaterEqual; F_{\min} \\ Σ_{i = 1}^{n} \frac{Min (F (w_{i}, IW))}{F (w)} &GreaterEqual; S_{\min} \\ w &NotElement; stopwordslist \end{matrix} - - - (5)

其中，F_min表示作为领域概念在语料库中必须出现的最小频数，IW表示重要概念集合，n为w所包含的词语个数，w_i为w包含的第i个词语，

表示领域概念在语料库中的支持度，S_min是领域概念必须达到的最小支持度，stopwordslist为停用词列表。

(7)对CC中的每个候选概念cc进行评价，领域概念集合DC＝{cc |m_cc≥m_min&t_cc≥t_min&cc∈CC}，同时，将评价值最高的N个概念加入集合IW_new中，其中，m_cc和t_cc表示cc的评价值，m_min和t_min表示评价值必须达到的最小值

(8)对于词语集合C中的词语w，计算语义相似度sim(w，IW)，若满足式(6)，则加入领域概念集合DC中，否则算法结束

\{\begin{matrix} sim (w, IW) &GreaterEqual; t_{sim} \\ Σ_{i = 1}^{n} \frac{Min (F (w_{i}, IW))}{F (w)} &GreaterEqual; S_{\min} \\ w &NotElement; stopwordslist \end{matrix} - - - (6)

sim (w_{1}, w_{2}) = \cos (w_{1}, w_{2}) = \frac{Σ_{i = 1}^{n} f_{1 i} \times f_{2 i}}{\sqrt{Σ_{i = 1}^{n} f_{1 i}^{2}} \times \sqrt{Σ_{i = 1}^{n} f_{2 i}^{2}}} - - - (7)

其中，w_i＝{(c₁，f₁)，(c₂，f₂)，..，(c_n，f_n)}，c_i表示词语w_i的第i个上下文词语，f_n表示c_i出现在词语w_i上下文中的频率。

附图说明

图1为算法流程图。

具体实施方式

为使本发明的目的、算法及优点更加清楚明白，以下参照附图对本发明做进一步的详细说明。

基于Bootstrapping技术的领域本体概念自动获取算法流程如图1所示，其包括复合词语提取、语义相似性的判定和领域概念的获取3个部分.本算法使用种子概念作为重要概念对未标注语料进行学习。首先对语料进行分词及去除停用词等处理，然后提取多元词语，计算其互信息和信息熵，当满足阈值条件时则判定为复合词语，加入词语集合。之后根据候选概念选取条件选出候选概念，综合应用M评价和T评价进行评价，满足评价条件则判定为领域概念，并将其中评价值较高的选作新的重要概念，加入重要概念集合中。同时计算词语集合中的词语和重要概念集合中的词语的相似度，若达到相似度阈值并且大于最小支持度则判定为领域概念，也加入领域概念集合中。若重要概念集合得到更新，则进行新一轮的学习过程。

1.复合词语的提取

复合词语由多个词语组合而成，复合词语经过分词后会被切分为若干个词语，这些词语之间存在着一定的相关性，此外，复合词语本身与上下文还存在着依赖关系，因此本发明将通过给定的阈值，计算字符串的互信息以及字符串的左信息熵和右信息熵来判定字串是否是复合词语。

设字符串s＝w₁w₂，其中w₁、w₂为对其分词后得到的词语，用MI表示w₁、w₂的互信息，计算公式如下：

MI (w_{1}, w_{2}) = \log_{2} \frac{P (w_{1}, w_{2})}{P (w_{1}) P (w_{2})} - - - (8)

而

P (w_{1}, w_{2}) = \frac{F (w_{1}, w_{2})}{F},

P (w_{1}) = \frac{F (w_{1})}{F},

P (w_{2}) = \frac{F (w_{2})}{F},

代入上式得式(2)，其中，P(w₁，w₂)为词语w₁和w₂在语料库中共同出现的概率，P(w₁)为词语w₁出现的概率，P(w₂)为词语w₂出现的概率，F(w₁，w₂)为词语w₁和w₂共同出现的句频，F(w₁)为词语w₁出现的句频，F(w₂)为词语w₂出现的句频，F为句子总数。MI越大，则w₁、w₂之间的关联度越高，越有可能是一个完整的词。对于给定的阈值t，若MI＞t则认为s是一个完整的词。

对于任意的字串w₁w₂，称w₁为w₂的左近邻，w₂为w₁的右近邻。一个字符串若是一个词，则它在文本中会出现多次，而且其左右近邻往往是不确定的，也就是说，它是独立于它的左右近邻存在的。这个不确定性可以作为评判一个字符串对它的近邻的依赖程度，称为上下文依赖。一个字符串左右近邻数越多，而且各个近邻分布(即各自出现的次数)越平均，这个字符串近邻的不确定性越大，说明这个字符串对近邻的依赖程度越小，越有可能是一个独立的词。因此，要采用这个不确定性来评价一个字符串是否是词，需要对这个不确定性进行量化评估，在信息论中，信息熵是对不确定信息的一种度量，一个变量越不确定，也就越混乱，需要的信息越多，信息熵就越大，反之亦然。本文采用信息熵对字符串的左右近邻进行评估，分为左信息熵和右信息熵。

设字符串s，L为s的左近邻集合，R为s的右近邻集合，则s的左信息熵H_l(s)的计算公式如式(3)所示，s的右信息熵H_l(s)的计算公式如式(4)所示。

变量的不确定性越大，熵也就越大，因此，当字符串s的左近邻和右近邻分布不均匀时，其左信息熵和右信息熵也越大，给定一个阈值t1，当H_l(s)＞t且H_r(s)＞t时，则认为s是一个独立和完整的复合词语。

综上，可以得到复合词语应满足的条件，如式(1)所示。

2.候选概念的选择

基于Bootstrapping方法提取领域概念是基于这样的假设：如果某个词语或组成复合词语的各个词语和领域概念在一个句子中共同出现达到一定的频率的话，那么这个词语或复合词语就有可能也是该领域的领域概念，所以其选用的统计参数为共现句频，具体定义如下：

定义5词语的句频F(w)：表示语料库中包含词语w的句子数。

定义6集合的句频F(X)：表示语料库中包含集合X中任意元素的句子数。

定义7共现句频F(w，X)：表示词语w与集合X中任意元素共同出现的句子数。

根据以上假设和定义可知，加入候选概念集合的概念应满足如式(5)所示的条件。

3.候选概念的评价

获取到候选领域概念后，需要对其进行评价，计算出每一个候选概念的评价值，将其中符合评价标准的概念选作新的领域概念，将评价值较高的概念选作重要概念。陈文亮等人已通过实验证明采用M+T评价方式的学习效果最好。M评价公式如下：

m_{w} = \log_{2} F (w, IW) \times \frac{F (w, IW)}{F (w)} - - - (9)

其中，m_w值越大，表示w是领域概念的可能性就越大。

T评价公式如下：

t_{w} = \frac{P (w, X) - P (w) P (X)}{\sqrt{\frac{P (w, X)}{N}}} - - - (10)

其中，P(w，X)是w和X的共现概率，

P(w)表示w出现的概率，P(X)表示X出现的概率，N是句子总数。t_w值越高，表明w是领域概念的可能性越大。

同时应用M评价和T评价，就是在每一轮学习中选取同时符合两种评价标准的概念作为领域概念，即两种评价结果的交集。这里需要设定两个阈值：m_min和t_min，当m_w＞m_min且t_w＞t_min时，则认为w为领域概念。

4.语义相似的领域概念的获取

为了避免采用统计方法遗漏掉语义相似的领域概念，本方法引入了语义因素，具体方法是，对于从语料库中提取出的词语w，首先基于词语的上下文信息计算其与重要概念集合中的每个领域概念的语义相似度sim(w，IW)，若语义相似度的值大于给定的阈值t_sim，再计算词语在语料库中的支持度S(w，IW)，若S(w，IW)大于领域概念必须达到的最小支持度S_min则认为w是领域概念。由此得出语义相似的领域概念应满足的条件如式(6)所示。

本发明将基于两个词语的上下文信息来计算它们之间的语义相似度，计算依据是词语上下文信息的概率分布。词语的上下文信息反映了词语的语义，根据自然语言处理的上下文假设：如果词语的上下文相似，则它们之间的相似度较大，因此可以在对语料库中的领域文本以句为单位进行分词并去除停用词后首先提取出词语的上下文信息，然后计算词语上下文信息的相似度作为词语之间的相似度。具体方法是：设置一个窗口范围，在设定的窗口范围内选取上下文词语，如将窗口大小设定为5，就表示以给定词语为中心，在词语左右各取5个词语作为其上下文。确定了词语的上下文词语后，接下来采用向量的形式将其表示出来，然后统计出各上下文词语的句频，词语w_i的表示形式如下：

w_i＝{(c₁，f₁)，(c₂，f₂)，...，(c_n，f_n)}

其中，c_i表示词语w_i的第i个上下文词语，f_n表示c_i出现在词语w_i上下文中的频率。例如，突发事件领域概念“应急”的向量表示形式为：

w(应急)＝{(灾害，23)，(预案，18)，...，(救援，10)}

词语w₁和w₂的语义相似度采用余弦相似度(cosine similarity)计算方法计算，计算公式如式(7)所示。

使用上式进行词语的相似度计算时两个词语的向量空间维数要一致，在实际情况中，两个词语的向量空间维数经常不一致，因此在计算相似度之前首先要对词语的向量空间进行扩充使之一致，扩充方法是：取两个词语的向量空间中词语的并集，对于并集中存在而本身的向量空间中不存在的词语，则添加到本身的向量空间中，并将其词频设置为0；对于并集中存在且本身的向量空间中也存在的词语，则保持不变。

例如，要计算“应急”与“响应”两个词语的语义相似度，假设两个词语的原始向量表示形式如下：

w(应急)＝{(灾害，10)，(预案，10)，(启动，7)，(贵州，3)}

w(响应)＝{(灾害，6)，(预案，9)，(启动，7)，(新闻，3)}

则经过向量空间扩充后的向量表示形式如下：

w(应急)＝{(灾害，10)，(预案，10)，(启动，7)，(贵州，3)，(新闻，0)}

w(响应)＝{(灾害，6)，(预案，9)，(启动，7)，(新闻，3)，(贵州，0)}

这样根据上式就可以计算出两者的语义相似度为0.98。

最后需要说明的是，算法中各项参数阈值的合适取值是通过反复实验来确定的。

Claims

1.基于Bootstrapping技术的领域本体概念自动获取方法，其特征在于，首先为了解决无法提取复合形式领域概念的问题，本方法基于互信息和左、右信息熵提取了复合词语；然后基于共现句频的候选概念判定条件从中提取出候选领域概念；之后应用M评价和T评价结合的方法对候选概念进行评价，将其中符合评价标准的领域概念提取出来，并将评价值较高的领域概念选作重要概念进行新一轮的学习过程；为了避免遗漏出现频率较低、语义相似的领域概念，本方法引入了语义因素，通过计算语义相似度提取出语义相似的领域概念；最后给出了详细的算法，包括复合词语的提取、语义相似的判定及领域概念的获取3个部分。

2.根据权利要求1所述的方法，其特征在于，基于互信息和左、右信息熵提取了复合词语，复合词语由多个词语组合而成，复合词语经过分词后会被切分为若干个词语，这些词语之间存在着一定的相关性，此外，复合词语本身与上下文还存在着依赖关系，因此本文将通过给定的阈值，计算字符串的互信息以及字符串的左信息熵和右信息熵来判定字串是否是复合词语。

3.根据权利要求1所述的方法，其特征在于，提出了基于共现句频的候选概念判定条件，并根据判定条件提取候选领域概念，判定条件基于这样的假设：如果某个词语或组成复合词语的各个词语和领域概念在一个句子中共同出现达到一定的频率的话，那么这个词语或复合词语就有可能也是该领域的领域概念，判定条件如下：

\{\begin{matrix} F (w) &GreaterEqual; F_{\min} \\ Σ_{i = 1}^{n} \frac{Min (F (w_{i}, IW))}{F (w)} &GreaterEqual; S_{\min} \\ w &NotElement; stopwordslist \end{matrix}

4.根据权利要求1所述的方法，其特征在于，应用M评价和T评价结合的方法对候选概念进行评价，将其中符合评价标准的领域概念提取出来，并将评价值较高的领域概念选作重要概念进行新一轮的学习过程。

5.根据权利要求1所述的方法，其特征在于，引入了语义因素，通过计算语义相似度提取出语义相似的领域概念。对于从语料库中提取出的词语w，首先基于词语的上下文信息计算其与重要概念集合中的每个领域概念的语义相似度sim(w，IW)，若语义相似度的值大于给定的阈值t_sim，再计算词语在语料库中的支持度S(w，IW)，若S(w，IW)大于领域概念必须达到的最小支持度S_min，则认为w是领域概念。由此得出语义相似的领域概念应满足的条件如下：

\{\begin{matrix} sim (w, IW) &GreaterEqual; t_{sim} \\ Σ_{i = 1}^{n} \frac{Min (F (w_{i}, IW))}{F (w)} &GreaterEqual; S_{\min} \\ w &NotElement; stopwordslist \end{matrix}