CN102622341A - 基于Bootstrapping技术的领域本体概念自动获取方法 - Google Patents

基于Bootstrapping技术的领域本体概念自动获取方法 Download PDF

Info

Publication number
CN102622341A
CN102622341A CN2012101182332A CN201210118233A CN102622341A CN 102622341 A CN102622341 A CN 102622341A CN 2012101182332 A CN2012101182332 A CN 2012101182332A CN 201210118233 A CN201210118233 A CN 201210118233A CN 102622341 A CN102622341 A CN 102622341A
Authority
CN
China
Prior art keywords
word
concept
field concept
candidate
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101182332A
Other languages
English (en)
Inventor
杜军平
杨月华
李雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN2012101182332A priority Critical patent/CN102622341A/zh
Publication of CN102622341A publication Critical patent/CN102622341A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

为了实现领域概念的自动获取,本发明提出了一种基于Bootstrapping技术的领域本体概念自动获取方法。首先为了解决无法提取复合形式领域概念的问题,本文基于互信息和左、右信息熵提取了复合词语;然后基于共现句频的候选概念判定条件从中提取出候选领域概念;之后应用M评价和T评价结合的方法对候选概念进行评价,将其中符合评价标准的领域概念提取出来,并将评价值较高的领域概念选作重要概念进行新一轮的学习过程;为了避免遗漏出现频率较低、语义相似的领域概念,本方法引入了语义因素,通过计算语义相似度提取出语义相似的领域概念;最后给出了详细的算法实现流程。

Description

基于Bootstrapping技术的领域本体概念自动获取方法
技术领域
本发明属于领域概念自动获取方法,具体为基于Bootstrapping技术的领域本体概念自动获取方法。该方法对已有的方法进行了改进,能够提取出复合的领域概念和语义相似的领域概念,提高了自动获取的召回率和准确率。
背景技术
本体是一种用来描述概念以及概念之间关系的知识表示方法,自提出以来就引起了国内外众多科研人员的广泛关注,目前已经被应用于语义Web、智能信息检索、信息集成等很多领域,领域本体的构建则是这些研究的基础。但是目前许多本体都严重依赖于领域专家来构建,这种完全依靠人工搜集概念来构建本体的方法不仅代价很高,无法进行大规模扩展,同时要促使大量的用户和领域专家来构建本体也存在相当的困难。概念是在领域中表示观念、范畴、任务、功能、行为或事物等的实体集合,是具有语义的词汇的集合,它可以是词语,也可以是短语。概念是本体的重要组成部分,因此,领域概念的获取是构建本体的基础,它的结果也将直接影响到概念间关系的提取。
目前概念获取主要采用基于语言学的方法和基于统计的方法,但是采用语言学的方法时规则和模板的建立和维护困难,可移植性差;基于统计的大部分方法未考虑复合词语的提取,因而复合词语形式的领域概念往往也就无法提取出来,此外,基于统计的方法一般都忽略了语义因素,导致一些语义相似的领域概念由于各自出现的频率较低而被遗漏。本发明的领域概念自动获取方法就是为了解决这些问题而提出的。
发明内容
本发明的目的在于提供一种基于Bootstrapping技术的领域本体概念自动获取方法,提高领域概念获取的效率以及自动获取的准确率和召回率。算法如下:
输入:种子概念集合SW,未标注的语料库,最低句频Fmin,最小支持度Smin,互信息和信息熵阈值MImin和t,语义相似度阈值tsim,评价阈值mmin和tmin
输出:领域概念集合DC
过程:
(1)对语料库以句为单位进行分词,去除停用词,生成词语集合C
(2)将C按二元词组(复合词语由两个词组成)、三元词组、四元词组进行分割,得到候选词集合CL
(3)若CL不为空,则取字符串s,其中,s∈CL,CL=CL-s,若s满足式(1),则s是复合词语,加入复合词语集合CW=CW∪s
H l ( s ) > t H r ( s ) > t MI s > MI min - - - ( 1 )
其中:
MI ( w 1 , w 2 ) = log 2 F ( w 1 , w 2 ) F F ( w 1 ) F ( w 2 ) - - - ( 2 )
F(w1,w2)为词语w1和w2共同出现的句频,F(w1)为词语w1出现的句频,F(w2)为词语w2出现的句频,F为句子总数。
H l ( s ) = - Σ l ∈ L P ( ls ) log 2 ( P ( ls ) ) - - - ( 3 )
Figure BSA00000705234600024
表示L中l出现的概率,f(ls)表示l和s共同出现的频数,
Figure BSA00000705234600025
表示L中各个元素和s共同出现的频数之和。
类似地:
H r ( s ) = - Σ r ∈ R P ( sr ) log 2 ( P ( sr ) ) - - - ( 4 )
(4)输出词语集合C=C∪CW
(5)重要概念集合IW=SW
(6)若C不为空,则从C集合中选取一个词语w计算其句频、支持度,若满足式(5),则加入候选概念集合CC中,并从C中移除
F ( w ) ≥ F min Σ i = 1 n Min ( F ( w i , IW ) ) F ( w ) ≥ S min w ∉ stopwordslist - - - ( 5 )
其中,Fmin表示作为领域概念在语料库中必须出现的最小频数,IW表示重要概念集合,n为w所包含的词语个数,wi为w包含的第i个词语,
Figure BSA00000705234600028
表示领域概念在语料库中的支持度,Smin是领域概念必须达到的最小支持度,stopwordslist为停用词列表。
(7)对CC中的每个候选概念cc进行评价,领域概念集合DC={cc |mcc≥mmin&tcc≥tmin&cc∈CC},同时,将评价值最高的N个概念加入集合IWnew中,其中,mcc和tcc表示cc的评价值,mmin和tmin表示评价值必须达到的最小值
(8)对于词语集合C中的词语w,计算语义相似度sim(w,IW),若满足式(6),则加入领域概念集合DC中,否则算法结束
sim ( w , IW ) ≥ t sim Σ i = 1 n Min ( F ( w i , IW ) ) F ( w ) ≥ S min w ∉ stopwordslist - - - ( 6 )
sim ( w 1 , w 2 ) = cos ( w 1 , w 2 ) = Σ i = 1 n f 1 i × f 2 i Σ i = 1 n f 1 i 2 × Σ i = 1 n f 2 i 2 - - - ( 7 )
其中,wi={(c1,f1),(c2,f2),..,(cn,fn)},ci表示词语wi的第i个上下文词语,fn表示ci出现在词语wi上下文中的频率。
附图说明
图1为算法流程图。
具体实施方式
为使本发明的目的、算法及优点更加清楚明白,以下参照附图对本发明做进一步的详细说明。
基于Bootstrapping技术的领域本体概念自动获取算法流程如图1所示,其包括复合词语提取、语义相似性的判定和领域概念的获取3个部分.本算法使用种子概念作为重要概念对未标注语料进行学习。首先对语料进行分词及去除停用词等处理,然后提取多元词语,计算其互信息和信息熵,当满足阈值条件时则判定为复合词语,加入词语集合。之后根据候选概念选取条件选出候选概念,综合应用M评价和T评价进行评价,满足评价条件则判定为领域概念,并将其中评价值较高的选作新的重要概念,加入重要概念集合中。同时计算词语集合中的词语和重要概念集合中的词语的相似度,若达到相似度阈值并且大于最小支持度则判定为领域概念,也加入领域概念集合中。若重要概念集合得到更新,则进行新一轮的学习过程。
1.复合词语的提取
复合词语由多个词语组合而成,复合词语经过分词后会被切分为若干个词语,这些词语之间存在着一定的相关性,此外,复合词语本身与上下文还存在着依赖关系,因此本发明将通过给定的阈值,计算字符串的互信息以及字符串的左信息熵和右信息熵来判定字串是否是复合词语。
设字符串s=w1w2,其中w1、w2为对其分词后得到的词语,用MI表示w1、w2的互信息,计算公式如下:
MI ( w 1 , w 2 ) = log 2 P ( w 1 , w 2 ) P ( w 1 ) P ( w 2 ) - - - ( 8 )
P ( w 1 , w 2 ) = F ( w 1 , w 2 ) F , P ( w 1 ) = F ( w 1 ) F , P ( w 2 ) = F ( w 2 ) F , 代入上式得式(2),其中,P(w1,w2)为词语w1和w2在语料库中共同出现的概率,P(w1)为词语w1出现的概率,P(w2)为词语w2出现的概率,F(w1,w2)为词语w1和w2共同出现的句频,F(w1)为词语w1出现的句频,F(w2)为词语w2出现的句频,F为句子总数。MI越大,则w1、w2之间的关联度越高,越有可能是一个完整的词。对于给定的阈值t,若MI>t则认为s是一个完整的词。
对于任意的字串w1w2,称w1为w2的左近邻,w2为w1的右近邻。一个字符串若是一个词,则它在文本中会出现多次,而且其左右近邻往往是不确定的,也就是说,它是独立于它的左右近邻存在的。这个不确定性可以作为评判一个字符串对它的近邻的依赖程度,称为上下文依赖。一个字符串左右近邻数越多,而且各个近邻分布(即各自出现的次数)越平均,这个字符串近邻的不确定性越大,说明这个字符串对近邻的依赖程度越小,越有可能是一个独立的词。因此,要采用这个不确定性来评价一个字符串是否是词,需要对这个不确定性进行量化评估,在信息论中,信息熵是对不确定信息的一种度量,一个变量越不确定,也就越混乱,需要的信息越多,信息熵就越大,反之亦然。本文采用信息熵对字符串的左右近邻进行评估,分为左信息熵和右信息熵。
设字符串s,L为s的左近邻集合,R为s的右近邻集合,则s的左信息熵Hl(s)的计算公式如式(3)所示,s的右信息熵Hl(s)的计算公式如式(4)所示。
变量的不确定性越大,熵也就越大,因此,当字符串s的左近邻和右近邻分布不均匀时,其左信息熵和右信息熵也越大,给定一个阈值t1,当Hl(s)>t且Hr(s)>t时,则认为s是一个独立和完整的复合词语。
综上,可以得到复合词语应满足的条件,如式(1)所示。
2.候选概念的选择
基于Bootstrapping方法提取领域概念是基于这样的假设:如果某个词语或组成复合词语的各个词语和领域概念在一个句子中共同出现达到一定的频率的话,那么这个词语或复合词语就有可能也是该领域的领域概念,所以其选用的统计参数为共现句频,具体定义如下:
定义5词语的句频F(w):表示语料库中包含词语w的句子数。
定义6集合的句频F(X):表示语料库中包含集合X中任意元素的句子数。
定义7共现句频F(w,X):表示词语w与集合X中任意元素共同出现的句子数。
根据以上假设和定义可知,加入候选概念集合的概念应满足如式(5)所示的条件。
3.候选概念的评价
获取到候选领域概念后,需要对其进行评价,计算出每一个候选概念的评价值,将其中符合评价标准的概念选作新的领域概念,将评价值较高的概念选作重要概念。陈文亮等人已通过实验证明采用M+T评价方式的学习效果最好。M评价公式如下:
m w = log 2 F ( w , IW ) × F ( w , IW ) F ( w ) - - - ( 9 )
其中,mw值越大,表示w是领域概念的可能性就越大。
T评价公式如下:
t w = P ( w , X ) - P ( w ) P ( X ) P ( w , X ) N - - - ( 10 )
其中,P(w,X)是w和X的共现概率,
Figure BSA00000705234600052
P(w)表示w出现的概率,P(X)表示X出现的概率,N是句子总数。tw值越高,表明w是领域概念的可能性越大。
同时应用M评价和T评价,就是在每一轮学习中选取同时符合两种评价标准的概念作为领域概念,即两种评价结果的交集。这里需要设定两个阈值:mmin和tmin,当mw>mmin且tw>tmin时,则认为w为领域概念。
4.语义相似的领域概念的获取
为了避免采用统计方法遗漏掉语义相似的领域概念,本方法引入了语义因素,具体方法是,对于从语料库中提取出的词语w,首先基于词语的上下文信息计算其与重要概念集合中的每个领域概念的语义相似度sim(w,IW),若语义相似度的值大于给定的阈值tsim,再计算词语在语料库中的支持度S(w,IW),若S(w,IW)大于领域概念必须达到的最小支持度Smin则认为w是领域概念。由此得出语义相似的领域概念应满足的条件如式(6)所示。
本发明将基于两个词语的上下文信息来计算它们之间的语义相似度,计算依据是词语上下文信息的概率分布。词语的上下文信息反映了词语的语义,根据自然语言处理的上下文假设:如果词语的上下文相似,则它们之间的相似度较大,因此可以在对语料库中的领域文本以句为单位进行分词并去除停用词后首先提取出词语的上下文信息,然后计算词语上下文信息的相似度作为词语之间的相似度。具体方法是:设置一个窗口范围,在设定的窗口范围内选取上下文词语,如将窗口大小设定为5,就表示以给定词语为中心,在词语左右各取5个词语作为其上下文。确定了词语的上下文词语后,接下来采用向量的形式将其表示出来,然后统计出各上下文词语的句频,词语wi的表示形式如下:
wi={(c1,f1),(c2,f2),...,(cn,fn)}
其中,ci表示词语wi的第i个上下文词语,fn表示ci出现在词语wi上下文中的频率。例如,突发事件领域概念“应急”的向量表示形式为:
w(应急)={(灾害,23),(预案,18),...,(救援,10)}
词语w1和w2的语义相似度采用余弦相似度(cosine similarity)计算方法计算,计算公式如式(7)所示。
使用上式进行词语的相似度计算时两个词语的向量空间维数要一致,在实际情况中,两个词语的向量空间维数经常不一致,因此在计算相似度之前首先要对词语的向量空间进行扩充使之一致,扩充方法是:取两个词语的向量空间中词语的并集,对于并集中存在而本身的向量空间中不存在的词语,则添加到本身的向量空间中,并将其词频设置为0;对于并集中存在且本身的向量空间中也存在的词语,则保持不变。
例如,要计算“应急”与“响应”两个词语的语义相似度,假设两个词语的原始向量表示形式如下:
w(应急)={(灾害,10),(预案,10),(启动,7),(贵州,3)}
w(响应)={(灾害,6),(预案,9),(启动,7),(新闻,3)}
则经过向量空间扩充后的向量表示形式如下:
w(应急)={(灾害,10),(预案,10),(启动,7),(贵州,3),(新闻,0)}
w(响应)={(灾害,6),(预案,9),(启动,7),(新闻,3),(贵州,0)}
这样根据上式就可以计算出两者的语义相似度为0.98。
最后需要说明的是,算法中各项参数阈值的合适取值是通过反复实验来确定的。

Claims (5)

1.基于Bootstrapping技术的领域本体概念自动获取方法,其特征在于,首先为了解决无法提取复合形式领域概念的问题,本方法基于互信息和左、右信息熵提取了复合词语;然后基于共现句频的候选概念判定条件从中提取出候选领域概念;之后应用M评价和T评价结合的方法对候选概念进行评价,将其中符合评价标准的领域概念提取出来,并将评价值较高的领域概念选作重要概念进行新一轮的学习过程;为了避免遗漏出现频率较低、语义相似的领域概念,本方法引入了语义因素,通过计算语义相似度提取出语义相似的领域概念;最后给出了详细的算法,包括复合词语的提取、语义相似的判定及领域概念的获取3个部分。
2.根据权利要求1所述的方法,其特征在于,基于互信息和左、右信息熵提取了复合词语,复合词语由多个词语组合而成,复合词语经过分词后会被切分为若干个词语,这些词语之间存在着一定的相关性,此外,复合词语本身与上下文还存在着依赖关系,因此本文将通过给定的阈值,计算字符串的互信息以及字符串的左信息熵和右信息熵来判定字串是否是复合词语。
3.根据权利要求1所述的方法,其特征在于,提出了基于共现句频的候选概念判定条件,并根据判定条件提取候选领域概念,判定条件基于这样的假设:如果某个词语或组成复合词语的各个词语和领域概念在一个句子中共同出现达到一定的频率的话,那么这个词语或复合词语就有可能也是该领域的领域概念,判定条件如下:
F ( w ) ≥ F min Σ i = 1 n Min ( F ( w i , IW ) ) F ( w ) ≥ S min w ∉ stopwordslist
4.根据权利要求1所述的方法,其特征在于,应用M评价和T评价结合的方法对候选概念进行评价,将其中符合评价标准的领域概念提取出来,并将评价值较高的领域概念选作重要概念进行新一轮的学习过程。
5.根据权利要求1所述的方法,其特征在于,引入了语义因素,通过计算语义相似度提取出语义相似的领域概念。对于从语料库中提取出的词语w,首先基于词语的上下文信息计算其与重要概念集合中的每个领域概念的语义相似度sim(w,IW),若语义相似度的值大于给定的阈值tsim,再计算词语在语料库中的支持度S(w,IW),若S(w,IW)大于领域概念必须达到的最小支持度Smin,则认为w是领域概念。由此得出语义相似的领域概念应满足的条件如下:
sim ( w , IW ) ≥ t sim Σ i = 1 n Min ( F ( w i , IW ) ) F ( w ) ≥ S min w ∉ stopwordslist
CN2012101182332A 2012-04-20 2012-04-20 基于Bootstrapping技术的领域本体概念自动获取方法 Pending CN102622341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101182332A CN102622341A (zh) 2012-04-20 2012-04-20 基于Bootstrapping技术的领域本体概念自动获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101182332A CN102622341A (zh) 2012-04-20 2012-04-20 基于Bootstrapping技术的领域本体概念自动获取方法

Publications (1)

Publication Number Publication Date
CN102622341A true CN102622341A (zh) 2012-08-01

Family

ID=46562264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101182332A Pending CN102622341A (zh) 2012-04-20 2012-04-20 基于Bootstrapping技术的领域本体概念自动获取方法

Country Status (1)

Country Link
CN (1) CN102622341A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021230A (zh) * 2016-05-19 2016-10-12 无线生活(杭州)信息科技有限公司 一种分词方法及装置
CN108269125A (zh) * 2018-01-15 2018-07-10 口碑(上海)信息技术有限公司 评论信息质量评估方法及***、评论信息处理方法及***
CN108845982A (zh) * 2017-12-08 2018-11-20 昆明理工大学 一种基于词的关联特征的中文分词方法
CN107368525B (zh) * 2017-06-07 2020-03-03 广州视源电子科技股份有限公司 搜索相关词的方法及装置、存储介质和终端设备
WO2023160650A1 (en) * 2022-02-28 2023-08-31 International Business Machines Corporation Synchronizing a sensor network and an ontology

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021230A (zh) * 2016-05-19 2016-10-12 无线生活(杭州)信息科技有限公司 一种分词方法及装置
CN106021230B (zh) * 2016-05-19 2018-11-23 无线生活(杭州)信息科技有限公司 一种分词方法及装置
CN107368525B (zh) * 2017-06-07 2020-03-03 广州视源电子科技股份有限公司 搜索相关词的方法及装置、存储介质和终端设备
CN108845982A (zh) * 2017-12-08 2018-11-20 昆明理工大学 一种基于词的关联特征的中文分词方法
CN108845982B (zh) * 2017-12-08 2021-08-20 昆明理工大学 一种基于词的关联特征的中文分词方法
CN108269125A (zh) * 2018-01-15 2018-07-10 口碑(上海)信息技术有限公司 评论信息质量评估方法及***、评论信息处理方法及***
CN108269125B (zh) * 2018-01-15 2020-08-21 口碑(上海)信息技术有限公司 评论信息质量评估方法及***、评论信息处理方法及***
WO2023160650A1 (en) * 2022-02-28 2023-08-31 International Business Machines Corporation Synchronizing a sensor network and an ontology

Similar Documents

Publication Publication Date Title
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
Li et al. Fine-grained location extraction from tweets with temporal awareness
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
US10824816B2 (en) Semantic parsing method and apparatus
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN104834747A (zh) 基于卷积神经网络的短文本分类方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN104008166A (zh) 一种基于形态和语义相似度的对话短文本聚类方法
CN103559233A (zh) 微博中网络新词抽取方法和微博情感分析方法及***
CN103970729A (zh) 一种基于语义类的多主题提取方法
CN106055604A (zh) 基于词网络进行特征扩展的短文本主题模型挖掘方法
CN102622341A (zh) 基于Bootstrapping技术的领域本体概念自动获取方法
CN104462053A (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN100555277C (zh) 一种中文复合词的提取方法及提取***
CN100543735C (zh) 基于文档结构的文档相似性度量方法
CN106528524A (zh) 一种基于MMseg算法与逐点互信息算法的分词方法
CN103631858A (zh) 一种科技项目相似度计算方法
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN104298746A (zh) 一种基于短语网络图排序的领域文献关键词提取方法
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
CN104331523A (zh) 一种基于概念对象模型的问句检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120801