CN101405725A - 多义词的信息检索装置以及程序 - Google Patents

多义词的信息检索装置以及程序 Download PDF

Info

Publication number
CN101405725A
CN101405725A CNA2007800086814A CN200780008681A CN101405725A CN 101405725 A CN101405725 A CN 101405725A CN A2007800086814 A CNA2007800086814 A CN A2007800086814A CN 200780008681 A CN200780008681 A CN 200780008681A CN 101405725 A CN101405725 A CN 101405725A
Authority
CN
China
Prior art keywords
report
input
keyword
field
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800086814A
Other languages
English (en)
Inventor
村田真树
土井晃一
三森智裕
福田安志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Publication of CN101405725A publication Critical patent/CN101405725A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及多义词的信息检索装置以及程序。使用多义词的关键词可靠地检索所输入的领域的报道。具有:输入单元(1),输入关键词和领域;数据库(4),保存各领域的报道;检索提取单元(3),从所述数据库(4)提取包含所述输入的关键词和领域的报道,并提取倾向于该提取出的报道组而出现的单词组A,在包含所述输入的关键词的报道中,从较多包含所述单词组A的报道开始,按顺序输出。

Description

多义词的信息检索装置以及程序
技术领域
本发明涉及进行考虑了词语的多义性的检索的多义词的信息检索装置及程序。例如,“WINS”这一词语存在计算机用语和赛马用语这两种。只输入“WINS”进行检索时,与计算机用语相关联的检索结果、和与赛马的用语相关联的检索结果混合输出。如果用户只想要与计算机用语相关联的报道的检索结果时,上述的检索结果不方便,所以,需要解决该问题。
背景技术
以往,有提供用于检索的关键词进行信息检索的技术(参照非专利文献1)。但是,在检索的阶段,不能进行考虑了单词的多义的输入。
非专利文献1:“位置情報と分野情報を用いた情報検索”村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均,自然言語処理(言語処理学会誌)2000年4月,7卷,2号,p.141~p.160
上述以往的提供关键词进行信息检索的技术,在检索的阶段不能进行考虑了单词的多义的输入,所以,有时检索出不需要的信息输出。
发明内容
本发明谋求解决上述问题,其目的在于进行考虑了词语的多义性的检索而仅检索(输出)需要的信息。
图1是本发明的多义词的信息检索装置的说明图。在图1中,1是输入部(输入单元),2是检索提取部(检索提取单元),4是数据库(保存单元),5是输出部(输出单元)。
本发明具有用于解决所述以往的课题的如下单元。
(1):具备:输入单元1,输入关键词和领域;数据库4,保存各领域的报道;检索提取单元2,从所述数据库4提取包含所述输入的关键词和领域的报道,并提取倾向于该提取出的报道组而出现的单词组A,在包含所述输入的关键词的报道当中,从较多地包含所述单词组A的报道开始,依次进行输出。因此,能够使用多义词的关键词,检索所输入的领域的报道。
(2):具备:输入单元1,输入关键词和领域;数据库4,保存各领域的报道;检索提取单元2,从所述数据库4中提取包含所述输入的关键词和领域这两者的报道,并提取该提取出的报道组B的类似报道,在该提取出的类似报道中,仅提取包含所述输入的关键词的报道并输出。因此,能够使用多义词的关键词,检索所输入的领域的报道。
(3):在所述(2)的多义词的信息检索装置中,所述检索提取单元2在所述提取的类似报道中,仅提取包含所述输入的关键词的报道并输出的情况下,从与所述报道组B的类似度高的报道开始依次进行输出。因此,能够使用多义词的关键词,检索所输入的领域的报道。
(4):具备:输入单元1,输入关键词;数据库4,保存各领域的报道;检索提取单元2,从所述数据库4提取包含所述输入的关键词的报道,并对该提取出的报道组进行分组,提取在各分组中有倾向而出现的表现;查询单元,选择在所述各分组中有倾向地出现的表现,所述检索提取单元2输出由所述查询单元所选择的表现的分组的报道。因此,仅输入关键词能够容易地检索想要的领域的报道。
(5):在所述(1)~(3)的多义词的信息检索装置中,对所述输入单元1输入关键词,由所述检索提取单元2从所述数据库4提取包含所述输入的关键词的报道,并对该提取出的报道组进行分组,提取在各分组中有倾向地出现的表现,具有查询单元,该查询单元选择在所述各个分组中有倾向地出现的表现,将由所述查询单元选择的表现作为输入到所述输入单元1的领域来使用。因此,输入关键词,能够容易地检索想要的领域的报道。
(6):一种程序,使计算机起到如下单元的作用:输入单元1,输入关键词和领域;数据库4,保存各领域的报道;检索提取单元2,从所述数据库4提取包含所述输入的关键词和领域的报道,并提取倾向于该提取出的报道组而出现的单词组A,在包含所述输入的关键词的报道中,从较多地包含所述单词组A的报道开始,依次进行输出。因此,对计算机安装该程序,由此,容易地提供多义词的信息检索装置,其能够使用多义词的关键词,检索输入的领域的报道。
(7):一种程序,使计算机起到如下单元的作用:输入单元1,输入关键词和领域;数据库4,保存各领域的报道;检索提取单元2,从所述数据库4中提取包含所述输入的关键词和领域这两者的报道,并提取该提取出的报道组B的类似报道,在该提取出的类似报道中,仅提取包含所述输入的关键词的报道并输出。因此,对计算机安装该程序,由此,容易地提供多义词的信息检索装置,其能够使用多义词的关键词,检索输入的领域的报道。
(8):一种程序,使计算机起到如下单元的作用:输入单元1,输入关键词;数据库4,保存各领域的报道;检索提取单元2,从所述数据库提取包含所述输入的关键词的报道,并对该提取出的报道组进行分组,提取在各分组中有倾向地出现的表现;查询单元,选择在所述各分组中有倾向地出现的表现;输出由所述查询单元所选择的表现的分组的报道的所述检索提取单元2。因此,容易地提供多义词的信息检索装置,通过将该程序安装到计算机,仅输入关键词,就能够容易地检索想要的领域的报道。
根据本发明,具有如下效果。
(1):由检索提取单元从数据库提取包含输入的关键词和领域的报道,并提取倾向于该提取的报道组而出现的单词组A,在包含所述输入的关键词的报道中,从较多地包含所述单词组A的报道开始依次进行输出,所以,能够使用多义词的关键词,检索输入的领域的报道。
(2):由检索提取单元从数据库4提取包含输入的关键词和领域这两者的报道,提取该提取出的报道组B的类似报道,在该提取出的类似报道中,仅提取包含所述输入的关键词的报道并输出,所以,使用多义词的关键词,能够检索输入的领域的报道。
(3):在由检索提取单元在提取的类似报道中,仅提取包含输入的关键词的报道并输出的情况下,从与报道组B的类似度高的报道开始,依次进行输出,所以,使用多义词的关键词,能够可靠地检索输入的领域的报道。
(4):由检索提取单元从数据库提取包含输入的关键词的报道,对该提取的报道组进行分组,提取在各分组中有倾向地出现的表现,由查询单元选择在所述各个分组中有倾向地出现的表现,由所述检索提取单元,输出由所述查询单元选择的表现的分组的报道,因此仅使用关键词,就能够容易地检索需要的领域的报道。
(5):由检索提取单元从数据库提取包含输入的关键词的报道,对该提取的报道组进行分组,提取在各分组中有倾向地出现的表现,由查询单元选择在所述各分组中有倾向地出现的表现,将由所述查询单元选择的表现作为输入到所述输入单元的领域使用,因此,输入关键词,能够容易地检索想要的领域的报道。
附图说明
图1是本发明的多义词的信息检索装置的说明图。
图2是本发明的多义词的信息检索的流程图(1)。
图3是本发明的多义词的信息检索的流程图(2)。
图4是本发明的具有查询部的多义词的信息检索装置的说明图。
图5是本发明的多义词的信息检索的流程图(3)。
符号说明
1输入部(输入单元)
2检索提取部(检索提取单元)
4数据库(保存单元)
5输出部(输出单元)
具体实施方式
本发明的多义词的信息检索装置用于在信息检索中进行检索,该检索考虑了词语的多义性。例如,“WINS”这一单词,有计算机用语和赛马用语这两种。在只输入“WINS”进行检索的情况下,与计算机用语相关联的检索结果和与赛马的用语相关联的检索结果混合输出。如果用户只想要与计算机用语相关联的报道的检索结果时,能够以下面说明的解决方法(解决方法1~3)解决。
(1):多义词的信息检索装置的说明
图1是多义词的信息检索装置的说明图。在图1中,多义词的信息检索装置(***)中设置有输入部(输入单元)1、检索提取部(检索提取单元)2、数据库(保存单元)4、输出部(输出单元)5。
输入部1是输入关键词等信息的输入单元。检索提取部2是进行单词的提取、检索处理等的检索提取单元。数据库4是保存信息的保存单元(还包含Web等信息)。输出部5是进行显示或印刷从而输出信息的输出单元。
(2):多义词的信息检索的说明1(解决方法1)
能够使用户输入的形态如“关键词(领域)”这样,指定领域进行输入。例如,如果是前面的例子,则输入为“WINS(计算机)”。
完成该输入时,首先提取包含“WINS”的报道。并且,在该报道组中,提取包含计算机的报道。在包含“WINS”的报道组中,提取倾向于包含计算机的报道组而出现的单词组A。在包含“WINS”的报道中,从较多地包含单词组A的报道开始依次输出。单词组A是在计算机相关领域的报道中较多出现的表现,预想较多出现这种表现的报道为计算机相关的领域的报道。通过输出这种报道以解决问题。
(流程图的说明)
图2是多义词的信息检索的流程图(1)。以下,根据图2的处理S1~S5,进行多义词的信息检索(解决方法1)的说明。
S1:通过输入部1,用户指定领域地输入关键词,并转移到处理S2。
S2:检索提取部2从数据库4提取包含所输入的关键词的报道,转移到处理S3。
S3:检索提取部2在所提取的报道组中,提取包含已指定的领域的报道,并转移到处理S4。
S4:检索提取部2在包含已输入的关键词的报道组中,提取倾向于包含已指定的领域的报道组而出现的单词组A,转移到处理S5。
S5:检索提取部2在包含已输入的关键词的报道中,从较多地包含单词组A的报道开始,依次输出到输出部5。
a)倾向于某报道组B而出现的单词组A的提取方法的说明1(解决方法1)
例如,可以将倾向于包含计算机的报道组而出现的单词组A在进行提取时等使用。将包含报道组B的、更大的报道组设为C。这里,报道组C既可以是整个数据库,也可以是一部分。如果根据上述解决方法1,则C成为包含“WINS”的报道组。
但是,上述的解决方法1也能够有其它方法,并不是在包含“WINS”的报道组中,取出倾向于包含计算机的报道组而出现的单词组A,而在整个数据库的报道组中,取出倾向于包含计算机的报道组而出现的单词组A,并利用该取出的单词组A来处理也可以。此时,C成为整个数据库。
首先,求C中的A的出现率和B中的A的出现率。
C中的A的出现率=C中的A的出现次数/C中的单词总数
B中的A的出现率=B中的A的出现次数/B中的单词总数
接着,求B中的A的出现率/C中的A的出现率,该值越大,越成为倾向于报道组B而出现的单词。
b)倾向于某报道组B而出现的单词组A的提取方法的说明2
(利用显著误差检验的说明)
·二项检验的情况下的说明
设A在C中的出现数为N。设A在B中的出现数为N1。
设N2=N-N1。
假设A出现在C中时,其出现在B中的概率为0.5,在N的总出现当中,求N2次以下、A出现在C而不出现在B的概率。
该概率以
P1=∑C(N1+N2,x)*0.5^(x)*0.5^(N1+N2-x)
(其中,∑是从x=0到x=N2的和)
(其中,C(A,B)是从A个不同的当中取出B个情况的数目)
(其中,^表示指数)
表示,该概率的值如果充分小,则可以判断N1和N2不是等价的概率,即,N1与N2相比显著地大。
如果5%检验、则P1小于5%,如果10%检验、则P1小于10%,这成为是否是显著地大的判断基准。
将判断为N1与N2相比显著地大的结果作为倾向于报道组B而出现的单词。另外,设P1越小,越是非常倾向于报道组B而出现的单词。
·卡方(カイニ乗)检验的情况下的说明
将B中的A的出现次数设为N1,将B中的单词的总出现数设为F1,
将在C中而不在B中的、A的出现次数设为N2,
将在C中而不在B中的单词的总出现数为设为F2。
作为N=N1+N2,
求卡方值=(N*(F1*(N2-F2)-(N1-F1)*F2)^2)/((F1+F2)*(N-(F1+F2))*N1*N2)
并且,可以说该卡方值越大,R1和R2就越存在明显误差,并且可以说卡方值比3.84大时,存在显著水平为5%的明显误差,在卡方值比6.63大时,可以说存在显著水平为1%的显著误差。
假设在N1>N2且卡方值越大,越是非常倾向于报道组B而出现的单词。
·比的检验,正确而言为比率的差的检验的说明
作为
p=(F1+F2)/(N1+N2)
p1=R1
p2=R2
求Z=|p1-p2|/sqrt(p*(1-p)*(1/N1+1/N2)),
(其中sqrt指平方根),并且,可以说Z越大,R1和R2就存在明显误差,在Z比1.96大时,存在显著水平为5%的明显误差,在Z比2.58大时,可以说存在显著水平为1%的明显误差。
N1>N2且Z越大,越是非常倾向于报道组B而出现的单词。
也可以将这三种检验方法、和前面单纯地求B中的A的出现率/C中的A的出现率而进行判定的方法进行组合。
例如,在存在显著水平为5%以上的明显误差当中,B中的A的出现率/C中的A的出现率的值越大,越成为非常倾向于报道组B而出现的单词。
c)较多包含单词组A的报道的提取方法的说明(解决方法1)
作为信息检索的基础知识,有以下的式子。这里,取Score(D)较大的。
(1)基本方法(TF IDF法)的说明
以score(D)=∑(tf(w,D)*log(N/df(w)))
w∈W进行加法运算,
W是用户输入的关键词的集合,
tf(w,D)是文件D中的w的出现次数
df(w)是在所有文件中出现W的文件的数量,
N是文件的总数,
将score(D)较高的文件作为检索结果进行输出。
(2)Robertson等的Okapi weighting的说明
众所周知(文献)
村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均“位置情報と分野情報を用いた情報検索”自然言語処理(言語処理学会誌)2000年4月,7卷,2号,p.141~p.160
的(1)式性能较好。在该式子(1)的∑中,取积之前的tf项和idf项的积成为Okapi的加权法,将该值用于单词的权重。
在Okapi的式子中,以
score(D)=∑(tf(w,D)/(tf(w,D)+length/delta)*log(N/df(w)))
w∈W进行加法运算,
length是报道D的长度,delta是报道长度的平均,
报道的长度使用报道的字节数,或报道中所包含的单词数。
进而,也可以进行以下的信息检索。
(Okapi的参考文献)
S.E.Robertson,S.Walker,S.Jones,M.M.Hancock-Beaulieu,andM.Gatford Okapi at TREC-3,TREC-3,1994
(SMART的参考文献)
Amit Singhal AT&T at REC-6,TREC-6,1997
作为更高的信息检索的方法,并不是仅使用tf·idf的式子,可以使用这些Okapi和SMART的式子。
在这些方法中,并不只是tf·idf的式子,也利用报道的长度等,可以进行更高精度的信息检索。
在本次的较多地包含单词组A的报道的提取方法中,还可以使用Rocchio’s formula。
(文献)
“J.J.Rocchio”,“Relevance in information retrieval”,“The SMARTretrieval System”,“Edited by G.Salton”,“Prentice Hall,Inc.”,“page313-323”,1971
代替log(N/df(w)),该方法使用
{E(t)+k_af*(RatioC(t)-RatioD(t))}*log(N/df(w))。
E(t)=1(原来的检索中的关键词)
=0(除此之外)
RatioC(t)是在报道组B中的t的出现率,
RatioD(t)是在报道组C中的t的出现率,
通过以上式替换log(N/df(w))的式子,求score(D),其值越大,越作为较多地包含单词组A的报道来取出。
在score(D)的∑的加法运算时相加的单词w的集合W作为原来的关键词和单词组A这两者。其中,原来的关键词和单词组A不重复。
另外,作为其它的方法,在score(D)的∑的相加运算时加上。单词w的集合W仅作为单词组A。其中,原来的关键词和单词组A不重复。
这里,在roccio的式子中采取了复杂的方法,但是,既可以是单纯地单词组A的单词的出现次数之和越大,越作为较多地包含单词组A的报道取出,另外,可以是单词组A的出现的差异越大,越作为较多地包含单词组A取出。
(3)多义词的信息检索的说明2(解决方法2)
可以如“关键词(领域)”这样使用户输入的形态指定领域输入。例如,如果是前面的例子,则输入为“WINS(计算机)”。该输入完成时,首先提取包含“WINS”和计算机这两者的报道。并且,提取该报道组B的类似报道。在该类似报道中,仅提取包含“WINS”的报道,并将其作为检索结果进行输出。此时,从与报道组B的类似度较高的报道开始输出。这也被认为是能够提取与计算机相关联的领域的报道的方法。
(流程图的说明)
图3是多义词的信息检索的流程图(2)。以下,根据图3的处理S11~S14,说明多义词的信息检索(解决方法2)。
S11:通过输入部1,用户指定领域输入关键词,转移到处理S12。
S12:检索提取部2从数据库4提取包含输入的关键词和领域这两者的报道,转移到处理S13。
S13:检索提取部2提取已提取出的报道组B的类似报道,转移到处理S14。
S14:检索提取部2在已提取的类似报道中,仅提取包含所输入的关键词的报道,并将其作为检索结果进行输出。此时,从与报道组B的类似度高的报道开始输出到输出部5。
a)提取报道组B的类似报道的方法的说明(解决方法2)
定义报道彼此的类似度。该类似度可以使用tf·idf、okapi或smart。可以是tf·idf、okapi或smart等中的、比较报道D与询问(query)的两个报道x和y。并且,将x、y两者中所包含的单词作为w即可。
生成将各单词作为维数、将各单词的得分(score)作为要素的向量,使用报道x中所包含的单词,使报道x的向量为向量(vector_x),另外,使用报道y中所包含的单词,使报道y的向量为(vector_y),可以将这些向量的余弦(cos(vector_x,vector_y))的值作为报道的类似度。在各单词的得分的计算中,可以使用tf·idf、okapi或smart。这些式子的∑的后面的部分的式子成为得分的计算式。该式子的值成为各单词的得分。
如果是tf·idf,则tf(w,D)*log(N/df(w)),
如果是okapi,则tf(w,D)/(tf(w,D)+length/delta)*log(N/df(w))
成为该式子。
另外,在较多地包含单词组A的报道的提取中,也可以求该向量的余弦(cos(vector_x,vector_y))的值,越是该值越大的报道,越可以判断为是较多地包含单词组A的报道。此时,使用单词组A中所包含的单词作成向量(vector_x),使用报道中所包含的单词作成向量(vector_y)并进行求出。
在报道组B和报道x的类似度中,存在以下的方法等。
·将在报道组B当中与报道x最类似的报道、和报道x的类似度作为该类似度的方法
·将在报道组B当中与报道x最不类似的报道、和报道x的类似度作为该类似度的方法
·将报道组B的所有报道和报道x的类似度的平均作为该类似度的方法
也可以是其它的方法,但是这样求报道组B和报道x的类似度,可以将该类似度大的报道取出作为类似报道。
另外,作为其它方法,利用前面的方法取出倾向于报道组B而出现的单词,并且,也利用该单词,计算基于Rocchio’s formula的Score(D),可以将Score(D)大的报道取出作为类似报道。
(4):多义词的信息检索的说明3(解决方法3)
用户仅输入“关键词”。例如,如果是前面的例子,输入“WINS”。在该输入完成时,首先提取包含“WINS”的报道。并且,对该报道组进行分组(clustering)。提取在各个分组中有倾向而出现的表现。例如,分割成两个分组,倾向于各个分组而出现的表现分别为“计算机”和“赛马”。此时,向用户询问是与“计算机”和“赛马”的哪一个相关联。然后,用户选择该任意一个。选择之后,将所选择的表现作为输入的“领域”,与上述解决方法1、2同样地进行处理,或者将所选择的分组作为检索结果进行输出。
(具有询问部的多义词的信息检索装置的说明)
图4是具有查询部的多义词的信息检索装置的说明图。在图4中,在具有查询部的多义词的信息检索装置(***)中,设置有输入部(输入单元)1、检索提取部(检索提取单元)2、查询部(查询单元)3、数据库(保存单元)4、输出部(输出单元)5。
输入部1是用于输入关键词等的信息的输入单元。检索提取部2是进行单词的提取、检索处理等的检索提取单元。查询部3是向用户询问倾向于分组而出现的表现(技术领域等)、并且用户进行选择的查询单元。数据库4是保存信息的保存单元。输出部5是进行显示和印刷从而输出信息的输出单元。
(流程图的说明)
图5是多义词的信息检索的流程图(3)。以下,根据图5的处理S21~S26,说明具有查询部的多义词的信息检索(解决方法3)。
S21:通过输入部1,用户仅输入关键词,转移到处理S22。
S22:检索提取部2从数据库4提取包含所输入的关键词的报道,转移到处理S23。
S23:检索提取部2对所提取出的报道组进行分组,转移到S24。
S24:检索提取部2提取在各分组中有倾向而出现的表现,转移到处理S25。
S25:查询部3向用户进行询问,使得选择在各分组中有倾向而出现的表现,转移到处理S26。
S26:检索提取部2将所选择的分组的报道输出到输出部5。
a)分组的说明(解决方法3)
在分组方面有各种方法。以下记述通常的方法。
(分层分组(自底向上分组)的说明)
使最接近的成员彼此不断靠近,生成分组。分组和分组彼此也(分组和成员彼此也)使最接近的分组彼此靠近。
由于分组之间的距离的定义各种各样,以下进行说明。
有如下方法:
·对于分组A和分组B的距离,将分组A的成员和分组B的成员的距离中最小的作为该距离的方法
·对于分组A和分组B的距离,将分组A的成员和分组B的成员的距离中最大的作为该距离的方法
·对于分组A和分组B的距离,将所有分组A的成员和分组B的成员的距离的平均作为该距离的方法
·对于分组A和分组B的距离,将所有分组A的成员的位置的平均作为该分组的位置,将所有分组B的成员的位置的平均作为该分组的位置,将该位置彼此的距离的平均作为该距离的方法
·被称为沃德(ward)法的方法。以下说明沃德法。
W=∑∑(x(i,j)-ave_x(i))^2
^表示指数。
第一个∑是从i=1到i=g的加法运算,
第二个∑是从j=1到j=ni的加法运算,
x(i,j)是第i分组的第j成员的位置,
ave_x(i)是第i分组的所有成员的位置的平均。
使分组彼此靠近时,W的值增加,但是在沃德法中,以尽量不使W的值变大的方式使分组彼此靠近。
对于成员的位置来说,从报道中取出单词,将该单词的种类作为向量的维数,并生成向量,且将其作为该成员的位置,其中,该向量是将各单词的向量的要素的值作为单词的频度、或该单词的tf·idf(即,tf(w,D)*log(N/df(w)))、该单词的Okapi的式子(即,tf(w,D)/(tf(w,D)+length/delta)*log(N/df(w)))的向量。
(自上向下分组(非分层分组)的说明)
以下,说明自上向下的分组(非分层分组)的方法。
(最大距离算法的说明)
取某成员。接着,取与该成员距离最远的成员。将这些成员作为各个分组的中心。将成员与各个分组中心的距离的最小值作为各成员的距离,将该距离最大的成员作为新的分组的中心。对此进行重复。在成为预先决定的数量的分组时,停止重复。另外,在分组间的距离成为预先决定的数以下时,停止重复。另外,存在如下方法:通过AIC信息量基准等评价分组的好处,利用该值,停止重复。各个成员成为最近的分组中心的成员。
(K平均法的说明)
考虑分组成预先决定的个数k个。随机地选择k个成员,将其作为分组的中心。各个成员成为最近的分组中心的成员。将分组内的各个成员的平均作为各个分组的中心。各个成员成为最近的分组中心的成员。另外,将分组内各个成员的平均作为各个分组的中心。对这些进行重复。并且,在分组的中心不移动时,停止重复。或者,仅重复预先决定的次数后停止。使用该最终的分组中心时的分组中心,求出分组。各个成员成为最近的分组中心的成员。
这样进行分组。分组的方法除此之外还有很多,所以,也可以利用它们。
b)倾向于各个分组而出现的表现的提取的说明(解决方法3)
考虑通过与“倾向于某一报道组B而出现的单词组A的提取方法的说明1(解决方法1)”同样的方法取出,那样进行也可以。
更单纯地,按每个分组,将只在该分组中出现的单词按频度顺序排列,作为倾向于各个分组而出现的表现而取出也可以。
(5):使用多个关键词的情况下的说明
关于所述解决方法1、2,最初提供的关键词为“WINS(计算机)”,但是可以如A B(B’)C(C’)这样为多个。这表示单词A、单词B(其中,领域B’的意思的情况下的单词B)和单词C(其中,领域C’的意思的情况下的单词C)的AND检索。
a)解决方法1的说明
在将其通过解决方法1进行的情况下,取出包含A、B、C的报道组X。接着,从报道组X中取出包含B’、C’的报道组X’。取出报道组X的倾向于报道组X’而出现的单词组Y。并且,取出报道组X的较多地包含单词组Y的报道并输出。
b)解决方法2的说明
在将其通过解决方法2进行的情况下,取出包含A、B、B’、C、C’的报道组X。接着,提取报道组X的类似报道。在类似报道中,取出包含A、B、C的报道并输出。
c)解决方法3的说明
即使通过解决方法也能够进行。首先,输入A、B、C。接着,取出包含A、B、C的报道组。进行分组,输出倾向于各个分组而出现的单词Z。使用户选择该单词,将所选择的表现作为输入的“领域”,可以与上述解决方法1、2同样地进行处理,或者将所选择的分组作为检索结果进行输出。
进而,在解决方法3中,将倾向于各分组而出现的单词组Z与输入的A、B、C对应地表示也可以。
例如,单词组Z按照频度顺序,成为Z1,Z2,Z3,……。将Z1,Z2,Z3,……与经常和A、B、C同现的接近地表示也可以。
在Z1与A经常同现,Z2和C经常同现,Z3和B经常同现的情况下,
分组1 A Z1、B Z3、C Z2
分组2
这样来表示,使用户选择Z1,Z2,Z3……,或使用户选择分组。另外,对于该表示来说,如果知道输入关键词和Z1,Z2,……的关联,则其它形式也可以。
Z1是否与A经常同现,存在以下情况。
·Z1和A都出现的报道数越多,就越是经常同现。
·使用所述的倾向的识别的方法,判断为在包含Z1的报道中,A常倾向地出现的情况下,就为经常同现。
设Z1和A都出现的报道数为a,仅Z1出现的报道数为b,仅A出现的报道数为c,全部报道数为d,则
a
2a/(2a+b+c)
n(ad-bc)^2/(a+b)/(c+d)/(a+c)/(b+d)
n(|ad-bc|-n/2)^2/(a+b)/(c+d)/(a+c)/(b+d)
log(an/(a+b)/(a+c))
(ad-bc)/((a+c)(b+d))^-0.5
a log(an/(a+b)/(a+c))+b log(bn/(a+b)/(b+d))+c log(cn/(a+c)/(c+d))+d log(dn
/(b+d)/(c+d))
a/(bc+ad)
a/(ad-bc)
a/b/c
等的值较大的作为(使用这些当中的哪个式子)经常同现。
像这样,Z1与A是否经常同现有各种。
另外,在所述实施方式中,记载为“值越大的越取出”的处理能够为“将值为阈值以上的取出”。另外,记载为“将值越大的按大小顺序取出预定的值的个数以上的”的处理可以为,“求出对于所取出的值的最大值乘以预定的比例后的值,取出具有该求出的值以上值的”。进而,可以预先决定这些阈值、预定的值,用户可以适当对值进行变更、设定。
(9):程序安装的说明
输入部(输入单元)1、检索提取部(检索提取单元)2、查询部(查询单元)3、数据库(保存单元)4、输出部(输出单元)5等可以由程序构成,主控制单元(CPU)执行,并保存在主存中。该程序由一般的计算机(信息处理装置)处理。该计算机由主控制单元、主存、文件装置、显示装置、键盘等的输入单元即输入装置等硬件构成。
对该计算机安装本发明的程序。对于该安装来说,使这些程序预先存储在软盘、光磁盘等可移动型的记录(存储)媒体中,对于计算机具有的记录媒体,经由用于访问的驱动器装置,或者经由LAN等网络,安装在计算机中设置的文件装置中。并且,从该文件装置中将处理所需要的程序步骤读出到主存中,并且主控制部执行。

Claims (8)

1.一种多义词的信息检索装置,其特征在于,具备:
输入单元,输入关键词和领域;
数据库,保存各领域的报道;以及
检索提取单元,从所述数据库中提取包含所述输入的关键词和领域的报道,并提取倾向于该提取出的报道组而出现的单词组A,在包含所述输入的关键词的报道中,从包含很多所述单词组A的报道开始,依次进行输出。
2.一种多义词的信息检索装置,其特征在于,具备:
输入单元,输入关键词和领域;
数据库,保存各领域的报道;以及
检索提取单元,从所述数据库中提取包含所述输入的关键词和领域这两者的报道,并提取该提取出的报道组B的类似报道,在该提取出的类似报道中,仅提取包含所述输入的关键词的报道并输出。
3.如权利要求2的多义词的信息检索装置,其特征在于,
所述检索提取单元在所述提取的类似报道中,仅提取包含所述输入的关键词的报道并输出的情况下,从与所述报道组B的类似度高的报道开始依次输出。
4.一种多义词的信息检索装置,其特征在于,
具备:输入单元,输入关键词;数据库,保存各领域的报道;检索提取单元,从所述数据库提取包含所述输入的关键词的报道,并对该提取出的报道组进行分组,提取在各分组中有倾向地出现的表现;查询单元,选择在所述各分组中有倾向地出现的表现,
所述检索提取单元对由所述查询单元所选择的表现的分组的报道进行输出。
5.如权利要求1~3任意一项的多义词的信息检索装置,其特征在于,
对所述输入单元输入关键词,由所述检索提取单元从所述数据库提取包含所述输入的关键词的报道,并对该提取出的报道组进行分组,提取在各分组中有倾向地出现的表现,
具有选择在所述各个分组中有倾向地出现的表现的查询单元,
将由所述查询单元选择的表现用作输入到所述输入单元中的领域。
6.一种程序,使计算机起到如下单元的作用:
输入单元,输入关键词和领域;
数据库,保存各领域的报道;以及
检索提取单元,从所述数据库提取包含所述输入的关键词和领域的报道,并提取倾向于该提取出的报道组而出现的单词组A,在包含所述输入的关键词的报道中,从包含很多所述单词组A的报道开始,依次进行输出。
7.一种程序,使计算机起到如下单元的作用:
输入单元,输入关键词和领域;
数据库,保存各领域的报道;以及
检索提取单元,从所述数据库中提取包含所述输入的关键词和领域这两者的报道,并提取该提取出的报道组B的类似报道,在该提取出的类似报道中,仅提取包含所述输入的关键词的报道并输出。
8.一种程序,使计算机起到如下单元的作用:
输入单元,输入关键词;
数据库,保存各领域的报道;
检索提取单元,从所述数据库提取包含所述输入的关键词的报道,并对该提取出的报道组进行分组,提取在各分组中有倾向地出现的表现;以及
查询单元,选择在所述各分组中有倾向地出现的表现,
所述检索提取单元,输出由所述查询单元所选择的表现的分组的报道。
CNA2007800086814A 2006-03-10 2007-03-09 多义词的信息检索装置以及程序 Pending CN101405725A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006065291A JP4857448B2 (ja) 2006-03-10 2006-03-10 多義語による情報検索装置及びプログラム
JP065291/2006 2006-03-10

Publications (1)

Publication Number Publication Date
CN101405725A true CN101405725A (zh) 2009-04-08

Family

ID=38509465

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800086814A Pending CN101405725A (zh) 2006-03-10 2007-03-09 多义词的信息检索装置以及程序

Country Status (3)

Country Link
JP (1) JP4857448B2 (zh)
CN (1) CN101405725A (zh)
WO (1) WO2007105642A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033961A (zh) * 2010-12-31 2011-04-27 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其多义词展现方法
WO2011153708A1 (zh) * 2010-06-11 2011-12-15 上海坦瑞信息技术有限公司 一种基于领域概念的信息搜索方法
WO2012058794A1 (en) * 2010-11-01 2012-05-10 Microsoft Corporation Image search
CN104008098A (zh) * 2013-02-21 2014-08-27 腾讯科技(深圳)有限公司 基于多义性关键词的文本过滤方法及装置
CN103180846B (zh) * 2010-11-01 2016-12-14 微软技术许可有限责任公司 图像搜索
CN108920467A (zh) * 2018-08-01 2018-11-30 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5388038B2 (ja) * 2009-12-28 2014-01-15 独立行政法人情報通信研究機構 文書要約装置、文書処理装置、及びプログラム
JP5972096B2 (ja) * 2012-08-08 2016-08-17 Kddi株式会社 コンテンツに関する投稿を抽出する装置、方法およびプログラム
JP6007088B2 (ja) * 2012-12-05 2016-10-12 Kddi株式会社 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2542464B2 (ja) * 1991-09-20 1996-10-09 日本電信電話株式会社 文書検索装置
JPH0676004A (ja) * 1992-07-06 1994-03-18 Nec Corp データベース検索解表示装置
JP4075094B2 (ja) * 1997-04-09 2008-04-16 松下電器産業株式会社 情報分類装置
JP4065346B2 (ja) * 1997-07-28 2008-03-26 株式会社ジャストシステム 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000148764A (ja) * 1998-11-05 2000-05-30 Fujitsu Ltd クラスタリングを用いた検索質問展開処理装置,検索質問展開処理方法および検索質問展開処理用プログラム記録媒体
JP3693514B2 (ja) * 1999-02-26 2005-09-07 松下電器産業株式会社 文書検索・分類方法および装置
JP2001005830A (ja) * 1999-06-23 2001-01-12 Canon Inc 情報処理装置及びその方法、コンピュータ可読メモリ
JP2002132824A (ja) * 2000-10-26 2002-05-10 Seiko Epson Corp 情報検索方法および情報検索システム
JP3862059B2 (ja) * 2001-01-22 2006-12-27 Kddi株式会社 検索式拡張方法および検索システム
JP4009937B2 (ja) * 2002-01-11 2007-11-21 日本電信電話株式会社 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体
JP4092933B2 (ja) * 2002-03-20 2008-05-28 富士ゼロックス株式会社 文書情報検索装置及び文書情報検索プログラム
JP4240280B2 (ja) * 2002-08-27 2009-03-18 株式会社野村総合研究所 概念検索システム、概念検索方法およびコンピュータプログラム
JP2004295797A (ja) * 2003-03-28 2004-10-21 Oki Electric Ind Co Ltd 情報検索装置
JP4344207B2 (ja) * 2003-09-19 2009-10-14 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体
JP4569179B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 ドキュメント検索装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011153708A1 (zh) * 2010-06-11 2011-12-15 上海坦瑞信息技术有限公司 一种基于领域概念的信息搜索方法
WO2012058794A1 (en) * 2010-11-01 2012-05-10 Microsoft Corporation Image search
CN103180846A (zh) * 2010-11-01 2013-06-26 微软公司 图像搜索
US8750629B2 (en) 2010-11-01 2014-06-10 Microsoft Corporation Method for searching and ranking images clustered based upon similar content
CN103180846B (zh) * 2010-11-01 2016-12-14 微软技术许可有限责任公司 图像搜索
CN102033961A (zh) * 2010-12-31 2011-04-27 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其多义词展现方法
CN104008098A (zh) * 2013-02-21 2014-08-27 腾讯科技(深圳)有限公司 基于多义性关键词的文本过滤方法及装置
CN104008098B (zh) * 2013-02-21 2018-09-18 腾讯科技(深圳)有限公司 基于多义性关键词的文本过滤方法及装置
CN108920467A (zh) * 2018-08-01 2018-11-30 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
WO2020024951A1 (zh) * 2018-08-01 2020-02-06 北京三快在线科技有限公司 多义词词义学习以及搜索结果显示
CN108920467B (zh) * 2018-08-01 2021-04-27 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法

Also Published As

Publication number Publication date
JP2007241794A (ja) 2007-09-20
WO2007105642A1 (ja) 2007-09-20
JP4857448B2 (ja) 2012-01-18

Similar Documents

Publication Publication Date Title
Zhang et al. Ad hoc table retrieval using semantic similarity
CN101405725A (zh) 多义词的信息检索装置以及程序
CN101055585B (zh) 文档聚类***和方法
CN101408886B (zh) 通过分析文档的段落来选择该文档的标签
Turnbull et al. Five Approaches to Collecting Tags for Music.
CN103748579B (zh) 在映射化简框架中处理数据
CN102184169B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
Lu et al. Annotating structured data of the deep Web
US20070162546A1 (en) Sharing tags among individual user media libraries
CN1996316A (zh) 基于网页相关性的搜索引擎搜索方法
EP2410446A1 (en) Personal music recommendation mapping
CN109408600A (zh) 一种基于数据挖掘的图书荐购方法
CN101639859A (zh) 表分类装置、表分类方法以及表分类程序
CN101790729A (zh) 基于用户行为来呈现结果项
CN101206674A (zh) 以商品为媒介的增强型相关搜索***及其方法
CN106156135A (zh) 查询数据的方法及装置
Agrawal et al. A novel algorithm for automatic document clustering
CN102270201B (zh) 用于网络文件的多维索引的方法和设备
CN101933017A (zh) 文件检索装置、文件检索***、文件检索程序和文件检索方法
KR20090069874A (ko) 지식맵 분석을 위한 키워드 선정 및 유사도계수 선정 방법및 그 시스템과 그 방법에 대한 컴퓨터 프로그램을 저장한기록매체
CN102214248A (zh) 一种挖掘海量数据的高空间可伸性和高时间效率的多层频繁模式发现算法
US9779140B2 (en) Ranking signals for sparse corpora
US9626435B2 (en) Using hierarchical scoring for disambiguation in an information retrieval system
CN102043846A (zh) 一种基于遗传算法的搜索方法及装置
CN110941952A (zh) 一种完善审计分析模型的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20090408