JP4857448B2 - 多義語による情報検索装置及びプログラム - Google Patents

多義語による情報検索装置及びプログラム Download PDF

Info

Publication number
JP4857448B2
JP4857448B2 JP2006065291A JP2006065291A JP4857448B2 JP 4857448 B2 JP4857448 B2 JP 4857448B2 JP 2006065291 A JP2006065291 A JP 2006065291A JP 2006065291 A JP2006065291 A JP 2006065291A JP 4857448 B2 JP4857448 B2 JP 4857448B2
Authority
JP
Japan
Prior art keywords
extracted
articles
input
article
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006065291A
Other languages
English (en)
Other versions
JP2007241794A (ja
Inventor
真樹 村田
晃一 土井
智裕 三森
安志 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Sony Corp
Original Assignee
National Institute of Information and Communications Technology
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology, Sony Corp filed Critical National Institute of Information and Communications Technology
Priority to JP2006065291A priority Critical patent/JP4857448B2/ja
Priority to PCT/JP2007/054692 priority patent/WO2007105642A1/ja
Priority to CNA2007800086814A priority patent/CN101405725A/zh
Publication of JP2007241794A publication Critical patent/JP2007241794A/ja
Application granted granted Critical
Publication of JP4857448B2 publication Critical patent/JP4857448B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、言葉の多義性を考慮した検索を行う多義語による情報検索装置及びプログラムに関する。例えば、「WINS」という語は、コンピュータ用語と、競馬の用語の二つがある。「WINS」とだけ入力して検索した場合は、コンピュータ用語に関連した検索結果と、競馬の用語に関連する検索結果が混ざって出力される。もし、ユーザがコンピュータ用語に関連する記事だけの検索結果を欲しい場合は、上記の検索結果では不便であるので、この問題を解決する必要がある。
従来、検索のためのキーワードを与えて情報検索を行う技術はあった(非特許文献1参照)。しかし、検索の段階で、単語の多義を考慮した入力ができないものであった。
"位置情報と分野情報を用いた情報検索"村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均,自然言語処理(言語処理学会誌) 2000 年 4月,7 巻,2 号, p.141 〜 p.160
上記従来のキーワードを与えて情報検索を行う技術は、検索の段階で、単語の多義を考慮した入力ができなかったので、不必要な情報を検索して出力することがあった。
本発明は上記問題点の解決を図り、言葉の多義性を考慮した検索を行い、必要な情報のみを検索(出力)することを目的とする。
図1は本発明の多義語による情報検索装置の説明図である。図1中、1は入力部(入力手段)、2は検索抽出部(検索抽出手段)、4はデータベース(格納手段)、5は出力部(出力手段)である。
本発明は、前記従来の課題を解決するため次のような手段を有する。
(1):キーワードと分野を入力する入力手段1と、各分野の記事を格納するデータベース4と、前記入力したキーワードと分野を含む記事を前記データベース4から抽出し、該抽出した記事群に偏って出現する単語群Aを抽出し、前記入力したキーワードを含む記事の中で前記単語群Aを多く含む記事から順に出力する検索抽出手段2とを備える。このため、多義語によるキーワードを使用して入力した分野の記事を検索することができる。
(2):キーワードと分野を入力する入力手段1と、各分野の記事を格納するデータベース4と、前記入力したキーワードと分野を両方含む記事を前記データベース4から抽出し、該抽出した記事群Bの類似記事を抽出し、該抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する検索抽出手段2とを備える。このため、多義語によるキーワードを使用して入力した分野の記事を検索することができる。
(3):前記(2)の多義語による情報検索装置において、前記検索抽出手段2は、前記抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する場合、前記記事群Bとの類似度が高い記事から順に出力する。このため、多義語によるキーワードを使用して入力した分野の記事を確実に検索することができる。
(4):キーワードを入力する入力手段1と、各分野の記事を格納するデータベース4と、前記入力したキーワードを含む記事を前記データベース4から抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出する検索抽出手段2と、前記各クラスターで偏って出現する表現を選択する問い合わせ手段とを備え、前記検索抽出手段2は、前記問い合わせ手段で選択された表現のクラスターの記事を出力する。このため、キーワードのみを入力してほしい分野の記事を容易に検索することができる。
(5):前記(1)〜(3)の多義語による情報検索装置において、前記入力手段1にキーワードを入力し、前記検索抽出手段2で前記入力したキーワードを含む記事を前記データベース4から抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出し、前記各クラスターで偏って出現する表現を選択する問い合わせ手段を備え、前記問い合わせ手段で選択された表現を前記入力手段1に入力される分野として用いる。このため、キーワードを入力して、ほしい分野の記事を容易に検索することができる。
(6):キーワードと分野を入力する入力手段1と、各分野の記事を格納するデータベース4と、前記入力したキーワードと分野を含む記事を前記データベース4から抽出し、該抽出した記事群に偏って出現する単語群Aを抽出し、前記入力したキーワードを含む記事の中で前記単語群Aを多く含む記事から順に出力する検索抽出手段2として、コンピュータを機能させるためのプログラムとする。このため、このプログラムをコンピュータにインストールすることで、多義語によるキーワードを使用して入力した分野の記事を検索することができる多義語による情報検索装置を容易に提供することができる。
(7):キーワードと分野を入力する入力手段1と、各分野の記事を格納するデータベース4と、前記入力したキーワードと分野を両方含む記事を前記データベース4から抽出し、該抽出した記事群Bの類似記事を抽出し、該抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する検索抽出手段2として、コンピュータを機能させるためのプログラムとする。このため、このプログラムをコンピュータにインストールすることで、多義語によるキーワードを使用して入力した分野の記事を検索することができる多義語による情報検索装置を容易に提供することができる。
(8):キーワードを入力する入力手段1と、各分野の記事を格納するデータベース4と、前記入力したキーワードを含む記事を前記データベース4から抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出する検索抽出手段2と、前記各クラスターで偏って出現する表現を選択する問い合わせ手段と、前記問い合わせ手段で選択された表現のクラスターの記事を出力する前記検索抽出手段2として、コンピュータを機能させるためのプログラムとする。このため、このプログラムをコンピュータにインストールすることで、キーワードのみを入力してほしい分野の記事を容易に検索することができる多義語による情報検索装置を容易に提供することができる。
本発明によれば次のような効果がある。
(1):検索抽出手段で、入力したキーワードと分野を含む記事をデータベースから抽出し、該抽出した記事群に偏って出現する単語群Aを抽出し、前記入力したキーワードを含む記事の中で前記単語群Aを多く含む記事から順に出力するため、多義語によるキーワードを使用して入力した分野の記事を検索することができる。
(2):検索抽出手段で、入力したキーワードと分野を両方含む記事をデータベース4から抽出し、該抽出した記事群Bの類似記事を抽出し、該抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力するため、多義語によるキーワードを使用して入力した分野の記事を検索することができる。
(3):検索抽出手段で、抽出した類似記事において、入力したキーワードを含む記事のみを抽出して出力する場合、記事群Bとの類似度が高い記事から順に出力するため、多義語によるキーワードを使用して入力した分野の記事を確実に検索することができる。
(4):検索抽出手段で、入力したキーワードを含む記事をデータベースから抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出し、問い合わせ手段で、前記各クラスターで偏って出現する表現を選択し、前記検索抽出手段で、前記問い合わせ手段で選択された表現のクラスターの記事を出力するため、キーワードのみを入力してほしい分野の記事を容易に検索することができる。
(5):検索抽出手段で入力したキーワードを含む記事をデータベースから抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出し、問い合わせ手段で前記各クラスターで偏って出現する表現を選択し、前記問い合わせ手段で選択された表現を前記入力手段に入力される分野として用いるため、キーワードを入力して、ほしい分野の記事を容易に検索することができる。
本発明の多義語による情報検索装置は、情報検索において言葉の多義性を考慮した検索をするものである。例えば、「WINS」という語は、コンピュータ用語と、競馬の用語の二つがある。「WINS」とだけ入力して検索した場合は、コンピュータ用語に関連した検索結果と、競馬の用語に関連する検索結果が混ざって出力される。もし、ユーザがコンピュータ用語に関連する記事だけの検索結果を欲しい場合は、以下で説明する解決法(解決方法1〜3)で解決することができる。
(1):多義語による情報検索装置の説明
図1は多義語による情報検索装置の説明図である。図1において、多義語による情報検索装置(システム)には、入力部(入力手段)1、検索抽出部(検索抽出手段)2、データベース(格納手段)4、出力部(出力手段)5が設けてある。
入力部1は、キーワード等の情報を入力する入力手段である。検索抽出部2は、単語の抽出、検索処理等を行う検索抽出手段である。データベース4は、情報を格納する格納手段(Web等の情報も含む)である。出力部5は、表示や印刷を行なって情報を出力する出力手段である。
(2):多義語による情報検索の説明1(解決法1)
ユーザが入力する形態を「キーワード(分野)」のように分野を指定して入力できるようにする。例えば、先の例だと、「WINS(コンピュータ)」と入力する。
この入力がなされると、まず、「WINS」を含む記事を抽出する。そして、その記事群の中で、コンピュータを含む記事を抽出する。「WINS」を含む記事群の中で、コンピュータを含む記事群に偏って出現する単語群Aを抽出する。「WINS」を含む記事の中で単語群Aをより多く含む記事から順に出力する。単語群Aはコンピュータ関連の分野の記事に多く出現する表現で、そういう表現が多く出現する記事は、コンピュータ関連の分野の記事と予想される。そういう記事を出力することで問題を解決する。
(フローチャートによる説明)
図2は多義語による情報検索のフローチャート(1)である。以下、図2の処理S1〜S5に従って、多義語による情報検索(解決法1)の説明をする。
S1:入力部1により、ユーザがキーワードを分野を指定して入力し、処理S2に移る。
S2:検索抽出部2は、データベース4から入力したキーワードを含む記事を抽出し、処理S3に移る。
S3:検索抽出部2は、抽出した記事群の中で、指定した分野を含む記事を抽出し、処理S4に移る。
S4:検索抽出部2は、入力したキーワードを含む記事群の中で、指定した分野を含む記事群に偏って出現する単語群Aを抽出し、処理S5に移る。
S5:検索抽出部2は、入力したキーワードを含む記事の中で単語群Aをより多く含む記事から順に出力部5に出力する。
a)ある記事群Bに偏って出現する単語群Aの抽出方法の説明1(解決法1)
例えば、コンピュータを含む記事群に偏って出現する単語群Aを、抽出するときなどに使うことができる。記事群Bを包含する、よりも大きい記事群をCとする。ここで記事群Cはデータベース全体でもいいし、一部でもよい。上述の解決法1にしたがえば、Cは「WINS」を含む記事群となる。
ただし、上述の解決法1も他の方法がありえて、「WINS」を含む記事群の中で、コンピュータを含む記事群に偏って出現する単語群Aを取り出すのではなく、データベース全体の記事群の中で、コンピュータを含む記事群に偏って出現する単語群Aを取り出し、その取り出した単語群Aを利用して処理してもよい。その場合はCはデータベース全体となる。
先ず、C中のAの出現率とB中のAの出現率を求める。
C中のAの出現率=C中のAの出現回数/C中の単語総数
B中のAの出現率=B中のAの出現回数/B中の単語総数
次に、B中のAの出現率/C中のAの出現率
を求めてこの値が大きいものほど、記事群Bに偏って出現する単語とする。
b)ある記事群Bに偏って出現する単語群Aの抽出方法の説明2
(有意差検定を利用する説明)
・二項検定の場合の説明
AのCでの出現数をNとする。AのBでの出現数をN1とする。
N2=N−N1とする。
AがCに現れたときにそれがB中に現れる確率を0.5 と仮定して、Nの総出現のうち、N2回以下、AがCに出現してBに出現しなかった確率を求める。
この確率は、
P1 =Σ C(N1+N2,x) * 0.5 ^(x) * 0.5 ^(N1+N2-x)
(ただし、Σは、x = 0 から x = N2 の和)
(ただし、C(A,B)は、A個の異なったものからB個のものを取り出す場合の数)
(ただし、^は、指数を意味する)
で表され、この確率の値が十分小さければ、N1とN2は等価な確率でない、すなわち、N1がN2に比べて有意に大きいことと判断できる。
5%検定なら
P1が5%よりも小さいこと、10%検定ならP1が10%よりも小さいこと、が有意に大きいかどうかの判断基準になる。
N1がN2に比べて有意に大きいと判断されたものを記事群Bに偏って出現する単語とする。また、P1が小さいものほど、記事群Bによく偏って出現する単語とする。
・カイ二乗検定の場合の説明
B中のAの出現回数をN1、B中の単語の総出現数をF1、
CにあってBにない、Aの出現回数をN2、
CにあってBにない、単語の総出現数をF2とする。
N=N1+N2として、
カイ二乗値 = (N * (F1 * (N2 - F2) - (N1 - F1) * F2 )^2 )/((F1 + F2)*(N - (F1 + F2)) * N1 * N2)
を求める。
そして、このカイ二乗値が大きいほどR1とR2は有意差があると言え、カイ二乗値が 3.84 よりも大きいとき危険率5%の有意差があると言え、カイ二乗値が 6.63 よりも大きいとき危険率1%の有意差があると言える。
N1 > N2 でかつ、カイ二乗値が大きいものほど、記事群Bによく偏って出現する単語とする。
・比の検定、正確に言うと、比率の差の検定の説明
p = (F1+F2)/(N1+N2)
p1 = R1
p2 = R2
として、
Z = | p1 - p2| / sqrt ( p * (1 - p) * (1/N1 + 1/N2) )
を求め、(ただし sqrt はルートを意味する) そして、Z が大きいほど、R1とR2は有意差があると言え、Zが 1.96 よりも大きいとき危険率5%の有意差があると言え、Zが 2.58 よりも大きいとき危険率1%の有意差があると言える。
N1 > N2 で、かつ、Zが大きいものほど、記事群Bによく偏って出現する単語とする。
これら三つの検定の方法と、先の単純に、B中のAの出現率/C中のAの出現率を求めて判定する方法を組み合わせてもよい。
例えば、危険率5%以上有意差があるもののうち、B中のAの出現率/C中のAの出現率、の値が大きいものほど記事群Bによく偏って出現する単語とする。
c)単語群Aをより多く含む記事の抽出方法の説明(解決法1)
情報検索の基礎知識として以下の式がある。ここで、Score(D)が大きいものを取る。
(1) 基本的な方法 (TF・IDF 法) の説明
score(D) = Σ ( tf(w,D) * log(N/df(w)) )
w ∈W で加算
Wはユーザーが入力するキーワードの集合
tf(w,D)は文書Dでのwの出現回数
df(w)は全文書でWが出現した文書の数
Nは文書の総数
score(D) が高い文書を検索結果として出力する。
(2) Robertson らの Okapi weightingの説明
(文献)
村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均“位置情報と分野情報を用いた情報検索”自然言語処理(言語処理学会誌) 2000年 4月,7 巻,2 号, p.141 〜 p.160
の (1)式、が性能がよいことが知られている。これの式(1) のΣで積を取る前の tf 項とidf 項の積が Okapiのウェイティング法になって、この値を単語の重みに使う。
Okapi の式なら
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w ∈W で加算
lengthは記事Dの長さ、delta は記事の長さの平均、
記事の長さは、記事のバイト数、また、記事に含まれる単語数などを使う。
さらに、以下の情報検索を行うこともできる。
(Okapi の参考文献) S. E. Robertson, S. Walker, S. Jones, M. M. Hancock-Beaulieu, and M. Gatford Okapi at TREC-3, TREC-3, 1994
(SMART の参考文献)
Amit Singhal AT&T at TREC-6, TREC-6, 1997
より高度な情報検索の方法として、tf・idf を使うだけの式でなく、これらの Okapiや SMARTの式を用いてもよい。
これらの方法では、tf・idf だけでなく、記事の長さなども利用して、より高精度な情報検索を行うことができる。
今回の、単語群Aをより多く含む記事の抽出方法では、さらに、Rocchio's formula を使うことができる。
(文献)
"J. J. Rocchio", "Relevance feedback in information retrieval","The SMART retrieval System", "Edited by G. Salton", "Prentice Hall, Inc.","page 313-323", 1971
この方法は、log(N/df(w))のかわりに、
{E(t) + k_af * (RatioC(t) - RatioD(t))} *log(N/df(w))
を使う。
E(t) = 1 (元の検索にあったキーワード)
= 0 (それ以外)
RatioC(t) は記事群Bでのt の出現率
RatioD(t) は記事群Cでのt の出現率
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど、単語群Aをより多く含む記事として取り出すものである。
score(D)のΣの加算の際に足す単語wの集合Wは、元のキーワードと、単語群Aの両方とする。ただし、元のキーワードと、単語群Aは重ならないようにする。
また、他の方法として、score(D)のΣの加算の際に足す。単語wの集合Wは、単語群Aのみとする。ただし、元のキーワードと、単語群Aは重ならないようにする。
ここでは roccio の式で複雑な方法をとったが、単純に、単語群Aの単語の出現回数の和が大きいものほど、単語群Aをより多く含む記事として取り出すようにしてもよいし、また、単語群Aの出現の異なりの大きいものほど、単語群Aをより多く含む記事として取り出すようにしてもよい。
(3):多義語による情報検索の説明2(解決法2)
ユーザが入力する形態を「キーワード(分野)」のように分野を指定して入力できるようにする。例えば、先の例だと、「WINS(コンピュータ)」と入力する。この入力がなされると、まず、「WINS」とコンピュータの両方を含む記事を抽出する。そして、その記事群Bの類似記事を抽出する。その類似記事において、「WINS」を含む記事のみを抽出し、それを検索結果として出力する。このとき記事群Bとの類似度が高い記事から出力する。これも、コンピュータ関連の分野の記事を抽出できるものと思われる。
(フローチャートによる説明)
図3は多義語による情報検索のフローチャート(2)である。以下、図3の処理S11〜S14に従って、多義語による情報検索(解決法2)の説明をする。
S11:入力部1により、ユーザがキーワードを分野を指定して入力し、処理S12に移る。
S12:検索抽出部2は、データベース4から入力したキーワードと分野を両方含む記事を抽出し、処理S13に移る。
S13:検索抽出部2は、抽出した記事群Bの類似記事を抽出し、処理S14に移る。
S14:検索抽出部2は、抽出した類似記事において、入力したキーワードを含む記事のみを抽出し、それを検索結果として出力する。このとき記事群Bとの類似度が高い記事から出力部5に出力する。
a)記事群Bの類似記事を抽出する方法の説明 (解決法2)
記事同士の類似度を定義する。この類似度は、tf・idf や okapiや smartを使うとよい。tf・idf や okapiや smartなどにおける、記事Dとクエリを比較する二つの記事xとyとするとしてよい。そして、x、yの両方に含まれる単語をwとするとよい。
各単語を次元と、各単語のスコアを要素とするベクトルを作成し、記事xのベクトルを記事xに含まれる単語を使ってベクトル(vector _x)にし、また、記事yのベクトルを記事yに含まれる単語を使ってベクトル(vector _y)にし、それらベクトルの余弦(cos(vector _x,vector_y)) の値を記事の類似度としてもよい。各単語のスコアの算出には、tf・idf やokapi やsmart を用いるとよい。それらの式のΣの後ろの部分の式がスコアの算出の式となる。その式の値が各単語のスコアとなる。
tf・idf だと tf(w,D) * log(N/df(w))
okapi だと tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w))
がその式となる。
また、単語群Aをより多く含む記事の抽出においてもこのベクトルの余弦(cos(vector _x,vector_y)) の値を求め、この値が大きい記事ほど単語群Aをより多く含む記事と判断してもよい。この場合は、単語群Aに含まれる単語を使ってベクトル(vector _x)にし、記事に含まれる単語を使ってベクトル(vector _y)にして求める。
記事群Bと記事xの類似度には、次の方法などがある。
・記事群Bのうち記事xと最も類似する記事と、記事xの類似度をその類似度とする方法
・記事群Bのうち記事xと最も類似しない記事と、記事xの類似度をその類似度とする方法
・記事群Bのすべての記事と記事xの類似度の平均をその類似度とする方法
他の方法でもよいが、このようにして、記事群Bと記事xの類似度を求めて、その類似度が大きいものを類似記事として取り出すことができる。
なお、他の方法としては、記事群Bに偏って出現する単語を先の方法で取り出し、そして、その単語も利用して、Rocchio's formula に基づく Score(D) を計算し、Score(D)の大きいものを類似記事として取り出してもよい。
(4):多義語による情報検索の説明3(解決法3)
ユーザは「キーワード」のみを入力する。例えば、先の例だと、「WINS」が入力される。この入力がなされると、まず、「WINS」を含む記事を抽出する。そして、その記事群をクラスタリングする。各クラスターで偏って出現する表現を抽出する。例えば、二つのクラスターに分割され、それぞれのクラスターに偏って出現する表現が、それぞれ、「コンピュータ」と「競馬」であったとする。その場合は、ユーザに、「コンピュータ」と「競馬」のどちらに関連するかの問い合わせをする。そして、ユーザはこのいずれかを選択する。選択されたあとは、選択された表現を入力の「分野」として上記解決法1、2と同様に処理するか、もしくは、選択されたクラスターを検索結果として出力する。
(問い合わせ部を備える多義語による情報検索装置の説明)
図4は問い合わせ部を備える多義語による情報検索装置の説明図である。図4において、問い合わせ部を備える多義語による情報検索装置(システム)には、入力部(入力手段)1、検索抽出部(検索抽出手段)2、問い合わせ部(問い合わせ手段)3、データベース(格納手段)4、出力部(出力手段)5が設けてある。
入力部1は、キーワード等の情報を入力する入力手段である。検索抽出部2は、単語の抽出、検索処理等を行う検索抽出手段である。問い合わせ部3は、クラスターに偏って出現する表現(技術分野等)をユーザに問い合わせ、ユーザが選択を行う問い合わせ手段である。データベース4は、情報を格納する格納手段である。出力部5は、表示や印刷を行なって情報を出力する出力手段である。
(フローチャートによる説明)
図5は多義語による情報検索のフローチャート(3)である。以下、図5の処理S21〜S26に従って、問い合わせ部を備える多義語による情報検索(解決法3)の説明をする。
S21:入力部1により、ユーザがキーワードのみを入力し、処理S22に移る。
S22:検索抽出部2は、データベース4から入力したキーワードを含む記事を抽出し、処理S23に移る。
S23:検索抽出部2は、抽出した記事群をクラスタリングし、処理S24に移る。
S24:検索抽出部2は、各クラスターで偏って出現する表現を抽出し、処理S25に移る。
S25:問い合わせ部3は、各クラスターで偏って出現する表現の選択をするように、ユーザに問い合わせ、処理S26に移る。
S26:検索抽出部2は、選択されたクラスターの記事を出力部5に出力する。
a)クラスタリングの説明(解決法3)
クラスタリングにはさまざまな方法がある。一般的なものを以下に記述する。
(階層クラスタリング(ボトムアップクラスタリング)の説明)
最も近い成員同士をくっつけていき、クラスターを作る。クラスターとクラスター同士も(クラスターと成員同士も)、最も近いクラスター同士をくっつける。
クラスター間の距離の定義は様々あるので以下に説明する。
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の距離の中で最も小さいものをその距離とする方法
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の距離の中で最も大きいものをその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員とクラスターBの成員の距離の平均をその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員の位置の平均をそのクラスターの位置とし、すべてのクラスターBの成員の位置の平均をそのクラスターの位置とし、その位置同士の距離の平均をその距離とする方法
・ウォード法と呼ばれる方法もある。以下、ウォード法の説明をする。
W = Σ Σ (x(i,j) - ave _x(i)) ^ 2
^は指数を意味する。
一つ目のΣは i=1からi=g までの加算
二つ目のΣは j=1からj=niまでの加算
x(i,j)は i番目のクラスターの j番目の成員の位置
ave _x(i)は i番目のクラスターのすべての成員の位置の平均
クラスター同士をくっつけていくと、Wの値が増加するが、ウォード法では、Wの値がなるべく大きくならないようにクラスター同士をくっつけていく。
成員の位置は、記事から単語を取り出し、その単語の種類をベクトルの次元とし、各単語のベクトルの要素の値を、単語の頻度やその単語のtf・idf (すなわち、tf(w,D) * log(N/df(w))) 、その単語のOkapi の式 (すなわち、 tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w))) としたベクトルを作成し、それをその成員の位置とする。
(トップダウンクラスタリング(非階層クラスタリング)の説明)
以下、トップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
(最大距離アルゴリズムの説明)
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのクラスターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成員の距離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これを繰り返す。あらかじめ定めた数のクラスターになったときに、繰り返しをやめる。また、クラスター間の距離があらかじめ定めた数以下になると繰り返しをやめる。また、クラスターの良さをAIC情報量基準などで評価してその値を利用して繰り返しをやめる方法もある。各成員は、最も近いクラスター中心の成員となる。
(K平均法の説明)
あらかじめ定めた個数k個にクラスタリングすることを考える。k個成員をランダムに選ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。クラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのクラスターの中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなると繰り返しをやめる。又は、あらかじめ定めた回数だけ繰り返してやめる。その最終的なクラスター中心のときのクラスター中心を使ってクラスターを求める。各成員は最も近いクラスター中心の成員となる。
このようにして、クラスタリングをする。クラスタリングの方法は、これら以外にもたくさんあるので、それらを利用してもよい。
b)各クラスターに偏って出現する表現の抽出の説明 (解決法3)
「ある記事群Bに偏って出現する単語群Aの抽出方法の説明1(解決法1)」と同様の方法で取り出すことが考えられ、そのようにしてもよい。
もっと単純には、各クラスターごとに、そのクラスターにしか出現しなかった単語を頻度順に並べて、各クラスターに偏って出現する表現として取り出しても良い。
(5):複数のキーワードを用いる場合の説明
前記解決法1、2について、最初にあたえるキーワードは、「WINS(コンピュータ) 」になっているが、A B(B’) C(C’)のように複数でもよい。これは、単語Aと、単語B(ただし、分野B’の意味の場合の単語B)と、単語C(ただし、分野C’の意味の場合の単語C)のAND検索を意味する。
a)解決法1による説明
これを解決法1で行う場合は、A、B、Cを含む記事群Xを取り出す。次に、記事群XからB’、C’を含む記事群X’を取り出す。記事群Xのうち、記事群X’に偏って出現する単語群Yを取り出す。そして、記事群Xのうち、単語群Yを多く含む記事を取り出して出力する。
b)解決法2による説明
これを解決法2で行う場合は、A、B、B’、C、C’を含む記事群Xを取り出す。次に、記事群Xの類似記事を抽出する。類似記事においてA、B、Cを含む記事を取り出して出力する。
c)解決法3による説明
解決法3でもできる。まず、A、B、Cを入力する。次に、A、B、Cを含む記事群を取り出す。クラスタリングして、各クラスターに偏って出現する単語Zを出力する。その単語をユーザーに選ばせて、選択された表現を入力の「分野」として上記解決法1、2と同様に処理するか、もしくは、選択されたクラスターを検索結果として出力することができる。
さらに、解決法3では、各クラスターに偏って出現する単語群Zを入力のA、B、Cと対応づけて示すとよい。
例えば、単語群Zが頻度順に Z1, Z2, Z3, ...としてあるとする。Z1, Z2, Z3, ... をA、B、Cとよく共起するものと近づけて示してもよい。
Z1がAとよく共起し、Z2がCとよく共起し、Z3がBとよく共起する場合
クラスター1 A Z1 、B Z3 、C Z2
クラスター2
...
のように表示して、 Z1, Z2, Z3, .. をユーザーに選ばせたり。クラスターをユーザに選ばせる。なお、この表示は、入力キーワードと Z1, Z2, ...の関連がわかるものならば他の形態でもよい。
Z1がAとよく共起するかどうかは、次のものがある。
・Z1とAがともに出現する記事数が多いほど、よく共起するとするものとする。
・前述の偏りの認識の方法を使い、Z1を含む記事に、Aがよく偏って出現すると判断された場合、よく共起するとするものとする。
・Z1とAがともに出現する記事数をa、Z1のみが出現する記事数をb、Aのみが出現する記事数をc、全記事数をdとして、
a
2a/(2a+b+c)
n(ad-bc)^2/(a+b)/(c+d)/(a+c)/(b+d)
n(|ad-bc | -n/2)^2/(a+b)/(c+d)/(a+c)/(b+d)
log (an/(a+b)/(a+c))
(ad -bc)/((a+c)(b+d)) ^0.5
a log (an/(a+b)/(a+c)) + b log (bn/(a+b)/(b+d)) + c log (cn/(a+c)/(c+d)) + d log (dn/(b+d)/(c+d))
a/(bc+ad)
a/(ad-bc)
a/b/c
などの値が大きいものを (これらのうちどれかの式を用いる) よく共起するとするものとする。
など、Z1がAとよく共起するかどうかは、いろいろある。
なお、前記の実施の形態では、「値が大きいものほど取り出す」と記載した処理は「値が閾値以上のものを取り出す」とすることができる。また、「値が大きいものを所定の値の個数以上のものを大きい順に取り出す」と記載した処理は「取り出されたものの値の最大値に対して所定の割合をかけた値を求め、その求めた値以上の値を持つものを取り出す」とすることができる。更に、これら閾値、所定の値を、あらかじめ定めることも、適宜ユーザが値を変更、設定できることも可能である。
(9):プログラムインストールの説明
入力部(入力手段)1、検索抽出部(検索抽出手段)2、問い合わせ部(問い合わせ手段)3、データベース(格納手段)4、出力部(出力手段)5等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータ(情報処理装置)で処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。
このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、LAN等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。
本発明の多義語による情報検索装置の説明図である。 本発明の多義語による情報検索のフローチャート(1)である。 本発明の多義語による情報検索のフローチャート(2)である。 本発明の問い合わせ部を備える多義語による情報検索装置の説明図である。 本発明の多義語による情報検索のフローチャート(3)である。
符号の説明
1 入力部(入力手段)
2 検索抽出部(検索抽出手段)
4 データベース(格納手段)
5 出力部(出力手段)

Claims (4)

  1. キーワードと分野を入力する入力手段と、
    各分野の記事を格納するデータベースと、
    前記入力したキーワードと分野を両方含む記事を前記データベースから抽出し、該抽出した記事群Bの類似記事を抽出し、該抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する検索抽出手段とを備えることを特徴とした多義語による情報検索装置。
  2. 前記検索抽出手段は、前記抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する場合、前記記事群Bとの類似度が高い記事から順に出力することを特徴とした請求項記載の多義語による情報検索装置。
  3. 前記入力手段にキーワードを入力し、前記検索抽出手段で前記入力したキーワードを含む記事を前記データベースから抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出し、
    前記各クラスターで偏って出現する表現を選択する問い合わせ手段を備え、
    前記問い合わせ手段で選択された表現を前記入力手段に入力される分野として用いることを特徴とした請求項1又は2に記載の多義語による情報検索装置。
  4. キーワードと分野を入力する入力手段と、
    各分野の記事を格納するデータベースと、
    前記入力したキーワードと分野を両方含む記事を前記データベースから抽出し、該抽出した記事群Bの類似記事を抽出し、該抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する検索抽出手段として、
    コンピュータを機能させるためのプログラム。
JP2006065291A 2006-03-10 2006-03-10 多義語による情報検索装置及びプログラム Expired - Fee Related JP4857448B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006065291A JP4857448B2 (ja) 2006-03-10 2006-03-10 多義語による情報検索装置及びプログラム
PCT/JP2007/054692 WO2007105642A1 (ja) 2006-03-10 2007-03-09 多義語による情報検索装置及びプログラム
CNA2007800086814A CN101405725A (zh) 2006-03-10 2007-03-09 多义词的信息检索装置以及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006065291A JP4857448B2 (ja) 2006-03-10 2006-03-10 多義語による情報検索装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2007241794A JP2007241794A (ja) 2007-09-20
JP4857448B2 true JP4857448B2 (ja) 2012-01-18

Family

ID=38509465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006065291A Expired - Fee Related JP4857448B2 (ja) 2006-03-10 2006-03-10 多義語による情報検索装置及びプログラム

Country Status (3)

Country Link
JP (1) JP4857448B2 (ja)
CN (1) CN101405725A (ja)
WO (1) WO2007105642A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5388038B2 (ja) * 2009-12-28 2014-01-15 独立行政法人情報通信研究機構 文書要約装置、文書処理装置、及びプログラム
WO2011153708A1 (zh) * 2010-06-11 2011-12-15 上海坦瑞信息技术有限公司 一种基于领域概念的信息搜索方法
EP2635981A4 (en) 2010-11-01 2016-10-26 Microsoft Technology Licensing Llc IMAGE SEARCH
CN102033961A (zh) * 2010-12-31 2011-04-27 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其多义词展现方法
JP5972096B2 (ja) * 2012-08-08 2016-08-17 Kddi株式会社 コンテンツに関する投稿を抽出する装置、方法およびプログラム
JP6007088B2 (ja) * 2012-12-05 2016-10-12 Kddi株式会社 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
CN104008098B (zh) * 2013-02-21 2018-09-18 腾讯科技(深圳)有限公司 基于多义性关键词的文本过滤方法及装置
CN108920467B (zh) * 2018-08-01 2021-04-27 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2542464B2 (ja) * 1991-09-20 1996-10-09 日本電信電話株式会社 文書検索装置
JPH0676004A (ja) * 1992-07-06 1994-03-18 Nec Corp データベース検索解表示装置
JP4075094B2 (ja) * 1997-04-09 2008-04-16 松下電器産業株式会社 情報分類装置
JP4065346B2 (ja) * 1997-07-28 2008-03-26 株式会社ジャストシステム 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000148764A (ja) * 1998-11-05 2000-05-30 Fujitsu Ltd クラスタリングを用いた検索質問展開処理装置,検索質問展開処理方法および検索質問展開処理用プログラム記録媒体
JP3693514B2 (ja) * 1999-02-26 2005-09-07 松下電器産業株式会社 文書検索・分類方法および装置
JP2001005830A (ja) * 1999-06-23 2001-01-12 Canon Inc 情報処理装置及びその方法、コンピュータ可読メモリ
JP2002132824A (ja) * 2000-10-26 2002-05-10 Seiko Epson Corp 情報検索方法および情報検索システム
JP3862059B2 (ja) * 2001-01-22 2006-12-27 Kddi株式会社 検索式拡張方法および検索システム
JP4009937B2 (ja) * 2002-01-11 2007-11-21 日本電信電話株式会社 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体
JP4092933B2 (ja) * 2002-03-20 2008-05-28 富士ゼロックス株式会社 文書情報検索装置及び文書情報検索プログラム
JP4240280B2 (ja) * 2002-08-27 2009-03-18 株式会社野村総合研究所 概念検索システム、概念検索方法およびコンピュータプログラム
JP2004295797A (ja) * 2003-03-28 2004-10-21 Oki Electric Ind Co Ltd 情報検索装置
JP4344207B2 (ja) * 2003-09-19 2009-10-14 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム、および記録媒体
JP4569179B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 ドキュメント検索装置

Also Published As

Publication number Publication date
JP2007241794A (ja) 2007-09-20
WO2007105642A1 (ja) 2007-09-20
CN101405725A (zh) 2009-04-08

Similar Documents

Publication Publication Date Title
Liu et al. Meta-path-based ranking with pseudo relevance feedback on heterogeneous graph for citation recommendation
Hoffart et al. KORE: keyphrase overlap relatedness for entity disambiguation
Sugiyama et al. Exploiting potential citation papers in scholarly paper recommendation
JP4857448B2 (ja) 多義語による情報検索装置及びプログラム
Chirita et al. P-tag: large scale automatic generation of personalized annotation tags for the web
CN106547864B (zh) 一种基于查询扩展的个性化信息检索方法
JP2010009577A (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
WO2021196541A1 (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
Tagarelli et al. Toward semantic XML clustering
WO2016015267A1 (en) Rank aggregation based on markov model
Khode et al. A literature review on patent information retrieval techniques
Al-Shboul et al. Query phrase expansion using wikipedia in patent class search
Wang et al. A semantic query expansion-based patent retrieval approach
Ramya et al. DRDLC: discovering relevant documents using latent dirichlet allocation and cosine similarity
Sutanto et al. The ranking based constrained document clustering method and its application to social event detection
Zhou et al. Web search personalization using social data
Zhang Start small, build complete: Effective and efficient semantic table interpretation using tableminer
Mei et al. Semantic annotation of frequent patterns
Li et al. Complex query recognition based on dynamic learning mechanism
Wu et al. A new approach to query segmentation for relevance ranking in web search
Popova et al. Keyphrase extraction using extended list of stop words with automated updating of stop words list
Zhang et al. A preprocessing framework and approach for web applications
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
Jabri et al. Improving retrieval performance based on query expansion with wikipedia and text mining technique

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110920

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20111014

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111014

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20111014

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees