JP4857448B2

JP4857448B2 - 多義語による情報検索装置及びプログラム

Info

Publication number: JP4857448B2
Application number: JP2006065291A
Authority: JP
Inventors: 真樹村田; 晃一土井; 智裕三森; 安志福田
Original assignee: National Institute of Information and Communications Technology; Sony Corp
Current assignee: National Institute of Information and Communications Technology; Sony Corp
Priority date: 2006-03-10
Filing date: 2006-03-10
Publication date: 2012-01-18
Anticipated expiration: 2026-03-10
Also published as: JP2007241794A; WO2007105642A1; CN101405725A

Description

本発明は、言葉の多義性を考慮した検索を行う多義語による情報検索装置及びプログラムに関する。例えば、「ＷＩＮＳ」という語は、コンピュータ用語と、競馬の用語の二つがある。「ＷＩＮＳ」とだけ入力して検索した場合は、コンピュータ用語に関連した検索結果と、競馬の用語に関連する検索結果が混ざって出力される。もし、ユーザがコンピュータ用語に関連する記事だけの検索結果を欲しい場合は、上記の検索結果では不便であるので、この問題を解決する必要がある。

従来、検索のためのキーワードを与えて情報検索を行う技術はあった（非特許文献１参照）。しかし、検索の段階で、単語の多義を考慮した入力ができないものであった。
"位置情報と分野情報を用いた情報検索"村田真樹，馬青，内元清貴，小作浩美，内山将夫，井佐原均，自然言語処理（言語処理学会誌） 2000 年 4月，7 巻，2 号, p.141 〜 p.160

上記従来のキーワードを与えて情報検索を行う技術は、検索の段階で、単語の多義を考慮した入力ができなかったので、不必要な情報を検索して出力することがあった。

本発明は上記問題点の解決を図り、言葉の多義性を考慮した検索を行い、必要な情報のみを検索（出力）することを目的とする。

図１は本発明の多義語による情報検索装置の説明図である。図１中、１は入力部（入力手段）、２は検索抽出部（検索抽出手段）、４はデータベース（格納手段）、５は出力部（出力手段）である。

本発明は、前記従来の課題を解決するため次のような手段を有する。

（１）：キーワードと分野を入力する入力手段１と、各分野の記事を格納するデータベース４と、前記入力したキーワードと分野を含む記事を前記データベース４から抽出し、該抽出した記事群に偏って出現する単語群Ａを抽出し、前記入力したキーワードを含む記事の中で前記単語群Ａを多く含む記事から順に出力する検索抽出手段２とを備える。このため、多義語によるキーワードを使用して入力した分野の記事を検索することができる。

（２）：キーワードと分野を入力する入力手段１と、各分野の記事を格納するデータベース４と、前記入力したキーワードと分野を両方含む記事を前記データベース４から抽出し、該抽出した記事群Ｂの類似記事を抽出し、該抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する検索抽出手段２とを備える。このため、多義語によるキーワードを使用して入力した分野の記事を検索することができる。

（３）：前記（２）の多義語による情報検索装置において、前記検索抽出手段２は、前記抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する場合、前記記事群Ｂとの類似度が高い記事から順に出力する。このため、多義語によるキーワードを使用して入力した分野の記事を確実に検索することができる。

（４）：キーワードを入力する入力手段１と、各分野の記事を格納するデータベース４と、前記入力したキーワードを含む記事を前記データベース４から抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出する検索抽出手段２と、前記各クラスターで偏って出現する表現を選択する問い合わせ手段とを備え、前記検索抽出手段２は、前記問い合わせ手段で選択された表現のクラスターの記事を出力する。このため、キーワードのみを入力してほしい分野の記事を容易に検索することができる。

（５）：前記（１）〜（３）の多義語による情報検索装置において、前記入力手段１にキーワードを入力し、前記検索抽出手段２で前記入力したキーワードを含む記事を前記データベース４から抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出し、前記各クラスターで偏って出現する表現を選択する問い合わせ手段を備え、前記問い合わせ手段で選択された表現を前記入力手段１に入力される分野として用いる。このため、キーワードを入力して、ほしい分野の記事を容易に検索することができる。

（６）：キーワードと分野を入力する入力手段１と、各分野の記事を格納するデータベース４と、前記入力したキーワードと分野を含む記事を前記データベース４から抽出し、該抽出した記事群に偏って出現する単語群Ａを抽出し、前記入力したキーワードを含む記事の中で前記単語群Ａを多く含む記事から順に出力する検索抽出手段２として、コンピュータを機能させるためのプログラムとする。このため、このプログラムをコンピュータにインストールすることで、多義語によるキーワードを使用して入力した分野の記事を検索することができる多義語による情報検索装置を容易に提供することができる。

（７）：キーワードと分野を入力する入力手段１と、各分野の記事を格納するデータベース４と、前記入力したキーワードと分野を両方含む記事を前記データベース４から抽出し、該抽出した記事群Ｂの類似記事を抽出し、該抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する検索抽出手段２として、コンピュータを機能させるためのプログラムとする。このため、このプログラムをコンピュータにインストールすることで、多義語によるキーワードを使用して入力した分野の記事を検索することができる多義語による情報検索装置を容易に提供することができる。

（８）：キーワードを入力する入力手段１と、各分野の記事を格納するデータベース４と、前記入力したキーワードを含む記事を前記データベース４から抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出する検索抽出手段２と、前記各クラスターで偏って出現する表現を選択する問い合わせ手段と、前記問い合わせ手段で選択された表現のクラスターの記事を出力する前記検索抽出手段２として、コンピュータを機能させるためのプログラムとする。このため、このプログラムをコンピュータにインストールすることで、キーワードのみを入力してほしい分野の記事を容易に検索することができる多義語による情報検索装置を容易に提供することができる。

本発明によれば次のような効果がある。

（１）：検索抽出手段で、入力したキーワードと分野を含む記事をデータベースから抽出し、該抽出した記事群に偏って出現する単語群Ａを抽出し、前記入力したキーワードを含む記事の中で前記単語群Ａを多く含む記事から順に出力するため、多義語によるキーワードを使用して入力した分野の記事を検索することができる。

（２）：検索抽出手段で、入力したキーワードと分野を両方含む記事をデータベース４から抽出し、該抽出した記事群Ｂの類似記事を抽出し、該抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力するため、多義語によるキーワードを使用して入力した分野の記事を検索することができる。

（３）：検索抽出手段で、抽出した類似記事において、入力したキーワードを含む記事のみを抽出して出力する場合、記事群Ｂとの類似度が高い記事から順に出力するため、多義語によるキーワードを使用して入力した分野の記事を確実に検索することができる。

（４）：検索抽出手段で、入力したキーワードを含む記事をデータベースから抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出し、問い合わせ手段で、前記各クラスターで偏って出現する表現を選択し、前記検索抽出手段で、前記問い合わせ手段で選択された表現のクラスターの記事を出力するため、キーワードのみを入力してほしい分野の記事を容易に検索することができる。

（５）：検索抽出手段で入力したキーワードを含む記事をデータベースから抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出し、問い合わせ手段で前記各クラスターで偏って出現する表現を選択し、前記問い合わせ手段で選択された表現を前記入力手段に入力される分野として用いるため、キーワードを入力して、ほしい分野の記事を容易に検索することができる。

本発明の多義語による情報検索装置は、情報検索において言葉の多義性を考慮した検索をするものである。例えば、「ＷＩＮＳ」という語は、コンピュータ用語と、競馬の用語の二つがある。「ＷＩＮＳ」とだけ入力して検索した場合は、コンピュータ用語に関連した検索結果と、競馬の用語に関連する検索結果が混ざって出力される。もし、ユーザがコンピュータ用語に関連する記事だけの検索結果を欲しい場合は、以下で説明する解決法（解決方法１〜３）で解決することができる。

（１）：多義語による情報検索装置の説明
図１は多義語による情報検索装置の説明図である。図１において、多義語による情報検索装置（システム）には、入力部（入力手段）１、検索抽出部（検索抽出手段）２、データベース（格納手段）４、出力部（出力手段）５が設けてある。

入力部１は、キーワード等の情報を入力する入力手段である。検索抽出部２は、単語の抽出、検索処理等を行う検索抽出手段である。データベース４は、情報を格納する格納手段（Ｗｅｂ等の情報も含む）である。出力部５は、表示や印刷を行なって情報を出力する出力手段である。

（２）：多義語による情報検索の説明１（解決法１）
ユーザが入力する形態を「キーワード（分野）」のように分野を指定して入力できるようにする。例えば、先の例だと、「ＷＩＮＳ（コンピュータ）」と入力する。

この入力がなされると、まず、「ＷＩＮＳ」を含む記事を抽出する。そして、その記事群の中で、コンピュータを含む記事を抽出する。「ＷＩＮＳ」を含む記事群の中で、コンピュータを含む記事群に偏って出現する単語群Ａを抽出する。「ＷＩＮＳ」を含む記事の中で単語群Ａをより多く含む記事から順に出力する。単語群Ａはコンピュータ関連の分野の記事に多く出現する表現で、そういう表現が多く出現する記事は、コンピュータ関連の分野の記事と予想される。そういう記事を出力することで問題を解決する。

（フローチャートによる説明）
図２は多義語による情報検索のフローチャート（１）である。以下、図２の処理Ｓ１〜Ｓ５に従って、多義語による情報検索（解決法１）の説明をする。

Ｓ１：入力部１により、ユーザがキーワードを分野を指定して入力し、処理Ｓ２に移る。

Ｓ２：検索抽出部２は、データベース４から入力したキーワードを含む記事を抽出し、処理Ｓ３に移る。

Ｓ３：検索抽出部２は、抽出した記事群の中で、指定した分野を含む記事を抽出し、処理Ｓ４に移る。

Ｓ４：検索抽出部２は、入力したキーワードを含む記事群の中で、指定した分野を含む記事群に偏って出現する単語群Ａを抽出し、処理Ｓ５に移る。

Ｓ５：検索抽出部２は、入力したキーワードを含む記事の中で単語群Ａをより多く含む記事から順に出力部５に出力する。

ａ）ある記事群Ｂに偏って出現する単語群Ａの抽出方法の説明１（解決法１）
例えば、コンピュータを含む記事群に偏って出現する単語群Ａを、抽出するときなどに使うことができる。記事群Ｂを包含する、よりも大きい記事群をＣとする。ここで記事群Ｃはデータベース全体でもいいし、一部でもよい。上述の解決法１にしたがえば、Ｃは「ＷＩＮＳ」を含む記事群となる。

ただし、上述の解決法１も他の方法がありえて、「ＷＩＮＳ」を含む記事群の中で、コンピュータを含む記事群に偏って出現する単語群Ａを取り出すのではなく、データベース全体の記事群の中で、コンピュータを含む記事群に偏って出現する単語群Ａを取り出し、その取り出した単語群Ａを利用して処理してもよい。その場合はＣはデータベース全体となる。

先ず、Ｃ中のＡの出現率とＢ中のＡの出現率を求める。
Ｃ中のＡの出現率＝Ｃ中のＡの出現回数／Ｃ中の単語総数
Ｂ中のＡの出現率＝Ｂ中のＡの出現回数／Ｂ中の単語総数
次に、Ｂ中のＡの出現率／Ｃ中のＡの出現率
を求めてこの値が大きいものほど、記事群Ｂに偏って出現する単語とする。

ｂ）ある記事群Ｂに偏って出現する単語群Ａの抽出方法の説明２
（有意差検定を利用する説明）
・二項検定の場合の説明
ＡのＣでの出現数をＮとする。ＡのＢでの出現数をＮ１とする。
Ｎ２＝Ｎ−Ｎ１とする。

ＡがＣに現れたときにそれがＢ中に現れる確率を0.5 と仮定して、Ｎの総出現のうち、Ｎ２回以下、ＡがＣに出現してＢに出現しなかった確率を求める。

この確率は、
P1 =Σ C(N1+N2,x) * 0.5 ＾(x) * 0.5 ＾(N1+N2-x)
（ただし、Σは、x = 0 から x = N2 の和）
（ただし、C(A,B)は、Ａ個の異なったものからＢ個のものを取り出す場合の数)
（ただし、＾は、指数を意味する）
で表され、この確率の値が十分小さければ、Ｎ１とＮ２は等価な確率でない、すなわち、Ｎ１がＮ２に比べて有意に大きいことと判断できる。

５％検定なら
P1が５％よりも小さいこと、１０％検定ならP1が１０％よりも小さいこと、が有意に大きいかどうかの判断基準になる。

Ｎ１がＮ２に比べて有意に大きいと判断されたものを記事群Ｂに偏って出現する単語とする。また、P1が小さいものほど、記事群Ｂによく偏って出現する単語とする。

・カイ二乗検定の場合の説明
Ｂ中のＡの出現回数をＮ１、Ｂ中の単語の総出現数をＦ１、
ＣにあってＢにない、Ａの出現回数をＮ２、
ＣにあってＢにない、単語の総出現数をＦ２とする。

Ｎ＝Ｎ１＋Ｎ２として、
カイ二乗値 = (N * (F1 * (N2 - F2) - (N1 - F1) * F2 )＾2 )/((F1 + F2)*(N - (F1 + F2)) * N1 * N2)
を求める。

そして、このカイ二乗値が大きいほどＲ１とＲ２は有意差があると言え、カイ二乗値が 3.84 よりも大きいとき危険率５％の有意差があると言え、カイ二乗値が 6.63 よりも大きいとき危険率１％の有意差があると言える。

N1 > N2 でかつ、カイ二乗値が大きいものほど、記事群Ｂによく偏って出現する単語とする。

・比の検定、正確に言うと、比率の差の検定の説明
p = (F1+F2)/(N1+N2)
p1 = R1
p2 = R2
として、
Z = ｜ p1 - p2｜ / sqrt ( p * (1 - p) * (1/N1 + 1/N2) )
を求め、（ただし sqrt はルートを意味する) そして、Z が大きいほど、Ｒ１とＲ２は有意差があると言え、Ｚが 1.96 よりも大きいとき危険率５％の有意差があると言え、Ｚが 2.58 よりも大きいとき危険率１％の有意差があると言える。
N1 > N2 で、かつ、Ｚが大きいものほど、記事群Ｂによく偏って出現する単語とする。

これら三つの検定の方法と、先の単純に、Ｂ中のＡの出現率／Ｃ中のＡの出現率を求めて判定する方法を組み合わせてもよい。

例えば、危険率５％以上有意差があるもののうち、Ｂ中のＡの出現率／Ｃ中のＡの出現率、の値が大きいものほど記事群Ｂによく偏って出現する単語とする。

ｃ）単語群Ａをより多く含む記事の抽出方法の説明（解決法１）
情報検索の基礎知識として以下の式がある。ここで、Score(D)が大きいものを取る。

(1) 基本的な方法 (TF・IDF 法) の説明
score(D) = Σ ( tf(w,D) * log(N/df(w)) )
w ∈W で加算
Ｗはユーザーが入力するキーワードの集合
tf(w,D)は文書Ｄでのｗの出現回数
df(w)は全文書でＷが出現した文書の数
Ｎは文書の総数
score(D) が高い文書を検索結果として出力する。

(2) Robertson らの Okapi weightingの説明
（文献）
村田真樹，馬青，内元清貴，小作浩美，内山将夫，井佐原均“位置情報と分野情報を用いた情報検索”自然言語処理（言語処理学会誌) 2000年 4月，7 巻，2 号, p.141 〜 p.160
の (1)式、が性能がよいことが知られている。これの式(1) のΣで積を取る前の tf 項とidf 項の積が Okapiのウェイティング法になって、この値を単語の重みに使う。

Okapi の式なら
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w ∈W で加算
lengthは記事Ｄの長さ、delta は記事の長さの平均、
記事の長さは、記事のバイト数、また、記事に含まれる単語数などを使う。

さらに、以下の情報検索を行うこともできる。
（Okapi の参考文献） S. E. Robertson, S. Walker, S. Jones, M. M. Hancock-Beaulieu, and M. Gatford Okapi at TREC-3, TREC-3, 1994
（SMART の参考文献）
Amit Singhal AT&T at TREC-6, TREC-6, 1997
より高度な情報検索の方法として、tf・idf を使うだけの式でなく、これらの Okapiや SMARTの式を用いてもよい。

これらの方法では、tf・idf だけでなく、記事の長さなども利用して、より高精度な情報検索を行うことができる。

今回の、単語群Ａをより多く含む記事の抽出方法では、さらに、Rocchio's formula を使うことができる。

（文献）
"J. J. Rocchio", "Relevance feedback in information retrieval","The SMART retrieval System", "Edited by G. Salton", "Prentice Hall, Inc.","page 313-323", 1971
この方法は、log(N/df(w))のかわりに、
｛E(t) + k＿af * (RatioC(t) - RatioD(t))｝ *log(N/df(w))
を使う。

E(t) = 1 (元の検索にあったキーワード)
= 0 (それ以外)
RatioC(t) は記事群Ｂでのt の出現率
RatioD(t) は記事群Ｃでのt の出現率
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど、単語群Ａをより多く含む記事として取り出すものである。

score(D)のΣの加算の際に足す単語ｗの集合Ｗは、元のキーワードと、単語群Ａの両方とする。ただし、元のキーワードと、単語群Ａは重ならないようにする。

また、他の方法として、score(D)のΣの加算の際に足す。単語ｗの集合Ｗは、単語群Ａのみとする。ただし、元のキーワードと、単語群Ａは重ならないようにする。

ここでは roccio の式で複雑な方法をとったが、単純に、単語群Ａの単語の出現回数の和が大きいものほど、単語群Ａをより多く含む記事として取り出すようにしてもよいし、また、単語群Ａの出現の異なりの大きいものほど、単語群Ａをより多く含む記事として取り出すようにしてもよい。

（３）：多義語による情報検索の説明２（解決法２）
ユーザが入力する形態を「キーワード（分野）」のように分野を指定して入力できるようにする。例えば、先の例だと、「ＷＩＮＳ（コンピュータ）」と入力する。この入力がなされると、まず、「ＷＩＮＳ」とコンピュータの両方を含む記事を抽出する。そして、その記事群Ｂの類似記事を抽出する。その類似記事において、「ＷＩＮＳ」を含む記事のみを抽出し、それを検索結果として出力する。このとき記事群Ｂとの類似度が高い記事から出力する。これも、コンピュータ関連の分野の記事を抽出できるものと思われる。

（フローチャートによる説明）
図３は多義語による情報検索のフローチャート（２）である。以下、図３の処理Ｓ１１〜Ｓ１４に従って、多義語による情報検索（解決法２）の説明をする。

Ｓ１１：入力部１により、ユーザがキーワードを分野を指定して入力し、処理Ｓ１２に移る。

Ｓ１２：検索抽出部２は、データベース４から入力したキーワードと分野を両方含む記事を抽出し、処理Ｓ１３に移る。

Ｓ１３：検索抽出部２は、抽出した記事群Ｂの類似記事を抽出し、処理Ｓ１４に移る。

Ｓ１４：検索抽出部２は、抽出した類似記事において、入力したキーワードを含む記事のみを抽出し、それを検索結果として出力する。このとき記事群Ｂとの類似度が高い記事から出力部５に出力する。

ａ）記事群Ｂの類似記事を抽出する方法の説明 (解決法２）
記事同士の類似度を定義する。この類似度は、tf・idf や okapiや smartを使うとよい。tf・idf や okapiや smartなどにおける、記事Ｄとクエリを比較する二つの記事ｘとｙとするとしてよい。そして、ｘ、ｙの両方に含まれる単語をｗとするとよい。

各単語を次元と、各単語のスコアを要素とするベクトルを作成し、記事ｘのベクトルを記事ｘに含まれる単語を使ってベクトル(vector ＿x)にし、また、記事ｙのベクトルを記事ｙに含まれる単語を使ってベクトル(vector ＿y)にし、それらベクトルの余弦(cos(vector ＿x,vector＿y)) の値を記事の類似度としてもよい。各単語のスコアの算出には、tf・idf やokapi やsmart を用いるとよい。それらの式のΣの後ろの部分の式がスコアの算出の式となる。その式の値が各単語のスコアとなる。

tf・idf だと tf(w,D) * log(N/df(w))
okapi だと tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w))
がその式となる。

また、単語群Ａをより多く含む記事の抽出においてもこのベクトルの余弦(cos(vector ＿x,vector＿y)) の値を求め、この値が大きい記事ほど単語群Ａをより多く含む記事と判断してもよい。この場合は、単語群Ａに含まれる単語を使ってベクトル(vector ＿x)にし、記事に含まれる単語を使ってベクトル(vector ＿y)にして求める。

記事群Ｂと記事ｘの類似度には、次の方法などがある。
・記事群Ｂのうち記事ｘと最も類似する記事と、記事ｘの類似度をその類似度とする方法
・記事群Ｂのうち記事ｘと最も類似しない記事と、記事ｘの類似度をその類似度とする方法
・記事群Ｂのすべての記事と記事ｘの類似度の平均をその類似度とする方法
他の方法でもよいが、このようにして、記事群Ｂと記事ｘの類似度を求めて、その類似度が大きいものを類似記事として取り出すことができる。

なお、他の方法としては、記事群Ｂに偏って出現する単語を先の方法で取り出し、そして、その単語も利用して、Rocchio's formula に基づく Score(D) を計算し、Score(D)の大きいものを類似記事として取り出してもよい。

（４）：多義語による情報検索の説明３（解決法３）
ユーザは「キーワード」のみを入力する。例えば、先の例だと、「ＷＩＮＳ」が入力される。この入力がなされると、まず、「ＷＩＮＳ」を含む記事を抽出する。そして、その記事群をクラスタリングする。各クラスターで偏って出現する表現を抽出する。例えば、二つのクラスターに分割され、それぞれのクラスターに偏って出現する表現が、それぞれ、「コンピュータ」と「競馬」であったとする。その場合は、ユーザに、「コンピュータ」と「競馬」のどちらに関連するかの問い合わせをする。そして、ユーザはこのいずれかを選択する。選択されたあとは、選択された表現を入力の「分野」として上記解決法１、２と同様に処理するか、もしくは、選択されたクラスターを検索結果として出力する。

（問い合わせ部を備える多義語による情報検索装置の説明）
図４は問い合わせ部を備える多義語による情報検索装置の説明図である。図４において、問い合わせ部を備える多義語による情報検索装置（システム）には、入力部（入力手段）１、検索抽出部（検索抽出手段）２、問い合わせ部（問い合わせ手段）３、データベース（格納手段）４、出力部（出力手段）５が設けてある。

入力部１は、キーワード等の情報を入力する入力手段である。検索抽出部２は、単語の抽出、検索処理等を行う検索抽出手段である。問い合わせ部３は、クラスターに偏って出現する表現（技術分野等）をユーザに問い合わせ、ユーザが選択を行う問い合わせ手段である。データベース４は、情報を格納する格納手段である。出力部５は、表示や印刷を行なって情報を出力する出力手段である。

（フローチャートによる説明）
図５は多義語による情報検索のフローチャート（３）である。以下、図５の処理Ｓ２１〜Ｓ２６に従って、問い合わせ部を備える多義語による情報検索（解決法３）の説明をする。

Ｓ２１：入力部１により、ユーザがキーワードのみを入力し、処理Ｓ２２に移る。

Ｓ２２：検索抽出部２は、データベース４から入力したキーワードを含む記事を抽出し、処理Ｓ２３に移る。

Ｓ２３：検索抽出部２は、抽出した記事群をクラスタリングし、処理Ｓ２４に移る。

Ｓ２４：検索抽出部２は、各クラスターで偏って出現する表現を抽出し、処理Ｓ２５に移る。

Ｓ２５：問い合わせ部３は、各クラスターで偏って出現する表現の選択をするように、ユーザに問い合わせ、処理Ｓ２６に移る。

Ｓ２６：検索抽出部２は、選択されたクラスターの記事を出力部５に出力する。

ａ）クラスタリングの説明（解決法３）
クラスタリングにはさまざまな方法がある。一般的なものを以下に記述する。

（階層クラスタリング（ボトムアップクラスタリング）の説明）
最も近い成員同士をくっつけていき、クラスターを作る。クラスターとクラスター同士も（クラスターと成員同士も）、最も近いクラスター同士をくっつける。
クラスター間の距離の定義は様々あるので以下に説明する。

・クラスターＡとクラスターＢの距離を、クラスターＡの成員とクラスターＢの成員の距離の中で最も小さいものをその距離とする方法
・クラスターＡとクラスターＢの距離を、クラスターＡの成員とクラスターＢの成員の距離の中で最も大きいものをその距離とする方法
・クラスターＡとクラスターＢの距離を、すべてのクラスターＡの成員とクラスターＢの成員の距離の平均をその距離とする方法
・クラスターＡとクラスターＢの距離を、すべてのクラスターＡの成員の位置の平均をそのクラスターの位置とし、すべてのクラスターＢの成員の位置の平均をそのクラスターの位置とし、その位置同士の距離の平均をその距離とする方法

・ウォード法と呼ばれる方法もある。以下、ウォード法の説明をする。
W = Σ Σ (x(i,j) - ave ＿x(i)) ＾ 2
＾は指数を意味する。

一つ目のΣは i=1からi=g までの加算
二つ目のΣは j=1からj=niまでの加算
x(i,j)は i番目のクラスターの j番目の成員の位置
ave ＿x(i)は i番目のクラスターのすべての成員の位置の平均
クラスター同士をくっつけていくと、Ｗの値が増加するが、ウォード法では、Ｗの値がなるべく大きくならないようにクラスター同士をくっつけていく。

成員の位置は、記事から単語を取り出し、その単語の種類をベクトルの次元とし、各単語のベクトルの要素の値を、単語の頻度やその単語のtf・idf （すなわち、tf(w,D) * log(N/df(w))) 、その単語のOkapi の式 (すなわち、 tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w))) としたベクトルを作成し、それをその成員の位置とする。

（トップダウンクラスタリング（非階層クラスタリング）の説明）
以下、トップダウンのクラスタリング（非階層クラスタリング）の方法を説明する。

（最大距離アルゴリズムの説明）
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのクラスターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成員の距離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これを繰り返す。あらかじめ定めた数のクラスターになったときに、繰り返しをやめる。また、クラスター間の距離があらかじめ定めた数以下になると繰り返しをやめる。また、クラスターの良さをＡＩＣ情報量基準などで評価してその値を利用して繰り返しをやめる方法もある。各成員は、最も近いクラスター中心の成員となる。

（Ｋ平均法の説明）
あらかじめ定めた個数ｋ個にクラスタリングすることを考える。ｋ個成員をランダムに選ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。クラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのクラスターの中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなると繰り返しをやめる。又は、あらかじめ定めた回数だけ繰り返してやめる。その最終的なクラスター中心のときのクラスター中心を使ってクラスターを求める。各成員は最も近いクラスター中心の成員となる。

このようにして、クラスタリングをする。クラスタリングの方法は、これら以外にもたくさんあるので、それらを利用してもよい。

ｂ）各クラスターに偏って出現する表現の抽出の説明 (解決法３）
「ある記事群Ｂに偏って出現する単語群Ａの抽出方法の説明１（解決法１）」と同様の方法で取り出すことが考えられ、そのようにしてもよい。

もっと単純には、各クラスターごとに、そのクラスターにしか出現しなかった単語を頻度順に並べて、各クラスターに偏って出現する表現として取り出しても良い。

（５）：複数のキーワードを用いる場合の説明
前記解決法１、２について、最初にあたえるキーワードは、「ＷＩＮＳ（コンピュータ) 」になっているが、ＡＢ（Ｂ’）Ｃ（Ｃ’）のように複数でもよい。これは、単語Ａと、単語Ｂ（ただし、分野Ｂ’の意味の場合の単語Ｂ）と、単語Ｃ（ただし、分野Ｃ’の意味の場合の単語Ｃ）のＡＮＤ検索を意味する。

ａ）解決法１による説明
これを解決法１で行う場合は、Ａ、Ｂ、Ｃを含む記事群Ｘを取り出す。次に、記事群ＸからＢ’、Ｃ’を含む記事群Ｘ’を取り出す。記事群Ｘのうち、記事群Ｘ’に偏って出現する単語群Ｙを取り出す。そして、記事群Ｘのうち、単語群Ｙを多く含む記事を取り出して出力する。

ｂ）解決法２による説明
これを解決法２で行う場合は、Ａ、Ｂ、Ｂ’、Ｃ、Ｃ’を含む記事群Ｘを取り出す。次に、記事群Ｘの類似記事を抽出する。類似記事においてＡ、Ｂ、Ｃを含む記事を取り出して出力する。

ｃ）解決法３による説明
解決法３でもできる。まず、Ａ、Ｂ、Ｃを入力する。次に、Ａ、Ｂ、Ｃを含む記事群を取り出す。クラスタリングして、各クラスターに偏って出現する単語Ｚを出力する。その単語をユーザーに選ばせて、選択された表現を入力の「分野」として上記解決法１、２と同様に処理するか、もしくは、選択されたクラスターを検索結果として出力することができる。

さらに、解決法３では、各クラスターに偏って出現する単語群Ｚを入力のＡ、Ｂ、Ｃと対応づけて示すとよい。

例えば、単語群Ｚが頻度順に Z1, Z2, Z3, ...としてあるとする。Z1, Z2, Z3, ... をＡ、Ｂ、Ｃとよく共起するものと近づけて示してもよい。

Z1がＡとよく共起し、Z2がＣとよく共起し、Z3がＢとよく共起する場合
クラスター１Ａ Z1 、Ｂ Z3 、Ｃ Z2
クラスター２
...
のように表示して、 Z1, Z2, Z3, .. をユーザーに選ばせたり。クラスターをユーザに選ばせる。なお、この表示は、入力キーワードと Z1, Z2, ...の関連がわかるものならば他の形態でもよい。

Z1がＡとよく共起するかどうかは、次のものがある。
・Z1とＡがともに出現する記事数が多いほど、よく共起するとするものとする。

・前述の偏りの認識の方法を使い、Z1を含む記事に、Ａがよく偏って出現すると判断された場合、よく共起するとするものとする。

・Z1とＡがともに出現する記事数をａ、Z1のみが出現する記事数をｂ、Ａのみが出現する記事数をｃ、全記事数をｄとして、
a
2a/(2a+b+c)
n(ad-bc)＾2/(a+b)/(c+d)/(a+c)/(b+d)
n(｜ad-bc ｜ -n/2)＾2/(a+b)/(c+d)/(a+c)/(b+d)
log (an/(a+b)/(a+c))
(ad -bc)/((a+c)(b+d)) ＾0.5
a log (an/(a+b)/(a+c)) + b log (bn/(a+b)/(b+d)) + c log (cn/(a+c)/(c+d)) + d log (dn/(b+d)/(c+d))
a/(bc+ad)
a/(ad-bc)
a/b/c
などの値が大きいものを (これらのうちどれかの式を用いる) よく共起するとするものとする。

など、Z1がＡとよく共起するかどうかは、いろいろある。
なお、前記の実施の形態では、「値が大きいものほど取り出す」と記載した処理は「値が閾値以上のものを取り出す」とすることができる。また、「値が大きいものを所定の値の個数以上のものを大きい順に取り出す」と記載した処理は「取り出されたものの値の最大値に対して所定の割合をかけた値を求め、その求めた値以上の値を持つものを取り出す」とすることができる。更に、これら閾値、所定の値を、あらかじめ定めることも、適宜ユーザが値を変更、設定できることも可能である。

（９）：プログラムインストールの説明
入力部（入力手段）１、検索抽出部（検索抽出手段）２、問い合わせ部（問い合わせ手段）３、データベース（格納手段）４、出力部（出力手段）５等は、プログラムで構成でき、主制御部（ＣＰＵ）が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータ（情報処理装置）で処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。

このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録（記憶）媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、ＬＡＮ等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。

本発明の多義語による情報検索装置の説明図である。本発明の多義語による情報検索のフローチャート（１）である。本発明の多義語による情報検索のフローチャート（２）である。本発明の問い合わせ部を備える多義語による情報検索装置の説明図である。本発明の多義語による情報検索のフローチャート（３）である。

符号の説明

１入力部（入力手段）
２検索抽出部（検索抽出手段）
４データベース（格納手段）
５出力部（出力手段）

Claims

キーワードと分野を入力する入力手段と、
各分野の記事を格納するデータベースと、
前記入力したキーワードと分野を両方含む記事を前記データベースから抽出し、該抽出した記事群Ｂの類似記事を抽出し、該抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する検索抽出手段とを備えることを特徴とした多義語による情報検索装置。
前記検索抽出手段は、前記抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する場合、前記記事群Ｂとの類似度が高い記事から順に出力することを特徴とした請求項１記載の多義語による情報検索装置。
前記入力手段にキーワードを入力し、前記検索抽出手段で前記入力したキーワードを含む記事を前記データベースから抽出し、該抽出した記事群をクラスタリングし、各クラスターで偏って出現する表現を抽出し、
前記各クラスターで偏って出現する表現を選択する問い合わせ手段を備え、
前記問い合わせ手段で選択された表現を前記入力手段に入力される分野として用いることを特徴とした請求項１又は２に記載の多義語による情報検索装置。
キーワードと分野を入力する入力手段と、
各分野の記事を格納するデータベースと、
前記入力したキーワードと分野を両方含む記事を前記データベースから抽出し、該抽出した記事群Ｂの類似記事を抽出し、該抽出した類似記事において、前記入力したキーワードを含む記事のみを抽出して出力する検索抽出手段として、
コンピュータを機能させるためのプログラム。