JP2001325293A - 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体 - Google Patents

全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体

Info

Publication number
JP2001325293A
JP2001325293A JP2000142121A JP2000142121A JP2001325293A JP 2001325293 A JP2001325293 A JP 2001325293A JP 2000142121 A JP2000142121 A JP 2000142121A JP 2000142121 A JP2000142121 A JP 2000142121A JP 2001325293 A JP2001325293 A JP 2001325293A
Authority
JP
Japan
Prior art keywords
document
search
index
word
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000142121A
Other languages
English (en)
Other versions
JP3578045B2 (ja
Inventor
Junji Tomita
準二 富田
Genichiro Kikui
玄一郎 菊井
Yoshihiko Hayashi
林  良彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000142121A priority Critical patent/JP3578045B2/ja
Publication of JP2001325293A publication Critical patent/JP2001325293A/ja
Application granted granted Critical
Publication of JP3578045B2 publication Critical patent/JP3578045B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索式と検索対象となるそれぞれの文書との
適合度を適切に計算し、適合度の降順に文書を並べて検
索結果とする全文検索を行う際に、フォーマットファイ
ルへの記述と検索式での指定という簡単な操作によっ
て、構造情報を適合度の計算に取り入れることができ、
かつ属性によるフィルタを実現できる全文検索方法及び
装置及び全文検索プログラムを格納した記憶媒体を提供
する。 【解決手段】 本発明は、それぞれの文書の構造のどの
部分に対応したインデックスを作成するのかをフィーマ
ットファイルまたは、構造化文書に記述し、フォーマッ
トファイルの記述に基づいて複数のインデックスファイ
ルを作成し、作成されたインデックスファイルのインデ
ックスのうち、1つまたは、複数のどのインデックスを
使用するのかを検索式で指定し、文書の構造情報を適合
度の計算に用いる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、全文検索方法及び
装置及び全文検索プログラムを格納した記憶媒体に係
り、特に、検索対象となる構造を持ったそれぞれの文書
(構造化文書)が検索式にどの程度合っているのかを表
す「適合度」という値を適切に計算することが可能な全
文検索方法及び装置及び全文検索プログラムを格納した
記憶媒体に関する。
【0002】
【従来の技術】従来の全文検索装置の構成について説明
する。
【0003】図7は、従来の全文検索装置の構成を示
す。同図に示す全文検索装置は、文書インデックス部1
0と検索実行部20から構成される。それぞれの機能は
以下の通りである。
【0004】文書インデックス部10は、以下の方法に
よりインデックスを作成する。
【0005】 検索対象となる文書(プレーンテキス
ト)の集合Nを検索対象文書データベース11から入力
する。
【0006】 それぞれの文書j∈Nに使用されてい
る単語iを抽出し、それぞれの単語iの重要度wijを計
算する。
【0007】 逆引きインデックス12を作成し、出
力する。ここで、逆引きインデックスとは、以下のキー
と値を持つテーブルである。
【0008】キー:単語i 値:単語iの出現する文書jのIDと、単語iの文書j
における重要度wijのペアの集合 ここで、逆引きインデックス12の例を図8に示す。例
えば、図8において、単語’言語’は、文書1、3、6
に出現し、それぞれの文書における’言語’の重要度は
0.3、0.3、0.8である。
【0009】検索実行部20は、以下の方法により検索
を行う。
【0010】 単語または、単語のブール演算子結合
によって記述される検索式qを入力する。
【0011】 文書インデックス部10の作成した逆
引きインデックス12から、検索式qに含まれるそれぞ
れの単語iの出現する文書集合と単語iのそれぞれの文
書jにおける重要度wijを取得する。
【0012】 検索式qに含まれるブール演算子と単
語の重要度wijを用いて、それぞれの文書jと検索式q
の適合度を計算する。
【0013】 適合度の降順に文書を並べて検索結果
とする。
【0014】例えば、文書インデックス部10によっ
て、検索対象文書から図8の逆引きインデックス12が
作成され、以下の検索式が与えられた場合の適合度の計
算方法を示す。
【0015】(言語 and 処理) or 知識 ここで、and,orの処理方法は、処理系によって異
なるが、ここでは、以下のように定める。
【0016】or−左右の評価値の和を取ったものを評
価値とする。
【0017】and−左右の評価値の小さい方を評価値
とする。
【0018】ここで、単語の場合は、重要度が評価値と
なり、検索式全体から得られた評価値が適合度となる。
また、重要度wijが逆引きインデックスに登録されてい
ない場合、単語iの文書jにおける重要度は“0”であ
る。
【0019】文書1の適合度は以下のように“0.4”
と求まる。
【0020】(言語‘0.3’and 処理‘0.
2”)or知識‘0.2’→(‘0.2’)or‘0.
2’→0.4 文書3の適合度は以下のように‘0”と求まる。 (言語‘0.3’and処理‘0”)or知識‘0’→
(‘0’)or‘0’→0 このように計算された適合度の降順に文書を並べ、上位
k(kは定数)件を検索結果とする。
【0021】
【発明が解決しようとする課題】しかしながら、上記従
来の全文検索装置で構造化文書を検索対象とする場合に
は、以下のような問題がある。
【0022】(1)文書の構造情報を反映した適合度計
算ができない。
【0023】近年、XML等、文書内にタグを用いて構
造を記述することが多くなってきている。構造を持った
文書の例を図9に示す。同図では、タグ(<TEXT>
−</TEXT>等)の入れ子によって構造が記述され
ている。
【0024】従来の全文検索装置では、入力は構造を持
たないプレーンテキストであると仮定していたるため、
文書が構造情報を持っている場合でも、これらの情報を
適切に適合度計算に取り入れることができない。例え
ば、タイトルという構造を考慮に入れた「文書のどこか
に‘人工知能’を含むもののうち、タイトルに‘学習’
を含む文書の適合度を高くしたい。」という検索要求に
答えることができない。
【0025】(2)文書に付けられた属性を用いたフィ
ルタが実現できない。
【0026】フィルタとは次のような検索要求を言う。 ‘UNIX(登録商標)’を含む文書で日本語のも
のだけを取り出したい。 ‘知識’を含む文書で著者が‘鈴木’の場合は、適
合度を高くしたい(ランキングを上位にしたい)。
【0027】それぞれ、の場合は「使用言語」、の
場合は「著書」という属性を用いたフィルタである。特
に、ここでは、のように結果に対して絞込を行うよう
なものを「and型フィルタ」、のように結果の適合
度を修正し、特定のもののランキングを上げる働きをす
るものを「or型フィルタ」と呼ぶ。
【0028】これらのフィルタは、従来の全文検索装置
に用いられている逆引きインデックスを用いて実現する
ことは困難である。そのため、フィルタが必要な場合
は、全文検索装置とは独立に、全く別のインデックスを
用意するか、文書全文を残しておき、検索時にこれらの
属性をいちいち走査する必要がある。
【0029】また、従来の技術には、構造化文書を対象
としたものとして、検索式に直接部分構造を記述すると
いう方法もある。しかし、この方法は、全文検索装置に
利用されるのではなく、対象となる1つの構造化文書の
中から検索式に記述された条件に合う部分の抽出等の目
的で利用されている。例えば、図9の構造化文書に対し
て、 検索式://DOC/AUTROR(<DOC> に入れ子になっている<AUT
RO> に囲まれた部分を抽出)で検索を行った場合、結果
として「鈴木 田中」が得られる。このように、この方
法は、検索式とそれぞれの構造化文書との適合度の計算
を行うという目的には利用できない。
【0030】本発明は、上記の点に鑑みなされたもの
で、検索式と検索対象となるそれぞれの文書との適合度
を適切に計算し、適合度の降順に文書を並べて検索結果
とする全文検索を行う際に、フォーマットファイルへの
記述と検索式での指定という簡単な操作によって、構造
情報を適合度の計算に取り入れることができ、かつ属性
によるフィルタを実現できる全文検索方法及び装置及び
全文検索プログラムを格納した記憶媒体を提供すること
を目的とする。
【0031】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。
【0032】本発明(請求項1)は、単語または、単語
のブール演算子結合からなる検索式に対して検索対象と
なる構造を持ったそれぞれの文書(構造化文書)がどの
程度合っているのかを表す「適合度」を計算し、適合度
の降順に文書を並べて検索結果とする全文検索方法にお
いて、それぞれの文書の構造のどの部分に対応したイン
デックスを作成するのかを構造化文書内の、または、独
立したフォーマットファイルに記述し(ステップ1)、
フォーマットファイルの記述に基づいて複数のインデッ
クスファイルを作成し(ステップ2)、作成されたイン
デックスファイルのインデックスのうち、1つまたは、
複数のどのインデックスを使用するのかを検索式で指定
し(ステップ3)、文書の構造情報を適合度の計算に用
いる。
【0033】本発明(請求項2)は、インデックスの対
象となる文書の部分構造を構造化文書内のまたは、独立
したフォーマットファイルに記述する際に、対象となる
文書の構造が入れ子になっている場合に、文書を解析
し、それぞれの構造を表す要素をノードとし、文書全体
を表す要素をルートノードとする木構造を作成し、フォ
ーマットファイルに、ルートノードからのパスを記述す
ることによって、文書の構造のどの部分をインデックス
対象とするのかを指定する。
【0034】本発明(請求項3)は、インデックスファ
イルを作成する際に、単語をキーとし、該単語が出現す
る文書IDと該単語の重要度のペアの集合を値とする逆
引きインデックスと、文書IDをキーとし、該文書に出
現する単語と該単語の重要度のペアの集合を値とする順
引きインデックスのいずれか、または、両方をフォーマ
ットの記述に基づいて作成し、該インデックスのそれぞ
れにインデックスIDを付与する。
【0035】本発明(請求項4)は、複数作成されたイ
ンデックスのうち、どのインデックスを使用するのか
を、それぞれのインデックスに付与されたインデックス
IDで検索式を指定する。
【0036】本発明(請求項5)は、インデックスファ
イルを用いて、単語、単語のブール演算子結合及びフィ
ルタ表現によって記述されている検索式と、検索対象と
なるそれぞれの文書のとの適合度を計算する際に、逆引
きインデックスを用いた検索を行い、順引きインデック
スを用いた検索を行う。
【0037】本発明(請求項6)は、順引きインデック
スを用いた検索を行う際に、取得した検索結果の中で、
適合度の高い上位の所定の件数の文書の中から、検索式
によって指定される条件にマッチする文書だけを取り出
し検索結果とする‘and型フィルタ’と、検索式によ
って指定される条件にマッチする文書の適合度を割増
し、再び修正された適合度の降順に文書を並べ替えて検
索結果とする‘or型フィルタ’とを用いる。
【0038】図2は、本発明の原理構成図である。
【0039】本発明(請求項7)は、単語または、単語
のブール演算子結合からなる検索式に対して検索対象と
なる構造を持ったそれぞれの文書(構造化文書)がどの
程度合っているのかを表す「適合度」を計算し、適合度
の降順に文書を並べて検索結果とする全文検索装置であ
って、それぞれの文書の構造のどの部分に対応したイン
デックスを作成するのかを構造化文書内の、または、独
立したフォーマットファイルに記述するフォーマットフ
ァイル作成手段300と、フォーマットファイル120
の記述に基づいて複数のインデックスファイル150を
作成する文書インデックス作成手段100と、作成され
たインデックスファイル150のインデックスのうち、
1つまたは、複数のどのインデックスを使用するのかを
検索式で指定し、文書の構造情報を適合度の計算に用い
る検索実行手段200とを有する。
【0040】本発明(請求項8)は、フォーマットファ
イル作成手段300において、インデックスの対象とな
る文書の部分構造を構造化文書内のまたは、独立したフ
ォーマットファイル120に記述する際に、対象となる
文書の構造が入れ子になっている場合に、文書を解析
し、それぞれの構造を表す要素をノードとし、文書全体
を表す要素をルートノードとする木構造を作成する手段
と、フォーマットファイル120に、ルートノードから
のパスを記述することによって、文書の構造のどの部分
をインデックス対象とするのかを指定する手段とを含
む。
【0041】本発明(請求項9)は、文書インデックス
作成手段100において、単語をキーとし、該単語が出
現する文書IDと該単語の重要度のペアの集合を値とす
る逆引きインデックスと、文書IDをキーとし、該文書
に出現する単語と該単語の重要度のペアの集合を値とす
る順引きインデックスのいずれか、または、両方を、フ
ォーマットファイル120の記述に基づいて作成し、該
インデックスのそれぞれにインデックスIDを付与する
手段を含む。
【0042】本発明(請求項10)は、検索実行手段2
00において、複数作成されたインデックスのうち、ど
のインデックスを使用するのかを、それぞれのインデッ
クスに付与されたインデックスIDで検索式を指定する
手段を含む。
【0043】本発明(請求項11)は、検索実行手段2
00において、インデックスファイル150を用いて、
単語、単語のブール演算子結合及びフィルタ表現によっ
て記述されている検索式と、検索対象となるそれぞれの
文書のとの適合度を計算する適合度計算手段を有し、適
合度計算手段は、逆引きインデックスを用いた検索を行
う通常検索手段と、順引きインデックスを用いた検索を
行うフィルタ検索手段とを含む。
【0044】本発明(請求項12)は、フィルタ検索手
段において、取得した検索結果の中で、適合度の高い上
位の所定の件数の文書の中から、検索式によって指定さ
れる条件にマッチする文書だけを取り出し検索結果とす
る‘and型フィルタ’と、検索式によって指定される
条件にマッチする文書の適合度を割増し、再び修正され
た適合度の降順に文書を並べ替えて検索結果とする‘o
r型フィルタ’とを用いる手段を含む。
【0045】本発明(請求項13)は、単語または、単
語のブール演算子結合からなる検索式に対して検索対象
となる構造を持ったそれぞれの文書(構造化文書)がど
の程度合っているのかを表す「適合度」を計算し、適合
度の降順に文書を並べて検索結果とする全文検索プログ
ラムを格納した記憶媒体であって、それぞれの文書の構
造のどの部分に対応したインデックスを作成するのかを
構造化文書内の、または、独立したフォーマットファイ
ルに記述するフォーマットファイル作成プロセスと、フ
ォーマットファイルの記述に基づいて複数のインデック
スファイルを作成する文書インデックス作成プロセス
と、作成されたインデックスファイルのインデックスの
うち、1つまたは、複数のどのインデックスを使用する
のかを検索式で指定し、文書の構造情報を適合度の計算
に用いる検索実行プロセスとを有する。
【0046】本発明(請求項14)は、フォーマットフ
ァイル作成プロセスにおいて、インデックスの対象とな
る文書の部分構造を構造化文書内のまたは、独立したフ
ォーマットファイルに記述する際に、対象となる文書の
構造が入れ子になっている場合に、文書を解析し、それ
ぞれの構造を表す要素をノードとし、文書全体を表す要
素をルートノードとする木構造を作成するプロセスと、
フォーマットファイルに、ルートノードからのパスを記
述することによって、文書の構造のどの部分をインデッ
クス対象とするのかを指定するプロセスとを含む。
【0047】本発明(請求項15)は、文書インデック
ス作成プロセスにおいて、単語をキーとし、該単語が出
現する文書IDと該単語の重要度のペアの集合を値とす
る逆引きインデックスと、文書IDをキーとし、該文書
に出現する単語と該単語の重要度のペアの集合を値とす
る順引きインデックスのいずれかまたは、両方を、フォ
ーマットファイルの記述に基づいて作成し、該インデッ
クスのそれぞれにインデックスIDを付与するプロセス
を含む。
【0048】本発明(請求項16)は、検索実行プロセ
スにおいて、複数作成されたインデックスのうち、どの
インデックスを使用するのかを、それぞれのインデック
スに付与されたインデックスIDで検索式を指定するプ
ロセスを含む。
【0049】本発明(請求項17)は、検索実行プロセ
スにおいて、インデックスファイルを用いて、単語、単
語のブール演算子結合及びフィルタ表現によって記述さ
れている検索式と、検索対象となるそれぞれの文書のと
の適合度を計算する適合度計算プロセスを有し、適合度
計算プロセスは、逆引きインデックスを用いた検索を行
う通常検索プロセスと、順引きインデックスを用いた検
索を行うフィルタ検索プロセスとを含む。
【0050】本発明(請求項18)は、フィルタ検索プ
ロセスにおいて、取得した検索結果の中で、適合度の高
い上位の所定の件数の文書の中から、検索式によって指
定される条件にマッチする文書だけを取り出し検索結果
とする‘and型フィルタ’と、検索式によって指定さ
れる条件にマッチする文書の適合度を割増し、再び修正
された適合度の降順に文書を並べ替えて検索結果とする
‘or型フィルタ’とを用いるプロセスを含む。上記の
ように、本発明は、検索式と検索対象となるそれぞれの
文書との適合度を適切に計算し、適合度の降順に文書を
並べて検索結果とする全文検索方法において、フォーマ
ットファイルへの記述と検索式での指定という簡単な操
作によって、構造情報を適合度の計算に取り入れること
が可能となる。また、属性によるフィルタを実現するこ
とが可能となる。
【0051】
【発明の実施の形態】図3は、本発明の全文検索装置の
構成を示す。同図に示す全文検索装置は、文書インデッ
クス部100と検索実行部200を有し、文書インデッ
クス部100には、検索対象文書データベース110と
フォーマットファイル120からのデータが入力され、
インデックスファイル群150が出力され、検索実行部
200は、インデックスファイル群150のファイル用
いて検索を行う。
【0052】インデックスファイル群150は、逆引き
インデックス151と順引きインデックス152があ
る。
【0053】最初に文書インデックス部100の動作に
ついて説明する。
【0054】 検索対象となる構造化文書の集合Nを
検索対象文書データベース110から入力する。それぞ
れの文書には、図9に示すような構造が文書内に記述さ
れているものとする。
【0055】 それぞれの文書j∈Nの構造を解析
し、構造木を作成する。構造木の例を図4に示す。図9
のようなタグの入れ子によって構造が記述されている場
合には、構造を解析すると図4のような木構造となる。
ここでは、このような構造を表す木を構造木と呼ぶ。構
造を持った文書から構造木を作成する方法は既存の技術
を用いるものとする。
【0056】 フォーマットファイル120に記述さ
れたインデックス対象の指定に基づき、構造木のどの部
分をインデックスするのかを決定する。フォーマットフ
ァイル120の記述形式は特に限定しないが、ここで
は、図5のように指定する。
【0057】インデックス対象の指定は、図5の(<FIE
LD_DEFINITION>-</FIELD _DEFINITION> )に記述され
ている。構造木のルートからのタグのパス(target_ta
g)によって文書構造のどの部分をインデックス対象とす
るのかを指定している。target_tagにおいて、‘//’
は、子孫、‘/ ’は直接の子を表す。
【0058】例えば、図5の<FIELD_DEFINITION> の1
行目の terget_tag=“//SECTION/SPEC” 文書ルート(DOC)からの子孫として、‘SECTI
ON’があり、その直接の子‘SPEC’であるような
部分構造をインデックス対象とすることを表す。つま
り、図4における‘SPEC’以下の部分木を指定する
ものであり、元の文書における<SECTION> 〜</SECTION>
の間に入れ子になっている<SPEC>〜</SPEC>で囲まれた
部分をインデックスすることを表す。また、index _id
=“spec”は、以下に述べるどのインデックスファイル
に単語を登録するのかを指定する。
【0059】 フォーマットファイル120で記述さ
れたインデックス方法の指定に基づき、インデックスフ
ァイル群150を作成する。それぞれのインデックスフ
ァイル群150は、以下のいずれかである。
【0060】・逆引きインデックス(逆引きインデック
スファイル151):以下のキーと値を持つデーブルで
あり、従来の技術による逆引きインデックスと同じ形式
である。 キー:単語i 値:単語iが出現する文書jのIDと単語iの文書jに
おける重量度wijの集合 ・順引きインデックス(順引きインデックスファイル1
52):以下のキーと値を持つテーブルである。 ・キー:文書jのID ・値:文書jに出現する単語iと単語iの文書jにおけ
る重要度wijの集合 ここで、順引きインデックスの例を図6に示す。同図に
おいて、文書3には、単語‘言語’と‘学習’が含ま
れ、それぞれに重要度は、0.3,0.6である。
【0061】インデックス方法の指定は、図5のフォー
マットファイル120の<INDEX_FILE_DEFINITION> 〜
</INDEX _FILE_DEFINITION> に記述されている。
【0062】例えば、図5における<INDEX_FILE id=
“spec”type= “INVERTED”/>という記述は、‘spec”
というインデックスIDを持った、逆引きインデックス
を作成することを表し、<INDEX_FILE id=“lang’type
= “SEQUENTIAL”/>という記述は、langというインデッ
クスIDを持った、順引きインデックスを作成すること
を表す。これらのインデックスIDは、で述べたinde
x _idに対応する。
【0063】次に、検索実行部200の動作について説
明する。
【0064】検索実行部200は、インデックスファイ
ル群150を用いて、検索式(単語、単語のブール演算
子結合及びフィルタ表現によって記述される)と、検索
対象となるそれぞれの文書との適合度を計算する。「通
常検索」に続いて「フィルタ検索」を行うことによって
検索が行われる。ここで、通常検索は、基本的には従来
の全文検索技術を用いるが、本発明では、複数インデッ
クスの中から実際に使用するインデックスを検索式で指
定できる点が異なる。
【0065】ここで、本発明の検索実行部200におけ
る通常検索(逆引きインデックスを用いた検索)につい
て説明する。
【0066】 検索式に含まれるそれぞれの単語iを
キーとして、検索式で指定された逆引きインデックスを
引く。
【0067】 逆引きインデックスから取得した値か
ら、それぞれの単語iの出現する文書IDの集合と単語
iのそれぞれの文書jにおける重要度Wwijを得る。
【0068】 検索式に含まれるブール演算子を適切
に処理し、単語の重要度を用いて、それぞれの文書の
「通常検索適合度」を計算する。
【0069】 「通常検索適合度」の降順に文書を並
べる。
【0070】次に、検索実行部200におけるフィルタ
検索(順引きインデックスを用いた検索)について説明
する。
【0071】 「通常検索適合度」の上位k件の文書
の文書IDをそれぞれキーとして、検索式で指定された
順引きインデックスを引く。
【0072】 順引きインデックスから取得した値か
ら、それぞれの文書に出現する単語と単語の重要度の集
合を得る。
【0073】 検索式に含まれるブール演算子を適切
に処理し、単語の重要度を用いて、「フィルタ適合度」
を計算する。
【0074】 ‘and型フィルタ’が検索式で指定
された場合、で得られる「フィルタ適合度」が0の
時、その「文書全体の適合度」を0とする。‘or型フ
ィルタ’が検索式で指定された場合、で得られる「フ
ィルタ適合度」を「通常検索適合度」に加えたものを
「文書全体の適合度」とする。
【0075】次に、検索実行部200における通常検索
について説明する。
【0076】通常検索は、フィルタ検索が終わった後
で、「文書全体の適合度」の降順に文書を並べて検索結
果とする。以下に、構造情報の指定、通常検索、フィル
タ検索を用いた例を示す。
【0077】例1) 検索式(1): (UNIX and ti=(Network)) and _filter(lang=(japanes
e or english)) ここで、and _filterは、‘and 型フィルタ’を表し、
tiは、文書のタイトル部分を対象とした逆引きインデッ
クスのID、langは、文書の使用言語部分を対象とした
順引きインデックスのIDである。検索式(1)が与え
られたときの処理は次のようになる。
【0078】 デフォルトの逆引きインデックスに
‘UNIX’を含み、かつ、逆引きインデックスtiに
‘Network ’を含む文書集合を取得し、単語の重要度と
‘and’演算子を基にそれぞれの文書の「通常検索適合
度」を計算する。
【0079】 「通常検索適合度」の降順に文書をソ
ートし、上位k件のそれぞれの文書jに対して以下の処
理を行う。
【0080】文書jのIDをキーとして、インデックス
langを引き、その値に‘japanese’か‘english ’が存
在するかを調べる。存在した場合は、‘japanese’や
‘english ’の単語の重要度を用いて「フィルタの適合
度」を計算する。‘japanese’や‘english ’がインデ
ックスlangの値に含まれない文書の「フィルタ適合度」
は0になる。
【0081】‘and型フィルタ’が指定されているの
で、「フィルタの適合度」が0の文書の「文書全体の適
合度」は0、「フィルタ適合度」が正の文書の「文書全
体の適合度」は、「通常検索適合度」とする。
【0082】 最後に「文書全体の適合度」が正のも
のについて、この値の降順に文書を並べて検索結果とし
て出力する。
【0083】このように、検索式(1)を用いると、
「UNIXを含みかつタイトルにNetwork を含む文書
で、日本語か英語で記述された文書集合」が検索結果と
して得られる。
【0084】例2) 検索式(2): (UNIX or ti=(Network)) or _filter=(bold=(linux an
d solaris)) ここで、or_filterは、‘or型フィルタ’を表し、ti
は、文書タイトル部分を対象とした逆引きインデックス
のID,boldは、強調文字を対象とした順引きインデッ
クスのIDである。検索式(2)が与えられたときに処
理は次のようになる。
【0085】 前述の例1)と同様に、デフォルトの
逆引きインデックスに‘UNIXを含み、インデックス
tiにNetwork ’を含む文書を取得し、それぞれの単語に
付けられた重要度と‘or’演算子を基にそれぞれの文書
の「通常検索適合度」を計算する。
【0086】 「通常検索適合度」の降順に文書をソ
ートし、上位k件のそれぞれの文書jに対して以下の処
理を行う。
【0087】文書jのIDをキーとして、インデックス
boldを引き、その値に‘linux ’と‘solaris
(登録商標)’があるかを調べる。もしあった場合に
は、‘linux ’と‘solaris’の単語の重要度と‘and
’演算子を用いて「フィルタ適合度」を計算する。‘s
olaris ’と‘linux ’をインデックスboldの項目に共
に含まない文書の「フィルタ適合度」は0になる。
【0088】上記ので得られた「通常検索適合度」に
「フィルタ適合度」を加算したのを「文書全体の適合
度」とする。
【0089】 最後に「文書全体の適合」の降順に文
書を並べて検索結果として出力する。
【0090】このように、検索式(2)を用いると、
「‘UNIX’を含むか、または、タイトルに‘Networ
k ’を含む文書で、特に、‘solaris ’と‘linux ’を
共に強調した文書が検索結果の上位にランキングされる
文書集合」が検索結果として得られる。
【0091】
【実施例】以下に、実施例として、前述した問題をどの
ように解決するかを説明する。
【0092】(a)文書の構造情報を反映した適合度計
算ができないという問題の解決:本発明では、フォーマ
ットファイル120に文の構造情報を記述することによ
って、文書の構造のある特定の部分構造を対象としたイ
ンデックスファイル150を作成することができる。ま
た、このようなインデックスファイル150にIDを付
与し、このIDを検索式に記述することによって検索時
に適切なインデックスファイルを選択して適合度計算を
することができる。そのため、文書に含まれる構造を適
合度の計算に反映させることができる。
【0093】例えば、「文書のどこかに、‘人工知能’
を含むもののうち、タイトルに‘学習’を含む文書の適
度を特に高くしたい。」という検索要求に対しては、次
のように答えることができる。
【0094】 図5のフォーマットファイル120を
用いてインデックスファイル150を作成する。このと
き、テキスト部に加えてタイトル部分(TITLEタグ
で囲まれた部分)がインデックスtiとして作成される。
【0095】 以下の検索式を用いて検索を実行す
る。
【0096】人工知能 or ti=(学習) (b) 文書に付けられた属性を用いたフィルタが実現
できないという問題の解決:本発明では、フォーマット
ファイル120に属性を記述するという簡単な操作で、
文書構造のある特定の部分に対応した逆引きインデック
ス及び順引きインデックスを作成することができる。そ
して、‘and _filter’や、‘or_filter’を検索式で
指定することによって、逆引きインデックスを用いた検
索に加えて、順引きインデックスを用いた検索を行うこ
とができる。そのため、文書に付けられた属性を用いた
フィルタを容易に実現できる。例えば、‘and 型フィル
タ’を含む検索要求である 「‘UNIX’を含む文書で日本語のものだけを取り出
したい」には、次のようにして答えることができる。
【0097】 図5のフォーマットファイル120を
用いてインデックスファイル150を作成する。この
時、予め文書に付与された使用言語(<LANG>-</LANG>で
囲まれた部分) が順引きインデックスlangとして作成さ
れる。
【0098】 以下の‘and 型フィルタ’を含む検索
式を用いて検索を実行する。
【0099】UNIX and _filter=(lang=(japanese)) また、同様に、‘or型フィルタ’を含む検索要求であ
る「‘知識’を含む文書で著者が‘鈴木’の場合は、適
合度を高くしたい(ランキングを上位にしたい」には、
次にようにして答えることができる。
【0100】 図5のフォーマットファイル120を
用いてインデックスファイル150を作成する。この
時、予め文書に付与された著者情報(<AUTHOR>タグで囲
まれた部分) が順引きインデックスauthとして作成され
る。
【0101】 以下の‘or型フィルタ’を含む検索式
を用いて検索を実行する。
【0102】知識 or _filter=(auth=(鈴木)) また、上記の実施例では、フォーマットファイル120
を作成して、当該フォーマットファイル120の記述に
基づいてインデックスファイル150を作成する例を示
しているが、構造化文書中に、文書の構造のどの部分に
対応したインデックスを作成するのかを記述するように
してもよい。
【0103】また、上記の説明において、文書インデッ
クス部100と検索実行部200について述べたが、こ
れらの動作をプログラムとして構築し、全文検索装置と
して利用されるコンピュータに接続されるディスク装置
や、フロッピー(登録商標)ディスク、CD−ROM等
の可搬記憶媒体に格納しておき、本発明を実施する際に
インストールすることにより、容易に本発明を実現でき
る。
【0104】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内において、種々変更・応
用が可能である。
【0105】
【発明の効果】上述のように、本発明によれば、フォー
マットファイルにそれぞれの文書の構造のどの部分に対
応したインデックスを作成するのかを記述するという簡
単な操作によって、文書の構造情報とフィルタを利用し
た適切な適度度計算を行うことができ、全文検索システ
ムの利便性を向上させることができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の全文検索装置の構成図である。
【図4】本発明に用いられる構造木の例である。
【図5】本発明におけるフォーマットファイルの例であ
る。
【図6】本発明の順引きインデックスの例である。
【図7】従来の全文検索装置の構成図である。
【図8】従来の逆引きインデックスの例である。
【図9】構造化文書の例である。
【符号の説明】
100 文書インデックス作成手段、文書インデックス
部 110 検索対象文書データベース 120 フォーマットファイル 150 インデックスファイル群(インデックスファイ
ル) 151 逆引きファイル 152 順引きファイル 200 検索実行手段、検索実行部 300 フォーマットファイル作成手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 林 良彦 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B075 ND03 ND35 PP23 PQ02 PQ74 UU06

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 単語または、単語のブール演算子結合か
    らなる検索式に対して検索対象となる構造を持ったそれ
    ぞれの文書(構造化文書)がどの程度合っているのかを
    表す「適合度」を計算し、適合度の降順に文書を並べて
    検索結果とする全文検索方法において、 それぞれの文書の構造のどの部分に対応したインデック
    スを作成するのかを構造化文書内の、または、独立した
    フォーマットファイルに記述し、 前記フォーマットファイルの記述に基づいて複数のイン
    デックスファイルを作成し、 作成された前記インデックスファイルのインデックスの
    うち、1つまたは、複数のどのインデックスを使用する
    のかを検索式で指定し、文書の構造情報を適合度の計算
    に用いることを特徴とする全文検索方法。
  2. 【請求項2】 インデックスの対象となる文書の部分構
    造を前記構造化文書内のまたは、独立したフォーマット
    ファイルに記述する際に、対象となる文書の構造が入れ
    子になっている場合に、 前記文書を解析し、それぞれの構造を表す要素をノード
    とし、文書全体を表す要素をルートノードとする木構造
    を作成し、 前記フォーマットファイルに、前記ルートノードからの
    パスを記述することによって、文書の構造のどの部分を
    インデックス対象とするのかを指定する請求項1記載の
    全文検索方法。
  3. 【請求項3】 前記インデックスファイルを作成する際
    に、 単語をキーとし、該単語が出現する文書IDと該単語の
    重要度のペアの集合を値とする逆引きインデックスと、
    文書IDをキーとし、該文書に出現する単語と該単語の
    重要度のペアの集合を値とする順引きインデックスのい
    ずれか、または、両方を前記フォーマットの記述に基づ
    いて作成し、該インデックスのそれぞれにインデックス
    IDを付与する請求項1記載の全文検索方法。
  4. 【請求項4】 複数作成されたインデックスのうち、ど
    のインデックスを使用するのかを、それぞれのインデッ
    クスに付与されたインデックスIDで検索式を指定する
    請求項1記載の全文検索方法。
  5. 【請求項5】 前記インデックスファイルを用いて、単
    語、単語のブール演算子結合及びフィルタ表現によって
    記述されている検索式と、検索対象となるそれぞれの文
    書のとの適合度を計算する際に、 前記逆引きインデックスを用いた検索を行い、 前記順引きインデックスを用いた検索を行う請求項1記
    載の全文検索方法。
  6. 【請求項6】 前記順引きインデックスを用いた検索を
    行う際に、 取得した検索結果の中で、適合度の高い上位の所定の件
    数の文書の中から、前記検索式によって指定される条件
    にマッチする文書だけを取り出し検索結果とする‘an
    d型フィルタ’と、 検索式によって指定される条件にマッチする文書の適合
    度を割増し、再び修正された適合度の降順に文書を並べ
    替えて検索結果とする‘or型フィルタ’とを用いる請
    求項5記載の全文検索方法。
  7. 【請求項7】 単語または、単語のブール演算子結合か
    らなる検索式に対して検索対象となる構造を持ったそれ
    ぞれの文書(構造化文書)がどの程度合っているのかを
    表す「適合度」を計算し、適合度の降順に文書を並べて
    検索結果とする全文検索装置であって、 それぞれの文書の構造のどの部分に対応したインデック
    スを作成するのかを構造化文書内の、または、独立した
    フォーマットファイルに記述するフォーマットファイル
    作成手段と、 前記フォーマットファイルの記述に基づいて複数のイン
    デックスファイルを作成する文書インデックス作成手段
    と、 作成された前記インデックスファイルのインデックスの
    うち、1つまたは、複数のどのインデックスを使用する
    のかを検索式で指定し、文書の構造情報を適合度の計算
    に用いる検索実行手段とを有することを特徴とする全文
    検索装置。
  8. 【請求項8】 前記フォーマットファイル作成手段は、 インデックスの対象となる文書の部分構造を前記構造化
    文書内のまたは、独立したフォーマットファイルに記述
    する際に、対象となる文書の構造が入れ子になっている
    場合に、 前記文書を解析し、それぞれの構造を表す要素をノード
    とし、文書全体を表す要素をルートノードとする木構造
    を作成する手段と、 前記フォーマットファイルに、前記ルートノードからの
    パスを記述することによって、文書の構造のどの部分を
    インデックス対象とするのかを指定する手段とを含む請
    求項7記載の全文検索装置。
  9. 【請求項9】 前記文書インデックス作成手段は、 単語をキーとし、該単語が出現する文書IDと該単語の
    重要度のペアの集合を値とする逆引きインデックスと、
    文書IDをキーとし、該文書に出現する単語と該単語の
    重要度のペアの集合を値とする順引きインデックスのい
    ずれか、または、両方を、前記フォーマットファイルの
    記述に基づいて作成し、該インデックスのそれぞれにイ
    ンデックスIDを付与する手段を含む請求項7記載の全
    文検索装置。
  10. 【請求項10】 前記検索実行手段は、 前記複数作成されたインデックスのうち、どのインデッ
    クスを使用するのかを、それぞれのインデックスに付与
    されたインデックスIDで検索式を指定する手段を含む
    請求項7記載の全文検索装置。
  11. 【請求項11】 前記検索実行手段は、 前記インデックスファイルを用いて、単語、単語のブー
    ル演算子結合及びフィルタ表現によって記述されている
    検索式と、検索対象となるそれぞれの文書のとの適合度
    を計算する適合度計算手段を有し、 前記適合度計算手段は、 逆引きインデックスを用いた検索を行う通常検索手段
    と、 順引きインデックスを用いた検索を行うフィルタ検索手
    段とを含む請求項7記載の全文検索装置。
  12. 【請求項12】 前記フィルタ検索手段は、 取得した検索結果の中で、適合度の高い上位の所定の件
    数の文書の中から、前記検索式によって指定される条件
    にマッチする文書だけを取り出し検索結果とする‘an
    d型フィルタ’と、 検索式によって指定される条件にマッチする文書の適合
    度を割増し、再び修正された適合度の降順に文書を並べ
    替えて検索結果とする‘or型フィルタ’とを用いる手
    段を含む請求項11記載の全文検索装置。
  13. 【請求項13】 単語または、単語のブール演算子結合
    からなる検索式に対して検索対象となる構造を持ったそ
    れぞれの文書(構造化文書)がどの程度合っているのか
    を表す「適合度」を計算し、適合度の降順に文書を並べ
    て検索結果とする全文検索プログラムを格納した記憶媒
    体であって、 それぞれの文書の構造のどの部分に対応したインデック
    スを作成するのかを構造化文書内の、または、独立した
    フォーマットファイルに記述するフォーマットファイル
    作成プロセスと、 前記フォーマットファイルの記述に基づいて複数のイン
    デックスファイルを作成する文書インデックス作成プロ
    セスと、 作成された前記インデックスファイルのインデックスの
    うち、1つまたは、複数のどのインデックスを使用する
    のかを検索式で指定し、文書の構造情報を適合度の計算
    に用いる検索実行プロセスとを有することを特徴とする
    全文検索プログラムを格納した記憶媒体。
  14. 【請求項14】 前記フォーマットファイル作成プロセ
    スは、 インデックスの対象となる文書の部分構造を前記構造化
    文書内のまたは、独立したフォーマットファイルに記述
    する際に、対象となる文書の構造が入れ子になっている
    場合に、 前記文書を解析し、それぞれの構造を表す要素をノード
    とし、文書全体を表す要素をルートノードとする木構造
    を作成するプロセスと、 前記フォーマットファイルに、前記ルートノードからの
    パスを記述することによって、文書の構造のどの部分を
    インデックス対象とするのかを指定するプロセスとを含
    む請求項13記載の全文検索プログラムを格納した記憶
    媒体。
  15. 【請求項15】 前記文書インデックス作成プロセス
    は、 単語をキーとし、該単語が出現する文書IDと該単語の
    重要度のペアの集合を値とする逆引きインデックスと、
    文書IDをキーとし、該文書に出現する単語と該単語の
    重要度のペアの集合を値とする順引きインデックスのい
    ずれかまたは、両方を、前記フォーマットファイルの記
    述に基づいて作成し、該インデックスのそれぞれにイン
    デックスIDを付与するプロセスを含む請求項13記載
    の全文検索プログラムを格納した記憶媒体。
  16. 【請求項16】 前記検索実行プロセスは、 前記複数作成されたインデックスのうち、どのインデッ
    クスを使用するのかを、それぞれのインデックスに付与
    されたインデックスIDで検索式を指定するプロセスを
    含む請求項13記載の全文検索プログラムを格納した記
    憶媒体。
  17. 【請求項17】 前記検索実行プロセスは、 前記インデックスファイルを用いて、単語、単語のブー
    ル演算子結合及びフィルタ表現によって記述されている
    検索式と、検索対象となるそれぞれの文書のとの適合度
    を計算する適合度計算プロセスを有し、 前記適合度計算プロセスは、 逆引きインデックスを用いた検索を行う通常検索プロセ
    スと、 順引きインデックスを用いた検索を行うフィルタ検索プ
    ロセスとを含む請求項13記載の全文検索プログラムを
    格納した記憶媒体。
  18. 【請求項18】 前記フィルタ検索プロセスは、 取得した検索結果の中で、適合度の高い上位の所定の件
    数の文書の中から、前記検索式によって指定される条件
    にマッチする文書だけを取り出し検索結果とする‘an
    d型フィルタ’と、 検索式によって指定される条件にマッチする文書の適合
    度を割増し、再び修正された適合度の降順に文書を並べ
    替えて検索結果とする‘or型フィルタ’とを用いるプ
    ロセスを含む請求項17記載の全文検索装置。
JP2000142121A 2000-05-15 2000-05-15 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体 Expired - Lifetime JP3578045B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000142121A JP3578045B2 (ja) 2000-05-15 2000-05-15 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000142121A JP3578045B2 (ja) 2000-05-15 2000-05-15 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2001325293A true JP2001325293A (ja) 2001-11-22
JP3578045B2 JP3578045B2 (ja) 2004-10-20

Family

ID=18649146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000142121A Expired - Lifetime JP3578045B2 (ja) 2000-05-15 2000-05-15 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP3578045B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265387A (ja) * 2006-01-31 2007-10-11 Victor Co Of Japan Ltd 構造化データ格納装置、構造化データ格納プログラム、及び構造化データ格納方法
JP2007265383A (ja) * 2006-01-31 2007-10-11 Victor Co Of Japan Ltd 構造化データ格納装置、構造化データ格納プログラム、及び構造化データ格納方法
JP2009032292A (ja) * 2008-11-10 2009-02-12 Nec Corp 文書検索装置、検索方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265387A (ja) * 2006-01-31 2007-10-11 Victor Co Of Japan Ltd 構造化データ格納装置、構造化データ格納プログラム、及び構造化データ格納方法
JP2007265383A (ja) * 2006-01-31 2007-10-11 Victor Co Of Japan Ltd 構造化データ格納装置、構造化データ格納プログラム、及び構造化データ格納方法
JP2009032292A (ja) * 2008-11-10 2009-02-12 Nec Corp 文書検索装置、検索方法及びプログラム

Also Published As

Publication number Publication date
JP3578045B2 (ja) 2004-10-20

Similar Documents

Publication Publication Date Title
US8171029B2 (en) Automatic generation of ontologies using word affinities
US20180075025A1 (en) Converting data into natural language form
US6081804A (en) Method and apparatus for performing rapid and multi-dimensional word searches
US20100145902A1 (en) Methods and systems to train models to extract and integrate information from data sources
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
JP2003186894A (ja) サブスタンス辞書の作成方法、サブスタンス間の二項関係抽出方法、予測方法、及び表示方法
AU2019201531A1 (en) An in-app conversational question answering assistant for product help
JP3577972B2 (ja) 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
JP7172187B2 (ja) 情報表示方法、情報表示プログラムおよび情報表示装置
EP3432161A1 (en) Information processing system and information processing method
JP3565239B2 (ja) 情報検索装置
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP6787755B2 (ja) 文書検索装置
JP2001325293A (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
US20080033953A1 (en) Method to search transactional web pages
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JP7022789B2 (ja) 文書検索装置、文書検索方法およびコンピュータプログラム
US20230409620A1 (en) Non-transitory computer-readable recording medium storing information processing program, information processing method, information processing device, and information processing system
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム
Thapa Use Case Driven Evaluation of Database Systems for ILDA
JP3161660B2 (ja) キーワード検索方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040330

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040705

R150 Certificate of patent or registration of utility model

Ref document number: 3578045

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080723

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080723

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090723

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090723

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100723

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100723

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110723

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120723

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term