JP2004295797A

JP2004295797A - 情報検索装置

Info

Publication number: JP2004295797A
Application number: JP2003090394A
Authority: JP
Inventors: Hiroyuki Onuma; 宏行大沼; Yoshitaka Hamaguchi; 佳孝濱口
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2003-03-28
Filing date: 2003-03-28
Publication date: 2004-10-21

Abstract

【課題】特定の文書集合から特定のキーワードを含む文書を検索し、更に検索された文書の集合から該特定のキーワードに関連する他のキーワードを含む文書を検索することによりユーザが求める情報を提供する情報検索装置において、誤った情報を提供する可能性及び正しい情報を取りこぼす可能性を大幅に低減する。
【解決手段】検索対象文書集合から特定の検索ワードを含む第１の文書を検索し、該第１の文書から所定の抽出条件に合致する第１の単語を抽出し、前記検索対象文書集合から該抽出された第１の単語を含む第２の文書を検索し、該第２の文書から所定の抽出条件に合致する第２の単語を抽出する機能を有する情報検索装置は、前記第２の文書の重みに応じて前記第２の単語に重要度を付与して順位付けするランキング手段５２を備える。例えば、前記第２の文書と前記第１の文書が同じ文書である場合には、該第２の文書の重みを大きくする。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は情報検索装置、具体的には、特定の文書集合から特定のキーワードを含む文書を検索し、更に検索された文書の集合から該特定のキーワードに関連する他のキーワードを含む文書を検索することによりユーザが求める情報を提供する情報検索装置に関するものである。
【０００２】
【従来の技術】
情報検索装置には、検索入力である特定のキーワードに基づいて検索した検索結果（文書集合）から、その文書集合中に出現する単語の統計情報（文書重み、出現位置、単語長、単語種別、文字列一致状況、ＴＦ／ＩＤＦなどの各種パラメータ）を計算し、計算結果に基づいて該特定のキーワードに関連する関連キーワードを抽出し、抽出された関連キーワードを検索入力として再度検索を行うことにより、必要な情報を得るものがある（例えば特許文献１参照）。
【０００３】
この装置を利用すれば、例えばユーザがあるテーマに関心を持つ場合、該テーマに関連した人の名前及びその所属組織を簡単に知ることができる。以下にこのような情報検索装置の使用方法について、ユーザが「燃料電池」の開発等に携わる人の名前及びその所属組織を検索する場合を例に取り以下に説明する。尚、ここでは「山田太郎」は燃料電池に関わる人物であって「○○大学」に所属し、「佐藤花子」も燃料電池に関わる人物であって、「××大学」に所属するものとし、検索範囲はｄｏｃ１〜ｄｏｃ５であると仮定する。
【０００４】
方法１：先ず、「燃料電池」をキーワード（検索ワード）として検索を行う。そしてヒットした文書から、単語種別が人名である単語をチェックし、「燃料電池」に関連した人名を関連キーワードとして抽出する。次に、この関連キーワード（人名）を新たな検索ワードとして再度検索を行う。そしてヒットした文書から、単語種別が組織名である単語をチェックしその人が所属する組織の名称を抽出する。
以下に図２を参照して上記方法１についてより具体的に説明する。「燃料電池」をキーワードとした最初の検索で、集合Ａの文書（ｄｏｃ１，ｄｏｃ２）が検索され、各文書から人名（山田太郎，佐藤花子）が関連キーワードとして抽出される。次に、関連キーワード「山田太郎」で再び検索を行うと、集合Ｂの文書（ｄｏｃ１，ｄｏｃ３，ｄｏｃ５）が検索され、各文書から組織名（○○大学，△△大学）が抽出される。
【０００５】
方法２：別の方法として、２回目の検索を行わず、最初に検索された文書だけを対象として、同じ文書に名前及び組織名が共に出現していたときに、その人物がその組織に所属していると判断することも考えられる。即ち、図２の文書ｄｏｃ１において、「山田太郎」と「○○大学」が共に出現しているので、「燃料電池」に関わる人物「山田太郎」の所属組織は「○○大学」であると推定できる。
【０００６】
【特許文献１】
特開平１１−２５１０８号公報
【０００７】
【発明が解決しようとする課題】
しかしながら、方法１では上に説明したように、２回目の検索では「○○大学」と「△△大学」が検索され、「山田太郎」が「○○大学」に所属すると推定することはできない。方法１は、１回目の検索の結果、文書集合Ａが得られたという事実を利用しておらず、同じ文書集合に対して異なるキーワードで検索を２回行うだけである。そのため、ｄｏｃ１に含まれる「山田太郎」とｄｏｃ５に含まれる「山田太郎」とが同姓同名の別人であっても、それぞれの所属組織を抽出してしまう可能性が高い。
【０００８】
一方、方法２では、１回目の検索しか行わないため、所属組織を取りこぼす可能性がある。例えば、ｄｏｃ４は２回目の検索を行わないため検索できず、「佐藤花子」の所属組織「××大学」は抽出できない。
【０００９】
本発明は上記問題に鑑みなされたものであり、特定の文書集合から特定のキーワードを含む文書を検索し、更に検索された文書の集合から該特定のキーワードに関連する他のキーワードを含む文書を検索することによりユーザが求める情報を提供する情報検索装置において、従来に比べ、誤った情報を提供する可能性及び正しい情報を取りこぼす可能性を大幅に低減することを目的とする。
【００１０】
【課題を解決するための手段】
上記目的を達成すべく、検索対象文書集合から特定の検索ワードを含む第１の文書を検索し、該第１の文書から所定の抽出条件に合致する第１の単語を抽出し、前記検索対象文書集合から該抽出された第１の単語を含む第２の文書を検索し、該第２の文書から所定の抽出条件に合致する第２の単語を抽出する手段を有する本発明の情報検索装置は、
前記第２の文書に、前記第１の文書の検索結果に応じた重みを付与する重み付け手段と、
前記第２の文書の重みに応じて前記第２の単語に重要度を付与して順位付けする第１のランキング手段と
を備えることを特徴とする。
【００１１】
【発明の実施の形態】
第１の実施形態
図１にこの発明の第１の実施形態に係る情報検索装置の構成を示す。この装置は、入出力部１、検索条件作成部２、文書情報記憶部３、文書検索部４、キーワード自動抽出部５とを含む。
【００１２】
キーワード自動抽出部５は出現単語呼出部５１、単語ランキング部５２から構成される。入出力部１はユーザからの検索要求を受け付け、情報検索の結果を出力するものである。例えば、「燃料電池」に関連する人名とその所属組織を検索要求として受け付け、それらの情報（人名と組織名）を出力する。検索条件作成部２は、ユーザからの検索要求の内容に応じ、検索ワードを決定するとともに、検索要求にマッチした情報が出力されるように単語抽出の際の文書の重み付けの方法を決定する。例えば、検索要求が「燃料電池」に関連する人の人名と所属組織であれば、「燃料電池」に関連する人の人名を抽出するプロセスと、抽出された人の所属組織を抽出するプロセスとに分け、各プロセスごとに検索ワードを決定する。
【００１３】
文書情報記憶部３は、文書検索部４で文書を検索するために必要なインデックス情報や、図２（ａ）に示したような検索対象文書に含まれる単語の単語情報（単語名、単語種別など）を格納する。単語種別には、人名、組織名、役職、場所名などがある。文書検索部４は、検索条件作成部２が決定した検索ワードで、検索範囲の文書を検索し、検索された文書のＩＤを出力する。出現単語呼出部５１は、文書検索部４が出力するＩＤを有する文書のそれぞれについて、文書情報記憶部３を参照して、文書に含まれる単語のそれぞれについて単語情報を呼び出す。単語ランキング部５２は、出現単語呼出部５１が呼び出した単語情報を統計処理し、検索条件作成部２が決定した重み付け方法に従って単語に重要度を付与し、順位付けする。尚、後述するように、本実施形態では重み付けの際には、文書検索部の検索結果の情報も利用する。
【００１４】
以下に、図３のフローチャートを参照して上記情報検索装置の動作を説明する。ここでは、入出力部１が、「燃料電池」に関連する人名とその所属組織の名称を検索要求として受け付けたものとする。
【００１５】
先ず、検索条件作成部２は、検索要求に従い、ステップ１００において、検索手順（文書の検索条件と、キーワードをランキングするための重み付けの方法）を決定する。ここでは、検索手順を以下に示すＰｒｏｃｅｓｓ．１とＰｒｏｃｅｓｓ．２のそれぞれについて決定する。
Ｐｒｏｃｅｓｓ．１：特定の文書集合の中から「燃料電池」を含む文書を検索し、検索された文書に含まれる人名を抽出する。このときデフォルトの重み付けにより出現頻度の高い人名の順位を高くする。
Ｐｒｏｃｅｓｓ．２：Ｐｒｏｃｅｓｓ．１で抽出された人名の中、順位の高いものについてその人名を含む文書を上記特定の文書集合の中から検索する。そして検索された文書に含まれる組織を、重要度を付与して、即ち順位を付けて出力する。このとき、Ｐｒｏｃｅｓｓ．１でも検索された文書の重みを大きくし、Ｐｒｏｃｅｓｓ．１で検索された文書にも現れる組織の順位が高くなるようにする。
【００１６】
これらの検索手順は、Ｐｒｏｃｅｓｓ．１とＰｒｏｃｅｓｓ．２とに分けて不図示の検索状況一時記憶部に記憶される。図４（ａ）に検索状況一時記憶部の初期登録時の状態を示す。検索状況一時記憶部では、処理順序、検索ワード、出力情報、重みづけ方法、結果文書リスト、ランキング結果（抽出された重要度の大きい単語）の項目がある。検索ワードの項目には検索ワードが格納される。但しＰｒｏｃｅｓｓ．２の欄では、まだ検索ワードが決まっていないのでＰｒｏｃｅｓｓ．１のランキング結果を検索ワードにするという情報を格納する。
【００１７】
出力情報の項目には出力すべき単語（抽出すべき単語）の単語種別を格納する。重みづけ方法の項目にはどのように重み付けを行うかを示す情報を格納する。結果文書リストの項目には文書検索部４で検索された文書のリストを格納する。ランキング結果項目には単語ランキング部５２のランキング結果を格納する。
【００１８】
ステップ１００の時点では、まだ検索処理を実行していないので結果文書リストの項目とランキング結果の項目は空になっている。ステップ１００で検索手順を決定した後、処理対象（実行位置）を検索状況一時記憶部のＰｒｏｃｅｓｓ．１の先頭に設定する（ステップ１１０）。次に、検索条件作成部２は検索状況一時記憶部から検索ワードの項目を取り出す。取り出した検索ワードの項目が単語であるか否かを調べ（ステップ１２０）、単語であればステップ１４０へ進み、「Ｐｒｏｃｅｓｓ．ｍのランキング結果」であれば、ステップ１３０へ進む（ｍは１以上の整数であり、本実施形態ではｍ＝１）。Ｐｒｏｃｅｓｓ．１の場合は、検索ワードの項目は単語「燃料電池」であるのでステップ１４０へ進む。Ｐｒｏｃｅｓｓ．２の場合は、検索ワードの項目は「Ｐｒｏｃｅｓｓ．ｍのランキング結果」であるのでステップ１３０へ進む。
【００１９】
詳細は後述するが、ステップ１３０に進んだ場合は、検索条件作成部２は、Ｐｒｏｃｅｓｓ．１の処理で抽出された１つまたは複数の単語をそれぞれ検索ワードとして検索を行うプロセスを検索状況一時記憶部に追加し、この追加したプロセスの先頭に処理対象を設定してからステップ１４０へ進む。ステップ１４０では、文書検索部４は検索ワードで文書検索を行い、検索結果を検索状況一時記憶部の結果文書リスト項目に格納する。図２（ａ）の文書集合の場合には、「燃料電池」で検索するとｄｏｃ１とｄｏｃ２がヒットするので、図４（ｂ）に示すようにＰｒｏｃｅｓｓ．１の結果文書リストの項目にはｄｏｃ１とｄｏｃ２が登録される。
【００２０】
次に、出現単語呼出部５１は、Ｐｒｏｃｅｓｓ．１の結果文書リストの項目に登録されている文書ｄｏｃ１とｄｏｃ２に含まれる単語の単語情報を文書情報記憶部３から呼び出す（ステップ１５０）。図２に示す文書集合の場合、単語種別が人名である「山田太郎」、「佐藤花子」が抽出される。次に、単語ランキング部５２は、抽出された単語に対し、設定された重みづけ方法に従って、重要度を付与し、ランキングする（ステップ１６０）。ランキングは以下に示す条件１及び条件２に従って行われる。
【００２１】
条件１：重みづけ方法の項目の内容が「Ｐｒｏｃｅｓｓ．ｍの結果文書リスト」ならば、Ｐｒｏｃｅｓｓ．ｍの検索文書リストにある文書に出現する単語の重要度を大きくする。単語ｔが文書Ｄ１〜Ｄｎにそれぞれ出現するとき、本実施形態では、
【数１】

で計算する。ここでｄｏｃ＿ａｐｐｅａｒ（Ｄｋ，ｍ）は、文書ＤｋがＰｒｏｃｅｓｓ．ｍの結果文書リストに含まれる文書であれば「１」の値を取り、そうでなければ「０」の値を取る。また、ｗ_０，ｗ_１は定数である。
条件２：重みづけ方法の項目の内容が「デフォルト」ならば、出現数が多い単語ほど重要度を大きくする。単語ｔが文書Ｄ１〜Ｄｎに出現するとき、本実施形態では
単語ｔの重み＝ｎとする
【００２２】
上記の条件１又は２に従い、各単語について重要度を付与する。Ｐｒｏｃｅｓｓ．１の処理では、条件２が適用され、ｄｏｃ１に含まれる人名「山田太郎」とｄｏｃ２に含まれる「佐藤花子」の出現数はそれぞれ１回なので、
単語「山田太郎」の重要度＝１．０
単語「佐藤花子」の重要度＝１．０
となる。その後、次のプロセスが存在するか否かを調べ（ステップ１７０）、存在する場合には検索条件作成部２は、次のプロセスの先頭を処理対象に設定し、ステップ１２０へ戻る。次のプロセスが存在しなければ、入出力部１は検索結果を出力する（ステップ１８０）。
【００２３】
以下、Ｐｒｏｃｅｓｓ．２の処理を図４を参照して説明する。
ステップ１２０では、検索ワードの項目の内容は「Ｐｒｏｃｅｓｓ．１のランキング結果」であるのでステップ１３０へ進む。ステップ１３０において、「山田太郎」、「佐藤花子」をそれぞれ検索ワードとする検索を行うために、処理順序の項目にＰｒｏｃｅｓｓ．２−１とＰｒｏｃｅｓｓ．２−２とを追加する。その結果、検索状況一時記憶部の内容は図４（ｃ）のようになる。ここで、追加したＰｒｏｃｅｓｓ．２−１の先頭を処理対象に設定してステップ１４０へ進む。
【００２４】
ステップ１４０では、文書検索部４は「山田太郎」を検索ワードにして文書検索を行う。例えば、図２の文書集合の場合、「山田太郎」で検索すると、ｄｏｃ１、ｄｏｃ３、ｄｏｃ５がヒットし、図４（ｄ）に示すようにＰｒｏｃｅｓｓ．２−１の結果文書リストの項目にはこれらの文書が登録される。ステップ１５０では、ｄｏｃ１、ｄｏｃ３，ｄｏｃ５に出現する組織名「○○大学」と「△△大学」が抽出される。
【００２５】
Ｐｒｏｃｅｓｓ．２−１の重みづけ方法の項目の内容が「Ｐｒｏｃｅｓｓ．１の結果文書リスト」であるので、ステップ１６０では、Ｐｒｏｃｅｓｓ．１の結果文書にリストの項目に登録されているｄｏｃ１に含まれる組織名が優先されるような重み付けを行う。ここでｗ_０＝１．０、ｗ_１＝１０．０とすると、

となり、Ｐｒｏｃｅｓｓ．１でヒットした文書に含まれる組織名「○○大学」に高い重要度が付与される。
【００２６】
Ｐｒｏｃｅｓｓ．２−２の処理も上記と同様である。この場合、「佐藤花子」を含む文書はｄｏｃ２、ｄｏｃ４であり、組織名としてｄｏｃ４から「××大学」が抽出される。ｗ_０＝１．０，ｗ_１＝１０．０とすると、単語「××大学」の重要度＝１．０＋１０．０ × ０＝１．０となり、重要度は低いが所属組織として抽出することができる。
【００２７】
図４（ｅ）に最終的な処理結果を示す。即ち、“「燃料電池」に関連する人の名前とその所属組織”という検索要求に対し、
”山田太郎” ○○大学
”佐藤花子” ××大学
がユーザに提供される。
【００２８】
以上説明したように、第１の実施形態によれば、あるテーマに関連する人の名前とその所属組織を検索する際に、テーマを表す単語を検索ワードとした検索でヒットした文書が、人名を表す単語を検索ワードとした別の検索でもヒットした場合に、その文書の重みを大きく設定することにより、テーマを表す単語、人名を表す単語、及び組織を表す単語が同じ文書に揃って出現している場合に、優先的にその文書に記載の組織を表す単語を所属組織として抽出することができる。更に、テーマを表す単語を含んでいない文書からも組織名を抽出し、その人の所属組織を発見ですることができる。これによって、情報の取りこぼしを減らし、高精度の情報を得ることが可能になる。
【００２９】
第２の実施形態
第１の実施形態では、人名は姓と名が揃っている場合には効果的に所属組織を検索できる。しかし、人名は常に姓と名が揃って文書中に出現するとは限らない。例えば、「山田教授」のように姓のみが役職と共に出現し、名が文書中に現れないことがある。以下に説明する第２の実施形態によれば人名から所属組織を検索する際に、人名が姓だけで表される文書からも所属組織を見つけることができる。第２の実施形態の情報検索装置の構成は、図１に示した実施の形態１と同様であるが、図５に示すように、文書情報記憶部３に各単語の出現位置を示す情報も格納する点で第１の実施形態と異なる。尚、出現位置は、文書の先頭からの文字数である。
【００３０】
第２の実施形態の装置の動作を図６のフローチャートとを参照して以下に説明する。ここでは、入出力部１が「燃料電池」に関連する人の名前とその所属組織を検索要求として受け付けたものとする。
【００３１】
ステップ２００では第１の実施形態のステップ１００と同様の処理を行う。但し、第２の実施形態ではＰｒｏｃｅｓｓ．２に代えてＰｒｏｃｅｓｓ．２ａをＰｒｏｃｅｓｓ．１の後に実行するように設定する。
Ｐｒｏｃｅｓｓ．２ａではＰｒｏｃｅｓｓ．１で抽出された「姓」の中、重要度の大きい、即ち順位の高いものについてその「姓」を含む文書を検索し、検索された文書に出現する単語の中、単語種別が組織であるものを抽出する。Ｐｒｏｃｅｓｓ．２ａではまた、Ｐｒｏｃｅｓｓ．１で抽出された「姓」の中、その近傍（例えば出現位置が１０文字以内）に「役職」を表す単語が存在するものに大きい重要度を付与する。図７（ａ）にこれらの手順を実行した後の検索状況一時記憶部の状態を示す。
【００３２】
ステップ２１０では第１の実施形態のステップ１１０と同様の処理を行いステップ２２０へ進む。ステップ２２０では、第１の実施形態のテップ１２０と同様、検索ワードの項目が単語であるか否かを判断する。Ｐｒｏｃｅｓｓ．１では図７（ａ）に示すように検索ワードの項目は、単語「燃料電池」であるのでステップ２４０へ進む。Ｐｒｏｃｅｓｓ．２ａの処理では検索ワードの項目は、「Ｐｒｏｃｅｓｓ．１のランキングの「姓」」であるのでステップ２３０へ進み、ステップ２３０において第１の実施形態のステップ１３０と同様の処理を行ってステップ２４０へ進む。
【００３３】
ステップ２４０では第１の実施形態のステップ１４０と同様の処理を行う。例えば、図５の文書集合において、「燃料電池」で検索した場合には、ｄｏｃ１がヒットするので、Ｐｒｏｃｅｓｓ．１の結果文書リスト項目にｄｏｃ１を登録する（図７（ｂ））。続いてステップ２５０で第１の実施形態のステップ１５０と同様の処理を行い、ステップ２６０へ進む。ステップ２６０では、ｄｏｃ１を検索し、その中に含まれる「人名」または「姓」、及びそれらに付随する「役職」を抽出する。単語ランキング部５２は、設定された重みづけ方法に従って抽出された単語をランキングする。ランキングは次の条件に従って行う。
【００３４】
条件１：重みづけ方法の項目の内容が「Ｐｒｏｃｅｓｓ．ｍのランキングの役職」ならば、検索ワードと一致した「姓」の近傍（例えば、出現位置が１０文字以内）に、Ｐｒｏｃｅｓｓ．ｍのランキングの役職が存在するかどうかをヒットした各文書についてチェックする。存在すれば、その文書の重みを大きくする。別の役職が存在すれば、その文書の重みを低くする。
本実施形態では、検索ワード（姓）と同じ単語ｔが文書Ｄ１〜Ｄｎに出現した場合、
【数２】

で計算する。
ｄｏｃ＿ａｐｐｅａｒ（Ｄｋ，ｍ）は、文書Ｄｋ中に、検索ワード（姓）と一致する単語の近傍に、ランキング結果の「役職」が存在するならばｗ１、別の役職が存在するならば−ｗ２、役職が存在しないなら０の値を取る。具体例は後述する。
条件２：第１の実施形態のステップ１６０の条件２と同様のランキング処理を行う。
【００３５】
ランキング処理の終了後、ステップ２７０へ進み、第１の実施形態のステップ１７０と同様の処理を行い、続いてステップ２８０で第１の実施形態のステップ１８０と同様の処理を行う。
【００３６】
Ｐｒｏｃｅｓｓ．１において、ステップ２６０までの処理が終了すると、Ｐｒｏｃｅｓｓ．２ａの先頭を処理対象に設定し、ステップ２１０へ戻る。以下、Ｐｒｏｃｅｓｓ．２ａの処理を図６参照して説明する。
ステップ２２０では、Ｐｒｏｃｅｓｓ．２の検索ワード項目は、Ｐｒｏｃｅｓｓ．１のランキング結果であると判定し、ステップ２３０へ進む。ステップ２３０では、”山田太郎”の姓の「山田」を検索ワードに設定するための処理を、検索状況一時記憶部に追加する。その結果、検索状況一時記憶部の状態は図７（ｃ）のようになる。そして追加されたＰｒｏｃｅｓｓ．２ａ−１の先頭を処理対象に設定してからステップ２４０へ進む。
【００３７】
ステップ２４０において、文書検索部４は「山田」を検索ワードにして検索を行う。例えば図５の文書集合の場合、ｄｏｃ１、ｄｏｃ２、ｄｏｃ３がヒットするので図７（ｄ）に示すように、Ｐｒｏｃｅｓｓ．２ａ−１の結果文書リストの項目にｄｏｃ１、ｄｏｃ２、ｄｏｃ３を登録する。ステップ２５０では、図５に示す文書情報記憶部の内容に基づき、ｄｏｃ２，ｄｏｃ３に含まれる組織名「○○大学」、「△△大学」を抽出する。
【００３８】
Ｐｒｏｃｅｓｓ．２ａ−１の重みづけ方法の項目が「Ｐｒｏｃｅｓｓ．１のランキングの「役職」」なので、ここではｄｏｃ１に記載された役職「教授」が「山田」の近傍に出現する文書が優先され、大きな重みが付与される。
例えば、ｗ_０＝１．０，ｗ_１＝１０．０，ｗ_２＝１０．０とすると、
単語「○○大学」の重要度＝ｗ_０＋ｄｏｃ＿ａｐｐｅａｒ（ｄｏｃ２，１）＝（１．０＋１０．０）＝１１．０
単語「△△大学」の重要度＝ｗ_０＋ｄｏｃ＿ａｐｐｅａｒ（ｄｏｃ３，１）＝（１．０＋（−１０．０））＝ −９．０
となる。このように、「山田」と「教授」が近い位置にある文書ｄｏｃ２に含まれる組織名「○○大学」が優先されて大きな重要度が付与され、ｄｏｃ３は「山田」と「助教授」が近くにある文書のため、小さな重要度が付与される。
【００３９】
図７（ｄ）に、最終的な処理結果を示す。結果として、「燃料電池」に関連する人の名前とその所属組織は、“山田太郎”（○○大学）となる。
以上説明したように、第２の実施形態によれば、例えば「山田教授」のように「姓」と「役職」が共に出現する場合には「名」が書かれないことを考慮し、人名から所属組織を検索する際には、姓だけで検索を行い、先立って行われた検索で抽出された「役職」（あるいは「名」）が抽出された姓の近傍にあるかどうかをチェックすることで、高精度に所属組織を抽出できる。
【００４０】
第３の実施形態
第１、第２の実施形態では検索対象文書の種類を特に限定していないが、第３の実施形態ではＷｅｂサイトに公開され、ＵＲＬ（ＵｎｉｖｅｒｓａｌＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）で位置を特定できる文書に検索対象を限定し、文書の重み付けを行う際にそのＵＲＬを利用する。
【００４１】
例えば、図２（１）のｄｏｃ１のＵＲＬが「ｈｔｔｐ：／／ｗｗｗ．ａａａ．ａｃ．ｊｐ」から始まり、ｄｏｃ３のＵＲＬが、「ｈｔｔｐ：／／ｗｗｗ．ｂｂｂ．ａｃ．ｊｐ」から始まる場合には、この２つの文書に出現する「山田太郎」は別人である可能性が高い。なぜなら、２つの文書のｗｅｂ上の位置が大きく異なるからである。
反対に、例えば、ｄｏｃ２とｄｏｃ４のＵＲＬが「ｈｔｔｐ：／／ｗｗｗ．ａａａ．ａｃ．ｊｐ／ｌａｂ／ｘｘｘｘ」まで一致するならば、２つの文書に出現する「佐藤花子」は同一人物である可能性が高い。そこで第３の実施形態では、検索された文書のＵＲＬの位置関係を利用して重み付けを行う。
【００４２】
図８に第３の実施形態の情報検索装置の構成を示す。同図に示すように、第３の実施形態は、文書位置類似度判定部６が追加されている点で第１の実施形態と構成が異なる。
文書位置類似度判定部６は、２つのＵＲＬを比較入力として受け取り、２つのＵＲＬの位置関係を示す情報を類似度として出力する機能を有する。また、文書情報記憶部３は各文書のＵＲＬ情報も格納している。ここで、図２に示した各文書が次のＵＲＬを持つものとする。
【００４３】
ｄｏｃ１：ｈｔｔｐ．／／ｗｗｗ．ａａａ．ａｃ．ｊｐ／ｘｘ／ｙｙ／ｐｅｒｓｏｎｌ．ｈｔｍｌ
ｄｏｃ２：ｈｔｔｐ：／／ｗｗｗ．ａａａ．ａｃ．ｊｐ／ｌａｂ／ｘｘｘｘ／ａｌ．ｈｔｍｌ
ｄｏｃ３：ｈｔｔｐ：／／ｗｗｗ．ｂｂｂ．ａｃ．ｊｐ／ｚｚ／ｗｗ／ｉｎｄｅｘ．ｈｔｍｌ
ｄｏｃ４：ｈｔｔｐ：／／ｗｗｗ．ａａａ．ａｃ．ｊｐ／ｌａｂ／ｘｘｘｘ／ｂｌ．ｈｔｍ
ｄｏｃ５：ｈｔｔｐ：／／ｗｗｗ．ａａａ．ａｃ．ｊｐ／ｚｚ／ｗｗ／ｐｐ／ｉｎｄｅｘ．ｈｔｍｌ
【００４４】
次に、図９を参照して第３の実施形態の動作を説明する。第３の実施形態の動作は、ステップ１００からステップ１５０、ステップ１７０、及びステップ１８０については第１の実施形態と同じであり、ステップ１６０に代えて以下に説明するステップ３００を実行する点で第１の実施形態と異なる。
ステップ３００において、単語ランキング部５２は下記の条件に従って文書を重み付けし、単語をランキングする。
【００４５】
条件２は、第１の実施形態のステップ１６０の条件２と同様であるので説明は省略し、条件１について説明する。
条件１：重みづけ方法の項目の内容が「Ｐｒｏｃｅｓｓ．ｍの結果文書リスト」ならば、再度の検索で抽出された単語ｔが出現した文書のＵＲＬとＰｒｏｃｅｓｓ．ｍの検索文書リストにある各文書のＵＲＬとを比較し、比較結果に基づいて単語ｔに重要度を付与する。本実施形態では単語ｔの重要度を下記の式に従って計算する。
【数３】

【００４６】
関数ｕｒｌ＿ｄｉｓｔａｎｃｅの値は、文書位置類似度判定部６が例えば以下に示す手順で計算する。
ｈｔｔｐ：／／ｗｗｗ．ａａａ．ａｃ．ｊｐとｈｔｔｐ：／ｗｗｗ．ｂｂｂ．ａｃ．ｊｐのように、ドメイン名が異なる場合（前者はａａａ．ａｃ．ｊｐ，後者はｂｂｂ．ａｃ．ｊｐ）には０とする。
ｈｔｔｐ：／／ｗｗｗ．ｘｘ．ａａａ．ａｃ．ｊｐとｈｔｔｐ：／／ｗｗｗ．ｙｙ．ａａａ．ａｃ．ｊｐのように、サブドメイン名が異なる場合（前者はｘｘ．ａａａ．ａｃ．ｊｐ，後者はｙｙ．ａａａ．ａｃ．ｊｐ）には０．１とする。
ｈｔｔｐ：／／ｗｗｗ．ｙｙ．ａａａ．ａｃ．ｊｐ／ｉｎｆｏ／１．ｈｔとｈｔｔｐ：／／ｗｗｗ．ｙｙ．ａａａ．ａｃ．ｊｐ／ｏｒｇ／２．ｈｔｍｌのように、ドメイン名のみが一致している場合は０．２とする。
【００４７】
さらに、ディレクトリの一致状況に応じて次のように点数付けを行う。
「ｈｔｔｐ：／／ｗｗｗ．ａａａ．ａｃ．ｊｐ／ｌｅｖｅｌ−１／」までなら、０．５
「ｈｔｔｐ：／／ｗｗｗ．ａａａ．ａｃ．ｊｐ／ｌｅｖｅｌ−１／ｌｅｖｅｌ−２」までなら、０．７５（１／２＋１／４）
「ｈｔｔｐ：／／ｗｗｗ．ａａａ．ａｃ．ｊｐ／ｌｅｖｅｌ−１／ｌｅｖｅｌ−２／ｌｅｖｅｌ−３」までなら、０．８７５（１／２＋１／４＋１／８）
…
【数４】

とする。例えば、ｄｏｃ１とｄｏｃ５では、ｈｔｔｐ：／／ｗｗｗ．ａａａ．ａｃ．ｊｐまでが一致するので０．２となる。
【００４８】
以下、「山田太郎」の所属組織の計算結果について述べる。抽出された組織名は、
「○○大学」と「△△大学」である。ｗ_０＝１．０，ｗ_１＝１０．０で計算すると、

【００４９】
次に、「佐藤花子」の所属組織の計算結果について述べる。抽出された組織名は「××大学」である。同様に、ｗ_０＝１．０，ｗ_１＝１０・０で計算すると、

となる。第１の実施形態では重みが低かったが、第３の実施形態では、ｄｏｃ２とｄｏｃ４のＵＲＬが類似しているために重みが高くなっている。
【００５０】
第３の実施形態では、ランキングを行う際にＵＲＬの位置関係を利用し、同じサイトにある場合など、位置が近い文書に高い重みを設定することにより高精度に重み付けを行うことができる。
【００５１】
以上説明した第１〜第３の実施形態は、ユーザからの検索要求が、あるテーマに関連する人の名前と所属組織の抽出である場合についてのものであるが本発明はそれに限定されるものではない。例えば、図４で、Ｐｒｏｃｅｓｓ．１の出力情報を組織名とし、Ｐｒｏｃｅｓｓ．２の出力情報を人名とすることにより、あるテーマに関連した組織名とその組織に所属する人の名を抽出することもできる。
文書検索部４はキーワード検索を行うものに限られない。ユーザからの検索入力を、「燃料電池」のような単語に代えて文書とし、文書検索部４で類似文書検索を行うようにしてもよい。
第３の実施形態で説明したＵＲＬ距離の計算方法は、一例であり、ＵＲＬの比較結果に基づき、文書間の距離を求める任意の方法を用いることができる。
【００５２】
第１、２、３の実施形態における重みの計算方法を、特開平１１−２５１０８に記載の重み計算方法と組み合わせることも可能である。
第２の実施形態では、Ｐｒｏｃｅｓｓ．２の重み付けでは「役職」を用いたが、「名」を用いてもよい。また、第１の実施形態と第２の実施形態とを組み合わせてもよい。
各実施形態では、検索を検索ワードを代えて連続して行っているが、最初の人名抽出結果だけをユーザに出力し、ユーザが指定した人名についてだけ所属組織を検索するようにしてもよい。
【００５３】
【発明の効果】
本発明によれば、特定の文書集合から特定のキーワードを含む文書を検索し、更に検索された文書の集合から該特定のキーワードに関連する他のキーワードを含む文書を検索することによりユーザが求める情報を提供する情報検索装置において、従来に比べ、誤った情報を提供する可能性及び正しい情報を取りこぼす可能性が大幅に低減される。
【図面の簡単な説明】
【図１】本発明の実施の形態１に係る情報検索装置の構成を示すブロック図である。
【図２】実施の形態１の情報検索装置の文書情報記憶部の構造を示す図である。
【図３】実施の形態１の情報検索装置の動作を説明するフローチャートである。
【図４】実施の形態１の情報検索装置の検索状況一時記憶部の状態の変化を説明する図である。
【図５】実施の形態１の情報検索装置の文書情報記憶部の構造を示す図である。
【図６】本発明の実施の形態２に係る情報検索装置の動作を説明するフローチャートである。
【図７】実施の形態２の情報検索装置の検索状況一時記憶部の状態の変化を説明する図である。
【図８】本発明の実施の形態３に係る情報検索装置の構成を示すブロック図である。
【図９】実施の形態３の情報検索装置の動作を説明するフローチャートである。
【符号の説明】
１入出力部、２検索条件作成部、３文書情報記憶部、４文書検索部、５キーワード自動抽出部、６文書位置類似度判定部、５１出現単語呼び出し部、５２単語ランキング部。

Claims

検索対象文書集合から特定の検索ワードを含む第１の文書を検索し、該第１の文書から所定の抽出条件に合致する第１の単語を抽出し、前記検索対象文書集合から該抽出された第１の単語を含む第２の文書を検索し、該第２の文書から所定の抽出条件に合致する第２の単語を抽出する手段を有する情報検索装置であって、
前記第２の文書に、前記第１の文書の検索結果に応じた重みを付与する重み付け手段と、
前記第２の文書の重みに応じて前記第２の単語に重要度を付与して順位付けする第１のランキング手段と
を備えることを特徴とする情報検索装置。
前記第２の文書が複数ある場合、前記第１のランキング手段は複数の第２の文書のそれぞれの重みの和に応じた重要度を前記第２の単語に付与することを特徴とする請求項１に記載の情報検索装置。
第１の単語に、少なくとも該第１の単語の出現頻度を含む統計情報に基づいて重要度を付与する第２のランキング手段を備え、第１の単語が複数抽出された場合には、そのうちの重要度の高いものについてそれぞれ第２の単語を抽出することを特徴とする請求項１または２に記載の情報処理装置。
前記重み付け手段は、前記第２の文書が前記第１の文書と同じ文書である場合に該第２の文書に大きな重みを付与することを特徴とする請求項１から３のいずれか一項に記載の情報検索装置。
前記検索対象文書集合はｗｅｂサイトに表示される文書の集合であり、前記重み付け手段は、前記第２の文書のＵＲＬと前記第１の文書のＵＲＬとを比較し、比較結果に基づいて該第２の文書に重みを付与することを特徴とする請求項１から３のいずれか一項に記載の情報検索装置。
前記重み付け手段は、前記第１の単語の少なくとも一部が前記第２の文書に含まれる場合に、該第２の文書に大きな重みを付与することを特徴とする請求項１から３のいずれか一項に記載の情報検索装置。
前記第１の単語が人名を表す単語であり、前記第２の単語が所属組織を表す単語である場合、前記第１のランキング手段は、前記第２の文書において前記第１の文書に含まれる役職を表す順位の高い単語と同じ単語が前記第１の単語の近傍に現れる場合に該第２の文書に大きな重みを付与することを特徴とする請求項３に記載の情報検索装置。
前記第１の単語が人名を表す単語であり、前記第２の単語が所属組織を表す単語である場合、前記第１のランキング手段は、前記第２の文書において前記第１の単語の近傍に現れる役職を表す単語が前記第１の文書に含まれる役職を表す順位の高い単語と異なる場合に該第２の文書に小さな重みを付与することを特徴とする請求項３に記載の情報検索装置。
前記第１の単語が人名を表す単語であり、前記第２の単語が所属組織を表す単語である場合、前記第１のランキング手段は、前記第１の単語の名を表す部分が、前記第２の文書において順位の高い姓を表す単語の近傍に現れる場合に該第２の文書に大きな重みを付与することを特徴とする請求項３に記載の情報検索装置。