JP2004295797A - 情報検索装置 - Google Patents

情報検索装置 Download PDF

Info

Publication number
JP2004295797A
JP2004295797A JP2003090394A JP2003090394A JP2004295797A JP 2004295797 A JP2004295797 A JP 2004295797A JP 2003090394 A JP2003090394 A JP 2003090394A JP 2003090394 A JP2003090394 A JP 2003090394A JP 2004295797 A JP2004295797 A JP 2004295797A
Authority
JP
Japan
Prior art keywords
document
word
search
name
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003090394A
Other languages
English (en)
Inventor
Hiroyuki Onuma
宏行 大沼
Yoshitaka Hamaguchi
佳孝 濱口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2003090394A priority Critical patent/JP2004295797A/ja
Publication of JP2004295797A publication Critical patent/JP2004295797A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】特定の文書集合から特定のキーワードを含む文書を検索し、更に検索された文書の集合から該特定のキーワードに関連する他のキーワードを含む文書を検索することによりユーザが求める情報を提供する情報検索装置において、誤った情報を提供する可能性及び正しい情報を取りこぼす可能性を大幅に低減する。
【解決手段】検索対象文書集合から特定の検索ワードを含む第1の文書を検索し、該第1の文書から所定の抽出条件に合致する第1の単語を抽出し、前記検索対象文書集合から該抽出された第1の単語を含む第2の文書を検索し、該第2の文書から所定の抽出条件に合致する第2の単語を抽出する機能を有する情報検索装置は、前記第2の文書の重みに応じて前記第2の単語に重要度を付与して順位付けするランキング手段52を備える。例えば、前記第2の文書と前記第1の文書が同じ文書である場合には、該第2の文書の重みを大きくする。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は情報検索装置、具体的には、特定の文書集合から特定のキーワードを含む文書を検索し、更に検索された文書の集合から該特定のキーワードに関連する他のキーワードを含む文書を検索することによりユーザが求める情報を提供する情報検索装置に関するものである。
【0002】
【従来の技術】
情報検索装置には、検索入力である特定のキーワードに基づいて検索した検索結果(文書集合)から、その文書集合中に出現する単語の統計情報(文書重み、出現位置、単語長、単語種別、文字列一致状況、TF/IDFなどの各種パラメータ)を計算し、計算結果に基づいて該特定のキーワードに関連する関連キーワードを抽出し、抽出された関連キーワードを検索入力として再度検索を行うことにより、必要な情報を得るものがある(例えば特許文献1参照)。
【0003】
この装置を利用すれば、例えばユーザがあるテーマに関心を持つ場合、該テーマに関連した人の名前及びその所属組織を簡単に知ることができる。以下にこのような情報検索装置の使用方法について、ユーザが「燃料電池」の開発等に携わる人の名前及びその所属組織を検索する場合を例に取り以下に説明する。尚、ここでは「山田太郎」は燃料電池に関わる人物であって「○○大学」に所属し、「佐藤花子」も燃料電池に関わる人物であって、「××大学」に所属するものとし、検索範囲はdoc1〜doc5であると仮定する。
【0004】
方法1: 先ず、「燃料電池」をキーワード(検索ワード)として検索を行う。そしてヒットした文書から、単語種別が人名である単語をチェックし、「燃料電池」に関連した人名を関連キーワードとして抽出する。次に、この関連キーワード(人名)を新たな検索ワードとして再度検索を行う。そしてヒットした文書から、単語種別が組織名である単語をチェックしその人が所属する組織の名称を抽出する。
以下に図2を参照して上記方法1についてより具体的に説明する。「燃料電池」をキーワードとした最初の検索で、集合Aの文書(doc1,doc2)が検索され、各文書から人名(山田太郎,佐藤花子)が関連キーワードとして抽出される。次に、関連キーワード「山田太郎」で再び検索を行うと、集合Bの文書(doc1, doc3, doc5)が検索され、各文書から組織名(○○大学,△△大学)が抽出される。
【0005】
方法2: 別の方法として、2回目の検索を行わず、最初に検索された文書だけを対象として、同じ文書に名前及び組織名が共に出現していたときに、その人物がその組織に所属していると判断することも考えられる。即ち、図2の文書doc1において、「山田太郎」と「○○大学」が共に出現しているので、「燃料電池」に関わる人物「山田太郎」の所属組織は「○○大学」であると推定できる。
【0006】
【特許文献1】
特開平11−25108号公報
【0007】
【発明が解決しようとする課題】
しかしながら、方法1では上に説明したように、2回目の検索では「○○大学」と「△△大学」が検索され、「山田太郎」が「○○大学」に所属すると推定することはできない。方法1は、1回目の検索の結果、文書集合Aが得られたという事実を利用しておらず、同じ文書集合に対して異なるキーワードで検索を2回行うだけである。そのため、doc1に含まれる「山田太郎」とdoc5に含まれる「山田太郎」とが同姓同名の別人であっても、それぞれの所属組織を抽出してしまう可能性が高い。
【0008】
一方、方法2では、1回目の検索しか行わないため、所属組織を取りこぼす可能性がある。例えば、doc4は2回目の検索を行わないため検索できず、「佐藤花子」の所属組織「××大学」は抽出できない。
【0009】
本発明は上記問題に鑑みなされたものであり、特定の文書集合から特定のキーワードを含む文書を検索し、更に検索された文書の集合から該特定のキーワードに関連する他のキーワードを含む文書を検索することによりユーザが求める情報を提供する情報検索装置において、従来に比べ、誤った情報を提供する可能性及び正しい情報を取りこぼす可能性を大幅に低減することを目的とする。
【0010】
【課題を解決するための手段】
上記目的を達成すべく、検索対象文書集合から特定の検索ワードを含む第1の文書を検索し、該第1の文書から所定の抽出条件に合致する第1の単語を抽出し、前記検索対象文書集合から該抽出された第1の単語を含む第2の文書を検索し、該第2の文書から所定の抽出条件に合致する第2の単語を抽出する手段を有する本発明の情報検索装置は、
前記第2の文書に、前記第1の文書の検索結果に応じた重みを付与する重み付け手段と、
前記第2の文書の重みに応じて前記第2の単語に重要度を付与して順位付けする第1のランキング手段と
を備えることを特徴とする。
【0011】
【発明の実施の形態】
第1の実施形態
図1にこの発明の第1の実施形態に係る情報検索装置の構成を示す。この装置は、入出力部1、検索条件作成部2、文書情報記憶部3、文書検索部4、キーワード自動抽出部5とを含む。
【0012】
キーワード自動抽出部5は出現単語呼出部51、単語ランキング部52から構成される。入出力部1はユーザからの検索要求を受け付け、情報検索の結果を出力するものである。例えば、「燃料電池」に関連する人名とその所属組織を検索要求として受け付け、それらの情報(人名と組織名)を出力する。検索条件作成部2は、ユーザからの検索要求の内容に応じ、検索ワードを決定するとともに、検索要求にマッチした情報が出力されるように単語抽出の際の文書の重み付けの方法を決定する。例えば、検索要求が「燃料電池」に関連する人の人名と所属組織であれば、「燃料電池」に関連する人の人名を抽出するプロセスと、抽出された人の所属組織を抽出するプロセスとに分け、各プロセスごとに検索ワードを決定する。
【0013】
文書情報記憶部3は、文書検索部4で文書を検索するために必要なインデックス情報や、図2(a)に示したような検索対象文書に含まれる単語の単語情報(単語名、単語種別など)を格納する。単語種別には、人名、組織名、役職、場所名などがある。文書検索部4は、検索条件作成部2が決定した検索ワードで、検索範囲の文書を検索し、検索された文書のIDを出力する。出現単語呼出部51は、文書検索部4が出力するIDを有する文書のそれぞれについて、文書情報記憶部3を参照して、文書に含まれる単語のそれぞれについて単語情報を呼び出す。単語ランキング部52は、出現単語呼出部51が呼び出した単語情報を統計処理し、検索条件作成部2が決定した重み付け方法に従って単語に重要度を付与し、順位付けする。尚、後述するように、本実施形態では重み付けの際には、文書検索部の検索結果の情報も利用する。
【0014】
以下に、図3のフローチャートを参照して上記情報検索装置の動作を説明する。ここでは、入出力部1が、「燃料電池」に関連する人名とその所属組織の名称を検索要求として受け付けたものとする。
【0015】
先ず、検索条件作成部2は、検索要求に従い、ステップ100において、検索手順(文書の検索条件と、キーワードをランキングするための重み付けの方法)を決定する。ここでは、検索手順を以下に示すProcess.1とProcess.2のそれぞれについて決定する。
Process.1: 特定の文書集合の中から「燃料電池」を含む文書を検索し、検索された文書に含まれる人名を抽出する。このときデフォルトの重み付けにより出現頻度の高い人名の順位を高くする。
Process.2: Process.1で抽出された人名の中、順位の高いものについてその人名を含む文書を上記特定の文書集合の中から検索する。そして検索された文書に含まれる組織を、重要度を付与して、即ち順位を付けて出力する。このとき、Process.1でも検索された文書の重みを大きくし、Process.1で検索された文書にも現れる組織の順位が高くなるようにする。
【0016】
これらの検索手順は、Process.1とProcess.2とに分けて不図示の検索状況一時記憶部に記憶される。図4(a)に検索状況一時記憶部の初期登録時の状態を示す。検索状況一時記憶部では、処理順序、検索ワード、出力情報、重みづけ方法、結果文書リスト、ランキング結果(抽出された重要度の大きい単語)の項目がある。検索ワードの項目には検索ワードが格納される。但しProcess.2の欄では、まだ検索ワードが決まっていないのでProcess.1のランキング結果を検索ワードにするという情報を格納する。
【0017】
出力情報の項目には出力すべき単語(抽出すべき単語)の単語種別を格納する。重みづけ方法の項目にはどのように重み付けを行うかを示す情報を格納する。結果文書リストの項目には文書検索部4で検索された文書のリストを格納する。ランキング結果項目には単語ランキング部52のランキング結果を格納する。
【0018】
ステップ100の時点では、まだ検索処理を実行していないので結果文書リストの項目とランキング結果の項目は空になっている。ステップ100で検索手順を決定した後、処理対象(実行位置)を検索状況一時記憶部のProcess.1の先頭に設定する(ステップ110)。次に、検索条件作成部2は検索状況一時記憶部から検索ワードの項目を取り出す。取り出した検索ワードの項目が単語であるか否かを調べ(ステップ120)、単語であればステップ140へ進み、「Process.mのランキング結果」であれば、ステップ130へ進む(mは1以上の整数であり、本実施形態ではm=1)。Process.1の場合は、検索ワードの項目は単語「燃料電池」であるのでステップ140へ進む。Process.2の場合は、検索ワードの項目は「Process.mのランキング結果」であるのでステップ130へ進む。
【0019】
詳細は後述するが、ステップ130に進んだ場合は、検索条件作成部2は、Process.1の処理で抽出された1つまたは複数の単語をそれぞれ検索ワードとして検索を行うプロセスを検索状況一時記憶部に追加し、この追加したプロセスの先頭に処理対象を設定してからステップ140へ進む。ステップ140では、文書検索部4は検索ワードで文書検索を行い、検索結果を検索状況一時記憶部の結果文書リスト項目に格納する。図2(a)の文書集合の場合には、「燃料電池」で検索するとdoc1とdoc2がヒットするので、図4(b)に示すようにProcess.1の結果文書リストの項目にはdoc1とdoc2が登録される。
【0020】
次に、出現単語呼出部51は、Process.1の結果文書リストの項目に登録されている文書doc1とdoc2に含まれる単語の単語情報を文書情報記憶部3から呼び出す(ステップ150)。図2に示す文書集合の場合、単語種別が人名である「山田太郎」、「佐藤花子」が抽出される。次に、単語ランキング部52は、抽出された単語に対し、設定された重みづけ方法に従って、重要度を付与し、ランキングする(ステップ160)。ランキングは以下に示す条件1及び条件2に従って行われる。
【0021】
条件1: 重みづけ方法の項目の内容が「Process.mの結果文書リスト」ならば、Process.mの検索文書リストにある文書に出現する単語の重要度を大きくする。単語tが文書D1〜Dnにそれぞれ出現するとき、本実施形態では、
【数1】
Figure 2004295797
で計算する。ここでdoc_appear(Dk,m)は、文書DkがProcess.mの結果文書リストに含まれる文書であれば「1」の値を取り、そうでなければ「0」の値を取る。また、w,wは定数である。
条件2: 重みづけ方法の項目の内容が「デフォルト」ならば、出現数が多い単語ほど重要度を大きくする。単語tが文書D1〜Dnに出現するとき、本実施形態では
単語tの重み = n とする
【0022】
上記の条件1又は2に従い、各単語について重要度を付与する。Process.1の処理では、条件2が適用され、doc1に含まれる人名「山田太郎」とdoc2に含まれる「佐藤花子」の出現数はそれぞれ1回なので、
単語「山田太郎」の重要度 = 1.0
単語「佐藤花子」の重要度 = 1.0
となる。その後、次のプロセスが存在するか否かを調べ(ステップ170)、存在する場合には検索条件作成部2は、次のプロセスの先頭を処理対象に設定し、ステップ120へ戻る。次のプロセスが存在しなければ、入出力部1は検索結果を出力する(ステップ180)。
【0023】
以下、Process.2の処理を図4を参照して説明する。
ステップ120では、検索ワードの項目の内容は「Process.1のランキング結果」であるのでステップ130へ進む。ステップ130において、「山田太郎」、「佐藤花子」をそれぞれ検索ワードとする検索を行うために、処理順序の項目にProcess.2−1とProcess.2−2とを追加する。その結果、検索状況一時記憶部の内容は図4(c)のようになる。ここで、追加したProcess.2−1の先頭を処理対象に設定してステップ140へ進む。
【0024】
ステップ140では、文書検索部4は「山田太郎」を検索ワードにして文書検索を行う。例えば、図2の文書集合の場合、「山田太郎」で検索すると、doc1、 doc3、 doc5がヒットし、図4(d)に示すようにProcess.2−1の結果文書リストの項目にはこれらの文書が登録される。ステップ150では、doc1、 doc3, doc5に出現する組織名「○○大学」と「△△大学」が抽出される。
【0025】
Process.2−1の重みづけ方法の項目の内容が「Process.1の結果文書リスト」であるので、ステップ160では、Process.1の結果文書にリストの項目に登録されているdoc1に含まれる組織名が優先されるような重み付けを行う。ここでw= 1.0、w=10.0 とすると、
Figure 2004295797
となり、Process.1でヒットした文書に含まれる組織名「○○大学」に高い重要度が付与される。
【0026】
Process.2−2の処理も上記と同様である。この場合、「佐藤花子」を含む文書は doc2、doc4であり、組織名としてdoc4から「××大学」が抽出される。w = 1.0, w = 10.0とすると、単語「××大学」の重要度 = 1.0 + 10.0 × 0 = 1.0となり、重要度は低いが所属組織として抽出することができる。
【0027】
図4(e)に最終的な処理結果を示す。即ち、“「燃料電池」に関連する人の名前とその所属組織”という検索要求に対し、
”山田太郎” ○○大学
”佐藤花子” ××大学
がユーザに提供される。
【0028】
以上説明したように、第1の実施形態によれば、あるテーマに関連する人の名前とその所属組織を検索する際に、テーマを表す単語を検索ワードとした検索でヒットした文書が、人名を表す単語を検索ワードとした別の検索でもヒットした場合に、その文書の重みを大きく設定することにより、テーマを表す単語、人名を表す単語、及び組織を表す単語が同じ文書に揃って出現している場合に、優先的にその文書に記載の組織を表す単語を所属組織として抽出することができる。更に、テーマを表す単語を含んでいない文書からも組織名を抽出し、その人の所属組織を発見ですることができる。これによって、情報の取りこぼしを減らし、高精度の情報を得ることが可能になる。
【0029】
第2の実施形態
第1の実施形態では、人名は姓と名が揃っている場合には効果的に所属組織を検索できる。しかし、人名は常に姓と名が揃って文書中に出現するとは限らない。例えば、「山田教授」のように姓のみが役職と共に出現し、名が文書中に現れないことがある。以下に説明する第2の実施形態によれば人名から所属組織を検索する際に、人名が姓だけで表される文書からも所属組織を見つけることができる。第2の実施形態の情報検索装置の構成は、図1に示した実施の形態1と同様であるが、図5に示すように、文書情報記憶部3に各単語の出現位置を示す情報も格納する点で第1の実施形態と異なる。尚、出現位置は、文書の先頭からの文字数である。
【0030】
第2の実施形態の装置の動作を図6のフローチャートとを参照して以下に説明する。ここでは、入出力部1が「燃料電池」に関連する人の名前とその所属組織を検索要求として受け付けたものとする。
【0031】
ステップ200では第1の実施形態のステップ100と同様の処理を行う。但し、第2の実施形態ではProcess.2に代えてProcess.2aをProcess.1の後に実行するように設定する。
Process.2aではProcess.1で抽出された「姓」の中、重要度の大きい、即ち順位の高いものについてその「姓」を含む文書を検索し、検索された文書に出現する単語の中、単語種別が組織であるものを抽出する。Process.2aではまた、Process.1で抽出された「姓」の中、その近傍(例えば出現位置が10文字以内)に「役職」を表す単語が存在するものに大きい重要度を付与する。図7(a)にこれらの手順を実行した後の検索状況一時記憶部の状態を示す。
【0032】
ステップ210では第1の実施形態のステップ110と同様の処理を行いステップ220へ進む。ステップ220では、第1の実施形態のテップ120と同様、検索ワードの項目が単語であるか否かを判断する。Process.1では図7(a)に示すように検索ワードの項目は、単語「燃料電池」であるのでステップ240へ進む。Process.2aの処理では検索ワードの項目は、「Process.1のランキングの「姓」」であるのでステップ230へ進み、ステップ230において第1の実施形態のステップ130と同様の処理を行ってステップ240へ進む。
【0033】
ステップ240では第1の実施形態のステップ140と同様の処理を行う。例えば、図5の文書集合において、「燃料電池」で検索した場合には、doc1がヒットするので、Process.1の結果文書リスト項目にdoc1を登録する(図7(b))。続いてステップ250で第1の実施形態のステップ150と同様の処理を行い、ステップ260へ進む。ステップ260では、doc1を検索し、その中に含まれる「人名」または「姓」、及びそれらに付随する「役職」を抽出する。単語ランキング部52は、設定された重みづけ方法に従って抽出された単語をランキングする。ランキングは次の条件に従って行う。
【0034】
条件1:重みづけ方法の項目の内容が「Process.mのランキングの役職」ならば、検索ワードと一致した「姓」の近傍(例えば、出現位置が10文字以内)に、Process.mのランキングの役職が存在するかどうかをヒットした各文書についてチェックする。存在すれば、その文書の重みを大きくする。別の役職が存在すれば、その文書の重みを低くする。
本実施形態では、検索ワード(姓)と同じ単語tが文書D1〜Dnに出現した場合、
【数2】
Figure 2004295797
で計算する。
doc_appear(Dk,m)は、文書Dk中に、検索ワード(姓)と一致する単語の近傍に、ランキング結果の「役職」が存在するならばw1、別の役職が存在するならば−w2、役職が存在しないなら0の値を取る。具体例は後述する。
条件2: 第1の実施形態のステップ160の条件2と同様のランキング処理を行う。
【0035】
ランキング処理の終了後、ステップ270へ進み、第1の実施形態のステップ170と同様の処理を行い、続いてステップ280で第1の実施形態のステップ180と同様の処理を行う。
【0036】
Process.1において、ステップ260までの処理が終了すると、Process.2aの先頭を処理対象に設定し、ステップ210へ戻る。以下、Process.2aの処理を図6参照して説明する。
ステップ220では、Process.2の検索ワード項目は、Process.1のランキング結果であると判定し、ステップ230へ進む。ステップ230では、”山田太郎”の姓の「山田」を検索ワードに設定するための処理を、検索状況一時記憶部に追加する。その結果、検索状況一時記憶部の状態は図7(c)のようになる。そして追加されたProcess.2a−1の先頭を処理対象に設定してからステップ240へ進む。
【0037】
ステップ240において、文書検索部4は「山田」を検索ワードにして検索を行う。例えば図5の文書集合の場合、doc1、 doc2、 doc3がヒットするので図7(d)に示すように、Process.2a−1の結果文書リストの項目にdoc1、 doc2、 doc3を登録する。ステップ250では、図5に示す文書情報記憶部の内容に基づき、doc2, doc3に含まれる組織名「○○大学」、「△△大学」を抽出する。
【0038】
Process.2a−1の重みづけ方法の項目が「Process.1のランキングの「役職」」なので、ここではdoc1に記載された役職「教授」が「山田」の近傍に出現する文書が優先され、大きな重みが付与される。
例えば、w = 1.0, w = 10.0, w = 10.0とすると、
単語「○○大学」の重要度 = w + doc_appear(doc2,1) = (1.0 + 10.0) = 11.0
単語「△△大学」の重要度 = w + doc_appear(doc3,1) = (1.0 + (−10.0)) = −9.0
となる。このように、「山田」と「教授」が近い位置にある文書doc2に含まれる組織名「○○大学」が優先されて大きな重要度が付与され、doc3は「山田」と「助教授」が近くにある文書のため、小さな重要度が付与される。
【0039】
図7(d)に、最終的な処理結果を示す。結果として、「燃料電池」に関連する人の名前とその所属組織は、“山田太郎”(○○大学)となる。
以上説明したように、第2の実施形態によれば、例えば「山田教授」のように「姓」と「役職」が共に出現する場合には「名」が書かれないことを考慮し、人名から所属組織を検索する際には、姓だけで検索を行い、先立って行われた検索で抽出された「役職」(あるいは「名」)が抽出された姓の近傍にあるかどうかをチェックすることで、高精度に所属組織を抽出できる。
【0040】
第3の実施形態
第1、第2の実施形態では検索対象文書の種類を特に限定していないが、第3の実施形態ではWebサイトに公開され、URL(Universal Resource Locator)で位置を特定できる文書に検索対象を限定し、文書の重み付けを行う際にそのURLを利用する。
【0041】
例えば、図2(1)のdoc1のURLが「http://www.aaa.ac.jp」から始まり、doc3のURLが、 「http://www.bbb.ac.jp」から始まる場合には、この2つの文書に出現する「山田太郎」は別人である可能性が高い。なぜなら、2つの文書のweb上の位置が大きく異なるからである。
反対に、例えば、doc2とdoc4のURLが「http://www.aaa.ac.jp/lab/xxxx」まで一致するならば、2つの文書に出現する「佐藤花子」は同一人物である可能性が高い。そこで第3の実施形態では、検索された文書のURLの位置関係を利用して重み付けを行う。
【0042】
図8に第3の実施形態の情報検索装置の構成を示す。同図に示すように、第3の実施形態は、文書位置類似度判定部6が追加されている点で第1の実施形態と構成が異なる。
文書位置類似度判定部6は、2つのURLを比較入力として受け取り、2つのURLの位置関係を示す情報を類似度として出力する機能を有する。また、文書情報記憶部3は各文書のURL情報も格納している。ここで、図2に示した各文書が次のURLを持つものとする。
【0043】
doc1: http.//www.aaa.ac.jp/xx/yy/personl.html
doc2: http://www.aaa.ac.jp/lab/xxxx/al.html
doc3: http://www.bbb.ac.jp/zz/ww/index. html
doc4: http://www.aaa.ac.jp/lab/xxxx/bl.htm
doc5: http://www.aaa.ac.jp/zz/ww/pp/index. html
【0044】
次に、図9を参照して第3の実施形態の動作を説明する。第3の実施形態の動作は、ステップ100からステップ150、ステップ170、及びステップ180については第1の実施形態と同じであり、ステップ160に代えて以下に説明するステップ300を実行する点で第1の実施形態と異なる。
ステップ300において、単語ランキング部52は下記の条件に従って文書を重み付けし、単語をランキングする。
【0045】
条件2は、第1の実施形態のステップ160の条件2と同様であるので説明は省略し、条件1について説明する。
条件1: 重みづけ方法の項目の内容が「Process.mの結果文書リスト」ならば、再度の検索で抽出された単語tが出現した文書のURLとProcess.mの検索文書リストにある各文書のURLとを比較し、比較結果に基づいて単語tに重要度を付与する。本実施形態では単語tの重要度を下記の式に従って計算する。
【数3】
Figure 2004295797
【0046】
関数url_distanceの値は、文書位置類似度判定部6が例えば以下に示す手順で計算する。
http://www.aaa.ac.jpとhttp: /www.bbb.ac.jpのように、ドメイン名が異なる場合(前者はaaa.ac.jp,後者はbbb.ac.jp)には0とする。
http://www.xx.aaa.ac.jpとhttp://www.yy.aaa.ac.jpのように、サブドメイン名が異なる場合(前者はxx.aaa.ac.jp,後者はyy.aaa.ac.jp)には0.1とする。
http://www.yy.aaa.ac.jp/info/1.htとhttp://www.yy.aaa.ac.jp/org/2.htmlのように、ドメイン名のみが一致している場合は0.2とする。
【0047】
さらに、ディレクトリの一致状況に応じて次のように点数付けを行う。
「http://www.aaa.ac.jp/level−1/」までなら、0.5
「http://www.aaa.ac.jp/level−1/level−2」までなら、0.75(1/2 + 1/4)
「http://www.aaa.ac.jp/level−1/level−2/level−3」までなら、0.875 (1/2 + 1/4 + 1/8)

【数4】
Figure 2004295797
とする。例えば、doc1とdoc5では、 http://www.aaa.ac.jpまでが一致するので0.2となる。
【0048】
以下、「山田太郎」の所属組織の計算結果について述べる。抽出された組織名は、
「○○大学」と「△△大学」である。w = 1.0, w = 10.0で計算すると、
Figure 2004295797
【0049】
次に、「佐藤花子」の所属組織の計算結果について述べる。抽出された組織名は「××大学」である。同様に、w = 1.0, w = 10・0で計算すると、
Figure 2004295797
となる。第1の実施形態では重みが低かったが、第3の実施形態では、doc2とdoc4のURLが類似しているために重みが高くなっている。
【0050】
第3の実施形態では、ランキングを行う際にURLの位置関係を利用し、同じサイトにある場合など、位置が近い文書に高い重みを設定することにより高精度に重み付けを行うことができる。
【0051】
以上説明した第1〜第3の実施形態は、ユーザからの検索要求が、あるテーマに関連する人の名前と所属組織の抽出である場合についてのものであるが本発明はそれに限定されるものではない。例えば、図4で、Process.1の出力情報を組織名とし、Process.2の出力情報を人名とすることにより、あるテーマに関連した組織名とその組織に所属する人の名を抽出することもできる。
文書検索部4はキーワード検索を行うものに限られない。ユーザからの検索入力を、「燃料電池」のような単語に代えて文書とし、文書検索部4で類似文書検索を行うようにしてもよい。
第3の実施形態で説明したURL距離の計算方法は、一例であり、URLの比較結果に基づき、文書間の距離を求める任意の方法を用いることができる。
【0052】
第1、2、3の実施形態における重みの計算方法を、特開平11−25108に記載の重み計算方法と組み合わせることも可能である。
第2の実施形態では、Process.2の重み付けでは「役職」を用いたが、「名」を用いてもよい。また、第1の実施形態と第2の実施形態とを組み合わせてもよい。
各実施形態では、検索を検索ワードを代えて連続して行っているが、最初の人名抽出結果だけをユーザに出力し、ユーザが指定した人名についてだけ所属組織を検索するようにしてもよい。
【0053】
【発明の効果】
本発明によれば、特定の文書集合から特定のキーワードを含む文書を検索し、更に検索された文書の集合から該特定のキーワードに関連する他のキーワードを含む文書を検索することによりユーザが求める情報を提供する情報検索装置において、従来に比べ、誤った情報を提供する可能性及び正しい情報を取りこぼす可能性が大幅に低減される。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る情報検索装置の構成を示すブロック図である。
【図2】実施の形態1の情報検索装置の文書情報記憶部の構造を示す図である。
【図3】実施の形態1の情報検索装置の動作を説明するフローチャートである。
【図4】実施の形態1の情報検索装置の検索状況一時記憶部の状態の変化を説明する図である。
【図5】実施の形態1の情報検索装置の文書情報記憶部の構造を示す図である。
【図6】本発明の実施の形態2に係る情報検索装置の動作を説明するフローチャートである。
【図7】実施の形態2の情報検索装置の検索状況一時記憶部の状態の変化を説明する図である。
【図8】本発明の実施の形態3に係る情報検索装置の構成を示すブロック図である。
【図9】実施の形態3の情報検索装置の動作を説明するフローチャートである。
【符号の説明】
1 入出力部、 2 検索条件作成部、 3 文書情報記憶部、 4 文書検索部、 5 キーワード自動抽出部、 6 文書位置類似度判定部、 51 出現単語呼び出し部、 52 単語ランキング部。

Claims (9)

  1. 検索対象文書集合から特定の検索ワードを含む第1の文書を検索し、該第1の文書から所定の抽出条件に合致する第1の単語を抽出し、前記検索対象文書集合から該抽出された第1の単語を含む第2の文書を検索し、該第2の文書から所定の抽出条件に合致する第2の単語を抽出する手段を有する情報検索装置であって、
    前記第2の文書に、前記第1の文書の検索結果に応じた重みを付与する重み付け手段と、
    前記第2の文書の重みに応じて前記第2の単語に重要度を付与して順位付けする第1のランキング手段と
    を備えることを特徴とする情報検索装置。
  2. 前記第2の文書が複数ある場合、前記第1のランキング手段は複数の第2の文書のそれぞれの重みの和に応じた重要度を前記第2の単語に付与することを特徴とする請求項1に記載の情報検索装置。
  3. 第1の単語に、少なくとも該第1の単語の出現頻度を含む統計情報に基づいて重要度を付与する第2のランキング手段を備え、第1の単語が複数抽出された場合には、そのうちの重要度の高いものについてそれぞれ第2の単語を抽出することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記重み付け手段は、前記第2の文書が前記第1の文書と同じ文書である場合に該第2の文書に大きな重みを付与することを特徴とする請求項1から3のいずれか一項に記載の情報検索装置。
  5. 前記検索対象文書集合はwebサイトに表示される文書の集合であり、前記重み付け手段は、前記第2の文書のURLと前記第1の文書のURLとを比較し、比較結果に基づいて該第2の文書に重みを付与することを特徴とする請求項1から3のいずれか一項に記載の情報検索装置。
  6. 前記重み付け手段は、前記第1の単語の少なくとも一部が前記第2の文書に含まれる場合に、該第2の文書に大きな重みを付与することを特徴とする請求項1から3のいずれか一項に記載の情報検索装置。
  7. 前記第1の単語が人名を表す単語であり、前記第2の単語が所属組織を表す単語である場合、前記第1のランキング手段は、前記第2の文書において前記第1の文書に含まれる役職を表す順位の高い単語と同じ単語が前記第1の単語の近傍に現れる場合に該第2の文書に大きな重みを付与することを特徴とする請求項3に記載の情報検索装置。
  8. 前記第1の単語が人名を表す単語であり、前記第2の単語が所属組織を表す単語である場合、前記第1のランキング手段は、前記第2の文書において前記第1の単語の近傍に現れる役職を表す単語が前記第1の文書に含まれる役職を表す順位の高い単語と異なる場合に該第2の文書に小さな重みを付与することを特徴とする請求項3に記載の情報検索装置。
  9. 前記第1の単語が人名を表す単語であり、前記第2の単語が所属組織を表す単語である場合、前記第1のランキング手段は、前記第1の単語の名を表す部分が、前記第2の文書において順位の高い姓を表す単語の近傍に現れる場合に該第2の文書に大きな重みを付与することを特徴とする請求項3に記載の情報検索装置。
JP2003090394A 2003-03-28 2003-03-28 情報検索装置 Withdrawn JP2004295797A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003090394A JP2004295797A (ja) 2003-03-28 2003-03-28 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003090394A JP2004295797A (ja) 2003-03-28 2003-03-28 情報検索装置

Publications (1)

Publication Number Publication Date
JP2004295797A true JP2004295797A (ja) 2004-10-21

Family

ID=33404033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003090394A Withdrawn JP2004295797A (ja) 2003-03-28 2003-03-28 情報検索装置

Country Status (1)

Country Link
JP (1) JP2004295797A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172282A (ja) * 2004-12-17 2006-06-29 Canon Inc 文書管理システム、文書管理方法、コンピュータプログラム
JP2007241794A (ja) * 2006-03-10 2007-09-20 National Institute Of Information & Communication Technology 多義語による情報検索装置及びプログラム
JP2009252186A (ja) * 2008-04-10 2009-10-29 Ricoh Co Ltd 情報配信装置、情報配信方法、情報配信プログラム及び記録媒体
WO2009154153A1 (ja) * 2008-06-18 2009-12-23 日立ソフトウエアエンジニアリング株式会社 文書検索システム
JP2011221979A (ja) * 2010-04-02 2011-11-04 Qinghua Univ 検索支援システム、検索支援方法及び検索支援プログラム
JP6094937B1 (ja) * 2016-09-30 2017-03-15 剛一 尾和 特許文献集合のスクリーニング方法
JP2019101591A (ja) * 2017-11-30 2019-06-24 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172282A (ja) * 2004-12-17 2006-06-29 Canon Inc 文書管理システム、文書管理方法、コンピュータプログラム
JP4612834B2 (ja) * 2004-12-17 2011-01-12 キヤノン株式会社 文書管理システム、文書検索方法、コンピュータプログラム、文書検索装置
JP2007241794A (ja) * 2006-03-10 2007-09-20 National Institute Of Information & Communication Technology 多義語による情報検索装置及びプログラム
JP2009252186A (ja) * 2008-04-10 2009-10-29 Ricoh Co Ltd 情報配信装置、情報配信方法、情報配信プログラム及び記録媒体
WO2009154153A1 (ja) * 2008-06-18 2009-12-23 日立ソフトウエアエンジニアリング株式会社 文書検索システム
JP2010003015A (ja) * 2008-06-18 2010-01-07 Hitachi Software Eng Co Ltd 文書検索システム
US8407232B2 (en) 2008-06-18 2013-03-26 Hitachi Solutions, Ltd. Document search system
JP2011221979A (ja) * 2010-04-02 2011-11-04 Qinghua Univ 検索支援システム、検索支援方法及び検索支援プログラム
JP6094937B1 (ja) * 2016-09-30 2017-03-15 剛一 尾和 特許文献集合のスクリーニング方法
JP2018060488A (ja) * 2016-09-30 2018-04-12 剛一 尾和 特許文献集合のスクリーニング方法
JP2019101591A (ja) * 2017-11-30 2019-06-24 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP7074999B2 (ja) 2017-11-30 2022-05-25 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム

Similar Documents

Publication Publication Date Title
JP4638439B2 (ja) ウェブ検索の個人化
JP5379696B2 (ja) 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア
US9245022B2 (en) Context-based person search
US9189548B2 (en) Document search engine including highlighting of confident results
KR101361182B1 (ko) 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법
US20120076414A1 (en) External Image Based Summarization Techniques
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
US10282358B2 (en) Methods of furnishing search results to a plurality of client devices via a search engine system
JP2006092557A (ja) 検索エンジンから返されるページのランキングを制御するシステムおよび方法
JP2002041546A (ja) 階層的統計分析のシステム及び方法
WO2007069244A2 (en) Method for assigning one or more categorized scores to each document over a data network
US20070239692A1 (en) Logo or image based search engine for presenting search results
JPH11102376A (ja) 検索照会に関係のあるデータベースから抽出されたテキストを自動表示する方法および装置
KR100485321B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
JP2010097461A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2007520788A (ja) ウェブページに対する地理的位置識別子の割当て
JP2004295797A (ja) 情報検索装置
KR20000030486A (ko) 지역정보 검색전용 인터넷 정보 검색 시스템 및 이를이용한 인터넷 정보 검색 방법
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
Pu et al. Location based recommendation for mobile users using language model and skyline query
JP5072792B2 (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
US7490082B2 (en) System and method for searching internet domains
JP5397198B2 (ja) 話題推薦装置、話題推薦装方法およびプログラム
JP2003208447A (ja) 文書検索装置、文書検索方法、文書検索プログラム及び文書検索プログラムを記録した媒体
JP2010282403A (ja) 文書検索方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060606