JP2005173847A - 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体 - Google Patents

情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2005173847A
JP2005173847A JP2003411145A JP2003411145A JP2005173847A JP 2005173847 A JP2005173847 A JP 2005173847A JP 2003411145 A JP2003411145 A JP 2003411145A JP 2003411145 A JP2003411145 A JP 2003411145A JP 2005173847 A JP2005173847 A JP 2005173847A
Authority
JP
Japan
Prior art keywords
search
keyword
unit
evaluation
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003411145A
Other languages
English (en)
Inventor
Hisashi Hashimoto
尚志 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003411145A priority Critical patent/JP2005173847A/ja
Publication of JP2005173847A publication Critical patent/JP2005173847A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】キーワードや自然文による検索では目的情報の記述表現を捜し当てる為の試行錯誤に手間がかかり、シソーラス技術による検索では意図しない情報がヒットするために目的情報が埋もれて見つけられず、段階検索を用いた検索では意図しない情報がヒットするために目的情報が埋もれてしまって見られない。
【解決手段】検索キーワード生成部12と検索キーワードの有用度を評価する検索キーワード評価部13と検索対象文書の有用度を評価する検索対象文書評価部14と検索キーワード及び検索対象文書の評価に基づいて検索条件式を生成する検索条件式生成部15と生成された検索条件式に基づいて検索を実行する検索部16と検索結果の有用度を評価する検索結果評価部とを有し検索結果の評価で特定のヒット率が得られるまで、検索キーワードの妥当性並びに検索条件式を緩めながら検索を繰り返す機能を備えた。
【選択図】 図1

Description

本発明は、検索者が検索文の試行錯誤を繰り返すことなく、目的の情報を入手することが可能な情報検索装置、情報検索方法及びプログラムに関する。

以下に、情報検索装置の従来例を説明する。
(1) :従来例1
以下、「キーワードならびに自然文による情報検索」の例を従来例1として説明する。
一般に利用されるキーワードならびに自然文による情報検索では、目的の情報に含まれると思われるキーワードならびに記述表現を推測、その推測から検索文を指定、検索を実施する。そして、その結果から目的の情報が見つからない場合、その結果を踏まえて、検索文を変更(キーワードの記述表現を変更もしくはキーワードそのものの変更や追加、削除)、再度、検索を実施する。
(2) :従来例2
以下、「シソーラス技術を用いた情報検索」を従来例2として説明する。一般に利用されているシソーラス技術を用いた情報検索では、目的の情報に含まれると思われるキーワードならびにそのキーワードの記述表現を推測、その推測から検索文を指定、検索を実施する。ただしその際、検索文で指定されたキーワードは、シソーラス技術により類義語や同義語、類似記述表現が追加された上で、検索が実施される。
(3) :従来例3
以下、「検索条件式緩和による段階情報検索」を従来例3として説明する。検索条件式緩和による段階情報検索では、検索キーワードや検索対象文書を評価せずに、検索結果のみの評価によって、検索条件を緩やかにしていくのが一般的である。
(4) :従来例4
以下、特許文献1を従来例4として説明する。従来例4は、詳細に指定したために、かえって該当する情報が得られなかった場合でも、利用者が検索条件を再指定することなく、必要とする情報を含む期待数の検索結果をデータベースから抽出することを可能とする情報検索装置に関するものである。
このため、前記情報検索装置は、条件入力部で入力された検索条件を用いて、検索処理部は検索条件に該当する情報をデータベースから検索する。該当する情報が存在しなければ、検索条件を変更して再検索処理を行い、予め定めた期待数の検索結果を得るまで繰り返す。
(5) :従来例5
以下、特許文献2を従来例5として説明する。従来例5は、検索結果をチェックしながら、検索条件を順次加えていったり、上位概念を用いて再試行するなどして段階的に検索を行う情報検索方式に関するものである。
そして、前記情報検索方式では、段階的にキーワードを選択して検索結果を絞り込んでいき、また0件であれば上位概念を利用して条件を緩めるなどして検索を進めていくので、検索失敗の確率が少なくなり、また条件が緩すぎたために検索結果に余分なデータが多く含まれてしまうということがなくなる。また、検索履歴が保存されるので、どのような条件で検索に失敗したのかを容易に知ることができるというものである。
(6) :従来例6
以下、特許文献3を従来例6として説明する。従来例6は、論理構造の異なる複数の文書に対する検索においても、高い再現率で検索可能にする構造化文書検索装置に関するものである。この構造化文書検索装置では、検索式が入力されると、検索式生成手段が検索式に示された検索条件を段階的に緩やかな条件に書き換え条件緩和検索式を生成する。
そして、確度計算手段は各条件緩和検索式を生成するのに行った書き換えの内容に応じて、条件緩和検索式による検索結果の確からしさを示す確度を計算する。検索実行手段は入力された検索式と検索式生成手段により生成された条件緩和検索式のそれぞれにより、文書保持手段の構造化文書を対象として検索を実行する。検索結果併合手段は検索実行手段による検索結果を、確度の高い順に並べて併合する。これにより、、正しく論理構造が作成されていない文書も検索することができ、再現率が向上するというものである。
特開2002−304414(P2002−304414A) 特開平2−189680号公報 特開平10−198697号公報

(1) :前記従来例1では、目的の情報が見つかるまで、検索文の変更(キーワードの推測)、検索実施、検索結果の確認といった試行錯誤の繰り返しとなるのだが、検索文で指定されたキーワードの記述表現と目的の情報の記述表現が一致しない場合、目的の情報が検索されない。また、キーワードならびに自然文による情報検索では、検索者は目的の情報で使用されている記述表現を探し当てるための試行錯誤に手間がかかってしまう。
(2) :前記従来例2では、キーワードと目的の情報との記述表現の差異による検索漏れは少なくなるが、同時に、検索者が意図しない情報までも検索されることになり、目的の情報が埋もれて見つかり難くなってしまう。すなわち、シソーラス技術を用いた情報検索では、検索者は意図しない情報がヒットするために目的の情報が埋もれてしまって見つけられない。
(3) :前記従来例3では、検索ヒット件数の確保が優先となり、検索者が意図しない情報までも検索されることになり、目的の情報が埋もれて見つかり難くなってしまう。すなわち、段階検索を用いた情報検索では、検索者は意図しない情報がヒットするために目的の情報が埋もれてしまって見つけられない。
(4) :前記前記従来例4、5、6は、本発明の参考技術程度のものであり、本発明のように「検索者が検索文の試行錯誤を繰り返すことなく、目的の情報を入手する」技術とは全く異なっている。
本発明は、検索文の精度、検索対象となる文書の品質、検索結果という3点を評価し、確度の高い情報が入手できるまで、評価、検索、条件式変更を繰り返すことにより、検索者が検索文の試行錯誤を繰り返すことなく目的の情報を入手できるようにすることを目的とする。

本発明は前記の目的を達成するため、次のように構成した。
(1) :入力されたキーワード及び文章を基に検索キーワードを生成する検索キーワード生成部と、前記検索キーワード生成部で生成された検索キーワードの有用度(精度)を評価する検索キーワード評価部と、検索対象文書の有用度(品質)を評価する検索対象文書評価部と、前記検索キーワード及び検索対象文書の評価に基づいて検索条件式を生成する検索条件式生成部と、前記検索条件式生成部で生成された検索条件式に基づき検索を実行する検索部と、前記検索部による検索結果の有用度(妥当性)を評価する検索結果評価部とを有し、前記検索条件式生成部、検索部及び検索結果評価部とにより、前記検索結果の評価で特定のヒット率が得られるまで、検索キーワードの妥当性並びに検索条件式を緩めながら検索を繰り返すことで、確度の高い検索結果を得る機能を備えている。
(2) :前記(1) の情報検索装置において、前記検索結果評価部の評価で特定のヒット率が得られたら、検索結果評価部で得られた結果一覧を評価する結果一覧評価部と、前記結果一覧評価部により評価された結果一覧を、表示装置の画面に表示する結果表示部とを備えていることを特徴とする。
(3) :入力されたキーワード及び文章を基に検索キーワードを生成する検索キーワード生成手順と、前記検索キーワード生成手順で生成された検索キーワードの有用度(精度)を評価する検索キーワード評価手順と、検索対象文書の有用度(品質)を評価する検索対象文書評価手順と、前記検索キーワード及び検索対象文書の評価に基づいて検索条件式を生成する検索条件式生成手順と、前記検索条件式生成手順で生成された検索条件式に基づき検索を実行する検索手順と、前記検索手順による検索結果の有用度(妥当性)を評価する検索結果評価手順とを有し、前記検索条件式生成手順、検索手順及び検索結果評価手順とにより、前記検索結果の評価で特定のヒット率が得られるまで、検索キーワードの妥当性並びに検索条件式を緩めながら検索を繰り返すことで、確度の高い検索結果を得ることを特徴とする。
(作用)
図1は本発明の原理説明図である。以下、図1を参照しながら、前記構成の作用を説明する。
検索キーワード生成部12は、入力取得部11により取得したキーワード及び文章に基づき検索キーワードを生成し、検索キーワード評価部13は、検索キーワード生成部12で生成された検索キーワードの有用度(精度)を評価する。次に、検索対象文書評価部14は、検索対象文書の有用度(品質)を評価する。
そして、検索条件式生成部15は、検索キーワード及び検索対象文書の評価結果に基づいて検索条件式を生成し、検索部16は前記検索条件式生成部15で生成された検索条件式に基づき検索を実行する。また、検索結果評価部17は、検索部16による検索結果の有用度(妥当性)を評価する。
この場合、前記検索条件式生成部15、検索部16及び検索結果評価部17とにより、検索結果の評価で特定のヒット率が得られるまで、検索キーワードの妥当性並びに検索条件式を緩めながら検索を繰り返すことで、確度の高い検索結果を得る。
このようにして、検索文の有用度(精度)、検索対象となる文書の有用度(検索対象となる文書の品質)、検索結果の有用度(妥当性)の3点を評価し、確度の高い情報が入手できるまで、評価、検索、条件式変更を繰り返すことにより、検索者が検索文の試行錯誤を繰り返すことなく目的の情報を入手することが可能になる。
すなわち、検索文の精度、検索対象となる文書の品質、検索結果という3点を評価し、確度の高い情報が入手できるまで、評価、検索、条件式変更を繰り返すことにより、検索者が検索文の試行錯誤を繰り返すことなく目的の情報を入手できる。

請求項1乃至5によれば次のような効果がある。
(1) :検索者が、目的の情報を検索するために検索文の試行錯誤を繰り返すことなく、検索文の有用度(精度)、すなわち、一般的に使用されているキーワードの適切な指定、探したい情報に関する十分な記述量と、検索対象となる情報の有用度(検索対象となる文書の品質)、すなわち、一般的に使用されている適切な表記、情報に関する十分な記述量と、検索結果に応じて自律的に適切な検索条件式変更、検索が繰り返された結果を得ることができるので、実用的に十分有用である。
(2) :検索者の試行錯誤による手間を省き、検索者にとってより適切と思われる検索結果を得ると共に、検索キーワード(文)ならびに検索対象文書の評価による検索条件式の生成により、必要以上の検索条件の緩和を抑制し、検索者にとってより適切と思われる検索結果をヒット件数をできるだけ増やさずに得ることが可能である。
(3) :検索文の精度、検索対象となる文書の品質、検索結果という3点を評価し、確度の高い情報が入手できるまで、評価、検索、条件式変更を繰り返すことにより、検索者が検索文の試行錯誤を繰り返すことなく目的の情報を入手できる。
§1:システム構成例の説明
図2は情報検索装置の構成図である。以下、図2に基づいて情報検索装置の構成例を説明する。この情報検索装置は、情報検索装置本体1と、該情報検索装置1に接続されたデータ入力部2、表示装置3、外部記憶装置4等で構成されている。そして、前記情報検索装置本体1には、入力取得部11、検索キーワード生成部12、検索キーワード評価部13、検索対象文書評価部14、検索条件式生成部15、検索部16、検索結果評価部17、結果一覧評価部18、結果表示部19、ワークメモリ20等が設けてある。
情報検索装置本体1は、パーソナルコンピュータ、ワークステーション、その他の各種コンピュータの本体で構成されている。データ入力部2は、入力キーワードや検索文等のデータを入力する手段(例えば、キーボード)で構成されている。表示装置3は各種情報を表示するための表示画面を有する装置(ディスプレイ装置)である。外部記憶装置4は、磁気ディスク装置(ハードディスク装置)や光ディスク装置等で構成されている。
また、入力取得部11は、データ入力部2から入力したデータ(検索者の入力したキーワード/検索文等)を取得するものである。検索キーワード生成部12は、入力データに基づき検索キーワードを生成するものである。例えば、キーワードの場合、入力されたキーワードそのまま(区切り記号がある場合には切り出し)、検索文(文章)の場合には、辞書によるキーワード切り出しを行う。
検索キーワード評価部13は、検索キーワード生成部12によって生成された検索キーワードのキーワードスコア(表記品質、品詞など)を算出、また、正式表現や言い換え表現などの追加キーワードをそれぞれのキーワードスコアと共に付与するものである。例えば次のようにする。
例1):
表記品質によるスコア 指定されたキーワード>正式表現>言い換え>関連
品詞によるスコア 名詞>動詞>助詞
検索対象文書評価部14は、検索キーワード生成部12によって生成された検索キーワード並びに検索キーワード評価部13により付与された追加キーワードの検索対象文書中での組み合わせスコア(キーワードスコア、頻度、出現順、近接度など)を算出、組み合わせが複数ある場合には、それぞれの組み合わせのスコアを算出することで、検索対象文書の評価を行うものである。
検索条件式生成部15は、検索対象文書評価部14で最も組み合わせスコアの高い組み合わせに基づいて検索条件式を作成(生成)するものである。検索部16は前記生成された検索条件式に基づいて検索を実行するものである。検索結果評価部17は、検索部16で検索した結果の合計スコア(件数、文書個々のスコアなどの総計)を算出、特定の値を満たすまで、検索条件式生成部15、検索部16、検索結果評価部17の各処理を繰り返す。なお、前記繰り返す意図は、試行錯誤の代行その1(表記のゆれによる検索漏れを防ぐため)である。
結果一覧評価部18は、検索部16で得られた検索結果に対し、順位付け/除外のために文書個々の一覧スコア(入力されたキーワード/検索文との一致度、表記のゆれによる重複など一覧中でのポイント)を算出し、その結果に基づいて検索結果一覧から不要な文書を除外後、順位付けを行うものである。なお、前記除外、順位付けを行う意図は、試行錯誤その2(重複の除外、有効と思われる文書を上位に表示することにより、多数ヒットによる参照漏れを防止するため)である。
結果表示部19は、結果一覧評価部18で適正と評価された検索結果一覧を表示装置3の画面に表示するものである。ワークメモリ20は前記各部がワーク用として使用するものである。
§2:情報検索装置の詳細な構成と機能の説明
図3は情報検索装置の詳細な構成と機能の説明図である。以下、図3に基づいて、図2に示した情報検索装置の各部の詳細な構成と機能を説明する。
入力取得部11は入力文字列取得プログラム31により入力取得処理を行う。検索キーワード生成部12は語句切出プログラム32により切り出し辞書33から語句を切り出すことで検索キーワードの生成処理を行う。検索キーワード評価部13はキーワード評価プログラム34によりキーワードスコアデータベース35を検索しながら検索キーワード評価処理を行う。
検索対象文書評価部14は文書評価プログラム36により文書データベース37の文書を検索しながら検索対象文書評価処理を行う。検索条件式生成部15は条件式作成プログラム38により検索条件式生成処理を行う。検索部16は検索実行プログラム39により検索インデックス40を検索する。
検索結果評価部17は結果評価プログラム41により検索結果評価処理を行う。結果一覧評価部18は一覧評価プログラム42により一覧評価処理を行い、一覧作成プログラム43が一覧(一覧データ)を作成する。結果表示部19は一覧表示プログラム44により結果表示処理を行うことにより、表示装置3(図2参照)の画面に一覧表示を行う。
前記処理を行うに際し、前記入力文字列取得プログラム31、語句切出プログラム32、切り出し辞書33、キーワード評価プログラム34、キーワードスコアデータベース35、文書評価プログラム36、文書データベース37、条件式作成プログラム38、検索実行プログラム39、検索インデックス40、結果評価プログラム41、一覧評価プログラム42、一覧作成プログラム43、一覧表示プログラム44は、全て外部記憶装置4(図2参照)の記憶媒体に記憶させておき、必要に応じて前記各部が取り出して処理を行うものである。
前記構成の情報検索装置では、入力取得部11の入力文字列取得プログラム31により入力取得処理を行い、検索キーワード生成部12の語句切出プログラム32により切り出し辞書33から語句を切り出すことで検索キーワードの生成処理を行い、検索キーワード評価部13のキーワード評価プログラム34によりキーワードスコアデータベース35を検索しながら検索キーワード評価処理を行う。
次に、検索対象文書評価部14の文書評価プログラム36により文書データベース37の文書を検索しながら検索対象文書評価処理を行い、検索条件式生成部15の条件式作成プログラム38により検索条件式生成処理を行い、検索部16の検索実行プログラム39により検索インデックス40の検索を行い、検索結果評価部17の結果評価プログラム41により検索結果評価処理を行い、評価OKとなったら、結果一覧評価部18の一覧評価プログラム42により一覧評価処理を行い、一覧作成プログラム43の一覧(一覧データ)を作成し、結果表示部19の一覧表示プログラム44により結果表示処理を行うことで、表示装置3(図2参照)の画面に一覧表示を行う。
しかし、結果評価プログラム41により検索結果評価処理を行い、評価NGとなった場合には、適当な結果が得られるまで、検索条件式生成部15の条件式作成プログラム38により検索条件式生成処理を行い、検索部16の検索実行プログラム39により検索インデックス40の検索を行い、検索結果評価部17の結果評価プログラム41により検索結果評価処理を行う処理を繰り返して行う。
§3:情報検索装置全体の処理の説明
図4は情報検索装置全体の処理フローチャートである。以下、図4に基づいて情報検索装置全体の処理を説明する。なお、S1〜S10は各処理ステップを示す。
先ず、外部からキーワードや検索文のデータを入力すると、入力取得部11は前記入力データを取得し(S1)、検索キーワード生成部12は前記入力データに基づいて検索キーワードを生成する(S2)。次に、検索キーワード評価部34は前記生成したキーワードの評価を行い(S3)、検索対象文書評価部14は検索対象文書の評価を行う(S4)。
次に、検索条件式生成部15は検索条件式を生成し(S5)、検索部16は前記生成した検索条件式を用いて検索を行う(S6)。次に、検索結果評価部17は検索結果を評価する(S7)。この評価において検索結果評価部17は、前記検索結果の評価は妥当か否かを判断し(S8)、検索結果の評価が妥当でないと判断した場合は前記S5の処理へ移行し、検索結果の評価が妥当であると判断した場合は、結果一覧評価部18が結果一覧の評価を行う(S9)。そして、結果表示部19は表示装置の画面に結果表示を行う(S10)。
§4:各部の詳細な処理の説明
以下、前記情報検索装置の各部について詳細に説明する。
(1) :検索キーワード評価部の処理
図5のA図は検索キーワード評価部の処理説明図である。検索キーワード評価部13はキーワード評価プログラム34によりキーワードスコアデータベース35を検索しながら検索キーワード評価処理を行う。この場合、キーワードスコアデータベース35には図5のA図に示したようなキーワードスコア表が格納されており、このキーワードスコア表には、キーワード、表記品質、品詞、スコアの各項目が格納されている。
そこで、検索キーワード評価部13は、検索キーワードのキーワードスコア(表記品質、品詞など)を算出(キーワードスコアの情報を参照)、また正式表現や言い換え表現などの追加キーワードをそれぞれのキーワードスコアと共に検索キーワードに付与する。
(2) :検索対象文書評価部の処理
図5のB図は検索対象文書評価部の処理説明図である。検索対象文書評価部14は、文書評価プログラム36により文書データベース37の文書を検索しながら検索対象文書評価処理を行う。この場合、文書データベース37には図5のB図に示したような文書スコア表が格納されており、この文書スコア表には、キーワード、表記品質、品詞、スコアの各項目がある。
そこで、検索対象文書評価部14は、検索キーワード並びに検索キーワード評価部13により付与された追加キーワードの検索対象文書中での組み合わせスコア(キーワードスコア、頻度、出現順、近接度など)を算出、組み合わせが複数ある場合には、それぞれの組み合わせの組み合わせスコアを算出する。
(3) :検索結果評価部の処理
図6のA図は検索結果評価部の処理説明図である。検索結果評価部17は、結果評価プログラム41により検索結果評価処理を行う。この場合、検索結果評価部17は、検索結果の合計スコア(件数、文書個々のスコアなどの総計)を算出、特定の値を満たすまで条件式作成から条件式の変更を繰り返す。
すなわち、検索結果評価部17は、検索結果のスコア(件数、文書個々のスコアなどの総計)を算出し、判定を行う。この判定で、前記スコアが特定の値に満たなければ、評価NGとなり、検索条件式生成部15へ移行し、検索対象文書評価部14で付与したスコアの高いものに条件式を変更し、検索部16が再び検索を実行することを繰り返す。
そして、再び、検索結果評価部17は、検索結果のスコア(件数、文書個々のスコアなどの総計)を算出し、判定を行う。この判定で、前記スコアが特定の値を満たしていれば、評価OKとなり、結果一覧評価部18の処理へ移行する。
(4) :結果一覧評価部の処理
図6のB図は結果一覧評価部の処理説明図である。前記のように、検索結果評価部17の結果評価プログラム41により検索結果評価処理を行い、評価OKとなったら、結果一覧評価部18の一覧評価プログラム42により一覧評価処理を行い、一覧作成プログラム43が一覧(一覧データ)を作成する。
この場合、検索結果一覧に含まれる文書に対し、個々の一覧スコア(入力されたキーワード/検索文との一致度、表記のゆれによる重複など一覧中でのポイント)を算出し、その結果に基づいて検索結果一覧から不要な文書を除外後、ソート(順位付け)を行う。
§5:データ構造例の説明
(1) :切り出し辞書のデータ構造例
図7のA図は切り出し辞書のデータ構造例を示す図である。切り出し辞書33は、検索キーワード生成部12の語句切出プログラム32が検索キーワードの生成時に参照する辞書(図3参照)である。
この辞書には、「語句」と「ゆらぎ」があり、「語句」は文章中から切り出すべき語句、「ゆらぎ」は検索者の入力差異を吸収するためのゆらぎ表現である。例えば、語句が「aaaa」であれば、ゆらぎ1は「aaab」、ゆらぎ2は「abaa」・・・である。また、語句が「bbbb」であれば、ゆらぎ1は「bbba」、ゆらぎ2は「abba」・・・である。また、語句が「cccc」であれば、ゆらぎ1は「ccca」、ゆらぎ2は「aaaa」・・・である。
(2) :キーワードスコアデータベースのデータ構造例
図7のB図はキーワードスコアデータベースのデータ構造例を示す図である。キーワードスコアデータベース35(図3参照)は、検索キーワード評価部13が検索キーワードの評価を行う時に検索するデータベースである。
前記キーワードスコアデータベース35のキーワードスコアは、図5のA図に示したキーワードスコア表のことであり、検索キーワード評価部13は、検索キーワードのキーワードスコア(表記品質、品詞など)を算出(キーワードスコアの情報を参照)、また正式表現や言い換え表現などの追加キーワードをそれぞれのキーワードスコアと共に検索キーワードに付与する。
この場合、キーワードスコアデータベースによれば、キーワードは該当するキーワード、表記品質はキーワードの品質、品詞は品詞、スコアは品質、品詞などから算出されるスコアである。例えば、キーワード=「aaaa」であれば、表記品質=A、品詞=名詞、スコア=10である。また、キーワード=「bbbb」であれば、表記品質=B、品詞=動詞、スコア=8である。また、キーワード=「cccc」であれば、表記品質=A、品詞=名詞、スコア=7である。
(3) :文書データベースのデータ構造例
図8は文書データベースのデータ構造例を示す図である。文書データベース37は、検索対象文書評価部14の文書評価プログラム36が検索対象文書評価処理を行う時に検索するものである(図3参照)。
検索対象文書評価部14は、検索キーワード並びに検索キーワード評価部13により付与された追加キーワードの検索対象文書中での組み合わせスコア(キーワードスコア、頻度、出現順、近接度など)を算出、組み合わせが複数ある場合には、それぞれの組み合わせの組み合わせスコアを算出する。この場合、文書データベース37によれば、タイトルは文書タイトル、本文は文書本文、検索キーワードはタイトル、本文に含まれないがヒットして欲しい語句である。
例えば、タイトル=aaaであれば、本文=aaaaaaaaaaaaaaa、検索キーワード1=abc、検索キーワード2=bcdである。タイトル=bbbであれば、本文=bbbbbbbbbbbbbbb、検索キーワード1=abc、検索キーワード2=efgである。タイトル=cccであれば、本文=ccccccccccccccc、検索キーワード1=bcdである。
§6:具体的な装置例と記録媒体の説明
図9は具体的な装置例である。前記情報検索装置は、ワークステーション、パーソナルコンピュータ等の任意のコンピュータにより実現することができる。この装置は、コンピュータ本体51と、該コンピュータ本体51に接続された表示装置3、入力装置(キーボード/マウス等)52、リムーバブルディスクドライブ(「RDD」という)53、ハードディスク装置(「HDD」という)54等で構成されている。
そして、コンピュータ本体51には、内部の各種制御や処理を行うCPU55と、プログラムや各種データを格納しておくためのROM56(不揮発性メモリ)と、メモリ57と、インタフェース制御部(「I/F制御部」という)58と、通信制御部59等が設けてある。なお、前記RDD53には、フレキシブルディスクドライブや光ディスクドライブ等が含まれる。
前記構成の装置において、例えば、HDD54の磁気ディスク(記録媒体)に、前記情報検索装置の処理を実現するためのプログラムを格納しておき、このプログラムをCPU55が読み出して実行することにより、前記情報検索装置が行う処理を実行する。
しかし、本発明は、このような例に限らず、例えば、HDD54の磁気ディスクに、次のようにしてプログラムを格納し、このプログラムをCPU55が実行することで前記処理を行うことも可能である。
a:他の装置で作成されたリムーバブルディスクに格納されているプログラム(他の装置で作成したプログラムデータ)を、RDD53により読み取り、HDD54の記録媒体に格納する。
b:通信回線を介して他の装置から伝送されたプログラム等のデータを、通信制御部59を介して受信し、そのデータをHDD54の記録媒体(磁気ディスク)に格納する。
§7:その他の説明
前記の例では、本発明の情報検索装置を1台のコンピュータ(例えば、パーソナルコンピュータ、ワークステーション等)で構成したが、本発明はこのような例に限らず、次のようにしても実施可能である。
(1) :前記の例(図1、2、3参照)において、検索キーワード評価部13、検索対象文書評価部14、検索条件式生成部15、検索結果評価部17等を、それぞれ独立したコンピュータ(例えば、パーソナルコンピュータ、ワークステーション等)で構成し、その他の部分を別のコンピュータ(例えば、パーソナルコンピュータ、ワークステーション等)で構成して、各コンピュータを通信回線で接続したシステムで構成することも可能である。
(2) :図3に示した切り出し辞書33、キーワードスコアデータベース、文書データベース37、検索インデックス40等を別のコンピュータで構成して、各コンピュータを通信回線で接続したシステムで構成することも可能である。

本発明の原理説明図である。 本発明の実施の形態における情報検索装置の構成図である。 本発明の実施の形態における情報検索装置の詳細な構成と機能の説明図である。 本発明の実施の形態における情報検索装置全体の処理フローチャートである。 本発明の実施の形態における各部の処理説明図(その1)であり、A図は検索キーワード評価部の処理説明図、B図は検索対象文書評価部の処理説明図である。 本発明の実施の形態における各部の処理説明図(その2)であり、A図は検索結果評価部の処理説明図、B図は結果一覧評価部の処理説明図である。 本発明の実施の形態におけるデータ構造例であり、A図は切り出し辞書のデータ構造例、B図はキーワードスコアデータベースのデータ構造例である。 本発明の実施の形態における文書データベースのデータ構造例である。 本発明の実施の形態における具体的な装置例である。
符号の説明

1 情報検索装置本体
2 データ入力部
3 表示装置
4 外部記憶装置
11 入力取得部
12 検索キーワード生成部
13 検索キーワード評価部
14 検索対象文書評価部
15 検索条件式生成部
16 検索部
17 検索結果評価部
18 結果一覧評価部18
19 結果表示部
20 ワークメモリ
51 コンピュータ本体
52 入力装置(キーボード/マウス等)
54 ハードディスク装置(HDD)
55 CPU
56 ROM
57 メモリ
58 I/F制御部
59 通信制御部

Claims (5)

  1. 入力されたキーワード及び文章を基に検索キーワードを生成する検索キーワード生成部と、
    前記検索キーワード生成部で生成された検索キーワードの有用度を評価する検索キーワード評価部と、
    検索対象文書の有用度を評価する検索対象文書評価部と、
    前記検索キーワード及び検索対象文書の評価に基づいて検索条件式を生成する検索条件式生成部と、
    前記検索条件式生成部で生成された検索条件式に基づき検索を実行する検索部と、
    前記検索部による検索結果の有用度を評価する検索結果評価部とを有し、
    前記検索条件式生成部、検索部及び検索結果評価部とにより、前記検索結果の評価で特定のヒット率が得られるまで、検索キーワードの妥当性並びに検索条件式を緩めながら検索を繰り返すことで、確度の高い検索結果を得る機能を備えていることを特徴とする情報検索装置。
  2. 前記検索結果評価部の評価で特定のヒット率が得られたら、検索結果評価部で得られた結果一覧を評価する結果一覧評価部と、
    前記結果一覧評価部により評価された結果一覧を、表示装置の画面に表示する結果表示部と、
    を備えていることを特徴とする請求項1記載の情報検索装置。
  3. 入力されたキーワード及び文章を基に検索キーワードを生成する検索キーワード生成手順と、
    前記検索キーワード生成手順で生成された検索キーワードの有用度を評価する検索キーワード評価手順と、
    検索対象文書の有用度を評価する検索対象文書評価手順と、
    前記検索キーワード及び検索対象文書の評価に基づいて検索条件式を生成する検索条件式生成手順と、
    前記検索条件式生成手順で生成された検索条件式に基づき検索を実行する検索手順と、 前記検索手順による検索結果の有用度を評価する検索結果評価手順とを有し、
    前記検索条件式生成手順、検索手順及び検索結果評価手順とにより、前記検索結果の評価で特定のヒット率が得られるまで、検索キーワードの妥当性並びに検索条件式を緩めながら検索を繰り返すことで、確度の高い検索結果を得ることを特徴とする情報検索方法。
  4. コンピュータに、
    入力されたキーワード及び文章を基に検索キーワードを生成する検索キーワード生成部と、
    前記検索キーワード生成部で生成された検索キーワードの有用度を評価する検索キーワード評価部と、
    検索対象文書の有用度を評価する検索対象文書評価部と、
    前記検索キーワード及び検索対象文書の評価に基づいて検索条件式を生成する検索条件式生成部と、
    前記検索条件式生成部で生成された検索条件式に基づき検索を実行する検索部と、
    前記検索部による検索結果の有用度を評価する検索結果評価部とを有し、
    前記検索条件式生成部、検索部及び検索結果評価部とにより、前記検索結果の評価で特定のヒット率が得られるまで、検索キーワードの妥当性並びに検索条件式を緩めながら検索を繰り返すことで、確度の高い検索結果を得る機能を実現させるためのプログラム。
  5. コンピュータに、
    入力されたキーワード及び文章を基に検索キーワードを生成する検索キーワード生成部と、
    前記検索キーワード生成部で生成された検索キーワードの有用度を評価する検索キーワード評価部と、
    検索対象文書の有用度を評価する検索対象文書評価部と、
    前記検索キーワード及び検索対象文書の評価に基づいて検索条件式を生成する検索条件式生成部と、
    前記検索条件式生成部で生成された検索条件式に基づき検索を実行する検索部と、
    前記検索部による検索結果の有用度を評価する検索結果評価部とを有し、
    前記検索条件式生成部、検索部及び検索結果評価部とにより、前記検索結果の評価で特定のヒット率が得られるまで、検索キーワードの妥当性並びに検索条件式を緩めながら検索を繰り返すことで、確度の高い検索結果を得る機能を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2003411145A 2003-12-10 2003-12-10 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体 Pending JP2005173847A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003411145A JP2005173847A (ja) 2003-12-10 2003-12-10 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003411145A JP2005173847A (ja) 2003-12-10 2003-12-10 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2005173847A true JP2005173847A (ja) 2005-06-30

Family

ID=34731968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003411145A Pending JP2005173847A (ja) 2003-12-10 2003-12-10 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2005173847A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008032393A1 (en) * 2006-09-15 2008-03-20 Fujitsu Limited Information processing method and device for work process analysis
JP2011076264A (ja) * 2009-09-29 2011-04-14 Ntt Communications Kk 検索制御装置、検索制御方法、及びプログラム
WO2011118712A1 (ja) * 2010-03-26 2011-09-29 楽天株式会社 検索システム、検索方法、検索プログラム及び記録媒体
US8713070B2 (en) 2008-02-07 2014-04-29 Fujitsu Limited Business flow processing method and apparatus
JP5639314B1 (ja) * 2014-01-28 2014-12-10 楽天株式会社 検索装置、検索方法、記録媒体、および、プログラム
CN105740223A (zh) * 2014-12-08 2016-07-06 联想(北京)有限公司 信息处理设备和信息处理方法
JP2019074982A (ja) * 2017-10-18 2019-05-16 三菱重工業株式会社 情報検索装置、検索処理方法、およびプログラム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008032393A1 (en) * 2006-09-15 2008-03-20 Fujitsu Limited Information processing method and device for work process analysis
JP4832523B2 (ja) * 2006-09-15 2011-12-07 富士通株式会社 業務プロセス分析のための情報処理方法及び装置
KR101125911B1 (ko) * 2006-09-15 2012-03-26 후지쯔 가부시끼가이샤 업무 프로세스 분석을 위한 정보 처리 방법 및 장치
US8224762B2 (en) 2006-09-15 2012-07-17 Fujitsu Limited Information processing method and apparatus for business process analysis
US8713070B2 (en) 2008-02-07 2014-04-29 Fujitsu Limited Business flow processing method and apparatus
JP2011076264A (ja) * 2009-09-29 2011-04-14 Ntt Communications Kk 検索制御装置、検索制御方法、及びプログラム
US9542435B2 (en) 2010-03-26 2017-01-10 Rakuten, Inc. Search system, search method, search program and storage medium for providing a stabilized number of output search results
JP5174279B2 (ja) * 2010-03-26 2013-04-03 楽天株式会社 検索システム、検索方法、検索プログラム及び記録媒体
WO2011118712A1 (ja) * 2010-03-26 2011-09-29 楽天株式会社 検索システム、検索方法、検索プログラム及び記録媒体
JP5639314B1 (ja) * 2014-01-28 2014-12-10 楽天株式会社 検索装置、検索方法、記録媒体、および、プログラム
WO2015114731A1 (ja) * 2014-01-28 2015-08-06 楽天株式会社 検索装置、検索方法、記録媒体、および、プログラム
TWI503769B (zh) * 2014-01-28 2015-10-11 Rakuten Inc A retrieval device, a retrieval method, a recording medium, and a program
CN105740223A (zh) * 2014-12-08 2016-07-06 联想(北京)有限公司 信息处理设备和信息处理方法
CN105740223B (zh) * 2014-12-08 2019-04-26 联想(北京)有限公司 信息处理设备和信息处理方法
JP2019074982A (ja) * 2017-10-18 2019-05-16 三菱重工業株式会社 情報検索装置、検索処理方法、およびプログラム
JP7016237B2 (ja) 2017-10-18 2022-02-04 三菱重工業株式会社 情報検索装置、検索処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP5169816B2 (ja) 質問回答装置、質問回答方法および質問回答用プログラム
JP6828335B2 (ja) 検索プログラム、検索装置および検索方法
US11573989B2 (en) Corpus specific generative query completion assistant
JP2011118689A (ja) 検索方法及びシステム
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
US7698271B2 (en) Conceptual network generating system, conceptual network generating method, and program product therefor
CN100437561C (zh) 电子文档的处理方法和装置及其***
JP2005038395A (ja) データベース検索装置
JP2005173847A (ja) 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体
JP2006178599A (ja) 文書検索装置および方法
JP2008117351A (ja) 検索システム
JP2008152641A (ja) 類似例文検索装置
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP5189413B2 (ja) 音声データ検索システム
JP4745417B2 (ja) 情報検索装置およびプログラム
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
Qin et al. Mining term association rules for heuristic query construction
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JP2020071678A (ja) 情報処理装置、制御方法、プログラム
JP4301496B2 (ja) データベース検索装置、データベース検索方法およびプログラム
Rahimtoroghi et al. A structural rule-based stemmer for Persian
JP2007193500A (ja) 文書または図面作成支援装置
JP2010003266A (ja) クエリ生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP4574186B2 (ja) 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JP7305077B2 (ja) 情報処理装置、要約文出力方法、及び要約文出力プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090813

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090813

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090813

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090929