JP4980604B2 - 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 - Google Patents

文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 Download PDF

Info

Publication number
JP4980604B2
JP4980604B2 JP2005327804A JP2005327804A JP4980604B2 JP 4980604 B2 JP4980604 B2 JP 4980604B2 JP 2005327804 A JP2005327804 A JP 2005327804A JP 2005327804 A JP2005327804 A JP 2005327804A JP 4980604 B2 JP4980604 B2 JP 4980604B2
Authority
JP
Japan
Prior art keywords
search
document information
document
word
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005327804A
Other languages
English (en)
Other versions
JP2007133769A5 (ja
JP2007133769A (ja
Inventor
史郎 堀部
哲也 池田
卓也 平岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005327804A priority Critical patent/JP4980604B2/ja
Publication of JP2007133769A publication Critical patent/JP2007133769A/ja
Publication of JP2007133769A5 publication Critical patent/JP2007133769A5/ja
Application granted granted Critical
Publication of JP4980604B2 publication Critical patent/JP4980604B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索装置、文書検索方法、文書検索プログラム及び記録媒体に関し、特に検索語と関連語とに基づいて所定の文書情報の集合に対して検索を実行する文書検索装置、文書検索方法、文書検索プログラム及び記録媒体に関する。
文書検索の分野において、検索結果が利用者の検索要求に合致しているか否かは重要な評価基準の一つである。従来、利用者の意図に沿った検索結果を得るための技術として関連語展開が知られている。
関連語展開は、検索語に検索語と関連が深いと思われる語を追加する技術である。関連語展開によれば、与えられた検索語だけで検索する場合に比べ、漏れのない検索が可能となる。よく知られた関連語展開の方法として、類義語辞書を使って検索語の類義語を調べ、検索語に追加する方法がある(例えば、特許文献1及び特許文献2)。また別の方法として、与えられた検索語でまず検索し、得られた検索結果に含まれる単語を共起語として、元の検索語に追加する方法もある(例えば、特許文献3)。
特開2002−108914号公報 特許第2850952号公報 特開2004−178421号公報
しかしながら、前者の方法では、類義語辞書に載っている単語しか展開できないという制限がある。そのため、新語に対応するためには類義語辞書の保守といった煩雑な作業が必要とされるという問題がある。また、後者の方法では、検索対象のデータが書籍のタイトルのように短い場合等、本来であればほとんど共起しない単語であるにもかかわらず共起語と判定され得るという問題がある。これは、検索結果に含まれる単語自体が少なくなり、共起語の候補も少なくなることに起因する。
本発明は、上記の点に鑑みてなされたものであって、検索要求に対して適切な検索結果を出力することのできる文書検索装置、文書検索方法、文書検索プログラム及び記録媒体の提供を目的とする。
そこで上記課題を解決するため、本発明は、検索語と関連語とに基づいて所定の文書情報の集合に対して検索を実行する文書検索装置であって、前記検索語を入力させ、複数の文書情報の集合の中から前記所定の文書情報の集合より大きい第二の文書情報の集合を指定させる入力手段と、前記第二の文書情報の集合より前記検索語に基づいて検索される文書情報の集合を関連文書情報として取得する関連文書検索手段と、前記関連文書情報より前記関連語を抽出する関連語抽出手段とを有し、前記関連文書検索手段は、所定の属性値に基づいて、前記検索語に基づいて検索される文書情報の集合に含まれる、属性ごとの文書情報の数を算出し、算出された文書情報の数に基づいて、前記検索語に基づいて検索される文書情報の集合の中から所定の属性に属する文書情報の集合を選択し、選択された文書情報の集合を前記関連文書情報とすることを特徴とする。
このような文書検索装置では、検索要求に対して適切な検索結果を出力することができる。
また、上記課題を解決するため、本発明は、上記文書検索装置における文書検索方法、前記文書検索方法をコンピュータに実行させるための文書検索プログラム、又は前記文書検索プログラムを記録した記録媒体としてもよい。
本発明によれば、検索要求に対して適切な検索結果を出力することのできる文書検索装置、文書検索方法、文書検索プログラム及び記録媒体を提供することができる。
以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における文書検索装置のハードウェア構成例を示す図である。
図1の文書検索装置10は、それぞれ相互に接続されているドライブ装置100と、補助記憶装置102と、メモリ装置103と、演算処理装置104と、表示装置105と、入力装置106と等を有するように構成される。
文書検索装置10での処理を実現するプログラムは、CD―ROM等の記録媒体101によって提供される。プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。補助記憶装置102は、インストールされたプログラムを格納すると共に、プログラムの処理に必要な各種のデータを格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。演算処理装置104は、メモリ装置103に格納されたプログラムに従って文書検索装置10に係る機能を実行する。表示装置105はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置106はキーボード及びマウス等で構成され、様々な操作指示を入力するために用いられる。
なお、文書検索装置10は、複数のコンピュータによって構成してもよい。例えば、文書検索装置10をクライアント・サーバシステムとして構成する場合、サーバ側には表示装置105及び入力装置106は、必ずしも必要ではない。
図2は、第一の実施の形態における文書検索装置の機能構成例を示す図である。第一の実施の形態では、書籍のタイトルを類似検索する例を説明する。
図2において、文書検索装置10は、入力手段11、関連文書検索手段12、関連語選択手段13、検索手段14、出力手段15、関連語展開用データベース16、及びタイトル検索用データベース17等より構成される。
入力手段11は、検索語をシステムに与えるためのユーザインターフェースである。キーボードであったりディスプレイのタッチパネルであったりマイクと音声認識システムであったりする。すなわち、ユーザは、入力手段11を介して、求める書籍のタイトルと何らかの関連があると思われる文字列を検索語として入力する。この関連とは、タイトルに当該文字列がそのまま含まれることであったり、タイトルに当該文字列と類似の表現が含まれることであったり、当該文字列と同時に使われやすい文字列がタイトルに含まれることであったりする。
関連文書検索手段12は、検索語を入力手段11から受け取り、当該検索語に基づいて関連語展開用データベース16より文書情報を検索する。検索は、検索語を単語に解析して単語単位の検索であったり、N-gramと呼ばれるその文字列に現れる連続する長さNの文字列を取得してその長さNの文字列単位での検索であったりする。関連文書検索手段12による検索結果(以下「関連文書情報」という。)は、これらの検索単位の一部を含むタイトルであったり、全てを含むタイトルであったり、各タイトルに検索語に対するスコアを付けてその上位M件に含まれるタイトルであったりする。
関連語展開用データベース16は、タイトル検索用データベース17とは異なる文書情報の集合である。関連語展開用データベース16は、少なくとも検索対象となる文書情報(ここでは、書籍のタイトル)の一覧を保持している。単語等の検索単位が、タイトルの一覧の何番目に含まれるかという索引情報を保持していてもよい。この索引情報により高速な検索が可能となる。
関連語選択手段13は、関連文書情報を構成する単語の中から、ユーザが与えた検索語と関連する文字列を関連語として抽出し、その間連語を検索語に追加する。関連語を選択する基準は、例えば、得られた関連文書情報(例えば、タイトルの集合)における出現頻度が高いもの選択するといったものや、関連文書情報には含まれないタイトルの集合における出現頻度が低いものを選択するといったものでもよい。
検索手段14は、関連語が追加された検索語に基づいてタイトル検索用データベース17より書籍のタイトルを検索する。
タイトル検索用データベース17は、検索対象とされる文書情報の集合が蓄積されているデータベースである。したがって、本実施の形態において、タイトル検索用データベース17は、少なくともタイトルの一覧を保持している。また、索引情報を保持していてもよい。格納されているタイトルの中身やタイトル以外に保持している情報の種類は関連語展開用データベース16と異なっていても良いが、関連語展開用データベース16のレコード数の方が多いことが望ましい(すなわち、関連語展開用データベース16に蓄積されている文書情報の集合の方が、タイトル検索用データベース17に蓄積されている文書情報の集合より大きいことが望ましい。)。
出力手段15は、検索手段14による検索結果を表示装置105に表示させたり、プリンタに出力したり、又は音声としてスピーカーに出力したりする。なお、最終的に得られる検索結果(検索手段14による検索結果)は、タイトルの一覧である。関連語展開をしているので、タイトルの中に必ずしもユーザによって入力された検索語が含まれていなくてもよい。
以下、図2の文書検索装置10の処理手順について説明する。図3は、第一の実施の形態における文書検索装置による検索処理を説明するためのフローチャートである。
ステップS101において、入力手段11は、ユーザから検索語の入力を受け付ける。ここでは、 ユーザが「特許」に関係する書籍を探しているとする。したがって、ユーザは入力手段11を用いて検索語「特許」を入力する。
ステップS101に続いてステップS102に進み、関連文書検索手段12は、ユーザに入力された検索語に基づいて関連語展開用データベース16より関連語展開のための文書情報(関連文書情報)を検索する。具体的には、関連文書検索手段12は、入力手段11から検索語「特許」を受け取り、当該検索語を検索単位に解析する(この例では関連語展開用データベース16の索引は単語単位で構成されているとする。そのため検索単位は単語となる。)。その結果、関連文書検索手段12は、検索語「特許」に、単語「特許」が含まれているという解析結果を得る(この例では検索語を解析して得られた単語集合は「特許」の一単語のみだが、検索語が複数単語からなれば単語集合が得られる。)。続いて、関連文書検索手段12は、関連語展開用データベース16から単語「特許」が含まれるタイトルの集合を関連文書情報として取得する。図4は、関連文書検索手段による検索結果としての関連文書情報の例を示す図である。
ステップS102に続いてステップS103に進み、関連語選択手段13は、関連文書情報より関連語を抽出する。具体的には、例えば、図4に示されるようなタイトルの集合から以下のような単語が抽出される。
標準、テキスト、財産、意匠、商標、工業、所有、・・・
関連語選択手段13は、抽出された関連語を、ユーザによって入力された検索語に追加する(S104)。
ステップS104に続いてステップS105に進み、検索手段14は、関連語の追加された検索語(すなわち、ユーザによって入力された検索語と、関連語との単語の集合)に基づいて、タイトル検索用データベース17より書籍のタイトルを検索する(この例ではタイトル検索用データベース17の索引も単語単位で構成されているとする。そのため、検索語を再解析する必要はない。)。
図5は、書籍のタイトルの検索結果の例を示す図である。図5の検索結果に示されるように、検索語(「特許」)のみならず、関連語も用いて検索が実行されるため、タイトルに「特許」を含まなくとも、「特許」との関連が強いと判定されるタイトルの集合が取得され得る。
ステップS105に続いてステップS106に進み、出力手段15は、取得されたタイトルの一覧を表示装置105に表示させる。
上述したように、第一の実施の形態における文書検索装置10によれば、検索用のデータベース(タイトル検索用データベース17)とは異なるデータベースより関連語展開のための関連語を抽出する。したがって、例えば、関連語展開に用いるデータベースを検索用データベースより大規模なものとすれば、ユーザによって入力された検索語に対する共起語を増やすことができ、多くの共起語の中から関連語を選択することができる。よって、たまたま共起した単語が関連語として選択され、不要な関連語が検索語に追加される可能性を低く抑えることができる。
また、類義語辞書等を必要としないため、類義語辞書の保守のようなコストのかかる作業の発生を抑制することができる。
なお、第一の実施の形態において、関連語展開用のデータベースを複数用意しておき、文書検索装置10が関連語に適したデータベースを選択しても良い。例えば、入力された検索語がカタカナであればコンピュータ関連や化学関連の書籍データベースを選んだり、英字であれば洋書のデータベースを選んだりしてもよい。これによって、本来は共起しないような単語の出現確率自体を低く抑えることができる。
次に、第二の実施の形態について説明する。第二の実施の形態においても、書籍のタイトルを類似検索する例を説明する。
図6は、第二の実施の形態における文書検索装置の機能構成例を示す図である。図6中、図2と同一部分には同一符号を付し、その説明は省略する。
図6に示されるように、第二の実施の形態では、関連語展開用のデータベースとして複数のデータベース(関連語展開用データベース16a、16b及び16c等、以下、総称する場合、「関連語展開用データベース16」という。)が存在する。それぞれは、少なくとも書籍のタイトル情報を含んでいるものとする。また、第二の実施の形態における入力手段11は、検索語の他に、関連語の取得先とするデータベースの指定をユーザより受け付ける。
以下、図6の文書検索装置10の処理手順について説明する。図7は、第二の実施の形態における文書検索装置による検索処理を説明するためのフローチャートである。
ステップS201において、入力手段11は、検索語と、関連語の取得先のデータベースの識別情報との入力をユーザより受け付ける。すなわち、ユーザは、関連語展開用データベース16a、16b及び16c等のうち、いずれのデータベースを関連語の取得先とするかを指定する。
ステップS201に続いてステップS202に進み、関連文書検索手段12は、検索語に基づいて、ユーザに指定された関連語展開用データベース16より関連文書情報を検索する。
ステップS203以降は、第一の実施の形態におけるステップS103以降と同様の処理であるため、その説明は省略する。
上述したように、第二の実施の形態における文書検索装置10によれば、ユーザの判断によって、関連語展開に適したデータベースの選択されるため、本来は共起しないような単語の出現確率自体をより低く抑えることができる。
なお、複数存在する各関連語展開用データベース16に蓄積されている情報は、文書情報に係る所定の属性(例えば書籍の分野等)によって分類されていてもよい。このような場合、予め書籍の分野とそれぞれのデータベースとを関連付けておき、ユーザには、データベースの識別情報ではなく、書籍の分野を指定させるようにしてもよい。
次に、第三の実施の形態について説明する。第三の実施の形態においても、書籍のタイトルを類似検索する例を説明する。
第三の実施の形態における文書検索装置10の機能構成例は、第一の実施の形態(図2)又は第二の実施の形態(図6)におけるものと同様でよい。但し、関連語展開用データベース16には、各書籍のタイトルの他に、当該書籍の分野を示す情報(以下「分野情報」という。)も蓄積されているものとする。
また、第三の実施の形態における文書検索装置10の処理手順は、第一の実施の形態(図3)又は第二の実施の形態におけるものと基本的には同様である。但し、関連語展開用データベース16には、分野情報も含まれているため、ステップS102又はS202において関連文書検索手段12によって取得される関連文書情報には、タイトルの他に分野情報も含まれている。
また、分野情報をも含む関連文書情報からの関連語の抽出処理(S103又はS203)は、以下のように行われる。
すなわち、関連語選択手段13は、関連語展開のための検索で得られた上位N件のタイトルから単純に関連語を取得するのではなく、以下の方法で関連語展開の対象データ(関連語の抽出対象とする関連文書情報)を選択する。
図8は、関連語展開の対象データの選択方法を説明するための図である。図8に示されるように、関連語展開の対象データは、以下の手順で選択される。
(1)上位N件のタイトルと分野を取得する。
(2)分野ごとに、当該分野に属する件数を算出する。図8の例では、「実用」が10件、「学習」が4件、「娯楽」が2件として算出されている。
(3)算出した件数が最も多い分野に属する書籍のタイトルの集合を関連語展開の対象データとする。図8の例では、「実用」に属する書籍のタイトルの集合が関連語展開の対象データとされる。
また、最多件数の分野だけから取得するのではなく、各分野の件数に応じた重み付けを行い、関連語を取得しても良い。また、著者や出版社を含む検索結果を取得して、分野の代わりに著者や出版社に基づいて分類しても良い。また、出版日を含む検索結果を取得し、最近出版された書籍に大きな重みを付けても良い。また、これらを組み合わせて利用しても良い。
以降、このようにして選択されたタイトルの集合より関連語が抽出され、ステップS104(又はS204)以降と同様の処理が実行される。
上述したように、第三の実施の形態における文書検索装置10によれば、関連語展開で用いるデータベースに、関連語にはならない書籍の分野や著者等のタイトル以外のデータを入れ、それらを関連語の判定に用いる。したがって、本来は共起しないような単語が関連語として選択され、不要な関連語が検索語に追加される可能性を更に抑えることができる
次に、第四の実施の形態について説明する。第四の実施の形態においても、書籍のタイトルを類似検索する例を説明する。図9は、第四の実施の形態における文書検索装置の機能構成例を示す図である。図9中、図2と同一部分には同一符号を付し、その説明は省略する。
図9に示されるように、第四の実施の形態における入力手段11は、検索語の他に関連語展開用の書籍の分野の指定をユーザより受け付ける。また、第四の実施の形態における関連語展開用データベース16には、各書籍のタイトルの他に、当該書籍の分野を示す情報(分野情報)も蓄積されているものとする。
以下、図9の文書検索装置10の処理手順について説明する。図10は、第四の実施の形態における文書検索装置による検索処理を説明するためのフローチャートである。
ステップS401において、入力手段11は、検索語と、関連語展開用の分野との入力をユーザより受け付ける。ステップS401に続いてステップS402に進み、関連文書検索手段12は、検索語に基づいて、ユーザに指定された関連語展開用データベース16より関連文書情報を検索する。ここで取得される関連文書情報には、タイトルの他に分野情報も含まれている。
ステップS402に続いてステップS403に進み、関連語選択手段13は、関連文書情報より関連語を抽出する。ここで、関連語選択手段13は、まず、書籍の分野をも含む関連文書情報からユーザによって指定された分野に係るタイトルの集合を抽出する。
図11は、ユーザによって指定された分野に係るタイトルの集合の抽出例を示す図である。図11は、関連語展開用の分野として「実用」が指定された場合に抽出されたタイトルの集合(N件)が示されている。
続いて、関連語選択手段13は、図11のように抽出されたタイトルの集合から、関連語を抽出する。
以降の処理(S404〜S406)は、第一の実施の形態(S104〜S106)と同様である。
なお、関連語展開用の判定条件は、第三の実施の形態において挙げたように書籍の分野以外を用いても良い。また、文書検索装置10は、関連語の取得時に関連語の判定条件をユーザにインタラクティブに指定させても良い。
上述したように、第四の実施の形態における文書検索装置10によれば、ユーザの補助により、関連語展開に適した検索条件や関連語の判定に適した条件を設定できるので、本来は共起しないような単語の出現確率と選択確率を低く抑えることができ、不要な関連語が検索語に追加される可能性を更に低く抑えることができる。
なお、上記において、データベースが異なるとは、データベースシステムが別である場合の他、同一のデータベースシステム内においてテーブルが異なる場合も含まれる。したがって、ハードウェア的に別の記憶装置に構築されていることに限定する意味ではない。
なお、上記第一から第四の実施の形態における文書検索装置は、書籍検索システムのみならず、その他の検索システム一般に適用可能である。但し、検索対象が書籍のタイトルのように短い方が望ましい。また、例えば、特許に関する文献や、論文、ニュース等、検索対象のデータがある程度細かく分類されていて、かつ、各分類内で共通して用いられる語句が多いと、より望ましい。
以上、本発明の実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本発明の実施の形態における文書検索装置のハードウェア構成例を示す図である。 第一の実施の形態における文書検索装置の機能構成例を示す図である。 第一の実施の形態における文書検索装置による検索処理を説明するためのフローチャートである。 関連文書検索手段による検索結果としての関連文書情報の例を示す図である。 書籍のタイトルの検索結果の例を示す図である。 第二の実施の形態における文書検索装置の機能構成例を示す図である。 第二の実施の形態における文書検索装置による検索処理を説明するためのフローチャートである 関連語展開の対象データの選択方法を説明するための図である。 第四の実施の形態における文書検索装置の機能構成例を示す図である。 第四の実施の形態における文書検索装置による検索処理を説明するためのフローチャートである ユーザによって指定された分野に係るタイトルの集合の抽出例を示す図である。
符号の説明
10 文書検索装置
11 入力手段
12 関連文書検索手段
13 関連語選択手段
14 検索手段
15 出力手段
16、16a、16b、16c 関連語展開用データベース
17 タイトル検索用データベース
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 演算処理装置
105 表示装置
106 入力装置

Claims (10)

  1. 検索語と関連語とに基づいて所定の文書情報の集合に対して検索を実行する文書検索装置であって、
    前記検索語を入力させ、複数の文書情報の集合の中から前記所定の文書情報の集合より大きい第二の文書情報の集合を指定させる入力手段と、
    前記第二の文書情報の集合より前記検索語に基づいて検索される文書情報の集合を関連文書情報として取得する関連文書検索手段と、
    前記関連文書情報より前記関連語を抽出する関連語抽出手段とを有し、
    前記関連文書検索手段は、所定の属性値に基づいて、前記検索語に基づいて検索される文書情報の集合に含まれる属性ごとの文書情報の数を算出し、算出された文書情報の数に基づいて、前記検索語に基づいて検索される文書情報の集合の中から所定の属性に属する文書情報の集合を選択し、選択された文書情報の集合を前記関連文書情報とすることを特徴とする文書検索装置。
  2. 前記関連文書検索手段は、算出された文書情報の数が最も多い属性に属する文書情報の集合を選択し、前記関連文書情報とすることを特徴とする請求項1記載の文書検索装置。
  3. 前記関連文書検索手段は、算出された文書情報の数に応じた重み付けに基づいて、前記検索語に基づいて検索される文書情報の集合の中から所定の属性に属する文書情報の集合を選択し、前記関連文書情報とすることを特徴とする請求項1又は2記載の文書検索装置。
  4. 検索語と関連語とに基づいて所定の文書情報の集合に対して検索を実行する文書検索装置における文書検索方法であって、
    前記検索語を入力させ、複数の文書情報の集合の中から前記所定の文書情報の集合より大きい第二の文書情報の集合を指定させる入力手順と、
    前記第二の文書情報の集合より前記検索語に基づいて検索される文書情報の集合を関連文書情報として取得する関連文書検索手順と、
    前記関連文書情報より前記関連語を抽出する関連語抽出手順とを有し、
    前記関連文書検索手順は、所定の属性値に基づいて、前記検索語に基づいて検索される文書情報の集合に含まれる属性ごとの文書情報の数を算出し、算出された文書情報の数に基づいて、前記検索語に基づいて検索される文書情報の集合の中から所定の属性に属する文書情報の集合を選択し、選択された文書情報の集合を前記関連文書情報とすることを特徴とする文書検索方法。
  5. 前記関連文書検索手段は、算出された文書情報の数が最も多い属性に属する文書情報の集合を選択し、前記関連文書情報とすることを特徴とする請求項4記載の文書検索方法。
  6. 前記関連文書検索手順は、算出された文書情報の数に応じた重み付けに基づいて、前記検索語に基づいて検索される文書情報の集合の中から所定の属性に属する文書情報の集合を選択し、前記関連文書情報とすることを特徴とする請求項4又は5記載の文書検索方法。
  7. コンピュータに、検索語と関連語とに基づいて所定の文書情報の集合に対する検索を実行させる文書検索プログラムであって、
    前記検索語を入力させ、複数の文書情報の集合の中から前記所定の文書情報の集合より大きい第二の文書情報の集合を指定させる入力手順と、
    記第二の文書情報の集合より前記検索語に基づいて検索される文書情報の集合を関連文書情報として取得する関連文書検索手順と、
    前記関連文書情報より前記関連語を抽出する関連語抽出手順とを有し、
    前記関連文書検索手順は、所定の属性値に基づいて、前記検索語に基づいて検索される文書情報の集合に含まれる属性ごとの文書情報の数を算出し、算出された文書情報の数に基づいて、前記検索語に基づいて検索される文書情報の集合の中から所定の属性に属する文書情報の集合を選択し、選択された文書情報の集合を前記関連文書情報とすることを特徴とする文書検索プログラム。
  8. 前記関連文書検索手順は、算出された文書情報の数が最も多い属性に属する文書情報の集合を選択し、前記関連文書情報とすることを特徴とする請求項7記載の文書検索プログラム。
  9. 前記関連文書検索手順は、算出された文書情報の数に応じた重み付けに基づいて、前記検索語に基づいて検索される文書情報の集合の中から所定の属性に属する文書情報の集合を選択し、前記関連文書情報とすることを特徴とする請求項7又は8記載の文書検索プログラム。
  10. 請求項7乃至9いずれか一項記載の文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005327804A 2005-11-11 2005-11-11 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 Expired - Fee Related JP4980604B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005327804A JP4980604B2 (ja) 2005-11-11 2005-11-11 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005327804A JP4980604B2 (ja) 2005-11-11 2005-11-11 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体

Publications (3)

Publication Number Publication Date
JP2007133769A JP2007133769A (ja) 2007-05-31
JP2007133769A5 JP2007133769A5 (ja) 2008-12-11
JP4980604B2 true JP4980604B2 (ja) 2012-07-18

Family

ID=38155357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005327804A Expired - Fee Related JP4980604B2 (ja) 2005-11-11 2005-11-11 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4980604B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010106642A1 (ja) * 2009-03-17 2010-09-23 富士通株式会社 検索処理方法及び装置
KR102612210B1 (ko) * 2022-10-05 2023-12-08 전정욱 인공지능 기반 선행 기술 문헌 검색 시스템 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3099756B2 (ja) * 1996-10-31 2000-10-16 富士ゼロックス株式会社 文書処理装置、単語抽出装置及び単語抽出方法
JP2001117930A (ja) * 1999-10-15 2001-04-27 Ricoh Co Ltd 文書分類装置、文書分類方法および記録媒体
JP4212347B2 (ja) * 2002-12-12 2009-01-21 株式会社リコー 文書検索装置、プログラムおよび記録媒体
JP2004361992A (ja) * 2003-05-30 2004-12-24 Toshiba Corp 関連語抽出装置、関連語抽出方法及びプログラム

Also Published As

Publication number Publication date
JP2007133769A (ja) 2007-05-31

Similar Documents

Publication Publication Date Title
JP5241828B2 (ja) 辞書の単語及び熟語の判定
US20090083230A1 (en) Apparatus and method for supporting information searches
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
EP2798540A1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
US8782049B2 (en) Keyword presenting device
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
WO2004001570A1 (ja) 自然言語による既存データの記述方法及びそのためのプログラム
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
JP2020140503A (ja) 文書検索装置及び文書検索方法
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP4980604B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
JPH0844771A (ja) 情報検索装置
JP2007257369A (ja) 情報検索装置
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2008234559A (ja) ドキュメント絞り込み検索装置、方法及びプログラム
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP2005122665A (ja) 電子機器装置、関連語データベースの更新方法、プログラム
JP2005316590A (ja) 情報検索装置
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JPH10340271A (ja) 文書抄録作成装置及び文書抄録作成プログラムを記録した記憶媒体
JP4138048B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4574186B2 (ja) 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JP3655465B2 (ja) 関連語の処理方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081024

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081024

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110208

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120419

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4980604

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees