JP2005025465A

JP2005025465A - 文書検索方法及び文書検索装置

Info

Publication number: JP2005025465A
Application number: JP2003189671A
Authority: JP
Inventors: Kazuhiro Kimura; 和広木村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-07-01
Filing date: 2003-07-01
Publication date: 2005-01-27

Abstract

【課題】専門知識の無い者であっても高精度な文書検索を実現する。
【解決手段】文書分類情報の特徴を示す分類特徴量を計算する分類特徴量計算手段１０３と、検索質問１０５と分類特徴量の暫定類似度を計算する暫定類似度計算手段１０６を含み、暫定類似度に基づき文書を検索する検索手段１１０とを備える。索引語の出現頻度に基づく文書特徴量ベクトルをＣＤ、同様にして定義した各分類の分類特徴量をＣＬ、検索文の文書特徴量をＱとし、ＱとＣＤ、ＱとＣＬの各類似度を計算し、これらの値に基づいて検索し、類似度の高い順に表示する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、文書分類を用いた文書検索方法及び文書検索装置に関する。
【０００２】
【従来の技術】
近年のインターネットの普及に伴い、電子化された文書の流通量が飛躍的に増大している。これに伴い、利用者が目的とする情報を大量の文書が格納されたデータベースから効率よく検索する技術の重要性がますます高まってきている。
【０００３】
現在、利用されている代表的な検索モデルには、ブーリアンモデルやベクトル空間モデルがある。ブーリアンモデルは、検索質問を索引語の論理式で表現して当該の索引語の出現の有無で適合文書を判断するモデルである。ベクトル空間モデルは、検索質問及び検索対象文書を索引語の重みベクトルで表現して両ベクトル間の類似度（余弦など）で適合文書を判断するモデルである。
【０００４】
しかし、これらの基本的なモデルだけでは、十分な検索性能が得られないことが多い。そこで、例えば、ｗｅｂ検索の世界では、ページランク方式が用いられる。このページランク方式は、利用者がｗｅｂページにアクセスした回数をコンピュータが記録する。そして、記録したアクセス回数を用いてページの有用性を判断して、検索結果を提示する。つまり、検索質問と検索対象文書との類似性以外の情報を活用しようとする。
【０００５】
これと同様に、検索対象文書に文書分類が付与されている場合には、この文書分類情報を活用して基本的なモデルを補完することが考えられる。文書分類が付与された検索対象としては、例えば特許文書がある。特許文書には、ＩＰＣ，ＦＩ，Ｆターム等の分類情報が予め検索対象に付与されている。これらは、統制された索引語としての性質もあるがここでは分類情報ととらえられる。
【０００６】
特開平６−３１４２９７号公報（特許文献１）では、このＦタームを検索質問（＝入力文書）から自動検知し、検知されたＦターム群を検索条件として、特許検索を行う方法が提案されている。
【０００７】
この検索方法では、入力文書の分類（Ｆターム）は、入力文書に出現した用語（その同義語も含む）の中から、予め与えられた複数の分類決定用辞書とファジーメンバーシップ関数によって選定される。
【０００８】
この検索方法の第１の問題は、この検索方法では、少なくとも入力文書中に分類項目に照合する用語（もしくはその同義語）が出現しないと、分類できない。
【０００９】
第２の問題は、入力文書の分類に必要な複数の分類決定用辞書及びファジーメンバーシップ関数を予め（人手により）用意しておく必要があり、この作成に多大なコストを要する。
【００１０】
第３の問題は、検索時においては、自動検知された分類（Ｆターム）だけを索引として利用するため、自動検知の結果が誤りであった場合には、全く無関係な文献が検索されてしまい、頑健性に乏しい。
【００１１】
特許検索に特許分類を用いる別の方法として、特開２００１−５２０２２公報（特許文献２）が提案されている。この方法では、まずフリーキーワードなどで１次検索を行う。そして、この１次検索結果の集合に対して、利用者がある分類項目（例えばＦターム）を指定する。この指定に基づき当該分類項目のタームを頻度付きで表示し、この中から利用者が選んだタームを新たなブール条件として付加する。これにより、２次検索（絞り込み）を可能としている。
【００１２】
この方法では、前記特許文献１の問題であった自動分類の誤りを人間が介在することによって回避することで、頑健な方式となっている。しかしながら、特許文献２の方式では、１次検索結果に依存して分類の候補を決定する。従って、１次検索の品質が芳しくない場合には、特許文献１のように検索質問から直接分類を決定する方法に比較して、本来の検索質問との関連性の薄い分類候補が導かれてしまう可能性が高くなるという問題がある。また、介在する人間には、分類項目（あるいは分類体系）に関しての一定の専門知識が要求され、サーチャーなどの専門家でない利用者にとっては、利用法が難しいという問題がある。
【００１３】
その他、文書分類を活用した文書検索方法として、特開２００２−２７８９８７公報（特許文献３）がある。この方法では、ｗｅｂ検索において、入力された検索質問（キーワード）から対応表を用いて産業分類コードを抽出する。この抽出コードをｗｅｂページに予め埋め込まれた産業分類コード（文書分類）と照合する。これにより、検索効率が向上する。この特許文献３の場合も、特許文献１と同様に、検索質問中に対応表に存在するキーワードが出現しない場合には、分類が特定できないという問題がある。
【００１４】
【特許文献１】
特開平６−３１４２９７号公報
【００１５】
【特許文献２】
特開２００１−５２０２２公報
【００１６】
【特許文献３】
特開２００２−２７８９８７公報
【００１７】
【発明が解決しようとする課題】
上述したように、文書分類を活用した文書検索は、一般的な文書検索モデルだけでは得られない高精度な検索を可能とするものの、特定の文書分類用辞書（群）を予め人手で用意するためコストが高く、また、同辞書に照合しない表現が検索質問に現れた場合無力であるなど頑健性に乏しい（特許文献１，３）。
【００１８】
また、特許文献２のごとく、文書分類に利用者の介在を前提とする場合は、特に特許文献のごとく文書分類が極めて精緻かつ膨大なケースにおいて、利用者に高度の専門知識を要求する。
【００１９】
本発明は上記事情に鑑みてなされたものであり、専門知識の無い者であっても高精度な文書検索を実現する文書検索方法及び文書検索装置を提供することにある。
【００２０】
【課題を解決するための手段】
この発明の一の観点によれば、文書の分類を示す文書分類情報が対応付けられた文書の集合を検索質問により検索する文書検索方法であって、前記文書分類情報の特徴を示す分類特徴量を計算し、前記検索質問と前記分類特徴量の第１の暫定類似度を計算し、前記第１の暫定類似度に基づき前記文書を検索することを特徴とする文書検索方法が提供される。
【００２１】
また、方法に係る本発明は、その方法により実現するための装置の発明としても成立する。また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手順を実行させるためのプログラム、及びこのプログラムを記録したコンピュータ読取り可能な記録媒体としても成立する。
【００２２】
【発明の実施の形態】
以下、図面を参照しながら本発明の一実施形態を説明する。
【００２３】
図１は、本発明の一実施形態に係る文書検索装置１の構成を示す機能ブロック図である。同図において、１００は検索対象となる文書集合が格納される検索対象文書集合データベースである。各文書には、文書の分類を示す文書分類情報が関連づけられている。
【００２４】
１０１は、この検索対象文書集合データベース１００の検索対象文書集合から特徴量を抽出して索引付けを行う文書特徴量計算手段である。１０２は、文書特徴量計算手段１０１により計算された特徴量と検索対象文書集合データベース１００の検索対象文書集合とを対応づけて格納した文書特徴量データベースである。１０３は、検索対象文書集合データベース１００の検索対象文書集合の各文書に対応づけられた分類記号ごとに当該分類の特徴量を計算する分類特徴量計算手段である。１０４は、分類特徴量計算手段１０３により計算された分類特徴量と各分類記号とを対応づけて格納する分類特徴量データベースである。１０５は利用者により入力される検索質問で、自然言語文からなる電子データである。１１０は、検索質問１０５に基づき文書検索を実行して検索結果１０８を出力する検索手段であり、暫定類似度計算手段１０６と再ランキング手段１０７からなる。
【００２５】
暫定類似度計算手段１０６は、入力された検索質問１０５を特徴量表現に変換し、該変換後の検索質問と、文書特徴量データベース１０２及び分類特徴量データベース１０４との照合を行って、類似度の高い文書及び分類記号を抽出する。再ランキング手段１０７は、暫定類似度計算手段１０６により検索された文書の暫定類似度ランキングを、分類記号の暫定類似度を加味して再ランキングする。１０８は、再ランキング手段１０７により再ランキングされ利用者に提示される検索結果の電子データである。
【００２６】
文書特徴量計算手段１０１、分類特徴量計算手段１０３、暫定類似度計算手段１０６及び再ランキング手段１０７は、例えばコンピュータのＣＰＵにより実現される。
【００２７】
上記検索対象文書集合データベース１００、文書特徴量データベース１０２及び分類特徴量データベース１０４は、暫定類似度計算手段１０６及び再ランキング手段１０７における検索の実行に先立ち、事前に用意されるデータベースである。
【００２８】
次に本実施形態の文書特徴量計算手段１０１、分類特徴量計算手段１０３、暫定類似度計算手段１０６及び再ランキング手段１０７における各処理の詳細について説明する。本実施形態では、検索対象文書集合データベース１００に格納される検索対象文書集合として、特許明細書に関する各種特許公開公報（出願公開公報、特許公報など）を例にとって説明する。特許公開公報には周知の通り、公報毎に国際特許分類（ＩＰＣ）記号が付与されている。日本国特許であれば、ＩＰＣの他にＦＩ記号やＦタームと呼ばれる分類記号も付与されており、米国特許であれば、ＰａｔｅｎｔＣｌａｓｓｉｆｉｃａｔｉｏｎ（ＵＳＰＣ）が付与されている。これらは、分類の粒度に応じて体系的に構成されている。ここでは、特許検索の熟練者が精密な検索を行う際に良く用いるＦタームを利用する分類記号として説明する。
【００２９】
図２は図１に示す文書検索装置１のハードウェア構成の一例を示す図である。図２に示すように、バス１１にＣＰＵ１２、記憶装置１３、入力装置１４、表示装置１５及び通信装置１６などが接続されている。記憶装置１３には、ＣＰＵ１２を文書特徴量計算手段１０１、分類特徴量計算手段１０３、暫定類似度計算手段１０６及び再ランキング手段１０７として機能させるための文書特徴量計算プログラム、分類特徴量計算プログラム、暫定類似度計算プログラム及び再ランキング処理プログラムなどが格納されている。また、記憶装置１３には、検索対象文書集合データベース１００、文書特徴量データベース１０２、分類特徴量データベース１０４に格納されるデータや、検索結果などのデータが格納される。
【００３０】
文書特徴量計算手段１０１による処理は、検索対象の検索のために利用者の検索実行に先立って実行される処理である。図３は文書特徴量計算手段１０１による文書特徴量計算処理のフローチャートを示す図である。
【００３１】
図３において、文書特徴量計算手段１０１は、検索対象文書集合データベース１００に格納された検索対象文書集合の文書毎に形態素解析を実行し、自立語や未登録語などの索引語の抽出処理を行う（ｓ１）。
【００３２】
次に、文書特徴量計算手段１０１は、検索対象文書集合の文書ｄ_ｊ（ｊ＝１，２，…，ｍ）毎に得られた索引語ｔ_ｉ（ｉ＝１，２，…，Ｎ）の頻度ｆ_ｉ，ｊをカウントし、索引語ｔ_ｉが文書ｄ_ｊに出現する頻度ｆ_ｉ，ｊを表す索引語−文書頻度行列Ｆを生成する（ｓ２）。ｍは総文書数、Ｎは索引語ｔ_ｉの総数である。
【００３３】
次に、文書特徴量計算手段１０１は、各文書ｄ_ｊ中に出現する索引語ｔ_ｉの重み付けを行い重み係数ｗ_ｉ，ｊを算出する（ｓ３）。重み係数ｗ_ｉ，ｊは、文書ｄ_ｊ中に索引語ｔ_ｉが出現する回数ｆ_ｉ，ｊ及び索引語ｔ_ｉが出現する検索対象文書集合中の文書数ｎ_ｉの逆数を用いて、例えば次の数式（１）で算出する。
【００３４】
【数１】

【００３５】
ここで、｜ＤＢ｜は文書総数である。文書特徴量計算手段１０１は、索引語−文書頻度行列Ｆの各要素を頻度ｆ_ｉ，ｊから重み係数ｗ_ｉ，ｊに置換した索引語−文書重み行列Ｗを作成し、この索引語−文書重み行列Ｗの転置ファイル／Ｗを作成することで、検索質問から文書を検索するための索引ファイル／Ｗからなる文書特徴量ＣＤを得る。得られた文書特徴量ＣＤは、文書特徴量データベース１０２に格納される（ｓ４）。文書特徴量ＣＤは、各文書について基本ベクトルを索引語ｔ _ｉ（以下、単語ベクトル）としたＮ次元のベクトルで表現される。以下、文書特徴量ＣＤのベクトル表現を文書特徴量ベクトルＣＤで示す。文書ｄ_ｊについての文書特徴量ＣＤ _ｊは、ＣＤ _ｊ＝ｗ_１，ｊｔ _１＋ｗ_２，ｊｔ _２＋…＋ｗ_ｎ，ｊｔ _ｎで表される。なお、以下において、倍角文字で示される値はベクトル量であり、特に示さない限り、ベクトル量は索引語を基本ベクトルとしたベクトル量である。
【００３６】
分類特徴量計算手段１０３による処理は、文書特徴量計算手段１０１による処理と同様に、検索対象の検索のために利用者の検索実行に先立って実行される処理である。図４は分類特徴量計算手段１０３による分類特徴量計算処理のフローチャートを示す図である。
【００３７】
図４において、分類特徴量計算手段１０３は、文書特徴量計算手段１０１の各検索対象文書ｄ_ｊから文書特徴量ＣＤを求め各文書をベクトル化し、文書特徴量ベクトルＣＤを求める（ｓ１１）。これは、先に述べた文書特徴量計算手段１０１による処理と同じ処理でもよいので、本実施形態では、文書特徴量計算手段１０１による処理結果を再利用することにする。
【００３８】
次に、分類特徴量計算手段１０３は、分類記号の集合から一つを選択する（ｓ１２）。そして、検索対象文書集合データベース１００の各文書ｄ_ｊが選択した分類記号で示される分類に属するか否かを判定し、属するものと属しないものに２分割する（ｓ１３）。この属否は、例えば、１の分類記号として選択されたＦターム２Ｈ０２７ＤＡ０２（電子写真における制御・保安、装置状態の検出・検知・測定・計測・計数、電位・電流・電圧の検出、感光体の電位の意）が付与されているか否かが文書中にＦターム記載事項が含まれているか否かを検出することにより判定される。文書中の分類記号の検出は、例えば特許明細書のレイアウト解析あるいはＳＧＭＬタグ解析などでよい。
【００３９】
次に、選ばれた分類記号に対し、その特徴量（分類特徴量ＣＬ）を索引語を基本ベクトルとしたベクトル量として計算する（ｓ１４）。分類特徴量ベクトルＣＬは、当該分類記号の基本特徴ベクトルｖ _ｂ、当該分類の付与された文書ｎｕｍ_ｒ件の文書ベクトルの和ｖ _ｒ、当該分類の付与されていない文書ｎｕｍ_ｓ件の文書ベクトルの和ｖ _ｓとしたとき、次の数式（２）によって計算する。
【００４０】
【数２】

【００４１】
ここで、α、β、γは値が０以上の適当な定数である。また、ＣＬのｉ番目の要素ＣＬ_ｉが負となった場合はＣＬ_ｉ＝０とし、当該の索引語は用いないものとする。ｖ _ｂは、選択された分類記号の基本特徴を表すベクトルである。この基本特徴ベクトルｖ _ｂは、例えば、その分類の説明文などを単語ベクトル化することによって得る。
【００４２】
分類の説明文とは、例えばＦターム「２Ｈ０２７ＤＡ０２」であれば、「感光体の表面電位を検出して画質条件などを制御するものであり、通常は観点ＥＡ、ＥＣとともに付与される。露光前の電位を検出する場合と、露光後の潜像電位を検出するもの、転写後の表面電位を検出するものなど種々のものがある。原稿露光後の潜像の電位を検出する場合は、すなわち原稿の濃度を検出していることであるからＤＢ０１も付与。」なる文が該当する。α＝０として、基本特徴ベクトルｖ _ｂを用いないように設定してもよい。
【００４３】
分類特徴量計算手段１０３は、分類特徴量ベクトルＣＬがすべての分類記号について算出されたか否かを判定し（ｓ１５）、分類記号のすべてについて算出されていない場合には、未選択の分類記号を新たに選択し（ｓ１６）た後、繰り返し（ｓ１３）の文書集合の分割処理および（ｓ１４）の分類特徴量ベクトルＣＬの算出処理を実行する。（ｓ１５）にて分類記号のすべてについて算出された場合には、各分類記号の分類特徴量ベクトルＣＬは、その分類記号に対応づけられて分類特徴量データベース１０４に格納される（ｓ１７）。
【００４４】
分類記号ｄ_ｐに（ｐ＝１，２，…，Ｐ）についての分類特徴量ＣＬ _ｐは、ＣＬ _ｐ＝ｘ_１，ｐｔ _１＋ｘ_２，ｐｔ _２＋…＋ｘ_ｎ，ｐｔ _ｎで表される。ｘ_ｉ，ｐは分類記号ｄ_ｐに対する各索引語ｔ_ｉの重み係数である。
【００４５】
Ｆタームのように、文書分類が分類の粒度に応じて体系的に構成されている場合には、この分類特徴を各分類の粒度ごとに作成（例えば２Ｈ０２７というテーマコードレベルの分類特徴を作成）し、分類特徴量データベース１０４を体系的に構成しても良い。
【００４６】
また、本実施形態では、分類特徴量ベクトルＣＬの計算に検索対象文書集
合データベース１００に格納される検索対象文書の全てを用いたが、これは特徴の抽出に十分な量があればよく、例えば適当な１〜２年分の特許文献のみを用いて計算しても良い。
【００４７】
図５は暫定類似度計算手段１０６及び再ランキング手段１０７における検索処理及び再ランキング処理のフローチャートを示す図である。
【００４８】
図５において、暫定類似度計算手段１０６は、まず検索質問１０５を生成する（ｓ２１）。この検索質問１０５の生成は、例えば利用者により例えば入力装置１４を用いて入力してもよいし、通信装置１６を介して他の端末やサーバから受信してもよいし、記憶装置１３からＣＰＵ１２が抽出してもよい。検索質問１０５は、例えば数文字から数十文字からなる利用者が自由に記述した自然言語文でも良いし、特許文献や論文などの文献ファイル自体でも良い。
【００４９】
次に、暫定類似度計算手段１０６は、検索質問１０５を単語ベクトル化する（ｓ２２）。ベクトル化は、先に述べた文書特徴量ベクトルＣＤの作成方法と同様に、数式（１）などを用いて行うことができる。すなわち、数式（１）における文書ｄ_ｊを検索質問１０５に置換して数式（１）を適用することにより検索質問１０５の質問ベクトルＱ（質問特徴量）を生成することができる。従って、質問ベクトルＱは、Ｑ＝ｙ_１ｔ _１＋ｙ_２ｔ _２＋…＋ｙ_３ｔ _ｎで表される。ｙ_ｉは質問に対する各索引語ｔ_ｉの重み係数である。
【００５０】
次に、暫定類似度計算手段１０６は、この質問ベクトルＱを用いて文書特徴量データベース１０２を検索し、質問と文書の暫定類似度ＳＤを算出する（ｓ２３）。暫定類似度ＳＤは、例えば文書特徴量ＣＤと質問ベクトルＱの余弦ｃｏｓθ_１＝ＣＤ・Ｑ／｜ＣＤ｜・｜Ｑ｜により求められる。
【００５１】
暫定類似度計算手段１０６は、表示装置１５にこの暫定類似度ＳＤを表示することができる。また、暫定類似度計算手段１０６は、この表示の際に、暫定類似度ＳＤに基づき文書をランキングすることができる。文書のランキングは、例えば暫定類似度ＳＤの大きい順に文書を並び替えればよい。
図６は文書特徴量と質問との暫定類似度ＳＤの一例を示す図である。図６の例では、暫定類似度ＳＤの大きい順に文書が並べ替えて表示されている。各文書について、検索順位（ランキング）、文書名、類似度（暫定類似度ＳＤ）、分類記号が表示される。
【００５２】
次に、暫定類似度計算手段１０６は、質問ベクトルＱを用いて分類特徴量データベース１０４を検索し、質問と分類記号の暫定類似度ＳＬを算出する（ｓ２４）。暫定類似度ＳＬは、例えば分類特徴量ＣＬと質問ベクトルＱの余弦ｃｏｓθ_２＝ＣＬ・Ｑ／｜ＣＬ｜・｜Ｑ｜により求められる。
【００５３】
暫定類似度計算手段１０６は、表示装置１５にこの暫定類似度ＳＬを表示することができる。また、暫定類似度計算手段１０６は、この表示の際に、暫定類似度ＳＬに基づき分類記号をランキングすることができる。分類記号のランキングは、例えば暫定類似度ＳＬの大きい順に文書並び替えればよい。
図７は分類特徴量と質問との暫定類似度ＳＬの一例を示す図である。図７の例では、暫定類似度ＳＬの大きい順に文書が並べ替えて表示されている。各文書について、検索順位（ランキング）、分類記号、類似度（暫定類似度ＳＬ）が表示される。
【００５４】
なお、図６及び図７に示したランキングに従った文書及び分類記号の表示は、例えば予め定められた暫定類似度ＳＤ、ＳＬの閾値ＳＤ_ｔｈ、ＳＬ_ｔｈよりも大きいもののみに限ってもよい。
【００５５】
なお、（ｓ２３）と（ｓ２４）の各処理は逐次的に行う必要はないので、並列計算機などで並行実行しても良い。
【００５６】
図６に示される文書の検索結果は、再ランキング手段１０７によって、順位付けの変更が行われる（ｓ２５）。再ランキングでは、まず、図７の結果から適当な閾値ＳＬ_ｔｈ以上の分類記号を抽出して、これを検索質問１０５の推定分類とする。例えば、閾値ＳＬ_ｔｈを０．６として、集合Ｂ＝｛２Ｈ０２７ＤＡ０２，２Ｈ０２７ＥＡ０２，２Ｈ０２７ＦＡ０２｝を、推定される分類とする。次に、図６の結果に対して、各文書に付与されている分類記号の集合Ａと、推定された分類記号の集合Ｂの分類類似度ｓｉｍ_ｃを次の数式（３）により求める。
【００５７】
【数３】

【００５８】
ここで、｜Ａ｜，｜Ｂ｜は集合Ａ，Ｂの濃度である。そして、この分類類似度ｓｉｍ_ｃと、図５のステップｓ２３で既に求められている文書特徴の暫定類似度ＳＤとの和ｓｉｍ_ｃ＋ＳＤをとって、最終的な類似度（決定類似度ＳＦ）を算出し、この類似度ＳＦ順に図６の結果を並び替えることによって、図８に示す再ランキング結果を得、この検索結果１０８が再ランキング手段１０７により表示装置１５に表示されることにより、利用者に提示される。
【００５９】
このように本実施形態によれば、文書分類を有効利用した高精度な文書検索が実現できる。特に、検索質問の属する分類を推定するための知識は自動的に構築されるため、その作成及びメンテナンスコストは皆無に等しく、また、網羅性が高い頑健な知識となる。また、文書検索の手段と分類推定の手段を同一にすることができるため、必要なメモリ量も小さく抑えることができる。さらに、利用者に文書の分類体系に関する知識を要求しないため、特に特許文献のごとく文書分類が極めて精緻かつ膨大な検索対象に対して、利便性の高い検索手段を提供する。
【００６０】
本発明は上記実施形態に限定されるものではない。
【００６１】
図１では、データベースやコンピュータのＣＰＵなどにより実現される各手段の配置について特に言及していないが、スタンドアローンのコンピュータにより実現してもよいし、各データベースはネットワーク接続された別のサーバ、端末などに設けられていてもよい。さらに、ネットワーク接続された複数のサーバや端末間で各手段１００、１０１、１０３、１０６及び１０７の各々の処理を分担してもよい。
【００６２】
また、記憶装置１３に本発明の機能を実行するためのプログラムを格納し、当該プログラムをＣＰＵ１２が読み出し本発明の機能を実行させる場合を示したが、例えばこれらプログラムを記録したコンピュータ読取可能な記録媒体を文書検索装置１の図示しない記録媒体読取装置から読み取り、ＣＰＵ１２に当該機能を実行させてもよい。
【００６３】
また、検索対象として特許文献を用いる場合を例に説明したが、文書の分類が対応付けられた文書であればいかなる文書も検索の対象にできる。
【００６４】
【発明の効果】
以上詳述したように本発明によれば、専門知識の無い者であっても高精度な文書検索が可能となる。
【図面の簡単な説明】
【図１】本発明の第１実施形態に係る文書検索装置の構成の一例を示す図。
【図２】同実施形態に係る文書検索装置のハードウェア構成の一例を示す図。
【図３】同実施形態に係る文書特徴量の計算のフローチャートを示す図。
【図４】同実施形態に係る分類特徴量の計算のフローチャートを示す図。
【図５】同実施形態に係る検索処理のフローチャートを示す図。
【図６】同実施形態に係る暫定類似度ＳＤを含む文書検索結果の表示例を示す図。
【図７】同実施形態に係る暫定類似度ＳＬを含む分類検索結果の表示例を示す図。
【図８】同実施形態に係る決定類似度ＳＦを含む検索結果の表示例を示す図。
【符号の説明】
１…文書検索装置、１１…バス、１２…ＣＰＵ、１３…記憶装置、１４…入力装置、１５…表示装置、１６…通信装置、１００…検索対象文書集合データベース、１０１…文書特徴量計算手段、１０２…文書特徴量データベース、１０３…分類特徴量計算手段、１０４…分類特徴量データベース、１０５…検索質問、１０６…暫定類似度計算手段、１０７…再ランキング手段、１０８…検索結果

Claims

文書の分類を示す文書分類情報が対応付けられた文書の集合を検索質問により検索する文書検索方法であって、
前記文書分類情報の特徴を示す分類特徴量を計算し、
前記検索質問と前記分類特徴量の類似度を示す第１の暫定類似度を計算し、
前記第１の暫定類似度に基づき前記文書の集合を検索することを特徴とする文書検索方法。
前記文書の集合の検索は、前記文書集合の各文書と前記検索質問との類似度を示す第２の暫定類似度の計算と、この第２の暫定類似度と前記第１の暫定類似度に基づく文書の集合の検索からなることを特徴とする請求項１に記載の文書検索方法。
前記第２の暫定類似度は、前記文書の集合の各文書の特徴量を示す文書特徴量と前記検索質問との類似度であることを特徴とする請求項２に記載の文書検索方法。
前記分類特徴量及び前記文書特徴量は単語ベクトルで表されることを特徴とする請求項３に記載の文書検索方法。
前記分類特徴量は第１の単語ベクトルで表され、前記文書特徴量は第２の単語ベクトルで表され、
前記第１の暫定類似度の計算は、前記検索質問の第３の単語ベクトルへの変換と、前記第３の単語ベクトルと前記第１の単語ベクトルとの類似度の計算からなり、
前記第２の暫定類似度の計算は、前記第３の単語ベクトルと前記第２の単語ベクトルとの類似度の計算からなることを特徴とする請求項３に記載の文書検索方法。
前記文書の集合の検索は、前記第１の暫定類似度が閾値以上の文書分類情報の抽出と、この抽出された文書分類情報と前記文書分類情報との第３の暫定類似度の計算と、この第３の暫定類似度と第２の暫定類似度とに基づく文書の抽出からなることを特徴とする請求項２乃至５のいずれか１項に記載の文書検索方法。
文書の分類を示す文書分類情報が対応付けられた文書の集合を検索する文書検索装置であって、
前記文書分類情報の特徴を示す分類特徴量を計算する分類特徴量計算手段と、
前記検索質問と前記分類特徴量の第１の暫定類似度を計算する暫定類似度計算手段と、
前記第１の暫定類似度に基づき前記文書の集合を検索する検索手段とを具備してなることを特徴とする文書検索装置。