JP6340351B2

JP6340351B2 - 情報検索装置、辞書作成装置、方法、及びプログラム

Info

Publication number: JP6340351B2
Application number: JP2015197647A
Authority: JP
Inventors: 淳史大塚; 克人別所; 中村　孝; 孝中村; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-10-05
Filing date: 2015-10-05
Publication date: 2018-06-06
Anticipated expiration: 2035-10-05
Also published as: JP2017072885A

Description

本発明は、音声またはテキストを入力とする情報検索装置、辞書作成装置、方法、及びプログラムに関するものである。

従来、情報検索システムとして、ユーザが入力したクエリに対して、キーワードマッチ等の処理によってクエリに適合する文書を検索する手法が知られている。キーワードマッチ検索の場合はクエリのキーワードと文書内のキーワードとが完全一致していなくてはならず、検索の再現率（Recall）が低下してしまうという課題があった。そこで、クエリ中の含まれるキーワードを自動的に増やすことでより幅広い文書にマッチさせる技術としてクエリ拡張が知られている（特許文献１）。

また、キーワードマッチ型以外の検索手法として、概念検索が知られている。概念検索はキーワードを連続値のｎ次元のベクトルで表現し、そのベクトルの重心をクエリベクトルと見なす手法である。同様に文書ベクトルも文書内のキーワードベクトルの重心で表現し、クエリベクトルと文書ベクトルの類似度を計算する。類似度が高い順に検索結果を出力することで検索を実行する。概念検索ではキーワードマッチと異なり、キーワードが完全一致しなくてもクエリ近い話題に関する文書が検索可能になるという利点がある。

特開２０１０−１２３０３６号公報特開２０１０−１８２０４１号公報

しかし、従来のクエリ拡張型の検索システムでは、拡張するためのキーワード数を人手で決定する必要がある。また、拡張するキーワードが多すぎると本来のクエリのキーワードに対して関連が低いキーワードがマッチするリスクが高まる。そして、反対に拡張するキーワード数が少ない場合には拡張後のクエリでもキーワードがマッチしない可能性が高まる。そのため、キーワード拡張数が妥当なクエリ拡張を行うことが難しいという問題がある。

また、概念ベクトルを使用した概念検索型の検索では、クエリを拡張せずに、内容が概念的に近接している文書を検索することができるが、概念検索では文書中の各々の単語の重みは考慮されず、重要な単語は異なっていてもその他の部分（機能語部分等）が一致していた場合、高いスコアを示すことがあるという問題がある。また、概念ベクトルの検索では文書中の全単語の重心ベクトルを求めるため、文書が長い場合などに検索精度が低下するという問題がある。

本発明では、上記問題点を解決するために成されたものであり、クエリに関連する文書を精度よく検索することができる情報検索装置、辞書作成装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る情報検索装置は、検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせである検索インデックスと、前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書ＩＤとの組み合わせである文書データベースと、概念文書集合に基づいて作成された、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルと、前記検索インデックスと、前記文書データベースとに基づいて、前記検索対象文書の各々について作成された、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書と、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算するスコア計算部と、を含んで構成されている。

第２の発明に係る情報検索方法は、検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせである検索インデックスと、前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書ＩＤとの組み合わせである文書データベースと、概念文書集合に基づいて作成された、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルと、前記検索インデックスとに基づいて、前記検索対象文書の各々について作成された、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書と、スコア計算部とを含む、情報検索装置における、情報検索方法であって、前記スコア計算部は、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算する。

第１及び第２の発明によれば、スコア計算部により、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、クエリに含まれるキーワードと類似する検索対象文書キーワードとの類似度、及び検索対象文書キーワードの重みを用いて、検索対象文書との関連度スコアを計算する。

このように、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、クエリに含まれるキーワードと類似する検索対象文書キーワードとの類似度、及び検索対象文書キーワードの重みを用いて、検索対象文書との関連度スコアを計算することにより、クエリに関連する文書を精度よく検索することができる。

第３の発明に係る情報検索装置は、検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせを格納した検索インデックスを作成する検索インデックス作成部と、前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書ＩＤとの組み合わせである文書データベースと、概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルを作成する概念ベクトルモデル作成部と、前記概念ベクトルと前記検索インデックスと前記文書データベースとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する概念類似度辞書作成部と、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算するスコア計算部と、を含んで構成されている。

第４の発明に係る情報検索方法は、検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の文書ＩＤとの組み合わせである文書データベースと、検索インデックス作成部と、概念ベクトルモデル作成部と、概念類似度辞書作成部と、スコア計算部と、を含む情報検索装置における、情報検索方法であって、前記検索インデックス作成部は、前記検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせである検索インデックスを作成し、前記概念ベクトルモデル作成部は、概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルを作成し、前記概念類似度辞書作成部は、前記概念ベクトルと前記検索インデックスとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成し、前記スコア計算部は、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算する。

第３及び第４の発明によれば、検索インデックス作成部により、検索対象文書集合に含まれる検索対象文書の各々について、検索対象文書に含まれる検索対象文書キーワードの重さと、検索対象文書キーワードと、検索対象文書を表す文書ＩＤとの組み合わせである検索インデックスを作成し、概念ベクトルモデル作成部により、概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルを作成し、概念類似度辞書作成部により、概念ベクトルと検索インデックスとに基づいて、検索対象文書の各々について、検索対象文書に含まれる検索対象文書キーワードに対し、最も類似度が高い概念文書キーワードを類似度と共に記録した概念類似度辞書を作成し、スコア計算部により、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、クエリに含まれるキーワードと類似する検索対象文書キーワードとの類似度、及び検索対象文書キーワードの重みを用いて、検索対象文書との関連度スコアを計算する。

このように、検索対象文書集合に含まれる検索対象文書の各々について、検索インデックスを作成し、概念文書集合に基づいて、概念ベクトルを作成し、概念ベクトルと検索インデックスとに基づいて、検索対象文書の各々について、概念類似度辞書を作成し、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、検索対象文書との関連度スコアを計算することにより、クエリに関連する文書を精度よく検索することができる。

第５の発明に係る辞書作成装置は、検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせを格納した検索インデックスを作成する検索インデックス作成部と、前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書ＩＤとの組み合わせである文書データベースと、概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルを作成する概念ベクトルモデル作成部と、前記概念ベクトルと前記検索インデックスと前記文書データベースとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する概念類似度辞書作成部と、を含んで構成される。

第６の発明に係る辞書作成方法は、検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の文書ＩＤとの組み合わせである文書データベースと、検索インデックス作成部と、概念ベクトルモデル作成部と、概念類似度辞書作成部と、を含む辞書作成装置における、辞書作成方法であって、前記検索インデックス作成部は、前記検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせである検索インデックスを作成し、前記概念ベクトルモデル作成部は、単語をｎ次元のベクトルで表現した概念ベクトルを作成するための概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルを作成し、前記概念類似度辞書作成部は、前記概念ベクトルと前記検索インデックスとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する。

第５及び第６の発明によれば、検索インデックス作成部により、検索対象文書集合に含まれる検索対象文書の各々について、検索対象文書に含まれる検索対象文書キーワードの重さと、検索対象文書キーワードと、検索対象文書を表す文書ＩＤとの組み合わせである検索インデックスを作成し、概念ベクトルモデル作成部により、単語をｎ次元のベクトルで表現した概念ベクトルを作成するための概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルを作成し、概念類似度辞書作成部により、概念ベクトルと検索インデックスとに基づいて、検索対象文書の各々について、検索対象文書に含まれる検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する。

このように、検索対象文書集合に含まれる検索対象文書の各々について、検索インデックスを作成し、概念文書集合に基づいて、概念ベクトルを作成し、概念ベクトルと検索インデックスとに基づいて、検索対象文書の各々について、概念類似度辞書を作成することにより、クエリに関連する文書を精度よく検索するための概念類似度辞書を作成することができる。

また、本発明のプログラムは、コンピュータを、上記の情報検索装置、若しくは辞書作成装置を構成する各部として機能させ、又はコンピュータに、上記の情報検索方法、若しくは辞書作成方法の各ステップを実行させるためのプログラムである。

以上説明したように、本発明の情報検索装置、方法、及びプログラムによれば、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、クエリに含まれるキーワードと類似する検索対象文書キーワードとの類似度、及び検索対象文書キーワードの重みを用いて、検索対象文書との関連度スコアを計算することにより、クエリに関連する文書を精度よく検索することができる。

また、情報検索装置、辞書作成装置、方法、及びプログラムによれば、検索対象文書集合に含まれる検索対象文書の各々について、検索インデックスを作成し、概念文書集合に基づいて、概念ベクトルを作成し、概念ベクトルと検索インデックスとに基づいて、検索対象文書の各々について、概念類似度辞書を作成することにより、クエリに関連する文書を精度よく検索するための概念類似度辞書を作成することができる。

本発明の実施形態に係る情報検索装置の機能的構成を示すブロック図である。検索インデックスの一例を示す図である。概念ベクトルモデルの一例を示す図である。概念類似度辞書の一例を示す図である。本実施形態に係る情報検索装置を用いた計算内容の一例を示す図である。本実施形態に係る情報検索装置を用いた計算内容の一例で用いるデータの一例を示す図である。本発明の実施形態に係る情報検索装置におけるデータ作成処理ルーチンのフローチャート図である。本発明の実施形態に係る情報検索装置における情報検索処理ルーチンのフローチャート図である。

以下、図面を参照して本発明の実施形態を詳細に説明する。

＜本発明の実施形態の概要＞
まず、本発明の実施形態の概要について説明する。

本実施形態は、検索対象文書に含まれる検索対象文書キーワードの重さと、検索対象文書キーワードと、検索対象文書を表す文書ＩＤとの組み合わせを格納した検索インデックスに含まれる検索対象文書のキーワードに対して予め、概念ベクトルモデルのキーワードとの類似関係を計算しておくことによる、キーワード単位での概念検索を行う点がポイントである。

また、検索対象文書集合Ｄの検索インデックス中のある文書ｄ中のあるキーワードｗに対して、当該ｗと概念ベクトルモデルに登録されている全キーワードとの概念空間上での類似度を計算し記録する。これを文書ｄ内のキーワード全て、また、文書集合Ｄ内の全ての文書に対して適用する。

本実施形態に係る情報検索装置を実装した検索システムにクエリＱが入力されたとき、クエリＱと文書ｄとの関連度スコアの計算する際に、予め計算、及び記録しておいた単語類似度を用いて、クエリＱ中のキーワードｑと最も類似度が高いキーワードを文書ｄ内から探索する。

ここで、キーワードｑと最も類似度が高い文書ｄ中のキーワードがｗだった場合、ｗが持つ重み（ＴＦ・ＩＤＦ等）と、キーワードｑとｗの類似度とを用いてスコアを計算する。これをクエリＱ中の全てのキーワードで計算し、最終的にクエリＱ中の全キーワードのスコアの総和が、クエリＱと文書ｄの関連度スコアとなる。これを検索対象文書集合Ｄ内の全文書で計算し、最後に関連度スコアの順にソートすることで、クエリＱに合致した文書を検索する。

そのため、本実施形態に係る情報検索装置において、クエリ拡張を用いたキーワードマッチ型の検索と、概念ベクトルを用いた概念ベクトル双方の利点を兼ね備えた検索とが可能になる。クエリのキーワードと検索対象文書のキーワードとのマッチは常に１対１で行われるため、クエリ拡張の様に拡張するキーワード数を設定する必要が無くなる。また、必要以上に拡張語がマッチしてしまう可能性を排除できる。スコア計算ではＴＦ・ＩＤＦなどのキーワードの重みを使用できるため、概念検索の様に全てのキーワードが同列の扱いではなく、重要なキーワードを考慮した検索が可能になる。

例えば、インターネット系の文書集合を検索する際に、

クエリ：「ショッピングでクレジットカードが使用できない」
文書Ａ：「弊社サービスのオンライン決済について」
文書Ｂ：「ショッピングサービスでのメールのご利用方法について」

という、文書Ａ、Ｂ、及びクエリがあった場合、概念検索ではクエリに対して文書Ｂが高いスコアを示す傾向にある。これは、「ショッピング」と「ショッピングサービス」、「使用」と「ご利用方法」など全体的な文の類似性から判断しているためである。

しかし、本実施形態に係る情報検索装置においては、文書Ａに高スコアが付与される。これは、「クレジットカード」と「オンライン決済」との類似性の他、かつ「オンライン決済」というキーワード自体の重みを考慮できるためである。

本実施形態に係る情報検索装置は、クエリ中のキーワードを、概念ベクトルモデルを用いて、検索対象文書中に出現するキーワードに置き換えることと同義である。そのため「クレカ」と「クレジットカード」、「ネット」と「インターネット」など省略語や同義語のマッチングに効果を発揮する。これは、表現の揺れが大きくなる自然文検索や音声検索で特に有用だといえる。

＜本発明の実施形態に係る情報検索装置の構成＞
次に、本発明の実施形態に係る情報検索装置の構成について説明する。図１に示すように、本発明の実施形態に係る情報検索装置１００は、ＣＰＵと、ＲＡＭと、後述するデータ作成処理ルーチン、及び情報検索処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この情報検索装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、結果出力部９０とを含んで構成されている。

入力部１０は、検索対象となる文書集合（以後、検索対象文書集合）と、概念ベクトルモデル４２を作成するための文書集合（以後、概念文書集合）を受け付け、類似度計算部３０に出力する。ここで、概念文書集合の収集方法については特に指定はなく、検索対象文書集合と内容が合致するＷｉｋｉｐｅｄｉａ（登録商標）のページ集合や、検索対象文書集合から抽出したキーワードをクエリとしたときにＷｅｂ検索結果のＷｅｂページの集合を利用しても良い。なお、検索対象文書集合に含まれる文書の各々を検索対象文書とし、概念文書集合に含まれる文書の各々を概念文書とする。

また、入力部１０は、ユーザにより入力されたクエリ（以後、入力クエリ）を受け付け、類似度一致検索部５０に出力する。

演算部２０は、類似度計算部３０と、記憶部４０と、類似度一致検索部５０とを含んで構成されている。

類似度計算部３０は、入力部１０から受け付けた検索対象文書集合に基づいて、検索インデックス４４、及び文書データベース４６を作成し、記憶部４０に記憶する。また、類似度計算部３０は、入力部１０から受け付けた概念文書集合に基づいて、概念ベクトルモデル４２を作成し、記憶部４０に記憶する。また、類似度計算部３０は、入力部１０から受け付けた検索対象文書集合、及び概念文書集合に基づいて、概念類似度辞書４８を作成し、記憶部４０に記憶する。また、類似度計算部３０は、キーワード抽出部３２と、検索インデックス作成部３４と、概念ベクトルモデル作成部３６と、概念類似度辞書作成部３８とを含んで構成されている。なお、類似度計算部が、本発明に係る辞書作成装置の一例である。

キーワード抽出部３２は、入力部１０から受け付けた検索対象文書集合と概念文書集合に含まれる検索対象文書、及び概念文書の各々について、キーワード単位に分割する。また、キーワード抽出部３２は、キーワード単位に分割した検索対象文書集合に含まれる検索対象文書の各々を、検索インデックス作成部３４に出力し、キーワード単位に分割した概念文書集合に含まれる概念文書の各々を、概念ベクトルモデル作成部３６に出力する。なお、検索対象文書を分割したキーワード単位を検索対象文書キーワードとし、概念文書を分割したキーワード単位を概念文書キーワードとする。

ここで、キーワードは、英語であれば単語区切りにしたもの、日本語であれば形態素解析の結果を基に、名詞が連続した場合は接合するなどの処理、名詞と動詞のみを抽出するといった処理によりキーワードを作成する。このとき、キーワード作成処理の処理方法やルールについては検索対象等に応じて自由に設定できる。しかし、検索対象文書集合と概念文書集合に対しては（形態素解析の辞書も含め）同じ処理手順、ルールによりキーワードを抽出する。

検索インデックス作成部３４は、キーワード抽出部３２から入力された、キーワード単位に分割した検索対象文書の各々に基づいて、例えば、図２に示すような検索用のインデックスである検索インデックス４４を作成し、記憶部４０に記憶すると共に、文書データベース４６を作成し、記憶部４０に記憶する。なお、検索インデックス４４は、一般に情報検索システムで使用している転置インデックスと同様のものとなる。

ここで、図２に示す検索インデックス４４は、検索対象文書のＫｅｙとなる文書ＩＤ、検索対象文書内の検索対象文書キーワード、そして検索対象文書キーワードの重みから構成される。重みの計算方法については、ＴＦ・ＩＤＦを用いる。なお、当該検索インデックス４４は、類似度一致検索部５０でのスコア計算でも使用する。また、重みの計算方法は、ＢＭ２５など任意の重み付けアルゴリズムを使用してもよい。

また、文書データベース４６には、文書ＩＤがＫｅｙとなり、検索対象文書本文が記録されている。

具体的には、検索インデックス作成部３４は、取得したキーワード単位に分割した検索対象文書の各々について、当該検索対象文書について、Ｋｅｙとなる文書ＩＤを設定し、当該検索対象文書に含まれる検索対象文書キーワードの各々について、当該検索対象文書キーワードの重みを計算し、文書ＩＤと、検索対象文書キーワードと、当該検索対象文書キーワードの重みとを１つのインデックスデータとして、当該検索対象文書に含まれる検索対象文書キーワードの各々についてのインデックスデータを検索インデックスに追加する。

また、検索インデックス作成部３４は、取得したキーワード単位に分割した検索対象文書の各々について、検索インデックスを作成する際に設定された当該検索対象文書の文書ＩＤと、当該検索対象文書の検索対象文書本文（文書内容）とを組み合わせて、文書データベース４６に追加する。

概念ベクトルモデル作成部３６は、キーワード抽出部３２から入力された、キーワード単位に分割した概念文書の各々に基づいて、概念ベクトルモデル４２を作成し、記憶部４０に記憶する。ここで、概念ベクトルモデル４２とは、例えば、図３に示すように、概念文書キーワードの各々に対する、単語をｎ次元の連続値のベクトルで表現した概念ベクトルからなるモデルである。ここで、本実施形態においては、概念ベクトルモデル４２の作成方法については、特異値分解を用いたＬＳＩを用いる。なお、概念ベクトルモデル４２の作成方法として、特異値分解を用いたＬＳＩではなく、トピックモデル、ニューラルネットワークを用いたモデルなど、任意のモデルを採用してもよい。

概念類似度辞書作成部３８は、記憶部４０に記憶されている検索インデックス４４、及び概念ベクトルモデル４２に基づいて、概念ベクトルモデル４２の概念文書キーワードと検索対象文書との単語類似度を計算し、当該計算結果をまとめた概念類似度辞書４８を作成し、記憶部４０に記憶する。

図４に、概念類似度辞書４８の一例を示す。概念類似度辞書４８は概念ベクトルモデル４２の概念文書キーワード、文書ＩＤ、検索対象文書の検索対象文書キーワード、キーワード間の類似度から構成される。ここで、概念ベクトルモデル４２中にある概念文書キーワードに対し、検索対象文書集合の各検索対象文書において最も類似度が高い検索対象文書キーワードを抽出し記録している。

当該処理により、概念ベクトルモデル４２内の概念文書キーワードがクエリとして入力されたとき、検索対象文書中のどの検索対象文書キーワードに対応付けばよいのかを即座に参照することができる。また、類似度が高い検索対象文書キーワードほど関連度が高いキーワードであるため、対応付けは類似度が最も高いものを選択する必要がある。本実施形態に係る情報検索装置１００においては、類似度が最も高い検索対象文書キーワード以外で検索対象文書中に出現する検索対象文書キーワードは本実施形態では使用しないため記録しないことで、ディスクやメモリの容量を削減できる。

当該処理を、概念ベクトルモデル４２の全ての概念文書キーワードと検索対象文書集合の全文書との各組み合わせで行う。概念ベクトルモデル４２に１０００００個のキーワード、検索対象文書が５００文書あるとき、１０００００個×５００文書の組み合わせの辞書が作成されることになる。

類似度の計算方法についてはコサイン距離等の類似度の範囲が０〜１の間に正規化できるものを用いる。なお、計算量と辞書のメモリ容量の削減のために、概念ベクトルモデル４２のキーワードと検索対象文書のキーワードが完全に一致する場合は、類似度計算を行わず、概念類似度辞書４８にも記録しない方針も採用できる（類似度が最大であることが自明のため）。また、類似度計算の結果類似度が設定した閾値以下の場合には概念類似度辞書４８に記録しない（類似度０と見なす）ことも可能である。また、作成した類似度辞書は類似度一致検索部で使用する。また、類似度辞書作成のための計算は分散処理等によって行うことも可能である。

記憶部４０には、概念ベクトルモデル４２、検索インデックス４４、文書データベース４６、及び概念類似度辞書４８が記憶されている。

類似度一致検索部５０は、入力部１０から入力された、入力クエリと、記憶部４０に記憶されている検索インデックス４４と、概念類似度辞書４８と、文書データベース４６とに基づいて、入力クエリと、検索対象文書の各々とのスコアを計算し、当該スコアの各々に基づく結果を、結果出力部９０から出力する。なお、当該スコアは、入力クエリと、対象となる検索対象文書との関連度を表すスコアである。

また、類似度一致検索部５０は、クエリキーワード抽出部５２と、スコア計算部６０とを含んで構成されている。

クエリキーワード抽出部５２は、入力部１０から入力された入力クエリについて、キーワード抽出部３２と同様（処理手順、及びルール）の処理に従って、キーワード単位に分割し、スコア計算部６０に送信する。なお、ここで、入力クエリが自然文、又は音声入力文の場合には、クエリキーワード抽出部５２における処理を行うが、入力クエリが、既にキーワード単位になっている場合には、クエリキーワード抽出部５２における処理を実行しない。

スコア計算部６０は、クエリキーワード抽出部５２から取得したキーワード単位に分割された入力クエリと、検索インデックス４４と、文書データベース４６と、概念類似度辞書４８とに基づいて、入力クエリと、検索対象文書の各々との関連度スコアを計算し、当該関連度スコアの各々に基づく結果を、結果出力部９０から出力する。

また、スコア計算部６０は、概念類似度参照部６２と、計算部６４とを含んで構成されている。

概念類似度参照部６２は、文書データベース４６に含まれる検索対象文書を１つ選択し、当該検索対象文書の文書ＩＤを取得する。また、概念類似度参照部６２は、クエリキーワード抽出部５２から取得したキーワード単位に分割された入力クエリに基づいて、当該入力クエリに含まれるキーワードを１つ選択する。また、概念類似度参照部６２は、選択したキーワードと、概念類似度辞書４８の「キーワード（概念）」の欄とが一致し、かつ取得した文書ＩＤと、概念類似度辞書４８の「文書ＩＤ」の欄とが一致する「キーワード（検索文書）」の欄の情報を参照キーワードとして取得する。なお、当該参照キーワードを取得する処理を、入力クエリに含まれるキーワードの全てについて行う。

また、入力クエリに含まれるキーワードのうち、当該キーワードと、概念類似度辞書４８の「キーワード（概念）」の欄とが一致し、かつ取得した文書ＩＤと、概念類似度辞書４８の「文書ＩＤ」の欄とが一致する情報が存在しない場合には、当該キーワードについては、以後の処理対象から除外するものとする。

また、処理対象から除外すると判定されたキーワードを、特定のデータベースに記憶し、情報検索装置１００の一連の処理が終了した後に、当該データベースに含まれるキーワードに基づいて、当該キーワードに関連する検索対象文書集合と、概念文書集合とを、当該キーワードに基づいてインターネット等を検索することによって、受け付け、上述の類似度計算部３０の処理を行ってもよい。

計算部６４は、概念類似度参照部６２において選択された検索対象文書と、入力クエリとの関連度スコアを、下記（１）式に従って、算出する。なお、関連度スコアの計算には、検索インデックス４４に記憶されている検索対象文書キーワードの重みと、概念類似度辞書４８のキーワード間の類似度とを用いる。また、下記（１）式において、選択した検索対象文書をｄ、入力クエリをＱとする。また、本実施形態においては、関連度スコアは、値が大きい程関連度が高いことを表わすものとする。

ここで、ｑは入力クエリＱ中に含まれるキーワード、ｗは概念類似度参照部６２において取得した参照キーワード（キーワードｑと類似度最大でマッチする検索対象文書ｄ中の検索対象文書キーワード）、ｗｅｉｇｈｔ（ｗ）は、参照キーワードｗの重み、ｓｉｍ（ｑ,ｗ）はキーワードｑと参照キーワードｗの類似度である。

また、類似度は０．０が最小値とし、１．０が最大値（キーワード完全一致検索と同様の扱い）となるようにする。

また、計算部６４は、文書データベース４６に含まれる検索対象文書の全てについて、関連度スコアを算出している場合には、当該関連度スコアの降順となるように文書データベース４６に含まれる検索対象文書の文書本文の各々を並べ替えたもののうち、上位Ｎ件を、ユーザのクエリに対する検索結果として、結果出力部９０から出力する。

また、計算部６４は、文書データベース４６に含まれる検索対象文書の全てについて、関連度スコアを算出していない場合には、概念類似度参照部６２の処理と計算部６４との処理を繰り返す。このようにすることにより、検索対象文書集合の全ての検索対象文書で関連度スコアを計算することができる。

なお、概念ベクトルモデル上での類似度は、関連のあるキーワード同士の類似度は高くなる。特に「クレカ」と「クレジットカード」、「スマホ」と「スマートフォン」など表現の揺れや省略形など同義関係にあるキーワード間の類似度は極めて高くなる（類似度０．９以上など）。

この場合、関連度スコアは検索対象文書中の検索対象文書キーワードの重みが、ほぼそのまま使用される形になる（例えば、「クレカ」のスコア＝「クレジットカード」のスコア＊０．９）。一方、関連が薄いキーワードは低くなる。本実施形態に用いる手法では、クエリのキーワードは検索対象文書中の検索対象文書キーワードのどれか一つには必ずマッチする仕組みとなる。

そのため、関連の低いキーワードがマッチしてしまった際に、類似度を乗算することで、当該キーワードの影響を低減させることができる（関連度スコア計算時に検索対象文書キーワードの重みに０．２〜０．３といった類似度が乗算されたものが使われる）。

図５に、本実施形態に係る情報検索装置１００において行われる関連度スコアの計算内容の例を示す。なお、当該例においては、概念ベクトルモデル４２は、事前に作成されたものを用いることとする。また、当該計算内容の例において用いる、検索対象文書集合、文書データベース４６、検索インデックス４４、及び概念類似度辞書４８は、図６に示すものを使用するものとする。

＜本発明の実施形態に係る情報検索装置の作用＞
次に、本発明の実施形態に係る情報検索装置１００の作用について説明する。情報検索装置１００は、入力部１０によって、検索対象文書集合、及び概念文書集合を受け付けると、情報検索装置１００によって、図７に示すデータ作成処理ルーチンが実行される。また、情報検索装置１００は、データ作成処理ルーチン後、入力部１０によって、入力クエリを受け付けると、情報検索装置１００によって、図８に示す情報検索処理ルーチンが実行される。なお、データ作成処理ルーチンが、本発明に係る辞書作成方法の一例である。

まず、図７に示すデータ作成処理ルーチンについて説明する。

図７に示すデータ作成処理ルーチンのステップＳ１００で、入力部１０において受け付けた検索対象文書集合に含まれる検索対象文書の各々、及び概念文書集合に含まれる概念文書の各々について、当該検索対象文書、又は概念文書を、キーワード単位に分割し、検索対象文書キーワード、及び概念文書キーワードの各々を抽出する。

次に、ステップＳ１０２で、ステップＳ１００において取得したキーワード単位に分割された検索対象文書の各々に基づいて、検索インデックス４４を作成し、記憶部４０に記憶する。

次に、ステップＳ１０４で、ステップＳ１００において取得したキーワード単位に分割された検索対象文書の各々と、ステップＳ１０２において取得した検索インデックス４４とに基づいて、文書データベース４６を作成し、記憶部４０に記憶する。

次に、ステップＳ１０６で、ステップＳ１００において取得したキーワード単位に分割された概念文書の各々に基づいて、概念ベクトルモデル４２を作成し、記憶部４０に記憶する。

次に、ステップＳ１０８で、ステップＳ１０２において取得した検索インデックス４４と、ステップＳ１０６において取得した概念ベクトルモデル４２とに基づいて、概念類似度辞書４８を作成し、記憶部４０に記憶し、データ作成処理ルーチンを終了する。

次に、図８に示す情報検索処理ルーチンについて説明する。

まず、図８に示す情報検索処理ルーチンのステップＳ２００で、検索インデックス４４、文書データベース４６、及び概念類似度辞書４８を読み込む。

次に、ステップＳ２０２で、上述のステップＳ１００と同様に、入力部１０において受け付けた入力クエリをキーワード単位に分割し、キーワードを抽出する。

次に、ステップＳ２０４で、ステップＳ２００において取得した文書データベース４６に含まれる検索対象文書のうち、処理対象となる検索対象文書を決定する。また、ステップＳ２０４で、処理対象となる検索対象文書の文書ＩＤを文書データベースから取得する。

次に、ステップＳ２０８で、ステップＳ２０２において取得したキーワードの各々について、ステップＳ２００において取得した概念類似度辞書４８と、ステップＳ２０４において取得した処理対象となる検索対象文書の文書ＩＤとに基づいて、参照キーワードを取得する。

次に、ステップＳ２１２で、ステップＳ２００において取得した、検索インデックス４４、及び概念類似度辞書４８と、ステップＳ２０８において取得した入力クエリのキーワードの各々の参照キーワードとに基づいて、上記（１）式に従って、処理対象となる検索対象文書の関連度スコアを計算する。

次に、ステップＳ２１４で、ステップＳ２００において取得した文書データベース４６に含まれる、全ての検索対象文書についてステップＳ２０４〜ステップＳ２１２までの処理を終了したか否かを判定する。全ての検索対象文書について、ステップＳ２０４〜ステップＳ２１２までの処理を終了したと判定した場合には、情報検索処理は、ステップＳ２１６へ移行する。一方、全ての検索対象文書について、ステップＳ２０４〜ステップＳ２１２までの処理を終了していないと判定した場合には、情報検索処理は、ステップＳ２０４へ移行し、処理対象となる検索対象文書を変更し、ステップＳ２０８〜ステップＳ２１４までの処理を繰り返す。

次に、ステップＳ２１６で、ステップＳ２１２において取得した検索対象文書の各々の関連度スコアと、文書データベース４６とに基づいて、関連度スコアの降順に検索対象文書の文書本文を並べたものの、上位Ｎ件を、結果出力部９０から出力して、情報検索処理ルーチンを終了する。

以上説明したように、本発明の本実施形態に係る情報検索装置によれば、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、クエリに含まれるキーワードと類似する検索対象文書キーワードとの類似度、及び検索対象文書キーワードの重みを用いて、検索対象文書との関連度スコアを計算することにより、クエリに関連する文書を精度よく検索することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、本実施形態においては、類似度計算部と、類似度一致検索部とを同一の情報検索装置に含むように構成する場合について説明したが、類似度計算部と、類似度一致検索部とを別々の装置として構成してもよい。この場合、類似度計算部を含む装置により作成された、検索インデックス、文書データベース、及び概念類似度辞書を、類似度一致検索部を含む装置で用いる。

また、本実施形態においては、類似度計算部による処理の後に、類似度一致検索部による処理を行う場合について説明したが、これに限定されるものではない。例えば、類似度計算部の処理をオフラインで事前に処理しておき、類似度一致検索部の処理をオンラインで実行してもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

１０入力部
２０演算部
３０類似度計算部
３２キーワード抽出部
３４検索インデックス作成部
３６概念ベクトルモデル作成部
３８作成部
４０記憶部
４２概念ベクトルモデル
４４検索インデックス
４６文書データベース
４８概念類似度辞書
５０類似度一致検索部
５２クエリキーワード抽出部
６０スコア計算部
６２概念類似度参照部
６４計算部
９０結果出力部
１００情報検索装置

Claims

検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせである検索インデックスと、
前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書ＩＤとの組み合わせである文書データベースと、
概念文書集合に基づいて作成された、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルと、前記検索インデックスと、前記文書データベースとに基づいて、前記検索対象文書の各々について作成された、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書と、
入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算するスコア計算部と、
を含む情報検索装置。
検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせを格納した検索インデックスを作成する検索インデックス作成部と、
前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書ＩＤとの組み合わせである文書データベースと、
概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルを作成する概念ベクトルモデル作成部と、
前記概念ベクトルと前記検索インデックスと前記文書データベースとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する概念類似度辞書作成部と、
入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算するスコア計算部と、
を含む情報検索装置。
検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせを格納した検索インデックスを作成する検索インデックス作成部と、
前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書ＩＤとの組み合わせである文書データベースと、
概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルを作成する概念ベクトルモデル作成部と、
前記概念ベクトルと前記検索インデックスと前記文書データベースとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する概念類似度辞書作成部と、
を含む辞書作成装置。
検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせである検索インデックスと、
前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書ＩＤとの組み合わせである文書データベースと、
概念文書集合に基づいて作成された、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルと、前記検索インデックスとに基づいて、前記検索対象文書の各々について作成された、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書と、
スコア計算部とを含む、情報検索装置における、情報検索方法であって、
前記スコア計算部は、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算する
情報検索方法。
検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の文書ＩＤとの組み合わせである文書データベースと、検索インデックス作成部と、概念ベクトルモデル作成部と、概念類似度辞書作成部と、スコア計算部と、を含む情報検索装置における、情報検索方法であって、
前記検索インデックス作成部は、前記検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせである検索インデックスを作成し、
前記概念ベクトルモデル作成部は、概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルを作成し、
前記概念類似度辞書作成部は、前記概念ベクトルと前記検索インデックスとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成し、
前記スコア計算部は、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算する
情報検索方法。
検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の文書ＩＤとの組み合わせである文書データベースと、検索インデックス作成部と、概念ベクトルモデル作成部と、概念類似度辞書作成部と、を含む辞書作成装置における、辞書作成方法であって、
前記検索インデックス作成部は、前記検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書ＩＤとの組み合わせである検索インデックスを作成し、
前記概念ベクトルモデル作成部は、単語をｎ次元のベクトルで表現した概念ベクトルを作成するための概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、ｎ次元のベクトルで表現した概念ベクトルを作成し、
前記概念類似度辞書作成部は、前記概念ベクトルと前記検索インデックスとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する
辞書作成方法。
コンピュータを、請求項１若しくは２記載の情報検索装置、又は請求項３記載の辞書作成装置の各部として機能させ、又は、コンピュータに、請求項４若しくは５記載の情報検索方法、又は請求項６記載の辞書検索方法の各ステップを実行させるためのプログラム。