JP6340351B2 - 情報検索装置、辞書作成装置、方法、及びプログラム - Google Patents

情報検索装置、辞書作成装置、方法、及びプログラム Download PDF

Info

Publication number
JP6340351B2
JP6340351B2 JP2015197647A JP2015197647A JP6340351B2 JP 6340351 B2 JP6340351 B2 JP 6340351B2 JP 2015197647 A JP2015197647 A JP 2015197647A JP 2015197647 A JP2015197647 A JP 2015197647A JP 6340351 B2 JP6340351 B2 JP 6340351B2
Authority
JP
Japan
Prior art keywords
document
search target
concept
search
target document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015197647A
Other languages
English (en)
Other versions
JP2017072885A (ja
Inventor
淳史 大塚
淳史 大塚
克人 別所
克人 別所
中村 孝
孝 中村
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015197647A priority Critical patent/JP6340351B2/ja
Publication of JP2017072885A publication Critical patent/JP2017072885A/ja
Application granted granted Critical
Publication of JP6340351B2 publication Critical patent/JP6340351B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声またはテキストを入力とする情報検索装置、辞書作成装置、方法、及びプログラムに関するものである。
従来、情報検索システムとして、ユーザが入力したクエリに対して、キーワードマッチ等の処理によってクエリに適合する文書を検索する手法が知られている。キーワードマッチ検索の場合はクエリのキーワードと文書内のキーワードとが完全一致していなくてはならず、検索の再現率(Recall)が低下してしまうという課題があった。そこで、クエリ中の含まれるキーワードを自動的に増やすことでより幅広い文書にマッチさせる技術としてクエリ拡張が知られている(特許文献1)。
また、キーワードマッチ型以外の検索手法として、概念検索が知られている。概念検索はキーワードを連続値のn次元のベクトルで表現し、そのベクトルの重心をクエリベクトルと見なす手法である。同様に文書ベクトルも文書内のキーワードベクトルの重心で表現し、クエリベクトルと文書ベクトルの類似度を計算する。類似度が高い順に検索結果を出力することで検索を実行する。概念検索ではキーワードマッチと異なり、キーワードが完全一致しなくてもクエリ近い話題に関する文書が検索可能になるという利点がある。
特開2010−123036号公報 特開2010−182041号公報
しかし、従来のクエリ拡張型の検索システムでは、拡張するためのキーワード数を人手で決定する必要がある。また、拡張するキーワードが多すぎると本来のクエリのキーワードに対して関連が低いキーワードがマッチするリスクが高まる。そして、反対に拡張するキーワード数が少ない場合には拡張後のクエリでもキーワードがマッチしない可能性が高まる。そのため、キーワード拡張数が妥当なクエリ拡張を行うことが難しいという問題がある。
また、概念ベクトルを使用した概念検索型の検索では、クエリを拡張せずに、内容が概念的に近接している文書を検索することができるが、概念検索では文書中の各々の単語の重みは考慮されず、重要な単語は異なっていてもその他の部分(機能語部分等)が一致していた場合、高いスコアを示すことがあるという問題がある。また、概念ベクトルの検索では文書中の全単語の重心ベクトルを求めるため、文書が長い場合などに検索精度が低下するという問題がある。
本発明では、上記問題点を解決するために成されたものであり、クエリに関連する文書を精度よく検索することができる情報検索装置、辞書作成装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る情報検索装置は、検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスと、前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、概念文書集合に基づいて作成された、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルと、前記検索インデックスと、前記文書データベースとに基づいて、前記検索対象文書の各々について作成された、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書と、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算するスコア計算部と、を含んで構成されている。
第2の発明に係る情報検索方法は、検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスと、前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、概念文書集合に基づいて作成された、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルと、前記検索インデックスとに基づいて、前記検索対象文書の各々について作成された、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書と、スコア計算部とを含む、情報検索装置における、情報検索方法であって、前記スコア計算部は、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算する。
第1及び第2の発明によれば、スコア計算部により、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、クエリに含まれるキーワードと類似する検索対象文書キーワードとの類似度、及び検索対象文書キーワードの重みを用いて、検索対象文書との関連度スコアを計算する。
このように、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、クエリに含まれるキーワードと類似する検索対象文書キーワードとの類似度、及び検索対象文書キーワードの重みを用いて、検索対象文書との関連度スコアを計算することにより、クエリに関連する文書を精度よく検索することができる。
第3の発明に係る情報検索装置は、検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせを格納した検索インデックスを作成する検索インデックス作成部と、前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成する概念ベクトルモデル作成部と、前記概念ベクトルと前記検索インデックスと前記文書データベースとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する概念類似度辞書作成部と、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算するスコア計算部と、を含んで構成されている。
第4の発明に係る情報検索方法は、検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の文書IDとの組み合わせである文書データベースと、検索インデックス作成部と、概念ベクトルモデル作成部と、概念類似度辞書作成部と、スコア計算部と、を含む情報検索装置における、情報検索方法であって、前記検索インデックス作成部は、前記検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスを作成し、前記概念ベクトルモデル作成部は、概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成し、前記概念類似度辞書作成部は、前記概念ベクトルと前記検索インデックスとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成し、前記スコア計算部は、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算する。
第3及び第4の発明によれば、検索インデックス作成部により、検索対象文書集合に含まれる検索対象文書の各々について、検索対象文書に含まれる検索対象文書キーワードの重さと、検索対象文書キーワードと、検索対象文書を表す文書IDとの組み合わせである検索インデックスを作成し、概念ベクトルモデル作成部により、概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成し、概念類似度辞書作成部により、概念ベクトルと検索インデックスとに基づいて、検索対象文書の各々について、検索対象文書に含まれる検索対象文書キーワードに対し、最も類似度が高い概念文書キーワードを類似度と共に記録した概念類似度辞書を作成し、スコア計算部により、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、クエリに含まれるキーワードと類似する検索対象文書キーワードとの類似度、及び検索対象文書キーワードの重みを用いて、検索対象文書との関連度スコアを計算する。
このように、検索対象文書集合に含まれる検索対象文書の各々について、検索インデックスを作成し、概念文書集合に基づいて、概念ベクトルを作成し、概念ベクトルと検索インデックスとに基づいて、検索対象文書の各々について、概念類似度辞書を作成し、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、検索対象文書との関連度スコアを計算することにより、クエリに関連する文書を精度よく検索することができる。
第5の発明に係る辞書作成装置は、検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせを格納した検索インデックスを作成する検索インデックス作成部と、前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成する概念ベクトルモデル作成部と、前記概念ベクトルと前記検索インデックスと前記文書データベースとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する概念類似度辞書作成部と、を含んで構成される。
第6の発明に係る辞書作成方法は、検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の文書IDとの組み合わせである文書データベースと、検索インデックス作成部と、概念ベクトルモデル作成部と、概念類似度辞書作成部と、を含む辞書作成装置における、辞書作成方法であって、前記検索インデックス作成部は、前記検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスを作成し、前記概念ベクトルモデル作成部は、単語をn次元のベクトルで表現した概念ベクトルを作成するための概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成し、前記概念類似度辞書作成部は、前記概念ベクトルと前記検索インデックスとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する。
第5及び第6の発明によれば、検索インデックス作成部により、検索対象文書集合に含まれる検索対象文書の各々について、検索対象文書に含まれる検索対象文書キーワードの重さと、検索対象文書キーワードと、検索対象文書を表す文書IDとの組み合わせである検索インデックスを作成し、概念ベクトルモデル作成部により、単語をn次元のベクトルで表現した概念ベクトルを作成するための概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成し、概念類似度辞書作成部により、概念ベクトルと検索インデックスとに基づいて、検索対象文書の各々について、検索対象文書に含まれる検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する。
このように、検索対象文書集合に含まれる検索対象文書の各々について、検索インデックスを作成し、概念文書集合に基づいて、概念ベクトルを作成し、概念ベクトルと検索インデックスとに基づいて、検索対象文書の各々について、概念類似度辞書を作成することにより、クエリに関連する文書を精度よく検索するための概念類似度辞書を作成することができる。
また、本発明のプログラムは、コンピュータを、上記の情報検索装置、若しくは辞書作成装置を構成する各部として機能させ、又はコンピュータに、上記の情報検索方法、若しくは辞書作成方法の各ステップを実行させるためのプログラムである。
以上説明したように、本発明の情報検索装置、方法、及びプログラムによれば、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、クエリに含まれるキーワードと類似する検索対象文書キーワードとの類似度、及び検索対象文書キーワードの重みを用いて、検索対象文書との関連度スコアを計算することにより、クエリに関連する文書を精度よく検索することができる。
また、情報検索装置、辞書作成装置、方法、及びプログラムによれば、検索対象文書集合に含まれる検索対象文書の各々について、検索インデックスを作成し、概念文書集合に基づいて、概念ベクトルを作成し、概念ベクトルと検索インデックスとに基づいて、検索対象文書の各々について、概念類似度辞書を作成することにより、クエリに関連する文書を精度よく検索するための概念類似度辞書を作成することができる。
本発明の実施形態に係る情報検索装置の機能的構成を示すブロック図である。 検索インデックスの一例を示す図である。 概念ベクトルモデルの一例を示す図である。 概念類似度辞書の一例を示す図である。 本実施形態に係る情報検索装置を用いた計算内容の一例を示す図である。 本実施形態に係る情報検索装置を用いた計算内容の一例で用いるデータの一例を示す図である。 本発明の実施形態に係る情報検索装置におけるデータ作成処理ルーチンのフローチャート図である。 本発明の実施形態に係る情報検索装置における情報検索処理ルーチンのフローチャート図である。
以下、図面を参照して本発明の実施形態を詳細に説明する。
<本発明の実施形態の概要>
まず、本発明の実施形態の概要について説明する。
本実施形態は、検索対象文書に含まれる検索対象文書キーワードの重さと、検索対象文書キーワードと、検索対象文書を表す文書IDとの組み合わせを格納した検索インデックスに含まれる検索対象文書のキーワードに対して予め、概念ベクトルモデルのキーワードとの類似関係を計算しておくことによる、キーワード単位での概念検索を行う点がポイントである。
また、検索対象文書集合Dの検索インデックス中のある文書d中のあるキーワードwに対して、当該wと概念ベクトルモデルに登録されている全キーワードとの概念空間上での類似度を計算し記録する。これを文書d内のキーワード全て、また、文書集合D内の全ての文書に対して適用する。
本実施形態に係る情報検索装置を実装した検索システムにクエリQが入力されたとき、クエリQと文書dとの関連度スコアの計算する際に、予め計算、及び記録しておいた単語類似度を用いて、クエリQ中のキーワードqと最も類似度が高いキーワードを文書d内から探索する。
ここで、キーワードqと最も類似度が高い文書d中のキーワードがwだった場合、wが持つ重み(TF・IDF等)と、キーワードqとwの類似度とを用いてスコアを計算する。これをクエリQ中の全てのキーワードで計算し、最終的にクエリQ中の全キーワードのスコアの総和が、クエリQと文書dの関連度スコアとなる。これを検索対象文書集合D内の全文書で計算し、最後に関連度スコアの順にソートすることで、クエリQに合致した文書を検索する。
そのため、本実施形態に係る情報検索装置において、クエリ拡張を用いたキーワードマッチ型の検索と、概念ベクトルを用いた概念ベクトル双方の利点を兼ね備えた検索とが可能になる。クエリのキーワードと検索対象文書のキーワードとのマッチは常に1対1で行われるため、クエリ拡張の様に拡張するキーワード数を設定する必要が無くなる。また、必要以上に拡張語がマッチしてしまう可能性を排除できる。スコア計算ではTF・IDFなどのキーワードの重みを使用できるため、概念検索の様に全てのキーワードが同列の扱いではなく、重要なキーワードを考慮した検索が可能になる。
例えば、インターネット系の文書集合を検索する際に、
クエリ:「ショッピングでクレジットカードが使用できない」
文書A:「弊社サービスのオンライン決済について」
文書B:「ショッピングサービスでのメールのご利用方法について」
という、文書A、B、及びクエリがあった場合、概念検索ではクエリに対して文書Bが高いスコアを示す傾向にある。これは、「ショッピング」と「ショッピングサービス」、「使用」と「ご利用方法」など全体的な文の類似性から判断しているためである。
しかし、本実施形態に係る情報検索装置においては、文書Aに高スコアが付与される。これは、「クレジットカード」と「オンライン決済」との類似性の他、かつ「オンライン決済」というキーワード自体の重みを考慮できるためである。
本実施形態に係る情報検索装置は、クエリ中のキーワードを、概念ベクトルモデルを用いて、検索対象文書中に出現するキーワードに置き換えることと同義である。そのため「クレカ」と「クレジットカード」、「ネット」と「インターネット」など省略語や同義語のマッチングに効果を発揮する。これは、表現の揺れが大きくなる自然文検索や音声検索で特に有用だといえる。
<本発明の実施形態に係る情報検索装置の構成>
次に、本発明の実施形態に係る情報検索装置の構成について説明する。図1に示すように、本発明の実施形態に係る情報検索装置100は、CPUと、RAMと、後述するデータ作成処理ルーチン、及び情報検索処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この情報検索装置100は、機能的には図1に示すように入力部10と、演算部20と、結果出力部90とを含んで構成されている。
入力部10は、検索対象となる文書集合(以後、検索対象文書集合)と、概念ベクトルモデル42を作成するための文書集合(以後、概念文書集合)を受け付け、類似度計算部30に出力する。ここで、概念文書集合の収集方法については特に指定はなく、検索対象文書集合と内容が合致するWikipedia(登録商標)のページ集合や、検索対象文書集合から抽出したキーワードをクエリとしたときにWeb検索結果のWebページの集合を利用しても良い。なお、検索対象文書集合に含まれる文書の各々を検索対象文書とし、概念文書集合に含まれる文書の各々を概念文書とする。
また、入力部10は、ユーザにより入力されたクエリ(以後、入力クエリ)を受け付け、類似度一致検索部50に出力する。
演算部20は、類似度計算部30と、記憶部40と、類似度一致検索部50とを含んで構成されている。
類似度計算部30は、入力部10から受け付けた検索対象文書集合に基づいて、検索インデックス44、及び文書データベース46を作成し、記憶部40に記憶する。また、類似度計算部30は、入力部10から受け付けた概念文書集合に基づいて、概念ベクトルモデル42を作成し、記憶部40に記憶する。また、類似度計算部30は、入力部10から受け付けた検索対象文書集合、及び概念文書集合に基づいて、概念類似度辞書48を作成し、記憶部40に記憶する。また、類似度計算部30は、キーワード抽出部32と、検索インデックス作成部34と、概念ベクトルモデル作成部36と、概念類似度辞書作成部38とを含んで構成されている。なお、類似度計算部が、本発明に係る辞書作成装置の一例である。
キーワード抽出部32は、入力部10から受け付けた検索対象文書集合と概念文書集合に含まれる検索対象文書、及び概念文書の各々について、キーワード単位に分割する。また、キーワード抽出部32は、キーワード単位に分割した検索対象文書集合に含まれる検索対象文書の各々を、検索インデックス作成部34に出力し、キーワード単位に分割した概念文書集合に含まれる概念文書の各々を、概念ベクトルモデル作成部36に出力する。なお、検索対象文書を分割したキーワード単位を検索対象文書キーワードとし、概念文書を分割したキーワード単位を概念文書キーワードとする。
ここで、キーワードは、英語であれば単語区切りにしたもの、日本語であれば形態素解析の結果を基に、名詞が連続した場合は接合するなどの処理、名詞と動詞のみを抽出するといった処理によりキーワードを作成する。このとき、キーワード作成処理の処理方法やルールについては検索対象等に応じて自由に設定できる。しかし、検索対象文書集合と概念文書集合に対しては(形態素解析の辞書も含め)同じ処理手順、ルールによりキーワードを抽出する。
検索インデックス作成部34は、キーワード抽出部32から入力された、キーワード単位に分割した検索対象文書の各々に基づいて、例えば、図2に示すような検索用のインデックスである検索インデックス44を作成し、記憶部40に記憶すると共に、文書データベース46を作成し、記憶部40に記憶する。なお、検索インデックス44は、一般に情報検索システムで使用している転置インデックスと同様のものとなる。
ここで、図2に示す検索インデックス44は、検索対象文書のKeyとなる文書ID、検索対象文書内の検索対象文書キーワード、そして検索対象文書キーワードの重みから構成される。重みの計算方法については、TF・IDFを用いる。なお、当該検索インデックス44は、類似度一致検索部50でのスコア計算でも使用する。また、重みの計算方法は、BM25など任意の重み付けアルゴリズムを使用してもよい。
また、文書データベース46には、文書IDがKeyとなり、検索対象文書本文が記録されている。
具体的には、検索インデックス作成部34は、取得したキーワード単位に分割した検索対象文書の各々について、当該検索対象文書について、Keyとなる文書IDを設定し、当該検索対象文書に含まれる検索対象文書キーワードの各々について、当該検索対象文書キーワードの重みを計算し、文書IDと、検索対象文書キーワードと、当該検索対象文書キーワードの重みとを1つのインデックスデータとして、当該検索対象文書に含まれる検索対象文書キーワードの各々についてのインデックスデータを検索インデックスに追加する。
また、検索インデックス作成部34は、取得したキーワード単位に分割した検索対象文書の各々について、検索インデックスを作成する際に設定された当該検索対象文書の文書IDと、当該検索対象文書の検索対象文書本文(文書内容)とを組み合わせて、文書データベース46に追加する。
概念ベクトルモデル作成部36は、キーワード抽出部32から入力された、キーワード単位に分割した概念文書の各々に基づいて、概念ベクトルモデル42を作成し、記憶部40に記憶する。ここで、概念ベクトルモデル42とは、例えば、図3に示すように、概念文書キーワードの各々に対する、単語をn次元の連続値のベクトルで表現した概念ベクトルからなるモデルである。ここで、本実施形態においては、概念ベクトルモデル42の作成方法については、特異値分解を用いたLSIを用いる。なお、概念ベクトルモデル42の作成方法として、特異値分解を用いたLSIではなく、トピックモデル、ニューラルネットワークを用いたモデルなど、任意のモデルを採用してもよい。
概念類似度辞書作成部38は、記憶部40に記憶されている検索インデックス44、及び概念ベクトルモデル42に基づいて、概念ベクトルモデル42の概念文書キーワードと検索対象文書との単語類似度を計算し、当該計算結果をまとめた概念類似度辞書48を作成し、記憶部40に記憶する。
図4に、概念類似度辞書48の一例を示す。概念類似度辞書48は概念ベクトルモデル42の概念文書キーワード、文書ID、検索対象文書の検索対象文書キーワード、キーワード間の類似度から構成される。ここで、概念ベクトルモデル42中にある概念文書キーワードに対し、検索対象文書集合の各検索対象文書において最も類似度が高い検索対象文書キーワードを抽出し記録している。
当該処理により、概念ベクトルモデル42内の概念文書キーワードがクエリとして入力されたとき、検索対象文書中のどの検索対象文書キーワードに対応付けばよいのかを即座に参照することができる。また、類似度が高い検索対象文書キーワードほど関連度が高いキーワードであるため、対応付けは類似度が最も高いものを選択する必要がある。本実施形態に係る情報検索装置100においては、類似度が最も高い検索対象文書キーワード以外で検索対象文書中に出現する検索対象文書キーワードは本実施形態では使用しないため記録しないことで、ディスクやメモリの容量を削減できる。
当該処理を、概念ベクトルモデル42の全ての概念文書キーワードと検索対象文書集合の全文書との各組み合わせで行う。概念ベクトルモデル42に100000個のキーワード、検索対象文書が500文書あるとき、100000個×500文書の組み合わせの辞書が作成されることになる。
類似度の計算方法についてはコサイン距離等の類似度の範囲が0〜1の間に正規化できるものを用いる。なお、計算量と辞書のメモリ容量の削減のために、概念ベクトルモデル42のキーワードと検索対象文書のキーワードが完全に一致する場合は、類似度計算を行わず、概念類似度辞書48にも記録しない方針も採用できる(類似度が最大であることが自明のため)。また、類似度計算の結果類似度が設定した閾値以下の場合には概念類似度辞書48に記録しない(類似度0と見なす)ことも可能である。また、作成した類似度辞書は類似度一致検索部で使用する。また、類似度辞書作成のための計算は分散処理等によって行うことも可能である。
記憶部40には、概念ベクトルモデル42、検索インデックス44、文書データベース46、及び概念類似度辞書48が記憶されている。
類似度一致検索部50は、入力部10から入力された、入力クエリと、記憶部40に記憶されている検索インデックス44と、概念類似度辞書48と、文書データベース46とに基づいて、入力クエリと、検索対象文書の各々とのスコアを計算し、当該スコアの各々に基づく結果を、結果出力部90から出力する。なお、当該スコアは、入力クエリと、対象となる検索対象文書との関連度を表すスコアである。
また、類似度一致検索部50は、クエリキーワード抽出部52と、スコア計算部60とを含んで構成されている。
クエリキーワード抽出部52は、入力部10から入力された入力クエリについて、キーワード抽出部32と同様(処理手順、及びルール)の処理に従って、キーワード単位に分割し、スコア計算部60に送信する。なお、ここで、入力クエリが自然文、又は音声入力文の場合には、クエリキーワード抽出部52における処理を行うが、入力クエリが、既にキーワード単位になっている場合には、クエリキーワード抽出部52における処理を実行しない。
スコア計算部60は、クエリキーワード抽出部52から取得したキーワード単位に分割された入力クエリと、検索インデックス44と、文書データベース46と、概念類似度辞書48とに基づいて、入力クエリと、検索対象文書の各々との関連度スコアを計算し、当該関連度スコアの各々に基づく結果を、結果出力部90から出力する。
また、スコア計算部60は、概念類似度参照部62と、計算部64とを含んで構成されている。
概念類似度参照部62は、文書データベース46に含まれる検索対象文書を1つ選択し、当該検索対象文書の文書IDを取得する。また、概念類似度参照部62は、クエリキーワード抽出部52から取得したキーワード単位に分割された入力クエリに基づいて、当該入力クエリに含まれるキーワードを1つ選択する。また、概念類似度参照部62は、選択したキーワードと、概念類似度辞書48の「キーワード(概念)」の欄とが一致し、かつ取得した文書IDと、概念類似度辞書48の「文書ID」の欄とが一致する「キーワード(検索文書)」の欄の情報を参照キーワードとして取得する。なお、当該参照キーワードを取得する処理を、入力クエリに含まれるキーワードの全てについて行う。
また、入力クエリに含まれるキーワードのうち、当該キーワードと、概念類似度辞書48の「キーワード(概念)」の欄とが一致し、かつ取得した文書IDと、概念類似度辞書48の「文書ID」の欄とが一致する情報が存在しない場合には、当該キーワードについては、以後の処理対象から除外するものとする。
また、処理対象から除外すると判定されたキーワードを、特定のデータベースに記憶し、情報検索装置100の一連の処理が終了した後に、当該データベースに含まれるキーワードに基づいて、当該キーワードに関連する検索対象文書集合と、概念文書集合とを、当該キーワードに基づいてインターネット等を検索することによって、受け付け、上述の類似度計算部30の処理を行ってもよい。
計算部64は、概念類似度参照部62において選択された検索対象文書と、入力クエリとの関連度スコアを、下記(1)式に従って、算出する。なお、関連度スコアの計算には、検索インデックス44に記憶されている検索対象文書キーワードの重みと、概念類似度辞書48のキーワード間の類似度とを用いる。また、下記(1)式において、選択した検索対象文書をd、入力クエリをQとする。また、本実施形態においては、関連度スコアは、値が大きい程関連度が高いことを表わすものとする。
ここで、qは入力クエリQ中に含まれるキーワード、wは概念類似度参照部62において取得した参照キーワード(キーワードqと類似度最大でマッチする検索対象文書d中の検索対象文書キーワード)、weight(w)は、参照キーワードwの重み、sim(q,w)はキーワードqと参照キーワードwの類似度である。
また、類似度は0.0が最小値とし、1.0が最大値(キーワード完全一致検索と同様の扱い)となるようにする。
また、計算部64は、文書データベース46に含まれる検索対象文書の全てについて、関連度スコアを算出している場合には、当該関連度スコアの降順となるように文書データベース46に含まれる検索対象文書の文書本文の各々を並べ替えたもののうち、上位N件を、ユーザのクエリに対する検索結果として、結果出力部90から出力する。
また、計算部64は、文書データベース46に含まれる検索対象文書の全てについて、関連度スコアを算出していない場合には、概念類似度参照部62の処理と計算部64との処理を繰り返す。このようにすることにより、検索対象文書集合の全ての検索対象文書で関連度スコアを計算することができる。
なお、概念ベクトルモデル上での類似度は、関連のあるキーワード同士の類似度は高くなる。特に「クレカ」と「クレジットカード」、「スマホ」と「スマートフォン」など表現の揺れや省略形など同義関係にあるキーワード間の類似度は極めて高くなる(類似度0.9以上など)。
この場合、関連度スコアは検索対象文書中の検索対象文書キーワードの重みが、ほぼそのまま使用される形になる(例えば、「クレカ」のスコア=「クレジットカード」のスコア*0.9)。一方、関連が薄いキーワードは低くなる。本実施形態に用いる手法では、クエリのキーワードは検索対象文書中の検索対象文書キーワードのどれか一つには必ずマッチする仕組みとなる。
そのため、関連の低いキーワードがマッチしてしまった際に、類似度を乗算することで、当該キーワードの影響を低減させることができる(関連度スコア計算時に検索対象文書キーワードの重みに0.2〜0.3といった類似度が乗算されたものが使われる)。
図5に、本実施形態に係る情報検索装置100において行われる関連度スコアの計算内容の例を示す。なお、当該例においては、概念ベクトルモデル42は、事前に作成されたものを用いることとする。また、当該計算内容の例において用いる、検索対象文書集合、文書データベース46、検索インデックス44、及び概念類似度辞書48は、図6に示すものを使用するものとする。
<本発明の実施形態に係る情報検索装置の作用>
次に、本発明の実施形態に係る情報検索装置100の作用について説明する。情報検索装置100は、入力部10によって、検索対象文書集合、及び概念文書集合を受け付けると、情報検索装置100によって、図7に示すデータ作成処理ルーチンが実行される。また、情報検索装置100は、データ作成処理ルーチン後、入力部10によって、入力クエリを受け付けると、情報検索装置100によって、図8に示す情報検索処理ルーチンが実行される。なお、データ作成処理ルーチンが、本発明に係る辞書作成方法の一例である。
まず、図7に示すデータ作成処理ルーチンについて説明する。
図7に示すデータ作成処理ルーチンのステップS100で、入力部10において受け付けた検索対象文書集合に含まれる検索対象文書の各々、及び概念文書集合に含まれる概念文書の各々について、当該検索対象文書、又は概念文書を、キーワード単位に分割し、検索対象文書キーワード、及び概念文書キーワードの各々を抽出する。
次に、ステップS102で、ステップS100において取得したキーワード単位に分割された検索対象文書の各々に基づいて、検索インデックス44を作成し、記憶部40に記憶する。
次に、ステップS104で、ステップS100において取得したキーワード単位に分割された検索対象文書の各々と、ステップS102において取得した検索インデックス44とに基づいて、文書データベース46を作成し、記憶部40に記憶する。
次に、ステップS106で、ステップS100において取得したキーワード単位に分割された概念文書の各々に基づいて、概念ベクトルモデル42を作成し、記憶部40に記憶する。
次に、ステップS108で、ステップS102において取得した検索インデックス44と、ステップS106において取得した概念ベクトルモデル42とに基づいて、概念類似度辞書48を作成し、記憶部40に記憶し、データ作成処理ルーチンを終了する。
次に、図8に示す情報検索処理ルーチンについて説明する。
まず、図8に示す情報検索処理ルーチンのステップS200で、検索インデックス44、文書データベース46、及び概念類似度辞書48を読み込む。
次に、ステップS202で、上述のステップS100と同様に、入力部10において受け付けた入力クエリをキーワード単位に分割し、キーワードを抽出する。
次に、ステップS204で、ステップS200において取得した文書データベース46に含まれる検索対象文書のうち、処理対象となる検索対象文書を決定する。また、ステップS204で、処理対象となる検索対象文書の文書IDを文書データベースから取得する。
次に、ステップS208で、ステップS202において取得したキーワードの各々について、ステップS200において取得した概念類似度辞書48と、ステップS204において取得した処理対象となる検索対象文書の文書IDとに基づいて、参照キーワードを取得する。
次に、ステップS212で、ステップS200において取得した、検索インデックス44、及び概念類似度辞書48と、ステップS208において取得した入力クエリのキーワードの各々の参照キーワードとに基づいて、上記(1)式に従って、処理対象となる検索対象文書の関連度スコアを計算する。
次に、ステップS214で、ステップS200において取得した文書データベース46に含まれる、全ての検索対象文書についてステップS204〜ステップS212までの処理を終了したか否かを判定する。全ての検索対象文書について、ステップS204〜ステップS212までの処理を終了したと判定した場合には、情報検索処理は、ステップS216へ移行する。一方、全ての検索対象文書について、ステップS204〜ステップS212までの処理を終了していないと判定した場合には、情報検索処理は、ステップS204へ移行し、処理対象となる検索対象文書を変更し、ステップS208〜ステップS214までの処理を繰り返す。
次に、ステップS216で、ステップS212において取得した検索対象文書の各々の関連度スコアと、文書データベース46とに基づいて、関連度スコアの降順に検索対象文書の文書本文を並べたものの、上位N件を、結果出力部90から出力して、情報検索処理ルーチンを終了する。
以上説明したように、本発明の本実施形態に係る情報検索装置によれば、入力されたクエリと、検索インデックスと、概念類似度辞書とに基づいて、文書データベースに含まれる検索対象文書の各々に対し、クエリに含まれるキーワードと類似する検索対象文書キーワードとの類似度、及び検索対象文書キーワードの重みを用いて、検索対象文書との関連度スコアを計算することにより、クエリに関連する文書を精度よく検索することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施形態においては、類似度計算部と、類似度一致検索部とを同一の情報検索装置に含むように構成する場合について説明したが、類似度計算部と、類似度一致検索部とを別々の装置として構成してもよい。この場合、類似度計算部を含む装置により作成された、検索インデックス、文書データベース、及び概念類似度辞書を、類似度一致検索部を含む装置で用いる。
また、本実施形態においては、類似度計算部による処理の後に、類似度一致検索部による処理を行う場合について説明したが、これに限定されるものではない。例えば、類似度計算部の処理をオフラインで事前に処理しておき、類似度一致検索部の処理をオンラインで実行してもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
30 類似度計算部
32 キーワード抽出部
34 検索インデックス作成部
36 概念ベクトルモデル作成部
38 作成部
40 記憶部
42 概念ベクトルモデル
44 検索インデックス
46 文書データベース
48 概念類似度辞書
50 類似度一致検索部
52 クエリキーワード抽出部
60 スコア計算部
62 概念類似度参照部
64 計算部
90 結果出力部
100 情報検索装置

Claims (7)

  1. 検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスと、
    前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、
    概念文書集合に基づいて作成された、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルと、前記検索インデックスと、前記文書データベースとに基づいて、前記検索対象文書の各々について作成された、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書と、
    入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算するスコア計算部と、
    を含む情報検索装置。
  2. 検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせを格納した検索インデックスを作成する検索インデックス作成部と、
    前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、
    概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成する概念ベクトルモデル作成部と、
    前記概念ベクトルと前記検索インデックスと前記文書データベースとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する概念類似度辞書作成部と、
    入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算するスコア計算部と、
    を含む情報検索装置。
  3. 検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせを格納した検索インデックスを作成する検索インデックス作成部と、
    前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、
    概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成する概念ベクトルモデル作成部と、
    前記概念ベクトルと前記検索インデックスと前記文書データベースとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する概念類似度辞書作成部と、
    を含む辞書作成装置。
  4. 検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスと、
    前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、
    概念文書集合に基づいて作成された、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルと、前記検索インデックスとに基づいて、前記検索対象文書の各々について作成された、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書と、
    スコア計算部とを含む、情報検索装置における、情報検索方法であって、
    前記スコア計算部は、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算する
    情報検索方法。
  5. 検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の文書IDとの組み合わせである文書データベースと、検索インデックス作成部と、概念ベクトルモデル作成部と、概念類似度辞書作成部と、スコア計算部と、を含む情報検索装置における、情報検索方法であって、
    前記検索インデックス作成部は、前記検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスを作成し、
    前記概念ベクトルモデル作成部は、概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成し、
    前記概念類似度辞書作成部は、前記概念ベクトルと前記検索インデックスとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成し、
    前記スコア計算部は、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算する
    情報検索方法。
  6. 検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の文書IDとの組み合わせである文書データベースと、検索インデックス作成部と、概念ベクトルモデル作成部と、概念類似度辞書作成部と、を含む辞書作成装置における、辞書作成方法であって、
    前記検索インデックス作成部は、前記検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスを作成し、
    前記概念ベクトルモデル作成部は、単語をn次元のベクトルで表現した概念ベクトルを作成するための概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成し、
    前記概念類似度辞書作成部は、前記概念ベクトルと前記検索インデックスとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する
    辞書作成方法。
  7. コンピュータを、請求項1若しくは2記載の情報検索装置、又は請求項3記載の辞書作成装置の各部として機能させ、又は、コンピュータに、請求項4若しくは5記載の情報検索方法、又は請求項6記載の辞書検索方法の各ステップを実行させるためのプログラム。
JP2015197647A 2015-10-05 2015-10-05 情報検索装置、辞書作成装置、方法、及びプログラム Active JP6340351B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015197647A JP6340351B2 (ja) 2015-10-05 2015-10-05 情報検索装置、辞書作成装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015197647A JP6340351B2 (ja) 2015-10-05 2015-10-05 情報検索装置、辞書作成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017072885A JP2017072885A (ja) 2017-04-13
JP6340351B2 true JP6340351B2 (ja) 2018-06-06

Family

ID=58537720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015197647A Active JP6340351B2 (ja) 2015-10-05 2015-10-05 情報検索装置、辞書作成装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6340351B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005035A1 (en) * 2017-05-31 2019-01-03 Semiconductor Energy Laboratory Co., Ltd. Information search system, intellectual property information search system, information search method, and intellectual property information search method
JP6337183B1 (ja) * 2017-06-22 2018-06-06 株式会社ドワンゴ テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置
US10453456B2 (en) * 2017-10-03 2019-10-22 Google Llc Tailoring an interactive dialog application based on creator provided content
JP7388256B2 (ja) * 2020-03-10 2023-11-29 富士通株式会社 情報処理装置及び情報処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4640591B2 (ja) * 2005-06-09 2011-03-02 富士ゼロックス株式会社 文書検索装置
JP2011227590A (ja) * 2010-04-16 2011-11-10 Kansai Electric Power Co Inc:The 文書検索システム及びインデックス作成方法
JP5512055B2 (ja) * 2011-12-27 2014-06-04 三菱電機株式会社 検索装置
US8661049B2 (en) * 2012-07-09 2014-02-25 ZenDesk, Inc. Weight-based stemming for improving search quality

Also Published As

Publication number Publication date
JP2017072885A (ja) 2017-04-13

Similar Documents

Publication Publication Date Title
US10496928B2 (en) Non-factoid question-answering system and method
CN105045781B (zh) 查询词相似度计算方法及装置、查询词搜索方法及装置
CN109241526B (zh) 一种段落分割方法和装置
US10528662B2 (en) Automated discovery using textual analysis
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
JP6340351B2 (ja) 情報検索装置、辞書作成装置、方法、及びプログラム
JP6524008B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN112000783B (zh) 基于文本相似性分析的专利推荐方法、装置、设备及存储介质
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
US20170185672A1 (en) Rank aggregation based on a markov model
Srinivas et al. A weighted tag similarity measure based on a collaborative weight model
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
Twinandilla et al. Multi-document summarization using k-means and latent dirichlet allocation (lda)–significance sentences
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP6426074B2 (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
KR102028155B1 (ko) 문헌 스코어링 방법 및 문헌 검색 시스템
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
US8745078B2 (en) Control computer and file search method using the same
Al Oudah et al. Wajeez: An extractive automatic arabic text summarisation system
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
CN111930880A (zh) 一种文本编码检索的方法、装置及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180514

R150 Certificate of patent or registration of utility model

Ref document number: 6340351

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150