JP6340351B2 - 情報検索装置、辞書作成装置、方法、及びプログラム - Google Patents
情報検索装置、辞書作成装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6340351B2 JP6340351B2 JP2015197647A JP2015197647A JP6340351B2 JP 6340351 B2 JP6340351 B2 JP 6340351B2 JP 2015197647 A JP2015197647 A JP 2015197647A JP 2015197647 A JP2015197647 A JP 2015197647A JP 6340351 B2 JP6340351 B2 JP 6340351B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search target
- concept
- search
- target document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、本発明の実施形態の概要について説明する。
文書A:「弊社サービスのオンライン決済について」
文書B:「ショッピングサービスでのメールのご利用方法について」
次に、本発明の実施形態に係る情報検索装置の構成について説明する。図1に示すように、本発明の実施形態に係る情報検索装置100は、CPUと、RAMと、後述するデータ作成処理ルーチン、及び情報検索処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この情報検索装置100は、機能的には図1に示すように入力部10と、演算部20と、結果出力部90とを含んで構成されている。
次に、本発明の実施形態に係る情報検索装置100の作用について説明する。情報検索装置100は、入力部10によって、検索対象文書集合、及び概念文書集合を受け付けると、情報検索装置100によって、図7に示すデータ作成処理ルーチンが実行される。また、情報検索装置100は、データ作成処理ルーチン後、入力部10によって、入力クエリを受け付けると、情報検索装置100によって、図8に示す情報検索処理ルーチンが実行される。なお、データ作成処理ルーチンが、本発明に係る辞書作成方法の一例である。
20 演算部
30 類似度計算部
32 キーワード抽出部
34 検索インデックス作成部
36 概念ベクトルモデル作成部
38 作成部
40 記憶部
42 概念ベクトルモデル
44 検索インデックス
46 文書データベース
48 概念類似度辞書
50 類似度一致検索部
52 クエリキーワード抽出部
60 スコア計算部
62 概念類似度参照部
64 計算部
90 結果出力部
100 情報検索装置
Claims (7)
- 検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスと、
前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、
概念文書集合に基づいて作成された、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルと、前記検索インデックスと、前記文書データベースとに基づいて、前記検索対象文書の各々について作成された、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書と、
入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算するスコア計算部と、
を含む情報検索装置。 - 検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせを格納した検索インデックスを作成する検索インデックス作成部と、
前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、
概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成する概念ベクトルモデル作成部と、
前記概念ベクトルと前記検索インデックスと前記文書データベースとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する概念類似度辞書作成部と、
入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算するスコア計算部と、
を含む情報検索装置。 - 検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせを格納した検索インデックスを作成する検索インデックス作成部と、
前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、
概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成する概念ベクトルモデル作成部と、
前記概念ベクトルと前記検索インデックスと前記文書データベースとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する概念類似度辞書作成部と、
を含む辞書作成装置。 - 検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスと、
前記検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の前記文書IDとの組み合わせである文書データベースと、
概念文書集合に基づいて作成された、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルと、前記検索インデックスとに基づいて、前記検索対象文書の各々について作成された、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書と、
スコア計算部とを含む、情報検索装置における、情報検索方法であって、
前記スコア計算部は、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算する
情報検索方法。 - 検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の文書IDとの組み合わせである文書データベースと、検索インデックス作成部と、概念ベクトルモデル作成部と、概念類似度辞書作成部と、スコア計算部と、を含む情報検索装置における、情報検索方法であって、
前記検索インデックス作成部は、前記検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスを作成し、
前記概念ベクトルモデル作成部は、概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成し、
前記概念類似度辞書作成部は、前記概念ベクトルと前記検索インデックスとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成し、
前記スコア計算部は、入力されたクエリと、前記検索インデックスと、前記概念類似度辞書とに基づいて、前記文書データベースに含まれる前記検索対象文書の各々に対し、前記クエリに含まれるキーワードと類似する前記検索対象文書キーワードとの類似度、及び前記検索対象文書キーワードの重みを用いて、前記検索対象文書との関連度スコアを計算する
情報検索方法。 - 検索対象文書集合に含まれる検索対象文書の各々について作成された、前記検索対象文書の文書内容と前記検索対象文書の文書IDとの組み合わせである文書データベースと、検索インデックス作成部と、概念ベクトルモデル作成部と、概念類似度辞書作成部と、を含む辞書作成装置における、辞書作成方法であって、
前記検索インデックス作成部は、前記検索対象文書集合に含まれる検索対象文書の各々について、前記検索対象文書に含まれる検索対象文書キーワードの重さと、前記検索対象文書キーワードと、前記検索対象文書を表す文書IDとの組み合わせである検索インデックスを作成し、
前記概念ベクトルモデル作成部は、単語をn次元のベクトルで表現した概念ベクトルを作成するための概念文書集合に基づいて、概念文書に含まれる概念文書キーワードの各々を表現する、n次元のベクトルで表現した概念ベクトルを作成し、
前記概念類似度辞書作成部は、前記概念ベクトルと前記検索インデックスとに基づいて、前記検索対象文書の各々について、前記検索対象文書に含まれる前記検索対象文書キーワードに対し、最も類似度が高い前記概念文書キーワードを類似度と共に記録した概念類似度辞書を作成する
辞書作成方法。 - コンピュータを、請求項1若しくは2記載の情報検索装置、又は請求項3記載の辞書作成装置の各部として機能させ、又は、コンピュータに、請求項4若しくは5記載の情報検索方法、又は請求項6記載の辞書検索方法の各ステップを実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015197647A JP6340351B2 (ja) | 2015-10-05 | 2015-10-05 | 情報検索装置、辞書作成装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015197647A JP6340351B2 (ja) | 2015-10-05 | 2015-10-05 | 情報検索装置、辞書作成装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017072885A JP2017072885A (ja) | 2017-04-13 |
JP6340351B2 true JP6340351B2 (ja) | 2018-06-06 |
Family
ID=58537720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015197647A Active JP6340351B2 (ja) | 2015-10-05 | 2015-10-05 | 情報検索装置、辞書作成装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6340351B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190005035A1 (en) * | 2017-05-31 | 2019-01-03 | Semiconductor Energy Laboratory Co., Ltd. | Information search system, intellectual property information search system, information search method, and intellectual property information search method |
JP6337183B1 (ja) * | 2017-06-22 | 2018-06-06 | 株式会社ドワンゴ | テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置 |
US10453456B2 (en) * | 2017-10-03 | 2019-10-22 | Google Llc | Tailoring an interactive dialog application based on creator provided content |
JP7388256B2 (ja) * | 2020-03-10 | 2023-11-29 | 富士通株式会社 | 情報処理装置及び情報処理方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4640591B2 (ja) * | 2005-06-09 | 2011-03-02 | 富士ゼロックス株式会社 | 文書検索装置 |
JP2011227590A (ja) * | 2010-04-16 | 2011-11-10 | Kansai Electric Power Co Inc:The | 文書検索システム及びインデックス作成方法 |
JP5512055B2 (ja) * | 2011-12-27 | 2014-06-04 | 三菱電機株式会社 | 検索装置 |
US8661049B2 (en) * | 2012-07-09 | 2014-02-25 | ZenDesk, Inc. | Weight-based stemming for improving search quality |
-
2015
- 2015-10-05 JP JP2015197647A patent/JP6340351B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017072885A (ja) | 2017-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10496928B2 (en) | Non-factoid question-answering system and method | |
CN105045781B (zh) | 查询词相似度计算方法及装置、查询词搜索方法及装置 | |
CN109241526B (zh) | 一种段落分割方法和装置 | |
US10528662B2 (en) | Automated discovery using textual analysis | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
JP6340351B2 (ja) | 情報検索装置、辞書作成装置、方法、及びプログラム | |
JP6524008B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN112000783B (zh) | 基于文本相似性分析的专利推荐方法、装置、设备及存储介质 | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
US20170185672A1 (en) | Rank aggregation based on a markov model | |
Srinivas et al. | A weighted tag similarity measure based on a collaborative weight model | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
CN114880447A (zh) | 信息检索方法、装置、设备及存储介质 | |
Twinandilla et al. | Multi-document summarization using k-means and latent dirichlet allocation (lda)–significance sentences | |
CN113505196B (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP6426074B2 (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
KR102028155B1 (ko) | 문헌 스코어링 방법 및 문헌 검색 시스템 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
US8745078B2 (en) | Control computer and file search method using the same | |
Al Oudah et al. | Wajeez: An extractive automatic arabic text summarisation system | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
CN111930880A (zh) | 一种文本编码检索的方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170728 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180508 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180514 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6340351 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |