JP6828335B2 - 検索プログラム、検索装置および検索方法 - Google Patents
検索プログラム、検索装置および検索方法 Download PDFInfo
- Publication number
- JP6828335B2 JP6828335B2 JP2016181003A JP2016181003A JP6828335B2 JP 6828335 B2 JP6828335 B2 JP 6828335B2 JP 2016181003 A JP2016181003 A JP 2016181003A JP 2016181003 A JP2016181003 A JP 2016181003A JP 6828335 B2 JP6828335 B2 JP 6828335B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- feature vector
- term
- sentence
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
図1は、実施例に係る情報処理装置の構成の一例を示す機能ブロック図である。図1に示す情報処理装置1は、機械翻訳などで利用される自然言語の意味解析処理の結果(「意味構造」という)を用いて、2段階の機械学習で評価を行い、複数の検索対象文を含む検索対象文書から検索文と意味が同じ用語を含む検索対象文を抽出する。1段階目の機械学習では、情報処理装置1は、検索文の用語に対する意味構造と、同義語辞書の用語に対する意味構造とを組み合わせて評価し、同義語辞書から検索文に含まれる用語と意味が同じ同義語を検索語として抽出する。2段階目の機械学習では、情報処理装置1は、検索語により検索対象文書の用語を検索し、ヒットした検索対象文の用語に対する意味構造と、検索文の用語に対する意味構造とを組み合わせて評価する。そして、情報処理装置1は、多義語を含む検索対象文を排除し、検索文と意味が同じ用語を含む検索対象文を複数の検索対象文書から抽出する。「同義語」とは、異なる表記であるが同じ意味を表す表記の用語同士のことをいう。「多義語」とは、同じ表記であるが別の意味を表す表記の用語同士のことをいう。
は、原文「運用環境のカスタマイズが必要です。」の意味解析処理の結果である。
図6A〜図6Fは、実施例に係る第1の検索処理の一例を示す図である。なお、図6A〜図6Fでは、検索文が「画像をクリアに表示するには」である場合について説明する。
つまり、第1の検索処理の流れは、以下のようになる。図7は、実施例に係る第1の検索処理の流れを示す図である。図7に示すように、意味解析部12は、検索文「画像をクリアに表示するには」を受け取ると、意味構造を持つ同義語辞書21と付き合わせるために、検索文を形態素解析した後意味解析して意味構造23を生成する。
図8Aおよび図8Bは、実施例に係る第2の検索処理の一例を示す図である。なお、図8Aおよび図8Bでは、第2の特徴ベクトル生成部132は、検索語生成部15によって生成された検索語「クリア」「明確」「鮮明」を受け取るものとする。
つまり、第2の検索処理の流れは、以下のようになる。図9は、実施例に係る第2の検索処理の流れを示す図である。図9に示すように、第2の特徴ベクトル生成部132は、検索語28により検索対象文書22を検索し、検索語28の表記と一致する用語を含む文を抽出し、抽出した文の意味構造23から当該用語の意味構造23の周辺を分離する。ここでは、文1について、文1の意味構造23から該当用語「クリア」の意味構造23として「pzz1」が生成される。文3について、文3の意味構造23から該当用語「クリア」の意味構造23として「pxx1」が生成される。文5について、文5の意味構造23から該当用語「明確」の意味構造23として「pzz5」が生成される。文6について、文6の意味構造23から該当用語「クリア」の意味構造23として「pww6」が生成される。
図10は、実施例に係る同義語辞書生成処理のフローチャートの一例を示す図である。図10に示すように、同義語辞書生成部11は、同義語判定結果情報を1行ずつ読み込む(ステップS11)。
図12は、実施例に係る検索処理のフローチャートの一例を示す図である。なお、同義語辞書21は、同義語辞書生成部11によって生成され、記憶部20に記憶されているものとする。
図13は、実施例に係る第1の特徴ベクトル生成処理のフローチャートの一例を示す図である。
図14は、実施例に係る第2の特徴ベクトル生成処理のフローチャートの一例を示す図である。
図15は、実施例に係る機械学習処理のフローチャートの一例を示す図である。
図16は、実施例に係る検索語生成処理のフローチャートの一例を示す図である。
このようにして、情報処理装置1は、検索対象文書22から特定の文章を検索する場合に、検索文を受け付ける。情報処理装置1は、受け付けた検索文を意味解析して、受け付けた検索文に含まれる単語の意味を示す意味構造23を生成する。情報処理装置1は、単語と当該単語の意味を示す意味構造23とを対応付けて記憶する同義語辞書21を参照して、生成した意味構造23に対応付けられた単語を特定する。情報処理装置1は、特定した単語が検索対象文書22に含まれるか否かの判定を行い、判定結果に応じた情報を出力する。かかる構成によれば、情報処理装置1は、検索文の単語の意味と、同義語辞書21の単語の意味とを組み合わせて得られる単語を特定することで、検索対象文書22から特定の文書を検索する際の検索語を特定することができる。この結果、情報処理装置1は、検索語を用いて、検索対象文書22から特定の文章を検索すると、検索結果に含まれるノイズを低減することが可能となる。すなわち、情報処理装置1は、検索対象文書22から意図しない特定の文章を検索することを低減することが可能となる。
なお、実施例に係る同義語辞書21は、同義語として判定されたそれぞれの用語(用語1、用語2)を、それぞれの用語の意味構造23と対応付けて記憶すると説明した。しかしながら、同義語辞書21は、これに限定されず、同義語として判定されたそれぞれの用語をそれぞれの用語の特徴ベクトルと対応付けて記憶しても良い。かかる場合には、同義語辞書生成部11は、同義語と判定された各用語が出現する文章について、意味解析処理により、それぞれの意味構造23を生成する。同義語辞書生成部11は、用語1が出現する文章の意味構造23から用語1の周辺を分離した、用語1の意味構造23を生成する。同義語辞書生成部11は、用語2が出現する文章の意味構造23から用語2の周辺を分離した、用語2の意味構造23を生成する。そして、同義語辞書生成部11は、生成した用語1の意味構造23から用語1の特徴ベクトルを生成する。同義語辞書生成部11は、生成した用語2の意味構造23から用語2の特徴ベクトルを生成する。そして、同義語辞書生成部11は、用語1と用語2について、用語の表記、用語の特徴ベクトルを同義語辞書21に書き出せば良い。これにより、第1の特徴ベクトル生成部131は、同義語辞書21から、該当する用語の意味構造23の代わりに該当する用語の特徴ベクトルを直接取得することができる。
10 制御部
10A 第1の検索部
10B 第2の検索部
11 同義語辞書生成部
12 意味解析部
13 特徴ベクトル生成部
131 第1の特徴ベクトル生成部
132 第2の特徴ベクトル生成部
14 機械学習部
15 検索語生成部
20 記憶部
21 同義語辞書
22 検索対象文書
23 意味構造
24 第1の特徴ベクトル
25 第2の特徴ベクトル
26 重みベクトル
27 判定結果
28 検索語
Claims (5)
- 文章データから特定の文章を検索する検索プログラムにおいて、
第1の文章を受け付け、
受け付けた前記第1の文章を意味解析することによって、前記第1の文章に含まれる対象の単語と他の単語との接続関係に基づいて決定される前記対象の単語の意味を示す情報を生成し、
単語と当該単語の意味を示す情報および当該単語と同じ意味を持つ単語と当該単語の意味を示す情報を対応付けて記憶する記憶部を参照して、前記対象の単語に対応付けられた第1の単語を特定し、
前記対象の単語の意味を示す情報から第1の特徴ベクトルを生成し、特定した前記第1の単語の意味を示す情報から第2の特徴ベクトルを生成し、前記第1の特徴ベクトルと前記第2の特徴ベクトルとの比較によって生成される第3の特徴ベクトルを機械学習モデルを用いて評価し、前記対象の単語と特定した前記第1の単語とが同義語であるか否かを判定し、
前記対象の単語と特定した前記第1の単語とが同義語であると判定した場合には、前記文章データから前記第1の単語に対応する第2の単語を含む第2の文章を特定し、
前記第2の文章に含まれる前記第2の単語と他の単語との接続関係に基づいて決定される前記第2の単語の意味を示す情報を生成し、
前記第2の単語の意味を示す情報から第4の特徴ベクトルを生成し、前記第1の特徴ベクトルと前記第4の特徴ベクトルとの比較によって生成される第5の特徴ベクトルを機械学習モデルを用いて評価し、前記対象の単語と前記第2の単語とが同義語であるか否かを判定し、
前記対象の単語と前記第2の単語とが同義語であると判定した場合には、前記第2の文章を検索結果として出力する、
処理をコンピュータに実行させることを特徴とする検索プログラム。 - 前記意味を示す情報は、該当する文章に含まれる単語と、他の単語との意味的な関係を示す有向グラフを含む
ことを特徴とする請求項1に記載の検索プログラム。
- 前記対象の単語の意味を示す情報を生成する処理は、受け付けた前記第1の文章の前記意味を示す情報から、前記第1の文章に含まれる前記対象の単語と、前記対象の単語と直接関係する他の単語との意味的な関係を示す情報を抽出し、抽出した情報を前記対象の単語の意味を示す情報として生成し、
前記第2の単語の意味を示す情報を生成する処理は、特定した第2の文章の前記意味を示す情報から、前記第2の文章に含まれる前記第2の単語と、前記第2の単語と直接関係する他の単語との意味的な関係を示す情報を抽出し、抽出した情報を前記第2の単語の意味を示す情報として生成する、
ことを特徴とする請求項1に記載の検索プログラム。 - 文章データから特定の文章を検索する検索装置において、
第1の文章を受け付ける受付部と、
前記受付部によって受け付けられた前記第1の文章を意味解析することによって、前記第1の文章に含まれる対象の単語と他の単語との接続関係に基づいて決定される前記対象の単語の意味を示す情報を生成する第1の生成部と、
単語と当該単語の意味を示す情報および当該単語と同じ意味を持つ単語と当該単語の意味を示す情報を対応付けて記憶する記憶部を参照して、前記対象の単語に対応付けられた第1の単語を特定する第1の特定部と、
前記対象の単語の意味を示す情報から第1の特徴ベクトルを生成し、特定した前記第1の単語の意味を示す情報から第2の特徴ベクトルを生成し、前記第1の特徴ベクトルと前記第2の特徴ベクトルとの比較によって生成される第3の特徴ベクトルを機械学習モデルを用いて評価し、前記対象の単語と特定した前記第1の単語とが同義語であるか否かを判定する第1の判定部と、
前記第1の判定部によって前記対象の単語と特定した前記第1の単語とが同義語であると判定された場合には、前記文章データから前記第1の単語に対応する第2の単語を含む第2の文章を特定する第2の特定部と、
前記第2の文章に含まれる前記第2の単語と他の単語との接続関係に基づいて決定される前記第2の単語の意味を示す情報を生成する第2の生成部と、
前記第2の単語の意味を示す情報から第4の特徴ベクトルを生成し、前記第1の特徴ベクトルと前記第4の特徴ベクトルとの比較によって生成される第5の特徴ベクトルを機械学習モデルを用いて評価し、前記対象の単語と前記第2の単語とが同義語であるか否かを判定する第2の判定部と、
前記対象の単語と前記第2の単語とが同義語であると判定した場合には、前記第2の文章を検索結果として出力する出力部と、
を有することを特徴とする検索装置。 - 文章データから特定の文章を検索する検索方法において、
第1の文章を受け付け、
受け付けた前記第1の文章を意味解析することによって、前記第1の文章に含まれる対象の単語と他の単語との接続関係に基づいて決定される前記対象の単語の意味を示す情報を生成し、
単語と当該単語の意味を示す情報および当該単語と同じ意味を持つ単語と当該単語の意味を示す情報を対応付けて記憶する記憶部を参照して、前記対象の単語に対応付けられた第1の単語を特定し、
前記対象の単語の意味を示す情報から第1の特徴ベクトルを生成し、特定した前記第1の単語の意味を示す情報から第2の特徴ベクトルを生成し、前記第1の特徴ベクトルと前記第2の特徴ベクトルとの比較によって生成される第3の特徴ベクトルを機械学習モデルを用いて評価し、前記対象の単語と特定した前記第1の単語とが同義語であるか否かを判定し、
前記対象の単語と特定した前記第1の単語とが同義語であると判定した場合には、前記文章データから前記第1の単語に対応する第2の単語を含む第2の文章を特定し、
前記第2の文章に含まれる前記第2の単語と他の単語との接続関係に基づいて決定される前記第2の単語の意味を示す情報を生成し、
前記第2の単語の意味を示す情報から第4の特徴ベクトルを生成し、前記第1の特徴ベクトルと前記第4の特徴ベクトルとの比較によって生成される第5の特徴ベクトルを機械学習モデルを用いて評価し、前記対象の単語と前記第2の単語とが同義語であるか否かを判定し、
前記対象の単語と前記第2の単語とが同義語であると判定した場合には、前記第2の文章を検索結果として出力する、
各処理をコンピュータが実行することを特徴とする検索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016181003A JP6828335B2 (ja) | 2016-09-15 | 2016-09-15 | 検索プログラム、検索装置および検索方法 |
US15/692,842 US10521510B2 (en) | 2016-09-15 | 2017-08-31 | Computer-readable recording medium, retrieval device, and retrieval method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016181003A JP6828335B2 (ja) | 2016-09-15 | 2016-09-15 | 検索プログラム、検索装置および検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018045537A JP2018045537A (ja) | 2018-03-22 |
JP6828335B2 true JP6828335B2 (ja) | 2021-02-10 |
Family
ID=61559929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016181003A Active JP6828335B2 (ja) | 2016-09-15 | 2016-09-15 | 検索プログラム、検索装置および検索方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10521510B2 (ja) |
JP (1) | JP6828335B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10558747B2 (en) * | 2016-11-03 | 2020-02-11 | International Business Machines Corporation | Unsupervised information extraction dictionary creation |
US10558756B2 (en) * | 2016-11-03 | 2020-02-11 | International Business Machines Corporation | Unsupervised information extraction dictionary creation |
JP6972711B2 (ja) * | 2017-06-30 | 2021-11-24 | 富士通株式会社 | 語義ベクトル生成プログラム、語義ベクトル生成方法および語義ベクトル生成装置 |
WO2019193796A1 (ja) * | 2018-04-03 | 2019-10-10 | 株式会社Nttドコモ | 対話サーバ |
CN110928994B (zh) * | 2019-11-28 | 2022-07-19 | 北京华宇元典信息服务有限公司 | 相似案例检索方法、相似案例检索装置和电子设备 |
EP4080379A4 (en) * | 2019-12-19 | 2022-12-28 | Fujitsu Limited | INFORMATION PROCESSING PROGRAM, METHOD AND DEVICE |
US11663402B2 (en) * | 2020-07-21 | 2023-05-30 | International Business Machines Corporation | Text-to-vectorized representation transformation |
US20230306055A1 (en) * | 2020-10-29 | 2023-09-28 | Nec Corporation | Search device, search method, and recording medium |
US20230177077A1 (en) * | 2021-12-08 | 2023-06-08 | International Business Machines Corporation | Enhancing input to conversational agents through feedback |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5565568B2 (ja) | 2010-03-30 | 2014-08-06 | 日本電気株式会社 | 情報推薦装置、情報推薦方法およびプログラム |
JP6144968B2 (ja) | 2013-06-05 | 2017-06-07 | 日本電信電話株式会社 | 情報提示装置、方法、及びプログラム |
JP6176017B2 (ja) | 2013-09-17 | 2017-08-09 | 富士通株式会社 | 検索装置、検索方法、およびプログラム |
-
2016
- 2016-09-15 JP JP2016181003A patent/JP6828335B2/ja active Active
-
2017
- 2017-08-31 US US15/692,842 patent/US10521510B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10521510B2 (en) | 2019-12-31 |
US20180075017A1 (en) | 2018-03-15 |
JP2018045537A (ja) | 2018-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6828335B2 (ja) | 検索プログラム、検索装置および検索方法 | |
US11327978B2 (en) | Content authoring | |
US10831762B2 (en) | Extracting and denoising concept mentions using distributed representations of concepts | |
US9373075B2 (en) | Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
JP6870421B2 (ja) | 判定プログラム、判定装置および判定方法 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP6729095B2 (ja) | 情報処理装置及びプログラム | |
US20150169676A1 (en) | Generating a Table of Contents for Unformatted Text | |
JP5238034B2 (ja) | 近似照合装置、近似照合方法、プログラム及び記録媒体 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
Le et al. | CRYPTEXT: Database and Interactive Toolkit of Human-Written Text Perturbations in the Wild | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
Wood et al. | OpBerg: Discovering causal sentences using optimal alignments | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP5998779B2 (ja) | 検索装置、検索方法、及びプログラム | |
US20220092260A1 (en) | Information output apparatus, question generation apparatus, and non-transitory computer readable medium | |
JP5538268B2 (ja) | 文書要約装置、文書要約方法、及びプログラム | |
JP5160120B2 (ja) | 情報検索装置、情報検索方法及び情報検索プログラム | |
JP2010282453A (ja) | 機械翻訳方法、及びシステム | |
Bhowmik et al. | Development of A Word Based Spell Checker for Bangla Language | |
JP5038881B2 (ja) | 情報検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200602 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201013 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6828335 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |