JP5284761B2 - Document search apparatus and method, program, and recording medium recording program - Google Patents
Document search apparatus and method, program, and recording medium recording program Download PDFInfo
- Publication number
- JP5284761B2 JP5284761B2 JP2008299988A JP2008299988A JP5284761B2 JP 5284761 B2 JP5284761 B2 JP 5284761B2 JP 2008299988 A JP2008299988 A JP 2008299988A JP 2008299988 A JP2008299988 A JP 2008299988A JP 5284761 B2 JP5284761 B2 JP 5284761B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- morpheme analysis
- analysis result
- morpheme
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体に係り、特に、検索入力文に適合する文書を高精度に検索するための文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体に関する。 The present invention relates to a document search apparatus and method, a program, and a recording medium on which the program is recorded. In particular, the document search apparatus, method, program, and program for searching a document that matches a search input sentence with high accuracy are recorded. The present invention relates to a recording medium.
文書検索の方式としては、入力したキーワードを含む文書を検索するキーワード検索が主流となっている(例えば、特許文献1参照)。
しかしながら、キーワード検索では、入力単語を含んでいないが、入力単語と関連のある文書が検索されないという問題がある。 However, in the keyword search, there is a problem that a document related to the input word is not searched although the input word is not included.
入力単語の下位概念にあたる単語は、該入力単語に該当する。例えば、入力単語「精神病」の下位概念にあたる単語「鬱病」は、入力単語「精神病」に該当する。入力単語の下位概念にあたる単語を含んでいる文書は、該入力単語に該当する。例えば、入力単語「精神病」の下位概念にあたる単語「鬱病」を含んでいる文書は、入力単語「精神病」に該当する。 A word corresponding to a subordinate concept of the input word corresponds to the input word. For example, the word “depression”, which is a subordinate concept of the input word “psychiatric”, corresponds to the input word “psychiatric”. A document including a word corresponding to a subordinate concept of the input word corresponds to the input word. For example, a document including the word “depression”, which is a subordinate concept of the input word “psychiatric”, corresponds to the input word “psychiatric”.
一方、入力単語の兄弟概念や上位概念にあたる単語は、該入力単語に必ずしも該当しない。例えば、入力単語「精神病」の兄弟概念にあたる単語「心臓病」や上位概念にあたる単語「病気」は、入力単語「精神病」に必ずしも該当しない。入力単語の兄弟概念や上位概念にあたる単語を含んでいる文書は、該入力単語に必ずしも該当しない。例えば、入力単語「精神病」の兄弟概念にあたる単語「心臓病」や上位概念にあたる単語「病気」を含んでいる文書は、入力単語「精神病」に必ずしも該当しない。 On the other hand, words corresponding to sibling concepts or superordinate concepts of input words do not necessarily correspond to the input words. For example, the word “heart disease” corresponding to the sibling concept of the input word “psychiatric” and the word “disease” corresponding to the superordinate concept do not necessarily correspond to the input word “psychiatric disease”. A document including a word corresponding to a sibling concept or a superordinate concept of an input word does not necessarily correspond to the input word. For example, a document including the word “heart disease” corresponding to the sibling concept of the input word “psychiatric” and the word “disease” corresponding to the superordinate concept does not necessarily correspond to the input word “psychiatric disease”.
このように、入力単語を含んでいないが、入力単語と関連のある文書を検索するためには、入力単語の下位概念にあたる単語を含んでいる文書を検索する必要がある。 Thus, in order to search for a document that does not include an input word but is related to the input word, it is necessary to search for a document that includes a word that is a subordinate concept of the input word.
これを実現するために、特許文献1で示されているように、単語の上位・下位関係を規定したシソーラスを用い、入力単語の下位概念にあたる単語をシソーラスから取得するというやり方がある。しかしながら、シソーラスは人手で作成するので不完全性があり、単語間の上位・下位関係を正確かつ網羅的には表せていないという問題がある。また、単語間の上位・下位関係は、分野毎に変わり、また、時の経過と共に変化するので、シソーラス再構築のコストが大きいという問題がある。
In order to realize this, there is a method of acquiring a word corresponding to a subordinate concept of an input word from the thesaurus using a thesaurus that defines upper / lower relations of words as shown in
本発明は、上記の点に鑑みなされたもので、分野や時期といった適用領域に応じた単語間の上位・下位関係をコスト上の問題なく獲得し、その関係性を用いて、検索入力文に適合する文書を高精度に検索することが可能な文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体を提供することを目的とする。 The present invention has been made in view of the above points, and can acquire a high-order / low-order relationship between words in accordance with an application area such as a field or a period without cost problems, and use that relationship as a search input sentence. It is an object of the present invention to provide a document search apparatus and method, a program, and a recording medium on which the program is recorded, which can search a suitable document with high accuracy.
図1は、本発明の原理構成図である。 FIG. 1 is a principle configuration diagram of the present invention.
本発明(請求項1)は、任意の単語Aに対し、各成分の値が、該単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベース15と、
検索入力文を形態素解析する形態素解析手段11と、
形態素解析手段11で得られた形態素解析結果中の単語Bに対し、該単語Bの単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース15中の単語ベクトルとの間のαダイバージェンス距離を、
形態素解析手段11で得られた形態素解析結果中の単語Bを、該単語Bの第1関連単語取得手段12で取得した関連単語で置換して得られる置換後形態素解析結果を取得する第1形態素解析結果取得手段13と、
第1形態素解析結果取得手段13で取得した置換後形態素解析結果を、形態素解析手段で得られた形態素解析結果に付加した上で文書検索を実行する第1検索手段14と、
を有する。
In the present invention (Claim 1), for an arbitrary word A, a value of each component is a word vector whose relative value is a co-occurrence frequency between the word A and a word or word semantic attribute corresponding to the component A. An associated
Morphological analysis means 11 for morphological analysis of the search input sentence;
For the word B in the morpheme analysis result obtained by the morpheme analysis means 11, α between the word vector in the word vector database of the word B and the word vector in the
A first morpheme that acquires a replacement morpheme analysis result obtained by replacing the word B in the morpheme analysis result obtained by the morpheme analysis unit 11 with a related word obtained by the first related
A first search means for executing a document search after adding the replacement morpheme analysis result acquired by the first morpheme analysis result acquisition means to the morpheme analysis result obtained by the morpheme analysis means;
Have
本発明(請求項2)は、任意の単語Aに対し、各成分の値が、単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベースを参照し、任意の単語Bに対し、該単語Bの該単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
検索入力文を形態素解析する形態素解析手段と、
形態素解析手段で得られた形態素解析結果中の単語Dに対し、単語間関連データベースから、該単語Dとの距離の小さいまたは関連度の大きい一つまたは複数の単語Eを、該単語Dの関連単語として取得する第2関連単語取得手段と、
形態素解析手段で得られた形態素解析結果中の単語Dを、該単語Dの第2関連単語取得手段で取得した関連単語で置換して得られる置換後形態素解析結果を取得する第2形態素解析結果取得手段と、
第2形態素解析結果取得手段で取得した置換後形態素解析結果を、形態素解析手段で得られた形態素解析結果に付加した上で文書検索を実行する第1検索手段と、
を有する。
In the present invention (Claim 2), an arbitrary word A corresponds to a word vector in which each component value is a relative value of the co-occurrence frequency of the word A and the word or word semantic attribute corresponding to the component A The α divergence distance between the word vector in the word vector database of the word B and the word vector of the arbitrary word C in the word vector database with reference to the attached word vector database The
Morphological analysis means for morphological analysis of the search input sentence;
With respect to the word D in the morpheme analysis result obtained by the morpheme analysis means, one or more words E having a small distance or a high degree of relevance from the word relation database are associated with the word D. Second related word acquisition means for acquiring as a word;
A second morpheme analysis result for obtaining a post-replacement morpheme analysis result obtained by replacing the word D in the morpheme analysis result obtained by the morpheme analysis unit with a related word obtained by the second related word obtaining unit of the word D Acquisition means;
A first search unit for performing a document search after adding the post-replacement morpheme analysis result acquired by the second morpheme analysis result acquisition unit to the morpheme analysis result obtained by the morpheme analysis unit;
Have
本発明(請求項3)は、任意の単語Aに対し、各成分の値が、該単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベースと、
検索入力文を形態素解析する形態素解析手段と、
形態素解析手段で得られた形態素解析結果中の単語Bに対し、該単語Bの単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
形態素解析手段で得られた形態素解析結果中の単語Bを、該単語Bの第1関連単語取得手段で取得した関連単語で置換して得られる置換後形態素解析結果を取得する第1形態素解析結果取得手段と、
第1形態素解析結果取得手段で取得した置換後形態素解析結果を表示する表示手段と、
ユーザが選択した置換後形態素解析結果を、形態素解析手段で得られた形態素解析結果に付加した上で文書検索を実行する第2検索手段と、を有する。
In the present invention (Claim 3), for an arbitrary word A, a value of each component is a word vector that is a relative value of the co-occurrence frequency between the word A and a word or word semantic attribute corresponding to the component A. An associated word vector database;
Morphological analysis means for morphological analysis of the search input sentence;
Α divergence distance between the word vector in the word vector database of the word B and the word vector of the arbitrary word C in the word vector database for the word B in the morpheme analysis result obtained by the morpheme analysis means The
A first morpheme analysis result for obtaining a post-replacement morpheme analysis result obtained by replacing the word B in the morpheme analysis result obtained by the morpheme analysis unit with a related word obtained by the first related word obtaining unit of the word B Acquisition means;
Display means for displaying the post-replacement morpheme analysis result acquired by the first morpheme analysis result acquisition means;
Second search means for executing a document search after adding the post-replacement morpheme analysis result selected by the user to the morpheme analysis result obtained by the morpheme analysis means.
本発明(請求項4)は、任意の単語Aに対し、各成分の値が、単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベースを参照し、任意の単語Bに対し、該単語Bの該単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
検索入力文を形態素解析する形態素解析手段と、
形態素解析手段で得られた形態素解析結果中の単語Dに対し、単語間関連データベースから、該単語Dとの距離の小さいまたは関連度の大きい一つまたは複数の単語Eを、該単語Dの関連単語として取得する第2関連単語取得手段と、
形態素解析手段で得られた形態素解析結果中の単語Dを、該単語Dの第2関連単語取得手段で取得した関連単語で置換して得られる置換後形態素解析結果を取得する第2形態素解析結果取得手段と、
第2形態素解析結果取得手段で取得した置換後形態素解析結果を表示する表示手段と、
ユーザが選択した置換後形態素解析結果を、形態素解析手段で得られた形態素解析結果に付加した上で文書検索を実行する第2検索手段と、を有する。
In the present invention (Claim 4), an arbitrary word A is associated with a word vector in which the value of each component is the relative value of the co-occurrence frequency of the word A and the word or word semantic attribute corresponding to the component A The α divergence distance between the word vector in the word vector database of the word B and the word vector of the arbitrary word C in the word vector database with reference to the attached word vector database The
Morphological analysis means for morphological analysis of the search input sentence;
With respect to the word D in the morpheme analysis result obtained by the morpheme analysis means, one or more words E having a small distance or a high degree of relevance from the word relation database are associated with the word D. Second related word acquisition means for acquiring as a word;
A second morpheme analysis result for obtaining a post-replacement morpheme analysis result obtained by replacing the word D in the morpheme analysis result obtained by the morpheme analysis unit with a related word obtained by the second related word obtaining unit of the word D Acquisition means;
Display means for displaying the post-replacement morpheme analysis result acquired by the second morpheme analysis result acquisition means;
Second search means for executing a document search after adding the post-replacement morpheme analysis result selected by the user to the morpheme analysis result obtained by the morpheme analysis means .
図2は、本発明の原理を説明するための図である。 FIG. 2 is a diagram for explaining the principle of the present invention.
本発明(請求項5)は、形態素解析手段が、検索入力文を形態素解析する形態素解析ステップ(ステップ1)と、
第1関連単語取得手段が、形態素解析ステップで得られた形態素解析結果中の単語Bに対し、該単語Bの、任意の単語Aに対し、各成分の値が、該単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
第1形態素解析結果取得手段が、形態素解析ステップで得られた形態素解析結果中の単語Bを、該単語Bの第1関連単語取得ステップで取得した関連単語で置換して得られる置換後形態素解析結果を取得する第1形態素解析結果取得ステップ(ステップ3)と、
第1検索手段が、第1形態素解析結果取得ステップ(ステップ3)で取得した置換後形態素解析結果を、形態素解析ステップで得られた形態素解析結果に付加した上で文書検索を実行する第1検索ステップと、を行う。
According to the present invention (Claim 5), the morpheme analyzing unit performs a morpheme analysis step (Step 1) in which a search input sentence is analyzed,
For the word B in the morpheme analysis result obtained in the morpheme analysis step, the first related word acquisition means has the value of each component for the arbitrary word A of the word B, the word A, and the component Between a word vector in a word vector database associated with a word vector that is a relative value of a co-occurrence frequency with a word or a word semantic attribute corresponding to the word vector, and a word vector in the word vector database of an arbitrary word C α divergence distance
The post-substitution morpheme analysis obtained by the first morpheme analysis result acquisition means replacing the word B in the morpheme analysis result obtained in the morpheme analysis step with the related word obtained in the first related word acquisition step of the word B A first morphological analysis result acquisition step (step 3) for acquiring a result;
A first search in which the first search means performs a document search after adding the replacement morpheme analysis result acquired in the first morpheme analysis result acquisition step (step 3) to the morpheme analysis result acquired in the morpheme analysis step. And step .
本発明(請求項6)は、形態素解析手段が、検索入力文を形態素解析する形態素解析ステップと、
第2関連単語取得手段が、形態素解析ステップで得られた形態素解析結果中の単語Dに対し、任意の単語Aに対し、各成分の値が、単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベースを参照し、任意の単語Bに対し、該単語Bの該単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
第2形態素解析結果取得手段が、形態素解析ステップで得られた形態素解析結果中の単語Dを、該単語Dの第2関連単語取得手段で取得した関連単語で置換して得られる置換後形態素解析結果を取得する第2形態素解析結果取得ステップと、
第1検索手段が、第2形態素解析結果取得ステップで取得した置換後形態素解析結果を、形態素解析ステップで得られた形態素解析結果に付加した上で文書検索を実行する第1検索ステップと、を行う。
According to the present invention (Claim 6), the morpheme analyzing means performs a morpheme analysis step of analyzing a search input sentence;
For the word D in the morphological analysis result obtained in the morphological analysis step by the second related word acquisition means, the value of each component for the arbitrary word A is the word A and the word or word corresponding to the component With reference to a word vector database in which word vectors that are relative values of co-occurrence frequencies with semantic attributes are associated, a word vector in the word vector database of the word B and an arbitrary word C Α divergence distance from the word vector in the word vector database of
The post-replacement morpheme analysis obtained by the second morpheme analysis result acquisition unit replacing the word D in the morpheme analysis result obtained in the morpheme analysis step with the related word acquired by the second related word acquisition unit of the word D A second morphological analysis result acquisition step of acquiring a result;
A first search step in which the first search means adds the post-substitution morpheme analysis result acquired in the second morpheme analysis result acquisition step to the morpheme analysis result obtained in the morpheme analysis step, and then executes a document search. Do.
本発明(請求項7)は、形態素解析手段が、検索入力文を形態素解析する形態素解析ステップと、
第1関連単語取得手段が、形態素解析ステップで得られた形態素解析結果中の単語Bに対し、該単語Bの、任意の単語Aに対し、各成分の値が、該単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
第1形態素解析結果取得手段が、形態素解析ステップで得られた形態素解析結果中の単語Bを、該単語Bの第1関連単語取得ステップで取得した関連単語で置換して得られる置換後形態素解析結果を取得する第1形態素解析結果取得ステップと、
表示手段が、第1形態素解析結果取得ステップで取得した置換後形態素解析結果を表示する表示ステップと、
第2検索手段が、ユーザが選択した置換後形態素解析結果を、形態素解析ステップで得られた形態素解析結果に付加した上で文書検索を実行する第2検索ステップと、を行う。
According to the present invention (Claim 7), the morpheme analyzing means performs a morpheme analysis step of analyzing a search input sentence,
For the word B in the morpheme analysis result obtained in the morpheme analysis step, the first related word acquisition means has the value of each component for the arbitrary word A of the word B, the word A, and the component Between a word vector in a word vector database associated with a word vector that is a relative value of a co-occurrence frequency with a word or a word semantic attribute corresponding to the word vector, and a word vector in the word vector database of an arbitrary word C α divergence distance
The post-substitution morpheme analysis obtained by the first morpheme analysis result acquisition means replacing the word B in the morpheme analysis result obtained in the morpheme analysis step with the related word obtained in the first related word acquisition step of the word B A first morphological analysis result acquisition step of acquiring a result;
A display step for displaying the post-replacement morpheme analysis result acquired in the first morpheme analysis result acquisition step;
The second search means performs a document search by adding the post-replacement morpheme analysis result selected by the user to the morpheme analysis result obtained in the morpheme analysis step .
本発明(請求項8)は、形態素解析手段が、検索入力文を形態素解析する形態素解析ステップと、
第2関連単語取得手段が、形態素解析ステップで得られた形態素解析結果中の単語Dに対し、任意の単語Aに対し、各成分の値が、単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベースを参照し、任意の単語Bに対し、該単語Bの該単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
第2形態素解析結果取得手段が、形態素解析ステップで得られた形態素解析結果中の単語Dを、該単語Dの第2関連単語取得手段で取得した関連単語で置換して得られる置換後形態素解析結果を取得する第2形態素解析結果取得ステップと、
表示手段が、第2形態素解析結果取得ステップで取得した置換後形態素解析結果を表示する表示ステップと、
第2検索手段が、ユーザが選択した置換後形態素解析結果を、形態素解析ステップで得られた形態素解析結果に付加した上で文書検索を実行する第2検索ステップと、を行う。
According to the present invention (Claim 8), the morpheme analyzing means performs a morpheme analysis step of analyzing a search input sentence;
For the word D in the morphological analysis result obtained in the morphological analysis step by the second related word acquisition means, the value of each component for the arbitrary word A is the word A and the word or word corresponding to the component With reference to a word vector database in which word vectors that are relative values of co-occurrence frequencies with semantic attributes are associated, a word vector in the word vector database of the word B and an arbitrary word C Α divergence distance from the word vector in the word vector database of
The post-replacement morpheme analysis obtained by the second morpheme analysis result acquisition unit replacing the word D in the morpheme analysis result obtained in the morpheme analysis step with the related word acquired by the second related word acquisition unit of the word D A second morphological analysis result acquisition step of acquiring a result;
A display step for displaying the post-replacement morpheme analysis result acquired in the second morpheme analysis result acquisition step;
Second searching means, the user selected the replaced morphological analysis result, it intends row and the second search step, an executing the document search on appended to the morphological analysis result obtained in the morphological analysis step.
本発明(請求項9)は、請求項1乃至4のいずれか1項に記載の文書検索装置を構成する各手段としてコンピュータを機能させるための文書検索プログラムである。
The present invention (Claim 9) is a document search program for causing a computer to function as each means constituting the document search apparatus according to any one of
本発明(請求項10)は、請求項9記載のプログラムを格納したコンピュータ読み取り可能な記録媒体である。 The present invention (Claim 10) is a computer-readable recording medium storing the program according to Claim 9.
上記のように、本発明では、単語ベクトルデータベース中の単語ベクトルを、各成分を確率変数、成分値を確率値とする確率分布とみなし、αダイバージェンスにより、確率分布間の距離を算出する。単語Bの確率分布から、単語Cの確率分布へのαダイバージェンスを、 As described above, in the present invention, a word vector in the word vector database is regarded as a probability distribution in which each component is a random variable and the component value is a probability value, and the distance between the probability distributions is calculated by α divergence. Α divergence from the probability distribution of word B to the probability distribution of word C
一般に、下位概念の単語と共起する単語や単語意味属性とは、その上位概念の単語も共起する傾向がある。したがって、下位概念の単語ベクトルは、その上位概念の単語ベクトルに包含される傾向がある。ゆえに、単語Bを固定したときに In general, a word or a word semantic attribute that co-occurs with a word of a lower concept tends to co-occur with a word of the higher concept. Therefore, the word vector of the lower concept tends to be included in the word vector of the higher concept. Therefore, when word B is fixed
したがって、αを小さい値に定めた場合、 Therefore, when α is set to a small value,
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1の実施の形態]
図3は、本発明の第1の実施の形態における検索装置の構成を示す。
[First Embodiment]
FIG. 3 shows the configuration of the search device according to the first embodiment of the present invention.
同図に示す検索装置は、形態素解析部11、第1関連単語取得部12、第1形態素解析結果取得部13、第1検索部14、単語ベクトルデータベース(DB)15、表示部16から構成される。
The search device shown in the figure includes a morpheme analysis unit 11, a first related
単語ベクトルDB15は、任意の単語Aに対し、各成分の値が、単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けたものである。単語ベクトルDB15は、例えば、文献1「別所克人、内山俊郎、片岡良治、"単語・意味属性間共起に基づく概念ベースの拡張方式,"情処研報、vol. 2006-ICS-144, pp.29-34, Jul. 2006.」や文献2「別所克人、内山俊郎、片岡良治、"単語・意味属性間共起に基づく単語間の階層関係の抽出,"信学技報、vol. NLC2006-92, pp.31-36, Jan. 2007」で述べられている方法で生成される。
The
この方法では、コーパスを形態素解析し、名詞や用言等の処理に必要な品詞のリスト等を参照して、処理に必要な単語を特定する。各行が単語に対応し各列が単語に対応している単語間共起行列、または、各行が単語に対応し各列が単語意味属性に対応している単語・意味属性間共起行列を生成する。形態素解析結果から、任意の単語の対、または任意の単語と任意の単語意味属性の対に対し、コーパスにおける所定の範囲(典型的には1文)において、該対が共起する頻度を算出し、該頻度をコーパス全体にわたって加算した値を算出し、共起行列中の該対の成分に書き込む。 In this method, a morphological analysis is performed on the corpus, and a word necessary for processing is specified with reference to a list of parts of speech necessary for processing of nouns and predicates. Generate an interword co-occurrence matrix where each row corresponds to a word and each column corresponds to a word, or a word / semantic attribute co-occurrence matrix where each row corresponds to a word and each column corresponds to a word semantic attribute To do. From the morpheme analysis result, the frequency of the pair co-occurring in a predetermined range (typically one sentence) in the corpus is calculated for an arbitrary word pair, or an arbitrary word and an arbitrary word semantic attribute pair. Then, a value obtained by adding the frequencies over the entire corpus is calculated and written to the pair of components in the co-occurrence matrix.
図4は、本発明の第1の実施の形態における生成される共起行列の例である。 FIG. 4 is an example of the co-occurrence matrix generated in the first embodiment of the present invention.
共起行列の各行ベクトルは、対応する単語が、単語または単語意味属性と共起するパターンを表している。意味の似た単語は、共通の単語または単語意味属性と共起する傾向があるので、対応するパターンも似る傾向がある。このことから、単語のベクトルを該単語の概念とみなして、単語間の関連性を、対応するベクトル間の類似度により定量的に算出することが可能となる。 Each row vector of the co-occurrence matrix represents a pattern in which the corresponding word co-occurs with a word or word semantic attribute. Because words with similar meanings tend to co-occur with common words or word semantic attributes, the corresponding patterns also tend to be similar. From this, it is possible to regard a word vector as a concept of the word and quantitatively calculate the relevance between words based on the similarity between corresponding vectors.
生成されたある単語のベクトルが(a1,a2,…,an)(ai≧0(1≦i≦n))であったとする。この単語のベクトルは、
(x1,x2,…,xn)
但し、
Assume that a generated vector of words is (a 1 , a 2 ,..., An ) (a i ≧ 0 (1 ≦ i ≦ n)). This word vector is
(X 1, x 2, ... , x n)
However,
形態素解析部11は、検索入力文を形態素解析する。以下の検索入力文INに対する形態素解析結果として、OUT1またはOUT2が得られる。 The morphological analysis unit 11 performs morphological analysis on the search input sentence. OUT1 or OUT2 is obtained as a morphological analysis result for the following search input sentence IN.
・検索入力文
IN)精神病の研究
・形態素解析結果
OUT1)精神病/の/研究
OUT2)精神病,研究
OUT1では、名詞・用言等の内容語以外の単語「の」を残しているが、OUT2では、内容語以外は除去している。
・ Search input sentences IN) Research on psychosis ・ Results of morphological analysis OUT1) Psychiatric /// research OUT2) Psychiatry, research In OUT1, words other than content words such as nouns and idioms are left, but in OUT2, , Except for content words.
第1関連単語取得部12は、形態素解析部11で得られた形態素解析結果中の内容語Xに対し、Xの単語ベクトルDB15中の単語ベクトルと、単語ベクトルDB15中の任意の単語Yの単語ベクトルとの間のαダイバージェンス距離を算出し、該距離の小さい一つまたは複数の単語Yを、Xの関連単語として取得する。
For the content word X in the morpheme analysis result obtained by the morpheme analysis unit 11, the first related
図5は、本発明の第1の実施の形態における第1関連単語取得部の動作のフローチャートである。 FIG. 5 is a flowchart of the operation of the first related word acquisition unit in the first embodiment of the present invention.
同図の動作は、形態素解析結果中の各内容語Xから、Xの関連単語Yを取得するものである。但し、第1関連単語取得部12では、以下の2つの生成法のいずれかをとる。
The operation in the figure is to acquire a related word Y of X from each content word X in the morphological analysis result. However, the first related
(1)第1の方法:
第1の生成法として、図5のフローチャートをステップ501,502,503のみから構成し、ステップ502で処理対象とする単語Yがなければステップ501に進むようにする。ステップ503では、算出した
(1) First method:
As a first generation method, the flowchart of FIG. 5 is composed of
(2)第2の方法:
第2の生成法として、図5のフローチャートをステップ501,502,503,504,506のみから構成し、ステップ504の処理が終了した後、ステップ506に進むようにする。
(2) Second method:
As a second generation method, the flowchart of FIG. 5 is composed of
以下、図5のフローチャートの各処理内容を説明する。 Hereinafter, each processing content of the flowchart of FIG. 5 will be described.
ステップ501) これまでに処理していない単語の中で、処理対象とする単語Xを一つ決定する。あればステップ502に移行し、なければ本処理を終了する。 Step 501) Among the words not processed so far, one word X to be processed is determined. If there is, the process proceeds to step 502, and if not, this process is terminated.
ステップ502) これまでに処理していない単語の中で、処理対象とする単語Yを一つ決定する。あればステップ503に移行し、なければステップ504に移行する。任意の単語対X,Yに対しX,Y間の関連度を算出する処理の計算量を低減するために、単語Yの集合を、例えば、コーパス中の高頻度語集合に限定してもよい。 Step 502) Among the words that have not been processed so far, one word Y to be processed is determined. If there is, the process proceeds to step 503, and if not, the process proceeds to step 504. In order to reduce the amount of calculation for calculating the degree of association between X and Y for an arbitrary word pair X and Y, the set of words Y may be limited to, for example, a high-frequency word set in a corpus .
ステップ503) 単語の対X,Yに対し、X,Yのベクトルv(X),v(Y)が、
v(X):=(x1,x2,…,xn)
v(Y):=(y1,y2,…,yn)
のようになっているとき、XからYへのαダイバージェンス
Step 503) For the word pairs X and Y, the vectors v (X) and v (Y) of X and Y are
v (X): = (x 1 , x 2 ,..., x n )
v (Y): = (y 1 , y 2 ,..., y n )
Α divergence from X to Y when
ここで、 here,
α<0かつxi=0のとき、
When α <0 and x i = 0,
特定のαに対し、 For a specific α
αを0.5未満の値に定めた場合、 When α is set to a value less than 0.5,
ステップ503の処理を終了した後、ステップ502に移行する。
ステップ504)
After the processing of
Step 504)
ステップ505) 任意の単語Yに対し、Yの順位をmとしたとき、XからYへの関連度 Step 505) For an arbitrary word Y, when the rank of Y is m, the degree of association from X to Y
単語X毎のランキング結果上位におけるαダイバージェンスの大きさは異なる。しかし、ランキング結果の上位は、X毎の距離の大きさの違いに関わらず、αに応じた概念レベルの単語が常に占める。したがって、ランキングにおける順位は、αに応じたレベルの概念である度合いを表す。よって、この順位により算出される関連度は、XからYへの関連度を的確に表す。ステップ505の処理が終了した後、ステップ506に移行する。 The magnitude of α divergence at the top of the ranking results for each word X is different. However, the highest ranking results are always occupied by words at the concept level corresponding to α, regardless of the difference in distance for each X. Therefore, the rank in the ranking represents a degree that is a concept of a level according to α. Therefore, the degree of association calculated by this rank accurately represents the degree of association from X to Y. After the processing in step 505 is completed, the process proceeds to step 506.
ステップ506) ランキングにおいて、ある順位までの単語Yを、処理中の単語Xの関連単語として取得する。ステップ506の処理が終了した後、ステップ501に移行する。
Step 506) In the ranking, the words Y up to a certain ranking are acquired as related words of the word X being processed. After the processing of
なお、第1関連単語取得部12において、単語Xに対し、複数の異なるα毎に関連単語Yを取得し、それらの関連単語集合をマージしたものを、最終的な単語Xの関連単語群としてもよい。
The first related
以上の処理により、OUT1(OUT2)中の内容語「精神病」、「研究」に対し、以下の下位概念の単語が得られる。 By the above processing, the following subordinate words are obtained for the content words “psychiatric” and “research” in OUT1 (OUT2).
・精神病:鬱病、躁病、PSTD、幻聴
・研究:論文、観察
第1形態素解析結果取得部13は、形態素解析部11で得られた形態素解析結果中の単語Xを、単語Xの第1関連単語取得部12で取得した関連単語で置換して得られる置換後形態素解析結果を取得する。
・ Psychosis: depression, mania, PSTD, hallucination ・ Research: paper, observation The first morpheme analysis result
OUT1(OUT2)に対する置換後の形態素解析結果は以下のようになる。「∨」は論理和を表す記号である。 The morpheme analysis result after replacement for OUT1 (OUT2) is as follows. “∨” is a symbol representing a logical sum.
・OUT1:(鬱病∨躁病∨PTSD∨幻聴)/の/(論文∨観察)
・OUT2:(鬱病∨躁病∨PTSD∨幻聴),(論文∨観察)
第1検索部14は、第1形態素解析結果取得部13で取得した置換後形態素解析結果を、形態素解析部11で得られた形態素解析結果に付加した上で文書検索を実行する。
・ OUT1: (depression, depression, PTSD, hallucinations) /// (paper observation)
・ OUT2: (depression, depression, PTSD, hallucinations), (paper observation)
The
OUT1(OUT2)に対応する最終的な検索キーは以下のようになる。「∧」は論理積を表す記号である。 The final search key corresponding to OUT1 (OUT2) is as follows. “∧” is a symbol representing a logical product.
・OUT1:(精神病の研究)∨(鬱病の研究)∨…∨(精神病の論文)∨…∨(幻聴の観察)
・OUT2:(精神病∨鬱病∨躁病∨PTSD∨幻聴)∧(研究∨論文∨観察)
このようにして、形態素解析部11で得られた単語「精神病」、「研究」を含まないが「精神病」、「研究」に該当する文書を検索することが可能となる。
・ OUT1: (Psychological research) ∨ (Depression research) ∨… ∨ (Psychological paper) ∨… ∨ (Observation of hallucinations)
・ OUT2: (Psychiatric, Depressive, Depressive, PTSD, Hallucination) ∨ (Research ∨ Paper ∨ Observation)
In this way, it is possible to search for documents that do not include the words “psychiatric” and “research” obtained by the morphological analysis unit 11 but fall under “psychiatric” and “research”.
表示部16は、第1形態素解析結果取得部13で取得した置換後形態素解析結果を、ディスプレイ等に表示する。このようにして、ユーザに、どの置換後形態素解析結果が適切であるかを選択できるようにする。
The
[第2の実施の形態]
図6は、本発明の第2の実施の形態における検索装置の構成を示す。
[Second Embodiment]
FIG. 6 shows the configuration of the search device according to the second embodiment of the present invention.
同図に示す検索装置は、形態素解析部21、第2関連単語取得部22、第2形態素解析結果取得部23、第1検索部24、単語間関連データベース25、表示部26から構成される。
The search device shown in the figure includes a
単語関連データベース25は、単語ベクトルデータベース15中の任意の単語Xに対し、Xの単語ベクトルと、単語ベクトルデータベース15中の任意の単語Yの単語ベクトルとの間のαダイバージェンス距離を算出し、該距離または算出により得られる関連度を順序付けられた単語対X,Yと共に格納しているか、または、各単語毎に該距離の小さいまたは該関連度の大きい一つまたは複数の単語を格納している。図7は、前者の格納形式の単語間関連データベース25の例であり、図8は、後者の格納形式の単語間関連データベース25の例である。図7では、αが小さい場合は、Xが上位概念にあたる単語であり、Yが下位概念にあたる単語である。また図7では、αが大きい場合は、Xが下位概念にあたる単語であり、Yが上位概念にあたる単語である。図8では、Vが上位にあたる単語であり、Wが下位概念にあたる単語である。
The word related
以下に単語間関連データベース25を生成する動作を説明する。
The operation for generating the
(1)第1の方法:
単語間関連データベース25の生成の第1の方法として、図5のフローチャートを用いて説明する。第1の方法としては、図5におけるステップ501、502、503のみから構成し、ステップ502で処理対象とする単語Yがなければステップ501に進むようにする。このようにして、任意の単語対X,Yに対し
(1) First method:
A first method for generating the
αが小さい場合は、ステップ503で、算出した
If α is small, calculated in
(2)第2の方法:
単語間関連データベース25の生成の第2の方法として、αが小さい場合に、図5のフローチャートのステップ501,502,503,504,506のみから構成し、ステップ504の処理が終了した後、ステップ506に進むようにする。このようにして、単語Xに対し、
(2) Second method:
As a second method of generating the
(3)第3の方法:
単語間関連データベース25の生成の第3の方法として、図5のフローチャートのステップ501,502,503,504,505のみから構成し、ステップ505の処理が終了した後、ステップ501に進むようにする。このようにして、任意の単語対X,Yに対し
(3) Third method:
As a third method for generating the
(4)第4の方法:
単語間関連データベース25の生成の第4の方法として、αが小さい場合に、図5のフローチャートのステップ501,502,503,504,505,506から構成する。このようにして、単語Xに対し、
(4) Fourth method:
As a fourth method of generating the
また、複数の異なるαに対して図7の形式の単語間関連データベース25を生成した後、それらのデータベース群をマージした図7の形式の単語間関連データベース25を生成してもよい。具体的には以下のようにする。
Further, after the
α1,α2,…,αh毎に、任意の単語対X,Yに対し、 For each α 1 , α 2 ,..., α h , for any word pair X, Y,
一例として、単語対X,Yに対する最終的な距離P(X‖Y)または関連度E(X‖Y)を、以下のように、 As an example, the final distance P (X‖Y) or relevance E (X‖Y) for the word pair X, Y is as follows:
別の一例として、単語対X,Yに対する最終的な距離P(X‖Y)または関連度E(X‖Y)を、以下のように、 As another example, the final distance P (X‖Y) or relevance E (X‖Y) for the word pair X, Y is expressed as follows:
また、図7の形式の単語間関連データベース25を生成した後、以下のようにして、図8の形式の単語間関連データベース25を生成し、生成した図8の形式の単語間関連データベース25を最終的な単語間関連データベース25として使用してもよい。
Further, after generating the
P(X‖Y)やE(X‖Y)が小さいαから構成されている場合は、各単語Xに対し、P(X‖Y)がある閾値以下、または、E(X‖Y)がある閾値以上となる単語Yを、単語Xの関連単語として取得する。あるいは、各単語Xに対し、P(X‖Y)の小さい順またはE(X‖Y)の大きい順に、単語Yをランキングし、ランキングにおいて、ある順位までの単語Yを、単語Xの関連単語として取得する。XをV、YをWとして図8の形式の単語間関連データベース25を生成する。
If P (X‖Y) and E (X‖Y) are composed of small α, P (X‖Y) is below a certain threshold or E (X‖Y) A word Y that is equal to or greater than a certain threshold is acquired as a related word of the word X. Alternatively, for each word X, word Y is ranked in order of increasing P (X‖Y) or E (X‖Y), and the words Y up to a certain rank in the ranking are related words of word X. Get as. The
P(X‖Y)やE(X‖Y)が大きいαから構成されている場合は、各単語Yに対し、P(X‖Y)がある閾値以下、または、E(X‖Y)がある閾値以上となる単語Xを、単語Yの関連単語として取得する。あるいは、各単語Yに対し、P(X‖Y)の小さい順またはE(X‖Y)の大きい順に、単語Xをランキングし、ランキングにおいて、ある順位までの単語Xを、単語Yの関連単語として取得する。YをV,XをWとして図8の形式の単語間関連データベース25を生成する。
When P (X‖Y) and E (X‖Y) are composed of large α, for each word Y, P (X‖Y) is below a certain threshold or E (X‖Y) is A word X that is equal to or greater than a certain threshold is acquired as a related word of the word Y. Alternatively, for each word Y, the word X is ranked in the order of increasing P (X‖Y) or E (X‖Y), and the word X up to a certain rank in the ranking is related to the word Y. Get as. The
また、複数の異なるαそれぞれに対して図7の形式を経て図8の形式の単語間関連データベース25を生成するか、複数の異なるαそれぞれに対して図7の形式を経ずに図8の形式の単語間関連データベース25を生成するかした後に、それらのデータベース群をマージした図8の形式の単語間関連データベース25を生成してもよい。具体的には、各単語Vに対し、各α毎の関連単語群をマージしたものを、単語Vの関連単語群とする。このようにマージして得られた図8の形式の単語間関連データベース25を最終的な単語間関連データベース25として使用してもよい。
Further, the
形態素解析部21の処理内容は、形態素解析部11と同一である。
The processing content of the
第2関連単語取得部22は、形態素解析部21で得られた形態素解析結果中の単語Vに対し、単語間関連データベース25から、単語Vとの距離の小さいまたは関連度の大きい一つまたは複数の単語Wを、単語Vの関連単語として取得する。
The second related
単語間関連データベース25が図7の形式である場合は、以下のようにする。
When the
P(X‖Y)やE(X‖Y)が小さいαから構成されている場合は、VをX、WをYとみて、P(X‖Y)がある閾値以下、または、E(X‖Y)がある閾値以上となる単語Yを関連単語として取得する。あるいは、P(X‖Y)の小さい順またはE(X‖Y)の大きい順に、単語Yをランキングし、ランキングにおいて、ある順位までの単語Yを関連単語として取得する。 When P (X‖Y) and E (X‖Y) are composed of small α, V is assumed to be X and W is assumed to be Y, and P (X‖Y) is below a certain threshold or E (X A word Y that is equal to or greater than a certain threshold (Y) is acquired as a related word. Alternatively, the words Y are ranked in ascending order of P (X‖Y) or E (X‖Y) in descending order, and the words Y up to a certain rank in the ranking are acquired as related words.
P(X‖Y)やE(X‖Y)が大きいαから構成されている場合は、VをY、WをXとみて、P(X‖Y)がある閾値以下、または、E(X‖Y)がある閾値以上となる単語Xを関連単語として取得する。あるいは、P(X‖Y)の小さい順またはE(X‖Y)の大きい順に、単語Xをランキングし、ランキングにおいて、ある順位までの単語Xを関連単語として取得する。 When P (X‖Y) and E (X‖Y) are composed of large α, it is assumed that V is Y and W is X, and P (X‖Y) is below a certain threshold or E (X A word X that is equal to or greater than a certain threshold (‖Y) is acquired as a related word. Alternatively, the words X are ranked in ascending order of P (X‖Y) or E (X‖Y) in ascending order, and the words X up to a certain rank in the ranking are acquired as related words.
単語間関連データベース25が図8の形式である場合は、単語Vに対する一つまたは複数の単語Wを関連単語として取得する。
If the
第2形態素解析結果取得部23の処理内容は、第1形態素解析結果取得部13と同一である。
The processing content of the second morpheme analysis result
第1検索部24の処理内容は、第1検索部14と同一である。
The processing content of the
表示部26の処理内容は、表示部16と同一である。
The processing content of the
また、請求項4の第2検索手段は、表示された置換後形態素解析結果の内、ユーザがクリック等の操作で選択した置換後形態素解析結果を、形態素解析部11,21で得られた形態素解析結果に付加した上で文書検索を実行する。ユーザが選択した後の処理内容は、第1検索部14、24と同一である。
Further, the second search means of the fourth aspect provides the morpheme obtained by the
上記の図3及び図6に示す装置の各構成要素の動作をプログラムとして構築し、文書検索装置として利用されるコンピュータにインストールし、CPU等の手段で実施する、または、ネットワークを介して流通させることが可能である。 The operation of each component of the apparatus shown in FIGS. 3 and 6 is constructed as a program, installed in a computer used as a document search apparatus, and implemented by means such as a CPU, or distributed via a network. It is possible.
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記録媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 Further, the constructed program can be stored in a portable recording medium such as a hard disk, a flexible disk, or a CD-ROM, and installed in a computer or distributed.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、文書の検索技術に適用可能である。 The present invention is applicable to a document search technique.
11 形態素解析手段、形態素解析部
12 第1関連単語取得手段、第1関連単語取得部
13 第1形態素解析結果取得手段、第1形態素解析結果取得部
14 第1検索手段、第1検索部
15 単語ベクトルデータベース
16 表示部
21 形態素解析部
22 第2関連単語取得部
23 第2形態素解析結果取得部
24 第1検索部
25 単語間関連データベース
26 表示部
11 morpheme analysis unit,
Claims (10)
検索入力文を形態素解析する形態素解析手段と、
前記形態素解析手段で得られた形態素解析結果中の単語Bに対し、該単語Bの前記単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
前記形態素解析手段で得られた形態素解析結果中の単語Bを、該単語Bの前記第1関連単語取得手段で取得した前記関連単語で置換して得られる置換後形態素解析結果を取得する第1形態素解析結果取得手段と、
前記第1形態素解析結果取得手段で取得した前記置換後形態素解析結果を、前記形態素解析手段で得られた形態素解析結果に付加した上で文書検索を実行する第1検索手段と、
を有することを特徴とする文書検索装置。 A word vector database in which for each word A, the value of each component is associated with a word vector that is a relative value of the co-occurrence frequency of the word A and the word or word semantic attribute corresponding to the component;
Morphological analysis means for morphological analysis of the search input sentence;
Α between the word vector in the word vector database of the word B and the word vector in the word vector database of the arbitrary word C with respect to the word B in the morphological analysis result obtained by the morpheme analyzing means The divergence distance,
A first morpheme analysis result obtained by replacing the word B in the morpheme analysis result obtained by the morpheme analysis unit with the related word obtained by the first related word obtaining unit of the word B; Morphological analysis result acquisition means;
First search means for executing a document search after adding the post-replacement morpheme analysis result acquired by the first morpheme analysis result acquisition means to the morpheme analysis result obtained by the morpheme analysis means;
A document search apparatus characterized by comprising:
検索入力文を形態素解析する形態素解析手段と、
前記形態素解析手段で得られた形態素解析結果中の単語Dに対し、前記単語間関連データベースから、該単語Dとの距離の小さいまたは関連度の大きい一つまたは複数の単語Eを、該単語Dの関連単語として取得する第2関連単語取得手段と、
前記形態素解析手段で得られた形態素解析結果中の単語Dを、該単語Dの前記第2関連単語取得手段で取得した前記関連単語で置換して得られる置換後形態素解析結果を取得する第2形態素解析結果取得手段と、
前記第2形態素解析結果取得手段で取得した前記置換後形態素解析結果を、前記形態素解析手段で得られた形態素解析結果に付加した上で文書検索を実行する第1検索手段と、
を有することを特徴とする文書検索装置。 For an arbitrary word A, refer to a word vector database in which the value of each component is associated with a word vector that is a relative value of the co-occurrence frequency of the word A and the word or word semantic attribute corresponding to the component A; For an arbitrary word B, an α divergence distance between a word vector in the word vector database of the word B and a word vector in the word vector database of an arbitrary word C,
Morphological analysis means for morphological analysis of the search input sentence;
For the word D in the morpheme analysis result obtained by the morpheme analysis means, one or more words E having a small distance or a high degree of association with the word D from the inter-word relation database. Second related word acquisition means for acquiring as a related word of
A second acquisition unit obtains a post-substitution morpheme analysis result obtained by replacing the word D in the morpheme analysis result obtained by the morpheme analysis unit with the related word obtained by the second related word obtaining unit of the word D. Morphological analysis result acquisition means;
First search means for executing a document search after adding the post-replacement morpheme analysis result acquired by the second morpheme analysis result acquisition means to the morpheme analysis result obtained by the morpheme analysis means;
A document search apparatus characterized by comprising:
検索入力文を形態素解析する形態素解析手段と、
前記形態素解析手段で得られた形態素解析結果中の単語Bに対し、該単語Bの前記単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
前記形態素解析手段で得られた形態素解析結果中の単語Bを、該単語Bの前記第1関連単語取得手段で取得した前記関連単語で置換して得られる置換後形態素解析結果を取得する第1形態素解析結果取得手段と、
前記第1形態素解析結果取得手段で取得した前記置換後形態素解析結果を表示する表示手段と、
ユーザが選択した置換後形態素解析結果を、前記形態素解析手段で得られた形態素解析結果に付加した上で文書検索を実行する第2検索手段と、
を有することを特徴とする文書検索装置。 A word vector database in which for each word A, the value of each component is associated with a word vector that is a relative value of the co-occurrence frequency of the word A and the word or word semantic attribute corresponding to the component;
Morphological analysis means for morphological analysis of the search input sentence;
Α between the word vector in the word vector database of the word B and the word vector in the word vector database of the arbitrary word C with respect to the word B in the morphological analysis result obtained by the morpheme analyzing means The divergence distance ,
A first morpheme analysis result obtained by replacing the word B in the morpheme analysis result obtained by the morpheme analysis unit with the related word obtained by the first related word obtaining unit of the word B; Morphological analysis result acquisition means;
Display means for displaying the post-replacement morpheme analysis result acquired by the first morpheme analysis result acquisition means;
A second search means for executing a document search after adding the post-replacement morpheme analysis result selected by the user to the morpheme analysis result obtained by the morpheme analysis means;
A document search apparatus characterized by comprising:
検索入力文を形態素解析する形態素解析手段と、
前記形態素解析手段で得られた形態素解析結果中の単語Dに対し、前記単語間関連データベースから、該単語Dとの距離の小さいまたは関連度の大きい一つまたは複数の単語Eを、該単語Dの関連単語として取得する第2関連単語取得手段と、
前記形態素解析手段で得られた形態素解析結果中の単語Dを、該単語Dの前記第2関連単語取得手段で取得した前記関連単語で置換して得られる置換後形態素解析結果を取得する第2形態素解析結果取得手段と、
前記第2形態素解析結果取得手段で取得した前記置換後形態素解析結果を表示する表示手段と、
ユーザが選択した置換後形態素解析結果を、前記形態素解析手段で得られた形態素解析結果に付加した上で文書検索を実行する第2検索手段と、
を有することを特徴とする文書検索装置。 For an arbitrary word A, refer to a word vector database in which the value of each component is associated with a word vector that is a relative value of the co-occurrence frequency of the word A and the word or word semantic attribute corresponding to the component A; For an arbitrary word B, an α divergence distance between a word vector in the word vector database of the word B and a word vector in the word vector database of an arbitrary word C ,
Morphological analysis means for morphological analysis of the search input sentence;
For the word D in the morpheme analysis result obtained by the morpheme analysis means, one or more words E having a small distance or a high degree of association with the word D from the inter-word relation database. Second related word acquisition means for acquiring as a related word of
A second acquisition unit obtains a post-substitution morpheme analysis result obtained by replacing the word D in the morpheme analysis result obtained by the morpheme analysis unit with the related word obtained by the second related word obtaining unit of the word D. Morphological analysis result acquisition means;
Display means for displaying the post-replacement morpheme analysis result acquired by the second morpheme analysis result acquisition means;
A second search means for executing a document search after adding the post-replacement morpheme analysis result selected by the user to the morpheme analysis result obtained by the morpheme analysis means;
A document search apparatus characterized by comprising:
第1関連単語取得手段が、前記形態素解析ステップで得られた形態素解析結果中の単語Bに対し、該単語Bの、任意の単語Aに対し、各成分の値が、該単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
第1形態素解析結果取得手段が、前記形態素解析ステップで得られた形態素解析結果中の単語Bを、該単語Bの前記第1関連単語取得ステップで取得した前記関連単語で置換して得られる置換後形態素解析結果を取得する第1形態素解析結果取得ステップと、
第1検索手段が、前記第1形態素解析結果取得ステップで取得した前記置換後形態素解析結果を、前記形態素解析ステップで得られた形態素解析結果に付加した上で文書検索を実行する第1検索ステップと、
を行うことを特徴とする文書検索方法。 A morpheme analyzing means for performing a morpheme analysis on the search input sentence;
For the word B in the morpheme analysis result obtained in the morpheme analysis step, the first related word acquisition means has the value of each component for the arbitrary word A of the word B, Between a word vector in a word vector database that associates a word vector that is a relative value of a co-occurrence frequency with a word corresponding to a component or a word meaning attribute, and a word vector in the word vector database of an arbitrary word C Α divergence distance of
The replacement obtained by the first morpheme analysis result acquisition unit replacing the word B in the morpheme analysis result obtained in the morpheme analysis step with the related word acquired in the first related word acquisition step of the word B A first morpheme analysis result acquisition step for acquiring a post-morpheme analysis result;
A first search step in which a first search means performs a document search after adding the replacement morpheme analysis result obtained in the first morpheme analysis result acquisition step to the morpheme analysis result obtained in the morpheme analysis step. When,
A document search method characterized by:
第2関連単語取得手段が、前記形態素解析ステップで得られた形態素解析結果中の単語Dに対し、任意の単語Aに対し、各成分の値が、単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベースを参照し、任意の単語Bに対し、該単語Bの該単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
第2形態素解析結果取得手段が、前記形態素解析ステップで得られた形態素解析結果中の単語Dを、該単語Dの前記第2関連単語取得手段で取得した前記関連単語で置換して得られる置換後形態素解析結果を取得する第2形態素解析結果取得ステップと、
第1検索手段が、前記第2形態素解析結果取得ステップで取得した前記置換後形態素解析結果を、前記形態素解析ステップで得られた形態素解析結果に付加した上で文書検索を実行する第1検索ステップと、
を行うことを特徴とする文書検索方法。 A morpheme analyzing means for performing a morpheme analysis on the search input sentence;
For the word D in the morpheme analysis result obtained in the morpheme analysis step, the second related word acquisition means has the value of each component as to the word A and the word corresponding to the component Refer to a word vector database in which word vectors that are relative values of co-occurrence frequencies with word semantic attributes are associated, and for any word B, the word vector in the word vector database of the word B and any word Α divergence distance between the word vectors in the word vector database of C,
The replacement obtained by the second morpheme analysis result acquisition unit replacing the word D in the morpheme analysis result obtained in the morpheme analysis step with the related word acquired by the second related word acquisition unit of the word D A second morpheme analysis result acquisition step for acquiring a post-morpheme analysis result;
A first search step in which a first search unit executes a document search after adding the replacement morpheme analysis result acquired in the second morpheme analysis result acquisition step to the morpheme analysis result obtained in the morpheme analysis step. When,
A document search method characterized by:
第1関連単語取得手段が、前記形態素解析ステップで得られた形態素解析結果中の単語Bに対し、該単語Bの、任意の単語Aに対し、各成分の値が、該単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
第1形態素解析結果取得手段が、前記形態素解析ステップで得られた形態素解析結果中の単語Bを、該単語Bの前記第1関連単語取得ステップで取得した前記関連単語で置換して得られる置換後形態素解析結果を取得する第1形態素解析結果取得ステップと、
表示手段が、前記第1形態素解析結果取得ステップで取得した前記置換後形態素解析結果を表示する表示ステップと、
第2検索手段が、ユーザが選択した置換後形態素解析結果を、前記形態素解析ステップで得られた形態素解析結果に付加した上で文書検索を実行する第2検索ステップと、
を行うことを特徴とする文書検索方法。 A morpheme analyzing means for performing a morpheme analysis on the search input sentence;
For the word B in the morpheme analysis result obtained in the morpheme analysis step, the first related word acquisition means has the value of each component for the arbitrary word A of the word B, Between a word vector in a word vector database that associates a word vector that is a relative value of a co-occurrence frequency with a word corresponding to a component or a word meaning attribute, and a word vector in the word vector database of an arbitrary word C Α divergence distance of
The replacement obtained by the first morpheme analysis result acquisition unit replacing the word B in the morpheme analysis result obtained in the morpheme analysis step with the related word acquired in the first related word acquisition step of the word B A first morpheme analysis result acquisition step for acquiring a post-morpheme analysis result;
A display step for displaying the post-replacement morpheme analysis result acquired in the first morpheme analysis result acquisition step;
A second search step in which the second search means adds the post-replacement morpheme analysis result selected by the user to the morpheme analysis result obtained in the morpheme analysis step and then executes a document search;
A document search method characterized by:
第2関連単語取得手段が、前記形態素解析ステップで得られた形態素解析結果中の単語Dに対し、任意の単語Aに対し、各成分の値が、単語Aと、該成分に対応する単語または単語意味属性との共起頻度の相対値である単語ベクトルを対応付けた単語ベクトルデータベースを参照し、任意の単語Bに対し、該単語Bの該単語ベクトルデータベース中の単語ベクトルと、任意の単語Cの該単語ベクトルデータベース中の単語ベクトルとの間のαダイバージェンス距離を、
第2形態素解析結果取得手段が、前記形態素解析ステップで得られた形態素解析結果中の単語Dを、該単語Dの前記第2関連単語取得手段で取得した前記関連単語で置換して得られる置換後形態素解析結果を取得する第2形態素解析結果取得ステップと、
表示手段が、前記第2形態素解析結果取得ステップで取得した前記置換後形態素解析結果を表示する表示ステップと、
第2検索手段が、ユーザが選択した置換後形態素解析結果を、前記形態素解析ステップで得られた形態素解析結果に付加した上で文書検索を実行する第2検索ステップと、
を行うことを特徴とする文書検索方法。 A morpheme analyzing means for performing a morpheme analysis on the search input sentence;
For the word D in the morpheme analysis result obtained in the morpheme analysis step, the second related word acquisition means has the value of each component as to the word A and the word corresponding to the component Refer to a word vector database in which word vectors that are relative values of co-occurrence frequencies with word semantic attributes are associated, and for any word B, the word vector in the word vector database of the word B and any word Α divergence distance between the word vectors in the word vector database of C ,
The replacement obtained by the second morpheme analysis result acquisition unit replacing the word D in the morpheme analysis result obtained in the morpheme analysis step with the related word acquired by the second related word acquisition unit of the word D A second morpheme analysis result acquisition step for acquiring a post-morpheme analysis result;
A display step for displaying the post-replacement morpheme analysis result acquired in the second morpheme analysis result acquisition step;
A second search step in which the second search means adds the post-replacement morpheme analysis result selected by the user to the morpheme analysis result obtained in the morpheme analysis step and then executes a document search;
A document search method characterized by:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008299988A JP5284761B2 (en) | 2008-11-25 | 2008-11-25 | Document search apparatus and method, program, and recording medium recording program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008299988A JP5284761B2 (en) | 2008-11-25 | 2008-11-25 | Document search apparatus and method, program, and recording medium recording program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010128598A JP2010128598A (en) | 2010-06-10 |
JP5284761B2 true JP5284761B2 (en) | 2013-09-11 |
Family
ID=42328970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008299988A Expired - Fee Related JP5284761B2 (en) | 2008-11-25 | 2008-11-25 | Document search apparatus and method, program, and recording medium recording program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5284761B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6056563B2 (en) * | 2013-03-08 | 2017-01-11 | 大日本印刷株式会社 | Example part specifying device, example part specifying method, and example part specifying program |
JP2014215826A (en) * | 2013-04-25 | 2014-11-17 | 株式会社デンソー | Search system |
CN111930463A (en) * | 2020-09-23 | 2020-11-13 | 杭州橙鹰数据技术有限公司 | Display method and device |
CN116610848B (en) * | 2023-07-17 | 2023-10-20 | 上海爱可生信息技术股份有限公司 | Vector database retrieval method based on NPU optimization and readable storage medium |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002230021A (en) * | 2001-01-30 | 2002-08-16 | Canon Inc | Information retrieval device and method, and storage medium |
-
2008
- 2008-11-25 JP JP2008299988A patent/JP5284761B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010128598A (en) | 2010-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5662961B2 (en) | Review processing method and system | |
CN105868175A (en) | Abstract generation method and device | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
KR20130056207A (en) | Relational information expansion device, relational information expansion method and program | |
JP2006251866A (en) | Information processor and information processing method, program, and recording medium | |
Fautsch et al. | Adapting the tf idf vector-space model to domain specific information retrieval | |
US20120078907A1 (en) | Keyword presentation apparatus and method | |
JP5229782B2 (en) | Question answering apparatus, question answering method, and program | |
JP6260294B2 (en) | Information search device, information search method, and information search program | |
WO2014002775A1 (en) | Synonym extraction system, method and recording medium | |
JP4711761B2 (en) | Data search apparatus, data search method, data search program, and computer-readable recording medium | |
Aggarwal et al. | Wikipedia-based distributional semantics for entity relatedness | |
Valverde-Rebaza et al. | Job Recommendation Based on Job Seeker Skills: An Empirical Study. | |
Hadj Taieb et al. | Fm3s: Features-based measure of sentences semantic similarity | |
Nazar | Distributional analysis applied to terminology extraction: First results in the domain of psychiatry in Spanish | |
JP2006338342A (en) | Word vector generation device, word vector generation method and program | |
JP5284761B2 (en) | Document search apparatus and method, program, and recording medium recording program | |
Kanoulas et al. | Overview of the CLEF dynamic search evaluation lab 2018 | |
JP2006331245A (en) | Information retrieval device, information retrieval method and program | |
JP2019087157A (en) | Word vector conversion apparatus, method and program | |
Maria et al. | A new model for Arabic multi-document text summarization | |
JP2008282328A (en) | Text sorting device, text sorting method, text sort program, and recording medium with its program recorded thereon | |
JP6181890B2 (en) | Literature analysis apparatus, literature analysis method and program | |
Siemiński | Fast algorithm for assessing semantic similarity of texts | |
JP5221216B2 (en) | Word base generating apparatus and method, program, and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130530 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5284761 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |