JP5213742B2 - Concept search method and apparatus, program, and computer-readable recording medium - Google Patents

Concept search method and apparatus, program, and computer-readable recording medium Download PDF

Info

Publication number
JP5213742B2
JP5213742B2 JP2009024157A JP2009024157A JP5213742B2 JP 5213742 B2 JP5213742 B2 JP 5213742B2 JP 2009024157 A JP2009024157 A JP 2009024157A JP 2009024157 A JP2009024157 A JP 2009024157A JP 5213742 B2 JP5213742 B2 JP 5213742B2
Authority
JP
Japan
Prior art keywords
vector
search
concept
vectors
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009024157A
Other languages
Japanese (ja)
Other versions
JP2010182041A (en
Inventor
匡 内山
俊郎 内山
克人 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009024157A priority Critical patent/JP5213742B2/en
Publication of JP2010182041A publication Critical patent/JP2010182041A/en
Application granted granted Critical
Publication of JP5213742B2 publication Critical patent/JP5213742B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、単語や、新聞記事、ウェブ等の文書を対象として、単語間、文書間、単語−文書間の類似性を判定するための概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に関する。   The present invention relates to a concept search method and apparatus, a program, and a computer-readable recording medium. In particular, the present invention relates to a word, a document such as a newspaper article, a web, and the like. The present invention relates to a concept search method and apparatus, a program, and a computer-readable recording medium.

単語間の類似性を判定し、類義語を検索し、また、関連文書を検索するためのデータベースの一つとして概念ベースが用いられている。   A concept base is used as one of databases for determining similarity between words, searching for synonyms, and searching for related documents.

この「概念ベース」は、単語とその単語に対応する概念ベクトルの組からなるデータベースである。概念ベースとして、国語辞典の語義文から作成される辞書概念ベース(例えば、特許文献1参照)と、記事新聞等の文書を大量に集めたコーパスから作成されるコーパス概念ベース(例えば、非特許文献1参照)とが知られている。   This “concept base” is a database comprising a set of words and concept vectors corresponding to the words. As a concept base, a dictionary concept base (for example, see Patent Document 1) created from the meaning of a Japanese dictionary and a corpus concept base (for example, non-patent literature) created from a corpus that collects a large amount of documents such as article newspapers. 1)).

また、所定の単語の「概念ベクトル」は、上記所定の単語が属する範囲(例えば、文)内で、予め決められた複数の共起語のそれぞれと共起する頻度に応じて算出される。辞書概念ベースにおける共起語として、単語を辞書引きして得られる語義文中に出現する単語が用いられ、コーパス概念ベースにおける共起語として、コーパス中に高頻度で出現する単語が用いられる。各単語を行とし、共起語を列とし、単語と共起語との共起頻度を行列の成分とする共起行列を作成する。   Further, the “concept vector” of the predetermined word is calculated according to the frequency of co-occurrence with each of a plurality of predetermined co-occurrence words within the range (for example, sentence) to which the predetermined word belongs. As a co-occurrence word in the dictionary concept base, a word appearing in a word meaning sentence obtained by lexicographically extracting the word is used, and as a co-occurrence word in the corpus concept base, a word appearing frequently in the corpus is used. A co-occurrence matrix is created with each word as a row, co-occurrence words as columns, and the co-occurrence frequency of the words and co-occurrence words as a matrix component.

辞書概念ベースの場合、上記共起行列における各行の行ベクトルが、単語の概念ベクトルであり、通常は語義文中に含まれる単語について、孫引きすることによって得られる語義文等を用いて概念ベクトルの精錬が行われる。   In the case of the dictionary concept base, the row vector of each row in the co-occurrence matrix is a word concept vector, and the concept vector is refined using a word meaning sentence obtained by subtracting the word normally included in the word meaning sentence. Is done.

コーパス概念ベースにおいて、特異値分解によって共起行列の列の次元を圧縮した行列を作成し、この圧縮した行列の各行の行ベクトルが概念ベクトルである。このようにして作成された概念ベースは、単語間の類似性が高い程、単語の概念ベクトル間の距離が近いという性質を持つので、単語間の類似性を判定する場合に有効である。つまり、2つの単語間の概念ベクトルの距離が近い程、上記2つの単語間の類似性が高いと判断できる。   In the corpus concept base, a matrix in which the dimension of the column of the co-occurrence matrix is compressed by singular value decomposition is created, and the row vector of each row of the compressed matrix is a concept vector. The concept base created in this manner has the property that the higher the similarity between words, the closer the distance between the concept vectors of the words, so it is effective in determining similarity between words. In other words, it can be determined that the closer the concept vector between two words is, the higher the similarity between the two words is.

文書の概念ベクトルは、文書を形態素解析して抽出される単語の概念ベクトルの平均として定義される。文書の概念ベクトルは、単語の概念ベクトルと全く同様に取り扱うことができ、各概念ベクトル間の距離に基づいて、文書間、単語−文書間の類似性を判定することができる。   The concept vector of a document is defined as the average of the concept vectors of words extracted by morphological analysis of the document. Document concept vectors can be handled in exactly the same way as word concept vectors, and similarity between documents and between words and documents can be determined based on the distance between each concept vector.

概念ベクトル間の距離を測定する測度として、Euclid距離やKullback-Leibler距離が用いられる。検索ベクトルをp→=(p,…,p)、被検索ベクトルをq→=(q,…,q)(『→』はベクトルを表す)とするととき、Euclid距離D(p→,q→)は、 Euclid distance and Kullback-Leibler distance are used as measures to measure the distance between concept vectors. When the search vector is p → = (p 1 ,..., P N ), and the search vector is q → = (q 1 ,..., Q N ) (“→” represents a vector), the Euclidean distance D E ( p →, q →)

Figure 0005213742
Kullback-Leibler距離DKL(p→,r→)は、
Figure 0005213742
Kullback-Leibler distance DKL (p →, r →) is

Figure 0005213742
でそれぞれ定義される。図10に従来技術におけるベクトル間の距離の概念を示した。同図では、検索ベクトルOP→、被検索ベクトルOQ→との距離Dを点線で表している。
Figure 0005213742
Respectively. FIG. 10 shows the concept of the distance between vectors in the prior art. In the figure, the distance D between the search vector OP → and the searched vector OQ → is indicated by a dotted line.

特許第3379603号公報Japanese Patent No. 3379603

H. Schutze, "Dimensions of meaning", Proceedings of Supercomputing '92, pp.787-796, 1992年H. Schutze, "Dimensions of meaning", Proceedings of Supercomputing '92, pp.787-796, 1992

しかしながら、概念ベクトル間の距離に基づいて、単語間、文書間、単語−文書間の類似性を判定する方法では、通常のウェブ検索のような、指定した複数の概念を含むOR検索や、指定した概念を含まないNOT検索ができないという問題がある。   However, in the method of determining the similarity between words, between documents, and between word-documents based on the distance between concept vectors, an OR search including a plurality of designated concepts, such as a normal web search, or a designation There is a problem that NOT search that does not include the concept is not possible.

本発明は、上記の点に鑑みなされたもので、指定した複数の概念を含むOR検索や、指定した概念を含まないNOT検索を行うことができ、追加した概念、除きたい概念を詳細に指定して目的とする文書を精度よく抽出することが可能な概念検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。   The present invention has been made in view of the above points, and can perform an OR search including a plurality of specified concepts and a NOT search that does not include a specified concept. It is an object of the present invention to provide a concept retrieval method and apparatus and program capable of accurately extracting a target document and a computer-readable recording medium.

図1は、本発明の原理を説明するための図である。   FIG. 1 is a diagram for explaining the principle of the present invention.

本発明(請求項1)は、単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索方法において、
検索ベクトル入力手段が、検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力ステップ(ステップ1)と、
検索条件ベクトル入力手段が、検索ベクトルに対するOR条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力ステップ(ステップ2)と、
被検索ベクトル取得手段が、検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得ステップ(ステップ3)と、
距離計算手段が、検索ベクトルとN個の検索条件ベクトルとが成すN次元平面と、被検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算ステップ(ステップ4)と、からなる。
The present invention (Claim 1) is a concept search method in which a concept of a word or a document is quantified as a concept vector, and similarity between words or between documents or between words and documents is determined based on a distance between vectors.
A search vector input step (step 1) in which a search vector input means acquires one concept vector (search vector) of a search word or search document;
A search condition vector input step (step 2) in which the search condition vector input means acquires N word or document concept vectors (search condition vectors) that are OR conditions for the search vector ;
A searched vector acquisition step (step 3) in which the searched vector acquisition means acquires the searched vector from the concept vector storage means in which the concept vectors (searched vectors) of a plurality of words to be searched or a plurality of documents are stored. ,
A distance calculating step (step 4) for calculating a distance between the N-dimensional plane formed by the search vector and the N search condition vectors and the search target vector, and storing the distance in the vector distance calculation storage unit; Consists of.

発明(請求項2)は、単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索方法において、
検索ベクトル入力手段が、検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力ステップと、
検索条件ベクトル入力手段が、検索ベクトルに対するNOT条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力ステップと、
被検索ベクトル取得手段が、検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得ステップと、
距離計算手段が、被検索ベクトルとN個の検索条件ベクトルとによるN次元平面と、検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算ステップと、からなる。
The present invention (Claim 2) is a concept search method for quantifying a concept of a word or a document as a concept vector and determining similarity between words or between documents or between words and documents based on a distance between the vectors.
A search vector input step in which the search vector input means acquires one concept vector (search vector) of a search word or search document;
A search condition vector input means for obtaining N word or document concept vectors (search condition vectors) that are NOT conditions for the search vector;
A searched vector acquisition step in which the searched vector acquisition means acquires a searched vector from a concept vector storage means in which concept vectors (searched vectors) of a plurality of words to be searched or a plurality of documents are stored;
The distance calculation means includes an N-dimensional plane based on the search target vector and N search condition vectors, and a distance calculation step of calculating the distance between the search condition vectors and storing the distance in the vector distance calculation storage means.

図2は、本発明の原理構成図である。   FIG. 2 is a principle configuration diagram of the present invention.

本発明(請求項)は、単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索装置であって、
検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力手段101と、
検索ベクトルに対するOR条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力手段102と、
検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段103から被検索ベクトルを取得する被検索ベクトル取得手段104と、
検索ベクトルとN個の検索条件ベクトルとが成すN次元平面と、被検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段107に格納する距離計算手段105と、を有する。
本発明(請求項4)は、単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索装置であって、
検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力手段と、
前記検索ベクトルに対するNOT条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力手段と、
検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得手段と、
前記被検索ベクトルと前記N個の検索条件ベクトルとによるN次元平面と、前記検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算手段と、
を有する。
The present invention (Claim 3 ) is a concept search device that quantifies a word or document concept as a concept vector and determines similarity between words or between documents or between words and documents based on the distance between the vectors. And
Search vector input means 101 for obtaining one concept vector (search vector) of a search term or search document;
A search condition vector input means 102 for acquiring concept vectors (search condition vectors) of N words or documents that are OR conditions for the search vector ;
A searched vector obtaining means 104 for obtaining a searched vector from a concept vector storage means 103 in which concept vectors (searched vectors) of a plurality of words to be searched or a plurality of documents are stored;
A distance calculation unit 105 that calculates a distance between the N-dimensional plane formed by the search vector and the N search condition vectors and the search condition vector and stores the distance in the vector distance calculation storage unit 107;
The present invention (Claim 4) is a concept search device that quantifies a word or document concept as a concept vector and determines similarity between words or between documents or between words and documents based on the distance between the vectors. And
Search vector input means for acquiring one concept vector (search vector) of a search term or search document;
Search condition vector input means for obtaining N word or document concept vectors (search condition vectors) that are NOT conditions for the search vector;
A searched vector obtaining means for obtaining a searched vector from a concept vector storage means in which concept vectors (searched vectors) of a plurality of words to be searched or a plurality of documents are stored;
A distance calculation means for calculating a distance between an N-dimensional plane based on the search target vector and the N search condition vectors and the search condition vector, and storing the distance in a vector distance calculation storage means;
Have

本発明(請求項)は、請求項1または2のいずれか1項記載の概念検索方法の各ステップを実行するコンピュータを機能させるための概念検索プログラムである。 The present invention (Claim 5 ) is a concept search program for causing a computer to execute each step of the concept search method according to any one of Claims 1 and 2 .

本発明(請求項)は、請求項記載の概念検索プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体である。 The present invention (Claim 6 ) is a computer-readable recording medium in which the concept retrieval program according to Claim 5 is stored.

上記のように、本発明では、検索条件を概念ベクトルとして与え、被検索ベクトルと、検索ベクトル及び検索条件ベクトルとの距離に基づいて、単語間、文書間、単語−文書間の類似性を判定することによって指定した複数の概念を含むOR検索や、指定した概念を含まないNOT検索を行うことにより、入力したテキストに概念的に類似する文書を検索することが可能な概念検索において、更に追加したい概念、除きたい概念を詳細に指定して、目的とする文書をより精度よく抽出することが可能になる。   As described above, in the present invention, search conditions are given as concept vectors, and similarity between words, between documents, and between words and documents is determined based on the distance between the searched vector, the search vector, and the search condition vector. In addition to the concept search that can search for documents that are conceptually similar to the input text by performing an OR search that includes a plurality of concepts that are specified by performing a NOT search that does not include the specified concepts. It is possible to extract the target document with higher accuracy by specifying in detail the concept to be removed and the concept to be removed.

本発明の原理を説明するための図である。It is a figure for demonstrating the principle of this invention. 本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の一実施の形態における概念検索装置の構成図である。It is a block diagram of the concept search apparatus in one embodiment of this invention. 本発明の一実施の形態における動作のフローチャートである。It is a flowchart of the operation | movement in one embodiment of this invention. 本発明の一実施の形態におけるOR検索時の距離の求め方を説明するための図である。It is a figure for demonstrating how to obtain | require the distance at the time of OR search in one embodiment of this invention. 本発明の一実施の形態におけるNOT検索時の距離の求め方を説明するための図である。It is a figure for demonstrating how to obtain | require the distance at the time of NOT search in one embodiment of this invention. 本発明の一実施の形態におけるOR検索とNOT検索を同時に適用する場合の距離の求め方を説明するための図である。It is a figure for demonstrating how to obtain | require the distance in the case of applying OR search and NOT search simultaneously in one embodiment of this invention. 本発明の一実施の形態におけるNOT検索条件が複数ある場合の距離の求め方を説明するための図である。It is a figure for demonstrating how to obtain | require the distance when there are multiple NOT search conditions in one embodiment of this invention. 本発明の一実施の形態におけるOR及びNOT検索条件が複数ある場合の距離の求め方を説明するための図である。It is a figure for demonstrating how to obtain | require the distance in case one or more OR and NOT search conditions exist in one embodiment of this invention. 従来技術におけるベクトル間の距離の概念を示す図である。It is a figure which shows the concept of the distance between the vectors in a prior art.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

最初に、以下で用いる「検索ベクトル」、「検索条件ベクトル」、「被検索ベクトル」について、キーワード(単語)による文書検索を想定して説明する。   First, “search vector”, “search condition vector”, and “search target vector” used below will be described assuming a document search using keywords (words).

(1)OR条件の場合:
検索条件が「単語Aを含むか、単語Bを含むか、単語Cを含むか」である場合は、
検索ベクトル:単語Aの概念ベクトル;
検索条件ベクトル:単語Bの概念ベクトル、及び単語Cの概念ベクトル;
被検索ベクトル:検索対象の各文書の概念ベクトル;
となる。
(1) For OR condition:
When the search condition is “including word A, word B, or word C”,
Search vector: concept vector of word A;
Search condition vector: concept vector of word B and concept vector of word C;
Searched vector: concept vector of each document to be searched;
It becomes.

(2)NOT条件の場合:
検索条件が「単語Aを含み、且つ単語Bを含まない、且つ単語Cを含まない」である場合は、
検索ベクトル:単語Aの概念ベクトル;
検索条件ベクトル:単語Bの概念ベクトル、及び単語Cの概念ベクトル;
被検索ベクトル:検索対象の各文書の概念ベクトル;
となる。
(2) For NOT condition:
When the search condition is “including word A and not including word B and not including word C”,
Search vector: concept vector of word A;
Search condition vector: concept vector of word B and concept vector of word C;
Searched vector: concept vector of each document to be searched;
It becomes.

図3は、本発明の一実施の形態における概念検索装置の構成を示す。   FIG. 3 shows a configuration of the concept retrieval apparatus according to the embodiment of the present invention.

同図に示す概念検索装置は、検索ベクトル入力部101、検索条件ベクトル入力部102、概念ベクトル蓄積部103、被検索ベクトル取得部104、距離計算部105、結果出力部106から構成される。   The concept search apparatus shown in FIG. 1 includes a search vector input unit 101, a search condition vector input unit 102, a concept vector storage unit 103, a searched vector acquisition unit 104, a distance calculation unit 105, and a result output unit 106.

検索ベクトル入力部101は、端末からキーボードを用いて単語や文書が入力されると、これを概念ベクトル(検索ベクトル)に変換する。   When a word or document is input from a terminal using a keyboard, the search vector input unit 101 converts it into a concept vector (search vector).

検索条件ベクトル入力部102は、端末からキーボードを用いて単語や文書が入力されると、概念ベクトル(検索条件ベクトル)に変換する。   When a word or document is input from the terminal using a keyboard, the search condition vector input unit 102 converts it into a concept vector (search condition vector).

概念ベクトル蓄積部103は、従来の概念ベースに相当するものであり、検索される概念ベクトルを蓄積し、被検索ベクトル取得部104によって検索される。   The concept vector accumulation unit 103 corresponds to a conventional concept base, accumulates concept vectors to be searched, and is searched by the searched vector acquisition unit 104.

被検索ベクトル取得部104は、検索される単語または文書の概念ベクトル(被検索ベクトル)を概念ベクトル蓄積部103から取得する。   The searched vector acquisition unit 104 acquires the concept vector (searched vector) of the word or document to be searched from the concept vector storage unit 103.

距離計算部105は、被検索ベクトル取得部104から被検索ベクトル、検索ベクトル入力部101から検索ベクトル、検索条件ベクトル入力部102から検索条件ベクトルを取得して、各被検索ベクトルについて、検索ベクトル、検索条件ベクトルの距離を計算し、距離計算結果記憶部107に格納する。   The distance calculation unit 105 acquires a search vector from the search vector acquisition unit 104, a search vector from the search vector input unit 101, and a search condition vector from the search condition vector input unit 102, and for each search vector, The distance of the search condition vector is calculated and stored in the distance calculation result storage unit 107.

結果出力部106は、距離計算結果記憶部107に格納されている距離を昇順にソートして、距離の小さい順に被検索ベクトルに対応する単語や文書を検索結果として出力する。   The result output unit 106 sorts the distances stored in the distance calculation result storage unit 107 in ascending order, and outputs words and documents corresponding to the search vector in the ascending order of distance as search results.

次に、上記の構成における動作を説明する。   Next, the operation in the above configuration will be described.

図4は、本発明の一実施の形態における動作のフローチャートである。   FIG. 4 is a flowchart of the operation in one embodiment of the present invention.

まず、検索ベクトル入力部101に検索ベクトルが入力され(ステップ201)、検索条件ベクトル入力部102に検索条件ベクトルが入力される(ステップ202)。より具体的には、検索ベクトル入力部101、検索条件ベクトル入力部102は、端末からキーボードを用いて入力された単語や文書を概念ベクトルに変換する。   First, a search vector is input to the search vector input unit 101 (step 201), and a search condition vector is input to the search condition vector input unit 102 (step 202). More specifically, the search vector input unit 101 and the search condition vector input unit 102 convert words and documents input from a terminal using a keyboard into concept vectors.

距離計算部105は、入力された検索ベクトル及び検索条件ベクトルと被検索ベクトル取得部104で概念ベクトル蓄積部103より取得した各被検索ベクトルとの距離計算を逐次行い、その結果を距離計算結果記憶部107に格納する(ステップ203)。具体的な距離計算の方法については後述する。   The distance calculation unit 105 sequentially calculates the distance between the input search vector and search condition vector and each searched vector acquired from the concept vector storage unit 103 by the searched vector acquisition unit 104 and stores the result as a distance calculation result storage. The data is stored in the unit 107 (step 203). A specific distance calculation method will be described later.

その後、結果出力部106は、距離計算部105により計算され、距離計算結果記憶部107に格納されている距離を昇順にソートし(ステップ204)、検索結果を出力する(ステップ205)。   Thereafter, the result output unit 106 sorts the distances calculated by the distance calculation unit 105 and stored in the distance calculation result storage unit 107 in ascending order (step 204), and outputs the search result (step 205).

以下に、ステップ203における距離計算部105の距離計算方法について、OR検索の場合と、NOT検索の場合に分けて説明する。なお、各概念ベクトルは、各要素pについて以下の条件を満足するよう予め正規化されているものとする。 Hereinafter, the distance calculation method of the distance calculation unit 105 in step 203 will be described separately for the OR search and the NOT search. Each concept vector is normalized in advance so as to satisfy the following condition for each element p i .

Figure 0005213742
[OR検索時の距離計算]
まず、OR検索の場合の距離計算方法を図5に従って説明する。
Figure 0005213742
[Distance calculation during OR search]
First, the distance calculation method in the case of OR search will be described with reference to FIG.

検索ベクトルをOP→=(p,…,p)、OR検索条件として与えられる検索条件ベクトルをOU→=(u,…,u),被検索ベクトルをOQ→=(q,…,q)とする。 The search vector is OP → = (p 1 ,..., P N ), the search condition vector given as an OR search condition is OU → = (u 1 ,..., U N ), and the search target vector is OQ → = (q 1 , ..., and q N).

検索ベクトルで与えられる概念と、検索条件ベクトルで与えられる概念の混合概念に対応する混合概念ベクトルOR→=(r,…,r)を混合度λとして、 The mixed concept vector OR → = (r 1 ,..., R N ) corresponding to the mixed concept of the concept given by the search vector and the concept given by the search condition vector is defined as the mixing degree λ.

Figure 0005213742
で定義し、被検索ベクトルOQ→と、検索ベクトルOP→及び検索条件ベクトルOU→との距離を、
Figure 0005213742
And the distance between the searched vector OQ → and the search vector OP → and the search condition vector OU →

Figure 0005213742
で定義する。ここで、R*は、
Figure 0005213742
Define in. Where R * is

Figure 0005213742
である。R*は、図5において、点Qから直線PUへ下ろした垂線と直線PUとの交点であり、
Figure 0005213742
It is. In FIG. 5, R * is the intersection of the perpendicular line drawn from the point Q to the straight line PU and the straight line PU.

Figure 0005213742
は点Qと直線PUとの最小距離に相当する。これによって、指定した検索ベクトルとOR検索条件として指定した検索条件ベクトルの混合概念ベクトルに近い被検索ベクトルを選択することができる。
Figure 0005213742
Corresponds to the minimum distance between the point Q and the straight line PU. As a result, it is possible to select a search target vector that is close to the mixed concept vector of the specified search vector and the search condition vector specified as the OR search condition.

なお、距離   The distance

Figure 0005213742
の計算については、距離測度として、Euclid距離、Kullback-Leibler距離などを適用することができる。Euclid距離は、
Figure 0005213742
For the calculation, Euclid distance, Kullback-Leibler distance, etc. can be applied as distance measures. Euclid distance is

Figure 0005213742
Kullback-Leibler距離は、
Figure 0005213742
Kullback-Leibler distance is

Figure 0005213742
でそれぞれ与えられる。Newton法などを用いて
Figure 0005213742
Are given respectively. Using Newton method etc.

Figure 0005213742
または、
Figure 0005213742
Or

Figure 0005213742
から最適なλを求めて、距離
Figure 0005213742
Find the optimum λ from

Figure 0005213742
を得ることができる。
Figure 0005213742
Can be obtained.

上記の図5は、検索条件が「単語Aを含むか、単語Bを含むか」(OR検索)の場合を示している。つまり、単語が2個であるので、検索ベクトルと検索条件ベクトルの2つのベクトル(P,U)を結ぶと直線となり、これと被検索ベクトルが指示する点Qからの最短距離(距離測度としてEuclid距離を採用した場合はQから直線へ下ろした垂線の長さ)によって、   FIG. 5 shows a case where the search condition is “whether word A or word B is included” (OR search). That is, since there are two words, a straight line is formed by connecting two vectors (P, U) of the search vector and the search condition vector, and this is the shortest distance from the point Q indicated by the searched vector (Euclid as a distance measure). When the distance is adopted, the length of the perpendicular line from Q to a straight line)

Figure 0005213742
の距離が定まる。これを拡張して、単語がn個になった場合は、n個のベクトル(PとU)によるn次元平面とQとの最短距離(距離測度としてEuclid距離を採用した場合はQからこの平面へ下ろした垂線の長さ)によって、
Figure 0005213742
The distance is determined. If this is expanded and there are n words, the shortest distance between the n-dimensional plane and Q by n vectors (P and U) (if Euclid distance is used as the distance measure, this plane is taken from Q Depending on the length of the vertical line)

Figure 0005213742
の距離が定まる。
Figure 0005213742
The distance is determined.

[NOT検索時の距離]
次に、NOT検索の場合の距離計算方法を図6に従って説明する。
[Distance for NOT search]
Next, a distance calculation method in the case of NOT search will be described with reference to FIG.

検索ベクトルをOP→=(p,…,p)、NOT検索条件として与えられる検索条件ベクトルをOV→=v(v,…,v)、被検索ベクトルをOQ→=(q,…,q)とする。 The search vector is OP → = (p 1 ,..., P N ), the search condition vector given as the NOT search condition is OV → = v (v 1 ,..., V N ), and the search vector is OQ → = (q 1 ,..., Q N ).

被検索ベクトルで与えられる概念と、検索条件ベクトルで与えられる概念の混合概念に対応する混合概念ベクトルOS→=(s,…,s)を混合度μとして、 A mixed concept vector OS → = (s 1 ,..., S N ) corresponding to a mixed concept of the concept given by the search target vector and the concept given by the search condition vector is defined as a mixing degree μ.

Figure 0005213742
で定義し、被検索ベクトルOQ→と、検索ベクトルOP→及び検索条件ベクトルOV→との距離を、
Figure 0005213742
And the distance between the searched vector OQ → and the search vector OP → and the search condition vector OV →

Figure 0005213742
で定義する。ここで、
Figure 0005213742
Define in. here,

Figure 0005213742
である。S*は、図6において点Pから直線QVへ下ろした垂線と直線QVとの交点であり、
Figure 0005213742
It is. S * is the intersection of the vertical line drawn from the point P to the straight line QV and the straight line QV in FIG.

Figure 0005213742
は、点Pと直線QVとの最小距離に相当する。これによって、被検索ベクトルから、NOT検索条件として与えられる検索条件ベクトルの成分を除いて、検索ベクトルとの距離を求めることができる。
Figure 0005213742
Corresponds to the minimum distance between the point P and the straight line QV. Thus, the distance from the search vector can be obtained by removing the component of the search condition vector given as the NOT search condition from the search target vector.

OR検索と同様に、Euclid距離は、   As with the OR search, the Euclid distance is

Figure 0005213742
Kullback-Leibler距離は、
Figure 0005213742
Kullback-Leibler distance is

Figure 0005213742
それぞれ与えられる。Newton法などを用いて
Figure 0005213742
Given each. Using Newton method etc.

Figure 0005213742
または、
Figure 0005213742
Or

Figure 0005213742
から最適なμを求めて、距離
Figure 0005213742
Find the optimum μ from the distance

Figure 0005213742
を得ることができる。
Figure 0005213742
Can be obtained.

[OR検索・NOT検索を同時に適用する場合の距離計算]
OR検索及びNOT検索を同時に適用する場合の距離計算方法を図7に従って説明する。
[Distance calculation when OR search and NOT search are applied simultaneously]
A distance calculation method when OR search and NOT search are applied simultaneously will be described with reference to FIG.

検索ベクトルをOP→=(p,…,p)、OR検索条件として与えられる検索条件ベクトルをOU→=(u,…,u)、NOT検索条件として与えられる検索条件ベクトルをOV→=(v,…,v)、被検索ベクトルをOQ→=(q,…,q)とする。 The search vector is OP → = (p 1 ,..., P N ), the search condition vector given as an OR search condition is OU → = (u 1 ,..., U N ), and the search condition vector given as a NOT search condition is OV. → = (v 1 ,..., V N ), and the searched vector is OQ → = (q 1 ,..., Q N ).

この場合は、OR検索時の   In this case, the OR search

Figure 0005213742
または、NOT検索時の
Figure 0005213742
Or at the time of NOT search

Figure 0005213742
に代えて、図7に示すように、
Figure 0005213742
Instead, as shown in FIG.

Figure 0005213742
を採用する。Euclid距離は、
Figure 0005213742
Is adopted. Euclid distance is

Figure 0005213742
Kullback-Lebler距離は、
Figure 0005213742
Kullback-Lebler distance is

Figure 0005213742
それぞれ与えられるから、前述のOR検索やNOT検索と同様にして、最適なλ、μを求めることにより、距離
Figure 0005213742
Since each is given, the distance is obtained by obtaining the optimum λ and μ in the same manner as the above OR search and NOT search.

Figure 0005213742
を得ることができる。概念ベクトルは数百次元〜数千次元の高次元のベクトルであるから、図7の直線OR*及び直線OS*は一般にねじれの位置にある。
Figure 0005213742
Can be obtained. Since the concept vector is a high-dimensional vector of hundreds to thousands of dimensions, the straight line OR * and the straight line OS * in FIG. 7 are generally in the position of twist.

上記の手順で求められる距離   Distance required by the above procedure

Figure 0005213742
は、これらねじれの位置にある直線間の最小距離に対応する。
Figure 0005213742
Corresponds to the minimum distance between the straight lines at these twist positions.

さらに、検索条件ベクトルをOR検索及びNOT検索毎に複数指定することも可能である。   Furthermore, a plurality of search condition vectors can be designated for each OR search and NOT search.

L個のOR検索条件、M個のNOT検索条件がある場合、   If there are L OR search conditions and M NOT search conditions,

Figure 0005213742
などとして、最適なλ,…,λ及びμ,…,μを求めることにより、距離
Figure 0005213742
As such, the optimal λ 1, ..., λ L and mu 1, ..., by determining the mu M, the distance

Figure 0005213742
を得ることができる。
Figure 0005213742
Can be obtained.

[NOT検索条件が複数ある場合の距離計算]
図8は、NOT検索条件が複数ある場合を示している。この場合、OR検索条件が指定されないため、OR→=OP→であるから、距離
[Distance calculation when there are multiple NOT search conditions]
FIG. 8 shows a case where there are a plurality of NOT search conditions. In this case, since the OR search condition is not specified, OR → = OP →

Figure 0005213742
は、点Pと三点Q,V,Vが規定する平面との最小距離に相当する。
Figure 0005213742
Corresponds to the minimum distance between the point P and the plane defined by the three points Q, V 1 and V 2 .

図8に示すように、NOT条件の場合は、前述のOR条件の場合と比較すると、PとQの立場が入れ替わるだけである。従って距離は、V,V、Qで定まる2次元平面とPとの最短距離(距離測度としてEuclid距離を採用した場合はPからこの平面へ下ろした垂線の長さ)で与えられる。 As shown in FIG. 8, in the case of the NOT condition, the positions of P and Q are simply switched as compared with the case of the OR condition described above. Accordingly, the distance is given by the shortest distance between the two-dimensional plane determined by V 1 , V 2 , and Q and P (when the Euclid distance is adopted as the distance measure, the length of the perpendicular line dropped from P to this plane).

[OR検索条件、NOT検索条件がそれぞれ複数ある場合の距離計算]
図9に、OR検索条件、NOT検索条件がそれぞれ複数ある場合を示した。この場合、距離
[Distance calculation when there are multiple OR search conditions and NOT search conditions]
FIG. 9 shows a case where there are a plurality of OR search conditions and NOT search conditions. In this case, distance

Figure 0005213742
は、三点P,U,Uが規定する平面と、三点Q,V,Vが規定する平面との最小距離に相当する。
Figure 0005213742
Corresponds to the minimum distance between the plane defined by the three points P, U 1 and U 2 and the plane defined by the three points Q, V 1 and V 2 .

一般的には、L個のOR検索条件、M個のNOT検索条件がある場合、距離   Generally, if there are L OR search conditions and M NOT search conditions, the distance

Figure 0005213742
は、L+1個の点P,U,…,Uが規定するL次元空間と、M+1個の点Q,V,…,Vが規定するM次元空間との最小距離によって与えられる。
Figure 0005213742
Is, L + 1 single point P, U 1, ..., a L dimensional space U L is defined, M + 1 single point Q, V 1, ..., is given by the minimum distance between the M-dimensional space V M is defined.

図9に示すように、OR検索条件とNOT検索条件が混在した場合は、U,…,U,Pで定まるL次元平面(OR条件関係)及び、V,…,V、Qで定まるM次元平面(NOT条件関係)を考え、これらの平面間の最短距離を求める。 As shown in FIG. 9, if the OR search condition and NOT search condition are mixed, U 1, ..., U L , L dimension plane (OR condition relation) defined by P and, V 1, ..., V M , Q Consider the M-dimensional plane (NOT condition relationship) determined by (1) and obtain the shortest distance between these planes.

上記のように、更に追加したい概念や、除きたい概念を詳細に指定して距離計算を行うことにより、効率的に文書を抽出することが可能となる。   As described above, it is possible to efficiently extract a document by performing distance calculation by specifying in detail the concept to be added or removed and performing the distance calculation.

上記の概念検索装置の動作の各ステップをプログラムとして構築し、概念検索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   It is possible to construct each step of the operation of the concept search device as a program, install it on a computer used as the concept search device and execute it, or distribute it via a network.

また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。   Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

本発明は、概念ベクトル間の距離に基づいて類似検索する文書検索に適用可能である。   The present invention can be applied to a document search that performs a similar search based on the distance between concept vectors.

101 検索ベクトル入力手段、検索ベクトル入力部
102 検索条件ベクトル入力手段、検索条件ベクトル入力部
103 概念ベクトル蓄積手段、概念ベクトル蓄積部
104 被検索ベクトル取得手段、被検索ベクトル取得部
105 距離計算手段、距離計算部
106 結果出力部
107 距離計算結果記憶手段、距離計算結果記憶部
101 Search Vector Input Unit, Search Vector Input Unit 102 Search Condition Vector Input Unit, Search Condition Vector Input Unit 103 Concept Vector Storage Unit, Concept Vector Storage Unit 104 Searched Vector Acquisition Unit, Searched Vector Acquisition Unit 105 Distance Calculation Unit, Distance Calculation unit 106 Result output unit 107 Distance calculation result storage means, distance calculation result storage unit

Claims (6)

単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索方法において、
検索ベクトル入力手段が、検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力ステップと、
検索条件ベクトル入力手段が、前記検索ベクトルに対するOR条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力ステップと、
被検索ベクトル取得手段が、検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得ステップと、
距離計算手段が、前記検索ベクトルと前記N個の検索条件ベクトルとが成すN次元平面と、前記被検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算ステップと、
からなることを特徴とする概念検索方法。
In a concept retrieval method for quantifying a word or document concept as a concept vector and determining similarity between words or between documents or between words and documents based on a distance between vectors,
A search vector input step in which the search vector input means acquires one concept vector (search vector) of a search word or search document;
A search condition vector input means for acquiring N word or document concept vectors (search condition vectors) which are OR conditions for the search vector ;
A searched vector acquisition step in which the searched vector acquisition means acquires a searched vector from a concept vector storage means in which concept vectors (searched vectors) of a plurality of words to be searched or a plurality of documents are stored;
A distance calculation means for calculating a distance between an N-dimensional plane formed by the search vector and the N search condition vectors and the search condition vector, and storing the distance in a vector distance calculation storage means;
A concept retrieval method characterized by comprising:
単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索方法において、
検索ベクトル入力手段が、検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力ステップと、
検索条件ベクトル入力手段が、前記検索ベクトルに対するNOT条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力ステップと、
被検索ベクトル取得手段が、検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得ステップと、
距離計算手段が、前記被検索ベクトルと前記N個の検索条件ベクトルとによるN次元平面と、前記検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算ステップと、
からなることを特徴とする概念検索方法。
In a concept retrieval method for quantifying a word or document concept as a concept vector and determining similarity between words or between documents or between words and documents based on a distance between vectors,
A search vector input step in which the search vector input means acquires one concept vector (search vector) of a search word or search document;
A search condition vector input means for obtaining N word or document concept vectors (search condition vectors) which are NOT conditions for the search vector;
A searched vector acquisition step in which the searched vector acquisition means acquires a searched vector from a concept vector storage means in which concept vectors (searched vectors) of a plurality of words to be searched or a plurality of documents are stored;
A distance calculating step of calculating a distance between the search condition vector and an N-dimensional plane based on the search target vector and the N search condition vectors, and storing the distance in a vector distance calculation storage unit;
A concept retrieval method characterized by comprising :
単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索装置であって、
検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力手段と、
前記検索ベクトルに対するOR条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力手段と、
検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得手段と、
前記検索ベクトルと前記N個の検索条件ベクトルとが成すN次元平面と、前記被検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算手段と、
を有することを特徴とする概念検索装置。
A concept search device that quantifies a word or document concept as a concept vector and determines similarity between words or between documents or between words and documents based on a distance between vectors,
Search vector input means for acquiring one concept vector (search vector) of a search term or search document;
Search condition vector input means for obtaining N word or document concept vectors (search condition vectors) that are OR conditions for the search vector ;
A searched vector obtaining means for obtaining a searched vector from a concept vector storage means in which concept vectors (searched vectors) of a plurality of words to be searched or a plurality of documents are stored;
A distance calculation means for calculating a distance between an N-dimensional plane formed by the search vector and the N search condition vectors and the search condition vector, and storing the distance in a vector distance calculation storage means;
A concept retrieval device characterized by comprising:
単語または文書の概念を概念ベクトルとして数値化し、ベクトル間の距離に基づいて、単語間または文書間または単語−文書間の類似性を判定する概念検索装置であって、
検索語または検索文書の概念ベクトル(検索ベクトル)を1つ取得する検索ベクトル入力手段と、
前記検索ベクトルに対するNOT条件となるN個の、単語または文書の概念ベクトル(検索条件ベクトル)を取得する検索条件ベクトル入力手段と、
検索される複数の単語または複数の文書の概念ベクトル(被検索ベクトル)が格納された概念ベクトル蓄積手段から被検索ベクトルを取得する被検索ベクトル取得手段と、
前記被検索ベクトルと前記N個の検索条件ベクトルとによるN次元平面と、前記検索条件ベクトルとの距離を計算し、ベクトル距離計算記憶手段に格納する距離計算手段と、
を有することを特徴とする概念検索装置。
A concept search device that quantifies a word or document concept as a concept vector and determines similarity between words or between documents or between words and documents based on a distance between vectors,
Search vector input means for acquiring one concept vector (search vector) of a search term or search document;
Search condition vector input means for obtaining N word or document concept vectors (search condition vectors) that are NOT conditions for the search vector;
A searched vector obtaining means for obtaining a searched vector from a concept vector storage means in which concept vectors (searched vectors) of a plurality of words to be searched or a plurality of documents are stored;
A distance calculation means for calculating a distance between an N-dimensional plane based on the search target vector and the N search condition vectors and the search condition vector, and storing the distance in a vector distance calculation storage means;
A concept retrieval device characterized by comprising:
請求項1または2のいずれか1項記載の概念検索方法の各ステップを実行するコンピュータを機能させるための概念検索プログラム。 The concept search program for functioning the computer which performs each step of the concept search method of any one of Claim 1 or 2 . 請求項記載の概念検索プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。 A computer-readable recording medium storing the concept search program according to claim 5 .
JP2009024157A 2009-02-04 2009-02-04 Concept search method and apparatus, program, and computer-readable recording medium Expired - Fee Related JP5213742B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009024157A JP5213742B2 (en) 2009-02-04 2009-02-04 Concept search method and apparatus, program, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009024157A JP5213742B2 (en) 2009-02-04 2009-02-04 Concept search method and apparatus, program, and computer-readable recording medium

Publications (2)

Publication Number Publication Date
JP2010182041A JP2010182041A (en) 2010-08-19
JP5213742B2 true JP5213742B2 (en) 2013-06-19

Family

ID=42763597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009024157A Expired - Fee Related JP5213742B2 (en) 2009-02-04 2009-02-04 Concept search method and apparatus, program, and computer-readable recording medium

Country Status (1)

Country Link
JP (1) JP5213742B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110268398A (en) * 2017-02-14 2019-09-20 三菱电机株式会社 Data analysis set-up and data analysing method

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3948090B2 (en) * 1998-01-22 2007-07-25 富士ゼロックス株式会社 Information search apparatus, information search method, and storage medium storing information search program
JP3862059B2 (en) * 2001-01-22 2006-12-27 Kddi株式会社 Search expression expansion method and search system
JP3875510B2 (en) * 2001-05-10 2007-01-31 日本電信電話株式会社 Information retrieval apparatus, method thereof, program thereof, and recording medium on which program is recorded
GB2395808A (en) * 2002-11-27 2004-06-02 Sony Uk Ltd Information retrieval
JP5061870B2 (en) * 2006-12-06 2012-10-31 幸生 陳 Content search system, content search method, and content search program
JP2007220144A (en) * 2007-05-18 2007-08-30 Seiko Epson Corp Patent retrieval device, and control method and control program for patent retrieval device

Also Published As

Publication number Publication date
JP2010182041A (en) 2010-08-19

Similar Documents

Publication Publication Date Title
US11682226B2 (en) Method and system for assessing similarity of documents
US8341112B2 (en) Annotation by search
WO2020143184A1 (en) Knowledge fusion method and apparatus, computer device, and storage medium
JP5661813B2 (en) Characterization and retrieval of semantic objects
JP6176017B2 (en) SEARCH DEVICE, SEARCH METHOD, AND PROGRAM
JP2020500371A (en) Apparatus and method for semantic search
JP2003288362A (en) Specified element vector generating device, character string vector generating device, similarity calculation device, specified element vector generating program, character string vector generating program, similarity calculation program, specified element vector generating method, character string vector generating method, and similarity calculation method
US20090300006A1 (en) Techniques for computing similarity measurements between segments representative of documents
JP2007328311A (en) Multi-media data management method and device therefor
JP2011248596A (en) Searching system and searching method for picture-containing documents
JP2016018286A (en) Action type discrimination system, action type discrimination method, and action type discrimination program
CN116561388A (en) Data processing system for acquiring labels
JP2021144348A (en) Information processing device and information processing method
CN106933824A (en) The method and apparatus that the collection of document similar to destination document is determined in multiple documents
JP4325370B2 (en) Document-related vocabulary acquisition device and program
JP5869948B2 (en) Passage dividing method, apparatus, and program
JP2009277099A (en) Similar document retrieval device, method and program, and computer readable recording medium
JP5213742B2 (en) Concept search method and apparatus, program, and computer-readable recording medium
JP5533272B2 (en) Data output device, data output method, and data output program
JP5164876B2 (en) Representative word extraction method and apparatus, program, and computer-readable recording medium
WO2018150453A1 (en) Data analyzer and data analysis method
JP4148247B2 (en) Vocabulary acquisition method and apparatus, program, and computer-readable recording medium
JP4813312B2 (en) Electronic document search method, electronic document search apparatus and program
Dhumal et al. Retrieval and extraction of unique patterns from compressed text data using the SVD technique on Hadoop Apache MAHOUT framework
JP7333891B2 (en) Information processing device, information processing method, and information processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130226

R150 Certificate of patent or registration of utility model

Ref document number: 5213742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees