JP5384315B2 - SEARCH DEVICE, METHOD, AND PROGRAM - Google Patents
SEARCH DEVICE, METHOD, AND PROGRAM Download PDFInfo
- Publication number
- JP5384315B2 JP5384315B2 JP2009289788A JP2009289788A JP5384315B2 JP 5384315 B2 JP5384315 B2 JP 5384315B2 JP 2009289788 A JP2009289788 A JP 2009289788A JP 2009289788 A JP2009289788 A JP 2009289788A JP 5384315 B2 JP5384315 B2 JP 5384315B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- document
- character
- character string
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、検索装置及び方法及びプログラムに係り、特に、改ページや改行位置が確定しているドキュメント内の部分領域の撮影画像を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための、ドキュメント及びドキュメント内の各位置のインデックスを作成する検索装置及び方法及びプログラムに関する。 The present invention relates to a search apparatus, method, and program, and in particular, a document in which a region appears and a position in the document using a captured image of a partial region in a document in which a page break or a line break position is determined as a search query. The present invention relates to a search apparatus, a method, and a program for creating a document and an index of each position in the document in response to a search request for acquiring a document.
特に、改ページや改行位置が確定しているドキュメント内の該領域を含む可能性があるドキュメント及びドキュメント内における位置を網羅的に取得するのではなく、位置を一意に特定したい場合に適用される検索装及び方法及びプログラムに関する。 Especially, it is applied when you want to specify the position uniquely rather than exhaustively acquiring the document that may include the area in the document where the page break or line break position is fixed and the position in the document. The present invention relates to a search apparatus, method, and program.
ドキュメントの一部領域から、該領域がどのドキュメントに含まれているか、あるいは、どのドキュメントのどの位置に含まれているか一意に特定することが必要なシーンは少なくない。 There are not a few scenes in which it is necessary to uniquely identify from which document a part of a document is included in which document or at which position in which document.
例えば、手元に雑誌の切り抜きがある場合、切り抜いた元の雑誌を探して、切抜きの続きを読みたいことがある。この場合、当該切抜きがどの雑誌の一部であったか一意に特定できる必要がある。 For example, if there is a magazine cutout at hand, you may want to find the original magazine you cut out and read the continuation of the cutout. In this case, it is necessary to be able to uniquely identify which magazine the clipping was part of.
上記の事例は、ドキュメントの一部領域をクエリとし、膨大な量のドキュメント群の中から、該領域を含むドキュメント名、あるいはドキュメント名及びドキュメントにおける位置を問い合わせる検索システムと捉えることができる。 The above example can be regarded as a search system that uses a partial area of a document as a query and inquires about a document name including the area or a document name and a position in the document from a huge amount of documents.
そして、ドキュメント群の中から情報を取得する検索要求に応えるシステムを構築するためには、ドキュメント群を事前に分析してインデックスを作成する必要がある。 In order to construct a system that responds to a search request for obtaining information from a document group, it is necessary to analyze the document group in advance and create an index.
例えば、日本語の場合は形態素解析等の技術を用いて、ドキュメント内の文書を単語単位に分割した後、単語をインデックスのキーとし、該単語を含むドキュメント名、あるいは、ドキュメント名及びドキュメント中において該単語が登場する位置をインデックスの値とする方式が挙げられる。 For example, in the case of Japanese, after dividing a document in a document into units of words using a technique such as morphological analysis, the word is used as an index key, and the name of the document including the word, or the document name and the document There is a method in which the position where the word appears is used as an index value.
また、N文字(あるいはN単語)の連なりをインデックスのキーとし、その文字(あるいは単語)の連なりを含むドキュメント名、あるいは、ドキュメント名及びドキュメント中においてその文字(あるいは単語)の連なりが登場する位置をインデックスの値とする方式(文字のN-gram方式、単語のN-gram方式)もある。N-gram方式は幅広い場面で有用性が認められており、現在でも多くの拡張手法が提案されている。また、通常のN-gram方式に加え、状況に応じてNの値を変動させる方式も実施されている(例えば、非特許文献1参照)。 Further, a sequence of N characters (or N words) is used as an index key, and a document name including the sequence of the characters (or words), or a position at which the sequence of the characters (or words) appears in the document name and document. There are also methods (character N-gram method, word N-gram method) that use as the index value. The usefulness of the N-gram method has been recognized in a wide range of situations, and many extended methods are still proposed. In addition to the normal N-gram method, a method of changing the value of N according to the situation has been implemented (see, for example, Non-Patent Document 1).
しかしながら、上記従来の方式はどちらも、(1)インデックス識別能力低下、(2)検索ロバスト性低下の問題がある。 However, both of the above conventional methods have the problems of (1) a decrease in index identification capability and (2) a decrease in search robustness.
(1)インデックス識別能力低下の問題:
上記従来の技術では、分析対象のドキュメント数が増えるほど、インデックスのキーと値が1対1に定まらないケースが多く発生するという、インデックス識別能力低下の問題を抱えている。
(1) Problem of reduced index identification ability:
The above-described conventional technique has a problem of a decrease in index identification capability, in which as the number of documents to be analyzed increases, there are more cases where the index key and value are not determined one-to-one.
例えば、「情報」といった一般的な単語がインデックスのキーとなっている場合、複数のドキュメント名がインデックスの値として該キーに関連付けられている可能性が高い。 For example, when a general word such as “information” is an index key, there is a high possibility that a plurality of document names are associated with the key as index values.
N-gram法を用いると問題は多少改善するが、完全には解決しない。文章とは単語がランダムに並んでいるのではなく、文章として意味を成すように並んでいる。このため、意味を成すような文字(あるいは単語)の連なりは多くのドキュメントに含まれる傾向がある。例えば、2単語の連なりをインデックスのキーとする場合、「情報+ラクダ」のような意味不明な連なりを含むドキュメントは滅多に存在しないが、「情報+検索」、「情報+処理」といった連なりを含むドキュメントは無数に存在する。つまり「情報+検索」、「情報+処理」等の、意味を成すような文字・単語の連なりから成るキーには、複数のドキュメント名がインデックスの値として該キーに関連付けられている可能性が高い。 Using the N-gram method improves the problem somewhat but does not solve it completely. Sentences are not arranged in random terms, but are arranged so that they make sense as sentences. For this reason, a series of characters (or words) that make sense tends to be included in many documents. For example, when a sequence of two words is used as an index key, there is rarely a document including an unknown sequence such as “information + camel”, but a sequence of “information + search”, “information + processing” is not included. There are countless documents to include. In other words, there is a possibility that a plurality of document names are associated with the key as an index value for a key composed of a series of meaningful characters / words such as “information + search” and “information + processing”. high.
これらの現象は、ある文字列を含むドキュメント名等を網羅的に取得する検索要求に応えるシステムを構築する場合には問題にならない。しかし、技術分野や背景技術の欄で述べたとおり、特定ドキュメントの特定位置を唯一の検索結果として取得する検索要求に応えるシステムを構築する場合には大きな問題になる。 These phenomena do not pose a problem when a system that responds to a search request that comprehensively obtains document names including a certain character string is constructed. However, as described in the technical field and background art section, it becomes a big problem when a system that responds to a search request for acquiring a specific position of a specific document as a single search result is created.
(2)検索ロバスト性低下の問題:
前述の単語のN-gramの場合、Nの値を大きくすれば、インデックスのキーと値が1対1に定まらないケースは減少する。例えば、「情報+検索」(N=2),「日本語+情報+検索」(N=3),「次世代+日本語+情報+検索」(N=4)とNを大きくするほど、インデックスのキーと値が1対1に定まりやすくなる。
(2) Retrieval robustness problem:
In the case of the above-described word N-gram, if the value of N is increased, the case where the index key and value are not determined one-to-one decreases. For example, “information + search” (N = 2), “Japanese + information + search” (N = 3), “next generation + Japanese + information + search” (N = 4), and the larger N, Index keys and values are easily determined on a one-to-one basis.
しかし、インデックスのキーをクエリとして検索する状況において、上記のようにインデックスのキーの文字数を多くする等して情報量を増やす場合、クエリに一定確率でノイズが含まれると正しい検索結果が得られないという、検索ロバスト性低下の問題が発生する。 However, in the situation where the index key is searched as a query, if the amount of information is increased by increasing the number of characters in the index key as described above, a correct search result can be obtained if the query includes noise with a certain probability. The problem of reduced search robustness occurs.
例えば、紙に書かれた文字列をOCRで光学文字認識を行い、該文字列をクエリとする場合、あるいは専用ディスプレイにタッチペンで書いた文字を手書き文字認識して該文字列をクエリとする場合、文字認識処理の過程で読み取りエラー(誤認識)が発生することがある。この場合、「情報検索」と書かれた短い文字列をスキャンするよりも、「次世代日本語情報検索」と書かれた長い文字列を読み込む方が読み込みエラーが発生する可能性が高く、読み込みエラーによるクエリでは正しい検索結果が得られない。 For example, when a character string written on paper is optically recognized by OCR and the character string is used as a query, or a character written with a touch pen on a dedicated display is recognized and the character string is used as a query. A reading error (misrecognition) may occur during the character recognition process. In this case, it is more likely that a read error will occur if you read a long character string written as “Next Generation Japanese Information Search” rather than scanning a short character string written as “Information Search”. An error query does not give correct search results.
本発明は、上記の点に鑑みなされたもので、インデックスの識別能力低下、及び検索ロバスト性低下という問題を解決し、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じることができ、また、クエリにノイズが含まれる場合においても、精度を低下させずに、検索要求に応じることができる検索装置及び方法及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, solves the problems of a decrease in index identification capability and a decrease in search robustness, and responds to a search request for uniquely acquiring a specific position of a specific document from a document group. It is another object of the present invention to provide a search device, method, and program capable of responding to a search request without degrading accuracy even when a query includes noise.
図1は、本発明の原理構成図である。 FIG. 1 is a principle configuration diagram of the present invention.
本発明(請求項1)は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索装置であって、
インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段10と、
ドキュメントの全体または一部領域から、文章を読む方向とそれに直交する方向を考慮した規定の形状内にある1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出手段11と、
文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段13に出力するインデックス出力手段12と、を有する。
The present invention (Claim 1) responds to a search request for acquiring a document in which the area appears and a position in the document by using a partial area in a document in which a page break or a line break position is determined as a search query. A search device that creates a search index and performs a search,
A document input means 10 for receiving an input of a document to be indexed;
A character block extracting means 11 for extracting a character block consisting of a combination of one or more characters in a prescribed shape taking into consideration the direction in which the text is read and the direction orthogonal thereto, from the whole or a partial area of the document;
Index output means 12 for associating a character block with an appearance position in a document in which the character block appears, and outputting it to the index storage means 13.
また、本発明(請求項2)は、請求項1の検索装置において、
文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とする文字ブロック選別手段を更に有する。
Further, the present invention (Claim 2) is the search device according to
Character block selection means for selecting only those including a specific character string of one or more characters from among the character blocks and to be processed later is further provided.
また、本発明(請求項3)は、請求項1の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする。
Further, the present invention (Claim 3) is the search device according to
The specific character string is a character string of one or more characters that appears uniformly in each area of the analysis target document specified in advance.
また、本発明(請求項4)は、請求項1の検索装置において、
ドキュメントに存在する複数の文字ブロックを含む範囲をリージョンとして同一の検索結果候補として集計を行い、集計結果が一定基準を満たす検索結果候補リージョン群を検索結果として特定する検索手段を更に有する。
Further, the present invention (Claim 4) is the search device according to
A search means is further provided for performing a tabulation as a single search result candidate using a range including a plurality of character blocks existing in the document as a region, and specifying a search result candidate region group satisfying a certain criterion as a search result.
また、本発明(請求項5)は、ドキュメント内の特定位置に関連付けられたコンテンツが検索結果候補である場合に、
同一コンテンツが関連付けられた位置群を同一の検索結果候補として集計を行い、集計結果が一定基準を満たす検索結果候補群を検索結果として特定する検索手段を更に有する。
Further, according to the present invention (claim 5), when the content associated with a specific position in the document is a search result candidate,
There is further provided a search means for performing a tabulation on the position groups associated with the same content as the same search result candidate, and specifying a search result candidate group satisfying a certain criterion as a search result.
また、本発明(請求項6)は、請求項2の検索装置において、
特定文字列を、文字が撮影された画像から文字情報を抽出する光学文字認識装置が利用する認識辞書記憶手段を参照して取得する。
Further, the present invention (Claim 6) is the search device according to
The specific character string is acquired with reference to a recognition dictionary storage means used by the optical character recognition device that extracts character information from an image of characters .
また、本発明(請求項7)は、請求項2の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする。
Further, the present invention (Claim 7) is the search device according to
The specific character string is a character string of one or more characters that does not appear more than a predetermined number of times in a previously specified document to be analyzed.
また、本発明(請求項8)は、請求項2の検索装置において、
特定文字列を、予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする。
Further, the present invention (Claim 8) is the search device according to
The specific character string is a character string of one or more characters composed of characters having a simple shape designated in advance.
また、本発明(請求項9)は、請求項1の検索装置において、
あるドキュメント内の一部領域を検索クエリとして受け付ける入力手段と、
検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出手段と、
クエリ文字ブロックに基づいて、インデックス記憶手段を検索し、その検索結果を出力する検索手段と、
を更に有し、
検索手段は、
クエリ文字ブロックに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する。
Further, the present invention (claim 9) is the search device according to
An input means for accepting a partial area in a document as a search query;
Query character block extraction means for extracting a query character block consisting of a combination of one or more characters from the search query;
Search means for searching the index storage means based on the query character block and outputting the search results;
Further comprising
Search means are
The index storage means is searched based on the query character block, and the search result is output.
また、本発明(請求項10)は、請求項9の検索装置において、
入力手段は、
あるドキュメント内の一部領域を撮影した画像を、一般的な光学文字認識装置を用いて該画像に写っている文字列をテキストデータに変換した検索クエリを受け付ける手段を含む。
Further, the present invention (Claim 10) is the search device according to Claim 9,
Input means,
The image processing apparatus includes means for receiving a search query obtained by converting an image obtained by capturing a partial area in a document into text data using a general optical character recognition device.
また、本発明(請求項11)は、請求項9の検索装置において、
検索結果であるドキュメント及び該ドキュメント内における位置に関連付けられたコンテンツを、検索結果と併せて、あるいは、単独で出力する手段を更に有する。
Further, the present invention (claim 11) is the search device of claim 9,
It further has means for outputting the document as a search result and the content associated with the position in the document together with the search result or independently.
また、本発明(請求項12)は、請求項9の検索装置において、
クエリ文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とするクエリ文字ブロック選別手段を更に有する。
Further, the present invention (claim 12) is the search device according to claim 9 ,
A query character block selection means for selecting only those including one or more specific character strings from the query character blocks and to be processed thereafter is further included.
また、本発明(請求項13)は、請求項12の検索装置において、
光学文字認識装置が利用する認識辞書に登録されている1文字以上の文字列を特定文字列とする。
The present invention (Claim 13) is the search device according to
One or more character strings registered in the recognition dictionary used by the optical character recognition device are defined as specific character strings.
また、本発明(請求項14)は、請求項12の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする。
The present invention (Claim 14) is the search device according to
The specific character string is a character string of one or more characters that appears uniformly in each area of the analysis target document specified in advance.
また、本発明(請求項15)は、請求項12の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする。
The present invention (Claim 15) is the search device according to
The specific character string is a character string of one or more characters that does not appear more than a predetermined number of times in a previously specified document to be analyzed.
また、本発明(請求項16)は、請求項12の検索装置において、
特定文字列を、予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする。
The present invention (Claim 16) is the search device according to
The specific character string is a character string of one or more characters composed of characters having a simple shape designated in advance.
図2は、本発明の原理を説明するための図である。 FIG. 2 is a diagram for explaining the principle of the present invention.
本発明(請求項17)は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う装置における検索方法であって、
ドキュメント入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップ(ステップ1)と、
文字ブロック抽出手段が、ドキュメントの全体または一部領域から、文章を読む方向とそれに直交する方向を考慮した規定の形状内にある1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出ステップ(ステップ2)と、
インデックス出力手段が、文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップ(ステップ3)と、を行う。
The present invention (Claim 17) responds to a search request for acquiring a document in which the area appears and a position in the document by using a partial area in a document in which a page break or a line break position is fixed as a search query. A search method in an apparatus for creating a search index and performing a search,
A document input means for receiving an input of a document to be indexed (step 1);
Character block extraction means for extracting a character block consisting of a combination of one or more characters within a specified shape taking into account the direction in which the text is read and the direction orthogonal thereto, from the whole or a partial area of the document Step (step 2);
The index output means performs an index output step (step 3) of associating the character block with the appearance position in the document in which the character block appears and outputting it to the index storage means.
また、本発明(請求項18)は、請求項17の検索方法において、
入力手段が、あるドキュメント内の一部領域を検索クエリとして受け付ける入力ステップと、
クエリ文字ブロック抽出手段が、検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出ステップと、
検索手段が、クエリ文字ブロックに基づいて、インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、を更に行う。
Further, the present invention (Claim 18) is the search method of Claim 17,
An input step in which the input means accepts a partial area in a document as a search query;
A query character block extracting means for extracting a query character block consisting of a combination of one or more characters from the search query;
The search means further performs a search step of searching the index storage means based on the query character block and outputting the search result.
また、本発明(請求項19)は、請求項17の検索方法において、
文字ブロック選別手段が、文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とする文字ブロック選別ステップを更に行う。
The present invention (Claim 19) provides a search method according to Claim 17,
The character block sorting means further performs a character block sorting step to be processed later after sorting only the character blocks containing one or more specific character strings.
また、本発明(請求項20)は、請求項19の検索方法において、
特定文字列を、予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする。
The present invention (Claim 20) provides a search method according to Claim 19,
The specific character string is a character string of one or more characters that appears uniformly in each area of the analysis target document specified in advance.
また、本発明(請求項21)は、請求項18の検索方法において、
クエリ文字ブロック選別手段が、クエリ文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とするクエリ文字ブロック選別ステップを更に行う。
Further, the present invention (claim 21) is the search method of claim 18,
The query character block selection means further selects only query character blocks that include one or more specific character strings from the query character blocks, and further performs a query character block selection step to be processed thereafter.
本発明(請求項22)は、請求項1乃至16のいずれか1項に記載の検索装置を構成する各手段としてコンピュータを機能させるための検索プログラムである。
The present invention (Claim 22) is a search program for causing a computer to function as each means constituting the search device according to any one of
上記のように本発明によれば、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じることができる。例えば、手元に書籍の一部を切り抜きしかない場合でも、その切り抜きがどの書籍のどの部分であったか突き止めることができる。 As described above, according to the present invention, it is possible to respond to a search request for uniquely acquiring a specific position of a specific document from a document group. For example, even when only a part of a book is cut out at hand, it is possible to find out which part of the book the cut out is.
また、クエリにノイズが含まれる場合においても、精度を大幅に低下させずに上記検索要求に応じることができる。 Even when the query includes noise, it is possible to respond to the search request without significantly reducing accuracy.
例えば、ドキュメントの一部を写真撮影して光学文字認識処理を行ったような、ノイズが混じりやすいデータをクエリとしても精度が大幅に低下することがない。 For example, even if data that is likely to be mixed with noise, such as a case where a part of a document is photographed and optical character recognition processing is performed, the accuracy is not significantly reduced.
また、特定文字列を含む部分のみを文字ブロックとして利用することで、検索の網羅性を大幅に低減させることなく、インデックスサイズを減らすことができる。この際、特定文字列を光学文字認識装置が内部に保有している辞書に登録されている文字列のみとすれば、さらに、光学文字認識処理の誤認識の影響を低減できる。さらに、「▼」のような通常の文章中に頻出しない(所定の回数以上出現しない)シンプルな文字を特定文字列とし、かつ、ドキュメント中のインデックス作成箇所に付与すれば、光学文字認識処理の誤認識の影響を軽減でき、かつ、クライアント部を利用するユーザに対してインデックス作成箇所の目印になる。 Further, by using only a part including a specific character string as a character block, it is possible to reduce the index size without significantly reducing the search completeness. At this time, if the specific character string is only the character string registered in the dictionary held in the optical character recognition device, the influence of the erroneous recognition in the optical character recognition process can be further reduced. Furthermore, if a simple character such as “▼” that does not appear frequently (not appearing more than a predetermined number of times) is used as a specific character string and is added to the index creation location in the document, optical character recognition processing can be performed. The influence of misrecognition can be reduced, and it becomes a mark of the index creation location for the user who uses the client unit.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
なお、特に図示しないが、以下の各実施の形態における検索装置やシステムを構成する各構成要素は、それぞれ、入力されたデータ及び処理結果を格納するメモリを有するものとする。 Although not particularly illustrated, each component constituting the search device and system in each of the following embodiments has a memory for storing input data and a processing result.
[第1の実施の形態]
本実施の形態では、検索装置に含まれる検索を実行するためのインデックスを作成する部分(インデックス作成装置)にのみ言及する。
[First Embodiment]
In the present embodiment, only the part for creating an index for executing the search included in the search device (index creation device) will be mentioned.
図3は、本発明の第1の実施の形態におけるインデックス作成装置の構成を示す。 FIG. 3 shows the configuration of the index creation device according to the first embodiment of the present invention.
同図に示すインデックス作成装置は、ドキュメント入力部10、文字ブロック抽出部11、インデックス出力部12、インデックスDB13から構成される。
The index creation apparatus shown in FIG. 1 includes a
入力されるドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態では、この書籍の各ページをスキャナ(一般装置)で読み取り、図4に示すように、異なる閲覧環境(OS,PDF閲覧ソフト等)においてもレイアウトが変化しない電子ファイル(PDFファイル等)に変換する。図4は、PDFファイル(書名:vegetable、ファイル名:vegetable3.pdf、ページ:3ページ目)の例である。 The input document is a paper book made up of a set of pages including characters. In this embodiment, each page of the book is read by a scanner (general apparatus), and as shown in FIG. 4, an electronic file (PDF file or the like) whose layout does not change even in different browsing environments (OS, PDF browsing software, etc.). ). FIG. 4 shows an example of a PDF file (book name: vegetable, file name: vegetable3.pdf, page: third page).
なお、図4は文章のみからなるページの例であるが、ページには図や表などの文字以外の情報が含まれていてもよい。 Note that FIG. 4 is an example of a page composed only of text, but the page may include information other than characters such as a figure and a table.
また、文字ブロック抽出部11は、入力されたドキュメントから抽出した文字ブロックを格納するメモリ(図示せず)を有するものとする。
Further, the character
図5は、本発明の第1の実施の形態におけるインデックスを作成する処理のフローチャートである。当該処理は、インデックス作成対象となるドキュメント群を入力する入力ステップ(ステップ110、120)、各ドキュメントの各ページ内から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ130)、検索を実行するためのインデックスを出力する出力ステップ(ステップ140)に大別される。 FIG. 5 is a flowchart of a process for creating an index according to the first embodiment of this invention. The processing includes an input step (steps 110 and 120) for inputting a document group to be indexed, a character block extraction step (step 130) for extracting a character block from each page of each document, and a search for executing the search. It is roughly divided into an output step (step 140) for outputting an index.
ステップ110) ドキュメント入力部10は、インデックス作成対象(分析対象)となるドキュメント群を受け付ける。
Step 110) The
ステップ120) ドキュメント入力部10は、入力された各ページのリストを図6に示すデータ構造で文字ブロック抽出部11のメモリ(図示せず)に格納する。リスト内の各要素は、各ページを一意に示すものとする。なお、説明の便宜上、ここでは各ページを一意に表す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用してもかまわない。
Step 120) The
ステップ130) 文字ブロック抽出部11は、入力された各ドキュメントの各ページ内から文字ブロックを抽出する。詳しくは、ドキュメント入力部10から渡され、メモリ(図示せず)に格納されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部14のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元ページのファイル名と当該ページにおける各文字ブロックの出現位置を関連付けてインデックス出力部12に渡す。
Step 130) The character
ここで「文字ブロック」とは、ページ内に並んでいる文字列から、規定の形状で抽出した1文字以上の文字群のことである。ここでは、図7のように、規定の形状を十字型として抽出する。 Here, the “character block” is a character group of one or more characters extracted in a specified shape from a character string arranged in a page. Here, the prescribed shape is extracted as a cross shape as shown in FIG.
また、文字ブロック抽出ルール記憶部14に格納されている文字ブロック抽出ルールとは、ページからどのように文字ブロックを抽出するか規定するルールである。ここでは、図8のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。
The character block extraction rule stored in the character block extraction
また、「文字ブロックの出現位置」とは、文字ブロックがページのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、十字型文字ブロックの上端の文字の行、列の粒度で表現することとする。 The “appearance position of the character block” is position information indicating at which position of the character block the character block appears in an arbitrary granularity depending on the purpose of the system. Here, it is expressed by the granularity of the character row and column at the upper end of the cross-shaped character block.
図9は、本発明の第1の実施の形態における文字ブロック抽出部の処理結果である。 FIG. 9 shows the processing result of the character block extraction unit in the first embodiment of the present invention.
同図では、文字ブロック抽出部11の処理結果を示しており、このデータがインデックス出力部12に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。
The figure shows the processing result of the character
ステップ140) インデックス出力部12は、検索を実行するためのインデックスをインデックスDB13に出力する。詳しくは、文字ブロック抽出部11から渡された各文字ブロックを図9のデータ構造でインデックスDB13に格納する。これにより、文字ブロックを問い合わせキーとしてファイル名及び出現位置を問い合わせ結果として返すインデックスDB13を実現する。
Step 140) The
上記のように、文字をブロック単位で扱うことにより、ドキュメント内の各位置に固有になりやすい文字列パターンを、少ない文字数で表現できるため、識別能力が高く、ロバスト性が高いインデックスを実現できる。 As described above, by handling characters in units of blocks, a character string pattern that tends to be unique to each position in the document can be expressed with a small number of characters, so that an index with high identification capability and high robustness can be realized.
[第2の実施の形態]
本実施の形態では、サーバ部とクライアント部を設け、サーバ部においてインデックスを作成し、クライアント部からサーバ部にインデックスを問い合わせ表示する例を説明する。
[Second Embodiment]
In this embodiment, an example will be described in which a server unit and a client unit are provided, an index is created in the server unit, and the index is inquired and displayed from the client unit to the server unit.
図10は、本発明の第2の実施の形態におけるシステム構成を示す。 FIG. 10 shows a system configuration in the second embodiment of the present invention.
同図に示すシステムは、大きく分けてサーバ部300、クライアント部400、外部装置からなる。
The system shown in the figure is roughly divided into a
サーバ部300は、データ入力部310、文字ブロック抽出部320、インデックス出力部330、インデックスDB340,コンテンツDB350,サーバ側データ送受信部360、DB問い合わせ部370、文字ブロック抽出ルール記憶部321からなる。
The
クライアント部400は、クライアント側デバイス410、クライアント側データ送受信部420を有し、クライアント側デバイス410は、ドキュメント撮影部511、コンテンツ表示部412を有する。
The
外部装置としては、ドキュメント群200を読み取るドキュメント読み取り装置100と、光学文字認識装置101が設けられる。
As an external device, a
ドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態でドキュメント読み取り装置100に入力されるドキュメント群200を構成している各ページ及びクライアント部400に入力されるドキュメントページ゛201の例を図11に示す。
The document is a paper medium book composed of a set of pages including characters. FIG. 11 shows an example of each page constituting the
ドキュメント読み取り装置100は、サーバ部300のデータ入力部310に接続されている。光学文字認識装置101は、サーバ部300のデータ送受信部360に接続されている。
The
本実施の形態では、
(1)サーバ部300においてインデックスを作成する作業;
(2)クライアント部400からサーバ部300に問い合わせる作業;
を行う。
In this embodiment,
(1) Work to create an index in the
(2) Work to inquire the
I do.
(1)サーバ部300においてインデックスを作成する作業:
当該処理は、前述の第1の実施の形態におけるインデックス作成装置に相当する。図12は、本発明の第2の実施の形態におけるインデックス作成処理のフローチャートである。
(1) Creating an index in the server unit 300:
This process corresponds to the index creation device in the first embodiment described above. FIG. 12 is a flowchart of the index creation process in the second embodiment of the present invention.
以下では、インデックス作成対象となるドキュメントを入力する入力ステップ(ステップ210,220)、各ドキュメントの各ページ内から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ230)、検索を実行するためのインデックスを出力する出力ステップ(ステップ240)を行う。
In the following, an input step (
ステップ210) サーバ部300のデータ入力部310は、ドキュメント群200の各ドキュメントの各ページを、ドキュメント読み取り装置100で読み取り、データ入力部310に渡す。
Step 210) The
ここで、ドキュメント読み取り装置100は、紙媒体に印刷されたテキストを読み取ってテキストファイルに変換する一般装置であり、OCR機能付きスキャナ等がこれに該当する。ここでは、各ページ中のテキストは紙媒体に印刷された状態における改ページ位置、改行位置が保持されたままテキストファイルに変換されたものとする。
Here, the
ステップ220) データ入力部20は、ドキュメント読み取り装置100から渡されたテキストファイル群を読み込み、図13に示すデータ構造でリスト化して、サーバ部300の文字ブロック抽出部320に渡す。なお、説明の便宜上、ここでは、各ページを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用しても構わない。
Step 220) The data input unit 20 reads the text file group passed from the
ステップ230) サーバ部300の文字ブロック抽出部320は、データ入力部310から渡されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部321のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元ページのファイル名と該ページにおける該文字ブロックの出現位置を関連付けて、インデックス出力部330に渡す。
Step 230) The character
ここで、「文字ブロック」とは、ページ内に並んでいる文字列から、規定の形状で抽出した1文字以上の文字群のことである。ここでは、図14のように規定の形状を箱型として抽出する。 Here, the “character block” is a character group of one or more characters extracted in a prescribed shape from a character string arranged in a page. Here, the prescribed shape is extracted as a box shape as shown in FIG.
また、文字ブロック抽出ルール記憶部321に格納されている「文字ブロック抽出ルール」とは、ドキュメントからどのような文字ブロックを抽出するかを規定するルールである。ここでは、図15のように、左上隅から右下隅方向へ2文字ずつずらしながら抽出することとする。
The “character block extraction rule” stored in the character block extraction
また、「文字ブロックの出現位置」とは、文字ブロックがドキュメントのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、箱型文字ブロックの上左端の文字の行、列の粒度で表現することとする。 The “appearance position of the character block” is position information indicating at which position of the character block the character block appears in an arbitrary granularity according to the purpose of the system. Here, the box-type character block is expressed by the granularity of the upper leftmost character row and column.
図16は、本発明の第1の実施の形態における文字ブロック抽出部の処理結果を示す。 FIG. 16 shows the processing result of the character block extraction unit in the first embodiment of the present invention.
同図では、文字ブロック抽出部320で上記の処理を行った結果を示しており、このデータがインデックス出力部330に渡される。なお、ここでは、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。
The figure shows the result of the above processing performed by the character
ステップ240) インデックス出力部330は、文字ブロック抽出部320から渡された各文字ブロックを、図16のデータ構造でインデックスDB340に格納する。これにより、検索時には文字ブロックを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB340を実現する。
Step 240) The
なお、サーバ部300のコンテンツDB350には、書籍出版社、あるいは、一般ユーザが作成した、各書籍内の各位置(ページ、行、列等)に関係したコンテンツ及び該コンテンツに関する情報を格納しておく。コンテンツ及び該コンテンツに関する情報をコンテンツDB340に格納するための格納作業専用端末を用意してもよいし、格納作業用Webアプリケーションを用意して不特定多数のユーザがWebブラウザを通じて自由にコンテンツ及び該コンテンツに関する情報を格納できるようにしてもよい。コンテンツの例としては、観光名所案内であれば各地を訪れた旅行者の体験談、化学教科書であれば化学実験映像等が挙げられる。ここでは、サーバ部300上のデータ格納領域にコンテンツの実体を格納し、図17に示すデータ構造でコンテンツと各書籍内の各位置の関係を格納する。
The
(2)クライアント部400からサーバ部300に問い合わせる作業:
図18は、本発明の第2の実施の形態におけるクライアント部からサーバ部へ問い合わせる作業のフローチャートである。
(2) Work for inquiring the
FIG. 18 is a flowchart of the work for inquiring from the client unit to the server unit in the second embodiment of the present invention.
以下では、インデックス作成対象となるページの一部を入力する入力ステップ(ステップ310,320)、入力されたページの一部から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ330)、インデックスDB340に問い合わせを行い、入力されたページの一部に関連付けられているコンテンツを特定する問い合わせステップ(ステップ340,350,360)、問い合わせた結果得られたコンテンツをクライアント部400で表示する出力ステップ(ステップ370)を行う。
Hereinafter, an input step (
ステップ310) クライアント部400のクライアント側デバイス410では、ドキュメント撮影部411において、ドキュメントページ201の全体、または、一部を光学的に撮影して、撮影内容を画像ファイルとして保存し、クライアント側データ送受信部420に渡す。クライアント側データ送受信部420は、ドキュメント撮影部411から渡された画像ファイルをネットワークを通じてサーバ部300のデータ送受信部360に渡す。
Step 310) In the
ドキュメントページ201は、ドキュメント群200に含まれる1件の書籍の1ページである。ここでは、図11に示すページの一部分が撮影され、図19に示す画像ファイルが作成されたとする。
The
ステップ320) サーバ側データ送受信部360は、光学文字認識装置101を利用して、クライアント側データ送受信部420から渡された画像ファイルから図20に示すテキストデータを抽出し、文字ブロック抽出部320に渡す。なお、光学文字認識装置101は、一般的なOCR、ソフトウェア等であり、文字が撮影された画像から文字情報を抽出し、テキストデータとしてコンピュータが利用できる形式に変換する一般装置である。
Step 320) Using the optical
ステップ330) 文字ブロック抽出部320は、サーバ側データ送受信部360から渡されたテキストデータを読み込み、該テキストデータから文字ブロック群を文字ブロック抽出ルール記憶部321のルールに則って抽出し、DB問い合わせ370に渡す。
Step 330) The character
ここで、「文字ブロック」は、ステップ220と同じく箱型の形状で図21のように抽出する。 Here, the “character block” is extracted in a box shape as in step 220 as shown in FIG.
また、「文字ブロック抽出ルール」は、図22のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。 Also, the “character block extraction rule” is extracted while shifting one character at a time from the upper left corner toward the lower right corner as shown in FIG.
図23は、文字ブロック抽出部320の処理を行った結果を示しており、このデータがDB問い合わせ部370に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。
FIG. 23 shows the result of processing of the character
ステップ340) DB問い合わせ部370は、図23のリストを用いてインデックスDB340に問い合わせを行う。
Step 340) The
まず、DB問い合わせ部370は、図23の各文字ブロックに対応するファイル名と出現位置を問い合わせ、問い合わせ結果を図24に示す形式で取得する。
First, the
ステップ350) 次に、DB問い合わせ部370がコンテンツDB350に対して図24の問い合わせ結果を用いて問い合わせを行う。前述の通り、コンテンツDB350には図17に示す構造でデータが格納されている。DB問い合わせ部370は、図24の各ファイル名と各出現位置の組(例えば、「vegetable3.txt」と「1行」・「3列」)を用いて、コンテンツDB350に該ファイル名と該出現位置に対応するコンテンツ・コンテンツタイプを問い合わせ、問い合わせ結果を図25に示す形式で取得し、コンテンツ・コンテンツタイプの重複数を集計して図26に示す形式に変換する。
Step 350) Next, the
ステップ360) DB問い合わせ部370は、上述の問い合わせ結果の中で、一定条件を満たすものを検索結果としてサーバ側データ送受信部360に渡す。本実施の形態においては、最も重複数の多いもの(図26では「tomato_1.mp4」・「ムービーファイル」)を検索結果としてサーバ側データ送受信部360に渡すこととする。
Step 360) The
サーバ側データ送受信部360は、DB問い合わせ部370から渡された検索結果をネットワークを通じてクライアント側データ送受信部420に渡す。
The server-side data transmission /
ステップ370) クライアント側データ送受信部420は、サーバ側データ送受信部360から渡された検索結果をコンテンツ表示部412に渡す。
Step 370) The client-side data transmission /
コンテンツ表示部412は、クライアント側データ送受信部420から渡された検索結果を、コンテンツ表示部412内部で予め設定されたコンテンツ表示手段(図27)を用いて表示する。なお、コンテンツ表示手段として、図27に示すように、テキストファイルについてはコンテンツ表示手段としてテキストビューアを用い、サウンドファイルにはサウントプレイヤを用い、ムービーファイルについてはムービープレイヤを用いるように設定されている。
The
[第3の実施の形態]
前述の第2の実施の形態のステップ310において、撮影条件が悪く(光量不足、手振れ等)ドキュメント撮影部411が撮影した画像の品質が悪い場合に、ステップ320で光学文字認識装置101が撮影画像から正確に文字を抽出できない場合がある。また、現在の技術水準においても、光学文字認識精度は100%ではないため、撮影画像の品質が良い場合でも一定確率で文字の誤認識が発生する。
[Third Embodiment]
In
本実施の形態では、上記のように光学文字認識装置101において正しく文字認識が行われない場合について述べる。
In the present embodiment, a case will be described where character recognition is not performed correctly in the optical
図28は、本発明の第3の実施の形態におけるシステム構成図である。同図に示すシステムには、サーバ部300にリージョンDB380が追加されている。なお、処理フローは第2の実施の形態と同様である。
FIG. 28 is a system configuration diagram according to the third embodiment of the present invention. In the system shown in the figure, a
まず、事前の準備として各書籍内に複数文字ブロックを含む任意の範囲を持つリージョンを定義する。ここでは、第2の実施の形態と同様に各書籍の各ページをテキストファイルに変換し、図29のように各テキストファイル内に10行程度の範囲を持つリージョンを定義し、リージョンDB380に格納する。リージョンの範囲は、「リージョン1」と「リージョン2」のように排他になるよう定義してもよいし、「リージョン3」と「リージョン4」のように一部重複して定義してもよい。
First, as a preliminary preparation, a region having an arbitrary range including a plurality of character blocks is defined in each book. Here, as in the second embodiment, each page of each book is converted into a text file, a region having a range of about 10 lines is defined in each text file as shown in FIG. 29, and stored in the
次に、図30のように各リージョンにコンテンツを関連付けてコンテンツDB350に格納する。コンテンツは、「cucumber.txt」のように同一コンテンツが複数のリージョンに関連付けられていてもよい。また、「tomato_1.mp4」と「tomato_2.mp4」のように異なるコンテンツが同一リージョンに関連付けられていてもよい。
Next, as shown in FIG. 30, each content is associated with each region and stored in the
例えば、ステップ310〜320において、ドキュメント撮影部411が図19と同じ領域を撮影したが、画像品質が悪いため、光学文字認識装置101は図20のように抽出すべきところ、図31のように抽出したとする。同図において、下線部分は誤認識文字を示す。この状況でステップ320の文字ブロック抽出部320の処理を行うと、図32のようなリストが得られる。同図において、下線部分は誤認識文字を示す。
For example, in
次に、図32のリストを利用してステップ350と同様の処理(インデックスDB問い合わせ)を行うと、DB問い合わせ部370は、問い合わせ結果を図33で示す形式で取得する。同図において、「該当なし」とは該当する文字ブロックがインデックスDB340に含まれていないことを示す。
Next, when processing similar to step 350 (index DB inquiry) is performed using the list of FIG. 32, the
ここで、DB問い合わせ部370は、図33のリスト(但し、ファイル名が「該当なし」のものは除く)を用いてリージョンDB380に問い合わせ、各ブロックと該ブロックが出現するリージョンの関係情報を図34の形式で取得し、これをリージョンごとに出現回数をカウントして図35の形式に変換する。同図において出現回数が最多のリージョンを、クライアント部400が撮影した範囲に含まれているリージョンであると特定する。ここでは、「リージョン5」が該当する。
Here, the
最後に、DB問い合わせ部370は、「リージョン5」に関連付けられたコンテンツ、コンテンツタイプをコンテンツDB350に問い合わせ、以降ステップ370と同様の処理を行うと、コンテンツ表示部412にて正しいコンテンツ(cucumber.txt)が表示される。
Finally, the
このように、内部に複数の文字ブロックを含む範囲を1つのリージョンとし、撮影画像から抽出した文字ブロック群が最も多く出現するリージョンを特定して該リージョンに関連付けられたコンテンツを検索結果とする方式により、光学文字認識の精度が悪く文字ブロックに誤認識文字が混じっている場合においても正しく検索結果を求めることができる。 As described above, a range including a plurality of character blocks inside is set as one region, a region in which the character block group extracted from the photographed image appears most frequently is specified, and content associated with the region is used as a search result. Thus, even when optical character recognition accuracy is poor and misrecognized characters are mixed in the character block, the search result can be obtained correctly.
[第4の実施の形態]
本実施の形態では、第1の実施の形態よりもインデックスサイズを小さくし、かつ検索可能領域の網羅性を大幅に低減させないように、インデックスを作成する処理について説明する。
[Fourth Embodiment]
In the present embodiment, a process for creating an index will be described so that the index size is made smaller than in the first embodiment and the completeness of the searchable area is not significantly reduced.
ここでは、1つ以上の文字からなる特定文字列を含む文字ブロックのみを用いてインデックスを作成する。以下詳細な手順を示す。 Here, an index is created using only a character block including a specific character string made up of one or more characters. The detailed procedure is shown below.
図36は、本発明の第4の実施の形態におけるインデックス作成装置の構成を示す。 FIG. 36 shows the configuration of the index creation device in the fourth embodiment of the present invention.
同図に示すインデックス作成装置は、ドキュメント入力部40、文字ブロック抽出部41、文字ブロック選別部42、インデックス出力部43、インデックスDB44、文字ブロック抽出ルール記憶部45、外部装置の特定文字列DB46から構成される。
The index creation apparatus shown in the figure includes a
入力されるドキュメント群の各ドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態では、この書籍の各ページをスキャナ(一般装置)で読み取り、図37に示すように、異なる閲覧環境(OS,PDF閲覧ソフト等)においてもレイアウトが変化しない電子ファイル(PDFファイル等)に変換する。 Each document in the input document group is assumed to be a paper medium book composed of a set of pages including characters. In this embodiment, each page of the book is read by a scanner (general apparatus), and as shown in FIG. 37, an electronic file (PDF file or the like) whose layout does not change even in different browsing environments (OS, PDF browsing software, etc.). ).
なお、図37は、文書のみからなるページの例であるが、ページには図や表などの文字以外の情報が含まれていてもよい。 Note that FIG. 37 is an example of a page made up of only documents, but the page may include information other than characters such as a figure and a table.
また、文字ブロック抽出部41、文字ブロック選別部42は、抽出した文字ブロックを格納するメモリ(図示せず)を有するものとする。
The character block extraction unit 41 and the character
外部装置である特定文字列DB46には、事前に1つ以上の文字からなる特定文字列が1つ以上登録されているものとする。検索可能領域の網羅性を大幅に低減させないためには、ドキュメント中の各領域に満遍なく出現する文字列が登録されていることが望ましく、日本語ドキュメントの場合は「の」、「は」、「が」、「。」、「、」等の助詞や句読点がこれにあたる。以降、本実施の形態では、「の」の1語が特定文字列DB46に登録されているものとして説明を行うが、その他の文字が特定文字列DB46に登録されていても構わない。
It is assumed that one or more specific character strings made up of one or more characters are registered in advance in the specific
図38は、本発明の第4の実施の形態における処理のフローチャートである。 FIG. 38 is a flowchart of processing in the fourth embodiment of the present invention.
本実施の形態における処理は、インデックス作成対象となるドキュメント群を入力する入力ステップ(ステップ410,420)、各ドキュメントの各ページから特定文字列を含む文字ブロックを抽出する文字ブロック抽出ステップ(ステップ430)、検索を実行するためのインデックスを出力する出力ステップ(ステップ440)に分けられる。
The processing in this embodiment includes an input step (
ステップ410) ドキュメント入力部40は、分析対象の各ドキュメントの各ページの入力を受け付ける。
Step 410) The
ステップ420) ドキュメント入力部40は、入力された各ページのリストを図39に示すデータ構造で文字ブロック抽出部41に渡す。リスト内の各要素は、各ページを一意に示すものとする。なお、説明の便宜上、ここでは各ページを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用しても構わない。
Step 420) The
ステップ430) 文字ブロック抽出部41は、ドキュメント入力部40から渡されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部45のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元のページにおける該文字ブロックの出現位置を関連付けて、文字ブロック選択部42に渡す。
Step 430) The character block extraction unit 41 reads each page described in the list passed from the
ここで「文字ブロック」とは、ステップ130と同じく、十字型の形状で図40のように抽出する。 Here, the “character block” is extracted in a cross shape as shown in FIG.
また、文字ブロック抽出ルール記憶部45に格納されているルールは図41のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。
Further, the rules stored in the character block extraction
また、「文字ブロックの出現位置」とは、文字ブロックがページのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、十文字型文字ブロックの上端の文字の行、列の粒度で表現することとする。 The “appearance position of the character block” is position information indicating at which position of the character block the character block appears in an arbitrary granularity depending on the purpose of the system. Here, it is expressed by the granularity of the character row and column at the upper end of the cross-shaped character block.
図42は、本発明の第4の実施の形態における文字ブロック抽出部の処理結果を示す。同図では、文字ブロック抽出部41でステップ430の処理を行った結果を示しており、このデータが文字ブロック選別部42に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。
FIG. 42 shows the processing result of the character block extraction unit in the fourth embodiment of the present invention. The figure shows the result of the processing of
ステップ440) 文字ブロック選別部42は、文字ブロック抽出部41から渡された各文字ブロックについて、特定文字列DB46に問い合わせを行い、特定文字列DB46に登録されている語(本実施の形態では「の」)を含む文字ブロックのみを選別する。
Step 440) The character
図43は、本発明の第4の実施の形態における文字ブロック選別部の処理結果を示す。同図では、文字ブロック選別部42でステップ440の処理を行った結果を示しており、このデータがインデックス出力部43に渡される。
FIG. 43 shows the processing result of the character block selection unit in the fourth embodiment of the present invention. The figure shows the result of the processing of
ステップ450) インデックス出力部43は、文字ブロック選別部42から渡された各文字ブロックを、図43のデータ構造でインデックスDB44に格納する。これにより、文字ブロックを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB44を実現する。
Step 450) The
上記のように、「の」のような網羅的に出現する文字列を含む文字ブロックのみを用いてインデックスを作成することで、インデックスのサイズを小さくし、かつ検索可能領域の網羅性を大幅に低減させずにインデックスを作成できる。 As described above, by creating an index using only character blocks that include exhaustive characters such as “no”, the size of the index can be reduced and the searchability area can be greatly covered. You can create an index without reducing it.
[第5の実施の形態]
本実施の形態では、第2の実施の形態よりもインデックスサイズを小さくし、かつ光学文字認識処理の誤認識の影響を軽減できるように、インデックスを作成する方法について言及する。
[Fifth Embodiment]
In the present embodiment, a method for creating an index will be mentioned so that the index size can be made smaller than that in the second embodiment and the influence of erroneous recognition in the optical character recognition process can be reduced.
ここでは、文字ブロックが、光学文字認識装置101が内部に保有している文字列辞書に登録されている文字列を含む場合のみ、該文字ブロックを用いてインデックスを作成する。以下、詳細な手順を示す。
Here, only when the character block includes a character string registered in the character string dictionary held in the optical
図44は、本発明の第5の実施の形態における検索システムの構成を示す。 FIG. 44 shows the configuration of the search system according to the fifth embodiment of the present invention.
同図に示すシステムにおいて、第2の実施の形態と同様の構成要素には同一符号を付し、その説明を省略する。 In the system shown in the figure, the same components as those of the second embodiment are denoted by the same reference numerals, and the description thereof is omitted.
なお、クライアント部400、外部装置(特定文字列DB103以外)の構成・動作は第2の実施の形態と同様であるので、以降の説明では詳細を省略する。
Note that the configurations and operations of the
サーバ部500は、図10の構成に文字ブロック選別部510を付加した構成である。
The
クライアント部600は、第2の実施の形態と同様である。 The client unit 600 is the same as that in the second embodiment.
外部装置は、第2の実施の形態に加え、特定文字列DB103がある。特定文字列DB103には、事前に特定文字列が登録されているものとする。光学文字認識装置101の誤認識の影響を軽減させるためには、光学文字認識装置が精度良く認識できる文字列を含む文字ブロックのみを利用することが望ましい。一般に、OCRソフトウェア等の光学文字認識装置101は内部に文字列辞書を保有しており、当該文字列辞書に登録されている語はそうでない語よりも精度良く認識できる。そこで、本実施の形態では、光学文字認識装置101が内部に図45のような文字列辞書を保有しており、当該辞書と同一内容が指示文字列DB103にも登録されているものとする。
The external device includes a specific
ドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態でドキュメント読み取り装置101に入力されるドキュメント群200を構成している各ページ及びクライアント部400に入力されるドキュメントページ201の例を図46に示す。
The document is a paper medium book composed of a set of pages including characters. FIG. 46 shows an example of each page constituting the
ドキュメント読み取り装置101は、サーバ部500のデータ入力部510に接続されている。光学文字認識装置101は、サーバ側データ送受信部360に接続されている。
The
本実施の形態では、
(1)サーバ部500においてインデックスを作成する作業;
(2)クライアント部400からサーバ部500に問い合わせる作業;
を行う。
In this embodiment,
(1) Work of creating an index in the
(2) Work to inquire the
I do.
(1)サーバ部500においてインデックスを作成する作業:
図47は、本発明の第5の実施の形態におけるサーバ部でインデックスを作成する処理のフローチャートである。以下では、インデックス作成対象となるドキュメントを入力する入力ステップ(ステップ510,520)、各ドキュメントの各ページ内から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ530)、特定文字列DBに登録されている語を含む文字ブロックを選択する文字ブロック選別ステップ(ステップ540)、検索を実行するためのインデックを出力する出力ステップ(ステップ550)を行う。
(1) Creating an index in the server unit 500:
FIG. 47 is a flowchart of processing for creating an index in the server unit according to the fifth embodiment of the present invention. In the following, an input step (
ステップ510) ドキュメント群200の各ドキュメントの各ページを、ドキュメント読み取り装置101で読み取り、データ入力部310に渡す。ここで、ドキュメント読み取り装置101は、紙媒体に印刷されたテキストを読み取ってPDFファイルに変換する一般装置であり、OCR機能付スキャナ等がこれに該当する。ここでは、各ページ中のテキストは紙媒体に印刷された状態における改ページ位置、改行位置が保持されたままPDFファイルに変換されるものとする。
Step 510) Each page of each document in the
ステップ520) データ入力部510は、ドキュメント読み取り装置101から渡されたPDFファイル群を読み込み、図39に示すデータ構造でリスト化して、サーバ部500の文字ブロック抽出部320に渡す。なお、説明の便宜上、ここでは、各ページを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用しても構わない。
Step 520) The
ステップ530) サーバ部500の文字ブロック抽出部320は、データ入力部310から渡されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部321のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元ページのファイル名と該ページにおける該文字ブロックの出現位置を関連付けて、文字ブロック選別部510に渡す。
Step 530) The character
ここで「文字ブロック」は、ステップ130と同様に十字型の形状で図40のように抽出する。 Here, the “character block” is extracted in a cross shape as shown in FIG.
また、「文字ブロック抽出ルール」は、図41のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。 Also, the “character block extraction rule” is extracted while shifting one character at a time from the upper left corner toward the lower right corner as shown in FIG.
図42に文字ブロック抽出部320の処理結果を示す。同図では、文字ブロック抽出部320でステップ530の処理を行った結果を示しており、このデータが文字ブロック選別部510に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。
FIG. 42 shows the processing result of the character
ステップ540) 文字ブロック選別部510は、文字ブロック抽出部320から渡された各文字ブロックについて、特定文字列DB103に問い合わせを行い、特定文字列DB103に登録されている語を含む文字ブロックのみを選別する。
Step 540) The character
図48は、本発明の第5の実施の形態における文字ブロック選別部の処理結果を示す。同図では、文字ブロック選別部510でステップ540の処理を行った結果を示しており、このデータがインデックス出力部330に渡される。
FIG. 48 shows the processing result of the character block selection unit in the fifth embodiment of the present invention. The figure shows the result of the processing of
ステップ550) インデックス出力部330は、文字ブロック選別部510から渡された各文字ブロックを、図48のデータ構造でインデックスDB54に格納する。これにより、文字ブロックを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB340を実現する。
Step 550) The
なお、サーバ部500のコンテンツDB350及び、(2)クライアント部400からサーバ部500に問い合わせる作業は、第2の実施の形態と同様であるので、その説明を省略する。
Note that the
[第6の実施の形態]
本実施の形態では、第2の実施の形態よりもインデックスサイズを小さくし、かつ、光学文字認識処理の誤認識の影響を軽減し、かつ、ドキュメント中のどの位置にインデックスが作成されているかクライアント部を利用するユーザに分かりやすいように、ドキュメント及びインデックスを作成する方法について説明する。
[Sixth Embodiment]
In the present embodiment, the index size is made smaller than in the second embodiment, the influence of erroneous recognition in the optical character recognition process is reduced, and the position in the document where the index is created is the client. A method for creating a document and an index will be described so that the user who uses the section can easily understand.
具体的には、第5の実施の形態において、特定文字列DB103及びドキュメントを以下のように変更する。
Specifically, in the fifth embodiment, the specific
特定文字列DB103には、事前に特定文字列が登録されているものとする。光学文字認識装置101の誤認識の影響を軽減させるためには、光学文字認識装置が精度良く認識できる文字列のみを含む文字ブロックのみを利用することが望ましい。一般に、OCR、ソフトウェア等の光学文字認識装置は、「▼(逆三角形)」のようなシンプルな形状であり、かつ類似する文字が少ない文字ほど精度良く認識できる。ここでは、特定文字列DB103に「▼」が登録されているとする。なお、本実施の形態では、「▼」のみが登録されているとして以降の説明を行うが、「■」、「●」等の文字が登録されていてもよい。また、所定の出現頻度以下(例えば文書中の出現頻度が2回以下)文字を特定文字列としてもよい。
It is assumed that a specific character string is registered in advance in the specific
ドキュメントは図49に示すように、複数のページからなり、各ページに複数行の文字列を含む紙媒体とし、特定文字列をインデックスを作成したい書籍位置に記載して作成する。もしくは、既存のドキュメント中の各書籍位置に初めから記載されていた文字を特定文字列とみなしてもよい。ここでは、特定文字列として、「▼」を用いる。この文字は通常の文章中に頻出する文字ではないので、クライアント部400を利用するユーザに対して、インデックス作成箇所の目印になる。また、図50のように、ドキュメント内に複数のQRコード(二次元コード)が存在する場合と比べ、1文字で表現できる「▼」は、ドキュメント内で占有する面積が少なくて済む。なお、本実施の形態では、「▼」のみを特定文字列とするが、「■」「●」等を特定文字列としてもよい。
As shown in FIG. 49, the document is made up of a plurality of pages, a paper medium including a plurality of lines of character strings on each page, and a specific character string is written at a book position where an index is to be created. Or you may consider the character described from the beginning in each book position in the existing document as a specific character string. Here, “▼” is used as the specific character string. Since this character is not a character that appears frequently in normal sentences, it becomes a mark for creating an index for a user who uses the
以降の処理は、第5の実施の形態と同様であるので、その説明を省略する。 Since the subsequent processing is the same as that of the fifth embodiment, the description thereof is omitted.
[第7の実施の形態]
本実施の形態では、検索装置に含まれる、検索を実行するためのインデックスを作成する部分(インデックス作成装置)についてのみ言及する。
[Seventh embodiment]
In the present embodiment, only a part (index creation device) that creates an index for executing a search included in the search device will be described.
図51は、本発明の第7の実施の形態におけるインデックス作成装置の構成を示す。同図に示すインデックス作成装置は、ドキュメント入力部1010、基本文字列抽出部1011、周辺文字列抽出部1012、インデックス出力部1013、インデックスDB1014から構成される。
FIG. 51 shows the configuration of the index creation device in the seventh embodiment of the present invention. The index creation apparatus shown in FIG. 1 includes a
ドキュメントは、図52に示すように、複数のページからなり、各ページに複数行の文字列を含み、異なる閲覧環境(OS,PDF閲覧ソフト等)においても文章の改行位置が変化しない電子ファイル(PDFファイル等)とする。なお、図52は文章のみからなるドキュメントの例であるが、ドキュメントには図や表などの文字以外の情報が含まれていてもよい。 As shown in FIG. 52, the document is composed of a plurality of pages, each page includes a plurality of lines of character strings, and an electronic file in which the line break position of the sentence does not change even in different browsing environments (OS, PDF browsing software, etc.) PDF file). Note that FIG. 52 is an example of a document consisting only of text, but the document may include information other than characters such as a figure and a table.
また、基本文字列抽出部1011と周辺文字列抽出部1012は抽出した文字列を格納するメモリ(図示せず)を有するものとする。
The basic character
以下に、本実施の形態における処理フローを示す。 The processing flow in the present embodiment is shown below.
図53は、本発明の第7の実施の形態における処理のフローチャートである。 FIG. 53 is a flowchart of processing in the seventh embodiment of the present invention.
ステップ1001) ドキュメント入力部1010は、分析対象のドキュメント群の入力を受け付ける。
Step 1001) The
ステップ1002) ドキュメント入力部1010は、該ドキュメント群に含まれるドキュメントのリストを図54に示すデータ構造で基本文字列抽出部1011に渡す。リスト内の各要素は、各ドキュメントを一意に示すものとする。なお、説明の便宜上、ここでは各ドキュメントを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ドキュメントを一意に識別できる情報であれば他の情報を利用しても構わない。
Step 1002) The
ステップ1003) 基本文字列抽出部1011は、ドキュメント入力部1010から渡されたリストに記載されている各ドキュメントを読み込み、各ドキュメントから基本文字列群を抽出し、各基本文字列の抽出元ドキュメントのファイル名と該ドキュメントにおける該基本文字列の出現位置を関連付けて、周辺文字列抽出部1012に渡す。ここで、「基本文字列」とは、文字列分割手法を用いて文章を特定の単位に分割したものである。例えば、形態素解析を用いて文章を単語単位に分割したもの、あるいは、N-gram法を用いて文章をN文字(あるいはN単語)の連なりに分割したものがあげられる。ここでは、図55のように、文字の2−gram方式で分割を行うものとする。また、「基本文字列の出現位置」とは、基本文字列がドキュメントのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、ページ、行、列の粒度で表現することとする。
Step 1003) The basic character
図56は、本発明の第7の実施の形態における基本文字列抽出部の処理結果を示す。同図では、基本文字列抽出部1011でステップ1003の処理を行った結果を示しており、このデータが周辺文字列抽出部1012に渡される。
FIG. 56 shows the processing result of the basic character string extraction unit in the seventh embodiment of the present invention. The figure shows the result of the processing in step 1003 performed by the basic character
ステップ1004) 周辺文字列抽出部1012は、基本文字列抽出部1011から渡された各基本文字列をメモリ(図示せず)に格納し、当該基本文字列の周辺文字列群を抽出し、該基本文字列と該周辺文字列群を関連付けてメモリ(図示せず)に格納し、インデックス出力部1013に渡す。ここでは、図57に示すように、各基本文字列の1文字目の上・左、下の各1文字を周辺文字列とする。なお、基本文字列の上・左・下だけでなく、上・左上・左・左下・下・右下・右・右上等、基本文字列の周辺に位置する他の文字列を利用しても構わない。
Step 1004) The peripheral character
図58は、本発明の第1の実施の形態における周辺文字列抽出部の処理結果を示す。同図では、周辺文字列抽出部1012でステップ1004の処理を行った結果を示しており、このデータがインデックス出力部1013に渡される。
FIG. 58 shows the processing result of the surrounding character string extraction unit in the first embodiment of the present invention. In the figure, the result of the processing in
ステップ1005) インデックス出力部1013は、周辺文字列抽出部1012から渡された各基本文字列と周辺文字列が関連付けられたものを、図58のデータ構造でインデックスDB1014に格納する。これにより、基本文字列及び周辺文字列の組み合わせを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB1014を実現する。
Step 1005) The
上記のように、ドキュメントのインデックスを作成する際に、文字・単語の前後の連なりだけでなく、ユーザがドキュメントを閲覧する際のドキュメント(印刷物、PDFファイル等)における文字の位置関係に着目し、基本文字列とその周辺文字列を関連付けてインデックスのキーとすることにより、各ドキュメントに固有になりやすい文字列パターンを、少ない文字数で表現できるため、識別能力が高く、ロバスト性が高いインデックスを実現できる。 As described above, when creating a document index, not only the sequence of characters and words, but also the positional relationship of characters in the document (printed material, PDF file, etc.) when the user views the document, By associating the basic character string and the surrounding character string and using it as an index key, the character string pattern that tends to be unique to each document can be expressed with a small number of characters, thus realizing an index with high identification capability and high robustness. it can.
[第8の実施の形態]
図59は、本発明の第8の実施の形態における検索システムの構成図である。
[Eighth Embodiment]
FIG. 59 is a block diagram of the search system in the eighth embodiment of the present invention.
同図に示すシステムは、大きく分けてサーバ部1、クライアント部3、外部装置からなる。
The system shown in the figure is roughly divided into a
サーバ部1は、データ入力部20、基本文字列抽出部21、周辺文字列抽出部22、インデックス出力部23、インデックスDB24,コンテンツDB25,サーバ側データ送受信部26、DB問い合わせ部27からなる。
The
クライアント部3は、クライアント側デバイス30、クライアント側デバイス30を構成するドキュメント撮影部31、クライアント側デバイス30を構成するコンテンツ表示部32、クライアント側データ送受信部33からなる。
The
外部装置は、ドキュメント読み取り装置100、光学文字認識装置101からなる。本実施の形態でドキュメント読み取り装置100に入力されるドキュメント群200、クライアント部3に入力されるドキュメントページ201の例を図60に示す。ドキュメントは、同図に示すように、複数のページからなり、各ページに複数行の文字列を含む紙媒体とする。
The external device includes a
ドキュメント読み取り装置100は、サーバ部1のデータ入力部20に接続されている。光学文字認識装置101はサーバ側データ送受信部26に接続されている。
The
本実施の形態では、
(1)サーバ部1においてインデックスを作成する作業;
(2)クライアント部3からサーバ部1に問い合わせる作業;
を行う。
In this embodiment,
(1) Work to create an index in the
(2) Work for inquiring the
I do.
(1)サーバ部1においてインデックスを作成する作業:
当該処理は、前述の第7の実施の形態におけるインデックス作成装置に相当する。
(1) Work to create an index in the server unit 1:
This process corresponds to the index creation device in the seventh embodiment described above.
図61は、本発明の第8の実施の形態におけるサーバ側の処理のフローチャートである。 FIG. 61 is a flowchart of processing on the server side according to the eighth embodiment of the present invention.
ステップ2001) ドキュメント群200は、図60のように、複数のページからなり、各ページに複数行の文字列を含む紙媒体の書籍群とする。各書籍には、それぞれを一意に識別できる書名が付いているものとする。なお、説明の便宜上、ここでは各ドキュメントを一意に示す情報として書名を用いているが、書籍のISBN等、ドキュメントを一意に識別できる情報であれば他の情報を利用してもよい。
Step 2001) As shown in FIG. 60, the
ドキュメント読み取り装置100は、紙媒体に印刷されたテキストを読み取ってテキストファイルに変換する一般装置であり、OCR機能付きスキャナ等がこれに該当する。ここでは、ドキュメント中のテキストは紙媒体に印刷された状態における改ページ位置、改行位置が保持されたままテキストファイルに変換されるものとする。
The
ステップ2002) データ入力部20は、ドキュメント読み取り装置100から渡されたテキストファイル群を読み込み、図62に示すデータ構造でリスト化して、サーバ1の基本文字列抽出部21に渡す。
Step 2002) The data input unit 20 reads the text file group passed from the
ステップ2003) サーバ1の基本文字列抽出部21は、データ入力部20から渡されたリストに記載されている各ドキュメントを読み込み、各ドキュメントから基本文字列群を抽出し、各基本文字列の抽出元ドキュメントのテキストファイル名と該ドキュメントにおける該基本文字列の出現位置を関連付けて、周辺文字列抽出部22に渡す。
Step 2003) The basic character
ここで、「基本文字列」とは、文字列分割手法を用いて文章を特定の単位に分割したものである。例えば、形態素解析を用いて文章を単語単位に分割したもの、あるいは、N-gram法を用いて文章をN文字(あるいはN単語)の連なりに分割したものがあげられる。ここでは、図63のように文字の2-gram方式で分割を行うものとする。 Here, the “basic character string” is a sentence divided into specific units using a character string dividing method. For example, the sentence is divided into words using morphological analysis, or the sentence is divided into a series of N characters (or N words) using the N-gram method. Here, it is assumed that the character is divided by the 2-gram method as shown in FIG.
「基本文字列の出現位置」とは、基本文字列がドキュメントのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、ページ、行、列の粒度で表現することとする。 The “appearance position of the basic character string” is position information indicating at which position in the document the basic character string appears in an arbitrary granularity according to the purpose of the system. Here, the page, row, and column granularity are used.
図64に示すのは、基本文字列抽出部21にて上記の処理を行った結果であり、このデータが周辺文字列抽出部22に渡される。
FIG. 64 shows the result of the above processing performed by the basic character
ステップ2004) 周辺文字列抽出部22は、基本文字列抽出部21から渡された基本文字列(図64)について、該基本文字列の周辺文字列群を抽出し、該基本文字列と該周辺文字列群を関連付けて、インデックス出力部23に渡す。ここでは、図65に示すように、各基本文字列の1文字目の上・左・下の各1文字を周辺文字列とする。なお、基本文字列の上・左・下だけでなく、上・左上・左・左下・下・右下・右・右上等、基本文字列の周辺に位置する他の文字列を利用しても構わない。
Step 2004) The peripheral character
図66は、本発明の第8の実施の形態における周辺文字列抽出部の処理結果を示す。同図に示すデータがインデックス出力部23に渡される。
FIG. 66 shows the processing result of the surrounding character string extraction unit in the eighth embodiment of the present invention. The data shown in the figure is passed to the
ステップ2005) インデックス出力部23は、周辺文字列抽出部22から渡された各基本文字列と周辺文字列が関連付けられたものを、図66のデータ構造でインデックスDB24に格納する。
Step 2005) The
なお、サーバ1のコンテンツDB25には、書籍出版社、あるいは、一般ユーザが作成した、各書籍内の各位置(ページ、行、列等)に関係したコンテンツ及び該コンテンツに関する情報を格納しておく。コンテンツ及び該コンテンツに関する情報をコンテンツDB25に格納するために格納作業専用端末を用意してもよいし、格納作業用Webアプリケーションを用意して不特定多数のユーザがWebブラウザを通じて自由にコンテンツ及び該コンテンツに関する情報を格納できるようにしてもよい。コンテンツの例としては、観光名所案内であれば各地を訪れた旅行者の体験談、化学教科書であれば化学実験映像等が挙げられる。ここでは、サーバ1上のデータ格納領域にコンテンツの実体を格納し、図67に示すデータ構造でコンテンツと各書籍内の各位置の関係を格納する。
The
(2)クライアント部3からサーバ部1に問い合わせる作業:
図68は、本発明の第8の実施の形態におけるクライアント部からサーバ部に問い合わせる処理のフローチャートである。
(2) Inquiry from the
FIG. 68 is a flowchart of processing for inquiring from the client unit to the server unit according to the eighth embodiment of the present invention.
ステップ3001) ドキュメントページ201は、ドキュメント群200に含まれる1件の書籍の1ページである。クライアント側デバイス30は、ドキュメント撮影部31、コンテンツ表示部32からなる。
Step 3001) The
ドキュメント撮影部31は、ドキュメントページ201の全体、または一部分を光学的に撮影して、撮影内容を画像ファイルとして保存し、クライアント側データ送受信部33に渡す。ここでは、図69に示すドキュメントページの一部分が撮影され、図70に示す画像ファイルが作成されたとする。
The
クライアント側データ送受信部33は、ドキュメント撮影部31から渡された画像ファイルをネットワークを通じてサーバ部1のデータ送受信部26に渡す。
The client side data transmitting / receiving
ステップ3002) サーバ側データ送受信部26は、光学文字認識装置101を利用して、クライアント側データ送受信部33から渡された画像ファイルから図71に示すテキストデータを抽出し、基本文字列抽出部21に渡す。なお、光学文字認識装置101は、一般的なOCRソフトウェア等であり、文字が撮影されたが画像から文字情報を抽出し、テキストデータとしてコンピュータが利用できる形式に変換する一般装置である。
Step 3002) The server-side data transmitting / receiving
ステップ3003) 基本文字列抽出部21は、サーバ側データ送受信部26から渡されたテキストデータを読み込み、テキストデータにおける最初の行、最後の行、最初の列、最後の列を除く部分(図72の点線で囲まれた部分)から、図73のように文字の2-gram方式で分割を行う方式で基本文字列を抽出し、図74に示すデータ構造で周辺文字列抽出部22に渡す。
Step 3003) The basic character
ステップ3004) 周辺文字列抽出部22は、基本文字列抽出部21から渡された各基本文字列について、該基本文字列の周辺文字列群を抽出し、該基本文字列と該周辺文字列群を関連付けて、DB問い合わせ部27に渡す。ここでは、図75に示すように、各基本文字列の1文字目の上・左・下の各1文字を周辺文字列とする。
Step 3004) The peripheral character
ステップ3005) DB問い合わせ部27は、図76に示すような周辺文字列抽出部22から渡された基本文字列と周辺文字列が関連付けられたデータを用いて、インデックスDB24及びコンテンツDB25に問い合わせを行う。
Step 3005) The
まず、DB問い合わせ部27がインデックスDB24に対して問い合わせを行う。前述のとおり、インデックスDB24には、図66に示す構造でデータが格納されている。
First, the
DB問い合わせ部27は、図76の基本文字列と各周辺文字列の組(例:「北東」と「名」「ツ」「ば」)を用いて、インデックスDB24に該基本文字列と該周辺文字列の組に対応するファイル名と出現位置を問い合わせ、問い合わせ結果を図77で示す形式で取得する。
The
ステップ3006) 次に、DB問い合わせ部27がコンテンツDB25に対して、上述の問い合わせ結果(図77)を用いて問い合わせを行う。前述のとおり、コンテンツDB25には、図67に示すデータ構造でデータが格納されている。DB問い合わせ部27は、図77の各ファイル名と各出現位置の組(例:「Germany_1.txt」と「1ページ2行7列目」)を用いて、コンテンツDB25に該ファイル名と該出現位置に対応するコンテンツタイプを問い合わせ、問い合わせ結果を図78に示す形式で取得し、コンテンツ・コンテンツタイプの組の重複を削除して図79に示す形式に変換する。
Step 3006) Next, the
ステップ3007) DB問い合わせ部27は、上述の問い合わせ結果(図79)をサーバ側データ送受信部26に渡す。
Step 3007) The
サーバ側データ送受信部26は、DB問い合わせ部27から渡されたデータ(コンテンツとコンテンツタイプ)(図79)をネットワークを通じてクライアント側データ送受信部33に渡す。
The server-side data transmission /
ステップ3008) クライアント側データ送受信部33は、サーバ側データ送受信部26から渡されたデータ(図79)をコンテンツ表示部32に渡す。
Step 3008) The client-side data transmission /
コンテンツ表示部32は、クライアント側データ送受信部33から渡されたデータ(図76)を、コンテンツ表示部32内部で予め設定されたコンテンツ表示手段(図80)を用いて表示する。
The content display unit 32 displays the data (FIG. 76) passed from the client-side data transmission /
[第9の実施の形態]
前述の第8の実施の形態のステップ3001において、撮影条件が悪く(光量不足、手ぶれ等)ドキュメント撮影部31が撮影した画像に品質が悪い場合に、ステップ3002で光学文字認識装置101が撮影画像から正確に文字を抽出できない場合がある。また、現在の技術水準においても、光学文字認識の精度は100%ではないため、撮影画像の品質が良い場合でも、一定確率で文字の誤認識が発生する。光学文字認識装置101において正しく文字認識が行われない場合、その誤った文字データに基づいてステップ3005,3006でDB問い合わせ部27がインデックスDB24及びコンテンツDB25に問い合わせを行っても、撮影したドキュメントの位置に関連付けられたコンテンツは得られない。
[Ninth Embodiment]
In step 3001 of the above-described eighth embodiment, when the shooting conditions are bad (insufficient light quantity, camera shake, etc.) and the quality of the image shot by the
本実施の形態では、このような画像品質が悪い状態でも正しい検索結果が得られるようにする例を説明する。 In the present embodiment, an example will be described in which a correct search result is obtained even in such a state where the image quality is poor.
例えば、ドキュメント撮影部31が図70に示す領域を撮影したが、画像品質が悪いため、光学文字認識装置101は、図71のように抽出すべきところ、図81のように抽出したとする。この状況でステップ3001〜3004を行い、図82に示す基本文字列・周辺文字列の組が得られたとする。
For example, it is assumed that the
次に、ステップ3005において、DB問い合わせ部27がコンテンツDB25に対して、図82の基本文字列と周辺文字列の組を用いて問い合わせを行う。但し、図82の問い合わせ結果には誤認識された文字による誤ったデータが含まれているため、図38のデータを用いてコンテンツDB25に問い合わせた結果は、図82のように該当するデータが見つからなかったり、他のファイル名、出現位置を取得してしまったり(例えば、図83最下行)する。
Next, in
この問題を第8の実施の形態におけるステップ3006を図84に示す処理を行うことで解決する。図84に示すステップ4006,4007のようにすることで、ステップ3001においてドキュメント撮影部31の撮影画像の品質が悪い場合、あるいは、ステップ3002において光学文字認識装置101の認識精度が悪い場合にも対応できる。
This problem is solved by performing the process shown in FIG. 84 at step 3006 in the eighth embodiment. 84, when the quality of the captured image of the
図84は、本発明の第9の実施の形態における処理のフローチャートである。 FIG. 84 is a flowchart of processing in the ninth embodiment of the present invention.
以下では、図68のステップ3006,3007の代わりにステップ4006,4007のみ示し、他のステップは図68の処理と同様であるため、その説明を省略する。
In the following, only steps 4006 and 4007 are shown instead of
ステップ4006) DB問い合わせ部27がコンテンツDB25に対して、上述の問い合わせ結果(図83)を用いて問い合わせを行う。DB問い合わせ部27は図83の各ファイル名と各出現位置の組(ただし、該等データなしのものを除く)を用いて、コンテンツDB25に該ファイル名と該出現位置に対応するコンテンツとコンテンツタイプを問い合わせ、問い合わせ結果を図85に示す形式で取得し、コンテンツ・コンテンツタイプの組の重複数を集計して図86に示す形式に変換する。
Step 4006) The
ステップ4007) DB問い合わせ部27は、上述の問い合わせ結果(図86)のうち、複数の異なるコンテンツが存在する場合は重複数が最大のもの(この例では重複数5件のNarrative_1.txt)をサーバ側データ送受信部26に渡す。
Step 4007) The
サーバ側データ送受信部26は、DB問い合わせ部27から渡されたデータ(図79)をネットワークを通じてクライアント側データ送受信部33に渡す。
The server-side data transmission /
上記の処理を行った後、図68のステップ3008を行うことで、コンテンツ表示部32にて正しいコンテンツが表示される。
After performing the above processing, the correct content is displayed on the content display unit 32 by performing
上記のように、第1〜第9の実施の形態により、書籍等のレイアウトが特定されたコンテンツの全体ではなく、一部の上方の文字列配置を用いて、どのコンテンツのどの部分であるかを特定することができる。また、文字を読む方向以外の方向で、文字列を組み合わせてインデックスを作成することにより、少ない文字数で検索結果の誤り率を低く抑えることが可能となる。また、コンテンツ全体ではなく、一部の情報のみを用いて特定を行うため、コンテンツの位置特定粒度(ページ単位ではなく、行単位など)小さくすることもできるため、厳密な位置を特定することができる。 As described above, according to the first to ninth embodiments, which part of which content is not the whole content whose layout such as a book is specified, but a part of the upper character string arrangement. Can be specified. Also, by creating an index by combining character strings in directions other than the direction of reading characters, it is possible to reduce the error rate of search results with a small number of characters. In addition, since the specification is performed using only a part of the information, not the entire content, the content position specifying granularity (such as a line unit, not a page unit) can be reduced. it can.
なお、図3,51、に示すインデックス作成装置、図10、44,59に示すサーバ部及びクライアント部の構成要素の動作をプログラムとして構築し、インデックス作成装置、サーバ部、クライアント部として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 The operation of the components of the index creation device shown in FIGS. 3 and 51 and the server unit and client unit shown in FIGS. 10, 44 and 59 is constructed as a program and used as the index creation device, server unit, and client unit. It can be installed in a computer and executed, or distributed via a network.
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
1 サーバ部
3 クライアント部
10 ドキュメント入力手段、ドキュメント入力部
11 文字ブロック抽出手段、文字ブロック抽出部
12 インデックス出力手段、インデックス出力部
13 インデックス記憶手段、インデックスDB
14 文字ブロック抽出ルール記憶部
20 データ入力部
21 基本文字列抽出部
22 周辺文字列抽出部
23 インデックス出力部
24 インデックスDB
25 コンテンツDB
26 サーバ側データ送受信部
27 DB問い合わせ部
30 クライアント側デバイス
31 ドキュメント撮影部
32 コンテンツ表示部
33 クライアント側データ送受信部
40 ドキュメント入力部
41 文字ブロック抽出部
42 文字ブロック選別
43 インデックス出力部
44 インデックスDB
46 特定文字列DB
100 ドキュメント読み取り装置
101 光学文字認識装置
103 特定文字列DB
200 ドキュメント群
201 ドキュメントページ
300 サーバ部
310 データ入力部
320 文字ブロック抽出部
321 文字ブロック抽出ルール記憶部
330 インデックス出力部
340 インデックスDB
350 コンテンツDB
360 サーバ側データ送受信部
370 DB問い合わせ部
400 クライアント部
410 クライアント部
411 ドキュメント撮影部
412 コンテンツ表示部
420 クライアント側データ送受信部
500 サーバ部
510 文字ブロック選別部
1010 ドキュメント入力部
1011 基本文字列抽出部
1012 周辺文字列中sh通部
1013 インデックス出力部
1014 インデックスDB
DESCRIPTION OF
14 character block extraction rule storage unit 20
25 Content DB
26 server-side data transmission /
46 Specific character string DB
100
200
350 Content DB
360 Server-side data transmission /
Claims (22)
インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段と、
ドキュメントの全体または一部領域から、文章を読む方向とそれに直交する方向を考慮した規定の形状内にある1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出手段と、
前記文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力手段と、
を有することを特徴とする検索装置。 Create a search index for responding to a search request to obtain a document in which the area appears and a position in the document by using a partial area in the document in which the page break or line break position is fixed as a search query. A search device to perform,
A document input means for accepting input of documents to be indexed;
A character block extracting means for extracting a character block consisting of a combination of one or more characters in a prescribed shape taking into account the direction in which the text is read and the direction orthogonal thereto, from the whole or a partial area of the document;
Index output means for associating the character block with an appearance position in the document in which the character block appears, and outputting to the index storage means;
A search device comprising:
請求項1記載の検索装置。 The search device according to claim 1, further comprising a character block selection unit that selects only one character string including one or more specific character strings from the character blocks and sets a target for subsequent processing.
予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする
請求項2記載の検索装置。 The specific character string is
The search device according to claim 2, wherein the character string includes one or more characters that uniformly appear in each area of the document to be analyzed specified in advance.
請求項1記載の検索装置。 The search unit further includes a search unit that aggregates a range including a plurality of character blocks existing in a document as a region as a single search result candidate, and specifies a search result candidate region group that satisfies a certain criterion as a search result. The described search device.
同一コンテンツが関連付けられた位置群を同一の検索結果候補として集計を行い、集計結果が一定基準を満たす検索結果候補群を検索結果として特定する検索手段を更に有する
請求項1記載の検索装置。 If the content associated with a specific location in the document is a search result candidate,
The search device according to claim 1, further comprising: a search unit that counts a group of positions associated with the same content as the same search result candidate, and specifies a search result candidate group that satisfies a certain criterion as a search result.
請求項2記載の検索装置。 The search device according to claim 2, wherein the specific character string is acquired with reference to a recognition dictionary storage unit used by an optical character recognition device that extracts character information from an image of a character photographed .
予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする
請求項2記載の検索装置。 The specific character string is
The search device according to claim 2, wherein the character string is one or more characters that do not appear more than a predetermined number of times in a document to be analyzed specified in advance.
予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする
請求項2記載の検索装置。 The specific character string is
The search device according to claim 2, wherein the search device is a character string of one or more characters composed of characters having a simple shape designated in advance.
前記検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出手段と、
前記クエリ文字ブロックに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索手段と、
を更に有し、
前記検索手段は、
前記クエリ文字ブロックに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する
請求項1記載の検索装置。 An input means for accepting a partial area in a document as a search query;
Query character block extraction means for extracting a query character block consisting of a combination of one or more characters from the search query;
Search means for searching the index storage means based on the query character block and outputting the search results;
Further comprising
The search means includes
The search device according to claim 1, wherein the index storage unit is searched based on the query character block and the search result is output.
あるドキュメント内の一部領域を撮影した画像を、一般的な光学文字認識装置を用いて該画像に写っている文字列をテキストデータに変換した検索クエリを受け付ける手段を含む
請求項9記載の検索装置。 Before fill power means,
The search according to claim 9, further comprising means for receiving a search query obtained by converting an image obtained by capturing a partial area in a document into text data using a general optical character recognition device. apparatus.
請求項9記載の検索装置。 The search device according to claim 9, further comprising means for outputting the search result document and the content associated with the position in the document together with the search result or independently.
請求項9記載の検索装置。 The search device according to claim 9 , further comprising a query character block selecting unit that selects only those including one or more specific character strings from the query character blocks to be processed later.
請求項12記載の検索装置。 The search device according to claim 12, wherein a character string of one or more characters registered in a recognition dictionary used by the optical character recognition device is set as a specific character string.
予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする
請求項12記載の検索装置。 The specific character string is
The search device according to claim 12, wherein the character string includes one or more characters that uniformly appear in each area of a document to be analyzed specified in advance.
予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする
請求項12記載の検索装置。 The specific character string is
The search device according to claim 12, wherein the character string is one or more characters that do not appear more than a predetermined number of times in a document to be analyzed specified in advance.
予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする
請求項12記載の検索装置。 The specific character string is
The search device according to claim 12, wherein the search device is a character string of one or more characters composed of characters of a simple shape designated in advance.
ドキュメント入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップと、
文字ブロック抽出手段が、ドキュメントの全体または一部領域から、文章を読む方向とそれに直交する方向を考慮した規定の形状内にある1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出ステップと、
インデックス出力手段が、前記文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップと、
を行うことを特徴とする検索方法。 Create a search index for responding to a search request to obtain a document in which the area appears and a position in the document by using a partial area in the document in which the page break or line break position is fixed as a search query. A search method in a device for performing
A document input means for receiving an input of a document to be indexed, and a document input step;
Character block extraction means for extracting a character block consisting of a combination of one or more characters within a specified shape taking into account the direction in which the text is read and the direction orthogonal thereto, from the whole or a partial area of the document Steps,
An index output means for associating the character block with an appearance position in the document in which the character block appears, and outputting to the index storage means;
The search method characterized by performing.
クエリ文字ブロック抽出手段が、前記検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出ステップと、
検索手段が、前記クエリ文字ブロックに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、
を更に行う請求項17記載の検索方法。 An input step in which the input means accepts a partial area in a document as a search query;
A query character block extracting means for extracting a query character block consisting of a combination of one or more characters from the search query;
A search means for searching the index storage means based on the query character block and outputting the search results;
18. The search method according to claim 17, further comprising:
請求項17記載の検索方法。 18. The search method according to claim 17, wherein the character block selection means further performs a character block selection step to be processed later after selecting only the character block including one or more specific character strings.
請求項19記載の検索方法。 The search method according to claim 19, wherein the specific character string is a character string of one or more characters that uniformly appears in each region of a document to be analyzed specified in advance.
請求項18記載の検索方法。 19. The search according to claim 18, wherein the query character block selection means further selects only a query character block that includes one or more specific character strings from the query character blocks, and further performs a query character block selection step to be processed thereafter. Method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009289788A JP5384315B2 (en) | 2009-08-04 | 2009-12-21 | SEARCH DEVICE, METHOD, AND PROGRAM |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009181819 | 2009-08-04 | ||
JP2009181819 | 2009-08-04 | ||
JP2009289788A JP5384315B2 (en) | 2009-08-04 | 2009-12-21 | SEARCH DEVICE, METHOD, AND PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011054148A JP2011054148A (en) | 2011-03-17 |
JP5384315B2 true JP5384315B2 (en) | 2014-01-08 |
Family
ID=43943036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009289788A Active JP5384315B2 (en) | 2009-08-04 | 2009-12-21 | SEARCH DEVICE, METHOD, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5384315B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013205943A (en) * | 2012-03-27 | 2013-10-07 | Sony Corp | Information processing apparatus, information processing method, program, and terminal |
CN109918594B (en) * | 2019-01-25 | 2023-12-05 | 深圳市元征科技股份有限公司 | Information display method and device |
JP7264240B2 (en) * | 2019-04-19 | 2023-04-25 | 日本電気株式会社 | Ordinal isomorphic matching device, ordinal isomorphic matching method, and program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0678119A (en) * | 1992-08-24 | 1994-03-18 | Nissin Electric Co Ltd | Picture filing device and picture reading and processing device |
JPH0991305A (en) * | 1995-09-27 | 1997-04-04 | Canon Inc | Method and device for information processing |
JP2002197104A (en) * | 2000-12-27 | 2002-07-12 | Communication Research Laboratory | Device and method for data retrieval processing, and recording medium recording data retrieval processing program |
JP4474231B2 (en) * | 2004-08-10 | 2010-06-02 | 日立オムロンターミナルソリューションズ株式会社 | Document link information acquisition system |
JP2006072520A (en) * | 2004-08-31 | 2006-03-16 | Canon Inc | Information processor, its method and its program recording medium |
JP4576211B2 (en) * | 2004-11-22 | 2010-11-04 | 日立オムロンターミナルソリューションズ株式会社 | Document information retrieval system |
JP2009020567A (en) * | 2007-07-10 | 2009-01-29 | Mitsubishi Electric Corp | Document retrieval device |
-
2009
- 2009-12-21 JP JP2009289788A patent/JP5384315B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011054148A (en) | 2011-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8347206B2 (en) | Interactive image tagging | |
US20070171482A1 (en) | Method and apparatus for managing information, and computer program product | |
US20070180471A1 (en) | Presenting digitized content on a network using a cross-linked layer of electronic documents derived from a relational database | |
US20090265631A1 (en) | System and method for a user interface to navigate a collection of tags labeling content | |
CN103838566A (en) | Information processing device, and information processing method | |
JP2010073114A6 (en) | Image information retrieving apparatus, image information retrieving method and computer program therefor | |
CN107111618B (en) | Linking thumbnails of images to web pages | |
JP2011511359A (en) | Print structured documents | |
CN105637509A (en) | Searching and annotating within images | |
CN111602129B (en) | Smart search for notes and ink | |
JP5384315B2 (en) | SEARCH DEVICE, METHOD, AND PROGRAM | |
JP5484113B2 (en) | Document image related information providing apparatus and document image related information acquisition system | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP5196569B2 (en) | Content search device, content search method and program | |
JP2007011973A (en) | Information retrieval device and information retrieval program | |
CN115687566A (en) | Method and device for full-text retrieval and retrieval result display | |
CN115203445A (en) | Multimedia resource searching method, device, equipment and medium | |
JP2011034504A (en) | Document processing device, document processing method, program, and storage medium | |
Ashok Kumar et al. | An efficient scene content-based indexing and retrieval on video lectures | |
JP2005149210A (en) | Image processor, method for controlling it, and program | |
JP5514002B2 (en) | SEARCH DEVICE, METHOD, AND PROGRAM | |
KR101434773B1 (en) | Method and apparatus for displaying photo-tag cloud | |
US20160085767A1 (en) | Toponym resolution with one hundred percent recall | |
KR20020006223A (en) | Automatic Indexing Robot System And A Method | |
JP5779412B2 (en) | Client / server system, client device, server device, comment screen creation method in client / server system, client device program, server device program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130625 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5384315 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |