JP5384315B2 - SEARCH DEVICE, METHOD, AND PROGRAM - Google Patents

SEARCH DEVICE, METHOD, AND PROGRAM Download PDF

Info

Publication number
JP5384315B2
JP5384315B2 JP2009289788A JP2009289788A JP5384315B2 JP 5384315 B2 JP5384315 B2 JP 5384315B2 JP 2009289788 A JP2009289788 A JP 2009289788A JP 2009289788 A JP2009289788 A JP 2009289788A JP 5384315 B2 JP5384315 B2 JP 5384315B2
Authority
JP
Japan
Prior art keywords
search
document
character
character string
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009289788A
Other languages
Japanese (ja)
Other versions
JP2011054148A (en
Inventor
章裕 宮田
考 藤村
寿子 塩原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009289788A priority Critical patent/JP5384315B2/en
Publication of JP2011054148A publication Critical patent/JP2011054148A/en
Application granted granted Critical
Publication of JP5384315B2 publication Critical patent/JP5384315B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索装置及び方法及びプログラムに係り、特に、改ページや改行位置が確定しているドキュメント内の部分領域の撮影画像を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための、ドキュメント及びドキュメント内の各位置のインデックスを作成する検索装置及び方法及びプログラムに関する。   The present invention relates to a search apparatus, method, and program, and in particular, a document in which a region appears and a position in the document using a captured image of a partial region in a document in which a page break or a line break position is determined as a search query. The present invention relates to a search apparatus, a method, and a program for creating a document and an index of each position in the document in response to a search request for acquiring a document.

特に、改ページや改行位置が確定しているドキュメント内の該領域を含む可能性があるドキュメント及びドキュメント内における位置を網羅的に取得するのではなく、位置を一意に特定したい場合に適用される検索装及び方法及びプログラムに関する。   Especially, it is applied when you want to specify the position uniquely rather than exhaustively acquiring the document that may include the area in the document where the page break or line break position is fixed and the position in the document. The present invention relates to a search apparatus, method, and program.

ドキュメントの一部領域から、該領域がどのドキュメントに含まれているか、あるいは、どのドキュメントのどの位置に含まれているか一意に特定することが必要なシーンは少なくない。   There are not a few scenes in which it is necessary to uniquely identify from which document a part of a document is included in which document or at which position in which document.

例えば、手元に雑誌の切り抜きがある場合、切り抜いた元の雑誌を探して、切抜きの続きを読みたいことがある。この場合、当該切抜きがどの雑誌の一部であったか一意に特定できる必要がある。   For example, if there is a magazine cutout at hand, you may want to find the original magazine you cut out and read the continuation of the cutout. In this case, it is necessary to be able to uniquely identify which magazine the clipping was part of.

上記の事例は、ドキュメントの一部領域をクエリとし、膨大な量のドキュメント群の中から、該領域を含むドキュメント名、あるいはドキュメント名及びドキュメントにおける位置を問い合わせる検索システムと捉えることができる。   The above example can be regarded as a search system that uses a partial area of a document as a query and inquires about a document name including the area or a document name and a position in the document from a huge amount of documents.

そして、ドキュメント群の中から情報を取得する検索要求に応えるシステムを構築するためには、ドキュメント群を事前に分析してインデックスを作成する必要がある。   In order to construct a system that responds to a search request for obtaining information from a document group, it is necessary to analyze the document group in advance and create an index.

例えば、日本語の場合は形態素解析等の技術を用いて、ドキュメント内の文書を単語単位に分割した後、単語をインデックスのキーとし、該単語を含むドキュメント名、あるいは、ドキュメント名及びドキュメント中において該単語が登場する位置をインデックスの値とする方式が挙げられる。   For example, in the case of Japanese, after dividing a document in a document into units of words using a technique such as morphological analysis, the word is used as an index key, and the name of the document including the word, or the document name and the document There is a method in which the position where the word appears is used as an index value.

また、N文字(あるいはN単語)の連なりをインデックスのキーとし、その文字(あるいは単語)の連なりを含むドキュメント名、あるいは、ドキュメント名及びドキュメント中においてその文字(あるいは単語)の連なりが登場する位置をインデックスの値とする方式(文字のN-gram方式、単語のN-gram方式)もある。N-gram方式は幅広い場面で有用性が認められており、現在でも多くの拡張手法が提案されている。また、通常のN-gram方式に加え、状況に応じてNの値を変動させる方式も実施されている(例えば、非特許文献1参照)。   Further, a sequence of N characters (or N words) is used as an index key, and a document name including the sequence of the characters (or words), or a position at which the sequence of the characters (or words) appears in the document name and document. There are also methods (character N-gram method, word N-gram method) that use as the index value. The usefulness of the N-gram method has been recognized in a wide range of situations, and many extended methods are still proposed. In addition to the normal N-gram method, a method of changing the value of N according to the situation has been implemented (see, for example, Non-Patent Document 1).

「Unicodeを用いたN-gram索引の一実現方式とその評価」情報処理学会研究会報告、2000-NL-136-17,pp.135-142."A realization method of N-gram index using Unicode and its evaluation", Information Processing Society of Japan, 2000-NL-136-17, pp.135-142.

しかしながら、上記従来の方式はどちらも、(1)インデックス識別能力低下、(2)検索ロバスト性低下の問題がある。   However, both of the above conventional methods have the problems of (1) a decrease in index identification capability and (2) a decrease in search robustness.

(1)インデックス識別能力低下の問題:
上記従来の技術では、分析対象のドキュメント数が増えるほど、インデックスのキーと値が1対1に定まらないケースが多く発生するという、インデックス識別能力低下の問題を抱えている。
(1) Problem of reduced index identification ability:
The above-described conventional technique has a problem of a decrease in index identification capability, in which as the number of documents to be analyzed increases, there are more cases where the index key and value are not determined one-to-one.

例えば、「情報」といった一般的な単語がインデックスのキーとなっている場合、複数のドキュメント名がインデックスの値として該キーに関連付けられている可能性が高い。   For example, when a general word such as “information” is an index key, there is a high possibility that a plurality of document names are associated with the key as index values.

N-gram法を用いると問題は多少改善するが、完全には解決しない。文章とは単語がランダムに並んでいるのではなく、文章として意味を成すように並んでいる。このため、意味を成すような文字(あるいは単語)の連なりは多くのドキュメントに含まれる傾向がある。例えば、2単語の連なりをインデックスのキーとする場合、「情報+ラクダ」のような意味不明な連なりを含むドキュメントは滅多に存在しないが、「情報+検索」、「情報+処理」といった連なりを含むドキュメントは無数に存在する。つまり「情報+検索」、「情報+処理」等の、意味を成すような文字・単語の連なりから成るキーには、複数のドキュメント名がインデックスの値として該キーに関連付けられている可能性が高い。   Using the N-gram method improves the problem somewhat but does not solve it completely. Sentences are not arranged in random terms, but are arranged so that they make sense as sentences. For this reason, a series of characters (or words) that make sense tends to be included in many documents. For example, when a sequence of two words is used as an index key, there is rarely a document including an unknown sequence such as “information + camel”, but a sequence of “information + search”, “information + processing” is not included. There are countless documents to include. In other words, there is a possibility that a plurality of document names are associated with the key as an index value for a key composed of a series of meaningful characters / words such as “information + search” and “information + processing”. high.

これらの現象は、ある文字列を含むドキュメント名等を網羅的に取得する検索要求に応えるシステムを構築する場合には問題にならない。しかし、技術分野や背景技術の欄で述べたとおり、特定ドキュメントの特定位置を唯一の検索結果として取得する検索要求に応えるシステムを構築する場合には大きな問題になる。   These phenomena do not pose a problem when a system that responds to a search request that comprehensively obtains document names including a certain character string is constructed. However, as described in the technical field and background art section, it becomes a big problem when a system that responds to a search request for acquiring a specific position of a specific document as a single search result is created.

(2)検索ロバスト性低下の問題:
前述の単語のN-gramの場合、Nの値を大きくすれば、インデックスのキーと値が1対1に定まらないケースは減少する。例えば、「情報+検索」(N=2),「日本語+情報+検索」(N=3),「次世代+日本語+情報+検索」(N=4)とNを大きくするほど、インデックスのキーと値が1対1に定まりやすくなる。
(2) Retrieval robustness problem:
In the case of the above-described word N-gram, if the value of N is increased, the case where the index key and value are not determined one-to-one decreases. For example, “information + search” (N = 2), “Japanese + information + search” (N = 3), “next generation + Japanese + information + search” (N = 4), and the larger N, Index keys and values are easily determined on a one-to-one basis.

しかし、インデックスのキーをクエリとして検索する状況において、上記のようにインデックスのキーの文字数を多くする等して情報量を増やす場合、クエリに一定確率でノイズが含まれると正しい検索結果が得られないという、検索ロバスト性低下の問題が発生する。   However, in the situation where the index key is searched as a query, if the amount of information is increased by increasing the number of characters in the index key as described above, a correct search result can be obtained if the query includes noise with a certain probability. The problem of reduced search robustness occurs.

例えば、紙に書かれた文字列をOCRで光学文字認識を行い、該文字列をクエリとする場合、あるいは専用ディスプレイにタッチペンで書いた文字を手書き文字認識して該文字列をクエリとする場合、文字認識処理の過程で読み取りエラー(誤認識)が発生することがある。この場合、「情報検索」と書かれた短い文字列をスキャンするよりも、「次世代日本語情報検索」と書かれた長い文字列を読み込む方が読み込みエラーが発生する可能性が高く、読み込みエラーによるクエリでは正しい検索結果が得られない。   For example, when a character string written on paper is optically recognized by OCR and the character string is used as a query, or a character written with a touch pen on a dedicated display is recognized and the character string is used as a query. A reading error (misrecognition) may occur during the character recognition process. In this case, it is more likely that a read error will occur if you read a long character string written as “Next Generation Japanese Information Search” rather than scanning a short character string written as “Information Search”. An error query does not give correct search results.

本発明は、上記の点に鑑みなされたもので、インデックスの識別能力低下、及び検索ロバスト性低下という問題を解決し、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じることができ、また、クエリにノイズが含まれる場合においても、精度を低下させずに、検索要求に応じることができる検索装置及び方法及びプログラムを提供することを目的とする。   The present invention has been made in view of the above points, solves the problems of a decrease in index identification capability and a decrease in search robustness, and responds to a search request for uniquely acquiring a specific position of a specific document from a document group. It is another object of the present invention to provide a search device, method, and program capable of responding to a search request without degrading accuracy even when a query includes noise.

図1は、本発明の原理構成図である。   FIG. 1 is a principle configuration diagram of the present invention.

本発明(請求項1)は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索装置であって、
インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段10と、
ドキュメントの全体または一部領域から、文章を読む方向とそれに直交する方向を考慮した規定の形状内にある1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出手段11と、
文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段13に出力するインデックス出力手段12と、を有する。
The present invention (Claim 1) responds to a search request for acquiring a document in which the area appears and a position in the document by using a partial area in a document in which a page break or a line break position is determined as a search query. A search device that creates a search index and performs a search,
A document input means 10 for receiving an input of a document to be indexed;
A character block extracting means 11 for extracting a character block consisting of a combination of one or more characters in a prescribed shape taking into consideration the direction in which the text is read and the direction orthogonal thereto, from the whole or a partial area of the document;
Index output means 12 for associating a character block with an appearance position in a document in which the character block appears, and outputting it to the index storage means 13.

また、本発明(請求項2)は、請求項1の検索装置において、
文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とする文字ブロック選別手段を更に有する。
Further, the present invention (Claim 2) is the search device according to Claim 1,
Character block selection means for selecting only those including a specific character string of one or more characters from among the character blocks and to be processed later is further provided.

また、本発明(請求項3)は、請求項1の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする。
Further, the present invention (Claim 3) is the search device according to Claim 1,
The specific character string is a character string of one or more characters that appears uniformly in each area of the analysis target document specified in advance.

また、本発明(請求項4)は、請求項1の検索装置において、
ドキュメントに存在する複数の文字ブロックを含む範囲をリージョンとして同一の検索結果候補として集計を行い、集計結果が一定基準を満たす検索結果候補リージョン群を検索結果として特定する検索手段を更に有する。
Further, the present invention (Claim 4) is the search device according to Claim 1,
A search means is further provided for performing a tabulation as a single search result candidate using a range including a plurality of character blocks existing in the document as a region, and specifying a search result candidate region group satisfying a certain criterion as a search result.

また、本発明(請求項5)は、ドキュメント内の特定位置に関連付けられたコンテンツが検索結果候補である場合に、
同一コンテンツが関連付けられた位置群を同一の検索結果候補として集計を行い、集計結果が一定基準を満たす検索結果候補群を検索結果として特定する検索手段を更に有する。
Further, according to the present invention (claim 5), when the content associated with a specific position in the document is a search result candidate,
There is further provided a search means for performing a tabulation on the position groups associated with the same content as the same search result candidate, and specifying a search result candidate group satisfying a certain criterion as a search result.

また、本発明(請求項6)は、請求項2の検索装置において、
特定文字列を、文字が撮影された画像から文字情報を抽出する光学文字認識装置が利用する認識辞書記憶手段を参照して取得する。
Further, the present invention (Claim 6) is the search device according to Claim 2,
The specific character string is acquired with reference to a recognition dictionary storage means used by the optical character recognition device that extracts character information from an image of characters .

また、本発明(請求項7)は、請求項2の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする。
Further, the present invention (Claim 7) is the search device according to Claim 2,
The specific character string is a character string of one or more characters that does not appear more than a predetermined number of times in a previously specified document to be analyzed.

また、本発明(請求項8)は、請求項2の検索装置において、
特定文字列を、予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする。
Further, the present invention (Claim 8) is the search device according to Claim 2,
The specific character string is a character string of one or more characters composed of characters having a simple shape designated in advance.

また、本発明(請求項9)は、請求項1の検索装置において、
あるドキュメント内の一部領域を検索クエリとして受け付ける入力手段と、
検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出手段と、
クエリ文字ブロックに基づいて、インデックス記憶手段を検索し、その検索結果を出力する検索手段と、
を更に有し、
検索手段は、
クエリ文字ブロックに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する。
Further, the present invention (claim 9) is the search device according to claim 1,
An input means for accepting a partial area in a document as a search query;
Query character block extraction means for extracting a query character block consisting of a combination of one or more characters from the search query;
Search means for searching the index storage means based on the query character block and outputting the search results;
Further comprising
Search means are
The index storage means is searched based on the query character block, and the search result is output.

また、本発明(請求項10)は、請求項9の検索装置において、
力手段は、
あるドキュメント内の一部領域を撮影した画像を、一般的な光学文字認識装置を用いて該画像に写っている文字列をテキストデータに変換した検索クエリを受け付ける手段を含む。
Further, the present invention (Claim 10) is the search device according to Claim 9,
Input means,
The image processing apparatus includes means for receiving a search query obtained by converting an image obtained by capturing a partial area in a document into text data using a general optical character recognition device.

また、本発明(請求項11)は、請求項9の検索装置において、
検索結果であるドキュメント及び該ドキュメント内における位置に関連付けられたコンテンツを、検索結果と併せて、あるいは、単独で出力する手段を更に有する。
Further, the present invention (claim 11) is the search device of claim 9,
It further has means for outputting the document as a search result and the content associated with the position in the document together with the search result or independently.

また、本発明(請求項12)は、請求項の検索装置において、
クエリ文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とするクエリ文字ブロック選別手段を更に有する。
Further, the present invention (claim 12) is the search device according to claim 9 ,
A query character block selection means for selecting only those including one or more specific character strings from the query character blocks and to be processed thereafter is further included.

また、本発明(請求項13)は、請求項12の検索装置において、
光学文字認識装置が利用する認識辞書に登録されている1文字以上の文字列を特定文字列とする。
The present invention (Claim 13) is the search device according to Claim 12,
One or more character strings registered in the recognition dictionary used by the optical character recognition device are defined as specific character strings.

また、本発明(請求項14)は、請求項12の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする。
The present invention (Claim 14) is the search device according to Claim 12,
The specific character string is a character string of one or more characters that appears uniformly in each area of the analysis target document specified in advance.

また、本発明(請求項15)は、請求項12の検索装置において、
特定文字列を、予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする。
The present invention (Claim 15) is the search device according to Claim 12,
The specific character string is a character string of one or more characters that does not appear more than a predetermined number of times in a previously specified document to be analyzed.

また、本発明(請求項16)は、請求項12の検索装置において、
特定文字列を、予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする。
The present invention (Claim 16) is the search device according to Claim 12,
The specific character string is a character string of one or more characters composed of characters having a simple shape designated in advance.

図2は、本発明の原理を説明するための図である。   FIG. 2 is a diagram for explaining the principle of the present invention.

本発明(請求項17)は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う装置における検索方法であって、
ドキュメント入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップ(ステップ1)と、
文字ブロック抽出手段が、ドキュメントの全体または一部領域から、文章を読む方向とそれに直交する方向を考慮した規定の形状内にある1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出ステップ(ステップ2)と、
インデックス出力手段が、文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップ(ステップ3)と、を行う。
The present invention (Claim 17) responds to a search request for acquiring a document in which the area appears and a position in the document by using a partial area in a document in which a page break or a line break position is fixed as a search query. A search method in an apparatus for creating a search index and performing a search,
A document input means for receiving an input of a document to be indexed (step 1);
Character block extraction means for extracting a character block consisting of a combination of one or more characters within a specified shape taking into account the direction in which the text is read and the direction orthogonal thereto, from the whole or a partial area of the document Step (step 2);
The index output means performs an index output step (step 3) of associating the character block with the appearance position in the document in which the character block appears and outputting it to the index storage means.

また、本発明(請求項18)は、請求項17の検索方法において、
入力手段が、あるドキュメント内の一部領域を検索クエリとして受け付ける入力ステップと、
クエリ文字ブロック抽出手段が、検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出ステップと、
検索手段が、クエリ文字ブロックに基づいて、インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、を更に行う。
Further, the present invention (Claim 18) is the search method of Claim 17,
An input step in which the input means accepts a partial area in a document as a search query;
A query character block extracting means for extracting a query character block consisting of a combination of one or more characters from the search query;
The search means further performs a search step of searching the index storage means based on the query character block and outputting the search result.

また、本発明(請求項19)は、請求項17の検索方法において、
文字ブロック選別手段が、文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とする文字ブロック選別ステップを更に行う。
The present invention (Claim 19) provides a search method according to Claim 17,
The character block sorting means further performs a character block sorting step to be processed later after sorting only the character blocks containing one or more specific character strings.

また、本発明(請求項20)は、請求項19の検索方法において、
特定文字列を、予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする。
The present invention (Claim 20) provides a search method according to Claim 19,
The specific character string is a character string of one or more characters that appears uniformly in each area of the analysis target document specified in advance.

また、本発明(請求項21)は、請求項18の検索方法において、
クエリ文字ブロック選別手段が、クエリ文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とするクエリ文字ブロック選別ステップを更に行う。
Further, the present invention (claim 21) is the search method of claim 18,
The query character block selection means further selects only query character blocks that include one or more specific character strings from the query character blocks, and further performs a query character block selection step to be processed thereafter.

本発明(請求項22)は、請求項1乃至16のいずれか1項に記載の検索装置を構成する各手段としてコンピュータを機能させるための検索プログラムである。   The present invention (Claim 22) is a search program for causing a computer to function as each means constituting the search device according to any one of Claims 1 to 16.

上記のように本発明によれば、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じることができる。例えば、手元に書籍の一部を切り抜きしかない場合でも、その切り抜きがどの書籍のどの部分であったか突き止めることができる。   As described above, according to the present invention, it is possible to respond to a search request for uniquely acquiring a specific position of a specific document from a document group. For example, even when only a part of a book is cut out at hand, it is possible to find out which part of the book the cut out is.

また、クエリにノイズが含まれる場合においても、精度を大幅に低下させずに上記検索要求に応じることができる。   Even when the query includes noise, it is possible to respond to the search request without significantly reducing accuracy.

例えば、ドキュメントの一部を写真撮影して光学文字認識処理を行ったような、ノイズが混じりやすいデータをクエリとしても精度が大幅に低下することがない。   For example, even if data that is likely to be mixed with noise, such as a case where a part of a document is photographed and optical character recognition processing is performed, the accuracy is not significantly reduced.

また、特定文字列を含む部分のみを文字ブロックとして利用することで、検索の網羅性を大幅に低減させることなく、インデックスサイズを減らすことができる。この際、特定文字列を光学文字認識装置が内部に保有している辞書に登録されている文字列のみとすれば、さらに、光学文字認識処理の誤認識の影響を低減できる。さらに、「▼」のような通常の文章中に頻出しない(所定の回数以上出現しない)シンプルな文字を特定文字列とし、かつ、ドキュメント中のインデックス作成箇所に付与すれば、光学文字認識処理の誤認識の影響を軽減でき、かつ、クライアント部を利用するユーザに対してインデックス作成箇所の目印になる。   Further, by using only a part including a specific character string as a character block, it is possible to reduce the index size without significantly reducing the search completeness. At this time, if the specific character string is only the character string registered in the dictionary held in the optical character recognition device, the influence of the erroneous recognition in the optical character recognition process can be further reduced. Furthermore, if a simple character such as “▼” that does not appear frequently (not appearing more than a predetermined number of times) is used as a specific character string and is added to the index creation location in the document, optical character recognition processing can be performed. The influence of misrecognition can be reduced, and it becomes a mark of the index creation location for the user who uses the client unit.

本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の原理を説明するための図である。It is a figure for demonstrating the principle of this invention. 本発明の第1の実施の形態におけるインデックス作成装置の構成図である。It is a block diagram of the index production apparatus in the 1st Embodiment of this invention. 本発明の第1の実施の形態における読み込まれたPDFファイル(書名:begetable、ファイル名:vegetable3.pdf、ページ:3ページ目)の例である。It is an example of a PDF file (book name: begetable, file name: vegetable3.pdf, page: third page) read in the first embodiment of the present invention. 本発明の第1の実施の形態におけるインデックスを作成する処理のフローチャートである。It is a flowchart of the process which produces the index in the 1st Embodiment of this invention. 本発明の第1の実施の形態における入力されたドキュメントの各ページのリストのデータ構造例である。It is an example of the data structure of the list | wrist of each page of the input document in the 1st Embodiment of this invention. 本発明の第1の実施の形態における文字ブロックの例である。It is an example of the character block in the 1st Embodiment of this invention. 本発明の第1の実施の形態における文字ブロック抽出ルールの例である。It is an example of the character block extraction rule in the 1st Embodiment of this invention. 本発明の第1の実施の形態における文字ブロック抽出部の処理結果である。It is a process result of the character block extraction part in the 1st Embodiment of this invention. 本発明の第2の実施の形態におけるシステム構成図である。It is a system block diagram in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における紙媒体(書名:vegetable、ページ:3ページ目)の例である。It is an example of a paper medium (book name: vegetable, page: third page) in the second embodiment of the present invention. 本発明の第2の実施の形態におけるインデックス作成処理のフローチャートである。It is a flowchart of the index creation process in the 2nd Embodiment of this invention. 本発明の第2の実施の形態におけるリスト化されたテキストファイルの例である。It is an example of the text file listed in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における文字ブロック抽出の例である。It is an example of character block extraction in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における文字ブロック抽出ルールの例である。It is an example of the character block extraction rule in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における文字ブロック抽出部の処理結果である。It is a processing result of the character block extraction part in the 2nd Embodiment of this invention. 本発明の第2の実施の形態におけるコンテンツDBの例である。It is an example of content DB in the 2nd Embodiment of this invention. 本発明の第2の実施の形態におけるクライアント部からサーバ部へ問い合わせる作業のフローチャートである。It is a flowchart of the operation | work which inquires to the server part from the client part in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における画像ファイルの例である。It is an example of the image file in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における画像ファイルから抽出されたテキストデータの例である。It is an example of the text data extracted from the image file in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における抽出された文字ブロックの例である。It is an example of the extracted character block in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における文字ブロック抽出ルールの例である。It is an example of the character block extraction rule in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における文字ブロック抽出部の処理結果である。It is a processing result of the character block extraction part in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における問い合わせ結果である。It is the inquiry result in the 2nd Embodiment of this invention. 本発明の第2の実施の形態におけるコンテンツDBへの問い合わせ結果である。It is the inquiry result to content DB in the 2nd Embodiment of this invention. 本発明の第2の実施の形態における重複数集計後のコンテンツDBへの問い合わせ結果である。It is the inquiry result to content DB after duplication count in the 2nd Embodiment of this invention. 本発明の第2の実施の形態におけるコンテンツ表示部のコンテンツ表示手段の例である。It is an example of the content display means of the content display part in the 2nd Embodiment of this invention. 本発明の第3の実施の形態におけるシステム構成図である。It is a system block diagram in the 3rd Embodiment of this invention. 本発明の第3の実施の形態におけるリージョンDBの例である。It is an example of region DB in the 3rd Embodiment of this invention. 本発明の第3の実施の形態におけるコンテンツDBの例である。It is an example of content DB in the 3rd Embodiment of this invention. 本発明の第3の実施の形態におけるテキストファイル抽出(誤認識)の例である。It is an example of the text file extraction (false recognition) in the 3rd Embodiment of this invention. 本発明の第3の実施の形態における文字ブロック抽出部の処理結果である。It is a processing result of the character block extraction part in the 3rd Embodiment of this invention. 本発明の第3の実施の形態におけるインデックスDBへの問い合わせ結果である。It is the inquiry result to index DB in the 3rd Embodiment of this invention. 本発明の第3の実施の形態におけるコンテンツDBへの問い合わせ結果である。It is the inquiry result to content DB in the 3rd Embodiment of this invention. 本発明の第3の実施の形態における重複数集計後のコンテンツDB問い合わせ結果である。It is a content DB inquiry result after duplication count in the 3rd embodiment of the present invention. 本発明の第4の実施の形態におけるインデックス作成装置の構成図である。It is a block diagram of the index production apparatus in the 4th Embodiment of this invention. 本発明の第4の実施の形態における読み取られたPDFファイル(書名:yokohama、ファイル名:yokohama2.pdf、ページ:2ページ目)の例である。It is an example of the read PDF file (Book name: yokohama, File name: yokohama2.pdf, Page: 2nd page) in the 4th Embodiment of this invention. 本発明の第4の実施の形態における処理のフローチャートである。It is a flowchart of the process in the 4th Embodiment of this invention. 本発明の第4の実施の形態における入力されたページのリストである。It is the list of the input page in the 4th Embodiment of this invention. 本発明の第4の実施の形態における抽出された文字ブロックの例である。It is an example of the extracted character block in the 4th Embodiment of this invention. 本発明の第4の実施の形態における文字ブロック抽出ルールの例である。It is an example of the character block extraction rule in the 4th Embodiment of this invention. 本発明の第4の実施の形態における文字ブロック抽出部の処理結果である。It is a processing result of the character block extraction part in the 4th Embodiment of this invention. 本発明の第4の実施の形態における文字ブロック選別部の処理結果である。It is a processing result of the character block selection part in the 4th Embodiment of this invention. 本発明の第5の実施の形態におけるシステム構成図である。It is a system configuration figure in a 5th embodiment of the present invention. 本発明の第5の実施の形態における光学文字認識装置内の文字列辞書の例である。It is an example of the character string dictionary in the optical character recognition apparatus in the 5th Embodiment of this invention. 本発明の第5の実施の形態における紙媒体(書名:yokohama、ページ:2ページ目)の例である。It is an example of the paper medium (book name: yokohama, page: 2nd page) in the 5th Embodiment of this invention. 本発明の第5の実施の形態におけるサーバ部でインデックスを作成する処理のフローチャートである。It is a flowchart of the process which produces an index in the server part in the 5th Embodiment of this invention. 本発明の第5の実施の形態における文字ブロック選別部の処理結果である。It is a processing result of the character block selection part in the 5th Embodiment of this invention. 本発明の第5の実施の形態における紙媒体(書名:yokohama、ページ:2ページ目)の例である。It is an example of the paper medium (book name: yokohama, page: 2nd page) in the 5th Embodiment of this invention. 本発明の第6の実施の形態におけるドキュメント内にQRコードが存在する例である。It is an example in which a QR code exists in a document according to the sixth embodiment of the present invention. 本発明の第7の実施の形態におけるインデックス作成装置の構成図である。It is a block diagram of the index production apparatus in the 7th Embodiment of this invention. 本発明の第7の実施の形態におけるドキュメントの例である。It is an example of the document in the 7th Embodiment of this invention. 本発明の第7の実施の形態における処理のフローチャートである。It is a flowchart of the process in the 7th Embodiment of this invention. 本発明の第7の実施の形態におけるドキュメントリストのデータ構造である。It is a data structure of the document list | wrist in the 7th Embodiment of this invention. 本発明の第7の実施の形態における文字列分割(文字の2-gram方式)の例である。It is an example of the character string division | segmentation (2-gram system of a character) in the 7th Embodiment of this invention. 本発明の第7の実施の形態における基本文字列抽出部の処理結果である。It is a processing result of the basic character string extraction part in the 7th Embodiment of this invention. 本発明の第7の実施の形態における周辺文字列抽出部の文字列の抽出例である。It is an example of the character string extraction of the surrounding character string extraction part in the 7th Embodiment of this invention. 本発明の第7の実施の形態における周辺文字列抽出部の処理結果である。It is a processing result of the surrounding character string extraction part in the 7th Embodiment of this invention. 本発明の第8の実施の形態における検索システムの構成図である。It is a block diagram of the search system in the 8th Embodiment of this invention. 本発明の第8の実施の形態におけるドキュメントの例である。It is an example of the document in the 8th Embodiment of this invention. 本発明の第8の実施の形態におけるサーバ側の処理のフローチャートである。It is a flowchart of the process by the side of the server in the 8th Embodiment of this invention. 本発明の第8の実施の形態におけるテキストをデータ構造でリスト化した例である。It is the example which made the text list in the data structure in the 8th Embodiment of this invention. 本発明の第8の実施の形態における文字の2-gram方式で文字列分割した例である。It is the example which divided the character string by the 2-gram system of the character in the 8th Embodiment of this invention. 本発明の第8の実施の形態における基本文字列抽出部の処理結果である。It is a processing result of the basic character string extraction part in the 8th Embodiment of this invention. 本発明の第8の実施の形態における周辺文字列の抽出例である。It is an example of the extraction of the surrounding character string in the 8th Embodiment of this invention. 本発明の第8の実施の形態における周辺文字列抽出部の処理結果である。It is a processing result of the surrounding character string extraction part in the 8th Embodiment of this invention. 本発明の第8の実施の形態におけるコンテンツDBのデータ構造である。It is a data structure of content DB in the 8th Embodiment of this invention. 本発明の第8の実施の形態におけるクライアント部からサーバ部に問い合わせる処理のフローチャートである。It is a flowchart of the process which inquires a server part from the client part in the 8th Embodiment of this invention. 本発明の第8の実施の形態におけるドキュメントページの例である。It is an example of the document page in the 8th Embodiment of this invention. 本発明の第8の実施の形態における作成された画像ファイルの例である。It is an example of the created image file in the 8th Embodiment of this invention. 本発明の第8の実施の形態における画像ファイルから抽出されたテキストデータの例である。It is an example of the text data extracted from the image file in the 8th Embodiment of this invention. 本発明の第8の実施の形態におけるテキストデータの例である。It is an example of the text data in the 8th Embodiment of this invention. 本発明の第8の実施の形態における文字の2-gram方式で基本文字列を抽出する例である。It is an example which extracts a basic character string by the 2-gram system of the character in the 8th Embodiment of this invention. 本発明の第8の実施の形態における基本文字列抽出部で抽出した基本文字列の例である。It is an example of the basic character string extracted by the basic character string extraction part in the 8th Embodiment of this invention. 本発明の第8の実施の形態における周辺文字列の抽出方法の例である。It is an example of the extraction method of the surrounding character string in the 8th Embodiment of this invention. 本発明の第8の実施の形態における基本文字列と周辺文字列が関連付けられたデータの例である。It is an example of the data with which the basic character string and the surrounding character string in the 8th Embodiment of this invention were linked | related. 本発明の第8の実施の形態における問い合わせ結果の例(その1)である。It is an example (the 1) of the inquiry result in the 8th Embodiment of this invention. 本発明の第8の実施の形態における問い合わせ結果の例(その2)である。It is an example (the 2) of the inquiry result in the 8th Embodiment of this invention. 本発明の第8の実施の形態における問い合わせ結果の例(その3)である。It is an example (the 3) of the inquiry result in the 8th Embodiment of this invention. 本発明の第8の実施の形態における表示データ例の例である。It is an example of the display data example in the 8th Embodiment of this invention. 本発明の第9の実施の形態における領域抽出例である。It is an example of the area | region extraction in the 9th Embodiment of this invention. 本発明の第9の実施の形態において抽出された基本文字列と周辺文字列の組である。It is a set of a basic character string and a peripheral character string extracted in the ninth embodiment of the present invention. 本発明の第9の実施の形態における誤認識データが含まれる問い合わせ結果の例である。It is an example of the inquiry result in which the misrecognition data in the 9th Embodiment of this invention is contained. 本発明の第9の実施の形態における処理のフローチャートである。It is a flowchart of the process in the 9th Embodiment of this invention. 本発明の第9の実施の形態における問い合わせ結果の例である。It is an example of the inquiry result in the 9th Embodiment of this invention. 本発明の第9の実施の形態における変換された問い合わせ結果の例である。It is an example of the converted inquiry result in the 9th Embodiment of this invention.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

なお、特に図示しないが、以下の各実施の形態における検索装置やシステムを構成する各構成要素は、それぞれ、入力されたデータ及び処理結果を格納するメモリを有するものとする。   Although not particularly illustrated, each component constituting the search device and system in each of the following embodiments has a memory for storing input data and a processing result.

[第1の実施の形態]
本実施の形態では、検索装置に含まれる検索を実行するためのインデックスを作成する部分(インデックス作成装置)にのみ言及する。
[First Embodiment]
In the present embodiment, only the part for creating an index for executing the search included in the search device (index creation device) will be mentioned.

図3は、本発明の第1の実施の形態におけるインデックス作成装置の構成を示す。   FIG. 3 shows the configuration of the index creation device according to the first embodiment of the present invention.

同図に示すインデックス作成装置は、ドキュメント入力部10、文字ブロック抽出部11、インデックス出力部12、インデックスDB13から構成される。   The index creation apparatus shown in FIG. 1 includes a document input unit 10, a character block extraction unit 11, an index output unit 12, and an index DB 13.

入力されるドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態では、この書籍の各ページをスキャナ(一般装置)で読み取り、図4に示すように、異なる閲覧環境(OS,PDF閲覧ソフト等)においてもレイアウトが変化しない電子ファイル(PDFファイル等)に変換する。図4は、PDFファイル(書名:vegetable、ファイル名:vegetable3.pdf、ページ:3ページ目)の例である。   The input document is a paper book made up of a set of pages including characters. In this embodiment, each page of the book is read by a scanner (general apparatus), and as shown in FIG. 4, an electronic file (PDF file or the like) whose layout does not change even in different browsing environments (OS, PDF browsing software, etc.). ). FIG. 4 shows an example of a PDF file (book name: vegetable, file name: vegetable3.pdf, page: third page).

なお、図4は文章のみからなるページの例であるが、ページには図や表などの文字以外の情報が含まれていてもよい。   Note that FIG. 4 is an example of a page composed only of text, but the page may include information other than characters such as a figure and a table.

また、文字ブロック抽出部11は、入力されたドキュメントから抽出した文字ブロックを格納するメモリ(図示せず)を有するものとする。   Further, the character block extraction unit 11 has a memory (not shown) for storing character blocks extracted from the input document.

図5は、本発明の第1の実施の形態におけるインデックスを作成する処理のフローチャートである。当該処理は、インデックス作成対象となるドキュメント群を入力する入力ステップ(ステップ110、120)、各ドキュメントの各ページ内から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ130)、検索を実行するためのインデックスを出力する出力ステップ(ステップ140)に大別される。   FIG. 5 is a flowchart of a process for creating an index according to the first embodiment of this invention. The processing includes an input step (steps 110 and 120) for inputting a document group to be indexed, a character block extraction step (step 130) for extracting a character block from each page of each document, and a search for executing the search. It is roughly divided into an output step (step 140) for outputting an index.

ステップ110) ドキュメント入力部10は、インデックス作成対象(分析対象)となるドキュメント群を受け付ける。   Step 110) The document input unit 10 receives a document group that is an index creation target (analysis target).

ステップ120) ドキュメント入力部10は、入力された各ページのリストを図6に示すデータ構造で文字ブロック抽出部11のメモリ(図示せず)に格納する。リスト内の各要素は、各ページを一意に示すものとする。なお、説明の便宜上、ここでは各ページを一意に表す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用してもかまわない。   Step 120) The document input unit 10 stores the input list of each page in the memory (not shown) of the character block extraction unit 11 in the data structure shown in FIG. Each element in the list shall uniquely indicate each page. For convenience of explanation, the file name is used here as information uniquely representing each page, but other information may be used as long as the information can uniquely identify the page, such as a hash value of the file. .

ステップ130) 文字ブロック抽出部11は、入力された各ドキュメントの各ページ内から文字ブロックを抽出する。詳しくは、ドキュメント入力部10から渡され、メモリ(図示せず)に格納されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部14のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元ページのファイル名と当該ページにおける各文字ブロックの出現位置を関連付けてインデックス出力部12に渡す。   Step 130) The character block extraction unit 11 extracts a character block from each page of each input document. Specifically, each page that is passed from the document input unit 10 and listed in a list stored in a memory (not shown) is read, and a character block group is read from each page according to the rules of the character block extraction rule storage unit 14. Each character block, the file name of the extraction source page of each character block, and the appearance position of each character block on the page are associated and passed to the index output unit 12.

ここで「文字ブロック」とは、ページ内に並んでいる文字列から、規定の形状で抽出した1文字以上の文字群のことである。ここでは、図7のように、規定の形状を十字型として抽出する。   Here, the “character block” is a character group of one or more characters extracted in a specified shape from a character string arranged in a page. Here, the prescribed shape is extracted as a cross shape as shown in FIG.

また、文字ブロック抽出ルール記憶部14に格納されている文字ブロック抽出ルールとは、ページからどのように文字ブロックを抽出するか規定するルールである。ここでは、図8のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。   The character block extraction rule stored in the character block extraction rule storage unit 14 is a rule that defines how a character block is extracted from a page. Here, as shown in FIG. 8, extraction is performed while shifting one character at a time from the upper left corner toward the lower right corner.

また、「文字ブロックの出現位置」とは、文字ブロックがページのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、十字型文字ブロックの上端の文字の行、列の粒度で表現することとする。   The “appearance position of the character block” is position information indicating at which position of the character block the character block appears in an arbitrary granularity depending on the purpose of the system. Here, it is expressed by the granularity of the character row and column at the upper end of the cross-shaped character block.

図9は、本発明の第1の実施の形態における文字ブロック抽出部の処理結果である。   FIG. 9 shows the processing result of the character block extraction unit in the first embodiment of the present invention.

同図では、文字ブロック抽出部11の処理結果を示しており、このデータがインデックス出力部12に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。   The figure shows the processing result of the character block extraction unit 11, and this data is passed to the index output unit 12. Here, the character block is expressed by arranging the characters constituting the character block in order from the top and the left.

ステップ140) インデックス出力部12は、検索を実行するためのインデックスをインデックスDB13に出力する。詳しくは、文字ブロック抽出部11から渡された各文字ブロックを図9のデータ構造でインデックスDB13に格納する。これにより、文字ブロックを問い合わせキーとしてファイル名及び出現位置を問い合わせ結果として返すインデックスDB13を実現する。   Step 140) The index output unit 12 outputs an index for executing the search to the index DB 13. Specifically, each character block passed from the character block extraction unit 11 is stored in the index DB 13 with the data structure of FIG. Thus, the index DB 13 that returns a file name and an appearance position as a query result using a character block as a query key is realized.

上記のように、文字をブロック単位で扱うことにより、ドキュメント内の各位置に固有になりやすい文字列パターンを、少ない文字数で表現できるため、識別能力が高く、ロバスト性が高いインデックスを実現できる。   As described above, by handling characters in units of blocks, a character string pattern that tends to be unique to each position in the document can be expressed with a small number of characters, so that an index with high identification capability and high robustness can be realized.

[第2の実施の形態]
本実施の形態では、サーバ部とクライアント部を設け、サーバ部においてインデックスを作成し、クライアント部からサーバ部にインデックスを問い合わせ表示する例を説明する。
[Second Embodiment]
In this embodiment, an example will be described in which a server unit and a client unit are provided, an index is created in the server unit, and the index is inquired and displayed from the client unit to the server unit.

図10は、本発明の第2の実施の形態におけるシステム構成を示す。   FIG. 10 shows a system configuration in the second embodiment of the present invention.

同図に示すシステムは、大きく分けてサーバ部300、クライアント部400、外部装置からなる。   The system shown in the figure is roughly divided into a server unit 300, a client unit 400, and an external device.

サーバ部300は、データ入力部310、文字ブロック抽出部320、インデックス出力部330、インデックスDB340,コンテンツDB350,サーバ側データ送受信部360、DB問い合わせ部370、文字ブロック抽出ルール記憶部321からなる。   The server unit 300 includes a data input unit 310, a character block extraction unit 320, an index output unit 330, an index DB 340, a content DB 350, a server-side data transmission / reception unit 360, a DB inquiry unit 370, and a character block extraction rule storage unit 321.

クライアント部400は、クライアント側デバイス410、クライアント側データ送受信部420を有し、クライアント側デバイス410は、ドキュメント撮影部511、コンテンツ表示部412を有する。   The client unit 400 includes a client side device 410 and a client side data transmission / reception unit 420, and the client side device 410 includes a document photographing unit 511 and a content display unit 412.

外部装置としては、ドキュメント群200を読み取るドキュメント読み取り装置100と、光学文字認識装置101が設けられる。   As an external device, a document reading device 100 that reads the document group 200 and an optical character recognition device 101 are provided.

ドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態でドキュメント読み取り装置100に入力されるドキュメント群200を構成している各ページ及びクライアント部400に入力されるドキュメントページ゛201の例を図11に示す。   The document is a paper medium book composed of a set of pages including characters. FIG. 11 shows an example of each page constituting the document group 200 input to the document reading apparatus 100 and the document page 201 input to the client unit 400 in this embodiment.

ドキュメント読み取り装置100は、サーバ部300のデータ入力部310に接続されている。光学文字認識装置101は、サーバ部300のデータ送受信部360に接続されている。   The document reading device 100 is connected to the data input unit 310 of the server unit 300. The optical character recognition device 101 is connected to the data transmission / reception unit 360 of the server unit 300.

本実施の形態では、
(1)サーバ部300においてインデックスを作成する作業;
(2)クライアント部400からサーバ部300に問い合わせる作業;
を行う。
In this embodiment,
(1) Work to create an index in the server unit 300;
(2) Work to inquire the server unit 300 from the client unit 400;
I do.

(1)サーバ部300においてインデックスを作成する作業:
当該処理は、前述の第1の実施の形態におけるインデックス作成装置に相当する。図12は、本発明の第2の実施の形態におけるインデックス作成処理のフローチャートである。
(1) Creating an index in the server unit 300:
This process corresponds to the index creation device in the first embodiment described above. FIG. 12 is a flowchart of the index creation process in the second embodiment of the present invention.

以下では、インデックス作成対象となるドキュメントを入力する入力ステップ(ステップ210,220)、各ドキュメントの各ページ内から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ230)、検索を実行するためのインデックスを出力する出力ステップ(ステップ240)を行う。   In the following, an input step (steps 210 and 220) for inputting a document to be indexed, a character block extraction step (step 230) for extracting a character block from each page of each document, and an index for executing a search are shown. An output step (step 240) of outputting is performed.

ステップ210) サーバ部300のデータ入力部310は、ドキュメント群200の各ドキュメントの各ページを、ドキュメント読み取り装置100で読み取り、データ入力部310に渡す。   Step 210) The data input unit 310 of the server unit 300 reads each page of each document in the document group 200 with the document reading device 100 and passes it to the data input unit 310.

ここで、ドキュメント読み取り装置100は、紙媒体に印刷されたテキストを読み取ってテキストファイルに変換する一般装置であり、OCR機能付きスキャナ等がこれに該当する。ここでは、各ページ中のテキストは紙媒体に印刷された状態における改ページ位置、改行位置が保持されたままテキストファイルに変換されたものとする。   Here, the document reading device 100 is a general device that reads text printed on a paper medium and converts it into a text file, and corresponds to a scanner with an OCR function. Here, it is assumed that the text in each page is converted into a text file while maintaining the page break position and line feed position in a state printed on a paper medium.

ステップ220) データ入力部20は、ドキュメント読み取り装置100から渡されたテキストファイル群を読み込み、図13に示すデータ構造でリスト化して、サーバ部300の文字ブロック抽出部320に渡す。なお、説明の便宜上、ここでは、各ページを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用しても構わない。   Step 220) The data input unit 20 reads the text file group passed from the document reading device 100, lists it in the data structure shown in FIG. 13, and passes it to the character block extraction unit 320 of the server unit 300. For convenience of explanation, the file name is used as information uniquely indicating each page. However, other information may be used as long as the information can uniquely identify the page, such as a hash value of the file. Absent.

ステップ230) サーバ部300の文字ブロック抽出部320は、データ入力部310から渡されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部321のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元ページのファイル名と該ページにおける該文字ブロックの出現位置を関連付けて、インデックス出力部330に渡す。   Step 230) The character block extraction unit 320 of the server unit 300 reads each page described in the list passed from the data input unit 310, and uses the character block group from each page as a rule of the character block extraction rule storage unit 321. Accordingly, each character block, the file name of the extraction source page of each character block, and the appearance position of the character block on the page are associated with each other and passed to the index output unit 330.

ここで、「文字ブロック」とは、ページ内に並んでいる文字列から、規定の形状で抽出した1文字以上の文字群のことである。ここでは、図14のように規定の形状を箱型として抽出する。   Here, the “character block” is a character group of one or more characters extracted in a prescribed shape from a character string arranged in a page. Here, the prescribed shape is extracted as a box shape as shown in FIG.

また、文字ブロック抽出ルール記憶部321に格納されている「文字ブロック抽出ルール」とは、ドキュメントからどのような文字ブロックを抽出するかを規定するルールである。ここでは、図15のように、左上隅から右下隅方向へ2文字ずつずらしながら抽出することとする。   The “character block extraction rule” stored in the character block extraction rule storage unit 321 is a rule that defines what character blocks are extracted from a document. Here, as shown in FIG. 15, extraction is performed while shifting by two characters from the upper left corner toward the lower right corner.

また、「文字ブロックの出現位置」とは、文字ブロックがドキュメントのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、箱型文字ブロックの上左端の文字の行、列の粒度で表現することとする。   The “appearance position of the character block” is position information indicating at which position of the character block the character block appears in an arbitrary granularity according to the purpose of the system. Here, the box-type character block is expressed by the granularity of the upper leftmost character row and column.

図16は、本発明の第1の実施の形態における文字ブロック抽出部の処理結果を示す。   FIG. 16 shows the processing result of the character block extraction unit in the first embodiment of the present invention.

同図では、文字ブロック抽出部320で上記の処理を行った結果を示しており、このデータがインデックス出力部330に渡される。なお、ここでは、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。   The figure shows the result of the above processing performed by the character block extraction unit 320, and this data is passed to the index output unit 330. Here, the characters constituting the character block are expressed in order from the top and the left.

ステップ240) インデックス出力部330は、文字ブロック抽出部320から渡された各文字ブロックを、図16のデータ構造でインデックスDB340に格納する。これにより、検索時には文字ブロックを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB340を実現する。   Step 240) The index output unit 330 stores each character block passed from the character block extraction unit 320 in the index DB 340 with the data structure of FIG. This realizes the index DB 340 that returns a file name and an appearance position as an inquiry result using a character block as an inquiry key at the time of search.

なお、サーバ部300のコンテンツDB350には、書籍出版社、あるいは、一般ユーザが作成した、各書籍内の各位置(ページ、行、列等)に関係したコンテンツ及び該コンテンツに関する情報を格納しておく。コンテンツ及び該コンテンツに関する情報をコンテンツDB340に格納するための格納作業専用端末を用意してもよいし、格納作業用Webアプリケーションを用意して不特定多数のユーザがWebブラウザを通じて自由にコンテンツ及び該コンテンツに関する情報を格納できるようにしてもよい。コンテンツの例としては、観光名所案内であれば各地を訪れた旅行者の体験談、化学教科書であれば化学実験映像等が挙げられる。ここでは、サーバ部300上のデータ格納領域にコンテンツの実体を格納し、図17に示すデータ構造でコンテンツと各書籍内の各位置の関係を格納する。   The content DB 350 of the server unit 300 stores content related to each position (page, row, column, etc.) in each book created by a book publisher or general user and information related to the content. deep. A storage dedicated terminal for storing content and information related to the content in the content DB 340 may be prepared, or a storage work Web application may be prepared so that an unspecified number of users can freely access the content and the content through a Web browser. It may be possible to store information regarding. Examples of contents include experiences of tourists who have visited various places for tourist attractions, and chemical experiment videos for chemical textbooks. Here, the substance of the content is stored in the data storage area on the server unit 300, and the relationship between the content and each position in each book is stored in the data structure shown in FIG.

(2)クライアント部400からサーバ部300に問い合わせる作業:
図18は、本発明の第2の実施の形態におけるクライアント部からサーバ部へ問い合わせる作業のフローチャートである。
(2) Work for inquiring the server unit 300 from the client unit 400:
FIG. 18 is a flowchart of the work for inquiring from the client unit to the server unit in the second embodiment of the present invention.

以下では、インデックス作成対象となるページの一部を入力する入力ステップ(ステップ310,320)、入力されたページの一部から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ330)、インデックスDB340に問い合わせを行い、入力されたページの一部に関連付けられているコンテンツを特定する問い合わせステップ(ステップ340,350,360)、問い合わせた結果得られたコンテンツをクライアント部400で表示する出力ステップ(ステップ370)を行う。   Hereinafter, an input step (steps 310 and 320) for inputting a part of a page to be indexed, a character block extraction step (step 330) for extracting a character block from a part of the input page, and an inquiry to the index DB 340 Inquiry step (steps 340, 350, 360) for specifying the content associated with a part of the input page, and an output step (step 370) for displaying the content obtained as a result of the inquiry on the client unit 400 I do.

ステップ310) クライアント部400のクライアント側デバイス410では、ドキュメント撮影部411において、ドキュメントページ201の全体、または、一部を光学的に撮影して、撮影内容を画像ファイルとして保存し、クライアント側データ送受信部420に渡す。クライアント側データ送受信部420は、ドキュメント撮影部411から渡された画像ファイルをネットワークを通じてサーバ部300のデータ送受信部360に渡す。   Step 310) In the client side device 410 of the client unit 400, the document photographing unit 411 optically photographs the whole or part of the document page 201, saves the photographing content as an image file, and transmits and receives client side data. To the unit 420. The client side data transmitting / receiving unit 420 transfers the image file transferred from the document photographing unit 411 to the data transmitting / receiving unit 360 of the server unit 300 through the network.

ドキュメントページ201は、ドキュメント群200に含まれる1件の書籍の1ページである。ここでは、図11に示すページの一部分が撮影され、図19に示す画像ファイルが作成されたとする。   The document page 201 is one page of one book included in the document group 200. Here, it is assumed that a part of the page shown in FIG. 11 is photographed and the image file shown in FIG. 19 is created.

ステップ320) サーバ側データ送受信部360は、光学文字認識装置101を利用して、クライアント側データ送受信部420から渡された画像ファイルから図20に示すテキストデータを抽出し、文字ブロック抽出部320に渡す。なお、光学文字認識装置101は、一般的なOCR、ソフトウェア等であり、文字が撮影された画像から文字情報を抽出し、テキストデータとしてコンピュータが利用できる形式に変換する一般装置である。   Step 320) Using the optical character recognition apparatus 101, the server-side data transmission / reception unit 360 extracts the text data shown in FIG. 20 from the image file passed from the client-side data transmission / reception unit 420, and sends it to the character block extraction unit 320. hand over. The optical character recognition device 101 is general OCR, software, or the like, and is a general device that extracts character information from an image in which characters are photographed and converts them into a format that can be used by a computer as text data.

ステップ330) 文字ブロック抽出部320は、サーバ側データ送受信部360から渡されたテキストデータを読み込み、該テキストデータから文字ブロック群を文字ブロック抽出ルール記憶部321のルールに則って抽出し、DB問い合わせ370に渡す。   Step 330) The character block extraction unit 320 reads the text data passed from the server-side data transmission / reception unit 360, extracts a character block group from the text data according to the rules of the character block extraction rule storage unit 321, and performs a DB inquiry. Pass to 370.

ここで、「文字ブロック」は、ステップ220と同じく箱型の形状で図21のように抽出する。   Here, the “character block” is extracted in a box shape as in step 220 as shown in FIG.

また、「文字ブロック抽出ルール」は、図22のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。   Also, the “character block extraction rule” is extracted while shifting one character at a time from the upper left corner toward the lower right corner as shown in FIG.

図23は、文字ブロック抽出部320の処理を行った結果を示しており、このデータがDB問い合わせ部370に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。   FIG. 23 shows the result of processing of the character block extraction unit 320, and this data is passed to the DB inquiry unit 370. Here, the character block is expressed by arranging the characters constituting the character block in order from the top and the left.

ステップ340) DB問い合わせ部370は、図23のリストを用いてインデックスDB340に問い合わせを行う。   Step 340) The DB inquiry unit 370 makes an inquiry to the index DB 340 using the list of FIG.

まず、DB問い合わせ部370は、図23の各文字ブロックに対応するファイル名と出現位置を問い合わせ、問い合わせ結果を図24に示す形式で取得する。   First, the DB inquiry unit 370 inquires about the file name and the appearance position corresponding to each character block in FIG. 23, and acquires the inquiry result in the format shown in FIG.

ステップ350) 次に、DB問い合わせ部370がコンテンツDB350に対して図24の問い合わせ結果を用いて問い合わせを行う。前述の通り、コンテンツDB350には図17に示す構造でデータが格納されている。DB問い合わせ部370は、図24の各ファイル名と各出現位置の組(例えば、「vegetable3.txt」と「1行」・「3列」)を用いて、コンテンツDB350に該ファイル名と該出現位置に対応するコンテンツ・コンテンツタイプを問い合わせ、問い合わせ結果を図25に示す形式で取得し、コンテンツ・コンテンツタイプの重複数を集計して図26に示す形式に変換する。   Step 350) Next, the DB inquiry unit 370 makes an inquiry to the content DB 350 using the inquiry result of FIG. As described above, the content DB 350 stores data in the structure shown in FIG. The DB inquiry unit 370 uses the set of each file name and each appearance position (for example, “vegetable3.txt”, “1 line”, “3 columns”) in FIG. The content / content type corresponding to the position is inquired, the inquiry result is acquired in the format shown in FIG. 25, and the duplication number of the content / content type is totaled and converted into the format shown in FIG.

ステップ360) DB問い合わせ部370は、上述の問い合わせ結果の中で、一定条件を満たすものを検索結果としてサーバ側データ送受信部360に渡す。本実施の形態においては、最も重複数の多いもの(図26では「tomato_1.mp4」・「ムービーファイル」)を検索結果としてサーバ側データ送受信部360に渡すこととする。   Step 360) The DB inquiry unit 370 passes, to the server-side data transmission / reception unit 360, as a search result, the above-described inquiry result that satisfies a certain condition. In the present embodiment, the most frequently duplicated files (“tomato_1.mp4” / “movie file” in FIG. 26) are passed to the server-side data transmission / reception unit 360 as search results.

サーバ側データ送受信部360は、DB問い合わせ部370から渡された検索結果をネットワークを通じてクライアント側データ送受信部420に渡す。   The server-side data transmission / reception unit 360 passes the search result passed from the DB inquiry unit 370 to the client-side data transmission / reception unit 420 through the network.

ステップ370) クライアント側データ送受信部420は、サーバ側データ送受信部360から渡された検索結果をコンテンツ表示部412に渡す。   Step 370) The client-side data transmission / reception unit 420 passes the search result passed from the server-side data transmission / reception unit 360 to the content display unit 412.

コンテンツ表示部412は、クライアント側データ送受信部420から渡された検索結果を、コンテンツ表示部412内部で予め設定されたコンテンツ表示手段(図27)を用いて表示する。なお、コンテンツ表示手段として、図27に示すように、テキストファイルについてはコンテンツ表示手段としてテキストビューアを用い、サウンドファイルにはサウントプレイヤを用い、ムービーファイルについてはムービープレイヤを用いるように設定されている。   The content display unit 412 displays the search result passed from the client-side data transmission / reception unit 420 using content display means (FIG. 27) preset in the content display unit 412. As shown in FIG. 27, the content display means is set to use a text viewer as the content display means for text files, use a sound player for sound files, and use a movie player for movie files. Yes.

[第3の実施の形態]
前述の第2の実施の形態のステップ310において、撮影条件が悪く(光量不足、手振れ等)ドキュメント撮影部411が撮影した画像の品質が悪い場合に、ステップ320で光学文字認識装置101が撮影画像から正確に文字を抽出できない場合がある。また、現在の技術水準においても、光学文字認識精度は100%ではないため、撮影画像の品質が良い場合でも一定確率で文字の誤認識が発生する。
[Third Embodiment]
In step 310 of the second embodiment described above, when the shooting conditions are bad (insufficient light quantity, camera shake, etc.) and the quality of the image shot by the document shooting unit 411 is low, the optical character recognition device 101 takes a shot image in step 320. In some cases, characters cannot be extracted accurately from. Further, even in the current technical level, the optical character recognition accuracy is not 100%, so that even when the quality of the captured image is good, erroneous recognition of characters occurs with a certain probability.

本実施の形態では、上記のように光学文字認識装置101において正しく文字認識が行われない場合について述べる。   In the present embodiment, a case will be described where character recognition is not performed correctly in the optical character recognition apparatus 101 as described above.

図28は、本発明の第3の実施の形態におけるシステム構成図である。同図に示すシステムには、サーバ部300にリージョンDB380が追加されている。なお、処理フローは第2の実施の形態と同様である。   FIG. 28 is a system configuration diagram according to the third embodiment of the present invention. In the system shown in the figure, a region DB 380 is added to the server unit 300. Note that the processing flow is the same as in the second embodiment.

まず、事前の準備として各書籍内に複数文字ブロックを含む任意の範囲を持つリージョンを定義する。ここでは、第2の実施の形態と同様に各書籍の各ページをテキストファイルに変換し、図29のように各テキストファイル内に10行程度の範囲を持つリージョンを定義し、リージョンDB380に格納する。リージョンの範囲は、「リージョン1」と「リージョン2」のように排他になるよう定義してもよいし、「リージョン3」と「リージョン4」のように一部重複して定義してもよい。   First, as a preliminary preparation, a region having an arbitrary range including a plurality of character blocks is defined in each book. Here, as in the second embodiment, each page of each book is converted into a text file, a region having a range of about 10 lines is defined in each text file as shown in FIG. 29, and stored in the region DB 380. To do. The region range may be defined to be exclusive, such as “Region 1” and “Region 2”, or may be partially overlapped such as “Region 3” and “Region 4”. .

次に、図30のように各リージョンにコンテンツを関連付けてコンテンツDB350に格納する。コンテンツは、「cucumber.txt」のように同一コンテンツが複数のリージョンに関連付けられていてもよい。また、「tomato_1.mp4」と「tomato_2.mp4」のように異なるコンテンツが同一リージョンに関連付けられていてもよい。   Next, as shown in FIG. 30, each content is associated with each region and stored in the content DB 350. The content may be associated with a plurality of regions, such as “cucumber.txt”. Different contents such as “tomato_1.mp4” and “tomato_2.mp4” may be associated with the same region.

例えば、ステップ310〜320において、ドキュメント撮影部411が図19と同じ領域を撮影したが、画像品質が悪いため、光学文字認識装置101は図20のように抽出すべきところ、図31のように抽出したとする。同図において、下線部分は誤認識文字を示す。この状況でステップ320の文字ブロック抽出部320の処理を行うと、図32のようなリストが得られる。同図において、下線部分は誤認識文字を示す。   For example, in steps 310 to 320, the document photographing unit 411 has photographed the same area as that in FIG. 19, but the image quality is poor. Therefore, the optical character recognition device 101 should be extracted as shown in FIG. Suppose that it is extracted. In the figure, the underlined portion indicates a misrecognized character. In this situation, when the processing of the character block extraction unit 320 in step 320 is performed, a list as shown in FIG. 32 is obtained. In the figure, the underlined portion indicates a misrecognized character.

次に、図32のリストを利用してステップ350と同様の処理(インデックスDB問い合わせ)を行うと、DB問い合わせ部370は、問い合わせ結果を図33で示す形式で取得する。同図において、「該当なし」とは該当する文字ブロックがインデックスDB340に含まれていないことを示す。   Next, when processing similar to step 350 (index DB inquiry) is performed using the list of FIG. 32, the DB inquiry unit 370 acquires the inquiry result in the format shown in FIG. In the figure, “N / A” indicates that the corresponding character block is not included in the index DB 340.

ここで、DB問い合わせ部370は、図33のリスト(但し、ファイル名が「該当なし」のものは除く)を用いてリージョンDB380に問い合わせ、各ブロックと該ブロックが出現するリージョンの関係情報を図34の形式で取得し、これをリージョンごとに出現回数をカウントして図35の形式に変換する。同図において出現回数が最多のリージョンを、クライアント部400が撮影した範囲に含まれているリージョンであると特定する。ここでは、「リージョン5」が該当する。   Here, the DB inquiry unit 370 makes an inquiry to the region DB 380 using the list shown in FIG. 33 (except that the file name is “not applicable”), and shows the relationship information between each block and the region in which the block appears. 34, and the number of appearances is counted for each region and converted into the format shown in FIG. In the figure, the region having the highest number of appearances is specified as the region included in the range captured by the client unit 400. Here, “Region 5” corresponds.

最後に、DB問い合わせ部370は、「リージョン5」に関連付けられたコンテンツ、コンテンツタイプをコンテンツDB350に問い合わせ、以降ステップ370と同様の処理を行うと、コンテンツ表示部412にて正しいコンテンツ(cucumber.txt)が表示される。   Finally, the DB inquiry unit 370 inquires the content DB 350 about the content and content type associated with “Region 5”, and when the same processing as in Step 370 is performed thereafter, the content display unit 412 displays the correct content (cucumber.txt ) Is displayed.

このように、内部に複数の文字ブロックを含む範囲を1つのリージョンとし、撮影画像から抽出した文字ブロック群が最も多く出現するリージョンを特定して該リージョンに関連付けられたコンテンツを検索結果とする方式により、光学文字認識の精度が悪く文字ブロックに誤認識文字が混じっている場合においても正しく検索結果を求めることができる。   As described above, a range including a plurality of character blocks inside is set as one region, a region in which the character block group extracted from the photographed image appears most frequently is specified, and content associated with the region is used as a search result. Thus, even when optical character recognition accuracy is poor and misrecognized characters are mixed in the character block, the search result can be obtained correctly.

[第4の実施の形態]
本実施の形態では、第1の実施の形態よりもインデックスサイズを小さくし、かつ検索可能領域の網羅性を大幅に低減させないように、インデックスを作成する処理について説明する。
[Fourth Embodiment]
In the present embodiment, a process for creating an index will be described so that the index size is made smaller than in the first embodiment and the completeness of the searchable area is not significantly reduced.

ここでは、1つ以上の文字からなる特定文字列を含む文字ブロックのみを用いてインデックスを作成する。以下詳細な手順を示す。   Here, an index is created using only a character block including a specific character string made up of one or more characters. The detailed procedure is shown below.

図36は、本発明の第4の実施の形態におけるインデックス作成装置の構成を示す。   FIG. 36 shows the configuration of the index creation device in the fourth embodiment of the present invention.

同図に示すインデックス作成装置は、ドキュメント入力部40、文字ブロック抽出部41、文字ブロック選別部42、インデックス出力部43、インデックスDB44、文字ブロック抽出ルール記憶部45、外部装置の特定文字列DB46から構成される。   The index creation apparatus shown in the figure includes a document input unit 40, a character block extraction unit 41, a character block selection unit 42, an index output unit 43, an index DB 44, a character block extraction rule storage unit 45, and a specific character string DB 46 of an external device. Composed.

入力されるドキュメント群の各ドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態では、この書籍の各ページをスキャナ(一般装置)で読み取り、図37に示すように、異なる閲覧環境(OS,PDF閲覧ソフト等)においてもレイアウトが変化しない電子ファイル(PDFファイル等)に変換する。   Each document in the input document group is assumed to be a paper medium book composed of a set of pages including characters. In this embodiment, each page of the book is read by a scanner (general apparatus), and as shown in FIG. 37, an electronic file (PDF file or the like) whose layout does not change even in different browsing environments (OS, PDF browsing software, etc.). ).

なお、図37は、文書のみからなるページの例であるが、ページには図や表などの文字以外の情報が含まれていてもよい。   Note that FIG. 37 is an example of a page made up of only documents, but the page may include information other than characters such as a figure and a table.

また、文字ブロック抽出部41、文字ブロック選別部42は、抽出した文字ブロックを格納するメモリ(図示せず)を有するものとする。   The character block extraction unit 41 and the character block selection unit 42 have a memory (not shown) for storing the extracted character blocks.

外部装置である特定文字列DB46には、事前に1つ以上の文字からなる特定文字列が1つ以上登録されているものとする。検索可能領域の網羅性を大幅に低減させないためには、ドキュメント中の各領域に満遍なく出現する文字列が登録されていることが望ましく、日本語ドキュメントの場合は「の」、「は」、「が」、「。」、「、」等の助詞や句読点がこれにあたる。以降、本実施の形態では、「の」の1語が特定文字列DB46に登録されているものとして説明を行うが、その他の文字が特定文字列DB46に登録されていても構わない。   It is assumed that one or more specific character strings made up of one or more characters are registered in advance in the specific character string DB 46 that is an external device. In order not to greatly reduce the comprehensiveness of searchable areas, it is desirable that character strings that appear uniformly in each area in the document are registered. In the case of Japanese documents, "no", "ha", " This includes particles and punctuation marks such as "", ".", ",". In the following description of the present embodiment, it is assumed that one word “no” is registered in the specific character string DB 46, but other characters may be registered in the specific character string DB 46.

図38は、本発明の第4の実施の形態における処理のフローチャートである。   FIG. 38 is a flowchart of processing in the fourth embodiment of the present invention.

本実施の形態における処理は、インデックス作成対象となるドキュメント群を入力する入力ステップ(ステップ410,420)、各ドキュメントの各ページから特定文字列を含む文字ブロックを抽出する文字ブロック抽出ステップ(ステップ430)、検索を実行するためのインデックスを出力する出力ステップ(ステップ440)に分けられる。   The processing in this embodiment includes an input step (steps 410 and 420) for inputting a document group to be indexed, and a character block extraction step (step 430) for extracting a character block including a specific character string from each page of each document. ), And an output step (step 440) for outputting an index for executing the search.

ステップ410) ドキュメント入力部40は、分析対象の各ドキュメントの各ページの入力を受け付ける。   Step 410) The document input unit 40 receives input of each page of each document to be analyzed.

ステップ420) ドキュメント入力部40は、入力された各ページのリストを図39に示すデータ構造で文字ブロック抽出部41に渡す。リスト内の各要素は、各ページを一意に示すものとする。なお、説明の便宜上、ここでは各ページを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用しても構わない。   Step 420) The document input unit 40 passes the input list of each page to the character block extraction unit 41 in the data structure shown in FIG. Each element in the list shall uniquely indicate each page. For convenience of explanation, the file name is used as information uniquely indicating each page here, but other information may be used as long as the information can uniquely identify the page, such as a hash value of the file. .

ステップ430) 文字ブロック抽出部41は、ドキュメント入力部40から渡されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部45のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元のページにおける該文字ブロックの出現位置を関連付けて、文字ブロック選択部42に渡す。   Step 430) The character block extraction unit 41 reads each page described in the list passed from the document input unit 40, and extracts a character block group from each page according to the rules of the character block extraction rule storage unit 45. Each character block is associated with the appearance position of the character block in the page from which each character block is extracted, and passed to the character block selection unit 42.

ここで「文字ブロック」とは、ステップ130と同じく、十字型の形状で図40のように抽出する。   Here, the “character block” is extracted in a cross shape as shown in FIG.

また、文字ブロック抽出ルール記憶部45に格納されているルールは図41のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。   Further, the rules stored in the character block extraction rule storage unit 45 are extracted while shifting one character at a time from the upper left corner toward the lower right corner as shown in FIG.

また、「文字ブロックの出現位置」とは、文字ブロックがページのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、十文字型文字ブロックの上端の文字の行、列の粒度で表現することとする。   The “appearance position of the character block” is position information indicating at which position of the character block the character block appears in an arbitrary granularity depending on the purpose of the system. Here, it is expressed by the granularity of the character row and column at the upper end of the cross-shaped character block.

図42は、本発明の第4の実施の形態における文字ブロック抽出部の処理結果を示す。同図では、文字ブロック抽出部41でステップ430の処理を行った結果を示しており、このデータが文字ブロック選別部42に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。   FIG. 42 shows the processing result of the character block extraction unit in the fourth embodiment of the present invention. The figure shows the result of the processing of step 430 performed by the character block extraction unit 41, and this data is transferred to the character block selection unit 42. Here, the character block is expressed by arranging the characters constituting the character block in order from the top and the left.

ステップ440) 文字ブロック選別部42は、文字ブロック抽出部41から渡された各文字ブロックについて、特定文字列DB46に問い合わせを行い、特定文字列DB46に登録されている語(本実施の形態では「の」)を含む文字ブロックのみを選別する。   Step 440) The character block selection unit 42 inquires of the specific character string DB 46 about each character block passed from the character block extraction unit 41, and the words registered in the specific character string DB 46 (in this embodiment, “ Only those character blocks that contain "

図43は、本発明の第4の実施の形態における文字ブロック選別部の処理結果を示す。同図では、文字ブロック選別部42でステップ440の処理を行った結果を示しており、このデータがインデックス出力部43に渡される。   FIG. 43 shows the processing result of the character block selection unit in the fourth embodiment of the present invention. The figure shows the result of the processing of step 440 performed by the character block selection unit 42, and this data is passed to the index output unit 43.

ステップ450) インデックス出力部43は、文字ブロック選別部42から渡された各文字ブロックを、図43のデータ構造でインデックスDB44に格納する。これにより、文字ブロックを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB44を実現する。   Step 450) The index output unit 43 stores each character block passed from the character block selection unit 42 in the index DB 44 with the data structure of FIG. This implements the index DB 44 that uses a character block as an inquiry key and returns a file name and an appearance position as an inquiry result.

上記のように、「の」のような網羅的に出現する文字列を含む文字ブロックのみを用いてインデックスを作成することで、インデックスのサイズを小さくし、かつ検索可能領域の網羅性を大幅に低減させずにインデックスを作成できる。   As described above, by creating an index using only character blocks that include exhaustive characters such as “no”, the size of the index can be reduced and the searchability area can be greatly covered. You can create an index without reducing it.

[第5の実施の形態]
本実施の形態では、第2の実施の形態よりもインデックスサイズを小さくし、かつ光学文字認識処理の誤認識の影響を軽減できるように、インデックスを作成する方法について言及する。
[Fifth Embodiment]
In the present embodiment, a method for creating an index will be mentioned so that the index size can be made smaller than that in the second embodiment and the influence of erroneous recognition in the optical character recognition process can be reduced.

ここでは、文字ブロックが、光学文字認識装置101が内部に保有している文字列辞書に登録されている文字列を含む場合のみ、該文字ブロックを用いてインデックスを作成する。以下、詳細な手順を示す。   Here, only when the character block includes a character string registered in the character string dictionary held in the optical character recognition apparatus 101, an index is created using the character block. The detailed procedure is shown below.

図44は、本発明の第5の実施の形態における検索システムの構成を示す。   FIG. 44 shows the configuration of the search system according to the fifth embodiment of the present invention.

同図に示すシステムにおいて、第2の実施の形態と同様の構成要素には同一符号を付し、その説明を省略する。   In the system shown in the figure, the same components as those of the second embodiment are denoted by the same reference numerals, and the description thereof is omitted.

なお、クライアント部400、外部装置(特定文字列DB103以外)の構成・動作は第2の実施の形態と同様であるので、以降の説明では詳細を省略する。   Note that the configurations and operations of the client unit 400 and the external device (other than the specific character string DB 103) are the same as those in the second embodiment, and thus the details are omitted in the following description.

サーバ部500は、図10の構成に文字ブロック選別部510を付加した構成である。   The server unit 500 has a configuration in which a character block selection unit 510 is added to the configuration of FIG.

クライアント部600は、第2の実施の形態と同様である。   The client unit 600 is the same as that in the second embodiment.

外部装置は、第2の実施の形態に加え、特定文字列DB103がある。特定文字列DB103には、事前に特定文字列が登録されているものとする。光学文字認識装置101の誤認識の影響を軽減させるためには、光学文字認識装置が精度良く認識できる文字列を含む文字ブロックのみを利用することが望ましい。一般に、OCRソフトウェア等の光学文字認識装置101は内部に文字列辞書を保有しており、当該文字列辞書に登録されている語はそうでない語よりも精度良く認識できる。そこで、本実施の形態では、光学文字認識装置101が内部に図45のような文字列辞書を保有しており、当該辞書と同一内容が指示文字列DB103にも登録されているものとする。   The external device includes a specific character string DB 103 in addition to the second embodiment. It is assumed that a specific character string is registered in advance in the specific character string DB 103. In order to reduce the influence of misrecognition by the optical character recognition apparatus 101, it is desirable to use only a character block including a character string that can be accurately recognized by the optical character recognition apparatus. In general, the optical character recognition device 101 such as OCR software has a character string dictionary therein, and a word registered in the character string dictionary can be recognized with higher accuracy than a word other than that. Therefore, in the present embodiment, it is assumed that the optical character recognition apparatus 101 has a character string dictionary as shown in FIG. 45 and the same contents as the dictionary are also registered in the instruction character string DB 103.

ドキュメントは、文字を含むページの集合からなる紙媒体の書籍とする。本実施の形態でドキュメント読み取り装置101に入力されるドキュメント群200を構成している各ページ及びクライアント部400に入力されるドキュメントページ201の例を図46に示す。   The document is a paper medium book composed of a set of pages including characters. FIG. 46 shows an example of each page constituting the document group 200 input to the document reading apparatus 101 and the document page 201 input to the client unit 400 in this embodiment.

ドキュメント読み取り装置101は、サーバ部500のデータ入力部510に接続されている。光学文字認識装置101は、サーバ側データ送受信部360に接続されている。   The document reading apparatus 101 is connected to the data input unit 510 of the server unit 500. The optical character recognition device 101 is connected to the server-side data transmission / reception unit 360.

本実施の形態では、
(1)サーバ部500においてインデックスを作成する作業;
(2)クライアント部400からサーバ部500に問い合わせる作業;
を行う。
In this embodiment,
(1) Work of creating an index in the server unit 500;
(2) Work to inquire the server unit 500 from the client unit 400;
I do.

(1)サーバ部500においてインデックスを作成する作業:
図47は、本発明の第5の実施の形態におけるサーバ部でインデックスを作成する処理のフローチャートである。以下では、インデックス作成対象となるドキュメントを入力する入力ステップ(ステップ510,520)、各ドキュメントの各ページ内から文字ブロックを抽出する文字ブロック抽出ステップ(ステップ530)、特定文字列DBに登録されている語を含む文字ブロックを選択する文字ブロック選別ステップ(ステップ540)、検索を実行するためのインデックを出力する出力ステップ(ステップ550)を行う。
(1) Creating an index in the server unit 500:
FIG. 47 is a flowchart of processing for creating an index in the server unit according to the fifth embodiment of the present invention. In the following, an input step (steps 510 and 520) for inputting a document to be indexed, a character block extraction step (step 530) for extracting a character block from each page of each document, and a specific character string DB are registered. A character block selection step (step 540) for selecting a character block including a word is output, and an output step (step 550) for outputting an index for executing the search.

ステップ510) ドキュメント群200の各ドキュメントの各ページを、ドキュメント読み取り装置101で読み取り、データ入力部310に渡す。ここで、ドキュメント読み取り装置101は、紙媒体に印刷されたテキストを読み取ってPDFファイルに変換する一般装置であり、OCR機能付スキャナ等がこれに該当する。ここでは、各ページ中のテキストは紙媒体に印刷された状態における改ページ位置、改行位置が保持されたままPDFファイルに変換されるものとする。   Step 510) Each page of each document in the document group 200 is read by the document reading device 101 and transferred to the data input unit 310. Here, the document reading device 101 is a general device that reads text printed on a paper medium and converts it into a PDF file, and corresponds to a scanner with an OCR function. Here, it is assumed that the text in each page is converted into a PDF file while maintaining the page break position and the line feed position in a state printed on a paper medium.

ステップ520) データ入力部510は、ドキュメント読み取り装置101から渡されたPDFファイル群を読み込み、図39に示すデータ構造でリスト化して、サーバ部500の文字ブロック抽出部320に渡す。なお、説明の便宜上、ここでは、各ページを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ページを一意に識別できる情報であれば他の情報を利用しても構わない。   Step 520) The data input unit 510 reads the PDF file group passed from the document reading device 101, lists it in the data structure shown in FIG. 39, and passes it to the character block extraction unit 320 of the server unit 500. For convenience of explanation, the file name is used as information uniquely indicating each page. However, other information may be used as long as the information can uniquely identify the page, such as a hash value of the file. Absent.

ステップ530) サーバ部500の文字ブロック抽出部320は、データ入力部310から渡されたリストに記載されている各ページを読み込み、各ページから文字ブロック群を文字ブロック抽出ルール記憶部321のルールに則って抽出し、各文字ブロックと各文字ブロックの抽出元ページのファイル名と該ページにおける該文字ブロックの出現位置を関連付けて、文字ブロック選別部510に渡す。   Step 530) The character block extraction unit 320 of the server unit 500 reads each page described in the list passed from the data input unit 310, and uses the character block group from each page as a rule of the character block extraction rule storage unit 321. Accordingly, each character block, the file name of the extraction source page of each character block, and the appearance position of the character block on the page are associated with each other and passed to the character block selection unit 510.

ここで「文字ブロック」は、ステップ130と同様に十字型の形状で図40のように抽出する。   Here, the “character block” is extracted in a cross shape as shown in FIG.

また、「文字ブロック抽出ルール」は、図41のように、左上隅から右下隅方向へ1文字ずつずらしながら抽出することとする。   Also, the “character block extraction rule” is extracted while shifting one character at a time from the upper left corner toward the lower right corner as shown in FIG.

図42に文字ブロック抽出部320の処理結果を示す。同図では、文字ブロック抽出部320でステップ530の処理を行った結果を示しており、このデータが文字ブロック選別部510に渡される。なお、ここでは、文字ブロックを、文字ブロックを構成する文字を上方、左方から順番に並べて表現している。   FIG. 42 shows the processing result of the character block extraction unit 320. The figure shows the result of the processing at step 530 performed by the character block extraction unit 320, and this data is passed to the character block selection unit 510. Here, the character block is expressed by arranging the characters constituting the character block in order from the top and the left.

ステップ540) 文字ブロック選別部510は、文字ブロック抽出部320から渡された各文字ブロックについて、特定文字列DB103に問い合わせを行い、特定文字列DB103に登録されている語を含む文字ブロックのみを選別する。   Step 540) The character block selection unit 510 makes an inquiry to the specific character string DB 103 for each character block passed from the character block extraction unit 320, and selects only character blocks including words registered in the specific character string DB 103. To do.

図48は、本発明の第5の実施の形態における文字ブロック選別部の処理結果を示す。同図では、文字ブロック選別部510でステップ540の処理を行った結果を示しており、このデータがインデックス出力部330に渡される。   FIG. 48 shows the processing result of the character block selection unit in the fifth embodiment of the present invention. The figure shows the result of the processing of step 540 performed by the character block selection unit 510, and this data is passed to the index output unit 330.

ステップ550) インデックス出力部330は、文字ブロック選別部510から渡された各文字ブロックを、図48のデータ構造でインデックスDB54に格納する。これにより、文字ブロックを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB340を実現する。   Step 550) The index output unit 330 stores each character block passed from the character block selection unit 510 in the index DB 54 with the data structure of FIG. As a result, an index DB 340 is realized that uses a character block as an inquiry key and returns a file name and an appearance position as an inquiry result.

なお、サーバ部500のコンテンツDB350及び、(2)クライアント部400からサーバ部500に問い合わせる作業は、第2の実施の形態と同様であるので、その説明を省略する。   Note that the contents DB 350 of the server unit 500 and (2) work for inquiring of the server unit 500 from the client unit 400 are the same as those in the second embodiment, and thus the description thereof is omitted.

[第6の実施の形態]
本実施の形態では、第2の実施の形態よりもインデックスサイズを小さくし、かつ、光学文字認識処理の誤認識の影響を軽減し、かつ、ドキュメント中のどの位置にインデックスが作成されているかクライアント部を利用するユーザに分かりやすいように、ドキュメント及びインデックスを作成する方法について説明する。
[Sixth Embodiment]
In the present embodiment, the index size is made smaller than in the second embodiment, the influence of erroneous recognition in the optical character recognition process is reduced, and the position in the document where the index is created is the client. A method for creating a document and an index will be described so that the user who uses the section can easily understand.

具体的には、第5の実施の形態において、特定文字列DB103及びドキュメントを以下のように変更する。   Specifically, in the fifth embodiment, the specific character string DB 103 and the document are changed as follows.

特定文字列DB103には、事前に特定文字列が登録されているものとする。光学文字認識装置101の誤認識の影響を軽減させるためには、光学文字認識装置が精度良く認識できる文字列のみを含む文字ブロックのみを利用することが望ましい。一般に、OCR、ソフトウェア等の光学文字認識装置は、「▼(逆三角形)」のようなシンプルな形状であり、かつ類似する文字が少ない文字ほど精度良く認識できる。ここでは、特定文字列DB103に「▼」が登録されているとする。なお、本実施の形態では、「▼」のみが登録されているとして以降の説明を行うが、「■」、「●」等の文字が登録されていてもよい。また、所定の出現頻度以下(例えば文書中の出現頻度が2回以下)文字を特定文字列としてもよい。   It is assumed that a specific character string is registered in advance in the specific character string DB 103. In order to reduce the influence of erroneous recognition of the optical character recognition device 101, it is desirable to use only character blocks including only character strings that can be accurately recognized by the optical character recognition device. In general, an optical character recognition device such as OCR or software has a simple shape such as “▼ (inverted triangle)” and can recognize a character with fewer similar characters with higher accuracy. Here, it is assumed that “▼” is registered in the specific character string DB 103. In the present embodiment, the following description is given assuming that only “▼” is registered, but characters such as “■” and “●” may be registered. Moreover, it is good also considering a character below a predetermined appearance frequency (for example, the appearance frequency in a document is 2 times or less) as a specific character string.

ドキュメントは図49に示すように、複数のページからなり、各ページに複数行の文字列を含む紙媒体とし、特定文字列をインデックスを作成したい書籍位置に記載して作成する。もしくは、既存のドキュメント中の各書籍位置に初めから記載されていた文字を特定文字列とみなしてもよい。ここでは、特定文字列として、「▼」を用いる。この文字は通常の文章中に頻出する文字ではないので、クライアント部400を利用するユーザに対して、インデックス作成箇所の目印になる。また、図50のように、ドキュメント内に複数のQRコード(二次元コード)が存在する場合と比べ、1文字で表現できる「▼」は、ドキュメント内で占有する面積が少なくて済む。なお、本実施の形態では、「▼」のみを特定文字列とするが、「■」「●」等を特定文字列としてもよい。   As shown in FIG. 49, the document is made up of a plurality of pages, a paper medium including a plurality of lines of character strings on each page, and a specific character string is written at a book position where an index is to be created. Or you may consider the character described from the beginning in each book position in the existing document as a specific character string. Here, “▼” is used as the specific character string. Since this character is not a character that appears frequently in normal sentences, it becomes a mark for creating an index for a user who uses the client unit 400. Further, as shown in FIG. 50, “▼” that can be expressed by one character requires less area to be occupied in the document than when a plurality of QR codes (two-dimensional codes) exist in the document. In the present embodiment, only “▼” is the specific character string, but “■”, “●”, etc. may be the specific character string.

以降の処理は、第5の実施の形態と同様であるので、その説明を省略する。   Since the subsequent processing is the same as that of the fifth embodiment, the description thereof is omitted.

[第7の実施の形態]
本実施の形態では、検索装置に含まれる、検索を実行するためのインデックスを作成する部分(インデックス作成装置)についてのみ言及する。
[Seventh embodiment]
In the present embodiment, only a part (index creation device) that creates an index for executing a search included in the search device will be described.

図51は、本発明の第7の実施の形態におけるインデックス作成装置の構成を示す。同図に示すインデックス作成装置は、ドキュメント入力部1010、基本文字列抽出部1011、周辺文字列抽出部1012、インデックス出力部1013、インデックスDB1014から構成される。   FIG. 51 shows the configuration of the index creation device in the seventh embodiment of the present invention. The index creation apparatus shown in FIG. 1 includes a document input unit 1010, a basic character string extraction unit 1011, a peripheral character string extraction unit 1012, an index output unit 1013, and an index DB 1014.

ドキュメントは、図52に示すように、複数のページからなり、各ページに複数行の文字列を含み、異なる閲覧環境(OS,PDF閲覧ソフト等)においても文章の改行位置が変化しない電子ファイル(PDFファイル等)とする。なお、図52は文章のみからなるドキュメントの例であるが、ドキュメントには図や表などの文字以外の情報が含まれていてもよい。   As shown in FIG. 52, the document is composed of a plurality of pages, each page includes a plurality of lines of character strings, and an electronic file in which the line break position of the sentence does not change even in different browsing environments (OS, PDF browsing software, etc.) PDF file). Note that FIG. 52 is an example of a document consisting only of text, but the document may include information other than characters such as a figure and a table.

また、基本文字列抽出部1011と周辺文字列抽出部1012は抽出した文字列を格納するメモリ(図示せず)を有するものとする。   The basic character string extraction unit 1011 and the surrounding character string extraction unit 1012 have a memory (not shown) for storing the extracted character string.

以下に、本実施の形態における処理フローを示す。   The processing flow in the present embodiment is shown below.

図53は、本発明の第7の実施の形態における処理のフローチャートである。   FIG. 53 is a flowchart of processing in the seventh embodiment of the present invention.

ステップ1001) ドキュメント入力部1010は、分析対象のドキュメント群の入力を受け付ける。   Step 1001) The document input unit 1010 receives an input of a document group to be analyzed.

ステップ1002) ドキュメント入力部1010は、該ドキュメント群に含まれるドキュメントのリストを図54に示すデータ構造で基本文字列抽出部1011に渡す。リスト内の各要素は、各ドキュメントを一意に示すものとする。なお、説明の便宜上、ここでは各ドキュメントを一意に示す情報としてファイル名を用いているが、ファイルのハッシュ値等、ドキュメントを一意に識別できる情報であれば他の情報を利用しても構わない。   Step 1002) The document input unit 1010 passes the list of documents included in the document group to the basic character string extraction unit 1011 in the data structure shown in FIG. Each element in the list shall uniquely indicate each document. For convenience of explanation, the file name is used as information uniquely indicating each document. However, other information may be used as long as the information can uniquely identify the document, such as a hash value of the file. .

ステップ1003) 基本文字列抽出部1011は、ドキュメント入力部1010から渡されたリストに記載されている各ドキュメントを読み込み、各ドキュメントから基本文字列群を抽出し、各基本文字列の抽出元ドキュメントのファイル名と該ドキュメントにおける該基本文字列の出現位置を関連付けて、周辺文字列抽出部1012に渡す。ここで、「基本文字列」とは、文字列分割手法を用いて文章を特定の単位に分割したものである。例えば、形態素解析を用いて文章を単語単位に分割したもの、あるいは、N-gram法を用いて文章をN文字(あるいはN単語)の連なりに分割したものがあげられる。ここでは、図55のように、文字の2−gram方式で分割を行うものとする。また、「基本文字列の出現位置」とは、基本文字列がドキュメントのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、ページ、行、列の粒度で表現することとする。   Step 1003) The basic character string extraction unit 1011 reads each document described in the list passed from the document input unit 1010, extracts a basic character string group from each document, and extracts the basic character string extraction source document. The file name and the appearance position of the basic character string in the document are associated with each other and passed to the surrounding character string extraction unit 1012. Here, the “basic character string” is a sentence divided into specific units using a character string dividing method. For example, the sentence is divided into words using morphological analysis, or the sentence is divided into a series of N characters (or N words) using the N-gram method. Here, as shown in FIG. 55, it is assumed that the character is divided by the 2-gram method. The “appearance position of the basic character string” is position information indicating at which position in the document the basic character string appears with an arbitrary granularity according to the purpose of the system. Here, the page, row, and column granularity are used.

図56は、本発明の第7の実施の形態における基本文字列抽出部の処理結果を示す。同図では、基本文字列抽出部1011でステップ1003の処理を行った結果を示しており、このデータが周辺文字列抽出部1012に渡される。   FIG. 56 shows the processing result of the basic character string extraction unit in the seventh embodiment of the present invention. The figure shows the result of the processing in step 1003 performed by the basic character string extraction unit 1011, and this data is passed to the surrounding character string extraction unit 1012.

ステップ1004) 周辺文字列抽出部1012は、基本文字列抽出部1011から渡された各基本文字列をメモリ(図示せず)に格納し、当該基本文字列の周辺文字列群を抽出し、該基本文字列と該周辺文字列群を関連付けてメモリ(図示せず)に格納し、インデックス出力部1013に渡す。ここでは、図57に示すように、各基本文字列の1文字目の上・左、下の各1文字を周辺文字列とする。なお、基本文字列の上・左・下だけでなく、上・左上・左・左下・下・右下・右・右上等、基本文字列の周辺に位置する他の文字列を利用しても構わない。   Step 1004) The peripheral character string extraction unit 1012 stores each basic character string passed from the basic character string extraction unit 1011 in a memory (not shown), extracts a peripheral character string group of the basic character string, The basic character string and the peripheral character string group are associated with each other, stored in a memory (not shown), and passed to the index output unit 1013. Here, as shown in FIG. 57, each of the upper, left, and lower characters of the first character of each basic character string is set as a peripheral character string. In addition to the top, left, and bottom of the basic character string, other character strings located around the basic character string, such as top, top left, left, bottom left, bottom, bottom right, right, top right, etc. may be used. I do not care.

図58は、本発明の第1の実施の形態における周辺文字列抽出部の処理結果を示す。同図では、周辺文字列抽出部1012でステップ1004の処理を行った結果を示しており、このデータがインデックス出力部1013に渡される。   FIG. 58 shows the processing result of the surrounding character string extraction unit in the first embodiment of the present invention. In the figure, the result of the processing in step 1004 performed by the peripheral character string extraction unit 1012 is shown, and this data is passed to the index output unit 1013.

ステップ1005) インデックス出力部1013は、周辺文字列抽出部1012から渡された各基本文字列と周辺文字列が関連付けられたものを、図58のデータ構造でインデックスDB1014に格納する。これにより、基本文字列及び周辺文字列の組み合わせを問い合わせキーとし、ファイル名及び出現位置を問い合わせ結果として返すインデックスDB1014を実現する。   Step 1005) The index output unit 1013 stores, in the index DB 1014, the data structure shown in FIG. 58 in which each basic character string passed from the peripheral character string extraction unit 1012 is associated with the peripheral character string. Thus, an index DB 1014 is realized that uses a combination of a basic character string and a surrounding character string as an inquiry key and returns a file name and an appearance position as an inquiry result.

上記のように、ドキュメントのインデックスを作成する際に、文字・単語の前後の連なりだけでなく、ユーザがドキュメントを閲覧する際のドキュメント(印刷物、PDFファイル等)における文字の位置関係に着目し、基本文字列とその周辺文字列を関連付けてインデックスのキーとすることにより、各ドキュメントに固有になりやすい文字列パターンを、少ない文字数で表現できるため、識別能力が高く、ロバスト性が高いインデックスを実現できる。   As described above, when creating a document index, not only the sequence of characters and words, but also the positional relationship of characters in the document (printed material, PDF file, etc.) when the user views the document, By associating the basic character string and the surrounding character string and using it as an index key, the character string pattern that tends to be unique to each document can be expressed with a small number of characters, thus realizing an index with high identification capability and high robustness. it can.

[第8の実施の形態]
図59は、本発明の第8の実施の形態における検索システムの構成図である。
[Eighth Embodiment]
FIG. 59 is a block diagram of the search system in the eighth embodiment of the present invention.

同図に示すシステムは、大きく分けてサーバ部1、クライアント部3、外部装置からなる。   The system shown in the figure is roughly divided into a server unit 1, a client unit 3, and an external device.

サーバ部1は、データ入力部20、基本文字列抽出部21、周辺文字列抽出部22、インデックス出力部23、インデックスDB24,コンテンツDB25,サーバ側データ送受信部26、DB問い合わせ部27からなる。   The server unit 1 includes a data input unit 20, a basic character string extraction unit 21, a peripheral character string extraction unit 22, an index output unit 23, an index DB 24, a content DB 25, a server side data transmission / reception unit 26, and a DB inquiry unit 27.

クライアント部3は、クライアント側デバイス30、クライアント側デバイス30を構成するドキュメント撮影部31、クライアント側デバイス30を構成するコンテンツ表示部32、クライアント側データ送受信部33からなる。   The client unit 3 includes a client side device 30, a document photographing unit 31 constituting the client side device 30, a content display unit 32 constituting the client side device 30, and a client side data transmitting / receiving unit 33.

外部装置は、ドキュメント読み取り装置100、光学文字認識装置101からなる。本実施の形態でドキュメント読み取り装置100に入力されるドキュメント群200、クライアント部3に入力されるドキュメントページ201の例を図60に示す。ドキュメントは、同図に示すように、複数のページからなり、各ページに複数行の文字列を含む紙媒体とする。   The external device includes a document reading device 100 and an optical character recognition device 101. An example of a document group 200 input to the document reading apparatus 100 and a document page 201 input to the client unit 3 in the present embodiment is shown in FIG. As shown in the figure, the document is a paper medium including a plurality of pages and each page including a plurality of lines of character strings.

ドキュメント読み取り装置100は、サーバ部1のデータ入力部20に接続されている。光学文字認識装置101はサーバ側データ送受信部26に接続されている。   The document reading device 100 is connected to the data input unit 20 of the server unit 1. The optical character recognition device 101 is connected to the server-side data transmission / reception unit 26.

本実施の形態では、
(1)サーバ部1においてインデックスを作成する作業;
(2)クライアント部3からサーバ部1に問い合わせる作業;
を行う。
In this embodiment,
(1) Work to create an index in the server unit 1;
(2) Work for inquiring the server unit 1 from the client unit 3;
I do.

(1)サーバ部1においてインデックスを作成する作業:
当該処理は、前述の第7の実施の形態におけるインデックス作成装置に相当する。
(1) Work to create an index in the server unit 1:
This process corresponds to the index creation device in the seventh embodiment described above.

図61は、本発明の第8の実施の形態におけるサーバ側の処理のフローチャートである。   FIG. 61 is a flowchart of processing on the server side according to the eighth embodiment of the present invention.

ステップ2001) ドキュメント群200は、図60のように、複数のページからなり、各ページに複数行の文字列を含む紙媒体の書籍群とする。各書籍には、それぞれを一意に識別できる書名が付いているものとする。なお、説明の便宜上、ここでは各ドキュメントを一意に示す情報として書名を用いているが、書籍のISBN等、ドキュメントを一意に識別できる情報であれば他の情報を利用してもよい。   Step 2001) As shown in FIG. 60, the document group 200 is composed of a plurality of pages, and a book group of paper media including a plurality of lines of character strings on each page. It is assumed that each book has a book name that can uniquely identify each book. For convenience of explanation, the title is used as information uniquely indicating each document. However, other information such as ISBN of a book may be used as long as the information can uniquely identify the document.

ドキュメント読み取り装置100は、紙媒体に印刷されたテキストを読み取ってテキストファイルに変換する一般装置であり、OCR機能付きスキャナ等がこれに該当する。ここでは、ドキュメント中のテキストは紙媒体に印刷された状態における改ページ位置、改行位置が保持されたままテキストファイルに変換されるものとする。   The document reading device 100 is a general device that reads text printed on a paper medium and converts it into a text file, and corresponds to a scanner with an OCR function. Here, it is assumed that the text in the document is converted into a text file while maintaining the page break position and the line feed position in a state printed on a paper medium.

ステップ2002) データ入力部20は、ドキュメント読み取り装置100から渡されたテキストファイル群を読み込み、図62に示すデータ構造でリスト化して、サーバ1の基本文字列抽出部21に渡す。   Step 2002) The data input unit 20 reads the text file group passed from the document reading device 100, lists it in the data structure shown in FIG. 62, and passes it to the basic character string extraction unit 21 of the server 1.

ステップ2003) サーバ1の基本文字列抽出部21は、データ入力部20から渡されたリストに記載されている各ドキュメントを読み込み、各ドキュメントから基本文字列群を抽出し、各基本文字列の抽出元ドキュメントのテキストファイル名と該ドキュメントにおける該基本文字列の出現位置を関連付けて、周辺文字列抽出部22に渡す。   Step 2003) The basic character string extraction unit 21 of the server 1 reads each document described in the list passed from the data input unit 20, extracts a basic character string group from each document, and extracts each basic character string. The text file name of the original document and the appearance position of the basic character string in the document are associated with each other and passed to the peripheral character string extraction unit 22.

ここで、「基本文字列」とは、文字列分割手法を用いて文章を特定の単位に分割したものである。例えば、形態素解析を用いて文章を単語単位に分割したもの、あるいは、N-gram法を用いて文章をN文字(あるいはN単語)の連なりに分割したものがあげられる。ここでは、図63のように文字の2-gram方式で分割を行うものとする。   Here, the “basic character string” is a sentence divided into specific units using a character string dividing method. For example, the sentence is divided into words using morphological analysis, or the sentence is divided into a series of N characters (or N words) using the N-gram method. Here, it is assumed that the character is divided by the 2-gram method as shown in FIG.

「基本文字列の出現位置」とは、基本文字列がドキュメントのどの位置に出現しているか、システムの目的に応じて任意の粒度で示す位置情報である。ここでは、ページ、行、列の粒度で表現することとする。   The “appearance position of the basic character string” is position information indicating at which position in the document the basic character string appears in an arbitrary granularity according to the purpose of the system. Here, the page, row, and column granularity are used.

図64に示すのは、基本文字列抽出部21にて上記の処理を行った結果であり、このデータが周辺文字列抽出部22に渡される。   FIG. 64 shows the result of the above processing performed by the basic character string extraction unit 21, and this data is passed to the surrounding character string extraction unit 22.

ステップ2004) 周辺文字列抽出部22は、基本文字列抽出部21から渡された基本文字列(図64)について、該基本文字列の周辺文字列群を抽出し、該基本文字列と該周辺文字列群を関連付けて、インデックス出力部23に渡す。ここでは、図65に示すように、各基本文字列の1文字目の上・左・下の各1文字を周辺文字列とする。なお、基本文字列の上・左・下だけでなく、上・左上・左・左下・下・右下・右・右上等、基本文字列の周辺に位置する他の文字列を利用しても構わない。   Step 2004) The peripheral character string extraction unit 22 extracts a peripheral character string group of the basic character string from the basic character string (FIG. 64) passed from the basic character string extraction unit 21, and the basic character string and the peripheral character string. The character string group is associated and passed to the index output unit 23. Here, as shown in FIG. 65, each of the upper, left, and lower characters of the first character of each basic character string is set as a peripheral character string. In addition to the top, left, and bottom of the basic character string, other character strings located around the basic character string, such as top, top left, left, bottom left, bottom, bottom right, right, top right, etc. may be used. I do not care.

図66は、本発明の第8の実施の形態における周辺文字列抽出部の処理結果を示す。同図に示すデータがインデックス出力部23に渡される。   FIG. 66 shows the processing result of the surrounding character string extraction unit in the eighth embodiment of the present invention. The data shown in the figure is passed to the index output unit 23.

ステップ2005) インデックス出力部23は、周辺文字列抽出部22から渡された各基本文字列と周辺文字列が関連付けられたものを、図66のデータ構造でインデックスDB24に格納する。   Step 2005) The index output unit 23 stores, in the index DB 24, the data structure shown in FIG. 66 in which each basic character string passed from the peripheral character string extraction unit 22 is associated with the peripheral character string.

なお、サーバ1のコンテンツDB25には、書籍出版社、あるいは、一般ユーザが作成した、各書籍内の各位置(ページ、行、列等)に関係したコンテンツ及び該コンテンツに関する情報を格納しておく。コンテンツ及び該コンテンツに関する情報をコンテンツDB25に格納するために格納作業専用端末を用意してもよいし、格納作業用Webアプリケーションを用意して不特定多数のユーザがWebブラウザを通じて自由にコンテンツ及び該コンテンツに関する情報を格納できるようにしてもよい。コンテンツの例としては、観光名所案内であれば各地を訪れた旅行者の体験談、化学教科書であれば化学実験映像等が挙げられる。ここでは、サーバ1上のデータ格納領域にコンテンツの実体を格納し、図67に示すデータ構造でコンテンツと各書籍内の各位置の関係を格納する。   The content DB 25 of the server 1 stores content related to each position (page, row, column, etc.) in each book created by a book publisher or a general user and information related to the content. . A storage work dedicated terminal may be prepared to store content and information related to the content in the content DB 25, or a storage work Web application is prepared so that an unspecified number of users can freely access the content and the content through a Web browser. It may be possible to store information regarding. Examples of contents include experiences of tourists who have visited various places for tourist attractions, and chemical experiment videos for chemical textbooks. Here, the substance of the content is stored in the data storage area on the server 1, and the relationship between the content and each position in each book is stored in the data structure shown in FIG.

(2)クライアント部3からサーバ部1に問い合わせる作業:
図68は、本発明の第8の実施の形態におけるクライアント部からサーバ部に問い合わせる処理のフローチャートである。
(2) Inquiry from the client unit 3 to the server unit 1:
FIG. 68 is a flowchart of processing for inquiring from the client unit to the server unit according to the eighth embodiment of the present invention.

ステップ3001) ドキュメントページ201は、ドキュメント群200に含まれる1件の書籍の1ページである。クライアント側デバイス30は、ドキュメント撮影部31、コンテンツ表示部32からなる。   Step 3001) The document page 201 is one page of one book included in the document group 200. The client side device 30 includes a document photographing unit 31 and a content display unit 32.

ドキュメント撮影部31は、ドキュメントページ201の全体、または一部分を光学的に撮影して、撮影内容を画像ファイルとして保存し、クライアント側データ送受信部33に渡す。ここでは、図69に示すドキュメントページの一部分が撮影され、図70に示す画像ファイルが作成されたとする。   The document photographing unit 31 optically photographs the whole or part of the document page 201, stores the photographing content as an image file, and passes it to the client side data transmitting / receiving unit 33. Here, it is assumed that a part of the document page shown in FIG. 69 is photographed and the image file shown in FIG. 70 is created.

クライアント側データ送受信部33は、ドキュメント撮影部31から渡された画像ファイルをネットワークを通じてサーバ部1のデータ送受信部26に渡す。   The client side data transmitting / receiving unit 33 transfers the image file transferred from the document photographing unit 31 to the data transmitting / receiving unit 26 of the server unit 1 through the network.

ステップ3002) サーバ側データ送受信部26は、光学文字認識装置101を利用して、クライアント側データ送受信部33から渡された画像ファイルから図71に示すテキストデータを抽出し、基本文字列抽出部21に渡す。なお、光学文字認識装置101は、一般的なOCRソフトウェア等であり、文字が撮影されたが画像から文字情報を抽出し、テキストデータとしてコンピュータが利用できる形式に変換する一般装置である。   Step 3002) The server-side data transmitting / receiving unit 26 uses the optical character recognition device 101 to extract the text data shown in FIG. 71 from the image file passed from the client-side data transmitting / receiving unit 33, and the basic character string extracting unit 21 To pass. The optical character recognition device 101 is general OCR software or the like, and is a general device that extracts character information from an image but converts it into a format that can be used by a computer as text data.

ステップ3003) 基本文字列抽出部21は、サーバ側データ送受信部26から渡されたテキストデータを読み込み、テキストデータにおける最初の行、最後の行、最初の列、最後の列を除く部分(図72の点線で囲まれた部分)から、図73のように文字の2-gram方式で分割を行う方式で基本文字列を抽出し、図74に示すデータ構造で周辺文字列抽出部22に渡す。   Step 3003) The basic character string extracting unit 21 reads the text data passed from the server-side data transmitting / receiving unit 26, and removes the first line, the last line, the first column, and the last column in the text data (FIG. 72). 73), a basic character string is extracted by a method of dividing characters by the 2-gram method as shown in FIG. 73, and is passed to the surrounding character string extraction unit 22 by the data structure shown in FIG.

ステップ3004) 周辺文字列抽出部22は、基本文字列抽出部21から渡された各基本文字列について、該基本文字列の周辺文字列群を抽出し、該基本文字列と該周辺文字列群を関連付けて、DB問い合わせ部27に渡す。ここでは、図75に示すように、各基本文字列の1文字目の上・左・下の各1文字を周辺文字列とする。   Step 3004) The peripheral character string extracting unit 22 extracts a peripheral character string group of the basic character string for each basic character string passed from the basic character string extracting unit 21, and the basic character string and the peripheral character string group Are passed to the DB inquiry unit 27. Here, as shown in FIG. 75, each of the upper, left, and lower characters of the first character of each basic character string is set as a peripheral character string.

ステップ3005) DB問い合わせ部27は、図76に示すような周辺文字列抽出部22から渡された基本文字列と周辺文字列が関連付けられたデータを用いて、インデックスDB24及びコンテンツDB25に問い合わせを行う。   Step 3005) The DB inquiry unit 27 makes an inquiry to the index DB 24 and the content DB 25 using data in which the basic character string and the peripheral character string passed from the peripheral character string extraction unit 22 as shown in FIG. 76 are associated. .

まず、DB問い合わせ部27がインデックスDB24に対して問い合わせを行う。前述のとおり、インデックスDB24には、図66に示す構造でデータが格納されている。   First, the DB inquiry unit 27 makes an inquiry to the index DB 24. As described above, the index DB 24 stores data in the structure shown in FIG.

DB問い合わせ部27は、図76の基本文字列と各周辺文字列の組(例:「北東」と「名」「ツ」「ば」)を用いて、インデックスDB24に該基本文字列と該周辺文字列の組に対応するファイル名と出現位置を問い合わせ、問い合わせ結果を図77で示す形式で取得する。   The DB inquiry unit 27 uses the combination of the basic character string and each peripheral character string (eg, “northeast”, “name”, “tu”, “ba”) in FIG. The file name corresponding to the character string pair and the appearance position are inquired, and the inquiry result is obtained in the format shown in FIG.

ステップ3006) 次に、DB問い合わせ部27がコンテンツDB25に対して、上述の問い合わせ結果(図77)を用いて問い合わせを行う。前述のとおり、コンテンツDB25には、図67に示すデータ構造でデータが格納されている。DB問い合わせ部27は、図77の各ファイル名と各出現位置の組(例:「Germany_1.txt」と「1ページ2行7列目」)を用いて、コンテンツDB25に該ファイル名と該出現位置に対応するコンテンツタイプを問い合わせ、問い合わせ結果を図78に示す形式で取得し、コンテンツ・コンテンツタイプの組の重複を削除して図79に示す形式に変換する。   Step 3006) Next, the DB inquiry unit 27 makes an inquiry to the content DB 25 using the above inquiry result (FIG. 77). As described above, the content DB 25 stores data in the data structure shown in FIG. The DB inquiry unit 27 uses the combination of each file name and each appearance position (for example, “Germany_1.txt” and “1 page, 2nd row, 7th column”) in FIG. The content type corresponding to the position is inquired, the inquiry result is acquired in the format shown in FIG. 78, and the duplication of the content / content type pair is deleted and converted into the format shown in FIG.

ステップ3007) DB問い合わせ部27は、上述の問い合わせ結果(図79)をサーバ側データ送受信部26に渡す。   Step 3007) The DB inquiry unit 27 passes the inquiry result (FIG. 79) to the server-side data transmission / reception unit 26.

サーバ側データ送受信部26は、DB問い合わせ部27から渡されたデータ(コンテンツとコンテンツタイプ)(図79)をネットワークを通じてクライアント側データ送受信部33に渡す。   The server-side data transmission / reception unit 26 passes the data (content and content type) (FIG. 79) passed from the DB inquiry unit 27 to the client-side data transmission / reception unit 33 through the network.

ステップ3008) クライアント側データ送受信部33は、サーバ側データ送受信部26から渡されたデータ(図79)をコンテンツ表示部32に渡す。   Step 3008) The client-side data transmission / reception unit 33 passes the data (FIG. 79) passed from the server-side data transmission / reception unit 26 to the content display unit 32.

コンテンツ表示部32は、クライアント側データ送受信部33から渡されたデータ(図76)を、コンテンツ表示部32内部で予め設定されたコンテンツ表示手段(図80)を用いて表示する。   The content display unit 32 displays the data (FIG. 76) passed from the client-side data transmission / reception unit 33 using content display means (FIG. 80) preset in the content display unit 32.

[第9の実施の形態]
前述の第8の実施の形態のステップ3001において、撮影条件が悪く(光量不足、手ぶれ等)ドキュメント撮影部31が撮影した画像に品質が悪い場合に、ステップ3002で光学文字認識装置101が撮影画像から正確に文字を抽出できない場合がある。また、現在の技術水準においても、光学文字認識の精度は100%ではないため、撮影画像の品質が良い場合でも、一定確率で文字の誤認識が発生する。光学文字認識装置101において正しく文字認識が行われない場合、その誤った文字データに基づいてステップ3005,3006でDB問い合わせ部27がインデックスDB24及びコンテンツDB25に問い合わせを行っても、撮影したドキュメントの位置に関連付けられたコンテンツは得られない。
[Ninth Embodiment]
In step 3001 of the above-described eighth embodiment, when the shooting conditions are bad (insufficient light quantity, camera shake, etc.) and the quality of the image shot by the document shooting unit 31 is poor, the optical character recognition device 101 takes a shot image in step 3002. In some cases, characters cannot be extracted accurately from. Further, even in the current technical level, the accuracy of optical character recognition is not 100%, so that even when the quality of the captured image is good, erroneous recognition of characters occurs with a certain probability. If the optical character recognition apparatus 101 does not recognize characters correctly, the position of the photographed document can be obtained even if the DB inquiry unit 27 makes an inquiry to the index DB 24 and the content DB 25 in steps 3005 and 3006 based on the incorrect character data. Content associated with is not available.

本実施の形態では、このような画像品質が悪い状態でも正しい検索結果が得られるようにする例を説明する。   In the present embodiment, an example will be described in which a correct search result is obtained even in such a state where the image quality is poor.

例えば、ドキュメント撮影部31が図70に示す領域を撮影したが、画像品質が悪いため、光学文字認識装置101は、図71のように抽出すべきところ、図81のように抽出したとする。この状況でステップ3001〜3004を行い、図82に示す基本文字列・周辺文字列の組が得られたとする。   For example, it is assumed that the document photographing unit 31 has photographed the area shown in FIG. 70, but the image quality is poor, so that the optical character recognition device 101 should extract as shown in FIG. Assume that steps 3001 to 3004 are performed in this situation, and a basic character string / peripheral character string pair shown in FIG. 82 is obtained.

次に、ステップ3005において、DB問い合わせ部27がコンテンツDB25に対して、図82の基本文字列と周辺文字列の組を用いて問い合わせを行う。但し、図82の問い合わせ結果には誤認識された文字による誤ったデータが含まれているため、図38のデータを用いてコンテンツDB25に問い合わせた結果は、図82のように該当するデータが見つからなかったり、他のファイル名、出現位置を取得してしまったり(例えば、図83最下行)する。   Next, in step 3005, the DB inquiry unit 27 makes an inquiry to the content DB 25 using the combination of the basic character string and the peripheral character string shown in FIG. However, since the inquiry result of FIG. 82 includes erroneous data due to misrecognized characters, the result of inquiry to the content DB 25 using the data of FIG. 38 is that the corresponding data is found as shown in FIG. Or another file name or appearance position is acquired (for example, the bottom line in FIG. 83).

この問題を第8の実施の形態におけるステップ3006を図84に示す処理を行うことで解決する。図84に示すステップ4006,4007のようにすることで、ステップ3001においてドキュメント撮影部31の撮影画像の品質が悪い場合、あるいは、ステップ3002において光学文字認識装置101の認識精度が悪い場合にも対応できる。   This problem is solved by performing the process shown in FIG. 84 at step 3006 in the eighth embodiment. 84, when the quality of the captured image of the document photographing unit 31 is poor at step 3001, or when the recognition accuracy of the optical character recognition device 101 is poor at step 3002. it can.

図84は、本発明の第9の実施の形態における処理のフローチャートである。   FIG. 84 is a flowchart of processing in the ninth embodiment of the present invention.

以下では、図68のステップ3006,3007の代わりにステップ4006,4007のみ示し、他のステップは図68の処理と同様であるため、その説明を省略する。   In the following, only steps 4006 and 4007 are shown instead of steps 3006 and 3007 in FIG. 68, and the other steps are the same as the processing in FIG.

ステップ4006) DB問い合わせ部27がコンテンツDB25に対して、上述の問い合わせ結果(図83)を用いて問い合わせを行う。DB問い合わせ部27は図83の各ファイル名と各出現位置の組(ただし、該等データなしのものを除く)を用いて、コンテンツDB25に該ファイル名と該出現位置に対応するコンテンツとコンテンツタイプを問い合わせ、問い合わせ結果を図85に示す形式で取得し、コンテンツ・コンテンツタイプの組の重複数を集計して図86に示す形式に変換する。   Step 4006) The DB inquiry unit 27 makes an inquiry to the content DB 25 using the above inquiry result (FIG. 83). The DB inquiry unit 27 uses the set of each file name and each appearance position in FIG. 83 (excluding those having no such data), and stores the content corresponding to the file name, the appearance position, and the content type in the content DB 25. 85, the inquiry result is acquired in the format shown in FIG. 85, and the duplicates of the content / content type pairs are aggregated and converted into the format shown in FIG.

ステップ4007) DB問い合わせ部27は、上述の問い合わせ結果(図86)のうち、複数の異なるコンテンツが存在する場合は重複数が最大のもの(この例では重複数5件のNarrative_1.txt)をサーバ側データ送受信部26に渡す。   Step 4007) The DB inquiry unit 27 uses the above-described inquiry result (FIG. 86) as a server when the plurality of different contents are present, and the duplication number is the largest (in this example, five Narrative_1.txt). To the side data transmitter / receiver 26.

サーバ側データ送受信部26は、DB問い合わせ部27から渡されたデータ(図79)をネットワークを通じてクライアント側データ送受信部33に渡す。   The server-side data transmission / reception unit 26 passes the data (FIG. 79) passed from the DB inquiry unit 27 to the client-side data transmission / reception unit 33 through the network.

上記の処理を行った後、図68のステップ3008を行うことで、コンテンツ表示部32にて正しいコンテンツが表示される。   After performing the above processing, the correct content is displayed on the content display unit 32 by performing step 3008 of FIG.

上記のように、第1〜第9の実施の形態により、書籍等のレイアウトが特定されたコンテンツの全体ではなく、一部の上方の文字列配置を用いて、どのコンテンツのどの部分であるかを特定することができる。また、文字を読む方向以外の方向で、文字列を組み合わせてインデックスを作成することにより、少ない文字数で検索結果の誤り率を低く抑えることが可能となる。また、コンテンツ全体ではなく、一部の情報のみを用いて特定を行うため、コンテンツの位置特定粒度(ページ単位ではなく、行単位など)小さくすることもできるため、厳密な位置を特定することができる。   As described above, according to the first to ninth embodiments, which part of which content is not the whole content whose layout such as a book is specified, but a part of the upper character string arrangement. Can be specified. Also, by creating an index by combining character strings in directions other than the direction of reading characters, it is possible to reduce the error rate of search results with a small number of characters. In addition, since the specification is performed using only a part of the information, not the entire content, the content position specifying granularity (such as a line unit, not a page unit) can be reduced. it can.

なお、図3,51、に示すインデックス作成装置、図10、44,59に示すサーバ部及びクライアント部の構成要素の動作をプログラムとして構築し、インデックス作成装置、サーバ部、クライアント部として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。   The operation of the components of the index creation device shown in FIGS. 3 and 51 and the server unit and client unit shown in FIGS. 10, 44 and 59 is constructed as a program and used as the index creation device, server unit, and client unit. It can be installed in a computer and executed, or distributed via a network.

また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。   Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.

1 サーバ部
3 クライアント部
10 ドキュメント入力手段、ドキュメント入力部
11 文字ブロック抽出手段、文字ブロック抽出部
12 インデックス出力手段、インデックス出力部
13 インデックス記憶手段、インデックスDB
14 文字ブロック抽出ルール記憶部
20 データ入力部
21 基本文字列抽出部
22 周辺文字列抽出部
23 インデックス出力部
24 インデックスDB
25 コンテンツDB
26 サーバ側データ送受信部
27 DB問い合わせ部
30 クライアント側デバイス
31 ドキュメント撮影部
32 コンテンツ表示部
33 クライアント側データ送受信部
40 ドキュメント入力部
41 文字ブロック抽出部
42 文字ブロック選別
43 インデックス出力部
44 インデックスDB
46 特定文字列DB
100 ドキュメント読み取り装置
101 光学文字認識装置
103 特定文字列DB
200 ドキュメント群
201 ドキュメントページ
300 サーバ部
310 データ入力部
320 文字ブロック抽出部
321 文字ブロック抽出ルール記憶部
330 インデックス出力部
340 インデックスDB
350 コンテンツDB
360 サーバ側データ送受信部
370 DB問い合わせ部
400 クライアント部
410 クライアント部
411 ドキュメント撮影部
412 コンテンツ表示部
420 クライアント側データ送受信部
500 サーバ部
510 文字ブロック選別部
1010 ドキュメント入力部
1011 基本文字列抽出部
1012 周辺文字列中sh通部
1013 インデックス出力部
1014 インデックスDB
DESCRIPTION OF SYMBOLS 1 Server part 3 Client part 10 Document input means, Document input part 11 Character block extraction means, Character block extraction part 12 Index output means, Index output part 13 Index storage means, Index DB
14 character block extraction rule storage unit 20 data input unit 21 basic character string extraction unit 22 peripheral character string extraction unit 23 index output unit 24 index DB
25 Content DB
26 server-side data transmission / reception unit 27 DB inquiry unit 30 client-side device 31 document photographing unit 32 content display unit 33 client-side data transmission / reception unit 40 document input unit 41 character block extraction unit 42 character block selection 43 index output unit 44 index DB
46 Specific character string DB
100 Document Reading Device 101 Optical Character Recognition Device 103 Specific Character String DB
200 Document Group 201 Document Page 300 Server Unit 310 Data Input Unit 320 Character Block Extraction Unit 321 Character Block Extraction Rule Storage Unit 330 Index Output Unit 340 Index DB
350 Content DB
360 Server-side data transmission / reception unit 370 DB inquiry unit 400 Client unit 410 Client unit 411 Document photographing unit 412 Content display unit 420 Client-side data transmission / reception unit 500 Server unit 510 Character block selection unit 1010 Document input unit 1011 Basic character string extraction unit 1012 Character string sh pass part 1013 Index output part 1014 Index DB

Claims (22)

改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索装置であって、
インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段と、
ドキュメントの全体または一部領域から、文章を読む方向とそれに直交する方向を考慮した規定の形状内にある1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出手段と、
前記文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力手段と、
を有することを特徴とする検索装置。
Create a search index for responding to a search request to obtain a document in which the area appears and a position in the document by using a partial area in the document in which the page break or line break position is fixed as a search query. A search device to perform,
A document input means for accepting input of documents to be indexed;
A character block extracting means for extracting a character block consisting of a combination of one or more characters in a prescribed shape taking into account the direction in which the text is read and the direction orthogonal thereto, from the whole or a partial area of the document;
Index output means for associating the character block with an appearance position in the document in which the character block appears, and outputting to the index storage means;
A search device comprising:
前記文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とする文字ブロック選別手段を更に有する
請求項1記載の検索装置。
The search device according to claim 1, further comprising a character block selection unit that selects only one character string including one or more specific character strings from the character blocks and sets a target for subsequent processing.
前記特定文字列は、
予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする
請求項2記載の検索装置。
The specific character string is
The search device according to claim 2, wherein the character string includes one or more characters that uniformly appear in each area of the document to be analyzed specified in advance.
ドキュメントに存在する複数の文字ブロックを含む範囲をリージョンとして同一の検索結果候補として集計を行い、集計結果が一定基準を満たす検索結果候補リージョン群を検索結果として特定する検索手段を更に有する
請求項1記載の検索装置。
The search unit further includes a search unit that aggregates a range including a plurality of character blocks existing in a document as a region as a single search result candidate, and specifies a search result candidate region group that satisfies a certain criterion as a search result. The described search device.
ドキュメント内の特定位置に関連付けられたコンテンツが検索結果候補である場合に、
同一コンテンツが関連付けられた位置群を同一の検索結果候補として集計を行い、集計結果が一定基準を満たす検索結果候補群を検索結果として特定する検索手段を更に有する
請求項1記載の検索装置。
If the content associated with a specific location in the document is a search result candidate,
The search device according to claim 1, further comprising: a search unit that counts a group of positions associated with the same content as the same search result candidate, and specifies a search result candidate group that satisfies a certain criterion as a search result.
前記特定文字列は、文字が撮影された画像から文字情報を抽出する光学文字認識装置が利用する認識辞書記憶手段を参照して取得する
請求項2記載の検索装置。
The search device according to claim 2, wherein the specific character string is acquired with reference to a recognition dictionary storage unit used by an optical character recognition device that extracts character information from an image of a character photographed .
前記特定文字列は、
予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする
請求項2記載の検索装置。
The specific character string is
The search device according to claim 2, wherein the character string is one or more characters that do not appear more than a predetermined number of times in a document to be analyzed specified in advance.
前記特定文字列は、
予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする
請求項2記載の検索装置。
The specific character string is
The search device according to claim 2, wherein the search device is a character string of one or more characters composed of characters having a simple shape designated in advance.
あるドキュメント内の一部領域を検索クエリとして受け付ける入力手段と、
前記検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出手段と、
前記クエリ文字ブロックに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索手段と、
を更に有し、
前記検索手段は、
前記クエリ文字ブロックに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する
請求項1記載の検索装置。
An input means for accepting a partial area in a document as a search query;
Query character block extraction means for extracting a query character block consisting of a combination of one or more characters from the search query;
Search means for searching the index storage means based on the query character block and outputting the search results;
Further comprising
The search means includes
The search device according to claim 1, wherein the index storage unit is searched based on the query character block and the search result is output.
記入力手段は、
あるドキュメント内の一部領域を撮影した画像を、一般的な光学文字認識装置を用いて該画像に写っている文字列をテキストデータに変換した検索クエリを受け付ける手段を含む
請求項9記載の検索装置。
Before fill power means,
The search according to claim 9, further comprising means for receiving a search query obtained by converting an image obtained by capturing a partial area in a document into text data using a general optical character recognition device. apparatus.
前記検索結果であるドキュメント及び該ドキュメント内における位置に関連付けられたコンテンツを、検索結果と併せて、あるいは、単独で出力する手段を更に有する
請求項9記載の検索装置。
The search device according to claim 9, further comprising means for outputting the search result document and the content associated with the position in the document together with the search result or independently.
前記クエリ文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とするクエリ文字ブロック選別手段を更に有する
請求項記載の検索装置。
The search device according to claim 9 , further comprising a query character block selecting unit that selects only those including one or more specific character strings from the query character blocks to be processed later.
光学文字認識装置が利用する認識辞書に登録されている1文字以上の文字列を特定文字列とする
請求項12記載の検索装置。
The search device according to claim 12, wherein a character string of one or more characters registered in a recognition dictionary used by the optical character recognition device is set as a specific character string.
前記特定文字列は、
予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする
請求項12記載の検索装置。
The specific character string is
The search device according to claim 12, wherein the character string includes one or more characters that uniformly appear in each area of a document to be analyzed specified in advance.
前記特定文字列は、
予め指定された分析対象のドキュメントに所定の回数以上出現しない1文字以上の文字列とする
請求項12記載の検索装置。
The specific character string is
The search device according to claim 12, wherein the character string is one or more characters that do not appear more than a predetermined number of times in a document to be analyzed specified in advance.
前記特定文字列は、
予め指定されたシンプルな形状の文字からなる1文字以上の文字列とする
請求項12記載の検索装置。
The specific character string is
The search device according to claim 12, wherein the search device is a character string of one or more characters composed of characters of a simple shape designated in advance.
改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う装置における検索方法であって、
ドキュメント入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップと、
文字ブロック抽出手段が、ドキュメントの全体または一部領域から、文章を読む方向とそれに直交する方向を考慮した規定の形状内にある1文字以上の文字の組み合わせからなる文字ブロックを抽出する文字ブロック抽出ステップと、
インデックス出力手段が、前記文字ブロックと該文字ブロックが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップと、
を行うことを特徴とする検索方法。
Create a search index for responding to a search request to obtain a document in which the area appears and a position in the document by using a partial area in the document in which the page break or line break position is fixed as a search query. A search method in a device for performing
A document input means for receiving an input of a document to be indexed, and a document input step;
Character block extraction means for extracting a character block consisting of a combination of one or more characters within a specified shape taking into account the direction in which the text is read and the direction orthogonal thereto, from the whole or a partial area of the document Steps,
An index output means for associating the character block with an appearance position in the document in which the character block appears, and outputting to the index storage means;
The search method characterized by performing.
入力手段が、あるドキュメント内の一部領域を検索クエリとして受け付ける入力ステップと、
クエリ文字ブロック抽出手段が、前記検索クエリから、1文字以上の組み合わせからなるクエリ文字ブロックを抽出するクエリ文字ブロック抽出ステップと、
検索手段が、前記クエリ文字ブロックに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、
を更に行う請求項17記載の検索方法。
An input step in which the input means accepts a partial area in a document as a search query;
A query character block extracting means for extracting a query character block consisting of a combination of one or more characters from the search query;
A search means for searching the index storage means based on the query character block and outputting the search results;
18. The search method according to claim 17, further comprising:
文字ブロック選別手段が、前記文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とする文字ブロック選別ステップを更に行う
請求項17記載の検索方法。
18. The search method according to claim 17, wherein the character block selection means further performs a character block selection step to be processed later after selecting only the character block including one or more specific character strings.
前記特定文字列を、予め指定された分析対象のドキュメントの各領域に満遍なく出現する1文字以上の文字列とする
請求項19記載の検索方法。
The search method according to claim 19, wherein the specific character string is a character string of one or more characters that uniformly appears in each region of a document to be analyzed specified in advance.
クエリ文字ブロック選別手段が、前記クエリ文字ブロックの中から、1文字以上の特定文字列を含むものだけを選別して以降の処理対象とするクエリ文字ブロック選別ステップを更に行う
請求項18記載の検索方法。
19. The search according to claim 18, wherein the query character block selection means further selects only a query character block that includes one or more specific character strings from the query character blocks, and further performs a query character block selection step to be processed thereafter. Method.
請求項1乃至16のいずれか1項に記載の検索装置を構成する各手段としてコンピュータを機能させるための検索プログラム。   The search program for functioning a computer as each means which comprises the search device of any one of Claims 1 thru | or 16.
JP2009289788A 2009-08-04 2009-12-21 SEARCH DEVICE, METHOD, AND PROGRAM Active JP5384315B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009289788A JP5384315B2 (en) 2009-08-04 2009-12-21 SEARCH DEVICE, METHOD, AND PROGRAM

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009181819 2009-08-04
JP2009181819 2009-08-04
JP2009289788A JP5384315B2 (en) 2009-08-04 2009-12-21 SEARCH DEVICE, METHOD, AND PROGRAM

Publications (2)

Publication Number Publication Date
JP2011054148A JP2011054148A (en) 2011-03-17
JP5384315B2 true JP5384315B2 (en) 2014-01-08

Family

ID=43943036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009289788A Active JP5384315B2 (en) 2009-08-04 2009-12-21 SEARCH DEVICE, METHOD, AND PROGRAM

Country Status (1)

Country Link
JP (1) JP5384315B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205943A (en) * 2012-03-27 2013-10-07 Sony Corp Information processing apparatus, information processing method, program, and terminal
CN109918594B (en) * 2019-01-25 2023-12-05 深圳市元征科技股份有限公司 Information display method and device
JP7264240B2 (en) * 2019-04-19 2023-04-25 日本電気株式会社 Ordinal isomorphic matching device, ordinal isomorphic matching method, and program

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0678119A (en) * 1992-08-24 1994-03-18 Nissin Electric Co Ltd Picture filing device and picture reading and processing device
JPH0991305A (en) * 1995-09-27 1997-04-04 Canon Inc Method and device for information processing
JP2002197104A (en) * 2000-12-27 2002-07-12 Communication Research Laboratory Device and method for data retrieval processing, and recording medium recording data retrieval processing program
JP4474231B2 (en) * 2004-08-10 2010-06-02 日立オムロンターミナルソリューションズ株式会社 Document link information acquisition system
JP2006072520A (en) * 2004-08-31 2006-03-16 Canon Inc Information processor, its method and its program recording medium
JP4576211B2 (en) * 2004-11-22 2010-11-04 日立オムロンターミナルソリューションズ株式会社 Document information retrieval system
JP2009020567A (en) * 2007-07-10 2009-01-29 Mitsubishi Electric Corp Document retrieval device

Also Published As

Publication number Publication date
JP2011054148A (en) 2011-03-17

Similar Documents

Publication Publication Date Title
US8347206B2 (en) Interactive image tagging
US20070171482A1 (en) Method and apparatus for managing information, and computer program product
US20070180471A1 (en) Presenting digitized content on a network using a cross-linked layer of electronic documents derived from a relational database
US20090265631A1 (en) System and method for a user interface to navigate a collection of tags labeling content
CN103838566A (en) Information processing device, and information processing method
JP2010073114A6 (en) Image information retrieving apparatus, image information retrieving method and computer program therefor
CN107111618B (en) Linking thumbnails of images to web pages
JP2011511359A (en) Print structured documents
CN105637509A (en) Searching and annotating within images
CN111602129B (en) Smart search for notes and ink
JP5384315B2 (en) SEARCH DEVICE, METHOD, AND PROGRAM
JP5484113B2 (en) Document image related information providing apparatus and document image related information acquisition system
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP5196569B2 (en) Content search device, content search method and program
JP2007011973A (en) Information retrieval device and information retrieval program
CN115687566A (en) Method and device for full-text retrieval and retrieval result display
CN115203445A (en) Multimedia resource searching method, device, equipment and medium
JP2011034504A (en) Document processing device, document processing method, program, and storage medium
Ashok Kumar et al. An efficient scene content-based indexing and retrieval on video lectures
JP2005149210A (en) Image processor, method for controlling it, and program
JP5514002B2 (en) SEARCH DEVICE, METHOD, AND PROGRAM
KR101434773B1 (en) Method and apparatus for displaying photo-tag cloud
US20160085767A1 (en) Toponym resolution with one hundred percent recall
KR20020006223A (en) Automatic Indexing Robot System And A Method
JP5779412B2 (en) Client / server system, client device, server device, comment screen creation method in client / server system, client device program, server device program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131002

R150 Certificate of patent or registration of utility model

Ref document number: 5384315

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350