JP6561525B2 - Character extraction device, character extraction method, and character extraction program - Google Patents

Character extraction device, character extraction method, and character extraction program Download PDF

Info

Publication number
JP6561525B2
JP6561525B2 JP2015059389A JP2015059389A JP6561525B2 JP 6561525 B2 JP6561525 B2 JP 6561525B2 JP 2015059389 A JP2015059389 A JP 2015059389A JP 2015059389 A JP2015059389 A JP 2015059389A JP 6561525 B2 JP6561525 B2 JP 6561525B2
Authority
JP
Japan
Prior art keywords
image data
character extraction
unit
shape
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015059389A
Other languages
Japanese (ja)
Other versions
JP2016177754A (en
Inventor
史紀 岡崎
史紀 岡崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015059389A priority Critical patent/JP6561525B2/en
Publication of JP2016177754A publication Critical patent/JP2016177754A/en
Application granted granted Critical
Publication of JP6561525B2 publication Critical patent/JP6561525B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、文字抽出装置、文字抽出方法及び文字抽出プログラムに関する。   The present invention relates to a character extraction device, a character extraction method, and a character extraction program.

今日、官公庁や銀行などにおいては、例えばOCR(Optical Character Recognition)などにより帳票に記載された手書きの文字を抽出し、抽出した文字情報を電子データ化するシステムが用いられている。これにより、帳票に記載された情報をデータベース化し、膨大な数な帳票のデータを管理、利用することができる。   Today, in public offices and banks, for example, a system that extracts handwritten characters described in a form by OCR (Optical Character Recognition) or the like and converts the extracted character information into electronic data is used. As a result, the information described in the form can be converted into a database, and a large number of forms can be managed and used.

このようなシステムとして、罫線を有する帳票に記載された文字を抽出するために、文字と罫線とが混在する2値画像から罫線を除去する罫線除去方法が提案されている(特許文献1)。この方法では、画像中の横方向の罫線の黒ラン(スキャン方向の黒画素の連続部分)を検出し、縦方向の位置毎に横方向の始点と始点からの長さとからなるランレングステーブルを記憶する。次いで、ランレングステーブルに基づき、所定のしきい値以上の黒ランからなる罫線を画像中から除去する。そして、罫線を除去した画像から残存ノイズを消去し、後残存ノイズ消去後の画像に文字部分の垂直分離成分を結合する。この画像から、罫線除去処理で消去した文字部分の抽出を行う。最後に、抽出した文字部分を残存ノイズ消去後の画像に対し補完し、罫線除去により消去された文字部分を復元する。これにより、本方法では、罫線を高速に除去することができる。かつ、罫線と文字とが交差している場合でも、罫線を除去することで一緒に消去されてしまった文字部分の罫線との交差部分を高速に復元することができる。   As such a system, there has been proposed a ruled line removal method for removing ruled lines from a binary image in which characters and ruled lines are mixed in order to extract characters described in a form having ruled lines (Patent Document 1). In this method, a black run (a continuous portion of black pixels in the scan direction) in the horizontal direction in the image is detected, and a run length table consisting of the start point in the horizontal direction and the length from the start point is created for each vertical position. Remember. Next, based on the run length table, ruled lines composed of black runs that are equal to or greater than a predetermined threshold are removed from the image. Then, the residual noise is erased from the image from which the ruled lines are removed, and the vertical separation component of the character portion is combined with the image after the residual noise is eliminated. The character portion erased by the ruled line removal process is extracted from this image. Finally, the extracted character part is complemented to the image after the remaining noise is erased, and the character part erased by ruled line removal is restored. Thereby, in this method, ruled lines can be removed at high speed. Even if the ruled line and the character intersect, the intersection of the character part that has been erased together by removing the ruled line can be restored at high speed.

多種多様な様式を手掛かりとして個々の帳票を識別する帳票処理システムが提案されている(特許文献2)。この帳票処理システムでは、イメージスキャナ及び厚みセンサによって取り込まれたデータと帳票識別情報データベースに予め登録されている帳票識別情報とを照合することで、帳票を識別する。識別された帳票は、帳票仕分け部によって所定のポケットに入れられる。   There has been proposed a form processing system for identifying individual forms using various forms as clues (Patent Document 2). In this form processing system, a form is identified by collating data acquired by an image scanner and a thickness sensor with form identification information registered in advance in the form identification information database. The identified form is put into a predetermined pocket by the form sorting unit.

また、近年では、帳票上に記載された文字などの2次元情報のみならず、対象物の3次元形状を光学的に計測する3次元形状計測装置が提案されている。このような装置として、光切断法を用い、スリット光の反射光を2視点で捉える3次元形状計測装置が提案されている(特許文献3)。この装置は、スリット光の反射光を1視点で捉える場合と同等の解像度を実現し、かつ対象物の3次元形状を高精度に計測できる。具体的には、この3次元形状計測装置では、シリンドリカルレンズによりスリット光を集光して、対象物に照射する。2つの光学部が、スリット光の長手方向軸を挟んで配置され、照射されたスリット光の反射光をそれぞれ受光して導く。ハーフミラーが、対象物から2つの光学部を介してそれぞれ導かれる2つの反射光の光路長が等しくなる位置に配置され、これら2つの反射光を正確に重畳させる。そして、当該重畳した反射光をカメラ部で撮像して画像を取得する。   In recent years, not only two-dimensional information such as characters described on a form but also a three-dimensional shape measuring apparatus that optically measures a three-dimensional shape of an object has been proposed. As such an apparatus, a three-dimensional shape measuring apparatus that captures reflected light of slit light from two viewpoints using a light cutting method has been proposed (Patent Document 3). This apparatus achieves the same resolution as when the reflected light of the slit light is captured from one viewpoint, and can measure the three-dimensional shape of the object with high accuracy. Specifically, in this three-dimensional shape measuring apparatus, slit light is collected by a cylindrical lens and is irradiated onto an object. Two optical units are arranged across the longitudinal axis of the slit light, and receive and guide the reflected light of the irradiated slit light, respectively. The half mirror is disposed at a position where the optical path lengths of the two reflected lights respectively guided from the object through the two optical units are equal to each other, and these two reflected lights are accurately superimposed. Then, the superimposed reflected light is captured by the camera unit to obtain an image.

特開2000−322510号公報JP 2000-322510 A 特開2004−145385号公報JP 2004-145385 A 特開2014−35241号公報JP 2014-35241 A

ところが、発明者は、上述の手法には以下に示す問題点があることを見出した。帳票の文字抽出を行うには、記入欄に記載された文字と記入欄の属性(氏名、生年月日など)とを結びつける必要が有る。よって、帳票の画像データ内において、記入欄の位置を特定しなければならない。そのために、帳票用紙の形状を正確に認識する必要が有る。   However, the inventor has found that the above-described method has the following problems. In order to perform character extraction of a form, it is necessary to connect the characters described in the entry column and the attributes (name, date of birth, etc.) of the entry column. Therefore, the position of the entry field must be specified in the image data of the form. Therefore, it is necessary to accurately recognize the form of the form paper.

しかし、上記したような文字抽出においては、例えば帳票用紙の形状を、帳票用紙と背景(帳票が置かれるマットや机の天板など)との色の違いにより、帳票用紙の形状を検出する。この場合、帳票用紙と背景の色が同一ないし近似している場合には、帳票用紙の形状を検出することが困難である。また、帳票を利用するユーザが、帳票の仕分けのために帳票用紙の外周にペンなどでマーキングするなどの予期せぬ加工を行った場合、本来の帳票用紙の色とは異なってしまう。この場合も、帳票用紙の形状を正確に認識することができなくなるおそれがある。   However, in the character extraction as described above, for example, the shape of the form paper is detected based on the color difference between the form paper and the background (such as a mat on which the form is placed or a table top). In this case, when the form paper and the background color are the same or similar, it is difficult to detect the form of the form paper. Further, when a user who uses a form performs an unexpected process such as marking the outer periphery of the form sheet with a pen or the like for sorting the form, the color of the original form sheet is different. Also in this case, there is a possibility that the shape of the form sheet cannot be accurately recognized.

本発明は、上記の事情に鑑みて成されたものであり、帳票が置かれる環境や帳票の予期せぬ加工の有無によらず、帳票用紙の形状を正確に検出することを目的とする。   The present invention has been made in view of the above circumstances, and an object of the present invention is to accurately detect the form of a form sheet regardless of the environment in which the form is placed or the presence or absence of unexpected processing of the form.

本発明の一態様である文字抽出装置は、帳票の記載面を撮像し、画像データを生成する撮像部と、前記画像データを格納する記憶部と、前記記憶部から前記画像データを読み出し、前記画像データから3次元情報を取得する3次元情報取得部と、前記3次元情報に基づいて前記帳票の形状を検出する形状検出部と、前記形状検出部での形状検出結果に基づいて前記帳票の形状及び記入欄の位置を特定し、前記記入欄内の文字を抽出する文字抽出部と、を備えるものである。   The character extraction device according to one aspect of the present invention images a description surface of a form, generates an image data, a storage unit that stores the image data, reads the image data from the storage unit, and A three-dimensional information acquisition unit that acquires three-dimensional information from image data, a shape detection unit that detects the shape of the form based on the three-dimensional information, and a form detection result based on a shape detection result of the shape detection unit. A character extraction unit that identifies the shape and the position of the entry field and extracts characters in the entry field.

本発明の一態様である文字抽出方法は、帳票の記載面を撮像して、画像データを生成し、前記画像データから3次元情報を取得し、前記3次元情報に基づいて前記帳票の形状を検出し、形状検出結果に基づいて前記帳票の形状及び記入欄の位置を特定し、前記記入欄内の文字を抽出するものである。   In the character extraction method according to one aspect of the present invention, a description surface of a form is imaged, image data is generated, three-dimensional information is acquired from the image data, and the shape of the form is determined based on the three-dimensional information. It detects, identifies the shape of the form and the position of the entry field based on the shape detection result, and extracts the characters in the entry field.

本発明の一態様である文字抽出プログラムは、撮像部に、帳票の記載面を撮像させて、画像データを生成させる処理と、記憶部に前記画像データを格納する処理と、前記記憶部から前記画像データを読み出し、3次元情報取得部に前記画像データから3次元情報を取得させる処理と、形状検出部に、前記3次元情報に基づいて前記帳票の形状を検出させる処理と、文字抽出部に、前記形状検出部での形状検出結果に基づいて前記帳票の形状及び記入欄の位置を特定させ、前記記入欄内の文字を抽出させる処置と、をコンピュータに実行させるものである。   A character extraction program that is one embodiment of the present invention includes a process for causing an imaging unit to capture a description surface of a form and generating image data; a process for storing the image data in a storage unit; A process for reading image data, causing a 3D information acquisition unit to acquire 3D information from the image data, a process for causing a shape detection unit to detect the shape of the form based on the 3D information, and a character extraction unit The computer is caused to execute a process of specifying the shape of the form and the position of the entry column based on the shape detection result in the shape detection unit, and extracting the characters in the entry column.

本発明によれば、帳票が置かれる環境や帳票の予期せぬ加工の有無によらず、帳票用紙の形状を正確に検出することができる。   According to the present invention, it is possible to accurately detect the shape of a form paper regardless of the environment in which the form is placed or the presence or absence of unexpected processing of the form.

実施の形態1にかかる文字抽出装置の構成を模式的に示す図である。1 is a diagram schematically illustrating a configuration of a character extraction device according to a first exemplary embodiment; 実施の形態1にかかる文字抽出装置の文字抽出動作を示すシーケンス図である。It is a sequence diagram which shows the character extraction operation | movement of the character extracting device concerning Embodiment 1. FIG. 実施の形態1にかかる帳票の記入欄のレイアウトの例を示す図である。It is a figure which shows the example of the layout of the entry column of the form concerning Embodiment 1. FIG. 実施の形態2にかかる文字抽出装置の構成を模式的に示す図である。It is a figure which shows typically the structure of the character extraction apparatus concerning Embodiment 2. FIG. 実施の形態2にかかる文字抽出装置の文字抽出動作を示すシーケンス図である。It is a sequence diagram which shows the character extraction operation | movement of the character extraction apparatus concerning Embodiment 2. FIG. 記入欄に繰り返しパターンが設けられた帳票のレイアウトの例を示す図である。It is a figure which shows the example of the layout of the form in which the repetitive pattern was provided in the entry column. 実施の形態3にかかる文字抽出装置の構成を模式的に示す図である。It is a figure which shows typically the structure of the character extraction apparatus concerning Embodiment 3. FIG. 実施の形態4にかかる文字抽出装置の文字抽出動作を示すシーケンス図である。FIG. 10 is a sequence diagram showing a character extraction operation of the character extraction device according to the fourth exemplary embodiment; 実施の形態4にかかる文字抽出装置の文字抽出動作を示すシーケンス図である。FIG. 10 is a sequence diagram showing a character extraction operation of the character extraction device according to the fourth exemplary embodiment; 付箋が貼付された帳票を示す図である。It is a figure which shows the form | form with which the tag was stuck. 実施の形態5にかかる文字抽出装置の文字抽出動作を示すシーケンス図である。It is a sequence diagram which shows the character extraction operation | movement of the character extraction device concerning Embodiment 5.

以下、図面を参照して本発明の実施の形態について説明する。各図面においては、同一要素には同一の符号が付されており、必要に応じて重複説明は省略される。   Embodiments of the present invention will be described below with reference to the drawings. In the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted as necessary.

実施の形態1
実施の形態1にかかる文字抽出装置100について説明する。文字抽出装置100は、3次元形状計測装置として構成され、帳票の画像データから3次元形状情報を取得し、3次元形状情報を利用して帳票の文字抽出を行う。
Embodiment 1
A character extraction apparatus 100 according to the first embodiment will be described. The character extraction device 100 is configured as a three-dimensional shape measurement device, acquires three-dimensional shape information from the image data of a form, and performs character extraction of the form using the three-dimensional shape information.

以下、文字抽出装置100の構成と文字抽出動作について説明する。図1は、実施の形態1にかかる文字抽出装置100の構成を模式的に示す図である。文字抽出装置100は、スキャナヘッド1及びデータ処理部10を有する。図2は、実施の形態1にかかる文字抽出装置100の文字抽出動作を示すシーケンス図である。   Hereinafter, the configuration of the character extraction apparatus 100 and the character extraction operation will be described. FIG. 1 is a diagram schematically illustrating a configuration of a character extraction device 100 according to the first embodiment. The character extraction device 100 includes a scanner head 1 and a data processing unit 10. FIG. 2 is a sequence diagram illustrating the character extraction operation of the character extraction device 100 according to the first embodiment.

撮像部として構成されるスキャナヘッド1は、例えば机に置かれた下敷きシート2上に載置された帳票3を撮像し、画像データDATを生成する(図2のステップS11)。図3は、実施の形態1にかかる帳票3の記入欄のレイアウトの例を示す図である。帳票3は、四角形の帳票用紙3Aの上面である記載面3Bに、罫線3Cで区切られた複数の記入欄3Dを有する。各記入欄3Dには、文字3Eが記載されている。図2では、図を見やすくするため、一部の文字のみに符号3Dを付した。スキャナヘッド1は、図3に示した帳票3を撮像し、帳票3の画像データが生成される。   The scanner head 1 configured as an imaging unit images a form 3 placed on an underlay sheet 2 placed on a desk, for example, and generates image data DAT (step S11 in FIG. 2). FIG. 3 is a diagram illustrating an example of the layout of the entry column of the form 3 according to the first embodiment. The form 3 has a plurality of entry fields 3D separated by ruled lines 3C on a description surface 3B that is the upper surface of a rectangular form sheet 3A. In each entry column 3D, a character 3E is described. In FIG. 2, only a part of characters are denoted by reference numeral 3D in order to make the drawing easier to see. The scanner head 1 captures the form 3 shown in FIG. 3 and image data of the form 3 is generated.

スキャナヘッド1は、例えば、データ処理部10からケーブル4を介して送出される撮像指示に応じて撮像する。データ処理部10は、スキャナヘッド1が撮像した帳票画像データDATを、ケーブル4を介して受け取る。そして、データ処理部10は、帳票画像データDATから帳票3に記載された文字を抽出する。なお、ここでは、データ処理部10とスキャナヘッド1との間の通信はケーブル4を介して行うものとして説明したが、無線LANなどの無線通信により行ってもよい。   For example, the scanner head 1 captures an image according to an imaging instruction sent from the data processing unit 10 via the cable 4. The data processing unit 10 receives the form image data DAT imaged by the scanner head 1 via the cable 4. Then, the data processing unit 10 extracts characters described in the form 3 from the form image data DAT. Although the communication between the data processing unit 10 and the scanner head 1 is described as being performed via the cable 4 here, it may be performed by wireless communication such as a wireless LAN.

データ処理部10は、記憶部11、3次元情報取得部12、形状検出部13及び文字抽出部14を有する。   The data processing unit 10 includes a storage unit 11, a three-dimensional information acquisition unit 12, a shape detection unit 13, and a character extraction unit 14.

記憶部11は、スキャナヘッド1から受け取った帳票画像データDATを格納する。記憶部11は、ハードディスクやフラッシュメモリなどの各種の記憶装置を用いることができる。また、記憶部11は、後述するように、抽出された文字を示す情報を格納することもできる。   The storage unit 11 stores the form image data DAT received from the scanner head 1. The storage unit 11 can use various storage devices such as a hard disk and a flash memory. In addition, the storage unit 11 can store information indicating the extracted characters, as will be described later.

3次元情報取得部12は、記憶部11から帳票画像データDATを読み出し、帳票3の3次元情報を得るための画像処理を実行する(図2のステップS12)。これにより、帳票3と帳票3が載置された下敷きシート2との高低差を示す3次元情報INFを取得する。そして3次元情報取得部12は、3次元情報INFを形状検出部13へ出力する。   The three-dimensional information acquisition unit 12 reads the form image data DAT from the storage unit 11 and executes image processing for obtaining the three-dimensional information of the form 3 (step S12 in FIG. 2). Thereby, the three-dimensional information INF indicating the height difference between the form 3 and the underlying sheet 2 on which the form 3 is placed is acquired. Then, the three-dimensional information acquisition unit 12 outputs the three-dimensional information INF to the shape detection unit 13.

形状検出部13は、3次元情報INFを用いて、帳票3の形状を検出する(図2のステップS13)。3次元情報では、帳票3の上面(すなわち、記載面)は、下敷きシート2の上面よりも高い位置にあるものとして表現される。この際、帳票3の用紙と下敷きシート2とが同じ色であっても、3次元情報INFには色情報は含まれない。また、帳票3の外周にマーキング等の色が異なる部分があっても、色の相違に関する情報は3次元情報INFには含まれない。したがって、3次元情報取得部12は、下敷きシート2から盛り上がった部位、換言すれば、周囲の領域よりも高い部位を帳票3が占める領域として認識することで、用紙の色情報にかかわらず、帳票3の形状を正確に検出できる。形状検出部13は、帳票3の用紙の形状検出結果DETを、文字抽出部14へ出力する。   The shape detection unit 13 detects the shape of the form 3 using the three-dimensional information INF (step S13 in FIG. 2). In the three-dimensional information, the upper surface (that is, the description surface) of the form 3 is expressed as being higher than the upper surface of the underlying sheet 2. At this time, even if the paper of the form 3 and the underlay sheet 2 have the same color, the 3D information INF does not include color information. Further, even if there is a part with a different color such as marking on the outer periphery of the form 3, information regarding the color difference is not included in the three-dimensional information INF. Therefore, the three-dimensional information acquisition unit 12 recognizes a part raised from the underlay sheet 2, in other words, a part higher than the surrounding area as an area occupied by the form 3. The shape of 3 can be detected accurately. The shape detection unit 13 outputs the paper shape detection result DET of the form 3 to the character extraction unit 14.

文字抽出部14は、記憶部11から、画像データDATを読み出す。そして、形状検出結果DETを参照して、画像データDAT内における帳票3の位置を正確に認識することができる(図2のステップS14)。文字抽出部14は、帳票3の位置認識後、画像データDATにおける記入欄をそれぞれ特定する(図2のステップS15)。その後、各記入欄に記載されたパターンを文字として抽出する(図2のステップS16)。   The character extraction unit 14 reads the image data DAT from the storage unit 11. Then, with reference to the shape detection result DET, the position of the form 3 in the image data DAT can be accurately recognized (step S14 in FIG. 2). After recognizing the position of the form 3, the character extraction unit 14 specifies each entry field in the image data DAT (step S15 in FIG. 2). Then, the pattern described in each entry column is extracted as a character (step S16 in FIG. 2).

文字抽出部14は、文字抽出結果CHAを、記憶部11に格納してもよい。記憶部11は、例えば外部装置の要求に応じて、文字抽出結果CHAを出力してもよい。   The character extraction unit 14 may store the character extraction result CHA in the storage unit 11. The storage unit 11 may output the character extraction result CHA in response to a request from an external device, for example.

以上、本構成によれば、3次元計測(3Dスキャン)により、帳票を撮像した画像データから高さ方向の情報を得ることができる。そして、周辺と比べて高い(盛り上がった)領域を帳票用紙として検出する。つまり、本構成では、高さ方向の情報で帳票用紙の形状を検出するため、帳票用紙の色や予期せぬマーキングなどは、検出精度に影響を与えない。よって、本構成によれば、用紙の形状を正確に検出することができる文字抽出装置を提供することができる。   As described above, according to this configuration, information in the height direction can be obtained from image data obtained by capturing a form by three-dimensional measurement (3D scanning). Then, an area that is higher (swelled) than the periphery is detected as a form sheet. That is, in this configuration, since the shape of the form paper is detected based on the information in the height direction, the color of the form paper or the unexpected marking does not affect the detection accuracy. Therefore, according to this configuration, it is possible to provide a character extraction device that can accurately detect the shape of a sheet.

実施の形態2
実施の形態2にかかる文字抽出装置200について説明する。文字抽出装置200は、実施の形態1にかかる文字抽出装置100のデータ処理部10をデータ処理部20に置換した構成を有する。
Embodiment 2
A character extraction apparatus 200 according to the second embodiment will be described. The character extraction device 200 has a configuration in which the data processing unit 10 of the character extraction device 100 according to the first embodiment is replaced with a data processing unit 20.

以下、文字抽出装置200の構成と文字抽出動作について説明する。図4は、実施の形態2にかかる文字抽出装置200の構成を模式的に示す図である。図5は、実施の形態2にかかる文字抽出装置200の文字抽出動作を示すシーケンス図である。   Hereinafter, the configuration of the character extraction device 200 and the character extraction operation will be described. FIG. 4 is a diagram schematically illustrating the configuration of the character extraction device 200 according to the second embodiment. FIG. 5 is a sequence diagram illustrating the character extraction operation of the character extraction device 200 according to the second embodiment.

データ処理部20は、実施の形態1にかかる文字抽出部14を文字抽出部24に置換した構成を有する。記憶部11の動作(図5のステップS21)は、図2のステップS11と同様であるので、説明を省略する。   The data processing unit 20 has a configuration in which the character extraction unit 14 according to the first embodiment is replaced with a character extraction unit 24. The operation of the storage unit 11 (step S21 in FIG. 5) is the same as step S11 in FIG.

3次元情報取得部12は、記憶部11から帳票画像データDATを読み出し、帳票3の3次元情報を得るための処理を実行する。これにより、図2のステップS12と同様に、帳票3と帳票3が載置された下敷きシート2との高低差を示す3次元情報INFを取得する(図5のステップS22)。そして3次元情報取得部12は、3次元情報INFを形状検出部13及び文字抽出部24へ出力する。   The three-dimensional information acquisition unit 12 reads the form image data DAT from the storage unit 11 and executes a process for obtaining the three-dimensional information of the form 3. As a result, similar to step S12 in FIG. 2, the three-dimensional information INF indicating the height difference between the form 3 and the underlying sheet 2 on which the form 3 is placed is acquired (step S22 in FIG. 5). Then, the three-dimensional information acquisition unit 12 outputs the three-dimensional information INF to the shape detection unit 13 and the character extraction unit 24.

形状検出部13の動作(図5のステップS23)は、図2のステップS13と同様であるので、説明を省略する。   The operation of the shape detection unit 13 (step S23 in FIG. 5) is the same as step S13 in FIG.

文字抽出部24は、形状検出結果DETを参照して、3次元情報INF内における帳票3の位置を正確に認識することができる(図5のステップS24)。文字抽出部24は、形状検出結果DETを参照して、3次元情報INFにおける記入欄の位置をそれぞれ特定する(図5のステップS25)。   The character extraction unit 24 can accurately recognize the position of the form 3 in the three-dimensional information INF with reference to the shape detection result DET (step S24 in FIG. 5). The character extraction unit 24 refers to the shape detection result DET and specifies the position of each entry field in the three-dimensional information INF (step S25 in FIG. 5).

文字抽出部24は、各記入欄に記載された文字を抽出する(図5のステップS26)。 記入欄にペンなどで文字が記載されている場合、文字を構成する線や点などの部位には、筆圧による用紙の凹みが存在する。したがって、文字抽出部24は、各記入欄の用紙の凹みを検出することで、記入欄に記載された文字を抽出することができる。   The character extraction unit 24 extracts characters described in each entry field (step S26 in FIG. 5). When characters are written with a pen or the like in the entry column, there are dents in the paper due to pen pressure at parts such as lines and dots that constitute the characters. Therefore, the character extraction unit 24 can extract the characters written in the entry fields by detecting the dents in the paper in each entry field.

本構成によれば、筆圧により生じた帳票用紙の凹みを検出することで文字を抽出するので、筆記用具のインクのかすれなどが生じた場合でも、文字を正確に抽出することができる。   According to this configuration, since the character is extracted by detecting the depression of the form paper caused by the writing pressure, the character can be accurately extracted even when the ink of the writing tool is blurred.

実施の形態3
実施の形態3にかかる文字抽出装置300について説明する。帳票には、例えば必須の記入欄を示すため、記入欄の内側にドットなどの繰り返しパターンが配置されることがある。図6は、記入欄に繰り返しパターンが設けられた帳票3のレイアウトの例を示す図である。図6に示すように、各記入欄3Dには、ドットパターンが設けられている。帳票3のその他のレイアウトは、図2と同様であるので、説明を省略する。
Embodiment 3
A character extraction apparatus 300 according to the third embodiment will be described. In a form, for example, a repetitive pattern such as a dot may be arranged inside the entry field in order to indicate an essential entry field. FIG. 6 is a diagram showing an example of the layout of the form 3 in which a repetitive pattern is provided in the entry column. As shown in FIG. 6, each entry field 3D is provided with a dot pattern. The other layout of the form 3 is the same as that in FIG.

この場合、ドットパターンが文字抽出を妨害しないように、画像データからドットパターンを削除する必要がある。しかし、ドットパターンと文字パターンとが重なっている部位では、ドットパターンを機械的に削除すると、文字パターンの一部が欠けてしまう。したがって、この場合、文字パターンの欠けを補完する必要がある。本実施の形態にかかる文字抽出装置300は、繰り返しパターンの削除し、かつ、文字パターンの欠けを補完するものである。   In this case, it is necessary to delete the dot pattern from the image data so that the dot pattern does not interfere with character extraction. However, in a portion where the dot pattern and the character pattern overlap, if the dot pattern is mechanically deleted, a part of the character pattern is lost. Therefore, in this case, it is necessary to compensate for missing character patterns. The character extraction apparatus 300 according to the present embodiment deletes repeated patterns and complements missing character patterns.

以下、文字抽出装置300の構成と文字抽出動作について説明する。図7は、実施の形態3にかかる文字抽出装置300の構成を模式的に示す図である。図8は、実施の形態3にかかる文字抽出装置300の文字抽出動作を示すシーケンス図である。   Hereinafter, the configuration of the character extraction device 300 and the character extraction operation will be described. FIG. 7 is a diagram schematically illustrating a configuration of the character extraction device 300 according to the third embodiment. FIG. 8 is a sequence diagram illustrating the character extraction operation of the character extraction device 300 according to the third embodiment.

データ処理部30は、実施の形態1にかかる文字抽出部14を文字抽出部34に置換した構成を有する。記憶部11の動作(図8のステップS31)は、図2のステップS11と同様であるので、説明を省略する。3次元情報取得部12の動作(図8のステップS32)は、図6のステップS22と同様であるので、説明を省略する。形状検出部13の動作(図8のステップS33)は、図2のステップS13と同様であるので、説明を省略する。   The data processing unit 30 has a configuration in which the character extraction unit 14 according to the first embodiment is replaced with a character extraction unit 34. The operation of the storage unit 11 (step S31 in FIG. 8) is the same as step S11 in FIG. The operation of the three-dimensional information acquisition unit 12 (step S32 in FIG. 8) is the same as step S22 in FIG. The operation of the shape detection unit 13 (step S33 in FIG. 8) is the same as that in step S13 in FIG.

文字抽出部34は、記憶部11から、画像データDATを読み出す。そして、図2のステップS14と同様に、形状検出結果DETを参照して、画像データDAT内における帳票3の位置を認識する(図8のステップS34)。   The character extraction unit 34 reads the image data DAT from the storage unit 11. Then, similarly to step S14 in FIG. 2, the position of the form 3 in the image data DAT is recognized with reference to the shape detection result DET (step S34 in FIG. 8).

文字抽出部34は、帳票3の位置認識後、画像データDATにおける記入欄をそれぞれ特定する(図8のステップS35)。   After recognizing the position of the form 3, the character extraction unit 34 specifies each entry field in the image data DAT (step S35 in FIG. 8).

文字抽出部34は、記入欄内の繰り返しパターンを削除する(図8のステップS36)。   The character extraction unit 34 deletes the repeated pattern in the entry field (step S36 in FIG. 8).

文字抽出部34は、3次元情報INFを参照し、繰り返しパターン削除後の記入欄内の高さ方向の情報から、凹みを検出する(図8のステップS37)。   The character extraction unit 34 refers to the three-dimensional information INF and detects a dent from the information in the height direction in the entry field after the repeated pattern deletion (step S37 in FIG. 8).

文字抽出部34は、各記入欄に記載された文字を抽出する(図8のステップS38)。文字抽出部34は、検出した凹みのうち、繰り返しパターン除去後に残った文字パターンと重複していない部分を文字の一部として認識する。つまり、文字抽出部34は、繰り返しパターン除去後に残った文字パターンと、文字の一部として認識された凹み部分とから、文字を抽出する。   The character extraction unit 34 extracts characters described in each entry field (step S38 in FIG. 8). The character extraction unit 34 recognizes a portion of the detected dent that does not overlap with the character pattern remaining after the repeated pattern removal as a part of the character. That is, the character extraction unit 34 extracts a character from the character pattern remaining after the repeated pattern removal and the dent portion recognized as a part of the character.

本構成によれば、記入欄の繰り返しパターンを削除した場合でも、削除された文字の一部を、筆圧により生じた帳票用紙の凹みを検出することができる。これにより、パターン削除の影響を受けることなく、文字を正確に抽出することができる。   According to this configuration, even when the repetitive pattern in the entry field is deleted, it is possible to detect a dent in the form paper caused by the writing pressure for a part of the deleted character. As a result, characters can be accurately extracted without being affected by pattern deletion.

実施の形態4
実施の形態4にかかる文字抽出装置400について説明する。文字抽出装置400は、実施の形態3にかかる文字抽出装置300の変形例であり、繰り返しパターンの削除し、かつ、文字パターンの欠けを補完するものである。以下、文字抽出装置400の文字抽出動作について説明する。図9は、実施の形態4にかかる文字抽出装置400の文字抽出動作を示すシーケンス図である。
Embodiment 4
A character extraction apparatus 400 according to the fourth embodiment will be described. The character extraction device 400 is a modification of the character extraction device 300 according to the third embodiment, and deletes repeated patterns and complements missing character patterns. Hereinafter, the character extraction operation of the character extraction device 400 will be described. FIG. 9 is a sequence diagram illustrating a character extraction operation of the character extraction device 400 according to the fourth embodiment.

記憶部11の動作(図9のステップS41)は、図2のステップS11と同様であるので、説明を省略する。3次元情報取得部12の動作(図9のステップS42)は、図6のステップS22と同様であるので、説明を省略する。形状検出部13の動作(図9のステップS43)は、図2のステップS13と同様であるので、説明を省略する。   The operation of the storage unit 11 (step S41 in FIG. 9) is the same as step S11 in FIG. The operation of the three-dimensional information acquisition unit 12 (step S42 in FIG. 9) is the same as that in step S22 in FIG. The operation of the shape detection unit 13 (step S43 in FIG. 9) is the same as that in step S13 in FIG.

文字抽出部14は、記憶部11から、画像データDATを読み出す。そして、図2のステップS14と同様に、形状検出結果DETを参照して、画像データDAT内における帳票3の位置を認識する(図9のステップS44)。   The character extraction unit 14 reads the image data DAT from the storage unit 11. Then, similarly to step S14 in FIG. 2, the position of the form 3 in the image data DAT is recognized with reference to the shape detection result DET (step S44 in FIG. 9).

文字抽出部14は、帳票3の位置認識後、画像データDATにおける記入欄をそれぞれ特定する(図9のステップS45)。   After recognizing the position of the form 3, the character extracting unit 14 specifies each entry field in the image data DAT (step S45 in FIG. 9).

文字抽出部14は、記入欄内の繰り返しパターンを削除する(図9のステップS46)。   The character extraction unit 14 deletes the repeated pattern in the entry field (step S46 in FIG. 9).

文字抽出部14は、削除後に残存しているパターンのうち、一定以下の距離の部分についてはパターンを連結する(図9のステップS47)。この際、実際にパターンを連結してもよいし、連結する部位にパターンが存在するものとして取り扱ってもよい。   The character extraction unit 14 connects patterns for a portion of a certain distance or less among the patterns remaining after deletion (step S47 in FIG. 9). At this time, the patterns may be actually connected, or the patterns may be handled as being present at the connected portions.

文字抽出部14は、連結後のパターンに基づいて、文字を抽出する(図9のステップS48)。   The character extraction unit 14 extracts characters based on the connected pattern (step S48 in FIG. 9).

本構成によれば、記入欄の繰り返しパターンを削除した場合でも、削除された文字の一部を補完することができる。これにより、パターン削除の影響を受けることなく、文字を正確に抽出することができる。   According to this configuration, even when the repeated pattern in the entry field is deleted, a part of the deleted character can be complemented. As a result, characters can be accurately extracted without being affected by pattern deletion.

実施の形態5
実施の形態5にかかる文字抽出装置500について説明する。帳票には、例えば記入欄が小さいために記載しきれなかった文字や、記入欄の訂正のための文字が記載された付箋等が貼付されることがある。図10は、付箋5が貼付された帳票3を示す図である。この場合、付箋5に記載された文字を併せて抽出する必要がある。したがって、本実施の形態にかかる文字抽出装置500は、帳票の文字抽出に加え、付箋などの帳票上に配置された紙片に記載された文字を併せて抽出するものである。
Embodiment 5
A character extraction apparatus 500 according to the fifth embodiment will be described. In some cases, for example, characters that could not be written because the entry field is small, or sticky notes on which characters for correcting the entry field are written may be affixed. FIG. 10 is a diagram showing the form 3 to which the sticky note 5 is attached. In this case, it is necessary to extract the characters written on the tag 5 together. Therefore, the character extracting apparatus 500 according to the present embodiment extracts characters written on a piece of paper arranged on a form such as a tag in addition to extracting characters from the form.

以下、文字抽出装置500の構成と文字抽出動作について説明する。図11は、実施の形態5にかかる文字抽出装置500の文字抽出動作を示すシーケンス図である。   Hereinafter, the configuration of the character extraction device 500 and the character extraction operation will be described. FIG. 11 is a sequence diagram illustrating a character extraction operation of the character extraction device 500 according to the fifth embodiment.

記憶部11の動作(図11のステップS51)は、図2のステップS11と同様であるので、説明を省略する。   The operation of the storage unit 11 (step S51 in FIG. 11) is the same as step S11 in FIG.

3次元情報取得部12は、記憶部11から画像データDATを読み出し、帳票3及び付箋5の3次元情報を得るための処理を実行する(図11のステップS52)。これにより、帳票3、付箋5及び下敷きシート2との高低差を示す3次元情報INFを取得する。そして3次元情報取得部12は、3次元情報INFを形状検出部13へ出力する。   The three-dimensional information acquisition unit 12 reads the image data DAT from the storage unit 11 and executes a process for obtaining the three-dimensional information of the form 3 and the tag 5 (step S52 in FIG. 11). Thereby, the three-dimensional information INF indicating the height difference between the form 3, the sticky note 5, and the underlay sheet 2 is acquired. Then, the three-dimensional information acquisition unit 12 outputs the three-dimensional information INF to the shape detection unit 13.

形状検出部13は、3次元情報INFを用いて、帳票3の形状を検出するとともに、付箋5の位置を検出する(図11のステップS53)。この場合、3次元情報では、帳票3の上面(すなわち、記載面)は、下敷きシート2の上面よりも高い位置にあるものとして表現される。また、付箋5の上面は、帳票3の上面(記載面)よりも高い位置にあるものとして表現される。   The shape detection unit 13 detects the shape of the form 3 and the position of the tag 5 using the three-dimensional information INF (step S53 in FIG. 11). In this case, in the three-dimensional information, the upper surface (that is, the description surface) of the form 3 is expressed as being higher than the upper surface of the underlay sheet 2. Further, the upper surface of the sticky note 5 is expressed as being located higher than the upper surface (description surface) of the form 3.

この際、実施の形態1で説明したように、帳票3の用紙と下敷きシート2とが同じ色であっても、3次元情報INFには色情報は含まれない。また、帳票3の外周にマーキング等の色が異なる部分があっても、色の相違に関する情報は3次元情報INFには含まれない。さらに、帳票3の用紙と付箋5の用紙とが同じ色であっても、3次元情報INFには色情報は含まれない。したがって、形状検出部13は、用紙の色情報にかかわらず、帳票3及び付箋5の形状を正確に検出できる。形状検出部13は、帳票3の用紙の形状検出結果DETを、文字抽出部14へ出力する。   At this time, as described in the first embodiment, even if the paper of the form 3 and the underlay sheet 2 have the same color, the three-dimensional information INF does not include color information. Further, even if there is a part with a different color such as marking on the outer periphery of the form 3, information regarding the color difference is not included in the three-dimensional information INF. Further, even if the paper of the form 3 and the paper of the tag 5 have the same color, the 3D information INF does not include color information. Therefore, the shape detection unit 13 can accurately detect the shapes of the form 3 and the tag 5 regardless of the color information of the paper. The shape detection unit 13 outputs the paper shape detection result DET of the form 3 to the character extraction unit 14.

文字抽出部14は、記憶部11から、画像データDATを読み出す。そして、形状検出結果DETを参照して、画像データDAT内における帳票3及び付箋5の位置を正確に認識することができる(図11のステップS54)。文字抽出部14は、帳票3の位置認識後、画像データDATにおける記入欄をそれぞれ特定する(図11のステップS55)。そして、各記入欄に記載された文字を抽出するとともに、付箋5に記載された文字を帳票3とは区別して抽出する(図11のステップS56)。   The character extraction unit 14 reads the image data DAT from the storage unit 11. Then, with reference to the shape detection result DET, the positions of the form 3 and the tag 5 in the image data DAT can be accurately recognized (step S54 in FIG. 11). After recognizing the position of the form 3, the character extraction unit 14 specifies each entry field in the image data DAT (step S55 in FIG. 11). Then, the characters described in each entry field are extracted, and the characters described on the sticky note 5 are extracted separately from the form 3 (step S56 in FIG. 11).

本構成によれば、追加や訂正事項が記載されている付箋などが帳票に貼付されている場合でも、帳票と付箋とを区別しつつ文字抽出を行うことができる。   According to this configuration, even when a sticky note in which additions or correction items are described is attached to the form, it is possible to extract characters while distinguishing the form from the sticky note.

なお、付箋5に記載された文字は、付箋5にもっとも近い記入欄に記載された文字として取り扱ってもよい。また、付箋5は、帳票3からはみ出して貼付されていてもよい。   Note that the characters described on the sticky note 5 may be handled as characters described in the entry column closest to the sticky note 5. Further, the sticky note 5 may stick out of the form 3.

その他の実施の形態
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、実施の形態3及び4では、繰り返しパターンとして、ドットパターンについて説明したが、これは例示に過ぎない。すなわち、繰り返し配置された線などの、他の繰り返しパターンを適用できることはいうまでもない。
Other Embodiments The present invention is not limited to the above-described embodiments, and can be appropriately changed without departing from the spirit of the present invention. For example, in Embodiments 3 and 4, a dot pattern has been described as a repetitive pattern, but this is merely an example. That is, it goes without saying that other repeating patterns such as repeatedly arranged lines can be applied.

実施の形態5においても、実施の形態2〜4で説明した帳票の文字抽出と同様の手法により、帳票上に配置された付箋などの紙片に記載された文字を抽出することができる。   Also in the fifth embodiment, characters described on a piece of paper such as a tag placed on the form can be extracted by the same method as the character extraction of the form described in the second to fourth embodiments.

上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、上述の実施の形態で説明した文字抽出動作を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。   In the above-described embodiments, the present invention has been described as a hardware configuration, but the present invention is not limited to this. The present invention can also realize the character extraction operation described in the above embodiment by causing a CPU (Central Processing Unit) to execute a computer program.

このプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。   This program can be stored using various types of non-transitory computer readable media and supplied to a computer. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W and semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (random access memory)) are included. The program may also be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.

実施の形態3で説明した、3次元情報を用いた凹み検出による文字抽出は、3次元情報を用いた帳票用紙の形状検出とは独立して行うことも可能である。   The character extraction by the dent detection using the three-dimensional information described in the third embodiment can be performed independently of the shape detection of the form paper using the three-dimensional information.

1 スキャナヘッド
2 下敷きシート
3 帳票
3A 帳票用紙
3B 記載面
3C 罫線
3D 記入欄
3E 文字
4 ケーブル
5 付箋
10、20、30 データ処理部
11 記憶部
12 3次元情報取得部
13 形状検出部
14、24、34 文字抽出部
100、200、300、400、500 文字抽出装置
CHA 抽出結果
DAT 画像データ
DET 形状検出結果
INF 次元情報
DESCRIPTION OF SYMBOLS 1 Scanner head 2 Underlay sheet 3 Form 3A Form paper 3B Description surface 3C Ruled line 3D Entry field 3E Character 4 Cable 5 Sticky note 10, 20, 30 Data processing part 11 Storage part 12 3D information acquisition part 13 Shape detection part 14, 24, 34 Character extraction unit 100, 200, 300, 400, 500 Character extraction device CHA extraction result DAT image data DET shape detection result INF dimension information

Claims (13)

帳票の記載面を撮像し、画像データを生成する撮像部と、
前記画像データを格納する記憶部と、
前記記憶部から前記画像データを読み出し、前記画像データから3次元情報を取得する3次元情報取得部と、
前記3次元情報に基づいて前記帳票の形状を検出する形状検出部と、
前記形状検出部での形状検出結果に基づいて前記帳票の形状及び記入欄の位置を特定し、前記記入欄内の文字を抽出する文字抽出部と、を備え、
前記形状検出部は、前記3次元情報のうちで、前記帳票よりも高い部位を検出した場合、前記帳票の文字抽出と区別して前記検出した部位の文字抽出を行う、
文字抽出装置。
An image capturing unit that captures an image of a description surface of the form and generates image data;
A storage unit for storing the image data;
A three-dimensional information acquisition unit that reads the image data from the storage unit and acquires three-dimensional information from the image data;
A shape detection unit for detecting the shape of the form based on the three-dimensional information;
On the basis of the shape detection result of the shape detection unit locates shape and answer column of the form, e Bei and a character extraction section that extracts a character in said answer column,
When the shape detection unit detects a part higher than the form in the three-dimensional information, the shape detection unit performs character extraction of the detected part separately from character extraction of the form.
Character extractor.
前記形状検出部は、前記3次元情報のうちで、周囲の領域よりも高い部位を前記帳票として検出する、
請求項1に記載の文字抽出装置。
The shape detection unit detects, as the form, a part higher than the surrounding area in the three-dimensional information.
The character extraction device according to claim 1.
前記文字抽出部は、
前記記憶部から前記画像データを読み出し、
前記形状検出部での形状検出結果に基づいて、前記画像データ内での前記帳票の形状及び記入欄の位置を特定し、
前記画像データ内で特定された前記記入欄内のパターンを文字として抽出する、
請求項1又は2に記載の文字抽出装置。
The character extraction unit
Read the image data from the storage unit,
Based on the shape detection result in the shape detection unit, identify the shape of the form and the position of the entry column in the image data,
Extracting the pattern in the entry field specified in the image data as a character;
The character extraction device according to claim 1 or 2.
前記文字抽出部は、
前記3次元情報取得部から前記3次元情報を受け取り、
前記形状検出部での形状検出結果に基づいて、前記3次元情報内での前記帳票の形状及び記入欄の位置を特定し、
前記3次元情報内で特定された前記記入欄内の凹みを文字として抽出する、
請求項1又は2に記載の文字抽出装置。
The character extraction unit
Receiving the 3D information from the 3D information acquisition unit;
Based on the shape detection result in the shape detection unit, specify the shape of the form and the position of the entry field in the three-dimensional information,
Extracting a dent in the entry field specified in the three-dimensional information as a character;
The character extraction device according to claim 1 or 2.
前記記入欄には、所定の繰り返しパターンが設けられ、
前記文字抽出部は、
前記記憶部から前記画像データを読み出し、
前記形状検出部での形状検出結果に基づいて、前記画像データ内での前記帳票の形状及び記入欄の位置を特定し、
前記画像データから前記記入欄の前記繰り返しパターンを削除する、
請求項1又は2に記載の文字抽出装置。
In the entry field, a predetermined repeating pattern is provided,
The character extraction unit
Read the image data from the storage unit,
Based on the shape detection result in the shape detection unit, identify the shape of the form and the position of the entry column in the image data,
Deleting the repetitive pattern in the entry field from the image data;
The character extraction device according to claim 1 or 2.
前記文字抽出部は、
前記3次元情報取得部から前記3次元情報を受け取り、
前記3次元情報において、前記繰り返しパターンの削除後に残存しているパターンの間に対応する位置に凹みがある場合、前記残存しているパターン及び前記凹みを文字として抽出する、
請求項5に記載の文字抽出装置。
The character extraction unit
Receiving the 3D information from the 3D information acquisition unit;
In the three-dimensional information, when there is a dent in the corresponding position between the patterns remaining after the repetitive pattern is deleted, the remaining pattern and the dent are extracted as characters.
The character extraction device according to claim 5.
前記文字抽出部は、
前記3次元情報において、前記繰り返しパターンの削除後に残存しているパターンの間で所定の距離以下の部位を検出し、検出した部位にはパターンがあるものとして、文字を抽出する、
請求項5に記載の文字抽出装置。
The character extraction unit
In the three-dimensional information, a part having a predetermined distance or less is detected between the patterns remaining after the repetitive pattern is deleted, and the detected part has a pattern, and a character is extracted.
The character extraction device according to claim 5.
前記形状検出部は、前記検出した部位に記載された文字を、前記検出した部位に最も近い前記記入欄に記載された文字として抽出する、
請求項に記載の文字抽出装置。
The shape detection unit extracts the character described in the detected part as the character described in the entry column closest to the detected part.
The character extraction device according to claim 1 .
帳票の記載面を撮像し、画像データを生成する撮像部と、An image capturing unit that captures an image of a description surface of the form and generates image data;
前記画像データを格納する記憶部と、A storage unit for storing the image data;
前記記憶部から前記画像データを読み出し、前記画像データから3次元情報を取得する3次元情報取得部と、A three-dimensional information acquisition unit that reads the image data from the storage unit and acquires three-dimensional information from the image data;
前記3次元情報に基づいて前記帳票の形状を検出する形状検出部と、A shape detection unit for detecting the shape of the form based on the three-dimensional information;
前記形状検出部での形状検出結果に基づいて前記帳票の形状及び記入欄の位置を特定し、前記記入欄内の文字を抽出する文字抽出部と、を備え、A character extraction unit that identifies the shape of the form and the position of the entry column based on the shape detection result in the shape detection unit, and extracts characters in the entry column;
前記記入欄には、所定の繰り返しパターンが設けられ、In the entry field, a predetermined repeating pattern is provided,
前記文字抽出部は、The character extraction unit
前記記憶部から前記画像データを読み出し、Read the image data from the storage unit,
前記形状検出部での形状検出結果に基づいて、前記画像データ内での前記帳票の形状及び記入欄の位置を特定し、Based on the shape detection result in the shape detection unit, identify the shape of the form and the position of the entry column in the image data,
前記画像データから前記記入欄の前記繰り返しパターンを削除し、Deleting the repetitive pattern in the entry field from the image data;
前記3次元情報取得部から前記3次元情報を受け取り、Receiving the 3D information from the 3D information acquisition unit;
前記3次元情報において、前記繰り返しパターンの削除後に残存しているパターンの間に対応する位置に凹みがある場合、前記残存しているパターン及び前記凹みを文字として抽出する、In the three-dimensional information, when there is a dent in the corresponding position between the patterns remaining after the repetitive pattern is deleted, the remaining pattern and the dent are extracted as characters.
文字抽出装置。Character extractor.
帳票の記載面を撮像して、画像データを生成し、
前記画像データから3次元情報を取得し、
前記3次元情報に基づいて前記帳票の形状を検出し、
形状検出結果に基づいて前記帳票の形状及び記入欄の位置を特定し、
前記記入欄内の文字を抽出し、
前記3次元情報のうちで、前記帳票よりも高い部位を検出した場合、前記帳票の文字抽出と区別して前記検出した部位の文字抽出を行う、
文字抽出方法。
Capture the face of the form, generate image data,
Obtaining three-dimensional information from the image data;
Detecting the shape of the form based on the three-dimensional information;
Based on the shape detection result, identify the shape of the form and the position of the entry field,
Extract the characters in the entry field ,
Among the three-dimensional information, when a part higher than the form is detected, character detection of the detected part is performed separately from character extraction of the form.
Character extraction method.
撮像部に、帳票の記載面を撮像させて、画像データを生成させる処理と、
記憶部に前記画像データを格納する処理と、
前記記憶部から前記画像データを読み出し、3次元情報取得部に前記画像データから3次元情報を取得させる処理と、
形状検出部に、前記3次元情報に基づいて前記帳票の形状を検出させる処理と、
文字抽出部に、前記形状検出部での形状検出結果に基づいて前記帳票の形状及び記入欄の位置を特定させ、前記記入欄内の文字を抽出させる処理と、
前記3次元情報のうちで、前記帳票よりも高い部位を検出した場合、前記文字抽出部に、前記帳票の文字抽出と区別して前記検出した部位の文字抽出を行わせる処理と、をコンピュータに実行させる、
文字抽出プログラム。
A process of causing the image capturing unit to capture a description surface of the form to generate image data;
A process of storing the image data in a storage unit;
A process of reading the image data from the storage unit and causing a 3D information acquisition unit to acquire 3D information from the image data;
Processing for causing the shape detection unit to detect the shape of the form based on the three-dimensional information;
A process for causing the character extraction unit to specify the shape of the form and the position of the entry field based on the shape detection result in the shape detection unit, and to extract characters in the entry field;
In the three-dimensional information, when a part higher than the form is detected, the computer executes a process of causing the character extraction unit to perform character extraction of the detected part separately from character extraction of the form Let
Character extraction program.
帳票の記載面を撮像して、画像データを生成し、Capture the face of the form, generate image data,
前記画像データから3次元情報を取得し、Obtaining three-dimensional information from the image data;
前記3次元情報に基づいて前記帳票の形状を検出し、Detecting the shape of the form based on the three-dimensional information;
形状検出結果に基づいて、前記画像データ内での前記帳票の形状及び所定の繰り返しパターンが設けられた記入欄の位置を特定し、Based on the shape detection result, specify the shape of the form in the image data and the position of the entry column provided with a predetermined repeating pattern,
前記記入欄内の文字を抽出し、Extract the characters in the entry field,
前記画像データから前記記入欄の前記繰り返しパターンを削除し、Deleting the repetitive pattern in the entry field from the image data;
前記3次元情報において、前記繰り返しパターンの削除後に残存しているパターンの間に対応する位置に凹みがある場合、前記残存しているパターン及び前記凹みを文字として抽出する、In the three-dimensional information, when there is a dent in the corresponding position between the patterns remaining after the repetitive pattern is deleted, the remaining pattern and the dent are extracted as characters.
文字抽出方法。Character extraction method.
撮像部に、帳票の記載面を撮像させて、画像データを生成させる処理と、A process of causing the image capturing unit to capture a description surface of the form to generate image data;
記憶部に前記画像データを格納する処理と、A process of storing the image data in a storage unit;
前記記憶部から前記画像データを読み出し、3次元情報取得部に前記画像データから3次元情報を取得させる処理と、A process of reading the image data from the storage unit and causing a 3D information acquisition unit to acquire 3D information from the image data;
形状検出部に、前記3次元情報に基づいて前記帳票の形状を検出させる処理と、Processing for causing the shape detection unit to detect the shape of the form based on the three-dimensional information;
文字抽出部に、前記形状検出部での形状検出結果に基づいて、前記画像データ内での前記帳票の形状及び所定の繰り返しパターンが設けられた記入欄の位置を特定させ、前記記入欄内の文字を抽出させる処理と、Based on the shape detection result in the shape detection unit, the character extraction unit is made to specify the shape of the form in the image data and the position of the entry column provided with a predetermined repetitive pattern, Processing to extract characters,
前記文字抽出部に、前記画像データから前記記入欄の前記繰り返しパターンを削除させる処理と、A process for causing the character extraction unit to delete the repetitive pattern in the entry field from the image data;
前記3次元情報において、前記繰り返しパターンの削除後に残存しているパターンの間に対応する位置に凹みがある場合、前記文字抽出部に、前記残存しているパターン及び前記凹みを文字として抽出させる処理と、をコンピュータに実行させる、In the three-dimensional information, when there is a dent at a position corresponding to a pattern remaining after deletion of the repetitive pattern, the character extraction unit extracts the remaining pattern and the dent as characters. And let the computer run,
文字抽出プログラム。Character extraction program.
JP2015059389A 2015-03-23 2015-03-23 Character extraction device, character extraction method, and character extraction program Active JP6561525B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015059389A JP6561525B2 (en) 2015-03-23 2015-03-23 Character extraction device, character extraction method, and character extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015059389A JP6561525B2 (en) 2015-03-23 2015-03-23 Character extraction device, character extraction method, and character extraction program

Publications (2)

Publication Number Publication Date
JP2016177754A JP2016177754A (en) 2016-10-06
JP6561525B2 true JP6561525B2 (en) 2019-08-21

Family

ID=57071378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015059389A Active JP6561525B2 (en) 2015-03-23 2015-03-23 Character extraction device, character extraction method, and character extraction program

Country Status (1)

Country Link
JP (1) JP6561525B2 (en)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2704145B2 (en) * 1995-08-28 1998-01-26 日本電気ロボットエンジニアリング株式会社 Label position detection device
JP2995650B2 (en) * 1995-12-28 1999-12-27 日本電気株式会社 Ruled line removal method
JP3455676B2 (en) * 1997-09-17 2003-10-14 株式会社東芝 Step detecting device and processing device using the same
JP4160206B2 (en) * 1999-06-18 2008-10-01 株式会社東芝 Database registration method using character recognition device
JP3548153B2 (en) * 2001-11-28 2004-07-28 株式会社東芝 Report carrier sheet
JP2007004621A (en) * 2005-06-24 2007-01-11 Fuji Xerox Co Ltd Document management supporting device, and document management supporting method and program
JP2008217633A (en) * 2007-03-07 2008-09-18 Nec Corp Personal signature authentication system, personal signature authentication method and personal signature authentication program
JP2012084132A (en) * 2010-09-16 2012-04-26 Toshiba Corp Character recognition device, character recognition method, and sorting device
JP2012198700A (en) * 2011-03-18 2012-10-18 Toshiba Corp Light detection device and paper sheet processor including light detection device

Also Published As

Publication number Publication date
JP2016177754A (en) 2016-10-06

Similar Documents

Publication Publication Date Title
JP5084718B2 (en) Combination detection of position coding pattern and barcode
US8155443B2 (en) Image extracting apparatus, image extracting method and computer readable medium
JP6143111B2 (en) Object identification device, object identification method, and program
JP3867512B2 (en) Image processing apparatus, image processing method, and program
US8027539B2 (en) Method and apparatus for determining an orientation of a document including Korean characters
RU2014112237A (en) ENTERING DATA FROM IMAGES OF DOCUMENTS WITH FIXED STRUCTURE
JP2011227636A (en) Character string recognition apparatus and character string recognition method
US20150302236A1 (en) Method and device for identifying a two-dimensional barcode
CN102360419A (en) Method and system for computer scanning reading management
JP2016194800A (en) Character cut-out device, character recognition device, and character cut-out method
JP6574921B1 (en) Image processing system, image processing method, and program
US9652652B2 (en) Method and device for identifying a two-dimensional barcode
WO2020008628A1 (en) Image processing system, image processing method, and program
US20070085842A1 (en) Detector for use with data encoding pattern
JP6561525B2 (en) Character extraction device, character extraction method, and character extraction program
US8336779B1 (en) System for automatically reading a response form using a digital camera
JP3923474B2 (en) Character reader
JP2020024111A (en) Inspection device and inspection method
JP2020024110A (en) Inspection device and inspection method
JP4009314B2 (en) Form layout identification method and form layout identification system
US11140282B2 (en) Character line division apparatus and method, and storage medium
JP2006330873A (en) Fingerprint collation device, method and program
Yoo et al. Mask matching for low resolution musical note recognition
JP2004334448A (en) Data processing method and device
JP6743401B2 (en) Form design/read setting support device, form design/read setting support method, and optical character recognition system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190708

R150 Certificate of patent or registration of utility model

Ref document number: 6561525

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150