JP2001005804A - Data base registering method utilizing character recognizing device - Google Patents

Data base registering method utilizing character recognizing device

Info

Publication number
JP2001005804A
JP2001005804A JP11173024A JP17302499A JP2001005804A JP 2001005804 A JP2001005804 A JP 2001005804A JP 11173024 A JP11173024 A JP 11173024A JP 17302499 A JP17302499 A JP 17302499A JP 2001005804 A JP2001005804 A JP 2001005804A
Authority
JP
Japan
Prior art keywords
character recognition
character
data
area
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11173024A
Other languages
Japanese (ja)
Other versions
JP4160206B2 (en
Inventor
Shozo Abe
省三 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP17302499A priority Critical patent/JP4160206B2/en
Publication of JP2001005804A publication Critical patent/JP2001005804A/en
Application granted granted Critical
Publication of JP4160206B2 publication Critical patent/JP4160206B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a data base registering method which utilizes character recognizing device and in which efficient registration into a data base is enabled while reducing the degree of fatigue of data input as a result by more exactly inputting data in a short time in the case of work for registering correct answer data, which are to be used for evaluating a character recognition algorithm, into the data base. SOLUTION: When registering the correct answer data to be used for evaluating the character recognition algorithm into the data base, data on a postcard to be registered into the data base are read and collected, character recognizing processing is performed for these collected data by using a character recognizing device, the correct answer data are generated by performing editing processing such as confirmation or correction interactively while displaying the recognized result, tagging processing is performed for these generated correct answer data in each prescribed reading unit and the correct answer data, to which tagging processing is performed, are registered in the data base.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、たとえば、郵便書
状上の文字を認識する文字認識における文字認識アルゴ
リズムの評価に使用する正解データを文字認識装置を利
用してデータベースに登録する文字認識装置を利用した
データベース登録方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device for registering, in a database, correct answer data used for evaluation of a character recognition algorithm in character recognition for recognizing characters on a letter of a letter using a character recognition device. Regarding the database registration method used.

【0002】[0002]

【従来の技術】近年、コンピュータやインターネットな
どの普及により、各種の情報をデータベース化して利用
するようなシステムが開発されている。このようなデー
タベースの活用形態として、各種開発における評価・分
析を行なうためにデータベースを構築することが一般化
してきている。たとえば、文字認識装置におけるアルゴ
リズムの開発において、性能評価の基準となる正解デー
タとの比較によって、該アルゴリズムの評価・分析を行
なうことで、開発効率の向上を図ろうとしている。
2. Description of the Related Art In recent years, with the widespread use of computers and the Internet, systems have been developed in which various types of information are stored in a database and used. As a utilization form of such a database, it has become common to construct a database for performing evaluation and analysis in various developments. For example, in the development of an algorithm in a character recognition device, an attempt is made to improve the development efficiency by performing evaluation and analysis of the algorithm by comparing it with correct answer data as a reference for performance evaluation.

【0003】該文字認識装置の対象となるものとして、
たとえば、郵便書状に記載された文字情報を読取る場合
を考えた場合、大量の郵便書状の正解データをデータベ
ースに登録する際には、従来、1枚1枚の郵便書状のイ
メージデータを読取り、表示装置に表示したものをオペ
レータが目で見て、所定の読取領域の文字コードを正解
データとしてキーボードから入力していた。
As an object of the character recognition device,
For example, considering the case of reading character information described in a postal letter, when registering a large amount of correct answer data of a postal letter in a database, conventionally, image data of a single postal letter is read and displayed. The operator visually checks what is displayed on the apparatus, and inputs the character code in a predetermined reading area as correct data from the keyboard.

【0004】また、文字認識の高度化に伴って、最終段
の認識文字コードの評価に加えて、記載文字列を文字単
位に検出切出し(以後、検切と略称する)する処理のア
ルゴリズム評価が重要になってきている。
[0004] With the advancement of character recognition, in addition to the evaluation of the recognition character code at the last stage, the algorithm evaluation of a process of detecting and extracting a written character string in units of characters (hereinafter abbreviated as "detection cutting") has been required. It is becoming important.

【0005】このことを考慮して、該文字認識装置の対
象となるものとして、たとえば、郵便書状に記載された
文字情報を読取る場合を考えた場合、文字認識処理の前
段の処理である検切処理のアルゴリズム評価を行なうた
めの、記載文字枠(領域、文字枠)の正解とする座標デ
ータが必要になってくる。
In consideration of this, for example, when the character recognition apparatus is intended to read character information described in a letter of a letter, the character recognition processing, which is a preceding stage of the character recognition processing, is considered. In order to evaluate the processing algorithm, coordinate data for the correct answer of the written character frame (area, character frame) is required.

【0006】従来、正解とする座標データをデータベー
スに登録する際には、1枚1枚の郵便書状のイメージデ
ータを読取り、表示装置に表示したものをオペレータが
目で見ながら、マウスなどのポインティング装置で1領
域ずつ、または、1文字ごとに該文字枠の座標データを
正解座標データとして入力していた。
Conventionally, when registering coordinate data to be a correct answer in a database, image data of a postal letter is read one by one, and an operator looks at what is displayed on a display device and points at a mouse or the like. In the apparatus, the coordinate data of the character frame is input as correct answer coordinate data for each region or for each character.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、人手に
よる大量のデータ入力作業は、オペレータの疲労度を増
大するとともに、それに伴って作業効率が低下し、か
つ、データ入力ミスの増大につながり、期待する量の正
解データを収集することが困難になるといった課題があ
った。
However, a large amount of manual data input work increases the degree of fatigue of the operator, decreases work efficiency, and leads to an increase in data input mistakes. There was a problem that it became difficult to collect the amount of correct answer data.

【0008】そこで、本発明は、文字認識アルゴリズム
の評価に使用する正解データをデータベースに登録する
作業において、より正確に、かつ、時間をかけずにデー
タ入力を行なうことができ、その結果、データ入力の疲
労度を軽減した効率的なデータベースへの登録が可能と
なる文字認識装置を利用したデータベース登録方法を提
供することを目的とする。
Therefore, the present invention enables more accurate and time-saving data entry in the operation of registering the correct answer data used for the evaluation of the character recognition algorithm in a database. It is an object of the present invention to provide a database registration method using a character recognition device that enables efficient database registration with reduced input fatigue.

【0009】また、本発明は、文字認識アルゴリズムの
評価に使用する記載文字の正解座標データをデータベー
スに登録する作業において、より正確に、かつ、時間を
かけずにデータ入力を行なうことができ、その結果、デ
ータ入力の疲労度を軽減した効率的なデータベースへの
登録が可能となる文字認識装置を利用したデータベース
登録方法を提供することを目的とする。
Further, according to the present invention, in the operation of registering the correct coordinate data of the written character used in the evaluation of the character recognition algorithm in the database, the data can be input more accurately and without time. As a result, it is an object of the present invention to provide a database registration method using a character recognition device that enables efficient data registration with a reduced degree of data input fatigue.

【0010】[0010]

【課題を解決するための手段】本発明の文字認識装置を
利用したデータベース登録方法は、文字の自動認識によ
る属性情報をデータベースに登録する文字認識装置を利
用したデータベース登録方法において、データベースに
登録する定形化された用紙上のデータを読取って収集す
るステップと、この収集したデータに対して文字認識装
置を用いて文字認識処理を行なうステップと、この文字
認識処理の認識結果に対して、その認識結果を表示しな
がら対話的に確認、修正などの編集処理を行なうことに
より正解データを生成するステップと、この生成された
正解データに対して所定の読取単位ごとにタグ付け処理
を行なうステップと、このタグ付け処理を行なった正解
データをデータベースに登録するステップとからなる。
A database registration method using a character recognition device according to the present invention is a database registration method using a character recognition device for registering attribute information by automatic character recognition in a database. Reading and collecting the data on the standardized paper, performing a character recognition process on the collected data using a character recognition device, and recognizing the recognition result of the character recognition process. Interactively confirming and displaying the result, generating correct answer data by performing editing processing such as correction, and performing a tagging process on the generated correct answer data for each predetermined reading unit; And registering the correct answer data subjected to the tagging process in a database.

【0011】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、文字認識装置として文字認識シ
ミュレータを用いることを特徴とする。
Further, the database registration method using the character recognition device of the present invention is characterized in that a character recognition simulator is used as the character recognition device.

【0012】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、文字認識処理の認識結果とし
て、文字認識コード情報、および、該認識した文字列を
包含する矩形を構成する座標情報をそれぞれ正解データ
として使用することを特徴とする。
Further, in the database registration method using the character recognition device of the present invention, the character recognition code information and the coordinate information constituting the rectangle including the recognized character string are respectively obtained as the recognition results of the character recognition processing. It is characterized in that it is used as correct answer data.

【0013】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、文字認識領域によって文字認識
装置の読取性能が異なる場合、該認識結果の信頼性尺度
として重み付けを行ない、該重み付け情報を用いて視覚
的に区別できるように該認識結果を表示することを特徴
とする。
Further, in the database registration method using the character recognition device of the present invention, when the reading performance of the character recognition device differs depending on the character recognition area, weighting is performed as a reliability measure of the recognition result, and the weighting information is used. The recognition result is displayed so that the recognition result can be visually distinguished.

【0014】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、重み付け情報として文字認識装
置が出力する中間結果を活用することにより、各認識文
字領域の単位で重み付け情報を扱うことができることを
特徴とする。
In the database registration method using the character recognition device of the present invention, the weighting information can be handled in units of each recognized character area by utilizing the intermediate result output by the character recognition device as the weighting information. It is characterized by.

【0015】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、データベースに登録を行なう際
に、文字認識処理の認識結果を所定の読取単位でタグ形
式のファイルとして出力し、該ファイルを用いて自動的
に正解データを登録することを特徴とする。
Further, in the database registration method using the character recognition device of the present invention, when registering in a database, a recognition result of the character recognition processing is output as a tag format file in a predetermined reading unit, and the file is output. And automatically registering the correct answer data.

【0016】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、文字認識処理の認識結果を利用
して正解データとする際、文字認識処理の認識結果を正
解データの第1の候補として採用し、これを人手による
操作によって編集するという連携処理を行なうことを特
徴とする。
Further, in the database registration method using the character recognition apparatus of the present invention, when the recognition result of the character recognition processing is used as the correct answer data, the recognition result of the character recognition processing is used as the first candidate of the correct answer data. It is characterized in that a cooperative process of adopting and editing this by manual operation is performed.

【0017】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、タグ付け処理を行なう際、文字
認識する所定のフォーマットを有する用紙に特有のタグ
名とすることを特徴とする。
Further, the database registration method using the character recognition apparatus of the present invention is characterized in that, when tagging processing is performed, a tag name unique to a sheet having a predetermined format for character recognition is used.

【0018】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、文字の自動認識による属性情報
をデータベースに登録する文字認識装置を利用したデー
タベース登録方法において、データベースに登録する定
形化された用紙上のデータを読取って収集するステップ
と、この収集したデータに対して文字認識装置を用いて
文字認識処理を行なうステップと、この文字認識処理の
文字認識過程における処理履歴情報に対して、その処理
履歴情報を表示しながら対話的に処理することにより記
載文字の正解座標データを生成するステップと、この生
成された正解座標データに対して所定の読取単位ごとに
タグ付け処理を行なうステップと、このタグ付け処理を
行なった正解座標データをデータベースに登録するステ
ップとからなる。
The database registration method using a character recognition device of the present invention is a database registration method using a character recognition device for registering attribute information by automatic character recognition in a database. Reading and collecting data on a sheet, performing a character recognition process on the collected data using a character recognition device, and processing history information in a character recognition process of the character recognition process. Generating the correct answer coordinate data of the written character by interactively processing while displaying the processing history information, and performing a tagging process on the generated correct answer coordinate data for each predetermined reading unit; And registering the correct coordinate data subjected to the tagging process in a database.

【0019】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、文字認識装置として文字認識シ
ミュレータを用い、この文字認識シミュレータが出力す
る文字認識過程における処理履歴情報から抽出した文字
記載領域候補に対して、その文字記載領域候補を表示し
ながら対話的に処理することにより記載文字の正解座標
データを生成することを特徴とする。
The database registration method using the character recognition device of the present invention uses a character recognition simulator as the character recognition device, and extracts a character description area candidate extracted from processing history information in the character recognition process output by the character recognition simulator. The method is characterized in that the correct coordinate data of the written character is generated by interactively processing while displaying the character description area candidate.

【0020】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、処理履歴情報から抽出した文字
記載領域候補を表示手段で表示し、該文字記載領域ごと
に設定属性情報を与えることによって、該設定属性情報
を用いた文字記載領域ごとの文字検出切出しを行なうこ
とにより、文字記載領域ごとの正解座標データを生成す
ることを特徴とする。
In the database registration method using the character recognition device of the present invention, the character description area candidate extracted from the processing history information is displayed on the display means, and the setting attribute information is given to each character description area. By performing character detection cutout for each character description area using the setting attribute information, correct coordinate data for each character description area is generated.

【0021】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、設定属性情報を与える際、定形
化された用紙が郵便書状とすると、文字記載領域を郵便
番号領域、住所領域、氏名領域などに対応したアイコン
を設けて、該アイコンを文字記載領域に移動操作して指
定することにより設定属性情報を与えることを特徴とす
る。
Also, in the database registration method using the character recognition device of the present invention, when the set attribute information is given, if the standardized paper is a postal letter, the character description area is a postal code area, an address area, and a name area. An icon corresponding to the above is provided, and the setting attribute information is given by moving the icon to the character description area and designating the icon.

【0022】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、定形化された用紙が郵便書状と
すると、郵便書状の画像の類似性を判断して、あらかじ
め登録されている代表的な郵便書状の画像と類似してい
る郵便書状については、一括して自動的に正解座標デー
タを生成することを特徴とする。
In the database registration method using the character recognition device of the present invention, if the standardized paper is a postal letter, the similarity of the image of the postal letter is determined, and a representative representative registered in advance is used. For postal letters similar to postal letter images, correct coordinate data is automatically generated in a lump.

【0023】また、本発明の文字認識装置を利用したデ
ータベース登録方法は、郵便書状の画像の類似性を判断
する際、文字認識過程における処理履歴情報内に存在す
る文字記載領域枠のサイズ、郵便書状の縦書き/横書
き、および、印刷活字文字/手書き文字などの郵便書状
属性情報で判断することを特徴とする。
Further, in the database registration method using the character recognition device of the present invention, when judging the similarity of the postal letter image, the size of the character description area frame existing in the processing history information in the character recognition process, The determination is made based on postal / letter attribute information such as vertical / horizontal writing of a letter and print / printed / handwritten characters.

【0024】さらに、本発明の文字認識装置を利用した
データベース登録方法は、郵便書状の画像の類似性を判
断する際、郵便書状の住所記載領域外の広告画像などの
イメージに対して画像としての類似性の処理を行なうこ
とにより判断することを特徴とする。
Further, in the database registration method using the character recognition device of the present invention, when judging the similarity of the image of the postal letter, an image such as an advertisement image outside the address description area of the postal letter is used as an image. The determination is performed by performing similarity processing.

【0025】[0025]

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0026】まず、第1の実施の形態について説明す
る。
First, a first embodiment will be described.

【0027】図1は、一般的なデータベース登録システ
ムの例を説明したものである。郵便書状を表示装置に表
示したイメージをオペレータが目視して、該郵便書状上
の認識すべき各領域ごとの文字コードをキーボードから
入力することによって、正解教示部1で処理を施し、該
認識領域ごとのタグ付け処理をタグ付け処理部2で行な
った後、データベース3に登録するものである。
FIG. 1 illustrates an example of a general database registration system. The operator visually observes the image of the postal letter displayed on the display device, and inputs the character code of each area to be recognized on the postal letter from the keyboard. The tagging process is performed by the tagging processor 2 and then registered in the database 3.

【0028】図2は、文字認識アルゴリズムの性能向上
のために、通常、開発される文字認識シミュレータの環
境を説明したものである。データ収集部4では、文字認
識シミュレータ5の認識対象とするデータシートに記さ
れた文字データのイメージ情報を収集する。たとえば、
郵便書状の場合、文字認識アルゴリズムの性能評価のた
めに大量の枚数の郵便書状データが必要となり、専用の
ハードウェアで該イメージデータを収集蓄積する。
FIG. 2 illustrates an environment of a character recognition simulator that is usually developed to improve the performance of a character recognition algorithm. The data collection unit 4 collects image information of character data written on a data sheet to be recognized by the character recognition simulator 5. For example,
In the case of a postal letter, a large number of pieces of postal letter data are required for evaluating the performance of the character recognition algorithm, and the image data is collected and stored by dedicated hardware.

【0029】文字認識シミュレータ5は、データ収集部
4で収集したイメージデータを読込み、文字認識アルゴ
リズムを組込んだハードウェアロジックで文字認識処理
を行ない、その認識結果は処理結果分析処理部6で分析
処理される。ここで、分析処理するために、文字認識過
程の各処理ブロックごとのログ情報を中間情報の形で保
存している。
The character recognition simulator 5 reads the image data collected by the data collection unit 4 and performs character recognition processing using hardware logic incorporating a character recognition algorithm. The recognition result is analyzed by the processing result analysis processing unit 6. It is processed. Here, log information for each processing block in the character recognition process is stored in the form of intermediate information for analysis processing.

【0030】図3は、第1の実施の形態に係る文字認識
装置を利用したデータベース登録システムの構成を概略
的に説明したものである。本システムの基本的な構成
は、図1および図2の各構成要素を組合わせたものとな
っており、以下、詳細に説明する。
FIG. 3 schematically illustrates the configuration of a database registration system using the character recognition device according to the first embodiment. The basic configuration of this system is a combination of the components shown in FIGS. 1 and 2 and will be described in detail below.

【0031】データ収集部11は、現場でのデータ収集
が可能であり、郵便書状のイメージ収集とともに各種収
集条件用のファイルがハードディスク装置に蓄積され
る。文字認識シミュレータ12は、データ収集部11の
ハードディスク装置に蓄積された郵便書状のイメージデ
ータを入力として文字認識アルゴリズムのシミュレーシ
ョンを行ない、その認識結果を処理結果分析処理部13
に転送するとともに、正解教示部14に転送する。
The data collection unit 11 can collect data on site, and collects files for various collection conditions together with the collection of postal letter images on a hard disk device. The character recognition simulator 12 simulates a character recognition algorithm with the input of postal letter image data stored in the hard disk device of the data collection unit 11, and analyzes the recognition result as a processing result analysis processing unit 13.
And to the correct answer teaching unit 14.

【0032】正解教示部14では、対話処理部15から
オペレータによる入力データと文字認識シミュレータ1
2の認識結果を受取り、正解教示処理を行なうことによ
り正解データを生成し、タグ付け処理部16に転送す
る。正解教示処理の詳細については後で説明を行なう。
タグ付け処理部16は、正解教示部14からの正解デー
タに対して文字認識すべき読取領域ごとのタグ情報を付
加し、そのタグ情報を付加した正解データをデータベー
ス17に登録する。
In the correct answer teaching unit 14, the input data from the dialog processing unit 15 by the operator and the character recognition simulator 1
Then, by receiving the recognition result of No. 2 and performing correct answer teaching processing, correct answer data is generated and transferred to the tagging processing section 16. The details of the correct answer teaching process will be described later.
The tagging processing unit 16 adds tag information for each reading area to be character-recognized to the correct answer data from the correct answer teaching unit 14 and registers the correct answer data with the tag information added to the database 17.

【0033】処理結果分析処理部13は、その処理結果
のうち必要なデータをデータベース17に登録すること
も可能である。
The processing result analysis processing unit 13 can also register necessary data in the processing result in the database 17.

【0034】図4は、郵便書状上の文字認識を行なう場
合の各領域例を示したものである。郵便書状上の文字を
認識する文字認識アルゴリズムでは、読取領域ごとに各
種属性情報を基に専用のアルゴリズムで認識させること
で、全体の認識率を向上させるようになっている。
FIG. 4 shows an example of each area when character recognition on a postal letter is performed. In a character recognition algorithm for recognizing characters on a postal letter, the entire recognition rate is improved by performing recognition using a dedicated algorithm based on various attribute information for each reading area.

【0035】たとえば、郵便書状の上方の数字列の領域
として郵便番号領域R1の内容である「210−091
5」と、その座標データ(X5,Y5)/(X6,Y
6)、複数行にわたる住所領域R2の内容である「川崎
市幸区柳町/50−2番地」と、その座標データ(X
1,Y1)/(X2,Y2)、宛名領域R3の内容であ
る「東京太郎様」と、その座標データ(X3,Y3)/
(X4,Y4)、などの領域を別々に抽出して各領域内
の認識アルゴリズムで認識するものである。文字認識結
果は、各領域ごとに認識結果の信頼性情報などを文字認
識シミュレータ12が出力する結果ファイルから取得す
ることができる。
For example, "210-091" which is the contents of the postal code area R1 as the area of the number string above the postal letter.
5 "and its coordinate data (X5, Y5) / (X6, Y
6), “50-2, Yanagicho, Sachi-ku, Kawasaki-shi” which is the contents of the address area R2 over a plurality of lines, and its coordinate data (X
1, Y1) / (X2, Y2), "Tokyo Taro-sama" which is the content of the address area R3, and its coordinate data (X3, Y3) /
Regions such as (X4, Y4) are separately extracted and recognized by a recognition algorithm in each region. The character recognition result can be obtained from a result file output by the character recognition simulator 12 such as reliability information of the recognition result for each region.

【0036】図5は、タグ付けの例を説明したものであ
る。図4で説明した郵便書状上の各領域ごとにタグ名を
付けたものである。たとえば、「210−0915」の
タグ名は「郵便番号文字列」、「川崎市幸区柳町」のタ
グ名は「宛名町名文字列」、「50−2番地」のタグ名
は「宛名街区文字列」、といった具合にタグ名を付け
る。これによって、データベース17へのデータ登録を
自動化することができる。
FIG. 5 illustrates an example of tagging. A tag name is assigned to each area on the postal letter described with reference to FIG. For example, the tag name of “210-0915” is “postal code character string”, the tag name of “Kawasaki-shi Yuki-ku Yanagicho” is “address town name character string”, and the tag name of “50-2” is “address block character string”. Column ", and so on. As a result, data registration in the database 17 can be automated.

【0037】ちなみに、住所領域を「宛名町名文字列」
と「宛名街区文字列」の2つに分けた理由としては、実
システムでの文字認識結果の信頼性の違いによるもので
ある。すなわち、「宛名街区文字列」の内容の文字認識
結果の信頼性は、「宛名町名文字列」の内容の文字認識
結果の信頼性に比べると低くなる傾向がある。このた
め、データベース17へのデータの自動登録において、
該データを分けることによって、より効率的に操作する
ことが可能となる。
By the way, the address area is set to "address town name character string".
The reason why the character strings are divided into two, that is, “address block character string” is that there is a difference in the reliability of the character recognition result in the actual system. In other words, the reliability of the character recognition result of the content of the “addressed street character string” tends to be lower than the reliability of the character recognition result of the content of the “addressed town name character string”. Therefore, in the automatic registration of data in the database 17,
By dividing the data, it is possible to operate more efficiently.

【0038】図6は、文字認識シミュレータ12の一般
的な機能ブロック図を説明したものである。イメージ入
力部21は、郵便書状の画像をシステム側にデジタルデ
ータとして入力する。通常、文字認識シミュレータ12
と独立した装置で、該データはハードディスク装置など
に蓄積され、必要に応じて文字認識シミュレータ12の
入力データとするものである。
FIG. 6 illustrates a general functional block diagram of the character recognition simulator 12. The image input unit 21 inputs a postal letter image to the system as digital data. Normally, the character recognition simulator 12
The data is stored in a hard disk device or the like, and is used as input data for the character recognition simulator 12 as necessary.

【0039】検切り処理部22は、領域(行)検切り処
理部23と文字検切り処理部24とから構成される。文
字認識処理部25は、検切り処理部22での検切り処理
によって候補として文字領域ごとに抽出した領域に対し
て文字認識処理を行なう。その際、辞書部26に辞書と
して蓄積している情報とマッチング処理を行なうことに
より、最終的に文字認識結果を文字コードとして出力す
るものである。
The check processing unit 22 is composed of an area (line) check processing unit 23 and a character check processing unit 24. The character recognition processing unit 25 performs a character recognition process on an area extracted for each character area as a candidate by the detection processing in the detection processing unit 22. At this time, by performing a matching process with the information stored as a dictionary in the dictionary unit 26, the character recognition result is finally output as a character code.

【0040】以上説明したように、各処理ブロックでの
処理はログデータとして保持され、文字認識結果の分析
に利用されるものである。たとえば、ログデータの中に
は候補データから答えとして選択した状況情報が蓄積さ
れており、本実施の形態では、この情報を有効に活用し
ようとするものである。
As described above, the processing in each processing block is held as log data and is used for analyzing the result of character recognition. For example, in the log data, status information selected as an answer from the candidate data is accumulated, and in the present embodiment, this information is to be effectively used.

【0041】図7は、文字認識結果を表示装置に表示し
て、編集や結果内容の確認を行なう操作について説明し
たものである。操作画面の左上方のイメージ表示領域E
1には、郵便書状のイメージが表示されている。画面右
側のタグ名表示領域E2にはタグ名が一覧表示され、そ
の更に右側のタグ名内容表示領域E3にはタグ名の内容
が一覧表示されている。
FIG. 7 illustrates an operation of displaying a character recognition result on a display device and editing or confirming the content of the result. Image display area E at the upper left of the operation screen
In FIG. 1, an image of a postal letter is displayed. A list of tag names is displayed in a tag name display area E2 on the right side of the screen, and a list of tag name contents is displayed in a tag name content display area E3 on the right side.

【0042】ここで、タグ名の内容、すなわち、文字認
識した結果コードを表示するわけであるが、該認識の信
頼性情報を使って、認識の信頼性が高いデータについて
は、通常の表示を行ない、認識の信頼性が設定閾値より
も低いデータについては、点滅表示などを行なってい
る。これにより、オペレータは、この時点で画面左側の
郵便書状イメージ表示をみながら、修正編集を行なうこ
とが可能となる。たとえば、タグ名が「宛名街区文字
列」の内容である「50−2番地」の表示部R11が点
滅表示になった場合、オペレータは、郵便書状イメージ
の対応する領域を見て、結果を認識する。もし間違って
いれば、この段階で、「宛名街区文字列」の内容である
「50−2番地」の表示部R11を修正することにな
る。また、確認をよりしやすくするために、郵便書状イ
メージの対応する領域を矩形で表示するなどの処理方法
は色々と考えることができる。
Here, the content of the tag name, that is, the result code of character recognition is displayed. For data with high recognition reliability, normal display is performed using the reliability information of the recognition. For data whose recognition reliability is lower than the set threshold, blinking display or the like is performed. As a result, the operator can perform correction editing while viewing the postal letter image displayed on the left side of the screen at this point. For example, when the display portion R11 of “50-2”, which is the content of the tag name “address block character string”, blinks, the operator looks at the corresponding area of the postal letter image and recognizes the result. I do. If wrong, at this stage, the display section R11 of "50-2" which is the content of "address block character string" is corrected. Further, in order to make the confirmation easier, various processing methods such as displaying a corresponding area of the postal letter image with a rectangle can be considered.

【0043】以上説明したことでもわかるように、この
画面上での操作では、文字認識シミュレータ12で自動
的に処理した結果データを第1候補として表示すること
によって、オペレータは、従来から行なっているような
郵便書状を見ながら、最初からデータを入力する必要が
なく、確認を行ない、認識不能で文字コードが表示され
ない項目や認識の信頼性が低いデータ項目にのみ注力し
て確認する編集操作とすることができるので、データ入
力効率は格段に向上するものと考えられる。
As can be seen from the above description, in the operation on this screen, the operator has conventionally performed by displaying the result data automatically processed by the character recognition simulator 12 as the first candidate. There is no need to input data from the beginning while looking at such a postal letter, confirm it, and edit it to focus only on items that are unrecognizable and character codes are not displayed or data items with low recognition reliability. Therefore, it is considered that the data input efficiency is significantly improved.

【0044】図8は、上述したデータベース登録処理の
流れの概要を説明したものである。まず、最初に、郵便
書状データのイメージを取込み(S1)、該イメージ画
像を表示装置に表示しておく(S2)。一方、該イメー
ジ画像は、文字認識シミュレータ12によって自動認識
され(S3)、その文字認識結果を図7で示した操作画
面上に表示する(S4)。
FIG. 8 explains the outline of the flow of the database registration process described above. First, an image of postal letter data is captured (S1), and the image is displayed on a display device (S2). On the other hand, the image image is automatically recognized by the character recognition simulator 12 (S3), and the character recognition result is displayed on the operation screen shown in FIG. 7 (S4).

【0045】その後、オペレータによる認識結果の確
認、または、修正の処理を行なった後(S5)、郵便書
状上の各領域ごとに認識した結果コードに対してタグ付
け処理し(S6)、そのタグ内容に沿ってデータベース
17へのタグ情報の登録処理を行なう(S7)。
After confirming or correcting the recognition result by the operator (S5), a tagging process is performed on the result code recognized for each area on the postal letter (S6), and the tag is added. The registration processing of the tag information in the database 17 is performed according to the contents (S7).

【0046】文字認識シミュレータ12に入力する郵便
書状のイメージは、通常、各種シミュレーション条件な
どによって数千枚単位で処理されるため、ステップS8
で処理枚数のチェックを行なっている。
The image of the postal letter input to the character recognition simulator 12 is usually processed in units of several thousand sheets under various simulation conditions.
Checks the number of sheets processed.

【0047】なお、上記説明では、認識確度の高くない
文字認識について、認識結果の文字情報領域を点滅させ
るなどしてオペレータに容易に気付くようにしている
が、同時に、文字認識処理を行なった文字領域を表示し
ているイメージ上で座標データを使って矩形で示すこと
もできる。たとえば、宛名街区文字コードの認識結果の
認識確度が低い場合、表示装置の画面上の該当する文字
コード部分を反転表示させたり、点滅させたりする表示
を行なうとともに、郵便書状のイメージを表示している
領域に座標データに基づいた矩形を同様に反転、点滅、
もしくは、矩形色を変えたりして表示することにより、
オペレータに容易に気付かせるようにすることができ
る。さらに、郵便書状イメージの表示を拡大表示させて
文字行、または文字列間の検切り処理の評価に利用する
ことも可能である。
In the above description, the character recognition with low recognition accuracy is made easy for the operator to notice by blinking the character information area of the recognition result. The area can be indicated by a rectangle using the coordinate data on the image displaying the area. For example, when the recognition accuracy of the recognition result of the address block character code is low, the corresponding character code portion on the screen of the display device is displayed in reverse or blinking, and an image of a mail letter is displayed. Similarly, the rectangle based on the coordinate data is inverted, blinking,
Alternatively, by changing the color of the rectangle and displaying it,
It can be easily noticed by the operator. Further, it is also possible to enlarge the display of the postal letter image and use it for evaluation of a character line or character string cut-off process.

【0048】以上説明したように第1の実施の形態によ
れば、以下のような作用効果が期待できる。すなわち、
文字認識開発環境においては、通常、大量のデータによ
る認識アルゴリズムの実証性能向上を目的として、文字
認識シミュレータを同時に開発している。この文字認識
シミュレータを活用して、該認識結果の文字コード情報
をデータベースに登録する。勿論、文字認識シミュレー
タで認識した文字コード情報は、100%正しく認識す
ることはほとんどないため、該認識結果は、従来の正解
教示処理の環境でデータ入力を行なうオペレータが修正
できるように、該認識結果を第1候補データとして表示
装置に表示する形としている。これによって、オペレー
タは、イメージデータを見ながら最初から正解の文字コ
ードを入力する必要がないので、格段にデータ入力の効
率が高まる。
As described above, according to the first embodiment, the following effects can be expected. That is,
In the character recognition development environment, a character recognition simulator is usually developed simultaneously with the aim of improving the verification performance of a recognition algorithm using a large amount of data. Utilizing this character recognition simulator, character code information of the recognition result is registered in a database. Of course, since the character code information recognized by the character recognition simulator is hardly 100% correctly recognized, the recognition result is modified so that the operator who inputs data in the environment of the conventional correct answer teaching process can correct the recognition result. The result is displayed on the display device as first candidate data. This eliminates the need for the operator to input a correct character code from the beginning while looking at the image data, so that the efficiency of data input is significantly improved.

【0049】また、文字認識シミュレータが出力する情
報は、認識過程の処理の状況データを保持しているの
で、認識結果の信頼度を知ることができる。該信頼情報
は、認識結果の文字コードを第1候補として表示装置に
表示する際に、認識結果の信頼度の重み付けの属性情報
として、たとえば、確実に認識していれば青色で表示
し、確信が持てない認識結果であれば黄色で表示し、ま
た、認識できない領域は赤色で表示するなどの処理を施
すことができるので、さらに、オペレータの疲労度を軽
減させることができるといった効果がある。
Since the information output by the character recognition simulator holds the status data of the processing in the recognition process, the reliability of the recognition result can be known. When displaying the character code of the recognition result as the first candidate on the display device, the reliability information is displayed as attribute information of the weight of the reliability of the recognition result, for example, is displayed in blue if the recognition is performed reliably, and If the recognition result cannot be displayed, it can be displayed in yellow, and the unrecognizable area can be displayed in red, etc., so that the degree of fatigue of the operator can be further reduced.

【0050】次に、第2の実施の形態について説明す
る。
Next, a second embodiment will be described.

【0051】図9は、第2の実施の形態に係る文字認識
装置を利用したデータベース登録システムの構成を概略
的に説明したものである。
FIG. 9 schematically illustrates the configuration of a database registration system using a character recognition device according to the second embodiment.

【0052】データ収集部31は、現場でのデータ収集
が可能であり、郵便書状のイメージ収集とともに各種収
集条件用のファイルがハードディスク装置に蓄積され
る。文字認識シミュレータ32は、データ収集部31の
ハードディスク装置に蓄積された郵便書状のイメージデ
ータを入力として文字認識アルゴリズムのシミュレーシ
ョンを行ない、その認識結果である文字認識コードは、
図示しない他のシステムの入力情報となる。
The data collection unit 31 can collect data on site, and collects files for various collection conditions together with the collection of postal letter images on the hard disk device. The character recognition simulator 32 simulates a character recognition algorithm by using postal letter image data stored in the hard disk device of the data collection unit 31 as an input.
This is input information for another system (not shown).

【0053】文字認識シミュレータ32は、書状画像入
力部33、記載文字領域検切抽出部34、および、文字
認識部35の各処理モジュールで構成されており、これ
ら各処理モジュールでの処理履歴情報は、処理履歴情報
蓄積部(ログファイル)36に1つのログファイルとし
て出力され、蓄積される。
The character recognition simulator 32 comprises processing modules of a letter image input section 33, a written character area inspection / extraction section 34, and a character recognition section 35. The processing history information of each processing module is Are output to the processing history information storage unit (log file) 36 as one log file and stored.

【0054】書状画像データベース37は、データ収集
部31によって収集された郵便書状画像のデータベース
である。蓄積媒体としては、通常、CD−ROMで保存
さている。対話処理部38は、書状画像データベース3
7からの書状画像を操作管理して、GUI(グラフィカ
ル・ユーザ・インタフェイス)表示部39に表示する。
The letter image database 37 is a database of postal letter images collected by the data collection unit 31. The storage medium is usually stored on a CD-ROM. The dialogue processing unit 38 stores the letter image database 3
7 is operated and managed and displayed on a GUI (graphical user interface) display unit 39.

【0055】正解座標データ教示部40は、対話処理部
38の操作管理によってGUI表示部39に表示された
書状画像に対して、処理履歴情報蓄積部36内の処理履
歴情報に基づき正解座標データを生成し、タグ付け処理
部41に転送する。正解教示処理の詳細については後で
説明を行なう。タグ付け処理部41は、正解座標データ
教示部40からの正解座標データに対して文字認識すべ
き読取領域ごとのタグ情報を付加し、そのタグ情報を付
加した正解座標データを書状属性データベース42に登
録する。
The correct coordinate data teaching unit 40 converts the correct coordinate data for the letter image displayed on the GUI display unit 39 by the operation management of the interactive processing unit 38 based on the processing history information in the processing history information storage unit 36. It is generated and transferred to the tagging processing unit 41. The details of the correct answer teaching process will be described later. The tagging processing unit 41 adds tag information for each reading area to be character-recognized to the correct coordinate data from the correct coordinate data teaching unit 40, and stores the correct coordinate data with the tag information added to the letter attribute database 42. register.

【0056】書状属性データベース42に登録された正
解座標データは、文字認識シミュレータ32の入力デー
タとして使用され、文字認識処理の前段の記載文字領域
の検切処理アルゴリズムの評価を行なうことが可能とな
る。
The correct coordinate data registered in the letter attribute database 42 is used as input data of the character recognition simulator 32, and it is possible to evaluate the algorithm for checking and deleting the written character area at the preceding stage of the character recognition processing. .

【0057】図10は、各文字記載領域の特性に沿った
文字検切処理を行なうために、各領域属性アイコンによ
る操作を説明するためのもので、文字認識シミュレータ
における処理履歴情報のログ情報を利用して、各文字記
載領域の抽出候補を書状画像上に表示したものである。
すなわち、操作画面の書状イメージ表示領域E4内に郵
便番号領域候補R21、住所領域候補R22、氏名領域
候補R23,R24をそれぞれ矩形表示したものであ
る。
FIG. 10 is a diagram for explaining an operation using each area attribute icon in order to perform a character checking process in accordance with the characteristics of each character description area. Log information of processing history information in the character recognition simulator is shown in FIG. The extraction candidates of the respective character description areas are displayed on the letter image by utilizing.
That is, the postal code area candidate R21, the address area candidate R22, and the name area candidates R23 and R24 are displayed in a rectangular shape in the letter image display area E4 of the operation screen.

【0058】図10において、操作画面の書状イメージ
表示領域E4の右側には、各抽出領域として、郵便番号
領域を示すアイコンA1、住所領域/横を示すアイコン
A2、住所領域/縦を示すアイコンA3、氏名領域を示
すアイコンA4、その他のアイコンが用意されている。
オペレータは、マウスなどの位置指定装置を用いて、該
アイコンを表示イメージ上の対応する抽出領域上に移動
させ、確定することによって、各抽出領域の属性を決定
することができるようになっている。
In FIG. 10, on the right side of the letter image display area E4 on the operation screen, as extraction areas, an icon A1 indicating a postal code area, an icon A2 indicating an address area / horizontal, and an icon A3 indicating an address area / vertical. , An icon A4 indicating the name area, and other icons.
The operator moves the icon to a corresponding extraction area on the display image using a position designation device such as a mouse, and fixes the icon, thereby determining the attribute of each extraction area. .

【0059】すなわち、郵便番号領域アイコンA1は表
示枠領域R21に、住所領域/縦アイコンA3は表示枠
領域R22に、氏名領域アイコンA4は表示枠領域R2
3に移動して確定する。ここで、氏名領域候補R24
は、領域R25の広告イメージの影響を受けて、氏名領
域として誤った領域を抽出しており、オペレータは、そ
れを判断して、氏名領域アイコンA4を領域R23に移
動して確定したものである。なお、位置指定装置として
は、マウスの他にタッチパネルによる直接指定による方
法によることも可能である。
That is, the postal code area icon A1 is in the display frame area R21, the address area / vertical icon A3 is in the display frame area R22, and the name area icon A4 is in the display frame area R2.
Move to 3 to confirm. Here, the name area candidate R24
Is extracting an incorrect area as the name area due to the influence of the advertisement image in the area R25, and the operator determines this and moves the name area icon A4 to the area R23 to determine the area. . It should be noted that, as the position designation device, it is also possible to use a method of direct designation using a touch panel other than the mouse.

【0060】図11は、各記載文字領域に対応したアイ
コンと関連する属性情報の内容を説明したものである。
たとえば、郵便番号領域の属性情報として、横書き、数
字文字、記載枠ありといった情報を使って、この属性情
報に応じた記載文字の検切り処理を行なうことができ
る。
FIG. 11 explains the contents of the attribute information related to the icon corresponding to each written character area.
For example, by using information such as horizontal writing, numeric characters, and a description frame as attribute information of the postal code area, it is possible to perform a check process of a written character according to the attribute information.

【0061】また、住所領域の属性情報として、縦書
き、印活文字(印刷活字文字)、複数行ありといった情
報を使って、この属性情報に応じた記載文字の検切り処
理を行なうことができる。因みに、操作画面の右側に
は、横書き用の住所領域アイコンA2も準備されている
が、この場合は縦書きの住所領域アイコンA3を用いた
ことになる。
Further, by using information such as vertical writing, inscription characters (printing type characters), and presence of a plurality of lines as attribute information of the address area, it is possible to perform a check process of a written character according to the attribute information. . Incidentally, the address area icon A2 for horizontal writing is also prepared on the right side of the operation screen. In this case, the address area icon A3 for vertical writing is used.

【0062】このような処理により、各領域内の属性情
報に応じた検切り処理により、高性能で、かつ、安定し
た記載文字の検切り処理による各記載文字の正解座標デ
ータを得ることができる。勿論、上記各領域内での文字
ごとの検切り処理アルゴリズムは、文字認識シミュレー
タで使用している方法で行なうものである。
According to such processing, the correct coordinate data of each written character can be obtained by the high-performance and stable written character checking processing by the checking processing according to the attribute information in each area. . Needless to say, the detection processing algorithm for each character in each area described above is performed by the method used in the character recognition simulator.

【0063】類似書状の例としては、ダイレクトメール
書状が考えられている。こういったダイレクトメール書
状は、住所情報の書き方が統一されているため、その類
似性をイメージとしてチェックすることが可能である。
また、ダイレクトメール書状の特性として、住所領域外
にはユニークにデザインされたものが多い。こういった
イメージの類似性をチェックすることも充分考えられ
る。
As an example of a similar letter, a direct mail letter is considered. Such direct mail letters have a uniform writing of address information, so that the similarity can be checked as an image.
In addition, as a characteristic of the direct mail letter, there are many unique designs outside the address area. It is quite possible to check the similarity of these images.

【0064】図12は、こういったダイレクトメール書
状などに対する類似性のパターン例を説明したものであ
る。図12において、領域P1はダイレクトメール書状
などでよく用いられるラベルを使った住所、宛名を記載
した例である。該ラベル内には、郵便番号、住所、宛名
といった情報が全部、同じラベル内に記載されており、
該ラベル枠サイズ情報も利用して、類似性をチェックす
ることができる。
FIG. 12 illustrates an example of a pattern of similarity to such a direct mail letter or the like. In FIG. 12, an area P1 is an example in which addresses and addresses using labels often used in direct mail letters and the like are described. In the label, information such as zip code, address, and address are all described in the same label,
The similarity can be checked using the label frame size information.

【0065】また、図12において、領域P2は、ダイ
レクトメール書状の住所記載領域外に、よく用いられる
広告ロゴマークの例を示している。該広告ロゴマーク領
域をイメージとして捉え、その類似性をチェックするこ
とで、同種類のダイレクトメール書状と判断することが
可能である。
In FIG. 12, an area P2 shows an example of a frequently used advertisement logo mark outside the address description area of the direct mail letter. By taking the advertisement logo area as an image and checking the similarity, it is possible to determine that the letter is the same type of direct mail letter.

【0066】図13は、郵便書状イメージの類似性をチ
ェックして、似ている書状は一括して正解座標データと
して自動的に取得し、データベース登録することを説明
したものである。
FIG. 13 illustrates that the similarity of postal letter images is checked, and similar letters are automatically acquired collectively as correct coordinate data and registered in a database.

【0067】図13において、まず、ステップS11に
て書状の類似性をチェックする。ここでは、図12で説
明した方法で、その書状の類似性をチェックする。な
お、類似書状の対象とする書状パターンデータは、書状
パターンのテンプレートデータ(記憶部)43にあらか
じめテンプレートの形で登録しておく。
In FIG. 13, first, in step S11, the similarity of the letter is checked. Here, the similarity of the letter is checked by the method described with reference to FIG. Note that the letter pattern data to be the target of the similar letter is registered in the template data (storage unit) 43 of the letter pattern in advance in the form of a template.

【0068】ステップS11での類似性のチェックの結
果、類似度が設定値を越えた書状については、類似性の
高いテンプレートデータに付随している各種処理パラメ
ータを使って自動的に各正解座標データを取得する(S
12)。
As a result of the similarity check in step S11, for the letter whose similarity exceeds the set value, each correct coordinate data is automatically set using various processing parameters attached to the template data having high similarity. (S
12).

【0069】一方、ステップS11での類似性のチェッ
クの結果、類似度が設定値以下の書状については、図1
0で説明した形で、正解座標データ取得のための対話的
処理操作を行なう。以下、それについて詳細に説明す
る。
On the other hand, as a result of the similarity check in step S11, a letter whose similarity is equal to or less than the set value is shown in FIG.
The interactive processing operation for acquiring the correct answer coordinate data is performed in the form described in FIG. Hereinafter, this will be described in detail.

【0070】まず、処理履歴情報蓄積部36に蓄積され
ている文字認識処理過程の処理履歴情報の中に存在して
いる各記載文字領域ごとの抽出領域候補情報を使用し
て、その結果を書状イメージを表示している操作画面上
に抽出矩形として表示する処理を行なう(S13)。そ
の後、対応する各記載文字領域に対応したアイコンをG
UI操作することにより、その属性を決定する(S1
4)。
First, using the extraction area candidate information for each written character area that is present in the processing history information of the character recognition process stored in the processing history information storage unit 36, the result is written to a letter. A process of displaying the image as an extraction rectangle on the operation screen displaying the image is performed (S13). After that, the icon corresponding to each corresponding written character area is displayed as G
The attribute is determined by operating the UI (S1).
4).

【0071】次に、各記載文字領域に割り当てられたア
イコンにリンクした抽出領域に依存した属性情報を使っ
て、文字単位の検切り処理を行なう(S15)。これに
より、各記載文字領域の特性にあった最適な文字検切り
処理を行なうことができる。次に、該抽出した各記載文
字領域の正解座標データは、書状属性データベース42
内での複数の属性情報を識別するために、正解座標デー
タとして、たとえば、郵便番号領域、住所領域、氏名領
域などといった各識別タグ名を付加することによって、
自動処理により書状属性データベース42に登録を行な
う(S16)。
Next, a check process is performed for each character by using attribute information depending on an extraction area linked to an icon assigned to each written character area (S15). As a result, it is possible to perform an optimal character detection and cutoff process suited to the characteristics of each written character area. Next, the extracted correct coordinate data of each written character area is stored in the letter attribute database 42.
In order to identify a plurality of pieces of attribute information within the area, by adding each identification tag name such as a postal code area, an address area, and a name area as correct coordinate data,
Registration is made in the letter attribute database 42 by automatic processing (S16).

【0072】図14は、郵便書状のイメージを説明した
もので、郵便書状上の文字認識を行なう場合の各文字記
載領域を示している。郵便書状上の文字を認識する文字
認識アルリゴズムでは、読取領域ごとに各種属性情報を
基に専用のアルゴリズムで認識させることで、全体の文
字認識率を向上させる。
FIG. 14 explains an image of a postal letter, and shows each character description area when character recognition on a postal letter is performed. In the character recognition algorithm for recognizing characters on a postal letter, the entire character recognition rate is improved by performing recognition using a dedicated algorithm based on various attribute information for each reading area.

【0073】たとえば、郵便書状上方の数字列の領域と
して郵便番号領域R21の内容である「210−091
5」と、その座標データ(X5,Y5)/(X6,Y
6)、複数行にわたる住所領域R22の内容である「川
崎市幸区柳町/50−2番地」と、その座標データ(X
1,Y1)/(X2,Y2)、宛名領域R23の内容で
ある「東京太郎様」と、その座標データ(X3,Y3)
/(X4,Y4)、などの領域を別々に抽出して、各領
域内の認識アルゴリズムで文字認識するものである。文
字認識結果は、各領域ごとに認識結果の信頼性情報など
を文字認識シミュレータ32が出力する結果ファイルか
ら取得することができる。
For example, "210-091" which is the contents of the postal code area R21 as a numerical string area above the postal letter.
5 "and its coordinate data (X5, Y5) / (X6, Y
6), "50-2, Yanagicho, Sachi-ku, Kawasaki-shi" which is the contents of the address area R22 over a plurality of lines, and its coordinate data (X
(1, Y1) / (X2, Y2), “Tokyo Taro”, which is the content of the address area R23, and its coordinate data (X3, Y3)
/ (X4, Y4), etc., are separately extracted, and character recognition is performed using a recognition algorithm in each region. The character recognition result can be obtained from a result file output by the character recognition simulator 32, such as reliability information of the recognition result for each region.

【0074】図15は、各記載文字領域の正解座標デー
タに対するタグ付けの例を説明したものであり、図14
で説明した郵便書状上の各領域ごとにタグ名を付けたも
のである。たとえば、「210−0915」の正解座標
データのタグ名は「郵便番号座標」、「川崎市幸区柳町
50−2番地」の正解座標データのタグ名は「住所座
標」、「東京太郎様」の正解座標データのタグ名は「氏
名座標」、といった具合にタグ名を付ける。これによっ
て、書状属性データベース42へのデータ登録を自動化
することができる。
FIG. 15 explains an example of tagging the correct coordinate data of each written character area.
A tag name is assigned to each area on the postal letter described in the above section. For example, the tag name of the correct coordinate data of “210-0915” is “Zip code coordinate”, and the tag name of the correct coordinate data of “50-2 Yanagicho, Sachi-ku, Kawasaki-shi” is “Address coordinate”, “Taro Tokyo” The tag name of the correct answer coordinate data is “name coordinate”. This makes it possible to automate data registration in the letter attribute database 42.

【0075】なお、図9に示す書状属性データベース4
2には、複数の種類の属性情報が構造を持って登録され
ており、該正解座標データはその1つの属性情報であ
る。この正解座標データを識別するためにタグ名を定義
するものである。
The letter attribute database 4 shown in FIG.
2, a plurality of types of attribute information are registered with a structure, and the correct answer coordinate data is one of the attribute information. A tag name is defined to identify the correct coordinate data.

【0076】以上説明したように第2の実施の形態によ
れば、以下のような作用効果が期待できる。すなわち、
文字認識開発環境においては、通常、大量のデータによ
る認識アルゴリズム、および、その前段である記載文字
領域、および、記載文字の検切り処理アルゴリズムの実
証性能向上を目的として、文字認識シミュレータを同時
に開発している。この文字認識シミュレータは、文字入
力、検切り処理、認識処理の過程の各情報をログ情報フ
ァイルとして蓄積している。この文字認識シミュレータ
を活用して、該記載文字領域、および、記載文字抽出矩
形情報、すなわち、抽出矩形を示す座標データの情報を
データベースに登録する。勿論、記載文字領域、記載文
字を抽出する矩形座標データは、100%正しく抽出さ
れることはほとんどないため、該抽出座標データは、前
述した対話処理による方法を加味することにより、オペ
レータは書状画像を見ながら、最初から正解座標データ
を一々生成していく必要がないので、格段に正解座標デ
ータ生成の効率が向上するものである。
As described above, according to the second embodiment, the following operational effects can be expected. That is,
In a character recognition development environment, a character recognition simulator is usually developed at the same time to improve the verification performance of a recognition algorithm based on a large amount of data, and a preceding character, a written character area, and a written character check processing algorithm. ing. This character recognition simulator accumulates information on the processes of character input, detection processing, and recognition processing as a log information file. Utilizing this character recognition simulator, the written character area and written character extraction rectangle information, that is, information of coordinate data indicating the extraction rectangle is registered in a database. Of course, the rectangular coordinate data for extracting the written character area and the written characters is hardly 100% correctly extracted. Therefore, the extracted coordinate data is added to the letter image by taking into account the above-described interactive processing method. Therefore, it is not necessary to generate the correct coordinate data one by one from the beginning, and the efficiency of generating the correct coordinate data is remarkably improved.

【0077】また、たとえば、ダイレクトメール書状な
どは同じ書状形式と考えられる。このような書状形式が
似たものに対して、書状画像の類似性をチェックして、
似ている書状については、あらかじめ設定したテンプレ
ート情報を使用することによって、一括して大量の書状
の正解座標データを自動的に取得するようにしているの
で、さらに正解座標データ生成の効率向上を図ることが
でき、かつ、オペレータの疲労度を極めて軽減させるこ
とができるといった効果がある。
For example, a direct mail letter is considered to be the same letter format. Check the similarity of the letter image for such similar letter format,
For similar letters, a large amount of correct coordinate data of the letter is automatically acquired in a lump by using template information set in advance, further improving the efficiency of generating correct coordinate data. And the degree of operator fatigue can be significantly reduced.

【0078】[0078]

【発明の効果】以上詳述したように本発明によれば、文
字認識アルゴリズムの評価に使用する正解データをデー
タベースに登録する作業において、より正確に、かつ、
時間をかけずにデータ入力を行なうことができ、その結
果、データ入力の疲労度を軽減した効率的なデータベー
スへの登録が可能となる文字認識装置を利用したデータ
ベース登録方法を提供できる。
As described above in detail, according to the present invention, in the operation of registering the correct data used in the evaluation of the character recognition algorithm in the database, more accurately and
It is possible to provide a database registration method using a character recognition device that can perform data entry without taking much time, and as a result, enables efficient database registration with reduced data entry fatigue.

【0079】また、本発明によれば、文字認識アルゴリ
ズムの評価に使用する記載文字の正解座標データをデー
タベースに登録する作業において、より正確に、かつ、
時間をかけずにデータ入力を行なうことができ、その結
果、データ入力の疲労度を軽減した効率的なデータベー
スへの登録が可能となる文字認識装置を利用したデータ
ベース登録方法を提供できる。
Further, according to the present invention, in the operation of registering the correct coordinate data of the written character used for the evaluation of the character recognition algorithm in the database, more accurately and
It is possible to provide a database registration method using a character recognition device that can perform data entry without taking much time, and as a result, enables efficient database registration with reduced data entry fatigue.

【図面の簡単な説明】[Brief description of the drawings]

【図1】一般的なデータベース登録システムの例を説明
するブロック図。
FIG. 1 is a block diagram illustrating an example of a general database registration system.

【図2】文字認識シミュレータシステムの構成例を説明
するブロック図。
FIG. 2 is a block diagram illustrating a configuration example of a character recognition simulator system.

【図3】本発明の第1の実施の形態に係る文字認識装置
を利用したデータベース登録システムの構成を概略的に
示すブロック図。
FIG. 3 is a block diagram schematically showing a configuration of a database registration system using the character recognition device according to the first embodiment of the present invention.

【図4】郵便書状上の文字認識を行なう場合の各領域例
を説明する図。
FIG. 4 is a diagram illustrating an example of each area when character recognition on a postal letter is performed.

【図5】図4で示した各領域ごとの認識結果をタグで区
分けする例を説明する図。
FIG. 5 is an exemplary view for explaining an example in which recognition results for each area shown in FIG. 4 are classified by tags;

【図6】文字認識シミュレータの機能ブロックを説明す
る図。
FIG. 6 is a diagram illustrating functional blocks of a character recognition simulator.

【図7】文字認識シミュレータの出力結果を領域ごとに
タグ名を付けた状態で表示装置に表示し、オペレータが
編集や確認操作を行なうことを説明するための操作画面
例を示す図。
FIG. 7 is a diagram showing an example of an operation screen for displaying an output result of the character recognition simulator on a display device in a state where a tag name is assigned to each region, and explaining that an operator performs an editing or confirmation operation.

【図8】データベース登録処理の流れの概要を説明する
フローチャート。
FIG. 8 is a flowchart illustrating an outline of a flow of a database registration process.

【図9】本発明の第2の実施の形態に係る文字認識装置
を利用したデータベース登録システムの構成を概略的に
示すブロック図。
FIG. 9 is a block diagram schematically showing a configuration of a database registration system using a character recognition device according to a second embodiment of the present invention.

【図10】郵便書状上の各記載文字領域における正解座
標データの編集や確認操作を説明するための操作画面例
を示す図。
FIG. 10 is a diagram showing an example of an operation screen for explaining editing and confirmation operations of correct coordinate data in each written character area on a postal letter.

【図11】郵便書状上の各記載文字領域に対応したアイ
コンと関連する属性情報の例を説明するための図。
FIG. 11 is a view for explaining an example of attribute information associated with an icon corresponding to each written character area on a postal letter.

【図12】郵便書状の画像に対する類似性のパターン例
を説明するための図。
FIG. 12 is a view for explaining an example of a similarity pattern with respect to a postal letter image.

【図13】正解座標データの生成およびデータベース登
録処理の流れの概要を説明するフローチャート。
FIG. 13 is a flowchart illustrating an outline of a flow of a process of generating correct coordinate data and registering a database.

【図14】郵便書状上の文字認識を行なう場合の各領域
例を説明する図。
FIG. 14 is a diagram illustrating an example of each area when character recognition on a postal letter is performed.

【図15】図14で示した各領域ごとの抽出座標結果を
タグで区分けする例を説明する図。
FIG. 15 is a view for explaining an example in which the extracted coordinate results for each area shown in FIG. 14 are classified by tags.

【符号の説明】[Explanation of symbols]

11……データ収集部 12……文字認識シミュレータ(文字認識装置) 13……処理結果分析処理部 14……正解教示部 15……対話処理部 16……タグ付け処理部 17……データベース 21……イメージ入力部 22……検切り処理部 23……行検切り処理部 24……文字検切り処理部 25……文字認識処理部 26……辞書部 31……データ収集部 32……文字認識シミュレータ(文字認識装置) 33……書状画像入力部 34……記載文字領域検切抽出部 35……文字認識部 36……処理履歴情報蓄積部(ログファイル) 37……書状画像データベース 38……対話処理部 39……GUI表示部 40……正解座標データ教示部 41……タグ付け処理部 42……書状属性データベース 11 Data collection unit 12 Character recognition simulator (character recognition device) 13 Processing result analysis processing unit 14 Correct answer teaching unit 15 Dialogue processing unit 16 Tagging processing unit 17 Database 21 ... Image input unit 22... Check-out processing unit 23... Line check-out processing unit 24... Character check-out processing unit 25... Character recognition processing unit 26. Simulator (character recognition device) 33 ... letter image input unit 34 ... written character area inspection and extraction unit 35 ... character recognition unit 36 ... processing history information storage unit (log file) 37 ... letter image database 38 ... Dialogue processing unit 39 GUI display unit 40 Correct coordinate data teaching unit 41 Tagging processing unit 42 Letter attribute database

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06K 9/20 340 G06F 15/62 330D ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G06K 9/20 340 G06F 15/62 330D

Claims (15)

【特許請求の範囲】[Claims] 【請求項1】 文字の自動認識による属性情報をデータ
ベースに登録する文字認識装置を利用したデータベース
登録方法において、 データベースに登録する定形化された用紙上のデータを
読取って収集するステップと、 この収集したデータに対して文字認識装置を用いて文字
認識処理を行なうステップと、 この文字認識処理の認識結果に対して、その認識結果を
表示しながら対話的に確認、修正などの編集処理を行な
うことにより正解データを生成するステップと、 この生成された正解データに対して所定の読取単位ごと
にタグ付け処理を行なうステップと、 このタグ付け処理を行なった正解データをデータベース
に登録するステップと、 からなることを特徴とする文字認識装置を利用したデー
タベース登録方法。
In a database registration method using a character recognition device for registering attribute information by automatic character recognition in a database, a step of reading and collecting data on a standardized sheet to be registered in the database; Performing a character recognition process on the selected data using a character recognition device, and interactively checking and correcting the recognition result of the character recognition process while displaying the recognition result. Generating correct answer data according to: a step of performing tagging processing on the generated correct answer data for each predetermined reading unit; and registering the correct answer data obtained by performing the tagging processing in a database. A database registration method using a character recognition device.
【請求項2】 文字認識装置として文字認識シミュレー
タを用いることを特徴とする請求項1記載の文字認識装
置を利用したデータベース登録方法。
2. A database registration method using a character recognition device according to claim 1, wherein a character recognition simulator is used as the character recognition device.
【請求項3】 文字認識処理の認識結果として、文字認
識コード情報、および、該認識した文字列を包含する矩
形を構成する座標情報をそれぞれ正解データとして使用
することを特徴とする請求項1記載の文字認識装置を利
用したデータベース登録方法。
3. The method according to claim 1, wherein character recognition code information and coordinate information forming a rectangle including the recognized character string are used as correct answer data as a recognition result of the character recognition processing. Database registration method using a character recognition device.
【請求項4】 文字認識領域によって文字認識装置の読
取性能が異なる場合、該認識結果の信頼性尺度として重
み付けを行ない、該重み付け情報を用いて視覚的に区別
できるように該認識結果を表示することを特徴とする請
求項1記載の文字認識装置を利用したデータベース登録
方法。
4. When the reading performance of the character recognition device differs depending on the character recognition area, weighting is performed as a reliability measure of the recognition result, and the recognition result is displayed so as to be visually distinguishable using the weighting information. A database registration method using the character recognition device according to claim 1.
【請求項5】 重み付け情報として文字認識装置が出力
する中間結果を活用することにより、各認識文字領域の
単位で重み付け情報を扱うことができることを特徴とす
る請求項4記載の文字認識装置を利用したデータベース
登録方法。
5. The character recognition device according to claim 4, wherein the intermediate information output by the character recognition device is used as the weighting information, so that the weighting information can be handled in units of each recognized character area. Database registration method.
【請求項6】 データベースに登録を行なう際に、文字
認識処理の認識結果を所定の読取単位でタグ形式のファ
イルとして出力し、該ファイルを用いて自動的に正解デ
ータを登録することを特徴とする請求項1記載の文字認
識装置を利用したデータベース登録方法。
6. When registering in a database, a recognition result of the character recognition process is output as a file in a tag format in a predetermined reading unit, and correct data is automatically registered using the file. A database registration method using the character recognition device according to claim 1.
【請求項7】 文字認識処理の認識結果を利用して正解
データとする際、文字認識処理の認識結果を正解データ
の第1の候補として採用し、これを人手による操作によ
って編集するという連携処理を行なうことを特徴とする
請求項1記載の文字認識装置を利用したデータベース登
録方法。
7. A cooperative process in which, when using the recognition result of the character recognition process as the correct answer data, the recognition result of the character recognition process is adopted as a first candidate of the correct answer data and edited by manual operation. 2. The database registration method using the character recognition device according to claim 1, wherein
【請求項8】 タグ付け処理を行なう際、文字認識する
所定のフォーマットを有する用紙に特有のタグ名とする
ことを特徴とする請求項1記載の文字認識装置を利用し
たデータベース登録方法。
8. A database registration method using a character recognition device according to claim 1, wherein a tag name unique to a sheet having a predetermined format for character recognition is used when performing the tagging process.
【請求項9】 文字の自動認識による属性情報をデータ
ベースに登録する文字認識装置を利用したデータベース
登録方法において、 データベースに登録する定形化された用紙上のデータを
読取って収集するステップと、 この収集したデータに対して文字認識装置を用いて文字
認識処理を行なうステップと、 この文字認識処理の文字認識過程における処理履歴情報
に対して、その処理履歴情報を表示しながら対話的に処
理することにより記載文字の正解座標データを生成する
ステップと、 この生成された正解座標データに対して所定の読取単位
ごとにタグ付け処理を行なうステップと、 このタグ付け処理を行なった正解座標データをデータベ
ースに登録するステップと、 からなることを特徴とする文字認識装置を利用したデー
タベース登録方法。
9. A database registration method using a character recognition device for registering attribute information by automatic character recognition in a database, wherein the step of reading and collecting data on a standardized sheet to be registered in the database; Performing a character recognition process using the character recognition device on the obtained data, and interactively processing the processing history information in the character recognition process of the character recognition process while displaying the processing history information. A step of generating correct coordinate data of the written character; a step of tagging the generated correct coordinate data for each predetermined reading unit; registering the correct coordinate data obtained by performing the tagging processing in a database And a database registration method using a character recognition device, comprising: Law.
【請求項10】 文字認識装置として文字認識シミュレ
ータを用い、この文字認識シミュレータが出力する文字
認識過程における処理履歴情報から抽出した文字記載領
域候補に対して、その文字記載領域候補を表示しながら
対話的に処理することにより記載文字の正解座標データ
を生成することを特徴とする請求項9記載の文字認識装
置を利用したデータベース登録方法。
10. A character recognition simulator is used as a character recognition device, and a character description region candidate extracted from processing history information in a character recognition process output by the character recognition simulator is displayed while displaying the character description region candidate. 10. The database registration method using the character recognition device according to claim 9, wherein the correct coordinate data of the written character is generated by performing the processing.
【請求項11】 処理履歴情報から抽出した文字記載領
域候補を表示手段で表示し、該文字記載領域ごとに設定
属性情報を与えることによって、該設定属性情報を用い
た文字記載領域ごとの文字検出切出しを行なうことによ
り、文字記載領域ごとの正解座標データを生成すること
を特徴とする請求項10記載の文字認識装置を利用した
データベース登録方法。
11. A character description area candidate extracted from the processing history information is displayed on a display means, and setting attribute information is given to each of the character description areas, thereby detecting a character for each character description area using the setting attribute information. 11. The database registration method using a character recognition device according to claim 10, wherein the correct coordinate data is generated for each character description area by performing the extraction.
【請求項12】 設定属性情報を与える際、定形化され
た用紙が郵便書状とすると、文字記載領域を郵便番号領
域、住所領域、氏名領域などに対応したアイコンを設け
て、該アイコンを文字記載領域に移動操作して指定する
ことにより設定属性情報を与えることを特徴とする請求
項11記載の文字認識装置を利用したデータベース登録
方法。
12. When setting attribute information is given, if a standardized sheet is a letter of a letter, an icon corresponding to a zip code area, an address area, a name area, or the like is provided as a character description area, and the icon is written in a letter. 12. The database registration method using a character recognition device according to claim 11, wherein the setting attribute information is given by moving and specifying the area.
【請求項13】 定形化された用紙が郵便書状とする
と、郵便書状の画像の類似性を判断して、あらかじめ登
録されている代表的な郵便書状の画像と類似している郵
便書状については、一括して自動的に正解座標データを
生成することを特徴とする請求項9記載の文字認識装置
を利用したデータベース登録方法。
13. Assuming that the standardized paper is a postal letter, the similarity of the postal letter image is determined, and for a postal letter similar to a typical postal letter image registered in advance, 10. The database registration method using a character recognition device according to claim 9, wherein correct coordinate data is automatically generated in a lump.
【請求項14】 郵便書状の画像の類似性を判断する
際、文字認識過程における処理履歴情報内に存在する文
字記載領域枠のサイズ、郵便書状の縦書き/横書き、お
よび、印刷活字文字/手書き文字などの郵便書状属性情
報で判断することを特徴とする請求項13記載の文字認
識装置を利用したデータベース登録方法。
14. When judging the similarity of the image of the postal letter, the size of the character description area frame present in the processing history information in the character recognition process, the vertical / horizontal writing of the postal letter, and the print type / handwriting 14. The database registration method using a character recognition device according to claim 13, wherein the determination is made based on postal letter attribute information such as characters.
【請求項15】 郵便書状の画像の類似性を判断する
際、郵便書状の住所記載領域外の広告画像などのイメー
ジに対して画像としての類似性の処理を行なうことによ
り判断することを特徴とする請求項13記載の文字認識
装置を利用したデータベース登録方法。
15. A method for determining the similarity of an image of a postal letter by performing similarity processing as an image on an image such as an advertisement image outside the address description area of the postal letter. A database registration method using the character recognition device according to claim 13.
JP17302499A 1999-06-18 1999-06-18 Database registration method using character recognition device Expired - Fee Related JP4160206B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17302499A JP4160206B2 (en) 1999-06-18 1999-06-18 Database registration method using character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17302499A JP4160206B2 (en) 1999-06-18 1999-06-18 Database registration method using character recognition device

Publications (2)

Publication Number Publication Date
JP2001005804A true JP2001005804A (en) 2001-01-12
JP4160206B2 JP4160206B2 (en) 2008-10-01

Family

ID=15952807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17302499A Expired - Fee Related JP4160206B2 (en) 1999-06-18 1999-06-18 Database registration method using character recognition device

Country Status (1)

Country Link
JP (1) JP4160206B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005251205A (en) * 2004-03-03 2005-09-15 Microsoft Corp Assisted form input
JP2008226066A (en) * 2007-03-15 2008-09-25 Nec Corp Automatic mail classification system
JP2016159245A (en) * 2015-03-03 2016-09-05 株式会社東芝 Delivery processor and delivery processing program
JP2016177754A (en) * 2015-03-23 2016-10-06 日本電気株式会社 Character extraction device, character extraction method, and character extraction program
CN110516663A (en) * 2019-07-15 2019-11-29 平安普惠企业管理有限公司 Test method, device, computer equipment and the storage medium of OCR recognition accuracy
CN112559369A (en) * 2020-12-23 2021-03-26 上海眼控科技股份有限公司 Automatic testing method, automatic testing equipment and storage medium
JP7482057B2 (en) 2021-02-10 2024-05-13 富士通フロンテック株式会社 Document recognition program and document recognition device

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005251205A (en) * 2004-03-03 2005-09-15 Microsoft Corp Assisted form input
JP2008226066A (en) * 2007-03-15 2008-09-25 Nec Corp Automatic mail classification system
JP2016159245A (en) * 2015-03-03 2016-09-05 株式会社東芝 Delivery processor and delivery processing program
JP2016177754A (en) * 2015-03-23 2016-10-06 日本電気株式会社 Character extraction device, character extraction method, and character extraction program
CN110516663A (en) * 2019-07-15 2019-11-29 平安普惠企业管理有限公司 Test method, device, computer equipment and the storage medium of OCR recognition accuracy
CN112559369A (en) * 2020-12-23 2021-03-26 上海眼控科技股份有限公司 Automatic testing method, automatic testing equipment and storage medium
JP7482057B2 (en) 2021-02-10 2024-05-13 富士通フロンテック株式会社 Document recognition program and document recognition device

Also Published As

Publication number Publication date
JP4160206B2 (en) 2008-10-01

Similar Documents

Publication Publication Date Title
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
JP4347677B2 (en) Form OCR program, method and apparatus
US8467614B2 (en) Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images
JP4996940B2 (en) Form recognition device and program thereof
US8015203B2 (en) Document recognizing apparatus and method
US20020141660A1 (en) Document scanner, system and method
JP4977368B2 (en) Medium processing apparatus, medium processing method, medium processing system, and computer-readable recording medium recording medium processing program
US20190294912A1 (en) Image processing device, image processing method, and image processing program
US20100094888A1 (en) Method and system for acquiring data from machine-readable documents
JP6100532B2 (en) Receipt definition data creation device and program thereof
JP3422924B2 (en) CHARACTER RECOGNITION DEVICE, CHARACTER RECOGNITION METHOD, AND COMPUTER-READABLE RECORDING MEDIUM RECORDING PROGRAM FOR CAUSING COMPUTER TO EXECUTE THE METHOD
JP4733577B2 (en) Form recognition device and form recognition program
JP2008003740A (en) Input correction method, postscript information processing method, postscript information processor, and program
JPH03161891A (en) Table type document reader
JP2001243423A (en) Device and method for detecting character recording area of document, storage medium, and document format generating device
JP4160206B2 (en) Database registration method using character recognition device
KR102282025B1 (en) Method for automatically sorting documents and extracting characters by using computer
CN112613367A (en) Bill information text box acquisition method, system, equipment and storage medium
JP2012181653A (en) Scoring method, program of scoring method, and scoring system
JPH1173472A (en) Format information registering method and ocr system
JP5670156B2 (en) Test result verification system, method, and program
JP2019185140A (en) Image processing device, image processing method, and program
JP4347675B2 (en) Form OCR program, method and apparatus
JP5134383B2 (en) OCR device, trail management device and trail management system
JP3732254B2 (en) Format information generation method and format information generation apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060519

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080321

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080717

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120725

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130725

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees