JP2002024761A - Image processing device, image processing method, and storage medium - Google Patents

Image processing device, image processing method, and storage medium

Info

Publication number
JP2002024761A
JP2002024761A JP2000204312A JP2000204312A JP2002024761A JP 2002024761 A JP2002024761 A JP 2002024761A JP 2000204312 A JP2000204312 A JP 2000204312A JP 2000204312 A JP2000204312 A JP 2000204312A JP 2002024761 A JP2002024761 A JP 2002024761A
Authority
JP
Japan
Prior art keywords
character string
cell
image processing
specified
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000204312A
Other languages
Japanese (ja)
Other versions
JP4136282B2 (en
JP2002024761A5 (en
Inventor
Hiroaki Ikeda
裕章 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000204312A priority Critical patent/JP4136282B2/en
Publication of JP2002024761A publication Critical patent/JP2002024761A/en
Publication of JP2002024761A5 publication Critical patent/JP2002024761A5/ja
Application granted granted Critical
Publication of JP4136282B2 publication Critical patent/JP4136282B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To read specific information on a document without the existence of a template. SOLUTION: The document is read from a scanner 108 as image data (S201). A character area is extracted from the read image data (S202). The position information of the character area is stored in a RAM (random access memory) 103. Cells are extracted from the read image data (S203). Character recognition is applied to the extracted character area (S204). A character (tag) serving as a keyword is inputted, and the inputted keyword is compared with the character code for retrieval (S205). A cell located near the retrieved keyword is estimated and selected (S206). The character code in the selected sell is specified by comparing the position information of the cell with the position information of the character code (S207).

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、イメージデータに
含まれる文字列を読み取り、認識する画像処理装置及び
画像処理方法並びに記憶媒体に関するものである。
[0001] 1. Field of the Invention [0002] The present invention relates to an image processing apparatus, an image processing method, and a storage medium for reading and recognizing a character string included in image data.

【0002】[0002]

【従来の技術】従来、帳票などに書かれた特定の情報を
読み取る場合、あらかじめ文字が書かれている領域の位
置や大きさなどの情報を持つテンプレートを用意し、イ
メージスキャナなど光電変換装置で読み取られた画像デ
ータにテンプレートを当てはめ、領域内を文字認識する
ように構成されている。
2. Description of the Related Art Conventionally, when reading specific information written on a form or the like, a template having information such as the position and size of an area in which characters are written is prepared in advance, and a template is prepared using a photoelectric conversion device such as an image scanner. The template is applied to the read image data, and characters are recognized in the area.

【0003】例えば、帳票に書かれている住所を読み取
る場合、まず、その帳票に対応するテンプレート情報を
取り出し、テンプレートに格納された住所領域の位置・
大きさ情報を用いて帳票画像の認識領域を文字認識する
ことで得られる。
For example, when reading an address written on a form, first, template information corresponding to the form is taken out, and the position and address of an address area stored in the template are read.
It is obtained by character recognition of the recognition area of the form image using the size information.

【0004】また、当てはめるテンプレートを選択する
ため、あらかじめ定められた位置にある帳票IDを最初
に読み込み、その結果を用いてテンプレートを特定する
ように構成されている。帳票IDとは、帳票の種類を特
定する、個別に定められた番号である。
Further, in order to select a template to be applied, a form ID at a predetermined position is first read, and the template is specified using the result. The form ID is an individually determined number that specifies the type of the form.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、上記従
来例では、テンプレートが既に存在する帳票しか読み込
ませることができず、新規の帳票が入力された場合、手
動で領域を指定するか、新たにテンプレートを作成する
か、あるいは文字認識を使用しないで手動により情報を
入力しなければならない欠点があった。
However, in the above-mentioned conventional example, only a form in which a template already exists can be read, and when a new form is input, an area is manually designated or a new template is set. Or had to manually enter information without using character recognition.

【0006】本発明は上記の問題点を解消するためにな
されたもので、本発明の目的は、テンプレートが存在し
なくても、帳票上の特定の情報を読み取ることを可能に
することである。
SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and an object of the present invention is to enable reading of specific information on a form without a template. .

【0007】[0007]

【課題を解決するための手段】本発明の目的を達成する
ために、例えば本発明の画像処理装置は以下の構成を備
える。すなわち、イメージデータに含まれる文字列を読
み取り、認識する画像処理装置であって、前記イメージ
データに含まれる文字列の領域を記憶、管理する記憶管
理手段と、前記イメージデータに含まれる文字列のう
ち、検索対象の文字列をキーワードとして指定する指定
手段と、当該キーワードに基づいて前記記憶管理手段か
ら検索することで、当該キーワードに応じた文字列を特
定する検索特定手段と、特定された文字列に応じた文字
列を、前記記憶管理手段より選択する選択手段とを備
え、当該選択手段により選択された文字列を、前記特定
された文字列の値として定義する。
In order to achieve the object of the present invention, for example, an image processing apparatus of the present invention has the following arrangement. That is, an image processing apparatus that reads and recognizes a character string included in image data, and a storage management unit that stores and manages a region of the character string included in the image data; A specifying unit that specifies a character string to be searched as a keyword; a search specifying unit that specifies a character string corresponding to the keyword by searching from the storage management unit based on the keyword; Selecting means for selecting a character string corresponding to a column from the storage management means, wherein the character string selected by the selecting means is defined as the value of the specified character string.

【0008】[0008]

【発明の実施の形態】以下添付図面に従って、本発明を
好適な実施形態に従って詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described below in detail according to preferred embodiments with reference to the accompanying drawings.

【0009】[第1の実施形態]図1は本実施形態を実
施するための画像処理装置の構成を示すブロック図であ
る。
[First Embodiment] FIG. 1 is a block diagram showing a configuration of an image processing apparatus for carrying out this embodiment.

【0010】101はCPUで、ROM102又は外部
記憶装置104に記憶されている各種の制御プログラム
コードに従って本装置全体の制御を行う。
A CPU 101 controls the entire apparatus according to various control program codes stored in a ROM 102 or an external storage device 104.

【0011】102はROMで、画像処理装置の起動時
に必要なプログラムコードやデータ等が記憶されてい
る。また、起動後に必要なプログラムコードや設定デー
タ、後述する文字認識やキーボード106やポインティ
ングデバイス107からのコマンド入力の際に用いる文
字データなども記憶している。
Reference numeral 102 denotes a ROM which stores program codes, data, and the like necessary when the image processing apparatus is started. Also stored are program codes and setting data necessary after activation, character data used for character recognition described later, and command input from the keyboard 106 and the pointing device 107, and the like.

【0012】103はRAMで、外部記憶装置104又
はROM102から読み込んだ各種のプログラムコード
を一時的に記憶すると共に、CPU101がこのプログ
ラムコードを実行する際のワークエリアとして用いられ
る。
A RAM 103 temporarily stores various program codes read from the external storage device 104 or the ROM 102 and is used as a work area when the CPU 101 executes the program codes.

【0013】104は磁気ディスク等の外部記憶装置で
あり、帳簿のテキストファイルやイメージファイルなど
のファイルが記憶される。
Reference numeral 104 denotes an external storage device such as a magnetic disk, which stores a file such as a book text file and an image file.

【0014】105はディスプレイで、外部記憶装置1
04,もしくはイメージスキャナ108から読みとった
(帳簿の)イメージデータやテキストデータを表示した
り、画像処理装置からのシステムメッセージなどを表示
したりする。
A display 105 is an external storage device 1.
04, or image data (of a book) or text data read from the image scanner 108, or a system message from the image processing apparatus.

【0015】106はキーボードでポインティングデバ
イス107と共に、画像処理装置に対して各種のコマン
ドを入力することができる。
A keyboard 106 can input various commands to the image processing apparatus together with the pointing device 107.

【0016】107はマウス等を含むポインティングデ
バイスである。
Reference numeral 107 denotes a pointing device including a mouse and the like.

【0017】108はイメージスキャナで、帳票はここ
から読み取られ、RAM103、あるいは外部記憶装置
104に記憶される。
Reference numeral 108 denotes an image scanner, from which forms are read and stored in the RAM 103 or the external storage device 104.

【0018】109はネットワークインターフェイス
(以下、ネットワークI/F)で、ネットワークを介し
て他の外部記憶装置にファイルの読み書きをすることも
可能である。なお、画像処理装置を汎用コンピュータな
どで実施する場合は、後述する画像処理方法をプログラ
ムコードによりこのネットワークI/F109を介して
受信することができる。
Reference numeral 109 denotes a network interface (hereinafter, network I / F), which can read and write files from and to another external storage device via a network. When the image processing apparatus is implemented by a general-purpose computer or the like, an image processing method described later can be received by the program code via the network I / F 109.

【0019】111は上述の各部を繋ぐバスである。Reference numeral 111 denotes a bus connecting the above-described units.

【0020】図5は本実施形態における画像処理装置の
処理対象となる帳票501の一例を示す図である。同図
において帳票501は、記載する内容(帳簿情報)とそ
のタグが記載されている。帳簿情報としては住所50
6、氏名508、氏名508のフリガナ507、電話番
号509があり、タグとしては住所のタグ502、氏名
のタグ504、氏名508のフリガナのタグ503、電
話番号のタグ505などがある。そして罫線などでそれ
らのフィールドが分割されている。
FIG. 5 is a diagram showing an example of a form 501 to be processed by the image processing apparatus according to this embodiment. In the figure, a form 501 describes contents to be described (book information) and its tag. Address 50 as the book information
6. There are a name 508, a reading 507 of the name 508, and a telephone number 509, and the tags include an address tag 502, a name tag 504, a reading tag 503 of the name 508, a telephone number tag 505, and the like. These fields are divided by ruled lines or the like.

【0021】図1に示した本実施形態における画像処理
装置が実行する処理の概略を、図2に示した同処理のフ
ローチャートを用いて説明する。
The outline of the processing executed by the image processing apparatus according to the embodiment shown in FIG. 1 will be described with reference to the flowchart of the processing shown in FIG.

【0022】ステップS201においては、スキャナ1
08から帳簿をイメージデータとして読みとり、RAM
103に記憶する。また帳簿のイメージデータが予め外
部記憶装置104にファイル形式で記憶されている場合
には外部記憶装置104から同ファイルを読みとり、イ
メージデータとしてRAM104に展開、記憶する。
In step S201, the scanner 1
Read the book as image data from 08
103. If the image data of the book is stored in advance in a file format in the external storage device 104, the file is read from the external storage device 104, developed and stored in the RAM 104 as image data.

【0023】ステップS202においては、読みとった
帳簿のイメージデータから文字領域を抽出する。なお、
この際に文字領域に関する情報として文字領域の位置情
報(X、Y座標値)をRAM103に記憶する。位置情
報の取り方については後述する。
In step S202, a character area is extracted from the read book image data. In addition,
At this time, position information (X, Y coordinate values) of the character area is stored in the RAM 103 as information on the character area. How to obtain the position information will be described later.

【0024】ステップS203においては、読みとった
帳簿のイメージデータからセルを抽出する。ここでのセ
ルとは罫線で囲まれた矩形領域のこととする。文字領域
の抽出は、例えば、読みとった帳簿のイメージデータを
M×N毎に分割し、分割した小領域をORで間引きし、
間引いた帳簿のイメージデータが連結する部分をまとめ
小矩形を作り、さらに、各小矩形の縦横比が大きく短辺
同士が接近している矩形を結合することで文字行を取り
出すことで実現できる。あるいは、特開平7−2349
18号公報にあるような方法で文字領域を精度よく抽出
することが可能である。また、セルの抽出も特開平10
−83431号公報に記載の方法により実現できる。な
お、ステップS202とステップS203における処理
の順序は逆であっても問題はない。又、抽出されたセル
の位置情報をRAM103に記憶する。
In step S203, cells are extracted from the read book image data. The cell here is a rectangular area surrounded by ruled lines. To extract the character area, for example, the read book image data is divided into M × N units, and the divided small areas are thinned out by OR.
This can be achieved by combining small portions of the thinned book with the image data connected to form a small rectangle, and extracting character lines by combining rectangles having a large aspect ratio and short sides approaching each other. Alternatively, JP-A-7-2349
It is possible to accurately extract a character area by a method as disclosed in Japanese Patent Application Laid-Open No. 18-182. Also, cell extraction is disclosed in
This can be realized by the method described in JP-A-83431. It should be noted that there is no problem even if the order of the processes in step S202 and step S203 is reversed. Also, the position information of the extracted cell is stored in the RAM 103.

【0025】ステップS204においては、上述の処理
において抽出された文字領域に対して文字認識を行う。
なお文字認識の方法についてはDPマッチングやニュー
ラルネットワークなど公知の方法を用い、この方法につ
いての詳細な説明に関しては本実施形態の範疇ではない
ので省略する。また、文字認識の結果、認識した文字を
文字コードに置き換える際の処理についても上述の公知
の方法に含まれるため、説明を省く。なお、各文字領域
内の文字コードデータとしてのテキストデータ(テキス
トファイル)が予め外部記憶装置104などに記憶され
ている場合には、本ステップにおける上述の処理は必要
なく、このテキストファイルの内部をRAM103に読
み込む(ロード処理)。
In step S204, character recognition is performed on the character area extracted in the above processing.
As a method of character recognition, a known method such as DP matching or a neural network is used, and a detailed description of this method is not included in the present embodiment and will not be described. In addition, the process of replacing the recognized character with the character code as a result of the character recognition is also included in the above-described known method, and thus the description is omitted. If the text data (text file) as the character code data in each character area is stored in advance in the external storage device 104 or the like, the above-described processing in this step is not necessary, and the inside of the text file is stored. The data is read into the RAM 103 (load processing).

【0026】なお、各文字領域に対応した文字コードに
は、RAM103に記憶された文字領域のデータとリン
クを張る。つまり、各文字コードがどの文字領域に記載
されていた文字を表現しているのか特定する。具体的に
は文字コードに、この認識を行った文字領域の位置情報
を添付する。
The character code corresponding to each character area is linked with the data of the character area stored in the RAM 103. In other words, it identifies which character area each character code represents a character described in. Specifically, the position information of the recognized character area is attached to the character code.

【0027】上述の文字コードの特定後、ステップS2
05においては、”住所”や”電話番号”などのキーワ
ードとなる文字(タグ)がキーボード106もしくはポ
インティングデバイス107から入力され、入力された
キーワードを前記文字コードと比較することで検索を行
う。ここで、”住所”、”おところ”や”電話番
号”、”Tel”など、同様の意味を表すものは同一視
し、それら複数の文字コードで検索するように構成して
おく。
After the above-mentioned character code is specified, step S2
At 05, characters (tags) serving as keywords such as "address" and "telephone number" are input from the keyboard 106 or the pointing device 107, and a search is performed by comparing the input keywords with the character codes. Here, the same meanings such as “address”, “place”, “telephone number”, and “Tel” are identified, and a search is performed using a plurality of character codes.

【0028】ステップS206においては、検索された
キーワードの近傍に位置する検索されたキーワードに対
応する情報が書かれているセルを推測し、選択する。セ
ルは一般に左上を原点とし、横をX、縦をYとして場所
を特定するが、上述の通り、RAM103に記憶された
セルの位置情報を用いることで、各セルの位置関係がわ
かるので、横書きの場合、選択するセルは、住所などの
キーワードが記載されたセルと同一の行で、次の列とな
る。縦書きなら、同一列の次行が選択するセルとなる。
つまり、文字情報の組方向により選択されるセルの方向
が異なる。その結果、例えばキーワードとしての住所の
タグ502が記載されたセルに対し、住所503が記載
されたセルが選択される。
In step S206, a cell located near the searched keyword and in which information corresponding to the searched keyword is written is estimated and selected. The location of a cell is generally specified with the origin at the upper left, the horizontal as X, and the vertical as Y. As described above, the positional relationship of each cell can be known by using the cell positional information stored in the RAM 103. In the case of, the cell to be selected is in the same row as the cell in which a keyword such as an address is described, and is in the next column. For vertical writing, the next row in the same column is the cell to be selected.
In other words, the direction of the cell to be selected differs depending on the set direction of the character information. As a result, for example, a cell in which an address 503 is described is selected for a cell in which an address tag 502 as a keyword is described.

【0029】ステップS207においては、選択された
セルの中の文字コードを、このセルの位置情報と文字コ
ードの位置情報とを比較することで特定する。つまり、
選択されたセル内の文字コードを位置情報により特定す
る。
In step S207, the character code in the selected cell is specified by comparing the position information of this cell with the position information of the character code. That is,
The character code in the selected cell is specified by the position information.

【0030】以上説明したように、本実施形態における
画像処理装置及び画像処理方法により罫線で囲まれた形
式の帳票から、特定の情報をテンプレートを用いること
なく読み取ることができる。また、複数の表現がある同
一の意味を持つ情報に対しても、正しく読み取りができ
る効果がある。
As described above, specific information can be read from a form enclosed by ruled lines without using a template by the image processing apparatus and the image processing method according to the present embodiment. Also, there is an effect that correct reading can be performed even for information having a plurality of expressions and having the same meaning.

【0031】なお、ネットワークI/F109を介し、
通信手段を用いて遠隔地にある記憶装置等にある帳簿の
イメージデータのファイルや各種のプログラムコードを
使用してもよい。また、文字認識に関して、認識精度を
向上させるための処理を含めて構成しても問題ない。
Note that, via the network I / F 109,
A file of book image data and various program codes in a storage device or the like at a remote place may be used by using communication means. Further, regarding character recognition, there is no problem even if the processing includes processing for improving recognition accuracy.

【0032】また、図2に示したフローチャートに従っ
たプログラムコードは外部記憶装置104またはROM
102に記憶されている。
The program code according to the flowchart shown in FIG.
It is stored in 102.

【0033】[第2の実施形態]本実施形態における画
像処理装置の構成は図1に示した構成と同じであるが、
処理対象の帳簿が図6に示したような形式である場合に
ついて示すと共に説明する。
[Second Embodiment] The configuration of an image processing apparatus according to this embodiment is the same as the configuration shown in FIG.
A case where the ledger to be processed has a format as shown in FIG. 6 will be described and described.

【0034】図6に示した帳簿601では、罫線がない
形式でキーワード(タグ)と夫々のキーワードに対する
値(帳簿情報)が記載されている。
In the book 601 shown in FIG. 6, keywords (tags) and values (book information) for the respective keywords are described in a format without ruled lines.

【0035】図6のような形状の帳票601に対する本
実施形態における画像処理装置の処理の概略を、図3に
示した同処理のフローチャートを用いて説明する。
The outline of the processing of the image processing apparatus according to the present embodiment for a form 601 having the shape shown in FIG. 6 will be described with reference to the flowchart of the processing shown in FIG.

【0036】ステップS301においては、ステップS
201における処理と同様、帳簿601をイメージデー
タとして読みとり、RAM103に記憶する。
In step S301, step S
As in the processing in 201, the book 601 is read as image data and stored in the RAM 103.

【0037】ステップS302においては、RAM10
3に記憶されたイメージデータから文字領域を抽出す
る。例として帳票601から文字領域を抽出すると、図
7に示した同帳簿601おいて、701から706のよ
うに各文字領域(各キーワード部分と夫々のキーワード
に対する値の部分)が同図のように抽出される。同様に
各文字領域の位置情報も検出され、RAM103に記憶
される。
In step S302, the RAM 10
Then, a character area is extracted from the image data stored in No.3. As an example, when a character area is extracted from the form 601, in the same ledger 601 shown in FIG. 7, each character area (each keyword part and a value part for each keyword) as shown in FIG. Is extracted. Similarly, position information of each character area is detected and stored in the RAM 103.

【0038】ステップS303においては、ステップS
204と同様に文字認識(もしくはロード処理)を行
う。
In step S303, step S303
Character recognition (or loading processing) is performed as in step 204.

【0039】上述の文字コードの特定後、ステップS3
04においては、ステップS205と同様に、キーワー
ドが入力され、入力されたキーワードを検索する。
After specifying the above-mentioned character code, step S3
In step 04, as in step S205, a keyword is input, and the input keyword is searched.

【0040】ステップS305においては、検索された
キーワードの文字領域の近傍の対応する情報が書かれて
いる文字領域を前述の位置情報を用いて推測し、選択す
る。帳簿601のような縦書きの場合、左下側にある文
字領域を探し、横書きの場合、右下に向かって探すよう
に構成しておけばよい。その結果、例えばキーワードと
しての住所のタグの文字領域701に対し、住所の文字
領域702が選択される。
In step S305, a character area in which corresponding information near the character area of the searched keyword is written is estimated and selected using the above-described position information. In the case of vertical writing such as the book 601, the character area on the lower left side may be searched, and in the case of horizontal writing, the search may be performed toward the lower right. As a result, for example, the character area 702 of the address is selected with respect to the character area 701 of the address tag as a keyword.

【0041】ステップS306においては、選択された
文字領域の文字コードを、キーワードの値とする。
In step S306, the character code of the selected character area is set as a keyword value.

【0042】以上説明したように、本実施形態における
画像処理装置及び画像処理方法により、罫線のない形式
の帳票においても、テンプレートを用いることなく特定
の情報を読み取ることができる効果がある。
As described above, the image processing apparatus and the image processing method according to the present embodiment have an effect that specific information can be read without using a template even in a form having no ruled line.

【0043】[第3の実施形態]本実施形態における画
像処理装置の構成は図1に示した構成と同じであるが、
処理対象の帳簿の構成が図8に示したような形式である
場合について示すと共に説明する。
[Third Embodiment] The configuration of an image processing apparatus according to the present embodiment is the same as the configuration shown in FIG.
A case where the configuration of the ledger to be processed has the format as shown in FIG. 8 will be described and described.

【0044】図8に示した帳簿801では、キーワード
(タグ)と夫々のキーワードに対する値(帳簿情報)と
がセットで同じセル内に記載されている。
In the book 801 shown in FIG. 8, a keyword (tag) and a value (book information) for each keyword are described as a set in the same cell.

【0045】図8のような形状の帳票801に対する本
実施形態における画像処理装置の処理の概要を、図4に
示した同処理のフローチャートを用いて説明する。
The outline of the processing of the image processing apparatus according to the present embodiment on the form 801 having the shape shown in FIG. 8 will be described with reference to the flowchart of the processing shown in FIG.

【0046】ステップS401からステップS405ま
ではステップS201からステップS205と同じ内容
の処理である。
Steps S401 to S405 are processes having the same contents as steps S201 to S205.

【0047】ステップS406においては、検索された
キーワードの文字領域がセル内に存在しないと判断され
た場合、文字領域のみでの処理となりこれ以降の処理は
第2の実施形態と同じになるので、ステップS305,
S306の処理を実行することになる。
In step S406, if it is determined that the character area of the searched keyword does not exist in the cell, the processing is performed only on the character area, and the subsequent processing is the same as in the second embodiment. Step S305,
The process of S306 will be executed.

【0048】一方、検索されたキーワードの文字領域が
セル内に存在する場合、処理はステップS407に移行
し、検索されたキーワードと同一のセル内に、検索され
たキーワードの文字領域とは別の文字領域(他方の文字
領域)が存在するかを判断し、存在する場合にはステッ
プS408に処理を移行し、このセル内の他方の文字領
域の文字コードの特定の結果を、キーワードの値とす
る。例えば図9で住所を検索した場合、文字領域901
がキーワードとして取られ、同一セル802にある文字
領域902の文字コードが求めるキーワードの値であ
る。
On the other hand, if the character area of the searched keyword exists in the cell, the process proceeds to step S407, and another character area different from the character area of the searched keyword is set in the same cell as the searched keyword. It is determined whether or not a character area (the other character area) exists. If the character area does exist, the process proceeds to step S408, and the specific result of the character code of the other character area in this cell is compared with the keyword value and I do. For example, when the address is searched in FIG.
Is taken as a keyword, and the character code of the character area 902 in the same cell 802 is the value of the keyword required.

【0049】また、ステップS407で、同一セルに他
方の文字領域が存在しない場合、1つのセルに1つの文
字領域が存在しているのでこれ以降の処理は第1の実施
形態と同じになるので、ステップS206,S207の
処理を実行することになる。
In step S407, if there is no other character area in the same cell, since one character area exists in one cell, the subsequent processing is the same as in the first embodiment. , The processes of steps S206 and S207 are executed.

【0050】以上説明したように、本実施形態における
画像処理装置及び画像処理方法により、罫線で囲まれた
中にキーワードとキーワードの値が記載されている形式
の帳票であっても、テンプレートを用いることなく特定
の情報を読み取ることができる効果がある。また、様々
な形態の帳票に対しても、キーワードに対応する文字情
報を読み取ることが出来る効果がある。
As described above, according to the image processing apparatus and the image processing method of the present embodiment, a template is used even for a form in which a keyword and a keyword value are described in a ruled line. There is an effect that specific information can be read without the need. Also, there is an effect that character information corresponding to a keyword can be read for various forms.

【0051】[他の実施形態]なお、上述の実施形態
は、複数の機器(例えばホストコンピュータ、インタフ
ェイス機器、リーダ、プリンタなど)から構成されるシ
ステムに適用しても、一つの機器からなる装置(例え
ば、複写機、ファクシミリ装置など)に適用してもよ
い。
[Other Embodiments] The above-described embodiment is applied to a system constituted by a plurality of devices (for example, a host computer, an interface device, a reader, a printer, etc.), but is constituted by one device. The present invention may be applied to an apparatus (for example, a copying machine, a facsimile machine, etc.).

【0052】また、上述の実施形態の目的は、前述した
実施形態の機能を実現するソフトウェアのプログラムコ
ードを記録した記憶媒体(または記録媒体)を、システ
ムあるいは装置に供給し、そのシステムあるいは装置の
コンピュータ(またはCPUやMPU)が記憶媒体に格納され
たプログラムコードを読み出し実行することによって
も、達成されることは言うまでもない。この場合、記憶
媒体から読み出されたプログラムコード自体が前述した
実施形態の機能を実現することになり、そのプログラム
コードを記憶した記憶媒体は上述の実施形態を構成する
ことになる。また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているオペレーテ
ィングシステム(OS)などが実際の処理の一部または全部
を行い、その処理によって前述した実施形態の機能が実
現される場合も含まれることは言うまでもない。
The object of the above-described embodiment is to supply a storage medium (or a recording medium) recording software program codes for realizing the functions of the above-described embodiment to a system or an apparatus, and to provide the system or the apparatus with the storage medium. It is needless to say that the present invention is also achieved when a computer (or a CPU or an MPU) reads and executes a program code stored in a storage medium. In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiment, and the storage medium storing the program code constitutes the above-described embodiment. By executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an operating system (OS) running on the computer based on the instruction of the program code. It goes without saying that a case where some or all of the actual processing is performed and the functions of the above-described embodiments are realized by the processing is also included.

【0053】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
Further, after the program code read from the storage medium is written into a memory provided in a function expansion card inserted into the computer or a function expansion unit connected to the computer, the program code is read based on the instruction of the program code. Needless to say, the CPU included in the function expansion card or the function expansion unit performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments.

【0054】上述の実施形態を上記記憶媒体に適用する
場合、その記憶媒体には、先に説明した(図2、及び/
又は図3、及び/又は図4に示す)フローチャートに対
応するプログラムコードが格納されることになる。又、
上述の記憶媒体は図10に示す様な構成の情報を格納す
る記憶媒体であってもよく、図2,3,4に示したフロ
ーチャートに従ったプログラムコードを格納すると共
に、更に前記記憶媒体内で各プログラムコードが格納さ
れているディレクトリに関する情報を格納する。
When the above-described embodiment is applied to the storage medium, the storage medium is described above (FIG. 2 and / or
Or a program code corresponding to the flowchart (shown in FIG. 3 and / or FIG. 4). or,
The above-mentioned storage medium may be a storage medium for storing information having a configuration as shown in FIG. 10, and stores a program code according to the flowcharts shown in FIGS. Stores information on the directory where each program code is stored.

【0055】[0055]

【発明の効果】以上説明したように、本発明によれば、
テンプレートが存在しなくても、帳票上の特定の情報を
読み取ることを可能にする効果がある。
As described above, according to the present invention,
Even if a template does not exist, it is possible to read specific information on a form.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施形態における画像処理装置
の構成を示す図である。
FIG. 1 is a diagram illustrating a configuration of an image processing apparatus according to a first embodiment of the present invention.

【図2】図1に示した画像処理装置が実行する処理のフ
ローチャートである。
FIG. 2 is a flowchart of a process executed by the image processing apparatus shown in FIG.

【図3】本発明の第2の実施形態における帳簿に対する
画像処理装置の処理のフローチャートである。
FIG. 3 is a flowchart of a process performed by an image processing apparatus on a book according to a second embodiment of the present invention.

【図4】本発明の第3の実施形態における帳簿に対する
画像処理装置の処理のフローチャートである。
FIG. 4 is a flowchart of a process of an image processing apparatus for a book according to a third embodiment of the present invention.

【図5】本発明の第1の実施形態における画像処理装置
の処理対象となる帳簿の一例を示す図である。
FIG. 5 is a diagram illustrating an example of a ledger to be processed by the image processing apparatus according to the first embodiment of the present invention.

【図6】本発明の第1の実施形態における画像処理装置
の処理対象となる帳簿の一例を示す図である。
FIG. 6 is a diagram illustrating an example of a ledger to be processed by the image processing apparatus according to the first embodiment of the present invention.

【図7】図6に示した帳簿において、各文字領域の抽出
を説明する図である。
FIG. 7 is a diagram illustrating extraction of each character area in the book shown in FIG. 6;

【図8】本発明の第3の実施形態における画像処理装置
の処理対象となる帳簿の一例を示す図である。
FIG. 8 is a diagram illustrating an example of a ledger to be processed by an image processing apparatus according to a third embodiment of the present invention.

【図9】図8に示した帳簿において、セルの抽出と文字
領域の抽出を説明する図である。
9 is a diagram illustrating cell extraction and character area extraction in the book shown in FIG. 8;

【図10】第1乃至3の実施形態における画像処理装置
が実行するプログラムコードを格納した記憶媒体の構成
を示す図である。
FIG. 10 is a diagram illustrating a configuration of a storage medium storing a program code to be executed by the image processing apparatus according to the first to third embodiments.

Claims (16)

【特許請求の範囲】[Claims] 【請求項1】 イメージデータに含まれる文字列を読み
取り、認識する画像処理装置であって、 前記イメージデータに含まれる文字列の領域を記憶、管
理する記憶管理手段と、 前記イメージデータに含まれる文字列のうち、検索対象
の文字列をキーワードとして指定する指定手段と、 当該キーワードに基づいて前記記憶管理手段から検索す
ることで、当該キーワードに応じた文字列を特定する検
索特定手段と、 特定された文字列に応じた文字列を、前記記憶管理手段
より選択する選択手段とを備え、 当該選択手段により選択された文字列を、前記特定され
た文字列の値として定義することを特徴とする画像処理
装置。
1. An image processing apparatus for reading and recognizing a character string included in image data, comprising: a storage management unit configured to store and manage an area of the character string included in the image data; Specifying means for specifying, as a keyword, a character string to be searched among character strings; search specifying means for specifying a character string corresponding to the keyword by searching from the storage management means based on the keyword; Selecting means for selecting a character string corresponding to the selected character string from the storage management means, wherein the character string selected by the selecting means is defined as a value of the specified character string. Image processing device.
【請求項2】 前記選択手段は、前記特定された文字列
の領域近傍の領域に含まれる文字列を選択することを特
徴とする請求項1に記載の画像処理装置。
2. The image processing apparatus according to claim 1, wherein the selection unit selects a character string included in an area near an area of the specified character string.
【請求項3】 更に、前記イメージデータに含まれる文
字列がセルに含まれ、前記イメージデータの一部が当該
セルを用いて構成されている場合、 前記選択手段は、特定された文字列を含むセル近傍のセ
ルを特定し、特定されたセル内の文字列を選択すること
を特徴とする請求項1に記載の画像処理装置。
3. When the character string included in the image data is included in a cell, and a part of the image data is configured using the cell, the selecting unit converts the specified character string into a cell. The image processing apparatus according to claim 1, wherein a cell near the included cell is specified, and a character string in the specified cell is selected.
【請求項4】 更に、特定された文字列を含むセル内
に、他の文字列が存在する場合、前記選択手段は、当該
他の文字列を選択することを特徴とする請求項3に記載
の画像処理装置。
4. The apparatus according to claim 3, wherein, when another character string exists in a cell including the specified character string, the selection unit selects the other character string. Image processing device.
【請求項5】 前記イメージデータは帳簿のイメージデ
ータであることを特徴とする請求項1乃至4のいずれか
1項に記載の画像処理装置。
5. The image processing apparatus according to claim 1, wherein said image data is image data of a book.
【請求項6】 前記特定検索手段は、同様の意味を表す
文字列は同一視して検索することを特徴とする請求項1
乃至5のいずれか1項に記載の画像処理装置。
6. The method according to claim 1, wherein the specific search unit searches for a character string having the same meaning while identifying the same.
The image processing apparatus according to any one of claims 1 to 5, wherein
【請求項7】 前記選択手段は、注目文字列の方向に基
づいて選択することを特徴とする請求項1乃至6のいず
れか1項に記載の画像処理装置。
7. The image processing apparatus according to claim 1, wherein the selection unit performs the selection based on a direction of a target character string.
【請求項8】 前記選択手段は、文字の領域の座標値を
抽出すると共に、当該座標値に基づいて選択することを
特徴とする請求項1に記載の画像処理装置。
8. The image processing apparatus according to claim 1, wherein the selection unit extracts a coordinate value of the character area and selects the character area based on the coordinate value.
【請求項9】 イメージデータに含まれる文字列を読み
取り、認識する画像処理方法であって、 前記イメージデータに含まれる文字列の領域を所定の記
憶管理手段に記憶、管理する記憶管理工程と、 前記イメージデータに含まれる文字列のうち、検索対象
の文字列をキーワードとして指定する指定工程と、 当該キーワードに基づいて前記所定の記憶管理手段から
検索することで、当該キーワードに応じた文字列を特定
する検索特定工程と、 特定された文字列に応じた文字列を、前記所定の記憶管
理手段より選択する選択工程とを備え、 当該選択工程で選択された文字列を、前記特定された文
字列の値として定義することを特徴とする画像処理方
法。
9. An image processing method for reading and recognizing a character string included in image data, comprising: a storage management step of storing and managing an area of the character string included in the image data in a predetermined storage management unit; A designation step of designating a character string to be searched as a keyword among the character strings included in the image data; and performing a search from the predetermined storage management means based on the keyword, thereby forming a character string corresponding to the keyword. A search specifying step for specifying, and a selecting step of selecting a character string corresponding to the specified character string from the predetermined storage management means, wherein the character string selected in the selecting step is replaced with the specified character. An image processing method characterized by defining as a column value.
【請求項10】 前記選択工程は、前記特定された文字
列の領域近傍の領域に含まれる文字列を選択することを
特徴とする請求項9に記載の画像処理方法。
10. The image processing method according to claim 9, wherein the selecting step selects a character string included in an area near an area of the specified character string.
【請求項11】 更に、前記イメージデータに含まれる
文字列がセルに含まれ、前記イメージデータの一部が当
該セルを用いて構成されている場合、 前記選択工程では、特定された文字列を含むセル近傍の
セルを特定し、特定されたセル内の文字列を選択するこ
とを特徴とする請求項9に記載の画像処理方法。
11. When the character string included in the image data is included in a cell and a part of the image data is configured by using the cell, in the selecting step, the specified character string is The image processing method according to claim 9, wherein a cell near the included cell is specified, and a character string in the specified cell is selected.
【請求項12】 更に、特定された文字列を含むセル内
に、他の文字列が存在する場合、前記選択工程では、当
該他の文字列を選択することを特徴とする請求項11に
記載の画像処理方法。
12. The method according to claim 11, wherein, if another character string exists in a cell containing the specified character string, the other character string is selected in the selecting step. Image processing method.
【請求項13】 イメージデータに含まれる文字列を読
み取り、認識する画像処理装置として機能するプログラ
ムコードを格納する記憶媒体であって、 前記イメージデータに含まれる文字列の領域を所定の記
憶管理手段に記憶、管理する記憶管理工程のプログラム
コードと、 前記イメージデータに含まれる文字列のうち、検索対象
の文字列をキーワードとして指定する指定工程のプログ
ラムコードと、 当該キーワードに基づいて前記所定の記憶管理手段から
検索することで、当該キーワードに応じた文字列を特定
する検索特定工程のプログラムコードと、 特定された文字列に応じた文字列を、前記所定の記憶管
理手段より選択する選択工程のプログラムコードとを備
え、 当該選択工程で選択された文字列を、前記特定された文
字列の値として定義することを特徴とする記憶媒体。
13. A storage medium for storing a program code functioning as an image processing device for reading and recognizing a character string included in image data, wherein a region of the character string included in the image data is stored in a predetermined storage management unit. A program code of a storage management step of storing and managing the character string; a program code of a designation step of designating a character string to be searched as a keyword among character strings included in the image data; and the predetermined storage based on the keyword. A program code of a search specifying step of specifying a character string corresponding to the keyword by searching from the management means; and a selection step of selecting a character string corresponding to the specified character string from the predetermined storage management means. Program code, and the character string selected in the selection step is used as the value of the specified character string. Storage medium characterized by defining.
【請求項14】 前記選択工程のプログラムコードは、
前記特定された文字列の領域近傍の領域に含まれる文字
列を選択することを特徴とする請求項13に記載の記憶
媒体。
14. The program code of the selecting step,
14. The storage medium according to claim 13, wherein a character string included in an area near an area of the specified character string is selected.
【請求項15】 更に、前記イメージデータに含まれる
文字列がセルに含まれ、前記イメージデータの一部が当
該セルを用いて構成されている場合、 前記選択工程のプログラムコードは、特定された文字列
を含むセル近傍のセルを特定し、特定されたセル内の文
字列を選択することを特徴とする請求項13に記載の記
憶媒体。
15. In a case where a character string included in the image data is included in a cell and a part of the image data is configured using the cell, the program code of the selecting step is specified. 14. The storage medium according to claim 13, wherein a cell near a cell including a character string is specified, and a character string in the specified cell is selected.
【請求項16】 更に、特定された文字列を含むセル内
に、他の文字列が存在する場合、前記選択工程のプログ
ラムコードは、当該他の文字列を選択することを特徴と
する請求項15に記載の記憶媒体。
16. The method according to claim 16, wherein, when another character string exists in a cell containing the specified character string, the program code of the selecting step selects the other character string. 16. The storage medium according to claim 15.
JP2000204312A 2000-07-05 2000-07-05 Image processing apparatus, image processing method, and storage medium Expired - Fee Related JP4136282B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000204312A JP4136282B2 (en) 2000-07-05 2000-07-05 Image processing apparatus, image processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000204312A JP4136282B2 (en) 2000-07-05 2000-07-05 Image processing apparatus, image processing method, and storage medium

Publications (3)

Publication Number Publication Date
JP2002024761A true JP2002024761A (en) 2002-01-25
JP2002024761A5 JP2002024761A5 (en) 2005-07-21
JP4136282B2 JP4136282B2 (en) 2008-08-20

Family

ID=18701590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000204312A Expired - Fee Related JP4136282B2 (en) 2000-07-05 2000-07-05 Image processing apparatus, image processing method, and storage medium

Country Status (1)

Country Link
JP (1) JP4136282B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011824A (en) * 2005-07-01 2007-01-18 Hitachi Engineering & Services Co Ltd Method and apparatus for extracting character string
JP2011197787A (en) * 2010-03-17 2011-10-06 Oki Electric Industry Co Ltd Device and method for verifying seal impression and program
JP2012048524A (en) * 2010-08-27 2012-03-08 Oki Electric Ind Co Ltd Seal collation device
WO2013136628A1 (en) * 2012-03-14 2013-09-19 オムロン株式会社 Key word detection device, control method and control program for same, and display apparatus
JP2016042309A (en) * 2014-08-18 2016-03-31 Necソリューションイノベータ株式会社 Marking determination device, purchase/sale support device, marking determination system, purchase/sale support system, marking determination method, and program
JP2016115088A (en) * 2014-12-12 2016-06-23 株式会社エヌ・ティ・ティ・データ Document definition device, document definition method, and document definition program
JP2017151639A (en) * 2016-02-23 2017-08-31 大日本印刷株式会社 Document imaging apparatus, document imaging method and program for document imaging apparatus
JP2019153357A (en) * 2019-06-25 2019-09-12 大日本印刷株式会社 Document imaging device, document imaging method, and program for document imaging device

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011824A (en) * 2005-07-01 2007-01-18 Hitachi Engineering & Services Co Ltd Method and apparatus for extracting character string
JP2011197787A (en) * 2010-03-17 2011-10-06 Oki Electric Industry Co Ltd Device and method for verifying seal impression and program
JP2012048524A (en) * 2010-08-27 2012-03-08 Oki Electric Ind Co Ltd Seal collation device
WO2013136628A1 (en) * 2012-03-14 2013-09-19 オムロン株式会社 Key word detection device, control method and control program for same, and display apparatus
JP2013191104A (en) * 2012-03-14 2013-09-26 Omron Corp Keyword detection device, control method and control program for same, and display apparatus
JP2016042309A (en) * 2014-08-18 2016-03-31 Necソリューションイノベータ株式会社 Marking determination device, purchase/sale support device, marking determination system, purchase/sale support system, marking determination method, and program
JP2016115088A (en) * 2014-12-12 2016-06-23 株式会社エヌ・ティ・ティ・データ Document definition device, document definition method, and document definition program
JP2017151639A (en) * 2016-02-23 2017-08-31 大日本印刷株式会社 Document imaging apparatus, document imaging method and program for document imaging apparatus
JP2019153357A (en) * 2019-06-25 2019-09-12 大日本印刷株式会社 Document imaging device, document imaging method, and program for document imaging device

Also Published As

Publication number Publication date
JP4136282B2 (en) 2008-08-20

Similar Documents

Publication Publication Date Title
JP4461769B2 (en) Document retrieval / browsing technique and document retrieval / browsing device
JPH03161873A (en) Electronic filing device having data base constructing function
JP2005018678A (en) Form data input processing device, form data input processing method, and program
JPH11306197A (en) Processor and method for image processing, and computer-readable memory
US6535652B2 (en) Image retrieval apparatus and method, and computer-readable memory therefor
JP4136282B2 (en) Image processing apparatus, image processing method, and storage medium
JP2005182460A (en) Information processor, annotation processing method, information processing program, and recording medium having information processing program stored therein
JP2008108114A (en) Document processor and document processing method
JP2000322417A (en) Device and method for filing image and storage medium
JP2000231505A (en) Automatically naming method for data object group and its storage medium
US7844138B2 (en) History control apparatus
JP4143245B2 (en) Image processing method and apparatus, and storage medium
JPH09282328A (en) Document image processor and method therefor
JP2007328432A (en) Business form processor, business form processing method, and program
JP4480109B2 (en) Image management apparatus and image management method
JPH11187231A (en) Image retrieving device and image retrieval method
JP2932667B2 (en) Information retrieval method and information storage device
JPS6154569A (en) Document poicture processing system
JP7501255B2 (en) Document search system, document search method and program
US6625606B1 (en) System and method for filing/searching data having a full-text function and media for recording the method
JP4592447B2 (en) Image data filing system
JP3412998B2 (en) Image processing apparatus and method
JP2007026263A (en) Character recognition device and computer program
JP2748974B2 (en) Character recognition processing control method
JP2787945B2 (en) Information processing apparatus and method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041210

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20041210

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080512

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080603

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110613

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120613

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120613

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130613

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees