JP2009031937A - Form image processing apparatus and form image processing program - Google Patents

Form image processing apparatus and form image processing program Download PDF

Info

Publication number
JP2009031937A
JP2009031937A JP2007193766A JP2007193766A JP2009031937A JP 2009031937 A JP2009031937 A JP 2009031937A JP 2007193766 A JP2007193766 A JP 2007193766A JP 2007193766 A JP2007193766 A JP 2007193766A JP 2009031937 A JP2009031937 A JP 2009031937A
Authority
JP
Japan
Prior art keywords
frame
attribute
attribute name
attribute value
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007193766A
Other languages
Japanese (ja)
Other versions
JP4983464B2 (en
Inventor
Katsuhiko Itonori
勝彦 糸乘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2007193766A priority Critical patent/JP4983464B2/en
Publication of JP2009031937A publication Critical patent/JP2009031937A/en
Application granted granted Critical
Publication of JP4983464B2 publication Critical patent/JP4983464B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a form image processing apparatus and a form image processing program capable of obtaining completed form images and creating form definitions. <P>SOLUTION: When an image acquisition part 26 acquires a form image, an image analysis part 28 analyzes the form image. This analysis process allows distinction between character areas and frame areas within the form image. Next, a character recognition part 30 recognizes any character string within the character areas. An attribute name accepting part 32 accepts the name of an attribute input by a user. An attribute value frame determining part 34 compares the character strings recognized by the character recognition part 30 with the name of the attribute accepted by the attribute name accepting part 32, and determines as an attribute value frame any frame area adjacent to the frame area to which a character string matching the name of the attribute belongs. For the frame area determined to be the attribute value area, a form definition creating part 36 creates a form definition as information about the attribute value frame. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、帳票画像処理装置及び帳票画像処理プログラムに関する。   The present invention relates to a form image processing apparatus and a form image processing program.

従来より、帳票などに記載された情報を認識し、データベースへ格納する帳票処理が行われていた。この帳票処理を行うためには、情報を取り出す部分を定義する帳票定義を事前に作成する必要があった。帳票定義を作成するには、例えば未記入の帳票画像を読み取らせ、ディスプレイなどに表示して、オペレータがマウスなどのポインティングデバイスによって入力場所を指定する作業が必要であった。   Conventionally, a form process for recognizing information stored in a form or the like and storing it in a database has been performed. In order to perform this form processing, it is necessary to create in advance a form definition that defines a part from which information is extracted. In order to create a form definition, for example, it is necessary to read an unfilled form image and display it on a display or the like, and an operator designates an input location with a pointing device such as a mouse.

また、下記特許文献1では、未記入の帳票画像(マスター画像)を入力し、罫線情報やプレ印刷されている文字等を抽出し、予め定められた帳票定義書式に従って情報を取り出す領域を定義する帳票定義の作成方法が提案されている。
特開2001−126010号公報
In Patent Document 1 below, a blank form image (master image) is input, ruled line information, preprinted characters, and the like are extracted, and an area for extracting information is defined according to a predetermined form definition format. A method for creating a form definition has been proposed.
Japanese Patent Laid-Open No. 2001-12610

本発明の目的は、記入済みの帳票画像を取得して帳票定義を作成できる帳票画像処理装置及び帳票画像処理プログラムを提供することにある。   An object of the present invention is to provide a form image processing apparatus and a form image processing program capable of acquiring a completed form image and creating a form definition.

上記目的を達成するために、請求項1記載の帳票画像処理装置の発明は、帳票画像を取得する画像取得手段と、前記取得した帳票画像を解析し、枠領域と文字領域とを判別する画像解析手段と、前記文字領域に含まれる文字列を認識する文字認識手段と、帳票の各項目の属性名を受け付ける属性名受付手段と、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段と、前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段と、を備えることを特徴とする。   In order to achieve the above object, the invention of the form image processing apparatus according to claim 1 is an image acquisition means for acquiring a form image, and an image for analyzing the acquired form image and discriminating a frame area and a character area. Analyzing means; character recognition means for recognizing a character string included in the character area; attribute name reception means for receiving an attribute name of each item of the form; character string recognized by the character recognition means; and the attribute name reception means Attribute value frame determination that compares the attribute name received by the attribute name and determines the frame area adjacent to the frame area to which the character string that matches the attribute name belongs as an attribute value frame that describes the attribute value corresponding to the attribute name And a form definition creating means for creating a form definition that is information related to the attribute value frame based on the determination result of the attribute value frame determining means.

請求項2記載の発明は、請求項1記載の発明において、前記属性値枠判定手段が、前記属性名に基づいて属性値に使用される文字種を決定し、前記属性名が属する枠領域と隣接する枠領域のうち、前記文字種による文字列が属する枠領域を前記属性値枠と判定することを特徴とする。   The invention according to claim 2 is the invention according to claim 1, wherein the attribute value frame determining means determines a character type used for the attribute value based on the attribute name, and is adjacent to the frame region to which the attribute name belongs. Of the frame regions to be processed, the frame region to which the character string of the character type belongs is determined as the attribute value frame.

請求項3記載の発明は、請求項1記載の発明において、前記画像解析手段が前記枠領域が設定されていないと判断した場合に、前記帳票定義作成手段は、前記属性名受付手段が受け付けた最大入力文字数に基づいて属性値を記載する属性値記載領域の大きさを設定し、帳票定義を作成することを特徴とする。   The invention according to claim 3 is the invention according to claim 1, wherein when the image analysis means determines that the frame area is not set, the form definition creation means is accepted by the attribute name acceptance means. A form definition is created by setting the size of an attribute value description area in which an attribute value is described based on the maximum number of input characters.

請求項4記載の発明は、請求項3記載の発明において、前記帳票定義作成手段が、前記設定した属性値記載領域が他の枠領域または記載領域と重複する場合に、前記属性名受付手段が受け付けた最大入力文字数を減ずることを特徴とする。   According to a fourth aspect of the present invention, in the invention according to the third aspect, when the form definition creating means has the attribute name receiving means when the set attribute value description area overlaps with another frame area or a description area. The maximum number of input characters accepted is reduced.

請求項5記載の発明は、請求項3記載の発明において、前記帳票定義作成手段が、前記設定した属性値記載領域の大きさに所定の係数を乗じて前記属性値記載領域の大きさを補正し、帳票定義を作成することを特徴とする。   The invention according to claim 5 is the invention according to claim 3, wherein the form definition creation unit corrects the size of the attribute value description area by multiplying the size of the set attribute value description area by a predetermined coefficient. And creating a form definition.

請求項6記載の発明は、請求項5記載の発明において、前記帳票定義作成手段が、前記設定した属性値記載領域が他の枠領域または記載領域と重複する場合に、前記係数を減ずることを特徴とする。   According to a sixth aspect of the present invention, in the fifth aspect of the invention, the form definition creating means reduces the coefficient when the set attribute value description area overlaps with another frame area or description area. Features.

請求項7記載の発明は、請求項1記載の発明において、前記属性値枠判定手段が、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が、その属する枠領域内で偏った位置にある場合に、前記属性名に対応する属性値を記載する属性値記載領域が前記属性名と同じ枠領域内に存在すると判定し、前記帳票定義作成手段は、前記帳票定義に、属性名と属性値とが同じ枠領域に属している旨の情報を含ませることを特徴とする。   The invention according to claim 7 is the invention according to claim 1, wherein the attribute value frame determination means compares the character string recognized by the character recognition means with the attribute name accepted by the attribute name acceptance means, When the character string that matches the attribute name is at a biased position in the frame area to which the attribute name belongs, the attribute value description area that describes the attribute value corresponding to the attribute name exists in the same frame area as the attribute name. The form definition creating means determines that the form definition includes information indicating that the attribute name and the attribute value belong to the same frame area.

請求項8記載の発明は、請求項1記載の発明において、前記属性値枠判定手段が、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が、その属する枠領域内の左端にある場合に、前記属性名に対応する属性値を記載する属性値記載領域が前記属性名と同じ枠領域内に存在すると判定し、前記帳票定義作成手段は、前記帳票定義に、属性名と属性値とが同じ枠領域に属している旨の情報を含ませることを特徴とする。   The invention according to claim 8 is the invention according to claim 1, wherein the attribute value frame determination means compares the character string recognized by the character recognition means with the attribute name accepted by the attribute name acceptance means, When the character string that matches the attribute name is at the left end in the frame area to which the attribute name belongs, it is determined that the attribute value description area that describes the attribute value corresponding to the attribute name exists in the same frame area as the attribute name. The form definition creating means includes information indicating that the attribute name and the attribute value belong to the same frame area in the form definition.

請求項9記載の帳票画像処理装置の発明は、帳票画像を取得する画像取得手段と、前記取得した画像を解析し、枠領域、文字領域及びタイトル領域を判別する画像解析手段と、前記文字領域及びタイトル領域に含まれる文字列を認識する文字認識手段と、帳票の各項目の属性名を帳票のタイトル毎に登録する属性名登録手段と、前記文字認識手段が認識したタイトル領域の文字列に基づき前記属性名登録手段から当該タイトルに関連付けられた属性名を取得する属性名取得手段と、前記文字認識手段が認識した文字列が、前記属性名取得手段が取得した属性名と一致する場合に、当該文字列が属する枠領域に隣接する属性値枠を判定する属性値枠判定手段と、前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段と、を備えることを特徴とする。   The form image processing device according to claim 9 is an image acquisition unit that acquires a form image, an image analysis unit that analyzes the acquired image and discriminates a frame region, a character region, and a title region, and the character region. And character recognition means for recognizing the character string included in the title area, attribute name registration means for registering the attribute name of each item of the form for each title of the form, and the character string in the title area recognized by the character recognition means An attribute name acquisition unit that acquires an attribute name associated with the title from the attribute name registration unit, and a character string recognized by the character recognition unit matches an attribute name acquired by the attribute name acquisition unit. , An attribute value frame determining unit that determines an attribute value frame adjacent to the frame region to which the character string belongs, and a book that is information on the attribute value frame based on the determination result of the attribute value frame determining unit Characterized in that it comprises a form definition creating means for creating a definition, a.

請求項10記載の発明は、請求項9記載の発明において、前記属性名取得手段が、前記文字認識手段が認識したタイトルに対応する属性名を取得することができなかった場合に、前記属性名登録手段が、当該タイトルとこれに対応する属性名とを受け付けて登録することを特徴とする。   The invention according to claim 10 is the invention according to claim 9, wherein the attribute name acquisition unit cannot acquire the attribute name corresponding to the title recognized by the character recognition unit. The registration means receives and registers the title and the attribute name corresponding to the title.

請求項11記載の帳票画像処理プログラムの発明は、コンピュータを、帳票画像を取得する画像取得手段、前記取得した画像を解析し、枠領域と文字領域とを判別する画像解析手段、前記文字領域に含まれる文字列を認識する文字認識手段、帳票の各項目の属性名を受け付ける属性名受付手段、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段、前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段、として機能させることを特徴とする。   The invention of a form image processing program according to claim 11 is an image acquisition means for acquiring a form image, an image analysis means for analyzing the acquired image and discriminating between a frame area and a character area, and A character recognition means for recognizing the included character string, an attribute name reception means for receiving the attribute name of each item of the form, comparing the character string recognized by the character recognition means with the attribute name received by the attribute name reception means, Attribute value frame determination means for determining a frame area adjacent to a frame area to which a character string that matches the attribute name belongs as an attribute value frame that describes an attribute value corresponding to the attribute name, determination by the attribute value frame determination means Based on the result, it is made to function as a form definition creating means for creating a form definition that is information on the attribute value frame.

請求項12記載の帳票画像処理プログラムの発明は、コンピュータを、帳票画像を取得する画像取得手段、前記取得した画像を解析し、枠領域、文字領域及びタイトル領域を判別する画像解析手段、前記文字領域及びタイトル領域に含まれる文字列を認識する文字認識手段、帳票の各項目の属性名を帳票のタイトル毎に登録する属性名登録手段、前記文字認識手段が認識したタイトル領域の文字列に基づき前記属性名登録手段から当該タイトルに関連付けられた属性名を取得する属性名取得手段、前記文字認識手段が認識した文字列が、前記属性名取得手段が取得した属性名と一致する場合に、当該文字列が属する枠領域に隣接する属性値枠を判定する属性値枠判定手段、前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段、として機能させることを特徴とする。   The invention of a form image processing program according to claim 12 is an image acquisition means for acquiring a form image, an image analysis means for analyzing the acquired image and discriminating a frame area, a character area and a title area, and the character Character recognition means for recognizing character strings included in the area and title area, attribute name registration means for registering the attribute name of each item of the form for each title of the form, based on the character string of the title area recognized by the character recognition means An attribute name acquisition unit that acquires an attribute name associated with the title from the attribute name registration unit, and a character string recognized by the character recognition unit matches the attribute name acquired by the attribute name acquisition unit. Attribute value frame determining means for determining an attribute value frame adjacent to the frame area to which the character string belongs, and the attribute value frame based on the determination result of the attribute value frame determining means Characterized in that to function as a form definition creating means, for creating a form definition is broadcast.

請求項1及び請求項2の発明によれば、本構成を有していない場合に比べて、記入済みの帳票画像から帳票定義を作成できる。   According to the first and second aspects of the invention, it is possible to create a form definition from a completed form image as compared with the case where the present configuration is not provided.

請求項3の発明によれば、本構成を有していない場合に比べて、属性値が属性値枠内に記載されていない帳票でも帳票定義を作成できる。   According to the third aspect of the present invention, a form definition can be created even for a form whose attribute value is not described in the attribute value frame, as compared with the case where this configuration is not provided.

請求項4の発明によれば、本構成を有していない場合に比べて、属性値記載領域が他の枠領域または記載領域と重複することを回避できる。   According to the fourth aspect of the present invention, it is possible to avoid the attribute value description area from overlapping with other frame areas or description areas as compared with the case where the present configuration is not provided.

請求項5の発明によれば、本構成を有していない場合に比べて、属性値の記載がずれている帳票でも帳票定義を作成できる。   According to the invention of claim 5, a form definition can be created even for a form in which the description of the attribute value is deviated as compared with the case where this configuration is not provided.

請求項6の発明によれば、本構成を有していない場合に比べて、属性値記載領域が他の属性値記載領域と重複することを回避できる。   According to the sixth aspect of the present invention, it is possible to avoid the attribute value description area from overlapping with other attribute value description areas as compared with the case where this configuration is not provided.

請求項7及び請求項8の発明によれば、本構成を有していない場合に比べて、1つの枠領域内に属性名と属性値とが記載されている帳票でも帳票定義を作成できる。   According to the seventh and eighth aspects of the present invention, a form definition can be created even in a form in which an attribute name and an attribute value are described in one frame area, compared to a case where this configuration is not provided.

請求項9の発明によれば、本構成を有していない場合に比べて、利用者が属性名を入力する必要がない。   According to invention of Claim 9, compared with the case where it does not have this structure, a user does not need to input an attribute name.

請求項10の発明によれば、本構成を有していない場合に比べて、必要に応じて新規のタイトルを登録することができる。   According to the tenth aspect of the present invention, a new title can be registered as necessary as compared with the case where the present configuration is not provided.

請求項11の発明によれば、本構成を有していない場合に比べて、記入済みの帳票画像から帳票定義を作成できる帳票画像処理プログラムを提供できる。   According to the eleventh aspect of the present invention, it is possible to provide a form image processing program capable of creating a form definition from a completed form image as compared with the case where the present configuration is not provided.

請求項12の発明によれば、利用者が属性名を入力しなくても、記入済みの帳票画像から帳票定義を作成できる帳票画像処理プログラムを提供できる。   According to the twelfth aspect of the present invention, it is possible to provide a form image processing program capable of creating a form definition from a completed form image without a user inputting an attribute name.

以下、本発明を実施するための最良の形態(以下、実施形態という)を、図面に従って説明する。   Hereinafter, the best mode for carrying out the present invention (hereinafter referred to as an embodiment) will be described with reference to the drawings.

実施形態1.
図1には、本発明にかかる帳票画像処理装置を実現するためのコンピュータのハードウェア構成の例が示される。図1において、帳票画像処理装置は、中央処理装置(例えばCPUを用いることができる)10、ランダムアクセスメモリ(RAM)12、表示装置14、入力装置16、通信インターフェース18、画像読取装置20及びハードディスク装置(HDD)22を含んで構成されている。また、これらの構成要素は、バス24により互いに接続されている。
Embodiment 1. FIG.
FIG. 1 shows an example of a hardware configuration of a computer for realizing a form image processing apparatus according to the present invention. In FIG. 1, a form image processing apparatus includes a central processing unit (for example, a CPU can be used) 10, a random access memory (RAM) 12, a display device 14, an input device 16, a communication interface 18, an image reading device 20, and a hard disk. A device (HDD) 22 is included. These components are connected to each other by a bus 24.

CPU10は、RAM12またはハードディスク装置22に格納されている制御プログラムに基づいて、後述する各部の動作を制御する。RAM12は主としてCPU10の作業領域として機能する。   The CPU 10 controls the operation of each unit described below based on a control program stored in the RAM 12 or the hard disk device 22. The RAM 12 mainly functions as a work area for the CPU 10.

表示装置14は、液晶ディスプレイ等により構成され、帳票画像等を表示する。   The display device 14 is composed of a liquid crystal display or the like, and displays a form image or the like.

入力装置16は、キーボード、ポインティングデバイス等により構成され、使用者が動作指示等を入力するために使用する。また、各種ディスクドライブ装置を含み、フレキシブルディスク、コンパクトディスク、デジタル・バーサタイル・ディスク(DVD)等からデータを入力できる構成としもよい。   The input device 16 includes a keyboard, a pointing device, and the like, and is used by a user to input operation instructions and the like. In addition, various disk drive devices may be included so that data can be input from a flexible disk, a compact disk, a digital versatile disk (DVD), or the like.

通信インターフェース18は、USB(ユニバーサルシリアルバス)ポート、ネットワークポート等の適宜な通信インターフェースにより構成され、CPU10が外部の装置と情報をやり取りするために使用する。   The communication interface 18 includes an appropriate communication interface such as a USB (Universal Serial Bus) port or a network port, and is used by the CPU 10 to exchange information with an external device.

画像読取装置20は、スキャナ等により構成され、帳票等の紙媒体に作成された画像を読み取る。   The image reading device 20 includes a scanner or the like, and reads an image created on a paper medium such as a form.

ハードディスク装置22は、大容量の磁気記憶装置であり、後述する処理に必要となる種々のデータを記憶することができる。   The hard disk device 22 is a large-capacity magnetic storage device and can store various data necessary for processing to be described later.

図2には、本発明にかかる帳票画像処理装置の実施形態1のブロック図が示される。図2において、帳票画像処理装置は、画像取得部26、画像解析部28、文字認識部30、属性名受付部32、属性値枠判定部34及び帳票定義作成部36を含んで構成されている。   FIG. 2 shows a block diagram of the first embodiment of the form image processing apparatus according to the present invention. In FIG. 2, the form image processing apparatus includes an image acquisition unit 26, an image analysis unit 28, a character recognition unit 30, an attribute name reception unit 32, an attribute value frame determination unit 34, and a form definition creation unit 36. .

画像取得部26は、例えば図1に示される画像読取装置20を含んで構成され、紙媒体に作成された帳票の画像を取得する。なお、各種ディスクドライブ装置を備える入力装置16または通信インターフェース18を介して帳票画像を電子データとして取得する構成としてもよい。   The image acquisition unit 26 includes, for example, the image reading device 20 shown in FIG. 1 and acquires an image of a form created on a paper medium. A form image may be acquired as electronic data via the input device 16 provided with various disk drive devices or the communication interface 18.

画像解析部28は、例えば図1に示されたCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、画像取得部26が取得した帳票画像を解析し、枠領域と文字領域とを判別する。ここで、枠領域とは、帳票上に記載された罫線で囲まれた領域であり、後述する属性名が記載される属性名枠、属性値が記載される属性値枠等がある。この枠領域は、帳票画像中の罫線情報を抽出することにより判別する。また、文字領域とは、文字が記載されている領域であり、帳票画像中の文字情報を抽出することにより判別する。この文字領域は、上記枠領域の中に存在する場合と、枠領域の外すなわち罫線で囲まれていない領域に存在する場合とがある。   The image analysis unit 28 includes, for example, the CPU 10 illustrated in FIG. 1 and a program that controls the processing operation of the CPU 10. The image analysis unit 28 analyzes the form image acquired by the image acquisition unit 26 and discriminates the frame region and the character region. To do. Here, the frame area is an area surrounded by ruled lines described on the form, and includes an attribute name frame in which an attribute name described later is described, an attribute value frame in which an attribute value is described, and the like. This frame area is determined by extracting ruled line information from the form image. The character area is an area where characters are described, and is determined by extracting character information from the form image. This character area may exist in the frame area or may exist outside the frame area, that is, in an area not surrounded by ruled lines.

文字認識部30は、例えばCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、OCR(光学文字認識)処理等により文字領域に含まれる文字列を認識する。   The character recognition unit 30 is configured to include, for example, the CPU 10 and a program for controlling the processing operation of the CPU 10, and recognizes a character string included in the character area by OCR (optical character recognition) processing or the like.

属性名受付部32は、例えば図1に示された入力装置16、CPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、利用者が入力した、帳票から抽出したい属性名(項目名)を受け付ける。   The attribute name receiving unit 32 includes, for example, the input device 16 shown in FIG. 1, the CPU 10, and a program that controls the processing operation of the CPU 10, and the attribute name (item name) that is input from the user and is to be extracted from the form. Accept.

属性値枠判定部34は、例えばCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、文字認識部30が認識した文字列と属性名受付部32が受け付けた属性名とを比較し、この属性名と一致する文字列が属する枠領域に隣接する枠領域を、属性名に対応する項目の内容である属性値を記載する属性値枠と判定する。   The attribute value frame determination unit 34 includes, for example, the CPU 10 and a program that controls the processing operation of the CPU 10. The attribute value frame determination unit 34 compares the character string recognized by the character recognition unit 30 with the attribute name received by the attribute name reception unit 32. The frame area adjacent to the frame area to which the character string that matches this attribute name belongs is determined as an attribute value frame in which the attribute value that is the content of the item corresponding to the attribute name is described.

帳票定義作成部36は、例えばCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、属性値枠判定部34の判定結果に基づいて、属性値枠に関する情報である帳票定義を作成する。属性値枠に関する情報としては、例えば属性名、枠領域の大きさ、属性値として記載される文字の種類(文字種)等がある。このように帳票定義で設定された属性値枠は、後に実行される帳票処理において、文字認識部30等により属性値を認識する領域として使用される。   The form definition creation unit 36 includes, for example, the CPU 10 and a program that controls the processing operation of the CPU 10, and creates a form definition that is information on the attribute value frame based on the determination result of the attribute value frame determination unit 34. Examples of the information related to the attribute value frame include an attribute name, the size of the frame area, and the character type (character type) described as the attribute value. The attribute value frame set in the form definition in this way is used as an area for recognizing the attribute value by the character recognition unit 30 or the like in a form process executed later.

図3(a),(b),(c)には、上記枠領域及び文字領域の説明図が示される。図3(a)は、画像取得部26で取得した帳票画像の例である。本例では、帳票の各項目の名称である属性名として、受付日、契約番号、申請日、氏名、内容等が含まれている。なお、帳票の最上部には、帳票の名称であるタイトル(XXXXX)も記載されている。   3A, 3B, and 3C are explanatory diagrams of the frame area and the character area. FIG. 3A is an example of a form image acquired by the image acquisition unit 26. In this example, the reception date, contract number, application date, name, content, and the like are included as attribute names that are the names of the items of the form. Note that a title (XXXX) which is the name of the form is also described at the top of the form.

図3(b),(c)は、図3(a)の帳票画像を画像解析部28により解析した結果の例である。図3(b)には、破線により文字領域αが示され、図3(c)には、破線により枠領域βが示されている。図3(b),(c)に示されるように、文字領域αとしての契約番号、申請日、氏名、内容の属性名及びこれらの属性名に対応する項目の記載内容である属性値は、それぞれ枠領域βの中に存在している。これに対して、受付日とその属性値及びタイトルは、枠領域βの外に存在している。   FIGS. 3B and 3C are examples of results obtained by analyzing the form image of FIG. 3A by the image analysis unit 28. In FIG. 3B, the character area α is indicated by a broken line, and in FIG. 3C, the frame area β is indicated by a broken line. As shown in FIGS. 3B and 3C, the contract number, the application date, the name, the attribute name of the content, and the attribute value that is the description content of the item corresponding to these attribute names are as follows: Each exists in the frame region β. On the other hand, the reception date, the attribute value, and the title exist outside the frame area β.

図4には、実施形態1にかかる帳票画像処理装置の動作例のフローが示される。図4において、画像取得部26が画像読取装置20等を介して帳票画像を取得すると(S101)、画像解析部28が帳票画像を受け取って解析する(S102)。この解析処理により、帳票画像内の構成要素を検出する。帳票画像内の構成要素とは、図3(b),(c)に示すように、文字領域αと枠領域βである。   FIG. 4 shows a flow of an operation example of the form image processing apparatus according to the first embodiment. In FIG. 4, when the image acquisition unit 26 acquires a form image via the image reading device 20 or the like (S101), the image analysis unit 28 receives and analyzes the form image (S102). By this analysis process, the constituent elements in the form image are detected. As shown in FIGS. 3B and 3C, the constituent elements in the form image are a character area α and a frame area β.

次に、文字領域αと判定された部分に対して文字認識部30により、文字領域α内の文字列を認識する。文字認識部30は、認識した文字列を取り出してRAM12に一時的に記憶させておく(S103)。この文字列には、属性名と属性値が含まれる。   Next, the character recognition unit 30 recognizes the character string in the character region α for the portion determined to be the character region α. The character recognition unit 30 extracts the recognized character string and temporarily stores it in the RAM 12 (S103). This character string includes an attribute name and an attribute value.

また、属性名受付部32は、利用者が入力装置16から入力した帳票中に存在する属性名を受け付ける(S104)。この際、画像取得部26が取得した帳票画像を表示装置14で表示し、その画像を参照してポインティングデバイス等で属性名を指定することより属性名受付部32に受け付けさせる構成としてもよい。   Further, the attribute name accepting unit 32 accepts an attribute name existing in the form input by the user from the input device 16 (S104). At this time, the form image acquired by the image acquisition unit 26 may be displayed on the display device 14, and the attribute name reception unit 32 may receive the image by referring to the image and specifying the attribute name with a pointing device or the like.

属性値枠判定部34は、文字認識部30が認識し、RAM12に一時的に記憶させた文字列と属性名受付部32が受け付けた属性名とを比較し、この属性名と一致する文字列が属する枠領域に隣接する枠領域を属性値枠と判定する(S105)。ここで、一般に帳票では、属性名に対応する属性値は、属性名が属する枠領域の右隣か下隣の枠領域内に記載されている。そのため、予めどの方向の枠領域を上記「隣接する枠領域」とするかを決定しておくことで、属性値枠として抽出する枠領域を判定することができる。あるいは、属性名受付部32において、属性名を受け付けると同時に、属性値枠と判定する枠領域の位置を指定する構成としてもよい。   The attribute value frame determination unit 34 compares the character string recognized by the character recognition unit 30 and temporarily stored in the RAM 12 with the attribute name received by the attribute name reception unit 32, and matches the attribute name. The frame area adjacent to the frame area to which the belongs belongs is determined to be an attribute value frame (S105). Here, in general, in a form, an attribute value corresponding to an attribute name is written in a frame area adjacent to the right or bottom of the frame area to which the attribute name belongs. Therefore, in advance which direction of the frame region by leaving determine the above "adjacent frame area", it is possible to determine the frame area to be extracted as the attribute value frame. Or it is good also as a structure which designates the position of the frame area | region determined with the attribute name reception part 32 as an attribute value frame simultaneously with receiving an attribute name.

なお、属性値枠判定部34は、上記属性名に基づいて属性値に使用される文字種を決定し、属性名が属する枠領域と隣接する枠領域のうち、上記決定した文字種による文字列が属する枠領域を上記属性値枠と判定する構成としてもよい。ここで、上記文字種に関しては、属性名受付部32に対して利用者が指定し、指定された情報を属性値枠判定部34が使用する構成としてもよい。あるいは、一般的な常識を使用して”番号”などの文字列が属性名に含まれていれば、数字と英文字、一般名称であれば文字、“日”などの文字を含んでいれば日付であると判断して、それぞれ適当な文字種を属性値枠判定部34が決定する構成としてもよい。   The attribute value frame determination unit 34 determines the character type used for the attribute value based on the attribute name, and the character string based on the determined character type belongs to the frame region adjacent to the frame region to which the attribute name belongs. The frame region may be determined as the attribute value frame. Here, the character type may be specified by the user with respect to the attribute name reception unit 32, and the specified value may be used by the attribute value frame determination unit 34. Or, if general common sense is used and the attribute name contains a character string such as “number”, numbers and letters, characters for general names, and characters such as “day” The attribute value frame determination unit 34 may determine an appropriate character type by determining that the date is a date.

帳票定義作成部36は、属性値枠判定部34の判定結果に基づいて、属性値枠に関する情報である帳票定義を作成する(S106)。   The form definition creation unit 36 creates a form definition that is information about the attribute value frame based on the determination result of the attribute value frame determination unit 34 (S106).

図5には、上記帳票定義の例が示される。図5において、帳票定義は、属性値枠の座標情報、属性名及び属性値に用いられる文字種が含まれる。ここで、座標情報は、x,y方向を図3(c)に示されるようにとると、左(画像の左端から枠領域の左辺までのx方向の距離)、上(画像の上端から枠領域の上辺までのy方向の距離)、高(枠領域のy方向の長さ)及び幅(枠領域のx方向の長さ)として決定される。   FIG. 5 shows an example of the form definition. In FIG. 5, the form definition includes coordinate information of attribute value frames, attribute names, and character types used for attribute values. Here, when the x and y directions are taken as shown in FIG. 3C, the coordinate information is left (distance in the x direction from the left edge of the image to the left side of the frame area), above (from the top edge of the image to the frame. It is determined as the distance in the y direction to the upper side of the region, the height (the length in the y direction of the frame region), and the width (the length in the x direction of the frame region).

ここで、例えば図3(a)に示される「受付日」のように、枠領域βが設定されておらず、文字領域αが枠領域βに属していない、すなわち枠領域βに囲まれていない場合もある。この場合には、図4の帳票画像解析処理(S102)において画像解析部28が枠領域βに属さない文字領域αとして認識し、属性名受付部32、文字認識部30及び帳票定義作成部36に通知する。これにより、属性名受付部32は、図4の属性名受付処理(S104)において属性名を受け付ける際に最大入力文字数も受け付ける。この最大入力文字数は、各属性名毎に利用者が適宜指定する。また、図4の文字列認識処理(S103)において文字認識部30が文字列を認識する際に、文字のフォントサイズも同時に取得しておく。このフォントサイズと文字数に基づき、帳票定義作成部36が、図4の帳票定義作成処理(S106)において属性値が記載される仮想的な属性値枠の大きさを計算する。この仮想的な属性値枠は、属性値が記載される属性値記載領域であり、帳票処理において属性値を認識する領域として使用される。   Here, for example, as in the “acceptance date” shown in FIG. 3A, the frame region β is not set, and the character region α does not belong to the frame region β, that is, is surrounded by the frame region β. There may be no. In this case, in the form image analysis process (S102) of FIG. 4, the image analysis unit 28 recognizes the character area α that does not belong to the frame area β, and the attribute name reception unit 32, the character recognition unit 30, and the form definition creation unit 36. Notify Thereby, the attribute name reception part 32 also receives the maximum number of input characters when receiving an attribute name in the attribute name reception process (S104) of FIG. The maximum number of input characters is appropriately designated by the user for each attribute name. Further, when the character recognition unit 30 recognizes the character string in the character string recognition process (S103) of FIG. 4, the font size of the character is also acquired at the same time. Based on the font size and the number of characters, the form definition creation unit 36 calculates the size of a virtual attribute value frame in which attribute values are described in the form definition creation process (S106) of FIG. This virtual attribute value frame is an attribute value description area in which attribute values are described, and is used as an area for recognizing attribute values in form processing.

例えば、「受付日」のフォントサイズが9ポイントであり、最大入力文字数に10文字が指定されていた場合には、9×0.35×10=31.5mmの幅の枠領域を仮定する。また、高さとしては、フォントサイズ9×0.35=3.15mmとなる。次に、枠領域の上端を決める必要があるが、属性名として記入されている文字列の上端を使用する。このようにして、帳票定義作成部36が仮想的な属性値枠を設定し、その座標情報を使用して帳票定義を作成する。   For example, if the font size of “acceptance date” is 9 points and 10 characters are designated as the maximum number of input characters, a frame region having a width of 9 × 0.35 × 10 = 31.5 mm is assumed. The height is 9 × 0.35 = 3.15 mm. Next, although it is necessary to determine the upper end of the frame area, the upper end of the character string entered as the attribute name is used. In this way, the form definition creation unit 36 sets a virtual attribute value frame and creates a form definition using the coordinate information.

また、枠領域βが設定されていない場合には、属性値がずれて記入される可能性もある。そのため、予め定めた1より大きい係数を設定し、帳票定義作成部36が上記計算した属性値枠の高さに乗じて上記計算値より大きい高さを帳票定義として設定する。これにより、仮想的な属性値枠の大きさを補正することができ、属性値が多少ずれて記載されていても、その後の帳票処理において正しく文字列を認識することができる。   In addition, when the frame area β is not set, there is a possibility that the attribute value is entered with a shift. Therefore, a coefficient greater than a predetermined value 1 is set, and the form definition creation unit 36 multiplies the calculated height of the attribute value frame to set a height greater than the calculated value as the form definition. As a result, the size of the virtual attribute value frame can be corrected, and the character string can be correctly recognized in the subsequent form processing even if the attribute value is described with a slight shift.

図6(a)〜(e)には、上記帳票定義において、仮想的な属性値枠の大きさを大きく設定したときに、他の枠領域または記載領域と重複した場合の例の説明図が示される。   FIGS. 6A to 6E are explanatory diagrams of examples when the size of the virtual attribute value frame is set large in the form definition and overlaps with other frame regions or description regions. Indicated.

本例では、図6(a)に示されるように、2つの属性名「受付日」と「氏名」とが上下2段に設定されている。この場合に、帳票定義においてそれぞれに対応する属性値枠の高さを大きく設定すると、図6(b)に破線で示されるように、受付日に対応する属性値枠の下部と、氏名に対応する属性値枠の上部とが重複する。この状態で帳票処理を行うと、受付日と氏名に対応する属性値の文字の一部が他方の認識処理の際に混入し、文字列の認識率を低下させて正しい情報が得られない可能性がある。そこで、図4の属性値枠判定処理(S105)において属性値枠判定部34が属性値枠の重複を判定し、重複している場合に、帳票定義作成部36にその旨通知する構成とする。帳票定義作成部36は、この通知を受けると、図4の帳票定義作成処理(S106)において属性値枠の高さを補正するために設定された上記係数を減じ、属性値枠の高さを小さくして属性値枠の重複が無くす処理を行う。図6(c)には、受付日と氏名に対応する属性値枠が、上記処理により重複なく設定された様子が示される。   In this example, as shown in FIG. 6A, two attribute names “Reception Date” and “Name” are set in two upper and lower stages. In this case, when the height of the attribute value frame corresponding to each is set large in the form definition, as shown by the broken line in FIG. 6B, it corresponds to the lower part of the attribute value frame corresponding to the reception date and the name. The upper part of the attribute value frame to be overlapped. If form processing is performed in this state, some of the characters of the attribute value corresponding to the reception date and name may be mixed during the other recognition processing, reducing the recognition rate of the character string and not obtaining correct information There is sex. Therefore, in the attribute value frame determination process (S105) of FIG. 4, the attribute value frame determination unit 34 determines whether the attribute value frame overlaps, and if the attribute value frame overlaps, notifies the form definition creation unit 36 to that effect. . Upon receipt of this notification, the form definition creation unit 36 subtracts the coefficient set to correct the height of the attribute value frame in the form definition creation process (S106) of FIG. Reduce the attribute value frame and reduce it. FIG. 6C shows a state where the attribute value frames corresponding to the reception date and the name are set without duplication by the above processing.

また、図6(d)の例では、帳票定義において設定された座標情報の幅が大きすぎて他の枠領域(罫線)と重複し、または帳票の紙の範囲からはみ出している。この場合にも属性値枠判定部34が重複等を判定し、帳票定義作成部36にその旨通知する。この場合、帳票定義作成部36は、上記最大入力文字数を減ずる補正を行う。これにより、図6(e)に示されるように、属性値枠が他の枠領域と重複し、または帳票の紙の範囲からはみ出すことを回避できる。   In the example of FIG. 6D, the width of the coordinate information set in the form definition is too large and overlaps with other frame areas (ruled lines), or protrudes from the paper range of the form. Also in this case, the attribute value frame determination unit 34 determines duplication or the like, and notifies the form definition creation unit 36 to that effect. In this case, the form definition creation unit 36 performs correction to reduce the maximum number of input characters. Thereby, as shown in FIG. 6E, it is possible to avoid that the attribute value frame overlaps with other frame regions or protrudes from the paper range of the form.

図7には、帳票画像の他の例が示される。図7では、1つの枠領域内に属性名と属性値が両方記載されている。また、図8には、帳票定義の他の例が示される。図8は、図7に示された帳票画像に基づいて作成された帳票定義の例である。   FIG. 7 shows another example of the form image. In FIG. 7, both the attribute name and the attribute value are described in one frame area. FIG. 8 shows another example of the form definition. FIG. 8 is an example of a form definition created based on the form image shown in FIG.

属性値枠判定部34は、図4の属性値枠判定処理(S105)において、文字認識部30が認識した文字列と属性名受付部32が受け付けた属性名とを比較し、属性名と一致する文字列が、その属する枠領域内で偏った位置にあるか否かを判定する。属性名と一致する文字列が上記枠領域内で偏った位置にあるときは、同じ枠領域内に属性値も存在すると判定する。この場合、帳票定義作成部36は、図8に示されるように、帳票定義の同枠属性のフラグを立てる(図8では丸印にて示す)。   The attribute value frame determination unit 34 compares the character string recognized by the character recognition unit 30 with the attribute name received by the attribute name reception unit 32 in the attribute value frame determination processing (S105) of FIG. It is determined whether or not the character string to be placed is at a biased position in the frame area to which it belongs. When the character string that matches the attribute name is at a biased position in the frame area, it is determined that the attribute value also exists in the same frame area. In this case, the form definition creation unit 36 sets a flag for the same frame attribute of the form definition as shown in FIG. 8 (indicated by a circle in FIG. 8).

ここで、上記文字列がその属する枠領域内で偏った位置にあるか否かの判定は、例えば属性名が属する枠領域の座標情報と属性名が記載されている文字領域の位置情報とを比較することにより行うことができる。すなわち、枠領域の中心位置と属性名が記載されている文字領域の中心位置との差を計算し、属性名の文字列幅あるいは文字列高さ以上の差が検出される場合に、文字列が偏った位置にあると判定する。文字列が偏った位置にあると、その枠領域内には属性名以外に属性値を記載する属性値記載領域が存在すると判断できる。このため、その枠領域内に記載されている属性名以外の文字列を属性値と判断することができる。   Here, the determination as to whether or not the character string is in a biased position within the frame region to which the character string belongs is, for example, using coordinate information of the frame region to which the attribute name belongs and position information of the character region in which the attribute name is described. This can be done by comparison. In other words, when the difference between the center position of the frame area and the center position of the character area where the attribute name is written is calculated, and a difference greater than or equal to the character string width or the character string height of the attribute name is detected, the character string Is determined to be in a biased position. If the character string is at a biased position, it can be determined that there is an attribute value description area in which the attribute value is described in addition to the attribute name in the frame area. Therefore, a character string other than the attribute name described in the frame area can be determined as the attribute value.

また、上述したように属性名と属性値とが同じ枠領域内に記入されているときには、通常その枠領域内の左端の文字列は属性名となっている。従って、属性値枠判定部34は、枠領域内の文字列を検索して、属性名が枠領域内の左端に位置している場合には、その枠領域内には属性名と属性値が存在すると判定することができる。   When the attribute name and the attribute value are entered in the same frame area as described above, the leftmost character string in the frame area is usually the attribute name. Therefore, the attribute value frame determination unit 34 searches the character string in the frame area, and when the attribute name is located at the left end in the frame area, the attribute name and the attribute value are included in the frame area. It can be determined that it exists.

以上の処理により、帳票定義において同枠属性のフラグが立っている場合には、後の帳票処理において、枠領域内の文字認識結果から属性名を取り除くことにより、正しい属性値を得ることができる。   With the above processing, when the same frame attribute flag is set in the form definition, the correct attribute value can be obtained by removing the attribute name from the character recognition result in the frame area in the subsequent form processing. .

実施形態2.
図9には、本発明にかかる帳票画像処理装置の実施形態2のブロック図が示される。図9において、帳票画像処理装置は、画像取得部26、画像解析部28、文字認識部30、属性値枠判定部34、帳票定義作成部36、属性名登録部38及び属性名取得部40を含んで構成されている。なお、上記画像取得部26、文字認識部30、属性値枠判定部34及び帳票定義作成部36は、図2と同じ機能であるので、説明を省略する。
Embodiment 2. FIG.
FIG. 9 shows a block diagram of Embodiment 2 of the form image processing apparatus according to the present invention. 9, the form image processing apparatus includes an image acquisition unit 26, an image analysis unit 28, a character recognition unit 30, an attribute value frame determination unit 34, a form definition creation unit 36, an attribute name registration unit 38, and an attribute name acquisition unit 40. It is configured to include. The image acquisition unit 26, the character recognition unit 30, the attribute value frame determination unit 34, and the form definition creation unit 36 have the same functions as those in FIG.

画像解析部28は、例えば図1に示されたCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、画像取得部26が取得した帳票画像を解析し、枠領域、文字領域及びタイトル領域を判別する。ここで、タイトル領域は、帳票のタイトル(文書名)が記載された文字領域であり、通常帳票の最上段に位置している。   The image analysis unit 28 includes, for example, the CPU 10 illustrated in FIG. 1 and a program that controls the processing operation of the CPU 10. The image analysis unit 28 analyzes the form image acquired by the image acquisition unit 26, and displays a frame region, a character region, and a title region. Is determined. Here, the title area is a character area in which the title (document name) of the form is described, and is positioned at the top of the normal form.

属性名登録部38は、例えば図1に示されたRAM12及びハードディスク装置22及びこれらをCPU10により制御するためのプログラムにより構成され、帳票の各項目の属性名を帳票のタイトル毎に登録する。   The attribute name registration unit 38 includes, for example, the RAM 12 and the hard disk device 22 shown in FIG. 1 and a program for controlling them by the CPU 10, and registers the attribute name of each item of the form for each title of the form.

属性名取得部40は、例えばCPU10及びCPU10の処理動作を制御するプログラムを含んで構成され、文字認識部30が認識したタイトル領域の文字列に基づき前記属性名登録手段から当該タイトルに対応する属性名を取得する。   The attribute name acquisition unit 40 includes, for example, the CPU 10 and a program for controlling the processing operation of the CPU 10, and the attribute corresponding to the title from the attribute name registration unit based on the character string of the title area recognized by the character recognition unit 30. Get the name.

図10には、上記属性名登録部38に登録されたタイトルと属性名とを関連付けるテーブルの例が示される。図10では、2つのタイトルXXXXX及びZZZZZZとこれらに関連付けられた属性名が登録されているが、これらに限定されるものではなく、タイトルの数は任意に設定することができる。   FIG. 10 shows an example of a table for associating the titles registered in the attribute name registration unit 38 with the attribute names. In FIG. 10, two titles XXXXXX and ZZZZZZ and attribute names associated therewith are registered. However, the present invention is not limited to these, and the number of titles can be set arbitrarily.

図11には、実施形態2にかかる帳票画像処理装置の動作例のフローが示される。図11において、画像取得部26が画像読取装置20等を介して帳票画像を取得すると(S201)、画像解析部28が帳票画像を受け取って解析する(S202)。この解析処理により、帳票画像内の構成要素を検出する。帳票画像内の構成要素とは、図3(b),(c)に示すように、文字領域α、枠領域β及びタイトル領域γである。タイトルは、通常文書の上部中央付近に、他の文字より大きなフォントを用いて記載されている。画像解析部28は、この性質に基づいてタイトル領域を判定することができる。   FIG. 11 shows a flow of an operation example of the form image processing apparatus according to the second embodiment. In FIG. 11, when the image acquisition unit 26 acquires a form image via the image reading device 20 or the like (S201), the image analysis unit 28 receives and analyzes the form image (S202). By this analysis process, the constituent elements in the form image are detected. As shown in FIGS. 3B and 3C, the constituent elements in the form image are a character area α, a frame area β, and a title area γ. The title is usually written near the upper center of the document using a font larger than the other characters. The image analysis unit 28 can determine the title area based on this property.

次に、文字領域α及びタイトル領域γと判定された部分に対して文字認識部30により、それぞれの領域内の文字列を認識する。文字認識部30は、認識した文字列を取り出してRAM12に一時的に記憶させておく(S203)。この文字列には、属性名、属性値及びタイトルが含まれる。   Next, the character recognition unit 30 recognizes the character strings in the respective areas determined as the character area α and the title area γ. The character recognition unit 30 extracts the recognized character string and temporarily stores it in the RAM 12 (S203). This character string includes an attribute name, an attribute value, and a title.

属性名取得部40は、文字認識部30が認識したタイトルを受け取り、このタイトルに関連付けられた属性名を、図10に示された属性名登録部38のテーブルから取得する(S204)。   The attribute name acquisition unit 40 receives the title recognized by the character recognition unit 30, and acquires the attribute name associated with the title from the table of the attribute name registration unit 38 shown in FIG. 10 (S204).

属性値枠判定部34は、文字認識部30が認識し、RAM12に一時的に記憶させた文字列と属性名取得部40が取得した属性名とを比較し、この属性名と一致する文字列が属する枠領域に隣接する枠領域を属性値枠と判定する(S205)。   The attribute value frame determination unit 34 compares the character string recognized by the character recognition unit 30 and temporarily stored in the RAM 12 with the attribute name acquired by the attribute name acquisition unit 40, and matches the attribute name. A frame area adjacent to the frame area to which the belongs belongs is determined as an attribute value frame (S205).

帳票定義作成部36は、属性値枠判定部34の判定結果に基づいて、属性値枠に関する情報である帳票定義を作成する(S206)。   The form definition creation unit 36 creates a form definition that is information related to the attribute value frame based on the determination result of the attribute value frame determination unit 34 (S206).

なお、上記S204において、文字認識部30が認識したタイトルに関連付けられた属性名を取得することができなかった場合には、利用者が入力装置16からタイトルとこれに関連付けられる属性名とを入力し、属性名登録部38がこれらの情報を受け付けてテーブルに登録する構成とする。   In S204, if the attribute name associated with the title recognized by the character recognition unit 30 cannot be acquired, the user inputs the title and the attribute name associated therewith from the input device 16. The attribute name registration unit 38 receives the information and registers it in the table.

上述した、図4及び図11の各ステップを実行するためのプログラムは、記録媒体に格納することも可能であり、また、そのプログラムを通信手段によって提供することもできる。   The above-described program for executing each step of FIG. 4 and FIG. 11 can be stored in a recording medium, and the program can be provided by communication means.

以上、本発明の実施形態をいくつか紹介したが、本発明は上記実施形態に限定されるものではない。   Although several embodiments of the present invention have been introduced above, the present invention is not limited to the above embodiments.

本発明にかかる帳票画像処理装置を実現するためのコンピュータのハードウェア構成の例を示す図である。It is a figure which shows the example of the hardware constitutions of the computer for implement | achieving the form image processing apparatus concerning this invention. 本発明にかかる帳票画像処理装置の実施形態1のブロック図である。It is a block diagram of Embodiment 1 of the form image processing apparatus according to the present invention. 枠領域及び文字領域の説明図である。It is explanatory drawing of a frame area | region and a character area. 実施形態1にかかる帳票画像処理装置の動作例のフロー図である。FIG. 6 is a flowchart of an operation example of the form image processing apparatus according to the first embodiment. 帳票定義の例を示す図である。It is a figure which shows the example of a form definition. 帳票定義において、仮想的な属性値枠の大きさを大きく設定したときに、他の枠領域または記載領域と重複した場合の例の説明図である。In a form definition, when the size of a virtual attribute value frame is set large, it is an explanatory diagram of an example when it overlaps with another frame region or a description region. 帳票画像の他の例を示す図である。It is a figure which shows the other example of a form image. 帳票定義の他の例を示す図である。It is a figure which shows the other example of a form definition. 本発明にかかる帳票画像処理装置の実施形態2のブロック図である。It is a block diagram of Embodiment 2 of the form image processing apparatus concerning this invention. タイトルと属性名とを関連付けるテーブルの例の説明図である。It is explanatory drawing of the example of the table which associates a title and an attribute name. 実施形態2にかかる帳票画像処理装置の動作例のフロー図である。FIG. 10 is a flowchart of an operation example of the form image processing apparatus according to the second embodiment.

符号の説明Explanation of symbols

10 CPU、12 RAM、14 表示装置、16 入力装置、18 通信インターフェース、20 画像読取装置、22 ハードディスク装置、24 バス、26 画像取得部、28 画像解析部、30 文字認識部、32 属性名受付部、34 属性値枠判定部、36 帳票定義作成部、38 属性名登録部、40 属性名取得部。   10 CPU, 12 RAM, 14 display device, 16 input device, 18 communication interface, 20 image reading device, 22 hard disk device, 24 bus, 26 image acquisition unit, 28 image analysis unit, 30 character recognition unit, 32 attribute name reception unit 34 attribute value frame determination unit, 36 form definition creation unit, 38 attribute name registration unit, 40 attribute name acquisition unit.

Claims (12)

帳票画像を取得する画像取得手段と、
前記取得した帳票画像を解析し、枠領域と文字領域とを判別する画像解析手段と、
前記文字領域に含まれる文字列を認識する文字認識手段と、
帳票の各項目の属性名を受け付ける属性名受付手段と、
前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段と、
前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段と、
を備えることを特徴とする帳票画像処理装置。
Image acquisition means for acquiring a form image;
Image analysis means for analyzing the acquired form image and determining a frame area and a character area;
Character recognition means for recognizing a character string included in the character region;
Attribute name accepting means for accepting the attribute name of each item of the form;
The character string recognized by the character recognition unit is compared with the attribute name received by the attribute name receiving unit, and a frame region adjacent to the frame region to which the character string matching the attribute name belongs corresponds to the attribute name. Attribute value frame determination means for determining an attribute value frame in which an attribute value is described;
Based on the determination result of the attribute value frame determination unit, a form definition creation unit that creates a form definition that is information about the attribute value frame;
A form image processing apparatus comprising:
請求項1記載の帳票画像処理装置において、前記属性値枠判定手段は、前記属性名に基づいて属性値に使用される文字種を決定し、前記属性名が属する枠領域と隣接する枠領域のうち、前記文字種による文字列が属する枠領域を前記属性値枠と判定することを特徴とする帳票画像処理装置。   2. The form image processing apparatus according to claim 1, wherein the attribute value frame determination unit determines a character type used for the attribute value based on the attribute name, and is a frame area adjacent to the frame area to which the attribute name belongs. A form image processing apparatus, wherein a frame area to which a character string of the character type belongs is determined as the attribute value frame. 請求項1記載の帳票画像処理装置において、前記画像解析手段が前記枠領域が設定されていないと判断した場合に、前記帳票定義作成手段は、前記属性名受付手段が受け付けた最大入力文字数に基づいて属性値を記載する属性値記載領域の大きさを設定し、帳票定義を作成することを特徴とする帳票画像処理装置。   2. The form image processing apparatus according to claim 1, wherein when the image analysis unit determines that the frame area is not set, the form definition creation unit is based on the maximum number of input characters received by the attribute name reception unit. A form image processing apparatus that sets a size of an attribute value description area for describing an attribute value and creates a form definition. 請求項3記載の帳票画像処理装置において、前記帳票定義作成手段は、前記設定した属性値記載領域が他の枠領域または記載領域と重複する場合に、前記属性名受付手段が受け付けた最大入力文字数を減ずることを特徴とする帳票画像処理装置。   4. The form image processing apparatus according to claim 3, wherein the form definition creation unit is configured to receive the maximum number of input characters received by the attribute name reception unit when the set attribute value description region overlaps with another frame region or description region. A form image processing apparatus characterized in that 請求項3記載の帳票画像処理装置において、前記帳票定義作成手段は、前記設定した属性値記載領域の大きさに所定の係数を乗じて前記属性値記載領域の大きさを補正し、帳票定義を作成することを特徴とする帳票画像処理装置。   The form image processing device according to claim 3, wherein the form definition creation unit corrects the size of the attribute value description area by multiplying the size of the set attribute value description area by a predetermined coefficient, and defines the form definition. A form image processing apparatus characterized by being created. 請求項5記載の帳票画像処理装置において、前記帳票定義作成手段は、前記設定した属性値記載領域が他の枠領域または記載領域と重複する場合に、前記係数を減ずることを特徴とする帳票画像処理装置。   6. The form image processing apparatus according to claim 5, wherein the form definition creating unit reduces the coefficient when the set attribute value description area overlaps with another frame area or description area. Processing equipment. 請求項1記載の帳票画像処理装置において、前記属性値枠判定手段は、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が、その属する枠領域内で偏った位置にある場合に、前記属性名に対応する属性値を記載する属性値記載領域が前記属性名と同じ枠領域内に存在すると判定し、前記帳票定義作成手段は、前記帳票定義に、属性名と属性値とが同じ枠領域に属している旨の情報を含ませることを特徴とする帳票画像処理装置。   2. The form image processing apparatus according to claim 1, wherein the attribute value frame determination unit compares a character string recognized by the character recognition unit with an attribute name received by the attribute name reception unit, and matches the attribute name. When the character string is in a biased position in the frame area to which the character string belongs, it is determined that an attribute value description area describing an attribute value corresponding to the attribute name exists in the same frame area as the attribute name, and the form The form creation means includes a form image processing apparatus including information indicating that an attribute name and an attribute value belong to the same frame area in the form definition. 請求項1記載の帳票画像処理装置において、前記属性値枠判定手段は、前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が、その属する枠領域内の左端にある場合に、前記属性名に対応する属性値を記載する属性値記載領域が前記属性名と同じ枠領域内に存在すると判定し、前記帳票定義作成手段は、前記帳票定義に、属性名と属性値とが同じ枠領域に属している旨の情報を含ませることを特徴とする帳票画像処理装置。   2. The form image processing apparatus according to claim 1, wherein the attribute value frame determination unit compares a character string recognized by the character recognition unit with an attribute name received by the attribute name reception unit, and matches the attribute name. When the character string is at the left end in the frame area to which it belongs, it is determined that the attribute value description area describing the attribute value corresponding to the attribute name exists in the same frame area as the attribute name, and the form definition creation The form image processing apparatus according to claim 1, wherein the form definition includes information indicating that the attribute name and the attribute value belong to the same frame area. 帳票画像を取得する画像取得手段と、
前記取得した画像を解析し、枠領域、文字領域及びタイトル領域を判別する画像解析手段と、
前記文字領域及びタイトル領域に含まれる文字列を認識する文字認識手段と、
帳票の各項目の属性名を帳票のタイトル毎に登録する属性名登録手段と、
前記文字認識手段が認識したタイトル領域の文字列に基づき前記属性名登録手段から当該タイトルに関連付けられた属性名を取得する属性名取得手段と、
前記文字認識手段が認識した文字列が、前記属性名取得手段が取得した属性名と一致する場合に、当該文字列が属する枠領域に隣接する属性値枠を判定する属性値枠判定手段と、
前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段と、
を備えることを特徴とする帳票画像処理装置。
Image acquisition means for acquiring a form image;
Image analysis means for analyzing the acquired image and discriminating a frame region, a character region, and a title region;
Character recognition means for recognizing a character string included in the character region and the title region;
Attribute name registration means for registering the attribute name of each item of the form for each title of the form,
Attribute name acquisition means for acquiring an attribute name associated with the title from the attribute name registration means based on the character string of the title area recognized by the character recognition means;
An attribute value frame determination unit that determines an attribute value frame adjacent to a frame region to which the character string belongs when the character string recognized by the character recognition unit matches the attribute name acquired by the attribute name acquisition unit;
Based on the determination result of the attribute value frame determination unit, a form definition creation unit that creates a form definition that is information about the attribute value frame;
A form image processing apparatus comprising:
請求項9記載の帳票画像処理装置において、前記属性名取得手段が、前記文字認識手段が認識したタイトルに対応する属性名を取得することができなかった場合に、前記属性名登録手段が、当該タイトルとこれに対応する属性名とを受け付けて登録することを特徴とする帳票画像処理装置。   The form image processing apparatus according to claim 9, wherein when the attribute name acquisition unit cannot acquire an attribute name corresponding to the title recognized by the character recognition unit, the attribute name registration unit A form image processing apparatus which receives and registers a title and an attribute name corresponding to the title. コンピュータを、
帳票画像を取得する画像取得手段、
前記取得した画像を解析し、枠領域と文字領域とを判別する画像解析手段、
前記文字領域に含まれる文字列を認識する文字認識手段、
帳票の各項目の属性名を受け付ける属性名受付手段、
前記文字認識手段が認識した文字列と前記属性名受付手段が受け付けた属性名とを比較し、前記属性名と一致する文字列が属する枠領域に隣接する枠領域を、前記属性名に対応する属性値を記載する属性値枠と判定する属性値枠判定手段、
前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段、
として機能させることを特徴とする帳票画像処理プログラム。
Computer
Image acquisition means for acquiring a form image;
Image analysis means for analyzing the acquired image and discriminating a frame region and a character region;
Character recognition means for recognizing a character string included in the character region;
Attribute name accepting means for accepting the attribute name of each item of the form,
The character string recognized by the character recognition unit is compared with the attribute name received by the attribute name receiving unit, and a frame region adjacent to the frame region to which the character string matching the attribute name belongs corresponds to the attribute name. Attribute value frame determining means for determining an attribute value frame in which an attribute value is described;
A form definition creating means for creating a form definition that is information related to the attribute value frame based on a determination result of the attribute value frame determining means;
A form image processing program characterized by functioning as
コンピュータを、
帳票画像を取得する画像取得手段、
前記取得した画像を解析し、枠領域、文字領域及びタイトル領域を判別する画像解析手段、
前記文字領域及びタイトル領域に含まれる文字列を認識する文字認識手段、
帳票の各項目の属性名を帳票のタイトル毎に登録する属性名登録手段、
前記文字認識手段が認識したタイトル領域の文字列に基づき前記属性名登録手段から当該タイトルに関連付けられた属性名を取得する属性名取得手段、
前記文字認識手段が認識した文字列が、前記属性名取得手段が取得した属性名と一致する場合に、当該文字列が属する枠領域に隣接する属性値枠を判定する属性値枠判定手段、
前記属性値枠判定手段の判定結果に基づいて、前記属性値枠に関する情報である帳票定義を作成する帳票定義作成手段、
として機能させることを特徴とする帳票画像処理プログラム。
Computer
Image acquisition means for acquiring a form image;
Image analysis means for analyzing the acquired image and discriminating a frame region, a character region, and a title region;
Character recognition means for recognizing a character string included in the character area and the title area;
Attribute name registration means for registering the attribute name of each item of the form for each title of the form,
Attribute name acquisition means for acquiring an attribute name associated with the title from the attribute name registration means based on the character string of the title area recognized by the character recognition means;
An attribute value frame determination unit that determines an attribute value frame adjacent to a frame region to which the character string belongs when the character string recognized by the character recognition unit matches the attribute name acquired by the attribute name acquisition unit;
A form definition creating means for creating a form definition that is information related to the attribute value frame based on a determination result of the attribute value frame determining means;
A form image processing program characterized by functioning as
JP2007193766A 2007-07-25 2007-07-25 Form image processing apparatus and form image processing program Expired - Fee Related JP4983464B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007193766A JP4983464B2 (en) 2007-07-25 2007-07-25 Form image processing apparatus and form image processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007193766A JP4983464B2 (en) 2007-07-25 2007-07-25 Form image processing apparatus and form image processing program

Publications (2)

Publication Number Publication Date
JP2009031937A true JP2009031937A (en) 2009-02-12
JP4983464B2 JP4983464B2 (en) 2012-07-25

Family

ID=40402391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007193766A Expired - Fee Related JP4983464B2 (en) 2007-07-25 2007-07-25 Form image processing apparatus and form image processing program

Country Status (1)

Country Link
JP (1) JP4983464B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015087830A (en) * 2013-10-28 2015-05-07 富士ゼロックス株式会社 Document processing apparatus and program
JP2020144653A (en) * 2019-03-07 2020-09-10 日本電気株式会社 Form processing device, form processing method, and program
JP6856916B1 (en) * 2020-01-08 2021-04-14 ジーニアルテクノロジー,インク. Information processing equipment, information processing methods and information processing programs
US11315351B2 (en) 2020-01-08 2022-04-26 Kabushiki Kaisha Genial Technology Information processing device, information processing method, and information processing program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7064228B2 (en) 2016-11-22 2022-05-10 イースタン技研株式会社 An adapter with a fixture for the spindle and an electric discharge machine equipped with the adapter.

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221510A (en) * 1995-02-16 1996-08-30 Toshiba Corp Device and method for processing form document
JPH09231291A (en) * 1996-02-27 1997-09-05 Mitsubishi Electric Corp Slip reading method and device
JPH1011531A (en) * 1996-06-21 1998-01-16 Mitsubishi Electric Corp Slip reader
JPH1166228A (en) * 1997-08-25 1999-03-09 Oki Electric Ind Co Ltd Method for generating format information of document for optical character reader
JPH1173472A (en) * 1997-08-29 1999-03-16 Oki Electric Ind Co Ltd Format information registering method and ocr system
JP2001250084A (en) * 2000-03-03 2001-09-14 Ricoh Co Ltd Method and device for processing image and computer- readable recording medium with program for realizing the method recorded thereon

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221510A (en) * 1995-02-16 1996-08-30 Toshiba Corp Device and method for processing form document
JPH09231291A (en) * 1996-02-27 1997-09-05 Mitsubishi Electric Corp Slip reading method and device
JPH1011531A (en) * 1996-06-21 1998-01-16 Mitsubishi Electric Corp Slip reader
JPH1166228A (en) * 1997-08-25 1999-03-09 Oki Electric Ind Co Ltd Method for generating format information of document for optical character reader
JPH1173472A (en) * 1997-08-29 1999-03-16 Oki Electric Ind Co Ltd Format information registering method and ocr system
JP2001250084A (en) * 2000-03-03 2001-09-14 Ricoh Co Ltd Method and device for processing image and computer- readable recording medium with program for realizing the method recorded thereon

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015087830A (en) * 2013-10-28 2015-05-07 富士ゼロックス株式会社 Document processing apparatus and program
JP2020144653A (en) * 2019-03-07 2020-09-10 日本電気株式会社 Form processing device, form processing method, and program
JP6856916B1 (en) * 2020-01-08 2021-04-14 ジーニアルテクノロジー,インク. Information processing equipment, information processing methods and information processing programs
US11315351B2 (en) 2020-01-08 2022-04-26 Kabushiki Kaisha Genial Technology Information processing device, information processing method, and information processing program

Also Published As

Publication number Publication date
JP4983464B2 (en) 2012-07-25

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US8331677B2 (en) Combined image and text document
JP4533273B2 (en) Image processing apparatus, image processing method, and program
US8422796B2 (en) Image processing device
JP2011165187A (en) Method and system for displaying document
JP2010510563A (en) Automatic generation of form definitions from hardcopy forms
JP6826293B2 (en) Information information system and its processing method and program
JP2002056398A (en) Document image processing device, document image processing method, and storage medium
US20210075919A1 (en) Image processing apparatus, image processing system, image processing method, and storage medium
JP4983464B2 (en) Form image processing apparatus and form image processing program
JP2008059157A (en) Document confirmation support system, document confirmation support device and program
US8023735B2 (en) Image processing apparatus for extracting representative characteristic from image data and storing image data to be associated with representative characteristic
JP2007058485A (en) Image recognition device, image recognition method and image recognition program
JP5051756B2 (en) Form identification method, form identification program, and optical character reading system using the form identification method
JP2008282149A (en) Image processor, image processing method and image processing program
JP4518212B2 (en) Image processing apparatus and program
JP2007011529A (en) Method for determining character recognition position in ocr processing
US11163992B2 (en) Information processing apparatus and non-transitory computer readable medium
JP4517822B2 (en) Image processing apparatus and program
JP5445740B2 (en) Image processing apparatus, image processing system, and processing program
JPH10207981A (en) Document recognition method
JP6682827B2 (en) Information processing apparatus and information processing program
JP6743401B2 (en) Form design/read setting support device, form design/read setting support method, and optical character recognition system
JP6795770B2 (en) Information processing device and its processing method and program
JP5223328B2 (en) Information management apparatus, information management method, and program thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120409

R150 Certificate of patent or registration of utility model

Ref document number: 4983464

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees