JP6138038B2 - 帳票識別装置および帳票識別方法 - Google Patents
帳票識別装置および帳票識別方法 Download PDFInfo
- Publication number
- JP6138038B2 JP6138038B2 JP2013258863A JP2013258863A JP6138038B2 JP 6138038 B2 JP6138038 B2 JP 6138038B2 JP 2013258863 A JP2013258863 A JP 2013258863A JP 2013258863 A JP2013258863 A JP 2013258863A JP 6138038 B2 JP6138038 B2 JP 6138038B2
- Authority
- JP
- Japan
- Prior art keywords
- area
- character
- identifier
- marker
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 25
- 239000003550 marker Substances 0.000 claims description 65
- 238000000605 extraction Methods 0.000 claims description 42
- 238000001514 detection method Methods 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 19
- 238000010586 diagram Methods 0.000 description 18
- 238000003702 image correction Methods 0.000 description 18
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Description
まず、帳票識別装置は二値化処理した入力画像90に対して余白の検出を行い、検出した余白からマーカ領域90aを抽出する。抽出したマーカ領域90aを入力画像90の特徴点とし、図14(b)に示したサンプル画像91のマーカ領域91aとの対応点を探索する。探索した結果を元に、入力画像90とサンプル画像91とのずれを計算し、サンプル画像のID領域91bから入力画像90のID領域90bを計算し、入力画像90が示す帳票IDを特定する。
この実施の形態1では、入力された画像データに含まれる文字領域を、帳票を識別するための領域(以下、帳票識別子領域と称する)として抽出し、抽出した帳票識別子領域を用いて帳票の識別を行う処理について説明する。
図1は、実施の形態1による帳票識別装置の構成を示すブロック図である。
帳票識別装置10は、二値化処理部1、画像補正部2、文字領域抽出部3、文字認識部4、ID認識情報記憶部5およびID認識部(識別子認識部)6で構成されている。
二値化処理部1は、入力された画像データに対して二値化処理を行う。画像補正部2は、二値化処理が行われた画像から罫線情報を抽出し、抽出した罫線の傾きを算出する。算出した罫線の傾きを元に、アファイン変換により画像の傾き補正を行う。
画像補正部2は、図2(a)で示した二値化画像に対して罫線11a,11b,11c,11d,11e,11f,11g,11hを抽出し、抽出した各罫線の傾きを検出する。検出した各罫線の傾きに基づいて、二値化画像を矢印A方向に補正するアフィン変換を行い、図2(b)で示した傾き補正後の二値化画像を得る。なお、傾きの検出および傾きに基づく補正の詳細については後述する。
図3に示した補正画像12内に対象領域12aを設定し、当該対象領域12aのX方向およびY方向の黒画素数に基づいてヒストグラム12bを生成する。生成したヒストグラム12bを補正画像12の画像サイズで正規化する。
図5は、実施の形態1の帳票識別装置の動作を示すフローチャートである。
二値化処理部1は、画像データの二値化処理を行う(ステップST1)。画像補正部2は、ステップST1において二値化処理が行われた二値画像データから画像補正に必要となる罫線の抽出を行う(ステップST2)。罫線の抽出方法としては、例えば以下に示す参考文献1の手法を適用することができる。
・参考文献1
平野敬、岡田康裕、依田文夫、「文書画像からの罫線抽出方式」、電子情報通信学会総合大会、Mar.1998
図6は、実施の形態1による帳票識別装置の画像補正部の罫線の傾き角度の算出を示す図である。図6(a)は抽出した罫線の一例を示し、図6(b)はX方向の罫線の傾き角度の算出を示す説明図であり、図6(c)はY方向の罫線の傾き角度の算出を示す説明図である。
図6(a)の罫線の抽出では、画像13における線分13aおよび線分13bがX方向の罫線であり、線分13cおよび線分13dがY方向の罫線となる。図6(b)に示すように、線分13aおよび線分13bと画像13のX方向に平行な線分13xとのなす角θtを罫線13a,13bの傾き角度θtとして算出する。また図6(c)に示すように、線分13cおよび線分13dと画像13のY方向に平行な線分13yとのなす角θtを罫線の傾き角度θtとして算出する。当該罫線の傾き算出処理をステップST2で抽出した全ての罫線に対して行う。
すなわち、全ての罫線の傾きの平均値を入力された画像の傾きとする。
式(2)において、(x´,y´)は補正後の画像位置を、(x,y)は補正前の画像位置を示す。
図7は、実施の形態1による帳票識別装置の文字領域抽出部のヒストグラム生成位置設定を示す図である。図7(a)は画像補正部2から入力される補正画像14を示し、図7(b)はヒストグラムを生成する画像位置があらかじめ設定されたサンプル画像15を示している。
図7(b)において、サンプル画像15内に設定されるヒストグラム生成領域16の基点Oを(x,y)、横方向の長さをw、縦方向の長さをhとした場合に、ヒストグラムの画像位置は(hx,hy)で表わされ、ヒストグラムの横方向の長さはhw、ヒストグラムの縦方向の長さはhhで表わされる。また、サンプル画像15の横方向の長さはfw、サンプル画像15の縦方向のfhで表わされる。また、図7(a)に示すように補正画像14の横方向の長さはiw、補正画像14の縦方向の長さはihで表わされる。
式(4)において、h(x)はヒストグラムの横方向の黒画素数を示し、h(y)はヒストグラムの縦方向の黒画素数を示す。
式(5)では、ヒストグラムの縦方向の黒画素数h(y)が閾値THhistより大きく、ヒストグラムの横方向の幅Wが閾値THWより大きいことを条件としている。
なお、上述した式(5)の条件に限られることなく、ヒストグラムの横方向の黒画素数h(x)が閾値より大きく、ヒストグラムの縦方向の幅が閾値より大きいことを条件としてもよい。
・参考文献2
森稔、澤木美奈子、萩田紀博、村瀬洋、武川直樹、「ランレングス補正を用いた画質劣化にロバストな特徴抽出」、電子情報通信学会論文誌D Vol J86-D2 No.7,pp.1049-1057,July.2003.
この実施の形態2では、実施の形態1で示した文字領域の抽出に加えて、帳票を認識するためにあらかじめ帳票内に設けられたマーカを抽出し、抽出した文字領域あるいはマーカを用いて帳票識別子領域を検出し、帳票を識別する構成を示す。
図9は、実施の形態2の帳票識別装置の構成を示すブロック図である。
実施の形態2の帳票識別装置20は、図1で示した実施の形態1の帳票識別装置10にマーカ抽出部7を追加して設け、文字認識部4に替えてID領域検出部(識別子領域検出部)8を設けている。なお以下では、実施の形態1による帳票識別装置10の構成要素と同一または相当する部分には、図1で使用した符号と同一の符号を付して説明を省略または簡略化する。
図10(a)で示した各ヒストグラム21a,21b,21cについて、ID領域検出部8はピーク位置およびヒストグラムの大きさを算出する。算出したピーク位置およびヒストグラムの大きさが図12(b)に示すように線分21d,21e,21fで表わされる。当該線分21d,21e,21fとサンプル画像中のヒストグラムの線分とを比較することにより、ヒストグラムの類似度αを算出する。
図11は、実施の形態2による帳票識別装置のID認識部が読み取るIDの一例を示す図である。図11(a)はIDが数字で示されている場合を示し、図11(b)はIDが棒の本数で示されている場合を示している。
図12は、実施の形態2の帳票識別装置の動作を示すフローチャートである。なお、以下では実施の形態1に係る帳票識別装置10と同一のステップには図5で使用した符号と同一の符号を付し、説明を省略または簡略化する。
ステップST5において画像補正部2が画像補正を行うと、文字領域抽出部3は補正画像に対してステップST6からステップST8の処理を行い、ヒストグラム生成および文字領域の抽出を行う。また、ステップST6からステップST8の処理と並列して、マーカ抽出部7は補正画像に対してマーカおよびマーカ位置の抽出を行う(ステップST21)。
一方、類似度βが高い場合(類似度α<類似度β)にはマーカにおいて正確に位置合わせができたものとして、マーカ位置を用いて入力画像の文字位置(ctx,cty)を決定する。
式(6)において、(fx,fy)はサンプル画像上で位置合わせに用いる特徴点の位置を示し、(ctx,cty)は入力画像の文字位置を示す。
式(9)において、sw,shはサンプル画像中のID領域の縦横の長さを示し、IDw,IDhは入力画像中のID領域の縦横の長さを示す。
なお、ID領域のIDが数字などの文字で構成されている場合、例えば上述した参考文献2の手法を適用してIDを認識することができる。
Claims (6)
- 帳票の画像データから前記帳票を識別する帳票識別装置において、
あらかじめ記憶したサンプル画像内に設定された領域と、前記帳票の画像データの画像サイズに基づいて、前記帳票の画像データに黒画素の発生頻度を示すヒストグラムを生成する領域を設定し、当該設定した領域内で前記帳票の画像データから前記ヒストグラムを生成し、生成したヒストグラムに基づいて文字領域を抽出する文字領域抽出部と、
前記文字領域抽出部が抽出した文字領域に含まれる文字列を認識する文字認識部と、
あらかじめ文字列と帳票の識別子とを対応付けて記憶した帳票認識情報を参照し、前記文字認識部が認識した文字列に対応する前記帳票の識別子を取得し、前記帳票を識別する識別子認識部とを備えたことを特徴とする帳票識別装置。 - 前記文字領域抽出部は、前記生成したヒストグラムの黒画素数および前記生成したヒストグラムの幅に基づいて、前記文字領域を抽出することを特徴とする請求項1記載の帳票識別装置。
- 帳票の画像データから前記帳票を識別する帳票識別装置において、
前記帳票の画像データから特徴点および当該特徴点の位置情報を抽出する特徴点抽出部と、
前記帳票の画像データからマーカおよび当該マーカの位置情報を抽出するマーカ抽出部と、
前記特徴点抽出部が抽出した前記特徴点の位置情報とあらかじめ記憶したサンプル画像中の特徴点の位置情報とを比較すると共に、前記マーカ抽出部が抽出した前記マーカの位置情報と前記サンプル画像中のマーカの位置情報とを比較し、より近似する位置情報を有する前記特徴点あるいは前記マーカを用いて前記帳票の画像データから前記帳票の識別子を含む識別子領域を検出する識別子領域検出部と、
前記識別子領域検出部が検出した前記識別子領域から前記帳票の識別子を取得し、前記帳票を識別する識別子認識部とを備えたことを特徴とする帳票識別装置。 - 前記特徴点抽出部は、前記帳票の画像データに含まれる文字領域あるいは罫線を前記特徴点として抽出することを特徴とする請求項3記載の帳票識別装置。
- 帳票の画像データから前記帳票を識別する帳票識別方法において、
文字領域抽出手段が、あらかじめ記憶したサンプル画像内に設定された領域と、前記帳票の画像データの画像サイズに基づいて、前記帳票の画像データに黒画素の発生頻度を示すヒストグラムを生成する領域を設定し、当該設定した領域内で前記帳票の画像データから前記ヒストグラムを生成し、生成したヒストグラムに基づいて文字領域を抽出するステップと、
文字認識手段が、前記抽出した文字領域に含まれる文字列を認識するステップと、
識別子認識部が、あらかじめ文字列と帳票の識別子とを対応付けて記憶した帳票認識情報を参照し、前記認識した文字列に対応する前記帳票の識別子を取得し、前記帳票を識別するステップとを備えたことを特徴とする帳票識別方法。 - 帳票の画像データから前記帳票を識別する帳票識別方法において、
特徴点抽出手段が、前記帳票の画像データから特徴点および当該特徴点の位置情報を抽出するステップと、
マーカ抽出手段が、前記帳票の画像データからマーカおよび当該マーカの位置情報を抽出するステップと、
識別子領域検出手段が、前記特徴点の位置情報とあらかじめ記憶したサンプル画像中の特徴点の位置情報とを比較すると共に、前記マーカの位置情報と前記サンプル画像中のマーカの位置情報とを比較し、より近似する位置情報を有する前記特徴点あるいは前記マーカを用いて前記帳票の画像データから前記帳票の識別子を含む識別子領域を検出するステップと、
識別子認識手段が、前記識別子領域から前記帳票の識別子を取得し、前記帳票を識別するステップとを備えたことを特徴とする帳票識別方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013258863A JP6138038B2 (ja) | 2013-12-16 | 2013-12-16 | 帳票識別装置および帳票識別方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013258863A JP6138038B2 (ja) | 2013-12-16 | 2013-12-16 | 帳票識別装置および帳票識別方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015115025A JP2015115025A (ja) | 2015-06-22 |
JP6138038B2 true JP6138038B2 (ja) | 2017-05-31 |
Family
ID=53528714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013258863A Active JP6138038B2 (ja) | 2013-12-16 | 2013-12-16 | 帳票識別装置および帳票識別方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6138038B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447522A (zh) * | 2015-11-25 | 2016-03-30 | 成都数联铭品科技有限公司 | 一种复杂图像文字识别*** |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3469345B2 (ja) * | 1995-03-16 | 2003-11-25 | 株式会社東芝 | 画像のファイリング装置及びファイリング方法 |
JP4416890B2 (ja) * | 1999-12-20 | 2010-02-17 | 富士通株式会社 | 帳票識別装置 |
US6778703B1 (en) * | 2000-04-19 | 2004-08-17 | International Business Machines Corporation | Form recognition using reference areas |
JP2009025856A (ja) * | 2007-07-17 | 2009-02-05 | Hitachi Computer Peripherals Co Ltd | 帳票識別プログラム及び帳票識別装置 |
JP2010009168A (ja) * | 2008-06-25 | 2010-01-14 | Ricoh Co Ltd | 画像処理装置、画像処理方法、および画像処理プログラム |
JP5187057B2 (ja) * | 2008-08-07 | 2013-04-24 | 株式会社リコー | レイアウト印刷システム、レイアウト文書閲覧方法、及びプログラム |
-
2013
- 2013-12-16 JP JP2013258863A patent/JP6138038B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015115025A (ja) | 2015-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020119301A1 (zh) | 二维码识别方法、装置及设备 | |
US8548201B2 (en) | Apparatus and method for recognizing identifier of vehicle | |
US8170368B2 (en) | Correcting device and method for perspective transformed document images | |
US9269155B2 (en) | Region growing method for depth map/color image | |
JP5934762B2 (ja) | 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置 | |
US9858477B2 (en) | Character segmenting apparatus, character recognition apparatus, and character segmenting method | |
US20120087590A1 (en) | Feature point location determination method and apparatus | |
US9613299B2 (en) | Method of identifying pattern training need during verification of recognized text | |
US20120106784A1 (en) | Apparatus and method for tracking object in image processing system | |
JP2006067585A (ja) | デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 | |
US9251430B2 (en) | Apparatus, method, and program for character recognition using minimum intensity curve of image data | |
JP2010039788A (ja) | 画像処理装置及びその方法並びに画像処理プログラム | |
CN113011426A (zh) | 一种识别证件的方法和装置 | |
JP2009129237A (ja) | 画像処理装置及びその方法 | |
JP2008251029A (ja) | 文字認識装置、ナンバープレート認識システム | |
US20130050765A1 (en) | Method and apparatus for document authentication using image comparison on a block-by-block basis | |
EP3522115A1 (en) | Medium recognition device and medium recognition method | |
JP6138038B2 (ja) | 帳票識別装置および帳票識別方法 | |
JP6434718B2 (ja) | 顔画像認識装置及び顔画像認識プログラム | |
JP6772059B2 (ja) | 電子制御装置、電子制御システムおよび電子制御方法 | |
JP2006323779A (ja) | 画像処理方法、画像処理装置 | |
KR20150099116A (ko) | Ocr를 이용한 컬러 문자 인식 방법 및 그 장치 | |
KR101954812B1 (ko) | 필적 인식 장치 및 방법 | |
JP5761353B2 (ja) | 隆線方向抽出装置、隆線方向抽出方法、隆線方向抽出プログラム | |
KR101437286B1 (ko) | 디지털 컨텐츠 식별 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170328 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170425 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6138038 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |