JP5630689B2 - 文字認識方法及び文字認識装置 - Google Patents
文字認識方法及び文字認識装置 Download PDFInfo
- Publication number
- JP5630689B2 JP5630689B2 JP2010130613A JP2010130613A JP5630689B2 JP 5630689 B2 JP5630689 B2 JP 5630689B2 JP 2010130613 A JP2010130613 A JP 2010130613A JP 2010130613 A JP2010130613 A JP 2010130613A JP 5630689 B2 JP5630689 B2 JP 5630689B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- similarity
- separation
- threshold
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
図1は、本発明の実施の形態に係る文字認識装置1の電気的構成を示すブロック図である。
図2は、本発明の実施の形態に係る文字認識方法を示すフローチャートである。
図3は、記録媒体2の文字記憶領域2A(図1参照)に印刷された文字列を撮像したときの二値画像データを示す図である。
その結果、図9に示すように、25個の特徴量を生成することができる。例えば、図9中の右上(符号ax)の0.90909は、図7の部分領域axに対応した図8中の右上の部分領域axにおいて、0(黒画素)の数(30個)を、0(黒画素)と255(白画素)の総数(33個)で割った値となる(30÷33≒0.90909)。なお、このステップS3は、領域にある認識対象文字の特徴ベクトルを抽出する「特徴抽出ステップ」の一例に相当する。
分離処理部13hによる分離処理が行われる(ステップS7)。文字認識部13dで(認識対象)文字との類似度を算出し判定部13fで判定するが、類似度が第一位と第二位の複数の候補文字が、各類似度が共に類似度閾値をクリアし、かつ、両者が接近している場合などには、候補文字を特定することができず判定ができないので、それらを(認識対象)文字に対して分離する処理を行う。このような候補文字として、例えば、数字「0(ゼロ)」とアルファベットの「O(オー)」や、アルファベットの小文字「l(エル)」とアルファベットの大文字「I(アイ)」などがある。なお、このステップS7は、候補文字が複数であった場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価する分離評価値を求める「分離処理ステップ」の一例に相当する。
図2のフローチャートに戻り、判定部13fにより、候補文字が抽出されなかった場合、再二値化処理が必要と判断され(ステップS5:NO)、(認識対象)文字について、再二値化処理部13gで再二値化処理が実行される(ステップS6)。上述したように、図2のステップS4の文字認識処理において、基準文字「<」に対する類似度が0.902と最大値を与えるため、「<」が該当する文字として決定されることになるが、合理的に決定された第1の二値化閾値による文字画像であっても、文字の形状によっては認識対象文字と基準文字との類似度が類似度閾値に到達しないことがあり得る(上述のように、0.902のような高い類似度が与えられない場合がある)。
これは、例えば、手動走査型スキャナにおける走査速度による幅方向の解像度低下などが原因となって、文字形状が著しく歪んだり、印刷時あるいは使用中に生じた文字のかすれ・欠如が生じていたりするからである。この場合、再二値化するための第2の二値化閾値を求めるのに、たとえば黒点数だけによる方法では、文字のかすれ・欠落などにより、見かけ上濃度が濃くなっている場合でも濃度が濃くなる方向に閾値補正が行われる。そして、欠落以外の部分の文字線が太い場合には、過剰に線が太くなる方向に作用するため、正確な認識が行われなくなってしまう。
以上説明したように本実施形態に係る文字認識方法によれば、記録媒体2の既知の位置に印刷された既知の文字数からなる文字列を、1次元撮像素子11で主走査を行い、手動もしくは機械駆動による記録媒体2移動で副走査を行うようにして、2次元の画像情報に変換し、この画像データを適切に処理することにより文字列の認識を行うようにした文字認識装置1において、記録媒体2を走査した多値画像を二値化するステップ(図2のステップS1)と、(認識対象)文字に外接する外接矩形領域を求め、外接矩形領域内の特徴量を抽出するステップ(図2のステップS2,ステップS3)と、基準特徴量との類似度を算出するステップ(図2のステップS4)と、類似度を類似度閾値と比較して第一の文字判定するステップ(図2のステップS5)と、その判定結果に基づいて、候補文字が複数であった場合に、これら複数の候補文字それぞれと(認識対象)文字と分離評価する分離評価値を求め、その分離評価値を分離評価閾値と比較して候補文字を判定する(図2のステップS7)ことで構成することで、第一の文字判定で候補文字の判定によって区別できなかったものについて、別の特徴量(分離評価値)による判定を行うことができ、認識結果に対する信頼性を高めることができる。
同様に、分離処理ステップ(図2のステップS7)で、判別できなかった(認識対象)文字について、再二値化処理部13gに出力し、再二値化処理を行うことにより、再二値化で求めた(認識対象)文字と、類似度が近似した基準文字との分離精度を高めることができ、ひいては認識結果に対する信頼性を高めることができる。
また、上述した分離条件格納部13jでは、数字「0(ゼロ)」とアルファベット文字「O(オー)」と、類似度が近似する2つの候補文字での分離評価を行ったが、3つの候補文字等、数字「6」と「8」とアルファベット文字「B」の類似度が近似した候補文字の計算式も格納されている。例えば、図15に示すように、5×5分割された領域の右上の値DA'、その下の値DB'、中央の値DC'、左下の値DD'を用いて、図16(a)に示す計算式で分離評価値を算出する(図11のステップS11)。この分離評価値は、候補文字「6」で小さくなる一方、候補文字「B」で大きくなる。そこで、判別論理を図16(b)及び図16(c)に示すようにする(図11のステップS12)。図16(b)中のK1'及びK2'は、分離評価閾値であり、実験的に求めることが可能である。K1'とK2'に挟まれた範囲にあるときは、候補文字「8」と判定する。
2 記録媒体
11 撮像素子
12 画像メモリ
13 データ処理部
13a 二値化処理部
13b 文字切出し部
13c 特徴抽出部
13d 文字認識部
13e 特徴辞書格納部
13f 判定部
13g 再二値化処理部
13h 分離処理部
13i 文字出力部
13j 分離条件格納部
Claims (2)
- 媒体を撮像して得られた画像データを二値化する二値化処理ステップと、
二値化された画像データから認識対象文字を含む領域を求める文字切出しステップと、
前記領域にある認識対象文字の特徴ベクトルを抽出する特徴抽出ステップと、
前記特徴抽出ステップで抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する類似度算出ステップと、
前記類似度算出ステップで算出した複数の類似度を類似度閾値と比較して候補文字を判定する第一の文字判定ステップと、
前記第一の文字判定ステップに基づいて、複数の候補文字の各類似度が共に前記類似度閾値をクリアしている場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価するために、n×mの分割領域に分けられた前記領域にある少なくとも二以上の分割領域における特徴ベクトルの組み合わせによって分離評価値を求める分離処理ステップと、
前記分離評価値それぞれを所定の分離評価閾値と比較し、前記分離評価値と前記所定の分離評価閾値との大小関係によって候補文字を判定する第二の文字判定ステップと、を含むことを特徴とする文字認識方法。 - 媒体を撮像して得られた画像データを二値化する二値化処理部と、
二値化された画像データから認識対象文字を含む領域を求める文字切出し部と、
前記領域にある認識対象文字の特徴ベクトルを抽出する特徴抽出部と、
前記特徴抽出部で抽出した特徴ベクトルを複数の基準文字ごとに所与の基準特徴ベクトルそれぞれと比較し、各基準特徴ベクトルとの類似度を算出する文字認識部と、
前記文字認識部で算出した複数の類似度を類似度閾値と比較して候補文字を判定する判定部と、
前記判定部に基づいて、複数の候補文字の各類似度が共に前記類似度閾値をクリアしている場合に、これら複数の候補文字それぞれと前記認識対象文字と分離評価するために、n×mの分割領域に分けられた前記領域にある少なくとも二以上の分割領域における特徴ベクトルの組み合わせによって分離評価値を求めるとともに、前記分離評価値それぞれを所定の分離評価閾値と比較し、前記分離評価値と前記所定の分離評価閾値との大小関係によって候補文字を判定する分離処理部と、を備えたことを特徴とする文字認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010130613A JP5630689B2 (ja) | 2010-06-08 | 2010-06-08 | 文字認識方法及び文字認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010130613A JP5630689B2 (ja) | 2010-06-08 | 2010-06-08 | 文字認識方法及び文字認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011257896A JP2011257896A (ja) | 2011-12-22 |
JP5630689B2 true JP5630689B2 (ja) | 2014-11-26 |
Family
ID=45474031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010130613A Expired - Fee Related JP5630689B2 (ja) | 2010-06-08 | 2010-06-08 | 文字認識方法及び文字認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5630689B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7312183B2 (ja) | 2018-02-02 | 2023-07-20 | ウエスチングハウス・エレクトリック・カンパニー・エルエルシー | 原子燃料の破損防止方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017033205A (ja) * | 2015-07-31 | 2017-02-09 | 富士通フロンテック株式会社 | 記載内容認識システム、記載内容認識方法、及び記載内容認識プログラム |
CN109978078B (zh) * | 2019-04-10 | 2022-03-18 | 厦门元印信息科技有限公司 | 字体版权检测方法、介质、计算机设备及装置 |
CN111783765B (zh) * | 2020-07-10 | 2024-03-22 | 上海淇毓信息科技有限公司 | 一种识别图像字符的方法、装置和电子设备 |
CN112699886B (zh) * | 2020-12-30 | 2024-06-11 | 广东德诚科教有限公司 | 一种字符识别方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5949630B2 (ja) * | 1977-03-28 | 1984-12-04 | 株式会社日立製作所 | パタ−ン認識装置 |
JP5334042B2 (ja) * | 2008-11-23 | 2013-11-06 | 日本電産サンキョー株式会社 | 文字列認識方法及び文字列認識装置 |
-
2010
- 2010-06-08 JP JP2010130613A patent/JP5630689B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7312183B2 (ja) | 2018-02-02 | 2023-07-20 | ウエスチングハウス・エレクトリック・カンパニー・エルエルシー | 原子燃料の破損防止方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2011257896A (ja) | 2011-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5334042B2 (ja) | 文字列認識方法及び文字列認識装置 | |
JP5591578B2 (ja) | 文字列認識装置および文字列認識方法 | |
CN103914858B (zh) | 文档图像压缩方法及其在文档认证中的应用 | |
US9158986B2 (en) | Character segmentation device and character segmentation method | |
US7949187B2 (en) | Character string recognition method and device | |
US8462394B2 (en) | Document type classification for scanned bitmaps | |
US9977957B2 (en) | Method and system for identifying characters on a valuable medium | |
JP6268023B2 (ja) | 文字認識装置およびその文字切り出し方法 | |
KR20070081410A (ko) | 이차원 코드 검출 시스템 및 이차원 코드 검출 프로그램 | |
JP6487255B2 (ja) | 文字切り出し装置、文字認識装置、および文字切り出し方法 | |
JP6171167B2 (ja) | 文字認識装置、文字認識方法、及び文字認識プログラム | |
JP4945739B2 (ja) | 文字列認識方法及び文字列認識装置 | |
JP5630689B2 (ja) | 文字認識方法及び文字認識装置 | |
JP5011508B2 (ja) | 文字列認識方法及び文字列認識装置 | |
KR100726473B1 (ko) | 이미지 분별 장치 및 그 방법 | |
CN116469090A (zh) | 喷码图案的检测方法、装置、电子设备和存储介质 | |
JP5041775B2 (ja) | 文字切出方法及び文字認識装置 | |
JP2007060417A (ja) | 図形認識方法 | |
KR101070051B1 (ko) | 도트 패턴에서 불변 영역을 인식하는 방법 | |
JP6039944B2 (ja) | 帳票種類判別装置および帳票種類判別方法 | |
JPH0877293A (ja) | 文字認識装置および文字認識用辞書作成方法 | |
Choudhary et al. | An efficient algorithm for characters recognition of printed oriya script | |
JPH05166010A (ja) | 文字切出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130509 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140925 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5630689 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |