JP2003162689A - 類似文字認識プログラムおよび類似文字認識方法 - Google Patents

類似文字認識プログラムおよび類似文字認識方法

Info

Publication number
JP2003162689A
JP2003162689A JP2001360520A JP2001360520A JP2003162689A JP 2003162689 A JP2003162689 A JP 2003162689A JP 2001360520 A JP2001360520 A JP 2001360520A JP 2001360520 A JP2001360520 A JP 2001360520A JP 2003162689 A JP2003162689 A JP 2003162689A
Authority
JP
Japan
Prior art keywords
character
image
recognized
similar
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001360520A
Other languages
English (en)
Inventor
Koji Kurokawa
浩司 黒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001360520A priority Critical patent/JP2003162689A/ja
Publication of JP2003162689A publication Critical patent/JP2003162689A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 本発明は、認識対象の文字から読み取ったイ
メージをもとに文字を認識する類似文字認識プログラム
および文字認識方法に関し、認識対象の類似文字につい
て、基準線と矩形の位置情報や1文字を構成する矩形の
情報などをもとに変換候補にあるときに該当文字に変換
し、判定条件を多くして類似文字の認識率を向上させる
ことを目的とする。 【解決手段】 認識対象の文字から読み取ったイメージ
をもとに文字認識して候補を生成する手段と、読み取っ
た認識対象の文字イメージが基準線よりも下にあり、か
つ候補中に文字jが含まれていたときに文字jと判定す
る手段と、読み取った認識対象の、1つの文字に対応す
る文字イメージが2つ以上に分離し、かつ候補中に文字
iが含まれていたときに文字iと判定する手段としてコ
ンピュータに機能させるための類似文字認識プログラム
および類似文字認識方法である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、認識対象の文字か
ら読み取ったイメージをもとに文字を認識する類似文字
認識プログラムおよび類似文字認識方法に関するもので
ある。
【0002】
【従来の技術】従来、英宇類似文字識別は、図5の
(a)に示すように、文字矩形が基準線(文字の下接
線)の上にあるかどうか、一文字がいくつの矩形から構
成されているかなどの特徴により、類似文字の変換を行
っている。例えば、「i」と「j」の判別時には、文字
矩形が基準線(図5の(a−)参照)よりも下にあった
場合は、「j」とし、「i」と「1」(エル)の判別時
には,図5の(a−2)のように1文字矩形内で矩形が
分離している場合は「i」とし、図5の(a−3)のよ
うに1文字矩形が分離していない場合には「j」とす
る、などの単純な変換を行っていた。
【0003】また、対象文字の周辺文字の属性を判定
し、周辺文字と同じ属性の文字に対象文字を変換する。
例えば、「1」(数字のイチ)「1」(エル)の判別時
には前後幾つかの文字が英字なのか数字なのかを調査
し、数字であつた場合は「1」(イチ)に、英字であつ
た場合は「1」(エル)に変換するようにしていた。
【0004】
【発明が解決しようとする課題】このため、入力画像が
図5の(b)に示すような劣化画像であつた場合の文字
形状の変化には対応できないという問題があった。
【0005】また、一文字矩形の位置、数などの情報に
よる類似文字の変換では、ある程度良好な変換結果を得
られるが、誤変換が多く実用的ではないという問題があ
った。
【0006】また、従来の上述した手法では、判定条件
が少ないため、1文字矩形が同位置、同数の場合には変
換が行えないなどの問題があった。例えば英宇内での類
似文字は全て属性が英字となってしまい、英宇内の類似
文字識別には不向きであるという問題もあった。
【0007】本発明は、これらの問題を解決するため、
認識対象の類似文字について、基準線と矩形の位置情報
や1文字を構成する矩形の情報などをもとに変換候補に
あるときに該当文字に変換し、判定条件を多くして類似
文字の認識率を向上させることを目的としている。
【0008】
【課題を解決するための手段】図1を参照して課題を解
決するための手段を説明する。
【0009】図1において、文字認識システム1は、認
識対象の文字から読み取ったイメージをもとに文字を認
識するものであって、文字認識手段2および類似文字認
識手段3などから構成されるものである。
【0010】文字認識手段2は、認識対象の文字から読
み取ったイメージについて、文字認識辞書4を検索して
文字認識して候補を生成するものである。
【0011】類似文字認識手段3は、読み取った1文字
に対応するイメージをもとに、類似文字を判定するもの
である。
【0012】次に、動作を説明する。文字認識システム
1を構成する文字認識手段2が認識対象の文字から読み
取ったイメージについて文字認識辞書4を検索して文字
認識して候補を生成し、類似文字認識手段3は読み取っ
た認識対象の文字イメージが基準線よりも下にあり、か
つ候補中に文字jが含まれていたときに文字jと判定し
たり、読み取った認識対象の、1つの文字に対応する文
字イメージが2つ以上に分離し、かつ候補中に文字iが
含まれていたときに文字iと判定するようにしている。
【0013】この際、読み取った認識対象の、1つの文
字に対応するイメージが分離していないのに、候補中に
文字l(エル)が含まれているときに文字l(エル)と
判定するようにしている。
【0014】従って、認識対象の類似文字について、基
準線と矩形の位置情報や1文字を構成する矩形の情報な
どをもとに変換候補にあるときに該当文字に変換するこ
とにより、判定条件を多くして類似文字の認識率を向上
させることが可能となる。
【0015】
【発明の実施の形態】次に、図1から図4を用いて本発
明の実施の形態および動作を順次詳細に説明する。
【0016】図1は、本発明のシステム構成図を示す。
図1において、文字認識システム1は、プログラムに従
い各種処理を実行するものであって、ここでは、認識対
象の文字から読み取ったイメージをもとに文字を認識す
るものであり、文字認識手段2および類似文字認識手段
3などから構成されるものである。
【0017】文字認識手段2は、画像入力装置6によっ
て書類などから読み取った認識対象の文字のイメージに
ついて、文字認識辞書4を検索して文字認識して候補を
生成するものである。
【0018】類似文字認識手段3は、読み取った1文字
に対応するイメージをもとに、類似文字を判定するもの
である。
【0019】文字認識辞書4は、文字認識する情報(イ
メージに対応する文字情報)を登録したものである。
【0020】出力ファイル5は、認識結果を格納するも
のである。画像入力装置6は、書類に印刷された認識対
象の文字のイメージを読み取るものであって、スキャナ
などである。
【0021】出力装置7は、認識した結果を出力するも
のであって、表示装置や印刷装置などである。
【0022】次に、図2のフローチャートの順番に従
い、図3および図4を用い、図1の構成について詳細に
説明する。
【0023】図2は、本発明の動作説明フローチャート
を示す。図2において、S1は、画像入力装置で読取
後、文字認識する。これは、図1の画像入力装置である
例えばスキャナが書類に印刷された認識対象の文字のイ
メージを読み取り、読み取ったイメージについて文字認
識辞書4を検索して文字認識を行う。この際、後の処理
で使う、文字イメージの基準線を求めて保存しておく。
これらにより、書類から認識対象の文字のイメージを読
み取り、当該イメージをもとに文字認識辞書4を検索し
て候補文字を生成できたこととなる。
【0024】S2は、認識結果が ・I(アイ) ・1(エル) ・j ・i であった文字について以下の処理を行う。
【0025】S3は、基準線よりも下に文字矩形がある
か判別する。YESの場合には、S31に進む。NOの
場合には、S4に進む。
【0026】S31は、候補内に「j」があるか判別す
る。YESの場合には、S32で「j」と判定する。N
Oの場合には、S4に進む。
【0027】以上のS2、S3,S31,S32からな
る処理1で、基準線よりも下に文字矩形があり、かつ候
補内に「j」があったときに、文字「j」と判定し、認
識条件を多くして認識精度を向上させることが可能とな
る(詳細は、後述する図3の処理1詳細を参照)。
【0028】次に、S4は、認識結果が確からしいか判
別する。YESの場合には、確からしい文字と判定す
る。文字認識結果として、例えば正読率が80%以上の
場合に、このときの認識した文字と判定する。NOの場
合には、S5に進む。
【0029】以上のS4からなる処理2で、処理1の後
に認識結果が確からしい(正読率が例えば80%以上)
のときに当該認識結果と判定することが可能となる(詳
細は、後述する図3の処理2詳細を参照)。
【0030】S5は、認識結果の1文字矩形が2つ以上
に分離しているか判別する。YESの場合には、S51
に進む。NOの場合には、S6に進む。
【0031】S51は、更に、候補内に「i」があるか
判別する。YESの場合には、S5で「i」と判定す
る。NOの場合には、S6に進む。
【0032】以上のS5、S51,S52からなる処理
3で、認識結果の1文字矩形が2つ以上に分離し、かつ
候補内に「i」があったときに、文字「i」と判定し、
認識条件を多くして認識精度を向上させることが可能と
なる(詳細は、後述する図3の処理3詳細を参照)。
【0033】S6は、候補内に「f」または「t」があ
るか判別する。YESの場合には、S61で「f」また
は「t」と判定する。NOの場合には、S7に進む。
【0034】以上のS6、S61からなる処理4で、認
識結果内に「f」または「t」があったときに当該
「f」または「t」と判定することが可能となる。
【0035】S7は、矩形は分離していないのに、認識
結果が「i」であるか判別する。YESの場合には、S
71に進む。NOの場合には、S8に進む。
【0036】S71は、更に、候補内に「l」(エル)
があるか判別する。YESの場合には、S72で「l」
(エル)と判定する。NOの場合には、S8に進む。
【0037】以上のS7、S71、S72からなる処理
5で、1文字矩形が分離していないのに認識結果に
「l」(エル)がある場合に、「l」(エル)と判定す
ることが可能となる。
【0038】S8は、以上の処理1から処理5で判定し
た結果を出力する。以上のS1からS7などの手順を順
に実行することにより、認識した候補について、更に、
多くの条件を順次適用し、これら条件に適合した文字を
判定することにより、多くの条件で認識判定して認識精
度を向上させることが可能となる。
【0039】図3および図4は、本発明の説明図を示
す。これら図3および図4中の処理1詳細から処理5詳
細は、既述した図2のフローチャート中の処理1詳細か
ら処理5詳細の具体例をそれぞれ示す。
【0040】・処理1詳細:左側の文字矩形の場合であ
って、かつ、 ・図2のS31のYESの例は、 ・第1候補 i ・第2候補 j であり、S32で判定結果「j」となる。
【0041】・図2のS31のNOの例は、 ・第1候補 i ・第2候補 l であり、S4へ進む。
【0042】・処理2詳細:左側の文字矩形の場合であ
って、かつ、 ・図2のS4のYESの例は、 ・第1候補 i 正読確率80% ・第2候補 j 正読確率50% であり、判定結果「i」となる。
【0043】・図2のS4のNOの例は、 ・第1候補 i 正読確率50% ・第2候補 j 正読確率40% であり、S5へ進む。
【0044】・処理3詳細:左側の文字矩形の場合であ
って、かつ、 ・図2のS51のYESの例は、 ・第1候補 j 正読確率70% ・第2候補 i 正読確率50% であり、S52で判定結果「i」となる。
【0045】・図2のS51のNOの例は、 ・第1候補 j 正読確率70% ・第2候補 l 正読確率50% であり、候補に「i」ないので、S6へ進む。
【0046】・処理4詳細: ・図2のS6のYESの例は、 ・第1候補 i ・第2候補 t であり、S61で判定結果「t」となる。
【0047】・図2のS6のYESの例2は、 ・第1候補 i ・第2候補 f であり、S61で判定結果「f」となる。
【0048】・図2のS6のNOの例は、 ・第1候補 i ・第2候補 l であり、t,fがなく、S7へ進む。
【0049】・処理5詳細:左側の文字矩形の場合であ
って、かつ、 ・図2のS71のYESの例は、 ・第1候補 i ・第2候補 l(エル) であり、S72で判定結果「l」(エル)となる。
【0050】・図2のS31のNOの例は、 ・第1候補 i ・第2候補 j であり、S8ヘ進む。
【0051】
【発明の効果】以上説明したように、本発明によれば、
認識対象の類似文字について、基準線と矩形の位置情報
や1文字を構成する矩形の情報などをもとに変換候補に
あるときに該当文字に変換などする構成を採用している
ため、判定条件を多くして類似文字の認識率を向上させ
ることが可能となる。
【図面の簡単な説明】
【図1】本発明のシステム構成図である。
【図2】本発明の動作説明フローチャートである。
【図3】本発明の説明図(その1)である。
【図4】本発明の説明図(その2)である。
【図5】従来技術の説明図である。
【符号の説明】
1:文字認識システム 2:文字認識手段 3:類似文字判定手段 4:文字認識辞書 5:出力ファイル 6:画像入力装置 7:出力装置

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】認識対象の文字から読み取ったイメージを
    もとに文字を認識する類似文字認識プログラムにおい
    て、 認識対象の文字から読み取ったイメージをもとに文字認
    識して候補を生成する手段と、 上記読み取った認識対象の文字イメージが基準線よりも
    下にあり、かつ上記候補中に文字jが含まれていたとき
    に文字jと判定する手段と、 上記読み取った認識対象の、1つの文字に対応する文字
    イメージが2つ以上に分離し、かつ上記候補中に文字i
    が含まれていたときに文字iと判定する手段としてコン
    ピュータに機能させるための類似文字認識プログラム。
  2. 【請求項2】上記読み取った認識対象の、1つの文字に
    対応するイメージが分離していないのに、上記候補中に
    文字l(エル)が含まれているときに文字l(エル)と
    判定する手段を備えたことを特徴とする請求項1記載の
    類似文字認識プログラム。
  3. 【請求項3】認識対象の文字から読み取ったイメージを
    もとに文字を認識する類似文字認識方法において、 認識対象の文字から読み取ったイメージをもとに文字認
    識して候補を生成するステップと、 上記読み取った認識対象の文字イメージが基準線よりも
    下にあり、かつ上記候補中に文字jが含まれていたとき
    に文字jと判定するステップと、 上記読み取った認識対象の、1つの文字に対応する文字
    イメージが2つ以上に分離し、かつ上記候補中に文字i
    が含まれていたときに文字iと判定するステップとを有
    する類似文字認識方法。
JP2001360520A 2001-11-27 2001-11-27 類似文字認識プログラムおよび類似文字認識方法 Withdrawn JP2003162689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001360520A JP2003162689A (ja) 2001-11-27 2001-11-27 類似文字認識プログラムおよび類似文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001360520A JP2003162689A (ja) 2001-11-27 2001-11-27 類似文字認識プログラムおよび類似文字認識方法

Publications (1)

Publication Number Publication Date
JP2003162689A true JP2003162689A (ja) 2003-06-06

Family

ID=19171310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001360520A Withdrawn JP2003162689A (ja) 2001-11-27 2001-11-27 類似文字認識プログラムおよび類似文字認識方法

Country Status (1)

Country Link
JP (1) JP2003162689A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516105A (zh) * 2017-07-20 2017-12-26 阿里巴巴集团控股有限公司 图像处理方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516105A (zh) * 2017-07-20 2017-12-26 阿里巴巴集团控股有限公司 图像处理方法及装置
WO2019015645A1 (zh) * 2017-07-20 2019-01-24 阿里巴巴集团控股有限公司 图像处理方法及装置
CN107516105B (zh) * 2017-07-20 2020-06-16 阿里巴巴集团控股有限公司 图像处理方法及装置
US10769490B2 (en) 2017-07-20 2020-09-08 Alibaba Group Holding Limited Image processing methods and devices
US11093792B2 (en) 2017-07-20 2021-08-17 Advanced New Technologies Co., Ltd. Image processing methods and devices

Similar Documents

Publication Publication Date Title
JP4311365B2 (ja) 文書処理装置およびプログラム
US20060045340A1 (en) Character recognition apparatus and character recognition method
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
US20210075919A1 (en) Image processing apparatus, image processing system, image processing method, and storage medium
US20210073535A1 (en) Information processing apparatus and information processing method for extracting information from document image
JP5661549B2 (ja) 帳票上の文字を認識する文字認識装置、マスク処理方法、および、マスク処理プログラム
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
JP2022095391A (ja) 情報処理装置、及び情報処理プログラム
JP2012173959A (ja) 文字認識装置及びプログラム
JP2008282094A (ja) 文字認識処理装置
JP5353325B2 (ja) 文書データ生成装置と文書データ生成方法
JP4807618B2 (ja) 画像処理装置及び画像処理プログラム
JP2020087112A (ja) 帳票処理装置および帳票処理方法
JP2003162689A (ja) 類似文字認識プログラムおよび類似文字認識方法
US20210019554A1 (en) Information processing device and information processing method
US9224040B2 (en) Method for object recognition and describing structure of graphical objects
US9015573B2 (en) Object recognition and describing structure of graphical objects
JP2020047138A (ja) 情報処理装置
JPH07319880A (ja) キーワード抽出・検索装置
JP2002366893A (ja) 帳票認識方法
JP2006134079A (ja) 画像処理装置及びプログラム
JPH08287188A (ja) 文字列認識装置
US20240193217A1 (en) Information processing apparatus, method of controlling information processing apparatus, and storage medium
JPH08101880A (ja) 文字認識装置
JP2002207960A (ja) 認識文字修正方法及び認識文字修正プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050201