JP2004258950A - 文字認識方法 - Google Patents

文字認識方法 Download PDF

Info

Publication number
JP2004258950A
JP2004258950A JP2003048531A JP2003048531A JP2004258950A JP 2004258950 A JP2004258950 A JP 2004258950A JP 2003048531 A JP2003048531 A JP 2003048531A JP 2003048531 A JP2003048531 A JP 2003048531A JP 2004258950 A JP2004258950 A JP 2004258950A
Authority
JP
Japan
Prior art keywords
character
character recognition
recognition
unprocessed
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003048531A
Other languages
English (en)
Inventor
Keiko Nakanishi
恵子 中西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003048531A priority Critical patent/JP2004258950A/ja
Publication of JP2004258950A publication Critical patent/JP2004258950A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】住所辞書の文字認識における丁目処理の認識精度を向上する。
【解決手段】文字認識処理装置は、スキャナ、カメラ、ファイル読み込み装置等の画像入力手段を有し、この画像入力手段において帳票等をイメージデータとして読み込む。画像入力手段は入力手段、補助記憶装置、メモリ、出力手段に接続されている。プロセッサは文字認識方法を実行する処理手段であり、メモリに格納された制御プログラムを実行することにより、文字認識手段、住所照合手段、数字判断手段として機能する。
【選択図】 図1

Description

【0001】
【発明が属する技術分野】
本発明は文字認識方法に関する。
【0002】
【従来の技術】
文字認識に関して、帳票などの手書き文字や印刷文字を光学的に読み取る光学式文字読取装置や、入力イメージデータの中から文字を抽出し、認識する光学式文字認識処理方法が知られている。
【0003】
これら装置や処理方法では、入力イメージデータをパターンマッチング法、構造解析法等により文字として認識しているが、認識精度には限界がある。特に、ノイズやばらつきの多い入力データ、例えば手書き文字の場合には、認識精度が低下し、誤認識が発生する。
【0004】
認識対象を限定し、文章、住所、人名等に特化した辞書を使用する文字認識処理方法も採用され、入力データの種類が予め分かっているような場合には認識精度を向上し得る。この文字認識処理方法では、文字単位の認識処理後に、後処理して、入力データの種類に対応する単語辞書、住所辞書、人名辞書等の単語辞書と照合する。
【0005】
住所認識においては、住所辞書との照合後、丁目、番地、号等の住所辞書にないデータとの照合(以後「丁目処理」という)を行う必要がある。
【0006】
住所辞書との照合では、入力データの文字認識で得られた候補文字に対して、住所辞書内の対応する単語を抽出し、丁目処理の対象では、候補文字に数字が含まれるか否かを判定した。
【0007】
【発明が解決しようとする課題】
しかし従来の文字認識方法にでは、ひらがなやカタカナの文字認識において、候補文字として数字が抽出さることが多く、数字に誤認識されることがあった。
従って、従来の丁目処理において、充分な認識精度が得られなかった。
【0008】
本発明はこのような従来の問題点を解消すべく創案されたもので、住所辞書による文字認識における丁目処理の認識精度を向上することを目的とする。
【0009】
【課題を解決するための手段】
上記課題を解決するために、本発明の文字認識方法は、イメージデータを文字認識して文字コードを生成する文字認識ステップと、前記文字コードを住所辞書の単語と照合し、前記文字コードに前記単語を割り当て、前記単語が割り当てられなかった文字コードを未処理文字として残す住所照合ステップと、前記未処理文字が残存するときに、該未処理文字について、数字か否かを判断する数字判断ステップとを備える。
【0010】
【発明の実施の形態】
次に、本発明に係る文字認識方法の一実施形態を図面に基づいて説明する。
【0011】
図1は、本発明に係る文字認識方法の一実施形態が適用された文字認識処理装置を示すブロック図、図2は、図1の文字認識処理装置による文字認識結果の一例を示す図、図3は、本発明に係る文字認識方法の一実施形態を示すフローチャートである。
【0012】
図1において、文字認識処理装置は、スキャナ、カメラ、ファイル読み込み装置等の画像入力手段11を有し、この画像入力手段11において帳票等をイメージデータとして読み込む。
【0013】
画像入力手段11は、バス17を介して、プロセッサ12、キーボード等の入力手段13、ディスク等よりなる補助記憶装置14、メモリ15、ディスプレイ、プリンタ等の出力手段16に接続されている。
【0014】
プロセッサ12は本実施形態の文字認識方法を実行する処理手段であり、メモリ15に格納された制御プログラム15cを実行することにより、文字認識手段12a、住所照合手段12b、数字判断手段12cとして機能する。なお、本実施形態では、後述する図3のフローチャートに示すような本願発明に係る処理をプロセッサ12に実行させるためのコンピュータプログラムは、メモリ15に格納されているものとするが、これに限らず、不図示のネットワークインターフェースを介して他の装置から読み込んで実行するものであってもよいし、また、リムーバブル記憶媒体を介して読み込んで実行するものであっても構わない。
【0015】
文字認識手段12aは、画像入力手段11から入力され、あるいはファイル等の形で入力されたイメージデータを文字データとして認識する。認識処理に際しては、各文字について複数の候補文字を出力する。これによって、誤認識を最小限に抑え得る。なお、文字認識手段での文字認識手法としては、パターンマッチング法、構造解析法など、いずれの種類の認識手法であっても構わない。
【0016】
入力手段13は、文字認識の実行指示、取消指示、候補文字選択指示等の指示操作を行う。
【0017】
メモリ15は、プロセッサ12において処理制御情報を作成する際の一時データ記憶、単語辞書、あるいは画像入力手段11で読み込んだイメージデータを蓄積する。
【0018】
出力手段16は、認識結果等の各種情報を出力する。
【0019】
図3において、本実施形態の文字認識処理方法は以下の各ステップにより実行される。
【0020】
ステップS301:入力手段11により読み取ったイメージデータを、文字認識手段12aによって文字認識し、文字コードに変換する。
【0021】
例えば、図2aに示す手書き文字を入力手段11によって読み取り、文字認識処理すると、図2bのように、1つの文字に対して複数の候補文字が抽出されたものとする。(図2bでは、1つの文字に対して、8個の候補文字を抽出している。)図2bの例では、「シ」に対し、「シ」「ン」「ジ」「7」「プ」「ニ」「ク」「ナ」の候補文字が抽出され、「ン」に対し、「ン」、「シ」、「ジ」、「ニ」、「ク」、「フ」、「プ」、「7」の候補文字が抽出され、「ジ」に対し、「ジ」、「ブ」、「プ」、「ン」、「シ」、「ゾ」、「ヅ」、「ソ」の候補文字が抽出され、「ュ」に対して、「ユ」、「ン」、「エ」、「ヌ」、「グ」、「シ」、「7」、「ナ」の候補文字が抽出され、「ク」に対して、「フ」、「ク」、「7」、「ワ」、「ウ」、「ヲ」、「タ」、「マ」の候補文字が抽出され、・・・(中略)・・・、「6」に対して、「6」、「3」、「5」、「9」、「8」、「B」、「E」、「ム」の候補文字が抽出され、「チ」に対して、「チ」、「ヂ」、「G」、「4」、「タ」、「モ」、「5」、「ダ」の候補文字が抽出され、「ョ」に対して、「ョ」、「8」、「B」、「3」、「2」、「ヨ」、「D」、「S」の候補文字が抽出され、「ウ」に対して、「ウ」、「ケ」、「ク」、「7」、「カ」、「サ」、「タ」、「セ」の候補文字が抽出され、「メ」に対して、「メ」、「ト」、「4」、「ニ」、「ヌ」、「ユ」、「ス」、「F」の候補文字が抽出され、「1」に対して、「1」、「I」、「ノ」、「メ」、「9」、「4」、「7」、「P」の候補文字が抽出されている。
【0022】
図2bの候補文字列は、認識対象の文字列と類似度が高い文字列から、類似度の順に並べられている。
【0023】
図2bから明らかなように、カタカナの文字認識結果の候補文字には数字が含まれることが多い。
【0024】
ステップS302:住所照合手段12bを用い、文字認識結果を、住所辞書の単語と照合し、類似度の高い単語を文字コードに割り当てる。単語が割り当てられなかった文字は未処理文字として残す。照合結果として、例えば「シンジュククニシシンジュク」が住所辞書に最も合致したものとして選択される。
【0025】
ステップS303:住所辞書と照合の後、未処理文字列がまだ残っているか否かを判定する。未処理文字列が存在しないときは、処理を終了し、未処理文字列が存在するときは、ステップS304に移行する。図2(b)の例では「6チョウメ1」の未処理文字列が残っている。
【0026】
ステップS304:数字カウンタを「0」に初期化し、ステップS305に移行する。数字カウンタは、個々の未処理文字について、数字の候補文字が何個抽出されたかをカウントする。ステップS304〜S310は未処理文字列中の文字を1個ずつ処理対象として、数字か否か判断する。
【0027】
ステップS305:処理対象の1個の未処理文字について、候補文字を1個ずつチェックし、数字か否かを判断する。数字であったときはステップS306に移行し、数字でなかったときはステップS307に移行する。
【0028】
ステップS306:数字であったときは数字カウンタを「1」カウントアップし、ステップS307に移行する。
【0029】
ステップS307:全ての候補文字についてステップS305のチェックが終了したか否かを判断し、終了したときはステップS308に移行し、終了していなかったときはステップS305に戻る、判断対象の候補文字を1個進める。
【0030】
ステップS308:処理対象の1個の未処理文字について、全ての候補文字をチェックした結果、数字カウンタのカウント値が所定値以上になったか否かを判断する。所定値以上のときはステップS309に移行し、所定値未満のときはステップS310に移行する。
【0031】
図2(b)の例では「6チョウメ1」の最初の未処理文字は、候補文字として数字が5回抽出されており、数字カウンタ値が5となり、所定値が4だとすると、所定値以上となり、数字と判断する。そして、候補文字のなかで一番類似度の高い数字と判断する。これによって数字「6」を認識結果とする。
【0032】
ステップS309:数字カウンタ値が所定値以上のとき判断対象の未処理文字を数字と判断し、ステップS303に戻る。
【0033】
ステップS310:数字カウンタ値が所定値未満のとき判断対象の未処理文字は「チョウメ」や「バンチ」であると判断し、「チョウメ」、「バンチ」等の文字と照合する。その後ステップS303に戻る。
【0034】
図2(b)の例では「6チョウメ1」の2番目の未処理文字は、候補文字として数字が2回抽出されており、数字カウンタ値が2となり、所定値4未満となり、数字ではないと判断し、「チョウメ」、「バンチ」等の文字の1文字め「チ」、「バ」と照合する。
【0035】
前記ステップS308では、候補文字における数字の個数により数字と判断したが、判断方法としては、以下(1)〜(3)その他の判断方法も採用可能である。
(1)候補文字に含まれる数字比率が所定値(例えばn%)以上のときに、数字と判断する。
(2)類似度の順位が所定値よりも高い候補文字列、例えばm位よりも上位に数字が含まれたときに、数字と判断する。
(3)類似度の順位と、類似度そのものの値を両者を総合評価し、評価結果がある基準以上のものに数字があれば、数字と判断する。
【0036】
以上説明したように、本実施形態の文字認識方法によれば、入力されたイメージデータから文字認識処理して、認識結果を住所辞書と照合し、照合結果に未処理の文字があったときに、未処理文字について、住所辞書との照合とは別個の処理により数字か否か判断して丁目処理を行う。すなわち、丁目処理について、丁目処理に特化した数字検出を実行する。これによって、丁目処理の認識精度を、ひいては住所認識の認識精度を著しく向上し得る。また、丁目の部分の数字は各人の住所に応じて桁数が様々であるが、丁目処理において各文字を数字かどうか判断するので、桁数が変わっても精度よく認識できる。
【0037】
なお本発明の趣旨と範囲は、本発明の特定の説明と図に限定されるものではなく、以下の実施態様に示すように、本願特許請求の範囲に述べられた内容の様々な修正および変更に及ぶことは当業者にとって理解されるであろう。
【0038】
[実施態様1] イメージデータを文字認識して文字コードを生成する文字認識ステップと、前記文字コードを住所辞書の単語と照合し、前記文字コードに前記単語を割り当て、前記単語が割り当てられなかった文字コードを未処理文字として残す住所照合ステップと、前記未処理文字が残存するときに、該未処理文字について、数字か否かを判断する数字判断ステップとを備えた文字認識方法。
【0039】
[実施態様2] 前記文字認識ステップは、文字認識結果として、類似度順に複数の候補文字を抽出することを特徴とする実施態様1記載の文字認識方法。
【0040】
[実施態様3] 前記数字判断ステップは、前記未処理文字に対応する候補文字に、基準以上の数字が含まれていたときに、当該未処理文字を数字と判断することを特徴とする実施態様2に記載の文字認識方法。
【0041】
[実施態様4] 前記数字判断ステップは、前記未処理文字に対応する候補文字における、基準以上の類似度順位に、数字が含まれていたときに数字と判断することを特徴とする実施態様2に記載の文字認識方法。
【0042】
[実施態様5] 前記数字判断ステップは、前記未処理文字に対応する候補文字の類似度および類似度順位の両者に基づいて、数字か否か判断することを特徴とする実施態様2に記載の文字認識方法。
【0043】
[実施態様6] イメージデータを文字認識して文字コードを生成する文字認識手段と、
前記文字コードを住所辞書の単語と照合し、前記文字コードに前記単語を割り当て、前記単語が割り当てられなかった文字コードを未処理文字として残す住所照合手段と、
前記未処理文字が残存するときに、該未処理文字について、数字か否かを判断する数字判断手段とを備えた文字認識処理装置。
【0044】
[実施態様7] 実施態様1乃至5のいずれかに記載の各ステップを汎用コンピュータに実行させるためのプログラムコードを含むコンピュータ実行可能なプログラム。
【0045】
[実施態様8] 実施態様7記載のコンピュータ実行可能なプログラムが格納されたコンピュータ読み取り可能な記憶媒体。
【0046】
【発明の効果】
本発明によれば、住所辞書の文字認識における丁目処理の認識精度を向上し得る。
【図面の簡単な説明】
【図1】本発明に係る文字認識方法の一実施形態が適用された文字認識処理装置を示すブロック図である。
【図2a】図1の文字認識処理装置による文字認識の対象となる文字列の一例を示す図である。
【図2b】図2aの文字列の文字認識結果の例を示す図である。
【図3】本発明に係る文字認識方法の一実施形態を示すフローチャートである。
【符号の説明】
11 画像入力手段
12 プロセッサ
12a 文字認識手段
12b 住所照合手段
12c 数字判断手段
13 入力手段
14 ディスク
15 メモリ
16 出力手段

Claims (1)

  1. イメージデータを文字認識して文字コードを生成する文字認識ステップと、
    前記文字コードを住所辞書の単語と照合し、前記文字コードに前記単語を割り当て、前記単語が割り当てられなかった文字コードを未処理文字として残す住所照合ステップと、
    前記未処理文字が残存するときに、該未処理文字について、数字か否かを判断する数字判断ステップと、を備えた文字認識方法。
JP2003048531A 2003-02-26 2003-02-26 文字認識方法 Withdrawn JP2004258950A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003048531A JP2004258950A (ja) 2003-02-26 2003-02-26 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003048531A JP2004258950A (ja) 2003-02-26 2003-02-26 文字認識方法

Publications (1)

Publication Number Publication Date
JP2004258950A true JP2004258950A (ja) 2004-09-16

Family

ID=33114463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003048531A Withdrawn JP2004258950A (ja) 2003-02-26 2003-02-26 文字認識方法

Country Status (1)

Country Link
JP (1) JP2004258950A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018060474A (ja) * 2016-10-07 2018-04-12 富士通株式会社 地名抽出プログラム、地名抽出装置および地名抽出方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018060474A (ja) * 2016-10-07 2018-04-12 富士通株式会社 地名抽出プログラム、地名抽出装置および地名抽出方法

Similar Documents

Publication Publication Date Title
US10747946B2 (en) Non-transitory computer-readable storage medium, encoding apparatus, and encoding method
US20090132477A1 (en) Methods of object search and recognition.
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
US20050004902A1 (en) Information retrieving system, information retrieving method, and information retrieving program
US8750571B2 (en) Methods of object search and recognition
US20050091035A1 (en) System and method for linguistic collation
US9336197B2 (en) Language recognition based on vocabulary lists
CN113836297B (zh) 文本情感分析模型的训练方法及装置
JP2004258950A (ja) 文字認識方法
JP2004258886A (ja) 文字認識方法
US9224040B2 (en) Method for object recognition and describing structure of graphical objects
JP2010237909A (ja) 知識補正プログラム、知識補正装置および知識補正方法
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP4261831B2 (ja) 文字認識処理方法、文字認識処理装置、文字認識プログラム
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
CN117081727B (zh) 一种弱口令检测方法以及装置
JP3210842B2 (ja) 情報処理装置
CN113536272A (zh) 基于用户肌肉记忆的用户身份验证方法及装置
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
US20180012111A1 (en) Recognition device, recognition method, and computer program product
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP6441715B2 (ja) 宛先認識装置
JP2839515B2 (ja) 文字読取システム
JP2021149531A (ja) 情報処理装置、修正候補表示方法、及びプログラム
JP2639314B2 (ja) 文字認識方式

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20050202