JP5387378B2 - 文字同定装置及び文字同定方法 - Google Patents

文字同定装置及び文字同定方法 Download PDF

Info

Publication number
JP5387378B2
JP5387378B2 JP2009283960A JP2009283960A JP5387378B2 JP 5387378 B2 JP5387378 B2 JP 5387378B2 JP 2009283960 A JP2009283960 A JP 2009283960A JP 2009283960 A JP2009283960 A JP 2009283960A JP 5387378 B2 JP5387378 B2 JP 5387378B2
Authority
JP
Japan
Prior art keywords
character
radical
candidate
external
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009283960A
Other languages
English (en)
Other versions
JP2011128688A (ja
Inventor
勇 大石
千織 村松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009283960A priority Critical patent/JP5387378B2/ja
Priority to CN 201010286687 priority patent/CN102096828B/zh
Publication of JP2011128688A publication Critical patent/JP2011128688A/ja
Application granted granted Critical
Publication of JP5387378B2 publication Critical patent/JP5387378B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Description

本発明は、文字同定装置及び文字同定方法に関する。
例えば、市町村合併等に伴うコンピュータシステムの統合においては、複数のコンピュータシステムが別々に処理していた文字を、新たなコンピュータシステムにおいて統一して処理する必要が生じる。この場合、新たなコンピュータシステムの設計段階において、異なる複数の文字を1つの文字に統合する同定作業が必要となる。同定作業とは、オペレータが、複数の文字を目視で確認して、当該複数の文字を同一の文字として扱ってよいかどうか判断する作業である。
例えば、JISに定められていない文字同士、換言すれば、外字同士についての同定作業が必要である。また、外字とJISに定められた文字とについての同定作業が必要である。このような外字は、例えば人名や地名に多く使用される。
このような同定作業は、例えば、同定作業の対象である文字の一覧を印刷して、全ての文字を目視で確認しながら、同定する文字を探すことにより行われる。この際、当該印刷された文字をOCRにより認識する活字OCR技術を使用して、同定を効率化することが行われる。
なお、光学的文字読取装置において、文字イメージをn×nのブロックに分割した後、各ブロックの特徴ベクトルを抽出し、この特徴ブロックを辞書に照らし合わせて、候補文字群を検索し、候補文字が部首に分割できるか否かを判定し、候補文字が部首に分割可能であると判定された場合に前記文字イメージを複数の部首部分に分割し、各部首に対応するイメージ部分を処理することによって各部首部分の候補文字を検索し、各部首の候補文字を部首に持つ漢字群を検索することが提案されている。
また、文字認識システムにおいて、認識結果中のリジェクト文字または誤認文字の修正時に、リジェクト文字または誤認文字のパターンの特徴量と、このリジェクト文字または誤認文字の正解文字に対応する認識辞書内の特徴量との合成によって新しい特徴量を生成し、この新しい特徴量を認識辞書内の特徴量と入れ替えるか、または認識辞書に追加することが提案されている。
特開平4−205078号公報 特開平2−186484号公報
印刷された文字の一覧を目視で確認する場合において、同定作業の対象である外字が数千文字も存在する場合には、非常に煩雑な作業となる。同様に、統合されるコンピュータシステムが2以上である場合は、極めて煩雑で困難な作業となる。
また、活字OCR技術を使用する場合でも、文字全体の認識で候補文字を抽出するため、候補文字の精度が低く、ある程度参考にできる資料が得られるに過ぎない。換言すれば、適切な候補文字が得られない場合、結局、オペレータによる文字の一覧の目視による確認も併用しなければならず、また、その比重が大きい。
本発明は、同定の候補文字を高い精度で得ることができる文字同定装置を提供することを目的とする。
開示される文字同定装置は、文字認識格納部と、字形要素格納部と、外字格納部と、外字字形要素格納部と、候補文字リスト生成部と、OCR認識部とを備える。文字認識格納部は、文字のドットパターンを格納する。字形要素格納部は、文字認識格納部に格納された文字について、部首の配置を示す配置パターンと、部首を表す部首文字コードを含む部首の字形要素情報と、部首以外の部分を表す部分文字コードを含む部分の字形要素情報とを格納する。外字格納部は、予め定められた文字を表す文字コードにより表される規格化された文字に含まれない文字である外字のドットパターンを格納する。外字字形要素格納部は、外字格納部に格納された外字について、部首の配置を示す配置パターンと、部首を表す部首文字コードを含む部首の字形要素情報と、部首以外の部分を表す部分文字コードを含む部分の字形要素情報とを格納する。OCR認識部は、外字格納部から選択した処理対象である外字について、外字格納部に格納された外字のドットパターンと文字認識格納部に格納された文字のドットパターンとに基づいて、文字認識格納部に格納された文字から、処理対象である外字を同定する第1の候補文字を抽出する。候補文字リスト生成部は、処理対象である外字について、字形要素格納部に格納された文字についての部首の字形要素情報と、外字字形要素格納部に格納された外字についての部首の字形要素情報とに基づいて、字形要素格納部に格納された文字から、処理対象である外字を同定する第2の候補文字を抽出し、処理対象である外字について、字形要素格納部に格納された文字についての部分の字形要素情報と、外字字形要素格納部に格納された外字についての部分の字形要素情報とに基づいて、字形要素格納部に格納された文字から、処理対象である外字を同定する第3の候補文字を抽出する。
開示される文字同定装置によれば、同定作業の対象である外字が多数存在する場合であっても、同定の候補文字を高い精度で得ることができ、同定を行うオペレータの負担を軽減し、複数のコンピュータシステムを統合した新たなコンピュータシステムを構築する期間を短縮することができる。
文字同定装置の構成の一例を示す図である。 外字ファイル及び外字字形要素格納ファイルの一例を示す図である。 文字認識辞書及び字形要素辞書の一例を示す図である。 文字同定の一例を示す図である。 文字同定の一例を示す図である。 文字同定の一例を示す図である。 文字同定の一例を示す図である。 文字同定の一例を示す図である。 文字同定の一例を示す図である。 文字同定の処理フローを示す図である。 1文字同定の処理フローを示す図である。 1文字同定の処理フローを示す図である。 候補文字リスト生成の処理フローを示す図である。 候補文字学習の処理フローを示す図である。
図1は、文字同定装置1の構成の一例を示す図である。
文字同定装置1は、外字ファイル2、外字字形要素格納ファイル3、文字コード変換定義リスト4、表示部5、キーボード6を備える。また、文字同定装置1は、同定処理部11、文字認識辞書12、OCR候補文字リスト13、字形要素辞書14、部首候補文字リスト15、部分候補文字リスト16、表示用候補文字リスト17、同定元/同定先文字対応関係リスト18を備える。同定処理部11は、OCR認識部111、候補文字リスト生成部112、表示用候補文字リスト生成部113、文字情報学習部114を備える。
文字同定装置1において、外字ファイル2及び外字字形要素格納ファイル3は、処理対象である外字(漢字)のデータを格納する外字データセットである。処理対象の文字は、外字以外の文字であっても良い。外字ファイル2及び外字字形要素格納ファイル3は、予め用意される。外字ファイル2と外字字形要素格納ファイル3とは、後述するように、相互に対応するデータを格納する。
外字ファイル2は、外字毎に、外字のドットパターンを格納する。外字は、予め定められた文字を表す文字コードにより表される規格化された文字に含まれない文字である。文字コードは、文字や記号をコンピュータで扱うために、文字や記号毎に一意に割り当てられた固有の数字である。文字コードは、例えばJISコードである。外字は、例えばJISコードにより表されない文字である。ドットパターンは、文字の表示領域におけるピクセル毎に白(=0)又は黒(=1)の値を与えることにより、黒のパターンにより当該文字を表現したデータである。
外字字形要素格納ファイル3は、外字ファイル2に格納された外字について、配置パターンと、部首の字形要素情報と、部首以外の部分の字形要素情報とを格納する。配置パターンは、部首の配置を示す。部首の字形要素情報は、部首を表す部首文字コードを含む。部首以外の部分の字形要素情報は、部首以外の部分を表す部分文字コードを含む。
ここで、文字の字形要素は、部首と、部首以外の構成部分(以下、単に「部分」という)である。字形は、文字全体の形状、部首の形状、部首以外の構成部分の形状である。部首は、文字(換言すれば、漢字)を構成する字形要素の一つである偏旁(へんぼう)を、漢字を分類する際の基準として定めたものである。偏旁は、漢字の字体を構成する要素の一つで、左右上下内外の部分に分解できる要素である。部首は、漢字配列の目安となる漢字の各部の共通部分であり、例えば、偏(へん)、旁(つくり)、冠(かんむり)等がある。部分は、部首以外の文字の構成要素であり、文字から当該文字の部首を除いた部分である。部首は、部首文字コードにより一意に特定される。部分は、部分文字コードにより一意に特定される。
また、配置パターンは、部首の配置される位置を示す。偏旁、換言すれば、部首は、配置される位置によって、例えば、以下のように配置パターンを示す識別番号が割当てられる。
配置パターン「1」は、「へん」を表す。「へん」は、右と左とに分けられる漢字の左側に位置する。配置パターン「2」は、「つくり」を表す。「つくり」は、右と左とに分けられる漢字の右側に位置する。配置パターン「3」は、「かんむり」を表す。「かんむり」は、上と下とに分けられる漢字の上側に位置する。配置パターン「4」は、「あし」を表す。「あし」は、上と下とに分けられる漢字の下側に位置する。配置パターン「5」は、「たれ」を表す。「たれ」は、上から左下側にたれさがっている形に位置する。配置パターン「6」は、「にょう」を表す。「にょう」は、左から下側に「へん」と「あし」をあわせたような形に位置する。配置パターン「7」は、「かまえ」を表す。「かまえ」は、外側に囲むように位置する。
文字同定装置1において、文字認識辞書12及び字形要素辞書14は、処理対象である外字を同定する文字(漢字)のデータを格納する文字データセットである。文字認識辞書12及び字形要素辞書14は、予め用意される。字形要素辞書14は、後述するように、学習処理により更新される。文字認識辞書12と字形要素辞書14とは、後述するように、相互に対応するデータを格納する。
文字認識辞書12は、文字のドットパターンを格納する。文字認識辞書12に格納された文字は、規格化された文字、換言すれば、JISコードで表される文字である。なお、文字認識辞書12に格納された文字が、規格化された文字及び外字を含むようにしても良い。
字形要素辞書14は、文字認識辞書12に格納された文字について、配置パターンと、部首の字形要素情報と、部分の字形要素情報とを格納する。配置パターンは、前述したように、部首の配置を示す。部首の字形要素情報は、前述したように、部首を表す部首文字コードを含む。部分の字形要素情報は、前述したように、部首以外の部分を表す部分文字コードを含む。
OCR認識部111は、外字ファイル2から、外字を読み出して、処理対象とする。OCR認識部111は、外字ファイル2から選択した処理対象である外字について、処理対象である外字を同定する第1の候補文字を抽出する。第1の候補文字は、外字ファイル2に格納された外字のドットパターンと文字認識辞書12に格納された文字のドットパターンとに基づいて、文字認識辞書12に格納された文字から抽出される。
具体的には、OCR認識部111は、処理対象である外字のドットパターンと、文字認識辞書12に格納された文字のドットパターンとについて、OCR処理を行う。これにより、OCR認識部111は、文字認識辞書12に格納された文字のドットパターンの中から、処理対象である外字のドットパターンと、文字の全体として類似しているものを抽出する。
OCR認識部111は、抽出したドットパターンの文字を、処理対象である外字を同定する第1の候補文字とする。第1の候補文字は、1又は複数抽出される。OCR認識部111は、第1の候補文字をOCR候補文字リスト13に格納する。これにより、処理対象である外字について、OCR候補文字リスト13が生成される。OCR認識部111は、OCR候補文字リスト13の生成を、表示用候補文字リスト生成部113に通知する。
OCR認識部111は、処理対象である外字を、候補文字リスト生成部112に通知する。これに応じて、候補文字リスト生成部112は、外字字形要素格納ファイル3を参照して、処理対象である外字について、外字字形要素格納ファイル3に格納された、当該外字についての部首の字形要素情報と部分の字形要素情報とを読み出す。
候補文字リスト生成部112は、処理対象である外字について、処理対象である外字を同定する第2の候補文字を抽出する。第2の候補文字は、字形要素辞書14に格納された文字についての部首の字形要素情報と、外字字形要素格納ファイル3に格納された外字についての部首の字形要素情報とに基づいて、字形要素辞書14に格納された文字から抽出される。
具体的には、候補文字リスト生成部112は、処理対象である外字についての部首の字形要素情報における部首文字コードを、字形要素辞書14に格納された文字についての部首の字形要素情報における部首文字コードと比較する。これにより、候補文字リスト生成部112は、字形要素辞書14に格納された文字の中から、処理対象である外字の部首文字コードと同一の部首文字コードを持つ文字を抽出する。
候補文字リスト生成部112は、抽出した文字を、処理対象である外字を同定する第2の候補文字とする。第2の候補文字は、1又は複数抽出される。候補文字リスト生成部112は、第2の候補文字を部首候補文字リスト15に格納する。これにより、処理対象である外字について、部首候補文字リスト15が生成される。候補文字リスト生成部112は、部首候補文字リスト15の生成を、表示用候補文字リスト生成部113に通知する。
また、候補文字リスト生成部112は、処理対象である外字について、処理対象である外字を同定する第3の候補文字を抽出する。第3の候補文字は、字形要素辞書14に格納された文字についての部分の字形要素情報と、外字字形要素格納ファイル3に格納された外字についての部分の字形要素情報とに基づいて、字形要素辞書14に格納された文字から抽出される。
具体的には、候補文字リスト生成部112は、処理対象である外字についての部分の字形要素情報における部分文字コードを、字形要素辞書14に格納された文字についての部分の字形要素情報における部分文字コードと比較する。これにより、候補文字リスト生成部112は、字形要素辞書14に格納された文字の中から、処理対象である外字の部分文字コードと同一の部分文字コードを持つ文字を抽出する。
候補文字リスト生成部112は、抽出した文字を、処理対象である外字を同定する第3の候補文字とする。第3の候補文字は、1又は複数抽出される。候補文字リスト生成部112は、第3の候補文字を部分候補文字リスト16に格納する。これにより、処理対象である外字について、部首候補文字リスト16が生成される。候補文字リスト生成部112は、部首候補文字リスト16の生成を、表示用候補文字リスト生成部113に通知する。
表示用候補文字リスト生成部113は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16の生成が通知されると、これらを参照する。この参照結果に基づいて、表示用候補文字リスト生成部113は、第1の候補文字乃至第3の候補文字の各々に共通する文字が存在する場合には、これを文字情報学習部114に通知する。
第1の候補文字乃至第3の候補文字の各々に共通する文字が存在しない場合には、表示用候補文字リスト生成部113は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16に基づいて、表示用候補文字リスト17を生成する。表示用候補文字リスト17は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16をマージすることにより生成される。表示用候補文字リスト生成部113は、表示用候補文字リスト17を表示部5に表示させる。表示部5は、第1の候補文字乃至第3の候補文字を表示する。表示部5は、これに代えて、表示用候補文字リスト17を出力することができる出力部であれば良い。
ここで、表示用候補文字リスト生成部113は、第1の候補文字乃至第3の候補文字において、候補文字が重複して含まれる程度に応じて、優先順位を付する。例えば、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16のいずれか2つに重複して存在する文字は、それ以外の文字より高い優先順位とされる。それ以外の文字とは、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16のいずれか1つにしか存在しない文字である。優先順位の相違は、例えば表示の色の相違、表示の文字の太さ等により表される。
これにより、表示部5に表示された表示用候補文字リスト17を見たオペレータは、処理対象の文字を同定する文字を容易に選択することができる。例えば、オペレータの入力に応じて、入力装置であるキーボード6は、表示部5に表示された候補文字を指定する選択入力を、文字情報学習部114に入力する。
なお、第1の候補文字乃至第3の候補文字の各々に共通する文字が存在する場合であっても、表示用候補文字リスト17を生成して表示するようにしても良い。この場合、共通する文字の優先順位は、最も高いものとされる。
文字情報学習部114は、第1の候補文字乃至第3の候補文字の中から、処理対象である外字を同定する文字である同定先文字を決定する。従って、処理対象である外字は、他の文字と同一とされる、換言すれば、他の文字に同定される同定元文字である。第1の候補文字乃至第3の候補文字は、他の文字を同定される可能性のある、換言すれば、同定先文字となる可能性のある文字である。
具体的には、文字情報学習部114は、前述したように、表示用候補文字リスト生成部113からの通知に応じて、第1の候補文字乃至第3の候補文字の各々に共通する文字が存在する場合に、当該共通する文字を、同定先文字として決定する。また、文字情報学習部114は、キーボード6から入力された表示部5に表示された候補文字を指定する選択入力に基づいて、同定先文字を決定する。これは、第1の候補文字乃至第3の候補文字の各々に共通する文字が存在しない場合である。
文字情報学習部114は、処理対象である外字を同定元文字とし、同定元文字と同定先文字とを対応付ける文字対応関係リスト18を生成して、これを文字コード変換定義リスト4として出力する。文字対応関係リスト18又は文字コード変換定義リスト4は、例えば、同定元文字である外字又は外字コードと、同定先文字である文字又はJISコードとを対応付けるリストである。
また、文字情報学習部114は、処理対象である外字を同定元文字とし、同定元文字についての部首の字形要素情報又は部分の字形要素情報を、同定先文字についての学習要素情報として、同定先文字についての部首の字形要素情報又は部分の字形要素情報に追加する。この結果、候補文字リスト生成部112は、追加された部首の学習要素情報及び部分の学習要素情報に基づいて、第2の候補文字及び第3の候補文字を抽出する。これにより、一旦同定先文字に同定された同定元文字について再度同定処理が実行された場合には、一旦同定先文字に同定された同定元文字は、実際には、候補文字として認識される。
図2は、外字ファイル2及び外字字形要素格納ファイル3の一例を示す図である。
外字ファイル2は、文字データ21と、文字データ21に対応するドットパターン22とを含む。文字データ21及びドットパターン22は、外字ファイル2に含まれる外字の各々について設けられる。
文字データ21は、同定元文字と、同定元文字の格納先アドレスとを含む。同定元文字は、ある文字に同定される文字であり、例えば外字である。同定元文字は、例えば、同定元文字である外字を一意に定める識別情報(外字コード)により表すようにしても良い。格納先アドレスは、同定元文字のドットパターン22が格納されるアドレスである。ドットパターン22は、同定元文字をドットの集合により表したパターンである。
なお、文字「鉱」は、本来はJISコードで規格化された文字であって外字ではないが、この明細書では、説明のために、規格化された文字の一例及び外字の一例として用いるものとする。換言すれば、「鉱」は、規格化された文字「鉱」、又は、外字「鉱」として用いられる。
外字字形要素格納ファイル3は、複数の外字字形要素情報31A〜31Dを含む。外字字形要素情報31A〜31Dは、外字ファイル2に含まれる外字の各々について設けられる。外字字形要素情報31A〜31Dは、同定元文字と、同定元文字の部首の配置を示す配置パターンと、同定元文字の部首を表す部首文字コードを含む部首の字形要素情報と、同定元文字の部分を表す部分文字コードを含む部分の字形要素情報とを含む。同定元文字は、例えば、同定元文字である外字を一意に定める識別情報(外字コード)により表すようにしても良い。外字ファイル2と外字字形要素格納ファイル3とは、同一の同定元文字を含むことにより、対応付けられる。なお、図2において、配置パターンを「配置」と表し、部首文字コードを「部首」と表し、部分文字コードを「部分」と表す。
例えば、外字字形要素情報31Aは、同定元文字「鉱」について、配置パターン「1」、部首文字コード[金]、部分文字コード[広]を格納する。なお、この明細書において、例えば、部首「金」の部首文字コードを[金]と表し、部分「広」の部分文字コードを[広]と表すものとする。
図3は、文字認識辞書12及び字形要素辞書14の一例を示す図である。
文字認識辞書12は、文字データ121と、文字データ121に対応するドットパターン122とを含む。文字データ121及びドットパターン122は、文字認識辞書12に含まれる文字の各々について設けられる。文字認識辞書12に含まれる文字は、これに他の文字を同定したい文字(同定先文字)であり、従って、後述するように、同定先文字の候補文字となる。文字認識辞書12に含まれる文字は、例えば、JISコードのように、予め定められた文字を表す文字コードにより表される文字、換言すれば、規格化された文字である。
なお、文字認識辞書12に含まれる文字は、規格化された文字でない文字、換言すれば、外字であっても良い。従って、文字認識辞書12に含まれる文字は、少なくとも規格化された文字を含み、これに加えて、外字を含むようにしても良い。
文字データ121は、同定先文字と、同定先文字の格納先アドレスとを含む。同定先文字は、これに他の文字が同定される文字であり、例えば規格化された文字である。同定先文字は、例えば、同定先文字を一意に定める識別情報(文字コード)により表すようにしても良い。格納先アドレスは、同定先文字のドットパターン122が格納されるアドレスである。ドットパターン122は、同定先文字をドットの集合により表したパターンである。
字形要素辞書14は、複数の字形要素構造体141を含む。字形要素構造体141は、文字認識辞書12に含まれる文字の各々について設けられる。字形要素構造体141は、同定先文字と、学習文字数と、同定先文字の部首の配置を示す配置パターンと、同定先文字の部首を表す部首文字コードを含む部首の字形要素情報と、同定先文字の部分を表す部分文字コードを含む部分の字形要素情報とを含む。同定先文字は、例えば、同定先文字を一意に定める識別情報(文字コード)により表すようにしても良い。文字認識辞書12と字形要素辞書14とは、同一の同定先文字を含むことにより、対応付けられる。なお、図3において、配置パターンを「配置」と表し、部首文字コードを「部首」と表し、部分文字コードを「部分」と表す。
実際には、字形要素構造体141は、図3に示すように、部首の行と、部分の行とを含む。部首の行は、部首について、学習文字数と、配置パターンと、複数の部首文字コードとを含む。部首についての学習文字数は、部首の行に含まれる部首文字コードの数である。部分の行は、部分について、学習文字数と、配置パターンと、複数の部分文字コードとを含む。部分についての学習文字数は、部分の行に含まれる部分文字コードの数である。配置パターンは、同一の字形要素構造体141においては、全て同一の値となる。
複数の部首文字コード及び配置パターンは、部首の行において、学習要素の配列である配列[0]、配列[1]・・・に先頭から順に格納される。複数の部首文字コード及び配置パターンが格納されていない配列は、「NULL(空)」とされる。部分文字コード及び配置パターンは、部分の行において、学習要素の配列である配列[0]、配列[1]・・・に先頭から順に格納される。部分文字コード及び配置パターンが格納されていない配列は、「NULL(空)」とされる。
例えば、字形要素構造体141は、同定先文字「鉱」の部首「金」について、学習文字数「1」を格納し、配列[0]に配置パターン「1」及び部首文字コード[金]を格納する。また、字形要素構造体141は、同定先文字「鉱」の部分「広」について、学習文字数「1」を格納し、配列[0]に配置パターン「1」及び部分文字コード[広]を格納する。
ここで、配列[0]に格納される配置パターン及び部首文字コードは、字形要素構造体141に格納された同定先文字の本来の(デフォルトの)部首の配置パターン及び部首文字コードを表す。また、配列[0]に格納される配置パターン及び部分文字コードは、字形要素構造体141に格納された同定先文字の本来の(デフォルトの)部分の配置パターン及び部分文字コードを表す。換言すれば、配列[0]に格納される配置パターン、部首文字コード及び部分文字コードは、字形要素構造体141に格納された同定先文字のデフォルト値であり、予め格納される。
これに対して、配列[1]以降に格納される配置パターン及び部首文字コードは、文字の同定処理に基づく学習処理により獲得される。また、配列[1]以降に格納される配置パターン及び部分文字コードは、文字の同定処理に基づく学習処理により獲得される。換言すれば、配列[1]以降に格納される配置パターン、部首文字コード及び部分文字コードは、字形要素構造体141に格納された同定先文字に同定された同定元文字を表す値であり、学習処理の結果として付加的に格納される。
図4は、文字同定の一例を示す図である。
図4に示す例において、前述したように、文字「鉱」は、JISコードにより規格化された文字であり、かつ、外字でもあるものとする。この場合、第1の同定文字である外字「鉱」は、JISコードにより規格化された文字「鉱」の異字体であるものとする。異字体とは、綴りは同一であるが、フォント(ドットパターン)の異なるものを言う。また、第2〜第4の同定元文字は、JISコードにより規格化された文字ではなく、外字であるものとする。図4の例を用いて、以下の図5〜図9について説明する。
例えば、第1の同定元文字(外字「鉱」)は、部首「金」と部分「広」とにより構成される外字である。この場合、「ドットパターン」が類似しているので、文字「鉱」が、第1の候補文字として抽出されて、OCR候補文字リスト13に含まれる。「ドットパターン」の類似については後述する。また、「部首」が一致しているので、文字「鉱」が、第2の候補文字として抽出されて、部首候補文字リスト15に含まれる。また、「部分」が一致しているので、文字「鉱」が、第3の候補文字として抽出されて、部分候補文字リスト16に含まれる。この結果、文字「鉱」が第1の候補文字〜第3の候補文字に共通に含まれるので、第1の同定元文字は、同定先文字「鉱」に同定される。
第2の同定元文字は、部首「金」と部分「廣」とにより構成される外字である。この場合、「ドットパターン」が類似していないので、文字「鉱」が、第1の候補文字としては抽出されず、OCR候補文字リスト13には含まれない。また、「部首」が一致しているので、文字「鉱」が、第2の候補文字として抽出され、部首候補文字リスト15に含まれる。一方、「部分」が一致していないので、文字「鉱」が、第3の候補文字としては抽出されず、部分候補文字リスト16には含まれない。この結果、文字「鉱」が第2の候補文字に含まれるので、第2の同定元文字は、文字情報学習部114への選択入力に従って、同定先文字「鉱」に同定される。
第3の同定元文字は、部首「石」と部分「広」とにより構成される外字である。この場合、「ドットパターン」が類似していないので、文字「鉱」が、第1の候補文字としては抽出されず、OCR候補文字リスト13には含まれない。また、「部首」が一致しないので、文字「鉱」が、第2の候補文字としては抽出されず、部首候補文字リスト15には含まれない。しかし、「部分」が一致しているので、文字「鉱」が、第3の候補文字として抽出されて、部分候補文字リスト16に含まれる。この結果、文字「鉱」が第3の候補文字に含まれるので、第3の同定元文字は、文字情報学習部114への選択入力に従って、同定先文字「鉱」に同定される。
第4の同定元文字は、部首「石」と部分「廣」とにより構成される外字である。この場合、「ドットパターン」が類似していないので、文字「鉱」が、第1の候補文字として抽出されず、OCR候補文字リスト13に含まれない。また、「部首」が一致していないので、文字「鉱」が、第2の候補文字としては抽出されず、部首候補文字リスト15には含まれない。また、「部分」が一致していないので、文字「鉱」が、第3の候補文字としては抽出されず、部分候補文字リスト16には含まれない。
このように、第4の同定元文字は、最初は、換言すれば、学習処理の前においては、文字「鉱」が、第1乃至第3の候補文字として抽出されないので、同定先文字「鉱」とは一致しない。しかし、図8を参照して後述するように、学習処理の結果、文字「鉱」が第2及び第3の候補文字に含まれるので、第4の同定元文字は、文字情報学習部114への選択入力に従って、同定先文字「鉱」に同定される。
図5〜図9は、文字同定の一例を示す図である。特に、図5〜図8は、前述の第1の同定元文字〜第4の同定元文字をこの順に同定する場合について示す。図9は、前述の第1の同定元文字〜第4の同定元文字を同定した後、再度、第4の同定元文字を同定する場合について示す。
図5は、部首「金」と部分「広」とにより構成される第1の同定元文字(外字「鉱」)についての同定処理について示す。
前述したように、文字「鉱」は、JISコードにより規格化された文字であり、図3に示すように、字形要素辞書14の字形要素構造体141に格納されている。一方、文字「鉱」の異字体である外字「鉱」は、いずれの文字にも同定されていない。従って、文字「鉱」の異字体である外字「鉱」は、同定処理の対象の外字として、図2に示すように、外字字形要素格納ファイル3の外字字形要素情報31Aに格納されている。
外字ファイル2は、外字である第1の同定元文字について、ドットパターンを格納する。外字字形要素格納ファイル3は、外字ファイル2に格納された第1の同定元文字について、外字字形要素情報31Aを格納する。この場合、外字字形要素情報31Aは、第1の同定元文字について、配置パターン「1」と、部首「金」を表す部首文字コードを含む部首の字形要素情報と、部分「広」を表す部分文字コードを含む部分の字形要素情報とを格納する。
例えば、OCR認識部111は、部首「金」と部分「広」とにより構成される第1の同定元文字について、文字認識辞書12を用いて、文字認識処理を行う。これにより、OCR認識部111は、第1の同定元文字についての第1の候補文字として、「ドットパターン」が類似する複数の文字を抽出して、OCR候補文字リスト13に格納する。「ドットパターン」の類似により抽出される文字には、文字「鉱」が含まれる。
なお、「ドットパターン」の類似とは、比較対象である2個のドットパターンにおいて、例えば、予め定められた割合以上のピクセルの値が一致する場合を含む。前記割合は、経験的に定めることができ、比較的小さい値とされる。また、「ドットパターン」の類似には、部首が一致又は類似する場合、部分が一致又は類似する場合等を含むようにしても良い。これにより、図5〜図9に示すように、比較的多くの文字を類似する文字として抽出することができる。JISコードにより規格化された文字「鉱」と外字「鉱」のドットパターンは、相互に異なるものの、異字体であるので、類似する。
また、候補文字リスト生成部112は、第1の同定元文字について、特に、第1の同定元文字の部首「金」について、字形要素辞書14を用いて、字形要素の比較を行う。これにより、候補文字リスト生成部112は、第1の同定元文字についての第2の候補文字として、「部首」が一致する複数の文字を抽出して、部首候補文字リスト15に格納する。「部首」の一致により抽出される文字には、文字「鉱」が含まれる。
この時、字形要素辞書14における同定先文字「鉱」の学習データである字形要素構造体141において、第1の同定元文字の部首「金」は、配列[0]に格納される。従って、この場合、候補文字リスト生成部112は、部首候補文字リスト15において、文字「鉱」を、「学習候補」のフィールドではなく、「候補文字」のフィールドに格納する。
また、候補文字リスト生成部112は、第1の同定元文字について、特に、第1の同定元文字の部分「広」について、字形要素辞書14を用いて、字形要素の比較を行う。これにより、候補文字リスト生成部112は、第1の同定元文字についての第3の候補文字として、「部分」が一致する複数の文字を抽出して、部分候補文字リスト16に格納する。「部分」の一致により抽出される文字には、文字「鉱」が含まれる(以上、処理#51)。
この時、字形要素辞書14における同定先文字「鉱」の学習データである字形要素構造体141において、第1の同定元文字の部分「広」は、配列[0]に格納される。従って、この場合、候補文字リスト生成部112は、部首候補文字リスト15において、文字「鉱」を、「学習候補」のフィールドではなく、「候補文字」のフィールドに格納する。
この後、表示用候補文字リスト生成部113は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16の各々に同一の文字「鉱」が共通に含まれるので、同定先文字として、文字「鉱」を決定する(処理#52)。これにより、外字である同定元文字「鉱」についての同定先文字「鉱」が定まる。
従って、文字情報学習部114は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16の各々に同一の文字「鉱」が含まれる場合、第1の同定元文字を決定された同定先文字「鉱」の学習データとして学習する学習処理を行わない(処理#53)。換言すれば、表示用候補文字リスト17は、生成されず、表示部5に表示されない。
具体的には、この場合、同定元文字「鉱」の部首文字コード[金]が、字形要素構造体141の配列[0]に格納された部首文字コード[金]と同一である。従って、同定元文字「鉱」の部首文字コード[金]は、同定先文字「鉱」の学習データとして字形要素構造体141に追加されない。また、同定元文字「鉱」の部分文字コード[広]が、字形要素構造体141の配列[0]に格納された部首文字コード[広]と同一である。従って、同定元文字「鉱」の部分文字コード[広]は、同定先文字「鉱」の学習データとして字形要素構造体141に追加されない。
以上から、この場合、第1の同定元文字は、同定先文字「鉱」の学習データとして字形要素構造体141に追加されない。従って、同定先文字「鉱」の字形要素構造体141は、第1の同定元文字の同定前と同様に、配列[0]に、配置パターンと、同定先文字「鉱」の部首「金」と、同定先文字「鉱」の部分「広」を格納する。
図6は、部首「金」と部分「廣」とにより構成される第2の同定元文字についての同定処理について示す。第2の同定元文字は、前述したように、JISコードにより規格化された文字ではなく、外字である。
この場合、外字字形要素情報31Bは、第2の同定元文字について、配置パターン「1」と、部首「金」を表す部首文字コードを含む部首の字形要素情報と、部分「廣」を表す部分文字コードを含む部分の字形要素情報とを格納する。
例えば、OCR認識部111は、第2の同定元文字について、文字認識辞書12を用いて、文字認識処理を行うことにより、第2の同定元文字についての第1の候補文字として、「ドットパターン」が類似する複数の文字を抽出して、OCR候補文字リスト13に格納する。また、候補文字リスト生成部112は、第2の同定元文字の部首「金」について、字形要素辞書14を用いて、字形要素の比較を行うことにより、第2の同定元文字についての第2の候補文字として、「部首」が一致する複数の文字を抽出して、部首候補文字リスト15に格納する。また、候補文字リスト生成部112は、第2の同定元文字の部分「廣」について、字形要素辞書14を用いて、字形要素の比較を行うことにより、第2の同定元文字についての第3の候補文字として、「部分」が一致する複数の文字を抽出して、部分候補文字リスト16に格納する(処理#61)。
この時、字形要素辞書14における同定先文字「鉱」の学習データである字形要素構造体141において、第2の同定元文字の部首「金」は、配列[0]に格納される。従って、この場合、候補文字リスト生成部112は、部首候補文字リスト15において、文字「鉱」を、「学習候補」のフィールドではなく、「候補文字」のフィールドに格納する。
この後、表示用候補文字リスト生成部113は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16に、同一の文字が共通に含まれないので、同定先文字を決定する処理を行う。具体的には、表示用候補文字リスト生成部113は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16に基づいて表示用候補文字リスト17を生成して、表示部5に表示する。
これを見たオペレータが、キーボード6から、同定先文字を選択する指示として、例えば、文字「鉱」を入力する。なお、文字「鉱」は、例えば、表示用候補文字リスト17における部首候補文字リスト15に対応する部分に表示された文字の中から選択することにより、入力するようにしても良い。これは、図8〜図9においても同様である。この指示に応じて、文字情報学習部114は、同定先文字として、文字「鉱」を決定する(処理#62)。これにより、第2の同定元文字についての同定先文字「鉱」が定まる。
この後、文字情報学習部114は、第2の同定元文字を、決定された同定先文字「鉱」の学習データとして学習する学習処理を行う(処理#63)。これにより、文字情報学習部114は、字形要素辞書14に格納された、決定された同定先文字「鉱」の字形要素構造体141に学習要素の配列を追加する。
この場合、第2の同定元文字の部首文字コード[金]が、字形要素構造体141の配列[0]に格納された部首文字コード[金]と同一である。従って、第2の同定元文字の部首文字コード[金]は、同定先文字「鉱」の学習データとして字形要素構造体141に追加されない。一方、第2の同定元文字の部分文字コード[廣]が、字形要素構造体141の配列[0]に格納された部首文字コード[広]と異なる。従って、第2の同定元文字の部分文字コード[廣]は、同定先文字「鉱」の学習データとして字形要素構造体141に追加される。
以上から、この場合、同定先文字「鉱」の字形要素構造体141は、第2の同定元文字の学習により、配列[1]の「部分」の格納フィールドにおいて、配置パターン「1」と、第2の同定元文字の部分「廣」を格納する。また、配列[1]の「部分」の格納フィールドには新たに1個の部分文字コード等が格納されたので、「部分」についての学習文字数が、「2」とされる。この時、配列[1]の「部首」の格納フィールドは、格納する部首文字コード等が存在しないので、「NULL(空)」とされる。また、配列[1]の「部首」の格納フィールドには新たな部首文字コード等が格納されないので、「部首」についての学習文字数も「1」のままとされる。
この学習処理の結果、第2の同定元文字は、字形要素「廣」が同定先文字「鉱」の字形要素として学習されることにより、文字「鉱」の候補文字として認識されることになる。これにより、字形要素「廣」を有する文字は、文字「鉱」の候補文字とされる。
図7は、部首「石」と部分「広」とにより構成される第3の同定元文字についての同定処理について示す。第3の同定元文字は、前述したように、JISコードにより規格化された文字ではなく、外字である。
この場合、外字字形要素情報31Cは、第3の同定元文字について、配置パターン「1」と、部首「石」を表す部首文字コードを含む部首の字形要素情報と、部分「広」を表す部分文字コードを含む部分の字形要素情報とを格納する。
例えば、OCR認識部111は、第3の同定元文字について、文字認識辞書12を用いて、文字認識処理を行うことにより、第3の同定元文字についての第1の候補文字として、「ドットパターン」が類似する複数の文字を抽出して、OCR候補文字リスト13に格納する。また、候補文字リスト生成部112は、第3の同定元文字の部首「石」について、字形要素辞書14を用いて、字形要素の比較を行うことにより、第3の同定元文字についての第2の候補文字として、「部首」が一致する複数の文字を抽出して、部首候補文字リスト15に格納する。また、候補文字リスト生成部112は、第3の同定元文字の部分「広」について、字形要素辞書14を用いて、字形要素の比較を行うことにより、第3の同定元文字についての第3の候補文字として、「部分」が一致する複数の文字を抽出して、部分候補文字リスト16に格納する(処理#71)。
この時、字形要素辞書14における同定先文字「鉱」の学習データである字形要素構造体141において、第3の同定元文字の部分「広」は、配列[0]に格納される。従って、この場合、候補文字リスト生成部112は、部分候補文字リスト16において、文字「鉱」を、「学習候補」のフィールドではなく、「候補文字」のフィールドに格納する。
この後、表示用候補文字リスト生成部113は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16に、同一の文字が共通に含まれないので、同定先文字を決定する処理を行う。具体的には、表示用候補文字リスト生成部113は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16に基づいて表示用候補文字リスト17を生成して、表示部5に表示する。
これを見たオペレータが、キーボード6から、同定先文字を選択する指示として、例えば、文字「鉱」を入力する。この指示に応じて、文字情報学習部114は、同定先文字として、文字「鉱」を決定する(処理#72)。これにより、第3の同定元文字についての同定先文字「鉱」が定まる。
この後、文字情報学習部114は、第3の同定元文字を、決定された同定先文字「鉱」の学習データとして学習する学習処理を行う(処理#73)。これにより、文字情報学習部114は、字形要素辞書14に格納された、決定された同定先文字「鉱」の字形要素構造体141に学習要素の配列を追加する。
この場合、第3の同定元文字の部首文字コード[石]が、字形要素構造体141の配列[0]に格納された部首文字コード[金]と異なる。従って、第3の同定元文字の部首文字コード[石]は、同定先文字「鉱」の学習データとして字形要素構造体141に追加される。一方、第3の同定元文字の部分文字コード[広]が、字形要素構造体141の配列[0]に格納された部首文字コード[広]と同一である。従って、第3の同定元文字の部分文字コード[広]は、同定先文字「鉱」の学習データとして字形要素構造体141に追加されない。
以上から、この場合、同定先文字「鉱」の字形要素構造体141は、第3の同定元文字の学習により、配列[1]の「部首」の格納フィールドにおいて、配置パターン「1」と、第3の同定元文字の部首「石」を格納する。また、配列[1]の「部首」の格納フィールドには新たに1個の部首文字コード等が格納されたので、「部首」についての学習文字数が、「2」とされる。また、配列[1]の「部分」の格納フィールドには新たな部分文字コード等が格納されないので、「部分」についての学習文字数も「2」のままとされる。
この学習処理の結果、第3の同定元文字は、字形要素「石」が同定先文字「鉱」の字形要素として学習されることにより、文字「鉱」の候補文字として認識されることになる。これにより、字形要素「石」を有する文字は、文字「鉱」の候補文字とされる。
図8は、部首「石」と部分「廣」とにより構成される第4の同定元文字についての同定処理について示す。第4の同定元文字は、前述したように、JISコードにより規格化された文字ではなく、外字である。
この場合、外字字形要素情報31Dは、第4の同定元文字について、配置パターン「1」と、部首「石」を表す部首文字コードを含む部首の字形要素情報と、部分「廣」を表す部分文字コードを含む部分の字形要素情報とを格納する。
例えば、OCR認識部111は、第4の同定元文字について、文字認識辞書12を用いて、文字認識処理を行うことにより、第4の同定元文字についての第1の候補文字として、「ドットパターン」が類似する複数の文字を抽出して、OCR候補文字リスト13に格納する。また、候補文字リスト生成部112は、第4の同定元文字の部首「石」について、字形要素辞書14を用いて、字形要素の比較を行うことにより、第4の同定元文字についての第2の候補文字として、「部首」が一致する複数の文字を抽出して、部首候補文字リスト15に格納する。また、候補文字リスト生成部112は、第4の同定元文字の部分「廣」について、字形要素辞書14を用いて、字形要素の比較を行うことにより、第4の同定元文字についての第3の候補文字として、「部分」が一致する複数の文字を抽出して、部分候補文字リスト16に格納する(処理#81)。
この時、字形要素辞書14における同定先文字「鉱」の学習データである字形要素構造体141において、第4の同定元文字の部首「石」は、配列[1]に格納される。従って、この場合、候補文字リスト生成部112は、部首候補文字リスト15において、文字「鉱」を、「候補文字」のフィールドではなく、「学習候補」のフィールドに格納する。
また、字形要素辞書14における同定先文字「鉱」の学習データである字形要素構造体141において、第4の同定元文字の部分「廣」は、配列[1]に格納される。この場合、候補文字リスト生成部112は、部分候補文字リスト16において、文字「鉱」を、「候補文字」のフィールドではなく、「学習候補」のフィールドに格納する。
この後、表示用候補文字リスト生成部113は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16に、同一の文字が共通に含まれないので、同定先文字を決定する処理を行う。具体的には、表示用候補文字リスト生成部113は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16に基づいて表示用候補文字リスト17を生成して、表示部5に表示する。
この時、文字「鉱」は、部首候補文字リスト15及び部分候補文字リスト16の双方に、共通に含まれる。従って、文字「鉱」は、優先順位が高い候補文字であるので、例えば、優先順位が低い候補文字とは異なる色で表示される。
これを見たオペレータが、キーボード6から、同定先文字を選択する指示として、例えば、文字「鉱」を入力する。この指示に応じて、文字情報学習部114は、同定先文字として、文字「鉱」を決定する(処理#82)。これにより、第4の同定元文字についての同定先文字「鉱」が定まる。
この後、文字情報学習部114は、第4の同定元文字を、決定された同定先文字「鉱」の学習データとして学習する学習処理を行う(処理#83)。これにより、文字情報学習部114は、字形要素辞書14に格納された、決定された同定先文字「鉱」の字形要素構造体141に学習要素の配列を追加する。
この場合、第4の同定元文字の部首文字コード[石]が、字形要素構造体141の配列[1]に格納された部首文字コード[石]と同一である。従って、第4の同定元文字の部首文字コード[石]は、同定先文字「鉱」の学習データとして字形要素構造体141に追加されない。また、第4の同定元文字の部分文字コード[廣]が、字形要素構造体141の配列[1]に格納された部首文字コード[廣]と同一である。従って、第4の同定元文字の部分文字コード[廣]は、同定先文字「鉱」の学習データとして字形要素構造体141に追加されない。
以上から、この場合、第4の同定元文字の学習処理は実行されるが、同定先文字「鉱」の字形要素構造体141のいずれの格納フィールドにも、新たな部首文字コード及び部分文字コード等が格納されないので、「部首」及び「部分」についての学習文字数も「2」のままとされる。
この学習処理の結果、第4の同定元文字は、字形要素「石」が同定先文字「鉱」の字形要素として学習されることにより、文字「鉱」の候補文字として認識されることになる。
図9は、部首「石」と部分「廣」とにより構成される新たな同定元文字についての同定処理について示す。新たな同定元文字は、JISコードにより規格化された文字ではなく、外字である。新たな同定元文字は、前述した部首「金」と部分「廣」とにより構成される第2の同定元文字の異字体であるものとする。
この場合、外字字形要素情報31Eは、新たな同定元文字について、配置パターン「1」と、部首「金」を表す部首文字コードを含む部首の字形要素情報と、部分「廣」を表す部分文字コードを含む部分の字形要素情報とを格納する。
例えば、OCR認識部111は、新たな同定元文字について、文字認識辞書12を用いて、文字認識処理を行うことにより、新たな同定元文字についての第1の候補文字として、「ドットパターン」が類似する複数の文字を抽出して、OCR候補文字リスト13に格納する。また、候補文字リスト生成部112は、新たな同定元文字の部首「金」について、字形要素辞書14を用いて、字形要素の比較を行うことにより、新たな同定元文字についての第2の候補文字として、「部首」が一致する複数の文字を抽出して、部首候補文字リスト15に格納する。また、候補文字リスト生成部112は、新たな同定元文字の部分「廣」について、字形要素辞書14を用いて、字形要素の比較を行うことにより、新たな同定元文字についての第3の候補文字として、「部分」が一致する複数の文字を抽出して、部分候補文字リスト16に格納する(処理#91)。
この時、字形要素辞書14における同定先文字「鉱」の学習データである字形要素構造体141において、第4の同定元文字の部首「金」は、配列[0]に格納される。従って、この場合、候補文字リスト生成部112は、部首候補文字リスト15において、文字「鉱」を、「学習候補」のフィールドではなく、「候補文字」のフィールドに格納する。
また、字形要素辞書14における同定先文字「鉱」の学習データである字形要素構造体141において、第4の同定元文字の部分「廣」は、配列[1]に格納される。この場合、候補文字リスト生成部112は、部分候補文字リスト16において、文字「鉱」を、「候補文字」のフィールドではなく、「学習候補」のフィールドに格納する。
この後、表示用候補文字リスト生成部113は、OCR候補文字リスト13、部首候補文字リスト15及び部分候補文字リスト16の各々に同一の文字「鉱」が共通に含まれるので、同定先文字として、文字「鉱」を決定する(処理#92)。これにより、外字である同定元文字「鉱」についての同定先文字「鉱」が定まる。
従って、文字情報学習部114は、新たな同定元文字を決定された同定先文字「鉱」の学習データとして学習する学習処理を行わず(処理#93)、表示用候補文字リスト17は、生成されず、表示部5に表示されない。
具体的には、この場合、同定元文字の部首文字コード[金]が、字形要素構造体141の配列[0]に格納された部首文字コード[金]と同一である。従って、同定元文字「鉱」の部首文字コード[金]は、同定先文字「鉱」の学習データとして字形要素構造体141に追加されない。また、同定元文字の部分文字コード[廣]が、字形要素構造体141の配列[1]に格納された部首文字コード[廣]と同一である。従って、同定元文字の部分文字コード[廣]は、同定先文字「鉱」の学習データとして字形要素構造体141に追加されない。以上から、この場合、新たな同定元文字は、同定先文字「鉱」の学習データとして字形要素構造体141に追加されない。
図10は、文字の同定処理フローである。
例えば、オペレータが、外字ファイル2に格納された文字について、字形要素の生成を行う(ステップS1)。これにより、外字ファイル2に対応する外字字形要素格納ファイル3が得られる。この後、同定処理部11が、外字ファイル2に格納された全ての文字(外字)について同定処理を終了したか否かを調べる(ステップS2)。
全ての文字(外字)について同定処理を終了していない場合(ステップS2 No)、同定処理部11が、1文字分の文字パターンを、処理対象の文字として、外字ファイル2から選択して読み出し、処理対象である文字について、部首の字形要素情報と部分の字形要素情報とを、外字字形要素格納ファイル3から読み出す(ステップS3)。
同定処理部11が、処理対象である文字について、同定処理を行い(ステップS4)、ステップS2を実行する。
ステップS2において、全ての文字(外字)について同定処理を終了した場合(ステップS2 Yes)、同定処理部11が、同定元の外字ファイル2の文字と同定先文字との対応関係に基づいて、文字コード変換定義リスト4を生成する(ステップS5)。
図11及び図12は、1文字についての同定処理フローである。
OCR認識部111が、処理対象である文字について、文字認識辞書12を用いて文字認識処理を行い(ステップS11)、文字認識の結果であるOCR候補文字リスト13を生成する(ステップS12)。
候補文字リスト生成部112が、部首が存在しないか否かを調べる(ステップS13)。部首が存在する場合(ステップS13 No)、候補文字リスト生成部112が、字形要素を用いて、部首候補文字リスト15及び部分候補文字リスト16を生成する(ステップS14)。部首が存在しない場合(ステップS13 Yes)、ステップS14は省略される。
この後、表示用候補文字リスト生成部113が、表示用候補文字リストを生成する(ステップS15)。この時、いずれの候補文字リストにも存在する文字は、精度の高い候補として、その優先順位を高くされる。
この後、表示用候補文字リスト生成部113が、いずれの候補文字リストにも文字が存在するか否かを調べる(ステップS16)。いずれの候補文字リストにも共通に存在する文字がない場合(ステップS16 No)、表示用候補文字リスト生成部113が、候補文字リストを表示部5に表示する(ステップS17)。これを見たオペレータによる選択入力に基づいて、文字情報学習部114が、同定先文字を確定し(ステップS18)、同定先文字の字形要素辞書14に同定元文字の字形要素情報を学習させる(ステップS19)。
ステップS16において、いずれの候補文字リストにも共通に存在する文字がある場合(ステップS16 Yes)、ステップS17〜S19は省略され、当該共通に存在する文字が同定先文字として確定される。
図13は、候補文字リスト生成の処理フローである。
候補文字リスト生成部112が、同定先文字のセットの文字を全て処理したか否かを調べる(ステップS21)。同定先文字のセットの文字を全て処理していない場合(ステップS21 No)、候補文字リスト生成部112が、字形要素辞書14を用いて、配置パターン及び部首文字コードが一致する場合には当該部首を部首候補文字リスト15に追加し(ステップS22)、配置パターン及び部分文字コードが一致する場合には当該部分を部分候補文字リスト16に追加し(ステップS23)、この後、ステップS21を実行する。
ステップS21において、同定先文字のセットの文字を全て処理した場合(ステップS21 Yes)、処理を終了する。
図14は、候補文字学習の処理フローである。
文字情報学習部114が、字形要素辞書14において、同定先文字の部首の学習リストに、配置パターンと同定元文字の部首文字コードを追加し、学習文字数をインクリメントする(ステップS31)。
また、文字情報学習部114が、字形要素辞書14において、同定先文字の部分の学習リストに、配置パターンと同定元文字の部分文字コードを追加し、学習文字数をインクリメントする(ステップS32)。
この後、文字情報学習部114が、同定元文字の文字パターンデータを文字認識辞書12に登録し、同定先文字が候補文字となるように学習させる(ステップS33)。
1 文字同定装置
2 外字ファイル
3 外字字形要素格納ファイル
4 文字コード変換定義リスト
5 表示部
6 キーボード
11 同定処理部
12 文字認識辞書
13 OCR候補文字リスト
14 字形要素辞書
15 部首候補文字リスト
16 部分候補文字リスト
17 表示用候補文字リスト
18 同定元/同定先文字対応関係リスト
111 OCR認識部
112 候補文字リスト生成部
113 表示用候補文字リスト生成部
114 文字情報学習部

Claims (10)

  1. 文字のドットパターンを格納する文字認識格納部と、
    前記文字認識格納部に格納された前記文字について、部首の配置を示す配置パターンと、部首を表す部首文字コードを含む部首の字形要素情報と、前記部首以外の部分を表す部分文字コードを含む部分の字形要素情報とを格納する字形要素格納部と、
    予め定められた文字を表す文字コードにより表される規格化された文字に含まれない文字である外字のドットパターンを格納する外字格納部と、
    前記外字格納部に格納された前記外字について、部首の配置を示す配置パターンと、部首を表す部首文字コードを含む部首の字形要素情報と、前記部首以外の部分を表す部分文字コードを含む部分の字形要素情報とを格納する外字字形要素格納部と、
    前記外字格納部から選択した処理対象である外字について、前記外字格納部に格納された前記外字のドットパターンと前記文字認識格納部に格納された文字のドットパターンとに基づいて、前記文字認識格納部に格納された文字から、前記処理対象である外字を同定する第1の候補文字を抽出するOCR認識部と、
    前記処理対象である外字について、前記字形要素格納部に格納された文字についての前記部首の字形要素情報と、前記外字字形要素格納部に格納された前記外字についての前記部首の字形要素情報とに基づいて、前記字形要素格納部に格納された文字から、前記処理対象である外字を同定する第2の候補文字を抽出し、前記処理対象である外字について、前記字形要素格納部に格納された文字についての前記部分の字形要素情報と、前記外字字形要素格納部に格納された前記外字についての前記部分の字形要素情報とに基づいて、前記字形要素格納部に格納された文字から、前記処理対象である外字を同定する第3の候補文字を抽出する候補文字リスト生成部とを備える
    ことを特徴とする文字同定装置。
  2. 前記文字認識格納部に格納された文字は、前記規格化された文字、又は、前記規格化された文字及び前記外字を含む
    ことを特徴とする請求項1に記載の文字同定装置。
  3. 前記文字同定装置は、更に、
    前記第1の候補文字乃至第3の候補文字において、前記候補文字が重複して含まれる程度に応じて、優先順位を付する表示用候補文字リスト生成部を備える
    ことを特徴とする請求項1に記載の文字同定装置。
  4. 前記第1の候補文字乃至第3の候補文字の中から、前記処理対象である外字を同定する文字である同定先文字を決定する文字情報学習部を備える
    ことを特徴とする請求項1に記載の文字同定装置。
  5. 前記文字情報学習部は、前記第1の候補文字乃至第3の候補文字の各々に共通する文字が存在する場合に、当該共通する文字を、前記同定先文字として決定する
    ことを特徴とする請求項4に記載の文字同定装置。
  6. 前記文字同定装置は、更に、
    前記第1の候補文字乃至第3の候補文字を出力する出力部を備え、
    前記文字情報学習部は、前記出力部に出力された前記候補文字を指定する選択入力に基づいて、前記同定先文字を決定する
    ことを特徴とする請求項4に記載の文字同定装置。
  7. 前記文字情報学習部が、前記処理対象である外字を同定元文字とし、前記同定元文字と前記同定先文字とを対応付ける文字対応関係リストを生成する
    ことを特徴とする請求項4に記載の文字同定装置。
  8. 前記文字情報学習部が、前記処理対象である外字を同定元文字とし、前記同定元文字についての前記部首の字形要素情報又は前記部分の字形要素情報を、前記同定先文字についての学習要素情報として、前記同定先文字についての前記部首の字形要素情報又は前記部分の字形要素情報に追加する
    ことを特徴とする請求項4に記載の文字同定装置。
  9. 前記候補文字リスト生成部が、前記追加された前記部首の学習要素情報及び前記部分の学習要素情報に基づいて、前記第2の候補文字及び前記第3の候補文字を抽出する
    ことを特徴とする請求項8に記載の文字同定装置。
  10. 文字について、部首の配置を示す配置パターンと、部首を表す部首文字コードを含む部首の字形要素情報と、前記部首以外の部分を表す部分文字コードを含む部分の字形要素情報とを、字形要素格納部に格納する処理と、
    前記字形要素格納部に格納された前記文字のドットパターンを、文字認識格納部に格納する処理と、
    予め定められた文字を表す文字コードにより表される規格化された文字に含まれない文字である外字のドットパターンを、外字格納部に格納する処理と、
    前記外字格納部に格納された前記外字について、部首の配置を示す配置パターンと、部首を表す部首文字コードを含む部首の字形要素情報と、前記部首以外の部分を表す部分文字コードを含む部分の字形要素情報とを、外字字形要素格納部に格納する処理と、
    前記外字格納部から選択した処理対象である外字について、前記外字格納部に格納された前記外字のドットパターンと前記文字認識格納部に格納された文字のドットパターンとに基づいて、前記字形要素格納部に格納された文字から、前記処理対象である外字を同定する第1の候補文字を抽出する処理と、
    前記処理対象である外字について、前記字形要素格納部に格納された文字についての前記部首の字形要素情報と、前記外字字形要素格納部に格納された前記外字についての前記部首の字形要素情報とに基づいて、前記字形要素格納部に格納された文字から、前記処理対象である外字を同定する第2の候補文字を抽出し、前記処理対象である外字について、前記字形要素格納部に格納された文字についての前記部分の字形要素情報と、前記外字字形要素格納部に格納された前記外字についての前記部分の字形要素情報とに基づいて、前記字形要素格納部に格納された文字から、前記処理対象である外字を同定する第3の候補文字を抽出する処理とを、コンピュータに実行させる
    ことを特徴とする文字同定方法。
JP2009283960A 2009-12-15 2009-12-15 文字同定装置及び文字同定方法 Expired - Fee Related JP5387378B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009283960A JP5387378B2 (ja) 2009-12-15 2009-12-15 文字同定装置及び文字同定方法
CN 201010286687 CN102096828B (zh) 2009-12-15 2010-09-17 文字辨识装置及文字辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009283960A JP5387378B2 (ja) 2009-12-15 2009-12-15 文字同定装置及び文字同定方法

Publications (2)

Publication Number Publication Date
JP2011128688A JP2011128688A (ja) 2011-06-30
JP5387378B2 true JP5387378B2 (ja) 2014-01-15

Family

ID=44129916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009283960A Expired - Fee Related JP5387378B2 (ja) 2009-12-15 2009-12-15 文字同定装置及び文字同定方法

Country Status (2)

Country Link
JP (1) JP5387378B2 (ja)
CN (1) CN102096828B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6533395B2 (ja) * 2015-02-26 2019-06-19 株式会社日立システムズ 文字検索方法およびシステム
JP6542546B2 (ja) * 2015-02-27 2019-07-10 株式会社日立システムズ 文書データ処理方法およびシステム
JP6648421B2 (ja) * 2015-06-09 2020-02-14 富士通株式会社 文書を処理する情報処理装置、情報処理方法、およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2682389B2 (ja) * 1993-07-22 1997-11-26 日本電気株式会社 外字登録・検索方式
JPH0916721A (ja) * 1995-06-29 1997-01-17 Nec Corp 文字認識候補選択装置
JP4101345B2 (ja) * 1998-02-27 2008-06-18 三菱電機株式会社 文字認識装置
ES2208164T3 (es) * 2000-02-23 2004-06-16 Ser Solutions, Inc Metodo y aparato para procesar documentos electronicos.
JP2004309754A (ja) * 2003-04-07 2004-11-04 Hitachi Koukiyou Syst Eng Kk 文字同定支援サービスシステム
JP2005031942A (ja) * 2003-07-11 2005-02-03 Konica Minolta Photo Imaging Inc 文字同定支援システム、文字同定支援装置及び情報処理方法
JP5239419B2 (ja) * 2008-03-14 2013-07-17 オムロン株式会社 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造

Also Published As

Publication number Publication date
CN102096828B (zh) 2013-03-13
JP2011128688A (ja) 2011-06-30
CN102096828A (zh) 2011-06-15

Similar Documents

Publication Publication Date Title
JP5647919B2 (ja) 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
JP4744317B2 (ja) 単語検索装置、単語検索方法、及びコンピュータプログラム
EP3539051A1 (en) System and method of character recognition using fully convolutional neural networks
US11842035B2 (en) Techniques for labeling, reviewing and correcting label predictions for PandIDS
JP5387378B2 (ja) 文字同定装置及び文字同定方法
JP5499970B2 (ja) 文書処理装置及びプログラム
KR102223912B1 (ko) 다중 뉴럴 네트워크를 이용한 문자 인식을 위한 장치 및 그것의 동작 방법
JP2015069256A (ja) 文字識別システム
CN102646201A (zh) 字符识别设备和字符识别方法
CN107533652B (zh) 识别装置、识别方法及记录介质
JP7021496B2 (ja) 情報処理装置及びプログラム
JP5357711B2 (ja) 文書処理装置
ITRM930179A1 (it) Apparecchio e procedimento per il riconoscimento di caratteri manoscritti.
US9600480B2 (en) Systems and methods for indexing and linking electronic documents
JP2009146245A (ja) 画像照合方法及び画像照合装置並びに画像照合プログラム
JP6325218B2 (ja) 文字認識結果検証装置及び文字読取システム
JP6320089B2 (ja) 認識装置、認識方法およびプログラム
JPWO2017013719A1 (ja) 文字認識装置、文字認識方法及び文字認識プログラム
JP2009181225A (ja) Ocr装置、証跡管理装置及び証跡管理システム
US20200250432A1 (en) Annotation device, annotation method, and non-transitory computer-readable storage medium
JP2002236877A (ja) 文字列認識方法、文字認識装置およびプログラム
CN110390243A (zh) 信息处理装置以及存储介质
KR100470346B1 (ko) 이미지의 클러스터링 방법 및 이 방법을 이용하여 문자를고속으로 입력 및 교정하는 방법
JP2878772B2 (ja) 光学的文字読取装置
JP2020140350A (ja) 文字画像特定装置、画像形成装置及び文字画像特定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130923

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees