JP5239419B2

JP5239419B2 - 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造

Info

Publication number: JP5239419B2
Application number: JP2008066504A
Authority: JP
Inventors: 知禎相澤
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2008-03-14
Filing date: 2008-03-14
Publication date: 2013-07-17
Anticipated expiration: 2028-03-14
Also published as: CN101533476A; JP2009223556A; KR101039447B1; KR20090098685A; CN101533476B; EP2120185B1; EP2120185A1

Description

この発明は、例えば複数国の言語に対応して文字認識を行うような文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造に関する。

従来、複数種の言語を認識対象とする文字認識に関する種々の技術が提案されている。
例えば、言語毎に認識用辞書を持つ文字認識システムが提案されている（特許文献１参照）。この文字認識システムは、複数の言語向けの特徴量辞書と、複数の言語向けの特徴量抽出プログラムとを有しており、認識したい言語用の特徴量抽出プログラムおよび特徴量辞書をダウンロードして文字認識するものである。

また、認識用辞書データを内部メモリとメモリカードに分割した携帯情報端末が提案されている（特許文献２参照）。この携帯情報端末は、文字認識プログラムと、候補絞り込み用の辞書データとを高速メモリにロードし、詳細辞書データを端末付属のメモリカードに記憶しておくものである。

また、複数言語についての認識用辞書と言語毎の認識用辞書を持つ文字認識装置が提案されている（特許文献３参照）。この文字認識装置は、文字種別に辞書を有し（例えば日本語辞書と英語辞書）、認識対象の文字の種別によって適宜辞書を切り替えるものである。この切替は、まず英語辞書にて認識し、判読不能な文字があれば続いて日本語辞書にて認識するといったように順次行われるものである。

しかし、このような従来の文字認識は、認識対象言語が増加すると、メモリ使用量や処理時間が増加するという問題がある。

詳述すると、例えば、英語、独語、仏語を認識対象言語とする場合、文字“Ａ”は英語、独語、仏語のいずれでも使用される。このため、特許文献１，３のように言語毎に認識用辞書を持ったとき、英語、独語、仏語のいずれの認識用辞書にも文字「Ａ」のマッチング情報が存在し、メモリ内に重複して記憶されることになる。

同様に、数字や記号（“！”、“＆”等）は、どの言語でも共通に使用される。このため、言語毎に認識用辞書を持ったとき、言語の数だけ数字や記号のマッチング情報が存在し、メモリ内に重複して記憶されることになる。

また、特許文献２のように候補絞り込み用の辞書データを有する場合、本来の文字認識に必要な詳細辞書データに候補絞り込み用の辞書データが加わるため、全体のデータ量が多くなり、必要な記憶容量が大きくなる。

一方、重複を軽減するために複数の言語を１つの認識用辞書にまとめると、マッチング処理回数が冗長になり、処理時間が長くなる。例えば、日本語と英語を１つにまとめた場合、英語のみを認識対象としたいにもかかわらず、日本語のマッチング情報との照合処理もすることとなり処理が冗長となる。

これに対して、例えば、前記特許文献３のように日本語と英語（数字、記号を含む）のマッチング情報をそれぞれ独立した認識用辞書とした場合、日本語と英語が混在した文字列を認識対象としたいときに辞書の切り替えに時間がかかり、やはり処理時間が増加する。

このような問題は、携帯機器のようにＣＰＵが貧弱でメモリ容量が少ない環境下では、非常に大きな問題となる。
特開平０７−２００７３７号公報特開２００５−１４１６０４号公報特開２００６−０９２１３８号公報

この発明は、上述した問題に鑑み、認識対象言語の増加によるメモリ使用量および処理時間の増加を共に抑えることを目的としている。

この発明は、各登録文字データに対して文字を分類する分類区分を１または複数付与した辞書データを記憶手段に記憶させておき、指定手段により前記分類区分を指定させる分類区分指定ステップと、文字画像取得手段により認識目的の文字画像を取得する文字画像取得ステップと、前記辞書データに登録されている登録文字データのうち前記指定ステップで指定された分類区分が付与されている登録文字データに照合対象を減少させる照合対象減少ステップと、該文字画像内の文字を前記照合対象減少ステップで減少させた照合対象の各登録文字データと照合する照合ステップと、照合結果から認識した文字を出力手段により出力する文字出力ステップとをコンピュータに実行させる文字認識プログラムにおいて、前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録されており、各文字種の登録文字データが記憶されている領域の先頭アドレスを示す先頭アドレスデータを前記記憶手段に記憶させておき、前記照合対象減少ステップは、照合対象の文字種の先頭アドレスにジャンプして当該文字種内で前記分類区分が付与されている登録文字データによる照合を行い、当該文字種内の照合が終了すれば次の照合対象の文字種の先頭アドレスにジャンプする処理を繰り返して照合対象を減少させる文字認識プログラムであることを特徴とする。

前記分類区分は、英語と日本語といったように言語を区別可能な属性で構成することができる。また、言語を区別するだけでなく、氏名、電話番号、Ｅ−ｍａｉｌ、あるいはＵＲＬといったように、言語以外の属性で構成することもできる。

前記指定手段は、利用者による入力操作を許容して属性を選択させる操作部、あるいは、適宜の処理により前記分類区分を決定する処理部など、適宜の手段で構成することができる。
前記出力手段は、画面表示を行う表示手段など、出力を行う適宜の手段で構成することができる。

この発明により、複数言語で共通する文字について、複数言語の分類区分を付与した１つの登録文字データにまとめるといったことができ、辞書データのデータ量を少なくすることができる。また、照合対象減少ステップにより照合に用いる登録文字データを減らすことができ、全体として照合時間を短縮することができる。

ここで前記文字種は、例えば、標準文字のアルファベットと斜体字のアルファベット、ひらがなとカタカナ、第一水準漢字と第二水準人名漢字と第二水準地名漢字、あるいは、アルファベットとドイツ語ひげ風文字といったように、文字の種類で構成することができる。

上述した構成により、照合不要な文字種を照合対象から除外でき、全体として照合時間を短縮することができる。

また上述したように、前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成されることができる。
これにより、登録文字データを共通して用いる複数の言語を分類区分により判別することが可能となる。

またこの発明の態様として、前記分類区分と前記文字種の一方または両方を、ビット列コードにより構成することができる。
これにより、複数の分類区分や複数の文字種を１つのコードで表すことができる。

またこの発明は、前記文字認識プログラムと前記辞書データとを記憶する前記記憶手段と、前記各ステップを実行する演算手段とを備えた文字認識電子部品とすることができる。
これにより、文字認識電子部品を携帯端末に搭載して文字認識機能を簡単に追加することが可能になる。

またこの発明は、前記文字認識プログラムと前記辞書データとを記憶する前記記憶手段と、前記各ステップを実行する演算手段と、前記指定手段、文字画像取得手段、および前記出力手段とを備えた文字認識装置とすることができる。
これにより、実際に動作する文字認識装置を提供することができる。

またこの発明は、各登録文字データに対して文字を分類する分類区分を１または複数付与した辞書データを記憶手段に記憶させておき、指定手段により前記分類区分を指定させる分類区分指定ステップと、文字画像取得手段により認識目的の文字画像を取得する文字画像取得ステップと、前記辞書データに登録されている登録文字データのうち前記指定ステップで指定された分類区分が付与されている登録文字データに照合対象を減少させる照合対象減少ステップと、該文字画像内の文字を前記照合対象減少ステップで減少させた照合対象の各登録文字データと照合する照合ステップと、照合結果から認識した文字を出力手段により出力する文字出力ステップとを実行する文字認識方法において、前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録されており、各文字種の登録文字データが記憶されている領域の先頭アドレスを示す先頭アドレスデータを前記記憶手段に記憶させておき、前記照合対象減少ステップは、照合対象の文字種の先頭アドレスにジャンプして当該文字種内で前記分類区分が付与されている登録文字データによる照合を行い、当該文字種内の照合が終了すれば次の照合対象の文字種の先頭アドレスにジャンプする処理を繰り返して照合対象を減少させる文字認識方法とすることができる。
これにより、効率の良い文字認識方法を使用することができる。

またこの発明は、文字認識に利用される辞書データのデータ構造であって、各登録文字データに対して文字を分類する分類区分が１または複数付与され、前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録されたデータ構造とすることができる。
これにより、効率よく文字認識することができる辞書データを提供することが可能になる。

この発明の態様として、前記文字種単位の先頭アドレスを示す先頭アドレス情報がヘッダ部に登録されることができる。
これにより、ヘッダ部の先頭アドレスを参照して認識対象の文字種部分へ直接ジャンプして照合を行うことができる。従って、文字認識の処理時間を短縮できる効率良い辞書データを提供できる。

この発明により、認識対象言語の増加によるメモリ使用量および処理時間の増加を共に抑えることができる。

この発明の一実施形態を以下図面と共に説明する。
図１は、携帯端末１の斜視図を示し、図２は、携帯端末１の構成のブロック図を示す。

携帯端末１は、図１に示すように、画像入力部３、操作部５、及び操作画面表示部７が設けられている。画像入力部３は、画像を撮像するデジタルカメラであり、操作部５は、押下操作されるボタンであり、操作画面表示部７は、画像を表示する液晶ディスプレイあるいは有機ＥＬディスプレイである。

図２に示すように、画像入力部３は、Ａ／Ｄ変換回路１１、および入力画像メモリ１２を介してバス１６に接続されている。画像入力部３が撮像して得た撮像画像はＡ／Ｄ変換回路１１にてＡ／Ｄ変換され、入力画像メモリ１２でデジタル画像データとして記憶され、ＣＰＵ１７に送信される。このデジタル画像データは、最終的に別途の記憶装置（不揮発性メモリなど）に記憶しても良い。なお、画像入力部３は、ＣＰＵ１７から撮像信号を受けて撮像を開始する。

操作部５は、バス１６に接続されている。この操作部５は、利用者に押下操作された押下信号を、バス１６を介してＣＰＵ１７に送信する。

操作画面表示部７は、Ｄ／Ａ変換回路１３、および出力画像メモリ１４を介してバス１６に接続されている。ＣＰＵ１７から画像データが送られてくると、出力画像メモリ１４に一時記憶され、Ｄ／Ａ変換回路１３でＤ／Ａ変換し、操作画面表示部７に表示する。

また、バス１６には、ＣＰＵ１７、ＲＯＭ１８、およびＲＡＭ１９が接続されている。
ＣＰＵ１７は、ＲＯＭ１８に記憶されたプログラムに従ってＲＡＭ１９を一時記憶領域に使用して各種動作を行うプロセッサであり、各部を制御する制御機能２１と、文字認識機能２２を有している。
ＲＯＭ１８は、文字認識プログラム２３、設定データ２４、および辞書データ２５を記憶している。
ＲＡＭ１９は、ＣＰＵ１７が各種制御や演算に使用するデータを一時記憶する。

なお、携帯端末１には、無線通信を行う通信アンテナ、音声出力を行うスピーカ、および集音を行うマイク等も設けられている。これにより、携帯電話機として利用できるように構成されている。

また、図に仮想線で示すように、ＣＰＵ１７とＲＯＭ１８は、１つのチップ１５に搭載して電子部品として構成してもよい。この場合、チップ１５を携帯端末１に備えれば、簡単に文字認識機能を追加することができる。

図３，図４は、文字認識を行う際にＣＰＵ１７が操作画面表示部７に表示させる画面の説明図である。

図３（Ａ）に示すアプリ選択画面３０は、アプリ選択部３１と、選択ボタン３３とが設けられている。アプリ選択部３１は、利用者に対して希望するアプリケーションを選択可能に表示する部分であり、この実施例では単語リーダーと名刺リーダーが選択可能なアプリケーションとして表示されている。単語リーダーが選択されて選択ボタン３３が押下されると言語選択画面４０に移行し、名刺リーダーが選択されて選択ボタン３３が押下されると名刺カテゴリ選択画面５０に移行する。

図３（Ｂ）に示す言語選択画面４０は、読言語選択部４１と、選択ボタン４３とが設けられている。この言語選択部４１で利用者に読取りたい言語が選択され、選択ボタン４３が押下されると、図４（Ｂ）の認識画面６０に移行する。

図４（Ａ）に示す名刺カテゴリ選択画面５０は、カテゴリ選択部５１と選択ボタン５３が設けられている。このカテゴリ選択部５１で名刺から読取りたいカテゴリが利用者に選択され、選択ボタン５３が押下されると、図４（Ｂ）の認識画面６０に移行する。

図４（Ｂ）に示す認識画面６０は、撮像画像表示部６１、および認識ボタン６３が設けられている。認識ボタン６３が利用者に押下操作されると、ＣＰＵ１７は、表示していた撮像画像に含まれる文字画像６２を認識し、辞書データ２５と照合する。

図５は、クラスコード２６と言語コード２７について説明する説明図であり、図６は、このクラスコード２６と言語コード２７を用いた辞書データ２５の構成図であり、図７は、このクラスコード２６と言語コード２７を用いた設定データ２４の構成図である。

クラスコード２６（文字種コードと呼んでもよい）は、図５（Ａ）に示すように、文字種によって文字を分類するビット列コードである。このクラスコード２６により、辞書データ２５（図６参照）の個別辞書部２５ｂに記憶されている各文字のマッチング情報２８が分類され整理されている。

具体的には、クラスコード２６により、アルファベット（標準文字）、数字（標準文字）、記号（標準文字）、アルファベット（斜体字）、数字（斜体字）、記号（斜体字）、ドイツ語ひげ風文字、ひらがな、カタカナ、日中共通漢字、日本第一水準漢字、日本第二水準漢字（人名・地名）、日本第二水準漢字（その他）、中国簡体字第一水準、中国簡体字第二水準、およびハングルに分類されている。

ここで、アルファベットと数字と記号については、標準文字と斜体字を別々に準備することで、認識率を高めている。
また、日本語と中国語とで共通する漢字は、日中共通漢字として分類し、辞書データ２５における日本語部分および中国語部分からこの日中共通漢字を除いておくことで、辞書データ２５の容量を少なくして最適化している。

この最適化について、図６に図示している例で詳述すると、日本語（日本語第一水準漢字）と中国語（中国簡体字第一水準）で共通する漢字「的」の文字のマッチング情報２８は、日中共通漢字（クラスコード：０ｘ０２００）に記憶され、日本語第一水準漢字（クラスコード：０ｘ０４００）と中国簡体字第一水準（クラスコード：０ｘ２０００）に記憶されていない。従って、同じ漢字「的」の文字のマッチング情報２８を日本語部分と中国語部分に重複して記憶することを防止している。

図５（Ｂ）に示す言語コード２７（属性コードと呼んでもよい）は、各文字を、それぞれどの言語で用いられるかといった属性により分類するビット列コードである。辞書データ２５（図６参照）内の１つの文字には、複数の言語コード２７が付与されることがある。

この言語コード２７により、辞書データ２５（図６参照）内の各文字のマッチング情報２８は、具体的には日本語、中国語、ハングル、英語、独語、仏誤、電話番号、Ｅ−ｍａｉｌ、及びＵＲＬといった属性が付与されている。

図６に図示する例で詳述すると、アルファベットの「Ａ」は、英語（言語コード：０ｘ０００８）、独語（言語コード０ｘ００１０）、仏語（言語コード：０ｘ００２０）、Ｅ−ｍａｉｌ（言語コード：０ｘ０２００）、およびＵＲＬ（言語コード：０ｘ０４００）で用いられるものであるから、これらの言語コード２７（ビット列コード）を加算した言語コード２７（言語コード：０ｘ０６３８）が付与されている。

また、上記「Ａ」と同じくクラスコード２６によりアルファベットに分類されている「Ｔ」は、上述した「Ａ」の属性に加えて、電話番号（言語コード：０ｘ０１００）でも用いられるものであるから、これらの言語コード２７（ビット列コード）を加算した言語コード２７（言語コード：０ｘ０７３８）が付与されている。

図６に示すように、辞書データ２５は、ヘッダ部２５ａと個別辞書部２５ｂにより構成されている。
ヘッダ部２５ａには、各クラスの先頭アドレス２９が順番に記憶されている。

個別辞書部２５ｂには、各文字のマッチング情報２８が、クラスコード２６によって区分けして記憶されている。また、各文字のマッチング情報２８には、言語コード２７が付与されている。この言語コード２７は、マッチング情報２８の文字の属性を示す複数の言語コード２７を加算したビット列コードである。したがって、例えばアルファベットの「Ａ」には、英語、独語、仏語、Ｅ−ｍａｉｌ、およびＵＲＬの５属性のビット列コードを加算した「０ｘ０６３８」が付与されている。

このように、辞書データ２５は、クラスコード２６でマッチング情報２８を区分けすると共に、各マッチング情報２８に言語コード２７を付与することで、データ量の削減とマッチング処理時間の短縮を図れ、しかも拡張性の高いデータ構造となっている。

図７は、設定データ２４の構成図を示す。
設定データ２４は、ＩＮＤＥＸ、項目、クラスコード２６、および言語コード２７で構成されている。

ＩＮＤＥＸは、ユニークな連番を記憶している。
項目は、アプリケーションである単語リーダーと名刺リーダーとに分けて構成されている。単語リーダーには、各種言語の項目が設定されており、名刺リーダーには、読取対象（氏名や電話番号など）が設定されている。

クラスコード２６は、項目で定められる用途に対応するクラスコード２６（ビット列コード）が加算されたコードが記憶されている。つまり、例えば単語リーダーにおける日本語では、ひらがな（クラスコード：０ｘ００８０）、カタカナ（クラスコード：０ｘ０１００）、日中共通漢字（クラスコード：０ｘ０２００）、および日本第一水準漢字（クラスコード：０ｘ０４００）を読取る必要があるため、これらのクラスコード２６を加算したクラスコード２６（０ｘ０７８０）が記憶されている。

言語コード２７は、項目で定められる用途に対応する言語コード２７がビット列コードで記憶されている。
この設定データ２４により、利用者に用途を選択させて、辞書データ２５のうちマッチングを行わなければならない対象文字を最小限に減らせるようにしている。

図８は、携帯端末１のＣＰＵ１７が実行する動作のフローチャートを示す。
ＣＰＵ１７は、ＲＯＭ１８からアプリ機能を呼び出し、言語選択処理を実行する（ステップＳ１）。この言語選択処理では、図３（Ａ）に示したアプリ選択画面３０を操作画面表示部７に表示し、アプリ選択部３１で「単語リーダー」と「名刺リーダー」のいずれか一方を選択させる。「単語リーダー」が選択された場合は、続いて言語選択画面４０を表示し、言語選択部４１で言語を選択させる。「名刺リーダー」が選択された場合は、続いて名刺カテゴリ選択画面５０を表示し、カテゴリ選択部５１で読取対象を選択させる。

これにより設定データ２４（図７参照）の項目（ＩＮＤＥＸ）が定まり、ＣＰＵ１７は、そのＩＮＤＥＸのクラスコード２６と言語コード２７を設定データ２４から読み取って一時記憶する。

ＣＰＵ１７は、操作画面表示部７に画像入力部３で撮影している映像を動画表示し、利用者に対して読取りたい文字画像を撮像させる（ステップＳ２）。この撮像は、利用者による操作部５の操作をトリガーとして実行する。

ＣＰＵ１７は、画像入力部３で取得した撮像画像を操作画面表示部７に表示し、利用者に対象文字を選択させる（ステップＳ３）。この対象文字の選択は、読取対象の領域を操作部５の操作によって選択させることで実行すると良い。
また、このときＣＰＵ１７は、選択された領域内の文字を切り出し、一文字ずつの文字画像に切り分けておくとよい。

ＣＰＵ１７は、ＲＯＭ１８から文字認識プログラム２３を読み出して文字認識機能２２を開始し、利用者に選択された対象文字の撮像画像に対する認識処理を実行する（ステップＳ４）。ＣＰＵ１７は、この認識処理で認識した文字を操作画面表示部７に表示し（ステップＳ５）、処理を終了する。

図９は、ＣＰＵ１７が上記ステップＳ４にて実行する認識処理の詳細なフローチャートを示す。
認識処理を開始したＣＰＵ１７は、まず変数ｉを初期化し（ステップＳ１１）、クラスｉが認識対象クラスか否か判定する（ステップＳ１２）。ここで、クラスｉとは、図６の辞書データ２５に示す上からｉ番目のクラスをいう。このときＣＰＵ１７は、ステップＳ１で取得したクラスコード２６にクラスｉが含まれていればクラスｉが認識対象クラスであり、含まれていなければ認識対象クラスでないと判定する。

認識対象クラスであった場合（ステップＳ１２：Ｙｅｓ）、ＣＰＵ１７は、辞書データ２５のヘッダ部２５ａを参照し、個別辞書部２５ｂ内のクラスｉの先頭アドレス２９に直接アクセスする（ステップＳ１３）。この直接アクセスにより、認識対象でないクラスをジャンプして、処理速度を速めている。

ＣＰＵ１７は、変数ｊを初期化し（ステップＳ１４）、辞書データ２５におけるクラスｉのｊ文字目の言語コード２７が対象言語コードか否か判定する（ステップＳ１５）。このときＣＰＵ１７は、ステップＳ１で設定データ２４から取得した言語コード２７のビット列コード情報のいずれかが、辞書データ２５のクラスｉのｊ文字目の言語コード２７のビット列コード情報に含まれていればｊ文字目が対象言語コードであり、含まれていなければ対象言語コードでないと判定する。

対象言語コードであれば（ステップＳ１５：Ｙｅｓ）、ＣＰＵ１７は、辞書データ２５におけるクラスｉのｊ文字目のマッチング情報２８により、ステップＳ３で選択された対象文字の照合を行う（ステップＳ１６）。ここで、照合ＯＫであれば、その対象文字が何であるか判別できたため、クラスｉのｊ文字目のアドレス（あるいは図示省略するＳｈｉｆｔ−ＪＩＳなどの文字コード）を記憶して文字認識完了とする。照合ＮＧであれば、処理を次のステップＳ１７に進める。

なお、この文字認識は、対象文字の文字数を記憶しておき、全ての文字について照合ＯＫとなれば文字認識完了とし、照合ＯＫとなっていない文字が残っていれば、処理を継続すればよい。

ＣＰＵ１７は、変数ｊに１加算し（ステップＳ１７）、変数ｊが辞書データ２５におけるクラスｉの文字数よりも小さければ（ステップＳ１８：Ｙｅｓ）、ステップＳ１５に処理を戻して繰り返す。

変数ｊがクラスｉの文字数と同じかそれ以上になれば（ステップＳ１８：Ｎｏ）、ＣＰＵ１７は変数ｉに１加算する（ステップＳ１９）。
ＣＰＵ１７は、変数ｉが辞書データ２５のクラス数より小さければステップＳ１２に処理を戻して繰り返し（ステップＳ２０：Ｙｅｓ）、同じかそれ以上であれば（ステップＳ２０：Ｎｏ）、認識処理を終了する。

以上の構成および動作により、認識対象言語の増加によるメモリ使用量の減少と、処理時間の短縮の両立を図ることができる。つまり、複数言語に共通する文字のマッチング情報２８を１つにまとめ、このマッチング情報２８に各言語の言語コード２７を複数加算した言語コード２７を付与することで、辞書データ２５そのもののデータ量を少なくすることができる。従って、携帯電話機である携帯端末１の限られたメモリ容量内に辞書データ２５を記憶させることができ、メモリの空きを増やして他のアプリケーションデータと共に記憶することも可能となる。

また、マッチング情報２８による照合回数を最小限に抑えることができ、処理時間を短縮することができる。この処理時間について、図１０に説明する説明図と共に詳述すると、次のとおりである。

例えば、図３（Ａ）のアプリ選択画面３０で単語リーダーが選択され、図３（Ｂ）の言語選択画面４０で日本語と英語が選択されたとする。この場合、設定データ２４より、クラスコード２６は０ｘ０７８０と０ｘ００２Ｄ、言語コード２７は０ｘ０００１と０ｘ０００８となる。

まず、クラスコード２６により、照合に利用するマッチング情報２８は、図１０（Ａ）に示すように、対象クラス２６ａに絞り込まれる。すなわち、ステップＳ１３でジャンプして対象クラス２６ａの先頭アドレスに直接アクセスするから、対象外のクラスの照合をカットできる。

また、言語コード２７により、照合に利用するマッチング情報２８は、対象言語２７ａにさらに絞り込まれる。すなわち、辞書データ２５でアクセスしているレコード（文字）の言語コード２７に、利用者に選択された言語コード２７（０ｘ０００１と０ｘ０００８）のいずれか一方が含まれていなければ、その文字のマッチング情報２８による照合をカットして次のレコード（文字）へ処理を進めることができる。

従って、照合に利用するマッチング情報２８は、辞書データ２５に登録されている全てのマッチング情報２８のうち、対象クラス２６ａでかつ対象言語２７ａである対象マッチング情報２８ａのみとなる。

同様に、例えば、図３（Ｂ）のアプリ選択画面３０で名刺リーダーが選択され、図４（Ａ）の名刺カテゴリ選択画面５０で電話番号が選択されたとする。この場合、設定データ２４より、クラスコード２６は０ｘ０００７、言語コード２７は０ｘ０１００となる。

まず、クラスコード２６により、照合に利用するマッチング情報２８は、図１０（Ｂ）に示すように、対象クラス２６ａに絞り込まれる。
また、言語コード２７により、照合に利用するマッチング情報２８は、対象言語２７ａにさらに絞り込まれる。
従って、照合に利用するマッチング情報２８は、辞書データ２５に登録されている全てのマッチング情報２８のうち、対象マッチング情報２８ａのみとなる。

このように、クラスコード２６だけで絞り込む場合や、言語コード２７だけで絞り込む場合よりも照合対象のマッチング情報２８を少なく絞り込むことができ、無駄な照合を排除して処理速度を高速にすることができる。

また、クラスコード２６と、辞書データ２５のヘッダ部２５ａに記憶されている先頭アドレス２９により、照合対象のマッチング情報２８が記憶されている領域へ直接的にジャンプして照合することができ、高速に処理することができる。

また、各文字のマッチング情報２８に言語コード２７が付与され、その文字が属する言語（属性）が明確にされているため、照合に用いるマッチング情報２８を最小にすることができる。つまり、例えばアルファベットの文字のうち、「ＴＥＬＥＰＨＯＮＥ」や「ｔｅｌｅｐｈｏｎｅ」に含まれる文字「Ｔ，Ｅ，Ｌ，Ｐ，Ｈ，Ｏ，Ｎ，ｔ，ｅ，ｌ，ｐ，ｈ，ｏ，ｎ」は、名刺リーダーで電話番号を読取る機能でも読取られるものであるから、電話番号の言語コード２７が付与されてる。このため、名刺リーダーで電話番号を読取る際には、アルファベット（標準文字）のクラスのうち、「Ｔ，Ｅ，Ｌ，Ｐ，Ｈ，Ｏ，Ｎ，ｔ，ｅ，ｌ，ｐ，ｈ，ｏ，ｎ」のみが照合対象となる。このように、照合対象を減らすことで、処理時間を短縮することができる。

また、同じ文字が複数言語で登録されているといったことがなく、辞書データ２５そのものを最適化することができる。このため、２カ国語以上の言語を一度に認識するような場合でも、同じ文字をそれぞれの言語で認識するといった冗長処理を防止でき、処理時間を短縮できる。

また、このように照合に用いるマッチング情報２８を、用途に応じて最小限に最適化するため、認識率を高めることができる。すなわち、照合対象のマッチング情報２８が少なければ少ないほど、特徴量の類似による誤認識を防止でき、正しく認識できる割合を増加できる。

また、同じ属性（例えば日本語）であっても、文字種によって細かくクラス分け（例えばひらがな、カタカナ、日本第一水準文字、日本第二水準文字（人名・地名）、日本第二水準文字（その他））しているため、用途に応じて冗長なく高速処理することができる。

また、例えば、斜体字と標準文字、あるいは、独語の現代の標準文字と昔のひげ風の文字等、同じ文字でも字体の大きく異なるものを違うクラスとして分けることにより、用途に応じて、高速性を維持しながら高い認識率を出すことが可能となる。すなわち、このように同じ文字でも字体の大きく異なるものを同じマッチング辞書で認識させようとすると、認識率が悪くなってしまうのが通常である。しかし、クラス分けすることにより、用途に応じてクラスを選択でき、認識率を高めることができる。

また、言語コード２７は、国別に限らず電話番号、Ｅ−ｍａｉｌ、ＵＲＬ、…といった言語以外の用途カテゴリ毎にも割り振っている。これにより、電話番号、Ｅ−ｍａｉｌ、ＵＲＬ、…の各々の用途に使われる文字のみでの認識を、メモリ使用量を増やすことなく高速に行うことができる。

なお、以上の実施形態において、ＲＯＭ１８に記憶されている辞書データ２５は、ＲＡＭ１９に読み出して利用する構成にすると良い。この場合、全ての辞書データ２５を読み出す、または、対象クラス２６ａ、対象言語２７ａ、あるいはこの両方で絞り込んだ辞書データ２５の一部を読み出す構成にするとよい。読み出すデータを絞り込んだ場合、ＲＡＭ１９に読み出すデータ量を少なくできる。

この発明の構成と、上述の実施形態との対応において、
この発明のコンピュータおよび文字認識装置は、実施形態の携帯端末１に対応し、
以下同様に、
文字画像取得手段は、画像入力部３に対応し、
文字認識電子部品は、チップ１５に対応し、
演算手段は、ＣＰＵ１７に対応し、
指定手段は、ステップＳ１を実行するＣＰＵ１７に対応し、
出力手段は、ステップＳ５を実行するＣＰＵ１７に対応し、
記憶手段は、ＲＯＭ１８に対応し、
文字種は、クラスコード２６に対応し、
分類区分は、言語コード２７に対応し、
登録文字データは、マッチング情報２８に対応し、
照合対象は、対象マッチング情報２８ａに対応し、
先頭アドレスデータは、先頭アドレス２９に対応し、
認識目的の文字画像は、文字画像６２に対応し、
分類区分指定ステップは、ステップＳ１に対応し、
文字画像取得ステップは、ステップＳ２に対応し、
文字出力ステップは、ステップＳ５に対応し、
照合対象減少ステップは、ステップＳ１５に対応するも、
この発明は、上述の実施形態の構成のみに限定されるものではなく、多くの実施の形態を得ることができる。

携帯端末の斜視図。携帯端末の構成を示すブロック図。操作画面表示部に表示させる画面の説明図。操作画面表示部に表示させる画面の説明図。クラスコードと言語コードの説明図。辞書データの構成図。設定データの構成図。ＣＰＵが実行する動作のフローチャート。ＣＰＵが実行する認識処理のフローチャート。辞書データによる処理時間短縮の説明図。

１…携帯端末、３…画像入力部、１５…チップ、１７…ＣＰＵ、１８…ＲＯＭ、２３…文字認識プログラム、２５…辞書データ、２５ａ…ヘッダ部、２７…言語コード、２８…マッチング情報、２８ａ…対象マッチング情報、２９…先頭アドレス、６２…文字画像

Claims

各登録文字データに対して文字を分類する分類区分を１または複数付与した辞書データを記憶手段に記憶させておき、
指定手段により前記分類区分を指定させる分類区分指定ステップと、
文字画像取得手段により認識目的の文字画像を取得する文字画像取得ステップと、
前記辞書データに登録されている登録文字データのうち前記指定ステップで指定された分類区分が付与されている登録文字データに照合対象を減少させる照合対象減少ステップと、
該文字画像内の文字を前記照合対象減少ステップで減少させた照合対象の各登録文字データと照合する照合ステップと、
照合結果から認識した文字を出力手段により出力する文字出力ステップとをコンピュータに実行させる文字認識プログラムにおいて、
前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、
前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録されており、
各文字種の登録文字データが記憶されている領域の先頭アドレスを示す先頭アドレスデータを前記記憶手段に記憶させておき、
前記照合対象減少ステップは、
照合対象の文字種の先頭アドレスにジャンプして当該文字種内で前記分類区分が付与されている登録文字データによる照合を行い、
当該文字種内の照合が終了すれば次の照合対象の文字種の先頭アドレスにジャンプする処理を繰り返して照合対象を減少させる
文字認識プログラム。
前記分類区分と前記文字種の一方または両方を、ビット列コードにより構成した
請求項１記載の文字認識プログラム。
請求項１または２に記載の文字認識プログラムと前記辞書データとを記憶する前記記憶手段と、
前記各ステップを実行する演算手段とを備えた
文字認識電子部品。
請求項１または２に記載の文字認識プログラムと前記辞書データとを記憶する前記記憶手段と、
前記各ステップを実行する演算手段と、
前記指定手段、文字画像取得手段、および前記出力手段とを備えた
文字認識装置。
各登録文字データに対して文字を分類する分類区分を１または複数付与した辞書データを記憶手段に記憶させておき、
指定手段により前記分類区分を指定させる分類区分指定ステップと、
文字画像取得手段により認識目的の文字画像を取得する文字画像取得ステップと、
前記辞書データに登録されている登録文字データのうち前記指定ステップで指定された分類区分が付与されている登録文字データに照合対象を減少させる照合対象減少ステップと、
該文字画像内の文字を前記照合対象減少ステップで減少させた照合対象の各登録文字データと照合する照合ステップと、
照合結果から認識した文字を出力手段により出力する文字出力ステップとを実行する文字認識方法において、
前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、
前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録されており、
各文字種の登録文字データが記憶されている領域の先頭アドレスを示す先頭アドレスデータを前記記憶手段に記憶させておき、
前記照合対象減少ステップは、
照合対象の文字種の先頭アドレスにジャンプして当該文字種内で前記分類区分が付与されている登録文字データによる照合を行い、
当該文字種内の照合が終了すれば次の照合対象の文字種の先頭アドレスにジャンプする処理を繰り返して照合対象を減少させる
文字認識方法。
文字認識に利用される辞書データのデータ構造であって、
各登録文字データに対して文字を分類する分類区分が１または複数付与され、
前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、
前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録された
データ構造。
前記文字種単位の先頭アドレスを示す先頭アドレス情報がヘッダ部に登録された
請求項６記載のデータ構造。