JP5239419B2 - 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造 - Google Patents

文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造 Download PDF

Info

Publication number
JP5239419B2
JP5239419B2 JP2008066504A JP2008066504A JP5239419B2 JP 5239419 B2 JP5239419 B2 JP 5239419B2 JP 2008066504 A JP2008066504 A JP 2008066504A JP 2008066504 A JP2008066504 A JP 2008066504A JP 5239419 B2 JP5239419 B2 JP 5239419B2
Authority
JP
Japan
Prior art keywords
character
registered
data
characters
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008066504A
Other languages
English (en)
Other versions
JP2009223556A (ja
Inventor
知禎 相澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2008066504A priority Critical patent/JP5239419B2/ja
Priority to EP09153842A priority patent/EP2120185B1/en
Priority to CN200910004631XA priority patent/CN101533476B/zh
Priority to KR1020090017879A priority patent/KR101039447B1/ko
Publication of JP2009223556A publication Critical patent/JP2009223556A/ja
Application granted granted Critical
Publication of JP5239419B2 publication Critical patent/JP5239419B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Character Discrimination (AREA)

Description

この発明は、例えば複数国の言語に対応して文字認識を行うような文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造に関する。
従来、複数種の言語を認識対象とする文字認識に関する種々の技術が提案されている。
例えば、言語毎に認識用辞書を持つ文字認識システムが提案されている(特許文献1参照)。この文字認識システムは、複数の言語向けの特徴量辞書と、複数の言語向けの特徴量抽出プログラムとを有しており、認識したい言語用の特徴量抽出プログラムおよび特徴量辞書をダウンロードして文字認識するものである。
また、認識用辞書データを内部メモリとメモリカードに分割した携帯情報端末が提案されている(特許文献2参照)。この携帯情報端末は、文字認識プログラムと、候補絞り込み用の辞書データとを高速メモリにロードし、詳細辞書データを端末付属のメモリカードに記憶しておくものである。
また、複数言語についての認識用辞書と言語毎の認識用辞書を持つ文字認識装置が提案されている(特許文献3参照)。この文字認識装置は、文字種別に辞書を有し(例えば日本語辞書と英語辞書)、認識対象の文字の種別によって適宜辞書を切り替えるものである。この切替は、まず英語辞書にて認識し、判読不能な文字があれば続いて日本語辞書にて認識するといったように順次行われるものである。
しかし、このような従来の文字認識は、認識対象言語が増加すると、メモリ使用量や処理時間が増加するという問題がある。
詳述すると、例えば、英語、独語、仏語を認識対象言語とする場合、文字“A”は英語、独語、仏語のいずれでも使用される。このため、特許文献1,3のように言語毎に認識用辞書を持ったとき、英語、独語、仏語のいずれの認識用辞書にも文字「A」のマッチング情報が存在し、メモリ内に重複して記憶されることになる。
同様に、数字や記号(“!”、“&”等)は、どの言語でも共通に使用される。このため、言語毎に認識用辞書を持ったとき、言語の数だけ数字や記号のマッチング情報が存在し、メモリ内に重複して記憶されることになる。
また、特許文献2のように候補絞り込み用の辞書データを有する場合、本来の文字認識に必要な詳細辞書データに候補絞り込み用の辞書データが加わるため、全体のデータ量が多くなり、必要な記憶容量が大きくなる。
一方、重複を軽減するために複数の言語を1つの認識用辞書にまとめると、マッチング処理回数が冗長になり、処理時間が長くなる。例えば、日本語と英語を1つにまとめた場合、英語のみを認識対象としたいにもかかわらず、日本語のマッチング情報との照合処理もすることとなり処理が冗長となる。
これに対して、例えば、前記特許文献3のように日本語と英語(数字、記号を含む)のマッチング情報をそれぞれ独立した認識用辞書とした場合、日本語と英語が混在した文字列を認識対象としたいときに辞書の切り替えに時間がかかり、やはり処理時間が増加する。
このような問題は、携帯機器のようにCPUが貧弱でメモリ容量が少ない環境下では、非常に大きな問題となる。
特開平07−200737号公報 特開2005−141604号公報 特開2006−092138号公報
この発明は、上述した問題に鑑み、認識対象言語の増加によるメモリ使用量および処理時間の増加を共に抑えることを目的としている。
この発明は、各登録文字データに対して文字を分類する分類区分を1または複数付与した辞書データを記憶手段に記憶させておき、指定手段により前記分類区分を指定させる分類区分指定ステップと、文字画像取得手段により認識目的の文字画像を取得する文字画像取得ステップと、前記辞書データに登録されている登録文字データのうち前記指定ステップで指定された分類区分が付与されている登録文字データに照合対象を減少させる照合対象減少ステップと、該文字画像内の文字を前記照合対象減少ステップで減少させた照合対象の各登録文字データと照合する照合ステップと、照合結果から認識した文字を出力手段により出力する文字出力ステップとをコンピュータに実行させる文字認識プログラムにおいて、前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録されており、各文字種の登録文字データが記憶されている領域の先頭アドレスを示す先頭アドレスデータを前記記憶手段に記憶させておき、前記照合対象減少ステップは、照合対象の文字種の先頭アドレスにジャンプして当該文字種内で前記分類区分が付与されている登録文字データによる照合を行い、当該文字種内の照合が終了すれば次の照合対象の文字種の先頭アドレスにジャンプする処理を繰り返して照合対象を減少させる文字認識プログラムであることを特徴とする。
前記分類区分は、英語と日本語といったように言語を区別可能な属性で構成することができる。また、言語を区別するだけでなく、氏名、電話番号、E−mail、あるいはURLといったように、言語以外の属性で構成することもできる。
前記指定手段は、利用者による入力操作を許容して属性を選択させる操作部、あるいは、適宜の処理により前記分類区分を決定する処理部など、適宜の手段で構成することができる。
前記出力手段は、画面表示を行う表示手段など、出力を行う適宜の手段で構成することができる。
この発明により、複数言語で共通する文字について、複数言語の分類区分を付与した1つの登録文字データにまとめるといったことができ、辞書データのデータ量を少なくすることができる。また、照合対象減少ステップにより照合に用いる登録文字データを減らすことができ、全体として照合時間を短縮することができる
ここで前記文字種は、例えば、標準文字のアルファベットと斜体字のアルファベット、ひらがなとカタカナ、第一水準漢字と第二水準人名漢字と第二水準地名漢字、あるいは、アルファベットとドイツ語ひげ風文字といったように、文字の種類で構成することができる。
上述した構成により、照合不要な文字種を照合対象から除外でき、全体として照合時間を短縮することができる。
また上述したように、前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成されることができる。
これにより、登録文字データを共通して用いる複数の言語を分類区分により判別することが可能となる。
またこの発明の態様として、前記分類区分と前記文字種の一方または両方を、ビット列コードにより構成することができる。
これにより、複数の分類区分や複数の文字種を1つのコードで表すことができる。
またこの発明は、前記文字認識プログラムと前記辞書データとを記憶する前記記憶手段と、前記各ステップを実行する演算手段とを備えた文字認識電子部品とすることができる。
これにより、文字認識電子部品を携帯端末に搭載して文字認識機能を簡単に追加することが可能になる。
またこの発明は、前記文字認識プログラムと前記辞書データとを記憶する前記記憶手段と、前記各ステップを実行する演算手段と、前記指定手段、文字画像取得手段、および前記出力手段とを備えた文字認識装置とすることができる。
これにより、実際に動作する文字認識装置を提供することができる。
またこの発明は、各登録文字データに対して文字を分類する分類区分を1または複数付与した辞書データを記憶手段に記憶させておき、指定手段により前記分類区分を指定させる分類区分指定ステップと、文字画像取得手段により認識目的の文字画像を取得する文字画像取得ステップと、前記辞書データに登録されている登録文字データのうち前記指定ステップで指定された分類区分が付与されている登録文字データに照合対象を減少させる照合対象減少ステップと、該文字画像内の文字を前記照合対象減少ステップで減少させた照合対象の各登録文字データと照合する照合ステップと、照合結果から認識した文字を出力手段により出力する文字出力ステップとを実行する文字認識方法において、前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録されており、各文字種の登録文字データが記憶されている領域の先頭アドレスを示す先頭アドレスデータを前記記憶手段に記憶させておき、前記照合対象減少ステップは、照合対象の文字種の先頭アドレスにジャンプして当該文字種内で前記分類区分が付与されている登録文字データによる照合を行い、当該文字種内の照合が終了すれば次の照合対象の文字種の先頭アドレスにジャンプする処理を繰り返して照合対象を減少させる文字認識方法とすることができる。
これにより、効率の良い文字認識方法を使用することができる。
またこの発明は、文字認識に利用される辞書データのデータ構造であって、各登録文字データに対して文字を分類する分類区分が1または複数付与され、前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録されたデータ構造とすることができる。
これにより、効率よく文字認識することができる辞書データを提供することが可能になる。
この発明の態様として、前記文字種単位の先頭アドレスを示す先頭アドレス情報がヘッダ部に登録されることができる。
これにより、ヘッダ部の先頭アドレスを参照して認識対象の文字種部分へ直接ジャンプして照合を行うことができる。従って、文字認識の処理時間を短縮できる効率良い辞書データを提供できる。
この発明により、認識対象言語の増加によるメモリ使用量および処理時間の増加を共に抑えることができる。
この発明の一実施形態を以下図面と共に説明する。
図1は、携帯端末1の斜視図を示し、図2は、携帯端末1の構成のブロック図を示す。
携帯端末1は、図1に示すように、画像入力部3、操作部5、及び操作画面表示部7が設けられている。画像入力部3は、画像を撮像するデジタルカメラであり、操作部5は、押下操作されるボタンであり、操作画面表示部7は、画像を表示する液晶ディスプレイあるいは有機ELディスプレイである。
図2に示すように、画像入力部3は、A/D変換回路11、および入力画像メモリ12を介してバス16に接続されている。画像入力部3が撮像して得た撮像画像はA/D変換回路11にてA/D変換され、入力画像メモリ12でデジタル画像データとして記憶され、CPU17に送信される。このデジタル画像データは、最終的に別途の記憶装置(不揮発性メモリなど)に記憶しても良い。なお、画像入力部3は、CPU17から撮像信号を受けて撮像を開始する。
操作部5は、バス16に接続されている。この操作部5は、利用者に押下操作された押下信号を、バス16を介してCPU17に送信する。
操作画面表示部7は、D/A変換回路13、および出力画像メモリ14を介してバス16に接続されている。CPU17から画像データが送られてくると、出力画像メモリ14に一時記憶され、D/A変換回路13でD/A変換し、操作画面表示部7に表示する。
また、バス16には、CPU17、ROM18、およびRAM19が接続されている。
CPU17は、ROM18に記憶されたプログラムに従ってRAM19を一時記憶領域に使用して各種動作を行うプロセッサであり、各部を制御する制御機能21と、文字認識機能22を有している。
ROM18は、文字認識プログラム23、設定データ24、および辞書データ25を記憶している。
RAM19は、CPU17が各種制御や演算に使用するデータを一時記憶する。
なお、携帯端末1には、無線通信を行う通信アンテナ、音声出力を行うスピーカ、および集音を行うマイク等も設けられている。これにより、携帯電話機として利用できるように構成されている。
また、図に仮想線で示すように、CPU17とROM18は、1つのチップ15に搭載して電子部品として構成してもよい。この場合、チップ15を携帯端末1に備えれば、簡単に文字認識機能を追加することができる。
図3,図4は、文字認識を行う際にCPU17が操作画面表示部7に表示させる画面の説明図である。
図3(A)に示すアプリ選択画面30は、アプリ選択部31と、選択ボタン33とが設けられている。アプリ選択部31は、利用者に対して希望するアプリケーションを選択可能に表示する部分であり、この実施例では単語リーダーと名刺リーダーが選択可能なアプリケーションとして表示されている。単語リーダーが選択されて選択ボタン33が押下されると言語選択画面40に移行し、名刺リーダーが選択されて選択ボタン33が押下されると名刺カテゴリ選択画面50に移行する。
図3(B)に示す言語選択画面40は、読言語選択部41と、選択ボタン43とが設けられている。この言語選択部41で利用者に読取りたい言語が選択され、選択ボタン43が押下されると、図4(B)の認識画面60に移行する。
図4(A)に示す名刺カテゴリ選択画面50は、カテゴリ選択部51と選択ボタン53が設けられている。このカテゴリ選択部51で名刺から読取りたいカテゴリが利用者に選択され、選択ボタン53が押下されると、図4(B)の認識画面60に移行する。
図4(B)に示す認識画面60は、撮像画像表示部61、および認識ボタン63が設けられている。認識ボタン63が利用者に押下操作されると、CPU17は、表示していた撮像画像に含まれる文字画像62を認識し、辞書データ25と照合する。
図5は、クラスコード26と言語コード27について説明する説明図であり、図6は、このクラスコード26と言語コード27を用いた辞書データ25の構成図であり、図7は、このクラスコード26と言語コード27を用いた設定データ24の構成図である。
クラスコード26(文字種コードと呼んでもよい)は、図5(A)に示すように、文字種によって文字を分類するビット列コードである。このクラスコード26により、辞書データ25(図6参照)の個別辞書部25bに記憶されている各文字のマッチング情報28が分類され整理されている。
具体的には、クラスコード26により、アルファベット(標準文字)、数字(標準文字)、記号(標準文字)、アルファベット(斜体字)、数字(斜体字)、記号(斜体字)、ドイツ語ひげ風文字、ひらがな、カタカナ、日中共通漢字、日本第一水準漢字、日本第二水準漢字(人名・地名)、日本第二水準漢字(その他)、中国簡体字第一水準、中国簡体字第二水準、およびハングルに分類されている。
ここで、アルファベットと数字と記号については、標準文字と斜体字を別々に準備することで、認識率を高めている。
また、日本語と中国語とで共通する漢字は、日中共通漢字として分類し、辞書データ25における日本語部分および中国語部分からこの日中共通漢字を除いておくことで、辞書データ25の容量を少なくして最適化している。
この最適化について、図6に図示している例で詳述すると、日本語(日本語第一水準漢字)と中国語(中国簡体字第一水準)で共通する漢字「的」の文字のマッチング情報28は、日中共通漢字(クラスコード:0x0200)に記憶され、日本語第一水準漢字(クラスコード:0x0400)と中国簡体字第一水準(クラスコード:0x2000)に記憶されていない。従って、同じ漢字「的」の文字のマッチング情報28を日本語部分と中国語部分に重複して記憶することを防止している。
図5(B)に示す言語コード27(属性コードと呼んでもよい)は、各文字を、それぞれどの言語で用いられるかといった属性により分類するビット列コードである。辞書データ25(図6参照)内の1つの文字には、複数の言語コード27が付与されることがある。
この言語コード27により、辞書データ25(図6参照)内の各文字のマッチング情報28は、具体的には日本語、中国語、ハングル、英語、独語、仏誤、電話番号、E−mail、及びURLといった属性が付与されている。
図6に図示する例で詳述すると、アルファベットの「A」は、英語(言語コード:0x0008)、独語(言語コード0x0010)、仏語(言語コード:0x0020)、E−mail(言語コード:0x0200)、およびURL(言語コード:0x0400)で用いられるものであるから、これらの言語コード27(ビット列コード)を加算した言語コード27(言語コード:0x0638)が付与されている。
また、上記「A」と同じくクラスコード26によりアルファベットに分類されている「T」は、上述した「A」の属性に加えて、電話番号(言語コード:0x0100)でも用いられるものであるから、これらの言語コード27(ビット列コード)を加算した言語コード27(言語コード:0x0738)が付与されている。
図6に示すように、辞書データ25は、ヘッダ部25aと個別辞書部25bにより構成されている。
ヘッダ部25aには、各クラスの先頭アドレス29が順番に記憶されている。
個別辞書部25bには、各文字のマッチング情報28が、クラスコード26によって区分けして記憶されている。また、各文字のマッチング情報28には、言語コード27が付与されている。この言語コード27は、マッチング情報28の文字の属性を示す複数の言語コード27を加算したビット列コードである。したがって、例えばアルファベットの「A」には、英語、独語、仏語、E−mail、およびURLの5属性のビット列コードを加算した「0x0638」が付与されている。
このように、辞書データ25は、クラスコード26でマッチング情報28を区分けすると共に、各マッチング情報28に言語コード27を付与することで、データ量の削減とマッチング処理時間の短縮を図れ、しかも拡張性の高いデータ構造となっている。
図7は、設定データ24の構成図を示す。
設定データ24は、INDEX、項目、クラスコード26、および言語コード27で構成されている。
INDEXは、ユニークな連番を記憶している。
項目は、アプリケーションである単語リーダーと名刺リーダーとに分けて構成されている。単語リーダーには、各種言語の項目が設定されており、名刺リーダーには、読取対象(氏名や電話番号など)が設定されている。
クラスコード26は、項目で定められる用途に対応するクラスコード26(ビット列コード)が加算されたコードが記憶されている。つまり、例えば単語リーダーにおける日本語では、ひらがな(クラスコード:0x0080)、カタカナ(クラスコード:0x0100)、日中共通漢字(クラスコード:0x0200)、および日本第一水準漢字(クラスコード:0x0400)を読取る必要があるため、これらのクラスコード26を加算したクラスコード26(0x0780)が記憶されている。
言語コード27は、項目で定められる用途に対応する言語コード27がビット列コードで記憶されている。
この設定データ24により、利用者に用途を選択させて、辞書データ25のうちマッチングを行わなければならない対象文字を最小限に減らせるようにしている。
図8は、携帯端末1のCPU17が実行する動作のフローチャートを示す。
CPU17は、ROM18からアプリ機能を呼び出し、言語選択処理を実行する(ステップS1)。この言語選択処理では、図3(A)に示したアプリ選択画面30を操作画面表示部7に表示し、アプリ選択部31で「単語リーダー」と「名刺リーダー」のいずれか一方を選択させる。「単語リーダー」が選択された場合は、続いて言語選択画面40を表示し、言語選択部41で言語を選択させる。「名刺リーダー」が選択された場合は、続いて名刺カテゴリ選択画面50を表示し、カテゴリ選択部51で読取対象を選択させる。
これにより設定データ24(図7参照)の項目(INDEX)が定まり、CPU17は、そのINDEXのクラスコード26と言語コード27を設定データ24から読み取って一時記憶する。
CPU17は、操作画面表示部7に画像入力部3で撮影している映像を動画表示し、利用者に対して読取りたい文字画像を撮像させる(ステップS2)。この撮像は、利用者による操作部5の操作をトリガーとして実行する。
CPU17は、画像入力部3で取得した撮像画像を操作画面表示部7に表示し、利用者に対象文字を選択させる(ステップS3)。この対象文字の選択は、読取対象の領域を操作部5の操作によって選択させることで実行すると良い。
また、このときCPU17は、選択された領域内の文字を切り出し、一文字ずつの文字画像に切り分けておくとよい。
CPU17は、ROM18から文字認識プログラム23を読み出して文字認識機能22を開始し、利用者に選択された対象文字の撮像画像に対する認識処理を実行する(ステップS4)。CPU17は、この認識処理で認識した文字を操作画面表示部7に表示し(ステップS5)、処理を終了する。
図9は、CPU17が上記ステップS4にて実行する認識処理の詳細なフローチャートを示す。
認識処理を開始したCPU17は、まず変数iを初期化し(ステップS11)、クラスiが認識対象クラスか否か判定する(ステップS12)。ここで、クラスiとは、図6の辞書データ25に示す上からi番目のクラスをいう。このときCPU17は、ステップS1で取得したクラスコード26にクラスiが含まれていればクラスiが認識対象クラスであり、含まれていなければ認識対象クラスでないと判定する。
認識対象クラスであった場合(ステップS12:Yes)、CPU17は、辞書データ25のヘッダ部25aを参照し、個別辞書部25b内のクラスiの先頭アドレス29に直接アクセスする(ステップS13)。この直接アクセスにより、認識対象でないクラスをジャンプして、処理速度を速めている。
CPU17は、変数jを初期化し(ステップS14)、辞書データ25におけるクラスiのj文字目の言語コード27が対象言語コードか否か判定する(ステップS15)。このときCPU17は、ステップS1で設定データ24から取得した言語コード27のビット列コード情報のいずれかが、辞書データ25のクラスiのj文字目の言語コード27のビット列コード情報に含まれていればj文字目が対象言語コードであり、含まれていなければ対象言語コードでないと判定する。
対象言語コードであれば(ステップS15:Yes)、CPU17は、辞書データ25におけるクラスiのj文字目のマッチング情報28により、ステップS3で選択された対象文字の照合を行う(ステップS16)。ここで、照合OKであれば、その対象文字が何であるか判別できたため、クラスiのj文字目のアドレス(あるいは図示省略するShift−JISなどの文字コード)を記憶して文字認識完了とする。照合NGであれば、処理を次のステップS17に進める。
なお、この文字認識は、対象文字の文字数を記憶しておき、全ての文字について照合OKとなれば文字認識完了とし、照合OKとなっていない文字が残っていれば、処理を継続すればよい。
CPU17は、変数jに1加算し(ステップS17)、変数jが辞書データ25におけるクラスiの文字数よりも小さければ(ステップS18:Yes)、ステップS15に処理を戻して繰り返す。
変数jがクラスiの文字数と同じかそれ以上になれば(ステップS18:No)、CPU17は変数iに1加算する(ステップS19)。
CPU17は、変数iが辞書データ25のクラス数より小さければステップS12に処理を戻して繰り返し(ステップS20:Yes)、同じかそれ以上であれば(ステップS20:No)、認識処理を終了する。
以上の構成および動作により、認識対象言語の増加によるメモリ使用量の減少と、処理時間の短縮の両立を図ることができる。つまり、複数言語に共通する文字のマッチング情報28を1つにまとめ、このマッチング情報28に各言語の言語コード27を複数加算した言語コード27を付与することで、辞書データ25そのもののデータ量を少なくすることができる。従って、携帯電話機である携帯端末1の限られたメモリ容量内に辞書データ25を記憶させることができ、メモリの空きを増やして他のアプリケーションデータと共に記憶することも可能となる。
また、マッチング情報28による照合回数を最小限に抑えることができ、処理時間を短縮することができる。この処理時間について、図10に説明する説明図と共に詳述すると、次のとおりである。
例えば、図3(A)のアプリ選択画面30で単語リーダーが選択され、図3(B)の言語選択画面40で日本語と英語が選択されたとする。この場合、設定データ24より、クラスコード26は0x0780と0x002D、言語コード27は0x0001と0x0008となる。
まず、クラスコード26により、照合に利用するマッチング情報28は、図10(A)に示すように、対象クラス26aに絞り込まれる。すなわち、ステップS13でジャンプして対象クラス26aの先頭アドレスに直接アクセスするから、対象外のクラスの照合をカットできる。
また、言語コード27により、照合に利用するマッチング情報28は、対象言語27aにさらに絞り込まれる。すなわち、辞書データ25でアクセスしているレコード(文字)の言語コード27に、利用者に選択された言語コード27(0x0001と0x0008)のいずれか一方が含まれていなければ、その文字のマッチング情報28による照合をカットして次のレコード(文字)へ処理を進めることができる。
従って、照合に利用するマッチング情報28は、辞書データ25に登録されている全てのマッチング情報28のうち、対象クラス26aでかつ対象言語27aである対象マッチング情報28aのみとなる。
同様に、例えば、図3(B)のアプリ選択画面30で名刺リーダーが選択され、図4(A)の名刺カテゴリ選択画面50で電話番号が選択されたとする。この場合、設定データ24より、クラスコード26は0x0007、言語コード27は0x0100となる。
まず、クラスコード26により、照合に利用するマッチング情報28は、図10(B)に示すように、対象クラス26aに絞り込まれる。
また、言語コード27により、照合に利用するマッチング情報28は、対象言語27aにさらに絞り込まれる。
従って、照合に利用するマッチング情報28は、辞書データ25に登録されている全てのマッチング情報28のうち、対象マッチング情報28aのみとなる。
このように、クラスコード26だけで絞り込む場合や、言語コード27だけで絞り込む場合よりも照合対象のマッチング情報28を少なく絞り込むことができ、無駄な照合を排除して処理速度を高速にすることができる。
また、クラスコード26と、辞書データ25のヘッダ部25aに記憶されている先頭アドレス29により、照合対象のマッチング情報28が記憶されている領域へ直接的にジャンプして照合することができ、高速に処理することができる。
また、各文字のマッチング情報28に言語コード27が付与され、その文字が属する言語(属性)が明確にされているため、照合に用いるマッチング情報28を最小にすることができる。つまり、例えばアルファベットの文字のうち、「TELEPHONE」や「telephone」に含まれる文字「T,E,L,P,H,O,N,t,e,l,p,h,o,n」は、名刺リーダーで電話番号を読取る機能でも読取られるものであるから、電話番号の言語コード27が付与されてる。このため、名刺リーダーで電話番号を読取る際には、アルファベット(標準文字)のクラスのうち、「T,E,L,P,H,O,N,t,e,l,p,h,o,n」のみが照合対象となる。このように、照合対象を減らすことで、処理時間を短縮することができる。
また、同じ文字が複数言語で登録されているといったことがなく、辞書データ25そのものを最適化することができる。このため、2カ国語以上の言語を一度に認識するような場合でも、同じ文字をそれぞれの言語で認識するといった冗長処理を防止でき、処理時間を短縮できる。
また、このように照合に用いるマッチング情報28を、用途に応じて最小限に最適化するため、認識率を高めることができる。すなわち、照合対象のマッチング情報28が少なければ少ないほど、特徴量の類似による誤認識を防止でき、正しく認識できる割合を増加できる。
また、同じ属性(例えば日本語)であっても、文字種によって細かくクラス分け(例えばひらがな、カタカナ、日本第一水準文字、日本第二水準文字(人名・地名)、日本第二水準文字(その他))しているため、用途に応じて冗長なく高速処理することができる。
また、例えば、斜体字と標準文字、あるいは、独語の現代の標準文字と昔のひげ風の文字等、同じ文字でも字体の大きく異なるものを違うクラスとして分けることにより、用途に応じて、高速性を維持しながら高い認識率を出すことが可能となる。すなわち、このように同じ文字でも字体の大きく異なるものを同じマッチング辞書で認識させようとすると、認識率が悪くなってしまうのが通常である。しかし、クラス分けすることにより、用途に応じてクラスを選択でき、認識率を高めることができる。
また、言語コード27は、国別に限らず電話番号、E−mail、URL、…といった言語以外の用途カテゴリ毎にも割り振っている。これにより、電話番号、E−mail、URL、…の各々の用途に使われる文字のみでの認識を、メモリ使用量を増やすことなく高速に行うことができる。
なお、以上の実施形態において、ROM18に記憶されている辞書データ25は、RAM19に読み出して利用する構成にすると良い。この場合、全ての辞書データ25を読み出す、または、対象クラス26a、対象言語27a、あるいはこの両方で絞り込んだ辞書データ25の一部を読み出す構成にするとよい。読み出すデータを絞り込んだ場合、RAM19に読み出すデータ量を少なくできる。
この発明の構成と、上述の実施形態との対応において、
この発明のコンピュータおよび文字認識装置は、実施形態の携帯端末1に対応し、
以下同様に、
文字画像取得手段は、画像入力部3に対応し、
文字認識電子部品は、チップ15に対応し、
演算手段は、CPU17に対応し、
指定手段は、ステップS1を実行するCPU17に対応し、
出力手段は、ステップS5を実行するCPU17に対応し、
記憶手段は、ROM18に対応し、
文字種は、クラスコード26に対応し、
分類区分は、言語コード27に対応し、
登録文字データは、マッチング情報28に対応し、
照合対象は、対象マッチング情報28aに対応し、
先頭アドレスデータは、先頭アドレス29に対応し、
認識目的の文字画像は、文字画像62に対応し、
分類区分指定ステップは、ステップS1に対応し、
文字画像取得ステップは、ステップS2に対応し、
文字出力ステップは、ステップS5に対応し、
照合対象減少ステップは、ステップS15に対応するも、
この発明は、上述の実施形態の構成のみに限定されるものではなく、多くの実施の形態を得ることができる。
携帯端末の斜視図。 携帯端末の構成を示すブロック図。 操作画面表示部に表示させる画面の説明図。 操作画面表示部に表示させる画面の説明図。 クラスコードと言語コードの説明図。 辞書データの構成図。 設定データの構成図。 CPUが実行する動作のフローチャート。 CPUが実行する認識処理のフローチャート。 辞書データによる処理時間短縮の説明図。
1…携帯端末、3…画像入力部、15…チップ、17…CPU、18…ROM、23…文字認識プログラム、25…辞書データ、25a…ヘッダ部、27…言語コード、28…マッチング情報、28a…対象マッチング情報、29…先頭アドレス、62…文字画像

Claims (7)

  1. 各登録文字データに対して文字を分類する分類区分を1または複数付与した辞書データを記憶手段に記憶させておき、
    指定手段により前記分類区分を指定させる分類区分指定ステップと、
    文字画像取得手段により認識目的の文字画像を取得する文字画像取得ステップと、
    前記辞書データに登録されている登録文字データのうち前記指定ステップで指定された分類区分が付与されている登録文字データに照合対象を減少させる照合対象減少ステップと、
    該文字画像内の文字を前記照合対象減少ステップで減少させた照合対象の各登録文字データと照合する照合ステップと、
    照合結果から認識した文字を出力手段により出力する文字出力ステップとをコンピュータに実行させる文字認識プログラムにおいて、
    前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、
    前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録されており、
    各文字種の登録文字データが記憶されている領域の先頭アドレスを示す先頭アドレスデータを前記記憶手段に記憶させておき、
    前記照合対象減少ステップは、
    照合対象の文字種の先頭アドレスにジャンプして当該文字種内で前記分類区分が付与されている登録文字データによる照合を行い、
    当該文字種内の照合が終了すれば次の照合対象の文字種の先頭アドレスにジャンプする処理を繰り返して照合対象を減少させる
    文字認識プログラム。
  2. 前記分類区分と前記文字種の一方または両方を、ビット列コードにより構成した
    請求項記載の文字認識プログラム。
  3. 請求項1または2に記載の文字認識プログラムと前記辞書データとを記憶する前記記憶手段と、
    前記各ステップを実行する演算手段とを備えた
    文字認識電子部品。
  4. 請求項1または2に記載の文字認識プログラムと前記辞書データとを記憶する前記記憶手段と、
    前記各ステップを実行する演算手段と、
    前記指定手段、文字画像取得手段、および前記出力手段とを備えた
    文字認識装置。
  5. 各登録文字データに対して文字を分類する分類区分を1または複数付与した辞書データを記憶手段に記憶させておき、
    指定手段により前記分類区分を指定させる分類区分指定ステップと、
    文字画像取得手段により認識目的の文字画像を取得する文字画像取得ステップと、
    前記辞書データに登録されている登録文字データのうち前記指定ステップで指定された分類区分が付与されている登録文字データに照合対象を減少させる照合対象減少ステップと、
    該文字画像内の文字を前記照合対象減少ステップで減少させた照合対象の各登録文字データと照合する照合ステップと、
    照合結果から認識した文字を出力手段により出力する文字出力ステップとを実行する文字認識方法において、
    前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、
    前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録されており、
    各文字種の登録文字データが記憶されている領域の先頭アドレスを示す先頭アドレスデータを前記記憶手段に記憶させておき、
    前記照合対象減少ステップは、
    照合対象の文字種の先頭アドレスにジャンプして当該文字種内で前記分類区分が付与されている登録文字データによる照合を行い、
    当該文字種内の照合が終了すれば次の照合対象の文字種の先頭アドレスにジャンプする処理を繰り返して照合対象を減少させる
    文字認識方法。
  6. 文字認識に利用される辞書データのデータ構造であって、
    各登録文字データに対して文字を分類する分類区分が1または複数付与され、
    前記分類区分は、当該登録文字データを共通して用いる複数の言語を区別し得る属性により構成され、
    前記辞書データは、複数の言語で共通して用いる文字が登録された登録文字データと、共通して用いる文字を有する言語に対応して登録される複数の文字の中から前記共通して用いる文字を除した登録文字データを備えるとともに、これら登録文字データが文字種単位でまとめて登録された
    データ構造。
  7. 前記文字種単位の先頭アドレスを示す先頭アドレス情報がヘッダ部に登録された
    請求項記載のデータ構造。
JP2008066504A 2008-03-14 2008-03-14 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造 Active JP5239419B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2008066504A JP5239419B2 (ja) 2008-03-14 2008-03-14 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造
EP09153842A EP2120185B1 (en) 2008-03-14 2009-02-27 Character recognition program, character recognition electronic component, character recognition device, character recognition method, and data structure
CN200910004631XA CN101533476B (zh) 2008-03-14 2009-03-02 字符识别电子元件、装置及其方法
KR1020090017879A KR101039447B1 (ko) 2008-03-14 2009-03-03 문자인식 프로그램이 기록된 기록 매체, 문자인식 전자 부품, 문자인식 장치, 문자인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008066504A JP5239419B2 (ja) 2008-03-14 2008-03-14 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造

Publications (2)

Publication Number Publication Date
JP2009223556A JP2009223556A (ja) 2009-10-01
JP5239419B2 true JP5239419B2 (ja) 2013-07-17

Family

ID=40887899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008066504A Active JP5239419B2 (ja) 2008-03-14 2008-03-14 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造

Country Status (4)

Country Link
EP (1) EP2120185B1 (ja)
JP (1) JP5239419B2 (ja)
KR (1) KR101039447B1 (ja)
CN (1) CN101533476B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5387378B2 (ja) * 2009-12-15 2014-01-15 富士通株式会社 文字同定装置及び文字同定方法
CN103137102A (zh) * 2011-11-23 2013-06-05 财团法人资讯工业策进会 多国语言字符显示方法及装置
JP6624120B2 (ja) * 2017-02-27 2019-12-25 京セラドキュメントソリューションズ株式会社 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体
KR102175176B1 (ko) * 2017-12-29 2020-11-06 한양대학교 산학협력단 문자 종류 개수에 기반한 데이터 구분 방법, 데이터 분류기 및 스토리지 시스템
WO2024085460A1 (ko) * 2022-10-19 2024-04-25 삼성전자주식회사 이미지 내에 포함된 글자들을 식별하기 위한 전자 장치 및 그 방법

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5960691A (ja) * 1982-09-30 1984-04-06 Toshiba Corp 光学文字読取装置
JPS6174083A (ja) * 1984-09-18 1986-04-16 Fujitsu Ltd 文字認識装置
JPS61198380A (ja) * 1985-02-28 1986-09-02 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 文字認識装置
JPH02212990A (ja) * 1989-02-13 1990-08-24 Toshiba Corp 文字読取装置
JPH07200737A (ja) * 1993-12-28 1995-08-04 Hitachi Ltd 文字認識方法およびシステム
JPH1011542A (ja) * 1996-06-20 1998-01-16 Fujitsu Ltd 文字認識装置
US7120302B1 (en) * 2000-07-31 2006-10-10 Raf Technology, Inc. Method for improving the accuracy of character recognition processes
JP4674778B2 (ja) * 2000-08-31 2011-04-20 ヒューレット・パッカード・カンパニー 文字認識システム
JP2004265136A (ja) 2003-02-28 2004-09-24 Toshiba Corp 文字入力装置、文字入力方法、及び文字入力プログラム
JP2005141604A (ja) 2003-11-10 2005-06-02 Hitachi Ltd 携帯情報端末における文字認識方法および携帯情報端末
US20050105799A1 (en) * 2003-11-17 2005-05-19 Media Lab Europe Dynamic typography system
JP4597644B2 (ja) * 2003-11-28 2010-12-15 シャープ株式会社 文字認識装置、プログラムおよび記録媒体
JP2006065477A (ja) * 2004-08-25 2006-03-09 Fuji Xerox Co Ltd 文字認識装置
JP4759963B2 (ja) 2004-09-22 2011-08-31 沖電気工業株式会社 複数の認識辞書を利用した文字認識装置
US7428516B2 (en) * 2005-06-23 2008-09-23 Microsoft Corporation Handwriting recognition using neural networks
KR100700141B1 (ko) * 2005-11-01 2007-03-28 엘지전자 주식회사 이동통신 단말기의 명함인식방법

Also Published As

Publication number Publication date
CN101533476A (zh) 2009-09-16
JP2009223556A (ja) 2009-10-01
KR101039447B1 (ko) 2011-06-07
KR20090098685A (ko) 2009-09-17
CN101533476B (zh) 2012-11-14
EP2120185B1 (en) 2011-07-13
EP2120185A1 (en) 2009-11-18

Similar Documents

Publication Publication Date Title
US7929770B2 (en) Handwriting processing apparatus and method
EP2698692A1 (en) System and method for implementing sliding input of text based upon on-screen soft keyboard on electronic equipment
WO2014008870A1 (zh) 便携式终端设备滑行操作辅助输入控制的***及方法
JP4780169B2 (ja) データ生成装置、スキャナ、及びコンピュータプログラム
JP5239419B2 (ja) 文字認識プログラム、文字認識電子部品、文字認識装置、文字認識方法、およびデータ構造
US20090300003A1 (en) Apparatus and method for supporting keyword input
JP6122800B2 (ja) 電子機器、文字列表示方法、および文字列表示プログラム
EP2806336A1 (en) Text prediction in a text input associated with an image
CN101833661A (zh) 字符识别装置、字符识别程序及字符识别方法
JP4991407B2 (ja) 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法
CN101281449A (zh) 手写字识别方法和***
JP4597644B2 (ja) 文字認識装置、プログラムおよび記録媒体
US8386236B2 (en) Method for prompting by suggesting stroke order of chinese character, electronic device, and computer program product
US20130090919A1 (en) Electronic device and dictionary data display method
WO2000036530A1 (fr) Methode de recherche et dispositif correspondant, support enregistre
CN112346578A (zh) 输入方法及装置
CN112789624A (zh) 字符候选提议装置、手写字符辨别***、方法及程序
US20040139056A1 (en) Information display control apparatus and recording medium having recorded information display control program
CN111857362A (zh) 文字输入方法及文字输入装置
US20100083104A1 (en) Electronic apparatus with dictionary function
JP4261831B2 (ja) 文字認識処理方法、文字認識処理装置、文字認識プログラム
JP7268316B2 (ja) 情報処理装置及びプログラム
KR102356788B1 (ko) 키패드를 이용한 키워드 검색 방법 및 장치
JP2007026263A (ja) 文字認識装置及びコンピュータプログラム
JP3022790B2 (ja) 手書き文字入力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130318

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5239419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150