JP2009193387A - 文字認識装置および文字認識プログラム、並びに、文字認識装置における文字学習方法および文字認識方法 - Google Patents

文字認識装置および文字認識プログラム、並びに、文字認識装置における文字学習方法および文字認識方法 Download PDF

Info

Publication number
JP2009193387A
JP2009193387A JP2008033909A JP2008033909A JP2009193387A JP 2009193387 A JP2009193387 A JP 2009193387A JP 2008033909 A JP2008033909 A JP 2008033909A JP 2008033909 A JP2008033909 A JP 2008033909A JP 2009193387 A JP2009193387 A JP 2009193387A
Authority
JP
Japan
Prior art keywords
character
learning
character string
dictionary
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008033909A
Other languages
English (en)
Other versions
JP5060334B2 (ja
Inventor
Akira Nakamura
章 中村
Hirokazu Nishiyama
博一 西山
Hiroto Ideguchi
博登 井手口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHINTO DENSAN CORP
Japan Broadcasting Corp
Original Assignee
SHINTO DENSAN CORP
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHINTO DENSAN CORP, Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical SHINTO DENSAN CORP
Priority to JP2008033909A priority Critical patent/JP5060334B2/ja
Publication of JP2009193387A publication Critical patent/JP2009193387A/ja
Application granted granted Critical
Publication of JP5060334B2 publication Critical patent/JP5060334B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】画像データから精度よく文字認識を行うとともに、ユーザ辞書を用いた場合であっても、誤認識を避けることが可能な文字認識装置を提供する。
【解決手段】文字認識装置1は、通常辞書10aおよびユーザ辞書10bに基づいて画像データから文字認識を行う認識手段30と、認識後に入力装置を介して修正された文字列を学習文字列として入力する学習文字列入力手段41と、学習文字列を構成する文字ごとに当該文字に対応する文字コードと文字パターンとを対応付けてユーザ辞書10bに登録するユーザ辞書登録手段420と、学習文字列を学習文字列テーブル10cに登録する学習文字列登録手段421と、を備え、認識手段30は、ユーザ辞書10bに基づいて文字認識を行った文字列が学習文字列である場合に学習文字列を認識結果とし、当該文字列が学習文字列でない場合に通常辞書10aに基づいて文字認識を行う。
【選択図】図1

Description

本発明は、誤認識した文字を学習して文字認識を行う文字認識装置および文字認識プログラム、並びに、文字認識装置における文字学習方法および文字認識方法に関する。
近年、デジタル放送の多チャンネル化に伴い、膨大な映像から所望の映像を検索したいという要望がある。この要望に対し、映像内のフレーム画像から字幕を文字認識し、その認識された文字(文字列)を用いて、映像の検索を行うシステムが開示されている(例えば、特許文献1参照)。このような映像の各フレーム画像における文字を認識する技術は、フレーム画像から文字領域のみを抽出した画像データを生成した後、その画像データにおいて文字認識を行う手法が一般的である。
なお、画像データから文字認識を行う技術は、スキャナ等の画像入力装置で読み込んだ画像データから文字を認識する光学式文字読取装置(OCR:Optical Character Reader)や、そのソフトウェア(OCRソフト)として実現されている(例えば、特許文献2参照)。一般に、OCRは、画像データをメモリ上に展開し、1文字分の画像データを切り出し、その切り出された画像データの特徴と予め辞書等に記憶されている文字の特徴とを比較することで文字の認識を行っている。また、このようなOCRの技術においては、文字認識の認識精度を高めるため、予め準備した辞書以外に、誤認識した文字を学習したユーザ辞書を用いることが一般的である(例えば、特許文献3参照)。
特開2002−14973号公報 特開2002−133367号公報 特開平9−185682号公報
前記した従来のOCRを用いた文字認識では、印刷活字においては、一定の筆記条件を満たせば99%程度の認識率に達している。しかし、手書き文字や、種々のフォント等が使用される放送映像の字幕等においては、文字の特徴が一定ではないため、認識率が低く、認識結果に対してその都度修正を行わなければならないという問題がある。
また、ユーザ辞書を使用した場合であっても、ユーザ辞書に登録した文字間で文字が誤認識されてしまうという問題がある。例えば、図7に示したように、「送」の文字C1と「達」の文字C2とをそれぞれ学習し、「送」の文字コードと誤認識した際の文字パターンとを対応付け、「達」の文字コードと誤認識した際の文字パターンとを対応付けて、それぞれユーザ辞書に登録しているものとする。また、誤認識した際の「送」の文字パターンと「達」の文字パターンとが類似しているものとする。この場合、例えば、ユーザ辞書を用いたとしても、従来の文字認識においては、「放送局」を「放達局」と誤って認識してしまう場合がある。
本発明は、以上のような問題を解決するためになされたものであり、画像データから精度よく文字認識を行うとともに、ユーザ辞書を用いた場合であっても、誤認識を避けることが可能な文字認識装置および文字認識プログラム、並びに、文字認識装置における文字学習方法および文字認識方法を提供することを目的とする。
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の文字認識装置は、誤認識した文字を含んだ文字列を学習文字列として学習し、画像データから文字を認識する文字認識装置であって、文字パターンと文字コードとを予め対応付けた第一辞書を記憶した第一辞書記憶手段と、学習文字列を記憶する学習文字列記憶手段と、学習文字列の各文字について文字パターンと文字コードとを対応付けた第二辞書を記憶する第二辞書記憶手段とを備え、さらに、認識手段と、学習文字列入力手段と、第二辞書登録手段と、学習文字列登録手段と、を備える構成とした。
かかる構成において、文字認識装置は、認識手段によって、第一辞書および第二辞書に基づいて、第二辞書を優先して画像データから文字認識を行う。これによって、文字認識装置は、学習された文字列を優先して文字認識を行う。
そして、文字認識装置は、学習文字列入力手段によって、認識手段で認識された文字列に対して、ユーザによって入力装置を介して修正された文字列を学習文字列として入力する。これによって、文字認識装置は、当該文字認識装置が誤認識した文字を含んだ文字列(例えば、単語)を、ユーザが修正した正しい文字列(学習文字列)として取得する。この学習文字列は、誤認識した文字だけではなく、正しく認識した文字を含んでいる。よって、この学習文字列は、ある意味を持った単位、例えば、単語、文となる。すなわち、学習文字列は、誤認識した文字を含んだ文字列を、一連の文字列として認識することをユーザが期待したものといえる。
そして、文字認識装置は、第二辞書登録手段によって、学習文字列を構成する文字ごとに、当該文字に対応する文字コードと当該文字を認識手段で認識した際の画像データ内の文字パターンとを対応付けて第二辞書記憶手段に登録する。さらに、文字認識装置は、学習文字列登録手段によって、学習文字列を学習文字列記憶手段に登録する。これによって、文字認識装置は、学習文字列を文字単位で学習するとともに、当該学習文字列が、ユーザが一連の文字列として認識することを期待する文字列であることを学習することができる。
そして、文字認識装置は、認識手段によって、第二辞書に基づいて文字認識を行った文字列が学習文字列である場合に当該学習文字列を認識結果とし、当該文字列が学習文字列でない場合に第一辞書に基づいて文字認識を行う。これによって、文字認識装置は、第二辞書によって認識した文字列から、ユーザが期待しない文字列を除外することができる。
また、請求項2に記載の文字認識プログラムは、文字パターンと文字コードとを予め対応付けた第一辞書を記憶する第一辞書記憶手段と、誤認識した文字を含んだ文字列を学習した学習文字列を記憶する学習文字列記憶手段と、前記学習文字列の各文字について文字パターンと文字コードとを対応付けた第二辞書を記憶する第二辞書記憶手段と、を備えた文字認識装置のコンピュータを、認識手段、学習文字列入力手段、第二辞書登録手段、学習文字列登録手段として機能させる構成とした。
かかる構成において、文字認識プログラムは、認識手段によって、第一辞書および第二辞書に基づいて、第二辞書を優先して画像データから文字認識を行う。そして、文字認識プログラムは、学習文字列入力手段によって、認識手段で認識された文字列に対して、ユーザによって入力装置を介して修正された文字列を学習文字列として入力する。
その後、文字認識プログラムは、第二辞書登録手段によって、学習文字列を構成する文字ごとに、当該文字に対応する文字コードと当該文字を認識手段で認識した際の画像データ内の文字パターンとを対応付けて第二辞書記憶手段に登録する。さらに、文字認識プログラムは、学習文字列登録手段によって、学習文字列を学習文字列記憶手段に登録する。
そして、文字認識プログラムは、認識手段によって、第二辞書に基づいて文字認識を行った文字列が学習文字列である場合に当該学習文字列を認識結果とし、当該文字列が学習文字列でない場合に第一辞書に基づいて文字認識を行う。
さらに、請求項3に記載の文字学習方法は、文字パターンと文字コードとを予め対応付けた第一辞書を記憶する第一辞書記憶手段と、誤認識した文字を含んだ文字列を学習した学習文字列を記憶する学習文字列記憶手段と、前記学習文字列の各文字について文字パターンと文字コードとを対応付けた第二辞書を記憶する第二辞書記憶手段と、を備えた文字認識装置における文字学習方法であって、文字認識装置が、第一辞書文字認識ステップと、文字列修正ステップと、学習文字列登録ステップと、を含む手順とした。
かかる手順において、文字認識装置における文字学習方法は、第一辞書文字認識ステップで、第一辞書に基づいて、画像データから文字認識を行う。そして、文字学習方法は、文字列修正ステップで、第一辞書文字認識ステップで認識された文字列を表示装置に出力し、入力装置を介してユーザから修正された文字列を学習文字列として入力する。
その後、文字学習方法は、学習文字列登録ステップで、文字列修正ステップで入力された学習文字列を構成する文字ごとに、当該文字に対応する文字コードと当該文字を第一辞書文字認識ステップで認識した際の画像データ内の文字パターンとを対応付けて第二辞書記憶手段に登録するとともに、学習文字列を学習文字列記憶手段に登録する。これによって、文字認識装置は、学習文字列が、ユーザが一連の文字列として認識することを期待する文字列であることを学習することができる。
また、請求項4に記載の文字認識方法は、文字パターンと文字コードとを予め対応付けた第一辞書を記憶する第一辞書記憶手段と、誤認識した文字を含んだ文字列を学習した学習文字列を記憶する学習文字列記憶手段と、前記学習文字列の各文字について文字パターンと文字コードとを対応付けた第二辞書を記憶する第二辞書記憶手段と、を備えた文字認識装置における文字認識方法であって、文字認識装置が、第二辞書文字認識ステップと、学習文字列判定ステップと、学習文字列出力ステップと、第一辞書文字認識ステップと、認識文字列出力ステップと、を含む手順とした。
かかる手順において、文字認識装置における文字認識方法は、第二辞書文字認識ステップで、第二辞書に基づいて、画像データから文字認識を行う。そして、文字認識方法は、学習文字列判定ステップで、第二辞書文字認識ステップで認識された文字列が学習文字列記憶手段に記憶されている学習文字列であるか否かを判定する。
そして、文字認識方法は、学習文字列出力ステップで、学習文字列判定ステップで文字列が学習文字列であると判定された場合に、当該学習文字列を認識結果として出力する。また、文字認識方法は、第一辞書文字認識ステップで、学習文字列判定ステップで文字列が学習文字列でないと判定された場合に、第一辞書に基づいて、画像データから文字認識を行う。さらに、文字認識方法は、認識文字列出力ステップで、第一辞書文字認識ステップで認識された文字列を認識結果として出力する。これによって、文字認識装置は、第二辞書により認識された文字列のうちで、学習文字列記憶手段に記憶されている学習文字列のみを認識結果として出力し、他の文字列については、第一辞書により文字認識を行う。
本発明は、以下に示す優れた効果を奏するものである。
請求項1,2に記載の発明によれば、誤認識した文字を含んだ学習文字列の個々の文字を第二辞書(ユーザ辞書)に登録しておくことができるため、当該学習文字列を構成する個々の文字の認識精度を高めることができる。さらに、請求項1,2に記載の発明によれば、学習文字列記憶手段に、第二辞書に登録した学習文字列を記憶しておき、第二辞書を用いて文字認識を行う際に、学習文字列以外の文字列を認識結果として出力することがないため、第二辞書に登録した文字間での誤認識を避けることができる。
請求項3に記載の発明によれば、誤認識した文字を含んだ学習文字列の個々の文字について第二辞書(ユーザ辞書)に登録するとともに、学習文字列記憶手段に、第二辞書に登録した学習文字列を記憶しておくため、文字列を単位として文字を学習することができる。このように学習された学習文字列を用いることで、文字認識装置は、学習した文字によって文字認識が行われた場合に、ユーザが期待しない文字列を認識結果として出力することがなく、文字列の誤認識を避けることができる。
請求項4に記載の発明によれば、誤認識した文字を含んだ学習文字列の個々の文字を学習した第二辞書(ユーザ辞書)により文字認識を行うため、誤認識した文字の認識精度を高めることができる。さらに、請求項4に記載の発明によれば、第二辞書に登録した学習文字列を記憶した学習文字列記憶手段を参照することで、ユーザが期待しない文字列を認識結果として出力することがなく、文字列の誤認識を避けることができる。
以下、本発明の実施の形態について図面を参照して説明する。
[文字認識装置の構成]
まず、図1を参照して、本発明の実施形態に係る文字認識装置の構成について説明する。図1は、本発明の実施形態に係る文字認識装置の全体構成を示す機能ブロック図である。
文字認識装置1は、誤認識した文字を学習して画像データから文字を認識するものである。この文字認識装置1は、記憶手段10と、画像入力手段20と、認識手段30と、学習手段40と、を備える。なお、ここでは、文字認識装置1は、外部にキーボード、マウス等の入力装置2と、文字認識結果等を表示する表示装置3とを接続している。
記憶手段(第一辞書記憶手段、第二辞書記憶手段、学習文字列記憶手段)10は、文字認識を行う際に必要となる辞書等を記憶するものであって、ハードディスク等の一般的な記憶装置で構成される。ここでは、記憶手段10に、辞書(以下、通常辞書)10aと、ユーザ辞書10bと、学習文字列テーブル10cとが記憶される。
通常辞書(第一辞書)10aは、認識対象となるすべての文字の文字パターンと文字コードとを予め対応付けた辞書データである。文字パターンは、文字の形状を表すデータであって、ここでは、画像データ(ビットマップデータ)を用いることとする。なお、この文字パターンは、文字の形状の特徴を表すものであれば画像データに限定されるものではない。例えば、文字の傾き、面積等の複数の特徴を特徴ベクトルとしたものであってもよい。また、文字コードは、文字を一意に特定するための符号であって、例えば、シフトJISコード、EUCコード等の一般的な符号である。
このように、通常辞書に、認識対象となるすべての文字の文字パターンと文字コードとを対応付けておくことで、認識手段30において、画像データから文字を認識し、文字コードで表現されたテキストデータとすることが可能になる。
ユーザ辞書(第二辞書)10bは、通常辞書10a以外に、ユーザが個別に登録した文字の文字コードと文字パターンとを対応付けた辞書データである。ここでは、ユーザ辞書10bとして、当該文字認識装置1において誤認識された文字を含んだ文字列を、文字単位で、文字コードと文字パターンとに対応付けておく。なお、このユーザ辞書10bは、学習手段40によって登録される。
例えば、「放送局」と認識されるべき単語が「放達局」と誤って認識された場合、ユーザ辞書10bには、誤って認識された文字「達」のみではなく、「放」、「達」、「局」として認識された際の文字パターンが、それぞれ、修正後の「放」、「送」、「局」の文字コードに対応付けてユーザ辞書10bに登録される。
このように、誤認識された文字(文字コード)を、誤認識された文字パターン(画像データ)と対応付けて登録しておくことで、再度同様の文字パターン(画像データ)を認識した際に、正しい文字で認識する確率を高めることができる。
学習文字列テーブル10cは、学習文字列を記憶するデータテーブルであって、ユーザ辞書10bに登録された文字列を記憶するものである。例えば、ユーザ辞書10bに「放」、「送」、「局」の各文字コードが登録された場合、学習文字列テーブル10cには、学習文字列として「放送局」が登録される。なお、この学習文字列テーブル10cは、学習手段40によって学習文字列が登録される。
このように、ユーザ辞書10bに登録した文字を、文字列(例えば、単語等の意味ある単位の文字列)で登録しておくことで、認識された文字列が、ユーザが期待する文字列であるか否かを判定することが可能になる。
ここで、図2および図3を参照(適宜図1参照)して、ユーザ辞書10bと学習文字列テーブル10cの内容について具体的に説明する。図2は、ユーザ辞書の内容を示すデータ構造図である。図3は、学習文字列テーブルの内容を示すデータ構造図である。
図2に示すように、ユーザ辞書10bは、文字コードCと文字パターンPとが対応付けられたデータ構造を有している。図2の例では、「放」、「送」、「局」、「達」、「成」、「時」、「間」…が、それぞれ、文字コードCと文字パターンPとで対応付けられた例を示している。例えば、文字「放」(文字コード:0x95FA)は、「放」の文字を認識した際の文字パターン(文字画像データ)に対応付けられている。これによって、認識手段30が、画像データにおいて「放」の文字パターンPを認識した際に、0x95FAの「放」の文字コードCを出力することができる。なお、ここでは、1つの文字コードCに1つの文字パターンPを対応付けた例を示しているが、1つの文字コードCに複数の文字パターンPを対応付けることとしてもよい。これによって、文字認識装置1は、複数の文字種の文字を学習することができる。
また、図3に示すように、学習文字列テーブル10cは、ユーザが登録した学習文字列Sを1つのレコードとしたデータ構造を有している。図3の例では、「放送局」、「達成」、「放送時間」…をそれぞれ1レコードとして登録した例を示している。
このように、ユーザ辞書10bだけでなく、学習文字列テーブル10cを用いることで、ユーザ辞書10bを用いて認識された文字列の認識結果に対して、その認識結果がユーザの期待する文字列であるか否かを判定することが可能になる。
例えば、図3に示すように、「放送局」と「達成」とが学習文字列テーブル10cに登録されている場合、図2に示すように、ユーザ辞書10bには、それぞれの文字「放」、「送」、「局」、「達」および「成」の文字コードCと文字パターンPとが対応付けられていることになる。この場合、認識手段30において、ユーザ辞書10bを用いて文字認識を行うと、「放送局」を「放達局」と誤って認識する場合がある。しかし、学習文字列テーブル10cには、「放達局」は登録されていないため、当該文字認識がユーザの期待する認識結果ではないと判定することができる。この場合は、さらに学習を行うことで、文字認識の精度を高めることができる。なお、この文字学習と文字認識の具体的な動作については、後で詳細に説明を行う。
図1に戻って、文字認識装置1の構成について説明を続ける。
画像入力手段20は、画像データを入力するものである。この画像データは、文字を含んだビットマップデータであって、例えば、スキャナで文書を読み取った画像であってもよいし、映像内のフレーム画像から字幕を抽出した画像であってもよい。また、画像入力手段20は、図示を省略した画像蓄積装置(図示せず)から、ユーザが指定した画像データを入力することとしてもよいし、ネットワーク等を介して入力することとしてもよい。なお、画像入力手段20は、入力した画像データをメモリ(図示せず)に展開し、認識手段30に画像データを入力した旨の通知を行う。
認識手段30は、画像入力手段20で入力された画像データから、記憶手段10に記憶されている辞書(通常辞書10a、ユーザ辞書10bおよび学習文字列テーブル10c)に基づいて文字認識を行うものである。なお、この認識手段30は、通常辞書10aよりもユーザ辞書10bを優先して文字認識を行う。これによって、認識手段30は、文字単位での認識精度を高めることができる。また、ここでは、認識手段30は、文字抽出手段31と、通常辞書文字認識手段32と、ユーザ辞書文字認識手段33と、学習文字列判定手段34と、認識結果出力手段35と、を備える。
文字抽出手段31は、画像データから文字単位で文字領域を抽出するものである。例えば、文字抽出手段31は、画像データから縦横のビットの分布によって文字の区切りを検出し、1文字ごとに画像データから文字領域を抽出する。この文字抽出手段31は、抽出した文字領域(具体的には、当該画像データのメモリ上のアドレス等)を、通常辞書文字認識手段32およびユーザ辞書文字認識手段33、並びに、学習手段40に出力する。
通常辞書文字認識手段32は、通常辞書10aに基づいて、文字抽出手段31で抽出された文字領域の画像データ(文字画像データ)の文字認識を行うものである。この通常辞書文字認識手段32は、文字画像データと通常辞書10aに登録されている文字パターンとでパターンマッチングを行うことで文字の認識を行う。この認識結果の文字(文字コード)は認識結果出力手段35に出力される。
なお、通常辞書文字認識手段32は、パターンマッチング以外にも一般的な文字認識手法を用いることができる。例えば、通常辞書文字認識手段32は、通常辞書10aに登録されている文字パターンが文字を構成する文字線の特徴である場合、文字認識手法として、ストロークアナリスト法、ゾンデ法等を用いることができる。
また、通常辞書文字認識手段32は、ユーザ辞書文字認識手段33で認識されなかった文字、および、学習文字列判定手段34で学習文字列と判定されなかった文字列以外の文字について文字認識を行うこととする。
ユーザ辞書文字認識手段33は、ユーザ辞書10bに基づいて、文字抽出手段31で抽出された文字領域の画像データ(文字画像データ)の文字認識を行うものである。このユーザ辞書文字認識手段33は、文字画像データとユーザ辞書10bに登録されている文字パターンとでパターンマッチングを行うことで文字の認識を行う。なお、ユーザ辞書文字認識手段33における文字認識は、通常辞書文字認識手段32と同様の手法を用いることができる。
ここで、ユーザ辞書文字認識手段33は、認識した文字を学習文字列判定手段34に順次出力する。また、ユーザ辞書文字認識手段33で認識されなかった文字画像データは、通常辞書文字認識手段32に通知されて、通常辞書10aに基づいて文字認識が行われる。
学習文字列判定手段34は、ユーザ辞書文字認識手段33で認識された文字(文字コード)を順次入力し、入力された文字列が、学習文字列テーブル10cに学習文字列として登録されているか否かを判定するものである。ここで、学習文字列判定手段34は、学習文字列と認識した文字列を認識結果出力手段35に出力し、学習文字列と認識しなかった文字列については、通常辞書文字認識手段32に出力する。これによって、学習文字列と認識されなかった文字列については、通常辞書10aを用いて文字認識が行われることになる。
認識結果出力手段35は、通常辞書文字認識手段32で認識された文字列や、ユーザ辞書文字認識手段33で認識され、学習文字列判定手段34で学習文字列として認識された文字列を出力するものである。ここでは、認識結果出力手段35は、外部に接続された表示装置3に認識結果の文字列を出力する。これによって、ユーザが文字認識の結果が正常に行われたか否かを判断することができる。
学習手段40は、認識手段30で認識された文字列に対して、ユーザが誤認識と判断した文字列を学習させるものである。ここでは、学習手段40は、学習文字列入力手段41と、登録手段42と、を備える。
学習文字列入力手段41は、ユーザから、認識手段30で認識された文字列に対する正しい文字列(文字コードの列)を、キーボード等の入力装置2を介して、学習文字列として入力するものである。この学習文字列入力手段41で入力された学習文字列は、登録手段42に出力される。例えば、図4(a)に示すように、認識結果出力手段35によって、表示装置3の画面Gに認識結果として「放達局」が表示された場合、ユーザは認識結果が誤認識されたものと判断し、図4(b)に「放送局」と修正した後、登録を指示(例えば、図中、「登録」ボタンをマウスでクリック)する。これによって、学習文字列入力手段41は、認識結果を修正した文字列(ここでは「放送局」)を学習文字列として入力する。
なお、ここでは、認識結果全体を学習文字列として学習させる例を示したが、例えば、認識結果が文章である場合、ユーザが文章内で誤認識のあった文字を含んだ単語をマウス等で選択し、修正を行った後の単語を学習文字列とすることとしてもよい。例えば、「明日、NHK放送局で○○が放送されます。」という文字列に対し、「明日、NHK放達局で○○が放送されます。」と誤認識された場合、ユーザが「放達局」をマウスで選択し、「放送局」と修正を行うことで、「放送局」を学習文字列とする。
登録手段42は、学習文字列入力手段41で入力された学習文字列をユーザ辞書10bおよび学習文字列テーブル10cに登録するものである。ここでは、登録手段42は、ユーザ辞書登録手段420と、学習文字列登録手段421と、を備える。
ユーザ辞書登録手段(第二辞書登録手段)420は、学習文字列入力手段41で入力された学習文字列を構成する文字ごとに、当該文字に対応する文字コードと当該文字を認識手段30で認識した際の画像データ内の文字パターン(文字画像データ)とを対応付けてユーザ辞書10bに登録するものである。なお、認識対象の文字列の画像データ内の位置は、認識手段30(より詳細には文字抽出手段31)から通知されるものとする。例えば、「放送局」が学習文字列として入力された場合、ユーザ辞書登録手段420は、図2に示すように、「放」、「送」および「局」の各文字コードCと、それぞれの文字に対応する文字パターンPとを、ユーザ辞書10bに登録する。
学習文字列登録手段421は、学習文字列入力手段41で入力された学習文字列を学習文字列テーブル10cに登録するものである。例えば、「放送局」が学習文字列として入力された場合、学習文字列登録手段421は、図3に示すように、「放送局」を学習文字列テーブル10cに登録する。すなわち、学習文字列登録手段421は、修正が行われた「送」のみを登録するのではなく、修正文字を含んだ文字列「放送局」全体を登録する。これによって、学習文字列テーブル10cには、ユーザ辞書10bに登録された文字のうちで、ユーザが文字列(例えば、単語)として認識させたい候補が登録されることになる。
以上説明したように文字認識装置1を構成することで、文字認識装置1は、画像データ(ビットマップデータ)から、文字を認識することができる。このとき、文字認識装置1は、ユーザ辞書10bに誤認識した文字を登録するため、学習によって文字認識精度を高めることができる。さらに、文字認識装置1は、ユーザ辞書10bに登録した各文字について、ユーザが一連の文字列として認識することを期待する学習文字列を学習文字列テーブル10cに登録するため、ユーザ辞書10bを用いた認識において誤認識を防止することができる。
なお、文字認識装置1は、一般的なコンピュータを、前記した各手段として機能させる文字認識プログラムによって動作させることができる。このプログラム(文字認識プログラム)は、通信回線を介して配布することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
[文字認識装置の動作]
次に、図5および図6を参照(構成については適宜図1参照)して、本発明の実施形態に係る文字認識装置の動作について説明する。ここでは、文字認識装置の特徴である学習文字列の学習動作と、学習文字列を用いた文字認識動作とについて説明を行うこととする。図5は、本発明の実施形態に係る文字認識装置の学習文字列の学習動作を示すフローチャートである。図6は、本発明の実施形態に係る文字認識装置の学習文字列を用いた文字認識動作を示すフローチャートである。
〔学習文字列の学習動作〕
最初に、図5を参照(適宜図1参照)して、文字認識装置1の学習文字列の学習動作について説明する。なお、ここでは、まだ、ユーザ辞書10bおよび学習文字列テーブル10cに何も登録されていないものとする。
(画像データ入力ステップ)
まず、文字認識装置1は、画像入力手段20によって、文字を含んだ画像データ(ビットマップデータ)を入力する(ステップS1)。なお、文字認識装置1は、入力した画像データを、メモリ(図示せず)に展開するものとする。
(文字抽出ステップ)
そして、文字認識装置1は、認識手段30によって、画像データから文字を認識する。具体的には、文字認識装置1は、文字抽出手段31によって、メモリに展開された画像データから、ビットの分布等によって、文字単位で文字(文字画像データ)を抽出する(ステップS2)。
(通常〔第一〕辞書文字認識ステップ)
さらに、文字認識装置1は、通常辞書文字認識手段32によって、ステップS2で抽出された文字画像データと通常辞書10aに登録されている文字パターンとで、パターンマッチングあるいは特徴の類似判定を行うことで、文字画像データの文字認識を行う(ステップS3)。
(文字列修正ステップ)
そして、文字認識装置1は、認識結果出力手段35によって、ステップS3で認識された文字(認識文字列)を表示装置3に出力する(ステップS4)。例えば、図4(a)に示すように、認識結果出力手段35は、認識した文字列(ここでは「放達局」)を表示装置3の画面上に表示する。
その後、文字認識装置1は、学習手段40によって、誤認識した文字の学習を行う。具体的には、文字認識装置1は、学習文字列入力手段41によって、ユーザが誤認識と判断して修正した文字列を学習文字列として入力する(ステップS5)。例えば、図4(b)に示すように、学習文字列入力手段41は、ユーザが入力装置2によって修正した文字列(ここでは「放送局」)を入力する。これによって、正しい文字コードが入力されることになる。なお、図4(b)の例では、誤認識された文字が1文字(「送」)だけであるが、学習文字列は、誤認識文字を含んだ文字列(「放送局」)を学習文字列とする。
(学習文字列登録ステップ)
そして、文字認識装置1は、登録手段42のユーザ辞書登録手段420によって、ステップS5で入力された学習文字列を構成する文字ごとに、当該文字に対応する文字コードと当該文字をステップS2で抽出(認識)した際の画像データ内の文字パターン(文字画像データ)とを対応付けてユーザ辞書10bに登録する(ステップS6)。
さらに、文字認識装置1は、登録手段42の学習文字列登録手段421によって、ステップS6で入力された学習文字列を学習文字列テーブル10cに登録する(ステップS7)。
以上の動作によって、文字認識装置1は、学習結果として、学習文字列の文字ごとに、文字コードと文字パターン(文字画像データ)とを対応付けてユーザ辞書10bに登録する。さらに、文字認識装置1は、学習結果として、誤認識を修正した文字列を、ユーザが一連の文字列として認識することを期待する学習文字列として学習文字列テーブル10cに登録する。
〔学習文字列を用いた文字認識動作〕
次に、図6を参照(適宜図1参照)して、文字認識装置1の文字認識動作について説明する。なお、ユーザ辞書10bおよび学習文字列テーブル10cには、図5で説明した動作によって、学習文字列が学習(登録)されているものとする。
(画像データ入力ステップ)
まず、文字認識装置1は、画像入力手段20によって、文字を含んだ画像データ(ビットマップデータ)を入力する(ステップS10)。なお、文字認識装置1は、入力した画像データを、メモリ(図示せず)に展開するものとする。
(文字抽出ステップ)
そして、文字認識装置1は、認識手段30によって、画像データから文字を認識する。具体的には、文字認識装置1は、文字抽出手段31によって、メモリに展開された画像データから、ビットの分布等によって、文字単位で文字(文字画像データ)を抽出する(ステップS11)。なお、ステップS10およびステップS11は、図5で説明したステップS1およびステップS2の動作と同じ動作である。
(ユーザ〔第二〕辞書文字認識ステップ)
そして、文字認識装置1は、ユーザ辞書文字認識手段33によって、ステップS11で抽出された文字画像データと、学習動作(図5参照)によって学習されたユーザ辞書10bに登録されている文字パターンとで、パターンマッチングあるいは特徴の類似判定を行うことで、文字画像データの文字認識を行う(ステップS12)。
(学習文字列判定ステップ)
さらに、文字認識装置1は、学習文字列判定手段34によって、ステップS12で認識された文字列が、学習文字列テーブル10cに学習文字列として登録されているか否かを判定する(ステップS13)。
(学習文字列出力ステップ)
ここで、ステップS12で認識された文字列が学習文字列である場合(ステップS14でYes)、文字認識装置1は、認識結果出力手段35によって、ステップS13で認識された文字(学習文字列)を表示装置3に出力する(ステップS15)。
(第一辞書文字認識ステップ)
一方、ステップS12で認識された文字列が学習文字列でない場合(ステップS14でNo)、文字認識装置1は、通常辞書文字認識手段32によって、ステップS11で抽出された文字画像データと通常辞書10aに登録されている文字パターンとで、パターンマッチングあるいは特徴の類似判定を行うことで、文字画像データの文字認識を行う(ステップS16)。
(認識文字列出力ステップ)
そして、文字認識装置1は、認識結果出力手段35によって、ステップS16で認識された文字(認識文字列)を表示装置3に出力する(ステップS17)。
以上の動作によって、文字認識装置1は、誤認識した文字をユーザ辞書10bに学習させておくため、ユーザ辞書10bを用いることで、精度よく文字認識を行うことができる。さらに、文字認識装置1は、学習文字列を学習文字列テーブル10cに登録しておくため、ユーザ辞書10bを用いて認識された文字列において、ユーザが期待しない文字列を除外することができ、ユーザ辞書を用いた文字認識における誤認識を避けることができる。
なお、ここでは、説明を簡略化するため、ステップS15およびステップS17の動作後、処理を終了しているが、ステップS11において、複数の文字列が抽出された場合は、ステップS15およびステップS17の動作後、ステップS12に戻って動作を継続することとする。
また、ステップS17において出力された認識結果がユーザによって誤認識であると判断された場合、文字認識装置1は、ステップS17以降、図5のステップS5〜S7の動作を行うことで、学習文字列の再学習を行うこととする。すなわち、図6で説明した学習文字列を用いた文字認識動作は、ユーザが誤認識と判断した場合に、適宜、図5で説明した学習文字列の学習動作(ステップS5〜S7)を行うことで、文字認識の精度を高めることができる。
本発明の実施形態に係る文字認識装置の全体構成を示す機能ブロック図である。 ユーザ辞書の内容を示すデータ構造図である。 学習文字列テーブルの内容を示すデータ構造図である。 学習文字列の編集および登録を行う画面例を示す図である。 本発明の実施形態に係る文字認識装置の学習文字列の学習動作を示すフローチャートである。 本発明の実施形態に係る文字認識装置の学習文字列を用いた文字認識動作を示すフローチャートである。 従来のユーザ辞書の内容を示すデータ構造図である。
符号の説明
1 文字認識装置
2 入力装置
3 表示装置
10 記憶手段(第一辞書記憶手段、第二辞書記憶手段、学習文字列記憶手段)
10a 通常辞書(第一辞書)
10b ユーザ辞書(第二辞書)
10c 学習文字列テーブル
20 画像入力手段
30 認識手段
31 文字抽出手段
32 通常辞書文字認識手段
33 ユーザ辞書文字認識手段
34 学習文字列判定手段
35 認識結果出力手段
40 学習手段
41 学習文字列入力手段
42 登録手段
420 ユーザ辞書登録手段
421 学習文字列登録手段

Claims (4)

  1. 誤認識した文字を含んだ文字列を学習文字列として学習し、画像データから文字を認識する文字認識装置であって、
    文字パターンと文字コードとを予め対応付けた第一辞書を記憶する第一辞書記憶手段と、
    前記学習文字列を記憶する学習文字列記憶手段と、
    前記学習文字列の各文字について文字パターンと文字コードとを対応付けた第二辞書を記憶する第二辞書記憶手段と、
    前記第一辞書および前記第二辞書に基づいて、前記第二辞書を優先して前記画像データから文字認識を行う認識手段と、
    この認識手段で認識された文字列に対して、ユーザによって入力装置を介して修正された文字列を前記学習文字列として入力する学習文字列入力手段と、
    この学習文字列入力手段で入力された学習文字列を構成する文字ごとに、当該文字に対応する文字コードと当該文字を前記認識手段で認識した際の画像データ内の文字パターンとを対応付けて前記第二辞書記憶手段に登録する第二辞書登録手段と、
    前記学習文字列を前記学習文字列記憶手段に登録する学習文字列登録手段と、を備え、
    前記認識手段は、前記第二辞書に基づいて文字認識を行った文字列が前記学習文字列である場合に当該学習文字列を認識結果とし、当該文字列が前記学習文字列でない場合に前記第一辞書に基づいて文字認識を行うことを特徴とする文字認識装置。
  2. 文字パターンと文字コードとを予め対応付けた第一辞書を記憶する第一辞書記憶手段と、誤認識した文字を含んだ文字列を学習した学習文字列を記憶する学習文字列記憶手段と、前記学習文字列の各文字について文字パターンと文字コードとを対応付けた第二辞書を記憶する第二辞書記憶手段と、を備えた文字認識装置のコンピュータを、
    前記第一辞書および前記第二辞書に基づいて、前記第二辞書を優先して画像データから文字認識を行う認識手段、
    この認識手段で認識された文字列に対して、ユーザによって入力装置を介して修正された文字列を前記学習文字列として入力する学習文字列入力手段、
    この学習文字列入力手段で入力された学習文字列を構成する文字ごとに、当該文字に対応する文字コードと当該文字を前記認識手段で認識した際の画像データ内の文字パターンとを対応付けて前記第二辞書記憶手段に登録する第二辞書登録手段、
    前記学習文字列を前記学習文字列記憶手段に登録する学習文字列登録手段、として機能させ、
    前記認識手段は、前記第二辞書に基づいて文字認識を行った文字列が前記学習文字列である場合に当該学習文字列を認識結果とし、当該文字列が前記学習文字列でない場合に前記第一辞書に基づいて文字認識を行うことを特徴とする文字認識プログラム。
  3. 文字パターンと文字コードとを予め対応付けた第一辞書を記憶する第一辞書記憶手段と、誤認識した文字を含んだ文字列を学習した学習文字列を記憶する学習文字列記憶手段と、前記学習文字列の各文字について文字パターンと文字コードとを対応付けた第二辞書を記憶する第二辞書記憶手段と、を備えた文字認識装置における文字学習方法であって、
    前記文字認識装置が、
    前記第一辞書に基づいて、画像データから文字認識を行う第一辞書文字認識ステップと、
    この第一辞書文字認識ステップで認識された文字列を表示装置に出力し、入力装置を介してユーザから修正された文字列を前記学習文字列として入力する文字列修正ステップと、
    この文字列修正ステップで入力された学習文字列を構成する文字ごとに、当該文字に対応する文字コードと当該文字を前記第一辞書文字認識ステップで認識した際の画像データ内の文字パターンとを対応付けて前記第二辞書記憶手段に登録するとともに、前記学習文字列を前記学習文字列記憶手段に登録する学習文字列登録ステップと、
    を含むことを特徴とする文字認識装置における文字学習方法。
  4. 文字パターンと文字コードとを予め対応付けた第一辞書を記憶する第一辞書記憶手段と、誤認識した文字を含んだ文字列を学習した学習文字列を記憶する学習文字列記憶手段と、前記学習文字列の各文字について文字パターンと文字コードとを対応付けた第二辞書を記憶する第二辞書記憶手段と、を備えた文字認識装置における文字認識方法であって、
    前記文字認識装置が、
    前記第二辞書に基づいて、画像データから文字認識を行う第二辞書文字認識ステップと、
    この第二辞書文字認識ステップで認識された文字列が前記学習文字列記憶手段に記憶されている学習文字列であるか否かを判定する学習文字列判定ステップと、
    この学習文字列判定ステップで前記文字列が前記学習文字列であると判定された場合に、当該学習文字列を認識結果として出力する学習文字列出力ステップと、
    前記学習文字列判定ステップで前記文字列が前記学習文字列でないと判定された場合に、前記第一辞書に基づいて、前記画像データから文字認識を行う第一辞書文字認識ステップと、
    この第一辞書文字認識ステップで認識された文字列を認識結果として出力する認識文字列出力ステップと、
    を含むことを特徴とする文字認識装置における文字認識方法。
JP2008033909A 2008-02-15 2008-02-15 文字認識装置および文字認識プログラム、並びに、文字認識装置における文字学習方法および文字認識方法 Active JP5060334B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008033909A JP5060334B2 (ja) 2008-02-15 2008-02-15 文字認識装置および文字認識プログラム、並びに、文字認識装置における文字学習方法および文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008033909A JP5060334B2 (ja) 2008-02-15 2008-02-15 文字認識装置および文字認識プログラム、並びに、文字認識装置における文字学習方法および文字認識方法

Publications (2)

Publication Number Publication Date
JP2009193387A true JP2009193387A (ja) 2009-08-27
JP5060334B2 JP5060334B2 (ja) 2012-10-31

Family

ID=41075334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008033909A Active JP5060334B2 (ja) 2008-02-15 2008-02-15 文字認識装置および文字認識プログラム、並びに、文字認識装置における文字学習方法および文字認識方法

Country Status (1)

Country Link
JP (1) JP5060334B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107966A (ja) * 2009-11-17 2011-06-02 Hitachi Solutions Ltd 文書処理装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06223220A (ja) * 1993-01-26 1994-08-12 Hitachi Ltd 手書き文字入力装置
JPH0793483A (ja) * 1993-09-24 1995-04-07 Matsushita Electric Ind Co Ltd 手書き文字認識方法および手書き文字認識装置
JPH07271918A (ja) * 1994-04-01 1995-10-20 Nippon Steel Corp 手書き文字認識ユーザ辞書作成方法および装置
JPH09305711A (ja) * 1996-05-20 1997-11-28 Sharp Corp 手書き文字処理装置
WO2003032197A1 (fr) * 2001-10-04 2003-04-17 Fujitsu Limited Systeme et procede de recherche de donnees

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06223220A (ja) * 1993-01-26 1994-08-12 Hitachi Ltd 手書き文字入力装置
JPH0793483A (ja) * 1993-09-24 1995-04-07 Matsushita Electric Ind Co Ltd 手書き文字認識方法および手書き文字認識装置
JPH07271918A (ja) * 1994-04-01 1995-10-20 Nippon Steel Corp 手書き文字認識ユーザ辞書作成方法および装置
JPH09305711A (ja) * 1996-05-20 1997-11-28 Sharp Corp 手書き文字処理装置
WO2003032197A1 (fr) * 2001-10-04 2003-04-17 Fujitsu Limited Systeme et procede de recherche de donnees

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107966A (ja) * 2009-11-17 2011-06-02 Hitachi Solutions Ltd 文書処理装置

Also Published As

Publication number Publication date
JP5060334B2 (ja) 2012-10-31

Similar Documents

Publication Publication Date Title
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
US10242296B2 (en) Method and device for realizing chinese character input based on uncertainty information
JP5647919B2 (ja) 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
CN111723791A (zh) 文字纠错方法、装置、设备及存储介质
CN102023971A (zh) 用于移动装置的用户交互式自动翻译装置和方法
CN101702154A (zh) 对基于照相机的图像中的字符进行识别和翻译的方法
JP2014157409A (ja) 情報処理装置及び情報処理プログラム
JP5942361B2 (ja) 画像処理装置及び画像処理プログラム
US20050276480A1 (en) Handwritten input for Asian languages
JP5060334B2 (ja) 文字認識装置および文字認識プログラム、並びに、文字認識装置における文字学習方法および文字認識方法
CN102467664A (zh) 辅助光学字符识别的方法和装置
CN107533652B (zh) 识别装置、识别方法及记录介质
RU2657181C1 (ru) Способ улучшения качества распознавания отдельного кадра
US20180307669A1 (en) Information processing apparatus
JP7322468B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN111091120B (zh) 一种听写批改方法及电子设备
JP4407494B2 (ja) デジタルペンを用いた速記文字反訳作業支援システム
KR101362142B1 (ko) 시프트키 누락단어를 교정하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 및 그 방법
US8548800B2 (en) Substitution, insertion, and deletion (SID) distance and voice impressions detector (VID) distance
JP4632893B2 (ja) 点字翻訳装置、点字翻訳方法、点字翻訳プログラムおよびこれを記録したコンピュータ読取り可能な記録媒体
JP5284342B2 (ja) 文字認識システムおよび文字認識プログラム
JP2006072520A (ja) 情報処理装置及びその方法及びそのプログラム記録媒体
JP2939945B2 (ja) ローマ字住所認識装置
JP5845726B2 (ja) 文字認識装置、文字認識結果処理システム及びプログラム
JP4706021B2 (ja) 文字入力装置、文字入力方法、ならびに、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120803

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5060334

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250