JP4661921B2 - 文書処理装置およびプログラム - Google Patents

文書処理装置およびプログラム Download PDF

Info

Publication number
JP4661921B2
JP4661921B2 JP2008216184A JP2008216184A JP4661921B2 JP 4661921 B2 JP4661921 B2 JP 4661921B2 JP 2008216184 A JP2008216184 A JP 2008216184A JP 2008216184 A JP2008216184 A JP 2008216184A JP 4661921 B2 JP4661921 B2 JP 4661921B2
Authority
JP
Japan
Prior art keywords
character
image
character image
category
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008216184A
Other languages
English (en)
Other versions
JP2010055142A (ja
Inventor
勝彦 糸乘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2008216184A priority Critical patent/JP4661921B2/ja
Priority to US12/372,500 priority patent/US8280175B2/en
Publication of JP2010055142A publication Critical patent/JP2010055142A/ja
Application granted granted Critical
Publication of JP4661921B2 publication Critical patent/JP4661921B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、文書処理装置およびプログラムに関する。
文書画像から文書情報を自動的に抽出し、データベースなどに登録するために、文字認識装置が広く利用されている。しかし、文字認識装置では100%の文字認識率を望むことができず、修正作業が必要となる。従来では、文書画像1枚ずつの処理が前提であり、複数枚の文書画像を処理した場合には、各ページを確認して修正作業を行う必要が生じる。
最近の画像入力装置では、大量の文書を読み取ることを前提として、自動原稿送り装置(ADF)を搭載している機械が増えている。このような装置で大量に文書画像を読み込むと、読み取った画像毎に傾いたり、歪んだりすることがある。そのため、画像補正技術を用いて画像を補正するが、同じ文字が画像レベルで全く同じ文字に補正されることはない。そのため、同じ文字であっても異なる文字認識結果を出力することがある。従来技術では、文字認識結果を元に文字画像を収集しているため、1つの文字に対して異なる修正文字が提示される場合がある。
なお、この発明と関連する先行文献としては特許文献1がある。特許文献1は、認識結果が同じになる文字画像を集めて一覧表示し、その一覧において認識結果が誤っているものを指定して訂正を行い、修正作業を軽減させることを提案している。
特開平11−213087号公報
この発明は、以上の事情を考慮してなされたものであり、読み取り画像の歪みが生じている場合でも、文字認識を行う前に、一つの文字として認識されるべき文字は同じ文字認識結果を得られるようにする文書処理技術を提供することを目的としている。
請求項1の発明によれば、文書処理装置に:入力した文書画像から文字画像を切り出す文字切出手段と;上記文字画像をカテゴリに分類する文字画像分類手段と;分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段と;上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段と;上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段とを設けるようにしている。
また、請求項2の発明によれば、請求項1に記載の文書処理装置において、上記文字画像に対して割り当てられる文字識別情報を修正する修正手段をさらに有するようにしている。
また、請求項3の発明によれば、請求項2の文書処理装置において、上記修正手段は、単語辞書を有し、上記出力手段から一連の文字画像の一連の文字識別情報に対して形態素解析を行い、照合する形態素がない場合には、該当する文字画像を上記文字画像が属するカテゴリから削除し、新しくカテゴリを生成するようにしている。
また、請求項4の発明によれば、請求項2または3記載の画像処理装置において、上記修正手段は、1つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記1つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映するようにしている。
請求項5の発明によれば、請求項4記載の画像処理装置において、上記文字画像のカテゴリを、当該文字画像のカテゴリの上記平均的な画像に対する上記文字認識手段の認識結果と対応させる対応付け手段をさらに有し、上記出力手段は、上記文字画像に対して割り当てられる文字識別情報として、当該文字画像が分類されるカテゴリが上記対応付け手段により対応付けられる上記文字認識結果を出力し、上記修正手段は、1つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記対応付け手段による対応づけを修正して、上記1つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映するようにしている。
請求項6の発明によれば、請求項1〜5のいずれかに記載の文書処理装置において、自動原稿送り機構と、切り出した各文字画像がADFに載置した文書の何枚目の文書から切り出したかの情報と、文字画像の座標と、切り出した文字画像そのものと、切り出した文字画像が分類されるカテゴリの情報を記憶する文字座像管理手段を搭載した文書画像入力手段をさらに有するようにしている。
請求項7の発明によれば、請求項1〜6のいずれかに記載の文書処理装置において、上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像の画素値を画素位置ごとに平均化し、各画素位置の画素値の平均値を用いて平均文字画像特徴を取得するようにしている。
請求項8の発明によれば、請求項1〜6のいずれかに記載の文書処理装置において、上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像から特定の特徴量を求め、上記特徴量の平均値から上記平均的な文字画像特徴を取得するようにしている。
請求項9の発明によれば、請求項1〜8のいずれかに記載の文書処理装置において、上記カテゴリの各々について、上記文字認識手段による認識結果の文字識別情報を記憶する文字認識結果記憶手段をさらに有するようにしている。
請求項10の発明によれば、コンピュータを:入力した文書画像から文字画像を切り出す文字切出手段;上記文字画像をカテゴリに分類する文字画像分類手段;分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段;上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段;上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段として機能させるための文書処理用プログラムが実現される。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
請求項1の発明によれば、読み取り画像の歪みが生じている場合でも、文字認識を行う前に、一つの文字として認識されるべき文字は同じ文字認識結果を得られるようにすることができる。
請求項2の発明によれば、さらに、文字画像に割り当てられた文字識別情報を修正することができる。
請求項3の発明によれば、さらに、形態素解析を行わない場合に比べて文字認識のベースとなる文字画像のカテゴリを正しく割り当てることができる。
請求項4の発明によれば、1つの文字画像に割り当てられた文字識別情報の修正を当該一つの文字画像が属するカテゴリの範囲の他の文字画像に対して一括して適用できる。
請求項5の発明によれば、文字画像のカテゴリと文字認識結果とを対応付けておき、この対応づけを修正して多数の文字画像に対する修正を一括して行える。
請求項6の発明によれば、頁ごとに文字画像情報を管理できる。
請求項7の発明によれば、各カテゴリに属する文字画像の画素値の画素位置毎の平均値から平均的な文字画像特徴を取得できる。
請求項8の発明によれば、各カテゴリに属する文字画像の特徴量を取得し、この特徴量の平均値から平均的な文字画像特徴量を取得できる。
請求項9の発明によれば、各カテゴリと文字認識結果の文字識別情報との間の対応づけを修正できる。
請求項10の発明によれば、読み取り画像の歪みが生じている場合でも、文字認識を行う前に、一つの文字として認識されるべき文字は同じ文字認識結果を得られるようにすることができる。
以下、この発明の実施例について説明する。
図1は、この発明の実施例1の画像処理装置100の全体構成を示し、図2は、画像処理装置100の主要部を機能ブロックで示し、図3は文字認識動作例を示している。画像処理装置100は、1つのコンピュータシステム上に実装されてもよいし、通信ネットワークを介して接続された複数のコンピュータシステム上に実装されてもよい。図3に示される各機能ブロックは、図1に示されるコンピュータシステムにハードウェア資源とソフトウェアが協働することにより実現される。ソフトウェアは、各種記録媒体、通信手段を介してコンピュータシステムにインストールされる。
図1において、101は自動原稿送り機構(ADFともいう)を搭載した画像入力装置、102は各種画像処理、文字認識処理およびその他の必要な処理を実行する演算装置(CPU)、103は画像入力装置101で入力した画像情報、実行に必要なプログラムや処理結果を一時的に記憶する記憶装置、104は処理結果を出力する情報出力装置である。
図2において、画像処理装置100は、ページ画像入力部10、ページ画像記憶部11、文字画像切り出し部12、文字画像分類部13、文字画像記憶部14、平均文字画像特徴取得部15、文字認識部16、対応付け部17、対応記憶部18、認識結果出力部19等を含んで構成される。
ページ画像入力部10は、画像入力装置101(図1)からのページ単位の画像を受け取ってページ画像記憶部11に記憶する。文字画像切り出し部12は、ページ画像またはその一部をページ画像記憶部11から取り出して文字画像の切り出しを行う。文字画像は典型的には1文字を含む画像であるけれども、2以上の文字の画像を連結したものでもよい。文字画像は典型的には矩形領域等により切り出される。文字画像分類部13は、文字画像を複数の文字画像クラスタに分類する。文字画像クラスタにはテンプレートが定義され、各文字画像は、テンプレートとの照合により1のクラスタに分類される。各文字画像のデータは文字画像記憶部14に記憶される。文字画像のデータの構成については後に詳述する。
平均文字画像特徴取得部15は、クラスタごとに、そのクラスタに属する文字画像の平均的な文字画像特徴量を抽出する。抽出手法の例は後に詳述する。文字認識部16はクラスタごとに平均的な文字画像特徴量を用いて文字認識を行う。対応付け部17は、クラスタとその文字認識結果(文字コード)とを対応付けて対応記憶部18に記憶する。
認識結果出力部19は、文字画像記憶部14から各文字画像のデータを読み出し、また対応記憶部18からクラスタと文字認識結果との対応づけを読み出し、文字認識結果をページ画像ごとに出力する。文字画像のデータは、典型的には、ページ、ページ内の位置、クラスタ、文字画像を含み、クラスタと文字認識結果(文字コード)から、対応する文書データを生成する。文書データは、情報出力装置104(図1)により利用者に提示される。
つぎに実施例の動作例について主に図3のフローチャートを参照して説明する。
画像入力装置101の自動原稿送り機構に載置された原稿が読み込まれ、記憶装置103(ページ画像記憶部11)に記憶される。記憶された画像は、文字画像切り出し部12により、1枚ずつ呼び出され(201)、画像中のすべての文字を切り出す(202)。文字の切り出しは、画像中の連結黒画素を取り出し(図4)、一定の大きさの矩形に収まる連結黒画素を取り出すことで実現することができる。
この時、日本語であれば、矩形を正方形として規定することで、文字の切り出しを正確に行うことができる。日本語の文書に英文字が混在している場合には、正方形の矩形で切り出すと、複数文字が含まれることがあるが、ここでは、正方形の矩形で切り出せる複数文字の組み合わせを1文字として扱うこととする。当然、後段の文字認識処理では、複数文字の組み合わせで文字認識ができるような辞書構成をとることになる。
この処理を、図5に示す「東京MidTown」の例を用いて説明する。文字1文字分の矩形として401のような矩形を想定する。同じ行には、同じサイズの文字が並んでいると仮定すると、連結黒画素の上辺の位置がほぼ同じ連結黒画素を見つけ、それらの最大高さを1辺の大きさとする矩形とすることができる。”東”の文字は、仮定した矩形401とほぼ同じサイズなので、矩形の大きさで切り出す。英文字”M”までは、仮定した大きさの矩形401とほぼ同じサイズなので、矩形の大きさで切り出す。次に矩形401を移動すると、この矩形401は。文字”id”と文字”T”の一部を含む。矩形401が文字”T”を含まないように変形し、矩形402のサイズで文字を切り出す。以下同様に、矩形403,404で文字を切り出す。その結果、各切り出した文字には、iとd、Tとo、wとnを含む画像を得る。切り出した画像は、文字画像管理データとして文字画像記憶部14に記録される。
文字画像管理データは、図6のように画像の位置を示すアドレス情報と、画像番号(ページ画像の番号)、切り出した画像の位置、カテゴリ番号から構成されている。この時点では、カテゴリ番号の項目は、空(たとえば、暫定的値0を入れておく)である。画像番号は、画像入力装置101で入力した画像を順番に番号付けした番号が格納される。切り出した画像位置は、その文書画像中で何番目に位置する文字であるかを示す番号が格納される。この値は、切り出した画像の座標情報(切り出した画像の左上の座標)としてもよい。
次に文字画像分類部13が、切り出した文字を分類する(203)。分類は、切り出した画像を各カテゴリ内の画像と比較して、最も近いカテゴリに分類する。分類する適当なカテゴリがない場合には、新規にカテゴリを新設する。比較の方法としては、すべての文字のカテゴリと各文字の代表画像を用意し、文字の代表画像と切り出した画像との差分を取り、差分が最も小さいカテゴリに分類する方法がある。差分は、文字の代表画像と切り出した画像を重ね合わせたときに、共通していない画素の数を数えることで求める。あるいは、カテゴリを事前に用意するのではなく、存在するカテゴリの代表文字と比較して、一定値以内に差分が収まらない場合には、カテゴリを新設するようにすることもできる。この時の代表文字は、最初にそのカテゴリに分類された画像とすることができる。切り出した画像のカテゴリが決定すると、文字画像記憶部14に記憶されている文字画像管理データ内のカテゴリ番号に記録する。カテゴリの決定方法を、画像間の差分と取るとしているが、画像の特徴量を比較する方法も利用することができる。以上の文字の切り出しとカテゴリの決定を終了すると、未処理の画像が記憶装置103に残っていないかを調べ、全ての画像に対して処理が終了していれば、次の処理(204)に移る。各カテゴリの代表画像は、そのカテゴリに新たな文字画像が加えられる度に更新されてよい。出現が予定されている文字種については、カテゴリおよびその代表画像を予め準備しておくことが好ましい。ただし、初期状態では、カテゴリに文字コードが、少なくとも確定的には対応付けられていない。カテゴリに分類されたすべての文字画像の平均的な画像特徴に基づいて最終的に文字認識が行われ、その文字認識結果の文字コードが当該カテゴリに割り当てられる。もちろん、初期状態において、カテゴリを初期化して、差分が大きな文字画像が出現する都度、新たなカテゴリを増やしていってもよい。
文字画像記憶部14に記憶されている文字画像管理データを調べて、同じカテゴリ番号を持つ文字画像情報を収集する。収集した画像の各画素値を画素位置ごとに足し合わせ、各画素位置の平均値を求める。この平均値を一定の閾値で閾値処理をして平均画像(平均的な文字画像特徴)を求める(205)。
文字認識部16は、求めた平均画像に対して、文字認識処理を行い、文字コードを求め、このカテゴリの文字種別を決定する(206)。決定した文字種別(文字コード)とカテゴリ情報とは、文字認識結果管理データとして、対応付け部17により、記憶装置103(対応記憶部18)に記憶される(207)。文字認識結果管理データは、図8に示すように、カテゴリ番号と文字認識結果の対で構成される。この時、文字認識結果には、文字認識結果の候補文字を含めることもできる。文字認識については、文字の切り出しで英文字で複数(2文字)が一緒に切り出されるケースがあるため、文字認識の辞書としても、2文字を1文字として認識できる辞書を用意する必要がある。
以上の認識処理を、すべてのカテゴリに対して実行し、カテゴリごとの文字を決定する。認識結果出力部19は、文字画像管理データに記録されている、画像番号と文字位置情報に基づいて、カテゴリ番号に対応する文字コードを出力することで、入力画像毎の文字認識結果を得ることができる。文字認識結果は、情報出力装置104によって提示される。
つぎにこの発明の実施例2の画像処理装置について説明する。先に説明した実施例1の画像処理装置では、カテゴリの分類に誤りがある場合には、異なる文字がカテゴリ内に混じることになる。文字認識結果に誤りが含まれる。この実施例2では、この誤りに対処する手法を採用している。
図9は、実施例2の画像処理装置100Aの全体構成を示し、図10は、画像処理装置100Aの主要部を機能ブロックで示している。図9および図10において、図1および図2に対応する箇所には対応する符号を付した。
図9において、実施例2の画像処理装置100Aは、自動原稿送り機構を搭載した画像入力装置101、各種画像処理、文字認識処理およびその他の必要な処理を実行する演算装置(CPU)102、画像入力装置101で入力した画像情報、実行に必要なプログラムや処理結果を一時的に記憶する記憶装置103、処理結果を出力する情報出力装置104に加えて、情報表示装置105とポインティングデバイス106を具備している。さらに、記憶装置103には形態素解析の手段と単語辞書を記憶している。実施例2では、文字認識結果を文字画像管理データに記録されている文字位置情報に基づいて、画像毎に文字認識結果を求める。
図10において、画像処理装置100Aは、ページ画像入力部10、ページ画像記憶部11、文字画像切り出し部12、文字画像分類部13、文字画像記憶部14、平均文字画像特徴取得部15、文字認識部16、対応付け部17、対応記憶部18、認識結果出力部19に加えて、形態素解析部20、単語辞書21、認識結果修正部22等を含んで構成されている。
切り出した文字画像の分類に誤りがあると、異なる文字が混在したカテゴリが存在することになる。この実施例では、形態素解析部20が単語辞書21を参照して、文字認識結果に対して、形態素解析を行って、単語を抽出し、単語辞書に適合しない文字列については最も近い単語に置き換える処理を行う。この時、文字が変更されることになるが、対応する文字については、カテゴリを新設してカテゴリ記憶部13aに登録し、そのカテゴリと文字コードとの対応関係を更新する(図12)。例えば、図12の例では「明日」という文字列について「明」「田」と認識したため、「田」を「日」に修正すべきと判断し、該当する文字画像(0xddddddd50)に新たなカテゴリ識別子を割り当て、文字画像(0xddddddd50)を代表画像(テンプレート)とするカテゴリを生成し、文字画像管理データに、「日」の文字コードと新たなカテゴリ識別子との対を追加する。
次に、使用者による修正について説明する。この実施例では、入力画像と認識結果を情報表示装置105に表示し、認識結果修正部22が、認識結果を修正するようになっている。使用者は、誤りのある文字をマウスなどのポインティングデバイス106により指示し、正しい文字を入力する。この時、キーボードなどから正しい文字を入力しても良いし、文字認識の候補文字の一覧から正しい文字を選択しても良い。この時、誤りを指示した文字の位置情報から指示した文字のカテゴリを決定する。修正した文字情報で、文字認識結果管理データの文字コードの項目を修正する。表示情報を文字画像管理データに基づいて、更新することですべての入力画像において、誤認識を修正できる。
具体的に図を用いて説明する。図11に修正作業のフローチャートを示す。図13のような3枚の画像が入力され、認識処理が実行され、図14および図15のような、文字画像管理データと文字認識結果管理データが得られたとする。この結果、文字カテゴリ397には文字コード”困”が割り当てられており、認識結果は図16のように本来”国”の文字が全ての画像において、文字”困”に誤認識している。この結果に対して、表示装置105においてポインティングデバイス106などで、文字”困”を1枚目の認識結果において指示し(1701、1702)、文字”国”に修正する(図17)。指示した情報から文字画像管理データを検索し(位置情報)、指示した文字に該当する文字カテゴリを決定する(1703)。次に、図18のように、該当する文字カテゴリの文字コードを修正した文字”国”に修正する(1704)。修正した文字認識結果管理データを用いて、文字画像管理データに基づいて認識結果を更新する(1705)。これにより、残りの2枚の画像についても、同様の修正が反映され、図19のような全ての画像に対して、修正を行うことができる。
つぎにこの発明の原理的な他の実施例について説明する。もちろん、この発明はこの実施例にも限定されるものではない。この原理的な実施例では、画像入力装置から入力されたすべての文書画像から、文字画像を切り出し、切り出した文字画像を分類する。分類した文字画像ごとに平均化して画像を生成し、この平均化した画像に対して文字認識を行う。複数の補正画像から平均化した画像を取得するため、各補正画像での歪みなどを軽減し、認識率を向上させる。文字認識結果と対応する文字画像群と各文字画像の位置情報を記憶する。1枚の文書画像に対して、ある文字を修正すると、その修正位置に対応する文字画像が含まれる文字画像群を検索し、その文字画像群に対して文字の修正を適用する。
1文字を修正することで、入力されたすべての文書画像中の同じ文字を一括して修正することができる。文字認識コードを元に画像を分類するのではないので、同じ文字(同じように印字される画像)に対しては、一意に文字コードを割り当てることができるので、全ての文書画像に対して、同じ文字は同じ文字コードを出力していることを保障できる。
なお、この発明は特許請求の範囲の記載に基づいて決定されるものであり、実施例の具体的な構成、課題、および効果には限定されない。この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。
この発明の実施例1のシステム構成を示すブロック図である。 上述実施例1の主要部の機能構成を示すブロック図である。 上述実施例1の動作例を説明するフローチャートである。 上述実施例1における連結黒画素を説明する図である。 上述実施例1における文字画像の切り出しを説明する図である。 上述実施例1の文字画像管理データ(カテゴリ未決定)を説明する図である。 上述実施例1の文字画像管理データ(カテゴリ決定済)を説明する図である。 上述実施例1の文字認識結果管理データを説明する図である。 この発明の実施例2のシステム構成を示すブロック図である。 上述実施例2の主要部の機能構成を示すブロック図である。 上述実施例2の動作例を説明するフローチャートである。 上述実施例2の文字認識結果の自動修正を説明する図である。 上述実施例2の使用者による文字認識結果の修正を説明するための入力画像の例を示す図である。 上述実施例2の使用者による文字認識結果の修正を説明するための文字画像管理データの例を示す図である。 上述実施例2の使用者による文字認識結果の修正を説明するための文字認識結果管理データの例を示す図である。 上述実施例2の使用者による文字認識結果の修正を説明するための認識結果の例を示す図である。 上述実施例2の使用者による文字認識結果の修正を説明するための最初の修正例を示す図である。 上述実施例2の使用者による文字認識結果の修正を説明するための文字認識結果管理データの修正例を示す図である。 上述実施例2の使用者による文字認識結果の修正を説明するための最終的な修正結果の例を示す図である。
符号の説明
10 ページ画像入力部
11 ページ画像記憶部
12 文字画像切り出し部
13 文字画像分類部
13a カテゴリ記憶部
14 文字画像記憶部
15 平均文字画像特徴取得部
16 文字認識部
17 対応付け部
18 対応記憶部
19 認識結果出力部
20 形態素解析部
21 単語辞書
22 認識結果修正部
100 画像処理装置
101 画像入力装置
102 演算装置
103 記憶装置
104 情報出力装置
105 情報表示装置
106 ポインティングデバイス

Claims (8)

  1. 入力した文書画像から文字画像を切り出す文字切出手段と、
    上記文字画像をカテゴリに分類する文字画像分類手段と、
    分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段と、
    上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段と、
    上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段と
    上記文字画像に対して割り当てられる文字識別情報を修正する修正手段と、
    を有し、
    上記修正手段は、単語辞書を備え、上記出力手段から一連の文字画像の一連の文字識別情報に対して上記単語辞書を参照して形態素解析を行って単語を抽出し、上記単語辞書に適合しない文字列が存在する場合には、当該文字列に最も近い単語に置換するとともに、置換に伴い変更された文字が分類されるカテゴリを生成する文書処理装置。
  2. 上記修正手段は、1つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記1つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映する請求項記載の文書処理装置。
  3. 上記文字画像のカテゴリを、当該文字画像のカテゴリの上記平均的な画像に対する上記文字認識手段の認識結果と対応させる対応付け手段をさらに有し、上記出力手段は、上記文字画像に対して割り当てられる文字識別情報として、当該文字画像が分類されるカテゴリが上記対応付け手段により対応付けられる上記文字認識結果を出力し、上記修正手段は、1つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記対応付け手段による対応づけを修正して、上記1つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映する請求項記載の文書処理装置。
  4. 自動原稿送り機構を搭載した文書画像入力手段と、切り出した各文字画像が自動原稿送り機構に載置した文書の何枚目の文書から切り出したかの情報と、文字画像の座標と、切り出した文字画像そのものと、切り出した文字画像が分類されるカテゴリの情報を記憶する文字画像管理手段
    をさらに有する請求項1〜のいずれかに記載の文書処理装置。
  5. 上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像の画素値を画素位置ごとに平均化し、各画素位置の画素値の平均値を用いて平均的な文字画像特徴を取得する請求項1〜のいずれかに記載の文書処理装置。
  6. 上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像から特定の特徴量を求め、上記特徴量の平均値から上記平均的な文字画像特徴を取得する請求項1〜のいずれかに記載の文書処理装置。
  7. 上記カテゴリの各々について、上記文字認識手段による認識結果の文字識別情報を記憶する文字認識結果記憶手段をさらに有する請求項1〜のいずれかに記載の文書処理装置。
  8. コンピュータを、
    入力した文書画像から文字画像を切り出す文字切出手段、
    上記文字画像をカテゴリに分類する文字画像分類手段、
    分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段、
    上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段、
    上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段
    上記文字画像に対して割り当てられる文字識別情報を修正する修正手段、
    として機能させるためのプログラムであり、
    上記修正手段は、単語辞書を備え、上記出力手段から一連の文字画像の一連の文字識別情報に対して上記単語辞書を参照して形態素解析を行って単語を抽出し、上記単語辞書に適合しない文字列が存在する場合には、当該文字列に最も近い単語に置換するとともに、置換に伴い変更された文字が分類されるカテゴリを生成する上記プログラム
JP2008216184A 2008-08-26 2008-08-26 文書処理装置およびプログラム Expired - Fee Related JP4661921B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008216184A JP4661921B2 (ja) 2008-08-26 2008-08-26 文書処理装置およびプログラム
US12/372,500 US8280175B2 (en) 2008-08-26 2009-02-17 Document processing apparatus, document processing method, and computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008216184A JP4661921B2 (ja) 2008-08-26 2008-08-26 文書処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2010055142A JP2010055142A (ja) 2010-03-11
JP4661921B2 true JP4661921B2 (ja) 2011-03-30

Family

ID=41725548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008216184A Expired - Fee Related JP4661921B2 (ja) 2008-08-26 2008-08-26 文書処理装置およびプログラム

Country Status (2)

Country Link
US (1) US8280175B2 (ja)
JP (1) JP4661921B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120113146A1 (en) * 2010-11-10 2012-05-10 Patrick Michael Virtue Methods, apparatus and articles of manufacture to combine segmentations of medical diagnostic images
US8818092B1 (en) * 2011-09-29 2014-08-26 Google, Inc. Multi-threaded text rendering
US8666123B2 (en) * 2012-04-26 2014-03-04 Google Inc. Creating social network groups
JP6525523B2 (ja) * 2013-07-31 2019-06-05 キヤノン株式会社 情報処理装置、制御方法およびプログラム
CN104809109B (zh) * 2014-01-23 2019-12-10 腾讯科技(深圳)有限公司 一种社交信息展示方法、装置及服务器
JP6472184B2 (ja) * 2014-07-29 2019-02-20 キヤノン株式会社 オブジェクト識別装置、オブジェクト識別方法及びプログラム
CN105184289B (zh) * 2015-10-10 2019-06-28 北京百度网讯科技有限公司 字符识别方法和装置
US9684842B2 (en) * 2015-10-29 2017-06-20 The Nielsen Company (Us), Llc Methods and apparatus to extract text from imaged documents
CN109034158B (zh) * 2017-06-09 2021-03-26 杭州海康威视数字技术股份有限公司 一种车牌识别方法、装置及计算机设备
CN109685100B (zh) * 2018-11-12 2024-05-10 平安科技(深圳)有限公司 字符识别方法、服务器及计算机可读存储介质
CN111127339B (zh) * 2019-12-04 2020-10-30 北京华宇信息技术有限公司 一种文档图像的梯形畸变矫正方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099709A (ja) * 2001-09-25 2003-04-04 Toshiba Corp 誤読文字修正方法及び光学的文字認識装置
JP2007179307A (ja) * 2005-12-28 2007-07-12 Hitachi Computer Peripherals Co Ltd 帳票識別装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06119484A (ja) * 1992-10-05 1994-04-28 Matsushita Electric Ind Co Ltd 文字認識装置
JPH06259595A (ja) * 1993-03-10 1994-09-16 Oki Electric Ind Co Ltd 文字認識処理装置及び認識処理方法
GB2281997B (en) * 1993-09-20 1997-10-15 Ricoh Kk Method and apparatus for improving a text image by using character regeneration
JP3372005B2 (ja) * 1995-04-28 2003-01-27 松下電器産業株式会社 文字認識装置
JPH09185674A (ja) * 1995-12-28 1997-07-15 Omron Corp 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法
JPH11213087A (ja) 1998-01-23 1999-08-06 Ricoh Co Ltd 文字認識装置
JP4172584B2 (ja) * 2004-04-19 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字認識結果出力装置、文字認識装置、その方法及びプログラム
US7519221B1 (en) * 2005-02-28 2009-04-14 Adobe Systems Incorporated Reconstructing high-fidelity electronic documents from images via generation of synthetic fonts
US7650035B2 (en) * 2006-09-11 2010-01-19 Google Inc. Optical character recognition based on shape clustering and multiple optical character recognition processes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099709A (ja) * 2001-09-25 2003-04-04 Toshiba Corp 誤読文字修正方法及び光学的文字認識装置
JP2007179307A (ja) * 2005-12-28 2007-07-12 Hitachi Computer Peripherals Co Ltd 帳票識別装置

Also Published As

Publication number Publication date
JP2010055142A (ja) 2010-03-11
US8280175B2 (en) 2012-10-02
US20100054599A1 (en) 2010-03-04

Similar Documents

Publication Publication Date Title
JP4661921B2 (ja) 文書処理装置およびプログラム
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
US11182604B1 (en) Computerized recognition and extraction of tables in digitized documents
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
US20100128922A1 (en) Automated generation of form definitions from hard-copy forms
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
US8418050B2 (en) Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method
CN102822846A (zh) 检测文本行图像中的断字位置
US20220415008A1 (en) Image box filtering for optical character recognition
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
JP2010061471A (ja) 文字認識装置およびプログラム
CN113269101A (zh) 一种票据识别方法、装置和设备
US20010043742A1 (en) Communication document detector
US7680331B2 (en) Document processing device and document processing method
JP5657401B2 (ja) 文書処理装置、及び文書処理プログラム
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
US20210019554A1 (en) Information processing device and information processing method
US20210042555A1 (en) Information Processing Apparatus and Table Recognition Method
JP5169648B2 (ja) 原画像探索装置及び原画像探索プログラム
JP5712415B2 (ja) 帳票処理システム及び帳票処理方法
JP2003030654A (ja) パターン識別装置、パターン識別方法及びパターン識別用プログラム
US7995869B2 (en) Information processing apparatus, information processing method, and information storing medium
JP2010205122A (ja) レイアウト構造解析装置及びレイアウト構造解析方法
US11763582B2 (en) Information processing apparatus, control method of information processing apparatus, and non-transitory storage medium
US11354890B2 (en) Information processing apparatus calculating feedback information for partial region of image and non-transitory computer readable medium storing program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101220

R150 Certificate of patent or registration of utility model

Ref document number: 4661921

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140114

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees