JP4661921B2

JP4661921B2 - 文書処理装置およびプログラム

Info

Publication number: JP4661921B2
Application number: JP2008216184A
Authority: JP
Inventors: 勝彦糸乘
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2008-08-26
Filing date: 2008-08-26
Publication date: 2011-03-30
Anticipated expiration: 2028-08-26
Also published as: JP2010055142A; US8280175B2; US20100054599A1

Description

この発明は、文書処理装置およびプログラムに関する。

文書画像から文書情報を自動的に抽出し、データベースなどに登録するために、文字認識装置が広く利用されている。しかし、文字認識装置では１００％の文字認識率を望むことができず、修正作業が必要となる。従来では、文書画像１枚ずつの処理が前提であり、複数枚の文書画像を処理した場合には、各ページを確認して修正作業を行う必要が生じる。

最近の画像入力装置では、大量の文書を読み取ることを前提として、自動原稿送り装置（ＡＤＦ）を搭載している機械が増えている。このような装置で大量に文書画像を読み込むと、読み取った画像毎に傾いたり、歪んだりすることがある。そのため、画像補正技術を用いて画像を補正するが、同じ文字が画像レベルで全く同じ文字に補正されることはない。そのため、同じ文字であっても異なる文字認識結果を出力することがある。従来技術では、文字認識結果を元に文字画像を収集しているため、１つの文字に対して異なる修正文字が提示される場合がある。

なお、この発明と関連する先行文献としては特許文献１がある。特許文献１は、認識結果が同じになる文字画像を集めて一覧表示し、その一覧において認識結果が誤っているものを指定して訂正を行い、修正作業を軽減させることを提案している。
特開平１１−２１３０８７号公報

この発明は、以上の事情を考慮してなされたものであり、読み取り画像の歪みが生じている場合でも、文字認識を行う前に、一つの文字として認識されるべき文字は同じ文字認識結果を得られるようにする文書処理技術を提供することを目的としている。

請求項１の発明によれば、文書処理装置に：入力した文書画像から文字画像を切り出す文字切出手段と；上記文字画像をカテゴリに分類する文字画像分類手段と；分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段と；上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段と；上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段とを設けるようにしている。

また、請求項２の発明によれば、請求項１に記載の文書処理装置において、上記文字画像に対して割り当てられる文字識別情報を修正する修正手段をさらに有するようにしている。

また、請求項３の発明によれば、請求項２の文書処理装置において、上記修正手段は、単語辞書を有し、上記出力手段から一連の文字画像の一連の文字識別情報に対して形態素解析を行い、照合する形態素がない場合には、該当する文字画像を上記文字画像が属するカテゴリから削除し、新しくカテゴリを生成するようにしている。

また、請求項４の発明によれば、請求項２または３記載の画像処理装置において、上記修正手段は、１つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記１つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映するようにしている。

請求項５の発明によれば、請求項４記載の画像処理装置において、上記文字画像のカテゴリを、当該文字画像のカテゴリの上記平均的な画像に対する上記文字認識手段の認識結果と対応させる対応付け手段をさらに有し、上記出力手段は、上記文字画像に対して割り当てられる文字識別情報として、当該文字画像が分類されるカテゴリが上記対応付け手段により対応付けられる上記文字認識結果を出力し、上記修正手段は、１つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記対応付け手段による対応づけを修正して、上記１つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映するようにしている。

請求項６の発明によれば、請求項１〜５のいずれかに記載の文書処理装置において、自動原稿送り機構と、切り出した各文字画像がＡＤＦに載置した文書の何枚目の文書から切り出したかの情報と、文字画像の座標と、切り出した文字画像そのものと、切り出した文字画像が分類されるカテゴリの情報を記憶する文字座像管理手段を搭載した文書画像入力手段をさらに有するようにしている。

請求項７の発明によれば、請求項１〜６のいずれかに記載の文書処理装置において、上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像の画素値を画素位置ごとに平均化し、各画素位置の画素値の平均値を用いて平均文字画像特徴を取得するようにしている。

請求項８の発明によれば、請求項１〜６のいずれかに記載の文書処理装置において、上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像から特定の特徴量を求め、上記特徴量の平均値から上記平均的な文字画像特徴を取得するようにしている。

請求項９の発明によれば、請求項１〜８のいずれかに記載の文書処理装置において、上記カテゴリの各々について、上記文字認識手段による認識結果の文字識別情報を記憶する文字認識結果記憶手段をさらに有するようにしている。

請求項１０の発明によれば、コンピュータを：入力した文書画像から文字画像を切り出す文字切出手段；上記文字画像をカテゴリに分類する文字画像分類手段；分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段；上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段；上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段として機能させるための文書処理用プログラムが実現される。

この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。

請求項１の発明によれば、読み取り画像の歪みが生じている場合でも、文字認識を行う前に、一つの文字として認識されるべき文字は同じ文字認識結果を得られるようにすることができる。

請求項２の発明によれば、さらに、文字画像に割り当てられた文字識別情報を修正することができる。

請求項３の発明によれば、さらに、形態素解析を行わない場合に比べて文字認識のベースとなる文字画像のカテゴリを正しく割り当てることができる。

請求項４の発明によれば、１つの文字画像に割り当てられた文字識別情報の修正を当該一つの文字画像が属するカテゴリの範囲の他の文字画像に対して一括して適用できる。

請求項５の発明によれば、文字画像のカテゴリと文字認識結果とを対応付けておき、この対応づけを修正して多数の文字画像に対する修正を一括して行える。

請求項６の発明によれば、頁ごとに文字画像情報を管理できる。

請求項７の発明によれば、各カテゴリに属する文字画像の画素値の画素位置毎の平均値から平均的な文字画像特徴を取得できる。

請求項８の発明によれば、各カテゴリに属する文字画像の特徴量を取得し、この特徴量の平均値から平均的な文字画像特徴量を取得できる。

請求項９の発明によれば、各カテゴリと文字認識結果の文字識別情報との間の対応づけを修正できる。

請求項１０の発明によれば、読み取り画像の歪みが生じている場合でも、文字認識を行う前に、一つの文字として認識されるべき文字は同じ文字認識結果を得られるようにすることができる。

以下、この発明の実施例について説明する。

図１は、この発明の実施例１の画像処理装置１００の全体構成を示し、図２は、画像処理装置１００の主要部を機能ブロックで示し、図３は文字認識動作例を示している。画像処理装置１００は、１つのコンピュータシステム上に実装されてもよいし、通信ネットワークを介して接続された複数のコンピュータシステム上に実装されてもよい。図３に示される各機能ブロックは、図１に示されるコンピュータシステムにハードウェア資源とソフトウェアが協働することにより実現される。ソフトウェアは、各種記録媒体、通信手段を介してコンピュータシステムにインストールされる。

図１において、１０１は自動原稿送り機構（ＡＤＦともいう）を搭載した画像入力装置、１０２は各種画像処理、文字認識処理およびその他の必要な処理を実行する演算装置（ＣＰＵ）、１０３は画像入力装置１０１で入力した画像情報、実行に必要なプログラムや処理結果を一時的に記憶する記憶装置、１０４は処理結果を出力する情報出力装置である。

図２において、画像処理装置１００は、ページ画像入力部１０、ページ画像記憶部１１、文字画像切り出し部１２、文字画像分類部１３、文字画像記憶部１４、平均文字画像特徴取得部１５、文字認識部１６、対応付け部１７、対応記憶部１８、認識結果出力部１９等を含んで構成される。

ページ画像入力部１０は、画像入力装置１０１（図１）からのページ単位の画像を受け取ってページ画像記憶部１１に記憶する。文字画像切り出し部１２は、ページ画像またはその一部をページ画像記憶部１１から取り出して文字画像の切り出しを行う。文字画像は典型的には１文字を含む画像であるけれども、２以上の文字の画像を連結したものでもよい。文字画像は典型的には矩形領域等により切り出される。文字画像分類部１３は、文字画像を複数の文字画像クラスタに分類する。文字画像クラスタにはテンプレートが定義され、各文字画像は、テンプレートとの照合により１のクラスタに分類される。各文字画像のデータは文字画像記憶部１４に記憶される。文字画像のデータの構成については後に詳述する。

平均文字画像特徴取得部１５は、クラスタごとに、そのクラスタに属する文字画像の平均的な文字画像特徴量を抽出する。抽出手法の例は後に詳述する。文字認識部１６はクラスタごとに平均的な文字画像特徴量を用いて文字認識を行う。対応付け部１７は、クラスタとその文字認識結果（文字コード）とを対応付けて対応記憶部１８に記憶する。

認識結果出力部１９は、文字画像記憶部１４から各文字画像のデータを読み出し、また対応記憶部１８からクラスタと文字認識結果との対応づけを読み出し、文字認識結果をページ画像ごとに出力する。文字画像のデータは、典型的には、ページ、ページ内の位置、クラスタ、文字画像を含み、クラスタと文字認識結果（文字コード）から、対応する文書データを生成する。文書データは、情報出力装置１０４（図１）により利用者に提示される。

つぎに実施例の動作例について主に図３のフローチャートを参照して説明する。

画像入力装置１０１の自動原稿送り機構に載置された原稿が読み込まれ、記憶装置１０３（ページ画像記憶部１１）に記憶される。記憶された画像は、文字画像切り出し部１２により、１枚ずつ呼び出され（２０１）、画像中のすべての文字を切り出す（２０２）。文字の切り出しは、画像中の連結黒画素を取り出し（図４）、一定の大きさの矩形に収まる連結黒画素を取り出すことで実現することができる。

この時、日本語であれば、矩形を正方形として規定することで、文字の切り出しを正確に行うことができる。日本語の文書に英文字が混在している場合には、正方形の矩形で切り出すと、複数文字が含まれることがあるが、ここでは、正方形の矩形で切り出せる複数文字の組み合わせを１文字として扱うこととする。当然、後段の文字認識処理では、複数文字の組み合わせで文字認識ができるような辞書構成をとることになる。

この処理を、図５に示す「東京ＭｉｄＴｏｗｎ」の例を用いて説明する。文字１文字分の矩形として４０１のような矩形を想定する。同じ行には、同じサイズの文字が並んでいると仮定すると、連結黒画素の上辺の位置がほぼ同じ連結黒画素を見つけ、それらの最大高さを１辺の大きさとする矩形とすることができる。”東”の文字は、仮定した矩形４０１とほぼ同じサイズなので、矩形の大きさで切り出す。英文字”Ｍ”までは、仮定した大きさの矩形４０１とほぼ同じサイズなので、矩形の大きさで切り出す。次に矩形４０１を移動すると、この矩形４０１は。文字”ｉｄ”と文字”Ｔ”の一部を含む。矩形４０１が文字”Ｔ”を含まないように変形し、矩形４０２のサイズで文字を切り出す。以下同様に、矩形４０３，４０４で文字を切り出す。その結果、各切り出した文字には、ｉとｄ、Ｔとｏ、ｗとｎを含む画像を得る。切り出した画像は、文字画像管理データとして文字画像記憶部１４に記録される。

文字画像管理データは、図６のように画像の位置を示すアドレス情報と、画像番号（ページ画像の番号）、切り出した画像の位置、カテゴリ番号から構成されている。この時点では、カテゴリ番号の項目は、空（たとえば、暫定的値０を入れておく）である。画像番号は、画像入力装置１０１で入力した画像を順番に番号付けした番号が格納される。切り出した画像位置は、その文書画像中で何番目に位置する文字であるかを示す番号が格納される。この値は、切り出した画像の座標情報（切り出した画像の左上の座標）としてもよい。

次に文字画像分類部１３が、切り出した文字を分類する（２０３）。分類は、切り出した画像を各カテゴリ内の画像と比較して、最も近いカテゴリに分類する。分類する適当なカテゴリがない場合には、新規にカテゴリを新設する。比較の方法としては、すべての文字のカテゴリと各文字の代表画像を用意し、文字の代表画像と切り出した画像との差分を取り、差分が最も小さいカテゴリに分類する方法がある。差分は、文字の代表画像と切り出した画像を重ね合わせたときに、共通していない画素の数を数えることで求める。あるいは、カテゴリを事前に用意するのではなく、存在するカテゴリの代表文字と比較して、一定値以内に差分が収まらない場合には、カテゴリを新設するようにすることもできる。この時の代表文字は、最初にそのカテゴリに分類された画像とすることができる。切り出した画像のカテゴリが決定すると、文字画像記憶部１４に記憶されている文字画像管理データ内のカテゴリ番号に記録する。カテゴリの決定方法を、画像間の差分と取るとしているが、画像の特徴量を比較する方法も利用することができる。以上の文字の切り出しとカテゴリの決定を終了すると、未処理の画像が記憶装置１０３に残っていないかを調べ、全ての画像に対して処理が終了していれば、次の処理（２０４）に移る。各カテゴリの代表画像は、そのカテゴリに新たな文字画像が加えられる度に更新されてよい。出現が予定されている文字種については、カテゴリおよびその代表画像を予め準備しておくことが好ましい。ただし、初期状態では、カテゴリに文字コードが、少なくとも確定的には対応付けられていない。カテゴリに分類されたすべての文字画像の平均的な画像特徴に基づいて最終的に文字認識が行われ、その文字認識結果の文字コードが当該カテゴリに割り当てられる。もちろん、初期状態において、カテゴリを初期化して、差分が大きな文字画像が出現する都度、新たなカテゴリを増やしていってもよい。

文字画像記憶部１４に記憶されている文字画像管理データを調べて、同じカテゴリ番号を持つ文字画像情報を収集する。収集した画像の各画素値を画素位置ごとに足し合わせ、各画素位置の平均値を求める。この平均値を一定の閾値で閾値処理をして平均画像（平均的な文字画像特徴）を求める（２０５）。

文字認識部１６は、求めた平均画像に対して、文字認識処理を行い、文字コードを求め、このカテゴリの文字種別を決定する（２０６）。決定した文字種別（文字コード）とカテゴリ情報とは、文字認識結果管理データとして、対応付け部１７により、記憶装置１０３（対応記憶部１８）に記憶される（２０７）。文字認識結果管理データは、図８に示すように、カテゴリ番号と文字認識結果の対で構成される。この時、文字認識結果には、文字認識結果の候補文字を含めることもできる。文字認識については、文字の切り出しで英文字で複数（２文字）が一緒に切り出されるケースがあるため、文字認識の辞書としても、２文字を１文字として認識できる辞書を用意する必要がある。

以上の認識処理を、すべてのカテゴリに対して実行し、カテゴリごとの文字を決定する。認識結果出力部１９は、文字画像管理データに記録されている、画像番号と文字位置情報に基づいて、カテゴリ番号に対応する文字コードを出力することで、入力画像毎の文字認識結果を得ることができる。文字認識結果は、情報出力装置１０４によって提示される。

つぎにこの発明の実施例２の画像処理装置について説明する。先に説明した実施例１の画像処理装置では、カテゴリの分類に誤りがある場合には、異なる文字がカテゴリ内に混じることになる。文字認識結果に誤りが含まれる。この実施例２では、この誤りに対処する手法を採用している。

図９は、実施例２の画像処理装置１００Ａの全体構成を示し、図１０は、画像処理装置１００Ａの主要部を機能ブロックで示している。図９および図１０において、図１および図２に対応する箇所には対応する符号を付した。

図９において、実施例２の画像処理装置１００Ａは、自動原稿送り機構を搭載した画像入力装置１０１、各種画像処理、文字認識処理およびその他の必要な処理を実行する演算装置（ＣＰＵ）１０２、画像入力装置１０１で入力した画像情報、実行に必要なプログラムや処理結果を一時的に記憶する記憶装置１０３、処理結果を出力する情報出力装置１０４に加えて、情報表示装置１０５とポインティングデバイス１０６を具備している。さらに、記憶装置１０３には形態素解析の手段と単語辞書を記憶している。実施例２では、文字認識結果を文字画像管理データに記録されている文字位置情報に基づいて、画像毎に文字認識結果を求める。

図１０において、画像処理装置１００Ａは、ページ画像入力部１０、ページ画像記憶部１１、文字画像切り出し部１２、文字画像分類部１３、文字画像記憶部１４、平均文字画像特徴取得部１５、文字認識部１６、対応付け部１７、対応記憶部１８、認識結果出力部１９に加えて、形態素解析部２０、単語辞書２１、認識結果修正部２２等を含んで構成されている。

切り出した文字画像の分類に誤りがあると、異なる文字が混在したカテゴリが存在することになる。この実施例では、形態素解析部２０が単語辞書２１を参照して、文字認識結果に対して、形態素解析を行って、単語を抽出し、単語辞書に適合しない文字列については最も近い単語に置き換える処理を行う。この時、文字が変更されることになるが、対応する文字については、カテゴリを新設してカテゴリ記憶部１３ａに登録し、そのカテゴリと文字コードとの対応関係を更新する（図１２）。例えば、図１２の例では「明日」という文字列について「明」「田」と認識したため、「田」を「日」に修正すべきと判断し、該当する文字画像（０ｘｄｄｄｄｄｄｄ５０）に新たなカテゴリ識別子を割り当て、文字画像（０ｘｄｄｄｄｄｄｄ５０）を代表画像（テンプレート）とするカテゴリを生成し、文字画像管理データに、「日」の文字コードと新たなカテゴリ識別子との対を追加する。

次に、使用者による修正について説明する。この実施例では、入力画像と認識結果を情報表示装置１０５に表示し、認識結果修正部２２が、認識結果を修正するようになっている。使用者は、誤りのある文字をマウスなどのポインティングデバイス１０６により指示し、正しい文字を入力する。この時、キーボードなどから正しい文字を入力しても良いし、文字認識の候補文字の一覧から正しい文字を選択しても良い。この時、誤りを指示した文字の位置情報から指示した文字のカテゴリを決定する。修正した文字情報で、文字認識結果管理データの文字コードの項目を修正する。表示情報を文字画像管理データに基づいて、更新することですべての入力画像において、誤認識を修正できる。

具体的に図を用いて説明する。図１１に修正作業のフローチャートを示す。図１３のような３枚の画像が入力され、認識処理が実行され、図１４および図１５のような、文字画像管理データと文字認識結果管理データが得られたとする。この結果、文字カテゴリ３９７には文字コード”困”が割り当てられており、認識結果は図１６のように本来”国”の文字が全ての画像において、文字”困”に誤認識している。この結果に対して、表示装置１０５においてポインティングデバイス１０６などで、文字”困”を１枚目の認識結果において指示し（１７０１、１７０２）、文字”国”に修正する（図１７）。指示した情報から文字画像管理データを検索し（位置情報）、指示した文字に該当する文字カテゴリを決定する（１７０３）。次に、図１８のように、該当する文字カテゴリの文字コードを修正した文字”国”に修正する（１７０４）。修正した文字認識結果管理データを用いて、文字画像管理データに基づいて認識結果を更新する（１７０５）。これにより、残りの２枚の画像についても、同様の修正が反映され、図１９のような全ての画像に対して、修正を行うことができる。

つぎにこの発明の原理的な他の実施例について説明する。もちろん、この発明はこの実施例にも限定されるものではない。この原理的な実施例では、画像入力装置から入力されたすべての文書画像から、文字画像を切り出し、切り出した文字画像を分類する。分類した文字画像ごとに平均化して画像を生成し、この平均化した画像に対して文字認識を行う。複数の補正画像から平均化した画像を取得するため、各補正画像での歪みなどを軽減し、認識率を向上させる。文字認識結果と対応する文字画像群と各文字画像の位置情報を記憶する。１枚の文書画像に対して、ある文字を修正すると、その修正位置に対応する文字画像が含まれる文字画像群を検索し、その文字画像群に対して文字の修正を適用する。

１文字を修正することで、入力されたすべての文書画像中の同じ文字を一括して修正することができる。文字認識コードを元に画像を分類するのではないので、同じ文字（同じように印字される画像）に対しては、一意に文字コードを割り当てることができるので、全ての文書画像に対して、同じ文字は同じ文字コードを出力していることを保障できる。

なお、この発明は特許請求の範囲の記載に基づいて決定されるものであり、実施例の具体的な構成、課題、および効果には限定されない。この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。

この発明の実施例１のシステム構成を示すブロック図である。上述実施例１の主要部の機能構成を示すブロック図である。上述実施例１の動作例を説明するフローチャートである。上述実施例１における連結黒画素を説明する図である。上述実施例１における文字画像の切り出しを説明する図である。上述実施例１の文字画像管理データ（カテゴリ未決定）を説明する図である。上述実施例１の文字画像管理データ（カテゴリ決定済）を説明する図である。上述実施例１の文字認識結果管理データを説明する図である。この発明の実施例２のシステム構成を示すブロック図である。上述実施例２の主要部の機能構成を示すブロック図である。上述実施例２の動作例を説明するフローチャートである。上述実施例２の文字認識結果の自動修正を説明する図である。上述実施例２の使用者による文字認識結果の修正を説明するための入力画像の例を示す図である。上述実施例２の使用者による文字認識結果の修正を説明するための文字画像管理データの例を示す図である。上述実施例２の使用者による文字認識結果の修正を説明するための文字認識結果管理データの例を示す図である。上述実施例２の使用者による文字認識結果の修正を説明するための認識結果の例を示す図である。上述実施例２の使用者による文字認識結果の修正を説明するための最初の修正例を示す図である。上述実施例２の使用者による文字認識結果の修正を説明するための文字認識結果管理データの修正例を示す図である。上述実施例２の使用者による文字認識結果の修正を説明するための最終的な修正結果の例を示す図である。

符号の説明

１０ページ画像入力部
１１ページ画像記憶部
１２文字画像切り出し部
１３文字画像分類部
１３ａカテゴリ記憶部
１４文字画像記憶部
１５平均文字画像特徴取得部
１６文字認識部
１７対応付け部
１８対応記憶部
１９認識結果出力部
２０形態素解析部
２１単語辞書
２２認識結果修正部
１００画像処理装置
１０１画像入力装置
１０２演算装置
１０３記憶装置
１０４情報出力装置
１０５情報表示装置
１０６ポインティングデバイス

Claims

入力した文書画像から文字画像を切り出す文字切出手段と、
上記文字画像をカテゴリに分類する文字画像分類手段と、
分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段と、
上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段と、
上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段と、
上記文字画像に対して割り当てられる文字識別情報を修正する修正手段と、
を有し、
上記修正手段は、単語辞書を備え、上記出力手段から一連の文字画像の一連の文字識別情報に対して上記単語辞書を参照して形態素解析を行って単語を抽出し、上記単語辞書に適合しない文字列が存在する場合には、当該文字列に最も近い単語に置換するとともに、置換に伴い変更された文字が分類されるカテゴリを生成する文書処理装置。
上記修正手段は、１つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記１つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映する請求項１記載の文書処理装置。
上記文字画像のカテゴリを、当該文字画像のカテゴリの上記平均的な画像に対する上記文字認識手段の認識結果と対応させる対応付け手段をさらに有し、上記出力手段は、上記文字画像に対して割り当てられる文字識別情報として、当該文字画像が分類されるカテゴリが上記対応付け手段により対応付けられる上記文字認識結果を出力し、上記修正手段は、１つの文字画像に対して割り当てられ文字識別情報を修正した場合に、上記対応付け手段による対応づけを修正して、上記１つの文字画像が属するカテゴリに含まれるすべての文字画像に対して、当該修正を反映する請求項２記載の文書処理装置。
自動原稿送り機構を搭載した文書画像入力手段と、切り出した各文字画像が自動原稿送り機構に載置した文書の何枚目の文書から切り出したかの情報と、文字画像の座標と、切り出した文字画像そのものと、切り出した文字画像が分類されるカテゴリの情報を記憶する文字画像管理手段
をさらに有する請求項１〜３のいずれかに記載の文書処理装置。
上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像の画素値を画素位置ごとに平均化し、各画素位置の画素値の平均値を用いて平均的な文字画像特徴を取得する請求項１〜４のいずれかに記載の文書処理装置。
上記平均文字画像特徴取得手段は、同じカテゴリに属するすべての文字画像から特定の特徴量を求め、上記特徴量の平均値から上記平均的な文字画像特徴を取得する請求項１〜４のいずれかに記載の文書処理装置。
上記カテゴリの各々について、上記文字認識手段による認識結果の文字識別情報を記憶する文字認識結果記憶手段をさらに有する請求項１〜６のいずれかに記載の文書処理装置。
コンピュータを、
入力した文書画像から文字画像を切り出す文字切出手段、
上記文字画像をカテゴリに分類する文字画像分類手段、
分類した文字画像のカテゴリ毎に平均的な文字画像特徴を求める平均文字画像特徴取得手段、
上記文字画像のカテゴリ毎に、上記平均的な文字画像特徴に対して文字認識を行う文字認識手段、
上記文字画像に対する文字識別情報として、当該文字画像が分類されるカテゴリの上記平均的な文字画像の上記文字認識手段による文字認識結果を出力する出力手段、
上記文字画像に対して割り当てられる文字識別情報を修正する修正手段、
として機能させるためのプログラムであり、
上記修正手段は、単語辞書を備え、上記出力手段から一連の文字画像の一連の文字識別情報に対して上記単語辞書を参照して形態素解析を行って単語を抽出し、上記単語辞書に適合しない文字列が存在する場合には、当該文字列に最も近い単語に置換するとともに、置換に伴い変更された文字が分類されるカテゴリを生成する上記プログラム。