JP2022092119A

JP2022092119A - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP2022092119A
Application number: JP2020204705A
Authority: JP
Inventors: 克幸 ▲高▼橋; Katsuyuki Takahashi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-06-22
Also published as: US20220189186A1; US11941903B2

Abstract

【課題】ＯＣＲエンジンでの文字認識の精度が低下せず、かつＯＣＲエンジンの切り替えに柔軟に対応できる文字認識用の画像を生成できるようにする。【解決手段】スキャナで読み取った画像データから文字認識装置で文字認識を行うための画像を生成する際に、手書き文字情報領域に関連する印刷文字情報領域を選択し、選択した手書き文字情報領域と印刷文字情報領域を画像データから切り出し、結合した、画像を生成する。【選択図】図５

Description

本発明は、画像処理装置、画像処理方法およびプログラムに関する。

近年、スマートフォンのようなモバイル機器が普及し、クラウド上の機械学習プラットフォームの性能が向上することで、モバイル機器が撮像した画像に対してクラウド上で画像認識を行う形態が普及してきている。その中でも、クラウド上のＯＣＲ（Optical Character Recognition）エンジンは、ディープラーニングにより性能を向上してきている。クラウド上のＯＣＲエンジンは、従来の１文字単位で認識するＯＣＲエンジンとは異なり、画像内から文字のつながった行を切り出した上で、行内の前後の文字のつながりや、自然言語処理技術による補正を行い、文字認識の精度を高めている。
特許文献１では、撮像した端末機器側で認識する文字範囲を決定し、その部分の画像をクラウド上のＯＣＲエンジンへ送信して文字認識を行う技術が開示されている。これにより端末機器でＯＣＲを行うよりも文字認識の精度が高くなる上、端末機器側で認識する文字範囲を決定することにより、異なるＯＣＲエンジンを使用しても所望の文字範囲について文字認識することができるとしている。したがって、使用中のＯＣＲエンジンよりも高性能なＯＣＲエンジンがクラウド上に実装された際には、低い開発コストで高性能なＯＣＲサーバを利用することができる。

一方、モバイル機器ではなく、画像形成装置に備え付けられたスキャナのような紙を対象とした装置では、紙に印刷された文書を電子データへ変換し、コンピュータ上で再利用可能とする技術が考えられてきた。特許文献２では、スキャナでスキャンした画像データに対して、ＯＣＲと表構造認識とを行い、電子フォーマットへ変換する技術が開示されている。
また、各種申込書のように、顧客に紙の帳票に手書きで情報を記入してもらい、その情報を業務システムに転記する、という転記業務が行われてきた。そこで、手書き情報の転記業務にも画像認識技術、特にＯＣＲを適用し、記入された内容を自動で業務システムへの転記するニーズが高まってきている。

しかし、実際の帳票にはあらかじめ印刷した文字も存在するため、印刷文字と手書き文字とが混在し、両方から情報を抽出しようとするとＯＣＲ処理の文字認識の精度が低下してしまう。また、手書きによる各種申込書では、印刷文字は複数の申込書での共通の内容であり、申込書の具体的な内容は手書き文字で書かれている。そのため、手書き文字の認識精度を高めることが重要となる。
特許文献３では、印刷文字と手書き文字とを分離し、それぞれに最適なＯＣＲ処理を施すことにより、文字認識の精度を高める技術が開示されている。さらに特許文献３によれば、印刷文字の認識結果に基づいて、近辺の手書き文字の属性を推定し、手書き文字の認識精度を高めることができるとしている。

特開２０１８－１５１９２５号公報特開２０１１－０１３８９７号公報特開２００６－０９２０２７号公報

しかし、特許文献３の技術によれば、手書き文字の認識に利用する属性およびその属性の渡し方は、特許文献３のＯＣＲ技術独自のものであり、そのＯＣＲ技術を利用するモバイル端末や画像形成装置からは容易に制御することができない。そのため、特許文献３のＯＣＲ技術で他のＯＣＲエンジンを用いて手書き文字の認識を行う場合、印刷文字の認識結果に基づく属性が利用できず、文字認識の精度が低下する。特に、前述した各種申込書の場合、特許文献３のように印刷文字と手書き文字とを分離すると、それぞれの文は単語程度に短くなってしまう。そのため、前述したように行切出しを行ってから前後の文字つながりや自然言語補正を行うＯＣＲエンジンを利用する場合であっても、補正効果が得られず、文字認識の精度が低下してしまう、という課題が存在する。

本発明は前述の問題点に鑑み、ＯＣＲエンジンでの文字認識の精度が低下せず、かつＯＣＲエンジンの切り替えに柔軟に対応できる文字認識用の画像を生成できるようにすることを目的としている。

本発明に係る画像処理装置は、画像読取装置で読み取った読取画像から文字認識装置で文字認識を行うための画像を生成する画像処理装置であって、前記読取画像から手書き文字情報の領域と印刷文字情報の領域とを抽出する抽出手段と、前記抽出手段により抽出された手書き文字情報と印刷文字情報との間で関連付けを行う関連付け手段と、前記読取画像から前記手書き文字情報の領域と前記印刷文字情報の領域とを切り出し、前記関連付け手段による関連付けに従って前記切り出した領域を結合することにより文字認識を行うための画像を生成する生成手段と、を有することを特徴とする。

本発明によれば、ＯＣＲエンジンでの文字認識の精度が低下せず、かつＯＣＲエンジンの切り替えに柔軟に対応できる文字認識用の画像を生成することができる。

画像形成システムの構成例を示す図である。画像形成装置のハードウェア構成例を示すブロック図である。画像処理装置および文字認識装置のハードウェア構成例を示すブロック図である。画像形成装置の操作部の構成例を示す図である。画像形成システムの機能構成例を示すブロック図である。画像形成システムの全体処理手順の一例を示すフローチャートである画像処理装置の処理手順の一例を示すフローチャートである。画像処理装置の入力画像および入力データの一例を示す図である。画像形成装置の操作部に表示する画面の一例を示す図である。第２の実施形態の文字画像生成部の機能構成例を示すブロック図である。第２の実施形態の文字画像生成部の処理を説明するための図である。第３の実施形態の文字画像生成部の処理を説明するための図である。

（第１の実施形態）
以下、本発明の第１の実施形態について図面を用いて説明する。
図１は、本実施形態に係る画像形成システム１００の構成の一例を示す図である。画像形成システム１００は、画像形成装置１０１、１０２と、情報処理端末１０３、１０４と、画像処理装置１０５と、文字認識装置１０７とを有している。画像形成装置１０１、１０２と、情報処理端末１０３、１０４と、画像処理装置１０５と、文字認識装置１０７とは、ネットワーク１０６により相互に接続されて、通信可能である。

なお、図１では、画像形成装置１０１、１０２が２つである場合を例に挙げて示すが、画像形成装置の数は１つまたは３つ以上であってもよい。また、それぞれの画像形成装置１０１、１０２は、同じもので実現することができる。従って、以下では、画像形成装置１０１、１０２を代表して画像形成装置１０１について説明し、画像形成装置１０２についての詳細な説明を省略する。なお、ネットワーク１０６は、ＬＡＮ（Local Area Network）、インターネットなど、画像形成システム１００内の装置が相互に通信できるものであればよい。
画像形成装置１０１は、情報処理端末１０３、１０４から画像データを受信して印刷したり、受信した画像データをＨＤＤに保存したりする。また、画像形成装置１０１は、画像形成装置１０１に備わるスキャナで画像データを読み取ったり、スキャナで読み取られた画像データを印刷したり、画像データを情報処理端末１０３、１０４に送信したりする。さらに、画像形成装置１０１は、画像処理装置１０５に画像データを送信して画像処理を依頼する。また、画像形成装置１０１または画像処理装置１０５は、文字を含む画像データを文字認識装置１０７へ送信して文字認識を依頼する。
情報処理端末１０３、１０４は、画像形成装置１０１に画像データを送信して印刷の依頼をしたり、スキャナで読み取られた画像データを画像形成装置１０１から受信したりする。
画像処理装置１０５は、画像形成装置１０１からスキャナで読み取った画像データを受信して、画像処理を行う。
文字認識装置１０７は、文字を含む画像データを受信して、文字認識を行う。
なお、図１では画像処理装置１０５および文字認識装置１０７がそれぞれ１つである場合を例に挙げて示すが、それぞれの装置の数は２つ以上であってもよい。また、それぞれの装置は用途に応じた異なる役割を持っていても良い。また、本実施形態において、画像処理装置１０５および文字認識装置１０７はクラウド、すなわちインターネット上に配置されていてもよい。画像形成装置１０１は、この他に、ＭＦＰ（Multifunction Peripheral）などの公知の画像形成装置が有する機能を実現することが可能である。

次に、図２を用いて、画像形成装置１０１のハードウェア構成について説明する。
図２は、画像形成装置１０１のハードウェア構成の一例を示すブロック図である。画像形成装置１０１は、コントローラ２０１、プリンタ２０２、スキャナ２０３、および操作部２０４を有している。コントローラ２０１は、ＣＰＵ２１１、ＲＡＭ２１２、ＨＤＤ２１３、ネットワークＩ／Ｆ２１４、プリンタＩ／Ｆ２１５、スキャナＩ／Ｆ２１６、操作部Ｉ／Ｆ２１７、および拡張Ｉ／Ｆ２１８を有している。
ＣＰＵ２１１は、ＲＡＭ２１２、ＨＤＤ２１３、ネットワークＩ／Ｆ２１４、プリンタＩ／Ｆ２１５、スキャナＩ／Ｆ２１６、操作部Ｉ／Ｆ２１７、および拡張Ｉ／Ｆ２１８とデータの受け渡しをする。また、ＣＰＵ２１１は、ＨＤＤ２１３から読み出した命令をＲＡＭ２１２に展開し、ＲＡＭ２１２に展開した命令を実行する。
ＲＡＭ２１２は、ＣＰＵ２１１がＨＤＤ２１３から読み出した命令を一時的に格納するための領域である。また、ＲＡＭ２１２は、命令の実行に必要な各種のデータを記憶しておく。例えば画像処理では、受け取ったデータをＲＡＭ２１２に展開することで処理を行うことが可能である。
ＨＤＤ２１３は、ＣＰＵ２１１で実行可能な命令、画像形成装置１０１で使用する設定値、およびユーザから依頼された処理に関するデータなどを記憶する。

ネットワークＩ／Ｆ２１４は、画像形成システム１００内の装置とネットワーク通信を行うためのインターフェイスである。ネットワークＩ／Ｆ２１４は、データ受信を行ったことをＣＰＵ２１１に伝達したり、ＲＡＭ２１２上のデータをネットワーク１０６に送信したりする。
プリンタＩ／Ｆ２１５は、ＣＰＵ２１１から送信された画像データをプリンタ２０２に送信したり、プリンタ２０２から受信したプリンタ２０２の状態をＣＰＵ２１１に伝達したりする。
スキャナＩ／Ｆ２１６は、ＣＰＵ２１１から送信された画像読み取り指示をスキャナ２０３に送信する。また、スキャナＩ／Ｆ２１６は、スキャナ２０３から受信した画像データおよびスキャナ２０３の状態をＣＰＵ２１１に伝達する。
操作部Ｉ／Ｆ２１７は、操作部２０４を介して入力されたユーザからの指示をＣＰＵ２１１に伝達したり、ユーザが操作するための画面情報を操作部２０４に伝達したりする。
拡張Ｉ／Ｆ２１８は、画像形成装置１０１に外部機器を接続することを可能とするインターフェイスである。拡張Ｉ／Ｆ２１８は、例えば、ＵＳＢ（Universal Serial Bus）形式のインターフェイスを具備する。画像形成装置１０１は、ＵＳＢメモリなどの外部記憶装置が拡張Ｉ／Ｆ２１８に接続されることにより、当該外部記憶装置に記憶されているデータの読み取りおよび当該外部記憶装置に対するデータの書き込みを行うことができる。
プリンタ２０２は、プリンタＩ／Ｆ２１５から受信した画像データを用紙に印刷したり、プリンタ２０２の状態をプリンタＩ／Ｆ２１５に伝達したりする。
スキャナ２０３は、スキャナＩ／Ｆ２１６から受信した画像読み取り指示に従って、スキャナ２０３に置かれた用紙に表示されている情報を読み取ってデジタル化して、スキャナＩ／Ｆ２１６に伝達する。また、スキャナ２０３は、自身の状態をスキャナＩ／Ｆ２１６に伝達する。
操作部２０４は、画像形成装置１０１に対して各種の指示を行うための操作をユーザに行わせる。例えば、操作部２０４は、タッチパネルを有する液晶画面を具備し、ユーザに操作画面を提供すると共に、ユーザからの操作を受け付ける。なお、操作部２０４の詳細は図４の説明において後述する。

次に、図３を用いて、画像処理装置１０５および文字認識装置１０７のハードウェア構成について説明する。
図３は、画像処理装置１０５および文字認識装置１０７のハードウェア構成の一例を示すブロック図である。画像処理装置１０５および文字認識装置１０７は、ＣＰＵ３０１と、ＲＡＭ３０２と、ＨＤＤ３０３と、ネットワークＩ／Ｆ３０４とから構成されている。
ＣＰＵ３０１と、ＲＡＭ３０２と、ＨＤＤ３０３と、ネットワークＩ／Ｆ３０４とは、前述した画像形成装置１０１の各構成要素と同様の処理を行うため、説明を省略する。
画像処理装置１０５は、画像形成装置１０１からネットワークＩ／Ｆ３０４を介して受信した画像データに対して、画像処理および文字認識処理を実施する。なお、画像処理装置１０５が行う画像処理は、画像データ内の文字列や背景などを要素ごとの領域ブロックに分割する処理や、画像データから部分領域を切り出す処理、および切り出した領域を結合する処理を含むよう構成されている。

次に、図４を用いて、画像形成装置１０１の操作部２０４の詳細について説明する。
図４は、画像形成装置１０１の操作部２０４の一例を示す図である。図４において、操作部２０４は、タッチパネル画面４０１と、設定キー４０２と、開始キー４０３と、キャンセルキー４０４とから構成されている。
ユーザはタッチパネル画面４０１および設定キー４０２を用いて、各ジョブの設定を行い、開始キー４０３を選択することによりジョブを開始する。なお、一度開始したジョブはキャンセルキー４０４を選択することでジョブ中にジョブを中止することが可能である。ここで示すジョブとは、例えばコピージョブや、スキャンした画像データをネットワークＩ／Ｆ２１４を介して画像処理装置１０５に送信することなどが挙げられる。

次に、図５を用いて、画像形成装置１０１、画像処理装置１０５および文字認識装置１０７の機能構成について説明する。
図５（ａ）は、画像形成装置１０１の機能構成の一例を示すブロック図である。画像形成装置は、画像読取部５０１と、画像印刷部５０２と、受信部５０３と、実行部５０４と送信部５０５と、情報抽出アプリケーション５１０とを有している。画像形成装置１０１を構成する各部として機能させるプログラムはＨＤＤ２１３に格納されており、そのプログラムがＲＡＭ２１２へ転送され、ＣＰＵ２１１によって実行される。
以下、各部について説明する。
画像読取部５０１は、スキャナ２０３上に載置された原稿をスキャナ２０３によって読み取って画像データに変換し、ＨＤＤ２１３に記憶する。さらに、画像読取部５０１は、変換した画像データをネットワークＩ／Ｆ２１４を介して、ネットワーク１０６上の他の機器、例えば画像処理装置１０５へ送信する。
画像印刷部５０２は、画像読取部５０１がＨＤＤ２１３に記憶した画像データ、またはネットワーク１０６上の他の機器からネットワークＩ／Ｆ２１４を介して受信した画像データをＲＡＭ２１２上へ展開する。そして、画像印刷部５０２は、ＲＡＭ２１２に展開した画像データをプリンタ２０２へ転送して、プリンタ２０２によって画像データの印刷を実行する。

情報抽出アプリケーション５１０は、画像読取部５０１が読み取った画像データから文字情報を抽出するアプリケーションである。本実施形態では、情報抽出アプリケーション５１０はＷｅｂアプリケーションの形式をとっている。情報抽出アプリケーション５１０は、ＨＴＭＬなどのＷｅｂページ記述言語により記述されたページ記述データ、および、ＪａｖａＳｃｒｉｐｔ（登録商標）などのスクリプト言語で記述されたスクリプトデータで構成されている。
情報抽出アプリケーション５１０のページ記述データには、画像読取部５０１が読み取った画像データと、その画像データを画像処理装置１０５で処理した結果とが含まれている。情報抽出アプリケーション５１０のページ記述データとスクリプトデータとを含むアプリケーションデータは、後述する画像処理装置１０５のアプリケーション生成部５２３によって生成される。
受信部５０３は、画像処理装置１０５のアプリケーション生成部５２３によって生成されたアプリケーションデータを受信し、ＨＤＤ３０３に記憶する。
実行部５０４は、Ｗｅｂアプリケーションを実行するためのＷｅｂブラウザを含み、受信部５０３が受信したアプリケーションデータを用いて情報抽出アプリケーション５１０を実行する。また、実行部５０４は、実行したアプリケーションを操作部Ｉ／Ｆ２１７を介してタッチパネル画面４０１に表示し、タッチパネル画面４０１へのタッチ操作や設定キー４０２の選択などを情報抽出アプリケーション５１０に通知する。
送信部５０５は、情報抽出アプリケーション５１０の抽出した情報をネットワーク１０６上の他の機器、例えば画像処理装置１０５へ送信する。また、抽出した情報をＨＤＤ２１３に記憶する。
情報抽出アプリケーション５１０は、ＵＩ表示部５１１と、画像表示部５１２と、文字情報領域表示部５１４と、選択部５１５と、入力受付部５１７と、部分画像表示部５１８と、入力部５１９とから構成されている。各部は、ページ記述データおよびスクリプトデータで実装されている。
ＵＩ表示部５１１は、ユーザが操作するボタンなどの操作部品や、処理進捗状況などの情報表示を行うＵＩ部品の表示を行う。画像表示部５１２は、画像データの表示を行う。
文字情報領域表示部５１４は、画像表示部５１２が表示している画像データ中の文字情報が含まれる文字情報領域を表示する。選択部５１５は、文字情報領域表示部５１４によって表示する文字情報領域を選択する。
入力受付部５１７は、ＵＩ表示部５１１、画像表示部５１２および文字情報領域表示部５１４が表示したＵＩ部品への入力を受け付け、入力に対応した処理を実行する。部分画像表示部５１８は、文字情報領域内の画像データを切り出した部分画像を表示する。また、部分画像表示部５１８は、複数の部分画像を連結して表示する。
入力部５１９は、文字情報領域から抽出された文字情報を表示し、さらに文字情報を修正するための入力を受け付ける。

図５（ｂ）は、画像処理装置１０５の機能構成の一例を示すブロック図である。画像処理装置１０５は、受信部５２１と、文字画像生成部５２２と、アプリケーション生成部５２３と、送信部５２４と、登録部５２５とを有している。また、画像処理装置１０５は、文字認識実行部５３８と、文字列分離部５３９とを有している。画像処理装置１０５を構成する各部として機能させるプログラムはＨＤＤ３０３に格納されており、そのプログラムがＲＡＭ３０２へ転送され、ＣＰＵ３０１によって実行される。
受信部５２１は、画像形成装置１０１の画像読取部５０１から画像データを受信する。
文字画像生成部５２２は、受信部５２１が受信した画像データから文字情報が含まれる領域を抽出し、その領域で認識処理を行うことにより、文字情報の抽出を行う。文字画像生成部５２２は、画像分離部５３６、抽出部５３１、分類部５３２、選択部５３３および編集部５３７で構成されている。
画像分離部５３６は、画像データ上の手書きされた画素を判定し、手書きされた画素のみの画像データと、印刷された文字および背景のみの画像データとに分離する。本実施形態では、画像分離部５３６は、手書きされる前の画像データと、手書きされた後の画像データとの差分を算出し、差分の存在する画素を手書きされた画素と判定する。なお、画像分離部５３６が手書きされた画素を判定する方法は、画像の差分を算出する方法に限らない。例えば、ディープラーニングを使用したセマンティックセグメンテーションの適用により、画素ごとに手書きされた画素か印刷された文字および背景の画素かのラベル付けを行うことで、手書きされた画素を判定してもよい。
抽出部５３１は、画像データから文字情報が含まれる文字情報領域を抽出する。分類部５３２は、抽出部５３１が抽出した文字情報領域の分類を行う。本実施形態の情報抽出アプリケーション５１０は、主に紙帳票に手書きされた文字を抽出するため、分類は手書き文字、印刷文字のいずれかである。
選択部５３３は、ある文字情報領域に関連する意味を持つ文字情報領域を選択する。本実施形態においては、特に、手書き文字情報領域の見出しや記載内容などを表す印刷文字情報領域を選択することを目的とする。
編集部５３７は、抽出部５３１で抽出された文字情報領域を画像データから切り出したり、また、切り出した複数の文字情報領域を結合して１つの画像データにしたりする、画像編集処理を行う。
文字認識実行部５３８は、文字認識装置１０７と通信を行って画像データ内に含まれる文字の認識（ＯＣＲ）を実行する。文字列分離部５３９は、文字認識実行部５３８の結果として得られた文字列から、手書き文字部分と印刷文字部分とを分離する。

アプリケーション生成部５２３は、画像形成装置１０１が実行する情報抽出アプリケーション５１０のアプリケーションデータを生成する。アプリケーション生成部５２３は、情報抽出アプリケーション５１０のページ記述データおよびスクリプトデータのテンプレートを持っている。アプリケーション生成部５２３は、文字画像生成部５２２が生成した画像データや、文字認識実行部５３８の文字認識結果などに基づいて、テンプレート内の所定の位置を置換することにより、情報抽出アプリケーション５１０を生成する。
送信部５２４は、アプリケーション生成部５２３が生成したアプリケーションデータを、ネットワーク１０６を介して画像形成装置１０１へ送信する。

図５（ｃ）は文字認識装置１０７の機能構成の一例を示したブロック図である。文字認識装置１０７は、受信部５４１と、切出し部５４２と、文字認識部５４３と、補正部５４４と、送信部５４５とを有している。文字認識装置１０７を構成する各部として機能させるプログラムはＨＤＤ２１３に格納されており、そのプログラムがＲＡＭ２１２へ転送され、ＣＰＵ２１１によって実行される。
受信部５４１は、画像形成装置１０１または画像処理装置１０５から文字情報を含む画像データを受信する。切出し部５４２は、受信した画像データの文字情報部分を行単位の画像に切り出す。
文字認識部５４３は、切り出した行画像の文字認識を行う。文字認識部５４３の処理は下記のように行う。
（１）文字行を畳み込み処理して特徴マップを生成
（２）特徴マップを文字行方向にスライスしてベクトル化し特徴情報の系列を生成
（３）特徴情報の系列をＤＮＮ（Deep Neural Network）で処理
（４）ＤＮＮの系列出力に対応した予測文字列を出力
なお、文字認識部５４３の出力には、ＤＮＮの出力を用いて複数の候補文字列を生成することがある。

補正部５４４は、辞書に登録されている単語およびＮ－ｇｒａｍ言語モデルを用いて、文字認識部５４３の複数の候補文字列から出現確率の最も高いものを選択して出力する。例えば、辞書に「電話番号」という文字列の後には数字と記号が続く、と登録しておき、「電話番号」という単語が出現したら、候補文字列から数字と記号とで構成されている文字列を選択する。辞書に登録されていない場合には、一般的な文章を学習して得られたＮ－ｇｒａｍ言語モデルにより続く単語の出現確率を算出することができる。
送信部５４５は、補正部５４４が出力した結果を文字認識結果として、画像データの送信元である画像形成装置１０１または画像処理装置１０５へ送信する。

次に、図６のフローチャートを用いて、スキャンした原稿の画像データから文字情報を抽出する、本実施形態における一連の処理フローについて説明する。図６は、本実施形態に係る画像形成システム１００全体の処理フローの一例を示すフローチャートである。
まず、ステップＳ６０１において、画像形成装置１０１の画像読取部５０１は、開始キー４０３の選択などによる原稿読取指示を受信すると、スキャナ２０３に載置された原稿を読み取って画像データに変換する。
次に、ステップＳ６０２において、画像読取部５０１は、ステップＳ６０１で変換した画像データを、ネットワーク１０６を介して画像処理装置１０５へ送信する。ここで、載置された原稿が複数枚であれば複数ページの画像データを送信する。
次に、ステップＳ６１１において、画像処理装置１０５の受信部５２１は、画像形成装置１０１から送信された画像データを受信する。ステップＳ６１２において、文字画像生成部５２２は、ステップＳ６１１で受信した画像データに対して文字画像生成処理を行う。

ここで、図７および図８を用いて、ステップＳ６１２の文字画像生成処理の詳細を説明する。図７は、文字画像生成処理の一例を示すフローチャートであり、図８（ａ）はステップＳ６１１で画像処理装置１０５が受信する読取画像８０１の例を示す図である。以下、図８の例を用いて図７の処理について説明する。画像処理装置１０５は、図８（ｂ）に示した、読取画像８０１の中の印刷文字に対応する印刷画像８０２をＨＤＤ３０３に予め記憶しているものとする。
ステップＳ７０１において、画像処理装置１０５の画像分離部５３６は、読取画像８０１から、手書きされた画素を判定して、図８（ｃ）に示した手書きされた画素のみの手書き画像８０３を生成する。
ステップＳ７０２において、抽出部５３１は、印刷画像８０２および手書き画像８０３から、文字情報領域８１１～８１５、８２１～８２３を抽出する。このとき、抽出部５３１は文字情報領域の座標およびサイズも抽出する。
ステップＳ７０３において、分類部５３２は、印刷画像８０２から得られた文字情報領域８１１～８１５を印刷文字情報領域、手書き画像８０３から得られた文字情報領域８２１～８２３を手書き文字情報領域と分類する。
申請書のような手書きされた帳票において、手書き文字情報領域はページごとに記載内容が変化するため、抽出すべき領域である。そこで、ステップＳ７０４において、編集部５３７は、認識すべき画像の候補として、手書き画像８０３から手書き文字情報領域８２１～８２３を切り出し、図８（ｅ）に示した手書き文字情報領域画像８３１～８３３を生成する。
複数ページの画像データを受信した場合は、全ページについて上述した文字画像生成処理を行い、次のステップＳ６１４に処理を進める。

ステップＳ６１４において、画像処理装置１０５のアプリケーション生成部５２３は、アプリケーションデータ生成処理を行う。アプリケーションデータ生成処理では、まず、アプリケーション生成部５２３は、あらかじめＨＤＤ３０３に記憶されたアプリケーションデータのテンプレートを取得する。そして、アプリケーション生成部５２３は、ステップＳ７０２で抽出した文字情報領域の座標およびサイズに基づいて、取得したテンプレートに、ステップＳ７０４で生成した文字情報領域画像を埋め込む。これにより、情報抽出アプリケーション５１０が文字情報領域画像を表示し、ユーザは、文字情報領域の確認と操作とができるようになる。
ステップＳ６１５において、送信部５２４は、ステップＳ６１４で生成したアプリケーションデータを、ネットワーク１０６を介して画像形成装置１０１へ送信する。

次に、ステップＳ６０３において、画像形成装置１０１の受信部５０３は、ステップＳ６１４で送信されたアプリケーションデータを受信する。ステップＳ６０４において、実行部５０４は、ステップＳ６０３で受信したアプリケーションデータを使用して、情報抽出アプリケーション５１０を実行する。また、ステップＳ６０４において、情報抽出アプリケーション５１０の入力受付部５１７は、ユーザが画像上で文字認識を行う文字情報領域を指定する場合に、ユーザからの入力を受け付ける。なお、ステップＳ６０４の実行処理の詳細については後述する。
ステップＳ６０６において、送信部５０５は、ステップＳ６０４で入力された文字情報領域を、関連付け情報としてネットワーク１０６を介して画像処理装置１０５へ送信する。
ステップＳ６１６において、画像処理装置１０５の選択部５３３は、ステップＳ６０６で送信された文字情報領域を受信する。そして、選択部５３３は、受信した文字情報領域に基づき、各手書き文字情報領域に関連する印刷文字情報領域を選択する。
ステップＳ６１７では、編集部５３７は、ステップＳ６１６で選択した各手書き文字情報領域および印刷文字情報領域の、切り出しおよび結合を行い、文字情報領域画像を生成する。また、編集部５３７は、各文字情報領域の座標をＨＤＤ３０３に記憶する。
ここで、ステップＳ６１７で生成する文字情報領域画像の例を図８（ｆ）に示す。ステップＳ６１７で生成される図８（ｆ）の文字情報領域画像８０４は、図８（ｅ）の認識すべき手書き文字情報領域画像８３１～８３３に対して、関連する印刷文字情報を行方向に結合した画像である。手書き文字に対して関連する印刷文字は情報抽出アプリケーション５１０上でユーザにより指定されるものであるが、その詳細については後述する。
ステップＳ６１８において、文字認識実行部５３８は、ステップＳ６１７で生成した文字情報領域画像を、ネットワーク１０６を介して文字認識装置１０７へ送信する。

ステップＳ６３１において、文字認識装置１０７の受信部５４１は、画像処理装置１０５が送信した文字情報領域画像を受信する。
次に、ステップＳ６３２において、切出し部５４２、文字認識部５４３および補正部５４４は、受信部５４１が受信した文字情報領域画像の文字認識を行う。図８（ｆ）の文字情報領域画像８０４においては、行方向に、手書き文字に関連する印刷文字が結合されているため、補正部５４４は、印刷文字画像の認識結果に基づいて手書き文字画像の認識結果を選択することができる。例えば、印刷文字が「番号」と認識された場合には、続く文字は数字である、という推測をすることができる。ステップＳ６３２の文字認識によって得られた結果は、認識結果文字列およびその文字列に含まれる文字それぞれの座標である。
ステップＳ６３３において、送信部５４５は、ステップＳ６３２で得られた結果を文字認識結果として、ネットワーク１０６を介して文字情報領域画像の送信元である画像処理装置１０５へ送信する。
ステップＳ６１９において、画像処理装置１０５の文字認識実行部５３８は、ステップＳ６３２で文字認識装置１０７が送信した文字認識結果を受信する。さらに、文字列分離部５３９は、文字認識結果に含まれる文字の座標、および、編集部５３７が文字情報領域画像を生成した際の各文字情報領域の座標に基づいて、文字認識結果の文字列を手書き文字部分と印刷文字部分とに分離する。例えば、文字情報領域画像８０４の行８４１の認識結果では、「８５２４」を手書き文字部分として、「会員番号」を印刷文字部分として分離する。そして、ステップＳ６２０において、文字列分離部５３９は、その結果を、ネットワーク１０６を介して画像形成装置１０１へ送信する。
次に、ステップＳ６０７において、画像形成装置１０１は文字認識結果を受信し、情報抽出アプリケーション５１０が認識結果を表示する。このようにして、ユーザはスキャン画像に含まれる手書き文字列の認識結果を確認することができる。

次に、図９を用いて、図６のステップＳ６０４で情報抽出アプリケーション５１０が実行する処理について説明する。図９は情報抽出アプリケーション５１０が表示する画面の一例である。
情報抽出アプリケーション５１０のＵＩ表示部５１１は、図６のステップＳ６０４でアプリケーション実行処理を開始すると、画面９０１を表示する。画面９０１において、処理ページ番号９０２は、画像読取部５０１が読み取った原稿のページ番号であり、ユーザに現在処理している画像データが読み取り原稿の何ページ目にあたるかを示す。
文字認識実行ボタン９０３は、処理中のページにおける文字認識を行う文字情報領域の指定が完了し、図６のステップＳ６０６へ進むことを選択するボタンである。画像表示部９０４には、画像表示部５１２が処理中のページの画像データを表示している。
部分画像表示部９０５には、部分画像表示部５１８が、手書き文字情報領域８２１～８２３の部分画像を表示している。この部分画像は、ステップＳ７０４において認識すべき領域を切り出した画像である。
文字情報表示部９０６には、入力部５１９が、部分画像表示部９０５に表示している画像領域を文字認識して得られた文字情報を表示する。文字情報表示部９０６上では、入力受付部５１７が受け付けたユーザ入力により、表示した値を修正することができる。

図９（ａ）における画面上で、ユーザが手書き文字に付加する印刷文字を指定するときの画面を説明する。図９（ａ）において、ユーザが付加したい手書き文字情報領域の部分画像９０８が選択されると、ＵＩ表示部５１１は画面９０１に図９（ｂ）に示す表示を行う。このとき、部分画像９０８では付加印刷文字画像の選択中であることを示すようにハイライト表示を行う。また、画像表示部９０４上の該当する文字情報領域９１１の表示を行う。また、付加印刷文字画像の選択を終了する選択終了ボタン９１３を表示する。
図９（ｂ）において、ユーザが文字情報領域９１１に付加する印刷文字として、画像表示部９０４上の「会員番号」の位置を選択すると、ＵＩ表示部５１１は図９（ｃ）の画面を表示し、選択した印刷文字情報領域９１２を表示する。ここで、ユーザが選択終了ボタン９１３を選択すると、ＵＩ表示部５１１は図９（ｄ）の画面を表示し、部分画像９０８に印刷文字情報領域９１２の画像を付加した結合画像９１４を表示する。同様にユーザによる指示を部分画像９０９、９１０にも繰り返すことにより、図９（ｅ）に示すような結合画像９１５、９１６が得られる。ここで、ユーザが文字認識実行ボタン９０３を選択すると、情報抽出アプリケーション５１０の処理を一旦終了する。

情報抽出アプリケーション５１０の処理を一旦終了すると、ステップＳ６０６において、手書き文字情報領域、及びそれに結合するようにユーザに指定された印刷文字情報領域の領域情報（座標、幅、高さ）を関連付け情報として画像処理装置１０５へ送信する。そして、前述したステップＳ６１７の処理を画像処理装置１０５の編集部５３７が実行することにより、図８（ｆ）に示した文字情報領域画像８０４を得ることができる。文字情報領域画像８０４を文字認識装置１０７へ送信することにより、文字認識装置１０７は、印刷文字の認識結果を利用して手書き文字の文字認識を行うことができる。例えば、文字情報領域画像８０４においては、「会員番号」という印刷文字の認識結果から、手書き文字部分の「８５２４」は数字の文字列である確率が高いと判断できる。また、「生年月日」という印刷文字の認識結果から、続く手書きを含む文字列が日付を構成する文字列である確率が高いと判断できる。

以上のように、本実施形態を実施することで、画像形成装置１０１で読み取った画像データから、手書き文字とその手書き文字に関連した印刷文字を結合した画像を生成することができる。そのため、その画像を文字認識装置１０７に送信し、文字認識を実行することにより、文字認識装置１０７は印刷文字と手書き文字とを関連させて文字認識を行い、手書き文字の認識精度を高めることができる。さらに、手書き文字と印刷文字とを結合した結果を画像としているため、画像入力を行う他のＯＣＲエンジンに対しても同一の画像を入力することにより、手書き文字と印刷文字をと関連させて認識させることができる。すなわち、ＯＣＲエンジンを切り替える際の開発労力を低減し、性能の高いＯＣＲエンジンを選択して容易に使用することができるようになる。

なお、本実施形態では、編集部５３７が文字情報領域画像を生成した後に、文字認識実行部５３８が文字情報領域画像を文字認識装置１０７へ送信する構成としたが、送信前に文字情報領域画像をユーザが確認できるようにしてもよい。例えば、画像処理装置１０５において、不図示の表示部に図８（ｇ）に示すような確認画面８５１を表示し、ユーザが送信開始ボタン８５２を選択することによって、文字情報領域画像を文字認識装置１０７へ送信するようにしてもよい。また、文字認識装置が複数接続されている場合には、さらに送信先の文字認識装置を選択できる画面８５３を表示し、送信先の文字認識装置を選択できるようにしてもよい。

（第２の実施形態）
次に、第２の実施形態について説明する。
第１の実施形態では、画像処理装置１０５の文字画像生成部５２２は、情報抽出アプリケーション５１０のアプリケーションデータを生成する際に、図７のステップＳ７０４において、手書き文字情報領域を切り出して手書き文字情報領域画像を生成する。そして、ユーザが情報抽出アプリケーション５１０を操作してそれぞれの手書き文字情報領域に付加する印刷文字情報領域を指定し、指定した印刷文字情報領域を結合することにより、図８（ｆ）に示した文字情報領域画像８０４を生成している。第２の実施形態のでは、ユーザの利便性を高めるため、文字画像生成部５２２が手書き文字情報領域に付加する印刷文字情報領域を選択し、画像結合を行うことにより、図９（ａ）の画面に初期画像として結合済みの画像を表示させるようにする。

図１０（ａ）は、本実施形態における文字画像生成部５２２の機能構成の一例を示すブロック図である。図１０（ａ）において、文字画像生成部５２２は、図５（ｂ）において前述した構成に加えて、解析部１００１を持つ。以下、図５（ｂ）と重複する構成については、説明を省略する。
本実施形態においては、情報抽出対象とする帳票は主に図８（ａ）に示すような表構造を持つ申込書であり、印刷文字で記入内容が示され、そこに申込者が手書きで情報を書き込む形式である。そこで、解析部１００１は、特許文献２に開示されている表構造解析技術を用いて、読取画像８０１に含まれる表構造を解析する。特許文献２に開示されている表構造解析技術は、表領域を検出し、さらに表領域内の行、列構造、罫線の線色、線種、角部曲率などの情報を抽出する。

以下、図１１を用いて、本実施形態における具体例を説明する。解析部１００１は、読取画像８０１から図１１（ａ）に示した表領域１１０１を検出し、さらにセル１１０２～１１０７を検出する。そして、解析部１００１は、セル１１０２～１１０７の位置関係から行、列構造を検出する。図１１（ｂ）は、検出した行、列構造を示しており、行１１１１～１１１３および列１１１４～１１１７が検出されている。
解析部１００１が読取画像８０１を解析した結果を、図１１（ｃ）の文書構造解析結果１１２０に示す。文書構造解析結果１１２０はテーブル形式のデータであり、１行につき１つのセルの情報が格納されている。１つのセルの情報は、セル番号、行番号、列番号、セル左上座標、セル矩形サイズ、および、セルに属する文字情報領域から構成されている。セル番号、行番号、列番号は図１１（ａ）、図１１（ｂ）の図で示したセル、行、および列の番号であり、図１１（ｃ）においては説明のために図１１（ａ）、図１１（ｂ）と同じ符号を記載している（実際にはＣＰＵ３０１が管理のために生成した番号である）。セル左上座標、セル矩形サイズは読取画像８０１上でのセルの左上座標、矩形サイズを画素単位で表した数値である。セルに属する文字情報領域は、そのセル内に含まれる文字情報領域であり、図１１（ｃ）においては図１１（ａ）と同じ符号を記載している（他と同じく実際にはＣＰＵ３０１が管理のために生成した番号である）。

本実施形態において、選択部５３３は、解析部１００１が解析した結果である文書構造解析結果１１２０に基づき、手書き文字情報領域に関連する印刷文字情報領域を選択する。選択部５３３は、文書構造解析結果１１２０の行・列番号に基づき、手書き文字情報領域が属するセルと同一のセル、または行・列方向に隣接したセルに属する印刷文字情報領域を関連文字情報領域として選択する。
例えば、図１１において、手書き文字情報領域８２１の属するセル１１０４には、列１１１４方向に隣接するセル１１０２があり、そこに印刷文字情報領域８１１が属している。そこで、選択部５３３は、手書き文字情報領域８２１に関連する印刷文字情報領域８１１を選択する。この選択に基づき、編集部５３７は、手書き文字情報領域８２１と印刷文字情報領域８１１とを結合し、図１１（ｄ）に示すような結合文字情報領域画像１１２１を生成する。
ここで、結合文字情報領域画像１１２１は、文字認識装置１０７で１行に行切りされるように、手書き文字情報領域、印刷文字情報領域を行方向に並べて結合する。この結合順序は、ユーザが文書を読む際に認識する方向と同じになるようにするため、日本語横書きの場合は上および左にある文字列が先になるような順序にする。すなわち、読取画像８０１上の座標でＹ座標、Ｘ座標が小さい順序に結合する。これにより、「会員番号８５２４」という手書き文字情報領域、印刷文字情報領域を結合した結合文字情報領域画像１１２１が生成される。なお、結合順序は不図示の設定部により、帳票の言語や書式（縦書き・横書き）などによって、列方向と行方向とを変更できるようにしてもよい。

また、図１１における別の例として、手書き文字情報領域８２３の属するセル１１０７には、印刷文字情報領域８１４が属している。そこで、選択部５３３は、手書き文字情報領域８２３の関連文字情報領域として印刷文字情報領域８１４を選択する。また、手書き文字情報領域８２３の属するセル１１０７に、行１１１３方向に隣接するセル１１０６には、印刷文字情報領域８１３が属する。そこで、選択部５３３は、印刷文字「生年月日」も手書き文字情報領域８２３の関連文字情報領域として選択する。ここで、編集部５３７は、選択された手書き文字情報領域８２３と印刷文字情報領域８１３、８１４とを結合する。
ここでの結合順序も、前述したとおり読取画像８０１上の座標でＹ座標、Ｘ座標が小さい順序であるが、同じセル１１０７に属する手書き文字情報領域８２３および印刷文字情報領域８１４は領域が重なる。そこで、編集部５３７は、領域が重なる手書き文字情報領域および印刷文字情報領域について、読取画像８０１上と位置関係が同じになるように結合する。これにより、「生年月日１９８０年４月１０日」という手書き文字情報領域、および印刷文字情報領域を結合した文字情報領域画像１１２３が生成される。

次に、図１０（ｂ）のフローチャートを用いて、本実施形態における文字画像生成部５２２の処理手順の一例について説明する。図１０（ｂ）において、ステップＳ７０１～Ｓ７０３は第１の実施形態における図７の処理と同じであるので、説明を省略する。
ステップＳ１０１１において、解析部１００１は、前述した処理により帳票内の表構造を解析する。
次に、ステップＳ７０２、Ｓ７０３で抽出された手書き文字情報領域について、表領域内にある手書き文字情報領域すべてに、ステップＳ１０１２～Ｓ１０１７の処理を行う。
ステップＳ１０１３、Ｓ１０１４は、選択部５３３が手書き文字情報領域に関連する印刷文字情報領域を選択する処理である。ステップＳ１０１３において、選択部５３３は、手書き文字情報領域と同じセル内にある印刷文字情報領域を結合対象として選択する。ステップＳ１０１４において、選択部５３３は、手書き文字情報領域と行・列方向に隣接するセル内にある印刷文字情報領域を結合対象として選択する。
ステップＳ１０１５、Ｓ１０１６は、編集部５３７が、選択した手書き文字情報領域と印刷文字情報領域とを結合して、文字情報領域画像を生成する処理である。ステップＳ１０１５において、編集部５３７は、選択した手書き文字情報領域と印刷文字情報領域との結合順序を判断する。ステップＳ１０１６において、編集部５３７は、手書き文字情報領域に対して選択した印刷文字情報領域を、行方向に結合した画像を生成する。

ステップＳ１０１２～Ｓ１０１７の処理を表構造内にある手書き文字情報領域すべてについて繰り返すことにより、図１１（ｄ）に示すように、結合文字情報領域画像１１２１～１１２３を得ることができる。得られた画像をステップＳ６１４で生成したアプリケーションデータに埋め込むことにより、情報抽出アプリケーション５１０は、初期画面で手書き文字情報領域および印刷文字情報領域が結合済みの画像を、ユーザに提示することができる。ユーザは情報抽出アプリケーション５１０上で結合済みの画像を確認し、そのままで良ければ文字認識処理を実行することができる。また、第１の実施形態で説明したように、情報抽出アプリケーション５１０上で結合する画像を選択し直してから文字認識処理を実行することも可能である。
以上説明したように、第２の実施形態では、解析部１００１が文書構造解析を行って、手書き文字画像に付加する印刷文字画像を適切に選択することにより、ユーザ自身が選択することなく手書き文字画像に印刷文字画像を付加することが可能になる。これにより、ユーザの操作が減少し、手書き文書からの情報抽出の作業効率を向上させることができる。

（第３の実施形態）
次に、第３の実施形態について説明する。
第１の実施形態および第２の実施形態において、編集部５３７は、選択された手書き文字情報領域と印刷文字情報領域とをそのままの大きさで結合する。この場合、図１２の結合画像１２０１に示すように、印刷文字情報領域の高さ１２０２と手書き文字情報領域の高さ１２０３に差がでることがある。しかし、一般的なＯＣＲエンジンに内蔵されている行切出しアルゴリズムでは、文字の高さの差が大きい場合にはそこで行が切れていると判定する場合が存在する。その場合、ＯＣＲエンジンへの入力画像として印刷文字と手書き文字とを結合して入力したとしても、印刷文字の情報が手書き文字の認識に利用されないことになり、認識精度の低下が生じる。

この課題を解決するために、本実施形態の編集部５３７は、画像の拡縮を行うことにより、結合画像内の文字の高さが一定になるようにサイズを調整する。図１２（ｂ）に本実施形態に係る画像処理装置１０５の編集部５３７の処理のフローチャートを示す。
ステップＳ１２１１において、編集部５３７は、結合する手書き文字情報領域および印刷文字情報領域の最大の高さを算出する。
ステップＳ１２１２において、編集部５３７は、結合対象の各文字情報領域の高さおよび算出した最大高さの比から拡縮率を求め、各文字情報領域画像を拡縮する。
ステップＳ１２１３では、編集部５３７は、拡縮後の各文字情報領域画像を結合する。これにより、図１２（ａ）に示した結合画像１２０４のように、印刷文字情報領域の高さ１２０２と手書き文字情報領域の高さ１２０３とがそろった結合画像を生成することができる。

以上説明したように、第３の実施形態では印刷文字と手書き文字との高さがそろった結合画像を生成することにより、ＯＣＲエンジンの行切りアルゴリズムが正しく行切りできるような補助を行う。これにより、結合した印刷文字情報画像と手書き文字情報画像とを同時にＯＣＲする可能性が高くなり、自然言語処理による認識精度向上の働く可能性を向上することができる。

なお、本実施形態では、結合画像内の文字の高さが一定になるように各文字情報領域画像を拡縮しているが、手書き文字の場合は文字の高さやサイズが不均一である場合が多い。そこで、そのような場合には、例えば手書き文字の平均的なサイズと印刷文字のサイズとが同じになるように文字のサイズを調整するようにしてもよい。

（その他の実施形態）
前述した実施形態では、印刷文字と手書き文字とを行方向に結合した画像を編集する例について説明したが、文書によっては縦方向に手書き文字および印刷文字が記載されている場合もある。例えば列方向に切出しが可能な文字認識装置に接続されているような場合には、印刷文字と手書き文字とを列方向に結合した画像を編集するようにしてもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

５３６画像分離部、５３１抽出部、５３２分類部、５３３選択部、５３７編集部

Claims

画像読取装置で読み取った読取画像から文字認識装置で文字認識を行うための画像を生成する画像処理装置であって、
前記読取画像から手書き文字情報の領域と印刷文字情報の領域とを抽出する抽出手段と、
前記抽出手段により抽出された手書き文字情報と印刷文字情報との間で関連付けを行う関連付け手段と、
前記読取画像から前記手書き文字情報の領域と前記印刷文字情報の領域とを切り出し、前記関連付け手段による関連付けに従って前記切り出した領域を結合することにより文字認識を行うための画像を生成する生成手段と、
を有することを特徴とする画像処理装置。
前記生成手段は、前記手書き文字情報の領域と前記印刷文字情報の領域とを所定の方向に結合することにより文字認識を行うための画像を生成すること、
を特徴とする請求項１に記載の画像処理装置。
ユーザの操作に応じて前記手書き文字情報と前記印刷文字情報とが関連付けられた関連付け情報を取得する取得手段をさらに有し、
前記関連付け手段は、前記取得手段によって取得された関連付け情報に基づいて関連付けを行うこと、
を特徴とする請求項１又は２に記載の画像処理装置。
前記読取画像から文書の構造を解析する解析手段をさらに有し、
前記関連付け手段は、前記解析手段により解析された結果に基づいて関連付けを行うこと、
を特徴とする請求項１又は２に記載の画像処理装置。
前記生成手段は、前記手書き文字情報と前記印刷文字情報との間でサイズを調整して前記文字認識を行うための画像を生成すること、
を特徴とする請求項１～４のいずれか１項に記載の画像処理装置。
前記生成手段によって生成された文字認識を行うための画像を表示する表示手段をさらに有すること、
を特徴とする請求項１～５のいずれか１項に記載の画像処理装置。
画像読取装置で読み取った読取画像から文字認識装置で文字認識を行うための画像を生成する画像処理方法であって、
前記読取画像から手書き文字情報の領域と印刷文字情報の領域とを抽出する抽出工程と、
前記抽出工程により抽出された手書き文字情報と印刷文字情報との間で関連付けを行う関連付け工程と、
前記読取画像から前記手書き文字情報の領域と前記印刷文字情報の領域とを切り出し、前記関連付け工程による関連付けに従って前記切り出した領域を結合することにより文字認識を行うための画像を生成する生成工程と、
を有することを特徴とする画像処理方法。
画像読取装置で読み取った読取画像から文字認識装置で文字認識を行うための画像を生成する画像処理装置を制御するためのプログラムであって、
前記読取画像から手書き文字情報の領域と印刷文字情報の領域とを抽出する抽出工程と、
前記抽出工程により抽出された手書き文字情報と印刷文字情報との間で関連付けを行う関連付け工程と、
前記読取画像から前記手書き文字情報の領域と前記印刷文字情報の領域とを切り出し、前記関連付け工程による関連付けに従って前記切り出した領域を結合することにより文字認識を行うための画像を生成する生成工程と、
をコンピュータに実行させるためのプログラム。