JP6458351B2

JP6458351B2 - 電子文書生成システム、画像形成装置、通信端末およびプログラム

Info

Publication number: JP6458351B2
Application number: JP2014083637A
Authority: JP
Inventors: 高濱　英一; 英一高濱; 匡晃坂
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2014-04-15
Filing date: 2014-04-15
Publication date: 2019-01-30
Anticipated expiration: 2034-04-15
Also published as: JP2015204015A

Description

本発明は、電子文書を生成する電子文書生成システムおよびそれに関連する技術に関する。

ＭＦＰ（マルチ・ファンクション・ペリフェラル（Multi-Functional Peripheral））などの画像形成装置において、原稿をスキャンして電子文書を作成する技術が存在する。

このような技術においては、原稿のスキャン画像をそのまま取り込んで電子文書を生成するものの他、テキストデータ付き電子文書（次述）を生成するものも存在する（特許文献１等参照）。具体的には、原稿のスキャン画像（特に文字を示す画像）に対して光学文字認識処理（以下、ＯＣＲ（Optical Character Recognition）処理とも称する）が施され、当該スキャン画像内の文字のテキストデータが自動認識され、当該テキストデータが非表示状態で当該スキャン画像に重畳して埋め込まれる。このようにして、たとえば、透明テキスト付きＰＤＦ（Portable Document Format）（あるいはサーチャブルＰＤＦ）などと呼ばれる所定形式の電子文書（テキストデータ付き電子文書）が生成される。

特開２０１２−７３７４９号公報

ところで、各種のアプリケーションソフトウエアに係るサービスをクラウドサーバを用いて提供する技術が存在する。また、このようなクラウドサービス（アプリケーションサービス）として、汎用的なＯＣＲ処理サービスを提供するものも存在する。ただし、汎用のＯＣＲ処理サービスでは、基本的機能のみ（ＯＣＲ処理のみ）が提供され、テキストデータ付き電子文書は生成されない。そのため、テキストデータ付き電子文書の最終的な生成処理は、依頼元装置側で行われることを要する。

汎用的なＯＣＲ処理サービスが利用される場合においては、たとえば、まず依頼元装置（詳細には、依頼元装置で実行中の或るアプリケーション）からクラウドサーバ（詳細には、クラウドサーバで実行中の別アプリケーション）へとスキャン画像が送信される。そして、当該スキャン画像全体に関するＯＣＲ処理がクラウドサーバで実行され、その処理結果がクラウドサーバから依頼元装置へと返信される。当該依頼元装置は、クラウドサーバから受信したＯＣＲ処理結果を元のスキャン画像に埋め込んで、テキストデータ付き電子文書（サーチャブルＰＤＦ（透明テキスト付きＰＤＦ）等）を生成する。なお、汎用ＯＣＲ処理サービスを利用することによれば、ＯＣＲ処理の依頼元装置（たとえば画像形成装置（スキャン画像の生成装置））とは別の装置でＯＣＲ処理を行うことができるので、当該依頼元装置の処理負荷を低減することが可能である。

しかしながら、たとえば依頼元装置から別装置（クラウドサーバ）に対してスキャン画像に関するＯＣＲ処理指示を付与し、そのＯＣＲ処理結果を用いて、上述のようなテキストデータ付き電子文書を生成する場合には、スキャン画像内の文字画像とテキストデータとの位置ずれの問題が生じ得る。たとえば、スキャン画像内に含まれる文章が複数の行に跨がる場合において、スキャン画像（文字画像）における各行の表示位置とテキストデータの各行（特に２行目以降の各行）の埋め込み位置とがずれる問題が存在する。

換言すれば、依頼元装置で実行されるアプリケーションから別装置で実行される別のアプリケーションに対して、スキャン画像に関するＯＣＲ処理等が依頼され、当該ＯＣＲ処理等の結果を用いてテキストデータ付き電子文書が依頼元装置により生成される場合には、ＯＣＲ結果のテキストデータ（文字データ）が不適切な位置に埋め込まれることがある。

このような問題は、クラウドサーバから依頼元装置へはＯＣＲ処理結果（文字列認識結果）のみが返送され、認識された文字列の位置については指定されないこと等に起因して生じる。特に、クラウドサーバ側のアプリケーションでの処理結果の出力形態がほぼ固定されている場合（当該出力形態を依頼元の電子文書生成アプリケーションが自由に決定することができない場合等）に、このような問題が顕著に生じ得る。

そこで、本発明は、或るアプリケーションから別のアプリケーションに対して、電子文書生成に関連する処理（ＯＣＲ処理等）を依頼する場合において、スキャン画像内の適切な位置に処理結果（ＯＣＲ結果等）を配置した電子文書を生成することが可能な技術を提供することを課題とする。

上記課題を解決すべく、請求項１の発明は、電子文書生成システムであって、原稿のスキャン画像を生成する画像形成装置と、第１のアプリケーションを実行することによって、前記画像形成装置から受信した前記スキャン画像に基づき電子文書を生成する外部端末と、を備え、前記外部端末は、前記画像形成装置で生成された前記スキャン画像を取得する取得手段と、前記スキャン画像の文字領域から複数の部分領域を抽出する抽出手段と、前記スキャン画像内における前記複数の部分領域の位置をそれぞれ検出する検出手段と、電子文書生成に関連する少なくとも１つの処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれに関する画像データとを、前記第１のアプリケーションから第２のアプリケーションに送出する指示送出手段と、前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取る受取手段と、前記各処理結果に係るテキスト情報を、前記各処理結果にそれぞれ対応する部分領域の検出位置に配置して、前記電子文書を生成する生成手段と、を有し、前記抽出手段は、前記文字領域における複数行のうちの注目行内において複数の小領域を抽出し、当該複数の小領域を互いに異なる部分領域として区別して前記複数の部分領域を抽出し、前記指示送出手段は、前記複数の部分領域のそれぞれの画像データである複数の部分画像データのそれぞれに前記複数の部分領域を互いに識別するための各識別情報を画像化して付加した複数の拡張部分画像データを生成し、当該複数の拡張部分画像データのそれぞれを、前記複数の部分領域のそれぞれに関する画像データとして、前記第１のアプリケーションから前記第２のアプリケーションに送出し、前記受取手段は、前記複数の拡張部分画像データのそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取り、前記生成手段は、前記各処理結果からそれぞれ前記各識別情報を抽出し、前記各処理結果に対応する各部分領域を前記各識別情報に基づいてそれぞれ識別し、前記各処理結果から前記各識別情報をそれぞれ除いたテキスト情報を、識別された前記各部分領域の検出位置に配置して、前記電子文書を生成することを特徴とする。

請求項２の発明は、第１のアプリケーションを実行することによって、画像形成装置から受信したスキャン画像に基づき電子文書を生成する通信端末であって、前記画像形成装置で生成された前記スキャン画像を取得する取得手段と、前記スキャン画像の文字領域から複数の部分領域を抽出する抽出手段と、前記スキャン画像内における前記複数の部分領域の位置をそれぞれ検出する検出手段と、電子文書生成に関連する少なくとも１つの処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれに関する画像データとを、前記第１のアプリケーションから第２のアプリケーションに送出する指示送出手段と、前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取る受取手段と、前記各処理結果に係るテキスト情報を、前記各処理結果にそれぞれ対応する部分領域の検出位置に配置して、前記電子文書を生成する生成手段と、を備え、前記抽出手段は、前記文字領域における複数行のうちの注目行内において複数の小領域を抽出し、当該複数の小領域を互いに異なる部分領域として区別して前記複数の部分領域を抽出し、前記指示送出手段は、前記複数の部分領域のそれぞれの画像データである複数の部分画像データのそれぞれに前記複数の部分領域を互いに識別するための各識別情報を画像化して付加した複数の拡張部分画像データを生成し、当該複数の拡張部分画像データのそれぞれを、前記複数の部分領域のそれぞれに関する画像データとして、前記第１のアプリケーションから前記第２のアプリケーションに送出し、前記受取手段は、前記複数の拡張部分画像データのそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取り、前記生成手段は、前記各処理結果からそれぞれ前記各識別情報を抽出し、前記各処理結果に対応する各部分領域を前記各識別情報に基づいてそれぞれ識別し、前記各処理結果から前記各識別情報をそれぞれ除いたテキスト情報を、識別された前記各部分領域の検出位置に配置して、前記電子文書を生成することを特徴とする。

請求項３の発明は、請求項２の発明に係る通信端末において、前記抽出手段は、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字と前記注目文字の直後の文字との間隔である第１の間隔が、前記注目行に隣接する隣接行と前記注目行との間隔である第２の間隔よりも所定程度を超えて大きい場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とを互いに異なる部分領域として抽出することを特徴とする。

請求項４の発明は、請求項２の発明に係る通信端末において、前記抽出手段は、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字と前記注目文字の直後の文字との間隔である第１の間隔が、前記注目文字と前記注目文字の直前の文字との間隔である第２の間隔よりも所定程度を超えて大きい場合には、前記注目文字と前記注目文字の直前の文字とを含む小領域と、前記注目文字の直後の文字を含む小領域とを、互いに異なる部分領域として抽出することを特徴とする。

請求項５の発明は、請求項２の発明に係る通信端末において、前記抽出手段は、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字のサイズと前記注目文字の直後の文字のサイズとが所定程度を超えて異なる場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とを互いに異なる部分領域として抽出することを特徴とする。

請求項６の発明は、請求項２の発明に係る通信端末において、前記抽出手段は、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字の行方向に垂直な第１の方向における位置と前記注目文字の直後の文字の前記第１の方向における位置とが所定程度を超えてずれている場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とを互いに異なる部分領域として抽出することを特徴とする。

請求項７の発明は、請求項２ないし請求項６のいずれかの発明に係る通信端末において、前記生成手段は、前記複数の部分領域のそれぞれについての前記処理結果に係るテキスト情報を、前記複数の部分領域のそれぞれの検出位置に非表示状態で埋め込んで、前記電子文書を生成することを特徴とする。

請求項８の発明は、請求項２ないし請求項６のいずれかの発明に係る通信端末において、前記生成手段は、前記スキャン画像における文字領域の画像を削除するとともに、前記複数の部分領域のそれぞれについての前記処理結果に係るテキスト情報を、前記複数の部分領域のそれぞれの検出位置に表示状態で埋め込んで、前記電子文書を生成することを特徴とする。

請求項９の発明は、請求項２ないし請求項６のいずれかの発明に係る通信端末において、前記少なくとも１つの処理は、光学文字認識処理と当該光学文字認識処理の結果に対する翻訳処理とを含む複数の処理であり、前記生成手段は、前記スキャン画像における文字領域の画像を削除するとともに、前記複数の部分領域のそれぞれについての前記処理結果である翻訳結果に係るテキスト情報を、前記複数の部分領域のそれぞれの検出位置に表示状態で埋め込んで、前記電子文書を生成することを特徴とする。

請求項１０の発明は、請求項２ないし請求項９のいずれかの発明に係る通信端末において、前記第２のアプリケーションは、前記画像形成装置とも前記通信端末とも異なる外部装置にインストールされていることを特徴とする。

請求項１１の発明は、請求項２ないし請求項９のいずれかの発明に係る通信端末において、前記第２のアプリケーションは、前記第１のアプリケーションとともに前記通信端末にインストールされていることを特徴とする。

請求項１２の発明は、画像形成装置と通信可能な通信端末に内蔵されたコンピュータにおいて、前記画像形成装置から受信したスキャン画像に基づく電子文書の生成処理を実行させるためのプログラムであって、前記プログラムは、前記コンピュータに、ａ）前記画像形成装置で生成された前記スキャン画像を取得するステップと、ｂ）前記スキャン画像の文字領域から部分領域を抽出するステップと、ｃ）前記スキャン画像内における前記部分領域の位置を検出するステップと、ｄ）前記部分領域に関して電子文書生成に関連する少なくとも１つの処理を行うべき旨の指示と前記部分領域に関する画像データとを、前記プログラムである第１のアプリケーションから前記第１のアプリケーションとは別の第２のアプリケーションに送出するステップと、ｅ）前記少なくとも１つの処理の処理結果を前記第２のアプリケーションから受け取るステップと、ｆ）前記部分領域についての前記処理結果に係るテキスト情報を前記部分領域の検出位置に配置するステップと、ｇ）前記スキャン画像の前記文字領域内の複数の部分領域に関して前記ステップｂ）〜ｆ）を実行することによって、前記電子文書を生成するステップと、を実行させ、前記ステップｇ）においては、前記文字領域における複数行のうちの注目行内において複数の小領域が抽出されるとともに、当該複数の小領域を互いに異なる部分領域として区別して前記複数の部分領域が抽出され、前記ステップｄ）は、ｄ−１）前記部分領域の画像データである部分画像データに前記部分領域を他の部分領域から識別するための識別情報を画像化して付加した拡張部分画像データを生成するステップと、ｄ−２）前記拡張部分画像データを、前記部分領域に関する画像データとして、前記第１のアプリケーションから前記第２のアプリケーションに送出するステップと、を有し、前記ステップｅ）は、ｅ−１）前記拡張部分画像データに関する前記少なくとも１つの処理の処理結果を前記第２のアプリケーションから受け取るステップ、
を有し、前記ステップｆ）は、ｆ−１）前記処理結果から前記識別情報を抽出するステップと、ｆ−２）前記処理結果に対応する部分領域である対応部分領域を前記識別情報に基づいて識別するステップと、ｆ−３）前記処理結果から前記識別情報を除いたテキスト情報を、前記対応部分領域の検出位置に配置するステップと、を有することを特徴とするプログラム。

請求項１３の発明は、請求項１２の発明に係るプログラムにおいて、前記ステップｂ）においては、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字と前記注目文字の直後の文字との間隔である第１の間隔が、前記注目行に隣接する隣接行と前記注目行との間隔である第２の間隔よりも所定程度を超えて大きい場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とが互いに異なる部分領域として抽出されることを特徴とする。

請求項１４の発明は、請求項１２の発明に係るプログラムにおいて、前記ステップｂ）においては、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字と前記注目文字の直後の文字との間隔である第１の間隔が、前記注目文字と前記注目文字の直前の文字との間隔である第２の間隔よりも所定程度を超えて大きい場合には、前記注目文字と前記注目文字の直前の文字とを含む小領域と、前記注目文字の直後の文字を含む小領域とが、互いに異なる部分領域として抽出されることを特徴とする。

請求項１５の発明は、請求項１２の発明に係るプログラムにおいて、前記ステップｂ）においては、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字のサイズと前記注目文字の直後の文字のサイズとが所定程度を超えて異なる場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とが互いに異なる部分領域として抽出されることを特徴とする。

請求項１６の発明は、請求項１２の発明に係るプログラムにおいて、前記ステップｂ）においては、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字の行方向に垂直な第１の方向における位置と前記注目文字の直後の文字の前記第１の方向における位置とが所定程度を超えてずれている場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とが互いに異なる部分領域として抽出されることを特徴とする。

請求項１７の発明は、請求項１２ないし請求項１６のいずれかの発明に係るプログラムにおいて、前記ステップｇ）においては、前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果に係るテキスト情報が、前記複数の部分領域のそれぞれの検出位置に非表示状態で埋め込まれて前記電子文書が生成されることを特徴とする。

請求項１８の発明は、請求項１２ないし請求項１６のいずれかの発明に係るプログラムにおいて、前記ステップｇ）においては、前記スキャン画像における前記文字領域の画像が削除されるとともに、前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果に係るテキスト情報が、前記複数の部分領域のそれぞれの検出位置に表示状態で埋め込まれて、前記電子文書が生成されることを特徴とする。

請求項１９の発明は、請求項１２ないし請求項１６のいずれかの発明に係るプログラムにおいて、前記少なくとも１つの処理は、光学文字認識処理と当該光学文字認識処理の結果に対する翻訳処理とを含む複数の処理であり、前記ステップｇ）においては、前記スキャン画像における文字領域の画像が削除されるとともに、前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果である翻訳結果に係るテキスト情報が、前記複数の部分領域のそれぞれの検出位置に表示状態で埋め込まれて、前記電子文書が生成されることを特徴とする。

請求項２０の発明は、請求項１２ないし請求項１９のいずれかの発明に係るプログラムにおいて、前記第２のアプリケーションは、前記画像形成装置とも前記通信端末とも異なる外部装置にインストールされていることを特徴とする。

請求項２１の発明は、請求項１２ないし請求項１９のいずれかの発明に係るプログラムにおいて、前記第２のアプリケーションは、前記第１のアプリケーションとともに前記通信端末にインストールされていることを特徴とする。

請求項２２の発明は、電子文書生成システムであって、原稿のスキャン画像を生成するとともに、第１のアプリケーションを実行することによって、前記スキャン画像に基づき電子文書を生成する画像形成装置と、第２のアプリケーションによるサービスを提供する外部サーバと、を備え、前記画像形成装置は、前記スキャン画像を生成する生成手段と、前記スキャン画像の文字領域から複数の部分領域を抽出する抽出手段と、前記スキャン画像内における前記複数の部分領域の位置をそれぞれ検出する検出手段と、電子文書生成に関連する少なくとも１つの処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれに関する画像データとを、前記第１のアプリケーションから第２のアプリケーションに送出する指示送出手段と、前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取る受取手段と、前記各処理結果に係るテキスト情報を、前記各処理結果にそれぞれ対応する部分領域の検出位置に配置して、前記電子文書を生成する生成手段と、を有し、前記抽出手段は、前記文字領域における複数行のうちの注目行内において複数の小領域を抽出し、当該複数の小領域を互いに異なる部分領域として区別して前記複数の部分領域を抽出し、前記指示送出手段は、前記複数の部分領域のそれぞれの画像データである複数の部分画像データのそれぞれに前記複数の部分領域を互いに識別するための各識別情報を画像化して付加した複数の拡張部分画像データを生成し、当該複数の拡張部分画像データのそれぞれを、前記複数の部分領域のそれぞれに関する画像データとして、前記第１のアプリケーションから前記第２のアプリケーションに送出し、前記受取手段は、前記複数の拡張部分画像データのそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取り、前記生成手段は、前記各処理結果からそれぞれ前記各識別情報を抽出し、前記各処理結果に対応する各部分領域を前記各識別情報に基づいてそれぞれ識別し、前記各処理結果から前記各識別情報をそれぞれ除いたテキスト情報を、識別された前記各部分領域の検出位置に配置して、前記電子文書を生成することを特徴とする。

請求項２３の発明は、原稿のスキャン画像を生成するとともに、第１のアプリケーションを実行することによって、前記スキャン画像に基づき電子文書を生成する画像形成装置であって、前記スキャン画像を生成する生成手段と、前記スキャン画像の文字領域から複数の部分領域を抽出する抽出手段と、前記スキャン画像内における前記複数の部分領域の位置をそれぞれ検出する検出手段と、電子文書生成に関連する少なくとも１つの処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれに関する画像データとを、前記第１のアプリケーションから、外部サーバにて実行される第２のアプリケーションに送出する指示送出手段と、前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取る受取手段と、前記各処理結果に係るテキスト情報を、前記各処理結果にそれぞれ対応する部分領域の検出位置に配置して、前記電子文書を生成する生成手段と、を備え、前記抽出手段は、前記文字領域における複数行のうちの注目行内において複数の小領域を抽出し、当該複数の小領域を互いに異なる部分領域として区別して前記複数の部分領域を抽出し、前記指示送出手段は、前記複数の部分領域のそれぞれの画像データである複数の部分画像データのそれぞれに前記複数の部分領域を互いに識別するための各識別情報を画像化して付加した複数の拡張部分画像データを生成し、当該複数の拡張部分画像データのそれぞれを、前記複数の部分領域のそれぞれに関する画像データとして、前記第１のアプリケーションから前記第２のアプリケーションに送出し、前記受取手段は、前記複数の拡張部分画像データのそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取り、前記生成手段は、前記各処理結果からそれぞれ前記各識別情報を抽出し、前記各処理結果に対応する各部分領域を前記各識別情報に基づいてそれぞれ識別し、前記各処理結果から前記各識別情報をそれぞれ除いたテキスト情報を、識別された前記各部分領域の検出位置に配置して、前記電子文書を生成することを特徴とする。

請求項１ないし請求項２３に記載の発明によれば、電子文書生成に関連する少なくとも１つの処理を第１のアプリケーションから第２のアプリケーションに対して依頼する場合において、第２のアプリケーションから取得した処理結果に係るテキスト情報を元のスキャン画像内の適切な位置に配置することが可能である。

電子文書生成システム（画像形成システム）を示す図である。画像形成装置の機能ブロックを示す図である。外部端末の概略構成を示す機能ブロック図である。電子文書生成システムにおける動作の概略を示す図である。外部端末およびクラウドサーバにおける動作の概略等を示す図である。外部端末の動作を示すフローチャートである。生成されたサーチャブルＰＤＦを示す図である。第２実施形態に係る処理について説明する図である。図８の一部を拡大して示す図である。第２実施形態の変形例に係る処理について説明する図である。図１０の一部を拡大して示す図である。第２実施形態の別の変形例に係る処理について説明する図である。図１２の一部を拡大して示す図である。第２実施形態の更に別の変形例に係る処理について説明する図である。図１４の一部を拡大して示す図である。第３実施形態に係る動作を示す図である。第４実施形態に係る動作を示す図である。変形例に係る動作を示す図である。比較例に係る技術を示す図である。比較例に係る技術において位置ずれが生じている様子を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。

＜１．第１実施形態＞
＜１−１．構成概要＞
図１は、本発明に係る画像形成システム１を示す図である。図１に示すように、画像形成システム１は、画像形成装置１０と外部端末５０とクラウドサーバ９０とを備える。

画像形成装置１０と外部端末５０とクラウドサーバ９０とは、ネットワーク（通信ネットワーク）１０８を介して互いに接続される。ネットワーク１０８は、ＬＡＮ（Local Area Network）およびインターネットなどによって構成される。また、ネットワーク１０８に対する接続態様は、有線接続であってもよく、或いは無線接続であってもよい。たとえば、画像形成装置１０およびクラウドサーバ９０はネットワーク１０８に対して有線接続され、外部端末５０はネットワーク１０８に対して無線接続される。

クラウドサーバ９０は、画像形成装置１０とも外部端末５０とも異なる外部装置（外部サーバ）である。クラウドサーバ９０には、アプリケーション１２０（ここでは、汎用のＯＣＲ（Optical Character Recognition）アプリケーション）がインストールされている。クラウドサーバ９０は、汎用的なＯＣＲ処理サービスをアプリケーション１２０を用いて提供するサーバである。ただし、このクラウドサーバ９０（アプリケーション１２０）は、サーチャブルＰＤＦ（Portable Document Format）の生成処理サービスを提供しない。サーチャブルＰＤＦは、後述するように、外部端末５０およびクラウドサーバ９０等が協働することによって生成される。

この画像形成システム１においては、原稿のスキャン画像２００（図４および図５等参照）が画像形成装置１０によって生成され、スキャン画像２００が画像形成装置１０から外部端末５０に送信される。外部端末５０は、画像形成装置１０から受信したスキャン画像２００に基づき、電子文書５００（図４および図５等参照）を生成する。当該電子文書５００の生成動作は、当該外部端末５０にインストールされている電子文書生成アプリケーション１１０を実行すること等によって実現される。

電子文書生成アプリケーション１１０では、スキャン画像２００から複数の部分領域２３０が抽出される。そして、クラウドサーバ９０のアプリケーション１２０によって提供されるＯＣＲ処理サービスを利用して、当該各部分領域２３０に対するＯＣＲ処理が行われる。電子文書生成アプリケーション１１０は、各部分領域２３０に対する各処理結果（テキストデータ）を汎用アプリケーション１２０から受け取り、当該各処理結果に基づいて電子文書５００を生成する。当該電子文書５００は、テキストデータ付き電子文書（ここでは、サーチャブルＰＤＦ）として生成される。

なお、画像形成システム１は、電子文書を生成するシステムであることから、電子文書生成システムなどとも表現される。同様に、外部端末５０は電子文書生成装置であるとも表現される。

＜１−２．画像形成装置の構成＞
図２は、画像形成装置１０の機能ブロックを示す図である。ここでは、画像形成装置１０として、ＭＦＰ（マルチ・ファンクション・ペリフェラル（Multi-Functional Peripheral））を例示する。図２においては、ＭＦＰ１０の機能ブロックが示されている。

ＭＦＰ１０は、スキャン機能、コピー機能、ファクシミリ機能およびボックス格納機能などを備える装置（複合機とも称する）である。具体的には、ＭＦＰ１０は、図２の機能ブロック図に示すように、画像読取部２、印刷出力部３、通信部４、格納部５、操作部６およびコントローラ９等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。

画像読取部２は、ＭＦＰ１０の所定の位置に載置された原稿を光学的に読み取って（すなわちスキャンして）、当該原稿の画像データ（原稿画像ないしスキャン画像とも称する）を生成する処理部である。この画像読取部２は、スキャン部であるとも称される。

印刷出力部３は、印刷対象に関するデータに基づいて紙などの各種の媒体に画像を印刷出力する出力部である。

通信部４は、公衆回線等を介したファクシミリ通信を行うことが可能な処理部である。さらに、通信部４は、ネットワーク１０８を介したネットワーク通信を行うことも可能である。このネットワーク通信では、たとえば、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、ＭＦＰ１０は、所望の相手先（たとえば、外部端末５０）との間で各種のデータを授受することが可能である。通信部４は、各種データを送信する送信部４ａと各種データを受信する受信部４ｂとを有する。

格納部５は、ハードディスクドライブ（ＨＤＤ）等の記憶装置で構成される。

操作部６は、ＭＦＰ１０に対する操作入力を受け付ける操作入力部６ａと、各種情報の表示出力を行う表示部６ｂとを備えている。

このＭＦＰ１０においては、略板状の操作パネル部６ｃ（図１参照）が設けられている。また、操作パネル部６ｃは、その正面側にタッチパネル２５（図１参照）を有している。タッチパネル２５は、操作入力部６ａの一部としても機能するとともに、表示部６ｂの一部としても機能する。タッチパネル２５は、液晶表示パネルに各種センサ等が埋め込まれて構成され、各種情報を表示するとともに操作者からの各種の操作入力を受け付けることが可能である。

たとえば、タッチパネル２５においては、各種の操作画面（メニュー画面等）（ボタン画像等を含む）が表示される。操作者は、タッチパネル２５の操作画面内に仮想的に配置されるボタンを押下することによって、ＭＦＰ１０の各種動作内容を設定するとともに動作指示を付与することができる。

コントローラ９は、ＭＦＰ１０に内蔵され、ＭＦＰ１０を統括的に制御する制御装置である。コントローラ９は、ＣＰＵおよび各種の半導体メモリ（ＲＡＭおよびＲＯＭ）等を備えるコンピュータシステムとして構成される。コントローラ９は、ＣＰＵにおいて、ＲＯＭ（例えば、ＥＥＰＲＯＭ）内に格納されている所定のソフトウエアプログラム（以下、単にプログラムとも称する）を実行することによって、各種の処理部を実現する。なお、当該プログラム（詳細にはプログラムモジュール群）は、ＵＳＢメモリなどの可搬性の記録媒体、あるいはネットワーク１０８等を介してＭＦＰ１０にインストールされてもよい。

具体的には、図２に示すように、コントローラ９は、当該プログラムの実行により、通信制御部１１と入力制御部１２と表示制御部１３と領域判別部１５とを含む各種の処理部を実現する。

通信制御部１１は、他の装置（外部端末５０等）との間の通信動作を通信部４等と協働して制御する処理部である。たとえば、通信制御部１１は、スキャン画像等を外部端末５０送信する。

入力制御部１２は、操作入力部６ａ（タッチパネル２５等）に対する操作入力動作を制御する制御部である。たとえば、入力制御部１２は、タッチパネル２５に表示された操作画面に対する操作入力を受け付ける動作を制御する。

表示制御部１３は、表示部６ｂ（タッチパネル２５等）における表示動作を制御する処理部である。表示制御部１３は、たとえば、ＭＦＰ１０を操作するための操作画面をタッチパネル２５に表示させる。

領域判別部１５は、スキャン画像２００（図４参照）の領域（領域種別）を判別する処理部である。たとえば、領域判別部１５は、スキャン画像２００内における文字領域２１０と非文字領域（図形領域等）２２０とを区別して判別する。

＜１−３．外部端末の構成＞
次に外部端末５０の構成について説明する。

外部端末５０は、ＭＦＰ１０およびクラウドサーバ９０との間でのネットワーク通信が可能な情報入出力端末装置（情報端末あるいは通信端末とも称される）である。ここでは、外部端末５０として、タブレット型端末を例示する。ただし、これに限定されず、外部端末５０は、スマートフォンあるいはパーソナルコンピュータなどであってもよい。また、外部端末は、携帯式の装置（携帯情報端末等）（携帯端末）であってもよく、あるいは、据置型の装置であってもよい。

図３は、外部端末５０の概略構成を示す機能ブロック図である。

外部端末５０は、図３の機能ブロック図に示すように、通信部５４、格納部５５、操作部５６およびコントローラ５９等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。

通信部５４は、ネットワーク１０８を介したネットワーク通信を行うことが可能である。このネットワーク通信では、たとえば、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、外部端末５０は、所望の相手先（ＭＦＰ１０およびクラウドサーバ９０等）との間で各種のデータを授受することが可能である。通信部５４は、各種データを送信する送信部５４ａと各種データを受信する受信部５４ｂとを有する。たとえば、受信部５４ｂは、スキャン画像２００を画像形成装置１０から受信し、送信部５４ａは、スキャン画像２００における複数の部分領域２３０（図４参照）の画像データをクラウドサーバ９０に送信する。また、受信部５４ｂは、複数の部分領域２３０に関するＯＣＲ処理結果等をクラウドサーバ９０から受信する。

格納部５５は、不揮発性の半導体メモリ等の記憶装置で構成され、各種の情報を格納する。

操作部５６は、外部端末５０に対する操作入力を受け付ける操作入力部５６ａと、各種情報の表示出力を行う表示部５６ｂとを備えている。この外部端末５０においては、液晶表示パネルに各種センサ等が埋め込まれて構成されたタッチパネル７５（図１参照）が設けられている。具体的には、図１に示すように、略板状の外部端末５０の正面側において、その周縁部（枠部）を除くほぼ全面にわたってタッチパネル７５が設けられている。このタッチパネル７５は、ユーザインターフェイス部として機能する。換言すれば、タッチパネル７５は、操作入力部５６ａの一部としても機能するとともに、表示部５６ｂの一部としても機能する。

図３のコントローラ５９は、外部端末５０に内蔵され、外部端末５０を統括的に制御する制御装置である。コントローラ５９は、ＣＰＵおよび各種の半導体メモリ（ＲＡＭおよびＲＯＭ）等を備えるコンピュータシステムとして構成される。コントローラ５９は、ＣＰＵにおいて、記憶部（半導体メモリ等）内に格納されている所定のソフトウエアプログラム（以下、単にプログラムとも称する）を実行することによって、各種の処理部を実現する。なお、当該プログラム（詳細にはプログラムモジュール群）は、ＵＳＢメモリなどの可搬性の記録媒体、あるいはネットワーク１０８等を介して外部端末５０にインストールされるようにしてもよい。

外部端末５０には、画像形成装置１０との連携処理を制御するアプリケーションプログラム（単に、アプリケーションとも称する）１１０がインストールされている。当該アプリケーションプログラム１１０が外部端末５０にて実行されることによって、外部端末５０は、画像形成装置１０にて生成されたスキャン画像を画像形成装置１０から受信するとともに、当該スキャン画像を利用して電子文書を生成する処理を実行する。

具体的には、コントローラ５９は、当該アプリケーションプログラム１１０等の実行により、通信制御部６１と入力制御部６２と表示制御部６３と取得部６４と抽出部６５と検出部６６と指示送出部６７と受取部６８と生成部６９とを含む各種の処理部を実現する。

通信制御部６１は、通信部５４等と協働して、ＭＦＰ１０およびクラウドサーバ９０等との通信動作を制御する処理部である。

入力制御部６２は、操作入力部５６ａ（タッチパネル７５等）に対する操作入力動作を制御する制御部である。たとえば、入力制御部６２は、タッチパネル７５に表示された操作画面に対するタッチ操作入力を受け付ける動作を制御する。

表示制御部６３は、表示部５６ｂ（タッチパネル７５等）における表示動作を制御する処理部である。表示制御部６３は、たとえば、ＭＦＰ１０との連携処理を行うための操作画面をタッチパネル７５に表示する。

なお、入力制御部６２および表示制御部６３は、ユーザインターフェイス制御部とも総称される。

取得部６４は、ＭＦＰ１０で生成されたスキャン画像２００（図４参照）等を取得する処理部である。取得部６４は、通信部５４および通信制御部６１等と協働して、当該スキャン画像２００等をＭＦＰ１０から受信して取得する。

抽出部６５は、スキャン画像２００の文字領域から複数の部分領域２３０（図４参照）を抽出する処理部である。

検出部６６は、スキャン画像２００内における複数の部分領域２３０の位置をそれぞれ検出する処理部である。

指示送出部６７は、アプリケーションプログラム１１０から別のアプリケーションプログラム１２０（後述）に向けて所定の処理実行指示等を送出する処理部である。たとえば、指示送出部６７は、スキャン画像２００における複数の部分領域２３０のそれぞれに関して、電子文書生成に関連する少なくとも１つの処理（ＯＣＲ処理（光学文字認識処理）等を含む）を行うべき旨の指示をクラウドサーバ９０に向けて送出する。当該指示は、複数の部分領域２３０のそれぞれに関する画像データとともに送出される。

受取部６８は、各部分領域２３０に関する少なくとも１つの処理の各処理結果（ＯＣＲ処理結果等）を、アプリケーションプログラム１２０から受け取る処理部である。

生成部６９は、電子文書５００（図４参照）を生成する処理部である。生成部６９は、複数の部分領域２３０のそれぞれについての各処理結果に係るテキスト情報（文字コード群）を、スキャン画像２００における当該複数の部分領域２３０のそれぞれの検出位置に配置して、電子文書５００（サーチャーブルＰＤＦ等）を生成する。

＜１−４．動作＞
図４は、電子文書生成システム１における動作の概略を示す図である。また、図５は、外部端末５０にて実行される電子文書生成アプリケーション１１０の動作、およびクラウドサーバ９０にて実行されるアプリケーション１２０の動作の概略を主に示す図である。さらに、図６は、外部端末５０（より詳細には電子文書生成アプリケーション１１０）の動作を示すフローチャートである。以下、これらの図を参照しながら、電子文書生成システム１の動作について説明する。

＜スキャン画像生成等＞
まず、ユーザは、スキャン対象の原稿をＭＦＰ１０の原稿台（たとえば、自動給紙装置（ＡＤＦ：Auto Document Feeder ）あるいは原稿載置用ガラス面等）に載置する。

その後、ユーザは、外部端末５０を操作することによって、電子文書５００の生成指示を外部端末５０およびＭＦＰ１０に対して付与する。

具体的には、まず、外部端末５０にインストールされているアプリケーション（電子文書生成アプリケーション）１１０の操作画面（不図示）において、スキャン処理を実行すべき装置が指定されるとともに、スキャン処理により最終的に生成される電子文書５００の形式が指定される。ここでは、スキャン処理を実行すべき装置としてＭＦＰ１０が指定され、当該電子文書５００の形式として、サーチャブルＰＤＦ（透明テキスト付きＰＤＦ）が指定されるものとする。そして、ユーザは、電子文書生成アプリケーション１１０の操作画面内に表示された実行開始ボタン（電子文書５００の生成処理の実行開始ボタン）を押下することにより、電子文書（ここではサーチャブルＰＤＦ）５００の生成指示を外部端末５０およびＭＦＰ１０に対して付与する。なお、サーチャブルＰＤＦ（透明テキスト付きＰＤＦ）は、文字画像を有する画像レイヤと当該文字画像に対する文字認識結果が非表示状態で埋め込まれたテキストレイヤとを有するＰＤＦ形式の電子文書である。

外部端末５０は、当該生成指示を受け付けるとともに、当該生成指示（詳細には、当該生成指示に基づくスキャン画像生成指示等）をＭＦＰ１０に転送する。

ＭＦＰ１０は、当該生成指示（スキャン画像生成指示等）を外部端末５０から受信するとスキャン動作を開始し、ＭＦＰ１０の原稿台（ＡＤＦ等）に載置された原稿のスキャン画像２００を生成する（図４の左上参照）。

さらに、ＭＦＰ１０は、スキャン画像２００内における各種の領域を判別する領域判別処理を行う。具体的には、ＭＦＰ１０の領域判別部１５は、スキャン画像２００内における文字領域２１０と非文字領域（図形領域等）２２０とを判別し、スキャン画像２００における文字領域２１０の範囲（詳細にはその位置および大きさ）と非文字領域２２０の範囲とを特定する。また、領域判別部１５は、当該文字領域２１０に対して、当該領域が「文字領域」であることを示す特定コード（たとえば「１」）を付与する。同様に、領域判別部１５は、非文字領域２２０に対して、当該領域が「非文字領域」であることを示す領域種別コード（たとえば「２」、「３」等）を付与する。より詳細には、たとえば、非文字領域である「図形領域」に対して「２」が付与され、非文字領域である「写真領域」に対して「３」が付与される。

そして、領域判別部１５は、これらの情報に基づいて属性指定データ３００を生成する。属性指定データ３００は、スキャン画像２００内の各画素位置に対して上記の領域種別コードが割り付けられたデータ（スキャン画像２００の各画素ごとに領域種別コードが付与されたデータ）として生成される。換言すれば、属性指定データ３００は、スキャン画像２００における文字領域２１０および非文字領域２２０のそれぞれに関する、範囲情報（詳細にはその位置および大きさに関する情報）ならびに領域種別コード等、の情報を含むものとして生成される。

そして、ＭＦＰ１０（通信部４および通信制御部１１等）は、スキャン画像（詳細にはその画像データ）２００と属性指定データ３００とを外部端末５０に送信する。

なお、ここでは、外部端末５０を操作対象装置として用いて電子文書５００の生成指示が付与される場合を例示しているが、これに限定されず、ＭＦＰ１０を操作対象装置として用いて電子文書５００の生成指示が付与されるようにしてもよい。たとえば、ＭＦＰ１０のタッチパネル２５に表示されたメニューにおいて、スキャン画像２００に基づく電子文書５００の生成指示が付与されるようにしてもよい。より詳細には、「スキャンｔｏ端末」（ＭＦＰによりスキャン画像を生成し、当該スキャン画像に関する電子文書を外部端末にて保存すべき旨の指示）が付与されるようにしてもよい。そして、このような指示に応じて、電子文書（サーチャブルＰＤＦ等）５００が生成され、当該電子文書５００が外部端末５０（格納部５５）内に格納されるようにしてもよい。

＜ＯＣＲ処理および電子文書生成処理等＞
その後、外部端末５０は、電子文書生成アプリケーション１１０を実行することによって、図６に示すような処理を実行する。

まず、ステップＳ１１において、外部端末５０（詳細には、取得部６４等）は、ＭＦＰ１０で生成されたスキャン画像２００および属性指定データ３００をＭＦＰ１０から受信して取得する。また、外部端末５０（詳細には、生成部６９等）は、スキャン画像２００を取り込んだＰＤＦ文書を電子文書５００として仮生成する。当該ＰＤＦ文書においては、ＯＣＲ結果に係るテキストデータは未だ埋め込まれていない。

つぎに、ステップＳ１２において、外部端末５０（抽出部６５等）は、ステップＳ１１で取得したスキャン画像２００および属性指定データ３００に基づいて、当該スキャン画像２００の文字領域２１０から所定単位の部分領域２３０を抽出する。この実施形態では、抽出部６５は、文字領域２１０における単一行の文字列に係る領域を、所定単位の部分領域２３０として抽出する。すなわち、抽出部６５は、文字領域２１０から、１行単位の部分領域２３０を抽出する。換言すれば、文字領域２１０における単一行の文字列に係る領域を単位として区分される複数の部分領域２３０（ここでは、そのうち最初の部分領域２３０）が抽出される。

具体的には、スキャン画像２００と属性指定データ３００とに基づき、スキャン画像２００における文字領域２１０が特定される。そして、文字領域２１０に対する画像処理が行われ、文字領域２１０内の１行の領域（横方向に配列された文字列の領域）が認識される。図５においては、３つの行で構成される文字領域２１０のうち、まず、第１行の「Good morning」の文字列に係る領域が部分領域２３０として抽出される状況が示されている。また、文字領域２１０における次の「行」（ここでは第２行）の存否も検出（判定）される。なお、当該存否の情報は、ステップＳ１８で利用される。

また、ステップＳ１３において、外部端末５０（検出部６６等）は、ステップＳ１２で抽出された部分領域２３０の（スキャン画像２００内における）位置（詳細には、その基準位置（先頭位置等））を検出する。検出された位置に関する情報（スキャン画像２００における座標位置（Ｘ，Ｙ）等）は、格納部５５に格納される。

なお、より詳細には、各部分領域２３０の抽出処理および位置検出処理（ステップＳ１２，Ｓ１３）においては、第２実施形態にて詳述する処理のうち、特に単一行に係る文字列領域の認識処理ならびに位置検出処理（図９等参照）が行われればよい。さらに、当該認識処理に基づき当該単一行を抽出する抽出処理が行われればよい。これによって、スキャン画像２００における１行の文字列の存在領域（たとえば、１行の文字列「Good morning」に関する矩形領域）が認識され抽出されるとともに、当該１行の文字列の存在領域の位置（代表位置）（たとえば、当該矩形領域の左上あるいは左下等の点の位置（先頭位置））も認識される。

次のステップＳ１４においては、外部端末５０（指示送出部６７等）は、部分領域２３０に関する処理指示と当該部分領域２３０に関する画像データとを、電子文書生成アプリケーション１１０からアプリケーション１２０に向けて送出（送信）する。

ここでは、部分領域２３０に関する画像データとして、スキャン画像２００から当該部分領域２３０に対応する部分を抽出した画像（部分画像）の画像データ（部分領域２３０の画像データとも称する）が送信される。

また、部分領域２３０に関する処理指示として、ＯＣＲ処理（光学文字認識処理）を含む少なくとも１つの処理を部分領域２３０に関して行うべき旨の指示（ここでは、部分領域２３０に関してＯＣＲ処理を行うべき旨の指示）が行われる。なお、アプリケーション１２０（ここでは、ＯＣＲ処理を行うＯＣＲ処理アプリケーション）は、電子文書生成アプリケーション１１０とは別のアプリケーションである。ここでは、アプリケーション１２０は、クラウドサーバ９０にインストールされ且つクラウドサーバ９０にて実行されるアプリケーションである。

クラウドサーバ９０にて実行中のアプリケーション１２０が、上述の処理指示と部分領域２３０に関する画像データとを受け取る（受信する）と、クラウドサーバ９０（アプリケーション１２０）は、当該処理指示および画像データに基づいて、ＯＣＲ処理を実行する。

図５においては、最初の行の「Good morning」の文字列を画像として含む部分領域２３０に関する画像データが、電子文書生成アプリケーション１１０からアプリケーション１２０に受け渡される状況が示されている。アプリケーション１２０は、受け取った当該部分領域２３０に関する画像データに対してＯＣＲ処理を施し、当該画像データに含まれる文字列「Good morning」を認識して、当該文字列に係るテキストデータ（文字コード群）を生成する。そして、アプリケーション１２０は、当該文字列に係るテキストデータ（テキスト情報）２５０をＯＣＲ処理の処理結果として電子文書生成アプリケーション１１０に向けて出力する。換言すれば、クラウドサーバ９０（アプリケーション１２０）から外部端末５０（電子文書生成アプリケーション１１０）に向けて当該処理結果が送出（送信）される。

ステップＳ１５において、外部端末５０（受取部６８等）は、アプリケーション１２０からの当該処理結果を受け取る。なお、当該処理結果には、テキストデータが含まれるものの、位置情報は含まれない。

そして、ステップＳ１６にて、外部端末５０（生成部６９等）は、部分領域２３０に関する処理結果であるテキストデータを、電子文書５００内において、部分領域２３０の検出位置（ステップＳ１３での検出位置）に配置する（図５も参照）。当該テキストデータは、電子文書５００（ＰＤＦ文書）内に取り込まれたスキャン画像２００において、部分領域２３０の（スキャン画像２００における）検出位置（ステップＳ１３での検出位置）に配置される。具体的には、生成部６９は、部分領域２３０に関する処理結果（ＯＣＲ処理結果）に係るテキストデータを、部分領域２３０の検出位置に「非表示状態」で埋め込む。換言すれば、部分領域２３０に関するＯＣＲ結果のテキストデータが、サーチャブルＰＤＦのテキストレイヤ（非表示）において、部分領域２３０の検出位置に配置される。これにより、電子文書（サーチャブルＰＤＦ）５００の内容が更新される。

ステップＳ１８においては、スキャン画像２００の文字領域２１０の全面（ここでは文字領域２１０の全ての行（全ての行領域））について処理が終了したか否かが判定される。詳細には、次の行（未処理の行）が存在する旨がステップＳ１２にて検出されている場合には、文字領域２１０の全面についての処理は未だ終了していない旨がステップＳ１８にて判定される。一方、次の行（未処理の行）が存在しない旨がステップＳ１２にて検出されている場合には、当該処理が終了した旨がステップＳ１８にて判定される。

スキャン画像２００の全面について処理が未だ終了していないと判定される場合には、ステップＳ１９を経てステップＳ１２に戻り、次の部分領域２３０（ここでは、次の行の画像領域）に関してステップＳ１２〜Ｓ１６の動作が同様に実行される。

一方、スキャン画像２００の全面について処理が終了したと判定される場合には、図６のフローチャートの処理を終了する。スキャン画像２００の文字領域２１０内の複数の部分領域２３０のそれぞれに関してステップＳ１２〜Ｓ１６の処理が実行されることによって、電子文書５００（より詳細には、サーチャブルＰＤＦ）が生成される。なお、当該電子文書５００は、外部端末５０の格納部５５に格納される。

図７は、上述の動作によって生成された電子文書５００（サーチャブルＰＤＦ）の一例を示す図である。図７においては、スキャン画像２００の非文字領域２２０は、ＯＣＲ処理を経ることなく、電子文書５００内の対応領域５２０にそのまま配置されている。一方、スキャン画像２００の文字領域２１０は、電子文書５００内の対応領域５１０に配置されている。具体的には、当該文字領域２１０に含まれていた３つの行のそれぞれの部分領域２３０に対応する各ＯＣＲ処理結果（テキストデータ）２５０が、それぞれの位置を元の各行の位置に合わせた状態で配置されている。なお、図７においては、図示の都合上、元の文字領域２１０の画像が削除された上でＯＣＲ処理結果に係る文字列が表示されているが、実際には、このサーチャブルＰＤＦでは、元の文字領域２１０の画像が削除されずに表示されたまま、ＯＣＲ処理結果に係る文字列が非表示状態で埋め込まれている。図５等においても同様である。

以上のように、この第１実施形態においては、外部端末５０は、当該外部端末５０上で実行される電子文書生成アプリケーション１１０において、画像形成装置１０で生成されたスキャン画像２００等を取得する。電子文書生成アプリケーション１１０は、スキャン画像２００から複数の部分領域２３０を抽出するとともに、当該複数の部分領域２３０のそれぞれの（スキャン画像２００内における）位置情報を取得して格納しておく。そして、電子文書生成アプリケーション１１０は、複数の部分領域２３０ごとにＯＣＲ処理を行うべき旨の指示をアプリケーション１２０（ここでは汎用ＯＣＲ処理アプリケーション）に送出する。アプリケーション１２０はＯＣＲ処理結果を電子文書生成アプリケーション１１０に返信する。電子文書生成アプリケーション１１０は、返信されてきたＯＣＲ処理結果（複数の部分領域２３０のそれぞれのＯＣＲ結果）をスキャン画像２００において複数の部分領域のそれぞれの位置に配置した電子文書（サーチャブルＰＤＦ）を生成する。

これによれば、或る電子文書生成アプリケーション１１０から別のアプリケーション１２０に対してＯＣＲ処理を依頼する場合においても、スキャン画像２００内の適切な位置にＯＣＲ結果（テキストデータ）を配置した電子文書を生成することが可能である。

ここにおいて、仮にスキャン画像２００に関するＯＣＲ処理指示を、文字領域内の１行単位ではなく一括的に（たとえば文字領域２１０の全体に対して一括的に）、依頼元装置から別装置（クラウドサーバ）に対して付与する技術（比較例に係る技術とも称する）を想定する（図１９参照）。なお、図１９は、比較例に係る技術を示す図である。
文字領域２１０の全体が一括的に送信されている。

このような比較例に係る技術（図１９）においては、図５と比較すると判るように、（部分領域２３０単位のＯＣＲ処理指示ではなく）文字領域２１０の全体に対する一括的なＯＣＲ処理指示がクラウドサーバに付与され、当該指示に応答してクラウドサーバがＯＣＲ処理を行い、当該クラウドサーバは、当該ＯＣＲ処理指示に対するＯＣＲ結果を一括的に画像形成装置に送信する。ただし、このＯＣＲ結果には、各文字の位置情報（ならびに各文字のフォント情報および行間情報等）は含まれない。そのため、図２０に示すように、ＯＣＲ結果であるテキストデータに係る文字列の第２行目以降の各行（たとえば図２０の第３行）のＹ方向位置（縦方向位置）において、スキャン画像２００における当該文字列の元の位置（本来の位置）と埋め込み位置との位置ずれΔｈが生じ得る。また、ＯＣＲ結果には３行分のテキストデータが含まれてはいるものの、第２行以後の先頭文字がいずれの文字であるのかは不明である。そのため、ＯＣＲ結果に係る文字列が元の行（元のスキャン画像２００における行）とは異なる行に配置される問題も生じ得る。

一方、上記実施形態のように複数の部分領域２３０に区分して、部分領域２３０ごとにＯＣＲ処理依頼とその処理結果（テキストデータ）とが授受される場合には、各部分領域２３０とその処理結果との対応関係が明確であり、各部分領域２３０の各処理結果を適切な位置に配置することが可能である。その結果、たとえば、図７に示すようなサーチャブルＰＤＦが生成される。したがって、位置ずれを最小限に止めることが可能である。具体的には、上記のような位置ずれΔｈ（図２０参照）の発生を防ぐことが可能である。また、文字列が元の行とは異なる行に配置される問題を解消することも可能である。

また、上記実施形態においては、ＭＦＰ１０の外部の装置（クラウドサーバ９０）によって提供されるＯＣＲ処理サービスが利用されている。これによれば、ＯＣＲ処理の依頼元装置（たとえば外部端末５０）とは別の装置（クラウドサーバ）でＯＣＲ処理を行うことができるので、当該依頼元装置の処理負荷を低減することが可能である。

さらに、上記実施形態においては、スキャン画像２００の生成装置であるＭＦＰ１０とは別の装置（外部端末５０）によって、電子文書５００の生成処理（各部分領域２３０の抽出処理および位置検出処理等）が行われているので、ＭＦＰ１０の処理負荷を低減することが可能である。換言すれば、ＭＦＰ１０と外部端末５０との間で処理負荷を適宜に分散することが可能である。

なお、上記実施形態では、属性指定データ３００がＭＦＰ１０において生成されて外部端末５０に送信されているが、これに限定されず、属性指定データ３００が外部端末５０において生成されるようにしてもよい。

＜２．第２実施形態＞
第２実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

上記第１実施形態においては、複数の部分領域２３０が１行単位で抽出されているが、これに限定されず、複数の部分領域（ブロック領域）２３０が１行内の小領域（サブブロック領域）２３０単位で抽出されるようにしてもよい。たとえば、１行よりも小さな単位で複数の部分領域２３０が抽出されるようにしてもよい。詳細には、ステップＳ１２（図６）において、文字領域２１０における各単一行内の複数の小領域が互いに区別されて複数の部分領域２３０として抽出されるようにしてもよい。そして、当該複数の部分領域２３０のそれぞれについて、上記と同様の処理（ステップＳ１３以降の処理）が更に行われればよい。

複数の小領域の抽出手法としては、次のような画像処理手法が例示される。具体的には、１行内の各小領域は、各行における隣接行間間隔ｙと隣接文字間間隔ｘとの比率に基づいて、分離されて抽出されればよい。図８および図９は、このような手法について説明する図である。

図８の左側においては、スキャン画像２００の文字領域２１０における２つの行が示されている。また、図９においては、図８の当該２行付近が拡大されて示されている。

ここでは、これらの図に示す状況を想定する。具体的には、文字領域２１０の第１行に「ＡＢＣＤＥＦＧＨＩＪＫＬＭ」の文字が存在し、文字領域２１０の第２行に「０１２３４５６７８９０１２３」の文字が存在する。また、第１行内の文字列「ＡＢＣＤＥＦ」と文字列「ＧＨＩＪＫＬＭ」との間には比較的大きな空白が存在する。

抽出部６５は、文字領域２１０における注目行（たとえば第１行）に関して、当該注目行内における注目文字（たとえば「Ｆ」）と当該注目文字の直後の文字（たとえば「Ｇ」）との間隔である間隔ｘ（字間間隔とも称する）（たとえば、ｘ６（図９参照））を算出する。また、抽出部６５は、当該注目行に隣接する隣接行（文字列「０１２」で始まる第２行）と当該注目行との間隔である間隔ｙ（行間間隔とも称する）（たとえば、ｙ１（図９参照））をも算出する。各間隔ｘ，ｙの算出手法については後述する。

そして、字間間隔ｘが行間間隔ｙよりも所定程度を超えて大きいと判定される場合には、抽出部６５は、当該注目文字と当該注目文字の直後の文字との間に有意な空白領域があると判定し、当該空白領域の両側の２つの小領域を互いに異なる部分領域として抽出する。換言すれば、当該注目文字と当該注目文字の直後の文字とは、互いに異なる部分領域に属すると判定される。

より具体的には、値ｘの値ｙに対する比の値（ｘ／ｙ）が所定の閾値ＴＨ１（たとえば２００％）より大きい場合には、注目文字と当該注目文字の直後の文字との間に有意な空白領域があると判定する。逆に、当該比の値（ｘ／ｙ）が所定の閾値ＴＨ１より小さい場合には、注目文字と当該注目文字の直後の文字との間に有意な空白領域は存在せず、当該注目文字と当該注目文字の直後の文字との両文字は、同一の部分領域に属すると判定される。このような処理が、第１行内の複数の文字に関して、一方側（たとえば左側）から他方側（たとえば右側）に向かう順序で順次に実行される。その結果、有意な空白領域が存在する場合には、当該空白領域によって区分される両側の小領域が抽出される。

たとえば、注目文字「Ａ」に関する上記の比の値（比率）（ｘ１／ｙ１）が所定の閾値ＴＨ１よりも小さい場合には、当該空白領域の両側の文字（「Ａ」および「Ｂ」）は同一の部分領域に属すると判定される。同様の動作が注目文字「Ｂ」〜「Ｄ」」においても実行される。また、注目文字「Ｅ」に関する上記の比の値（ｘ５／ｙ１）が所定の閾値ＴＨ１よりも小さい場合には、当該空白領域の両側の文字（「Ｅ」および「Ｆ」）は同一の部分領域に属すると判定される。これにより、６つの文字「ＡＢＣＤＥＦ」は同一の部分領域に属すると判定される。

一方、注目文字「Ｆ」に関する比の値（ｘ６／ｙ１）が所定の閾値ＴＨ１よりも大きい場合には、当該空白領域の両側の２つの小領域が互いに異なる部分領域として抽出される。詳細には、当該注目文字「Ｆ」を含む左側の小領域（たとえば「ＡＢＣＤＥＦ」に対応する領域）と当該注目文字の直後の文字「Ｇ」を含む右側の小領域（たとえば「Ｇ....」に対応する領域）とが、互いに異なる部分領域として抽出される。換言すれば、同一行内における文字列「ＡＢＣＤＥＦ」（詳細には、その存在領域）と文字列「Ｇ...」の存在領域（詳細には、その存在領域）との両者が当該両者の間の有意な空白によって、２つの小領域に区分される。

なお、抽出部６５は、文字認識処理を行わない。抽出部６５は、スキャン画像２００における各文字の存在領域を画像処理によって求め、上記の各値ｘ，ｙを、次のようにして算出する。

詳細には、まず、Ｘ方向（主走査方向）（水平方向）に伸びる１ライン（水平ライン）（水平方向画素列）あたりの黒画素の数を水平ライン毎に検出する動作を、Ｙ方向（副走査方向）（垂直方向）に移動しつつ繰り返して行い、各水平ラインの黒画素数を取得する。

図９内の左側に配置されたグラフにおいては、Ｙ方向の各位置における黒画素数を模式的に示す曲線Ｌ０が示されている。なお、当該グラフにおいては、簡略化のため、所定数以上の黒画素数が一律に同じ画素数で示されている。

文字が存在する位置の水平ラインにおいては、比較的多数の黒画素が存在する。一方、行と行との間の水平ライン（文字が存在しない行間領域の水平ライン）においては、黒画素がほとんど存在しない。

このような特質を利用して、抽出部６５は、所定数以上の黒画素数を有する水平ラインが存在する範囲Ｖ（Ｙ方向の範囲）を、１行の文字列の範囲（文字列の高さ方向における範囲）として認識する。たとえば、文字列「ＡＢＣ...」の上端から下端までの範囲が１行の文字列の範囲Ｖとして認識される。同様に、文字列「０１２...」の上端から下端までの範囲等も１行の文字列の範囲Ｖとして認識される。

そして、垂直方向（Ｙ方向）において当該範囲Ｖに亘り且つ水平方向（Ｘ方向）において文字領域２１０の（当該水平方向の）全範囲に亘る矩形領域が、スキャン画像２００における１行の文字列の存在領域として認識される。また、当該矩形領域の左上（あるいは左下等）の点の位置が、当該１行の文字列の存在領域の位置（代表位置）として認識される。たとえば、１行の文字列「ＡＢＣ...ＫＬＭ」を含む矩形領域が１行の文字列の存在領域として認識されるとともに、当該矩形領域の左上の点の位置が、当該１行の文字列の存在領域の位置（先頭位置）として認識される。なお、第１実施形態においても、このようにして各行の文字列の存在範囲の認識処理および位置検出処理等が行われる。

さらに、抽出部６５は、所定数以上の黒画素数を有しない水平ラインが存在する範囲（Ｙ方向の範囲）を、行間領域の範囲（高さ方向における範囲）として認識する。たとえば、文字列「ＡＢＣ...」の下端と文字列「０１２...」の上端との間の空白領域が、第１行と第２行との間の行間領域の範囲として認識される。このような処理により、抽出部６５は、或る行とその次の行との間隔（行間領域のＹ方向の大きさ）を上記の間隔（行間間隔）ｙとして算出する。

次に、１行の文字列のＹ方向における存在範囲Ｖに対応する領域（Ｘ方向に伸びる帯状領域（矩形領域））内における、各文字の存在領域（各文字の幅方向における存在範囲Ｗ）を求める。今度は、当該帯状領域においてＹ方向に伸びる１ライン（垂直ライン（縦ライン））あたりの黒画素の数を検出する動作を、Ｘ方向に移動しつつ繰り返して行い、各垂直ラインごとの黒画素数を取得する。

図９内の第１行の文字列の上側に配置されたグラフにおいては、第１行の文字列のＸ方向の各位置における黒画素数を模式的に示す曲線Ｌ１が示されている。なお、当該グラフにおいては、簡略化のため、所定数以上の黒画素数が一律に同じ画素数で示されている。

文字が存在する位置の垂直ラインにおいては、比較的多数の黒画素が存在する。一方、文字と文字との間の垂直ライン（文字が存在しない字間領域の垂直ライン）においては、黒画素がほとんど存在しない。

このような特質を利用して、抽出部６５は、所定数以上の黒画素数を有する垂直ラインが存在する範囲（Ｘ方向の範囲）を、１文字の幅の範囲（幅方向における範囲）Ｗとして認識する。たとえば、文字「Ａ」の左端から右端までの範囲が或る文字の範囲Ｗとして認識される。その後の各文字「Ｂ」、「Ｃ」、「Ｄ」、「Ｅ」、「Ｆ」、「Ｇ」、「Ｈ」、...についても同様である。また、当該文字とその右隣の文字との間隔（空隙）、詳細には、当該文字の右端と当該文字の右隣の文字の左端との間隔（空隙）が上記の間隔（字間間隔）ｘとして算出される。

このようにして求められた隣接行間間隔ｙと隣接文字間間隔ｘとを用いて、上述のように、両値ｘ，ｙの比率に基づき１行内の各小領域が分離して抽出される。当該各小領域は、部分領域２３０として抽出され、当該各部分領域２３０について上記第１実施形態と同様の動作が行われる。

＜第２実施形態の変形例１＞
上記第２実施形態においては、隣接行間間隔ｙと隣接文字間間隔ｘとの比率に基づいて、１行内の各小領域が、互いに分離されて各部分領域２３０として抽出される態様が例示されているが、これに限定されない。たとえば、隣接文字間間隔ｘのみを用いて、１行内の各小領域が、互いに分離されて各部分領域２３０として抽出されるようにしてもよい。

図１０および図１１は、このような手法について説明する図である。

図１０の左側においては、スキャン画像２００の文字領域２１０における或る１つの行（文字列「ＡＢＣＤＥＦＧＨＩＪＫＬＭ」を有する行）が示されている。また、図１１においては、当該行が拡大されて示されている。文字列「ＡＢＣＤＥＦ」と文字列「ＧＨＩＪＫＬＭ」との間には比較的大きな空白が存在する。

抽出部６５は、文字領域における複数行のうちの注目行に関して、注目行内における注目文字と当該注目文字の直前の文字との間隔である前間隔ｐと、当該注目文字と当該注目文字の直後の文字との間隔である後間隔ｑとを算出する。なお、隣接文字間間隔ｐ，ｑは、上記第２実施形態の隣接文字間間隔ｘと同様にして算出されればよい。

後間隔ｑが前間隔ｐよりも所定程度を超えて大きいと判定される場合には、抽出部６５は、当該注目文字と当該注目文字の直後の文字との間に有意な空白領域があると判定し、当該空白領域の両側の２つの小領域を互いに異なる部分領域として抽出する。換言すれば、当該注目文字と当該注目文字の直後の文字とは、互いに異なる部分領域に属すると判定される。これにより、注目文字と当該注目文字の直前の文字とを含む小領域と当該注目文字の直後の文字を含む小領域とは、互いに異なる部分領域として抽出される。

より具体的には、値ｑの値ｐに対する比の値（ｑ／ｐ）が所定の閾値ＴＨ２（たとえば２５０％）より大きい場合には、注目文字と当該注目文字の直後の文字との間に有意な空白領域があると判定する。逆に、当該比の値（ｑ／ｐ）が所定の閾値ＴＨ２より小さい場合には、注目文字と当該注目文字の直後の文字との間に有意な空白領域は存在せず、当該注目文字と当該注目文字の直後の文字との両文字は同一の部分領域に属すると判定される。このような処理が、第１行内の複数の文字に関して、一方側（たとえば左側）から他方側（たとえば右側）に向かう順序で順次に実行される。その結果、有意な空白領域が存在する場合には、当該空白領域によって区分される両側の小領域が抽出される。

たとえば、注目文字「Ｂ」に関する上記の比率（ｑ／ｐ＝ｘ２／ｘ１）が所定の閾値ＴＨ２よりも小さい場合には、当該注目文字「Ｂ」とその両側の文字（「Ａ」および「Ｃ」）はいずれも同一の部分領域に属すると判定される。同様の動作が注目文字「Ｂ」〜「Ｄ」においても実行される。また、注目文字「Ｅ」に関する上記の比率（ｑ／ｐ＝ｘ５／ｘ４）が所定の閾値ＴＨ２よりも小さい場合には、当該注目文字「Ｅ」とその両側の文字（「Ｄ」および「Ｆ」）はいずれも同一の部分領域に属すると判定される。これにより、６つの文字「ＡＢＣＤＥＦ」は同一の部分領域に属すると判定される。

一方、注目文字「Ｆ」に関する比率（ｑ／ｐ＝ｘ６／ｘ５）が所定の閾値ＴＨ２よりも大きい場合には、注目文字「Ｆ」と当該注目文字の直前の文字「Ｅ」との両文字を含む小領域（たとえば「ＡＢＣＤＥＦ」に対応する領域）と、当該注目文字の直後の文字（「Ｇ」）を含む小領域（たとえば「Ｇ....」に対応する領域）とは、互いに異なる部分領域として抽出される。換言すれば、同一行内における文字列「ＡＢＣＤＥＦ」と文字列「Ｇ...」との両者が当該両者の間の有意な空白によって、２つの小領域に区分される。

以上のような変形例に係る動作によっても、１行内の各小領域が、有意な空白部分によって互いに分離され、部分領域２３０として抽出される、そして、当該各部分領域２３０について上記第１実施形態と同様の動作が行われればよい。

＜第２実施形態の変形例２＞
あるいは、１行内の前後の文字のサイズの相違を用いて、１行内の各小領域が互いに分離され各部分領域２３０として抽出されるようにしてもよい。詳細には、文字領域２１０における注目行に関して、当該注目行内における注目文字のサイズと当該注目文字の直後の文字のサイズとが所定程度を超えて異なる場合には、注目文字を含む小領域と当該注目文字の直後の文字を含む小領域とが互いに異なる部分領域として抽出されるようにしてもよい。

図１２および図１３は、このような手法について説明する図である。

図１２の左側においては、スキャン画像２００の文字領域２１０における或る１つの行（文字列「ＡＢＣＤＥＦＧＨＩＪＫＬＭ」を有する行）が示されている。また、図１３においては、当該行が拡大されて示されている。ここでは、文字列「ＡＢＣＤＥＦ」のフォントサイズと文字列「ＧＨＩＪＫＬＭ」のフォントサイズとが大きく異なっている状況を想定する。

抽出部６５は、文字領域における複数行のうちの注目行に関して、当該注目行内における注目文字のサイズｈｐと当該注目文字の直後の文字のサイズｈｑとを算出する。なお、各文字のサイズ（ここでは、文字の高さ方向の大きさ（文字の高さ））の算出手法については、後述する。

注目行内における注目文字のサイズｈｐと注目文字の直後の文字のサイズｈｑとが所定程度を超えて異なると判定される場合には、抽出部６５は、当該注目文字を含む領域と当該注目文字の直後の文字を含む領域との２つの小領域を互いに異なる部分領域として抽出する。換言すれば、当該注目文字と当該注目文字の直後の文字とは、互いに異なる部分領域に属すると判定される。

より具体的には、値ｈｑの値ｈｐに対する比の値（ｈｑ／ｈｐ）が所定の閾値ＴＨ３（たとえば２１０％）より大きい場合、あるいは、当該比の値の逆数（ｈｐ／ｈｑ）が所定の閾値ＴＨ３（たとえば２１０％）より大きい場合には、注目文字のサイズと当該注目文字の直後の文字のサイズとが所定程度を超えて異なっていると判定される。逆に、当該比の値（ｈｑ／ｈｐ）が所定の閾値ＴＨ３より小さく且つ当該比の値の逆数（ｈｐ／ｈｑ）も所定の閾値ＴＨ３より小さい場合には、注目文字のサイズと当該注目文字の直後の文字のサイズとは所定程度を超える程度には異なっていない、と判定される。このような処理が、第１行内の複数の文字に関して、一方側（たとえば左側）から他方側（たとえば右側）に向かう順序で順次に実行される。その結果、フォントサイズの相違が存在する場合には、当該フォントサイズの変更位置で区分される複数の小領域が抽出される。なお、所定の閾値ＴＨ３を適宜に定めることにより、同じフォントサイズの「大文字」と「小文字」とを適切に同一フォントサイズの文字として認識しつつ、そのフォントサイズが大きく異なる２つの文字を、異なるフォントサイズの文字として適切に認識することが可能である。

注目文字「Ａ」に関する上記の比率（ｈｑ／ｈｐ＝ｈ２／ｈ１）およびその逆比（ｈｐ／ｈｑ＝ｈ１／ｈ２）の双方が所定の閾値ＴＨ３よりも小さい場合には、当該注目文字「Ａ」とその直後の文字「Ｂ」とは同一の部分領域に属すると判定される。同様の動作が注目文字「Ｂ」〜「Ｅ」に関しても実行される。これにより、６つの文字「ＡＢＣＤＥＦ」は同一の部分領域に属すると判定される。

一方、注目文字「Ｆ」に関する比率（ｈｑ／ｈｐ＝ｈ７／ｈ６）が所定の閾値ＴＨ３よりも大きい場合、あるいは、その逆比（ｈｐ／ｈｑ＝ｈ６／ｈ７）が所定の閾値ＴＨ３よりも大きい場合には、注目文字「Ｆ」とその直後の文字「Ｇ」との境界で、１行内の領域が区分される。具体的には、注目文字「Ｆ」を含む小領域（たとえば「ＡＢＣＤＥＦ」に対応する領域）と、当該注目文字の直後の文字「Ｇ」を含む小領域（たとえば「Ｇ....」に対応する領域）とは、互いに異なる部分領域２３０として抽出される。換言すれば、同一行内における文字列「ＡＢＣＤＥＦ」と文字列「Ｇ...」との両者が当該両者の間の文字サイズの差異によって、２つの小領域に区分される。

以上のような変形例に係る動作によっても、１行内の各小領域が、フォントサイズの相違に応じて互いに分離され、互いに異なる部分領域２３０として抽出される、そして、当該各部分領域２３０について上記第１実施形態と同様の動作が行われればよい。

なお、各文字の文字大きさ（高さ方向の大きさ）ｈは、たとえば次のようにして求められる。

まず、第２実施形態と同様にして、抽出部６５は、所定数以上の黒画素数を有する水平ラインが存在する範囲（Ｙ方向の範囲）を、１行の文字列の範囲Ｖ（文字列の高さ方向における範囲）として認識する。そして、Ｙ方向における存在範囲Ｖに対応する矩形領域（Ｘ方向に伸びる帯状領域）が１行の文字列の存在領域として認識される。たとえば、図１３に示すように、文字列「ＧＨＩ...」の上端から文字列「ＡＢＣ...」の下端までのＹ方向における存在範囲Ｖに対応する矩形領域（Ｘ方向に伸びる帯状領域）が１行の文字列の存在領域として認識される。

次に、第２実施形態と同様に、当該１行の文字列の存在領域（Ｘ方向に伸びる帯状領域）内における、各文字の存在領域（各文字の幅方向における存在範囲Ｗ）を求める。

そして、１行の文字列のＹ方向の範囲Ｖに対応する当該帯状領域において、各文字の幅方向（Ｘ方向）における存在範囲Ｗごとに、各水平ラインの黒画素数を求めることにより、Ｙ方向における文字の存在範囲がさらに検出される。たとえば、存在範囲Ｗ内の或る水平ラインの黒画素数が所定数を超える場合には、当該水平ラインは、文字の存在範囲を構成するラインであると判定される。そして、当該存在範囲のＹ方向の長さ（当該存在範囲を構成する複数の水平ラインのうち最も下側のラインのＹ方向位置と最も上側のラインのＹ方向位置との差）が当該文字のサイズ（高さ方向の大きさ）ｈとして求められる。

図１３に示すように、文字「Ａ」の幅方向の存在範囲Ｗにて水平ラインの黒画素数が所定数を超えるＹ方向範囲が位置ｙ２から位置ｙ３に至る範囲であるときには、当該範囲が文字「Ａ」の縦方向における存在範囲であると判定される。そして、この存在範囲のＹ方向の大きさ（位置ｙ２と位置ｙ３との距離）が当該文字「Ａ」のサイズ（高さ方向の大きさ）ｈ１として算出される。その他の文字「Ｂ］〜「Ｆ」のサイズ（高さ方向の大きさ）ｈ２〜ｈ６についても同様である。

また、文字「Ｇ」の幅方向の存在範囲Ｗにて水平ラインの黒画素数が所定数を超えるＹ方向範囲が位置ｙ１から位置ｙ３に至る範囲であるときには、当該範囲が文字「Ｇ」の縦方向における存在範囲であると判定される。そして、この存在範囲のＹ方向の大きさ（位置ｙ１と位置ｙ３との距離）が当該文字「Ｇ］のサイズ（高さ方向の大きさ）ｈ７として算出される。その他の文字「Ｈ］〜「Ｍ」のサイズ（高さ方向の大きさ）についても同様である。

なお、ここでは、文字のサイズとして、文字の高さ方向の大きさ（高さ）が考慮されているが、これに限定されず、文字の幅方向の大きさ（幅）が文字のサイズとして考慮されるようにしてもよい。

＜第２実施形態の変形例３＞
あるいは、１行内の前後の文字のＹ方向の位置の相違を用いて、１行内の各小領域が、互いに分離されて各部分領域２３０として抽出されるようにしてもよい。詳細には、文字領域２１０における注目行に関して、当該注目行内における注目文字の行方向に垂直な方向（Ｙ方向）における位置と当該注目文字の直後の文字のＹ方向における位置とが所定程度を超えてずれている場合には、当該注目文字を含む小領域と当該注目文字の直後の文字を含む小領域とが、互いに異なる部分領域として抽出されるようにしてもよい。

図１４および図１５は、このような手法について説明する図である。

図１４の左側においては、スキャン画像２００の文字領域２１０内の或る１つの行（文字列「ＡＢＣＤＥＦＧＨＩＪＫＬＭ」を有する行）が示されている。また、図１５においては、当該行が拡大されて示されている。ここでは、文字列「ＡＢＣＤＥＦ」のＹ方向位置と文字列「ＧＨＩＪＫＬＭ」のＹ方向位置とがずれている状況を想定する。

抽出部６５は、文字領域における複数行のうちの注目行に関して、当該注目行内における注目文字のＹ方向における位置ｙｐと当該注目文字の直後の文字のＹ方向における位置ｙｑとを算出する。なお、各文字のＹ方向における位置ｙｐ，ｙｑ（たとえば、ｙ１３，ｙ１４）は、上述の位置ｙ１，ｙ２，ｙ３等と同様にして取得されればよい。

注目行内における注目文字の行方向に垂直な方向（Ｙ方向）における位置ｙｐと当該注目文字の直後の文字のＹ方向における位置ｙｑとが所定程度を超えてずれている場合には、抽出部６５は、当該注目文字を含む小領域と当該注目文字の直後の文字を含む小領域とを、互いに異なる部分領域として抽出する。なお、両位置ｙｐ，ｙｑが所定程度を超えて互いにずれているか否かは、たとえば、両位置ｙｐ，ｙｑの差異Δｙ（＝｜ｙｐ−ｙｑ｜）が所定の閾値ＴＨ４よりも大きい（Δｙ＞ＴＨ４）か否かに応じて判定されればよい。

注目文字「Ａ」のＹ方向位置（ｙｐ）と当該注目文字の直後の文字「Ｂ」のＹ方向位置（ｙｑ）とが所定程度を超える程度にはズレていないと判定される場合（たとえば、ｙｐ＝ｙｑ＝ｙ１３の場合）には、当該注目文字「Ａ」とその直後の文字「Ｂ」とは同一の部分領域に属すると判定される。同様の動作が注目文字「Ｂ」〜「Ｅ」に関しても実行される。これにより、６つの文字「ＡＢＣＤＥＦ」は同一の部分領域に属すると判定される。

一方、注目文字「Ｆ」のＹ方向位置（ｙｐ＝ｙ１３）と当該注目文字の直後の文字「Ｇ」のＹ方向位置（ｙｑ＝ｙ１４）とが所定程度を超えてずれている（｜ｙ１３−ｙ１４｜＝Δｙ＞ＴＨ４）と判定される場合には、注目文字「Ｆ」を含む小領域（たとえば「ＡＢＣＤＥＦ」に対応する領域）と、当該注目文字の直後の文字「Ｇ」を含む小領域（たとえば「Ｇ....」に対応する領域）とは、互いに異なる部分領域として抽出される。換言すれば、同一行内における文字列「ＡＢＣＤＥＦ」と文字列「Ｇ...」との両者が、Ｙ方向位置の相違に基づいて、２つの小領域に区分される。

このようにして、１行内の各小領域が、各文字の当該１行内におけるＹ方向位置の相違に応じて互いに分離され、互いに異なる部分領域２３０として抽出される。そして、当該各部分領域２３０について上記第１実施形態と同様の動作が行われればよい。

なお、上記第１実施形態および第２実施形態ならびにそれらの変形例等における各部分領域２３０は、その先頭文字よりも前側（左側）の空白領域を除外して抽出されることが好ましい。たとえば、文字列「ＡＢＣＤＥＦ」に係る部分領域２３０は、先頭文字「Ａ」よりも前側（左側）の空白領域を除外して抽出されることが好ましい。他の部分領域２３０についても同様である。これによれば、アプリケーション１２０に送信する画像データのデータ量を削減すること等が可能である。また、当該各部分領域２３０は、その後端文字よりも後ろ側（右側）の空白領域を除外して抽出されることが好ましい。

＜３．第３実施形態＞
上記各実施形態等においては、複数の部分領域２３０のうち、或る部分領域に関するＯＣＲ処理の依頼処理とそのＯＣＲ処理結果の受信処理とが終了した後に、次の部分領域に関するＯＣＲ処理の依頼処理とそのＯＣＲ処理結果の受信処理とが行われる態様が例示されている。

この第３実施形態においては、複数の部分領域２３０に関するＯＣＲ処理の依頼処理等が（複数の部分領域２３０に関して）並列的に行われる態様について説明する。具体的には、或る部分領域に関するＯＣＲ処理の依頼処理等が行われた後に、そのＯＣＲ処理結果の受信処理を待たずに、次の部分領域２３０に関するＯＣＲ処理の依頼処理等が行われる態様を例示する。

図１６は、第３実施形態に係る動作を示す図である。以下、第１実施形態との相違点を中心に説明する。

図１６においては、スキャン画像２００の文字領域２１０における３つの行に関する３つの部分領域２３０が示されている。ここでは、文字領域２１０の第１行に文字列「ＡＢＣＤＥＦ」が存在し、文字領域２１０の第２行に文字列「ＧＨＩＪ」が存在し、文字領域２１０の第３行に文字列「ＫＬＭＮＯＰＱＲＳＴ」が存在する状況を想定する。

この第３実施形態においては、外部端末５０の電子文書生成アプリケーション１１０は、原稿のスキャン画像２００をＭＦＰ１０から取得するなどの処理（ステップＳ１１）を行った後、複数の部分領域２３０に関する処理（ステップＳ１２〜Ｓ１６（図６参照）の処理）を並列的に実行する。

具体的には、電子文書生成アプリケーション１１０は、スキャン画像２００から所定単位の複数の部分領域２３０を抽出する（ステップＳ１２参照）。なお、複数の部分領域２３０は、第１実施形態のように行単位で抽出されてもよく、あるいは、第２実施形態等のように１行内で更に区分された小領域単位で抽出されてもよい。図１６では、１行内で更に区分された小領域単位で抽出される様子が示されている。また、図１６では、各部分領域２３０は、その先頭文字よりも前側（左側）の空白領域とその後端文字よりも後ろ側（右側）の空白領域とを除外して抽出される様子が示されている。

また、電子文書生成アプリケーション１１０は、当該複数の部分領域２３０のそれぞれの位置を検出して格納部５５に格納する（ステップＳ１３参照）。このとき、複数の部分領域２３０のそれぞれの位置が、各複数の部分領域２３０の識別情報（ここでは識別コード）とともに格納部５５に格納される。すなわち、格納部５５において、各部分領域２３０と当該各部分領域２３０を互いに識別する識別コードと当該各部分領域２３０の座標位置（Ｘ，Ｙ）とを関連付けた関連付け情報が格納される。

たとえば、電子文書生成アプリケーション１１０は、最初の部分領域２３０ａ（文字列「ＡＢＣＤＥＦ」に対応する部分画像）に対して識別コード「００１」を付与するとともに、当該識別コード「００１」に関連付けて当該最初の部分領域２３０ａの位置情報（座標位置（Ｘ１，Ｙ１）等）（図１６参照）を格納部５５に格納する。また、次の部分領域２３０ｂ（文字列「ＧＨＩＪ」に対応する部分画像）に対して識別コード「００２」が付与されるとともに、当該部分領域２３０ｂの位置情報（座標位置（Ｘ２，Ｙ２）等）が識別コード「００２」に関連付けて格納部５５に格納される。同様に、さらに次の部分領域２３０ｃに対して識別コード「００３」が付与されるとともに、当該部分領域２３０ｃの位置情報（座標位置（Ｘ３，Ｙ３）等）が識別コード「００３」に関連付けて格納部５５に格納される。

また、電子文書生成アプリケーション１１０は、複数の部分領域２３０に関する画像を複数の部分領域２３０のそれぞれに対する処理指示（ＯＣＲ処理指示等）とともに、クラウドサーバ９０のアプリケーション１２０（ＯＣＲアプリケーション）に送出する（ステップＳ１４参照）。

このとき、この第３実施形態においては、複数の部分領域２３０の画像データ（部分画像データとも称する）自体ではなく、複数の拡張部分画像２３６（次述）の画像データ（拡張部分画像データとも称する）が、複数の部分領域２３０に関する画像として送出される。複数の拡張部分画像データは、複数の部分領域２３０の画像データ（部分画像データ）のそれぞれに対して、当該複数の部分領域２３０を互いに識別する各識別情報（詳細には、識別コード（識別子））を画像化して付加して生成される画像データである。換言すれば、部分領域２３０の画像（２３１）と当該部分領域２３０の識別情報を画像化した識別情報画像（２３２）との合成画像の画像データが、拡張部分画像２３６の画像データとして生成される。

たとえば、部分領域２３０ａに関しては、その識別コード（識別子）「００１」を可視化した画像２３２ａ（文字列「００１」を示す画像（文字画像））と当該部分領域２３０ａの画像２３１ａ（文字列「ＡＢＣＤＥＦ」を示す画像（文字画像））との合成画像に係る画像データ（図１６参照）が、「拡張部分画像」（２３６ａ）の画像データとして生成される。

また、部分領域２３０ｂに関しては、その識別コード（識別子）「００２」を可視化した画像２３２ｂ（文字列「００２」を示す画像（文字画像））と当該部分領域２３０ｂの画像２３１ｂ（文字列「ＧＨＩＪ」を示す画像（文字画像））との合成画像に係る画像データが、「拡張部分画像」（２３６ｂ）の画像データとして生成される。

同様に、部分領域２３０ｃに関しては、その識別コード「００３」を可視化した画像２３２ｃ（文字列「００３」を示す画像）と当該部分領域２３０ｃの画像２３１ｃ（文字列「ＫＬＭ...」を示す画像）との合成画像に係る画像データが、「拡張部分画像」（２３６ｃ）の画像データとして生成される。

なお、ここでは、各部分領域２３０の各画像２３２は各画像２３１に対して左側（前寄り）にずれて配置される。たとえば、部分領域２３０ａの画像２３２ａは、部分領域２３０ａの画像２３１ｂに対して左側（前寄り）にずれて配置される。他の部分領域についても同様である。ただし、これに限定されず、たとえば各部分領域２３０の各画像２３２は各画像２３１に対して右側（後ろ寄り）にずれて配置されてもよい。

外部端末５０（電子文書生成アプリケーション１１０）は、このような複数の拡張部分画像２３６の画像データ（拡張部分画像データ）等を、複数の部分領域２３０に関する画像として送出する。

クラウドサーバ９０（アプリケーション１２０）は、上述の処理指示と複数の部分領域２３０に関する画像データとを受け取る（受信する）と、当該処理指示および画像データに基づいてＯＣＲ処理を実行する。そして、その処理結果を外部端末５０（電子文書生成アプリケーション１１０）に送信する。

外部端末５０（電子文書生成アプリケーション１１０）は、アプリケーション１２０からの当該各処理結果を受け取る（ステップＳ１５）と、当該各処理結果からそれぞれ各識別情報を抽出する。そして、抽出された識別情報に基づいて、当該各処理結果が複数の部分領域２３０のうちのいずれの部分画像データに関する処理結果であるか、が判定される。すなわち、各処理結果に対応する各部分領域が各識別情報に基づいてそれぞれ識別される。

さらに、外部端末５０は、各処理結果から各識別情報をそれぞれ除いたテキスト文字列（各部分領域２３０に含まれていた元の文字列）を、識別された各部分領域の検出位置に配置する（ステップＳ１６参照）。このとき、各部分領域２３０の識別情報に関連付けて格納部５５に格納されていた座標情報（各部分領域２３０の検出位置（Ｘ，Ｙ））が、格納部５５から取り出されて利用される。

このように、格納部５５に格納されている関連付け情報に基づいて、各処理結果に対応する部分領域（対応部分領域とも称する）の識別処理（特定処理）および位置情報の取得処理等が行われる。

たとえば、外部端末５０は、受信した処理結果２５０ａ（「００１ＡＢＣＤＥＦ」）に含まれている識別コード「００１」を当該処理結果２５０ａから抽出する。そして、抽出された識別情報に基づいて、当該各処理結果が複数の部分領域２３０のうちのいずれの部分画像データに関する処理結果であるか、が判定される。受信した処理結果「００１ＡＢＣＤＥＦ」に識別コード「００１」が含まれている場合には、当該処理結果（ＯＣＲ処理結果）は、識別コード「００１」に対応する部分領域２３０ａに対するものであると判定される。すなわち、当該処理結果の対応部分領域は部分領域２３０ａである旨が判定（識別）される。そして、処理結果の文字列「００１ＡＢＣＤＥＦ」から識別情報「００１」を除いたテキスト文字列「ＡＢＣＤＥＦ」が、識別された部分領域２３０ａの検出位置（Ｘ１，Ｙ１）に配置される。このとき、識別コード「００１」に関連付けて格納部５５に格納されていた座標情報（Ｘ１，Ｙ１）が、部分領域２３０ａの検出位置として、格納部５５（関連付け情報）から取り出されて利用される。

また、外部端末５０は、受信した処理結果２５０ｂ（「００２ＧＨＩＪ」）に含まれている識別コード「００２」を当該処理結果２５０ｂから抽出する。受信した処理結果「００２ＧＨＩＪ」に識別コード「００２」が含まれている場合には、当該処理結果（ＯＣＲ処理結果）は、識別コード「００２」に対応する部分領域２３０ｂに対するものであると判定される。そして、処理結果の文字列「００２ＧＨＩＪ」から識別情報「００２」を除いたテキスト文字列「ＧＨＩＪ」が、識別された部分領域２３０ｂの検出位置（Ｘ２，Ｙ２）に配置される。このとき、識別コード「００２」に関連付けて格納部５５に格納されていた座標情報（Ｘ２，Ｙ２）が、部分領域２３０ｂの検出位置として、格納部５５から取り出されて利用される。

このような動作が複数の部分領域２３０（２３０ａ，２３０ｂ，２３０ｃ）について行われることによって、電子文書５００（ここではサーチャブルＰＤＦ）が生成される。

以上の動作によれば、第１実施形態等と同様の効果を得ることが可能である。

また、この第３実施形態においては、複数の部分領域２３０に対する識別情報が利用されるので、複数の部分領域２３０に関する処理結果を良好に互いに識別することが可能である。特に、複数の部分領域２３０に対するＯＣＲの依頼処理等および当該依頼処理等に対する処理結果の送受信動作が、複数の２３０に関して並列的に行われる場合であっても、複数の部分領域２３０に関する処理結果を良好に互いに識別することが可能である。また、複数の部分領域２３０に関するＯＣＲ処理をアプリケーション１２０により並列的に行うことによって、高速化を図ることも可能である。

＜４．第４実施形態＞
第４実施形態は、第３実施形態の変形例である。以下、第３実施形態との相違点を中心に説明する。

上記第３実施形態においては、各部分領域２３０の識別情報（識別コード）が画像化されてアプリケーション１２０に送信される態様が例示されている。一方、この第４実施形態においては、各部分領域２３０の識別情報（識別コード）がファイル名として付加されてアプリケーション１２０に送信される態様が例示される。なお、第４実施形態においても、第３実施形態と同様に、複数の部分領域２３０に対するＯＣＲの依頼処理等および当該依頼処理等に対する処理結果の送受信動作が、複数の部分領域２３０に関して並列的に行われる。

図１７は、第４実施形態に係る動作を示す図である。

図１７においても、図１６と同様、スキャン画像２００の文字領域２１０における３つの行に関する３つの部分領域２３０が示されている。

この第４実施形態においても、外部端末５０の電子文書生成アプリケーション１１０は、原稿のスキャン画像２００をＭＦＰ１０から取得した後、複数の部分領域２３０に関する処理（ステップＳ１２〜Ｓ１６（図６参照）の処理）を並列的に実行する。

複数の部分領域２３０の抽出処理（ステップＳ１２参照）、および当該複数の部分領域２３０のそれぞれの位置を検出して格納部５５に格納する処理（ステップＳ１３参照）は、第３実施形態と同様である。なお、上述のように、複数の部分領域２３０は、行単位で抽出されてもよく、あるいは、１行内で更に区分された小領域単位で抽出されてもよい。図１７では、１行内で更に区分された小領域単位で抽出される様子が示されている。また、図１７では、各部分領域２３０は、その先頭文字よりも前側（左側）の空白領域とその後端文字よりも後ろ側（右側）の空白領域とを除外して抽出される様子が示されている。

このとき、第４実施形態においては、第１実施形態と同様に、複数の部分領域２３０の画像２３１を示す画像データ（部分画像データとも称する）自体が、複数の部分領域２３０に関する画像データとして送出される。ただし、この第４実施形態においては、各画像データは、固有のファイル名が付されたデータファイルとしてそれぞれ送出される。当該固有のファイル名としては、互いに異なる識別情報（識別コード）を含む名称（たとえば、「001.pdf 」、「002.pdf 」等）が付される。

なお、この第４実施形態においても、第３実施形態と同様に、前の部分領域２３０に関する処理結果の受信を待たずに、次の部分領域２３０の処理依頼がその画像データ（データファイル）とともに随時送信される。

クラウドサーバ９０（アプリケーション１２０）は、複数の部分領域２３０に関する複数のデータファイルを受信すると、当該複数のデータファイル（画像データ）に対するＯＣＲ処理を行う。そして、アプリケーション１２０は、それぞれの処理結果（ＯＣＲ結果）を含む複数の新たなデータファイル（返信用データファイルとも称する）を、電子文書生成アプリケーション１１０に送信する。各返信用データファイルには、電子文書生成アプリケーション１１０から処理依頼とともに受信した各画像データファイルに付されていた識別情報を含むファイル名称が付される。換言すれば、各返信用データファイルのファイル名は、元の複数のデータファイルのうち、対応するデータファイルのファイル名に付されていた識別情報をその一部に有している。

たとえば、電子文書生成アプリケーション１１０から受信した元のデータファイル「００１．ｐｄｆ」に対する返信用データファイルにおいては、当該返信用データファイルのファイル名として、「００１ｏｕｔ．ｔｘｔ」が付される。ファイル名「００１ｏｕｔ．ｔｘｔ」は、複数の返信用データファイルに共通の付加要素「ｏｕｔ」と元の各データファイルに固有の識別情報「００１」とを有し且つそのファイル拡張子を「ｔｘｔ」に変更した名称である。同様に、元のデータファイル「００２．ｐｄｆ」に対する返信用データファイルにおいては、当該返信用データファイルのファイル名として、「００２ｏｕｔ．ｔｘｔ」が付される。

電子文書生成アプリケーション１１０は、このようなファイル名称を有する各返信用データファイル（処理結果）をアプリケーション１２０から受け取る（受信する）（ステップＳ１５参照）と、当該各返信用データファイルに含まれている各識別情報を抽出する。そして、各処理結果に対応する各部分領域２３０が、各識別情報に基づいてそれぞれ識別される。その後、外部端末５０は、各データファイルに含まれるテキスト文字列（各部分領域２３０に含まれていた元の文字列の認識結果）を、識別された各部分領域２３０の検出位置に配置する。

たとえば、電子文書生成アプリケーション１１０は、ファイル名「００１ｏｕｔ．ｔｘｔ」を有する返信用データファイルを受信すると、当該ファイル名から、共通付加要素「ｏｕｔ」とファイル拡張子「ｔｘｔ」と区切り記号「．」とを除いた元の識別コード「００１」を抽出する。そして、格納部５５に格納されている関連付け情報（特に、識別コード「００１」と部分領域２３０ａとその座標位置（Ｘ１，Ｙ１）とを関連付けて格納されている情報）に基づいて、抽出された識別コード「００１」に部分領域２３０ａが対応することが判定される。すなわち、ファイル名「００１ｏｕｔ．ｔｘｔ」の処理結果（返信用データファイル）は、部分領域２３０ａに対する処理結果である旨が識別される。また、当該返信用データファイルに含まれるテキストデータ（テキスト文字列「ＡＢＣＤＥＦ」）が、格納部５５内の上記情報に基づき、（識別結果である）部分領域２３０ａの検出位置（Ｘ１，Ｙ１）に配置される。

他の部分領域２３０ｂ，２３０ｃについても同様の処理が行われる。これにより、電子文書５００（ここではサーチャブルＰＤＦ）が生成される。

以上のような動作によっても、第３実施形態と同様の効果を得ることが可能である。

＜５．変形例等＞
以上、この発明の実施の形態について説明したが、この発明は上記説明した内容のものに限定されるものではない。

たとえば、上記各実施形態等においては、スキャン対象の原稿として、横書き文書が例示されているが、これに限定されず、縦書き文書であってもよい。換言すれば、文書内の各行は、横方向に伸びるものであってもよく、縦方向に伸びるものであってもよい。

また、上記各実施形態等においては、透明テキスト付きＰＤＦ（元の文字画像に重畳して、ＯＣＲ結果の文字列が非表示状態で埋め込まれているＰＤＦ形式のファイル）（サーチャブルＰＤＦ等）が電子文書５００として生成されているが、本発明はこれに限定されず、次のような電子文書５００が生成されてもよい。

具体的には、最終的な電子文書５００において、元の文字画像（文字領域２１０の画像）が削除されるとともに、ＯＣＲ結果のテキストデータが可視化された状態で当該元の文字画像の代わりに表示されてもよい。

より詳細には、スキャン画像２００における文字領域２１０の各部分領域２３０に係る画像が削除され、当該各部分領域２３０の画像に代えて、各部分領域２３０についての処理結果に係るテキスト情報（テキスト文字列）が当該各部分領域２３０のそれぞれの検出位置に「表示状態」で埋め込まれることによって、電子文書５００が生成されるようにしてもよい。すなわち、文字画像に代えてテキスト文字列を有する電子文書５００が生成されるようにしてもよい。

また、上記各実施形態等においては、依頼元装置から別装置に対して（換言すれば、依頼元装置で実行されるアプリケーションから別装置で実行される別のアプリケーションに対して）ＯＣＲ処理が依頼され、当該ＯＣＲ処理結果等を用いてテキストデータ付き電子文書が生成される態様が例示されている。換言すれば、上記各実施形態等においては、アプリケーション１２０は、ＯＣＲ処理を行うＯＣＲ処理アプリケーションである態様が例示されている。

しかしながら、本発明はこれに限定されず、ＯＣＲ処理結果に基づく「翻訳処理」が更に行われ、その翻訳処理結果を用いてテキストデータ付き電子文書が生成されるようにしてもよい。換言すれば、アプリケーション１２０は、ＯＣＲ処理と当該ＯＣＲ処理の結果に対する翻訳処理とを含む複数の処理を行う複合的なアプリケーションであってもよい（図１８参照）。

より詳細には、電子文書生成アプリケーション１１０とは別のアプリケーション１２０において、ＯＣＲ処理と当該ＯＣＲ処理の結果に対する翻訳処理とを含む複数の処理が行われ、当該各複数の処理に関する処理結果が電子文書５００に反映されるようにしてもよい。このとき、最終的な処理結果（すなわち翻訳結果）は、たとえば、上記のように各部分領域２３０における文字画像に代えて表示されればよい。換言すれば、各部分領域２３０における文字画像が削除された上で、当該各部分領域２３０に関する翻訳結果に係るテキスト文字列が、当該各部分領域２３０の検出位置に「表示状態」で埋め込まれるようにすればよい。

図１８は、このような変形例を示す図である。図１８においては、部分領域２３０内の「Good Morning」の文字画像に対するＯＣＲ処理がアプリケーション１２０で行われてその処理結果（テキスト文字列「Good Morning」）が認識され、更にその和訳処理が行われている。そして、和訳処理結果（「おはよう」）に係るテキストデータ（テキスト情報）２５０が、アプリケーション１２０から電子文書生成アプリケーション１１０へと返信され、当該テキストデータ２５０が元の部分領域２３０の位置に配置されて電子文書５００が生成されている。このような処理が行われるようにしてもよい。

なお、これに限定されず、各部分領域２３０における文字画像（原語による文字画像）（「Good Morning」）を残したまま、当該各部分領域２３０に関する翻訳結果に係るテキスト文字列（「おはよう」）が、当該各部分領域２３０の検出位置に「非」表示状態で埋め込まれる（配置される）ようにしてもよい。

また、図１８に示す変形例では、ＯＣＲ処理と翻訳処理とがアプリケーション１２０によって実行されているが、本発明はこれに限定されない。たとえば、ＯＣＲ処理が電子文書生成アプリケーション１１０によって実行され、翻訳処理がアプリケーション１２０によって実行されるようにしてもよい。

また、上記各実施形態等においては、ＰＤＦ形式の電子文書が例示されているが、本発明はこれに限定されず、他の各種の形式（ＸＰＳ形式等）の電子文書が生成されるようにしてもよい。

また、上記各実施形態等においては、文字領域２１０において１行単位もしくはそれよりも小さな単位で複数の部分画像２３０が抽出され送信される態様が例示されているが、これに限定されない。たとえば、複数行に跨がる領域単位（２行単位等）で複数の部分画像２３０が抽出されて送信されるようにしてもよい。換言すれば、文字領域２１０における複数行の文字列に係る領域を単位として複数の部分領域２３０が抽出され送信されるようにしてもよい。このように、複数の部分領域２３０は、文字領域における所定数行（単一行あるいは複数行）の文字列に係る領域を単位として抽出され得る。

あるいは、スキャン画像２００内に含まれる文章が複数の段落に跨がる場合において、スキャン画像２００の文字領域２１０における単一の段落に係る領域を単位として複数の部分画像２３０が抽出され送信されるようにしてもよい。換言すれば、文字領域の段落ごとに区分された複数の部分領域が（段落単位で）抽出され送信されるようにしてもよい。これによれば、スキャン画像における各段落の位置とテキストデータの各段落（特に第２段落以降の各段落）の埋め込み位置とがずれることを抑制ないし回避することが可能である。

また、上記各実施形態等においては、電子文書生成アプリケーション１１０とアプリケーション１２０との間で直接的にデータの授受が行われているが、これに限定されず、更に別のアプリケーションを経由して電子文書生成アプリケーション１１０とアプリケーション１２０との間でのデータの授受が行われるようにしてもよい。たとえば、外部端末５０にて実行されるインターフェイスアプリケーション１３０（不図示）を経由して、電子文書生成アプリケーション１１０とアプリケーション１２０との間で各種のデータ（スキャン画像およびＯＣＲ処理結果等）が授受されるようにしてもよい。

また、上記各実施形態等においては、ＯＣＲ処理等を行うアプリケーション１２０は、外部端末５０の外部のサーバであるクラウドサーバ９０にインストールされているが、これに限定されない。たとえば、アプリケーション１２０は、外部端末５０にインストールされるようにしてもよい。換言すれば、アプリケーション１２０は、電子文書生成アプリケーション１１０とともに外部端末５０にインストールされてもよい。そして、同じ外部端末５０にインストールされた２つのアプリケーション１１０，１２０の相互間において、上記各実施形態等と同様の動作が行われるようにしてもよい。

また、上記各実施形態等においては、電子文書生成アプリケーション１１０は、外部端末５０にインストールされているが、これに限定されない。たとえば、電子文書生成アプリケーション１１０は、ＭＦＰ１０にインストールされるようにしてもよい。そして、ＭＦＰ１０にインストールされた電子文書生成アプリケーション１１０とクラウドサーバ９０にインストールされた汎用アプリケーション１２０との間で、上記各実施形態等における処理（具体的には、外部端末５０にインストールされた電子文書生成アプリケーション１１０とクラウドサーバ９０にインストールされた汎用アプリケーション１２０との間での処理）等と同様の処理が、行われるようにしてもよい。すなわち、外部端末５０を用いずに、ＭＦＰ１０とクラウドサーバ９０との間で直接、複数の部分領域２３０に関するＯＣＲ処理依頼および処理結果の送受信動作等が行われ、ＭＦＰ１０によって電子文書５００が生成されるようにしてもよい。

１電子文書生成システム
１０画像形成装置
５０外部端末（通信端末）
７５タッチパネル
９０クラウドサーバ
１１０電子文書生成アプリケーション
１２０汎用アプリケーション
２００スキャン画像
２１０文字領域
２２０非文字領域
２３０部分領域
２３１（部分領域の）画像データ
２５０テキストデータ（ＯＣＲ処理結果）
３００属性指定データ
５００電子文書

Claims

電子文書生成システムであって、
原稿のスキャン画像を生成する画像形成装置と、
第１のアプリケーションを実行することによって、前記画像形成装置から受信した前記スキャン画像に基づき電子文書を生成する外部端末と、
を備え、
前記外部端末は、
前記画像形成装置で生成された前記スキャン画像を取得する取得手段と、
前記スキャン画像の文字領域から複数の部分領域を抽出する抽出手段と、
前記スキャン画像内における前記複数の部分領域の位置をそれぞれ検出する検出手段と、
電子文書生成に関連する少なくとも１つの処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれに関する画像データとを、前記第１のアプリケーションから第２のアプリケーションに送出する指示送出手段と、
前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取る受取手段と、
前記各処理結果に係るテキスト情報を、前記各処理結果にそれぞれ対応する部分領域の検出位置に配置して、前記電子文書を生成する生成手段と、
を有し、
前記抽出手段は、前記文字領域における複数行のうちの注目行内において複数の小領域を抽出し、当該複数の小領域を互いに異なる部分領域として区別して前記複数の部分領域を抽出し、
前記指示送出手段は、前記複数の部分領域のそれぞれの画像データである複数の部分画像データのそれぞれに前記複数の部分領域を互いに識別するための各識別情報を画像化して付加した複数の拡張部分画像データを生成し、当該複数の拡張部分画像データのそれぞれを、前記複数の部分領域のそれぞれに関する画像データとして、前記第１のアプリケーションから前記第２のアプリケーションに送出し、
前記受取手段は、前記複数の拡張部分画像データのそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取り、
前記生成手段は、前記各処理結果からそれぞれ前記各識別情報を抽出し、前記各処理結果に対応する各部分領域を前記各識別情報に基づいてそれぞれ識別し、前記各処理結果から前記各識別情報をそれぞれ除いたテキスト情報を、識別された前記各部分領域の検出位置に配置して、前記電子文書を生成することを特徴とする電子文書生成システム。
第１のアプリケーションを実行することによって、画像形成装置から受信したスキャン画像に基づき電子文書を生成する通信端末であって、
前記画像形成装置で生成された前記スキャン画像を取得する取得手段と、
前記スキャン画像の文字領域から複数の部分領域を抽出する抽出手段と、
前記スキャン画像内における前記複数の部分領域の位置をそれぞれ検出する検出手段と、
電子文書生成に関連する少なくとも１つの処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれに関する画像データとを、前記第１のアプリケーションから第２のアプリケーションに送出する指示送出手段と、
前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取る受取手段と、
前記各処理結果に係るテキスト情報を、前記各処理結果にそれぞれ対応する部分領域の検出位置に配置して、前記電子文書を生成する生成手段と、
を備え、
前記抽出手段は、前記文字領域における複数行のうちの注目行内において複数の小領域を抽出し、当該複数の小領域を互いに異なる部分領域として区別して前記複数の部分領域を抽出し、
前記指示送出手段は、前記複数の部分領域のそれぞれの画像データである複数の部分画像データのそれぞれに前記複数の部分領域を互いに識別するための各識別情報を画像化して付加した複数の拡張部分画像データを生成し、当該複数の拡張部分画像データのそれぞれを、前記複数の部分領域のそれぞれに関する画像データとして、前記第１のアプリケーションから前記第２のアプリケーションに送出し、
前記受取手段は、前記複数の拡張部分画像データのそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取り、
前記生成手段は、前記各処理結果からそれぞれ前記各識別情報を抽出し、前記各処理結果に対応する各部分領域を前記各識別情報に基づいてそれぞれ識別し、前記各処理結果から前記各識別情報をそれぞれ除いたテキスト情報を、識別された前記各部分領域の検出位置に配置して、前記電子文書を生成することを特徴とする通信端末。
請求項２に記載の通信端末において、
前記抽出手段は、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字と前記注目文字の直後の文字との間隔である第１の間隔が、前記注目行に隣接する隣接行と前記注目行との間隔である第２の間隔よりも所定程度を超えて大きい場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とを互いに異なる部分領域として抽出することを特徴とする通信端末。
請求項２に記載の通信端末において、
前記抽出手段は、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字と前記注目文字の直後の文字との間隔である第１の間隔が、前記注目文字と前記注目文字の直前の文字との間隔である第２の間隔よりも所定程度を超えて大きい場合には、前記注目文字と前記注目文字の直前の文字とを含む小領域と、前記注目文字の直後の文字を含む小領域とを、互いに異なる部分領域として抽出することを特徴とする通信端末。
請求項２に記載の通信端末において、
前記抽出手段は、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字のサイズと前記注目文字の直後の文字のサイズとが所定程度を超えて異なる場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とを互いに異なる部分領域として抽出することを特徴とする通信端末。
請求項２に記載の通信端末において、
前記抽出手段は、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字の行方向に垂直な第１の方向における位置と前記注目文字の直後の文字の前記第１の方向における位置とが所定程度を超えてずれている場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とを互いに異なる部分領域として抽出することを特徴とする通信端末。
請求項２ないし請求項６のいずれかに記載の通信端末において、
前記生成手段は、前記複数の部分領域のそれぞれについての前記処理結果に係るテキスト情報を、前記複数の部分領域のそれぞれの検出位置に非表示状態で埋め込んで、前記電子文書を生成することを特徴とする通信端末。
請求項２ないし請求項６のいずれかに記載の通信端末において、
前記生成手段は、前記スキャン画像における文字領域の画像を削除するとともに、前記複数の部分領域のそれぞれについての前記処理結果に係るテキスト情報を、前記複数の部分領域のそれぞれの検出位置に表示状態で埋め込んで、前記電子文書を生成することを特徴とする通信端末。
請求項２ないし請求項６のいずれかに記載の通信端末において、
前記少なくとも１つの処理は、光学文字認識処理と当該光学文字認識処理の結果に対する翻訳処理とを含む複数の処理であり、
前記生成手段は、前記スキャン画像における文字領域の画像を削除するとともに、前記複数の部分領域のそれぞれについての前記処理結果である翻訳結果に係るテキスト情報を、前記複数の部分領域のそれぞれの検出位置に表示状態で埋め込んで、前記電子文書を生成することを特徴とする通信端末。
請求項２ないし請求項９のいずれかに記載の通信端末において、
前記第２のアプリケーションは、前記画像形成装置とも前記通信端末とも異なる外部装置にインストールされていることを特徴とする通信端末。
請求項２ないし請求項９のいずれかに記載の通信端末において、
前記第２のアプリケーションは、前記第１のアプリケーションとともに前記通信端末にインストールされていることを特徴とする通信端末。
画像形成装置と通信可能な通信端末に内蔵されたコンピュータにおいて、前記画像形成装置から受信したスキャン画像に基づく電子文書の生成処理を実行させるためのプログラムであって、
前記プログラムは、前記コンピュータに、
ａ）前記画像形成装置で生成された前記スキャン画像を取得するステップと、
ｂ）前記スキャン画像の文字領域から部分領域を抽出するステップと、
ｃ）前記スキャン画像内における前記部分領域の位置を検出するステップと、
ｄ）前記部分領域に関して電子文書生成に関連する少なくとも１つの処理を行うべき旨の指示と前記部分領域に関する画像データとを、前記プログラムである第１のアプリケーションから前記第１のアプリケーションとは別の第２のアプリケーションに送出するステップと、
ｅ）前記少なくとも１つの処理の処理結果を前記第２のアプリケーションから受け取るステップと、
ｆ）前記部分領域についての前記処理結果に係るテキスト情報を前記部分領域の検出位置に配置するステップと、
ｇ）前記スキャン画像の前記文字領域内の複数の部分領域に関して前記ステップｂ）〜ｆ）を実行することによって、前記電子文書を生成するステップと、
を実行させ、
前記ステップｇ）においては、前記文字領域における複数行のうちの注目行内において複数の小領域が抽出されるとともに、当該複数の小領域を互いに異なる部分領域として区別して前記複数の部分領域が抽出され、
前記ステップｄ）は、
ｄ−１）前記部分領域の画像データである部分画像データに前記部分領域を他の部分領域から識別するための識別情報を画像化して付加した拡張部分画像データを生成するステップと、
ｄ−２）前記拡張部分画像データを、前記部分領域に関する画像データとして、前記第１のアプリケーションから前記第２のアプリケーションに送出するステップと、
を有し、
前記ステップｅ）は、
ｅ−１）前記拡張部分画像データに関する前記少なくとも１つの処理の処理結果を前記第２のアプリケーションから受け取るステップ、
を有し、
前記ステップｆ）は、
ｆ−１）前記処理結果から前記識別情報を抽出するステップと、
ｆ−２）前記処理結果に対応する部分領域である対応部分領域を前記識別情報に基づいて識別するステップと、
ｆ−３）前記処理結果から前記識別情報を除いたテキスト情報を、前記対応部分領域の検出位置に配置するステップと、
を有することを特徴とするプログラム。
請求項１２に記載のプログラムにおいて、
前記ステップｂ）においては、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字と前記注目文字の直後の文字との間隔である第１の間隔が、前記注目行に隣接する隣接行と前記注目行との間隔である第２の間隔よりも所定程度を超えて大きい場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とが互いに異なる部分領域として抽出されることを特徴とするプログラム。
請求項１２に記載のプログラムにおいて、
前記ステップｂ）においては、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字と前記注目文字の直後の文字との間隔である第１の間隔が、前記注目文字と前記注目文字の直前の文字との間隔である第２の間隔よりも所定程度を超えて大きい場合には、前記注目文字と前記注目文字の直前の文字とを含む小領域と、前記注目文字の直後の文字を含む小領域とが、互いに異なる部分領域として抽出されることを特徴とするプログラム。
請求項１２に記載のプログラムにおいて、
前記ステップｂ）においては、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字のサイズと前記注目文字の直後の文字のサイズとが所定程度を超えて異なる場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とが互いに異なる部分領域として抽出されることを特徴とするプログラム。
請求項１２に記載のプログラムにおいて、
前記ステップｂ）においては、前記文字領域における複数行のうちの注目行に関して、前記注目行内における注目文字の行方向に垂直な第１の方向における位置と前記注目文字の直後の文字の前記第１の方向における位置とが所定程度を超えてずれている場合には、前記注目文字を含む小領域と前記注目文字の直後の文字を含む小領域とが互いに異なる部分領域として抽出されることを特徴とするプログラム。
請求項１２ないし請求項１６のいずれかに記載のプログラムにおいて、
前記ステップｇ）においては、前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果に係るテキスト情報が、前記複数の部分領域のそれぞれの検出位置に非表示状態で埋め込まれて前記電子文書が生成されることを特徴とするプログラム。
請求項１２ないし請求項１６のいずれかに記載のプログラムにおいて、
前記ステップｇ）においては、前記スキャン画像における前記文字領域の画像が削除されるとともに、前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果に係るテキスト情報が、前記複数の部分領域のそれぞれの検出位置に表示状態で埋め込まれて、前記電子文書が生成されることを特徴とするプログラム。
請求項１２ないし請求項１６のいずれかに記載のプログラムにおいて、
前記少なくとも１つの処理は、光学文字認識処理と当該光学文字認識処理の結果に対する翻訳処理とを含む複数の処理であり、
前記ステップｇ）においては、前記スキャン画像における文字領域の画像が削除されるとともに、前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果である翻訳結果に係るテキスト情報が、前記複数の部分領域のそれぞれの検出位置に表示状態で埋め込まれて、前記電子文書が生成されることを特徴とするプログラム。
請求項１２ないし請求項１９のいずれかに記載のプログラムにおいて、
前記第２のアプリケーションは、前記画像形成装置とも前記通信端末とも異なる外部装置にインストールされていることを特徴とするプログラム。
請求項１２ないし請求項１９のいずれかに記載のプログラムにおいて、
前記第２のアプリケーションは、前記第１のアプリケーションとともに前記通信端末にインストールされていることを特徴とするプログラム。
電子文書生成システムであって、
原稿のスキャン画像を生成するとともに、第１のアプリケーションを実行することによって、前記スキャン画像に基づき電子文書を生成する画像形成装置と、
第２のアプリケーションによるサービスを提供する外部サーバと、
を備え、
前記画像形成装置は、
前記スキャン画像を生成する生成手段と、
前記スキャン画像の文字領域から複数の部分領域を抽出する抽出手段と、
前記スキャン画像内における前記複数の部分領域の位置をそれぞれ検出する検出手段と、
電子文書生成に関連する少なくとも１つの処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれに関する画像データとを、前記第１のアプリケーションから第２のアプリケーションに送出する指示送出手段と、
前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取る受取手段と、
前記各処理結果に係るテキスト情報を、前記各処理結果にそれぞれ対応する部分領域の検出位置に配置して、前記電子文書を生成する生成手段と、
を有し、
前記抽出手段は、前記文字領域における複数行のうちの注目行内において複数の小領域を抽出し、当該複数の小領域を互いに異なる部分領域として区別して前記複数の部分領域を抽出し、
前記指示送出手段は、前記複数の部分領域のそれぞれの画像データである複数の部分画像データのそれぞれに前記複数の部分領域を互いに識別するための各識別情報を画像化して付加した複数の拡張部分画像データを生成し、当該複数の拡張部分画像データのそれぞれを、前記複数の部分領域のそれぞれに関する画像データとして、前記第１のアプリケーションから前記第２のアプリケーションに送出し、
前記受取手段は、前記複数の拡張部分画像データのそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取り、
前記生成手段は、前記各処理結果からそれぞれ前記各識別情報を抽出し、前記各処理結果に対応する各部分領域を前記各識別情報に基づいてそれぞれ識別し、前記各処理結果から前記各識別情報をそれぞれ除いたテキスト情報を、識別された前記各部分領域の検出位置に配置して、前記電子文書を生成することを特徴とする電子文書生成システム。
原稿のスキャン画像を生成するとともに、第１のアプリケーションを実行することによって、前記スキャン画像に基づき電子文書を生成する画像形成装置であって、
前記スキャン画像を生成する生成手段と、
前記スキャン画像の文字領域から複数の部分領域を抽出する抽出手段と、
前記スキャン画像内における前記複数の部分領域の位置をそれぞれ検出する検出手段と、
電子文書生成に関連する少なくとも１つの処理を前記複数の部分領域のそれぞれに関して行うべき旨の指示と前記複数の部分領域のそれぞれに関する画像データとを、前記第１のアプリケーションから、外部サーバにて実行される第２のアプリケーションに送出する指示送出手段と、
前記複数の部分領域のそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取る受取手段と、
前記各処理結果に係るテキスト情報を、前記各処理結果にそれぞれ対応する部分領域の検出位置に配置して、前記電子文書を生成する生成手段と、
を備え、
前記抽出手段は、前記文字領域における複数行のうちの注目行内において複数の小領域を抽出し、当該複数の小領域を互いに異なる部分領域として区別して前記複数の部分領域を抽出し、
前記指示送出手段は、前記複数の部分領域のそれぞれの画像データである複数の部分画像データのそれぞれに前記複数の部分領域を互いに識別するための各識別情報を画像化して付加した複数の拡張部分画像データを生成し、当該複数の拡張部分画像データのそれぞれを、前記複数の部分領域のそれぞれに関する画像データとして、前記第１のアプリケーションから前記第２のアプリケーションに送出し、
前記受取手段は、前記複数の拡張部分画像データのそれぞれに関する前記少なくとも１つの処理の各処理結果を前記第２のアプリケーションから受け取り、
前記生成手段は、前記各処理結果からそれぞれ前記各識別情報を抽出し、前記各処理結果に対応する各部分領域を前記各識別情報に基づいてそれぞれ識別し、前記各処理結果から前記各識別情報をそれぞれ除いたテキスト情報を、識別された前記各部分領域の検出位置に配置して、前記電子文書を生成することを特徴とする画像形成装置。