JP6492622B2

JP6492622B2 - 文字画像処理システム、情報処理装置、および情報処理装置の制御プログラム

Info

Publication number: JP6492622B2
Application number: JP2014257750A
Authority: JP
Inventors: 鷲尾　宏司; 宏司鷲尾
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2019-04-03
Anticipated expiration: 2034-12-19
Also published as: JP2016118909A

Description

本発明は、文字画像処理システム、情報処理装置、および情報処理装置の制御プログラムに関する。より特定的には、本発明は、情報処理装置とＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）装置とを備えた文字画像処理システム、情報処理装置、および情報処理装置の制御プログラムに関する。

画像形成装置の一つであるＭＦＰ（ＭｕｌｔｉｆｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）は、スキャナー機能、ファクシミリ機能、複写機能、プリンターとしての機能、データ通信機能、およびサーバー機能を備えている。

近年のＭＦＰには、スキャンした画像データを用いてサーチャブルＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）（登録商標）を作成する機能が搭載されているものがある。サーチャブルＰＤＦとは、スキャンした原稿の画像に含まれる文字を、ＯＣＲ処理によってテキストデータ化し、そのテキストデータを原稿画像に合成することによって得られるＰＤＦファイルである。サーチャブルＰＤＦは、ベースのレイヤーと、その上にある透明レイヤーとを含んでいる。ベースのレイヤーは、ＪＰＥＧ形成などの画像データよりなっている。透明レイヤーは、ＯＣＲ処理によって得られたテキストデータよりなっている。

サーチャブルＰＤＦによれば、文書内の文字（キーワード）検索が可能である。また、文書内の文字を他のデジタル文書にコピーアンドペーストすることが可能である。したがって、文書を電子化するために、紙文書の文字をタイピングする作業が不要になる。

なお、サーチャブルＰＤＦの作成に関する技術は、たとえば下記特許文献１などに開示されている。

サーチャブルＰＤＦを作成するためには、上述のようにＯＣＲ処理が必要である。ＯＣＲ処理はＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）に大きな負荷をかける。このため、ＭＦＰでＯＣＲ処理を行う場合には、ＭＦＰの他の動作（たとえば、コピー動作、スキャン動作、プリント動作、またはファクシミリの送受信など）に支障をきたすおそれがある。

ＭＦＰは、サーチャブルＰＤＦを作成するための処理のうち、スキャンした画像データを作成する処理、文字領域を判別する処理、およびＰＤＦ画像を作成する処理を、ハードウェアによって行う。このため、ＭＦＰは、これらの処理を瞬時に行うことができる。一方、ＭＦＰはＯＣＲ処理をソフトウェアによって行う。このため、ＭＦＰはＯＣＲ処理のためにＣＰＵを長時間占有する傾向にある。

ＯＣＲ処理によるＣＰＵの長時間の占有を回避する技術は、たとえば下記特許文献２などに開示されている。下記特許文献２の技術では、ＭＦＰの稼働時に、ＯＣＲ処理による計算負荷を管理し、ＯＣＲ処理を制御する技術が開示されている。しかし、この技術は、ＯＣＲ処理以外のＭＦＰの動作を優先するためにＯＣＲ処理の優先順位を下げるものである。このため、サーチャブルＰＤＦの作成に時間を要するという問題があった。

そこで、インターネット上にある外部サーバーのＯＣＲサイトを利用する技術が提案されている。この技術は、たとえば下記特許文献３に開示されている。外部サーバーは、個人に対して提供するサービスの一つとして、記憶領域を個人に解放している。ＯＣＲサイトは、クライアント（ＭＦＰ、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、または携帯端末など）から受信した画像データを、外部サーバーに転送する。外部サーバーは、転送された画像データに対してＯＣＲ処理を行い、得られたテキストデータを記憶する。クライアントは、テキストデータを閲覧したり、取得したりすることができる。このＯＣＲサイトを利用することにより、ＯＣＲ処理によるＣＰＵの長時間の占有を回避することができる。

特開２０１２−７３７４９号公報特開２０１３−１６１２６８号公報特開２０１０−９１３１号公報

しかしながら、外部のＯＣＲサイトを利用してＯＣＲ処理を行う場合には、機密情報が漏洩しやすいという問題があった。機密情報の漏洩は、ＯＣＲサイトへ第三者が不正にアクセスすることが原因である。

通常、ＯＣＲサイトでは、ＳＳＬ（ＳｅｃｕｒｅＳｏｃｋｅｔｓＬａｙｅｒ）などを用いて、ログインのためのＩＤおよびパスワードが管理している。しかし、第三者がこれらのＩＤやパスワードをパケットスニッフィングなどの方法で盗んだ場合、第三者は、ＯＣＲサイトの外部サーバーに記憶されているの個人情報や原稿画像を閲覧したり、ダウンロードしたりすることが可能になる。また第三者は、ＯＣＲサイトの外部サーバーと個人の端末との間で送受信したデータを閲覧したり、ダウンロードしたりすることが可能になる。

本発明は、上記課題を解決するためのものであり、その目的は、機密情報の漏洩を抑止することのできる文字画像処理システム、情報処理装置、および情報処理装置の制御プログラムを提供することである。

本発明の一の局面に従う文字画像処理システムは、第１の情報処理部と、第１の情報処理部とネットワークを介して通信可能なＯＣＲ機能を有する第２の情報処理部と備えた文字画像処理システムであって、第１の情報処理部は、画像データ内の文字領域を複数の画像ブロックに分割する画像ブロック作成手段と、複数の画像ブロックの配列順序を変更する配列順序変更手段と、配列順序変更手段にて配列順序を変更した後の複数の画像ブロックの各々の間に連結用画像を挿入する挿入手段と、配列順序変更手段にて配列順序を変更した後の複数の画像ブロックに基づいて作成された暗号化画像であって、連結用画像が挿入された複数の画像ブロックを含む暗号化画像を第２の情報処理部へ送信する第１の送信手段とを含み、第２の情報処理部は、暗号化画像に対してＯＣＲ処理を行うことにより、第１のテキストデータを作成するＯＣＲ処理手段と、第１のテキストデータを含むＯＣＲ後データを第１の情報処理部に送信する第２の送信手段とを含み、第１の情報処理部はさらに、連結用画像に基づいてＯＣＲ後データを複数の文字列に分解し、連結用画像に相当する文字をＯＣＲ処理後データから削除することにより、ＯＣＲ後データに基づいて第２のテキストデータを作成する作成手段と、画像データ内の文字領域のそれぞれ対応する位置に第２のテキストデータを貼り付ける貼付手段とを含む。

上記文字画像処理システムにおいて好ましくは、第１の情報処理部は、画像データ内の文字領域を特定し、画像データ内の文字領域の座標を特定する文字領域特定手段をさらに含み、貼付手段は、座標に基づいて第２のテキストデータを貼り付ける。

上記文字画像処理システムにおいて好ましくは、貼付手段は、第２のテキストデータを、画像データの透明レイヤーにおける文字領域に対応する位置に貼り付ける。

上記文字画像処理システムにおいて好ましくは、第１の情報処理部は、セキュリティーレベルの設定を受け付けるレベル受付手段をさらに含み、画像ブロック作成手段は、レベル受付手段にて受け付けたレベルに応じて決定されたサイズの複数の画像ブロックに、文字領域を分割する。

上記文字画像処理システムにおいて好ましくは、第２の情報処理部は、第１のＯＣＲ装置と、第１のＯＣＲ装置とは別の第２のＯＣＲ装置とを含み、第１の送信手段は、暗号化画像のうち第１の部分を第１のＯＣＲ装置へ送信し、暗号化画像のうち第１の部分とは異なる第２の部分を第２のＯＣＲ装置へ送信する。

上記文字画像処理システムにおいて好ましくは、第１の情報処理部は、原稿の画像を読み取ることにより画像データを作成する画像読取手段をさらに含む。

上記文字画像処理システムにおいて好ましくは、画像ブロック作成手段は、矩形の文字領域における一つの辺の方向である第１の方向に存在する白画素を積算した個数の分布であって、第１の方向に対して垂直な第２の方向に沿った分布を抽出する第１の分布抽出手段と、矩形の文字領域における、第２の方向に存在する白画素を積算した個数の分布であって、第１の方向に沿った分布を抽出する第２の分布抽出手段と、第１および第２の分布抽出手段の各々にて抽出した分布に基づいて決定した位置で、画像データ内の文字領域を分割することにより、複数の画像ブロックを作成する分割手段とを含む。

上記文字画像処理システムにおいて好ましくは、分割手段は、第１の分布抽出手段にて抽出した分布に基づいて、行間を特定する行間特定手段と、行間特定手段にて特定した行間で文字領域を分割することにより、文字領域を複数の行に分割する行分割手段とを含み、第２の分布抽出手段は、行分割手段にて分割した複数の行の各々について、第２の方向に存在する白画素を積算した個数の分布であって、第１の方向に沿った分布を抽出し、分割手段は、第２の分布抽出手段にて抽出した分布に基づいて、文字の隙間位置を特定する隙間特定手段と、隙間特定手段にて特定した隙間位置に基づいて、境界位置を決定する境界決定手段と、境界決定手段にて決定した境界位置で、複数の行の各々を分割する列方向分割手段とさらに含む。

上記文字画像処理システムにおいて好ましくは、境界決定手段は、隙間特定手段にて特定した隙間位置のうち、隣接する他の隙間位置との間隔が閾値以上である隙間位置を、境界位置として決定する。

上記文字画像処理システムにおいて好ましくは、連結用画像は、文字認識の結果が既知であり、第１の情報処理部が予め保持している画像である。

上記文字画像処理システムにおいて好ましくは、連結用画像は文字ではない記号の画像である。

上記文字画像処理システムにおいて好ましくは、第１の情報処理部は、配列順序変更手段にて配列順序を変更する前の複数の画像ブロックの各々の順序と、配列順序変更手段にて配列順序を変更した後の複数の画像ブロックの各々の順序との関係を示す関係情報を保持する配列情報保持手段をさらに含む。

上記文字画像処理システムにおいて好ましくは、ネットワークはインターネットである。

上記文字画像処理システムにおいて好ましくは、第１の情報処理部は、原稿を光学的に読み取り可能な画像形成装置を含む。

上記文字画像処理システムにおいて好ましくは、第１の情報処理部は、画像形成装置とは別体の端末をさらに含み、第１の送信手段は、暗号化画像を端末から第２の情報処理部へ送信する。

上記文字画像処理システムにおいて好ましくは、第１の情報処理部は、光学的に読み取られた画像データに基づいて暗号化画像を生成する。

本発明の他の局面に従う情報処理装置は、ＯＣＲ装置と通信を行う情報処理装置であって、画像データ内の文字領域を複数の画像ブロックに分割する画像ブロック作成手段と、複数の画像ブロックの配列順序を変更する配列順序変更手段と、配列順序変更手段にて配列順序を変更した後の複数の画像ブロックの各々の間に連結用画像を挿入する挿入手段と、配列順序変更手段にて配列順序を変更した後の複数の画像ブロックに基づいて作成された暗号化画像であって、連結用画像が挿入された複数の画像ブロックを含む暗号化画像をＯＣＲ装置へ送信する送信手段と、暗号化画像に基づいてＯＣＲ処理を行うことにより作成された第１のテキストデータを含むＯＣＲ後データを、ＯＣＲ装置から受信する受信手段と、連結用画像に基づいてＯＣＲ後データを複数の文字列に分解し、連結用画像に相当する文字をＯＣＲ処理後データから削除することにより、ＯＣＲ後データに基づいて第２のテキストデータを作成する作成手段と、画像データ内の文字領域のそれぞれ対応する位置に第２のテキストデータを貼り付ける貼付手段とを備える。

本発明のさらに他の局面に従う情報処理装置の制御プログラムは、ＯＣＲ装置と通信を行う情報処理装置の制御プログラムであって、画像データ内の文字領域を複数の画像ブロックに分割する画像ブロック作成ステップと、複数の画像ブロックの配列順序を変更する配列順序変更ステップと、配列順序変更ステップにて配列順序を変更した後の複数の画像ブロックの各々の間に連結用画像を挿入する挿入ステップと、配列順序変更ステップにて配列順序を変更した後の複数の画像ブロックに基づいて作成された暗号化画像であって、連結用画像が挿入された複数の画像ブロックを含む暗号化画像をＯＣＲ装置へ送信する送信ステップと、暗号化画像に基づいてＯＣＲ処理を行うことにより作成された第１のテキストデータを含むＯＣＲ後データを、ＯＣＲ装置から受信する受信ステップと、連結用画像に基づいてＯＣＲ後データを複数の文字列に分解し、連結用画像に相当する文字をＯＣＲ処理後データから削除することにより、ＯＣＲ後データに基づいて第２のテキストデータを作成する作成ステップと、画像データ内の文字領域のそれぞれ対応する位置に第２のテキストデータを貼り付ける貼付ステップとをコンピューターに実行させるためのものである。

本発明によれば、機密情報の漏洩を抑止することのできる文字画像処理システム、情報処理装置、および情報処理装置の制御プログラムを提供することができる。

本発明の第１の実施の形態における文書画像処理システムの構成を概念的に示すブロック図である。本発明の第１の実施の形態における文字画像処理システムの動作の概要を示すシーケンス図である。本発明の第１の実施の形態において、タブレット端末の操作パネルに表示された画面ＳＲを模式的に示す図である。本発明の第１の実施の形態において、読取画像データＩＭに含まれる文字領域Ｌ１、Ｌ２、およびＬ３を模式的に示す図である。本発明の第１の実施の形態における、文字領域Ｌ１の画像におけるｘ方向およびｙ方向の各々の白画素の分布を模式的に示す図である。本発明の第１の実施の形態において、個数ｗ２の分布に基づいて特定された文字の隙間位置を模式的に示す図である。本発明の第１の実施の形態において、文字領域Ｌ１の画像を分割することにより得られた複数の画像ブロックＢＬを模式的に示す図である。タブレット端末が保持する分割テーブルを模式的に示す図である。本発明の第１の実施の形態においてタブレット端末が作成する番号テーブルを模式的に示す表である。本発明の第１の実施の形態において、複数の画像ブロックＢＬの各々に付けられた第１の番号を模式的に示す図である。図１０に示す複数の画像ブロックＢＬの各々に含まれる文字列を表記したものである。本発明の第１の実施の形態において、複数の画像ブロックＢＬに関する番号列テーブルを模式的に示す表である。本発明の第１の実施の形態において、第２の番号に従って配列順序を変更した後の複数の画像ブロックＢＬの各々を模式的に示す図である。本発明の第１の実施の形態において、第２の番号に従って配列順序を変更した後の複数の画像ブロックＢＬの各々の間に、連結用画像を挿入した状態を模式的に示す図である。本発明の第１の実施の形態において、文字領域Ｌ１の画像に基づいて作成された暗号化画像の一例を模式的に示す図である。本発明の第１の実施の形態において、文字領域Ｌ１の画像に基づいて作成された暗号化画像の他の例を模式的に示す図である。本発明の第１の実施の形態において、文字領域Ｌ１の画像に基づいて作成された暗号化画像のさらに他の例を模式的に示す図である。本発明の第１の実施の形態において、ＯＣＲ端末が作成したＯＣＲ後データを模式的に示す図である。本発明の第１の実施の形態において、ＯＣＲ後データを分割することによって得られた複数の文字列を模式的に示す図である。本発明の第１の実施の形態において作成された、文字領域Ｌ１内のテキストデータを模式的に示す図である。本発明の第１の実施の形態におけるテキストデータの貼り付け方法を模式的に示す図である。本発明の第１の実施の形態における文字画像処理システムの動作を示すフローチャートである。本発明の第２の実施の形態における文字画像処理システムの動作の概要を示すシーケンス図である。本発明の第２の実施の形態における暗号化マトリクスの構成を模式的に示す図である。図２４の暗号化マトリクスが示す第１の番号と第２の番号との関係を数字で示した番号テーブルである。本発明の第２の実施の形態における文字領域Ｌ１の画像を模式的に示す図である。本発明の第１の実施の形態において、文字領域Ｌ１の画像を分割することにより得られた複数の画像ブロックＢＬを模式的に示す図である。本発明の第２の実施の形態において作成された暗号化画像を模式的に示す図である。本発明の第２の実施の形態において生成されたＯＣＲ後データを模式的に示す図である。本発明の第２の実施の形態において、ＯＣＲ後データに含まれる文字を表示したバイナリエディタの画面を模式的に示す。本発明の第２の実施の形態における文字画像処理システムの動作を示すフローチャートである。本発明の変形例における文字画像処理システムの動作の概要を示すシーケンス図である。

以下、本発明の実施の形態について、図面に基づいて説明する。

以下の実施の形態では、情報処理装置（第１の情報処理部）がタブレット端末で構成されている場合について説明する。情報処理装置は、ＭＦＰ、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、携帯電話、ファクシミリ装置、プリンター、または複写機などであってもよい。ＯＣＲ装置は、ＯＣＲ処理を行うものであればよく、たとえばサーバー、ＰＣまたは携帯電話などであってもよい。

［第１の実施の形態］

（文書画像処理システムの構成）

図１は、本発明の第１の実施の形態における文書画像処理システムの構成を概念的に示すブロック図である。

図１を参照して、本実施の形態における文書画像処理システムは、ＭＦＰ１００およびタブレット端末２００（第１の情報処理部の一例）と、ＯＣＲ端末３００−１および３００−２（第２の情報処理部の一例）とを備えている。ＭＦＰ１００およびタブレット端末２００は、たとえばオフィス内のイントラネット４０１を通じて相互に接続されている。イントラネット４０１はインターネット（外部ネットワーク）４０２に接続されている。ＭＦＰ１００およびタブレット端末２００の各々は、イントラネット４０１およびインターネット４０２を通じてＯＣＲ端末３００−１および３００−２の各々と接続されている。またタブレット端末２００は、ユーザーによってオフィス外に持ち出された場合などに、たとえば中継器（図示無し）などを通じてインターネット４０２に無線接続することも可能である。

イントラネット４０１は、たとえば有線または無線のＬＡＮなどの専用回線を用いたものである。イントラネット４０１は、ＴＣＰ／ＩＰ（ＴｒａｎｓｍｉｓｓｉｏｎＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ／ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）のプロトコルを用いて各種機器を接続する。イントラネット４０１に接続された機器同士は、通信を行うことが可能となっている。

インターネット４０２は、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）を用いたものである。インターネット４０２に接続された機器同士は、通信を行うことが可能となっている。さらに、イントラネット４０１に接続された機器は、インターネット４０２に接続された機器と通信を行うことが可能となっている。

ＯＣＲ端末３００−１および３００−２の各々はインターネット４０２経由でユーザーに対してＯＣＲ処理のサービスを提供する。ユーザーは、タブレット端末２００などを通じてＯＣＲ端末３００−１および３００−２の各々が提供するサービスを受ける。

ＭＦＰ１００は、ＣＰＵ１１０と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２０と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３０と、記憶部１４０と、ネットワークＩ／Ｆ１５０と、画像読取部１６０と、ＰＤＦ作成部１７０と、文字領域抽出部１８０と、操作パネル１９０と、画像形成部１９５とを含んでいる。ＣＰＵ１１０は、ＲＯＭ１２０、ＲＡＭ１３０、記憶部１４０、ネットワークＩ／Ｆ１５０、画像読取部１６０、ＰＤＦ作成部１７０、文字領域抽出部１８０、操作パネル１９０、および画像形成部１９５の各々と相互に接続されている。

ＣＰＵ１１０は、ＭＦＰ１００全体を制御する。ＲＯＭ１２０は、ＣＰＵ１１０が実行する制御プログラムを格納する。ＲＡＭ１３０は、ＣＰＵ１１０の作業用のメモリである。記憶部１４０は、各種情報を記憶（保持）している。ネットワークＩ／Ｆ１５０は、イントラネット４０１やインターネット４０２を介して外部機器との通信を行う。画像読取部１６０は、原稿の画像を光学的に読み取る。ＰＤＦ作成部１７０は、画像読取部１６０で読み取った画像のＰＤＦファイルを作成する。文字領域抽出部１８０は、読み取った画像から、文字が表示された領域である文字領域の画像を抽出する。操作パネル１９０は、表示部、ソフトウェアキー、およびハードウェアキーなどを含んでいる。操作パネル１９０は、各種情報を表示するとともに、各種操作を受け付ける。

画像形成部１９５は、プリントジョブを実行する。画像形成部１９５は、おおまかに、トナー像形成部、定着装置、および用紙搬送部などで構成される。画像形成部１９５は、たとえば電子写真方式で用紙に画像を形成する（プリントする）。画像形成部１９５は、いわゆるタンデム方式で４色の画像を合成し、用紙にカラー画像を形成可能に構成される。トナー像形成部は、Ｃ（シアン）、Ｍ（マゼンタ）、Ｙ（イエロー）、Ｋ（ブラック）の各色について設けられた感光体と、感光体からトナー像が転写（１次転写）される中間転写ベルトと、中間転写ベルトから用紙に画像を転写（２次転写）する転写部などで構成される。定着装置は、加熱ローラーおよび加圧ローラーを有する。定着装置は、加熱ローラーと加圧ローラーとでトナー像が形成された用紙を挟みながら搬送し、その用紙に加熱及び加圧を行なう。これにより、定着装置は、用紙に付着したトナーを溶融させて用紙に定着させ、用紙に画像を形成する。用紙搬送部は、給紙ローラー、搬送ローラー、およびそれらを駆動するモーターなどで構成されている。用紙搬送部は、用紙を給紙カセットから給紙して、ＭＦＰ１００の筐体の内部で搬送する。また、用紙搬送部は、画像が形成された用紙をＭＦＰ１００の筐体から排紙トレイなどに排出する。

タブレット端末２００は、ＣＰＵ２１０と、ＲＯＭ２２０と、ＲＡＭ２３０と、記憶部２４０と、ネットワークＩ／Ｆ２５０と、操作パネル２６０と、暗号化部２７０と、暗号解読部２８０と、ＰＤＦ編集部２９０とを含んでいる。ＣＰＵ２１０は、ＲＯＭ２２０、ＲＡＭ２３０、記憶部２４０、ネットワークＩ／Ｆ２５０、操作パネル２６０、暗号化部２７０、暗号解読部２８０、およびＰＤＦ編集部２９０の各々と相互に接続されている。

ＣＰＵ２１０は、タブレット端末２００全体を制御する。ＲＯＭ２２０は、ＣＰＵ２１０が実行する制御プログラムを格納する。ＲＡＭ２３０は、ＣＰＵ２１０の作業用のメモリである。記憶部２４０は、サーチャブルＰＤＦ作成のためのソフトウェアのプログラムや、後述する分割テーブル、番号テーブル、または暗号化マトリクスなどの各種情報を記憶（保持）している。ネットワークＩ／Ｆ２５０は、イントラネット４０１やインターネット４０２を介して外部機器との通信を行う。操作パネル２６０は、各種情報を表示するとともに、各種操作を受け付ける。暗号化部２７０は、ＯＣＲ端末３００−１または３００−２に送信する文字領域の画像を暗号化する。暗号解読部２８０は、ＯＣＲ端末３００−１または３００−２から受信したデータを解読してテキストデータを作成する。ＰＤＦ編集部２９０は、画像のＰＤＦファイルに対してテキストデータを追加する。

ＯＣＲ端末３００−１および３００−２の各々は、ＯＣＲ機能を有しており、ＯＣＲ処理のサービスを提供するウェブサイトであるＯＣＲサイトを持っている。ＯＣＲ端末３００−１および３００−２の各々は、互いに異なる装置であり、別々のＯＣＲサイトを持っている。ＯＣＲ端末３００−１および３００−２の各々は、ＣＰＵ３１０と、ＲＯＭ３２０と、ＲＡＭ３３０と、記憶部３４０と、ネットワークＩ／Ｆ３５０と、ＯＣＲ処理部３６０と、暗号化部３７０と、暗号解読部３８０とを含んでいる。ＣＰＵ３１０は、ＲＯＭ３２０、ＲＡＭ３３０、記憶部３４０、ネットワークＩ／Ｆ３５０、ＯＣＲ処理部３６０、暗号化部３７０、および暗号解読部３８０の各々と相互に接続されている。

ＣＰＵ３１０は、ＯＣＲ端末全体を制御する。ＲＯＭ３２０は、ＣＰＵ３１０が実行する制御プログラムを格納する。ＲＡＭ３３０は、ＣＰＵ３１０の作業用のメモリである。記憶部３４０は、後述する暗号化マトリクスなどの各種情報を記憶（保持）している。また記憶部３４０は、ＯＣＲ処理のユーザーのための記憶領域（個人フォルダ）を有している。ネットワークＩ／Ｆ３５０は、インターネット４０２を介して外部機器との通信を行う。ＯＣＲ処理部３６０は、タブレット端末２００から受信した文字領域の画像に対してＯＣＲ処理を行うことにより、テキストデータを作成する。暗号化部３７０は、ＯＣＲ処理によって得られたデータを暗号化する。暗号解読部３８０は、タブレット端末２００から受信したデータを解読して元の文字領域の画像を作成する。

なお、文字画像処理システムが備えるタブレット端末、ＭＦＰ、およびＯＣＲ端末の各々の個数は任意である。ＭＦＰは画像読取機能を有する装置であればよい。

ＭＦＰ１００とタブレット端末２００との間は、イントラネット４０１で接続されている。このため、ＭＦＰ１００とタブレット端末２００との間で送受信される情報は、漏洩しにくい。一方、タブレット端末２００とＯＣＲ端末３００−１および３００−２の各々の間は、インターネット４０２で接続されている。このため、タブレット端末２００とＯＣＲ端末３００−１および３００−２の各々との間で送受信される情報は、漏洩しやすい。

（文字画像処理システムの動作の概要）

次に、文字画像処理システムが行うサーチャブルＰＤＦ化の動作の概要を説明する。

図２は、本発明の第１の実施の形態における文字画像処理システムの動作の概要を示すシーケンス図である。

図２を参照して、タブレット端末のユーザーは、予めＭＦＰの原稿台に原稿をセットした状態で、タブレット端末を通じてサーチャブルＰＤＦの作成指示を行う。タブレット端末は、サーチャブルＰＤＦの作成指示を受け付ける（処理ＰＲ０）。

タブレット端末は、サーチャブルＰＤＦの作成指示を受け付けると、ＭＦＰに対して原稿の画像の読み取りおよびＰＤＦファイルの送信の指示を行う（処理スタートを通知する）（処理ＰＲ１）。

ＭＦＰは、タブレット端末から指示を受け付けると、ＣＣＤイメージセンサなどを用いて原稿の画像を光学的に読み取り、Ａ／Ｄ変換によってデジタル化された読取画像データを作成する（処理ＰＲ２）。次にＭＦＰは、読取画像データ内から文字領域の画像を抽出する（処理ＰＲ３）。続いてＭＦＰは、読取画像データのＰＤＦファイルを作成する（処理ＰＲ４）。次にＭＦＰは、文字領域の画像、文字領域の座標、および読取画像データのＰＤＦファイルをタブレット端末に送信する（処理ＰＲ５）。

タブレット端末は、文字領域の画像、文字領域の座標、および読取画像データのＰＤＦファイルを受信すると、文字領域の画像を複数の画像ブロックに分割する（処理ＰＲ６）。複数の画像ブロックの各々は、複数の文字を含んでいる。次にタブレット端末は、複数の画像ブロックの配列順序を変更する（並び替える）。次にタブレット端末は、配列順序を変更した後の複数の画像ブロックの各々の間を、連結用画像を用いて連結する。これにより、暗号化画像が作成される（処理ＰＲ７）。暗号化画像は、暗号化された文字領域の画像である。続いてタブレット端末は、暗号化画像をＯＣＲ端末に送信する（処理ＰＲ８）。

ＯＣＲ端末は、暗号化画像をタブレット端末から受信すると、暗号化画像に対してＯＣＲ処理を行うことにより、ＯＣＲ後データを作成する（処理ＰＲ９）。ＯＣＲ後データは、暗号化したテキストデータである。続いてＯＣＲ端末は、作成したＯＣＲ後データをタブレット端末に送信する（処理ＰＲ１０）。

タブレット端末は、ＯＣＲ後データをＯＣＲ端末から受信すると、受信したＯＣＲ後データを、複数の画像ブロックに対応する複数の文字列に分割する。次にタブレット端末は、複数の文字列の配列順序を、複数の画像ブロックの変更前の配列順序に並べ直し、複数の文字列を結合する。これにより、文字領域の画像のテキストデータが作成される（処理ＰＲ１１）。その後タブレット端末は、文字領域の座標に基づいて、得られたテキストデータを、読取画像データのＰＤＦファイルに貼り付ける（処理ＰＲ１２）。これにより、サーチャブルＰＤＦが作成される。

本実施の形態においては、インターネット４０２上での情報漏洩を、主に下記の２つの方法で抑止する。

１．ＯＣＲ処理前の文字領域の画像を、複数の文字を含む複数の画像ブロックに区切り、複数の画像ブロックの配列順序を入れ替える。

２．ＯＣＲ処理後のテキストデータにダミー情報が混ざるよう、ＯＣＲ端末３００−１および３００−２の各々に送る複数の画像ブロックにダミーの画像（ダミーブロック）を混ぜる。

（サーチャブルＰＤＦの作成指示）

続いて、サーチャブルＰＤＦの作成指示（図２の処理ＰＲ０）について詳細に説明する。

図３は、本発明の第１の実施の形態において、タブレット端末の操作パネルに表示された画面ＳＲを模式的に示す図である。

図３を参照して、本実施の形態では、ユーザーがタブレット端末で行う操作が、サーチャブルＰＤＦ化の動作のトリガーとなる。タブレット端末の画面ＳＲは、サーチャブルＰＤＦの作成指示と、セキュリティーレベルの設定とを受け付ける画面である。画面ＳＲは、「サーチャブルＰＤＦ作成」キーＫＹ１と、「矢印」キーＫＹ２およびＫＹ３とを含んでいる。

タブレット端末は、キーＫＹ２が押下される度に、４→３→２→１という順序で、設定されているセキュリティーレベルを下げる。またタブレット端末は、キーＫＹ３が押下される度に、１→２→３→４という順序で、設定されているセキュリティーレベルを上げる。

タブレット端末は、キーＫＹ１が押下された場合に、設定されているセキュリティーレベルでのサーチャブルＰＤＦの作成を開始する。タブレット端末は、ＭＦＰに対して原稿の読み取りおよびＰＤＦの送信の指示を行う。

（文字領域の画像の抽出方法）

続いて、文字領域の画像の抽出方法（図２の処理ＰＲ３）について詳細に説明する。

図４は、本発明の第１の実施の形態において、読取画像データＩＭに含まれる文字領域Ｌ１、Ｌ２、およびＬ３を模式的に示す図である。

図４を参照して、文字領域の画像の抽出において、ＭＦＰは、読取画像データＩＭに対して領域判別処理を行う。これにより、読取画像データＩＭが、網点領域Ｎ１と、写真領域Ｐ１と、文字領域Ｌ１、Ｌ２、およびＬ３と、その他の領域Ｚ１とに分類分けされる。そしてＭＦＰは、読取画像データＩＭ内の文字領域Ｌ１、Ｌ２、およびＬ３の各々の画像を特定する。なお、文字領域の形状は任意であるが、ここでは、１ページの読取画像データＩＭの中に矩形形状の３つの文字領域Ｌ１、Ｌ２、およびＬ３が特定されたものとする。

ＭＦＰは、特定した文字領域の座標を特定する。特定される座標は、文字領域の対角線の両端の頂点の座標である。具体的には、ＭＦＰは、文字領域Ｌ１の座標として、左上の頂点の座標（ｘ１，ｙ１）と、右下の頂点の座標（ｘ１１，ｙ１１）とを特定する。ＭＦＰは、文字領域Ｌ２の座標として、左上の頂点の座標（ｘ２，ｙ２）と、右下の頂点の座標（ｘ１２，ｙ１２）とを特定する。ＭＦＰは、文字領域Ｌ３の座標として、左上の頂点の座標（ｘ３，ｙ３）と、右下の頂点の座標（ｘ１３，ｙ１３）とを特定する。なお、特定される文字領域の座標は任意のものでよい。

ＭＦＰは、文字領域Ｌ１、Ｌ２、およびＬ３の各々の画像と、文字領域Ｌ１、Ｌ２、Ｌ３の各々の座標とをタブレット端末に送信する。このとき、それぞれの文字領域の座標は、文字領域の画像ファイルのヘッダ部に格納されることが好ましい。またＭＦＰは、読取画像データＩＭ全体のＰＤＦファイルもタブレット端末に送信する。

タブレット端末に送信された文字領域Ｌ１、Ｌ２、およびＬ３の各々の画像は、以降の処理において順番に１つずつ処理される。

以降の説明では、文字領域Ｌ１の画像に関する処理を取り上げるが、文字領域Ｌ２およびＬ３の画像に対する処理も、文字領域Ｌ１の画像に対する処理と同様に行われる。

なおＭＦＰは、画像データから文字領域の画像を抽出せずに、読取画像データＩＭの画像全体を文字領域の画像としてもよい。

（文字領域の画像の分割方法）

続いて、文字領域の画像を複数の画像ブロックに分割する方法（図２の処理ＰＲ６）について詳細に説明する。

図５は、本発明の第１の実施の形態における、文字領域Ｌ１の画像におけるｘ方向およびｙ方向の各々の白画素の分布を模式的に示す図である。図５では、矩形の文字領域Ｌ１の画像における横方向に延在する辺の方向をｘ方向（第１の方向の一例）としており、文字領域Ｌ１の画像における縦方向に延在する辺の方向をｙ方向（第２の方向の一例）としている。ここでは、文字領域に日本語の文字が含まれている場合について説明するが、文字領域に日本語以外の言語の文字が含まれている場合でも同様の方法で分割することができる。

図５を参照して、文字領域Ｌ１の画像が漏洩した場合にも、第三者によって漏洩した内容が把握されないようにするために、タブレット端末は、文字領域Ｌ１の画像を複数の画像ブロックに分割する。文字領域Ｌ１の画像は、１つの画像ブロックに含まれる文字数が、文字領域Ｌ１に記載された内容を推測することができない程度の文字数の範囲内となるように分割される。また、文字領域Ｌ１の画像は、複数の画像ブロックの各々の境界位置が文字の内部とならないように分割される。境界位置が文字の内部に決定されると、その文字が２つに途切れ、途切れた文字はＯＣＲ処理において正しく認識されないためである。

ここでは、文字領域Ｌ１の画像は、白地に対して白以外の色の文字が表示された画像であるものとする。タブレット端末は、矩形の文字領域Ｌ１の画像から、ｘ方向に存在する白画素を積算した個数ｗ１の分布であって、ｙ方向に沿った分布（以降、個数ｗ１の分布と記すことがある）を抽出する。またタブレット端末は、矩形の文字領域Ｌ１の画像から、ｙ方向に存在する白画素を積算した個数ｗ２の分布であって、ｘ方向に沿った分布（以降、個数ｗ２の分布と記すことがある）を抽出する。タブレット端末は、個数ｗ１およびｗ２の各々の分布に基づいて決定した境界位置で、文字領域Ｌ１の画像を分割することにより、複数の画像ブロックを作成する。

タブレット端末は、個数ｗ１およびｗ２の各々の分布に基づいて文字領域Ｌ１に描かれた文字が縦書きか横書きかを推定する。すなわち、個数ｗ１の分布において個数ｗ１の極大値（ピーク）が周期的に現れる場合には、タブレット端末は、文字領域Ｌ１に描かれた文字が横書きであると推定する。文字領域Ｌ１に描かれた文字が横書きである場合、行間の隙間が、個数ｗ１の分布において周期的な極大値をもたらすためである。一方、個数ｗ２の分布において個数ｗ２の極大値が周期的に変動する場合には、タブレット端末は、文字領域Ｌ１に描かれた文字が縦書きであると推定する。文字領域Ｌ１に描かれた文字が縦書きである場合、列間の隙間が、個数ｗ２の分布において周期的な極大値をもたらすためである。個数ｗ１およびｗ２の各々の分布において個数ｗ１および個数ｗ２の各々が周期的に変動する場合には、タブレット端末は、文字領域Ｌ１に描かれた文字が縦書きであると推定してもよいし、横書きであると推定してもよい。

ここでは、個数ｗ１の分布において個数ｗ１の極大値が周期的に現れている。このため、タブレット端末は、文字領域Ｌ１に描かれた文字は横書きであると推定する。この場合、タブレット端末は、個数ｗ１の分布に基づいて、個数ｗ１が極大値（ピーク）となる位置を文字領域Ｌ１の画像の行間位置ＹＰとして特定する。そしてタブレット端末は、行間位置ＹＰで文字領域Ｌ１の画像を分割することにより、文字領域Ｌ１の画像を複数の行に分割する。

次にタブレット端末は、分割した複数の行の各々について個数ｗ２の分布を抽出し、個数ｗ２の分布に基づいて文字の隙間位置を特定する。隙間位置において個数ｗ２は極大値（ピーク）となる。このため、タブレット端末は、個数ｗ２の分布に基づいて、個数ｗ２が極大値となる位置を隙間位置として特定する。隙間位置は、画像ブロックの境界位置の候補となる。

図６は、本発明の第１の実施の形態において、個数ｗ２の分布に基づいて特定された文字の隙間位置を模式的に示す図である。図６では、文字の隙間位置を三角形の先端で示している。

図６を参照して、「い」、「り］、「こ」、「ふ」、または「川」などの文字は、互いに離れた複数の線によって構成されている。これらの文字では、文字の内部の位置で個数ｗ２が極大値となり、文字の内部が隙間位置として特定される。文字の内部の隙間位置が画像ブロックの境界位置となると、文字が２つに途切れ、途切れた文字はＯＣＲ処理することができなくなる。加えて、文字の内部の隙間位置が画像ブロックの境界位置となると、画像ブロックの切片から、連結されるべき他の画像ブロックが判明し、セキュリティーレベルが低下するおそれもある。画像ブロックの境界位置としては、文字の内部の隙間位置ではなく、文字同士の隙間位置が決定される必要がある。

そこでタブレット端末は、特定した隙間位置のうち、隣接する他の隙間位置との間隔が閾値以上である隙間位置を、境界位置（図６における「分割ＯＫ」の位置）として決定する。閾値としては、隣接する隙間位置同士の間隔の平均値または標準値などを採用することができる。

具体的には、タブレット端末は、複数の文字の隙間位置の各々の間隔（距離）Ｄ１を計算する。次にタブレット端末は、閾値よりも短い間隔Ｄ１が２つ以上連続している場所をマークする。タブレット端末は、マークした場所を構成する隙間位置を避けて、それ以外の部分に存在する隙間位置の中から、画像ブロックの境界位置を決定する。

図７は、本発明の第１の実施の形態において、文字領域Ｌ１の画像を分割することにより得られた複数の画像ブロックＢＬを模式的に示す図である。

図７を参照して、タブレット端末は、決定した境界位置ＸＰで、複数の行の各々を分割する。これにより、複数の画像ブロックＢＬが得られる。本実施の形態では、複数の画像ブロックＢＬの各々が文字を含むレベルで分割されているため、複数の画像ブロックＢＬの各々がＯＣＲ処理を受けた際に、画像ブロックＢＬに含まれる文字が正しく認識され易くなる。

図８は、タブレット端末が保持する分割テーブルを模式的に示す図である。

図８を参照して、分割テーブルは、セキュリティーレベルと、被分割文字数およびダミーブロック数との関係を示すテーブルである。タブレット端末は、分割テーブルを参照して、設定されたセキュリティーレベルに応じた被分割文字数およびダミーブロックの数を決定する。セキュリティーレベルとは、図３に示す画面を通じて設定されたセキュリティーレベルである。被分割文字数とは、画像ブロックのサイズ（１つの画像ブロックに含まれる文字数）である。ダミーブロックとは、複数の画像ブロックの配列順序を変更する際に挿入される、文字領域の画像とは無関係なブロックである。ダミーブロックについては後述する。

分割テーブルでは、セキュリティーレベルが高くなるほど被分割文字数が少なくなり、ダミーブロック数が多くなるように規定されている。たとえば、セキュリティーレベルが１の場合には、被分割文字数が９個であり、ダミーブロックの数が０個である。セキュリティーレベルが３の場合には、被分割文字数は５個であり、ダミーブロック数は１個である。

（複数の画像ブロックの配列順序の変更方法および連結方法）

続いて、複数の画像ブロックの配列順序の変更方法および連結方法（図２の処理ＰＲ７）について詳細に説明する。

図９は、本発明の第１の実施の形態においてタブレット端末が作成する番号テーブルを模式的に示す表である。

図９を参照して、番号テーブルは、第１の番号と第２の番号との関係を模式的に示すテーブルである。ここでは、説明の便宜のため、文字領域の画像を９個（分割数９）の画像ブロックに分割した場合を想定する。

タブレット端末は、複数の画像ブロックの各々に第１の番号を付与する。第１の番号は、配列順序を変更する前の複数の画像ブロックの各々の順序を示すものである。具体的には、タブレット端末は、複数の画像ブロックの配列順序に従って、複数の画像ブロックの各々に、第１の番号として「１」、「２」、「３」、「４」、「５」、「６」、「７」」、「８」、「９」という第１の番号を付与する。

次にタブレット端末は、第１の番号の配列順序をランダムに並び替える。並び替えの方法としては、たとえば、１〜９の乱数を発生させた後、前に使われていない番号に限って順次採用する方法などがある。ダミーブロックを挿入する場合、次にタブレット端末は、分割数よりも大きな数字（ここでは「１０」）を任意の位置に挿入する。この数字はダミーブロックに相当するものである。ダミーブロックを示す数字は分割数よりも大きいため、複数の画像ブロックと容易に区別することができる。

タブレット端末は、得られた番号列に従って、複数の画像ブロックの各々に、第２の番号を付与する。ここでは、タブレット端末は、第１の番号が「１」である画像ブロックに「３」という第２の番号が付与され、第１の番号が「２」である画像ブロックに「５」という番号が付与され、第１の番号が「３」である画像ブロックに「８」という第２の番号が付与されている。第２の番号は、配列順序を変更した後の複数の画像ブロックの配列順序（ＯＣＲ端末に送信する暗号化画像における複数の画像ブロックの配列順序）を示すものである。

タブレット端末は、複数の画像ブロックの配列順序をランダムに変更するたびに、新たな番号テーブルを作成してもよいし、予め保持していた番号テーブルを用いて、複数の画像ブロックの配列順序を変更してもよい。タブレット端末は、少なくとも文字領域の画像のテキストデータを作成するまで、番号テーブルを保持する。

図１０は、本発明の第１の実施の形態において、複数の画像ブロックＢＬの各々に付けられた第１の番号を模式的に示す図である。図１１は、図１０に示す複数の画像ブロックＢＬの各々に含まれる文字列を表記したものである。なお以降の図では、便宜上、画像ブロックの外周に黒枠を付けていることがあるが、実際には黒枠は存在しない。

図１０を参照して、ここでの分割数は５４である。タブレット端末は、文字領域Ｌ１の画像を分割することにより得られた複数の画像ブロックＢＬの各々に１〜５４の各々の第１の番号を付ける。タブレット端末は、横書きであることを想定して複数の画像ブロックＢＬの各々に第１の番号を付ける。複数の画像ブロックＢＬの各々を第１の番号に従って配列させると、図１１に示すように、文字領域Ｌ１の画像が得られ、元の意味を持つ文章が得られる。

なお、図１１中の「（２２）」、「（２３）」、「（２４）」、「（３６）」、「（５３）」、および「（５４）」と表記された画像ブロックＢＬは、いずれも空白（文字を含まない）のブロックである。これらの画像ブロックＢＬのうち、「（５３）」および「（５４）」と表記されたものは、文章の終わりの空白である。タブレット端末は、複数の画像ブロックＢＬが空白の画像ブロックを含む場合に、一部または全部の空白の画像ブロックにダミーの文字画像を挿入してもよい。

図１２は、本発明の第１の実施の形態において、複数の画像ブロックＢＬに関する番号テーブルを模式的に示す表である。図１３は、本発明の第１の実施の形態において、第２の番号に従って配列順序を変更した後の複数の画像ブロックＢＬの各々を模式的に示す図である。図１３において、複数の画像ブロックＢＬの各々には、第１の番号が表示されている。

図１２を参照して、複数の画像ブロックＢＬの各々には、第１の番号および第２の番号が付与されている。たとえば、第１の番号が「１」である画像ブロックに「２６」という第２の番号が付与されており、第１の番号が「２」である画像ブロックに「３６」という番号が付与されており、第１の番号が「３」である画像ブロックに「１６」という第２の番号が付与されている。

図１３を参照して、タブレット端末は、第１および第２の番号を付与した後で、第２の番号に従って、複数の画像ブロックＢＬの配列順序を変更する（この際、必要に応じてダミーブロックを挿入する）。その結果、第１の番号が「１」である画像ブロックＢＬ１は、２６番目の位置に配置される。第１の番号が「２」である画像ブロックＢＬ２は、３６番目の位置に配置される。第１の番号が「３」である画像ブロックＢＬ３は、１６番目の位置に配置される。

図１４は、本発明の第１の実施の形態において、第２の番号に従って配列順序を変更した後の複数の画像ブロックＢＬの各々の間に、連結用画像を挿入した状態を模式的に示す図である。なお図１４では、図１３に示す複数の画像ブロックＢＬの各々に含まれる文字列が表記されている。

図１４を参照して、タブレット端末は、配列順序を変更した後の複数の画像ブロックＢＬの各々を互いに連結することにより、暗号化画像を作成する。タブレット端末は、連結する際に、配列順序を変更した後の複数の画像ブロックＢＬの各々の間に、たとえば「＋」などの連結用画像を挿入する。連結用画像としては、任意のものを使用することができるが、ＯＣＲ端末でのＯＣＲ処理において正しく認識されるものであり、文字認識の結果が既知であるものであることが好ましい。連結用画像は、典型的には、文字ではない記号の画像である。

なお、第１の番号が「５３」である空白の画像ブロックＢＬ４および第１の番号が「５４」である空白の画像ブロックＢＬ５の各々には、「＃＃＃＃＃」というダミーの文字画像が挿入されている。ダミーの文字画像としては、任意のものを使用することができるが、ＯＣＲ処理の結果が既知である記号が表示されたものが用いられることが好ましい。

作成された暗号化画像は、文字領域Ｌ１の暗号化された画像に相当する。

（暗号化画像の送信方法）

次に、暗号化画像の送信方法（図２の処理ＰＲ８）について詳細に説明する。

図１５は、本発明の第１の実施の形態において、文字領域Ｌ１の画像に基づいて作成された暗号化画像の一例を模式的に示す図である。図１６は、本発明の第１の実施の形態において、文字領域Ｌ１の画像に基づいて作成された暗号化画像の他の例を模式的に示す図である。図１７は、本発明の第１の実施の形態において、文字領域Ｌ１の画像に基づいて作成された暗号化画像のさらに他の例を模式的に示す図である。

図１５を参照して、暗号化画像は、配列順序を変更した後の複数の画像ブロックに基づいて作成されたものであればよい。本例において、タブレット端末は、連結用画像を挿入した複数の画像ブロックを含む１枚の画像として暗号化画像ＳＤ１を作成する。この場合、タブレット端末は、１つのＯＣＲ端末３００−１（図１）に対して暗号化画像ＳＤ１を送信する。

図１６を参照して、本例において、タブレット端末は、連結用画像を挿入した複数の画像ブロックを行毎に分割することにより、各行の暗号化画像ＳＤ１〜ＳＤ９の各々を作成する。タブレット端末は、１つのＯＣＲ端末３００−１に対して暗号化画像ＳＤ１〜ＳＤ９を送信する。これにより、セキュリティーを向上することができる。

図１７を参照して、本例において、タブレット端末は、連結用画像を挿入した複数の画像ブロックを行毎に分割することにより、各行の暗号化画像ＳＤ１〜ＳＤ９の各々を作成する。タブレット端末は、２つのＯＣＲ端末に対して暗号化画像ＳＤ１〜ＳＤ９を２つに分割して送信する。タブレット端末は、たとえばＯＣＲ端末３００−１に対して上部（第１の部分の一例）の暗号化画像ＳＤ１〜ＳＤ５を送信し（図１７（ａ））、ＯＣＲ端末３００−２（図１）に対して下部（第２の部分の一例）の暗号化画像ＳＤ６〜ＳＤ９を送信する（図１７（ｂ））。これにより、セキュリティーを一層向上することができる。すなわち、万が一、一方のＯＣＲ端末に送信した暗号化画像の配列順序が第三者によって入手され、正しい配列順序に戻されたとしても、他方のＯＣＲ端末に送信された暗号化画像が入手されない限り、第三者によって文字領域の画像が完全に再現されることはない。

なお、タブレット端末が複数の暗号化画像を作成する場合、複数の暗号化画像の各々には、文字領域の画像を特定する情報と、文字領域の画像における暗号化画像の位置とを示すファイル名が付されることが好ましい。たとえば２つめの文字領域Ｌ２（図４）の画像における３行目の暗号化画像であれば、「ｒｅｇ０２ｌｉｎｅ０３．ｊｐｅｇ」などのファイル名が付されることが好ましい。

（ＯＣＲ後データの作成方法）

次に、ＯＣＲ後データの作成方法（図２の処理ＰＲ９）について説明する。

ＯＣＲ端末は、暗号化画像を受信すると、受信した暗号化画像を、ＯＣＲ端末内の個人フォルダに格納する。この個人フォルダは、タブレット端末のユーザーに事前に割り当てられたフォルダである。そしてＯＣＲ端末は、タブレット端末のソフトウェアからのコマンドを受信すると、ＯＣＲ処理を開始する。

図１８は、本発明の第１の実施の形態において、ＯＣＲ端末が作成したＯＣＲ後データを模式的に示す図である。

図１８を参照して、ＯＣＲ端末は、テキスト形式のＯＣＲ後データＯＤを作成し、ＯＣＲ後データＯＤを、暗号化画像が格納されているのと同じ個人フォルダに格納する。ＯＣＲ後データは、文字領域Ｌ１の画像のテキストデータを暗号化したものに相当する。

ＯＣＲ後データＯＤは、暗号化画像のファイル名と同じファイル名（拡張子を除く）が付与されることが好ましい。具体的には、「ｒｅｇ０２ｌｉｎｅ０３．ｊｐｅｇ」というファイル名の暗号化画像に対してＯＣＲ処理を行った場合には、ＯＣＲ後データＯＤには、「ｒｅｇ０２ｌｉｎｅ０３．ｔｘｔ」というファイル名が付与されることが好ましい。これにより、データの取り違えを抑止することができる。

ＯＣＲ端末は、ＯＣＲ処理後、ＯＣＲ処理の対象となった暗号化画像を削除する。タブレット端末は、ＯＣＲ処理完了（変換完了）の通知とともにＯＣＲ後データＯＤをタブレット端末に送信する。

なお、暗号化画像の受信、ＯＣＲ処理、およびＯＣＲ後データＯＤの送信という一連の処理を１つのＯＣＲ端末が同時に行うことがないよう、タブレット端末は管理する。これにより、データの取り違えを抑止することができる。

（文字領域の画像のテキストデータの作成方法およびテキストデータの貼り付け方法）

次に、文字領域の画像のテキストデータの作成方法（図２の処理ＰＲ１１）およびテキストデータの貼り付け方法（図２の処理ＰＲ１２）について説明する。

タブレット端末は、ＯＣＲ後データを受信すると、番号テーブルに基づいてＯＣＲ後データＯＤの配列順序を変更することにより、文字領域Ｌ１内のテキストデータを作成する。テキストデータの作成は、タブレット端末のソフトウェアを用いて行われる。

図１９は、本発明の第１の実施の形態において、ＯＣＲ後データを分割することによって得られた複数の文字列を模式的に示す図である。図２０は、本発明の第１の実施の形態において作成された、文字領域Ｌ１内のテキストデータを模式的に示す図である。

図１９を参照して、タブレット端末は、ＯＣＲ後データに含まれる「＋」という連結用画像に基づいて、ＯＣＲ後データを、分割数５４の複数の文字列ＣＳに分解する。次にタブレット端末は、番号テーブルに基づいて複数の文字列ＣＳの配列順序を元の配列順序に並べ直す。図１２に示す番号テーブルによれば、第１の番号が「１」である画像ブロックは、２６番目の位置に移動している（「２６」という第２の番号を有している）。したがって、タブレット端末は、２５番目の「＋」と２６番目の「＋」とに挟まれた２６番目の文字列ＣＳ１の配列順序を１番目に変更する。同様に、第１の番号が「２」である画像ブロックは、３６番目の位置に移動している。したがって、タブレット端末は、３５番目の「＋」と３６番目の「＋」とに挟まれた３６番目の文字列ＣＳ２の配列順序を２番目に変更する。

タブレット端末は、配列順序を元の配列順序に戻した後、必要に応じて連結用画像およびダミーブロックを削除し、ダミーの文字画像に相当する文字（ここでは「＃＃＃＃＃」）という文字）を消去する。その後タブレット端末は、複数の文字列を互いに連結し、１つの文字列とする。これにより、図２０に示すように、文字領域Ｌ１のテキストデータＴＤが作成される。

図２１は、本発明の第１の実施の形態におけるテキストデータの貼り付け方法を模式的に示す図である。

図２１を参照して、読取画像データＩＭのＰＤＦファイルは、読取画像が含まれるレイヤーであるレイヤーＬＲ１と、レイヤーＬＲ１上に設けられた透明レイヤーＬＲ２とにより構成されている。タブレット端末は、得られたテキストデータＴＤを、透明レイヤーＬＲ２における文字領域Ｌ１に対応する位置に貼り付ける。タブレット端末は、同様に、文字領域Ｌ２およびＬ３の各々の画像から得られたテキストデータを、透明レイヤーＬＲ２における文字領域Ｌ２およびＬ３の各々に対応する位置に貼り付ける。これにより、サーチャブルＰＤＦが作成される。

（文字画像処理システムの動作を示すフローチャート）

図２２は、本発明の第１の実施の形態における文字画像処理システムの動作を示すフローチャートである。

図２２を参照して、タブレット端末のＣＰＵは、セキュリティーレベルの設定および実行指示を受け付けると（Ｓ１）、ＭＦＰに対してスキャンの実行指示を送信する（Ｓ３）。

ＭＦＰのＣＰＵは、スキャンの実行指示を受信すると、原稿をスキャンし（Ｓ５）、読取画像データから文字領域の画像を抽出する（Ｓ７）。次にＭＦＰのＣＰＵは、読取画像のＰＤＦファイルを作成し（Ｓ９）、タブレット端末に対して文書領域の画像および座標、ならびに読取画像のＰＤＦファイルを送信する（Ｓ１１）。

タブレット端末のＣＰＵは、文書領域の画像などを受信すると、文字領域の画像を複数の画像ブロックに分割し（Ｓ１３）、複数の画像ブロックの配列順序を変更する（Ｓ１５）。続いてタブレット端末のＣＰＵは、必要に応じて複数の画像ブロックにダミーブロックやダミーの文字画像を挿入し、複数の画像ブロックを連結用画像で連結することにより、暗号化画像を作成する（Ｓ１７）。続いてタブレット端末のＣＰＵは、ＯＣＲ端末に対して暗号化画像を送信する（Ｓ１９）。

ＯＣＲ端末のＣＰＵは、暗号化画像に対してＯＣＲ処理を実行し（Ｓ２１）、得られたＯＣＲ後データをタブレット端末に送信する（Ｓ２３）。

タブレット端末のＣＰＵは、ＯＣＲ後データを複数の文字列に分割し、複数の文字列の配列順序を元に戻す（Ｓ２５）。次にタブレット端末のＣＰＵは、複数の文字列から連結用画像を除去し、必要に応じてダミーブロックやダミーの文字画像に対応する文字を削除することにより、テキストデータを作成する（Ｓ２７）。次にタブレット端末のＣＰＵは、読取画像のＰＤＦファイルにテキストデータを貼り付けることにより、サーチャブルＰＤＦを作成し（Ｓ２９）、処理を終了する。

［第２の実施の形態］

（文字画像処理システムの動作の概要）

本実施の形態では、始めに、文字画像処理システムが行うサーチャブルＰＤＦ化の動作の概要を説明する。

図２３は、本発明の第２の実施の形態における文字画像処理システムの動作の概要を示すシーケンス図である。

図２３を参照して、本実施の形態における文字画像処理システムの動作のうち、タブレット端末がサーチャブルＰＤＦの作成指示を受け付ける処理（図２の処理ＰＲ０）から、ＭＦＰが文字領域の画像などをタブレット端末に送信する処理（図２の処理ＰＲ５）までは、第１の実施の形態における動作（図２）と同じである。したがって、その説明は繰り返さない。

タブレット端末は、文字領域の画像、文字領域の座標、および読取画像データのＰＤＦファイルを受信すると、文字領域の画像を複数の画像ブロックに分割する。そしてタブレット端末は、暗号化マトリクス（第１の関係情報の一例）に基づいて、複数の画像ブロックの配列順序を変更する（並び替える）。これにより、暗号化画像が作成される（処理ＰＲ１１）。続いてタブレット端末は、暗号化画像と、暗号化マトリクスとをＯＣＲ端末に送信する（処理ＰＲ１２）。

ＯＣＲ端末は、暗号化画像をタブレット端末から受信すると、タブレット端末からのコマンドに従って、暗号化マトリクスに基づいて、暗号化画像を文字領域の画像に復元する（元に戻す）（処理ＰＲ１３）。次にＯＣＲ端末は、タブレット端末からのコマンドに従って、文字領域の画像に対してＯＣＲ処理を行うことにより、ＯＣＲ後データを作成する（処理ＰＲ１４）。続いてＯＣＲ端末は、タブレット端末からのコマンドに従って、作成したＯＣＲ後データを所定のバイト数を有する複数のデータ片に分割し、暗号化マトリクス（第２の関係情報の一例）に基づいて、複数のデータ片の配列順序を変更する（並び替える）。これにより、暗号化したテキストデータが作成される（処理ＰＲ１５）。次にＯＣＲ端末は、暗号化したテキストデータをタブレット端末に送信する（処理ＰＲ１６）。

タブレット端末は、暗号化したテキストデータをＯＣＲ端末から受信すると、暗号化マトリクスに基づいて、暗号化したテキストデータにおける複数のデータ片の配列順序を元に戻す。これにより、文字領域の画像のテキストデータが作成される（処理ＰＲ１７）。その後タブレット端末は、文字領域の座標に基づいて、得られたテキストデータをＰＤＦファイルに貼り付ける（処理ＰＲ１８）。これにより、サーチャブルＰＤＦが作成される。

（暗号化マトリクスの構成）

図２４は、本発明の第２の実施の形態における暗号化マトリクスの構成を模式的に示す図である。図２４では、暗号化マトリクス内の一部の要素が拡大されており、拡大された要素の濃度が数字で示されている。

図２４を参照して、タブレット端末は、暗号化マトリクスを保持している。暗号化マトリクスは、２次元の乱数テーブルであり、暗号化マトリクスは、配列順序を変更する前の複数の画像ブロックの配列順序（第１の番号）を示す座標の各々に、配列順序を変更した後の複数の画像ブロックの配列順序（第２の番号）を示す濃度の画素の各々を配置することにより作成されたものである。

図２４の暗号化マトリクスは、縦方向に１２８（＝Ｍ、Ｍは自然数）個、横方向に１２８（＝Ｎ、Ｎは自然数）個、合計１６３８４個の要素を含んでいる。

暗号化マトリクスの各要素は、１つの行で見た場合に左から右に向かって１つずつ増加する座標を有している。また暗号化マトリクスの各要素は、下の行であるほど大きい座標を有している。すなわち、ｍ行ｎ列目の要素（ｍ、ｎはｍ≦Ｍ、ｎ≦Ｎを満たす自然数）の座標は、「（ｍ−１）×Ｍ＋ｎ」と表される。暗号化マトリクスの各要素の座標は、第１の番号を示している。

また、各要素は、１６３８４（＝Ｍ×Ｎ）段階に区分された互いに異なる濃度で構成されている。要素の濃度は第２の番号を示しており、濃度が薄くなるに従って第２の番号が増加する。具体的には、最も濃度が濃い画素が「１」という第２の数字を示しており、２番目に濃度が濃い画素が「２」という第２の数字を示しており、最も濃度が薄い要素が「１６３８４」という第２の数字を示している。

図２５は、図２４の暗号化マトリクスが示す第１の番号と第２の番号との関係を数字で示した番号テーブルである。

図２４および図２５を参照して、１行１列目の要素（第１の番号が「１」である要素）は、「５６３８」番目に濃い濃度で表されている。１行２列目の要素（第１の番号が「２」である要素）は、「１２３５」番目に濃い濃度で表されている。１行３列目の要素（第１の番号が「３」である要素）は、「７５５」番目に濃い濃度で表されている。１行４列目の要素（第１の番号が「４」である要素）は、「６１７１」番目に濃い濃度で表されている。

なお、暗号化マトリクスは、ＦＭ（ＦｒｅｑｕｅｎｃｙＭｏｄｕｌａｔｉｏｎ）スクリーンのディザマトリクスを作成する技術を用いて作成することができる。

タブレット端末は、Ｍ×Ｎ＝８ａ×８ａ、８ａ×１０ａ、８ａ×１２ａ、および８ａ×１４ａ（ａ＝１〜１６程度）などの要素を持つ複数の暗号化マトリクスを予め保持しておき、文字領域の画像の大きさに従って、複数の画像ブロックの配列順序を変更する際に使用する暗号化マトリクスを選択してもよい。

タブレット端末が複数の暗号化マトリクスの中から使用する暗号化マトリクスを選択する場合、ＯＣＲ端末も同様に複数の暗号化マトリクスを予め保持しており、タブレット端末は、暗号化画像を送信する際に、選択した暗号化マトリクスを特定する情報をＯＣＲ端末に通知してもよい。またタブレット端末は、選択した暗号化マトリクスを、暗号化画像とともにＯＣＲ端末に送信してもよい。

またタブレット端末は、暗号化画像を作成する際に新たな暗号化マトリクスを作成し、作成した暗号化マトリクスを、暗号化画像とともにＯＣＲ端末に送信してもよい。

（暗号化画像の作成方法）

次に、暗号化画像の作成方法（図２３の処理ＰＲ１１）について説明する。

図２６は、本発明の第２の実施の形態における文字領域Ｌ１の画像を模式的に示す図である。図２７は、本発明の第１の実施の形態において、文字領域Ｌ１の画像を分割することにより得られた複数の画像ブロックＢＬを模式的に示す図である。

図２６および図２７を参照して、タブレット端末は、複数の画像ブロックＢＬの各々が、文字領域中の文字よりも小さいサイズを有するように、文字領域Ｌ１の画像を複数の画像ブロックＢＬに分割する。ここでは、ＳＸ個×ＳＹ個の画素よりなる文字領域Ｌ１の画像が、ＢＸ（ＢＹは自然数）個×ＢＹ（ＢＹは自然数）個の画素を持つ複数の画像ブロックＢＬに分割されるものとする。

タブレット端末は、Ｍ個×Ｎ個（暗号化マトリクスの縦方向および横方向の要素の数）の画像ブロックで文字領域Ｌ１の画像全体がカバーされるように、画像ブロックのサイズ（ＢＸおよびＢＹの値）を決定する。言い換えれば、タブレット端末は、ＳＸ≦Ｍ×ＢＸ、ＳＹ≦Ｎ×ＢＹを満たす最小のＢＸおよびＢＹを決定する。

なお、画像ブロックのサイズ（ＢＸ個×ＢＹ個）は、ＢＸ＝ｘ×ｓｆ（個）、ＢＹ＝ｙ×ｓｆ（個）と表記される。この表記方法は、１つの画像ブロックが、ｘ×ｙ＝１×１、１×２、１×３、または１×４・・・という矩形に対して、スケールファクターｓｆ（ｓｆ＝自然数）を乗じることにより得られる形状を有することを意味している。

画像ブロックのサイズは、セキュリティーレベルに応じて決定される。すなわち、セキュリティーレベルが高くなるほど、画像ブロックのサイズは小さくなる。画像ブロックのサイズが小さくなるほど、画像ブロックの絵柄に基づいて画像ブロック同士をつなぎ合わせることは困難となり、セキュリティーを向上することができる。

図２７では、文字領域Ｌ１の画像が、１７９２個×８９６個の画素により構成されており、文字領域Ｌ１の画像が、１４個×７個（＝ＢＸ個×ＢＹ個）の画素よりなる複数の画像ブロックに分割されている。この場合には、１つの文字が、およそ３個×６個＝１８個の画像ブロックに分割されている。この場合には、隣接した２つの文字の部分が１つの画像ブロックに含まれる可能性が低い。したがって、１つの画像ブロックから文字同士の配列順序を推測することは不可能である。

図２８は、本発明の第２の実施の形態において作成された暗号化画像を模式的に示す図である。

図２８を参照して、次にタブレット端末は、暗号化マトリクスに基づいて、複数の画像ブロックＢＬの配列順序を変更し、配列順序を変更した後の数の画像ブロックの各々を結合する。これにより、暗号化画像ＳＤが作成される。暗号化画像ＳＤは、文字が含まれているか否かさえ判断することができないものになっている。タブレット端末は、暗号化画像ＳＤをＯＣＲ端末に送信する。なお、タブレット端末は、配列順序を変更した後の数の画像ブロックの各々を結合せずに、変更後の配列順序でＯＣＲ端末に順次送信してもよい。

（暗号化したテキストデータの作成方法）

次に、暗号化したテキストデータの作成方法（図２３の処理ＰＲ１５）について説明する。

図２９は、本発明の第２の実施の形態において生成されたＯＣＲ後データを模式的に示す図である。

図２９を参照して、ＯＣＲ端末は、ＯＣＲ端末に予めインストールされていたソフトウェアを用いて、暗号化マトリクスに基づいて、受信した暗号化画像の複数の画像ブロックの配列順序を元に戻す。これにより、元の文字領域Ｌ１の画像が復元される。そしてＯＣＲ端末は、復元した画像に対してＯＣＲ処理を行う。これにより、ＯＣＲ後データＯＤが作成される。作成されたＯＣＲ後データは、文字領域Ｌ１の画像に含まれる文字のテキストデータである。

なお、ＯＣＲ端末は、タブレット端末が保持している暗号化マトリクスと同一の暗号化マトリクスを予め保持していてもよい。またタブレット端末は、暗号化画像とともに暗号化マトリクスをＯＣＲ端末に送信してもよい。

図３０は、本発明の第２の実施の形態において、ＯＣＲ後データに含まれる文字を表示したバイナリエディタの画面を模式的に示す。

図３０を参照して、次にＯＣＲ端末は、ＯＣＲ後データを所定のデータ量を有する複数のデータ片に分割し、暗号化マトリクスに基づいて、複数のデータ片の配列順序を変更する。

具体的には、ＯＣＲ端末は、ＯＣＲ後データに含まれる文字をバイナリエディタの画面ＢＳに表示させる。画面ＢＳは、領域ＲＧ１と領域ＲＧ２とを含んでいる。領域ＲＧ１は、ＯＣＲ後データに含まれる文字が表示される領域である。領域ＲＧ２は、ＯＣＲ後データに含まれる文字に対応する、Ｓｈｉｆｔ−ＪＩＳ形式の２バイトのバイナリーコードが表示される領域である。

ＯＣＲ端末は、領域ＲＧ２に表示されたバイナリーコードを所定のデータ量を有する複数のデータ片に分割する。複数のデータ片の各々のデータ量は、奇数バイト（たとえば１バイトまたは３バイト）であることが好ましい。これにより、複数のデータ片の各々が文字単位で分割されたものとなることが回避され、データ片に含まれるバイナリーコードから文字が解読されることを抑止することができる。

図３０では、ＯＣＲ後データに含まれる「［従来技術・・・」という文字が、「８１７９８Ｆ５Ｄ９７８８８Ｂ５Ａ・・・」というバイナリーコードに対応している。「［」という文字は「８１７９」というバイナリーコードに対応する（なお、［は図面では隅付き括弧）。「従」という文字は「８Ｆ５Ｄ」というバイナリーコードに対応する。「来」という文字は「９７８８」というバイナリーコードに対応する。「技」という文字は「８Ｂ５Ａ」というバイナリーコード対応する。「術」という文字は「８Ｆ７０」というバイナリーコードに対応する。

１バイト単位のデータ片に分割する場合、ＯＣＲ端末は、領域ＲＧ２に表示されたバイナリーコードを「８１」、「７９」、「８Ｆ」、および「５Ｄ」・・・という複数のデータ片に分割し、バイナリーコードの配列順序に従って第１の番号を付与する。

３バイト単位のデータ片に分割する場合、ＯＣＲ端末は、領域ＲＧ２に表示されたバイナリーコードを「８１７９８Ｆ」、「５Ｄ９７８８」、および「８Ｂ５Ａ８Ｆ」・・・という複数のデータ片に分割し、バイナリーコードの配列順序に従って第１の番号を付与する。

次にＯＣＲ端末は、暗号化マトリクスに基づいて、複数のデータ片の配列順序を変更する。これにより、暗号化したテキストデータが作成される。ＯＣＲ端末は、暗号化したテキストデータをタブレット端末に送信する。

ＯＣＲ端末は、複数の暗号化マトリクスを予め保持しておき、ＯＣＲ後データに含まれる文字の総数に従って、複数のデータ片の配列順序を変更する際に使用する暗号化マトリクスを選択してもよい。

ＯＣＲ端末が複数の暗号化マトリクスの中から使用する暗号化マトリクスを選択する場合、タブレット端末も同様に複数の暗号化マトリクスを予め保持しており、ＯＣＲ端末は、暗号化したテキストデータを送信する際に、選択した暗号化マトリクスを特定する情報をタブレット端末に通知してもよい。またＯＣＲ端末は、選択した暗号化マトリクスを、暗号化したテキストデータとともにタブレット端末に送信してもよい。

またＯＣＲ端末は、暗号化したテキストデータを作成する際に新たな暗号化マトリクスを作成し、作成した暗号化マトリクスを、暗号化したテキストデータとともにタブレット端末に送信してもよい。

さらにＯＣＲ端末は、複数のデータ片の配列順序を変更する際に用いる暗号化マトリクスとして、暗号化画像を文字領域Ｌ１の画像に復元する際に用いた暗号化マトリクスと同一のものを用いてもよいし、異なるものを用いてもよい。

なお、本実施の形態における文字画像処理システムの構成および上述以外の動作は、第１の実施の形態における文字画像処理システムの構成および動作と同様であるため、その説明は繰り返さない。

（文字画像処理システムの動作を示すフローチャート）

図３１は、本発明の第２の実施の形態における文字画像処理システムの動作を示すフローチャートである。

図３１を参照して、文字画像処理システムは、始めに図２２に示すフローチャートにおけるステップＳ１〜ステップＳ１３の処理を行う。

ステップＳ１３の処理に続いて、タブレット端末のＣＰＵは、暗号化マトリクスに基づいて、複数の画像ブロックの配列順序を変更することにより、暗号化画像を作成する（Ｓ１０１）。次にタブレット端末のＣＰＵは、暗号化画像をＯＣＲ端末に送信する（Ｓ１０３）。

ＯＣＲ端末のＣＰＵは、暗号化画像を受信すると、暗号化マトリクスに基づいて、複数の画像ブロックの配列順序を元に戻すことにより、元の文字領域の画像を復元する（Ｓ１０５）。次にＯＣＲ端末のＣＰＵは、文字領域の画像に対してＯＣＲ処理を実行し（Ｓ１０７）、得られたＯＣＲ後データを複数のデータ片に分割する（Ｓ１０９）。続いてＯＣＲ端末のＣＰＵは、暗号化マトリクスに基づいて、複数のデータ片の配列順序を変更することにより、暗号化したテキストデータを作成する（Ｓ１１１）。次にＯＣＲ端末のＣＰＵは、暗号化したテキストデータをタブレット端末に送信する（Ｓ１１３）。

タブレット端末は、暗号化したテキストデータを受信すると、暗号化マトリクスに基づいて複数のデータ片の配列順序を元に戻すことにより、テキストデータを復元（作成）する（Ｓ１１５）。次にタブレット端末のＣＰＵは、読取画像のＰＤＦファイルにテキストデータを貼り付けることにより、サーチャブルＰＤＦを作成し（Ｓ１１７）、処理を終了する。

［実施の形態の効果］

上述の実施の形態によれば、ＯＣＲサイトを利用してＯＣＲ処理を行う場合に、タブレット端末は、ＯＣＲ端末に対して、ＯＣＲ処理の対象となる文字領域の画像の暗号化画像をＯＣＲサイトに送信する。またＯＣＲ端末は、タブレット端末に対して、文字領域の画像の暗号化したテキストデータを送信する。これにより、機密情報の漏洩を防止することができ、外部のＯＣＲサイトでのＯＣＲ処理のセキュリティー性を高めることができる。

また、ＯＣＲサイトを利用してサーチャブルＰＤＦを作成する場合には、画像データ内の文字領域の座標に基づいて、テキストデータを貼り付けることにより、サーチャブルＰＤＦを作成することができる。

特に第１の実施の形態によれば、文字同士の隙間位置で画像データを分割することにより、複数の画像ブロックが作成され、作成した複数の画像ブロックの配列順序を変更することにより、暗号化画像が作成される。また、ＯＣＲ処理によって得られたテキストデータは、暗号化されてタブレット端末に送信される。これにより、万が一、暗号化画像が第三者によって不正に入手された場合であっても、第三者は元の画像データに含まれる文字列を把握することが困難になる。また、複数の画像ブロックの各々には文字が含まれているため、ＯＣＲ処理の正確性が向上する。

特に第２の実施の形態によれば、画像データ中の文字よりも小さいサイズを有する複数の画像ブロックに画像データを分割することにより、複数の画像ブロックが作成され、作成した複数の画像ブロックの配列順序を変更することにより、暗号化画像が作成される。また、ＯＣＲ処理によって得られたテキストデータは、暗号化されてタブレット端末に送信される。これにより、万が一、暗号化画像が第三者によって不正に入手された場合であっても、第三者は画像データに含まれる文字さえも把握することが困難になる。

［その他］

図３２は、本発明の変形例における文字画像処理システムの動作の概要を示すシーケンス図である。

図３２を参照して、本変形例においては、上述の第１の実施の形態におけるタブレット端末が行う各処理をＭＦＰが行う。文字画像処理システムは、タブレット端末を備えておらず、ＭＦＰ（情報処理装置の一例）とＯＣＲ端末とのみを備えている。本変形例における文字画像処理システムの動作について、以下に説明する。

ＭＦＰのユーザーは、予めＭＦＰの原稿台に原稿をセットした状態で、ＭＦＰの操作パネルを通じてサーチャブルＰＤＦの作成指示を行う。ＭＦＰは、サーチャブルＰＤＦの作成指示を受け付ける（処理ＰＲ０）。

ＭＦＰは、サーチャブルＰＤＦの作成指示を受け付けると、原稿の画像を光学的に読み取り、読取画像データを作成する（処理ＰＲ２）。次にＭＦＰは、読取画像データから文字領域の画像を抽出する（処理ＰＲ３）。続いてＭＦＰは、読取画像データのＰＤＦファイルを作成する（処理ＰＲ４）。次にＭＦＰは、文字領域の画像を複数の画像ブロックに分割する（処理ＰＲ６）。次にＭＦＰは、複数の画像ブロックの配列順序を変更する。次にＭＦＰは、配列順序を変更した後の複数の画像ブロックの各々の間を、連結記号を用いて連結し、暗号化画像を作成する（処理ＰＲ７）。続いてＭＦＰは、暗号化画像をＯＣＲ端末に送信する（処理ＰＲ８）。

ＯＣＲ端末は、暗号化画像をＭＦＰから受信すると、暗号化画像に対してＯＣＲ処理を行うことにより、ＯＣＲ後データを作成する（処理ＰＲ９）。続いてＯＣＲ端末は、作成したＯＣＲ後データをＭＦＰに送信する（処理ＰＲ１０）。

ＭＦＰは、ＯＣＲ後データをＯＣＲ端末から受信すると、受信したＯＣＲ後データを、画像ブロックの単位の複数の文字列に分割する。次にＭＦＰは、複数の文字列の配列順序を、複数の画像ブロックの変更前の配列順序に並べ直し、複数の文字列を結合する。これにより、文字領域の画像のテキストデータが作成される（処理ＰＲ１１）。その後ＭＦＰは、文字領域の座標に基づいて、得られたテキストデータをＰＤＦファイルに貼り付ける（処理ＰＲ１２）。これにより、サーチャブルＰＤＦが作成される。

同様に、上述の第２の実施の形態におけるタブレット端末が行う各動作をＭＦＰが行うことにより、タブレット端末が省略されてもよい。

本発明の処理の対象となる画像データは、ＰＤＦ形式のものに限られるものではない。本発明は、あらゆる形式の画像データに対してＯＣＲ処理を行う際に適用することができる。ＯＣＲ処理の対象となる画像データは、原稿を読み取った読取画像データである場合の他、情報処理装置が保持している画像データであってもよい。

上述の実施の形態は互いに組み合わせることができる。たとえば、第１の実施の形態において、第２の実施の形態と同様の方法で、ＯＣＲ処理によって得られたＯＣＲ後データを、第２の実施の形態と同様の方法で複数のデータ片に分割して、タブレット端末に送信してもよい。また、第１の実施の形態において、第２の実施の形態のような暗号化マトリクスを用いて第１の番号と第２の番号との関係を記録してもよいし、第２の実施の形態において、第１の実施の形態のような番号テーブルを用いて第１の番号と第２の番号との関係を記録してもよい。

上述の実施の形態における処理は、ソフトウェアにより行なっても、ハードウェア回路を用いて行なってもよい。また、上述の実施の形態における処理を実行するプログラムを提供することもできるし、そのプログラムをＣＤ−ＲＯＭ、フレキシブルディスク、ハードディスク、ＲＯＭ、ＲＡＭ、メモリカードなどの記録媒体に記録してユーザーに提供することにしてもよい。プログラムは、ＣＰＵなどのコンピューターにより実行される。また、プログラムはインターネットなどの通信回線を介して、装置にダウンロードするようにしてもよい。

上述の実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１００ＭＦＰ（ＭｕｌｔｉｆｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）
１１０，２１０，３１０ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）
１２０，２２０，３２０ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）
１３０，２３０，３３０ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）
１４０，２４０，３４０記憶部
１５０，２５０，３５０ネットワークＩ／Ｆ
１６０画像読取部
１７０ＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）作成部
１８０文字領域抽出部
１９０操作パネル
１９５画像形成部
２００タブレット端末
２６０操作パネル
２７０，３７０暗号化部
２８０，３８０暗号解読部
２９０ＰＤＦ編集部
３００−１，３００−２ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）端末
３６０ＯＣＲ処理部
４０１イントラネット
４０２インターネット
ＢＬ，ＢＬ１，ＢＬ２，ＢＬ３，ＢＬ４，ＢＬ５画像ブロック
ＢＳバイナリエディタの画面
ＣＳ，ＣＳ１，ＣＳ２文字列
Ｄ１複数の文字の隙間位置の各々の間隔（距離）
ＩＭ読取画像データ
ＫＹ１，ＫＹ２，ＫＹ３キー
Ｌ１，Ｌ２，Ｌ３文字領域
ＬＲ１レイヤー
ＬＲ２透明レイヤー
Ｎ１網点領域
ＯＤＯＣＲ後データ
Ｐ１写真領域
ＲＧ１，ＲＧ２バイナリエディタの画面内の領域
ＳＤ，ＳＤ１，ＳＤ２，ＳＤ３，ＳＤ４，ＳＤ５，ＳＤ６，ＳＤ７，ＳＤ８，ＳＤ９暗号化画像
ＳＲタブレットの操作パネルに表示された画面
ＴＤテキストデータ
ＸＰ境界位置
ＹＰ行間位置
Ｚ１その他の領域

Claims

第１の情報処理部と、前記第１の情報処理部とネットワークを介して通信可能なＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）機能を有する第２の情報処理部と備えた文字画像処理システムであって、
前記第１の情報処理部は、
画像データ内の文字領域を複数の画像ブロックに分割する画像ブロック作成手段と、
前記複数の画像ブロックの配列順序を変更する配列順序変更手段と、
前記配列順序変更手段にて配列順序を変更した後の前記複数の画像ブロックの各々の間に連結用画像を挿入する挿入手段と、
前記配列順序変更手段にて配列順序を変更した後の前記複数の画像ブロックに基づいて作成された暗号化画像であって、前記連結用画像が挿入された前記複数の画像ブロックを含む暗号化画像を前記第２の情報処理部へ送信する第１の送信手段とを含み、
前記第２の情報処理部は、
前記暗号化画像に対してＯＣＲ処理を行うことにより、第１のテキストデータを作成するＯＣＲ処理手段と、
前記第１のテキストデータを含むＯＣＲ後データを前記第１の情報処理部に送信する第２の送信手段とを含み、
前記第１の情報処理部はさらに、
前記連結用画像に基づいて前記ＯＣＲ後データを複数の文字列に分解し、前記連結用画像に相当する文字を前記ＯＣＲ処理後データから削除することにより、前記ＯＣＲ後データに基づいて第２のテキストデータを作成する作成手段と、
前記画像データ内の文字領域のそれぞれ対応する位置に前記第２のテキストデータを貼り付ける貼付手段とを含む、文字画像処理システム。
前記第１の情報処理部は、前記画像データ内の文字領域を特定し、画像データ内の前記文字領域の座標を特定する文字領域特定手段をさらに含み、
前記貼付手段は、前記座標に基づいて前記第２のテキストデータを貼り付ける、請求項１に記載の文字画像処理システム。
前記貼付手段は、前記第２のテキストデータを、前記画像データの透明レイヤーにおける前記文字領域に対応する位置に貼り付ける、請求項２に記載の文字画像処理システム。
前記第１の情報処理部は、セキュリティーレベルの設定を受け付けるレベル受付手段をさらに含み、
前記画像ブロック作成手段は、前記レベル受付手段にて受け付けたレベルに応じて決定されたサイズの前記複数の画像ブロックに、前記文字領域を分割する、請求項１〜３のいずれかに記載の文字画像処理システム。
前記第２の情報処理部は、第１のＯＣＲ装置と、前記第１のＯＣＲ装置とは別の第２のＯＣＲ装置とを含み、
前記第１の送信手段は、前記暗号化画像のうち第１の部分を前記第１のＯＣＲ装置へ送信し、前記暗号化画像のうち前記第１の部分とは異なる第２の部分を前記第２のＯＣＲ装置へ送信する、請求項１〜４のいずれかに記載の文字画像処理システム。
前記第１の情報処理部は、原稿の画像を読み取ることにより前記画像データを作成する画像読取手段をさらに含む、請求項１〜５のいずれかに記載の文字画像処理システム。
前記画像ブロック作成手段は、
矩形の前記文字領域における一つの辺の方向である第１の方向に存在する白画素を積算した個数の分布であって、前記第１の方向に対して垂直な第２の方向に沿った分布を抽出する第１の分布抽出手段と、
矩形の前記文字領域における、前記第２の方向に存在する白画素を積算した個数の分布であって、前記第１の方向に沿った分布を抽出する第２の分布抽出手段と、
前記第１および前記第２の分布抽出手段の各々にて抽出した分布に基づいて決定した位置で、前記画像データ内の文字領域を分割することにより、前記複数の画像ブロックを作成する分割手段とを含む、請求項１〜６のいずれかに記載の文字画像処理システム。
前記分割手段は、
前記第１の分布抽出手段にて抽出した分布に基づいて、行間を特定する行間特定手段と、
前記行間特定手段にて特定した行間で前記文字領域を分割することにより、前記文字領域を複数の行に分割する行分割手段とを含み、
前記第２の分布抽出手段は、前記行分割手段にて分割した前記複数の行の各々について、前記第２の方向に存在する白画素を積算した個数の分布であって、前記第１の方向に沿った分布を抽出し、
前記分割手段は、
前記第２の分布抽出手段にて抽出した分布に基づいて、文字の隙間位置を特定する隙間特定手段と、
前記隙間特定手段にて特定した隙間位置に基づいて、境界位置を決定する境界決定手段と、
前記境界決定手段にて決定した境界位置で、前記複数の行の各々を分割する列方向分割手段とさらに含む、請求項７に記載の文字画像処理システム。
前記境界決定手段は、前記隙間特定手段にて特定した隙間位置のうち、隣接する他の隙間位置との間隔が閾値以上である隙間位置を、境界位置として決定する、請求項８に記載の文字画像処理システム。
前記連結用画像は、文字認識の結果が既知であり、前記第１の情報処理部が予め保持している画像である、請求項１〜９のいずれかに記載の文字画像処理システム。
前記連結用画像は文字ではない記号の画像である、請求項１０に記載の文字画像処理システム。
前記第１の情報処理部は、前記配列順序変更手段にて配列順序を変更する前の前記複数の画像ブロックの各々の順序と、前記配列順序変更手段にて配列順序を変更した後の前記複数の画像ブロックの各々の順序との関係を示す関係情報を保持する配列情報保持手段をさらに含む、請求項１〜１１のいずれかに記載の文字画像処理システム。
前記ネットワークはインターネットである、請求項１〜１２のいずれかに記載の文字画像処理システム。
前記第１の情報処理部は、原稿を光学的に読み取り可能な画像形成装置を含む、請求項１〜１３のいずれかに記載の文字画像処理システム。
前記第１の情報処理部は、前記画像形成装置とは別体の端末をさらに含み、
前記第１の送信手段は、前記暗号化画像を前記端末から前記第２の情報処理部へ送信する、請求項１４に記載の文字画像処理システム。
前記第１の情報処理部は、光学的に読み取られた画像データに基づいて前記暗号化画像を生成する、請求項１〜１５のいずれかに記載の文字画像処理システム。
ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）装置と通信を行う情報処理装置であって、
画像データ内の文字領域を複数の画像ブロックに分割する画像ブロック作成手段と、
前記複数の画像ブロックの配列順序を変更する配列順序変更手段と、
前記配列順序変更手段にて配列順序を変更した後の前記複数の画像ブロックの各々の間に連結用画像を挿入する挿入手段と、
前記配列順序変更手段にて配列順序を変更した後の前記複数の画像ブロックに基づいて作成された暗号化画像であって、前記連結用画像が挿入された前記複数の画像ブロックを含む暗号化画像を前記ＯＣＲ装置へ送信する送信手段と、
前記暗号化画像に基づいてＯＣＲ処理を行うことにより作成された第１のテキストデータを含むＯＣＲ後データを、前記ＯＣＲ装置から受信する受信手段と、
前記連結用画像に基づいて前記ＯＣＲ後データを複数の文字列に分解し、前記連結用画像に相当する文字を前記ＯＣＲ処理後データから削除することにより、前記ＯＣＲ後データに基づいて第２のテキストデータを作成する作成手段と、
前記画像データ内の文字領域のそれぞれ対応する位置に前記第２のテキストデータを貼り付ける貼付手段とを備えた、情報処理装置。
ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）装置と通信を行う情報処理装置の制御プログラムであって、
画像データ内の文字領域を複数の画像ブロックに分割する画像ブロック作成ステップと、
前記複数の画像ブロックの配列順序を変更する配列順序変更ステップと、
前記配列順序変更ステップにて配列順序を変更した後の前記複数の画像ブロックの各々の間に連結用画像を挿入する挿入ステップと、
前記配列順序変更ステップにて配列順序を変更した後の前記複数の画像ブロックに基づいて作成された暗号化画像であって、前記連結用画像が挿入された前記複数の画像ブロックを含む暗号化画像を前記ＯＣＲ装置へ送信する送信ステップと、
前記暗号化画像に基づいてＯＣＲ処理を行うことにより作成された第１のテキストデータを含むＯＣＲ後データを、前記ＯＣＲ装置から受信する受信ステップと、
前記連結用画像に基づいて前記ＯＣＲ後データを複数の文字列に分解し、前記連結用画像に相当する文字を前記ＯＣＲ処理後データから削除することにより、前記ＯＣＲ後データに基づいて第２のテキストデータを作成する作成ステップと、
前記画像データ内の文字領域のそれぞれ対応する位置に前記第２のテキストデータを貼り付ける貼付ステップとをコンピューターに実行させるための、情報処理装置の制御プログラム。