JP2019008697A

JP2019008697A - 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム

Info

Publication number: JP2019008697A
Application number: JP2017126018A
Authority: JP
Inventors: 貴久松永; Takahisa Matsunaga
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2019-01-17

Abstract

【課題】ＯＣＲとＩＣＲを効率的に組み合わせて紙文書から適切に電子文書を作成する。【解決手段】印刷文字と手書き文字とが混在する紙文書から電子文書を作成する装置で、紙文書をスキャンしてスキャンデータを取得し、取得したスキャンデータを解析して、印刷文字及び手書き文字の各々をオブジェクトとして抽出し、抽出したオブジェクトの配置情報を取得し、予め記憶したアプリケーション毎のレイアウト構成の特徴情報と比較して、取得した配置情報に対応するアプリケーションを特定し、特定したアプリケーションの特徴情報に基づいて文字認識手法を決定し、決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行し、文字認識結果に基づいて電子文書を作成し、作成した電子文書を出力する。【選択図】図５

Description

本発明は、電子文書作成装置、電子文書作成方法及び電子文書作成プログラムに関し、特に、ＯＣＲ（Optical character recognition）とＩＣＲ（Intelligent Character Recognition）とを組み合わせて紙文書から電子文書を作成する電子文書作成装置、電子文書作成方法及び電子文書作成プログラムに関する。

現在、紙文書を電子化する手法として、ＯＣＲ（Optical character recognition）とＩＣＲ（Intelligent Character Recognition）とが存在する。ＯＣＲは印刷文字を対象とした文字認識手法であり、ＩＣＲは手書き文字を対象とした文字認識手法である。これらはそれぞれの目的に特化した構成となっており、手書き文字をＯＣＲで、印刷文字をＩＣＲで電子化しようとしても認識精度が落ちてしまい、適切に文字を認識することができないという問題がある。

ＯＣＲによる手書き文字の認識精度を向上させる技術に関して、例えば、下記特許文献１には、活字と手書き文字が混在した文書データを活字部と手書き部とに分離する分離処理部と、前記活字部を文字認識する活字部認識処理部と、前記活字部の文字認識結果を利用して前記手書き部を文字認識する手書き部認識処理部とを備えた文字認識装置が開示されている。

また、印刷文字、手書き文字それぞれの認識精度を向上させる技術に関して、例えば、下記特許文献２には、文字データを印刷文字として認識処理を行う印刷文字認識手段と、文字データを手書き文字として認識処理を行う手書き文字認識手段と、文書等に記載された文字を読み取るとともに文字データに変換する文字読み取り手段と、この文字読み取り手段からの文字データを前記印刷文字認識手段と前記手書き文字認識手段に同時に出力する文字データ出力手段とを備え、前記印刷文字認識手段での認識結果と前記手書き文字認識手段での認識結果に基づいていずれかを選択する認識結果選択手段を装備した光学式文字読み取り装置が開示されている。

特開２００６−０９２０２７号公報特開平０７−０３７０３４号公報

印刷文字と手書き文字とが混在している紙文書を電子化する場合、特許文献１では、画像データ内の画素の濃淡および文字色に基づいて活字部と手書き部とを分離しているが、このような画素情報に基づく分離方法では活字部と手書き部の正確な切り分けができるとは限らず、手書き文字を適切に認識することができない。

また、特許文献２では、ＯＣＲとＩＣＲの両方で文字認識処理を行い、両方の処理結果のうち、認識精度の高かった方を出力として採用しているが、この方法では、ＯＣＲ又はＩＣＲ単体で文字認識処理を行う場合と比べて、２倍前後の処理時間がかかるという問題がある。

本発明は、上記問題点に鑑みてなされたものであって、その主たる目的は、ＯＣＲとＩＣＲを効率的に組み合わせて紙文書から適切に電子文書を作成することができる電子文書作成装置、電子文書作成方法及び電子文書作成プログラムを提供することにある。

本発明の一側面は、印刷文字と手書き文字とが混在する紙文書から電子文書を作成する電子文書作成装置であって、前記紙文書をスキャンしたスキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する解析部と、前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定するアプリケーション特定部と、前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する文字認識部と、文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する電子文書作成部と、を備えることを特徴とする。

本発明の一側面は、印刷文字と手書き文字とが混在する紙文書から電子文書を作成する電子文書作成システムにおける電子文書作成方法であって、前記紙文書をスキャンしてスキャンデータを取得する第１処理と、前記スキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する第２処理と、前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定する第３処理と、前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する第４処理と、文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する第５処理と、を実行することを特徴とする。

本発明の一側面は、印刷文字と手書き文字とが混在する紙文書から電子文書を作成する装置で動作する電子文書作成プログラムであって、前記装置に、前記紙文書をスキャンしたスキャンデータを取得する第１処理、前記スキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する第２処理、前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定する第３処理、前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する第４処理、文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する第５処理、を実行させることを特徴とする。

本発明の電子文書作成装置、電子文書作成方法及び電子文書作成プログラムによれば、ＯＣＲとＩＣＲを効率的に組み合わせて紙文書から適切に電子文書を作成することができる。

その理由は、印刷文字と手書き文字とが混在する紙文書から電子文書を作成する際に、紙文書をスキャンしてスキャンデータを取得し、取得したスキャンデータを解析して、印刷文字及び手書き文字の各々をオブジェクトとして抽出し、抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、取得した配置情報に対応するアプリケーションを特定し、特定したアプリケーションの特徴情報に基づいて文字認識手法を決定し、決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行し、文字認識結果に基づいて電子文書を作成し、作成した電子文書を出力する制御を行うからである。

本発明の一実施例に係る電子文書作成システムの構成例を示す模式図である。本発明の一実施例に係る電子文書作成システムの他の構成例を示す模式図である。本発明の一実施例に係る画像形成装置の構成を示すブロック図である。本発明の一実施例に係るコンピュータ装置の構成を示すブロック図である。本発明の一実施例に係る画像形成装置の全体動作を示すフローチャート図である。本発明の一実施例に係る画像形成装置の動作（ＯＣＲ／ＩＣＲ処理）を示すフローチャート図である。アプリケーションとオブジェクトの配置との関係を示す模式図である。本発明の一実施例に係る調整想定領域を説明する模式図である。本発明の一実施例に係る調整想定領域に存在するオブジェクトが印刷文字であるか手書き文字であるかを判別する方法を説明する模式図である。本発明の一実施例に係る印刷領域内の手書き文字を判別する方法を説明する模式図である。ヘッダを含むドキュメントを示す模式図である。ヘッダ設定用ユーザＩ／Ｆを示す模式図である。印刷文字、手書き文字から電子文書を作成する方法を説明する模式図である。印刷文字及び手書き文字が混在する紙文書から電子文書を作成する方法を説明する模式図である。

背景技術で示したように、紙文書を電子化する手法として、ＯＣＲとＩＣＲとがある。図１３に示すように、ＯＣＲは、印刷文字を対象とした文字認識手法であり、例えば、スキャナなどで読み取った画像を解析してパターン化し、予め記憶したパターンと照合することによって文字を認識する。また、ＩＣＲは、手書き文字を対象とした文字認識手法であり、例えば、スキャナなどで読み取った画像を解析して線などの要素を抽出し、抽出した要素を整形してパターン化し、予め記憶したパターンと照合することによって要素を特定し、特定した要素を組み合わせて文字を認識する。ＯＣＲとＩＣＲはそれぞれの目的に特化した構成となっているため、手書き文字をＯＣＲで、印刷文字をＩＣＲで電子化しようとしても認識精度が落ちてしまい、適切に文字を認識することができない。

ここで、印刷文字と手書き文字とが混在している紙文書を電子化する場合、特許文献１のように、ドキュメントを活字部と手書き部とに分離し、活字部にＯＣＲ処理を行って辞書登録し、次に手書き部に対してＯＣＲ処理を行った結果の認識候補それぞれに対して、辞書登録データとの比較を行って最も確からしい候補を選択することができる。しかしながら、この方法では、画像データ内の画素の濃淡および文字色に基づいて活字部と手書き部とを分離しており、画素情報に基づく分離方法では活字部と手書き部の正確な切り分けができるとは限らず、手書き文字を適切に認識することができない。

また、特許文献２のように、ＯＣＲとＩＣＲの両方で文字認識処理を行い、両方の処理結果のうち、認識精度の高かった方を出力として採用することもでき、例えば、図１４に示すように、上側の文字は認識精度が高いＯＣＲを採用し、下側の文字は認識精度が高いＩＣＲを採用して電子文書を作成することができる。しかしながら、この方法では、ＯＣＲとＩＣＲの両方の文字認識処理を行うため、ＯＣＲ又はＩＣＲ単体で文字認識処理を行う場合と比べて、２倍前後の処理時間がかかるという問題がある。

そこで、本発明の一実施の形態では、印刷文字と手書き文字とが混在した紙文書を電子化する際に、オブジェクトの配置からアプリケーションを特定し、そのアプリケーションの特徴から文字認識手法を決定することにより、印刷文字及び手書き文字の各々に対して、適切な文字認識手法で文字認識を行うようにする。

具体的には、紙文書をスキャンしたスキャンデータを解析して印刷文字及び手書き文字の各々をオブジェクトとして抽出し、抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、取得した配置情報に対応するアプリケーションを特定し、特定したアプリケーションの特徴情報に基づいて文字認識手法を決定し、決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行し、文字認識結果に基づいて電子文書を作成して出力する。この文字認識手法の決定に際して、特徴情報としてアプリケーションが設定可能なオブジェクトの印刷領域を取得し、印刷領域に存在するオブジェクトは印刷文字と判断してＯＣＲ処理を実行し、印刷領域以外の領域に存在するオブジェクトは手書き文字と判断してＩＣＲ処理を実行する。

また、特徴情報としてアプリケーションが設定可能な印刷領域の調整幅を取得し、印刷領域の外周に上記調整幅の境界領域（後述する調整想定領域）を設定し、調整想定領域にオブジェクトが存在する場合は、オブジェクトの傾きを取得し、傾きが予め定めた閾値を超える場合は、当該オブジェクトは手書き文字と判断してＩＣＲ処理を実行したり、印刷領域に存在するオブジェクトに対して行ったＯＣＲ処理の認識率が予め定めた閾値未満の場合は、当該オブジェクトは手書き文字と判断してＩＣＲ処理を実行したり、特徴情報としてアプリケーションが設定可能なヘッダ及び／又はフッタの情報を取得し、ヘッダ／フッタに対する処理が設定されている場合は、印刷領域外のヘッダ領域／フッタ領域に存在するオブジェクトは印刷文字と判断してＯＣＲ処理を実行したりする。

このような制御を行うことにより、文字認識精度を落とさずに処理効率を向上させることができ、印刷文字と手書き文字とが混在する紙文書から適切に電子文書を作成することができる。

上記した本発明の一実施の形態についてさらに詳細に説明すべく、本発明の一実施例に係る電子文書作成装置、電子文書作成方法及び電子文書作成プログラムについて、図１乃至図１２を参照して説明する。図１及び図２は、本実施例の電子文書作成システムの構成例を示す模式図であり、図３は、本実施例の画像形成装置の構成を示すブロック図、図４は、本実施例のコンピュータ装置の構成を示すブロック図である。また、図５及び図６は、本実施例の画像形成装置の動作を示すフローチャート図であり、図７は、アプリケーションとオブジェクトの配置との関係を示す模式図である。また、図８は、本実施例の調整想定領域を説明する模式図、図９は、調整想定領域に存在するオブジェクトが印刷文字であるか手書き文字であるかを判別する方法を説明する模式図であり、図１０は、本実施例の印刷領域内の手書き文字を判別する方法を説明する模式図である。また、図１１は、ヘッダを含むドキュメントを示す模式図であり、図１２は、ヘッダ設定用ユーザＩ／Ｆを示す模式図である。

本実施例の電子文書作成システムは、紙文書を読み取って電子文書として出力する電子文書作成装置を含んで構成される。この電子文書作成システムとしては、図１に示すように、スキャナを備えた画像形成装置１０を電子文書作成装置として機能させる構成、若しくは、図２に示すように、外部のスキャナ３０に接続されるコンピュータ装置２０を電子文書作成装置として機能させる構成が考えられる。以下、各装置について詳細に説明する。

［画像形成装置］
画像形成装置１０は、ＭＦＰ（Multi-Functional Peripherals）などであり、図３（ａ）に示すように、制御部１１と記憶部１５とネットワークＩ／Ｆ部１６と表示操作部１７と画像読取部１８と印刷処理部１９などで構成される。

制御部１１は、ＣＰＵ（Central Processing Unit）１２と、ＲＯＭ（Read Only Memory）１３やＲＡＭ（Random Access Memory）１４などのメモリとで構成され、これらはバスを介して接続されている。ＣＰＵ１２は、ＲＯＭ１３や記憶部１５から制御プログラムを読み出し、ＲＡＭ１４に展開して実行することにより、画像形成装置１０の全体制御を行う。

上記制御部１１は、図３（ｂ）に示すように、解析部１１ａ、アプリケーション特定部１１ｂ、文字認識部１１ｃ、電子文書作成部１１ｄなどとしても機能する。

解析部１１ａは、画像読取部１８からスキャンデータを取得し、スキャンデータを解析して、印刷文字及び手書き文字の各々をオブジェクトとして抽出する。例えば、濃度が所定値以上の画素が連続している部分をオブジェクトとして抽出する。

アプリケーション特定部１１ｂは、解析部１１ａが抽出したオブジェクトの紙面上の配置情報（各々のオブジェクトが紙文書にどのように分布しているかを示す情報）を取得し、予め記憶部１５などに記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、取得した配置情報に対応するアプリケーション（紙文書を作成したアプリケーション）を特定する。

文字認識部１１ｃは、アプリケーション特定部１１ｂが特定したアプリケーションの特徴情報に基づいて文字認識手法を決定し、決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する。この文字認識部１１ｃは、ＯＣＲ処理及びＩＣＲ処理が実行可能であり、例えば、アプリケーションのレイアウト構成の特徴情報として印刷領域を取得し、印刷領域に存在するオブジェクトは印刷文字と判断してＯＣＲ処理を実行し、印刷領域以外の領域に存在するオブジェクトは手書き文字と判断してＩＣＲ処理を実行する。また、文字認識部１１ｃは、レイアウト構成の特徴情報として印刷領域の調整幅を取得し、印刷領域の外周にその調整幅の境界領域（本実施例では、調整想定領域と呼ぶ。）を設定し、調整想定領域にオブジェクトが存在する場合はそのオブジェクトの傾きを取得し、傾きが予め定めた閾値を超える場合は、当該オブジェクトは手書き文字と判断してＩＣＲ処理を実行する。また、文字認識部１１ｃは、印刷領域に存在するオブジェクトに対して行ったＯＣＲ処理の認識率（ＯＣＲ処理の結果として提示される、認識した文字の確からしさを示す比率）が予め定めた閾値未満の場合は、当該オブジェクトは手書き文字と判断してＩＣＲ処理を実行する。また、文字認識部１１ｃは、レイアウト構成の特徴情報としてヘッダ及び／又はフッタの情報を取得し、ヘッダ／フッタに対する処理が設定されている場合は、印刷領域外のヘッダ領域／フッタ領域に存在するオブジェクトは印刷文字と判断してＯＣＲ処理を実行する。

電子文書作成部１１ｄは、文字認識部１１ｃの文字認識結果に基づいて電子文書を作成し、作成した電子文書データを印刷処理部１９に出力して印刷を指示したり、作成した電子文書データをネットワークＩ／Ｆ部１６を介して外部の装置に出力したりする。

なお、上記解析部１１ａ、アプリケーション特定部１１ｂ、文字認識部１１ｃ、電子文書作成部１１ｄはハードウェアとして構成してもよいし、制御部１１を解析部１１ａ、アプリケーション特定部１１ｂ、文字認識部１１ｃ、電子文書作成部１１ｄとして機能させる文字認識プログラムとして構成し、当該文字認識プログラムをＣＰＵ１２に実行させるようにしてもよい。

記憶部１５は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などで構成され、ＣＰＵ１２が各部を制御するためのプログラム、プログラムの実行に必要なデータ、画像読取部１８が取得したスキャンデータ、スキャンデータから作成した電子文書データ、アプリケーション毎の特徴情報（例えば、印刷領域や印刷領域の調整幅、ヘッダ／フッタの情報）などを記憶する。

ネットワークＩ／Ｆ部１６は、ＮＩＣ（Network Interface Card）やモデムなどで構成され、画像形成装置１０を通信ネットワークに接続し、必要に応じて、外部の装置に電子文書データなどを送信可能にする。

表示操作部１７は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro Luminescence）ディスプレイなどの表示部上に透明電極が格子状に配置された感圧式の操作部（タッチセンサ）を設けたタッチパネルなどであり、スキャン処理や印刷処理に関する各種画面、ヘッダ領域やフッタ領域に存在するオブジェクトに対する処理を設定するためのユーザＩ／Ｆなどを表示すると共に、スキャン処理や印刷処理に関する各種操作、ヘッダ領域やフッタ領域に存在するオブジェクトに対する処理の設定操作などを可能にする。なお、ここでは表示部と操作部とが一体となったタッチパネルを例示しているが、表示部と操作部とは別体としてもよい。

画像読取部１８は、原稿を走査する光源と、原稿で反射された光を電気信号に変換するＣＣＤ（Charge Coupled Devices）等のイメージセンサと、電気信号をＡ／Ｄ変換するＡ／Ｄ変換器等により構成される。そして、画像読取部１８は、原稿台上に載置された紙文書を光学的に読み取り、読み取って得たスキャンデータを制御部１１に送信する。

印刷処理部１９は、電子写真方式や静電記録方式等の作像プロセスを利用した画像形成のために必要な要素、すなわち、帯電装置、感光体ドラム、露光装置、転写ローラ、転写ベルト、定着装置などで構成される。具体的には、帯電装置により帯電された感光体ドラムに露光装置からラスターイメージに応じた光を照射して静電潜像を形成し、現像装置で帯電したトナーを付着させて現像し、そのトナー像を一次転写ローラ、二次転写ベルトを介して紙媒体に転写して定着装置で定着させる処理を行う。

［コンピュータ装置］
コンピュータ装置２０は、パーソナルコンピュータなどであり、図４（ａ）に示すように、制御部２１と記憶部２５とスキャナＩ／Ｆ部２６と表示部２７と操作部２８などで構成される。

制御部２１は、ＣＰＵ２２とＲＯＭ２３やＲＡＭ２４などのメモリとで構成され、これらはバスを介して接続されている。ＣＰＵ２２は、ＲＯＭ２３や記憶部２５から制御プログラムを読み出し、ＲＡＭ２４に展開して実行することにより、コンピュータ装置２０の全体制御を行う。

上記制御部２１は、図４（ｂ）に示すように、スキャンデータ取得部２１ａ、解析部２１ｂ、アプリケーション特定部２１ｃ、文字認識部２１ｄ、電子文書作成部２１ｅなどとしても機能する。

スキャンデータ取得部２１ａは、スキャナ３０を制御して、スキャナ３０から紙文書をスキャンしたスキャンデータを取得する。なお、解析部２１ｂ、アプリケーション特定部２１ｃ、文字認識部２１ｄ、電子文書作成部２１ｅは、画像形成装置１０の解析部１１ａ、アプリケーション特定部１１ｂ、文字認識部１１ｃ、電子文書作成部１１ｄと同様であるため、説明を省略する。

記憶部２５は、ＨＤＤやＳＳＤなどで構成され、ＣＰＵ２２が各部を制御するためのプログラム、プログラムの実行に必要なデータ、スキャナ３０から取得したスキャンデータ、スキャンデータから生成した電子文書データ、アプリケーション毎の特徴情報などを格納する。

スキャナＩ／Ｆ部２６は、スキャナ３０に接続するための専用インターフェイスであり、スキャナ３０からスキャンデータなどを取得可能にする。

表示部２７は、ＬＣＤや有機ＥＬディスプレイなどで構成され、スキャナ３０を制御する画面、ヘッダ領域やフッタ領域に存在するオブジェクトに対する処理を設定するためのユーザＩ／Ｆなどを表示する。操作部２８は、キーボードやマウス、表示部２７と一体となったタッチセンサなどで構成され、スキャナ３０の制御操作、ヘッダ領域やフッタ領域に存在するオブジェクトに対する処理の設定操作などを可能にする。

［スキャナ］
スキャナ３０は、制御部と、原稿を走査する光源と、原稿で反射された光を電気信号に変換するＣＣＤ等のイメージセンサと、電気信号をＡ／Ｄ変換するＡ／Ｄ変換器等により構成される（図示せず）。そして、原稿台上に載置された紙文書を光学的に読み取り、制御部は読み取って得たスキャンデータをコンピュータ装置２０に送信する。

なお、図１乃至図４は、本実施例の電子文書作成システムの一例であり、各装置の構成や機能は適宜変更可能である。例えば、図１では、画像形成装置１０を電子文書作成装置として機能させたが、画像形成装置１０を制御するコントローラが別体として設けられる場合は、コントローラを電子文書作成装置として機能させることができる。

以下、本実施例の画像形成装置１０の具体的な動作について説明する。ＣＰＵ１２は、ＲＯＭ１３又は記憶部１５に記憶した電子文書作成プログラムをＲＡＭ１４に展開して実行することにより、図５及び図６のフローチャート図に示す各ステップの処理を実行する。

まず、画像読取部１８は、紙文書をスキャンしてスキャンデータを取得し（Ｓ１０１）、制御部１１（解析部１１ａ）は、電子データ化したドキュメントをオブジェクト化する（Ｓ１０２）。具体的には、スキャンデータを解析し、濃度が所定値以上の画素が連続している部分などをオブジェクトとして抽出する。

次に、制御部１１（アプリケーション特定部１１ｂ）は、解析結果からオブジェクトの配置情報（抽出したオブジェクトが紙文書にどのように分布しているかを示す情報）を取得し（Ｓ１０３）、記憶部１５などからアプリケーション毎のレイアウト構成の特徴情報を取得する（Ｓ１０４）。そして、オブジェクトの配置情報とアプリケーション毎のレイアウト構成の特徴情報とを比較して、取得した配置情報に対応するアプリケーションを特定する（Ｓ１０５）。

具体的に説明すると、紙文書は元々が何らかのドキュメントアプリケーションで作成されたものである場合がほとんどであり、その場合、アプリケーション毎にレイアウト構成上の特徴を持っている。例えば、図７に示すように、Microsoft（登録商標、以下省略）のPowerPoint（登録商標、以下省略）の配付資料では、紙面内に所定の間隔及び所定のサイズでページ（白塗りで示した領域）が配置され、各ページの領域内に文字等のオブジェクトが配置される。従って、Ｓ１０３で取得したオブジェクトの配置情報（オブジェクトの分布）とPowerPointのレイアウト構成の特徴情報（図７の各ページの配置）とに相関がある場合は、紙文書を作成したアプリケーションがMicrosoftのPowerPointであると特定することができる。

次に、制御部１１（文字認識部１１ｃ）は、特定されたアプリケーションの特徴情報（印刷領域や印刷領域の調整幅、ヘッダ／フッタの情報など）に基づいて、ＯＣＲ／ＩＣＲ処理を実行する（Ｓ１０６）。このＯＣＲ／ＩＣＲ処理の詳細は後述するが、図７に示すように、アプリケーションの特徴上、オブジェクトが配置されない、又は、配置されにくい領域が存在する。そこで、本実施例では、このアプリケーション毎のレイアウト構成上の特徴を利用し、印刷領域にオブジェクトが存在する場合は、そのオブジェクトは印刷文字であると判断してＯＣＲ処理を実行し、印刷領域以外の領域にオブジェクトが存在する場合は、そのオブジェクトは手書き文字であると判断してＩＣＲ処理を実行する。すなわち、印刷領域以外の領域にオブジェクトが存在しない場合は、手書き文字が記載されている可能性は低いと判断できるため、ＯＣＲ処理のみを実行すればよく、不要なＩＣＲ処理を省略することが可能になる。

次に、制御部１１（電子文書作成部１１ｄ）は、ＯＣＲ／ＩＣＲ処理の文字認識結果に基づいて電子文書を作成し、作成した電子文書を印刷処理部１９に出力して印刷を指示したり、ネットワークＩ／Ｆ部１６を介して外部の装置に出力したりする（Ｓ１０７）。

次に、図５のＳ１０６のＯＣＲ／ＩＣＲ処理について、図６のフローチャート図を参照して説明する。

まず、制御部１１（文字認識部１１ｃ）は、ｉを０に代入し（Ｓ２０１）、ｉ番目のオブジェクトが印刷領域に存在するかを判断する（Ｓ２０２）。ｉ番目のオブジェクトが印刷領域に存在しない場合は（Ｓ２０２のＮｏ）、当該オブジェクトは手書き文字と考えられるため、制御部１１（文字認識部１１ｃ）は、ｉ番目のオブジェクトに対してＩＣＲ処理を実行する（Ｓ２０６）。

一方、ｉ番目のオブジェクトが印刷領域に存在する場合、当該オブジェクトは印刷文字と考えることができるが、アプリケーションによって印刷領域は調整可能であるため、ｉ番目のオブジェクトが印刷領域外周近傍に存在する場合、当該オブジェクトが印刷文字であるか手書き文字であるかを判断することが難しい。そこで、本実施例では、ｉ番目のオブジェクトが印刷領域に存在する場合は（Ｓ２０２のＹｅｓ）、必要に応じて、制御部１１（文字認識部１１ｃ）は、ｉ番目のオブジェクトが調整想定領域に存在するかを判断し（Ｓ２０３）、ｉ番目のオブジェクトの一部又は全部が調整想定領域に存在する場合は（Ｓ２０３のＹｅｓ）、ｉ番目のオブジェクトの傾きが閾値以下であるかを判断する（Ｓ２０４）。

図８は、調整想定領域を説明する図である。アプリケーションによって印刷領域が固定される場合は、印刷領域内に存在するオブジェクトは印刷文字、印刷領域外に存在するオブジェクト（例えば、図の左上側の２つのオブジェクト）は手書き文字と判断することができる。しかしながら、アプリケーションによって印刷領域が調整できる場合は、標準の印刷領域の外周近傍は、調整によって印刷領域内になる場合もあれば印刷領域外になる場合もあり、印刷領域外周近傍に存在するオブジェクトは印刷文字であるか手書き文字であるかを判断することが難しい。そこで、印刷領域外の情報が記載されにくい領域（余白領域と呼ぶ。）の中の、一定の調整需要が見込まれる（余白領域を狭くすることによって印刷領域となりえる）部分を調整想定領域に設定し、その調整想定領域に存在するオブジェクト（図８の矢印で引き出したオブジェクト）については、簡易確認を実施することによって、手書き文字であるか印刷文字であるかの切り分けを行う。

図９はこの切り分け方法を説明する図である。印刷文字は基本的には水平方向に対して並行に記載されることに着目し、対象となるオブジェクトが水平方向に対して傾きを持つか否かに基づいて、手書き文字であるか印刷文字であるかを判定する。その際、印刷時の印字ズレ、スキャン時の用紙の搬送ズレや歪み等を考慮して、判定の基準となる閾値を設定しても良い。例えば、傾きが２度よりも大きければ手書き文字と判定し、２度以下であれば印刷文字と判定することができる。図９の場合、傾きが２０度であるので、手書き文字と判定することになる。

図６に戻って、ｉ番目のオブジェクトが調整想定領域に存在しない場合（Ｓ２０３のＮｏ）、及び、ｉ番目のオブジェクトが調整想定領域に存在するが（Ｓ２０３のＹｅｓ）、その傾きが閾値以下場合は（Ｓ２０４のＹｅｓ）、制御部１１（文字認識部１１ｃ）は、ｉ番目のオブジェクトは印刷文字と判断して、ＯＣＲ処理を実行する（Ｓ２０５）。一方、ｉ番目のオブジェクトが調整想定領域に存在し（Ｓ２０３のＹｅｓ）、かつ、その傾きが閾値を超える場合は（Ｓ２０４のＮｏ）、制御部１１（文字認識部１１ｃ）は、ｉ番目のオブジェクトは手書き文字と判断して、ＩＣＲ処理を実行する（Ｓ２０６）。

その後、制御部１１（文字認識部１１ｃ）は、ｉに１を加算し（Ｓ２０７）、ｉがＮ（紙文書の全オブジェクト数）と等しいかを判断し（Ｓ２０８）、Ｎ＝ｉでない（ｉがＮ未満）の場合は（Ｓ２０８のＮｏ）、Ｓ２０２に戻って、次のオブジェクトに対して同様の処理を繰り返す。

上記フローでは、オブジェクトが印刷領域に存在する場合は印刷文字と判断してＯＣＲ処理を実行し、余白領域に存在する場合は手書き文字と判断してＩＣＲ処理を実行する構成を基本とし、更に、オブジェクトが印刷領域外周近傍の調整想定領域に存在する場合はそのオブジェクトの傾きが閾値以下であるかを判断し、傾きが閾値以下の場合は印刷文字と判断してＯＣＲ処理を実行し、傾きが閾値を超える場合は手書き文字と判断してＩＣＲ処理を実行する構成を示したが、以下のような場合もある。

例えば、図１０に示すように、印刷領域に手書きされる場合も考えられる。この場合、制御部１１（文字認識部１１ｃ）は、印刷領域のオブジェクトに対してＯＣＲ処理を行った時の認識率が予め定めた閾値以上であるかを判断し、認識率が閾値未満の場合は、当該オブジェクトに対する文字認識手法をＩＣＲ処理に決定し、ＩＣＲ処理を実行することができる。図１０の例では、印刷領域に配置された「Handwrite Comment4」というオブジェクトのＯＣＲ処理の認識率が６０％であり、閾値（ここでは９０％とする。）を下回っているため、ＩＣＲ処理を実行する。

また、図１１に示すように、特定のアプリケーションにおいて、ヘッダ／フッタが設定可能な場合、ヘッダ／フッタのような、通常は印刷文字が存在しない余白領域に、何らかの印刷文字が存在する場合も考えられる。この場合、制御部１１（文字認識部１１ｃ）は、図５のＳ１０５でアプリケーションの特徴情報としてヘッダ／フッタの情報を取得し、ヘッダ／フッタに対する処理が設定されている場合は、余白領域に存在するオブジェクトであっても、ヘッダ領域／フッタ領域に存在するオブジェクトは印刷文字と判断して、文字認識手法をＯＣＲ処理に決定し、ＯＣＲ処理を実行することができる。

その際、MicrosoftのWord（登録商標）の場合、ヘッダの記述形式に各種書式が存在するため、制御部１１（文字認識部１１ｃ）は、例えば、図１２に示すようなユーザＩ／Ｆ（ここではヘッダ設定用ユーザＩ／Ｆ）を表示操作部１７に表示させる。そして、ヘッダを印刷文字として認識したい場合はヘッダ設定にチェックを入れ、どのタイプが該当するかを設定する。図１１の例では”空白”形式が該当するため、図１２のように空白にチェックを入れる。また、フッタの場合も同様に設定する。そして、ヘッダ／フッタの設定情報をそのアプリケーションの特徴情報として記憶部１５などに記憶しておくことにより、ヘッダ領域／フッタ領域に存在するオブジェクトに対してＯＣＲ処理を実行することができる。

以上、説明したように、紙文書をスキャンしたスキャンデータを解析して印刷文字及び手書き文字の各々をオブジェクトとして抽出し、抽出したオブジェクトの配置情報を取得し、予め記憶したアプリケーション毎のレイアウト構成の特徴情報と比較して、取得した配置情報に対応するアプリケーションを特定し、特定したアプリケーションの特徴情報に基づいて文字認識手法を決定し、決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行し、文字認識結果に基づいて電子文書を作成して出力することにより、文字認識精度を落とさずに処理効率を向上させることができ、印刷文字と手書き文字とが混在する紙文書から適切に電子文書を作成することができる。

なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨を逸脱しない限りにおいて、その構成や制御方法は適宜変更可能である。

例えば、上記実施例では、画像形成装置１０が電子文書作成装置として機能する場合について説明したが、コンピュータ装置２０が電子文書作成装置として機能する場合に対しても、本発明の電子文書作成方法を同様に適用することができる。

本発明は、ＯＣＲとＩＣＲとを組み合わせて電子文書を作成する電子文書作成装置、電子文書作成方法、電子文書作成プログラム及び当該電子文書作成プログラムを記録した記録媒体に利用可能である。

１０画像形成装置
１１制御部
１１ａ解析部
１１ｂアプリケーション特定部
１１ｃ文字認識部
１１ｄ電子文書作成部
１２ＣＰＵ
１３ＲＯＭ
１４ＲＡＭ
１５記憶部
１６ネットワークＩ／Ｆ部
１７表示操作部
１８画像読取部
１９印刷処理部
２０コンピュータ装置
２１制御部
２１ａスキャンデータ取得部
２１ｂ解析部
２１ｃアプリケーション特定部
２１ｄ文字認識部
２１ｅ電子文書作成部
２２ＣＰＵ
２３ＲＯＭ
２４ＲＡＭ
２５記憶部
２６スキャナＩ／Ｆ部
２７表示部
２８操作部
３０スキャナ

Claims

印刷文字と手書き文字とが混在する紙文書から電子文書を作成する電子文書作成装置であって、
前記紙文書をスキャンしたスキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する解析部と、
前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定するアプリケーション特定部と、
前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する文字認識部と、
文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する電子文書作成部と、を備える、
ことを特徴とする電子文書作成装置。
前記特徴情報は、印刷領域であり、
前記文字認識部は、前記印刷領域に存在するオブジェクトは前記印刷文字と判断して、ＯＣＲ（Optical character recognition）処理を実行し、前記印刷領域以外の領域に存在するオブジェクトは前記手書き文字と判断して、ＩＣＲ（Intelligent Character Recognition）処理を実行する、
ことを特徴とする請求項１に記載の電子文書作成装置。
前記特徴情報は、前記印刷領域の調整幅であり、
前記文字認識部は、前記印刷領域の外周に前記調整幅の境界領域を設定し、前記境界領域にオブジェクトが存在する場合は、前記オブジェクトの傾きを取得し、前記傾きが予め定めた閾値を超える場合は、当該オブジェクトは前記手書き文字と判断して、ＩＣＲ処理を実行する、
ことを特徴とする請求項２に記載の電子文書作成装置。
前記文字認識部は、前記印刷領域に存在するオブジェクトに対して行ったＯＣＲ処理の認識率が予め定めた閾値未満の場合は、当該オブジェクトは前記手書き文字と判断して、ＩＣＲ処理を実行する、
ことを特徴とする請求項２又は３に記載の電子文書作成装置。
前記特徴情報は、ヘッダ及び／又はフッタの情報であり、
前記文字認識部は、ヘッダ及び／又はフッタに対する処理が設定されている場合は、前記印刷領域外のヘッダ領域及び／又はフッタ領域に存在するオブジェクトは前記印刷文字と判断して、ＯＣＲ処理を実行する、
ことを特徴とする請求項２乃至４のいずれか一に記載の電子文書作成装置。
前記電子文書作成装置は、前記紙文書をスキャンする画像読取部を備える画像形成装置である、
ことを特徴とする請求項１乃至５のいずれか一に記載の電子文書作成装置。
印刷文字と手書き文字とが混在する紙文書から電子文書を作成する電子文書作成システムにおける電子文書作成方法であって、
前記紙文書をスキャンしてスキャンデータを取得する第１処理と、
前記スキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する第２処理と、
前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定する第３処理と、
前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する第４処理と、
文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する第５処理と、を実行する、
ことを特徴とする電子文書作成方法。
前記特徴情報は、印刷領域であり、
前記第４処理では、前記印刷領域に存在するオブジェクトは前記印刷文字と判断して、ＯＣＲ（Optical character recognition）処理を実行し、前記印刷領域以外の領域に存在するオブジェクトは前記手書き文字と判断して、ＩＣＲ（Intelligent Character Recognition）処理を実行する、
ことを特徴とする請求項７に記載の電子文書作成方法。
前記特徴情報は、前記印刷領域の調整幅であり、
前記第４処理では、前記印刷領域の外周に前記調整幅の境界領域を設定し、前記境界領域にオブジェクトが存在する場合は、前記オブジェクトの傾きを取得し、前記傾きが予め定めた閾値を超える場合は、当該オブジェクトは前記手書き文字と判断して、ＩＣＲ処理を実行する、
ことを特徴とする請求項８に記載の電子文書作成方法。
前記第４処理では、前記印刷領域に存在するオブジェクトに対して行ったＯＣＲ処理の認識率が予め定めた閾値未満の場合は、当該オブジェクトは前記手書き文字と判断して、ＩＣＲ処理を実行する、
ことを特徴とする請求項８又は９に記載の電子文書作成方法。
前記特徴情報は、ヘッダ及び／又はフッタの情報であり、
前記第４処理では、ヘッダ及び／又はフッタに対する処理が設定されている場合は、前記印刷領域外のヘッダ領域及び／又はフッタ領域に存在するオブジェクトは前記印刷文字と判断して、ＯＣＲ処理を実行する、
ことを特徴とする請求項８乃至１０のいずれか一に記載の電子文書作成方法。
印刷文字と手書き文字とが混在する紙文書から電子文書を作成する装置で動作する電子文書作成プログラムであって、
前記装置に、
前記紙文書をスキャンしたスキャンデータを取得する第１処理、
前記スキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する第２処理、
前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定する第３処理、
前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する第４処理、
文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する第５処理、を実行させる、
ことを特徴とする電子文書作成プログラム。
前記特徴情報は、印刷領域であり、
前記第４処理では、前記印刷領域に存在するオブジェクトは前記印刷文字と判断して、ＯＣＲ（Optical character recognition）処理を実行し、前記印刷領域以外の領域に存在するオブジェクトは前記手書き文字と判断して、ＩＣＲ（Intelligent Character Recognition）処理を実行する、
ことを特徴とする請求項１２に記載の電子文書作成プログラム。
前記特徴情報は、前記印刷領域の調整幅であり、
前記第４処理では、前記印刷領域の外周に前記調整幅の境界領域を設定し、前記境界領域にオブジェクトが存在する場合は、前記オブジェクトの傾きを取得し、前記傾きが予め定めた閾値を超える場合は、当該オブジェクトは前記手書き文字と判断して、ＩＣＲ処理を実行する、
ことを特徴とする請求項１３に記載の電子文書作成プログラム。
前記第４処理では、前記印刷領域に存在するオブジェクトに対して行ったＯＣＲ処理の認識率が予め定めた閾値未満の場合は、当該オブジェクトは前記手書き文字と判断して、ＩＣＲ処理を実行する、
ことを特徴とする請求項１３又は１４に記載の電子文書作成プログラム。
前記特徴情報は、ヘッダ及び／又はフッタの情報であり、
前記第４処理では、ヘッダ及び／又はフッタに対する処理が設定されている場合は、前記印刷領域外のヘッダ領域及び／又はフッタ領域に存在するオブジェクトは前記印刷文字と判断して、ＯＣＲ処理を実行する、
ことを特徴とする請求項１３乃至１５のいずれか一に記載の電子文書作成プログラム。
前記装置は、前記紙文書をスキャンする画像読取部を備える画像形成装置である、
ことを特徴とする請求項１２乃至１６のいずれか一に記載の電子文書作成プログラム。