JP2019008697A - 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム - Google Patents
電子文書作成装置、電子文書作成方法及び電子文書作成プログラム Download PDFInfo
- Publication number
- JP2019008697A JP2019008697A JP2017126018A JP2017126018A JP2019008697A JP 2019008697 A JP2019008697 A JP 2019008697A JP 2017126018 A JP2017126018 A JP 2017126018A JP 2017126018 A JP2017126018 A JP 2017126018A JP 2019008697 A JP2019008697 A JP 2019008697A
- Authority
- JP
- Japan
- Prior art keywords
- electronic document
- document creation
- character recognition
- character
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【課題】OCRとICRを効率的に組み合わせて紙文書から適切に電子文書を作成する。【解決手段】印刷文字と手書き文字とが混在する紙文書から電子文書を作成する装置で、紙文書をスキャンしてスキャンデータを取得し、取得したスキャンデータを解析して、印刷文字及び手書き文字の各々をオブジェクトとして抽出し、抽出したオブジェクトの配置情報を取得し、予め記憶したアプリケーション毎のレイアウト構成の特徴情報と比較して、取得した配置情報に対応するアプリケーションを特定し、特定したアプリケーションの特徴情報に基づいて文字認識手法を決定し、決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行し、文字認識結果に基づいて電子文書を作成し、作成した電子文書を出力する。【選択図】図5
Description
本発明は、電子文書作成装置、電子文書作成方法及び電子文書作成プログラムに関し、特に、OCR(Optical character recognition)とICR(Intelligent Character Recognition)とを組み合わせて紙文書から電子文書を作成する電子文書作成装置、電子文書作成方法及び電子文書作成プログラムに関する。
現在、紙文書を電子化する手法として、OCR(Optical character recognition)とICR(Intelligent Character Recognition)とが存在する。OCRは印刷文字を対象とした文字認識手法であり、ICRは手書き文字を対象とした文字認識手法である。これらはそれぞれの目的に特化した構成となっており、手書き文字をOCRで、印刷文字をICRで電子化しようとしても認識精度が落ちてしまい、適切に文字を認識することができないという問題がある。
OCRによる手書き文字の認識精度を向上させる技術に関して、例えば、下記特許文献1には、活字と手書き文字が混在した文書データを活字部と手書き部とに分離する分離処理部と、前記活字部を文字認識する活字部認識処理部と、前記活字部の文字認識結果を利用して前記手書き部を文字認識する手書き部認識処理部とを備えた文字認識装置が開示されている。
また、印刷文字、手書き文字それぞれの認識精度を向上させる技術に関して、例えば、下記特許文献2には、文字データを印刷文字として認識処理を行う印刷文字認識手段と、文字データを手書き文字として認識処理を行う手書き文字認識手段と、文書等に記載された文字を読み取るとともに文字データに変換する文字読み取り手段と、この文字読み取り手段からの文字データを前記印刷文字認識手段と前記手書き文字認識手段に同時に出力する文字データ出力手段とを備え、前記印刷文字認識手段での認識結果と前記手書き文字認識手段での認識結果に基づいていずれかを選択する認識結果選択手段を装備した光学式文字読み取り装置が開示されている。
印刷文字と手書き文字とが混在している紙文書を電子化する場合、特許文献1では、画像データ内の画素の濃淡および文字色に基づいて活字部と手書き部とを分離しているが、このような画素情報に基づく分離方法では活字部と手書き部の正確な切り分けができるとは限らず、手書き文字を適切に認識することができない。
また、特許文献2では、OCRとICRの両方で文字認識処理を行い、両方の処理結果のうち、認識精度の高かった方を出力として採用しているが、この方法では、OCR又はICR単体で文字認識処理を行う場合と比べて、2倍前後の処理時間がかかるという問題がある。
本発明は、上記問題点に鑑みてなされたものであって、その主たる目的は、OCRとICRを効率的に組み合わせて紙文書から適切に電子文書を作成することができる電子文書作成装置、電子文書作成方法及び電子文書作成プログラムを提供することにある。
本発明の一側面は、印刷文字と手書き文字とが混在する紙文書から電子文書を作成する電子文書作成装置であって、前記紙文書をスキャンしたスキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する解析部と、前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定するアプリケーション特定部と、前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する文字認識部と、文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する電子文書作成部と、を備えることを特徴とする。
本発明の一側面は、印刷文字と手書き文字とが混在する紙文書から電子文書を作成する電子文書作成システムにおける電子文書作成方法であって、前記紙文書をスキャンしてスキャンデータを取得する第1処理と、前記スキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する第2処理と、前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定する第3処理と、前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する第4処理と、文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する第5処理と、を実行することを特徴とする。
本発明の一側面は、印刷文字と手書き文字とが混在する紙文書から電子文書を作成する装置で動作する電子文書作成プログラムであって、前記装置に、前記紙文書をスキャンしたスキャンデータを取得する第1処理、前記スキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する第2処理、前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定する第3処理、前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する第4処理、文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する第5処理、を実行させることを特徴とする。
本発明の電子文書作成装置、電子文書作成方法及び電子文書作成プログラムによれば、OCRとICRを効率的に組み合わせて紙文書から適切に電子文書を作成することができる。
その理由は、印刷文字と手書き文字とが混在する紙文書から電子文書を作成する際に、紙文書をスキャンしてスキャンデータを取得し、取得したスキャンデータを解析して、印刷文字及び手書き文字の各々をオブジェクトとして抽出し、抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、取得した配置情報に対応するアプリケーションを特定し、特定したアプリケーションの特徴情報に基づいて文字認識手法を決定し、決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行し、文字認識結果に基づいて電子文書を作成し、作成した電子文書を出力する制御を行うからである。
背景技術で示したように、紙文書を電子化する手法として、OCRとICRとがある。図13に示すように、OCRは、印刷文字を対象とした文字認識手法であり、例えば、スキャナなどで読み取った画像を解析してパターン化し、予め記憶したパターンと照合することによって文字を認識する。また、ICRは、手書き文字を対象とした文字認識手法であり、例えば、スキャナなどで読み取った画像を解析して線などの要素を抽出し、抽出した要素を整形してパターン化し、予め記憶したパターンと照合することによって要素を特定し、特定した要素を組み合わせて文字を認識する。OCRとICRはそれぞれの目的に特化した構成となっているため、手書き文字をOCRで、印刷文字をICRで電子化しようとしても認識精度が落ちてしまい、適切に文字を認識することができない。
ここで、印刷文字と手書き文字とが混在している紙文書を電子化する場合、特許文献1のように、ドキュメントを活字部と手書き部とに分離し、活字部にOCR処理を行って辞書登録し、次に手書き部に対してOCR処理を行った結果の認識候補それぞれに対して、辞書登録データとの比較を行って最も確からしい候補を選択することができる。しかしながら、この方法では、画像データ内の画素の濃淡および文字色に基づいて活字部と手書き部とを分離しており、画素情報に基づく分離方法では活字部と手書き部の正確な切り分けができるとは限らず、手書き文字を適切に認識することができない。
また、特許文献2のように、OCRとICRの両方で文字認識処理を行い、両方の処理結果のうち、認識精度の高かった方を出力として採用することもでき、例えば、図14に示すように、上側の文字は認識精度が高いOCRを採用し、下側の文字は認識精度が高いICRを採用して電子文書を作成することができる。しかしながら、この方法では、OCRとICRの両方の文字認識処理を行うため、OCR又はICR単体で文字認識処理を行う場合と比べて、2倍前後の処理時間がかかるという問題がある。
そこで、本発明の一実施の形態では、印刷文字と手書き文字とが混在した紙文書を電子化する際に、オブジェクトの配置からアプリケーションを特定し、そのアプリケーションの特徴から文字認識手法を決定することにより、印刷文字及び手書き文字の各々に対して、適切な文字認識手法で文字認識を行うようにする。
具体的には、紙文書をスキャンしたスキャンデータを解析して印刷文字及び手書き文字の各々をオブジェクトとして抽出し、抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、取得した配置情報に対応するアプリケーションを特定し、特定したアプリケーションの特徴情報に基づいて文字認識手法を決定し、決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行し、文字認識結果に基づいて電子文書を作成して出力する。この文字認識手法の決定に際して、特徴情報としてアプリケーションが設定可能なオブジェクトの印刷領域を取得し、印刷領域に存在するオブジェクトは印刷文字と判断してOCR処理を実行し、印刷領域以外の領域に存在するオブジェクトは手書き文字と判断してICR処理を実行する。
また、特徴情報としてアプリケーションが設定可能な印刷領域の調整幅を取得し、印刷領域の外周に上記調整幅の境界領域(後述する調整想定領域)を設定し、調整想定領域にオブジェクトが存在する場合は、オブジェクトの傾きを取得し、傾きが予め定めた閾値を超える場合は、当該オブジェクトは手書き文字と判断してICR処理を実行したり、印刷領域に存在するオブジェクトに対して行ったOCR処理の認識率が予め定めた閾値未満の場合は、当該オブジェクトは手書き文字と判断してICR処理を実行したり、特徴情報としてアプリケーションが設定可能なヘッダ及び/又はフッタの情報を取得し、ヘッダ/フッタに対する処理が設定されている場合は、印刷領域外のヘッダ領域/フッタ領域に存在するオブジェクトは印刷文字と判断してOCR処理を実行したりする。
このような制御を行うことにより、文字認識精度を落とさずに処理効率を向上させることができ、印刷文字と手書き文字とが混在する紙文書から適切に電子文書を作成することができる。
上記した本発明の一実施の形態についてさらに詳細に説明すべく、本発明の一実施例に係る電子文書作成装置、電子文書作成方法及び電子文書作成プログラムについて、図1乃至図12を参照して説明する。図1及び図2は、本実施例の電子文書作成システムの構成例を示す模式図であり、図3は、本実施例の画像形成装置の構成を示すブロック図、図4は、本実施例のコンピュータ装置の構成を示すブロック図である。また、図5及び図6は、本実施例の画像形成装置の動作を示すフローチャート図であり、図7は、アプリケーションとオブジェクトの配置との関係を示す模式図である。また、図8は、本実施例の調整想定領域を説明する模式図、図9は、調整想定領域に存在するオブジェクトが印刷文字であるか手書き文字であるかを判別する方法を説明する模式図であり、図10は、本実施例の印刷領域内の手書き文字を判別する方法を説明する模式図である。また、図11は、ヘッダを含むドキュメントを示す模式図であり、図12は、ヘッダ設定用ユーザI/Fを示す模式図である。
本実施例の電子文書作成システムは、紙文書を読み取って電子文書として出力する電子文書作成装置を含んで構成される。この電子文書作成システムとしては、図1に示すように、スキャナを備えた画像形成装置10を電子文書作成装置として機能させる構成、若しくは、図2に示すように、外部のスキャナ30に接続されるコンピュータ装置20を電子文書作成装置として機能させる構成が考えられる。以下、各装置について詳細に説明する。
[画像形成装置]
画像形成装置10は、MFP(Multi-Functional Peripherals)などであり、図3(a)に示すように、制御部11と記憶部15とネットワークI/F部16と表示操作部17と画像読取部18と印刷処理部19などで構成される。
画像形成装置10は、MFP(Multi-Functional Peripherals)などであり、図3(a)に示すように、制御部11と記憶部15とネットワークI/F部16と表示操作部17と画像読取部18と印刷処理部19などで構成される。
制御部11は、CPU(Central Processing Unit)12と、ROM(Read Only Memory)13やRAM(Random Access Memory)14などのメモリとで構成され、これらはバスを介して接続されている。CPU12は、ROM13や記憶部15から制御プログラムを読み出し、RAM14に展開して実行することにより、画像形成装置10の全体制御を行う。
上記制御部11は、図3(b)に示すように、解析部11a、アプリケーション特定部11b、文字認識部11c、電子文書作成部11dなどとしても機能する。
解析部11aは、画像読取部18からスキャンデータを取得し、スキャンデータを解析して、印刷文字及び手書き文字の各々をオブジェクトとして抽出する。例えば、濃度が所定値以上の画素が連続している部分をオブジェクトとして抽出する。
アプリケーション特定部11bは、解析部11aが抽出したオブジェクトの紙面上の配置情報(各々のオブジェクトが紙文書にどのように分布しているかを示す情報)を取得し、予め記憶部15などに記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、取得した配置情報に対応するアプリケーション(紙文書を作成したアプリケーション)を特定する。
文字認識部11cは、アプリケーション特定部11bが特定したアプリケーションの特徴情報に基づいて文字認識手法を決定し、決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する。この文字認識部11cは、OCR処理及びICR処理が実行可能であり、例えば、アプリケーションのレイアウト構成の特徴情報として印刷領域を取得し、印刷領域に存在するオブジェクトは印刷文字と判断してOCR処理を実行し、印刷領域以外の領域に存在するオブジェクトは手書き文字と判断してICR処理を実行する。また、文字認識部11cは、レイアウト構成の特徴情報として印刷領域の調整幅を取得し、印刷領域の外周にその調整幅の境界領域(本実施例では、調整想定領域と呼ぶ。)を設定し、調整想定領域にオブジェクトが存在する場合はそのオブジェクトの傾きを取得し、傾きが予め定めた閾値を超える場合は、当該オブジェクトは手書き文字と判断してICR処理を実行する。また、文字認識部11cは、印刷領域に存在するオブジェクトに対して行ったOCR処理の認識率(OCR処理の結果として提示される、認識した文字の確からしさを示す比率)が予め定めた閾値未満の場合は、当該オブジェクトは手書き文字と判断してICR処理を実行する。また、文字認識部11cは、レイアウト構成の特徴情報としてヘッダ及び/又はフッタの情報を取得し、ヘッダ/フッタに対する処理が設定されている場合は、印刷領域外のヘッダ領域/フッタ領域に存在するオブジェクトは印刷文字と判断してOCR処理を実行する。
電子文書作成部11dは、文字認識部11cの文字認識結果に基づいて電子文書を作成し、作成した電子文書データを印刷処理部19に出力して印刷を指示したり、作成した電子文書データをネットワークI/F部16を介して外部の装置に出力したりする。
なお、上記解析部11a、アプリケーション特定部11b、文字認識部11c、電子文書作成部11dはハードウェアとして構成してもよいし、制御部11を解析部11a、アプリケーション特定部11b、文字認識部11c、電子文書作成部11dとして機能させる文字認識プログラムとして構成し、当該文字認識プログラムをCPU12に実行させるようにしてもよい。
記憶部15は、HDD(Hard Disk Drive)やSSD(Solid State Drive)などで構成され、CPU12が各部を制御するためのプログラム、プログラムの実行に必要なデータ、画像読取部18が取得したスキャンデータ、スキャンデータから作成した電子文書データ、アプリケーション毎の特徴情報(例えば、印刷領域や印刷領域の調整幅、ヘッダ/フッタの情報)などを記憶する。
ネットワークI/F部16は、NIC(Network Interface Card)やモデムなどで構成され、画像形成装置10を通信ネットワークに接続し、必要に応じて、外部の装置に電子文書データなどを送信可能にする。
表示操作部17は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどの表示部上に透明電極が格子状に配置された感圧式の操作部(タッチセンサ)を設けたタッチパネルなどであり、スキャン処理や印刷処理に関する各種画面、ヘッダ領域やフッタ領域に存在するオブジェクトに対する処理を設定するためのユーザI/Fなどを表示すると共に、スキャン処理や印刷処理に関する各種操作、ヘッダ領域やフッタ領域に存在するオブジェクトに対する処理の設定操作などを可能にする。なお、ここでは表示部と操作部とが一体となったタッチパネルを例示しているが、表示部と操作部とは別体としてもよい。
画像読取部18は、原稿を走査する光源と、原稿で反射された光を電気信号に変換するCCD(Charge Coupled Devices)等のイメージセンサと、電気信号をA/D変換するA/D変換器等により構成される。そして、画像読取部18は、原稿台上に載置された紙文書を光学的に読み取り、読み取って得たスキャンデータを制御部11に送信する。
印刷処理部19は、電子写真方式や静電記録方式等の作像プロセスを利用した画像形成のために必要な要素、すなわち、帯電装置、感光体ドラム、露光装置、転写ローラ、転写ベルト、定着装置などで構成される。具体的には、帯電装置により帯電された感光体ドラムに露光装置からラスターイメージに応じた光を照射して静電潜像を形成し、現像装置で帯電したトナーを付着させて現像し、そのトナー像を一次転写ローラ、二次転写ベルトを介して紙媒体に転写して定着装置で定着させる処理を行う。
[コンピュータ装置]
コンピュータ装置20は、パーソナルコンピュータなどであり、図4(a)に示すように、制御部21と記憶部25とスキャナI/F部26と表示部27と操作部28などで構成される。
コンピュータ装置20は、パーソナルコンピュータなどであり、図4(a)に示すように、制御部21と記憶部25とスキャナI/F部26と表示部27と操作部28などで構成される。
制御部21は、CPU22とROM23やRAM24などのメモリとで構成され、これらはバスを介して接続されている。CPU22は、ROM23や記憶部25から制御プログラムを読み出し、RAM24に展開して実行することにより、コンピュータ装置20の全体制御を行う。
上記制御部21は、図4(b)に示すように、スキャンデータ取得部21a、解析部21b、アプリケーション特定部21c、文字認識部21d、電子文書作成部21eなどとしても機能する。
スキャンデータ取得部21aは、スキャナ30を制御して、スキャナ30から紙文書をスキャンしたスキャンデータを取得する。なお、解析部21b、アプリケーション特定部21c、文字認識部21d、電子文書作成部21eは、画像形成装置10の解析部11a、アプリケーション特定部11b、文字認識部11c、電子文書作成部11dと同様であるため、説明を省略する。
記憶部25は、HDDやSSDなどで構成され、CPU22が各部を制御するためのプログラム、プログラムの実行に必要なデータ、スキャナ30から取得したスキャンデータ、スキャンデータから生成した電子文書データ、アプリケーション毎の特徴情報などを格納する。
スキャナI/F部26は、スキャナ30に接続するための専用インターフェイスであり、スキャナ30からスキャンデータなどを取得可能にする。
表示部27は、LCDや有機ELディスプレイなどで構成され、スキャナ30を制御する画面、ヘッダ領域やフッタ領域に存在するオブジェクトに対する処理を設定するためのユーザI/Fなどを表示する。操作部28は、キーボードやマウス、表示部27と一体となったタッチセンサなどで構成され、スキャナ30の制御操作、ヘッダ領域やフッタ領域に存在するオブジェクトに対する処理の設定操作などを可能にする。
[スキャナ]
スキャナ30は、制御部と、原稿を走査する光源と、原稿で反射された光を電気信号に変換するCCD等のイメージセンサと、電気信号をA/D変換するA/D変換器等により構成される(図示せず)。そして、原稿台上に載置された紙文書を光学的に読み取り、制御部は読み取って得たスキャンデータをコンピュータ装置20に送信する。
スキャナ30は、制御部と、原稿を走査する光源と、原稿で反射された光を電気信号に変換するCCD等のイメージセンサと、電気信号をA/D変換するA/D変換器等により構成される(図示せず)。そして、原稿台上に載置された紙文書を光学的に読み取り、制御部は読み取って得たスキャンデータをコンピュータ装置20に送信する。
なお、図1乃至図4は、本実施例の電子文書作成システムの一例であり、各装置の構成や機能は適宜変更可能である。例えば、図1では、画像形成装置10を電子文書作成装置として機能させたが、画像形成装置10を制御するコントローラが別体として設けられる場合は、コントローラを電子文書作成装置として機能させることができる。
以下、本実施例の画像形成装置10の具体的な動作について説明する。CPU12は、ROM13又は記憶部15に記憶した電子文書作成プログラムをRAM14に展開して実行することにより、図5及び図6のフローチャート図に示す各ステップの処理を実行する。
まず、画像読取部18は、紙文書をスキャンしてスキャンデータを取得し(S101)、制御部11(解析部11a)は、電子データ化したドキュメントをオブジェクト化する(S102)。具体的には、スキャンデータを解析し、濃度が所定値以上の画素が連続している部分などをオブジェクトとして抽出する。
次に、制御部11(アプリケーション特定部11b)は、解析結果からオブジェクトの配置情報(抽出したオブジェクトが紙文書にどのように分布しているかを示す情報)を取得し(S103)、記憶部15などからアプリケーション毎のレイアウト構成の特徴情報を取得する(S104)。そして、オブジェクトの配置情報とアプリケーション毎のレイアウト構成の特徴情報とを比較して、取得した配置情報に対応するアプリケーションを特定する(S105)。
具体的に説明すると、紙文書は元々が何らかのドキュメントアプリケーションで作成されたものである場合がほとんどであり、その場合、アプリケーション毎にレイアウト構成上の特徴を持っている。例えば、図7に示すように、Microsoft(登録商標、以下省略)のPowerPoint(登録商標、以下省略)の配付資料では、紙面内に所定の間隔及び所定のサイズでページ(白塗りで示した領域)が配置され、各ページの領域内に文字等のオブジェクトが配置される。従って、S103で取得したオブジェクトの配置情報(オブジェクトの分布)とPowerPointのレイアウト構成の特徴情報(図7の各ページの配置)とに相関がある場合は、紙文書を作成したアプリケーションがMicrosoftのPowerPointであると特定することができる。
次に、制御部11(文字認識部11c)は、特定されたアプリケーションの特徴情報(印刷領域や印刷領域の調整幅、ヘッダ/フッタの情報など)に基づいて、OCR/ICR処理を実行する(S106)。このOCR/ICR処理の詳細は後述するが、図7に示すように、アプリケーションの特徴上、オブジェクトが配置されない、又は、配置されにくい領域が存在する。そこで、本実施例では、このアプリケーション毎のレイアウト構成上の特徴を利用し、印刷領域にオブジェクトが存在する場合は、そのオブジェクトは印刷文字であると判断してOCR処理を実行し、印刷領域以外の領域にオブジェクトが存在する場合は、そのオブジェクトは手書き文字であると判断してICR処理を実行する。すなわち、印刷領域以外の領域にオブジェクトが存在しない場合は、手書き文字が記載されている可能性は低いと判断できるため、OCR処理のみを実行すればよく、不要なICR処理を省略することが可能になる。
次に、制御部11(電子文書作成部11d)は、OCR/ICR処理の文字認識結果に基づいて電子文書を作成し、作成した電子文書を印刷処理部19に出力して印刷を指示したり、ネットワークI/F部16を介して外部の装置に出力したりする(S107)。
次に、図5のS106のOCR/ICR処理について、図6のフローチャート図を参照して説明する。
まず、制御部11(文字認識部11c)は、iを0に代入し(S201)、i番目のオブジェクトが印刷領域に存在するかを判断する(S202)。i番目のオブジェクトが印刷領域に存在しない場合は(S202のNo)、当該オブジェクトは手書き文字と考えられるため、制御部11(文字認識部11c)は、i番目のオブジェクトに対してICR処理を実行する(S206)。
一方、i番目のオブジェクトが印刷領域に存在する場合、当該オブジェクトは印刷文字と考えることができるが、アプリケーションによって印刷領域は調整可能であるため、i番目のオブジェクトが印刷領域外周近傍に存在する場合、当該オブジェクトが印刷文字であるか手書き文字であるかを判断することが難しい。そこで、本実施例では、i番目のオブジェクトが印刷領域に存在する場合は(S202のYes)、必要に応じて、制御部11(文字認識部11c)は、i番目のオブジェクトが調整想定領域に存在するかを判断し(S203)、i番目のオブジェクトの一部又は全部が調整想定領域に存在する場合は(S203のYes)、i番目のオブジェクトの傾きが閾値以下であるかを判断する(S204)。
図8は、調整想定領域を説明する図である。アプリケーションによって印刷領域が固定される場合は、印刷領域内に存在するオブジェクトは印刷文字、印刷領域外に存在するオブジェクト(例えば、図の左上側の2つのオブジェクト)は手書き文字と判断することができる。しかしながら、アプリケーションによって印刷領域が調整できる場合は、標準の印刷領域の外周近傍は、調整によって印刷領域内になる場合もあれば印刷領域外になる場合もあり、印刷領域外周近傍に存在するオブジェクトは印刷文字であるか手書き文字であるかを判断することが難しい。そこで、印刷領域外の情報が記載されにくい領域(余白領域と呼ぶ。)の中の、一定の調整需要が見込まれる(余白領域を狭くすることによって印刷領域となりえる)部分を調整想定領域に設定し、その調整想定領域に存在するオブジェクト(図8の矢印で引き出したオブジェクト)については、簡易確認を実施することによって、手書き文字であるか印刷文字であるかの切り分けを行う。
図9はこの切り分け方法を説明する図である。印刷文字は基本的には水平方向に対して並行に記載されることに着目し、対象となるオブジェクトが水平方向に対して傾きを持つか否かに基づいて、手書き文字であるか印刷文字であるかを判定する。その際、印刷時の印字ズレ、スキャン時の用紙の搬送ズレや歪み等を考慮して、判定の基準となる閾値を設定しても良い。例えば、傾きが2度よりも大きければ手書き文字と判定し、2度以下であれば印刷文字と判定することができる。図9の場合、傾きが20度であるので、手書き文字と判定することになる。
図6に戻って、i番目のオブジェクトが調整想定領域に存在しない場合(S203のNo)、及び、i番目のオブジェクトが調整想定領域に存在するが(S203のYes)、その傾きが閾値以下場合は(S204のYes)、制御部11(文字認識部11c)は、i番目のオブジェクトは印刷文字と判断して、OCR処理を実行する(S205)。一方、i番目のオブジェクトが調整想定領域に存在し(S203のYes)、かつ、その傾きが閾値を超える場合は(S204のNo)、制御部11(文字認識部11c)は、i番目のオブジェクトは手書き文字と判断して、ICR処理を実行する(S206)。
その後、制御部11(文字認識部11c)は、iに1を加算し(S207)、iがN(紙文書の全オブジェクト数)と等しいかを判断し(S208)、N=iでない(iがN未満)の場合は(S208のNo)、S202に戻って、次のオブジェクトに対して同様の処理を繰り返す。
上記フローでは、オブジェクトが印刷領域に存在する場合は印刷文字と判断してOCR処理を実行し、余白領域に存在する場合は手書き文字と判断してICR処理を実行する構成を基本とし、更に、オブジェクトが印刷領域外周近傍の調整想定領域に存在する場合はそのオブジェクトの傾きが閾値以下であるかを判断し、傾きが閾値以下の場合は印刷文字と判断してOCR処理を実行し、傾きが閾値を超える場合は手書き文字と判断してICR処理を実行する構成を示したが、以下のような場合もある。
例えば、図10に示すように、印刷領域に手書きされる場合も考えられる。この場合、制御部11(文字認識部11c)は、印刷領域のオブジェクトに対してOCR処理を行った時の認識率が予め定めた閾値以上であるかを判断し、認識率が閾値未満の場合は、当該オブジェクトに対する文字認識手法をICR処理に決定し、ICR処理を実行することができる。図10の例では、印刷領域に配置された「Handwrite Comment4」というオブジェクトのOCR処理の認識率が60%であり、閾値(ここでは90%とする。)を下回っているため、ICR処理を実行する。
また、図11に示すように、特定のアプリケーションにおいて、ヘッダ/フッタが設定可能な場合、ヘッダ/フッタのような、通常は印刷文字が存在しない余白領域に、何らかの印刷文字が存在する場合も考えられる。この場合、制御部11(文字認識部11c)は、図5のS105でアプリケーションの特徴情報としてヘッダ/フッタの情報を取得し、ヘッダ/フッタに対する処理が設定されている場合は、余白領域に存在するオブジェクトであっても、ヘッダ領域/フッタ領域に存在するオブジェクトは印刷文字と判断して、文字認識手法をOCR処理に決定し、OCR処理を実行することができる。
その際、MicrosoftのWord(登録商標)の場合、ヘッダの記述形式に各種書式が存在するため、制御部11(文字認識部11c)は、例えば、図12に示すようなユーザI/F(ここではヘッダ設定用ユーザI/F)を表示操作部17に表示させる。そして、ヘッダを印刷文字として認識したい場合はヘッダ設定にチェックを入れ、どのタイプが該当するかを設定する。図11の例では”空白”形式が該当するため、図12のように空白にチェックを入れる。また、フッタの場合も同様に設定する。そして、ヘッダ/フッタの設定情報をそのアプリケーションの特徴情報として記憶部15などに記憶しておくことにより、ヘッダ領域/フッタ領域に存在するオブジェクトに対してOCR処理を実行することができる。
以上、説明したように、紙文書をスキャンしたスキャンデータを解析して印刷文字及び手書き文字の各々をオブジェクトとして抽出し、抽出したオブジェクトの配置情報を取得し、予め記憶したアプリケーション毎のレイアウト構成の特徴情報と比較して、取得した配置情報に対応するアプリケーションを特定し、特定したアプリケーションの特徴情報に基づいて文字認識手法を決定し、決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行し、文字認識結果に基づいて電子文書を作成して出力することにより、文字認識精度を落とさずに処理効率を向上させることができ、印刷文字と手書き文字とが混在する紙文書から適切に電子文書を作成することができる。
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨を逸脱しない限りにおいて、その構成や制御方法は適宜変更可能である。
例えば、上記実施例では、画像形成装置10が電子文書作成装置として機能する場合について説明したが、コンピュータ装置20が電子文書作成装置として機能する場合に対しても、本発明の電子文書作成方法を同様に適用することができる。
本発明は、OCRとICRとを組み合わせて電子文書を作成する電子文書作成装置、電子文書作成方法、電子文書作成プログラム及び当該電子文書作成プログラムを記録した記録媒体に利用可能である。
10 画像形成装置
11 制御部
11a 解析部
11b アプリケーション特定部
11c 文字認識部
11d 電子文書作成部
12 CPU
13 ROM
14 RAM
15 記憶部
16 ネットワークI/F部
17 表示操作部
18 画像読取部
19 印刷処理部
20 コンピュータ装置
21 制御部
21a スキャンデータ取得部
21b 解析部
21c アプリケーション特定部
21d 文字認識部
21e 電子文書作成部
22 CPU
23 ROM
24 RAM
25 記憶部
26 スキャナI/F部
27 表示部
28 操作部
30 スキャナ
11 制御部
11a 解析部
11b アプリケーション特定部
11c 文字認識部
11d 電子文書作成部
12 CPU
13 ROM
14 RAM
15 記憶部
16 ネットワークI/F部
17 表示操作部
18 画像読取部
19 印刷処理部
20 コンピュータ装置
21 制御部
21a スキャンデータ取得部
21b 解析部
21c アプリケーション特定部
21d 文字認識部
21e 電子文書作成部
22 CPU
23 ROM
24 RAM
25 記憶部
26 スキャナI/F部
27 表示部
28 操作部
30 スキャナ
Claims (17)
- 印刷文字と手書き文字とが混在する紙文書から電子文書を作成する電子文書作成装置であって、
前記紙文書をスキャンしたスキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する解析部と、
前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定するアプリケーション特定部と、
前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する文字認識部と、
文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する電子文書作成部と、を備える、
ことを特徴とする電子文書作成装置。 - 前記特徴情報は、印刷領域であり、
前記文字認識部は、前記印刷領域に存在するオブジェクトは前記印刷文字と判断して、OCR(Optical character recognition)処理を実行し、前記印刷領域以外の領域に存在するオブジェクトは前記手書き文字と判断して、ICR(Intelligent Character Recognition)処理を実行する、
ことを特徴とする請求項1に記載の電子文書作成装置。 - 前記特徴情報は、前記印刷領域の調整幅であり、
前記文字認識部は、前記印刷領域の外周に前記調整幅の境界領域を設定し、前記境界領域にオブジェクトが存在する場合は、前記オブジェクトの傾きを取得し、前記傾きが予め定めた閾値を超える場合は、当該オブジェクトは前記手書き文字と判断して、ICR処理を実行する、
ことを特徴とする請求項2に記載の電子文書作成装置。 - 前記文字認識部は、前記印刷領域に存在するオブジェクトに対して行ったOCR処理の認識率が予め定めた閾値未満の場合は、当該オブジェクトは前記手書き文字と判断して、ICR処理を実行する、
ことを特徴とする請求項2又は3に記載の電子文書作成装置。 - 前記特徴情報は、ヘッダ及び/又はフッタの情報であり、
前記文字認識部は、ヘッダ及び/又はフッタに対する処理が設定されている場合は、前記印刷領域外のヘッダ領域及び/又はフッタ領域に存在するオブジェクトは前記印刷文字と判断して、OCR処理を実行する、
ことを特徴とする請求項2乃至4のいずれか一に記載の電子文書作成装置。 - 前記電子文書作成装置は、前記紙文書をスキャンする画像読取部を備える画像形成装置である、
ことを特徴とする請求項1乃至5のいずれか一に記載の電子文書作成装置。 - 印刷文字と手書き文字とが混在する紙文書から電子文書を作成する電子文書作成システムにおける電子文書作成方法であって、
前記紙文書をスキャンしてスキャンデータを取得する第1処理と、
前記スキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する第2処理と、
前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定する第3処理と、
前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する第4処理と、
文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する第5処理と、を実行する、
ことを特徴とする電子文書作成方法。 - 前記特徴情報は、印刷領域であり、
前記第4処理では、前記印刷領域に存在するオブジェクトは前記印刷文字と判断して、OCR(Optical character recognition)処理を実行し、前記印刷領域以外の領域に存在するオブジェクトは前記手書き文字と判断して、ICR(Intelligent Character Recognition)処理を実行する、
ことを特徴とする請求項7に記載の電子文書作成方法。 - 前記特徴情報は、前記印刷領域の調整幅であり、
前記第4処理では、前記印刷領域の外周に前記調整幅の境界領域を設定し、前記境界領域にオブジェクトが存在する場合は、前記オブジェクトの傾きを取得し、前記傾きが予め定めた閾値を超える場合は、当該オブジェクトは前記手書き文字と判断して、ICR処理を実行する、
ことを特徴とする請求項8に記載の電子文書作成方法。 - 前記第4処理では、前記印刷領域に存在するオブジェクトに対して行ったOCR処理の認識率が予め定めた閾値未満の場合は、当該オブジェクトは前記手書き文字と判断して、ICR処理を実行する、
ことを特徴とする請求項8又は9に記載の電子文書作成方法。 - 前記特徴情報は、ヘッダ及び/又はフッタの情報であり、
前記第4処理では、ヘッダ及び/又はフッタに対する処理が設定されている場合は、前記印刷領域外のヘッダ領域及び/又はフッタ領域に存在するオブジェクトは前記印刷文字と判断して、OCR処理を実行する、
ことを特徴とする請求項8乃至10のいずれか一に記載の電子文書作成方法。 - 印刷文字と手書き文字とが混在する紙文書から電子文書を作成する装置で動作する電子文書作成プログラムであって、
前記装置に、
前記紙文書をスキャンしたスキャンデータを取得する第1処理、
前記スキャンデータを解析して、前記印刷文字及び前記手書き文字の各々をオブジェクトとして抽出する第2処理、
前記抽出したオブジェクトの紙面上の配置情報を取得し、予め記憶した、アプリケーション毎のレイアウト構成の特徴情報と比較して、前記取得した配置情報に対応するアプリケーションを特定する第3処理、
前記特定したアプリケーションの前記特徴情報に基づいて文字認識手法を決定し、前記決定した文字認識手法に従って、各々のオブジェクトに対して文字認識処理を実行する第4処理、
文字認識結果に基づいて電子文書を作成し、前記作成した電子文書を出力する第5処理、を実行させる、
ことを特徴とする電子文書作成プログラム。 - 前記特徴情報は、印刷領域であり、
前記第4処理では、前記印刷領域に存在するオブジェクトは前記印刷文字と判断して、OCR(Optical character recognition)処理を実行し、前記印刷領域以外の領域に存在するオブジェクトは前記手書き文字と判断して、ICR(Intelligent Character Recognition)処理を実行する、
ことを特徴とする請求項12に記載の電子文書作成プログラム。 - 前記特徴情報は、前記印刷領域の調整幅であり、
前記第4処理では、前記印刷領域の外周に前記調整幅の境界領域を設定し、前記境界領域にオブジェクトが存在する場合は、前記オブジェクトの傾きを取得し、前記傾きが予め定めた閾値を超える場合は、当該オブジェクトは前記手書き文字と判断して、ICR処理を実行する、
ことを特徴とする請求項13に記載の電子文書作成プログラム。 - 前記第4処理では、前記印刷領域に存在するオブジェクトに対して行ったOCR処理の認識率が予め定めた閾値未満の場合は、当該オブジェクトは前記手書き文字と判断して、ICR処理を実行する、
ことを特徴とする請求項13又は14に記載の電子文書作成プログラム。 - 前記特徴情報は、ヘッダ及び/又はフッタの情報であり、
前記第4処理では、ヘッダ及び/又はフッタに対する処理が設定されている場合は、前記印刷領域外のヘッダ領域及び/又はフッタ領域に存在するオブジェクトは前記印刷文字と判断して、OCR処理を実行する、
ことを特徴とする請求項13乃至15のいずれか一に記載の電子文書作成プログラム。 - 前記装置は、前記紙文書をスキャンする画像読取部を備える画像形成装置である、
ことを特徴とする請求項12乃至16のいずれか一に記載の電子文書作成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017126018A JP2019008697A (ja) | 2017-06-28 | 2017-06-28 | 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017126018A JP2019008697A (ja) | 2017-06-28 | 2017-06-28 | 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019008697A true JP2019008697A (ja) | 2019-01-17 |
Family
ID=65026030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017126018A Pending JP2019008697A (ja) | 2017-06-28 | 2017-06-28 | 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019008697A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020135295A (ja) * | 2019-02-18 | 2020-08-31 | 京セラドキュメントソリューションズ株式会社 | 情報処理システム |
JP2020135296A (ja) * | 2019-02-18 | 2020-08-31 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置および情報処理システム |
CN111914597A (zh) * | 2019-05-09 | 2020-11-10 | 杭州睿琪软件有限公司 | 一种文档对照识别方法、装置、电子设备和可读存储介质 |
CN112115735A (zh) * | 2019-06-19 | 2020-12-22 | 国网江苏省电力有限公司常州供电分公司 | 一种针对保密文件的识别管理方法 |
CN113780285A (zh) * | 2021-09-27 | 2021-12-10 | 常州市公共资源交易中心 | 证照分析方法、装置和存储介质 |
-
2017
- 2017-06-28 JP JP2017126018A patent/JP2019008697A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020135295A (ja) * | 2019-02-18 | 2020-08-31 | 京セラドキュメントソリューションズ株式会社 | 情報処理システム |
JP2020135296A (ja) * | 2019-02-18 | 2020-08-31 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置および情報処理システム |
JP7298178B2 (ja) | 2019-02-18 | 2023-06-27 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置および情報処理システム |
CN111914597A (zh) * | 2019-05-09 | 2020-11-10 | 杭州睿琪软件有限公司 | 一种文档对照识别方法、装置、电子设备和可读存储介质 |
CN111914597B (zh) * | 2019-05-09 | 2024-03-15 | 杭州睿琪软件有限公司 | 一种文档对照识别方法、装置、电子设备和可读存储介质 |
CN112115735A (zh) * | 2019-06-19 | 2020-12-22 | 国网江苏省电力有限公司常州供电分公司 | 一种针对保密文件的识别管理方法 |
CN113780285A (zh) * | 2021-09-27 | 2021-12-10 | 常州市公共资源交易中心 | 证照分析方法、装置和存储介质 |
CN113780285B (zh) * | 2021-09-27 | 2024-03-15 | 常州市公共资源交易中心 | 证照分析方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019008697A (ja) | 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム | |
US8112706B2 (en) | Information processing apparatus and method | |
JP5712487B2 (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
US8126270B2 (en) | Image processing apparatus and image processing method for performing region segmentation processing | |
JP7387339B2 (ja) | 画像処理システム、画像処理方法、及びプログラム | |
US7528986B2 (en) | Image forming apparatus, image forming method, program therefor, and storage medium | |
US20060285748A1 (en) | Document processing device | |
US11341733B2 (en) | Method and system for training and using a neural network for image-processing | |
JP2008052372A (ja) | 画像処理装置、手書き情報認識方法、手書き情報認識プログラム | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
US9614984B2 (en) | Electronic document generation system and recording medium | |
JP2017090974A (ja) | 画像処理装置及びプログラム | |
US11941903B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
JP6930455B2 (ja) | 情報処理装置 | |
JP7234495B2 (ja) | 画像処理装置及びプログラム | |
US11288536B2 (en) | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium | |
JP2023013501A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP6662108B2 (ja) | 画像変換プログラム及び画像変換装置並びに画像変換方法 | |
US20230077608A1 (en) | Information processing apparatus, information processing method, and storage medium | |
US20230029990A1 (en) | Image processing system and image processing method | |
WO2022097408A1 (ja) | 画像処理装置及び画像形成装置 | |
JP2012090155A (ja) | 画像形成装置及びデータ処理プログラム | |
JP2010026986A (ja) | 画像形成装置 | |
JP2022029228A (ja) | 画像処理装置、画像形成システム、画像処理方法、およびプログラム | |
JP2023021595A (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20191119 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20191122 |