JP7497620B2

JP7497620B2 - 文書データ生成装置、画像形成装置、及び文書データ生成プログラム

Info

Publication number: JP7497620B2
Application number: JP2020095706A
Authority: JP
Inventors: 貴之齋藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2024-06-11
Anticipated expiration: 2040-06-01
Also published as: JP2021189859A

Description

本発明は、文書データ生成装置、画像形成装置、及び文書データ生成プログラムに関する。

文字や画像が記されている原稿をスキャナで読み取り、光学文字認識（ＯＣＲ：Optical Character Recognition/Reader）の技術を用いて文書データを抽出することが、日常的に行われている。

関連する技術として、検索精度を高める目的で、文字認識において複数の認識候補が得られた場合に、画像データの対応する所定区切り単位の位置または近傍に、候補となるデータを透明で生成する開示されている（例えば特許文献１）。

ＯＣＲを活用した従来技術では、元の文字の痕跡が消去されてしまうため、誤認識が発生した場合、認識後の文書データのみでは元の文書に何が書いてあるかを判別することができなくなる。

特許文献１の技術では、誤認識の可能性のある文字については、その他の候補文字を組み入れた文書データを生成することができる。しかしながら特許文献１の技術では、文字検索に活用するため、すなわち検索でヒットさせるために候補文字を組み入れることから、候補となる文字を不可視の状態で組み入れる。よって、認識後のデータを通常のやり方で表示させ、もしくは印刷した場合、従来技術と同様に元の文字を判別することができない。

また特許文献１の技術では、編集困難なファイル形式で文字認識後のデータを出力するため、生成した文書データに誤認識があり、利用者がこれに気付いても、容易に修正するのができない。

本発明は、ＯＣＲによる文字認識で誤認識があった場合でも、利用者に元の文字を推測するための手がかりを与える技術を提供することを目的とする。

上記課題を解決するために、文書データ生成装置は、画像データから抽出した文字を含めた文書データを生成する文書データ生成装置であって、文字認識処理によって、前記画像データから抽出した文字画像に対応する文字コードを特定すると共に、当該文字コードの確からしさを表す認識度を算出する文字認識部と、前記文字認識部で算出した前記認識度に応じて、前記文字画像に対応する文字の態様を異ならせた前記文書データを生成する文書データ生成部とを備え、前記文書データは、レイアウトが前記画像データで示される画像に対応するテキスト領域と、前記テキスト領域と異なるコメント領域とを含み、前記文字認識部は、１つの前記文字画像に対して、候補となる複数の前記文字コードを特定すると共に、複数の前記文字コードそれぞれに対応する複数の前記認識度を算出し、前記文書データ生成部は、前記文字認識部で算出した最大の前記認識度が第１閾値以上の場合に、前記文字認識部で特定した複数の前記文字コードのうち、前記最大の認識度に対応する前記文字コードのみを前記文書データに含め、前記最大の認識度が前記第１閾値未満で且つ前記第１閾値より小さい第２閾値以上の場合に、前記最大の認識度に対応する前記文字コードで表される第１候補テキストを、前記テキスト領域に配置し、他の前記文字コードで表される代替候補テキストを、前記第１候補テキストに関連付けて前記コメント領域に配置することを特徴とする。

本発明によれば、ＯＣＲによる文字認識で誤認識があった場合でも、利用者に元の文字を推測するための手がかりを与えることができる。

本実施形態のシステム構成を例示する図。画像形成装置のハードウェア構成図。ＰＣのハードウェア構成を示した図。本実施形態の文書データ生成装置の構成例を示すブロック図。図４に示す各機能部が生成するデータを例示する図。文書データ生成装置が実行する処理のフローチャート。文書データ生成処理のフローチャート。一文字出力処理のフローチャート。文字認識部が生成する文字コード及び認識度のリストの一例を示す図。文書データ生成部が生成した文書データの表示例を示す図。

以下、本実施形態に係る文書データ生成装置、画像形成装置、及び文書データ生成プログラムについて、図面などを参照しながら説明する。

＜システム構成＞
図１は、本実施形態のシステム構成を例示する図である。システム１は、画像形成装置１１０、ファイルサーバ１２０、２つのパーソナルコンピュータであるＰＣ１４０、ＰＣ１５０を有し、これらが通信ネットワーク１９０を介して相互にデータの送受信を行う構成となっている。

画像形成装置１１０は、原稿シートを読み取って画像データを生成するスキャナ部２３１、シート上に画像を形成するプリンタ部２３２、および通信機能などを備える。スキャナ部２３１は、ＡＤＦ（Auto Document Feeder：自動原稿送り装置）が設けられている場合はＡＤＦにセットされた原稿シートを読み取る。画像形成装置１１０は、スキャナ部２３１、プリンタ部２３２を用いることで、コピー、プリンタ、スキャナ、ファクシミリの各機能を利用者に提供する。また操作パネル２４０を介して利用者から指示を受け付け、もしくは通信ネットワーク１９０を介してＰＣ１４０、ＰＣ１５０から指示を受け付けることで、画像形成装置１１０はこれら機能を実行する。

また、画像形成装置１１０は、光学文字認識（以下、必要に応じて単に「文字認識」、もしくは「ＯＣＲ」と称する）の技術を用いて、スキャナ部２３１で生成された画像データから文字を抽出する機能も有している。

ＰＣ１４０、ＰＣ１５０は、画像形成装置１１０を利用する一般ユーザが用いる端末（コンピュータ）である。

ファイルサーバ１２０は、画像形成装置１１０の読取機能によって読み取られた画像データを蓄積するサーバ（コンピュータ）である。ファイルサーバ１２０には、利用者ごとに専用フォルダが設けられ、当該専用フォルダ内にファイルを格納して各種データを保持する。またファイルサーバ１２０は、画像形成装置１１０の文書データ生成機能により生成された文書データを格納する。

＜各装置のハードウェア構成＞
図２は、画像形成装置１１０（ＭＦＰ：Multifunction Peripheral/Product/Printer）のハードウェア構成図である。図２に示されているように、画像形成装置１１０は、コントローラ２１０、近距離通信回路２２０、エンジン制御部２３０、操作パネル２４０、ネットワークＩ／Ｆ２５０を備えている。

これらのうち、コントローラ２１０は、コンピュータの主要部であるＣＰＵ２０１、システムメモリ（ＭＥＭ－Ｐ）２０２、ノースブリッジ（ＮＢ）２０３、サウスブリッジ（ＳＢ）２０４、ＡＳＩＣ(Application Specific Integrated Circuit)２０６、記憶部であるローカルメモリ（ＭＥＭ－Ｃ）２０７、ＨＤＤコントローラ２０８、及び、記憶部であるＨＤ２０９を有し、ＮＢ２０３とＡＳＩＣ２０６との間をＡＧＰ(Accelerated Graphics Port)バス２２１で接続した構成となっている。

これらのうち、ＣＰＵ２０１は、画像形成装置１１０の全体制御を行う制御部である。ＮＢ２０３は、ＣＰＵ２０１と、ＭＥＭ－Ｐ２０２、ＳＢ２０４、及びＡＧＰバス２２１とを接続するためのブリッジであり、ＭＥＭ－Ｐ２０２に対する読み書きなどを制御するメモリコントローラと、ＰＣＩ(Peripheral Component Interconnect)マスタ及びＡＧＰターゲットとを有する。

ＭＥＭ－Ｐ２０２は、コントローラ２１０の各機能を実現させるプログラムやデータの格納用メモリであるＲＯＭ２０２ａ、プログラムやデータの展開、及びメモリ印刷時の描画用メモリなどとして用いるＲＡＭ２０２ｂとからなる。なお、ＲＡＭ２０２ｂに記憶されているプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

ＳＢ２０４は、ＮＢ２０３とＰＣＩデバイス、周辺デバイスとを接続するためのブリッジである。ＡＳＩＣ２０６は、画像処理用のハードウェア要素を有する画像処理用途向けのＩＣ(Integrated Circuit)であり、ＡＧＰバス２２１、ＰＣＩバス２２２、ＨＤＤコントローラ２０８およびＭＥＭ－Ｃ２０７をそれぞれ接続するブリッジの役割を有する。このＡＳＩＣ２０６は、ＰＣＩターゲットおよびＡＧＰマスタ、ＡＳＩＣ２０６の中核をなすアービタ（ＡＲＢ）、ＭＥＭ－Ｃ２０７を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のＤＭＡＣ(Direct Memory Access Controller)、並びに、スキャナ部２３１及びプリンタ部２３２との間でＰＣＩバス２２２を介したデータ転送を行うＰＣＩユニットとからなる。なお、ＡＳＩＣ２０６には、ＵＳＢ(Universal Serial Bus)のインターフェースや、ＩＥＥＥ１３９４(Institute of Electrical and Electronics Engineers 1394)のインターフェースを接続するようにしてもよい。

ＭＥＭ－Ｃ２０７は、コピー用画像バッファ及び符号バッファとして用いるローカルメモリである。ＨＤ２０９は、画像データの蓄積、印刷時に用いるフォントデータの蓄積、フォームの蓄積を行うためのストレージである。ＨＤ２０９は、ＣＰＵ２０１の制御にしたがってＨＤ２０９に対するデータの読出又は書込を制御する。ＡＧＰバス２２１は、グラフィック処理を高速化するために提案されたグラフィックスアクセラレータカード用のバスインタフェースであり、ＭＥＭ－Ｐ２０２に高スループットで直接アクセスすることにより、グラフィックスアクセラレータカードを高速にすることができる。

また、近距離通信回路２２０には、近距離通信回路２２０ａが備わっている。近距離通信回路２２０は、ＮＦＣ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の通信回路である。

更に、エンジン制御部２３０は、スキャナ部２３１及びプリンタ部２３２によって構成されている。また、操作パネル２４０は、現在の設定値や選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等のパネル表示部２４０ａ、並びに、濃度の設定条件などの画像形成に関する条件の設定値を受け付けるテンキー及びコピー開始指示を受け付けるスタートキー等からなる操作パネル２４０ｂを備えている。コントローラ２１０は、画像形成装置１１０全体の制御を行い、例えば、描画、通信、操作パネル２４０からの入力等を制御する。スキャナ部２３１又はプリンタ部２３２には、誤差拡散やガンマ変換などの画像処理部分が含まれている。

なお、画像形成装置１１０は、操作パネル２４０のアプリケーション切り替えキーにより、ドキュメントボックス機能、コピー機能、プリンタ機能、およびファクシミリ機能を順次に切り替えて選択することが可能となる。ドキュメントボックス機能の選択時にはドキュメントボックスモードとなり、コピー機能の選択時にはコピーモードとなり、プリンタ機能の選択時にはプリンタモードとなり、ファクシミリモードの選択時にはファクシミリモードとなる。

また、ネットワークＩ／Ｆ２５０は、通信ネットワーク１００を利用してデータ通信をするためのインターフェースである。近距離通信回路２２０及びネットワークＩ／Ｆ２５０は、ＰＣＩバス２２２を介して、ＡＳＩＣ２０６に電気的に接続されている。

図３は、ＰＣ１４０のハードウェア構成を示した図である。図３ではＰＣ１４０を例にしているが、ＰＣ１５０やファイルサーバ１２０などのコンピュータについても同様構成となっている。

ＰＣ１４０はコンピュータによって構築されており、ＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＨＤ３０４、ＨＤＤコントローラ３０５、ディスプレイ３０６、外部機器接続Ｉ／Ｆ３０８、ネットワークＩ／Ｆ３０９、データバス３１０、キーボード３１１、ポインティングデバイス３１２、ＤＶＤ－ＲＷ（Digital Versatile Disk Rewritable）ドライブ３１４、メディアＩ／Ｆ３１６を備えている。

ＣＰＵ３０１は、ＰＣ１４０の全体動作を制御する。ＲＯＭ３０２は、ＩＰＬ等のＣＰＵ３０１の駆動に用いられるプログラムを記憶する。ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして使用される。ＨＤ３０４は、プログラム等の各種データを記憶する。ＨＤＤコントローラ３０５は、ＣＰＵ３０１の制御にしたがってＨＤ３０４に対する各種データの読み出しまたは書き込みを制御する。ディスプレイ３０６は、カーソル、メニュー、ウィンドウ、文字、または画像などの各種情報を表示する。外部機器接続Ｉ／Ｆ３０８は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、ＵＳＢ（Universal Serial Bus）メモリやプリンタ等である。ネットワークＩ／Ｆ３０９は、通信ネットワーク１９０を利用してデータ通信をするためのインターフェースである。データバス３１０は、図３に示されているＣＰＵ３０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

キーボード３１１は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス３１２は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。ＤＶＤ－ＲＷドライブ３１４は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ３１３に対する各種データの読み出しまたは書き込みを制御する。尚、ＤＶＤ－ＲＷに限らず、ＤＶＤ－Ｒ等、その他のメディアであってもよい。メディアＩ／Ｆ３１６は、フラッシュメモリ等の記録メディア３１５に対するデータの読み出しまたは書き込み（記憶）を制御する。

＜本実施形態の態様＞
図４は、本実施形態の文書データ生成装置４００の構成例を示すブロック図である。図５は、図４に示す各機能部が生成するデータを例示する図である。図６は、文書データ生成装置が実行する処理のフローチャートである。図７は、文書データ生成処理のフローチャートである。図８は、一文字出力処理のフローチャートである。図９は、文字認識部４０４が生成する文字コード及び認識度のリストの一例を示す図である。図１０は、文書データ生成部４０６が生成した文書データの表示例を示す図である。

本実施形態の文書データ生成装置４００は、原稿を読み取って得られた画像データ（以下、「スキャン画像データ」と表記する。）から抽出した文字を含めた文書データを生成する装置である。文書データ生成装置４００は画像形成装置１１０に組み込まれており、画像形成装置１１０の各種ハードウェアリソースを共用する構成となっている。また図２に示すコントローラ２１０が、文書データ生成装置４００の主要部となっている。

本明細書において、「画像データ」とは、各々が色や輝度の情報を持つ複数の画素（ドット）を縦横に配列したデータを指す。また、「画像」とは、画像データに含まれる色や輝度の情報をグラフィックメモリに展開することによって、ディスプレイ上で可視化された図柄を指す。すなわち、画像は、イラストだけでなく、文字を含むことがある。以下、画像データで表される文字を「文字画像」と表記する。

一方、「文書データ」とは、少なくとも文字コードを含むデータであって、さらに画像を含むことがある。「文字コード」とは、例えば、ＡＳＣＩＩ、Ｕｎｉｃｏｄｅ等のように、文字それぞれに割り当てられたコードの集合体である。以下、文字コードで表される文字を「テキスト」と表記する。

すなわち、文書データ生成装置４００は、同一の文字（Ｃｈａｒａｃｔｅｒ）を、画像データ（すなわち、当該文字の外形を表すドットの集合）として扱うこともできるし、文字コードとして扱うこともできる。本明細書中において、単に「文字」と表記するときは、文字画像及びテキストの一方または両方を指すものとする。

文書データ生成装置４００は、上記のスキャナ部２３１を有する。また、文書データ生成装置４００は、コントローラ２１０が動作することで実現される前処理部４０１、２値化部４０２、文字領域抽出部４０３、文字認識部４０４、文字消去部４０５、文書データ生成部４０６を有している。前処理部４０１、２値化部４０２、文字領域抽出部４０３、文字認識部４０４、文字消去部４０５、および文書データ生成部４０６は、コントローラ２１０内のＣＰＵ３０１が、ＨＤ２０９に記憶されている文書データ生成プログラムをＲＡＭ２０２ｂに展開し、演算実行することで実現される機能部である。

スキャナ部２３１は、操作パネル２４０を通じて利用者から画像読取の命令を受けると、読み取り面に載置された原稿シートを読み取り、フルカラーの画像データ（以下、「スキャン画像データ」と表記する。）に変換して出力する（Ｓ６０１）。そして、スキャナ部２３１は、生成したスキャン画像データを前処理部４０１に引き渡す。スキャン画像データで示される画像（以下、「スキャン画像」と表記する。）の一例を図５（Ａ）に示す。

前処理部４０１は、スキャン画像から文字画像を抽出する上で前提となる前処理を画像データに対して行う（Ｓ６０２）。前処理部４０１は、例えば原稿の傾き補正、スキャナ部２３１の機種の差異を吸収した画像を得るための補正（シェーディング補正等）などを実施する。前処理部４０１によって前処理が行われた画像データを「前処理後画像データ」と表記し、前処理後画像データで示される画像を「前処理後画像」と表記する。

前処理後画像データは、２値化部４０２および文字消去部４０５に引き渡され、２つのパスで処理される。２値化部４０２を通るパスは前処理後画像から文字画像を抽出する処理であり、文字消去部４０５を通るパスは前処理後画像から文字画像を消去する処理である。また、前処理後画像データは、他の機能部が参照できるように、ＨＤ２０９等に保存される。

２値化部４０２は、前処理後画像データを２値化して、２値化画像データを生成する（Ｓ６０３）。２値化画像データで示される画像を「２値化画像」と表記する。一例として、２値化とは、スキャン画像を構成する各画素のうち、画素値（例えば、ＲＧＢの合計）が閾値以上の画素に画素値“１”を設定し、画素値が閾値未満の画素に画素値“０”を設定する処理を指す。画素値が閾値以上の画素は、文字画像を構成する画素に相当する。但し、２値化の具体的な処理内容は、前述の例に限定されない。２値化部４０２により生成される２値化画像データは、文字領域抽出部４０３に引き渡される。

文字領域抽出部４０３は、文字画像を含む矩形領域を２値化画像から抽出する（Ｓ６０４）。文字領域抽出部４０３は、連続した文字画像（例えば画像内の１行分の文字列）を含む矩形領域を２値化画像から抽出し、この矩形領域の画像（「文字部２値画像」と表記する。）を示す文字部２値画像データと、２値化画像内における文字部２値画像の位置を示す位置情報とを、文字認識部４０４に引き渡す。

より詳細には、文字領域抽出部４０３は、図５（Ａ）の「使いやすさと、」、「優れた性能を両立」それぞれを囲む矩形の文字部２値画像を抽出する。また、文字領域抽出部４０３は、２値画像の左上隅を原点とする座標系において、抽出した文字部２値画像の左上隅及び右下隅の座標のセットを、位置情報として生成する。

また、文字領域抽出部４０３は、文字画像を構成する画素の集合を２値化画像から抽出し、文字部領域情報として文字消去部４０５に引き渡す。文字部領域情報とは、２値化画像のうち、画素値“１”が設定された画素の集合を示す情報である。文字部領域情報は、例えば、画素値を縦横に配列した情報であってもよいし、スキャン画像内における位置を示す情報であってもよい。

文字認識部４０４は、既存のＯＣＲ技術を用いて、文字部２値画像に含まれる文字認識処理を行う（Ｓ６０５）。文字認識処理とは、文字画像に対応する文字コードを特定すると共に、当該文字コードの認識度を算出する処理である。認識度とは、特定した文字コードが文字画像を表すものである確からしさを示す指標値である。

文字認識部４０４には、例えば、周知のＯＣＲエンジンを採用することができるが、例えば以下の手順で処理を行う。まず、文字認識部４０４は、文字画像を所定の大きさに正規化し、特徴（方向成分）を抽出する。次に、文字認識部４０４は、文字画像から抽出した特徴と、予め用意された標準パターンとをマッチングする。そして、文字認識部４０４は、特徴の一致度が高い標準パターンから順に、文字コードの候補として特定する。さらに、文字認識部４０４は、特徴の一致度を「認識度」として扱う。但し、文字認識部４０４の具体的な処理方法は、前述の例に限定されない。

文字認識部４０４は、文字画像に対応する可能性のある複数の文字コードの候補を特定することがある。文字認識部４０４は、候補となる複数の文字コードを、対応する認識度が高い順に第１候補Ｃ（１）、第２候補Ｃ（２）、・・・として選定する。なお、第１候補Ｃ（１）の認識度Ｐ（１）は、同一の文字画像に対応する複数の認識度Ｐのうちの最大の認識度である。すなわち、第１候補Ｃ（１）は、候補となる複数の文字コードのうち、文字画像を表すものとして最も確からしいことになる。

文字認識部４０４は、文字部２値画像に含まれる全ての文字画像に対して、前述の処理を行う。そして、文字認識部４０４は、文字コード及び認識度のリストと、文字領域抽出部４０３から取得した位置情報とを、文書データ生成部４０６に引き渡す。

文字部２値画像「優れた性能を両立」に対する文字認識部４０４の処理結果の一例を図９に示す。図９に示すように、文字認識部４０４は、文字画像“れ”、“た”、“性”、“を”、“両”、“立”それぞれに対応する文字コードと、当該文字コードの認識度とを、１つずつ特定する。

一方、文字認識部４０４は、文字画像“優”に対応する文字コードの候補として、文字コードＣ（１）＝“優（＝０ｘＣＤＡ５）”、文字コードＣ（２）＝“憂（＝０ｘＣＤＡＢ）”、文字コードＣ（３）＝“愛（＝０ｘＢ０Ａ６）”を特定し、特定した文字コードＣ（１）～（３）の認識度を、認識度Ｐ（１）＝０．４５、認識度Ｐ（２）＝０．２５、認識度Ｐ（３）＝０．２０と算出する。

また、文字認識部４０４は、文字画像“能”に対応する文字コードの候補として、文字コードＣ（１）＝“能（＝０ｘＣ７ＢＤ）”、文字コードＣ（２）＝“熊（＝０ｘＢ７Ａ７）”、文字コードＣ（３）＝“態（＝０ｘＣ２Ｄ６）”を特定し、特定した文字コードＣ（１）～（３）の認識度を、認識度Ｐ（１）＝０．２５、認識度Ｐ（２）＝０．２０、認識度Ｐ（３）＝０．１５と算出する。

文字消去部４０５は、前処理部４０１から引き渡された前処理後画像データ、および文字領域抽出部４０３から引き渡された文字部領域情報を用いて、前処理後画像から文字画像を除外した文字抜き画像データを生成する（Ｓ６０６）。文字抜き画像データで示される画像（以下、「文字抜き画像」と表記する。）の一例を図５（Ｂ）に示す。

より詳細には、文字消去部４０５は、文字部領域情報に示される部分を前処理後画像から除外して、文字抜き画像を生成する。また、文字消去部４０５は、除外した部分の各画素の値（画素値）に、周囲の画素の画素値から算出した補間値を割り当てるものとする。文字消去部４０５は、このようにして生成した文字抜き画像データを、文書データ生成部４０６に引き渡す。なお、文字抜き画像に関しては、画像領域ごとに分割し、領域ごとの画像、位置情報を付記する形式で保存することも想定される。

文書データ生成部４０６は、文字認識部４０４から取得した文字コード、認識度、及び位置情報と、文字消去部４０５から取得した文字抜き画像データとに基づいて、文書データ生成処理を実行する（Ｓ６０７）。文書データ生成処理の詳細は、図７及び図８を参照して後述する。

文書データは、既存のワードプロセッサ用ソフトウェアで閲覧や編集を行うことのできる形式のデータ（ファイル）である。また、文書データは、文字コードで表されるテキストを文字抜き画像に重畳させた形式のデータである。図５（Ａ）のスキャン画像から生成された文書データの表示例として、全ての文字コードの認識度が第１閾値（Ｔｈ＿Ａ）以上の場合を図５（Ｃ）に示し、一部の文字コードの認識度が第１閾値（Ｔｈ＿Ａ）未満の場合を図１０に示す。但し、図１０の表示例では、文字抜き画像を省略している。

本実施形態では、「Open XML」のファイルフォーマットで文書データを作成する。「Open XML」は、ISO/IEC 29500として標準化されたｘｍｌベースのフォーマットであり、複数のファイルやフォルダから構成される。「Open XML」を構成する各ファイルの中には、例えばテキストのコンテンツを記述する「document.xml」、使用するフォントを規定する「fontTable.xml」、テキストのスタイルを規定する「styles.xml」などが含まれている。各ファイルはｘｍｌ形式のテキストデータであるため、バイナリデータに比べて容易に視認することができ、且つこれら各ファイルを容易に編集することができる。文書データ生成部４０６は、「Open XML」を構成する各ファイルを圧縮して１つのファイルにまとめ、当該圧縮ファイルに「docx」の拡張子を付与して文書データを生成する。

そして、文書データ生成部４０６は、文書データ生成処理で生成した文書データを、ファイルサーバ１２０などの利用者が指定した送信先に送信する（Ｓ６０８）。利用者は、ＰＣ１４０、１５０でワードプロセッサソフトウェアを起動し、ファイルサーバ１２０にアクセスすることで、生成された文書データを閲覧、編集する。

なお、ここでは前処理後画像から文字画像から除去して文字抜き画像を生成して、文字抜き画像にテキストを重畳する例を示したが、例えば罫線や矢印などのオブジェクト（図形）を操作可能とするため、画像（ラスタデータ）からオブジェクトの領域を抽出してベクタライズしてもよい。

次に、図７を参照して、文書データ生成処理（Ｓ６０７）の詳細を説明する。まず、文書データ生成部４０６は、文書データを新規に作成する（Ｓ７０１）。また、文書データ生成部４０６は、文書データを保存するためのファイルのオープンし、文書データ全体で用いられる共通コードを作成して保存する。

次に、文書データ生成部４０６は、「ページ毎処理ループ」を実施する（Ｓ７０２Ａ～Ｓ７０２Ｂ）。このループを抜ける条件は、「次ページが存在するか？」であり、文書データ生成部４０６は、入力された１ページないし複数ページの全ての処理が終わるまで、Ｓ７０２ＡからＳ７０２Ｂまでの各ステップを実行する。なお、文書データの１ページは、１枚のスキャン画像（すなわち、１枚の原稿）に対応する。

文書データ生成部４０６は、ページ追加処理を行う（Ｓ７０３）。ここでは、１ページ毎に必要なコードを作成して保存する。次に、文書データ生成部４０６は、文字消去部５０４から取得した文字抜き画像データを、ステップＳ７０３で追加したページの背景画像として設定する（Ｓ７０４）。

次に、文書データ生成部４０６は、「文字領域毎処理ループ」を実施する（Ｓ７０５Ａ～Ｓ７０５Ｂ）。文字領域毎処理ループは、１ページ内の文字領域ごとに処理を行うものであり、当該ページで文字領域が無くなると、文書データ生成部４０６はこのループを抜ける。ここでの文字領域とは、文字領域抽出部４０３により抽出された連続した文字列（例えば画像内の１行分の文字列）を含めた矩形領域を意味する。すなわち、図５（Ａ）の例では、文字領域“使いやすさと、”、“優れた性能を両立”それぞれに対して、文字領域毎処理ループを実行する。

文書データ生成部４０６は、「文字領域毎処理ループ」内で「一文字毎処理ループ」を実施する（Ｓ７０６Ａ～Ｓ７０６Ｂ）。ここでは、文字領域内の文字列を構成する一文字ごとの処理となり、文字領域内に処理対象の文字が無くなるまで、一文字出力処理（Ｓ７０７）が繰り返し行われる。

一文字出力処理は、文字認識部４０４が生成したリスト（文字コードと認識度とを対応付けて認識度順としたリスト）に含まれる各文字（ｗ＝１、２、・・・）について、１つずつ順に処理するものである。以下、図９に示すリストに基づいて、一文字出力処理の詳細を説明する。なお、図９中の各符号は、以下を意味している。

・“ｎ”は、文字コードの候補の数（リスト内のレコード件数）
・“Ｃ（ｋ）”は、ｋ番目の候補の文字コード及び当該文字コードで示されるテキスト
・Ｐ（ｋ）は、ｋ番目の文字コードの認識度
さらに、Ｐ（ｋ）については、以下の関係が成立しているものとする。

また、Ｔｈ＿ｘは、認識度Ｐ（ｋ）と比較するための閾値であり、比較結果により各文字の態様が変化する。本実施形態では、Ｔｈ＿Ａ＞Ｔｈ＿Ｂ＞Ｔｈ＿Ｃの関係を有するものとする。以下の説明では、第１閾値Ｔｈ＿Ａ＝０．５０、第２閾値Ｔｈ＿Ｂ＝０．４０、第３閾値Ｔｈ＿Ｃ＝０．２０とする。

まず、文書データ生成部４０６は、ｗ＝１の文字画像“優”について、認識度Ｐ（１）＝０．４５と、第１閾値Ｔｈ＿Ａ（＝０．５０）及び第２閾値Ｔｈ＿Ｂ（＝０．０４）とを比較する（Ｓ８０１、Ｓ８０２）。そして、文書データ生成部４０６は、認識度Ｐ（１）が第１閾値未満で且つ第２閾値以上の場合に（Ｓ８０１：Ｎｏ＆Ｓ８０２：Ｙｅｓ）、認識度Ｐ（１）に対応するテキストＣ（１）＝“優”が図１０のテキスト領域１００１に配置されるように、文字コードＣ（１）＝“０ｘＣＤＡ５”を文書データに設定する（Ｓ８０３）。テキストＣ（１）は、第１候補テキストの一例である。

図１０に示すように、ディスプレイに表示された文書データは、テキスト領域１００１と、コメント領域１００２とに区分される。テキスト領域１００１及びコメント領域１００２は、文書データをディスプレイに表示させたときに、ディスプレイ上において異なる領域である。図１０に示すテキスト領域１００１及びコメント領域１００２は、境界線１００３によって左右方向に隣接している。但し、テキスト領域１００１及びコメント領域１００２のレイアウトは、図１０の例に限定されない。

テキスト領域１００１は、レイアウトがスキャン画像に対応する領域である。すなわち、テキスト領域１００１内のテキストの配置は、スキャン画像内の文字画像の配置に対応する。文書データ生成部４０６は、ステップＳ８０３において、文字認識部４０４から取得した位置情報に基づいて、文字コードＣ（１）＝“０ｘＣＤＡ５”の位置情報を文書データに設定する。文書データが「Open XML」の場合、例えば、文字コードＣ（１）及び位置情報が「document.xml」に組み入れられる。

また、文書データ生成部４０６は、ステップＳ８０３において、認識度Ｐ（１）が第１閾値未満で且つ第２閾値以上のテキストＣ（１）＝“優”に下線が付加されるように、文字コードＣ（１）＝“０ｘＣＤＡ５”のフォント情報を文書データに設定する。文書データが「Open XML」の場合、例えば、フォント情報が「fontTable.xml」または「styles.xml」に組み入れられる。

フォント情報は、対応する文字コードで表されるテキストの表示態様を示す情報である。フォント情報には、下線を付加するか否かの他に、テキストの色、テキストの書体、斜体か否か、太字か否か、マーカを付加するか否か、ネガ表示か否かなどを含んでもよい。

次に、文書データ生成部４０６は、Ｓ８０４Ａ～Ｓ８０４Ｂのループ処理を実行する。このループ処理Ｓ８０４Ａ～Ｓ８０４Ｂでは、変数ｋを２～ｎに順次変更しながらステップＳ８０５～Ｓ８０６が実行される。

ｋ＝２のループ処理において、文書データ生成部４０６は、認識度Ｐ（２）＝０．２５と第３閾値Ｔｈ＿Ｃ＝０．２０とを比較する（Ｓ８０５）。そして、文書データ生成部４０６は、Ｐ（２）が第３閾値Ｔｈ＿Ｃ以上の場合に（Ｓ８０５：Ｙｅｓ）、認識度Ｐ（２）に対応するテキストＣ（２）＝“憂”が図１０のコメント領域１００２に配置されるように、文字コードＣ（２）＝“０ｘＣＤＡＢ”を文書データに設定する（Ｓ８０６）。

コメント領域１００２は、ディスプレイ上におけるテキスト領域１００１と異なる領域である。より詳細には、コメント領域１００２は、文字画像“優”に対応するテキストの候補のうち、テキスト領域１００１に配置されるテキストＣ（１）に代わる候補テキスト（代替候補テキスト）を表示する領域である。文書データが「Open XML」の場合、例えば、文字コードＣ（２）が「comments.xml」に組み入れられる。

文書データ生成部４０６は、例えば、ステップＳ８０３で設定した文字コードＣ（１）＝“０ｘＣＤＡ５”と、ステップＳ８０６で設定した文字コードＣ（２）＝“０ｘＣＤＡＢ”とに、同一のＩＤを付与する（すなわち、関連付ける）。これにより、図１０に示すように、文書データをディスプレイに表示させたときに、テキスト領域１００１に配置されるテキストＣ（１）＝“優”と、コメント領域１００２に配置されるテキストＣ（２）＝“憂”とが、リンク線１００４によって関連付けられる。

また、ｋ＝３のループ処理において、文書データ生成部４０６は、認識度Ｐ（３）＝０．２０が第３閾値Ｔｈ＿Ｃ以上だと判断して（Ｓ８０５：Ｙｅｓ）、認識度Ｐ（３）に対応するテキストＣ（３）＝“愛”が図１０のコメント領域１００２に配置されるように、文字コードＣ（３）＝“０ｘＢ０Ａ６”を文書データに設定する（Ｓ８０６）。

次に、文書データ生成部４０６は、ｗ＝２の文字画像“れ”について、認識度Ｐ（１）＝０．９０が第１閾値Ｔｈ＿Ａ以上であると判断して（Ｓ８０１：Ｙｅｓ）、認識度Ｐ（１）に対応するテキストＣ（１）＝“れ”が図１０のテキスト領域１００１に配置されるように、文字コードＣ（１）＝“０ｘＡ４ＥＣ”、位置情報、及びフォント情報を文書データに設定する（Ｓ８０７）。

なお、図１０に示すように、認識度Ｐ（１）が第１閾値Ｔｈ＿Ａ以上のテキスト（１）＝“れ”には、下線が付加されない。すなわち、文書データ生成部４０６は、文字認識部４０４で算出した認識度Ｐに応じて、文字コードに対応付けて文書データに含めるフォント情報を異ならせる。換言すれば、文書データ生成部４０６は、文字認識部４０４で算出した認識度Ｐに応じて、テキスト領域１００１に配置するテキストの表示態様を異ならせる。

一方、フォント情報を異ならせる点を除いて、ステップＳ８０３、Ｓ８０８の処理は共通する。また、文書データ生成部４０６は、認識度Ｐ（１）が第１閾値Ｔｈ＿Ａ以上の場合に、ループ処理Ｓ８０４Ａ～Ｓ８０４Ｂを実行しない。すなわち、文書データ生成部４０６は、認識度Ｐ（１）が第１閾値Ｔｈ＿Ａ以上の場合に、コメント領域１００２に代替テキストを配置しない。また、ｗ＝３、４、６、７、８に対する処理は、ｗ＝２に対する処理と共通するので、再度の説明は省略する。

次に、文書データ生成部４０６は、ｗ＝５の文字画像“能”について、認識度Ｐ（１）＝０．２５が第２閾値Ｔｈ＿Ｂ未満であると判断して（Ｓ８０１：Ｎｏ＆Ｓ８０２：Ｎｏ）、認識度Ｐ（１）に対応する文字画像“能”が図１０のテキスト領域１００１に配置されるように、文字画像及び位置情報を文書データに設定する（Ｓ８０８）。

より詳細には、文書データ生成部４０６は、文字認識部４０４から取得した位置情報に基づいてＨＤ２０９に保存された前処理後画像データから、文字画像“能”を抽出する。そして、文書データが「Open XML」の場合、文書データ生成部４０６は、抽出した文字画像“能”を、「media」フォルダに格納する。

次に、文書データ生成部４０６は、認識度Ｐ（１）＝０．２５と第３閾値Ｔｈ＿Ｃ＝０．２０とを比較する（Ｓ８０９）。そして、文書データ生成部４０６は、認識度Ｐ（１）が第３閾値Ｔｈ＿Ｃ以上の場合に（Ｓ８０９：Ｙｅｓ）、認識度Ｐ（１）に対応するテキストＣ（１）＝“能”が図１０のコメント領域１００２に配置されるように、文字コードＣ（２）＝“０ｘＣ７ＢＤ”を文書データに設定すると共に、文字画像“能”と文字コード“０ｘＣ７ＢＤ”とに同一のＩＤを割り当てる（Ｓ８１０）。

次に、文書データ生成部４０６は、認識度Ｐ（１）が第３閾値Ｔｈ＿Ｃ以上の場合に（Ｓ８０９：Ｙｅｓ）、ｗ＝５に対するループ処理Ｓ８０４Ａ～Ｓ８０４Ｂを実行する。一方、文書データ生成部４０６は、認識度Ｐ（１）が第３閾値Ｔｈ＿Ｃ未満の場合に（Ｓ８０９：Ｎｏ）、ステップＳ８１０及びループ処理Ｓ８０４Ａ～Ｓ８０４Ｂをスキップする。

ｗ＝５に対するループ処理Ｓ８０４Ａ～Ｓ８０４Ｂにおいて、文書データ生成部４０６は、認識度Ｐ（２）が第３閾値Ｔｈ＿Ｃ以上だと判断して（Ｓ８０５：Ｙｅｓ）、認識度Ｐ（２）に対応するテキストＣ（２）＝“熊”が図１０のコメント領域１００２に配置されるように、文字コードＣ（２）＝“０ｘＢ７Ａ７”を文書データに設定すると共に、文字画像“能”と同一のＩＤを割り当てる（Ｓ８０６）。一方、文書データ生成部４０６は、認識度Ｐ（３）が第３閾値Ｔｈ＿Ｃ以上だと判断して（Ｓ８０５：Ｎｏ）、認識度Ｐ（３）に対応するテキストＣ（３）＝“態”を文書データに含めない。

上記の実施形態によれば、例えば以下の作用効果を奏する。

上記の実施形態によれば、認識度Ｐ（１）が第１閾値Ｔｈ＿Ａ以上の場合に下線無しのテキストが、認識度Ｐ（１）が第１閾値Ｔｈ＿Ａ未満で且つ第２閾値Ｔｈ＿Ｂ以上の場合に下線有りのテキストが、認識度Ｐ（１）が第２閾値Ｔｈ＿Ｂ未満の場合に文字画像が、それぞれテキスト領域に配置される。

このように、文字認識部４０４で算出した認識度Ｐに応じて、文字画像に対応する文字の態様を異ならせることによって、ＯＣＲによる文字認識で誤認識があった場合でも、利用者に元の文字を推測するための手がかりを与えることができる。

また、上記の実施形態によれば、認識度Ｐ（１）が第２閾値Ｔｈ＿Ｂ未満の場合に、コメント領域に代替候補テキストを配置するので、コメント領域に配置された第１候補テキストを修正する必要があるか否かについての判断材料を利用者に与えることができる。一方、認識度Ｐが第３閾値Ｔｈ＿Ｃ未満の場合には代替候補テキストにしないことによって、確からしさの低いテキストが利用者に提案されるのを防止できる。

なお、上記の実施形態では、認識度Ｐ（１）が第１閾値Ｔｈ＿Ａ以上のテキストに下線を付加せず、認識度Ｐ（１）が第１閾値Ｔｈ＿Ａ未満のテキストに下線を付加した例を説明したが、表示態様の異ならせ方は上記の例に限定されない。

他の例として、文書データ生成部４０６は、テキスト領域１００１に配置するテキストの色を、認識度Ｐ（１）が高いほど濃くし、認識度Ｐ（１）が低いほど薄くしてもよい。他の例として、文書データ生成部４０６は、認識度Ｐ（１）が第１閾値Ｔｈ＿Ａ以上のテキストにマーカを付加せず、認識度Ｐ（１）が第１閾値Ｔｈ＿Ａ未満のテキストにマーカを付加してもよい。その他、文書データ生成部４０６は、認識度Ｐ（１）に応じて、テキストの書体、斜体か否か、太字か否か、ネガ・ポジ切替（文字色及び背景色の反転）か否か等を異ならせてもよい。

さらに、フォント情報の変更は、テキスト領域１００１に配置される第１候補テキストに限定されず、コメント領域１００２に配置される代替候補テキストにも適用してもよい。これにより、代替候補テキストの確からしさを利用者に認識させることができる。

また、コメント領域１００２に配置するのは代替テキストに限定されず、文字画像であってもよい。すなわち、文書データ生成部４０６は、認識度Ｐ（１）が第１閾値Ｔｈ＿Ａ未満で且つ第２閾値Ｔｈ＿Ｂ以上の場合に、前処理後画像データから抽出した文字画像を、第１候補テキストに関連付けてコメント領域１００２に配置してもよい。

また、上記の実施形態では、１文字ごとに処理を行い、１文字ごとに候補となる文字をコメント領域に配置する方法を記載しているが、単語（Ｗｏｒｄ）・文節（Ｃｌａｕｓｅ）レベル等の文字列ごとにひとまとめにして処理を行い、コメント領域に配置することも可能である。

また本実施形態では、ＯＣＲによる文字認識の認識度に合わせて、「コメント機能」を用いて他の候補文字を表示、もしくはスキャン画像を添付することができる。これにより、利用者にもとの文字を推測するための手がかりを与えることができる。

また誤認識があった場合の修正作業においても、コメント領域に配置されている候補のうちで正当な文字がある場合は、「コピー＆ペースト」の操作を行うことで、利用者は容易に文字を置き換えることが可能となる。

なお、図１０などに示した表示形式は、あくまでも一例である。同じオフィス系のアプリケーションを用いても、閲覧モードやアウトラインモードなどの表示モードの切り替えによって表示形式が変化したり、バージョンの差異によっては見え方が変更されたりすることもあり得る。本実施形態では、第１候補テキストと、代替候補テキストとが紐付けられて表示される構成であればよい。換言すれば、本実施形態では、第１候補テキストと、代替候補テキストとが対応付けて表示されるような形式のデータを生成できればよい。このようなデータ形式として、本実施形態では「Open XML」を例示したが、他のデータ形式であっても構わない。

本実施形態では、画像形成装置内に文書データ生成装置が組み入れられている態様について説明したが、上記で説明した文書データ生成装置の機能は、ＰＣ１４０やスマートフォンなどに組み入れられてもよい。また、スマートフォンなどのカメラ付き携帯端末で原稿シートを接写し、これをスキャン画像として用いてもよい。尚、カメラ機能によって原稿を接写することを含めて、原稿をスキャンして読み取る、と表現してもよい。また、「スキャン画像」は、本実施形態ではスキャン部により読み取られた画像そのままを指すものとして説明したが、読み取られた画像に対して画像処理（前処理や２値化処理など）を行った後の画像を、「スキャン画像」と称してもよい。

上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC（Application Specific Integrated Circuit）、DSP（digital signal processor）、FPGA（field programmable gate array）や従来の回路モジュール等のデバイスを含むものとする。

明細書中の対応テーブル（表）は、機械学習の学習効果によって生成されたものでもよい。また、文字コードと認識度とを機械学習にて分類付けすることで、対応テーブルを使用しなくてもよい。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり，コンピュータが，データ識別等の判断に必要なアルゴリズムを，事前に取り込まれる学習データから自律的に生成し，新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。

なお、本発明は上述した実施形態に限定されるものではなく、その技術的要旨を逸脱しない範囲で種々の変形が可能であり、特許請求の範囲に記載された技術思想に含まれる技術的事項の全てが本発明の対象となる。上記実施形態は、好適な例を示したものであるが、当業者であれば、開示した内容から様々な変形例を実現することが可能である。そのような変形例も、特許請求の範囲に記載された技術的範囲に含まれる。

１：システム
１００：通信ネットワーク
１１０：画像形成装置
１２０：ファイルサーバ
１９０：通信ネットワーク
２０１，３０１：ＣＰＵ
２０２ａ，３０２：ＲＯＭ
２０２ｂ，３０３：ＲＡＭ
２０６：ＡＳＩＣ
２０８，３０５：ＨＤＤコントローラ
２０９，３０４ＨＤ
２１０：コントローラ
２２０：近距離通信回路
２２０ａ：近距離通信回路
２２１：ＡＧＰバス
２２２：ＰＣＩバス
２３０：エンジン制御部
２３１：スキャナ部
２３２：プリンタ部
２４０：操作パネル
２４０ａ：パネル表示部
２４０ｂ：操作パネル
２５０，３０９：ネットワークＩ／Ｆ
３０６：ディスプレイ
３０８：外部機器接続Ｉ／Ｆ
３１０：データバス
３１１：キーボード
３１２：ポインティングデバイス
３１４：ＲＷドライブ
３１５：記録メディア
３１６：メディアＩ／Ｆ
４００：文書データ生成装置
４０１：前処理部
４０３：文字領域抽出部
４０４：文字認識部
４０５：文字消去部
４０６：文書データ生成部
５０４：文字消去部
１００１：テキスト領域
１００２：コメント領域
１００３：境界線
１００４：リンク線

特許第５３５３３２５号公報

Claims

画像データから抽出した文字を含めた文書データを生成する文書データ生成装置であって、
文字認識処理によって、前記画像データから抽出した文字画像に対応する文字コードを特定すると共に、当該文字コードの確からしさを表す認識度を算出する文字認識部と、
前記文字認識部で算出した前記認識度に応じて、前記文字画像に対応する文字の態様を異ならせた前記文書データを生成する文書データ生成部とを備え、
前記文書データは、
レイアウトが前記画像データで示される画像に対応するテキスト領域と、
前記テキスト領域と異なるコメント領域とを含み、
前記文字認識部は、１つの前記文字画像に対して、候補となる複数の前記文字コードを特定すると共に、複数の前記文字コードそれぞれに対応する複数の前記認識度を算出し、
前記文書データ生成部は、
前記文字認識部で算出した最大の前記認識度が第１閾値以上の場合に、前記文字認識部で特定した複数の前記文字コードのうち、前記最大の認識度に対応する前記文字コードのみを前記文書データに含め、
前記最大の認識度が前記第１閾値未満で且つ前記第１閾値より小さい第２閾値以上の場合に、
前記最大の認識度に対応する前記文字コードで表される第１候補テキストを、前記テキスト領域に配置し、
他の前記文字コードで表される代替候補テキストを、前記第１候補テキストに関連付けて前記コメント領域に配置することを特徴とする文書データ生成装置。
前記文書データ生成部は、
前記文字認識部で特定した前記文字コードと、前記文字コードで表されるテキストの表示態様を示すフォント情報とを前記文書データに含め、
前記文字認識部で算出した前記認識度に応じて、前記フォント情報を異ならせることを特徴とする請求項１に記載の文書データ生成装置。
前記フォント情報は、テキストの色、テキストの書体、斜体か否か、太字か否か、下線を付加するか否か、マーカを付加するか否か、文字色及び背景色を反転させるか否か、のうちの少なくとも１つ示すことを特徴とする請求項２に記載の文書データ生成装置。
前記文書データ生成部は、前記最大の認識度が前記第１閾値未満で且つ前記第２閾値以上の場合に、前記画像データから抽出した前記文字画像を、前記第１候補テキストに関連付けて前記コメント領域に配置することを特徴とする請求項１に記載の文書データ生成装置。
前記文書データ生成部は、前記最大の認識度が前記第２閾値未満の場合に、
前記画像データから抽出した前記文字画像を、前記テキスト領域に配置し、
前記文字認識部で特定した前記文字コードのうち、前記第２閾値より小さい第３閾値以上の前記認識度に対応する前記文字コードで表される候補テキストを、前記文字画像に対応付けて前記コメント領域に配置することを特徴とする請求項１乃至４のいずれか１項に記載の文書データ生成装置。
原稿を読み取って前記画像データを生成するスキャナ部と、
前記スキャナ部で生成された前記画像データから前記文書データを生成する請求項１乃至５のいずれか１項に記載の文書データ生成装置とを備える画像形成装置。
画像データから抽出した文字を含めた文書データを生成するコンピュータによって実行される文書データ生成プログラムであって、
文字認識処理によって、前記画像データから抽出した文字画像に対応する文字コードを特定すると共に、当該文字コードの確からしさを表す認識度を算出し、
算出した前記認識度に応じて、前記文字画像に対応する文字の態様を異ならせた前記文書データを生成する文書データ生成処理を、コンピュータに実行させ、
前記文書データは、
レイアウトが前記画像データで示される画像に対応するテキスト領域と、
前記テキスト領域と異なるコメント領域とを含み、
前記文字認識処理では、１つの前記文字画像に対して、候補となる複数の前記文字コードを特定すると共に、複数の前記文字コードそれぞれに対応する複数の前記認識度を算出し、
前記文書データ生成処理では、
前記文字認識処理で算出した最大の前記認識度が第１閾値以上の場合に、前記文字認識処理で特定した複数の前記文字コードのうち、前記最大の認識度に対応する前記文字コードのみを前記文書データに含め、
前記最大の認識度が前記第１閾値未満で且つ前記第１閾値より小さい第２閾値以上の場合に、
前記最大の認識度に対応する前記文字コードで表される第１候補テキストを、前記テキスト領域に配置し、
他の前記文字コードで表される代替候補テキストを、前記第１候補テキストに関連付けて前記コメント領域に配置する文書データ生成プログラム。