JP2021114226A

JP2021114226A - 文書提示システム、文書提示方法及びプログラム

Info

Publication number: JP2021114226A
Application number: JP2020007403A
Authority: JP
Inventors: 悠貴鳴海; Yuki NARUMI
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2021-08-05

Abstract

【課題】請求書などの検索元文書と同一取引で使用された証憑文書として関連文書をグループ化する文書提示システム、文書提示方法及びプログラムを提供する。【解決手段】文書提示方法は、検索元文書を分類するための分類項目となる文字列を複数個抽出しＳ１００１、検索元文書から抽出した分類項目に基づいて、検索処理により抽出された文書のグループ化処理を行いＳ１００２、グループ化処理の結果に基づいて、保存した検索結果を更新しＳ１００３、更新した検索結果を提示するための検索結果表示画面を生成し、情報処理端末に送信するＳ１００４。【選択図】図１０

Description

本発明は、文書提示システム、文書提示方法及びプログラムに関するものである。特に、スキャンされた証憑文書と同一取引で使用された関連文書を提示する、文書提示システムに関するものである。

従来から、請求書などの証憑文書については、記載された金額などについて誤りが発生していないかを確認する業務が存在する。多くの場合、例えば請求書が発行されるまでは、同一取引に関連して、見積書、注文書、納品書などの一連の証憑文書が順次発行される。
そこで、請求書と同一取引で使用された見積書、注文書、納品書などの証憑文書を収集して、金額などについて、これらの証憑文書に記載されている内容と合致しているかを確認することにより、請求書に誤りがないことを確認する作業が行われている。

このような作業を支援するために、証憑文書についてメタデータを付与してストレージに格納し、同一取引で使用された一連の文書を自動検索するファイル検索システムが提案されている。このような支援システムを利用することにより、ユーザは請求書などを確認する作業を行うために必要な一連の文書を収集することが容易となる。
また、このようなファイル検索システムにおいては、ＯＣＲ（Optical Character Recognition）処理などの画像処理を行うことにより、アナログ文書であってもスキャンして得られた画像データからメタデータを自動付与することができるものがある。また、文書に記載された内容から、検索条件を自動的に設定したりすることができるものもある。

しかし、検索元文書に記載された情報のみを用いて同一取引で使用された証憑文書を検索する場合、検索の精度が十分でないため、同一取引で使用された文書以外の過検出が発生してしまうという問題がある。このため、検索結果の中から、同一取引で使用された文書を確定する作業をユーザが行う必要がある。

このような検索システムとして、例えば、特許文献１には、ユーザが入力した検索語を用いて適合度スコアを算出することにより、各検索文書を同一又は類似する文書のクラスタに分類する全文検索システムが開示されている。また、特許文献１では、適合度スコアが近くなくても類似する文書を同じクラスタに分類するために、各クラスタの代表文書の特徴語を用いてクラスタ同士をマージすることが開示されている。これにより、特許文献１によれば、ユーザが検索結果から目的の文書を確認する作業の効率化を図ることができる。

特開２０１０−９５７７号公報

しかしながら、検索元文書に関連する文書として検索処理により抽出された文書をグループ化する場合、ユーザが入力した検索語からでは、適切なグループ化が行われないことがある。
例えば、検索元文書が請求書である場合について考える。この場合、一定の請求期間内（例えば、１か月分）に発注された複数の商品が１枚の請求書に記載されており、請求書に記載された商品ごとに見積書や納品書などの証憑文書が発行されている場合が多い。このような場合、請求書に記載された商品名に基づいて見積書や納品書などの証憑文書をグループ化することが好ましい。

そこで、本発明は、文書から抽出された項目に基づいて複数の関連文書をグループ化して提示することで、確認作業を効率化することが可能な文書提示システムを提供することを目的とする。

本発明は、文書から複数の項目を抽出する抽出手段と、前記複数の項目のそれぞれに対応するグループを生成する生成手段と、検索元文書に関連する複数の関連文書のそれぞれについて、前記項目に対応する記載に基づいて、１又は複数の前記グループに割り当てる割当手段と、前記複数の項目のそれぞれに対応する前記グループごとに割り当てられた前記関連文書を提示するユーザインターフェースを生成する提示手段と、を有することを特徴とする文書提示システムである。

本発明によれば、ユーザによる文書の確認作業を効率化することができる。

文書提示システムの全体構成を示す図である。画像形成装置のハードウェア構成を示すブロック図である。情報処理端末のハードウェア構成を示すブロック図である。クラウドサービスサーバとクラウドサービスサーバのハードウェア構成を示すブロック図である。各装置において実行される処理のシーケンスを示す図である。スキャン対象の文書の例である。スキャン対象の文書と同一取引で使用された文書の例である。検索元文書の取得から関連文書を抽出するまでの処理を説明するフローチャートである。ＯＣＲ関連処理の詳細を示すフローチャートである。検索処理の詳細を示すフローチャートである。実施例１における、複数の抽出文書をグループ化して表示する処理を説明するフローチャートである。グループ化処理の詳細を示すフローチャートである。各証憑文書の例である（その１）。各証憑文書の例である（その２）。検索結果表示画面の例である。グループ修正処理後の検索結果表示画面の例である。ブロックセレクション処理を説明するための図である。実施例２における、複数の抽出文書をグループ化して表示する処理を説明するフローチャートである。実施例３における、複数の抽出文書をグループ化して表示する処理を説明するフローチャートである。

以下に、図面を参照して、本発明を実施するための実施例について説明する。ただし、以下に説明する実施例はあくまで例示であり、本発明の範囲をそれらに限定する趣旨のものではない。また、以下の実施例で説明されている特徴の組み合わせのすべてが本発明の解決手段に必須のものとは限らない。

以下、本発明を実施例について図面を用いて説明する。
＜実施例１＞
＜システムの全体構成＞
図１は、本実施例において用いられる文書提示システム１０の全体構成を示す図である。
図１に示すように、文書提示システム１０は、画像形成装置１００、ＰＣなどの情報処理端末１０１、クラウドサービスサーバ１０２、クラウドストレージサーバ１０３などの装置を備える。

画像形成装置１００は、イーサネット（登録商標）や無線ＬＡＮなどからなるＬＡＮ１０４に接続され、さらに、インターネット１０５に接続されている。また、クラウドサービスサーバ１０２及びクラウドストレージサーバ１０３も、イーサネット（登録商標）や無線ＬＡＮなどからなるＬＡＮ１０４に接続され、さらに、インターネット１０５に接続されている。すなわち、画像形成装置１００、情報処理端末１０１、クラウドサービスサーバ１０２、クラウドストレージサーバ１０３は、ぞれぞれ、ＬＡＮ１０４からインターネット１０５に接続され、相互に通信可能となっている。

画像形成装置１００は、操作部、スキャナ部、プリンタ部を有する複合機（Multifunction Peripheral：ＭＦＰ）である。本実施例の文書提示システム１０では、画像形成装置１００は紙文書をスキャンするための端末として利用される。
ＰＣ（Personal Computer）などの情報処理端末１０１は、操作部、表示部を有するパーソナルコンピュータである。本実施例の文書提示システム１０では、情報処理端末１０１は、文書ファイルの検索の結果や、ユーザからの操作指示を受ける表示・操作端末として利用される。

クラウドサービスサーバ１０２は、演算部を有する処理サーバである。本実施例の文書提示システム１０では、クラウドサービスサーバ１０２は文書ファイルの検索処理を実行する処理端末として利用される。ただし、文書ファイルの検索処理を実行する情報処理端末は、演算実行機能を有すればよく、クラウド上のサーバでなくてもよい。
クラウドストレージサーバ１０３は、記憶部を有するストレージサーバである。本実施例の文書提示システム１０では、クラウドストレージサーバ１０３は、文書ファイルを保持するストレージ端末として利用される。ただし、文書ファイルを保持する情報処理端末は、記憶機能を有すればよく、クラウド上のサーバでなくてもよい。

なお、本発明を実施するにあたって、ＰＣなどの情報処理端末１０１、クラウドサービスサーバ１０２、クラウドストレージサーバ１０３などの装置は、必ずしも必要ではない。例えば、クラウドストレージサーバ１０３の機能を、クラウドサービスサーバ１０２が備えるようにしてもよい。また、クラウドサービスサーバ１０２とクラウドストレージサーバ１０３機能を、ＰＣなどの情報処理端末１０１が備えるようにしてもよい。
また、入力画像としては、画像形成装置１００でスキャンされた画像を用いことに限られず、ＰＣなどの情報処理端末１０１が事前に保持している画像を用いてもよい。また、クラウドストレージサーバ１０３は、汎用的なストレージのクラウドサービスであってもよいし、ファイルストレージオンプレミスサーバであってもよい。

＜画像形成装置のハードウェア構成＞
図２は、画像形成装置１００のハードウェア構成例を示すブロック図である。
画像形成装置１００は、制御部２００、表示・操作部２０６、プリンタ部２０８、スキャナ部２１０を備える。
制御部２００は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ＨＤＤ２０４、表示・操作Ｉ／Ｆ部２０５、プリンタＩ／Ｆ部２０７、スキャナＩ／Ｆ部２０９、ネットワークＩ／Ｆ部２１１の各ハードウェアを備える。制御部２００内の各ハードウェアは、システムバス２１２を介して、互いに通信可能に接続されている。制御部２００は、画像形成装置１００全体の動作を制御する。

ＣＰＵ２０１は、記憶装置（ＲＯＭ２０２、ＲＡＭ２０３、ＨＤＤ２０４）に記憶された制御プログラムを読み出し実行することにより、画像形成装置１００の各処理（読取制御や画像処理など）を実行する手段として機能する。

記憶装置は、制御プログラム、画像データなどを格納し保持する。
記憶装置は、不揮発性メモリであるＲＯＭ２０２、揮発性メモリであるＲＡＭ２０３、大容量記憶領域であるＨＤＤ２０４などを備える。
ＲＯＭ２０２は、制御プログラムなどを保持する不揮発性メモリである。制御プログラムは、ＣＰＵ２０１により読み出され実行される。
ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等の一時記憶領域として用いられる揮発性メモリである。
ＨＤＤ２０４は、ＣＰＵ２０１が処理を行う画像データなどを保存する大容量記憶領域として用いられる不揮発性メモリである。

表示・操作部Ｉ／Ｆ部２０５は、表示・操作部２０６と制御部２００とを、システムバス２１２を介して接続する。表示・操作部２０６は、タッチパネル機能を有する液晶表示部やハードボタンなどを備える。
プリンタＩ／Ｆ部２０７は、プリンタ部２０８と制御部２００とを、システムバス２１２を介して接続する。プリンタ部２０８は、ＣＰＵ２０１で生成された画像データをプリンタＩ／Ｆ部２０７を介して受信し、受信した画像データを用いて記録紙へのプリント処理を行う。
スキャナＩ／Ｆ部２０９は、スキャナ部２１０と制御部２００とを、システムバス２１２を介して接続する。スキャナ部２１０は、証憑文書などの文書を読み取って画像データを生成し、スキャナＩ／Ｆ部２０９を介して画像データを制御部２００に入力する。

ネットワークＩ／Ｆ部２１１は、制御部２００（画像形成装置１００）を、ＬＡＮ１０４に接続し、ＬＡＮ１０４上の外部装置に画像データを送信したり、ＬＡＮ１０４上の外部装置から各種情報を受信したりする。
以上のように、本実施例の画像形成装置１００は、上記のハードウェア構成によって、各種の画像処理機能を提供することが可能である。

＜情報処理端末のハードウェア構成＞
図３は、ＰＣなどの情報処理端末１０１のハードウェア構成例を示すブロック図である。
情報処理端末１０１は、制御部３００、操作部３０７、表示部３０９を備える。
制御部３００は、ＰＣなどの情報処理端末１０１全体の動作を制御する。
制御部３００は、ＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＨＤＤ３０４、ネットワークＩ／Ｆ３０５、操作部Ｉ／Ｆ３０６、表示部Ｉ／Ｆ３０８を備える。

ＣＰＵ３０１は、ＲＯＭ３０２に記憶された制御プログラムを読み出して各種制御処理を実行する。
ＲＡＭ３０３は、ＣＰＵ３０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。
ＨＤＤ３０４は、画像データや各種プログラムを記憶する。
ネットワークＩ／Ｆ３０５は、制御部３００（ＰＣなどの端末１０１）をＬＡＮ１０４に接続する。そして、ネットワークＩ／Ｆ３０５は、ＬＡＮ１０４上の他の装置と制御部３００との間で各種情報を送受信する。

操作部Ｉ／Ｆ部３０６は、操作部３０７と制御部３００とを、システムバス３１０を介して接続する。操作部３０７は、入力及び操作の機能を有するマウスやキーボードなどを備える。
表示部Ｉ／Ｆ部３０８は、表示部３０９と制御部３００とを、システムバス３１０を介して接続する。表示部３０９は、表示機能を有するディスプレイなどを備える。

＜クラウドサービスサーバ及びクラウドストレージサーバのハードウェア構成＞
図４は、クラウドサービスサーバ１０２及びクラウドストレージサーバ１０３のハードウェア構成例を示すブロック図である。クラウドサービスサーバ１０２とクラウドストレージサーバ１０３は、ＨＤＤ４０４の記憶可能容量等が異なる以外は、基本的に同じ構成であるため、クラウドサービスサーバ１０２について説明する。

クラウドサービスサーバ１０２は、制御部４００を有する。
制御部４００は、クラウドサービスサーバ１０２全体の動作を制御する。制御部４００は、ＣＰＵ４０１、ＲＯＭ４０２、ＲＡＭ４０３、ＨＤＤ４０４、ネットワークＩ／Ｆ部４０５を備える。

ＣＰＵ４０１は、ＲＯＭ４０２に記憶された制御プログラムを読み出して各種制御処理を実行する。
ＲＡＭ４０３は、ＣＰＵ４０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。
ＨＤＤ４０４は、文書ファイル、画像データや各種プログラムを記憶する。
ネットワークＩ／Ｆ４０５は、制御部４００（クラウドサービスサーバ１０２）をＬＡＮ１０４に接続する。そして、ネットワークＩ／Ｆ４０５は、ＬＡＮ１０４上の他の装置と制御部４００との間で各種情報を送受信する。
なお、同一取引で使用された文書ファイルを検索する検索エンジンについては、クラウドストレージサーバ１０３内のＣＰＵ４１１によって実行される。

なお、前述のとおり、クラウドストレージサーバ１０３も、クラウドサービスサーバ１０２の同様のハードウェア構成を備える。すなわち、クラウドストレージサーバ１０３は、制御部４１０（ＣＰＵ４１１、ＲＯＭ４１２、ＲＡＭ４１３、ＨＤＤ４１４、ネットワークＩ／Ｆ部４１５）を備える。これらのハードウェアの機能は、クラウドサービスサーバ１０２のハードウェアと同様である。

＜文書提示システムにおける処理全体のシーケンス＞
次に、本実施例の文書提示システム１０において実行される処理例の概略について説明する。
まず、画像形成装置１００が、請求書などの証憑文書をスキャンして、画像データ（スキャン画像）を生成する（画像データ取得処理）。
次に、クラウドサービスサーバ１０２が、画像形成装置１００から送信されたスキャン画像を受信し、ＯＣＲ処理を実行することによりスキャン画像から文字列を抽出し、ＯＣＲ結果に基づいて検索クエリを生成する（検索の前処理）。

次に、クラウドストレージサーバ１０３が、保存されている証憑文書の中から、検索クエリを用いて検索を実行し、検索結果として、検索元の証憑文書と同一取引で使用された一連の関連文書を抽出する（検索処理）。
次に、クラウドサービスサーバ１０２が、検索元の証憑文書から抽出した分類項目に基づいて、検索処理により抽出された文書をグループ化する（グループ化処理）。

以上のシーケンスにより、スキャン対象の証憑文書と同一取引で使用された一連の関連文書を抽出し分類項目ごとにグループ化することが可能となる。これにより、本実施例の文書提示システム１０では、ユーザによる証憑文書の確認作業の支援を行うことができる。

次に、図５を用いて、本実施例の文書提示システム１０において実行される各処理について説明する。図５は、文書提示システム１０を構成する各装置において実行される文書ファイルの検索処理全体のシーケンスを示す図である。
まず、画像形成装置１００が実行する画像データの取得処理について説明する。
ここで、図６Ａ（１）に、検索元であるスキャン対象の文書（検索元文書）の例を示す。ここでは、検索元文書は、証憑文書の一種である「請求書」であるものとして説明する。

まず、ステップＳ５００において、ユーザは、画像形成装置１００の操作部２０６を操作して、請求書をスキャンさせる。
ステップＳ５０１において、画像形成装置１００のＣＰＵ２０１は、スキャナ部２１０を駆動し、検索元文書の画像データ（スキャン画像）を生成し、ＲＡＭ２０３に保存する。
ステップＳ５０２において、ＣＰＵ２０１は、Ｓ５０１で生成したスキャン画像に対し、フィルタリング処理や色補正処理などの画像処理を実行する。
次に、ステップＳ５０３において、ＣＰＵ２０１は、画像処理を実行したスキャン画像をクラウドサービスサーバ１０２に送信する。

次に、クラウドサービスサーバ１０２が実行する検索の前処理について説明する。
まず、ステップＳ５０４において、クラウドサービスサーバ１０２のＣＰＵ４０１は、画像形成装置１００から送信されたスキャン画像を受信し、ＨＤＤ４０４へ保存する。
ステップＳ５０５において、ＣＰＵ４０１は、受信したスキャン画像に対してＯＣＲ処理を実行して、文字列を取得する。

ステップＳ５０６において、ＣＰＵ４０１は、Ｓ５０５で取得した文字列から、検索を行うための１又は複数のキーワード（検索クエリ）を生成する。検索クエリは、例えば、検索元文書と同一取引で使用された証憑文書を検索するための一つ以上のキーワードから構成される検索条件である。
ステップＳ５０７において、ＣＰＵ４０１は、Ｓ５０６で生成した検索クエリを用いて、クラウドストレージサーバ１０３の検索ＡＰＩ（Application Programming Interface）等を使用し、クラウドストレージサーバ１０３に対して検索の指示をする。

次に、クラウドストレージサーバ１０３が実行する検索処理について説明する。
まず、ステップＳ５０８において、クラウドストレージサーバ１０３のＣＰＵ４１１は、クラウドサービスサーバ１０２から検索クエリを受信し、クラウドストレージサーバ１０３内の検索エンジンで解釈するための変換処理を行う。

ステップＳ５０９において、ＣＰＵ４１１は、検索エンジンで解釈された検索クエリに基づいて、クラウドストレージサーバ１０３内のＨＤＤ４１４から、検索元であるスキャン対象の文書と同一取引で使用された関連文書を検索する。そして、抽出された文書をランキング付けした情報を含む検索結果を生成する。その際、図６Ａ（１）のように、Ｓ５００においてスキャンされた文書が「請求書」である場合、同一取引で使用された証憑文書として、「納品書」、「発注書」、「見積書」、などの種別類の文書がそれぞれ０枚から複数枚抽出される。ここで、図６Ｂ（１）〜（４）に、それぞれ、図６Ａ（１）の「請求書」と同一取引で使用された「納品書」、「発注書」、「見積書」の例を示す。

ステップＳ５１０において、ＣＰＵ４１１は、Ｓ５０９で生成した検索結果をクラウドサービスサーバ１０２に通知する。通知する形式としては、検索処理により抽出された証憑文書のデータ自体でもよいし、格納されている証憑文書のファイルパスでもよいし、文書ファイル名や作成者などの証憑文書の特徴が記載されたインデックス情報（プロパティ情報）だけであってもよい。

次に、クラウドサービスサーバ１０２が実行する検索の後処理について説明する。
まず、ステップＳ５１１において、クラウドサービスサーバ１０２のＣＰＵ４０１は、クラウドストレージサーバ１０３から検索結果を受信し、クラウドサービスサーバ１０２内のＨＤＤ４０４へ保存する。

ステップＳ５１２において、ＣＰＵ４０１は、Ｓ５０９で抽出された各抽出文書に対してＯＣＲ処理を行い、文書内の文字列を取得する。検索結果として画像データを受信した場合は、画像データに対しＯＣＲ処理を行う。ＰＤＦファイル等のファイルを受信した場合は、ファイル内の画像データを抜き出してＯＣＲ処理を行う。また、文書内の文字列がテキストデータとして格納されている場合は、テキストデータを抽出するだけであってもよい。

ステップＳ５１３において、ＣＰＵ４０１は、Ｓ５１２で取得した抽出文書内の文字列と、Ｓ５０５でスキャン画像から取得した検索元文書内の文字列と、の比較を行い、文書間の関連度スコアを算出する。関連度スコアを算出する手法については、公知の手法を採用することができる。例えば、各文書内の各文字列同士の距離を、レーベンシュタインによる算出手法で算出し、累積距離が少ない文書ほど関連度スコアが高いとすることができる。なお、関連度スコアは、検索処理により抽出された証憑文書の種別（納品書、発注書、見積書など）ごとに算出される。

次に、クラウドサービスサーバ１０２が実行する検索結果のグループ化処理について説明する。
まず、ステップＳ５１４において、クラウドサービスサーバ１０２のＣＰＵ４０１は、Ｓ５０４で受信した検索元文書のスキャン画像から、抽出文書を分類するための複数個の分類項目を抽出する。そして、ＣＰＵ４０１は、分類項目ごとにグループを生成する。

ステップＳ５１５において、ＣＰＵ４０１は、Ｓ５０９の検索処理により抽出された各文書について、Ｓ５１４で検索元文書から抽出した各分類項目に対応する文字列が存在するかを判断する。そして、抽出文書に分類項目に対応する文字列が存在する場合、その分類項目に対応して生成されたグループにその抽出文書を割り当てる（グループ化）。
ステップＳ５１６において、ＣＰＵ４０１は、Ｓ５１５でグループ化された抽出文書ごとにＳ５１３で算出された関連度スコアに基づいて、Ｓ５１１で受信した検索結果のランキングを更新する。

ステップＳ５１７において、ＣＰＵ４０１は、更新した検索結果をＰＣ等の情報処理端末１０１でユーザが表示確認できるように、表示用の画面を生成する。例えば、クラウドサービスサーバ１０２内のＷＥＢサーバ上にＨＴＭＬ形式のデータを用意し、ＰＣ等の情報処理端末１０１のブラウザアプリケーション等で閲覧が可能な形式の画面を生成する。

次に、ステップＳ５１８において、ＣＰＵ４０１は、更新した検索結果をＰＣ等の情報処理端末１０１に対して通知し、情報処理端末１０１の表示部３０９に表示するように指示する。
ステップＳ５１９において、ＰＣ等の情報処理端末１０１のＣＰＵ３０１は、クラウドサービスサーバ１０２からの指示に基づいて、ディスプレイ等の表示部３０９に検索結果を表示する。その際、ＣＰＵ３０１は、検索処理により抽出された各文書を、Ｓ５１５で割り当てられたグループごとに、表示を行う。
以上の各ステップを処理することによって、検索元文書と同一取引で使用された証憑文書の抽出及び表示を行うことができる。

図７は、検索元文書の取得から関連文書を抽出するまでの処理の手順を説明するフローチャートである。本フローチャートは、図５のシーケンスにおけるステップＳ５０４〜Ｓ５１３の処理に相当する。なお、本フローチャートに示す処理は、クラウドサービスサーバ１０２のＣＰＵ４０１が、ＲＯＭ４０２に格納されている処理プログラムをＲＡＭ４０３にロードすることにより実行される。

まず、ステップＳ７０１において、クラウドサービスサーバ１０２のＣＰＵ４０１は、ＬＡＮ１０４を通じて画像形成装置１００においてスキャンされた検索元である証憑文書の画像データ（スキャン画像）を取得する。

ステップＳ７０２において、ＣＰＵ４０１は、ステップＳ７０１で取得したスキャン画像に対して、ＯＣＲ関連処理を実行し、ＯＣＲ結果として文字列を取得する。なお、ＯＣＲ関連処理の詳細については後述する。

ステップＳ７０３において、ＣＰＵ４０１は、ステップＳ７０２で取得したＯＣＲ結果から項目名と項目値を抽出して、メタデータを取得する。なお、項目名と項目値の抽出処理の詳細については後述する。また、メタデータとは、項目名と、その項目名に対応した項目値が対になったデータのこという。

ステップＳ７０４において、ＣＰＵ４０１は、ステップＳ７０３で取得したメタデータを用いて、クラウドストレージサーバ１０３に対して検索処理の実行を指示する。そして、クラウドストレージサーバ１０３から通知される検索結果をＨＤＤ４０４へ保存する。なお、検索処理の詳細については後述する。

ステップＳ７０５において、ＣＰＵ４０１は、ステップＳ７０４で保存した検索結果に含まれる、検索処理により抽出されたすべての抽出文書に関する情報を取得する。検索結果がファイルのデータ自体から構成される場合は、その文書の画像データを取得する。また、検索結果がクラウドストレージサーバ１０３に格納されている文書ファイルのファイルパスである場合は、ファイルパスを用いてクラウドストレージサーバ１０３に対して画像データの送信指示を行う。そして、クラウドストレージサーバ１０３から送信された画像データを受信することで、画像データを取得する。文書に関する情報を取得する手法にはその他にも様々なものがあるが、検索処理により抽出された文書を取得できるものであれば手法は問わない。

ステップＳ７０６において、ＣＰＵ４０１は、ステップＳ７０５で取得した抽出文書に対してＯＣＲ関連処理を実行し、ＯＣＲ結果を取得する。Ｓ７０６におけるＯＣＲ関連処理は、Ｓ７０２におけるＯＣＲ関連処理と同様である。なお、取得した文書の画像データに対してＯＣＲ関連処理が実行済みである場合は、ステップＳ７０６を省略してもよい。例えば、Ｓ７０２のＯＣＲ関連処理がされた状態で画像データがストレージサーバ１０３に保存されている場合は、ステップＳ７０６を省略してもよい。

ステップＳ７０７において、ＣＰＵ４０１は、ステップＳ７０２で取得した検索元文書のＯＣＲ結果と、ステップＳ７０６で取得した抽出文書のＯＣＲ結果と、の関連度スコアを算出する。関連度スコアとは、スキャン対象である検索元の証憑文書と、検索処理により抽出された抽出文書と、が同一取引で使用された文書同士であることを示す度合いである。
関連度スコアは、ステップＳ７０３で取得した検索元文書内のメタデータの文字列と、ステップＳ７０６で取得した抽出文書のＯＣＲ結果による文字列と、の一致度などから算出する。具体的には、検索元文書の画像データと検索処理により抽出された抽出文書の画像データとに含まれる、会社名の文字列の一致度や、商品名の文字列の一致度などから算出する。例として、各文書内の各文字列同士の距離を、レーベンシュタインによる算出手法で算出し、累積距離が少ない文書ほど関連度スコアが高いものとすることができる。例えば、関連度スコアを０〜１の数値として、関連度が高いほど大きな数値で表現する。

具体例として、検索元文書である請求書に商品名という項目名として「ＡＢＣＤＥ」という項目値が記載されており、検索処理により抽出された見積書に商品名として「ＦＢＣＤＥ」が記載されている場合を考える。この場合、５文字からなる文字列のうち４文字が一致していることから、関連度スコアは「０．８」と算出される。また、文字列の一致度だけでなく、検索元文書から取得したメタデータと抽出文書から取得したメタデータに含まれている合計金額の数値の近さや、文書同士の発行日の日付の近さによって関連度を算出してもよい。

関連度スコアの算出には、ステップＳ７０２で取得したＯＣＲ結果を用いてもよいし、画像データから取得されるメタデータに限られず、それ以外のメタデータを用いてもよい。例えば、検索元である証憑文書がスキャンされた日時と、検索処理により抽出された文書がスキャンされた日時と、の差を用いて関連度スコアを算出してもよい。その他にもさまざまな手法はあるが、検索元の証憑文書と検索処理により抽出された証憑文書とが同一取引で使用された文書同士であることを示す度合いを算出できるものであればよい。

＜ＯＣＲ関連処理＞
次に、図８を用いて、Ｓ７０２及びＳ７０６において実行されるＯＣＲ関連処理の詳細について説明する。図８は、１枚の画像データ（スキャン画像）に対して、ＯＣＲ処理とその前処理とを含めたＯＣＲ関連処理を実行する処理手順を示すフローチャートである。

まず、ステップＳ８０１において、クラウドサービスサーバ１０２のＣＰＵ４０１は、傾き補正処理を行う。傾き補正処理では、画像データから傾き角度を検出し、検出した傾き角度だけ逆方向に画像データを回転することにより、傾き補正をした画像データを生成する。傾き補正の対象となる傾きは、画像形成装置１００のスキャナ部２１０による読み取り時に、原稿フィーダ内のローラの摩耗などが原因でまっすぐに原稿が読み取られなかったり、原稿の印刷時にまっすぐに印字できなかったりすることにより発生する。
傾き角度の検出では、画像データ内に含まれるオブジェクトを検出し、水平方向あるいは鉛直方向に隣り合うオブジェクト群を連結する。そして、連結されたオブジェクトの中心位置を結んだ角度が、水平方向あるいは鉛直方向からどれだけ傾いているかを取得することで傾き角度を求める。

なお、傾き角度の検出は、上記の手法に限られるものではない。例えば、画像データ内に含まれるオブジェクトの中心座標を取得し、０．１度単位で中心座標群を回転させながら、中心座標群が水平方向あるいは垂直方向に並ぶ割合がもっとも高い角度を傾きとして求めてもよい。Ｓ８０１の傾き補正により画像データの傾きを補正することで、後述する回転補正（Ｓ８０２）、ブロックセレクション処理（Ｓ８０３）、ＯＣＲ処理（Ｓ８０４）のそれぞれの精度を上げることが可能となる。

ステップＳ８０２において、ＣＰＵ４０１は、ステップＳ８０１で生成した傾き補正処理後の画像データに対して、回転補正処理を行う。回転補正処理では、原稿内の文字が正立する向きになるように、９０度単位で回転補正した画像データを生成する。
この際、ステップＳ８０１で取得した傾き補正処理後の画像を基準画像として、基準画像、９０回転した画像、１８０度回転した画像、２７０度回転した画像、の４枚の画像データを用意する。そして、４枚の画像にデータ対して、高速処理可能な簡易的なＯＣＲ処理を実行して、一定値以上の確信度を持って認識された文字の数が最も多い画像データを回転補正後の画像データとして取得する。なお、回転補正処理の方法は上記に限られるものではない。

ステップＳ８０３において、ＣＰＵ４０１は、ステップＳ８０２で生成した回転補正処理後の画像データに対し、ブロックセレクション処理を行う。ブロックセレクション処理とは、画像を前景領域と背景領域に分類した上で、前景領域をテキストブロックとそれ以外のブロックに分割する処理である。そして、テキストブロックごとに、白黒に二値化された画像データに基づいて、ＴＥＸＴ（文字領域）、ＬＩＮＥ（線領域）、ＴＡＢＬＥ（表領域）、ＰＨＯＴＯ（写真領域）、ＰＩＣＴＵＲＥ（図面領域）などのブロック情報を取得する。ブロックセレクション処理で取得されたテキストブロックごとのブロック情報は、次のＯＣＲ処理で用いられる。

ステップＳ８０４において、ＣＰＵ４０１は、ステップＳ８０３で取得した各テキストブロックに対してＯＣＲ処理を実行する。ＯＣＲ処理により、ＯＣＲ結果として、各テキストブロックに対応する文字列が抽出される。

＜項目値と項目値の取得処理＞
次に、Ｓ７０３において実行されるメタデータ（項目名と項目値）の抽出処理の詳細について説明する。
メタデータの抽出処理において、クラウドサービスサーバ１０２のＣＰＵ４０１は、Ｓ７０２のＯＣＲ関連処理で取得したＯＣＲ結果を用いて、スキャン画像内に記載されている項目名と項目値を取得する。ここで、項目名は、データの意味を指す「キー項目」を指す。また、項目値は、項目名に対応する具体的な内容を示す「バリュー値」を指す。また、項目名と、その項目名に対応した項目値が対になったデータを、メタデータと呼ぶ。

ここで、図６Ａを用いて、項目名及び項目値について具体的に説明する。
図６Ａ（１）は、証憑文書の一種である請求書の例である。また、図６Ａ（２）は、図６Ａ（１）に示した請求書において、各テキストブロックから項目名や項目値を構成する文字列が抽出される例を説明したものである。
図６Ａ（２）の例では、例えば、テキストブロック６０２に示される「請求先会社名」という項目名について、その項目名の内容として会社名である「ＡＢＣ（株）」という項目値が抽出される。その他、図６Ａ（２）の例では、テキストブロック６０３に示される「請求元会社名」という項目名について「株式会社あいう」という項目値、テキストブロック６０５に示される「案件番号」という項目名について「１２３４」という項目値、などが抽出される。

項目名及び項目値を抽出する手法は様々ある。例えば、抽出したい項目値を保持しておき、その項目値と一致している文字列がＯＣＲ結果において抽出された場合、その文字列が記載されたテキストブロックの座標値をブロックセレクション処理の結果から取得することも可能である。また、文字列を取得したテキストブロックに最も近い右側、下側、右下側などのテキストブロックのＯＣＲ結果から項目名や項目値を抽出することも可能である。

また、スキャン画像に項目名が記載されていない場合には、文字列のパターンから項目値を判定することもできる。例えば、図６Ａ（２）の例では、テキストブロック６０４に示すように、日付を示す「２０１９年４月２５日」の文字列が「ＹＹＹＹ年Ｍ月ＤＤ日」の並びパターンになっていることを正規表現などの手法で推定する。その結果、テキストブロック６０４は、「（請求）日付」という項目名について、「２０１９年４月２５日」という項目値であると判定することもできる。

その他、文字列の位置やフォントサイズの情報に基づいて、項目名と項目値を判定できるものもある。例えば、位置情報でスキャン画像の上部にあり、フォントサイズ情報で周囲の文字よりも大きい文字列は、「書類名」と推定することができる。図６Ａ（２）の例では、テキストブロック６０１に示される、「請求書」という文字列は「書類名」という項目名についての項目値であると判定することができる。

具体的に抽出する情報としては、書類名に関する情報、会社の名称・電話番号・住所などの会社に関する情報、担当者や作成者などの個人に関する情報、請求日や納品日などの日付に関する情報、請求書番号などの情報、などがある。他にも、案件名に関する情報、合計金額などの金額に関する情報、その他内訳などの詳細情報、などもある。項目名及び項目値を抽出する手法は他にも様々あるが、ＯＣＲ結果から項目名及び項目値を抽出できるものであればよい。

＜検索処理＞
次に、図９を用いて、Ｓ７０４において実行される検索処理の詳細について説明する。図９は、Ｓ７０３で抽出したメタデータ（項目名と項目値）を用いてクラウドストレージサーバ１０３に対して検索処理を指示し、検索結果を取得する処理手順を示すフローチャートである。なお、この処理はクラウドサービスサーバ１０２のＣＰＵ４０１により実行される。

ステップＳ９０１において、クラウドサービスサーバ１０２のＣＰＵ４０１は、ＨＤＤ４０４から検索対象とする文書の種別を取得する。文書の種別とは、見積書、発注書、納品書などの証憑文書の種別のことである。なお、検索対象とする文書の種別は、事前に表示・操作部２０６や操作部３０７においてユーザにより設定されたものであってもよいし、予め所定の固定値として設定されたものであってもよい。他にも、スキャン画像の文字レイアウトと検索対象とする文書の種別の組み合わせをＨＤＤ４０４に保存しておき、スキャン画像の文字レイアウト情報に基づいて自動的に検索対象とする文書の種別を取得してもよい。また、検索対象とする文書の種別は一種類に限定されるものではない。例えば、見積書と発注書の２つの種別の文書を検索対象としてもよい。

ステップＳ９０２において、ＣＰＵ４０１は、ＨＤＤ４０４から検索クエリパターンを取得する。検索クエリパターンとは、検索クエリとなるメタデータの組み合わせを規定したものである。検索クエリパターンは、事前に表示・操作部２０６や操作部３０７においてユーザにより設定されたものであってもよいし、予め所定の固定値として設定されたものであってもよい。

ステップＳ９０３において、ＣＰＵ４０１は、ステップＳ７０３で取得したメタデータ（項目名と項目値）とステップＳ９０２で取得した検索クエリパターンとに基づいて、検索クエリを生成する。
例えば、取得したメタデータが「会社名：ＡＢＣ（株）」、「案件番号：１２３４」、「発行日：２０１９年４月２５日」であり、検索クエリパターンが「会社名ａｎｄ案件番号ａｎｄ発行日」である場合について説明する。この場合、検索クエリとして、「ＡＢＣ（株）ａｎｄ１２３４ａｎｄ２０１９年４月２５日」が生成される。

なお、検索クエリのうち、金額や発行日などの数値や日付からなるものは、数値や日付の範囲検索ができるように生成してもよい。また、検索クエリは、項目値からそのまま生成するだけでなく、項目値の文字列の正規化を行ってから生成してもよい。例えば、項目名が会社名である項目値「ＡＢＣ（株）」から「（株）」を消去して、「ＡＢＣａｎｄ１２３４ａｎｄ２０１９年４月２５日」のように検索クエリを生成してもよい。

なお、検索クエリパターンに対応するメタデータがスキャン画像に存在しない場合は、Ｓ９０３で生成した検索クエリ以外を用いて、ステップＳ９０４に処理を進めてもよい。例えば、検索クエリパターンが「会社名ａｎｄ案件番号ａｎｄ発行日」であり、スキャン画像から取得したメタデータに案件番号が含まれていない場合には、「会社名ａｎｄ発行日」という検索クエリパターンを用いて、ステップＳ９０４に処理を進めてもよい。

ステップＳ９０４において、ＣＰＵ４０１は、ステップＳ９０４で生成した検索クエリに基づいて、クラウドストレージサーバ１０３に対して検索指示を行う。
例えば、メタデータとして、会社名が「ＡＢＣ（株）」、案件番号が「１２３４」、発行日が「２０１９年３月１日から２０１９年４月２５日」までの範囲である証憑文書を抽出するように検索処理の指示を行う。なお、検索指示はクラウドストレージサーバ１０３に保存されている証憑文書のメタデータに対して行ってもよいし、ファイル名に対して行ってもよいし、ＯＣＲ結果に対して行ってもよい。

ステップＳ９０５において、ＣＰＵ４０１は、ステップＳ９０５で行った検索指示に基づいて実行された検索処理により抽出された文書を検索結果としてクラウドストレージサーバ１０３から取得する。なお、取得する文書は、文書ファイルのデータ自体でもよいし、格納されているファイルのファイルパスでもよいし、ファイル名や作成者などのファイルの特徴が記載されたインデックス情報（プロパティ情報）だけであってもよい。

図１０は、検索処理により抽出された複数の文書をグループ化して表示する処理を説明するフローチャートである。本フローチャートは、図５のシーケンスにおけるステップＳ５１４〜Ｓ５１７の処理に相当する。なお、本フローチャートに示す処理は、クラウドサービスサーバ１０２のＣＰＵ４０１が、ＲＯＭ４０２に格納されている処理プログラムをＲＡＭ４０３にロードすることにより実行される。

まず、ステップＳ１００１において、クラウドサービスサーバ１０２のＣＰＵ４０１は、Ｓ７０２で取得した検索元文書のスキャン画像のＯＣＲ処理から、各抽出文書を分類するための分類項目となる文字列を複数個抽出する。
抽出される分類項目としては、図６Ａ（２）の例では、項目６０２〜６０６として示されるメタデータや、表構造６０７〜６０８内に示される商品のＩＤや名称などの項目等がある。分類項目を抽出する手法としては、公知のＴＦ−ＩＤＦ値を用いた特徴語の抽出などを用いることができるが、この手法に限られるものではない。ただし、抽出する分類項目として、図６Ａ（２）において６０９に示されるような表の見出し語など、多数の文書に含まれる可能性のある文字列や、個数、金額、日付などの数字列は不適格であるため、除外するのが好ましい。

図６Ａ（２）の例では、請求書の明細項目欄の中から、表構造６０８内に示されている３項目の商品名（「Product 1」、「Product 2」、「Product 3」）を、それぞれ、分類項目として抽出する。このように、表構造内に商品名などの情報がリスト状に並んだ形式で記載されている場合、表構造を解析して分類項目として抽出することで、各商品に対応する項目ごとにグループ化することが可能である。

表構造を解析する手法としては、まず、ステップＳ８０３で実行したブロックセレクション処理の結果から、文字領域（ＴＥＸＴ）と線領域（ＬＩＮＥ）のブロック情報を取得する。
ここで、図１４にブロックセレクション処理の結果の一例を示す。図１４（１）は、ステップＳ８０２の回転補正処理後の画像を示している。また、図１４（２）は、Ｓ８０３のブロックセレクション処理の結果を示している。

次に、連続する２つの線領域を選択し、これらのブロック情報から、２つの線領域に挟まれている文字領域のブロック数をカウントする。この際、同じ行内にある文字領域は、列方向の位置が異なっていても、１つの文字領域としてカウントする。
図１４（２）の例では、ＬＩＮＥ（１）とＬＩＮＥ（２）の２つの線領域に挟まれている領域の文字領域のブロック数は「１」とカウントする。

以下、連続する２つの線領域の選択を繰り返し、すべての線領域の組み合わせにおいて、２つの線領域に挟まれている文字領域のブロック数をカウントする。すべての線領域の組み合わせにおいて文字領域のブロック数のカウントが終了したら、カウントしたブロック数の最大値をスキャンされた文書の対応文書数として取得する。
図１４（２）の例では、文字領域のブロック数の最大値は、ＬＩＮＥ（２）とＬＩＮＥ（３）の２つの線領域に挟まれている領域の「３」となる。そのため、対応文書数は「３」となる。
なお、表構造解析の手法は、上記のものに限られるものではない。

ステップＳ１００２において、ＣＰＵ４０１は、Ｓ１００１で検索元文書から抽出した分類項目に基づいて、検索処理により抽出された文書のグループ化処理を行う。すなわち、各抽出文書を分類項目ごとにグループ化する。なお、グループ化処理の詳細については、図１１で後述する。

ステップＳ１００３において、ＣＰＵ４０１は、ステップＳ１００２のグループ化処理の結果に基づいて、ステップＳ７０４でＨＤＤ４０４へ保存した検索結果を更新する。このとき、各グループ内における抽出文書の登録順序は、ステップＳ７０７で算出した関連度スコアに基づいて設定する。

ステップＳ１００４において、ＣＰＵ４０１は、ステップＳ１００３で更新した検索結果を提示するためのユーザインターフェースである検索結果表示画面を生成し、ＬＡＮ１０４を通じてＰＣなどの情報処理端末１０１に送信する。なお、検索結果表示画面についての詳細は、図１３で後述する。

＜グループ化処理＞
次に、図１１を用いて、ステップＳ１００２において実行されるグループ化処理の詳細について説明する。図１１は、Ｓ７０４の検索処理により抽出された文書に対して行われるグループへの割当処理と、その後のグループの修正処理を含む、グループ化処理を示すフローチャートである。

まず、ステップＳ１１０１において、クラウドサービスサーバ１０２のＣＰＵ４０１は、各抽出文書について、Ｓ７０６で取得したＯＣＲ結果に基づいて、ステップＳ１００１で検索元文書から抽出した１又は複数の分類項目が含まれているかを判断する。（グループへの割当処理）
抽出文書内に１又は複数の分類項目に含まれていれば、Ｓ１１０２において、ＣＰＵ４０１は、その抽出文書を該当する分類項目に対応する１又は複数のグループに割り当てる。抽出文書内にいずれの分類項目も含まれていなければ、Ｓ１１０３において、ＣＰＵ４０１は、その抽出文書をその他のグループに割り当てる。

図１２を用いて、ステップＳ１１０２で行われる抽出文書のグループへの割当処理について説明する。図１２Ａ（１）は、検索元のスキャン対象の文書である請求書１２００の例を示している。また、図１２Ａ（２）、（３）、図１２Ｂ（１）〜（３）は、請求書１２００について検索処理により抽出された文書である各見積書１２１１〜１２１５の例を示している。
ここで、請求書１２００について、表構造内にある項目１２０２（「Product 1」）、項目１０２３（「Product 2」）、項目１２０４（「Product 3」）の３つが分類項目として抽出されたとする。

この場合、図１２Ａ（２）の見積書１２１１は、分類項目「Product 1」のグループと分類項目Product 2」のグループの、２つのグループへ割り当てられる。図１２Ａ（３）の見積書１２１２は、分類項目「Product 3」のグループへ割り当てられる。図１２Ｂ（１）の見積書１２１３は、分類項目「Product 1」のグループへ割り当てられる。図１２Ｂ（２）の見積書１２１４は、分類項目「Product 2」のグループへ割り当てられる。図１２Ｂ（３）の見積書１２１５は、分類項目「Product 3」のグループへ割り当てられる。

ステップＳ１１０４において、検索処理により抽出されたすべての文書に対してグループへの割当処理が終了したかを判断する。
まだグループへ割り当てられていない抽出文書があれば、ステップＳ１１０１に戻り、グループへの割当処理を繰り返す。すべての抽出文書についてグループへの割当処理が終了したら、ステップＳ１１０５に進む。

ステップＳ１１０５において、ＣＰＵ４０１は、複数のグループに割り当てられた抽出文書があるか否かを判断する。
複数のグループに割り当てられた抽出文書がない場合、図１１のフローチャートは終了する。複数のグループに割り当てられた抽出文書がある場合、ステップＳ１１０６に進む。

ステップＳ１１０６において、ＣＰＵ４０１はグループの修正処理を行う。グループの修正処理としては、２以上のグループを１つのグループに結合する結合処理や、設定された条件以上の抽出文書が含まれるようなグループを除去する除去処理などがある。
例えば、図１２の例では、図１２Ａ（１）に示す見積書１２１１は、分類項目「Product 1」のグループと分類項目「Product 2」のグループの、２つのグループに属することとなる。この場合、図１２Ａ（１）に項目１２０５として示すように、分類項目「Product 1」のグループと分類項目「Product 2」のグループとを結合し、分類項目「Product 1及びProduct 2」の結合グループとする。

図１２の例では、グループの結合処理により、見積書１２１１、１２１３、１２１４は、分類項目「Product 1及びProduct 2」の結合グループへ割り当てられることになる。また、見積書１２１２、１２１５は、分類項目「Product 3」のグループへ割り当てられることになる。

また、図１２Ａの例では、請求書１２００の表構造解析により、見出し語のような汎用性の高い文字列１２０１（「Description」）についても分類項目とされてしまうことがある。こうした汎用性の高い分類項目にはほとんどの文書が含まれるようになってしまうため、グループの除去処理として、このような分類項目のグループを除去する。
例えば、あるグループに割り当てられた文書群の５０％以上が他のグループにも重複して割り当てられた場合、そのグループを除去する。ただし、除去するか否かを判断する閾値は、任意であり、５０％に限られるものではない。
このように、グループの修正処理を行うことにより、検索処理により抽出された各文書を１つのグループにのみ割り当て、後述の検索結果表示画面において重複して表示されないようにする。

＜検索結果表示画面＞
次に、図１３を用いて、ステップＳ１００４で生成される検索結果表示画面について説明する。図１３Ａは、クラウドサービスサーバ１０２の表示部３０９に表示される検索結果表示画面１３００ａの例である。

検索結果表示画面１３００ａにおいて、表示欄１３１０には、検索元文書のスキャン画像がサムネイルとして表示される。表示欄１３１０では、項目欄１３１１に示されるように、検索元文書内で分類項目として抽出された文字列がハイライト表示され、各分類項目にグループ番号が付加されて表示される。
図１３Ａの例では、表示欄１３１０には、検索元文書として請求書１２００のサムネイルが表示されている。

表示欄１３２０には、検索元文書と同一取引で使用された証憑文書として、検索処理により抽出された文書が、文書の種別（納品書、発注書、見積書等）ごとに表示される。種別の選択欄１３２１において種別を選択することにより、納品書・発注書・見積書などの種別の文書ごとに抽出文書を文書リスト欄１３２２に表示させることが可能である。
文書リスト欄１３２２には、抽出文書が、検索元文書の分類項目ごとにグループ化されて、項目欄１３１１に示されたグループ番号との対応が分かるように見出しが付与され、サムネイルとして表示される。
図１３Ａの例では、請求書１２００と同一取引で使用された証憑文書のうち、見積書１２１１〜１２１５が、グループ番号１〜３の各分類項目（「Product 1」、「Product 2」、「Product 3」）ごとにグループ化されて、サムネイル表示されている。

表示欄１３３０には、文書リスト欄１３２２に表示された文書のうち、ＰＣなどの情報処理端末１０１の操作部３０７においてユーザが選択した文書が、拡大されサムネイルとして表示される。
図１３Ａの例では、文書リスト欄１３２２に表示された見積書１２１１〜１２１５のうち、見積書１２１２が、拡大されてサムネイル表示されている。

図１３Ｂは、グループの結合処理が行われた後の、検索結果表示画面１３００ｂの例である。表示欄１３１０では、項目欄１３１２に示されるように、分類項目とした抽出された文字列がハイライト表示され、さらに、結合処理のグループ番号が改めて付加されて表示される。
文書リスト欄１３２２には、抽出文書が、結合処理の分類項目ごとにグループ化されて、項目欄１３１２に示されたグループ番号との対応が分かるように見出しが改めて付与され、サムネイルとして表示される。
図１３Ｂの例では、見積書１２１１〜１２１５が、結合処理後のグループ番号１及び２の各分類項目「Product 1及びProduct 2」、「Product 3」ごとにグループ化されて、サムネイル表示されている。

以上のとおり、実施例１によれば、検索元文書に関連する証憑文書として検索処理により抽出された抽出文書を、検索元文書のスキャン画像から抽出した分類項目を用いてグループ化処理を行い、グループごとに表示する。さらに、１つの抽出文書が複数のグループに重複して割り当てられた場合、グループの結合処理を行った後にグループごとに表示する。
これにより、検索元文書と同一取引で使用された文書のユーザによる確認作業を効率化することが可能となる。

＜実施例２＞
実施例１では、検索元文書に関連する証憑文書として検索処理により抽出された抽出文書をグループ化する際に用いる分類項目を、検索元文書のスキャン画像の表構造解析により自動的に抽出した。
しかし、所望のグループ化を行われない場合など、他の分類項目を用いてグループ化処理を行いたい場合もある。このような場合、様々な分類項目を選択可能とし、グループ化処理を切り替え可能とした方がより望ましい。
そこで、実施例２においては、グループ化処理する際に用いられる分類項目をユーザ操作により選択可能とする。なお、以下では、主として実施例１と差異がある箇所について説明する。

図１５は、実施例２において、検索処理により抽出された複数の文書をグループ化して表示する処理を説明するフローチャートである。本フローチャートは、図５のシーケンスにおけるステップＳ５１４〜Ｓ５１７の処理に相当する。なお、本フローチャートに示す処理は、クラウドサービスサーバ１０２のＣＰＵ４０１が、ＲＯＭ４０２に格納されている処理プログラムをＲＡＭ４０３にロードすることにより実行される。以下では、主として、図１０に示した実施例１のフローチャートとの相違について説明する。

まず、ステップＳ１５０１において、クラウドサービスサーバ１０２のＣＰＵ４０１は、検索元文書のスキャン画像についてＳ７０２で取得したＯＣＲ結果から、各抽出文書をグループ化するための分類項目候補となる文字列を複数個抽出する。
分類項目候補となる文字列は、商品の名称や作業の名称などの名詞が適格であり、接続詞や動詞などは不適格であるため除外するのが好ましい。実施例２では、まず、Ｓ７０２で取得した文字列を形態素解析することによって名詞のみを抽出する。さらに、その中でＴＦＩＤＦ（ＴＦ−ＩＤＦ）値によって特徴語と判断された上位３０個の文字列を分類項目候補とする。ただし、分類項目候補の抽出方法やその数は、上記に限定するものではない。

ステップＳ１５０２において、ＣＰＵ４０１は、ステップＳ１５０１で抽出した分類項目候補の中から、ユーザによる操作に基づいて、グループ化に用いる分類項目を指定する。
本実施例では、ＰＣなどの情報処理端末１０１の表示部３０９において、分類項目候補となる文字列がハイライト表示された検索元文書について、ユーザが操作部３０７を用いて所望の分類項目候補を選択する。

ＣＰＵ４０１は、Ｓ１５０２で指定された分類項目候補に基づいて、ステップＳ１５０３〜Ｓ１５０５の処理を実行する。なお、ステップＳ１５０３〜Ｓ１５０５の処理は、実施例１で説明した図１０のステップＳ１００２〜Ｓ１００４と同様であるため、詳細な説明は省略する。なお、Ｓ１５０５で生成される検索結果表示画面において、分類項目候補の指定を変更して、グループ化処理をやり直すことも可能である。

なお、実施例１のグループ化処理によって適切にグループ化できなかった場合など、他のグループ化処理の結果に応じて、本実施例のグループ化処理に切り替えることも可能である。
また、例えば、請求書を検索元文書として、見積書を検索する際は、実施例１のグループ化処理を行い、納品書を検索する際は、実施例２のように分類項目候補を選択することにより、グループ化処理を行うようにしてもよい。

以上のとおり、実施例２によれば、抽出文書のグループ化処理を行う際に、検索元文書のスキャン画像から抽出した分類項目候補からユーザが選択した分類候補を用いてグループ化処理を行う。
これにより、実施例１の効果に加えて、より適切なグループ化処理を行うことが可能となる。

＜実施例３＞
実施例１及び実施例２では、検索元文書に関連する証憑文書として検索処理により抽出された抽出文書をグループ化する際に用いる分類項目を、検索元文書のスキャン画像からに抽出した。
しかし、検索元文書内に、グループ化処理を行う際に用いる分類項目として適切な文字列が記載されているとは限らない。
そこで、実施例３では、検索元文書からのみではなく、検索処理により抽出された文書からも、分類項目を抽出可能とする。

図１６は、実施例３において、検索処理により抽出された複数の文書をグループ化して表示する処理を説明するフローチャートである。本フローチャートは、図５のシーケンスにおけるステップＳ５１４〜Ｓ５１７の処理に相当する。なお、本フローチャートに示す処理は、クラウドサービスサーバ１０２のＣＰＵ４０１が、ＲＯＭ４０２に格納されている処理プログラムをＲＡＭ４０３にロードすることにより実行される。以下では、主として、図１０に示した実施例１のフローチャートとの差異について説明する。

まず、ステップＳ１６０１において、クラウドサービスサーバ１０２のＣＰＵ４０１は、検索処理により抽出された文書についてＳ７０６で取得したＯＣＲ結果から、各抽出文書をグループ化するための分類項目候補となる文字列を複数個抽出する。
抽出される分類項目としては、商品のＩＤや名称などの項目等がある。分類項目候補を抽出する手法としては、公知のＴＦ−ＩＤＦ値を用いた特徴語の抽出などを用いることができるが、この手法に限られるものではない。ただし、抽出する分類項目として、表の見出し語など、多数の文書に含まれる可能性のある文字列や、個数、金額、日付などの数字列は不適格であるため、除外するのが好ましい。

ステップＳ１６０２において、ＣＰＵ４０１は、ステップＳ１６０１で抽出した分類項目候補の中から、ユーザによる操作に基づいて、グループ化に用いる分類項目を指定する。
本実施例では、ＰＣなどの情報処理端末１０１の表示部３０９において、分類項目候補となる文字列がハイライト表示された抽出文書について、ユーザが操作部３０７を用いて所望の分類項目候補を選択する。
例えば、複数の納品書が表示されている状態において、ある納品書から「納品Ｎｏ」という文字列をユーザが選択した場合、「納品Ｎｏ」という記載の有無に基づいて、各納品書をグループ化することができる。

ＣＰＵ４０１は、Ｓ１６０２で指定された分類項目候補に基づいて、ステップＳ１６０３〜Ｓ１６０５の処理を実行する。なお、ステップＳ１６０３〜Ｓ１６０５の処理は、実施例１で説明した図１０のステップＳ１００２〜Ｓ１００４と同様であるため、詳細な説明は省略する。なお、Ｓ１５０５で生成される検索結果表示画面において、分類項目候補の指定を変更して、グループ化処理をやり直すことも可能である。

なお、実施例１や実施例２のグループ化処理によって適切にグループ化できなかった場合など、他のグループ化処理の結果に応じて、本実施例のグループ化処理に切り替えることも可能である。
また、例えば、請求書を検索元文書として、見積書を検索する際は実施例１のグループ化処理を行い、納品書を検索する際は実施例３のグループ化処理を行うようにしてもよい。

以上のとおり、実施例３によれば、抽出文書のグループ化処理を行う際に、検索処理により抽出された文書から抽出した分類項目候補からユーザが選択した分類候補を用いてグループ化処理を行う。
これにより、実施例１のグループ化処理により適切なグループ化が行われない場合においても、適切なグループ化処理を行うことが可能となる。

＜その他の実施例＞
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。すなわち、上述した実施例及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。

１０文書提示システム
１００画像形成装置
１０２クラウドサービスサーバ

Claims

文書から複数の項目を抽出する抽出手段と、
前記複数の項目のそれぞれに対応するグループを生成する生成手段と、
検索元文書に関連する複数の関連文書のそれぞれについて、前記項目に対応する記載に基づいて、１又は複数の前記グループに割り当てる割当手段と、
前記複数の項目のそれぞれに対応する前記グループごとに割り当てられた前記関連文書を提示するユーザインターフェースを生成する提示手段と、
を有することを特徴とする文書提示システム。
前記文書は、前記検索元文書である
ことを特徴とする請求項１に記載の文書提示システム。
前記文書は、前記関連文書である
ことを特徴とする請求項１に記載の文書提示システム。
前記文書は、前記検索元文書及び前記関連文書であり、
前記抽出手段は、前記複数の項目を、前記検索元文書から抽出するか、前記関連文書から抽出するか、を切り替え可能である
ことを特徴とする請求項１に記載の文書提示システム。
さらに、前記検索元文書に関連する複数の関連文書を検索する検索手段を有し、
前記関連文書は、前記検索手段により抽出された文書である
ことを特徴とする請求項１乃至４のいずれか１項に記載の文書提示システム。
前記項目は、前記文書のスキャン画像から抽出される
ことを特徴とする請求項１乃至５のいずれか１項に記載の文書提示システム。
前記項目は、前記文書の表構造から抽出される
ことを特徴とする請求項６に記載の文書提示システム。
前記抽出手段は、前記項目を自動的に抽出する
ことを特徴とする請求項１乃至７のいずれか１項に記載の文書提示システム。
前記抽出手段は、前記項目をユーザ操作に基づいて抽出する
ことを特徴とする請求項１乃至８のいずれか１項に記載の文書提示システム。
前記関連文書に前記項目と同じ文字列が記載されている場合に、前記割当手段は前記関連文書を前記項目に対応するグループに割り当てる
ことを特徴とする請求項１乃至９のいずれか１項に記載の文書提示システム。
さらに、前記生成された複数のグループの修正処理を行う修正手段を有する
ことを特徴とする請求項１乃至１０のいずれか１項に記載の文書提示システム。
前記修正処理は、前記生成された複数のグループのうち、２以上のグループを１のグループに結合する結合処理である
ことを特徴とする請求項１１に記載の文書提示システム。
前記結合処理は、同じ関連文書が割り当てられた２以上の前記グループを１のグループに結合する処理である
ことを特徴とする請求項１２に記載の文書提示システム。
前記修正処理は、前記生成された複数のグループのうち、１以上のグループを除去する除去処理である
ことを特徴とする請求項１１に記載の文書提示システム。
前記除去処理は、予め設定された条件以上の前記関連文書が割り当てられた前記グループを除去する処理である
ことを特徴とする請求項１４に記載の文書提示システム。
文書から複数の項目を抽出する抽出手段と、
前記複数の項目のそれぞれに対応するグループを生成する生成手段と、
を有する文書提示システムにおける文書提示方法であって、
検索元文書に関連する複数の関連文書のそれぞれについて、前記項目に対応する記載に基づいて、１又は複数の前記グループに割り当てるステップと、
前記複数の項目のそれぞれに対応する前記グループごとに割り当てられた前記関連文書を提示するユーザインターフェースを生成するステップと、
を有することを特徴とする文書提示方法。
請求項１６に記載の文書提示方法をコンピュータにより実行させるためのプログラム。