JP2019153919A

JP2019153919A - 画像処理装置、その制御方法、及びプログラム

Info

Publication number: JP2019153919A
Application number: JP2018037729A
Authority: JP
Inventors: 克之村上; Katsuyuki Murakami
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2019-09-12

Abstract

【課題】原稿を読み取って生成した画像データに対してファイル名を設定するルールを、予め定められた画像フォーマットに対する読取画像データの類似度と当該ルールの利用状況とに応じて、制御負荷を抑えつつ好適に決定する仕組みを提供する。【解決手段】予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報とを紐づけて記憶部に記憶し、原稿を読み取って取得した読取画像を、当該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、文字列を含む１以上のテキストブロックを抽出し、記憶部に予め登録されている、複数の登録画像と、読取画像との類似度を取得し、取得した類似度のうち、所定の第１閾値を超える類似度の登録画像に対応付けて記憶された名づけルールの中から、類似度及び利用情報に基づいて、読取画像のファイル名を名付けるための名づけルールを抽出する。【選択図】図９

Description

本発明は、画像処理装置、その制御方法、及びプログラムに関する。

帳票等の紙文章を画像読取装置でスキャンしてデジタル化する業務フローが存在する。その際には、一般的に、デジタル化した文書画像に、文書の種類・内容に応じたファイル名やメタ情報を付与し、所定のフォルダに格納している。デジタル化した文書画像の、ファイル名づけ、メタ情報づけ、及び送付先の振り分けフォルダの指定を人手で行うことは、デジタル化する紙原稿の枚数が多くなるとユーザにとって大きな負荷となる。特に、ＵＩの制約により、ソフトウェアキーボードでファイル名やメタ情報を入力する必要がある場合には負荷はより増大してしまう。また、送付先を指定することも、新たなフォルダを作成することが必要な場合などには、負荷が増大してしまう。

特許文献１には、上述の問題を解決することを目的とした技術が提案されている。具体的には、まず、文書の種類と、ファイル名づけルールやメタ情報づけルールや送付先ルールなどが関連づけて予め登録される。ファイル名づけルールは、特定の場所の光学文字認識処理（ＯＣＲ処理）結果をファイル名にすることなどが考えらえる。次に、同じ種類の文書がスキャンされた場合には、文書の種類を認識し、関連付けられたファイル名づけルールやメタ情報づけルールや送付先ルールを利用して、自動的にファイル名やメタ情報や送付先をユーザに推奨する。これにより、ユーザ作業負荷を大きく軽減している。

なお、これを実現するためには、スキャンされた文書が、過去に登録されていたどの文書と類似しているかを認識する必要がある。よって、文書画像間で類似度を算出する必要があり、そのために種々の方法が提案されている。同一の文書画像を認識するためであれば、文書画像全体の類似度を算出すればよいが、同一「種類」の文書を認識するためには、同一種類の文書が持つ特徴に注目して類似度を算出する必要がある。ここで、同一「種類」の文書とは、文字列の内容が異なるが、主要な構造が一致している文書である。主要な構造が一致していればよいので、全体的な構造が一致していなくても、文書上部の構造が一致しているだけでもよい。

このような同一「種類」の文書は、デジタル的には同一のフォーマットから生成されている場合が多く、ユーザが同一の送信設定ルールを適用する可能性も高い。そのため、スキャンされた文書と、同一「種類の」の過去の文書画像を見つけることが重要になる。例えば、特許文献２では、新しくスキャンされた文書画像の特定の部分（同一種類の文書が共通して持つ部分）に一致する、登録されている文書画像を見つける手法が提案されている。即ち、その特定部分に対して類似度計算の重みをつけて、新しくスキャンされた文書画像と、各登録フォーマット間の類似度計算することが提案されている。

特開２０１１−１５３４８号公報特開２００４−３４８７０６号公報

しかしながら、上記従来技術には以下に記載する課題がある。例えば、上記従来技術では、複数のファイル名づけルールが存在する場合、推奨する際のファイル名づけルールは、スキャンされた文書と保存されたファイル名づけルールの文書画像の類似度の大きさで決定する。しかし、類似度の一番大きい文書画像に対応するファイル名づけルールを適用したファイル名が、ユーザにとって適切なファイル名ではないことがある。例えば、最新ルールに対応づけて記憶された文書と以前使用されていたルールに対応づけられた文書があるとする。このときに、類似度だけでは、最新のルールと以前使用されていたルールのいずれを使用したら良いかを自動で決定することができない場合がある。また、原稿台への原稿の置き方やスキャナが原稿を読み取る位置やタイミングによっては、以前使用されていたルールに対応づけられた文書画像に対する類似度が、最新のルールに対応づけられた文書画像に対する類似度より高くなる場合がある。このような場合において、画像処理装置が現在使用していないルールを用いてスキャンした画像データのファイル名を付与してしまうと、ユーザは意図したファイル名とは異なるため、再度ファイル名を修正する必要がある。このような修正は、全体的にみて装置のスループットを低下させることとなる。また、原稿台への原稿の置き方やスキャナが原稿を読み取る位置やタイミングを考慮した制御を行うためには、煩雑な処理が必要となり、さらに制御負荷が増大して装置のスループットを低下させてしまう。

本発明は、上述の問題の少なくとも一つに鑑みて成されたものであり、原稿を読み取って生成した画像データに対してファイル名を設定するルールを、予め定められた画像フォーマットに対する読取画像データの類似度と当該ルールの利用状況とに応じて、制御負荷を抑えつつ好適に決定する仕組みを提供することを目的とする。

本発明は、例えば、画像処理装置であって、予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報と、を記憶する記憶手段と、原稿を読み取って読取画像を取得する読取手段と、前記読取手段によって取得した前記読取画像を、該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、分割した前記複数のオブジェクトブロックの中から、文字列を含む１以上のテキストブロックを抽出する第１抽出手段と、前記第１抽出手段によって抽出した前記１以上のテキストブロックを用いて、前記記憶手段に予め登録されている、前記複数の登録画像のそれぞれと、前記読取画像との類似度を取得する取得手段と、前記取得手段によって取得された類似度のうち、所定の第１閾値を超える類似度の前記登録画像に対応付けて記憶された前記名づけルールの中から、前記類似度と、前記記憶手段に記憶されている前記利用情報とに基づいて、前記読取画像のファイル名を名付けるための名づけルールを抽出する第２抽出手段と、前記第２抽出手段によって抽出された名付けルールを用いて前記読取画像のファイル名を決定してユーザに推奨する推奨手段とを備えることを特徴とする。

本発明によれば、原稿を読み取って生成した画像データに対してファイル名を設定するルールを、予め定められた画像フォーマットに対する読取画像データの類似度と当該ルールの利用状況とに応じて、制御負荷を抑えつつ好適に決定するができる。

一実施形態に係るハードウェア構成の一例を示すブロック図。一実施形態に係る画像処理装置１００におけるフローを示す図。一実施形態に係るブロックセレクション処理の例を示す図。一実施形態に係る文書画像の例を示す図。一実施形態に係るＵＩの第１の例を示す図。一実施形態に係るＵＩの第２の例を示す図。一実施形態に係るＵＩの第３の例を示す図。一実施形態に係る文書マッチング処理を示すフローチャート。一実施形態に係るファイル名づけルール抽出処理を示すフローチャート。一実施形態に係るマッチング処理の概念図を示す図。一実施形態に係る新しい登録文書画像の関連情報の概要を説明する図。一実施形態に係る古い登録文書画像の関連情報の概要を説明する図。一実施形態に係るマッチング処理の概念図を示す図。一実施形態に係る登録文書画像の関連情報の概要を説明する図。一実施形態に係る時間による重み特性の概要を示す図。一実施形態に係る利用回数係数を計算するための概要を説明する図。一実施形態に係る共通領域抽出の概要を説明する図。

以下に本発明の一実施形態を示す。以下で説明される個別の実施形態は、本発明の上位概念、中位概念及び下位概念など種々の概念を理解するために役立つであろう。また、本発明の技術的範囲は、特許請求の範囲によって確立されるのであって、以下の個別の実施形態によって限定されるわけではない。

＜第１の実施形態＞
＜システム構成＞
以下では、本発明の第１の実施形態について説明する。本実施形態では、同一種類の文書で新しいルールで登録されている登録文書画像と古いルールで登録されている登録文書画像が予め登録されているときに、新しいルールを適用したファイル名を推奨するための方法を説明する。

まず、図１を参照して、本実施形態に係るシステム構成の一例を説明する。図１に示すように、本実施形態に係る文書画像のスキャンアシストシステムは、画像処理装置１００により実現される。なお、本発明を適用する画像処理装置は、画像読取機能及び画像処理機能の他に、印刷機能、コピー機能、画像保存機能、及び画像送信機能等を含む装置であってもよい。

画像処理装置１００は、ユーザインタフェース１０４、装置制御部１０２、画像読取部１０８、画像出力部１０９、及びディスプレイ（表示部）１１０を備え、装置制御部１０２を介して相互に通信可能に接続されている。装置制御部１０２は、コントローラ基盤から構成され、当該基盤上に、ＣＰＵ１０５、ＲＡＭ１０６、記憶部１０７、及び画像処理部１０３を備える。画像処理部１０３は、画像データを処理するＡＳＩＣから構成されてもよい。また、画像処理装置１００は、ネットワーク１０１を介して、不図示の外部の情報処理装置と接続されている。ユーザインタフェース１０４は、例えばキーボード、マウス、その他入出力装置によって構成され、各種の設定値又は指定値を入力することができる。

ＣＰＵ１０５は、記憶部１０７内のブートプログラムに従って、メインプログラムを記憶部１０７から読み出し、ＲＡＭ１０６に記憶する。ＲＡＭ１０６はプログラム格納用や、ワーク用のメインメモリとして使用される。そして、ＣＰＵ１０５は、メインプログラムに従って、装置制御部１０２を制御する。

画像読取部１０８は、スキャナデバイスであり、紙文書等の原稿を読み取ることにより、画像データ形式の文書画像を取得することができる。装置制御部１０２は、画像読取部１０８から文書画像を取得すると、記憶部１０７に記憶する。そして、装置制御部１０２は、スキャンアシスト処理を実行する際に、記憶部１０７に記憶された文書画像をＲＡＭ１０６に読み出す。ここで、スキャンアシスト処理は、例えばスキャンした文書画像を送信する際などに、必要となる情報をユーザに推奨する処理である。推奨する情報は、ファイル名やメタ情報や送付先（格納先）等の情報である。送付先（格納先）については、送付先のフォルダが存在しなければ、新規作成も含めて推奨してもよい。

そして、装置制御部１０２は、ＲＡＭ１０６上の文書画像を解析し、スキャンアシストのための情報を生成する。解析処理は、例えば３つの処理からなる。１つ目は、文書画像内の文字列ブロックを抽出するブロックセレクション処理（ＢＳ処理）である。２つ目は、文字列画像から文字列情報を抽出する光学文字認識処理（ＯＣＲ処理：Optical Character Recognition）である。３つ目は、登録されている文書画像と新たにスキャンされた文書画像との間の類似度を求めるマッチング処理である。スキャンアシストのための情報は、ユーザに推奨するファイル名やメタ情報や送付先（格納先）に関連する情報等からなる。

次に、装置制御部１０２は、生成されたスキャンアシストのための情報を用いて、スキャンアシストのためのＵＩ画面を生成し、ディスプレイ１１０上に表示する処理を実行する。そして、装置制御部１０２は、ユーザインタフェース１０４を介して入力されたユーザからの指示に基づき、ＯＣＲ処理等の編集処理、スキャンアシスト処理、及び送信処理等を実行する。そして、装置制御部１０２は、ユーザからのフィードバックを含めたスキャンアシスト処理結果についての情報を記憶部１０７に記憶する。

また、装置制御部１０２は、記憶部１０７に記憶された文書画像を画像出力部１０９に提供し、画像出力部１０９は、種々の形式で文書画像を出力する処理を実行する。画像出力部１０９はプリンタデバイスであり、例えば、画像出力部１０９は、文書画像に係る画像データを、記憶媒体に出力する処理を実行することができる。或いは、画像出力部１０９は印刷機能を備え、紙媒体等の出力媒体に文書画像を出力する処理を実行してもよい。

以上説明した画像処理装置１００は一例であり、画像読取部１０８及び画像出力部１０９のうち、画像出力部１０９を有さない構成の画像処理装置１００であってもよい。また、画像処理装置１００の一部機能を、ネットワークを介して通信を相互に行うことにより、外部処理装置で実行するようにしてもよい。外部処理装置は、サーバ等のコンピュータ装置で実装してもよいし、インターネット上のクラウドサーバで実装してもよい。その他必要に応じて、その他の構成を備えるものであってもよい。

＜スキャンアシスト処理＞
次に、図２を参照して、本実施形態に係る画像処理装置１００における新しくスキャンされた文書画像に対するスキャンアシスト処理の処理手順を説明する。図２のフローは、ユーザがユーザインタフェース１０４で、ユーザから文書画像のスキャン指示を受け付けることにより起動する。なお、以下で説明する処理は、装置制御部１０２においてＣＰＵ１０５が記憶部１０７に記憶されたプログラムコードをＲＡＭ１０６に読み出して実行することにより実現される。

Ｓ２０１で、装置制御部１０２は、画像読取部１０８を用いて文書をスキャンし、画像データである文書画像に変換する。そして、装置制御部１０２は、画像処理部１０３で色変換処理・階調補正等の文書画像用の補正処理を当該文書画像に実行し、記憶部１０７に保存する。この文書画像を以下では、クエリ文書画像（読取画像）と称する。

続いて、Ｓ２０２で、装置制御部１０２は、記憶部１０７に保存されているクエリ文書画像をＲＡＭ１０６に読み出し、回転補正処理を実行する。回転補正処理は、クエリ文書画像に対し、文字として認識されやすい向きに画像を補正するための処理であり、回転角度を算出し、算出された回転角度を用いて、画像を回転させることにより行う。回転角度の算出は、文書画像内の文字列や線がデジタル的には水平方向に並んでいることを利用する。例えば、様々な方向への射影ヒストグラムを取り、ヒストグラムのピークとボトムが短い周期で大きく振動するヒストグラムに対応する角度を選択することにより、回転角度の算出が可能である。これは、正しい方向への射影であれば、同一ラインの文字列や、同一方向の罫線等の水平の線が、ヒストグラム上の同一のビンに投票され、行間にあたる部分には何も投票されないため、大きな振幅が文字間の周期で生じる。一方で、文字の向きとして認識しにくい回転角度で射影した場合、複数ラインの文字列や異なる方向の罫線がヒストグラム上の同一のビンに投票され、ヒストグラムの振幅の周期が生じない。その周期性から文字として認識されやすい回転角度を算出する。本実施形態に限らず、文字として認識されやすい向きに補正するための処理であれば、どのような方法でも構わないものとする。

次に、Ｓ２０３で、装置制御部１０２は、クエリ文書画像に対して、ブロックセレクション処理（ＢＳ処理）を実行する。ブロックセレクション処理とは、画像内の領域をオブジェクトブロックに分割し、それぞれのブロックの属性を判定する処理である。具体例を、図３を用いて説明する。３１０はＳ２０１で読み取った文書画像の一例である。３２０は、当該文書画像をオブジェクトブロックに分割したものである。各ブロックについて、文字(ＴＥＸＴ)／図画(ＰＩＣＴＵＲＥ)／写真(ＰＨＯＴＯ)／線(ＬＩＮＥ)／表(ＴＡＢＬＥ)等の属性を判定し、異なる属性を持つ領域に分割した様子を示している。

ここで、ブロックセレクション処理の方法を説明する。先ず、画像処理部１０３は、文書画像を白黒に二値化する。続いて、画像処理部１０３は、二値画像から輪郭の形状を抽出するための輪郭線追跡を行い、黒画素輪郭で囲まれる画素の塊を抽出する。面積が所定の面積よりも大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行い、白画素の塊を抽出し、さらに一定面積以上の白画素の塊の内部から再帰的に黒画素の塊を抽出する。

このようにして得られた黒画素の塊を、画像処理部１０３は、大きさ及び形状で分類し、異なる属性を持つ領域へ分類していく。例えば、縦横比が１（１：１）に近く、大きさが一定の範囲のものを文字相当の画素塊とする。さらに近接する文字が整列良くグループ化されうる部分を文字領域（ＴＥＸＴ）とする。扁平な画素塊を線領域（ＬＩＮＥ）とする。一定の大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域（ＴＡＢＬＥ）とする。不定形の画素塊が散在している領域を写真領域（ＰＨＯＴＯ）とする。そして、それ以外の任意形状の画素塊を図画領域（ＰＩＣＴＵＲＥ）とする。ブロックセレクション処理で得られた各ブロックに対する属性情報は以降に説明するＯＣＲ処理、類似度計算等の為の情報として用いる。ここで、文字領域と判定されたブロックをテキストブロックと称する。本実施形態では、上記の方法を用いて原稿を読み取ることで得られた画像データをブロックに分割したが、他の既知の方法を用いて当該画像データをブロックに分割してもよい。

図２の説明に戻る。次に、Ｓ２０４で、装置制御部１０２は、クエリ文書画像と登録文書画像群間でマッチング処理を実行する。ここで、マッチング処理とは、全ての登録文書画像の中から、クエリ文書画像のファイル名づけに用いる最適な登録文書画像に関連付けられたファイル名づけルールを選択するための処理である。ここで、ファイル名づけルールとは、クエリ文書画像に含まれる複数のテキストブロックのうち、いずれのブロックにある文字列を優先してファイル名として利用するかの条件を示す。登録文書画像群は、後述するＳ２１４で登録された過去に処理された文書画像の集まりである。装置制御部１０２は、この登録文書画像群を記憶部１０７からＲＡＭ１０６に読み出す。ここで、登録文書画像群は、文書画像そのものでなく、各文書画像のブロックセレクション処理結果等のマッチング処理に利用可能な特徴量であってもよい。Ｓ２０４のマッチング処理の結果として、装置制御部１０２は、該当する登録文書画像の類似度、登録文書画像自体に関する情報、クエリ文書画像と登録文書画像の対応情報を取得する。ここで、クエリ文書画像と登録文書画像の対応情報とは、登録文書画像において、ファイル名を付けるときに使用されたテキストブロックが、クエリ文書画像において、いずれのテキストブロックに対応するかを示す情報である。登録文書画像に保存するときに関連付ける情報は、ファイル名づけルール、登録日時などの登録情報、テキストブロックの座標やファイル名づけ時に用いる文字列の順番などの順番対応情報、及び月別の推奨の正解回数や修正回数の利用状況情報である。

ここで、マッチングの概要について、図１０を用いて説明を行う。図１０（Ａ）はクエリ文書画像であり、図１０（Ｂ）、図１０（Ｃ）及び図１０（Ｄ）は登録文書画像である。適切な手法を利用して、画像処理部１０３は、図１０（Ａ）と図１０（Ｂ）の類似度と、図１０（Ａ）と図１０（Ｃ）の類似度と、図１０（Ａ）と図１０（Ｄ）の類似度を算出する。すると、図１０（Ａ）と図１０（Ｃ）の類似度、が最も高く、図１０（Ａ）と図１０（Ｂ）、図１０（Ａ）と図１０（Ｄ）の順で、類似度が低くなる。そして、類似度の高い登録文書画像に関連付けられている利用状況情報を用いて、登録文書画像の使われている頻度から評価値を算出し、評価値が最大となる登録文書画像を選択する。

図１０（Ｅ）と図１０（Ｇ）は対応するテキストブロックが多い。図１０（Ｅ）と図１０（Ｆ）は対応するテキストブロックが多い。しかしながら、図１０（Ｅ）ＩＤ００３に対応する図１０（Ｆ）のＢＳブロックは存在しない。そのため、図１０（Ｅ）と図１０（Ｇ）の類似度と、図１０（Ｅ）と図１０（Ｆ）の類似度を算出すると、図１０（Ｅ）と図１０（Ｇ）の類似度の方が高くなる。図１０（Ｅ）と図１０（Ｈ）で共通しているテキストブロックの領域は存在するが、図１０（Ｅ）と図１０（Ｆ）で共通しているテキストブロックの領域より小さくなる。類似度が大きいテキストブロックは存在しない。そのため、図１０（Ｅ）と図１０（Ｇ）の類似度と、図１０（Ｅ）と図１０（Ｈ）の類似度を算出すると、図１０（Ｅ）と図１０（Ｇ）の類似度の方が高くなる。それにより、図１０（Ｅ）と図１０（Ｆ）、図１０（Ｅ）と図１０（Ｇ）、図１０（Ｅ）と図１０（Ｈ）の類似度を比較すると、図１０（Ｅ）と図１０（Ｇ）の類似度が最大となる。クエリ文書画像のテキストブロックと登録文書画像のテキストブロックの共通部分の面積や非共通部分の面積を用いた類似度の算出方法であれば、上記の方法に限らずどのような方法でも本発明に適用することができる。

次に、図１０及び図１１を参照して、本実施形態における登録文書画像に対応づけて記憶される情報について説明する。図１１は、図１０（Ｂ）に示す登録文書画像に対応づけられた情報を示すテーブルの模式図である。図１１（Ａ）は、図１０（Ｂ）を登録文書画像として記憶部１０７に登録した日時、図１０（Ｂ）に示す登録文書画像を用いて行ったファイル名の推奨が正解した最終日時１１０１、スキャンの解像度やサイズを記載した登録情報を対応付けて記憶するテーブルである。「ファイル名の推奨が正解した」とは、画像処理装置１００が、当該登録文書画像を用いて生成したファイル名をユーザが修正することなく使用した場合を示す。

図１１（Ｂ）は、図１０（Ｆ）のテキストブロックに関する情報を記憶し、ＩＤ毎にテキストブロックの座標やファイル名づけ時に使用されたブロックの順番（優先順位）や各テキストブロックの始点座標及び終点座標を示すテーブルである。なお、ＯＣＲ順序が０となっているテキストブロックは、ファイル名づけ時に使用しないテキストブロックである。図１１（Ｃ）は、所定の時間単位での利用を示す利用月１１０２と、当該利用月別の推奨の正解回数及び修正回数と、正解及び修正回数の合計値１１０３とを記憶する、利用状況情報のテーブルである。なお、本実施形態では、所定の時間単位を月単位としているが、本発明を限定する意図はなく、他の時間単位であってもよい。

図２の説明に戻る。次に、Ｓ２０５で、装置制御部１０２は、Ｓ２０４のマッチング結果において、マッチングした文書画像があったか否かを判定する。ここでは、Ｓ２０４で得られた類似度が所定の閾値を上回っている場合に、その類似度を持つ登録文書画像がマッチングした文書画像として判断される。一方、Ｓ２０４で得られた全ての類似度がその所定の閾値以下である場合に、クエリ文書画像にマッチする登録文書画像はないと判断される。マッチングした登録文書画像があると判断された場合にはＳ２０６に進み、マッチングした文書画像がないと判断された場合にはＳ２１２に進む。

ここで、クエリ文書画像と登録文書画像の対応情報の具体例について説明する。登録文書画像の図１０（Ｆ）で、図１０（Ｂ）の文字列「請求書」に対応するテキストブロックのＩＤ０００と、図１０（Ｂ）の文字列「ＩＤ９４００」に対応するテキストブロックのＩＤ００１が、画像データのファイル名の命名に用いられたブロックである。そして、図１１（Ｂ）に示すように、各テキストブロックに対応するＩＤに対して、ファイル名を命名する順番がＯＣＲ順位として記録されている。この際、図１０（Ｆ）のＩＤ０００のテキストブロックは、クエリ文書画像の文字列「請求書」に対応する図１０（Ｅ）のＩＤ０００のテキストブロックと対応している。このように両ブロックが対応している情報がクエリ文書画像と登録文書画像の対応情報の１つとなる。また、図１０（Ｆ）のＩＤ００１のテキストブロックは、クエリ文書画像の文字列「ＩＤ９６５０」に対応する図１０（Ｅ）ＩＤ００４のテキストブロックが対応している。このように両ブロックの対応している情報もクエリ文書画像と登録文書画像の対応情報の１つとなる。

図２の説明に戻る。Ｓ２０５からＳ２０６に遷移した場合、装置制御部１０２は、Ｓ２０４で得られたクエリ文書画像と登録文書画像の対応情報に基づき、登録文書画像と対応するクエリ文書画像のテキストブロックだけのＯＣＲ処理を実行する。こうすることにより、ＯＣＲ処理を全てのテキストブロックに対して行うよりも、高速に処理を行うことが可能となり、装置の処理負荷を低減することができる。これにより、ユーザへの応答時間が高速になり、ユーザビリティの向上にも繋がる。また、限られた箇所だけに処理を行うため、計算リソースの節約にも繋がる。

続いて、Ｓ２０７で、装置制御部１０２は、クエリ文書画像のファイル名候補となる文字列を生成し、クエリ文書画像とともにディスプレイ１１０に表示して、ユーザにファイル名を推奨する。そして、ユーザによる操作をユーザインタフェース１０４で受け付ける。装置制御部１０２は、スキャンアシスト情報として、例えば、マッチングした登録文書画像が過去に送付された際の送付先をクエリ文書画像の送付先として推奨する。例えば、送付先が登録文書画像の特定のテキストブロックのＯＣＲ結果に基づいて作成されたディレクトリであった場合には、対応するクエリ文書画像のテキストブロックのＯＣＲ結果から新たなディレクトリを作成して、その場所に送付（格納）する。また、装置制御部１０２は、例えばマッチングした登録文書画像でファイル名づけやメタ情報づけに利用されたテキストブロックに対応する、クエリ文書画像のテキストブロックのＯＣＲ結果から、クエリ文書画像のファイル名やメタ情報をユーザに推奨する。

ここで、図４及び図５を参照して、スキャンアシスト情報を表示するＵＩ例について、ファイル名づけのためのスキャンアシスト情報を例に説明する。図４は、クエリ文書画像の一例である。この図４のクエリ文書画像が読み取られた際にディスプレイ１１０に表示されるＵＩの例が図５となる。図５に示すＵＩはディスプレイ１１０に表示され、ユーザによる操作はユーザインタフェース１０４を用いて行われる。

図５では、テキストブロックが背景色のグレーで表示されている。文字列部分で背景色がグレーとなっていない領域があるが、これはテキストブロックとして認識されなかった文字列ブロックである。この例においては、「注文書」と書かれているテキストブロック５０１及び「株式会社西取手白山商会」と書かれているテキストブロック５０２が、マッチングした登録文書情報に基づいてＯＣＲ処理が施された部分となる。テキストブロック５０１の左上の数字「１」は、マッチングした登録文書画像において対応するテキストブロックが、ファイル名の１番目の文字列として利用されていたことを意味している。テキストブロック５０２の左上の数字「２」は、同様に、マッチングした登録文書画像において対応するテキストブロックが、ファイル名の２番目の文字列として利用されていたことを意味している。よって、ここでは、この２つの部分のＯＣＲ結果である「注文書」と「株式会社西取手白山商会」が「_」で連結され、「注文書_株式会社西取手白山商会御中」をファイル名として、テキストボックス５０３において変更可能に表示して、推奨されている。ユーザがファイル名づけボタン５０４を押下すると、この文書画像のファイル名として、テキストボックス５０３に含まれる文字列が利用される。ユーザが推奨結果を利用しない場合には、テキストボックス５０３を押下すると編集することが可能となる。その際の編集方法については、後述する。

図２の説明に戻る。Ｓ２０８で、装置制御部１０２は、ディスプレイ１１０に推奨する結果の設定画面を表示し、推奨する結果に対するユーザによる操作をユーザインタフェース１０４を介して受け付ける。図５の例では、推奨されたファイル名が編集されずにファイル名付けボタン５０４が押された場合は、装置制御部１０２は、推奨結果をそのまま利用するため、推奨結果ＯＫと判定する。一方、装置制御部１０２は、テキストボックス５０３が押下された場合には、推奨結果がそのまま利用されないと判断し、推奨結果ＮＧと判定する。

次に、Ｓ２０９で、装置制御部１０２は、Ｓ２０８における推奨結果がＯＫかどうかを判断する。Ｓ２０８で推奨結果がＯＫの場合はＳ２１０に進み、推奨結果がＮＧの場合は編集モードとなるためＳ２１３に進む。Ｓ２１０で、装置制御部１０２は、Ｓ２０８で決定された推奨情報に基づき、クエリ文書画像の送信設定を行う。送信設定は、ファイル名、メタ情報、及び送付先情報等である。さらに、装置制御部１０２は、ネットワーク１０１を介して、送信設定に従い、送付用ファイルを作成し、送信設定の送付先に文書画像を送信する。続いて、Ｓ２１１で、装置制御部１０２は、マッチングした登録文書情報に関連付けられている情報の更新を行う。本実施形態では、推奨が正解した日時や、利用状況情報の利用月に正解した回数の更新を行うものとする。

一方、Ｓ２０５でマッチングした文書画像がないと判断すると、Ｓ２１２で、装置制御部１０２は、クエリ文書画像とともにテキストブロックに関する情報を、ディスプレイ１１０に表示する。ここで、テキストブロックに関する情報を表示するＵＩ例について、図６を用いて説明する。図４のクエリ文書画像が読み取られた際のＵＩの例が図６となる。図６に示すＵＩはディスプレイ１１０に表示され、ユーザによる操作はユーザインタフェース１０４を用いて行われる。当該ＵＩでは、ファイル名の入力する領域が空欄で表示される。図６では、図５と同様にテキストブロックが背景色のグレーで表示されている。例えば、テキストブロック６０１は帳票内のタイトルブロックである。なお、図５と同様に、文字列部分で背景色がグレーとなっていない領域があるが、これはテキストブロックとして認識されなかった文字列ブロックである。ここでは、ＯＣＲ処理を掛けずに、テキストブロックだけを表示しているため、テキストブロックに紐づいたＯＣＲ情報を保持していない。これは、テキストブロックごとにＯＣＲ処理を掛けてからＵＩを表示しようとすると、ＯＣＲ処理のための時間が掛かかり、図６のＵＩをディスプレイ１１０に表示することが遅れるためである。そのため、ユーザへのＵＩ表示を少しでも早くするために、ＯＣＲ処理を掛けずに図６のＵＩをディスプレイ１１０に表示している。次ステップ（Ｓ２１３）において、この背景色がグレーとなっている文字列ブロックをユーザが選択することにより、送信設定に利用することが可能となる。

次に、Ｓ２１２又はＳ２０９からＳ２１３に進んだ場合の処理について説明する。Ｓ２１３で、装置制御部１０２は、ディスプレイ１１０に送信設定の設定画面を表示し、ユーザによる送信設定の入力をユーザインタフェース１０４で受け付ける。これはスキャンアシスト情報がない場合や、スキャンアシスト情報が適切でなかった場合には、ユーザが手動で送信設定を決定する必要があるためである。設定する送信設定は、ファイル名、ファイルに付加するメタ情報、及びクエリ文書画像の送付先等である。ユーザが送信設定を設定するために、テキストブロックを選択した際には、装置制御部１０２は、そのテキストブロックに対応する領域だけにＯＣＲ処理を行って、ユーザが利用できるようにする。この部分的な領域だけＯＣＲ処理を行うのはユーザ操作を少しでも早くできるようにするためであるので、ユーザ操作がアイドルになっている際に、このＯＣＲ処理を予めバックグラウンドで行っても構わない。

ここで、ファイル名を手動で設定するＵＩ例について、図６及び図７を用いて説明する。図６は、Ｓ２１２や、Ｓ２０７の図５でテキストボックス５０３を押下して編集モードに切り替わった際に表示されるＵＩである。図６において、テキストブロック６０１を押下した際に表示される画面が図７（Ａ）である。図７（Ａ）は、テキストブロック６０１が選択されたことを示す数字「１」を、テキストブロック６０１の左上に表示している。「１」は１番目に選択された文字列ブロックであることを意味する。また、装置制御部１０２は、テキストブロック６０１に対応する画像領域をＯＣＲすることにより、「注文書」という文字列を取得し、取得した文字列をテキストボックス７０１に表示している。

続いて、ユーザがテキストブロック７０２を押下すると、図７（Ｂ）の画面が表示される。図７（Ｂ）は、テキストブロック７０２が選択されたことを示す数字「２」を、テキストブロック７０２の左上に表示している。「２」は２番目に選択された文字列ブロックであることを意味する。また、装置制御部１０２は、テキストブロック７０２に対応するクエリ文書画像領域をＯＣＲすることにより、「株式会社西取手白山商会」という文字列を取得する。さらに、装置制御部１０２は、テキストボックス７０１に既に表示されている文字列「注文書」に[_]で連結して、取得した文字列をテキストボックス７０１に表示している。ファイル名付けボタン７０３が押下されて、送信設定が終了した場合にはＳ２１４に進む。

続いて、Ｓ２１４で、装置制御部１０２は、Ｓ２１３で決定された送信設定に基づき、クエリ文書画像の送信設定を行う。送信設定は、ファイル名、メタ情報、及び送付先情報等である。さらに、装置制御部１０２は、ネットワーク１０１を介して、送信設定に従い、送付用ファイルを作成し、送信設定の送付先に文書画像を送信する。最後に、Ｓ２１５で、装置制御部１０２は、次回以降のクエリ文書画像のスキャンアシスト処理のための処理を実行する。即ち、推奨結果のフィードバック処理を実行する。以上が、本発明の全体フローの説明となる。

＜マッチング処理＞
次に、図８を参照して、本実施形態における、Ｓ２０４の文書マッチングの詳細手順について説明する。なお、以下で説明する処理は、装置制御部１０２においてＣＰＵ１０５が記憶部１０７に記憶されたプログラムコードをＲＡＭ１０６に読み出して実行することにより実現される。

まず、Ｓ８０１で、装置制御部１０２は、ＲＡＭ１０６に保持されているクエリ文書画像のＢＳ処理結果情報を取得する。続いて、Ｓ８０２で、装置制御部１０２は、クエリ文書画像のＢＳ処理結果情報に前処理を加える。具体的には、前処理には、テキストブロックを抽出、ノイズブロックの除去、及び垂直方向へ上から下へのソートが含まれる。テキストブロックだけ抽出するのは、文字列位置は文書画像の構造を精度良く表現でき、さらに全体フローの中で、ＯＣＲ処理と密接に結びついているためである。なお、ここではテキストブロックに絞ったが、写真領域や表領域等の他のＢＳ処理結果情報を利用することを制限するものではない。ノイズブロックの除去は、文字列として意味をなしていないような短い文字列は、ノイズを拾っている可能性が高いために行う。垂直方向へ上から下へのソートは、後述する類似度計算のために行う。

続いて、Ｓ８０３で、装置制御部１０２は、記憶部１０７に保持されている登録文書画像群の中で類似度算出処理が未処理の帳票があれば、ＲＡＭ１０６に読み出し、Ｓ８０４に進む。なお、全ての登録帳票を予めＲＡＭ１０６に読み出しておいてもよい。ここで、読み出す情報は、各登録文書画像自体ではなく、各登録文書画像のテキストブロックの情報と登録文書情報に関連付けられている情報で良い。未処理の登録帳票がない場合には、Ｓ８０５に進む。

次に、Ｓ８０４において、装置制御部１０２は、クエリ文書画像とＳ８０３で読み出された登録文書画像との間で類似度を算出する。本実施形態における類似度の算出方法は、以下に説明するクエリ文書画像のテキストブロックと登録文書画像のテキストブロックの共通している領域から算出する方法であるが、本実施形態に限らず類似度を算出できればどのような方法でもよいものとする。

ここで、原稿をスキャンして得られたクエリ文書画像と登録文書画像の類似度の求め方を、図１０及び図１７を用いて説明する。図１０（Ｅ）は、図１０（Ａ）のテキストブロックを図示したものである。点線がテキストブロックであり、ＩＤ０００〜ＩＤ００５は各テキストブロックのＩＤである。図１０（Ａ）の文字列がテキストブロックになっていることが分かる。同様に、図１０（Ｆ）は、図１０（Ｂ）のテキストブロックを図示したものであり、図１０（Ｇ）は、図１０（Ｃ）のテキストブロックを図示したものであり、図１０（Ｈ）は、図１０（Ｄ）のテキストブロックを図示したものである。本実施形態に係る、テキストブロックを用いた類似度算出は、テキストブロックの形状・配置がどれだけ類似しているかに着目して、類似度を算出する方法である。本実施形態における類似度は式（１）を用いて算出する。
（類似度）＝（クエリ文書画像と登録文書画像の共通面積）／Ｍａｘ（クエリ文書画像の面積，登録文書画像の面積）・・・式（１）
ここでは、クエリ文書画像のテキストブロックと登録文書画像のテキストブロックで共通する領域の面積と、クエリ文書画像のテキストブロックの面積又は登録文書画像のテキストブロックの面積の最大値（Ｍａｘ）から類似度である共通領域の面積の割合を算出する。

共通している領域の抽出方法は以下の通りになる。図１７の１７０１がクエリ文書画像のテキストブロックとし、図１７の１７０２が登録文書画像のテキストブロックとするときに、図１７の１７０３の斜線領域がいずれのブロックとも重複しているため、共通領域とする。そのため、共通領域１７０３の面積の最大値は、クエリ文書画像のテキストブロックの面積又は登録文書画像のテキストブロックの面積の最大値となる。全ての領域が共通する場合には類似度が１．０、全ての領域が共通しない場合には類似度が０．０となり、共通領域１７０３の面積の割合からとして、類似度を算出できるものとする。同一原稿であっても、印刷時やスキャン時に発生する位置ずれや斜行があるため、ｘ座標方向とy座標方向へのシフト量調整や斜行補正は必要に応じて行い、各登録文書画像で類似度が最大値になるようにしてもよい。本実施形態に限らず、クエリ文書画像のテキストブロックと登録文書画像のテキストブロックの共通部分の面積や非共通部分の面積を用いた類似度の算出方法であれば、どのような方法でもよいものとする。

全ての登録文書画像について、クエリ文書画像との類似度算出処理が終了すると、Ｓ８０５に進む。Ｓ８０５で、装置制御部１０２は、登録文書画像群から最適となる登録文書画像に関連付けられたファイル名づけルールを抽出する。なお、ファイル名づけルールの抽出方法については後述する。続いて、Ｓ８０６で、装置制御部１０２は、Ｓ８０５で抽出された登録文書のマッチングした文書画像の評価値が閾値（第２閾値）以上であったか否かを判断する。Ｓ８０５で抽出された登録文書画像の評価値が所定の閾値以上の場合に、マッチングした登録文書画像があると判断して、Ｓ８０７に進む。一方、抽出された登録文書画像の評価値が所定の閾値未満である場合に、マッチングした登録文書画像がないと判断して、Ｓ８０９に進む。

Ｓ８０７で、装置制御部１０２は、Ｓ８０５で抽出された登録文書画像について、前述のＳ２１５で登録された際に紐づけられたファイルアシスト情報を取得する。そして、装置制御部１０２は、取得したファイルアシスト情報から、その登録文書において、どのテキストブロックが送信設定においてユーザに利用されたかの情報を取得する。続いて、Ｓ８０８で、装置制御部１０２は、Ｓ８０７で得られた登録文書画像のユーザに利用されたテキストブロック群に対応するクエリ文書画像のテキストブロック群を取得する。ここで、装置制御部１０２は、マッチングした登録文書画像の情報及び対応するクエリ文書画像のテキストブロックの情報をＲＡＭ１０６に保持し、処理を終了する。

一方、Ｓ８０９で、装置制御部１０２は、マッチングする登録文書画像がないと判定し、処理を終了する。以上がＳ２０４の詳細な処理フローとなる。

＜ルール抽出処理＞
次に、図９を参照して、Ｓ８０５のファイル名づけルールの抽出処理の詳細手順について説明する。なお、以下で説明する処理は、装置制御部１０２においてＣＰＵ１０５が記憶部１０７に記憶されたプログラムコードをＲＡＭ１０６に読み出して実行することにより実現される。

まず、Ｓ９０１で、装置制御部１０２は、Ｓ８０４で算出した登録文書画像群の中で予め決められた類似度（第１閾値）を超える登録文書画像を抽出する。ここで、類似度の大きい登録文書の抽出方法の概要について、図１０を用いて説明を行う。上述したように、図１０（Ａ）はクエリ文書画像であり、図１０（Ｂ）と図１０（Ｃ）及び図１０（Ｄ）は登録文書画像である。装置制御部１０２は、図１０（Ｅ）のクエリ文書画像のテキストブロックと、図１０（Ｆ）、（Ｇ）、（Ｈ）の登録文書画像のテキストブロックで類似度を算出する。そのとき、共通部分の多い図１０（Ｆ）、（Ｇ）は類似度が高く、共通部分の少ない図１０（Ｈ）は類似度が低くなるため、抽出する登録文書画像は、図１０（Ｂ）、（Ｃ）とする。本実施形態における類似度は、例えば、共通部分の面積と非共通部分の面積が等価となる０．５を閾値とする。即ち、総面積のうち、半分以上の面積が共通していれば類似度が高いと判定する。

次に、Ｓ９０２で、装置制御部１０２は、Ｓ９０１で抽出した類似度の大きい登録文書画像で未処理の文書があれば、記憶部１０７からＲＡＭ１０６に読み出し、Ｓ９０３に進む。なお、全ての登録文書を予め記憶部１０７からＲＡＭ１０６に読み出しておいてもよい。ここで、読み出す情報は、各登録文書画像自体ではなく、各登録文書情報に関連付けられている情報でもよい。未処理の類似度の大きい登録帳票がない場合には、Ｓ９０７に進む。

本実施形態では、Ｓ９０１にて抽出された類似度の大きい登録文書画像として図１０（Ｂ）、図１０（Ｃ）に対して、それぞれ登録文書画像に関連付けられた情報を記憶部１０７からＲＡＭ１０６に読み出す。図１０（Ｂ）に関連付けられた情報は図１１に示す情報となり、図１０（Ｃ）に関連付けられた情報は図１２に示す情報となる。

次に、Ｓ９０３で、装置制御部１０２は、登録文書画像に関連付けられた情報である利用状況情報（利用情報）を用いて、利用回数に利用月の重み付け演算をした利用回数係数を算出する。ここで、利用回数係数を算出する方法について図１６を用いて説明する。本実施形態において、図１０（Ｂ）の利用回数係数を算出する場合、図１６（Ａ）の推奨時正解回数は図１１（Ｃ）の１１０２の月別レコメンドの正解回数を抽出したものである。図１６（Ａ）の月別重み付け係数は時間的に近い利用月に対して、より大きい重み付けをした月別重み付け係数のことである。図１６（Ａ）の月別利用回数係数は、以下の式（２）を用いることで算出される。
（月別利用回数係数）＝（月別推奨正解回数）×（月別重み付け係数）・・・式（２）
上記式（２）を用いて、図１６（Ａ）の月別利用回数係数の合計値を算出すると、図１０（Ｂ）の利用回数係数として６．２が算出される。

図１６（Ｂ）の推奨時正解回数は、図１２（Ｃ）の１２０２の月別推奨の正解回数を抽出したものである。図１６（Ｂ）の月別重み付け係数は時間的に近い利用月により大きい重み付けをした月別重み付け係数のことである。図１６（Ｂ）の月別利用回数係数は式（２）を用いることで算出される。そして、図１６（Ｂ）のように月別利用回数係数の合計値を算出することで、図１０（Ｃ）の利用回数係数として５．９が算出される。

これにより、推奨して正解した合計回数が多い図１０（Ｃ）よりも、時間的に近くで利用されて正解した回数の多い図１０（Ｂ）の利用回数係数が大きくなるため、優先的に推奨される。なお、これ以外の方法で利用回数係数を算出する方法にしてもよい。

次に、Ｓ９０４で、装置制御部１０２は、登録文書画像に関連付けられた情報である利用状況情報を用いて、登録文書画像毎に正解率を算出する。本実施形態において、図１０（Ｂ）の場合、図１１（Ｃ）１１０３の推奨の合計回数と修正回数を抽出し、以下の式（３）を用いて、上記正解率を算出する。
（正解率）＝（推奨正解回数の合計）／（（推奨正解回数の合計）＋（推奨修正回数の合計））・・・式（３）
上記式（３）を用いると、図１０（Ｂ）の正解率は１．００と算出される。図１０（Ｃ）の場合も図１０（Ｂ）と同様に、図１２（Ｃ）１２０３の推奨の合計回数と修正回数を抽出し、式（３）を用いることで、正解率は０．９５と算出される。これにより、推奨の修正回数が少ない図１０（Ｂ）の正解率の方が、図１０（Ｃ）の正解率よりも高くなるため、優先的に推奨される。なお、これ以外の方法で正解率を算出する方法にしてもよい。

次に、Ｓ９０５で、装置制御部１０２は、登録文書画像に関連付けられた情報である登録情報の推奨が正解した最終利用日時を用いて最終利用日時係数を算出する。本実施形態における最終利用日時係数を算出する方法について図１５を用いて説明する。図１５は、横軸に時間を示し、縦軸に重み係数を示す。図１５に示すように、時間的に近い時刻ほど重み付けの大きくなる特性の時間特性ＬｏｏｋＵｐＴａｂｌｅ（以下では、ＬＵＴと称する。）を用いて、最終利用日時係数を算出する。本実施形態において、図１０（Ｂ）の場合は、図１１（Ａ）の１１０１の最終利用日時を参照し時間特性ＬＵＴを用いて最終利用日時係数が算出される。図１０（Ｃ）の場合は、図１２（Ａ）の１２０１の最終利用日時を参照し時間特性ＬＵＴを用いて最終利用日時係数が算出される。図１０（Ｂ）の最終利用日時係数よりも、図１０（Ｃ）の最終利用日時係数の方が、時間的に近い時刻となるため、優先的に推奨されやすくなる。なお、これ以外の方法で最終利用日時係数を算出する方法にしてもよい。

次に、Ｓ９０６で、装置制御部１０２は、Ｓ９０３で算出した利用回数係数と、Ｓ９０４で算出した正解率と、Ｓ９０５で算出した最終利用日時係数を乗算して、評価値を算出する。なお、ここでは上記３つのパラメータを乗算して評価値を算出したが、本発明を限定する意図はなく、例えば、上記３つのパラメータのうち少なくとも１つのパラメータを用いて評価値を取得してもよいし、他のパラメータを用いてもよい。類似度の大きい全ての登録文書画像の評価値の算出が終了すると、Ｓ９０７に進み、装置制御部１０２は、評価値が最大となる登録文書画像に関連付けられたファイル名づけルールを抽出し、処理を終了する。本実施形態において、図１０（Ｂ）と図１０（Ｃ）の評価値を比較すると、Ｓ９０３乃至９０５で算出するいずれの係数でも図１０（Ｂ）が大きくなり、評価値も大きくなる。そのため、図１０（Ｂ）に関連付けられたファイル名づけルールを推奨するファイル名づけルールとして抽出する。以上がＳ８０５の詳細フローとなる。

以上説明したように、本実施形態に係る画像処理装置は、予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報と、を紐づけて予め記憶部１０７に記憶する。また、本画像処理装置は、原稿を読み取って取得した読取画像を、当該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、分割した複数のオブジェクトブロックの中から、文字列を含む１以上のテキストブロックを抽出する。また、本画像処理装置は、抽出した１以上のテキストブロックを用いて、記憶部１０７に予め登録されている、複数の登録画像のそれぞれと、読取画像との類似度を取得する。さらに、本画像処理装置は、取得した類似度のうち、所定の第１閾値を超える類似度の登録画像に対応付けて記憶された名づけルールの中から、類似度及び利用情報に基づいて、読取画像のファイル名を名付けるための名づけルールを抽出する。また、本画像処理装置は、抽出した名付けルールを用いて読取画像のファイル名を決定してユーザに推奨する。このように、本実施形態によれば、クエリ文書画像と類似性の大きい登録文書画像を抽出し、登録文書に関連付けられた利用状況などの情報を用いて、時間的に近くに利用している登録文書画像に紐づいた名づけルールを選択することが可能となる。つまり、同一種類の文書で新しいルールで登録されている登録文書画像と古いルールで登録されている登録文書画像が登録されているときに、新しいルールを適用してファイル名等を推奨することが可能となる。これにより、システム管理者やユーザが登録されている文書の管理をすることなく、推奨精度が高められるため、装置の制御負荷を増大させることなく、ユーザ負荷を軽減することが可能となる。

なお、本実施形態において、クエリ文書画像のファイル名を生成するための方法について記載したが、クエリ文書画像データの送付先等を自動で振り分けるためのルールを選択するための方法として用いてもよい。また、本実施形態において、類似度計算にテキストブロックを利用しているが、他の類似度計算手法を利用しても構わない。

＜第２の実施形態＞
以下では、本発明の第２の実施形態を説明する。本実施形態では、異なる種類の登録文書画像も含めて予め登録されており、クエリ文書画像と異なる種類で登録文書画像の文書構造が似ているときに、同一種類の登録文書画像のルールを適用して推奨するための方法を説明する。以下では、本実施形態について、上記第１の実施形態と異なる構成及び制御について主に説明する。上記第１の実施形態との差分は、予め登録されている登録文書画像群が異なることであるため、クエリ文書画像と登録文書画像群に関する説明と、Ｓ８０５のファイル名づけルールの抽出時に登録文書画像が変わったことによる説明となる。

まず、図１３を参照して、本実施形態に係るクエリ文書画像と予め登録されている登録文書画像群について説明する。図１３（Ａ）はクエリ文書画像であり、図１３（Ｂ）及び図１３（Ｃ）は登録文書画像である。図１３（Ａ）、図１３（Ｂ）、及び図１３（Ｃ）はテキストの配置がそれぞれ類似しているが、図１３（Ａ）と図１３（Ｃ）の方がテキストの配置や数がより類似している。上記第１の実施形態と同様の手法を利用して、図１３（Ａ）と図１３（Ｂ）の類似度と、図１３（Ａ）と図１３（Ｃ）の類似度を算出すると、図１３（Ａ）と図１３（Ｃ）の類似度の方が、図１３（Ａ）と図１３（Ｂ）の類似度よりも高くなる。したがって、類似度のみのマッチングの結果では図１０（Ｃ）が選択される。

図１３（Ｄ）は、図１３（Ａ）のテキストブロックを図示したものであるが、図１３（Ａ）のクエリ文書画像は上記第１の実施形態の図１０（Ａ）と同様のため、図１３（Ｄ）の説明を省略する。図１３（Ｅ）は、図１３（Ｂ）のテキストブロックを図示したものであるが、図１３（Ｂ）のクエリ文書画像は上記第１の実施形態の図１０（Ｂ）と同様のため、図１３（Ｅ）の説明を省略する。

図１３（Ｆ）は、図１３（Ｃ）のテキストブロックを図示したものであり、ＩＤ０００〜ＩＤ００５は各テキストブロックのＩＤである。図１３（Ｃ）の文字列がテキストブロックになっていることが分かる。図１３（Ｄ）と図１３（Ｅ）を比較すると、図１３（Ｄ）のＩＤ００３に対応するテキストブロックが、図１３（Ｅ）には存在しない。一方で、図１３（Ｄ）と図１３（Ｆ）を比較すると、図１３（Ｄ）のＩＤ００４と図１３（Ｅ）のＩＤ００４とでオーバーラップする領域は、図１３（Ｄ）のＩＤ００４と図１３（Ｅ）のＩＤ００１でオーバーラップする領域とよりも小さくなる。図１３（Ａ）と図１３（Ｂ）は「請求書」になるで、同一種類の文書画像であるが、図１３（Ｃ）は、「購買書」となるため、文書構造が類似しているものの、異なる種類の登録文書画像となる。

図１３（Ｂ）の登録文書画像に関連付けられた情報は、上記第１の実施形態の図１１と同様のため、説明を省略する。図１３（Ｃ）の登録文書画像に関連付けられた情報を、図１４を用いて説明する。図１４（Ａ）は、図１３（Ｃ）を登録文書画像として登録した日時、推奨が正解した最終日時、及びスキャン解像度やスキャンサイズを記載した登録情報である。図１４（Ｂ）は、図１３（Ｆ）のテキストブロックに関する情報で、ＩＤ毎に座標やファイル名づけ時に文字列として利用するＯＣＲ順序を対応付けた表となっている順番対応情報である。なお、ＯＣＲ順序が０となっている場合は、ファイル名づけ時に使用しないテキストブロックとなる。図１４（Ｃ）は、利用月別の推奨の正解回数及び修正回数を記載した表となっている利用状況情報である。

＜ルール抽出処理＞
次に、図９を参照して、Ｓ８０５のファイル名づけルールの抽出時における、図１３（Ｃ）の登録文書画像の評価値の算出方法について説明する。Ｓ９０１で、装置制御部１０２は、Ｓ８０４で算出した登録文書画像群の中で予め決められた類似度（第１閾値）を超える登録文書画像を抽出する。図１３（Ｃ）の登録文書画像は、図１３（Ｂ）の登録文書画像の類似度より大きくなるため、類似度を超える登録文書画像として抽出される。Ｓ９０２は、上記第１の実施形態と同様になるため、説明を省略する。

次に、Ｓ９０３で、装置制御部１０２は、利用回数係数を算出するが、上記第１の実施形態と同様の処理のため、算出方法の説明は省略する。図１３（Ｂ）は上記第１の実施形態と同一のデータであるため、利用回数係数は６．２と算出される。図１６（Ｃ）の推奨時正解回数は図１４（Ｃ）１４０２の月別推奨の正解回数を抽出したものである。図１６（Ｃ）の月別重み付け係数は時間的に近い利用月により大きい重み付けをした月別重み付け係数のことである。図１６（Ｃ）の月別利用回数係数は、上記式（２）を用いることで算出される。そして、図１６（Ｃ）のように月別利用回数係数の合計値を算出することで、図１３（Ｃ）の利用回数係数として５．９が算出される。これにより、推奨して正解した合計回数も多く、時間的に近くで利用されて正解した回数の多い図１３（Ｂ）の利用回数係数が大きくなるため、優先的に推奨されやすくなる。

次に、Ｓ９０４で、装置制御部１０２は、正解率を算出するが、上記第１の実施形態と同様の処理のため、算出方法の説明は省略する。図１３（Ｂ）は、上記第１の実施形態と同一のデータであるため、正解率は１．００と算出される。図１３（Ｃ）の正解率を算出する場合、図１４（Ｃ）１４０３の推奨の合計回数と修正回数を抽出し、上記式（３）を用いることで、正解率は０．４０と算出される。

次に、Ｓ９０５で、装置制御部１０２は、最終利用日時係数を算出するが、上記第１の実施形態と同様の処理のため、算出方法の説明は省略する。図１３（Ｃ）の場合は、図１４（Ａ）の１４０１の最終利用日時を参照し、時間特性ＬＵＴを用いて最終利用日時係数を算出する。図１３（Ｃ）の最終利用日時係数よりも、図１３（Ｂ）の最終利用日時係数の方が、時間的に近い時刻となるため、優先的に推奨されやすくなる。

次に、Ｓ９０６で、装置制御部１０２は、評価値を算出するが、上記第１の実施形態と同様の処理のため、算出方法の説明は省略する。類似度の大きい全ての登録文書画像の評価値の算出が終了すると、Ｓ９０７で、装置制御部１０２は、評価値が最大となる登録文書画像に関連付けられたファイル名づけルールを抽出する。本実施形態によれば、図１３（Ｂ）と図１３（Ｃ）の評価値を比較すると、Ｓ９０３乃至Ｓ９０５で算出するいずれの係数でも図１３（Ｂ）が大きくなり、評価値も大きくなる。そのため、図１３（Ｂ）に関連付けられたファイル名づけルールを抽出する。

以上説明したように、本実施形態に係る画像処理装置では、複数の登録画像として、異なる種類の文書の画像が含まれてもよい。このような状況において、クエリ文書画像と異なる種類の登録文書画像の文書構造が似ている場合であっても、利用状況情報を用いて同一種類の登録文書画像のルールを適用して推奨することが可能となる。即ち、本発明によれば、類似度のみに基づいて名づけルールを選択するのではなく、利用状況も加味して名づけルールを選択する。従って、上述のような状況であっても、異なる文書に基づいた名づけルールでファイル名を決定してユーザに推奨するというエラーを低減することができる。また、異なる種類の文書を登録画像として登録することができ、種々の文書に対応することができる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００：画像処理装置、１０１：ネットワーク、１０２：装置制御部、１０３：画像処理部、１０４：ユーザインタフェース、１０５：ＣＰＵ、１０６：ＲＡＭ、１０７：記憶部、１０８：画像読取部、１０９：画像出力部

Claims

画像処理装置であって、
予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報と、を記憶する記憶手段と、
原稿を読み取って読取画像を取得する読取手段と、
前記読取手段によって取得した前記読取画像を、該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、分割した前記複数のオブジェクトブロックの中から、文字列を含む１以上のテキストブロックを抽出する第１抽出手段と、
前記第１抽出手段によって抽出した前記１以上のテキストブロックを用いて、前記記憶手段に予め登録されている、前記複数の登録画像のそれぞれと、前記読取画像との類似度を取得する取得手段と、
前記取得手段によって取得された類似度のうち、所定の第１閾値を超える類似度の前記登録画像に対応付けて記憶された前記名づけルールの中から、前記類似度と、前記記憶手段に記憶されている前記利用情報とに基づいて、前記読取画像のファイル名を名付けるための名づけルールを抽出する第２抽出手段と、
前記第２抽出手段によって抽出された名付けルールを用いて前記読取画像のファイル名を決定してユーザに推奨する推奨手段と
を備えることを特徴とする画像処理装置。
前記推奨手段は、前記画像処理装置の表示部に、前記読取画像とともに、前記抽出された名づけルールに基づいて決定したファイル名を変更可能に表示することを特徴とする請求項１に記載の画像処理装置。
前記記憶手段は、前記利用情報として、当該登録画像の名づけルールについての所定の時間単位での利用回数と、利用した際に推奨したファイル名がユーザに利用された正解回数及び利用されなかった修正回数と、推奨したファイル名がユーザに利用された際の最終日時と、を少なくとも記憶することを特徴とする請求項１又は２に記載の画像処理装置。
前記第２抽出手段は、
前記所定の時間単位ごとの前記正解回数に、時間的に近いほど重み付けが大きくなる係数を乗算した利用回数係数と、
前記正解回数及び前記修正回数から得られる正解率と、
前記最終日時が時間的に近いほど重み付けが大きくなる特性である時間特性ＬＵＴとを用いて取得した最終利用日時係数と
の少なくとも１つの係数を乗算して、各名づけルールの評価値を取得することを特徴とする請求項３に記載の画像処理装置。
前記第２抽出手段は、取得した前記評価値の中で最も大きい評価値の名づけルールを抽出することを特徴とする請求項４に記載の画像処理装置。
前記第２抽出手段は、前記最も大きい評価値が所定の第２閾値未満の場合は、前記名づけルールを抽出せず、
前記推奨手段は、前記画像処理装置の表示部に、前記読取画像とともに、該読取画像のファイル名を入力する領域を空欄で表示することを特徴とする請求項５に記載の画像処理装置。
前記記憶手段は、前記名づけルールとして、当該登録画像に含まれる１以上のテキストブロックに対して、その中の文字列を読み取る光学文字認識処理を実行する、テキストブロックの順序を示す情報を記憶し、
前記推奨手段は、前記順序に従って、前記読取画像に含まれるテキストブロックの文字列をそれぞれ取得し、取得した順に繋げた文字列を推奨するファイル名として決定することを特徴とする請求項１乃至６の何れか１項に記載の画像処理装置。
前記推奨手段は、前記光学文字認識処理を実行したテキストブロックの順序を、前記読取画像を表示する表示部に表示することを特徴とする請求項７に記載の画像処理装置。
前記第２抽出手段によって、前記記憶手段に記憶されている前記複数の登録画像から名づけルールが抽出されなかった場合に、前記読取画像を登録画像として前記記憶手段に登録する登録手段をさらに備えることを特徴とする請求項１乃至８の何れか１項に記載の画像処理装置。
前記複数の登録画像には、異なる種類の文書の画像が含まれることを特徴とする請求項１乃至９の何れか１項に記載の画像処理装置。
前記推奨手段は、前記決定したファイル名に加えて、前記読取画像を送付する送付先と、該読取画像のメタ情報との少なくとも１つを推奨することを特徴とする請求項１乃至１０の何れか１項に記載の画像処理装置。
予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報と、を記憶する記憶手段を備える画像処理装置の制御方法であって、
読取手段が、原稿を読み取って読取画像を取得する読取工程と、
第１抽出手段が、前記読取工程で取得した前記読取画像を、該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、分割した前記複数のオブジェクトブロックの中から、文字列を含む１以上のテキストブロックを抽出する第１抽出工程と、
取得手段が、前記第１抽出工程で抽出した前記１以上のテキストブロックを用いて、前記記憶手段に予め登録されている、前記複数の登録画像のそれぞれと、前記読取画像との類似度を取得する取得工程と、
第２抽出手段が、前記取得工程で取得された類似度のうち、所定の第１閾値を超える類似度の前記登録画像に対応付けて記憶された前記名づけルールの中から、前記類似度と、前記記憶手段に記憶されている前記利用情報とに基づいて、前記読取画像のファイル名を名付けるための名づけルールを抽出する第２抽出工程と、
推奨手段が、前記第２抽出工程で抽出された名付けルールを用いて前記読取画像のファイル名を決定してユーザに推奨する推奨工程と
を含むことを特徴とする画像処理装置の制御方法。
予め登録した複数の登録画像と、各登録画像に類似する画像のファイル名を名付けるための名づけルール及びその利用情報と、を記憶する記憶手段を備える画像処理装置の制御方法における各工程をコンピュータに実行させるためのプログラムであって、前記制御方法は、
読取手段が、原稿を読み取って読取画像を取得する読取工程と、
第１抽出手段が、前記読取工程で取得した前記読取画像を、該読取画像の中で所定の領域を形成する複数のオブジェクトブロックに分割し、分割した前記複数のオブジェクトブロックの中から、文字列を含む１以上のテキストブロックを抽出する第１抽出工程と、
取得手段が、前記第１抽出工程で抽出した前記１以上のテキストブロックを用いて、前記記憶手段に予め登録されている、前記複数の登録画像のそれぞれと、前記読取画像との類似度を取得する取得工程と、
第２抽出手段が、前記取得工程で取得された類似度のうち、所定の第１閾値を超える類似度の前記登録画像に対応付けて記憶された前記名づけルールの中から、前記類似度と、前記記憶手段に記憶されている前記利用情報とに基づいて、前記読取画像のファイル名を名付けるための名づけルールを抽出する第２抽出工程と、
推奨手段が、前記第２抽出工程で抽出された名付けルールを用いて前記読取画像のファイル名を決定してユーザに推奨する推奨工程と
を含むことを特徴とするプログラム。