JP2009193356A

JP2009193356A - 画像処理装置、画像処理方法、プログラム、及び記憶媒体

Info

Publication number: JP2009193356A
Application number: JP2008033574A
Authority: JP
Inventors: Shinji Sano; 真治佐野; Hiroshi Kaburagi; 浩蕪木; Tsutomu Sakagami; 努坂上; Takeshi Namigata; 健波潟; Manabu Takebayashi; 学竹林; Reiji Misawa; 玲司三沢; Osamu Iinuma; 修飯沼; Naoki Ito; 直樹伊藤; Yoichi Kashibuchi; 洋一橿渕; Junya Arakawa; 純也荒川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2008-02-14
Filing date: 2008-02-14
Publication date: 2009-08-27
Also published as: US20090274369A1

Abstract

【課題】本発明の課題は、入力画像をオブジェクト単位で蓄積、再利用することができる画像処理装置を提供することである。
【解決手段】上記課題を解決するために、本発明に係る画像処理装置は、入力画像を構成するオブジェクトを分割する分割手段と、ＯＣＲ手段及び形態素解析手段を用いて前記分割されたオブジェクト毎にメタデータを付加するメタデータ付加手段と、前記オブジェクト及び該オブジェクトに付加されたメタデータを表示する表示手段と、前記付加されたメタデータの確度を判定するメタデータ確度判定手段とを備え、前記表示手段は、前記メタデータ確度判定手段によって確度が低いと判定されたメタデータを、優先的に表示することを特徴とする。
【選択図】図２６

Description

本発明は、入力画像を記録装置に蓄積し、必要な画像を編集する画像処理装置、画像処理方法、プログラム、及び記憶媒体に関する。

従来の画像処理装置では、原稿画像をスキャナで読み取り、その画像を再利用しやすいフォーマットに変換及び分解し、記録装置に保存する。

記録装置にこの画像を保存する際には、画像ごとにメタデータを付加し、後で再利用する際の検索性を高める。その結果、ユーザは、ユーザが求める画像を見つけやすくなる。

メタデータには、画像のエリアやサイズ、ユーザの情報、画像読み取り装置設置場所の情報、画像が入力された時刻などの他に、その画像自体や関連性の高い画像から抽出された文字コードなども含まれる。

図３２（ａ）〜（ｄ）は、画像処理装置に読み取られた画像から文字の抽出が行われる過程を示している。すなわち、図３２(ａ)は、画像処理装置により読み取られる画像の一例を示し、図３２（ｂ）は、画像から抽出された文字領域を示している。また、図３２（ｃ）は、抽出された文字コードを並べたものを示し、図３２（ｄ）は、これらの文字コードに対して形態の解析を行って品詞毎に分解されたものを示している。

図３２（ａ）に示されている画像が画像処理装置に入力されると、図３２（ｂ）に示されているように、画像内の色の微分エッジ量の特徴量を基に、文字領域の抽出が行われる。そして、図３２（ｃ）に示されているように、光学的文字認識（ＯＣＲ）処理が行われ、文字領域に含まれる文字が文字コードに変換される。さらに、得られた文字コードは、形態素解析が行われる。この形態素解析とは、自然言語文字列を形態素と呼ばれる文法上意味を持つ最小単位の語句に分解する。そして、図３２（ｄ）に示されているように、文字コードが品詞毎に分解される。

そして、この結果が、メタデータとして入力画像に付加される。

しかし、ＯＣＲや形態素解析の精度が充分でない場合、画像に誤ったメタデータが付加されることがある。このため、ユーザがマニュアル操作で、誤ったメタデータを検索し、これらの正誤を確認した上で、誤っていればこれらのメタデータを修正できる手段を提供する必要がある。このような手段として、例えば、特許文献１に記載されたものがある。

特開２０００−２６８１２４号公報

しかし、画像処理装置が管理する画像の蓄積枚数が増えると、これに応じて必要となるマニュアル操作の回数やその操作に要する時間が増加する。この結果、ユーザビリティを損なうという問題があった。

また、現在、入力された画像をページ単位ではなく、文字、図面、線画、表、写真のオブジェクトと呼ばれる画像単位に分割して、ベクター画像で蓄積する方法が考えられている。この方法を実施する場合、ページ単位で画像を蓄積する画像処理装置に比べて、扱う画像の蓄積枚数やメタデータの数が増加するため、ユーザに求められる検索、正誤確認、および修正操作の回数と所要時間がさらに増加するという問題がある。

そこで本発明は、上述したような画像処理装置において、ユーザが行うマニュアル操作の回数と所要時間を低減させ、高いユーザビリティを有する画像処理装置及び画像処理方法を提供することを目的とする。

上記課題を解決するために、本発明に係る画像処理装置は、入力画像を構成するオブジェクトを分割する分割手段と、ＯＣＲ手段及び形態素解析手段を用いて前記分割されたオブジェクト毎にメタデータを付加するメタデータ付加手段と、前記オブジェクト及び該オブジェクトに付加されたメタデータを表示する表示手段と、前記付加されたメタデータの確度を判定するメタデータ確度判定手段とを備え、前記表示手段は、前記メタデータ確度判定手段によって確度が低いと判定されたメタデータを、優先的に表示することを特徴とする。

本発明によれば、誤ったメタデータである可能性が高いメタデータやオブジェクトが優先的に表示されるので、誤って付加されたメタデータをユーザが検索、修正する場合に、検索が容易になる。また、ユーザのマニュアル操作による修正内容は、同じ誤りによって生じた他のメタデータにも反映され、各々の同種の誤りを持つメタデータを一括で修正することができる。また、ユーザの修正した内容は、その後の画像入力に伴うメタデータ生成の際に反映される。

[第１実施形態]
次に本発明に係る画像処理方法の第１実施形態を図面に基づいて説明する。

図１は、本実施形態に係る画像処理装置の一例を示すブロック図を示している。そして、図２は、図１におけるＭＦＰの一例を示すブロック図を示している。また、図３は、第１実施形態で説明する第１のデータ処理フローを示している。

図２５は、第１実施形態で画像処理装置において行われる処理を示している。すなわち、第１実施形態は、符号２５０１〜２５０８で指し示される手段により実行される。符合２５０１は、オブジェクトの分割手段を指し示す。符号２５０２は、変換手段を指し示す。符号２５０３は、ＯＣＲ手段を指し示す。符号２５０４は、形態素解析手段を指し示す。符号２５０５は、メタデータ付加手段を指し示す。符号２５０６は、オブジェクト及びメタデータの表示手段を指し示す。符号２５０７は、メタデータ修正手段を指し示す。符号２５０８は、メタデータ確度判定手段を指し示す。

そして、ＯＣＲ手段２５０３は、メタデータ確度判定手段２５０８に接続されており、形態素解析手段２５０４は、メタデータ確度判定手段２５０８に接続されている。また、メタデータ確度判定手段２５０８は、オブジェクト及びメタデータの表示手段２５０６に接続されている。

図７は、ベクトル化処理の中で実施されるオブジェクト分割処理で領域分割された結果の一例を示している。そして、図８は、オブジェクト分割されたときの各属性のブロック情報および入力ファイル情報を示している。また、図９は、再利用可能なデータへの変換で重要なベクトル化処理のフロー図を示している。図１０は、ベクトル化の処理における角抽出の処理を示している。図１１は、ベクトル化の処理における輪郭線まとめの処理を示している。図１２は、図９に示されている処理で生成されたベクトルデータのグループ化の処理を示すフローチャートを示している。図１３は、図１２に示されている処理でグループ化されたベクトルデータに対する図形要素検出の処理のフローチャートを示している。図１４は、本実施形態に係るベクトル化処理結果のデータ構造を示している。図１５は、図１１に示されているアプリデータ変換の処理を示すフローチャートを示している。図１６は、図１５に示されている文書構造ツリー生成の処理を示すフローチャートを示している。図１７は、文書構造ツリー生成処理の対象となる文書を示している。図１８は、図１６の処理によって生成される文書構造ツリーを示している。図１９は、本実施形態で説明するＳｃａｌａｂｌｅＶｅｃｔｏｒＧｒａｐｈｉｃｓ（ＳＶＧ）形式の一例を示している。

[画像処理システム]
図１において、本実施形態に係る画像処理装置は、オフィス１０とオフィス２０とをインターネット１０４で接続した環境において使用される。

オフィス１０内に構築されたＬＡＮ１０７には、記録装置としての複合機（ＭＦＰ）１００、ＭＦＰ１００を制御するマネージメントＰＣ１０１、ローカルＰＣ１０２、文書管理サーバ１０６、文書管理サーバ１０６のためのデータベース１０５が接続されている。

オフィス２０内にはＬＡＮ１０８が構築され、ＬＡＮ１０８には文書管理サーバ１０６、および文書管理サーバ１０６のためのデータベース１０５が接続されている。

ＬＡＮ１０７、１０８にはプロキシサーバ１０３が接続され、ＬＡＮ１０７、１０８はプロキシ（ｐｒｏｘｙ）サーバ１０３を介してインターネットに接続される。

ＭＦＰ１００は、原稿から読み取った入力画像に対する画像処理の一部を担当する。そして、ＭＦＰ１００によって処理された画像は、ＬＡＮ１０９を通じてマネージメントＰＣ１０１に入力される。また、ＭＦＰ１００は、ローカルＰＣ１０２、もしくは不図示の汎用ＰＣから送信されるページ記述言語（Page Description Language以下、ＰＤＬ）を解釈して、プリンタとしても機能する。さらに、ＭＦＰ１００は、原稿から読み取った画像をローカルＰＣ１０２もしくは、不図示の汎用ＰＣに送信する機能をもつ。

ここで、マネージメントＰＣ１０１は、画像記憶手段、画像処理手段、表示手段、入力手段を含む通常のコンピュータであり、機能的にはこれらの一部が、ＭＦＰ１００と一体化して、画像処理装置の要素となっている。なお、本実施形態では、マネージメントＰＣを介してデータベース１０５において、下記に記載する登録処理などが実行されるが、マネージメントＰＣで行われる処理をＭＦＰで実行するようにしても良い。

さらにＭＦＰ１００は、ＬＡＮ１０９によってマネージメントＰＣ１０１に直接接続されている。

[ＭＦＰ]
図２において、ＭＦＰ１００は、不図示の自動原稿送り装置（Auto Document Feeder以下、ＡＤＦ）を有する画像読み取り部１１０を有する。この画像読み取り部１１０は束状の或いは１枚の原稿の画像を光源で照射し、反射画像をレンズで固体撮像素子上に結像する。固体撮像素子は、所定の解像度（例えば６００ｄｐｉ）および所定輝度レベル（例えば８ビット）の画像読み取り信号を生成し、画像読み取り信号からラスターデータよりなる画像が生成される。

ＭＦＰ１００は、記憶装置（以下、ＢＯＸ）１１１および記録装置１１２を有し、通常の複写機能を実行する際には、イメージデータをデータ処理装置１１５によって、複写用の画像処理を行い記録信号に変換する。複数枚複写の場合には、１頁分の記録信号が一旦ＢＯＸ１１１に記憶保持された後、記録装置１１２に順次出力されて、記録紙上に記録画像が形成される。

ＭＦＰ１００は、ＬＡＮ１０７との接続のためのネットワークＩ／Ｆ１１４を有する。また、ＭＦＰ１００は、ローカルＰＣ１０２、もしくは他の不図示の汎用ＰＣからドライバーを利用して出力するＰＤＬを、記録装置１１２によって記録する。ローカルＰＣ１０２からドライバーを経由して出力されるＰＤＬデータは、ＬＡＮ１０７からネットワークＩ／Ｆ１１４を経てデータ処理装置１１５で解釈および処理され、記録可能な記録信号に変換される。その後、ＭＦＰ１００において、記録信号は、記録紙上に記録画像として記録される。

ＢＯＸ１１１は、画像読み取り部１１０からのデータやローカルＰＣ１０２からドライバーを経由して出力されるＰＤＬデータをレンダリングしたデータを保存できる機能を有している。

ＭＦＰ１００は、ＭＦＰ１００に設けられたキー操作部（入力装置１１３）、あるいはマネージメントＰＣ１０１の入力装置（キーボード、ポインティングデバイス）を通じて操作される。これらの操作のために、データ処理装置１１５は、内部の不図示の制御部によって所定の制御を実行する。

ＭＦＰ１００は表示装置１１６を有し、操作入力の状態と、処理すべきイメージデータとを、表示装置１１６によって表示する。

ＢＯＸ１１１は、ネットワークＩ／Ｆ１１７を介して、マネージメントＰＣ１０１から直接制御する。ＬＡＮ１０９は、ＭＦＰ１００とマネージメントＰＣ１０１との間のデータの授受、制御信号授受に用いられる。

次に、図２のデータ処理装置１１５の詳細について、図３６を用いて説明する。尚、図３６の１１０〜１１６については、図２の説明において前述しているため説明を一部省略する。

データ処理装置１１５は、ＣＰＵ、メモリ等で構成される制御ユニットであり、画像情報やデバイス情報の入出力を行うコントローラである。ここで、ＣＰＵ１２０は装置全体を制御するコントローラである。ＲＡＭ１２３はＣＰＵ１２０が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ＲＯＭ１２２はブートＲＯＭであり、システムのブートプログラムが格納されている。操作部Ｉ／Ｆ１２１は操作部１３３とのインターフェース部で、操作部１３３に表示するための画像データを操作部１３３に対して出力する。また、操作部１３３から本画像処理装置の使用者が入力した情報を、ＣＰＵ１２０に伝える役割をする。以上のデバイスがシステムバス１２４上に配置される。

イメージバスインターフェース（Image Bus I/F）１２５はシステムバス１２４と画像データを高速で転送する画像バス１２６とを接続し、データ構造を変換するバスブリッジである。画像バス１２６は、例えば、ＰＣＩバスやＩＥＥＥ１３９４で構成される。画像バス１２６上には以下のデバイスが配置される。ＰＤＬ処理部１２７はＰＤＬコードを解析し、ビットマップイメージに展開する。デバイスＩ／Ｆ部１２８は、信号線１３１を介して画像入出力デバイスである画像読み取り部１１０、信号線１３２を介して記録装置１１２、をそれぞれデータ処理装置１１５に接続し、画像データの同期系／非同期系の変換を行う。スキャナ画像処理部１２９は、入力画像データに対し補正、加工、編集を行う。プリンタ画像処理部１３０は、記録装置１１２に出力すべきプリント出力画像データに対して、記録装置１１２に応じた補正、解像度変換等を行う。

オブジェクト認識部１４０は、後述するオブジェクト分割部１４３で分割したオブジェクトに対し、後述するオブジェクト認識処理を行う。ベクトル化処理部１４１は、後述するオブジェクト分割部１４３で分割したオブジェクトに対し、後述するベクトル化処理を行う。ＯＣＲ処理（文字認識処理）部１４２は、後述するオブジェクト分割部１４３で分割したオブジェクトに対し、後述するＯＣＲ処理（文字認識処理）を行う。オブジェクト分割部１４３は、後述するオブジェクト分割を行う。オブジェクト価値判定部１４４は、前記オブジェクト分割部１４３で分割したオブジェクトに対し、後述するオブジェクト価値判定を行う。メタデータ付与部１４５は、前記オブジェクト分割部１４３で分割したオブジェクトに対し、後述するメタデータの付与を行う。圧縮解凍部１４６は、画像バス１２６および記録装置１１２を効率的に利用するために画像データの圧縮解凍処理を行う。

〔オブジェクト毎の保存〕
図３は、ビットマップ画像がオブジェクト毎に保存されるフローチャートを示している。ここで、ビットマップ画像データは、ＭＦＰ１００の画像読み取り部１１０により取得されても良い。また、ビットマップ画像データは、ローカルＰＣ１０２上において、ドキュメントがＭＦＰ１００内部でレンダリングされて生成されても良い。また、ドキュメントは、アプリケーションソフトで作成されたものでも良い。

図３に示されている処理は、図３６のＣＰＵ１２０によって実行される。

まず、ステップＳ３０１において、オブジェクト分割が行われる。オブジェクト分割後のオブジェクトの種類は、文字、写真、グラフィック（図面、線画、表）、背景、を指す。分割された各々のオブジェクトは、ビットマップデータのままで、ステップＳ３０２において、オブジェクトの種類（文字、写真、グラフィック、背景）が判定される。

オブジェクトが写真と判定された場合、ステップＳ３０３において、ビットマップのままＪＰＥＧ圧縮される。また、オブジェクトが背景と判定された場合も同様に、ステップＳ３０３において、ビットマップのままＪＰＥＧ圧縮される。

次に、オブジェクト判定の結果が、グラフィックの場合、ステップＳ３０４において、ベクトル化処理され、パス化されたデータに変換される。最後に、オブジェクト判定の結果が、文字の場合も、ステップＳ３０４において、グラフィックと同様にベクトル化処理され、パス化されたデータに変換される。更に、文字の場合には、ステップＳ３０８において、ＯＣＲ処理が施され、文字コード化されたデータに変換される。そして、全てのオブジェクトデータと、文字コード化されたデータが一つのファイルとしてまとめられる。

次に、ステップＳ３０５において、各オブジェクトに対して、最適なメタデータが付与される。メタデータが付与された各々のオブジェクトは、ステップＳ３０６において、ＭＦＰ１００に内蔵されているＢＯＸ１１１に保存される。保存されたデータは、ステップＳ３０７において、表示装置１１６によってＵＩ（ユーザインターフェース）画面に表示される。

〔ビットマップ画像データの作成〕
＜ＭＦＰ１００の画像読み取り部入力の場合＞
ＭＦＰ１００の画像読み取り部１１０を使用した場合には、図５に示されているステップＳ５０１において、画像読み取り部１１０により画像がＭＦＰ１００に読み込まれる。ＭＦＰ１００に読み込まれた画像は、既にビットマップ画像データである。そのビットマップ画像データには、ステップＳ５０２において、データ処理装置１１５によりスキャナに依存する画像処理が行われる。スキャナに依存する画像処理とは、例えば、色処理やフィルタ処理を指す。

＜ローカルＰＣ１０２上のアプリケーションソフトを使用した場合＞
ローカルＰＣ１０２上のアプリケーションソフトを使用して作成したアプリデータは、図６に示されているステップ６０１において、ローカルＰＣ１０２上にあるプリントドライバを介して、プリントデータに変換され、ＭＦＰ１００に送信される。ここで、プリントデータとは、ＰＤＬを意味し、例えば、ＬＩＰＳ（登録商標）、Ｐｏｓｔｓｃｒｉｐｔ（登録商標）を指す。次に、ステップ６０２において、ＭＦＰ１００内部に存在するインタープリタを介して、ディスプレイリストが生成される。次に、ステップＳ６０３において、ディスプレイリストがレンダリングされることにより、ビットマップ画像データが生成される。

上記２つの例により生成されたビットマップ画像データは、ステップ３０１において、オブジェクト分割される。

〔メタデータ付け（ステップＳ３０７）〕
図４は、ステップＳ３０５のメタデータ付けに関するフローチャートを示している。

図４に示されている処理は、図３６のＣＰＵ１２０ＣＰＵによって実行される。

図４に示されている処理では、まず、ステップＳ４０１において、そのオブジェクトの周囲で距離が一番近くに存在する文字オブジェクトが選択される。次に、ステップＳ４０２において、選択された文字オブジェクトに対して、ステップ４０２において、形態素解析が行われる。その形態素解析結果により抽出された単語の一部、または、全部がメタデータとして、ステップ４０３では、各オブジェクトに付加される。

また、メタデータの作成には、形態素解析だけではなく、画像特徴量抽出、構文解析を用いても良い。

[登録の詳細設定]
図１９は、図３のベクトル化処理ステップＳ３０４でベクトル化されたデータのフォーマットの一例を示している。本実施形態では、ＳＶＧ形式で表記しているが、これに限定されるものではない。

図１９では説明のため、オブジェクトの表記が枠で囲われている。枠１９０１は、イメージ属性を示し、そこには、イメージオブジェクトの領域の示す領域情報とビットマップ情報が示されている。枠１９０２は、文字オブジェクトの情報が、枠１９０３では、枠１９０２で示された内容をベクターオブジェクトとして表現される。また、枠１９０４は、表オブジェクトなどのラインアートを表している。

[オブジェクト分割ステップ]
公知の領域分割技術を用いてオブジェクト分割を行う。以下で、その一例を説明する。

ステップＳ３０１（オブジェクト分割ステップ）においては、図７の右半部に示されている画像７０２のように、入力画像が属性ごとに矩形ブロックに分割される。前述のように、矩形ブロックの属性としては、文字、写真、グラフィック（図面、線画、表）がある。

オブジェクト分割ステップにおいては、まず、不図示のＲＡＭに格納されたイメージデータが白黒に２値化され、黒画素輪郭で囲まれる画素塊が抽出される。

さらに、このように抽出された黒画素塊の大きさが評価され、大きさが所定値以上の黒画素塊の内部にある白画素塊に対する輪郭追跡が行われる。白画素塊に対する大きさ評価、内部黒画素塊の追跡というように、内部の画素塊が所定値以上である限り、再帰的に内部画素塊の抽出、輪郭追跡が行われる。

画素塊の大きさは、例えば画素塊の面積によって評価される。

このようにして得られた画素塊に外接する矩形ブロックが生成され、矩形ブロックの大きさ、形状に基づき属性が判定される。

例えば、縦横比が１に近く、大きさが一定の範囲の矩形ブロックは文字領域矩形ブロックの可能性がある文字相当ブロックとし、近接する文字相当ブロックが規則正しく整列しているときには、以下のような処理が行なわれる。すなわち、これら文字相当ブロックを纏めた新たな矩形ブロックが生成され、新たな矩形ブロックが文字領域矩形ブロックとされる。

また扁平な画素塊、もしくは、一定大きさ以上でかつ四角形の白画素塊の外接矩形が重ならないで並んでいる黒画素塊を表グラフィック領域矩形ブロック、それ以外の不定形の画素塊を写真領域矩形ブロックとされる。

オブジェクト分割ステップでは、このようにして生成された矩形ブロックのそれぞれについて、図８に示されている、属性のブロック情報および入力ファイル情報が生成される。

図８において、ブロック情報には各ブロックの属性、位置の座標Ｘ、座標Ｙ、幅Ｗ、高さＨ、ＯＣＲ情報が含まれる。属性は１〜３の数値で与えられ、１は文字領域矩形ブロック、２は写真領域矩形ブロック、３は表グラフィック領域矩形ブロックを示す。座標Ｘ、座標Ｙは入力画像における各矩形ブロックの始点のＸ、Ｙ座標（左上角の座標）である。幅Ｗ、高さＨは矩形ブロックのＸ座標方向の幅、Ｙ座標方向の高さである。ＯＣＲ情報は、入力画像におけるポインタ情報の有無を示す。

さらに入力ファイル情報として矩形ブロックの個数を示すブロック総数Ｎが含まれる。

これらの矩形ブロックごとのブロック情報は、特定領域でのベクトル化に利用される。またブロック情報によって、特定領域とその他の領域を合成する際の相対位置関係を特定でき、入力画像のレイアウトを損なわずにベクトル化領域とラスターデータ領域を合成することが可能となる。

[ベクトル化ステップ]
公知のベクトル化技術を用いてベクトル化を行う。以下で、その一例を説明する。

ステップＳ３０４（ベクトル化ステップ）は、図９に示されている各ステップによって実行される。

図９に示されている各ステップによって実行される処理により、オブジェクト分割ステップにより分割されたオブジェクトが、オブジェクトの属性に応じて解像度に依存しない形態へ変換される。

図９に示されている処理は、図３６のＣＰＵ１２０によって実行される。

図９に示されている処理では、まず、ステップＳ９０１において、特定領域が文字領域矩形ブロックであるか否かが判定される。そして、特定領域が文字領域矩形ブロックであると判定される場合には、ステップＳ９０２以下のステップに進み、パターンマッチングの一手法を用いて、特定領域の認識が行われ、特定領域に対応する文字コードが得られる。ステップＳ９０１において、特定領域が文字領域矩形ブロックでないと判定される場合には、ステップＳ９１２に、処理が移行する。

次に、ステップＳ９０２で、特定領域に対し横書き、縦書きの判定（組み方向判定）を行うために、特定領域内で画素値に対する水平および垂直の射影が取られる。

次に、ステップＳ９０３で、ステップＳ９０２の射影の分散が評価される。水平射影の分散が大きい場合は横書き、垂直射影の分散が大きい場合は縦書きと判定される。

次に、ステップＳ９０４で、ステップＳ９０３の評価結果に基づき、組み方向が判定され、行の切り出しが行われ、その後、文字を切り出して文字画像が得られる。

文字列および文字への分解は、以下のように行われる。すなわち、文字列が、横書きの場合には、水平方向の射影を利用して、文字列の行が切り出され、切り出された行に対する垂直方向の射影から、文字が切り出される。文字列が、縦書きの場合には、水平と垂直について逆の処理が行われる。このとき、行および文字の切り出しに際して、文字のサイズも検出される。

次に、ステップＳ９０５で、ステップＳ９０４で切り出された各文字について、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルが生成される。特徴ベクトルの抽出には種々の公知手法がある。例えば、文字をメッシュ状に分割し、各メッシュ内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴ベクトルとする方法を用いても良い。

次に、ステップＳ９０６で、ステップＳ９０５で得られた観測特徴ベクトルと、あらかじめフォントの種類ごとに求められている辞書特徴ベクトルとが比較され、観測特徴ベクトルと辞書特徴ベクトルとの距離が算出される。

次に、ステップＳ９０７で、ステップＳ９０６で算出された距離が評価され、最も距離の近いフォントの種類が認識結果とされる。

次に、ステップＳ９０８で、ステップＳ９０７における距離評価において、最短距離が所定値よりも大きいか否か、類似度が判定される。類似度が、所定値以上の場合は、辞書特徴ベクトルにおいて、形状が類似する他の文字に誤認識している可能性が高い。そこで、類似度が所定値以上の場合は、ステップＳ９０７の認識結果を採用されず、ステップＳ９１１の処理に進む。類似度が、所定値より低い（小さい）ときは、ステップＳ９０７の認識結果が採用され、ステップS９０９に処理が進む。

ステップＳ９０９（フォント認識ステップ）では、文字認識の際に用いられる、フォントの種類に対応する辞書特徴ベクトルが、文字形状種すなわちフォント種に対して複数用意される。そして、パターンマッチングの際に、文字コードとともにフォント種が出力されることで、文字フォントが認識される。

次に、ステップＳ９１０で、文字認識およびフォント認識よって得られた文字コードおよびフォント情報を用いて、各々あらかじめ用意されたアウトラインデータを用いて、各文字がベクトルデータに変換される。なお、入力画像が、カラーの場合は、カラー画像から各文字の色を抽出してベクトルデータとともに記録され、処理が終了する。

ステップＳ９１１では、文字が一般的なグラフィックと同様に扱われ、該文字がアウトライン化される。すなわち、誤認識を起こす可能性の高い文字については、可視的にイメージデータに忠実なアウトラインのベクトルデータが生成される。

ステップＳ９１２では、特定領域が文字領域矩形ブロックでないときは、画像の輪郭に基づいてベクトル化の処理が実行される。

以上の処理により、文字領域矩形ブロックに属するイメージ情報が、ほぼ形状、大きさ、色が忠実なベクトルデータに変換される。

[グラフィック領域のベクトル化]
ステップＳ３０１の文字領域矩形ブロック以外の領域、すなわちグラフィック領域矩形ブロックと判定されたときは、特定領域内で抽出された黒画素塊の輪郭がベクトルデータに変換される。

文字領域以外の領域のベクトル化においては、まず線画を直線および／または曲線の組み合わせとして表現するために、曲線を複数の区間（画素列）に区切る「角」が検出される。角とは曲率が極大となる点であり、図１０に示されている曲線上の画素Ｐｉが角か否かの判定は、以下のように行われる。

すなわち、Ｐｉを起点とし、曲線に沿ってＰｉから両方向に所定画素（ｋ個とする。）ずつ離れた画素Ｐｉ−ｋ、Ｐｉ＋ｋが線分Ｌで結ばれる。画素Ｐｉ−ｋ、Ｐｉ＋ｋ間の距離をｄ１、線分Ｌと画素Ｐｉとの距離をｄ２、曲線の画素Ｐｉ−ｋ、Ｐｉ＋ｋ間の弧の長さをＡとするとき、ｄ２が極大となるとき、あるいは比（ｄ１／Ａ）が閾値以下となるときに画素Ｐｉが角と判定される。

角によって分割された画素列が、直線あるいは曲線で近似される。直線への近似は最小二乗法により実行され、曲線への近似は３次スプライン関数などが用いられる。画素列を分割する角の画素は近似直線あるいは近似直線における、始端または終端となる。

さらに、ベクトル化された輪郭内に白画素塊の内輪郭が存在するか否かが判定され、内輪郭が存在するときはその輪郭がベクトル化され、内輪郭の内輪郭というように、再帰的に反転画素の内輪郭がベクトル化される。

以上のように、輪郭の区分線近似により、任意形状の図形のアウトラインがベクトル化される。元原稿がカラーの場合は、カラー画像から図形の色を抽出してベクトルデータとともに記録される。

図１１に示されているように、ある注目区間で外輪郭ＰＲｊと、内輪郭ＰＲｊ＋１あるいは別の外輪郭が近接している場合、２個あるいは複数の輪郭線をひとまとめにし、太さを持った線として表現される。例えば、輪郭Ｐｊ＋１の各画素Ｐｉから輪郭ＰＲｊ上で最短距離となる画素Ｑｉまでの距離ＰｉＱｉが算出され、ＰＱｉのばらつきがわずかである場合には、注目区間を画素Ｐｉ、Ｑｉの中点Ｍｉの点列に沿った直線または曲線で近似される。例えば、近似直線、近似曲線の太さは、距離ＰｉＱｉの平均値で近似される。

線や線の集合体である表罫線は、太さを持つ線の集合とすることにより、効率よくベクトル表現される。

輪郭まとめの処理の後、全体の処理が終了する。

なお、写真領域矩形ブロックについては、ベクトル化されず、イメージデータのままとされる。

[図形認識]
以上のようにして、線図形のアウトラインがベクトル化された後、ベクトル化された区分線が図形オブジェクトごとにグループ化される。

図１２に示されている各ステップにおいて、ベクトルデータを図形オブジェクトごとにグループ化する処理が実行される。

図１２に示されている処理は、図３６のＣＰＵ１２０によって実行される。

図１２に示されている処理では、まず、ステップＳ１２０１で、各ベクトルデータの始点及び終点が算出される。

次に、ステップＳ１２０２（図形要素検出）で、ステップＳ１２０１で求められた始点及び終点の情報を用いて、図形要素が検出される。ここで、図形要素とは、区分線により作られている閉図形であり、検出に際しては、始点、終端となっている共通の角の画素においてベクトルが連結される。ここでは、閉図形の各ベクトルは、その両端にそれぞれ連結するベクトルを有しているという原理が応用される。

次に、ステップＳ１２０３で、図形要素内に存在する他の図形要素、もしくは区分線がグループ化され、一つの図形オブジェクトとされる。また、図形要素内に他の図形要素、区分線が存在しない場合には、図形要素が図形オブジェクトとされる。

[図形要素の検出]
ステップＳ１２０２（図形要素検出）の処理は、図１３に示されている各ステップによって実行される。

図１３に示されている処理は、図３６のＣＰＵ１２０によって実行される。

図１３に示されている処理では、まず、ステップＳ１３０１で、ベクトルデータより両端に連結していない不要なベクトルが除去され、閉図形のベクトルが抽出される。

次に、ステップＳ１３０２で、閉図形のベクトルについて、いずれかのベクトルの端点（始点または終点）を開始点とし、一定方向、例えば時計回りに、順にベクトルが検索される。すなわち、他端点において他のベクトルの端点を検索し、所定距離内の最近接端点を連結ベクトルの端点とされる。閉図形のベクトルを１まわりして開始点に戻ったとき、通過したベクトルを全て一つの図形要素の閉図形としてグループ化される。また、閉図形内部にある閉図形のベクトルも全てグループ化される。さらに、まだグループ化されていないベクトルの始点を開始点とし、同様の処理が繰り返される。

最後に、ステップＳ１３０３で、ステップＳ１３０１で除去された不要ベクトルのうち、ステップＳ１３０２で閉図形としてグループ化されたベクトルに端点が近接しているベクトルが検出され、一つの図形要素としてグループ化される。

以上の処理によって図形ブロックを、再利用可能な個別の図形オブジェクトとして扱う事が可能になる。

[ＢＯＸ保存処理]
図３に示されているオブジェクト分割ステップ（ステップＳ３０１）の後、ベクトル化（ステップＳ３０４）された結果のデータを用いて、ＢＯＸ保存データへの変換処理が実行される。ステップＳ３０４のベクトル化処理結果は、図１４に示されている中間データの形式、いわゆるＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓＯｕｔｐｕｔＦｏｒｍａｔ（ＤＡＯＦ）と呼ばれる形式で保存されている。

図１４に示されているように、ＤＡＯＦは、ヘッダ（ｈｅａｄｅｒ）１４０１、レイアウト記述データ部１４０２、文字認識記述データ部１４０３、表記述データ部１４０４、画像記述データ部１４０５よりなるデータ構造を有する。

ヘッダ１４０１には、処理対象の入力画像に関する情報が保持される。

レイアウト記述データ部１４０２には、入力画像中の矩形ブロックの属性である文字、線画、図面、表、写真の情報と、これら属性が認識された各矩形ブロックの位置情報が保持される。

文字認識記述データ部１４０３には、文字領域矩形ブロックのうち、文字認識して得られる文字認識結果が保持される。

表記述データ部１４０４には、表の属性を持つグラフィック領域矩形ブロックの表構造の詳細が格納される。

画像記述データ部１４０５には、グラフィック領域矩形ブロックにおけるイメージデータが、入力画像データから切り出して保持される。

ベクトル化処理を指示された特定領域においては、ブロックに対しては、画像記述データ部１４０５には、ベクトル化処理により得られたブロックの内部構造や、画像の形状や文字コードあらわすデータの集合が保持される。

一方、ベクトル化処理の対象ではない、特定領域以外の矩形ブロックでは、入力画像データそのものが保持される。

ＢＯＸ保存データへの変換処理は、図１５に示されている各ステップにより実行される。

図１５に示されている処理は、図３６のＣＰＵ１２０によって実行される。

図１５に示されている処理では、まず、ステップＳ１５０１で、ＤＡＯＦ形式のデータが入力される。

次に、ステップＳ１５０２で、アプリデータの元となる文書構造ツリー生成が行われる。

次に、ステップＳ１５０３で、文書構造ツリーを元に、ＤＡＯＦ内の実データを取得され、実際のアプリデータが生成される。

ステップＳ１５０２の文書構造ツリー生成処理は、図１６に示されている各ステップにより実行される。図１６に示されている処理における全体制御の基本ルールとして、処理の流れはミクロブロック（単一矩形ブロック）からマクロブロック（矩形ブロックの集合体）へ移行する。以後「矩形ブロック」は、ミクロブロックおよびマクロブロック両者を意味する。

図１６に示されている処理は、図３６のＣＰＵ１２０によって実行される。

図１６に示されている処理では、まず、ステップＳ１６０１で、矩形ブロック単位で、縦方向の関連性に基づいて、矩形ブロックが再グループ化（グルーピング）される。図１６に示されている処理は繰り返し実行されることがあるが、処理開始直後はミクロブロック単位での判定となる。ここで、関連性に基づいてグループ化されたグループを「関連グループ」と呼んでも良い。

ここで、関連性とは、距離が近い、ブロック幅（横方向の場合は高さ）がほぼ同一であることなどの特徴によって定義される。また、距離、幅、高さなどの情報はＤＡＯＦを参照して、抽出される。

図１７に示されているイメージデータでは、最上部の領域の画像Ｖ０で、矩形ブロックＴ１、Ｔ２が横方向に並列されている。矩形ブロックＴ１、Ｔ２の下には横方向セパレータＳ１が存在し、横方向セパレータＳ１の下に矩形ブロックＴ３、Ｔ４、Ｔ５、Ｔ６、Ｔ７が存在する。

矩形ブロックＴ３、Ｔ４、Ｔ５は、横方向セパレータＳ１下側の領域のグループＶ１における左半部において上から下に、縦方向に配列されている。そして、矩形ブロックＴ６、Ｔ７は、横方向セパレータＳ１下側の領域のグループＶ２における右半部において上下に配列されている。

そして、ステップＳ１６０１の縦方向の関連性に基づくグルーピングの処理が実行される。これによって、矩形ブロックＴ３、Ｔ４、Ｔ５が１個のグループ（矩形ブロック）Ｖ１にまとめられ、矩形ブロックＴ６、Ｔ７が１個のグループ（矩形ブロック）Ｖ２にまとめられる。グループＶ１、Ｖ２は同一階層となる。

次に、ステップＳ１６０２で、縦方向のセパレータの有無がチェックされる。セパレータは、ＤＡＯＦ中でライン属性を持つオブジェクトであり、アプリケーションソフトウエア中で明示的にブロックを分割する機能をもつ。セパレータが検出されると、処理対象の階層において、入力画像の領域を、セパレータを境界として左右に分割される。図１７に示されているイメージデータでは縦方向のセパレータは存在しない。

次に、ステップＳ１６０３で、縦方向のグループ高さの合計が入力画像の高さに等しくなったか否かが判定される。すなわち縦方向（例えば上から下へ。）に処理対象の領域を移動しながら、横方向のグルーピングを行うとき、入力画像全体の処理が終了したときには、グループ高さ合計が入力画像高さになることを利用し、処理の終了の判定が行われる。グルーピングが終了したときはそのまま処理終了し、グルーピングが終了していなかったときはステップＳ１６０４に処理が進む。

次に、ステップＳ１６０４で、横方向の関連位に基づくグルーピングの処理が実行される。これによって、矩形ブロックＴ１、Ｔ２が１個のグループ（矩形ブロック）Ｈ１にまとめられ、矩形ブロックＶ１、Ｖ２が１個のグループ（矩形ブロック）Ｈ２にまとめられる。グループＨ１、Ｈ２は同一階層となる。ここでも、処理開始直後はミクロブロック単位での判定となる。

次に、ステップＳ１６０５で、横方向のセパレータの有無がチェックされる。セパレータを検出すると、処理対象の階層において、入力画像の領域を、セパレータを境界として上下に分割される。図１７に示されているイメージデータでは横方向のセパレータＳ１が存在する。

以上の処理結果は、図１８に示されているツリーとして登録される。

図１８において、入力画像Ｖ０は、最上位階層にグループＨ１、Ｈ２、セパレータＳ１を有し、グループＨ１には第２階層の矩形ブロックＴ１、Ｔ２が属する。

グループＨ２には、第２階層のグループＶ１、Ｖ２が属し、グループＶ１には、第３階層の矩形ブロックＴ３、Ｔ４、Ｔ５が属し、グループＶ２には、第３階層の矩形ブロックＴ６、Ｔ７が属する。

次に、ステップＳ１６０６で、横方向のグループ長合計が入力画像の幅に等しくなったか否かが判定される。これによって横方向のグルーピングに関する終了の判定が行われる。横方向のグループ長がページ幅となっている場合は、文書構造ツリー生成の処理が終了する。横方向のグループ長がページ幅となっていないときは、ステップＳ１６０１に戻り、再びもう一段上の階層で、縦方向の関連性チェックから処理が繰り返される。

[メタデータのデータ形式]
図３３は、入力された画像の一例を示している。図３３において、オブジェクト３３０１〜３３０６は、オブジェクト分割された各オブジェクトを示している。また、図３４は、オブジェクト３３０１〜３３０６が付加されたメタデータのデータ形式を示している。図３４において、データ形式３４０１〜３４０６までがオブジェクト３３０１〜３３０６それぞれに対応している。これらのメタデータのデータ形式は、後述する表示方法によって、表示用のデータ形式に変換して、画面で表示することが可能である。

以下、メタデータのデータ形式に関する説明を、オブジェクト３３０１を用いて行う。

図３４の３４０１の＜ｉｄ＞１＜／ｉｄ＞は、オブジェクト３３０１のエリアＩＤを示すデータであり、＜ａｔｔｒｉｂｕｔｅ＞写真＜／ａｔｔｒｉｂｕｔｅ＞は、オブジェクト３３０１の属性を示すデータである。前述のように、オブジェクトには、文字や写真やグラフィックの属性があり、これらは、前述したステップＳ３０１にて決定される。＜ｗｉｄｔｈ＞Ｗ１＜／ｗｉｄｔｈ＞は、オブジェクト３３０１の幅を示すデータであり、＜ｈｅｉｇｈｔ＞Ｈ１＜／ｈｅｉｇｈｔ＞は、オブジェクト３３０１の高さを示すデータである。＜ｊｏｂ＞ＰＤＬ＜／ｊｏｂ＞は、オブジェクト３３０１のジョブ種であり、前述したようにビットマップデータの生成において、ＭＦＰ１００の画像読み取り部入力の場合は、ジョブ種はＳＣＡＮとなる。また、ローカルＰＣ１０２上のアプリケーションソフトを使用した場合は、ジョブ種はＰＤＬとなる。＜ｕｓｅｒ＞ＵＳＥＲ１＜／ｕｓｅｒ＞は、オブジェクト３３０１のユーザ情報を示すデータである。＜ｐｌａｃｅ＞Ｆ社Ｇ階＜／ｐｌａｃｅ＞は、ＭＦＰの設置場所の情報を示すデータである。＜ｔｉｍｅ＞２００７／０３／１９１７：０９＜／ｔｉｍｅ＞は、入力した時間を示すデータである。＜ｃａｐｔｉｏｎ＞一眼レフカメラ＜／ｃａｐｔｉｏｎ＞は、オブジェクト２６０１のキャプションを示すデータである。

[表示方法]
次に、図３に示されているステップＳ３０７で表示されるＵＩに関して詳細な説明を行う。

図２０は、ユーザインターフェースの例を示している。図２０において、領域２００１には、ＢＯＸ内に保存されているデータが表示されている。また、図２０に示されているユーザインターフェースにおいて、領域２００２には、一つ一つの文章に名前がついており、入力された時間などの情報も表示される。オブジェクト分割表示を行う場合には、領域２００１で原稿を選択して、オブジェクト表示ボタン２００３を押すことで表示が変わる。オブジェクト分割表示に関しては、後述する。また、領域２００１で原稿を選択して、ページ表示ボタン２００４を押すことで表示が変わる。これに関しては後述する。

図２１は、ユーザインターフェースの例を示している。図２１の領域２１０１には、ステップＳ３０６で保存されたデータが表示される。領域２１０１には、ラスタ画像を縮小した画像も表示され、前述したＳＶＧを使った表示も行われる。つまり、領域２１０１には、前述してきたデータを基にページ全体が表示される。機能のタブ２１０２は、で、コピーや送信、リモート操作、ブラウザー、ＢＯＸといったＭＦＰが持っている機能を選択するのに用いられる。これ以外の機能の選択に、機能のタブ２１０２が用いられても良い。原稿モード２１０３は、原稿が読み取られる場合の原稿モードを選択するために用いられる。これは原稿タイプによって、画像処理を切り替えるために選択をするものでここに示した以外のモードも同様に表示選択をする事が出来る。ボタン２１０４は、原稿の読み取りを開始するときに押下げられるボタンである。これにより、スキャナが動作して、画像を読み込むことになる。図２１に示されている例では、ボタン２１０４が画面内に設けられているが、他の画面にボタン２１０４が設けられていても良い。

図２２に示されているユーザインターフェースは、オブジェクト分割した結果を分かるように各オブジェクトに枠を表示させるようにしたものである。ここで、ボタン２２０１を押すことにより、ページ表示画面２２０２に対してそれぞれオブジェクトの枠が表示される。枠には色付けをすることにより、オブジェクトの違いを分かるように表示することや、線の太さ、あるいは、点線、破線の違いなどにより、オブジェクトの違いを分かるように表示が行われる。ここで、オブジェクトの種類は、前述したように文字、図面、線画、表、写真である。表示２２０３は、検索を行うための文字を入力するためのものである。表示２２０３に、文字列を入力して、検索を行うことで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索手法を用いることで、オブジェクトあるいはページの検索が行われる。また、検索されたオブジェクトあるいは、そのオブジェクトを含むページが表示される。

図２３は、オブジェクト表示２３０２を押すことによりページ内のオブジェクトが表示されるユーザインターフェースを示す。領域２３０１には、ページという概念ではなく、一つ一つのオブジェクトを部品として表示する。また、ページ表示２３０４を押すことで１ページの画像として見えるように切り替え表示が行われる。さらに、表示２３０３は、検索を行うための文字を入力するものである。表示２３０３に、文字列を入力して、検索が行われることで、オブジェクトあるいはオブジェクトが含まれるページが検索される。検索方法に関しては、前述したメタデータにより、周知の検索手法が用いられることで、オブジェクトあるいはそのオブジェクトを含むページの検索が行われる。また、検索されたオブジェクトあるいはそのオブジェクトを含むページが表示される。

図２４は、オブジェクトのメタデータを表示するユーザインターフェースの例である。ある一つのオブジェクトを選択すると、領域２４０１に、そのオブジェクトの画像２４０３と、前述の付加されたメタデータのデータ形式が表示用のデータ形式に前述したメタデータ２４０２が表示される。メタデータは、エリアの情報、幅、高さ、ユーザ情報、ＭＦＰの設置場所の情報、画像が入力された時間などの情報が表示される。ここで、この例では、写真属性のオブジェクトであり、オブジェクトの近くにあった文字オブジェクトのＯＣＲ情報から形態素解析を用いて、名詞や動詞などの品詞の種類を識別、分解して取り出して表示が行われる。それが、領域２４０１に示されたＴＥＸＴという文字列である。また、メタデータに対しては、ボタン２４０４を押すことによって編集や追加、削除を行うことが可能となる。

次に、別の図を用いて、本発明の最も特徴的な部分に関して、更に説明する。

なお、以下では、断りの無い限り、「メタデータ」は、文字オブジェクトから抽出された文字列に対して形態素解析を行い品詞に分解した語句を意味する。

オブジェクトに付加されたメタデータは、ＯＣＲ処理や、形態素解析におけるエラーに起因して、ユーザが期待するメタデータとは異なるメタデータが付加される場合があるため、これを修正する手段を設ける。

図２５は、本実施形態にて画像処理装置において行われる処理を示している。。また、図２６は、本実施形態における画像処理装置のユーザインターフェースの例である。

ＯＣＲ手段２５０３、及び、形態素解析手段２５０４の結果を用いて、メタデータ確度判定手段２５０８において、確度の低いメタデータの判定が行われる。この判定結果に従い、オブジェクト及びメタデータの表示手段２５０６において、メタデータの表示が制御される。この誤ったメタデータの検索と修正のフローを、以下で詳細に説明する。

既に述べたとおり、図２４に示されているように、ユーザがある一つのオブジェクトを指定すると、そのオブジェクトの画像２４０３とそのメタデータ２４０２が表示される。一つのオブジェクトには複数のメタデータが、メタデータ付加手段２５０５によって付加されているので、メタデータを表示する場合には、オブジェクト及びメタデータの表示手段２５０６によってこれらが一覧表示される。この際、図２６に示されているように、修正すべき可能性の高いメタデータが、「確度の低いメタデータ一覧」として、優先的に表示される。

ここで、優先的に表示とは、既定の後述するメタデータ確度判定手段２５０８に応じて、全てのメタデータの中から特定のメタデータだけを抽出して表示することを意味する。すなわち、優先的に表示することは、表示色を他と変えたり、一覧で上位に目立つように並べたりして、強調して表示する場合を含む。また、これらの表示はデフォルトのものとして自動で行っても良いし、ユーザが表示方法の変更の要求を行った場合に行っても良い。

優先的に表示された確度の低いメタデータを確認したユーザからそのメタデータが誤っていると判定された場合、ＵＩはユーザから該当のメタデータの指定を受ける。ユーザによって編集２４０４のボタンが押されると、その指定を受けたＣＰＵはメタデータの編集、追加、および削除を行う。

前述のメタデータ確度判定手段２５０８は、付加されたメタデータが誤っているかどうかの確からしさを判定する。

このメタデータ確度判定手段２５０８にはＯＣＲ手段２５０３、及び、形態素解析手段２５０４の結果が入力され、これらの確からしさについて判定を行う。

判定の方法は、以下のように行う。

形態素解析によって得られた品詞の中には、品詞の種類が識別できず未知語として取り出されるものがある。これはＯＣＲエラーまたは形態素解析のエラーによって生じるため、誤ったメタデータである可能性が高い。また、名詞として識別されている用語であっても、一文字の名詞として識別されている用語の場合、ＯＣＲエラーや形態素解析のエラーによって生じている可能性が高い。

このため、これらの用語を、確度の低いメタデータとして抽出し、オブジェクト及びメタデータの表示手段に出力する。

このように、本実施形態では、ユーザに修正すべきメタデータを優先的に表示することによって、誤ったメタデータを修正するのに必要とする時間と操作の回数を減らし、ユーザビリティの向上を図ることが可能となる。

[第２実施形態]
次に本発明に係る画像処理方法の第２実施形態を図面に基づいて説明する。

第１実施形態では、誤って付加されたメタデータの修正に関わるユーザビリティの向上を図った。この方法ではオブジェクトを一つずつ選択し、メタデータの正誤の確認を行い、誤っている場合にそれを修正するため、対象とするオブジェクトが大量になると、操作は非常に煩雑であり、ユーザビリティを損なう。

そこで、本実施形態では、大量のオブジェクトを保持する場合においても、正確かつ迅速に誤ったメタデータの検索と修正を行うことのできる画像処理装置について説明する。

本実施形態を適用した画像処理装置を示すブロック図は図２５と同じである。また、図２７は、本実施形態における画像処理装置のユーザインターフェースの例を示す。

本実施形態で、第１実施形態と異なるのは、オブジェクト及びメタデータの表示手段において、誤ったメタデータが含まれるオブジェクトの一覧を表示することを特徴とする点である。この際、図２７に示されているように、修正すべきメタデータを含むオブジェクトが、「確度の低いメタデータ一覧」として、優先的に表示される。

ここで、優先的に表示とは、既定の後述するオブジェクト確度判定手段２５０８に応じて、全てのメタデータの中から特定のメタデータだけを抽出して表示することを意味する。すなわち、優先的に表示することは、表示色を他と変えたり、一覧で上位に目立つように並べたりして、強調して表示する場合を含む。この表示はデフォルトのものとして自動で行っても良いし、ユーザが表示方法の変更の要求を行った場合に行っても良い。また、ユーザが設定した一定の閾値を超えて誤っている可能性が高いメタデータを付加されたオブジェクトがある場合にのみ表示が実行される形態でも良い。

前述のオブジェクト確度判定手段２５０８は、オブジェクトに誤ったメタデータが付加されているかどうかの確からしさの判定を行う。このオブジェクト確度判定手段２５０８にはＯＣＲ手段２５０３、及び、形態素解析手段２５０４の結果が入力され、これらの確からしさについて判定を行う。この時、前述したような方法で確からしさについて判定を行う。

例えば、図２７に示されているとおり、付加されるメタデータの中に、未知語や一文字名詞の出現回数や頻度が高いオブジェクトを、絞って表示、もしくは、一覧の中で、強調して、目立つように表示する。

このように、本実施形態では、ユーザに修正すべきメタデータを含むオブジェクトを優先的に表示することによって、修正すべきメタデータを検索するのに必要とする時間と操作の回数を減らし、ユーザビリティの向上を図ることが可能となる。

[第３実施形態]
次に、本発明に係る画像処理方法の第３実施形態を図面に基づいて説明する。

第１実施形態及び第２実施形態では、例えば、ユーザがある写真オブジェクトを指定して付加されているメタデータを確認する際、写真オブジェクトを見るだけではメタデータが正しいのかどうかを判定するのが困難な場合がある。また、メタデータが誤っている場合、それらを１つずつ修正せねばならず、同じＯＣＲエラーまたは形態素解析のエラーに起因する誤りであっても、派生したメタデータの数だけ修正を行う必要があった。

そこで、本実施形態では、このような問題を解決し、ユーザが効率よくメタデータの修正を行うことの出来る画像処理装置について説明する。

図２８は、本実施形態にて画像処理装置において行われる処理を示している。

すなわち、第３実施形態は、符号２８０１〜２８０８で指し示される手段により実行される。符合２８０１は、オブジェクトの分割手段を指し示す。符号２８０２は、変換手段を指し示す。符号２８０３は、ＯＣＲ手段を指し示す。符号２８０４は、形態素解析手段を指し示す。符号２８０５は、メタデータ付加手段を指し示す。符号２８０６は、オブジェクト及びメタデータの表示手段を指し示す。符号２８０７は、メタデータ修正手段を指し示す。符号２８０８は、認識手段を指し示す。

そして、認識手段２８０８は、オブジェクト及びメタデータの表示手段２８０６とメタデータ修正手段２８０７に接続されており、メタデータ付加手段２８０５は、認識手段２８０８に接続されている。

また、図２９は、文字オブジェクトとそれに関連する文字コードを持たないオブジェクトとのメタデータの関係を表す。また、図３０は、本実施形態を適用した画像処理装置のユーザインターフェースの例を示す。図３１は、本実施形態を適用した画像処理装置において、メタデータを修正する場合の様子を説明する図である。

図２９に示されているように、読み取られた画像内の図面、線画、写真の関連先オブジェクト（２９０３、２９０４、２９０５）は、それ自体には文字コードを持たない。そして、関連先オブジェクトには、周囲の関連する文字オブジェクトの関連元オブジェクト（２９０１、２９０２）の文字コードがメタデータとして付加される。そこで、認識手段２８０８において、各オブジェクトには、どのオブジェクトに関連するのかを表す、リンク情報が付加される。

具体的には、オブジェクト各々に固有の互いに異なるＩＤを付与した上で、関連元、及び、関連先オブジェクトのＩＤを、オブジェクト毎にメタデータとして記録される。

図３０を用いて、ユーザへのオブジェクトとメタデータ一覧の表示方法を説明する。オブジェクトを一覧する場合、関連先オブジェクトには関連元オブジェクトと同じメタが付加されている。このため、誤ったメタデータがある場合、そのメタデータの関連元オブジェクトが関連先オブジェクトに対して、優先的に表示される。ここで、優先的に表示とは、関連元オブジェクトをルートカテゴリとして、強調して目立たせて表示し、関連先オブジェクトは関連元オブジェクトのサブカテゴリとして目立たせないか、表示させるために操作が必要な状態で保持する場合を含む。

図３１（ａ）（ｂ）を用いて、本実施形態における、メタデータを修正する方法を説明する。図３１（ａ）は、関連元オブジェクトを修正した場合の様子を模式的に表す図であり、図３１（ｂ）は、関連先オブジェクトを修正した場合の様子を模式的に表す図である。

すなわち、関連元オブジェクト、もしくは、関連先オブジェクトいずれのメタデータが修正された場合でも、そのオブジェクトにリンクするオブジェクトのメタデータにも自動的に修正が反映される。

例えば、図３１（ａ）では、文字オブジェクト（関連元オブジェクト）３２０１のメタデータが修正されて、図面オブジェクト（関連先オブジェクト）３２０２に自動的に修正が反映される。また、文字オブジェクト（関連元オブジェクト）３２０１のメタデータが修正されて、線画オブジェクト（関連先オブジェクト）３２０３に自動的に修正が反映される。

また、例えば、図３１（ｂ）では、図面オブジェクト（関連先オブジェクト）３２０５のメタデータが修正されて、文字オブジェクト（関連元オブジェクト）３２０４に自動的に修正が反映される。また、文字オブジェクト（関連元オブジェクト）３２０４のメタデータが修正されて、線画オブジェクト（関連先オブジェクト）３２０６に自動的に修正が反映される。

このように、本実施形態では、ユーザは関連先オブジェクトのメタデータがどの関連元オブジェクトに由来して付加されているのかを簡単に知ることができ、かつ、関連元オブジェクトの文字の画像を確認しながらメタデータの正誤を容易に判定できる。これと同時に、同じ関連元オブジェクトに由来するメタデータであれば一つのメタデータを修正するだけで簡易に他のメタデータの修正も行われるので、メタデータの修正に要する時間と操作回数とを低減させ、ユーザビリティの向上を図ることが可能となる。

[第４実施形態]
次に本発明に係る画像処理方法の第４実施形態を図面に基づいて説明する。

第１実施形態、第２実施形態、及び、第３実施形態では、例えば、メタデータを修正した入力画像と同じ画像が再度入力されるような場合、再び同じ誤りを持ったメタデータが付加される可能性が高いという問題があった。そこで、本実施形態では斯様な問題を解決し、ユーザが同じ修正を繰り返す必要のない画像処理装置について説明する。

図３５は、本実施形態にて画像処理装置において行われる処理を示している。

すなわち、第４実施形態は、符号３５０１〜３５０８で指し示される手段により実行される。符合３５０１は、オブジェクトの分割手段を指し示す。符号３５０２は、変換手段を指し示す。符号３５０３は、ＯＣＲ手段を指し示す。符号３５０４は、形態素解析手段を指し示す。符号３５０５は、メタデータ付加手段を指し示す。符号３５０６は、オブジェクト及びメタデータの表示手段を指し示す。符号３５０７は、メタデータ修正手段を指し示す。符号３５０８は、フィードバック手段を指し示す。

そして、フィードバック手段３５０８は、変換手段３５０２及びＯＣＲ手段３５０３に接続されている。そして、メタデータ付加手段３５０７は、フィードバック手段３５０８に接続されている。

図３５に示されている第４実施形態に係る画像処理装置において第１実施形態、第２実施形態、及び、第３実施形態と異なるのは、以下の点である。すなわち、第４実施形態には、メタデータ修正手段３５０７において修正された内容を用いて、ＯＣＲ辞書と形態素解析辞書の内容に変更を行うフィードバック手段が含まれる。これにより、以降のＯＣＲ処理、及び、形態素解析においては、ユーザの修正内容が反映された辞書の参照が行われる。

この結果、以降のメタデータ付加にユーザのマニュアル操作による修正が反映されることによって、メタデータ生成の精度が向上し、ユーザが同じ修正を繰り返す必要がなくなる。

本発明の他の実施形態
前述した実施形態の機能を実現するように前述した実施形態の構成を動作させるプログラムを記憶媒体に記憶させ、該記憶媒体に記憶されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も上述の実施形態の範疇に含まれる。また、前述のプログラムが記憶された記憶媒体はもちろんそのプログラム自体も上述の実施形態に含まれる。

かかる記憶媒体としてはたとえばフロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ―ＲＯＭ、磁気テープ、不揮発性メモリカード、ＲＯＭを用いることができる。

また前述の記憶媒体に記憶されたプログラム単体で処理を実行しているものに限らず、他のソフトウエア、拡張ボードの機能と共同して、ＯＳ上で動作し前述の実施形態の動作を実行するものも前述した実施形態の範疇に含まれる。

本発明に係る画像処理装置を含んだシステムを示すブロック図である。図１に示されているＭＦＰを示すブロック図である。第１実施形態に係る第１のデータ処理フローを示す図である。第１実施形態に係るメタデータを付加する処理フローを示す図である。第１実施形態に係るスキャナからの読み込みの処理フローを示す図である。第１実施形態に係るＰＣからのデータをビットマップにする処理フローを示す図である。オブジェクト分割された結果の一例を示す図である。オブジェクト分割されたときの各属性のブロック情報および入力ファイル情報を示す図である。第１実施形態に係るベクトル化処理のフロー図である。ベクトル化の処理における角抽出の処理を示す図である。ベクトル化の処理における輪郭線まとめの処理を示す図である。図９に示されているベクトル化処理で生成されたベクトルデータのグループ化の処理のフローチャートである。図１２に示されているグループ化処理でグループ化されたベクトルデータに対する図形要素検出の処理を示すフローチャートである。第１実施形態に係るベクトル化処理結果のデータ構造を示す図である。アプリデータ変換の処理を示すフローチャートである。文書構造ツリー生成の処理を示すフローチャートである。文書構造ツリー生成処理の対象となる文書を示す図である。文書構造ツリー生成処理によって生成される文書構造ツリーの一例を示す図である。本実施形態に係るＳＶＧ形式の一例である。本実施形態に係るＵＩの表示の例を示した図である。本実施形態に係るＵＩの表示におけるページ表示の例を示した図である。本実施形態に係るＵＩの表示におけるオブジェクト属性表示の一例を示した図である。本実施形態に係るＵＩ表示においてオブジェクト分割された一つのオブジェクトが表示される例を示した図である。本実施形態に係るＵＩ表示においてオブジェクトとメタデータが表示される例を示した図である。第１実施形態及び第２実施形態に係る画像処理装置が行う処理のブロック図である。第１実施形態の画像処理装置のユーザインターフェースの一例を示す図である。第２実施形態の画像処理装置のユーザインターフェースの一例を示す図である。第３実施形態に係る画像処理装置が行う処理のブロック図である。互いに関連するオブジェクトとそれらのメタデータの関係を示す図である。第３実施形態の画像処理装置のユーザインターフェースの一例を示す図である。第３実施形態において、メタデータが修正される様子を示す図である。入力画像に対して、文字領域認識、ＯＣＲ、形態素解析の過程を示す図である。入力画像に対して、文字領域認識、ＯＣＲ、形態素解析の過程を示す図である。図３３に示されている各オブジェクトに対して付加されたメタデータのデータ形式を示す図である。本発明に係る画像処理装置が行う処理のブロック図である。図２におけるデータ処理装置の詳細を示す図である。

符号の説明

１００ＭＦＰ
１０１マネージメントＰＣ
１０２ローカルＰＣ
１０３プロキシサーバ
１０４インターネット
１０５データベース
１０６文書管理サーバ
１０７ＬＡＮ
１０８ＬＡＮ
１０９ＬＡＮ

Claims

入力画像を構成するオブジェクトを分割する分割手段と、
ＯＣＲ手段及び形態素解析手段を用いて前記分割されたオブジェクト毎にメタデータを付加するメタデータ付加手段と、
前記オブジェクト及び該オブジェクトに付加されたメタデータを表示する表示手段と、
前記付加されたメタデータの確度を判定するメタデータ確度判定手段とを備え、
前記表示手段は、前記メタデータ確度判定手段によって確度が低いと判定されたメタデータを、優先的に表示することを特徴とする画像処理装置。
前記メタデータ確度判定手段は、形態素解析手段によって未知語と判定された語句を確度の低いメタデータとして判定することを特徴とする請求項１に記載の画像処理装置。
前記メタデータ確度判定手段は、形態素解析手段によって名詞と判定され、かつ、一文字である語句を確度の低いメタデータとして判定することを特徴とする請求項１に記載の画像処理装置。
前記表示手段は、前記メタデータ確度判定手段によって確度が低いと判定されたメタデータだけを表示することを特徴とする請求項１に記載の画像処理装置。
前記表示手段は、前記メタデータ確度判定手段によって確度が低いと判定されたメタデータを、強調して表示することを特徴とする請求項１に記載の画像処理装置。
前記メタデータ確度判定手段によって確度が低いと判定されたメタデータを多く含んでいると判定されたオブジェクト、もしくは、前記メタデータ確度判定手段によって確度が低いと判定されたメタデータを付加されたオブジェクトを判定するオブジェクト確度判定手段をさらに備え、
前記表示手段は、前記オブジェクト確度判定手段によって確度が低いと判定されたオブジェクトを、優先的に表示することを特徴とする請求項１に記載の画像処理装置。
前記表示手段は、前記オブジェクト確度判定手段によって確度が低いと判定されたオブジェクトを、強調して表示することを特徴とする請求項６に記載の画像処理装置。
入力画像を構成するオブジェクトを分割する分割手段と、
ＯＣＲ手段及び形態素解析手段を用いて前記分割されたオブジェクト毎にメタデータを付加するメタデータ付加手段と、
前記オブジェクト及び該オブジェクトに付加されたメタデータを表示する表示手段と、
前記付加されたメタデータの確度を判定するメタデータ確度判定手段と、
文字を含むオブジェクトで、かつ、前記文字から語句がメタデータとして抽出されたオブジェクトである関連元オブジェクトと、前記メタデータを付加されたオブジェクトである関連先オブジェクトとを関連グループとして認識する認識手段とを備えたことを特徴とする画像処理装置。
前記表示手段は、前記認識手段によって関連グループと認識されたオブジェクトを、強調して表示することを特徴とする請求項８に記載の画像処理装置。
前記表示手段は、前記認識手段によって関連グループと認識されたオブジェクトのうち、関連元オブジェクトを、関連先オブジェクトよりも優先的に表示することを特徴とする請求項８に記載の画像処理装置。
前記確度判定手段によって確度が低いと判定されたメタデータを修正するメタデータ修正手段を更に有し、
前記メタデータ修正手段は、メタデータの修正内容を、前記認識手段によって同じ関連グループと認識された他のオブジェクトに対しても、同じ修正を実施することを特徴とする請求項８に記載の画像処理装置。
入力画像を構成するオブジェクトを分割する分割手段と、
ＯＣＲ手段及び形態素解析手段を用いて前記オブジェクト毎にメタデータを付加するメタデータ付加手段と、
前記オブジェクト及び該オブジェクトに付加されたメタデータを表示する表示手段と、
前記付加されたメタデータの確度を判定するメタデータ確度判定手段と、
前記確度判定手段によってオブジェクトに確度の低いメタデータが付加されたと判定された場合に、該メタデータを修正するメタデータ修正手段とを備え、
前記メタデータ修正手段によって修正されたメタデータをＯＣＲ辞書と形態素解析辞書に反映させることを特徴とする画像処理装置。
入力画像を構成するオブジェクトを分割する分割ステップと、
ＯＣＲ手段及び形態素解析手段を用いて前記分割されたオブジェクト毎にメタデータを付加するメタデータ付加ステップと、
前記オブジェクト及び該オブジェクトに付加されたメタデータを表示する表示ステップと、
前記付加されたメタデータの確度を判定するメタデータ確度判定ステップとを備え、
前記表示ステップは、前記メタデータ確度判定手段によって確度が低いと判定されたメタデータを、優先的に表示することを特徴とする画像処理方法。
前記メタデータ確度判定ステップは、形態素解析手段によって未知語と判定された語句を確度の低いメタデータとして判定することを特徴とする請求項１３に記載の画像処理方法。
前記メタデータ確度判定ステップは、形態素解析手段によって名詞と判定され、かつ、一文字である語句を確度の低いメタデータとして判定することを特徴とする請求項１３に記載の画像処理方法。
前記表示ステップは、前記メタデータ確度判定手段によって確度が低いと判定されたメタデータだけを表示することを特徴とする請求項１３に記載の画像処理方法。
前記表示ステップは、前記メタデータ確度判定手段によって確度が低いと判定されたメタデータを、強調して表示することを特徴とする請求項１３に記載の画像処理方法。
前記メタデータ確度判定ステップによって確度が低いと判定されたメタデータを多く含んでいると判定されたオブジェクト、もしくは、前記メタデータ確度判定手段によって確度が低いと判定されたメタデータを付加されたオブジェクトを判定するオブジェクト確度判定ステップをさらに備え、
前記表示ステップは、前記オブジェクト確度判定手段によって確度が低いと判定されたオブジェクトを、優先的に表示することを特徴とする請求項１３に記載の画像処理方法。
前記表示ステップは、前記オブジェクト確度判定手段によって確度が低いと判定されたオブジェクトを、強調して表示することを特徴とする請求項１８に記載の画像処理方法。
入力画像を構成するオブジェクトを分割する分割ステップと、
ＯＣＲ手段及び形態素解析手段を用いて前記分割されたオブジェクト毎にメタデータを付加するメタデータ付加ステップと、
前記オブジェクト及び該オブジェクトに付加されたメタデータを表示する表示ステップ、
前記付加されたメタデータの確度を判定するメタデータ確度判定ステップと、
文字を含むオブジェクトで、かつ、前記文字から語句がメタデータとして抽出されたオブジェクトである関連元オブジェクトと、前記メタデータを付加されたオブジェクトである関連先オブジェクトとを関連グループとして認識する認識ステップとを備えたことを特徴とする画像処理方法。
前記表示ステップは、前記認識ステップによって関連グループと認識されたオブジェクトを、強調して表示することを特徴とする請求項２０に記載の画像処理方法。
前記表示ステップは、前記認識ステップによって関連グループと認識されたオブジェクトのうち、関連元オブジェクトを、関連先オブジェクトよりも優先的に表示することを特徴とする請求項２０に記載の画像処理方法。
前記確度判定ステップによって確度が低いと判定されたメタデータを修正するメタデータ修正ステップを更に有し、
前記メタデータ修正ステップは、メタデータの修正内容を、前記認識ステップによって同じ関連グループと認識された他のオブジェクトに対しても、同じ修正を実施することを特徴とする請求項２０に記載の画像処理方法。
入力画像を構成するオブジェクトを分割する分割ステップと、
ＯＣＲ手段及び形態素解析手段を用いて前記オブジェクト毎にメタデータを付加するメタデータ付加ステップと、
前記オブジェクト及び該オブジェクトに付加されたメタデータを表示する表示ステップと、
前記付加されたメタデータの確度を判定するメタデータ確度判定ステップと、
前記確度判定ステップによってオブジェクトに確度の低いメタデータが付加されたと判定された場合に、該メタデータを修正するメタデータ修正ステップとを備え、
前記メタデータ修正ステップによって修正されたメタデータをＯＣＲ辞書と形態素解析辞書に反映させることを特徴とする画像処理方法。
コンピュータに
入力画像を構成するオブジェクトを分割する分割ステップと、
ＯＣＲ手段及び形態素解析手段を用いて前記分割されたオブジェクト毎にメタデータを付加するメタデータ付加ステップと、
前記オブジェクト及び該オブジェクトに付加されたメタデータを表示する表示ステップと、
前記付加されたメタデータの確度を判定するメタデータ確度判定ステップとを備え、
前記表示ステップは、前記メタデータ確度判定ステップによって確度が低いと判定されたメタデータを、優先的に表示することを実行させるためのプログラム。
コンピュータに
入力画像を構成するオブジェクトを分割する分割ステップと、
ＯＣＲ手段及び形態素解析手段を用いて前記分割されたオブジェクト毎にメタデータを付加するメタデータ付加ステップと、
前記オブジェクト及び該オブジェクトに付加されたメタデータを表示する表示ステップ、
前記付加されたメタデータの確度を判定するメタデータ確度判定ステップと、
文字を含むオブジェクトで、かつ、前記文字から語句がメタデータとして抽出されたオブジェクトである関連元オブジェクトと、前記メタデータを付加されたオブジェクトである関連先オブジェクトとを関連グループとして認識する認識ステップとを実行させるためのプログラム。
コンピュータに
入力画像を構成するオブジェクトを分割する分割ステップと、
ＯＣＲ手段及び形態素解析手段を用いて前記オブジェクト毎にメタデータを付加するメタデータ付加ステップと、
前記オブジェクト及び該オブジェクトに付加されたメタデータを表示する表示ステップと、
前記付加されたメタデータの確度を判定するメタデータ確度判定ステップと、
前記確度判定ステップによってオブジェクトに確度の低いメタデータが付加されたと判定された場合に、該メタデータを修正するメタデータ修正ステップとを備え、
前記メタデータ修正ステップによって修正されたメタデータをＯＣＲ辞書と形態素解析辞書に反映させることを実行させるためのプログラム。
請求項２５乃至２７のいずれかに記載のプログラムを格納したことを特徴とするコンピュータが読み取ることが可能な記憶媒体。