JP4390523B2 - 最小領域による合成画像の分割 - Google Patents

最小領域による合成画像の分割 Download PDF

Info

Publication number
JP4390523B2
JP4390523B2 JP2003364142A JP2003364142A JP4390523B2 JP 4390523 B2 JP4390523 B2 JP 4390523B2 JP 2003364142 A JP2003364142 A JP 2003364142A JP 2003364142 A JP2003364142 A JP 2003364142A JP 4390523 B2 JP4390523 B2 JP 4390523B2
Authority
JP
Japan
Prior art keywords
image
field
elements
basic
separator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003364142A
Other languages
English (en)
Other versions
JP2004282701A5 (ja
JP2004282701A (ja
Inventor
ヨハンネス・ウエー・エム・ヤコブス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Production Printing Netherlands BV
Original Assignee
Oce Nederland BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oce Nederland BV filed Critical Oce Nederland BV
Publication of JP2004282701A publication Critical patent/JP2004282701A/ja
Publication of JP2004282701A5 publication Critical patent/JP2004282701A5/ja
Application granted granted Critical
Publication of JP4390523B2 publication Critical patent/JP4390523B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Description

本発明は、ピクセルから成る複合画像を、画像のレイアウト要素に対応する複数のフィールドに分割する方法に関し、前記ピクセルが、画素の強度および/または色を示す値を有し、この方法は、画像の隣り合うピクセルの領域に対応し且つ画像のバックグラウンドを示す所定の特性を有するフィールドセパレータを見出すステップを含む。
また、本発明は、ピクセルから成る複合画像を、画像のレイアウト要素に対応する複数のフィールドに分割する装置に関し、前記ピクセルが、画素の強度および/または色を示す値を有し、この装置は、画像を入力するための入力ユニットと、隣り合うピクセルの領域に対応し且つ画像のバックグラウンドを示す所定の特性を有するフィールドセパレータを見出す処理ユニットとを備える。
更に、本発明はコンピュータプログラム製品に関する。
ページ分割方法は、1994年10月9日から12日にイスラエルのエルサレムで行なわれたパターン認識に関する第12回国際会議の議事録、IEEE−CSプレス、第2刊、339頁から344頁における、A.AntonacopoulosおよびR.T.Ritchingsによる文献、「Flexible page segmentation using the background(バックグラウンドを使用するフレキシブルなページ分割)」によって知られている。画像は、画素の強度および/または色を示す値を有するピクセルによって表わされる。この値は、バックグラウンド(通常、白)またはフォアグラウンド(通常、印刷スペースである黒)として分類される。ページ上の印刷領域を取り囲む白色のバックグラウンドスペースが、解析される。バックグラウンド白色スペースは、タイル、すなわちバックグラウンドピクセルの重なり合わない領域によって覆われる。
画像内のフォアグラウンドフィールドの外形は、それを取り囲む白色タイルに沿ってトレースすることにより識別され、これにより、タイルの内側の境界が、更なる解析のためのフィールドの境界を構成する。この方法の問題は、効率的な更なる解析を妨げる複雑な記述によってフィールドの境界が表わされているという点にある。
米国特許第5,856,877号明細書 A.AntonacopoulosおよびR.T.Ritchings、「Flexible page segmentation using the background(バックグラウンドを使用するフレキシブルなページ分割」、パターン認識に関する第12回国際会議の議事録、IEEE−CSプレス、1994年10月9日−12日、イスラエル、エルサレム、第2刊、p339−344 K.Y.Wong、R.G.Casey、およびF.M.Wahl、「Document analysis system(文書解析システム)」、IBM J.Res.、Dev 26、(1982)、p647−656
本発明の目的は、信頼性が高く複雑でない画像分割方法および装置を提供することである。
本発明の第1の態様によれば、前記目的は、冒頭の段落に規定された方法であって、少なくとも1つの分離方向に沿って画像の外側の境界までフィールドセパレータを延長するステップと、延長されたフィールドセパレータに対応するラインのテセレーショングリッドを構成するステップと、テセレーショングリッドのラインによって囲まれる領域である基本長方形のセットを構成するステップと、互いに隣り合い且つ1つのフィールドセパレータによって分離されない基本長方形同士を連結することによりフィールドを構成するステップとをさらに備えていることを特徴とする方法によって達成される。
本発明の第2の態様によれば、前記目的は、冒頭の段落に規定された装置であって、少なくとも1つの分離方向に沿って画像の外側の境界までフィールドセパレータを延長し、延長されたフィールドセパレータに対応するラインのテセレーショングリッドを構成し、テセレーショングリッドのラインによって囲まれる領域である基本長方形のセットを構成し、互いに隣り合い且つ1つのフィールドセパレータによって分離されない基本長方形同士を連結することによりフィールドを構成するように、処理ユニットが構成されていることを特徴とする装置によって達成される。
本発明の第3の態様によれば、前記目的は、前記方法を実行するためのコンピュータプログラム製品を用いて達成される。
通常、画像は、フィールドセパレータを含む、このフィールドセパレータは、少なくとも2つの分離方向、一般には水平方向および垂直方向のうちの1つを有し、且つテキストフィールド等のレイアウト要素を連結しかつ/または横断しともに取り囲む。本方法の結果、外側の境界へのフィールドセパレータの延長に基づくラインにより、テセレーショングリッド(tessellation grid)が形成される。グリッドによって囲まれるが小分割されない全ての領域が、基本長方形と称され、これらの基本長方形に関して更なる解析が行なわれる。基本長方形のセットの利点は、基本長方形を連結することによりフィールドを簡単に構成することができるという点である。なお、基本長方形のレベルに関する演算は、コンピュータで行なうと、個々のピクセル同士または小さなピクセルを基本とするオブジェクト同士を連結する場合よりも、実質的に効率的である。
本発明は、以下の認識に基づいている。分割は、関連する階層レベルで画像内のオブジェクトを識別する処理である。例えば、新聞の一面において、階層レベルが最も低いものはピクセルであり、その次にレベルが低いものは、連結されたピクセルから成るオブジェクト(例えば、文字またはセパレータ)であり、その次がテキストラインであり、その次がテキストフィールドであり、その次がコラムであり、最後が記事である。発明者らは、構造化された画像内でフィールドを見出す場合には、フィールドセパレータの低いレベルからビルディングブロックレベルへの変換により、フィールドの所要レベルを下回るビルディングブロックを構成できることが分かった。基本長方形は、テセレーショングリッドによって効率的に構成することができるビルディングブロックである。基本長方形を1つの領域に連結するステップは、ビルディングブロックレベルで行なわれる。最後に、ビルディングブロックレベルからフィールドレベルへの変換は、画像のノードまたはフィールドセパレータの当初の連結点に基づいて、複数の基本長方形をフィールドに統合することにより行なわれる。したがって、基本長方形の構成は、主に多角形のフィールドを有するデジタル画像を分割する最中に、フィールドのビルディングブロックを決定するという便利な方法を与える。
この方法の一実施形態において、基本長方形のセットを構成するステップは、要素の2次元配列によってテセレーショングリッドを表わすマトリクスマップを構成することを含み、各要素は、テセレーショングリッドの基本長方形またはラインセグメントのいずれかを表わし、1つの要素は、フィールドセパレータに対応するラインを表わすための所定の第1の値、または、基本長方形あるいは延長されたフィールドセパレータに対応するラインを表わすための更なる異なる値を有している。利点は、マトリクスマップが、基本長方形と基本長方形同士の間の境界とを含んでいるという点である。マトリクスマップは、簡単に処理することができる。これは、そうでなければ、演算を複雑にしかねない幾何学的な内容を伴うことなく、マトリクスマップが、フィールドのビルディングブロックのレベルで画像を表わしているためである。
この方法の一実施形態において、ノードは、フィールドセパレータが連結する位置、およびテセレーショングリッド内の対応する位置にあるオリジナル画像の点で規定される。また、フィールドを構成するステップは、テセレーショングリッドに対応し且つテセレーショングリッド内のノードを示す要素を含むノードマトリクスを構成することを含む。
利点は、ノードマトリクスが、幾何学的な表示でノードへの参照を含んでいるという点である。ノードマトリクスにより、フィールドのビルディングブロックすなわち基本長方形のレベルを、ノードによってフィールドの表示へと簡単に変換することができる。
本発明に係る装置の更に好ましい実施形態が、別の請求項に記載されている。
本発明のこれらの態様および他の態様は、以下の説明に一例として記載された実施形態および添付図面を更に参照することにより、明らかとなり、解明される。
図面は、概略図であり、一定の縮尺で描かれたものではない。図面において、既に説明した要素に対応する要素が、同じ参照符号で示されている。
図1は、知られている分割システムによる3つの基本的なステップを有する典型的な分割方法の概略を示している。入力画像11は、連結成分解析を使用して画像のピクセルを解析するCCA(Connected Component Analysis)モジュール14で処理される。最初に、白黒文書、グレースケール文書、またはカラー文書、例えば新聞の一面であっても良いオリジナル画像が、好ましくはグレースケールで走査される。このグレースケール走査された画像は、フォアグラウンド値(例えば黒)またはバックグラウンド値(例えば白)を各ピクセルに割り当てるため、ハーフトーン化される。CCAモジュール14は、同様の特性を有する隣り合うピクセルの連結成分(Connected Component、CC)を検出することにより、画像中のフォアグラウンド要素を見つける。分割処理におけるこの第1のステップの例は、例えばUS5,856,877に記載されている。CCAモジュールは、連結されたフォアグラウンドピクセルの連結成分であるCCオブジェクト12を出力として形成する。LA(Layout Analysis)モジュール15は、CCオブジェクト12を入力として受け、レイアウトオブジェクト13を形成する。この場合、CCオブジェクトを統合してグループ化することにより、テキストラインおよびテキストブロック等の大きなレイアウトオブジェクトが形成される。この段階中においては、ヒューリスティックス(経験則)を使用して、レイアウト要素をグループ化し、大きなレイアウト要素を形成する。これは、通常のボトムアップ処理における論理ステップである。AF(Article Formation)モジュール16は、レイアウトオブジェクト13を入力として受けて、記事形成(article formation)により出力として記事17を形成する。このモジュールにおいては、大きなエンティティを構成する幾つかのレイアウトオブジェクトが、一緒になってグループ化される。大きなエンティティは、オリジナル画像に適用されるレイアウトルールを使用してアセンブルされる。例えば、新聞の一面において、AFモジュールは、その特定の新聞様式のレイアウトルールにしたがって、テキストブロックおよび画像のようなグラフィック要素をグループ化し、個々の記事を形成する。例えば西洋タイプの雑誌のレイアウト、科学のテキストのレイアウト、または日本の記事のレイアウトといった画像のレイアウトタイプの知識は、ルールに基づいた記事形成方法において使用でき、これにより、テキストブロックのグループ化を向上させることができる。
本発明によれば、以下に説明するように、分割に対して複数の更なるステップが加えられる。これらのステップは、画像を複数のフィールドに分割した後、1つのフィールド内で要素を検出すること、すなわち、更に小さい相互に関連する別個の項目によって構成される、レイアウトオブジェクトを形成することに関するものである。図2は、サンプルとしての日本の新聞を示している。このような新聞は、水平方向読み方向22および垂直方向読み方向21の両方を有するテキストラインを含む、特定のレイアウトを有している。検出された連結成分の従来のボトムアップグループ化処理における問題点は、グループ化をどの方向で進めるべきかが分からないという点である。そのため、バックグラウンドを処理してその頁(一面)のフィールドを検出する別個のステップにより、分割が増大される。その後、文字のグループ化を行なう前に、日本の新聞の各フィールドにおける読み方向が検出される。
この方法の一実施形態においては、例えば個々のコラムにおける黒ライン23といったセパレータ要素が検出されて、複数のバックグラウンド要素に変換される。このような選択肢を用いれば、実際に連結される垂直および水平ラインを含む黒ライン23の大きな要素を、様々なセパレータ要素に分離することができる。日本の新聞において、ラインは、レイアウトにおいてフィールドを分割するための非常に重要なオブジェクトである。これらのオブジェクトが、分離方向に沿うラインとして認識されることが求められる。この選択肢が無いと、これらのオブジェクトはグラフィックスとして分類される。この選択肢を使用すると、ラインを、様々な方向のセパレータ要素として、各分離方向毎に個別に扱うことができる。
図3は、オブジェクトを1つの方向に統合する基本的な方法を示している。この図は、知られている方向に向けられたレイアウトオブジェクト、例えば読む順番が分かっている状況におけるテキストブロックを見つけるためのLAモジュール15の基本的な機能を示している。連結成分12は、統計的な解析により最初の解析ステップ31で処理され、これにより、算定閾値32が得られる。2番目の分類ステップ33においては、CC分類が補正され、これにより、補正された連結成分34が得られる。この補正された連結成分が、3番目の統合ステップ35で処理されることにより、文字がテキストラインに加えられ、その結果、テキストラインおよび他のオブジェクト36が得られる。4番目のテキスト統合ステップ37においては、テキストラインが、テキストブロック38(および、可能であれば他のグラフィックオブジェクト)に加えられる。日本の新聞に関する要求事項に基づいて、従来のオブジェクトの統合は、少なくとも2つの読み方向に沿っていなければならず、そのため、前述した基本的な方法を改良しなければならない。
図4は、オブジェクトの分割および2方向統合を示している。図3の1方向処理に対して、新たな別個のステップが加えられている。最初の(前)処理ステップにおいては、画像のグラフ41が構成される。フィールドセパレータを見つけることによりグラフを構成することについて以下に述べる。グラフにおいて、フィールドは、フィールド検出ステップ42で、グラフの辺によって囲まれる領域を見出すことにより検出される。当該領域は、テキストブロック47を含むフィールドとして分類される。テキストブロック47において(テキストブロック領域内にある補正されたみ連結成分34または連結成分43を使用して)、ステップ44で、読む順番45が決定される。読み方向検出は、文書スペクトルに基づいている。テキストブロック47のフィールド、含まれている連結成分43、および読む順番45を入力として使用して、ライン形成ステップ46は、必要に応じて、見出された方向に沿って文字をラインに加える。
ここで、グラフ41の構成について説明する。文書のグラフ表示は、走査のバックグラウンドを使用して形成される。走査におけるピクセルは、バックグラウンドとして(通常、白)或はフォアグラウンド(通常、黒)として分類される。白の大きな領域だけが、フィールドに関する情報を与えるため、例えば画像をダウンサンプリングすることにより、小さなノイズオブジェクトが除去される。1つのフォアグラウンド(黒)ピクセルを除去するため、更に、ダウンサンプリングされた画像から斑点が除去されても良い。
次の作業は、重要な白領域を抽出することである。最初のステップは、隣り合うバックグラウンドピクセルの1ピクセル高領域、所謂ホワイトランを検出することである。所定の最小長よりも短いホワイトランは、処理から除外される。
図5は、一例として、垂直方向で隣り合う白ピクセルの4つの水平方向のホワイトラン51を示している。フォアグラウンド領域53は、ホワイトラン51を直接に取り囲むフォアグラウンドピクセルを有していると仮定される。「最大白長方形」は、隣り合うホワイトラン51によって構成することができる最も大きな長方形領域、したがって、黒(フォアグラウンド)ピクセルを含んでいると延長することができない長方形白領域として規定される。最大白長方形52は、垂直方向の破線によって示される長さ、及び4ピクセル分の幅を有する4つのホワイトラン51に基づいて示されている。白長方形は、これを延長することができない場合に、いわゆる最大分離力を有する。そのような長方形は、より重要な白領域の更に小さい部分ではない。したがって、長方形52は、4ピクセル分の幅を有する考えられる唯一の最大長方形である。3ピクセル分または2ピクセル分の幅を持つ更なる長方形を構成することができる。更なる例が図6に示されている。
白長方形の構成は、例えば水平方向および垂直方向の白長方形といったように、異なる分離方向で別個に行なわれる。垂直方向の白長方形は、画像を回転させ、且つ回転された画像における水平方向のホワイトランを検出することにより検出される。なお、画像のタイプまたは用途に応じて、斜め方向等の他の分離方向が選択されても良いこと留意されたい。
最大白長方形を構成するためのアルゴリズムは、以下の通りである。アルゴリズムの入力は、所定の画像から検出された全ての水平方向の1ピクセル高ホワイトラン(White Run、WR)から成る。各ホワイトランは、一組の座標((x,y),(x,y))によって特徴付けられる長方形として表わされる。ここで、xおよびyは、その左上角部の座標であり、xおよびyは右下角部の座標である。順序付けられたアクティブなオブジェクトINPUT LISTに存在する各ホワイトランは、延長の可能性に関して検査される。延長の可能性は、pのラベルが付された所定のWRが、最大白長方形(Maximal White Rectangle、MWR)を形成できるか否かといった態様で表わされる。延長の可能性が偽である場合には、pが既に最大のものであり、pは、アクティブINPUT LISTから削除されるとともに、アクティブRESULT LISTに書き込まれる。延長の可能性が真である場合には、pで始まる全てのMWRが構成されるまで、延長のための検査が繰り返される。その後、pがINPUT LISTから削除され、pから得られる全てのMWRが、アクティブRESULT LISTに書き込まれる。INPUT LISTからの全ての白長方形が処理されると、RESULT LISTに全てのMWRが含まれるようになる。アルゴリズムの効率を高めるため、INPUT LISTにおいてyの値がソートされる。まず最初に、水平方向のWR、すなわち高さよりも幅が大きいホワイトランに関してアルゴリズムが適用される。そして、画像を90°回転させた後、垂直方向のWRに対してアルゴリズムを適用することができる。
一実施形態において、最大長方形を構成するためのアルゴリズムは、以下の通りである。まず、長方形データがリンクリストとして記憶される。この場合、長方形データには、少なくとも長方形の頂点の座標が含まれている。INPUT LISTおよびRESULT LISTも、リンクリストとして記憶される。このリンクリストには、少なくとも3つの要素、すなわち、白長方形の数、リンクリスト内の最初および最後の要素のポインタが含まれている。次に、以下のステップが実行される。すなわち、INPUT LISTをアクティブにして、RESULT LISTを開始し、選択された長方形の一次的な座標のためのBUFFERを開始する。順序付けられたアクティブなINPUT LISTにあるもののうち、pのラベルが付された最初の白長方形から始める。リスト中の次の白長方形にpのラベルが付される。INPUT LIST中の各白長方形毎に、pが延長の可能性を有しているか否かを検討する。アクティブな白長方形pに関し、順序付けられたアクティブなINPUT LIST中で、以下の条件を満たすpnj,j=1,....,lのラベルが付された最初のものを見つける。
Figure 0004390523
Figure 0004390523
Figure 0004390523
この検索により、{pn1,pn2,....pnl}のセットが得られる。このセット{pn1,pn2,....pnl}が空でない場合にだけ、pが延長の可能性を有していると言われる。
が延長の可能性を有していない場合には、pが最大白長方形である。pをRESULT LISTに書き込んで、pをINPUT LISTから削除し、pに関して処理を進める。
が延長の可能性を有している場合には、延長処理をpに適用する。pに関して処理を進める。なお、pがそれ自体最大であっても延長の可能性を有し得る。延長処理は以下の通りである。まず、pが延長の可能性を有していると仮定すると、セット{pn1,pn2,....pnl}が存在する。延長処理は、{pn1,pn2,....pnl}の各要素に対して一貫して適用される。長方形pnj,j=1,....,lを用いて延長可能な白長方形pに関して、以下の座標を有する新たな長方形p1,njを構成する。
Figure 0004390523
Figure 0004390523
Figure 0004390523
Figure 0004390523
1,nj,j=1,....,lの座標を「座標」バッファに書き込む。ここで、p1,njに関して延長可能性の検査を繰り返す。検査が真である場合には、p1,njが最大である。p1,njをRESULT LISTに書き込み、さもなければ、p1,njを延長する。
延長処理をp1,njに適用する前に、吸収作用に関してpおよびpnjをチェックする。p1,njを用いた吸収作用に関するpおよびpnjの検査は、以下の通りである。吸収作用とは、p(pnj)又はこれらの両方が、p1,njに完全に含まれている状態を意味する。座標において、このことは、以下の状態を意味する。
Figure 0004390523
Figure 0004390523
ここで、k=1,n,j=1,...,lである。
状態がpに関して真である場合には、pはp1,njによって吸収される。pをINPUT LISTから除去する。状態がpnjに関して真である場合には、pnjはp1,njによって吸収される。pnjをINPUT LISTから除去する。
アルゴリズムでは、長方形の幅が高さよりも大きく、したがって、長方形が、主として水平方向であると仮定される。垂直方向のMWRを構成するため、オリジナルの2値画像が90°時計周りに回転される。回転された画像に関して前述したアルゴリズムが繰り返される。その結果、オリジナル画像において全ての垂直方向のMWRが構成される。
図6は、最大白長方形の構成を示している。水平方向のx軸および垂直方向のy軸に沿って、ピクセル座標が表わされている。4つのホワイトラン61が、図の左側に示されている。ホワイトラン(WR)は、その上角部および下角部の座標が、以下の座標に対応する長方形として描かれている。
Figure 0004390523
Figure 0004390523
Figure 0004390523
Figure 0004390523
これらのホワイトランによって全ての最大白長方形が構成される。図の右側部分には、結果として得られる5つの最大白長方形(MWR)が、62、63、64、65、および66で示されている。図示された5つのMWRは、図の左側部分に示されたWRにおけるMWRの完全なセットである。構成アルゴリズムは以下の通りである。
INPUT LISTに4つのホワイトラン61を含ませる。INPUT LISTからの最初の要素は、WR((10,1),(50,2))である。WRにpのラベルを付ける。前述したように、延長の可能性に関してpを検査する。延長における第1の候補は、WR((10,2),(50,3))である。WRにpn1のラベルを付ける。前述した延長に関する方式にしたがってpn1を用いてpを延長する。これにより、座標((10,1),(50,3))を有する新たな長方形p1,n1が与えられる。p1,n1を用いた吸収作用に関してpおよびpn1を検査する。以下の通り、吸収検査により、pおよびpn1の両方が、p1,n1によって吸収される。したがって、pおよびpn1をINPUT LISTから削除する。p1,n1に関して処理を進める。延長の可能性に関してp1,n1を検査する。これにより、第1の候補WR((5,3),(30,4))が与えられる。WRにpt1のラベルを付ける。延長に関する方式にしたがってpt1を用いてp1,n1を延長する。その結果、座標((10,1),(30,4))を有する新たな長方形p(1,n1),t1が得られる。p(1,n1),t1を用いた吸収作用に関してpt1を有するp1,n1を検査する。検査は失敗する。
(1,n1),t1に関して延長の可能性の検査を繰り返す。検査は失敗する。すなわち、p(1,n1),t1は延長の可能性を有していない。このことは、p(1,n1),t1が最大であることを意味する。座標((10,1),(30,4))を有するp(1,n1),t1をRESULT LISTに書き込む。
1,n1に関して再び処理を進め、延長の可能性に関してp1,n1を検査する。第2の候補WR((40,3),(60,4))が見出される。WRにpt2のラベルを付ける。延長に関する方式にしたがってpt2を用いてp1,n1を延長する。その結果、座標((40,1),(50,4))を有する新たな長方形p(1,n1),t2が得られる。
(1,n1),t2を用いた吸収作用に関してpt2を有するp1,n1を検査する。検査は失敗する。すなわち、吸収がない。p(1,n1),t2に関して延長の可能性の検査を繰り返す。検査は失敗する。すなわち、p(1,n1),t2は延長の可能性を有していない。このことは、p(1,n1),t2が最大であることを意味する。座標((40,1),(50,4))を有するp(1,n1),t2をRESULT LISTに書き込む。
延長の可能性に関してp1,n1を再び検査する。検査は失敗し、p1,n1が最大である。座標((10,1),(50,3))を有するp1,n1をRESULT LISTに書き込む。
INPUT LISTに戻る。この段階におけるINPUT LISTは、2つのホワイトラン、すなわち、WR:((5,3),(30,4)),WR:((40,3),(60,4))を含んでいる。WRから開始して、これにpのラベルを付ける。pに関して延長の可能性の検査を繰り返す。検査は失敗し、pが最大である。座標((5,3),(30,4))を有するpを、RESULT LISTに書き込む。INPUT LISTからpを除去する。WRに関して処理を進め、これにpのラベルを付ける。pに関して延長の可能性の検査を行なうことにより、pが最大であることが分かる。座標((40,3),(60,4))を有するpをRESULT LISTに書き込む。INPUT LISTからpを除去する。最終的に、RESULT LISTは、5つの最大白長方形、すなわち、図6に64で示されるMWR:((10,1),(50,3))と、62で示されるMWR:((10,1),(30,4))と、63で示されるMWR:((40,1),(50,4))と、65で示されるMWR:((5,3),(30,4))と、66で示されるMWR:((40,3),(60,4))とを含んでいる。
図7は、本発明にかかる方法における次のステップ、すなわち、最大白長方形をオーバーラップさせるクリーニングステップを示している。このクリーニングステップにおいて、オーバーラップする複数の最大白長方形は、後で詳述するように、オリジナルの最大白長方形の最も関連する特性を組み合わせる、1つの所謂「情報提供最大長方形」(Informative Maximal Rectangle、IWR)に統合される。
クリーニングは、サイズおよび空間的な関係をチェックする等のステップを更に含んでいる。図7の上側の部分は、一例として、2つの最大白長方形MWR1およびMWR2を示している。これらの対は、図の下側の部分に示されるように、クリーニングステップにおいて、1つの情報提供白長方形IWRに統合される。オーバーラップを検知する処理および統合する処理は、関連する対をもはや形成することができなくなるまで繰り返される。対を形成する基準は、オーバーラップ領域のサイズであっても良い。
また、クリーニングステップは、薄い或は短い長方形、すなわち、アスペクト比が所定の値を下回る長方形を除去することを含んでいても良い。除去する基準は、画像のタイプに基づいていても良い。例えば、所定のピクセル数を下回る幅は、テキストラインのセパレータを示し、フィールドの分離に関係しない。特定の値を下回る長さは、フィールドの期待されるサイズに関連しない。
クリーニングステップのためのアルゴリズムは、以下の通りである。クリーニング処理の開始は、図5および図6に関して前述したように構成されるMWRのセット全体である。クリーニング処理は、情報を提供しないMWRを廃棄するべく適用される。このため、情報を提供しないことに関する尺度が規定される。例えば、長いMWRは、短いものよりも多くの情報を与える。低いアスペクト比は、情報提供量が少ない正方形を多かれ少なかれ示す。また、例えば2つのテキストラインを分離する極めて薄い長方形は、除外しなければならない。最初に、全てのMWRは、その高さと幅との間の比が計算されることにより、水平方向、垂直方向、あるいは正方形であるとして分類される。正方形のMWRは、その情報提供性が無いことにより、削除される。残りの水平方向および垂直方向のMWRに関しては、以下の3つのステップから成るクリーニング技術が適用される。
長さまたは幅が所定の値を下回る各MWRが削除される。
長い辺の長さを短い辺の長さで割った比として規定されるアスペクト比(AR)が、所定の値を下回る各MWRが削除される。
互いにオーバーラップする水平方向(または垂直方向)のMWR((x,y),(x,y))および水平方向(または垂直方向)のMWR((a,b),(a,b))から成る各対毎に、以下の座標を用いて、情報提供白長方形IWRが構成される。
(a)水平方向のオーバーラップ
Figure 0004390523
Figure 0004390523
Figure 0004390523
Figure 0004390523
(b)垂直方向のオーバーラップ
Figure 0004390523
Figure 0004390523
Figure 0004390523
Figure 0004390523
この処理は、オーバーラップするMWRから成る全ての対に関して繰り返される。ここで、MWRのセットは、情報提供白長方形IWRを含んでいる。これらのIWRは、レイアウト要素に対応する複数のフィールドに、画像を分割するアルゴリズムのための開始点を形成する。IWRは、有力なフィールドセパレータであり、そのため、「分離要素」と呼ばれる。アルゴリズムは、IWRを使用して、画像の地理的記述へと更に処理するためにグラフを構成する。
図8は、新聞の一面におけるそのようなグラフを示している。画像は、ダウンサンプリングされた新聞の一面のデジタル画像80を示している。オリジナルテキストは、図2に対応するダウンサンプリングされたバージョンにおいて黒で見ることができる。分離要素を構成する情報提供長方形IWRが、灰色で示されている。グラフの構成のため、水平方向および垂直方向の白IWRによって構成される分離要素の交差部が決定される。2つのIWRの交点は、頂点すなわちグラフの頂点81を示す小さな黒色正方形で表わされている。一面内でフィールドを分離するラインを示す辺82は、頂点81から成る対を「フィールドセパレータ」によって接続することにより構成される。グラフの辺82が白で示されている。辺の2つの頂点間の距離、すなわち長さは、更なる処理のために加重として辺に対して割り当てられる。他の実施形態においては、異なるパラメータが使用され、例えばピクセルの色等の加重が割り当てられる。グラフを構成するためのアルゴリズムは、以下の通りである。
初めに、IWRに関して以下の表記法および定義が与えられる。R={r,...,r}が空でなく、また全てのIWRの有限のセットが所定の画像lから得られると仮定する。ここで、各IWRは、それぞれ、その左上角部および右下角部のx座標およびy座標((x (τ),y (τ)),(x (τ),y (τ))),τ=1,2,...,mによってによって特定される。各長方形rτは、その高さと幅との比に基づいて、水平方向、垂直方向、あるいは正方形として分類される。H={h,...h},V={v,...,v},S={s,...,s}は、以下の関係を成すように、水平方向、垂直方向、および正方形のIWRのサブセットを示す。
Figure 0004390523
Figure 0004390523
ここで、以下が仮定される。
Figure 0004390523
また、Sの内容は無視され、HおよびVのサブセットだけが使用される。これは、多くの場合、テキストブロックまたは非テキストブロックの境界を形成する白空間が、細長い垂直方向または水平方向領域であるといった考えに基づいている。hが座標((x,y),(x,y))を有するHの一部であるとし、また、vが座標((a,b),(a,b))を有するVの一部であるとする。この時、以下の条件の下、hおよびvはオーバーラップを有する。
Figure 0004390523
オーバーラップの場合のhおよびvの交点により、以下の座標によって規定される唯一の点Pが得られる。
Figure 0004390523
IWRにおいては、考えられる全てのタイプのオーバーラップから、2つのオーバーラップだけが生じる。すなわち、長方形となるオーバーラップと、点となるオーバーラップだけが生じる。ラインのオーバーラップは生じない。これは、ラインのオーバーラップがMWRの概念と矛盾するからである。
図9は、最大長方形の2つのタイプの交差部を示している。グラフを構成するため、垂直方向および水平方向の情報提供最大長方形の交点が決定され、これにより、グラフの頂点の位置が見出される。すなわち、頂点の正確な座標が決定される。図の左側部分は、垂直方向のIWRであるvと、水平方向のIWRであるhとの交差部の第1のタイプを示している。このタイプの交差では、交差部の中心が点Pである長方形領域88が形成される。図の右側部分は、垂直方向のIWRであるvと水平方向のIWRであるhとの交差部の第2のタイプを示している。このタイプの交差では、交差部の中心がP’である1つの交点89が生じる。
交点に基づいてグラフを構成するアルゴリズムは、以下の通りである。
P={p,...,p}は、垂直方向のIWRおよび水平方向のIWRの全ての交点のセットを示している。この場合、Pの中の各pは、そのx座標およびy座標(x,y)によって特定される。ここで、p=1,....Nである。セットPが見出され、G=(X,A)がPに対応する方向性が無いグラフであるとする。グラフG=(X,A)は、交点に対して直接に関係する有限の数の頂点Xと、交点間の関係を描く有限の数の辺Aとから成る。これは、数学的には、以下のように表わされる。
Figure 0004390523
ここで、
Figure 0004390523
Figure 0004390523
ここで、dijは、点iと点jとの間のユークリッド距離を示している。また、4連鎖接続(4−chain connected)は、4つの可能な移動方向で長方形ブロックの頂点が接続されることを意味している。前述した2つの点i,jは、mindijを有する4つの接続連鎖コードによって1方向に動き回ることにより、これらの点に達し得る場合には、4連鎖接続である。
ここで、構成されたグラフを更に処理して、グラフの内部の領域をテキストブロックとして分類し、あるいは、画像のタイプに応じて同様の分類を行なっても良い。一実施形態において、グラフは、解析において、例えば黒ラインまたは破線/点線等のパターン化されたラインといったフォアグラウンドセパレータを含めることにより増大される。また、検出される写真またはグラフィックオブジェクトのエッジを、解析に含めることもできる。
また、この分割方法は、フォアグラウンドセパレータを除去するステップを含んでいても良い。まず最初に、フォアグラウンドセパレータが認識されて、1つのオブジェクトとして再構成される。パターン化されたラインを構成する成分は、要素ヒューリスティックス、空間的関係ヒューリスティックス、およびラインヒューリスティックスを解析することにより、すなわち、1方向で組み合わされた要素を構築し且つそれがラインとして分類するか否かを検出することにより接続される。パターン化されたラインから実線を再構成するための更なる方法は、ダウンサンプリングおよび/または「Document analysis system(文書解析システム)」IBM J.Res.Dev 26(1982)647−656において、K.Y.Wong,R.G.Casey,F.M.Wahlにより説明されている、ラン・レングス・スムージング・アルゴリズム(RLSA)使用することである。フォアグラウンドセパレータの検出後、フォアグラウンドセパレータは、バックグラウンドピクセルに取って代えられる。その結果、より大きな最大白長方形を構成することができ、あるいは、バックグラウンドピクセル特性を使用して、バックグラウンドセパレータを見出す任意の他の適した方法をサポートすることができる。
図11は、フィールドセパレータに基づいてフィールドを規定する方法に関する図を示している。
基本的に、この方法のタスクは、画像内でフィールドを規定することである。この場合、フィールドは、新聞画像内のテキストブロック等といった、相互に関連するフォアグラウンド要素を含む領域として規定される。画像内のフィールドは、所定の方向を有し且つ厚さが0である幾何学的なラインであると理解されるフィールドセパレータによって分離される。フィールドセパレータは、分離方向、一般には水平または垂直方向で、長方形状を有する連結されたバックグラウンドピクセルの領域に対応している。フィールドセパレータの交差点は、ノードと呼ばれている。本方法においては、最初に、画像内のフィールドセパレータが検出され、その後、フィールドセパレータの解析に基づいて、フィールドが決定される。
SEPARステップ95においては、画像が解析されることにより、フィールドセパレータが得られる。フィールドセパレータは、前述した最大白長方形を使用する解析に基づいていることが好ましい。最大白長方形を使用する解析では、辺と辺が接続する頂点とを有するグラフが得られる。本発明の方法において、フィールドセパレータおよびノードは、グラフの辺および頂点にそれぞれ対応している。また、フィールドセパレータを決定するために、他の適した方法を使用しても良い。なお、セパレータを得るための処理は、先立って既に終了してしまっていても良い。すなわち、画像は、既にセパレータを示す更に高いレベルでの構造の表示である。
このようにして見つけられたフィールドセパレータは、例えば走査のアライメントミス等により、基本的な水平方向および垂直方向から僅かに外れるかもしれず、更なる処理ステップにおいてエラーを招く可能性がある。したがって、この時点で、フィールドセパレータのx座標またはy座標の小さなズレを0にする、「スナップ・トゥ・グリッド(snap to grid)」ステップが処理に加えられても良い。
TESSステップ96においては、ビルディングブロックレベルへの変換が行なわれる。このステップにおいては、フィールドセパレータが画像の外側の境界に達するまでフィールドセパレータを延長することにより、画像内のフィールドのビルディングブロックを形成する基本的な複数の長方形に画像が分割される。このようにして、所謂テセレーショングリッドが形成され、(延長された)フィールドセパレータによって囲まれた領域が、基本長方形として規定される。
テセレーショングリッドの形成については、図12および図13を参照しながら詳細に後述する。
基本的に、ここで、方法は、フィールドセパレータによって分離されない基本長方形をフィールドに連結する。この処理を行なうための特に有効な方法は、以下のステップを含んでいる。
MATRIXステップ97においては、テセレーション画像の新たな表示が、マトリクスマップの形態で形成される。マトリクスマップにおいて、基本長方形およびテセレーショングリッド要素は、マトリクス要素によって表わされる。このステップについては、図14を参照しながら更に後述する。
CONNステップ98においては、基本長方形が連結され、これにより、連結基本長方形の領域が形成される。基本長方形は、これらがラインの延長部分によって分離される場合に、連結されていると見なされ、フィールドセパレータに関連付けられたライン部分によって分離される場合に、連結されていないと見なされる。連結成分アルゴリズムは、図14に関して後述するように、このステップで使用される。
このステップでこの時に決定される連結基本長方形のセットは、オリジナル画像のフィールドに対応している。
NODEステップ99においては、オリジナル画像内においてフィールドの位置を規定するために、CONNステップで見出されたフィールドを境界付けるオリジナルノードが検索される。
最後に、FIELDステップ100において、先のステップで検索されたオリジナルノードは、連結基本長方形の各領域毎にフィールドを規定するデータ構造に組み合わされる。これにより、マトリクス表示が変換されてピクセルドメインに戻される。このステップについては、図15から図17を参照しながら更に後述する。
ここで、アルゴリズムのTESSステップについて更に詳しく説明する。
図12は、画像の表示を示している。画像は、フィールド109を囲むフィールドセパレータ110に関連付けられたラインによって表わされている。フィールドセパレータ110は、バックグラウンド、通常は新聞の白を表わしており、黒ラインとして示される。例えばこの例ではフィールド109であるフィールドセパレータ間のフォアグラウンド領域は、フィールドとして規定される。実行されるタスクは、画像内のフィールドを識別することである。
図13は、図12の入力画像に基づく画像上のテセレーショングリッドを示している。テセレーショングリッドを形成するため、全てのフィールドセパレータ(図13の連続ライン110)が画像の境界まで延長された。その結果、画像は、4つのXセグメントΔXからΔXの垂直ライン、および6つのYセグメントΔYからΔYの水平ラインによって小分割される。フィールドセパレータ110の延長が、破線111によって示されている。例えば、ノード2、6はフィールドセパレータの実際のノードであり、延長により、ノード2とノード6との間に仮想ノード116が形成される。ノード2とノード6との間のラインの直ぐ右側の領域には、2つの基本長方形が形成される。フィールドセパレータの延長に基づくラインによって形成されるテセレーショングリッド内の全ての長方形は、所謂基本長方形である。例えば、基本長方形113は、影が付けられた領域によって示される連結領域の一部である。前記連結領域は、フィールドセパレータによって基本長方形113から分離されない全ての基本長方形によって構成される。連結基本長方形の領域は、図14に関して後述するように、簡単に構成することができる。
なお、このような方法は、実質的に長方形構造ではない領域にも拡大して適用することができることに留意されたい。平面グラフの区分的線形化および/または弾力的変形は、「湾曲した境界付けられた」領域を含む画像を処理するために適用できる。
基本的なアルゴリズムのMATRIXステップにおいて、図13に示されるテセレーション画像は、マトリクス表示に変換される。このマトリクス表示においては、全ての基本長方形および全てのラインセグメントが、マトリクス要素に関連付けられる。テセレーション画像は、水平方向で横切る場合には、4つの基本長方形とフィールドセパレータに関連付けられた5つの垂直ラインとにまたがる。したがって、マトリクス表示は9個の縦列を有する。テセレーション画像は、垂直方向で横切る場合には、6つの基本長方形と7つの水平ラインとにまたがる。したがって、マトリクス表示は13個の横列を有する。
最初に、全てのマトリクス要素に値1が与えられる。その後、全てのマトリクス要素は、オリジナル画像のフィールドセパレータに関連付けられているか否かが体系的にチェックされる。関連付けられている場合には、マトリクス要素の値1が値0に変更される。したがって、フォアグラウンド要素が1で表わされ、バックグラウンド要素が0で表わされる。
また、フィールドセパレータのリストをチェックすることにより、マトリクス要素が0に変更されても良い。フィールドセパレータのリストをチェックすることは、通常、演算を殆ど必要としない。
図14は、結果として得られる図13の画像のマトリクスマップ120を示している。例えば、基本長方形113は、ここでは、マトリクスの1つの要素123に換算され、また、延長されたラインセグメント111は、ここでは、マトリクスの要素121となる。ノード2、6は、要素124、125で表わされている。また、仮想ノード116に対応するマトリクス要素も示されている。この要素は値1を有している。なぜなら、この要素は、フィールドセパレータの一部だからである。なお、地理的形状は保たれていないことに留意されたい。これは、ノード間のラインの長さが考慮されていないためである。画像およびテセレーショングリッドの表示におけるオリジナルノード間の関係は、図17を参照して後述するように個別に記憶される。
領域109(図12)は、全て1となる要素から成る影付き領域122として図14に示されている。
アルゴリズムのCONNステップにおいて、形成されたマトリクスマップには、その後、1の値を有する連結要素のセットをマトリクス内で見つけるための連結成分処理が施される。連結成分アルゴリズムは、文献で広く知られているため、本明細書では、これ以上説明しない。
以下、アルゴリズムのNODEステップについて更に詳細に説明する。一例として、図15は、図14のマトリクス内の1つの連結領域130を示している。図示のマトリクスは、前述したテセレーショングリッドに基づいているが、連結成分処理によって検出される連結領域130だけが、影付き領域で示されている。連結領域の構成要素は、値1を有するとともに、0の値を有する要素によって囲まれている。以下のステップにおいて、フィールドは、連結領域の周囲の外形に基づいて規定される。
図16は、連結領域の外形140を示している。この外形は、連結領域130に対応する値0を有する領域が、値1を有する影付き領域によって取り囲まれることにより示される。外形を見出すため、最初に、領域130が1ピクセル分だけ拡張される。その後、オリジナル領域が取り去られる。
図17はノードマトリクスを示している。このマトリクスは、マトリクスマップと同じ大きさを有している。要素の値は、ノード番号(0から19)または空のいずれかである。ノード番号は、図12に示されるオリジナル画像のノードを参照する。先に得られた連結領域130の外形140は、ノードマトリクス上に描出され、影付き領域141で示されている。
ノードマトリクスは、以下のように構成される。最初に、要素の値が「空」に設定される。その後、例えばグラフの頂点リストに基づいて、フィールドセパレータの実際のノードがマトリクスに入力される。
タスクは、領域130の外形140に属する全てのノードを抽出することである。外形内に存在するノードは、外形をトレースしてその中のノードを表示することにより検索される。
外形をトレースした後、ノードは、アルゴリズムのFIELDステップにおいて、オリジナル画像表示に組み合わせられる。必要に応じて、「スナップ・トゥ・グリッド(snap−to−grid)」処理の逆が適用され、ノード番号が、再びノードのオリジナルセットと一体になる。最後に、必要に応じて、ノードおよび/またはフィールドの辺が、例えば時計周り方向で順序付けられる。この順序付けは、領域演算または表示のために必要とされても良い。
無論、ノード抽出およびフィールド決定は、画像内の全てのフィールドに関して行なわれなければならない。
なお、領域が互いに取り囲むことにより、分離した多角形、例えばテキスト包囲体を形成しても良いことに留意されたい。複数の分離した多角形によって境界付けられる領域に関して演算できるように、これらの多角形を連結する知られている技術が使用される。多角形の2つの外形は、所謂「0領域ブリッジ」により、実際には2つのラインセグメントにより連結される。ラインセグメントの一方は内側の外形に入り、ラインセグメントの他方は内側の外形から出る。
図10は、画像を分割するための本発明に係る方法が実施される装置を示している。この装置は、デジタル画像を入力するための入力ユニット91を有している。入力ユニットは、紙からの画像を走査する電子光学スキャナ等の走査ユニット、またはインターネット等のネットワークからの画像を受けるデジタル通信ユニット、または光ディスクドライブ等の記録キャリアからデジタル情報を検索する再生ユニットを備えていても良い。入力ユニット91は、記憶ユニット92と協働する処理ユニット94に接続されている。処理ユニットは、汎用コンピュータ中央処理ユニット(CPU)および支援回路を備えていても良く、前述した分割を行なうためのソフトウェアを使用して動作する。特に、ソフトウェアは、テセレーショングリッドを構成するためのモジュール(図面には単独で示されていない)を有している。このモジュールは、フィールドセパレータを画像の外側の境界まで延長して基本長方形を構成し、フィールドセパレータによって分離されない隣り合う基本長方形同士を連結することによりフィールドを構成することによって、テセレーショングリッドを構成する。また、ソフトウェアは、テセレーショングリッドを表示するマトリクスマップを構成し、且つテセレーショングリッド内のノードに関連するノードマトリクスを構成するモジュールを有している。
処理ユニットは、キーボード、マウス装置、またはオペレータボタン等の制御手段を備えたユーザインタフェース95を更に有していても良い。処理ユニットの出力部は、ディスプレイユニット93に接続されている。一実施形態において、ディスプレイユニットは、処理された画像を紙上に出力するための印刷ユニット、または磁気テープや光ディスク等の記録キャリア上に分割された画像を記憶する記録ユニットである。
分割されるデジタル画像として、新聞の一面の実施形態によって本発明を主に説明してきたが、本発明は、例えばIC設計のためのレイアウト画像における電気回路や、シティーマップ上の通りや建物など、バックグラウンド上にフィールドを備える任意のデジタル表示にも適している。また、最短のサイクルによって分割を実行するための開始点としてのグラフは、MWRシステムに基づく前述したグラフとは異なる方法で構成されても良い。例えば、グラフは、前述したAntonacopoulosによる論文に記載されたタイルを使用して構成されても良い。また、グラフの辺に割り当てられる加重は、必ずしも距離でなくても良い。加重は、最短サイクルに寄与するように対応して選択されなければならない。例えば、加重は、タイルの表面であっても良い。なお、この明細書において、動詞「備える」、「含む」、「有する」及びその活用の用法は、記載された要素以外の他の要素またはステップの存在を排除しない。また、要素に先立つ単語「1つの」は、そのような要素が複数存在することを除外せず、任意の参照符号は、特許請求の範囲を限定しない。また、本発明、および全てのユニット、または前述した手段は、適当なハードウェアおよび/またはソフトウェアによって実施することができ、幾つかの「手段」または「ユニット」は、同じ要素によって表わすことができる。また、本発明の範囲は実施形態に限定されず、本発明は、前述した個々の新規な特徴、全ての新規な特徴、または特徴の組み合わせにある。
典型的な分割方法の概略を示している。 サンプルとしての日本の新聞の一部を示している。 1方向に沿うオブジェクトの統合を示している。 オブジェクトの分割および2方向統合を示している。 ホワイトランからの最大長方形の構成を示している。 最大白長方形の構成を示している。 最大白長方形をオーバーラップさせるクリーニングを示している。 新聞の一面上のグラフを示している。 最大長方形の2つのタイプの交差部を示している。 画像を分割するための装置を示している。 フィールドセパレータに基づいてフィールドを規定するための方法に関する図を示している。 画像の表示を示している。 画像のテセレーショングリッドを示している。 テセレーショングリッドのマトリクスマップを示している。 マトリクス内の1つの連結領域を示している。 連結領域の外形を示している。 ノードマトリクスを示している。
11 入力画像
12 CCオブジェクト
13 レイアウトオブジェクト
14 CCAモジュール
15 LAモジュール
16 AFモジュール
17 記事
21 垂直方向読み方向
22 水平方法読み方向
23 黒ライン
31 最初の解析ステップ
32 算定閾値
33 分類ステップ
34 補正された連結成分
35 統合ステップ
36 オブジェクト
37 テキスト統合ステップ
38 テキストブロック
41 画像のグラフ
42 フィールド検出ステップ
43 連結成分
44 ステップ
45 読む順番
46 ライン形成ステップ
47 テキストブロック
51 ホワイトラン
52 最大白長方形
53 フォアグラウンド領域
61 ホワイトラン
62、63、64、65、66 最大白長方形
80 デジタル画像
81 グラフの頂点
82 辺
88 長方形領域
89 交点
91 入力ユニット
92 記憶ユニット
93 ディスプレイユニット
94 処理ユニット
95 ユーザインタフェース
96 TESSステップ
97 MATRIXステップ
98 CONNステップ
99 NODEステップ
100 FIELDステップ
109 フィールド
110 フィールドセパレータ
111 ラインセグメント
113 基本長方形
116 仮想ノード
120 マトリクスマップ
121、123、124、125 要素
122、141 影付き領域
130 連結領域
140 外形

Claims (12)

  1. ピクセルから成る複合画像を、画像のレイアウト要素に対応する複数のフィールドに分割する方法であって、前記ピクセルが、画素の強度および/または色を示す値を有し、
    画像の隣り合うピクセルの領域に対応し且つ画像のバックグラウンドを示す所定の特性を有するフィールドセパレータを見出すステップを含み、前記分割する方法がさらに、
    少なくとも1つの分離方向に沿って複合画像のエッジまで前記フィールドセパレータを延長するステップと、
    前記複合画像の前記延長されたフィールドセパレータに対応するラインから構成されるテセレーショングリッドを構成するステップと、
    前記テセレーショングリッドのラインによって囲まれる領域である、複数の基本長方形を構成するステップと、
    互いに隣り合い且つ1つのフィールドセパレータによって分離されない基本長方形同士を連結することによりフィールドを構成するステップとを含むことを特徴とする方法。
  2. 基本長方形を構成する前記ステップが、要素の2次元配列によって前記テセレーショングリッドを表わすマトリクスマップを構成することを含み、各要素は、テセレーショングリッドの基本長方形またはラインセグメントのいずれかに対応し、1つの要素が、フィールドセパレータに対応するラインを表わすための所定の第1の値、または基本長方形あるいは延長されたフィールドセパレータに対応するラインを表わすための前記第1の値と異なる第2の値を有している、請求項1に記載の方法。
  3. フィールドを構成する前記ステップが、前記第2の値を有するマトリクスマップ内の要素同士を連結することを含む、請求項2に記載の方法。
  4. 前記フィールドセパレータが連結する点でノードが規定され、フィールドを構成する前記ステップが、前記テセレーショングリッドに対応し且つ前記テセレーショングリッド内のノードを示す要素を含むノードマトリクスを構成することを含む、請求項1から3のいずれか一項に記載の方法。
  5. フィールドを構成する前記ステップが、マトリクスマップ内の連結された要素の各領域の周囲に対応する外形を構成し、該外形を前記ノードマトリクス上に描出することによりフィールドを規定するノードを見出すことを含む、請求項4に記載の方法。
  6. 前記外形が、前記領域の要素を外側へ1ピクセル分だけ拡張して、拡張された領域を取り去ることにより構成される、請求項5に記載の方法。
  7. 前記フィールドセパレータのx座標またはy座標の小さなズレを0にすることを含む、請求項1からのいずれか一項に記載の方法。
  8. ピクセルから成る画像を複数のフィールドに分割するためのコンピュータプログラム製品であって、請求項1からのいずれか一項に記載の方法をプロセッサに実行させるようにプログラムが動作する、コンピュータプログラム製品。
  9. ピクセルから成る複合画像を、画像のレイアウト要素に対応する複数のフィールドに分割する装置であって、前記ピクセルが、画素の強度および/または色を示す値を有し、前記分割する装置が、
    画像を入力するための入力ユニット(91)と、
    隣り合うピクセルの領域に対応し且つ画像のバックグラウンドを示す所定の特性を有するフィールドセパレータを見出す処理ユニット(94)とを備え、
    前記処理ユニット(94)が、
    少なくとも1つの分離方向に沿って複合画像のエッジまで前記フィールドセパレータを延長し、
    前記複合画像の前記延長されたフィールドセパレータに対応するラインから構成されるテセレーショングリッドを構成し、
    前記テセレーショングリッドのラインによって囲まれる領域である、複数の基本長方形を構成し、
    互いに隣り合い且つ1つのフィールドセパレータによって分離されない基本長方形同士を連結することによりフィールドを構成するように、構成されていることを特徴とする装置。
  10. 前記処理ユニット(94)が、
    要素の2次元配列によって前記テセレーショングリッドを表わすマトリクスマップを構成し、各要素が、テセレーショングリッドの基本長方形またはラインセグメントのいずれかを表わし、1つの要素が、フィールドセパレータに対応するラインを表わすための所定の第1の値、または基本長方形あるいは延長されたフィールドセパレータに対応するラインを表わすための更なる異なる値を有するように構成されている、請求項に記載の装置。
  11. 前記処理ユニット(94)が、
    前記テセレーショングリッドに対応し且つ前記テセレーショングリッド内のノードを示す要素を含むノードマトリクスを構成するように構成されている、請求項または10に記載の装置。
  12. 分割後に画像のフィールドを表示するユニット(93)を備えている、請求項から11のいずれか一項に記載の装置。
JP2003364142A 2002-11-22 2003-10-24 最小領域による合成画像の分割 Expired - Fee Related JP4390523B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP02079882 2002-11-22

Publications (3)

Publication Number Publication Date
JP2004282701A JP2004282701A (ja) 2004-10-07
JP2004282701A5 JP2004282701A5 (ja) 2009-03-19
JP4390523B2 true JP4390523B2 (ja) 2009-12-24

Family

ID=32338099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003364142A Expired - Fee Related JP4390523B2 (ja) 2002-11-22 2003-10-24 最小領域による合成画像の分割

Country Status (4)

Country Link
US (1) US7336825B2 (ja)
JP (1) JP4390523B2 (ja)
AT (1) ATE378648T1 (ja)
DE (1) DE60317455T2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4538214B2 (ja) * 2002-11-22 2010-09-08 オセ−テクノロジーズ・ベー・ヴエー グラフによる画像分割
US20080288530A1 (en) * 2007-01-17 2008-11-20 Sparta Systems, Inc. User-Defined Fields with Automatic Numbering
US8760453B2 (en) * 2010-09-01 2014-06-24 Microsoft Corporation Adaptive grid generation for improved caching and image classification
KR101812380B1 (ko) 2012-01-23 2017-12-26 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 공식 검출 엔진
US9330070B2 (en) 2013-03-11 2016-05-03 Microsoft Technology Licensing, Llc Detection and reconstruction of east asian layout features in a fixed format document
US20140258852A1 (en) * 2013-03-11 2014-09-11 Microsoft Corporation Detection and Reconstruction of Right-to-Left Text Direction, Ligatures and Diacritics in a Fixed Format Document
US9396177B1 (en) * 2014-02-10 2016-07-19 Jpmorgan Chase Bank, N.A. Systems and methods for document tracking using elastic graph-based hierarchical analysis
US10839573B2 (en) * 2016-03-22 2020-11-17 Adobe Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8502643A (nl) * 1985-09-27 1986-04-01 Oce Nederland Bv Werkwijze voor het genereren van lijnstukken.
US6633669B1 (en) * 1999-10-21 2003-10-14 3M Innovative Properties Company Autogrid analysis

Also Published As

Publication number Publication date
US7336825B2 (en) 2008-02-26
DE60317455T2 (de) 2008-09-18
DE60317455D1 (de) 2007-12-27
JP2004282701A (ja) 2004-10-07
US20040105583A1 (en) 2004-06-03
ATE378648T1 (de) 2007-11-15

Similar Documents

Publication Publication Date Title
JP2700130B2 (ja) 手書き文字の認識システム及び認識方法
JP5854802B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
JP3950777B2 (ja) 画像処理方法、画像処理装置および画像処理プログラム
JPH0652354A (ja) スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置
JPH05500874A (ja) ディジタル化書類における選択本文の自動抽出のための多角形準拠式方法
JP3204259B2 (ja) 文字列抽出方法、手書き文字列抽出方法、文字列抽出装置、および画像処理装置
EP1017011A2 (en) Block selection of table features
JP4538214B2 (ja) グラフによる画像分割
JP4077904B2 (ja) 情報処理装置およびその方法
JP4390523B2 (ja) 最小領域による合成画像の分割
US7529407B2 (en) Segmenting an image via shortest cycles
JP2004282701A5 (ja)
JP3172498B2 (ja) イメージ認識用特徴値抽出方法、およびその装置、イメージ解析プログラムを格納する記憶媒体
EP1439485B1 (en) Segmenting a composite image via basic rectangles
US20050238235A1 (en) Run length based connected components and contour following for enhancing the performance of circled region extraction algorithm
JP2845107B2 (ja) 画像処理装置
EP1439484B1 (en) Segmenting an image via shortest cycles
JP3104355B2 (ja) 特徴抽出装置
JP2003271973A (ja) 画像処理方法および画像処理プログラム
JP3045810B2 (ja) 二値画像処理方法および装置
JP3100825B2 (ja) 線認識方法
JP2613211B2 (ja) 画像入力装置
JP3666903B2 (ja) 画像処理方法および装置
JP2001076158A (ja) 画像処理方法及び装置並びに媒体
JP2004133841A (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080729

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081023

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090129

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20090129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090915

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091006

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131016

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees