JP6056319B2 - 画像処理装置、画像処理方法および画像処理プログラム - Google Patents

画像処理装置、画像処理方法および画像処理プログラム Download PDF

Info

Publication number
JP6056319B2
JP6056319B2 JP2012208898A JP2012208898A JP6056319B2 JP 6056319 B2 JP6056319 B2 JP 6056319B2 JP 2012208898 A JP2012208898 A JP 2012208898A JP 2012208898 A JP2012208898 A JP 2012208898A JP 6056319 B2 JP6056319 B2 JP 6056319B2
Authority
JP
Japan
Prior art keywords
image
pixel
pixels
image processing
kernel size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012208898A
Other languages
English (en)
Other versions
JP2014063397A (ja
Inventor
厚憲 茂木
厚憲 茂木
松田 高弘
高弘 松田
村瀬 太一
太一 村瀬
源太 鈴木
源太 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012208898A priority Critical patent/JP6056319B2/ja
Priority to US13/956,794 priority patent/US9218537B2/en
Publication of JP2014063397A publication Critical patent/JP2014063397A/ja
Application granted granted Critical
Publication of JP6056319B2 publication Critical patent/JP6056319B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)

Description

本発明は、例えば、文書に対する情報提示に用いる画像処理装置、画像処理方法および画像処理プログラムに関する。
従来から、文書を読む手段として紙媒体を用いる方法が用いられている。一方、コンピュータの性能向上やインターネットの発達により、電子媒体の文書を読む機会も増加している。紙媒体を用いる利点として、大きなサイズで読むことができる、安価である、俯瞰することで文章全体が把握できる、等の利点が挙げられる。一方、電子媒体を用いる利点として、インターネットの情報や動画などの動的に変化する情報を表示できる、持ち運びが容易である、等の利点などが挙げられる。そこで、従来の紙媒体の利点を活かしつつ、電子媒体と連携することで、文書の利用価値を向上させるという新たなインターフェースが開発されている。
上述のインターフェースでは、任意の場所に固定されたカメラ、または自由に移動が可能なカメラを用いて、ユーザの眼前の紙媒体の文書を撮影して文書画像を取得した後、その文書に関連する付加情報を表示する機能が搭載されている。ここで、付加情報の表示を行う技術として、文書画像上または、投影した紙文書上に付加情報を重畳させて表示する拡張現実感(Augmented Reality:AR)による情報提示方法が、近年提案されている。当該情報提示方法により、付加情報と文章画像上での表示位置とを関連付けることが可能となり、紙媒体と電子媒体を連携することが出来る。
従来技術として、例えば、携帯端末を用いて紙媒体の文書を撮像し、撮像した文書画像に対応する電子文書をデータベースから検索し、その電子文書に関連付けられている付加情報をユーザに提示する方法が開示されている。なお、電子文書の検索のクエリーは、携帯端末に搭載されたカメラから取得した文書画像である。また、付加情報は、例えば携帯端末に搭載されているディスプレイに重畳することで表示される。また、付加情報を表示するデバイスとしてプロジェクタを使用し、投影した紙文書上に付加情報を重畳表示する方法も開示されている。
上記の付加情報の重畳表示を実現する際に、ユーザの使用感や操作性等のユーザビリティを損なわせない為、紙媒体の紙媒体とカメラの相対的な位置関係が変化する場合でも、適切な場所に付加情報が重畳表示され続ける機能が必要となる。この機能を実現する為に、カメラと紙媒体の文書間の相対的な位置と姿勢を逐次推定する、文書画像のトラッキング技術が必要となる。
文書画像のトラッキング技術として、文書画像に対して文字の端点や交差点などの特徴的なピクセル点(特徴点)を抽出し、その特徴点の位置を隣接フレーム間で追跡していくことでトラッキングを実現する方法が存在する。例えば、Harrisオペレータと称される画像中の角の部分を抽出した特徴点の抽出と、Lucus-Kanade法に基づくオプティカルフロー計算による特徴点の追跡を行い、特徴点の全体の追跡結果からカメラと紙媒体の文書間の相対的な位置と姿勢を推定する。この推定結果を用いて付加情報の表示位置を毎時間更新する方法が開示されている。
竹田一貴ら、「スマートフォンで動作するリアルタイム文書画像検索」電子情報通信学会、信学技報、PRMU2011−104、pp.31−36、2011 鈴木若菜ら、「プロジェクタを用いた情報投影による印刷文書へのインタラクティブ性の付加」電子情報通信学会、信学技報、PRMU2011−111、pp.69−74、2011
本発明者らの新たな検証により、文書画像のトラッキングにおいて以下の新たな課題が見出された。上述の文書画像のトラッキング方法は、トラッキング対象の画像が文書であるが故に、通常の風景や絵画の画像に比べて類似の特徴点が多数発生し、特徴点の誤追跡が発生しやすいという課題が生じる。例えば、文書画像中のFとTの文字を追跡する場合を想定する。FとTの文字の右上端の字形や下端の字形は類似している為、Fの特徴点とTの特徴点を誤って対応付けてしまう課題が発生する。この特徴点の誤った対応付けは、カメラと紙媒体の文書間の距離が離れて画像中の文字密度が増大する場合に顕著に生じる。
近年においては、カメラの高解像度化やディスプレイの大型化が進んでいることから、画像中の文字密度が増大する状況が増えている為、文書画像の特徴点の追跡精度の向上はユーザビリティの観点から非常に重要なものとなる。
本発明は、文書画像の特徴点の追跡精度が向上する画像処理装置を提供することを目的とする。
本発明が開示する画像処理装置は、撮像された第1の画像を取得する取得部と、 第1の画像に含まれる複数の画素を2値画素に変換して第2の画像とする変換部を備える。更に、当該画像処理装置は、第2の画像の2値画素のいずれか一方の画素において、各画素に対して膨張処理または膨張処理及び収縮処理を行う画素変換処理の対象となる画素領域の大きさを示すカーネルサイズを設定し、第2の画像の前記カーネルサイズが示す画像領域の各々について画素変換処理を行うことにより、第2の画像の隣接する同じ値の画素同士を連結して第1の画素連結領域を生成し、第1の画素連結領域の生成を、カーネルサイズの設定を変化させながら2値画素のいずれか一方または両方の組み合わせにより定義される画素数の変化率が所定の範囲の値になるまで繰り返し行い、画素数の変化率が所定の範囲の値になったときのカーネルサイズを基に生成された第1の画素連結領域を第2の画素連結領域とする生成部と、第2の画素連結領域の外縁から特徴点を抽出する抽出部を備える。更に、当該画像処理装置は、撮像時間が異なる複数の第1の画像に対応する複数の第2の画像から生成された複数の第2の画素連結領域の特徴点から、特徴点の移動量を算出する算出部を備える。
なお、本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。
本明細書に開示される画像処理装置では、文書画像の特徴点の追跡精度を向上させることが可能となる。
一つの実施形態による画像処理装置1が含まれる情報提示装置10の機能ブロック図である。 画像処理装置1による初期処理のフローチャートである。 文書ID(特定情報)、付加情報ならびに基準点に対する付加情報の相対位置のデータ構造の一例を示すテーブルである。 画像処理装置1による逐次処理のフローチャートである。 生成部5による画素連結領域の生成処理のフローチャートである。 カーネルサイズと画素変化数を含むデータ構造の一例と示すテーブルである カーネルサイズと黒画素数の関係図である。 抽出部6が抽出する特徴点のデータ構造の一例を示すテーブルである。 (a)は、取得部3が取得した文書画像である。(b)は、生成部5が生成した画素連結領域と、抽出部6が画素連結領域から抽出した特徴点の概念図である。 算出部7が対応付ける特徴点のデータ構造の一例を示すテーブルである。 ホモグラフィと各時刻における基準点を含むデータ構造の一例を示すテーブルである。 (a)は、比較例となる画素連結領域を生成しない場合の特徴点追跡結果である。(b)は、実施例1に開示する画素連結領域を生成した場合の特徴点追跡結果である。 変換部4による画素変換処理のフローチャートである。 配置領域のデータ構造の一例の示すテーブルである。 一つの実施形態による画像処理装置1として機能するコンピュータのハードウェア構成図である。
以下に、一つの実施形態による画像処理装置、画像処理方法及び画像処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は、開示の技術を限定するものではない。
(実施例1)
図1は、一つの実施形態による画像処理装置1が含まれる情報提示装置10の機能ブロック図である。情報提示装置10は、画像処理装置1、撮像素子2、表示部8、記憶部9を有する。更に、画像処理装置1は、取得部3、変換部4、生成部5、抽出部6、算出部7を有する。
情報提示装置10は、例えば、ユーザによって使用されるPCや携帯端末等の情報機器である。更に、情報提示装置10は、図示しない通信部を有しており、通信回線を介して様々な外部装置と双方向にデータの送受信を行うことが可能である。
撮像素子2は、例えば、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)カメラなどの撮像デバイスである。また、撮像素子2をHMC(Head Mounted Camera)として利用することも可能である。撮像素子2は、例えば、紙媒体に印刷された文書や、文章を一意的に特定するマーカーを撮像する。なお、撮像素子2は、必ずしも情報提示装置10に含まれる必要はない。例えば、情報提示装置10または、画像処理装置1に設けられる図示しない通信ユニットを用いて通信回線を介することによって、撮像素子2を情報提示装置10以外の外部装置に設けることも可能である。
取得部3は、例えば、ワイヤードロジックによるハードウェア回路である。また、取得部3は、画像処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。取得部3は、撮像素子2が撮像する画像を撮像素子2から受け取る。また、取得部3は、当該画像に含まれるマーカーを検出し、後述する記憶部9にアクセスすることで、文書IDを特定する。文書IDを特定することで、取得部3がどの様な文章を取得したかを一意的に判別することが可能となる。なお、文書IDを特定情報と称しても良い。
変換部4は、例えば、ワイヤードロジックによるハードウェア回路である。また、変換部4は、画像処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。変換部4は、取得部3から画像を受け取り、当該画像に含まれる複数の画素を2値画素に変換する。変換部4は、取得部3から受け取った画像が2値画素のみからなる画像の場合は、2値画素へ変換する必要はない。なお、変換部4による2値画素変換処理の詳細については後述する。
生成部5は、例えば、ワイヤードロジックによるハードウェア回路である。また、生成部5は、画像処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。生成部5は、変換部4が変換した2値画素のいずれか一方の画素において隣接する画素同士を連結させ、連結された画素を含む画素連結領域を生成する。なお、生成部5による画素連結領域の生成処理の詳細については後述する。
抽出部6は、例えば、ワイヤードロジックによるハードウェア回路である。また、抽出部6は、画像処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。抽出部6は、生成部5が生成した画素連結領域の外縁から特徴点を抽出する。なお、抽出部6による特徴点抽出処理の詳細については後述する。
算出部7は、例えば、ワイヤードロジックによるハードウェア回路である。また、算出部7は、画像処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。算出部7は、抽出部6が抽出した特徴点の移動量を、撮像素子2が異なる時間に撮像する複数の画像から算出する。なお、算出部7の特徴点の移動量の算出処理の詳細については後述する。
表示部8は、例えば、ディスプレイ、プロジェクタ、HMD(Head Mounted Display)などの表示デバイスである。表示部8は、例えば、算出部7が算出した特徴点の移動量と、取得部3が特定した付加情報を表示させる位置情報に基づいて付加情報を表示する。また、表示部8は、必ずしも情報提示装置10に含まれる必要はない。例えば、情報提示装置10または、画像処理装置1に設けられる図示しない通信ユニットを用いて通信回線を介することによって、表示部8を情報提示装置10以外の外部装置に設けることも可能である。
記憶部9は、例えば、フラッシュメモリ(flash memory)などの半導体メモリ素子、または、HDD(Hard Disk Drive)、光ディスクなどの記憶装置である。なお、記憶部9は、上記の種類の記憶装置に限定されるものではなく、RAM(Random Access Memory)、ROM(Read Only Memory)であってもよい。記憶部9には、例えば、文章IDや付加情報等の各種データが記憶される。なお、記憶部9は、必ずしも情報提示装置10に含まれる必要はない。例えば当該各種データは、画像処理装置1に含まれる各機能部の図示しないキャッシュやメモリ等に記憶しても良い。また、情報提示装置10または、画像処理装置1に設けられる図示しない通信ユニットを用いて通信回線を介することによって、記憶部9を情報提示装置10以外の外部装置に設けることも可能である。
なお、画像処理装置1は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路で構成しても良い。
図2は、画像処理装置1による初期処理のフローチャートである。図2に示す初期取得処理は、ユーザによって画像処理装置1の使用が開始される際(例えば、撮像素子2による紙媒体の撮像または、当該紙媒体と異なる紙媒体の撮像時)に実行されれば良い。先ず、取得部3は、撮像素子2が撮像する画像を取得する(ステップS201)。ここで、画像には、文字や写真情報を含む文書の他に、文書を一意的に特定する特定情報となるマーカーが含まれているものとする。なお、実施例1では、説明の便宜上、文字、写真ならびにマーカーは紙媒体に印刷されているものとするが、必ずしも紙媒体に印刷されている必要はない。例えば、ディスプレイに表示された文書画像を撮像素子2が撮像しても良い。
取得部3は、取得した画像からマーカーを検出する(ステップS202)。なお、マーカーの検出方法は、例えば、「Hirokazu Kato, Mark Billinghurst: Marker Tracking and HMD Calibration for a Video-based Augmented Reality Conferencing System, “Proceedings of the 2nd IEEE and ACM International Workshop on Augmented Reality (IWAR ’99)”, pp.85-94, 1999」に開示される方法を使用することが出来る。
実施例1においては、マーカーは例えば正方形であり、マーカーの各辺を紙媒体の各辺に対して平行に配置する。なお、紙媒体上のマーカーの一辺の大きさL[cm]は、既定の値を用いれば良い。既定の値は、例えば2cmである。また、全ての文書において、紙媒体に対するマーカーの左上頂点の座標は同一としても良い。なお、マーカーの左上頂点の座標は、マーカーの横方向と縦方向に座標軸を規定して文書座標とすることで定めることが出来る。
図3は、文書ID(特定情報)、付加情報ならびに基準点に対する付加情報の相対位置のデータ構造の一例を示すテーブルである。図3のテーブルには、付加情報を付加する対象となる文書ID(特定情報)、付加情報、ならびに基準点に対する付加情報の相対位置が含まれている。ここで、付加情報は、例えば、文書に含まれる漢字に対する振り仮名や、特定の文字列に対応する動画コンテンツのURL等の情報である。また、基準点は、例えば、上述のマーカーの左上頂点の座標を基準点として設定すれば良い。なお、図3のテーブルは、例えば、予め記憶部9に記憶されているものとする。また、図示はしないが、文書ID(特定情報)に対応付けられるマーカーのパターンも記憶部9に記憶されているものとする。
図2において、取得部3は、マーカーを検出しなかった場合(ステップS203−No)は、再度、撮像素子2から画像を取得する。この時、取得部3は、表示部8に対して撮像位置を変更させる旨のメッセージをユーザに対して表示させる処理を実施しても良い。
取得部3は、マーカーを検出した場合(ステップS203−Yes)は、マーカー左上頂点の画像上における位置I(i,j)[pixel]と、マーカーの一辺の画像上での大きさl[pixel]を特定する。続いて、取得部3は、マーカー内部に描かれているパターンと、記憶部9に記憶されているマーカーのパターンとをテンプレートマッチングする。
取得部3は、類似度が所定の閾値以上かつ最も類似するパターンを特定し、取得部3が取得した画像と文書ID(特定情報)を対応付ける(ステップS204)。なお、テンプレートマッチングにおいて、類似度が所定の閾値より小さい場合(ステップS205−No)は、取得部3は、撮像素子2から再度画像を取得する(ステップS201)。
取得部3は、文書ID(特定情報)を特定した場合(ステップS205−Yes)は、付加情報の表示位置を算出する(ステップS206)。取得部3は、記憶部9に記憶されている図3に示すテーブルから対象とする文書IDに対応付けられている付加情報と、基準点に対する付加情報の相対位置を取得する。付加情報の表示位置(x、y)[pixel]は、基準点に対する付加情報の相対位置を(X, Y)[cm]、画像上のマーカーの一辺の大きさl[pixel]、紙媒体上のマーカーの一辺の大きさL[cm]とすると、次式の通り表現できる。
(数1)


ステップS206において、取得部3による付加情報の表示位置の算出処理が完了すると、図2のフローチャートに示す画像処理装置1による初期処理が完了する。
図4は、画像処理装置1による逐次処理のフローチャートである。なお、図4に示す逐次処理は、例えば、図2に示す初期処理が完了した後に実行されれば良い。図4において、取得部3は、撮像素子2から画像を取得する(ステップS401)。
変換部4は、取得部3から画像を受け取り、画像が白と黒の2値画素以外の場合は、必要に応じてグレイスケール化を施した後、画像に含まる複数の画素を2値画素に変換する(ステップS402)。なお、2値画素への変換処理(2値化)は、例えば、「N. Otsu: A Threshold Selection Method from Grey-Level Histograms, “IEEE Transactions on Systems, Man, and Cybernetics”, Vol. SMC-9, No.1, pp. 62-66, 1979.」に開示される方法を用いることが出来る。
生成部5は、変換部4が変換した2値画素の何れの2値画素のいずれか一方の画素において隣接する同じ値の画素同士を連結させ、連結された画素を内包または含む画素連結領域を生成する(ステップS403)。ここで、ステップS403における生成部5による画素連結領域の生成処理の詳細について説明する。
図5は、生成部5による画素連結領域の生成処理のフローチャートである。先ず、生成部5は、画素連結領域の生成に用いるパラメータとなるカーネルサイズの初期設定する(ステップS501)。ここで、カーネルサイズとは、特定の画素を後述する膨張処理または収縮処理する処理領域の大きさを示す。ステップS501において、カーネルサイズの初期値(k)は、例えばk=1に設定されれば良い。また、ステップS501において、カーネルサイズの形状も規定することも可能である。カーネルサイズの形状は、例えば、円形または四角形であれば良い。
生成部5は、2値画素の何れかの画素に対して、オープニングを施す(ステップS502)。ここで、オープニングとは、例えば、「Gary Bradski and Adrian Kaehler: “Learning OpenCV”, O’Reilly Media, 2008.」に記載されている画像のモルフォロジー変換のうちの一つである。オープニングは、同じ回数だけ収縮処理した後に、膨張処理すること指す。ここで、収縮処理は、全画素に対して、近傍に白画素がある黒画素を白画素に変換する処理(「白画素の収縮処理」)である。また、膨張処理は、近傍の定義を反転し、近傍に黒画素がある白画素を黒画素に変換する処理(「黒画素の膨張処理」)である。
文字が含まれる画像にオープニングを施すと、収縮処理(「白画素の収縮処理」)によって、文字と文字の間の白画素の領域が、黒画素の領域によって塗りつぶされることによって、文字と文字の間の領域が、黒画素により連結される。なお、文字と余白(例えば文書段落の外枠)の間の部分については、黒画素の領域が膨張することになる。その後、膨張処理(「黒画素の膨張」)を行うと、前の収縮処理により既に連結された画素連結領域はそのまま変化せず、文字と余白の間の膨張されていた部分が元の文字の形状にまで収縮される。結果的に、オープニングによって、文書画像の段落内部の部分は黒画素で塗りつぶされ、段落の外縁の形状は、外縁付近の文字の字形の特徴を含むことになる。
また、同じ回数だけ膨張して収縮する処理はクロージングと称される。クロージングによって、文書画像の段落内部の部分に生ずる小さな白抜きの穴(白画素の凝集領域)を除去することが可能となる。この為、生成部5は、ステップS502において、オープニングとクロージングを併用しても良い。なお、実施例1においては、説明の便宜上、生成部5はオープニングのみを実施するものとする。
生成部5は、オープニングにより生じた画素数の変化率を計測する(ステップS503)。変化率を着目する画素は、白画素、黒画素、または白画素と黒画素の組み合わせの何れを用いることが可能であるが、実施例1においては、説明の便宜上、黒画素数の変化率を計測するものとする。なお、画素数の変化率は、例えば、カーネルサイズkとカーネルサイズk−1の時の黒画素数の差分で規定しても良い。また、予め範囲を定めたすべてのカーネルサイズの黒画素数を計測して、当該黒画素数を曲線でフィッティングして、曲線の曲率に基づいて画素数の変化率を計測しても良い。実施例1においては、説明の便宜上、画素数の変化率は、例えば、カーネルサイズkとカーネルサイズk−1の時の黒画素数の差分とする。
生成部5は、画素数の変化率が所定の閾値以下か否かを判定する(ステップS504)。画素数の変化率が所定の閾値より大きい場合(ステップS504−No)は、カーネルサイズを1つインクリメントさせて(ステップS505)、ステップS502の処理に戻る。画素数の変化率が所定の閾値以下の場合(ステップS504−Yes)は、生成部5は、カーネルサイズを決定し、当該カーネルサイズを、例えば、生成部5の図示しないキャッシュやメモリに保存する(ステップS506)ことで、図5のフローチャートに示す生成部5による画素連結領域の生成処理が完了する。
なお、ステップS504において、所定の閾値は、シミュレーションや実験により任意に定めることが出来る。例えば、所定の閾値は、9000であれば良い。また、上述の曲率に基づいて画素数の変化率を計測する場合は、曲率が最大かつ画素数が所定数以上のカーネルサイズを用いればよい。また、所定の閾値は、黒画素数の変化の割合量が一定以下となる値を用いても良い。
図5のフローチャートに示す生成部5による画素連結領域の生成処理は、取得部3が撮像された画像を取得する度に実行されるが、ステップS506でカーネルサイズを保存しておくことで、ステップS501において、初期カーネルサイズとして、保存したカーネルサイズを用いることが可能である。このことにより、ステップS503における画素数の変化率の演算処理負荷が軽減される効果が創出される。また、キャリブレーションの観点から、生成部5は、保存したカーネルサイズを1ないし2デクリメントさせたカーネルサイズを、ステップS501における初期カーネルサイズとして適用しても良い。
図6は、カーネルサイズと画素変化数を含むデータ構造の一例と示すテーブルである。生成部5は、図5のステップS501ないしステップS505を繰り返すことによって、図6のテーブルに示すカーネルサイズと画素変化数を含むデータ構造を生成する。なお、図6のテーブルにおいて、図5のステップS504における閾値判定の追加パラメータとして、画面サイズをデータ構造として格納しても良い。例えば、画面サイズに対して黒画素数の比率が著しく小さい場合は、生成部5は、ステップS504の判定処理をスキップさせて、ステップS505に処理を進めても良い。図6のテーブルに示される通り、カーネルサイズが増加すると、黒画素数が増加することが理解出来る。なお、図6のテーブルにおいて、画素変化数は、上述の通り、カーネルサイズiとカーネルサイズi−1の黒画素数の差分で表現されている。
図7は、カーネルサイズと黒画素数の関係図である。なお、図7においては、任意のカーネルサイズでオープニングを施した画像を併せて示す。図7に示される通り、カーネルサイズの増加に伴い、文書画像の文字と文字の間の白画素が黒画素に置換される為、黒画素数が増加する。一方、文書画像の段落内部が塗りつぶされた後は、段落間の間隔が広い為、オープニングによる黒画素への置換が行われず、黒画素数の変化の割合は減少することになる。
本発明者らの鋭意研究の結果、特徴点の追跡精度を向上させる為には、オープニング後の画像が以下の3項の性質を有していることが好ましいことが見出された。
(1)文書画像の段落と段落の間の部分の余白は塗りつぶされず、段落内の文字部分や行間などの余白部分は塗りつぶされている状態で画素連結領域が生成されている。
(2)文書画像の段落の先頭や末尾等の、段落の角の部分が鋭角化されている状態で画素連結領域が生成されている。
(3)文書画像の段落の外縁は、文字の字形の外縁の特徴が含まれている状態で画素連結領域が生成されている。
カーネルサイズが小さすぎる(例えば、図7のカーネルサイズ7参照)場合、上述の(1)項の性質に反し、段落内の文字部分や行間などの余白部分が十分に黒画素で置換されていない為、特徴点を追跡するときに対応付けの混同が発生し、誤追跡が生じる可能性が存在する。一方、カーネルサイズが大きすぎる場合(例えば、図7のカーネルサイズ35を参照)、上述の(2)項ならびに(3)項の性質に反し、特徴点の抽出量が不十分となる。以上により、特徴点の追跡に適したカーネルサイズが存在することになる。なお、当該特徴点の追跡に適したカーネルサイズは、図5のステップS504で例示した方法で規定することが可能である。なお、上述の(1)ないし(3)項の性質は必ずしもすべて有する必要はなく、何れかの性質を有するのみでも文章画像の追跡精度は向上する。
図4において、生成部5が画素連結領域を生成した(ステップS403)後、抽出部6は、画素連結領域の外縁から特徴点を抽出する(ステップS404)。ステップS404において、抽出部6は、現時刻tにおいて生成部5が生成した画素連結領域から、特徴点を抽出する。特徴点は、例えば、「C. Harris, M. Stephens: A combined corner and edge detector. “Proceedings of the 4th Alvey Vision Conference”, pp.147-151, 1988.」や、「E. Rosten, T. Drummond: Machine learning for high-speed corner detection. “Proceedings of the 2006 European Conference on Computer Vision”, pp.430-443, 2006.」に開示される、画像上の輝度勾配が大きい部分(エッジ)の重なり(コーナー)を検出するHarrisオペレータやFASTを用いることで抽出できる。また、米国特許第6、711、293号に開示される、画像の拡大縮小や回転に対しても同一の特徴点が抽出できるSIFTを用いることも出来る。
図8は、抽出部6が抽出する特徴点のデータ構造の一例を示すテーブルである。なお、図8に示すテーブルは、上述のHarrisオペレータを用いて特徴点を抽出した場合のデータ構造の一例となる。図8の特徴点IDは、抽出部6が特徴点を抽出した順に任意に付与される。特徴点位置は、例えば、取得部3が取得する画像の左上端を原点とした場合の座標位置である。特徴量は、Harrisオペレータを用いて得られる一次元の特徴量である。
図9(a)は、取得部3が取得した文書画像である。図9(b)は、生成部5が生成した画素連結領域と、抽出部6が画素連結領域から抽出した特徴点の概念図である。図9(a)の文書画像は、複数の段落から構成されている。図9(b)の画素連結領域は、図6と図7に示すカーネルサイズ22を用いて生成した画素連結領域と、当該画素連結領域から抽出された特徴点を示している。図9(b)から理解出来る通り、適切なカーネルサイズを用いることによって、上述の(1)項ないし(3)項の条件を満たすことが出来る。特徴点の追跡が誤りやすい文字の特徴点の代わりに、追跡に堅牢な画素連結領域の特徴点を用いることにより文書画像の特徴点の追跡精度を向上させることが可能となる。
図4のステップS404において、抽出部6が特徴点の抽出処理を実施した後、算出部7は、特徴点の追跡を実施する(ステップS405)。具体的には、算出部7は、ステップS405において、現時刻tで抽出された特徴点と、前時刻t−1で抽出された特徴点との対応付けを行う。換言すると、前時刻t−1で抽出された特徴点が、現時刻tにおいてどこに移動しているのかを計測する。算出部7は、例えば、「B. D. Lucas, T. Kanade: An iterative image registration technique with an application to stereo vision. “Proceedings of the 1981 DARPA Imaging Understanding Workshop”, pp.121-130, 1981.」に開示されるLucas-Kanade法に基づくオプティカルフローを用いることにより、特徴点を対応付けることが出来る。
図10は、算出部7が対応付ける特徴点のデータ構造の一例を示すテーブルである。特徴点IDと特徴点位置は図8に示す項目と同義である為、詳細な説明は省略する。図10のテーブルに示される通り、算出部7は、特徴点の対応付け有無の項を参照し、特徴点を対応付けること(追跡すること)が出来なかった特徴点については、それ以降の時刻において特徴点の対応付け(特徴点追跡)を実施しないことで、図4のステップS405の特徴点追跡における演算負荷を軽減することが出来る。
図4のステップS405において、算出部7の特徴点追跡処理が完了した後、算出部7は、前時刻t−1と、現時刻tで対応付けられた特徴点を用いて、特徴点の移動量に相当するホモグラフィを推定する(ステップS406)。ここで、ホモグラフィは、二平面間の射影変換行列Hを指し、射影変換行列Hは以下の通り表現される。
(数2)

ステップS406において、ホモグラフィの推定には4点以上の対応する特徴点の組が必要となる。前時刻t−1の特徴点の一つをp_b = (i_b, j_b)、現時刻tの特徴点の一つをp_p = (i_p, j_p)と表現すると、射影変換行列Hは次式の関係性を満たす。
(数3)

ここで、算出部7は、特徴点の対応点が4点の場合は、ホモグラフィが一意に定まるが、4点以上の場合は、再投影誤差(具体的には、計算されたHでp_bを投影した座標と、p_pの間のずれを指す)を最小化するHを計算しても良い。また、算出部7は、ノイズの影響を低減するため、例えば、「M. A. Fischler, R. C. Bolles: Random sample consensus: A paradigm for model fitting with applications to image analysis and automated cartography. “Commun. ACM”, no.24, vol.6, pp.381-395, 1981.」に開示されるRANSACのロバスト推定方法を用いても良い。
算出部7は、ステップS406において算出された、特徴点の移動量となるホモグラフィを用いて、基準点の座標を更新することで、付加情報の表示位置を更新する(ステップS408)。なお、ホモグラフィは任意の平面から任意の平面への射影変換を示すので、紙媒体と撮像素子2の間の平行移動、回転運動、拡縮運動、傾き運動に対応している。なお、前時刻t−1の基準点の位置(x_src, y_src)から、現時刻tの基準点の位置(s_dst, y_dst)を更新する射影変換は、次式の通り表現される。
(数4)

図11は、ホモグラフィと各時刻における基準点を含むデータ構造の一例を示すテーブルである。図11のテーブルに示される通り、ホモグラフィを用いることで現時刻tにおける基準点が算出される。なお、時刻の経過に伴い基準点が変化している理由の一つとしては、例えば撮像素子2がユーザにより移動されていることが挙げられる。算出部7は、更新された基準点と上述の(数1)を用いることで、付加情報を表示部8に表示させる位置を算出することが可能となる。
図4において、算出部7は、必要に応じてカーネルサイズの初期化判定を行っても良い(ステップS408)。カーネルサイズの初期化判定は、例えば、撮像素子2と紙媒体間の距離の急激な変化等により、図5のステップS506で保存したカーネルサイズを初期化する必要が有るか否かを判定する処理である。具体的には、算出部7は、文書IDに依存しない任意の4点の特徴点を、上述のホモグラフィを用いて追跡する。そして、算出部7は、前時刻t−1と現時刻tにおいて、4点の特徴点からなる矩形の面積の変化量が、所定の閾値を越えたか否かを判定する。所定の閾値を超えた場合は、カーネルサイズは、例えば1に初期設定される。この処理によって、撮像素子2の急激な位置変化に対応しつつ、図5のフローチャートに示す画素連結領域の生成処理の演算負荷を低減させる効果が創出される。算出部7が必要に応じて、ステップS408の処理を実施した後、図4のフローチャートに示す画像処理装置1による逐次処理が終了する。
図12(a)は、比較例となる画素連結領域を生成しない場合の特徴点追跡結果である。図12(b)は、実施例1に開示する画素連結領域を生成した場合の特徴点追跡結果である。図12(a)、(b)において、撮像素子2は、紙媒体に対して平行移動しており、本来の特徴点追跡の軌跡は、左斜め上方向の移動ベクトルとなる。図12(a)に示す比較例においては、本来の軌跡とは異なる軌跡が顕著に表れている。一方、図12(b)に示す実施例1においては、本来の軌跡とほぼ同等の軌跡となっていることが理解出来る。これは、文書画像の特徴点の追跡精度を向上していることを意味している。
(実施例2)
図13は、変換部4による画素変換処理のフローチャートである。なお、図13のフォローチャートに示される処理は、図4のステップS402に代えて実行することが出来る。
図13において、変換部4は、取得部3から取得した画像に対してレイアウト解析を実施する(ステップS1301)。ここで、レイアウト解析とは、文書画像の文書要素(文字、行、段落、図、表、罫線、セル等)の物理的な配置を解析することである。レイアウト解析は、例えば、特許第4443443号に開示されている方法を用いることができる。
変換部4は、レイアウト解析に基づいて配置領域を規定する(ステップS1302)。図14は、配置領域のデータ構造の一例の示すテーブルである。図14のテーブルにおいて、レイアウト枠IDは、例えば、文書の段落毎によってレイアウト枠が検出された順に付与される。左上頂点座標ならびに右下頂点座標は、例えば、取得部3が取得する画像の左上を原点と定義した場合の位置座標である。なお、図14のテーブルにおいて、レイアウト枠は矩形で規定されているものとする。また、カーネルサイズの設定の指針として文字サイズを格納することで、図5に示す画素連結領域の生成処理における演算負荷を軽減させることが可能となる。また、文字サイズは後述するステップS1305で利用しても良い。
変換部4は、取得部3から受け取る画像が白と黒の2値画素以外の場合は、必要に応じてグレイスケール化を施した後(ステップS1303)、画像に含まれる複数の画素を2値画素に変換する(ステップS1304)。次に、変換部4は、配置領域内部の塗りつぶしを実施する(ステップS1305)。実施例2においては、ステップS1302によって得られる配置領域が矩形である。この為、ステップS1304において、変換部4は、配置領域の外縁に接しない内部領域の画素をすべて黒画素で置換する処理を実施する。例えば、配置領域が、ステップS1301のレイアウト解析によって得られる、一文字分の文字領域を囲む矩形の一辺の大きさをsとすると、例えば、s/3分だけ内側に縮小した領域を黒画素で置換する領域として定義する。
文書画像によっては、オープニング処理において、画素連結領域に白画素が残存することも想定されるが、実施例2においては、白画素の残存を防止すること出来る。これにより、更に文書画像の特徴点の追跡精度が向上する。
(実施例3)
図15は、一つの実施形態による画像処理装置1として機能するコンピュータのハードウェア構成図である。図15に示すように、画像処理装置1は、制御部11、主記憶部12、補助記憶部13、ドライブ装置14、ネットワークI/F部17、入力部18、表示部8を含む。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。
制御部11は、コンピュータの中で、各装置の制御やデータの演算、加工を行うCPUである。また、制御部11は、主記憶部12や補助記憶部13に記憶されたプログラムを実行する演算装置であり、入力部18や記憶装置からデータを受け取り、演算、加工した上で、表示部8や記憶装置などに出力する。
主記憶部12は、ROMやRAMなどであり、制御部11が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶または一時保存する記憶装置である。
補助記憶部13は、HDDなどであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
ドライブ装置14は、記録媒体15、例えばフレキシブルディスクからプログラムを読み出し、補助記憶部13にインストールする。
また、記録媒体15に、所定のプログラムを格納し、この記録媒体15に格納されたプログラムはドライブ装置14を介して画像処理装置1にインストールされる。インストールされた所定のプログラムは、画像処理装置1により実行可能となる。
ネットワークI/F部17は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続された通信機能を有する周辺機器と画像処理装置1とのインターフェースである。
入力部18は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部8の表示画面上でキーの選択等を行うためのマウスやスライスパット等を有する。また、入力部18は、ユーザが制御部11に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。
表示部8は、図1に示した同等のハードウェアを用いることが可能である為、詳細な説明は省略する。なお、表示部8は、制御部11から入力される表示データに応じた表示が行われる。
なお、上述した画像処理方法は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、上述した画像処理方法を実現することができる。
また、このプログラムを記録媒体15に記録し、このプログラムが記録された記録媒体15をコンピュータや携帯端末に読み取らせて、前述した画像処理を実現させることも可能である。なお、記録媒体15は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。
以上、説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
撮像された画像を取得する取得部と、
前記画像に含まれる複数の画素を2値画素に変換する変換部と、
前記2値画素のいずれか一方の画素において、隣接する同じ値の画素同士を連結させ、連結された画素を含む画素連結領域を生成する生成部と、
前記画素連結領域の外縁から特徴点を抽出する抽出部と、
前記画像と撮像時間が異なる前記画像の前記特徴点から前記特徴点の移動量を算出する算出部と、
を備えることを特徴とする画像処理装置。
(付記2)
前記生成部は、前記2値画素のいずれか一方の画素を膨張すること、または前記一方の画素を前記膨張ならびに前記2値画素の他方の画素を収縮することで前記隣接する画素同士を連結させることを特徴とする付記1記載の画像処理装置。
(付記3)
前記生成部は、前記膨張または前記収縮させる処理領域の大きさを変化させて前記膨張または前記収縮を繰り返し行い、前記画素の変化率に基づいて前記画素連結領域を生成することを特徴とする付記1または付記2記載の画像処理装置。
(付記4)
前記画像は少なくとも文字を含んでおり、前記画素連結領域の外縁は、前記文字の字形の外縁の特徴を含むことを特徴とする付記1ないし付記3いずれか一つに記載の画像処理装置。
(付記5)
前記取得部は、前記画像に含まれる基準点を取得し、
前記算出部は、前記特徴点の移動量から前記画像を撮像する撮像素子と前記基準点の相対位置を算出することを特徴とする付記1ないし付記4いずれか一つに記載の画像処理装置。
(付記6)
前記生成部は、前記特徴点の移動量に基づいて前記処理領域の大きさの初期値を規定することを特徴とする付記3記載の画像処理装置。
(付記7)
前記変換部は、前記複数の画素の前記画像に対する配置領域を規定し、前記配置領域の外縁に接しない内部領域の画素を、前記膨張または前記収縮する画素に置換することを特徴とする付記1ないし付記6いずれか一つに記載の画像処理装置。
(付記8)
前記取得部は、前記画像に含まれる前記画像を一意に特定する特定情報を取得し、
前記特定情報に対応付けられる前記画像の付加情報を前記相対位置に基づいて表示する表示部を更に備えることを特徴とする付記5に記載の画像処理装置。
(付記9)
前記特定情報と前記付加情報は、少なくとも前記取得部または前記表示部がアクセス可能な記憶部に記憶されていることを特徴とする付記5記載の画像処理装置。
(付記10)
撮像された画像を取得し、
前記画像に含まれる複数の画素を2値画素に変換し、
前記2値画素のいずれか一方の画素において、隣接する同じ値の画素同士を連結させ、連結された画素を含む画素連結領域を生成し、
前記画素連結領域の外縁から特徴点を抽出し、
前記画像と撮像時間が異なる前記画像の前記特徴点から前記特徴点の移動量を算出する
ことを含むことを特徴とする画像処理方法。
(付記11)
前記生成することは、前記2値画素のいずれか一方の画素を、膨張または前記膨張ならびに収縮することで前記隣接する画素同士を連結させることを特徴とする付記10記載の画像処理方法。
(付記12)
前記生成することは、前記2値画素のいずれか一方の画素を膨張すること、または前記一方の画素を前記膨張ならびに前記2値画素の他方の画素を収縮することで前記隣接する画素同士を連結させることを特徴とする付記10または付記11記載の画像処理方法。
(付記13)
前記画像は少なくとも文字を含んでおり、前記画素連結領域の外縁は、前記文字の字形の外縁の特徴を含むことを特徴とする付記10ないし付記12いずれか一つに記載の画像処理方法。
(付記14)
前記取得することは、前記画像に含まれる基準点を取得し、
前記算出することは、前記特徴点の移動量から前記画像を撮像する撮像素子と前記基準点の相対位置を算出することを特徴とする付記10ないし付記13いずれか一つに記載の画像処理方法。
(付記15)
前記生成することは、前記特徴点の移動量に基づいて前記処理領域の大きさの初期値を規定することを特徴とする付記12記載の画像処理方法。
(付記16)
前記変換することは、前記複数の画素の前記画像に対する配置領域を規定し、前記配置領域の外縁に接しない内部領域の画素を、前記膨張または前記収縮する画素に置換することを特徴とする付記10ないし付記15いずれか一つに記載の画像処理方法。
(付記17)
前記取得することは、前記画像に含まれる前記画像を一意に特定する特定情報を取得し、
前記特定情報に対応付けられる前記画像の付加情報を前記相対位置に基づいて表示することを更に含むことを特徴とする付記14に記載の画像処理方法。
(付記18)
コンピュータに、
撮像された画像を取得し、
前記画像に含まれる複数の画素を2値画素に変換し、
前記2値画素のいずれか一方の画素において、隣接する同じ値の画素同士を連結させ、連結された画素を含む画素連結領域を生成し、
前記画素連結領域の外縁から特徴点を抽出し、
前記画像と撮像時間が異なる前記画像の前記特徴点から前記特徴点の移動量を算出する
ことを実行させることを特徴とする画像処理プログラム。
1 画像処理装置
2 撮像素子
3 取得部
4 変換部
5 生成部
6 抽出部
7 算出部
8 表示部
9 記憶部
10 情報提示装置

Claims (8)

  1. 撮像された第1の画像を取得する取得部と、
    前記第1の画像に含まれる複数の画素を2値画素に変換して第2の画像とする変換部と、
    前記第2の画像の前記2値画素のいずれか一方の画素において、各画素に対して膨張処理または前記膨張処理及び収縮処理を行う画素変換処理の対象となる画素領域の大きさを示すカーネルサイズを設定し、前記第2の画像の前記カーネルサイズが示す画像領域の各々について前記画素変換処理を行うことにより、前記第2の画像の隣接する同じ値の画素同士を連結して第1の画素連結領域を生成し、前記第1の画素連結領域の生成を、前記カーネルサイズの設定を変化させながら前記2値画素のいずれか一方または両方の組み合わせにより定義される画素数の変化率が所定の範囲の値になるまで繰り返し行い、前記画素数の変化率が前記所定の範囲の値になったときの前記カーネルサイズを基に生成された前記第1の画素連結領域を第2の画素連結領域とする生成部と、
    前記第2の画素連結領域の外縁から特徴点を抽出する抽出部と、
    撮像時間が異なる複数の前記第1の画像に対応する複数の前記第2の画像から生成された複数の前記第2の画素連結領域の前記特徴点から、前記特徴点の移動量を算出する算出部とを備える
    ことを特徴とする画像処理装置。
  2. 前記第1の画像は少なくとも文字を含んでおり、前記第2の画素連結領域の外縁は、前記文字の字形の外縁の特徴を含む
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記取得部は、前記第1の画像に含まれる基準点を取得し、
    前記算出部は、前記特徴点の移動量から前記第1の画像を撮像する撮像素子と前記基準点の相対位置を算出する
    ことを特徴とする請求項1又は請求項2に記載の画像処理装置。
  4. 前記生成部は、前記特徴点の移動量に基づいて前記カーネルサイズの初期値を規定する
    ことを特徴とする請求項1記載の画像処理装置。
  5. 前記変換部は、前記複数の画素の前記第1の画像に対する配置領域を規定し、前記配置領域の外縁に接しない内部領域の画素を、前記第2の画像に変換する
    ことを特徴とする請求項1ないし請求項4いずれか一項に記載の画像処理装置。
  6. 前記取得部は、前記第1の画像に含まれる前記第1の画像を一意に特定する特定情報を取得し、
    前記特定情報に対応付けられる前記第1の画像の付加情報を前記相対位置に基づいて表示する表示部を更に備える
    ことを特徴とする請求項3に記載の画像処理装置。
  7. 撮像された第1の画像を取得し、
    前記第1の画像に含まれる複数の画素を2値画素に変換して第2の画像とし、
    前記第2の画像の前記2値画素のいずれか一方の画素において、各画素に対して膨張処理または前記膨張処理と収縮処理を行う画素変換処理の対象となる画素領域の大きさを示すカーネルサイズを設定して、前記第2の画像の前記カーネルサイズが示す画像領域の各々について前記画素変換処理を行うことにより、前記第2の画像の隣接する同じ値の画素同士を連結して第1の画素連結領域を生成し、
    前記第1の画素連結領域の生成を、前記カーネルサイズの設定を変化させながら前記2値画素のいずれか一方または両方の組み合わせにより定義される画素数の変化率が所定の範囲の値になるまで繰り返し行い、前記画素数の変化率が前記所定の範囲の値になったときの前記カーネルサイズを基に生成された前記第1の画素連結領域を第2の画素連結領域とし、
    前記第2の画素連結領域の外縁から特徴点を抽出し、
    撮像時間が異なる複数の前記第1の画像に対応する複数の前記第2の画像から生成された複数の前記第2の画素連結領域の前記特徴点から、前記特徴点の移動量を算出する
    ことを特徴とする画像処理方法。
  8. コンピュータに、
    撮像された第1の画像を取得し、
    前記第1の画像に含まれる複数の画素を2値画素に変換して第2の画像とし、
    前記第2の画像の前記2値画素のいずれか一方の画素において、各画素に対して膨張処理または前記膨張処理と収縮処理を行う画素変換処理の対象となる画素領域の大きさを示すカーネルサイズを設定して、前記第2の画像の前記カーネルサイズが示す画像領域の各々について前記画素変換処理を行うことにより、前記第2の画像の隣接する同じ値の画素同士を連結して第1の画素連結領域を生成し、
    前記第1の画素連結領域の生成を、前記カーネルサイズの設定を変化させながら前記2値画素のいずれか一方または両方の組み合わせにより定義される画素数の変化率が所定の範囲の値になるまで繰り返し行い、前記画素数の変化率が前記所定の範囲の値になったときの前記カーネルサイズを基に生成された前記第1の画素連結領域を第2の画素連結領域とし、
    前記第2の画素連結領域の外縁から特徴点を抽出し、
    撮像時間が異なる複数の前記第1の画像に対応する複数の前記第2の画像から生成された複数の前記第2の画素連結領域の前記特徴点から、前記特徴点の移動量を算出する
    ことを実行させる
    ことを特徴とする画像処理プログラム。
JP2012208898A 2012-09-21 2012-09-21 画像処理装置、画像処理方法および画像処理プログラム Expired - Fee Related JP6056319B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012208898A JP6056319B2 (ja) 2012-09-21 2012-09-21 画像処理装置、画像処理方法および画像処理プログラム
US13/956,794 US9218537B2 (en) 2012-09-21 2013-08-01 Image processing device and image processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012208898A JP6056319B2 (ja) 2012-09-21 2012-09-21 画像処理装置、画像処理方法および画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2014063397A JP2014063397A (ja) 2014-04-10
JP6056319B2 true JP6056319B2 (ja) 2017-01-11

Family

ID=50338910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012208898A Expired - Fee Related JP6056319B2 (ja) 2012-09-21 2012-09-21 画像処理装置、画像処理方法および画像処理プログラム

Country Status (2)

Country Link
US (1) US9218537B2 (ja)
JP (1) JP6056319B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11321772B2 (en) 2012-01-12 2022-05-03 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US10127636B2 (en) * 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US11620733B2 (en) 2013-03-13 2023-04-04 Kofax, Inc. Content-based object detection, 3D reconstruction, and data extraction from digital images
US10783615B2 (en) * 2013-03-13 2020-09-22 Kofax, Inc. Content-based object detection, 3D reconstruction, and data extraction from digital images
JP6108890B2 (ja) * 2013-03-15 2017-04-05 キヤノン株式会社 画像処理システム、画像処理方法及びプログラム。
JP6478502B2 (ja) * 2014-07-11 2019-03-06 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP6584076B2 (ja) * 2015-01-28 2019-10-02 キヤノン株式会社 情報処理装置、情報処理方法、コンピュータプログラム
US9747465B2 (en) * 2015-02-23 2017-08-29 Intercontinental Exchange Holdings, Inc. Systems and methods for secure data exchange and data tampering prevention
US10467465B2 (en) 2015-07-20 2019-11-05 Kofax, Inc. Range and/or polarity-based thresholding for improved data extraction
CN105046235B (zh) * 2015-08-03 2018-09-07 百度在线网络技术(北京)有限公司 车道线的识别建模方法和装置、识别方法和装置
JP6831765B2 (ja) * 2017-10-10 2021-02-17 Kddi株式会社 情報処理装置、方法及びプログラム
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
CN109102540B (zh) * 2018-08-16 2022-01-28 杭州电子科技大学 基于fpga的标记面积块下限分离分道方法
CN109146953B (zh) * 2018-09-11 2021-12-10 杭州电子科技大学 基于fpga的标记面积块上限分离分道方法
DE102018216413A1 (de) * 2018-09-26 2020-03-26 Robert Bosch Gmbh Vorrichtung und Verfahren zur automatischen Bildverbesserung bei Fahrzeugen
US10482174B1 (en) * 2018-10-17 2019-11-19 Capital One Services, Llc Systems and methods for identifying form fields
CN111915544B (zh) * 2020-07-03 2022-05-03 三峡大学 基于图像融合的保护压板运行状态辨识方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2873338B2 (ja) * 1991-09-17 1999-03-24 富士通株式会社 動物体認識装置
JP3062382B2 (ja) * 1993-12-09 2000-07-10 キヤノン株式会社 画像処理装置及び方法
US6141041A (en) * 1998-06-22 2000-10-31 Lucent Technologies Inc. Method and apparatus for determination and visualization of player field coverage in a sporting event
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
US7133565B2 (en) * 2000-08-25 2006-11-07 Canon Kabushiki Kaisha Image processing apparatus and method
KR20050048658A (ko) * 2002-09-30 2005-05-24 마츠시타 덴끼 산교 가부시키가이샤 화상 보정 장치 및 화상 보정 방법
GB0326374D0 (en) * 2003-11-12 2003-12-17 British Telecomm Object detection in images
US7379562B2 (en) * 2004-03-31 2008-05-27 Microsoft Corporation Determining connectedness and offset of 3D objects relative to an interactive surface
IL162878A0 (en) * 2004-07-06 2005-11-20 Hi Tech Solutions Ltd Multi-level neural network based characters identification method and system
US7688999B2 (en) * 2004-12-08 2010-03-30 Electronics And Telecommunications Research Institute Target detecting system and method
US8036497B2 (en) * 2005-03-01 2011-10-11 Osaka Prefecture University Public Corporation Method, program and apparatus for storing document and/or image using invariant values calculated from feature points and method, program and apparatus for retrieving document based on stored document and/or image
EP1720131B1 (en) * 2005-05-03 2009-04-08 Seac02 S.r.l. An augmented reality system with real marker object identification
JP4683654B2 (ja) * 2006-07-07 2011-05-18 キヤノン株式会社 画像処理装置、画像処理装置の制御方法及びプログラム
JP4690266B2 (ja) * 2006-08-08 2011-06-01 富士通株式会社 撮像装置
JP4393556B2 (ja) * 2007-03-06 2010-01-06 シャープ株式会社 画像処理方法、画像処理装置、画像読取装置、画像形成装置、コンピュータプログラム及びコンピュータでの読み取りが可能な記録媒体
JP5004082B2 (ja) 2007-07-27 2012-08-22 公立大学法人大阪府立大学 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置
JP4967938B2 (ja) * 2007-09-06 2012-07-04 株式会社ニコン プログラム、画像処理装置および画像処理方法
JP5188334B2 (ja) * 2008-09-04 2013-04-24 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP2010226558A (ja) * 2009-03-25 2010-10-07 Sony Corp 画像処理装置、画像処理方法、及び、プログラム
JP5111627B2 (ja) * 2010-04-06 2013-01-09 キヤノン株式会社 映像処理装置及び映像処理方法
JP2013020527A (ja) * 2011-07-13 2013-01-31 Sony Corp 画像処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
US20140086488A1 (en) 2014-03-27
JP2014063397A (ja) 2014-04-10
US9218537B2 (en) 2015-12-22

Similar Documents

Publication Publication Date Title
JP6056319B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
US10963041B2 (en) Gesture recognition using multi-sensory data
JP6089722B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP6007497B2 (ja) 画像投影装置ならびに画像投影制御装置およびプログラム
US10636165B2 (en) Information processing apparatus, method and non-transitory computer-readable storage medium
US10699165B2 (en) System and method using augmented reality for efficient collection of training data for machine learning
JP6372149B2 (ja) 表示制御装置、表示制御方法および表示制御プログラム
US11551388B2 (en) Image modification using detected symmetry
US20110164815A1 (en) Method, device and system for content based image categorization field
CN107273895B (zh) 用于头戴式智能设备的视频流实时文本识别及翻译的方法
KR20150105479A (ko) 2차원 코드 증강 현실의 실현 방법 및 디바이스
JP2007087346A (ja) 情報処理装置及びその制御方法、コンピュータプログラム、記憶媒体
Feng et al. Plane registration leveraged by global constraints for context‐aware AEC applications
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
US20150371396A1 (en) Constructing a 3d structure
US10586099B2 (en) Information processing apparatus for tracking processing
JP2014164483A (ja) データベース生成装置、カメラ姿勢推定装置、データベース生成方法、カメラ姿勢推定方法、およびプログラム
US10089764B2 (en) Variable patch shape synthesis
US20230162413A1 (en) Stroke-Guided Sketch Vectorization
US10930068B2 (en) Estimation apparatus, estimation method, and non-transitory computer-readable storage medium for storing estimation program
JP7118729B2 (ja) 情報処理装置、情報処理方法及びプログラム
Kise et al. Expansion of queries and databases for improving the retrieval accuracy of document portions: an application to a camera-pen system
JP6171660B2 (ja) 情報処理装置、情報処理システム及びプログラム
JP2015032256A (ja) 画像処理装置およびそのデータベース構築装置
Kakumanu et al. Document image dewarping based on line estimation for visually impaired

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150604

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161121

R150 Certificate of patent or registration of utility model

Ref document number: 6056319

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees