JP2017138743A - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP2017138743A
JP2017138743A JP2016018419A JP2016018419A JP2017138743A JP 2017138743 A JP2017138743 A JP 2017138743A JP 2016018419 A JP2016018419 A JP 2016018419A JP 2016018419 A JP2016018419 A JP 2016018419A JP 2017138743 A JP2017138743 A JP 2017138743A
Authority
JP
Japan
Prior art keywords
image
comparison
local feature
source image
comparison source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016018419A
Other languages
English (en)
Inventor
智之 清水
Tomoyuki Shimizu
智之 清水
椎山 弘隆
Hirotaka Shiiyama
弘隆 椎山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016018419A priority Critical patent/JP2017138743A/ja
Publication of JP2017138743A publication Critical patent/JP2017138743A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】 比較元画像と比較先画像とを精度よく比較出来るようにできるようにすること。【解決手段】 本発明は、比較元画像と比較先画像との差異領域を推定し、この差異領域に対してOCR処理を実行することを特徴とする。【選択図】 図3

Description

本発明は、比較元画像と比較先画像とを比較する技術に関する。
画像の局所的な特徴量(局所特徴量)を用いて類似画像を検索する方法が提案されている。この方法では、まず、画像から特徴的な点(局所特徴点)を抽出する(非特許文献1)。次に、当該局所特徴点とその周辺の画像情報とに基づいて、当該局所特徴点に対応する特徴量(局所特徴量)を計算する(非特許文献2)。
局所特徴量を利用する手法においては、局所特徴量を回転不変、拡大・縮小不変となる複数の要素で構成される情報として定義する。これにより、画像を回転させたり、拡大または縮小させたりした場合であっても、検索を可能にする。局所特徴量は一般的にベクトルとして表現される。ただし、局所特徴量が回転不変、拡大・縮小不変であることは理論上の話であり、実際のデジタル画像においては、画像の回転や拡大・縮小処理前の局所特徴量と処理後の対応する局所特徴量との間に若干の変動が生じる。
回転不変の局所特徴量抽出のために、たとえば非特許文献2では、局所特徴点周辺の局所領域の画素パターンから主方向を算出し、局所特徴量算出時に主方向を基準に局所領域を回転させて方向の正規化を行う。また、拡大・縮小不変の局所特徴量を算出するために、異なるスケールの画像を内部で生成し、各スケールの画像からそれぞれ局所特徴点の抽出と局所特徴量の算出を行う。ここで、内部で生成した一連の異なるスケールの画像集合は一般的にスケールスペースと呼ばれる。
上述の方式により、1枚の画像から複数の局所特徴点が抽出される。局所特徴量を用いた画像検索では、それぞれの局所特徴点から算出した局所特徴量同士の比較を行うことによりマッチングを行う。多く利用されている投票方式(特許文献1)は、検索元画像から抽出された各特徴点の局所特徴量に予め定めた閾値以上類似する特徴点を最近傍処理で見つけ、存在すれば「画像」に対して1票を投票し、その投票数の多いものほど類似するとするものである。
更に、予め定めた閾値以上類似する特徴点の対応関係を求め、そのペアの位置情報が、同じ幾何変換を満たしているかを検証するRANSAC処理もある。これは、予め定めた閾値以上類似する特徴点のペアからランダムに2ペアを選択しアフィン変換行列を求める。次に、残りの予め定めた閾値以上類似する特徴点のペアの位置情報がアフィン変換行列を満たすかを検証し、予め定めた閾値数のペアが満たす場合に合致と判断する方法である。(非特許文献3)
特開2009−284084号公報
C.Harris and M.J. Stephens,"A combined corner and edge detector," In Alvey Vision Conference,pages 147−152, 1988. David G. Lowe, "Distinctive Image Features from Scale−Invariant Keypoints," International Journal of Computer Vision, 60, 2 (2004), pp.91−110. M. A. Fischler and R. C. Bolles, "Random sample consensus: A paradigm formodel fitting with applications to image analysis and automated cartography," Commun. ACM, no.24, vol.6, pp.381−395, June 1981.
特許文献1に記載の方法では、比較元画像(検索元画像)と比較先画像(登録画像)との画像間で対応する特徴点に基づいて、その類似の程度を比較、評価する。そのため、例えば、文字を含む画像を対象とする場合、文字部から抽出される特徴点の数が、画像中の自然画像、背景画像、背景パターンに含まれる特徴点よりも相対的に少ないと、文字部の差異は吸収されてしまう。具体的には、チラシ、パンフレット、案内状といった印刷物によくあるような、同一背景で文字だけが異なるような画像比較においては、文字部の特徴点の差が反映されにくく、比較元画像に類似する画像として複数の画像が検索されてしてしまう可能性がある。そこで、本発明は、画像の大部分が類似し一部に差異があるような画像同士の比較においても、比較元画像と比較先画像とを精度よく比較出来るようにすることを目的とする。
上記課題を解決するために、本発明は、比較元画像と比較先画像とを入力する入力手段と、前記入力された比較元画像と比較先画像との差異領域を推定する推定手段と、前記推定された差異領域に対してOCR処理を実行するOCR処理部と、を有することを特徴とする。
以上の構成によれば、本発明は、比較元画像と比較先画像とを精度よく比較出来るようになる。
第1の実施形態に係る画像処理装置のハードウェア構成を示すブロック図。 第1の実施形態に係る画像処理装置のソフトウェア構成を示すブロック図。 第1の実施形態に係る画像処理装置における比較処理のフローチャート。 第1の実施形態に係る比較処理の概要を説明する図。 第1の実施形態においてRANSAC処理を用いた幾何関係算出のフローチャート。
[第1の実施形態]
以下、本発明の第1の実施形態について、図面を参照しながら説明する。まず、本実施形態の画像処理装置のハードウェア構成について、図1のブロック図を参照して説明する。本実施形態の画像処理装置は、サーバ装置やクライアント装置により構成される。サーバ装置やクライアント装置はそれぞれ単一のコンピュータ装置で実現してもよいし、必要に応じた複数のコンピュータ装置に各機能を分散して実現するようにしてもよい。複数のコンピュータ装置で構成される場合は、互いに通信可能なようにLocal Area Network(LAN)などで接続されている。コンピュータ装置は、パーソナルコンピュータ(PC)やワークステーション(WS)等の情報処理装置によって実現することができる。
図1において、CPU101はコンピュータ装置100全体を制御するCentral Processing Unitである。ROM102は、変更を必要としないプログラムやパラメータを格納するRead Only Memoryである。RAM103は、外部装置などから供給されるプログラムやデータを一時記憶するRandom Access Memoryである。外部記憶装置104は、コンピュータ装置100に固定して設置されたハードディスクやメモリカードなどの記憶装置である。なお、外部記憶装置104は、コンピュータ装置100から着脱可能なフレキシブルディスク(FD)やCompact Disk(CD)等の光ディスク、磁気や光カード、ICカード、メモリカードなどを含んでもよい。入力デバイスインターフェイス105はユーザの操作を受け、データを入力するポインティングデバイスやキーボードなどの入力デバイス109とのインターフェイスである。
出力デバイスインターフェイス106は、コンピュータ装置100の保持するデータや供給されたデータを表示するためのモニタ110とのインターフェイスである。通信インターフェイス107はインターネットなどのネットワーク回線111や、デジタルカメラ112,デジタルビデオカメラ113,スマートフォン114などに接続するための通信インターフェイスである。システムバス108は、101から107の各ユニットを通信可能に接続する伝送路である。後述する本実施形態の各フローチャートの処理等は、ROM102等のコンピュータ読み取り可能な記憶媒体に格納されたプログラムをCPU101が実行することにより実行される。
図2は、本実施形態に係る画像処理装置のソフトウェア構成を示すブロック図である。同図において、画像入力部201は、比較元画像(検索元画像)および比較先画像(登録画像)の入力を行う。画像特徴量群抽出部202は、画像入力部201から入力された比較元画像および比較先画像の画像特徴量群を抽出する。すなわち、画像特徴量群抽出部202は、比較元画像と比較先画像に対し、特徴点抽出を行い、特徴点近傍の画素からSIFTの様な回転・拡縮不変の特徴量の抽出処理を行う。画像特徴量群抽出部202は、各画像から局所特徴点を抽出する特徴点抽出手段、および抽出した局所特徴点について局所特徴を算出する特徴算出手段(第1の算出手段)としての機能を有する。
なお、本実施形態では、比較元画像と比較先画像の二つの画像を比較する場合について記載する。ただし、これに限るものではなく、比較先画像が複数あり、当該比較先画像集合に対して予め特徴量を算出しておくことで、比較元画像の特徴量群と、算出しておいた特徴量群とを比較するようにしても構わない。その際、比較元画像の各特徴量に対し、予め定めた閾値内に存在する最近傍点の集合を求め、当該最近傍点が同一比較先画像由来の特徴量を多く含む場合に、当該比較先画像を類似画像候補とみなす類似画像検索処理の一環として、後述する処理を適用してもよい。
画像特徴量比較部203は、RANSAC処理を行い、更に特徴点座標を比較し、検索結果としてふさわしいものかを確認する処理である。具体的には、画像特徴量比較部203は、比較元画像の局所特徴量と比較先画像の局所特徴量の類似性に基いて、対応関係にある局所特徴点を決定する対応点決定手段(第1の決定手段)としての機能を有する。また、アフィン変換を行い変換後の特徴点座標が合致する特徴点の度数と、座標が一致しない度数をカウントする投票数集計手段としての機能、投票数が予め定めた閾値を超えた場合にリトライを停止する停止手段としての機能を有する。また、画像特徴量比較部203は、投票結果から比較元画像と比較先画像の共通領域を推定する共通領域推定手段(第1の推定手段)としての機能を有する。また、共通領域中で局所特徴量と比較先画像の局所特徴量の類似性に基づく対応関係の無い特徴点と、アフィン変換を行い変換後の特徴点座標が合致しない特徴点を決定する非正対応点抽出手段(第2の決定手段)としての機能を有する。また、これらの結果を用い、比較元画像と比較先画像の差異のある領域を求める差異領域推定手段(第2の推定手段)としての機能も有する。
画像正立処理部204は、比較元画像に対して、画像特徴量比較部203で求めたアフィン変換等の幾何変換係数によって回転・拡縮等の変換処理を実施し、比較先画像と位置合わせを行う。本実施形態では、比較元画像としてスキャンされたイメージデータ、比較先画像としてラスタライズされた文書画像データのユースケースを考えており、比較先画像としては、印刷物の元画像として正立している場合を想定できる。このような場合であれば、比較先画像に位置合わせをすることで、比較元画像が回転していても、正立化することができる。これにより、後述するOCR処理部205で行うOCR処理を精度よく実施できる。
OCR処理部205は、画像特徴量比較部203で求めた差異領域について、比較先画像から部分画像を抽出する。同時に、画像正立処理部204で位置合わせを行った変換後の比較元画像から、同領域について部分画像を抽出する。そして、それぞれの部分画像に対してOCR処理を実施して、当該部分画像の文字認識情報を得る。
OCR結果比較部206は、OCR処理部205で得た、比較元画像と比較先画像の差異部分の文字認識情報を比較し、特徴量比較において差異のあった領域での文字的な情報の違いを精査する。そして、出力部207は、OCR結果比較部206の比較結果を出力する。記憶部208は処理中のデータを記憶するメモリ、HDD等である。なお、これら各構成は、CPU101により統括的に制御されている。
次に、本実施形態における比較元画像と比較先画像との比較処理の詳細について説明する。図3は、本実施形態に係る画像処理装置における比較処理手順の一例を示すフローチャートである。同図において、まずステップS301では、画像入力部201により比較元画像と比較先画像が読み込まれる。図4は、本実施形態に係る比較処理の概略を説明する図であり、このS301では、図4(a)に示すような比較元画像と比較先画像が読み込まれたものとする。なお、比較先画像については、この処理フローよりも前に予め読み込まれ、記憶部208にその情報が登録されていてもよい。
ステップS302では、画像特徴量群抽出部202が、比較元画像および比較先画像の両画像について局所特徴を計算する。まず、画像特徴量群抽出部202は、画像の回転があってもロバスト(robust)に抽出されるような局所的な特徴点(局所特徴点)を抽出する。この局所特徴点の抽出方法として、ここではHarris作用素を用いる(C.Harris and M.J. Stephens, “A combined corner and edge detector,” In Alvey Vision Conference, pages 147−152, 1988.参照)。
具体的には、Harris作用素を作用させて得られた出力画像H上の画素について、当該画素及び当該画素の8近傍にある画素(合計9画素)の画素値を調べる。そして、当該画素が局所極大になる(当該9画素の中で当該画素の画素値が最大になる)点を局所特徴点として抽出する。ここで、当該画素が局所極大になったときでも、当該画素の値がしきい値以下の場合には局所特徴点として抽出しないようにする。なお、局所特徴点を抽出可能な方法であれば、上述のHarris作用素による特徴点抽出方法に限らず、どのような特徴点抽出方法でも適用可能である。
そして、画像特徴量群抽出部202は、抽出した局所特徴点の特徴量(局所特徴)を算出する。局所特徴としては、SIFT、SURF、FAST等の公知の技術を利用することができる。また、比較先画像が記憶部208に予め登録されている場合には、前もって局所特徴を求めて記憶部208に記憶しておいてもよい。
ステップS303で、画像特徴量比較部203は、比較元画像から比較先画像に対して投票処理を行い、投票数と対応点のペアを求める。ここでは、まず、比較先画像の局所特徴をVq、局所特徴に関連付けされている局所特徴点をQ、座標をQ(x’,y’)とする。また、比較元画像に存在する局所特徴をVs、局所特徴に関連付けされている局所特徴点をS、座標をS(x,y)とする。画像特徴量比較部203は、VqとVsとのベクトルベクトル特徴間距離を全ての組合せについて計算し、最短距離対応点リストを作成する。そして、計算したベクトル特徴間の距離が閾値Tv以下となり、かつ、最短距離となるようなVqとVsとの対応点ペアを抽出する。
ステップS304では、画像特徴量比較部203が、投票数が閾値以上か判断する。投票数が閾値未満の場合には、処理をステップS305に進め、比較元画像と比較先画像とは類似するものではないとして処理を終了する。
他方、投票数が閾値以上の場合には、処理をステップS306へ進める。そして、ステップS306にて、抽出した対応点ペアに対してRANSACを用い、比較元画像と比較先画像の特徴点位置の幾何関係を求め、幾何関係が正しいもの、すなわち正対応点を決定する。そして、画像特徴量比較部203は、正対応点の個数を求め、ペアリングスコアとする。それと同時に、対応点ペアで幾何関係を満たさない特徴点である非正対応点を決定し、その個数を求める。画像特徴量比較部203は、比較元画像および比較先画像それぞれの非正対応点を記憶部208に記憶する。なお、本ステップS306の処理の詳細は後述する。
ステップS307において、画像特徴量比較部203は、比較先画像上の正対応点から共通領域を特定する。具体的には、比較先画像における正対応点の分布に基づいて、正対応点を包含する領域を求めて、それを共通領域として特定する。領域の求め方として、簡易には正対応点を含む最外接矩形を求めればよい。なお、領域の形状は矩形に限らず、多角形や不定形状等の他の形態であっても構わない。図4に示す例では、比較元画像がある文書画像の一部であるのに対して、比較先画像はある文書画像全体であるため、ここでは、比較先画像上で共通領域を特定する。すなわち、比較元画像と比較先画像のどちらで共通領域を特定するか予め決められていてもよいが、好適には、比較元画像と比較先画像とで包含関係を推定し、より多くの領域をカバーする画像を選択して、その画像上で共通領域を特定する方がよい。
ここで、図4(b)に、ステップS302〜ステップS307の処理の概要を示す。同図において、○や×で示している個所が局所特徴を求める特徴点である。図4(b)では、RANSAC処理で局所特徴が類似し、その幾何関係を満足するものを正対応点として○で表示する。他方、局所特徴が類似するものが無い、または局所特徴が類似していても幾何関係を満足しない点を非正対応点として×で示す。図中の点線は、対応関係を表すものである。また、ステップS307までの処理によって、正対応点○の分布に基づき求めた共通領域を図4(b)の比較先画像上の黒い矩形で示している。
続いて、ステップS308では、画像特徴量比較部203が、比較先画像上で特定された共通領域における非正対応点の特徴点群を求める。まず、画像特徴量比較部203は、比較元画像の非正対応点と対応点ペアにならなかった比較先画像の共通領域における特徴点(類似する対応点の無い特徴点)を求める。更に、比較先画像の非正対応点と対応点ペアにならなかった比較元画像の特徴点に対して、ステップS306で求まった幾何変換を行い、比較先画像の共通領域の中に射影されるものだけを選別し求める。なお、本実施形態では、対応点ペアにならなかった特徴点、すなわち、閾値Tvec内の距離の対応点が無かった特徴点も非正対応点に含めるものとする。
これらの結果の論理和を取ることにより、比較元画像及び比較先画像の共通領域における比較元画像と比較先画像の一致しない特徴点群が求まる。図4(c)には、ステップS308の処理結果を示しており、黒枠で示す共通領域内において、上記2種類の特徴点の両方が求められた様子を示している。
本実施形態では、これら2種類の特徴点の論理和を取ることで、比較元画像と比較先画像とで個別に上記特徴点を求めた場合や、非正対応点あるいは対応点ペアにならなかった特徴点をそれぞれ単独で求めた場合よりも差異領域を拡張して特定することが出来る。特に、比較元画像と比較先画像とで画像全体が類似して一部領域で差異があるような場合は、例えば、背景の画像が同一で文字の部分のみに差異がある場合等が考えられる。このような場合、文字では局所特徴点が然程とれず、差異領域を大きく取れないこともあるが、上述のように2種類の特徴点の論理和を取ることで、差異領域を拡張して取ることが出来る。
上記2種類の非正対応点に基づいて差異領域を決定する方法は、例えば、OCRにおける像域分離の手法を応用して決定すればよい。像域分離ではx方向、y方向に対する2値画像の黒画素の投影ヒストグラムを生成し文字や図の領域が推定するが、本実施形態では、比較先画像におけるx方向、y方向の非正対応点のヒストグラムより差異領域が決定される。簡易的には、x方向、y方向それぞれでヒストグラムの値が所定値以上となる区間を含む最外接矩形として決定される。本実施形態では、例えば図4(d)、(e)に示すように、x方向、y方向の非正対応点のヒストグラムから1以上の領域群が差異領域が決定される。
ステップS309では、画像特徴量比較部203が、比較先画像上で決定された各差異領域において非正対応点数を求める。そして、非正対応点が所定の閾値に満たない領域は差異領域から除外する。これは、例えば文書ドキュメントの紙の汚れなどによるイレギュラで生じた特徴点の影響を排除し、例えば文字等のある程度の大きさを持つ領域に差異領域を限定するためである。なお、ここでは、各差異領域において非正対応点数を求めているが、各差異領域に対する非正対応点数(密度)を算出して、密度が所定値よりも低いものを除外するようにしてもよい。
ステップS310では、画像特徴量比較部203が、ステップS309で特定された差異領域を抽出する(切り出す)。本実施形態では、比較元画像は、回転・拡縮している可能性があるので、まず比較元画像を比較先画像との共通領域に位置合わせをした画像に変換した上で、比較元画像上での差異領域を得る。具体的には、ステップS306におけるRANSAC処理で求めた幾何変換のための係数(後述する図5における変換行列M、T)を用いて、比較元画像の各画素の幾何変換を行う。その上で、変換後の比較元画像と比較先画像それぞれから差異領域を切り出すようにする。図4(f)は、ステップS310の処理により比較元画像を、比較先画像との共通領域に合うように回転させる様子を示している。また、図4(g)は、変換後の比較元画像と比較先画像それぞれから差異領域を切り出す様子を示す図である。
ステップS311では、OCR処理部205が、ステップS310で得られた比較元画像および比較先画像の各差異領域に対してOCR処理を実施し、文字認識情報を取得する。本実施形態では、文字認識情報の認識結果は、処理の結果として得られた「文字」ないし「文字列」の情報とする。なお、OCR処理は一般的に公知の技術を利用すればよい。
本実施形態では、比較元画像および比較先画像の各差異領域に対してOCR処理を行うにあたり、差異領域毎にOCR処理のための文字の2値化画像の抽出処理を実施する。一般的なOCR処理では、文字を含む画像全体に対して、文字画像とその他の画像を分離するために、濃度による2値化処理を行う。例えば、文字が黒であり、背景が淡い色のパターン画像であれば、画素の濃度の頻度分布は、背景に該当する部分と、文字に該当する部分の大きく二つの山(周囲の濃度に対して頻度分布が高い部分)が現れる。よって、この二つの山を分離する濃度値に閾値を設定することで、文字とそれ以外の部分の画素を切り分けることができるため、当該閾値の決定は比較的容易に行える。そして、当該閾値以上の濃度の画素を文字の画素と見なすことで、文字の2値化画像が得られる。
しかし、チラシやパンフレット、招待状のような印刷物の場合、背景は複雑なパターンや自然画であることがあり、また文字色も場所によって異なることがある。このような状況で同様な2値化処理を行ったとしても、適切な閾値を求めることは困難であり、文字画像を精度よく抽出することは困難である。これに対し、本実施形態のステップS311におけるOCR処理では、各差異領域の部分画像に限定して2値化処理を行うことで、文字とそれ以外の画素の分離を行える可能性が高くなる。すなわち、印刷画像であっても、文字が記載された部分に限定すれば、人が視認可能なコントラストを付けている場合が多く、閾値がうまく決められる可能性が高いためである。
本実施形態では、上述したように比較元画像と比較先画像との差異領域を求めているが、このような差異領域はチラシなどの印刷物の画像中の文字部分である可能性が高く、精度よく文字認識できることが期待される。図4(h)には、ステップS311の処理により、比較元画像および比較先画像の各差異領域から文字認識情報が取得される様子を概略的に示している。
ステップS312では、OCR結果比較部206が、比較元画像と比較先画像の対応する差異部分から得た「文字」ないし「文字列」をそれぞれ比較する。そして、ステップS313で、出力部207が、上記比較した文字認識情報の差異の情報を出力する。本実施形態は、差異の情報の出力の仕方により限定されるものではないが、ここでは、認識した文字列の違いを出力する。図4の比較元画像と比較先画像との比較であれば、図4(e)のように、「6.8」と「12.31」の差異があるという情報を出力され、このような情報は、例えば、画像処理装置に備えられた表示部により表示される。また、例えば、OCR結果比較部206の比較結果をスコア化し、局所特徴量による投票から得られるスコアから減じることで、類似スコアに基づく画像検索の処理に供する等、他の構成をとるようにしてもよい。
次に、上述したステップS306の処理の詳細について図5を用いて説明する。図5は、RANSAC処理を用いた比較元画像と比較先画像の特徴点位置の幾何関係の算出のフローチャートである。
まず、記号の定義を行う。比較先画像の局所特徴をVq、局所特徴に関連付けされている局所特徴点をQ,座標をQ(x’,y’)とする。また、比較元画像に存在する局所特徴をVs、局所特徴に関連付けされている局所特徴点をS、座標をS(x,y)とする。
ステップS501で、最終投票数を表す変数VoteMaxを0に初期化する。次に、ステップS502で、S303の処理結果である最短距離対応点リストを読み込む。その内容は、繰り返しになるが、計算したベクトル特徴間の距離が閾値Tv以下となり、かつ、最短距離となるようなVqとVsとの対応点ペアである。
これ以降、最短距離対応点リストに登録されたk番目の対応点について、当該対応点の局所特徴をそれぞれVq(k)とVs(k)と記載としベクトル特徴間の距離が閾値Tv以下となる特徴の個数をそれぞれNq(k)とNs(k)とする。更にVq(k)とVs(k)に対応付けられている局所特徴点をそれぞれQk、Sk、座標をQk(x’k,y’k)、Sk(x,y)などと添え字を合わせて記載する。またテップS303で作成された最短距離対応点リストに登録された対応点の組数をm組とする。
次に、ステップS503で、類似度算出処理の反復カウント数を表す変数Countを0に初期化する。次に、ステップS504で、反復カウント数Countが予め定められた最大反復処理回数Rnを超えていないを判定する。ここで、超えている場合はステップS521へ進み、最終投票数VoteMaxを出力して、この処理を終了する。
また、ステップS504で、反復カウント数Countが最大反復処理回数Rnを超えていない場合はステップS505へ進み、投票数を表す変数Voteを0に初期化する。次に、ステップS506で、当該最短距離対応点リストから対応点の組の座標を2組ランダムに抽出する。
ここで、これらの座標をQ1(x’,y’)、S1(x,y)及びQ2(x’,y’)、S2(x,y)と記載する。次に、ステップS507で、抽出したQ1(x’,y’)、S1(x,y)及びQ2(x’,y’)、S2(x,y)が式(1)に示す変換を満たしていると仮定し、(数式1)中の変数aからfを求める。ただし、図5に示すステップS507では、変数aからdで構成される行列をMで示し、変数eからfで構成される行列をTで示している。
Figure 2017138743

ここで、第1の実施形態では、簡略化のため、相似変換だけを考える。このとき、上記(数式1)は以下の(数式2)のように書き換えられる。
Figure 2017138743

このとき、変数a、b、e、fはx’、y’、x、y、x’、y’、x、yを使って式(3)から式(6)で表される。
Figure 2017138743
Figure 2017138743
Figure 2017138743
Figure 2017138743

次に、投票数集計手段の説明をステップS508からS517までの処理を用いて行う。
ステップS508で、上述のステップS505で当該最短距離対応点リストから選択した2組の点以外の点を選択するために、対応点選択変数kを3に初期化する。そして、ステップS509で、対応点選択変数kが当該最短距離対応点リストに登録されている対応点の組数mを超えていないかを判定する。ここで、超えている場合はステップS518へ処理を移すが、これについては後述する。ステップS509における判定で対応点選択変数kが当該最短距離対応点リストに登録されている対応点の組数mを超えていない場合はステップS510へ処理を移す。
このステップS510では、上述のステップS505で当該最短距離対応点リストからランダムに抽出した2組の点S1(x,y)及びS2(x,y)以外の点を当該最短距離対応点リストから抽出する。第1の実施形態では、抽出された点をSk(x,y)と記載する。
次に、ステップS511で、Sk(x,y)が式(2)を使って移される座標Sk’(x’,y’)を求める。その後、ステップS512では、座標Sk’(x’,y’)と座標Qk(x’,y’)との幾何学的距離をユークリッド距離で計算し、当該ユークリッド距離が閾値Tdと比較し閾値以下であるか否かを判定する。当該ユークリッド距離が閾値Td以下の場合はステップS513へ進み、投票数Voteをインクリメントし、ステップS514でS‘kの座標を正対応点として記憶する。そして、ステップS515に進む。
また、当該ユークリッド距離が閾値Tdより大きい場合は、ステップS516で対応ペアだったが幾何関係を満たさなかった特徴点数であるNG_Voteをインクリメントし、ステップS517で、S‘kの座標を非正対応点として記憶する。そして、ステップS515に進む。
ステップS515では、対応点選択変数kをインクリメントし、ステップS509に戻り、最短距離対応点ペアリスト上の未処理のペアを抽出し、対応点選択変数kが当該最短距離対応点リストに登録されている対応点の組数mを超えるまで上述の処理を繰り返す。
次に、ステップS509で、対応点選択変数kが当該最短距離対応点リストに登録されている対応点の組数mを超えた場合の処理であるステップS518を説明する。ステップS518では、投票数Voteの値と最終投票数VoteMaxの値とを比較し、投票数Voteの値が最終投票数VoteMaxの値よりも大きい場合には、ステップS519へ処理を移す。
このステップS519では、最終投票数VoteMaxの値を投票数Voteの値で置き換えた後、ステップS520で反復カウント数Countをインクリメントし、上述のステップS504に処理を戻す。
また、ステップS518で、投票数Voteの値が最終投票数VoteMaxの値以下の場合にはステップS520へ処理を移し、反復カウント数Countをインクリメントし、上述のステップS504に処理を戻す。
なお、第1の実施形態におけるスコアの算出方法の説明では、相似変換だけを考えて説明したが、アフィン変換などその他の幾何学変換についても、ステップS507でそれぞれに応じた変換行列を求めることにより、対応可能である。例えば、アフィン変換の場合には、まずステップS506で、対応点の組の座標数を3とする。次に、ステップS507で、式(2)ではなく式(1)を使うこととし、ステップS506で選択した3組の対応点(合計6点)を使って変数aからfを求めればよい。
以上、本実施形態によれば、全体的に類似する画像同士を比較する際、画像領域内に存在する差異のある領域についてその領域をOCR処理することにより、精度よく比較可能になる。
なお、本実施形態では、比較元画像と比較先画像との差異領域が「文字」ないし「文字列」情報である場合について説明したが、差異領域が「文字」ないし「文字列」以外であっても、効果を有するものである。本実施形態におけるSIFT等の回転・拡縮不変の特徴量ベースの類似度比較では、特徴点間に存在する線分情報の違いを捉えることが原理上難しい。これに対し、OCR処理は、文字に特化したものではあるが、線分の情報を捉えた類似クラス判定処理であると言える。よって、差異領域に対して同等のOCR処理モジュールを使って、同等の条件でOCR処理を行った場合、文字では無い領域に対しても、OCR処理結果として可読性はなくても統一性のある出力が得られる。差異領域の部分画像に線分的な違いがあれば、認識結果の違いとしてあらわれる。この時、例えば、文字認識結果の文字列ラティスをそのまま比較し、差異の大きさによって、文字的な情報の違いの大きさとして扱っても構わない。
あるいは、OCR処理結果として、画像特徴量群抽出部202で得た特徴量とは異なる、文字認識固有の特徴量が得られる場合は、該特徴量で類似性を比較しても構わない。例えば、特徴量として、多次元ベクトルが得られるのであれば、ベクトル間の距離情報を利用してもよい。このように、本実施形態によれば、差異領域は必ずしも文字の領域であるとは限らない場合であっても、当該差異領域の文字的な情報の差異を捉えた比較が可能となる。
また、本実施形態において、画像正立処理部204は、比較元画像に対して、画像特徴量比較部203で求めたアフィン変換等の幾何変換係数によって回転・拡縮等の幾何変換処理を実施し、比較先画像と位置合わせを行うようにした。例えば、比較元画像としてスキャンされたイメージデータ、比較先画像としてラスタライズされた文書画像データというような、比較元画像と比較先画像とで条件が異なる場合でも、比較先画像に位置合わせをすることで、正立化することができる。これにより、後段のOCR処理部205で行うOCR処理を精度よく実施できる。
また、本実施形態において、OCR処理部205は、各差異領域の部分画像に限定して2値化処理を行うようにした。印刷画像であっても、文字が記載された部分に限定すれば、人が視認可能なコントラストを付けている場合が多く、閾値がうまく決められ、文字とそれ以外の画素の分離を行える可能性が高くなる。これにより、チラシなどの印刷物のような画像中の文字部分であっても、精度よく文字認識することが可能になる。
なお、上述の説明では、局所特徴として、輝度画像から得られるSIFTやSURFを特徴量の例に挙げたが、色差信号やRGBカラーチャネルでの局所特徴を用いることも可能である。また、図4の説明においては、比較元画像と比較先画像との差異領域が1つの例を示しているが、差異領域はいくつあても構わない。それぞれ、比較元と比較先の同領域のものであることがわかるように対応付けて処理を行えばよい。具体的には,ステップS309で非正対応点の密度の高い領域群を抽出した後,個々の領域毎にステップS311〜S312の処理を実施すればよい。これにより、比較元画像と比較先画像とで複数の差異領域がある場合、具体的には、チラシ等の印刷物に複数の異なる背景・文字フォントの文字領域がある場合であっても、それぞれの文字部の比較が可能になる。
[その他の実施形態]
また、本発明は、上記実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施例の有機的な組合せを含む)が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
201 画像入力部
202 画像特徴量群抽出部
203 画像特徴量比較部
204 画像正立処理部
205 OCR処理部
206 OCR結果比較部
207 出力部
208 記憶部

Claims (6)

  1. 比較元画像と比較先画像とを入力する入力手段と、
    前記入力された比較元画像と比較先画像との差異領域を推定する推定手段と、
    前記推定された差異領域に対してOCR処理を実行するOCR処理手段と、
    を有することを特徴とする画像処理装置。
  2. 前記推定手段は、
    前記入力された比較元画像と比較先画像とから局所特徴点を抽出する抽出手段と、
    前記抽出された局所特徴点について局所特徴を算出する算出手段と、
    前記算出された局所特徴に基づいて、前記比較元画像と前記比較先画像とで対応関係にある前記局所特徴点を決定する第1の決定手段と、
    前記決定された対応関係にある局所特徴点に基づいて、前記比較元画像と前記比較先画像との共通領域を推定する第1の推定手段と、
    前記推定された共通領域において前記比較元画像と前記比較先画像とで対応関係のない局所特徴点を決定する第2の決定手段と、
    前記決定された対応関係のない局所特徴点に基づいて、前記比較元画像と前記比較先画像との差異領域を推定する第2の推定手段と、
    を有することを特徴とする請求項1に記載の画像処理装置。
  3. 前記第1の決定手段により決定された前記対応関係にある局所特徴点の幾何関係に基づいて、前記比較元画像と比較先画像とを正立する正立処理手段を更に有することを特徴とする請求項2に記載の画像処理装置。
  4. 前記OCR処理手段は、前記推定した差異領域に限定して2値化処理を行うことによりOCR処理を実行することを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。
  5. 比較元画像と比較先画像とを入力し、
    前記入力された比較元画像と比較先画像との差異領域を推定し、
    前記推定された差異領域に対してOCR処理を実行する、
    ことを特徴とする画像処理方法。
  6. コンピュータを請求項1から5のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
JP2016018419A 2016-02-02 2016-02-02 画像処理装置、画像処理方法及びプログラム Pending JP2017138743A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016018419A JP2017138743A (ja) 2016-02-02 2016-02-02 画像処理装置、画像処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016018419A JP2017138743A (ja) 2016-02-02 2016-02-02 画像処理装置、画像処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2017138743A true JP2017138743A (ja) 2017-08-10

Family

ID=59565052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016018419A Pending JP2017138743A (ja) 2016-02-02 2016-02-02 画像処理装置、画像処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2017138743A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159942A (ja) * 2018-03-14 2019-09-19 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2020098399A (ja) * 2018-12-17 2020-06-25 凸版印刷株式会社 ポイント付与システム、ポイント付与方法、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159942A (ja) * 2018-03-14 2019-09-19 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP7000935B2 (ja) 2018-03-14 2022-01-19 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2020098399A (ja) * 2018-12-17 2020-06-25 凸版印刷株式会社 ポイント付与システム、ポイント付与方法、及びプログラム
JP7259312B2 (ja) 2018-12-17 2023-04-18 凸版印刷株式会社 ポイント付与システム、ポイント付与方法、及びプログラム

Similar Documents

Publication Publication Date Title
US10936911B2 (en) Logo detection
TW201437925A (zh) 物體識別裝置、方法及電腦程式產品
JP5361524B2 (ja) パターン認識システム及びパターン認識方法
RU2619712C1 (ru) Оптическое распознавание символов серии изображений
JP2018206252A (ja) 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム
CN113095187A (zh) 一种基于图像特征匹配对齐的试卷批改方法
US8306332B2 (en) Image search method and device
JP2007025902A (ja) 画像処理装置、画像処理方法
JP2010176504A (ja) 画像処理装置、画像処理方法及びプログラム
JP2017138743A (ja) 画像処理装置、画像処理方法及びプログラム
JP2013218605A (ja) 画像認識装置、画像認識方法及びプログラム
JP2006252562A (ja) 画像認識方法
JP5004082B2 (ja) 文書画像検索方法、文書画像登録方法、そのプログラムおよび装置
JP5278093B2 (ja) 記事関連情報提供方法、装置、プログラム、記録媒体
JP2017138742A (ja) 画像処理装置、画像処理方法及びプログラム
JP2005173128A (ja) 輪郭形状抽出装置
JP2019046184A (ja) 画像処理装置、訓練画像処理装置、画像識別装置、訓練画像処理方法、画像識別方法、及びプログラム
JP5836728B2 (ja) 画像検索装置、画像検索方法及びプログラム
JP2010092426A (ja) 画像処理装置、画像処理方法およびプログラム
JP7117177B2 (ja) 領域特定装置及びプログラム
JP6786073B2 (ja) 検品装置、検品方法及びプログラム
JP6668228B2 (ja) 被写体識別装置、方法、及びプログラム
JP2006323511A (ja) 記号認識方法及び装置
CN114565750A (zh) 一种纸质试题的处理方法和***
JP2008102610A (ja) 画像処理装置