JP5235770B2 - 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体 - Google Patents

顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP5235770B2
JP5235770B2 JP2009108474A JP2009108474A JP5235770B2 JP 5235770 B2 JP5235770 B2 JP 5235770B2 JP 2009108474 A JP2009108474 A JP 2009108474A JP 2009108474 A JP2009108474 A JP 2009108474A JP 5235770 B2 JP5235770 B2 JP 5235770B2
Authority
JP
Japan
Prior art keywords
image
saliency area
feature amount
saliency
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009108474A
Other languages
English (en)
Other versions
JP2010258914A (ja
Inventor
昭悟 木村
淳司 大和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009108474A priority Critical patent/JP5235770B2/ja
Publication of JP2010258914A publication Critical patent/JP2010258914A/ja
Application granted granted Critical
Publication of JP5235770B2 publication Critical patent/JP5235770B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Description

本発明は、顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体に関する。特に、本発明は、人間の視覚特性を利用した信号処理によって顕著領域(物体領域)、背景領域(非顕著領域)に関する事前情報を算出し、算出した事前情報を利用して、入力映像から顕著領域と非顕著領域とを高精度に分割する、顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体に関する。
画像や映像から、人物・動物・物体など興味の対象である領域(以下、「物体領域」という)を、背景などの物体領域以外の領域(以下、「背景領域」という)と区別して抽出する領域分割技術は、クロマキーなどを利用しない自由な画像映像合成、背景領域の変動に頑健な物体認識・画像映像検索、領域の重要性に応じてビットレートを調整可能な画像映像符号化など、応用範囲の広い重要な技術である。領域分割技術として、画像領域分割をある種の統計モデルに対する事後確率最大化問題として定式化し、事後確率最大化問題を統計モデルと等価なグラフの最小カットを求めることによって解決する方法が知られている(例えば、非特許文献1参照)。また、非特許文献1に記載の方法を映像信号に拡張し、映像信号の時間的な連続性を利用してグラフの最小カットを効率的に求めることで高速に映像の領域分割を実現する方法も知られている(例えば、非特許文献2参照)。
Y.Boykov and G.F.Lea,"Graph cuts and efficient N-D image segmentation," International Journal of Computer Vision,Vol.70,No.2,pp.109-131,2006. P.Kohli and P. Torr,"Dynamic graph cuts for efficient inference in Markov random fields,"IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol.29,No.12,pp.2079-2088,2007.
領域分割技術の応用では、物体領域や背景領域に関する事前情報(手がかり)が与えられない状況においても正しく物体領域と背景領域とを分割できる手法、換言すれば、人手を介せず領域分割を含めて全ての手順を自動で実行できる手法が望まれている。領域分割技術の応用範囲が拡大するからである。しかしながら、非特許文献1、2に記載の方法は、物体領域・背景領域に関する事前情報が部分的に手動で与えられることを想定しているため、物体領域・背景領域に関する事前情報が全く与えられない場合には利用することができないという問題がある。即ち、領域分割技術の応用範囲を著しく制限しているという問題がある。
本発明は、上述した課題に鑑みてなされたものであって、物体領域、背景領域に関する事前情報が全く与えられない場合においても領域分割を可能にするための技術を提供することを目的とする。
上記問題を解決するために、本発明の一態様である顕著領域映像生成方法は、入力映像から、人間が注意を向けやすい度合いである注目度を示す注目度映像を抽出する注目度映像抽出過程と、入力映像を構成する各フレームである入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を抽出する顕著領域事前確率画像抽出過程と、前記入力画像の顕著領域および顕著領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出過程と、前記入力画像、前記顕著領域事前確率画像および前記特徴量尤度から、前記入力画像の顕著領域を示す顕著領域画像を抽出する顕著領域画像抽出部と、前記各入力画像に対し、前記注目度映像抽出過程、前記顕著領域事前確率画像抽出過程、前記特徴量尤度算出過程および前記顕著領域画像抽出過程を実行して得られる前記各顕著領域画像から前記顕著領域映像を生成する顕著領域映像生成過程とを有し、前記顕著領域事前確率画像抽出過程は、一の前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を、前記注目度映像抽出過程によって抽出された前記注目度映像内の前記入力画像に対応する画像である注目度画像および前記顕著領域画像に基づいて抽出し、前記特徴量尤度算出過程は、前記特徴量尤度を、前記入力画像、前記注目度画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出することを特徴とする。
上記顕著領域映像生成方法において、前記注目度映像抽出過程は、前記入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出過程と、現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出過程によって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出過程によって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出過程と、現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出過程によって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出過程と、前記基礎注目度画像抽出過程と、前記確率的基礎注目度画像抽出過程と、前記視線位置確率密度画像抽出過程とを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力過程とを有し、前記視線位置確率密度画像抽出過程は、視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出過程によって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新過程によって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新過程と、視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新過程によって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新過程と、それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前記代表視線位置更新過程によって更新された代表視線位置集合と、前記視線移動状態変数更新過程から出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出過程と、前記代表視線位置更新過程によって更新された代表視線位置集合と、代表視線位置重み係数算出過程によって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力過程とを有し、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出するようにしてもよい。
上記顕著領域映像生成方法において、前記顕著領域事前確率画像抽出過程は、前記注目度画像のみを用いて前記顕著領域事前確率画像を生成する顕著領域事前確率画像生成過程と、前記顕著領域画像を用いて前記顕著領域事前確率画像生成過程によって生成された前記顕著領域事前確率画像を更新する顕著領域事前確率画像更新過程とから構成されるようにしてもよい。
上記顕著領域映像生成方法において、前記特徴量尤度算出過程は、顕著領域に含まれる画像特徴量の尤度を示す顕著領域特徴量尤度を、前記入力画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記顕著領域特徴量尤度のうち少なくとも1つに基づいて算出する顕著領域特徴量尤度算出過程と、顕著領域外の領域に含まれる画像特徴量の尤度を示す非顕著領域特徴量尤度を、前記入力画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記非顕著領域特徴量尤度のうち少なくとも1つに基づいて算出する非顕著領域特徴量尤度算出過程と、前記顕著領域特徴量尤度および前記非顕著領域特徴量尤度を加算して特徴量尤度として出力する特徴量尤度出力過程とから構成されるようにしてもよい。
上記顕著領域映像生成方法において、前記顕著領域特徴量尤度算出過程は、前記入力画像、前記顕著領域事前確率画像および前記顕著領域画像に基づいて、前記顕著領域特徴量尤度を生成する顕著領域特徴量尤度生成過程と、前記顕著領域特徴量尤度生成過程によって生成された前記顕著領域特徴量尤度を更新する顕著領域特徴量尤度更新過程とから構成され、非顕著領域特徴量尤度算出過程は、前記入力画像、前記顕著領域事前確率画像および前記顕著領域画像に基づいて、前記非顕著領域特徴量尤度を生成する非顕著領域特徴量尤度生成過程と、前記非顕著領域特徴量尤度生成過程によって生成された前記非顕著領域特徴量尤度を更新する非顕著領域特徴量尤度更新過程とから構成され、前記顕著領域特徴量尤度更新過程は、前記入力画像、前記顕著領域画像および前回迄に更新した更新後の前記顕著領域特徴量尤度のうち少なくとも1つに基づいて前記顕著領域特徴量尤度を更新し、前記非顕著領域特徴量尤度更新過程は、前記入力画像、非顕著領域画像および前回迄に更新した更新後の前記非顕著領域特徴量尤度のうち少なくとも1つに基づいて前記非顕著領域特徴量尤度を更新するようにしてもよい。
上記顕著領域映像生成方法は、前記入力画像を異なる解像度によってそれぞれ平滑化した複数の平滑化画像からなる平滑化画像群を生成する平滑化画像群生成過程と、前記平準化画像群に対し、前記顕著領域事前確率画像抽出過程、前記特徴量尤度算出過程、前記顕著領域画像抽出過程を実行し、前記入力画像の前記顕著領域画像を確定する顕著領域画像確定過程とを更に有し、前記特徴量尤度算出過程および顕著領域画像抽出過程は、前記入力画像に代えて前記平滑化画像を用い、前記顕著領域映像生成過程は、前記各入力画像に対し、前記注目度映像抽出過程、前記顕著領域事前確率画像抽出過程、前記特徴量尤度算出過程、前記顕著領域画像抽出過程、前記平滑化画像群生成過程および顕著領域画像確定過程を実行して得られる前記顕著領域画像から前記顕著領域映像を生成するようにしてもよい。
上記問題を解決するために、本発明の他の態様である顕著領域映像生成装置は、入力映像から、人間が注意を向けやすい度合いである注目度を示す注目度映像を抽出する注目度映像抽出部と、入力映像を構成する各フレームである前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を抽出する顕著領域事前確率画像抽出部と、前記入力画像の顕著領域および顕著領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出部と、前記入力画像、前記顕著領域事前確率画像および前記特徴量尤度から、前記入力画像の顕著領域を示す顕著領域画像を抽出する顕著領域画像抽出部と、前記各入力画像に対し、前記注目度映像抽出部、前記顕著領域事前確率画像抽出部、前記特徴量尤度算出部および前記顕著領域画像抽出部を実行して得られる前記各顕著領域画像から前記顕著領域映像を生成する顕著領域映像生成部とを備え、前記顕著領域事前確率画像抽出部は、一の前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を、前記注目度映像抽出部によって抽出された前記注目度映像内の前記入力画像に対応する画像である注目度画像および前記顕著領域画像に基づいて抽出し、前記特徴量尤度算出部は、前記特徴量尤度を、前記入力画像、前記注目度画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出することを特徴とする。
上記顕著領域映像生成装置において、前記注目度映像抽出部は、前記入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出部と、現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出部によって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出部によって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出部と、現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出部によって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出部と、前記基礎注目度画像抽出部と、前記確率的基礎注目度画像抽出部と、前記視線位置確率密度画像抽出部とを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力部とを備え、前記視線位置確率密度画像抽出部は、視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出部によって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新部によって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新部と、視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新部によって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新部と、それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前記代表視線位置更新部によって更新された代表視線位置集合と、前記視線移動状態変数更新部から出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出部と、前記代表視線位置更新部によって更新された代表視線位置集合と、代表視線位置重み係数算出部によって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力部とを有し、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出するようにしてもよい。
上記顕著領域映像生成装置において、前記顕著領域事前確率画像抽出部は、前記注目度画像のみを用いて前記顕著領域事前確率画像を生成する顕著領域事前確率画像生成部と、 前記顕著領域画像を用いて前記顕著領域事前確率画像生成部によって生成された前記顕著領域事前確率画像を更新する顕著領域事前確率画像更新部とから構成されるようにしてもよい。
上記顕著領域映像生成装置において、前記特徴量尤度算出部は、顕著領域に含まれる画像特徴量の尤度を示す顕著領域特徴量尤度を、前記入力画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記顕著領域特徴量尤度のうち少なくとも1つに基づいて算出する顕著領域特徴量尤度算出部と、顕著領域外の領域に含まれる画像特徴量の尤度を示す非顕著領域特徴量尤度を、前記入力画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記非顕著領域特徴量尤度のうち少なくとも1つに基づいて算出する非顕著領域特徴量尤度算出部と、前記顕著領域特徴量尤度および前記非顕著領域特徴量尤度を加算して特徴量尤度として出力する特徴量尤度出力部とから構成されるようにしてもよい。
上記顕著領域映像生成装置において、前記顕著領域特徴量尤度算出部は、前記入力画像、前記顕著領域事前確率画像および前記顕著領域画像に基づいて、前記顕著領域特徴量尤度を生成する顕著領域特徴量尤度生成部と、前記顕著領域特徴量尤度生成部によって生成された前記顕著領域特徴量尤度を更新する顕著領域特徴量尤度更新部とから構成され、前記非顕著領域特徴量尤度算出部は、前記入力画像、前記顕著領域事前確率画像および前記顕著領域画像に基づいて、前記非顕著領域特徴量尤度を生成する非顕著領域特徴量尤度生成部と、前記非顕著領域特徴量尤度生成部によって生成された前記非顕著領域特徴量尤度を更新する非顕著領域特徴量尤度更新部とから構成され、前記顕著領域特徴量尤度更新部は、前記入力画像、前記顕著領域画像および前回迄に更新した更新後の前記顕著領域特徴量尤度のうち少なくとも1つに基づいて前記顕著領域特徴量尤度を更新し、前記非顕著領域特徴量尤度更新部は、前記入力画像、非顕著領域画像および前回迄に更新した更新後の前記非顕著領域特徴量尤度のうち少なくとも1つに基づいて前記非顕著領域特徴量尤度を更新するようにしてもよい。
上記顕著領域映像生成装置は、前記入力画像を異なる解像度によってそれぞれ平滑化した複数の平滑化画像からなる平滑化画像群を生成する平滑化画像群生成部と、前記平準化画像群に対し、前記顕著領域事前確率画像抽出部、前記特徴量尤度算出部、前記顕著領域画像抽出部の処理を実行し、前記入力画像の前記顕著領域画像を確定する顕著領域画像確定部とを更に備え、前記特徴量尤度算出部および顕著領域画像抽出部は、前記入力画像に代えて前記平滑化画像を用い、前記顕著領域映像生成部は、前記各入力画像に対し、前記注目度映像抽出部、前記顕著領域事前確率画像抽出部、前記特徴量尤度算出部、前記顕著領域画像抽出部、前記平滑化画像群生成部および前記顕著領域画像確定部の各処理を実行して得られる前記顕著領域画像から前記顕著領域映像を生成するようにしてもよい。
上記問題を解決するために、本発明の他の態様であるプログラムは、入力映像から、人間が注意を向けやすい度合いである注目度を示す注目度映像を抽出する注目度映像抽出ステップと、入力映像を構成する各フレームである前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を抽出する顕著領域事前確率画像抽出ステップと、前記入力画像の顕著領域および顕著領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出ステップと、前記入力画像、前記顕著領域事前確率画像および前記特徴量尤度から、前記入力画像の顕著領域を示す顕著領域画像を抽出する顕著領域画像抽出ステップと、前記各入力画像に対し、前記注目度映像抽出ステップ、前記顕著領域事前確率画像抽出ステップ、前記特徴量尤度算出ステップおよび前記顕著領域画像抽出ステップを実行して得られる前記各顕著領域画像から前記顕著領域映像を生成する顕著領域映像生成ステップとをコンピュータに実行させるプログラムであって、前記顕著領域事前確率画像抽出ステップは、一の前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を、前記注目度映像抽出ステップによって抽出された前記注目度映像内の前記入力画像に対応する画像である注目度画像および前記顕著領域画像に基づいて抽出し、前記特徴量尤度算出ステップは、前記特徴量尤度を、前記入力画像、前記注目度画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出することを特徴とする。
上記問題を解決するために、本発明の他の態様である記録媒体は、入力映像から、人間が注意を向けやすい度合いである注目度を示す注目度映像を抽出する注目度映像抽出ステップと、入力映像を構成する各フレームである前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を抽出する顕著領域事前確率画像抽出ステップと、前記入力画像の顕著領域および顕著領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出ステップと、前記入力画像、前記顕著領域事前確率画像および前記特徴量尤度から、前記入力画像の顕著領域を示す顕著領域画像を抽出する顕著領域画像抽出ステップと、前記各入力画像に対し、前記注目度映像抽出ステップ、前記顕著領域事前確率画像抽出ステップ、前記特徴量尤度算出ステップおよび前記顕著領域画像抽出ステップを実行して得られる前記各顕著領域画像から前記顕著領域映像を生成する顕著領域映像生成ステップとをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録憶媒体であって、前記顕著領域事前確率画像抽出ステップは、一の前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を、前記注目度映像抽出ステップによって抽出された前記注目度映像内の前記入力画像に対応する画像である注目度画像および前記顕著領域画像に基づいて抽出し、前記特徴量尤度算出ステップは、前記特徴量尤度を、前記入力画像、前記注目度画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出することを特徴とする。
本発明によれば、物体領域・背景領域に関する事前情報が全く与えられない場合においても領域分割が可能になる。従って、物体領域・背景領域に関する事前知識がない場合でも、精度良く物体領域と背景領域を分割して、注目している領域(物体領域)を抽出することができるようになる。
本発明の第1の実施形態に係る顕著領域映像生成装置1000による顕著領域事前確率画像の算出過程の模式図である。 顕著領域映像生成装置1000の機能ブロック図の一例である。 注目度映像抽出部1の機能ブロック図である。 顕著領域事前確率画像抽出部2、特徴量尤度算出部3および顕著領域画像抽出部4の機能ブロック図である。 特徴量尤度の算出過程の模式図である。 顕著領域抽出グラフの例である。 顕著領域映像生成装置1100の機能ブロック図の一例である。 顕著領域抽出の例である。 顕著領域抽出の比較である
(第1の実施形態)
以下、本発明の第1の実施形態に係る顕著領域映像生成装置1000について図面を参照して説明する。なお、本実施形態(後述する第2の実施形態も同様)においては、領域分割を映像顕著性に基づいて実現するため、以下、「顕著領域抽出」と「領域分割」とを同義で用いる。同様に、「顕著領域」と「物体領域」とを同義で用い、「非顕著領域」と「背景領域」とを同義で用いる。また、以下の説明において、式中の文字上部に ̄が付いた文字は、文中において文字の前に ̄を記載して示す。例えば、式中の文字(下記式1)は文中において ̄xと記載して示す。
また、式中の文字上部に〜が付いた文字は、文中において文字の前に〜を記載して示す。例えば、式中の文字(下記式2)は文中において〜ηと記載して示し、式中の文字(下記式3)は文中において〜Σと記載して示す。
なお、式中の文字(下記式4)と文中のgは同じである。
顕著領域映像生成装置1000は、図1に示すように、外部から入力映像を取得し、当該入力映像を構成する各入力フレーム(各入力画像)からそれぞれの顕著領域を抽出した各顕著領域フレーム(各顕著領域画像)から構成される顕著領域映像を生成し、外部に出力する。
顕著領域映像生成装置1000は、図2に示すように、注目度映像抽出部1、顕著領域事前確率画像抽出部2、特徴量尤度算出部3、顕著領域画像抽出部4および顕著領域映像生成部5を備える。注目度映像抽出部1は、図3に示すように、基礎注目度画像抽出部11、確率的基礎注目度画像抽出部12、確率的基礎注目度母数逐次推定部13、視線位置確率密度画像抽出部14、視線位置確率密度映像出力部15を備える。視線位置確率密度画像抽出部14は、視線移動状態変数更新部141、代表視線位置更新部142、代表視線位置重み係数算出部143、視線位置確率密度画像出力部144、代表視線位置集合再構成部145を備える。顕著領域事前確率画像抽出部2は、図4(a)に示すように、顕著領域事前確率画像生成部21および顕著領域事前確率画像更新部22を備える。特徴量尤度算出部3は、顕著領域特徴量尤度算出部31、図4(b)に示すように、非顕著領域特徴量尤度算出部32および特徴量尤度出力部33を備える。顕著領域特徴量尤度算出部31は、顕著領域特徴量尤度生成部311および顕著領域特徴量尤度更新部312を備える。非顕著領域特徴量尤度算出部32は、非顕著領域特徴量尤度生成部321および非顕著領域特徴量尤度更新部322を備える。顕著領域画像抽出部4は、図4(c)に示すように、顕著領域抽出グラフ生成部41および顕著領域抽出グラフ分割部42を備える。
注目度映像抽出部1は、入力映像を取得する。注目度映像抽出部1は、入力映像の各フレームの中で人間が注意を向けやすい度合いである注目度を示す映像である注目度映像を抽出する。注目度映像抽出部1は、抽出した注目度映像を顕著領域事前確率画像抽出部2に出力(供給)する。
具体的には、注目度映像抽出部1は、視線位置推定の対象となる入力映像、視線位置推定に必要となる第1の母数である確率的基礎注目度母数Θ(t)、及び視線位置推定に必要となる第2の母数である視線位置確率密度母数Θ(t)が入力され、入力映像に含まれる時系列の各入力画像(各フレーム)内の各位置において、人間が視線を向ける確率を示した視線位置確率密度画像X(t)を算出する。更に、視線位置推定装置100は、算出した視線位置確率密度画像X(t)の時系列の映像である視線位置確率密度映像を出力する。
基礎注目度画像抽出部11は、入力された入力映像から視線位置推定を行う入力画像(フレーム)を取り出す。また、基礎注目度画像抽出部11は、取り出した入力画像の中で顕著な特性を持つ空間領域を示した画像である基礎注目度画像を抽出する。そして、抽出した基礎注目度画像を確率的基礎注目度画像抽出部12及び確率的基礎注目度母数逐次推定部13に出力する。
基礎注目度画像抽出部11における基礎注目度画像の抽出処理は、特許文献1に記載されている基礎注目度画像抽出部11の処理と同様であるため、処理内容の詳細な説明は省略する。ただし、本実施形態では、時刻iの入力画像から算出する基礎注目度画像を下記式(5)(以下、「基礎注目度画像 ̄S(i)」と表す)とする。
確率的基礎注目度画像抽出部12は、現在の入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像S(t)を抽出する。なお、確率的基礎注目度画像抽出部12による確率的基礎注目度画像S(t)の抽出は、基礎注目度画像抽出部11から入力された基礎注目度画像 ̄S(i)、該確率的基礎注目度画像抽出部12が算出したこれまでの確率的基礎注目度画像S(t)、及び確率的基礎注目度母数Θ(t)に基づいて行われる。
また、確率的基礎注目度画像抽出部12によって抽出される確率的基礎注目度画像S(t)は、各位置yにおける確率的基礎注目度s(t,y)の期待値である下記式(6)(以下、「期待値^s(t,y|t)」と表す)及び標準偏差σs(t,y|t)を保持する画像である。
また、確率的基礎注目度画像抽出部12は、抽出した確率的基礎注目度画像S(t)を視線位置確率密度画像抽出部14及び確率的基礎注目度母数逐次推定部13に出力する。
なお、確率的基礎注目度画像抽出部12には、確率的基礎注目度母数逐次推定部13によって更新された確率的基礎注目度母数Θ(t+1)が入力される。
確率的基礎注目度画像抽出部12における確率的基礎注目度画像S(t)の抽出は、非特許文献1、2に記載されている手法によって算出することができる。また、確率的基礎注目度画像抽出部12における確率的基礎注目度画像S(t)の抽出方法は、特に限定されるものではないが、一例として、カルマンフィルタを用いた推定方法について述べる。
まず、現在(時刻t)の確率的基礎注目度画像S(t)(確率変数)の位置yにおける画素値s(t,y)(確率変数)が、現在の基礎注目度画像である下記式(7)(以下、「基礎注目度画像 ̄S(t)」と表す)の位置yにおける画素値である下記式(8)(以下、「画素値 ̄s(t,y)」と表す)、及び1時点前(時刻t−1)の確率的基礎注目度画像S(t−1)の位置yにおける画素値s(t−1,y)について、下記式(9)、(10)のような関係式を満たしているものとする。
ここで、確率的基礎注目度母数Θ(t)は、時刻t及び位置yに依存する形で下記式(11)のように与えられているものとする。
また、上記式(9)、(10)において、p(a|b)は、bが与えられたときのaの確率密度を示す。また、下記式(12)は期待値が下記式(13)で標準偏差がσである正規分布に従うsの確率密度を示し、下記式(14)のように表される。
以降の説明においては、画素値 ̄s(t,y)を位置yにおける基礎注目度と呼ぶこととする。また、同様に、確率的基礎注目度s(t,y)を位置yにおける確率的基礎注目度と呼ぶこととする。また、特に必要な場合を除いて、位置yを省略するものとする。例えば、s(t,y)をs(t)と表す。
続いて、1時点前の確率的基礎注目度s(t−1)が、これまでの確率的基礎注目度画像抽出部12の処理により、下記式(15)のような確率密度を用いた表現にて抽出されているものとする。
上記式(15)において、下記式(16)は、時刻tから時刻tまでの基礎注目度の系列、下記式(17)は時刻1から時刻tまでの基礎注目度である下記式(18)が与えられているときの時刻tの確率的基礎注目度s(t)の期待値、σ(t|t)は、この時の標準偏差を示す。
このとき、確率的基礎注目度画像抽出部12は、現在の確率的基礎注目度s(t)の下記式(19)に示す確率密度における期待値である下記式(20)(以下、「期待値^s(t|t)」と表す)及び標準偏差σ(t|t)を、下記式(21)、(22)のようにして更新する。
なお、上述の確率的基礎注目度画像抽出部12における期待値^s(t|t)及び標準偏差σ(t|t)の更新は、画像中の各位置で独立して実行することができる。
また、上記式(10)に替えて、下記式(23)のような関係式を用いることによって、入力画像の各位置における動き成分を考慮した実施形態とすることも可能である。
上記式(23)において、Δy(t)は時刻t、位置yにおけるオプティカルフローであり、例えば、特許文献1に記載されている運動特徴画像抽出部115と同様の方法を用いる。
上記に述べたカルマンフィルタを用いた推定方法では、各位置の確率的基礎注目度s(t,y)が空間方向で独立に抽出されていたが、確率的基礎注目度の空間的な連続性を導入することもできる。以下、動的マルコフ確率場と呼ばれる統計モデルに基づく確率的基礎注目度の記述を行い、平均場近似と呼ばれる統計解析手法により確率的基礎注目度s(t,y)を解析的に導出する場合について述べる。
まず、現在(時刻t)の確率的基礎注目度画像S(t)(確率変数)の位置yにおける画素値s(t,y)(確率変数)が、現在の基礎注目度画像 ̄S(t)の位置yにおける画素値 ̄s(t,y)、1時点前(時刻t−1)の確率的基礎注目度画像S(t−1)の位置yにおける画素値s(t−1,y)、及び位置yの近傍D(y)に含まれる各位置である下記式(24)における現在の確率的基礎注目度画像S(t)の画素値である下記式(25)について、下記式(26)〜(30)のような関係式を満たしているものとする。
ここで、確率的基礎注目度母数Θ(t)は、時刻t及び位置yに依存する形で下記式(31)のように再定義されているものとする。
近傍D(y)の決定方法としては、例えば、位置yの上下左右の4点、もしくはさらに斜め位置4点を加えた8点、などが考えられる。
続いて、上述したカルマンフィルタを用いた推定方法と同様に、1時点前の確率的基礎注目度s(t−1,y)が、これまでの確率的基礎注目度画像抽出部12の処理により、下記式(32)のような確率密度を用いた表現にて抽出されているものとする。
上記式(32)において、下記式(33)は、時刻tまでの基礎注目度画像である下記式(34)が与えられているときの時刻t・位置yの確率的基礎注目度s(t,y)の期待値、σ(t,y|t)は、この時の標準偏差を示す。
このとき、確率的基礎注目度画像抽出部12は、位置yにおける現在の確率的基礎注目度s(t,y)の下記式(35)に示す確率密度における期待値^s(t,y|t)及び標準偏差σ(t,y|t)を更新することが目的となる。
また、確率的基礎注目度画像抽出部12による更新は、繰り返し計算を用いた下記式(36)〜(41)の方法によって行われる。
上記式(36)〜(41)において、|D(y)|は集合D(y)の要素数を示す。また、上記式(36)〜(41)を用いた計算において、上記式(39)に示すような無限ステップの繰り返しは不可能であるため、実際には、第l+1ステップの出力である下記式(42)と第lステップの出力である下記式(43)との差が十分小さくなった時点で繰り返し計算を打ち切ることとする。
また、ステップに関するインデックスlを固定したとき、上記式(38)に示す更新は、画像の各位置において独立に算出することができる。また、それ以外の更新式については、時刻tを固定することによって、同様に画像の各位置において独立に算出することができる。
このことによって、上述の確率的基礎注目度画像抽出部12における期待値^s(t,y|t)及び標準偏差σ(t,y|t)の更新は、上述したカルマンフィルタを用いた推定方法と同様に、画像中の各位置で独立して実行することができ、これらの更新処理を容易に並列化できる。
確率的基礎注目度母数逐次推定部13は、基礎注目度画像抽出部11から入力された基礎注目度画像 ̄S(i)、確率的基礎注目度画像抽出部12から入力された確率的基礎注目度画像S(t)、及び事前に与えられた母数である確率的基礎注目度母数Θ(t)に基づいて、確率的基礎注目度母数Θ(t)を逐次的に更新する。
また、確率的基礎注目度母数逐次推定部13は、更新した確率的基礎注目度母数Θ(t+1)を確率的基礎注目度画像抽出部12に出力する。
なお、確率的基礎注目度母数逐次推定部13は、確率的基礎注目度母数Θ(t)を更新していない場合は、事前に与えられた母数である確率的基礎注目度母数Θ(t)を確率的基礎注目度母数Θ(t+1)として確率的基礎注目度画像抽出部12に出力する。即ち、確率的基礎注目度画像抽出部12から確率的基礎注目度画像S(t)が入力されていない初期段階では、確率的基礎注目度母数Θ(t)の更新ができないため、入力された確率的基礎注目度母数Θ(t)をそのまま確率的基礎注目度画像抽出部12に出力する。
確率的基礎注目度母数逐次推定部13における確率的基礎注目度母数Θ(t+1)の推定方法は特に限定されるものではないが、本実施形態においては、適応カルマンフィルタを用いた推定方法について述べる。
確率的基礎注目度母数逐次推定部13において、次の時刻t+1で用いられる確率的基礎注目度母数Θ(t+1)を、下記式(44)に示す。
確率的基礎注目度母数逐次推定部13は、既に基礎注目度画像抽出部11によって算出されている基礎注目度画像 ̄S(i)、及び確率的基礎注目度画像抽出部12によって算出されている確率的基礎注目度画像S(t)を構成する確率的基礎注目度の期待値及び標準偏差を用いて、下記式(45)〜(52)のように計算する。
上記式(45)〜(52)において、下記式(53)(以下、「 ̄σs1」と表す)及び下記式(54)(以下、「 ̄σs2」と表す)は基本確率的基礎注目度母数であり、予め定めておく、もしくは事前に学習によって算出しておくものである。
また、λs1及びλs2は予め定められた母数の混合比であり、これらの数値を適切に定めることで、逐次更新で獲得した母数である下記式(55),下記式(56)と、予め定めておいた母数 ̄σs1, ̄σs2とのバランスを制御することができる。
なお、λs1=λs2=0とすることにより、確率的基礎注目度母数逐次推定部13による確率的基礎注目度母数Θ(t+1)の推定処理を行わないことと等価になる。また、Nは過去の情報を保持するバッファの時間長である。
視線位置確率密度画像抽出部14は、視線移動状態変数更新部141、代表視線位置更新部142、代表視線位置重み係数算出部143、視線位置確率密度画像出力部144、代表視線位置集合再構成部145から構成される。
視線位置確率密度画像抽出部14は、視線位置確率密度映像を構成するフレームである視線位置確率密度画像X(t)を抽出する。なお、視線位置確率密度画像抽出部14による視線位置確率密度画像X(t)の抽出は、確率的基礎注目度画像抽出部12から入力された確率的基礎注目度画像S(t)、該視線位置確率密度画像抽出部14が抽出したこれまでの視線位置確率密度画像X(t)、及び事前に与えられた母数である視線位置確率密度母数Θ(t)に基づいて行われる。
また、視線位置確率密度画像抽出部14は、視線位置確率密度画像X(t)を視線位置確率密度映像出力部5に出力する。
視線移動状態変数更新部141は、代表視線位置集合再構成部145から出力されたこれまでの出力である視線位置確率密度画像X(t)、及び事前に与えられた母数である視線位置確率密度母数Θ(t)に基づいて、これまでの視線位置確率密度画像X(t)に含まれている視線移動の大きさを制御する確率変数である視線移動状態変数u(t)を更新する。
また、視線移動状態変数更新部141は、更新した視線移動状態変数u(t)の集合である視線移動状態変数集合U(t)を代表視線位置更新部142及び代表視線位置集合再構成部145に出力する。
視線移動状態変数更新部141における視線移動状態確率変数集合U(t)の更新方法は特に限定されるものではないが、本実施形態による方法について述べる。
まず、代表視線位置集合再構成部145の出力の一部として、1時点前(時刻t−1)の視線移動状態変数集合U(t−1)が、下記式(57)のように与えられているものとする。
上記式(57)において、Nは視線移動状態変数集合の要素数、即ち、視線移動状態変数のサンプル数を示す。また、各視線移動状態変数はm通りの値(1,2,・・・,m)のいずれかを取るものとする。
このとき、各視線移動状態変数のサンプルu(t−1)から、視線位置確率密度母数Θ(t)の1つである視線移動遷移確率行列Φ={φ(i,j)(i,j)に基づいて、現在の視線移動状態変数のサンプルu(t)をランダムに生成する。視線移動遷移確率行列はm行m列の行列によって表現され、i行j列の要素φ(i,j)によって、状態jから状態iへ遷移する確率を表現している。よって、Φは下記式(58)に示すような性質を満たす。
即ち、上述のようにして生成した視線移動状態変数のサンプルu(t)の集合である下記式(59)が、現在の視線移動状態変数集合U(t)となる。
なお、現在の視線移動状態変数集合U(t)に含まれる視線移動状態変数のサンプルu(t)の経験確率分布が、視線移動状態変数の生起確率の近似となっている。
別の実施形態として、視線移動状態変数更新部141では何の処理もしないことも可能である。しかし、これは、前述の視線移動状態変数更新部141における視線移動状態確率変数集合U(t)の更新処理において、m=1、即ち、視線移動状態が1通りしかないことと等価である。
代表視線位置更新部142は、代表視線位置集合再構成部145から出力されたこれまでの出力である視線位置確率密度画像X(t)、視線移動状態変数更新部141から入力された視線移動状態変数集合U(t)、及び事前に与えられた母数である視線位置確率密度母数Θ(t)に基づいて、視線移動状態変数u(t)によって制御される視線移動を考慮し、これまでの視線位置確率密度画像X(t)に含まれている代表的な視線位置を表現する代表視線位置の集合である代表視線位置集合V(t)を更新する。
また、代表視線位置更新部142は、更新した代表視線位置集合V(t)を代表視線位置重み係数算出部143、視線位置確率密度画像出力部144、及び代表視線位置集合再構成部145に出力する。
代表視線位置更新部142における代表視線位置集合V(t)の更新方法は特に限定されるものではないが、本実施形態による方法について述べる。
まず、視線移動状態変数u(t)によって視線位置x(t)が制御されるモデルとして、以下の2通りのモデルについて述べる。
(モデル1):1時点前(時刻t−1)における視線位置が、視線位置x(t−1)として与えられているときの、現在(時刻t)における視線位置x(t)の生起確率を、現在の視線移動状態変数u(t)に依存する形で、下記式(60)のように与える。
上記式(60)において、γxi及びσxi(i=0,1,・・・,m−1)はそれぞれ視線位置確率密度母数Θ(t)を構成する定数、下記式(61)(以下、「確率密度Q(x; ̄x,γ,σ)」と表す)は中心が下記式(62)、最頻距離がγ、最頻距離からの標準偏差に相当する母数をσとする下記式(63)に示す確率密度関数を表す。
上記式(63)において、‖x‖はベクトルxのノルム、Zは確率密度Q(x; ̄x,γ,σ)の全定義域における積分値を1にするための下記式(64)で表される正規化定数を示す。
(モデル2):1時点前(時刻t−1)における視線位置が、視線位置x(t−1)として与えられているときの、現在(時刻t)における視線位置x(t)の生起確率として、ベータ分布を用いる。なお、1次元変量xに対するベータ分布は、定義域を下記式(65)とする下記式(66)によって定義される。
上記式(66)において、a,bはそれぞれベータ分布を特徴付ける母数を示す。また、B(a,b)はベータ関数と呼ばれ、ベータ分布の全定義域における積分値を1にするための下記式(67)に示す正規化定数を表す。
なお、本実施形態においては、正規化定数の変量として位置xと、予め定められた原点xとの距離を用い、定義域を下記式(68)とするベータ分布である下記式(69)を用いる。
即ち、上述のベータ分布である下記式(70)は、下記式(71)によって与えられる。
上記式(71)のように正規化されたベータ分布を用いることにより、1時点前(時刻t−1)の視線位置が視線位置x(t−1)として与えられているときの、現在(時刻t)の視線位置x(t)の生起確率は、現在の視線移動状態変数u(t)に依存する形で、下記式(72)のように与えられる。
上記式(72)において、axi及びbxi(i=0,1,m−1)は、それぞれ視線位置確率密度母数Θ(t)を構成する定数を表す。
代表視線位置更新部142は、上述したモデルのいずれかを用いる方法によって、次に述べるように、代表視線位置集合V(t)を更新する。
まず、代表視線位置集合再構成部145の出力の一部として、1時点前(時刻t−1)の代表視線位置集合V(t−1)が、下記式(73)のように与えられているものとする。
上記式(73)において、Nは代表視線位置集合V(t)の要素数、即ち、代表視線位置のサンプル数を示す。なお、一般的な実施形態においては、代表視線位置集合V(t)の要素数Nを、視線移動状態変数集合U(t)の要素数Nと同一にしておく。
また、代表視線位置更新部142は、1時点前(時刻t−1)における代表視線位置の各サンプルx(t−1)から、上述したいずれかのモデルによって下記式(74)のように示す確率密度関数を用いて、現時点(時刻t)における代表視線位置のサンプルx(t)をランダムに生成する。
なお、上記式(74)のように示す確率密度関数を用いてランダムにサンプルを生成する方法は、サンプル生成に用いる確率密度関数が複雑である。このため、直接的な方法によってランダムなサンプルを生成することは困難である。しかし、上述のようなランダムのサンプル生成は、例えば、マルコフ連鎖モンテカルロ法に基づいたサンプル生成の方法を用いることができる。
次に、一般にMetropolis−Hastingsアルゴリズムと呼ばれるマルコフ連鎖モンテカルロ法に基づいたサンプル生成の詳細な方法について述べる。
まず、代表視線位置更新部142は、代表視線位置の仮のサンプルの初期値である下記式(75)として、1時点前(時刻t−1)における代表視線位置のサンプルを下記式(76)のように与える。
次に、原点対称な確率密度関数を用いて、2次元ベクトルである下記式(77)を生成し、この2次元ベクトルである下記式(78)を、第k−1ステップの代表視線位置の仮のサンプルである下記式(79)に加えることによって、第kステップの代表視線位置の仮のサンプルである下記式(80)を下記式(81)のように生成する。
この原点対称な確率密度関数は、原点に対する対称性を満足しているのみで良く、例えば、原点を中心とする2次元正規分布、原点を中心とする各要素±δの範囲内の一様分布、などが考えられる。
そして、第kステップの仮の代表視線位置のサンプルである上記式(80)の生起確率と第k−1ステップの代表視線位置の仮のサンプルである上記式(79)の生起確率との比である下記式(82)を下記式(83)に基づいて計算する。
最後に、下記式(84)の一様乱数である下記式(85)を発生させ、下記式(86)の場合のみ、第kステップの代表視線位置の仮のサンプルである上述の数式(80)を棄却して第k−1ステップの代表視線位置の仮のサンプルである上述の数式(79)に置き換える。
その後、上述の仮のサンプルの生成ステップをあらかじめ定められた回数(K回)繰り返し、第Kステップの仮のサンプルである下記式(87)を下記式(88)に示すような時刻tの代表視線位置のサンプルとする。
上記に述べたとおり、マルコフ連鎖モンテカルロ法に基づいて、サンプルを生成する。この生成したサンプルの集合である下記式(89)が、即ち、現時点の代表視線位置集合V(t)となる。また、現時点の代表視線位置集合V(t)に含まれる代表視線位置サンプルの経験確率分布が、視線位置の生起確率の近似となっている。
代表視線位置重み係数算出部143は、確率的基礎注目度画像抽出部12から入力された確率的基礎注目度画像S(t)、代表視線位置更新部142から入力された代表視線位置集合V(t)、及び事前に与えられた母数である視線位置確率密度母数Θ(t)に基づいて、各代表視線位置に関連付けられた重みである代表視線位置重み係数を算出する。
また、代表視線位置重み係数算出部143は、算出した代表視線位置重み係数の集合である代表視線位置重み係数集合である下記式(90)を視線位置確率密度画像出力部144及び代表視線位置集合再構成部145に出力する。
代表視線位置重み係数算出部143における代表視線位置重み係数集合W(t)の抽出方法は特に限定されるものではないが、本実施形態においては、信号検出理論に基づいた代表視線位置重み係数集合W(t)の抽出方法について述べる。
代表視線位置のサンプルx(t)(n=1,2,・・・,N)に関連付けられる代表視線位置重み係数w(t)は、下記式(91)及び下記式(92)によって算出される。なお、下記式(91)及び下記式(92)は、位置x(t)における確率的基礎注目度s(t,y)の実現値が、ある位置集合D(x(t))以外の位置yにおける確率的基礎注目度s(t,y)の実現値以上となる確率を算出するものである。
なお、上記式(91)および上記式(92)においてのみs=s(t,x(t))の表記を用いている。また、上記式(91)および上記式(92)において、下記式(93)は、位置yにおける現在の確率的基礎注目度s(t,y)の確率分布関数を示し、位置yにおける現在の確率密度p(s(t,x))に対応して、下記式(94)のように定義される。
ある位置集合D(x)の与え方は種々の方法が考えられるが、例えば、位置x以外の任意位置の集合、位置x以外で基礎注目度である下記式(95)が局所的に最大となる位置yの集合、位置x以外で確率的基礎注目度s(t,y)の期待値である下記式(96)が局所的に最大となる位置yの集合、などが考えられる。
上記に述べた信号検出理論に基づいた代表視線位置重み係数集合W(t)の抽出方法では、サンプリングにより代表視線位置集合V(t)及び代表視線位置重み係数集合W(t)を抽出していたが、サンプリングを用いずに代表視線位置重み係数集合W(t)を抽出することもできる。以下、サンプリングを用いずに代表視線位置重み係数集合W(t)を抽出する方法について述べる。
サンプリングを用いずに代表視線位置重み係数集合W(t)を抽出する方法では、代表視線位置更新部142による代表視線位置集合V(t)の更新と、代表視線位置重み係数算出部143による代表視線位置重み係数集合W(t)の抽出とが同時に行われる。
まず、上述した信号検出理論に基づいた代表視線位置重み係数集合W(t)の抽出方法と同様に下記式(97)によって、位置x(t)における確率的基礎注目度s(t,y)の実現値が、ある位置集合D(x(t))以外の位置yにおける確率的基礎注目度s(t,y)の実現値以上になる確率を、入力画像中の各位置において算出する。
続いて、この上記式(97)によって算出した確率分布を、下記式(98)〜(102)に示すようなEMアルゴリズムを用いて混合ガウス分布でモデル化する。即ち、混合ガウス分布の各パラメータであるガウス分布の混合比π(t)(n=1,2,・・・,M)、各ガウス分布の平均ベクトルである下記式(103)、及び共分散行列S(t)を、下記式(98)〜(102)によるモデル化のステップをk=1,2,・・・について各パラメータが収束するまで繰り返すことによって混合ガウス分布のモデルを導出する。なお、混合ガウス分布のモデル導出の際、位置xがどのガウス分布に所属するものであるかを表現する確率変数zを導入する。
上記式(98)〜(102)において、α(n=1,2,・・・,M)は、下記式(104)を満たすようにあらかじめ定められた定数を示す。
なお、ガウス分布の混合比π(t)が予め定められた定数よりも小さいガウス分布については、ガウス分布の混合比π(t)に対する寄与が小さいものとして除去し、最終的に残ったN個のガウス分布によって混合ガウス分布を構成する。そして、この混合ガウス分布の各平均位置である上記式(103)(n=1,2,・・・,N)を、現時点(時刻t)の代表視線位置v(t)(n=1,2,・・・,N)として決定する。
このことから、サンプリングを用いずに代表視線位置重み係数集合W(t)を抽出する方法では、代表視線位置集合V(t)の要素数Nは、予め与えられるものではなく、入力画像によって異なることがわかる。
一方、代表視線位置重み係数w(t)(n=1,2,・・・,N)については、1時点前(時刻t−1)の代表視線位置集合である下記式(105)、1時点前(時刻t−1)の代表視線位置重み係数集合である下記式(106)及び上記の混合ガウス分布の混合比π(t)に基づいて、下記式(107)のようにして算出する。
これは、即ち、1時点前の代表視線位置集合V(t)及び代表視線位置重み係数w(t)から構成される混合ガウス分布を、上記式(98)〜(102)によってモデル化した混合ガウス分布に、視線移動に関する確率密度p(s(t,x))を考慮して遷移させたものである。
上記に述べたとおり、サンプリングを用いずに代表視線位置重み係数集合W(t)を抽出する方法では、代表視線位置更新部142及び代表視線位置重み係数算出部143は、代表視線位置集合である下記式(108)及び代表視線位置重み係数集合である上記式(90)を抽出し、視線位置確率密度画像出力部144に出力する。
視線位置確率密度画像出力部144は、代表視線位置更新部142から入力された代表視線位置集合V(t)、及び代表視線位置重み係数算出部143から入力された代表視線位置重み係数集合W(t)に基づいて、代表視線位置確率密度画像H(t)を抽出する。
また、視線位置確率密度画像出力部144は、抽出した代表視線位置確率密度画像H(t)を代表視線位置集合再構成部145に出力する。
視線位置確率密度画像出力部144による代表視線位置確率密度画像H(t)の算出方法は特に限定されるものではないが、本実施形態による方法について述べる。
視線位置確率密度画像出力部144は、現時点(時刻t)の代表視線位置確率密度画像H(t)の位置x(t)における画素値を、代表視線位置集合V(t)及び代表視線位置重み集合W(t)に基づいて、下記式(109)のように算出する。
上記式(109)において、f(・)は予め定められた関数であり、例えば、下記式(110)に示すデルタ関数や、下記式(111)に示す2次元正規分布などが考えられる。
代表視線位置集合再構成部145は、代表視線位置更新部142から入力された代表視線位置集合V(t)、視線移動状態変数更新部141から入力された視線移動状態変数集合U(t)、及び代表視線位置重み係数算出部143から入力された代表視線位置重み係数集合W(t)に基づいて、代表視線位置集合V(t)及び視線移動状態変数集合U(t)を、代表視線位置重み係数集合W(t)の示す重み配分に従って再構成する。
また、代表視線位置集合再構成部145は、代表視線位置重み係数集合W(t)を再構成する。
また、代表視線位置集合再構成部145は、再構成された代表視線位置集合V(t)、視線移動状態変数集合U(t)、及び代表視線位置重み係数集合W(t)に基づいた、視線位置確率密度画像X(t)を視線位置確率密度映像出力部5に出力する。
また、代表視線位置集合再構成部145は、視線位置確率密度画像X(t)を視線移動状態変数更新部141及び代表視線位置更新部142に出力する。
代表視線位置集合再構成部145における代表視線位置集合V(t)及び視線移動状態変数集合U(t)の再構成方法は特に限定されるものではないが、本実施形態による方法について述べる。
まず、代表視線位置重み係数w(t)(n=1,2,・・・,N)の累積和c(t)を下記式(112)によって算出する。なお、累積和c(t)を算出する際に必要に応じて、代表視線位置重み係数w(t)の大きい順に代表視線位置v(t)、視線移動状態変数u(t)及び代表視線位置重み係数w(t)の並べ替えを行う。
以降の処理のため、c(t)=0と定める。
次に、ある数κを下記式(113)の範囲でランダムに定め、以降、n=2,3,・・・,Nについて、κを下記式(114)のように定める。
そして、n=1,2,・・・,Nのそれぞれについて、下記式(115)の条件を満たす整数nを求める。
そして、新しい代表視線位置である下記式(116)を下記式(117)のように定める。
また、新しい視線移動状態変数である下記式(118)を下記式(119)のように定める。
なお、新しい代表視線位置重み係数である下記式(120)は、全て1/Nとする。
なお、上述した代表視線位置集合V(t)及び視線移動状態変数集合U(t)の再構成は、必ずしも全ての時刻において実施する必要はなく、例えば、ある一定時間間隔を置いて実施することや、全く実施しないこともできる。
また、例えば、下記式(121)に示す代表視線位置重み係数の偏りに関する条件を満たさないときのみ実施することもできる。
上記式(121)において、Neffは下記式(122)を満たすように予め定められた定数である。
また、代表視線位置集合再構成部145は、上記に述べた代表視線位置集合V(t)、視線移動状態変数集合U(t)、及び代表視線位置重み係数集合W(t)の再構成方法によって再構成した新しい代表視線位置集合である下記式(123)、新しい視線移動状態変数集合である下記式(124)、及び新しい代表視線位置重み係数集合である下記式(125)に基づいて、視線位置確率密度画像出力部144から入力された代表視線位置確率密度画像H(t)を再構成した視線位置確率密度画像X(t)を、視線位置確率密度画像抽出部14の出力として視線位置確率密度映像出力部5に出力する。
なお、代表視線位置集合再構成部145による代表視線位置集合V(t)、視線移動状態変数集合U(t)、及び代表視線位置重み係数集合W(t)の再構成を全く実施しない場合は、視線位置確率密度画像出力部144から入力された代表視線位置確率密度画像H(t)を視線位置確率密度画像抽出部14の出力である視線位置確率密度画像X(t)として視線位置確率密度映像出力部5に出力する。
視線位置確率密度映像出力部5は、入力映像に含まれる時系列の各入力画像から、基礎注目度画像抽出部11、確率的基礎注目度画像抽出部12、確率的基礎注目度母数逐次推定部13、及び視線位置確率密度画像抽出部14の処理によって抽出される視線位置確率密度画像X(t)の時系列である視線位置確率密度映像を抽出して、出力する。
上記に述べたとおり、第1の実施形態によれば、視線位置推定の対象となる入力映像、確率的基礎注目度母数Θ(t)、及び視線位置確率密度母数Θ(t)に基づいて、視線位置確率密度映像を出力する場合に、確率的基礎注目度母数Θ(t)を逐次更新することができる。
また、第1の実施形態によれば、確率的基礎注目度画像抽出部12における期待値及び標準偏差の更新を、入力画像中の各位置で独立して実行することができる。その結果、確率的基礎注目度画像抽出部12による期待値及び標準偏差の更新処理を、複数コアを持つ計算機やGraphic Processor Unit(GPU)などの並列処理が可能な計算機上で容易に並列化することができ、処理を高速化することができる。
なお、注目度映像抽出部1は、確率的基礎注目度画像抽出部12、確率的基礎注目度母数逐次推定部13、視線位置確率密度画像抽出部14、視線位置確率密度映像出力部15による上述の手法に代えて、下記非特許文献3、4に記載の手法でも、注目度映像を抽出することもできる。但し、確率的基礎注目度画像抽出部12、確率的基礎注目度母数逐次推定部13、視線位置確率密度画像抽出部14、視線位置確率密度映像出力部15による手法は、上述の如く並列処理に適しているため、非特許文献3、4に記載の手法に比べ、高速に計算(高速に注目度映像を抽出)することができる。
(非特許文献3)Derek Pang,Akisato Kimura,Tatsuto Takeuchi,Junji Yamato and Kunio Kashino,”A stochastic model of selective visual attention with a dynamic Bayesian network,”Proc.International Conference on Multimedia and Expo (ICME2008),pp.1073−1076, Hannover,Germany,June 2008.
(非特許文献4)Akisato Kimura,Derek Pang,Tatsuto Takeuchi, Junji Yamato and Kunio Kashino,”Dynamic Markov random fields for stochastic modeling of visual attention,”Proc.International Conference on Pattern Recognition (ICPR2008), Mo.BT8.35,Tampa, Florida,USA,December 2008.
顕著領域事前確率画像抽出部2は、入力映像を構成する各フレームである入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を抽出する。具体的には、顕著領域事前確率画像抽出部2は、注目度映像の一のフレームである注目度画像および顕著領域画像抽出部4によって抽出された顕著領域画像から、入力映像中の対応するフレームである入力画像の各位置が顕著領域である確率を表示する顕著領域事前確率画像を抽出する。換言すれば、顕著領域事前確率画像抽出部2は、一の入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を、注目度映像抽出部1によって抽出された注目度映像内の当該入力画像に対応する画像である注目度画像および顕著領域画像抽出部4によって抽出された当該入力画像に対応する顕著領域画像に基づいて抽出する。顕著領域事前確率画像抽出部2は、抽出した顕著領域事前確率画像を特徴量尤度算出部3および顕著領域画像抽出部4に出力する。顕著領域事前確率画像抽出部2が顕著領域事前確率画像を抽出する方法は特に限定しないが、本実施形態においては、顕著領域事前確率画像生成部21と顕著領域事前確率画像更新部22とによって抽出する方法について説明する。
顕著領域事前確率画像生成部21は、注目度画像を入力し、注目度画像のみから顕著領域事前確率画像を生成する。顕著領域事前確率画像生成部21が注目度画像から顕著領域事前確率画像を生成する方法は特に限定しないが、本実施形態においては、ガウス混合分布モデルを利用した方法について説明する。
顕著領域事前確率画像生成部21は、まず、時刻tの注目度画像(即ち、基礎注目度画像 ̄S(t)若しくは視線位置確率密度画像X(t))が、それぞれ中心位置〜x(t)・共分散行列〜Σs,j(t)(j=1,2,・・・,M)を持ち、混合比が〜ηs,j(t)であるM個のガウス分布の混合によって構成されていると仮定し、そのモデルパラメータ(即ち、M個の中心位置、共分散行列、混合比)を注目度画像(b)から推定する。推定方法の具体例は、以下の2つである。
(推定方法1)
EMアルゴリズムを用いて導出する。このとき、EMアルゴリズムに与える各サンプルは注目度画像(b)のある特定の位置xに対応し、位置xにおける画素値と等しい値の重みを持つことに注意する。EMアルゴリズムによるガウス混合分布パラメータの推定は、下記式(126)〜下記式(129)をk=1,2,・・・で繰り返すことによって行われ、各パラメータが収束した時点で手順を打ち切り、パラメータを固定する。
ここで、g(x;〜x,Σ)は多次元正規分布であり、次元数がDとするときには下記式(130)で定義される。
また、視線位置確率密度画像X(t)の位置xにおける画素値を、位置xをEMアルゴリズムのサンプルとみなしたときの重みとして利用していることから、ここではw(t)と表現している。
(推定方法2)
注目度画像の画素値の極大値をM個検出し、極大値となる位置を中心位置〜x(t)(j=1,2,・・・,M)として定め、その位置の注目度画像の画素値を混合比〜ηs,j(t)とする。共分散行列〜Σs,j(t)については、第1の推定方法と同様にして求めるか、予め定めておいた値を利用する。
以上のようにして、顕著領域事前確率画像生成部21は、注目度画像からガウス混合分布のモデルパラメータを推定し、顕著領域事前確率画像を生成する。具体的には、顕著領域事前確率画像生成部21は、モデルパラメータの1つである混合比を、その最大値が1と等しくなるように正規化し、その後に各位置におけるガウス混合分布の確率を計算して、当該位置の顕著領域事前確率画像 ̄Ξ(t)の画素値ξ(x,t)とする(下記式(131))。
上記の実施形態では、全ての位置においてガウス混合分布を用いた方法によって顕著領域事前確率画像を生成しているが、顕著領域が画像の中心位置に存在しやすいことを考慮した後述する第2の実施形態も可能である。即ち、この場合には、顕著領域事前確率画像を第1の実施形態と同様に生成した後、画像の左右両端もしくは上下左右の端の一定領域のピクセル値を強制的に0とする。当該方法は、画像の端に顕著領域が存在する可能性を排除することを意味している。若しくは、顕著領域事前確率画像を第1の実施形態と同様に生成した後、画像の中心位置からの距離に比例する重みを顕著領域事前確率画像に掛け合わせ、その出力を新たに顕著領域事前確率とする実施形態も考えられる。上記の通り、顕著領域事前確率画像生成部21は、顕著領域事前確率画像 ̄Ξ(t)を生成し出力する。
顕著領域事前確率画像更新部22は、顕著領域画像を用いて顕著領域事前確率画像生成部21によって生成された顕著領域事前確率画像を更新する。即ち、顕著領域事前確率画像更新部22は、顕著領域事前確率画像生成部21によって生成された顕著領域事前確率画像、および、顕著領域画像抽出部4によって抽出された顕著領域画像を入力し、顕著領域画像を用いて顕著領域事前確率画像を更新する。顕著領域事前確率画像更新部22が顕著領域事前確率画像を更新する方法は特に限定しないが、本実施形態においては、カルマンフィルタの原理を利用する方法について説明する。
現時点(時刻t)の顕著領域事前確率画像Ξ(t)(確率変数)の位置xにおける画素値ξ(x,t)(確率変数)が、現時点の更新前顕著領域事前確率画像 ̄Ξ1(t)の位置xにおける画素値 ̄ξ1(x,t)、および、1時点前(時刻t−1)の顕著領域画像A(t−1)の位置xにおける画素値a(x,t−1)について、下記式(132)(133)を満たしているものとする。
ここで、θ=(σ,σ)はあらかじめ与えられるパラメータである。またf(・) は、顕著領域画像の画素値を実数値に変換する関数であり、例えば、下記式(134)(135のように設定する。
このとき、顕著領域事前確率画像更新部22は、現時点の顕著領域事前確率画像Ξ(t)の位置xにおける画素値ξ(x,t)を、カルマンフィルタの原理を利用することにより、下記式(136)(137)によって更新する。
上記の実施形態では、各時刻の顕著領域事前確率を保持しているが、この分散を次の時刻での更新の際に利用しなくてもよい。即ち、上記式(136)(137)に、下記式(138)を追加してもよい。
上記の通り、顕著領域事前確率画像更新部22は、顕著領域事前確率画像 ̄Ξ(t) をΞ(t)に更新し、更新後の顕著領域事前確率画像Ξ1(t)を出力する。
上記の通り、顕著領域事前確率画像抽出部2は、図5に示すように、顕著領域事前確率画像Ξ1(t)を抽出(生成、更新)し、出力する。
特徴量尤度算出部3は、入力画像の顕著領域および顕著領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する。具体的には、特徴量尤度算出部3は、特徴量尤度を、入力画像、注目度画像、顕著領域事前確率画像抽出部2によって抽出された顕著領域事前確率画像、顕著領域画像抽出部4によって抽出された顕著領域画像および前回迄に算出した特徴量尤度の少なくとも1つに基づいて算出する。例えば、特徴量尤度算出部3は、入力画像、顕著領域事前確率画像、顕著領域画像および前回迄に算出した特徴量尤度から、特徴量尤度を算出する。特徴量尤度算出部3は、算出した特徴量尤度を顕著領域画像抽出部4に出力する。特徴量尤度算出部3が徴量尤度を算出する方法は特に限定しないが、本実施形態においては、顕著領域特徴量尤度算出部31と非顕著領域特徴量尤度算出部32と特徴量尤度出力部33とによって算出する方法について説明する。
顕著領域特徴量尤度算出部31は、顕著領域に含まれる画像特徴量の尤度を示す顕著領域特徴量尤度を、入力画像、顕著領域事前確率画像、顕著領域画像および前回迄に算出した顕著領域特徴量尤度のうち少なくとも1つに基づいて算出する。顕著領域特徴量尤度算出部31が顕著領域特徴量尤度を算出する方法は特に限定しないが、本実施形態においては、顕著領域特徴量尤度生成部311と顕著領域特徴量尤度更新部312とによって算出する方法について説明する。
顕著領域特徴量尤度生成部311は、入力画像、顕著領域事前確率画像および顕著領域画像に基づいて顕著領域特徴量尤度を新たに生成(算出)し、出力する。顕著領域特徴量尤度生成部311が顕著領域特徴量尤度を生成する方法は、特に限定しないが、本実施形態においては、ガウス混合分布モデルを利用した方法について説明する。
顕著領域特徴量尤度生成部311は、まず、時刻tにおいて、顕著領域に特有の特徴量の確率分布である顕著領域特徴量確率が、それぞれ平均〜c(t)・共分散行列〜Σf,j(t)(j= 1,2,・・・,M)を持ち、混合比が〜ηf,j(t)であるM個のガウス分布の混合によって構成されていると仮定し、これらのモデルパラメータを、顕著領域事前確率画像の画素値で重み付けした入力画像の画素値から推定する。モデルパラメータの推定には、例えばEMアルゴリズムを用いる。具体的には、下記式(139)〜下記式(142)をk=1,2,・・・ で繰り返すことによって行われ、各パラメータが収束した時点で手順を打ち切り、パラメータを固定する。
ここで、入力画像の位置xにおける画素値は、RGBの3次元ベクトルとしてc(x, t)で表現される。上記のようにして、顕著領域特徴量尤度生成部311は、推定したガウス混合分布のモデルパラメータから、顕著領域特徴量尤度を算出する。具体的には、推定したモデルパラメータで特徴付けられるガウス混合分布を尤度とする下記式(143)によって算出する。
上記の通り、顕著領域特徴量尤度生成部311は、顕著領域特徴量尤度 ̄ψ(c, t)を生成(算出)し、出力する。
顕著領域特徴量尤度更新部312は、顕著領域特徴量尤度生成部311によって生成された顕著領域特徴量尤度を更新する。具体的には、顕著領域特徴量尤度更新部312は、入力画像、顕著領域画像および前回迄に更新した更新後の顕著領域特徴量尤度のうち少なくとも1つに基づいて、顕著領域特徴量尤度生成部311によって生成された顕著領域特徴量尤度を更新する。顕著領域特徴量尤度更新部312が顕著領域特徴量尤度(e1)を更新する方法は特に限定しないが、本実施形態においては、以下の2通りの方法を説明する。
(更新方法1)
2種類の顕著領域特徴量尤度を混合することによって更新する。具体的には、求めるべき現時点(時刻t)の顕著領域特徴量尤度ψ(c,t)を、顕著領域特徴量尤度生成部311から出力された更新前の顕著領域特徴量尤度ψ1(c,t)、および、1時点前(時刻t−1)の顕著領域特徴量尤度 ̄ψ(c,t−1)を、あらかじめ定められた混合比λにて混合する下記式(144)によって計算する。
(更新方法2)
1時点前(時刻t−1)の顕著領域画像A(t−1)に基づいて、1時点前の顕著領域特徴量尤度ψ(c,t−1)を更新した上で第1の実施形態と同様の方法を実施する。具体的には、1時点前の顕著領域画像A(t−1)において顕著領域であるとされた領域(下記式(145)によって示される顕著領域Aobj(t))を取り出し、顕著領域Aobj(t)にある入力画像中の画素値から、顕著領域特徴量尤度生成部311に示した方法と同様の方法で顕著領域特徴量尤度ψ(c,t−1)を再学習する。但し、本実施形態では、重みとして、顕著領域事前確率画像に代えて顕著領域画像を用いるものとする。1時点前の顕著領域特徴量尤度ψ1(c,t−1)を再学習した後、第1の実施形態と同様の方法により、現在の顕著領域特徴量尤度ψ(c,t)を生成する。
上記の通り、顕著領域特徴量尤度更新部312は、顕著領域特徴量尤度 ̄ψ(c,t)をψ(c,t)に更新し、出力する。上記の通り、顕著領域特徴量尤度算出部31は、顕著領域特徴量尤度ψ(c,t) を算出し、出力する。
非顕著領域特徴量尤度算出部32は、顕著領域外の領域に含まれる画像特徴量の尤度を示す非顕著領域特徴量尤度を、入力画像、顕著領域事前確率画像、顕著領域画像および前回迄に算出した非顕著領域特徴量尤度のうち少なくとも1つに基づいて算出する。非顕著領域特徴量尤度算出部32が非顕著領域特徴量尤度を算出する方法は特に限定しないが、本実施形態においては、非顕著領域特徴量尤度生成部321と非顕著領域特徴量尤度更新部322とによって算出する方法について説明する。
非顕著領域特徴量尤度生成部321は、入力画像、顕著領域事前確率画像および顕著領域画像に基づいて非顕著領域特徴量尤度を新たに生成(算出)し、出力する。非顕著領域特徴量尤度生成部321が非顕著領域特徴量尤度を生成する方法は特に限定しないが、本実施形態においては、ガウス混合分布モデルを利用した方法について説明する。当該方法は、前述の顕著領域特徴量尤度生成部311の方法とほぼ同様であるが、顕著領域事前確率画像に代えて、顕著領域事前確率画像Ξ(t)の各画素値ξ(x,t)をある規則に従って変換して生成した画像である非顕著領域事前確率画像Ξ(t)を用いるものとする。当該変換規則として、例えば以下の2つの方法が考えられる。
(方法1)
非顕著領域事前確率画像(f)の位置xにおける画素値ξ(x,t)を、1−ξ(x,t)に変換する。
(方法2)
ξ(x,t)=0である位置xのみ、その位置の非顕著領域事前確率画像(f)の画素値を1とする。それ以外の位置は、画素値を0とする。
上記の通り、非顕著領域特徴量尤度生成部321は、非顕著領域特徴量尤度 ̄ψ(c,t)を生成(算出)し、出力する。
非顕著領域特徴量尤度更新部322は、非顕著領域特徴量尤度生成部321によって生成された非顕著領域特徴量尤度を更新する。具体的には、非顕著領域特徴量尤度更新部322は、入力画像、非顕著領域画像および前回迄に更新した更新後の非顕著領域特徴量尤度のうち少なくとも1つに基づいて、非顕著領域特徴量尤度生成部321によって生成された非顕著領域特徴量尤度を更新する。なお、非顕著領域画像は、顕著領域事前確率画像抽出部2によって抽出される顕著領域外の領域に係る画像である。非顕著領域特徴量尤度更新部322が非顕著領域特徴量尤度を更新する方法は、顕著領域特徴量尤度更新部312の方法と同様である。但し、顕著領域事前確率画像に代えて非顕著領域事前確率画像を、顕著領域特徴量尤度に代えて非顕著領域特徴量尤度を、顕著領域に代えて非顕著領域(下記式(146)によって示される顕著領域Abkg(t))を用いる。
上記の通り、非顕著領域特徴量尤度更新部322は、非顕著領域特徴量尤度ψ(c,t)を更新し、更新後の非顕著領域特徴量尤度を出力する。上記の通り、非顕著領域特徴量尤度算出部32は、非顕著領域特徴量尤度ψ(c,t)を抽出し、出力する。
特徴量尤度出力部33は、顕著領域特徴量尤度および非顕著領域特徴量尤度を加算して特徴量尤度として出力する。
顕著領域画像抽出部4は、入力画像、顕著領域事前確率画像および特徴量尤度から、入力画像の顕著領域を示す顕著領域画像を抽出する。顕著領域画像抽出部4は、抽出した顕著領域画像を顕著領域事前確率画像抽出部2、特徴量尤度算出部3および顕著領域映像生成部5に出力する。顕著領域画像抽出部4が顕著領域画像を抽出する方法は特に限定しないが、本実施形態においては、非特許文献1に記載の方法を基礎としたグラフカットを用いる方法について説明する。当該方法は、顕著領域抽出グラフ生成部41と、顕著領域抽出グラフ分割部42とによって顕著領域画像を抽出する。
顕著領域抽出グラフ生成部41は、入力画像、顕著領域事前確率画像および特徴量尤度を入力し、顕著領域画像を抽出するためのグラフである顕著領域抽出グラフを生成し、出力する。
具体的には、顕著領域抽出グラフ生成部41は、まず、時刻tの顕著領域抽出グラフG(t)の頂点として、入力画像の各位置x∈Iに対応する頂点と、顕著領域・非顕著領域のラベルにそれぞれ対応する頂点の2種類の頂点を用意する。即ち、頂点は総計画素数+2個となる。以降、簡単のため、各位置xに対応する頂点をv、顕著領域のラベルに対応する頂点をSOURCES、非顕著領域のラベルに対応する頂点をSINKTとして、それぞれ表現する。また、顕著領域抽出グラフの辺として、近傍位置に対応する頂点の間相互に配置される有向辺であるn−linkと、SOURCEから各頂点・各頂点からSINKにそれぞれ配置される有向辺であるt−linkの2種類の辺を用意する。近傍としては、例えば上下左右の4近傍、若しくはさらに斜め方向を加えた8近傍を考える。このようにして、顕著領域抽出グラフは有向グラフとして、例えば図6に示すような形で構成される。
次に、顕著領域抽出グラフ生成部41は、顕著領域抽出グラフの各辺にコストを与える。t−linkのコストは、顕著領域事前確率画像および特徴量尤度から算出される。具体的には、SOURCESから頂点vへのt−linkのコストC(S,v;t)は対応する非顕著領域事前確率と非顕著領域特徴量尤度の和で、頂点vからSINKTへのt−linkのコストC(T,v;t)は、対応する顕著領域事前確率と顕著領域特徴量尤度を用いて、下記式(147)(148)のように与えられる。
一方、n−linkのコストは、近接画素間の輝度値の類似性に基づいて算出される。具体的には、ある2点vとvとの間のn−linkのコストC(v,v)は、下記式(149)で与えられる。
顕著領域抽出グラフ分割部42は、顕著領域抽出グラフを入力し、顕著領域抽出グラフを分割することで顕著領域画像を生成し、出力する。
具体的には、顕著領域抽出グラフ分割部42は、まず、顕著領域抽出グラフに含まれる頂点を、SOURCEを含む部分集合とSINKを含む部分集合に分割することを考える。このとき、SOURCE側の頂点の部分集合からSINK側の頂点の部分集合へまたがる辺のコストが最も小さくなるように分割する。逆向き、即ち、SINK側の頂点の部分集合からSOURCE側の頂点の部分集合へまたがる辺のコストは考慮しないことに注意する。このような問題は、グラフの最小カット問題と呼ばれ、グラフの最大フロー問題と等価であることが知られている。この最大フロー問題を解く方法として、非特許文献1の他、下記非特許文献5に記載の「Ford-Fulkerson algorithm」、下記非特許文献6に記載の「Goldberg-Tarjan algorithm」などが一般に広く知られている。
(非特許文献5)L.R.Ford,D.R.Fulkerson:“Maximal flow through a network,”Canadial Journal of Mathematics,Vol.8,pp.399-404,1956.
(非特許文献6)A.V.Goldberg,R.E.Tarjan:“A new approach to the maximum-flow problem,”Journal of the ACM,Vol.35,pp.921-940,1988.
上記の方法で顕著領域抽出グラフを分割した結果、SOURCEを含む部分グラフに属した頂点に対応する画素位置を顕著領域Aobj(t)に、SINKを含む部分グラフに属した頂点に対応する画素位置を非顕著領域Abkg(t)に所属させる。顕著領域画像は、下記式(150)に示すように、顕著領域に属する位置の画素値を1、非顕著領域に属する位置の画素値を0とする画像である。
上記の通り、顕著領域抽出グラフ分割部42は、顕著領域画像A(x,t) を抽出し、出力する。つまり、顕著領域画像抽出部4は、顕著領域画像A(x,t)を抽出し、この顕著領域画像を出力する。
顕著領域映像生成部5は、各入力画像に対し、注目度映像抽出部1、顕著領域事前確率画像抽出部2、特徴量尤度算出部3および顕著領域画像抽出部4を実行して得られる各顕著領域画像から顕著領域映像を生成する。換言すれば、顕著領域映像生成部5は、注目度映像抽出部1、顕著領域事前確率画像抽出部2、特徴量尤度算出部3および顕著領域画像抽出部4を順に各入力画像に対して繰り返し実行することにより抽出された顕著領域画像の集合を入力し、集合内の顕著領域画像から構成される顕著領域映像を生成する(集合内の顕著領域画像を時系列に並べて顕著領域映像を生成する)。顕著領域映像生成部5は、生成した顕著領域映像を外部に出力する。
(第2の実施形態)
以下、本発明の第2の実施形態に係る顕著領域映像生成装置1100について図面を参照して説明する。顕著領域映像生成装置1100は、外部から入力映像を取得し、当該入力映像を構成する各入力フレーム(各入力画像)からそれぞれの顕著領域を抽出した各顕著領域フレーム(各顕著領域画像)から構成される顕著領域映像を生成し、外部に出力する。
顕著領域映像生成装置1100は、図7に示すように、注目度映像抽出部1、顕著領域事前確率画像抽出部2、特徴量尤度算出部3、顕著領域画像抽出部4、顕著領域映像生成部5、平滑化画像群生成部6、顕著領域画像確定部7を備える。注目度映像抽出部1、顕著領域画像抽出部4および顕著領域映像生成部5は、第1の実施形態と同様であるため説明を省略する。
平滑化画像群生成部6は、入力画像を異なる解像度によってそれぞれ平滑化した複数の平滑化画像からなる平滑化画像群を生成する。つまり、平滑化画像群生成部6は、入力画像を入力し、当該入力画像を異なる解像度によってそれぞれ平滑化した平滑化画像群を生成する。平滑化画像群生成部6は、生成した平滑化画像群を特徴量尤度算出部3、顕著領域画像抽出部4および顕著領域画像確定部7に出力する。平滑化画像群生成部6が平滑化画像群を生成する方法は特に限定しないが、本実施形態では、入力画像に対し平滑化と縮小とを繰り返す方法について説明する。
平滑化画像群生成部6は、時刻tの平滑化画像の初期値H(t)とし、ある整数kについて平滑化画像Hk−1(t)が与えられているとき、入力画像を所定の標準偏差パラメータσを有するガウス平滑化フィルタを用いて平滑化する。平滑化画像群生成部6は、ガウス平滑化フィルタを用いて平滑化した画像を、下記式(151)を満たす所定の倍率aを用いて縮小し、平滑化画像H(t)を生成する。
整数kが平滑化画像における平滑化の度合いと対応していることから、以下、整数kを平滑化係数と呼ぶ。上記の過程をk=1,2,・・・,n−2で繰り返すことにより、平滑化画像群を形成する(下記式(152))。
このとき、特にσ=0,a=1とすると、各平滑化画像が全て入力画像と同一となる。以上のように、平滑化画像群生成部6は、平滑化画像群を抽出し、出力する。
顕著領域事前確率画像抽出部2は、注目度映像の一のフレームである注目度画像および顕著領域画から、入力映像中の対応するフレームである入力画像の各位置が顕著領域である確率を表示する顕著領域事前確率画像を抽出する。顕著領域事前確率画像抽出部2が顕著領域事前確率画像を抽出する方法は特に限定しないが、本実施形態においては、顕著領域事前確率画像生成部21と、顕著領域事前確率画像更新部22とによって抽出する方法について説明する。
顕著領域事前確率画像生成部21は、第1の実施形態と同様であるため説明を省略する。顕著領域事前確率画像更新部22も、第1の実施形態とほぼ同様である。但し、以下の点が第1の実施形態と異なる。
1.ある時刻tにおいて本処理を初めて実行する際、即ち、以降の特徴量尤度算出部3および顕著領域画像抽出部4において、平滑化係数最大の平滑化画像(下記式(153))が用いられる場合には、第1の実施形態と同様の方法で顕著領域事前確率画像(d)を更新する。
2.ある時刻tにおいて本処理を再度実行する際、即ち、以降の特徴量尤度算出部3および顕著領域画像抽出部4において平滑化画像H(t)(k=n−2,n−3,・・・・,0)が用いる場合には、以下の変更を行った上で第1の実施形態と同様の処理を行う。
(1)第1の実施形態に記載の更新式のパラメータの一つであるσ、および、1時点前(時刻t−1)顕著領域事前確率の分散(下記式(154))を強制的に0に置き換える。
(2)1時点前(時刻t−1)の顕著領域画像A(t−1)に代えて、平滑化係数が1つ大きい平滑化画像Hk+1(t)を用いて生成された顕著領域画像A(t;k+1)を用いる。
(3)顕著領域事前確率の分散(下記式(155))を更新せずに、平均ξ(x,t)のみを第1の実施形態と同様の方法で更新する。
3.入力として平滑化係数kの平滑化画像H(t)を用いたことを明確にするため、出力である顕著領域事前確率画像をΞ(t;k)と表記する。
特徴量尤度算出部3も、第1の実施形態とほぼ同様である。但し、以下の点が第1の実施形態と異なる。
1.入力画像に代えて平滑化画像H(t)(k=n−1,n−2,・・・,0) のうち1つを用いてもよい。このとき、時刻tにおいて本処理をj(j=1,2,・・・,n)回目に実行するときには、平滑化係数k=n−jの平滑化画像(下記式156)が用いられる。このことは、平滑化係数が大きい平滑化画像から順に用いられることを意味する。
2.ある時刻tにおいて本処理を初めて実行する際、即ち、平滑化係数n−1の平滑化画像Hng−1(t)が入力として用いられる場合には、第1項目以外は第1の実施形態と同様である。
3.ある時刻tにおいて本処理を再度実行する際、即ち、平滑化係数k(k=n−2,n−1,・・・,0)の平滑化画像H(t)が入力として用いられる場合には、以下を用いる。
(1)1時点前(時刻t−1)の顕著領域画像A(t−1)に代えて、現時点(時刻t)で平滑化係数が1つ大きい平滑化画像Hk+1(t)を用いて生成された顕著領域画像A(t;k+1)を用いる。
(2)1時点前の顕著領域特徴量尤度ψ(c,t−1)に代えて、現時点で平滑化係数が1つ大きい平滑化画像Hk+1(t)を用いて生成された顕著領域特徴量尤度ψ(c,t;k+1)を用いる。
(3)1時点前の非顕著領域特徴量尤度ψ(c,t−1)に代えて、現時点で平滑化係数が1つ大きい平滑化画像Hk+1(t)を用いて生成された非顕著領域特徴量尤度ψ(c,t;k+1)を用いる。
4.入力として平滑化係数kの平滑化画像H(t)を用いたことを明確にするため、出力である顕著領域特徴量尤度をψ(t;k)、非顕著領域特徴量尤度をψ(t;k)と表記する。
顕著領域画像確定部7は、平準化画像群に対し、顕著領域事前確率画像抽出部2、特徴量尤度算出部3、顕著領域画像抽出部4の処理を実行し、入力画像の顕著領域画像を確定する。即ち、顕著領域画像確定部7は、平滑化係数kの平滑化画像H(t)に対し、顕著領域事前確率画像抽出部2、特徴量尤度算出部3および顕著領域画像抽出部4を順に実行し、抽出された顕著領域画像A(t;k)を入力し、1つ前のステップで抽出された顕著領域画像A(t;k+1)からの変化がない場合には、現時点(時刻t)の入力画像に対しての最終的な顕著領域画像を確定し、この顕著領域画像A(t)= A(t;k)を出力し、変化がある場合には、kを1つ小さくして、再度顕著領域事前確率画像抽出部2に戻る。
図8は、顕著領域映像生成装置1000による顕著領域映像の生成結果(顕著領域の抽出結果)である。なお、入力映像は、640×480ピクセル、30〜90秒、各パラメータの数値は、σ=0.0.31、σ=0.037、M=5、λ=0.25、λ=100、σ=0、1である。図8において、第1行および第3行は入力映像、第2行は第1行に対応する顕著領域の抽出結果、第4行は第3行に対応する顕著領域の抽出結果である。図8に示すように、顕著領域映像生成装置1000によれば、適切に顕著領域が抽出され、その境界もほぼ完全である。
図9は、顕著領域映像生成装置1000による方法と、顕著領域映像生成装置1000から顕著領域事前確率画像更新部22、顕著領域特徴量尤度更新部312および非顕著領域特徴量尤度更新部322を取り除いた方法、即ち、顕著領域事前確率画像および特徴量尤度を逐次的に更新しない方法との比較である。図9に示すように、顕著領域事前確率画像および特徴量尤度を逐次的に更新しない方法では分割結果がフレームによって大きく異なるが、顕著領域映像生成装置1000による方法では安定して画像分割ができる。
以上の説明したように、本発明では、主に以下の2点により、上記の映像顕著領域抽出方法を実現している。
(1)注目度映像抽出部1による、人間の視覚機構を模擬したモデルに基づく映像顕著性の算出、並びに、顕著領域事前確率画像生成部21および顕著領域特徴量尤度算出部31による、映像顕著性に基づく顕著領域、非顕著領域に関する事前情報の生成
(2)顕著領域事前確率画像更新部22および非顕著領域特徴量尤度算出部32による、顕著領域、非顕著領域に関する事前情報の逐次更新
物体領域・背景領域に関する事前情報が全く与えられない場合においても領域分割が可能になる。従って、物体領域、背景領域に関する事前知識がない場合でも、精度良く物体領域と背景領域を分割して、注目している領域(物体領域)を抽出することができるようになる。
これにより、物体領域・背景領域に関する事前情報が全く与えられない場合においても領域分割が可能になる。従って、物体領域・背景領域に関する事前知識がない場合でも、精度良く物体領域と背景領域を分割して、注目している領域(物体領域)を抽出することができるようになる。
なお、顕著領域映像生成装置1000、1100の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、顕著領域映像生成装置1000、1100に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1 注目度映像抽出部 2 顕著領域事前確率画像抽出部 3 特徴量尤度算出部 4顕著領域画像抽出部 5 顕著領域映像生成部 6 平滑化画像群生成部 7 顕著領域画像確定部 11 基礎注目度画像抽出部 12 確率的基礎注目度画像抽出部 13 確率的基礎注目度母数逐次推定部 14 視線位置確率密度画像抽出部 15 視線位置確率密度映像出力部 21 顕著領域事前確率画像生成部 22 顕著領域事前確率画像更新部 31 顕著領域特徴量尤度算出部 32 非顕著領域特徴量尤度算出部 33 特徴量尤度出力部 41 顕著領域抽出グラフ生成部 42 顕著領域抽出グラフ分割部 141 視線移動状態変数更新部 142 代表視線位置更新部 143 代表視線位置重み係数算出部 144 視線位置確率密度画像出力部 145代表視線位置集合再構成部 311 顕著領域特徴量尤度生成部 312 顕著領域特徴量尤度更新部 321 非顕著領域特徴量尤度生成部 322 非顕著領域特徴量尤度更新部 1000、1100 顕著領域映像生成装置

Claims (14)

  1. 入力映像から、人間が注意を向けやすい度合いである注目度を示す注目度映像を抽出する注目度映像抽出過程と、
    入力映像を構成する各フレームである入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を抽出する顕著領域事前確率画像抽出過程と、
    前記入力画像の顕著領域および顕著領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出過程と、
    前記入力画像、前記顕著領域事前確率画像および前記特徴量尤度から、前記入力画像の顕著領域を示す顕著領域画像を抽出する顕著領域画像抽出過程と、
    前記各入力画像に対し、前記注目度映像抽出過程、前記顕著領域事前確率画像抽出過程、前記特徴量尤度算出過程および前記顕著領域画像抽出過程を実行して得られる前記各顕著領域画像から前記顕著領域映像を生成する顕著領域映像生成過程と
    を有し、
    前記顕著領域事前確率画像抽出過程は、
    一の前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を、前記注目度映像抽出過程によって抽出された前記注目度映像内の前記入力画像に対応する画像である注目度画像および前記顕著領域画像に基づいて抽出し、
    前記特徴量尤度算出過程は、
    前記特徴量尤度を、前記入力画像、前記注目度画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出する
    ことを特徴とする顕著領域映像生成方法。
  2. 前記注目度映像抽出過程は、
    前記入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出過程と、
    現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出過程によって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出過程によって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出過程と、
    現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出過程によって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出過程と、
    前記基礎注目度画像抽出過程と、前記確率的基礎注目度画像抽出過程と、前記視線位置確率密度画像抽出過程とを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力過程と
    を有し、
    前記視線位置確率密度画像抽出過程は、
    視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出過程によって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新過程によって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新過程と、
    視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新過程によって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新過程と、
    それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出過程によって算出された確率的基礎注目度画像と、前記代表視線位置更新過程によって更新された代表視線位置集合と、前記視線移動状態変数更新過程から出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出過程と、
    前記代表視線位置更新過程によって更新された代表視線位置集合と、代表視線位置重み係数算出過程によって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力過程と
    を有し、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出する
    ことを特徴とする請求項1に記載の顕著領域映像生成方法。
  3. 前記顕著領域事前確率画像抽出過程は、
    前記注目度画像のみを用いて前記顕著領域事前確率画像を生成する顕著領域事前確率画像生成過程と、
    前記顕著領域画像を用いて前記顕著領域事前確率画像生成過程によって生成された前記顕著領域事前確率画像を更新する顕著領域事前確率画像更新過程と
    から構成されることを特徴とする請求項1または請求項2の何れか1項に記載の顕著領域映像生成方法。
  4. 前記特徴量尤度算出過程は、
    顕著領域に含まれる画像特徴量の尤度を示す顕著領域特徴量尤度を、前記入力画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記顕著領域特徴量尤度のうち少なくとも1つに基づいて算出する顕著領域特徴量尤度算出過程と、
    顕著領域外の領域に含まれる画像特徴量の尤度を示す非顕著領域特徴量尤度を、前記入力画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記非顕著領域特徴量尤度のうち少なくとも1つに基づいて算出する非顕著領域特徴量尤度算出過程と、
    前記顕著領域特徴量尤度および前記非顕著領域特徴量尤度を加算して特徴量尤度として出力する特徴量尤度出力過程と
    から構成されることを特徴とする請求項1から請求項3の何れか1項に記載の顕著領域映像生成方法。
  5. 前記顕著領域特徴量尤度算出過程は、
    前記入力画像、前記顕著領域事前確率画像および前記顕著領域画像に基づいて、前記顕著領域特徴量尤度を生成する顕著領域特徴量尤度生成過程と、
    前記顕著領域特徴量尤度生成過程によって生成された前記顕著領域特徴量尤度を更新する顕著領域特徴量尤度更新過程と
    から構成され、
    前記非顕著領域特徴量尤度算出過程は、
    前記入力画像、前記顕著領域事前確率画像および前記顕著領域画像に基づいて、前記非顕著領域特徴量尤度を生成する非顕著領域特徴量尤度生成過程と、
    前記非顕著領域特徴量尤度生成過程によって生成された前記非顕著領域特徴量尤度を更新する非顕著領域特徴量尤度更新過程と
    から構成され、
    前記顕著領域特徴量尤度更新過程は、
    前記入力画像、前記顕著領域画像および前回迄に更新した更新後の前記顕著領域特徴量尤度のうち少なくとも1つに基づいて前記顕著領域特徴量尤度を更新し、
    前記非顕著領域特徴量尤度更新過程は、
    前記入力画像、非顕著領域画像および前回迄に更新した更新後の前記非顕著領域特徴量尤度のうち少なくとも1つに基づいて前記非顕著領域特徴量尤度を更新する
    ことを特徴とする請求項4に記載の顕著領域映像生成方法。
  6. 前記入力画像を異なる解像度によってそれぞれ平滑化した複数の平滑化画像からなる平滑化画像群を生成する平滑化画像群生成過程と、
    前記平準化画像群に対し、前記顕著領域事前確率画像抽出過程、前記特徴量尤度算出過程、前記顕著領域画像抽出過程を実行し、前記入力画像の前記顕著領域画像を確定する顕著領域画像確定過程と
    を更に有し、
    前記特徴量尤度算出過程および顕著領域画像抽出過程は、
    前記入力画像に代えて前記平滑化画像を用い、
    前記顕著領域映像生成過程は、
    前記各入力画像に対し、前記注目度映像抽出過程、前記顕著領域事前確率画像抽出過程、前記特徴量尤度算出過程、前記顕著領域画像抽出過程、前記平滑化画像群生成過程および前記顕著領域画像確定過程を実行して得られる前記顕著領域画像から前記顕著領域映像を生成する
    ことを特徴とする請求項1から請求項5の何れか1項に記載の顕著領域映像生成方法。
  7. 入力映像から、人間が注意を向けやすい度合いである注目度を示す注目度映像を抽出する注目度映像抽出部と、
    入力映像を構成する各フレームである前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を抽出する顕著領域事前確率画像抽出部と、
    前記入力画像の顕著領域および顕著領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出部と、
    前記入力画像、前記顕著領域事前確率画像および前記特徴量尤度から、前記入力画像の顕著領域を示す顕著領域画像を抽出する顕著領域画像抽出部と、
    前記各入力画像に対し、前記注目度映像抽出部、前記顕著領域事前確率画像抽出部、前記特徴量尤度算出部および前記顕著領域画像抽出部を実行して得られる前記各顕著領域画像から前記顕著領域映像を生成する顕著領域映像生成部と
    を備え、
    前記顕著領域事前確率画像抽出部は、
    一の前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を、前記注目度映像抽出部によって抽出された前記注目度映像内の前記入力画像に対応する画像である注目度画像および前記顕著領域画像に基づいて抽出し、
    前記特徴量尤度算出部は、
    前記特徴量尤度を、前記入力画像、前記注目度画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出する
    ことを特徴とする顕著領域映像生成装置。
  8. 前記注目度映像抽出部は、
    前記入力画像に基づいて、該入力画像の中で顕著な特性を持つ空間領域を表示した画像である基礎注目度画像を算出する基礎注目度画像抽出部と、
    現在の前記入力画像の各位置における顕著性を確率的な表現を用いて表示した画像である確率的基礎注目度画像を、前記基礎注目度画像抽出部によって算出された基礎注目度画像と、前回の前記入力画像から該確率的基礎注目度画像抽出部によって算出された前記確率的基礎注目度画像と、逐次更新され、視線位置推定に用いる第1の母数である確率的基礎注目度母数とに基づいて算出する確率的基礎注目度画像抽出部と、
    現在の前記入力画像における前記視線位置確率密度映像のフレームである視線位置確率密度画像を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前回の前記入力画像から該視線位置確率密度画像抽出部によって算出された前記視線位置確率密度画像と、逐次更新され、視線位置推定に用いる第2の母数である視線位置確率密度母数とに基づいて算出する視線位置確率密度画像抽出部と、
    前記基礎注目度画像抽出部と、前記確率的基礎注目度画像抽出部と、前記視線位置確率密度画像抽出部とを、それぞれの前記入力画像に対して順に繰り返し行うことにより算出される時系列の前記視線位置確率密度画像を前記視線位置確率密度映像として出力する視線位置確率密度映像出力部と
    を備え、
    前記視線位置確率密度画像抽出部は、
    視線移動の大きさを制御する確率変数である視線移動状態変数を、前回の前記入力画像から該視線位置確率密度画像抽出部によって算出された前記視線位置確率密度画像と、前回の前記入力画像から該視線移動状態変数更新部によって算出された視線移動状態変数と、前記視線位置確率密度母数とに基づいて更新し、該視線移動状態変数の集合である視線移動状態変数集合を出力する視線移動状態変数更新部と、
    視線移動を考慮した代表的な視線位置を示す代表視線位置の集合である代表視線位置集合を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前回の前記入力画像から該代表視線位置更新部によって更新された代表視線位置集合と、前記視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて更新する代表視線位置更新部と、
    それぞれの前記代表視線位置に関連付けられた重みからなる代表視線位置重み係数の集合である代表視線位置重み係数集合を、前記確率的基礎注目度画像抽出部によって算出された確率的基礎注目度画像と、前記代表視線位置更新部によって更新された代表視線位置集合と、前記視線移動状態変数更新部から出力された視線移動状態変数集合と、前記視線位置確率密度母数とに基づいて算出する代表視線位置重み係数算出部と、
    前記代表視線位置更新部によって更新された代表視線位置集合と、代表視線位置重み係数算出部によって算出された代表視線位置重み係数集合とに基づいて、前記視線位置確率密度画像を算出する視線位置確率密度画像出力部と
    を有し、前記代表視線位置集合と、前記代表視線位置重み係数集合とを含む前記視線位置確率密度画像を算出する
    ことを特徴とする請求項7に記載の顕著領域映像生成装置。
  9. 前記顕著領域事前確率画像抽出部は、
    前記注目度画像のみを用いて前記顕著領域事前確率画像を生成する顕著領域事前確率画像生成部と、
    前記顕著領域画像を用いて前記顕著領域事前確率画像生成部によって生成された前記顕著領域事前確率画像を更新する顕著領域事前確率画像更新部と
    から構成されることを特徴とする請求項7または請求項8の何れか1項に記載の顕著領域映像生成装置。
  10. 前記特徴量尤度算出部は、
    顕著領域に含まれる画像特徴量の尤度を示す顕著領域特徴量尤度を、前記入力画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記顕著領域特徴量尤度のうち少なくとも1つに基づいて算出する顕著領域特徴量尤度算出部と、
    顕著領域外の領域に含まれる画像特徴量の尤度を示す非顕著領域特徴量尤度を、前記入力画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記非顕著領域特徴量尤度のうち少なくとも1つに基づいて算出する非顕著領域特徴量尤度算出部と、
    前記顕著領域特徴量尤度および前記非顕著領域特徴量尤度を加算して特徴量尤度として出力する特徴量尤度出力部と
    から構成されることを特徴とする請求項7から請求項9の何れか1項に記載の顕著領域映像生成装置。
  11. 前記顕著領域特徴量尤度算出部は、
    前記入力画像、前記顕著領域事前確率画像および前記顕著領域画像に基づいて、前記顕著領域特徴量尤度を生成する顕著領域特徴量尤度生成部と、
    前記顕著領域特徴量尤度生成部によって生成された前記顕著領域特徴量尤度を更新する顕著領域特徴量尤度更新部と
    から構成され、
    前記非顕著領域特徴量尤度算出部は、
    前記入力画像、前記顕著領域事前確率画像および前記顕著領域画像に基づいて、前記非顕著領域特徴量尤度を生成する非顕著領域特徴量尤度生成部と、
    前記非顕著領域特徴量尤度生成部によって生成された前記非顕著領域特徴量尤度を更新する非顕著領域特徴量尤度更新部と
    から構成され、
    前記顕著領域特徴量尤度更新部は、
    前記入力画像、前記顕著領域画像および前回迄に更新した更新後の前記顕著領域特徴量尤度のうち少なくとも1つに基づいて前記顕著領域特徴量尤度を更新し、
    前記非顕著領域特徴量尤度更新部は、
    前記入力画像、非顕著領域画像および前回迄に更新した更新後の前記非顕著領域特徴量尤度のうち少なくとも1つに基づいて前記非顕著領域特徴量尤度を更新する
    ことを特徴とする請求項10に記載の顕著領域映像生成装置。
  12. 前記入力画像を異なる解像度によってそれぞれ平滑化した複数の平滑化画像からなる平滑化画像群を生成する平滑化画像群生成部と、
    前記平準化画像群に対し、前記顕著領域事前確率画像抽出部、前記特徴量尤度算出部、前記顕著領域画像抽出部の処理を実行し、前記入力画像の前記顕著領域画像を確定する顕著領域画像確定部と
    を更に備え、
    前記特徴量尤度算出部および顕著領域画像抽出部は、
    前記入力画像に代えて前記平滑化画像を用い、
    前記顕著領域映像生成部は、
    前記各入力画像に対し、前記注目度映像抽出部、前記顕著領域事前確率画像抽出部、前記特徴量尤度算出部、前記顕著領域画像抽出部、前記平滑化画像群生成部および前記顕著領域画像確定部の各処理を実行して得られる前記顕著領域画像から前記顕著領域映像を生成する
    ことを特徴とする請求項7から請求項11の何れか1項に記載の顕著領域映像生成装置。
  13. 入力映像から、人間が注意を向けやすい度合いである注目度を示す注目度映像を抽出する注目度映像抽出ステップと、
    入力映像を構成する各フレームである前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を抽出する顕著領域事前確率画像抽出ステップと、
    前記入力画像の顕著領域および顕著領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出ステップと、
    前記入力画像、前記顕著領域事前確率画像および前記特徴量尤度から、前記入力画像の顕著領域を示す顕著領域画像を抽出する顕著領域画像抽出ステップと、
    前記各入力画像に対し、前記注目度映像抽出ステップ、前記顕著領域事前確率画像抽出ステップ、前記特徴量尤度算出ステップおよび前記顕著領域画像抽出ステップを実行して得られる前記各顕著領域画像から前記顕著領域映像を生成する顕著領域映像生成ステップと
    をコンピュータに実行させるプログラムであって、
    前記顕著領域事前確率画像抽出ステップは、
    一の前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を、前記注目度映像抽出ステップによって抽出された前記注目度映像内の前記入力画像に対応する画像である注目度画像および前記顕著領域画像に基づいて抽出し、
    前記特徴量尤度算出ステップは、
    前記特徴量尤度を、前記入力画像、前記注目度画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出する
    ことを特徴とするプログラム。
  14. 入力映像から、人間が注意を向けやすい度合いである注目度を示す注目度映像を抽出する注目度映像抽出ステップと、
    入力映像を構成する各フレームである前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を抽出する顕著領域事前確率画像抽出ステップと、
    前記入力画像の顕著領域および顕著領域外の領域にそれぞれ含まれる画像特徴量の尤度を示す特徴量尤度を算出する特徴量尤度算出ステップと、
    前記入力画像、前記顕著領域事前確率画像および前記特徴量尤度から、前記入力画像の顕著領域を示す顕著領域画像を抽出する顕著領域画像抽出ステップと、
    前記各入力画像に対し、前記注目度映像抽出ステップ、前記顕著領域事前確率画像抽出ステップ、前記特徴量尤度算出ステップおよび前記顕著領域画像抽出ステップを実行して得られる前記各顕著領域画像から前記顕著領域映像を生成する顕著領域映像生成ステップと
    をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録憶媒体であって、
    前記顕著領域事前確率画像抽出ステップは、
    一の前記入力画像の各位置が顕著領域である確率を示す顕著領域事前確率画像を、前記注目度映像抽出ステップによって抽出された前記注目度映像内の前記入力画像に対応する画像である注目度画像および前記顕著領域画像に基づいて抽出し、
    前記特徴量尤度算出ステップは、
    前記特徴量尤度を、前記入力画像、前記注目度画像、前記顕著領域事前確率画像、前記顕著領域画像および前回迄に算出した前記特徴量尤度の少なくとも1つに基づいて算出する
    ことを特徴とする記録媒体。
JP2009108474A 2009-04-27 2009-04-27 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体 Active JP5235770B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009108474A JP5235770B2 (ja) 2009-04-27 2009-04-27 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009108474A JP5235770B2 (ja) 2009-04-27 2009-04-27 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2010258914A JP2010258914A (ja) 2010-11-11
JP5235770B2 true JP5235770B2 (ja) 2013-07-10

Family

ID=43319300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009108474A Active JP5235770B2 (ja) 2009-04-27 2009-04-27 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP5235770B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120230583A1 (en) * 2009-11-20 2012-09-13 Nec Corporation Object region extraction device, object region extraction method, and computer-readable medium
US8943426B2 (en) * 2011-11-03 2015-01-27 Htc Corporation Method for displaying background wallpaper and one or more user interface elements on display unit of electrical apparatus at the same time, computer program product for the method and electrical apparatus implementing the method
JP5766620B2 (ja) * 2012-01-10 2015-08-19 日本電信電話株式会社 物体領域検出装置、方法、及びプログラム
JP6135283B2 (ja) 2013-04-26 2017-05-31 オムロン株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP6136537B2 (ja) 2013-04-26 2017-05-31 オムロン株式会社 画像処理装置、画像処理方法、画像処理制御プログラム、および記録媒体
JP6103765B2 (ja) * 2013-06-28 2017-03-29 Kddi株式会社 行動認識装置、方法及びプログラム並びに認識器構築装置
JP6232982B2 (ja) 2013-12-02 2017-11-22 オムロン株式会社 画像処理装置、画像処理方法およびプログラム
JP6330385B2 (ja) 2014-03-13 2018-05-30 オムロン株式会社 画像処理装置、画像処理方法およびプログラム
CN103996189B (zh) * 2014-05-05 2017-10-03 小米科技有限责任公司 图像分割方法及装置
US9633444B2 (en) 2014-05-05 2017-04-25 Xiaomi Inc. Method and device for image segmentation
CN106557765A (zh) 2015-09-29 2017-04-05 欧姆龙株式会社 注意检测装置以及注意检测方法
CN109934825B (zh) * 2019-03-01 2023-02-28 辽宁工程技术大学 一种结合层次化高斯混合模型和m-h的遥感影像分割方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4750758B2 (ja) * 2007-06-20 2011-08-17 日本電信電話株式会社 注目領域抽出方法、注目領域抽出装置、コンピュータプログラム、及び、記録媒体

Also Published As

Publication number Publication date
JP2010258914A (ja) 2010-11-11

Similar Documents

Publication Publication Date Title
JP5235770B2 (ja) 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体
US10600185B2 (en) Automatic liver segmentation using adversarial image-to-image network
US20200401916A1 (en) Systems and methods for training generative machine learning models
Svensén et al. Robust Bayesian mixture modelling
JP4780106B2 (ja) 情報処理装置及び情報処理方法、画像処理装置及び画像処理方法、並びにコンピュータ・プログラム
JP5766620B2 (ja) 物体領域検出装置、方法、及びプログラム
Li et al. Exploring compositional high order pattern potentials for structured output learning
Papastamoulis Handling the label switching problem in latent class models via the ECR algorithm
Roy et al. Biomedical image enhancement based on modified Cuckoo Search and morphology
Yu et al. Modeling spatial extremes via ensemble-of-trees of pairwise copulas
Nguyen Gaussian mixture model based spatial information concept for image segmentation
CN115526223A (zh) 潜在空间中的基于得分的生成建模
Wenzel Generative adversarial networks and other generative models
CN113284151A (zh) 一种基于深度卷积神经网络的胰腺分割方法及***
JP6623184B2 (ja) 多層ニューラルネットの大局構造抽出装置、方法、及びプログラム
US20190156182A1 (en) Data inference apparatus, data inference method and non-transitory computer readable medium
JP2010257344A (ja) 視線位置推定方法、視線位置推定装置、プログラム、及び記録媒体
He et al. Fast and accurate tensor decomposition without a high performance computing machine
Lu et al. Generalized competitive learning of Gaussian mixture models
JP2018195200A (ja) 多層ニューラルネットの大局構造抽出装置、方法、及びプログラム
Chin et al. Efficient data augmentation for multivariate probit models with panel data: an application to general practitioner decision making about contraceptives
Allassonnière et al. Map estimation of statistical deformable templates via nonlinear mixed effects models: Deterministic and stochastic approaches
CN111475668A (zh) 针对复杂关系描述的图片视觉推理方法、设备及存储介质
Suthaharan et al. Deep learning models
Xin GENERATIVE IMAGE-TO-IMAGE REGRESSION BASED ON SCORE MATCHING MODELS

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5235770

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160405

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350