JP4979033B2 - オブジェクト・ベース視覚的注意モデルの顕著性推定 - Google Patents

オブジェクト・ベース視覚的注意モデルの顕著性推定 Download PDF

Info

Publication number
JP4979033B2
JP4979033B2 JP2009507098A JP2009507098A JP4979033B2 JP 4979033 B2 JP4979033 B2 JP 4979033B2 JP 2009507098 A JP2009507098 A JP 2009507098A JP 2009507098 A JP2009507098 A JP 2009507098A JP 4979033 B2 JP4979033 B2 JP 4979033B2
Authority
JP
Japan
Prior art keywords
feature
saliency
objects
image
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009507098A
Other languages
English (en)
Other versions
JP2009535683A5 (ja
JP2009535683A (ja
Inventor
ドン グ,シヤオ
ボ チエン,ジ
チン チエン,チユウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP06300538A external-priority patent/EP1862966A1/en
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2009535683A publication Critical patent/JP2009535683A/ja
Publication of JP2009535683A5 publication Critical patent/JP2009535683A5/ja
Application granted granted Critical
Publication of JP4979033B2 publication Critical patent/JP4979033B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像の顕著性(salience)を推定する方法に関し、より詳細には、オブジェクト・ベース視覚注意モデルの顕著性推定方法に関する。
神経生物学的概念では、注意するということは、緻密または入念な観察によってあるオブジェクトに精神力を集中することを意味する。注意領域とは、人間の注意を多く引きつける傾向があるピクチャ内の領域である。ピクチャの注意領域を自動的に検出するように設計されたシステムを、注意モデルと呼ぶ。検出された注意領域は、限られた資源をある注意領域に集中する、検索/探索の方向付けをする、解析を単純化するなど、多様な応用分野で広く利用される。
図1は、最もよく使用される注意モデルの大まかな構成を示す図である。最初に、推定対象の画像が注意モデルに入力される。次いで、特徴抽出ステップの後で、強度、色、向きなどの特徴を得る。第3のステップで、上記の特徴の顕著性を推定する。フュージョン・スキーム(fusion scheme)ステップおよび後処理ステップの後で、最終的に注意領域が得られる。
マクロブロック(MB)を基本単位とする空間位置認識仮説に基づいて注意を駆動するほとんどの従来のマシン・ビジョン・システムで用いられる注意モデルと異なる、その他の視覚注意を方向付けするモデルは、オブジェクト主導であり、オブジェクト・ベース視覚注意モデルと呼ばれる。
MB(マクロブロック)空間ベース視覚注意に関する研究は数多くなされており、例えば、L.Itti他の「A Model of Salience−Based Visual Attention for Rapid Scene Analysis」、IEEE Transactions on Pattern Analysis and Machine Intelligence、Volume 20、No.11、1998年11月、や、Y.F.Ma他の「A User Attention Model for Video Summarization」、ACM Multimedia‘02、pp.533〜542、2002年12月、などがある。しかし、オブジェクト・ベース視覚注意は、本質的に難解であるために、それほど広く研究されているわけではない。Y.Sun他は、「Object−Based Visual Attention for Computer Vision」、Artificial Intelligence、pp.77〜123、2003年5月、において、オブジェクト・ベース視覚注意の構造を提案している。別のオブジェクト・ベース視覚注意モデルが、F.Orabona他の「Object−Based Visual Attention:a Model for a Behaving Robot」、3rd International Workshop on Attention and Performance in Computational Vision、2005年6月、に提案されている。どちらのオブジェクト・ベース視覚注意方式も、依然として、図1に大まかに記載した注意モデルの構成を基本としたものである。「顕著性推定」以外の全てのプロセスは、IttiのMB空間ベース視覚注意モデルから直接生まれたものである。
MB空間ベース視覚注意モデルでもオブジェクト・ベース視覚注意モデルでも、低レベルの空間的/時間的特徴を最初に抽出し、その後、ピクチャ全体にわたって、各単位毎の各顕著性(異なる、周囲と比べて顕著な、すなわちより魅力的な)特徴マップを推定し、その後、全ての特徴マップを単純にボトムアップ式に送ることによって、マスタ「顕著性マップ」を生成する。
オブジェクト・ベース視覚注意モデルと比較して、MB空間ベース視覚注意モデルは、はるかに容易且つ速く作成することができる。しかし、MB空間ベース視覚注意モデルには、本質的な欠点がいくつかある。
1)注意領域が自然オブジェクト境界を破壊する。
2)各マクロブロックが、多数の自然オブジェクトをカバーすることがある。
従って、マクロブロックの抽出された特徴は、これら全ての自然オブジェクトの混合したプロパティであり、そのため、注意領域の検出精度を低下させることになる。
オブジェクト・ベース視覚注意モデルの重要な問題は、2つの特徴にある。1つは、特徴を抽出する前のオブジェクトのグループ化であり、もう1つは、画像内の全てのオブジェクトにおける各オブジェクトの個々の効率的な顕著性推定である。現在使用されている顕著性推定方式の中心にある概念は、Y.Sun他が提案しているように、ガウス距離測定(Gauss distance measure)に基づく。
顕著性推定の対象となるオブジェクトをx、全ての背景オブジェクトをy(i=1、2、・・・、n)、入力画像の幅および高さの最大値をw、xとyの間の物理的距離を||x−y||と表すと、ガウス距離は、以下の数式(1)のように定義される。
ここで、スケールσをw/ρに設定する。ρは正の整数であり、一般に1/ρは、2%、4%、5%、または20%、25%、50%など、wの百分率に設定することができる。
特徴F内のオブジェクトxおよびyの絶対差をS(x、y)と表すと、特徴F内のオブジェクトxの総合的顕著度である顕著性推定S(x)は、以下の数式2で表すことができる。
顕著性推定をこのように定義することにより、以下のように結論づけることができる。
1.オブジェクトとその周囲との間の差が大きくなるほど、そのオブジェクトは顕著になる。
2.オブジェクトと特徴の異なる周囲とが接近するほど、そのオブジェクトは顕著になる。すなわち、人間の視覚は、距離に応じて違いを見分ける能力が低下する。その減衰係数は、この視覚生理学のテーマと整合するdgaussで測定される。
これにより、S(x)は、確実に特徴Fにおける有用な顕著性推定となる。ただし、残念ながら、いくつかの重要な人間の知覚の性質が、S(x)では考慮されていない。
図2aは、推定対象であるスケートのオリジナル画像であり、図3aは、従来のオブジェクト・ベース視覚注意モデルを用いて行った、図2aの顕著性推定の結果である。
図2bは、推定対象である沿岸警備隊のオリジナル画像であり、図3bは、従来のオブジェクト・ベース視覚注意モデルを用いて行った、図2bの顕著性推定の結果である。
図3aおよび図3bの何れにおいても、白い色は非常に顕著なオブジェクトであることを意味し、黒い色は顕著ではないオブジェクトであることを意味し、白と黒の間のグレー・レベルが、顕著度を表している。
図3aから、観衆は、その色がその近傍の色と大きく異なるために顕著であるとみなされているが、実際には、観衆の部分は詳細を全く含んでいないことが分かる。この画像を見る者は、通常、観衆には注目せず、観衆を「ビデオ・テクスチャ(video texture)」とみなす。
さらに図3aには、女性スケーターの頭部の左側に小さなグレーのブロックがある。このブロックは、男性の黒い衣装と女性の肌で囲まれた白いスケート・リンクの一部であり、これはこの局所領域において顕著である。しかし、結局のところ、このブロックは、広いスケート・リンクの一部であって、見る者の注意を引きつけることはない。これは、「局所効果」と呼ばれる。この局所効果によって、オブジェクトとその近傍の間の差は蓄積されて大きくなり、その結果、「顕著性」と認識される。
以上のことから、従来のオブジェクト・ベース視覚注意モデルは、効率が不十分であり、下記のように、考慮されていない人間の視覚特性が数多く存在する。
1.オブジェクトのサイズ オブジェクトのサイズが顕著度に与える影響の推定は、複雑な問題である。例えば、(a)全ての近傍のオブジェクトyが同じサイズsであり、オブジェクトxのサイズがsから0まで減少する場合には、その結果として、xの顕著度(S(x))は、徐々に減少する。(b)全ての近傍のオブジェクトyが同じサイズsであり、オブジェクトxのサイズがsからs(s>>s、且つs>s>s)まで減少する場合には、S(x)は、徐々に増大する。従って、オブジェクトのサイズと顕著度の関係が単調でないことが分かる。また、この問題は、各オブジェクトが任意のサイズを有する可能性がある場合には、さらにずっと複雑になる。
2.局所効果 あるオブジェクトがそのごく近い近傍(局所領域)の中で顕著でなく、それより少し離れた近傍がそのオブジェクトと大きく異なる場合には、2つの結果が生じる可能性がある。すなわち、(a)画像全体の中で、そのオブジェクトが全く顕著でない場合と、(b)その画像内で、その局所領域が全体として顕著になり、そのオブジェクトはその局所領域の一部として含まれる。何れの場合にも、オブジェクトの顕著度は、上記で定義したものとは一致しない。
3.ビデオ・テクスチャ ある画像のオブジェクト・特徴が無作為に不均一である場合には、人間は、通常、画像全体の細部を無視し、その画像のいかなるオブジェクトも顕著ではないが、上記で定義したS(x)は、画像内の何れかのオブジェクトに対して大きな数になる。
これら全ての制限のために、従来のオブジェクト・ベース視覚注意モデルは、実用的とは言えない状態にある。従って、オブジェクト・ベース視覚注意モデルを改良することが望まれている。
本発明は、計算の複雑さを低下させることができ、応用可能性を高めることができるマルチレベル同心円型方式を利用した、オブジェクト・ベース視覚注意モデルの顕著性推定方式を提供する。
一態様では、本発明は、画像の顕著性を推定する方法を提供する。この方法は、画像を複数の推定対象オブジェクトにセグメント化するステップと、各セグメント化オブジェクトについて特徴マップを抽出するステップと、抽出された特徴マップに基づいて、各セグメント化されたオブジェクトの顕著性を、当該オブジェクトの中心ピクセルの周囲に規定された1組の円内で計算するステップと、全ての円内の各セグメント化されたオブジェクトの顕著性を統合して、各セグメント化オブジェクトの総合的顕著性推定を得るステップとを含む。好ましい一実施例によれば、特徴マップを抽出するステップは、画像の色変化の測定に基づく。別の好ましい実施例によれば、各セグメント化されたオブジェクトの顕著性を計算するステップは、推定対象オブジェクトの色特徴を、当該推定対象オブジェクトの周囲に規定された各円内の任意のその他のオブジェクトの色特徴と比較するサブステップを含む。
本発明のマルチレベル同心円型顕著性推定方式に基づくオブジェクト・ベース視覚注意モデルは、計算の複雑さが低く、人間の視覚とより連絡しやすい、オブジェクト・ベース視覚注意モデルを構築するための効率的なフレームワークを提供得きるという効果を有する。
本発明のその他の特徴および利点は、添付の図面を援用しながら以下で説明する本発明の非限定的な実施例の説明から、明らかになるであろう。
本発明の技術的特徴について、実施例を参照してさらに説明する。これらの実施例は、単なる好ましい例であって、本発明を限定するものではない。以下の詳細な説明を添付の図面とあわせて読めば、本発明をよく理解できるであろう。
前記の内容から、顕著性推定プロセスは、次のように説明することができることが分かる。
入力:幅wおよび高さhを有する画像I={p|i=1・・・w*h}。
出力:顕著性マップsal[1・・・w*h]。sal[i]は、画像内のピクセルpの顕著度。
本発明の方法は、主に以下に述べる3つのステップを含む。
ステップ1 前処理(画像のセグメント化)
画像Iは、最初にこのステップで、1組のオブジェクトI={o、o、・・・、o}に分解される。画像ベースのセグメント化およびグループ化は、人間の視覚的認識において大きな役割を果たし、この領域の研究は数多くなされている。本発明では、発明者等は、画像の色変化の測定に基づく、P.F.Felzenszwalb他による「Image Segmentation Using Local Variation」、IEEE Computer Society on Computer Vision and Pattern Recognition、1998年6月、に提案されているオブジェクト・セグメント化方式を採用する。以下、この方式について簡単に説明する。
処理の前に、無向グラフH=(V、E)を、画像Iに基づいて定義する。ここで、Iの各ピクセルpは、対応する頂点v∈vを有し、エッジ(v、v)∈Eは、頂点vとvとを結びつけるエッジである。どのピクセルがE中のエッジによって結びつけられるかの精密な定義は、以下の数式(1−1)によって決まる。
所与の距離d.に対して、エッジの重み関数weight(.)は、個々の頂点vとvの間の類似性(または差異)の非負測度をいくつか与える。weight(.)は、以下の数式(1−2)のように定義する。
ここで、color(v)は、画像内のピクセルpの色である。
S={C}は、Vのセグメント化を表し、各Cは、セグメント化されたオブジェクトに対応する。Cの内部変化は、以下の数式(1−3)のように定義する。
ここで、MST(C、E)は、Eの集合に対するCの最小スパニング・ツリーである。
2つのオブジェクトCおよびCの外部変化は、以下の数式(1−4)のように定義する。
セグメント化のプロセスは、セグメント化されたオブジェクトのうちの任意の2つについて以下の数式(1−5)を満たすようにするものである。
ここで、kは定数であり、発明者等の実施態様では、kを100に設定する。オブジェクトC内部の拡張内部変化を、Int(C)+k/|C|で表す。
セグメント化を実施するためには、まず、非減少エッジ重みによってEをπ=(e、e、・・・e)に分類し、最初に画像をw*h個の個々のピクセル・オブジェクトにセグメント化し、次いで、各e=(v、v)(q=1、2、・・・、m)に対して、次のプロセスを繰り返す。すなわち、vおよびvが異なるオブジェクトに属し、且つweight(v、v)が、vおよびvが属する2つのオブジェクトの拡張内部変化(Int(C)+k/|C|)以下である場合には、これら2つのオブジェクトがマージされて、新たな1つのオブジェクトを形成する。
これは、コンピューティング資源をそれほど多く費やさない効率的なオブジェクト・セグメント化方式を与えることが分かる。実施に際しては、ここでは、8連結近傍を用いてEを構成する。すなわち、d=1である。図6aおよび図6bはそれぞれ、図2aおよび図2bのセグメント化の結果を示している。
ステップ2 前処理(特徴抽出)
、r、gおよびbがそれぞれピクセルpの輝度チャネル、赤チャネル、緑チャネル、青チャネルを表すものとして、次に、ステップ1でセグメント化した各オブジェクトの特徴を抽出する。
拡張内部変化Int(C)+k/|C|の定義を考えると、k/|C|は、内部変化に対する加算項である。これは、内部変化を過小評価することが、要素の発達を防止するのに望ましくないからである。その結果、小さいオブジェクトの方が、その内部の内部変化にかかわらず発達しやすい。例えば、図6aのスケートの例では、黒い衣装の最大部分は、主に黒いピクセルで構成されるが、依然としていくつかの白いピクセルが例外的に存在している。
上述の状況における特徴抽出の問題を解決するために、オブジェクトo={v、v、・・・、v}の特徴マップF=f(v)において、演算子Major(f、o)を定義する。Major(f、o)の戻り値は、以下を満たすように定義されたオブジェクトoの代表特徴である(d、dおよびηは定数であり、発明者等の実施態様ではそれぞれ2、64および95%に設定される)。
(1)数式max−min+1≦dを満たす範囲[min、max]があり、その値が特徴マップF={f(v)、f(v)、・・・、f(v)}全体にわたって範囲[min、max]内に収まる特徴の比率がη以上である場合には、Major(f、o)を、範囲[min、max]内に収まる値を有するそれらの特徴の平均値として定義する。
(2)そうでない場合で、オブジェクトの大きさが定数d超である場合には、ステップ1と同じプロセスでそのオブジェクトを2つのサブオブジェクトに分割し、次いで、上記ステップを各サブオブジェクトに対して繰り返し実行する。そうでない場合で、オブジェクトが小さすぎる場合には、Major(f、o)を全ての特徴の平均値として定義する。
演算子Major(f、o)を用いて、Y、R、G、BおよびYe を、以下のようにオブジェクトoの輝度チャネル、赤チャネル、緑チャネル、青チャネルおよび黄チャネルとして定義する。
強度特徴は、以下の数式(2−1)として抽出される。
「二重反対色(colour double−opponent)」ベースの色特徴は、以下の数式(2−2)および(2−3)として抽出される。
向きは、オブジェクト・ベース視覚注意モデルにおいて複雑な特徴となる。全てのオブジェクトが色変化によってセグメント化されるので、オブジェクト自体は、オブジェクトの境界線を除けば、いかなる向き情報も含まないことになる。セグメント化されたオブジェクトにはこの特殊な性質があるので、発明者等は、本実施態様では向きを考慮しない。
向きと比較すると、オプティカル・フロー技術が現在ますます進歩していることを考えれば、動きの方が、付加的特徴として、より可能性がある。
しかし、簡潔にするために、発明者等は、本発明では、3つの特徴マップI、RGおよびBYのみを考慮している。
ステップ3 顕著性推定
上記の2つのステップの後で、画像IをオブジェクトI={o、o、・・・o}にセグメント化し、3つの特徴マップI、RGおよびBY(i=1・・・n)を抽出する。残る問題は、SalF(o)で表される各特徴マップF(F∈{I、RG、BY})の顕著性マップをどのように推定するかである。
画像の任意のオブジェクトoについて、サイズ(オブジェクト内のピクセル数)をsで表し、オブジェクトの中心ピクセルをc=(X、Y)で表す。XおよびYは、以下の数式(3−1)で表される。
顕著性推定プロセス中には、オブジェクトoの各ピクセルは、区別されずに中心ピクセルcに等しいとみなされるので、そのオブジェクトは図4に示すように、中心ピクセルをs個複製したものとみなされる。
この仮定に基づくと、マルチレベル同心円方式のオブジェクトoの顕著性推定が得られる。この方式の第1のステップでは、オブジェクトの中心ピクセルcを中心とした1組の同心円が定義され、C・・・C(Cは水平半径r、垂直半径rの楕円であり、jレベル円と呼ばれる)が、中心ピクセルcに近い近傍領域から遠い近傍領域に向かって分布する。各jレベル円について、SalC(o、C)で表されるCj内のオブジェクトoの顕著性を推定し、次いで、オブジェクトoの総合的推定顕著性を、数式(3−2)のように定義する。ただし、kは線形積分の定数である。
この場合、領域C、および領域C全体から抽出した特徴Fを有する領域C内のオブジェクトoについて、人間の視覚特性を考慮して領域C内のオブジェクトoの顕著性を推定するにはどうすればよいか。ここで、発明者等は、まず演算SalCを以下のように定義する。
(1)中心ピクセルを領域C内に有するオブジェクトの集合をSとする。
(2)集合S内の各オブジェクトoについて、F’=abs(F−F)を定義する。
次いで、以下の数式を使用して、集合S内のF’の重み付け平均を計算する。
(3)F’がavgF’を超えない集合S内のピクセルの比率をρと定義する。
ここで、bool(exp)は、expが真のデターミナントである場合には1を戻し、そうでない場合には0を戻す。
(4)図5に示す検出関数texture(.)の定義を用いて、以下のようにSalCを設定する。
ここで、texture(.)は、「オーディエンス・エリア(audience area)」、すなわち注意すべき領域として認識されないことが期待される観衆などの無作為な特徴を有する領域を検出するためのρの経験的関数である。検出関数texture(ρ)は、ρの値が小さくなるほど、texture(ρ)の値が大きくなる、従ってこの領域が「オーディエンス・エリア」すなわち画像のビデオ・テクスチャとして認識される可能性が高くなるという条件を満たす。この検出関数texture(.)を使用することにより、領域内の注意する必要のないオブジェクトが注意すべきオブジェクトとして認識される可能性は低下する。
上記のことから、この顕著性推定方式を以下のように結論づけることができる。
(a)画像の各オブジェクトoについて、同心円C(j=1・・・t)の集合を定義する。
(b)上記のSalCの定義に従ってSalC(o、C)を計算する。
(c)数式(3−2)に従って全てのCについて顕著性推定を積分して、総合的推定顕著性を得る。
図7aおよび図7bはそれぞれ、本発明による顕著性推定方式を用いた図2aおよび図2bの顕著性推定実験結果を示している。本発明の顕著性推定方法を用いることによって、図2aの観衆および図2bの背景は、顕著ではないとみなされ、図3aの女性スケーターの頭部の左側の小さなブロックも図7aでは除去されている。本発明は、局所効果およびビデオ・テクスチャを処理することができ、応用可能性が高められている。
以上、本発明の好ましい実施例および態様について説明したが、本発明を逸脱することなく、多くの改変を設計または構造の細部に加えることができることを、当業者なら理解するであろう。本発明は、個々に開示したものも、可能な配列および組合せで開示したものも含めて、全ての特徴を包含する。
本発明のマルチレベル同心円型顕著性推定方式に基づくオブジェクト・ベース視覚注意モデルは、画像の理解の精度を向上させ、計算効率を大幅に向上させ、以下のいくつかの利点を有する。
1.本発明は、オブジェクト・ベース視覚注意モデルを構築するための効率的なフレームワークを提供する。その計算の複雑さは低い。
2.提供されるフレームワークは、人間の視覚とはるかに連絡しやすい。従来の方式で考慮されていなかった人間の視覚の特性(オブジェクトのサイズ、局所効果、およびビデオ・テクスチャなど)がよく考慮されている。
3.このフレームワークは拡張可能である。
最もよく使用される注意モデルの大まかな構造を示す図である。 顕著性推定対象であるスケートのオリジナル画像を示す図である。 顕著性推定対象の沿岸警備隊のオリジナル画像を示す図である。 従来のオブジェクト・ベース視覚注意モデルを用いて行った、図2aの顕著性推定の結果を示す図である。 従来のオブジェクト・ベース視覚注意モデルを用いて行った、図2bの顕著性推定の結果を示す図である。 本発明の好ましい実施例による顕著性推定のマルチレベル同心円型方式を示す図である。 本発明のtexture(.)の例示的な定義を示す図である。 本発明の好ましい実施例による図2aのセグメント化の結果の一例を示す図である。 本発明の好ましい実施例による図2bのセグメント化の結果の別の例を示す図である。 本発明の好ましい実施例による顕著性推定方式を用いて行った、図2aの顕著性推定の結果を示す図である。 本発明の好ましい実施例による顕著性推定方式を用いて行った、図2bの顕著性推定の結果を示す図である。

Claims (10)

  1. (1)画像を複数の別個のオブジェクトにセグメント化するステップと、
    オブジェクトについて、
    (2)前記オブジェクトのフィーチャ値を前記オブジェクトのピクセルの関数として抽出するステップであって、該フィーチャ値が輝度強度及び色の少なくともいずれか一方である、該ステップと、を含む、画像の顕著性を推定する方法であって、該顕著性は顕著なオブジェクトが背景オブジェクトとどのくらい異なるかの尺度である、該方法は、
    (3)前記オブジェクトの近傍領域を選択するステップであって、該近傍領域が円形である該ステップと、
    (4)前記オブジェクトのフィーチャ値と前記近傍領域内のその他の各オブジェクトのフィーチャ値の間の平均差に、その他の各オブジェクトのサイズを用いて重み付けし、前記オブジェクトの重み付け平均フィーチャ差を得るステップと、
    (5)前記複数のオブジェクトの前記重み付け平均フィーチャ差の関数として前記画像の顕著性を推定するステップとをさらに含むことを特徴とする、前記方法。
  2. オブジェクトのフィーチャ値を抽出するときに、ある範囲内に入るフィーチャ値を有する前記オブジェクトの複数のピクセルの数が、前記オブジェクト内のピクセルの総数と比較して所定の閾値を超える場合に、前記複数のピクセルのフィーチャ値の平均を、前記オブジェクトのフィーチャ値として抽出する、請求項1に記載の方法。
  3. 前記オブジェクトについて、ステップ(3)において複数の近傍領域を選択することができ、ステップ(4)を各近傍領域で実行し、各近傍領域内のオブジェクトの重み付け平均フィーチャ差の線形和をとることによって総重み付け平均フィーチャ差を得る、請求項1または2に記載の方法。
  4. 数の近傍領域がある場合には、これらの複数の近傍領域が同心円状である、請求項3に記載の方法。
  5. オブジェクトの近傍領域が、前記オブジェクトの中心ピクセルを中心とする、請求項4に記載の方法。
  6. 前記重み付けステップにおいて、オブジェクトのピクセルが該オブジェクトの前記中心ピクセルと同等であるとされる、請求項1に記載の方法。
  7. 前記フィーチャ値は、前記オブジェクトの前記ピクセルの、値、色の変量、または強度である、請求項1に記載の方法。
  8. その他のオブジェクトそれぞれのサイズが、その中のピクセル数である、請求項1に記載の方法。
  9. 追加フィーチャ値が動きである、請求項1に記載の方法。
  10. 前記円形領域が水平半径および異なる垂直半径を有する楕円である、請求項1に記載の方法。
JP2009507098A 2006-04-28 2007-04-27 オブジェクト・ベース視覚的注意モデルの顕著性推定 Expired - Fee Related JP4979033B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP06300418 2006-04-28
EP06300418.8 2006-04-28
EP06300538.3 2006-05-31
EP06300538A EP1862966A1 (en) 2006-05-31 2006-05-31 Salience estimation for object-based visual attention model
PCT/EP2007/054195 WO2007125115A1 (en) 2006-04-28 2007-04-27 Salience estimation for object-based visual attention model

Publications (3)

Publication Number Publication Date
JP2009535683A JP2009535683A (ja) 2009-10-01
JP2009535683A5 JP2009535683A5 (ja) 2010-06-17
JP4979033B2 true JP4979033B2 (ja) 2012-07-18

Family

ID=38169248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009507098A Expired - Fee Related JP4979033B2 (ja) 2006-04-28 2007-04-27 オブジェクト・ベース視覚的注意モデルの顕著性推定

Country Status (4)

Country Link
US (1) US8385654B2 (ja)
EP (1) EP2013850B1 (ja)
JP (1) JP4979033B2 (ja)
WO (1) WO2007125115A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102227753B (zh) * 2008-10-03 2018-01-19 3M创新有限公司 用于评估稳健性的***和方法
JP5306940B2 (ja) * 2009-08-11 2013-10-02 日本放送協会 動画像コンテンツ評価装置およびコンピュータプログラム
EP2515206B1 (en) 2009-12-14 2019-08-14 Panasonic Intellectual Property Corporation of America User interface apparatus and input method
CN101894371B (zh) * 2010-07-19 2011-11-30 华中科技大学 一种生物激励的自顶向下的视觉注意方法
AU2011254040B2 (en) * 2011-12-14 2015-03-12 Canon Kabushiki Kaisha Method, apparatus and system for determining a saliency map for an input image
US9946795B2 (en) 2014-01-27 2018-04-17 Fujitsu Limited User modeling with salience
US9195903B2 (en) 2014-04-29 2015-11-24 International Business Machines Corporation Extracting salient features from video using a neurosynaptic system
US9373058B2 (en) 2014-05-29 2016-06-21 International Business Machines Corporation Scene understanding using a neurosynaptic system
US10115054B2 (en) 2014-07-02 2018-10-30 International Business Machines Corporation Classifying features using a neurosynaptic system
US9798972B2 (en) 2014-07-02 2017-10-24 International Business Machines Corporation Feature extraction using a neurosynaptic system for object classification
US10055850B2 (en) * 2014-09-19 2018-08-21 Brain Corporation Salient features tracking apparatus and methods using visual initialization
US9830529B2 (en) * 2016-04-26 2017-11-28 Xerox Corporation End-to-end saliency mapping via probability distribution prediction
CN110781846B (zh) * 2019-10-30 2021-02-09 江苏开放大学(江苏城市职业学院) 一种融合视觉广度特点的视觉注意计算方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6282317B1 (en) * 1998-12-31 2001-08-28 Eastman Kodak Company Method for automatic determination of main subjects in photographic images
JP2003248825A (ja) * 2002-02-22 2003-09-05 Fuji Xerox Co Ltd 画像処理装置及び画像処理方法、画像処理プログラム、記憶媒体
US7471827B2 (en) * 2003-10-16 2008-12-30 Microsoft Corporation Automatic browsing path generation to present image areas with high attention value as a function of space and time
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection

Also Published As

Publication number Publication date
WO2007125115A1 (en) 2007-11-08
US8385654B2 (en) 2013-02-26
JP2009535683A (ja) 2009-10-01
EP2013850A1 (en) 2009-01-14
EP2013850B1 (en) 2018-07-25
US20090060267A1 (en) 2009-03-05

Similar Documents

Publication Publication Date Title
JP4979033B2 (ja) オブジェクト・ベース視覚的注意モデルの顕著性推定
US20200286239A1 (en) Iterative method for salient foreground detection and multi-object segmentation
CN107862698B (zh) 基于k均值聚类的光场前景分割方法及装置
Lalonde et al. Detecting ground shadows in outdoor consumer photographs
WO2019071976A1 (zh) 基于区域增长和眼动模型的全景图像显著性检测方法
JP4098021B2 (ja) シーン識別方法および装置ならびにプログラム
US9401027B2 (en) Method and apparatus for scene segmentation from focal stack images
WO2022095818A1 (en) Methods and systems for crowd motion summarization via tracklet based human localization
Stein et al. Towards unsupervised whole-object segmentation: Combining automated matting with boundary detection
Geetha et al. An improved method for segmentation of point cloud using minimum spanning tree
Henry et al. Automatic trimap generation and artifact reduction in alpha matte using unknown region detection
Szeliski et al. Segmentation
Ranganatha et al. Development of Robust Multiple Face Tracking Algorithm and Novel Performance Evaluation Metrics for Different Background Video Sequences
Kim et al. Automated hedcut illustration using isophotes
CN109522813B (zh) 一种基于行人显著特征的改进随机游走算法
Guan Automatic extraction of lip based on wavelet edge detection
EP1862966A1 (en) Salience estimation for object-based visual attention model
Li et al. Multi-foreground objects segmentation based on RGB-D image
Sefidpour et al. Spatial finite non-gaussian mixture for color image segmentation
Ke et al. Automatic Streaming Segmentation of Stereo Video Using Bilateral Space
Yan et al. Salient region detection via color spatial distribution determined global contrasts
Wang et al. Real-time visual saliency detection using Gaussian distribution
Vantaram et al. Unsupervised video segmentation by dynamic volume growing and multivariate volume merging using color-texture-gradient features
Pavlovska et al. Content-Based Annotation of User Generated Videos on a Mobile Platform
Jagadeesh et al. Online parameter estimation in dynamic Markov random fields for image sequence analysis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100420

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110810

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111102

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120411

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120412

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4979033

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees