JP4979033B2

JP4979033B2 - オブジェクト・ベース視覚的注意モデルの顕著性推定

Info

Publication number: JP4979033B2
Application number: JP2009507098A
Authority: JP
Inventors: ドング，シヤオ; ボチエン，ジ; チンチエン，チユウ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2006-04-28
Filing date: 2007-04-27
Publication date: 2012-07-18
Anticipated expiration: 2027-04-27
Also published as: WO2007125115A1; US8385654B2; JP2009535683A; EP2013850A1; EP2013850B1; US20090060267A1

Description

本発明は、画像の顕著性（ｓａｌｉｅｎｃｅ）を推定する方法に関し、より詳細には、オブジェクト・ベース視覚注意モデルの顕著性推定方法に関する。

神経生物学的概念では、注意するということは、緻密または入念な観察によってあるオブジェクトに精神力を集中することを意味する。注意領域とは、人間の注意を多く引きつける傾向があるピクチャ内の領域である。ピクチャの注意領域を自動的に検出するように設計されたシステムを、注意モデルと呼ぶ。検出された注意領域は、限られた資源をある注意領域に集中する、検索／探索の方向付けをする、解析を単純化するなど、多様な応用分野で広く利用される。

図１は、最もよく使用される注意モデルの大まかな構成を示す図である。最初に、推定対象の画像が注意モデルに入力される。次いで、特徴抽出ステップの後で、強度、色、向きなどの特徴を得る。第３のステップで、上記の特徴の顕著性を推定する。フュージョン・スキーム（ｆｕｓｉｏｎｓｃｈｅｍｅ）ステップおよび後処理ステップの後で、最終的に注意領域が得られる。

マクロブロック（ＭＢ）を基本単位とする空間位置認識仮説に基づいて注意を駆動するほとんどの従来のマシン・ビジョン・システムで用いられる注意モデルと異なる、その他の視覚注意を方向付けするモデルは、オブジェクト主導であり、オブジェクト・ベース視覚注意モデルと呼ばれる。

ＭＢ（マクロブロック）空間ベース視覚注意に関する研究は数多くなされており、例えば、Ｌ．Ｉｔｔｉ他の「ＡＭｏｄｅｌｏｆＳａｌｉｅｎｃｅ−ＢａｓｅｄＶｉｓｕａｌＡｔｔｅｎｔｉｏｎｆｏｒＲａｐｉｄＳｃｅｎｅＡｎａｌｙｓｉｓ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、Ｖｏｌｕｍｅ２０、Ｎｏ．１１、１９９８年１１月、や、Ｙ．Ｆ．Ｍａ他の「ＡＵｓｅｒＡｔｔｅｎｔｉｏｎＭｏｄｅｌｆｏｒＶｉｄｅｏＳｕｍｍａｒｉｚａｔｉｏｎ」、ＡＣＭＭｕｌｔｉｍｅｄｉａ‘０２、ｐｐ．５３３〜５４２、２００２年１２月、などがある。しかし、オブジェクト・ベース視覚注意は、本質的に難解であるために、それほど広く研究されているわけではない。Ｙ．Ｓｕｎ他は、「Ｏｂｊｅｃｔ−ＢａｓｅｄＶｉｓｕａｌＡｔｔｅｎｔｉｏｎｆｏｒＣｏｍｐｕｔｅｒＶｉｓｉｏｎ」、ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ｐｐ．７７〜１２３、２００３年５月、において、オブジェクト・ベース視覚注意の構造を提案している。別のオブジェクト・ベース視覚注意モデルが、Ｆ．Ｏｒａｂｏｎａ他の「Ｏｂｊｅｃｔ−ＢａｓｅｄＶｉｓｕａｌＡｔｔｅｎｔｉｏｎ：ａＭｏｄｅｌｆｏｒａＢｅｈａｖｉｎｇＲｏｂｏｔ」、３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＡｔｔｅｎｔｉｏｎａｎｄＰｅｒｆｏｒｍａｎｃｅｉｎＣｏｍｐｕｔａｔｉｏｎａｌＶｉｓｉｏｎ、２００５年６月、に提案されている。どちらのオブジェクト・ベース視覚注意方式も、依然として、図１に大まかに記載した注意モデルの構成を基本としたものである。「顕著性推定」以外の全てのプロセスは、ＩｔｔｉのＭＢ空間ベース視覚注意モデルから直接生まれたものである。

ＭＢ空間ベース視覚注意モデルでもオブジェクト・ベース視覚注意モデルでも、低レベルの空間的／時間的特徴を最初に抽出し、その後、ピクチャ全体にわたって、各単位毎の各顕著性（異なる、周囲と比べて顕著な、すなわちより魅力的な）特徴マップを推定し、その後、全ての特徴マップを単純にボトムアップ式に送ることによって、マスタ「顕著性マップ」を生成する。

オブジェクト・ベース視覚注意モデルと比較して、ＭＢ空間ベース視覚注意モデルは、はるかに容易且つ速く作成することができる。しかし、ＭＢ空間ベース視覚注意モデルには、本質的な欠点がいくつかある。
１）注意領域が自然オブジェクト境界を破壊する。
２）各マクロブロックが、多数の自然オブジェクトをカバーすることがある。

従って、マクロブロックの抽出された特徴は、これら全ての自然オブジェクトの混合したプロパティであり、そのため、注意領域の検出精度を低下させることになる。

オブジェクト・ベース視覚注意モデルの重要な問題は、２つの特徴にある。１つは、特徴を抽出する前のオブジェクトのグループ化であり、もう１つは、画像内の全てのオブジェクトにおける各オブジェクトの個々の効率的な顕著性推定である。現在使用されている顕著性推定方式の中心にある概念は、Ｙ．Ｓｕｎ他が提案しているように、ガウス距離測定（Ｇａｕｓｓｄｉｓｔａｎｃｅｍｅａｓｕｒｅ）に基づく。

顕著性推定の対象となるオブジェクトをｘ、全ての背景オブジェクトをｙ_ｉ（ｉ＝１、２、・・・、ｎ）、入力画像の幅および高さの最大値をｗ、ｘとｙ_ｉの間の物理的距離を｜｜ｘ−ｙ_ｉ｜｜と表すと、ガウス距離は、以下の数式（１）のように定義される。
ここで、スケールσをｗ／ρに設定する。ρは正の整数であり、一般に１／ρは、２％、４％、５％、または２０％、２５％、５０％など、ｗの百分率に設定することができる。

特徴Ｆ内のオブジェクトｘおよびｙ_ｉの絶対差をＳ_Ｆ（ｘ、ｙ_ｉ）と表すと、特徴Ｆ内のオブジェクトｘの総合的顕著度である顕著性推定Ｓ_Ｆ（ｘ）は、以下の数式２で表すことができる。

顕著性推定をこのように定義することにより、以下のように結論づけることができる。
１．オブジェクトとその周囲との間の差が大きくなるほど、そのオブジェクトは顕著になる。
２．オブジェクトと特徴の異なる周囲とが接近するほど、そのオブジェクトは顕著になる。すなわち、人間の視覚は、距離に応じて違いを見分ける能力が低下する。その減衰係数は、この視覚生理学のテーマと整合するｄ_{ｇａｕｓｓ}で測定される。

これにより、Ｓ_Ｆ（ｘ）は、確実に特徴Ｆにおける有用な顕著性推定となる。ただし、残念ながら、いくつかの重要な人間の知覚の性質が、Ｓ_Ｆ（ｘ）では考慮されていない。

図２ａは、推定対象であるスケートのオリジナル画像であり、図３ａは、従来のオブジェクト・ベース視覚注意モデルを用いて行った、図２ａの顕著性推定の結果である。

図２ｂは、推定対象である沿岸警備隊のオリジナル画像であり、図３ｂは、従来のオブジェクト・ベース視覚注意モデルを用いて行った、図２ｂの顕著性推定の結果である。

図３ａおよび図３ｂの何れにおいても、白い色は非常に顕著なオブジェクトであることを意味し、黒い色は顕著ではないオブジェクトであることを意味し、白と黒の間のグレー・レベルが、顕著度を表している。

図３ａから、観衆は、その色がその近傍の色と大きく異なるために顕著であるとみなされているが、実際には、観衆の部分は詳細を全く含んでいないことが分かる。この画像を見る者は、通常、観衆には注目せず、観衆を「ビデオ・テクスチャ（ｖｉｄｅｏｔｅｘｔｕｒｅ）」とみなす。

さらに図３ａには、女性スケーターの頭部の左側に小さなグレーのブロックがある。このブロックは、男性の黒い衣装と女性の肌で囲まれた白いスケート・リンクの一部であり、これはこの局所領域において顕著である。しかし、結局のところ、このブロックは、広いスケート・リンクの一部であって、見る者の注意を引きつけることはない。これは、「局所効果」と呼ばれる。この局所効果によって、オブジェクトとその近傍の間の差は蓄積されて大きくなり、その結果、「顕著性」と認識される。

以上のことから、従来のオブジェクト・ベース視覚注意モデルは、効率が不十分であり、下記のように、考慮されていない人間の視覚特性が数多く存在する。

１．オブジェクトのサイズオブジェクトのサイズが顕著度に与える影響の推定は、複雑な問題である。例えば、（ａ）全ての近傍のオブジェクトｙ_ｉが同じサイズｓであり、オブジェクトｘのサイズがｓから０まで減少する場合には、その結果として、ｘの顕著度（Ｓ_Ｆ（ｘ））は、徐々に減少する。（ｂ）全ての近傍のオブジェクトｙ_ｉが同じサイズｓであり、オブジェクトｘのサイズがｓ_１からｓ_２（ｓ_１＞＞ｓ、且つｓ_１＞ｓ_２＞ｓ）まで減少する場合には、Ｓ_Ｆ（ｘ）は、徐々に増大する。従って、オブジェクトのサイズと顕著度の関係が単調でないことが分かる。また、この問題は、各オブジェクトが任意のサイズを有する可能性がある場合には、さらにずっと複雑になる。

２．局所効果あるオブジェクトがそのごく近い近傍（局所領域）の中で顕著でなく、それより少し離れた近傍がそのオブジェクトと大きく異なる場合には、２つの結果が生じる可能性がある。すなわち、（ａ）画像全体の中で、そのオブジェクトが全く顕著でない場合と、（ｂ）その画像内で、その局所領域が全体として顕著になり、そのオブジェクトはその局所領域の一部として含まれる。何れの場合にも、オブジェクトの顕著度は、上記で定義したものとは一致しない。

３．ビデオ・テクスチャある画像のオブジェクト・特徴が無作為に不均一である場合には、人間は、通常、画像全体の細部を無視し、その画像のいかなるオブジェクトも顕著ではないが、上記で定義したＳ_Ｆ（ｘ）は、画像内の何れかのオブジェクトに対して大きな数になる。

これら全ての制限のために、従来のオブジェクト・ベース視覚注意モデルは、実用的とは言えない状態にある。従って、オブジェクト・ベース視覚注意モデルを改良することが望まれている。

本発明は、計算の複雑さを低下させることができ、応用可能性を高めることができるマルチレベル同心円型方式を利用した、オブジェクト・ベース視覚注意モデルの顕著性推定方式を提供する。

一態様では、本発明は、画像の顕著性を推定する方法を提供する。この方法は、画像を複数の推定対象オブジェクトにセグメント化するステップと、各セグメント化オブジェクトについて特徴マップを抽出するステップと、抽出された特徴マップに基づいて、各セグメント化されたオブジェクトの顕著性を、当該オブジェクトの中心ピクセルの周囲に規定された１組の円内で計算するステップと、全ての円内の各セグメント化されたオブジェクトの顕著性を統合して、各セグメント化オブジェクトの総合的顕著性推定を得るステップとを含む。好ましい一実施例によれば、特徴マップを抽出するステップは、画像の色変化の測定に基づく。別の好ましい実施例によれば、各セグメント化されたオブジェクトの顕著性を計算するステップは、推定対象オブジェクトの色特徴を、当該推定対象オブジェクトの周囲に規定された各円内の任意のその他のオブジェクトの色特徴と比較するサブステップを含む。

本発明のマルチレベル同心円型顕著性推定方式に基づくオブジェクト・ベース視覚注意モデルは、計算の複雑さが低く、人間の視覚とより連絡しやすい、オブジェクト・ベース視覚注意モデルを構築するための効率的なフレームワークを提供得きるという効果を有する。

本発明のその他の特徴および利点は、添付の図面を援用しながら以下で説明する本発明の非限定的な実施例の説明から、明らかになるであろう。

本発明の技術的特徴について、実施例を参照してさらに説明する。これらの実施例は、単なる好ましい例であって、本発明を限定するものではない。以下の詳細な説明を添付の図面とあわせて読めば、本発明をよく理解できるであろう。

前記の内容から、顕著性推定プロセスは、次のように説明することができることが分かる。
入力：幅ｗおよび高さｈを有する画像Ｉ＝｛ｐ_ｉ｜ｉ＝１・・・ｗ＊ｈ｝。
出力：顕著性マップｓａｌ［１・・・ｗ＊ｈ］。ｓａｌ［ｉ］は、画像内のピクセルｐ_ｉの顕著度。

本発明の方法は、主に以下に述べる３つのステップを含む。

ステップ１前処理（画像のセグメント化）
画像Ｉは、最初にこのステップで、１組のオブジェクトＩ＝｛ｏ_１、ｏ_２、・・・、ｏ_ｎ｝に分解される。画像ベースのセグメント化およびグループ化は、人間の視覚的認識において大きな役割を果たし、この領域の研究は数多くなされている。本発明では、発明者等は、画像の色変化の測定に基づく、Ｐ．Ｆ．Ｆｅｌｚｅｎｓｚｗａｌｂ他による「ＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎＵｓｉｎｇＬｏｃａｌＶａｒｉａｔｉｏｎ」、ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、１９９８年６月、に提案されているオブジェクト・セグメント化方式を採用する。以下、この方式について簡単に説明する。

処理の前に、無向グラフＨ＝（Ｖ、Ｅ）を、画像Ｉに基づいて定義する。ここで、Ｉの各ピクセルｐ_ｉは、対応する頂点ｖ_ｉ∈ｖを有し、エッジ（ｖ_ｉ、ｖ_ｊ）∈Ｅは、頂点ｖ_ｉとｖ_ｊとを結びつけるエッジである。どのピクセルがＥ中のエッジによって結びつけられるかの精密な定義は、以下の数式（１−１）によって決まる。

所与の距離ｄ．に対して、エッジの重み関数ｗｅｉｇｈｔ（．）は、個々の頂点ｖ_ｉとｖ_ｊの間の類似性（または差異）の非負測度をいくつか与える。ｗｅｉｇｈｔ（．）は、以下の数式（１−２）のように定義する。
ここで、ｃｏｌｏｒ（ｖ_ｉ）は、画像内のピクセルｐ_ｉの色である。

Ｓ＝｛Ｃ_ｉ｝は、Ｖのセグメント化を表し、各Ｃ_ｉは、セグメント化されたオブジェクトに対応する。Ｃの内部変化は、以下の数式（１−３）のように定義する。
ここで、ＭＳＴ（Ｃ、Ｅ）は、Ｅの集合に対するＣの最小スパニング・ツリーである。

２つのオブジェクトＣ_１およびＣ_２の外部変化は、以下の数式（１−４）のように定義する。

セグメント化のプロセスは、セグメント化されたオブジェクトのうちの任意の２つについて以下の数式（１−５）を満たすようにするものである。
ここで、ｋは定数であり、発明者等の実施態様では、ｋを１００に設定する。オブジェクトＣ内部の拡張内部変化を、Ｉｎｔ（Ｃ）＋ｋ／｜Ｃ｜で表す。

セグメント化を実施するためには、まず、非減少エッジ重みによってＥをπ＝（ｅ_１、ｅ_２、・・・ｅ_ｍ）に分類し、最初に画像をｗ＊ｈ個の個々のピクセル・オブジェクトにセグメント化し、次いで、各ｅ_ｑ＝（ｖ_ｉ、ｖ_ｊ）（ｑ＝１、２、・・・、ｍ）に対して、次のプロセスを繰り返す。すなわち、ｖ_ｉおよびｖ_ｊが異なるオブジェクトに属し、且つｗｅｉｇｈｔ（ｖ_ｉ、ｖ_ｊ）が、ｖ_ｉおよびｖ_ｊが属する２つのオブジェクトの拡張内部変化（Ｉｎｔ（Ｃ）＋ｋ／｜Ｃ｜）以下である場合には、これら２つのオブジェクトがマージされて、新たな１つのオブジェクトを形成する。

これは、コンピューティング資源をそれほど多く費やさない効率的なオブジェクト・セグメント化方式を与えることが分かる。実施に際しては、ここでは、８連結近傍を用いてＥを構成する。すなわち、ｄ＝１である。図６ａおよび図６ｂはそれぞれ、図２ａおよび図２ｂのセグメント化の結果を示している。

ステップ２前処理（特徴抽出）
ｙ_ｉ、ｒ_ｉ、ｇ_ｉおよびｂ_ｉがそれぞれピクセルｐ_ｉの輝度チャネル、赤チャネル、緑チャネル、青チャネルを表すものとして、次に、ステップ１でセグメント化した各オブジェクトの特徴を抽出する。

拡張内部変化Ｉｎｔ（Ｃ）＋ｋ／｜Ｃ｜の定義を考えると、ｋ／｜Ｃ｜は、内部変化に対する加算項である。これは、内部変化を過小評価することが、要素の発達を防止するのに望ましくないからである。その結果、小さいオブジェクトの方が、その内部の内部変化にかかわらず発達しやすい。例えば、図６ａのスケートの例では、黒い衣装の最大部分は、主に黒いピクセルで構成されるが、依然としていくつかの白いピクセルが例外的に存在している。

上述の状況における特徴抽出の問題を解決するために、オブジェクトｏ＝｛ｖ_１、ｖ_２、・・・、ｖ_ｔ｝の特徴マップＦ＝ｆ（ｖ_ｉ）において、演算子Ｍａｊｏｒ（ｆ、ｏ）を定義する。Ｍａｊｏｒ（ｆ、ｏ）の戻り値は、以下を満たすように定義されたオブジェクトｏの代表特徴である（ｄ_１、ｄ_２およびηは定数であり、発明者等の実施態様ではそれぞれ２、６４および９５％に設定される）。
（１）数式ｍａｘ−ｍｉｎ＋１≦ｄ_１を満たす範囲［ｍｉｎ、ｍａｘ］があり、その値が特徴マップＦ＝｛ｆ（ｖ_１）、ｆ（ｖ_２）、・・・、ｆ（ｖ_ｔ）｝全体にわたって範囲［ｍｉｎ、ｍａｘ］内に収まる特徴の比率がη以上である場合には、Ｍａｊｏｒ（ｆ、ｏ）を、範囲［ｍｉｎ、ｍａｘ］内に収まる値を有するそれらの特徴の平均値として定義する。
（２）そうでない場合で、オブジェクトの大きさが定数ｄ_２超である場合には、ステップ１と同じプロセスでそのオブジェクトを２つのサブオブジェクトに分割し、次いで、上記ステップを各サブオブジェクトに対して繰り返し実行する。そうでない場合で、オブジェクトが小さすぎる場合には、Ｍａｊｏｒ（ｆ、ｏ）を全ての特徴の平均値として定義する。

演算子Ｍａｊｏｒ（ｆ、ｏ）を用いて、Ｙ_ｉ、Ｒ_ｉ、Ｇ_ｉ、Ｂ_ｉおよびＹｅ _ｉを、以下のようにオブジェクトｏ_ｉの輝度チャネル、赤チャネル、緑チャネル、青チャネルおよび黄チャネルとして定義する。

強度特徴は、以下の数式（２−１）として抽出される。

「二重反対色（ｃｏｌｏｕｒｄｏｕｂｌｅ−ｏｐｐｏｎｅｎｔ）」ベースの色特徴は、以下の数式（２−２）および（２−３）として抽出される。

向きは、オブジェクト・ベース視覚注意モデルにおいて複雑な特徴となる。全てのオブジェクトが色変化によってセグメント化されるので、オブジェクト自体は、オブジェクトの境界線を除けば、いかなる向き情報も含まないことになる。セグメント化されたオブジェクトにはこの特殊な性質があるので、発明者等は、本実施態様では向きを考慮しない。

向きと比較すると、オプティカル・フロー技術が現在ますます進歩していることを考えれば、動きの方が、付加的特徴として、より可能性がある。

しかし、簡潔にするために、発明者等は、本発明では、３つの特徴マップＩ_ｉ、ＲＧ_ｉおよびＢＹ_ｉのみを考慮している。

ステップ３顕著性推定
上記の２つのステップの後で、画像ＩをオブジェクトＩ＝｛ｏ_１、ｏ_２、・・・ｏ_ｎ｝にセグメント化し、３つの特徴マップＩ_ｉ、ＲＧ_ｉおよびＢＹ_ｉ（ｉ＝１・・・ｎ）を抽出する。残る問題は、ＳａｌＦ（ｏ_ｉ）で表される各特徴マップＦ（Ｆ∈｛Ｉ、ＲＧ、ＢＹ｝）の顕著性マップをどのように推定するかである。

画像の任意のオブジェクトｏ_ｉについて、サイズ（オブジェクト内のピクセル数）をｓ_ｉで表し、オブジェクトの中心ピクセルをｃ_ｉ＝（Ｘ_ｉ、Ｙ_ｉ）で表す。Ｘ_ｉおよびＹ_ｉは、以下の数式（３−１）で表される。

顕著性推定プロセス中には、オブジェクトｏ_ｉの各ピクセルは、区別されずに中心ピクセルｃ_ｉに等しいとみなされるので、そのオブジェクトは図４に示すように、中心ピクセルをｓ_ｉ個複製したものとみなされる。

この仮定に基づくと、マルチレベル同心円方式のオブジェクトｏ_ｉの顕著性推定が得られる。この方式の第１のステップでは、オブジェクトの中心ピクセルｃ_ｉを中心とした１組の同心円が定義され、Ｃ_１・・・Ｃ_ｔ（Ｃ_ｊは水平半径ｒ_ｘ、垂直半径ｒ_ｙの楕円であり、ｊレベル円と呼ばれる）が、中心ピクセルｃ_ｉに近い近傍領域から遠い近傍領域に向かって分布する。各ｊレベル円について、ＳａｌＣ_Ｆ（ｏ_ｉ、Ｃ_ｊ）で表されるＣｊ内のオブジェクトｏ_ｉの顕著性を推定し、次いで、オブジェクトｏ_ｉの総合的推定顕著性を、数式（３−２）のように定義する。ただし、ｋ_ｔは線形積分の定数である。

この場合、領域Ｃ_ｊ、および領域Ｃ_ｊ全体から抽出した特徴Ｆを有する領域Ｃ_ｊ内のオブジェクトｏ_ｉについて、人間の視覚特性を考慮して領域Ｃ_ｊ内のオブジェクトｏ_ｉの顕著性を推定するにはどうすればよいか。ここで、発明者等は、まず演算ＳａｌＣ_Ｆを以下のように定義する。

（１）中心ピクセルを領域Ｃ_ｊ内に有するオブジェクトの集合をＳとする。
（２）集合Ｓ内の各オブジェクトｏ_ｕについて、Ｆ’_ｕ＝ａｂｓ（Ｆ_ｕ−Ｆ_ｉ）を定義する。

次いで、以下の数式を使用して、集合Ｓ内のＦ’_ｕの重み付け平均を計算する。

（３）Ｆ’_ｕがａｖｇＦ’を超えない集合Ｓ内のピクセルの比率をρと定義する。
ここで、ｂｏｏｌ（ｅｘｐ）は、ｅｘｐが真のデターミナントである場合には１を戻し、そうでない場合には０を戻す。

（４）図５に示す検出関数ｔｅｘｔｕｒｅ（．）の定義を用いて、以下のようにＳａｌＣ_Ｆを設定する。
ここで、ｔｅｘｔｕｒｅ（．）は、「オーディエンス・エリア（ａｕｄｉｅｎｃｅａｒｅａ）」、すなわち注意すべき領域として認識されないことが期待される観衆などの無作為な特徴を有する領域を検出するためのρの経験的関数である。検出関数ｔｅｘｔｕｒｅ（ρ）は、ρの値が小さくなるほど、ｔｅｘｔｕｒｅ（ρ）の値が大きくなる、従ってこの領域が「オーディエンス・エリア」すなわち画像のビデオ・テクスチャとして認識される可能性が高くなるという条件を満たす。この検出関数ｔｅｘｔｕｒｅ（．）を使用することにより、領域内の注意する必要のないオブジェクトが注意すべきオブジェクトとして認識される可能性は低下する。

上記のことから、この顕著性推定方式を以下のように結論づけることができる。
（ａ）画像の各オブジェクトｏ_ｉについて、同心円Ｃ_ｊ（ｊ＝１・・・ｔ）の集合を定義する。
（ｂ）上記のＳａｌＣ_Ｆの定義に従ってＳａｌＣ_Ｆ（ｏ_ｉ、Ｃ_ｊ）を計算する。
（ｃ）数式（３−２）に従って全てのＣ_ｊについて顕著性推定を積分して、総合的推定顕著性を得る。

図７ａおよび図７ｂはそれぞれ、本発明による顕著性推定方式を用いた図２ａおよび図２ｂの顕著性推定実験結果を示している。本発明の顕著性推定方法を用いることによって、図２ａの観衆および図２ｂの背景は、顕著ではないとみなされ、図３ａの女性スケーターの頭部の左側の小さなブロックも図７ａでは除去されている。本発明は、局所効果およびビデオ・テクスチャを処理することができ、応用可能性が高められている。

以上、本発明の好ましい実施例および態様について説明したが、本発明を逸脱することなく、多くの改変を設計または構造の細部に加えることができることを、当業者なら理解するであろう。本発明は、個々に開示したものも、可能な配列および組合せで開示したものも含めて、全ての特徴を包含する。

本発明のマルチレベル同心円型顕著性推定方式に基づくオブジェクト・ベース視覚注意モデルは、画像の理解の精度を向上させ、計算効率を大幅に向上させ、以下のいくつかの利点を有する。
１．本発明は、オブジェクト・ベース視覚注意モデルを構築するための効率的なフレームワークを提供する。その計算の複雑さは低い。
２．提供されるフレームワークは、人間の視覚とはるかに連絡しやすい。従来の方式で考慮されていなかった人間の視覚の特性（オブジェクトのサイズ、局所効果、およびビデオ・テクスチャなど）がよく考慮されている。
３．このフレームワークは拡張可能である。

最もよく使用される注意モデルの大まかな構造を示す図である。顕著性推定対象であるスケートのオリジナル画像を示す図である。顕著性推定対象の沿岸警備隊のオリジナル画像を示す図である。従来のオブジェクト・ベース視覚注意モデルを用いて行った、図２ａの顕著性推定の結果を示す図である。従来のオブジェクト・ベース視覚注意モデルを用いて行った、図２ｂの顕著性推定の結果を示す図である。本発明の好ましい実施例による顕著性推定のマルチレベル同心円型方式を示す図である。本発明のｔｅｘｔｕｒｅ（．）の例示的な定義を示す図である。本発明の好ましい実施例による図２ａのセグメント化の結果の一例を示す図である。本発明の好ましい実施例による図２ｂのセグメント化の結果の別の例を示す図である。本発明の好ましい実施例による顕著性推定方式を用いて行った、図２ａの顕著性推定の結果を示す図である。本発明の好ましい実施例による顕著性推定方式を用いて行った、図２ｂの顕著性推定の結果を示す図である。

Claims

（１）画像を複数の別個のオブジェクトにセグメント化するステップと、
各オブジェクトについて、
（２）前記オブジェクトのフィーチャ値を前記オブジェクトのピクセルの関数として抽出するステップであって、該フィーチャ値が輝度強度及び色の少なくともいずれか一方である、該ステップと、を含む、画像の顕著性を推定する方法であって、該顕著性は顕著なオブジェクトが背景オブジェクトとどのくらい異なるかの尺度である、該方法は、
（３）前記オブジェクトの近傍領域を選択するステップであって、該近傍領域が円形である該ステップと、
（４）前記オブジェクトのフィーチャ値と前記近傍領域内のその他の各オブジェクトのフィーチャ値との間の平均差に、該その他の各オブジェクトのサイズを用いて重み付けし、前記オブジェクトの重み付け平均フィーチャ差を得るステップと、
（５）前記複数のオブジェクトの前記重み付け平均フィーチャ差の関数として前記画像の顕著性を推定するステップと、をさらに含むことを特徴とする、前記方法。
オブジェクトのフィーチャ値を抽出するときに、ある範囲内に入るフィーチャ値を有する前記オブジェクトの複数のピクセルの数が、前記オブジェクト内のピクセルの総数と比較して所定の閾値を超える場合に、前記複数のピクセルのフィーチャ値の平均を、前記オブジェクトのフィーチャ値として抽出する、請求項１に記載の方法。
前記オブジェクトについて、ステップ（３）において複数の近傍領域を選択することができ、ステップ（４）を各近傍領域で実行し、各近傍領域内のオブジェクトの重み付け平均フィーチャ差の線形和をとることによって総重み付け平均フィーチャ差を得る、請求項１または２に記載の方法。
複数の近傍領域がある場合には、これらの複数の近傍領域が同心円状である、請求項３に記載の方法。
オブジェクトの各近傍領域が、前記オブジェクトの中心ピクセルを中心とする、請求項４に記載の方法。
前記重み付けステップにおいて、オブジェクトの各ピクセルが該オブジェクトの前記中心ピクセルと同等であるとされる、請求項１に記載の方法。
前記フィーチャ値は、前記オブジェクトの前記ピクセルの、値、色の変量、または強度である、請求項１に記載の方法。
その他のオブジェクトそれぞれのサイズが、その中のピクセル数である、請求項１に記載の方法。
追加フィーチャ値が動きである、請求項１に記載の方法。
前記円形領域が水平半径および異なる垂直半径を有する楕円である、請求項１に記載の方法。