JP2020184146A

JP2020184146A - 顕著性推定装置、顕著性推定方法、及びプログラム

Info

Publication number: JP2020184146A
Application number: JP2019087565A
Authority: JP
Inventors: 井上　俊明; Toshiaki Inoue; 俊明井上
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2020-11-12
Also published as: JP2023153309A

Abstract

【課題】画像から、移動中の人が見た場合に顕著性が高いと感じる領域を高い精度で検出する顕著性推定装置、顕著性推定方法、及びプログラムを提供する。【解決手段】顕著性推定装置１０は、動画データを取得し、取得した動画データを構成するフレーム画像の各々を出力する入力部１１０と、入力部１１０が出力したフレーム画像を補正することにより補正済画像を生成する補正部１２０と、補正済画像を処理することにより、補正済画像内又はフレーム画像内における顕著性分布を示す顕著性推定情報を生成する顕著性推定部１３０と、を備える。補正部１２０は、フレーム画像の少なくとも一部の明度の変更を示す明度情報を、第１の視点の移動速度に関する速度情報、及びフレーム画像中の基準点から前記少なくとも一部までの相対位置を用いて生成し、この明度情報を用いて、前記少なくとも一部の明度を補正する。【選択図】図１

Description

本発明は、顕著性推定装置、顕著性推定方法、及びプログラムに関する。

画像の中の顕著領域を自動で検出する技術が提案されている。一方、人が移動している場合、人の移動速度が速くなるにつれて人の有効視野は狭くなる。非特許文献１には、有効視野を考慮して顕著領域を自動で検出することについて記載されている。具体的には、非特許文献１には、対象画像の解像度及び彩度を、注視点からの距離に応じて落としていき、その後、顕著性を推定することが記載されている。

森本他，「ＭＳＴ野の応答特性を考慮した動画像に対する顕著性推定モデル」，映像メディア学会技術報告，Vol.38，No.10，pp.57-60，2014年

本発明者は、画像から、移動中の人が見た場合に顕著性が高いと感じる領域を高い精度で検出する方法を検討した。本発明が解決しようとする課題としては、画像から、移動中の人が見た場合に顕著性が高いと感じる領域を高い精度で検出することが一例として挙げられる。

請求項１に記載の発明は、第１の視点から見た景色の画像を補正することにより補正済画像を生成する補正部と、
前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成する顕著性推定部と、
を備え、
前記補正部は、
前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第１の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成し、
前記明度情報を用いて前記少なくとも一部の明度を補正する顕著性推定装置である。

請求項８に記載の発明は、コンピュータが、
第１の視点から見た景色の画像を補正することにより補正済画像を生成し、
前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成し、
さらに前記コンピュータが、
前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第１の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成し、
前記明度情報を用いて前記少なくとも一部の明度を補正する顕著性推定方法である。

請求項９に記載の発明は、コンピュータに、
第１の視点から見た景色の画像を補正することにより補正済画像を生成する補正機能と、
前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成する推定機能と、
を持たせ、
さらに前記補正機能の少なくとも一部として、
前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第１の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成する機能と、
前記明度情報を用いて前記少なくとも一部の明度を補正する機能と、
を持たせるプログラムである。

第１の実施形態に係る顕著性推定装置の機能構成を示す図である。視野角情報の設定方法を説明するための図である。視野角情報の一例を説明するための図である。明度情報を説明するための図である。解像度情報を説明するための図である。彩度情報を説明するための図である。補正処理部の機能構成の一例を示す図である。顕著性推定部の構成例を例示するブロック図である。（ａ）は、顕著性推定部へ入力する画像を例示する図であり、（ｂ）は、（ａ）に対し推定される、顕著性分布を示す画像を例示する図である。第１の構成例に係る処理方法を例示するフローチャートである。非線形写像部の構成を詳しく例示する図である。中間層の構成を例示する図である。（ａ）および（ｂ）はそれぞれ、フィルタで行われる畳み込み処理の例を示す図である。（ａ）は、第１のプーリング部の処理を説明するための図であり、（ｂ）は、第２のプーリング部の処理を説明するための図であり、（ｃ）は、アンプーリング部の処理を説明するための図である。顕著性推定装置のハードウエア構成を例示するブロック図である。第２の実施形態に係る顕著性推定装置の機能構成を示す図である。第３の実施形態に係る顕著性推定装置の機能構成を示す図である。基準点設定部の動作例を説明するための図である。第４の実施形態に係る顕著性推定装置の機能構成を示す図である。第５の実施形態に係る顕著性推定部の構成を例示する図である。第５の実施形態に係る学習動作を例示するフローチャートである。第６の実施形態に係る演算装置の構成および使用環境を例示する図である。第７の実施形態に係る顕著性推定部の構成を例示する図である。合成部で生成された合成情報が示す画像を例示する図である。第８の実施形態に係る顕著性推定部の構成を例示する図である。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

（第１の実施形態）
図１は、第１の実施形態に係る顕著性推定装置１０の機能構成を示す図である。本図に示す顕著性推定装置１０は、入力部１１０、補正部１２０、及び顕著性推定部１３０を備えている。入力部１１０は動画データを取得し、取得した動画データを構成するフレーム画像の各々を補正部１２０に出力する。これらフレーム画像は、第１の視点から見た景色の画像となっている。第１の視点は、例えば動画データを生成したカメラが配置されていた位置である。補正部１２０は、入力部１１０が出力したフレーム画像を補正することにより補正済画像を生成する。顕著性推定部１３０は、補正済画像を処理することにより、顕著性推定情報を生成する。顕著性推定情報は、補正済画像内又はフレーム画像内における顕著性分布を示している。ここで、補正部１２０は、フレーム画像の少なくとも一部の明度の変更を示す明度情報を、第１の視点の移動速度に関する速度情報、及びフレーム画像中の基準点から上記した少なくとも一部までの相対位置を用いて生成する。そして補正部１２０は、この明度情報を用いて、上記した少なくとも一部の明度を補正する。以下、顕著性推定装置１０について詳細に説明する。

上記したように、入力部１１０には動画データが入力される。入力部１１０は、動画データに含まれる複数のフレーム画像のそれぞれを、補正部１２０に出力する。

補正部１２０は、入力部１１０から入力されたフレーム画像を補正する。具体的には、補正部１２０は、視野設定部１２２、補正情報生成部１２４、及び補正処理部１２６を有している。

視野設定部１２２は、速度情報及び基準点情報を外部から受け取る。速度情報は、移動速度を示している。この移動速度は、例えば入力部１１０が取得する動画データが撮影されたときのカメラの速度であるが、これに限定されない。基準点情報は、補正部１２０が取得したフレーム画像のうち注視点となるべき位置を特定している。視野設定部１２２は、速度情報を用いて、その速度で人が移動したときの人の視野角を示す視野角情報を生成する。そして視野設定部１２２は、速度情報、基準点情報、及び視野角情報を補正情報生成部１２４に出力する。

図２は、視野角情報の設定方法を説明するための図である。移動している人の視野角は、移動速度が上がるにつれて狭くなる。視野設定部１２２は、例えば図２に示すような、速さと視野角の関係を示すデータを記憶しておき、このデータを用いて、入力された移動速度に対応する視野角を特定し、特定した視野角を示す視野角情報を生成する。

図３は、視野角情報の一例を説明するための図である。本図に示す例において、視野角情報は、基準点をからの距離に基づいて画像を複数の領域に分ける情報である。具体的には、基準点を含む第０の領域は、画像が明瞭になるべき領域である。そして、補正情報生成部１２４及び補正処理部１２６は、第０の領域の外側に位置する第１の領域、第１の領域の外側に位置する第２の領域・・・となるにつれて、その領域が徐々に不明瞭かつ暗くなるように、画像を補正する。

視野設定部１２２は、少なくとも第０の領域の大きさを、速度情報を用いて定める。例えば速度情報が示す速度が低い場合、第０の領域を大きくし、他の領域を狭くする。なお、視野設定部１２２は、各領域の大きさの他に、設定される領域の数を、速度情報を用いて設定してもよい。この場合、視野設定部１２２は、速度が大きくなるにつれて、設定される領域の数を増やす。

図３に示す例において、各領域の外形線は矩形となっている。ただし、この外形線は他の形状（例えば円形や楕円形）であってもよい。

図１に戻る。補正情報生成部１２４は、視野設定部１２２から取得した基準点情報を用いて、補正情報を生成する。補正情報は、フレーム画像の各画素の値の補正量を特定する情報である。視野角情報は、上記したように速度情報及び基準点からの距離を用いて生成されている。このため、視野設定部１２２は、実質的には、基準点からの相対位置及び速度情報を用いて、補正情報を生成することになる。

詳細には、補正情報は、明度情報、解像度情報、及び彩度情報を有している。明度情報は、画像の少なくとも一部の明度の変更を示しており、解像度情報は、画像の少なくとも一部の解像度の変更を示しており、彩度情報は、画像の少なくとも一部の彩度の変更を示している。そして補正情報生成部１２４は、視野角情報、基準点情報、及び補正情報を補正処理部１２６に出力する。

図４は明度情報を説明するための図であり、図５は解像度情報を説明するための図であり、図６は彩度情報を説明するための図である。これらの図に示すように、補正情報生成部１２４が生成する補正情報は、基準点からの距離が大きくなるにつれて、明度、解像度、及び彩度のいずれも下げることを示している。具体的には、明度、解像度、及び彩度のいずれに関しても、図３に示した「第ｋの領域」のｋの値毎に、補正量が設定されている。そしてｋの値が大きくなるにつれて、明度、解像度、及び彩度のいずれも下がる。

図１に戻る。補正処理部１２６は、入力部１１０からフレーム画像を取得し、このフレーム画像を、視野角情報、基準点情報、及び補正情報を用いて補正する。具体的には、補正処理部１２６は、フレーム画像内の基準点を、基準点情報を用いて定義する。そして補正処理部１２６は、基準点及び視野角情報を用いて、フレーム画像を図３に示した各領域に分ける。そして補正処理部１２６は、各領域に対して、補正情報に従った補正を行う。

図７は、補正処理部１２６の機能構成の一例を示す図である。補正処理部１２６は、解像度補正部２０２、彩度補正部２０４、及び明度補正部２０６を有している。解像度補正部２０２は、補正情報に含まれる解像度情報を用いて、フレーム画像の解像度を領域ごとに補正する。彩度補正部２０４は、補正情報に含まれる再度情報を用いて、フレーム画像の彩度を領域ごとに補正する。明度補正部２０６は、補正情報に含まれる明度情報を用いて、フレーム画像の明度を領域ごとに補正する。なお、本図に示す例において、解像度補正部２０２、彩度補正部２０４、及び明度補正部２０６はこの順に直列に配置されているが、これらの並び順は図７に示す例に限定されない。

そして、補正部１２０は、補正後のフレーム画像（補正済画像）を顕著性推定部１３０に出力する。

＜顕著性推定部１３０の構成例＞
図８は、顕著性推定部１３０の構成例を例示するブロック図である。顕著性推定部１３０は、機械学習によって生成されたモデルに補正済のフレーム画像を入力することにより、顕著性推定情報を生成する。詳細には、顕著性推定部１３０は、入力部３１０、非線形写像部３２０、および出力部３３０を備える。入力部３１０は、入力されたフレーム画像（以下、顕著性推定部１３０に関する説明においては画像と記載）を写像処理可能な中間データに変換する。非線形写像部３２０は、中間データを写像データに変換する。出力部３３０は、写像データに基づき顕著性推定情報を生成する。そして、非線形写像部３２０は、中間データに対し特徴の抽出を行う特徴抽出部３２１と、特徴抽出部３２１で生成されたデータのアップサンプルを行うアップサンプル部３２２とを備える。以下に詳しく説明する。

図９（ａ）は、顕著性推定部１３０へ入力する画像を例示する図であり、図９（ｂ）は、図９（ａ）に対し推定される、顕著性分布を示す画像を例示する図である。なお、説明のため、これらの図は、補正部１２０によって補正される前のフレーム画像を示している。本構成例に係る顕著性推定部１３０は、画像における各部分の顕著性を推定する。顕著性とはたとえば、目立ちやすさや視線の集まりやすさを意味する。具体的には顕著性は、確率等で示される。ここで、確率の大小は、たとえばその画像を見た人の視線がその位置に向く確率の大小に対応する。

図９（ａ）と図９（ｂ）とは、互いに位置が対応している。そして、図９（ａ）において、顕著性が高い位置ほど、図９（ｂ）において輝度が高く表示されている。図９（ｂ）のような顕著性分布を示す画像は、出力部３３０が出力する顕著性推定情報の一例である。本図の例において、顕著性は、２５６階調の輝度値で可視化されている。出力部３３０が出力する顕著性推定情報の例については詳しく後述する。

顕著性分布の推定結果は、たとえば、運転者や歩行者等の交通参加者の視線予測や、交通参加者の見落とし防止、広告媒体などのコンテンツの見栄え評価、視線誘導、スポーツ選手や技能熟練者のノウハウのデータ化、生体の視覚認知の理解など、様々な分野で用いることができる。さらに、本構成例に係る顕著性推定部１３０および処理方法は、自動運転や先進運転支援システム（ＡＤＡＳ）、道路交通システム等のモビリティ分野、仮想現実（ＶＲ）、拡張現実（ＡＲ）、ゲーム等のエンターテインメント分野、ドキュメント、映像コンテンツ、サイネージ等のコンテンツ分野、画像診断、手術支援、介護サービス等の医療分野等への応用が可能である。

図１０は、第１の構成例に係る処理方法を例示するフローチャートである。本構成例に係る処理方法は、コンピュータによって実行される処理方法であって、入力ステップＳ１１０、非線形写像ステップＳ１２０、および出力ステップＳ１３０を含む。入力ステップＳ１１０では、画像が写像処理可能な中間データに変換される。非線形写像ステップＳ１２０では、中間データが写像データに変換される。出力ステップＳ１３０では、写像データに基づき顕著性分布を示す顕著性推定情報が生成される。ここで、非線形写像ステップＳ１２０は、中間データに対し特徴の抽出を行う特徴抽出ステップＳ１２１と、特徴抽出ステップＳ１２１で生成されたデータのアップサンプルを行うアップサンプルステップＳ１２２とを含む。本構成例に係る処理方法は、構成例に係る顕著性推定部１３０により実現される。

図８に戻り、顕著性推定部１３０の各構成要素について説明する。入力ステップＳ１１０において入力部３１０は、画像を取得し、中間データに変換する。入力部３１０は、補正部１２０から画像を取得する。そして入力部３１０は、取得した画像を中間データに変換する。中間データは非線形写像部３２０が受け付け可能なデータであれば特に限定されないが、たとえば高次元テンソルである。また、中間データはたとえば、取得した画像に対し輝度を正規化したデータ、または、取得した画像の各画素を、輝度の傾きに変換したデータである。入力ステップＳ１１０において入力部３１０は、さらに画像のノイズ除去や解像度変換等を行っても良い。

非線形写像ステップＳ１２０において、非線形写像部３２０は入力部３１０から中間データを取得する。そして、非線形写像部３２０において中間データが写像データに変換される。ここで、写像データは例えば高次元テンソルである。非線形写像部３２０で中間データに施される写像処理は、たとえばパラメータ等により制御可能な写像処理であり、関数、汎関数、またはニューラルネットワークによる処理であることが好ましい。

図１１は、非線形写像部３２０の構成を詳しく例示する図であり、図１２は、中間層３２３の構成を例示する図である。上記した通り、非線形写像部３２０は、特徴抽出部３２１およびアップサンプル部３２２を備える。特徴抽出部３２１において特徴抽出ステップＳ１２１が行われ、アップサンプル部３２２においてアップサンプルステップＳ１２２が行われる。また、本図の例において、特徴抽出部３２１およびアップサンプル部３２２の少なくとも一方は、複数の中間層３２３を含むニューラルネットワークを含んで構成される。ニューラルネットワークにおいては、複数の中間層３２３が結合されている。

特にニューラルネットワークは畳み込みニューラルネットワークであることが好ましい。具体的には、複数の中間層３２３のそれぞれは、一または二以上の畳み込み層３２４を含む。そして、畳み込み層３２４では、入力されたデータに対し複数のフィルタ３２５による畳み込みが行われ、複数のフィルタ３２５の出力に対し活性化処理が施される。

図１１の例において、特徴抽出部３２１は、複数の中間層３２３を含むニューラルネットワークを含んで構成され、複数の中間層３２３の間に第１のプーリング部３２６を備える。また、アップサンプル部３２２は、複数の中間層３２３を含むニューラルネットワークを含んで構成され、複数の中間層３２３の間にアンプーリング部３２８を備える。さらに、特徴抽出部３２１とアップサンプル部３２２とは、オーバーラッププーリングを行う第２のプーリング部３２７を介して互いに接続されている。

なお、本図の例において各中間層３２３は、二以上の畳み込み層３２４からなる。ただし、少なくとも一部の中間層３２３は、一の畳み込み層３２４のみからなってもよい。互いに隣り合う中間層３２３は、第１のプーリング部３２６、第２のプーリング部３２７およびアンプーリング部３２８のいずれかで区切られる。ここで、中間層３２３に二以上の畳み込み層３２４が含まれる場合、それらの畳み込み層３２４におけるフィルタ３２５の数は互いに等しいことが好ましい。

本図では、「Ａ×Ｂ」と記された中間層３２３は、Ｂ個の畳み込み層３２４からなり、各畳み込み層３２４は、各チャネルに対しＡ個の畳み込みフィルタを含むことを意味している。このような中間層３２３を以下では「Ａ×Ｂ中間層」とも呼ぶ。たとえば、６４×２中間層３２３は、２個の畳み込み層３２４からなり、各畳み込み層３２４は、各チャネルに対し６４個の畳み込みフィルタを含むことを意味している。

本図の例において、特徴抽出部３２１は、６４×２中間層３２３、１２８×２中間層３２３、２５６×３中間層３２３、および、５１２×３中間層３２３をこの順に含む。また、アップサンプル部３２２は、５１２×３中間層３２３、２５６×３中間層３２３、１２８×２中間層３２３、および６４×２中間層３２３をこの順に含む。また、第２のプーリング部３２７は、２つの５１２×３中間層３２３を互いに接続している。なお、非線形写像部３２０を構成する中間層３２３の数は特に限定されず、たとえば画像データの画素数に応じて定めることができる。

なお、本図は非線形写像部３２０の構成の一例であり、非線形写像部３２０は他の構成を有していても良い。たとえば、６４×２中間層３２３の代わりに６４×１中間層３２３が含まれても良い。中間層３２３に含まれる畳み込み層３２４の数が削減されることで、計算コストがより低減される可能性がある。また、たとえば、６４×２中間層３２３の代わりに３２×２中間層３２３が含まれても良い。中間層３２３のチャネル数が削減されることで、計算コストがより低減される可能性がある。さらに、中間層３２３における畳み込み層３２４の数とチャネル数との両方を削減しても良い。

ここで、特徴抽出部３２１に含まれる複数の中間層３２３においては、第１のプーリング部３２６を経る毎にフィルタ３２５の数が増加することが好ましい。具体的には、第１の中間層３２３ａと第２の中間層３２３ｂとが、第１のプーリング部３２６を介して互いに連続しており、第１の中間層３２３ａの後段に第２の中間層３２３ｂが位置する。そして、第１の中間層３２３ａは、各チャネルに対するフィルタ３２５の数がＮ１である畳み込み層３２４で構成されており、第２の中間層３２３ｂは、各チャネルに対するフィルタ３２５の数がＮ２である畳み込み層３２４で構成されている。このとき、Ｎ２＞Ｎ１が成り立つことが好ましい。また、Ｎ２＝Ｎ１×２が成り立つことがより好ましい。

また、アップサンプル部３２２に含まれる複数の中間層３２３においては、アンプーリング部３２８を経る毎にフィルタ３２５の数が減少することが好ましい。具体的には、第３の中間層３２３ｃと第４の中間層３２３ｄとが、アンプーリング部３２８を介して互いに連続しており、第３の中間層３２３ｃの後段に第４の中間層３２３ｄが位置する。そして、第３の中間層３２３ｃは、各チャネルに対するフィルタ３２５の数がＮ３である畳み込み層３２４で構成されており、第４の中間層３２３ｄは、各チャネルに対するフィルタ３２５の数がＮ４である畳み込み層３２４で構成されている。このとき、Ｎ４＜Ｎ３が成り立つことが好ましい。また、Ｎ３＝Ｎ４×２が成り立つことがより好ましい。

特徴抽出部３２１では、入力部３１０から取得した中間データから勾配や形状など、複数の抽象度を持つ画像特徴を中間層３２３のチャネルとして抽出する。図１２は、６４×２中間層３２３の構成を例示している。本図を参照して、中間層３２３における処理を説明する。本図の例において、中間層３２３は第１の畳み込み層３２４ａと第２の畳み込み層３２４ｂとで構成されており、各畳み込み層３２４は６４個のフィルタ３２５を備える。第１の畳み込み層３２４ａでは、中間層３２３に入力されたデータの各チャネルに対して、フィルタ３２５を用いた畳み込み処理が施される。たとえば入力部３１０へ入力された画像がＲＧＢ画像である場合、３つのチャネルｈ０ｉ（ｉ＝１．．３）のそれぞれに対して処理が施される。また、本図の例において、フィルタ３２５は６４種の３×３フィルタであり、すなわち合計６４×３種のフィルタである。畳み込み処理の結果、各チャネルｉに対して、６４個の結果ｈ０ｉ，ｊ（ｉ＝１．．３，ｊ＝１．．６４）が得られる。

次に、複数のフィルタ３２５の出力に対し、活性化部３２９において活性化処理が行われる。具体的には、全チャネルの対応する結果ｊについて、対応する要素毎の総和に活性化処理が施される。この活性化処理により、６４チャネルの結果ｈ１ｉ（ｉ＝１．．６４）、すなわち、第１の畳み込み層３２４ａの出力が、画像特徴として得られる。活性化処理は特に限定されないが、双曲関数、シグモイド関数、および正規化線形関数の少なくともいずれかを用いる処理が好ましい。

さらに、第１の畳み込み層３２４ａの出力データを第２の畳み込み層３２４ｂの入力データとし、第２の畳み込み層３２４ｂにて第１の畳み込み層３２４ａと同様の処理を行って、６４チャネルの結果ｈ２ｉ（ｉ＝１．．６４）、すなわち第２の畳み込み層３２４ｂの出力が、画像特徴として得られる。第２の畳み込み層３２４ｂの出力がこの６４×２中間層３２３の出力データとなる。

ここで、フィルタ３２５の構造は特に限定されないが、３×３の二次元フィルタであることが好ましい。また、各フィルタ３２５の係数は独立に設定可能である。本構成例において、各フィルタ３２５の係数は記憶部３９０に保持されており、非線形写像部３２０がそれを読み出して処理に用いることができる。ここで、複数のフィルタ３２５の係数は機械学習を用いて生成、修正された補正情報に基づいて定められてもよい。たとえば、補正情報は、複数のフィルタ３２５の係数を、複数の補正パラメータとして含む。非線形写像部３２０は、この補正情報をさらに用いて中間データを写像データに変換することができる。記憶部３９０は顕著性推定部１３０に備えられていてもよいし、顕著性推定部１３０の外部に設けられていてもよい。また、非線形写像部３２０は補正情報を、通信ネットワークを介して外部から取得しても良い。

図１３（ａ）および図１３（ｂ）はそれぞれ、フィルタ３２５で行われる畳み込み処理の例を示す図である。図１３（ａ）および図１３（ｂ）では、いずれも３×３畳み込みの例が示されている。図１３（ａ）の例は、最近接要素を用いた畳み込み処理である。図１３（ｂ）の例は、距離が二以上の近接要素を用いた畳み込み処理である。なお、距離が三以上の近接要素を用いた畳み込み処理も可能である。フィルタ３２５は、距離が二以上の近接要素を用いた畳み込み処理を行うことが好ましい。より広範囲の特徴を抽出することができ、顕著性の推定精度をさらに高めることができるからである。

以上、６４×２中間層３２３の動作について説明した。他の中間層３２３（１２８×２中間層３２３、２５６×３中間層３２３、および、５１２×３中間層３２３等）の動作についても、畳み込み層３２４の数およびチャネルの数を除いて、６４×２中間層３２３の動作と同じである。また、特徴抽出部３２１における中間層３２３の動作も、アップサンプル部３２２における中間層３２３の動作も上記と同様である。

図１４（ａ）は、第１のプーリング部３２６の処理を説明するための図であり、図１４（ｂ）は、第２のプーリング部３２７の処理を説明するための図であり、図１４（ｃ）は、アンプーリング部３２８の処理を説明するための図である。

特徴抽出部３２１において、中間層３２３から出力されたデータは、第１のプーリング部３２６においてチャネル毎にプーリング処理が施された後、次の中間層３２３に入力される。第１のプーリング部３２６ではたとえば、非オーバーラップのプーリング処理が行われる。図１４（ａ）では、各チャネルに含まれる要素群に対し、２×２の４つの要素３０を１つの要素３０に対応づける処理を示している。第１のプーリング部３２６ではこのような対応づけが全ての要素３０に対し行われる。ここで、２×２の４つの要素３０は互いに重ならないよう選択される。本例では、各チャネルの要素数が４分の１に縮小される。なお、第１のプーリング部３２６において要素数が縮小される限り、対応づける前後の要素３０の数は特に限定されない。

特徴抽出部３２１から出力されたデータは、第２のプーリング部３２７を介してアップサンプル部３２２に入力される。第２のプーリング部３２７では、特徴抽出部３２１からの出力データに対し、オーバーラッププーリングが施される。図１４（ｂ）では、一部の要素３０をオーバーラップさせながら、２×２の４つの要素３０を１つの要素３０に対応づける処理を示している。すなわち、繰り返される対応づけにおいて、ある対応づけにおける２×２の４つの要素３０のうち一部が、次の対応づけにおける２×２の４つの要素３０にも含まれる。本図のような第２のプーリング部３２７では要素数は縮小されない。なお、第２のプーリング部３２７において対応づける前後の要素３０の数は特に限定されない。

第１のプーリング部３２６および第２のプーリング部３２７で行われる各処理の方法は特に限定されないが、たとえば、４つの要素３０の最大値を１つの要素３０とする対応づけ（max pooling）や４つの要素３０の平均値を１つの要素３０とする対応づけ（average pooling）が挙げられる。

第２のプーリング部３２７から出力されたデータは、アップサンプル部３２２における中間層３２３に入力される。そして、アップサンプル部３２２の中間層３２３からの出力データはアンプーリング部３２８においてチャネル毎にアンプーリング処理が施された後、次の中間層３２３に入力される。図１４（ｃ）では、１つの要素３０を複数の要素３０に拡大する処理を示している。拡大の方法は特に限定されないが、１つの要素３０を２×２の４つの要素３０へ複製する方法が例として挙げられる。

アップサンプル部３２２の最後の中間層３２３の出力データは写像データとして非線形写像部３２０から出力され、出力部３３０に入力される。出力ステップＳ１３０において出力部３３０は、非線形写像部３２０から取得したデータに対し、たとえば正規化や解像度変換等を行うことで顕著性推定情報を生成し、出力する。顕著性推定情報はたとえば、図９（ｂ）に例示したような顕著性を輝度値で可視化した画像（画像データ）である。また、顕著性推定情報はたとえば、ヒートマップのように顕著性に応じて色分けされた画像であっても良いし、顕著性が予め定められた基準より高い顕著領域を、その他の位置とは識別可能にマーキングした画像であっても良い。さらに、顕著性推定情報は画像に限定されず、顕著領域を示す情報を列挙したテーブル等であっても良い。

出力部３３０から出力された顕著性推定情報に対しては、顕著性推定部１３０内、または顕著性推定部１３０の外部において、画像分割や物体認識、画像分類などの各種コンピュータビジョン処理が施されても良い。

＜ハードウエア構成例＞
図１５は、図１に示す顕著性推定装置１０のハードウエア構成を例示するブロック図である。顕著性推定装置１０は、バス１０１０、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０を有する。

バス１０１０は、プロセッサ１０２０、メモリ１０３０、ストレージデバイス１０４０、入出力インタフェース１０５０、及びネットワークインタフェース１０６０が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ１０２０などを互いに接続する方法は、バス接続に限定されない。

プロセッサ１０２０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などで実現されるプロセッサである。

メモリ１０３０は、ＲＡＭ（Random Access Memory）などで実現される主記憶装置である。

ストレージデバイス１０４０は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、メモリカード、又はＲＯＭ（Read Only Memory）などで実現される補助記憶装置である。ストレージデバイス１０４０は顕著性推定装置１０の各機能を実現するプログラムモジュールを記憶している。プロセッサ１０２０がこれら各プログラムモジュールをメモリ１０３０上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。

入出力インタフェース１０５０は、顕著性推定装置１０と各種入出力機器とを接続するためのインタフェースである。

ネットワークインタフェース１０６０は、顕著性推定装置１０をネットワークに接続するためのインタフェースである。このネットワークは、例えばＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）である。ネットワークインタフェース１０６０がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。

以上、本実施形態によれば、顕著性の推定処理の前に、速度情報を用いてフレーム画像の明度を変更している。このため、顕著性推定部１３０は、動画を構成する各フレーム画像から、移動中の人が見た場合に顕著性が高いと感じる領域を高い精度で検出することができる。

また、顕著性推定部１３０は、中間データに対し特徴の抽出を行う特徴抽出部３２１と、特徴抽出部３２１で生成されたデータのアップサンプルを行うアップサンプル部３２２とを備える。したがって、小さな計算コストで、顕著性を推定することができる。

なお、顕著性推定装置１０は、静止画を処理することもできる。この場合においても、上述した効果が得られる。

（第２の実施形態）
図１６は、第２の実施形態に係る顕著性推定装置１０の機能構成を示す図である。本実施形態に係る顕著性推定装置１０は、速度推定部１４０を備えている点を除いて、第１の実施形態に係る顕著性推定装置１０と同様の構成である。

速度推定部１４０は、入力部１１０に入力される動画データを処理することにより、移動中の速度を推定する。この移動速度の推定アルゴリズムとしてはオプティカルフロー推定を利用するなど既存のアルゴリズムを用いることができる。そして速度推定部１４０は、推定した速度を速度情報として視野設定部１２２に出力する。

本実施形態によっても、第１の実施形態と同様の効果が得られる。また、速度推定部１４０が速度情報を生成するため、外部から速度情報を入力する必要はない。

（第３の実施形態）
図１７は、第３の実施形態に係る顕著性推定装置１０の機能構成を示す図である。本実施形態に係る顕著性推定装置１０は、基準点設定部１５０を備えている点を除いて、第２の実施形態に係る顕著性推定装置１０と同様の構成である。

基準点設定部１５０は、入力部１１０に入力される動画データの少なくとも一つのフレーム画像を処理することにより、基準点情報を生成する。

例えば基準点設定部１５０は、フレーム画像に予め定められた物体、例えば特定の交通標識など人の目につきやすい物体が含まれている場合、その物体の位置を基準点に設定する。この物体の検知は、例えば特徴量のマッチング処理によって行われる。ここで用いられる特徴量は、予め顕著性推定装置１０に記憶されている。

また基準点設定部１５０は、フレーム画像に道路が含まれており、かつ、その道路の直線部分の長さが基準以上の場合、消失点を基準点に設定する。消失点の検出には、Hough変換を利用するなど既存のアルゴリズムを用いることができる。

また基準点設定部１５０は、フレーム画像が示す風景が特定の条件を満たしたとき、その条件に応じた処理を行うことにより基準点を設定してもよい。例えば図１８（ａ）及び（ｂ）に示すように、フレーム画像に道路が含まれており、且その道路が曲がっている場合、道路のうち、中心（例えば中央分離線）よりもその道路が曲がっている方向に位置する部分を、基準点として設定する。

本実施形態によっても、第２の実施形態と同様の効果が得られる。また、基準点設定部１５０を有しているため、外部から基準点情報を入力する必要はない。

（第４の実施形態）
図１９は、第４の実施形態に係る顕著性推定装置１０の機能構成を示す図である。本実施形態に係る顕著性推定装置１０は、トリミング部１６０を備えている点を除いて第1の実施形態に係る顕著性推定装置１０と同様の構成である。

トリミング部１６０は、入力部１１０が取得した動画データの生成条件を取得し、生成条件を用いてフレーム画像をトリミングする。補正部１２０は、トリミング部１６０がトリミングしたフレーム画像を処理する。トリミング部１６０に入力される生成条件は、例えば、動画データを生成したカメラのレンズの種類（広角レンズや魚眼レンズ）である。動画データの生成条件によっては、フレーム画像に写っている風景の範囲が、静止している人の視野より広いことがある。トリミング部１６０は、フレーム画像に写っている風景の範囲を、静止している人の視野に合わせるために、フレーム画像をトリミングする。フレーム画像からトリミングする範囲は、例えばトリミング部１６０が生成条件別に予め記憶している。

本実施形態によっても、第１の実施形態と同様の効果が得られる。また、トリミング部１６０は、フレーム画像に写っている風景の範囲を、静止している人の視野に合わせるためにフレーム画像をトリミングする。このため、さらに高い精度で、画像から、移動中の人が見た場合に顕著性が高いと感じる領域を検出できる。

なお、第２又は第３の実施形態に示した顕著性推定装置１０に、本実施形態に係るトリミング部１６０を設けてもよい。

（第５の実施形態）
本実施形態に係る顕著性推定装置１０は、顕著性推定部１３０の機能構成を除いて上記したいずれかの実施形態に係る顕著性推定装置１０と同様の構成である。

図２０は、本実施形態に係る顕著性推定部１３０の構成を例示する図である。本実施形態に係る顕著性推定部１３０は、誤差算出部３４０および修正部３５０をさらに備える点を除いて第１の実施形態に係る顕著性推定部１３０と同じである。誤差算出部３４０は、画像に対して生成された顕著性推定情報と、その画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、顕著性推定情報が示す顕著性分布と顕著性実測情報が示す顕著性分布との誤差を算出する。そして、修正部３５０は、算出された誤差に基づいて補正情報を修正する。

本実施形態に係る顕著性推定部１３０は、推定動作と、学習動作とを行う。推定動作では、入力された画像に対する顕著性推定情報が生成され、出力される。推定動作は、第１の実施形態で説明した通りの動作である。特に、本実施形態では、非線形写像部３２０は補正情報を用いて中間データを写像データに変換する。一方、学習動作では、教師用画像と教師用画像に対する顕著性実測情報とを用いて機械学習が行われ、補正情報が生成または修正（更新）される。補正情報は、非線形写像部３２０で用いられる情報であり、たとえば複数の補正パラメータを含む。

本実施形態において、非線形写像部３２０は、補正情報を用いて中間データを写像データに変換する。補正情報は機械学習を用いて生成および修正の少なくとも一方がされた情報である。具体的には非線形写像部３２０は第１の実施形態で説明した通り複数のフィルタ３２５を含み、複数のフィルタ３２５の係数は補正情報に基づいて定められる。たとえば、補正情報は、複数のフィルタ３２５の係数を、複数の補正パラメータとして含む。

図２１は、本実施形態に係る学習動作を例示するフローチャートである。学習動作について以下に詳しく説明する。学習動作のためには、教師用画像と、その教師用画像に対する顕著性実測情報とが準備される。たとえば教師用画像と顕著性実測情報とは互いに関連づけられて記憶部３９０に保持されている。入力部３１０および誤差算出部３４０はこれらの情報を記憶部３９０から読み出して用いることができる。

教師用画像は写真等の任意の画像である。そして、顕著性実測情報はたとえば、人が教師用画像を見たときの視線を、アイトラッカを用いて実測した結果に基づき生成される。顕著性実測情報は、顕著性推定情報と同様の形態を有することができる。すなわち、顕著性実測情報は、顕著性を輝度値で可視化した画像であっても良いし、顕著性実測情報はたとえば、ヒートマップのように顕著性に応じて色分けされた画像であっても良い。

学習動作では、入力ステップＳ１１０および非線形写像ステップＳ１２０および出力ステップＳ１３０が第１の実施形態に係る入力ステップＳ１１０および非線形写像ステップＳ１２０および出力ステップＳ１３０と同様に行われる。ただし、入力ステップＳ１１０において入力部３１０が取得する画像は教師用画像である。また、非線形写像ステップＳ１２０において非線形写像部３２０は記憶部３９０から補正情報を読み出す。そして、補正情報を用いて中間データを写像データに変換する。なお、非線形写像部３２０は、補正情報を記憶部３９０から読み出す代わりに、修正部３５０から直接取得しても良い。また、初期状態において、補正情報に含まれる補正パラメータは任意の値とすることができる。

次いで、誤差算出ステップＳ１４０では、誤差算出部３４０が出力部３３０から顕著性推定情報を取得する。また、誤差算出部３４０はその顕著性推定情報の元となった教師用画像に関連づけられた顕著性実測情報を取得する。そして、誤差算出部３４０は、取得した顕著性推定情報と顕著性実測情報との誤差を算出する。誤差の算出方法は特に限定されないが、たとえばＬ１距離、Ｌ２距離（ユークリッド距離、平均二乗誤差）、Kullback-Leibler距離、Jensen-Shannon距離、およびPearson相関係数の少なくともいずれかを算出することが好ましい。

具体的には、ユークリッド距離は以下の式（１）で求められ、Kullback-Leibler距離は以下の式（２）で求められ、Jensen-Shannon距離は以下の式（３）で求められる。ここで、ｐｉは推定結果（顕著性推定情報に基づく値）を示し、ｑｉは真値（顕著性実測情報に基づく値）を示す。

次いで、修正ステップＳ１５０では、修正部３５０が誤差算出部３４０から誤差を取得し、この誤差が小さくなるように補正パラメータを修正する。そして、記憶部３９０に保持された補正パラメータが修正後の補正パラメータに置き換えられる。ここで、補正パラメータの修正方法は特に限定されないが、たとえば、最小二乗法、２次計画法、stochastic gradient descent（ＳＧＤ）、adaptive moment estimation（ＡＤＡＭ）、および変分法の少なくともいずれかを用いることが好ましい。

ここで、修正すべき補正パラメータは多数存在し、それらの値を効率よく確定して高精度に顕著性を推定するためには多数の教師データによる統計的な学習（機械学習）を用いることが好ましい。したがって、学習動作においては、非線形写像部３２０、誤差算出部３４０、および修正部３５０の協働により、機械学習が行われることが好ましい。

なお、修正部３５０は、記憶部３９０に保持された補正パラメータを修正後の補正パラメータに置き換える代わりに、修正後の補正パラメータを直接非線形写像部３２０に対し出力しても良い。次の非線形写像ステップＳ１２０において、非線形写像部３２０は修正後の補正パラメータを用いて処理を行う。

なお、１つの教師用画像に関連づけられる顕著性実測情報は１つであっても良いし、複数であっても良い。１つの教師用画像に複数の顕著性実測情報が関連づけられる場合、複数の顕著性実測情報は互いに異なる実測結果に基づく情報である。そして、誤差算出部３４０は顕著性推定情報と各顕著性実測情報との誤差を算出する。また、修正部３５０は、たとえば、全ての誤差の合計が小さくなるように補正パラメータを修正する。

学習動作は教師用画像と顕著性実測情報との複数の組に対して行われてもよい。学習動作が繰り返されることにより、顕著性の推定精度がさらに向上する。

学習動作が行われるタイミングは特に限定されない。たとえば、顕著性推定部１３０はユーザによる学習動作を開始する旨の操作を受け付け可能である。そして、学習動作を開始する旨の操作に基づいて、顕著性推定部１３０は学習動作を開始することができる。また、顕著性推定部１３０は、学習動作を、ユーザによる終了操作または予め定められた終了条件に基づき終了することができる。終了条件としてはたとえば、予め定められた学習動作の反復回数を満たすこと、または、誤差が予め定められた基準値以下となることが挙げられる。

以上、本実施形態によれば、第１の実施形態と同様、非線形写像部３２０は、中間データに対し特徴の抽出を行う特徴抽出部３２１と、特徴抽出部３２１で生成されたデータのアップサンプルを行うアップサンプル部３２２とを備える。したがって、小さな計算コストで、顕著性を推定することができる。

くわえて、本実施形態によれば、顕著性推定部１３０は誤差算出部３４０および修正部３５０を備える。したがって、学習動作により修正された補正情報を用いて、より高精度な顕著性推定が実現する。

（第６の実施形態）
本実施形態に係る顕著性推定装置１０は、顕著性推定部１３０の機能構成を除いて上記したいずれかの実施形態に係る顕著性推定装置１０と同様の構成である。

図２２は、本実施形態に係る演算装置４０の構成および使用環境を例示する図である。本実施形態に係る演算装置４０は、顕著性推定部１３０で用いられる補正情報を生成する装置である。演算装置４０は、誤差算出部４４０および補正部４５０を備える。誤差算出部４４０は、教師用画像に対して生成された顕著性推定情報と、教師用画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、顕著性推定情報が示す顕著性分布と顕著性実測情報が示す顕著性分布との誤差を算出する。補正部４５０は、誤差に基づいて補正情報を算出する。

本実施形態に係る顕著性推定部１３０は、第１の実施形態に係る顕著性推定部１３０と同様である。本実施形態に係る顕著性推定部１３０は入力部３１０、非線形写像部３２０、および出力部３３０を備える。また、本実施形態に係る顕著性推定部１３０は、第５の実施形態で説明した誤差算出部３４０および修正部３５０を備えなくても良い。本実施形態に係る入力部３１０は第１および第５の実施形態の少なくともいずれかに係る入力部３１０と同じであり、本実施形態に係る非線形写像部３２０は第１および第５の実施形態の少なくともいずれかに係る非線形写像部３２０と同じであり、本実施形態に係る出力部３３０は第１および第５の実施形態の少なくともいずれかに係る出力部３３０と同じである。本実施形態に係る誤差算出部４４０の動作は第５の実施形態に係る誤差算出部３４０の動作と同じであり、本実施形態に係る補正部４５０の動作は第５の実施形態に係る修正部３５０の動作と同じである。顕著性推定部１３０と演算装置４０とは協働して第５の実施形態において説明した学習動作および推定動作を行う。また、顕著性推定部１３０と演算装置４０とは物理的に離れていても良く、たとえば通信ネットワークを介して互いに接続されてもよい。

また、本実施形態に係る学習動作においては、非線形写像部３２０、誤差算出部４４０、および補正部４５０の協働により、機械学習が行われることが好ましい。

なお、出力部３３０は生成した顕著性推定情報を一旦記憶部３９０に記憶させ、誤差算出部４４０は記憶部３９０に記憶された顕著性推定情報を読み出して用いても良い。

本図の例において記憶部３９０は顕著性推定部１３０および演算装置４０とは別途設けられているが本例に限定されず、記憶部３９０は顕著性推定部１３０に設けられていても良いし、演算装置４０に設けられていても良い。記憶部３９０が演算装置４０の内部に設けられる場合、例えば記憶部３９０は、演算装置４０を実現する計算機１０００のストレージデバイス１０８０を用いて実現される。また、記憶部３９０は、顕著性推定部１３０を実現する計算機１０００のストレージデバイス１０８０と演算装置４０を実現する計算機１０００のストレージデバイス１０８０との協働で成り立っても良い。

くわえて、本実施形態によれば、演算装置４０は誤差算出部４４０および補正部４５０を備える。したがって、学習動作により修正された補正情報を用いて、より高精度な顕著性推定が実現する。

（第７の実施形態）
本実施形態に係る顕著性推定装置１０は、顕著性推定部１３０の機能構成を除いて上記したいずれかの実施形態に係る顕著性推定装置１０と同様の構成である。

図２３は、本実施形態に係る顕著性推定部１３０の構成を例示する図である。本実施形態に係る顕著性推定部１３０は、合成部３６０および表示部３８０をさらに備える点を除いて第１および第５の実施形態の少なくともいずれかに係る顕著性推定部１３０と同じである。

合成部３６０は、顕著性推定情報が示す顕著性分布と、入力部３１０に入力された画像（入力画像）とを合成した合成情報を生成する。具体的には合成部３６０は、出力部３３０から顕著性推定情報を取得し、たとえば記憶部３９０から入力画像を取得する。そして、入力画像と顕著性分布とを合わせて示した合成情報を出力する。合成情報はたとえば顕著性推定部１３０に備えられた表示部３８０に出力される。また、合成部３６０から出力された合成情報は、記憶部３９０に保持されたり、外部の装置により取得されたりしても良い。

図２４は、合成部３６０で生成された合成情報が示す画像を例示する図である。本図の例において、合成情報は入力画像と顕著性を示すヒートマップを重ねた画像である。なお、合成情報の形式は特に限定されない。合成情報はたとえば、顕著領域を、入力画像において円や四角で囲った画像であってもよい。また、合成手法も特に限定されず、αブレンド等が挙げられる。

本実施形態に係る顕著性推定部１３０を、たとえば、カメラ等の撮像装置を搭載した携帯端末（スマートフォン、タブレット等）に実装することができる。そうすれば、携帯端末で撮影しながら、顕著性の高い重要物体をその場で抽出すると共に、視認性良く可視化することができる。

くわえて、本実施形態によれば、顕著性推定部１３０は合成部３６０をさらに備える。したがって、画像の各位置における顕著性を視認性良く可視化することができる。

（第８の実施形態）
本実施形態に係る顕著性推定装置１０は、顕著性推定部１３０の機能構成を除いて上記したいずれかの実施形態に係る顕著性推定装置１０と同様の構成である。

図２５は、本実施形態に係る顕著性推定部１３０の構成を例示する図である。本実施形態に係る顕著性推定部１３０は、マスク画像生成部３７０、領域抽出部３７２、および物体検出部３７４をさらに備える点を除いて第１、第５および第７の実施形態の少なくともいずれかに係る顕著性推定部１３０と同じである。

マスク画像生成部３７０は、出力部３３０から顕著性推定情報を取得し、マスク画像を生成する。具体的には、マスク画像生成部３７０は顕著性推定情報で示される顕著性分布において、顕著性が予め定められた基準より低い領域をマスク領域とし、顕著性が予め定められた基準以上である領域を非マスク領域としたマスク画像を生成する。すなわち、マスク画像生成部３７０は顕著性分布の二値化を行う。ここで基準は予め設定され、記憶部３９０に保持されており、マスク画像生成部３７０がそれを読み出して用いることができる。

領域抽出部３７２は、入力画像とマスク画像を取得する。そして、入力画像にマスク画像を作用させることにより、入力画像から顕著性の高い領域を抽出する。たとえば領域抽出部３７２は、入力画像とマスク画像と論理演算を行うことで、入力画像から顕著性の高い領域を抽出することができる。

そして、物体検出部３７４は、領域抽出部３７２で抽出された領域から、物体を検出する。物体の検出方法は特に限定されないが、たとえばSingle Shot Multibox Detector（ＳＳＤ）を用いる方法が挙げられる。本実施形態に係る顕著性推定部１３０では予め顕著性が高い領域を抽出し、抽出された領域のみで物体検出が行われるため、誤検出が抑制される。

本実施形態に係る顕著性推定部１３０はたとえば自動車等の移動体に搭載される。そして、物体検出部３７４による物体の検出結果は自動運転や運転支援に用いることができる。

くわえて、本実施形態によれば、顕著性推定部１３０はマスク画像生成部３７０、領域抽出部３７２、および物体検出部３７４をさらに備える。したがって、入力画像において高精度の物体検出が行える。

以上、図面を参照して実施形態及び実施例について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

１０顕著性推定装置
１１０入力部
１２０補正部
１２２視野設定部
１２４補正情報生成部
１２６補正処理部
１３０顕著性推定部
１４０速度推定部
１５０基準点設定部
１６０トリミング部
２０２解像度補正部
２０４彩度補正部
２０６明度補正部

Claims

第１の視点から見た景色の画像を補正することにより補正済画像を生成する補正部と、
前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成する顕著性推定部と、
を備え、
前記補正部は、
前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第１の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成し、
前記明度情報を用いて前記少なくとも一部の明度を補正した補正済画像に基づいて前記顕著性推定情報を生成する顕著性推定装置。
請求項１に記載の顕著性推定装置において、
前記補正部は、
さらに、前記少なくとも一部の解像度の変更を示す解像度情報、及び前記少なくとも一部の彩度の変更を示す彩度情報を、前記速度情報及び前記相対位置を用いて生成し、
前記解像度情報及び前記彩度情報を用いて前記画像の少なくとも一部の解像度及び明度を補正する顕著性推定装置。
請求項１又は２に記載の顕著性推定装置において、
前記補正部は、前記画像中の基準点から前記少なくとも一部までの距離が大きくなるにつれて明度が低くなるように、前記明度情報を生成する顕著性推定装置。
請求項１〜３のいずれか一項に記載の顕著性推定装置において、
前記画像は動画に含まれるフレーム画像である、顕著性推定装置。
請求項１〜４のいずれか一項に記載の顕著性推定装置において、
前記補正部は、前記画像を処理することにより前記基準点を設定する顕著性推定装置。
請求項１〜５のいずれか一項に記載の顕著性推定装置において、
前記画像を、当該画像の生成条件を用いてトリミングするトリミング部を備え、
前記補正部は、トリミングされた前記画像を処理して前記補正済画像を生成する顕著性推定装置。
請求項１〜６のいずれか一項に記載の顕著性推定装置において、
前記顕著性推定部は、機械学習によって生成されたモデルに前記補正済画像を入力することにより、顕著性推定情報を生成する顕著性推定装置。
コンピュータが、
第１の視点から見た景色の画像を補正することにより補正済画像を生成し、
前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成し、
さらに前記コンピュータが、
前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第１の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成し、
前記明度情報を用いて前記少なくとも一部の明度を補正した補正済画像に基づいて前記顕著性推定情報を生成する顕著性推定方法。
コンピュータに、
第１の視点から見た景色の画像を補正することにより補正済画像を生成する補正機能と、
前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成する推定機能と、
を持たせ、
さらに前記補正機能の少なくとも一部として、
前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第１の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成する機能と、
前記明度情報を用いて前記少なくとも一部の明度を補正した補正済画像に基づいて前記顕著性推定情報を生成する機能と、
を持たせるプログラム。