JP2020184146A - 顕著性推定装置、顕著性推定方法、及びプログラム - Google Patents

顕著性推定装置、顕著性推定方法、及びプログラム Download PDF

Info

Publication number
JP2020184146A
JP2020184146A JP2019087565A JP2019087565A JP2020184146A JP 2020184146 A JP2020184146 A JP 2020184146A JP 2019087565 A JP2019087565 A JP 2019087565A JP 2019087565 A JP2019087565 A JP 2019087565A JP 2020184146 A JP2020184146 A JP 2020184146A
Authority
JP
Japan
Prior art keywords
image
unit
saliency
information
saliency estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2019087565A
Other languages
English (en)
Inventor
井上 俊明
Toshiaki Inoue
俊明 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Electronic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Electronic Corp filed Critical Pioneer Electronic Corp
Priority to JP2019087565A priority Critical patent/JP2020184146A/ja
Publication of JP2020184146A publication Critical patent/JP2020184146A/ja
Priority to JP2023135249A priority patent/JP2023153309A/ja
Ceased legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】画像から、移動中の人が見た場合に顕著性が高いと感じる領域を高い精度で検出する顕著性推定装置、顕著性推定方法、及びプログラムを提供する。【解決手段】顕著性推定装置10は、動画データを取得し、取得した動画データを構成するフレーム画像の各々を出力する入力部110と、入力部110が出力したフレーム画像を補正することにより補正済画像を生成する補正部120と、補正済画像を処理することにより、補正済画像内又はフレーム画像内における顕著性分布を示す顕著性推定情報を生成する顕著性推定部130と、を備える。補正部120は、フレーム画像の少なくとも一部の明度の変更を示す明度情報を、第1の視点の移動速度に関する速度情報、及びフレーム画像中の基準点から前記少なくとも一部までの相対位置を用いて生成し、この明度情報を用いて、前記少なくとも一部の明度を補正する。【選択図】図1

Description

本発明は、顕著性推定装置、顕著性推定方法、及びプログラムに関する。
画像の中の顕著領域を自動で検出する技術が提案されている。一方、人が移動している場合、人の移動速度が速くなるにつれて人の有効視野は狭くなる。非特許文献1には、有効視野を考慮して顕著領域を自動で検出することについて記載されている。具体的には、非特許文献1には、対象画像の解像度及び彩度を、注視点からの距離に応じて落としていき、その後、顕著性を推定することが記載されている。
森本他,「MST野の応答特性を考慮した動画像に対する顕著性推定モデル」,映像メディア学会技術報告,Vol.38,No.10,pp.57-60,2014年
本発明者は、画像から、移動中の人が見た場合に顕著性が高いと感じる領域を高い精度で検出する方法を検討した。本発明が解決しようとする課題としては、画像から、移動中の人が見た場合に顕著性が高いと感じる領域を高い精度で検出することが一例として挙げられる。
請求項1に記載の発明は、第1の視点から見た景色の画像を補正することにより補正済画像を生成する補正部と、
前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成する顕著性推定部と、
を備え、
前記補正部は、
前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第1の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成し、
前記明度情報を用いて前記少なくとも一部の明度を補正する顕著性推定装置である。
請求項8に記載の発明は、コンピュータが、
第1の視点から見た景色の画像を補正することにより補正済画像を生成し、
前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成し、
さらに前記コンピュータが、
前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第1の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成し、
前記明度情報を用いて前記少なくとも一部の明度を補正する顕著性推定方法である。
請求項9に記載の発明は、コンピュータに、
第1の視点から見た景色の画像を補正することにより補正済画像を生成する補正機能と、
前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成する推定機能と、
を持たせ、
さらに前記補正機能の少なくとも一部として、
前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第1の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成する機能と、
前記明度情報を用いて前記少なくとも一部の明度を補正する機能と、
を持たせるプログラムである。
第1の実施形態に係る顕著性推定装置の機能構成を示す図である。 視野角情報の設定方法を説明するための図である。 視野角情報の一例を説明するための図である。 明度情報を説明するための図である。 解像度情報を説明するための図である。 彩度情報を説明するための図である。 補正処理部の機能構成の一例を示す図である。 顕著性推定部の構成例を例示するブロック図である。 (a)は、顕著性推定部へ入力する画像を例示する図であり、(b)は、(a)に対し推定される、顕著性分布を示す画像を例示する図である。 第1の構成例に係る処理方法を例示するフローチャートである。 非線形写像部の構成を詳しく例示する図である。 中間層の構成を例示する図である。 (a)および(b)はそれぞれ、フィルタで行われる畳み込み処理の例を示す図である。 (a)は、第1のプーリング部の処理を説明するための図であり、(b)は、第2のプーリング部の処理を説明するための図であり、(c)は、アンプーリング部の処理を説明するための図である。 顕著性推定装置のハードウエア構成を例示するブロック図である。 第2の実施形態に係る顕著性推定装置の機能構成を示す図である。 第3の実施形態に係る顕著性推定装置の機能構成を示す図である。 基準点設定部の動作例を説明するための図である。 第4の実施形態に係る顕著性推定装置の機能構成を示す図である。 第5の実施形態に係る顕著性推定部の構成を例示する図である。 第5の実施形態に係る学習動作を例示するフローチャートである。 第6の実施形態に係る演算装置の構成および使用環境を例示する図である。 第7の実施形態に係る顕著性推定部の構成を例示する図である。 合成部で生成された合成情報が示す画像を例示する図である。 第8の実施形態に係る顕著性推定部の構成を例示する図である。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
(第1の実施形態)
図1は、第1の実施形態に係る顕著性推定装置10の機能構成を示す図である。本図に示す顕著性推定装置10は、入力部110、補正部120、及び顕著性推定部130を備えている。入力部110は動画データを取得し、取得した動画データを構成するフレーム画像の各々を補正部120に出力する。これらフレーム画像は、第1の視点から見た景色の画像となっている。第1の視点は、例えば動画データを生成したカメラが配置されていた位置である。補正部120は、入力部110が出力したフレーム画像を補正することにより補正済画像を生成する。顕著性推定部130は、補正済画像を処理することにより、顕著性推定情報を生成する。顕著性推定情報は、補正済画像内又はフレーム画像内における顕著性分布を示している。ここで、補正部120は、フレーム画像の少なくとも一部の明度の変更を示す明度情報を、第1の視点の移動速度に関する速度情報、及びフレーム画像中の基準点から上記した少なくとも一部までの相対位置を用いて生成する。そして補正部120は、この明度情報を用いて、上記した少なくとも一部の明度を補正する。以下、顕著性推定装置10について詳細に説明する。
上記したように、入力部110には動画データが入力される。入力部110は、動画データに含まれる複数のフレーム画像のそれぞれを、補正部120に出力する。
補正部120は、入力部110から入力されたフレーム画像を補正する。具体的には、補正部120は、視野設定部122、補正情報生成部124、及び補正処理部126を有している。
視野設定部122は、速度情報及び基準点情報を外部から受け取る。速度情報は、移動速度を示している。この移動速度は、例えば入力部110が取得する動画データが撮影されたときのカメラの速度であるが、これに限定されない。基準点情報は、補正部120が取得したフレーム画像のうち注視点となるべき位置を特定している。視野設定部122は、速度情報を用いて、その速度で人が移動したときの人の視野角を示す視野角情報を生成する。そして視野設定部122は、速度情報、基準点情報、及び視野角情報を補正情報生成部124に出力する。
図2は、視野角情報の設定方法を説明するための図である。移動している人の視野角は、移動速度が上がるにつれて狭くなる。視野設定部122は、例えば図2に示すような、速さと視野角の関係を示すデータを記憶しておき、このデータを用いて、入力された移動速度に対応する視野角を特定し、特定した視野角を示す視野角情報を生成する。
図3は、視野角情報の一例を説明するための図である。本図に示す例において、視野角情報は、基準点をからの距離に基づいて画像を複数の領域に分ける情報である。具体的には、基準点を含む第0の領域は、画像が明瞭になるべき領域である。そして、補正情報生成部124及び補正処理部126は、第0の領域の外側に位置する第1の領域、第1の領域の外側に位置する第2の領域・・・となるにつれて、その領域が徐々に不明瞭かつ暗くなるように、画像を補正する。
視野設定部122は、少なくとも第0の領域の大きさを、速度情報を用いて定める。例えば速度情報が示す速度が低い場合、第0の領域を大きくし、他の領域を狭くする。なお、視野設定部122は、各領域の大きさの他に、設定される領域の数を、速度情報を用いて設定してもよい。この場合、視野設定部122は、速度が大きくなるにつれて、設定される領域の数を増やす。
図3に示す例において、各領域の外形線は矩形となっている。ただし、この外形線は他の形状(例えば円形や楕円形)であってもよい。
図1に戻る。補正情報生成部124は、視野設定部122から取得した基準点情報を用いて、補正情報を生成する。補正情報は、フレーム画像の各画素の値の補正量を特定する情報である。視野角情報は、上記したように速度情報及び基準点からの距離を用いて生成されている。このため、視野設定部122は、実質的には、基準点からの相対位置及び速度情報を用いて、補正情報を生成することになる。
詳細には、補正情報は、明度情報、解像度情報、及び彩度情報を有している。明度情報は、画像の少なくとも一部の明度の変更を示しており、解像度情報は、画像の少なくとも一部の解像度の変更を示しており、彩度情報は、画像の少なくとも一部の彩度の変更を示している。そして補正情報生成部124は、視野角情報、基準点情報、及び補正情報を補正処理部126に出力する。
図4は明度情報を説明するための図であり、図5は解像度情報を説明するための図であり、図6は彩度情報を説明するための図である。これらの図に示すように、補正情報生成部124が生成する補正情報は、基準点からの距離が大きくなるにつれて、明度、解像度、及び彩度のいずれも下げることを示している。具体的には、明度、解像度、及び彩度のいずれに関しても、図3に示した「第kの領域」のkの値毎に、補正量が設定されている。そしてkの値が大きくなるにつれて、明度、解像度、及び彩度のいずれも下がる。
図1に戻る。補正処理部126は、入力部110からフレーム画像を取得し、このフレーム画像を、視野角情報、基準点情報、及び補正情報を用いて補正する。具体的には、補正処理部126は、フレーム画像内の基準点を、基準点情報を用いて定義する。そして補正処理部126は、基準点及び視野角情報を用いて、フレーム画像を図3に示した各領域に分ける。そして補正処理部126は、各領域に対して、補正情報に従った補正を行う。
図7は、補正処理部126の機能構成の一例を示す図である。補正処理部126は、解像度補正部202、彩度補正部204、及び明度補正部206を有している。解像度補正部202は、補正情報に含まれる解像度情報を用いて、フレーム画像の解像度を領域ごとに補正する。彩度補正部204は、補正情報に含まれる再度情報を用いて、フレーム画像の彩度を領域ごとに補正する。明度補正部206は、補正情報に含まれる明度情報を用いて、フレーム画像の明度を領域ごとに補正する。なお、本図に示す例において、解像度補正部202、彩度補正部204、及び明度補正部206はこの順に直列に配置されているが、これらの並び順は図7に示す例に限定されない。
そして、補正部120は、補正後のフレーム画像(補正済画像)を顕著性推定部130に出力する。
<顕著性推定部130の構成例>
図8は、顕著性推定部130の構成例を例示するブロック図である。顕著性推定部130は、機械学習によって生成されたモデルに補正済のフレーム画像を入力することにより、顕著性推定情報を生成する。詳細には、顕著性推定部130は、入力部310、非線形写像部320、および出力部330を備える。入力部310は、入力されたフレーム画像(以下、顕著性推定部130に関する説明においては画像と記載)を写像処理可能な中間データに変換する。非線形写像部320は、中間データを写像データに変換する。出力部330は、写像データに基づき顕著性推定情報を生成する。そして、非線形写像部320は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322とを備える。以下に詳しく説明する。
図9(a)は、顕著性推定部130へ入力する画像を例示する図であり、図9(b)は、図9(a)に対し推定される、顕著性分布を示す画像を例示する図である。なお、説明のため、これらの図は、補正部120によって補正される前のフレーム画像を示している。本構成例に係る顕著性推定部130は、画像における各部分の顕著性を推定する。顕著性とはたとえば、目立ちやすさや視線の集まりやすさを意味する。具体的には顕著性は、確率等で示される。ここで、確率の大小は、たとえばその画像を見た人の視線がその位置に向く確率の大小に対応する。
図9(a)と図9(b)とは、互いに位置が対応している。そして、図9(a)において、顕著性が高い位置ほど、図9(b)において輝度が高く表示されている。図9(b)のような顕著性分布を示す画像は、出力部330が出力する顕著性推定情報の一例である。本図の例において、顕著性は、256階調の輝度値で可視化されている。出力部330が出力する顕著性推定情報の例については詳しく後述する。
顕著性分布の推定結果は、たとえば、運転者や歩行者等の交通参加者の視線予測や、交通参加者の見落とし防止、広告媒体などのコンテンツの見栄え評価、視線誘導、スポーツ選手や技能熟練者のノウハウのデータ化、生体の視覚認知の理解など、様々な分野で用いることができる。さらに、本構成例に係る顕著性推定部130および処理方法は、自動運転や先進運転支援システム(ADAS)、道路交通システム等のモビリティ分野、仮想現実(VR)、拡張現実(AR)、ゲーム等のエンターテインメント分野、ドキュメント、映像コンテンツ、サイネージ等のコンテンツ分野、画像診断、手術支援、介護サービス等の医療分野等への応用が可能である。
図10は、第1の構成例に係る処理方法を例示するフローチャートである。本構成例に係る処理方法は、コンピュータによって実行される処理方法であって、入力ステップS110、非線形写像ステップS120、および出力ステップS130を含む。入力ステップS110では、画像が写像処理可能な中間データに変換される。非線形写像ステップS120では、中間データが写像データに変換される。出力ステップS130では、写像データに基づき顕著性分布を示す顕著性推定情報が生成される。ここで、非線形写像ステップS120は、中間データに対し特徴の抽出を行う特徴抽出ステップS121と、特徴抽出ステップS121で生成されたデータのアップサンプルを行うアップサンプルステップS122とを含む。本構成例に係る処理方法は、構成例に係る顕著性推定部130により実現される。
図8に戻り、顕著性推定部130の各構成要素について説明する。入力ステップS110において入力部310は、画像を取得し、中間データに変換する。入力部310は、補正部120から画像を取得する。そして入力部310は、取得した画像を中間データに変換する。中間データは非線形写像部320が受け付け可能なデータであれば特に限定されないが、たとえば高次元テンソルである。また、中間データはたとえば、取得した画像に対し輝度を正規化したデータ、または、取得した画像の各画素を、輝度の傾きに変換したデータである。入力ステップS110において入力部310は、さらに画像のノイズ除去や解像度変換等を行っても良い。
非線形写像ステップS120において、非線形写像部320は入力部310から中間データを取得する。そして、非線形写像部320において中間データが写像データに変換される。ここで、写像データは例えば高次元テンソルである。非線形写像部320で中間データに施される写像処理は、たとえばパラメータ等により制御可能な写像処理であり、関数、汎関数、またはニューラルネットワークによる処理であることが好ましい。
図11は、非線形写像部320の構成を詳しく例示する図であり、図12は、中間層323の構成を例示する図である。上記した通り、非線形写像部320は、特徴抽出部321およびアップサンプル部322を備える。特徴抽出部321において特徴抽出ステップS121が行われ、アップサンプル部322においてアップサンプルステップS122が行われる。また、本図の例において、特徴抽出部321およびアップサンプル部322の少なくとも一方は、複数の中間層323を含むニューラルネットワークを含んで構成される。ニューラルネットワークにおいては、複数の中間層323が結合されている。
特にニューラルネットワークは畳み込みニューラルネットワークであることが好ましい。具体的には、複数の中間層323のそれぞれは、一または二以上の畳み込み層324を含む。そして、畳み込み層324では、入力されたデータに対し複数のフィルタ325による畳み込みが行われ、複数のフィルタ325の出力に対し活性化処理が施される。
図11の例において、特徴抽出部321は、複数の中間層323を含むニューラルネットワークを含んで構成され、複数の中間層323の間に第1のプーリング部326を備える。また、アップサンプル部322は、複数の中間層323を含むニューラルネットワークを含んで構成され、複数の中間層323の間にアンプーリング部328を備える。さらに、特徴抽出部321とアップサンプル部322とは、オーバーラッププーリングを行う第2のプーリング部327を介して互いに接続されている。
なお、本図の例において各中間層323は、二以上の畳み込み層324からなる。ただし、少なくとも一部の中間層323は、一の畳み込み層324のみからなってもよい。互いに隣り合う中間層323は、第1のプーリング部326、第2のプーリング部327およびアンプーリング部328のいずれかで区切られる。ここで、中間層323に二以上の畳み込み層324が含まれる場合、それらの畳み込み層324におけるフィルタ325の数は互いに等しいことが好ましい。
本図では、「A×B」と記された中間層323は、B個の畳み込み層324からなり、各畳み込み層324は、各チャネルに対しA個の畳み込みフィルタを含むことを意味している。このような中間層323を以下では「A×B中間層」とも呼ぶ。たとえば、64×2中間層323は、2個の畳み込み層324からなり、各畳み込み層324は、各チャネルに対し64個の畳み込みフィルタを含むことを意味している。
本図の例において、特徴抽出部321は、64×2中間層323、128×2中間層323、256×3中間層323、および、512×3中間層323をこの順に含む。また、アップサンプル部322は、512×3中間層323、256×3中間層323、128×2中間層323、および64×2中間層323をこの順に含む。また、第2のプーリング部327は、2つの512×3中間層323を互いに接続している。なお、非線形写像部320を構成する中間層323の数は特に限定されず、たとえば画像データの画素数に応じて定めることができる。
なお、本図は非線形写像部320の構成の一例であり、非線形写像部320は他の構成を有していても良い。たとえば、64×2中間層323の代わりに64×1中間層323が含まれても良い。中間層323に含まれる畳み込み層324の数が削減されることで、計算コストがより低減される可能性がある。また、たとえば、64×2中間層323の代わりに32×2中間層323が含まれても良い。中間層323のチャネル数が削減されることで、計算コストがより低減される可能性がある。さらに、中間層323における畳み込み層324の数とチャネル数との両方を削減しても良い。
ここで、特徴抽出部321に含まれる複数の中間層323においては、第1のプーリング部326を経る毎にフィルタ325の数が増加することが好ましい。具体的には、第1の中間層323aと第2の中間層323bとが、第1のプーリング部326を介して互いに連続しており、第1の中間層323aの後段に第2の中間層323bが位置する。そして、第1の中間層323aは、各チャネルに対するフィルタ325の数がN1である畳み込み層324で構成されており、第2の中間層323bは、各チャネルに対するフィルタ325の数がN2である畳み込み層324で構成されている。このとき、N2>N1が成り立つことが好ましい。また、N2=N1×2が成り立つことがより好ましい。
また、アップサンプル部322に含まれる複数の中間層323においては、アンプーリング部328を経る毎にフィルタ325の数が減少することが好ましい。具体的には、第3の中間層323cと第4の中間層323dとが、アンプーリング部328を介して互いに連続しており、第3の中間層323cの後段に第4の中間層323dが位置する。そして、第3の中間層323cは、各チャネルに対するフィルタ325の数がN3である畳み込み層324で構成されており、第4の中間層323dは、各チャネルに対するフィルタ325の数がN4である畳み込み層324で構成されている。このとき、N4<N3が成り立つことが好ましい。また、N3=N4×2が成り立つことがより好ましい。
特徴抽出部321では、入力部310から取得した中間データから勾配や形状など、複数の抽象度を持つ画像特徴を中間層323のチャネルとして抽出する。図12は、64×2中間層323の構成を例示している。本図を参照して、中間層323における処理を説明する。本図の例において、中間層323は第1の畳み込み層324aと第2の畳み込み層324bとで構成されており、各畳み込み層324は64個のフィルタ325を備える。第1の畳み込み層324aでは、中間層323に入力されたデータの各チャネルに対して、フィルタ325を用いた畳み込み処理が施される。たとえば入力部310へ入力された画像がRGB画像である場合、3つのチャネルh0i(i=1..3)のそれぞれに対して処理が施される。また、本図の例において、フィルタ325は64種の3×3フィルタであり、すなわち合計64×3種のフィルタである。畳み込み処理の結果、各チャネルiに対して、64個の結果h0i,j(i=1..3,j=1..64)が得られる。
次に、複数のフィルタ325の出力に対し、活性化部329において活性化処理が行われる。具体的には、全チャネルの対応する結果jについて、対応する要素毎の総和に活性化処理が施される。この活性化処理により、64チャネルの結果h1i(i=1..64)、すなわち、第1の畳み込み層324aの出力が、画像特徴として得られる。活性化処理は特に限定されないが、双曲関数、シグモイド関数、および正規化線形関数の少なくともいずれかを用いる処理が好ましい。
さらに、第1の畳み込み層324aの出力データを第2の畳み込み層324bの入力データとし、第2の畳み込み層324bにて第1の畳み込み層324aと同様の処理を行って、64チャネルの結果h2i(i=1..64)、すなわち第2の畳み込み層324bの出力が、画像特徴として得られる。第2の畳み込み層324bの出力がこの64×2中間層323の出力データとなる。
ここで、フィルタ325の構造は特に限定されないが、3×3の二次元フィルタであることが好ましい。また、各フィルタ325の係数は独立に設定可能である。本構成例において、各フィルタ325の係数は記憶部390に保持されており、非線形写像部320がそれを読み出して処理に用いることができる。ここで、複数のフィルタ325の係数は機械学習を用いて生成、修正された補正情報に基づいて定められてもよい。たとえば、補正情報は、複数のフィルタ325の係数を、複数の補正パラメータとして含む。非線形写像部320は、この補正情報をさらに用いて中間データを写像データに変換することができる。記憶部390は顕著性推定部130に備えられていてもよいし、顕著性推定部130の外部に設けられていてもよい。また、非線形写像部320は補正情報を、通信ネットワークを介して外部から取得しても良い。
図13(a)および図13(b)はそれぞれ、フィルタ325で行われる畳み込み処理の例を示す図である。図13(a)および図13(b)では、いずれも3×3畳み込みの例が示されている。図13(a)の例は、最近接要素を用いた畳み込み処理である。図13(b)の例は、距離が二以上の近接要素を用いた畳み込み処理である。なお、距離が三以上の近接要素を用いた畳み込み処理も可能である。フィルタ325は、距離が二以上の近接要素を用いた畳み込み処理を行うことが好ましい。より広範囲の特徴を抽出することができ、顕著性の推定精度をさらに高めることができるからである。
以上、64×2中間層323の動作について説明した。他の中間層323(128×2中間層323、256×3中間層323、および、512×3中間層323等)の動作についても、畳み込み層324の数およびチャネルの数を除いて、64×2中間層323の動作と同じである。また、特徴抽出部321における中間層323の動作も、アップサンプル部322における中間層323の動作も上記と同様である。
図14(a)は、第1のプーリング部326の処理を説明するための図であり、図14(b)は、第2のプーリング部327の処理を説明するための図であり、図14(c)は、アンプーリング部328の処理を説明するための図である。
特徴抽出部321において、中間層323から出力されたデータは、第1のプーリング部326においてチャネル毎にプーリング処理が施された後、次の中間層323に入力される。第1のプーリング部326ではたとえば、非オーバーラップのプーリング処理が行われる。図14(a)では、各チャネルに含まれる要素群に対し、2×2の4つの要素30を1つの要素30に対応づける処理を示している。第1のプーリング部326ではこのような対応づけが全ての要素30に対し行われる。ここで、2×2の4つの要素30は互いに重ならないよう選択される。本例では、各チャネルの要素数が4分の1に縮小される。なお、第1のプーリング部326において要素数が縮小される限り、対応づける前後の要素30の数は特に限定されない。
特徴抽出部321から出力されたデータは、第2のプーリング部327を介してアップサンプル部322に入力される。第2のプーリング部327では、特徴抽出部321からの出力データに対し、オーバーラッププーリングが施される。図14(b)では、一部の要素30をオーバーラップさせながら、2×2の4つの要素30を1つの要素30に対応づける処理を示している。すなわち、繰り返される対応づけにおいて、ある対応づけにおける2×2の4つの要素30のうち一部が、次の対応づけにおける2×2の4つの要素30にも含まれる。本図のような第2のプーリング部327では要素数は縮小されない。なお、第2のプーリング部327において対応づける前後の要素30の数は特に限定されない。
第1のプーリング部326および第2のプーリング部327で行われる各処理の方法は特に限定されないが、たとえば、4つの要素30の最大値を1つの要素30とする対応づけ(max pooling)や4つの要素30の平均値を1つの要素30とする対応づけ(average pooling)が挙げられる。
第2のプーリング部327から出力されたデータは、アップサンプル部322における中間層323に入力される。そして、アップサンプル部322の中間層323からの出力データはアンプーリング部328においてチャネル毎にアンプーリング処理が施された後、次の中間層323に入力される。図14(c)では、1つの要素30を複数の要素30に拡大する処理を示している。拡大の方法は特に限定されないが、1つの要素30を2×2の4つの要素30へ複製する方法が例として挙げられる。
アップサンプル部322の最後の中間層323の出力データは写像データとして非線形写像部320から出力され、出力部330に入力される。出力ステップS130において出力部330は、非線形写像部320から取得したデータに対し、たとえば正規化や解像度変換等を行うことで顕著性推定情報を生成し、出力する。顕著性推定情報はたとえば、図9(b)に例示したような顕著性を輝度値で可視化した画像(画像データ)である。また、顕著性推定情報はたとえば、ヒートマップのように顕著性に応じて色分けされた画像であっても良いし、顕著性が予め定められた基準より高い顕著領域を、その他の位置とは識別可能にマーキングした画像であっても良い。さらに、顕著性推定情報は画像に限定されず、顕著領域を示す情報を列挙したテーブル等であっても良い。
出力部330から出力された顕著性推定情報に対しては、顕著性推定部130内、または顕著性推定部130の外部において、画像分割や物体認識、画像分類などの各種コンピュータビジョン処理が施されても良い。
<ハードウエア構成例>
図15は、図1に示す顕著性推定装置10のハードウエア構成を例示するブロック図である。顕著性推定装置10は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060を有する。
バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
プロセッサ1020は、CPU(Central Processing Unit) やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス1040は顕著性推定装置10の各機能を実現するプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。
入出力インタフェース1050は、顕著性推定装置10と各種入出力機器とを接続するためのインタフェースである。
ネットワークインタフェース1060は、顕著性推定装置10をネットワークに接続するためのインタフェースである。このネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1060がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。
以上、本実施形態によれば、顕著性の推定処理の前に、速度情報を用いてフレーム画像の明度を変更している。このため、顕著性推定部130は、動画を構成する各フレーム画像から、移動中の人が見た場合に顕著性が高いと感じる領域を高い精度で検出することができる。
また、顕著性推定部130は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322とを備える。したがって、小さな計算コストで、顕著性を推定することができる。
なお、顕著性推定装置10は、静止画を処理することもできる。この場合においても、上述した効果が得られる。
(第2の実施形態)
図16は、第2の実施形態に係る顕著性推定装置10の機能構成を示す図である。本実施形態に係る顕著性推定装置10は、速度推定部140を備えている点を除いて、第1の実施形態に係る顕著性推定装置10と同様の構成である。
速度推定部140は、入力部110に入力される動画データを処理することにより、移動中の速度を推定する。この移動速度の推定アルゴリズムとしてはオプティカルフロー推定を利用するなど既存のアルゴリズムを用いることができる。そして速度推定部140は、推定した速度を速度情報として視野設定部122に出力する。
本実施形態によっても、第1の実施形態と同様の効果が得られる。また、速度推定部140が速度情報を生成するため、外部から速度情報を入力する必要はない。
(第3の実施形態)
図17は、第3の実施形態に係る顕著性推定装置10の機能構成を示す図である。本実施形態に係る顕著性推定装置10は、基準点設定部150を備えている点を除いて、第2の実施形態に係る顕著性推定装置10と同様の構成である。
基準点設定部150は、入力部110に入力される動画データの少なくとも一つのフレーム画像を処理することにより、基準点情報を生成する。
例えば基準点設定部150は、フレーム画像に予め定められた物体、例えば特定の交通標識など人の目につきやすい物体が含まれている場合、その物体の位置を基準点に設定する。この物体の検知は、例えば特徴量のマッチング処理によって行われる。ここで用いられる特徴量は、予め顕著性推定装置10に記憶されている。
また基準点設定部150は、フレーム画像に道路が含まれており、かつ、その道路の直線部分の長さが基準以上の場合、消失点を基準点に設定する。消失点の検出には、Hough変換を利用するなど既存のアルゴリズムを用いることができる。
また基準点設定部150は、フレーム画像が示す風景が特定の条件を満たしたとき、その条件に応じた処理を行うことにより基準点を設定してもよい。例えば図18(a)及び(b)に示すように、フレーム画像に道路が含まれており、且その道路が曲がっている場合、道路のうち、中心(例えば中央分離線)よりもその道路が曲がっている方向に位置する部分を、基準点として設定する。
本実施形態によっても、第2の実施形態と同様の効果が得られる。また、基準点設定部150を有しているため、外部から基準点情報を入力する必要はない。
(第4の実施形態)
図19は、第4の実施形態に係る顕著性推定装置10の機能構成を示す図である。本実施形態に係る顕著性推定装置10は、トリミング部160を備えている点を除いて第1の実施形態に係る顕著性推定装置10と同様の構成である。
トリミング部160は、入力部110が取得した動画データの生成条件を取得し、生成条件を用いてフレーム画像をトリミングする。補正部120は、トリミング部160がトリミングしたフレーム画像を処理する。トリミング部160に入力される生成条件は、例えば、動画データを生成したカメラのレンズの種類(広角レンズや魚眼レンズ)である。動画データの生成条件によっては、フレーム画像に写っている風景の範囲が、静止している人の視野より広いことがある。トリミング部160は、フレーム画像に写っている風景の範囲を、静止している人の視野に合わせるために、フレーム画像をトリミングする。フレーム画像からトリミングする範囲は、例えばトリミング部160が生成条件別に予め記憶している。
本実施形態によっても、第1の実施形態と同様の効果が得られる。また、トリミング部160は、フレーム画像に写っている風景の範囲を、静止している人の視野に合わせるためにフレーム画像をトリミングする。このため、さらに高い精度で、画像から、移動中の人が見た場合に顕著性が高いと感じる領域を検出できる。
なお、第2又は第3の実施形態に示した顕著性推定装置10に、本実施形態に係るトリミング部160を設けてもよい。
(第5の実施形態)
本実施形態に係る顕著性推定装置10は、顕著性推定部130の機能構成を除いて上記したいずれかの実施形態に係る顕著性推定装置10と同様の構成である。
図20は、本実施形態に係る顕著性推定部130の構成を例示する図である。本実施形態に係る顕著性推定部130は、誤差算出部340および修正部350をさらに備える点を除いて第1の実施形態に係る顕著性推定部130と同じである。誤差算出部340は、画像に対して生成された顕著性推定情報と、その画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、顕著性推定情報が示す顕著性分布と顕著性実測情報が示す顕著性分布との誤差を算出する。そして、修正部350は、算出された誤差に基づいて補正情報を修正する。
本実施形態に係る顕著性推定部130は、推定動作と、学習動作とを行う。推定動作では、入力された画像に対する顕著性推定情報が生成され、出力される。推定動作は、第1の実施形態で説明した通りの動作である。特に、本実施形態では、非線形写像部320は補正情報を用いて中間データを写像データに変換する。一方、学習動作では、教師用画像と教師用画像に対する顕著性実測情報とを用いて機械学習が行われ、補正情報が生成または修正(更新)される。補正情報は、非線形写像部320で用いられる情報であり、たとえば複数の補正パラメータを含む。
本実施形態において、非線形写像部320は、補正情報を用いて中間データを写像データに変換する。補正情報は機械学習を用いて生成および修正の少なくとも一方がされた情報である。具体的には非線形写像部320は第1の実施形態で説明した通り複数のフィルタ325を含み、複数のフィルタ325の係数は補正情報に基づいて定められる。たとえば、補正情報は、複数のフィルタ325の係数を、複数の補正パラメータとして含む。
図21は、本実施形態に係る学習動作を例示するフローチャートである。学習動作について以下に詳しく説明する。学習動作のためには、教師用画像と、その教師用画像に対する顕著性実測情報とが準備される。たとえば教師用画像と顕著性実測情報とは互いに関連づけられて記憶部390に保持されている。入力部310および誤差算出部340はこれらの情報を記憶部390から読み出して用いることができる。
教師用画像は写真等の任意の画像である。そして、顕著性実測情報はたとえば、人が教師用画像を見たときの視線を、アイトラッカを用いて実測した結果に基づき生成される。顕著性実測情報は、顕著性推定情報と同様の形態を有することができる。すなわち、顕著性実測情報は、顕著性を輝度値で可視化した画像であっても良いし、顕著性実測情報はたとえば、ヒートマップのように顕著性に応じて色分けされた画像であっても良い。
学習動作では、入力ステップS110および非線形写像ステップS120および出力ステップS130が第1の実施形態に係る入力ステップS110および非線形写像ステップS120および出力ステップS130と同様に行われる。ただし、入力ステップS110において入力部310が取得する画像は教師用画像である。また、非線形写像ステップS120において非線形写像部320は記憶部390から補正情報を読み出す。そして、補正情報を用いて中間データを写像データに変換する。なお、非線形写像部320は、補正情報を記憶部390から読み出す代わりに、修正部350から直接取得しても良い。また、初期状態において、補正情報に含まれる補正パラメータは任意の値とすることができる。
次いで、誤差算出ステップS140では、誤差算出部340が出力部330から顕著性推定情報を取得する。また、誤差算出部340はその顕著性推定情報の元となった教師用画像に関連づけられた顕著性実測情報を取得する。そして、誤差算出部340は、取得した顕著性推定情報と顕著性実測情報との誤差を算出する。誤差の算出方法は特に限定されないが、たとえばL1距離、L2距離(ユークリッド距離、平均二乗誤差)、Kullback-Leibler距離、Jensen-Shannon距離、およびPearson相関係数の少なくともいずれかを算出することが好ましい。
具体的には、ユークリッド距離は以下の式(1)で求められ、Kullback-Leibler距離は以下の式(2)で求められ、Jensen-Shannon距離は以下の式(3)で求められる。ここで、piは推定結果(顕著性推定情報に基づく値)を示し、qiは真値(顕著性実測情報に基づく値)を示す。
次いで、修正ステップS150では、修正部350が誤差算出部340から誤差を取得し、この誤差が小さくなるように補正パラメータを修正する。そして、記憶部390に保持された補正パラメータが修正後の補正パラメータに置き換えられる。ここで、補正パラメータの修正方法は特に限定されないが、たとえば、最小二乗法、2次計画法、stochastic gradient descent(SGD)、adaptive moment estimation(ADAM)、および変分法の少なくともいずれかを用いることが好ましい。
ここで、修正すべき補正パラメータは多数存在し、それらの値を効率よく確定して高精度に顕著性を推定するためには多数の教師データによる統計的な学習(機械学習)を用いることが好ましい。したがって、学習動作においては、非線形写像部320、誤差算出部340、および修正部350の協働により、機械学習が行われることが好ましい。
なお、修正部350は、記憶部390に保持された補正パラメータを修正後の補正パラメータに置き換える代わりに、修正後の補正パラメータを直接非線形写像部320に対し出力しても良い。次の非線形写像ステップS120において、非線形写像部320は修正後の補正パラメータを用いて処理を行う。
なお、1つの教師用画像に関連づけられる顕著性実測情報は1つであっても良いし、複数であっても良い。1つの教師用画像に複数の顕著性実測情報が関連づけられる場合、複数の顕著性実測情報は互いに異なる実測結果に基づく情報である。そして、誤差算出部340は顕著性推定情報と各顕著性実測情報との誤差を算出する。また、修正部350は、たとえば、全ての誤差の合計が小さくなるように補正パラメータを修正する。
学習動作は教師用画像と顕著性実測情報との複数の組に対して行われてもよい。学習動作が繰り返されることにより、顕著性の推定精度がさらに向上する。
学習動作が行われるタイミングは特に限定されない。たとえば、顕著性推定部130はユーザによる学習動作を開始する旨の操作を受け付け可能である。そして、学習動作を開始する旨の操作に基づいて、顕著性推定部130は学習動作を開始することができる。また、顕著性推定部130は、学習動作を、ユーザによる終了操作または予め定められた終了条件に基づき終了することができる。終了条件としてはたとえば、予め定められた学習動作の反復回数を満たすこと、または、誤差が予め定められた基準値以下となることが挙げられる。
以上、本実施形態によれば、第1の実施形態と同様、非線形写像部320は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322とを備える。したがって、小さな計算コストで、顕著性を推定することができる。
くわえて、本実施形態によれば、顕著性推定部130は誤差算出部340および修正部350を備える。したがって、学習動作により修正された補正情報を用いて、より高精度な顕著性推定が実現する。
(第6の実施形態)
本実施形態に係る顕著性推定装置10は、顕著性推定部130の機能構成を除いて上記したいずれかの実施形態に係る顕著性推定装置10と同様の構成である。
図22は、本実施形態に係る演算装置40の構成および使用環境を例示する図である。本実施形態に係る演算装置40は、顕著性推定部130で用いられる補正情報を生成する装置である。演算装置40は、誤差算出部440および補正部450を備える。誤差算出部440は、教師用画像に対して生成された顕著性推定情報と、教師用画像に対して実測された顕著性分布を示す顕著性実測情報とを用いて、顕著性推定情報が示す顕著性分布と顕著性実測情報が示す顕著性分布との誤差を算出する。補正部450は、誤差に基づいて補正情報を算出する。
本実施形態に係る顕著性推定部130は、第1の実施形態に係る顕著性推定部130と同様である。本実施形態に係る顕著性推定部130は入力部310、非線形写像部320、および出力部330を備える。また、本実施形態に係る顕著性推定部130は、第5の実施形態で説明した誤差算出部340および修正部350を備えなくても良い。本実施形態に係る入力部310は第1および第5の実施形態の少なくともいずれかに係る入力部310と同じであり、本実施形態に係る非線形写像部320は第1および第5の実施形態の少なくともいずれかに係る非線形写像部320と同じであり、本実施形態に係る出力部330は第1および第5の実施形態の少なくともいずれかに係る出力部330と同じである。本実施形態に係る誤差算出部440の動作は第5の実施形態に係る誤差算出部340の動作と同じであり、本実施形態に係る補正部450の動作は第5の実施形態に係る修正部350の動作と同じである。顕著性推定部130と演算装置40とは協働して第5の実施形態において説明した学習動作および推定動作を行う。また、顕著性推定部130と演算装置40とは物理的に離れていても良く、たとえば通信ネットワークを介して互いに接続されてもよい。
また、本実施形態に係る学習動作においては、非線形写像部320、誤差算出部440、および補正部450の協働により、機械学習が行われることが好ましい。
なお、出力部330は生成した顕著性推定情報を一旦記憶部390に記憶させ、誤差算出部440は記憶部390に記憶された顕著性推定情報を読み出して用いても良い。
本図の例において記憶部390は顕著性推定部130および演算装置40とは別途設けられているが本例に限定されず、記憶部390は顕著性推定部130に設けられていても良いし、演算装置40に設けられていても良い。記憶部390が演算装置40の内部に設けられる場合、例えば記憶部390は、演算装置40を実現する計算機1000のストレージデバイス1080を用いて実現される。また、記憶部390は、顕著性推定部130を実現する計算機1000のストレージデバイス1080と演算装置40を実現する計算機1000のストレージデバイス1080との協働で成り立っても良い。
以上、本実施形態によれば、第1の実施形態と同様、非線形写像部320は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322とを備える。したがって、小さな計算コストで、顕著性を推定することができる。
くわえて、本実施形態によれば、演算装置40は誤差算出部440および補正部450を備える。したがって、学習動作により修正された補正情報を用いて、より高精度な顕著性推定が実現する。
(第7の実施形態)
本実施形態に係る顕著性推定装置10は、顕著性推定部130の機能構成を除いて上記したいずれかの実施形態に係る顕著性推定装置10と同様の構成である。
図23は、本実施形態に係る顕著性推定部130の構成を例示する図である。本実施形態に係る顕著性推定部130は、合成部360および表示部380をさらに備える点を除いて第1および第5の実施形態の少なくともいずれかに係る顕著性推定部130と同じである。
合成部360は、顕著性推定情報が示す顕著性分布と、入力部310に入力された画像(入力画像)とを合成した合成情報を生成する。具体的には合成部360は、出力部330から顕著性推定情報を取得し、たとえば記憶部390から入力画像を取得する。そして、入力画像と顕著性分布とを合わせて示した合成情報を出力する。合成情報はたとえば顕著性推定部130に備えられた表示部380に出力される。また、合成部360から出力された合成情報は、記憶部390に保持されたり、外部の装置により取得されたりしても良い。
図24は、合成部360で生成された合成情報が示す画像を例示する図である。本図の例において、合成情報は入力画像と顕著性を示すヒートマップを重ねた画像である。なお、合成情報の形式は特に限定されない。合成情報はたとえば、顕著領域を、入力画像において円や四角で囲った画像であってもよい。また、合成手法も特に限定されず、αブレンド等が挙げられる。
本実施形態に係る顕著性推定部130を、たとえば、カメラ等の撮像装置を搭載した携帯端末(スマートフォン、タブレット等)に実装することができる。そうすれば、携帯端末で撮影しながら、顕著性の高い重要物体をその場で抽出すると共に、視認性良く可視化することができる。
以上、本実施形態によれば、第1の実施形態と同様、非線形写像部320は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322とを備える。したがって、小さな計算コストで、顕著性を推定することができる。
くわえて、本実施形態によれば、顕著性推定部130は合成部360をさらに備える。したがって、画像の各位置における顕著性を視認性良く可視化することができる。
(第8の実施形態)
本実施形態に係る顕著性推定装置10は、顕著性推定部130の機能構成を除いて上記したいずれかの実施形態に係る顕著性推定装置10と同様の構成である。
図25は、本実施形態に係る顕著性推定部130の構成を例示する図である。本実施形態に係る顕著性推定部130は、マスク画像生成部370、領域抽出部372、および物体検出部374をさらに備える点を除いて第1、第5および第7の実施形態の少なくともいずれかに係る顕著性推定部130と同じである。
マスク画像生成部370は、出力部330から顕著性推定情報を取得し、マスク画像を生成する。具体的には、マスク画像生成部370は顕著性推定情報で示される顕著性分布において、顕著性が予め定められた基準より低い領域をマスク領域とし、顕著性が予め定められた基準以上である領域を非マスク領域としたマスク画像を生成する。すなわち、マスク画像生成部370は顕著性分布の二値化を行う。ここで基準は予め設定され、記憶部390に保持されており、マスク画像生成部370がそれを読み出して用いることができる。
領域抽出部372は、入力画像とマスク画像を取得する。そして、入力画像にマスク画像を作用させることにより、入力画像から顕著性の高い領域を抽出する。たとえば領域抽出部372は、入力画像とマスク画像と論理演算を行うことで、入力画像から顕著性の高い領域を抽出することができる。
そして、物体検出部374は、領域抽出部372で抽出された領域から、物体を検出する。物体の検出方法は特に限定されないが、たとえばSingle Shot Multibox Detector(SSD)を用いる方法が挙げられる。本実施形態に係る顕著性推定部130では予め顕著性が高い領域を抽出し、抽出された領域のみで物体検出が行われるため、誤検出が抑制される。
本実施形態に係る顕著性推定部130はたとえば自動車等の移動体に搭載される。そして、物体検出部374による物体の検出結果は自動運転や運転支援に用いることができる。
以上、本実施形態によれば、第1の実施形態と同様、非線形写像部320は、中間データに対し特徴の抽出を行う特徴抽出部321と、特徴抽出部321で生成されたデータのアップサンプルを行うアップサンプル部322とを備える。したがって、小さな計算コストで、顕著性を推定することができる。
くわえて、本実施形態によれば、顕著性推定部130はマスク画像生成部370、領域抽出部372、および物体検出部374をさらに備える。したがって、入力画像において高精度の物体検出が行える。
以上、図面を参照して実施形態及び実施例について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
10 顕著性推定装置
110 入力部
120 補正部
122 視野設定部
124 補正情報生成部
126 補正処理部
130 顕著性推定部
140 速度推定部
150 基準点設定部
160 トリミング部
202 解像度補正部
204 彩度補正部
206 明度補正部

Claims (9)

  1. 第1の視点から見た景色の画像を補正することにより補正済画像を生成する補正部と、
    前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成する顕著性推定部と、
    を備え、
    前記補正部は、
    前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第1の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成し、
    前記明度情報を用いて前記少なくとも一部の明度を補正した補正済画像に基づいて前記顕著性推定情報を生成する顕著性推定装置。
  2. 請求項1に記載の顕著性推定装置において、
    前記補正部は、
    さらに、前記少なくとも一部の解像度の変更を示す解像度情報、及び前記少なくとも一部の彩度の変更を示す彩度情報を、前記速度情報及び前記相対位置を用いて生成し、
    前記解像度情報及び前記彩度情報を用いて前記画像の少なくとも一部の解像度及び明度を補正する顕著性推定装置。
  3. 請求項1又は2に記載の顕著性推定装置において、
    前記補正部は、前記画像中の基準点から前記少なくとも一部までの距離が大きくなるにつれて明度が低くなるように、前記明度情報を生成する顕著性推定装置。
  4. 請求項1〜3のいずれか一項に記載の顕著性推定装置において、
    前記画像は動画に含まれるフレーム画像である、顕著性推定装置。
  5. 請求項1〜4のいずれか一項に記載の顕著性推定装置において、
    前記補正部は、前記画像を処理することにより前記基準点を設定する顕著性推定装置。
  6. 請求項1〜5のいずれか一項に記載の顕著性推定装置において、
    前記画像を、当該画像の生成条件を用いてトリミングするトリミング部を備え、
    前記補正部は、トリミングされた前記画像を処理して前記補正済画像を生成する顕著性推定装置。
  7. 請求項1〜6のいずれか一項に記載の顕著性推定装置において、
    前記顕著性推定部は、機械学習によって生成されたモデルに前記補正済画像を入力することにより、顕著性推定情報を生成する顕著性推定装置。
  8. コンピュータが、
    第1の視点から見た景色の画像を補正することにより補正済画像を生成し、
    前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成し、
    さらに前記コンピュータが、
    前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第1の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成し、
    前記明度情報を用いて前記少なくとも一部の明度を補正した補正済画像に基づいて前記顕著性推定情報を生成する顕著性推定方法。
  9. コンピュータに、
    第1の視点から見た景色の画像を補正することにより補正済画像を生成する補正機能と、
    前記補正済画像を処理することにより、前記補正済画像内又は前記画像内における顕著性分布を示す顕著性推定情報を生成する推定機能と、
    を持たせ、
    さらに前記補正機能の少なくとも一部として、
    前記画像の少なくとも一部の明度の変更を示す明度情報を、前記第1の視点の移動速度に関する速度情報、及び前記画像中の基準点から前記少なくとも一部までの相対位置を用いて生成する機能と、
    前記明度情報を用いて前記少なくとも一部の明度を補正した補正済画像に基づいて前記顕著性推定情報を生成する機能と、
    を持たせるプログラム。
JP2019087565A 2019-05-07 2019-05-07 顕著性推定装置、顕著性推定方法、及びプログラム Ceased JP2020184146A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019087565A JP2020184146A (ja) 2019-05-07 2019-05-07 顕著性推定装置、顕著性推定方法、及びプログラム
JP2023135249A JP2023153309A (ja) 2019-05-07 2023-08-23 顕著性推定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019087565A JP2020184146A (ja) 2019-05-07 2019-05-07 顕著性推定装置、顕著性推定方法、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023135249A Division JP2023153309A (ja) 2019-05-07 2023-08-23 顕著性推定装置

Publications (1)

Publication Number Publication Date
JP2020184146A true JP2020184146A (ja) 2020-11-12

Family

ID=73044571

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019087565A Ceased JP2020184146A (ja) 2019-05-07 2019-05-07 顕著性推定装置、顕著性推定方法、及びプログラム
JP2023135249A Pending JP2023153309A (ja) 2019-05-07 2023-08-23 顕著性推定装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023135249A Pending JP2023153309A (ja) 2019-05-07 2023-08-23 顕著性推定装置

Country Status (1)

Country Link
JP (2) JP2020184146A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012247847A (ja) * 2011-05-25 2012-12-13 Denso Corp 車両用情報伝達制御装置、及び、情報伝達制御方法
JP2013012124A (ja) * 2011-06-30 2013-01-17 Nikon Corp 画像処理装置、撮像装置およびプログラム
JP2015176169A (ja) * 2014-03-13 2015-10-05 オムロン株式会社 画像処理装置、画像処理方法およびプログラム
JP2017004480A (ja) * 2015-06-04 2017-01-05 オムロン株式会社 顕著性情報取得装置及び顕著性情報取得方法
WO2018062538A1 (ja) * 2016-09-30 2018-04-05 株式会社ニコン 表示装置およびプログラム
JP2019061658A (ja) * 2017-08-02 2019-04-18 株式会社Preferred Networks 領域判別器訓練方法、領域判別装置、領域判別器訓練装置及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012247847A (ja) * 2011-05-25 2012-12-13 Denso Corp 車両用情報伝達制御装置、及び、情報伝達制御方法
JP2013012124A (ja) * 2011-06-30 2013-01-17 Nikon Corp 画像処理装置、撮像装置およびプログラム
JP2015176169A (ja) * 2014-03-13 2015-10-05 オムロン株式会社 画像処理装置、画像処理方法およびプログラム
JP2017004480A (ja) * 2015-06-04 2017-01-05 オムロン株式会社 顕著性情報取得装置及び顕著性情報取得方法
WO2018062538A1 (ja) * 2016-09-30 2018-04-05 株式会社ニコン 表示装置およびプログラム
JP2019061658A (ja) * 2017-08-02 2019-04-18 株式会社Preferred Networks 領域判別器訓練方法、領域判別装置、領域判別器訓練装置及びプログラム

Also Published As

Publication number Publication date
JP2023153309A (ja) 2023-10-17

Similar Documents

Publication Publication Date Title
CN108492271B (zh) 一种融合多尺度信息的自动图像增强***及方法
EP3674852B1 (en) Method and apparatus with gaze estimation
CN112330526B (zh) 一种人脸转换模型的训练方法、存储介质及终端设备
CN112040834A (zh) 眼球跟踪方法及***
TW202008163A (zh) 醫療影像處理方法及裝置、電子設備及儲存介質
WO2019035155A1 (ja) 画像処理システム、画像処理方法、及びプログラム
CN111368717B (zh) 视线确定方法、装置、电子设备和计算机可读存储介质
JP6750500B2 (ja) 情報処理装置および認識支援方法
CN114287915A (zh) 一种基于背部彩色图像的无创脊柱侧弯筛查方法及***
CN112699885A (zh) 一种基于对抗生成网络gan的语义分割训练数据增广方法和***
CN113412499A (zh) 用于车辆的图像***
CN111325107A (zh) 检测模型训练方法、装置、电子设备和可读存储介质
CN116091314A (zh) 一种基于多尺度深度单应性的红外图像拼接方法
US11314975B2 (en) Object identification in data relating to signals that are not human perceptible
JP6558365B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP6202938B2 (ja) 画像認識装置および画像認識方法
KR100930594B1 (ko) 안면 영상 촬영장치 및 그의 안면 특징점 검출 방법
JP2020184146A (ja) 顕著性推定装置、顕著性推定方法、及びプログラム
CN115753019A (zh) 采集设备的位姿调整方法、装置、设备和可读存储介质
WO2019116487A1 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN117252914A (zh) 深度估计网络的训练方法、装置、电子设备及存储介质
CN113723432A (zh) 一种基于深度学习的智能识别、定位追踪的方法及***
JP2020047021A (ja) 処理装置、演算装置、処理方法、およびプログラム
CN112114659A (zh) 用于确定用户的精细的注视点的方法和***
KR20220116928A (ko) 라벨링 방법 및 이를 위한 컴퓨팅 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230707

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20231128