JP2017207960A - 画像解析装置、画像解析方法およびプログラム - Google Patents

画像解析装置、画像解析方法およびプログラム Download PDF

Info

Publication number
JP2017207960A
JP2017207960A JP2016100550A JP2016100550A JP2017207960A JP 2017207960 A JP2017207960 A JP 2017207960A JP 2016100550 A JP2016100550 A JP 2016100550A JP 2016100550 A JP2016100550 A JP 2016100550A JP 2017207960 A JP2017207960 A JP 2017207960A
Authority
JP
Japan
Prior art keywords
feature
region
image
input image
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016100550A
Other languages
English (en)
Other versions
JP6717049B2 (ja
Inventor
崇之 原
Takayuki Hara
崇之 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2016100550A priority Critical patent/JP6717049B2/ja
Publication of JP2017207960A publication Critical patent/JP2017207960A/ja
Application granted granted Critical
Publication of JP6717049B2 publication Critical patent/JP6717049B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】本発明は、超広角画像から精度良く興味領域(注目点)を推定することができる画像解析装置を提供することを目的とする。【解決手段】本発明によれば、入力画像から注目点を抽出する画像解析装置であって、前記入力画像の各位置の要素特徴を抽出する要素特徴抽出部と、前記入力画像を複数の領域に分割し、分割した領域毎に前記要素特徴を積算して領域特徴を算出する領域特徴算出部と、算出された前記領域特徴から所定の回帰モデルに基づいて前記入力画像の注目点を算出する注目点回帰部と、を含む、画像解析装置が提供される。【選択図】図2

Description

本発明は、画像解析装置、画像解析方法およびプログラムに関する。
従来、画像からユーザの興味領域を抽出する技術は、画像の自動クロッピング/サムネイル生成や、画像理解/画像検索におけるアノテーション生成の前処理などに広く利用されており、興味領域の抽出方法としては、物体認識や顕著性マップを利用する方法が知られている。
物体認識に基づく興味領域抽出技術として、特許文献1は、画像中から顔領域を検出し、顔領域の画像を抽出する技術を開示し、特許文献2は、人検出により画像中の人物領域を抽出する技術を開示する。物体認識に基づいて興味領域抽出を行う場合、物体ごとにモデルを用意する必要がある。
一方、顕著性マップを用いた興味領域抽出では、色やエッジといった低次の特徴量を用いることで、より汎用的な興味領域抽出が可能となる。この点につき、非特許文献1は、脳神経科学において研究されている人間の視覚モデルを利用し、画像の局所的な特徴からボトムアップ的に顕著性マップを生成する方法を開示する。また、特許文献3は、各画素で算出されたエッジ量のマップに対して、注目領域重み付けマップを乗算することで精度良く顕著性マップを得る技術を開示する。さらに、特許文献4、5は、画像特徴量に深度情報を合わせて顕著性を算出する技術を開示する。
さらに近年では、画像の低次の特徴(色、エッジ、深度など)に対して、より高次の意味的な情報を利用して興味領域抽出を行うアプローチが試みられている。この点につき、非特許文献2,3は、ニューラルネットワークを用いて画像から高次特徴を抽出し、興味領域を推定する方法を開示する。
さらに近年、180度を超える画角を有する魚眼カメラや360度全方位を撮影可能な全方位カメラなどの超広角カメラが広く用いられるようになっており、これらの超広角画像から精度良く興味領域を推定したいという要請がある。
本発明は、上記に鑑みてなされたものであり、超広角画像から精度良く興味領域(注目点)を推定することができる画像解析装置を提供することを目的とする。
本発明者は、超広角画像から精度良く興味領域(注目点)を推定することができる画像解析装置につき鋭意検討した結果、以下の構成に想到し、本発明に至ったのである。
すなわち、本発明によれば、入力画像から注目点を抽出する画像解析装置であって、前記入力画像の各位置の要素特徴を抽出する要素特徴抽出部と、前記入力画像を複数の領域に分割し、分割した領域毎に前記要素特徴を積算して領域特徴を算出する領域特徴算出部と、算出された前記領域特徴から所定の回帰モデルに基づいて前記入力画像の注目点を算出する注目点回帰部と、を含む、画像解析装置が提供される。
上述したように、本発明によれば、超広角画像から精度良く興味領域(注目点)を推定することができる画像解析装置が提供される。
Equirectangular形式(正距円筒図法)の画像を説明するための概念図。 第1実施形態の画像解析装置の機能ブロック図。 第1実施形態の画像解析装置が実行する処理を示すフローチャート。 要素特徴抽出部が実行する処理を説明するための概念図。 要素特徴抽出部が実行する処理を説明するための概念図。 領域特徴算出部が実行する処理を説明するための概念図。 要素特徴抽出部が実行する処理を説明するための概念図。 第2実施形態の画像解析装置の機能ブロック図。 第2実施形態の画像解析装置が実行する処理を示すフローチャート。 第3実施形態の画像解析装置の機能ブロック図。 第3実施形態の画像解析装置が実行する処理を示すフローチャート。 第4実施形態の画像解析装置の機能ブロック図。 第4実施形態の画像解析装置が実行する処理を示すフローチャート。 本実施形態の画像解析装置のハードウェア構成図。
以下、本発明を、実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜、その説明を省略するものとする。
本発明の実施形態である画像解析装置は、入力された画像から興味領域を抽出する機能を備え、より具体的には、注目点(興味領域内の点、または、興味領域の重心)を推定する機能を備える。ここで、本実施形態の画像解析装置の説明に入る前に、超広角画像(魚眼カメラや全方位カメラの撮影画像など)に対して、従来の興味領域抽出技術を適用した場合、興味領域を精度良く抽出することができない理由について説明する。
まず第一に、超広角画像を、図1に示すEquirectangular形式(正距円筒図法)の画像に変換し、変換後の画像から興味領域を抽出するといった方法が考えられる。ここで、Equirectangular形式は、主にパノラマ撮影に使われる画像の表現形式であり、図1に示すように、画素の3次元方向を緯度と経度に分解し、正方格子状に対応する画素値を並べた画像形式である。Equirectangular形式の画像からは、経度緯度の座標値から任意の3次元方向の画素値を得ることができ、概念的には、単位球に画素値がプロットされたものとして捉えることができる。
しかしながら、Equirectangular形式の画像から直接的に興味領域を抽出する場合、歪みが極端に大きくなる天頂・天底近傍の領域や画像境界に存在する興味領域を抽出することができないという問題がある。
第二に、超広角画像を複数の画像に分割し、各分割画像から興味領域を抽出するといった方法が考えられる。しかしながら、この場合、各分割画像から得られる顕著性マップの統合法が明らかではない。
さらに、超広角画像の場合、一つの画像内に複数の顕著性の高い物体が含まれていることが想定されるが、従来技術には、複数の物体間の優先順位を判断する仕組みがない。
以上、従来の興味領域抽出技術の問題点について説明してきたが、この問題に対し、本実施形態の画像解析装置は、歪みが大きく、複数の物体を含む超広角画像から、精度良くユーザの興味領域を抽出する機能を備えることを特徴とする。以下、本実施形態の画像解析装置の具体的な構成について説明する。
(第1実施形態)
本発明の第1実施形態である画像解析装置100Aは、処理対象となる画像を複数の領域に分割し、各分割領域の特徴から処理対象となる画像の注目点を推定する機能を備える。以下、図2に示す機能ブロック図に基づいて、本実施形態の画像解析装置100Aの機能構成を説明する。
図2に示すように、画像解析装置100Aは、画像入力部101と、要素特徴抽出部102と、領域特徴算出部103と、注目点回帰部104と、注目点出力部105とを含んで構成される。
画像入力部101は、処理対象となる画像を入力する手段である。
要素特徴抽出部102は、処理対象となる画像の各位置の要素特徴を抽出する手段である。
領域特徴算出部103は、処理対象となる画像を複数の領域に分割し、分割した領域毎に要素特徴を積算して領域特徴を算出する手段である。
注目点回帰部104は、算出された領域特徴から所定の回帰モデルに基づいて処理対象となる画像の注目点を算出する手段である。
注目点出力部105は、算出された注目点を出力する手段である。
なお、本実施形態では、画像解析装置100Aを構成するコンピュータが所定のプログラムを実行することにより、画像解析装置100Aが上述した各手段として機能する。
以上、本実施形態の画像解析装置100Aの機能構成について説明してきたが、続いて、画像解析装置100Aが実行する処理の内容を図3に示すフローチャートに基づいて説明する。
まず、ステップ101では、画像入力部101が、任意の記憶手段から処理対象となるEquirectangular形式の全方位画像を読み込んで入力する。以下、入力した画像を“入力画像”という。
続くステップ102では、要素特徴抽出部102が、先のステップ101で読み込んだ入力画像の各位置から要素特徴を抽出する。なお、要素特徴は、入力画像の画素単位で抽出しても良いし、特定のサンプリング位置から抽出しても良い。
本実施形態では、要素特徴として、色、エッジ、顕著性、物***置/ラベル、などを用いることができる。
色特徴としては、特定の色空間(RGBやL*a*b*など)の値、特定色(たとえば肌の色)とのユークリッド距離、マハラノビス距離などを使用することができる。
エッジ特徴としては、Sobelフィルタやガボールフィルタなどで抽出した画素値勾配の方向や強度を用いることができる。
顕著性としては、既存の顕著性抽出アルゴリズムによって抽出された顕著性の値を用いることができる。ここでいう、顕著性抽出アルゴリズムの例として、先に挙げた特許文献3〜5、非特許文献1〜3に開示されるアルゴリズムを挙げることができる。
物***置/ラベル特徴としては、既知の物体検出アルゴリズムで検出された物体の位置(通常、検出矩形の4隅の座標で表される)と物体種(顔、人、車、等)を用いることができる。ここで、物体検出アルゴリズムの例として、先に挙げた特許文献1、2に開示されるアルゴリズムを挙げることができる。
なお、本実施形態で採用することができる要素特徴は、上記に限定されるものではなく、従来、画像認識の分野で使用されているその他の特徴量(LBP, Haar like feature, HOG, SIFT,など)を採用しても良いことはいうまでもない。
ここで、本実施形態においては、特徴抽出精度の観点から、以下の方法によって要素特徴を抽出する。
図1に示すように、Equirectangular形式の画像からは、経度緯度の座標値から任意の3次元方向の画素値を得ることができ、Equirectangular形式の画像は、概念的には単位球に画素値がプロットされたものとして捉えることができる。そこで、本実施形態では、図4に示すように、所定の投影面を定義し、単位球の中心を投影中心Oとして、下記式(1)により、Equirectangular形式の全方位画像の画素値(θ,φ)を定義した投影面上の画素値(x,y)に対応させる透視投影変換を行い、透視投影変換した画像から要素特徴を抽出する。なお、下記式(1)において、Pは透視投影行列を示し、等号は0以外のスカラー倍で等しいことを示す。
具体的には、Equirectangular形式の全方位画像の投影面として、単位球と共通する中心を有する正多面体を定義した上で、各面の法線方向を視線方向として透視投影変換を行う。図5(a)は、全方位画像の投影面として正八面体を定義した例を示し、図5(b)は、全方位画像の投影面として正十二面体を定義した例を示す。
再び、図3に戻って説明を続ける。
続くステップ103では、領域特徴算出部103が、入力画像(全方位画像)の撮影方向を空間的に等分割することによって、当該入力画像を複数の領域に分割した上で、各分割領域から抽出された要素特徴を積算し、領域ごとの積算値を領域特徴として算出する。例えば、図5に示したように、全方位画像の球面を正多面体で近似する場合は、正多面体の各面を投影面とする透視投影変換画像から抽出された要素特徴の積算値が領域特徴となる。なお、RGBで構成される色特徴を要素特徴とする場合、各分割領域において、R,G,Bそれぞれの値を積算する。
図6は、エッジ強度、顕著性、物***置(顔分布)という3種類の要素特徴を用いて領域特徴を算出した場合を例示的に示す。このように、2種類以上の要素特徴を用いて領域特徴を算出する場合には、算出される領域特徴の数=分割領域数×要素特徴の種類数となる。
続くステップ104では、注目点回帰部104が、予め用意された所定の回帰モデルを用いて、先のステップ103で算出した領域特徴から注目点の位置を算出する。ここで、注目点の位置yは下記式(2)で表すことができる。
上記式(2)において、xは領域特徴ベクトルを示し、fは回帰モデルを示し、αは回帰パラメータを示す。なお、回帰パラメータαは、事前に訓練データ(xとyの複数の組)を用いた機械学習によって同定しておく。また、回帰には、線形回帰、ロジスティック回帰、サポートベクトル回帰、ランダムフォレスト回帰、ニューラルネットワークなど、既知の回帰の方法を用いることができる。
以下、例示的に、サポートベクトル回帰を使用する場合について説明する。
この場合、回帰パラメータαは、サポートベクトル{s}、サポートベクトルの重み{w}、オフセットhとなる(実際にはこの他に、カーネルの種類、カーネルのパラメータがハイパーパラメータとして存在する)。注目点の位置yは、3次元空間中の単位方向(e,e,e)で表現し、e,e,eそれぞれに対して領域特徴ベクトルxからの回帰モデルを構築する。この場合、回帰モデルfは下記式(3)で表現することができる。なお、下記式(3)において、Kはカーネルを示す。
最後に、ステップ105では、注目点出力部105が、先のステップ104で算出された注目点の位置を出力し、処理を終了する。
本実施形態をクロッピングやサムネイル生成に適用する場合には、上述した手順で求めた注目点を中心に特定の画角を設定することで興味領域を定義し、定義した興味領域の画像を、そのままクロッピング画像やサムネイル画像とする。この場合、設定する画角は、回帰モデルに与えた訓練データにおける注目点を含む興味領域の画角であることが望ましい。また、本実施形態を画像認識/画像検索システムに適用する場合には、注目点を含む物体領域を認識対象、検索対象の物体とする。
以上、説明したように、本実施形態においては、画像を歪みの少ない部分画像(分割領域)に分解してから要素特徴を算出するので、180度を超える超広角画像をロバストに処理することが可能になる。
また、本実施形態においては、各部分画像から得られた顕著性マップや物体分布を単純に統合するのではなく、分割領域ごとに集約した領域特徴から回帰モデルに基づいて注目点を推定するので、領域AにXという物体が存在し、領域BにYという物体が存在する場合にはCを注目点とする、といったような領域横断的なルールが機械学習の中で回帰モデルの中に獲得されることにより、領域間の特徴の相互作用を考慮した注目点の推定が可能になる。
なお、上述した第1実施形態においては、以下に述べる設計変更が可能である。
例えば、先のステップ103の領域特徴の算出時における入力画像の領域分割は、全方位画像の球面を正多面体で近似して分割する方法の他にも、任意の分割方法を採用することができ、例えば、全方位画像の球面を準正多面体で近似して分割しても良いし、全方位画像の球面上にランダムに展開した母点に基づくボロノイ分割によって分割しても良い。なお、要素特徴を行うための分割的な透視投影変換における分割方法と、領域特徴算出のための領域分割における分割方法は必ずしも一致している必要はないが、計算コスト低減の観点から、一致していることが好ましい。
また、先のステップ102の要素特徴抽出の対象画像は、全方位画像を透視投影変換した画像に限らず、その他の投影法によって投影した画像であっても良い。例えば、それは、正投影した画像であって良いし、図7(a)、(b)に示すように、投影中心Oを単位球の中心からずらして透視投影変換を行った画像であっても良い。図7(a)、(b)に示す投影法によれば、画像端の射影歪みを緩和することが可能となり、また画角180度以上の投影も可能となるので、より少ない画像分割で要素特徴を抽出することが可能となる。
また、画角が360度に至らないカメラで撮影した画像を処理対象とする場合には、その範囲の画角の画像をEquirectangluar形式に変換してなる画像(部分的に欠損した画像)を上述したのと同様の手順で処理すれば良い。
さらに、処理対象がEquirectangular形式の画像でない場合であっても、その画像を撮影したカメラが校正済み(すなわち、カメラ撮像面の位置に対応する三次元空間中の光線の方向が既知)である限り、上述したのと同様に扱うことができる。なお、処理対象が未校正カメラの撮影画像である場合は、画像を正多面体で近似して分割する方法を適用することはできないが、その場合は、その他の適用可能な分割方式(例えば、先述のボロノイ分割)で領域分割すれば良い。
以上、本発明の第1実施形態を説明してきたが、続いて、本発明の第2実施形態を説明する。なお、以下では、第1実施形態の内容と共通する部分の説明を省略し、専ら、第1実施形態との相違点のみを説明するものとする。
(第2実施形態)
第2実施形態の画像解析装置100は、種類の異なる要素特徴を領域内で統合し、統合した領域特徴から入力画像の注目点を推定する機能を備える。
図8は、画像解析装置100Bの機能ブロック図を示す。図8に示すように、画像解析装置100Bの機能構成は、領域特徴統合部110を追加的に備える他は、第1実施形態の画像解析装置100Aと同じである。
ここで、領域特徴統合部110は、領域特徴をより低次元の特徴に写像して統合領域特徴を得る手段である。
以下、画像解析装置100Bが実行する処理の内容を図9に示すフローチャートに基づいて説明する。
ステップ101〜103の内容は、図3に基づいて説明した先のステップ101〜103のそれと同じであるので説明を省略し、ここでは、ステップ110から説明する。
ステップ110では、領域特徴統合部110が、先のステップで算出され領域特徴を、より低次元の特徴に統合する。ここで、領域特徴統合部110は、下記式(4)に示すように、領域iの領域特徴ベクトルxに対して、低次元の統合領域特徴部ベクトルx’を写像gにより求める。なお、本実施形態では、写像gを、予め設計するか、機械学習により同定しておく。
続くステップ104では、注目点回帰部104が、予め用意された所定の回帰モデルを用いて、先のステップ110で求めた統合領域特徴ベクトルx’から注目点の位置を算出する。ここで、注目点の位置yは下記式(5)で表すことができる。
なお、上記式(5)における{x’}は、仮に領域がS個ある場合は、下記式(6)であることを示す。
ここで、写像gについて説明する。
最も単純な写像gは、領域特徴ベクトルxの要素をすべて加算する写像である。この場合、領域特徴ベクトルxは1次元まで集約される。
他の例として、下記式(7)に示すように、写像gとして、RからR(m<n)への線形変換Wを採用することもできる。
なお、線形変換Wは、訓練データとして、領域特徴ベクトルxと注目点の位置yの組が与えられている場合、機械学習により獲得することができる。すなわち、統合領域特徴x’から注目点の位置yへの写像fが決定されている場合、訓練データのyに対して上記式(5)を満たす{x’}を求め、{x’}とxの組から写像g(つまりは行列W)を学習で求めることができる。写像fが決定されていない場合は、仮に決定したfに対してgを学習し、学習したgに対してfを学習する、というプロセスを繰り返すことでfおよびgを求めることができる。ここで、fおよびgがともに線形変換であり、且つ、WがR→Rである場合には、下記式(8)に示すように、fを行列Vで表現することができる。
そして、上記式(8)と式(7)を整理すれば、全体は、下記式(9)、(10)で表すことができる。
ここで、上記式(9)において、Vを固定してVXからyへの線形回帰と見てWを求め、Wを固定してWXからyへの線形回帰と見てVを求めるというプロセスを繰り返すことにより、VおよびW、すなわちfおよびgを求めることができる。
また、写像gとして線形変換以外のものを考えることもできる。結局のところ、gを求めることは回帰問題を解くことであり、fと同様にサポートベクトル回帰、ランダムフォレスト回帰、ニューラルネットワークなど、既知の回帰の方法を用いることができる。
最後に、ステップ105では、注目点出力部105が、先のステップ104で算出された注目点の位置を出力し、処理を終了する。
以上、説明したように、本実施形態によれば、領域特徴をより少ない数の統合領域特徴に集約することにより、回帰モデルのパラメータを削減することができる。線形回帰を例に取れば、第1実施形態では「(要素特徴数)×(領域分割数)」に比例した数のパラメータが必要であったのに対し、第1実施形態では「(要素特徴数)+(領域分割数)」に比例した数までパラメータ数を減らすことができる。非線形回帰の場合も同様のパラメータ削減効果が得られる。これにより、回帰モデルを求める時に生じるオーバーフィッティングを抑制することができ、少ない訓練データから精度良く注目点を推定できるようになる。
以上、本発明の第2実施形態を説明してきたが、続いて、本発明の第3実施形態を説明する。なお、以下では、第1実施形態の内容と共通する部分の説明を省略し、専ら、第1実施形態との相違点のみを説明するものとする。
(第3実施形態)
第3実施形態の画像解析装置100Cは、ソフトセグメンテーションされた領域に対して領域特徴を算出し、入力画像における注目点を推定する機能を備える。
図10は、画像解析装置100Cの機能ブロック図を示す。図10に示すように、画像解析装置100Cの機能構成は、第1実施形態の画像解析装置100Aの領域特徴算出部103に代えて、領域特徴算出部120を備える他は同じである。
ここで、領域特徴算出部120は、領域毎に位置に応じた重み関数と要素特徴を加重加算して領域特徴を算出する手段である。
以下、画像解析装置100Cが実行する処理の内容を図11に示すフローチャートに基づいて説明する。
ステップ101〜102の内容は、図3に基づいて説明した先のステップ101〜102のそれと同じであるので説明を省略し、ここでは、ステップ120から説明する。
ステップ120では、領域特徴算出部120が、先のステップ102で抽出された要素特徴を領域ごとに積算して領域特徴を算出する。本実施形態では、隣接する領域間にオーバーラップが存在し、単位球面上の位置q=(XYZ)に対して、領域iへの所属確率P(i|q)が定義されている。ここで、領域の中心座標は第1実施形態のように多面体の面中心やランダム生成で設定することができる。所属確率P(i|q)は領域iの中心座標をc(単位ベクトル)として、例えば、下記式(11)に示すように設定することができる。
上記式(11)において、βはパラメータであり、βが小さいほどソフトセグメンテーションとなる。ただし、上記式(11)は例示であって、所属確率Pはこの形に限らず自由に設計することができる。
本実施形態では、以上の設定のもとに、領域特徴算出部120が、領域毎に位置に応じた重み関数と要素特徴を加重加算して領域特徴xを算出する。具体的には、領域ごとに位置qにおける要素特徴を所属確率で重み付けて積算することで領域特徴xを求める。より具体的には、位置qにおける要素特徴ベクトルa(q)に対して、下記式(12)により、領域iにおける領域特徴xを求める。
ここで、上記式(12)は、第1実施形態の一般化となっていることが見て取れるであろう。すなわち、第1実施形態は、上記式(12)において、所属確率P(i|q)が0か1のみを取る特殊な例(ハードセグメンテーション)と捉えることができる。
さらに確率から離れて一般化すれば、任意の関数h(q)を用いて、領域特徴xを下記式(13)で求めることができる。

本実施形態では、上記式(13)におけるh(q)として、球面調和関数を用いることができる。
続くステップ104では、注目点回帰部104が、予め用意された所定の回帰モデルを用いて、先のステップ103で算出した領域特徴から注目点の位置を算出し、最後に、ステップ105では、注目点出力部105が、先のステップ104で算出された注目点の位置を出力し、処理を終了する。
以上、説明したように、本実施形態によれば、領域をソフトセグメンテーションすることにより、領域の離散化による誤差を低減し、より高い精度で注目点を推定することが可能となる。
以上、本発明の第3実施形態を説明してきたが、続いて、本発明の第4実施形態を説明する。なお、以下では、第1実施形態の内容と共通する部分の説明を省略し、専ら、第1実施形態との相違点のみを説明するものとする。
(第4実施形態)
第4実施形態の画像解析装置100Dは、入力画像から複数個の注目点を推定する機能を備える。
図12は、画像解析装置100Dの機能ブロック図を示す。図12に示すように、画像解析装置100Dの機能構成は、第1実施形態の画像解析装置100Aの領域特徴算出部103および注目点回帰部104に代えて、要素特徴統合部130および注目点探索部140を備える他は同じである。
ここで、要素特徴統合部130は、入力画像の各位置の要素特徴を1つの値に統合して統合要素特徴を得る手段であり、注目点探索部140は、統合要素特徴と所定の窓関数の積和からなる評価関数の局所解として1以上の注目点を算出する手段である。
以下、画像解析装置100Dが実行する処理の内容を図13に示すフローチャートに基づいて説明する。
ステップ101〜102の内容は、図3に基づいて説明した先のステップ101〜102のそれと同じであるので説明を省略し、ここでは、ステップ130から説明する。
ステップ130では、要素特徴統合部130が要素特徴を結合する。本実施形態では、位置qごとに得られている要素特徴ベクトルを第2実施形態と同様の方法で統合し1次元の値とする。すなわち、第2実施形態では領域ごとに要素特徴を統合していたところを、本実施形態では、位置ごとに統合する点が異なる。なお、この統合法は、第2実施形態で説明した学習法を使って事前に決めておく。
続くステップ140では、注目点探索部140が注目点の位置を探索する。具体的には、先のステップ130で得られた、位置qごとに要素特徴ベクトルを集約した1次元の値b(q)に対して窓関数ψを使って、下記式(14)に示す評価関数J(p)を構築する。
本実施形態では、評価関数J(p)の値が閾値以上となる1個以上の局所解pを求め、これを注目点とする。窓関数としてはδ関数やガウス関数などを用いることができる。
最後に、ステップ105では、注目点出力部105が、先のステップ104で算出された注目点の位置を出力し、処理を終了する。
以上、説明したように、本実施形態によれば、入力画像から複数個の注目点を推定することができる。
最後に、図14に基づいて本実施形態の画像解析装置100を構成するコンピュータのハードウェア構成について説明する。
図14に示すように、本実施形態の画像解析装置100を構成するコンピュータは、装置全体の動作を制御するプロセッサ10と、ブートプログラムやファームウェアプログラムなどを保存するROM12と、プログラムの実行空間を提供するRAM14と、画像解析装置100を上述した各手段として機能させるためのプログラムやオペレーティングシステム(OS)等を保存するための補助記憶装置15と、外部入出力装置を接続するための入出力インタフェース16と、ネットワークに接続するためのネットワーク・インターフェース18とを備えている。
なお、上述した実施形態の各機能は、C、C++、C#、Java(登録商標)などで記述されたプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、CD−ROM、MO、DVD、フレキシブルディスク、EEPROM、EPROMなどの記録媒体に格納して頒布することができ、また他の装置が可能な形式でネットワークを介して伝送することができる。
以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
10…プロセッサ
12…ROM
14…RAM
15…補助記憶装置
16…入出力インタフェース
18…ネットワーク・インターフェース
100…画像解析装置
101…画像入力部
102…要素特徴抽出部
103…領域特徴算出部
104…注目点回帰部
105…注目点出力部
110…領域特徴統合部
120…領域特徴算出部
130…要素特徴統合部
140…注目点探索部
特許4538008号公報 特許3411971号公報 特許5158974号公報 特許5766620号公報 特許5865078号公報
L. Itti, et al., "A model of saliency-based visual attention for rapid scene analysis," IEEE Transactions on Pattern Analysis & Machine Intelligence 11 pp. 1254-1259, 1998. R. Zhao, et al., "Saliency detection by multi-context deep learning," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015. X. Huang, et al., "SALICON: Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks," Proceedings of the IEEE International Conference on Computer Vision. 2015.

Claims (15)

  1. 入力画像から注目点を抽出する画像解析装置であって、
    前記入力画像の各位置の要素特徴を抽出する要素特徴抽出部と、
    前記入力画像を複数の領域に分割し、分割した領域毎に前記要素特徴を積算して領域特徴を算出する領域特徴算出部と、
    算出された前記領域特徴から所定の回帰モデルに基づいて前記入力画像の注目点を算出する注目点回帰部と、
    を含む、
    画像解析装置。
  2. 前記領域特徴算出部は、
    前記入力画像の撮影方向を空間的に等分割することによって、該入力画像を複数の領域に分割する、
    請求項1に記載の画像解析装置。
  3. 前記領域特徴をより低次元の特徴に写像して統合領域特徴を得る領域特徴統合部をさらに含み、
    前記注目点回帰部は、
    前記統合領域特徴から前記回帰モデルに基づいて前記注目点を算出する、
    請求項1または2に記載の画像解析装置。
  4. 前記領域特徴算出部は、
    前記領域毎に位置に応じた重み関数と要素特徴を加重加算して前記領域特徴を算出する、
    請求項1または2に記載の画像解析装置。
  5. 前記回帰モデルは、線形回帰、ロジスティック回帰、サポートベクトル回帰、ランダムフォレスト回帰およびニューラルネットワークからなる群から選択される、
    請求項1〜4のいずれか一項に記載の画像解析装置。
  6. 入力画像から注目点を抽出する画像解析装置であって、
    前記入力画像の各位置の要素特徴を抽出する要素特徴抽出部と、
    抽出した前記要素特徴を1つの値に統合して統合要素特徴を得る要素特徴統合部と、
    前記統合要素特徴と所定の窓関数の積和からなる評価関数の局所解として1以上の注目点を算出する注目点探索部と、
    を含む、
    画像解析装置。
  7. 前記要素特徴は、色、エッジ、顕著性、物***置/ラベルからなる群から選択される少なくとも1つの要素特徴である、請求項1〜6のいずれか一項に記載の画像解析装置。
  8. 入力画像から注目点を抽出する方法であって、
    前記入力画像の各位置の要素特徴を抽出するステップと、
    前記入力画像を複数の領域に分割し、分割した領域毎に前記要素特徴を積算して領域特徴を算出するステップと、
    算出された前記領域特徴から所定の回帰モデルに基づいて前記入力画像の注目点を算出するステップと、
    を含む、
    方法。
  9. 前記領域特徴を算出するステップは、
    前記入力画像の撮影方向を空間的に等分割することによって、該入力画像を複数の領域に分割するステップを含む、
    請求項8に記載の方法。
  10. 前記領域特徴をより低次元の特徴に写像して統合領域特徴を得るステップをさらに含み、
    前記注目点を算出するステップは、
    前記統合領域特徴から前記回帰モデルに基づいて前記注目点を算出するステップを含む、
    請求項8または9に記載の方法。
  11. 前記領域特徴を算出するステップは、
    前記領域毎に位置に応じた重み関数と要素特徴を加重加算して前記領域特徴を算出するステップを含む、
    請求項8または9に記載の方法。
  12. 前記回帰モデルは、線形回帰、ロジスティック回帰、サポートベクトル回帰、ランダムフォレスト回帰およびニューラルネットワークからなる群から選択される、
    請求項8〜11のいずれか一項に記載の方法。
  13. 入力画像から注目点を抽出する方法であって、
    前記入力画像の各位置の要素特徴を抽出するステップと、
    抽出した前記要素特徴を1つの値に統合して統合要素特徴を得るステップと、
    前記統合要素特徴と所定の窓関数の積和からなる評価関数の局所解として1以上の注目点を算出するステップと、
    を含む、
    方法。
  14. 前記要素特徴は、色、エッジ、顕著性、物***置/ラベルからなる群から選択される少なくとも1つの要素特徴である、請求項8〜13のいずれか一項に記載の方法。
  15. コンピュータに、請求項8〜14のいずれか一項に記載の方法の各ステップを実行させるためのプログラム。
JP2016100550A 2016-05-19 2016-05-19 画像解析装置、画像解析方法およびプログラム Active JP6717049B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016100550A JP6717049B2 (ja) 2016-05-19 2016-05-19 画像解析装置、画像解析方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016100550A JP6717049B2 (ja) 2016-05-19 2016-05-19 画像解析装置、画像解析方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2017207960A true JP2017207960A (ja) 2017-11-24
JP6717049B2 JP6717049B2 (ja) 2020-07-01

Family

ID=60416477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016100550A Active JP6717049B2 (ja) 2016-05-19 2016-05-19 画像解析装置、画像解析方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6717049B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019220114A (ja) * 2018-06-22 2019-12-26 株式会社リコー 信号処理装置、畳み込みニューラルネットワーク、信号処理方法及び信号処理プログラム
JP2022554127A (ja) * 2019-11-11 2022-12-28 美的集団股▲フン▼有限公司 オブジェクト認識に基づく機械制御方法及びそのシステム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092555A (ja) * 2004-09-23 2006-04-06 Fuji Xerox Co Ltd 領域検出方法および領域検出プログラム
JP2015176169A (ja) * 2014-03-13 2015-10-05 オムロン株式会社 画像処理装置、画像処理方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092555A (ja) * 2004-09-23 2006-04-06 Fuji Xerox Co Ltd 領域検出方法および領域検出プログラム
JP2015176169A (ja) * 2014-03-13 2015-10-05 オムロン株式会社 画像処理装置、画像処理方法およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019220114A (ja) * 2018-06-22 2019-12-26 株式会社リコー 信号処理装置、畳み込みニューラルネットワーク、信号処理方法及び信号処理プログラム
JP7031511B2 (ja) 2018-06-22 2022-03-08 株式会社リコー 信号処理装置、畳み込みニューラルネットワーク、信号処理方法及び信号処理プログラム
JP2022554127A (ja) * 2019-11-11 2022-12-28 美的集団股▲フン▼有限公司 オブジェクト認識に基づく機械制御方法及びそのシステム
JP7332220B2 (ja) 2019-11-11 2023-08-23 美的集団股▲フン▼有限公司 オブジェクト認識に基づく機械制御方法及びそのシステム

Also Published As

Publication number Publication date
JP6717049B2 (ja) 2020-07-01

Similar Documents

Publication Publication Date Title
JP6798183B2 (ja) 画像解析装置、画像解析方法およびプログラム
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
US10216979B2 (en) Image processing apparatus, image processing method, and storage medium to detect parts of an object
Fisher et al. Dictionary of computer vision and image processing
JP6639113B2 (ja) 画像認識装置、画像認識方法及びプログラム
TWI676963B (zh) 目標獲取方法及設備
US9053388B2 (en) Image processing apparatus and method, and computer-readable storage medium
JP6351240B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN111931764B (zh) 一种目标检测方法、目标检测框架及相关设备
JP5261501B2 (ja) 不変の視覚場面及び物体の認識
JP6207210B2 (ja) 情報処理装置およびその方法
WO2009152509A1 (en) Method and system for crowd segmentation
US20220076119A1 (en) Device and method of training a generative neural network
US20230326173A1 (en) Image processing method and apparatus, and computer-readable storage medium
JP2009230703A (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
JP6410450B2 (ja) オブジェクト識別装置、オブジェクト識別方法及びプログラム
CN112836653A (zh) 人脸隐私化方法、设备、装置及计算机存储介质
JP6717049B2 (ja) 画像解析装置、画像解析方法およびプログラム
JP6202938B2 (ja) 画像認識装置および画像認識方法
CN113435367A (zh) 社交距离评估方法、装置及存储介质
CN108154107B (zh) 一种确定遥感图像归属的场景类别的方法
JP2021064120A (ja) 情報処理装置、情報処理方法、及びプログラム
Zhang et al. Spatio-temporal fusion of LiDAR and camera data for omnidirectional depth perception
JP2020008916A (ja) 物体検出装置、物体検出プログラム、物体検出方法、及び学習装置
Achaibou et al. Guided depth completion using active infrared images in time of flight systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200525

R151 Written notification of patent or utility model registration

Ref document number: 6717049

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151