JP2023076286A - 画像処理装置、画像処理方法、撮像装置 - Google Patents

画像処理装置、画像処理方法、撮像装置 Download PDF

Info

Publication number
JP2023076286A
JP2023076286A JP2021189620A JP2021189620A JP2023076286A JP 2023076286 A JP2023076286 A JP 2023076286A JP 2021189620 A JP2021189620 A JP 2021189620A JP 2021189620 A JP2021189620 A JP 2021189620A JP 2023076286 A JP2023076286 A JP 2023076286A
Authority
JP
Japan
Prior art keywords
area
occupancy
detection
region
captured image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021189620A
Other languages
English (en)
Inventor
智之 天川
Tomoyuki Amakawa
悠 今野
Yu Konno
光太郎 矢野
Kotaro Yano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021189620A priority Critical patent/JP2023076286A/ja
Publication of JP2023076286A publication Critical patent/JP2023076286A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 実行する処理に応じた適切な領域を撮像画像から取得するための技術を提供すること。【解決手段】 撮像画像からオブジェクトの一部若しくは全部を検出対象として検出する。該撮像画像から検出したそれぞれの検出対象について、該撮像画像中のオブジェクトの領域もしくは該撮像画像中のオブジェクトの情報において該検出対象の領域が含む割合を占有度として求める。実行する処理に応じた占有度の検出対象の領域を選択する。【選択図】 図3

Description

本発明は、画像領域の選択技術に関するものである。
従来のデジタルカメラは、カメラが自動的に検出した被写体や、ユーザが任意で選択した被写体に対して、好適な画像を取得する機能が搭載されている。例えば、自動的に焦点を合わせるオートフォーカス(AF)機能、自動的に明るさを調整するオートエクスポージャー(AE)機能、自動的に適切な色に調整するオートホワイトバランス(AWB)機能である。また、事前に選択された被写体を後のフレームにおいても追従し続けることで、その被写体にフォーカスを合わせ続けたり、明るさや色を調整し続ける追尾機能を有するカメラも知られている。これらの機能は、入力画像において、被写体が存在する注目領域の情報を用いて行われるため、注目領域を適切に設定する必要がある。
入力画像から、被写体の注目領域の情報を抽出するためには、対象物(以降、オブジェクト)の検出技術が必要である。これまでは人物の顔や顔器官(瞳、鼻、口など)、人物の全身などの特定のカテゴリのオブジェクトに対して行われるものが多かった。例えば、特許文献1には、人物の顔および顔器官に対して、ユーザがフォーカスを合わせる位置を任意に選択できる方法が開示されている。
一方で近年、深層学習の発達に伴い、様々なカテゴリの物体の情報を用いて物体らしさを学習させることで、動物や乗り物など、任意の被写体を検出する技術が実現されてきている。
非特許文献1、非特許文献2、非特許文献3はいずれも、深層学習を用いて画像から様々なカテゴリの物体を同時に検出するマルチオブジェクト検出に関する技術を開示している。人物のような特定の被写体だけでなく、このような任意の被写体についても、適切な注目領域を自動的に、あるいは、ユーザの意図通りに設定することが望まれる。
特開2019-120748号公報
Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation., Ross Girshick et al.,2014 IEEE Conference on Computer Vision and Pattern Recognition SSD: Single Shot MultiBox Detector, Wei Liu et al., Computer Vision ? ECCV 2016 You Only Look Once: Unified, Real-Time Object Detection, Joseph Redmon et al., 2016 IEEE Conference on Computer Vision and Pattern Recognition
被写体が存在する注目領域については、前述したAF機能、AE機能、AWB機能、追尾機能ごとに適切なサイズや位置が異なる。例えば、オブジェクト自体を追尾する追尾機能の初期領域として注目領域が用いられる際には、注目領域内の情報量が多い方がよく、よって、オブジェクトの全体を捉えるようなサイズの大きい注目領域が望まれる。一方で、AF機能の領域として注目領域が用いられる際には、オブジェクトの部分を捉えるようなサイズの小さな注目領域が望まれることが多い。
特許文献1では、ユーザがAF機能の対象を顔全体に設定するのか、顔器官に設定するのかを切り替える方法について言及されているが、AF機能を実現するための最適な領域サイズの決定方法については言及されていない。また、AF以外の機能、例えば追尾機能・AE機能・AWB機能を実現するのに最適な領域サイズについても言及されていない。
非特許文献1、非特許文献2、非特許文献3では、物体らしいものの検出について言及されているに留まっており、その検出される領域がAF機能や追尾機能に適しているか否かについては言及されていない。そのため、それらの注目領域を利用する機能によってはユーザが期待する動作を得られない可能性がある。本発明では、実行する処理に応じた適切な領域を撮像画像から取得するための技術を提供する。
本発明の一様態は、撮像画像からオブジェクトの一部若しくは全部を検出対象として検出する検出手段と、前記検出手段が前記撮像画像から検出したそれぞれの検出対象について、前記撮像画像中のオブジェクトの領域もしくは前記撮像画像中のオブジェクトの情報において該検出対象の領域が含む割合を占有度として求める演算手段と、実行する処理に応じた占有度の検出対象の領域を選択する選択手段とを備えることを特徴とする。
本発明によれば、実行する処理に応じた適切な領域を撮像画像から取得することができる。
撮像装置100の構成例を示す図。 (a)は撮像装置100のハードウェア構成例を示すブロック図、(b)は画像解析装置110および学習装置150のハードウェア構成例を示すブロック図。 撮像装置100の機能構成例を示すブロック図。 追尾処理およびAF処理を実施するために撮像装置100が行う処理のフローチャート。 ニューラルネットワークの構成例を示す図。 検出領域の占有度について説明する図。 学習装置150の機能構成例を示すブロック図。 学習装置150によるニューラルネットワークの学習処理のフローチャート。 撮像装置100の機能構成例を示すブロック図。 追尾処理およびAF処理を実施するために撮像装置100が行う処理のフローチャート。 表示例を示す図。 学習データの作成方法を説明する図。 学習画像におけるラベルを説明する図。 撮像装置100の機能構成例を示すブロック図。 追尾処理およびAF処理を実施するために撮像装置100が行う処理のフローチャート。 学習装置150の機能構成例を示すブロック図。 学習画像におけるラベルを説明する図。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1の実施形態]
本実施形態では、定期的若しくは不定期的に撮像した静止画像を撮像画像として取得する、若しくは動画像における各フレームの画像を撮像画像として取得する撮像装置について説明する。本実施形態に係る撮像装置は、このようにして取得した撮像画像からオブジェクトの一部若しくは全部を検出対象として検出し、該撮像画像から検出したそれぞれの検出対象の領域から、追尾処理に適した領域やAF処理に適した領域を選択する。そして本実施形態に係る撮像装置は、追尾処理に適した領域として選択した領域に対して追尾処理を行ったり、AF処理に適した領域として選択した領域に対してAF処理を行う。なお、以下では、「オブジェクト」が「人物」であるケースについて説明するが、以下の説明は「オブジェクト」が「人物」意外であっても、同様に適用可能である。
図1に示す如く、本実施形態に係る撮像装置100は、撮像画像に対して各種の解析処理を行って、「追尾処理やAF処理の対象となる領域」の選択を行う画像解析装置110を有する。また、撮像装置100には、該画像解析装置110が上記の動作を実施するために使用するニューラルネットワークのパラメータの学習処理を行う学習装置150が接続されている。
まず、撮像装置100のハードウェア構成例について、図2(a)のブロック図を用いて説明する。なお、図2(a)には、以下の説明に関連する主な構成を示しており、撮像装置100が図2(a)に示した装置以外の装置を含むことを排除するものではない。
演算処理装置101は、CPU(Central Processing Unit)及び/又はGPU(Graphics Processing Unit)等のプロセッサと、該プロセッサのワークエリアを有するメモリと、を有する。演算処理装置101は、記憶装置102に保存されているコンピュータプログラムやデータを用いて各種の処理を実行することで、撮像装置100(画像解析装置110を含む)や学習装置150の動作制御を行う。
記憶装置102は、磁気記憶装置、半導体メモリ等のストレージデバイスである。記憶装置102には、撮像装置100(画像解析装置110を含む)や学習装置150の動作制御を演算処理装置101に行わせるためのコンピュータプログラムやデータが保存されている。また、記憶装置102には、撮像画像をファイルとして保存することができる。
撮像部105は、レンズを介して入光した光を光電変換により画像信号に変換し、該変換した画像信号に基づいて撮像画像を生成して出力する。また撮像部105は、演算処理装置101からの指示に応じてAF機能、AE機能、AWB機能等を実施する。撮像部105により定期的若しくは不定期的に撮像された静止画像、もしくは撮像部105により撮像された動画像における各フレームの画像は、撮像画像として記憶装置102に保存される。
I/F106は、有線および/または無線のネットワークを介して外部装置との間のデータ通信を行うための通信インターフェースである。例えば、I/F106は、メモリーカードやUSBケーブル等を接続するためのI/Fを含んでも良い。
画像解析装置110は、撮像部105により生成された撮像画像から人物の一部若しくは全部を検出対象として検出し、該撮像画像から検出したそれぞれの検出対象の領域から、追尾処理に適した領域やAF処理に適した領域を選択する。演算処理装置101は、画像解析装置110により選択された領域に対して追尾処理やAF処理を行うべく、撮像部105を制御する。
入力装置103は、マウス、キーボード、タッチパネルデバイス、ボタン等のユーザインターフェースであり、ユーザが操作することで各種の指示を演算処理装置101に対して入力することができる。
出力装置104は、液晶パネル、タッチパネル画面などの表示画面を有する装置であり、演算処理装置101による処理結果を画像や文字などでもって該表示画面に表示させる。演算処理装置101、記憶装置102、撮像部105、I/F106、画像解析装置110、入力装置103、出力装置104は何れもシステムバス107に接続されている。
次に、画像解析装置110および学習装置150のハードウェア構成例について、図2(b)のブロック図を用いて説明する。本実施形態では説明を簡単にするために、画像解析装置110および学習装置150は何れも同じハードウェア構成(図2(b))を有するものとして説明する。しかし、画像解析装置110および学習装置150のそれぞれのハードウェア構成は異なっていても良い。
演算処理装置130は、CPU及び/又はGPU等のプロセッサと、該プロセッサのワークエリアを有するメモリと、を有する。演算処理装置130は、記憶装置131に保存されているコンピュータプログラムやデータを用いて各種の処理を実行することで、画像解析装置110/学習装置150全体の動作制御を行う。
記憶装置131は、磁気記憶装置、半導体メモリ等のストレージデバイスである。記憶装置131には、画像解析装置110/学習装置150の動作制御を演算処理装置131に行わせるためのコンピュータプログラムやデータが保存されている。
I/F132は、有線および/または無線のネットワークを介して外部装置との間のデータ通信を行うための通信インターフェースである。画像解析装置110のI/F132は、学習装置150との間のデータ通信を行うための通信インターフェースである。学習装置150のI/F132は、画像解析装置110との間のデータ通信を行うための通信インターフェースである。演算処理装置130、記憶装置131、I/F132は何れもシステムバス133に接続されている。
次に、撮像装置100の機能構成例について、図3のブロック図を用いて説明する。以下では、図3に示した各機能部を処理の主体として説明する場合がある。しかし、実際には、図3に示した機能部のうち画像解析装置110の機能部の機能を演算処理装置130に実現させるためのコンピュータプログラムを該演算処理装置130が実行することで、該機能部の機能が実現される。同様に、図3に示した機能部のうち追尾処理部270、AF処理部280の機能を演算処理装置101に実現させるためのコンピュータプログラムを該演算処理装置101が実行することで、該追尾処理部270、AF処理部280の機能が実現される。
取得部210は、撮像部105により生成された撮像画像を取得する。例えば、取得部210は、撮像部105により生成されたフルHD(1920画素×1280画素)の撮像画像をリアルタイム(60フレーム毎秒)で取得する。
抽出部220は、取得部210が取得した撮像画像から特徴量を抽出する。
推定部230は、抽出部220が撮像画像から抽出した特徴量を用いて、該撮像画像中の人物の全身の領域や該人物の一部(頭部、顔、瞳、手等)の領域を検出領域として推定する。この推定において推定部230は、撮像画像から推定した検出領域ごとに、該撮像画像における該検出領域の位置(中心位置、左上隅の位置など)、該検出領域のサイズ(縦サイズおよび横サイズ)、該検出領域に含まれる対象の人物らしさを表す尤度、を求める。
推定部240は、推定部230が撮像画像から推定したそれぞれの検出領域について、該撮像画像における人物の領域のうち該検出領域が占める割合を占有度として推定(演算)する。
選択部260は、推定部240が検出領域ごとに推定した占有度に基づいて、推定部230が撮像画像から推定した検出領域のうち、追尾処理に適した検出領域やAF処理に適した検出領域を注目領域として選択する。
追尾処理部270は、撮像部105を制御して、選択部260が選択した注目領域内における対象を追尾する追尾処理を実行する。追尾処理については周知であるため、追尾処理に係る詳細な説明は省略する。
AF処理部280は、撮像部105を制御して、選択部260が選択した注目領域に対してAF処理を実行する。AF処理については周知であるため、AF処理に係る詳細な説明は省略する。
次に、このような撮像装置100において追尾処理およびAF処理を実施するために該撮像装置100が行う処理について、図4のフローチャートに従って説明する。ステップS401では、取得部210は、撮像部105により生成された撮像画像を取得する。この撮像画像は、例えば、各画素におけるR(赤)の画素値、G(緑)の画素値、B(青)の画素値が何れも8ビットで表現されるRGBカラー画像のビットマップデータである。
ステップS402では、抽出部220は、ステップS401で取得部210が取得した撮像画像から特徴量を抽出する。撮像画像から特徴量を抽出するための方法には様々な方法を適用することができるが、本実施形態では、抽出部220は、ニューラルネットワークを用いて撮像画像から特徴量を抽出する。撮像画像から特徴量を抽出するために用いるニューラルネットワークの構成例を図5に示す。
抽出部220は、畳み込み層とプーリング層とを繰り返すことにより、認識タスクを行うニューラルネットワークである。このようなニューラルネットワークには、例えば、非特許文献1、2、3に記載されているものが利用可能である。
抽出部220は、複数の畳み込み層511、513、515と、複数のプーリング層512、514と、を有し、これらの層によって、入力画像530から特徴量を抽出する。
畳み込み層では、入力画像または特徴マップに対して、例えば3×3サイズのフィルタを複数チャネル設定し、注目画素を中心に畳み込み演算を行い、複数チャネルに対応する複数の特徴マップ551、553、555を出力する。図5では、畳み込み層511は、フィルタサイズが3×3で4チャネル、畳み込み層513はフィルタサイズが3×3で12チャネル、畳み込み層515はフィルタサイズが3×3で24チャネルとした。
プーリング層では、畳み込み層から出力された特徴マップを縮小した縮小特徴マップ552、554を生成する。2×2の範囲でプーリングを行う場合、特徴マップは1/4倍に縮小される。プーリングには最大値プーリングや平均値プーリングなどの方法を用いることができる。図5において、プーリング層512とプーリング層514は共に、2×2の範囲でプーリングを行う。図5の例では、2×2の範囲のプーリング層が2層存在するため、入力画像530の解像度が出力層の段階では1/16倍に縮小される。
なお、抽出部220に適用可能なニューラルネットワークの構成は図5に示した構成に限らず、例えば、図5で示したニューラルネットワークよりも多層にしても構わないし、チャネル数を変更しても構わない。
ステップS403では、推定部230は、ステップS402で抽出部220が撮像画像から抽出した特徴量を用いて、該撮像画像中の人物の全身の領域や該人物の一部の領域を検出領域として推定する。そして推定部230は、撮像画像から推定した検出領域ごとに、該撮像画像における該検出領域の位置、該検出領域のサイズ、該検出領域に含まれる対象の人物らしさを表す尤度、を求める。
本実施形態では、推定部230もニューラルネットワークを用いて撮像画像から検出領域を推定する。図5を例にとると、抽出部220で抽出された特徴マップ555を全結合層556に入力することで、検出領域(検出枠)の位置、サイズ、該検出領域に含まれる対象の人物らしさを表す尤度、を出力する。
ステップS404では、推定部240は、ステップS403で抽出部230が撮像画像から推定したそれぞれの検出領域について占有度を推定する。本実施形態では、推定部240もニューラルネットワークを用いてそれぞれの検出領域の占有度を推定する。図5を例にとると、抽出部220で抽出された特徴マップ555を全結合層556に入力することで、検出領域の占有度を出力する。
ここで、占有度についてより詳細に説明する。検出領域の占有度とは、撮像画像中の人物の領域を該検出領域がどの程度捉えているかを表す度合いである。図6に示す具体例を用いて、検出領域の占有度について説明する。
図6では、撮像画像600には人物の領域601が含まれており、推定部230は、該人物の全身を含む検出領域602と、該人物の一部である頭部の検出領域603と、を推定している。
検出領域602は、領域601の全部を捉えており、領域601において該検出領域602が占める割合は100%であるので、推定部240は、検出領域602の占有度は「1.0」と推定する。
検出領域603は、領域601の一部を捉えており、領域601において該検出領域603が占める割合は10%であるので、推定部240は、検出領域603の占有度は「0.1」と推定する。
ステップS406では、選択部260は、追尾処理を行うか否かを判断する。例えば、ユーザが入力装置103を用いて追尾処理を行う旨の設定を行った場合、演算処理装置101は該設定を行った旨を選択部260に通知するので、選択部260は、このような通知を受けた場合には、追尾処理を行うと判断する。一方、選択部260は、このような通知を受けていない場合には、追尾処理は行わないと判断する。このような判断の結果、追尾処理を行うと判断した場合には、処理はステップS407に進み、追尾処理を行わないと判断した場合には、処理はステップS409に進む。
ステップS407では、選択部260は、ステップS404で推定したそれぞれの検出領域の占有度に基づいて、該それぞれの検出領域から追尾処理用の注目領域として「追尾処理に適切な検出領域」を選択する。例えば、選択部260は、ステップS403で推定したそれぞれの検出領域のうち、追尾処理用の占有度範囲(以下では一例として0.6~1.0とする)に属する占有度を求めた検出領域を追尾処理用の注目領域として選択する。0.6~1.0の範囲に属する占有度を求めた検出領域が複数存在する場合には、選択部260は、0.6~1.0の範囲に属する占有度の検出領域のうち最も大きい占有度を求めた検出領域を追尾処理用の注目領域として選択する。また、0.6~1.0の範囲に属する占有度を求めた検出領域が存在しない場合には、選択部260は、ステップS403で推定したそれぞれの検出領域のうち最も大きい占有度を求めた検出領域を追尾処理用の注目領域として選択する。
図6の場合、検出領域602(占有度は1.0)および検出領域603(占有度は0.1)のうち、0.6~1.0の範囲に属する占有度を求めた検出領域は検出領域602であるから、検出領域602が追尾処理用の注目領域として選択される。
ステップS408では、追尾処理部270は、撮像部105を制御して、ステップS407で選択された追尾処理用の注目領域内の人物を追尾対象として追尾する追尾処理を行う。
ステップS409では、選択部260は、AF処理を行うか否かを判断する。例えば、ユーザが入力装置103を用いてAF処理を行う旨の設定を行った場合、演算処理装置101は該設定を行った旨を選択部260に通知するので、選択部260は、このような通知を受けた場合には、AF処理を行うと判断する。一方、選択部260は、このような通知を受けていない場合には、AF処理は行わないと判断する。このような判断の結果、AF処理を行うと判断した場合には、処理はステップS410に進み、AF処理を行わないと判断した場合には、処理はステップS412に進む。
ステップS410では、選択部260は、ステップS404で推定したそれぞれの検出領域の占有度に基づいて、該それぞれの検出領域からAF処理用の注目領域として「AF処理に適切な検出領域」を選択する。例えば、選択部260は、ステップS403で推定したそれぞれの検出領域のうち、AF処理用の占有度範囲(以下では一例として0.01~0.6とする)に属する占有度を求めた検出領域をAF処理用の注目領域として選択する。0.01~0.6の範囲に属する占有度を求めた検出領域が複数存在する場合には、選択部260は、0.01~0.6の範囲に属する占有度の検出領域のうち最も小さい占有度を求めた検出領域をAF処理用の注目領域として選択する。また、0.01~0.6の範囲に属する占有度を求めた検出領域が存在しない場合、選択部260は、ステップS403で推定した検出領域の中に占有度が0.6を超える検出領域があるか否かをチェックする。このチェックの結果、選択部260は、ステップS403で推定した検出領域の中に占有度が0.6を超える検出領域があれば、「占有度が0.6を超える検出領域」のうち最も小さい占有度を求めた検出領域をAF処理用の注目領域として選択する。一方、このチェックの結果、選択部260は、ステップS403で推定した検出領域の中に占有度が0.6を超える検出領域がなければ、「占有度が0.01を下回る検出領域」のうち最も大きい占有度を求めた検出領域をAF処理用の注目領域として選択する。
図6の場合、検出領域602(占有度は1.0)および検出領域603(占有度は0.1)のうち、0.01~0.6の範囲に属する占有度を求めた検出領域は検出領域603であるから、検出領域603がAF処理用の注目領域として選択される。
ステップS411では、AF処理部280は、撮像部105を制御して、ステップS410で選択されたAF処理用の注目領域内の人物の一部をAFの対象とするAF処理を行う。
なお、上記の追尾処理用の占有度範囲やAF処理用の占有度範囲は予め設定された範囲であっても良いし、ユーザが入力装置103であるタッチパネル上で設定したものであっても良い。
ステップS412では、演算処理装置101は、撮像装置100の動作を継続させるか否かを判断する。例えば、ユーザが入力装置103を操作して撮像装置100の動作を停止させる旨の指示を入力した場合には、撮像装置100の動作を継続させないと判断し、該指示を入力しない限りは、撮像装置100の動作を継続させると判断する。
このような判断の結果、撮像装置100の動作を継続させる場合には、処理はステップS401に進み、撮像装置100の動作を継続させない場合には、図4のフローチャートに従った処理は終了する。
次に、画像解析装置110にて用いられるニューラルネットワークの学習を行う学習装置150について説明する。本実施形態に係る学習装置150の機能構成例について、図7のブロック図を用いて説明する。なお、図7の抽出部220、推定部230、推定部240は何れも学習装置150による学習対象として示したものであって、これらの機能部を学習装置150が有することを示したものではない。
以下では、図7に示した機能部(抽出部220、推定部230、推定部240、記憶部701を除く)を処理の主体として説明する場合がある。しかし実際には、これらの機能部の機能を演算処理装置130に実行させるためのコンピュータプログラムを該演算処理装置130が実行することで、該機能部の機能が実現される。
記憶部701には、抽出部220、推定部230、推定部240にて用いられるニューラルネットワークの学習に用いる学習データが格納されている。学習データには、学習画像、該学習画像中の人物の全身の領域もしくは該人物の一部の領域である基準領域の位置およびサイズ(縦サイズおよび横サイズ)を示す領域情報、該基準領域の占有度、のセットが複数含まれている。
取得部702は、記憶部701から学習データを取得する。
取得部703は、取得部702が取得した学習データに含まれている学習画像を取得する。
抽出部220は、取得部703が取得した学習画像から特徴量を抽出する。
推定部230は、抽出部220が学習画像から抽出した特徴量を用いて、該学習画像中の人物の全身の領域や該人物の一部の領域を検出領域として推定する。この推定において推定部230は、学習画像から推定した検出領域ごとに、該学習画像における該検出領域の位置(中心位置、左上隅の位置など)、該検出領域のサイズ(縦サイズおよび横サイズ)、該検出領域に含まれる対象の人物らしさを表す尤度、を求める。
推定部240は、抽出部230が学習画像から推定したそれぞれの検出領域について、該学習画像における人物を包含する領域のうち該検出領域が占める割合を占有度として推定する。
算出部707は、推定部230が学習画像から推定した検出領域の位置およびサイズと、該学習画像とセットになっている領域情報が示す基準領域の位置およびサイズと、の間の誤差(位置の誤差およびサイズの誤差に基づく誤差)を領域誤差として求める。算出部707は、「位置の誤差」として、例えば、検出領域の位置と基準領域の位置との間の距離を求める。また算出部707は、「サイズの誤差」として、例えば、検出領域の縦サイズと基準領域の縦サイズとの差分と、検出領域の横サイズと基準領域の横サイズとの差分と、の和を求める。そして例えば、算出部707は、「位置の誤差」と「サイズの誤差」との和を、全ての検出領域について求め、全ての検出領域について求めた和の総和を領域誤差として求める。
算出部708は、推定部240が学習画像から推定した占有度と、該学習画像とセットになっている占有度と、の差分を占有度誤差として求める。
学習部709は、算出部707が求めた領域誤差および算出部708が求めた占有度誤差が小さくなるように、抽出部220、推定部230、推定部240で用いるニューラルネットワークのパラメータを更新する。ニューラルネットワークのパラメータは、例えば、該ニューラルネットワークにおける重み係数である。このような更新処理により、ニューラルネットワークの学習処理を実現させる。
上記の学習装置150によるニューラルネットワークの学習処理について、図8のフローチャートに従って説明する。ステップS801では、取得部702は、記憶部701から学習データを取得する。取得部703は、取得部702が取得した学習データに含まれている学習画像を取得する。学習データは事前に作成して記憶部701に格納されている。ここで、学習データの作成方法について、図12を用いて説明する。学習データの作成は学習装置150が行っても良いし、他の装置が行っても良い。
図12(a)において、人物1350を含む学習画像1300には、人物1350の全身の領域1310、人物1350の頭部の領域1320、人物1350の胴体の領域1330、人物1350の下半身の領域1340、が設定されている。
図12(b)において、人物1450をクローズアップして撮像した学習画像1400には、人物1450の頭部の領域1402、人物1450の胴体の領域1403、学習画像1400における人物1450の全体を囲む領域1404、が設定されている。
図12(c)において、自動車1550を含む学習画像1500には、自動車1550の全体を囲む領域1501、ヘッドライトの領域1502,1503、タイヤの領域1504,1505、フロントガラスの領域1506、が設定されている。
図12(d)において、猫1650を含む学習画像1600には、猫1650の全身の領域1601、頭部の領域1602、右目の領域1603、左目の領域1604、胴体の領域1605、が設定されている。
学習画像上におけるオブジェクトの領域やオブジェクトの一部の領域の設定は、例えばユーザが入力装置103のようなユーザインターフェースを用いて手動で行っても良いし、検出器により検出されたオブジェクトの領域を設定することで行っても良い。また、検出器により検出されたオブジェクトの領域をユーザが手動で修正しても良い。
このようにして学習画像に対して設定されたオブジェクトの領域やオブジェクトの一部の領域の位置およびサイズを示す領域情報が該学習画像とセットで学習データに登録される。なお、オブジェクトによっては領域の回転方向および回転角度を示す回転情報を学習データに含めても良い。
また、学習画像中のオブジェクトの全体領域の面積(画素数)に対する「オブジェクトの全体の領域もしくはオブジェクトの一部の領域」の面積の割合を占有度として求め、該占有度を該学習画像とセットで学習データに登録する。
図12(a)の例では、人物1350の全身の領域1310の面積に対する該領域1310の面積の割合を該領域1310の占有度として求める(この場合の占有度は1.0となる)。人物1350の全身の領域1310の面積に対する頭部の領域1320の面積の割合を領域1320の占有度として求める。また、領域1310の面積に対する胴体の領域1330の面積の割合を領域1330の占有度として求める。また、領域1310の面積に対する下半身の領域1340の面積の割合を領域1340の占有度として求める。図12(a)の例では、下半身の領域1340の面積は領域1310の面積の半分ぐらいであるから、領域1340の占有度は0.5と算出される。
図12(b)の例のように、人物1450をクローズアップして撮像した学習画像1400の場合には、人物1450の一部の領域1404は存在するものの、人物1450の全身の領域が存在しない。このような場合には、ユーザが人物1450の全身の領域に対する領域1404の占有度を目測で推測して入力する。そして、頭部の領域1402の占有度を求める際には、領域1404の面積に対する領域1402の面積の割合と、領域1404の占有度と、の積を領域1402の占有度として求める。また、胴体の領域1403の占有度を求める際には、領域1404の面積に対する領域1403の面積の割合と、領域1404の占有度と、の積を領域1403の占有度として求める。また、ユーザが東部の領域1402および胴体の領域1403の占有度を目測で推測して入力しても良い。
図12(c)の例では、自動車1550の全体を囲む領域1501の面積に対する該領域1501の面積の割合を該領域1501の占有度として求める。領域1501の面積に対する自動車1550のヘッドライトの領域1502の面積の割合を該領域1502の占有度として求める。領域1501の面積に対する自動車1550のヘッドライトの領域1503の面積の割合を該領域1503の占有度として求める。領域1501の面積に対する自動車1550のタイヤの領域1504の面積の割合を該領域1504の占有度として求める。領域1501の面積に対する自動車1550のタイヤの領域1505の面積の割合を該領域1505の占有度として求める。領域1501の面積に対する自動車1550のフロントガラスの領域1506の面積の割合を領域1506の占有度として求める。
図12(d)の例では、猫1650の全身の領域1601の面積に対する該領域1601の面積の割合を該領域1601の占有度として求める。領域1601の面積に対する猫1650の頭部の領域1602の面積の割合を該領域1602の占有度として求める。領域1601の面積に対する猫1650の右目の領域1603の面積の割合を該領域1603の占有度として求める。領域1601の面積に対する猫1650の左目の領域1604の面積の割合を該領域1604の占有度として求める。領域1601の面積に対する猫1650の胴体の領域1605の面積の割合を該領域1605の占有度として求める。
検出するオブジェクトの種別(カテゴリ)を限定して検出領域を推定したい場合には、限定した種別のオブジェクトの学習データを準備すればよい。例えば、人物を検出したい場合には、人物の学習データを準備すればよく、自動車を検出したい場合には自動車の学習データを準備すればよい。検出するオブジェクトの種別を限定せずに検出領域を推定したい場合には、様々な種別のオブジェクトの学習データを準備すればよい。
例えば、図12に示した人物、自動車、猫に加えて、電車、飛行機、昆虫、鳥、犬など様々な種別のオブジェクトの学習データを準備すればよい。このように様々な種別のオブジェクトの学習データを準備し、適切に学習処理が実行できれば、学習データに含まれていない種別のオブジェクトも検出可能となる。例えば、魚の学習データがなくても、魚らしさを検出することができるので、魚の検出が可能となる。
図8に戻って、次に、ステップS802では、抽出部220は、ステップS801で取得部703が取得した学習画像から特徴量を抽出する。ステップS803では、推定部230は、ステップS802で抽出部220が学習画像から抽出した特徴量と、学習中のニューラルネットワークと、を用いて、該学習画像中の人物の全身の領域や該人物の一部の領域を検出領域として推定する。
ステップS804では、推定部240は、学習中のニューラルネットワークを用いて、ステップS803で抽出部230が学習画像から推定したそれぞれの検出領域について占有度を推定する。
ステップS805では、算出部707は、推定部230が学習画像から推定した検出領域の位置およびサイズと、該学習画像とセットになっている領域情報が示す基準領域の位置およびサイズと、に基づいて領域誤差を求める。領域誤差の算出方法は、例えば、非特許文献2に記載の方法に準ずる。例えば、推定部230で推定した検出領域の中心座標およびサイズの、学習データ中の対応する基準領域の中心座標およびサイズに対するずれ量を足し合わせて求める。
ステップS806では、算出部708は、学習画像におけるそれぞれの検出領域について、推定部240が推定した該検出領域の占有度と、該学習画像とセットになっている対応領域の占有度と、の差分(例えば二乗誤差)を、求める。そして算出部708は、学習画像におけるそれぞれの検出領域について求めた差分の総和を占有度誤差として求める。
ステップS807では、学習部709は、算出部707が求めた領域誤差と算出部708が求めた占有度誤差との和(損失値)が小さくなるように、抽出部220、推定部230、推定部240で用いるニューラルネットワークのパラメータを更新する。該パラメータの更新には、例えば、誤差逆伝搬法を用いることができる。
ステップS809では、学習部709は、学習の終了条件が満たされたか否かを判断する。学習の終了条件には様々な条件があり、特定の条件に限らず、例えば、損失値が閾値以下、損失値の変化率が閾値以下、パラメータの更新回数が閾値以上、等がある。また例えば、パラメータ更新のための学習データとは別に精度検証用の学習データを用意しておき、上記のステップS801~ステップS807の処理を行って、損失値の総和が閾値以下になった場合に学習の終了条件が満たされたと判断するようにしても良い。
このような判断の結果、学習の終了条件が満たされたと判断した場合には、図8のフローチャートに従った処理は終了し、学習の終了条件は満たされていないと判断した場合には、処理はステップS801に進む。
なお、本実施形態では、検出領域に対して追尾処理やAF処理を行うケースについて説明した。しかし、検出領域に対して行う処理は追尾処理やAF処理に限らず、AE処理やAWB処理などの他の処理であっても良い。その場合、注目領域に対して行う処理に応じた占有度範囲に基づいて注目領域が選択され、該注目領域に対して該処理を行う。
また、図1の構成では、学習装置150は撮像装置100とは別個の装置であるものとして説明したが、撮像装置100と学習装置150とを一体化させて1台の撮像装置100を構成しても良い。
以下に、本実施形態の変形例としていくつかの変形例を説明する。なお、本実施形態の変形例に係る以下の説明において特に触れない限りは、本実施形態と同様であるものとする。
<変形例1>
第1の実施形態では、ニューラルネットワークの学習段階において、オブジェクト全体を包含する包含領域の面積に対する特定領域の面積の割合を該特定領域の占有度と推定した。本変形例では、ニューラルネットワークの学習段階において、画素単位のラベルに基づいて特定領域の占有度を推定する。
図13(a)は、学習画像中の人物の全身の領域内の画素に付与されたラベル(全身領域ラベル)2001を示している。図13(b)は、学習画像中の人物の頭部の領域内の画素に付与されたラベル(頭部の部分領域ラベル)2002を示し、全身領域ラベル2001において頭部を含む枠2010に対応する領域内のラベルである。
図13(c)は、学習画像中の人物の下半身の領域内の画素に付与されたラベル(下半身の部分領域ラベル)2003を示し、全身領域ラベル2001において下半身を含む枠2011に対応する領域内のラベルである。
そして本変形例では、推定部240は、全身領域ラベルが付与された画素の数に対する、部分領域ラベルが付与された領域の画素の数の割合を、該領域の占有度として推定する。例えば、全身領域ラベル2001が付与された画素の数が5万、下半身の部分領域ラベル2003が付与された画素の数が2.5万である場合、下半身を囲む枠2011内の領域の占有度は0.5となる。また、全身領域ラベル2001が付与された画素の数が5万、頭部の部分領域ラベル2002が付与された画素の数が0.5万である場合、頭部を囲む枠2010内の領域の占有度は0.1となる。なお、人物の全身の領域の占有度は1.0である。
本変形例では、このようにして定義される占有度を本実施形態の占有度に代わりに用いてニューラルネットワークの学習処理(図8のフローチャートに従った処理)を行う。よって、図4のフローチャートにおいてステップS404では、このような定義の占有度を検出領域ごとに推定することができる。
オブジェクトを包含する包含領域に対する占有度を求める本実施形態では、オブジェクト以外の情報が包含領域に含まれることになる。一方、本変形例では、オブジェクトの形状に沿った形でラベルが入力されており、このようなラベルを用いて占有度を求める。そのため、オブジェクト以外の情報の影響は受けずに、信頼度の高い占有度を求めることができる。そのため、占有度の推定精度も高いと言える。
<変形例2>
本変形例では、ニューラルネットワークの学習段階において、オブジェクトのパーツ数に応じて特定領域の占有度を推定する。
図13(d)は、学習画像中の人物の各部位(各パーツ)に対して予め設定された関節点2004を示している。ここでは、関節点として、頭、首、右肩、右肘、右手先、左肩、左肘、左手先、股、右膝、左膝、右足首、左足首の13点の関節点が予め設定されている。なお、頭は正確には関節ではないが、便宜上、関節点とした。
人物以外のオブジェクトを含む学習画像の場合、該オブジェクトを構成する単位(例えば、オブジェクトが車の場合はタイヤ、フロントガラス、ヘッドライト、ドア等)をパーツとし、それぞれのパーツに対して上記の関節点に相当する点を予め設定しておく。
図13(d)の場合、人物の全身の領域2005には該人物に対して予め設定された関節点の全てが含まれているため、該領域2005の占有度は、(領域2005に含まれている関節点の数)/(人物の全身の関節点の数)=1.0となる。
図13(e)の場合、人物の頭部の領域2007の占有度は、(領域2007に含まれている関節点の数)/(人物の全身の関節点の数)=1/13≒0.08となる。図13(f)の場合、人物の下半身の領域2009の占有度は、(領域2009に含まれている関節点の数)/(人物の全身の関節点の数)=5/13≒0.38となる。
本変形例では、このようにして定義される占有度を本実施形態の占有度に代わりに用いてニューラルネットワークの学習処理(図8のフローチャートに従った処理)を行う。よって、図4のフローチャートにおいてステップS404では、このような定義の占有度を検出領域ごとに推定することができる。変形例2も変形例1と同様にオブジェクトの形状に沿った形でパーツの情報が入力されているため、占有度の信頼性は高いと言える。
<変形例3>
本変形例では、ニューラルネットワークの学習段階において、推定部240が推定した占有度と、推定部230が推定した検出領域に含まれるラベルに基づいて変形例1のように推定した占有度と、の誤差を占有度誤差として求める。
本変形例に係る学習装置150の機能構成例を図16のブロック図に示す。なお、図7と同様、抽出部220、推定部230、推定部240は何れも学習装置150による学習対象として示したものであって、これらの機能部を学習装置150が有することを示したものではない。また、図16でも図7と同様、機能部(抽出部220、推定部230、推定部240、記憶部701を除く)を処理の主体として説明する場合がある。しかし実際には、これらの機能部の機能を演算処理装置130に実行させるためのコンピュータプログラムを該演算処理装置130が実行することで、該機能部の機能が実現される。図16において図7に示した機能部と同じ機能部には同じ参照番号を付しており、該機能部に係る説明は省略する。
算出部3108は、推定部240が推定した占有度と、推定部230が推定した検出領域に含まれるラベルに基づいて変形例1のように推定した占有度と、の誤差を占有度誤差として求める。
算出部3108の動作について図17を例にとり説明する。図17(a)は、学習画像中の人物の全身の領域内の画素に付与されたラベル(全身領域ラベル)3001を示している。図17(b)は、学習画像から推定部230によって推定された人物の頭部の領域3003内の画素に付与されたラベル(頭部の部分領域ラベル)3002を示し、全身領域ラベル3001において領域3003に対応する領域内のラベルである。図17(c)は、学習画像から推定部230によって推定された人物の下半身の領域3005内の画素に付与されたラベル(下半身の部分領域ラベル)3004を示し、全身領域ラベル3001において領域3005に対応する領域内のラベルである。
そして本変形例では、算出部3108は、変形例1と同様に、全身領域ラベルが付与された画素の数に対する、部分領域ラベルが付与された領域の画素の数の割合を、該領域の占有度として推定する。本変形例では、「部分領域ラベルが付与された領域の画素の数」が、「推定部230によって推定された領域に含まれるラベルが付与された画素の数」である点が変形例1と異なる。
そして算出部3108は、推定部230が推定した検出領域ごとに、該検出領域について推定部240が求めた占有度と、該検出領域について算出部3108が上記の如く求めた占有度と、の誤差を占有度誤差として求める。
[第2の実施形態]
本実施形態を含む以下の各実施形態では第1の実施形態との差分について説明し、以下で特に触れない限りは第1の実施形態と同様であるものとする。第1の実施形態では、撮像装置100側で選択した追尾処理用の注目領域に対して追尾処理を行ったり、撮像装置100側で選択したAF処理用の注目領域に対してAF処理を行うケースについて説明した。これに対し、本実施形態では、ユーザ操作に応じて選択された追尾処理用の注目領域に対して追尾処理を行ったり、ユーザ操作に応じて選択されたAF処理用の注目領域に対してAF処理を行うケースについて説明する。
本実施形態に係る撮像装置100の機能構成例について、図9のブロック図を用いて説明する。図9において、図3に示した機能部と同じ機能部には同じ参照番号を付しており、該機能部に係る説明は省略する。
選択部960は、取得部210が取得した撮像画像を出力装置104などの表示画面に表示させる。入力部990は、ユーザが追尾処理やAF処理の対象として表示画面に対して指示した1点の座標位置を取得する。例えば、表示画面がタッチパネル画面であった場合には、入力部990は、ユーザが自身の指や指示具などを用いてタッチした該タッチパネル画面上の座標位置を取得する。また入力部990は、ユーザが入力装置103を操作して指示した表示画面上の1点の座標位置を取得するようにしても良い。
選択部960は、入力部990が取得した「ユーザが指示した表示画面上の座標位置」を取得する。そして選択部960は、表示画面に表示しているそれぞれの検出領域から、推定部240が検出領域ごとに推定した占有度に基づいて、追尾処理やAF処理に適した検出領域の候補を選択する。そして選択部960は、候補のうち、入力部990から取得した座標位置に基づいて、追尾処理やAF処理に適した検出領域を選択する。
このような撮像装置100において追尾処理およびAF処理を実施するために該撮像装置100が行う処理について、図10のフローチャートに従って説明する。ステップS1001では、取得部210は、撮像部105により生成された撮像画像を取得する。
ステップS1013では、選択部960は、ステップS1001で取得部210が取得した撮像画像を出力装置104などの表示画面に表示させる。表示画面における撮像画像の表示例を図11(a)に示す。図11(a)の例では、自動車1110および自動車1111を含む撮像画像1101が表示画面に表示されている。
ステップS1014では、入力部990は、表示画面に対してユーザが指示した1点の座標位置を取得する。例えば、図11(b)に示す如く、表示画面に表示された撮像画像1101に対してユーザが指示した1点(自動車1111のヘッドライト部分における1点)1120の座標位置を取得する。
ステップS1002では、抽出部220は、ステップS1001において取得部210が取得した撮像画像から特徴量を抽出する。ステップS1003では、推定部230は、ステップS1002で抽出部220が撮像画像から抽出した特徴量を用いて、該撮像画像中のオブジェクトの全体の領域や該オブジェクトの一部の領域を検出領域として推定する。推定部230により撮像画像1101から推定された検出領域の一例を図11(c)に示す。図11(c)では、自動車1110の全体に対応する検出領域1130、ヘッドライトに対応する検出領域1140、タイヤに対応する検出領域1150,1160が推定されている。また図11(c)では、自動車1111の全体に対応する検出領域1131、ヘッドライトに対応する検出領域1141、タイヤに対応する検出領域1151,1161が推定されている。
ステップS1004では、推定部240は、ステップS1003で抽出部230が撮像画像から推定したそれぞれの検出領域について占有度を推定する。図11の例では、自動車全体の検出領域1130、1131の占有度は1.0、ヘッドライトに対応する検出領域1140、1141の占有度は0.02、タイヤに対応する検出領域1150、1151、1160、1161の占有度は0.05と算出される。
本実施形態では、第1の実施形態と同様、追尾処理用の占有度範囲として「0.6~1.0」、AF処理用の占有度範囲として「0.01~0.6」が予め設定されているものとする。
ステップS1006では、選択部960は、上記のステップS406と同様にして、追尾処理を行うか否かを判断する。このような判断の結果、追尾処理を行うと判断した場合には、処理はステップS1007に進み、追尾処理を行わないと判断した場合には、処理はステップS1009に進む。
ステップS1007では、選択部960は、ステップS1004で推定したそれぞれの検出領域の占有度と、ステップS1014で入力部990が取得した座標位置と、に基づいて、該それぞれの検出領域から追尾処理用の注目領域を選択する。
例えば、選択部960は、ステップS1003で推定したそれぞれの検出領域のうち、追尾処理用の占有度範囲に属する占有度を求めた検出領域を候補検出領域として選択する。次に選択部960は、候補検出領域のうち、「入力部990が取得した座標位置を内包する」、「中心位置が入力部990が取得した座標位置に最も近い」、の2つの条件を満たす候補検出領域を、追尾処理用の注目領域として選択する。
図11の例では、占有度が0.6~1.0の検出領域1130,1140が候補検出領域となる。そして、検出領域1130,1140のうち上記の2つの条件を満たす候補検出領域は検出領域1131であるため、図11(d)に示す如く、検出領域1131が追尾処理用の注目領域として選択される。
ステップS1008では、追尾処理部270は、撮像部105を制御して、ステップS1007で選択された追尾処理用の注目領域内の人物を追尾対象として追尾する追尾処理を行う。
ステップS1009では、選択部960は、上記のステップS409と同様にして、AF処理を行うか否かを判断する。このような判断の結果、AF処理を行うと判断した場合には、処理はステップS1010に進み、AF処理を行わないと判断した場合には、処理はステップS1012に進む。
ステップS1010では、選択部960は、ステップS1004で推定したそれぞれの検出領域の占有度と、ステップS1014で入力部990が取得した座標位置と、に基づいて、該それぞれの検出領域からAF処理用の注目領域を選択する。
例えば、選択部960は、ステップS1003で推定したそれぞれの検出領域のうち、AF処理用の占有度範囲に属する占有度を求めた検出領域を候補検出領域として選択する。次に選択部960は、候補検出領域のうち、「入力部990が取得した座標位置を内包する」、「中心位置が入力部990が取得した座標位置に最も近い」、の2つの条件を満たす候補検出領域を、AF処理用の注目領域として選択する。
図11の例では、占有度が0.01~0.6の検出領域1140、1141、1150、1151、1160、1161が候補検出領域となる。そして、検出領域1140、1141、1150、1151、1160、1161のうち上記の2つの条件を満たす候補検出領域は検出領域1141であるため、図11(d)に示す如く、検出領域1141がAF処理用の注目領域として選択される。
ステップS1011では、AF処理部280は、撮像部105を制御して、ステップS1010で選択されたAF処理用の注目領域内の人物の一部をAFの対象とするAF処理を行う。
ステップS1012では、演算処理装置101は、上記のステップS412と同様にして、撮像装置100の動作を継続させるか否かを判断する。このような判断の結果、撮像装置100の動作を継続させる場合には、処理はステップS1001に進み、撮像装置100の動作を継続させない場合には、図10のフローチャートに従った処理は終了する。
[第3の実施形態]
第1の実施形態では、撮像装置100側で選択した追尾処理用の注目領域に対して追尾処理を行ったり、撮像装置100側で選択したAF処理用の注目領域に対してAF処理を行うケースについて説明した。本実施形態では、撮像装置100における撮像パラメータに応じて選択された追尾処理用の注目領域に対して追尾処理を行ったり、撮像装置100における撮像パラメータに応じて選択されたAF処理用の注目領域に対してAF処理を行うケースについて説明する。
本実施形態に係る撮像装置100の機能構成例について、図14のブロック図を用いて説明する。図14において、図3に示した機能部と同じ機能部には同じ参照番号を付しており、該機能部に係る説明は省略する。
取得部2150は、撮像装置100の撮像パラメータを取得する。撮像装置100の撮像パラメータは、例えば、明るさ(Bv値)、露光時間、レンズの絞り値(F値)、レンズの焦点距離、ゲイン(ISO感度)、ホワイトバランス係数としてレンズの絞りなどを含む。また、撮像装置100の撮像パラメータは、撮像対象に対する距離情報、GPSによる自身の位置情報、撮影日時などの時間情報、を含んでも良い。以下では、具体的な説明を行うために、一例として、撮像装置100の撮像パラメータが「レンズの絞り値」であるケースについて説明するが、撮像装置100の撮像パラメータが「レンズの絞り値」以外であっても、以下の説明は同様に適用可能である。
選択部2160は、推定部240が検出領域ごとに推定した占有度と、取得部2150が取得した撮像パラメータと、に基づいて、撮像画像における検出領域のうち、追尾処理に適した検出領域やAF処理に適した検出領域を注目領域として選択する。
このような撮像装置100において追尾処理およびAF処理を実施するために該撮像装置100が行う処理について、図15のフローチャートに従って説明する。ステップS2201では、取得部210は、撮像部105により生成された撮像画像を取得する。
ステップS2213では、取得部2150は、撮像装置100の撮像パラメータを取得する。本実施形態では、撮像装置100の撮像パラメータとしてレンズの絞り値を取得する。
ステップS2202では、抽出部220は、ステップS2201において取得部210が取得した撮像画像から特徴量を抽出する。ステップS2203では、推定部230は、ステップS2202で抽出部220が撮像画像から抽出した特徴量を用いて、該撮像画像中のオブジェクトの全体領域や該オブジェクトの一部の領域を検出領域として推定する。ステップS2204では、推定部240は、ステップS2203で抽出部230が撮像画像から推定したそれぞれの検出領域について占有度を推定する。
ステップS2206では、選択部2160は、上記のステップS406と同様にして、追尾処理を行うか否かを判断する。このような判断の結果、追尾処理を行うと判断した場合には、処理はステップS2207に進み、追尾処理を行わないと判断した場合には、処理はステップS2209に進む。
ステップS2207では、選択部2160は、推定部240が検出領域ごとに推定した占有度と、取得部2150が取得した撮像パラメータと、に基づいて、撮像画像における検出領域のうち、追尾処理に適した検出領域を追尾処理用の注目領域として選択する。
ここで、レンズの絞り値を小さくすると、被写界深度は浅くなるため、ピントが合う範囲は狭くなる。一方、レンズの絞り値を大きくすると、被写界深度は深くなるため、ピントが合う範囲は広くなる。レンズの絞り値が小さいシーンにおいて、占有度の大きい検出領域を採用してしまうと、その検出領域内にボケた領域が多く含まれる可能性が高まるため、追尾処理のための特徴量を適切に取得できなくなることがある。つまり、レンズの絞り値が小さい場合には、占有度が相対的に小さい検出領域を追尾処理用の注目領域として優先的に選択するようにする。よって、例えば、レンズの絞り値が第1閾値以下の場合には、選択部2160は、占有度が0.6~1.0に属する検出領域のうち、占有度が0.6に最も近い検出領域を優先的に追尾処理用の注目領域として選択する。
逆に、レンズの絞り値が大きいシーンにおいては、占有度の大きい検出領域を採用しても、その検出領域にはピントが合っている領域が多く含まれるため、追尾処理のための特徴量を適切に取得できる。したがって、レンズの絞り値が大きい場合には、占有度が相対的に大きい検出領域を追尾処理用の注目領域として優先的に選択するようにする。よって、例えば、レンズの絞り値が第2閾値(≧第1閾値)以上の場合には、選択部2160は、占有度が0.6~1.0に属する検出領域のうち、占有度が1.0に最も近い検出領域を優先的に追尾処理用の注目領域として選択する。
ステップS2208では、追尾処理部270は、撮像部105を制御して、ステップS2207で選択された追尾処理用の注目領域内の人物を追尾対象として追尾する追尾処理を行う。
ステップS2209では、選択部2160は、上記のステップS409と同様にして、AF処理を行うか否かを判断する。このような判断の結果、AF処理を行うと判断した場合には、処理はステップS2210に進み、AF処理を行わないと判断した場合には、処理はステップS2212に進む。
ステップS2210では、選択部2160は、推定部240が検出領域ごとに推定した占有度と、取得部2150が取得した撮像パラメータと、に基づいて、撮像画像における検出領域のうち、AF処理に適した検出領域をAF処理用の注目領域として選択する。
例えば、レンズの絞り値が第1閾値以下の場合には、選択部2160は、占有度が0.01~0.6に属する検出領域のうち、占有度が0.01に最も近い検出領域を優先的にAF処理用の注目領域として選択する。また例えば、レンズの絞り値が第2閾値以上の場合には、選択部2160は、占有度が0.01~0.6に属する検出領域のうち、占有度が0.6に最も近い検出領域を優先的にAF処理用の注目領域として選択する。
ステップS2211では、AF処理部280は、撮像部105を制御して、ステップS2210で選択されたAF処理用の注目領域内の人物の一部をAFの対象とするAF処理を行う。
ステップS2212では、演算処理装置101は、上記のステップS412と同様にして、撮像装置100の動作を継続させるか否かを判断する。このような判断の結果、撮像装置100の動作を継続させる場合には、処理はステップS2201に進み、撮像装置100の動作を継続させない場合には、図15のフローチャートに従った処理は終了する。
なお、本実施形態では、撮像装置100の撮像パラメータとしてレンズの絞り値を用いたケースについて説明したが、撮像装置100の撮像パラメータとして露光時間を用いても良い。露光時間が長くなると被写体ブレや手ブレの量が大きくなるため、画像をミクロ的に見てしまうと、ブレの影響が強く出る。したがって、露光時間が長い場合には、占有度が大きい検出領域を優先的に追尾処理用の注目領域やAF処理用の注目領域として選択した方がよい。このように、本実施形態によれば、撮像される画像の質に適した検出領域の選択が可能となるため、追尾処理やAF処理がより好適に動作するようになる。
また、上記の実施形態や変形例にて説明した撮像装置の動作は、「外部の撮像装置により撮像された撮像画像から追尾処理用の注目領域やAF処理用の注目領域を選択する画像処理装置」にも同様に適用可能である。このような画像処理装置は、例えば、該選択した注目領域を該撮像装置に通知することで、該撮像装置に該注目領域に対する追尾処理やAF処理を実行させることができる。また、このような画像処理装置は、選択した注目領域に係る情報を外部の装置に保持するようにしても良い。
また、図3,7,9,14,16に示した各機能部(記憶部701を除く)はソフトウェア(コンピュータプログラム)で実装しても良いが、一部若しくは全部をハードウェアで実装しても構わない。
また、上記の各実施形態や各変形例で使用した数値、処理タイミング、処理順、処理の主体、データ(情報)の送信先/送信元/格納場所などは、具体的な説明を行うために一例として挙げたもので、このような一例に限定することを意図したものではない。
また、以上説明した各実施形態や各変形例の一部若しくは全部を適宜組み合わせて使用しても構わない。また、以上説明した各実施形態や各変形例の一部若しくは全部を選択的に使用しても構わない。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
210:取得部 220:抽出部 230:推定部 240:推定部 260:選択部 270:追尾処理部 280:AF処理部

Claims (11)

  1. 撮像画像からオブジェクトの一部若しくは全部を検出対象として検出する検出手段と、
    前記検出手段が前記撮像画像から検出したそれぞれの検出対象について、前記撮像画像中のオブジェクトの領域もしくは前記撮像画像中のオブジェクトの情報において該検出対象の領域が含む割合を占有度として求める演算手段と、
    実行する処理に応じた占有度の検出対象の領域を選択する選択手段と
    を備えることを特徴とする画像処理装置。
  2. 前記選択手段は、前記処理に対応する範囲に属する占有度の検出対象の領域を、前記処理の対象となる領域として選択することを特徴とする請求項1に記載の画像処理装置。
  3. 前記選択手段は、前記処理に対応する範囲に属する占有度の検出対象の領域から、前記撮像画像に対してユーザが指示した座標位置に基づいて、前記処理の対象となる領域を選択することを特徴とする請求項1に記載の画像処理装置。
  4. 前記選択手段は、前記処理に対応する範囲に属する占有度の検出対象の領域から、前記撮像画像を撮像した装置の撮像パラメータに基づいて、前記処理の対象となる領域を選択することを特徴とする請求項1に記載の画像処理装置。
  5. 前記演算手段は、前記検出手段が前記撮像画像から検出したそれぞれの検出対象について、前記撮像画像におけるオブジェクトの画素数に対する該検出対象の領域の画素数の割合を占有度として求めることを特徴とする請求項1ないし4の何れか1項に記載の画像処理装置。
  6. 前記演算手段は、前記検出手段が前記撮像画像から検出したそれぞれの検出対象について、前記撮像画像においてオブジェクトの領域に対応するラベルが付与された画素の数に対する、該検出対象に対応するラベルが付与された画素の数の割合を占有度として求めることを特徴とする請求項1ないし4の何れか1項に記載の画像処理装置。
  7. 前記演算手段は、前記検出手段が前記撮像画像から検出したそれぞれの検出対象について、前記撮像画像中のオブジェクトのパーツの数に対する、該検出対象の領域に含まれる該オブジェクトのパーツの数の割合を占有度として求めることを特徴とする請求項1ないし4の何れか1項に記載の画像処理装置。
  8. 更に、
    撮像画像を撮像する撮像手段と、
    請求項1ないし7の何れか1項に記載の画像処理装置と、
    前記選択手段が選択した領域に対して前記処理を実行する処理手段と
    を備えることを特徴とする撮像装置。
  9. 前記処理は、追尾処理、AF処理、AE処理、AWB処理、を含むことを特徴とする請求項8に記載の撮像装置。
  10. 画像処理装置が行う画像処理方法であって、
    前記画像処理装置の検出手段が、撮像画像からオブジェクトの一部若しくは全部を検出対象として検出する検出工程と、
    前記画像処理装置の演算手段が、前記検出工程で前記撮像画像から検出したそれぞれの検出対象について、前記撮像画像中のオブジェクトの領域もしくは前記撮像画像中のオブジェクトの情報において該検出対象の領域が含む割合を占有度として求める演算工程と、
    前記画像処理装置の選択手段が、実行する処理に応じた占有度の検出対象の領域を選択する選択工程と
    を備えることを特徴とする画像処理方法。
  11. コンピュータを、請求項1ないし7の何れか1項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。
JP2021189620A 2021-11-22 2021-11-22 画像処理装置、画像処理方法、撮像装置 Pending JP2023076286A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021189620A JP2023076286A (ja) 2021-11-22 2021-11-22 画像処理装置、画像処理方法、撮像装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021189620A JP2023076286A (ja) 2021-11-22 2021-11-22 画像処理装置、画像処理方法、撮像装置

Publications (1)

Publication Number Publication Date
JP2023076286A true JP2023076286A (ja) 2023-06-01

Family

ID=86547997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021189620A Pending JP2023076286A (ja) 2021-11-22 2021-11-22 画像処理装置、画像処理方法、撮像装置

Country Status (1)

Country Link
JP (1) JP2023076286A (ja)

Similar Documents

Publication Publication Date Title
US11281288B2 (en) Eye and head tracking
CN109076159B (zh) 电子设备及其操作方法
CN113286194A (zh) 视频处理方法、装置、电子设备及可读存储介质
JP2005086682A (ja) 対象決定装置
JP4373840B2 (ja) 動物体追跡方法、動物体追跡プログラムおよびその記録媒体、ならびに、動物体追跡装置
WO2015008717A1 (en) Image processing device and imaging apparatus
WO2021045599A1 (ko) 비디오 영상에 보케 효과를 적용하는 방법 및 기록매체
WO2005055143A1 (ja) 人物顔の頭頂部検出方法及び頭頂部検出システム並びに頭頂部検出プログラム
CN116051736A (zh) 一种三维重建方法、装置、边缘设备和存储介质
CN109328355A (zh) 用于智能群体肖像的方法和***
JP2002366958A (ja) 画像認識方法および画像認識装置
JP7099809B2 (ja) 画像監視システム
JP6798609B2 (ja) 映像解析装置、映像解析方法およびプログラム
KR20060121503A (ko) 무인 감시 로봇에서 중요 얼굴 추적 장치 및 방법
JP5539565B2 (ja) 撮像装置及び被写体追跡方法
JP2023076286A (ja) 画像処理装置、画像処理方法、撮像装置
KR101909326B1 (ko) 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템
US20060010582A1 (en) Chin detecting method, chin detecting system and chin detecting program for a chin of a human face
JP6350331B2 (ja) 追尾装置、追尾方法及び追尾プログラム
CN114445864A (zh) 一种手势识别方法及装置、存储介质
JP2023512359A (ja) 関連対象検出方法、及び装置
JP2017005582A (ja) 画像処理装置、画像処理方法、及びプログラム
JP4942197B2 (ja) テンプレート作成装置及び表情認識装置並びにその方法、プログラム及び記録媒体
JP5247419B2 (ja) 撮像装置および被写体追跡方法
JP5951966B2 (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム