JP2022048077A

JP2022048077A - 画像処理装置およびその制御方法

Info

Publication number: JP2022048077A
Application number: JP2021096752A
Authority: JP
Inventors: 雅人青葉; Masahito Aoba; 広一竹内; Koichi Takeuchi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-09-14
Filing date: 2021-06-09
Publication date: 2022-03-25

Abstract

【課題】好適にＡＦを実行可能な合焦対象領域を選択する。【解決手段】撮像装置の合焦対象領域を決定する画像処理装置は、第１の時点で前記撮像装置により撮像された第１の画像において合焦対象となる第１の領域を取得する取得手段と、前記第１の時点に後続する第２の時点で前記撮像装置により撮像された第２の画像から合焦対象の候補となる第２の領域を検出する検出手段と、前記第１の領域と前記第２の画像とに基づいて、前記第２の領域のうち１つ以上の部分領域の中から前記第２の画像における合焦対象領域を決定する決定手段と、を備える。【選択図】図２

Description

本発明は、画像領域を選択する技術に関するものである。

カメラでの撮影において、焦点を自動的に合わせるオートフォーカス（ＡＦ）機能が存在する。撮影時に焦点を合わせる対象となる領域（以下、合焦対象領域）の選択方法としては、タッチパネルなどを用いてユーザーが手動で選択する方法や、顔検出や物体検出などの検出結果に基づいて自動的に選択する方法がある。どのような方法で選択された合焦対象領域であっても、選択された合焦対象領域内の物体もしくはカメラ自体の移動によって、画像上の位置や形状が変化することがある。このとき、選択された合焦対象領域を追尾もしくは連続的に検出することで、ユーザが所望する領域にＡＦを継続することが可能である。

特許文献１では、瞳領域を検出して合焦対象領域に用いＡＦを行う方法が開示されている。この方法によれば、カメラからの距離が一定な合焦対象領域を用いるため、精度よくピントを合わせることが可能である。

特開２０１９－１２１８６０号公報

しかしながら、特許文献１に記載の方法では、瞳など特定部位を検出する必要がある。そのため、他の物体に遮蔽される等により当該特定部位が観察できない場合には適用できない。また、特許文献１に記載の方法においては、合焦対象領域内における深度（カメラからの距離）の差が大きい場合には精度よくピントを合わせることは困難である。そのため、胴部や腕などある程度大きさのある部位を合焦対象領域にしたい場合には適用が困難である。

本発明は、このような問題に鑑みてなされたものであり、好適にＡＦを実行可能な合焦対象領域を選択可能とする技術を提供することを目的としている。

上述の問題点を解決するため、本発明に係る画像処理装置は以下の構成を備える。すなわち、撮像装置の合焦対象領域を決定する画像処理装置は、第１の時点で前記撮像装置により撮像された第１の画像において合焦対象となる第１の領域を取得する取得手段と、前記第１の時点に後続する第２の時点で前記撮像装置により撮像された第２の画像から合焦対象の候補となる第２の領域を検出する検出手段と、前記第１の領域と前記第２の画像とに基づいて、前記第２の領域のうち１つ以上の部分領域の中から前記第２の画像における合焦対象領域を決定する決定手段と、を備える。

本発明によれば、好適にＡＦを実行可能な合焦対象領域を選択可能とする技術を提供することができる。

カメラと被写体の位置関係を示す図である。第１実施形態におけるＡＦシステムの構成の一例を示す図である。第１実施形態におけるＡＦシステムが実行する処理を説明するフローチャートである。基準領域と各部分領域の比較（Ｓ１０８）を説明する図である。人体の頭部および胴部の検出例を示す図である。画像処理装置のハードウェア構成を示す図である。第２実施形態におけるＡＦシステムが実行する処理を説明するフローチャートである。基準領域と頭部部分領域の比較を説明する図である。基準領域と胴部部分領域の比較を説明する図である。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

（第１実施形態）
本発明に係る画像処理装置の第１実施形態として、撮影装置と領域選択装置とを含むオートフォーカス（ＡＦ）システムを例に挙げて以下に説明する。特に、第１実施形態では、ＡＦシステムは、撮影装置から取得した画像に基づいて人体を検出し、検出された人体領域の中からピントを合わせる合焦対象領域を抽出する。

＜装置構成＞
図１は、撮影装置（カメラ）と被写体の位置関係を示す図である。図１（ａ）は立位の状態にある人体である被写体Ｇ－１を例示的に示し、図１（ｂ）は仰向けの状態にある人体である被写体Ｇ－２を例示的に示している。なお、カメラは図の左下方向に存在し、カメラからの距離（深度、デプス）を示す複数の点線が示されている。

図１に示すように、被写体の姿勢によって体の各部位に対するカメラからの距離は変化する。たとえば、被写体Ｇ－１に示すように立位である場合、カメラからの距離はどの部位であっても大きくは変化しない。一方で、被写体Ｇ－２に示すようにカメラの視線方向に略平行に横たわっている場合、体の部位に応じて深度は大きく変化する。そして、被写体内の深度の変化幅が撮像装置の被写界深度以上に広い場合には、一般に被写体全体にピントを合わせることは出来ない。その結果、好適にＡＦを継続実行することが出来なくなる場合がある。そこで、第１実施形態では、被写体内の深度の変化幅が撮像装置の被写界深度以上に広い場合であっても、継続的に好適なＡＦを実現可能とする例について説明する。

＜装置構成＞
図２は、第１実施形態におけるＡＦシステムの構成の一例を示す図である。図２に示すように、ＡＦシステムは、撮影装置１０および領域選択装置２０を備える。

撮影装置１０は、周辺環境の光景を画像化するカメラ装置である。撮影装置１０は画像取得部１１および測距部１２を備える。撮影装置１０の例としては、デジタル一眼レフカメラやスマートフォン、ウェアラブルカメラ、ネットワークカメラ、Ｗｅｂカメラなどがある。ただし、これらの例に限定されるものではなく、周囲の光景を画像化できる装置であればよい。

画像取得部１１は、撮像素子などを用いて撮影装置１０の周囲の光景を画像化し、領域選択装置２０に出力する。画像取得部１１が取得する画像は、デモザイキング処理前のＲＡＷデータであってもよいし、デモザイキングなどによって全画素がＲＧＢ値を持つ画像であってもよい。また、ライブビュー用の画像であってもよい。

測距部１２は、撮影装置１０と被写体との距離である深度情報を計測する測距機能を備え、計測した深度情報を領域選択装置２０に出力する。深度情報は、画像取得部１１が取得する画像の各画素もしくは各領域毎との対応付けが可能なものとする。また、深度情報とは、空間上の距離の長さに相関する任意の情報である。たとえば、空間上の長さそのものであってもよいし、入射光の位相差を検知する位相差センサなどに基づくデフォーカス量であってもよい。また、レンズの焦点面を移動させた際の画像のコントラスト変化量であってもよい。

領域選択装置２０（画像処理装置）は、撮影装置１０から入力された画像および深度情報に基づいて、人体の領域を検出する。そして、検出された領域の中からピントを合わせる対象となる合焦対象領域を選択する。領域選択装置２０は、検出部２１、部分領域抽出部２２、基準領域取得部２３、比較部２４、選択部２５を備える。なお、図２においては、領域選択装置２０は撮影装置１０と別体であるとして示しているが、一体の装置として構成してもよい。また、別体として構成する場合は、有線もしくは無線の通信機能によって接続されていてもよい。また、領域選択装置２０の各機能部は、中央処理ユニット（ＣＰＵ）がソフトウェアプログラムを実行することによっても実現され得る。

図６は、情報処理装置のハードウェア構成を示す図である。ＣＰＵ１００１は、ＲＡＭ１００３をワークメモリとして、ＲＯＭ１００２や記憶装置１００４に格納されたＯＳやその他プログラムを読みだして実行する。そして、システムバス１００９に接続された各構成を制御して、各種処理の演算や論理判断などを行う。ＣＰＵ１００１が実行する処理には、実施形態の情報処理が含まれる。記憶装置１００４は、ハードディスクドライブや外部記憶装置などであり、実施形態の情報処理にかかるプログラムや各種データを記憶する。入力部１００５は、カメラなどの撮像装置、ユーザー指示を入力するためのボタン、キーボード、タッチパネルなどの入力デバイスである。なお、記憶装置１００４は例えばＳＡＴＡなどのインタフェイスを介して、入力部１００５は例えばＵＳＢなどのシリアルバスを介して、それぞれシステムバス１００９に接続されるが、それらの詳細は省略する。通信Ｉ／Ｆ１００６は無線通信で外部の機器と通信を行う。表示部１００７はディスプレイである。

検出部２１は、画像中の人体領域を検出し、部分領域抽出部２２に出力する。人体領域は、全身に対応するものであってもよいし、顔や胴など特定の部位に対応するものであってもよい。人体領域の検出方法は特定の方法に限定しない。たとえば、「Joseph Redmon, Ali Farhadi, "YOLOv3: An Incremental Improvement", arXiv e-prints (2018)」に記載されるような物体検知手法を応用したものを利用可能である。また、頭部や手足などの輪郭形状に基づいて検出してもよい。さらに、時系列の画像から抽出した動き情報に基づいて検出してもよい。他にも、遠赤外線などに基づく熱源の情報から検出する構成であってもよい。

検出対象の人体領域は、所定の部位に対応するものであってもよいし、ユーザーが選択した部位に対応するものであってもよい。たとえば、顔や胴など部位のカテゴリを設定する機能を提供し、ユーザーが設定したカテゴリに対応する検出処理を行ってもよい。また、たとえばユーザーがタッチパネルで選択した領域の情報に基づいて、対応する検出処理を自動的に設定してもよい。

検出部２１が複数の人体領域を検出する場合、後述する基準領域に基づいて、対応する人体領域を１つまたは複数選択して出力してもよい。たとえば、基準領域との距離や画像的な類似度に基づいて選択してよい。

部分領域抽出部２２は、人体領域または深度情報に基づいて、所定の条件を満たす１つ以上の部分領域を抽出し、比較部２４に出力する。部分領域の抽出は、画像空間上の距離および深度情報の類似度に基づいて行う。

たとえば、人体領域内の各画素の深度情報が入力されている場合、画素間の画像空間上の距離が近く、深度情報が類似する集合を部分領域として抽出してもよい。この際、部分領域に内包される閉領域は部分領域に統合されてもよいし、異なる部分領域として抽出してもよい。また、画素間の距離や部分領域の面積に閾値を設けて抽出してもよい。

他の方法として、たとえば測距部１２が特定の測距領域について深度情報を計測する場合、人体領域内の各測距領域のうち、深度情報の分散が閾値以下となるものを部分領域として抽出してもよい。

基準領域取得部２３は、ＡＦの対象となる特定部位である基準領域を取得し、比較部２４に出力する。基準領域の取得方法は特定の方法に限定しない。たとえば、カメラのライブビュー画面を撮影者がタップすることで、タップされた領域を基準領域としてもよい。ほかにも、たとえば顔検出手法を用いて、画面中央に近く、より大きく映っている顔の領域を基準領域としてもよい。検出手法を用いる場合、検出手法は検出部２１と同様であってもよいし、異なる手法であってもよい。ここでは、基準領域（第１の領域）は、ＡＦ開始時である第１の時点に撮影された第１の画像における合焦対象領域として保持されているものとする。なお、撮影開始時は、初期画像の所定の領域（例えば画面中央）を基準領域として予め設定しておく。

比較部２４は、部分領域抽出部２２から入力された部分領域と、基準領域取得部２３から入力された基準領域と、を比較し、比較結果を選択部２５に出力する。

比較部２４が比較する対象とする要素（以降では、比較要素と呼ぶ）は深度情報を含み、異なる複数種類の情報であってもよい。たとえば、基準領域と部分領域の間の画像空間上の相対位置を含んでもよいし、領域に対応する画像上の画素値を含んでもよい。また、画像空間上の相対位置を用いる場合、深度情報に基づいて相対位置の大きさを正規化してもよい。たとえば、カメラからの距離が小さい領域については相対位置の値を小さくし、距離が大きい領域については相対位置の値を大きくしてもよい。

ただし、比較部２４の比較方法は特定の方法に限定しない。たとえば、各領域の比較要素を平均し、平均値の差を比較結果として出力してもよい。また、部分領域と基準領域の形状が同一の場合は対応する各画素について比較要素の差を比較結果として出力してもよい。他にも、領域内の深度情報の分布を比較し、カルバック・ライブラー情報量などの指標を比較結果として出力してもよい。

更に、比較部２４は注目する物体の深度情報の時間変化に基づき、基準領域が取得された時点からの深度情報の変化量を推定することで、推定した深度情報と部分領域の深度情報を比較してもよい。この場合、カメラとの距離が時間経過とともに動的に変化する被写体についても、より安定したＡＦが実現できる場合がある。

選択部２５は、比較部２４から入力された、基準領域と各部分領域との比較結果に基づいて、現在の入力画像に対する合焦対象領域を選択し、撮影装置１０に出力する。選択部２５が合焦対象領域を選択する方法の一例としては、基準領域との比較結果で、基準領域と類似する（すなわち基準領域の深度との差が相対的に小さい）部分領域を選択する方法がある。この方法によれば、基準領域と類似する領域にＡＦを継続することが可能である。

また、比較結果のみを用いるのではなく、各部分領域について合焦対象領域として選択する優先度を評価し、優先度の高いものが選ばれやすくなるように選択してもよい。たとえば、基準領域の深度との差が所定値未満の部分領域が複数個存在する場合、面積が大きいほど優先度を高くしてもよい。他にもたとえば、画像の中心に近いほど優先度を高くしてもよい。さらに、選択部２５は、複数の基準に基づいて、第２の画像における合焦対象領域を決定してもよい。例えば、複数の基準には、第１の領域と第２の領域との類似度、および、１つ以上の部分領域の面積についてのそれぞれの基準を含む。

更に、基準領域を取得した時刻からの経過時間によって合焦対象領域の選択基準を変更してもよい。たとえば、経過時間が短い場合は基準領域との比較結果で類似度が近いものを優先し、経過時間が長くなるほど、部分領域の面積など比較結果以外の優先基準を重視して選択してもよい。また、比較結果が複数種類の要素を含む場合、要素ごとの類似度について、異なる重みで考慮した選択を行ってもよい。

＜装置の動作＞
図３は、第１実施形態におけるＡＦシステムが実行する処理を説明するフローチャートである。Ｓ１０１～Ｓ１１１はそれぞれ特定の処理を表しており、原則として順番に実行する。ただし、ＡＦシステムは必ずしもこのフローチャートで説明するすべての処理を行わなくともよいし、処理の実行順序が変化してもよい。さらに、複数の処理を並列に実行してもよい。

ステップＳ１０１では、画像取得部１１は、ＡＦ開始時点（時刻ｔ－１）の画像（第１の画像）を取得する。たとえば、ライブビューのＲＧＢ画像を取得する。また、ステップＳ１０２では、測距部１２は、ＡＦ開始時点の深度情報を計測する。たとえば、測距部１２が位相差センサを備える場合はデフォーカス量を計測する。なお、計測された深度情報は、領域選択装置２０により後続して取得（深度情報取得）されることになる。

ステップＳ１０３では、基準領域取得部２３は、ＡＦ開始時点（第１の時点）の基準領域（第１の領域）を取得する。すなわち、ＡＦ開始時点で合焦対象領域として使用していた領域を取得（基準取得）する。たとえば、ユーザーがタッチパネルで選択した領域や、自動検出された顔や人体の領域を取得する。基準領域を検出処理に基づいて取得する場合、検出部２１などを用いてもよい。また、基準領域の候補が複数存在する場合、選択部２５などを用いて基準領域を選択してもよい。また、連続して撮影している場合は、前回の合焦領域を取得してもよい。

ステップＳ１０４では、画像取得部１１は、合焦対象領域を選択する時点（時刻ｔ、第２の時点）の画像（第２の画像）を取得する。合焦対象領域を選択する時点は、ＡＦ開始時点に後続する時刻である。なお、第１の時点と第２の時点は連続する時刻でない場合でもよく、例えば、一定時間間隔でフォーカス位置を変更するものであってもよい。ステップＳ１０５では、測距部１２は、合焦対象領域を選択する時点の深度情報を計測する。なお、計測された深度情報は、領域選択装置２０により後続して取得（深度情報取得）されることになる。

ステップＳ１０６では、検出部２１は、Ｓ１０４で取得された画像から合焦対象の候補となる人体領域（第２の領域）を検出する。たとえば、合焦対象となる所定の物体（人体の顔や全身、犬や猫などの動物、車や建物といった領域）を検出する。基準領域と画像特徴が類似する領域を第２の領域として検出してもよい。例えば、ディープラーニングや、セマンティックセグメンテーションを用いて第２の領域を検出してもよい。また、Ｓ１０４で取得された画像に対応する深度情報に基づいて、深度が所定の範囲である領域を第２の領域として検出してもよい。例えば、被写体が一人だけのとき等は手前の領域（つまり同じような深度を示す領域）を検出してもよい。この場合、Ｓ１０７をスキップしてもよい。そして、ステップＳ１０７では、部分領域抽出部２２は、Ｓ１０６で検出した人体領域から、所定の条件を満たす１つ以上の部分領域を抽出する。例えば、部分領域は深度情報に基づいて抽出され、具体的には、深度情報によって示される深度が被写界深度の範囲に含まれる部分領域が抽出される。

Ｓ１０７の処理に関して図１を参照して説明する。Ｓ１０７では、被写界深度に基づいて、部分領域の抽出基準を変更する。たとえば、被写体Ｇ－１（直立した人体）が検出されている場合、人体領域内のカメラからの距離はほぼ一定（例えば算出される深度の差は５０ｃｍ以下）である。そのため、一般には人体領域全体が１つの部分領域として抽出され得る。ただし、撮影装置の被写界深度が狭い場合（例えば数ｃｍ）には、目鼻や手足など、撮影装置からの距離が近い部分領域をそれぞれ抽出してもよい。

カメラからの距離が近い部分領域を抽出する方法の一例としては、たとえばＫ－ｍｅａｎｓなどのクラスタリング手法を用いる方法がある。具体的には、深度情報が近傍する画素クラスタを抽出し、各クラスタを部分領域として抽出する。このとき、画像上の画素間の距離を考慮してもよいし、無視してもよい。

ステップＳ１０８では、比較部２４は、Ｓ１０３で取得した基準領域とＳ１０７で抽出された各部分領域を比較する。たとえば、基準領域と各部分領域間の深度情報の分布や、基準領域における画像特徴と抽出された部分領域における画像特徴を比較する。

図４は、Ｓ１０８における基準領域と各部分領域の比較を説明する図である。図４（ａ）は第１の画像から取得された基準領域である領域Ｇ－４を示す。また、図４（ｂ）は第２の画像から抽出された部分領域である領域Ｇ－５ａと領域Ｇ－５ｂを示す。Ｓ１０８では、たとえば基準領域と各部分領域それぞれについて深度情報から深度の平均を求め、基準領域と部分領域との間の深度情報から深度の平均の差の絶対値を比較結果として出力してもよい。図４に示す一例では、領域Ｇ－５ａは領域Ｇ－５ｂよりも領域Ｇ－４に近い。そのため、比較結果としては深度情報の差がより小さく出力される。また、画像特徴を用いて比較する場合は、基準領域における画像特徴と抽出された部分領域における画像特徴との類似度と、予め設定された閾値とを比較する。類似度が閾値以上であれば類似しており、同じ部位である可能性が高い。一方で、閾値以下であれば類似しないため別の部位である可能性が高い。

ステップＳ１０９では、選択部２５は、比較結果に基づいて部分領域を選択し、合焦対象領域として決定する。ここでは、基準領域における平均の深度ともっとも近い平均深度を有する部分領域を合焦対象領域として決定する。領域における深度の平均値ではなく、代表的な位置の深度を用いてもよい。また、深度の差が一番小さい（所定の値より小さい）部分領域を合焦対象領域として決定してもよい。このように深度が近い領域を決定することでピントを合わせる時間の短縮にもつながる。さらに、合焦対象領域の選択方法の一例としては、たとえば、基準領域ともっとも類似する部分領域を選択してもよい。また、比較結果で基準領域との差分が閾値以下の部分領域の中で、もっとも面積の大きな部分領域を選択してもよい。複数の選択基準を組合せてもよい。

ステップＳ１１０では、領域選択装置２０は、ＡＦ処理を継続するかどうかを判定する。ＡＦ処理を継続する場合はＳ１１１に進み、継続しない場合は処理を終了する。ステップＳ１１１では、領域選択装置２０は、第２の画像を第１の画像として置き換える。その後Ｓ１０３に戻り、処理を反復させる。

以上の処理によって、直前（時刻ｔ－１）でＡＦの対象として選択されていた基準領域に対応する現在（時刻ｔ）の画像中の領域を好適に選択することが可能となる。

以上説明したとおり第１実施形態によれば、基準領域の情報を利用して、検出された人体領域内でＡＦに適した部分領域を合焦対象領域として選択する。特に、基準領域との差がより小さい（より類似した）部分領域を選択する。これにより、ＡＦシステムは、検出された領域内の深度の差が大きい場合であっても、好適にＡＦを継続実行することが可能である。

なお、上述の説明では人体領域を検出する場合について説明したが、人体領域以外の検出対象に適用してもよい。たとえば、人以外の動物を検出してもよいし、車両など特定物体を検出してもよい。また、デジタルカメラでの撮影に利用可能なほか、後処理によって撮影後にピント位置を変更するシステムなどにも利用することが可能である。

（第２実施形態）
第２実施形態では、基準領域と合焦対象領域の部位カテゴリが違う場合に対処する形態について説明する。以下では、カメラなどから取得した画像に基づいて頭部および胴部を検出し、頭部が検出されなかった場合に胴部の部分領域から合焦対象領域を選択する例について説明する。

なお、ここでは、用語「胴部」は、頭部を含まない人の体幹部分を指す。ただし、胴部は体幹部分以外に、首や手足などを含んでもよい。また、体幹部分全体ではなく、胸部や腹部など一部の部位であってもよい。

第２実施形態におけるＡＦシステムの構成は、第１実施形態（図２）とほぼ同様である。ただし、各機能部の動作が第１実施形態とは異なるため、以下では第１実施形態とは異なる部分について説明する。

図７は、第２実施形態におけるＡＦシステムが実行する処理を説明するフローチャートである。Ｓ２０１～Ｓ２１５はそれぞれ特定の処理を表している。

ステップＳ２０１およびＳ２０２では、第１の画像とその深度情報が取得される。Ｓ２０１およびＳ２０２で行われる処理は第１実施形態におけるＳ１０１およびＳ１０２と同様であるため、説明は省略する。

ステップＳ２０３では、検出部２１は、第１の画像から人体の頭部領域と胴部領域を検出し、部分領域抽出部２２および基準領域取得部２３に出力する。胴部領域を検出する方法は特定の方法に限定しない。たとえば、意味的領域分割の手法を用いて胴部を直接検出してもよいし、物体検出手法を用いて肩や腰など、胴部に含まれる部位を検出することで胴部を検出してもよい。

図５は、人体の検出例を示す図である。図５（ａ）は、検出部２１が頭部および胴部を検出した場合の一例を示している。領域Ｇ－８および領域Ｇ－６ａは、検出された頭部および胴部である。一方、図５（ｂ）は、構造物（領域Ｇ－９）により頭部が遮蔽され、検出部２１が胴部Ｇ－６ｂのみを検出した場合の一例を示している。

領域Ｇ－６ａ、Ｇ－６ｂのように、胴部として検出される部分の大きさや位置は必ずしも体幹全体に対応するものでなくともよい。また、必ずしも矩形で表現可能である必要はなく、楕円や多角形など任意の形状であってもよい。また、分布として表現されていてもよい。

ステップＳ２０４では、基準領域取得部２３は、第１の画像からＡＦの対象となる基準領域を取得し、比較部２４に出力する。基準領域の位置は、第１実施形態のＳ１０３と同様にして、ユーザによる指定や、検出部２１による検出結果を用いて指定される。以下の説明では、基準領域は頭部が優先的に選択されるものとして説明するが、本発明は頭部優先に限定されるものではない。胴部優先とする場合には、以下の説明における頭部と胴部を入れ替えて読むとよい。

指定された位置が図５（ａ）の領域Ｇ－８に示すような頭部領域であれば、その頭部領域が基準領域とされる。基準領域取得部２３が取得する頭部領域は、領域Ｇ－８のように頭部全体ではなく頭部に含まれる顔など部分の領域であってもよい。指定された位置が図５（ａ）の領域Ｇ－６ａに示すような胴部領域であった場合は、指定された位置に最も近い位置にある頭部領域である領域Ｇ－８が基準領域として選択される。指定された位置が図５（ｂ）の領域Ｇ－６ｂに示すような胴部領域であり、対応する頭部領域が存在しない場合は、指定された位置の領域Ｇ－６ｂを基準領域として選択する。

以降、基準領域に胴部領域が指定された場合に関して説明は図示しないが、処理としては基準領域に頭部領域が指定された場合と同じである。連続して撮影されている場合には、前回の時刻で選択された合焦対象領域を基準領域とする。

ステップＳ２０５およびＳ２０６では、第２の画像とその深度情報が取得される。Ｓ２０５およびＳ２０６の処理は、第１実施形態のＳ１０４およびＳ１０５と同様であるため、説明は省略する。

ステップＳ２０７では、検出部２１は、第２の画像から頭部領域および胴部領域を検出する。ステップＳ２０８では、部分領域抽出部２２は、第２の画像から検出された頭部領域および胴部領域のそれぞれに対して、深度情報に基づいてそれぞれの部分領域を抽出する。部分領域の具体的な抽出方法については、第１実施形態のＳ１０７ですでに詳細な説明がされているため、ここでは割愛する。

ステップＳ２０９では、比較部２４は、第１の画像から取得された基準領域と、第２の画像で検出された頭部領域に属する部分領域に対して、それぞれの画像における深度情報を用いて比較処理を行う。基準領域と部分領域の具体的な比較方法に関しては、第１実施形態のＳ１０８で説明した方法と同様である。

ステップＳ２１０では、選択部２５は、Ｓ２０９で得られた比較結果を検証する。検証内容として、第２の画像の所定範囲内に頭部の部分領域が存在するかどうかを判定する。ここで所定範囲とは、連続撮影における追尾範囲であるが、その広さに関しては特定の範囲に限定されない。例えば、追尾対象は人体であるため、人体の常識的な移動速度と連続撮影のフレームレートから所定範囲の広さを設定する。検証結果として、所定範囲内に頭部の部分領域が存在すればＳ２１１へと進み、存在しない場合はＳ２１２へと進む。所定範囲内に頭部の部分領域が存在しない場合とは、例えば図９（ｂ）のように、頭部領域が遮蔽されている場合や頭部検出に失敗した場合などが考えられる。

ステップＳ２１１では、選択部２５は、合焦対象領域を選択する。例えば、第１実施形態のＳ１０９と同様の手順により、図８（ａ）で示される第１の画像内の基準領域Ｇ－１０に対して、図８（ｂ）で示される第２の画像内の頭部部分領域Ｇ－１１ａおよびＧ－１１ｂから合焦対象領域を選択する。その後、Ｓ２１４へ処理を進める。

ステップＳ２１２では、比較部２４は、第１の画像から取得された基準領域と、第２の画像で検出された胴部領域に属する部分領域に対して、それぞれの画像における深度情報を用いて比較処理を行う。基準領域と部分領域の具体的な比較方法に関しては、第１実施形態のＳ１０８で説明した方法と同様である。比較処理が終わると、Ｓ２１３へ処理を進める。

ステップＳ２１３では、選択部２５は、Ｓ２１２で得られた比較結果から合焦対象領域を決定する。例えば、第１実施形態のＳ１０９と同様の手順により、図９（ａ）で示される第１の画像内の基準領域Ｇ－１０に対して、図９（ｂ）で示される第２の画像内の胴部部分領域Ｇ－７ａおよびＧ－７ｂから合焦対象領域を選択する。その後、Ｓ２１４へ処理を進める。

ステップＳ２１４では、領域選択装置２０は、ＡＦ処理を継続するかどうかを判定する。ＡＦ処理を継続する場合はＳ２１５に進み、継続しない場合は処理を終了する。ステップＳ２１５では、領域選択装置２０は、第２の画像を第１の画像として置き換える。その後Ｓ２０４に戻り、処理を反復させる。

以上説明したとおり第２実施形態によれば、先行する画像において基準領域であった部位が遮蔽等により処理対象の画像において検出できない場合、検出された人体領域内でＡＦに適した部分領域を合焦対象領域として選択する。これにより、ＡＦシステムは、遮蔽等が存在した場合であっても、好適にＡＦを継続実行することが可能である。

なお、本実施形態では検出部２１が胴部領域を検出し、基準領域取得部２３が頭部領域に基づく基準領域を取得する場合について説明したが、頭部と胴部の組み合わせ以外にも適用可能である。たとえば、顔と全身の組み合わせであってもよいし、単独人物と密集した人物の集団の組み合わせであってもよい。ほかにも、車のナンバープレートと車体全体の組み合わせであってもよい。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０撮影装置；１１画像取得部；１２測距部；２０領域選択装置；２１検出部；２２部分領域抽出部；２３基準領域取得部；２４比較部；２５選択部

Claims

撮像装置の合焦対象領域を決定する画像処理装置であって、
第１の時点で前記撮像装置により撮像された第１の画像において合焦対象となる第１の領域を取得する取得手段と、
前記第１の時点に後続する第２の時点で前記撮像装置により撮像された第２の画像から合焦対象の候補となる第２の領域を検出する検出手段と、
前記第１の領域と前記第２の画像とに基づいて、前記第２の領域のうち１つ以上の部分領域の中から前記第２の画像における合焦対象領域を決定する決定手段と、
を備えることを特徴とする画像処理装置。
前記撮像装置により撮像された画像の領域毎に深度情報を取得する深度情報取得手段を更に有し、
前記決定手段は、前記第１の領域に対応する深度情報と前記第２の領域に対応する深度情報とに基づいて、前記第２の画像における前記合焦対象領域を決定する
ことを特徴とする請求項１に記載の画像処理装置。
前記決定手段と、前記第１の領域に対応する深度情報と前記第２の画像に対応する深度情報とによって算出される深度の差に基づいて、前記合焦対象領域を決定する
ことを特徴とする請求項１または２に記載の画像処理装置。
前記決定手段は、前記１つ以上の部分領域のうち、前記第１の領域の深度と前記１つ以上の部分領域それぞれにおける深度との差が所定の閾値より小さい部分領域を前記合焦対象領域として決定する
ことを特徴とする請求項３に記載の画像処理装置。
前記決定手段は、前記第１の領域の深度との差が所定値未満の部分領域が複数個存在する場合、該複数個の部分領域のうち相対的に面積の大きいまたは相対的に深度が小さい部分領域を前記合焦対象領域に決定する
ことを特徴とする請求項４に記載の画像処理装置。
前記深度情報は、前記撮像装置と被写体との距離または前記撮像装置の撮像素子における入射光の位相差に基づく
ことを特徴とする請求項２乃至５の何れか１項に記載の画像処理装置。
前記検出手段は、前記第２の画像において、前記第１の領域から抽出される画像特徴と類似する画像特徴を有する領域を前記第２の領域として検出する
ことを特徴とする請求項１乃至６の何れか１項に記載の画像処理装置。
前記取得手段は、人物もしくは物体の特定部位を前記第１の領域として取得し、
前記検出手段は、前記特定部位と同じ部位を前記第２の領域として検出する
ことを特徴とする請求項７に記載の画像処理装置。
前記取得手段は、人物もしくは物体の特定部位を前記第１の領域として取得し、
前記検出手段は、前記特定部位と同じ部位を検出できない場合、前記特定部位と異なる部位を前記第２の領域として検出する
ことを特徴とする請求項８に記載の画像処理装置。
前記第２の領域のうち所定の条件を満たす１つ以上の部分領域を抽出する抽出手段を更に有し、
前記決定手段は、前記抽出手段によって抽出された前記１つ以上の部分領域から前記第２の画像における合焦対象領域を決定する
ことを特徴とする請求項１乃至９の何れか１項に記載の画像処理装置。
前記抽出手段は、前記第２の領域のうち、前記第２の画像に対応する深度情報によって示される深度が所定の範囲に含まれる領域を前記１つ以上の部分領域として抽出する
ことを特徴とする請求項１０に記載の画像処理装置。
前記抽出手段は、前記撮像装置が前記第２の画像を撮像した際の被写界深度に基づいて、前記１つ以上の部分領域の前記所定の条件を変更する
ことを特徴とする請求項１０または１１に記載の画像処理装置。
前記決定手段は、複数の基準に基づいて、前記第２の画像における合焦対象領域を決定し、
前記複数の基準は、前記第１の領域と前記第２の領域との類似度、および、前記１つ以上の部分領域の面積についてのそれぞれの基準を含む
ことを特徴とする請求項１乃至１２の何れか１項に記載の画像処理装置。
前記決定手段は、前記第１の時点からの経過時間に基づいて前記合焦対象領域の前記複数の基準を変更する
ことを特徴とする請求項１３に記載の画像処理装置。
前記第２の領域は、人物の頭部および／または胴部を示す領域である
ことを特徴とする請求項１乃至１４の何れか１項に記載の画像処理装置。
前記決定手段は、前記１つ以上の部分領域のうち面積が所定の値より大きい部分領域を優先して前記第２の画像における合焦対象領域に決定する
ことを特徴とする請求項１乃至１５の何れか１項に記載の画像処理装置。
撮像装置の合焦対象領域を決定する画像処理装置の制御方法であって、
第１の時点で前記撮像装置により撮像された第１の画像において合焦対象となる第１の領域を取得する取得工程と、
前記第１の時点に後続する第２の時点で前記撮像装置により撮像された第２の画像から合焦対象の候補となる第２の領域を検出する検出工程と、
前記第１の領域と前記第２の画像とに基づいて、前記第２の領域のうち１つ以上の部分領域の中から前記第２の画像における合焦対象領域を決定する決定工程と、
を含むことを特徴とする制御方法。
コンピュータを、請求項１乃至１６の何れか１項に記載の画像処理装置の各手段として機能させるためのプログラム。