JP2021124671A

JP2021124671A - 画像処理装置、撮像装置、画像処理方法およびプログラム

Info

Publication number: JP2021124671A
Application number: JP2020019811A
Authority: JP
Inventors: 慶祐緑川; Keisuke Midorikawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2021-08-30

Abstract

【課題】合焦対象領域が検出されない場合でも、合焦対象領域のデフォーカス量を取得することを目的とする。【解決手段】画像処理装置は、画像から被写体の複数の部位を検出する検出手段と、検出された前記複数の部位のうち合焦対象部位ではない１以上の部位のデフォーカス量に基づいて、前記合焦対象部位のデフォーカス量を推測する制御を行う制御手段と、を含む。【選択図】図２

Description

本発明は、画像処理装置、撮像装置、画像処理方法およびプログラムに関する。

デジタルカメラ等の撮像装置は、動画像を構成する各フレームから被写体を検出し、検出した被写体を追尾して、オートフォーカス（以下、ＡＦ）等の撮影制御を行う。ＡＦ機能は、測距領域の選択を自動化する機能であり、該ＡＦ機能が用いられることにより、ユーザによる撮影をサポートすることができる。関連する技術として、特許文献１の自動合焦制御技術が提案されている。特許文献１の自動合焦制御技術は、測距エリアに被写体の顔が存在しないと判定された場合、胴体領域が存在すると判定された測距エリアから取得される位相差検出信号に基づいて追尾ＡＦ動作を実行させる。また、ニューラルネットワークに関する技術が非特許文献１に開示されている。

特開２０１０−１８６００４号公報

Ｓ．Ｈａｙｋｉｎ，"ＮｅｕｒａｌＮｅｔｗｏｒｋｓＡＣｏｍｐｒｅｈｅｎｓｉｖｅＦｏｕｎｄａｔｉｏｎ２ｎｄＥｄｉｔｉｏｎ"，ＰｒｅｎｔｉｃｅＨａｌｌ，ｐｐ．１５６−２５５，Ｊｕｌｙ１９９８

特許文献１の自動合焦制御技術は、補助画像の中から顔検出を行い、予め設定された複数の測距エリアに追尾顔が測距エリアから外れたかの判定を行う。そして、追尾顔が測距エリアから外れ、且つ追尾顔の下に測距エリアが存在すると判定された場合に、該測距リアに胴体が存在すると推定して、ＡＦ動作が実行される。しかしながら、特許文献１の自動合焦制御技術では、顔領域が検出されなかった場合、或いは被写体の姿勢によっては、ＡＦ動作を実行できない場合がある。例えば、被写体が倒立姿勢になっている場合、追尾顔の下に測距エリアには、胴体が存在しないため、ＡＦ動作を実行することができない。また、追尾顔の下にある予め設定された測距エリアに被写体の部位が含まれていない場合、ＡＦ動作を実行することができない。

本発明は、合焦対象領域が検出されない場合でも、合焦対象領域のデフォーカス量を取得することを目的とする。

上記目的を達成するために、本発明の画像処理装置は、画像から被写体の複数の部位を検出する検出手段と、検出された前記複数の部位のうち合焦対象部位ではない１以上の部位のデフォーカス量に基づいて、前記合焦対象部位のデフォーカス量を推測する制御を行う制御手段と、を備えることを特徴とする。

本発明によれば、合焦対象領域が検出されない場合でも、合焦対象領域のデフォーカス量を取得することができる。

撮像装置の構成を示すブロック図である。本実施形態の処理の流れの一例を示すフローチャートである。障害物により頭部が隠れている画像の一例を示す図である。被写体が直線的な姿勢になっているか否かを説明するための図である。

以下、本発明の各実施の形態について図面を参照しながら詳細に説明する。しかしながら、以下の各実施の形態に記載されている構成はあくまで例示に過ぎず、本発明の範囲は各実施の形態に記載されている構成によって限定されることはない。

以下、図面を参照して、本実施形態について説明する。図１は、撮像装置１００の構成を示すブロック図である。撮像装置１００は、被写体を撮影して、動画像や静止画を生成し、生成したデータを、テープや固体メモリ、光ディスク、磁気ディスク、半導体メモリ等の各種メディアに記録可能である。撮像装置１００は、例えば、デジタルスチルカメラやデジタルビデオカメラ等である。撮像装置１００内の各ユニットは、バス１６０を介して接続されている。また各ユニットは、ＣＰＵ１５１により制御される。

レンズユニット１０１は、固定１群レンズ１０２、ズームレンズ１１１、絞り１０３、固定３群レンズ１２１およびフォーカスレンズ１３１を有する。レンズユニット１０１は、他のレンズを有していてもよい。絞り制御部１０５は、ＣＰＵ１５１からの指令に従い、絞りモータ１０４（ＡＭ）を介して絞り１０３を駆動することにより、絞り１０３の開口径を調整して撮影時の光量調節を行う。ズーム制御部１１３は、ズームモータ１１２（ＺＭ）を介してズームレンズ１１１を駆動することにより、焦点距離を変更する。

フォーカス制御部１３３は、レンズユニット１０１のピント方向のずれ量（デフォーカス量）に基づいてフォーカスモータ１３２（ＦＭ）を駆動する駆動量を決定する。また、フォーカス制御部１３３は、フォーカスモータ１３２（ＦＭ）を介してフォーカスレンズ１３１を駆動することにより、焦点調節状態を制御する。フォーカス制御部１３３およびフォーカスモータ１３２によるフォーカスレンズ１３１の移動制御により、ＡＦ制御が実現される。フォーカスレンズ１３１は、焦点調節用レンズであり、図１には単レンズで簡略的に示されているが、通常は複数のレンズで構成される。

レンズユニット１０１を介して撮像素子１４１上に結像する被写体像は、撮像素子１４１により電気信号に変換される。撮像素子１４１は、被写体像（光学像）を電気信号に光電変換を行う光電変換素子である。撮像素子１４１は、横方向および縦方向にそれぞれ複数の受光素子（画素）が配置されている。撮像信号処理部１４２は、撮像素子１４１上に結像されて光電変換された画像を信号処理して画像信号（画像データ）を生成する。これにより、撮像面の画像を取得することができる。

撮像信号処理部１４２が出力する画像データは、撮像制御部１４３に送られ、一時的にＲＡＭ１５４に記憶される。画像圧縮解凍部１５３は、ＲＡＭ１５４に記憶された画像データを圧縮する。なお、画像圧縮解凍部１５３は、圧縮された画像データの解凍を行うこともできる。圧縮された画像データは、画像記録媒体１５７に記録される。これと並行して、ＲＡＭ１５４に蓄積された画像データは、画像処理部１５２に送られる。画像処理部１５２は、画像データに対して最適なサイズへの縮小処理または拡大処理等の画像処理を行う。また、画像処理部１５２は、画像データ同士の類似度算出等を行う。

画像処理部１５２により最適なサイズに処理された画像データは、適宜、モニタディスプレイ１５０に出力される。これにより、モニタディスプレイ１５０は、プレビュー画像表示やスルー画像表示を行うことができる。また、画像処理部１５２は、後述する物体検出部１６２の物体検出結果を画像データに重畳することで、モニタディスプレイ１５０は、物体検出結果が重畳された画像データを画面表示できる。

ＲＡＭ１５４は、リングバッファとして用いることもできる。この場合、所定期間内に撮像された複数の画像データや、画像データごとに対応した物体検出部１６２の検出結果、後述する位置姿勢変化取得部１６１が取得した撮像装置の位置姿勢変化等を、ＲＡＭ１５４にバッファリングできる。操作スイッチ１５６は、タッチパネルやボタン等を含む入力インターフェイスであり、モニタディスプレイ１５０に表示される種々の機能アイコンを選択操作すること等により、様々な操作を行うことができる。

ＣＰＵ１５１は、操作スイッチ１５６に入力された操作者からの指示、或いは一時的にＲＡＭ１５４に蓄積された画像データの画素信号の大きさに基づき、撮像素子１４１の蓄積時間やゲインの設定値を決定する。撮像制御部１４３は、ＣＰＵ１５１から蓄積時間やゲインの設定値の指示を受け取り、撮像素子１４１を制御する。ＣＰＵ１５１は、本実施形態の各処理を主体的に実行する。ＣＰＵ１５１は、フォーカス制御部１１３を制御することにより、焦点調節状態を制御する。ＣＰＵ１５１は、制御手段に対応する。

物体検出部１６２は、画像データから物体が存在する領域を検出する。物体検出部１６２は、検出手段に対応する。本実施形態では、物体検出部１６２が行う物体検出処理は、ＣＮＮ（畳み込みニューラルネットワーク）による特徴抽出処理により実現されるものとする。ＣＮＮは、機械学習により学習されたＣＮＮであり、学習済みモデルに対応する。物体検出部１６２は、ＣＮＮ以外の機械学習アルゴリズム（決定木やサポートベクターマシン等）により機械学習された学習済みモデルを用いて物体検出処理を行ってもよい。また、物体検出部１６２は、Ｒ−ＣＮＮ（ＲｅｇｉｏｎｓｗｉｔｈＣＮＮｆｅａｔｕｒｅｓ）等により機械学習された学習済みモデルを用いて物体検出処理を行ってもよい。

物体検出部１６２は、画像から、被写体としての人物についての人体における複数の部位を検出する。部位は、局所領域とも称されることがあり、例えば、生体的な特定な部位（頭部や肩等）には限定されず、人物の特徴的な領域であってもよい。

物体検出部１６２は、動物や車等を被写体として、複数の部位を検出してもよい。例えば、物体検出部１６２は、人物について顔を含む頭部や両肩、胴体、両膝等の代表点を推定することにより検出し、検出結果を一括して出力する。物体検出部１６２は、上記の各部位以外の部位を検出してもよい。物体検出部１６２は、人物の人体の部位を矩形領域や点で検出してもよい。部位が領域で検出される場合、その部位は、領域のうちの中心や重心等の１点で表されてもよい。また、物体検出部１６２は、画像の所定領域（興味領域）から各部位を検出してもよい。なお、物体検出部１６２は、機械学習された学習済みモデルではなく、被写体から部位を検出する所定の検出手法により、部位の検出を行ってもよい。

物体検出部１６２は、ＣＮＮを用いて、部位の座標を人物ごとにクラスタリングされた状態で出力してもよい。この場合、ＣＮＮから出力されたクラスタの数は、フレーム内に存在する人物の数とみなすことができる。物体検出部１６２は、被写体としての人物および人物の複数の部位を推定して、推定結果を出力してもよい。

フォーカス制御部１３３は、特定の被写体領域に対するＡＦ制御を行う。絞り制御部１０５は、特定の被写体領域の輝度値を用いた露出制御を行う。画像処理部１５２は、被写体領域に基づいたガンマ補正やホワイトバランス処理等を行う。上述したように、モニタディスプレイ１５０は、画像データを含む所定の情報を表示する表示手段である。また、物体検出部１６２は、被写体として人物を検出することができる。

バッテリ１５９は、電源管理部１５８により適切に管理され、撮像装置１００の全体に安定した電源供給を行う。フラッシュメモリ１５５は、撮像装置１００の動作に必要な制御プログラムや、各部の動作に用いるパラメータ等が記録されている。ユーザの操作により撮像装置１００が起動すると（電源ＯＦＦ状態から電源ＯＮ状態へ移行すると）、フラッシュメモリ１５５に格納された制御プログラム及びパラメータがＲＡＭ１５４の一部に読み込まれる。ＣＰＵ１５１は、ＲＡＭ１５４にロードされた制御プログラムを実行することで、本実施形態の処理を実現することができる。

位置姿勢変化取得部１６１は、例えばジャイロや加速度センサ、電子コンパス等の位置姿勢センサにより構成される。位置姿勢変化取得部１６１は、撮像装置の撮影シーンに対する位置姿勢変化を計測する。位置姿勢変化取得部１６１が取得した位置姿勢変化は、ＲＡＭ１５４に記憶される。距離算出部１６３は、画像データ中の任意の被写体に対して撮像装置１００からの距離（深度）を算出する。算出された距離情報はＲＡＭ１５４に記憶される。画像処理部１５２は、ＲＡＭ１５４に記憶された距離情報を参照して、各種の処理を行う。撮像装置１００の構成は、図１の例には限定されない。

図１の撮像装置１００のうち、ＣＰＵ１５１、画像処理部１５２および物体検出部１６２により画像処理装置が構成されてもよい。この画像処理装置は、単体の装置により実現されてもよいし、撮像装置１００に内蔵されてもよいし、スマートフォンやタブレット端末等に内蔵されてもよい。また、上記の画像処理装置は、ＣＰＵ１５１、画像処理部１５２および物体検出部１６２以外の構成（例えば、モニタディスプレイ１５０や画像圧縮解凍部１５３等）を有していてもよい。

次に、本実施形態の処理について説明する。図２は、本実施形態の処理の流れの一例を示すフローチャートである。以下、被写体は、人物であるものとして説明する。ただし、上述したように、被写体は、動物や車等の人物以外の被写体であってもよい。上述したように、被写体としての人物には、頭部や肩部、腹部、足部等の部位がある。以下、撮像装置１００による合焦の対象となる部位（合焦対象部位）は、顔を含む頭部であるものとする。ただし、合焦対象部位は、頭部には限定されない。例えば、合焦対象部位は、肩部や足部等であってもよい。また、本実施形態は、動画像やスルー画像等の連続した複数の画像のそれぞれに対しても適用できる。例えば、合焦対象部位である頭部は、動画像の撮影を行う際のＡＦ制御における追尾対象の部位であってもよい。

撮像装置１００が被写体である人物を撮影した際に、合焦対象部位である頭部が、例えば、他の人物や障害物、被写体である人物の頭部以外の部位により隠れてしまうことがある。この場合、画像から頭部が検出されなくなる。つまり、合焦対象部位である頭部の検出は失敗する。このため、頭部を合焦対象部位としたデフォーカス量を取得することができなくなる。そこで、本実施形態は、以下の処理を行う。

最初に、Ｓ２００で、ＣＰＵ１５１は、撮像制御部１４３から供給される画像を取得する。撮像制御部１４３から供給される画像は、ＣＰＵ１５１以外にも供給され得る。ＣＰＵ１５１は、取得した画像を、物体検出部１６２に入力する。Ｓ２０１で、物体検出部１６２は、ＣＰＵ１５１からの画像をＣＮＮに入力して、被写体としての人物の人体における複数の部位を推定する。物体検出部１６２は、人物の１以上の部位（関節部位）を推定結果として検出する。

ここで、Ｓ２０１で、物体検出部１６２は、取得された画像の興味領域から何れの部位も検出しないことがある。この場合、ＣＰＵ１５１は、本実施形態の処理をＳ２０２以降の処理を行うことなく、本実施形態の処理を終了させてもよい。また、物体検出部１６２は、取得された画像から、複数の被写体（複数の人物）を検出することがある。この場合、複数の人物のうち何れの人物の頭部が合焦対象部位であるかは、例えば、操作者が操作スイッチ１５６を用いて指定されてもよい。また、ＣＰＵ１５１は、物体検出部１６２が複数の人物を検出した場合には、Ｓ２０２以降の処理を行うことなく、本実施形態の処理を終了させてもよい。

上述したように、合焦対象部位である頭部は、他の人物や障害物、被写体である人物の頭部以外の部位により隠れてしまうことがある。そこで、Ｓ２０２で、ＣＰＵ１５１は、物体検出部１６２が頭部を検出したかを判定する。ＣＰＵ１５１は、Ｓ２０２でＹＥＳと判定した場合、処理をＳ２０３に進める。この場合、合焦対象部位である頭部が検出されている。従って、Ｓ２０３で、ＣＰＵ１５１は、画像に含まれる頭部のデフォーカス量を算出することにより取得する。そして、取得されたデフォーカス量に基づいて、レンズユニット１０１の１以上のレンズが駆動される。

一方、ＣＰＵ１５１は、Ｓ２０２でＮＯと判定した場合、つまり取得された画像から頭部が検出されなかった場合、処理をＳ２０４に進める。Ｓ２０４で、ＣＰＵ１５１は、検出された各部位のデフォーカス量を算出し、算出された各デフォーカス量から深度差の度合いが所定値以上であるかを判定する。本実施形態では、各デフォーカス量の「最大値と最小値の差分」を深度差の度合いとし、ＣＰＵ１５１は、深度差の度合いが大きいかを判定する。ＣＰＵ１５１は、Ｓ２０４でＮＯと判定した場合（深度差の度合いが所定値未満である場合）、処理をＳ２０５に進める。つまり、深度差の度合いが小さい場合、Ｓ２０５が実行される。一方、ＣＰＵ１５１は、Ｓ２０４でＹＥＳと判定した場合（深度差の度合いが所定値以上である場合）、処理をＳ２０６に進める。つまり、深度差の度合いが大きい場合、Ｓ２０６が実行される。

Ｓ２０５で、ＣＰＵ１５１は、検出された複数の部位の何れかを選択し、選択された部位のデフォーカス量を頭部のデフォーカス量と推測（予測）して、合焦させる制御を行う。部位の選択は、例えば、操作スイッチ１５６に対する操作者の指示により行われてもよい。上述した深度差の度合いが小さければ、何れの部位が選択されても、選択された部位に合焦され、頭部も深度内に収まる可能性が高い。このため、ＣＰＵ１５１は、検出された複数の部位の何れかの部位のデフォーカス量を算出して、合焦させる制御を行う。ここで、ＣＰＵ１５１は、検出された複数の部位のうち、合焦対象部位に近い部位を優先的に選択する。ＣＰＵ１５１は、合焦対象部位である頭部から近いと考えられる順に合焦できるかを判定し、最初に合焦できると判定された部位に合焦してもよい。

例えば、ＣＰＵ１５１は、合焦対象部位である頭部から近い肩部、腹部、足部の順に合焦できるかを判定し、最初に合焦できると判定された部位に基づいて、デフォーカス量を推測してもよい。つまり、ＣＰＵ１５１は、頭部から最も近い合焦可能な部位に基づいて、デフォーカス量を推測してもよい。取得されたデフォーカス量に基づいて、レンズユニット１０１の１以上のレンズが駆動される。また、ＣＰＵ１５１は、検出された複数の部位のうち合焦可能な部位のデフォーカス量の平均値または中央値をデフォーカス量と推測してもよい。この場合も、取得されたデフォーカス量に基づいて、レンズユニット１０１の１以上のレンズが駆動される。

上述したように、ＣＰＵ１５１は、Ｓ２０４でＹＥＳと判定した場合、つまり各部位のデフォーカス量の深度差の度合いが大きい場合、処理をＳ２０６に進める。この場合、Ｓ２０６で、ＣＰＵ１５１は、被写体としての人物の両肩部が検出されているかを判定する。ＣＰＵ１５１は、Ｓ２０６でＹＥＳと判定した場合、処理をＳ２０７に進める。つまり、物体検出部１６２により、被写体としての人物の左肩部および右肩部の両者が検出されている場合、ＣＰＵ１５１は、Ｓ２０６でＹＥＳと判定する。

Ｓ２０８で、ＣＰＵ１５１は、検出されている左肩部および右肩部のそれぞれのデフォーカス量の平均値を、頭部のデフォーカス量として取得する。この場合の頭部のデフォーカス量は、検出されている左肩部および右肩部のそれぞれのデフォーカス量の平均値に基づく推測値（予測値）である。図３は、障害物により頭部が隠れている画像の一例を示す図である。図３に示されるように、画像中で、被写体である人物の頭部は障害物により隠れている。この場合、物体検出部１６２から頭部は検出されない。一方、画像には、左肩部および右肩部が含まれており、物体検出部１６２は、図３の画像をＣＮＮの入力として、左肩部および右肩部を推定する。これにより、推定結果として左肩部および右肩部が検出される。

ＣＰＵ１５１は、検出された左肩部および右肩部のそれぞれのデフォーカス量の平均値を算出する。頭部は、左肩部と右肩部との中央に対応する領域の上部に位置するため、ＣＰＵ１５１は、算出したデフォーカス量の平均値を頭部のデフォーカス量を推測値として取得する。これにより、頭部が障害物により隠れていたとしても、推測値に基づくデフォーカス量を取得できる。そして、取得されたデフォーカス量に基づいて、レンズユニット１０１が駆動される。

Ｓ２０７では、ＣＰＵ１５１は、両肩部のデフォーカス量の平均値から頭部のデフォーカス量を取得しているが、頭部のデフォーカス量は任意の部位の平均値から取得されてもよい。例えば、物体検出部１６２が左右の肘部を検出している場合、ＣＰＵ１５１は、検出されている左右の肘部のデフォーカス量の平均値を、頭部のデフォーカス量として取得してもよい。また、例えば、合焦対象部位が胴部であり、且つ物体検出部１６２が左右の膝部を検出している場合、ＣＰＵ１５１は、検出されている左右の肘部のデフォーカス量の平均値を、頭部のデフォーカス量として取得してもよい。

ＣＰＵ１５１は、Ｓ２０６でＮＯと判定した場合、処理をＳ２０８に進める。物体検出部１６２から、左肩部と右肩部とのうち何れか一方または両方が検出されなかった場合、ＣＰＵ１５１は、Ｓ２０６でＮＯと判定する。この場合、Ｓ２０８で、ＣＰＵ１５１は、頭部から足部までの３つの部位が直線的になっているかを判定する。例えば、ＣＰＵ１５１は、物体検出部１６２により検出された頭部と胴部と足部とが直線的な姿勢になっているかに基づいて、Ｓ２０８の判定を行う。ＣＰＵ１５１は、Ｓ２０８でＹＥＳと判定した場合、処理をＳ２０９に進める。一方、ＣＰＵ１５１は、Ｓ２０８でＮＯと判定した場合、処理をＳ２０５に進める。

図４は、被写体が直線的な姿勢になっているか否かを説明するための図である。図４の例では、物体検出部１６２により右肩部と胴部と右足部とが検出されており、頭部は検出されていないものとする。ＣＰＵ１５１は、検出された右肩部と胴部と右足部とのうち最も離れた２点である右肩部と右足部とを結ぶ線分を設定し、該直線と胴部との間の距離を算出する。図４（ａ）は、右肩部と右足部とを結ぶ直線と胴部との間の距離Ｌ１が所定距離未満である例を示す。この場合、距離Ｌ１が短いため、ＣＰＵ１５１は、被写体が直線的な姿勢になっていると判定する。一方、図４（ｂ）は、右肩部と右足部とを結ぶ直線と胴部との間の距離Ｌ２が所定距離以上である例を示す。この場合、距離Ｌ２が長いため、ＣＰＵ１５１は、被写体が直線的な姿勢になっていないと判定する。

Ｓ２０９で、ＣＰＵ１５１は、胴部のデフォーカス量および足部のデフォーカス量から頭部のデフォーカス量を近似することで取得する。このとき、ＣＰＵ１５１は、以下の式により、頭部のデフォーカス量を取得する。

ただし、「数１」の式において、頭部のデフォーカス量は、以下の「数２」で表される。

また、胴部のデフォーカス量は、以下の「数３」で表される。

そして、足部のデフォーカス量は、以下の「数４」で表される。

「数１」で表される式は、胴部のデフォーカス量が頭部と足部とのデフォーカス量の平均値によって近似できるという想定に基づく。以上により、ＣＰＵ１５１は、頭部のデフォーカス量を推測する。

図２に示されるように、Ｓ２１０で、ＣＰＵ１５１は、図２の各処理を終了するかを判定する。例えば、ＣＰＵ１５１は、Ｓ２００で取得された画像が、動画像を構成する複数の画像のうち最後の画像であるか否かに基づいて、Ｓ２０７の判定を行ってもよい。ＣＰＵ１５１は、Ｓ２１０でＹＥＳと判定した場合、処理を終了させる。一方、ＣＰＵ１５１は、Ｓ２１０でＮＯと判定した場合、処理をＳ２００に戻す。

上述したように、物体検出部１６２は、ＣＮＮを用いて、被写体および複数の部位を検出する。ＣＮＮは、例えば、畳み込み層とプーリング層とが交互に積層された層構造に、全結合層および出力層が結合されたネットワークであってもよい。この場合、ＣＮＮの学習としては、例えば、誤差逆伝搬法等が適用され得る。また、ＣＮＮは、特徴検出層（Ｓ層）と特徴統合層（Ｃ層）とをセットとした、ネオコグニトロンのＣＮＮであってもよい。この場合、ＣＮＮの学習としては、「Ａｄｄ−ｉｆＳｉｌｅｎｔ」と称される学習手法が適用され得る。

ＣＮＮの機械学習は、サーバ等の所定のコンピュータが行ってもよい。画像処理装置または撮像装置１００は、学習されたＣＮＮを、所定のコンピュータから取得してもよい。この場合、画像処理装置または撮像装置１００は、外部装置と通信を行う通信手段（例えば、通信インタフェース）を有する。例えば、所定のコンピュータが、学習用の画像データを入力とし、学習用の画像データに対応する被写体および被写体の複数の部位を教師データとした教師あり学習を行うことで、ＣＮＮの学習が行われてもよい。以上により、学習済みのＣＮＮが生成される。画像処理装置または撮像装置１００は、所定のコンピュータから通信手段を介して、学習済みのＣＮＮを取得してもよい。ＣＮＮの学習は、撮像装置１００で行われてもよい。ＣＮＮ以外の他の機械学習アルゴリズムにより生成される学習済みを用いる場合も同様である。

また、上述した画像処理装置または撮像装置１００は、推定手段としての物体検出部１６２を有していなくてもよい。画像処理装置または撮像装置１００は、通信手段を介して、物体検出部１６２の機能を有する推定装置（例えば、エッジコンピュータ）に画像を送信する。推定装置は、上述した物体検出部１６２と同様の処理を行い、推定結果を画像処理装置または撮像装置１００に送信する。これにより、ＣＰＵ１５１は、本実施形態の処理を行うことができる。

以上、説明したように、本実施形態では、物体検出部１６２は、学習済みのＣＮＮに画像を入力して、画像中の被写体の複数の部位を推定し、推定された複数の部位を検出する。そして、ＣＰＵ１５１は、検出された複数の部位のうち合焦対象部位ではない１以上の部位のデフォーカス量に基づいて、合焦対象部位のデフォーカス量を推測する。これにより、合焦対象領域が検出されない場合でも、合焦対象領域のデフォーカス量を取得することができる。また、頭部の下に測距エリアが設定されているか否かにかかわらず、合焦対象領域のデフォーカス量を取得することができる。

以上において、ＣＰＵ１５１は、物体検出部１６２が検出した被写体の複数の部位に基づいて推測した合焦対象部位を特定する枠が画像に重畳された画面を、表示手段としてのモニタディスプレイ１５０に表示させてもよい。例えば、モニタディスプレイ１５０は、合焦対象部位である頭部を特定する枠が重畳された画面を表示してもよい。このとき、モニタディスプレイ１５０には、頭部を囲うような矩形の枠が重畳された画面が表示されてもよい。また、ＣＮＮ等の学習済みモデルにより推定された複数の部位から得られる合焦対象部位を特定する枠の表示態様は、通常の物体検出手法により検出された物体を特定する表示態様とは異なっていてもよい。これにより、モニタディスプレイ１５０に表示されている枠が、ＣＮＮ等の学習済みモデルによる推定結果に基づいて特定された合焦対象部位を特定する枠であることが分かる。

以上、本発明の好ましい実施の形態について説明したが、本発明は上述した各実施の形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。本発明は、上述の各実施の形態の１以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの１つ以上のプロセッサーがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００撮像装置
１５０モニタディスプレイ
１５１ＣＰＵ
１５２画像処理部
１６２物体検出部

Claims

画像から被写体の複数の部位を検出する検出手段と、
検出された前記複数の部位のうち合焦対象部位ではない１以上の部位のデフォーカス量に基づいて、前記合焦対象部位のデフォーカス量を推測する制御を行う制御手段と、
を備えることを特徴とする画像処理装置。
前記制御手段は、前記画像から前記合焦対象部位が検出されなかった場合に、前記合焦対象部位のデフォーカス量の推測を行うことを特徴とする請求項１に記載の画像処理装置。
前記制御手段は、推測された前記デフォーカス量に応じて、１以上のレンズの駆動を行うことを特徴とする請求項１または２に記載の画像処理装置。
前記検出手段が、前記画像から複数の被写体を検出した場合、前記合焦対象部位のデフォーカス量の推測は行われないことを特徴とする請求項１乃至３のうち何れか１項に記載の画像処理装置。
前記制御手段は、前記合焦対象部位ではない１以上の部位のデフォーカス量のうち、前記合焦対象部位に最も近い合焦可能な部位のデフォーカス量を、前記合焦対象部位のデフォーカス量と推測することを特徴とする請求項１乃至４のうち何れか１項に記載の画像処理装置。
前記制御手段は、検出された前記複数の部位のそれぞれのデフォーカス量の最大値と最小値との差分が所定値未満である場合、検出された前記複数の部位のうち何れかの部位のデフォーカス量を前記合焦対象部位のデフォーカス量と推測することを特徴とする請求項１乃至４のうち何れか１項に記載の画像処理装置。
前記制御手段は、検出された前記複数の部位のそれぞれのデフォーカス量の平均値または中央値を前記合焦対象部位のデフォーカス量と推測することを特徴とする請求項１乃至４のうち何れか１項に記載の画像処理装置。
前記検出手段は、前記被写体としての人物の複数の部位を検出することを特徴とする請求項１乃至４のうち何れか１項に記載の画像処理装置。
前記合焦対象部位は前記人物の頭部であることを特徴とする請求項８に記載の画像処理装置。
前記制御手段は、検出された前記人物の左肩部および右肩部のそれぞれのデフォーカス量に基づいて、前記頭部のデフォーカス量を推測することを特徴とする請求項９に記載の画像処理装置。
前記制御手段は、検出された前記人物の胴部のデフォーカス量と足部のデフォーカス量とに基づいて、前記頭部のデフォーカス量を推測することを特徴とする請求項９に記載の画像処理装置。
前記制御手段は、前記頭部と前記胴部と前記足部とが直線的になっている場合にのみ、前記胴部のデフォーカス量と前記足部とデフォーカス量とに基づく前記頭部のデフォーカス量の検出を行うことを特徴とする請求項１１に記載の画像処理装置。
前記画像に前記合焦対象部位を特定する枠が重畳された画面を表示する表示手段、をさらに備えることを特徴とする請求項１乃至１２のうち何れか１項に画像処理装置。
前記検出手段は、機械学習により学習された学習済みモデルを用いて、前記被写体の複数の部位を推定することを特徴とする請求項１乃至１３のうち何れか１項に記載の画像処理装置。
画像から被写体の複数の部位を推定する推定装置から推定結果を取得する通信手段と、
前記推定結果が示す、推定された前記複数の部位のうち合焦対象部位ではない１以上の部位のデフォーカス量に基づいて、前記合焦対象部位のデフォーカス量を推測する制御を行う制御手段と、
を備えることを特徴とする画像処理装置。
撮像素子と、
請求項１乃至１５のうち何れか１項に記載の画像処理装置と、
を備えることを特徴とする撮像装置。
画像から被写体の複数の部位を検出する工程と、
検出された前記複数の部位のうち合焦対象部位ではない１以上の部位のデフォーカス量に基づいて、前記合焦対象部位のデフォーカス量を推測する制御を行う工程と、
を備えることを特徴とする画像処理方法。
請求項１乃至１５のうち何れか１項に記載の画像処理装置の各手段をコンピュータに実行させるためのプログラム。