JP5219847B2

JP5219847B2 - 画像処理装置及び画像処理方法

Info

Publication number: JP5219847B2
Application number: JP2009003663A
Authority: JP
Inventors: 洋東條
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-01-09
Filing date: 2009-01-09
Publication date: 2013-06-26
Anticipated expiration: 2029-01-09
Also published as: US20100177159A1; US8797381B2; JP2010161718A

Description

本発明は画像処理装置、画像処理方法、プログラム及び記録媒体に関し、特に、被写体を検出して撮影範囲を決定するために用いて好適な技術に関する。

従来、被写体の領域を検出し、被写体の領域の全てが収まるように撮影範囲を決定して調整する技術（以下、オートフレーミングと呼ぶ）が開示されている。例えば、特許文献１に記載の技術では、テレビ会議用のカメラにおいて、会議前の会議室を予め撮影して背景画像とし、会議を開始する時の画像との差分により、会議の参加者の位置を求め、会議の参加者全員が撮影範囲内に収まるようにズームを制御している。

また、例えば、特許文献２に記載のデジタル画像印刷システムでは、顔領域を検出し、全ての顔領域が撮影範囲内に収まるようにズームを制御している。さらに、例えば、特許文献３に記載の技術では、人が着席したことを検出して一旦撮影を行い、撮影した顔の位置が適切であるときはカメラの位置を調整した後に、撮影指示の入力待ちとなるようにしている。

特開昭６０−２０８１８４号公報特開２００５−２９４９５１号公報特開２００７−１８９７１７号公報 Rowley et al, "Neural network-based face detection", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20 , NO.1, JANUARY 1998 Yang et al, "Detecting Faces in Images: A Survey", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.24 , NO.1, JANUARY 2002

しかしながら、例えば、テレビ会議の会議を開始する直前においては、被写体となる人物が会議の準備などを行っており、カメラを十分に意識しないような状況下では、次の問題が生じる。会議を開始する直前においては被写体がカメラを意識していないため、時折、下を向いたり、横を向いたりすることがあるが、顔検出では正面を向いた顔しか検出できないため、このような場合は、未検出となる。

また、会議中においても、会議室中にある他のオブジェクトを顔として誤検出する場合もある。さらに、被写体が動いてしまった場合には、被写***置の検出が正確に行うことができなくなってしまうこともある。このような課題に対処するためには、被写体に対して動かずにじっとカメラの方を注視してもらうなど、ユーザに多くの負荷が掛かっていた。

さらに、例えばテレビ会議の場合、参加者が会議を行う場所へ来て着席するまで、参加者によって行動がまちまちであることの方が多い。従来、このような状況では、参加者の全員が着席し、全員がカメラの方を見たことを確認した後に、ユーザはオートフレーミングの開始を指示する必要があった。

本来、オートフレーミングを行うメリットとしては、その間にユーザが会議の準備を行うなど、他の作業を行うことができることである。したがって、ユーザがどのようなタイミングにオートフレーミングの開始を指示しても適切に動作することが望ましい。

そこで、特許文献３に記載の技術によれば、着席したことを検出した後にオートフレーミングを行っている。ところが、既に着席した状態でユーザによりオートフレーミングを開始する指示が行われた場合は、着席した状態が続くためオートフレーミングはいつまでも開始されないことになる。また、着席した状態であっても、カメラの方を全員が常に見ているとは限らないため、全員の位置を正しく検出できるとは限らない。

さらに、着席したことを検出する場合は、椅子が足りなくなって立っている人がいるような場合には対応できなかった。また、テレビ会議ではなく、集合写真撮影のように全員が立っていたり、前列の人は椅子に座っているが、後列の人は立っていたり、といった場合には対応できなかった。

本発明は前述の問題点に鑑み、適正な撮影範囲を簡単に決定して調整することができるようにすることを目的とする。

本発明の画像処理装置は、被写体を撮像してフレーム画像を生成する撮像手段と、前記撮像手段によって生成された所定時間分のフレーム画像に含まれる被写体領域を検出する被写体検出手段と、前記被写体検出手段より検出された所定時間分の被写体領域から、前記撮像手段により撮影可能な範囲内に被写体が存在する確率分布を算出する算出手段と、前記算出手段によって算出された確率分布に基づいて、前記フレーム画像の撮影範囲を決定する決定手段とを備えたことを特徴とする。

本発明の画像処理方法は、被写体を撮像してフレーム画像を生成する撮像工程と、前記撮像工程において生成された所定時間分のフレーム画像に含まれる被写体領域を検出する被写体検出工程と、前記被写体検出工程において検出された所定時間分の被写体領域から、前記撮像工程において撮影可能な範囲内に被写体が存在する確率分布を算出する算出工程と、前記算出工程において算出された確率分布に基づいて、前記フレーム画像の撮影範囲を決定する決定工程とを備えたことを特徴とする。

本発明のプログラムは、被写体を撮像してフレーム画像を生成する撮像工程と、前記撮像工程において生成された所定時間分のフレーム画像に含まれる被写体領域を検出する被写体検出工程と、前記被写体検出工程において検出された所定時間分の被写体領域から、前記撮像工程において撮影可能な範囲内に被写体が存在する確率分布を算出する算出工程と、前記算出工程において算出された確率分布に基づいて、前記フレーム画像の撮影範囲を決定する決定工程とをコンピュータに実行させることを特徴とする。

本発明の記録媒体は、前記に記載のプログラムを記録したことを特徴とする。

本発明によれば、一時的に未検出であったり誤検出が生じたり、もしくは被写体の動きが生じても、ユーザに対する負荷を軽減し、適正な撮影範囲を簡単に決定して調整することが可能となる。

（第１の実施形態）
以下、添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。なお、以下、本発明の画像処理装置をテレビ会議に適用した場合について説明する。

図１は、本実施形態に係る画像処理装置１００の機能構成例を示すブロック図である。
図１において、撮像部１０１は、映像データを入力するためのものである。画像取得部１０２は、撮像部１０１に入力された映像データよりフレーム画像を取得するためのものである。撮像部１０１及び画像取得部１０２は、撮像手段として機能する。

エンコーダ部１０３は、画像取得部１０２により得られたフレーム画像を所定の符号化方式に従って、エンコードを行うためのものである。送信部１０４は、エンコードされた映像ストリームを送信するためのものであり、映像ストリームがデコーダやディスプレイなどを備えた装置で受信されることにより、画像処理装置１００で撮像した映像を視聴することができる。

被写体検出部１０５は、画像取得部１０２により得られたフレーム画像から被写体を検出するためのものである。被写体存在確率分布算出部１０６は、被写体検出部１０５の検出結果を集計し、各位置における被写体の存在する確率分布を算出するためのものである。撮影範囲決定部１０７は、被写体存在確率分布算出部１０６において算出された被写体の存在する確率分布に基づいて、被写体が全て収まるような範囲を決定するためのものである。

制御パラメータ生成部１０８は、撮影範囲決定部１０７において決定された撮影範囲に基づいて、撮像部１０１の制御パラメータ（ズーム位置）を決定するためのものである。また、ズーム制御部１０９は、前記制御パラメータ（ズーム位置）に基づいて、撮像部１０１をズーム制御するためのものである。

次に、本実施形態における処理の流れについて、図３の動作概要図と図４のフローチャートとを参照しながら説明する。図３は、会議室の様子を示す概略図である。
図３（ａ）において、会議室３０１には、会議参加者３０２，３０３と本実施形態に係る画像処理装置３０４とがあり、それ以外には映像を映し出すディスプレイやテーブルなどがある。

まず、テレビ会議を開始する前に、図３（ａ）に示すように、ユーザにより画像処理装置３０４が、通信相手と目線が合うようにディスプレイの側などに設置される。その後、画像処理装置３０４の電源がＯＮにされると、図４のフローチャートに従って動作するものとする。

まず、ステップＳ４０１は終了判定であり、電源ＯＦＦの指示があるまでステップＳ４０２からステップＳ４１１の処理を繰り返す。

次に、ステップＳ４０２において、画像取得部１０２は、撮像部１０１へ入力された映像をフレーム画像として取得する。そして、エンコーダ部１０３は、フレーム画像をＭＰＥＧ−１、ＭＰＥＧ−２、Ｍｏｔｉｏｎ−ＪＰＥＧなどの形式にエンコードし、送信部１０４により映像ストリームとして送信する。

次に、ステップＳ４０３において、画像取得部１０２は、現在の設定がカメラ設定アシストモードであるかどうかを判定する。この判定の結果、現在の設定がカメラ設定アシストモードでない場合は、ステップＳ４０１に戻る。ここでカメラ設定アシストモードとは、カメラの前に存在する被写体全てが収まるように撮像範囲を自動的に調整（フレーミング）するためのモードである。カメラ設定アシストモードには、電源投入時に自動的に移行するようにしてもよいし、ユーザのボタン（図示せず）操作によって任意のタイミングで移行するようにしてもよい。

なお、図３に明示していないが、カメラ設定アシストモードに移行した時は、広角側（Wide端）へ制御されるものとする。図３（ａ）に示す画角３０５は、このときの画角を示しており、このときのフレーム画像３０６は、人物が小さく写ったものとなっている。

以下、ステップＳ４０４からステップＳ４０９までが、カメラ設定アシストモードにおける動作となる。ステップＳ４０３の判定の結果、現在の設定がカメラ設定アシストモードである場合には、ステップＳ４０４において、被写体検出部１０５は、フレーム画像から被写体を検出する。なお、被写体の検出方法には様々なものがあるが、本実施形態では、被写体の顔を検出するものとして説明する。また、顔検出の詳細については、後述する。

次に、ステップＳ４０５において、被写体存在確率分布算出部１０６は、検出された被写体の数をフレーム内の位置ごとにカウントして集計する。そして、位置に対する被写体の検出数に関するヒストグラムを作成する。

次に、ステップＳ４０６において、被写体存在確率分布算出部１０６は、所定時間が経過したか否かを判定する。この判定の結果、所定時間が経過した場合は、ステップＳ４０７へ進む。一方、ステップＳ４０６の判定の結果、所定時間が経過していない場合は、ステップＳ４０１へ戻る。

次に、ステップＳ４０７において、被写体存在確率分布算出部１０６は被写***置存在確率分布を算出し、算出した被写***置存在確率から、被写体の存在する確率の高い領域を求める。なお、被写体の存在する確率の高い領域を求める処理の詳細については後述する。次に、ステップＳ４０８において、撮影範囲決定部１０７は、例えば図３（ａ）に示すように、被写体の撮影する範囲３０７を決定する。

次に、ステップＳ４０９において、制御パラメータ生成部１０８は、被写体が存在する範囲がフレーム一杯になるように制御パラメータ（ズーム位置＝焦点距離）を決定する。このとき、被写体が存在する範囲の面積を何倍すればフレームの面積と同一となるかを計算すればよい。そして、この計算結果から焦点距離に換算する。例えば、Wide端で１０ｍｍのレンズで２倍とするためには、２０ｍｍとすればよい。

次に、ステップＳ４１０において、ズーム制御部１０９は、前記決定したズーム位置に基づいて撮像部１０１を制御し、ズームする。このとき、図３（ｂ）に示すような画角３０８となる。そして、ステップＳ４１１において、カメラ設定アシストが完了したので、ズーム制御部１０９は、カメラ設定アシストモードをＯＦＦにして、ステップＳ４０１へ戻る。

次に、顔検出処理の詳細について説明する。本実施形態では、非特許文献１で提案されているニューラル・ネットワークにより画像中の顔パターンを検出する方法を適用した場合について説明する。

まず、顔検出の対象となる画像データをメモリから読み出し、読み出した画像から、顔と照合する所定の領域を切り出す。そして、切り出した領域の画素値の分布から、ニューラル・ネットワークによって演算を行う。このとき、ニューラル・ネットワークの重み、閾値は、膨大な顔パターンと非顔パターンとによりあらかじめ学習されており、例えば、ニューラル・ネットワークによる演算結果が０以上なら顔と判別し、それ以外は非顔であると判別する。

そして、顔と照合する画像パターンの切り出し領域の位置を、例えば、図７に示すように画像全域から縦横順次に走査していくことにより、画像の中から顔を検出する。また、様々な大きさの顔の検出に対応するため、図７に示すように読み出した画像を所定の割合で順次縮小し、それに対して前述した顔検出の走査を行うようにしている。なお、画像の中から顔を検出する方法としては、前述したニューラル・ネットワークによる方法に限定されるものではなく、例えば、非特許文献２に挙げられている各種方式も適用可能である。

次に、被写体存在確率分布を算出し、被写***置を決定するまで処理（図４のステップＳ４０５からステップＳ４０７までの一連の処理）の詳細について説明する。なお、被写体存在確率分布を算出する処理については、フレーム画像は２次元であるが、説明を簡単にするために水平方向の１次元で説明する。

まず、図６を参照しながら被写体存在確率分布の概要を説明する。図６は、本実施形態における被写体存在確率分布の一例を示す図である。図６において、横軸はフレーム内の水平方向の位置を示しており、縦軸は所定時間内に顔検出された数を示している。

第１のピーク６０１は、被写体が動いていたために山が広がった形状となっており、第２のピーク６０２では、被写体が静止していたため山の形状がやや細くなっている。さらに、第３のピーク６０３では、誤検出が発生したため小さな山の形状となっている。このように被写体がフレーム内の位置に存在する確率の分布について、そのピークを求めることによって、被写体が実際に存在している確率の高い位置を求める。

次に、算出処理の詳細について説明する。図５は、顔検出の結果からヒストグラムを作成する概要を示す図である。図５においては、フレーム画像５０１内で、所定の時間内に５回顔検出を行った結果を重ね描きして示しており、１０個の顔領域が検出されている。図５に示す例では、被写体は２人であり、顔領域群５０２では、被写体が動いてしまったために、５つの顔領域が少しずつずれた領域となっている。一方、顔領域５０３では、被写体がほとんど動いておらず、５回顔検出を行っているが、１回は未検出となったために４個の顔領域として検出されている。また、顔領域５１１は、誤検出したものを示している。

また、図５に示すように、ヒストグラムを作成するために、フレーム画像の水平方向の辺を、所定のビンに分割する。各ビンのなかで、顔領域の中心を含む場合は、１とカウントする。このように計算することにより、図５に示すようなヒストグラム５０６が作成される。なお、図５に示す例では、顔領域の大きさは全て等しいが、大きさの異なるものが存在する場合は、顔領域の大きさごとにヒストグラムを求めるようにしておく。これにより、後述する撮影範囲を決定する時に、適正な撮影範囲の決定が可能になる。

次に、ヒストグラムの各ビンの度数を、顔検出を行った回数（図５に示す例では５回）で割ることによって、ビンの中の顔領域（の中心）が存在する確率を求めることができる。そして、このように算出した被写体存在確率分布より、被写体の存在する確率の高いピークを抽出する。まず、各ビンに対応する被写体存在確率の値を加算して積分し、閾値以上となるところを探す。このとき、存在確率は１に近いほど高い確率となるので、閾値としては１に近い値（例えば、０．８）を用いる。ただし、顔検出を行った時間が長ければ長いほど、被写体は様々な状態を取りうる。例えば、顔の向きが正面から変化して検出できない状態も多くなる。このような場合は、閾値はやや小さい値とした方が適切である。

なお、被写体存在確率分布の値を加算できるビン数（ピーク幅）は所定値以内とする。これは、なだらかな山をピークと誤検出しないようにするためである。また、より厳密に顔検出を行いたい場合は、ピーク幅（ビン数）とピーク値（着目するビン内の存在確率の最大値）との関係を定義しておけばよい。なお、ピークを抽出する方法については前述したものに限ったものではなく、ガウス近似を用いるなど様々な方法が適用可能である。以上のような方法により、図５において、第１のピーク５０７及び第２のピーク５０８が抽出される。

次に、ステップＳ４０８において、被写体の存在する確率の高い領域を全て含むように撮影範囲を決定する処理の詳細について説明する。図１２は、撮影範囲を決定する方法の概要を説明する図である。

図１２において、第１の斜線部１２０２及び第２の斜線部１２０３は、顔領域の中心の被写体存在確率の高い領域である。図１２においては、縦方向と横方向とのピーク幅を辺とする矩形で示している。なお、第１の斜線部１２０２及び第２の斜線部１２０３は顔領域のサイズが互いに異なり、それぞれサイズごとの被写体存在確率分布から求めた被写体存在確率の高い領域である。それぞれに対応するサイズの顔領域を描くと、それぞれ第１の領域１２０４及び第２の領域１２０５となる。

なお、第１の領域１２０４の中心は、第１の斜線部１２０２に含まれていればよく、第２の領域１２０５の中心は、第２の斜線部１２０３に含まれていればよい。なお、最も簡単な方法としては、ピーク値となる第１の斜線部１２０２及び第２の斜線部１２０３の中心に、それぞれ第１の領域１２０４の中心及び第２の領域１２０５の中心を合わせればよい。

また、被写体が動いているような場合に、被写体を撮影範囲内によりもれなく収めるようにするために、次のような決定方法もある。フレーム１２０１を均等に２×２に分割すると、第１の斜線部１２０２はフレーム１２０１の左上に位置するので、第１の斜線部１２０２の左上の頂点を第１の領域１２０４の中心とする。一方、第２の斜線部１２０３は、フレーム１２０１の右上に位置するので、第２の斜線部１２０３の右上の頂点を第２の領域１２０５の中心とする。

以上のようにして存在する確率の高い被写体の領域が求まると、これらの第１の領域１２０４及び第２の領域１２０５が全て収まるように撮影する撮影範囲１２０６を決定する。決定方法としては、例えば、フレーム１２０１と同じ大きさ、中心、アスペクト比の矩形を、大きさのみ徐々に小さくしていく。そして、第１の領域１２０４または第２の領域１２０５のどちらかの辺が内接したところで、この矩形を撮影範囲１２０６として設定するようにすればよい。

なお、前記の方法ではフレームの端側に存在する被写体の領域が、必ずフレームに接するようになるので、内接させずに所定のマージンを持たせるようにしてもよい。また、図１３に示すようなテンプレートを用いると、全ての被写体がバストショットとなるように撮影範囲を決定することもできる。平均的な人１３０１の上体のサイズと顔のサイズとの比、及び、その相対的な位置関係から、図１３に示すような顔領域１３０２及び上体１３０３となるようなテンプレートを用意する。顔領域の位置とサイズとが決まったら、このテンプレートを拡大又は縮小させて適用し、上体１３０３を含むように撮影範囲を決定すれば、全ての被写体がバストショットで撮影できるようになる。

以上のように本実施形態によれば、同じ位置に対して所定時間連続的に被写体検出を行い、確率分布を求めることにより、確率の高い被写***置を得ることができる。これにより、一時的に未検出であったり誤検出が生じたり、もしくは被写体の動きが生じても、ユーザに対する負荷を軽減し、適正な撮影範囲を簡単に決定して調整することが可能となる。

（第２の実施形態）
本実施形態では、パン・チルト・ズーム制御を行う場合の撮影範囲の決定方法について説明する。
図２は、本実施形態に係る画像処理装置２００の機能構成例を示すブロック図である。なお、図２に示す構成は、第１の実施形態の構成に、撮像部１０１をパン・チルトさせるためのパン・チルト制御部２１０が追加されたものである。図２において、第１の実施形態と同一の構成には、同じ番号を付与しており、同一の構成については説明を省略する。

図８は、本実施形態において、オートフレーミングを行う処理手順の一例を示すフローチャートである。なお、ステップＳ８０１からステップＳ８０３については、第１の実施形態における図４のステップＳ４０１からステップＳ４０３と同じであるため、説明は省略する。カメラ設定アシストモードの時は、ステップＳ８０４においては、顔検出を行うが、カメラが撮影可能な範囲全体を撮影するように、パン・チルトの制御中の映像に対して顔検出を行う。

図９は、本実施形態において、パン・チルト制御を行った場合のフレームの範囲の一例を示す図である。
図９において、９０１は本実施形態の画像処理装置２００がパン・チルトして撮影可能な全範囲である。９０２はフレームの範囲（Wide端）を示している。

次に、ステップＳ８０５において、位置ごとに被写体の検出数をカウントし、集計するが、パンをしながら撮影すると、例えば、領域９０３は、図９（ａ）に示す状態から図９（ｂ）に示す状態になるまでの時間分、撮影されることになる。よって、第１の実施形態と同様に所定の領域について、所定の時間だけ、顔検出されることになる。

なお、カメラの画角によっては、パン・チルトしながら全撮影範囲をラスタ状に撮影すると、はじめのラインと次のラインとで重なる部分が出てくるが、この重なる部分については他の部分に比べて長い時間顔検出を行うことになる。同一の条件にする場合には、重なりの部分に対しては、他の部分よりも小さな重みをつけるようにすればよい。また、パン・チルト制御部２１０により、モータ等の制約で常に同じ角速度で動かすことが難しい場合は、角速度が小さいほど長い時間、同じ位置を撮影できるので、角速度に比例するように重み付けするようにすればよい。

ステップＳ８０６からステップＳ８０７は、図４のステップＳ４０６からステップＳ４０７と同様であるため、説明は省略する。次に、ステップＳ８０８においては、ステップＳ４０８とほぼ同様であるが、第１の実施形態と異なり、パン・チルト制御が可能である。そこで、図１２に示す撮影範囲１２０６は、中心をフレーム１２０１と一致させる必要がなくなる。したがって、フレーム１２０１と同じアスペクト比を持つ矩形を、その中心と大きさとを変化させ、第１の領域１２０４または第２の領域１２０５のいずれかの辺と接するように決定するようにすればよい。

ステップＳ８０９において、制御パラメータ生成部１０８は撮影範囲がフレーム一杯になるように制御パラメータとして、パン・チルトの角度とズーム位置とを決定する。そして、ステップＳ８１０において、パン・チルト制御部２１０は、前記のパン・チルトそれぞれの角度に応じて撮像部１０１を制御し、ズーム制御部１０９は、前記ズーム量に基づいて撮像部１０１を制御する。なお、ステップＳ８１１はステップＳ４１１と同じであるため説明は省略する。

（第３の実施形態）
本実施形態では、ズームを制御して撮影範囲を制御するのではなく、入力されたフレーム画像を、決定した被写体存在範囲（撮影範囲）に切り出し、決定した拡大率に拡大して出力する例について説明する。

図１０は、本実施形態に係る画像処理装置１０００の機能構成例を示すブロック図である。なお、図１０に示す構成は、第１の実施形態の構成のズーム制御部１０９を省略し、撮影範囲決定部１０７から得られる被写体存在範囲等の情報をエンコーダ部１０３に入力するようにしたものである。第１の実施形態と同一の構成には、同じ番号を付与しており、同一の構成については説明を省略する。

図１１は、本実施形態において、オートフレーミングを行う処理手順の一例を示すフローチャートである。ステップＳ１１０１からステップＳ１１０７については、第１の実施形態における図４のステップＳ４０１からステップＳ４０７と同じであるため、説明は省略する。また、ステップＳ１１０８は、第２の実施形態における図８のステップＳ８０８と同じであるため、説明は省略する。

ステップＳ１１０９において、撮影範囲決定部１０７は、エンコーダ部１０３に対して、被写体存在範囲（撮影範囲）と、撮影範囲をフレーム一杯にするための拡大率とを設定する。以後、エンコーダ部１０３は、フレーム画像から設定された被写体存在範囲を切り出し、設定された拡大率で拡大するようにする。なお、ステップＳ１１１０は、図４のステップＳ４１１と同じであるため説明は省略する。

（第４の実施形態）
本実施形態では、さらに、被写***置が安定した状態であるかどうかを判定する例について説明する。

図１４は、本実施形態に係る画像処理装置１４００の機能構成例を示すブロック図である。図１４に示す構成は、第１の実施形態の構成に、被写体存在確率分布算出部１０６によって求まった被写***置が安定した状態であるかどうかを判定する被写***置状態判定部１４１０が追加されたものである。図１４において、第１の実施形態と同一の構成には、同じ番号を付与しており、同一の構成については説明を省略する。

図１６は、本実施形態において、オートフレーミングを行う処理手順の一例を示すフローチャートである。ステップＳ１６０１からステップＳ１６０７については、第１の実施形態における図４のステップＳ４０１からステップＳ４０７と同じであるため、説明は省略する。

次に、ステップＳ１６０８において、被写***置状態判定部１４１０は、ステップＳ１６０７で求めた被写***置が安定して存在しているかどうかの判定を行う。この判定の結果、被写***置が安定していない場合は、ステップＳ１６０１へ戻る。そして、安定していると判定されるまでステップＳ１６０１からステップＳ１６０７の処理が繰り返される。

このとき、ステップＳ１６０７で判定された被写***置の情報は不図示のＲＡＭに随時保存される。具体的には、ステップＳ１６０６で設定されている所定時間ごとの被写体存在確率分布より被写体である確率の高い被写***置の情報が複数個分、ＲＡＭに保存される。これらの情報から被写***置が安定しているかどうかを判定する。

一方、ステップＳ１６０８の判定の結果、被写***置が安定している場合は、次のステップＳ１６０９に進む。なお、ステップＳ１６０９からステップＳ１６１２については、第１の実施形態における図４のステップＳ４０８からステップＳ４１１と同じであるため、説明は省略する。

次に、ステップＳ１６０８における被写***置が安定しているか否かを判定する処理について図２０を参照しながら詳細に説明する。図２０は、被写***置が安定しているか否かを判定する例を説明する図である。図２０において、フレーム画像２００１〜２００４は、それぞれ所定時間（ステップＳ１６０６で設定されている時間）ごとの被写体の代表的な状態を示している。ピーク２００５〜２００８はそれぞれ対応する被写体存在確率分布である。なお、図２０では、説明を簡略化するため水平方向の１次元で説明しており、横軸はフレーム内の水平方向の位置を示し、縦軸は所定時間内に顔検出された数を示している。

図２０（ａ）に示す初めの２秒間のフレーム画像２００１では、左側の会議参加者２０１０は準備などをして横を向いており、右側の会議参加者２０２０は前を向いて立っており、まだ着席していない状態である。図２０（ａ）に示すピーク２００５は、このときの被写体存在確率分布である。図２０（ｂ）に示す次の２秒間のフレーム画像２００２では、左側の会議参加者２０１０は前を向いているが、右側の会議参加者２０２０は着席したばかりであり、準備などをして横を向いている。図２０（ｂ）に示すピーク２００６は、このときの被写体存在確率分布である。

図２０（ｃ）に示すさらに次の２秒間のフレーム画像２００３では、左側の会議参加者２０１０は準備などをして横を向いており、右側の会議参加者２０２０は正面を向いて、会議の開始を待っている。図２０（ｃ）に示すピーク２００７は、このときの被写体存在確率分布である。図２０（ｄ）に示す最後の２秒間のフレーム画像２００４では、左側の会議参加者２０１０及び右側の会議参加者２０２０の２人が正面を向いて会議の開始を待っている。図２０（ｄ）に示すピーク２００８は、このとき被写体存在確率分布である。

以上のように、画像処理装置１４００が起動している最後の２秒間においては、被写***置の状態判定を行わなくても、撮影範囲を正しく決定できる状態である。このように、会議開始の直前に画像処理装置１４００を起動させるという条件付きである場合には、被写***置の状態判定を行わなくてもよい。

しかしながら、ユーザの負荷をより軽減するために、どのようなタイミングから画像処理装置を起動しても、正しく撮影範囲を決定できるようにする必要がある。そこで、図１６のステップＳ１６０８では、所定時間ごとの被写体存在確率分布より求まった被写***置の情報をＲＡＭに記憶しておき、これら周期的に求められた複数回分の被写***置を評価することによって、安定した被写***置であるかどうかの判定を行う。

図２０に示す例では、図２０（ａ）に示すピーク２００５の位置は、ピーク２００６〜２００８の位置と一致しないため、被写***置が不安定なものと判定される。一方、図２０（ｂ）に示すピーク２００６と図２０（ｄ）に示すピーク２００８の左側とは一致している。そして、図２０（ｃ）に示すピーク２００７と図２０（ｄ）に示すピーク２００８の右側とは一致している。この結果、これらの２つの被写***置は安定している状態と判定できる。

次に、被写***置の状態の判定基準について説明する。単純な方法としては、所定回数分検出した被写***置が一致した回数を求め、一致した回数が閾値を超えたら安定していると判定する。図２０に示す例であれば、４回分被写***置を検出し、２回以上一致した場合は安定していると判定する。

また、図２０（ｄ）に示すフレーム画像２００４のように、会議を待っているような状態は、撮影範囲を決定したい最終的な状態である。このように、時間が経過するほど被写体は、最終的な位置に存在することにある。そこで、現在に近い被写***置ほど、より重みをつけて評価するようにしてもよい。これにより、例えば、長い時間、着席せずにいる会議参加者がいても、最終的に安定した被写***置を正しく判定できる。

また、時間が経過すると、被写***置の数も同じになる可能性が高くなる。図２０（ｄ）に示す例では、フレーム画像２００４の状態から、さらに被写体存在確率分布を求め続けると、ピーク２００８とほぼ同じものが得られることになり、被写***置も同じ結果が得られる。そこで、被写***置とその数とが同一であるときはより大きな重みをつけて評価ようにしてもよい。

（第５の実施形態）
本実施形態では、被写***置が安定した状態であるかどうかを判定するとともに、パン・チルト・ズーム制御を行う場合の撮影範囲の決定方法について説明する。

図１５は、本実施形態に係る画像処理装置１５００の機能構成例を示すブロック図である。図１５に示す構成は、第４の実施形態の構成に、第２の実施形態における図２のパン・チルト制御部２１０が追加されたものである。図１５において、第４の実施形態と同一の構成には、同じ番号を付与しており、同一の構成については説明を省略する。

図１７は、本実施形態において、オートフレーミングを行う処理手順の一例を示すフローチャートである。ステップＳ１７０１からステップＳ１７０３については、第１の実施形態における、図４のステップＳ４０１からステップＳ４０３と同じであるため、説明は省略する。

カメラ設定アシストモードの時は、ステップＳ１７０４においては、顔検出を行うが、カメラを撮影可能な範囲全体を撮影するように、パン・チルトの制御中の映像に対して顔検出を行う。

次に、ステップＳ１７０５において、位置ごとに被写体の検出数をカウントし、集計するが、パンをしながら撮影すると、例えば、図９における領域９０３は、図９（ａ）に示す状態から図９（ｂ）に示す状態になるまでの時間分、撮影されることになる。よって、第４の実施形態と同様に所定の領域について、所定の時間だけ、顔検出されることになる。

ステップＳ１７０６からステップＳ１７０７は、図４のステップＳ４０６からステップＳ４０７と同様であるため、説明は省略する。次に、ステップＳ１７０８においては、第４の実施形態における図１６のステップＳ１６０８とほぼ同様であるが、第４の実施形態と異なり、パン・チルト制御が可能である。したがって、図１２に示すようなフレーム１２０１と同じアスペクト比を持つ矩形を、その中心と大きさとを変化させ、第４の実施形態と同様に被写***置が安定しているか否かを判定すればよい。

次に、ステップＳ１７０９からステップＳ１７１１においては、第２の実施形態におけるステップＳ８０８からステップＳ８１０と同様であるため、説明を省略する。さらに、ステップＳ１７１２は、図４のステップＳ４１１と同じであるため説明は省略する。

（第６の実施形態）
本実施形態では、被写***置が安定した状態であるかどうかを判定するとともに、入力されたフレーム画像を、決定した被写体存在範囲（撮影範囲）に切り出し、決定した拡大率に拡大して出力する例について説明する。

図１８は、本実施形態に係る画像処理装置１８００の機能構成例を示すブロック図である。図１８に示す構成は、第４の実施形態の構成のズーム制御１１０を省略し、撮影範囲決定部１０７から得られる被写体存在範囲等の情報をエンコーダ部１０３に入力するようにしたものである。図１８において、第４の実施形態と同一の構成には、同じ番号を付与しており、同一の構成については説明を省略する。

図１９は、本実施形態において、オートフレーミングを行う処理手順の一例を示すフローチャートである。ステップＳ１９０１からステップＳ１９０８については、第４の実施形態における図１６のステップＳ１６０１からステップＳ１６０８と同じであるため、説明は省略する。また、ステップＳ１９０９は、第５の実施形態における、図１７のステップＳ１７０９と同じであるため、説明は省略する。

次に、ステップＳ１９１０において、撮影範囲決定部１０７は、エンコーダ部１０３に対して、被写体存在範囲（撮影範囲）と、撮影範囲をフレーム一杯にするための拡大率とを設定する。以降、エンコーダ部１０３は、フレーム画像から設定された被写体存在範囲を切り出し、設定された拡大率で拡大するようにする。ステップＳ１９１１は図４のステップＳ４１２と同じであるため、説明は省略する。

（本発明に係る他の実施形態）
前述した実施形態では、被写体検出の対象を顔として説明したが、全身や上体などであってもよい。また、特許文献１に記載されているように、会議参加者のいない状態で撮影された会議室などの背景画像と現在のフレーム画像との差分により、動体領域を検出してもよい。なお、パン・チルト可能なカメラの場合は、はじめに全撮影可能範囲を撮影してパノラマ画像を作成し、これを背景画像として利用すればよい。

背景画像との差分により検出された動体領域を用いる場合は、検出された動体領域は任意形状であるが、例えばその重心を用いて、ステップＳ４０５と同様にヒストグラムを取り、被写体存在確率分布を求めればよい。また、撮影範囲を決定する際に動体領域のサイズが必要になるが、動体領域の外接矩形を取り、サイズをいくつかのステップに分けて、ステップごとにヒストグラムを求めるなどしておけばよい。

前述した実施形態では、図５に示すように、被写体存在確率分布を求める際のヒストグラムの取り方として、被写体（顔）領域の中心点を使用したが、これに限ったものではない。例えば、第１又は第４の実施形態の場合ならば、フレームと同じ全撮影範囲を、均等に２×２の領域に分ける。そして、左上ならば被写体領域の左上の頂点、左下ならば被写体領域の左下の頂点、右上ならば被写体領域の右上の頂点、右下ならば被写体領域の右下の頂点を中心にしてヒストグラムを取るようにしてもよい。撮影可能な範囲の決定する際には、全撮影範囲の境界に近い頂点によってなされるため、このようにヒストグラムを取る方法を変更することにより、被写体領域のサイズごとにヒストグラムを取る必要もない。

さらに、前述した実施形態では、被写体存在確率分布を横軸はフレーム内の水平方向の位置、縦軸は所定時間内に顔検出された数として、ヒストグラムを求めたが、この方法に限らず、例えば、顔検出の確からしさを示す尤度を用いてもよい。尤度はある位置における、顔らしさを示しているので、所定時間、高い値を示し続けていれば、顔が存在している確率が高いことになる。そこで、フレーム内の位置ごとに得られる尤度を所定時間分、合計し、これを時間（フレーム数）で割ることによって、被写体存在確率分布を求めてもよい。

前述した本実施形態では、被写体領域は面内回転しないものとして扱っているが、面外回転する場合は、被写体領域の外接矩形を用いるようにすればよい。また、被写体存在確率分布の全てのピークを抽出するように説明したが、フレームの端に最も近い被写体の存在が分かれば、撮影範囲を決定することができる。

そこで、まず、フレームの端に近い方からフレームの中心に向かってピークを抽出し、ピークが抽出できたら、反対の端からフレームの中心に向かってピークを抽出する。このように端に近い被写体のピークを全て検出したところで処理を中断し、撮影範囲の決定処理に移行するようにすれば、より短時間で全処理を行うことが可能になる。なお、両端の被写体がフレームに入らない場合は、フレーム画像に入るまで前記処理を続行し、中央寄りの両端のピークを用いて、撮影範囲の決定処理に移行するようにする。

前述した実施形態では、フレーム内に全ての被写体が収まるように説明しているが、収まりきらない場合であっても、もちろん適用可能である。例えば、被写体の数が最大となるように撮影範囲を設定したり、最も左端にいる被写体が、フレームの左端にくるように撮影範囲を設定したりすることも可能である。或いは、両端に位置する被写体の中間の位置が、フレームの中央になるように撮影範囲を設定したりすることも可能であり、このように、所定の条件を設け、その条件に合うようにフレーミングすることも可能である。このとき、撮影範囲から外れた被写体が、左右で何人いるかについて別途確認できるようにすればユーザは容易に把握することが可能となる。

また、第２及び第５の実施形態においては、全撮影範囲を撮影する例について説明したが、テレビ会議では通常、通信相手と目線が会うようにカメラを設置することが想定される。そこで、まずは、パンのみを行い水平方向の全撮影範囲を撮影し、被写体が全く検出できなかったときのみチルトを行う。そして、再びパンをして水平方向の全撮影範囲を撮影し、被写体が検出できるようになるまで以上の処理を繰り返すように制御してもよい。

さらに、第２及び第５の実施形態において、ステップＳ８０４（ステップＳ１７０４）においてパン・チルト制御中の映像に対して顔検出を行った。一方、撮影可能な全範囲を、例えば、Wide端のフレームの範囲に分割する。そして、この分割された範囲それぞれについて順次、顔検出を行うようにしてもよい。具体的には、まず、分割された範囲においてパン・チルト制御を行い、一旦停止して撮影し、顔検出を行う。そして、再び、次の分割された範囲へパン・チルト制御を行って、繰り返すようにしてもよい。

また、第３及び第６の実施形態においては、撮影範囲決定部１０７がフレーム画像内の撮影範囲と拡大率とをエンコーダ部１０３に設定するようにした。一方、撮像部１０１をフレーム画像の解像度より、より広い範囲が撮影可能なＣＣＤなどの撮像素子で構成し、画像取得部１０２はフレーム画像ではなく、撮像部１０１の撮像素子の全範囲の画像を取得するようにする。そして、撮影範囲決定部１０７で決定された撮影範囲を画像取得部１０２に設定し、以降、画像取得部１０２は、撮像素子の全範囲の中から設定された撮影範囲のみを取り出すようにしてもよい。もし、切り出した画像がフレームの解像度に満たなくなってしまったときは、エンコーダ部１０３で拡大するようにすればよい。

前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体（または記憶媒体）を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録したコンピュータ読み取り可能な記録媒体は本発明を構成することになる。

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現される。さらに、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。その後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。

本発明の第１の実施形態に係る画像処理装置の機能構成例を示すブロック図である。本発明の第２の実施形態に係る画像処理装置の機能構成例を示すブロック図である。会議室の様子を示す概略図である。本発明の第１の実施形態において、オートフレーミングを行う処理手順の一例を示すフローチャートである。本発明の第１の実施形態において、顔検出の結果からヒストグラムを作成する概要を示す図である。本発明の第１の実施形態における被写体存在確率分布の一例を示す図である。顔パターンを検出する概要を説明する図である。本発明の第２の実施形態において、オートフレーミングを行う処理手順の一例を示すフローチャートである。本発明の第２の実施形態において、パン・チルト制御を行った場合のフレームの範囲の一例を示す図である。本発明の第３の実施形態に係る画像処理装置の機能構成例を示すブロック図である。本発明の第３の実施形態において、オートフレーミングを行う処理手順の一例を示すフローチャートである。本発明の第１の実施形態において、撮影範囲を決定する方法の概要を説明する図である。顔領域から上体領域を決定するためのテンプレートの一例を示す図である。本発明の第４の実施形態に係る画像処理装置の機能構成例を示すブロック図である。本発明の第５の実施形態に係る画像処理装置の機能構成例を示すブロック図である。本発明の第４の実施形態において、オートフレーミングを行う処理手順の一例を示すフローチャートである。本発明の第５の実施形態において、オートフレーミングを行う処理手順の一例を示すフローチャートである。本発明の第６の実施形態に係る画像処理装置の機能構成例を示すブロック図である。本発明の第６の実施形態において、オートフレーミングを行う処理手順の一例を示すフローチャートである。本発明の第４の実施形態において、被写***置が安定しているか否かを判定する例を説明する図である。

１００画像処理装置
１０１撮像部
１０２画像取得部
１０３エンコーダ部
１０４送信部
１０５被写体検出部
１０６被写体存在確率分布算出部
１０７撮影範囲決定部
１０８制御パラメータ生成部
１０９ズーム制御部

Claims

被写体を撮像してフレーム画像を生成する撮像手段と、
前記撮像手段によって生成された所定時間分のフレーム画像に含まれる被写体領域を検出する被写体検出手段と、
前記被写体検出手段より検出された所定時間分の被写体領域から、前記撮像手段により撮影可能な範囲内に被写体が存在する確率分布を算出する算出手段と、
前記算出手段によって算出された確率分布に基づいて、前記フレーム画像の撮影範囲を決定する決定手段とを備えたことを特徴とする画像処理装置。
前記決定手段によって決定された撮影範囲で構成されるフレーム画像を送信する送信手段をさらに備えたことを特徴とする請求項１に記載の画像処理装置。
前記決定手段によって決定された撮影範囲のフレーム画像を生成するように前記撮像手段を制御する制御手段をさらに備えたことを特徴とする請求項１又は２に記載の画像処理装置。
前記制御手段は、パン・チルト・ズーム制御によって前記撮像手段を制御することを特徴とする請求項３に記載の画像処理装置。
前記算出手段は、前記被写体検出手段によって検出された所定時間分の被写体領域について、前記被写体領域を代表する各位置における検出数のヒストグラムを生成することによって前記被写体が存在する確率分布を算出することを特徴とする請求項１〜４の何れか１項に記載の画像処理装置。
前記算出手段は、前記被写体検出手段によって検出された被写体領域のサイズごとにヒストグラムを生成することによって前記被写体が存在する確率分布を算出することを特徴とする請求項５に記載の画像処理装置。
前記算出手段は、前記被写体検出手段によって検出された被写体領域の位置に応じて、前記被写体領域を代表する位置を変更することを特徴とする請求項５に記載の画像処理装置。
前記算出手段は、前記被写体検出手段による所定時間分の被写体検出の尤度を、撮影可能な範囲内の位置ごとに合計することによって前記被写体が存在する確率分布を算出することを特徴とする請求項１〜４の何れか１項に記載の画像処理装置。
前記決定手段は、前記被写体が存在する確率分布のピークを抽出し、前記抽出したピークを基に撮影範囲を決定することを特徴とする請求項１〜４の何れか１項に記載の画像処理装置。
前記決定手段は、前記被写体が存在する確率分布のピークを抽出し、前記抽出したピークが所定の条件を満たすように撮影範囲を決定することを特徴とする請求項９に記載の画像処理装置。
前記決定手段は、前記被写体が存在する確率分布のピークを前記フレーム画像の両端から中心に向かって抽出することを特徴とする請求項９に記載の画像処理装置。
前記被写体が存在する確率分布より求めたピークの状態を判定する判定手段をさらに備え、
前記決定手段は、前記判定手段によって安定していると判定されたピークを基に撮影範囲を決定することを特徴とする請求項９〜１１の何れか１項に記載の画像処理装置。
被写体を撮像してフレーム画像を生成する撮像工程と、
前記撮像工程において生成された所定時間分のフレーム画像に含まれる被写体領域を検出する被写体検出工程と、
前記被写体検出工程において検出された所定時間分の被写体領域から、前記撮像工程において撮影可能な範囲内に被写体が存在する確率分布を算出する算出工程と、
前記算出工程において算出された確率分布に基づいて、前記フレーム画像の撮影範囲を決定する決定工程とを備えたことを特徴とする画像処理方法。
被写体を撮像してフレーム画像を生成する撮像工程と、
前記撮像工程において生成された所定時間分のフレーム画像に含まれる被写体領域を検出する被写体検出工程と、
前記被写体検出工程において検出された所定時間分の被写体領域から、前記撮像工程において撮影可能な範囲内に被写体が存在する確率分布を算出する算出工程と、
前記算出工程において算出された確率分布に基づいて、前記フレーム画像の撮影範囲を決定する決定工程とをコンピュータに実行させることを特徴とするプログラム。
請求項１４に記載のプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。