JP2013016929A

JP2013016929A - 撮像装置、撮像方法およびプログラム

Info

Publication number: JP2013016929A
Application number: JP2011146768A
Authority: JP
Inventors: Ai Hata; 愛秦
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2011-06-30
Filing date: 2011-06-30
Publication date: 2013-01-24

Abstract

【課題】撮像範囲内に人物が含まれない場合でも人物の発する音声を集音することができる撮像装置、撮像方法およびプログラムを提供する。
【解決手段】参加者５３〜５５を撮像する会議端末１がパンされて撮像方向がＡ３となり、カメラの撮像範囲Ｂ１内に参加者が含まれなくなった場合、画像Ｐ３には参加者５３〜５５が映らず、人物の顔を検出できない。このとき、アレイマイクの指向方向をＣ３に設定し、その集音範囲を、会議端末１を中心とする３６０°全方向から、撮像方向Ａ３および撮像範囲Ｂ１によって特定される領域を除外した領域であるＤ３に設定する。これにより、参加者５３〜５５のいる領域が確実に集音対象の領域となり、さらに、参加者５３〜５５がいないとわかっている領域からは集音することを避けることができるので、参加者５３〜５５の発する音声を確実且つ明瞭に集音することができる。
【選択図】図６

Description

本発明は、撮像手段と集音手段とが一体に構成された撮像装置、撮像方法およびプログラムに関する。

画像を撮像するカメラと、音声を集音するマイクロフォン（以下では「マイク」と略す。）とが筐体に一体に構成された撮像装置が知られている。例えば、遠隔会議に用いられる会議用の端末装置は、撮像装置を用いて自拠点の画像を撮像し、音声を集音し、ネットワークを介して他の拠点の端末装置との間で画像や音声のデータを送受信する。

このような撮像装置において、会議における発言者の音声を確実に、且つクリアに拾うため、集音用のマイクとして、単一指向性マイクを用いたものが知られている（例えば特許文献１参照。）。特許文献１に記載の撮像装置（カメラ付きマイクロフォン）は、カメラの画角がマイクの単一指向性の範囲とほぼ等しい構成となっている。そして、カメラで撮像した画像において顔の画像を認識できなかった場合に、マイクによる音声の取り込みを行わないようにすることで、発言者が映っていなければ不要な音声を取り込まないようにしている。

また、撮像装置の集音用のマイクとして、公知のアレイマイクを用いたものが知られている（例えば特許文献２参照。）。アレイマイクは複数の無指向性のマイクをアレイ状に並べて配置したものであり、電気的な制御によって任意の方向への指向性を得ることができるものである。このようなアレイマイクを用いた特許文献２に記載の撮像装置（マイクロホン内蔵型ビデオカメラ）は、アレイマイクの指向特性を、カメラの振れ角、ズーム角と連動させている。これにより、発言者の方向にカメラが向けられたらアレイマイクが発言者側に指向され、また、発言者がズームされたらその発言者に対し鋭く指向され、カメラに映し出された発言者の音声を効果的に拾うことができる。

特開２００９−４９７３４号公報特開平１０−１５５１０７号公報

しかしながら、特許文献１，２に記載の発明は、発言者がカメラに映され、そのカメラの画像や向きを基準にマイクの指向方向が決定される。このため、例えばカメラでホワイトボードを映しながら発言者が説明を行う場合など、発言者以外の物体あるいは他の参加者がカメラに映し出された場合、特許文献１ではマイクによる音声の取り込みが遮断されてしまうという問題があった。また、特許文献２では、カメラに連動するアレイマイクの指向方向がカメラの向けられたホワイトボードに向けられてしまうため、発言者の音声を明瞭に捉えることができないという問題があった。

本発明は、上記問題点を解決するためになされたものであり、撮像範囲内に人物が含まれない場合でも人物の発する音声を集音することができる撮像装置、撮像方法およびプログラムを提供することを目的とする。

本発明の第１態様によれば、画像を撮像する撮像手段と、前記撮像手段と一体に構成され、音声を集音する複数の集音手段と、前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御手段と、前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断手段と、を備え、前記制御手段は、前記第一判断手段によって前記撮像範囲内に人物が含まれないと判断された場合に、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御する撮像装置が提供される。

第１態様によれば、撮像手段の撮像範囲内に人物が含まれなければ、撮像範囲外の領域の少なくとも一部を集音対象の領域とすることができるので、人物のいる領域を集音範囲に含めることができ、人物の発する音声を確実に集音することができる。また、人物が含まれていない撮像範囲内の領域は、集音対象の領域から外されるので、その領域に発生源を有するノイズ等があっても集音されることがなく、人物の発する音声を、より明瞭に集音することができる。

第１態様に係る前記撮像装置は、前記撮像手段の前記撮像範囲が変化したか否かを判断する第二判断手段をさらに備えてもよい。この場合に前記制御手段は、前記第二判断手段によって前記撮像範囲が変化したと判断された場合に、前記撮像範囲の変化の内容に基づいて、前記集音手段の指向方向および集音範囲を制御してもよい。

撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想される。そこで、制御手段が、集音手段の指向方向および集音範囲の制御を撮像範囲の変化の内容に基づいて行えば、人物のいる領域が確実に集音対象の領域に含まれるようにすることができる。よって、人物の発する音声を確実且つより明瞭に集音することができる。

第１態様において、前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の撮像方向の変化に起因するものであって、変化前の前記撮像方向から変化後の前記撮像方向を特定不可能であると判断された場合に、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の全ての領域が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御してもよい。

撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想されるが、変化前から変化後の撮像方向が特定不可能である場合は、変化後の撮像方向を基準に、変化前の指向方向および集音範囲を特定することができない。よって、制御手段が、集音手段の指向方向および集音範囲を制御して、集音可能な領域のうち、撮像手段の撮像範囲外の全ての領域から音声を集音することで、人物のいる領域が確実に集音対象の領域に含まれるようにしつつ、人物がいないとわかっている領域からは集音しないようにすることができるので、人物の発する音声を確実且つより明瞭に集音することができる。

第１態様において、前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の前記撮像方向の変化に起因するものであって、変化前の前記撮像方向から変化後の前記撮像方向を特定可能であると判断された場合に、前記撮像範囲の変化前における前記集音手段の集音対象の領域から音声が集音されるように、前記集音手段の指向方向および集音範囲を制御してもよい。

撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想され、さらに、変化前から変化後の撮像方向が特定可能である場合は、変化後の撮像方向を基準に、変化前の指向方向および集音範囲を特定することができる。よって、制御手段が、集音手段の指向方向および集音範囲を制御して、撮像範囲の変化前における集音手段の集音対象の領域から音声を集音することで、人物のいる領域を確実に集音対象の領域としつつ、人物のいない領域から集音することを避け、人物の発する音声を確実且つより明瞭に集音することができる。

第１態様において、前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の画角の変化に起因すると判断された場合に、前記画角の変化前における前記集音手段の集音対象の領域から、前記画角の変化後における前記撮像範囲と重なる領域を除外した領域が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御してもよい。

撮像範囲が変化したときに、その変化が画角の変化に起因するものである場合、人物は、変化前における撮像範囲から、変化後における撮像範囲を除いた領域にいると予想される。よって、制御手段が、集音手段の指向方向および集音範囲を制御して、画角の変化前における集音手段の集音対象の領域から、画角の変化後における撮像範囲と重なる領域を除外した領域から音声を集音することで、人物のいる領域を確実に集音対象の領域としつつ、人物のいない領域から集音することを避け、人物の発する音声を確実且つより明瞭に集音することができる。

第１態様において、前記第一判断手段は、前記撮像手段の撮像した画像から人の顔の特徴を有する部位を認識し、認識した部位の大きさが所定の大きさよりも大きい場合に、前記撮像範囲に人物が含まれると判断してもよい。

撮像した画像内に含まれる、人の顔の特徴を有する部位が、所定の大きさ以下であるものを人物として検出しないようにすれば、撮像装置が撮像対象としない人物がたまたま撮像範囲に含まれても、その人物が集音手段の制御条件となることがない。これにより、制御手段が誤った指向方向および集音範囲で制御してしまうことを防止でき、集音対象の人物の発する音声を確実に集音することができる。

本発明の第２態様によれば、画像を撮像する撮像手段と、音声を集音する複数の集音手段とが一体に構成された撮像装置を機能させるため、コンピュータにおいて実行される撮像方法であって、前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御ステップと、前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断ステップと、を含み、さらに、前記第一判断ステップにおいて前記撮像範囲内に人物が含まれないと判断された場合に、前記制御ステップにおいて、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲が制御される撮像方法が提供される。

本発明の第３態様によれば、画像を撮像する撮像手段と、音声を集音する複数の集音手段とが一体に構成された撮像装置を機能させるためのプログラムであって、コンピュータに、前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御ステップと、前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断ステップと、を実行させ、さらに、前記第一判断ステップにおいて前記撮像範囲内に人物が含まれないと判断された場合に、前記制御ステップにおいて、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲が制御されるプログラムが提供される。

第２態様に係る撮像方法に従う処理を撮像装置のコンピュータで実行することによって、あるいは、第３態様に係るプログラムを実行してコンピュータを撮像装置として機能させることで、第１態様と同様の効果を得ることができる。

会議端末１およびＰＣ９の斜視図である。会議端末１の電気的構成を示すブロック図である。会議端末１で実行されるプログラムのフローチャートである。会議端末１の撮像方向Ａ１、撮像範囲Ｂ１等に合わせて設定される指向方向Ｃ１、集音範囲Ｄ１を示す図である。会議端末１の撮像方向Ａ２、撮像範囲Ｂ１等に合わせて設定される指向方向Ｃ１、集音範囲Ｄ１を示す図である。会議端末１の撮像方向Ａ３、撮像範囲Ｂ１等に合わせて設定される指向方向Ｃ３、集音範囲Ｄ３を示す図である。会議端末１の撮像方向Ａ１、撮像範囲Ｂ４等に合わせて設定される指向方向Ｃ１、集音範囲Ｄ４を示す図である。会議端末１の撮像方向Ａ１、撮像範囲Ｂ５等に合わせて設定される指向方向Ｃ１、集音範囲Ｄ１を示す図である。会議端末１の撮像方向Ａ６、撮像範囲Ｂ１等に合わせて設定される指向方向Ｃ６、集音範囲Ｄ６を示す図である。会議端末１の撮像方向Ａ７、撮像範囲Ｂ１等に合わせて設定される集音範囲Ｄ７を示す図である。

以下、本発明に係る撮像装置の一実施の形態である会議端末１について、図面を参照して説明する。なお、参照される図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、単なる説明例である。

まず、図１を参照して、会議端末１の概略構成について説明する。図１に示す会議端末１は、アレイマイク２５、スピーカ２７、カメラ２８、および操作部２９を備える。会議端末１は、カメラ２８で画像を撮像し、アレイマイク２５で音声を集音することができ、また、スピーカ２７で音声を発生することのできる装置である。会議端末１は、筐体４の上端に回転軸３を備え、その回転軸３を中心に筐体４の一部を回転させ、下端側を開いたり閉じたりできるように構成されている。ユーザは、筐体４の下端側を開くことで、筐体４の姿勢を自立させることのできる姿勢、すなわち使用時の姿勢（図１参照）とすることができる。また、筐体４の下端側を閉じることで、筐体４の姿勢を折りたたまれた姿勢、すなわち非使用時の姿勢（図示外）とすることができる。

会議端末１は、設置された拠点の音声をアレイマイク２５から集音（入力）し、且つ画像をカメラ２８から撮像（入力）する。アレイマイク２５は２つ以上の無指向性マイクを並べて配置したものである。詳細は後述するが、アレイマイク２５は電気的な制御によって指向方向と集音範囲を設定することができる。本実施の形態では、アレイマイク２５に３個のマイクを用いている。

カメラ２８は、例えばＣＭＯＳやＣＣＤなどのイメージセンサを搭載した単焦点デジタルカメラが用いられる。本実施の形態の会議端末１は、例えば卓上に載置して使用する形態のものであり、カメラ２８の撮像向きを調整するパンやチルトなどの動作は手動で会議端末１の筐体４を動かすことによって行われる。また、会議端末１におけるズームは、いわゆるデジタルズームによって電気的になされる。より詳細には、本実施の形態のカメラ２８は単焦点デジタルカメラを用いるため、画角は固定であり、ズームは撮像した画像に対し、トリミングと拡大処理を行うことで実現される疑似的なズームを用いるものとする。以下では、カメラ２８によって撮像可能となる範囲（撮像する画像内に納まる範囲）を撮像範囲と呼ぶが、撮像範囲はカメラ２８が向く方向（撮像方向）を基準とした角度範囲で表すものとし、光学ズームにおける画角（ズームレンズが移動して焦点距離が変わることによって変化する撮像可能な角度範囲）と同義で扱うものとする。よって、デジタルズームによって行われる撮像範囲に対する拡大・縮小の動作は、便宜上、画角の変化によって表す場合もある。

会議端末１の操作部２９には、電源ボタン、音量調節ボタン、マイクミュートボタン等が設けられている。また、会議端末１は、ＵＳＢインタフェイス２１（図２参照）を搭載し、外部機器との電気的な接続を行うことができる。本実施の形態では、会議端末１は、例えばパーソナルコンピュータ（以下、「ＰＣ」と略する。）９に接続される。ＰＣ９は、データ通信、画像表示等の各種情報処理を行う一般的なコンピュータである。

図１に示す、ＰＣ９はノート型のＰＣであり、表示装置６および操作部７等を備えるが、表示装置、操作部等のデバイスを備えないデスクトップ型のＰＣを用いてもよいことは言うまでもない。ＰＣ９と会議端末１とはＵＳＢケーブル２によって電気的に接続される。なお、ＰＣ９と会議端末１との接続はＵＳＢケーブル２に限らず、ＷｉＦｉ（登録商標）等の無線通信や赤外線等の光通信、その他ＩＥＥＥ１３９４等、様々な接続方式が利用できる。

アレイマイク２５によって集音される音声のデータや、カメラ２８によって撮像される画像のデータは、ＵＳＢケーブル２を介してＰＣ９に送信される。また、会議端末１は、ＰＣ９から受信した音声のデータに基づいて、スピーカ２７から音声を発生させる。

ユーザは、ＰＣ９および会議端末１を用いることで、画像を用いた遠隔会議（ビデオ会議）を実行することができる。詳細には、ＰＣ９は、会議端末１から入力した音声および画像のデータを、他拠点に配置されたＰＣ等の通信装置に、インターネット等のネットワーク８（図２参照）を介して送信する。同時に、ＰＣ９は、他拠点に配置された通信装置から、他拠点の音声および画像のデータを受信する。ＰＣ９は、受信した画像のデータに基づいて、他拠点の画像を表示装置６に表示させる。さらに、ＰＣ９は、受信した音声のデータに基づいて、接続している会議端末１のスピーカ２７に他拠点の音声を発生させる。その結果、複数の拠点の音声および画像が共有され、全てのユーザが同一の拠点にいない場合でも円滑に会議が進行する。

なお、ＰＣ９および会議端末１の構成は適宜変更可能である。例えば、他拠点から受信した音声をＰＣ９が内蔵するスピーカで発生し、会議端末１のスピーカ２７は使用しなくともよい。また、アレイマイク、スピーカ、および表示装置を備えるＰＣにさらに小型のカメラを接続し、そのＰＣを会議端末としてビデオ会議を実行してもよい。もちろん、ＰＣがカメラを内蔵してもよい。あるいは、会議端末１が音声および画像のデータを送信する機能をさらに備え、ＰＣ９は、他拠点の会議端末１から受信した音声の発生および画像の表示を行うための装置として用いられてもよい。もちろん、会議端末１は必ずしもビデオ会議に用いなくともよく、単に画像を撮像し、音声を集音する装置として機能すれば足り、ＰＣ９は、会議端末１から受信する画像や音声のデータに基づき、画像の表示と音声の発生を行えばよい。

次に、図２を参照して、会議端末１の電気的構成について説明する。会議端末１は、会議端末１の制御を司るＣＰＵ１１を備える。ＣＰＵ１１には、ＲＯＭ１２、ＲＡＭ１３、フラッシュメモリ１４、および入出力インタフェイス（Ｉ／Ｆ）１６が、バス１５を介して接続されている。

ＲＯＭ１２は、会議端末１を動作させるためのプログラムおよび初期値等を記憶している。ＲＡＭ１３は各種情報を一時的に記憶する。フラッシュメモリ１４は不揮発性の記憶装置である。入出力インタフェイス１６には、ＵＳＢインタフェイス（Ｉ／Ｆ）２１、音声入力処理部２２、指向性制御部２６、音声出力処理部２３、映像入力処理部２４、および操作部２９が接続されている。ＵＳＢインタフェイス２１は、会議端末１をＰＣ９に接続する。音声入力処理部２２は、指向性制御部２６を介して入力されるアレイマイク２５からの音声信号を処理して音声データを生成する。指向性制御部２６は、アレイマイク２５の指向方向および集音範囲を制御する処理を行う。音声出力処理部２３はスピーカ２７の動作を処理する。映像入力処理部２４は、カメラ２８からの画像信号を処理して画像データを生成する。

ここで、アレイマイク２５において集音する音声の指向方向および集音範囲を制御するため指向性制御部２６において行われる処理の動作原理について、簡単に説明する。アレイ状に並べて配置された個々のマイクに到達する音声は、マイクの並び方向に対してどの方向から到達したかによって、その到達時間に差を生ずる。例えば、マイクの並び方向と直交する方向（便宜上、「正面方向」とする。）から音声が到達する場合、音声は各マイクに同時に到達する。このため、アレイマイク２５からは個々のマイクから音声信号が出力され、音声入力処理部２２において電気的に足し合わされることによって、マイクの数に相当する分の倍率に増幅された音声の出力が得られることとなる。一方、マイクの並び方向に対し斜めの方向（便宜上、「斜め方向」とする。なお、側方も含む。）から音声が到達する場合、音声の発生源に近いマイクほど早く音声が到達するため、個々のマイクが取得する音声に時間差（位相ずれ）を生ずる。このため、アレイマイク２５からの音声信号を音声入力処理部２２において電気的に足し合わせた場合の音声のゲインは、各マイクへの音声の到達角度とマイクの配置間隔（あるいは配置位置）に応じたものとなり、正面方向から到達した場合よりも小さくなる。個々のマイクの配置間隔はあらかじめ判っているので、指向性制御部２６において各マイクの取得する音声の時間差を取得してＣＰＵ１１で解析すれば、音声の発生源の方向を求めることができる。

また、指向性制御部２６では、アレイマイク２５の個々のマイクで集音した音声をそれぞれ遅延させた上で音声入力処理部２２に出力することができる。このことは、個々のマイクの出力に対する遅延時間を制御することにより、所定の斜め方向から到達する音声を足し合わせた場合のゲインを最大とすることができることを意味する。言い換えると、個々のマイクからの出力を指向性制御部２６において電気的に制御して遅延させることにより、所望する方向に対し、アレイマイク２５が指向性を得ることができる。

このように、遅延制御により指向性を得ることのできるアレイマイク２５の出力のゲインは、一つの方向から到達した場合に最大となり、その方向から少しずれた方向から音声が到達すれば低下する。つまり、個々のマイクが集音する音声をマイクの配置間隔に応じて一律にずらすように遅延制御を行えば、アレイマイク２５を狭指向性に制御することができ、集音範囲（指向方向を中心とした場合に集音可能な角度範囲）を狭くすることができる。また、個々のマイクの遅延時間を一律とはせず、あらかじめ計算等により求めた遅延時間の組合せを個々のマイクに適用すれば、アレイマイク２５を広指向性に制御して、集音範囲を広くすることも可能である。さらに、マイクをいくつかの組に分けて、組ごとに遅延制御を異ならせれば、アレイマイク２５に複数の指向方向を持たせることが可能となる。本実施の形態では、このような動作原理に基づき、ＣＰＵ１１による演算に従って、指向性制御部２６が個々のマイクによって集音される音声の遅延処理を行うことで、アレイマイク２５の指向方向および集音範囲の制御が行われる。なお、本実施の形態では、集音範囲について、上記のように、指向方向を中心としてアレイマイク２５が音声を集音可能な方向の角度範囲を対象とする。

また、本実施の形態の会議端末１では、カメラ２８で撮像した画像に映される人物が発する音声を確実に拾うことができるように、アレイマイク２５の指向方向と集音範囲の制御が、画像の解析結果に応じて行われる。具体的には、カメラ２８によって撮像した画像に人物の顔が含まれるか否かを判断するための画像解析と、カメラ２８の水平方向における回転（パン）によって向きが変更されたか否かを判断するための画像解析とが行われる。人物の顔を検出する画像解析は、例えば目、鼻、口など顔の特徴を有する部分を画像から抽出し、相対位置や大きさなどをテンプレートと比較したり、あるいは幾何学的に解析したりする公知の方法により行われる。

なお、本実施の形態では、顔の特徴を有する部分の相対位置がテンプレートと一致しても、その大きさが、あらかじめ定められた所定の大きさに満たない場合には、人物の顔として検出されない。言い換えると、画像解析により画像内に人物の顔の特徴を有する部分が含まれても、その大きさが所定の大きさよりも小さければ、人物の顔として判断されない。これにより、例えば会議端末１から遠く離れた位置にいる人がカメラ２８の撮像範囲に含まれて撮像されて画像に映ってしまっても、その人は、人物として検出される対象から除外される。

カメラ２８の向きを検出する画像解析は、例えば最新の画像と、前回撮像された画像との双方に映る特徴物の画像内における配置位置のずれの有無を検出する公知の方法により行われる。上記したように、会議端末１は例えば卓上に載置して使用する形態のものであり、カメラ２８のパンやチルトは、会議の参加者等が会議端末１を手動で動かすことによって行われる。言い換えると、会議端末１はパンやチルトのための駆動装置を搭載せず、ＰＣ９における操作に応じた制御によるパンやチルトが行われない。このため、会議端末１では、パンやチルトの制御の機構を用いたカメラ２８の撮像方向の検出は、行われない。そこで会議端末１では、カメラ２８で撮像した画像の解析結果に基づいて、カメラ２８の向きの変化を検出している。特徴物とは、例えば閉じた輪郭線を検出できるものなどである。会議端末１では特徴物の配置位置にずれがあった場合、画像内でずれの大きさ（横方向のドット数など）が求められ、あらかじめ作成されたテーブルや計算式等により、カメラ２８がどの方向に何度回転したか、求められる。なお、これらの画像解析の方法は一例に過ぎず、公知の様々な画像解析の方法を適用することができる。

次に、図３のフローチャートに従い、図４〜図１０を参照しながら、会議端末１におけるアレイマイク２５の指向方向と集音範囲とが制御される具体的な処理の流れについて説明する。なお、図３に示す処理を実行するためのプログラムはＲＯＭ１２に記憶されており、ＣＰＵ１１がプログラムに従って実行する。

会議端末１は、例えば会議室などに、使用時の姿勢で会議の参加者の方に向けられて設置され、ＰＣ９に接続される。ユーザ（参加者の一人であってもよい）によって操作部２９の電源ボタンがＯＮにされると、ＰＣ９との通信が開始されて、会議端末１は待機状態となる（Ｓ１１：ＮＯ）。さらにユーザがＰＣ９を操作することによって、ＰＣ９から撮像開始の指示信号を受信すると（Ｓ１１：ＹＥＳ）、ＣＰＵ１１は、カメラ２８による撮像と、アレイマイク２５による集音とを開始する。また、ＣＰＵ１１は、他の拠点に配置された通信装置からＰＣ９が受信した音声のデータに基づいて、スピーカ２７から他の拠点の音声の発生（出力）を開始する。

なお、本実施の形態では、図４に示すように、会議室５０の中央に配置されたテーブル５２の手前側に設置された会議端末１で、会議の様子が撮像されるものとする。会議室５０では、書類５１が載置されたテーブル５２を囲んで３人の参加者５３，５４，５５が着席し、テーブル５２の右手前側にホワイトボード５６が用意され、右奥に花５７が飾られているものとする。

撮像の開始時には、カメラ２８のズームは行われない設定となっており、カメラ２８によって撮像される画像には、カメラ２８で撮像可能な最大の角度範囲に含まれる対象物が映される。会議端末１の正面方向はテーブル５２の中央に向けられており、以下の説明では、便宜上、この方向を撮像方向Ａ１とする。会議室５０の様子を撮像したカメラ２８の信号は映像入力処理部２４に入力されて、画像Ｐ１のデータが生成される。画像Ｐ１には、カメラ２８で撮像可能な撮像範囲Ｂ１（太実線で示す。）に含まれる人物（参加者５３，５４，５５）や物体（書類５１，テーブル５２，花５７）が映されている。

また、会議端末１による撮像の開始時には、アレイマイク２５の指向方向Ｃ１は、カメラ２８の正面方向、すなわち便宜上の撮像方向Ａ１と同じ方向（つまり会議端末１の正面方向）に設定される。ＣＰＵ１１は、さらに、アレイマイク２５の集音範囲Ｄ１をカメラ２８の初期の画角に合わせるため、撮像方向Ａ１と撮像範囲Ｂ１とに基づき、上記説明した動作原理に従いあらかじめ設定された演算式もしくはテーブルによる演算を行う。指向性制御部２６は、ＣＰＵ１１が行った演算の結果に応じて、アレイマイク２５の個々のマイクの遅延時間を設定する。指向方向Ｃ１および集音範囲Ｄ１が制御されたアレイマイク２５により集音した会議室５０の音声信号は、音声入力処理部２２に入力されて足し合わされ、音声データが生成される。映像入力処理部２４において生成される画像データと、音声入力処理部２２において生成される音声データとは、ＵＳＢケーブル２を介してＰＣ９にストリーミング形式により送信される。

次に図３に示すように、ＣＰＵ１１は、画像Ｐ１の画像解析を行い、画像Ｐ１に映る人物（つまり参加者５３〜５５）の顔の検出を行い、検出された参加者の人数をカウントする（Ｓ１２）。画像Ｐ１からは３人の参加者５３〜５５の顔（人の顔の特徴を有する部位）が認識される。ＣＰＵ１１は、会議の参加者の人数が３であるとして（Ｓ１２）、ＲＡＭ１３（フラッシュメモリ１４でもよい。）に一時的に記憶する。

カメラ２８による画像の撮像と、アレイマイク２５による音声の集音とは継続して行われ、生成される画像データと音声データとがＰＣ９にストリーミング送信される。その間に会議端末１が水平回転（パン）されても、映像入力処理部２４は、カメラ２８が向けられた方向において撮像された画像の画像データを生成する。また、ユーザのＰＣ９における操作によってＰＣ９からズームの指示信号をＣＰＵ１１が受信した場合、映像入力処理部２４は、指示されたズーム倍率に応じて画像のトリミングと拡大処理を行って、画像データを生成する。この場合には、ズーム倍率に応じた画角が所定の計算式あるいはテーブルを用いて算出され、現在の撮像範囲として、ＲＡＭ１３（フラッシュメモリ１４でもよい。）に一時的に記憶される。

カメラ２８による画像の撮像と、アレイマイク２５による音声の集音とが所定時間の間、継続して行われ（Ｓ１３：ＮＯ，Ｓ１３）、所定時間が経過すると（Ｓ１３：ＹＥＳ）、Ｓ１５〜Ｓ３０の処理が実行される。Ｓ１５〜Ｓ３０の処理では、アレイマイク２５の指向方向および集音範囲の制御が行われる。また、Ｓ１５〜Ｓ３０の処理が行われる際に、カメラ２８によって最新の画像がＲＡＭ１３に記憶され、ＣＰＵ１１による画像解析に用いられる。なお、Ｓ１５〜Ｓ３０の処理が行われる度に、ＲＡＭ１３には最新の画像と、前回撮像された画像との２つの画像が記憶され、それ以前に記憶された画像は上書き消去される。

まず、新たに撮像されてＲＡＭ１３に記憶された最新の画像に対し、ＣＰＵ１１が画像解析を行い、画像に映る人物の顔を検出できたか判断する（Ｓ１５）。会議端末１に対してパンやズームがなされておらず、最新の画像が、例えば前回撮像された図４の画像Ｐ１とほぼ同じ画像であった場合、ＣＰＵ１１は、３人の参加者５３，５４，５５の顔を認識し、すなわち人物を検出する（Ｓ１５：ＹＥＳ）。検出される顔の数が３であり、Ｓ１２で記憶した会議の参加者の人数よりも減っていない場合（Ｓ２２：ＮＯ）、ＣＰＵ１１は、カメラ２８の撮像範囲内に全ての参加者がいるとして、アレイマイク２５の集音範囲を現在のカメラ２８の画角に合わせる処理を行う（Ｓ２３）。すなわち、ＣＰＵ１１は、図４に示すように、アレイマイク２５の指向方向を撮像方向Ａ１と同じＣ１に設定する。そして上記同様、集音範囲がＤ１となるように撮像方向Ａ１と撮像範囲Ｂ１とに基づく演算を行い、アレイマイク２５の個々のマイクの遅延時間を設定するための指示を指向性制御部２６に送出する。

このように、最新の画像Ｐ１内に参加者５３〜５５の全員が映っていれば、撮像範囲Ｂ１から集音を行えば参加者５３〜５５全員の発する音声を集音できると判断できる。ゆえに、ＣＰＵ１１は、撮像方向Ａ１を指向方向Ｃ１とし、演算により、撮像範囲Ｂ１と同じ大きさの集音範囲Ｄ１を求め、設定する。これにより、参加者５３〜５５の発する音声を確実に集音することができるのである。その後処理はＳ１３に戻る。

次に、ホワイトボード５６を映すため会議端末１に対してパンがなされ、例えば図５に示すように、カメラ２８の撮像方向がＡ２に向けられた場合、撮像範囲Ｂ１内に参加者５３〜５５が映らなくなることがある。この場合に最新の画像Ｐ２には参加者５３〜５５が映っておらず、Ｓ１５において、ＣＰＵ１１は、画像Ｐ２の解析を行っても人物の顔を検出することができない（Ｓ１５：ＮＯ）。ＰＣ９からズームの指示信号を受信していなければ（Ｓ１６：ＮＯ）、ＲＡＭ１３に記憶された最新の画像Ｐ２と、前回撮像されてＲＡＭ１３に記憶された画像Ｐ１との比較による回転角度の推測（撮像方向の検出）が行われる（Ｓ１７）。

上記したように、撮像方向（カメラ２８の向き）を検出する画像解析は、ＣＰＵ１１が、前回の画像Ｐ１に映る特徴物（例えば花５７）を、最新の画像Ｐ２内において同様に検出し、配置位置にずれがないか検出する公知の方法によって行われる。図５に示すように、画像Ｐ２内において花５７は左端寄りの位置にあり、前回の画像Ｐ１では右端寄りの位置にあって、矢印Ｅ１で示すように位置ずれが生じていることから、会議端末１にパンが行われたことが検出される。さらに、撮像範囲Ｂ１（画角）がわかっていることから、画像Ｐ１，Ｐ２の横幅に対する画像Ｐ１，Ｐ２内での花５７の位置ずれの大きさから、会議端末１になされたパンの大きさ、すなわち会議端末１の回転角度が算出される。

会議端末１の回転角度を推測（算出）することができた場合（Ｓ１７：ＹＥＳ）、ＣＰＵ１１は、現在の撮像方向Ａ２から、求められた回転角度分、回転前の方向に集音の向きを戻し、その方向を、指向方向に設定する。図５に示す例では、上記の画像解析により撮像方向がＡ１（図４参照）からＡ２（図５参照）に向けられたことが判ったことから、指向方向が回転前のＣ１に設定される。また、ＣＰＵ１１は、アレイマイク２５の集音範囲を回転前の集音範囲であるＤ１に設定する（Ｓ２０）。

このように、最新の画像Ｐ２内に、前回の画像Ｐ１に映る参加者５３〜５５が映っていなければ、会議端末１のみがパンされたものと判断することができる。ゆえに、ＣＰＵ１１は、パンによる回転角度が画像解析から判る場合、アレイマイク２５の指向方向と集音範囲とを回転前の指向方向と集音範囲とに合わせる。これにより、参加者５３〜５５の発する音声を確実に集音することができる。つまり、ホワイトボード５６を映すために参加者５３〜５５が画像Ｐ３に映らなくなっても、参加者５３〜５５の発する音声を確実に集音することができる。その後処理はＳ１３に戻る。

さらに、会議端末１に対してホワイトボード５６を映すためのパンがなされたときに、例えば図６に示すように、カメラ２８の撮像方向が、撮像範囲Ｂ１内に参加者５３〜５５も特徴物（花５７）も含まれない、Ａ３に向けられることがある。この場合にＣＰＵ１１は、最新の画像Ｐ３からは人物の顔を検出することができない（Ｓ１５：ＮＯ）。またズームの指示信号を受信していなければ（Ｓ１６：ＮＯ）、上記同様に回転角度の推測（撮像方向の検出）を行う（Ｓ１７）。ＣＰＵ１１は、上記の画像解析により、前回の画像Ｐ１（図４参照）に映る特徴物（花５７）を、最新の画像Ｐ３内において検出することができないので、回転角度を推測することができないと判断する（Ｓ１７：ＮＯ）。

この場合、ＣＰＵ１１は、現在の撮像方向Ａ３の反対方向であるＣ３を指向方向とするとともに、アレイマイク２５の集音範囲を、３６０°の全範囲から、現在のカメラ２８の画角の範囲である撮像範囲Ｂ１を除き、残った範囲であるＤ３に設定する（Ｓ１８）。言い換えると、アレイマイク２５の指向性を、カメラ２８の画角外に設定する。

このように、最新の画像Ｐ３内に前回の画像Ｐ１に映る参加者５３〜５５が映っていなければ、上記同様、会議端末１のみがパンされたものと判断することができる。このとき、パンによる回転角度が画像解析から判らない場合、ＣＰＵ１１は、アレイマイク２５の指向方向と集音範囲を現在のカメラ２８の画角外に設定する。これにより、参加者５３〜５５がいないと判っている範囲からは集音せず、それ以外の範囲から集音することができる。つまり、ホワイトボード５６を映すために参加者５３〜５５が画像Ｐ３に映らなくなっても、参加者５３〜５５の発する音声を確実に集音することができる。その後処理はＳ１３に戻る。

次に、例えば図７に示すように、ＣＰＵ１１がＰＣ９からズームの指示信号を受け、撮像した画像Ｐ１のトリミングと拡大処理を行った結果、ズームによって小さくなった撮像範囲Ｂ４内に参加者５３〜５５が含まれなくなることがある。この場合にＣＰＵ１１は、最新の画像Ｐ４からは人物の顔を検出することができない（Ｓ１５：ＮＯ）。またズームの指示信号を受信したので（Ｓ１６：ＹＥＳ）、Ｓ２１に進み、アレイマイク２５の指向方向をズーム前の指向方向Ｃ１に設定する。そしてアレイマイク２５の集音範囲を、ズーム前のカメラ２８の画角の範囲である撮像範囲Ｂ１から、ズームによって小さくなった画角の範囲である撮像範囲Ｂ４を除き、残った範囲であるＤ４に設定する（Ｓ２１）。

このように、最新の画像Ｐ４内に前回の画像Ｐ１に映る参加者５３〜５５が映っておらず、その際にＣＰＵ１１がズームの信号を受けていれば、ズームによって画角が狭くなったことから、参加者５３〜５５が画像Ｐ４内に映らなくなったと判断できる。ゆえにＣＰＵ１１は、アレイマイク２５の集音範囲をズーム前の撮像範囲Ｂ１から、参加者５３〜５５がいないと判っている現在の撮像範囲Ｂ４を除いた範囲である集音範囲Ｄ４に設定する。これにより、ズームして画像Ｐ４に参加者５３〜５５が映らなくなった場合でも、参加者５３〜５５の発する音声を確実に集音することができる。その後処理はＳ１３に戻る。

次に、会議端末１においてパンやズームがなされ、撮像された画像に映る参加者の人数が減ってしまった場合における処理について説明する。Ｓ１５においてＣＰＵ１１が画像内に人物の顔を検出しても（Ｓ１５：ＹＥＳ）、その数が、Ｓ１２で記憶した会議の参加者の人数よりも少なかった場合（Ｓ２２：ＹＥＳ）、Ｓ２５〜Ｓ３０の処理が行われる。

例えば図８に示すように、ズームの指示信号を受けたＣＰＵ１１が画像Ｐ１のトリミングと拡大処理を行った結果、ズームによって小さくなった撮像範囲Ｂ５内に、一部の参加者５３，５４が含まれる場合がある。この場合にＣＰＵ１１は、最新の画像Ｐ５から人物の顔を検出でき（Ｓ１５：ＹＥＳ）、その人数が参加人数よりも少なく（Ｓ２２：ＹＥＳ）、またズームの指示信号を受信したので（Ｓ２５：ＹＥＳ）、Ｓ３０に進む。ＣＰＵ１１は、アレイマイク２５の指向方向をズーム前の指向方向Ｃ１に設定するとともに、アレイマイク２５の集音範囲についても同様に、ズーム前のカメラ２８の画角の範囲である撮像範囲Ｂ１と同じＤ１に設定する（Ｓ３０）。

このように、最新の画像Ｐ５内に一部の参加者５３，５４が映り、その際にＣＰＵ１１がズームの信号を受けていれば、参加者５５は、ズームによって画角が狭くなったことから画像Ｐ５内に映らなくなったと判断できる。ゆえにＣＰＵ１１は、アレイマイク２５の集音範囲を、ズーム前の撮像範囲Ｂ１と同じ集音範囲Ｄ４に設定する。これにより、ズームした画像Ｐ５に映る参加者５３，５４と、映らない参加者５５の発する音声を確実に集音することができる。その後処理はＳ１３に戻る。

ところで、会議端末１がパンされ、その結果、撮像範囲内に一部の参加者だけが含まれることとなる場合がある。例えば図９に示すように、カメラ２８の撮像方向が、撮像範囲Ｂ１内に参加者５４が含まれ、且つ、特徴物（花５７）が含まれるＡ６に向けられた場合、ＣＰＵ１１は、画像解析により、画像Ｐ６から人物（参加者５４）の顔を検出する（Ｓ１５：ＹＥＳ）。画像Ｐ６に映らない他の参加者５３，５５の顔は検出できないので、検出する人物の数は、Ｓ１２で記憶した参加人数より少ない（Ｓ２２：ＹＥＳ）。

ズームの指示信号を受信していなければ（Ｓ２５：ＮＯ）、ＣＰＵ１１は、回転角度の推測（撮像方向の検出）を行う（Ｓ２６）。前回の画像Ｐ１（図４参照）の右端寄りの位置に映る特徴物（花５７）が、画像Ｐ６では中央よりやや左寄りの位置に映っており、矢印Ｅ２で示すように位置ずれが生じていることから、会議端末１にパンが行われたことが検出される。さらに、撮像範囲Ｂ１に基づき、画像Ｐ１，Ｐ６内での花５７の位置ずれの大きさから、会議端末１になされたパンの大きさ、すなわち会議端末１の回転角度が算出される。

会議端末１の回転角度を推測（算出）することができた場合（Ｓ２６：ＹＥＳ）、ＣＰＵ１１は、アレイマイク２５の指向方向を撮像方向Ａ６と、回転前の指向方向Ｃ１との中間の方向であるＣ６に設定する。そして、アレイマイク２５の集音範囲を、撮像方向Ａ６に対する現在のカメラ２８の撮像範囲Ｂ１の画角の範囲と、前回の指向方向Ｃ１に対する集音範囲Ｄ１とを足し合わせたＤ６に設定する（Ｓ２８）。

このように、パンによって最新の画像Ｐ６内に一部の参加者５４が映る場合には、その参加者５４を映すため、会議端末１がパンされたものと判断することができる。ゆえに、ＣＰＵ１１は、パンによる回転角度が画像解析から判る場合、アレイマイク２５の指向方向を、回転前の指向方向とカメラ２８の回転後の撮像方向との中間の方向とする。そしてアレイマイク２５の集音範囲を、カメラ２８の回転前における集音範囲に、回転後の撮像方向に基づく撮像範囲を足し合わせた範囲に合わせる。これにより、パンによって注目された参加者５４と、画像Ｐ６に映らなくなった参加者５３，５５との発する音声を確実に集音することができる。その後処理はＳ１３に戻る。

また、一人の参加者５４がホワイトボード５６を用いた説明を行う場合など、もとの位置から移動し、それに合わせて会議端末１が参加者５４を映すようにパンされる場合がある。例えば図１０に示すように、カメラ２８の撮像方向が、撮像範囲Ｂ１内に参加者５４が含まれるものの、特徴物（花５７）が含まれないＡ７に向けられる場合である。ＣＰＵ１１は、上記同様、画像解析により、画像Ｐ７から人物（参加者５４）の顔を検出するが（Ｓ１５：ＹＥＳ）、検出する人物の数が参加人数より少ない（Ｓ２２：ＹＥＳ）。

また、ＣＰＵ１１は、前回の画像Ｐ１（図４参照）に映る特徴物（花５７）を、最新の画像Ｐ７内において検出することができなければ、回転角度を推測することができないと判断する（Ｓ２６：ＮＯ）。この場合、ＣＰＵ１１はアレイマイク２５の指向方向を３６０°全方向（無指向）とし、アレイマイク２５の集音範囲を、３６０°の全範囲であるＤ７に設定する。

このように、パンによる回転角度が画像解析から判らない場合、ＣＰＵ１１は、集音範囲Ｄ７を設定し、３６０°の全範囲から集音することにより、画像Ｐ７内に映る参加者５４の発する音声だけでなく、画像Ｐ７内に映らない参加者５３，５５の発する音声にも対応することができる。すなわち、パンによって注目された参加者５４と、画像Ｐ７に映らなくなった参加者５３，５５との発する音声を確実に集音することができる。その後処理はＳ１３に戻る。

以上説明したように、本実施の形態の会議端末１では、会議端末１の撮像範囲内に人物が含まれなければ、撮像範囲外の領域の少なくとも一部を集音対象の領域とすることができるので、人物のいる領域を集音範囲に含めることができ、人物の発する音声を確実に集音することができる。また、人物が含まれていない撮像範囲内の領域は、集音対象の領域から外されるので、その領域に発生源を有するノイズ等があっても集音されることがなく、人物の発する音声を、より明瞭に集音することができる。

撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想される。そこで、アレイマイク２５の指向方向および集音範囲の制御を撮像範囲の変化の内容に基づいて行えば、人物のいる領域が確実に集音対象の領域に含まれるようにすることができる。よって、人物の発する音声を確実且つより明瞭に集音することができる。

撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想されるが、変化前から変化後の撮像方向が特定不可能である場合は、変化後の撮像方向を基準に、変化前の指向方向および集音範囲を特定することができない。よって、アレイマイク２５の指向方向および集音範囲を制御して、集音可能な領域のうち、会議端末１の撮像範囲外の全ての領域から音声を集音することで、人物のいる領域が確実に集音対象の領域に含まれるようにしつつ、人物がいないとわかっている領域からは集音しないようにすることができるので、人物の発する音声を確実且つより明瞭に集音することができる。

撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想され、さらに、変化前から変化後の撮像方向が特定可能である場合は、変化後の撮像方向を基準に、変化前の指向方向および集音範囲を特定することができる。よって、アレイマイク２５の指向方向および集音範囲を制御して、撮像範囲の変化前におけるアレイマイク２５の集音対象の領域から音声を集音することで、人物のいる領域を確実に集音対象の領域としつつ、人物のいない領域から集音することを避け、人物の発する音声を確実且つより明瞭に集音することができる。

撮像範囲が変化したときに、その変化が画角の変化に起因するものである場合、人物は、変化前における撮像範囲から、変化後における撮像範囲を除いた領域にいると予想される。よって、アレイマイク２５の指向方向および集音範囲を制御して、画角の変化前におけるアレイマイク２５の集音対象の領域から、画角の変化後における撮像範囲と重なる領域を除外した領域から音声を集音することで、人物のいる領域を確実に集音対象の領域としつつ、人物のいない領域から集音することを避け、人物の発する音声を確実且つより明瞭に集音することができる。

撮像した画像内に含まれる、人の顔の特徴を有する部位が、所定の大きさ以下であるものを人物として検出しないようにすれば、撮像装置が撮像対象としない人物がたまたま撮像範囲に含まれても、その人物がアレイマイク２５の制御条件となることがない。これにより、誤った指向方向および集音範囲が設定されてしまうことを防止でき、集音対象の人物の発する音声を確実に集音することができる。

本発明は上記実施の形態に限定されるものではなく、種々の変更が可能である。カメラ２８として単焦点デジタルカメラを使用し、ズームは撮像した画像に対し、トリミングと拡大処理を行うことで実現される疑似的なデジタルズームにより行ったが、カメラ２８に機械的に焦点距離を変化させるズームレンズを設け、光学ズームを実現してもよい。

アレイマイク２５には、一例として３個のマイクが設けられているとしたが、２個以上であればよく、望ましくは３個以上であり、数が多いほどより精確に集音範囲を設定することができる。また、アレイマイク２５を構成する個々のマイクについて、本実施の形態では無指向性マイクを用いたが、指向性マイクを用いてもよい。あるいは無指向性マイクと指向性マイクとを組み合わせてアレイマイク２５を構成してもよい。

会議端末１のパンの回転角度の演算は画像解析によって回転前と回転後との画像から特徴物の位置を検出することで行ったが、会議端末１に加速度センサを設け、会議端末１の向きを常時把握できるようにしてもよい。また、特徴物として、会議室５０内の数カ所にマーカーを設け、画像解析により画像内に映るマーカーから会議端末１の向きを把握できるようにしてもよい。加速度センサを設けるコストや、マーカーを準備する手間を考慮すると、本実施の形態のように、画像解析によって会議端末１の向きを把握する方法を採用すれば、ソフトウェアだけで処理できるため、好ましい。

会議端末１の設置向きは、任意の向きであってもよい。例えば、会議端末１を９０度傾けて壁などに取り付け、本実施の形態におけるパンがチルトの動作に相当するようにしてもよい。この場合、画像解析により、垂直方向において画像内の特徴物の移動を検出し、回転角度を求めれば、アレイマイク２５の指向方向と集音範囲の制御を行うことができる。

本実施の形態では、会議端末１が、本発明の「撮像装置」に相当する。カメラ２８が「撮像手段」に相当する。アレイマイク２５が「集音手段」に相当する。諸条件に応じてアレイマイク２５の指向方向および集音範囲を決定するための演算を行うＣＰＵ１１と、ＣＰＵ１１の演算結果に基づいてアレイマイク２５の個々のマイクの遅延時間を制御してアレイマイク２５の指向方向および集音範囲を制御する指向性制御部２６とが「制御手段」に相当する。Ｓ１５で人物を検出して画像内に人物が含まれるか否かを判断するＣＰＵ１１が「第一判断手段」に相当する。Ｓ１５で人物を検出できないと判断し、また、人物を検出したもののＳ２２で人物の数が減ったと判断するＣＰＵ１１が、「第二判断手段」に相当する。

１会議端末
１１ＣＰＵ
１３ＲＡＭ
２５アレイマイク
２６指向性制御部
２８カメラ

Claims

画像を撮像する撮像手段と、
前記撮像手段と一体に構成され、音声を集音する複数の集音手段と、
前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御手段と、
前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断手段と、
を備え、
前記制御手段は、前記第一判断手段によって前記撮像範囲内に人物が含まれないと判断された場合に、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御することを特徴とする撮像装置。
前記撮像手段の前記撮像範囲が変化したか否かを判断する第二判断手段をさらに備え、
前記制御手段は、前記第二判断手段によって前記撮像範囲が変化したと判断された場合に、前記撮像範囲の変化の内容に基づいて、前記集音手段の指向方向および集音範囲を制御することを特徴とする請求項１に記載の撮像装置。
前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の撮像方向の変化に起因するものであって、変化前の前記撮像方向から変化後の前記撮像方向を特定不可能であると判断された場合に、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の全ての領域が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御することを特徴とする請求項２に記載の撮像装置。
前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の前記撮像方向の変化に起因するものであって、変化前の前記撮像方向から変化後の前記撮像方向を特定可能であると判断された場合に、前記撮像範囲の変化前における前記集音手段の集音対象の領域から音声が集音されるように、前記集音手段の指向方向および集音範囲を制御することを特徴とする請求項２または３に記載の撮像装置。
前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の画角の変化に起因すると判断された場合に、前記画角の変化前における前記集音手段の集音対象の領域から、前記画角の変化後における前記撮像範囲と重なる領域を除外した領域が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御することを特徴とする請求項２から４のいずれかに記載の撮像装置。
前記第一判断手段は、前記撮像手段の撮像した画像から人の顔の特徴を有する部位を認識し、認識した部位の大きさが所定の大きさよりも大きい場合に、前記撮像範囲に人物が含まれると判断することを特徴とする請求項１から５のいずれかに記載の撮像装置。
画像を撮像する撮像手段と、音声を集音する複数の集音手段とが一体に構成された撮像装置を機能させるため、コンピュータにおいて実行される撮像方法であって、
前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御ステップと、
前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断ステップと、
を含み、
さらに、前記第一判断ステップにおいて前記撮像範囲内に人物が含まれないと判断された場合に、前記制御ステップにおいて、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲が制御されることを特徴とする撮像方法。
画像を撮像する撮像手段と、音声を集音する複数の集音手段とが一体に構成された撮像装置を機能させるためのプログラムであって、
コンピュータに、
前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御ステップと、
前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断ステップと、
を実行させ、
さらに、前記第一判断ステップにおいて前記撮像範囲内に人物が含まれないと判断された場合に、前記制御ステップにおいて、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲が制御されることを特徴とするプログラム。