JP2013016929A - 撮像装置、撮像方法およびプログラム - Google Patents

撮像装置、撮像方法およびプログラム Download PDF

Info

Publication number
JP2013016929A
JP2013016929A JP2011146768A JP2011146768A JP2013016929A JP 2013016929 A JP2013016929 A JP 2013016929A JP 2011146768 A JP2011146768 A JP 2011146768A JP 2011146768 A JP2011146768 A JP 2011146768A JP 2013016929 A JP2013016929 A JP 2013016929A
Authority
JP
Japan
Prior art keywords
imaging
sound
range
sound collection
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011146768A
Other languages
English (en)
Inventor
Ai Hata
愛 秦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2011146768A priority Critical patent/JP2013016929A/ja
Publication of JP2013016929A publication Critical patent/JP2013016929A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】撮像範囲内に人物が含まれない場合でも人物の発する音声を集音することができる撮像装置、撮像方法およびプログラムを提供する。
【解決手段】参加者53〜55を撮像する会議端末1がパンされて撮像方向がA3となり、カメラの撮像範囲B1内に参加者が含まれなくなった場合、画像P3には参加者53〜55が映らず、人物の顔を検出できない。このとき、アレイマイクの指向方向をC3に設定し、その集音範囲を、会議端末1を中心とする360°全方向から、撮像方向A3および撮像範囲B1によって特定される領域を除外した領域であるD3に設定する。これにより、参加者53〜55のいる領域が確実に集音対象の領域となり、さらに、参加者53〜55がいないとわかっている領域からは集音することを避けることができるので、参加者53〜55の発する音声を確実且つ明瞭に集音することができる。
【選択図】図6

Description

本発明は、撮像手段と集音手段とが一体に構成された撮像装置、撮像方法およびプログラムに関する。
画像を撮像するカメラと、音声を集音するマイクロフォン(以下では「マイク」と略す。)とが筐体に一体に構成された撮像装置が知られている。例えば、遠隔会議に用いられる会議用の端末装置は、撮像装置を用いて自拠点の画像を撮像し、音声を集音し、ネットワークを介して他の拠点の端末装置との間で画像や音声のデータを送受信する。
このような撮像装置において、会議における発言者の音声を確実に、且つクリアに拾うため、集音用のマイクとして、単一指向性マイクを用いたものが知られている(例えば特許文献1参照。)。特許文献1に記載の撮像装置(カメラ付きマイクロフォン)は、カメラの画角がマイクの単一指向性の範囲とほぼ等しい構成となっている。そして、カメラで撮像した画像において顔の画像を認識できなかった場合に、マイクによる音声の取り込みを行わないようにすることで、発言者が映っていなければ不要な音声を取り込まないようにしている。
また、撮像装置の集音用のマイクとして、公知のアレイマイクを用いたものが知られている(例えば特許文献2参照。)。アレイマイクは複数の無指向性のマイクをアレイ状に並べて配置したものであり、電気的な制御によって任意の方向への指向性を得ることができるものである。このようなアレイマイクを用いた特許文献2に記載の撮像装置(マイクロホン内蔵型ビデオカメラ)は、アレイマイクの指向特性を、カメラの振れ角、ズーム角と連動させている。これにより、発言者の方向にカメラが向けられたらアレイマイクが発言者側に指向され、また、発言者がズームされたらその発言者に対し鋭く指向され、カメラに映し出された発言者の音声を効果的に拾うことができる。
特開2009−49734号公報 特開平10−155107号公報
しかしながら、特許文献1,2に記載の発明は、発言者がカメラに映され、そのカメラの画像や向きを基準にマイクの指向方向が決定される。このため、例えばカメラでホワイトボードを映しながら発言者が説明を行う場合など、発言者以外の物体あるいは他の参加者がカメラに映し出された場合、特許文献1ではマイクによる音声の取り込みが遮断されてしまうという問題があった。また、特許文献2では、カメラに連動するアレイマイクの指向方向がカメラの向けられたホワイトボードに向けられてしまうため、発言者の音声を明瞭に捉えることができないという問題があった。
本発明は、上記問題点を解決するためになされたものであり、撮像範囲内に人物が含まれない場合でも人物の発する音声を集音することができる撮像装置、撮像方法およびプログラムを提供することを目的とする。
本発明の第1態様によれば、画像を撮像する撮像手段と、前記撮像手段と一体に構成され、音声を集音する複数の集音手段と、前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御手段と、前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断手段と、を備え、前記制御手段は、前記第一判断手段によって前記撮像範囲内に人物が含まれないと判断された場合に、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御する撮像装置が提供される。
第1態様によれば、撮像手段の撮像範囲内に人物が含まれなければ、撮像範囲外の領域の少なくとも一部を集音対象の領域とすることができるので、人物のいる領域を集音範囲に含めることができ、人物の発する音声を確実に集音することができる。また、人物が含まれていない撮像範囲内の領域は、集音対象の領域から外されるので、その領域に発生源を有するノイズ等があっても集音されることがなく、人物の発する音声を、より明瞭に集音することができる。
第1態様に係る前記撮像装置は、前記撮像手段の前記撮像範囲が変化したか否かを判断する第二判断手段をさらに備えてもよい。この場合に前記制御手段は、前記第二判断手段によって前記撮像範囲が変化したと判断された場合に、前記撮像範囲の変化の内容に基づいて、前記集音手段の指向方向および集音範囲を制御してもよい。
撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想される。そこで、制御手段が、集音手段の指向方向および集音範囲の制御を撮像範囲の変化の内容に基づいて行えば、人物のいる領域が確実に集音対象の領域に含まれるようにすることができる。よって、人物の発する音声を確実且つより明瞭に集音することができる。
第1態様において、前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の撮像方向の変化に起因するものであって、変化前の前記撮像方向から変化後の前記撮像方向を特定不可能であると判断された場合に、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の全ての領域が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御してもよい。
撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想されるが、変化前から変化後の撮像方向が特定不可能である場合は、変化後の撮像方向を基準に、変化前の指向方向および集音範囲を特定することができない。よって、制御手段が、集音手段の指向方向および集音範囲を制御して、集音可能な領域のうち、撮像手段の撮像範囲外の全ての領域から音声を集音することで、人物のいる領域が確実に集音対象の領域に含まれるようにしつつ、人物がいないとわかっている領域からは集音しないようにすることができるので、人物の発する音声を確実且つより明瞭に集音することができる。
第1態様において、前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の前記撮像方向の変化に起因するものであって、変化前の前記撮像方向から変化後の前記撮像方向を特定可能であると判断された場合に、前記撮像範囲の変化前における前記集音手段の集音対象の領域から音声が集音されるように、前記集音手段の指向方向および集音範囲を制御してもよい。
撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想され、さらに、変化前から変化後の撮像方向が特定可能である場合は、変化後の撮像方向を基準に、変化前の指向方向および集音範囲を特定することができる。よって、制御手段が、集音手段の指向方向および集音範囲を制御して、撮像範囲の変化前における集音手段の集音対象の領域から音声を集音することで、人物のいる領域を確実に集音対象の領域としつつ、人物のいない領域から集音することを避け、人物の発する音声を確実且つより明瞭に集音することができる。
第1態様において、前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の画角の変化に起因すると判断された場合に、前記画角の変化前における前記集音手段の集音対象の領域から、前記画角の変化後における前記撮像範囲と重なる領域を除外した領域が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御してもよい。
撮像範囲が変化したときに、その変化が画角の変化に起因するものである場合、人物は、変化前における撮像範囲から、変化後における撮像範囲を除いた領域にいると予想される。よって、制御手段が、集音手段の指向方向および集音範囲を制御して、画角の変化前における集音手段の集音対象の領域から、画角の変化後における撮像範囲と重なる領域を除外した領域から音声を集音することで、人物のいる領域を確実に集音対象の領域としつつ、人物のいない領域から集音することを避け、人物の発する音声を確実且つより明瞭に集音することができる。
第1態様において、前記第一判断手段は、前記撮像手段の撮像した画像から人の顔の特徴を有する部位を認識し、認識した部位の大きさが所定の大きさよりも大きい場合に、前記撮像範囲に人物が含まれると判断してもよい。
撮像した画像内に含まれる、人の顔の特徴を有する部位が、所定の大きさ以下であるものを人物として検出しないようにすれば、撮像装置が撮像対象としない人物がたまたま撮像範囲に含まれても、その人物が集音手段の制御条件となることがない。これにより、制御手段が誤った指向方向および集音範囲で制御してしまうことを防止でき、集音対象の人物の発する音声を確実に集音することができる。
本発明の第2態様によれば、画像を撮像する撮像手段と、音声を集音する複数の集音手段とが一体に構成された撮像装置を機能させるため、コンピュータにおいて実行される撮像方法であって、前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御ステップと、前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断ステップと、を含み、さらに、前記第一判断ステップにおいて前記撮像範囲内に人物が含まれないと判断された場合に、前記制御ステップにおいて、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲が制御される撮像方法が提供される。
本発明の第3態様によれば、画像を撮像する撮像手段と、音声を集音する複数の集音手段とが一体に構成された撮像装置を機能させるためのプログラムであって、コンピュータに、前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御ステップと、前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断ステップと、を実行させ、さらに、前記第一判断ステップにおいて前記撮像範囲内に人物が含まれないと判断された場合に、前記制御ステップにおいて、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲が制御されるプログラムが提供される。
第2態様に係る撮像方法に従う処理を撮像装置のコンピュータで実行することによって、あるいは、第3態様に係るプログラムを実行してコンピュータを撮像装置として機能させることで、第1態様と同様の効果を得ることができる。
会議端末1およびPC9の斜視図である。 会議端末1の電気的構成を示すブロック図である。 会議端末1で実行されるプログラムのフローチャートである。 会議端末1の撮像方向A1、撮像範囲B1等に合わせて設定される指向方向C1、集音範囲D1を示す図である。 会議端末1の撮像方向A2、撮像範囲B1等に合わせて設定される指向方向C1、集音範囲D1を示す図である。 会議端末1の撮像方向A3、撮像範囲B1等に合わせて設定される指向方向C3、集音範囲D3を示す図である。 会議端末1の撮像方向A1、撮像範囲B4等に合わせて設定される指向方向C1、集音範囲D4を示す図である。 会議端末1の撮像方向A1、撮像範囲B5等に合わせて設定される指向方向C1、集音範囲D1を示す図である。 会議端末1の撮像方向A6、撮像範囲B1等に合わせて設定される指向方向C6、集音範囲D6を示す図である。 会議端末1の撮像方向A7、撮像範囲B1等に合わせて設定される集音範囲D7を示す図である。
以下、本発明に係る撮像装置の一実施の形態である会議端末1について、図面を参照して説明する。なお、参照される図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、単なる説明例である。
まず、図1を参照して、会議端末1の概略構成について説明する。図1に示す会議端末1は、アレイマイク25、スピーカ27、カメラ28、および操作部29を備える。会議端末1は、カメラ28で画像を撮像し、アレイマイク25で音声を集音することができ、また、スピーカ27で音声を発生することのできる装置である。会議端末1は、筐体4の上端に回転軸3を備え、その回転軸3を中心に筐体4の一部を回転させ、下端側を開いたり閉じたりできるように構成されている。ユーザは、筐体4の下端側を開くことで、筐体4の姿勢を自立させることのできる姿勢、すなわち使用時の姿勢(図1参照)とすることができる。また、筐体4の下端側を閉じることで、筐体4の姿勢を折りたたまれた姿勢、すなわち非使用時の姿勢(図示外)とすることができる。
会議端末1は、設置された拠点の音声をアレイマイク25から集音(入力)し、且つ画像をカメラ28から撮像(入力)する。アレイマイク25は2つ以上の無指向性マイクを並べて配置したものである。詳細は後述するが、アレイマイク25は電気的な制御によって指向方向と集音範囲を設定することができる。本実施の形態では、アレイマイク25に3個のマイクを用いている。
カメラ28は、例えばCMOSやCCDなどのイメージセンサを搭載した単焦点デジタルカメラが用いられる。本実施の形態の会議端末1は、例えば卓上に載置して使用する形態のものであり、カメラ28の撮像向きを調整するパンやチルトなどの動作は手動で会議端末1の筐体4を動かすことによって行われる。また、会議端末1におけるズームは、いわゆるデジタルズームによって電気的になされる。より詳細には、本実施の形態のカメラ28は単焦点デジタルカメラを用いるため、画角は固定であり、ズームは撮像した画像に対し、トリミングと拡大処理を行うことで実現される疑似的なズームを用いるものとする。以下では、カメラ28によって撮像可能となる範囲(撮像する画像内に納まる範囲)を撮像範囲と呼ぶが、撮像範囲はカメラ28が向く方向(撮像方向)を基準とした角度範囲で表すものとし、光学ズームにおける画角(ズームレンズが移動して焦点距離が変わることによって変化する撮像可能な角度範囲)と同義で扱うものとする。よって、デジタルズームによって行われる撮像範囲に対する拡大・縮小の動作は、便宜上、画角の変化によって表す場合もある。
会議端末1の操作部29には、電源ボタン、音量調節ボタン、マイクミュートボタン等が設けられている。また、会議端末1は、USBインタフェイス21(図2参照)を搭載し、外部機器との電気的な接続を行うことができる。本実施の形態では、会議端末1は、例えばパーソナルコンピュータ(以下、「PC」と略する。)9に接続される。PC9は、データ通信、画像表示等の各種情報処理を行う一般的なコンピュータである。
図1に示す、PC9はノート型のPCであり、表示装置6および操作部7等を備えるが、表示装置、操作部等のデバイスを備えないデスクトップ型のPCを用いてもよいことは言うまでもない。PC9と会議端末1とはUSBケーブル2によって電気的に接続される。なお、PC9と会議端末1との接続はUSBケーブル2に限らず、WiFi(登録商標)等の無線通信や赤外線等の光通信、その他IEEE1394等、様々な接続方式が利用できる。
アレイマイク25によって集音される音声のデータや、カメラ28によって撮像される画像のデータは、USBケーブル2を介してPC9に送信される。また、会議端末1は、PC9から受信した音声のデータに基づいて、スピーカ27から音声を発生させる。
ユーザは、PC9および会議端末1を用いることで、画像を用いた遠隔会議(ビデオ会議)を実行することができる。詳細には、PC9は、会議端末1から入力した音声および画像のデータを、他拠点に配置されたPC等の通信装置に、インターネット等のネットワーク8(図2参照)を介して送信する。同時に、PC9は、他拠点に配置された通信装置から、他拠点の音声および画像のデータを受信する。PC9は、受信した画像のデータに基づいて、他拠点の画像を表示装置6に表示させる。さらに、PC9は、受信した音声のデータに基づいて、接続している会議端末1のスピーカ27に他拠点の音声を発生させる。その結果、複数の拠点の音声および画像が共有され、全てのユーザが同一の拠点にいない場合でも円滑に会議が進行する。
なお、PC9および会議端末1の構成は適宜変更可能である。例えば、他拠点から受信した音声をPC9が内蔵するスピーカで発生し、会議端末1のスピーカ27は使用しなくともよい。また、アレイマイク、スピーカ、および表示装置を備えるPCにさらに小型のカメラを接続し、そのPCを会議端末としてビデオ会議を実行してもよい。もちろん、PCがカメラを内蔵してもよい。あるいは、会議端末1が音声および画像のデータを送信する機能をさらに備え、PC9は、他拠点の会議端末1から受信した音声の発生および画像の表示を行うための装置として用いられてもよい。もちろん、会議端末1は必ずしもビデオ会議に用いなくともよく、単に画像を撮像し、音声を集音する装置として機能すれば足り、PC9は、会議端末1から受信する画像や音声のデータに基づき、画像の表示と音声の発生を行えばよい。
次に、図2を参照して、会議端末1の電気的構成について説明する。会議端末1は、会議端末1の制御を司るCPU11を備える。CPU11には、ROM12、RAM13、フラッシュメモリ14、および入出力インタフェイス(I/F)16が、バス15を介して接続されている。
ROM12は、会議端末1を動作させるためのプログラムおよび初期値等を記憶している。RAM13は各種情報を一時的に記憶する。フラッシュメモリ14は不揮発性の記憶装置である。入出力インタフェイス16には、USBインタフェイス(I/F)21、音声入力処理部22、指向性制御部26、音声出力処理部23、映像入力処理部24、および操作部29が接続されている。USBインタフェイス21は、会議端末1をPC9に接続する。音声入力処理部22は、指向性制御部26を介して入力されるアレイマイク25からの音声信号を処理して音声データを生成する。指向性制御部26は、アレイマイク25の指向方向および集音範囲を制御する処理を行う。音声出力処理部23はスピーカ27の動作を処理する。映像入力処理部24は、カメラ28からの画像信号を処理して画像データを生成する。
ここで、アレイマイク25において集音する音声の指向方向および集音範囲を制御するため指向性制御部26において行われる処理の動作原理について、簡単に説明する。アレイ状に並べて配置された個々のマイクに到達する音声は、マイクの並び方向に対してどの方向から到達したかによって、その到達時間に差を生ずる。例えば、マイクの並び方向と直交する方向(便宜上、「正面方向」とする。)から音声が到達する場合、音声は各マイクに同時に到達する。このため、アレイマイク25からは個々のマイクから音声信号が出力され、音声入力処理部22において電気的に足し合わされることによって、マイクの数に相当する分の倍率に増幅された音声の出力が得られることとなる。一方、マイクの並び方向に対し斜めの方向(便宜上、「斜め方向」とする。なお、側方も含む。)から音声が到達する場合、音声の発生源に近いマイクほど早く音声が到達するため、個々のマイクが取得する音声に時間差(位相ずれ)を生ずる。このため、アレイマイク25からの音声信号を音声入力処理部22において電気的に足し合わせた場合の音声のゲインは、各マイクへの音声の到達角度とマイクの配置間隔(あるいは配置位置)に応じたものとなり、正面方向から到達した場合よりも小さくなる。個々のマイクの配置間隔はあらかじめ判っているので、指向性制御部26において各マイクの取得する音声の時間差を取得してCPU11で解析すれば、音声の発生源の方向を求めることができる。
また、指向性制御部26では、アレイマイク25の個々のマイクで集音した音声をそれぞれ遅延させた上で音声入力処理部22に出力することができる。このことは、個々のマイクの出力に対する遅延時間を制御することにより、所定の斜め方向から到達する音声を足し合わせた場合のゲインを最大とすることができることを意味する。言い換えると、個々のマイクからの出力を指向性制御部26において電気的に制御して遅延させることにより、所望する方向に対し、アレイマイク25が指向性を得ることができる。
このように、遅延制御により指向性を得ることのできるアレイマイク25の出力のゲインは、一つの方向から到達した場合に最大となり、その方向から少しずれた方向から音声が到達すれば低下する。つまり、個々のマイクが集音する音声をマイクの配置間隔に応じて一律にずらすように遅延制御を行えば、アレイマイク25を狭指向性に制御することができ、集音範囲(指向方向を中心とした場合に集音可能な角度範囲)を狭くすることができる。また、個々のマイクの遅延時間を一律とはせず、あらかじめ計算等により求めた遅延時間の組合せを個々のマイクに適用すれば、アレイマイク25を広指向性に制御して、集音範囲を広くすることも可能である。さらに、マイクをいくつかの組に分けて、組ごとに遅延制御を異ならせれば、アレイマイク25に複数の指向方向を持たせることが可能となる。本実施の形態では、このような動作原理に基づき、CPU11による演算に従って、指向性制御部26が個々のマイクによって集音される音声の遅延処理を行うことで、アレイマイク25の指向方向および集音範囲の制御が行われる。なお、本実施の形態では、集音範囲について、上記のように、指向方向を中心としてアレイマイク25が音声を集音可能な方向の角度範囲を対象とする。
また、本実施の形態の会議端末1では、カメラ28で撮像した画像に映される人物が発する音声を確実に拾うことができるように、アレイマイク25の指向方向と集音範囲の制御が、画像の解析結果に応じて行われる。具体的には、カメラ28によって撮像した画像に人物の顔が含まれるか否かを判断するための画像解析と、カメラ28の水平方向における回転(パン)によって向きが変更されたか否かを判断するための画像解析とが行われる。人物の顔を検出する画像解析は、例えば目、鼻、口など顔の特徴を有する部分を画像から抽出し、相対位置や大きさなどをテンプレートと比較したり、あるいは幾何学的に解析したりする公知の方法により行われる。
なお、本実施の形態では、顔の特徴を有する部分の相対位置がテンプレートと一致しても、その大きさが、あらかじめ定められた所定の大きさに満たない場合には、人物の顔として検出されない。言い換えると、画像解析により画像内に人物の顔の特徴を有する部分が含まれても、その大きさが所定の大きさよりも小さければ、人物の顔として判断されない。これにより、例えば会議端末1から遠く離れた位置にいる人がカメラ28の撮像範囲に含まれて撮像されて画像に映ってしまっても、その人は、人物として検出される対象から除外される。
カメラ28の向きを検出する画像解析は、例えば最新の画像と、前回撮像された画像との双方に映る特徴物の画像内における配置位置のずれの有無を検出する公知の方法により行われる。上記したように、会議端末1は例えば卓上に載置して使用する形態のものであり、カメラ28のパンやチルトは、会議の参加者等が会議端末1を手動で動かすことによって行われる。言い換えると、会議端末1はパンやチルトのための駆動装置を搭載せず、PC9における操作に応じた制御によるパンやチルトが行われない。このため、会議端末1では、パンやチルトの制御の機構を用いたカメラ28の撮像方向の検出は、行われない。そこで会議端末1では、カメラ28で撮像した画像の解析結果に基づいて、カメラ28の向きの変化を検出している。特徴物とは、例えば閉じた輪郭線を検出できるものなどである。会議端末1では特徴物の配置位置にずれがあった場合、画像内でずれの大きさ(横方向のドット数など)が求められ、あらかじめ作成されたテーブルや計算式等により、カメラ28がどの方向に何度回転したか、求められる。なお、これらの画像解析の方法は一例に過ぎず、公知の様々な画像解析の方法を適用することができる。
次に、図3のフローチャートに従い、図4〜図10を参照しながら、会議端末1におけるアレイマイク25の指向方向と集音範囲とが制御される具体的な処理の流れについて説明する。なお、図3に示す処理を実行するためのプログラムはROM12に記憶されており、CPU11がプログラムに従って実行する。
会議端末1は、例えば会議室などに、使用時の姿勢で会議の参加者の方に向けられて設置され、PC9に接続される。ユーザ(参加者の一人であってもよい)によって操作部29の電源ボタンがONにされると、PC9との通信が開始されて、会議端末1は待機状態となる(S11:NO)。さらにユーザがPC9を操作することによって、PC9から撮像開始の指示信号を受信すると(S11:YES)、CPU11は、カメラ28による撮像と、アレイマイク25による集音とを開始する。また、CPU11は、他の拠点に配置された通信装置からPC9が受信した音声のデータに基づいて、スピーカ27から他の拠点の音声の発生(出力)を開始する。
なお、本実施の形態では、図4に示すように、会議室50の中央に配置されたテーブル52の手前側に設置された会議端末1で、会議の様子が撮像されるものとする。会議室50では、書類51が載置されたテーブル52を囲んで3人の参加者53,54,55が着席し、テーブル52の右手前側にホワイトボード56が用意され、右奥に花57が飾られているものとする。
撮像の開始時には、カメラ28のズームは行われない設定となっており、カメラ28によって撮像される画像には、カメラ28で撮像可能な最大の角度範囲に含まれる対象物が映される。会議端末1の正面方向はテーブル52の中央に向けられており、以下の説明では、便宜上、この方向を撮像方向A1とする。会議室50の様子を撮像したカメラ28の信号は映像入力処理部24に入力されて、画像P1のデータが生成される。画像P1には、カメラ28で撮像可能な撮像範囲B1(太実線で示す。)に含まれる人物(参加者53,54,55)や物体(書類51,テーブル52,花57)が映されている。
また、会議端末1による撮像の開始時には、アレイマイク25の指向方向C1は、カメラ28の正面方向、すなわち便宜上の撮像方向A1と同じ方向(つまり会議端末1の正面方向)に設定される。CPU11は、さらに、アレイマイク25の集音範囲D1をカメラ28の初期の画角に合わせるため、撮像方向A1と撮像範囲B1とに基づき、上記説明した動作原理に従いあらかじめ設定された演算式もしくはテーブルによる演算を行う。指向性制御部26は、CPU11が行った演算の結果に応じて、アレイマイク25の個々のマイクの遅延時間を設定する。指向方向C1および集音範囲D1が制御されたアレイマイク25により集音した会議室50の音声信号は、音声入力処理部22に入力されて足し合わされ、音声データが生成される。映像入力処理部24において生成される画像データと、音声入力処理部22において生成される音声データとは、USBケーブル2を介してPC9にストリーミング形式により送信される。
次に図3に示すように、CPU11は、画像P1の画像解析を行い、画像P1に映る人物(つまり参加者53〜55)の顔の検出を行い、検出された参加者の人数をカウントする(S12)。画像P1からは3人の参加者53〜55の顔(人の顔の特徴を有する部位)が認識される。CPU11は、会議の参加者の人数が3であるとして(S12)、RAM13(フラッシュメモリ14でもよい。)に一時的に記憶する。
カメラ28による画像の撮像と、アレイマイク25による音声の集音とは継続して行われ、生成される画像データと音声データとがPC9にストリーミング送信される。その間に会議端末1が水平回転(パン)されても、映像入力処理部24は、カメラ28が向けられた方向において撮像された画像の画像データを生成する。また、ユーザのPC9における操作によってPC9からズームの指示信号をCPU11が受信した場合、映像入力処理部24は、指示されたズーム倍率に応じて画像のトリミングと拡大処理を行って、画像データを生成する。この場合には、ズーム倍率に応じた画角が所定の計算式あるいはテーブルを用いて算出され、現在の撮像範囲として、RAM13(フラッシュメモリ14でもよい。)に一時的に記憶される。
カメラ28による画像の撮像と、アレイマイク25による音声の集音とが所定時間の間、継続して行われ(S13:NO,S13)、所定時間が経過すると(S13:YES)、S15〜S30の処理が実行される。S15〜S30の処理では、アレイマイク25の指向方向および集音範囲の制御が行われる。また、S15〜S30の処理が行われる際に、カメラ28によって最新の画像がRAM13に記憶され、CPU11による画像解析に用いられる。なお、S15〜S30の処理が行われる度に、RAM13には最新の画像と、前回撮像された画像との2つの画像が記憶され、それ以前に記憶された画像は上書き消去される。
まず、新たに撮像されてRAM13に記憶された最新の画像に対し、CPU11が画像解析を行い、画像に映る人物の顔を検出できたか判断する(S15)。会議端末1に対してパンやズームがなされておらず、最新の画像が、例えば前回撮像された図4の画像P1とほぼ同じ画像であった場合、CPU11は、3人の参加者53,54,55の顔を認識し、すなわち人物を検出する(S15:YES)。検出される顔の数が3であり、S12で記憶した会議の参加者の人数よりも減っていない場合(S22:NO)、CPU11は、カメラ28の撮像範囲内に全ての参加者がいるとして、アレイマイク25の集音範囲を現在のカメラ28の画角に合わせる処理を行う(S23)。すなわち、CPU11は、図4に示すように、アレイマイク25の指向方向を撮像方向A1と同じC1に設定する。そして上記同様、集音範囲がD1となるように撮像方向A1と撮像範囲B1とに基づく演算を行い、アレイマイク25の個々のマイクの遅延時間を設定するための指示を指向性制御部26に送出する。
このように、最新の画像P1内に参加者53〜55の全員が映っていれば、撮像範囲B1から集音を行えば参加者53〜55全員の発する音声を集音できると判断できる。ゆえに、CPU11は、撮像方向A1を指向方向C1とし、演算により、撮像範囲B1と同じ大きさの集音範囲D1を求め、設定する。これにより、参加者53〜55の発する音声を確実に集音することができるのである。その後処理はS13に戻る。
次に、ホワイトボード56を映すため会議端末1に対してパンがなされ、例えば図5に示すように、カメラ28の撮像方向がA2に向けられた場合、撮像範囲B1内に参加者53〜55が映らなくなることがある。この場合に最新の画像P2には参加者53〜55が映っておらず、S15において、CPU11は、画像P2の解析を行っても人物の顔を検出することができない(S15:NO)。PC9からズームの指示信号を受信していなければ(S16:NO)、RAM13に記憶された最新の画像P2と、前回撮像されてRAM13に記憶された画像P1との比較による回転角度の推測(撮像方向の検出)が行われる(S17)。
上記したように、撮像方向(カメラ28の向き)を検出する画像解析は、CPU11が、前回の画像P1に映る特徴物(例えば花57)を、最新の画像P2内において同様に検出し、配置位置にずれがないか検出する公知の方法によって行われる。図5に示すように、画像P2内において花57は左端寄りの位置にあり、前回の画像P1では右端寄りの位置にあって、矢印E1で示すように位置ずれが生じていることから、会議端末1にパンが行われたことが検出される。さらに、撮像範囲B1(画角)がわかっていることから、画像P1,P2の横幅に対する画像P1,P2内での花57の位置ずれの大きさから、会議端末1になされたパンの大きさ、すなわち会議端末1の回転角度が算出される。
会議端末1の回転角度を推測(算出)することができた場合(S17:YES)、CPU11は、現在の撮像方向A2から、求められた回転角度分、回転前の方向に集音の向きを戻し、その方向を、指向方向に設定する。図5に示す例では、上記の画像解析により撮像方向がA1(図4参照)からA2(図5参照)に向けられたことが判ったことから、指向方向が回転前のC1に設定される。また、CPU11は、アレイマイク25の集音範囲を回転前の集音範囲であるD1に設定する(S20)。
このように、最新の画像P2内に、前回の画像P1に映る参加者53〜55が映っていなければ、会議端末1のみがパンされたものと判断することができる。ゆえに、CPU11は、パンによる回転角度が画像解析から判る場合、アレイマイク25の指向方向と集音範囲とを回転前の指向方向と集音範囲とに合わせる。これにより、参加者53〜55の発する音声を確実に集音することができる。つまり、ホワイトボード56を映すために参加者53〜55が画像P3に映らなくなっても、参加者53〜55の発する音声を確実に集音することができる。その後処理はS13に戻る。
さらに、会議端末1に対してホワイトボード56を映すためのパンがなされたときに、例えば図6に示すように、カメラ28の撮像方向が、撮像範囲B1内に参加者53〜55も特徴物(花57)も含まれない、A3に向けられることがある。この場合にCPU11は、最新の画像P3からは人物の顔を検出することができない(S15:NO)。またズームの指示信号を受信していなければ(S16:NO)、上記同様に回転角度の推測(撮像方向の検出)を行う(S17)。CPU11は、上記の画像解析により、前回の画像P1(図4参照)に映る特徴物(花57)を、最新の画像P3内において検出することができないので、回転角度を推測することができないと判断する(S17:NO)。
この場合、CPU11は、現在の撮像方向A3の反対方向であるC3を指向方向とするとともに、アレイマイク25の集音範囲を、360°の全範囲から、現在のカメラ28の画角の範囲である撮像範囲B1を除き、残った範囲であるD3に設定する(S18)。言い換えると、アレイマイク25の指向性を、カメラ28の画角外に設定する。
このように、最新の画像P3内に前回の画像P1に映る参加者53〜55が映っていなければ、上記同様、会議端末1のみがパンされたものと判断することができる。このとき、パンによる回転角度が画像解析から判らない場合、CPU11は、アレイマイク25の指向方向と集音範囲を現在のカメラ28の画角外に設定する。これにより、参加者53〜55がいないと判っている範囲からは集音せず、それ以外の範囲から集音することができる。つまり、ホワイトボード56を映すために参加者53〜55が画像P3に映らなくなっても、参加者53〜55の発する音声を確実に集音することができる。その後処理はS13に戻る。
次に、例えば図7に示すように、CPU11がPC9からズームの指示信号を受け、撮像した画像P1のトリミングと拡大処理を行った結果、ズームによって小さくなった撮像範囲B4内に参加者53〜55が含まれなくなることがある。この場合にCPU11は、最新の画像P4からは人物の顔を検出することができない(S15:NO)。またズームの指示信号を受信したので(S16:YES)、S21に進み、アレイマイク25の指向方向をズーム前の指向方向C1に設定する。そしてアレイマイク25の集音範囲を、ズーム前のカメラ28の画角の範囲である撮像範囲B1から、ズームによって小さくなった画角の範囲である撮像範囲B4を除き、残った範囲であるD4に設定する(S21)。
このように、最新の画像P4内に前回の画像P1に映る参加者53〜55が映っておらず、その際にCPU11がズームの信号を受けていれば、ズームによって画角が狭くなったことから、参加者53〜55が画像P4内に映らなくなったと判断できる。ゆえにCPU11は、アレイマイク25の集音範囲をズーム前の撮像範囲B1から、参加者53〜55がいないと判っている現在の撮像範囲B4を除いた範囲である集音範囲D4に設定する。これにより、ズームして画像P4に参加者53〜55が映らなくなった場合でも、参加者53〜55の発する音声を確実に集音することができる。その後処理はS13に戻る。
次に、会議端末1においてパンやズームがなされ、撮像された画像に映る参加者の人数が減ってしまった場合における処理について説明する。S15においてCPU11が画像内に人物の顔を検出しても(S15:YES)、その数が、S12で記憶した会議の参加者の人数よりも少なかった場合(S22:YES)、S25〜S30の処理が行われる。
例えば図8に示すように、ズームの指示信号を受けたCPU11が画像P1のトリミングと拡大処理を行った結果、ズームによって小さくなった撮像範囲B5内に、一部の参加者53,54が含まれる場合がある。この場合にCPU11は、最新の画像P5から人物の顔を検出でき(S15:YES)、その人数が参加人数よりも少なく(S22:YES)、またズームの指示信号を受信したので(S25:YES)、S30に進む。CPU11は、アレイマイク25の指向方向をズーム前の指向方向C1に設定するとともに、アレイマイク25の集音範囲についても同様に、ズーム前のカメラ28の画角の範囲である撮像範囲B1と同じD1に設定する(S30)。
このように、最新の画像P5内に一部の参加者53,54が映り、その際にCPU11がズームの信号を受けていれば、参加者55は、ズームによって画角が狭くなったことから画像P5内に映らなくなったと判断できる。ゆえにCPU11は、アレイマイク25の集音範囲を、ズーム前の撮像範囲B1と同じ集音範囲D4に設定する。これにより、ズームした画像P5に映る参加者53,54と、映らない参加者55の発する音声を確実に集音することができる。その後処理はS13に戻る。
ところで、会議端末1がパンされ、その結果、撮像範囲内に一部の参加者だけが含まれることとなる場合がある。例えば図9に示すように、カメラ28の撮像方向が、撮像範囲B1内に参加者54が含まれ、且つ、特徴物(花57)が含まれるA6に向けられた場合、CPU11は、画像解析により、画像P6から人物(参加者54)の顔を検出する(S15:YES)。画像P6に映らない他の参加者53,55の顔は検出できないので、検出する人物の数は、S12で記憶した参加人数より少ない(S22:YES)。
ズームの指示信号を受信していなければ(S25:NO)、CPU11は、回転角度の推測(撮像方向の検出)を行う(S26)。前回の画像P1(図4参照)の右端寄りの位置に映る特徴物(花57)が、画像P6では中央よりやや左寄りの位置に映っており、矢印E2で示すように位置ずれが生じていることから、会議端末1にパンが行われたことが検出される。さらに、撮像範囲B1に基づき、画像P1,P6内での花57の位置ずれの大きさから、会議端末1になされたパンの大きさ、すなわち会議端末1の回転角度が算出される。
会議端末1の回転角度を推測(算出)することができた場合(S26:YES)、CPU11は、アレイマイク25の指向方向を撮像方向A6と、回転前の指向方向C1との中間の方向であるC6に設定する。そして、アレイマイク25の集音範囲を、撮像方向A6に対する現在のカメラ28の撮像範囲B1の画角の範囲と、前回の指向方向C1に対する集音範囲D1とを足し合わせたD6に設定する(S28)。
このように、パンによって最新の画像P6内に一部の参加者54が映る場合には、その参加者54を映すため、会議端末1がパンされたものと判断することができる。ゆえに、CPU11は、パンによる回転角度が画像解析から判る場合、アレイマイク25の指向方向を、回転前の指向方向とカメラ28の回転後の撮像方向との中間の方向とする。そしてアレイマイク25の集音範囲を、カメラ28の回転前における集音範囲に、回転後の撮像方向に基づく撮像範囲を足し合わせた範囲に合わせる。これにより、パンによって注目された参加者54と、画像P6に映らなくなった参加者53,55との発する音声を確実に集音することができる。その後処理はS13に戻る。
また、一人の参加者54がホワイトボード56を用いた説明を行う場合など、もとの位置から移動し、それに合わせて会議端末1が参加者54を映すようにパンされる場合がある。例えば図10に示すように、カメラ28の撮像方向が、撮像範囲B1内に参加者54が含まれるものの、特徴物(花57)が含まれないA7に向けられる場合である。CPU11は、上記同様、画像解析により、画像P7から人物(参加者54)の顔を検出するが(S15:YES)、検出する人物の数が参加人数より少ない(S22:YES)。
また、CPU11は、前回の画像P1(図4参照)に映る特徴物(花57)を、最新の画像P7内において検出することができなければ、回転角度を推測することができないと判断する(S26:NO)。この場合、CPU11はアレイマイク25の指向方向を360°全方向(無指向)とし、アレイマイク25の集音範囲を、360°の全範囲であるD7に設定する。
このように、パンによる回転角度が画像解析から判らない場合、CPU11は、集音範囲D7を設定し、360°の全範囲から集音することにより、画像P7内に映る参加者54の発する音声だけでなく、画像P7内に映らない参加者53,55の発する音声にも対応することができる。すなわち、パンによって注目された参加者54と、画像P7に映らなくなった参加者53,55との発する音声を確実に集音することができる。その後処理はS13に戻る。
以上説明したように、本実施の形態の会議端末1では、会議端末1の撮像範囲内に人物が含まれなければ、撮像範囲外の領域の少なくとも一部を集音対象の領域とすることができるので、人物のいる領域を集音範囲に含めることができ、人物の発する音声を確実に集音することができる。また、人物が含まれていない撮像範囲内の領域は、集音対象の領域から外されるので、その領域に発生源を有するノイズ等があっても集音されることがなく、人物の発する音声を、より明瞭に集音することができる。
撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想される。そこで、アレイマイク25の指向方向および集音範囲の制御を撮像範囲の変化の内容に基づいて行えば、人物のいる領域が確実に集音対象の領域に含まれるようにすることができる。よって、人物の発する音声を確実且つより明瞭に集音することができる。
撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想されるが、変化前から変化後の撮像方向が特定不可能である場合は、変化後の撮像方向を基準に、変化前の指向方向および集音範囲を特定することができない。よって、アレイマイク25の指向方向および集音範囲を制御して、集音可能な領域のうち、会議端末1の撮像範囲外の全ての領域から音声を集音することで、人物のいる領域が確実に集音対象の領域に含まれるようにしつつ、人物がいないとわかっている領域からは集音しないようにすることができるので、人物の発する音声を確実且つより明瞭に集音することができる。
撮像範囲が変化したときに、人物は、変化前における撮像範囲にいると予想され、さらに、変化前から変化後の撮像方向が特定可能である場合は、変化後の撮像方向を基準に、変化前の指向方向および集音範囲を特定することができる。よって、アレイマイク25の指向方向および集音範囲を制御して、撮像範囲の変化前におけるアレイマイク25の集音対象の領域から音声を集音することで、人物のいる領域を確実に集音対象の領域としつつ、人物のいない領域から集音することを避け、人物の発する音声を確実且つより明瞭に集音することができる。
撮像範囲が変化したときに、その変化が画角の変化に起因するものである場合、人物は、変化前における撮像範囲から、変化後における撮像範囲を除いた領域にいると予想される。よって、アレイマイク25の指向方向および集音範囲を制御して、画角の変化前におけるアレイマイク25の集音対象の領域から、画角の変化後における撮像範囲と重なる領域を除外した領域から音声を集音することで、人物のいる領域を確実に集音対象の領域としつつ、人物のいない領域から集音することを避け、人物の発する音声を確実且つより明瞭に集音することができる。
撮像した画像内に含まれる、人の顔の特徴を有する部位が、所定の大きさ以下であるものを人物として検出しないようにすれば、撮像装置が撮像対象としない人物がたまたま撮像範囲に含まれても、その人物がアレイマイク25の制御条件となることがない。これにより、誤った指向方向および集音範囲が設定されてしまうことを防止でき、集音対象の人物の発する音声を確実に集音することができる。
本発明は上記実施の形態に限定されるものではなく、種々の変更が可能である。カメラ28として単焦点デジタルカメラを使用し、ズームは撮像した画像に対し、トリミングと拡大処理を行うことで実現される疑似的なデジタルズームにより行ったが、カメラ28に機械的に焦点距離を変化させるズームレンズを設け、光学ズームを実現してもよい。
アレイマイク25には、一例として3個のマイクが設けられているとしたが、2個以上であればよく、望ましくは3個以上であり、数が多いほどより精確に集音範囲を設定することができる。また、アレイマイク25を構成する個々のマイクについて、本実施の形態では無指向性マイクを用いたが、指向性マイクを用いてもよい。あるいは無指向性マイクと指向性マイクとを組み合わせてアレイマイク25を構成してもよい。
会議端末1のパンの回転角度の演算は画像解析によって回転前と回転後との画像から特徴物の位置を検出することで行ったが、会議端末1に加速度センサを設け、会議端末1の向きを常時把握できるようにしてもよい。また、特徴物として、会議室50内の数カ所にマーカーを設け、画像解析により画像内に映るマーカーから会議端末1の向きを把握できるようにしてもよい。加速度センサを設けるコストや、マーカーを準備する手間を考慮すると、本実施の形態のように、画像解析によって会議端末1の向きを把握する方法を採用すれば、ソフトウェアだけで処理できるため、好ましい。
会議端末1の設置向きは、任意の向きであってもよい。例えば、会議端末1を90度傾けて壁などに取り付け、本実施の形態におけるパンがチルトの動作に相当するようにしてもよい。この場合、画像解析により、垂直方向において画像内の特徴物の移動を検出し、回転角度を求めれば、アレイマイク25の指向方向と集音範囲の制御を行うことができる。
本実施の形態では、会議端末1が、本発明の「撮像装置」に相当する。カメラ28が「撮像手段」に相当する。アレイマイク25が「集音手段」に相当する。諸条件に応じてアレイマイク25の指向方向および集音範囲を決定するための演算を行うCPU11と、CPU11の演算結果に基づいてアレイマイク25の個々のマイクの遅延時間を制御してアレイマイク25の指向方向および集音範囲を制御する指向性制御部26とが「制御手段」に相当する。S15で人物を検出して画像内に人物が含まれるか否かを判断するCPU11が「第一判断手段」に相当する。S15で人物を検出できないと判断し、また、人物を検出したもののS22で人物の数が減ったと判断するCPU11が、「第二判断手段」に相当する。
1 会議端末
11 CPU
13 RAM
25 アレイマイク
26 指向性制御部
28 カメラ

Claims (8)

  1. 画像を撮像する撮像手段と、
    前記撮像手段と一体に構成され、音声を集音する複数の集音手段と、
    前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御手段と、
    前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断手段と、
    を備え、
    前記制御手段は、前記第一判断手段によって前記撮像範囲内に人物が含まれないと判断された場合に、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御することを特徴とする撮像装置。
  2. 前記撮像手段の前記撮像範囲が変化したか否かを判断する第二判断手段をさらに備え、
    前記制御手段は、前記第二判断手段によって前記撮像範囲が変化したと判断された場合に、前記撮像範囲の変化の内容に基づいて、前記集音手段の指向方向および集音範囲を制御することを特徴とする請求項1に記載の撮像装置。
  3. 前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の撮像方向の変化に起因するものであって、変化前の前記撮像方向から変化後の前記撮像方向を特定不可能であると判断された場合に、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の全ての領域が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御することを特徴とする請求項2に記載の撮像装置。
  4. 前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の前記撮像方向の変化に起因するものであって、変化前の前記撮像方向から変化後の前記撮像方向を特定可能であると判断された場合に、前記撮像範囲の変化前における前記集音手段の集音対象の領域から音声が集音されるように、前記集音手段の指向方向および集音範囲を制御することを特徴とする請求項2または3に記載の撮像装置。
  5. 前記制御手段は、前記第二判断手段によって、前記撮像範囲が変化したと判断され、且つ、前記撮像範囲の変化が前記撮像手段の画角の変化に起因すると判断された場合に、前記画角の変化前における前記集音手段の集音対象の領域から、前記画角の変化後における前記撮像範囲と重なる領域を除外した領域が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲を制御することを特徴とする請求項2から4のいずれかに記載の撮像装置。
  6. 前記第一判断手段は、前記撮像手段の撮像した画像から人の顔の特徴を有する部位を認識し、認識した部位の大きさが所定の大きさよりも大きい場合に、前記撮像範囲に人物が含まれると判断することを特徴とする請求項1から5のいずれかに記載の撮像装置。
  7. 画像を撮像する撮像手段と、音声を集音する複数の集音手段とが一体に構成された撮像装置を機能させるため、コンピュータにおいて実行される撮像方法であって、
    前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御ステップと、
    前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断ステップと、
    を含み、
    さらに、前記第一判断ステップにおいて前記撮像範囲内に人物が含まれないと判断された場合に、前記制御ステップにおいて、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲が制御されることを特徴とする撮像方法。
  8. 画像を撮像する撮像手段と、音声を集音する複数の集音手段とが一体に構成された撮像装置を機能させるためのプログラムであって、
    コンピュータに、
    前記撮像手段による画像の撮像範囲に基づいて、複数の前記集音手段に音声を集音させる指向方向および集音範囲を制御する制御ステップと、
    前記撮像手段の撮像した画像に基づき、前記撮像範囲内に人物が含まれるか否かを判断する第一判断ステップと、
    を実行させ、
    さらに、前記第一判断ステップにおいて前記撮像範囲内に人物が含まれないと判断された場合に、前記制御ステップにおいて、前記集音手段が集音可能な領域のうち、前記撮像手段の前記撮像範囲外の領域の少なくとも一部が、前記集音手段による音声の集音対象の領域となるように、前記集音手段の指向方向および集音範囲が制御されることを特徴とするプログラム。
JP2011146768A 2011-06-30 2011-06-30 撮像装置、撮像方法およびプログラム Withdrawn JP2013016929A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011146768A JP2013016929A (ja) 2011-06-30 2011-06-30 撮像装置、撮像方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011146768A JP2013016929A (ja) 2011-06-30 2011-06-30 撮像装置、撮像方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2013016929A true JP2013016929A (ja) 2013-01-24

Family

ID=47689187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011146768A Withdrawn JP2013016929A (ja) 2011-06-30 2011-06-30 撮像装置、撮像方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2013016929A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016103645A1 (ja) * 2014-12-22 2016-06-30 パナソニックIpマネジメント株式会社 指向性制御システム、指向性制御装置、それらのいずれかを備える異常音検出システム及び指向性制御方法
JP2017505593A (ja) * 2014-02-10 2017-02-16 ボーズ・コーポレーションBose Corporation 会話支援システム
JP2017537565A (ja) * 2015-07-31 2017-12-14 シャオミ・インコーポレイテッド 監視画面サウンド採集方法、装置、プログラムおよび記録媒体
CN108200515A (zh) * 2017-12-29 2018-06-22 苏州科达科技股份有限公司 多波束会议拾音***及方法
CN114374903A (zh) * 2020-10-16 2022-04-19 华为技术有限公司 拾音方法和拾音装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017505593A (ja) * 2014-02-10 2017-02-16 ボーズ・コーポレーションBose Corporation 会話支援システム
WO2016103645A1 (ja) * 2014-12-22 2016-06-30 パナソニックIpマネジメント株式会社 指向性制御システム、指向性制御装置、それらのいずれかを備える異常音検出システム及び指向性制御方法
JP2017537565A (ja) * 2015-07-31 2017-12-14 シャオミ・インコーポレイテッド 監視画面サウンド採集方法、装置、プログラムおよび記録媒体
US10354678B2 (en) 2015-07-31 2019-07-16 Xiaomi Inc. Method and device for collecting sounds corresponding to surveillance images
CN108200515A (zh) * 2017-12-29 2018-06-22 苏州科达科技股份有限公司 多波束会议拾音***及方法
CN108200515B (zh) * 2017-12-29 2021-01-22 苏州科达科技股份有限公司 多波束会议拾音***及方法
CN114374903A (zh) * 2020-10-16 2022-04-19 华为技术有限公司 拾音方法和拾音装置

Similar Documents

Publication Publication Date Title
US9883143B2 (en) Automatic switching between dynamic and preset camera views in a video conference endpoint
US9860486B2 (en) Communication apparatus, communication method, and communication system
CN109218651B (zh) 视频会议中的最佳视图选择方法
US7559026B2 (en) Video conferencing system having focus control
US9648278B1 (en) Communication system, communication apparatus and communication method
US11736801B2 (en) Merging webcam signals from multiple cameras
CN105247881B (zh) 信息处理设备、显示控制方法以及程序
WO2019234877A1 (ja) 携帯情報端末
US10079996B2 (en) Communication system, communication device, and communication method
JP2009086055A (ja) 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
JP2013016929A (ja) 撮像装置、撮像方法およびプログラム
TWI725340B (zh) 可攜式通訊裝置的座體及其操作方法
US20170034474A1 (en) Video conference terminal
JP2012186551A (ja) 制御装置、制御システムと制御方法
JP2009049734A (ja) カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム
JP2009177480A (ja) 撮影装置
JP6845121B2 (ja) ロボットおよびロボット制御方法
JP2009171486A (ja) テレビ会議システム
JP2014072835A (ja) 会議装置
JP2010004480A (ja) 撮像装置、その制御方法及びプログラム
JP2017168903A (ja) 情報処理装置、会議システムおよび情報処理装置の制御方法
WO2020006664A1 (zh) 拍摄装置的控制方法、拍摄装置、拍摄***和存储介质
US9497537B2 (en) Conference apparatus
WO2021200185A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
US20230306618A1 (en) Tracking with Multiple Cameras

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140902