WO2019130908A1

WO2019130908A1 - 撮像装置及びその制御方法及び記録媒体

Info

Publication number: WO2019130908A1
Application number: PCT/JP2018/042695
Authority: WO
Inventors: 祐介鳥海; 規久夫風間; 佐藤　龍介; 悠貴辻本
Original assignee: キヤノン株式会社
Priority date: 2017-12-26
Filing date: 2018-11-19
Publication date: 2019-07-04

Abstract

本発明は、特別な操作を行わずとも、ユーザの意図したタイミングで意図した構図の画像を撮像する。このため、撮像部を有する撮像装置であって、撮像部を駆動する駆動部と、ユーザのいる方向を検出する第一の検出部と、撮像装置の動きを検出する第二の検出部と、音声を集音するための複数の集音部と、複数の集音部を用いて音声の音源の方向を検出する第三の検出部と、制御部とを有する。制御部は、第一の検出部によって検出したユーザのいる方向と、および、第二の検出部によって検出した撮像装置の動きとに基づいて、２つ以上の集音部を複数の集音部から決定する。第三の検出部は、決定された２つ以上の集音部を用いて音声の音源の方向を検出する。第三の検出部が決定された２つ以上の集音部を用いて音声の音源の方向を検出した場合、制御部は第三の検出部が検出した音源の方向に、撮像部の撮像方向を向けるよう駆動部を制御する。

Description

撮像装置及びその制御方法及び記録媒体

　本発明は、撮像装置及びその制御方法及び記録媒体に関するものである。

　カメラ等の撮像装置による静止画・動画撮影においては、ユーザがファインダー等を通して撮影対象を決定し、撮影状況を自ら確認して撮影画像のフレーミングを調整することによって、画像を撮影するのが通常である。このような撮像装置では、ユーザの操作ミスを検知してユーザに通知したり、外部環境の検知を行い、撮影に適していない場合にユーザに通知したりする機能が備えられている。また、撮影に適した状態になるようにカメラを制御する仕組みが従来から存在している。

　このようなユーザの操作により撮影を実行する撮像装置に対し、ユーザが撮影指示を与えることなく断続的および継続的に撮影を行うライフログカメラが存在する（特許文献１）。

特表２０１６－５３６８６８号公報

　しかしながら、ユーザの身に着けるタイプの、これまでのライフログカメラでは、定期的に自動撮影を行うものであるので、撮像して得られる画像はユーザの意図しないものとなる場合があった。

　本発明は上記問題に鑑みなされたものであり、特別な操作を行わずとも、ユーザの意図したタイミングで意図した構図の画像を撮像する技術を提供しようとするものである。

　この課題を解決するため、例えば第１の本発明の撮像装置は以下の構成を備える。すなわち、
　撮像手段を有する撮像装置であって、
　前記撮像手段を駆動する駆動手段と、
　ユーザのいる方向を検出する第一の検出手段と、
　前記撮像装置の動きを検出する第二の検出手段と、
　音声を集音するための複数の集音手段と、
　前記複数の集音手段を用いて前記音声の音源の方向を検出する第三の検出手段と、
　制御手段と、を有し、
　前記制御手段は、前記第一の検出手段によって検出したユーザのいる方向と、および、前記第二の検出手段によって検出した前記撮像装置の動きとに基づいて、２つ以上の集音手段を前記複数の集音手段から決定し、
　前記第三の検出手段は、前記決定された２つ以上の集音手段を用いて音声の音源の方向を検出し、
　前記第三の検出手段が前記決定された２つ以上の集音手段を用いて音声の音源の方向を検出した場合、前記制御手段は前記第三の検出手段が検出した音源の方向に、前記撮像手段の撮像方向を向けるよう前記駆動手段を制御することを特徴とする。

　本発明によると、第１には、特別な操作を行わずとも、ユーザの意図したタイミングで意図した構図の画像を撮像する技術を提供しようとするものである。

　また、他の発明によれば、上記第１の効果に加えて、利用形態に合わせて方向検出に利用するマイクの数を変動させることで、省電力化を図り、且つ、ユーザの身に装着した場合等での衣類とのこすれ音による音方向のご検出を防ぐことが可能になる。

　また、他の発明によれば、上記第１の効果に加えて、無意味となる撮像方向への変更が無くすことができる。

　また、他の発明によれば、上記第１の効果に加えて、利用開始からの経過時間によって撮像手段の撮像方向の被写体に向かう動作が効率良くなっていく。

　また、他の発明によれば、上記第１の効果に加えて、音源の方向の精度が、撮像手段の倍率に依存することになり、音源の方向を検出する精度を常に高くする必要がなくなり、消費電力を削減できる。

　本発明のその他の特徴及び利点は、添付図面を参照とした以下の説明により明らかになるであろう。なお、添付図面においては、同じ若しくは同様の構成には、同じ参照番号を付す。

　添付図面は明細書に含まれ、その一部を構成し、本発明の実施の形態を示し、その記述と共に本発明の原理を説明するために用いられる。
実施形態に係る撮像装置のブロック図。実施形態に係る音声入力部と音声信号処理部の詳細ブロック図。実施形態に係る撮像装置の上面及び正面図。実施形態における撮像装置の使用例を示す図。実施形態における撮像装置の使用例を示す図。実施形態における撮像装置の使用例を示す図。実施形態における撮像装置の使用例を示す図。実施形態に係る撮像装置のパン動作とチルト動作を示す図。実施形態における中央制御部の処理手順を示すフローチャート。実施形態における中央制御部の処理手順を示すフローチャート。図５Ｂにおける音声コマンド処理の詳細を示すフローチャート。実施形態における音声コマンドの意味と音声コマンドとの関係を示す図。実施形態における起動時から動作撮影開始コマンドに至るまでのタイミングチャート。実施形態に係る音方向検知法を説明するための図。実施形態に係る音方向検知法を説明するための図。実施形態に係る音方向検知法を説明するための図。撮像装置の真上に音源が存在する場合の検出法を説明するための図。撮像装置の真上に音源が存在する場合の検出法を説明するための図。第１の実施形態における設置位置の検出処理を示すフローチャート。第１の実施形態における設置位置別の音源方向の検出原理を示す図。第１の実施形態における設置位置別の音源方向の検出原理を示す図。第１の実施形態における設置位置別の音源方向の検出原理を示す図。第１の実施形態における設置位置別の音源の検出範囲を示す図。第１の実施形態における設置位置別の音源の検出範囲を示す図。第１の実施形態における設置位置別の音源の検出範囲を示す図。第２の実施形態における撮像装置１の利用形態を示す図。は図１４Ａの利用形態におけるマスク領域を示す図。第２の実施形態における撮像装置１の利用形態を示す図。は図１４Ｃの利用形態におけるマスク領域を示す図。第２の実施形態における撮像装置１の利用形態を示す図。は図１４Ｅの利用形態におけるマスク領域を示す図。第２の実施形態における中央制御部の処理手順を示すフローチャート。第２の実施形態における中央制御部の処理手順を示すフローチャート。第３の実施形態における問題点を説明するための図。第３の実施形態における中央制御部の処理手順を示すフローチャート。第３の実施形態における改善された動作を説明するための図。第３の実施形態の変形例における中央制御部の処理手順を示すフローチャート。第３の実施形態の変形例における改善された動作を説明するための図。第４の実施形態における音方向の感度と画角との関係を示す図。第４の実施形態における音方向の感度と画角との関係を示す図。第４の実施形態におけるズーム倍率を上げた場合お音方向の感度と画角との関係を示す図。第４の実施形態におけるズーム倍率を上げた場合お音方向の感度と画角との関係を示す図。第４の実施形態におけるズーム倍率を上げた場合お音方向の感度と画角との関係を示す図。音方向の検出の分解能と処理の負担との関係を示す図。第４の実施形態における水平方向の撮影画角と音方向検出時の水平方向の検出分解能の関係を示す図である。第４の実施形態における水平方向の撮影画角と音方向検出時の水平方向の検出分解能の関係を示す図である。第４の実施形態における水平方向の撮影画角と音方向検出時の水平方向の検出分解能の関係を示す図である。第４の実施形態におけるズーム倍率の音声コマンド受信時の中央制御部の処理手順を示すフローチャート。第４の実施形態における撮像装置の動作内容を説明するための図。第４の実施形態における撮像装置の動作内容を説明するための図。第４の実施形態における撮像装置の動作内容を説明するための図。第４の実施形態における撮像装置の動作内容を説明するための図。

　以下図面に従って本発明に係る実施形態を詳細に説明する。

　［第１の実施形態］
　図１は、第１の実施形態に係る撮像装置１のブロック構成図である。撮像装置１は、光学レンズユニットを含み、撮像する撮像方向（光軸方向）が可変の可動撮像部１００、及び、可動撮像部１００の駆動制御および、撮像装置全体を制御する中央制御部（ＣＰＵ）を含む支持部２００で構成される。

　なお、支持部２００は、圧電素子を含む複数の振動体１１～１３が可動撮像部１００の面に対し接触するように設けられている。これらの振動体１１～１３の振動の制御により、可動撮像部１００がパン、チルト動作を行うことになる。なお、パン、チルト動作はサーボモータ等で実現しても構わない。

　可動撮像部１００は、レンズ部１０１、撮像部１０２、レンズアクチュエータ制御部１０３、及び、音声入力部１０４を有する。

　レンズ部１０１は、ズームレンズ、絞り・シャッタ、および、フォーカレンズなどの撮影光学系で構成される。撮像部１０２は、ＣＭＯＳセンサやＣＣＤセンサなどの撮像素子を含み、レンズ部１０１により結像された光学像を光電変換して電気信号を出力する。レンズアクチュエータ制御部１０３は、モータドライバＩＣを含み、レンズ部１０１のズームレンズ、絞り・シャッタ、および、フォーカスレンズ等の各種アクチュエータを駆動する。各種アクチュエータは、後述する支持部２００内の中央制御部２０１より受信した、アクチュエータ駆動指示データに基づいて駆動される。音声入力部１０４はマイクロフォン（以降マイク）を含む音声入力部であり複数のマイク（本実施形態では４つ）で構成されており、音声信号を電気信号にさらにデジタル信号（音声データ）に変換して出力する。

　一方、支持部２００は、撮像装置１の全体の制御を行うための中央制御部２０１を有する。この中央制御部２０１は、ＣＰＵと、ＣＰＵが実行するプログラムを格納したＲＯＭ、及び、ＣＰＵのワークエリアとして使用されるＲＡＭで構成される。また、支持部２００は、撮像信号処理部２０２、映像信号処理部２０３、音声信号処理部２０４、操作部２０５、記憶部２０６、表示部２０７を有する。更に、支持部２００は、入出力端子部２０８、音声再生部２０９、電源部２１０、電源制御部２１１、位置検出部２１２、回動制御部２１３、無線通信部２１４、並びに、先に説明した振動体１１～１３を有する。

　撮像信号処理部２０２は、可動撮像部１００の撮像部１０２から出力された電気信号を映像信号へ変換する。映像信号処理部２０３は、撮像信号処理部２０２から出力された映像信号を用途に応じて加工する。映像信号の加工は画像切り出し、及び、回転加工による電子防振動作や、被写体（顔）を検出する被写体検出処理も含まれる。

　音声信号処理部２０４は、音声入力部１０４からのデジタル信号に対して音声処理を行う。音声入力部１０４が電気アナログ出力であれば、音声信号処理部２０４において、電気アナログ信号からデジタル信号に変換する構成が含まれても構わない。なお、音声入力部１０４を含めた音声信号処理部２０４の詳細については図２を用いて後述する。

　操作部２０５は、撮像装置１とユーザとの間のユーザインターフェースとして機能するものであり、各種スイッチ、ボタン等で構成される。記憶部２０６は、撮影により得られた映像情報などの種々のデータを記憶する。表示部２０７は、ＬＣＤなどのディスプレイを備え、映像信号処理部２０３から出力された信号に基づいて、必要に応じて画像表示を行う。また、この表示部２０７は、各種メニュー等を表示することで、ユーザインターフェースの一部として機能する。外部入出力端子部２０８は、外部装置との間で通信信号および映像信号を入出力する。音声再生部２０９はスピーカーを含み、音声データを電気信号に変換し、音声を再生する。電源部２１０は、撮像装置の全体（各要素）の駆動に必要な電力供給源であり、本実施形態では充電可能なバッテリであるものとする。

　電源制御部２１１は、撮像装置１の状態に応じて、上記の各構成要素への電源部２１０からの電力の供給／遮断を制御するものである。撮像装置１の状態によっては、不使用の要素が存在する。電源制御部２１１は、中央制御部２０１の制御下で、撮像装置１の状態によって不使用な要素への電力を遮断して、電力消費量を抑制する機能を果たす。なお、電力供給／遮断については、後述する説明から明らかにする。

　位置検出部２１２はジャイロ、加速度センサ、ＧＰＳといった撮像装置１の動きを検出する。この位置検出部２１２は、撮像装置１がユーザに身に着ける場合にも対処するためである。回動制御部２１３は、中央制御部２０１からの指示に従って振動体１１～１３を駆動する信号を生成し、出力する。振動体１１～１３は圧電素子で構成され、回動制御部２１３から印加される駆動信号に応じて振動する。振動体１１～１３は、回動駆動部（パン・チルト駆動部）を構成する。この結果、可動撮像部１００は、中央制御部２０１が指示した方向に、パン動作、チルト動作することになる。

　無線部２１４はＷｉｆｉやＢＬＥ（Bluetooth Low Energy）などの無線規格に準拠して画僧データ等のデータ送信を行う。

　次に、本実施形態における音声入力部１０４および音声信号処理部２０４の構成と、音方向検出処理を図２を参照して説明する。同図は、音声入力部１０４および音声信号処理部２０４の構成と、音声信号処理２０４、中央制御部２０１及び電源制御部２１１の接続関係を示している。

　音声入力部１０４は、４つの無指向性のマイク（マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄ）で構成される。各マイクはＡ／Ｄコンバータを内蔵しており、予め設定されたサンプリングレート（コマンド検出、方向検出処理：１６ｋＨｚ、動画録音：４８ｋＨｚ）で音声をサンプリングし、内蔵のＡ／Ｄコンバータによりサンプリングした音声信号をデジタルの音声データとして出力する。なお、本実施形態では音声入力部１０４は４つのデジタルマイクで構成されるものとしているが、アナログ出力のマイクで構成されても構わない。アナログマイクの場合、音声信号処理部２０４内に、対応するＡ／Ｄコンバータが設ければよい。また、本実施形態におけるマイクの数は４つとするが、３つ以上であればよい。

　マイク１０４ａは、撮像装置１の電源がＯＮの場合には無条件に電力が供給され、集音可能状態となる。一方、他のマイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄは、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象となっており、撮像装置１の電源がＯＮとなった初期状態では、電力は遮断されている。

　音声信号処理部２０４は、音圧レベル検出部２０４１、音声用メモリ２０４２、音声コマンド認識部２０４３、音方向検出部２０４４、動画用音声処理部２０４５、及び、コマンドメモリ２０４６で構成される。

　音圧レベル検出部２０４１は、マイク１０４ａからの音声データが表す出力レベルが予め設定された閾値を超えたとき、音声検出を表す信号を電源制御部２１１及び音声用メモリ２０４２に供給する。

　電源制御部２１１は、音圧レベル検出部２０４１から音声検出を表す信号を受信した場合、音声コマンド認識部２０４３への電力供給を行う。

　音声用メモリ２０４２は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。また、この音声用メモリ２０４２は、マイク１０４ａからの音声データを一時的に記憶するバッファメモリである。この音声用メモリ２０４２は、少なくとも、最長の音声コマンドを比較的ゆっくり発声した場合の全サンプリングデータを記憶可能な容量を有する。マイク１０４ａによるサンプリングレートが１６ｋＨｚであり、１サンプリングにつき２バイト（１６ビット）の音声データを出力し、最長の音声コマンドが仮に５秒であった場合、音声用メモリ２０４２は、約１６０Ｋバイト（≒５×１６×１０００×２）の容量を有する。また、音声用メモリ２０４２は、マイク１０４ａからの音声データで満たされた場合、古い音声データが新たな音声データで上書きされる。この結果、音声用メモリ２０４２は、直近の所定期間（上記例では約５秒）の音声データが保持されることになる。また、音声用メモリ２０４２は、音圧レベル検出部２０４１から音声検出を示す信号を受信したことをトリガにして、マイク１０４ａからの音声データをサンプリングデータ領域に格納していく。

　コマンドメモリ２０４６は不揮発性のメモリで構成され、本撮像装置が認識する音声コマンドに係る情報を予め記憶（登録）している。詳細は後述するが、コマンドメモリ２０４６に格納される音声コマンドの種類は例えば図８に示す通りであり、「起動コマンド」をはじめとして、複数種類のコマンドの情報がコマンドメモリ２０４６に格納されている。

　音声コマンド認識部２０４３は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。なお、音声認識そのものは周知であるので、ここでの説明は省略する。この音声コマンド認識部２０４３は、コマンドメモリ２０４６を参照し、音声用メモリ２０４２に格納された音声データの認識処理を行う。そして、音声コマンド認識部２０４３は、マイク１０４ａにより集音した音声データが、音声コマンドであるか否か、並びに、いずれの登録音声コマンドに一致するのかの判定を行う。そして、音声コマンド認識部２０４３は、コマンドメモリ２０４６に記憶されたいずれかの音声コマンドに一致する音声データを検出したとき、いずれのコマンドであるかを示す情報、並びに、音声用メモリ２０４２内の、その音声コマンドを決定づけた最初と最後の音声データのアドレス（或いはタイミング）を中央制御部２０１に供給する。

　音方向検出部２０４４は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。また、音方向検出部２０４４は、４つのマイク１０４ａ乃至１０４ｄからの音声データに基づき、周期的に音源の存在する方向の検出処理を行う。音方向検出部２０４４は、内部にバッファメモリ２０４４ａを有し、検出した音源方向を表す情報をバッファメモリ２０４４ａに格納する。なお、音方向検出部２０４４による音方向検出処理を行う周期（例えば１６ｋＨｚ）は、マイク１０４ａのサンプリング周期に対して十分に長くて構わない。ただし、このバッファメモリ２０４４ａは、音声用メモリ２０４２に格納可能な音声データの期間と同じ期間分の音方向情報を記憶するための容量を有するものとする。

　動画用音声処理部２０４５は、中央制御部２０１の制御下での電源制御部２１１による電力供給／遮断の対象の１つである。動画用音声処理部２０４５は、４つのマイクのうち、マイク１０３ａとマイク１０４ｂの２つの音声データをステレオ音声データとして入力し、各種フィルタ処理、ウィンドカット、ステレオ感強調、駆動音除去、ＡＬＣ（Ａｕｔｏ　Ｌｅｖｅｌ　Ｃｏｎｔｒｏｌ）、圧縮処理といった動画音声用の音声処理を行う。詳細は後述する説明から明らかになるが、本実施形態ではマイク１０４ａはステレオマイクのＬチャネル用マイク、マイク１０４ｂはＲチャネル用マイクとして機能する。

　なお、図２では、音声入力部１０４の各マイクと音声信号処理部２０４に含まれる各ブロックとの接続は消費電力や回路構成を考慮し、４つのマイクにおける必要最低限で表している。しかし、電力および回路構成の許す限り、複数のマイクを音声信号処理部２０４に含まれる各ブロックで共有して使用しても構わない。また、本実施形態ではマイク１０４ａを基準のマイクとして接続しているが、どのマイクを基準としも構わない。

　図３Ａ～３Ｅを参照して、撮像装置１の外観図および使用例を説明する。図３Ａは、本実施形態に係る撮像装置１の外観の上面及び正面図を示している。撮像装置１の可動撮像部１００は、略半球体形であり、水平を０度したとき、－２０度から垂直方向を示す９０度の範囲の切欠き窓を有し、図示矢印Ａが示す水平面にて３６０度に亘って回動可能な第１の筐体１５０を有する。また、可動撮像部１００は、この切欠き窓に沿って図示の矢印Ｂが示す水平から垂直の範囲内で、レンズ部１０１及び撮像部１０２と一緒に回動可能な第２の筐体１５１を有する。ここで、第１の筐体１５０の矢印Ａの回動動作はパン動作、第２の筐体１５１の矢印Ｂの回動動作はチルト動作に対応し、これらは振動体１１～１３の駆動によって実現している。なお、本実施形態における撮像装置のチルト可能な範囲は、上記の通り、-２０度から＋９０度の範囲であるものとする。

　マイク１０４ａ、１０４ｂは、第１の筐体１５０の切欠き窓を挟む前面側の位置に配置されている。また、マイク１０４ｃ、１０４ｄは、第１の筐体１５０の後方側に設けられている。図示からもわかるように、第２筐体１５２を固定にした状態で、第１筐体１５０を矢印Ａに沿ってどの方向にパン動作させたとしても、レンズ部１０１及び撮像部１０２に対する、マイク１０４ａ、１０４ｂの相対的な位置は変わらない。つまり、撮像部１０２の撮像方向に対して左側にマイク１０４ａが常に位置し、右側にマイク１０４ｂが常に位置することになる。それ故、撮像部１０２による撮像して得た画像が表す空間と、マイク１０４ａ，１０４ｂによる取得した音場は一定の関係を維持できることになる。

　なお、本実施形態における４つのマイク１０４ａ、１０４ｂ、１０４ｃ、１０３ｄは、撮像装置１の上面から見て、図３Ａに示すように長方形の各頂点の位置に配置されている。また、これら４つのマイクは、図３Ａにおける１つの水平面上に位置するものとするが、多少のずれがあっても構わない。

　マイク１０４ａとマイク１０４ｂとの距離は、マイク１０４ａとマイク１０４ｃとの距離よりも大きい。なお、隣合うマイク間の距離は、１０ｍｍ～３０ｍｍ程度が望ましい。また、本実施形態ではマイクの数を４としているが、直線上に並ばないという条件を満たせば、マイクの数は３以上であれば構わない。また、図３Ａのマイク１０４ａ乃至１０４ｄの配置位置は一例であって、これらの配置方法は、メカ的制約やデザイン制約によって適宜変更しても構わない。

　図３Ｂ～３Ｅは、本実施形態における撮像装置１の利用形態を示している。図３Ｂは、机などに撮像装置１に載置される場合で、撮影者自身やその周囲の被写体の撮影を目的とするものである。図３Ｃは、撮像装置１を、撮影者の首にぶら下げる例であり、主に、撮影者の行動の前方の撮影を目的とするものである。図３Ｄは、撮像装置１を撮影者の肩に固定した使用例であり、図示の場合は、撮影者の周囲の前後、及び、右側の撮影を目的とするものである。そして、図３Ｅは、撮像装置１をユーザが持つ棒の端に固定する使用例であり、ユーザが望む所望の撮影位置（高所や手が届かない位置）に撮像装置１を移動させることで、撮影を行うことを目的とするものである。

　図４を参照して、本実施形態の撮像装置１のパン、チルトの動作を更に詳しく説明する。ここでは図３Ｂのように据え置いた使用例で前提として記載するが、そのほかの使用例においても同様である。

　図４の４ａはレンズ部１０１が水平を向いている状態を示している。図４の４ａを初期状態とし、第１筐体１５０を、上方向から見て反時計回りに９０度パン動作させると、図４の４ｂのようになる。一方、図４の４ａの初期状態から、第２筐体１５１の９０度チルト動作をおこなうと、図４の４ｃの様になる。第１筐体１５０、第２筐体１５１の回動は、先に説明したように、回動制御部２１３により駆動される振動体１１～１３による振動にて実現している。

　次に、本実施形態における撮像装置１の中央制御部２０１の処理手順を図５Ａ，５Ｂのフローチャートに従って説明する。同図に係る処理は、撮像装置１のメイン電源がＯＮ、もしくはリセットされた場合の中央制御部２０１の処理を示している。

　中央制御部２０１は、ステップＳ１０１にて、撮像装置１の初期化処理を行う。この初期化処理にて、中央制御部２０１は、現在の可動撮像部１００の撮像部１０２の撮像方向における、水平面内の方向成分をパン動作の基準角度（０度）として決定する。

　これ以降、可動撮像部１００のパン動作を行った後の撮像方向のうち水平面の成分は、この基準角度からの相対的な角度で表されるものとする。また、音方向検出部２０４４が検出する音源方向のうちの水平面の成分も、上記基準角度に対する相対的な角度で表されるものとする。また、詳細は後述するが、音方向検出部２０４４は、撮像装置１の真上の方向（パン動作の回転軸の軸方向）に音源があるか否かの判定も行う。

　なお、この段階で、音声用メモリ２０４２、音方向検出部２０４４、動画用音声処理部２０４５、並び、マイク１０４ｂ乃至１０４ｄへの電力は遮断されている。

　初期化処理を終えると中央制御部２０１は、ステップＳ１０２にて、電源制御部２１１を制御して、音圧レベル検出部２０４１、マイク１０４ａへの電力の供給を開始する。この結果、音圧レベル検出部２０４１は、マイク１０４ａでサンプリングされた音声データに基づく音圧検出処理を実行し、予め設定された閾値を超える音圧レベルの音声データを検出したときにその旨を中央制御部に通知することになる。なお、この閾値は、例えば６０dB SPL（Sound Pressure Level）とするが、撮像装置１が環境等に応じて変更してもよいし、必要な周波数帯域だけに絞るようにしてもよい。

　中央制御部２０１は、ステップＳ１０３にて、音圧レベル検出部２０４１による閾値を超える音圧を表す音声データが検出されるのを待つ。閾値を超える音圧の音声データが検出されると、ステップＳ１０４にて、音声メモリ２０４２はマイク１０４ａからの音声データの受信、格納処理を開始する。

　また、ステップＳ１０５にて、中央制御部２０１は、電源制御部２１１を制御し、音声コマンド認識部２０４３への電力供給を開始する。この結果、音声コマンド認識部２０４３は、コマンドメモリ２０４６を参照した音声用メモリ２０４２に格納されていく音声データの認識処理を開始する。そして、音声コマンド認識部２０４３は、音声用メモリ２０４２に格納された音声データの認識処理を行い、コマンドメモリ２０４６内のいずれかの音声コマンドと一致すると音声コマンドを認識した場合、その認識された音声コマンドを特定する情報と、音声用メモリ２０４２内の、認識した音声コマンドを決定づけた最初と最後の音声データのアドレス（或いはタイミング）情報とを含む情報を中央制御部２０１に通知することになる。

　ステップＳ１０６にて、中央制御部２０１は、音声コマンド認識部２０４３から、音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部２０１は、処理をステップＳ１０８に進め、音声コマンド認識部２０４３を起動させてからの経過時間が、予め設定された閾値を超えたか否かを判定する。そして、経過時間が閾値以内である限り、中央制御部２０１は、音声コマンド認識部２０４３による音声コマンドが認識されるのを待つ。そして、閾値が示す時間が経過しても、音声コマンド認識部２０４３が音声コマンドを認識しなかった場合、中央制御部２０１は処理をステップＳ１０９に進める。このステップＳ１０９にて、中央制御部２０１は、電源制御部２１１を制御して音声コマンド認識部２０４３への電力を遮断する。そして、中央制御部２０１は、処理をステップＳ１０３に戻す。

　一方、中央制御部２０１が、音声コマンド認識部２０４３から、音声コマンドが認識されたことを示す情報を受信した場合、処理をステップＳ１０７に進める。このステップＳ１０７にて、中央制御部２０１は、認識された音声コマンドが、図８に示される起動コマンドに対応するか否かを判定する。そして、認識された音声コマンドが起動コマンド以外のコマンドであると判定した場合、中央制御部２０１は処理をステップＳ１０８に進める。また、認識された音声コマンドが起動コマンドであった場合、中央制御部２０１は処理をステップＳ１０７からステップＳ１１０に進める。

　ステップＳ１１０にて、中央制御部２０１は、電源制御部２１１を制御し、音方向検出部２０４４、マイク１０４ｂ乃至１０４ｄへの電力供給を開始する。この結果、音方向検出部２０４４は、４つのマイク１０４ａ乃至１０４ｄからの同時刻の音声データに基づく、音源方向の検出処理を開始することになる。音源の方向の検出処理は、所定周期で行われる。そして、音方向検出部２０４４は、検出した音方向を示す音方向情報を、内部のバッファメモリ２０４４ａに格納していく。このとき、音方向検出部２０４４は、音方向情報を決定に利用した音声データのタイミングが、音声メモリ２０４２に格納された音声データのどのタイミングであったのかを対応付くように、バッファメモリ２０４４ａに格納する。典型的には、バッファメモリ２０４４ａに格納するのは、音方向と、音声メモリ２０４２内の音声データのアドレスとすればよい。なお、音方向情報には、水平面における、先に説明した基準角度に対する音源の方向との差を表す角度とする。また、詳細は後述するが、音源が撮像装置１の真上に位置する場合には、真上方向にあることを示す情報が音方向情報にセットされるものとする。

　ステップＳ１１１にて、中央制御部２０１は、電源制御部２１１を制御し、撮像部１０２、及び、レンズアクチュエータ制御部１０３への電力供給を開始する。この結果、可動撮像部１００は、撮像装置としての機能し始めることになる。

　次に、ステップＳ１５１にて、中央制御部２０１は、音声コマンド認識部２０４３から、新たな音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部２０１は、処理をステップＳ１５２に進め、現在、ユーザからの指示に従った実行中のジョブがあるか否かを判定する。詳細は図６のフローチャートの説明から明らかになるが、動画撮影記録や追尾処理等がジョブに相当する。ここでは、そのような実行中のジョブは存在しないものとして説明を続ける。

　ステップＳ１５３にて、前回の音声コマンドを認識してからの経過時間が、予め設定された閾値を超えるか否かを判定する。否の場合、中央制御部２０１は処理をステップＳ１５１に戻し、音声コマンドの認識を待つ。そして、実行中のジョブが無く、且つ、前回の音声コマンドを認識してから閾値を超える時間が経過しても、更なる音声コマンドが認識されない場合、中央制御部２０１は処理をステップＳ１５４に進める。このステップＳ１５４にて、中央制御部２０１は、電源制御部２１１を制御し、撮像部１０２、レンズアクチュエータ制御部１０３への電力を遮断する。そして、中央制御部２０１は、ステップＳ１５５にて、電源制御部２１１を制御し、音方向検出部２０４４への電力も遮断し、処理をステップＳ１０６に戻す。

　さて、中央制御部２０１が音声コマンド認識部２０４３から新たな音声コマンドが認識されたことを示す情報を受信したとする。この場合、音声コマンド認識部２０４３は、処理をステップＳ１５１からステップＳ１５６に進める。

　本実施形態における中央制御部２０１は、認識した音声コマンドに応じたジョブを実行するに先立って、音声コマンドの発生した人物を、可動撮像部１００の撮像部１０２の画角内に入れる処理を行う。そして、撮像部１０２の画角内に人物が入っている状態で、認識した音声コマンドに基づくジョブを実行する。

　上記を実現するため、中央制御部２０１は、ステップＳ１５６にて、音声コマンド認識部２０４３で認識された音声コマンドに同期する音方向情報を、音方向検出部２０４４のバッファメモリ２０４４ａから取得する。音声コマンド認識部２０４３は、先に説明した方に、音声コマンドを認識したとき、音声用メモリ２０４２内の音声コマンドを表す先頭と終端を表す２つのアドレスを中央制御部２０１に通知する。そこで、中央制御部２０１は、この２つのアドレスが示す期間内で検出した音方向情報をバッファメモリ２０４４ａから取得する。２つのアドレスが示す期間内に複数の音方向情報が存在することもある。その場合、中央制御部２０１はその中の時間的に最も後の音方向情報をバッファメモリ２０４４ａから取得する。時間的に後の音方向情報の方が、その音声コマンドを発した人物の現在の位置を表している蓋然性が高いからである。

　ステップＳ１５７にて、中央制御部２０１は、取得した音情報が表す音源の方向が、撮像装置の真上の方向であるか否かを判定する。なお、音方向が撮像装置の真上であるか否かの判定についての詳細は項後述する。

　音源が撮像装置１の真上の方向にある場合、中央制御部２０１は処理をステップＳ１５８に進める。このステップＳ１５８にて、中央制御部２０１は、回動制御部２１３を制御し、レンズ部１０１及び撮像部１０２の撮像方向を図４の４ｃに示す真上方向になるように、可動撮像部１００の第２筐体１５１を回動させる。撮像部１０２の撮像方向が真上方向になった場合、中央制御部２０１は、ステップＳ１５９にて、映像信号処理部２０３から撮像画像を受信し、撮像画像内に音声発生原となるオブジェクト（人物の顔）が存在するか否かを判定する。否の場合、中央制御部２０１は処理をステップＳ１５１に戻す。一方、撮像画像内にオブジェクトが存在する場合、中央制御部２０１は処理をステップＳ１６４に進め、既に認識した音声コマンドに対応するジョブを実行する。なお、このステップＳ１６４の詳細は図６を用いて後述する。

　ステップＳ１５７にて、中央制御部２０１が、音情報が示す方向が真上以外の方向であると判定した場合、処理をステップＳ１６０に進める。このステップＳ１６０にて、中央制御部２０１は、回動制御部２１３を制御して、可動撮像部１００のパン動作を行い、現在の撮像部１０２の水平面の角度を、音情報が示す水平面の角度に一致させる。そして、ステップＳ１６１にて、中央制御部２０１は、映像信号処理部２０３から撮像画像を受信し、撮像画像内に音声発生原となるオブジェクト（顔）が存在するか否かを判定する。否の場合、中央制御部２０１は処理をステップＳ１６２に進め、回動制御部２１３を制御して、目標とするチルト角に向かって予め設定された角度だけ可動撮像部１００のチルト動作を行う。そして、ステップＳ１６３にて、中央制御部２０１は、撮像部１０２の撮像方向のチルト角が、チルト動作の上限（本実施形態では水平方向に対して９０度）に到達したか否かを判定する。否の場合には、中央制御部２０１は処理をステップＳ１６１に戻す。こうして、中央制御部２０１は、チルト動作を行いながら、像信号処理部２０３からの撮像画像内に音声発生原となるオブジェクト（顔）が存在するか否かを判定していく。そして、撮像部１０２の撮像方向のチルト角がチルトの上限に到達してもオブジェクトが検出されない場合、中央制御部２０１は処理をステップＳ１６３からステップＳ１５１に戻す。一方、撮像画像内にオブジェクトが存在した場合、中央制御部２０１は処理をステップＳ１６４に進め、既に認識した音声コマンドに対応するジョブを実行する。

　次に、図６のフローチャート、並びに、図７に示す音声コマンドテーブルに基づいて、ステップＳ１６４の処理の詳細を説明する。図７の音声コマンドテーブルに示される“Hi, Camera"等の音声コマンドに対応する音声パターンデータはコマンドメモリ２０４６に格納されるものである。なお、図７には音声コマンドとして代表的な数例示しているが、この数に特に制限はない。また、以下の説明における音声コマンドは、図５ＢのステップＳ１５１のタイミングで検出された音声コマンドである点に注意されたい。

　まず、ステップＳ２０１にて、中央制御部２０１は、音声コマンドが、起動コマンドであるか否かを判定する。

　この起動コマンドは、撮像装置１に対し、撮像可能な状態に遷移させる音声コマンドである。この起動コマンドは、図５ＡのステップＳ１０７で判定されるコマンドであり、撮像に係るジョブではない。よって、中央制御部２０１は、認識した音声コマンドが起動コマンドである場合には、そのコマンドについては無視し、処理をステップＳ１５１に戻す。

　ステップＳ２０２にて、中央制御部２０１は、音声コマンドが、停止コマンドであるか否かを判定する。この停止コマンドは、一連の撮像可の状態から、起動コマンドの入力を待つ状態に遷移させるコマンドである。よって、中央制御部２０１は、認識した音声コマンドが停止コマンドである場合には、処理をステップＳ２１１に進める。ステップＳ２１１にて、中央制御部２０１は、電源制御部２１１を制御し、既に起動している撮像部１０２、音方向検出部２０４４、音声コマンド認識部２０４３、動画用音声処理部２０４５、マイク１０４ｂ乃至１０４ｄ等への電力を遮断し、これらを停止する。そして、中央制御部２０１は、処理を起動時のステップＳ１０３に戻す。

　ステップＳ２０３にて、中央制御部２０１は、音声コマンドが静止画撮影コマンドであるか否かを判定する。この静止画撮影コマンドは、撮像装置１に対して１枚の静止画の撮影・記録ジョブの実行の要求を行うコマンドである。よって、中央制御部２０１は、音声コマンドが静止画撮影コマンドであると判定した場合、処理をステップＳ２１２に進める。ステップＳ２１２にて、中央制御部２０１は、撮像部１０２で撮像した１枚の静止画像データを例えばＪＰＥＧファイルとして、記憶部２０６に格納する。なお、この静止画撮影コマンドのジョブが、１枚の静止画撮影記録により完結するので、先に説明した図５ＢのステップＳ１５２で判定する対象のジョブとはならない。

　ステップＳ２０４にて、中央制御部２０１は、音声コマンドが動画撮影コマンドであるか否かを判定する。動画撮影コマンドは、撮像装置１に対して動画像の撮像と記録を要求するコマンドである。中央制御部２０１は、音声コマンドが動画撮影コマンドであると判定した場合、処理をステップＳ２１３に進める。このステップＳ２１３にて、中央制御部２０１は、撮像部１０２による動画像の撮影と記録を開始し、処理をステップＳ１５１に戻す。本実施形態では、撮像した動画像は記憶部２０６に格納されるものとするが、外部入出力端子部２０８を介してネットワーク上のファイルサーバに送信しても構わない。動画撮影コマンドは、動画像の撮像、記録を継続させるコマンドであるので、このコマンドによるジョブは、先に説明したステップＳ１５２で判定する対象のジョブとなる。

　ステップＳ２０５にて、中央制御部２０１は、音声コマンドが動画撮影終了コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが動画撮影終了コマンドであり、尚且つ、現に動画像の撮像・記録中である場合には、その記録（ジョブ）を終了する。そして、中央制御部２０１は処理をステップＳ１５１に戻す。

　ステップＳ２０６にて、中央制御部２０１は、音声コマンドが追尾コマンドであるか否かを判定する。追尾コマンドは、撮像装置１に対して、撮像部１０２の撮像方向に、ユーザを継続して位置させることを要求するコマンドである。中央制御部２０１は、音声コマンドが追尾コマンドであると判定した場合、処理をステップＳ２１４に進める。そして、ステップＳ２１４にて、中央制御部２０１は、映像信号処理部２０３で得られた映像の中心位置にオブジェクトが位置し続けるように、回動制御部２１３の制御を開始する。そして、中央制御部２０１は処理をステップＳ１５１に戻す。この結果、可動撮像部１００がパン動作、或いはチルト動作を行い、移動するユーザを追尾することになる。ただし、ユーザを追尾するものの、撮像した画像の記録は行わない。また、追尾している間は、先に説明した図５ＢのステップＳ１５２で判定する対象のジョブとなる。そして、追尾終了コマンドを受信して初めて、中央制御部２０１はこの動画像の撮影記録を終了する。なお、追尾中に、例えば静止画撮影コマンドや動画撮影コマンドのジョブを実行しても構わない。

　ステップＳ２０７にて、中央制御部２０１は、音声コマンドが追尾終了コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが追尾終了コマンドであり、尚且つ、現に追尾中である場合には、その記録（ジョブ）を終了する。そして、中央制御部２０１は処理をステップＳ１５１に戻す。

　ステップＳ２０８にて、中央制御部２０１は、音声コマンドが自動動画撮影コマンドであるか否かを判定する。中央制御部２０１は、音声コマンドが自動動画撮影コマンドであると判定した場合、処理をステップＳ２１７に進める。このステップＳ２１７にて、中央制御部２０１は、撮像部１０２による動画像の撮影と記録を開始し、処理をステップＳ１５１に戻す。この自動動画撮影コマンドと、先に説明した動画撮影コマンドとの違いは、この自動動画撮影コマンドのジョブが開始された場合、これ以降は、発声がある度に、その発声の音源の方向にレンズ部１０１の撮像方向を向けつつ動画像を撮影、記録を行う点である。例えば、複数の話者が存在するミーティングの環境下で、発言があるたびにその発言者をレンズ部１０１の画角内に収めるために、パン動作、チルト動作を行いながら、動画像を記録する。なお、この場合、自由な発言が許すことになるので、一旦、この自動動画撮影コマンドのジョブを終了させる音声コマンドはない。このジョブの終了は、操作部２０５に設けられた所定のスイッチ操作によって終了するものとする。また、このジョブを実行中、中央制御部２０１は、音声コマンド認識部２０４３は停止させる。そして、中央制御部２０１は、音圧レベル検出部２０４１により、閾値を超える音圧レベルを検出したタイミングでの、音方向検出部２０４４が検出した音方向情報を参照して、可動撮像部１０４のパン動作、チルト動作を行うことになる。

　なお、図６には示していないが、認識した音声コマンドが拡大コマンドである場合、中央制御部２０１はレンズアクチュエータ制御部１０３を制御し、予め設定された値だけ、現在の倍率を増加させる。また、認識した音声コマンドが拡大コマンドである場合、中央制御部２０１はレンズアクチュエータ制御部１０３を制御し、予め設定された値だけ、現在の倍率を減少させる。なお、レンズ部１０１が既にテレ端、或いは、ワイド端にあるとき、それを超えた拡大率、縮小率は設定できないので、このような音声コマンドがあった場合、中央制御部２０１はその音声コマンドを無視する。

　以上であるが、上記以外の音声コマンドについては、ステップＳ２０７以降で実行されるが、ここでの説明は省略する。

　ここで、本実施形態における撮像装置１におけるメイン電源ＯＮからの処理のシーケンスの一例を図８に示すタイミングチャートに従って説明する。

　撮像装置１のメイン電源がＯＮになると、音圧レベル検出部２０４１はマイク１０１４ａからの音声データの音圧レベルの検出処理を開始する。タイミングＴ６０１にて、ユーザは、起動コマンド“Hi,Camera”の発声を開始したとする。この結果、音圧レベル検出部２０４１が閾値を超える音圧を検出する。そして、これがトリガになって、タイミングＴ６０２にて、音声用メモリ２０４２がマイク１０４ａからの音声データの格納を開始し、音声コマンド認識部２０４３が音声コマンドの認識を開始する。ユーザが起動コマンド“Hi,Camera”の発声を終えると、タイミングＴ６０３にて、音声コマンド認識部２０４３がその音声コマンドを認識し、且つ、認識した音声コマンドが起動コマンドであることを特定する。

　中央制御部２０１は、この起動コマンドが認識されたことをトリガにして、タイミングＴ６０３にて音方向検出部２０４４に電力供給を開始する。また、中央制御部２０１は、タイミングＴ６０４にて撮像部１０２への電力供給も開始する。

　ユーザは、タイミングＴ６０６にて、例えば“Movie start”の発声を開始したとする。この場合、発生の開始のタイミングの音声データは、タイミングＴ６０７から順に音声用メモリ２０４２に格納されていく。そして、タイミングＴ６０８にて、音声コマンド認識部２０４３が、音声データを“Movie start”を表す音声コマンドとして認識する。音声コマンド認識部２０４３は、音声用メモリ２０４２内の“Movie start”を表す音声データの先頭と終端のアドレスと、認識結果を中央制御部２０１に通知する。中央制御部２０１は、受信した先頭と終端のアドレスが表す範囲を有効範囲として決定する。そして、中央制御部２０１は、音方向検出部２０４４のバッファ２０４４ａ内の、有効範囲内から、最新の音方向情報を抽出し、タイミングＴ６０９にて、その抽出した情報に基づいて、駆動制御部２１３を制御して、可動撮像部１００のパン動作、チルト動作を開始する。

　可動撮像部１００のパン動作、チルト動作中に、タイミングＴ６１２にて、撮像部１０２で撮像画像に被写体（オブジェクト；顔）を検出したとする。中央制御部２０１はパン動作、チルト動作を停止する（タイミングＴ６１３）。また、タイミングＴ６１４にて、中央制御部２０１は、動画用音声処理部２０４５に電力を供給して、マイク１０４ａ、及び、１０４ｂによるステレオ音声の収音状態にする。そして、中央制御部２０１は、タイミングＴ６１５にて、音声付動画像の撮像と記録を開始する。

　次に、本実施形態における音方向検出部２０４４による音源方向の検出処理を説明する。この処理は、図５ＡのステップＳ１１０以降、周期的に、且つ、継続的に行われるものである。

　まず、図９Ａを用いて、マイク１０４ａとマイク１０４ｂの２つのマイクを用いた簡易の音方向検知を説明する。同図は、マイク１０４ａとマイク１０４ｂが平面上（仮想平面上）に配置されているとする。マイク１０４ａとマイク１０４ｂの距離をｄ［ａ‐ｂ］と表す。距離ｄ［ａ‐ｂ］に対して、撮像装置１と音源間の距離は十分に大きいと仮定する。この場合、マイク１０４ａとマイク１０４ｂの音声を比較することによって、両者間の音声の遅延時間を特定することができる。

　到達遅延時間に音速（空気中は３４０ｍ／ｓ）を乗じることで、距離Ｉ［ａ‐ｂ］を特定することができる。その結果、次式で音源方向角度θ［ａ‐ｂ］を特定することができる。
θ［ａ‐ｂ］＝ａｃｏｓ（Ｉ［ａ‐ｂ］／ｄ［ａ‐ｂ］）
　しかしながら、２つのマイクで求めた音方向は、求めた音源方向とθ［ａ‐ｂ］’との区別ができない。つまり、２つの方向のいずれであるのかまでは特定できないことになる。

　そこで、本実施形態における音源の方向の検出方法を以下、図９Ｂ、９Ｃを用いて説明する。具体的には、２つのマイクで推定できる音源方向は２つあるので、それら２つの方向を仮方向として扱う。そして、更なる２つのマイクで音源の方向を求め、仮方向を２つ求める。そして、これらに共通している方向が、求める音源の方向として決定する。なお、図９Ｂ、９Ｃの上方向を可動撮像部１００の撮像方向とする。可動撮像部１００の撮像方向は、レンズ部１０１の光軸方向（主軸方向）とも言い換えられる。

　図９Ｂは３つのマイクで行う方式である。マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃを用いて説明する。図３Ａで示したような配置図であると、マイク１０４ａ、マイク１０４ｂの並ぶ方向に直交する方向がレンズ部１０１の撮像方向となる。

　図９Ａで説明したように、マイク１０４ａ、マイク１０４ｂより、距離ｄ［ａ‐ｂ］は既知であり、音声データより距離Ｉ［ａ‐ｂ］を特定することができれば、θ［ａ‐ｂ］を特定できる。さらにマイク１０４ａ、マイク１０４ｃ間の距離ｄ［ａ‐ｃ］も既知であるので、音声データより距離Ｉ［ａ‐ｃ］も特定することができ、θ［ａ‐ｃ］を特定できる。θ［ａ‐ｂ］及びθ［ａ‐ｃ］が算出できれば、マイク１０４ａ，１０４ｂ、１０４ｃの配置と同一２次元平面上（仮想平面上）における、それらに共通な方角が、正確な音声発生方向として決定できる。

　図９Ｃを用いて、４つのマイクで音源方向を決定する方法を説明する。図３Ａに示すマイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄの配置により、マイク１０４ａ、マイク１０４ｂの並ぶ方向に直交する方向がレンズ部１０１の撮像方向（光軸方向）となる。マイク４つを利用する場合、対角線上に位置するマイク１０４ａと１０４ｄのペアと、マイク１０ｂとマイク１０４ｃのペアの２つのペアを用いると精度よく音源方向を算出できる。

　マイク１０４ａ、マイク１０４ｄ間の距離ｄ［ａ‐ｄ］は既知であるので、音声データから距離Ｉ［ａ‐ｄ］を特定できるので、θ［ａ‐ｄ］も特定できる。

　更にマイク１０４ｂ、マイク１０４ｃ間の距離ｄ［ｂ‐ｃ］も既知であるので、音声データより距離Ｉ［ｂ‐ｃ］を特定できるので、θ［ｂ‐ｃ］を特定できる。

　よって、θ［ａ‐ｄ］及びθ［ｂ‐ｃ］がわかれば、マイクの配置と同一２次元平面上では正確な音声発生方向を検知することが可能である。

　さらに、θ［ａ‐ｂ］、θ［ｃ‐ｄ］と検知角度を増やしていけば、方向検知の角度の精度を高めることも可能である。

　以上のよう処理を行うため、マイク１０４ａとマイク１０４ｂとマイク１０４ｃおよびマイク１０４ｄは図３Ａのように長方形の４つの頂点に配置した。なお、マイクの数が３つであっても、それらが直線上に並ばないのであれば、必ずしも４つである必要はない。

　上記の方法のデメリットとして、同一２次元平面上の音方向しか検知しかできない。そのため、音源が撮像装置１の真上に位置する場合には、その方向を検出できず、不定となってしまう。そこで、次に、音方向検出部２０４４における、音源の存在する方向として真上であるか否かの判定原理を図１０Ａ，１０Ｂを参照して説明する。

　図１０Ａは３つのマイクで行う方式である。マイク１０４ａ、マイク１０４ｂ、マイク１０４ｃを用いて説明する。図３Ａで示したような配置図であると、マイク１０４ａ、マイク１０４ｂの並び方向に直交する方向がレンズ部１０１の撮像方向（光軸方向）である。マイク１０４ａ、マイク１０４ｂの並び方向とは、マイク１０４ａの中心点とマイク１０４ｂの中心点とを結ぶ直線の方向である。

　音声入力部１０４の配置されている平面に対して、垂直に交わる直線上、すなわち上方向から音声が入ってきたときについて記載する。

　ここで、撮像装置１の真上に音源が位置する場合、その音源からマイク１０４ａとマイク１０４ｂは等距離にあると見なせる。つまり、音源からこれら２つのマイク１０４ａと１０４ｂに到達する音の時間差は無い。そのため、マイク１０４ａとマイク１０４ｂを結ぶ直線に対して、垂直に交わる方向に音源があると認識される。

　さらに、マイク１０４ａとマイク１０４ｃも同様に音源からは等距離にあると見なせるので、やはり音源からこれら２つのマイク１０４ａと１０４ｃに到達する音の時間差は無い。そのため、マイク１０４ａとマイク１０４ｃを結ぶ直線に対して、垂直に交わる方向に音源があると認識される。

　つまり、マイク１０４ａとマイク１０４ｂで検出した音の時間差の絶対値をΔＴ１とし、マイク１０４ａとマイク１０４ｃで検出した音の時間差の絶対値をΔＴ２とし、予め設定された十分に小さい閾値εとの関係が次の条件を満たす場合、音源が撮像装置１の真上に位置すると判定できる。
条件：ΔＴ１＜ε　かつ　ΔＴ２＜ε

　図１０Ｂを参照し、４つのマイク１０４ａ、マイク１０４ｂ、マイク１０４ｃ、マイク１０４ｄを用いた、撮像装置１の真上に位置する音源の検出法を説明する。図３Ａに示すように、マイク１０４ａ、マイク１０４ｄのペアと、マイク１０４ｂとマイク１０ｃのペアについて考察する。

　撮像装置１の真上に音源が存在する場合、その音源からマイク１０４ａとマイク１０４ｄは等距離になるので、これらマイク１０４ａとマイク１０４ｄで検出する音の時間差の絶対値ΔＴ３はゼロか、非常に小さい値となる。つまり、マイク１０４ａとマイク１０４ｄを結ぶ直線に対して、垂直に交わる方向に音源があると認識となる。

　さらに、マイク１０４ｂとマイク１０４ｃも、音源からは等距離になるため、これらマイク１０４ｂとマイク１０４ｃで検出する音の時間差の絶対値ΔＴ４もゼロか、非常に小さい値となる。つまり、マイク１０４ｂとマイク１０４ｃを結ぶ直線に対して、垂直に交わる方向に音源があると認識となる。故に、次の条件を満たす場合、音源が撮像装置１の真上に位置すると判定できる。
条件：ΔＴ３＜ε　且つ　ΔＴ４＜ε

　以上のように、３つ以上のマイクのうちの２つのペアについて、音の到達時間差の絶対値を求め、それら２つの絶対値が共に十分に小さい閾値以下となった場合に、音源の存在方向を真上であると決定できる。なお、２つのペアを決めるとき、それら２つのペアの向きが互いに非平行となるように決定すれば、どのような組み合わせでもよい。

　以上、第１の実施形態を説明した。上記実施形態によれば、音方向検出部２０４４が順に検出しつつある音方向情報のうち、音声コマンド認識部２０４３が認識した音声コマンドの元になった音声データの先頭と終端で示される期間の音方向情報が示す方向に音声コマンドを発した被写体が存在するとして判定する。この結果、音声コマンドを発声した人物（の顔）以外を誤って被写体とすることを抑制できる。また、音声コマンドを発した人物の意図したジョブを実行することも可能になる。

　更に、上記実施形態で説明したように、マイク１０４ａ乃至１０４ｄ、音声信号処理部２０４を構成する各要素は、実際にそれらが利用する段階でなって初めて中央制御部２０１の制御の下で電力供給が行われるので、全構成要素が可動状態にある場合と比較して、電力消費量を抑制できる。

　次に、上記実施形態の説明を踏まえ、具体的な利用形態を説明する。図３Ａ～３Ｅに示すように、本実施形態における撮像装置１の利用形態は様々である。

　ここで、例えば、図３Ｃの様に、ユーザの首にぶら下げる場合について考察する。この場合、レンズ部１０１の撮像方向（光軸方向）がユーザの体の方向に向くと、不要な画像を撮像してしまうのは容易に理解できよう。それ故、レンズ部１０１の撮像方向（光軸方向）は、ユーザにとって常に前方に向かうことが望ましい。この場合、図３Ａに示すように、４つのマイクのうち、マイク１０４ｃ、１９４ｄがユーザの体に触れる可能性が高い。つまり、このマイク１０４ｃ、１０９４ｄが、ユーザの衣類とのこすれ音を集音する可能性が高くなり、４つのマイクでの音方向検出部２０４４による音方向検出の際の支障を来す。そこで、本実施形態では、撮像装置１をユーザの首にぶら下げる利用形態の場合、中央制御部２０１は、マイク１０４ｃ、１０４ｄへの電力を遮断すると共に、音方向検出部２０４４に対し、マイク１０４ａ、１０４ｂの２つのみを用いた音方向検出を行うよう指示する。この場合、図９Ａを参照して説明した、２つのマイクのみでの音源方向を求めると音源方向が２つ検出されてしまうという問題は無い。なぜなら、音源方向は、少なくともユーザの前方の範囲内にあると見なしてよいからである。つまり、音方向検出部２０４４は、マイク１０４ａ、１０４ｂの２つのみを用いるため計算上は２つの音方向を検出するものの、ユーザの前方にある音源方向を有効な音源方向として検出する。なお、ユーザの体の有る方向の検出は、例えば首にぶら下げられていると判定した後、３６０度（一周）のパン動作を行い、測距した距離の最短となる方向（図３Ｃのユーザの胸部の方向）を中心とする適当な角度（例えば図３Ｃでは１８０度）の範囲をユーザの存在する方向として決定すればよい。また、中央制御部２０１は、決定した方向を記憶部２０６に基準方向として保存する。

　次に、図３Ｄの様に、ユーザの肩に装着する場合についても考察する。この場合、４つのマイクのうち、いずれか１つがユーザの頭に近い位置になり、ユーザの頭、或いは衣類に接する可能性が高くなる。そこで、この場合には、４つのマイクのうち、ユーザの頭に近い１つを音方向検出の際に不使用(電源ＯＦＦ）とし、残り３つで音源方向を検出する。一旦、ユーザの肩に撮像装置１を装着（固定）した場合、ユーザの動きとは無関係に、撮像装置１とってのユーザの頭の相対方向は変化しない。そこで、中央制御部２０１は、この方向をユーザの頭の方向として記憶部２０６に記憶する。そして、中央制御部２０１は、４つのマイクのうち、記憶した方向とレンズ部１０１の撮像方向（光軸方向）に基づき、ユーザの頭に近い側の１つのマイクを方向検出に不使用（電力を遮断）とし、且つ、音方向検出部２０４４には残りの３つマイクを用いて方向検出を行うように設定する。なお、ユーザの頭の有る方向の検出は、例えば肩に装着されていると判定した後、３６０度のパン動作を行い、測距した距離の最短となる方向を中心とする適当な角度（例えば９０度）の範囲をユーザの存在する方向として決定すればよい。また、中央制御部２０１は、測距した距離の最短となる方向（ユーザの頭の方向）は記憶部２０６に基準方向として保存する。

　そして、図３Ｂ，３Ｅの利用形態の場合、音方向検出部２０４４は４つのマイクを用いた音方向検出を行えばよい。

　ここで、図３Ｂ乃至３Ｅのいずれの利用形態とするかは、ユーザが支持部２００の操作部２０５から設定する。ただし、ユーザが操作部２０５により、オート検出モードを設定した場合、中央制御部２０１による利用形態の自動検出を行う。以下、オート検出モードが設定されている場合の中央制御部２０１の自動検出の処理を説明する。

　本実施形態における、位置検出部２１２はジャイロセンサ、加速度センサ、ＧＰＳセンサといった撮像装置１の動きを検出する構成を有することは既に説明した。そこで、撮像装置１のメイン電源がＯＮになり、図５ＡのステップＳ１０１の初期化処理後は、基本的に図３Ｂの状態、すなわち、撮像装置１は固定状態にあるとして、音方向検出部２０４４が音方向検出を行う。

　一方、図５ＡのステップＳ１０１の初期化処理後に、ユーザが撮像装置１を持ってその利用形態を決める操作を行うと、当然、位置検出部２１２の加速度センサやジャイロ等のセンサにより閾値より大きい変化を検出することになる。また、ユーザがこの操作を行うタイミングは、撮像装置１のメイン電源の投入したタイミングとする。例えば、位置検出部２１２は、初期化処理後の予め設定された期間内にセンサのうちの１つでも閾値より大きい変化を検出した場合、ユーザによる撮像装置１の設置操作を行っていると推定し、中央制御部２０１に割り込み信号を発する。

　図１１に示すフローチャートは、この割り込み処理（撮像装置１の設置位置の検出処理）を示している。以下、同図を参照して、中央制御部２０１の処理を説明する。

　まず、ステップＳ１１０１にて、中央制御部２０１は、位置検出部２１２が有する各センサが出力してくるデータを、予め設定された期間分、記憶部２０６に保存を行う。この保存する期間は、ユーザが利用形態に係る操作を完了するまでに十分な時間が望ましい（例えば１分）。

　この保存期間を終えると以下に説明するように、中央制御部２０１は、保存したデータに基づく、撮像装置１の設置位置判定を行い、音方向検出部２０４４による音方向検出法を決定する。なお、以下の説明にて、ｘ、ｙ軸が表す平面は、撮像装置１のパン動作の回転軸に垂直な面を表し、ｚ軸は撮像装置１のパン動作の回転軸の軸方向を表すものとして説明する。

　ユーザは、撮像装置１を肩に装着する（図３Ｄの）場合、ｘ，ｙ，ｚ軸のいずれかの方向への移動量が図３Ｂ，３Ｃ，３Ｅの場合と比較し、かなり大きくなる傾向がある。それ故、中央制御部２０１は、ステップＳ１１０２にて、保存されたｘ、ｙ、ｚ軸それぞれの加速度のいずれかが予め設定された閾値を超えるか否かを判定する。閾値を超える角速度があった場合、中央制御部２０１は、撮像装置１がユーザの肩に装着されたものと推定し、ステップＳ１１０３にて、ユーザの頭部に近い１つのマイクを除く、残り３つのマイクによる音方向検出法（又はルール）に従って音源方向の検出を行うよう、音方向検出部２０４４に設定し、本処理を終える。

　ステップＳ１１０２にて、ｘ、ｙ、ｚ軸のいずれの方向の加速度も閾値以下であった場合、中央制御部２０１は処理をステップＳ１１０４に進める。

　首にぶら下げる場合、肩載せに比べ、ｘ、ｙ、ｚ、方向への移動量が小さくなる傾向がある。且つ、撮像装置１を首にかける為には、図３Ｃに示す通り、上下をひっくり返す動作が必要になる。このため、首にかける動作を行う場合は、ある特定軸の角速度が大きくなる傾向がある。また、ｚ軸回りの回転は少ない。

　そこで、ステップＳ１１０４にて、中央制御部２０１は、ｘ、ｙ、ｚ軸に沿った角速度の検出と閾値比較を行う。具体的には、ｚ軸に対する角速度（ヨー）が予め設定された閾値以下であり、且つ、ｘ軸、或いはｙ軸に対する角速度（ロール、ピッチ）が予め設定された閾値（上の閾値とは別の閾値ですので、冠詞はtheにしないでください。）より大きいか判定を行う。

　この条件を満たす場合、中央制御部２０１は、撮像装置１はユーザの首にぶら下げられているものと推定する。そして、４つのマイクのうち、マイク１０４ａ，１０４ｂの２つのマイクのみを用い、且つ、マイク１０４ｃ，１０４ｄとは逆方向が音源の存在位置であるものと見なす音方向検出法にしたがった音源方向検出を行うよう、（「マイクのみを用い」は「音源方向検出を行う」に係るようにしてください。）中央制御部２０１は音方向検出部２０４４に設定し、本処理を終える。

　一方、ステップＳ１１０４にて、ヨー方向の角速度が閾値より大きい、且つ、ロールまたはピッチの角速度が閾値以下であると判定された場合、中央制御部２０１がステップ１１０６にて、撮像装置１が、ユーザの手で適当な位置に固定されたものと見なす。それ故、中央制御部２０１は、ステップＳ１１０６にて、４つのマイクを用いた音方向検出法に従って音源方向の検出を行うよう、音方向検出部２０４４に設定し、本処理を終える。

　図１２Ａは、撮像装置１がユーザの首にぶら下げた場合の音方向検出方法を示す図であり、図１２Ｂは、撮像装置１がユーザの肩に固定された場合の音方向検出方法を示す図である。そして、図１２Ｃは、撮像装置１が固定された場合の音方向検出方法を示す図である。

　図１３Ａ乃至１３Ｃは、図１２Ａ乃至１２Ｃそれぞれの方法で得られるマイクの指向性を示した図である。なお、図１２Ａ乃至１２Ｃによる音源方向の決定法が、図９Ａ乃至９Ｃと同じため詳細な説明を省略し、以下、簡単に説明する。

　図１２Ａは、図１１の処理にて、撮像装置１がユーザの首にかけられたと判断された場合の音方向の検出法を示している。音源の方向導出原理そのものは、図９Ａと同じである。マイク１０４ａ、マイク１０４ｂ間の距離ｄ[a-b]を一辺とし、θ[a-b]を求める。音源の方向は角度θ[a-b]および角度θ［a-b］’の２つの候補があるが、ユーザの体の方向の角度θ［a-b］’は、無視すればよい。また、先に説明したように、マイク１０４ｃ、１０４ｄへの電力は遮断してよい。なお、図１３Ａに示す参照符号１１０１が示す破線範囲が、この検出法による音源方向の検出範囲を示している。図示のように、前方に対する音方向の検出範囲が後方よりも広くなるが、後方はユーザの体になるので問題はない。

　図１２Ｂは、図１１の処理にて、撮像装置１がユーザの肩に装着されたと判断された場合の音方向の検出法を示している。ユーザの頭の方向は、図示の左下方向であるものとしている。撮像装置１はユーザの肩に装着された場合、マイク１０４ａ、マイク１０４ｂ間の距離ｄ[a-b]を一辺とし、θ[a-b]を求める。その後、マイク１０４ｂ、マイク１０４ｃ間の距離ｄ[c-b]を一辺とした、θ[c-b]を求め、θ[a-b]との相関をとることで音源位置の角度を求める。電源がＯＦＦとなるのは、４つのマイクのうち１つであり、残り３つは、音方向検出部２０４４が可動中である限り、電源が供給される。図１３Ｂの参照符号１１０２が示す範囲は、この検出法による音源方向の検出範囲を示している。図示のように、音方向の検出範囲が左下方向が狭くなるが、この方向にユーザの頭が存在することになるので、特に問題はない。

　図１２Ｃは、図１１の処理にて、撮像装置１がユーザ等の移動体に装着されるのではなく、固定される場合の音方向の検出法を示している。この場合、４つのマイクの全てへの電源が供給され、これら４つのマイクを用いた音方向が行われる。図１３Ｃの参照符号１１０３が示す範囲が、この検出法による音源方向の検出範囲を示している。図示のように、音方向の検出範囲が全方向に対して偏りなく音源方向が検出できる。

　以上、撮像装置の取り付け位置を検出し、該検出情報に応じた音方向検知方法を選択することで、音方向検知時に、取り付け部位に適したマイクの指向性を確保し、検知精度を向上することが可能となる。

　［第２の実施形態］
　第２の実施形態を説明する。装置構成は、上記第１の実施形態と同じであるとし、その説明は省略し、異なる点について説明する。

　撮像装置１を、室内の人員を撮影するため、部屋の隅に固定する場合を考察する。しかし、何等かの原因により、音方向検出部２０４４が設置位置の近くの壁の方向に音源があると誤検出した場合、上記実施形態によれば、レンズ部１０１の撮像方向（光軸方向）は一旦、その壁の方向への無意味なパン動作をしてしまう。

　そこで、本第２の実施形態では、中央制御部２０１は、音方向検出部２０４４に対して、音方向の有効範囲（或いは無効範囲）を設定する。そして、音方向検出部２０４４は、音方向検出処理にて、検出した音方向が有効範囲内にある場合のみ、その方向を示す音情報を、内部のバッファに２０４４ａに格納する例を説明する。換言すれば、音方向検出部２０４４は、音方向検出処理にて、検出した音方向が無効範囲内にある場合には、その検出した音方向を示す情報を内部のバッファに２０４４ａに格納せず、無視（マスク）する例を説明する。

　図１４Ａ乃至１４Ｆは、本第２の実施形態にて想定した撮像装置１の利用形態と、対応のマスク領域との関係を示す図である。

　図１４Ａは撮像装置１をユーザの首から下げた例である。図示の矢印Ａをユーザの前方と定義したとき、図１４Ｂは、撮像装置１を底面から見た透視図である。図示の様に、マイク１０４ａ及びマイク１０４ｂ側が撮像装置１の撮影できる領域である。逆にマイク１０４ｃ及び、マイク１０４ｄが配置されている側は撮影する必要のない領域であることがわかる。そこで、中央制御部２０１は、音方向検出部２０４４に対し、ユーザの体の方向を中心とする所定の範囲（図示では１８０度の範囲）を、音方向検出のマスク領域として設定する。この設定を受け、音方向検出部２０４４は、検出した音方向が、設定されたマスク領域内にある場合には、その音方向を表す音方向情報をバッファメモリ２０４４ａに格納しない。換言すれば、音方向検出部２０４４は、検出した音方向が、設定されたマスク領域外にある場合のみ、音方向情報をバッファメモリ２０４４ａに格納する。この結果、中央制御部２０１は、レンズ部１０１の撮像方向（光軸方向）を、マスク領域に向かうようなパン動作を行わないようになる。

　図１４Ｃは撮像装置１を部屋の隅の壁際においた例である。この時、図１４Ｄが表すように、撮像装置１を上面から見たとき、四隅に向かう方向を中心とする適当な角度範囲（例えば２００度）をマスク領域とする。

　図１４Ｅは撮像装置１をユーザの肩に装着した例である。図１４Ｆは、ユーザの上方から見た場合のマスク領域を示している。図示の如く、ユーザの頭部が存在する方向を示す領域をマスク領域とする。

　次に、第２の実施形態における、中央制御部２０１による処理を図１５Ａのフローチャートを参照して説明する。図１５Ａは、中央制御部２０１によるマスク領域設定を含む、主要な処理を示している点に注意されたい。また、以下では、図６のステップＳ２１７の自動動画撮影記録のジョブが実行されているものとして説明する。

　中央制御部２０１は、自動動画撮影モードに移行すると、ステップＳ１５０２にて、撮像部１０２、撮像信号処理部２０２の出力より、現在の画角範囲が撮影の必要な領域かどうかか確認する。判断方法としては、得られた画像が所定値以上の輝度があるか、レンズアクチュエータ制御部１０３によってフォーカスが合う位置に被写体がいるか、もしくは被写体が近すぎないかを判断する。測距センサや、距離マップなどを用いて被写体までの距離を求めて判断してもよい。

　現在の画角の一部もしくは全体が、撮影不要と判断された場合、中央制御部２０１は、ステップＳ１５０３にて、その角度を音方向検知マスク領域として、記憶部２０６に保存する。

　中央制御部２０１は、ステップＳ１５０４にて、回動制御部２１３を制御し、予め設定された単位角度だけ、可動撮像部１００をパン動作させる。そして、中央制御部２０１は、ステップＳ１５０５にて、このパン動作が３６０度（一周）したと判定するまで、ステップＳ１５０２以降の処理を繰り返す。この結果、記憶部２０６には、マスクする複数の角度が格納されているので、中央制御部２０１は、複数の角度のうちの両端の角度で挟まれる複数の角度を含む範囲をマスク領域として決定する。ここまで、初期の音方向検知マスク領域判定動作を完了とする。

　この後、ステップＳ１５０６にて、音方向検出部２０４４が音源の方向を検出したとする。この場合、ステップＳ１５０７にて、音方向検出部２０４４は、その音源の方向が先に決定したマスク領域内にあるか否かを判定する。検出した音源方向がマスク領域内にあるとき、音方向検出部２０４４はその音源方向を無視する。つまり、音方向検出部は、音方向情報を、内部のバッファメモリ２０４４ａに格納せず、処理をステップＳ１５０６に戻す。

　一方、検出した音方向がマスク領域外であった場合、音方向検出部２０４４は、検出した方向を内部バッファ２０４４ａに格納する。この結果、中央制御部２０１は、音方向検出部２０４４による音方向検出があったことがわかるので、ステップＳ１５０８にて、回動制御部２１３を制御し、可動撮像部１００を音源方向に向かうようにパン動作させる。

　そして、ステップＳ１５０９にて、中央制御部２０１が、映像信号処理部２０３を介して取得した画像内に被写体を検出できなかった場合は、処理をステップＳ１５０６に戻し、音方向検知の待機状態を継続する。

　一方、撮像画像内に被写体が含まれている場合、中央制御部２０１は、ステップＳ１５１０にて、顔認識、追尾、静止画撮影や動画撮影といったジョブを実行する。ここで、ステップＳ１５１１にて、位置検出部２１２のジャイロや加速度センサをもちいて撮像装置１の移動の検出が行われる。ここで位置検出部２１２によって撮像装置１の移動が検出された場合、中央制御部２０１は撮像装置１が持ち運ばれていると判断する。そして、中央制御部２０１は、ステップＳ１５０２に戻し、再度の音方向検知マスク領域の設定処理を行う。

　図１５Ａは、マスク領域設定処理を、撮像装置１の通常利用する事前処理で行うものであったが、随時、音方向検知マスク領域を更新する処理を図１５Ｂのフローチャートを参照して説明する。なお、以下の説明でも、中央制御部２０１によるマスク領域設定を含む、主要な処理を示している点に注意されたい。つまり、図１５Ｂでは、第１の実施形態で説明した起動コマンド等の電源制御については省略し、マスク領域の設定と、音方向検出から音声コマンドに基づく処理の主要部のみを示している。

　中央制御部２０１は、ステップＳ１５２２にて、音方向検出部２０４４による音方向検出を待つ。音方向検出があると、中央制御部２０１は、ステップＳ１５２３にて、検出した音源の方向が音検出のマスク領域内にあるか否かを判定し、音源の方向がマスク領域内であれば、その音方向は無視し、ステップＳ１５２２に処理を戻す。なお、初期状態では、音方向検出のマスク領域が設定されていない。それ故、中央制御部２０１は、ステップＳ１５２４に処理を進め、回動制御部２１３を制御し、可動撮像部１００を音源方向に向かうようにパン動作を開始させる。

　所定の時間のパン動作後、ステップＳ１５２５にて、中央制御部２０１は、映像信号処理部２０３の出力より、画角範囲が撮影の必要な領域かどうかか確認する。判断方法としては、得られた画像が所定値以上の輝度があるか、レンズアクチュエータ制御部１０３によってフォーカスが合う位置に被写体がいるか、もしくは被写体が近すぎて合焦不可となるかを判断する。測距センサや、距離マップなどを用いて被写体までの距離を求めて判断しても構わない。

　現在の画角の一部もしくは全体が、撮影の必要な領域と判断された場合、中央制御部２０１は、ステップＳ１５２６にて、その方向（角度）は音方向検知マスク領域を解除して保存する。逆に、画角の一部もしくは全体が撮影不要と判断された場合、中央制御部２０１は、ステップＳ１５２７にて、その方向（角度）を音方向検知マスク領域として保存する。

　そして、中央制御部２０１は、ステップＳ１５２８にて、先のステップＳ１５２２にて検出した音源の方向に到達したか否かを判定する。否の場合、中央制御部２０１はステップＳ１５２９にて、所定の時間パン動作を行う。そして、中央制御部２０１は、処理をステップＳ１５２５に戻す。

　ステップＳ１５２８にて、中央制御部２０１が、音方向検出部２０４４の方向へのパン動作を行ったと判断した場合、処理をステップＳ１５３０に進める。このステップＳ１５３０にて、中央制御部２０１は、映像信号処理部２０３を介して得た画像内に被写体（顔）を検出する。検出できなかった場合、中央制御部２０１は、処理をステップＳ１５２２に戻し、音方向検知の待機状態に戻す。一方、映像信号処理部２０３で得た画像中に被写体を検出できた場合、中央制御部２０１は、処理をステップＳ１５３１に進め、認識した音声コマンドに応じた、追尾、静止画撮影や動画撮影といった所定動作を行う。

　以上のようにして、音方向検知マスク領域を拡大、縮小していくことによって、最適な方向のみの音方向検出部２０４４の結果を得ることができる。

　以上のようにして、音方向検知マスク領域を拡大、縮小の更新処理を行うことによって、最適な方向のみの音方向検出部２０４４の結果を得ることができる。

　［第３の実施形態］
　本第３の実施形態は、図６のステップＳ２１７の自動動画記録のジョブに適用した例を説明する。図１６は、撮像装置１が演壇１６０５上に固定されており、被写体（の顔）１６０３、１６０４が異なる高さとなっている模式図である（一方の人物が起立しており、他方が着席していると考えるとわかりやすい）。

　図１６において、撮像装置１が被写体１６０３を撮影している最中に（参照符号１６０１がその時の画角）、その後、被写体１６０４が声を発したとする。この場合、撮像装置１は被写体１６０の水平方向の角度（パン角）を検知することができるが、被写体１６０４の垂直方向の角度（チルト角）は検知することができない（図示の参照符号１６０２はチルト角未定でパン動作が完了した際の画角）。このため、パン動作後に、チルト動作を徐々に行っては被写体を検出する必要がある。

　しかしながら、被写体１６０３と被写体１６０４の撮影が交互に繰り返される場合、パン動作するたびに、画角のチルト動作を行って被写体を探索する必要が出てきてしまい、被写体の検出までに、より多くの時間がかかる。また、動画を記録している場合には、違和感のある画角移動をする動画が記録されてしまうといった問題が発生してしまう。

　そこで、本第３の実施形態では、一度、被写体を認識した場合、その際のレンズ部１０１の撮像方向（光軸方向）を表すパン角、チルト角を学習（記憶）する。そして、音方向検出部２０４４が検出した音方向が、学習済みの方向に対して、予め設定された閾値以下の許容範囲内にある場合（２つの方向がほぼ一致する場合）は、その学習済みの方向に向けてパン動作とチルト動作を同時に実行し、レンズ部１０１の撮像方向（光軸方向）を学習済みの方向に一致させ、パン動作、チルト動作の時間の短縮を図る。なお、パン角、チルト角の学習では、第１の実施形態で説明した基準角、すなわち、撮像装置１の起動時のレンズ部１０１の水平面の方向（パン０度）、及ぶチルト範囲の水平方向（チルト０度）として、その差分を記憶部２０６に記憶するものとする。

　図１７は、本第３の実施形態における、中央制御部２０１の自動動画記録ジョブ（図６のステップＳ２１７）の処理手順を示すフローチャートである。なお、本処理を開始する際に、既に、音声付きの動画像撮影、記録が開始されているものとする。

　まず、ステップＳ１７０１において、中央制御部２０１は、音方向検出部２０４４による音源の方向の検出を待つ。音源の方向の検出が行われた場合、中央制御部２０１は、処理をステップＳ１７０２に進め、現在のレンズ部１０１の撮像方向（光軸方向）と検出した音源の方向から、パン動作の方向と角度を決定する。そして、ステップＳ１７０３にて、中央制御部２０１は、今回検出した音源方向に一致する、被写体情報が記憶部２０６に既に登録されているか否かを判断する。本実施形態の撮像装置１においては、過去の被写体情報を記憶部２０６に保存しておくことができる。過去の被写体情報として、被写体検出を行った時間、水平方向の角度（パン角）、垂直方向の角度（チルト角）の情報を蓄積しておくことで、新たな撮影を行う時の被写体検索の有効な手がかりとすることができる。

　ステップＳ１７０３において、中央制御部２０１が、今回検出した音源方向に一致する過去の被写体情報があると判断した場合、処理をステップＳ１７０４に移行する。また、ステップＳ１７０３において、中央制御部２０１が、今回検出した音源方向に一致する、被写体情報が無いと判断した場合、処理をステップＳ１７０６に進める。

　ステップＳ１７０４において、中央制御部２０１は、今回検出した音源方向に一致すると判定された被写体情報が表すチルト角と、現在のチルト角とから、チルト動作の方向と角度を決定する。そして、ステップＳ１７０５にて、中央制御部２０１は、先のステップＳ１７０２において決定されたパン動作の方向と角度と、ステップＳ１７０４において決定されたチルト動作の方向と角度の情報を元に、レンズ部１０１の撮像方向（光軸方向）が最短距離で目標方向に向かうべく、パン動作とチルト動作を並行して実行する。このようにすることで、過去の被写体情報を検出した時点から撮像装置１と被写体の位置関係が変化していない場合、一度の画角移動で被写体の検出を行うことができ、被写体の検出までの時間を最小化できる。そのため、撮像装置１を用いて動画を記録している場合にも、ユーザにとって違和感の無い画角移動をする動画を記録することができる。

　ステップＳ１７０６にて、中央制御部２０１は、パン動作を行わせ、レンズ部１０１の撮像方向（光軸方向）を、検出した音源に撮像方向（光軸方向）に向ける。そして、中央制御部２０１は、処理をステップＳ１７０７に進める。

　ステップＳ１７０７にて、中央制御部２０１が、映像信号処理部２０３より得た現在の撮像画像から、被写体検出を行う。被写体が検出された場合、ステップＳ１７０８に移行し、その被写体の撮影を実施する。このとき、中央制御部２０１は、記憶部２０６内に、現在のパン角に対して許容範囲内の差の被写体情報が存在した場合、その被写体情報のパン角、チルト角を現在のレンズ部１０１の視線に合わせて更新する。また、中央制御部２０１は、記憶部２０６内に、現在のパン角に対して許容範囲内の差の被写体情報が存在しない場合、現在のレンズ部１０１の撮像方向（光軸方向）を示すパン角、チルト角を、新規な被写体情報として、記憶部２０６に登録する。

　一方、ステップＳ１７０７にて、画角移動後に被写体が検出されなかった場合、中央制御部２０１は、ステップＳ１７０９に処理を進める。このステップＳ１７０９にて、中央制御部２０１は、レンズ部１０１の撮像方向（光軸方向）を垂直方向に移動（チルト動作）させ、被写体の探索を行なう。そして、ステップＳ１７１０にて、中央制御部２０１は、被写体が検出されたか否かを判定する。被写体が検出された場合には、処理をステップＳ１７０８に進める。ステップＳ１７０８に処理が進んだ場合、新規な被写体情報が記憶部２０６に登録される。

　また、ステップＳ１７１０において、被写体が検出されなかった場合、中央制御部２０１は、処理をステップＳ１７１１に進め、エラー処理を行う。このエラー処理は、例えば、その位置のまま撮影、記録を継続する処理でもよいが、例えばステップＳ１７０１にて音源方向を検出したと判定された時点でのレンズ部１０１の撮像方向（光軸方向）に戻す処理でもよい。また、被写体が移動している可能性があるので、現在のレンズ部１０１の水平面のパン角に対し許容範囲内のパン角となっている、被写体情報を記憶部２０６から削除する処理である。

　図１８は本第３の実施形態の撮像装置の制御を模式的に示す図である。被写体１６０４が発声したことに起因して、撮像装置１がパン動作、チルト動作を行って被写体１６０４を検出できたとする。この場合、本実施形態の撮像装置１は、次回、被写体１６０４が発声した場合、直ちに、レンズ部１０１の画角を１８０１となるように、パン動作とチルト動作を最短距離となるように制御することができるようになる。

　次に、第３の実施形態の変形例を説明する。以下でも、図６のステップＳ２１７の自動動画記録のジョブに適用した例を説明する。

　図１９は、本変形例における中央制御部２０１による、自動動画記録のジョブ中の処理手順を示すフローチャートである。なお、本処理を開始する際に、既に、音声付きの動画像撮影、記録が開始されているものとする。

　図１７の処理との違いは、ステップＳ１９０１、ステップＳ１９０２が追加された点である。

　まず、中央制御部２０１は、ステップＳ１７０１において、音方向検出部２０４４により音源の方向の検出を待つ。音源方向の検出が行われると、ステップＳ１７０２にて、中央制御部２０１は、現在のレンズ部１０１の撮像方向（光軸方向）と検出した音源の方向に基づき、パン動作の方向と角度を決定する。

　次に、ステップＳ１９０１にて、中央制御部２０１は、記憶部２０６に目標方向を中心とする、予め設定された範囲内に複数の被写体情報があるかどうかの判断を行う。今回検出した音源方向に複数の被写体情報があると判断した場合、中央制御部２０１は処理をステップＳ１９０２に移行する。また、被写体情報が１つのみ、或いは存在しない場合、中央制御部２０１は処理をステップＳ１７０３に進める。

　ステップＳ１９０２にて、中央制御部２０１は、複数の被写体がレンズ部１０１の画角内に入る目標チルト角を決定する。そして、中央制御部２０１は処理をステップＳ１７０５に進める。

　ステップＳ１７０３以降は、図１７と同じであるので、その説明は省略する。

　上記の処理の結果、複数の被写体がほぼ同じ場所に位置し、その中の一人が発声した場合には、実際に発声した被写体を含む複数の被写体を画角にして撮影することになり、違和感のない動画像を記録することができる。

　例えば、図２０に示すように、被写体１６０４、１６１０が近い位置にあり、いずれの被写体情報も記憶部２０６に登録されている状況下で、仮に被写体１６０４が発声した場合には、図示の画角２００１となるように中央制御部２０１が可動撮像部１００のパン動作及びチルト動作を最短距離となるように動作することなり、自然な動画撮影記録が行えるようになる。

　以上説明したように、本第３の実施形態並びにその変形例によれば、一旦発声した被写体をレンズ部１０１の画角内に入れて認識されると、その被写体の方向である、基準方向に対するパン角、チルト角を被写体情報として記憶（学習）する。そして、２回目以降、音方向検出部２０４４が検出した音方向のパン角が、記憶した被写体情報におけるパン角と実質的に一致した場合には、記憶された被写体情報が示すパン角、チルト角になるよう、パン動作とチルト動作を同時に実行して、可動撮像部１００を移動させる。この結果、自然な被写体の切り替わりが行われ、違和感の少ない動画像記録を行うことが可能になる。

　［第４の実施形態］
　第４の実施形態を説明する。本第４の実施形態は、音方向検出部２０４４が検出する音方向の検出精度を可変にする例を説明する。音方向検出部２０４４による音方向の検出原理については既に説明したが、音方向の検出精度を高くするためには、単位時間当たりの検出回数を上げて、その平均値を求めることである。しかし、単位時間値の検出回数を増やすことは、音方向検出部２０４４の負担の増加、すなわち、可動率を上げることになり、撮像装置１の消費電力の増大になる。

　そこで、本第４の実施形態では、音方向検出部２０４４の音方向検出精度を可変にし、必要に応じて精度を低くしたり、高める例を説明する。

　図２１Ａ，２１Ｂ、及び、図２２Ａ乃至２２Ｃは、ある撮影例における撮像装置１の水平方向の撮影画角と、音方向検出時の水平方向の検出分解能の関係を示す図である。図２１Ａ，２１Ｂ、及び、図２２Ａ乃至２２Ｃにおいて、座標右方向を基準方向の０°とし、反時計回りの回転方向を正方向とする。また、一点鎖線で示される角度が、撮像装置１のレンズ部１０１の撮影画角θとする。図２１Ａ，２１Ｂではθ＝１１０度、図２２Ａ乃至２２Ｃではθ＝４０度の例である。なお、撮影画角θが小さいほどズーム倍率が高いことを示し、逆に撮影画角θが大きいということはズーム倍率が低いことを示す。ここで、音方向検出部２０４４の水平方向の角度の分解能を音方向検出分解能φとする。そして、音方向検出部２０４４が検出した音源の位置を示すのが図示の黒丸部分とする。

　図２１Ａ，２１Ｂは、撮影画角θ＞音方向検出分解能φの場合の撮影例を示している。上記の通り、撮影画角θは１１０°、音方向検出分解能φは９０°である。音方向検出分解能φが９０°とは、音方向検出範囲を４分割しているのと同義である。この場合、音方向検出部２０４４が出力する音方向検出結果は、０～９０°、９０～１８０°、１８０～２７０°、２７０°～３６０°（０°）の４方向のうちいずれかとなる。

　図２２Ａは撮像装置１の初期状態を示しており、撮影方向は９０°である。また、音声を発する被写体は座標２７０°～３６０°（０°）の範囲の点で示した位置に存在する。図２１Ａの撮影例において、音方向検出を行った後、図２１Ｂに示すように、音方向検出された範囲を撮影画角θがカバーするようにパン駆動し撮影方向を変更することで、撮影画角θ内に被写体を収めることができる。

　図２２Ａ乃至２２Ｃは、撮影画角θ＜音方向検出分解能φの場合の撮影例を示している。同図では、撮影画角θは４０°、音方向検出分解能φは９０°である。図２２Ａは撮像装置１の初期状態を示しており、撮影方向は９０°である。また、音声を発する被写体は座標２７０°～３６０°（０°）の範囲の点で示した位置に存在する。図２２Ａで示す撮影例において、音方向検出を行った後、図２２Ｂ、もしくは図２２Ｃに示すように音方向検出された範囲に撮影画角θが収まるようにパン駆動し撮影方向を変更することになる。撮影方向を図２２Ｃに示すように変更した場合、撮影画角θ内に被写体を収めることができるが、図２２Ｂに示すように変更後の撮影画角θ内に被写体を収めることができない。この場合、被写体を撮影画角θ内に収めるために繰り返しパン駆動を行い、図２２Ｃに示すような撮影方向に変更する必要がある。

　以上、図２１Ａ，２１Ｂ、及び、図２２Ａ乃至２２Ｃを用いて説明したように、撮影画角θ＞音方向検出分解能φの場合は、音声検出方向を一度のパン駆動で撮影画角内に収めることができ、被写体検出を行える。しかし、撮影画角θ＜音方向検出分解能φの場合は、音声検出方向を一度のパン駆動で撮影画角内に収めることができない可能性があり、結果、繰り返しのパン駆動により被写体検出に余計な動作時間と消費電力がかかってしまう問題があるのは理解できよう。

　図２３は、音方向検出分解能φと音声信号処理部２０４５の処理量の関係を示した図である。音方向検出分解能φが小さくなるほど音声信号処理部２０４５の単位時間当たりの処理量は増加し、音方向検出分解能φが大きくなるほど音声信号処理部２０４５の単位時間当たりの処理量は減少する関係がある。つまり、音方向検出分解能φを必要以上に小さくしてしまうと、音声信号処理部２０４５の処理量が増大し、他の処理へ影響を与えてしまう問題がある。

　以上から、撮影画角θと音方向検出分解能φの関係は、撮影画角θ＞音方向検出分解能φの条件を満たしつつ、音方向検出分解能φは可能な限り大きくすることが望ましい。

　図２４Ａ乃至２４Ｂは、本第４の実施形態における撮像装置１の水平方向の撮影画角と、音方向検出時の水平方向の検出分解能の関係を示す図である。図２５は、音声コマンド認識部２０４３が拡大コマンド又は縮小コマンドを認識した際の中央制御部２０１の処理を表すフローチャートである。図２５のフローチャートは、第１の実施形態における図５ＢのステップＳ１６４の処理の一部である。すなわち、図６において省略したステップＳ２０８以降に音声コマンドが拡大、もしくは縮小コマンドであると判定された場合の処理である。

　ステップＳ２５０１にて、中央制御部２０１は、認識された音声コマンドが拡大コマンド、縮小コマンドのいずれであるかを判定する。拡大コマンドである場合、中央制御部２０１は処理をステップＳ２５０２に進める。このステップＳ２５０２にて、中央制御部２０１は、レンズアクチュエータ制御部１０３から、現在のズームレンズの位置を取得し、その位置がテレ端になっているか否かを判定する。現在のズームレンズの位置がテレ端の位置になっている場合、これ以上の拡大はできない。そこで、中央制御部２０１は、認識された拡大コマンドは無視し、処理を図５ＢのステップＳ１５１に処理を戻す。

　また、現在のズームレンズの位置がテレ端に至っていないと判断した場合、中央制御部２０１は、処理をステップＳ２５０３に進める。このステップＳ２５０３にて、中央制御部２０１は、レンズアクチュエータ制御部１０３を制御し、所定倍率だけズーム倍率を増加させる。そして、中央制御部２０１は、処理を図５ＢのステップＳ１５１に処理を戻す。

　一方、ステップＳ２５０１にて、認識された音声コマンドが縮小コマンドのであると判定した場合、中央制御部２０１は処理をステップＳ２５０４に進める。このステップＳ２５０４にて、中央制御部２０１は、レンズアクチュエータ制御部１０３から、現在のズームレンズの位置を取得し、その位置がワイド端になっているか否かを判定する。現在のズームレンズの位置がワイド端の位置になっている場合、これ以上の縮小はできない。そこで、中央制御部２０１は、認識された縮小コマンドは無視し、処理を図５ＢのステップＳ１５１に処理を戻す。

　また、現在のズームレンズの位置がワイド端に至っていないと判断した場合、中央制御部２０１は、処理をステップＳ２５０５に進める。このステップＳ２５０５にて、中央制御部２０１は、レンズアクチュエータ制御部１０３を制御し、所定倍率だけズーム倍率を減少させる。そして、中央制御部２０１は、処理を図５ＢのステップＳ１５１に処理を戻す。

　以上の結果、例えば、今、図２６Ａに示すように、撮影画角が１１０で、レンズ部１０１が基準方向に対して９０度を向いており、且つ、音方向検出分解能φが９０度であるものとする。そして、このとき、座標２７０度乃至３６０度に位置する黒丸が示す人物が拡大コマンドを発声したとする。この場合、音方向検出分解能φは９０度であるので、パン動作の結果のレンズ部１０１の画角は図２６Ｂのようになる。つまり、発声した被写体をレンズ部１０１の画角内に入れることは可能になる。しかし、このコマンドを実行することになるので、レンズ部１０１の画角が狭くなる。結果、図２６Ｃに示すように、被写体（黒丸）が更新後のレンズ部１０１の画角外になることが起こり得る。しかし、同一人物が拡大コマンドを発声すると、前回よりも高い分解能である音方向検出分解能φが設定された状態（音方向検出分解能φが３０度）で、パン動作することになるので、図２６Ｄに示すように、レンズ部１０１の画角内に被写体を入れることができる。つまり、被写体の人物が拡大コマンドを連呼すれば、レンズ部１０１の撮像方向（光軸方向）はより高い精度で被写体に向けうようになり、且つ、どんどん拡大していくことになる。

　以上、説明したように本第４の実施形態によれば、ズーム駆動により撮影画角が変更となった場合にも音声検出分解能φを変更する。この結果、変更後の音声検出分解能φに従って音方向検出を行うことで、それに処理にかける時間や消費電力を抑えつつ画角外に存在する被写体を効率よく画角内に収めることができる。また、被写体となる人物が拡大コマンドを発声した後、例えば、動画像撮影コマンドを発声した場合、その人物の拡大した状態での動画像撮影と記憶が行われることになる。

　上記例では、ユーザによるズームに関する音声コマンドに応じて、音方向の分解能を変更するものであった。しかし、音声コマンドに応じてパン動作した際、撮像画像中に複数の被写体が存在する場合、ズーム倍率とは無関係に、発声者を特定するために音方向の分解能を高くするようにしてもよい。

　（その他の実施例）
　本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。

　本願は、２０１７年１２月２６日提出の日本国特許出願特願２０１７－２５０１０８、および、２０１８年１１月２日提出の日本国特許出願特願２０１８－２０７６３４を基礎として優先権を主張するものであり、その記載内容の全てを、ここに援用する。

Claims

　撮像手段を有する撮像装置であって、
　前記撮像手段を駆動する駆動手段と、
　ユーザのいる方向を検出する第一の検出手段と、
　前記撮像装置の動きを検出する第二の検出手段と、
　音声を集音するための複数の集音手段と、
　前記複数の集音手段を用いて前記音声の音源の方向を検出する第三の検出手段と、
　制御手段と、を有し、
　前記制御手段は、前記第一の検出手段によって検出したユーザのいる方向と、および、前記第二の検出手段によって検出した前記撮像装置の動きとに基づいて、２つ以上の集音手段を前記複数の集音手段から決定し、
　前記第三の検出手段は、前記決定された２つ以上の集音手段を用いて音声の音源の方向を検出し、
　前記第三の検出手段が前記決定された２つ以上の集音手段を用いて音声の音源の方向を検出した場合、前記制御手段は前記第三の検出手段が検出した音源の方向に、前記撮像手段の撮像方向を向けるよう前記駆動手段を制御する
　ことを特徴とする撮像装置。
　前記第三の検出手段によって検出した音声の音源の方向に複数の候補があった場合、前記第一の検出手段によって検出したユーザのいる方向ではない方向に前記撮像手段の撮像方向を向けるよう前記制御手段は前記駆動手段を制御する
　ことを特徴とする請求項１に記載の撮像装置。
　前記第二の検出手段は前記撮像装置の動きを、前記撮像装置の加速度および角速度に基づいて検出することを特徴とする請求項１または２に記載の撮像装置。
　前記複数の集音手段は、すべての前記集音手段が直線上に並ばないように配置されることを特徴とする請求項１から３のいずれか１項に記載の撮像装置。
　撮像手段と、
　前記撮像手段を駆動する駆動手段と、
　音声を集音するための複数の集音手段と、
　前記複数の集音手段を用いて前記音声の音源の方向を検出する検出手段と、を有する撮像装置の制御方法であって、
　ユーザのいる方向を検出する第一の検出ステップと、
　前記撮像装置の動きを検出する第二の検出ステップと、
　前記第一の検出ステップで検出したユーザのいる方向と、および、前記第二の検出ステップで検出した前記撮像装置の動きとに基づいて、２つ以上の集音手段を前記複数の集音手段から決定する決定ステップと、
　前記決定ステップで決定された２つ以上の集音手段を用いて音声の音源の方向を前記検出手段によって検出する検出ステップと、
　前記検出ステップで音声の音源の方向を検出した場合、前記検出ステップで検出した音源の方向に、前記撮像手段の撮像方向を向けるよう前記駆動手段を制御するステップと、を有する
　ことを特徴とする制御方法。
　撮像手段と、
　前記撮像手段を駆動する駆動手段と、
　音声を集音するための複数の集音手段と、
　前記複数の集音手段を用いて前記音声の音源の方向を検出する検出手段と、を有する撮像装置に制御方法を実行させるためのプログラムが記録された記録媒体、ここで前記制御方法は以下を含む：
　ユーザのいる方向を検出する第一の検出ステップと、
　前記撮像装置の動きを検出する第二の検出ステップと、
　前記第一の検出ステップで検出したユーザのいる方向と、および、前記第二の検出ステップで検出した前記撮像装置の動きとに基づいて、２つ以上の集音手段を前記複数の集音手段から決定する決定ステップと、
　前記決定ステップで決定された２つ以上の集音手段を用いて音声の音源の方向を前記検出手段によって検出する検出ステップと、
　前記検出ステップで音声の音源の方向を検出した場合、前記検出ステップで検出した音源の方向に、前記撮像手段の撮像方向を向けるよう前記駆動手段を制御するステップ。
　撮像手段と、
　前記撮像手段を駆動する駆動手段と、
　音声を集音するための複数の集音手段と、
　前記複数の集音手段を用いて集音した音声の音源の方向を検出する検出手段と、
　制御手段と、を有し、
　前記制御手段は前記撮像手段によって撮像した画像データに基づいて、撮影の必要のない領域を設定し、
　前記検出手段によって検出した音声の音源の方向が、前記撮影の必要のない領域にない場合、前記撮像手段の撮像方向が前記検出手段によって検出した音声の音源の方向に向くよう前記制御手段は前記駆動手段を制御する
　ことを特徴とする撮像装置。
　前記制御手段は、前記撮像手段によって撮像した画像データの輝度が所定の閾値よりも暗い場合、または画像データに映る被写体と前記撮像装置との距離が所定の閾値より小さい場合、その撮像方向を撮影の必要のない領域として設定することを特徴とする請求項７に記載の撮像装置。
　前記撮像装置が持ち運ばれていると判断した場合、前記制御手段は前記撮影の必要のない領域を再度設定する
　ことを特徴とする請求項７または８に記載の撮像装置。
　前記駆動手段を所定の時間駆動するよう制御した後、前記制御手段はさらに前記撮像手段によって撮像した画像データに基づいて、現在の撮像手段の撮像方向が撮影の必要な領域かどうかを判断し、その判断にしたがって撮影の必要のない領域を再度設定する
　ことを特徴とする請求項７または８に記載の撮像装置。
　撮像手段と、
　音声を集音するための複数の集音手段と、を有する撮像装置の制御方法であって、
　前記複数の集音手段を用いて集音した音声の音源の方向を検出する検出ステップと、
　前記撮像手段によって撮像した画像データに基づいて、撮影の必要のない領域を設定する設定ステップと、
　前記検出ステップによって検出した音声の音源の方向が、前記設定ステップで設定した前記撮影の必要のない領域にない場合、前記撮像手段の撮像方向が前記検出ステップによって検出した音声の音源の方向に向くよう駆動する駆動ステップと、を有する
　ことを特徴とする制御方法。
　撮像手段と、
　音声を集音するための複数の集音手段と、を有する撮像装置に制御方法を実行させるためのプログラムが記録された記録媒体、ここで前記制御方法は以下を含む：
　前記複数の集音手段を用いて集音した音声の音源の方向を検出する検出ステップと、
　前記撮像手段によって撮像した画像データに基づいて、撮影の必要のない領域を設定する設定ステップと、
　前記検出ステップによって検出した音声の音源の方向が、前記設定ステップで設定した前記撮影の必要のない領域にない場合、前記撮像手段の撮像方向が前記検出ステップによって検出した音声の音源の方向に向くよう駆動する駆動ステップ。
　撮像手段と、
　前記撮像手段をパン動作およびチルト動作によって駆動する駆動手段と、
　音声を集音するための複数の集音手段と、
　前記複数の集音手段を用いて前記音声の音源の方向のパン角を検出する検出手段と、
　制御手段と、を有し、
　前記制御手段は前記撮像手段によって被写体を撮像した場合、前記被写体の方向を向いた前記撮像手段の撮像方向のパン角およびチルト角を被写体情報として記録し、
　前記検出手段によって検出したパン角と前記被写体情報に含まれるパン角と比較しその２つの角度の差が閾値以下だった場合、前記制御手段は前記検出手段によって検出したパン角および前記被写体情報に含まれるチルト角に撮像手段の撮像方向を向けるよう前記駆動手段を制御し、
　前記検出手段によって検出したパン角と前記被写体情報に含まれるパン角と比較しその２つの角度の差が閾値を超える場合、前記制御手段は、前記検出手段によって検出したパン角にいる被写体に前記撮像手段の撮像方向を向けるよう前記駆動手段を制御する
　ことを特徴とする撮像装置。
　前記制御手段は前記検出手段によって検出したパン角および前記被写体情報に含まれるチルト角に撮像手段の撮像方向を向けるよう前記駆動手段を制御し、
　前記制御手段は前記検出手段によって検出したパン角および前記被写体情報に含まれるチルト角の方向に被写体を検出した場合、前記制御手段は前記被写体情報を現在の撮像手段の撮像方向のパン角およびチルト角になるよう更新し、
　ことを特徴とする請求項１３に記載の撮像装置。
　前記制御手段は前記検出手段によって検出したパン角および前記被写体情報に含まれるチルト角に撮像手段の撮像方向を向けるよう前記駆動手段を制御し、
　前記検出手段によって検出したパン角および前記被写体情報に含まれるチルト角の方向に被写体を検出しない場合、前記制御手段は前記被写体情報を削除する
　ことを特徴とする請求項１３または１４に記載の撮像装置。
　前記検出手段によって検出したパン角との差が閾値以下になる被写体情報が複数ある場合、
　前記制御手段は前記複数の被写体情報のそれぞれのチルト角が所定の範囲内に入るようチルト角を決定し、
　前記制御手段は、前記検出手段によって検出したパン角および前記決定したチルト角の方向に前記撮像手段の撮像方向を向けるよう前記駆動手段を制御する
　ことを特徴とする請求項１３から１５のいずれか１項に記載の撮像装置。
　撮像手段と、
　前記撮像手段をパン動作およびチルト動作によって駆動する駆動手段と、
　音声を集音するための複数の集音手段と、を有する撮像装置の制御方法であって、
　前記撮像手段によって被写体を撮像した場合、前記被写体の方向を向いた前記撮像手段の撮像方向のパン角およびチルト角を被写体情報として記録する記録ステップと、
　前記複数の集音手段を用いて前記音声の音源の方向のパン角を検出する検出ステップと、
　前記検出ステップで検出したパン角と前記記録ステップで記録した前記被写体情報に含まれるパン角と比較しその２つの角度の差が閾値以下だった場合、前記検出ステップで検出したパン角および前記記録ステップで記録した前記被写体情報に含まれるチルト角に撮像手段の撮像方向を向けるよう前記駆動手段を制御するステップと、
　前記検出ステップで検出したパン角と前記記録ステップで記録した前記被写体情報に含まれるパン角と比較しその２つの角度の差が閾値を超える場合、前記検出ステップで検出したパン角にいる被写体に前記撮像手段の撮像方向を向けるよう前記駆動手段を制御するステップと、を有する
　ことを特徴とする制御方法。
　撮像手段と、
　前記撮像手段をパン動作およびチルト動作によって駆動する駆動手段と、
　音声を集音するための複数の集音手段と、を有する撮像装置に制御方法を実行させるためのプログラムが記録された記録媒体、ここで前記制御方法は以下を含む：
　前記撮像手段によって被写体を撮像した場合、前記被写体の方向を向いた前記撮像手段の撮像方向のパン角およびチルト角を被写体情報として記録する記録ステップと、
　前記複数の集音手段を用いて前記音声の音源の方向のパン角を検出する検出ステップと、
　前記検出ステップで検出したパン角と前記記録ステップで記録した前記被写体情報に含まれるパン角と比較しその２つの角度の差が閾値以下だった場合、前記検出ステップで検出したパン角および前記記録ステップで記録した前記被写体情報に含まれるチルト角に撮像手段の撮像方向を向けるよう前記駆動手段を制御するステップと、
　前記検出ステップで検出したパン角と前記記録ステップで記録した前記被写体情報に含まれるパン角と比較しその２つの角度の差が閾値を超える場合、前記検出ステップで検出したパン角にいる被写体に前記撮像手段の撮像方向を向けるよう前記駆動手段を制御するステップ。
　撮像手段と、
　前記撮像手段を駆動する駆動手段と、
　音声を集音するための複数の集音手段と、
　前記複数の集音手段を用いて前記音声の音源の方向を所定の角度の分解能で検出する検出手段と、
　制御手段と、
　前記制御手段は、前記所定の角度を前記撮像手段の画角より小さくなるように設定し、
　前記集音手段によって音声を集音した場合、前記検出手段によって前記所定の角度の分解能で検出した音声の音源の方向に前記撮像手段の撮像方向を向けるよう前記駆動手段を前記制御手段は制御する
　ことを特徴とする撮像装置。
　前記制御手段は、前記撮像手段のズーム倍率を増加させた場合、前記撮像手段の画角より小さくなるように前記所定の角度を大きくするよう設定し、
　前記制御手段は、前記撮像手段のズーム倍率を減少させた場合、前記撮像手段の画角より小さくなるように前記所定の角度を小さくするよう設定する
　ことを特徴とする請求項１９に記載の撮像装置。
　さらに音声による指示を認識する認識手段を有し、
　前記認識手段が前記撮像手段のズーム倍率を変更する指示を認識した場合、前記制御手段は、前記撮像手段のズーム倍率を前記指示に従って変更する
　ことを特徴とする請求項１９または２０に記載の撮像装置。
　撮像手段と、
　前記撮像手段を駆動する駆動手段と、
　音声を集音するための複数の集音手段と、を有する撮像装置の制御方法であって、
　前記複数の集音手段を用いて前記音声の音源の方向を所定の角度の分解能で検出する検出ステップと、
　前記所定の角度を前記撮像手段の画角より小さくなるように設定する設定ステップと、
　前記集音手段によって音声を集音した場合、前記検出ステップで前記所定の角度の分解能で検出した音声の音源の方向に前記撮像手段の撮像方向を向けるよう前記駆動手段を制御するステップと、を有する
　ことを特徴とする制御方法。
　撮像手段と、
　前記撮像手段を駆動する駆動手段と、
　音声を集音するための複数の集音手段と、を有する撮像装置に制御方法を実行させるためのプログラムが記録された記録媒体、ここで前記制御方法は以下を含む：
　前記複数の集音手段を用いて前記音声の音源の方向を所定の角度の分解能で検出する検出ステップと、
　前記所定の角度を前記撮像手段の画角より小さくなるように設定する設定ステップと、
　前記集音手段によって音声を集音した場合、前記検出ステップで前記所定の角度の分解能で検出した音声の音源の方向に前記撮像手段の撮像方向を向けるよう前記駆動手段を制御するステップ。