JP6145736B2

JP6145736B2 - 指向性制御方法、記憶媒体及び指向性制御システム

Info

Publication number: JP6145736B2
Application number: JP2015526802A
Authority: JP
Inventors: 信一重永; 渡辺　周一; 周一渡辺; 牧　直史; 直史牧; 昭年泉; 林　和典; 和典林; 徳田　肇道; 肇道徳田; 正治郎松尾; 裕隆澤
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2017-06-14
Anticipated expiration: 2034-03-31
Also published as: WO2015151131A1; CN105706462A; JPWO2015151131A1; CN105706462B

Description

本発明は、音声の指向性を制御する指向性制御方法、記憶媒体及び指向性制御システムに関する。

従来、工場、店舗（例えば小売店、銀行）或いは公共の場（例えば図書館）の既定位置（例えば天井面）に設置される監視システムでは、ネットワークを介して１つ以上のカメラ装置（例えばＰＴＺカメラ装置、全方位カメラ装置）を接続し、監視対象範囲の映像の画像データ（静止画像及び動画像を含む。以下同様。）の広画角化が図られている。

また、映像を用いた監視では得られる情報量が限られるので、１つ以上のカメラ装置以外にマイクアレイ装置を用いることにより、カメラ装置の画角内に存在する特定の監視対象（例えば人物）の発する音声データが得られる監視システムの要請が高い。このような監視システムにおいて、監視者が特定の監視対象の発する音声データを聴きたい場合には、カメラ装置により撮像された映像の画像データとマイクアレイ装置により撮像された音声の音声データとの同期が確立している必要がある。

ここで、カメラ装置により撮像された映像の画像データとマイクアレイ装置により撮像された音声の音声データとの同期を確立する先行技術として、特許文献１に示す信号処理装置が知られている。

特許文献１に示す信号処理装置は、撮影者による被写体のズーム操作の結果に応じて、撮像部により撮像された被写体までの距離を算出し、算出された距離に応じて、マイクロホンユニットにより収音された音声を強調する。更に、信号処理装置は、撮影者による被写体までの距離に応じて、撮像部により撮像された映像信号、又はマイクロホンユニットにより収音された音声信号のいずれかを遅延させる。これにより、信号処理装置は、撮影者によって被写体がズーム操作されても、被写体までの距離に応じて映像信号又は音声信号のいずれかを遅延させるので、映像信号と音声信号との同期を確立できる。

日本国特開２００９−１３０７６７号公報

特許文献１では、撮影者によるズーム操作によって、マイクロホンユニットにより収音された音声信号の強調処理は行われる。しかし、特許文献１の構成を上述した監視システムに適用しようとすると、ズーム操作によって監視者が選択する監視範囲が切り替わると、マイクアレイ装置から、ズーム操作により切り替わった監視範囲における特定の被写体（例えば人物）に対する音声の指向性が適正に形成されない可能性がある。

監視システムにおいて音声データの指向性が適正に形成されないと、たとえ映像と音声とが同期していても、監視対象としての特定の被写体の発する音声が監視者に伝わらず、監視者の監視業務の効率が劣化する。

本発明は、上述した従来の課題を解決するために、監視対象に対するズーム処理により、監視対象の被写体が切り替わった場合でも、切り替わった監視対象の被写体に対する音声の指向性を適正に形成し、監視者の監視業務の効率劣化を抑制する指向性制御方法及び指向性制御システムを提供することを目的とする。

本発明は、複数のマイクを含む収音部で収音された音声の指向性を制御する指向性制御装置における指向性制御方法であって、撮像部により撮像された第１の画像を表示部に表示する第１表示ステップと、前記表示部に表示された前記第１の画像の指定箇所の指定を受け付ける指定受付ステップと、前記第１の画像が前記表示部に表示されている間に指定された前記指定箇所に応じて、前記指定箇所を含む範囲の画像の歪み補正によって得た第２の画像を前記表示部に表示する第２表示ステップと、前記収音部から、前記第２の画像の中心位置に対応する音源への方向に、前記指向性に基づいて前記音源における音声が強調されるためのビームを形成するビーム形成ステップと、入力に応じて、前記表示部の第２の画像を拡大又は縮小する画像処理ステップと、を備え、前記ビーム形成ステップは、前記画像処理ステップによる拡大又は縮小に応じて、前記形成されたビームのサイズを変更し、前記撮像部と前記収音部とは室内の天井に配置される、指向性制御方法である。

また、本発明は、複数のマイクを含む収音部で収音された音声の指向性を制御する指向性制御装置における処理を実行するプログラムが格納された記憶媒体であって、撮像部により撮像された第１の画像を表示部に表示するステップと、前記表示部に表示された前記第１の画像の指定箇所の指定を受け付けるステップと、前記第１の画像が前記表示部に表示されている間に指定された前記指定箇所に応じて、前記指定箇所を含む範囲の画像の歪み補正によって得た第２の画像を前記表示部に表示するステップと、前記収音部から、前記第２の画像の中心位置に対応する音源への方向に、前記指向性に基づいて前記音源における音声が強調されるためのビームを形成するステップと、入力に応じて、前記表示部の第２の画像を拡大又は縮小するステップと、を実行するプログラムが格納され、前記設定された倍率に応じて、前記形成されたビームのサイズを変更するステップを含む、記憶媒体である。

更に、本発明は、収音領域を撮像する撮像部と、複数のマイクを含み前記収音領域の音声を収音する第１収音部と、前記第１収音部で収音された音声の指向性を制御する指向性制御装置と、を備え、前記指向性制御装置は、前記撮像部により撮像された前記収音領域の第１の画像を表示する表示部と、前記表示部に表示された前記第１の画像の指定箇所の指定を受け付ける操作部と、前記第１の画像が前記表示部に表示されている間に指定された前記指定箇所に応じて、前記指定箇所を含む範囲の画像の歪み補正によって得た第２の画像を前記表示部に表示する画像取得部と、前記第１収音部から、前記第２の画像の中心位置に対応する音源への方向に、前記指向性に基づいて前記音源における音声が強調されるためのビームを形成するビーム形成部と、入力に応じて、前記表示部の前記第２の画像を拡大又は縮小する画像処理部と、を備え、前記ビーム形成部は、前記画像処理部による拡大又は縮小に応じて、前記形成されたビームのサイズを変更し、前記撮像部と前記第１収音部とは室内の天井に配置される、指向性制御システムである。

更に、本発明は、収音領域を撮像する撮像部と、複数のマイクを含み前記収音領域の音声を収音する第１収音部と、前記第１収音部の周囲に増設される第２収音部と、前記第１収音部と第２収音部で収音された音声の指向性を制御する指向性制御装置と、を備え、前記指向性制御装置は、前記撮像部により撮像された前記収音領域の第１の画像を表示する表示部と、前記表示部に表示された前記第１の画像の指定箇所の指定を受け付ける操作部と、前記第１の画像が前記表示部に表示されている間に指定された前記指定箇所に応じて、前記指定箇所を含む範囲の画像の歪み補正によって得た第２の画像を前記表示部に表示する画像取得部と、前記第１収音部から、前記第２の画像の中心位置に対応する音源への方向に、前記指向性に基づいて前記音源における音声が強調されるためのビームを形成するビーム形成部と、入力に応じて、前記表示部の前記第２の画像を拡大又は縮小する画像処理部と、を備え、前記ビーム形成部は、前記画像処理部による拡大又は縮小に応じて、前記形成されたビームのサイズを変更し、前記撮像部と前記第１収音部とは室内の天井に配置される、指向性制御システムである。

本発明によれば、監視対象に対するズーム処理により、監視対象の被写体が切り替わった場合でも、切り替わった監視対象の被写体に対する音声の指向性を適正に形成し、監視者の監視業務の効率劣化を抑制できる。

第１の実施形態の指向性制御システムのシステム構成を示すブロック図（Ａ）〜（Ｅ）全方位マイクアレイ装置の筐体の外観図全方位マイクアレイ装置が方向θに音声データの指向性を形成する遅延和方式の簡単な説明図（Ａ）ズームアウト処理時の、指向性パターン、表示画面、音声ズーム範囲及び表示画面の表示範囲を示す図、（Ｂ）ズームアウト処理前及びズームイン処理前の、指向性パターン、表示画面、音声ズーム範囲及び表示画面の表示範囲を示す図、（Ｃ）ズームイン処理時の、指向性パターン、表示画面、音声ズーム範囲及び表示画面の表示範囲を示す図（Ａ）屋内のホールの天井面に、一体的に組み込まれた全方位マイクアレイ装置２及びカメラ装置１が取り付けられた監視範囲を示す図、（Ｂ）全方位画像データにおいて２人の人物９１，９２を含む範囲ｇの選択操作を示す図、（Ｃ）歪み補正処理後の２人の人物９１，９２の画像データがディスプレイ装置に表示され、人物９１，９２の会話の音声データがスピーカ装置において出力されている様子を示す図、（Ｄ）全方位画像データにおいて２人の人物９３，９４を含む範囲ｈの選択操作を示す図、（Ｅ）歪み補正処理後の２人の人物９３，９４の画像データがディスプレイ装置に表示され、人物９３，９４の会話の音声データがスピーカ装置において出力されている様子を示す図第１の実施形態の指向性制御装置の動作手順を詳細に説明するフローチャート（Ａ）図６に示すプライバシー保護処理の第１例としての音声プライバシー保護処理の動作手順を説明するフローチャート、（Ｂ）図６に示すプライバシー保護処理の第２例としての画像プライバシー保護処理の動作手順を説明するフローチャート（Ａ）ボイスチェンジ処理前のピッチに対応する音声信号の波形の一例を示す図、（Ｂ）ボイスチェンジ処理後のピッチに対応する音声信号の波形の一例を示す図、（Ｃ）検出された人物の顔の輪郭内にぼかしを入れる処理の説明図第２の実施形態の指向性制御装置の動作手順のうち、第１の実施形態の指向性制御装置の動作手順と異なる動作手順を説明するフローチャート（Ａ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第１例（ドーナツ型結合）を示す正面図、（Ｂ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第１例を示す側面図全方位マイクアレイ装置の周囲に増設マイク部を結合する第２例（ドーナツ楕円型結合）を示す正面図（Ａ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第３例（正方形型結合又は長方形型結合）を示す正面図、（Ｂ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第３例（正方形型結合又は長方形型結合）を示す側面図（Ａ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第４例（ハニカム型結合）を示す正面図、（Ｂ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第５例（ハニカム型結合）を示す正面図（Ａ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第６例（バー型結合）を示す正面図、（Ｂ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第６例（バー型結合）を示す側面図（Ａ）図１４（Ｂ）に示す全方位マイクアレイ装置と天井取付板金とが取り付けられた状態を示す平面図、（Ｂ）図１５（Ａ）のＥ−Ｅ断面を示し、図１４（Ｂ）に示す全方位マイクアレイ装置の周囲に増設マイク部が取り付けられた状態を示す側面図（Ａ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第７例（バー型結合）を示す正面図、（Ｂ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第８例（バー型結合）を示す正面図、（Ｃ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第９例（バー型結合）を示す正面図（Ａ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第１０例（スケルトン型結合）を示す正面図、（Ｂ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第１０例（スケルトン型結合）を示す側面図、（Ｃ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第１１例（スケルトン型結合）を示す正面図、（Ｄ）全方位マイクアレイ装置の周囲に増設マイク部を結合する第１１例（スケルトン型結合）を示す側面図（Ａ）全方位マイクアレイ装置の周囲への増設マイク部の結合方法の第１例を示す正面図、（Ｂ）全方位マイクアレイ装置の周囲への増設マイク部の結合方法の第２例を示す正面図（Ａ）全方位マイクアレイ装置の周囲への増設マイク部の結合方法の第３例を示す正面図、（Ｂ）図１９（Ａ）のＥ−Ｅ断面を示し、全方位マイクアレイ装置の周囲への増設マイク部の結合方法の第３例を示す側面図、（Ｃ）全方位マイクアレイ装置の周囲への増設マイク部の結合方法の第４例を示す補足説明図全方位マイクアレイ装置の周囲に増設マイク部を結合する第１２例（ピース型結合）を示す斜視図増設マイク部が結合した全方位マイクアレイ装置のハードウェア構成の一例を示すブロック図

以下、本発明に係る指向性制御装置、指向性制御方法及び指向性制御システムの各実施形態について、図面を参照して説明する。各実施形態の指向性制御システムは、例えば工場、公共施設（例えば図書館、イベント会場）、又は店舗（例えば小売店、銀行）に設置される監視システム（有人監視システム及び無人監視システムを含む）として用いられる。

なお、本発明は、コンピュータである指向性制御装置に、指向性制御方法により規定される動作を実行させるためのプログラム、又は指向性制御方法により規定される動作をコンピュータに実行させるプログラムが記録されたコンピュータ読み取り可能な記録媒体として表現することも可能である。

（第１の実施形態）
図１は、本実施形態の指向性制御システム１０のシステム構成を示すブロック図である。図１に示す指向性制御システム１０は、カメラ装置１と、全方位マイクアレイ装置２と、指向性制御装置３と、レコーダ装置４とを含む構成である。カメラ装置１と、全方位マイクアレイ装置２と、指向性制御装置３と、レコーダ装置４とは、ネットワークＮＷを介して相互に接続されている。ネットワークＮＷは、有線ネットワーク（例えばイントラネット、インターネット）でも良いし、無線ネットワーク（例えば無線ＬＡＮ（Local Area Network）、ＷｉＭＡＸ（登録商標）、無線ＷＡＮ（Wide Area Network））でも良い。図１に示す指向性制御システム１０では、説明を簡単にするために、カメラ装置１及び全方位マイクアレイ装置２は１つだけ図示されているが、複数のカメラ装置及び全方位マイクアレイ装置が含まれても良い。

以下、指向性制御システム１０を構成する各装置について説明する。なお、以下の説明を簡単にするために、カメラ装置１の筐体と全方位マイクアレイ装置２の筐体とは同一の位置に一体的に取り付けられるものとして説明するが（図５（Ａ）参照）、カメラ装置１の筐体と全方位マイクアレイ装置２の筐体とは異なる位置に別体として取り付けられても良い。

撮像部の一例としてのカメラ装置１は、例えば後述する天井取付板金７ｚを介して、イベント会場の天井面８に固定して設置される（図５（Ａ）参照）。カメラ装置１は、例えば監視システムにおける監視カメラとしての機能を有し、ネットワークＮＷに接続された監視制御室（不図示）からの遠隔操作によって、ズーム機能（例えばズームイン処理、ズームアウト処理）を用いて、所定の収音領域（例えばイベント会場内の既定領域）の全方位の映像を撮像する。カメラ装置１は、収音領域の全方位の映像を示す画像データ（即ち、全方位画像データ）、又は全方位画像データに所定の歪み補正処理を施してパノラマ変換して生成した平面画像データを、ネットワークＮＷを介して指向性制御装置３又はレコーダ装置４に送信する。

カメラ装置１は、ディスプレイ装置３５に表示された画像データの中で、任意の位置が監視者の指９５により指定されると、画像データ中の指定位置の座標データを指向性制御装置３から受信し、カメラ装置１から、指定位置に対応する実空間上の音声位置（以下、単に「音声位置」と略記する）までの距離、方向（水平角及び垂直角を含む。以下同様。）のデータを算出して指向性制御装置３に送信する。なお、カメラ装置１における距離、方向のデータ算出処理は公知技術であるため、説明は割愛する。

また、カメラ装置１は、例えばカメラ装置１における定期的なタイミング、又はディスプレイ装置３５に表示された画像データに対する監視者の指９５の入力操作に応じて、画像データのズームイン処理又はズームアウト処理を行う。定期的なタイミングは、例えば１時間又は１０分に１回程度である。ズームイン処理又はズームアウト処理の倍率に関する情報は、予め指定されても良いし、適宜変更されても良い。カメラ装置１は、ズームイン処理又はズームアウト処理を行った場合には、ズームイン処理又はズームアウト処理の倍率に関する情報を指向性制御装置３に送信する。

収音部の一例としての全方位マイクアレイ装置２は、例えば後述する天井取付板金７ｚを介して、イベント会場の天井面８に固定して設置される（図５（Ａ）参照）。全方位マイクアレイ装置２は、複数のマイクロホンユニット２２，２３（図２（Ａ）〜（Ｅ）参照）が均等な間隔で設けられたマイクロホン部と、マイクロホン部の各マイクロホンユニット２２，２３の動作を制御するＣＰＵ２ｐ（図２１参照）とを少なくとも含む構成である。

全方位マイクアレイ装置２は、電源がＯＮされると、マイクロホンユニット内のマイク素子により収音された音声の音声データに所定の音声信号処理（例えば増幅処理、フィルタ処理、加算処理）を施し、所定の音声信号処理により得られた音声データを、ネットワークＮＷを介して、指向性制御装置３又はレコーダ装置４に送信する。

ここで、全方位マイクアレイ装置２の筐体の外観について、図２（Ａ）〜（Ｅ）を参照して説明する。図２（Ａ）〜（Ｅ）は、全方位マイクアレイ装置２の筐体の外観図である。図２（Ａ）〜（Ｅ）に示す全方位マイクアレイ装置２Ｃ，２Ａ，２Ｂ，２，２Ｄは、外観及び複数のマイクロホンユニットの配置位置が異なるが、全方位マイクアレイ装置の機能は同等である。

図２（Ａ）に示す全方位マイクアレイ装置２Ｃは、円盤状の筐体２１を有する。筐体２１には、複数のマイクロホンユニット２２，２３が同心円状に配置されている。具体的には、複数のマイクロホンユニット２２が、筐体２１と同一の中心を有する同心円状に且つ筐体２１の円周に沿って配置され、複数のマイクロホンユニット２３が、筐体２１と同一の中心を有する同心円状に且つ筐体２１の内側に配置されている。各々のマイクロホンユニット２２は、互いの間隔が広く、直径が大きく、低い音域に適した特性を有する。一方、各々のマイクロホンユニット２３は、互いの間隔が狭く、直径が小さく、高い音域に適した特性を有する。

図２（Ｂ）に示す全方位マイクアレイ装置２Ａは、円盤状の筐体２１を有する。筐体２１には、複数のマイクロホンユニット２２が、均等な間隔で縦方向と横方向の２方向に沿って十字状に配置され、縦方向の配列と横方向の配列とが筐体２１の中心において交わっている。全方位マイクアレイ装置２Ａは、複数のマイクロホンユニット２２が縦方向と横方向の２方向に直線的に配置されているので、音声データの指向性を形成する場合の演算量を低減できる。なお、図２（Ｂ）に示す全方位マイクアレイ装置２Ａにおいて、縦方向又は横方向の１列だけに、複数のマイクロホンユニット２２が配置されても良い。

図２（Ｃ）に示す全方位マイクアレイ装置２Ｂは、図２（Ａ）に示す全方位マイクアレイ装置２に比べ、直径の小さい円盤状の筐体２１Ｂを有する。筐体２１Ｂには、複数のマイクロホンユニット２２が、筐体２１Ｂの円周に沿って均等な間隔で配置されている。図２（Ｃ）に示す全方位マイクアレイ装置２Ｂは、各々のマイクロホンユニット２２の間隔が短いので、高い音域に適した特性を有する。

図２（Ｄ）に示す全方位マイクアレイ装置２は、筐体２１Ｃの中心に所定の直径を有する開口部２１ａが形成されたドーナツ型形状又はリング型形状の筐体２１Ｃを有する。本実施形態の指向性制御システム１０では、例えば図２（Ｄ）に示す全方位マイクアレイ装置２が用いられる。筐体２１Ｃでは、複数のマイクロホンユニット２２が、筐体２１Ｃの円周方向に沿って、均等な間隔で同心円状に配置されている。

図２（Ｅ）に示す全方位マイクアレイ装置２Ｄは、矩形状の筐体２１Ｄを有する。筐体２１Ｄには、複数のマイクロホンユニット２２が、筐体２１Ｄの外周に沿って均等な間隔で配置されている。図２（Ｅ）に示す全方位マイクアレイ装置２Ｄでは、筐体２１Ｄが矩形形状であるため、例えばコーナー又は壁面においても全方位マイクアレイ装置２Ｄの設置を簡易化できる。

全方位マイクアレイ装置２の各マイクロホンユニット２２，２３は、無指向性マイクロホンでも良いし、双指向性マイクロホン、単一指向性マイクロホン、鋭指向性マイクロホン、超指向性マイクロホン（例えばガンマイク）又はこれらの組み合わせでも良い。

指向性制御装置３は、例えば監視制御室（不図示）に設置される据置型のＰＣ（Personal Computer）でも良いし、監視者が携帯可能な携帯電話機、ＰＤＡ（Personal Digital Assistant）、タブレット端末、スマートフォン等のデータ通信端末でも良い。

指向性制御装置３は、通信部３１と、操作部３２と、画像処理部３３と、信号処理部３４と、ディスプレイ装置３５と、スピーカ装置３６と、メモリ３７とを少なくとも含む構成である。信号処理部３４は、指向方向算出部３４ａと、出力制御部３４ｂと、ズーム連動制御部３４ｃとを少なくとも含む。

通信部３１は、カメラ装置１から送信された画像データ若しくはズームイン処理又はズームアウト処理の倍率に関する情報、又は全方位マイクアレイ装置２から送信された音声データを受信して信号処理部３４に出力する。

操作部３２は、監視者の入力操作を信号処理部３４に通知するためのユーザインターフェース（ＵＩ：User Interface）であり、例えばマウス、キーボード等のポインティングデバイスである。また、操作部３２は、例えばディスプレイ装置３５の表示画面に対応して配置され、監視者の指９５又はスタイラスペンによる入力操作を検出可能なタッチパネルを用いて構成されても良い。

操作部３２は、ディスプレイ装置３５に表示された画像データ（即ち、カメラ装置１により撮像された画像データ）の中で、監視者の指９５により指定された指定位置の座標データを信号処理部３４に出力する。また、操作部３２は、ディスプレイ装置３５に表示された画像データの中で、指９５による入力操作により、ズームイン処理又はズームアウト処理の実行を指示した場合には、ズームイン処理又はズームアウト処理の指示内容を信号処理部３４に出力する。

画像処理部３３は、信号処理部３４の指示に応じて、ディスプレイ装置３５に表示された画像データに対して所定の画像処理（例えば人物の顔検出、人物の動き検出）を行い、画像処理結果を信号処理部３４に出力する。

画像処理部３３は、ズームイン処理がカメラ装置１により行われた場合には、信号処理部３４の指示に応じて、ズームイン処理後のディスプレイ装置３５の表示領域に表示される監視対象物（例えば人物）の顔の輪郭を検出し、顔にマスキング処理を施す。具体的には、画像処理部３３は、検出された顔の輪郭を包含する矩形領域を算出し、矩形領域内に所定のぼかしを入れる処理を行う。画像処理部３３は、ぼかしを入れる処理により生成された画像データを信号処理部３４に出力する。

信号処理部３４は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）又はＤＳＰ（Digital Signal Processor）を用いて構成され、指向性制御装置３の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算（計算）処理及びデータの記憶処理を行う。

指向方向算出部３４ａは、指向方向座標（θ_ＭＡｈ，θ_ＭＡｖ）の算出時では、監視者の指９５により指定された画像データの指定位置の座標データを操作部３２から取得すると、通信部３１からカメラ装置１に座標データを送信させる。指向方向算出部３４ａは、カメラ装置１の設置位置から、画像データの指定位置に対応する実空間上の音声（音源）位置までの距離、方向のデータを、通信部３１から取得する。

指向方向算出部３４ａは、カメラ装置１の設置位置から、音声位置までの距離、方向のデータを用いて、全方位マイクアレイ装置２の設置位置から音声位置に向かう指向方向座標（θ_ＭＡｈ，θ_ＭＡｖ）を算出する。本実施形態のように、カメラ装置１の筐体を囲むように全方位マイクアレイ装置２の筐体が一体的に取り付けられている場合には、カメラ装置１から音声位置までの方向（水平角，垂直角）を、全方位マイクアレイ装置２から音声位置までの指向方向座標（θ_ＭＡｈ，θ_ＭＡｖ）として用いることができる。なお、カメラ装置１の筐体と全方位マイクアレイ装置２の筐体とが離れて取り付けられている場合には、指向方向算出部３４ａは、事前に算出されたキャリブレーションパラメータのデータと、カメラ装置１から音声位置までの方向（水平角，垂直角）のデータとを用いて、全方位マイクアレイ装置２から音声位置までの指向方向座標（θ_ＭＡｈ，θ_ＭＡｖ）を算出する。なお、キャリブレーションとは、指向性制御装置３の指向方向算出部３４ａが指向方向座標（θ_ＭＡｈ，θ_ＭＡｖ）を算出するために必要となる所定のキャリブレーションパラメータを算出又は取得する動作である。

指向方向座標（θ_ＭＡｈ，θ_ＭＡｖ）のうち、θ_ＭＡｈは全方位マイクアレイ装置２の設置位置から音声位置に向かう指向方向の水平角を示し、θ_ＭＡｖは全方位マイクアレイ装置２の設置位置から音声位置に向かう指向方向の垂直角を示す。以下の説明では、説明を簡単にするために、カメラ装置１及び全方位マイクアレイ装置の各水平角の基準方向（０度方向）が一致するとする。

出力制御部３４ｂ（ビーム形成部）は、ディスプレイ装置３５及びスピーカ装置３６の動作を制御し、カメラ装置１から送信された画像データをディスプレイ装置３５に表示させ、全方位マイクアレイ装置２から送信された音声データをスピーカ装置３６に出力させる。また、出力制御部３４ｂは、全方位マイクアレイ装置２から送信された音声データを用いて、指向方向算出部３４ａにより算出された指向方向座標（θ_ＭＡｈ，θ_ＭＡｖ）が示す指向方向に、全方位マイクアレイ装置２により収音された音声の指向性（ビーム）を形成する。

また、出力制御部３４ｂは、カメラ装置１により画像データのズームイン処理又はズームアウト処理が行われた場合には、ズームイン処理後又はズームアウト処理後の画像データをディスプレイ装置３５に表示させ、更に、後述するズーム連動制御部３４ｃにより調整された指向方向のビーム幅（サイズ）を用いて、音声データの指向性を再形成する。なお、ここでいうサイズとは、指向性を示すビームのビーム幅に限定されず、図４（Ａ），図４（Ｂ），図４（Ｃ）に示す指向性パターンＰＴ１，ＰＴ２，ＰＴ３の縦方向の長さでも良い。以下同様に、ビーム幅をビームサイズと読み替えて良い。

これにより、指向性制御装置３は、指向性が形成された指向方向に存在する監視対象物の発する音声の音量レベルを相対的に増大でき、指向性が形成されない方向の音声を抑圧して音量レベルを相対的に低減できる。

ズーム連動制御部３４ｃ（倍率設定部）は、カメラ装置１により画像データのズームイン処理又はズームアウト処理が行われた場合には、ズームイン処理又はズームアウト処理の倍率に関する情報を用いて、出力制御部３４ｂにより形成された指向性（即ち、指向方向のビーム幅）と、スピーカ装置３６から出力される音声データの音量レベルとのうち少なくとも一方又はその両方を調整する。なお、ビーム幅及び音量レベルの調整量は、それぞれ既定値でも良いし、ズームイン処理又はズームアウト処理の倍率に関する情報に応じた値でも良い。

具体的には、ズーム連動制御部３４ｃは、カメラ装置１により画像データのズームイン処理が行われた場合には、既定値又はズームイン処理の倍率に関する情報を用いて、指向方向のビーム幅を狭く調整し、更に、音声データの音量レベルを上げる（図４（Ｂ）及び（Ｃ）参照）。図４（Ｂ）は、ズームアウト操作前及びズームイン操作前の、指向性パターンＰＴ１、表示画面、音声ズーム範囲ＳＡＲ及び表示画面の表示範囲ＤＡＲを示す図である。図４（Ｃ）は、ズームイン処理時の、指向性パターンＰＴ３、表示画面、音声ズーム範囲ＳＡＲ及び表示画面の表示範囲ＤＡＲを示す図である。

一方、ズーム連動制御部３４ｃは、カメラ装置１により画像データのズームアウト処理が行われた場合には、既定値又はズームアウト処理の倍率に関する情報を用いて、指向方向のビーム幅を広く調整し、更に、音声データの音量レベルを維持する（図４（Ａ）及び（Ｂ）参照）。図４（Ａ）は、ズームアウト処理時の、指向性パターンＰＴ２、表示画面、音声ズーム範囲ＳＡＲ及び表示画面の表示範囲ＤＡＲを示す図である。

なお、ここではカメラ装置１のズームイン処理・ズームアウト処理が行われた場合について説明するが、ズームイン処理・ズームアウト処理に限らず画像の拡大・縮小処理が行われた場合に同様の手順が適用できる。例えば、録画された画像を再生しながら画像の拡大・縮小処理が行われた場合に、音声の指向性を変更してもよい。

図４（Ａ）〜（Ｃ）において、表示画面の表示範囲ＤＡＲは、カメラ装置１の画角（即ち撮像可能なエリアＩＡＲ）内において、ディスプレイ装置３５に表示されている画像データの表示範囲を示す。図４（Ｂ）では、音声ズーム範囲ＳＡＲは、音声データの指向性が形成される範囲を示す。

図４（Ｂ）に示す指向性パターンＰＴ１は、カメラ装置１がズームイン処理又はズームアウト処理を行う前に、出力制御部３４ｂが形成した指向性（指向方向のビーム幅）のデフォルト状態を示す。

図４（Ｃ）に示す指向性パターンＰＴ３は、カメラ装置１がズームイン処理した後に、出力制御部３４ｂが形成した指向性（指向方向のビーム幅）を示す。図４（Ａ）に示す指向性パターンＰＴ２は、カメラ装置１がズームアウト処理した後に、出力制御部３４ｂが形成した指向性（指向方向のビーム幅）を示す。

図４（Ｂ）に示すディスプレイ装置３５の画像データに対してズームイン処理が行われると、指向方向のビーム幅が狭く調整されるので、指向性が形成される音声ズーム範囲ＳＡＲが狭くなり、指向性の強度が上がる。この場合には、ディスプレイ装置３５には、ズームイン処理後の画像データ、即ち、音声ズーム範囲ＳＡＲに対応した表示範囲ＤＡＲに映る１人の人物が拡大して表示され、この人物の発する音声の音量レベルも増大して出力される。

一方、図４（Ｂ）に示すディスプレイ装置３５の画像データに対してズームアウト処理が行われると、指向方向のビーム幅が広く調整されるので、指向性が形成される音声ズーム範囲ＳＡＲが広くなり、指向性の強度が下がる。この場合には、ディスプレイ装置３５には、ズームアウト処理後の画像データ、即ち、音声ズーム範囲ＳＡＲに対応した表示範囲ＤＡＲに映る３人の人物が縮小して表示され、これら３人の人物の発する音声の音量レベルは維持された状態で出力される。

また、ズーム連動制御部３４ｃは、ズームイン処理がカメラ装置１により行われた場合には、全方位マイクアレイ装置２により収音された音声データにボイスチェンジ処理を施して出力制御部３４ｂに出力する。

表示部の一例としてのディスプレイ装置３５は、例えばＬＣＤ（Liquid Crystal Display）又は有機ＥＬ（Electroluminescence）を用いて構成され、出力制御部３４ｂの制御の下で、カメラ装置１により撮像された画像データを表示する。

音声出力部の一例としてのスピーカ装置３６は、全方位マイクアレイ装置２により収音された音声の音声データ、又は、指向方向座標（θ_ＭＡｈ，θ_ＭＡｖ）が示す指向方向に指向性が形成された音声データを出力する。なお、ディスプレイ装置３５及びスピーカ装置３６は、指向性制御装置３とは別の構成としても良い。

記憶部の一例としてのメモリ３８は、例えばＲＡＭ（Random Access Memory）を用いて構成され、指向性制御装置３の各部の動作時のワークメモリとして機能する。なお、メモリ３８は、ハードディスク又はフラッシュメモリを用いて構成されても良く、この場合には、レコーダ装置４において記憶されている画像データ及び音声データを記憶している。

レコーダ装置４は、カメラ装置１により撮像された画像データと、全方位マイクアレイ装置２により収音された音声の音声データとを対応付けて記憶している。

図３は、全方位マイクアレイ装置２が方向θに音声データの指向性を形成する遅延和方式の簡単な説明図である。説明を分かり易くするため、マイク素子２２１〜２２ｎは直線上に配列しているとする。この場合、指向性は面内の二次元領域となるが、三次元空間において指向性を形成するためには、マイクロホンを二次元配列にして、同じ処理方法を行えば良い。

音源８０から発した音波は、全方位マイクアレイ装置２のマイクロホンユニット２２，２３に内蔵される各マイク素子２２１，２２２，２２３，…，２２（ｎ−１），２２ｎに対し、ある一定の角度（入射角＝（９０−θ）［度］）で入射する。

音源８０は、例えば全方位マイクアレイ装置２の指向方向に存在する監視対象物（例えば図５（Ａ）に示す２人の人物９１，９２）であり、全方位マイクアレイ装置２の筐体２１の面上に対し、所定角度θの方向に存在する。また、各マイク素子２２１，２２２，２２３，…，２２（ｎ−１），２２ｎ間の間隔ｄは一定とする。

音源８０から発した音波は、最初にマイク素子２２１に到達して収音され、次にマイク素子２２２に到達して収音され、同様に次々に収音され、最後にマイク素子２２ｎに到達して収音される。

なお、全方位マイクアレイ装置２の各マイク素子２２１，２２２，２２３，…，２２（ｎ−１），２２ｎの位置から音源８０に向かう方向は、例えば音源８０が監視対象物（例えば２人の人物９１，９２）の会話時の音声である場合に、全方位マイクアレイ装置２の各マイクロホン（マイク素子）から、監視者がディスプレイ装置３５上において指定した指定位置に対応する音声位置に向かう方向と同じである。

ここで、音波がマイク素子２２１，２２２，２２３，…，２２（ｎ−１）の順に到達した時刻から最後のマイク素子２２ｎに到達した時刻までには、到達時間差τ１，τ２，τ３，…，τ（ｎ−１）が生じる。このため、各々のマイク素子２２１，２２２，２２３，…，２２（ｎ−１），２２ｎが収音した音声の音声データがそのまま加算された場合には、位相がずれた状態で加算されるため、音波の音量レベルが全体的に弱め合う。

なお、τ１は音波がマイク素子２２１に到達した時刻と音波がマイク素子２２ｎに到達した時刻との差分の時間であり、τ２は音波がマイク素子２２２に到達した時刻と音波がマイク素子２２ｎに到達した時刻との差分の時間であり、同様に、τ（ｎ−１）は音波がマイク素子２２（ｎ−１）に到達した時刻と音波がマイク素子２２ｎに到達した時刻との差分の時間である。

本実施形態では、全方位マイクアレイ装置２は、マイク素子２２１，２２２，２２３，…，２２（ｎ−１），２２ｎ毎に対応して設けられたＡ／Ｄ変換器２４１，２４２，２４３，…，２４（ｎ−１），２４ｎと、遅延器２５１，２５２，２５３，…，２５（ｎ−１），２５ｎと、加算器２６と、を有する構成である（図３参照）。

即ち、全方位マイクアレイ装置２は、各マイク素子２２１，２２２，２２３，…，２２（ｎ−１），２２ｎが収音したアナログの音声データを、Ａ／Ｄ変換器２４１，２４２，２４３，…，２４（ｎ−１），２４ｎにおいてデジタルの音声データにＡＤ変換する。

更に、全方位マイクアレイ装置２は、遅延器２５１，２５２，２５３，…，２５（ｎ−１），２５ｎにおいて、各々のマイク素子２２１，２２２，２２３，…，２２（ｎ−１），２２ｎにおける到達時間差に対応する遅延時間を与えて全ての音波の位相を揃えた後、加算器２６において遅延処理後の音声データを加算する。これにより、全方位マイクアレイ装置２は、各マイク素子２２１，２２２，２２３,…，２２（ｎ−１）,２２ｎに、所定角度θの方向に音声データの指向性を形成できる。

例えば図３では、遅延器２５１，２５２，２５３，…，２５（ｎ−１），２５ｎに設定された各遅延時間Ｄ１，Ｄ２，Ｄ３，…，Ｄ（ｎ−１），Ｄｎは、それぞれ到達時間差τ１，τ２，τ３，…，τ（ｎ−１）に相当し、数式（１）により示される。

Ｌ１は、マイク素子２２１とマイク素子２２ｎとにおける音波到達距離の差である。Ｌ２は、マイク素子２２２とマイク素子２２ｎとにおける音波到達距離の差である。Ｌ３は、マイク素子２２３とマイク素子２２ｎとにおける音波到達距離の差であり、同様に、Ｌ（ｎ−１）は、マイク素子２２（ｎ−１）とマイク素子２２ｎとにおける音波到達距離の差である。Ｖｓは音波の速度（音速）である。Ｌ１,Ｌ２，Ｌ３，…，Ｌ（ｎ−１），Ｖｓは既知の値である。図３では、遅延器２５ｎに設定される遅延時間Ｄｎは０（ゼロ）である。

このように、全方位マイクアレイ装置２は、遅延器２５１，２５２，２５３，…，２５（ｎ−１），２５ｎに設定される遅延時間Ｄ１，Ｄ２，Ｄ３，…，Ｄｎ−１，Ｄｎを変更することで、マイクロホンユニット２２，２３に内蔵された各々のマイク素子２２１，２２２，２２３，…，２２（ｎ−１），２２ｎが収音した音声の音声データの指向性を簡易に形成できる。

なお、図３に示す指向性の形成処理の説明は、説明を簡単にするために全方位マイクアレイ装置２が行うことを前提として記載した。但し、指向性制御装置３の信号処理部３４の出力制御部３４ｂが全方位マイクアレイ装置２のマイクロホンの数と同数のＡＤ変換器２４１〜２４ｎ及び遅延器２５１〜２５ｎと１つの加算器２６とを有する構成である場合には、指向性制御装置３の信号処理部３４の出力制御部３４ｂが、全方位マイクアレイ装置２の各マイク素子により収音された音声の音声データを用いて、図３に示す指向性の形成処理を行っても良い。

図５（Ａ）は、屋内のホールの天井面８に、一体的に組み込まれた全方位マイクアレイ装置２及びカメラ装置１が取り付けられた監視範囲を示す図である。図５（Ｂ）は、全方位画像データにおいて２人の人物９１，９２を含む範囲ｇの選択操作を示す図である。図５（Ｃ）は、歪み補正処理後の２人の人物９１，９２の画像データがディスプレイ装置３５に表示され、人物９１，９２の会話の音声データがスピーカ装置３６において出力されている様子を示す図である。図５（Ｄ）は、全方位画像データにおいて２人の人物９３，９４を含む範囲ｈの選択操作を示す図である。図５（Ｅ）は、歪み補正処理後の２人の人物９３，９４の画像データがディスプレイ装置３５に表示され、人物９３，９４の会話の音声データがスピーカ装置３６において出力されている様子を示す図である。

図５（Ａ）では、イベント会場の天井面８に、ドーナツ型形状の全方位マイクアレイ装置２と、全方位マイクアレイ装置２と一体として形成されたカメラ装置１と、スピーカ装置８３とが設置された様子が示されている。また、図５（Ａ）では、２人の人物９１，９２が会話しており、２人の人物９３，９４が会話しており、スピーカ装置８２は所定の音楽（例えばＢＧＭ）の音声データを出力している。

図５（Ｂ）では、ディスプレイ装置３５の表示画面には、カメラ装置１により撮像された収音領域の全方位に関する画像データ（全方位画像データ）が表示されている。監視者は、例えばディスプレイ装置３５の表示画面に表示された４人の人物９１，９２，９３，９４の画像データのうち、左上付近（具体的には符号ｇの範囲）を指９５でタッチ＆ドラッグしたとする。カメラ装置１は、指９５がタッチ＆ドラッグによって指定された範囲を示す座標データを指向性制御装置３から取得し、符号ｇの範囲が中心となるように全方位画像データを歪み補正処理及びパノラマ変換することにより、平面画像データを生成して指向性制御装置３に送信する。なお、範囲ｇは、指９５のタッチ点から自動的に生成されるとする。

図５（Ｃ）では、カメラ装置１により生成された平面画像データがディスプレイ装置３５において表示されている。また、出力制御部３４ｂは、指９５のタッチ＆ドラッグにより符号ｇの範囲が指定された場合に、全方位マイクアレイ装置２から、符号ｇの範囲の中心位置に対応する音声位置に向かう方向に音声データの指向性を形成するので、２人の人物９１，９２の会話音声（Ｈｅｌｌｏ）の音量レベルを周囲の音声の音量レベルに比べて増大して出力する（図５（Ｂ）及び（Ｃ）参照）。一方、２人の人物９１，９２に比べ、全方位マイクアレイ装置２により近い距離に設置されているが監視者によって指定された符号ｇの範囲に含まれないスピーカ装置８２が出力している音楽（図５（Ａ）に示す「♪〜」（音符）参照）は、スピーカ装置３６から強調して出力されず、２人の人物９１，９２の会話音声の音量レベルに比べて、小さな音量レベルで出力される。

図５（Ｄ）では、図５（Ｂ）と同様に、ディスプレイ装置３５の表示画面には、カメラ装置１により撮像された収音領域の全方位に関する画像データ（全方位画像データ）が表示されている。監視者は、例えばディスプレイ装置３５の表示画面に表示された４人の人物９１，９２，９３，９４の画像データのうち、右下付近（具体的には符号ｈの範囲）を指９５でタッチ＆ドラッグしたとする。カメラ装置１は、指９５がタッチ＆ドラッグによって指定された範囲を示す座標データを指向性制御装置３から取得し、符号ｈの範囲が中心となるように全方位画像データを歪み補正処理及びパノラマ変換することにより、平面画像データを生成して指向性制御装置３に送信する。

図５（Ｅ）では、カメラ装置１により生成された平面画像データがディスプレイ装置３５において表示されている。また、出力制御部３４ｂは、指９５のタッチ＆ドラッグにより符号ｈの範囲が指定された場合に、全方位マイクアレイ装置２から、符号ｈの範囲の中心位置に対応する音声位置に向かう方向に音声データの指向性を形成するので、２人の人物９３，９４の会話音声（Ｈｉ！！）の音量レベルを周囲の音声の音量レベルに比べて増大して出力する（図５（Ｄ）及び（Ｅ）参照）。一方、２人の人物９３，９４に比べ、全方位マイクアレイ装置２により近い距離に設置されているが監視者によって指定された符号ｈの範囲に含まれないスピーカ装置８２が出力している音楽（図５（Ａ）に示す「♪〜」（音符）参照）は、スピーカ装置３６から強調して出力されず、２人の人物９３，９４の会話音声の音量レベルに比べて、小さな音量レベルで出力される。なお、範囲ｈは、指９５のタッチ点から自動的に生成されるとする。

次に、本実施形態の指向性制御システム１０の詳細な動作手順について、図６を参照して説明する。図６は、第１の実施形態の指向性制御装置３の動作手順を詳細に説明するフローチャートである。図６の説明の前提として、指向性制御装置３は、監視者の指９５により、ディスプレイ装置３５に表示された画像データ中の任意の位置が指定され、全方位マイクアレイ装置２から、指９５の指定位置に対応する実空間上の音声位置に向かう指向方向を算出しているとする。

図６において、ズーム連動制御部３４ｃは、カメラ装置１のズームイン処理又はズームアウト処理に連動して音声データの指向性（指向方向のビーム幅）及び音量レベルを調整するか否かを示すズーム連動フラグがオンであるか否かを判定する（Ｓ１）。ズーム連動制御部３４ｃは、ズーム連動フラグの内容をズーム連動制御部３４ｃ自身又はメモリ３７において記憶することで、ズーム連動フラグがオンであるかオフであるかを判定する。ズーム連動フラグがオフであると判定された場合には（Ｓ１、ＮＯ）、図６に示す指向性制御装置３の動作は終了する。

一方、ズーム連動フラグがオンであると判定された場合には（Ｓ１、ＹＥＳ）、出力制御部３４ｂは、全方位マイクアレイ装置２から、ディスプレイ装置３５に表示されている画像データ中の指定位置に対応する実空間上の音声位置に向かう指向方向に音声データの指向性を形成する（Ｓ２）。

ステップＳ２の後、カメラ装置１の定期的なタイミング又は監視者の入力操作により、ディスプレイ装置３５に表示された画像データのズームイン処理又はズームアウト処理の実行が指示されたとする。カメラ装置１は、ズームイン処理又はズームアウト処理の実行の指示に応じて、ディスプレイ装置３５に表示された画像データのズームイン処理又はズームアウト処理を行う。カメラ装置１は、ズームイン処理又はズームアウト処理の後、ズームイン処理又はズームアウト処理の倍率に関する情報とズームイン処理又はズームアウト処理後の画像データとを、ネットワークＮＷを介して指向性制御装置３に送信する。ズーム連動制御部３４ｃは、ズームイン処理又はズームアウト処理の倍率に関する情報（ズーム情報）とズームイン処理又はズームアウト処理後の画像データとを通信部３１から取得する（Ｓ３）。

ズーム連動制御部３４ｃは、ズームイン処理又はズームアウト処理後の画像データを用いて、画像処理部３３に所定の画像処理を実行させる。画像処理部３３は、ズーム連動制御部３４ｃからの指示に応じて、ディスプレイ装置３５に表示されたズームイン処理又はズームアウト処理後の画像データに対して所定の画像処理（例えば人物の顔検出、人物の動き検出）を行い、画像処理結果をズーム連動制御部３４ｃに出力する（Ｓ４）。

ステップＳ４における画像処理結果により、ディスプレイ装置３５に表示されたズームイン処理又はズームアウト処理後の画像データに人物が検出されない場合には（Ｓ５、ＮＯ）、ズーム連動制御部３４ｃは、ズームイン処理又はズームアウト処理に拘わらず、音声データの指向性を調整せずに維持し、更に、音声データの音量レベルも調整せずに維持すると判定する。出力制御部３４ｂは、ズームイン処理又はズームアウト処理の前における音声データの指向性を維持した状態で、全方位マイクアレイ装置２により収音された音声データを出力する（Ｓ６）。ステップＳ６の後、図６に示す指向性制御装置３の動作は終了する。

一方、ステップＳ４における画像処理結果により、ディスプレイ装置３５に表示されたズームイン処理又はズームアウト処理後の画像データに人物が検出された場合には（Ｓ５、ＹＥＳ）、ズーム連動制御部３４ｃは、ステップＳ３において取得されたズームイン処理又はズームアウト処理の倍率に関する情報を基に、カメラ装置１によりズームイン処理が行われたか否かを判定する（Ｓ７）。

ズーム連動制御部３４ｃは、カメラ装置１によりズームイン処理が行われたと判定した場合には（Ｓ７、ＹＥＳ）、画像及び音声に関する所定のプライバシー保護処理を行う（Ｓ８）。ここで、所定のプライバシー保護処理の動作について、図７（Ａ）、図７（Ｂ）、図８（Ａ）〜（Ｃ）を参照して説明する。

図７（Ａ）は、図６に示すプライバシー保護処理の第１例としての音声プライバシー保護処理の動作手順を説明するフローチャートである。図７（Ｂ）は、図６に示すプライバシー保護処理の第２例としての画像プライバシー保護処理の動作手順を説明するフローチャートである。図８（Ａ）は、ボイスチェンジ処理前のピッチに対応する音声信号の波形の一例を示す図である。図８（Ｂ）は、ボイスチェンジ処理後のピッチに対応する音声信号の波形の一例を示す図である。図８（Ｃ）は、検出された人物の顔の輪郭内にぼかしを入れる処理の説明図である。なお、画像及び音声に関する所定のプライバシー保護処理の説明では、説明を分かり易くするために、図７（Ａ）に示す画像プライバシー保護処理と、図７（Ｂ）に示す音声プライバシー保護処理とに、図面を分けて説明しているが、指向性制御装置３は、図７（Ａ）に示す動作と図７（Ｂ）に示す動作とを続けて行っても良い。

図７（Ａ）において、ズーム連動制御部３４ｃは、音声プライバシー保護設定がオンであるか否かを判定する（Ｓ８−１）。ズーム連動制御部３４ｃは、音声プライバシー保護設定の内容をズーム連動制御部３４ｃ自身又はメモリ３７に記憶することで、音声プライバシー保護設定がオンであるかオフであるかを判定する。音声プライバシー保護設定がオフであると判定された場合には（Ｓ８−１、ＮＯ）、図７（Ａ）に示す音声プライバシー保護処理は終了する。

一方、音声プライバシー保護設定がオンであると判定された場合には（Ｓ８−１、ＹＥＳ）、ズーム連動制御部３４ｃは、ディスプレイ装置３５に表示された画像データがズームイン処理されて以降、スピーカ装置３６において出力される音声データに対してボイスチェンジ処理を施す（Ｓ８−２）。ステップＳ８−２の後、図７（Ａ）に示す音声プライバシー保護処理は終了する。

ボイスチェンジ処理の一例として、ズーム連動制御部３４ｃは、例えば全方位マイクアレイ装置２により収音された音声の音声データ若しくは出力制御部３４ｂにより指向性が形成された音声データの波形のピッチを増大又は減少する（例えば図８（Ａ）及び図８（Ｂ）参照）。これにより、ズーム連動制御部３４ｃは、全方位マイクアレイ装置２により収音された音声若しくは指向性が形成された音声データが誰の発した声であるかの特定を困難化でき、ズームイン処理によって切り替わった監視対象物（例えば人物）のプライバシーを効果的に保護できる。

また、図７（Ｂ）において、ズーム連動制御部３４ｃは、画像プライバシー保護設定がオンであるか否かを判定する（Ｓ８−３）。ズーム連動制御部３４ｃは、画像プライバシー保護設定の内容をズーム連動制御部３４ｃ自身又はメモリ３７に記憶することで、画像プライバシー保護設定がオンであるかオフであるかを判定する。画像プライバシー保護設定がオフであると判定された場合には（Ｓ８−３、ＮＯ）、出力制御部３４ｂは、ズームイン処理後の画像データを、そのままディスプレイ装置３５に表示させる（Ｓ８−６）。

一方、画像プライバシー保護設定がオンであると判定された場合には（Ｓ８−３、ＹＥＳ）、画像処理部３３は、ズーム連動制御部３４ｃの指示に応じて、ズームイン処理後のディスプレイ装置３５の表示領域に表示される監視対象物（例えば人物ＴＲＧ）の顔の輪郭ＤＴＬを検出（抽出）し（Ｓ８−４）、顔の輪郭ＤＴＬにマスキング処理を施す（Ｓ８−５）。具体的には、画像処理部３３は、検出された顔の輪郭ＤＴＬを包含する矩形領域を算出し、矩形領域内に所定のぼかしを入れる処理を行う（図８（Ｃ）参照）。画像処理部３３は、ぼかしを入れる処理により生成された画像データを出力制御部３４ｂに出力する。

これにより、画像処理部３３は、ズームイン処理後の監視対象の被写体（例えば特定の人物）が誰であるかを分かり難くすることで、被写体の画像上のプライバシーを効果的に保護できる。出力制御部３４ｂは、ズームイン処理後の画像データをディスプレイ装置３５に表示させる（Ｓ８−６）。ステップＳ８−６の後、図７（Ｂ）に示す画像プライバシー保護処理は終了する。

図６において、ズーム連動制御部３４ｃは、ステップＳ８のプライバシー保護処理を行った後、既定値又はズームイン処理の倍率に関する情報を用いて、指向方向のビーム幅を狭く調整し、更に、音声データの音量レベルを上げる（Ｓ９）。更に、出力制御部３４ｂは、ズーム連動制御部３４ｃによる調整後の指向方向のビーム幅に応じて、音声データの指向性を再形成する（Ｓ９）。ステップＳ９の後、指向性制御装置３の動作はステップＳ６に進む。

一方、ズーム連動制御部３４ｃは、カメラ装置１によりズームアウト処理が行われたと判定した場合には（Ｓ１０、ＹＥＳ）、既定値又はズームアウト処理の倍率に関する情報を用いて、指向方向のビーム幅を広く調整し、更に、音声データの音量レベルを維持する、あるいは現在の音量レベルが十分に大きい場合には音量レベルを下げる（Ｓ１１）。更に、出力制御部３４ｂは、ズーム連動制御部３４ｃによる調整後の指向方向のビーム幅に応じて、音声データの指向性を再形成する（Ｓ１１）。ステップＳ１１の後、指向性制御装置３の動作はステップＳ６に進む。

以上により、本実施形態の指向性制御システム１０では、指向性制御装置３は、ディスプレイ装置３５に表示された監視対象（例えば人物）に対するカメラ装置１のズーム処理により、監視対象の被写体が切り替わった場合には、音声データの指向性の強度（即ち、指向方向のビーム幅）をズーム処理に応じて調整し、更に、調整後のビーム幅に合わせて指向性を再形成するので、切り替わった監視対象の被写体に対する音声データの指向性を適正に形成でき、監視者の監視業務の効率劣化を抑制できる。

例えば、指向性制御装置３は、画像データのズーム処理がズームイン処理である場合に、指向方向のビーム幅を狭く調整でき、切り替わった監視対象の被写体（例えば特定の人物）の発する音声を被写体の周囲の音声に比べて目立つように出力できるので、監視者の監視業務効率を向上できる。

また例えば、指向性制御装置３は、画像データのズーム処理がズームアウト処理である場合に、指向方向のビーム幅を広く調整でき、切り替わった監視対象の被写体（例えば複数の人物）の発する音声を網羅的に出力できるので、監視者の監視業務効率を向上できる。

また、指向性制御装置３は、監視対象に対するズーム処理により、監視対象の被写体が切り替わった場合には、音声データの音量レベルの調整要否を判定するので、ズーム処理の内容に応じて、切り替わった監視対象の表示部の表示領域に対する大きさに合わせて音声を違和感なく出力できる。

例えば、指向性制御装置３は、画像データのズーム処理がズームイン処理である場合に、音声データの音量レベルを上げることができ、切り替わった監視対象の被写体（例えば特定の人物）の発する音声を被写体の周囲の音声に比べて大きな音量で出力できるので、監視者の監視業務効率を向上できる。

また例えば、指向性制御装置３は、画像データのズーム処理がズームアウト処理でも、音声データの音量レベルを維持できるので、切り替わった監視対象の被写体（例えば複数の人物）の発する音声を被写体の周囲の音声と同等に出力でき、ズームアウト処理によっても監視業務を監視者に違和感なく実行させることができる。

また、指向性制御装置３は、画像データに人物が検出されないと画像処理部により判断された場合には、指向方向のビーム幅を維持するので、画像データに人物が検出されていない場合には、音声データの指向性の強弱を調整せず、人物が映り込まない状況において収音領域の周囲の環境音が変動するという違和感を解消できる。

（第２の実施形態）
第１の実施形態の指向性制御システム１０では、指向性制御装置３は、カメラ装置１のズームイン処理又はズームアウト処理に応じて、指向方向のビーム幅を狭く又は広く調整し、更に、ズームイン処理である場合には音声データの音量レベルを上げた。

ところが、第１の実施形態の指向性制御システム１０では、全方位マイクアレイ装置２内に内蔵されるマイクロホンの配置数が既定であるために、ズームイン処理又はズームアウト処理に応じて、指向方向のビーム幅又は音量レベルが調整された場合でも、例えば収音領域の環境によっては、指向方向の音声データの強調が十分ではない場合が考えられる。

そこで、第２の実施形態では、ズームイン処理又はズームアウト処理に応じて、指向方向のビーム幅又は音量レベルが調整された場合でも、指向方向の音声データの強調が十分ではない場合に、全方位マイクアレイ装置２の周囲に増設マイク部を結合した指向性制御システムについて説明する。第２の実施形態の指向性制御システムのシステム構成のうち、後述する増設マイク部以外の構成は、第１の実施形態の指向性制御システム１０と同一であるため、同一の内容に関する説明は簡略化又は省略し、異なる内容について説明する。

次に、本実施形態の指向性制御装置３の動作手順について、図９を参照して説明する。図９は、第２の実施形態の指向性制御装置３の動作手順のうち、第１の実施形態の指向性制御装置３の動作手順と異なる動作手順を説明するフローチャートである。本実施形態の指向性制御装置３の動作手順の説明では、第１の実施形態の指向性制御装置３の動作手順と異なる動作手順について説明する。図９の説明の前提として、増設マイク部が全方位マイクアレイ装置２の周囲に結合される前の状態として説明する。

図９において、ズーム連動制御部３４ｃは、ステップＳ８のプライバシー保護処理を行った後、既定値又はズームイン処理の倍率に関する情報を用いて、指向方向のビーム幅を狭く調整し、更に、音声データの音量レベルを上げる（Ｓ９）。更に、出力制御部３４ｂは、ズーム連動制御部３４ｃによる調整後の指向方向のビーム幅に応じて、音声データの指向性を再形成する（Ｓ９）。

ステップＳ９の後、ズーム連動制御部３４ｃは、ステップＳ９における指向性の再形成及び調整後の音声データの音量レベルによって出力された音声データの音声強調が十分であるか否かを監視者に問い合わせる（Ｓ２１）。例えば、ズーム連動制御部３４ｃは、音声強調が十分であるか否かを問い合わせるためのポップアップ画面をディスプレイ装置３５に表示させ、監視者の問い合わせに関する回答の入力操作を受け付ける。音声強調が十分であるとの回答が入力された場合には（Ｓ２１、ＹＥＳ）、指向性制御装置３の動作はステップＳ６に進む。

一方、音声強調が十分ではないとの回答が入力された場合には（Ｓ２１、ＮＯ）、現在の全方位マイクアレイ装置２が設けられた指向性制御システム１０の構成では、指向方向の音声強調が十分ではないため、全方位マイクアレイ装置２、又は全方位マイクアレイ装置２及び増設マイク部の電源がオフされた後（Ｓ２２）、後述する取付方法に従って、全方位マイクアレイ装置２の周囲に増設マイク部が新規に結合される（Ｓ２３）。全方位マイクアレイ装置２の周囲に対する増設マイク部の結合が終了した場合に（Ｓ２４、ＹＥＳ）、全方位マイクアレイ装置２、又は全方位マイクアレイ装置２及び増設マイク部の電源がオンされる（Ｓ２５）。この後、ズーム連動制御部３４ｃは、再びステップＳ９における指向性の再形成及び調整後の音声データの音量レベルによって出力された音声データの音声強調が十分であるか否かを監視者に問い合わせる（Ｓ２１）。

次に、本実施形態において第１収音部としての全方位マイクアレイ装置２の周囲に結合される各種の増設マイク部について、図面を参照して説明する。

図１０（Ａ）は、全方位マイクアレイ装置２の周囲に増設マイク部２ｚ１ａを結合する第１例（ドーナツ型結合）を示す正面図である。図１０（Ｂ）は、全方位マイクアレイ装置２の周囲に増設マイク部２ｚ１ａを結合する第１例を示す側面図である。

図１０（Ａ）では、第２収音部の一例としての増設マイク部の第１例として、全方位マイクアレイ装置２の周囲を囲める程の開口部を有し、全方位マイクアレイ装置２と同心円状の筐体（ドーナツ状筐体）を有する増設マイク部２ｚ１ａが示されている。具体的には、増設マイク部２ｚ１ａと全方位マイクアレイ装置２とは、同一平面上に結合されず、図１０（Ｂ）に示すように、高さ方向（鉛直方向）に離れて設置される。

結合方法としては、先ず天井面８から全方位マイクアレイ装置２及びカメラ装置１が取り外され、増設マイク部２ｚ１ａが天井面８に取り付けられてビス孔７ｅｂ１，７ｅｂ２を介してビス４１によって固定され、その後、全方位マイクアレイ装置２が増設マイク部２ｚ１ａと高さ方向に離れるように取り付けられ、全方位マイクアレイ装置２と増設マイク部２ｚ１ａとがビス孔７ｅａ１，７ｅａ２を介してビス４１によって固定される。なお、全方位マイクアレイ装置２及びカメラ装置１と増設マイク部２ｚ１ａとがそれぞれ天井面８に固定されるように取り付けられ、それぞれビス孔７ｅａ１，７ｅａ２を介してビス４１によって固定されても良い。また、増設マイク部２ｚ１ａは、増設マイク部２ｚ１ａの筐体が天井取付金具７ｒによって、天井面８に固定されることが好ましい。また、全方位マイクアレイ装置２の筐体に設けられるビス孔７ｅｂ１，７ｅｂ２は、補強強度の観点から、図１０（Ａ）に示すマージン線ＳＰＬより外側の位置に設けられることが好ましい。また、ここでは結合方法としてビス４１を用いたビス留めにより固定する例を説明しているが、公知の係止構造を用いて固定しても良く、以下同様である。

従って、図１０（Ａ）に示す増設マイク部２ｚ１ａの結合により、本実施形態の指向性制御システム１０は、増設マイク部２ｚ１ａの円周上に複数のマイク素子を均等に配置させることにより、全方位マイクアレイ装置２を単独で用いる場合の音声の収音特性に比べて、全方位に対する音声の収音特性を均等に一層向上できる。また、指向性制御システム１０は、全方位マイクアレイ装置２と増設マイク部２ｚ１ａとが高さ方向に離れて設置されるので、垂直方向（鉛直方向）の収音性能を向上できる。

図１１は、全方位マイクアレイ装置２の周囲に増設マイク部２ｚ２を結合する第２例（ドーナツ楕円型結合）を示す正面図である。

図１１では、増設マイク部の第２例として、全方位マイクアレイ装置２の周囲を囲める程の開口部を有し、楕円形状の筐体を有する増設マイク部２ｚ２が示されている。増設マイク部２ｚ２の取り付け方法は、図１０（Ｂ）に示す増設マイク部２ｚ１ａの取り付け方法と同様に、ビス孔７ｅｃ１，７ｅｃ２を介してビス４１によって固定され、その他の説明（例えば全方位マイクアレイ装置２及びカメラ装置１の固定方法、マージン線ＳＰＬより外側に設けられるビス孔７ｅａ１，７ｅａ２。以下同様。）は同一であるため、説明を割愛する。

従って、図１１に示す増設マイク部２ｚ２の結合により、本実施形態の指向性制御システム１０は、例えば増設マイク部２ｚ２の楕円形状の長手方向には楕円形状の長手方向以外の方向に比べてより多くのマイク素子を配置させることができ、全方位マイクアレイ装置２を単独で用いる場合の音声の収音特性に比べて、音声の収音特性を均一に向上でき、更に、楕円形状の長手方向に対する音声の収音特性をより一層向上できる。また、指向性制御システム１０は、全方位マイクアレイ装置２と増設マイク部２ｚ２とが高さ方向に離れて設置されるので、垂直方向（鉛直方向）の収音性能を向上できる。

図１２（Ａ）は、全方位マイクアレイ装置２の周囲に増設マイク部２ｚ３を結合する第３例（正方形型結合又は長方形型結合）を示す正面図である。図１２（Ｂ）は、全方位マイクアレイ装置２の周囲に増設マイク部２ｚ３を結合する第３例（正方形型結合又は長方形型結合）を示す側面図である。

図１２（Ａ）では、増設マイク部の第３例として、全方位マイクアレイ装置２の周囲を囲める程の開口部を有し、矩形形状の筐体（例えば正方形状又は長方形状の筐体）を有する増設マイク部２ｚ３が示されている。具体的には、増設マイク部２ｚ３と全方位マイクアレイ装置２とは、同一平面上に結合されず、図１２（Ｂ）に示すように、高さ方向（鉛直方向）に離れて設置される。

結合方法としては、先ず天井面８から全方位マイクアレイ装置２及びカメラ装置１が取り外され、増設マイク部２ｚ３が天井面８に取り付けられてビス孔７ｅｄ１，７ｅｄ２を介してビス４１によって固定され、その後、全方位マイクアレイ装置２が増設マイク部２ｚ３と高さ方向に離れるように取り付けられ、全方位マイクアレイ装置２と増設マイク部２ｚ３とがビス孔７ｅａ１，７ｅａ２を介してビス４１によって固定される。なお、全方位マイクアレイ装置２と増設マイク部２ｚ３とがそれぞれ天井面８に固定されるように取り付けられ、それぞれビス孔７ｅａ１，７ｅａ２を介してビス４１によって固定されても良い。

従って、図１２（Ａ）に示す増設マイク部２ｚ３の結合により、本実施形態の指向性制御システム１０は、増設マイク部２ｚ３の開口部の周囲に複数のマイク素子を均等に配置させることにより、全方位マイクアレイ装置２を単独で用いる場合の音声の収音特性に比べて、全方位に対する音声の収音特性を均等に一層向上でき、更に、増設マイク部２ｚ３を柔軟に設置できる。また、指向性制御システム１０は、全方位マイクアレイ装置２と増設マイク部２ｚ３とが高さ方向に離れて設置されるので、垂直方向（鉛直方向）の収音性能を向上できる。

図１３（Ａ）は、全方位マイクアレイ装置２の周囲に増設マイク部２ｚ４を結合する第４例（ハニカム型結合）を示す正面図である。図１３（Ｂ）は、全方位マイクアレイ装置２ｓの周囲に増設マイク部２ｚ４を結合する第５例（ハニカム型結合）を示す正面図である。

図１３（Ａ）では、増設マイク部の第４例として、全方位マイクアレイ装置２の周囲を囲める程の開口部を有し、ハニカム形状の筐体を有する増設マイク部２ｚ４が示されている。増設マイク部２ｚ４の取り付け方法は、図１０（Ｂ）に示す増設マイク部２ｚ１ａの取り付け方法と同様に、ビス孔７ｅｅ１，７ｅｅ２を介してビス４１によって固定され、その他の説明は同一であるため、説明を割愛する。なお、ハニカム形状の増設マイク部２ｚ４の取り付け数は、１つに限らず、必要応じて２つ以上でも良い。

また、図１３（Ｂ）では、増設マイク部の第５例として、図１３（Ａ）に示すハニカム形状と同一のハニカム形状の筐体を有する増設マイク部２ｚ４ａが示され、全方位マイクアレイ装置２ｓの筐体の形状も全方位マイクアレイ装置２の筐体の形状と異なっており、矩形形状である。増設マイク部２ｚ４ａは図１３（Ａ）に示す増設マイク部２ｚ４の開口部が形成されていない。また、全方位マイクアレイ装置２ｓの中心に、魚眼レンズを用いた魚眼カメラ（カメラ装置）１ｓが取り付けられている。増設マイク部２ｚ４ａの取り付け方法は、図１０（Ｂ）に示す増設マイク部２ｚ１ａの取り付け方法と同様に、ビス孔７ｅｆ１，７ｅｆ２を介してビス４１によって固定され、また、全方位マイクアレイ装置２ｓも同様に、ビス孔７ｅａ３，７ｅａ４を介してビス４１によって固定され、その他の説明は同一であるため、説明を割愛する。

従って、図１３（Ａ）又は図１３（Ｂ）に示す増設マイク部２ｚ４，２ｚ４ａの結合により、本実施形態の指向性制御システム１０は、増設マイク部２ｚ４の開口部又は増設マイク部２ｚ４ａの外郭に沿って複数のマイク素子を均等に配置させることにより、全方位マイクアレイ装置２を単独で用いる場合の音声の収音特性に比べて、全方位に対する音声の収音特性を均等に一層向上でき、更に、増設マイク部２ｚ４，２ｚ４ａを柔軟に設置でき、増設マイク部２ｚ４，２ｚ４ａの増設方向に応じて、収音性能に差をつけることができる。また、指向性制御システム１０は、全方位マイクアレイ装置２と増設マイク部２ｚ４，２ｚ４ａとが高さ方向に離れて設置されるので、垂直方向（鉛直方向）の収音性能を向上できる。

図１４（Ａ）は、全方位マイクアレイ装置２の周囲に増設マイク部２ｚ５ａ，２ｚ５ｂ，２ｚ５ｃ，２ｚ５ｄを結合する第６例（バー型結合）を示す正面図である。図１４（Ｂ）は、全方位マイクアレイ装置２の周囲に増設マイク部２ｚ５ａ，２ｚ５ｂ，２ｚ５ｃ，２ｚ５ｄを結合する第６例（バー型結合）を示す側面図である。

図１４（Ａ）では、増設マイク部の第６例として、全方位マイクアレイ装置２の周囲に、一方向に長い棒形状の筐体を有する増設マイク部２ｚ５ａ，２ｚ５ｂ，２ｚ５ｃ，２ｚ５ｄが示されている。具体的には、増設マイク部２ｚ５ａ，２ｚ５ｂ，２ｚ５ｃ，２ｚ５ｄと全方位マイクアレイ装置２とは、同一平面上に結合されても良いし、高さ方向（鉛直方向）に離れて設置されても良い。

結合方法としては、先ず天井面８から全方位マイクアレイ装置２が取り外され、既設の天井取付板金７ｚの端部と、増設マイク部（例えば増設マイク部２ｚ５ａ，２ｚ５ｃ）を取り付けるための増設用取付板金７ｚ１，７ｚ２の端部とがそれぞれ嵌め込んで係止され、ビス４１によって固定される。更に、全方位マイクアレイ装置２及びカメラ装置１が天井取付板金７ｚに取り付けられてビス４１によって固定され、その後、増設マイク部（例えば増設マイク部２ｚ５ａ，２ｚ５ｃ）が増設用取付板金７ｚ１，７ｚ２に取り付けられてビス４１によって固定される。

従って、図１４（Ａ）に示す増設マイク部２ｚ５ａ，２ｚ５ｂ，２ｚ５ｃ，２ｚ５ｄの結合により、本実施形態の指向性制御システム１０は、増設マイク部２ｚ５ａ，２ｚ５ｂ，２ｚ５ｃ，２ｚ５ｄの長手方向に沿って複数のマイク素子を均等に配置させることにより、全方位マイクアレイ装置２を単独で用いる場合の音声の収音特性に比べて、棒形状の長手方向に対する音声の収音特性を一層向上できる。

ここで、図１４（Ｂ）に示す天井取付板金７ｚに対する全方位マイクアレイ装置２及びカメラ装置１の取付構造と、増設用取付板金７ｚ１，７ｚ２に対する増設マイク部２ｚ５ａ，２ｚ５ｃの取付構造と、天井取付板金７ｚと増設用取付板金７ｚ１，７ｚ２との係止構造について、図１５（Ａ）及び図１５（Ｂ）を参照して説明する。図１５（Ａ）は、図１４（Ｂ）に示す全方位マイクアレイ装置２と天井取付板金７ｚとが取り付けられた状態を示す平面図である。図１５（Ｂ）は、図１５（Ａ）のＥ−Ｅ断面を示し、図１４（Ｂ）に示す全方位マイクアレイ装置２の周囲に増設マイク部２ｚ５ａ，２ｚ５ｃが取り付けられた状態を示す側面図である。

図１５（Ａ）には、天井取付板金７ｚの表面から見た場合、即ち、天井面８から図１５（Ｂ）に示す下方向を見た場合の全方位マイクアレイ装置２及びカメラ装置１の取付構造が示されている。天井取付板金７ｚは、表面に凹凸を有する略円盤状に形成された金属製の部材であるが、セラミックス製又は合成樹脂（例えばプラスチック又はエラストマ）製の部材が代用されても良い。

天井面８に対向する天井取付板金７ｚの表面には、同軸ｉ方向に突出し、カメラ装置１を取り付けて固定するための係止片７ａが同心円上の３箇所に形成されている。更に、天井取付板金７ｚの表面には、同軸ｉ方向に突出し、全方位マイクアレイ装置２を取り付けて固定するための係止片７ｂが、係止片７ａが形成された同心円よりも大きな直径の同心円上の３箇所に形成されている。

係止片７ａには、カメラ装置１の底面に設けられた固定ピン４３と係合する係合孔７１が、一端部の径が他端部の径に比べて大きい略ひょうたん状に形成されている。同様に、係止片７ｂには、全方位マイクアレイ装置２の底面に設けられた固定ピン４５と係合する係合孔７３が、一端部の径が他端部の径に比べて大きい略ひょうたん状に形成されている。

固定ピン４３，４５は、それぞれ係合孔７１，７３の一端部と他端部との間の太さ（直径）を有する頭部と頭部より細い胴部とからなる。

天井取付板金７ｚの表面には、係止片７ａ及び係止片７ｂの外側に広がるように、扇形の孔部７ｃ，７ｄがそれぞれ３箇所に形成されている。これらの扇形の孔部７ｃ，７ｄの形状及び位置は、天井取付板金７ｚに全方位マイクアレイ装置２及びカメラ装置１が取り付けられた場合に、全方位マイクアレイ装置２及びカメラ装置１の各水平角の基準方向が一致するように設計されている。

天井取付板金７ｚの表面の中央部には、ビス４１が挿通されるビス孔７ｅが３箇所に形成されている。天井取付板金７ｚは、ビス孔７ｅを介して、天井面８にビス４１を螺合させることで、天井面８に固定される。

全方位マイクアレイ装置２及びカメラ装置１が天井取付板金７ｚに取り付けられる場合、先ず、カメラ装置１が天井取付板金７ｚに取り付けられる。この場合、固定ピン４３を係止片７ａに形成された係合孔７１に係合させる。

即ち、カメラ装置１の底面に突出する固定ピン４３を、係合孔７１の径の大きい一端部側に挿し込む。そして、固定ピン４３の頭部が係合孔７１から突出した状態で、カメラ装置１を右方向又は左方向に回転させることで固定ピン４３を係合孔７１において移動させる（回転ロック方式）。そして、固定ピン４３の頭部が係合孔７１の他端部側に移動した状態で、固定ピン４３と係合孔７１とは係合したことになり、カメラ装置１は同軸ｉ方向に固定される。

カメラ装置１を天井取付板金７ｚに取り付けた後、全方位マイクアレイ装置２を、全方位マイクアレイ装置２の開口部２１ａの内側からカメラ装置１が露出するように、天井取付板金７ｚに取り付ける。この場合、固定ピン４５を係止片７ｂに形成された係合孔７３に係合させる。なお、固定ピン４５を係合孔７３に固定する手順は、固定ピン４３を係合孔７１に固定する手順と同様である。

図１６（Ａ）は、全方位マイクアレイ装置２の周囲に増設マイク部２ｚ５ａ，２ｚ５ｂ，２ｚ５ｃ，２ｚ５ｄ，２ｚ５ｅ，２ｚ５ｆ，２ｚ５ｇ，２ｚ５ｈを結合する第７例（バー型結合）を示す正面図である。図１６（Ｂ）は、全方位マイクアレイ装置２の周囲に増設マイク部２ｚ５ｃ，２ｚ５ｆ，２ｚ５ｈを結合する第８例（バー型結合）を示す正面図である。図１６（Ｃ）は、全方位マイクアレイ装置２の周囲に増設マイク部２ｚ５ａ、２ｚ５ｅを結合する第９例（バー型結合）を示す正面図である。

図１６（Ａ）〜図１６（Ｃ）においても、各々の増設マイク部の取り付け方及び増設マイク部を取り付けたことによる効果は、増設マイク部の個数を除けば、図１４（Ａ）に示す増設マイク部２ｚ５ａ，２ｚ５ｂ，２ｚ５ｃ，２ｚ５ｄの取り付け方及び増設マイク部を取り付けたことによる効果と同様であるため、説明を割愛する。

図１７（Ａ）は、全方位マイクアレイ装置２の周囲に増設マイク部ｍ１，ｍ２，ｍ３，ｍ４を結合する第１０例（スケルトン型結合）を示す正面図である。図１７（Ｂ）は、全方位マイクアレイ装置２の周囲に増設マイク部ｍ１，ｍ２，ｍ３，ｍ４を結合する第１０例（スケルトン型結合）を示す側面図である。図１７（Ｃ）は、全方位マイクアレイ装置２の周囲に増設マイク部ｍ１，ｍ２，ｍ３，ｍ４，ｍ５，ｍ６，ｍ７，ｍ８を結合する第１１例（スケルトン型結合）を示す正面図である。図１７（Ｄ）は、全方位マイクアレイ装置２の周囲に増設マイク部ｍ１，ｍ２，ｍ３，ｍ４，ｍ５，ｍ６，ｍ７，ｍ８を結合する第１１例（スケルトン型結合）を示す側面図である。

図１７（Ａ）では、増設マイク部の第１０例として、全方位マイクアレイ装置２の筐体の対向する４箇所に設けられたコネクタ部ｃ１，ｃ２，ｃ３，ｃ４に、マイク線収容管ｎ１，ｎ２，ｎ３，ｎ４を介して、増設マイク部ｍ１，ｍ２，ｍ３，ｍ４が結合されている。

結合方法としては、先ず、全方位マイクアレイ装置２の筐体の対向する４箇所に設けられたコネクタ部ｃ１，ｃ２，ｃ３，ｃ４にマイク線収容管ｎ１，ｎ２，ｎ３，ｎ４を接続する。マイク線収容管ｎ１，ｎ２，ｎ３，ｎ４は、例えば樹脂成型により製造されたものであり、増設マイク部ｍ１，ｍ２，ｍ３，ｍ４により収音された音声の音声データを伝送するための信号線が内部に収容されている。マイク線収容管ｎ１，ｎ２，ｎ３，ｎ４が接続された後、増設マイク部ｍ１，ｍ２，ｍ３，ｍ４がマイク線収容管ｎ１，ｎ２，ｎ３，ｎ４に接続され、増設マイク部ｍ１，ｍ２，ｍ３，ｍ４の結合が終了する。

従って、図１７（Ａ）に示す増設マイク部ｍ１，ｍ２，ｍ３，ｍ４の結合により、本実施形態の指向性制御システム１０は、上述した増設マイク部内のマイク素子を収容するための筐体を不要とし、筐体による音声（音波）の回り込みを排除して音声を収音できるので、全方位マイクアレイ装置２と増設マイク部ｍ１，ｍ２，ｍ３，ｍ４とを高さ方向に離れて設置する必要が無い。また、指向性制御システム１０は、マイク線収容管ｎ１，ｎ２，ｎ３，ｎ４を介して、全方位マイクアレイ装置２の周囲に設けられたコネクタ部ｃ１，ｃ２，ｃ３，ｃ４と増設マイク部ｍ１，ｍ２，ｍ３，ｍ４とを簡易に接続でき、更に、全方位マイクアレイ装置２に所定形状の筐体を有する増設マイク部を増設する場合に比べて、増設マイク部を軽量化できるので、増設マイク部内のマイク素子における収音特性を一層向上できる。

また、図１７（Ｃ）においても、各々の増設マイク部の取り付け方は、増設マイク部の個数を除けば、図１７（Ａ）に示す増設マイク部ｍ１，ｍ２，ｍ３，ｍ４の取り付け方と同様であるため、説明を割愛する。効果については、増設マイク部ｍ１，ｍ２，ｍ３，ｍ４と高さが違う増設マイク部ｍ５，ｍ６，ｍ７，ｍ８が追加されることで、増設マイク部ｍ１，ｍ２，ｍ３，ｍ４のみを結合する第１０例に比べて、垂直方向（鉛直方向）の収音性能を向上できる。

図１８（Ａ）は、全方位マイクアレイ装置２の周囲を囲める開口部を有し、全方位マイクアレイ装置２と同心円状の筐体（ドーナツ筐体）を有する増設マイク部２ｚ１の結合方法の第１例を示す正面図である。図１８（Ｂ）は、全方位マイクアレイ装置２の周囲への増設マイク部２ｚ１の結合方法の第２例を示す正面図である。

図１８（Ａ）に示す結合方法では、全方位マイクアレイ装置２及びカメラ装置１が拡大天井取付板金７ｙに予め接続されており、増設マイク部２ｚ１が結合される場合には、全方位マイクアレイ装置２の周囲を囲むように、拡大天井取付板金７ｙに接続される。

図１８（Ｂ）に示す結合方法では、既設の天井取付板金７ｚから全方位マイクアレイ装置２及びカメラ装置１が取り外され、天井取付板金７ｚに、例えば４つの固定部ｆ１，ｆ２，ｆ３，ｆ４を固定し、更に、増設マイク部２ｚ１を天井取付板金７ｚに取り付ける場合には、４つの固定部ｆ１，ｆ２，ｆ３，ｆ４にそれぞれビス４１を留めて固定する。その後、増設マイク部２ｚ１の開口部に収まるように、全方位マイクアレイ装置２及びカメラ装置１が取り付けられる。

図１９（Ａ）は、全方位マイクアレイ装置２ｆの周囲への増設マイク部２ｚ１の結合方法の第３例を示す正面図である。図１９（Ｂ）は、図１９（Ａ）のＥ−Ｅ断面を示し、全方位マイクアレイ装置２ｆの周囲への増設マイク部２ｚ１の結合方法の第３例を示す側面図である。図１９（Ｃ）は、全方位マイクアレイ装置２の周囲への増設マイク部２ｚ１の結合方法の第４例を示す補足説明図である。図１９（Ａ）及び図１９（Ｂ）に示す例では、全方位マイクアレイ装置２ｆの筐体の円周に、例えば２つのフック部ｆ５，ｆ７が係止可能な凹部ｕ１，ｕ２が設けられている。

図１９（Ａ）及び図１９（Ｂ）に示す結合方法では、既設の天井取付板金７ｚから全方位マイクアレイ装置２ｆ及びカメラ装置１が取り外され、天井取付板金７ｚに、増設マイク部２ｚ１の開口部の対向する４箇所に設けられたフック部ｆ５，ｆ６，ｆ７，ｆ８を凹部ｕ１，ｕ２に係止させて固定し、更に、全方位マイクアレイ装置２ｆ及びカメラ装置１が取り付けられる。

図１９（Ｃ）に示す結合方法では、既設の天井取付板金７ｚは、例えば３つのフック部ｆ９，ｆ１０，ｆ１１が設けられた拡大天井取付板金７ｙに交換される。拡大天井取付板金７ｙに、順次、増設マイク部２ｚ１、全方位マイクアレイ装置２及びカメラ装置１が回転ロック方式（図１５（Ａ）参照）によって接続されることで、増設マイク部２ｚ１が全方位マイクアレイ装置２に対して結合される。

図２０は、全方位マイクアレイ装置２ｓ１の周囲に増設マイク部２ｚｓ１を結合する第１２例（ピース型結合）を示す斜視図である。全方位マイクアレイ装置２ｓ１の筐体は、矩形形状であり、魚眼レンズを含む魚眼カメラ１ｓ又は魚眼カメラ１ｓと同じ大きさの蓋が収容可能な円状連結部ｊｇ３が中央に設けられ、半円状の凹面が形成された中間辺連結部ｊｇ２が中間辺部に設けられ、更に、１／４円状の凹面が形成された両端連結部ｊｇ１が両端部に設けられた構成である。

図２０に示す結合方法では、増設マイク部２ｚｓ１は、全方位マイクアレイ装置２ｓ１の筐体の周囲に隣接し、更に同一平面上となるように接着等により結合されて固定される。なお、図２０に示す結合方法では、１つ又は複数の増設マイク部２ｚｓ１が全方位マイクアレイ装置２ｓ１に結合可能であり、魚眼カメラ１ｓは、全方位マイクアレイ装置２ｓ１及び増設マイク部の結合後の筐体の中央に移設される。

従って、図２０に示す増設マイク部２ｚｓ１の結合により、本実施形態の指向性制御システム１０は、全方位マイクアレイ装置２ｓ１の周囲に増設マイク部２ｚｓ１を容易に連結でき、増設マイク部２ｚｓ１の連結数に応じて、全方位マイクアレイ装置２ｓ１の筐体の中心に設置された魚眼カメラ１ｓを、連結後（結合後）の全方位マイクアレイ装置２ｓ１及び増設マイク部２ｚｓ１の筐体形状に合わせて、連結後（結合後）の全方位マイクアレイ装置２ｓ１及び増設マイク部２ｚｓ１の筐体形状の中心位置に簡易に移設できる。

最後に、上述した本実施形態の増設マイク部が全方位マイクアレイ装置２に対して結合された場合の全方位マイクアレイ装置２及び増設マイク部のハードウェア構成について、図２１を参照して簡単に説明する。図２１は、増設マイク部２ｚ１が結合した全方位マイクアレイ装置２のハードウェア構成の一例を示すブロック図である。なお、図２１では、図１に示すネットワークＮＷへの接続線の図示を省略している。

増設マイク部２ｚ１は、少なくとも複数（例えばｍ個）のマイク素子２２（ｎ＋１）〜２２（ｎ＋ｍ）と、マイク素子と同数のＡＤＣ２４（ｎ＋１）〜２４（ｎ＋ｍ）とを含む構成である。増設マイク部２ｚ１は、結合部ＣＮ２を介して、全方位マイクアレイ装置２と結合可能である。増設マイク部２ｚ１のマイク素子２２（ｎ＋１）〜２２（ｎ＋ｍ）により収音されたアナログの音声信号は、ＡＤＣ２４（ｎ＋１）〜２４（ｎ＋ｍ）においてデジタルの音声信号に変換されて、全方位マイクアレイ装置２のＩ／Ｆ部２ｉｆに入力される。ＣＰＵ２ｐは、全方位マイクアレイ装置２内のマイク素子２２１〜２２ｎと、増設マイク部２２（ｎ＋１）〜２２（ｎ＋ｍ）とにより収音された音声信号を、不図示の通信Ｉ／Ｆ部から指向性制御装置３に送信する。

以下、上述した本発明に係る指向性制御装置、指向性制御方法及び指向性制御システムの構成、作用及び効果を説明する。

本発明の一実施形態は、複数のマイクを含む収音部で収音された音声の指向性を制御する指向性制御装置であって、前記収音部から、表示部の画像上で指定された位置に対応する音源への方向に、ビームを形成するビーム形成部と、入力に応じて、前記表示部の画像を拡大または縮小するための倍率を設定する倍率設定部と、を備え、前記ビーム形成部は、前記倍率設定部により設定された倍率に応じて、前記形成されたビームのサイズを変更する、指向性制御装置である。

この構成では、指向性制御装置は、複数のマイクを含む収音部で収音された音声の指向性を制御し、収音部から、表示部の画像上で指定された位置に対応する音源への方向にビームを形成し、入力に応じて、表示部の画像を拡大又は縮小するための倍率を設定し、更に、設定された倍率に応じて、ビームのサイズを変更する。

これにより、指向性制御装置は、監視対象に対して表示部の画像上に対する入力操作（例えばズーム処理）により、監視対象の被写体が切り替わった場合には、音声データの指向性の強度（即ち、指向方向のサイズ（例えばビーム幅））をズーム処理に応じて調整し、更に、調整後のビーム幅に合わせて指向性を形成する。従って、指向性制御装置は、切り替わった監視対象の被写体に対する音声データの指向性を適正に形成でき、監視者の監視業務の効率劣化を抑制できる。

また、本発明の一実施形態は、前記ビーム形成部は、前記倍率設定部によって前記画像を拡大するように倍率が設定された場合に、前記ビームのサイズを小さくする、指向性制御装置である。

この構成によれば、指向性制御装置は、画像データのズーム処理がズームイン処理である場合に、表示部の画像を拡大するように倍率（例えばズーム倍率）が設定されるので、設定された倍率に合わせて指向方向のビーム幅を狭く調整でき、切り替わった監視対象の被写体（例えば特定の人物）の発する音声を被写体の周囲の音声に比べて目立つように出力できるので、監視者の監視業務効率を向上できる。

また、本発明の一実施形態は、前記ビーム形成部は、前記倍率設定部によって前記画像を縮小するように倍率が設定された場合に、前記ビームのサイズを大きくする、指向性制御装置である。

この構成によれば、指向性制御装置は、画像データのズーム処理がズームアウト処理である場合に、表示部の画像を縮小するように倍率（例えばズーム倍率）が設定されるので、設定された倍率に合わせて指向方向のビーム幅を広く調整でき、切り替わった監視対象の被写体（例えば複数の人物）の発する音声を網羅的に出力できるので、監視者の監視業務効率を向上できる。

また、本発明の一実施形態は、前記ビーム形成部は、前記倍率設定部によって設定された倍率に応じて、前記音声の音量レベルの調整要否を判定する、指向性制御装置である。

この構成では、指向性制御装置は、設定された倍率に応じて、収音部により収音された音声の音量レベルの調整要否を判定する。

これにより、指向性制御装置は、監視対象に対するズーム処理によって設定された倍率に応じて、監視対象の被写体が切り替わった場合には、音声データの音量レベルの調整要否を判定するので、ズーム処理の内容に応じて、切り替わった監視対象の表示部の表示領域に対する大きさに合わせて音声を違和感なく出力できる。

また、本発明の一実施形態は、前記ビーム形成部は、前記倍率設定部によって前記画像を拡大するように倍率が設定された場合に、前記音声の音量レベルを上げる、指向性制御装置である。

この構成によれば、指向性制御装置は、画像データのズーム処理がズームイン処理である場合に、表示部の画像を拡大するように倍率が設定されるので、設定された倍率に合わせて音声データの音量レベルを上げることができ、切り替わった監視対象の被写体（例えば特定の人物）の発する音声を被写体の周囲の音声に比べて大きな音量で出力できるので、監視者の監視業務効率を向上できる。

また、本発明の一実施形態は、前記ビーム形成部は、前記倍率設定部によって前記画像を縮小するように倍率が設定された場合に、前記音声の音量レベルを維持する、あるいは下げる、指向性制御装置である。

この構成によれば、指向性制御装置は、画像データのズーム処理がズームアウト処理でも、音声データの音量レベルを維持できるので、切り替わった監視対象の被写体（例えば複数の人物）の発する音声を被写体の周囲の音声と同等に出力でき、又は十分に音量レベルが大きい場合には音量レベルを下げるので、ズームアウト処理によっても監視業務を監視者に違和感なく実行させることができる。

また、本発明の一実施形態は、前記表示部に表示された前記画像を処理する画像処理部、を更に備え、前記ビーム形成部は、前記画像処理部により前記画像に人物が検出されない場合に、前記ビームのサイズを維持する、指向性制御装置である。

この構成では、ビーム形成部は、画像データに人物が検出されないと画像処理部により判断された場合には、指向方向のビームのサイズ（例えばビーム幅）を維持する。

これにより、指向性制御装置は、画像データに人物が検出されていない場合には、音声データの指向性の強弱を調整しないので、人物が映り込まない状況において収音領域の周囲の環境音が変動するという違和感を解消できる。

また、本発明の一実施形態は、前記ビーム形成部は、前記倍率設定部によって前記画像を拡大するように倍率が設定された場合に、前記音声をボイスチェンジ処理する、指向性制御装置である。

この構成によれば、指向性制御装置は、画像を拡大するように倍率が設定された場合に、収音部により収音された音声データをボイスチェンジ処理するので、切り替わった監視対象の被写体（例えば特定の人物）の発する音声を誰の音声か分かり難くすることで、被写体の音声上のプライバシーを効果的に保護できる。

また、本発明の一実施形態は、前記画像処理部は、前記倍率設定部によって前記画像を拡大するように倍率が設定された場合に、前記画像における人物の一部をマスキング処理する、指向性制御装置である。

この構成によれば、指向性制御装置は、画像を拡大するように倍率が設定された場合に、ズームイン処理後の画像データにおける人物の一部（例えば顔）をマスキング処理するので、切り替わった監視対象の被写体（例えば特定の人物）が誰であるかを分かり難くすることで、被写体の画像上のプライバシーを効果的に保護できる。

また、本発明の一実施形態は、複数のマイクを含む収音部で収音された音声の指向性を制御する指向性制御装置における指向性制御方法であって、複数のマイクを含む収音部で収音された音声の指向性を制御するステップと、入力に応じて、前記表示部の画像を拡大または縮小するための倍率を設定するステップと、前記設定された倍率に応じて、前記形成されたビームのサイズを変更するステップと、を有する、指向性制御方法である。

この方法では、指向性制御装置は、複数のマイクを含む収音部で収音された音声の指向性を制御し、収音部から、表示部の画像上で指定された位置に対応する音源への方向にビームを形成し、入力に応じて、表示部の画像を拡大又は縮小するための倍率を設定し、更に、設定された倍率に応じて、ビームのサイズを変更する。

また、本発明の一実施形態は、複数のマイクを含む収音部で収音された音声の指向性を制御する指向性制御装置における処理を実行するプログラムが格納された記憶媒体であって、複数のマイクを含む収音部で収音された音声の指向性を制御するステップと、入力に応じて、前記表示部の画像を拡大または縮小するための倍率を設定するステップと、前記設定された倍率に応じて、前記形成されたビームのサイズを変更するステップと、を実行するプログラムが格納された、記憶媒体である。

この構成では、記録媒体には、複数のマイクを含む収音部で収音された音声の指向性を制御するステップと、収音部から、表示部の画像上で指定された位置に対応する音源への方向にビームを形成するステップと、入力に応じて、表示部の画像を拡大又は縮小するための倍率を設定するステップと、設定された倍率に応じて、ビームのサイズを変更するステップとをコンピュータ（例えば指向性制御装置）に実行させるプログラムが格納されている。

これにより、記録媒体からプログラムが実行可能にインストールされたコンピュータ（例えば指向性制御装置）は、監視対象に対して表示部の画像上に対する入力操作（例えばズーム処理）により、監視対象の被写体が切り替わった場合には、音声データの指向性の強度（即ち、指向方向のサイズ（例えばビーム幅））をズーム処理に応じて調整し、更に、調整後のビーム幅に合わせて指向性を形成する。従って、指向性制御装置は、切り替わった監視対象の被写体に対する音声データの指向性を適正に形成でき、監視者の監視業務の効率劣化を抑制できる。

また、本発明の一実施形態は、収音領域を撮像する撮像部と、複数のマイクを含み前記収音領域の音声を収音する第１収音部と、前記第１収音部で収音された音声の指向性を制御する指向性制御装置と、を備え、前記指向性制御装置は、前記撮像部により撮像された前記収音領域の画像を表示する表示部と、前記表示部に表示された前記画像に対する位置の指定に応じて、前記第１収音部から、前記指定された位置に対応する音源への方向に、ビームを形成するビーム形成部と、入力に応じて、前記表示部の画像を拡大または縮小するための倍率を設定する倍率設定部と、を備え、前記ビーム形成部は、前記倍率設定部により設定された倍率に応じて、前記形成されたビームのサイズを変更する、指向性制御システムである。

この構成では、指向性制御装置は、複数のマイクを含む第１収音部で収音された音声の指向性を制御し、第１収音部から、撮像部により撮像された画像が表示部に表示されている場合に、画像上で指定された位置に対応する音源への方向にビームを形成し、入力に応じて、表示部の画像を拡大又は縮小するための倍率を設定し、更に、設定された倍率に応じて、ビームのサイズを変更する。

これにより、指向性制御システムでは、指向性制御装置は、監視対象に対して表示部の画像上に対する入力操作（例えばズーム処理）により、監視対象の被写体が切り替わった場合には、音声データの指向性の強度（即ち、指向方向のサイズ（例えばビーム幅））をズーム処理に応じて調整し、更に、調整後のビーム幅に合わせて指向性を形成する。従って、指向性制御システムでは、指向性制御装置は、切り替わった監視対象の被写体に対する音声データの指向性を適正に形成でき、監視者の監視業務の効率劣化を抑制できる。

また、本発明の一実施形態は、前記第１収音部の周囲を囲む開口部を有し、前記第１収音部と同心円状の筐体を有する第２収音部、が更に設けられた、指向性制御システムである。

この構成によれば、指向性制御システムは、第１収音部と同心円状の筐体を有する第２収音部が更に設けられるので、第２収音部の円周上に複数の収音素子（マイク素子）を均等に配置させることにより、第１収音部を単独で用いる場合の音声の収音特性に比べて、全方位に対する音声の収音特性を均等に一層向上できる。

また、本発明の一実施形態は、前記第１収音部の周囲を囲む開口部を有し、楕円形状の筐体を有する第２収音部、が更に設けられた、指向性制御システムである。

この構成によれば、指向性制御システムは、楕円形状の筐体を有する第２収音部が更に設けられるので、例えば第２収音部の楕円形状の長手方向には楕円形状の長手方向以外の方向に比べてより多くの収音素子（マイク素子）を配置させることができ、第１収音部を単独で用いる場合の音声の収音特性に比べて、音声の収音特性を均一に向上でき、更に、楕円形状の長手方向に対する音声の収音特性をより一層向上できる。

また、本発明の一実施形態は、前記第１収音部の周囲を囲む開口部を有し、矩形形状の筐体を有する第２収音部、が更に設けられた、指向性制御システムである。

この構成によれば、指向性制御システムは、矩形形状の筐体を有する第２収音部が更に設けられるので、第２収音部の開口部の周囲に複数の収音素子（マイク素子）を均等に配置させることにより、第１収音部を単独で用いる場合の音声の収音特性に比べて、全方位に対する音声の収音特性を均等に一層向上でき、更に、第２収音部を柔軟に設置できる。

また、本発明の一実施形態は、前記第１収音部の周囲を囲む開口部を有し、ハニカム形状の筐体を有する第２収音部、が更に設けられた、指向性制御システムである。

この構成によれば、指向性制御システムは、ハニカム形状の筐体を有する第２収音部が更に設けられるので、第２収音部の開口部の周囲に複数の収音素子（マイク素子）を均等に配置させることにより、第１収音部を単独で用いる場合の音声の収音特性に比べて、全方位に対する音声の収音特性を均等に一層向上でき、更に、第２収音部を柔軟に設置でき、第２収音部の増設方向に応じて、収音性能に差をつけることができる。

また、本発明の一実施形態は、前記第１収音部と前記第２収音部とは、前記第１収音部及び前記第２収音部の高さ方向に離れて設置される、指向性制御システムである。

この構成によれば、指向性制御システムは、第１収音部と第２収音部とが高さ方向に離れて設置されるので、垂直方向（鉛直方向）の収音性能を向上できる。

また、本発明の一実施形態は、前記第１収音部の周囲に、少なくとも１つの棒形状の筐体を有する第２収音部、が更に設けられる、指向性制御システムである。

この構成によれば、指向性制御システムは、少なくとも１つの棒形状の筐体を有する第２収音部が更に設けられるので、第２収音部の長手方向に沿って複数の収音素子（マイク素子）を均等に配置させることにより、第１収音部を単独で用いる場合の音声の収音特性に比べて、棒形状の長手方向に対する音声の収音特性を一層向上できる。

また、本発明の一実施形態は、前記第１収音部の周囲に、少なくとも１つの第２収音部、が更に設けられ、前記第２収音部は、所定の信号線収容管を介して、前記第１収音部の周囲に設けられたコネクタ部と接続される、指向性制御システムである。

この構成によれば、指向性制御システムは、増設マイク部内の収音素子（マイク素子）を収容するための筐体を不要とし、筐体による音声（音波）の回り込みを排除して音声を収音できるので、第１収音部と第２収音部とを高さ方向に離れて設置する必要が無い。また、指向性制御システムは、信号線収容管を介して、第１収音部の周囲に設けられたコネクタ部と第２収音部とを簡易に接続でき、更に、第１収音部に所定形状の筐体を有する第２収音部を増設する場合に比べて、増設マイク部を軽量化できるので、増設マイク部内の収音素子（マイク素子）における収音特性を一層向上できる。

また、本発明の一実施形態は、前記第１収音部と同一の矩形形状の筐体を有する第２収音部、が更に設けられ、前記第１収音部及び前記第２収音部の筐体は、中間辺部に、半円状の凹面が形成された中間辺連結部が設けられ、両端部に、１／４円状の凹面が形成された両端連結部が設けられる、指向性制御システムである。

この構成によれば、指向性制御システムは、第１収音部の周囲に第２収音部を容易に連結でき、第２収音部の連結数に応じて、第１収音部の筐体の中心に設置された撮像部を、連結後の第１収音部及び第２収音部の筐体形状に合わせて、連結後の第１収音部及び第２収音部の筐体形状の中心位置に簡易に移設できる。

また、本発明の一実施形態は、収音領域を撮像する撮像部と、複数のマイクを含み前記収音領域の音声を収音する第１収音部と、前記第１収音部の周囲に増設される第２収音部と、前記第１収音部と第２収音部で収音された音声の指向性を制御する指向性制御装置と、を備え、前記指向性制御装置は、前記撮像部により撮像された前記収音領域の画像を表示する表示部と、前記表示部に表示された前記画像に対する位置の指定に応じて、前記第１収音部から、前記指定された位置に対応する音源への方向に、ビームを形成するビーム形成部と、を備える、指向性制御システムである。

この構成では、指向性制御装置が、表示部に表示された収音領域の画像に対する位置の指定に応じて、第１収音部から、画像の指定位置に対応する音源に向かう指向方向に、第１収音部により収音された音声データの指向性を形成した音声の強調レベルが不十分だった場合に、前記第１収音部の周囲に第２収音部が増設される。

これにより、指向性制御システムでは、指向性制御装置は、音声データの指向性の強度（即ち、指向方向のビーム幅）が不十分なときでも、増設される第２収音部により、音声データの指向性の強度をより高めることができ、監視者の監視業務の効率劣化を抑制できる。

また、本発明の一実施形態は、前記第２収音部は、前記第１収音部の周囲を囲む開口部を有し、前記第１収音部と同心円状の筐体を有する、指向性制御システムである。

また、本発明の一実施形態は、前記第２収音部は、前記第１収音部の周囲を囲む開口部を有し、楕円形状の筐体を有する、指向性制御システムである。

また、本発明の一実施形態は、前記第２収音部は、前記第１収音部の周囲を囲む開口部を有し、矩形形状の筐体を有する、指向性制御システムである。

また、本発明の一実施形態は、前記第２収音部は、前記第１収音部の周囲を囲む開口部を有し、ハニカム形状の筐体を有する、指向性制御システムである。

また、本発明の一実施形態は、前記第１収音部と前記第２収音部とは、前記収音部及び前記第２収音部の高さ方向に離れて設置される、指向性制御システムである。

また、本発明の一実施形態は、前記第２収音部は、前記第１収音部の周囲に、少なくとも１つの棒形状の筐体を有する、指向性制御システムである。

また、本発明の一実施形態は、少なくとも一つの前記第２収音部が増設され、前記第２収音部は、所定の信号線収容管を介して、前記第１収音部の周囲に設けられたコネクタ部と接続される、指向性制御システムである。

また、本発明の一実施形態は、前記第２収音部は、前記第１収音部と同一の矩形形状の筐体を有し、前記第１収音部及び前記第２収音部の筐体は、中間辺部に、半円状の凹面が形成された中間辺連結部が設けられ、両端部に、１／４円状の凹面が形成された両端連結部が設けられる、指向性制御システムである。

以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

なお、上述した実施形態では、ズームイン処理又はズームアウト処理の倍率に関する情報を用いて、指向方向のビーム幅を調整する例を説明したが、ビーム幅に限定されず、ビームのサイズ（又はビームの大きさ）を調整するものであればどのようなものでもよい。例えば、ビーム幅ではなく、ビームの高さ（指向方向に直交した方向のビーム幅）を調整してもよい。

本発明は、監視対象に対するズーム処理により、監視対象の被写体が切り替わった場合でも、切り替わった監視対象の被写体に対する音声の指向性を適正に形成し、監視者の監視業務の効率劣化を抑制する指向性制御方法、記憶媒体及び指向性制御システムとして有用である。

１、１ｓカメラ装置
２、２Ａ、２Ｂ、２Ｃ、２Ｄ、２ｆ、２ｓ、２ｓ１全方位マイクアレイ装置
２ｚ１、２ｚ１ａ、２ｚ２、２ｚ３、２ｚ４、２ｚ４ａ、２ｚ５ａ、２ｚ５ｂ、２ｚ５ｃ、２ｚ５ｄ、２ｚ５ｅ、２ｚ５ｆ、２ｚ５ｇ、２ｚ５ｈ、２ｚｓ１、ｍ１、ｍ２、ｍ３、ｍ４増設マイク部
３指向性制御装置
４レコーダ装置
７ｚ天井取付板金
７ｙ拡大天井取付板金
７ｚ１、７ｚ２増設用取付板金
８天井面
１０指向性制御システム
３１通信部
３２操作部
３３画像処理部
３４信号処理部
３４ａ指向方向算出部
３４ｂ出力制御部
３４ｃズーム連動制御部
３５ディスプレイ装置
３６スピーカ装置
３７メモリ
ｃ１、ｃ２、ｃ３、ｃ４、ｃ５、ｃ６、ｃ７、ｃ８コネクタ部
ｎ１、ｎ２、ｎ３、ｎ４マイク線収容管

Claims

複数のマイクを含む収音部で収音された音声の指向性を制御する指向性制御装置における指向性制御方法であって、
撮像部により撮像された第１の画像を表示部に表示する第１表示ステップと、
前記表示部に表示された前記第１の画像の指定箇所の指定を受け付ける指定受付ステップと、
前記第１の画像が前記表示部に表示されている間に指定された前記指定箇所に応じて、前記指定箇所を含む範囲の画像の歪み補正によって得た第２の画像を前記表示部に表示する第２表示ステップと、
前記収音部から、前記第２の画像の中心位置に対応する音源への方向に、前記指向性に基づいて前記音源における音声が強調されるためのビームを形成するビーム形成ステップと、
入力に応じて、前記表示部の前記第２の画像を拡大又は縮小する画像処理ステップと、を備え、
前記ビーム形成ステップは、
前記画像処理ステップによる拡大又は縮小に応じて、前記形成されたビームのサイズを変更し、
前記撮像部と前記収音部とは室内の天井に配置される、
指向性制御方法。
請求項１に記載の指向性制御方法であって、
前記ビーム形成ステップは、
前記画像処理ステップによって前記画像を拡大するように倍率が設定された場合に、前記ビームのサイズを小さくする、
指向性制御方法。
請求項１に記載の指向性制御方法であって、
前記ビーム形成ステップは、
前記画像処理ステップによって前記画像を縮小するように倍率が設定された場合に、前記ビームのサイズを大きくする、
指向性制御方法。
請求項１に記載の指向性制御方法であって、
前記ビーム形成ステップは、
前記画像処理ステップによる拡大又は縮小に応じて、前記音声の音量レベルの調整要否を判定する、
指向性制御方法。
請求項４に記載の指向性制御方法であって、
前記ビーム形成ステップは、
前記画像処理ステップによって前記画像を拡大された場合に、前記音声の音量レベルを上げる、
指向性制御方法。
請求項４に記載の指向性制御方法であって、
前記ビーム形成ステップは、
前記画像処理ステップによって前記画像を縮小された場合に、前記音声の音量レベルを維持する、あるいは下げる、
指向性制御方法。
請求項１に記載の指向性制御方法であって、
前記表示部に表示された前記第２の画像中の人物を検出する人物検出ステップ、を更に備え、
前記ビーム形成ステップは、
前記人物検出ステップにより前記第２の画像に人物が検出されない場合に、前記ビームのサイズを維持する、
指向性制御方法。
請求項１に記載の指向性制御方法であって、
前記ビーム形成ステップは、
前記画像処理ステップによって前記画像を拡大された場合に、前記音声をボイスチェンジ処理する、
指向性制御方法。
請求項７に記載の指向性制御方法であって、
前記画像処理ステップによって前記画像を拡大された場合に、前記第２の画像における人物の一部をマスキング処理するマスキング処理ステップ、を更に備える、
指向性制御方法。
複数のマイクを含む収音部で収音された音声の指向性を制御する指向性制御装置における処理を実行するプログラムが格納された記憶媒体であって、
撮像部により撮像された第１の画像を表示部に表示するステップと、
前記表示部に表示された前記第１の画像の指定箇所の指定を受け付けるステップと、
前記第１の画像が前記表示部に表示されている間に指定された前記指定箇所に応じて、前記指定箇所を含む範囲の画像の歪み補正によって得た第２の画像を前記表示部に表示するステップと、
前記収音部から、前記第２の画像の中心位置に対応する音源への方向に、前記指向性に基づいて前記音源における音声が強調されるためのビームを形成するステップと、
入力に応じて、前記表示部の前記第２の画像を拡大又は縮小するステップと、を実行するプログラムが格納され、
前記ビームを形成するステップは、前記拡大又は縮小に応じて、前記形成されたビームのサイズを変更するステップを含む、
記憶媒体。
収音領域を撮像する撮像部と、
複数のマイクを含み前記収音領域の音声を収音する第１収音部と、
前記第１収音部で収音された音声の指向性を制御する指向性制御装置と、を備え、
前記指向性制御装置は、
前記撮像部により撮像された前記収音領域の第１の画像を表示する表示部と、
前記表示部に表示された前記第１の画像の指定箇所の指定を受け付ける操作部と、
前記第１の画像が前記表示部に表示されている間に指定された前記指定箇所に応じて、前記撮像部における前記指定箇所を含む範囲の画像の歪み補正によって得た第２の画像を前記表示部に表示する画像取得部と、
前記第１収音部から、前記第２の画像の中心位置に対応する音源への方向に、前記指向性に基づいて前記音源における音声が強調されるためのビームを形成するビーム形成部と、
入力に応じて、前記表示部の前記第２の画像を拡大又は縮小する画像処理部と、を備え、
前記ビーム形成部は、
前記画像処理部による拡大又は縮小に応じて、前記形成されたビームのサイズを変更し、
前記撮像部と前記第１収音部とは室内の天井に配置される、
指向性制御システム。
請求項１１に記載の指向性制御システムであって、
前記第１収音部の周囲を囲む開口部を有し、前記第１収音部と同心円状の筐体を有する第２収音部、が更に設けられた、
指向性制御システム。
請求項１１に記載の指向性制御システムであって、
前記第１収音部の周囲を囲む開口部を有し、楕円形状の筐体を有する第２収音部、が更に設けられた、
指向性制御システム。
請求項１１に記載の指向性制御システムであって、
前記第１収音部の周囲を囲む開口部を有し、矩形形状の筐体を有する第２収音部、が更に設けられた、
指向性制御システム。
請求項１１に記載の指向性制御システムであって、
前記第１収音部の周囲を囲む開口部を有し、ハニカム形状の筐体を有する第２収音部、が更に設けられた、
指向性制御システム。
請求項１２、１３、１４及び１５のうちいずれか一項に記載の指向性制御システムであって、
前記第１収音部と前記第２収音部とは、
前記第１収音部及び前記第２収音部の高さ方向に離れて設置される、
指向性制御システム。
請求項１１に記載の指向性制御システムであって、
前記第１収音部の周囲に、少なくとも１つの棒形状の筐体を有する第２収音部、が更に設けられる、
指向性制御システム。
請求項１１に記載の指向性制御システムであって、
前記第１収音部の周囲に、少なくとも１つの第２収音部、が更に設けられ、
前記第２収音部は、
所定の信号線収容管を介して、前記第１収音部の周囲に設けられたコネクタ部と接続される、
指向性制御システム。
請求項１１に記載の指向性制御システムであって、
前記第１収音部と同一の矩形形状の筐体を有する第２収音部、が更に設けられ、
前記第１収音部及び前記第２収音部の筐体は、
中間辺部に、半円状の凹面が形成された中間辺連結部が設けられ、
両端部に、１／４円状の凹面が形成された両端連結部が設けられる、
指向性制御システム。
収音領域を撮像する撮像部と、
複数のマイクを含み前記収音領域の音声を収音する第１収音部と、
前記第１収音部の周囲に増設される第２収音部と、
前記第１収音部と第２収音部で収音された音声の指向性を制御する指向性制御装置と、を備え、
前記指向性制御装置は、
前記撮像部により撮像された前記収音領域の第１の画像を表示する表示部と、
前記表示部に表示された前記第１の画像の指定箇所の指定を受け付ける操作部と、
前記第１の画像が前記表示部に表示されている間に指定された前記指定箇所に応じて、前記撮像部における前記指定箇所を含む範囲の画像の歪み補正によって得た第２の画像を前記表示部に表示する画像取得部と、
前記第１収音部から、前記第２の画像の中心位置に対応する音源への方向に、前記指向性に基づいて前記音源における音声が強調されるためのビームを形成するビーム形成部と、
入力に応じて、前記表示部の前記第２の画像を拡大又は縮小する画像処理部と、を備え、
前記ビーム形成部は、
前記画像処理部による拡大又は縮小に応じて、前記形成されたビームのサイズを変更し、
前記撮像部と前記第１収音部とは室内の天井に配置される、
指向性制御システム。
請求項２０に記載の指向性制御システムであって、
前記第２収音部は、
前記第１収音部の周囲を囲む開口部を有し、前記第１収音部と同心円状の筐体を有する、
指向性制御システム。
請求項２０に記載の指向性制御システムであって、
前記第２収音部は、
前記第１収音部の周囲を囲む開口部を有し、楕円形状の筐体を有する、
指向性制御システム。
請求項２０に記載の指向性制御システムであって、
前記第２収音部は、
前記第１収音部の周囲を囲む開口部を有し、矩形形状の筐体を有する、
指向性制御システム。
請求項２０に記載の指向性制御システムであって、
前記第２収音部は、
前記第１収音部の周囲を囲む開口部を有し、ハニカム形状の筐体を有する、
指向性制御システム。
請求項２１、２２、２３及び２４のうちいずれか一項に記載の指向性制御システムであって、
前記第１収音部と前記第２収音部とは、
前記第１収音部及び前記第２収音部の高さ方向に離れて設置される、
指向性制御システム。
請求項２０に記載の指向性制御システムであって、
前記第２収音部は、
前記第１収音部の周囲に、少なくとも１つの棒形状の筐体を有する、
指向性制御システム。
請求項２０に記載の指向性制御システムであって、
少なくとも一つの前記第２収音部が増設され、前記第２収音部は、所定の信号線収容管を介して、
前記第１収音部の周囲に設けられたコネクタ部と接続される、
指向性制御システム。
請求項２０に記載の指向性制御システムであって、
前記第２収音部は、前記第１収音部と同一の矩形形状の筐体を有し、
前記第１収音部及び前記第２収音部の筐体は、
中間辺部に、半円状の凹面が形成された中間辺連結部が設けられ、
両端部に、１／４円状の凹面が形成された両端連結部が設けられる、
指向性制御システム。