WO2008047804A1

WO2008047804A1 - Dispositif de conférence audio et système de conférence audio

Info

Publication number: WO2008047804A1
Application number: PCT/JP2007/070195
Authority: WO
Inventors: Toshiaki Ishibashi; Ryo Tanaka; Satoshi Ukai
Original assignee: Yamaha Corporation
Priority date: 2006-10-17
Filing date: 2007-10-16
Publication date: 2008-04-24
Also published as: JP5028944B2; CN101513056A; JP2008103824A; CN101513056B

Description

明細書

音声会議装置及び音声会議システム

技術分野

[0001] この発明は、複数のマイクから構成されるマイクアレイの収音音声を用いて発言者方向を検出し、発言者方向にカメラの撮影方向を制御する音声会議装置及び音声会議システムに関する。

背景技術

[0002] 従来、遠隔地間で会議を行う方法として、拠点毎に撮影機能を備えた会議システムを配置し、これらをネットワーク等で接続して、映像データや音声データを送受信する方法が多く用いられている。そして、このような会議に利用される音声会議システムが各種考案されている。

特許文献 1の会議用撮像装置では、参加者毎に配置された指向性マイクより収音した音声信号に基づいて、発言者の位置を検出し、当該発言者の位置方向の映像をカメラにて撮影することが開示されて!/、る。

特許文献 1：特開昭 61— 198891号公報

発明の開示

発明が解決しょうとする課題

[0003] しかしながら、特許文献 1の発明は、参加者毎に指向性マイクを配置する必要があり、会議の参加人数に応じて、指向性マイクを準備しなければならない。

また、収音用と発言者の位置検出用のマイクビームを兼用しているため、広い範囲の音を収音しょうとすると、発言者の特定が不能となり、狭い範囲の音を録音しようとすると、発言者は特定できるが、二人以上の発言が同時にあると一人の発言しか収音できないという問題がある。

課題を解決するための手段

[0004] 本発明は、上記の事情に鑑みてなされたものであり、音声会議装置は、

所定パターンで配列された複数のマイクを有するマイクアレイと、

前記マイクアレイの各マイクで収音された複数の収音音声信号に基づ!/、て、自装置周りの第 1収音範囲が設定された第 1収音ビームを形成するエリア収音ビーム形成部と、

前記マイクアレイの各マイクで収音された複数の収音音声信号に基づ!/、て、前記第 1収音範囲より狭い第 2収音範囲が設定された第 2収音ビームを形成するスポット収音ビーム形成部と、

前記スポット収音ビーム形成部で形成された複数の第 2収音ビームから話者方向を検出し、該話者方向を撮影方向として検出する撮影方向検出部と、

を備える。

[0005] この構成では、音声会議装置は、複数のマイクで構成されたマイクアレイを用いて収音を行う。音声会議装置は、収音した音声信号から、広範囲のエリアに対応したェリア収音ビームと狭範囲の複数のスポットに対応したスポット収音ビームとを形成する。そして、音声会議装置は、エリア収音ビームに基づいて音声データを生成し出力する。音声会議装置は、スポット収音ビームに基づいてカメラの撮影方向を制御する。これにより、音声会議装置は、広範囲に収音した音声データを出力することができる。また、音声会議装置は、主な発言者の方向をカメラの撮影方向とすることができる。更に、本発明の音声会議装置は、主な発言者が変わると、カメラの撮影方向を自動で変更することができるので、常に主な発言者を撮影方向に指定することができる。

[0006] また、スポット収音ビーム形成部は、前記収音音声信号の高域成分のみを用いて収音ビームを形成する。

また、音声会議装置はさらに、他の音声会議装置とネットワークを介して接続され、該他の音声会議装置と通信を行う通信部と、前記エリア収音ビーム形成部で形成された第 1収音ビームに基づいて音声データを生成し、前記通信部を介して該音声データを前記他の音声会議装置に送信する制御部と、を備える。

[0007] この構成では、カメラの撮影方向の制御に用いる音声信号は、高域成分のみを用いることで、指向性を強めて収音ビームを形成する。

これにより、音声会議装置は、カメラの撮影方向の制御に用いる収音ビームのみ、指向性を強めることができるので、発言者の位置をより正確に検出することができる。

[0008] また、音声会議システムは、所定パターンで配列された複数のマイクを有するマイクアレイと、

該スポット収音ビーム形成部で形成された複数の第 2収音ビームから話者方向を検出し、該話者方向を撮影方向として検出する撮影方向検出部と、

前記音声会議装置の撮影方向検出部により検出された撮影方向を撮影して映像データを生成する撮影部と、

を備える。

[0009] この構成では、音声会議システムは、音声会議装置とカメラとを有する。音声会議装置は、広範囲に収音した音声データを生成するとともに、主な発言者を撮影方向としてカメラを制御する。カメラは、音声会議装置に指示された撮影方向を撮影して撮影データを生成する。

これにより、音声会議システムは、広範囲に音声を収音しながら、主な発言者をカメラの撮影方向とすることができる。更に、本発明の音声会議システムは、主な発言者が変わると、カメラの撮影方向を自動で変更することができるので、カメラは、常に主な発言者を撮影することができる。

発明の効果

[0010] 以上のように、この発明によれば、会議の参加者の発言を広範囲に収音しながら、主な発言者を撮影することができる。

図面の簡単な説明

[0011] [図 1]遠隔地と音声会議を行う音声会議システムの説明図である。

[図 2]本実施形態に係る音声会議装置 1の三面図である。

[図 3]本実施形態に係る音声会議装置 1を表す三面図である。

[図 4]本実施形態に係る音声会議システムの機能的な構成を示すブロック図である。 [図 5]収音エリアの説明図である。

園 6]本実施形態に係る音声会議装置の他の利用方法についての説明図である。園 7]他の実施形態に係る音声会議システムの機能的な構成を示すブロック図である

[図 8]他の実施形態に係る音声会議システムのブロック図である。

符号の説明

1 - - H尸； z d我

2-筐体

3-脚部

4-操作部

5-発光部

6 -下面グリノレ

7-カメラ

8 - .表不末

9-ビデオ通信装置

10 制御部

11一入出力コネクタパネル

12一入出力インタフェース

13 放音指向性制御部

14 D/Aコンバータ

15 放音用アンプ

16 収音用アンプ

17 A/Dコンバータ

19ー収音ビーム選択部

20 エコーキャンセル部

21 適応型エコーキャンセ

22一力メラ制御部

71 -撮像部 72, 82 接続端子部

81 表示部

91一入出力インタフェース

92 映像コーデック

100—ネットワーク

110—入出力コネクタ

181 , 182 収音ビーム生成部

191 発言者位置検出部

211—適応型フィルタ

212—ポストプロセッサ

MIC皿〜 MIC116, MIC20 〜 MIC216 マイク

SP；!〜 SP16 スピーカ

発明を実施するための最良の形態

[0013] 本発明の実施形態に係る音声会議システムついて、図 1を参照して説明する。図 1 は、遠隔地とテレビ会議を行う音声会議システムの説明図である。

図 1に示すように、本発明の音声会議システムは、音声会議装置 1、カメラ 7、表示端末 8、ビデオ通信装置 9から構成される。音声会議装置 1には、カメラ 7が接続される。カメラ 7には、ビデオ通信装置 9が接続される。ビデオ通信装置 9には、表示端末 8が接続される。また、遠隔地間で音声会議を行う際には、音声会議装置 1とビデオ通信装置 9とは、ネットワーク 100を介して遠隔地にある音声会議システムと接続され

[0014] 次に、音声会議システムを構築するカメラ 7、表示端末 8、ビデオ通信装置 9、音声会議装置 1の構成について説明する。

[0015] カメラ 7は、会議の参加者を撮影するためのもので、撮像部 71と接続端子部 72から構成され、音声会議装置 1から接続端子部 72を介して入力信号 (後述する収音方向 DS)を受け、撮像部 71を上下左右 (例えば、上下に約 120度、左右に約 200度）に回転させることで、音声会議装置 1に指示された方位の撮影を行う。カメラ 7は、撮影データを接続端子部 72を介してビデオ通信装置 9へ出力する。なお、接続端子部 7 2としてビデオ出力端子、マルチコネクタ、電源端子等がある。

[0016] 表示端末 8は、ネットワーク 100を介して遠隔地のテレビ会議システムより受信した映像データを表示するためのもので、表示部 81と接続端子部 82から構成され、ビデォ通信装置 9から接続端子部 82を介して入力信号を受け、表示部 81に表示する。なお、表示端末 8は、プロジェクタや液晶ディスプレイ等である。

[0017] ビデオ通信装置 9は、映像データの圧縮'伸張及びプロトコル制御を行う装置で、ネットワーク 100を介して映像データの送受信を行う。具体的には、ビデオ通信装置 9は、カメラ 7から入力された撮影データを、圧縮した後、パケット化してネットワーク 1 00へ出力する。また、ビデオ通信装置 9は、映像データがネットワーク 100から入力されると、パケット化された映像データを時系列に配列して順次出力することにより、ビットストリーム化した後、伸張して表示端末 8へ出力する。

[0018] 次に、音声会議装置 1の構成について図 2, 3を参照して説明する。なお、本実施形態に係る音声会議装置 1は、直線状に配列された複数のマイクからなるマイクァレィを用いる。そして、各マイクで収音した音声をそれぞれ遅延して合成することにより、収音指向性を形成する。この形成した収音指向性を収音ビームと呼ぶ。収音ビームの種類としては、収音ビームの向力、う先を特定の収音スポットに設定した狭範囲の設定と、ある程度の広がりがあるエリア（例えば、音声会議装置 1のそれぞれの側面方向（発言エリア））で発生した広範囲の音声を高いゲインで収音するとともに他エリァで発生した音声（ノイズ)を抑制する設定とを有する。

[0019] 図 2は、音声会議装置を表す三面図である。図 2 (A)は平面図、図 2 (B)は正面図、図 2 (C)は右側面図である。図 3は、図 2に示す音声会議装置のスピーカ配列およびマイク配列を示した図であり、図 3 (A)は前記正面のマイク配列を示す、図 3 (B)は底面のスピーカ配列を示す、図 3 (C)は背面のマイク配列を示す。

以下の説明では、図 2 (B)に図示した面を正面と呼び、この図に基づいて装置の上下左右を定める。

[0020] 音声会議装置 1は、筐体 2および脚部 3からなる外観を有し、筐体 2は、操作部 4、発光部 5、入出力コネクタパネル 11を備えている。筐体 2は、左右に長尺な略直方体形状からなり、筐体 2の左右端部には、筐体 2の底面を設置面から所定距離持ち上げる脚部 3が設けられる。

[0021] 筐体 2の上面右端部には、テンキー等の操作ボタンや表示画面を有する操作部 4 が設けられている。操作部 4は筐体 2内に設置された制御部 10に接続されている。操作部 4は、参加者からの操作入力を受け付けて制御部 10に出力するとともに、制御部 10の制御により、操作内容や実行モード等を表示画面に表示する。

[0022] 筐体 2の上面中央部には、筐体 2の略中央を中心として放射状に配置された LED 等の発光素子からなる発光部 5が設置されている。発光部 5は、制御部 10からの発光制御に応じて発光する。制御部 10は、収音方向の LEDを点灯させる発光制御信号を発光部 5に入力する。

[0023] 筐体 2の右側面には、 LANインタフェース、アナログオーディオ入力端子、アナログオーディオ出力端子、デジタルオーディオ入出力端子、シリアル端子等を備える入出力コネクタパネル 11が設置されており、この入出力コネクタパネル 11の各コネクタ

(以下、入出力コネクタ 110)は筐体 2内部に設置された入出力インタフェース 12に接続されている。また、入出力コネクタパネル 11には、電源が供給される DCジャックも設けられている。

[0024] 筐体 2の下面には、同仕様の 16個のスピーカ SP；!〜 SP16が設置されている。これらスピーカ SP；!〜 SP16は筐体 2の長手方向に沿って一定の間隔で直線状に設置されており、これらによりスピーカアレイが構成される。筐体 2の正面および背面には、同仕様のマイク MIC10；!〜 MIC116およびマイク MIC20；!〜 MIC216が設置されている。これらマイク MIC10；!〜 MIC116、マイク MIC20；!〜 MIC216は長手方向に沿って直線状に設置されており、これらによりマイクアレイが構成される。

そして、筐体 2の下面および正面，背面側には、これらスピーカアレイおよびマイクアレイを覆う断面 U字形状で長手方向に樋状に形成された下面グリル 6が取り付けられている。この下面グリル 6は、パンチメッシュが施された金属板で構成されており、スピー力 SP 〜 SP16、マイク MIC10 〜 MIC116、 MIC20 〜 MIC216を保護するとともに、放音および収音する音声を通過させるようになつている。

このマイク MIC10；!〜 MIC116と収音ビーム生成部 181とが正面側の収音ビームを形成し、マイク MIC20；!〜 MIC216と収音ビーム生成部 182とが背面側の収音ビームを形成する。

[0025] なお、本実施形態では、スピーカアレイのスピーカ数を 16個とし、各マイクアレイのマイク数をそれぞれ 16個とした力これに限ることなぐ仕様に応じてスピーカ数およびマイク数は適宜設定すればよい。また、スピーカアレイおよびマイクアレイの間隔は任意である。すなわち、一定間隔でもよぐ中央部を密に配置し、両端部にいくに従い疎に配置するようにしてもよい。更に、本実施形態では、マイクアレイをラインアレイで構成しているが、マイクアレイはラインアレイに限定されず、マトリクス状に配列されたアレイでもよい。

[0026] 次に、音声会議システムの機能について図 4, 5を参照して説明する。図 4は、音声会議システムの機能的な構成を示すブロック図である。図 5は、収音エリアの説明図である。図 5 (A)は、音声収音用の収音エリアを示し、図 5 (B)は、位置検出用の収音

[0027] 音声会議システムは、機能的に、制御部 10、入出力コネクタ 110、音声会議装置 1 の入出力インタフェース 12、放音指向性制御部 13、 D/Aコンバータ 14、放音用ァンプ 15、スピーカアレイ（スピーカ SP；!〜 SP16)、マイクアレイ（マイク MIC10；!〜 MI C116, MIC20；!〜 MIC216)、収音用アンプ 16、 A/Dコンバータ 17、収音ビーム生成部 181 , 182、収音ビーム選択部 19、エコーキャンセル部 20、カメラ制御部 22 、カメラ 7、表示端末 8、ビデオ通信装置 9の入出力インタフェース 91、映像コーデック 92、操作部 4を備える。

[0028] 制御部 10は、操作部 4からの入力を受け、放音指向性制御部 13を制御し、発言者位置検出部 191からの入力を受け、カメラ制御部 22を制御する。制御の詳細については後述する。

[0029] 入出力インタフェース 12は、エコーキャンセル部 20力、ら入力された音声信号をパケット化して、ネットワーク 100に出力する。また、入出力コネクタ 110を介して入力された音声信号をビットストリームのデジタル音声信号 S1に変換して出力する。デジタル音声信号 S 1は、エコーキャンセル部 20を介して放音指向性制御部 13に供給される

〇

より具体的には、ネットワーク 100および LANコネクタを介して音声信号が入力された場合、入出力インタフェース 12は、パケット化された音声信号を時系列に配列して順次出力することにより、ビットストリーム化して放音指向性制御部 13に出力する。なお、アナログオーディオ入力端子を介してアナログ信号が入力された場合には、入出力インタフェース 12は、この信号をデジタル化して放音指向性制御部 13に出力す

[0030] 放音指向性制御部 13は、制御部 10の指示により、入出力インタフェース 12から供給された音声信号力もスピーカアレイの各スピーカ SP；!〜 SP16に供給する個別放音信号を生成する機能部である。放音指向性制御部 13は、スピーカアレイからビーム化された音声である放音ビームが放音されるように各スピーカ SP；!〜 SP16に供給する個別放音信号を生成する。このため、放音指向性制御部 13は、入力された音声信号に対してそれぞれ所定の遅延処理及び所定の振幅処理等を行って個別放音信号を生成する。なお、放音ビームは、狭範囲に放音する放音ビーム、及び、広範囲に放音する放音ビームがあり、それぞれ参加者の操作部 4の操作によるモード設定によって切り換えが可能である。

そして、放音指向性制御部 13は、生成した個別放音信号をスピーカ SP；!〜 SP16 毎に設置された D/Aコンバータ 14に出力する。各 D/Aコンバータ 14は個別放音信号をアナログ形式に変換して各放音用アンプ 15に出力し、各放音用アンプ 15は個別放音信号を増幅してスピーカ SP1〜SP16に与える。

[0031] スピーカアレイの各スピーカ SP；!〜 SP16は、供給された個別放音信号を音声変換して外部に放音する。スピーカ SP；!〜 SP16は筐体 2の下面に下向きに設置されているので、放音された音声は、音声会議装置 1が設置される机の設置面で反射して、参加者のいる装置の横力斜め上方に向かって伝搬される。

[0032] マイクアレイの各マイク MIC10；!〜 MIC116、 MIC20；!〜 MIC216は、それぞれ音声会議装置 1の正面側、背面側の音声を収音して電気信号である音声信号に変換し、この音声信号を各収音用アンプ 16に出力する。各収音用アンプ 16は、音声信号を増幅してそれぞれ A/Dコンバータ 17に与え、 A/Dコンバータ 17は、アナログの音声信号をデジタル信号に変換して収音ビーム生成部 181 , 182に出力する。ここで、収音ビーム生成部 181には、正面に設置されたマイク MIC10；!〜 MIC116が収音した正面側の音声信号が入力され、収音ビーム生成部 182には、背面に設置されたマイク MIC20；!〜 MIC216が収音した背面側の音声信号が入力される。

[0033] 収音ビーム生成部 181 , 182は、音声収音用の広範囲の収音ビーム及びカメラ 7制御用の狭範囲の収音ビームを形成するべぐ各マイク MIC10；!〜 MIC116, MIC2 0；!〜 MIC216が収音した音声信号に対して遅延処理を行う。

具体的には、広範囲で音声を収音するために、図 5 (A)に示すように、正面側，背面側ともに 1つのエリアを設定して、これらエリアをそれぞれ収音する収音ビーム MB 1 , MB2を形成し、収音ビーム選択部 19に出力する。

また、主な発言者に対してカメラ 7を向けるよう制御するために、図 5 (B)に示すように、同時に複数スポット（図 5 (B)では正面側，背面側のそれぞれ 4スポット）に対する収音ビーム MB1；!〜 MB14、 MB2；!〜 MB24を形成し、収音ビーム選択部 19に出力する。

[0034] なお、カメラ 7制御用の狭範囲の収音ビーム生成時は、音声を収音する場合と異なつて音質を考慮する必要がないため、収音した音声信号をハイパスフィルタで濾波して指向性の強い lkHz〜3kHz程度の高音域の信号のみを用いて収音ビーム MB1 1~MB14, MB2；!〜 MB24を生成してもよい。

[0035] また、本実施形態では、正面側、背面側にそれぞれ 4スポット形成して!/、るが、これに限らず、複数スポットであればよい。

[0036] 収音ビーム選択部 19は、発言者位置検出部 191にて、 8個の収音ビーム MB1；!〜 MB14、 MB2；!〜 MB24で収音した 8スポットの音声信号のうち、最も高レベルのものが目的の音声信号 (すなわち、ノイズではない会議参加者の発言）であるとして、最も高レベルの音声信号の収音方向 DSを検出し、収音方向 DSを制御部 10に出力する。

また、収音ビーム選択部 19は、 2つの収音ビーム MB1 , MB2のうち、収音方向 DS を含む収音ビームを選択して音声信号 MB0として後段のエコーキャンセル部 20に出力する。

[0037] エコーキャンセル部 20は、「入出力インタフェース 12から入力された音声信号がスピー力 SP；!〜 SP16から放音され、この放音された音声信号がマイク MIC10；!〜 Ml CI 16、 MIC20；!〜 MIC216に回帰して再び入出力インタフェース 12から出力される」というエコー現象を防ぐための機能部である。エコーキャンセル部 20は、適応型フィルタ 211を用いて上記経路の回帰音を推定し、推定した回帰音をマイクが収音した音声信号から減算することによりエコーを抑制するものである。

具体的に、エコーキャンセル部 20は、適応型エコーキャンセラ 21を備えている。適応型エコーキャンセラ 21は、適応型フィルタ 211とポストプロセッサ 212とを備えている。適応型フィルタ 211は、スピーカ SPに供給される音声信号に基づき、マイク MIC に回帰する音声信号成分を推定して擬似回帰音信号を生成する。ポストプロセッサ 2 12は、収音ビーム選択部 19が出力した音声信号 MB0から、入力音声信号 S1に対する擬似回帰音信号を減算することによりエコー成分を除去する。この音声信号 MB 0からエコー成分を除去した音声信号は入出力インタフェース 12に入力される。

[0038] このようなエコーキャンセル処理を行うことにより、スピーカ SPからマイク MICに回帰する音声信号を的確に予測して除去することができ、マイク MICで収音した音声信号のみを入出力インタフェース 12から出力することができる。

[0039] カメラ制御部 22は、制御部 10から収音方向 DSが入力されると、収音方向 DSを撮影方向の中心とするようにカメラ 7の撮像部 71の方向を制御する。このようにカメラ 7 は、音声会議装置 1から入力される収音方向 DSに従って撮影方向を決める。これにより、発言者を自動で撮影することができる。カメラ 7の撮影データは、映像コーデック 92へ出力される。

[0040] 映像コーデック 92は、カメラ 7から入力された撮影データの圧縮を行い、入出力インタフエース 91へ出力する。また、映像コーデック 92は、入出力インタフェース 91から入力された映像信号 P1の伸張を行い表示端末 8へ出力する。

[0041] 入出力インタフェース 91は、映像コーデック 92から入力された撮影データをバケツト化して、ネットワーク 100に出力する。また、入出力インタフェース 91は、ネットワーク 100から入力された映像信号をビットストリームのデジタル映像信号 P1に変換して出力する。デジタル映像信号 P1は、映像コーデック 92を介して表示端末 8に供給されより具体的には、ネットワーク 100を介して映像信号が入力された場合、入出力インタフエース 91は、パケット化された映像信号を時系列に配列して順次出力することにより、ビットストリーム化して表示端末 8に出力する。

[0042] 以上より、本実施形態の音声会議システムでは、音声収音用と発言者の位置検出用と 2つの異なる収音ビームを生成する。そして、音声収音用の収音ビームを用いて、音声会議装置に対して主な発言者と反対側の音声を収音せずに、主な発言者側の音声のみを効果的に収音することで、主な発言者の発言を明瞭化できる。更に、発言者の位置検出用の収音ビームを用いて、主な発言者の位置を特定することで、主な発言者にカメラ 7を向けて撮影することができる。また、主な発言者が変わると、自動でカメラ 7の方向を切り替えることができる。

[0043] また、本発明の音声会議システムは、図 6に示すように、ビデオ通信装置 9を利用せずに、拡声装置として会議に用いることができる。この場合、音声会議装置 1には、カメラ 7が接続され、カメラ 7に表示端末 8を接続する。音声会議装置 1は、収音した音声を増幅して放音する。また、カメラ 7は、音声会議装置 1から入力される収音方向 DSに従って撮影方向を決定し、撮影を行い、撮影データを生成する。カメラ 7は、生成した撮影データを表示端末 8に出力して、表示端末 8で撮影データを表示する。これにより、発言者の発言を増幅して放音するとともに、主な発言者をカメラ 7で撮影して表示端末 8に表示することができる。このため、大会議室等で行われる会議においても、参加者は、容易に発言者の発言を聞くことができる。また、主な発言者を表示端末 8に表示して、会議を進行することができるので、会議の参加者は主な発言者を容易に知ることができる。

[0044] なお、本実施形態に限らず、図 7に示すように、収音ビーム選択部 19は、音声信号の収音方向に関係なぐ 2つの収音ビーム MB1 , MB2を合成して音声信号 MBOを生成し、この音声信号 MBOを後段のエコーキャンセル部 20に出力してもよい。

これにより、 2つの収音ビーム MB1 , MB2を合成して音声信号 MBOを生成するので、主な発言者をカメラ 7で確実に撮影しながら、主な発言者側だけでなぐ広範囲に音声を収音することで全ての参加者の発言を効果的に収音することができる。

[0045] 更に、本実施形態に限らず、図 8に示すように、音声会議装置 1に音声および映像の通信部を設けてもよい。この通信部を通じて相手方音声会議装置と通信会議を行うこと力 Sできる。この場合、カメラ 7で撮影した撮影データ及びマイクで収音された音声データは、音声会議装置 1を介してネットワーク 100に出力される。そして、遠隔地にある他の音声会議装置からネットワーク 100を介して入力された映像信号は、音声会議装置 1を介して、表示端末 8に表示される。他の音声会議装置に送信される撮影データ及び音声データに関して、複数の狭範囲の収音ビームにより検出された高レベルの音声信号に対応する収音方向を、撮影方向として制御されたカメラ 7によつて撮影された撮影データが送信される。また、狭範囲の収音ビームにより検出された収音方向を含む広範囲の収音ビームに基づいて生成された音声データが送信される。更に、この場合、映像信号の入出力インタフェース 91を音声信号の入出力インタフェース 12と一体化し、共通の入出力コネクタ 1 10を介してネットワーク 100に接続すればよい。

なお、図 8は、図 4の音声会議装置 1に映像の通信部を更に設けている力 S、これに限らず、図 7の音声会議装置 1に映像の通信部を更に設けてもよい。

Claims

請求の範囲

[1] 所定パターンで配列された複数のマイクを有するマイクアレイと、

を備えた音声会議装置。

[2] スポット収音ビーム形成部は、前記収音音声信号の高域成分のみを用いて収音ビームを形成する請求項 1に記載の音声会議装置。

[3] 他の音声会議装置とネットワークを介して接続され、該他の音声会議装置と通信を行う通信部と、

前記エリア収音ビーム形成部で形成された第 1収音ビームに基づいて音声データを生成し、前記通信部を介して該音声データを前記他の音声会議装置に送信する制御部と、

をさらに備えた請求項 1に記載の音声会議装置。

[4] 所定パターンで配列された複数のマイクを有するマイクアレイと、

該スポット収音ビーム形成部で形成された複数の第 2収音ビームから話者方向を検出し、該話者方向を撮影方向として検出する撮影方向検出部と、前記音声会議装置の撮影方向検出部により検出された撮影方向を撮影して映像データを生成する撮影部と、

を備えた音声会議システム。

[5] スポット収音ビーム形成部は、前記収音音声信号の高域成分のみを用いて収音ビームを形成する請求項 4に記載の音声会議システム。

[6] 他の音声会議装置とネットワークを介して接続され、該他の音声会議装置と通信を行う通信部と、

をさらに備えた請求項 4に記載の音声会議システム。