JP2001352530A

JP2001352530A - 通信会議装置

Info

Publication number: JP2001352530A
Application number: JP2000172960A
Authority: JP
Inventors: Masafumi Tanaka; 雅史田中; Kenichi Furuya; 賢一古家
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2000-06-09
Filing date: 2000-06-09
Publication date: 2001-12-21

Abstract

(57)【要約】【課題】話者交代にからビデオカメラの視野移動が開
始すまでの遅延時間を適応的に決定する。【解決手段】位置推定部１０で話者位置を推定して、
その結果に応じて位置履歴管理部２０１により位置履歴
データベース２０２を更新し、その位置履歴に基づいて
視野決定部２０３で視野を決定し、位置履歴、視野、視
野履歴から遅延部２０４の遅延時間を決定し、前記視野
決定の時点から該遅延時間が経過することにより機器制
御部３０でビデオカメラの視野方向と視野角を制御す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ビデオカメラの視
野やマイクロホンの指向性等を過去の話者位置の位置履
歴と新しい話者位置から決定する通信会議装置に関し、
特に話者位置の変化に伴ってカメラの視野変更やマイク
ロホンの指向性変更の開始までの遅延時間を適応的に制
御する技術に関するものである。

【０００２】

【従来の技術】図８は従来の通信会議装置に使用されて
いるビデオカメラの話者自動追従システムの要部を説明
するための図である。１０は話者の位置を推定する位置
推定部、２０’は選択性制御部である。選択性制御部２
０’では、位置推定部１０で得られた話者の位置情報を
受け取り、位置履歴管理部２０１において話者の位置履
歴データベース２０２の更新を行い、位置履歴データベ
ース２０２の位置履歴情報を視野決定部２０３に入力さ
せてそこで視野を決定し、得られた視野情報を機器制御
部３０に出力してビデオカメラの視野角（ズーム）と視
野方向（左右方向）を制御するものである。

【０００３】

【発明が解決しようとする課題】従って、従来の技術で
は、視野決定部２０３で視野が決定されると、直ちにあ
るいは固定の遅延時間の後に、ビデオカメラの移動が開
始する。このようにビデオカメラが動き出すまでの遅延
時間が固定であるために、次のような不都合が生じるこ
とがある。

【０００４】まず、話者交代があったときは、前記遅延
時間が長いと、交代した話者の発言が終わってしまうこ
とがある。一方、話者の交代が頻繁な場合には、その交
代に合わせてビデオカメラが速く動き出すように遅延時
間を短くしておくと、映像が乱れ、視聴者に不快感を与
える問題がある。

【０００５】また、ビデオカメラの視野方向が大きく移
動する場合には、その視野方向の移動に時間がかかるの
で、その移動時間中に別の話者への交代が起きてビデオ
カメラが迷走することがあり、これを予防するために、
上記遅延時間をその移動が小さい場合よりも長く設定す
る必要がある。しかしこのようにすると、視野移動開始
が常時遅くなるという問題が起こる。

【０００６】一方、話者交代に伴うマイクロホンの指向
性変更タイミングについても、ビデオカメラの視野変更
タイミングと大きくずれることは好ましくない。

【０００７】本発明の目的は、話者交代によってビデオ
カメラの視野移動やマイクロホンの指向性変更が開始す
るまでの遅延時間を適応的に決定し、上記した問題を解
決した通信会議装置を提供することである。

【０００８】

【課題を解決するための手段】上記課題を解決するため
の第１の発明は、映像信号又は少なくとも２以上の音声
信号から話者位置を推定する位置推定手段（１０）と、
前記位置推定手段（１０）で得られた話者位置を記録し
て位置履歴（２０２）を更新する位置履歴管理手段（２
０１）と、前記位置履歴（２０２）に基づいて前記映像
信号を収録する撮像手段の視野又は前記音声信号を収録
する集音手段の指向性を決定する視野又は指向性決定手
段（２０３）と、前記決定された視野又は指向性の情報
を遅延させる遅延手段（２０４）と、該遅延手段（２０
４）に対して可変の遅延時間を設定する遅延時間決定手
段（２０５）と、前記遅延手段（２０４）で遅延された
前記視野又は指向性の情報により、前記撮像手段の視野
又は前記集音手段の指向性を新しい話者位置に合わすよ
う設定する機器制御手段（３０）と、を有するよう構成
した。

【０００９】第２の発明は、第１の発明において、前記
話者位置履歴（２０２）は、話者位置、発話時刻、発話
時間の組からなり、前記遅延時間決定手段（２０５）
は、前記発話時間から求められる前の話者の発話継続時
間、新しい話者の累積発話時間から前の話者の累積発話
時間を差し引いた累積発話時間差、及び前の話者位置か
ら新しい話者位置への変化量のうちから選択した少なく
とも１以上により、前記遅延時間を設定するよう構成し
た。

【００１０】第３の発明は、第２の発明において、話者
位置の履歴は話者毎に記録され、該話者は映像信号又は
少なくとも２以上の音声信号から判定され、前記判定さ
れた話者の履歴から前記遅延時間を設定するよう構成し
た。

【００１１】

【発明の実施の形態】図１は本発明の通信会議装置の実
施形態のブロック図である。１０はビデオカメラの映像
信号やマイクロホンの音声信号から話者位置を推定する
位置推定部（位置推定手段）、２０は位置推定部１０で
得られた話者位置情報に基づきビデオカメラの視野情報
を作成して出力する選択性制御部、３０は選択性制御部
２０からの視野情報に基づきビデオカメラの視野方向と
視野角を制御する機器制御部（機器制御手段）である。

【００１２】位置推定部１０は、撮像した画像から１又
は２以上の動物体を判定し、それらの動物体に予め特徴
を設定した人物の頭部が存在するか否かで人物を判定
し、さらにその人物の***が動いているか否かで１人の
話者の位置を推定する。あるいは、複数設置したマイク
ロホンから入力する音声信号を処理して１人の話者の位
置を推定する。

【００１３】選択性制御部２０において、２０１は位置
推定部１０で得られた話者位置情報を受け取り、位置履
歴データベース２０２の更新を行う位置履歴管理部、２
０３は位置履歴情報を入力して処理することにより当該
話者位置に視野角と視野方向を合わせるようビデオカメ
ラの視野情報を作成する視野決定部（視野決定手段）、
２０４は視野決定部２０３で得られた視野情報を遅延さ
せる遅延部（遅延手段）、２０５はビデオカメラの移動
遅延時間を決める移動遅延時間決定部（遅延時間決定手
段）、２０６はビデオカメラの視野情報の履歴を管理す
る視野履歴管理部、２０７は視野履歴データベースであ
る。

【００１４】位置履歴データベース２０２には、話者位
置（各話者は特定の位置から移動しないものとし、その
位置を直交座標又は極座標で登録する）、発話時刻、発
話時間の組からなる話者毎のデータを格納する。話者交
代があり、話者の発話開始や発話終了が検出される毎に
その発話時刻、発話時間、発話者が記録更新される。ま
た、視野履歴データベース２０７にも、視野情報（視野
角、視野方向）を話者に対応して格納する。

【００１５】移動遅延時間決定部２０５により遅延部２
０４の遅延時間を設定する手法として次のような手法が
ある。すなわち、図２に示すように、新しく検出された
話者位置と過去の話者位置履歴から得られる２つの量、
つまり、前の話者の「発話継続時間」と、新しい話者の
累積発話時間（本装置の動作開始からの累積発話時間）
から前の話者の累積発話時間を差し引いた「累積発話時
間差」とによって、遅延時間を設定する。

【００１６】「発話継続時間」が長い発話者は、報告や
講演などを行っている場合が多く、他の話者の短い発言
の後に再び発話することが多いと考えられるので、不快
感を招く頻繁なビデオカメラの視野移動を防止するた
め、「発話継続時間」が長い話者から他の話者へ話者交
代があった場合には、「発話継続時間」が短い話者から
他の話者への話者交代があった場合に比べて、遅延時間
を長く設定する。一方、複数人による討論の場合には、
司会者の累積発話時間が短いなど、参加者の累積発話時
間に差が生じることが多い。このように累積発話時間に
差がある状況で話者交代が起こった場合には、前記「累
積発話時間差」が正のとき（新しい話者の累積発話時間
が前の話者の累積発話時間より大きいとき）には、「平
均発話継続時間」が長い話者から短い話者への話者交代
があったことを示すので、「累積発話時間差」が負であ
るような「平均発話継続時間」が短い話者から長い話者
への話者交代の場合に比較して、話者交代が引き続き起
こる可能性が高い。したがって、ビデオカメラの視野の
頻繁な移動を予防するために、「累積発話時間差」が正
のときは負のときよりもビデオカメラの移動遅延時間を
長くする。以上から、図２に示すように「発話継続時
間」が長いほど、また「累積発話時間差」が正で大きい
ほど、ビデオカメラの移動遅延時間を長く設定する。

【００１７】さらに、本発明では移動遅延時間決定部２
０５での遅延時間の決定要素に視野情報も考慮する。す
なわち、図３に示すように、前の視野から新しい視野へ
の「視野移動量」が小さい場合には、ビデオカメラの視
野の変化が小さいので映像の乱れが小さく、映像の乱れ
よりは素早い視野の追従が優先できるため、遅延時間を
短く設定する。逆に、「視野移動量」が長い場合には、
画像が乱れる危険性を小さくすることに重点をおいて、
ビデオカメラの移動遅延時間を長く設定する。

【００１８】具体的な遅延時間の決定手法としては、上
記した「発話継続時間」、「累積発話時間差」、「視野
移動量」の要素から遅延時間を設定するようテーブルを
作成して利用する手法がある。この場合のテーブル内容
は話者交代がある度に更新するようにする。

【００１９】又別に、Ｔをビデオカメラの移動開始まで
の遅延時間、ｔ１を「発話継続時間」、ｔ２を「累積発
話時間差」、ｗを「視野移動量」とし、ａ，ｂ，ｃ，ｄ
を正の係数とするとき、Ｔ＝ｆ（ａ・ｔ１＋ｂ・ｔ２＋ｃ・ｗ＋ｄ）のような式により演算によって求めることもできる。こ
の関数ｆ( )は値域の最小値が０以上でかつ上に有界な
単調増加関数であり、その例としては、 tanh(x)+1=2exp(x)/{exp(x)+exp(-x)} あるいは、ステップ関数 s(x)=1 （ｘ＞しきい値） =0 （ｘ≦しきい値）がある。

【００２０】以上のように、ビデオカメラの視野決定が
なされてからビデオカメラの移動開始までの遅延時間
を、「発話継続時間」、「累積発話時間差」、「視野移
動量」の内の少なくとも１つを利用して決めることによ
り、視野情報が作成されてからビデオカメラの移動が開
始するまでの遅延時間が適応的に調整される。このた
め、ビデオカメラが動き出すまでの時間が固定されてい
る場合に比べて、頻繁に話者が交代する場合は遅延時間
を長くして映像の乱れを防いだり、視野が大きく移動す
る場合は遅延時間を小さく迅速な視野変更を実現するこ
とができる。なお、遅延時間が長いためその遅延時間が
満了する前に話者交代があった場合は、前回の遅延時間
をリセットして、新たな話者に応じた遅延時間を設定す
る。

【００２１】図４は位置推定部１０の具体的な一例を示
す図で、ビデオカメラで撮像した画像を処理して話者位
置を推定する場合についてのものである。ここでは、画
像の輝度信号ＹをＡ／Ｄ変換器１０１によりディジタル
信号に変換してから動きエリア検出部１０２でフレーム
間の差分をとることにより動きエリアを検出し、Ａ／Ｄ
変換器１０１の出力信号から作成したしきい値により２
値変換部１０３においてその動きエリアを示す差分情報
を２値化する。次に、この２値化差分情報を水平方向動
エリア抽出部１０４に取り込み、時間的に及び水平方向
（画像の横方向）に空間的にその２値化差分情報を累積
加算することにより動物体の水平方向の位置座標を動物
体毎に求めて、動エリア選択部１０５に送る。この動エ
リア選択部１０５では、もとめた複数の動物体の水平方
向の位置座標から１つの動物体の位置座標を選択して、
頭頂抽出部１０６と顔幅抽出部１０７に送る。頭頂抽出
部１０６では２値変換部１０３で得られた２値化差分情
報と動エリア選択部１０６で得られた動物体の位置座標
から１つの動物体の頭頂の座標を求める。顔幅抽出部１
０７では２値変換部１０３で得られた２値化差分情報と
エッジ検出部１０８で得られた画像のエッジ（輪郭）情
報と頭頂抽出部１０６で得られた頂部座標とから動物体
（人物）の頭部の左右の座標により頭部情報作成し、顔
特徴抽出部１０９に送る。この顔特徴抽出部１０９で
は、人物の顔特徴量の１つである頬の縦線と眉毛や目等
の横線に相当する情報が含まれているか否かにより人物
の頭部か否かを判定し、頭部であると判定したときその
情報を発言者判定部１１０に送る。この発言者判定部１
１０では、頭部の左右の座標と頭頂座標から***の位置
する領域を判定し、その***領域の所定時間毎の変化量
を検出して***が上下に動いているか否かにより、当該
人物が話者か否かを判定する。このようにして、画像情
報から話者位置を推定する（参考文献：特開平７−２２
５８４１）。

【００２２】一方、図５は位置推定部１０の別の具体的
な一例を示す図で、複数のマイクロホンで得られる複数
の音声信号を処理して話者位置を推定する場合について
のものである。ここでは、受信した音声信号の相互相関
関数をすべてのマイクロホンの組み合わせについて計算
し、得られた相互相関関数について、予め決めた１つの
基準マイクロホンと他のマイクロホンとの間の相互相関
関数の最大値を与える時間差を求め、これを予備推定時
間差とし、全てのマイクロホンについての遅延和パワー
を最大にする時間差を上記予備推定時間差の近傍で探索
して、これを推定時間差とし、この推定時間差に基づい
て音源位置を計算するものである（参考文献：特開平１
１−３０４９０６）。なお、この他の複数マイクロホン
で得られる複数の信号を処理して話者位置を推定する方
法は、文献「音響システムと信号処理」、大賀他、電子
情報通信学会の第７章に詳述されている。

【００２３】前記した機器制御部３０では、選択性制御
部２０からの視野情報に基づきビデオカメラの視野方向
と視野角を制御するが、視野方向については推定された
話者位置の方向を向く視野方向となるようビデオカメラ
の上下左右の向きを制御すればよく、視野角については
例えば個々の話者位置に応じた視野角を予めテーブルに
格納しておいて、推定された話者位置に応じてそのテー
ブルから視野角を読み出してビデオカメラのズームを広
角側或いは望遠側等に制御すればよい。

【００２４】なお、得られた視野情報に基づきビデオカ
メラの視野方向や視野角の制御と共にマイクロホンの指
向性を制御するようにすることもできる。このときは、
前記視野情報で決定される視野方向からの音声に対する
複数のマイクロホンの出力音声信号が同相となるように
それぞれのマイクロホンの音声信号に時間遅延を与え所
定の重み係数をかけてから加算処理する。これにより、
決定された視野方向から伝搬してくる音声信号以外は互
いに打ち消しあって減衰し、視野方向に対する鋭い指向
性を実現することができる。

【００２５】図６は本発明の装置を通信会議装置の話者
自動追従システムに適用した実施形態を示したものであ
る。話者６０が発した音声をマイクロホンアレー５０で
集音し、集音した複数チャネルの音声信号から位置推定
部１０において話者の位置を推定し、その推定した話者
位置の情報を選択性制御部２０に入力して視野情報を
得、この視野情報により機器制御部３０によりビデオカ
メラ４０の視野方向や視野角を制御するものである。

【００２６】図７は本発明の装置を通信会議装置の話者
自動追従指向性集音システムに適用した実施形態を示し
たものである。話者６０が発した音声をマイクロホンア
レー５０で集音し、集音した複数チャネルの音声信号か
ら位置推定部１０において話者位置を推定し、推定した
話者位置から選択性制御部２０において集音領域（つま
り視野）を決定し、機器制御部３０において指向性の向
き、指向性の幅を計算し、アレー信号処理装置７０にお
いて複数チャネルの音声信号から集音領域のみの音声信
号を出力するようにしたものである。

【００２７】

【発明の効果】以上から本発明によれば、話者の位置履
歴に加えて視野履歴を用いるので、視野決定や指向性決
定からビデオカメラの視野変更開始やマイクロホンの指
向性変更開始までの時間を適応的に制御することがで
き、話者交代に適切に対応することができる利点があ
る。

【図面の簡単な説明】

【図１】本発明の通信会議装置の要部のブロック図で
ある。

【図２】話者の発話に適応させたビデオカメラの移動
遅延時間設定手法の説明図である。

【図３】ビデオカメラの視野移動量に適応させたビデ
オカメラの移動遅延時間の設定手法の説明図である。

【図４】画像を利用した位置推定部の説明図である。

【図５】音声を利用した位置推定部の説明図である。

【図６】話者自動追従ビデオカメラシステムの説明図
である。

【図７】話者自動追従指向性集音システムの説明図で
ある。

【図８】従来の通信会議装置の要部のブロック図であ
る。

【符号の説明】

１０：位置推定部、１０１：Ａ／Ｄ変換器、１０２：動
きエリア検出部、１０３：２値変換部、１０４：水平方
向動エリア検出部、１０５：動エリア選択部、１０６：
頭頂抽出部、１０７：顔幅抽出部、１０８：エッジ検出
部、１０９：顔特徴抽出判定部、１１０：話者判定部２０：選択性制御部、２０１：位置履歴管理部、２０
２：位置履歴データベース、２０３：視野決定部、２０
４：遅延部、２０５：移動遅延時間決定部、２０６：視
野履歴管理部、２０７：視野履歴データベース３０：機器制御部４０：ビデオカメラ５０：マイクロホンアレー６０：話者７０：アレー信号処理装置

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5C022 AA12 AB36 AB62 AB63 AB66 AC41 AC69 AC72 5C064 AA02 AB04 AC04 AC09 AC12 AC22 AD14 5D020 BB03 BB04

Claims

【特許請求の範囲】

【請求項１】映像信号又は少なくとも２以上の音声信号
から話者位置を推定する位置推定手段と、前記位置推定手段で得られた話者位置を記録して位置履
歴を更新する位置履歴管理手段と、前記位置履歴に基づいて前記映像信号を収録する撮像手
段の視野又は前記音声信号を収録する集音手段の指向性
を決定する視野又は指向性決定手段と、前記決定された視野又は指向性の情報を遅延させる遅延
手段と、該遅延手段に対して可変の遅延時間を設定する遅延時間
決定手段と、前記遅延手段で遅延された前記視野又は指向性の情報に
より、前記撮像手段の視野又は前記集音手段の指向性を
新しい話者位置に合わすよう設定する機器制御手段と、を有することを特徴とする通信会議装置。
【請求項２】請求項１において、前記話者位置履歴は、話者位置、発話時刻、発話時間の
組からなり、前記遅延時間決定手段は、前記発話時間から求められる
前の話者の発話継続時間、新しい話者の累積発話時間か
ら前の話者の累積発話時間を差し引いた累積発話時間
差、及び前の話者位置から新しい話者位置への変化量の
うちから選択した少なくとも１以上により、前記遅延時
間を設定することを特徴とする通信会議装置。
【請求項３】請求項２において、話者位置の履歴は話者毎に記録され、該話者は映像信号又は少なくとも２以上の音声信号から
判定され、前記判定された話者の履歴から前記遅延時間を設定する
ことを特徴とする通信会議装置。