JP2007243854A - テレビ電話会議端末 - Google Patents

テレビ電話会議端末 Download PDF

Info

Publication number
JP2007243854A
JP2007243854A JP2006066986A JP2006066986A JP2007243854A JP 2007243854 A JP2007243854 A JP 2007243854A JP 2006066986 A JP2006066986 A JP 2006066986A JP 2006066986 A JP2006066986 A JP 2006066986A JP 2007243854 A JP2007243854 A JP 2007243854A
Authority
JP
Japan
Prior art keywords
speaker
area
image quality
image
speaker area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006066986A
Other languages
English (en)
Inventor
Takuya Tamaru
卓也 田丸
Takuro Sone
卓朗 曽根
Tatsunori Nakao
龍典 中尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2006066986A priority Critical patent/JP2007243854A/ja
Publication of JP2007243854A publication Critical patent/JP2007243854A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 テレビ電話会議において、通信相手が受信画像をディスプレイに表示する際に話者を分かりやすくする。
【解決手段】 信号合成部253−k(k=1〜m)は、収音点Sk(k=1〜m)における音声波形を示す音声データDk(k=1〜m)を合成する。話者位置検出部110は、音声データDk(k=1〜m)から話者位置インデックスkを検出し、これに対応した音声データDkの選択を選択部254に指示する。画質制御部120は、話者位置インデックスkに基づいて話者エリアを設定し、通信相手に送る画像データにおける非話者エリアの画質を劣化させる処理を画質調整部262に行わせる。
【選択図】図2

Description

この発明は、テレビ電話会議端末に関する。
周知の通り、テレビ電話会議システムでは、ネットワークを介して接続された複数台のテレビ電話会議端末間で、音声情報および画像情報の交換が行われ、各テレビ電話会議端末では、通信相手のテレビ電話会議端末からの受信音声の放音および受信画像のディスプレイへの表示が行われる。従って、各テレビ電話会議端末を利用する会議参加者は、遠隔地において通信相手のテレビ電話会議端末を利用している他の会議参加者の様子をディスプレイにより確認しつつ会議を行うことができる。しかしながら、テレビ電話会議端末のディスプレイに複数人の会議参加者の画像が表示されている場合、それらの会議参加者の中のどの人物が話しているのかが分かりにくく、遠隔地間で意思疎通を図るのが困難になる場合がある。この問題を解決するための手段として、カメラのパンやズーム機能を用い、話者に焦点を合わせて撮像を行って通信相手装置に送信する技術がある。この種の話者追尾技術に関するものとして、例えば特許文献1は、複数のマイクロホンにより音声信号を取得し、音声がどのマイクロホンから入力されたかを検出し、その検出結果に基づいて、カメラのズームレンズの倍率と回転方向およびその調整速度を制御する技術を開示している。また、特許文献2は、2次元のマイクロホンアレイを用いて話者位置を検出し、話者位置にカメラを向ける技術を開示している。
特開平5−199521号公報 米国特許第6922206号
ところで、上述した従来の話者追尾の技術では、カメラの方向やズーム倍率を機械的に制御するため、カメラが適切に話者を捉えるのに時間が掛かるという問題がある。また、話者に焦点を合わせて撮像を行って画像データを通信相手装置に送った場合、通信相手装置を利用する会議の参加者は、ディスプレイに表示された画像から会議参加者の全体像を把握することが困難であり、会議としてのコミュニケーションを行うことが困難になるという問題がある。
この発明は、以上説明した事情に鑑みてなされたものであり、通信相手装置に対して会議参加者の全体像を伝えつつその全体の中における発言者の所在を明確に伝えることができるテレビ電話会議端末を提供することを目的とする。
この発明は、外界から取得した音声データおよび画像データを通信相手装置に送信し、通信相手装置から受信される音声データおよび画像データを音声および画像として出力するテレビ電話会議端末において、外界から画像データを取得する撮像手段と、外界から音声データを取得する収音手段と、話者位置を検出する話者位置検出手段と、前記話者位置検出手段による話者位置の検出結果に基づき、前記撮像手段により取得される画像データが示す画面内において話者の画像が属するエリアを推定し、該エリアを話者エリアとして設定する話者エリア設定手段と、前記撮像手段により取得される画像データに対し、話者エリアの画質よりも話者エリアでない非話者エリアの画質が劣化するように画質調整を施す画質調整手段と、前記画質調整手段による画質調整を経た画像データを通信相手装置に送信する送信手段とを具備することを特徴とするテレビ電話会議端末を提供する。
かかる発明によれば、通信相手装置に送られた画像データがディスプレイに表示されると、その表示画面上、非話者エリアは話者エリアよりも劣った画質となる。このため、通信相手装置を利用する会議参加者は、表示されている全参加者のうちどの人物が話者であるかを容易に判別することができる。また、非話者エリアの画質を落すことにより、通信相手装置に送信する画像データ量を減らすことができる。逆に、通信相手装置に送信する画像データ量を一定にするのであれば、話者エリアの画質を上げることができる。
以下、図面を参照し、この発明の実施の形態を説明する。
図1はこの発明の一実施形態であるテレビ電話会議端末1の構成を示すブロック図である。このテレビ電話会議端末1は、インターネットなどのネットワークを介して他の同様な構成のテレビ電話会議端末と接続され、各テレビ電話会議端末間で音声および画像の授受を行うテレビ電話会議システムを構成するものである。図1において、制御部100は、テレビ電話会議端末1の各部を制御する装置であり、CPUと、CPUにより実行されるプログラム等を記憶したROMと、CPUによりワークエリアとして用いられるRAMと、各種の処理を実行する回路とにより構成されている。操作部101は、テレビ電話会議端末1の筐体に配備された押しボタンなどの操作子の集合体である。制御部100は、この操作部101の操作を検知することにより、呼び出し先のアドレスや各種のコマンドなど、ユーザによって入力された情報を検知する。通信部102は、制御部100による制御の下、テレビ電話会議の際の通信相手である1または複数の他のテレビ電話会議端末との間に例えばインターネットなどのネットワークを介してコネクションを確立し、そのコネクションを介した通信の制御を行う装置である。
カメラ201は、テレビ電話会議端末1が設置された会議室内の参加者等の撮影を行い、画像データを出力する。送信画像処理部202は、カメラ201から出力される画像データに画質調整のための処理を施して出力する装置である。なお、この送信画像処理部202の詳細については後述する。画像エンコーダ203は、送信画像処理部202から出力される画像データを圧縮符号化し、符号化画像データを通信部102に出力する装置である。
音声入力部211は、テレビ電話会議端末1が設置された会議室内の参加者の音声を収音する装置である。本実施形態では、複数のマイクロホンからなるマイクロホンアレイが音声入力部211として用いられる。送信音声処理部212は、このマイクロホンアレイを構成する個々のマイクロホンの各出力信号から接続相手であるテレビ電話会議端末に送る最終的な音声データを合成して出力する装置である。なお、音声入力部211および送信音声処理部212の詳細については後述する。音声エンコーダ213は、送信音声処理部212から出力される音声データを圧縮符号化し、符号化音声データを通信部102に出力する装置である。
通信部102は、テレビ電話会議が行われる間、画像エンコーダ203から出力される符号化画像データと音声エンコーダ213から出力される符号化音声データとを多重化し、通信相手であるテレビ電話会議端末に送信する。また、通信部102は、通信相手であるテレビ電話会議端末から受信される信号の多重化を解除し、符号化音声データと符号化画像データを出力する。
画像デコーダ221は、通信部102から出力される符号化画像データを復号化し、圧縮符号化前の画像データを出力する装置である。受信画像処理部222は、画像デコーダ221から得られる画像データに基づいてディスプレイ223を駆動し、ディスプレイ223に画像を表示させる装置である。音声デコーダ231は、通信部102から出力される符号化音声データを復号化し、圧縮符号化前の音声データを出力する装置である。受信音声処理部232は、音声デコーダ231から得られる音声データに基づいてスピーカ等からなる音声出力部233を駆動し、音声出力部233から音声を出力させる装置である。
図2は、送信画像処理部202、音声入力部211、送信音声処理部212およびこれらを制御する制御部100の構成を示すブロック図である。音声入力部211は、上述したようにマイクロホンアレイであり、水平方向にライン状に並んだn個のマイクロホン251−i(i=1〜n)により構成されている。送信音声処理部212は、マイクロホン251−i(i=1〜n)から出力されるアナログ信号をデジタル信号に変換するA/D変換器252−i(i=1〜n)と、m個の信号合成部253−k(k=1〜m)と、選択部254とを有している。
本実施形態では、カメラ201の視野の範囲内に水平方向にm個の仮想的な収音点Sk(k=1〜m)を設け、A/D変換器252−i(i=1〜n)の各出力信号から収音点Sk(k=1〜m)における音声波形を表わす音声データDk(k=1〜m)を合成する。そのための信号処理を行うのが信号合成部253−k(k=1〜m)である。これらの信号合成部253−k(k=1〜m)の各々は、図3に示す構成を有している。図3において、遅延器261−i(i=1〜n)は、A/D変換器252−i(i=1〜n)の各出力信号に遅延処理を施して出力する。乗算器262−i(i=1〜n)は、遅延器261−i(i=1〜n)の各出力信号に所定の窓関数値Wi(i=1〜n)を各々乗算して出力する。加算器263は、乗算器262−i(i=1〜n)の出力信号を加算して出力する。タイムアライメント処理部264は、加算器263の出力信号を所定時間だけ遅延させ、音声データDkとして出力する。
図4は、信号合成部253−kにおける各遅延器261−i(i=1〜n)の遅延時間の決定方法を説明するものである。収音点Skからマイクロホン251−i(i=1〜n)までの各距離をLi(i=1〜n)、それらの中の最長距離をLmax、音速をcとした場合、各遅延器261−i(i=1〜n)は、次式に示す遅延時間TDi(i=1〜n)だけA/D変換器252−i(i=1〜n)の各出力信号を遅延させて出力する。
TDi=(Lmax−Li)/c ……(1)
このような遅延処理を各遅延器261−i(i=1〜n)が行うと、収音点Skから各遅延器261−i(i=1〜n)の各出力端までの各経路の遅延時間(音波の伝播遅延時間と電気信号の伝播遅延時間の和)が同じ長さになる。従って、信号合成部253−kでは、音源が収音点Skにある場合に、各遅延器261−i(i=1〜n)の各出力信号の位相が揃い、加算器263から大きな強度の出力信号が得られる。このように信号合成部253−kは、収音点Sk付近のエリアにおいて発生する音を高感度で音声データDkに変換する回路として機能する。なお、乗算器262−i(i=1〜n)による窓関数値Wi(i=1〜n)の乗算処理は、収音点Skとは異なる位置の音を誤って音声データDkに変換するのを防止するための処理である。
タイムアライメント処理部264が行う遅延処理は、各信号合成部253−k(k=1〜m)間の音声データDk(k=1〜m)の出力タイミングの時間調整のために行われるものである。さらに詳述すると、収音点Skにおいて音が発生してからその音に対応した信号が信号合成部253−kの加算器263から出力されるまでの遅延時間は、収音点Sk(k=1〜m)間で異なる。各信号合成部253−k(k=1〜m)のタイムアライメント処理部264は、この収音点Sk間における遅延時間差を補正する遅延処理を加算器263の出力信号に施し、仮に各収音点Sk(k=1〜m)において同時刻に音が発生した場合に、それらの音に対応した各音声データDk(k=1〜m)が各信号合成部253−k(k=1〜m)から同時刻に出力されるように時間調整を行うものである。
以上説明した信号合成部253−k(k=1〜m)から出力される音声データDk(k=1〜m)は、図2における選択部254に与えられる。選択部254は、制御部100からの指示に従い、音声データDk(k=1〜m)の中から1または複数の音声データを選択し、最終的な音声データDとして出力する。
送信画像処理部202は、第1フレームメモリ261と、画質調整部262と、第2フレームメモリ263とを有している。本実施形態では、一定時間長のフレーム周期毎に、一画面分の画像データがカメラ201から取得され、第1フレームメモリ261に書き込まれる。画質調整部262は、制御部100からの指示に従い、第1フレームメモリ261内の一画面分の画像データを話者の画像が所在する話者エリアとそうでない非話者エリアとに分け、話者エリアと非話者エリアとで異なる画質調整処理を施し、この処理を経た画像データを第2フレームメモリ263に書き込む。画質の調整は、画素の濃度を表現する際の諧調数を変えることにより行ってもよいし、単位面積当たりの画素数を変えることにより行ってもよい。第2フレームメモリ263内の画像データは、上述した画像エンコーダ203に送られて圧縮符号化され、通信相手のテレビ電話会議端末に送られる。話者エリアを指定する情報、話者エリアおよび非話者エリアの画質を指定する情報は、制御部100から画質調整部262に与えられる。なお、これらの情報がどのようにして生成されるかについては後述する。
制御部100は、話者位置検出部110と画質制御部120とを有している。話者位置検出部110は、信号合成部253−k(k=1〜m)から出力される音声データDk(k=1〜m)を監視し、監視結果に基づき、マイクロホンアレイの前方における話者の位置を検出する。好ましい態様において、話者位置検出部110は、音声データDk(k=1〜m)から各音声データが示す音声強度Ek(k=1〜m)を算出する。この場合の音声強度Ek(k=1〜m)の算出方法には各種考えられるが、例えば、信号合成部253−kから1個の音声データDkが出力される都度、それまでに出力された一定個数の音声データDkを用いて、音声データDkの実効値を求め、この実効値を音声強度Ekとしてもよい。話者位置検出部110は、このようにして得られる音声強度Ek(k=1〜m)から音声強度ピーク値Emaxおよび話者位置インデックスkを求めて出力する。ここで、音声強度ピーク値Emaxと話者位置インデックスkは、インデックスkを横軸として音声強度Ek(k=1〜m)をグラフ化した場合においてピーク値となる音声強度Ekとそのインデックスkである。
上述した選択部254には、話者位置検出部110によって出力される話者位置インデックスkが与えられる。選択部254は、音声データDk(k=1〜m)のうちこの話者位置インデックスkに対応したものを選択し、音声データDとして出力する。
制御部100内の画質制御部120には、話者位置検出部110から出力される話者位置インデックスkと、音声強度ピーク値Emaxとが与えられる。画質制御部120は、話者位置インデックスkに基づいて画面内に話者エリアを設定する。また、画質制御部120は、音声強度ピーク値Emaxまたはそれ以外の情報に基づいて、話者エリアおよび非話者エリアの画質を定め、話者エリアおよび非話者エリアの所在を示す情報と各エリアの画質を指定する情報を画質調整部262に送る。話者エリアおよび非話者エリアの画質の制御に関しては、各種のモードが用意されている。制御部100は、テレビ電話会議を開始する際、通信相手のテレビ電話会議端末とネゴシエーションを行うことにより、通信相手が希望しているモードに関する情報を取得し、通信相手が希望しているモードでの画質の制御を実行する。なお、この画質の制御の具体的内容については、説明の重複を避けるため、本実施形態の動作説明において詳細を明らかにする。
次に本実施形態の動作について説明する。テレビ電話会議端末1と他のテレビ電話会議端末との間にコネクションが確立されると、制御部100は、他のテレビ電話会議端末の制御部との間で上述したネゴシエーションを行う。このネゴシエーションが終了すると、テレビ電話会議端末1は、通信相手であるテレビ電話会議端末との間で音声データおよび画像データの授受を開始する。
ここで、会議の参加者の1人が例えば収音点Sjにおいて発声し、その音声が音声入力部211のn個のマイクロホン251−i(i=1〜n)により収音されたとする。このときマイクロホン251−i(i=1〜n)の出力信号は、A/D変換器252−i(i=1〜n)によりデジタル信号に変換される。信号合成部253−k(k=1〜m)は、A/D変換器252−i(i=1〜n)の各出力信号から、収音点Sk(k=1〜m)における音声波形を示す音声データDk(k=1〜m)を合成する。話者位置検出部110は、この音声データDk(k=1〜m)の各々から収音点Sk(k=1〜m)における音声強度Ek(k=1〜m)を求め、この音声強度Ek(k=1〜m)から上述した話者位置インデックスkおよび音声強度ピーク値Emaxを求める。
さらに詳述すると、この場合の音声強度Ek(k=1〜m)をインデックスkを横軸としてグラフ化すると、例えば図5に示すように、インデックスjの付近に音声強度のピークが発生する。そこで、話者位置検出部110は、このピークが生じているインデックスjを話者の位置を示す話者位置インデックスkとして出力する。また、話者位置検出部110は、音声の強度Ek(k=1〜m)のグラフにおいてピークとなっている強度を示す音声強度ピーク値Emax(この例の場合、Emax=Ej)を出力する。選択部254には、音声データDk(k=1〜m)のうち話者位置インデックスkに対応したものを選択し、音声データDとして出力する。
制御部100内の画質制御部120は、話者エリア設定処理およびエリア別画質設定処理を充分に短い時間間隔で定期的に実行する。これらの各処理の内容は次の通りである。
a.話者エリア設定処理
この話者エリア設定処理は、会議の参加者が発言をしているときにその参加者の画像が属するエリアを話者エリアとして設定する処理である。この話者エリア設定処理では、音声強度ピーク値Emaxを所定の閾値と比較する。そして、音声強度ピーク値Emaxが閾値を越えている場合、話者エリア設定処理では、通信相手に送る画像データが示す画面内において、話者位置インデックスkに対応した収音点Skの位置を求め、この位置を中心とする所定の横幅を持った帯状のエリアを話者エリアとし、その位置を示す情報をエリア別画質設定処理に引き渡す。
話者が同じ位置で発言を繰り返す場合には、その都度、音声強度ピーク値Emaxが閾値を越え、同じ話者エリアが繰り返し設定されることとなる。話者エリアの設定の効力は一定時間持続する。従って、話者がこの設定の効力の持続時間よりも短い時間間隔で発言を繰り返す場合には、この発言が繰り返される間を通じて、話者の属するエリアは話者エリアであり続ける。そして、発言が終了して一定時間が経過し、話者エリアの設定の効力が消滅すると、発言を終えた話者の属するエリアは非話者エリアとなる。
b.エリア別画質設定処理
エリア別画質設定処理では、話者エリア設定処理から引き渡される情報に基づいて画面内における話者エリアの所在を把握し、画面内の各エリアの画質の設定を行い、各エリアの画質を指定する情報を画質調整部262に送る。画質調整部262は、この情報に従って、第1フレームメモリ261に記憶された画像データに対し、画質調整処理を施すのである。図6は、この画質調整を経た画像の例を示している。この例では、一画面の中に参加者A、B、C、D、Eの画像があるが、参加者Cが発言を行い、この参加者Cに最も近い収音点Skを中心とする帯状のエリアが話者エリア、それ以外が非話者エリアとなっている。
本実施形態では、基本的には、話者エリアが高レベルの画質、非話者エリアが低レベルの画質となるように画面内の画質の制御を行うが、この画質の制御の態様に関しては、以下の複数のモードがある。制御部100は、上述した通信相手のテレビ電話会議端末とのネゴシエーションの際に、通信相手が希望しているモードに関する情報を取得し、その情報に従って以下の各モードの中の1つを選択して実行する。
<第1モード>
この第1モードでは、話者エリアの画質および非話者エリアの画質は各々固定の値が用いられる。図7は、この第1モードによる画質制御の例を示すものである。図7に示す例では、通信相手に送る画像データにおいて画面幅方向に参加者AおよびBの画像が並んでいる。
参加者が全く発言をしておらず、画面全体が非話者エリアとなっているとき、エリア別画質設定処理では、画面の全エリアの画質Qを低レベルの画質Q0とする。参加者Aが発言を開始すると、話者エリア設定処理により参加者Aの属するエリアが話者エリアとされる。エリア別画質設定処理では、参加者Aの属するエリアが話者エリアである間、この参加者の属するエリアの画質Qを高レベルの画質Q1とし、それ以外の非話者エリアの画質Qを低レベルの画質Q0とすべき旨の情報を画質調整部262に送る。参加者Aが発言を終了して所定時間が経過すると、参加者Aの属するエリアは非話者エリアとなる。これによりエリア別画質設定処理では、画面全体を低レベルの画質Q0とすべき旨の情報を画質調整部262に送る。参加者Bが発言を行う期間は、発言者である参加者Bの属するエリアが話者エリアとされる。この場合も参加者Aによる発言の場合と同様な画質の制御が行われる。
このような画質制御が行われた画像データが通信相手装置であるテレビ電話会議端末に送られ、同端末のディスプレイに表示される。その際、話者エリアは良い画質で表示され、非話者エリアは劣った画質で表示される。このため、通信相手装置を使用している会議の参加者は、ディスプレイに写った参加者の中の誰が話者であるかを容易に判別することができる。
<第2モード>
この第2モードでは、上記第1モードと同様、話者エリアを高レベルの画質、非話者エリアを低レベルの画質とするが、話者エリアの画質を固定せず、音声強度ピーク値Emaxに基づいて制御する。すなわち、音声強度ピーク値Emaxが高いときには話者エリアの画質を高くし、音声強度ピーク値Emaxが低いときには話者エリアの画質を低くする。なお、話者エリアの画質の時間変動を緩和するため、音声強度ピーク値Emaxそのものではなく、この音声強度ピーク値Emaxの移動平均や、後述する音声強度エンベロープを求め、これに基づいて話者エリアの画質を制御してもよい。この態様によれば、参加者が熱中し、大きな声で発言しているときには、通信相手装置のディスプレイに表示される発言者の属するエリアの画質が高まる。従って、通信相手装置を利用する会議参加者に対して、発言者の熱意が伝わり易くなる。
<第3モード>
第3モードでは、上記第1モードと同様、話者エリアは高レベルの画質とするが、非話者エリアについては第1モードとは異なった態様で画質の制御を行う。通常、会議の参加者の中には、熱心な参加者と、そうでない者がいる。ある参加者の発言の頻度が高い場合あるいは声が大きい場合、その参加者は、会議に熱心であり、発言を終えたとしても、暫くすると再び発言をする可能性が高いと考えられる。そこで、第3モードでは、話者エリアから非話者エリアに変わった場合における非話者エリアの画質は、そこに属している参加者の過去の発言履歴に基づいて制御する。すなわち、第3モードでは、熱心な参加者のいるエリアは、話者エリアから非話者エリアに切り換わったとしても、画質の劣化の程度を少なくする一方、たまにしか発言をしない参加者のいるエリアについては、そのエリアが非話者エリアになったときには画質を大きく劣化させるのである。
この第3モードでの画質の制御を可能にするため、画質制御部120は、発言履歴管理処理を実行する。図8はこの発言履歴管理処理の内容を示す図である。この発言履歴管理処理では、順次発生する音声強度ピーク値Emaxにローパスフィルタ処理を施すことにより、音声強度ピーク値Emaxを時間軸上において平均した音声強度エンベロープを生成し、この音声強度エンベロープが閾値を越えている期間を発言期間とする。そして、発言期間内における話者位置インデックスkと、音声強度ピーク値Emaxの平均値である平均音声強度と、発言期間の開始時刻および終了時刻を示す情報とからなる組を発言履歴情報として記憶する。
そして、第3モードでは、ある話者位置インデックスkにより示される位置を中心とする話者エリアが非話者エリアに切り換わるとき、それまでに発言履歴管理処理により記憶された発言履歴情報の中からその話者位置インデックスkを含む発言履歴情報を抽出する。そして、抽出した発言履歴情報を用いて、そのエリア(話者エリアから非話者エリアに変わるエリア)の参加者がどの程度熱心に発言を行ったかの評価を行い、この評価結果に従って非話者エリアの画質を決定する。
図9はこの場合の画質制御の例を示すものである。図9において、符号301A、302A、303Aは、参加者Aの属するエリアが話者エリアとなっている期間、符号311A、312A、313A、314Aは、参加者Aの属するエリアが非話者エリアとなっている期間、符号301Bは、参加者Bの属するエリアが話者エリアとなっている期間、符号311B、312Bは、参加者Bの属するエリアが非話者エリアとなっている期間を示す。この例では、参加者Aは発言の頻度が高く、これに比べて参加者Bは発言の頻度が低い。このため、エリア別画質制御処理では、参加者Bの属するエリアが非話者エリアとなる期間312Bにおいては同エリアの画質を大きく劣化させる。しかし、参加者Aの属するエリアに関しては、同エリアが非話者エリアとなる期間314Aにおける画質の劣化の程度は参加者Bの属するエリアに比べて少なくする。なお、図9では図示は省略したが、発言の頻度だけではなく、発言期間中の平均音声強度をも考慮して、発言をどの程度熱心に行っているかの評価を行い、この評価結果に基づいて画質の制御を行ってもよい。
この第3モードによれば、熱心に発言を行う者が属するエリアは、非話者エリアとなっている期間においても画質の劣化の程度が少なくなる。従って、通信相手装置を利用する会議参加者は、ディスプレイの表示に基づいて、熱心に発言を行う参加者を知ることができる。また、熱心に発言を行う参加者(図9に示す例では参加者A)は、非話者になったとしても、すぐにまた話者になる確率が高く、注視されがちである。第3モードでは、そのような熱心に発言を行う参加者の画像に関して、非話者になったときの画質の劣化を抑えるので、画像のちらつきや不連続な時間的変化を抑え、画像の自然な表示を行うことができる。
<第4モード>
図10は第4モードでの画質制御の例を示すものである。この第4モードにおいて、エリア別画質設定処理は、所定の時定数を持った積分処理により音声強度ピーク値Emaxの積分を行い、話者エリアの画質Qをその積分値に応じて設定する。参加者が発言を終了すると、音声強度ピーク値Emaxが閾値を下回り、発言をした参加者の属するエリアは非話者エリアとなる。そして、音声強度ピーク値の積分値は、所定の時定数に対応した減衰カーブを描いて徐々に減衰する。第4モードでは、この減衰する積分値に応じて、話者エリアから非話者エリアとなったエリアの画質Qを変化させる。
このような画質制御が行われた画像データが通信相手装置に送られると、同装置のディスプレイの表示画面では、参加者が発言を行うと、発言者の属するエリアの画質が声の大きさ等に応じて高まり、参加者が発言を終えると、その参加者の属するエリアの画質は徐々に低下してゆく。このように第4モードでは、通信相手装置を使用している会議の参加者に対し、参加者が発言を行っている様子をダイナミックに伝えることができる。
以上説明したように、本実施形態によれば、会議の参加者の画像データを通信相手装置に送る際、同画像データが示す画面内において発言を行っている話者の属するエリアを話者エリアとし、それ以外を非話者エリアとし、画像データにおける話者エリアを高レベルの画質、非話者エリアを低レベルの画質に調整している。従って、通信相手装置がディスプレイに画像データを表示させた場合に、話者エリアは高精細の画質で表示され、非話者エリアは劣った画質で表示されるため、通信相手装置を使用している会議参加者は、ディスプレイに写った参加者の中の誰が話者であるかを容易に判別することができる。従って、話者と別の場所でディスプレイに写った話者の画像を見ている他の会議参加者との間で意思疎通を図るのが容易になるという効果が得られる。また、本実施形態によれば、機械的なパンやズームの調整を行わず、信号処理のみにより話者エリアを高レベルの画質とし、非話者エリアを低レベルの画質とするので、通信相手に送る画像の状態を瞬時のうちに話者を強調した状態に遷移させることができるという効果がある。また、上記実施形態によれば、画像データのうち非話者エリアの画質を劣化させて通信相手装置に送るので、通信相手装置に送る画像データのデータ量を低減することができる。
以上、この発明の一実施形態について説明したが、この発明にはこれ以外にも他の実施形態が考えられる。例えば次の通りである。
(1)発言中の参加者が体を動かす場合、それに応じて話者位置インデックスkが変動することもあり得る。そこで、話者位置インデックスkの微動が観測される場合には発言者が体を動かしているとみなし、話者エリアの横幅を通常よりも広くしてもよい。
(2)通信相手装置に送る画面を縦に割って複数のエリアに区分し、それらの中から話者エリアとするエリアを選択するようにしてもよい。図11(a)および(b)はこの場合の画面の区分方法を例示するものである。
この区分方法では、カメラ201の視野内において音源を水平方向に移動させたときの収音点Sk(k=1〜m)における音声の強度Ek(k=1〜m)を実測またはシミュレーションにより予め求める。そして、図11(a)に示すように、収音点Sk(k=1〜m)において音源から受ける音声強度Ek(k=1〜m)の画面内話者位置に対する依存性を求める。なお、図11(a)および(b)はm=5の場合が例示されている。
図11(a)に示すように、話者位置が画面の左端付近にあるときには、収音点S1における音声強度E1が最も高い。話者位置が画面の左端から右に向かって移動してゆくと、次第に収音点S1における音声強度E1は低下し、代わりに収音点S2における音声強度E2が増加する。そこで、音声強度E1と音声強度E2との大小関係が逆転する話者位置を求め、図11(b)に示すように、この話者位置の左側をエリアA1、右側をエリアA2とする。
さらに話者位置が右に向かって移動してゆくと、図11(a)に示すように、次第に収音点S2における音声強度E2は低下し、代わりに収音点S3における音声強度E3が増加する。そこで、音声強度E2と音声強度E3との大小関係が逆転する話者位置を求め、図11(b)に示すように、この話者位置の左側をエリアA2、右側をエリアA3とする。
以下同様に隣り合った収音点における音声強度の大小関係の逆転が生じる話者位置を順次求め、これらの話者位置を境界とすることにより、画面を収音点の個数に応じたm個のエリアに分割する。そして、画質制御の動作の際に、画質制御部120は、予め分割されたエリアAk(k=1〜m)のうち話者位置インデックスkに対応したエリアAkを話者エリアとするのである。
(3)上記実施形態では、第3モードでの画質制御を行うために、話者位置検出部110により順次発生される話者位置インデックスkと音声強度ピーク値Emaxを監視し、話者位置インデックスk、平均音声強度および発言期間を示す情報を組にしたものを発言履歴情報として順次記憶した。しかし、これだけではなく、さらに発言期間内において話者位置インデックスkに対応した音声データDkにフォルマント解析などの周知の解析処理を施し、音声データDkが示す音声の声質パラメータを求め、この声質パラメータを発言履歴情報に加えてもよい。この場合、第3モードでの画質制御においては、ある話者エリアが非話者エリアに変わるときに、過去の発言履歴情報の中から、その話者エリアにおける発言者から得られた声質パラメータと近似した声質パラメータを含んでおり、同一の発言者のものであると考えられる発言履歴情報を抽出し、この抽出した発言履歴情報を用いて、その話者エリアの発言者の発言の頻度の評価を行う。このようにすることで、参加者が移動しながら発言をするような場合でも、その発言者の発言履歴を正確に求め、第3モードでの画質制御を行うことが可能になる。
(4)上記実施形態では、発言者の位置をマイクロホンアレイにより求めたが、発言者の位置を検出するための手段として他のものを用いてもよい。例えば第1フレームメモリ261に格納された画像データを解析して、口を動かしている人物の所在するエリアを求め、そのエリアを話者エリアとしてもよい。
(5)上記実施形態では、テレビ電話会議端末が画像データに画質調整処理を施して通信相手装置に送ったが、画質調整処理を受信側において行う態様も考えられる。この態様において、テレビ電話会議端末には、上記実施形態と同様、話者エリアを設定する話者エリア設定手段(話者位置検出部110および画質制御部120の話者エリア設定処理)と、話者エリアの画質を設定するとともに、話者エリアでない非話者エリアの画質として話者エリアよりも劣った画質を設定する画質設定手段(画質制御部120の画質設定処理)とが設けられる。そして、通信部102は、カメラ201により取得された画像データと、話者エリア設定手段により設定された話者エリアを指定する情報と、画質設定手段により設定された話者エリアおよび非話者エリアの各画質を指定する情報を通信相手装置に送信するのである。また、通信部102は、通信相手装置から画像データと、話者エリアを指定する情報と、話者エリアおよび非話者エリアの各画質を指定する情報を受信する。そして、受信画像処理部222(図1参照)では、通信相手装置から受信された画像データを、通信相手装置から受信された情報に基づいて話者エリアと非話者エリアとに分け、各エリアの画質調整を行い、この画質調整を経た画像データをディスプレイ223に表示させるのである。画質調整の態様は上記実施形態と同様である。この態様においても、上記実施形態と同様、会議参加者の中のどこに話者がいるのかが分かり易くなるという効果が得られる。
(6)上記実施形態において、信号合成部253−k(k=1〜m)は、収音点Sk(k=1〜m)における音声波形を示す音声データDk(k=1〜m)を合成したが、マイクロホンアレイの前方のエリアをm個のエリアに分け、各エリア内で発生する音声波形を示す音声データDk(k=1〜m)を合成するようにしてもよい。
この発明の一実施形態であるテレビ電話会議端末の構成を示すブロック図である。 同テレビ電話会議端末の送信音声処理部、送信画像処理部および制御部の構成例を示すブロック図である。 同実施形態における信号合成部の構成を示すブロック図である。 同信号合成部において行われる遅延処理の遅延時間の設定方法を説明する図である。 同実施形態における話者位置の検出方法を説明する図である。 同実施形態におけるエリア別画質設定処理を説明する図である。 同実施形態における画質制御の例を示す図である。 同実施形態における発言履歴管理処理を説明する図である。 同実施形態における画質制御の他の例を示す図である。 同実施形態における画質制御の他の例を示す図である。 同実施形態におけるエリア分割の方法を示す図である。
符号の説明
1……テレビ電話会議端末、100……制御部、101……操作部、102……通信部、201……カメラ、202……送信画像処理部、203……画像エンコーダ、211……音声入力部、212……送信音声処理部、213……音声エンコーダ、221……画像デコーダ、222……受信画像処理部、223……ディスプレイ、231……音声デコーダ、232……受信音声処理部、233……音声出力部、261……第1フレームメモリ、262……画質調整部、263……第2フレームメモリ、110……話者位置検出部、120……画質制御部、251−i(i=1〜n)……マイクロホン、252−i(i=1〜n)……A/D変換器、253−k(k=1〜m)……信号合成部、254……選択部、Sk(k=1〜m)……収音点。

Claims (11)

  1. 外界から取得した音声データおよび画像データを通信相手装置に送信し、通信相手装置から受信される音声データおよび画像データを音声および画像として出力するテレビ電話会議端末において、
    外界から画像データを取得する撮像手段と、
    外界から音声データを取得する収音手段と、
    話者位置を検出する話者位置検出手段と、
    前記話者位置検出手段による話者位置の検出結果に基づき、前記撮像手段により取得される画像データが示す画面内において話者の画像が属するエリアを推定し、該エリアを話者エリアとして設定する話者エリア設定手段と、
    前記撮像手段により取得される画像データに対し、話者エリアの画質よりも話者エリアでない非話者エリアの画質が劣化するように画質調整を施す画質調整手段と、
    前記画質調整手段による画質調整を経た画像データを通信相手装置に送信する送信手段と
    を具備することを特徴とするテレビ電話会議端末。
  2. 前記話者エリア設定手段は、前記話者位置検出手段により検出された話者位置に対応した画面内の位置を中心とし、所定の横幅を持ったエリアを話者エリアとして設定することを特徴とする請求項1に記載のテレビ電話会議端末。
  3. 前記話者エリア設定手段は、前記話者位置検出手段により検出される話者位置の時間変動に応じて、話者エリアの横幅を制御することを特徴とする請求項2に記載のテレビ電話会議端末。
  4. 前記話者エリア設定手段は、画面を縦に切ることにより複数のエリアに予め分割し、これら複数のエリアの中から話者エリアを選択することを特徴とする請求項1に記載のテレビ電話会議端末。
  5. 前記収音手段は、複数のマイクロホンからなるマイクロホンアレイにより構成されており、
    前記マイクロホンアレイの後段には、前記複数のマイクロホンの出力信号に基づいて前記マイクロホンアレイの前方の複数の収音点または収音エリアにおける音声波形を各々示す複数の音声データを合成する信号合成手段と、前記信号合成手段により合成された複数の音声データの中から通信相手装置に送信する音声データを選択する選択手段とが設けられ、
    前記話者位置検出手段は、前記信号合成手段により合成される複数の音声データの音声強度の分布に基づいて前記選択手段に選択させる音声データおよび話者位置を決定することを特徴とする請求項1〜4のいずれか1の請求項に記載のテレビ電話会議端末。
  6. 前記話者エリアおよび非話者エリアの画質を設定するエリア別画質設定手段を具備し、
    前記画質調整手段は、前記エリア別画質設定手段により設定された各エリアの画質に基づいて前記画質調整を行うことを特徴とする請求項5に記載のテレビ電話会議端末。
  7. 前記エリア別画質設定手段は、前記選択手段により選択される音声データに基づいて話者エリアの画質を設定する手段を有することを特徴とする請求項6に記載のテレビ電話会議端末。
  8. 前記エリア別画質設定手段は、前記選択手段により選択される音声データに基づいて話者エリアに属する話者の発言履歴を記録し、話者エリアが非話者エリアとなるときの非話者エリアの画質を同エリアの話者の発言履歴に基づいて設定する手段を有することを特徴とする請求項6に記載のテレビ電話会議端末。
  9. 前記エリア別画質設定手段は、所定の時定数を持った積分処理を前記選択手段により選択される音声データの音声強度に施し、この積分処理により得られる積分値に基づいて話者エリアの画質の設定および該話者エリアが非話者エリアとなった後の画質の設定を行う手段を有することを特徴とする請求項6に記載のテレビ電話会議端末。
  10. 前記エリア別画質設定手段は、前記選択手段により選択される音声データが示す音声の声質パラメータを求め、この声質パラメータを含む発言履歴を記録し、話者エリアが非話者エリアとなるとき、話者エリアに属する話者の声質パラメータと近似する声質パラメータを含み、話者エリアに属する話者と同一人物から得られたと認められる発言履歴に基づいて非話者エリアの画質を設定する手段を有することを特徴とする請求項6に記載のテレビ電話会議端末。
  11. 外界から取得した音声データおよび画像データを通信相手装置に送信し、通信相手装置から受信される音声データおよび画像データを音声および画像として出力するテレビ電話会議端末において、
    外界から画像データを取得する撮像手段と、
    外界から音声データを取得する収音手段と、
    話者位置を検出する話者位置検出手段と、
    前記話者位置検出手段による話者位置の検出結果に基づき、前記撮像手段により取得される画像データが示す画面内において話者の画像が属するエリアを推定し、該エリアを話者エリアとして設定する話者エリア設定手段と、
    前記話者エリアの画質を設定するとともに、話者エリアでない非話者エリアの画質として話者エリアよりも劣った画質を設定する画質設定手段と、
    前記撮像手段により取得された画像データと、前記話者エリア設定手段により設定された話者エリアを指定する情報と、前記画質設定手段により設定された話者エリアおよび非話者エリアの各画質を指定する情報を通信相手装置に送信する送信手段と、
    画像データと、話者エリアを指定する情報と、話者エリアおよび非話者エリアの各画質を指定する情報を通信相手装置から受信する受信手段と、
    前記受信手段により受信された画像データを、前記受信手段により受信された情報に基づいて話者エリアと非話者エリアとに分け、各エリアの画質調整を行う画質調整手段と、
    前記画質調整手段の画質調整を経た画像データを表示する表示手段と
    を具備することを特徴とするテレビ電話会議端末。
JP2006066986A 2006-03-13 2006-03-13 テレビ電話会議端末 Withdrawn JP2007243854A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006066986A JP2007243854A (ja) 2006-03-13 2006-03-13 テレビ電話会議端末

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006066986A JP2007243854A (ja) 2006-03-13 2006-03-13 テレビ電話会議端末

Publications (1)

Publication Number Publication Date
JP2007243854A true JP2007243854A (ja) 2007-09-20

Family

ID=38588882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006066986A Withdrawn JP2007243854A (ja) 2006-03-13 2006-03-13 テレビ電話会議端末

Country Status (1)

Country Link
JP (1) JP2007243854A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012138823A (ja) * 2010-12-27 2012-07-19 Brother Ind Ltd テレビ会議装置、テレビ会議方法、およびテレビ会議プログラム
JP2015507416A (ja) * 2011-12-28 2015-03-05 グーグル・インコーポレーテッド 動的な能動的参加者が無制限のテレビ会議
JP2017228866A (ja) * 2016-06-21 2017-12-28 日本電信電話株式会社 多地点接続装置、映像配信システム、多地点接続方法、及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012138823A (ja) * 2010-12-27 2012-07-19 Brother Ind Ltd テレビ会議装置、テレビ会議方法、およびテレビ会議プログラム
JP2015507416A (ja) * 2011-12-28 2015-03-05 グーグル・インコーポレーテッド 動的な能動的参加者が無制限のテレビ会議
JP2017228866A (ja) * 2016-06-21 2017-12-28 日本電信電話株式会社 多地点接続装置、映像配信システム、多地点接続方法、及びプログラム

Similar Documents

Publication Publication Date Title
US9924112B2 (en) Automatic video stream selection
CN110944143B (zh) 视频会议装置以及视频会议方法
US9762857B2 (en) Video and audio processing devices and video conference system
EP2046032A1 (en) A method and an apparatus for obtaining acoustic source location information and a multimedia communication system
JP2008288785A (ja) テレビ会議装置
US9959881B2 (en) Voice processing device, audio and video output apparatus, communication system, and sound processing method
JP2004118314A (ja) 発話者検出システムおよびそれを用いたテレビ会議システム
JP5609431B2 (ja) 音量制御装置、音量制御方法およびプログラム
JP2007243854A (ja) テレビ電話会議端末
CN107426200B (zh) 一种多媒体数据处理方法和装置
JP2008311910A (ja) 通信装置および会議システム
CN113225646A (zh) 音视频监控方法、装置、电子设备及存储介质
JP2009246528A (ja) 画像付音声通信システム、画像付音声通信方法およびプログラム
US20040264390A1 (en) Television conference system
JP2011055103A (ja) 集合住宅インターホンシステム
CN114400013A (zh) 说话者预测方法、说话者预测装置以及通信***
JP2007251355A (ja) 対話システム用中継装置、対話システム、対話方法
JP2007096555A (ja) 音声会議システム、端末装置及びそれに用いる話者優先レベル制御方法並びにそのプログラム
KR101143164B1 (ko) 휴대 단말기에서 동영상 촬영 시 오디오 입력 신호 처리 방법 및 장치
KR100602704B1 (ko) 다자간 화상통화시의 동적 화면표시 제어 장치 및 그 방법
JP4957221B2 (ja) 通信装置
WO2016151974A1 (ja) 情報処理装置、情報処理方法、クライアント装置、サーバ装置および情報処理システム
KR100770927B1 (ko) 휴대용 단말기에서 영상을 촬영하는 방법
JP3422629B2 (ja) テレビカメラ装置
JP2021117981A (ja) 画像処理装置、画像処理方法、映像送受信システム、およびプログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090602