JP6590152B2 - 情報処理装置、会議システムおよび情報処理装置の制御方法 - Google Patents

情報処理装置、会議システムおよび情報処理装置の制御方法 Download PDF

Info

Publication number
JP6590152B2
JP6590152B2 JP2016051100A JP2016051100A JP6590152B2 JP 6590152 B2 JP6590152 B2 JP 6590152B2 JP 2016051100 A JP2016051100 A JP 2016051100A JP 2016051100 A JP2016051100 A JP 2016051100A JP 6590152 B2 JP6590152 B2 JP 6590152B2
Authority
JP
Japan
Prior art keywords
sound
input
unit
information processing
angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016051100A
Other languages
English (en)
Other versions
JP2017168977A (ja
Inventor
未来 袴谷
未来 袴谷
清人 五十嵐
清人 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2016051100A priority Critical patent/JP6590152B2/ja
Publication of JP2017168977A publication Critical patent/JP2017168977A/ja
Application granted granted Critical
Publication of JP6590152B2 publication Critical patent/JP6590152B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、情報処理装置、会議システムおよび情報処理装置の制御方法に関する。
近年、インターネット等のネットワークを介して遠隔地(拠点)に設置された端末装置(会議端末ともいう)を接続し、遠隔会議(テレビ会議、ビデオ会議ともいう)を行う会議システム(遠隔会議システム、テレビ会議システム、ビデオ会議システムともいう)が普及している。
この会議システムでの会議端末は、各拠点の会議室等に設置され、相手先の会議端末との間で会議出席者の画像や音声をやり取りすることで遠隔会議を行う。具体的には、会議端末の各々は、遠隔会議に出席する会議出席者をカメラで撮像するとともに会議出席者の音声をマイクで集音し、相手先の会議端末に画像データや音声データを送信する一方で、相手先の会議端末から送信された画像データおよび音声データを受信し、受信した画像データを用いた会議画面を表示部(モニタ)に表示出力するとともに音声データをスピーカから音出力する。なお、本明細書では、「音声」は人の声に限るものではなく、会議端末から発生される呼び出し音などの機械音も含むものとする。
会議端末のマイクとして、音声を入力するためのマイクが複数配列されてなるマイクアレイを用いることが知られている。そして、拠点間での円滑な会話を実現するために、マイクアレイを構成する各マイクに届いた音源の時間差に基づいて、音声が入力された方向を特定すること(音源方向検知機能、音源方向検知処理という)により、会議参加者のうち実際に発話している参加者(発話者という)を検知して、発話者をカメラで撮像する機能(話者追尾機能という)を備えるものが知られている。
例えば、特許文献1には、同一音源からの音が複数のマイクに到達するときの時間差を利用して、音源位置が求められるようするとともに、求めた音源位置に基づいて、音源の方向へカメラの向きとズーム量を制御する装置が開示されている。
ところで、会議端末のカメラ、マイク、スピーカが会議端末の本体(本体部、装置本体ともいう)に一体で設けられている場合、カメラにより会議参加者を広く撮像するために、会議端末は、会議参加者の視線が集まるモニタの付近に設置されることが多い。しかしながら、マイクが会議端末の本体と一体型である場合、マイクがモニタに近い位置にあることになり、モニタから遠い位置にいる会議参加者からの音声が拾いにくくなってしまう。
これに対し、マイクを会議端末の本体とは別体のマイクユニット(音声入力ユニットともいう)として構成することが提案されている。マイクを別体のマイクユニットとして構成し、会議端末の本体に対して、有線または無線によりマイクユニットを接続することで、マイクユニットは、モニタから離れた所望の位置(例えば、会議参加者の中央位置)に配置することができる。よって、どの会議参加者からの音声も拾えるようにすることが可能となる。
マイクアレイが本体と一体型である会議端末の場合には、話者追尾機能を音源方向検知機能により好適に実行することが可能であったが、マイクアレイを会議端末の本体とは別体のマイクユニットとして構成して、有線または無線による接続とする場合、マイクユニットの配置の自由度が高くなる一方で、話者追尾機能の実現のために、マイクユニットを本体に対して所定の位置関係に配置する必要があり、使用環境に応じて毎回異なる位置や角度でマイクユニットを配置すると、話者追尾を正しく実行できないことがあった。
例えば、特許文献1に記載の技術では、カメラを載置した回転台の0°方向と2つのマイクを結ぶ線とが平行であるように設置する必要があり、移動可能範囲も平行移動の範囲内に制限されており、平行配置以外の角度を持った配置にするためには、予め角度を測定しておく必要があった。
そこで本発明は、音声入力ユニットを装置本体に対して任意の角度で配置しても、話者追尾を実現することができる情報処理装置を提供することを目的とする。
かかる目的を達成するため、本発明に係る情報処理装置は、複数の音声入力部を備えてなる音声入力手段を有する第1の装置と、音声を出力する音声出力手段と、所定範囲を撮像する撮像手段と、前記複数の音声入力部へ入力される音声に基づいて、前記音声入力手段への音声の入力方向を検知する音源方向検知手段と、前記音源方向検知手段の検知結果に応じて、前記撮像手段による撮像範囲を制御する撮像範囲制御手段と、を有する第2の装置と、を備え、前記音源方向検知手段は、前記音声出力手段から出力された音声による前記音声入力手段への音声入力に基づいて、前記第1の装置の前記第2の装置に対する相対的な位置情報を検知し、前記撮像範囲制御手段は、前記検知結果および前記位置情報に基づいて、前記撮像範囲を制御し、前記第2の装置に対する前記第1の装置の基準角度が予め設定されており、前記基準角度は、前記第1の装置を基準位置に設置したときに前記音声出力手段から出力した所定の音を、前記音声入力手段に入力させ、前記所定の音の入力に対して、音源方向検知処理を実行した際の前記所定の音の検出角度とし、前記音源方向検知処理は、前記音声入力手段を構成する前記複数の音声入力部に届く前記所定の音の時間差に基づいて、前記所定の音が入力された方向を特定するものとし、前記音源方向検知手段は、前記音声出力手段から出力された音声による前記音声入力手段への音声入力に基づいて、前記第1の装置が設置された角度となる、前記第1の装置の前記第2の装置に対する相対的な設置角度を検知するとともに、前記設置角度と前記基準角度とのずれ量に基づいてオフセットすることにより、前記基準角度を補正し、前記撮像範囲制御手段は、補正後の前記基準角度を用いて前記撮像範囲を制御するものである。
本発明によれば、音声入力ユニットを装置本体に対して任意の角度で配置しても、話者追尾を実現することができる。
テレビ会議システムの構成例を示すブロック図である。 会議端末の主要内部構成例(1)を示すブロック図である。 音源方向検知処理の説明図である。 会議端末の主要内部構成例(2)を示すブロック図である。 マイクユニットを基準の配置位置(角度)としたときの、カメラによる撮像範囲の説明図である。 ある拠点の様子を示す説明図であって、(A)マイクユニットを基準の配置角度で設置した例、(B)マイクユニットが基準の配置角度で設置されない例、(C)マイクユニットの配置角度を補正した様子を示す例、である。 カメラによる話者追尾の説明図であって、(A)0°方向のオフセットを行わない比較例、(B)0°方向のオフセットを行う実施例の説明図である。 話者追尾制御の一例を示すフローチャートである。
以下、本発明に係る構成を図1から図8に示す実施の形態に基づいて詳細に説明する。
(会議システム構成)
本発明に係る会議システムの一実施形態であるテレビ会議システムの構成について説明する。
図1は、テレビ会議システム1の構成例を示すブロック図である。図1に示すように、テレビ会議システム1は、サーバ3と複数の会議端末5(5−1,5−2,5−3,5−4・・・)とを備え、これらがインターネット等のネットワークNを介して接続されて構成される。サーバ3としては、サーバコンピュータやワークステーション等を利用することができ、会議端末5としては、専用の会議端末装置(情報処理装置)のほか、パーソナルコンピュータ等の汎用の情報処理装置を利用することができる。
サーバ3は、個々の会議端末5との間で通信接続が確立しているか否かを監視する処理や、会議開始時においてテレビ会議に参加する拠点(参加拠点)に設置された会議端末5を呼び出す処理、呼び出しに応答して通信接続が確立した参加拠点の会議端末5からテレビ会議の間に送信される画像データや音声データを相手先(他の参加拠点)の会議端末5に転送する処理等を行う。
会議端末5の各々は、遠隔地にある拠点の会議室等に設置され、テレビ会議の出席者によって操作される。テレビ会議中の各参加拠点の会議端末5は、後述するカメラ112によって撮像した会議出席者の画像データやマイクアレイ71によって集音した会議出席者の音声データをサーバ3に送信する一方、他の参加拠点の会議端末5から送信されてサーバ3によって転送された画像データや音声データを受信し、ディスプレイ120に会議画面として表示出力するとともにスピーカ115から出力(放音)する。
例えば、このテレビ会議システム1において図1に示す3台の会議端末5−1〜5−3が参加するテレビ会議では、会議端末5−1から送信された画像データや音声データはサーバ3の制御によって相手先である会議端末5−2,5−3に転送される一方、会議端末5−4には転送されない。同様に、会議端末5−2,5−3から送信された画像データや音声データはサーバ3の制御によって各々の相手先である会議端末5−1,5−3や会議端末5−1,5−2に転送され、会議端末5−4には転送されない。このようにして、テレビ会議システム1では、サーバ3との通信接続が確立された2台以上の会議端末5が設置された参加拠点間でテレビ会議が行われる。
(会議端末構成(1))
図2は、会議端末5の主要内部構成例(1)を示すブロック図である。図2に示されているように、会議端末5は、マイクユニット70を会議端末5の本体部50と別体としている。図2の例では、マイクユニット70は、本体部50とはケーブル70cを介して有線接続される。
会議端末5の本体部50は、会議端末5の全体の動作を制御するCPU(Central Processing Unit)101、IPL(Initial Program Loader)等のCPU101の駆動に用いられるプログラムを記憶したROM(Read Only Memory)102、CPU101のワークエリアとして使用されるRAM(Random Access Memory)103、端末用プログラム、画像データ、及び音声データ等の各種データを記憶するフラッシュメモリ104、CPU101の制御にしたがってフラッシュメモリ104に対する各種データの読み出し又は書き込みを制御するSSD(Solid State Drive)105、フラッシュメモリ等の記録メディア106に対するデータの読み出し又は書き込み(記憶)を制御するメディアドライブ107、会議端末5の宛先を選択する場合などに操作される操作部108、会議端末5の電源のON/OFFを切り換えるための電源スイッチ109、ネットワークNを利用してデータ伝送をするためのネットワークI/F(Interface)111を備えている。
操作部108は、キーボードやマウス、タッチパネル、各種スイッチ等の入力装置によって実現されるものであり、操作入力に応じた入力データをCPU101に出力する。
ネットワークI/F111は、外部(例えばサーバ3)とのデータ通信を行うためのものであり、LANを経由してネットワークNと接続し、相手先の会議端末5との画像データや音声データ等の送受を、サーバ3を介して行う。このネットワークI/F111は、10Base−T,100Base−TX,1000Base−T等に対応した制御を行いイーサネット(登録商標)に接続するもの(有線LAN)や、IEEE802.11a/b/g/nに対応した制御を行うもの(無線LAN)等、接続態様に応じたものを適宜採用して用いることができる。
また、会議端末5の本体部50は、CPU101の制御に従って被写体を撮像して画像データを得る内蔵型のカメラ112、このカメラ112の駆動を制御する撮像素子I/F113、音声を出力する内蔵型のスピーカ115、CPU101の制御に従ってマイクユニット70のマイクアレイ71及びスピーカ115との間で音声信号の入出力を処理する音声入出力I/F116、CPU101の制御に従って外付けのディスプレイ120に画像データを伝送するディスプレイI/F117、各種の外部機器を接続するための外部機器接続I/F118、および上記各構成要素を電気的に接続するためのアドレスバスやデータバス等のバスライン110を備えている。
カメラ112は、レンズや、光を電荷に変換して被写体の画像(映像)を電子化する固体撮像素子を含み、固体撮像素子として、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサや、CCD(Charge Coupled Device)イメージセンサ等が用いられる。
カメラ112は、会議出席者の画像を入力するためのものであり、会議室内の様子を撮像し、生成した画像データを随時、CPU101に出力する。
スピーカ115は、CPU101から入力される音声データを出力する音声出力部である。
外部機器接続I/F118には、USB(Universal Serial Bus)ケーブル等によって、外付けカメラ、外付けスピーカ等の外部機器がそれぞれ接続可能である。例えば、外付けカメラが接続された場合には、CPU101の制御に従って、内蔵型のカメラ112に優先して、外付けカメラが動作するようにしてもよい。同じく、外付けスピーカが接続された場合には、CPU101の制御に従って、内蔵型のスピーカ115に優先して、外付けスピーカを駆動させるようにしてもよい。
なお、記録メディア106は、会議端末5に対して着脱自在な構成となっている。また、CPU101の制御にしたがってデータの読み出し又は書き込みを行う不揮発性メモリであれば、フラッシュメモリ104に限らず、EEPROM(Electrically Erasable and Programmable ROM)等を用いてもよい。
更に、上記端末用プログラムは、インストール可能な形式又は実行可能な形式のファイルで、上記記録メディア106等の、コンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。また、上記端末用プログラムは、フラッシュメモリ104ではなくROM102に記憶させるようにしてもよい。
ディスプレイ120は、被写体の画像や操作用アイコン等を表示するLCDやELディスプレイ、CRTディスプレイ等によって構成された表示部であり、CPU101から入力される画像データを表示した会議画面等の各種画面を表示出力する。また、ディスプレイ120は、ケーブル120cによってディスプレイI/F117に接続される。このケーブル120cは、アナログRGB(VGA)信号用のケーブルであってもよいし、コンポーネントビデオ用のケーブルであってもよいし、HDMI(登録商標)(High-Definition Multimedia Interface)やDVI(Digital Video Interactive)信号用のケーブルであってもよい。
マイクユニット70は、本体部50とは別体として構成される。マイクユニット70は、会議出席者の音声を入力するマイク72を複数備えたマイクアレイ71を有する音声入力ユニットであって、マイクアレイ71へ入力される会議出席者の音声データを、ケーブル70cを介して本体部50へ送信する。
マイクアレイ71は、会議出席者の音声を入力するためのマイク72が複数配列されてなる音声入力手段であって、会議出席者の音声を集音する。なお、本実施形態では、マイクアレイ71が4つのマイク72a〜72dを備えている例を示しているが、マイク数はこれに限られるものではない。
CPU101は、カメラ112から入力される画像データやマイクアレイ71から入力される音声データ、ネットワークI/F111から入力される相手先の会議端末5からの画像データや音声データ、操作部108から入力される入力データ、フラッシュメモリ104等に記録されるプログラムやデータ等をもとに、会議端末5を構成する各部への指示やデータの転送等を行って会議端末5の動作を統括的に制御する。例えば、CPU101は、サーバ3からの呼び出しを受けてサーバ3との通信接続が確立した後、カメラ112から入力される画像データやマイクアレイ71から入力される音声データをサーバ3に送信する処理と、サーバ3から転送される相手先の会議端末5からの画像データや音声データを受信する処理とを並行して繰り返し行う。
具体的には、CPU101は、テレビ会議中にカメラ112から随時入力される画像データ、およびマイクアレイ71から随時入力される音声データをエンコードしてネットワークI/F111に出力することで、これらをサーバ3に送信する処理を行う。CPU101は、例えば、H.264/AVC、H.264/SVC等の規格によるコーデックを行う。
また、CPU101は、これと並行し、相手先の会議端末5から送信されてサーバ3によって転送された画像データおよび音声データをネットワークI/F111を介して受信する。そして、CPU101は、受信した画像データおよび音声データをデコードしてディスプレイ120、スピーカ115に送信するコーデック機能を有している。これにより、相手先の会議端末5で入力された画像および音声の再生を行う。
また、CPU101は、マイクアレイ71の各マイク72からの入力に基づいて、音源方向検知処理を実行する音源方向検知部130を備えている。
図3は、音源方向検知部130が実行する音源方向検知処理の説明図である。音源方向検知処理は、マイクアレイ71を構成する各マイク72に届く音源の時間差に基づいて、音声が入力された方向を特定するものである。すなわち、例えば、図3に示すように、4つのマイク(マイク1〜マイク4)に対して、音源である人物Aから音声が入力された場合、マイク1とマイク2の到達時間差(Δt1)、マイク1とマイク3の到達時間差(Δt2)、マイク1とマイク4の到達時間差(Δt3)、に基づいて音声の入力方向を検知することができる。音源方向検知処理としては、公知または新規の方法を適用することができる。
なお、本実施形態では、音源方向検知処理を本体部50のCPU101にて実行する例を説明したが、マイクユニット70が音源方向検知処理を実行する音源方向処理部(音声処理モジュール)を備え、検知結果をCPU101に通知するようにしてもよい。
また、CPU101は、音源方向検知部130での検知結果に基づいて、カメラ112の撮像範囲を制御する撮像範囲制御部131を備えている。カメラ112は、例えば、撮像方向が旋回可能に設けられており、検出された発話者の方向に基づいて、CPU101により旋回が制御される。また、カメラ112を、広角レンズを用いて構成し、その視野範囲(画角)内に会議出席者の全員が含まれるようにして、検出された発話者の方向に基づいて、デジタル処理により撮像範囲を切り替える制御をするものであってもよい。
(会議端末構成(2))
図4は、会議端末5の主要内部構成例(2)を示すブロック図である。図4に示されているように、会議端末5は、マイクユニット70を会議端末5の本体部50と別体としている。図4の例では、マイクユニット70は、本体部50とは無線通信で接続される。
マイクユニット70および本体部50は、それぞれ無線通信部73、無線通信部114を備えており、無線通信部73から無線通信部114へ音声データが送信される。他の構成については、図2と同様であるので、説明を省略する。なお、マイクユニット70と本体部50は、Bluetooth(登録商標)、NFCなどの公知の近距離無線通信方式、または新規の近距離無線通信方式を用いて無線通信されるものであればよく、無線通信方式は、特に限られるものではない。
(話者追尾制御)
図5は、マイクユニット70を基準の配置位置(角度)としたときの、会議端末5の本体部50のカメラ112による撮像範囲の説明図である。
図5は、会議端末5の本体部50がテーブル90の一端側に配置されるとともに、これと無線接続されるマイクユニット70がテーブル90の中央部に配置された様子を示す上面図である。
なお、マイクユニット70の基準位置は、例えば、マイクユニット70に本体部50側へ合わせる基準(目印)が設けてあり、これを本体部50の正面に向けて設置した場合を、基準の配置角度(0°)とするものである。また、有線接続されるマイクユニット70の場合は、例えば、ケーブル70cを本体部50から真っ直ぐ正面に引き出した際の設置位置が、通常、基準の配置角度(0°)となる。
音源方向検知部130は、マイクユニット70の各マイク72に入力される音声に基づいて、音源方向検知処理を行うことで、マイクユニット70に対する音源(話者)の角度を検出する。そして、撮像範囲制御部131は、音源方向検知部130で検出された角度に応じて、カメラ112の向き(または切り出す範囲)および焦点制御する。なお、本実施形態では、検出角度が4つのフォーカスエリアのいずれであるかを検出する例を説明するが、音源方向検知部130で検出する角度の区分数はこれに限られるものではなく、例えば、検出可能な区分数を増やすことで、より精度よく話者追尾が可能であることは勿論である。
図5では、例えば、検出角度に応じて、以下の4つのフォーカスエリアを設定し、撮像範囲制御部131は、このフォーカスエリアにカメラ112を向けるとともに、焦点を合わせる。
第1フォーカスエリア(左エリアへのフォーカス):45°〜135°
第2フォーカスエリア(正面へのフォーカス):135°〜225°
第3フォーカスエリア(右エリアへのフォーカス):225°〜315°
第4フォーカスエリア(フォーカス無し):315°〜45°
しかしながら、図5では、マイクユニット70が基準の配置角度で設置されることを前提としており、マイクユニット70の配置位置、配置角度がずれていると、正しく話者追尾できない場合があった。
そこで、本実施形態に係る情報処理装置(会議端末5)は、複数の音声入力部(マイク72)を備えてなる音声入力手段(マイクアレイ71)を有する第1の装置(マイクユニット70)と、音声を出力する音声出力手段(スピーカ115)と、所定範囲を撮像する撮像手段(カメラ112)と、複数の音声入力部へ入力される音声に基づいて、音声入力手段への音声の入力方向を検知する音源方向検知手段(音源方向検知部130)と、音源方向検知手段の検知結果に応じて、撮像手段による撮像範囲を制御する撮像範囲制御手段(撮像範囲制御部131)と、を有する第2の装置(本体部50)と、を備え、音源方向検知手段は、音声出力手段から出力された音声による音声入力手段への音声入力に基づいて、第1の装置の第2の装置に対する相対的な位置情報を検知し、撮像範囲制御手段は、検知結果および位置情報に基づいて、撮像範囲を制御するものである。なお、括弧内は実施形態での符号、適用例を示す。
すなわち、マイクユニット70の本体部50に対する配置角度を適宜検出して、検出した角度に基づいて補正制御を行うことにより、マイクユニット70が任意の角度および任意の位置に設置された場合であっても、カメラ112による話者追尾制御を正確に実行することを可能とするものである。
本実施形態に係る会議端末5による話者追尾制御について、図6を参照して説明する。図6は、ある拠点の様子を示す説明図であって、テーブル90の一端側に会議端末5の本体部50が配置されるとともに、テーブル90の中央部に、マイクユニット70を配置されている例である。また、テーブル90の周囲には、会議の参加者A〜Fがいる様子を示している。
図6(A)は、マイクユニット70を基準の配置角度(0°)で設置した様子を示している。本実施形態では、マイクユニット70の0°方向を本体部50の方向とし、時計回りに角度を振った例を示している。基準の配置角度は、マイクユニット70と本体部50との間で予め設定されるものであればよく、図6(A)の例に限られるものではないのは勿論である。
そして、本実施形態に係る会議端末5は、マイクユニット70が基準の配置位置に設置されない場合も話者追尾を可能とするものである。このため、例えば、図6(B)に示すように、マイクユニット70の0°方向が、本体部50の方向を向けられずに設置された場合を考える。図6(B)では、本体部50の方向は、マイクユニット70の90°方向となっている。
図6(A)に示す0°位置にマイクユニット70が正しく設置される場合、マイクアレイ71に入力される音源の方向を音源方向検知処理により検出し、検出角度に基づいてカメラ112を制御することで、話者追尾が可能となる。
しかしながら、図6(B)のようにマイクユニット70が基準角度以外の角度で設置されている場合、音源方向検知部130での検出結果が実際の音源方向とは異なることとなる。そして、撮像範囲制御部131は、検出角度に基づいてカメラ112を制御するが、撮像範囲制御部131は、マイクユニット70と本体部50との間で予め設定された基準角度に基づいて、撮像範囲を制御するため、話者追尾制御に失敗してしまうこととなる。
そこで、本実施形態に係る会議端末5は、先ず、本体部50のスピーカ115から出力した所定の音を、マイクアレイ71に入力させて、この入力に対して、音源方向検知処理を実行した際の音源の検出角度(すなわち、マイクアレイ71に対する本体部50の方向)を、基準角度(0°)として、オフセットするものである。
すなわち、図6(C)に示すように、実際は、図6(B)のように配置されたマイクユニット70の角度(本体部50に90°が向いている状態)を、この角度(90°)を0°としてオフセットし、時計周りに角度を振るものである。そして、以後、このオフセットされた0°方向を基準として、参加者A〜Fからの音声を検出するものである。
図7は、会議端末5のカメラ112による話者追尾の説明図である。図7(A)は、0°方向のオフセットを行わない比較例、図7(B)は、0°方向のオフセットを行う実施例の説明図である。
例えば、図7(A)に示すように、音源方向検知部130での検出結果が、180°〜225°の範囲であった場合、実際の発話者は参加者Bであるが、オフセット前の角度では、180°〜225°は90°分ずれた位置になっているため、このままの位置情報に基づいて、撮像範囲を制御すると、実際に発話者がいる位置とは異なる範囲をフォーカスエリアとしてしまう。
一方、図6(C)にて説明したように、0°方向をオフセットした後の角度を用いることで、180°〜225°は、範囲を90°〜135°の範囲として検出することが可能になり、検出した位置情報に基づいて、正しく、実際の発話者のいる範囲をフォーカスエリアとすることができる。
ここまで説明した話者追尾制御について、図8のフローチャートを参照して説明する。図8は、本実施形態に係る会議端末5による話者追尾制御の一例を示すフローチャートである。
先ず、会議端末5の会議開始ボタンの押下や、相手先の会議端末5からの会議呼び出しにより、会議が開始する(S101)。
会議の開始時において、会議端末5は、スピーカ115から相手先の会議端末5への発信音、または、相手先の会議端末5からの受信音を出力させる(S102)。この発信音は、例えば、会議開始時に鳴らされる会議端末5の呼び出し音である。
そして、スピーカ115から出力された発信音もしくは受信音が、マイクユニット70のマイクアレイ71の各マイク72に入力されると(S103)、音源方向検知部130は、音源方向検知処理により音源の方向(すなわち、マイクユニット70に対する本体部50のスピーカ115の方向(角度))を検出する(S104)。
次いで、音源方向検知部130は、検出された角度が、規定の基準角度(0°)からどれだけずれた方向から音声が入力されたかを算出する(S105)。
そして、S105で算出された角度を、話者追尾制御における基準角度とする。すなわち、S105で算出された角度を用いて配置したマイクユニット70の0°位置をオフセットする(S106)。
S101〜S106の処理により、会議開始時のマイクユニット70の設置角度を補正した後、実際の会議が開始する。
会議の開始後は、マイクユニット70は、何らかの音声入力を待つ状態である(S107)。マイクユニット70への音声入力があった場合、この音声入力が会議端末5のスピーカ115から出力された音声(すなわち、接続先の会議端末5で発せられた音声)であるのか、自拠点で発せられた音声(すなわち、周囲の会議参加者の発話)であるのかを判断する(S108)。
このS108の判断は、判断手段としてのCPU101で判断する。例えば、音声データを相手先の会議端末5から受信して、該音声データに基づく音声を出力している際の、マイクユニット70への入力音声であるかを判断することで、会議端末5のスピーカ115から出力された音声であるのか、会議参加者の発話であるのかを判断する。また、例えば、スピーカ115からの音声出力中に実行される所定の処理(エコーキャンセラ処理など)が実行中であるか否かに基づいて判断するようにしてもよい。
マイクユニット70への音声入力が会議端末5のスピーカ115から出力された音声であった場合(S108:YES)、音源方向検知部130は、再度、音源方向検知処理により音源の方向を検出する(S109:S104と同処理)。
この結果、検出されたマイクユニット70に対する本体部50の方向が前回検出した値と同じ方向であるかを判断する(S110)。同じ方向であった場合(S110:YES)は、マイクユニット70の配置位置の変化がないことを示しているので、新たに補正値を算出することはせずに、再び何らかのマイクユニット70への音声入力を待つ処理となる(S107に戻る)。
一方、前回検出した値と異なる方向であった場合(S110:NO)は、会議中にマイクユニット70の配置位置の変化があったことを示しているので、S105へ戻り、再度、検出された角度と、基準角度とのずれを算出し、算出結果に基づいて、マイクユニット70の0°位置をオフセットする(S105,S106)。そして、再び何らかのマイクユニット70への音声入力を待つ(S107)。
このように、会議中にスピーカ115から出力された音声がマイクユニット70へ入力された際に、角度の算出を適宜行うようにすることで、会議中にマイクユニット70の配置位置が変更になった場合もその変化に対応することができる。また、S110の判断は、スピーカ115から出力された音声がマイクユニット70へ入力されるたびに実行せず、所定の時間の経過を追加の条件として実行するようにしてもよい。
これに対し、S108において、マイクユニット70への音声入力が自拠点で発せられた音声であった場合(S108:NO)は、S106において、オフセットされた0°位置に基づいて、マイクユニット70へ入力された音源方向(すなわち、発話者の方向)を検出する(S111)。
そして、撮像範囲制御部131は、検出された発話者の方向に基づいて、発話者の方向にカメラ112を追尾させる制御を行って、撮像する(S112)。会議の終了処理(S113:YES)がなされるまでは、S107の処理に戻って、マイクユニット70への音声入力を待つ(S113:NO)。
なお、S102の処理では、発信音または受信音に基づいて、会議開始時のマイクユニット70と本体部50との位置関係を検出しているが、必ずしも発信音または受信音に基づいて、会議開始時の位置関係を検出する必要はない。すなわち、本体部50から何らかの音を出力して、これに基づいて、会議開始時に位置関係を検出するものであればよいが、発信音や受信音がなっている間に、マイクユニット70の近傍で、発話者から発話されることは少ないと考えられるため、発信音や受信音に基づいて、会議開始時にマイクユニット70の位置検出を行うことが好適である。
以上説明した本実施形態に係る会議端末によれば、音声入力ユニットを装置本体に対して任意の角度で配置しても、話者追尾を実現することができる。
すなわち、マイクアレイ71を備えたマイクユニット70が、スピーカ115とカメラ112を備えた会議端末5の本体部50とは、別体として設けられ、有線又は無線により接続される構成においても、マイクユニット70が、本体部50のスピーカ115から出力した音をマイクアレイ71から入力した際の音源方向検知結果に基づいて、マイクユニット70(マイクアレイ71)と本体部50との位置関係を検出し、検出した角度に基づいて、マイクユニット70の配置角度をオフセットすることで、話者追尾機能を有する会議端末5のマイクユニット70において、マイクユニット70を本体部50に対し、配置位置、配置角度の制限なく、任意の角度、位置で配置することが可能となる。換言すれば、任意の位置にマイクユニット70を配置した場合であっても、話者追尾機能を正確に実現することができる。
尚、上述の実施形態は本発明の好適な実施の例ではあるがこれに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形実施可能である。
例えば、カメラ112の画像データに対し、人物認識技術を用いて画像データに含まれる人物(話者)を検知して、検出した話者に合わせて、カメラ112をズームアップ制御することも好ましい。なお、人物認識技術は、公知または新規の技術によればよく、特に限られるものではない。
1 テレビ会議システム
3 サーバ
5 会議端末
50 本体部
70 マイクユニット
70c ケーブル
71 マイクアレイ
72,72a〜72d マイク
73 無線通信部
90 テーブル
101 CPU
102 ROM
103 RAM
104 フラッシュメモリ
105 SSD
106 記録メディア
107 メディアドライブ
108 操作部
109 電源スイッチ
110 バスライン
111 ネットワークI/F
112 カメラ
113 撮像素子I/F
114 無線通信部
115 スピーカ
116 音声入出力I/F
117 ディスプレイI/F
118 外部機器接続I/F
120 ディスプレイ
120c ケーブル
130 音源方向検知部
131 撮像範囲制御部
N ネットワーク
特開平10−227849号公報

Claims (9)

  1. 複数の音声入力部を備えてなる音声入力手段を有する第1の装置と、
    音声を出力する音声出力手段と、
    所定範囲を撮像する撮像手段と、
    前記複数の音声入力部へ入力される音声に基づいて、前記音声入力手段への音声の入力方向を検知する音源方向検知手段と、
    前記音源方向検知手段の検知結果に応じて、前記撮像手段による撮像範囲を制御する撮像範囲制御手段と、を有する第2の装置と、を備え、
    前記音源方向検知手段は、前記音声出力手段から出力された音声による前記音声入力手段への音声入力に基づいて、前記第1の装置の前記第2の装置に対する相対的な位置情報を検知し、
    前記撮像範囲制御手段は、前記検知結果および前記位置情報に基づいて、前記撮像範囲を制御し、
    前記第2の装置に対する前記第1の装置の基準角度が予め設定されており、
    前記基準角度は、前記第1の装置を基準位置に設置したときに前記音声出力手段から出力した所定の音を、前記音声入力手段に入力させ、前記所定の音の入力に対して、音源方向検知処理を実行した際の前記所定の音の検出角度とし、
    前記音源方向検知処理は、前記音声入力手段を構成する前記複数の音声入力部に届く前記所定の音の時間差に基づいて、前記所定の音が入力された方向を特定するものとし、
    前記音源方向検知手段は、前記音声出力手段から出力された音声による前記音声入力手段への音声入力に基づいて、前記第1の装置が設置された角度となる、前記第1の装置の前記第2の装置に対する相対的な設置角度を検知するとともに、前記設置角度と前記基準角度とのずれ量に基づいてオフセットすることにより、前記基準角度を補正し、
    前記撮像範囲制御手段は、補正後の前記基準角度を用いて前記撮像範囲を制御することを特徴とする情報処理装置。
  2. 複数の音声入力部を備えてなる音声入力手段と、
    前記複数の音声入力部へ入力される音声に基づいて、前記音声入力手段への音声の入力方向を検知する音源方向検知手段と、を有する第1の装置と、
    音声を出力する音声出力手段と、
    所定範囲を撮像する撮像手段と、
    前記音源方向検知手段の検知結果に応じて、前記撮像手段による撮像範囲を制御する撮像範囲制御手段と、を有する第2の装置と、を備え、
    前記音源方向検知手段は、前記音声出力手段から出力された音声による前記音声入力手段への音声入力に基づいて、前記第1の装置の前記第2の装置に対する相対的な位置情報を検知するとともに、該位置情報を前記第2の装置へ伝送し、
    前記撮像範囲制御手段は、前記検知結果および前記位置情報に基づいて、前記撮像範囲を制御し、
    前記第2の装置に対する前記第1の装置の基準角度が予め設定されており、
    前記基準角度は、前記第1の装置を基準位置に設置したときに前記音声出力手段から出力した所定の音を、前記音声入力手段に入力させ、前記所定の音の入力に対して、音源方向検知処理を実行した際の前記所定の音の検出角度とし、
    前記音源方向検知処理は、前記音声入力手段を構成する前記複数の音声入力部に届く前記所定の音の時間差に基づいて、前記所定の音が入力された方向を特定するものとし、
    前記音源方向検知手段は、前記音声出力手段から出力された音声による前記音声入力手段への音声入力に基づいて、前記第1の装置が設置された角度となる、前記第1の装置の前記第2の装置に対する相対的な設置角度を検知するとともに、前記設置角度と前記基準角度とのずれ量に基づいてオフセットすることにより、前記基準角度を補正し、
    前記撮像範囲制御手段は、補正後の前記基準角度を用いて前記撮像範囲を制御することを特徴とする情報処理装置。
  3. 前記音源方向検知手段は、当該情報処理装置が他の情報処理装置との通信開始時に、前記音声出力手段から出力され、前記音声入力手段に入力される所定音に基づいて、前記位置情報を検知することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記所定音は、当該情報処理装置が前記他の情報処理装置を呼び出す際の発信音、または、前記他の情報処理装置が当該情報処理装置を呼び出す際の受信音であることを特徴とする請求項3に記載の情報処理装置。
  5. 前記第2の装置は、前記音声入力手段への音声入力が、前記音声出力手段から出力されたことによるものであるのか、その他のものであるのかを判断する判断手段を備えることを特徴とする請求項1からまでのいずれかに記載の情報処理装置。
  6. 前記音源方向検知手段は、当該情報処理装置が他の情報処理装置との通信開始後も、前記音声出力手段から出力された音声による前記音声入力手段への音声入力に基づいて、前記位置情報を検知して、該位置情報を更新することを特徴とする請求項1からまでのいずれかに記載の情報処理装置。
  7. 前記第1の装置と前記第2の装置が有線または無線により接続されることを特徴とする請求項1からまでのいずれかに記載の情報処理装置。
  8. 複数の会議端末の少なくとも1つとして、請求項1からまでのいずれかに記載の情報処理装置を備え、前記会議端末の間で音声データおよび画像データの送受信を行うことを特徴とする会議システム。
  9. 複数の音声入力部を備えてなる音声入力手段を有する第1の装置と、
    音声を出力する音声出力手段と、
    所定範囲を撮像する撮像手段と、を有する第2の装置と、を備えた情報処理装置の制御方法であって、
    前記複数の音声入力部へ入力される音声に基づいて、前記音声入力手段への音声の入力方向を検知する音源方向検知工程と、
    前記音源方向検知工程での検知結果に応じて、前記撮像手段による撮像範囲を制御する撮像範囲制御工程と、を有し、
    前記音源方向検知工程では、前記音声出力手段から出力された音声による前記音声入力手段への音声入力に基づいて、前記第1の装置の前記第2の装置に対する相対的な位置情報を検知し、
    前記撮像範囲制御工程は、前記検知結果および前記位置情報に基づいて、前記撮像範囲を制御し、
    前記第2の装置に対する前記第1の装置の基準角度が予め設定されており、
    前記基準角度は、前記第1の装置を基準位置に設置したときに前記音声出力手段から出力した所定の音を、前記音声入力手段に入力させ、前記所定の音の入力に対して、音源方向検知処理を実行した際の前記所定の音の検出角度とし、
    前記音源方向検知処理は、前記音声入力手段を構成する前記複数の音声入力部に届く前記所定の音の時間差に基づいて、前記所定の音が入力された方向を特定するものとし、
    前記音源方向検知工程は、前記音声出力手段から出力された音声による前記音声入力手段への音声入力に基づいて、前記第1の装置が設置された角度となる、前記第1の装置の前記第2の装置に対する相対的な設置角度を検知するとともに、前記設置角度と前記基準角度とのずれ量に基づいてオフセットすることにより、前記基準角度を補正し、
    前記撮像範囲制御工程は、補正後の前記基準角度を用いて前記撮像範囲を制御すること
    することを特徴とする情報処理装置の制御方法。
JP2016051100A 2016-03-15 2016-03-15 情報処理装置、会議システムおよび情報処理装置の制御方法 Expired - Fee Related JP6590152B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016051100A JP6590152B2 (ja) 2016-03-15 2016-03-15 情報処理装置、会議システムおよび情報処理装置の制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016051100A JP6590152B2 (ja) 2016-03-15 2016-03-15 情報処理装置、会議システムおよび情報処理装置の制御方法

Publications (2)

Publication Number Publication Date
JP2017168977A JP2017168977A (ja) 2017-09-21
JP6590152B2 true JP6590152B2 (ja) 2019-10-16

Family

ID=59913543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016051100A Expired - Fee Related JP6590152B2 (ja) 2016-03-15 2016-03-15 情報処理装置、会議システムおよび情報処理装置の制御方法

Country Status (1)

Country Link
JP (1) JP6590152B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102446769B1 (ko) * 2018-01-05 2022-09-23 엘지전자 주식회사 전자 장치 및 그 제어 방법
JP7047508B2 (ja) * 2018-03-16 2022-04-05 株式会社リコー 表示装置及び通信端末
CN111551921A (zh) * 2020-05-19 2020-08-18 北京中电慧声科技有限公司 一种声像联动的声源定向***及方法

Also Published As

Publication number Publication date
JP2017168977A (ja) 2017-09-21

Similar Documents

Publication Publication Date Title
US9860486B2 (en) Communication apparatus, communication method, and communication system
US9648278B1 (en) Communication system, communication apparatus and communication method
JP4482330B2 (ja) ビデオ会議時に室内の遠隔にいる人の認識を与えるシステム及び方法
US10079996B2 (en) Communication system, communication device, and communication method
JP6590152B2 (ja) 情報処理装置、会議システムおよび情報処理装置の制御方法
JP2009164885A (ja) 撮像制御装置、撮像制御方法
JP6414223B2 (ja) 操作システム、通信端末、通信システム、操作方法、及びプログラム
EP3059944A1 (en) Control system, communication system, control method, and recording medium
JP7000959B2 (ja) 伝送装置、遠隔会議システム、情報処理方法、及びプログラム
JP2017034312A (ja) 通信装置、通信システム、およびプログラム
CN114979546A (zh) 具有多视频流能力的会议设备
JP2009017330A (ja) テレビ会議システム、テレビ会議方法およびテレビ会議プログラム
JP2017034313A (ja) 撮影装置、プログラム及び撮影方法
JP2017168903A (ja) 情報処理装置、会議システムおよび情報処理装置の制御方法
JP6544209B2 (ja) 情報処理装置、会議システム、情報処理方法およびプログラム
JP6668828B2 (ja) 会議システム
JP6524732B2 (ja) 通信装置、通信システム、通信装置の制御方法およびプログラム
EP3054660A1 (en) Management system, communication system, management method, and recording medium
JP6500419B2 (ja) 端末装置、通信システム及びプログラム
JP2006339869A (ja) 映像信号と音響信号の統合装置
JP6565777B2 (ja) 通信装置、会議システム、プログラムおよび表示制御方法
JP2016167676A (ja) 通信端末装置、通信管理システム、通信方法、及びプログラム
JP2017158134A (ja) 情報処理装置、会議システムおよび情報処理装置の制御方法
JP4223922B2 (ja) テレビカメラ通信装置
JP2017092950A (ja) 情報処理装置、会議システム、情報処理方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190903

R151 Written notification of patent or utility model registration

Ref document number: 6590152

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees