JP2020036225A - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP2020036225A
JP2020036225A JP2018161973A JP2018161973A JP2020036225A JP 2020036225 A JP2020036225 A JP 2020036225A JP 2018161973 A JP2018161973 A JP 2018161973A JP 2018161973 A JP2018161973 A JP 2018161973A JP 2020036225 A JP2020036225 A JP 2020036225A
Authority
JP
Japan
Prior art keywords
speech
request
unit
utterance
media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018161973A
Other languages
English (en)
Inventor
令治 田中
Reiji Tanaka
令治 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2018161973A priority Critical patent/JP2020036225A/ja
Publication of JP2020036225A publication Critical patent/JP2020036225A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】複数の接続方式に対応可能であり、複数の端末種類と接続可能な会議システムにおいて、接続方式や端末種類に影響を受けずに、端末からの発言要求を検出して発言制御を行なうことができるようにする。【解決手段】本発明は、複数の端末の受信したメディア信号を復号し、複数のメディア信号の中から選択した1又は複数のメディア信号を合成し符号化された合成メディア信号を送信する情報処理装置において、復号された各メディア信号を解析して、各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、発言要求検出手段により発言要求状態が検出されると、発言要求状態を検出したメディア信号の送信元から発言が要求されたことを示す発言要求情報を、発言許可権限端末に通知する通知手段とを備える。【選択図】 図1

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関し、例えば、会議システムに適用し得るものである。
例えば、テレビ会議システムには、参加者が議長端末に発言を要求し、議長の判断により、参加者に発言を許容する発言制御機能がある(特許文献1参照)。
従来、テレビ会議システムの発言制御の方法は、テレビ会議システムが採用する接続方式(通信プロトコル)で利用可能なイベント通知機能を使用している。例えば、発言要求を希望する会議端末が議長端末にイベント通知し、議長が発言を許可するか否かを判断する。そして、議長が発言を許可する場合に、議長端末が会議サーバに発言許可のイベントを通知している。
特開2006−033657号公報
近年のテレビ会議システムとして利用可能な接続方式(通信プロトコル)には様々な方式が存在しており、また、会議端末の種類も多く存在している。例えば、会議端末がゲートウェイを経由して異なる接続方式(通信プロトコル)の会議サーバと接続する方式がある。また、会議端末は専用端末ではなくスマートフォンやタブレット端末等の携帯端末とすることもある。従って、テレビ会議システムは、複数の接続方式や、多種多様な会議端末を収容することが可能になりつつある。
しかしながら、異なる接続方式や多種類の会議端末をテレビ会議システムに接続させたときに、異なる接続方式(通信プロトコル)の会議端末や、異なる種類の会議端末からの発言要求を議長端末に通知することができないという課題が生じ得る。
そのため、複数の接続方式に対応可能であり、複数の端末種類と接続可能な会議システムにおいて、接続方式や端末種類に影響を受けずに、端末からの発言要求を検出して発言制御を行なうことができる情報処理装置、情報処理方法及び情報処理プログラムが求められている。
かかる課題を解決するために、第1の本発明に係る情報処理装置は、複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した1又は複数のメディア信号を合成し符号化された合成メディア信号を複数の端末に送信する情報処理装置において、(1)復号された各メディア信号を解析して、各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、(2)発言要求検出手段により発言要求状態が検出されると、発言要求状態を検出したメディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段とを備えることを特徴とする。
第2の本発明に係る情報処理方法は、複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した1又は複数のメディア信号を合成し符号化された合成メディア信号を複数の端末に送信する情報処理方法において、(1)発言要求検出手段が、復号された各メディア信号を解析して、各メディア信号に基づいて所定の発言要求状態を検出し、(2)通知手段が、発言要求検出手段により発言要求状態が検出されると、発言要求状態を検出した上メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知することを特徴とする。
第3の本発明に係る情報処理プログラムは、複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した1又は複数のメディア信号を合成し符号化された合成メディア信号を複数の端末に送信する情報処理プログラムにおいて、コンピュータを、(1)復号された各メディア信号を解析して、各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、(2)発言要求検出手段により発言要求状態が検出されると、発言要求状態を検出したメディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段として機能させることを特徴とする。
本発明によれば、接続方式や端末種別に影響を受けずに、端末からの発言要求を検出して発言制御を行なうことができる。
実施形態に係る発言要求検出部及び発言制御操作部の内部構成と、発言要求検出部及び発言制御操作部の関係を示すブロック図である。 実施形態に係る会議システムの全体構成を示す全体構成図である。 実施形態に係るMCUの内部構成を示す内部構成図である。 実施形態に係る音声信号処理部の全体の動作について示した説明図である。 実施形態に係るMCUにおける発言要求検出処理を示すフローチャートである。 変形実施形態に係る画像信号処理部の合成部の内部構成を示すブロック図である。
(A)主たる実施形態
以下では、本発明に係る情報処理装置、情報処理方法及び情報処理プログラムの実施形態を、図面を参照しながら詳細に説明する。
この実施形態では、本発明を利用してテレビ会議システムを構築する場合を例示する。
(A−1)実施形態の構成
(A−1−1)全体構成
図2は、実施形態に係る会議システムの全体構成を示す全体構成図である。
図2において、実施形態に係る会議システム7は、会議サーバ1、複数(図2では3台)の会議端末5(5−1〜5−3)を有して構成される。
会議サーバ1は、会議端末5の接続許可及びアドレス変換処理等の機能を担っているゲートキーパ(GK)2と、複数の拠点にある会議端末5から得た音声、映像、データを合成して会議用データに変換する機能を担っている多地点制御装置(MUC:Multipoint Control Unit、以下「MUC」と呼ぶ。)3とを有する。
なお、ゲートキーパ(GK)は、次のような場合においてシステム構成上、設置されない場合もある。
ここで、次のような場合とは、会議サーバ1において、H.323(後述)を使用しない場合、IPアドレスと電話番号の対応を記憶・管理して相手先の会議端末への接続において仲介の必要がない場合などである。
例えば、3台以上の参加者(会議端末5)の場合、会議システム7には、MCU3と呼ばれる会議サーバ機能を提供する装置が用いられる。MCU3は、各会議端末5(5−1〜5−3)からの音声/映像を受信し、発言対象の音声を合成して、各会議端末5(5−1〜5−3)に配信する。また、MCU3は、必要な形式の映像を切り変えたり、合成したりして、各会議端末5(5−1〜5−3)に配信する。
会議サーバ1は、複数の会議端末5−1〜5−3を接続にして仮想的な会議を設定する。会議サーバ1は、会議に接続する複数の会議端末5−1〜5−3を通じて参加者の音声、映像、データを受信し、会議設定に応じて映像データを合成したり、音声を合成したりして、各会議端末5−1〜5−3に送信する。
会議サーバ1は、複数の接続方式を利用できる。会議システムの接続方式(通信プロトコル)には、例えば、SIP(Session Initiation Protocol)、ITU−T勧告通信プロトコルH.323、インターネットを利用したWeb会議サービス(インタネット電話サービス)等がある。
ここで、Web会議サービスは、WebRTC(Web Real−Time Communication)を利用し、HTML、HTTP、TCP/IP、UDP/IP等のプロトコルを利用して、会議端末と相互接続することができるものである。
会議サーバ1は、複数の接続方式に対応可能であり、また多種多様な会議端末5と接続可能である。
この実施形態では、例えば、会議端末5−1および会議端末5−2が、会議システムの接続方式(通信プロトコル)としてH.323(またはSIP)を利用する端末であり、会議サーバ1の会議に参加しているものとする。
この実施形態では、例えば、会議端末5−3が、Web会議サービスで用いられている会議システムの接続方式(通信プロトコル)を利用する端末であり、会議サーバ1の会議に参加しているものとする。つまり、会議端末5−3はゲートウェイ(GW)6を経由して会議サーバ1と接続しているものとする。
各会議端末5−1〜5−3は、各拠点において会議に参加する参加者が使用するものであり、例えば、マイク、スピーカ、カメラ、ディスプレイ、制御装置等を含む装置である。各会議端末5−1〜5−3は、例えば、専用会議端末、パーソナルコンピュータ、スマートフォン、タブレット端末、ウェラブル端末、携帯端末等を適用することができる。
各会議端末5(5−1〜5−3)は、例えば、パーソナルコンピュータ上で様々な操作機能を提供するソフトウェアによるものや、また例えば、ハードウェアメーカが独自の操作方式を実装した端末等を適用できる。
なお、この実施形態では、3台の会議端末5−1〜5−3が1つ会議を開催する場合を例示するが、1つの会議を開催する会議端末5の数は特に限定されるものではない。
[発言制御操作部4]
発言制御操作部4は、1又は複数の参加者に対して発言を許可することを指定することができるものである。発言制御操作部4は、会議サーバ1が提供する会議システムの機能のうちの1つの機能である。
より具体的には、複数の参加者の中から、参加者に発言を許可することができる者(発言許可決定者)を決め、その発言許可決定者の会議端末5において、発言制御操作部4が有効に機能する。
一般的には、会議の議長が発言許可決定者となるケースが多いので、ここでは、発言許可決定者の会議端末5を「議長端末」とも呼ぶ。図1では、会議端末5−1を議長端末としている。なお、議長端末は「発言許可権限端末」とも呼ぶ。
なお、この実施形態では、発言許可決定者の会議端末5(5−1〜5−3)において設定オンされることにより、発言制御操作部4が有効に機能する場合を例示するがこれに限定されない。
議長端末5−1では、発言を希望する参加者の会議端末5から発言要求を受け付けることができる。発言要求を受信した議長端末5−1では、発言許可決定者が、会議進行等を踏まえた上で、当該参加者に発言を許可するか否かを決定する。
発言許可決定者が当該参加者に発言を許可する場合、発言許可決定者が議長端末5−1において所定の指定方法で当該参加者を指定する。そうすると、議長端末5−1は、当該参加者の会議端末5を指定する情報(発言指定情報)を、MCU3に送信する。
議長端末5−1から発言指定情報を受信したMCU3は、指定された会議端末5からの音声(映像を含んでもよい。)を、全ての会議端末5(5−1〜5−3)に送信する合成対象とする。つまり、それまで発言が許可されていなかった参加者の音声が、会議用の合成音声に含まれることになり、他の参加者は、発言が許可された参加者の音声を聞くことができる。なお、以下では、発言する権限を発言権とも呼ぶ。
ところで、従来、参加者が発言を希望する場合、従来の会議端末には、発言要求を議長端末に送信する発言要求処理部が搭載されている。発言要求は、要求を行う端末から議長端末に直接行われるものと、MCUを介して間接的に行われる方式があるが、いずれの場合も含まれる。
しかし、複数の接続方式に対応可能となり、多種多様な会議端末との間で会議を開催する場合、接続方式(通信プロトコル)が異なるため、発言要求方法を統一することは難しく、また会議端末によっては、発言要求処理部が搭載されていないようなこともある。
そこで、この実施形態では、会議サーバ1のMCU3が、各会議端末5(5−1〜5−3)から受信した音声信号に基づいて、参加者が発言を希望している又は参加者が発言したという状態を検出して、議長端末5−1の発言制御操作部4に発言要求を通知できるようにする。
(A−1−2)MCU3の内部構成
図3は、実施形態に係るMCU3の内部構成を示す内部構成図である。
図3において、実施形態に係るMUC3は、大別して、音声信号処理部10、映像信号処理部20、制御部30を有する。
なお、MCU3は、音声信号処理部10、映像信号処理部20を有する場合を例示しているが、データ信号処理部等を有するようにしてもよい。MCU3は、例えばパーソナルコンピュータ等の情報処理装置上に、処理プログラム(例えば、この実施形態に係る情報処理プログラム等)がインストールされることにより構築される。なお、1台の情報処理装置に限定されるものではなく、複数台の情報処理装置に図3の処理部が分散配置されるようにしてもよい。なお、音声信号処理部10、映像信号処理部20の一部又は全部の構成要素がハードウェアで構築されてもよい。
[制御部30]
制御部30は、MCU3の音声信号処理部10、映像信号処理部20の機能を制御するものであり、会議開催や符号化処理等を制御する。各種機能を司る処理部又は装置である。また、制御部30は、会議サーバ1と各会議端末5(5−1〜5−3)との間の通信回線の帯域制御なども行なう。
[音声信号処理部10]
音声信号処理部10は、複数の会議端末5−1〜5−3のそれぞれから受信した音声(符号化処理された音声信号)を復号し、制御部30からの指示に基づいて合成対象とする音声を合成し、その合成信号を符号化処理して、複数の会議端末5−1〜5−3に送信する。
音声信号処理部10は、音声受信部11(11−1〜11−3)、復号部12(12−1〜12−3)、合成部17、符号化部15、音声送信部16(16−1〜16−3)を有する。
ここで、MCU3は、1つ又は複数の会議を開催するため、開催される会議の数に合わせて1つ又は複数の会議室を、会議システム上に仮想的に形成する。
またここで、音声受信部11、復号部12、音声送信部16は、MCU3で開催される会議室1つに対して接続する会議端末5の数だけ作成される。
音声受信部11(11−1〜11−3)は、対応する会議端末5から音声信号を受信し、その受信した音声信号を復号部12(12−1〜12−3)に与えるものである。
復号部12(12−1〜12−3)は、音声受信部11(11−1〜11−3)から受信した音声信号を復号して、合成部17に与えるものである。MCU3と各会議端末5(5−1〜5−3)との間では、情報量を低減して帯域を確保するために、音声信号は圧縮符号化されて送受信される。音声信号の圧縮符号化方式は特に限定されるものではない。例えば、G.711(ITU−T標準化技術)、G.722、MPEG−4 AAC−LD等に対応可能であり、より具体的にPCM(パルス符号変調方式)、ADPCM(適応差分PCM方式)などを用いることができる。
復号部12(12−1〜12−3)は、会議端末5から受信した音声信号を常時復号して合成部17に与えている。つまり、発言権が付与されている(発言が許可されている)会議端末5からの音声信号だけでなく、発言権が付与されていない(発言が許可されていない)会議端末5から受信した音声信号も復号部12は復号している。
合成部17は、復号部12(12−1〜12−3)から復号された音声信号(PCM信号)を受け取ると、合成対象とする1又は複数の音声信号を選択して、選択した音声信号を合成して符号化部15に与える。また、合成部17は、発言要求検出部13、合成対象音声選択部14を有する。
発言要求検出部13は、復号部12(12−1〜12−3)から復号された音声信号(PCM信号)を受け取ると、各会議端末5からの音声信号に基づいて参加者が発言を要求しているか否かを検出するものである。発言要求検出部13の詳細な説明は後述する。
合成対象音声選択部14は、復号部12(12−1〜12−3)から復号された音声信号(PCM信号)の中から合成対象とする音声信号を選択し、合成対象として選択した音声信号を符号化部15に与える。
符号化部15は、合成部17の合成対象音声選択部14により合成された音声信号を受け取り、その音声信号を符号化し、符号化した音声信号を音声送信部16(16−1〜16−3)に与える。
1つの会議に対して、任意の数の符号化部15が作成される。これは、この実施形態の会議サーバ1が、複数の接続方式(通信プロトコル)に対応可能であるため、通信プロトコルが異なることにより、符号化方式が異なることがあるためである。従って、制御部30の指示に従って、対応すべき符号化方式の数に応じた数の符号化部15が作成されるようにしてもよい。
音声信号に対して施す符号化方式は、復号部12の詳細な説明で行なったので、ここでの説明は省略する。
音声送信部16(16−1〜16−3)は、符号化部15による符号化された音声信号を、対応する会議端末5(5−1〜5−3)に送信する。
[映像信号処理部20]
映像信号処理部20は、複数の会議端末5−1〜5−3のそれぞれから受信した映像(符号化処理された映像信号)を復号し、制御部30からの指示に基づいて、映像形式を変換したり、映像を合成したりして、複数の会議端末5−1〜5−3に送信する。
映像信号処理部20は、映像受信部21(21−1〜21−3)、復号部22(22−1〜22−3)、合成部27、符号化部25、映像送信部26(26−1〜26−3)を有する。
ここで、MCU3は、1つ又は複数の会議を開催するため、開催される会議の数に合わせて1つ又は複数の会議室を、会議システム上に仮想的に形成する。
またここで、映像受信部21、復号部22、映像送信部26は、MCU3で開催される会議1つに対して、接続する会議端末5の数だけ作成される。
映像受信部21(21−1〜21−3)は、対応する会議端末5から映像信号を受信し、その受信した映像信号を復号部22(22−1〜22−3)に与えるものである。MCU3と各会議端末5(5−1〜5−3)との間では、情報量を低減して帯域を確保するために、映像信号は圧縮符号化されて送受信される。映像信号の圧縮符号化方式は特に限定されるものではない。例えば、H.261、H.263、MPEG−2、MPEG−4、H.264、H.265等などを用いることができる。
復号部22(22−1〜22−3)は、映像受信部21(21−1〜21−3)から受信した映像信号を復号して、合成部23に与えるものである。
合成部23は、復号部22(22−1〜22−3)からの映像信号に基づいて、必要な映像形式に変換し、映像を合成して符号化部25に与える。通常、1つの会議に対して、1個の合成部23が作成される。しかし、1つの会議に対して、複数個の合成部23が作成されるようにしてもよい。
符号化部25は、合成部23からの映像信号を符号化して、映像送信部26(26−1〜26−3)に与える。
1つの会議に対して、任意の数の符号化部25が作成される。これは、この実施形態の会議サーバ1が、複数の接続方式(通信プロトコル)に対応可能であるため、通信プロトコルが異なることにより、符号化方式が異なることがあるためである。従って、制御部30の指示に従って、対応すべき符号化方式の数に応じた数の符号化部25が作成されるようにしてもよい。
映像信号に対して施す符号化方式は、復号部22の詳細な説明で行なったので、ここでの説明は省略する。
映像送信部26(26−1〜26−3)は、符号化部25による符号化された映像信号を、対応する会議端末5(5−1〜5−3)に送信する。
(A−1−3)発言要求検出部13の内部構成
図1は、実施形態に係る発言要求検出部13及び発言制御操作部4の内部構成と、発言要求検出部13及び発言制御操作部4の関係を示すブロック図である。
図1において、発言要求検出部13は、発言要求対象選択部131、レベル検出部132、DTMF検出部133、音声認識検出部134、キーワード記憶部135、発言要求検知部136を有する。
ここで、「発言要求状態」とは、発言が許可されていないメディアデータ(この実施形態では、音声信号)を解析して、参加者が発言している状態、若しくは、参加者が発言を希望している状態であることを意味する。
発言要求対象選択部131は、MCU3の制御部30からの発言許可情報に基づいて、復号部12(12−1〜12−3)からの音声信号の中から、発言要求状態の検出対象と音声信号を選択する。つまり、発言要求対象選択部131は、発言が許可されていない参加者の音声信号を選択する。
より具体的に、発言許可情報には、現時点で、発言が許可されている会議端末5の識別情報が含まれている。従って、発言要求対象選択部131は、発言許可情報に基づいて、発言が許可されている会議端末5以外の会議端末5の音声信号を選択する。これにより、会議中で発言権が付与されている参加者以外の参加者の音声を選択し、その選択した音声から、参加者が発言をしているか又は参加者が発言を希望しているかを検出することができる。
レベル検出部132は、発言要求対象選択部131により選択された音声信号の音声レベルに基づいて、発言要求状態を検出する。つまり、参加者が発言したときに、音声レベルが増大することが考えられる。そこで、レベル検出部132は、音声信号の音声レベルを監視して、音声レベルが増大した状態を発言要求状態と捉えて、発言要求状態を検出する。より具体的に、レベル検出部132は、各会議端末5の音声レベルの時系列変化を監視し、音声レベルの時系列変化の傾きが閾値を越えて急峻に増大したときに発言要求状態としてもよい。また、各会議端末5の音声レベルが、1又は複数の閾値を越えたときに発言要求状態としてもよい。
DTMF検出部133は、発言要求対象選択部131により選択された音声信号に基づいて、周波数帯の合成信号音(DTMF信号)を検出したときに発言要求状態を検出する。例えば、会議端末5にDTMF送出器が搭載されている場合、発言を要求するときには、いずれかのDTMF信号を送出することを参加者の間で取り決めておくことで実現できる。これにより、発言を要求する参加者がDTMF送出器を操作して、DTMF信号を含む音声信号がMCU3に送信され、DTMF検出部133がDTMF信号を検出することで、発言要求状態を検出できる。
音声認識検出部134は、発言要求対象選択部131により選択された音声信号に基づいて音声認識処理を行ない、その音声認識結果に基づいて発言要求状態を検出する。キーワード記憶部135は予め設定されたメッセージを記憶しているコーパス(辞書)である。キーワード記憶部135には、少なくとも、参加者が発言を要求することを示すキーワードが記憶されている。音声認識検出部134は、音声認識アルゴリズムにより、音声信号を音波に変換して音素を特定してパターンマッチングにより音声認識を行なう。音声認識検出部134は、キーワード記憶部135を参照して、得られた単語とキーワードとをマッチングして発言を要求しているか否かを判断する。なお、音声認識アルゴリズムは特に限定されるものではない。
ここで、レベル検出部132、DTMF検出部133及び音声認識検出部134について、いずれかの検出方法を指定することができる。1個の検出方法を指定してもよいし、複数の検出方法を指定してもよい。検出方法の選択方法は、様々な方法を適用することができる。例えば、予め検出方法を設定しておくようにしてもよい。また、参加者又は議長による操作により、会議端末5が検出方法を指定するようにしてもよい。
また、レベル検出部132、DTMF検出部133又は音声認識検出部134が、発言が許可されていない音声信号(復号信号)を監視し、音声信号から発言要求状態を検出することにより、以下のメリットがある。
上述したように、復号部12(12−1〜12−3)は、会議端末5(5−1〜5−3)から受信した音声信号を常時復号している。つまり、復号部12は、発言が許可されている参加者(会議端末5)の音声だけでなく、発言が許可されていない参加者(会議端末5)からの音声も常時復号している。そして、従来、発言が許可されていない参加者の復号音声については廃棄されている。これは、発言が許可されていない参加者の復号音声は、合成対象とする音声信号ではないためである。
しかし、この実施形態では、従来、合成対象としないために廃棄していた、発言が許可されていない参加者の復号音声を、レベル検出部132、DTMF検出部133及び音声認識検出部134が監視して、当該参加者の発言要求状態を検出するようにしている。
別の観点から見ると、従来は、音声を合成する際に利用しない音声についても復号部12は常時復号しており、処理負荷がかかると共に復号音声が有効に活用されていなかった。しかし、この実施形態によれば、常時復号される復号音声を有効に活用することができ、この方式実装により復号部12の処理負荷が増大することもない。
発言要求検知部136は、レベル検出部132、DTMF検出部133又は音声認識検出部34により発言要求状態が検出されると、発言制御操作部4の発言要求受信部41に発言要求信号を通知する。これにより、接続方式や会議端末5の種別等が異なる場合でも、発言制御操作部4に対して発言要求信号を通知することができる。
図1に示すように、実施形態に係る発言制御操作部4は、発言要求受信部41、発言要求表示部42、発言指定部43を有する。
発言要求受信部41は、MCU3から発言要求信号を受信する。上述したように、MCU3の発言要求検出部13により発言要求状態が検出されると、発言要求検出部13から発言要求信号を受信する。
発言要求表示部42は、当該発言制御操作部4を搭載している自端末5(すなわち、議長端末)のディスプレイ(表示部)に、発言要求があった旨を表示する。これにより、議長に、他の参加者が発言を希望していることを報知することができる。
発言指定部43は、発言を要求している参加者に対して議長が発言許可する場合に、その参加者に発言許可を示す発言指定情報を、MCU3に通知する。発言指定情報は、例えば、その参加者の会議端末5の識別情報を含むようにする。これにより、合成対象音声選択部14は、MCU30の制御部30からの発言指定情報に基づいて、発言許可されていない参加者の音声信号を合成対象とすることができる。
(A−2)実施形態の動作
[会議サーバ(音声信号処理部)全体の動作]
以下では、まず、会議サーバ1における音声信号処理の動作を、図面を参照して説明する。
図4は、この実施形態に係る音声信号処理部10の全体の動作について示した説明図である。
会議サーバ1と会議端末5−1〜5−3との間の呼の確立時に、MCU3は各会議端末5−1〜5−3に、音声信号の送信先情報を通知する(S11)。音声信号の送信先情報には、音声信号処理部10の音声受信部11−1〜11−3のサーバアドレス、通信ポート番号の情報が含まれる。サーバアドレス、通信ポート番号の情報は、呼の確立時に、制御部30が音声信号処理部10に割り当てたものを用いる。そして、呼の確立後、各会議端末5−1〜5−3は、音声信号を音声信号処理部10に送信する。
音声信号処理部10では、会議端末5−1〜5−3ごとに、音声受信部11−1〜11−3、復号部12−1〜12−3、音声送信部16−1〜16−3が作成される(S12)。ここでは、会議サーバ1は、3台の会議端末5−1〜5−3と呼を確立するので、それぞれの会議端末5−1〜5−3に対応する音声受信部11−1〜11−3、復号部12−1〜12−3、音声送信部16−1〜16−3が作成される。
会議端末5−1〜5−3からの音声信号が音声受信部11−1〜11−3により受信され、受信された音声信号が復号部12−1〜12−3により復号され、復号音声が得られる(S13)。
復号された音声信号は合成部17に送られ、合成部17により音声信号が合成される(S14)。このとき、制御部30は合成対象に関する情報を合成部17に指示しており、合成部17は制御部30から指示された合成対象の音声信号を合成する。すなわち、発言許可された会議端末の識別情報が含まれる発言許可情報が制御部30から合成部17に通知され、合成部17は発言許可されている会議端末5からの音声信号を合成する。
そして、合成された音声信号は符号化部15に与えられ、符号化部15により音声信号が符号化される(S15)。
符号化部15で符号化された音声信号は、制御部30の指示に応じて、対応する音声送信部16−1〜16−3に送られ、会議端末5−1〜5−3に送信される(S16)。会議の終了まで上述のステップS13の処理から再度動作する。
[発言要求検出処理]
次に、実施形態に係るMCU3における発言要求検出処理を、図面を参照しながら詳細に説明する。
図5は、実施形態に係るMCU3における発言要求検出処理を示すフローチャートである。
図4のS14で説明したように、合成部17には制御部30から発言許可情報が通知され、合成部17の合成対象音声選択部14は、発言許可情報に基づいて合成対象の音声信号を合成する。
このような合成対象音声選択部14による音声合成処理と共に、発言要求検出部13は、発言許可されていない参加者の音声信号を監視している。
なお、発言要求状態の検出方法は、音声レベル方式、DTMF検出方式、音声認識方式のいずれか又はこれらを組み合わせたものが指定される。
図5において、発言要求対象選択部131は、発言許可情報に基づいて、発言許可されていない参加者(会議端末5)の音声信号を選択する(S101)。
[音声レベル方式]
発言要求状態の検出方法として音声レベル方式が指定されるときの動作を説明する。
レベル検出部132は、合成対象音声選択部14により選択された音声信号を監視する。レベル検出部132は、入力された音声信号の音声レベル値と閾値とを比較し、音声レベル値が閾値より大きいか否かを判断する(S102)。
そして、音声レベル値が閾値より大きい場合、レベル検出部132は、発言要求状態を検出し、S106に移行する。音声レベル値が閾値以下の場合、S101に戻り、レベル検出部132は音声信号の監視を続ける。
例えば、会議進行中に、発言許可されていない参加者が何らかの発言をしたときに又は参加者が「議長、発言させてください。」などと発したときには、当該拠点の会議端末5からの音声信号の音声レベルは増大することになる。なお、この参加者の音声は合成対象ではないので、この時点では、合成音声には含まれておらず、他の参加者は聞くことはできない。しかし、そのような場合でも、音声レベル値が閾値より大きくなるので、発言要求状態と検出され、発言制御操作部4に対して発言要求が通知されることになる。
なお、ここでは、音声信号の音声レベル値と閾値とを比較する場合を例示したが、音声レベルの時系列変化を監視し、音声レベルの時系列変化の傾きと閾値とを比較して、傾きが閾値より大きいときに、発言要求状態を検出したとしてもよい。あるいは、音声レベルの時系列で一定レベルの音声が一定時間の平均音声レベル(閾値)を超えた場合を、発言要求状態を検出したとしてもよい。
[DTMF検出方式]
発言要求状態の検出方法としてDTMF方式が指定されるときの動作を説明する。
DTMF検出部133は、発言要求対象選択部131により選択された音声信号を監視する。DTMF検出部133は、入力された音声信号に、周波数帯の合成信号音(DTMF信号)が含まれているか否かを判断する(S103)。
そして、DTMF信号が含まれているとき、DTMF検出部133は、発言要求状態を検出し、S106に移行する。DTMF信号が含まれていないとき、S101に戻り、DTMF検出部133は音声信号の監視を続ける。
[音声認識方式]
発言要求状態の検出方法として音声認識方式が指定されるときの動作を説明する。
音声認識検出部134は、発言要求対象選択部131により選択された音声信号を監視する。音声認識検出部134は、音声認識アルゴリズムにより、音声信号を音波に変換し、音素を特定して、パターンマッチングにより音声認識を行なう(S104)。音声認識検出部134は、キーワード記憶部135を参照して、得られた単語とキーワードとをマッチングする(S105)。
そして、キーワードが検出されると、音声認識検出部134は、発言要求状態を検出し、S106に移行する。キーワードが検出されないとき、S101に戻り、音声認識検出部134は音声信号の監視を続ける。
例えば、キーワード記憶部135に、「議長」、「発言させてください」などの発言を要求するキーワードを記憶しておく。そして、発言許可されていない参加者が「議長、発言させてください。」などと発したときには、音声認識により発言要求状態と検出さる。従って、発言制御操作部4に対して発言要求が通知されることになる。
次に、発言要求検知部136は、レベル検出部132、DTMF検出部133又は音声認識検出部34から検出結果が通知される。
そして、発言要求状態が検出されると、発言要求検知部136は、発言要求状態を検出した会議端末5の識別情報を含む発言要求信号を、発言制御操作部4に通知する(S106)。
発言制御操作部4では、議長が、当該参加者に発言許可するか否かを判断する。そして、議長が当該参加者に発言を許可する場合に、その参加者の会議端末5の識別情報を含む発言指定情報がMCU3に送信される。MCU3の制御部30を通じて、発言指定情報が合成対象音声選択部14に受信されると(S107)、合成対象音声選択部14は、発言指定情報で指定された会議端末5の音声信号を合成対象に設定する(S108)。これにより、当該参加者の音声も含んだ音声合成が作成される。
(A−3)実施形態の効果
以上のように、この実施形態によれば、発言制御を使用する会議室で、特別な発言要求機構を使用しなくても、復号された音声信号を監視することで、参加者が発言をしたこと又は発言を希望していることを検出でき、その参加者に発言許可の是非を判断させることができる。
また、この実施形態は、復号された音声信号から発言要求状態を検出するので、会議サーバとの通信プロトコル(接続方式)の違いや、インターネットを利用した接続や、会議端末の種別の違いに拘わらず、発言制御を行なうことができる。その結果、多種多様な端末を相互利用して、会議システムを実現することができる。
さらに、この実施形態は、従来、常時各拠点からの音声を復号して音声合成に利用しない音声を廃棄していたが、音声合成に利用していない音声信号を有効に利用することができるため、音声復号による処理増加も生じない。
(B)他の実施形態
上述した実施形態においても種々の変形実施形態を言及したが、本発明は、以下の変形実施形態にも適用することができる。
(B−1)上述した実施形態では、発言許可されていない参加者(会議端末)の音声信号に基づいて、参加者が発言した又は参加者が発言を希望していることを検出する場合を例示した。しかし、これに限定される、発言許可されていない参加者(会議端末)の画像データに基づいて検出するようにしてもよい。
例えば、図6に例示するように、映像信号処理部20の合成部24が、上述した実施形態における発言要求検出部13の代わりに発言要求検出部13−1とを備え、発言要求検出部13−1が、復号された画像データを解析して、発言要求状態を検出するようにしてもよい。その際、図6に例示するように、合成対象音声選択部14の代わりに合成対象音声選択部14−1が、合成対象として選択した音声信号を符号化部15に与えるようにする。
ここで、発言要求検出部13−1は、復号部22(22−1〜22−3)から復号された映像信号を受け取ると、各会議端末5からの映像信号に基づいて参加者が発言を要求しているか否かを検出するものである。発言要求検出部13−1の詳細な説明は後述する。なお、発言要求検出部13−1は、上述した実施形態の発言要求検出部13と併用して使用することも可能である。
ここで、合成対象音声選択部14−1は、制御部30を介して受信した発言要求検出部13−1の検出結果に基づいて、復号部12(12−1〜12−3)から復号された音声信号の中から、合成対象とする音声信号を選択し、合成対象として選択した音声信号を符号化部15に与える。なお、合成対象音声選択部14−1は、上述した実施形態の合成対象音声選択部14と併用して使用することも可能である。
ここでは、例えば、参加者がカメラに向かって手を振ることで、発言を希望することをアピールしていることを、発言要求検出部13−1が検出する場合を例示する。
このような場合、発言要求検出部13−1は、復号された映像ストリームに対して動き検出(又は動体検出)アルゴリズムにより、発言許可されていない参加者の動きを検出するようにしてもよい。なお、動き検出アルゴリズムは、種々のアルゴリズムを適用することができる。例えば、発言要求検出部13−1は、映像ストリームをフレーム毎に区切り、例えば、「手」のように、検出可能な物体を予め登録して対象物を検出し、オブジェクトの移動量や移動速度と予め設定した閾値との比較結果に基づいて、発言要求状態を検出するなどの方法を適用してもよい。勿論、これに限定されるものではなく、映像ストリームから、発言を要求している参加者の動き(動作)を検出することができれば、様々な方法を適用できる。
7…会議システム7…会議サーバ、2…ゲートキーパ(GK)、3…MCU、10…音声信号処理部、20…映像信号処理部、30…制御部、
11(11−1〜11−3)…音声受信部、12(12−1〜12−3)…復号部、17…合成部、15…符号化部、16(16−1〜16−3)…音声送信部、13…発言要求検出部、14…合成対象選択部、
131…発言要求対象選択部、132…レベル検出部、133…DTMF検出部、134…音声認識検出部134…キーワード記憶部、136…発言要求検知部、
5(5−1〜5−3)…会議端末、4…発言制御操作部、41…発言要求受信部、42…発言要求表示部、43…発言指定部。

Claims (9)

  1. 複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した1又は複数のメディア信号を合成し符号化された合成メディア信号を上記複数の端末に送信する情報処理装置において、
    上記復号された各メディア信号を解析して、上記各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、
    上記発言要求検出手段により上記発言要求状態が検出されると、上記発言要求状態を検出した上記メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段と
    を備えることを特徴とする情報処理装置。
  2. 上記発言要求検出手段は、上記合成メディア信号の作成に係る合成対象情報に基づいて、合成対象以外の上記復号されたメディア信号を監視することを特徴とする請求項1に記載の情報処理装置。
  3. 上記メディア信号が音声信号であり、
    上記発言要求検出手段が、復号された音声信号のうち、合成音声に利用されていない各音声信号の時系列変化に基づいて、上記発言要求状態を検出することを特徴とする請求項1又は2に記載の情報処理装置。
  4. 上記発言要求検出手段が、上記合成音声に利用されていない上記各音声信号の音声レベル値の変化に基づいて、上記発言要求状態を検出することを特徴とする請求項3に記載の情報処理装置。
  5. 上記発言要求検出手段が、上記合成音声に利用されていない上記各音声信号を用いて音声認識を行ない、その音声認識結果に基づいて、上記発言要求状態を検出することを特徴とする請求項3に記載の情報処理装置。
  6. 上記発言要求検出手段が、上記合成音声に利用されていない上記各音声信号に含まれる周波数合成信号を検出することにより、上記発言要求状態を検出することを特徴とする請求項3に記載の情報処理装置。
  7. 上記メディア信号が映像信号であり、
    上記発言要求検出手段が、復号された映像信号のうち、合成映像に利用されていない各映像信号の時系列変化に基づいて、上記発言要求状態を検出することを特徴とする請求項1又は2に記載の情報処理装置。
  8. 複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した1又は複数のメディア信号を合成し符号化された合成メディア信号を上記複数の端末に送信する情報処理方法において、
    発言要求検出手段が、上記復号された各メディア信号を解析して、上記各メディア信号に基づいて所定の発言要求状態を検出し、
    通知手段が、上記発言要求検出手段により上記発言要求状態が検出されると、上記発言要求状態を検出した上記メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する
    ことを特徴とする情報処理方法。
  9. 複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した1又は複数のメディア信号を合成し符号化された合成メディア信号を上記複数の端末に送信する情報処理プログラムにおいて、
    コンピュータを、
    上記復号された各メディア信号を解析して、上記各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、
    上記発言要求検出手段により上記発言要求状態が検出されると、上記発言要求状態を検出した上記メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段と
    して機能させることを特徴とする情報処理プログラム。
JP2018161973A 2018-08-30 2018-08-30 情報処理装置、情報処理方法及び情報処理プログラム Pending JP2020036225A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018161973A JP2020036225A (ja) 2018-08-30 2018-08-30 情報処理装置、情報処理方法及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018161973A JP2020036225A (ja) 2018-08-30 2018-08-30 情報処理装置、情報処理方法及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2020036225A true JP2020036225A (ja) 2020-03-05

Family

ID=69668788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018161973A Pending JP2020036225A (ja) 2018-08-30 2018-08-30 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2020036225A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021241221A1 (ja) * 2020-05-26 2021-12-02 ソニーグループ株式会社 情報処理装置及び情報処理方法
WO2023157650A1 (ja) * 2022-02-16 2023-08-24 ソニーグループ株式会社 信号処理装置および信号処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021241221A1 (ja) * 2020-05-26 2021-12-02 ソニーグループ株式会社 情報処理装置及び情報処理方法
WO2023157650A1 (ja) * 2022-02-16 2023-08-24 ソニーグループ株式会社 信号処理装置および信号処理方法

Similar Documents

Publication Publication Date Title
US9509953B2 (en) Media detection and packet distribution in a multipoint conference
US7623550B2 (en) Adjusting CODEC parameters during emergency calls
US8379076B2 (en) System and method for displaying a multipoint videoconference
EP2119107B1 (en) Multipoint conference video switching
RU2398361C2 (ru) Интеллектуальный способ, система и узел ограничения аудио
RU2398362C2 (ru) Соединение независимых мультимедийных источников в конференц-связь
US7822050B2 (en) Buffering, pausing and condensing a live phone call
EP1496700B1 (en) Apparatus, method and computer program for supporting video conferencing in a communication system
US20080084831A1 (en) Active source identification for conference calls
JP2012213214A (ja) マルチポイント・ビデオ会議における空間相関オーディオ
JP2005033664A (ja) 通信装置及びその動作制御方法
JP2004531952A (ja) 多地点マルチメディア/音声システムの制御ユニット
US9369511B2 (en) Telecommunication network
JP2020036225A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2011077839A (ja) 情報共有システム
JP4531013B2 (ja) 映像音声会議システムおよび端末装置
JP2002290940A (ja) テレビ会議システム
JP6289178B2 (ja) 通話会議システム
JP2018137614A (ja) 通信装置、通信システム、通信方法及びプログラム
JP2007228506A (ja) 多者間通話システム、多者間通話システムにおける通話端末および通話サーバ、多者間通話方法
US20030091162A1 (en) Telephone data switching method and system
JP2022108957A (ja) データ処理装置、データ処理システム、音声処理方法
JPH09149395A (ja) 通信装置
JP6089516B2 (ja) 多地点会議サーバ及び多地点会議サーバプログラム、並びに、多地点会議システム
JP2007013764A (ja) 映像音声配信システムおよび方法およびプログラム