JP2020036225A

JP2020036225A - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP2020036225A
Application number: JP2018161973A
Authority: JP
Inventors: 令治田中; Reiji Tanaka
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2020-03-05

Abstract

【課題】複数の接続方式に対応可能であり、複数の端末種類と接続可能な会議システムにおいて、接続方式や端末種類に影響を受けずに、端末からの発言要求を検出して発言制御を行なうことができるようにする。【解決手段】本発明は、複数の端末の受信したメディア信号を復号し、複数のメディア信号の中から選択した１又は複数のメディア信号を合成し符号化された合成メディア信号を送信する情報処理装置において、復号された各メディア信号を解析して、各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、発言要求検出手段により発言要求状態が検出されると、発言要求状態を検出したメディア信号の送信元から発言が要求されたことを示す発言要求情報を、発言許可権限端末に通知する通知手段とを備える。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関し、例えば、会議システムに適用し得るものである。

例えば、テレビ会議システムには、参加者が議長端末に発言を要求し、議長の判断により、参加者に発言を許容する発言制御機能がある（特許文献１参照）。

従来、テレビ会議システムの発言制御の方法は、テレビ会議システムが採用する接続方式（通信プロトコル）で利用可能なイベント通知機能を使用している。例えば、発言要求を希望する会議端末が議長端末にイベント通知し、議長が発言を許可するか否かを判断する。そして、議長が発言を許可する場合に、議長端末が会議サーバに発言許可のイベントを通知している。

特開２００６−０３３６５７号公報

近年のテレビ会議システムとして利用可能な接続方式（通信プロトコル）には様々な方式が存在しており、また、会議端末の種類も多く存在している。例えば、会議端末がゲートウェイを経由して異なる接続方式（通信プロトコル）の会議サーバと接続する方式がある。また、会議端末は専用端末ではなくスマートフォンやタブレット端末等の携帯端末とすることもある。従って、テレビ会議システムは、複数の接続方式や、多種多様な会議端末を収容することが可能になりつつある。

しかしながら、異なる接続方式や多種類の会議端末をテレビ会議システムに接続させたときに、異なる接続方式（通信プロトコル）の会議端末や、異なる種類の会議端末からの発言要求を議長端末に通知することができないという課題が生じ得る。

そのため、複数の接続方式に対応可能であり、複数の端末種類と接続可能な会議システムにおいて、接続方式や端末種類に影響を受けずに、端末からの発言要求を検出して発言制御を行なうことができる情報処理装置、情報処理方法及び情報処理プログラムが求められている。

かかる課題を解決するために、第１の本発明に係る情報処理装置は、複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した１又は複数のメディア信号を合成し符号化された合成メディア信号を複数の端末に送信する情報処理装置において、（１）復号された各メディア信号を解析して、各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、（２）発言要求検出手段により発言要求状態が検出されると、発言要求状態を検出したメディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段とを備えることを特徴とする。

第２の本発明に係る情報処理方法は、複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した１又は複数のメディア信号を合成し符号化された合成メディア信号を複数の端末に送信する情報処理方法において、（１）発言要求検出手段が、復号された各メディア信号を解析して、各メディア信号に基づいて所定の発言要求状態を検出し、（２）通知手段が、発言要求検出手段により発言要求状態が検出されると、発言要求状態を検出した上メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知することを特徴とする。

第３の本発明に係る情報処理プログラムは、複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した１又は複数のメディア信号を合成し符号化された合成メディア信号を複数の端末に送信する情報処理プログラムにおいて、コンピュータを、（１）復号された各メディア信号を解析して、各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、（２）発言要求検出手段により発言要求状態が検出されると、発言要求状態を検出したメディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段として機能させることを特徴とする。

本発明によれば、接続方式や端末種別に影響を受けずに、端末からの発言要求を検出して発言制御を行なうことができる。

実施形態に係る発言要求検出部及び発言制御操作部の内部構成と、発言要求検出部及び発言制御操作部の関係を示すブロック図である。実施形態に係る会議システムの全体構成を示す全体構成図である。実施形態に係るＭＣＵの内部構成を示す内部構成図である。実施形態に係る音声信号処理部の全体の動作について示した説明図である。実施形態に係るＭＣＵにおける発言要求検出処理を示すフローチャートである。変形実施形態に係る画像信号処理部の合成部の内部構成を示すブロック図である。

（Ａ）主たる実施形態
以下では、本発明に係る情報処理装置、情報処理方法及び情報処理プログラムの実施形態を、図面を参照しながら詳細に説明する。

この実施形態では、本発明を利用してテレビ会議システムを構築する場合を例示する。

（Ａ−１）実施形態の構成
（Ａ−１−１）全体構成
図２は、実施形態に係る会議システムの全体構成を示す全体構成図である。

図２において、実施形態に係る会議システム７は、会議サーバ１、複数（図２では３台）の会議端末５（５−１〜５−３）を有して構成される。

会議サーバ１は、会議端末５の接続許可及びアドレス変換処理等の機能を担っているゲートキーパ（ＧＫ）２と、複数の拠点にある会議端末５から得た音声、映像、データを合成して会議用データに変換する機能を担っている多地点制御装置（ＭＵＣ：ＭｕｌｔｉｐｏｉｎｔＣｏｎｔｒｏｌＵｎｉｔ、以下「ＭＵＣ」と呼ぶ。）３とを有する。

なお、ゲートキーパ（ＧＫ）は、次のような場合においてシステム構成上、設置されない場合もある。

ここで、次のような場合とは、会議サーバ１において、Ｈ．３２３（後述）を使用しない場合、ＩＰアドレスと電話番号の対応を記憶・管理して相手先の会議端末への接続において仲介の必要がない場合などである。

例えば、３台以上の参加者（会議端末５）の場合、会議システム７には、ＭＣＵ３と呼ばれる会議サーバ機能を提供する装置が用いられる。ＭＣＵ３は、各会議端末５（５−１〜５−３）からの音声／映像を受信し、発言対象の音声を合成して、各会議端末５（５−１〜５−３）に配信する。また、ＭＣＵ３は、必要な形式の映像を切り変えたり、合成したりして、各会議端末５（５−１〜５−３）に配信する。

会議サーバ１は、複数の会議端末５−１〜５−３を接続にして仮想的な会議を設定する。会議サーバ１は、会議に接続する複数の会議端末５−１〜５−３を通じて参加者の音声、映像、データを受信し、会議設定に応じて映像データを合成したり、音声を合成したりして、各会議端末５−１〜５−３に送信する。

会議サーバ１は、複数の接続方式を利用できる。会議システムの接続方式（通信プロトコル）には、例えば、ＳＩＰ（ＳｅｓｓｉｏｎＩｎｉｔｉａｔｉｏｎＰｒｏｔｏｃｏｌ）、ＩＴＵ−Ｔ勧告通信プロトコルＨ．３２３、インターネットを利用したＷｅｂ会議サービス（インタネット電話サービス）等がある。

ここで、Ｗｅｂ会議サービスは、ＷｅｂＲＴＣ（ＷｅｂＲｅａｌ−ＴｉｍｅＣｏｍｍｕｎｉｃａｔｉｏｎ）を利用し、ＨＴＭＬ、ＨＴＴＰ、ＴＣＰ/ＩＰ、ＵＤＰ/ＩＰ等のプロトコルを利用して、会議端末と相互接続することができるものである。

会議サーバ１は、複数の接続方式に対応可能であり、また多種多様な会議端末５と接続可能である。

この実施形態では、例えば、会議端末５−１および会議端末５−２が、会議システムの接続方式（通信プロトコル）としてＨ．３２３（またはＳＩＰ）を利用する端末であり、会議サーバ１の会議に参加しているものとする。

この実施形態では、例えば、会議端末５−３が、Ｗｅｂ会議サービスで用いられている会議システムの接続方式（通信プロトコル）を利用する端末であり、会議サーバ１の会議に参加しているものとする。つまり、会議端末５−３はゲートウェイ（ＧＷ）６を経由して会議サーバ１と接続しているものとする。

各会議端末５−１〜５−３は、各拠点において会議に参加する参加者が使用するものであり、例えば、マイク、スピーカ、カメラ、ディスプレイ、制御装置等を含む装置である。各会議端末５−１〜５−３は、例えば、専用会議端末、パーソナルコンピュータ、スマートフォン、タブレット端末、ウェラブル端末、携帯端末等を適用することができる。

各会議端末５（５−１〜５−３）は、例えば、パーソナルコンピュータ上で様々な操作機能を提供するソフトウェアによるものや、また例えば、ハードウェアメーカが独自の操作方式を実装した端末等を適用できる。

なお、この実施形態では、３台の会議端末５−１〜５−３が１つ会議を開催する場合を例示するが、１つの会議を開催する会議端末５の数は特に限定されるものではない。

［発言制御操作部４］
発言制御操作部４は、１又は複数の参加者に対して発言を許可することを指定することができるものである。発言制御操作部４は、会議サーバ１が提供する会議システムの機能のうちの１つの機能である。

より具体的には、複数の参加者の中から、参加者に発言を許可することができる者（発言許可決定者）を決め、その発言許可決定者の会議端末５において、発言制御操作部４が有効に機能する。

一般的には、会議の議長が発言許可決定者となるケースが多いので、ここでは、発言許可決定者の会議端末５を「議長端末」とも呼ぶ。図１では、会議端末５−１を議長端末としている。なお、議長端末は「発言許可権限端末」とも呼ぶ。

なお、この実施形態では、発言許可決定者の会議端末５（５−１〜５−３）において設定オンされることにより、発言制御操作部４が有効に機能する場合を例示するがこれに限定されない。

議長端末５−１では、発言を希望する参加者の会議端末５から発言要求を受け付けることができる。発言要求を受信した議長端末５−１では、発言許可決定者が、会議進行等を踏まえた上で、当該参加者に発言を許可するか否かを決定する。

発言許可決定者が当該参加者に発言を許可する場合、発言許可決定者が議長端末５−１において所定の指定方法で当該参加者を指定する。そうすると、議長端末５−１は、当該参加者の会議端末５を指定する情報（発言指定情報）を、ＭＣＵ３に送信する。

議長端末５−１から発言指定情報を受信したＭＣＵ３は、指定された会議端末５からの音声（映像を含んでもよい。）を、全ての会議端末５（５−１〜５−３）に送信する合成対象とする。つまり、それまで発言が許可されていなかった参加者の音声が、会議用の合成音声に含まれることになり、他の参加者は、発言が許可された参加者の音声を聞くことができる。なお、以下では、発言する権限を発言権とも呼ぶ。

ところで、従来、参加者が発言を希望する場合、従来の会議端末には、発言要求を議長端末に送信する発言要求処理部が搭載されている。発言要求は、要求を行う端末から議長端末に直接行われるものと、ＭＣＵを介して間接的に行われる方式があるが、いずれの場合も含まれる。

しかし、複数の接続方式に対応可能となり、多種多様な会議端末との間で会議を開催する場合、接続方式（通信プロトコル）が異なるため、発言要求方法を統一することは難しく、また会議端末によっては、発言要求処理部が搭載されていないようなこともある。

そこで、この実施形態では、会議サーバ１のＭＣＵ３が、各会議端末５（５−１〜５−３）から受信した音声信号に基づいて、参加者が発言を希望している又は参加者が発言したという状態を検出して、議長端末５−１の発言制御操作部４に発言要求を通知できるようにする。

（Ａ−１−２）ＭＣＵ３の内部構成
図３は、実施形態に係るＭＣＵ３の内部構成を示す内部構成図である。

図３において、実施形態に係るＭＵＣ３は、大別して、音声信号処理部１０、映像信号処理部２０、制御部３０を有する。

なお、ＭＣＵ３は、音声信号処理部１０、映像信号処理部２０を有する場合を例示しているが、データ信号処理部等を有するようにしてもよい。ＭＣＵ３は、例えばパーソナルコンピュータ等の情報処理装置上に、処理プログラム（例えば、この実施形態に係る情報処理プログラム等）がインストールされることにより構築される。なお、１台の情報処理装置に限定されるものではなく、複数台の情報処理装置に図３の処理部が分散配置されるようにしてもよい。なお、音声信号処理部１０、映像信号処理部２０の一部又は全部の構成要素がハードウェアで構築されてもよい。

［制御部３０］
制御部３０は、ＭＣＵ３の音声信号処理部１０、映像信号処理部２０の機能を制御するものであり、会議開催や符号化処理等を制御する。各種機能を司る処理部又は装置である。また、制御部３０は、会議サーバ１と各会議端末５（５−１〜５−３）との間の通信回線の帯域制御なども行なう。

［音声信号処理部１０］
音声信号処理部１０は、複数の会議端末５−１〜５−３のそれぞれから受信した音声（符号化処理された音声信号）を復号し、制御部３０からの指示に基づいて合成対象とする音声を合成し、その合成信号を符号化処理して、複数の会議端末５−１〜５−３に送信する。

音声信号処理部１０は、音声受信部１１（１１−１〜１１−３）、復号部１２（１２−１〜１２−３）、合成部１７、符号化部１５、音声送信部１６（１６−１〜１６−３）を有する。

ここで、ＭＣＵ３は、１つ又は複数の会議を開催するため、開催される会議の数に合わせて１つ又は複数の会議室を、会議システム上に仮想的に形成する。

またここで、音声受信部１１、復号部１２、音声送信部１６は、ＭＣＵ３で開催される会議室１つに対して接続する会議端末５の数だけ作成される。

音声受信部１１（１１−１〜１１−３）は、対応する会議端末５から音声信号を受信し、その受信した音声信号を復号部１２（１２−１〜１２−３）に与えるものである。

復号部１２（１２−１〜１２−３）は、音声受信部１１（１１−１〜１１−３）から受信した音声信号を復号して、合成部１７に与えるものである。ＭＣＵ３と各会議端末５（５−１〜５−３）との間では、情報量を低減して帯域を確保するために、音声信号は圧縮符号化されて送受信される。音声信号の圧縮符号化方式は特に限定されるものではない。例えば、Ｇ．７１１（ＩＴＵ−Ｔ標準化技術）、Ｇ．７２２、ＭＰＥＧ−４ＡＡＣ−ＬＤ等に対応可能であり、より具体的にＰＣＭ（パルス符号変調方式）、ＡＤＰＣＭ（適応差分ＰＣＭ方式）などを用いることができる。

復号部１２（１２−１〜１２−３）は、会議端末５から受信した音声信号を常時復号して合成部１７に与えている。つまり、発言権が付与されている（発言が許可されている）会議端末５からの音声信号だけでなく、発言権が付与されていない（発言が許可されていない）会議端末５から受信した音声信号も復号部１２は復号している。

合成部１７は、復号部１２（１２−１〜１２−３）から復号された音声信号（ＰＣＭ信号）を受け取ると、合成対象とする１又は複数の音声信号を選択して、選択した音声信号を合成して符号化部１５に与える。また、合成部１７は、発言要求検出部１３、合成対象音声選択部１４を有する。

発言要求検出部１３は、復号部１２（１２−１〜１２−３）から復号された音声信号（ＰＣＭ信号）を受け取ると、各会議端末５からの音声信号に基づいて参加者が発言を要求しているか否かを検出するものである。発言要求検出部１３の詳細な説明は後述する。

合成対象音声選択部１４は、復号部１２（１２−１〜１２−３）から復号された音声信号（ＰＣＭ信号）の中から合成対象とする音声信号を選択し、合成対象として選択した音声信号を符号化部１５に与える。

符号化部１５は、合成部１７の合成対象音声選択部１４により合成された音声信号を受け取り、その音声信号を符号化し、符号化した音声信号を音声送信部１６（１６−１〜１６−３）に与える。

１つの会議に対して、任意の数の符号化部１５が作成される。これは、この実施形態の会議サーバ１が、複数の接続方式（通信プロトコル）に対応可能であるため、通信プロトコルが異なることにより、符号化方式が異なることがあるためである。従って、制御部３０の指示に従って、対応すべき符号化方式の数に応じた数の符号化部１５が作成されるようにしてもよい。

音声信号に対して施す符号化方式は、復号部１２の詳細な説明で行なったので、ここでの説明は省略する。

音声送信部１６（１６−１〜１６−３）は、符号化部１５による符号化された音声信号を、対応する会議端末５（５−１〜５−３）に送信する。

［映像信号処理部２０］
映像信号処理部２０は、複数の会議端末５−１〜５−３のそれぞれから受信した映像（符号化処理された映像信号）を復号し、制御部３０からの指示に基づいて、映像形式を変換したり、映像を合成したりして、複数の会議端末５−１〜５−３に送信する。

映像信号処理部２０は、映像受信部２１（２１−１〜２１−３）、復号部２２（２２−１〜２２−３）、合成部２７、符号化部２５、映像送信部２６（２６−１〜２６−３）を有する。

またここで、映像受信部２１、復号部２２、映像送信部２６は、ＭＣＵ３で開催される会議１つに対して、接続する会議端末５の数だけ作成される。

映像受信部２１（２１−１〜２１−３）は、対応する会議端末５から映像信号を受信し、その受信した映像信号を復号部２２（２２−１〜２２−３）に与えるものである。ＭＣＵ３と各会議端末５（５−１〜５−３）との間では、情報量を低減して帯域を確保するために、映像信号は圧縮符号化されて送受信される。映像信号の圧縮符号化方式は特に限定されるものではない。例えば、Ｈ．２６１、Ｈ．２６３、ＭＰＥＧ−２、ＭＰＥＧ−４、Ｈ．２６４、Ｈ．２６５等などを用いることができる。

復号部２２（２２−１〜２２−３）は、映像受信部２１（２１−１〜２１−３）から受信した映像信号を復号して、合成部２３に与えるものである。

合成部２３は、復号部２２（２２−１〜２２−３）からの映像信号に基づいて、必要な映像形式に変換し、映像を合成して符号化部２５に与える。通常、１つの会議に対して、１個の合成部２３が作成される。しかし、１つの会議に対して、複数個の合成部２３が作成されるようにしてもよい。

符号化部２５は、合成部２３からの映像信号を符号化して、映像送信部２６（２６−１〜２６−３）に与える。

１つの会議に対して、任意の数の符号化部２５が作成される。これは、この実施形態の会議サーバ１が、複数の接続方式（通信プロトコル）に対応可能であるため、通信プロトコルが異なることにより、符号化方式が異なることがあるためである。従って、制御部３０の指示に従って、対応すべき符号化方式の数に応じた数の符号化部２５が作成されるようにしてもよい。

映像信号に対して施す符号化方式は、復号部２２の詳細な説明で行なったので、ここでの説明は省略する。

映像送信部２６（２６−１〜２６−３）は、符号化部２５による符号化された映像信号を、対応する会議端末５（５−１〜５−３）に送信する。

（Ａ−１−３）発言要求検出部１３の内部構成
図１は、実施形態に係る発言要求検出部１３及び発言制御操作部４の内部構成と、発言要求検出部１３及び発言制御操作部４の関係を示すブロック図である。

図１において、発言要求検出部１３は、発言要求対象選択部１３１、レベル検出部１３２、ＤＴＭＦ検出部１３３、音声認識検出部１３４、キーワード記憶部１３５、発言要求検知部１３６を有する。

ここで、「発言要求状態」とは、発言が許可されていないメディアデータ（この実施形態では、音声信号）を解析して、参加者が発言している状態、若しくは、参加者が発言を希望している状態であることを意味する。

発言要求対象選択部１３１は、ＭＣＵ３の制御部３０からの発言許可情報に基づいて、復号部１２（１２−１〜１２−３）からの音声信号の中から、発言要求状態の検出対象と音声信号を選択する。つまり、発言要求対象選択部１３１は、発言が許可されていない参加者の音声信号を選択する。

より具体的に、発言許可情報には、現時点で、発言が許可されている会議端末５の識別情報が含まれている。従って、発言要求対象選択部１３１は、発言許可情報に基づいて、発言が許可されている会議端末５以外の会議端末５の音声信号を選択する。これにより、会議中で発言権が付与されている参加者以外の参加者の音声を選択し、その選択した音声から、参加者が発言をしているか又は参加者が発言を希望しているかを検出することができる。

レベル検出部１３２は、発言要求対象選択部１３１により選択された音声信号の音声レベルに基づいて、発言要求状態を検出する。つまり、参加者が発言したときに、音声レベルが増大することが考えられる。そこで、レベル検出部１３２は、音声信号の音声レベルを監視して、音声レベルが増大した状態を発言要求状態と捉えて、発言要求状態を検出する。より具体的に、レベル検出部１３２は、各会議端末５の音声レベルの時系列変化を監視し、音声レベルの時系列変化の傾きが閾値を越えて急峻に増大したときに発言要求状態としてもよい。また、各会議端末５の音声レベルが、１又は複数の閾値を越えたときに発言要求状態としてもよい。

ＤＴＭＦ検出部１３３は、発言要求対象選択部１３１により選択された音声信号に基づいて、周波数帯の合成信号音（ＤＴＭＦ信号）を検出したときに発言要求状態を検出する。例えば、会議端末５にＤＴＭＦ送出器が搭載されている場合、発言を要求するときには、いずれかのＤＴＭＦ信号を送出することを参加者の間で取り決めておくことで実現できる。これにより、発言を要求する参加者がＤＴＭＦ送出器を操作して、ＤＴＭＦ信号を含む音声信号がＭＣＵ３に送信され、ＤＴＭＦ検出部１３３がＤＴＭＦ信号を検出することで、発言要求状態を検出できる。

音声認識検出部１３４は、発言要求対象選択部１３１により選択された音声信号に基づいて音声認識処理を行ない、その音声認識結果に基づいて発言要求状態を検出する。キーワード記憶部１３５は予め設定されたメッセージを記憶しているコーパス（辞書）である。キーワード記憶部１３５には、少なくとも、参加者が発言を要求することを示すキーワードが記憶されている。音声認識検出部１３４は、音声認識アルゴリズムにより、音声信号を音波に変換して音素を特定してパターンマッチングにより音声認識を行なう。音声認識検出部１３４は、キーワード記憶部１３５を参照して、得られた単語とキーワードとをマッチングして発言を要求しているか否かを判断する。なお、音声認識アルゴリズムは特に限定されるものではない。

ここで、レベル検出部１３２、ＤＴＭＦ検出部１３３及び音声認識検出部１３４について、いずれかの検出方法を指定することができる。１個の検出方法を指定してもよいし、複数の検出方法を指定してもよい。検出方法の選択方法は、様々な方法を適用することができる。例えば、予め検出方法を設定しておくようにしてもよい。また、参加者又は議長による操作により、会議端末５が検出方法を指定するようにしてもよい。

また、レベル検出部１３２、ＤＴＭＦ検出部１３３又は音声認識検出部１３４が、発言が許可されていない音声信号（復号信号）を監視し、音声信号から発言要求状態を検出することにより、以下のメリットがある。

上述したように、復号部１２（１２−１〜１２−３）は、会議端末５（５−１〜５−３）から受信した音声信号を常時復号している。つまり、復号部１２は、発言が許可されている参加者（会議端末５）の音声だけでなく、発言が許可されていない参加者（会議端末５）からの音声も常時復号している。そして、従来、発言が許可されていない参加者の復号音声については廃棄されている。これは、発言が許可されていない参加者の復号音声は、合成対象とする音声信号ではないためである。

しかし、この実施形態では、従来、合成対象としないために廃棄していた、発言が許可されていない参加者の復号音声を、レベル検出部１３２、ＤＴＭＦ検出部１３３及び音声認識検出部１３４が監視して、当該参加者の発言要求状態を検出するようにしている。

別の観点から見ると、従来は、音声を合成する際に利用しない音声についても復号部１２は常時復号しており、処理負荷がかかると共に復号音声が有効に活用されていなかった。しかし、この実施形態によれば、常時復号される復号音声を有効に活用することができ、この方式実装により復号部１２の処理負荷が増大することもない。

発言要求検知部１３６は、レベル検出部１３２、ＤＴＭＦ検出部１３３又は音声認識検出部３４により発言要求状態が検出されると、発言制御操作部４の発言要求受信部４１に発言要求信号を通知する。これにより、接続方式や会議端末５の種別等が異なる場合でも、発言制御操作部４に対して発言要求信号を通知することができる。

図１に示すように、実施形態に係る発言制御操作部４は、発言要求受信部４１、発言要求表示部４２、発言指定部４３を有する。

発言要求受信部４１は、ＭＣＵ３から発言要求信号を受信する。上述したように、ＭＣＵ３の発言要求検出部１３により発言要求状態が検出されると、発言要求検出部１３から発言要求信号を受信する。

発言要求表示部４２は、当該発言制御操作部４を搭載している自端末５（すなわち、議長端末）のディスプレイ（表示部）に、発言要求があった旨を表示する。これにより、議長に、他の参加者が発言を希望していることを報知することができる。

発言指定部４３は、発言を要求している参加者に対して議長が発言許可する場合に、その参加者に発言許可を示す発言指定情報を、ＭＣＵ３に通知する。発言指定情報は、例えば、その参加者の会議端末５の識別情報を含むようにする。これにより、合成対象音声選択部１４は、ＭＣＵ３０の制御部３０からの発言指定情報に基づいて、発言許可されていない参加者の音声信号を合成対象とすることができる。

（Ａ−２）実施形態の動作
［会議サーバ（音声信号処理部）全体の動作］
以下では、まず、会議サーバ１における音声信号処理の動作を、図面を参照して説明する。

図４は、この実施形態に係る音声信号処理部１０の全体の動作について示した説明図である。

会議サーバ１と会議端末５−１〜５−３との間の呼の確立時に、ＭＣＵ３は各会議端末５−１〜５−３に、音声信号の送信先情報を通知する（Ｓ１１）。音声信号の送信先情報には、音声信号処理部１０の音声受信部１１−１〜１１−３のサーバアドレス、通信ポート番号の情報が含まれる。サーバアドレス、通信ポート番号の情報は、呼の確立時に、制御部３０が音声信号処理部１０に割り当てたものを用いる。そして、呼の確立後、各会議端末５−１〜５−３は、音声信号を音声信号処理部１０に送信する。

音声信号処理部１０では、会議端末５−１〜５−３ごとに、音声受信部１１−１〜１１−３、復号部１２−１〜１２−３、音声送信部１６−１〜１６−３が作成される（Ｓ１２）。ここでは、会議サーバ１は、３台の会議端末５−１〜５−３と呼を確立するので、それぞれの会議端末５−１〜５−３に対応する音声受信部１１−１〜１１−３、復号部１２−１〜１２−３、音声送信部１６−１〜１６−３が作成される。

会議端末５−１〜５−３からの音声信号が音声受信部１１−１〜１１−３により受信され、受信された音声信号が復号部１２−１〜１２−３により復号され、復号音声が得られる（Ｓ１３）。

復号された音声信号は合成部１７に送られ、合成部１７により音声信号が合成される（Ｓ１４）。このとき、制御部３０は合成対象に関する情報を合成部１７に指示しており、合成部１７は制御部３０から指示された合成対象の音声信号を合成する。すなわち、発言許可された会議端末の識別情報が含まれる発言許可情報が制御部３０から合成部１７に通知され、合成部１７は発言許可されている会議端末５からの音声信号を合成する。

そして、合成された音声信号は符号化部１５に与えられ、符号化部１５により音声信号が符号化される（Ｓ１５）。

符号化部１５で符号化された音声信号は、制御部３０の指示に応じて、対応する音声送信部１６−１〜１６−３に送られ、会議端末５−１〜５−３に送信される（Ｓ１６）。会議の終了まで上述のステップＳ１３の処理から再度動作する。

［発言要求検出処理］
次に、実施形態に係るＭＣＵ３における発言要求検出処理を、図面を参照しながら詳細に説明する。

図５は、実施形態に係るＭＣＵ３における発言要求検出処理を示すフローチャートである。

図４のＳ１４で説明したように、合成部１７には制御部３０から発言許可情報が通知され、合成部１７の合成対象音声選択部１４は、発言許可情報に基づいて合成対象の音声信号を合成する。

このような合成対象音声選択部１４による音声合成処理と共に、発言要求検出部１３は、発言許可されていない参加者の音声信号を監視している。

なお、発言要求状態の検出方法は、音声レベル方式、ＤＴＭＦ検出方式、音声認識方式のいずれか又はこれらを組み合わせたものが指定される。

図５において、発言要求対象選択部１３１は、発言許可情報に基づいて、発言許可されていない参加者（会議端末５）の音声信号を選択する（Ｓ１０１）。

［音声レベル方式］
発言要求状態の検出方法として音声レベル方式が指定されるときの動作を説明する。

レベル検出部１３２は、合成対象音声選択部１４により選択された音声信号を監視する。レベル検出部１３２は、入力された音声信号の音声レベル値と閾値とを比較し、音声レベル値が閾値より大きいか否かを判断する（Ｓ１０２）。

そして、音声レベル値が閾値より大きい場合、レベル検出部１３２は、発言要求状態を検出し、Ｓ１０６に移行する。音声レベル値が閾値以下の場合、Ｓ１０１に戻り、レベル検出部１３２は音声信号の監視を続ける。

例えば、会議進行中に、発言許可されていない参加者が何らかの発言をしたときに又は参加者が「議長、発言させてください。」などと発したときには、当該拠点の会議端末５からの音声信号の音声レベルは増大することになる。なお、この参加者の音声は合成対象ではないので、この時点では、合成音声には含まれておらず、他の参加者は聞くことはできない。しかし、そのような場合でも、音声レベル値が閾値より大きくなるので、発言要求状態と検出され、発言制御操作部４に対して発言要求が通知されることになる。

なお、ここでは、音声信号の音声レベル値と閾値とを比較する場合を例示したが、音声レベルの時系列変化を監視し、音声レベルの時系列変化の傾きと閾値とを比較して、傾きが閾値より大きいときに、発言要求状態を検出したとしてもよい。あるいは、音声レベルの時系列で一定レベルの音声が一定時間の平均音声レベル（閾値）を超えた場合を、発言要求状態を検出したとしてもよい。

［ＤＴＭＦ検出方式］
発言要求状態の検出方法としてＤＴＭＦ方式が指定されるときの動作を説明する。

ＤＴＭＦ検出部１３３は、発言要求対象選択部１３１により選択された音声信号を監視する。ＤＴＭＦ検出部１３３は、入力された音声信号に、周波数帯の合成信号音（ＤＴＭＦ信号）が含まれているか否かを判断する（Ｓ１０３）。

そして、ＤＴＭＦ信号が含まれているとき、ＤＴＭＦ検出部１３３は、発言要求状態を検出し、Ｓ１０６に移行する。ＤＴＭＦ信号が含まれていないとき、Ｓ１０１に戻り、ＤＴＭＦ検出部１３３は音声信号の監視を続ける。

［音声認識方式］
発言要求状態の検出方法として音声認識方式が指定されるときの動作を説明する。

音声認識検出部１３４は、発言要求対象選択部１３１により選択された音声信号を監視する。音声認識検出部１３４は、音声認識アルゴリズムにより、音声信号を音波に変換し、音素を特定して、パターンマッチングにより音声認識を行なう（Ｓ１０４）。音声認識検出部１３４は、キーワード記憶部１３５を参照して、得られた単語とキーワードとをマッチングする（Ｓ１０５）。

そして、キーワードが検出されると、音声認識検出部１３４は、発言要求状態を検出し、Ｓ１０６に移行する。キーワードが検出されないとき、Ｓ１０１に戻り、音声認識検出部１３４は音声信号の監視を続ける。

例えば、キーワード記憶部１３５に、「議長」、「発言させてください」などの発言を要求するキーワードを記憶しておく。そして、発言許可されていない参加者が「議長、発言させてください。」などと発したときには、音声認識により発言要求状態と検出さる。従って、発言制御操作部４に対して発言要求が通知されることになる。

次に、発言要求検知部１３６は、レベル検出部１３２、ＤＴＭＦ検出部１３３又は音声認識検出部３４から検出結果が通知される。

そして、発言要求状態が検出されると、発言要求検知部１３６は、発言要求状態を検出した会議端末５の識別情報を含む発言要求信号を、発言制御操作部４に通知する（Ｓ１０６）。

発言制御操作部４では、議長が、当該参加者に発言許可するか否かを判断する。そして、議長が当該参加者に発言を許可する場合に、その参加者の会議端末５の識別情報を含む発言指定情報がＭＣＵ３に送信される。ＭＣＵ３の制御部３０を通じて、発言指定情報が合成対象音声選択部１４に受信されると（Ｓ１０７）、合成対象音声選択部１４は、発言指定情報で指定された会議端末５の音声信号を合成対象に設定する（Ｓ１０８）。これにより、当該参加者の音声も含んだ音声合成が作成される。

（Ａ−３）実施形態の効果
以上のように、この実施形態によれば、発言制御を使用する会議室で、特別な発言要求機構を使用しなくても、復号された音声信号を監視することで、参加者が発言をしたこと又は発言を希望していることを検出でき、その参加者に発言許可の是非を判断させることができる。

また、この実施形態は、復号された音声信号から発言要求状態を検出するので、会議サーバとの通信プロトコル（接続方式）の違いや、インターネットを利用した接続や、会議端末の種別の違いに拘わらず、発言制御を行なうことができる。その結果、多種多様な端末を相互利用して、会議システムを実現することができる。

さらに、この実施形態は、従来、常時各拠点からの音声を復号して音声合成に利用しない音声を廃棄していたが、音声合成に利用していない音声信号を有効に利用することができるため、音声復号による処理増加も生じない。

（Ｂ）他の実施形態
上述した実施形態においても種々の変形実施形態を言及したが、本発明は、以下の変形実施形態にも適用することができる。

（Ｂ−１）上述した実施形態では、発言許可されていない参加者（会議端末）の音声信号に基づいて、参加者が発言した又は参加者が発言を希望していることを検出する場合を例示した。しかし、これに限定される、発言許可されていない参加者（会議端末）の画像データに基づいて検出するようにしてもよい。

例えば、図６に例示するように、映像信号処理部２０の合成部２４が、上述した実施形態における発言要求検出部１３の代わりに発言要求検出部１３−１とを備え、発言要求検出部１３−１が、復号された画像データを解析して、発言要求状態を検出するようにしてもよい。その際、図６に例示するように、合成対象音声選択部１４の代わりに合成対象音声選択部１４−１が、合成対象として選択した音声信号を符号化部１５に与えるようにする。

ここで、発言要求検出部１３−１は、復号部２２（２２−１〜２２−３）から復号された映像信号を受け取ると、各会議端末５からの映像信号に基づいて参加者が発言を要求しているか否かを検出するものである。発言要求検出部１３−１の詳細な説明は後述する。なお、発言要求検出部１３−１は、上述した実施形態の発言要求検出部１３と併用して使用することも可能である。

ここで、合成対象音声選択部１４−１は、制御部３０を介して受信した発言要求検出部１３−１の検出結果に基づいて、復号部１２（１２−１〜１２−３）から復号された音声信号の中から、合成対象とする音声信号を選択し、合成対象として選択した音声信号を符号化部１５に与える。なお、合成対象音声選択部１４−１は、上述した実施形態の合成対象音声選択部１４と併用して使用することも可能である。

ここでは、例えば、参加者がカメラに向かって手を振ることで、発言を希望することをアピールしていることを、発言要求検出部１３−１が検出する場合を例示する。

このような場合、発言要求検出部１３−１は、復号された映像ストリームに対して動き検出（又は動体検出）アルゴリズムにより、発言許可されていない参加者の動きを検出するようにしてもよい。なお、動き検出アルゴリズムは、種々のアルゴリズムを適用することができる。例えば、発言要求検出部１３−１は、映像ストリームをフレーム毎に区切り、例えば、「手」のように、検出可能な物体を予め登録して対象物を検出し、オブジェクトの移動量や移動速度と予め設定した閾値との比較結果に基づいて、発言要求状態を検出するなどの方法を適用してもよい。勿論、これに限定されるものではなく、映像ストリームから、発言を要求している参加者の動き（動作）を検出することができれば、様々な方法を適用できる。

７…会議システム７…会議サーバ、２…ゲートキーパ（ＧＫ）、３…ＭＣＵ、１０…音声信号処理部、２０…映像信号処理部、３０…制御部、
１１（１１−１〜１１−３）…音声受信部、１２（１２−１〜１２−３）…復号部、１７…合成部、１５…符号化部、１６（１６−１〜１６−３）…音声送信部、１３…発言要求検出部、１４…合成対象選択部、
１３１…発言要求対象選択部、１３２…レベル検出部、１３３…ＤＴＭＦ検出部、１３４…音声認識検出部１３４…キーワード記憶部、１３６…発言要求検知部、
５（５−１〜５−３）…会議端末、４…発言制御操作部、４１…発言要求受信部、４２…発言要求表示部、４３…発言指定部。

Claims

複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した１又は複数のメディア信号を合成し符号化された合成メディア信号を上記複数の端末に送信する情報処理装置において、
上記復号された各メディア信号を解析して、上記各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、
上記発言要求検出手段により上記発言要求状態が検出されると、上記発言要求状態を検出した上記メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段と
を備えることを特徴とする情報処理装置。
上記発言要求検出手段は、上記合成メディア信号の作成に係る合成対象情報に基づいて、合成対象以外の上記復号されたメディア信号を監視することを特徴とする請求項１に記載の情報処理装置。
上記メディア信号が音声信号であり、
上記発言要求検出手段が、復号された音声信号のうち、合成音声に利用されていない各音声信号の時系列変化に基づいて、上記発言要求状態を検出することを特徴とする請求項１又は２に記載の情報処理装置。
上記発言要求検出手段が、上記合成音声に利用されていない上記各音声信号の音声レベル値の変化に基づいて、上記発言要求状態を検出することを特徴とする請求項３に記載の情報処理装置。
上記発言要求検出手段が、上記合成音声に利用されていない上記各音声信号を用いて音声認識を行ない、その音声認識結果に基づいて、上記発言要求状態を検出することを特徴とする請求項３に記載の情報処理装置。
上記発言要求検出手段が、上記合成音声に利用されていない上記各音声信号に含まれる周波数合成信号を検出することにより、上記発言要求状態を検出することを特徴とする請求項３に記載の情報処理装置。
上記メディア信号が映像信号であり、
上記発言要求検出手段が、復号された映像信号のうち、合成映像に利用されていない各映像信号の時系列変化に基づいて、上記発言要求状態を検出することを特徴とする請求項１又は２に記載の情報処理装置。
複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した１又は複数のメディア信号を合成し符号化された合成メディア信号を上記複数の端末に送信する情報処理方法において、
発言要求検出手段が、上記復号された各メディア信号を解析して、上記各メディア信号に基づいて所定の発言要求状態を検出し、
通知手段が、上記発言要求検出手段により上記発言要求状態が検出されると、上記発言要求状態を検出した上記メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する
ことを特徴とする情報処理方法。
複数の端末のそれぞれから受信したメディア信号を復号し、複数のメディア信号の中から選択した１又は複数のメディア信号を合成し符号化された合成メディア信号を上記複数の端末に送信する情報処理プログラムにおいて、
コンピュータを、
上記復号された各メディア信号を解析して、上記各メディア信号に基づいて所定の発言要求状態を検出する発言要求検出手段と、
上記発言要求検出手段により上記発言要求状態が検出されると、上記発言要求状態を検出した上記メディア信号の送信元から発言が要求されたことを示す発言要求情報を、予め設定された発言許可権限端末に対して通知する通知手段と
して機能させることを特徴とする情報処理プログラム。