JP5158098B2

JP5158098B2 - 音声ミキシング装置および方法ならびに多地点会議サーバ

Info

Publication number: JP5158098B2
Application number: JP2009552439A
Authority: JP
Inventors: 伊藤　　博紀; 一範小澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-02-04
Filing date: 2009-01-28
Publication date: 2013-03-06
Anticipated expiration: 2029-01-28
Also published as: EP2226995A4; CN101926160A; US8509460B2; JPWO2009098974A1; US20100296675A1; EP2226995A1; WO2009098974A1

Description

本発明は、複数の音声信号をミキシングする技術に関し、特に、多地点会議サービスを提供するサーバ等において用いられる音声信号のミキシング技術に関する。

多地点会議サービスを提供するシステムとして、特開２０００−１７５１７０号公報に記載の多地点テレビ会議システムがある。この多地点テレビ会議システムは、複数の会議端末と、これら会議端末が接続される多地点制御装置とからなる。会議端末が参加者に割り当てられる。

この多地点テレビ会議システムでは、各会議端末が、自端末にて検出した音響（音声）に関する音響信号を多地点制御装置に送信する。多地点制御装置は、各会議端末から受信した音響信号を加算する。そして、多地点制御装置は、会議端末のそれぞれに対して、加算した音響信号から当該会議端末から受信した音響信号を減算し、その減算結果として得られる音響信号を符号化し、その符号化した音響信号を当該会議端末に送信する。

ところで、多地点制御装置は、回線交換網、モバイル網、パケット網等の種々の通信網に適用することが可能である。回線交換網では、ＩＴＵ‐Ｔ（Telecommunication Union Telecommunication Standardization Sector）勧告のＨ．３２３やＨ．３２４により規定される通信プロトコルが用いられる。モバイル網では、３Ｇ−３２４Ｍにより規定される通信プロトコルが用いられる。ＩＰ(Internet Protocol)に基づくパケット網では、ＩＥＴＦ（The Internet Engineering Task Force）のＲＦＣ３５５０ＲＴＰが用いられる。「ＲＦＣ」は「Request for Comments」の略であり、「ＲＴＰ」は「Real-time Transport Protocol」の略である。

また、多地点制御装置には、サンプリング周波数が８ｋＨｚで、帯域が３．４ｋＨｚの電話帯域音声向けの音声符号化器を搭載するものや、サンプリング周波数が１６ｋＨｚで、帯域が７ｋＨｚの広帯域音声向けの音声符号化器を搭載するものなどがある。電話帯域音声向けの音声符号化器として、ＩＴＵ‐Ｔ勧告のＧ．７１１やＧ．７２９，３ＧＰＰで採用されているＡＭＲ(Adaptive Multi-Rate)方式のものや、３ＧＰＰ２で採用されているＥＶＲＣ(Enhanced Variable Rate Codec)方式のものなどが用いられる。広帯域音声向けの音声符号化器として、ＩＴＵ‐Ｔ勧告によるＧ．７２２や３ＧＰＰＴＳ２６．１９０で規定されているＡＭＲ‐ＷＢ(Wide Band)方式のものが用いられる。さらに、ＭＰＥＧ‐４ＡＡＣ(Advanced Audio Coding)などのコーデックを用いることで、より広帯域な音声信号を扱うことが可能である。

多地点会議サービスを利用する上での利便性を考慮すると、電話帯域を利用する端末や広帯域を利用する端末といった、異なる帯域の音声（音響）信号を送受信する端末間においても多地点会議サービスを提供できることが望ましい。しかしながら、上述した多地点制御装置は、電話帯域音声向け、または、広帯域音声向け、といったように、単一の帯域の音声信号にしか対応していないため、異なる帯域の音声信号を送受信する端末間における多地点会議サービスを提供することは困難である。

また、上述した多地点制御装置では、会議端末のそれぞれに対して、加算した音響信号から当該会議端末から受信した音響信号を減算し、その減算結果として得られる音響信号を符号化するように構成されている。このような、参加者毎に符号化を行う構成においては、多くの参加者が多地点会議を行うシステムを構築する場合において、符号化のための演算量が膨大なものとなり、演算処理に時間を要する、といった不具合が生じる。

本発明の目的は、上記課題を解決し、サンプリング周波数が異なる複数の帯域の音声信号をミキシングすることができ、かつ、演算量の増加を抑制することができる、音声ミキシング装置、音声ミキシング方法および多地点会議サーバを提供することにある。

上記目的を達成するため、本発明の音声ミキシング装置は、
サンプリング周波数別に設けられた複数のミキシング処理部と、
前記複数のミキシング処理部に入力された複数の音声信号のうちから、話者の音声を含む話者音声信号を少なくとも一つ選択する話者検出部と、を有し、
前記複数のミキシング処理部のそれぞれは、
自処理部に入力された同一サンプリング周波数の音声信号のうち、前記話者検出部にて選択された話者音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた第１の加算音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第１の加算音声信号と、前記他のミキシング処理部から供給される、自処理部で処理可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して第２の加算音声信号を生成する、ことを特徴とする。

本発明の音声ミキシング方法は、
サンプリング周波数が異なる複数の音声信号をミキシングする音声信号ミキシング方法であって、
前記複数の音声信号のうちから話者の音声を含む話者音声信号を少なくとも一つ選択する第１のステップと、
前記複数の音声信号をサンプリング周波数別に分類したグループ毎に、前記第１のステップで選択された同一サンプリング周波数の話者音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のグループで処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のグループに割り当てる第２のステップと、
前記グループ毎に、自グループで生成した前記第１の加算音声信号と、前記他のグループから自グループに割り当てられた、サンプリング周波数の変換がなされた前記第１の加算信号とを加算して第２の加算音声信号を生成する第３のステップと、を含むことを特徴とする。

本発明の多地点会議サーバは、複数の通信端末とネットワークを介して接続される多地点会議サーバであって、
前記複数の通信端末から受信した複数の音声信号をサンプリング周波数別に分類する信号分類部と、
サンプリング周波数別に設けられ、前記信号分類部から供給される同一サンプリング周波数の音声信号をミキシングする複数のミキシング処理部と、
前記複数のミキシング処理部に入力された複数の音声信号のうちから話者の音声を含む話者音声信号を少なくとも一つ選択する話者検出部と、を有し、
前記複数のミキシング処理部のそれぞれは、
自処理部に入力された同一サンプリング周波数の音声信号のうち、前記話者検出部にて選択された話者音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた第１の加算音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第１の加算音声信号と、前記他のミキシング処理部から供給される、自処理部で処理可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して第２の加算音声信号を生成する、ことを特徴とする。

本発明の一実施形態である音声ミキシング装置の構成を示すブロック図である。図１に示す音声ミキシング装置を搭載した多地点会議サーバを用いた多地点会議システムの構成を示すブロック図である。図１に示す音声ミキシング装置のミキシング処理の一手順を示すフローチャートである。

符号の説明

１₁〜１_k ミキシング処理部
４００話者検出部
１０₁〜１０_n、２０₁〜２０_n、３０₁〜３０_n 音声信号入力端子
１１₁〜１１_n、２１₁〜２１_n、３１₁〜３１_n パワー計算部
１２₁〜１２_n、２２₁〜２２_n、３２₁〜３２_n 音声信号切替部
１３₁〜１３_k グループ信号加算部
１４₁〜１４_k-1、１２₁〜１２_k-1、１３₁〜１３_k-1 サンプリング変換部
１５₁〜１５_k 全信号加算部
１６₁〜１６_n、２６₁〜２６_n、３６₁〜３６_n 信号減算部
１７₁〜１７_n、２７₁〜２７_n、３７₁〜３７_n 符号化部
４０₁〜４０_k 共通符号化部
１８₁〜１８_n、２８₁〜２８_n、３８₁〜３８_n 音声信号切替部
１９₁〜１９_n、２９₁〜２９_n、３９₁〜３９_n 音声信号出力端子

次に、本発明の実施形態について図面を参照して説明する。

図１は、本発明の一実施形態である音声ミキシング装置の構成を示すブロック図である。

図１に示す音声ミキシング装置は、多地点制御装置である多地点会議サーバに搭載されるものであって、ｋ個のミキシング処理部１₁〜１_kと話者検出部４００とを有する。多地点会議サーバは、サンプリング周波数の異なる複数の帯域の音声信号を受信することが可能とされており、ミキシング処理部は、その帯域毎に設けられている。すなわち、ミキシング処理部１₁〜１_kの数は、多地点会議サーバで取り扱うことができる帯域の最大数に対応する。ここでは、多地点会議サーバは、ｋ個の異なる帯域Ｂ₁〜Ｂ_kの音声信号を受信するように構成されており、受信した音声信号が帯域別に設けられたミキシング処理部１₁〜１_kに供給される。

本実施形態の音声ミキシング装置の詳細な構成を説明する前に、本実施形態の音声ミキシング装置を搭載する多地点会議サーバの構成について簡単に説明する。

図２は、図１に示した音声ミキシング装置を搭載した多地点会議サーバを用いた多地点会議システムの構成を示すブロック図である。この多地点会議システムは、複数の端末２００と、これら端末２００が伝送路３００を介して接続される多地点会議サーバ１００とを有する。

伝送路３００は、回線交換網、モバイル網、パケット網等の複数の通信網を含む。端末２００と多地点会議サーバ１００の間において音声信号を送受信する際に、それぞれの通信網のプロトコルを通じて、音声信号の呼接続情報（音声信号を送信した端末のアドレス情報、帯域の情報、サンプリング周波数の情報などを含む）が多地点会議サーバ１００に供給される。

複数の端末２００は、伝送路３００を介して送受信される音声信号の帯域およびサンプリング周波数が異なる複数の端末を含む。例えば、サンプリング周波数が８ｋＨｚで、帯域が３．４ｋＨｚの電話帯域音声向けの端末や、サンプリング周波数が１６ｋＨｚで、帯域が７ｋＨｚの広帯域音声向けの端末などが、端末２００として用いられる。なお、各端末２００の構成は基本的に同じである。

端末２００は、ＡＤ変換部２０１、符号化部２０２、送信部２０３、ＤＡ変換部２０４、復号部２０５および受信部２０６からなる。

ＡＤ変換部２０１は、マイクロホン２０７からの音声信号（アナログ信号）をデジタル信号に変換する。符号化部２０２は、ＡＤ変換部２０１から供給された音声信号（デジタル信号）を符号化する。送信部２０３は、符号化部２０２から供給された符号化音声信号を、伝送路３００を介して多地点会議サーバ１００へ送信する。

受信部２０６は、多地点会議サーバ１００からの符号化音声信号（デジタル信号）を、伝送路３００を介して受信する。復号部２０５は、受信部２０６から供給される符号化音声信号を復号する。ＤＡ変換部２０４は、復号部２０５からの復号音声信号（デジタル信号）をアナログ信号に変換する。アナログ信号に変換された音声信号は、ＤＡ変換部２０４からスピーカ２０８に供給される。

多地点会議サーバ１００は、受信部１０１、複数の復号部１０２、信号分類部１０３、音声ミキシング装置１０４および送信部１０５を有する。音声ミキシング装置１０４は、図１に示した音声ミキシング装置である。

受信部１０１は、各端末２００からの音声信号を、伝送路３００を介して受信する。受信した音声信号は、受信部１０１から複数の復号部１０２のいずれかに供給される。復号部１０２は、受信部１０１から供給された音声信号を復号する。復号された音声信号は、復号部１０２から信号分類部１０３に供給される。

信号分類部１０３は、復号部１０２から供給された復号音声信号を、該復号音声信号のサンプリング周波数に応じて、図１に示したミキシング処理部１₁〜１_kのうちの対応するミキシング処理部に供給する。また、信号分類部１０３は、音声ミキシング装置１０４から供給された音声信号を送信部１０５に供給する。復号音声信号のサンプリング周波数は、受信部１０１が音声信号を受信した際に得られる呼制御情報から得ることができる。

送信部１０５は、信号分類部１０３から供給された音声信号を、伝送路３００を介して、複数の端末２００のうちの対応する端末へ送信する。受信部１０１が音声信号を受信した際に得られる呼制御情報に基づいて、送信先となる端末を識別することができる。

音声ミキシング装置１０４は、信号分類部１０３から供給される、サンプリング周波数別に分類された複数の音声信号をミキシングして符号化し、符号化した音声信号を信号分類部１０３に供給する。

以下、図１を参照して音声ミキシング装置１０４の構成を具体的に説明する。

音声ミキシング装置１０４は、話者検出部４００およびミキシング処理部１₁〜１_kからなる。ミキシング処理部１₁〜１_kは、基本的に同じ構成である。便宜上、図１には、ミキシング処理部１₁、ミキシング処理部１₂およびミキシング処理部１_kについての具体的な構成が示されている。

［ミキシング処理部１₁の構成］
ミキシング処理部１₁は、音声信号入力端子１０₁〜１０_n、パワー計算部１１₁〜１１_n、音声信号切替部１２₁〜１２_n、グループ信号加算部１３₁、サンプリング変換部１４₁〜１４_k-1、全信号加算部１５₁、信号減算部１６₁〜１６_n、符号化部１７₁〜１７_n、共通符号化部４０₁、音声信号切替部１８₁〜１８_n、および音声信号出力端子１９₁〜１９_nを有する。

帯域Ｂ₁の音声信号は、音声信号入力端子１０₁〜１０_nに割り振られて供給される。例えば、帯域Ｂ₁の音声信号として、ｎ個の音声信号を受信した場合は、音声信号入力端子１０₁〜１０_nのそれぞれに受信音声信号が供給される。

音声信号入力端子１０₁は、パワー計算部１１₁の入力端子に接続されるとともに、音声信号切替部１２₁の入力端子に接続されている。これと同様に、音声信号入力端子１０₂〜１０_nも、パワー計算部１１₂〜１１_nの入力端子に接続されるとともに、音声信号切替部１２₂〜１２_nの入力端子に接続されている。

パワー計算部１１₁は、音声信号入力端子１０₁から供給される入力音声信号のパワーを計算する。例えば、入力音声信号Ｓ（ｎ）のサンプリング周波数が８ｋＨｚである場合、パワー計算部１１₁は、２０ミリ秒（１６０サンプル）毎に、その入力音声信号Ｓ（ｎ）のパワーを、以下の式（１）により計算する。

但し、Ｌ＝１６０

パワー計算部１１₁によるパワー計算と同様に、パワー計算部１１₂〜１１_nも、音声信号入力端子１０₂〜１０_nから供給される入力音声信号のパワーを計算する。パワー計算部１１₁〜１１_nの各パワー計算値は、話者検出部４００に供給される。

音声信号切替部１２₁〜１２_nは、話者検出部４００からの制御信号に従って、それぞれのオン・オフの動作が行われるように構成されている。音声信号切替部１２₁〜１２_nでは、オン状態とされた場合にのみ、入力された音声信号が出力される。

音声信号切替部１２₁の出力は、グループ信号加算部１３₁および信号減算部１６₁に供給される。これと同様に、音声信号切替部１２₂〜１２_nの各出力も、グループ信号加算部１３₁に供給されるとともに、信号減算部１６₂〜１６_nに供給される。

グループ信号加算部１３₁は、音声信号切替部１２₁〜１２_nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部１３₁の出力は、サンプリング変換部１４₁〜１４_k-1および全信号加算部１５₁に供給される。

サンプリング変換部１４₁〜１４_k-1は、帯域Ｂ₁を除く他の帯域Ｂ₂〜Ｂ_kに対応して設けられている。サンプリング変換部１４₁は、グループ信号加算部１３₁から供給された音声信号（加算結果）のサンプリング周波数を、帯域Ｂ₂の音声信号のサンプリング周波数に一致するように変換する。例えば、帯域Ｂ₁の音声信号のサンプリング周波数が８ｋＨｚであり、帯域Ｂ₂の音声信号のサンプリング周波数が１６ｋＨｚである場合は、サンプリング変換部１４₁は、グループ信号加算部１３₁からの音声信号のサンプリング周波数を、８ｋＨｚから１６ｋＨｚに変換する。これと同様に、サンプリング変換部１４₂〜１４_k-1も、グループ信号加算部１３₁からの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。

サンプリング変換部１４₁の出力は、帯域Ｂ₂に対応するミキシング処理部１₂の全信号加算部に供給される。これと同様に、サンプリング変換部１４₂〜１４_k-1の出力は、帯域Ｂ₃〜Ｂ_kに対応するミキシング処理部１₃〜１_kの全信号加算部に供給される。

全信号加算部１５₁は、グループ信号加算部１３₁からの音声信号と他のミキシング処理部１₂〜１_kの各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部１５₁の出力は、信号減算部１６₁〜１６_nおよび共通符号化部４０₁に供給される。

信号減算部１６₁は、音声信号切替部１２₁からの音声信号を第１の入力とし、全信号加算部１５₁からの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。信号減算部１６₁の出力は、符号化部１７₁に供給される。これと同様に、信号減算部１６₂〜１６_nのそれぞれも、音声信号切替部１２₂〜１２_nのうちの対応する音声信号切替部からの音声信号を第１の入力とし、全信号加算部１５₁からの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。信号減算部１６₂〜１６_nの出力は、符号化部１７₂〜１７_nに供給される。なお、信号減算部１６₁〜１６_nは、第１の入力に音声信号が供給されていない状態（音声信号切替部１２₁〜１２_nがオフ状態）においては、音声信号を出力しない。

符号化部１７₁は、信号減算部１６₁からの音声信号を符号化する。符号化部１７₁の出力は、音声信号切替部１８₁に供給される。これと同様に、符号化部１７₂〜１７_nも、信号減算部１６₂〜１６_nのうちの対応する信号減算部からの音声信号を符号化する。符号化部１７₂〜１７_nの出力は、音声信号切替部１８₂〜１８_nに供給される。

共通符号化部４０₁は、全信号加算部１５₁からの音声信号を符号化する。共通符号化部４０₁の出力は、音声信号切替部１８₁〜１８_nに供給される。

音声信号切替部１８₁は、符号化部１７₁からの符号化された音声信号を第１の入力とし、共通符号化部４０₁からの符号化された音声信号を第２の入力とし、話者検出部４００からの制御信号に従い、これら第１および第２の入力のいずれかを選択して出力する。音声信号切替部１８₁の出力は、音声信号出力端子１９₁に供給される。これと同様に、音声信号切替部１８₂〜１８_nも、符号化部１７₂〜１７_nのうちの対応する符号化部からの符号化された音声信号を第１の入力とし、共通符号化部４０₁からの符号化された音声信号を第２の入力とし、話者検出部４００からの制御信号に従い、これら第１および第２の入力のいずれかを選択して出力する。音声信号切替部１８₂〜１８_nの出力は、音声信号出力端子１９₂〜１９_nに供給される。

音声信号出力端子１９₁〜１９_nは、入力された音声信号を図２に示した信号分類部１０３に供給する。

［ミキシング処理部１₂の構成］
ミキシング処理部１₂は、音声信号入力端子２０₁〜２０_n、パワー計算部２１₁〜２１_n、音声信号切替部２２₁〜２２_n、グループ信号加算部１３₂、サンプリング変換部２４₁〜２４_k-1、全信号加算部１５₂、信号減算部２６₁〜２６_n、符号化部２７₁〜２７_n、共通符号化部４０₂、音声信号切替部２８₁〜２８_n、および音声信号出力端子２９₁〜２９_nを有する。

帯域Ｂ₂の音声信号は、音声信号入力端子２０₁〜２０_nに割り振られて供給される。音声信号入力端子２０₁〜２０_nの数は、他のミキシング処理部の音声信号入力端子の数と同じであっても、異なっていても良い。

音声信号入力端子２０₁は、パワー計算部２１₁の入力端子に接続されるとともに、音声信号切替部２２₁の入力端子に接続されている。これと同様に、音声信号入力端子２０₂〜２０_nも、パワー計算部２１₂〜２１_nの入力端子に接続されるとともに、音声信号切替部２２₂〜２２_nの入力端子に接続されている。

パワー計算部２１₁は、音声信号入力端子２０₁から供給される入力音声信号のパワーを計算する。このパワー計算も、前述のパワー計算部１１₁によるパワー計算と同様である。これと同様に、パワー計算部２１₂〜２１_nも、音声信号入力端子２０₂〜２０_nから供給される入力音声信号のパワーを計算する。パワー計算部２１₁〜２１_nの各パワー計算値は、話者検出部４００に供給される。

音声信号切替部２２₁〜２２_nは、話者検出部４００からの制御信号に従って、それぞれのオン・オフの動作が行われるように構成されている。音声信号切替部２２₁〜２２_nでは、オン状態とされた場合にのみ、入力された音声信号が出力される。

音声信号切替部２２₁の出力は、グループ信号加算部１３₂および信号減算部２６₁に供給される。これと同様に、音声信号切替部２２₂〜２２_nの各出力も、グループ信号加算部１３₂に供給されるとともに、信号減算部２６₂〜２６_nに供給される。

グループ信号加算部１３₂は、音声信号切替部２２₁〜２２_nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部１３₂の出力は、サンプリング変換部２４₁〜２４_k-1および全信号加算部１５₂に供給される。

サンプリング変換部２４₁〜２４_k-1は、帯域Ｂ₂を除く他の帯域Ｂ₁、Ｂ₃〜Ｂ_kに対応して設けられている。サンプリング変換部２４₁は、グループ信号加算部１３₂から供給された音声信号（加算結果）のサンプリング周波数を、帯域Ｂ₁の音声信号のサンプリング周波数に一致するように変換する。これと同様に、サンプリング変換部２４₂〜２４_k-1も、グループ信号加算部１３₂からの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。

サンプリング変換部２４₁の出力は、帯域Ｂ₁に対応するミキシング処理部１₁の全信号加算部に供給される。これと同様に、サンプリング変換部２４₂〜２４_k-1の出力は、帯域Ｂ₃〜Ｂ_kに対応するミキシング処理部１₃〜１_kの全信号加算部に供給される。

全信号加算部１５₂は、グループ信号加算部１３₂からの音声信号と他のミキシング処理部１₁、１₃〜１_kの各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部１５₂の出力は、信号減算部２６₁〜２６_nおよび共通符号化部４０₂に供給される。

信号減算部２６₁は、音声信号切替部２２₁からの音声信号を第１の入力とし、全信号加算部１５₂からの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。信号減算部２６₁の出力は、符号化部２７₁に供給される。これと同様に、信号減算部２６₂〜２６_nのそれぞれも、音声信号切替部２２₂〜２２_nのうちの対応する音声信号切替部からの音声信号を第１の入力とし、全信号加算部１５₂からの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。信号減算部２６₂〜２６_nの出力は、符号化部２７₂〜２７_nに供給される。

符号化部２７₁は、信号減算部２６₁からの音声信号を符号化する。符号化部２７₁の出力は、音声信号切替部２８₁に供給される。これと同様に、符号化部２７₂〜２７_nも、信号減算部２６₂〜２６_nのうちの対応する信号減算部からの音声信号を符号化する。符号化部２７₂〜２７_nの出力は、音声信号切替部２８₂〜２８_nに供給される。

共通符号化部４０₂は、全信号加算部１５₂からの音声信号を符号化する。共通符号化部４０₂の出力は、音声信号切替部２８₁〜２８_nに供給される。

音声信号切替部２８₁は、符号化部２７₁からの符号化された音声信号を第１の入力とし、共通符号化部４０₂からの符号化された音声信号を第２の入力とし、話者検出部４００からの制御信号に従い、これら第１および第２の入力のいずれかを選択して出力する。音声信号切替部２８₁の出力は、音声信号出力端子２９₁に供給される。これと同様に、音声信号切替部２８₂〜２８_nも、符号化部２７₂〜２７_nのうちの対応する符号化部からの符号化された音声信号を第１の入力とし、共通符号化部４０₂からの符号化された音声信号を第２の入力とし、話者検出部４００からの制御信号に従い、これら第１および第２の入力のいずれかを選択して出力する。音声信号切替部２８₂〜２８_nの出力は、音声信号出力端子２９₂〜２９_nに供給される。

音声信号出力端子２９₁〜２９_nは、入力された音声信号を図２に示した信号分類部１０３に供給する。

［ミキシング処理部１_kの構成］
ミキシング処理部１_kは、音声信号入力端子３０₁〜３０_n、パワー計算部３１₁〜３１_n、音声信号切替部３２₁〜３２_n、グループ信号加算部１３_k、サンプリング変換部３４₁〜３４_k-1、全信号加算部１５_k、信号減算部３６₁〜３６_n、符号化部３７₁〜３７_n、共通符号化部４０_k、音声信号切替部３８₁〜３８_n、および音声信号出力端子３９₁〜３９_nを有する。

帯域Ｂ_kの音声信号は、音声信号入力端子３０₁〜３０_nに割り振られて供給される。音声信号入力端子３０₁〜３０_nの数は、他のミキシング処理部の音声信号入力端子の数と同じであっても、異なっていても良い。

音声信号入力端子３０₁は、パワー計算部３１₁の入力端子に接続されるとともに、音声信号切替部３２₁の入力端子に接続されている。これと同様に、音声信号入力端子３０₂〜３０_nも、パワー計算部３１₂〜３１_nの入力端子に接続されるとともに、音声信号切替部３２₂〜３２_nの入力端子に接続されている。

パワー計算部３１₁は、音声信号入力端子３０₁から供給される入力音声信号のパワーを計算する。このパワー計算も、前述のパワー計算部１１₁によるパワー計算と同様である。これと同様に、パワー計算部３１₂〜３１_nも、音声信号入力端子３０₂〜３０_nから供給される入力音声信号のパワーを計算する。パワー計算部３１₁〜３１_nの各パワー計算値は、話者検出部４００に供給される。

音声信号切替部３２₁〜３２_nは、話者検出部４００からの制御信号に従って、それぞれのオン・オフの動作が行われるように構成されている。音声信号切替部３２₁〜３２_nでは、オン状態とされた場合にのみ、入力された音声信号が出力される。

音声信号切替部３２₁の出力は、グループ信号加算部１３_kおよび信号減算部３６₁に供給される。これと同様に、音声信号切替部３２₂〜３２_nの各出力も、グループ信号加算部１３_kに供給されるとともに、信号減算部３６₂〜３６_nに供給される。

グループ信号加算部１３_kは、音声信号切替部３２₁〜３２_nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部１３_kの出力は、サンプリング変換部３４₁〜３４_k-1および全信号加算部１５_kに供給される。

サンプリング変換部３４₁〜３４_k-1は、帯域Ｂ_kを除く他の帯域Ｂ₁〜Ｂ_k-1に対応して設けられている。サンプリング変換部３４₁は、グループ信号加算部１３_kから供給された音声信号（加算結果）のサンプリング周波数を、帯域Ｂ₁の音声信号のサンプリング周波数に一致するように変換する。これと同様に、サンプリング変換部３４₂〜３４_k-1も、グループ信号加算部１３_kからの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。

サンプリング変換部３４₁の出力は、帯域Ｂ₁に対応するミキシング処理部１₁の全信号加算部に供給される。これと同様に、サンプリング変換部３４₂〜３４_k-1の出力は、帯域Ｂ₂〜Ｂ_k-1に対応するミキシング処理部１₂〜１_k-1の全信号加算部に供給される。

全信号加算部１５_kは、グループ信号加算部１３_kからの音声信号と他のミキシング処理部１₁〜１_k-1の各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部１５_kの出力は、信号減算部３６₁〜３６_nおよび共通符号化部４０_kに供給される。

信号減算部３６₁は、音声信号切替部３２₁からの音声信号を第１の入力とし、全信号加算部１５_kからの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。信号減算部３６₁の出力は、符号化部３７₁に供給される。これと同様に、信号減算部３６₂〜３６_nのそれぞれも、音声信号切替部３２₂〜３２_nのうちの対応する音声信号切替部からの音声信号を第１の入力とし、全信号加算部１５_kからの音声信号を第２の入力としており、第２の入力から第１の入力を差し引いた音声信号を出力する。信号減算部３６₂〜３６_nの出力は、符号化部３７₂〜３７_nに供給される。

符号化部３７₁は、信号減算部３６₁からの音声信号を符号化する。符号化部３７₁の出力は、音声信号切替部３８₁に供給される。これと同様に、符号化部３７₂〜３７_nも、信号減算部３６₂〜３６_nのうちの対応する信号減算部からの音声信号を符号化する。符号化部３７₂〜３７_nの出力は、音声信号切替部３８₂〜３８_nに供給される。

共通符号化部４０_kは、全信号加算部１５_kからの音声信号を符号化する。共通符号化部４０_kの出力は、音声信号切替部３８₁〜３８_nに供給される。

音声信号切替部３８₁は、符号化部３７₁からの符号化された音声信号を第１の入力とし、共通符号化部４０_kからの符号化された音声信号を第２の入力とし、話者検出部４００からの制御信号に従い、これら第１および第２の入力のいずれかを選択して出力する。音声信号切替部３８₁の出力は、音声信号出力端子３９₁に供給される。これと同様に、音声信号切替部３８₂〜３８_nも、符号化部３７₂〜３７_nのうちの対応する符号化部からの符号化された音声信号を第１の入力とし、共通符号化部４０_kからの符号化された音声信号を第２の入力とし、話者検出部４００からの制御信号に従い、これら第１および第２の入力のいずれかを選択して出力する。音声信号切替部３８₂〜３８_nの出力は、音声信号出力端子３９₂〜３９_nに供給される。

音声信号出力端子３９₁〜３９_nは、入力された音声信号を図２に示した信号分類部１０３に供給する。

他のミキシング処理部１₃〜１_k-1の構成も、基本的に、上述したミキシング処理部１₁、１₂、１_kの構成と同じである。

次に、本実施形態の音声ミキシング装置の動作について詳細に説明する。

図３は、図１に示した音声ミキシング装置のミキシング処理の一手順を示すフローチャートである。

ミキシング処理部１₁〜１_kの動作は基本的に同じである。ここでは、図２に示した信号分類部１０３が、帯域Ｂ₁〜Ｂ_kの音声信号をミキシング処理部１₁〜１_kに供給した場合におけるミキシング処理部１₁および話者検出部４００の動作について、図１および図３を参照して説明する。なお、帯域Ｂ₁〜Ｂ_kの音声信号のサンプリング周波数はそれぞれサンプリング周波数Ｆ₁〜Ｆ_kとする。

帯域Ｂ₁の音声信号として、サンプリング周波数Ｆ₁の複数の音声信号Ｓ₁〜Ｓ_nが音声信号入力端子１０₁〜１０_nに供給される（ステップＳ１０）。音声信号入力端子１０₁に入力された音声信号Ｓ₁は、パワー計算部１１₁および音声信号切替部１２₁に供給される。同様に、音声信号入力端子１０₂〜１０_nに入力された音声信号Ｓ₂〜Ｓ_nは、パワー計算部１１₂〜１１_nに供給されるとともに、音声信号切替部１２₂〜１２_nに供給される。

次に、パワー計算部１１₁〜１１_nが、入力された音声信号のパワーを検出し、その結果を話者検出部４００に供給する（ステップＳ１１）。話者検出部４００は、パワー計算部１１₁〜１１_nからのパワー計算結果に基づいて、発話による音声を含む音声信号（話者の音声信号）を音声信号Ｓ₁〜Ｓ_nの中から選択する（ステップＳ１２）。そして、話者検出部４００は、話者の音声信号の選択結果に基づく制御信号を、音声信号切替部１２₁〜１２_nおよび音声信号切替部１８₁〜１８_nに送信する。

話者の音声信号の選択において、話者検出部４００は、例えば、音声信号Ｓ₁〜Ｓ_nのうち、パワー値の大きい方からｍ（１≦ｍ＜ｎ）個の音声信号を選択してもよい。また、話者検出部４００は、音声信号のパワーだけでなく、音声復号時に得られるＶＡＤ(Voice Activity Detection：音声検出)の情報を用いて、発話による音声を含む音声信号を決定してもよい。また、会議における発話者（発表者）が限定される場合は、話者検出部４００は、予め指定した話者（発表者）の音声信号を選択してもよい。さらに、話者検出部４００は、信号レベル（パワー値）が基準値以上の音声信号を選択してもよい。

話者の音声信号の選択の後、グループ信号加算部１３₁が、話者検出部４００にて選択された音声信号を加算して同一帯域の加算音声信号を出力する（ステップＳ１３）。この加算処理に際して、話者検出部４００は、音声信号切替部１２₁〜１２_nのうち、話者の音声信号として選択した音声信号が供給される音声信号切替部に対して、スイッチをオン状態とするための制御信号を供給し、それ以外の音声信号切替部に対しては、スイッチをオフ状態とするための制御信号を供給する。これにより、話者の音声信号として選択した音声信号のみがグループ信号加算部１３₁に供給される。

グループ信号加算部１３₁から出力された同一帯域の加算音声信号は、サンプリング変換部１４₁〜１４_k-1および全信号加算部１５₁に供給される。サンプリング変換部１４₁は、グループ信号加算部１３₁から供給された同一帯域の加算音声信号のサンプリング周波数Ｆ₁をサンプリング周波数Ｆ₂に変換する。これと同様に、サンプリング変換部１４₂〜１４_k-1は、グループ信号加算部１３₁から供給された同一帯域の加算音声信号のサンプリング周波数Ｆ₁をサンプリング周波数Ｆ₃〜Ｆ_kのうちの対応するサンプリング周波数に変換する。サンプリング変換部１４₁〜１４_k-1にてサンプリング周波数が他の帯域のサンプリング周波数に変換された同一帯域の加算音声信号は、他のミキシング処理部１₂〜１_kの全信号加算部１５₂〜１５_kに供給される（ステップＳ１４）。

次に、全信号加算部１５₁が、グループ信号加算部１３₁から供給された同一帯域の加算音声信号と、他のミキシング処理部１₂〜１_kからの、サンプリング周波数が変換された他の同一帯域の加算音声信号とを加算して、同一サンプリング周波数Ｆ₁の加算音声信号を出力する（ステップＳ１５）。全信号加算部１５₁から出力された同一サンプリング周波数Ｆ₁の加算音声信号は、信号減算部１６₁〜１６_nおよび共通符号化部４０₁に供給される。

次に、共通符号化部４０₁が、全信号加算部１５₁からの同一サンプリング周波数Ｆ₁の加算音声信号を符号化して、共通符号化音声信号を出力する。さらに、信号減算部１６₁〜１６_nのうち、話者検出部４００により選択された話者の音声信号が供給された信号減算部が、全信号加算部１５₁からの同一サンプリング周波数Ｆ₁の加算音声信号から、その供給された話者の音声信号を減じ、その結果を出力する。そして、符号化部１７₁〜１７_nのうち、同一サンプリング周波数Ｆ₁の加算音声信号から話者の音声信号を減じた音声信号が供給された符号化部が、その供給された音声信号を符号化して、話者用符号化音声信号を出力する（ステップＳ１６）。

なお、符号化部１７₁〜１７_nのうち、同一サンプリング周波数Ｆ₁の加算音声信号のみが供給された符号化部においては、符号化の動作は行われない。この符号化部の制御は、話者検出部４００が、音声信号切替部１２₁〜１２_nのオンオフを制御することで可能であるが、これに代えて、話者検出部４００が、符号化部１７₁〜１７_nを直接に制御してもよい。例えば、話者検出部４００は、オフ状態とされた音声信号切替部と接続された符号化部に対して、符号化の停止を示す制御信号を送信し、その符号化部が、話者検出部４００からの制御信号に基づき、符号化の動作を停止する、といった制御が行われても良い。

最後に、話者検出部４００からの制御信号に従い、音声信号切替部１８₁〜１８_nのうち、話者用符号化音声信号が供給された音声信号切替部が、その供給された話者用符号化音声信号を出力し、それ以外の音声信号切替部が、共通符号化部４０₁からの共通符号化音声信号を出力する（ステップＳ１７）。

他のミキシング処理部１₂〜１_kにいても、上述のステップＳ１０〜Ｓ１７と同様な手順で、音声ミキシング処理が行われる。

次に、本実施形態の音声ミキシング装置の各ミキシング処理部の動作について、サンプリング周波数の具体的な数値を挙げて説明する。

図２に示した複数の端末２００が、サンプリング周波数が８ｋＨｚである音声信号（例えば、Ｇ．７２９方式やＡＭＲ方式の音声データ）を送受信する第１の端末グループと、サンプリング周波数が１６ｋＨｚである音声信号（例えば、Ｇ．７２２方式やＡＭＲ‐ＷＢ方式の音声データ）を送受信する第２の端末グループと、サンプリング周波数が３２ｋＨｚである音声信号（例えば、ＡＡＣ方式の音声データ）を送受信する第３の端末グループとを含む。

第１の端末グループからの音声信号はミキシング処理部１₁に供給され、第２の端末グループからの音声信号はミキシング処理部１₂に供給され、第３の端末グループからの音声信号はミキシング処理部１₃に供給される。

ミキシング処理部１₁では、図３に示した手順で、第１の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部１４₁が、グループ信号加算部１３₁からの同一帯域の加算音声信号のサンプリング周波数８ｋＨｚを、ミキシング処理部１₂での処理が可能なサンプリング周波数１６ｋＨｚに変換する。

上記のサンプリング周波数８ｋＨｚからサンプリング周波数１６ｋＨｚへのアップサンプリング変換では、例えば、サンプリング周波数８ｋＨｚの音声信号の各サンプルの間に値が０のサンプルを１つ挿入することにより、サンプル数を倍にした音声信号を生成する。そして、その生成した音声信号を、周波数４ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数１６ｋＨｚの音声信号を得る。

また、サンプリング変換部１４₂が、グループ信号加算部１３₁からの同一帯域の加算音声信号のサンプリング周波数８ｋＨｚを、ミキシング処理部１₃での処理が可能なサンプリング周波数３２ｋＨｚに変換する。

上記のサンプリング周波数８ｋＨｚからサンプリング周波数３２ｋＨｚへのアップサンプリング変換では、例えば、サンプリング周波数８ｋＨｚの音声信号の各サンプルの間に値が０のサンプルを３つ挿入することにより、サンプル数を４倍にした音声信号を生成する。そして、その生成した音声信号を、周波数４ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数３２ｋＨｚの音声信号を得る。

上述のサンプリング変換の詳細については、例えば、文献「J.O.Smith, "A Flexible Sampling-Rate Conversion Method," Proc. IEEEICASSP '84 Vol. 9, Part 1, pp.112-115.」を参照できる。

なお、アップサンプリング変換を行う際に、帯域が異なる音声信号をミキシングすることで生じる違和感を避けるために、例えば、高域に擬似的な信号を付加する帯域拡張処理を施してもよい。帯域拡張処理の詳細については、例えば、文献「Yan Ming Cheng, O'Shaughnessy and D. Mermelstein, "Statistical Recovery of Wideband Speech from Narrowband speech," Speech and Audio Processing, IEEE Transactions on Volume 2, Issue 4, Oct. 1994 pp.544-548.」を参照できる。

ミキシング処理部１₂でも、図３に示した手順で、第２の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部２４₁が、グループ信号加算部１３₂からの同一帯域の加算音声信号のサンプリング周波数１６ｋＨｚを、ミキシング処理部１₁での処理が可能なサンプリング周波数８ｋＨｚに変換する。

上記のサンプリング周波数１６ｋＨｚからサンプリング周波数８ｋＨｚへのダウンサンプリング変換では、例えば、サンプリング周波数１６ｋＨｚの音声信号を、周波数４ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通した後、１サンプル毎に間引くことにより、サンプリング周波数が８ｋＨｚの音声信号を得る。

また、サンプリング変換部２４₂が、グループ信号加算部１３₂からの同一帯域の加算音声信号のサンプリング周波数１６ｋＨｚを、ミキシング処理部１₃での処理が可能なサンプリング周波数３２ｋＨｚに変換する。

上記のサンプリング周波数１６ｋＨｚからサンプリング周波数３２ｋＨｚへのアップサンプリング変換では、例えば、１６ｋＨｚサンプリングの音声信号の各サンプルの間に値が０のサンプルを１つ挿入することによりサンプル数を倍にした音声信号を生成する。そして、その生成した音声信号を、周波数８ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数が３２ｋＨｚの音声信号を得る。

ミキシング処理部１₃でも、図３に示した手順で、第３の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部３４₁が、グループ信号加算部１３₃からの同一帯域の加算音声信号のサンプリング周波数３２ｋＨｚを、ミキシング処理部１₁での処理が可能なサンプリング周波数８ｋＨｚに変換する。

上記のサンプリング周波数３２ｋＨｚからサンプリング周波数８ｋＨｚへのダウンサンプリング変換では、例えば、サンプリング周波数が３２ｋＨｚの音声信号を、周波数４ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通した後、３サンプル毎に間引くことにより、サンプリング周波数が８ｋＨｚの音声信号を得る。

また、サンプリング変換部３４₂が、グループ信号加算部１３₂からの同一帯域の加算音声信号のサンプリング周波数３２ｋＨｚを、ミキシング処理部１₂での処理が可能なサンプリング周波数１６ｋＨｚに変換する。

上記のサンプリング周波数３２ｋＨｚからサンプリング周波数１６ｋＨｚへのダウンサンプリング変換では、例えば、サンプリング周波数が３２ｋＨｚの音声信号を、周波数８ｋＨｚ以下の帯域のみを通過させる帯域制限フィルタに通した後、１サンプル毎に間引くことにより、サンプリング周波数が１６ｋＨｚの音声信号を得る。

上述のようなサンプリング周波数の変換処理により、帯域別に設けられた各ミキシング処理部において、自処理部に供給された音声信号と、他のミキシング処理部に供給された音声信号とのミキシングを行うことができる。

以上説明したように、本実施形態の音声ミキシング装置では、話者検出部４００が、帯域別に設けられたミキシング処理部１₁〜１_kに供給された音声信号から少なくとも１つの音声信号（話者の音声信号）を選択する。また、ミキシング処理部１₁〜１_kのそれぞれが、話者検出部４００によって選択された話者の音声信号を加算して同一帯域の加算音声信号を生成し、その同一帯域の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換する。さらに、ミキシング処理部１₁〜１_kのそれぞれが、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算して、同一サンプリング周波数の加算信号を生成する。そして、ミキシング処理部１₁〜１_kのそれぞれが、選択された話者の音声信号に対してのみ、同一サンプリング周波数の加算信号からその音声信号を減算し、その減算結果として得られた音声信号を符号化する、といった符号化の処理が行われる。なお、話者以外の参加者に対しては、共通の符号化部を用いて、同一サンプリング周波数の加算信号を符号化した音声信号が用いられる。

上記の構成によれば、ミキシング処理部１₁〜１_kのそれぞれが、同一帯域の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換するとともに、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算することで、複数の異なる帯域の音声信号をミキシングすることが可能となっている。このように、サンプリング周波数が異なる複数の帯域の音声信号を混在させた音声ミキシングを行うことが可能であるので、例えば、電話帯域を利用する端末や広帯域を利用する端末、といった異なる帯域の音声（音響）信号を送受信する端末間においても多地点会議サービスを提供できる。したがって、多地点音声会議サービスにおける利便性の向上を図ることができる。

また、選択された話者の音声信号に対してのみ、個別に、符号化の演算処理が行われ、話者以外の参加者に対しては、共通符号化部を用いた演算結果が共通に利用される。よって、話者以外の参加者に対して、個別に、符号化部を用いた演算処理を行う必要がない分、符号化の演算量を削減することができる。このように、複数の音声信号のうちから選択した話者音声信号について符号化を行う構成として、ミキシングする音声信号の数を限定することで、参加者の増加に伴って音声符号化による演算量が増大することを抑制することができる。ただし、個別に符号化される音声信号の数は、話者検出部による音声信号の選択数により決まる。

上述した本実施形態の音声ミキシング装置は、本発明の一例であり、その構成および動作は、発明の趣旨を逸脱しない範囲で適宜に変更することができる。

例えば、ミキシング処理部１₁〜１_kのそれぞれが、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算する際に、その加算信号に、予め定められた高域成分を有する擬似音声信号を付加してもよい。これにより、アップサンプリング変換を行う際の、帯域が異なる音声信号をミキシングすることで生じる違和感を避けることができ、低いサンプリング周波数の信号の音質を改善することができる。

また、話者検出部４００による話者の選択動作において、周波数の高い帯域の音声信号が選択される状態と、そのような音声信号が全く選択されない状態とが繰り返されると、ミキシングされた音声信号として、高域成分を含む音声信号と、高域成分を含まない音声信号とが繰り返し出力されることになる。このような音声信号は、聞き手に違和感を生じさせてしまう。この問題を避けるために、話者検出部４００は、各帯域（グループ）について、少なくとも一つの音声信号を話者の音声信号として選択してもよい。また、話者検出部４００は、最もサンプリング周波数の高い帯域について、少なくとも一つの音声信号を話者の音声信号として選択してもよい。

また、図１に示した音声ミキシング装置において、ミキシング処理部１₁〜１_kは、全信号加算部１５₁〜１５_kから出力される音声信号、または、その出力音声信号を符号化した音声データを、それぞれの出力信号としてもよい。

また、図１に示した音声ミキシング装置において、ミキシング処理部１₁〜１_kの各符号化部（例えば、共通符号化部４０₁〜４０_kおよび符号化部１７₁〜１７_k、２７₁〜２７_k、３７₁〜３７_kなど）が、予測符号化器であってもよい。

予測符号化器では、例えば音声信号がフレーム単位に入力された場合に、過去のフレームの音声信号から線形予測係数を算出し、その線形予測係数を用いて現フレームの音声信号の符号化を行う。ミキシング処理部１₁〜１_kでは、共通符号化部と各符号化部との間で切り替えが行われる。このため、切り替え時に、共通符号化部が保持している線形予測係数と符号化部が保持している線形予測係数とが異なると、音質が劣化してしまう。

上記の問題を回避するため、共通符号化部から符号化部へ切り替える際は、話者検出部４００が、共通符号化部に対して、自身が保持している線形予測係数を、切替先である符号化部へ供給するように指示する。この指示に従って、共通符号化部が、自身が保持している線形予測係数を、切替先である符号化部へ供給する。この制御により、切り替え時に、共通符号化部が保持している線形予測係数と切替先の符号化部が保持している線形予測係数とを同一にすることができる。

なお、符号化部から共通符号化部への切り替え時において、符号化部から共通符号化部への線形予測係数の供給は行わないものとする。この場合、共通符号化部が保持している線形予測係数が、符号化部が保持している線形予測係数と異なるが、この線形予測係数の不整合による音質への影響は少ない。その理由を、符号化部が、参加者Ａの端末Ｔからの音声信号を複数の他の参加者の端末からの音声信号とミキシングする場合を例に挙げて、以下に説明する。

参加者Ａが発声すると、話者検出部による判定状態が、端末Ｔからの音声信号が話者の信号でないとの判定から、端末Ｔからの音声信号が話者の信号であるとの判定に変更され、その結果、共通符号化部から符号化部への切り替えが行われる。切り替え後、符号化部は、全信号加算部からの音声信号から参加者の端末Ｔからの音声信号を減じた信号に対して予測符号化の処理を開始するが、その処理の開始時点では、予測符号化に必要な線形予測係数を保持していない。この場合の予測符号化に必要な線形予測係数は、全信号加算部からの音声信号に関する線形予測係数であり、それは共通符号化部に保持されている。したがって、共通符号化部が、保持している線形予測係数を符号化部へ供給することで、符号化部における予測符号化の処理を、精度良く、実行することができる。

一方、参加者Ａが発声を止めると、話者検出部による判定状態が、端末Ｔからの音声信号が話者の信号であるとの判定から、端末Ｔからの音声信号が話者の信号でないとの判定に変更され、その結果、符号化部から共通符号化部への切り替えが行われる。切り替え後は、共通符号化部により符号化された音声信号が端末Ｔに向けて送信される。この場合、共通符号化部は、切り替え前の状態から、全信号加算部からの音声信号に対する予測符号化の処理を継続しているので、切り替え後における予測符号化に必要な線形予測係数を保持している。この共通符号化部が保持している線形予測係数は、参加者Ａが発声を止めた時点における、符号化部が保持している線形予測係数に近いものである。したがって、符号化部から共通符号化部への切り替えが行われた場合に、共通符号化部は、自身が保持している線形予測係数を使用して、精度良く、予測符号化の処理を実行することができる。

また、図１および図２に示した構成において、復号部や信号分類部は、音声ミキシング装置内に設けられてもよく、また、受信部に設けられてもよい。

また、図２に示した多地点会議サーバは、プログラムにより動作するコンピュータシステムより実現することができる。このコンピュータシステムの主要部は、プログラムやデータなどを蓄積する記憶装置、キーボードやマウスなどの入力装置、ＬＣＤ（Liquid Crystal Display）などの表示装置、外部との通信を行うモデムなどの通信装置、プリンタなどの出力装置、および記憶装置に格納されたプログラム従って動作し、入力装置からの入力を受け付けて通信装置、出力装置、表示装置の動作を制御する制御装置（ＣＰＵ：Central Processing Unit）から構成される。プログラムとして、図３に示したミキシング処理をＣＰＵに実行させるためのプログラムが記憶装置に格納される。このプログラムは、記録媒体やインターネットを通じて提供されてもよい。また、プログラムとして、図３に示したミキシング処理をＤＳＰ（Digital Signal Processor）に実行させるためのプログラムを提供することもできる。

本発明は、多地点会議サービスを提供するシステムの他、音声ミキシングを行う装置全般に適用することができる。例えば、本発明は、３ＧＰＰにて規定されたＭＲＦ（Media Resource Function）と呼制御部に相当するＭＲＣＦ（Media Resource Control Function）によって実現される、種々のメディアサービスを提供するシステムに適用することができる。ＭＲＦおよびＭＲＣＦは、所謂、多地点会議システムの多地点制御装置（ＭＣＵ：Multi-Point Control Unit）の機能を実現するために用いられている。

以上、実施形態を参照して本発明を説明したが、本発明は上述した実施形態に限定されるものではない。本発明の構成及び動作については、本発明の趣旨を逸脱しない範囲において、当業者が理解し得る様々な変更を行うことができる。

この出願は、２００８年２月４日に出願された日本出願特願２００８−２３９７７を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

サンプリング周波数別に設けられた複数のミキシング処理部と、
前記複数のミキシング処理部に入力された複数の音声信号のうちから、話者の音声を含む話者音声信号を少なくとも一つ選択する話者検出部と、を有し、
前記複数のミキシング処理部のそれぞれは、
自処理部に入力された同一サンプリング周波数の音声信号のうち、前記話者検出部にて選択された話者音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた第１の加算音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第１の加算音声信号と、前記他のミキシング処理部から供給される、自処理部で処理可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して第２の加算音声信号を生成する、音声ミキシング装置。
前記複数のミキシング処理部のそれぞれは、前記話者検出部にて選択された話者音声信号毎に、前記第２の加算音声信号から該話者音声信号を差し引いた減算音声信号を生成し、該減算音声信号を符号化する、請求の範囲第１項に記載の音声ミキシング装置。
前記複数のミキシング処理部のそれぞれは、自処理部に入力された同一サンプリング周波数の音声信号のうち、前記話者音声信号以外の音声信号のそれぞれについて、該音声信号を符号化する代わりに、前記第２の加算音声信号を符号化する、請求の範囲第１項または第２項に記載の音声ミキシング装置。
前記話者検出部は、信号レベルが基準値以上の音声信号を前記話者音声信号として選択する、請求の範囲第１項乃至第３のいずれか１項に記載の音声ミキシング装置。
前記話者検出部は、前記複数のミキシング処理部に入力された複数の音声信号のうちから、予め指定された話者に関する音声信号を選択する、請求の範囲第１項乃至第３項のいずれか１項に記載の音声ミキシング装置。
前記複数のミキシング処理部のそれぞれは、予め定められた高域成分を有する擬似音声信号を前記第２の加算音声信号に加える、請求の範囲第１項乃至第３項のいずれか１項に記載の音声ミキシング装置。
前記話者検出部は、前記複数のミキシング処理部のそれぞれにおいて、入力された音声信号のうちのサンプリング周波数が最も高い入力信号を少なくとも選択する、請求の範囲第１項乃至第３項のいずれか１項に記載の音声ミキシング装置。
前記複数のミキシング処理部のそれぞれは、
前記話者検出部にて選択された話者音声信号を加算して前記第１の加算音声信号を生成するグループ信号加算部と、
前記グループ信号加算部にて生成された前記第１の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して前記第２の加算音声信号を生成する全信号加算部と、
前記同一サンプリング周波数の入力音声信号毎に設けられ、該入力音声信号が第１の入力として供給され、前記全信号加算部で生成された前記第２の加算音声信号が第２の入力として供給され、該第２の入力から該第１の入力を減算する複数の信号減算器と、
前記複数の信号減算器から出力された音声信号をそれぞれ符号化する複数の符号化部と、
前記全信号加算部で生成された前記第２の加算音声信号を符号化する共通符号化部と、を有し、
前記話者検出部にて選択された話者音声信号については、前記複数の符号化部のうちの対応する符号化部による符号化が行われ、前記話者音声信号以外の音声信号については、前記共通符号化部による符号化が行われる、請求の範囲第１項乃至第７項のいずれか１項に記載の音声ミキシング装置。
前記共通符号化部は、前記第２の加算音声信号の予測符号化を行うための情報を保持し、
前記複数の符号化部のそれぞれは、前記共通符号化部から自符号化部への切り替わりの際に、前記共通符号化部に保持された情報を参照して、前記話者音声信号の予測符号化を行う、請求の範囲第８項に記載の音声ミキシング装置。
サンプリング周波数が異なる複数の音声信号をミキシングする音声信号ミキシング方法であって、
前記複数の音声信号のうちから話者の音声を含む話者音声信号を少なくとも一つ選択する第１のステップと、
前記複数の音声信号をサンプリング周波数別に分類したグループ毎に、前記第１のステップで選択された同一サンプリング周波数の話者音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のグループで処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のグループに割り当てる第２のステップと、
前記グループ毎に、自グループで生成した前記第１の加算音声信号と、前記他のグループから自グループに割り当てられた、サンプリング周波数の変換がなされた前記第１の加算信号とを加算して第２の加算音声信号を生成する第３のステップと、を含む、音声ミキシング方法。
複数の通信端末とネットワークを介して接続される多地点会議サーバであって、
前記複数の通信端末から受信した複数の音声信号をサンプリング周波数別に分類する信号分類部と、
サンプリング周波数別に設けられ、前記信号分類部から供給される同一サンプリング周波数の音声信号をミキシングする複数のミキシング処理部と、
前記複数のミキシング処理部に入力された複数の音声信号のうちから話者の音声を含む話者音声信号を少なくとも一つ選択する話者検出部と、を有し、
前記複数のミキシング処理部のそれぞれは、
自処理部に入力された同一サンプリング周波数の音声信号のうち、前記話者検出部にて選択された話者音声信号を加算して第１の加算音声信号を生成し、該第１の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた第１の加算音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第１の加算音声信号と、前記他のミキシング処理部から供給される、自処理部で処理可能なサンプリング周波数への変換がなされた前記第１の加算音声信号とを加算して第２の加算音声信号を生成する、多地点会議サーバ。