JP5158098B2 - 音声ミキシング装置および方法ならびに多地点会議サーバ - Google Patents

音声ミキシング装置および方法ならびに多地点会議サーバ Download PDF

Info

Publication number
JP5158098B2
JP5158098B2 JP2009552439A JP2009552439A JP5158098B2 JP 5158098 B2 JP5158098 B2 JP 5158098B2 JP 2009552439 A JP2009552439 A JP 2009552439A JP 2009552439 A JP2009552439 A JP 2009552439A JP 5158098 B2 JP5158098 B2 JP 5158098B2
Authority
JP
Japan
Prior art keywords
audio signal
signal
unit
audio
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009552439A
Other languages
English (en)
Other versions
JPWO2009098974A1 (ja
Inventor
伊藤  博紀
一範 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009552439A priority Critical patent/JP5158098B2/ja
Publication of JPWO2009098974A1 publication Critical patent/JPWO2009098974A1/ja
Application granted granted Critical
Publication of JP5158098B2 publication Critical patent/JP5158098B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、複数の音声信号をミキシングする技術に関し、特に、多地点会議サービスを提供するサーバ等において用いられる音声信号のミキシング技術に関する。
多地点会議サービスを提供するシステムとして、特開2000−175170号公報に記載の多地点テレビ会議システムがある。この多地点テレビ会議システムは、複数の会議端末と、これら会議端末が接続される多地点制御装置とからなる。会議端末が参加者に割り当てられる。
この多地点テレビ会議システムでは、各会議端末が、自端末にて検出した音響(音声)に関する音響信号を多地点制御装置に送信する。多地点制御装置は、各会議端末から受信した音響信号を加算する。そして、多地点制御装置は、会議端末のそれぞれに対して、加算した音響信号から当該会議端末から受信した音響信号を減算し、その減算結果として得られる音響信号を符号化し、その符号化した音響信号を当該会議端末に送信する。
ところで、多地点制御装置は、回線交換網、モバイル網、パケット網等の種々の通信網に適用することが可能である。回線交換網では、ITU‐T(Telecommunication Union Telecommunication Standardization Sector)勧告のH.323やH.324により規定される通信プロトコルが用いられる。モバイル網では、3G−324Mにより規定される通信プロトコルが用いられる。IP(Internet Protocol)に基づくパケット網では、IETF(The Internet Engineering Task Force)のRFC3550RTPが用いられる。「RFC」は「Request for Comments」の略であり、「RTP」は「Real-time Transport Protocol」の略である。
また、多地点制御装置には、サンプリング周波数が8kHzで、帯域が3.4kHzの電話帯域音声向けの音声符号化器を搭載するものや、サンプリング周波数が16kHzで、帯域が7kHzの広帯域音声向けの音声符号化器を搭載するものなどがある。電話帯域音声向けの音声符号化器として、ITU‐T勧告のG.711やG.729,3GPPで採用されているAMR(Adaptive Multi-Rate)方式のものや、3GPP2で採用されているEVRC(Enhanced Variable Rate Codec)方式のものなどが用いられる。広帯域音声向けの音声符号化器として、ITU‐T勧告によるG.722や3GPP TS26.190で規定されているAMR‐WB(Wide Band)方式のものが用いられる。さらに、MPEG‐4AAC(Advanced Audio Coding)などのコーデックを用いることで、より広帯域な音声信号を扱うことが可能である。
多地点会議サービスを利用する上での利便性を考慮すると、電話帯域を利用する端末や広帯域を利用する端末といった、異なる帯域の音声(音響)信号を送受信する端末間においても多地点会議サービスを提供できることが望ましい。しかしながら、上述した多地点制御装置は、電話帯域音声向け、または、広帯域音声向け、といったように、単一の帯域の音声信号にしか対応していないため、異なる帯域の音声信号を送受信する端末間における多地点会議サービスを提供することは困難である。
また、上述した多地点制御装置では、会議端末のそれぞれに対して、加算した音響信号から当該会議端末から受信した音響信号を減算し、その減算結果として得られる音響信号を符号化するように構成されている。このような、参加者毎に符号化を行う構成においては、多くの参加者が多地点会議を行うシステムを構築する場合において、符号化のための演算量が膨大なものとなり、演算処理に時間を要する、といった不具合が生じる。
本発明の目的は、上記課題を解決し、サンプリング周波数が異なる複数の帯域の音声信号をミキシングすることができ、かつ、演算量の増加を抑制することができる、音声ミキシング装置、音声ミキシング方法および多地点会議サーバを提供することにある。
上記目的を達成するため、本発明の音声ミキシング装置は、
サンプリング周波数別に設けられた複数のミキシング処理部と、
前記複数のミキシング処理部に入力された複数の音声信号のうちから、話者の音声を含む話者音声信号を少なくとも一つ選択する話者検出部と、を有し、
前記複数のミキシング処理部のそれぞれは、
自処理部に入力された同一サンプリング周波数の音声信号のうち、前記話者検出部にて選択された話者音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた第1の加算音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部で処理可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、ことを特徴とする。
本発明の音声ミキシング方法は、
サンプリング周波数が異なる複数の音声信号をミキシングする音声信号ミキシング方法であって、
前記複数の音声信号のうちから話者の音声を含む話者音声信号を少なくとも一つ選択する第1のステップと、
前記複数の音声信号をサンプリング周波数別に分類したグループ毎に、前記第1のステップで選択された同一サンプリング周波数の話者音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のグループで処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のグループに割り当てる第2のステップと、
前記グループ毎に、自グループで生成した前記第1の加算音声信号と、前記他のグループから自グループに割り当てられた、サンプリング周波数の変換がなされた前記第1の加算信号とを加算して第2の加算音声信号を生成する第3のステップと、を含むことを特徴とする。
本発明の多地点会議サーバは、複数の通信端末とネットワークを介して接続される多地点会議サーバであって、
前記複数の通信端末から受信した複数の音声信号をサンプリング周波数別に分類する信号分類部と、
サンプリング周波数別に設けられ、前記信号分類部から供給される同一サンプリング周波数の音声信号をミキシングする複数のミキシング処理部と、
前記複数のミキシング処理部に入力された複数の音声信号のうちから話者の音声を含む話者音声信号を少なくとも一つ選択する話者検出部と、を有し、
前記複数のミキシング処理部のそれぞれは、
自処理部に入力された同一サンプリング周波数の音声信号のうち、前記話者検出部にて選択された話者音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた第1の加算音声信号を前記他のミキシング処理部に供給し、
自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部で処理可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、ことを特徴とする。
本発明の一実施形態である音声ミキシング装置の構成を示すブロック図である。 図1に示す音声ミキシング装置を搭載した多地点会議サーバを用いた多地点会議システムの構成を示すブロック図である。 図1に示す音声ミキシング装置のミキシング処理の一手順を示すフローチャートである。
符号の説明
1〜1k ミキシング処理部
400 話者検出部
101〜10n、201〜20n、301〜30n 音声信号入力端子
111〜11n、211〜21n、311〜31n パワー計算部
121〜12n、221〜22n、321〜32n 音声信号切替部
131〜13k グループ信号加算部
141〜14k-1、121〜12k-1、131〜13k-1 サンプリング変換部
151〜15k 全信号加算部
161〜16n、261〜26n、361〜36n 信号減算部
171〜17n、271〜27n、371〜37n 符号化部
401〜40k 共通符号化部
181〜18n、281〜28n、381〜38n 音声信号切替部
191〜19n、291〜29n、391〜39n 音声信号出力端子
次に、本発明の実施形態について図面を参照して説明する。
図1は、本発明の一実施形態である音声ミキシング装置の構成を示すブロック図である。
図1に示す音声ミキシング装置は、多地点制御装置である多地点会議サーバに搭載されるものであって、k個のミキシング処理部11〜1kと話者検出部400とを有する。多地点会議サーバは、サンプリング周波数の異なる複数の帯域の音声信号を受信することが可能とされており、ミキシング処理部は、その帯域毎に設けられている。すなわち、ミキシング処理部11〜1kの数は、多地点会議サーバで取り扱うことができる帯域の最大数に対応する。ここでは、多地点会議サーバは、k個の異なる帯域B1〜Bkの音声信号を受信するように構成されており、受信した音声信号が帯域別に設けられたミキシング処理部11〜1kに供給される。
本実施形態の音声ミキシング装置の詳細な構成を説明する前に、本実施形態の音声ミキシング装置を搭載する多地点会議サーバの構成について簡単に説明する。
図2は、図1に示した音声ミキシング装置を搭載した多地点会議サーバを用いた多地点会議システムの構成を示すブロック図である。この多地点会議システムは、複数の端末200と、これら端末200が伝送路300を介して接続される多地点会議サーバ100とを有する。
伝送路300は、回線交換網、モバイル網、パケット網等の複数の通信網を含む。端末200と多地点会議サーバ100の間において音声信号を送受信する際に、それぞれの通信網のプロトコルを通じて、音声信号の呼接続情報(音声信号を送信した端末のアドレス情報、帯域の情報、サンプリング周波数の情報などを含む)が多地点会議サーバ100に供給される。
複数の端末200は、伝送路300を介して送受信される音声信号の帯域およびサンプリング周波数が異なる複数の端末を含む。例えば、サンプリング周波数が8kHzで、帯域が3.4kHzの電話帯域音声向けの端末や、サンプリング周波数が16kHzで、帯域が7kHzの広帯域音声向けの端末などが、端末200として用いられる。なお、各端末200の構成は基本的に同じである。
端末200は、AD変換部201、符号化部202、送信部203、DA変換部204、復号部205および受信部206からなる。
AD変換部201は、マイクロホン207からの音声信号(アナログ信号)をデジタル信号に変換する。符号化部202は、AD変換部201から供給された音声信号(デジタル信号)を符号化する。送信部203は、符号化部202から供給された符号化音声信号を、伝送路300を介して多地点会議サーバ100へ送信する。
受信部206は、多地点会議サーバ100からの符号化音声信号(デジタル信号)を、伝送路300を介して受信する。復号部205は、受信部206から供給される符号化音声信号を復号する。DA変換部204は、復号部205からの復号音声信号(デジタル信号)をアナログ信号に変換する。アナログ信号に変換された音声信号は、DA変換部204からスピーカ208に供給される。
多地点会議サーバ100は、受信部101、複数の復号部102、信号分類部103、音声ミキシング装置104および送信部105を有する。音声ミキシング装置104は、図1に示した音声ミキシング装置である。
受信部101は、各端末200からの音声信号を、伝送路300を介して受信する。受信した音声信号は、受信部101から複数の復号部102のいずれかに供給される。復号部102は、受信部101から供給された音声信号を復号する。復号された音声信号は、復号部102から信号分類部103に供給される。
信号分類部103は、復号部102から供給された復号音声信号を、該復号音声信号のサンプリング周波数に応じて、図1に示したミキシング処理部11〜1kのうちの対応するミキシング処理部に供給する。また、信号分類部103は、音声ミキシング装置104から供給された音声信号を送信部105に供給する。復号音声信号のサンプリング周波数は、受信部101が音声信号を受信した際に得られる呼制御情報から得ることができる。
送信部105は、信号分類部103から供給された音声信号を、伝送路300を介して、複数の端末200のうちの対応する端末へ送信する。受信部101が音声信号を受信した際に得られる呼制御情報に基づいて、送信先となる端末を識別することができる。
音声ミキシング装置104は、信号分類部103から供給される、サンプリング周波数別に分類された複数の音声信号をミキシングして符号化し、符号化した音声信号を信号分類部103に供給する。
以下、図1を参照して音声ミキシング装置104の構成を具体的に説明する。
音声ミキシング装置104は、話者検出部400およびミキシング処理部11〜1kからなる。ミキシング処理部11〜1kは、基本的に同じ構成である。便宜上、図1には、ミキシング処理部11、ミキシング処理部12およびミキシング処理部1kについての具体的な構成が示されている。
[ミキシング処理部11の構成]
ミキシング処理部11は、音声信号入力端子101〜10n、パワー計算部111〜11n、音声信号切替部121〜12n、グループ信号加算部131、サンプリング変換部141〜14k-1、全信号加算部151、信号減算部161〜16n、符号化部171〜17n、共通符号化部401、音声信号切替部181〜18n、および音声信号出力端子191〜19nを有する。
帯域B1の音声信号は、音声信号入力端子101〜10nに割り振られて供給される。例えば、帯域B1の音声信号として、n個の音声信号を受信した場合は、音声信号入力端子101〜10nのそれぞれに受信音声信号が供給される。
音声信号入力端子101は、パワー計算部111の入力端子に接続されるとともに、音声信号切替部121の入力端子に接続されている。これと同様に、音声信号入力端子102〜10nも、パワー計算部112〜11nの入力端子に接続されるとともに、音声信号切替部122〜12nの入力端子に接続されている。
パワー計算部111は、音声信号入力端子101から供給される入力音声信号のパワーを計算する。例えば、入力音声信号S(n)のサンプリング周波数が8kHzである場合、パワー計算部111は、20ミリ秒(160サンプル)毎に、その入力音声信号S(n)のパワーを、以下の式(1)により計算する。
Figure 0005158098

但し、L=160

パワー計算部111によるパワー計算と同様に、パワー計算部112〜11nも、音声信号入力端子102〜10nから供給される入力音声信号のパワーを計算する。パワー計算部111〜11nの各パワー計算値は、話者検出部400に供給される。
音声信号切替部121〜12nは、話者検出部400からの制御信号に従って、それぞれのオン・オフの動作が行われるように構成されている。音声信号切替部121〜12nでは、オン状態とされた場合にのみ、入力された音声信号が出力される。
音声信号切替部121の出力は、グループ信号加算部131および信号減算部161に供給される。これと同様に、音声信号切替部122〜12nの各出力も、グループ信号加算部131に供給されるとともに、信号減算部162〜16nに供給される。
グループ信号加算部131は、音声信号切替部121〜12nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部131の出力は、サンプリング変換部141〜14k-1および全信号加算部151に供給される。
サンプリング変換部141〜14k-1は、帯域B1を除く他の帯域B2〜Bkに対応して設けられている。サンプリング変換部141は、グループ信号加算部131から供給された音声信号(加算結果)のサンプリング周波数を、帯域B2の音声信号のサンプリング周波数に一致するように変換する。例えば、帯域B1の音声信号のサンプリング周波数が8kHzであり、帯域B2の音声信号のサンプリング周波数が16kHzである場合は、サンプリング変換部141は、グループ信号加算部131からの音声信号のサンプリング周波数を、8kHzから16kHzに変換する。これと同様に、サンプリング変換部142〜14k-1も、グループ信号加算部131からの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。
サンプリング変換部141の出力は、帯域B2に対応するミキシング処理部12の全信号加算部に供給される。これと同様に、サンプリング変換部142〜14k-1の出力は、帯域B3〜Bkに対応するミキシング処理部13〜1kの全信号加算部に供給される。
全信号加算部151は、グループ信号加算部131からの音声信号と他のミキシング処理部12〜1kの各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部151の出力は、信号減算部161〜16nおよび共通符号化部401に供給される。
信号減算部161は、音声信号切替部121からの音声信号を第1の入力とし、全信号加算部151からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部161の出力は、符号化部171に供給される。これと同様に、信号減算部162〜16nのそれぞれも、音声信号切替部122〜12nのうちの対応する音声信号切替部からの音声信号を第1の入力とし、全信号加算部151からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部162〜16nの出力は、符号化部172〜17nに供給される。なお、信号減算部161〜16nは、第1の入力に音声信号が供給されていない状態(音声信号切替部121〜12nがオフ状態)においては、音声信号を出力しない。
符号化部171は、信号減算部161からの音声信号を符号化する。符号化部171の出力は、音声信号切替部181に供給される。これと同様に、符号化部172〜17nも、信号減算部162〜16nのうちの対応する信号減算部からの音声信号を符号化する。符号化部172〜17nの出力は、音声信号切替部182〜18nに供給される。
共通符号化部401は、全信号加算部151からの音声信号を符号化する。共通符号化部401の出力は、音声信号切替部181〜18nに供給される。
音声信号切替部181は、符号化部171からの符号化された音声信号を第1の入力とし、共通符号化部401からの符号化された音声信号を第2の入力とし、話者検出部400からの制御信号に従い、これら第1および第2の入力のいずれかを選択して出力する。音声信号切替部181の出力は、音声信号出力端子191に供給される。これと同様に、音声信号切替部182〜18nも、符号化部172〜17nのうちの対応する符号化部からの符号化された音声信号を第1の入力とし、共通符号化部401からの符号化された音声信号を第2の入力とし、話者検出部400からの制御信号に従い、これら第1および第2の入力のいずれかを選択して出力する。音声信号切替部182〜18nの出力は、音声信号出力端子192〜19nに供給される。
音声信号出力端子191〜19nは、入力された音声信号を図2に示した信号分類部103に供給する。
[ミキシング処理部12の構成]
ミキシング処理部12は、音声信号入力端子201〜20n、パワー計算部211〜21n、音声信号切替部221〜22n、グループ信号加算部132、サンプリング変換部241〜24k-1、全信号加算部152、信号減算部261〜26n、符号化部271〜27n、共通符号化部402、音声信号切替部281〜28n、および音声信号出力端子291〜29nを有する。
帯域B2の音声信号は、音声信号入力端子201〜20nに割り振られて供給される。音声信号入力端子201〜20nの数は、他のミキシング処理部の音声信号入力端子の数と同じであっても、異なっていても良い。
音声信号入力端子201は、パワー計算部211の入力端子に接続されるとともに、音声信号切替部221の入力端子に接続されている。これと同様に、音声信号入力端子202〜20nも、パワー計算部212〜21nの入力端子に接続されるとともに、音声信号切替部222〜22nの入力端子に接続されている。
パワー計算部211は、音声信号入力端子201から供給される入力音声信号のパワーを計算する。このパワー計算も、前述のパワー計算部111によるパワー計算と同様である。これと同様に、パワー計算部212〜21nも、音声信号入力端子202〜20nから供給される入力音声信号のパワーを計算する。パワー計算部211〜21nの各パワー計算値は、話者検出部400に供給される。
音声信号切替部221〜22nは、話者検出部400からの制御信号に従って、それぞれのオン・オフの動作が行われるように構成されている。音声信号切替部221〜22nでは、オン状態とされた場合にのみ、入力された音声信号が出力される。
音声信号切替部221の出力は、グループ信号加算部132および信号減算部261に供給される。これと同様に、音声信号切替部222〜22nの各出力も、グループ信号加算部132に供給されるとともに、信号減算部262〜26nに供給される。
グループ信号加算部132は、音声信号切替部221〜22nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部132の出力は、サンプリング変換部241〜24k-1および全信号加算部152に供給される。
サンプリング変換部241〜24k-1は、帯域B2を除く他の帯域B1、B3〜Bkに対応して設けられている。サンプリング変換部241は、グループ信号加算部132から供給された音声信号(加算結果)のサンプリング周波数を、帯域B1の音声信号のサンプリング周波数に一致するように変換する。これと同様に、サンプリング変換部242〜24k-1も、グループ信号加算部132からの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。
サンプリング変換部241の出力は、帯域B1に対応するミキシング処理部11の全信号加算部に供給される。これと同様に、サンプリング変換部242〜24k-1の出力は、帯域B3〜Bkに対応するミキシング処理部13〜1kの全信号加算部に供給される。
全信号加算部152は、グループ信号加算部132からの音声信号と他のミキシング処理部11、13〜1kの各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部152の出力は、信号減算部261〜26nおよび共通符号化部402に供給される。
信号減算部261は、音声信号切替部221からの音声信号を第1の入力とし、全信号加算部152からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部261の出力は、符号化部271に供給される。これと同様に、信号減算部262〜26nのそれぞれも、音声信号切替部222〜22nのうちの対応する音声信号切替部からの音声信号を第1の入力とし、全信号加算部152からの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部262〜26nの出力は、符号化部272〜27nに供給される。
符号化部271は、信号減算部261からの音声信号を符号化する。符号化部271の出力は、音声信号切替部281に供給される。これと同様に、符号化部272〜27nも、信号減算部262〜26nのうちの対応する信号減算部からの音声信号を符号化する。符号化部272〜27nの出力は、音声信号切替部282〜28nに供給される。
共通符号化部402は、全信号加算部152からの音声信号を符号化する。共通符号化部402の出力は、音声信号切替部281〜28nに供給される。
音声信号切替部281は、符号化部271からの符号化された音声信号を第1の入力とし、共通符号化部402からの符号化された音声信号を第2の入力とし、話者検出部400からの制御信号に従い、これら第1および第2の入力のいずれかを選択して出力する。音声信号切替部281の出力は、音声信号出力端子291に供給される。これと同様に、音声信号切替部282〜28nも、符号化部272〜27nのうちの対応する符号化部からの符号化された音声信号を第1の入力とし、共通符号化部402からの符号化された音声信号を第2の入力とし、話者検出部400からの制御信号に従い、これら第1および第2の入力のいずれかを選択して出力する。音声信号切替部282〜28nの出力は、音声信号出力端子292〜29nに供給される。
音声信号出力端子291〜29nは、入力された音声信号を図2に示した信号分類部103に供給する。
[ミキシング処理部1kの構成]
ミキシング処理部1kは、音声信号入力端子301〜30n、パワー計算部311〜31n、音声信号切替部321〜32n、グループ信号加算部13k、サンプリング変換部341〜34k-1、全信号加算部15k、信号減算部361〜36n、符号化部371〜37n、共通符号化部40k、音声信号切替部381〜38n、および音声信号出力端子391〜39nを有する。
帯域Bkの音声信号は、音声信号入力端子301〜30nに割り振られて供給される。音声信号入力端子301〜30nの数は、他のミキシング処理部の音声信号入力端子の数と同じであっても、異なっていても良い。
音声信号入力端子301は、パワー計算部311の入力端子に接続されるとともに、音声信号切替部321の入力端子に接続されている。これと同様に、音声信号入力端子302〜30nも、パワー計算部312〜31nの入力端子に接続されるとともに、音声信号切替部322〜32nの入力端子に接続されている。
パワー計算部311は、音声信号入力端子301から供給される入力音声信号のパワーを計算する。このパワー計算も、前述のパワー計算部111によるパワー計算と同様である。これと同様に、パワー計算部312〜31nも、音声信号入力端子302〜30nから供給される入力音声信号のパワーを計算する。パワー計算部311〜31nの各パワー計算値は、話者検出部400に供給される。
音声信号切替部321〜32nは、話者検出部400からの制御信号に従って、それぞれのオン・オフの動作が行われるように構成されている。音声信号切替部321〜32nでは、オン状態とされた場合にのみ、入力された音声信号が出力される。
音声信号切替部321の出力は、グループ信号加算部13kおよび信号減算部361に供給される。これと同様に、音声信号切替部322〜32nの各出力も、グループ信号加算部13kに供給されるとともに、信号減算部362〜36nに供給される。
グループ信号加算部13kは、音声信号切替部321〜32nからの音声信号を加算し、その加算結果を出力する。グループ信号加算部13kの出力は、サンプリング変換部341〜34k-1および全信号加算部15kに供給される。
サンプリング変換部341〜34k-1は、帯域Bkを除く他の帯域B1〜Bk-1に対応して設けられている。サンプリング変換部341は、グループ信号加算部13kから供給された音声信号(加算結果)のサンプリング周波数を、帯域B1の音声信号のサンプリング周波数に一致するように変換する。これと同様に、サンプリング変換部342〜34k-1も、グループ信号加算部13kからの音声信号のサンプリング周波数を対応する帯域の音声信号のサンプリング周波数に変換する。
サンプリング変換部341の出力は、帯域B1に対応するミキシング処理部11の全信号加算部に供給される。これと同様に、サンプリング変換部342〜34k-1の出力は、帯域B2〜Bk-1に対応するミキシング処理部12〜1k-1の全信号加算部に供給される。
全信号加算部15kは、グループ信号加算部13kからの音声信号と他のミキシング処理部11〜1k-1の各サンプリング変換部からの音声信号とを入力とし、これら入力音声信号を加算する。全信号加算部15kの出力は、信号減算部361〜36nおよび共通符号化部40kに供給される。
信号減算部361は、音声信号切替部321からの音声信号を第1の入力とし、全信号加算部15kからの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部361の出力は、符号化部371に供給される。これと同様に、信号減算部362〜36nのそれぞれも、音声信号切替部322〜32nのうちの対応する音声信号切替部からの音声信号を第1の入力とし、全信号加算部15kからの音声信号を第2の入力としており、第2の入力から第1の入力を差し引いた音声信号を出力する。信号減算部362〜36nの出力は、符号化部372〜37nに供給される。
符号化部371は、信号減算部361からの音声信号を符号化する。符号化部371の出力は、音声信号切替部381に供給される。これと同様に、符号化部372〜37nも、信号減算部362〜36nのうちの対応する信号減算部からの音声信号を符号化する。符号化部372〜37nの出力は、音声信号切替部382〜38nに供給される。
共通符号化部40kは、全信号加算部15kからの音声信号を符号化する。共通符号化部40kの出力は、音声信号切替部381〜38nに供給される。
音声信号切替部381は、符号化部371からの符号化された音声信号を第1の入力とし、共通符号化部40kからの符号化された音声信号を第2の入力とし、話者検出部400からの制御信号に従い、これら第1および第2の入力のいずれかを選択して出力する。音声信号切替部381の出力は、音声信号出力端子391に供給される。これと同様に、音声信号切替部382〜38nも、符号化部372〜37nのうちの対応する符号化部からの符号化された音声信号を第1の入力とし、共通符号化部40kからの符号化された音声信号を第2の入力とし、話者検出部400からの制御信号に従い、これら第1および第2の入力のいずれかを選択して出力する。音声信号切替部382〜38nの出力は、音声信号出力端子392〜39nに供給される。
音声信号出力端子391〜39nは、入力された音声信号を図2に示した信号分類部103に供給する。
他のミキシング処理部13〜1k-1の構成も、基本的に、上述したミキシング処理部11、12、1kの構成と同じである。
次に、本実施形態の音声ミキシング装置の動作について詳細に説明する。
図3は、図1に示した音声ミキシング装置のミキシング処理の一手順を示すフローチャートである。
ミキシング処理部11〜1kの動作は基本的に同じである。ここでは、図2に示した信号分類部103が、帯域B1〜Bkの音声信号をミキシング処理部11〜1kに供給した場合におけるミキシング処理部11および話者検出部400の動作について、図1および図3を参照して説明する。なお、帯域B1〜Bkの音声信号のサンプリング周波数はそれぞれサンプリング周波数F1〜Fkとする。
帯域B1の音声信号として、サンプリング周波数F1の複数の音声信号S1〜Snが音声信号入力端子101〜10nに供給される(ステップS10)。音声信号入力端子101に入力された音声信号S1は、パワー計算部111および音声信号切替部121に供給される。同様に、音声信号入力端子102〜10nに入力された音声信号S2〜Snは、パワー計算部112〜11nに供給されるとともに、音声信号切替部122〜12nに供給される。
次に、パワー計算部111〜11nが、入力された音声信号のパワーを検出し、その結果を話者検出部400に供給する(ステップS11)。話者検出部400は、パワー計算部111〜11nからのパワー計算結果に基づいて、発話による音声を含む音声信号(話者の音声信号)を音声信号S1〜Snの中から選択する(ステップS12)。そして、話者検出部400は、話者の音声信号の選択結果に基づく制御信号を、音声信号切替部121〜12nおよび音声信号切替部181〜18nに送信する。
話者の音声信号の選択において、話者検出部400は、例えば、音声信号S1〜Snのうち、パワー値の大きい方からm(1≦m<n)個の音声信号を選択してもよい。また、話者検出部400は、音声信号のパワーだけでなく、音声復号時に得られるVAD(Voice Activity Detection:音声検出)の情報を用いて、発話による音声を含む音声信号を決定してもよい。また、会議における発話者(発表者)が限定される場合は、話者検出部400は、予め指定した話者(発表者)の音声信号を選択してもよい。さらに、話者検出部400は、信号レベル(パワー値)が基準値以上の音声信号を選択してもよい。
話者の音声信号の選択の後、グループ信号加算部131が、話者検出部400にて選択された音声信号を加算して同一帯域の加算音声信号を出力する(ステップS13)。この加算処理に際して、話者検出部400は、音声信号切替部121〜12nのうち、話者の音声信号として選択した音声信号が供給される音声信号切替部に対して、スイッチをオン状態とするための制御信号を供給し、それ以外の音声信号切替部に対しては、スイッチをオフ状態とするための制御信号を供給する。これにより、話者の音声信号として選択した音声信号のみがグループ信号加算部131に供給される。
グループ信号加算部131から出力された同一帯域の加算音声信号は、サンプリング変換部141〜14k-1および全信号加算部151に供給される。サンプリング変換部141は、グループ信号加算部131から供給された同一帯域の加算音声信号のサンプリング周波数F1をサンプリング周波数F2に変換する。これと同様に、サンプリング変換部142〜14k-1は、グループ信号加算部131から供給された同一帯域の加算音声信号のサンプリング周波数F1をサンプリング周波数F3〜Fkのうちの対応するサンプリング周波数に変換する。サンプリング変換部141〜14k-1にてサンプリング周波数が他の帯域のサンプリング周波数に変換された同一帯域の加算音声信号は、他のミキシング処理部12〜1kの全信号加算部152〜15kに供給される(ステップS14)。
次に、全信号加算部151が、グループ信号加算部131から供給された同一帯域の加算音声信号と、他のミキシング処理部12〜1kからの、サンプリング周波数が変換された他の同一帯域の加算音声信号とを加算して、同一サンプリング周波数F1の加算音声信号を出力する(ステップS15)。全信号加算部151から出力された同一サンプリング周波数F1の加算音声信号は、信号減算部161〜16nおよび共通符号化部401に供給される。
次に、共通符号化部401が、全信号加算部151からの同一サンプリング周波数F1の加算音声信号を符号化して、共通符号化音声信号を出力する。さらに、信号減算部161〜16nのうち、話者検出部400により選択された話者の音声信号が供給された信号減算部が、全信号加算部151からの同一サンプリング周波数F1の加算音声信号から、その供給された話者の音声信号を減じ、その結果を出力する。そして、符号化部171〜17nのうち、同一サンプリング周波数F1の加算音声信号から話者の音声信号を減じた音声信号が供給された符号化部が、その供給された音声信号を符号化して、話者用符号化音声信号を出力する(ステップS16)。
なお、符号化部171〜17nのうち、同一サンプリング周波数F1の加算音声信号のみが供給された符号化部においては、符号化の動作は行われない。この符号化部の制御は、話者検出部400が、音声信号切替部121〜12nのオンオフを制御することで可能であるが、これに代えて、話者検出部400が、符号化部171〜17nを直接に制御してもよい。例えば、話者検出部400は、オフ状態とされた音声信号切替部と接続された符号化部に対して、符号化の停止を示す制御信号を送信し、その符号化部が、話者検出部400からの制御信号に基づき、符号化の動作を停止する、といった制御が行われても良い。
最後に、話者検出部400からの制御信号に従い、音声信号切替部181〜18nのうち、話者用符号化音声信号が供給された音声信号切替部が、その供給された話者用符号化音声信号を出力し、それ以外の音声信号切替部が、共通符号化部401からの共通符号化音声信号を出力する(ステップS17)。
他のミキシング処理部12〜1kにいても、上述のステップS10〜S17と同様な手順で、音声ミキシング処理が行われる。
次に、本実施形態の音声ミキシング装置の各ミキシング処理部の動作について、サンプリング周波数の具体的な数値を挙げて説明する。
図2に示した複数の端末200が、サンプリング周波数が8kHzである音声信号(例えば、G.729方式やAMR方式の音声データ)を送受信する第1の端末グループと、サンプリング周波数が16kHzである音声信号(例えば、G.722方式やAMR‐WB方式の音声データ)を送受信する第2の端末グループと、サンプリング周波数が32kHzである音声信号(例えば、AAC方式の音声データ)を送受信する第3の端末グループとを含む。
第1の端末グループからの音声信号はミキシング処理部11に供給され、第2の端末グループからの音声信号はミキシング処理部12に供給され、第3の端末グループからの音声信号はミキシング処理部13に供給される。
ミキシング処理部11では、図3に示した手順で、第1の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部141が、グループ信号加算部131からの同一帯域の加算音声信号のサンプリング周波数8kHzを、ミキシング処理部12での処理が可能なサンプリング周波数16kHzに変換する。
上記のサンプリング周波数8kHzからサンプリング周波数16kHzへのアップサンプリング変換では、例えば、サンプリング周波数8kHzの音声信号の各サンプルの間に値が0のサンプルを1つ挿入することにより、サンプル数を倍にした音声信号を生成する。そして、その生成した音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数16kHzの音声信号を得る。
また、サンプリング変換部142が、グループ信号加算部131からの同一帯域の加算音声信号のサンプリング周波数8kHzを、ミキシング処理部13での処理が可能なサンプリング周波数32kHzに変換する。
上記のサンプリング周波数8kHzからサンプリング周波数32kHzへのアップサンプリング変換では、例えば、サンプリング周波数8kHzの音声信号の各サンプルの間に値が0のサンプルを3つ挿入することにより、サンプル数を4倍にした音声信号を生成する。そして、その生成した音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数32kHzの音声信号を得る。
上述のサンプリング変換の詳細については、例えば、文献「J.O.Smith, "A Flexible Sampling-Rate Conversion Method," Proc. IEEEICASSP '84 Vol. 9, Part 1, pp.112-115.」を参照できる。
なお、アップサンプリング変換を行う際に、帯域が異なる音声信号をミキシングすることで生じる違和感を避けるために、例えば、高域に擬似的な信号を付加する帯域拡張処理を施してもよい。帯域拡張処理の詳細については、例えば、文献「Yan Ming Cheng, O'Shaughnessy and D. Mermelstein, "Statistical Recovery of Wideband Speech from Narrowband speech," Speech and Audio Processing, IEEE Transactions on Volume 2, Issue 4, Oct. 1994 pp.544-548.」を参照できる。
ミキシング処理部12でも、図3に示した手順で、第2の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部241が、グループ信号加算部132からの同一帯域の加算音声信号のサンプリング周波数16kHzを、ミキシング処理部11での処理が可能なサンプリング周波数8kHzに変換する。
上記のサンプリング周波数16kHzからサンプリング周波数8kHzへのダウンサンプリング変換では、例えば、サンプリング周波数16kHzの音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通した後、1サンプル毎に間引くことにより、サンプリング周波数が8kHzの音声信号を得る。
また、サンプリング変換部242が、グループ信号加算部132からの同一帯域の加算音声信号のサンプリング周波数16kHzを、ミキシング処理部13での処理が可能なサンプリング周波数32kHzに変換する。
上記のサンプリング周波数16kHzからサンプリング周波数32kHzへのアップサンプリング変換では、例えば、16kHzサンプリングの音声信号の各サンプルの間に値が0のサンプルを1つ挿入することによりサンプル数を倍にした音声信号を生成する。そして、その生成した音声信号を、周波数8kHz以下の帯域のみを通過させる帯域制限フィルタに通すことにより、サンプリング周波数が32kHzの音声信号を得る。
ミキシング処理部13でも、図3に示した手順で、第3の端末グループからの音声信号に対するミキシング処理が行われる。このミキシング処理では、サンプリング変換部341が、グループ信号加算部133からの同一帯域の加算音声信号のサンプリング周波数32kHzを、ミキシング処理部11での処理が可能なサンプリング周波数8kHzに変換する。
上記のサンプリング周波数32kHzからサンプリング周波数8kHzへのダウンサンプリング変換では、例えば、サンプリング周波数が32kHzの音声信号を、周波数4kHz以下の帯域のみを通過させる帯域制限フィルタに通した後、3サンプル毎に間引くことにより、サンプリング周波数が8kHzの音声信号を得る。
また、サンプリング変換部342が、グループ信号加算部132からの同一帯域の加算音声信号のサンプリング周波数32kHzを、ミキシング処理部12での処理が可能なサンプリング周波数16kHzに変換する。
上記のサンプリング周波数32kHzからサンプリング周波数16kHzへのダウンサンプリング変換では、例えば、サンプリング周波数が32kHzの音声信号を、周波数8kHz以下の帯域のみを通過させる帯域制限フィルタに通した後、1サンプル毎に間引くことにより、サンプリング周波数が16kHzの音声信号を得る。
上述のようなサンプリング周波数の変換処理により、帯域別に設けられた各ミキシング処理部において、自処理部に供給された音声信号と、他のミキシング処理部に供給された音声信号とのミキシングを行うことができる。
以上説明したように、本実施形態の音声ミキシング装置では、話者検出部400が、帯域別に設けられたミキシング処理部11〜1kに供給された音声信号から少なくとも1つの音声信号(話者の音声信号)を選択する。また、ミキシング処理部11〜1kのそれぞれが、話者検出部400によって選択された話者の音声信号を加算して同一帯域の加算音声信号を生成し、その同一帯域の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換する。さらに、ミキシング処理部11〜1kのそれぞれが、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算して、同一サンプリング周波数の加算信号を生成する。そして、ミキシング処理部11〜1kのそれぞれが、選択された話者の音声信号に対してのみ、同一サンプリング周波数の加算信号からその音声信号を減算し、その減算結果として得られた音声信号を符号化する、といった符号化の処理が行われる。なお、話者以外の参加者に対しては、共通の符号化部を用いて、同一サンプリング周波数の加算信号を符号化した音声信号が用いられる。
上記の構成によれば、ミキシング処理部11〜1kのそれぞれが、同一帯域の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換するとともに、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算することで、複数の異なる帯域の音声信号をミキシングすることが可能となっている。このように、サンプリング周波数が異なる複数の帯域の音声信号を混在させた音声ミキシングを行うことが可能であるので、例えば、電話帯域を利用する端末や広帯域を利用する端末、といった異なる帯域の音声(音響)信号を送受信する端末間においても多地点会議サービスを提供できる。したがって、多地点音声会議サービスにおける利便性の向上を図ることができる。
また、選択された話者の音声信号に対してのみ、個別に、符号化の演算処理が行われ、話者以外の参加者に対しては、共通符号化部を用いた演算結果が共通に利用される。よって、話者以外の参加者に対して、個別に、符号化部を用いた演算処理を行う必要がない分、符号化の演算量を削減することができる。このように、複数の音声信号のうちから選択した話者音声信号について符号化を行う構成として、ミキシングする音声信号の数を限定することで、参加者の増加に伴って音声符号化による演算量が増大することを抑制することができる。ただし、個別に符号化される音声信号の数は、話者検出部による音声信号の選択数により決まる。
上述した本実施形態の音声ミキシング装置は、本発明の一例であり、その構成および動作は、発明の趣旨を逸脱しない範囲で適宜に変更することができる。
例えば、ミキシング処理部11〜1kのそれぞれが、自処理部で生成した同一帯域の加算音声信号と、他のミキシング処理部から供給される、自処理部のサンプリング周波数への変換がなされた同一帯域の加算音声信号とを加算する際に、その加算信号に、予め定められた高域成分を有する擬似音声信号を付加してもよい。これにより、アップサンプリング変換を行う際の、帯域が異なる音声信号をミキシングすることで生じる違和感を避けることができ、低いサンプリング周波数の信号の音質を改善することができる。
また、話者検出部400による話者の選択動作において、周波数の高い帯域の音声信号が選択される状態と、そのような音声信号が全く選択されない状態とが繰り返されると、ミキシングされた音声信号として、高域成分を含む音声信号と、高域成分を含まない音声信号とが繰り返し出力されることになる。このような音声信号は、聞き手に違和感を生じさせてしまう。この問題を避けるために、話者検出部400は、各帯域(グループ)について、少なくとも一つの音声信号を話者の音声信号として選択してもよい。また、話者検出部400は、最もサンプリング周波数の高い帯域について、少なくとも一つの音声信号を話者の音声信号として選択してもよい。
また、図1に示した音声ミキシング装置において、ミキシング処理部11〜1kは、全信号加算部151〜15kから出力される音声信号、または、その出力音声信号を符号化した音声データを、それぞれの出力信号としてもよい。
また、図1に示した音声ミキシング装置において、ミキシング処理部11〜1kの各符号化部(例えば、共通符号化部401〜40kおよび符号化部171〜17k、271〜27k、371〜37kなど)が、予測符号化器であってもよい。
予測符号化器では、例えば音声信号がフレーム単位に入力された場合に、過去のフレームの音声信号から線形予測係数を算出し、その線形予測係数を用いて現フレームの音声信号の符号化を行う。ミキシング処理部11〜1kでは、共通符号化部と各符号化部との間で切り替えが行われる。このため、切り替え時に、共通符号化部が保持している線形予測係数と符号化部が保持している線形予測係数とが異なると、音質が劣化してしまう。
上記の問題を回避するため、共通符号化部から符号化部へ切り替える際は、話者検出部400が、共通符号化部に対して、自身が保持している線形予測係数を、切替先である符号化部へ供給するように指示する。この指示に従って、共通符号化部が、自身が保持している線形予測係数を、切替先である符号化部へ供給する。この制御により、切り替え時に、共通符号化部が保持している線形予測係数と切替先の符号化部が保持している線形予測係数とを同一にすることができる。
なお、符号化部から共通符号化部への切り替え時において、符号化部から共通符号化部への線形予測係数の供給は行わないものとする。この場合、共通符号化部が保持している線形予測係数が、符号化部が保持している線形予測係数と異なるが、この線形予測係数の不整合による音質への影響は少ない。その理由を、符号化部が、参加者Aの端末Tからの音声信号を複数の他の参加者の端末からの音声信号とミキシングする場合を例に挙げて、以下に説明する。
参加者Aが発声すると、話者検出部による判定状態が、端末Tからの音声信号が話者の信号でないとの判定から、端末Tからの音声信号が話者の信号であるとの判定に変更され、その結果、共通符号化部から符号化部への切り替えが行われる。切り替え後、符号化部は、全信号加算部からの音声信号から参加者の端末Tからの音声信号を減じた信号に対して予測符号化の処理を開始するが、その処理の開始時点では、予測符号化に必要な線形予測係数を保持していない。この場合の予測符号化に必要な線形予測係数は、全信号加算部からの音声信号に関する線形予測係数であり、それは共通符号化部に保持されている。したがって、共通符号化部が、保持している線形予測係数を符号化部へ供給することで、符号化部における予測符号化の処理を、精度良く、実行することができる。
一方、参加者Aが発声を止めると、話者検出部による判定状態が、端末Tからの音声信号が話者の信号であるとの判定から、端末Tからの音声信号が話者の信号でないとの判定に変更され、その結果、符号化部から共通符号化部への切り替えが行われる。切り替え後は、共通符号化部により符号化された音声信号が端末Tに向けて送信される。この場合、共通符号化部は、切り替え前の状態から、全信号加算部からの音声信号に対する予測符号化の処理を継続しているので、切り替え後における予測符号化に必要な線形予測係数を保持している。この共通符号化部が保持している線形予測係数は、参加者Aが発声を止めた時点における、符号化部が保持している線形予測係数に近いものである。したがって、符号化部から共通符号化部への切り替えが行われた場合に、共通符号化部は、自身が保持している線形予測係数を使用して、精度良く、予測符号化の処理を実行することができる。
また、図1および図2に示した構成において、復号部や信号分類部は、音声ミキシング装置内に設けられてもよく、また、受信部に設けられてもよい。
また、図2に示した多地点会議サーバは、プログラムにより動作するコンピュータシステムより実現することができる。このコンピュータシステムの主要部は、プログラムやデータなどを蓄積する記憶装置、キーボードやマウスなどの入力装置、LCD(Liquid Crystal Display)などの表示装置、外部との通信を行うモデムなどの通信装置、プリンタなどの出力装置、および記憶装置に格納されたプログラム従って動作し、入力装置からの入力を受け付けて通信装置、出力装置、表示装置の動作を制御する制御装置(CPU:Central Processing Unit)から構成される。プログラムとして、図3に示したミキシング処理をCPUに実行させるためのプログラムが記憶装置に格納される。このプログラムは、記録媒体やインターネットを通じて提供されてもよい。また、プログラムとして、図3に示したミキシング処理をDSP(Digital Signal Processor)に実行させるためのプログラムを提供することもできる。
本発明は、多地点会議サービスを提供するシステムの他、音声ミキシングを行う装置全般に適用することができる。例えば、本発明は、3GPPにて規定されたMRF(Media Resource Function)と呼制御部に相当するMRCF(Media Resource Control Function)によって実現される、種々のメディアサービスを提供するシステムに適用することができる。MRFおよびMRCFは、所謂、多地点会議システムの多地点制御装置(MCU:Multi-Point Control Unit)の機能を実現するために用いられている。
以上、実施形態を参照して本発明を説明したが、本発明は上述した実施形態に限定されるものではない。本発明の構成及び動作については、本発明の趣旨を逸脱しない範囲において、当業者が理解し得る様々な変更を行うことができる。
この出願は、2008年2月4日に出願された日本出願特願2008−23977を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (11)

  1. サンプリング周波数別に設けられた複数のミキシング処理部と、
    前記複数のミキシング処理部に入力された複数の音声信号のうちから、話者の音声を含む話者音声信号を少なくとも一つ選択する話者検出部と、を有し、
    前記複数のミキシング処理部のそれぞれは、
    自処理部に入力された同一サンプリング周波数の音声信号のうち、前記話者検出部にて選択された話者音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた第1の加算音声信号を前記他のミキシング処理部に供給し、
    自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部で処理可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、音声ミキシング装置。
  2. 前記複数のミキシング処理部のそれぞれは、前記話者検出部にて選択された話者音声信号毎に、前記第2の加算音声信号から該話者音声信号を差し引いた減算音声信号を生成し、該減算音声信号を符号化する、請求の範囲第1項に記載の音声ミキシング装置。
  3. 前記複数のミキシング処理部のそれぞれは、自処理部に入力された同一サンプリング周波数の音声信号のうち、前記話者音声信号以外の音声信号のそれぞれについて、該音声信号を符号化する代わりに、前記第2の加算音声信号を符号化する、請求の範囲第1項または第2項に記載の音声ミキシング装置。
  4. 前記話者検出部は、信号レベルが基準値以上の音声信号を前記話者音声信号として選択する、請求の範囲第1項乃至第3のいずれか1項に記載の音声ミキシング装置。
  5. 前記話者検出部は、前記複数のミキシング処理部に入力された複数の音声信号のうちから、予め指定された話者に関する音声信号を選択する、請求の範囲第1項乃至第3項のいずれか1項に記載の音声ミキシング装置。
  6. 前記複数のミキシング処理部のそれぞれは、予め定められた高域成分を有する擬似音声信号を前記第2の加算音声信号に加える、請求の範囲第1項乃至第3項のいずれか1項に記載の音声ミキシング装置。
  7. 前記話者検出部は、前記複数のミキシング処理部のそれぞれにおいて、入力された音声信号のうちのサンプリング周波数が最も高い入力信号を少なくとも選択する、請求の範囲第1項乃至第3項のいずれか1項に記載の音声ミキシング装置。
  8. 前記複数のミキシング処理部のそれぞれは、
    前記話者検出部にて選択された話者音声信号を加算して前記第1の加算音声信号を生成するグループ信号加算部と、
    前記グループ信号加算部にて生成された前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部での処理が可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して前記第2の加算音声信号を生成する全信号加算部と、
    前記同一サンプリング周波数の入力音声信号毎に設けられ、該入力音声信号が第1の入力として供給され、前記全信号加算部で生成された前記第2の加算音声信号が第2の入力として供給され、該第2の入力から該第1の入力を減算する複数の信号減算器と、
    前記複数の信号減算器から出力された音声信号をそれぞれ符号化する複数の符号化部と、
    前記全信号加算部で生成された前記第2の加算音声信号を符号化する共通符号化部と、を有し、
    前記話者検出部にて選択された話者音声信号については、前記複数の符号化部のうちの対応する符号化部による符号化が行われ、前記話者音声信号以外の音声信号については、前記共通符号化部による符号化が行われる、請求の範囲第1項乃至第7項のいずれか1項に記載の音声ミキシング装置。
  9. 前記共通符号化部は、前記第2の加算音声信号の予測符号化を行うための情報を保持し、
    前記複数の符号化部のそれぞれは、前記共通符号化部から自符号化部への切り替わりの際に、前記共通符号化部に保持された情報を参照して、前記話者音声信号の予測符号化を行う、請求の範囲第8項に記載の音声ミキシング装置。
  10. サンプリング周波数が異なる複数の音声信号をミキシングする音声信号ミキシング方法であって、
    前記複数の音声信号のうちから話者の音声を含む話者音声信号を少なくとも一つ選択する第1のステップと、
    前記複数の音声信号をサンプリング周波数別に分類したグループ毎に、前記第1のステップで選択された同一サンプリング周波数の話者音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のグループで処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた音声信号を前記他のグループに割り当てる第2のステップと、
    前記グループ毎に、自グループで生成した前記第1の加算音声信号と、前記他のグループから自グループに割り当てられた、サンプリング周波数の変換がなされた前記第1の加算信号とを加算して第2の加算音声信号を生成する第3のステップと、を含む、音声ミキシング方法。
  11. 複数の通信端末とネットワークを介して接続される多地点会議サーバであって、
    前記複数の通信端末から受信した複数の音声信号をサンプリング周波数別に分類する信号分類部と、
    サンプリング周波数別に設けられ、前記信号分類部から供給される同一サンプリング周波数の音声信号をミキシングする複数のミキシング処理部と、
    前記複数のミキシング処理部に入力された複数の音声信号のうちから話者の音声を含む話者音声信号を少なくとも一つ選択する話者検出部と、を有し、
    前記複数のミキシング処理部のそれぞれは、
    自処理部に入力された同一サンプリング周波数の音声信号のうち、前記話者検出部にて選択された話者音声信号を加算して第1の加算音声信号を生成し、該第1の加算音声信号のサンプリング周波数を他のミキシング処理部で処理可能なサンプリング周波数に変換し、該サンプリング周波数の変換がなされた第1の加算音声信号を前記他のミキシング処理部に供給し、
    自処理部で生成した前記第1の加算音声信号と、前記他のミキシング処理部から供給される、自処理部で処理可能なサンプリング周波数への変換がなされた前記第1の加算音声信号とを加算して第2の加算音声信号を生成する、多地点会議サーバ。
JP2009552439A 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ Expired - Fee Related JP5158098B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009552439A JP5158098B2 (ja) 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008023977 2008-02-04
JP2008023977 2008-02-04
JP2009552439A JP5158098B2 (ja) 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ
PCT/JP2009/051301 WO2009098974A1 (ja) 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ

Publications (2)

Publication Number Publication Date
JPWO2009098974A1 JPWO2009098974A1 (ja) 2011-05-26
JP5158098B2 true JP5158098B2 (ja) 2013-03-06

Family

ID=40952052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009552439A Expired - Fee Related JP5158098B2 (ja) 2008-02-04 2009-01-28 音声ミキシング装置および方法ならびに多地点会議サーバ

Country Status (5)

Country Link
US (1) US8509460B2 (ja)
EP (1) EP2226995A4 (ja)
JP (1) JP5158098B2 (ja)
CN (1) CN101926160A (ja)
WO (1) WO2009098974A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915736B (zh) * 2012-10-16 2015-09-02 广东威创视讯科技股份有限公司 混音处理方法和混音处理***
GB2524984B (en) * 2014-04-08 2018-02-07 Acano (Uk) Ltd Audio mixer

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63314946A (ja) * 1987-06-17 1988-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声加算方式
JPH1075310A (ja) * 1996-08-29 1998-03-17 Nec Corp 多地点テレビ会議システム
JP2000069179A (ja) * 1998-08-19 2000-03-03 Sony Corp 多地点会議装置及びその方法並びに多地点会議用端末装置
JP2005229259A (ja) * 2004-02-12 2005-08-25 Nippon Telegr & Teleph Corp <Ntt> 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2102857C (en) * 1992-12-31 1998-06-23 Alexander Feiner Technique for reducing echoes in conference communications
JPH0775310A (ja) 1993-08-31 1995-03-17 Secoh Giken Inc 5相のリラクタンス電動機
US5768263A (en) * 1995-10-20 1998-06-16 Vtel Corporation Method for talk/listen determination and multipoint conferencing system using such method
JP3157116B2 (ja) 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
JP3592879B2 (ja) 1997-02-20 2004-11-24 京セラ株式会社 音声情報通信システム及び多地点制御装置
JPH11213558A (ja) 1998-01-27 1999-08-06 Toshiba Corp 音声データ処理装置およびコンピュータシステム並びに音声データ処理方法
JP2000175170A (ja) * 1998-12-04 2000-06-23 Nec Corp 多地点テレビ会議システム及びその通信方法
US6956828B2 (en) * 2000-12-29 2005-10-18 Nortel Networks Limited Apparatus and method for packet-based media communications
US6889182B2 (en) 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
US20030021429A1 (en) * 2001-07-30 2003-01-30 Ratcliff David D. On-the-fly configurable audio processing machine
US7409056B2 (en) * 2002-12-16 2008-08-05 Broadcom Corporation Switchboard for dual-rate single-band communication system
JP2005020639A (ja) 2003-06-30 2005-01-20 Nec Engineering Ltd 衛星を利用した多地点テレビ会議システム
JP4250578B2 (ja) * 2004-09-07 2009-04-08 株式会社リコー 音声オーディオ装置
CN100524467C (zh) * 2006-07-17 2009-08-05 深圳市迪威新软件技术有限公司 会议电视***的回声处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63314946A (ja) * 1987-06-17 1988-12-22 Nippon Telegr & Teleph Corp <Ntt> 音声加算方式
JPH1075310A (ja) * 1996-08-29 1998-03-17 Nec Corp 多地点テレビ会議システム
JP2000069179A (ja) * 1998-08-19 2000-03-03 Sony Corp 多地点会議装置及びその方法並びに多地点会議用端末装置
JP2005229259A (ja) * 2004-02-12 2005-08-25 Nippon Telegr & Teleph Corp <Ntt> 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体

Also Published As

Publication number Publication date
EP2226995A4 (en) 2012-01-11
CN101926160A (zh) 2010-12-22
US8509460B2 (en) 2013-08-13
JPWO2009098974A1 (ja) 2011-05-26
US20100296675A1 (en) 2010-11-25
EP2226995A1 (en) 2010-09-08
WO2009098974A1 (ja) 2009-08-13

Similar Documents

Publication Publication Date Title
KR101036965B1 (ko) 음성 믹싱 방법 및 그 방법을 이용하는 다지점 회의 서버와 컴퓨터 판독가능 기록 매체
JP6887995B2 (ja) セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
JP5158099B2 (ja) 音声ミキシング装置および方法ならびに多地点会議サーバ
EP2158753B1 (en) Selection of audio signals to be mixed in an audio conference
JP5158098B2 (ja) 音声ミキシング装置および方法ならびに多地点会議サーバ
US9961209B2 (en) Codec selection optimization
Côté et al. Speech communication
Valin et al. Requirements for an Internet Audio Codec
Chinna Rao et al. Real-time implementation and testing of VoIP vocoders with asterisk PBX using wireshark packet analyzer
CN112951252A (zh) 一种lc3音频码流的混音方法、装置、介质及设备
Lamblin et al. ITU-T G. 722.1 annex C: the first ITU-T superwideband audio coder
Valin et al. RFC 6366: Requirements for an Internet Audio Codec

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121126

R150 Certificate of patent or registration of utility model

Ref document number: 5158098

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees