JP4850191B2

JP4850191B2 - 自動音量制御装置及びそれを用いた音声通信装置

Info

Publication number: JP4850191B2
Application number: JP2008006823A
Authority: JP
Inventors: 正清田中; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-01-16
Filing date: 2008-01-16
Publication date: 2012-01-11
Anticipated expiration: 2028-01-16
Also published as: JP2009171208A

Description

本発明は、入力音声信号の音量制御を行う自動音量制御装置及びそれを用いた音声通信装置に関する。

近年、ＦＴＴＨ（ＦｉｂｅｒＴｏＴｈｅＨｏｍｅ）、公衆無線網、高速移動体通信網といったネットワークの整備により、様々な場所で音声通信機器を用いた音声通信が増加し、テレビ音声会議システム等の多地点（３地点以上）の通話が可能な音声通信システムがコスト削減等を目的に普及しつつある。

多地点通話では、利用するマイクロホンの感度や指向性の違い、マイクロホンと話者の距離等により、話者によって音量レベルが様々に異なっている。このため、受話側での音量調節が困難となっている。

受話側のユーザが調節できる音量は、各話者の音声がミックスされた後の音声だけであることが多く、ある話者の音量に合わせて音量を調節すると、別の話者の音量が不適切になるという問題が生じやすい。

これを解決するため、音声通信システムでは、受信した音声が予め定めておいた目標音量レベルになるよう、音量を調節する自動音量制御装置（ＡｕｔｏｍａｔｉｃＧａｉｎＣｏｎｔｒｏｌ：ＡＧＣ）が搭載されていることが多い。自動音量制御装置は、図１に示すように、ＡＧＣ部１において、入力音声信号の音量を予め定めておいた目標音量レベルに調節して出力する技術である。

図２は、多地点音声通信システムに用いられる音声通信装置の受話側部分の一例のブロック図を示す。同図中、ある話者からの音声信号はＡＧＣ部２で目標音量レベルに調節されてミキシング部４に供給され、他の話者からの音声信号はＡＧＣ部３で目標音量レベルに調節されてミキシング部４に供給されて、ミキシング部４から合成音声信号が出力される。

なお、特許文献１には、信号を音声区間と雑音区間に分類し、ＳＮ比に応じて雑音区間の増幅率を音声区間の増幅率以下にすることで、雑音の増幅による耳障り感を抑えることが記載されている。

また、特許文献２には、複数の入力信号のうち１つの信号を用いて基準となる利得を決定し、その他の信号の利得を、前述の基準となる利得をベースとして自動的に微調節を行って決定することにより、全ての音声信号を容易に同じ音量に調節することが記載されている。
特開２００３−６０４５９号公報特開２００６−２８７７１６号公報

３地点以上の多地点通話時にＳＮ比が悪い音声の話者が存在する場合について考える。図３に示すように、第１話者の入力音声信号はＳＮ比が高く、第２話者の入力音声信号はＳＮ比が中くらい、第３話者の入力音声信号はＳＮ比が低いとする。

各話者の入力音声信号はそれぞれＡＧＣ部において目標音量レベルまで増幅されるため、第３話者の音声信号の雑音レベルは第１，第２話者の音声信号の雑音レベルに比して大きくなる。このため、増幅後の第１〜第３話者の音声信号をミキシングした音声信号における雑音レベルが大きくなり、第１，第２話者の音声信号のＳＮ比までも悪化して、音声が聞き取りにくくなるという問題がある。

本発明は、上記の点に鑑みなされたものであり、雑音レベルが大きくなりすぎることを抑制し、ＳＮ比の悪い話者が存在しても他の話者の音声が聞き取り難くなることを低減する自動音量制御装置及びそれを用いた音声通信装置を提供することを目的とする。

本発明の一実施態様による自動音量制御装置は、入力音声信号の音声部分と非音声部分を判定する音声判定手段と、
前記入力音声信号の音声部分における音声レベルを算出する音声レベル算出手段と、
前記入力音声信号の非音声部分における雑音レベルを算出する雑音レベル算出手段と、
前記音声レベルと前記雑音レベルから前記入力音声信号のＳＮ比を算出するＳＮ比算出手段と、
前記音声レベルと前記雑音レベルと前記ＳＮ比と予め設定されている目標音量レベルから前記入力音声信号の増幅率を算出する増幅率算出手段と、
前記入力音声信号を前記増幅率で増幅して出力する増幅手段と、
を有し、
前記増幅率算出手段は、前記ＳＮ比が閾値以上のとき前記音声レベルが前記目標音量レベルとなるように増幅率を算出し、前記ＳＮ比が閾値未満のとき前記雑音レベルが前記目標音量レベルから前記閾値だけ低い値となるように増幅率を算出する。

本発明の他の一実施態様による自動音量制御装置は、入力音声信号の音声部分と非音声部分を判定する音声判定手段と、
前記入力音声信号の音声部分における音声レベルを算出する音声レベル算出手段と、
前記入力音声信号の非音声部分における雑音レベルを算出する雑音レベル算出手段と、
前記音声レベルと前記雑音レベルから前記入力音声信号のＳＮ比を算出するＳＮ比算出手段と、
前記音声レベルと前記雑音レベルと前記ＳＮ比算出手段で算出したＳＮ比と予め設定されている目標音量レベルと一又は複数の他の自動音量制御装置から供給されるＳＮ比から前記入力音声信号の増幅率を算出する増幅率算出手段と、
前記入力音声信号を前記増幅率で増幅して出力する増幅手段と、
を有し、
前記増幅率算出手段は、前記ＳＮ比算出手段で算出したＳＮ比が前記一又は複数の他の自動音量制御装置から供給されるＳＮ比以上のとき前記音声レベルが前記目標音量レベルとなるように増幅率を算出し、前記ＳＮ比算出手段で算出したＳＮ比が前記一又は複数の他の自動音量制御装置から供給されるＳＮ比未満のとき前記雑音レベルが前記目標音量レベルから最も高いＳＮ比だけ低い値となるように増幅率を算出する。

また、前記自動音量制御装置において、
前記増幅率算出手段は、前記ＳＮ比算出手段で算出したＳＮ比が閾値以上のとき又は前記一又は複数の他の自動音量制御装置から供給されるＳＮ比以上のとき前記音声レベルが前記目標音量レベルとなるように増幅率を算出し、前記ＳＮ比算出手段で算出したＳＮ比が閾値以下かつ前記一又は複数の他の自動音量制御装置から供給されるＳＮ比のいずれかが前記閾値以上のとき前記雑音レベルが前記目標音量レベルから前記閾値だけ低い値となるように増幅率を算出し、前記ＳＮ比算出手段で算出したＳＮ比が閾値以下かつ前記一又は複数の他の自動音量制御装置から供給されるＳＮ比が全て前記閾値未満のとき前記雑音レベルが前記目標音量レベルから前記一又は複数の他の自動音量制御装置から供給されるＳＮ比のうち最も高いＳＮ比だけ低い値となるように増幅率を算出する。

また、前記自動音量制御装置において、
前記音声レベル算出手段は、今回の入力音声信号フレームで算出した音声レベルを前回までの入力音声信号フレームで得た音声レベルにより平滑化して出力する。

また、前記自動音量制御装置において、
前記雑音レベル算出手段は、今回の入力音声信号フレームで算出した雑音レベルを前回までの入力音声信号フレームで得た雑音レベルにより平滑化して出力する。

また、前記自動音量制御装置において、
前記増幅率算出手段は、今回の入力音声信号フレームで算出した増幅率を前回までの入力音声信号フレームで得た増幅率により平滑化して出力する。

また、本発明の一実施態様による音声通信装置は、前記自動音量制御装置を複数備え、
前記複数の自動音量制御装置から出力される音声信号を混合するミキシング手段を、
有する。

本発明によれば、雑音レベルが大きくなりすぎることを抑制できる。

ひいては、ＳＮ比の悪い話者が存在しても他の話者の音声が聞き取り難くなることを低減することができる。

以下、図面に基づいて本発明の実施形態について説明する。

＜第１実施形態＞
図４は、自動音量制御装置の第１実施形態の構成例を示す。同図中、端子１１からの入力音声信号をＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ：音声活動判定）部１２に供給する。なお、音声信号は、例えばサンプリング周波数８ＫＨｚでサンプリングされ、１６０サンプル（２０ｍｓｅｃに相当）を１フレームとするデジタル音声信号である。

ＶＡＤ部１２は、例えば特許第３８４９１１６号に記載されたものであり、入力信号として環境騒音が重畳した音声信号が時系列順に与えられるフレーム毎に、電力、零交差率、パワースペクトルのピーク周波数、ピッチ周期等を用いて音声の特徴量を算出し、パワースペクトルのピーク周波数の高次成分のみの相違を基に音声の特徴量を算出し、上記２つの特徴量を基に音声か非音声（すなわち雑音）であるかを判定して、判定結果を音声信号と共に音声レベル更新部１３及び雑音レベル更新部１４に供給する。

音声レベル更新部１３は、今回フレームｎで音声部分と判定された場合、まず、今回フレームにおける音声レベルＶを（１）式にて求める。

（１）式において、ｉｎｐｕｔ（ｋ）は入力音声信号の振幅を、Ｍはフレーム長をそれぞれ表す。次に、音声レベルＶと、前回フレームの平均音声レベルＶ＿ａｖｅ（ｎ−１）とを、平滑化係数ＣＯＦ１を用いて平滑化を行い、今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）を求める。なお、今回フレームが非音声部分と判定された場合は、平均音声レベルＶ＿ａｖｅ（ｎ）は更新しない。この今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）を増幅率決定部１５に供給する。なお、平滑化係数ＣＯＦ１は例えば０．９０〜０．９９程度の値である。

Ｖ＿ａｖｅ（ｎ）＝Ｖ＿ａｖｅ（ｎ−１）×ＣＯＦ１＋Ｖ×（１．０−ＣＯＦ１）
…（２）
雑音レベル更新部１４は、今回フレームｎで非音声部分と判定された場合、まず、今回フレームにおける雑音レベルＮを（３）式にて求める。

次に、雑音レベルＮと、前回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ−１）とを、平滑化係数ＣＯＦ１を用いて平滑化を行い、今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）を求める。なお、今回フレームが音声部分と判定された場合は、平均雑音レベルＮ＿ａｖｅ（ｎ）は更新しない。この今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）を増幅率決定部１５に供給する。

Ｎ＿ａｖｅ（ｎ）＝Ｎ＿ａｖｅ（ｎ−１）×ＣＯＦ１＋Ｎ×（１．０−ＣＯＦ１）
…（４）
増幅率決定部１５は、平均音声レベルＶ＿ａｖｅ（ｎ）と、平均雑音レベルＮ＿ａｖｅ（ｎ）と、予め決定されており上位装置から端子１６を介して供給される目標音量レベルから、今回フレームのゲインｓ＿ｇａｉｎを決定してゲイン乗算部１７に供給する。

ゲイン乗算部１７は、端子１１から供給される入力音声信号に増幅率決定部１５からの増幅率を乗算して端子１８から出力音声信号ｏｕｐｕｔ（ｋ）を出力する。

ｏｕｔｐｕｔ（ｋ）＝ｉｎｐｕｔ（ｋ）×ｓ＿ｇａｉｎ
（ただし、ｋ＝１，２…Ｍ） …（５）
なお、増幅率決定部１５は、フレーム境界で増幅率が急激に変化することを防ぐため、例えば以下のように増幅率をサンプル単位で滑らかに変動させる構成としても良い。ここで、ｎフレームのｋサンプル目におけるゲインをｇａｉｎ（ｎ，ｋ）とし、ｎフレームのみで求めた瞬時ゲインをｓ＿ｇａｉｎとし、平滑化係数をＣＯＦ２とする。なお、平滑化係数ＣＯＦ２は例えば０．９０〜０．９９程度の値である。

ｇａｉｎ（ｎ，ｋ）＝ｇａｉｎ（ｎ，ｋ−１）×ＣＯＦ２
＋ｓ＿ｇａｉｎ×（１．０−ＣＯＦ２） …（６）
この場合、出力音声信号ｏｕｔｐｕｔ（ｋ）は以下のようになる。

ｏｕｔｐｕｔ（ｋ）＝ｉｎｐｕｔ（ｋ）×ｇａｉｎ（ｎ，ｋ）
（ただし、ｋ＝１，２…Ｍ） …（７）
＜増幅率決定部の構成＞
図５は、増幅率決定部１５の一実施形態の構成例を示す。同図中、増幅率決定部１５は、ＳＮ比算出部２１と増幅率算出部２２から構成されている。

ＳＮ比算出部２１は、音声レベル更新部１３からの今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）と、雑音レベル更新部１４からの今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）からＳＮ比を算出して増幅率算出部２２に供給する。

増幅率算出部２２は、音声レベル更新部１３からの今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）と、雑音レベル更新部１４からの今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）と、ＳＮ比算出部２１からのＳＮ比と、上位装置からの目標音量レベルから今回フレームのゲインｓ＿ｇａｉｎを算出する。

＜増幅率算出部２２の動作＞
図６は、増幅率算出部２２が実行する処理の一例のフローチャートを示す。同図中、ステップＳ１で、増幅率算出部２２は、ＳＮ比算出部２１から供給されるＳＮ比が閾値以上か否かを判別する。ここで、閾値は例えば１２ｄＢ程度の値として予め設定されている。

ＳＮ比が閾値以上であれば、ステップＳ２で今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）が、目標音量レベルとなるような今回フレームのゲインｓ＿ｇａｉｎを算出する。

一方、ＳＮ比が閾値未満であれば、ステップＳ３で今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）が、目標音量レベルから閾値を減算した値（目標音量レベル−閾値）となるよう今回フレームのゲインｓ＿ｇａｉｎを算出する。

＜多地点音声通信システムの音声通信装置の構成＞
図７は、多地点音声通信システムにおける音声通信装置の受話側部分の第１実施形態のブロック図を示す。同図中、音声通信装置２０の端子２１−１〜２１−ｎには複数の話者から受信した符号化音声信号が供給され、各符号化音声信号は音声復号部２２−１〜２２−ｎそれぞれで復号される。復号された各音声信号はＡＧＣ部２３−１〜２３−ｎそれぞれに供給される。

ＡＧＣ部２３−１〜２３−ｎそれぞれは、図４及び図５に示す構成で図６に示す動作を行う自動音量制御装置であり、各音声信号の音量制御を行って出力音声信号をミキシング部２４に供給する。ミキシング部２４は、ＡＧＣ部２３−１〜２３−ｎそれぞれから供給される音声信号を混合して端子２５から出力する。

＜具体的な音量制御動作＞
ここで、図７において、ｎ＝３とした場合の具体的な音量制御動作について説明する。ＡＧＣ部２３−１〜２３−３それぞれに与える目標音量レベルを−２４ｄＢｏｖ（ｏｖ：ｏｖｅｒｌｏａｄ，最大値と比較してどれだけ小さいかのｄＢ表示）、ＳＮ比の閾値＝１２ｄＢとする。

図８に示すように、ＡＧＣ部２３−１に入力される第１話者の音声レベルが−３０ｄＢｏｖで、雑音レベルが−５４ｄＢｏｖで、ＳＮ比が２４ｄＢであり、ＡＧＣ部２３−２に入力される第２話者の音声レベルが−４２ｄＢｏｖで、雑音レベルが−４８ｄＢｏｖで、ＳＮ比が６ｄＢであり、ＡＧＣ部２３−３に入力される第３話者の音声レベルが−１８ｄＢｏｖで、雑音レベルが−３６ｄＢｏｖで、ＳＮ比が１８ｄＢである場合を考える。

ＡＧＣ部２３−１では、ＳＮ比＝２４ｄＢが閾値＝１２ｄＢ以上であるため、音声レベル＝−３０ｄＢｏｖを目標音量レベル＝−２４ｄＢｏｖとするように、増幅率＝６ｄＢ（増幅）が算出される。この結果、ＡＧＣ部２３−１の出力する第１話者の音声レベルは−２４ｄＢｏｖ、雑音レベルが−４８ｄＢｏｖ、ＳＮ比が２４ｄＢとなる。

ＡＧＣ部２３−２では、ＳＮ比＝６ｄＢが閾値＝１２ｄＢ未満であるため、雑音レベル＝−４８ｄＢｏｖを目標音量レベル−１２ｄＢ＝−３６ｄＢｏｖとするように、増幅率＝１２ｄＢ（増幅）が算出される。この結果、ＡＧＣ部２３−２の出力する第２話者の音声レベルは−３０ｄＢｏｖ、雑音レベルが−３６ｄＢｏｖ、ＳＮ比が６ｄＢとなる。

ＡＧＣ部２３−３では、ＳＮ比＝１８ｄＢが閾値＝１２ｄＢ以上であるため、音声レベル＝−１８ｄＢｏｖを目標音量レベル＝−２４ｄＢｏｖとするように、増幅率＝−６ｄＢ（減衰）が算出される。この結果、ＡＧＣ部２３−３の出力する第３話者の音声レベルは−２４ｄＢｏｖ、雑音レベルが−４２ｄＢｏｖ、ＳＮ比が１８ｄＢとなる。

このように、ＳＮ比が良い話者に対しては音声レベルが目標音量レベルとなるようにゲインを決定し、ＳＮ比が悪い話者に対しては雑音レベルが目標音量レベルから閾値を減算した値より大きくならないようにゲインを決定することで、第１話者と第３話者について一定以上のＳＮ比を確保でき、ＳＮ比が悪い第２話者の影響によって他の話者の音声が聞き取りにくくなる問題を生じず、良好な通話が可能となる。

これに対し、従来のように入力音声を目標音量レベルに調節するだけの技術では、図９に示すように、目標音量レベルを−２４ｄＢｏｖとして、第１〜第３話者から図８と同様の入力音声があった場合、第１，第３話者の増幅率は図８の例と変わらないものの、第２話者の増幅率は１８ｄＢとなって雑音レベルが−３０ｄＢｏｖとなり、この結果、第１，第３話者の音声が聞き取りにくくなる。

＜第２実施形態＞
図１０は、自動音量制御装置の第２実施形態の構成例を示す。同図中、図４と同一部分には同一符号を付す。

図１０において、端子１１からの入力音声信号をＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ：音声活動判定）部１２に供給する。なお、音声信号は、例えばサンプリング周波数８ＫＨｚでサンプリングされ、１６０サンプル（２０ｍｓｅｃに相当）を１フレームとするデジタル音声信号である。

音声レベル更新部１３は、今回フレームｎで音声部分と判定された場合、まず、今回フレームにおける音声レベルＶを（１）式にて求める。
次に、音声レベルＶと、前回フレームの平均音声レベルＶ＿ａｖｅ（ｎ−１）とを、平滑化係数ＣＯＦ１を用いて平滑化を行い、今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）を求める。なお、今回フレームが非音声部分と判定された場合は、平均音声レベルＶ＿ａｖｅ（ｎ）は更新しない。この今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）を増幅率決定部３５に供給する。なお、平滑化係数ＣＯＦ１は例えば０．９０〜０．９９程度の値である。

Ｖ＿ａｖｅ（ｎ）＝Ｖ＿ａｖｅ（ｎ−１）×ＣＯＦ１＋Ｖ×（１．０−ＣＯＦ１）
…（２）
雑音レベル更新部１４は、今回フレームｎで非音声部分と判定された場合、まず、今回フレームにおける雑音レベルＮを（３）式にて求める。
次に、雑音レベルＮと、前回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ−１）とを、平滑化係数ＣＯＦ１を用いて平滑化を行い、今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）を求める。なお、今回フレームが音声部分と判定された場合は、平均雑音レベルＮ＿ａｖｅ（ｎ）は更新しない。この今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）を増幅率決定部３５に供給する。

Ｎ＿ａｖｅ（ｎ）＝Ｎ＿ａｖｅ（ｎ−１）×ＣＯＦ１＋Ｎ×（１．０−ＣＯＦ１）
…（４）
増幅率決定部３５は、平均音声レベルＶ＿ａｖｅ（ｎ）と、平均雑音レベルＮ＿ａｖｅ（ｎ）と、予め決定されており上位装置から端子１６を介して供給される目標音量レベルと、端子３６を介して供給される他の自動音量制御装置から供給される他の話者のＳＮ比から、今回フレームのゲインｓ＿ｇａｉｎを決定してゲイン乗算部１７に供給する。

ゲイン乗算部１７は、端子１１から供給される入力音声信号に増幅率決定部３５からの増幅率を乗算して端子１８から出力音声信号ｏｕｐｕｔ（ｋ）出力する。

ｏｕｔｐｕｔ（ｋ）＝ｉｎｐｕｔ（ｋ）×ｓ＿ｇａｉｎ
（ただし、ｋ＝１，２…Ｍ） …（５）
なお、増幅率決定部３５は、フレーム境界で増幅率が急激に変化することを防ぐため、例えば以下のように増幅率をサンプル単位で滑らかに変動させる構成としても良い。ここで、ｎフレームのｋサンプル目におけるゲインをｇａｉｎ（ｎ，ｋ）とし、ｎフレームのみで求めた瞬時ゲインをｓ＿ｇａｉｎとし、平滑化係数をＣＯＦ２とする。なお、平滑化係数ＣＯＦ２は例えば０．９０〜０．９９程度の値である。

ｏｕｔｐｕｔ（ｋ）＝ｉｎｐｕｔ（ｋ）×ｇａｉｎ（ｎ，ｋ）
（ただし、ｋ＝１，２…Ｍ） …（７）
＜増幅率決定部の構成＞
図１１は、増幅率決定部３５の一実施形態の構成例を示す。同図中、図５と同一部分には同一符号を付す。図１１において、増幅率決定部３５は、ＳＮ比算出部２１とＳＮ比比較部３７と増幅率算出部３８から構成されている。

ＳＮ比算出部２１は、音声レベル更新部１３からの今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）と、雑音レベル更新部１４からの今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）からＳＮ比を算出してＳＮ比比較部３７に供給する。

ＳＮ比比較部３７は、ＳＮ比算出部２１で算出した自装置の話者のＳＮ比を閾値及び他の話者のＳＮ比と比較して、比較結果を自装置の話者のＳＮ比と閾値と他の話者のＳＮ比と共に増幅率算出部３８に供給する。

増幅率算出部３８は、音声レベル更新部１３からの今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）と、雑音レベル更新部１４からの今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）と、ＳＮ比算出部２１からのＳＮ比と、上位装置からの目標音量レベルと、ＳＮ比比較部３７からの比較結果と、自装置の話者のＳＮ比と、閾値と、一又は複数の他の話者のＳＮ比から今回フレームのゲインｓ＿ｇａｉｎを算出する。

＜増幅率算出部３８の動作＞
図１２は、増幅率算出部３８が実行する処理の一例のフローチャートを示す。同図中、ステップＳ１１で、増幅率算出部３８は、ＳＮ比算出部２１から供給される比較結果から自装置の話者のＳＮ比が一又は複数の他の話者のＳＮ比の中で最も高いか否かを判別し、自装置の話者のＳＮ比が最も高い場合には、ステップＳ１２で今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）が目標音量レベルとなるような今回フレームのゲインｓ＿ｇａｉｎを算出する。

一方、自装置の話者のＳＮ比より他の話者のＳＮ比が高い場合には、ステップＳ１３で今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）が目標音量レベルからＳＮ比が最も高い他の話者のＳＮ比を減算した値（目標音量レベル−ＳＮ比が最大の話者のＳＮ比）となるような今回フレームのゲインｓ＿ｇａｉｎを算出する。

＜多地点音声通信システムの音声通信装置の構成＞
図１３は、多地点音声通信システムにおける音声通信装置の受話側部分の第２実施形態のブロック図を示す。同図中、図７と同一部分には同一符号を付す。

図１３において、音声通信装置２０の端子２１−１〜２１−ｎには複数の話者から受信した符号化音声信号が供給され、各符号化音声信号は音声復号部２２−１〜２２−ｎそれぞれで復号される。復号された各音声信号はＡＧＣ部４３−１〜４３−ｎそれぞれに供給される。

ＡＧＣ部４３−１〜４３−ｎそれぞれは、図１０及び図１１に示す構成で図１２（又は図１５）に示す動作を行う自動音量制御装置であり、各音声信号の音量制御を行って出力音声信号をミキシング部２４に供給すると共に、自装置の話者のＳＮ比を求めて他の全ての自動音量制御装置に供給する。ミキシング部２４は、ＡＧＣ部４３−１〜４３−ｎそれぞれから供給される音声信号を混合して端子２５から出力する。

＜具体的な音量制御動作＞
ここで、図１３において、ｎ＝３とした場合の具体的な音量制御動作について説明する。ＡＧＣ部４３−１〜２３−３それぞれに与える目標音量レベルを−２４ｄＢｏｖ（ｏｖ：ｏｖｅｒｌｏａｄ，最大値と比較してどれだけ小さいかのｄＢ表示）、ＳＮ比の閾値＝１２ｄＢとする。

図１４に示すように、ＡＧＣ部４３−１に入力される第１話者の音声レベルが−３０ｄＢｏｖで、雑音レベルが−４０ｄＢｏｖで、ＳＮ比が１０ｄＢであり、ＡＧＣ部４３−２に入力される第２話者の音声レベルが−４２ｄＢｏｖで、雑音レベルが−４８ｄＢｏｖで、ＳＮ比が６ｄＢであり、ＡＧＣ部４３−３に入力される第３話者の音声レベルが−１８ｄＢｏｖで、雑音レベルが−２６ｄＢｏｖで、ＳＮ比が８ｄＢである場合を考える。

この場合、ＡＧＣ部４３−１の出力する第１話者のＳＮ比が最も高い。ＡＧＣ部４３−１では、ＳＮ比が最も高いため、音声レベル＝−３０ｄＢｏｖを目標音量レベル＝−２４ｄＢｏｖとするように、増幅率＝６ｄＢ（増幅）が算出される。この結果、ＡＧＣ部４３−１の出力する第１話者の音声レベルは−２４ｄＢｏｖ、雑音レベルが−３４ｄＢｏｖ、ＳＮ比が１０ｄＢとなる。

ＡＧＣ部４３−２では、自装置の第２話者のＳＮ比（６ｄＢ）より第１話者のＳＮ比（１０ｄＢ）が高いため、雑音レベル＝−４８ｄＢｏｖを目標音量レベル（−２４ｄＢｏｖ）−第１話者のＳＮ比（１０ｄＢ）＝−３４ｄＢｏｖとするように、増幅率＝１４ｄＢ（増幅）が算出される。この結果、ＡＧＣ部４３−２の出力する第２話者の音声レベルは−２８ｄＢｏｖ、雑音レベルが−３４ｄＢｏｖ、ＳＮ比が６ｄＢとなる。

ＡＧＣ部４３−３では、自装置の第３話者のＳＮ比（８ｄＢ）より第１話者のＳＮ比（１０ｄＢ）が高いため、雑音レベル＝−２６ｄＢｏｖを目標音量レベル（−２４ｄＢｏｖ）−第１話者のＳＮ比（１０ｄＢ）＝−３４ｄＢｏｖとするように、増幅率＝−８ｄＢ（減衰）が算出される。この結果、ＡＧＣ部４３−３の出力する第３話者の音声レベルは−２６ｄＢｏｖ、雑音レベルが−３４ｄＢｏｖ、ＳＮ比が８ｄＢとなる。

このように、ＳＮ比が良い話者に対しては音声レベルが目標音量レベルとなるようにゲインを決定し、ＳＮ比が悪い話者に対しては雑音レベルが目標音量レベルからＳＮ比が最も高い話者のＳＮ比を減算した値より大きくならないようにゲインを決定することで、ＳＮ比が最も高い話者のＳＮ比を維持することができ、ＳＮ比が悪い話者の影響によって他の話者の音声が聞き取りにくくなる問題を生じず、良好な通話が可能となる。

＜増幅率算出部３８の他の動作＞
図１５は、増幅率算出部３８が実行する処理の他の例のフローチャートを示す。同図中、ステップＳ２１で、増幅率算出部３８は、ＳＮ比算出部２１から供給される比較結果からＳＮ比が閾値以上か否かを判別する。ここで、閾値は例えば１２ｄＢ程度の値として予め設定されている。

ＳＮ比が閾値以上であれば、ステップＳ２２で今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）が目標音量レベルとなるような今回フレームのゲインｓ＿ｇａｉｎを算出する。

一方、ＳＮ比が閾値未満であれば、ステップＳ２３で自装置の話者のＳＮ比が一又は複数の他の話者のＳＮ比の中で最も高いか否かを判別し、自装置の話者のＳＮ比が最も高い場合にはステップＳ２２で今回フレームの平均音声レベルＶ＿ａｖｅ（ｎ）が目標音量レベルとなるような今回フレームのゲインｓ＿ｇａｉｎを算出する。

ステップＳ２３で自装置の話者のＳＮ比より他の話者のＳＮ比が高い場合にはステップＳ２４でＳＮ比が閾値以上の他の話者が存在するか否かを判別し、閾値以上の他の話者が存在する場合には、ステップＳ２５で今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）が目標音量レベルから閾値を減算した値（目標音量レベル−閾値）となるような今回フレームのゲインｓ＿ｇａｉｎを算出する。

ステップＳ２４で閾値以上の他の話者が存在しない場合には、ステップＳ２６で今回フレームの平均雑音レベルＮ＿ａｖｅ（ｎ）が目標音量レベルからＳＮ比が最も高い他の話者のＳＮ比を減算した値（目標音量レベル−ＳＮ比が最大の話者のＳＮ比）となるような今回フレームのゲインｓ＿ｇａｉｎを算出する。

つまり、全ての話者のＳＮ比が閾値未満のときはＳＮ比が最も高い話者のＳＮ比を閾値とみなして、全ての自動音量制御装置のＳＮ比を最も高い話者のＳＮ比に合わせるようにしている。

このように、ＳＮ比が良い話者に対しては音声レベルが目標音量レベルとなるようにゲインを決定し、ＳＮ比が悪い話者に対しては雑音レベルが目標音量レベルからＳＮ比が最も高い話者のＳＮ比を減算した値より大きくならないようにゲインを決定することで、ＳＮ比が良好な話者について一定以上のＳＮ比を確保でき、ＳＮ比が悪い話者の影響によって他の話者の音声が聞き取りにくくなる問題を生じず、良好な通話が可能となる。

従来の自動音量制御装置の一例のブロック図である。従来の音声通信装置の受話側部分の一例のブロック図である。従来の音声通信装置の問題を説明するための図である。自動音量制御装置の第１実施形態の構成例を示す図である。増幅率決定部１５の一実施形態の構成例を示す図である。増幅率算出部２２が実行する処理の一例のフローチャートである。多地点音声通信システムにおける音声通信装置の受話側部分の第１実施形態のブロック図である。第１実施形態の自動音量制御の様子を説明するための図である。従来の自動音量制御の様子を説明するための図である。自動音量制御装置の第２実施形態の構成例を示す図である。増幅率決定部３５の一実施形態の構成例を示す図である。増幅率算出部３８が実行する処理の一例のフローチャートである。多地点音声通信システムにおける音声通信装置の受話側部分の第２実施形態のブロック図である。第２実施形態の自動音量制御の様子を説明するための図である。増幅率算出部３８が実行する処理の他の例のフローチャートである。

符号の説明

１２ＶＡＤ部
１３音声レベル更新部
１４雑音レベル更新部
１５，３５増幅率決定部
１７ゲイン乗算部
２１ＳＮ比算出部
２２，３８増幅率算出部
２３−１〜２３−ｎ，４３−１〜４３−ｎＡＧＣ部
２４ミキシング部
３７ＳＮ比比較部
１２サービスエリア

Claims

入力音声信号の音声部分と非音声部分を判定する音声判定手段と、
前記入力音声信号の音声部分における音声レベルを算出する音声レベル算出手段と、
前記入力音声信号の非音声部分における雑音レベルを算出する雑音レベル算出手段と、
前記音声レベルと前記雑音レベルから前記入力音声信号のＳＮ比を算出するＳＮ比算出手段と、
前記音声レベルと前記雑音レベルと前記ＳＮ比と予め設定されている目標音量レベルから前記入力音声信号の増幅率を算出する増幅率算出手段と、
前記入力音声信号を前記増幅率で増幅して出力する増幅手段と、
を有し、
前記増幅率算出手段は、前記ＳＮ比が閾値以上のとき前記音声レベルが前記目標音量レベルとなるように増幅率を算出し、前記ＳＮ比が閾値未満のとき前記雑音レベルが前記目標音量レベルから前記閾値だけ低い値となるように増幅率を算出する、
ことを特徴とする自動音量制御装置。
入力音声信号の音声部分と非音声部分を判定する音声判定手段と、
前記入力音声信号の音声部分における音声レベルを算出する音声レベル算出手段と、
前記入力音声信号の非音声部分における雑音レベルを算出する雑音レベル算出手段と、
前記音声レベルと前記雑音レベルから前記入力音声信号のＳＮ比を算出するＳＮ比算出手段と、
前記音声レベルと前記雑音レベルと前記ＳＮ比算出手段で算出したＳＮ比と予め設定されている目標音量レベルと一又は複数の他の自動音量制御装置から供給されるＳＮ比から前記入力音声信号の増幅率を算出する増幅率算出手段と、
前記入力音声信号を前記増幅率で増幅して出力する増幅手段と、
を有し、
前記増幅率算出手段は、前記ＳＮ比算出手段で算出したＳＮ比が前記一又は複数の他の自動音量制御装置から供給されるＳＮ比以上のとき前記音声レベルが前記目標音量レベルとなるように増幅率を算出し、前記ＳＮ比算出手段で算出したＳＮ比が前記一又は複数の他の自動音量制御装置から供給されるＳＮ比未満のとき前記雑音レベルが前記目標音量レベルから最も高いＳＮ比だけ低い値となるように増幅率を算出する、
ことを特徴とする自動音量制御装置。
請求項２記載の自動音量制御装置において、
前記増幅率算出手段は、前記ＳＮ比算出手段で算出したＳＮ比が閾値以上のとき又は前記一又は複数の他の自動音量制御装置から供給されるＳＮ比以上のとき前記音声レベルが前記目標音量レベルとなるように増幅率を算出し、前記ＳＮ比算出手段で算出したＳＮ比が閾値以下かつ前記一又は複数の他の自動音量制御装置から供給されるＳＮ比のいずれかが前記閾値以上のとき前記雑音レベルが前記目標音量レベルから前記閾値だけ低い値となるように増幅率を算出し、前記ＳＮ比算出手段で算出したＳＮ比が閾値以下かつ前記一又は複数の他の自動音量制御装置から供給されるＳＮ比が全て前記閾値未満のとき前記雑音レベルが前記目標音量レベルから前記一又は複数の他の自動音量制御装置から供給されるＳＮ比のうち最も高いＳＮ比だけ低い値となるように増幅率を算出する、
ことを特徴とする自動音量制御装置。
請求項１乃至３のいずれか１項記載の自動音量制御装置において、
前記音声レベル算出手段は、今回の入力音声信号フレームで算出した音声レベルを前回までの入力音声信号フレームで得た音声レベルにより平滑化して出力する、
ことを特徴とする自動音量制御装置。
請求項１乃至４のいずれか１項記載の自動音量制御装置において、
前記雑音レベル算出手段は、今回の入力音声信号フレームで算出した雑音レベルを前回までの入力音声信号フレームで得た雑音レベルにより平滑化して出力する、
ことを特徴とする自動音量制御装置。
請求項１乃至５のいずれか１項記載の自動音量制御装置において、
前記増幅率算出手段は、今回の入力音声信号フレームで算出した増幅率を前回までの入力音声信号フレームで得た増幅率により平滑化して出力する、
ことを特徴とする自動音量制御装置。
請求項１乃至６のいずれか１項記載の自動音量制御装置を複数備え、
前記複数の自動音量制御装置から出力される音声信号を混合するミキシング手段を、
有することを特徴とする音声通信装置。