JP3896654B2 - 音声信号区間検出方法及び装置 - Google Patents
音声信号区間検出方法及び装置 Download PDFInfo
- Publication number
- JP3896654B2 JP3896654B2 JP28545797A JP28545797A JP3896654B2 JP 3896654 B2 JP3896654 B2 JP 3896654B2 JP 28545797 A JP28545797 A JP 28545797A JP 28545797 A JP28545797 A JP 28545797A JP 3896654 B2 JP3896654 B2 JP 3896654B2
- Authority
- JP
- Japan
- Prior art keywords
- input signal
- level
- minimum level
- unit
- background noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、入力信号が有声音又は無声音からなる音声信号区間であるか或いは背景雑音区間であるかを検出する音声信号区間検出方法及び装置に関する。
【0002】
【従来の技術】
近年、普及が著しい携帯用電話装置は、室外で使用する事が多いので、周囲の背景雑音により、しばしば通話が聞きずらくなることがある。これは、雑音によるマスキング効果によって受話者の最少可聴値が上昇してしまい、受話音声の明瞭度や了解度が劣化するためである。これに対して、送話側では雑音の抑圧又は話者の声量のアップ、受話側では再生音量のアップ、又全体として話者と電話器の密接な音響カップリング等が必要になる。このため、携帯用電話装置には回りの環境に応じて受話音量を手動で切り換えるスイッチがある。
【0003】
ところで、上述したように携帯用電話装置を使用する際、回りの環境に応じて受話音量を手動で切り換えるのは面倒である。この受話音量の切り換えを自動で行えるようになれば便利である。
【0004】
この受話音量の切り換えを自動で行おうとする場合、回りの雑音レベルを正確に検出できるか否かが問題となってくる。通話中に入力音声用(送話用)のマイクロフォンから混入する雑音には様々なものがあるがこれらの雑音(以下背景雑音という)と音声信号区間を分離するには、ある適当なレベルを予め設定し、そのレベル以上であれば音声信号区間とし、それ以下であれば背景雑音区間とするという方法があった。
【0005】
【発明が解決しようとする課題】
ところで、上記背景雑音区間検出方法では、設定されたレベル以下の音声が入力されれば、それは背景雑音であると判断されてしまう。逆に背景雑音のレベルが、設定されたレベルよりも高いときは、背景雑音と判断されることがない。このように、背景雑音区間を音声信号区間と区別するのは、従来から困難であった。
【0006】
本発明は、上記実情に鑑みてなされたものであり、背景雑音のレベルによることなく、音声信号区間と背景雑音区間との高精度な区別が可能な音声信号区間検出方法及び装置の提供を目的とする。
【0007】
【課題を解決するための手段】
本発明に係る音声信号区間検出方法は、上記課題を解決するために、所定時間区間で入力信号から最小レベルを検出し、この最小レベルを保持する最小レベル演算工程と、立ち上がりは上記入力信号と同様に立ち上がり、立ち下がりは緩やかに減少していくリファレンスレベルを前記入力信号から演算により求めるリファレンスレベル演算工程と、上記最小レベル演算工程からの最小レベルと上記リファレンスレベル演算工程からのリファレンスレベルとを比較する比較工程と、上記入力信号が有声音であるか無声音であるかを判定する有声音/無声音判定工程と、上記有声音/無声音判定工程の結果と上記比較工程の結果に基づいて上記入力信号の音声信号区間を検出する工程とを備える。
【0008】
このため、最小レベルを更新しながら、それを元に音声信号区間と背景雑音区間とのしきい値(スレショルド)を変化できるので、このスレショルドとリファレンスレベルを比較することにより音声信号区間と背景雑音区間との高精度な区別を可能とする。
【0009】
また、上記入力信号が有声音であるか無声音であるかを判定する有声音/無声音判定工程を備え、上記最小レベル演算工程はこの有声音/無声音判定工程からの判定結果に基づいて上記最小レベルを演算する。
【0010】
また、上記有声音/無声音判定工程からの判定結果に基づいて上記音声信号区間を検出する。具体的には、上記最小レベル演算工程からの最小レベルと上記リファレンスレベル演算工程からのリファレンスレベルとを比較する比較工程を備え、この比較工程からの比較結果と上記有声音/無声音判定工程からの判定結果に基づいて、入力信号の音声信号区間を検出する。
【0011】
また、本発明に係る音声信号区間検出装置は、上記課題を解決するために、所定時間区間で入力信号から最小レベルを検出し、この最小レベルを保持する最小レベル演算手段と、立ち上がりは上記入力信号と同様に立ち上がり、立ち下がりは緩やかに減少していくリファレンスレベルを前記入力信号から演算により求めるリファレンスレベル演算手段と、上記最小レベル演算手段からの最小レベルと上記リファレンスレベル演算手段からのリファレンスレベルとを比較する比較手段と、上記入力信号が有声音であるか無声音であるかを判定する有声音/無声音判定手段と、上記有声音/無声音判定手段の結果と上記比較手段の結果に基づいて上記入力信号の音声信号区間を検出する手段とを備える。
【0012】
このため、最小レベルを更新しながら、それを元に音声信号区間と背景雑音区間とのしきい値(スレショルド)を変化できるので、このスレショルドとリファレンスレベルを比較することにより音声信号区間と背景雑音区間との高精度な区別を可能とする。
【0013】
【発明の実施の形態】
以下、本発明に係る音声信号区間検出方法及び装置の実施の形態について図面を参照しながら説明する。
【0014】
この実施の形態は、本発明に係る音声信号区間検出方法の上記各工程を適用して実行する音声信号区間検出装置の具体例となる図1に示す入力信号判定装置21である。
【0015】
図1において、この入力信号判定装置21は、入力端子1から実効(root mean square、r.m.s)値演算部2を介して入力された入力信号(実効値)の最小レベルを所定時間区間、例えば20msecで検出し、この最小レベルを保持する最小レベル演算部4と、上記実効値演算部2からの入力信号実効値からリファレンスレベルを演算により求めるリファレンスレベル演算部5とを備え、最小レベル演算部4からの最小レベルとリファレンスレベル演算部5からのリファレンスレベルとに基づいて上記入力信号が所定時間区間で有声音(Voice)、又は無声音(UnVoice)であるか、又は背景雑音であるかを判定する。そして、上記無声音であることを示す“0”、上記背景雑音であることを示す“1”、第1有声音であることを示す“2”、又は第2有声音であることを示す“3”というV/UV判定の結果を示すidVUVパラメータを出力する。
【0016】
また、この入力信号判定装置21は、上記実効値演算部2からの入力信号実効値の所定時間区間分に対して仮に有声音(V)/無声音(UV)とを判定するV/UV判定部3を備え、最小レベル演算部4にV/UV判定結果を供給する。最小レベル演算部4は、このV/UV判定結果に基づいて上記最小レベルを演算する。
【0017】
また、V/UV判定部3からのV/UV判定結果はパラメータ生成部8にも供給される。このパラメータ生成部8は、出力端子105から上記idVUVパラメータを出力する。
【0018】
このパラメータ生成部8は、最小レベル演算部4からの最小レベルとリファレンスレベル演算部5からのリファレンスレベルとを比較する比較部7からの比較結果と、上記V/UV判定部3からのV/UV判定結果に基づいて上記idVUVパラメータを出力する。
【0019】
以下、この入力信号判定装置21の動作について説明する。
例えば、走行している電車の中では、背景雑音のレベルが高い。そこで、周りの雑音に合わせてしきい値(スレショルド)を決定することが望ましい。
【0020】
そこで、上記最小レベル演算部4では、適当な所定時間区間で一番小さいレベルを最小レベルとし、その最小レベルを上記所定時間毎に更新していく。
【0021】
図2は、最小レベル演算部4のアルゴリズムを示すフローチャートである。このフローチャートでは、最小レベルの更新(トラッキング)を、最小レベル候補値cdLevのセットとクリア、及び最小レベルgmlのセットとクリアに大きく分けている。
【0022】
先ず、ステップS1で、V/UV判定部3からのV/UV判定結果に基づいて有声音フレームの連続回数vContが4より多い整数となるかを判断する。すなわち、有声音Vと判断されたフレームが4より大きな整数回、つまり5フレーム連続したか否かを判断する。ここで、有声音フレームが5フレーム以上連続している場合は、音声区間に入っていると判断し、ステップS2に進み、最小レベル候補値cdLevをクリアする。このステップS2では、候補値が設定され続けた回数gmlSetStateは0である。一方、ステップS1で、有声音フレームの連続回数vContが4以下であると判断すると、ステップS3に進む。
【0023】
ステップS3では、現在の入力信号の実効値演算部2を介した入力レベルlevが最小レベルの最低値MIN_GMLより小さいか否かを判断する。ここでいう、最小レベルの最低値MIN_GMLは、最小レベルgmlが0とならないように決定されている。ここで、入力レベルlevが最小レベルの最低値MIN_GMLより小さいと判断すると、ステップS4で上記最小レベルの最低値MIN_GMLを最小レベルgmlとして設定する。このステップS4では、候補値が設定され続けた回数gmlSetStateと、最小レベルが設定された後、候補値が設定されていない回数gmlResetStateとは0である。一方、ステップS3で現在の入力レベルlevは最小レベルの最低値MIN_GML以上であると判断するとステップS5に進む。
【0024】
ステップS5では、現在の入力レベルlevが最小レベルgmlより小さいか否かを判断する。ここでYESとなれば、ステップS6に進む。すなわち、このステップS6は、上記ステップS3の判断で現在の入力レベルlevが最小レベルの最低値MIN_GML以上であり、さらに上記ステップS5で現在の入力レベルlevが最小レベルgmlより小さいと判断されたときに、その入力レベルlevを最小レベルgmlとして設定する。一方、このステップS5で現在の入力レベルlevが最小レベルgml以上であると判断すると、ステップS7に進む。
【0025】
ステップS7では、現在の入力レベルが充分小さいか、候補値cdLevとの変動が小さいか否かを判断する。このステップS7では、現在の入力レベルが充分小さいか、候補値cdLevとの変動が小さいかという判断を、status0であるか否かで判断している。status0は、入力レベルlevが100.0以下というように充分小さいか、又は、入力レベルが500.0以下で候補値cdLev*0.70より大きく、かつ候補値cdLev*1.30より小さいというように候補値cdLevとの変動が小さいことを表す状態である。ここで、YESを選択し、現在の入力レベルが充分小さいか、又は候補値cdLevとの変動が小さいと判断すると、候補値cdLevが更新される。一方、NOを選択するとステップS11に進む。
【0026】
ステップS8では、候補値cdLevが更新され続けた回数gmlSetStateが7回以上であるか否か、すなわち候補値cdLevの更新が7フレーム連続するか否かを判断する。ここで、候補値cdLevの更新が7フレーム以上連続したと判断すれば、ステップS9に進み、そのときの入力レベルlevを最小レベルgmlとする。候補値cdLevの更新が6フレーム以内であれば、NOとなり、ステップS10で入力レベルlevを候補値cdLevとする。
【0027】
一方、ステップS7での判断でNOとなった後に進んだステップS11では、1フレーム過去の入力レベルprevLevと現在の入力レベルlevの変動が小さいか否かを判断する。この1フレーム過去の入力レベルprevLevと現在の入力レベルlevの変動が小さいか否かの判断は、status1であるか否かの判断で行っている。status1は、現在の入力レベルlevが100.0以下というように充分小さいか、又は現在の入力レベルlevが500.0以下で1フレーム過去の入力レベルprevLev*0.70より大きく、かつ1フレーム過去の入力レベルprevLev*1.30より小さいというように1フレーム過去の入力レベルprevLevとの変動が小さいことを表す状態である。ここで、YESを選択し、現在の入力レベルが充分小さいか、又は1フレーム過去の入力レベルと現在の入力レベルの変動が小さい場合には、ステップS12に進み、現在の入力レベルlevを最小レベル候補値cdLevに設定する。一方、ステップS11で現在の入力レベルが小さくないか、又は1フレーム過去の入力レベルと現在の入力レベルの変動が小さくないと判断すると、ステップS13に進む。
【0028】
ステップS13では、最小レベルが設定された後、候補値が設定されていない回数gmlResetStateが40より大きいか否かを判断する。ここで、NOとなり候補値が設定されていない回数gmlResetStateが40以下であるときには、ステップS14で最小レベル候補値cdLevをクリアし、予め定めた最小値をセットする。一方ここで、YESとなり、候補値が設定されていない回数gmlResetStateが40回を越えていると判断すると、ステップS15に進み、最小レベルgmlは最小レベルの最低値MIN_GMLに設定される。
【0029】
以上のように最小レベルはある時間保持され、順次更新される。
【0030】
次に、リファレンスレベル演算部5の動作について図3を用いて説明する。このリファレンスレベル演算部5は、リファレンスレベルrefLevを次の(1)式で算出する。
【0031】
refLev=A×max(lev,refLev)+(1.0−A)×min(lev,refLev)・・・(1)
この(1)式において、入力端子6から与えるA=0.75としたときの入力レベルlevとリファレンスレベルrefLevとの関係を図3に示す。リファレンスレベルrefLevは、立ち上がりは入力レベルlevと同様に立ち上がるが、立ち下がりでは緩やかに減少していく。このため、上記リファレンスレベルを用いることで、音声信号区間において、瞬間的にたまたまレベルが下がった状態を背景雑音区間として判定してしまうことを防いでいる。このように、リファレンスレベル演算部5は、瞬間的なレベル変動に対してもある程度余裕を持たせるような滑らかなレベルを演算する。
【0032】
比較部7は、最小レベル演算部4からの最小レベルに所定の定数Bを掛けたB×gmlと上記リファレンスレベル演算部5からのリファレンスレベルrefLevとを比較する。そして、その比較結果は、パラメータ生成部8に送られる。
【0033】
パラメータ生成部8は、V/UV判定部3での判定結果により、Vと判定されたフレームについては、上記(1)式に示したリファレンスレベルrefLevが最小レベルgmlのB倍より小さいか否かを調べ、小さいときには背景雑音区間と判断する。ただし、過去のV/UV判断を調べ、Vのフレームが2フレーム以上連続している場合は音声区間が始まっているものとし、背景雑音区間と判断することはない。すなわち、現在のフレームがVと判断されたときは、過去Vフレームが連続しているかを調べ、連続している場合には背景雑音モードに入らない。これは、Vフレームが連続しているときに背景雑音モードに入ると不連続感が生じるためである。
【0034】
また、パラメータ生成部8は、V/UV判定部3からの判定結果がUVと判定されたフレームについては、Vの場合と同様に、リファレンスレベルrefLevが最小レベルgmlのB倍より小さいかを調べ、この条件を4回満たした場合、背景雑音区間と判断する。すなわち、UVと判断された場合は、4フレーム連続で上記条件を満たした後、背景雑音区間と判断する。
【0035】
なお、上記Bは適当な定数であり、ここでは2.0と定める。また、このような定数とせずに入力レベルlevの分散に比例した量とすることも考えられる。
【0036】
そして、パラメータ生成部8は、出力端子105からidVUVパラメータを出力する。
【0037】
このようにして、入力信号判定装置21は、最小レベルgmlを更新しながら、それを元に音声信号区間と背景雑音区間とのしきい値(スレショルド)gml×Bを変化できるので、このスレショルドgml×BとリファレンスレベルrefLevを比較することにより音声信号区間と背景雑音区間との高精度な区別を可能とする。
【0038】
なお、この入力信号判定装置21は、図4に示すような、携帯電話装置の音声符号化装置20内に組み込むことができる。この携帯電話装置は、上記入力信号判定装置(図4では入力信号判定部とする)21による入力信号の判定結果を基に、音声符号化装置20での符号化のレートを可変する。
【0039】
この携帯電話装置は、送信時には、マイクロホン1から入力された音声信号を、A/D変換器10によりディジタル信号に変換し、音声符号化装置20により上記idVUVパラメータに基づいた可変レートの符号化を施し、伝送路符号化器22により伝送路の品質が音声品質に影響を受けにくいように符号化した後、変調器23で変調し、送信機24で出力ビットに送信処理を施し、アンテナ共用器25を通して、アンテナ26から送信する。
【0040】
また、受信時には、アンテナ26で捉えた電波を、アンテナ共用器25を通じて受信機27で受信し、復調器29で復調し、伝送路復号化器30で伝送路誤りを訂正し、音声復号化装置31で復号し、D/A変換器32でアナログ音声信号に戻して、スピーカ33から出力する。
【0041】
また、制御部34は上記各部をコントロールし、シンセサイザ28は送受信周波数を送信機24、及び受信機27に与えている。また、キーパッド35及びLCD表示器36はマンマシンインターフェースに利用される。
【0042】
次に、有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、入力信号判定部21の判定結果idVUVパラメータに基づいて、可変レートで符号化する音声符号化装置20について説明する。
【0043】
先ず、可変レートエンコードを説明しておく。符号化パラメータの一種であるLSP量子化インデクス、及び励起パラメータインデクスを、以下の表1に示すように、idVUV判定パラメータが“1”の背景雑音のときには、1フレーム20msec当たり0ビットにしてしまう。idVUV判定パラメータが“0”の無声音、“2,3”の有声音のときには、そのまま20mseec当たり18ビット、及び20ビットとする。これにより可変レートエンコードが実現できる。
【0044】
【表1】
【0045】
ここで、idVUV判定パラメータの内の、V/UV判定出力となる2ビットは、常に符号化されている。なお、無声音時の励起パラメータインデクスとしては、後述する雑音符号帳のコードブックのシェイプインデクスと、ゲインインデクスが挙げられる。上記LSP量子化インデクス、シェイプインデクス及びゲインインデクスについては後述する。
【0046】
この音声符号化装置の構成を図5、図6に示す。図5の音声符号化装置20の基本的な考え方は、入力音声信号の短期予測残差例えばLPC(線形予測符号化)残差を求めてサイン波分析(sinusoidal analysis )符号化、例えばハーモニックコーディング(harmonic coding )を行う第1の符号化部110と、入力音声信号に対して位相伝送を行う波形符号化により符号化する第2の符号化部120とを有し、入力信号の有声音(V:Voiced)の部分の符号化には第1の符号化部110を用い、入力信号の無声音(UV:Unvoiced)の部分の符号化には第2の符号化部120を用いるようにすることである。
【0047】
上記第1の符号化部110には、例えばLPC残差をハーモニック符号化やマルチバンド励起(MBE)符号化のようなサイン波分析符号化を行う構成が用いられる。上記第2の符号化部120には、例えば合成による分析法を用いて最適ベクトルのクローズトループサーチによるベクトル量子化を用いた符号励起線形予測(CELP)符号化の構成が用いられる。
【0048】
図5の例では、入力端子101に供給された音声信号が、第1の符号化部110のLPC逆フィルタ111及びLPC分析・量子化部113に送られている。LPC分析・量子化部113で得られたLPC係数あるいはいわゆるαパラメータは、LPC逆フィルタ111に送られて、このLPC逆フィルタ111により入力音声信号の線形予測残差(LPC残差)が取り出される。また、LPC分析・量子化部113からは、後述するようにLSP(線スペクトル対)の量子化出力が取り出され、これが出力端子102に送られる。LPC逆フィルタ111からのLPC残差は、サイン波分析符号化部114に送られる。サイン波分析符号化部114では、ピッチ検出やスペクトルエンベロープ振幅計算が行われると共に、上記入力信号判定部21と同一構成の入力信号判定部115により入力信号の上記idVUVパラメータが求められる。サイン波分析符号化部114からのスペクトルエンベロープ振幅データはベクトル量子化部116に送られる。スペクトルエンベロープのベクトル量子化出力としてのベクトル量子化部116からのコードブックインデクスは、スイッチ117を介して出力端子103に送られ、サイン波分析符号化部114からのピッチ出力は、スイッチ118を介して出力端子104に送られる。また、入力信号判定部115からのidVUV判定パラメータ出力は出力端子105に送られると共に、スイッチ117、118及び図3に示すスイッチ119の制御信号に使われる。スイッチ117、118は、上記制御信号により有声音(V)のとき上記インデクス及びピッチを選択して各出力端子103及び104からそれぞれ出力する。
【0049】
また、上記ベクトル量子化部116でのベクトル量子化の際には、例えば、周波数軸上の有効帯域1ブロック分の振幅データに対して、ブロック内の最後のデータからブロック内の最初のデータまでの値を補間するようなダミーデータ,又は最後のデータ及び最初のデータを延長するようなダミーデータを最後と最初に適当な数だけ付加してデータ個数をNF 個に拡大した後、帯域制限型のOS 倍(例えば8倍)のオーバーサンプリングを施すことによりOS 倍の個数の振幅データを求め、このOS 倍の個数((mMX+1)×OS 個)の振幅データを直線補間してさらに多くのNM 個(例えば2048個)に拡張し、このNM 個のデータを間引いて上記一定個数M(例えば44個)のデータに変換した後、ベクトル量子化している。
【0050】
図5の第2の符号化部120は、この例ではCELP(符号励起線形予測)符号化構成を有しており、雑音符号帳121からの出力を、重み付きの合成フィルタ122により合成処理し、得られた重み付き音声を減算器123に送り、入力端子101に供給された音声信号を聴覚重み付けフィルタ125を介して得られた音声との誤差を取り出し、この誤差を距離計算回路124に送って距離計算を行い、誤差が最小となるようなベクトルを雑音符号帳121でサーチするような、合成による分析(Analysis by Synthesis )法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。このCELP符号化は、上述したように無声音部分の符号化に用いられており、雑音符号帳121からのUVデータとしてのコードブックインデクスは、上記入力信号判定部115からのidVUV判定パラメータが無声音(UV)のときオンとなるスイッチ127を介して、出力端子107より取り出される。
【0051】
また、スイッチ127の制御信号となるidVUV判定パラメータが“1”となり入力信号が背景雑音信号であると判定したときには、所定時間、例えば8フレーム分の時間をおいて無声音時の複数のパラメータ、例えば雑音符号帳121からのUVデータとしてのシェイプインデクスやゲインインデクスを送る。
【0052】
次に、上記図5に示した音声信号符号化装置のより具体的な構成について、図3を参照しながら説明する。なお、図6において、上記図5の各部と対応する部分には同じ指示符号を付している。
【0053】
この図6に示された音声信号符号化装置において、入力端子101に供給された音声信号は、ハイパスフィルタ(HPF)109にて不要な帯域の信号を除去するフィルタ処理が施された後、LPC(線形予測符号化)分析・量子化部113のLPC分析回路132と、LPC逆フィルタ回路111とに送られる。
【0054】
LPC分析・量子化部113のLPC分析回路132は、入力信号波形の256サンプル程度の長さを1ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、160サンプル程度とする。サンプリング周波数fsが例えば8kHzのとき、1フレーム間隔は160サンプルで20msec となる。
【0055】
LPC分析回路132からのαパラメータは、α→LSP変換回路133に送られて、線スペクトル対(LSP)パラメータに変換される。これは、直接型のフィルタ係数として求まったαパラメータを、例えば10個、すなわち5対のLSPパラメータに変換する。変換は例えばニュートン−ラプソン法等を用いて行う。このLSPパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。
【0056】
α→LSP変換回路133からのLSPパラメータは、LSP量子化器134によりマトリクスあるいはベクトル量子化される。このとき、このLSP量子化器134は、リーキングファクタを有する差分ベクトル量子化(差分VQ)を行っても良い。差分VQの量子化効率はマトリクス量子化(MQ)に比べると優れており、また、MQのように量子化誤差が一方のフレームに偏ることがないため、滑らかで異音の少ない音声が得られる。しかし、差分VQでは一度エラーが起こると、その影響がしばらく続くので、差分のリーク量を大目にとるようにしている。しかし、入力信号判定部115で、背景雑音と判断されたときには、LSPは送らないので、LSP量子化器134では、差分量子化の一種である上記差分VQを行わない。
【0057】
このLSP量子化器134からの量子化出力、すなわちLSP量子化のインデクスは、スイッチ119によって切り換えられてから、端子102を介して取り出され、また量子化済みのLSPベクトルは、LSP補間回路136に送られる。ここで、スイッチ119は、上記入力信号判定部115からのidVUV判定フラグにより切り換えが制御され、例えば有声音(V)のときにオンとなる。
【0058】
また、LSP補間回路136は、20msec毎に量子化されたLSPのベクトルを補間し、8倍のレートにする。すなわち、2.5msec 毎にLSPベクトルが更新されるようにする。これは、残差波形をハーモニック符号化復号化方法により分析合成すると、その合成波形のエンベロープは非常になだらかでスムーズな波形になるため、LPC係数が20msec 毎に急激に変化すると異音を発生することがあるからである。すなわち、2.5msec 毎にLPC係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。
【0059】
このような補間が行われた2.5msec 毎のLSPベクトルを用いて入力音声の逆フィルタリングを実行するために、LSP→α変換回路137により、LSPパラメータを例えば10次程度の直接型フィルタの係数であるαパラメータに変換する。このLSP→α変換回路137からの出力は、上記LPC逆フィルタ回路111に送られ、このLPC逆フィルタ111では、2.5msec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。このLPC逆フィルタ111からの出力は、サイン波分析符号化部114、具体的には例えばハーモニック符号化回路、の直交変換回路145、例えばDFT(離散フーリエ変換)回路に送られる。
【0060】
LPC分析・量子化部113のLPC分析回路132からのαパラメータは、聴覚重み付けフィルタ算出回路139に送られて聴覚重み付けのためのデータが求められ、この重み付けデータが後述する聴覚重み付きのベクトル量子化器116と、第2の符号化部120の聴覚重み付けフィルタ125及び聴覚重み付きの合成フィルタ122とに送られる。
【0061】
ハーモニック符号化回路等のサイン波分析符号化部114では、LPC逆フィルタ111からの出力を、ハーモニック符号化の方法で分析する。すなわち、ピッチ検出、各ハーモニクスの振幅Amの算出、有声音(V)/無声音(UV)の判別を行い、ピッチによって変化するハーモニクスのエンベロープあるいは振幅Amの個数を次元変換して一定数にしている。
【0062】
図6に示すサイン波分析符号化部114の具体例においては、一般のハーモニック符号化を想定しているが、特に、MBE(Multiband Excitation: マルチバンド励起)符号化の場合には、同時刻(同じブロックあるいはフレーム内)の周波数軸領域いわゆるバンド毎に有声音(Voiced)部分と無声音(Unvoiced)部分とが存在するという仮定でモデル化することになる。それ以外のハーモニック符号化では、1ブロックあるいはフレーム内の音声が有声音か無声音かの択一的な判定がなされることになる。なお、以下の説明中のフレーム毎のV/UVとは、MBE符号化に適用した場合には全バンドがUVのときを当該フレームのUVとしている。ここで上記MBEの分析合成手法については、本件出願人が先に提案した特願平4−91422号明細書及び図面に詳細な具体例を開示している。
【0063】
図6のサイン波分析符号化部114のオープンループピッチサーチ部141には、上記入力端子101からの入力音声信号が、またゼロクロスカウンタ142には、上記HPF(ハイパスフィルタ)109からの信号がそれぞれ供給されている。サイン波分析符号化部114の直交変換回路145には、LPC逆フィルタ111からのLPC残差あるいは線形予測残差が供給されている。オープンループピッチサーチ部141では、入力信号のLPC残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、抽出された粗ピッチデータは高精度ピッチサーチ146に送られて、後述するようなクローズドループによる高精度のピッチサーチ(ピッチのファインサーチ)が行われる。また、オープンループピッチサーチ部141からは、上記粗ピッチデータと共にLPC残差の自己相関の最大値をパワーで正規化した正規化自己相関最大値r(p) が取り出され、入力信号判定部115に送られている。
【0064】
直交変換回路145では例えばDFT(離散フーリエ変換)等の直交変換処理が施されて、時間軸上のLPC残差が周波数軸上のスペクトル振幅データに変換される。この直交変換回路145からの出力は、高精度ピッチサーチ部146及びスペクトル振幅あるいはエンベロープを評価するためのスペクトル評価部148に送られる。
【0065】
高精度(ファイン)ピッチサーチ部146には、オープンループピッチサーチ部141で抽出された比較的ラフな粗ピッチデータと、直交変換部145により例えばDFTされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部146では、上記粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サンプルずつ振って、最適な小数点付き(フローティング)のファインピッチデータの値へ追い込む。このときのファインサーチの手法として、いわゆる合成による分析 (Analysis by Synthesis)法を用い、合成されたパワースペクトルが原音のパワースペクトルに最も近くなるようにピッチを選んでいる。このようなクローズドループによる高精度のピッチサーチ部146からのピッチデータについては、スイッチ118を介して出力端子104に送っている。
【0066】
スペクトル評価部148では、LPC残差の直交変換出力としてのスペクトル振幅及びピッチに基づいて各ハーモニクスの大きさ及びその集合であるスペクトルエンベロープが評価され、高精度ピッチサーチ部146及び聴覚重み付きのベクトル量子化器116に送られる。
【0067】
入力信号判定部115は、オープンループピッチサーチ部141からの正規化自己相関最大値r(p) と、ゼロクロスカウンタ142からのゼロクロスカウント値とに基づいて、当該フレームが上記有声音であるか、無声音であるか、あるいは背景雑音であるかの判定を行い、上記idVUV判定パラメータを出力する。この入力信号判定部115からの上記idVUV判定パラメータは、出力端子105を介して取り出されると共に、上述したように、スイッチ119及び、スイッチ117、118及び127の切り換え制御信号としても用いられる。
【0068】
ところで、スペクトル評価部148の出力部あるいはベクトル量子化器116の入力部には、データ数変換(一種のサンプリングレート変換)部が設けられている。このデータ数変換部は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数が異なることを考慮して、エンベロープの振幅データ|Am| を一定の個数にするためのものである。すなわち、例えば有効帯域を3400kHzまでとすると、この有効帯域が上記ピッチに応じて、8バンド〜63バンドに分割されることになり、これらの各バンド毎に得られる上記振幅データ|Am| の個数mMX+1も8〜63と変化することになる。このためデータ数変換部では、この可変個数mMX+1の振幅データを一定個数M個、例えば44個、のデータに変換している。
【0069】
このスペクトル評価部148の出力部あるいはベクトル量子化器116の入力部に設けられたデータ数変換部からの上記一定個数M個(例えば44個)の振幅データあるいはエンベロープデータが、ベクトル量子化器116により、所定個数、例えば44個のデータ毎にまとめられてベクトルとされ、重み付きベクトル量子化が施される。この重みは、聴覚重み付けフィルタ算出回路139からの出力により与えられる。ベクトル量子化器116からの上記エンベロープのインデクスは、スイッチ117を介して出力端子103より取り出される。なお、上記重み付きベクトル量子化に先だって、所定個数のデータから成るベクトルについて適当なリーク係数を用いたフレーム間差分をとっておくようにしてもよい。
【0070】
次に、第2の符号化部120について説明する。第2の符号化部120は、いわゆるCELP(符号励起線形予測)符号化構成を有しており、特に、入力音声信号の無声音部分の符号化のために用いられている。この無声音部分用のCELP符号化構成において、雑音符号帳、いわゆるストキャスティック・コードブック(stochastic code book)121からの代表値出力である無声音のLPC残差に相当するノイズ出力を、ゲイン回路126を介して、聴覚重み付きの合成フィルタ122に送っている。重み付きの合成フィルタ122では、入力されたノイズをLPC合成処理し、得られた重み付き無声音の信号を減算器123に送っている。減算器123には、上記入力端子101からHPF(ハイパスフィルタ)109を介して供給された音声信号を聴覚重み付けフィルタ125で聴覚重み付けした信号が入力されており、合成フィルタ122からの信号との差分あるいは誤差を取り出している。なお、聴覚重み付けフィルタ125の出力から聴覚重み付き合成フィルタの零入力応答を事前に差し引いておくものとする。この誤差を距離計算回路124に送って距離計算を行い、誤差が最小となるような代表値ベクトルを雑音符号帳121でサーチする。このような合成による分析(Analysis by Synthesis )法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。
【0071】
このCELP符号化構成を用いた第2の符号化部120からのUV(無声音)部分用のデータとしては、雑音符号帳121からのコードブックのシェイプインデクスと、ゲイン回路126からのコードブックのゲインインデクスとが取り出される。雑音符号帳121からのUVデータであるシェイプインデクスは、スイッチ127sを介して出力端子107sに送られ、ゲイン回路126のUVデータであるゲインインデクスは、スイッチ127gを介して出力端子107gに送られている。
【0072】
ここで、これらのスイッチ127s、127g及び上記スイッチ117、118は、上記入力信号判定部115からのidVUV判定パラメータによりオン/オフ制御され、スイッチ117、118は、現在伝送しようとするフレームの音声信号のidVUV判定パラメータが有声音(V)のときオンとなり、スイッチ127s、127gは、現在伝送しようとするフレームの音声信号が無声音(UV)のときオンとなる。また、idVUV判定パラメータが背景雑音を表すとき、上記スイッチ127s、127gは、8フレーム時間毎にオンとされ、上記シェイプインデクス、ゲインインデクスを出力する。また、上記スイッチ119も8フレーム時間毎にオンとされ、上記UV用のLSPインデクスを出力する。これらが、上述したUV用の複数種類のパラメータである。
【0073】
ここで、図4に戻る。音声復号化装置31は、他の携帯電話装置の上記音声符号化装置20により可変レート符号化された上記符号化データをアンテナ26、アンテナ共用器25、受信機27、復調器29及び伝送路復号化器30を介して受け取り、復号化する。
【0074】
この音声復号化装置31は、上述したように、音声符号化装置20から上記所定時間中にも常に伝送されてくるidVUV判定パラメータに基づいて、上記符号化データを復号化する。特に、idVUV判定パラメータが背景雑音区間を示す“1”であれば、8フレーム分をおいて伝送されてきた上記複数種類のパラメータ、例えば雑音符号帳のシェイプインデクスや、ゲインインデクス、又はLSPパラメータを用いて、背景雑音を生成すると共に、8フレーム中では過去に送られてきた線スペクトル対(LSP)パラメータを補間して上記背景雑音を生成する。
【0075】
実際に、音声復号化装置31では、常に、前回送られたLSP(prevLsp1)と前々回送られたLSP(prevLsp2)を、例えばRAM内に保持している。
【0076】
そして、上記idVUV判定パラメータが背景雑音モードに入ると、新たなLSPは送られてこないので、prevLsp1、prevLsp2の更新を行ず、この二つのLSPを線形補間することにより、現在のフレームのLSPとし、背景雑音を形成する。
【0077】
背景雑音モード中、8フレーム目に通常のUVとして音声符号化装置側からUVの全パラメータが送られてくるが、このときゲイン回路126からのゲインインデクスを調べ、インデックスが前回送られたインデックス+2より小さければ、そのフレームの合成に用いるLSPを前回送られたパラメータに置き換える。この動作については後述する。ただし、ゲインインデクスは小さい順にソートされているものとする。
【0078】
このような音声復号化装置31の構成を図7及び図8に示す。図7は、音声復号化装置31の基本構成を示すブロック図である。
【0079】
この図7において、入力端子202には上記図6の出力端子102からの上記LSP(線スペクトル対)の量子化出力としてのコードブックインデクスが入力される。入力端子203、204、及び205には、上記図6の各出力端子103、104、及び105からの各出力、すなわちエンベロープ量子化出力としてのインデクス、ピッチ、及びV/UV判定出力がそれぞれ入力される。また、入力端子207には、上記図6の出力端子107からのUV(無声音)用のデータとしてのインデクスが入力される。
【0080】
入力端子203からのエンベロープ量子化出力としてのインデクスは、逆ベクトル量子化器212に送られて逆ベクトル量子化され、LPC残差のスペクトルエンベロープが求められて有声音合成部211に送られる。有声音合成部211は、サイン波合成により有声音部分のLPC(線形予測符号化)残差を合成するものであり、この有声音合成部211には入力端子204及び205からのピッチ及びidVUV判定パラメータも供給されている。有声音合成部211からの有声音のLPC残差は、LPC合成フィルタ214に送られる。また、入力端子207からのUVデータのインデクスは、無声音合成部220に送られて、雑音符号帳を参照することにより無声音部分のLPC残差が取り出される。このLPC残差もLPC合成フィルタ214に送られる。LPC合成フィルタ214では、上記有声音部分のLPC残差と無声音部分のLPC残差とがそれぞれ独立に、LPC合成処理が施される。あるいは、有声音部分のLPC残差と無声音部分のLPC残差とが加算されたものに対してLPC合成処理を施すようにしてもよい。ここで入力端子202からのLSPのインデクスは、LPCパラメータ再生部213に送られて、LPCのαパラメータが取り出され、これがLPC合成フィルタ214に送られる。LPC合成フィルタ214によりLPC合成されて得られた音声信号は、出力端子201より取り出される。
【0081】
ここで、入力端子205に供給されたidVUV判定パラメータと入力端子207に供給された上記UVデータとしての雑音符号帳のシェイプインデクス及びゲインインデクスは、上記LPCパラメータ生成部213でのLPCパラメータの再生を制御するLPCパラメータ再生制御部240に送られる。
【0082】
このLPC再生制御部240により制御され、LPCパラメータ再生部213は、背景雑音信号生成用のLPCを生成し、LPC合成フィルタ214に送る。
【0083】
次に、図8は、上記図7に示した音声復号化装置31のより具体的な構成を示している。この図8において、上記図7の各部と対応する部分には、同じ指示符号を付している。
【0084】
この図8において、入力端子202には、上記図6の出力端子102からの出力に相当するLSPのベクトル量子化出力、いわゆるコードブックのインデクスが供給されている。
【0085】
このLSPのインデクスは、LPCパラメータ再生部213のLSPの逆ベクトル量子化器231に送られてLSP(線スペクトル対)データに逆ベクトル量子化され、スイッチ243を介してLSP補間回路232、233に送られてLSPの補間処理が施された後、LSP→α変換回路234、235でLPC(線形予測符号)のαパラメータに変換され、このαパラメータがLPC合成フィルタ214に送られる。ここで、LSP補間回路232及びLSP→α変換回路234は有声音(V)用であり、LSP補間回路233及びLSP→α変換回路235は無声音(UV)用である。またLPC合成フィルタ214は、有声音部分のLPC合成フィルタ236と、無声音部分のLPC合成フィルタ237とを分離している。すなわち、有声音部分と無声音部分とでLPCの係数補間を独立に行うようにして、有声音から無声音への遷移部や、無声音から有声音への遷移部で、全く性質の異なるLSP同士を補間することによる悪影響を防止している。
【0086】
また、図8の入力端子203には、上記図6のエンコーダ側の端子103からの出力に対応するスペクトルエンベロープ(Am)の重み付けベクトル量子化されたコードインデクスデータが供給され、入力端子204には、上記図6の端子104からのピッチのデータが供給され、入力端子205には、上記図6の端子105からのidVUV判定パラメータが供給されている。
【0087】
入力端子203からのスペクトルエンベロープAmのベクトル量子化されたインデクスデータは、逆ベクトル量子化器212に送られて逆ベクトル量子化が施され、上記データ数変換に対応する逆変換が施されて、スペクトルエンベロープのデータとなって、有声音合成部211のサイン波合成回路215に送られている。
【0088】
なお、エンコード時にスペクトルのベクトル量子化に先だってフレーム間差分をとっている場合には、ここでの逆ベクトル量子化後にフレーム間差分の復号を行ってからデータ数変換を行い、スペクトルエンベロープのデータを得る。
【0089】
サイン波合成回路215には、入力端子204からのピッチ及び入力端子205からの上記idVUV判定パラメータが供給されている。サイン波合成回路215からは、上述した図6のLPC逆フィルタ111からの出力に相当するLPC残差データが取り出され、これが加算器218に送られている。このサイン波合成の具体的な手法については、例えば本件出願人が先に提案した、特願平4−91422号の明細書及び図面、あるいは特願平6−198451号の明細書及び図面に開示されている。
【0090】
また、逆ベクトル量子化器212からのエンベロープのデータと、入力端子204、205からのピッチ、idVUV判定パラメータとは、有声音(V)部分のノイズ加算のためのノイズ合成回路216に送られている。このノイズ合成回路216からの出力は、重み付き重畳加算回路217を介して加算器218に送っている。これは、サイン波合成によって有声音のLPC合成フィルタへの入力となるエクサイテイション(Excitation:励起、励振)を作ると、男声等の低いピッチの音で鼻づまり感がある点、及びV(有声音)とUV(無声音)とで音質が急激に変化し不自然に感じる場合がある点を考慮し、有声音部分のLPC合成フィルタ入力すなわちエクサイテイションについて、音声符号化データに基づくパラメータ、例えばピッチ、スペクトルエンベロープ振幅、フレーム内の最大振幅、残差信号のレベル等を考慮したノイズをLPC残差信号の有声音部分に加えているものである。
【0091】
加算器218からの加算出力は、LPC合成フィルタ214の有声音用の合成フィルタ236に送られてLPCの合成処理が施されることにより時間波形データとなり、さらに有声音用ポストフィルタ238vでフィルタ処理された後、加算器239に送られる。
【0092】
次に、図8の入力端子207s及び207gには、上記図6の出力端子107s及び107gからのUVデータとしてのシェイプインデクス及びゲインインデクスがそれぞれ供給され、無声音合成部220に送られている。端子207sからのシェイプインデクスは、無声音合成部220の雑音符号帳221に、端子207gからのゲインインデクスはゲイン回路222にそれぞれ送られている。雑音符号帳221から読み出された代表値出力は、無声音のLPC残差に相当するノイズ信号成分であり、これがゲイン回路222で所定のゲインの振幅となり、窓かけ回路223に送られて、上記有声音部分とのつなぎを円滑化するための窓かけ処理が施される。
【0093】
窓かけ回路223からの出力は、無声音合成部220からの出力として、LPC合成フィルタ214のUV(無声音)用の合成フィルタ237に送られる。合成フィルタ237では、LPC合成処理が施されることにより無声音部分の時間波形データとなり、この無声音部分の時間波形データは無声音用ポストフィルタ238uでフィルタ処理された後、加算器239に送られる。
【0094】
加算器239では、有声音用ポストフィルタ238vからの有声音部分の時間波形信号と、無声音用ポストフィルタ238uからの無声音部分の時間波形データとが加算され、出力端子201より取り出される。
【0095】
また、LPCパラメータ再生部213内部には、背景雑音信号生成用に用いられるLPCパラメータを再生するためのLSP補間回路245と、LSP→α変換回路247も上記スイッチ243の後段に設けられている。さらに、上記LSPの逆量子化器231により得られた上記prevLSP1とprevLSP2を保持しておくためのRAM244と、8フレームの間隔があいている上記prevLSP1とprevLSP2との補間をフレーム間隔に補正するためのフレーム補間部245も備えている。
【0096】
LSP→α変換回路247からのBGN用のαパラメータは、LPC合成フィルタ214の無声音部分のLPC合成フィルタ237に送られる。
【0097】
また、上記LPCパラメータ再生制御部240は、入力端子207gからの上記UVデータ用のゲインインデスクが、前回送られたインデックス+2より小さいか否かを判定するインデックス判定部242と、このインデクス判定部242からの判定結果と上記入力端子205から供給されるidVUV判定パラメータとに基づいて上記スイッチ243の切り換えを制御する切り換え制御部241とを備えてなる。
【0098】
上記idVUV判定パラメータが1であるとき、すなわち背景雑音区間であることを示す上記基本パラメータとなるモードビットを受信したときのこの音声復号化装置31の動作を、図9に示すフローチャートを用いて説明する。
【0099】
先ず、ステップS21でidVUV判定パラメータが1であるとき、LPCパラメータ再生制御部240の切り換え制御部241は、切り換えスイッチ243をオフにする。そして、ステップS22に進み、LSP補間回路246で上記RAM244に保持されたPrevLSP1とPrevLSP2をフレーム補間回路245を通して得たフレーム毎の直線補間値を使ってBGN用のLSPを求める。そして、このBGN用のLSPは、UV用の合成フィルタ237に供給され、背景雑音が合成される。
【0100】
なお、音声符号化装置20からは、背景雑音区間と判断されたフレームが連続8フレームとなると、次の9フレーム目は通常のUVデータ用のシェイプインデクス、ゲインインデクス及びLSPパラメータが送られてくる。ここで、音声符号化装置20では、9フレーム目に本当にidVUV判定パラメータがUVになることがないとは限らない。そこで、音声復号化装置31側では、本当のUV用データなのか、あるいは単に9フレーム目に送られたUV用の全パラメータなのかを判断する必要がある。
【0101】
そこで、LPCパラメータ再生制御部240では、ステップS23でidVUV=0であるとき、ステップS24に進み、インデクス判定部242により入力端子207gを介して送られてきたUVデータ用のゲインインデクスを調べ、ステップS26のルーティンの処理か、ステップS27の本来のUVの処理かを判断する。具体的には、上述したように、入力端子207gからの上記UVデータ用のゲインインデスクが、前回送られたインデクス+2より小さいか否かを判定する。9フレーム目に送られてきたUVデータ用のインデクスが音声としてのUV用インデクスであれば前回送られたゲインインデクスのパラメータよりも大きいはずである。
【0102】
ステップS24で上記ゲインインデクスが前回送られてきたインデクス+2より小さいとなれば、これは9フレーム目に送られたUVデータ用の、すなわちルーティン用のデータであると判断し、ステップS26に進み、切り換え制御部241により、スイッチ243をLSP補間回路246側に接続し、上記PrevLSP1とPrevLSP2を用いた直線補間により求めた値に変えて、UV用に送られたLSP逆量子化部231からのLSPパラメータをLSP補間回路246に供給する。LSP補間回路246では、このアップデートされたLSPパラメータを、そのままLSP→α変換回路247に供給する。そして、LSP→α変換回路247からのBGN用のαパラメータは、LPC合成フィルタ214の無声音部分のLPC合成フィルタ237に送られ、9フレーム目には8フレーム間の背景雑音とは異なった背景雑音が得られることになる。このため、背景雑音の不自然さを緩和することができる。
【0103】
また、ステップS24で上記ゲインインデクスが前回送られてきたインデクス+2以上より大きいとなれば、これは9フレーム目に送られてきたのは、本当のUV用のパラメータであると判断し、ステップS27に進む。ステップS27では、切り換え制御部241がスイッチ243をUV用のLSP補間回路233に切り換えて、通常のUV用のLSP補間により得られたLSPを使った無声音の合成が行われる。
【0104】
一方、上記ステップS23でidVUV判定パラメータが0でないと判断すると、ステップS25に進み、UV用のLSPからαパラメータを変換し、合成フィルタ236で有声音を合成する。
【0105】
以上のように、音声復号化装置31では、idVUV判定パラメータが1であるとき、すなわち他の携帯電話装置の音声符号化装置が背景雑音区間を検出したときには、8フレームをおいて伝送されてきた複数種類のパラメータを用いて上記背景雑音を生成すると共に、上記8フレーム中には過去に送られたパラメータを用いて上記背景雑音を生成する。このため、背景雑音の不自然さを緩和することができる。また、9フレーム目に偶然に、本当の無声音区間が検出されて伝送されてきても、正確に判断できるので、高品質な音声を復号できる。
【0106】
LSPは8フレーム分のディレイが生じることになるが、背景雑音モード中は完全に滑らかに繋がることになり、急激にLSPが変化して異音を発生することがなくなる。また、音声の子音部は背景雑音より高いレベルを有することが多いので、音声の子音部を誤って背景雑音として処理してしまうことを防げる。
【0107】
そして、再び背景雑音モードに入ったらprevLsp1、prevLsp2を線形補間することにより、現在のフレームのLSPとする。
【0108】
ところで、モードビットが充分にあり、これを一つのモードとして送ることができれば、このような処理は必要ない。また、prevLsp1とprevLsp2の補間方法は線形補間以外にも様々なものが考えられる。
【0109】
なお、本発明に係る音声信号区間検出方法及び装置は、可変レートエンコーディングを行う音声符号化装置を備えた上記携帯電話装置にのみ適用されるものではなく、図10に示すような携帯電話装置に適用されてもよい。
【0110】
この図10に示す携帯電話装置は、送話用マイクロホン41より入力された音声をRF信号に変換し、このRF信号を基地局を介して相手側に送信すると共に、相手側より基地局を介して送信されたRF信号を受信して再生しスピーカ52を介して使用者に聞かせることのできる携帯電話装置である。
【0111】
この携帯電話装置は、特に、入力信号から得られた背景雑音に応じて受話音量を制御するように、背景雑音を検出する入力信号判定部43と、上記背景雑音に応じて受話音量を制御する受話音量コントロール部44とを備えて成る。
【0112】
この携帯電話装置の送話用マイクロホン41で電気信号とされた入力信号は、アナログ/ディジタル(A/D)変換器42によりディジタルデータとされて、音声符号化器45に供給される。
【0113】
この音声符号化器45は、ディジタルデータを圧縮し、符号化する。
【0114】
音声符号化器45で情報圧縮、符号化が施されたデータは、ベースバンド信号処理回路46に供給され、同期信号及び誤り訂正符号等が付加されたりフレーミング処理が施される。ベースバンド信号処理回路46からの出力データは、RF送受信回路47に供給され、必要な周波数に変調されてアンテナ48から送信される。
【0115】
A/D変換器42が出力するディジタルデータは、入力信号判定部43にも供給される。入力信号判定部43は、上記入力信号に含まれる背景雑音を検出する。
【0116】
この入力信号判定部43で検出された背景雑音は、受話音量コントロール部44に供給される。受話音量コントロール部44は、上記背景雑音区間を判定した結果をもとに、ディジタル/アナログ(D/A)変換器50によってアナログ信号とされた後述する受話音声を増幅するアンプ51の利得を調整し、受話音量をコントロールする。
【0117】
ここで、受話音量とは、基地局を介して送信されてきた通話相手からの信号を再生するときの音量である。この通話相手からの信号は、アンテナ48により受信され、RF送受信回路47に供給される。RF送受信回路47によりベースバンドに復調された相手側からの入力信号は、ベースバンド信号処理回路46に供給され、所定の信号処理が施される。このベースバンド信号処理回路46からの信号は、音声復号化器49に供給される。音声復号化器49でデコードされた音声信号は、D/A変換器50でアナログ音声信号に変換される。
【0118】
D/A変換器50からのアナログ音声信号は、アンプ51に供給される。このアンプ51は、上述したように受話音量コントロール部44により制御されるので、スピーカ52から発せられる再生音量、すなわち受話音量は背景雑音に応じてコントロールされる。
【0119】
【発明の効果】
本発明に係る音声信号区間検出方法及び装置は、背景雑音のレベルによることなく、音声信号区間と背景雑音区間との高精度な区別を実現する。
【図面の簡単な説明】
【図1】本発明に係る音声信号区間検出方法及び装置の実施の形態となる入力信号判定装置の構成を示すブロック図である。
【図2】上記図1に示した入力信号判定装置を構成する最小レベル演算部のアルゴリズムを説明するためのフローチャートである。
【図3】上記図1に示した入力信号判定装置を構成するリファレンスレベル演算部を説明するための特性図である。
【図4】上記図1に示した入力信号判定装置を用いて可変レートエンコードを行う携帯電話装置の構成を示すブロック図である。
【図5】上記携帯電話装置を構成する音声符号化装置の基本的な構成を示すブロック図である。
【図6】上記図5に示した音声符号化装置の詳細な構成を示すブロック図である。
【図7】上記携帯電話装置を構成する音声復号化装置の基本的な構成を示すブロック図である。
【図8】上記図7に示した音声復号化装置の詳細な構成を示すブロック図である。
【図9】上記音声復号化装置の動作を説明するためのフローチャートである。
【図10】上記実施の形態となる入力信号判定部を適用した他の具体例となる携帯電話装置の構成を示すブロック図である。
【符号の説明】
3 V/UV判定部、4 最小レベル演算部、5 リファレンスレベル演算部、7 比較部、8 パラメータ生成部
Claims (2)
- 所定時間区間で入力信号から最小レベルを検出し、この最小レベルを保持する最小レベル演算工程と、
立ち上がりは上記入力信号と同様に立ち上がり、立ち下がりは緩やかに減少していくリファレンスレベルを前記入力信号から演算により求めるリファレンスレベル演算工程と、
上記最小レベル演算工程からの最小レベルと上記リファレンスレベル演算工程からのリファレンスレベルとを比較する比較工程と、
上記入力信号が有声音であるか無声音であるかを判定する有声音/無声音判定工程と、
上記有声音/無声音判定工程の結果と上記比較工程の結果に基づいて上記入力信号の音声信号区間を検出する工程と
を備えることを特徴とする音声信号区間検出方法。 - 所定時間区間で入力信号から最小レベルを検出し、この最小レベルを保持する最小レベル演算手段と、
立ち上がりは上記入力信号と同様に立ち上がり、立ち下がりは緩やかに減少していくリファレンスレベルを前記入力信号から演算により求めるリファレンスレベル演算手段と、
上記最小レベル演算手段からの最小レベルと上記リファレンスレベル演算手段からのリファレンスレベルとを比較する比較手段と、
上記入力信号が有声音であるか無声音であるかを判定する有声音/無声音判定手段と、
上記有声音/無声音判定手段の結果と上記比較手段の結果に基づいて上記入力信号の音声信号区間を検出する手段と
を備えることを特徴とする音声信号区間検出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28545797A JP3896654B2 (ja) | 1997-10-17 | 1997-10-17 | 音声信号区間検出方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28545797A JP3896654B2 (ja) | 1997-10-17 | 1997-10-17 | 音声信号区間検出方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11119796A JPH11119796A (ja) | 1999-04-30 |
JP3896654B2 true JP3896654B2 (ja) | 2007-03-22 |
Family
ID=17691778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28545797A Expired - Fee Related JP3896654B2 (ja) | 1997-10-17 | 1997-10-17 | 音声信号区間検出方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3896654B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100770895B1 (ko) | 2006-03-18 | 2007-10-26 | 삼성전자주식회사 | 음성 신호 분리 시스템 및 그 방법 |
-
1997
- 1997-10-17 JP JP28545797A patent/JP3896654B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11119796A (ja) | 1999-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
JP4870313B2 (ja) | 可変レート音声符号器におけるフレーム消去補償方法 | |
JP4218134B2 (ja) | 復号装置及び方法、並びにプログラム提供媒体 | |
EP0770987B1 (en) | Method and apparatus for reproducing speech signals, method and apparatus for decoding the speech, method and apparatus for synthesizing the speech and portable radio terminal apparatus | |
RU2262748C2 (ru) | Многорежимное устройство кодирования | |
KR100898324B1 (ko) | 음성 코더용 스펙트럼 크기 양자화 방법 | |
US6584441B1 (en) | Adaptive postfilter | |
EP0837453B1 (en) | Speech analysis method and speech encoding method and apparatus | |
US6691085B1 (en) | Method and system for estimating artificial high band signal in speech codec using voice activity information | |
JP4438127B2 (ja) | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 | |
JP2002528775A (ja) | 広帯域信号の符号化における適応帯域ピッチ探索のための方法および装置 | |
JP4040126B2 (ja) | 音声復号化方法および装置 | |
JP2003532149A (ja) | 音声発話を予測的に量子化するための方法および装置 | |
EP0843302A2 (en) | Voice coder using sinusoidal analysis and pitch control | |
KR20000047944A (ko) | 수신장치 및 방법과 통신장치 및 방법 | |
JPH10105194A (ja) | ピッチ検出方法、音声信号符号化方法および装置 | |
US6012023A (en) | Pitch detection method and apparatus uses voiced/unvoiced decision in a frame other than the current frame of a speech signal | |
JP3896654B2 (ja) | 音声信号区間検出方法及び装置 | |
JP4230550B2 (ja) | 音声符号化方法及び装置、並びに音声復号化方法及び装置 | |
JP2008134649A (ja) | 音声信号の再生方法及び装置 | |
EP1164577A2 (en) | Method and apparatus for reproducing speech signals | |
JP2005025216A (ja) | 音声復号化装置及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040427 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060320 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061211 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100105 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110105 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120105 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130105 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |