JP3896654B2

JP3896654B2 - 音声信号区間検出方法及び装置

Info

Publication number: JP3896654B2
Application number: JP28545797A
Authority: JP
Inventors: 和幸飯島; 正之西口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1997-10-17
Filing date: 1997-10-17
Publication date: 2007-03-22
Anticipated expiration: 2017-10-17
Also published as: JPH11119796A

Description

【０００１】
【発明の属する技術分野】
本発明は、入力信号が有声音又は無声音からなる音声信号区間であるか或いは背景雑音区間であるかを検出する音声信号区間検出方法及び装置に関する。
【０００２】
【従来の技術】
近年、普及が著しい携帯用電話装置は、室外で使用する事が多いので、周囲の背景雑音により、しばしば通話が聞きずらくなることがある。これは、雑音によるマスキング効果によって受話者の最少可聴値が上昇してしまい、受話音声の明瞭度や了解度が劣化するためである。これに対して、送話側では雑音の抑圧又は話者の声量のアップ、受話側では再生音量のアップ、又全体として話者と電話器の密接な音響カップリング等が必要になる。このため、携帯用電話装置には回りの環境に応じて受話音量を手動で切り換えるスイッチがある。
【０００３】
ところで、上述したように携帯用電話装置を使用する際、回りの環境に応じて受話音量を手動で切り換えるのは面倒である。この受話音量の切り換えを自動で行えるようになれば便利である。
【０００４】
この受話音量の切り換えを自動で行おうとする場合、回りの雑音レベルを正確に検出できるか否かが問題となってくる。通話中に入力音声用（送話用）のマイクロフォンから混入する雑音には様々なものがあるがこれらの雑音（以下背景雑音という）と音声信号区間を分離するには、ある適当なレベルを予め設定し、そのレベル以上であれば音声信号区間とし、それ以下であれば背景雑音区間とするという方法があった。
【０００５】
【発明が解決しようとする課題】
ところで、上記背景雑音区間検出方法では、設定されたレベル以下の音声が入力されれば、それは背景雑音であると判断されてしまう。逆に背景雑音のレベルが、設定されたレベルよりも高いときは、背景雑音と判断されることがない。このように、背景雑音区間を音声信号区間と区別するのは、従来から困難であった。
【０００６】
本発明は、上記実情に鑑みてなされたものであり、背景雑音のレベルによることなく、音声信号区間と背景雑音区間との高精度な区別が可能な音声信号区間検出方法及び装置の提供を目的とする。
【０００７】
【課題を解決するための手段】
本発明に係る音声信号区間検出方法は、上記課題を解決するために、所定時間区間で入力信号から最小レベルを検出し、この最小レベルを保持する最小レベル演算工程と、立ち上がりは上記入力信号と同様に立ち上がり、立ち下がりは緩やかに減少していくリファレンスレベルを前記入力信号から演算により求めるリファレンスレベル演算工程と、上記最小レベル演算工程からの最小レベルと上記リファレンスレベル演算工程からのリファレンスレベルとを比較する比較工程と、上記入力信号が有声音であるか無声音であるかを判定する有声音／無声音判定工程と、上記有声音／無声音判定工程の結果と上記比較工程の結果に基づいて上記入力信号の音声信号区間を検出する工程とを備える。
【０００８】
このため、最小レベルを更新しながら、それを元に音声信号区間と背景雑音区間とのしきい値（スレショルド）を変化できるので、このスレショルドとリファレンスレベルを比較することにより音声信号区間と背景雑音区間との高精度な区別を可能とする。
【０００９】
また、上記入力信号が有声音であるか無声音であるかを判定する有声音／無声音判定工程を備え、上記最小レベル演算工程はこの有声音／無声音判定工程からの判定結果に基づいて上記最小レベルを演算する。
【００１０】
また、上記有声音／無声音判定工程からの判定結果に基づいて上記音声信号区間を検出する。具体的には、上記最小レベル演算工程からの最小レベルと上記リファレンスレベル演算工程からのリファレンスレベルとを比較する比較工程を備え、この比較工程からの比較結果と上記有声音／無声音判定工程からの判定結果に基づいて、入力信号の音声信号区間を検出する。
【００１１】
また、本発明に係る音声信号区間検出装置は、上記課題を解決するために、所定時間区間で入力信号から最小レベルを検出し、この最小レベルを保持する最小レベル演算手段と、立ち上がりは上記入力信号と同様に立ち上がり、立ち下がりは緩やかに減少していくリファレンスレベルを前記入力信号から演算により求めるリファレンスレベル演算手段と、上記最小レベル演算手段からの最小レベルと上記リファレンスレベル演算手段からのリファレンスレベルとを比較する比較手段と、上記入力信号が有声音であるか無声音であるかを判定する有声音／無声音判定手段と、上記有声音／無声音判定手段の結果と上記比較手段の結果に基づいて上記入力信号の音声信号区間を検出する手段とを備える。
【００１２】
このため、最小レベルを更新しながら、それを元に音声信号区間と背景雑音区間とのしきい値（スレショルド）を変化できるので、このスレショルドとリファレンスレベルを比較することにより音声信号区間と背景雑音区間との高精度な区別を可能とする。
【００１３】
【発明の実施の形態】
以下、本発明に係る音声信号区間検出方法及び装置の実施の形態について図面を参照しながら説明する。
【００１４】
この実施の形態は、本発明に係る音声信号区間検出方法の上記各工程を適用して実行する音声信号区間検出装置の具体例となる図１に示す入力信号判定装置２１である。
【００１５】
図１において、この入力信号判定装置２１は、入力端子１から実効（root mean square、r.m.s）値演算部２を介して入力された入力信号（実効値）の最小レベルを所定時間区間、例えば２０msecで検出し、この最小レベルを保持する最小レベル演算部４と、上記実効値演算部２からの入力信号実効値からリファレンスレベルを演算により求めるリファレンスレベル演算部５とを備え、最小レベル演算部４からの最小レベルとリファレンスレベル演算部５からのリファレンスレベルとに基づいて上記入力信号が所定時間区間で有声音（Voice）、又は無声音（UnVoice）であるか、又は背景雑音であるかを判定する。そして、上記無声音であることを示す“０”、上記背景雑音であることを示す“１”、第１有声音であることを示す“２”、又は第２有声音であることを示す“３”というＶ／ＵＶ判定の結果を示すidVUVパラメータを出力する。
【００１６】
また、この入力信号判定装置２１は、上記実効値演算部２からの入力信号実効値の所定時間区間分に対して仮に有声音（Ｖ）／無声音（ＵＶ）とを判定するＶ／ＵＶ判定部３を備え、最小レベル演算部４にＶ／ＵＶ判定結果を供給する。最小レベル演算部４は、このＶ／ＵＶ判定結果に基づいて上記最小レベルを演算する。
【００１７】
また、Ｖ／ＵＶ判定部３からのＶ／ＵＶ判定結果はパラメータ生成部８にも供給される。このパラメータ生成部８は、出力端子１０５から上記idVUVパラメータを出力する。
【００１８】
このパラメータ生成部８は、最小レベル演算部４からの最小レベルとリファレンスレベル演算部５からのリファレンスレベルとを比較する比較部７からの比較結果と、上記Ｖ／ＵＶ判定部３からのＶ／ＵＶ判定結果に基づいて上記idVUVパラメータを出力する。
【００１９】
以下、この入力信号判定装置２１の動作について説明する。
例えば、走行している電車の中では、背景雑音のレベルが高い。そこで、周りの雑音に合わせてしきい値（スレショルド）を決定することが望ましい。
【００２０】
そこで、上記最小レベル演算部４では、適当な所定時間区間で一番小さいレベルを最小レベルとし、その最小レベルを上記所定時間毎に更新していく。
【００２１】
図２は、最小レベル演算部４のアルゴリズムを示すフローチャートである。このフローチャートでは、最小レベルの更新（トラッキング）を、最小レベル候補値cdLevのセットとクリア、及び最小レベルgmlのセットとクリアに大きく分けている。
【００２２】
先ず、ステップＳ１で、Ｖ／ＵＶ判定部３からのＶ／ＵＶ判定結果に基づいて有声音フレームの連続回数vContが４より多い整数となるかを判断する。すなわち、有声音Ｖと判断されたフレームが４より大きな整数回、つまり５フレーム連続したか否かを判断する。ここで、有声音フレームが５フレーム以上連続している場合は、音声区間に入っていると判断し、ステップＳ２に進み、最小レベル候補値cdLevをクリアする。このステップＳ２では、候補値が設定され続けた回数gmlSetStateは０である。一方、ステップＳ１で、有声音フレームの連続回数vContが４以下であると判断すると、ステップＳ３に進む。
【００２３】
ステップＳ３では、現在の入力信号の実効値演算部２を介した入力レベルlevが最小レベルの最低値MIN_GMLより小さいか否かを判断する。ここでいう、最小レベルの最低値MIN_GMLは、最小レベルgmlが０とならないように決定されている。ここで、入力レベルlevが最小レベルの最低値MIN_GMLより小さいと判断すると、ステップＳ４で上記最小レベルの最低値MIN_GMLを最小レベルgmlとして設定する。このステップＳ４では、候補値が設定され続けた回数gmlSetStateと、最小レベルが設定された後、候補値が設定されていない回数gmlResetStateとは０である。一方、ステップＳ３で現在の入力レベルlevは最小レベルの最低値MIN_GML以上であると判断するとステップＳ５に進む。
【００２４】
ステップＳ５では、現在の入力レベルlevが最小レベルgmlより小さいか否かを判断する。ここでＹＥＳとなれば、ステップＳ６に進む。すなわち、このステップＳ６は、上記ステップＳ３の判断で現在の入力レベルlevが最小レベルの最低値MIN_GML以上であり、さらに上記ステップＳ５で現在の入力レベルlevが最小レベルgmlより小さいと判断されたときに、その入力レベルlevを最小レベルgmlとして設定する。一方、このステップＳ５で現在の入力レベルlevが最小レベルgml以上であると判断すると、ステップＳ７に進む。
【００２５】
ステップＳ７では、現在の入力レベルが充分小さいか、候補値cdLevとの変動が小さいか否かを判断する。このステップＳ７では、現在の入力レベルが充分小さいか、候補値cdLevとの変動が小さいかという判断を、status０であるか否かで判断している。status０は、入力レベルlevが100.0以下というように充分小さいか、又は、入力レベルが500.0以下で候補値cdLev＊0.70より大きく、かつ候補値cdLev＊1.30より小さいというように候補値cdLevとの変動が小さいことを表す状態である。ここで、ＹＥＳを選択し、現在の入力レベルが充分小さいか、又は候補値cdLevとの変動が小さいと判断すると、候補値cdLevが更新される。一方、ＮＯを選択するとステップＳ１１に進む。
【００２６】
ステップＳ８では、候補値cdLevが更新され続けた回数gmlSetStateが７回以上であるか否か、すなわち候補値cdLevの更新が７フレーム連続するか否かを判断する。ここで、候補値cdLevの更新が７フレーム以上連続したと判断すれば、ステップＳ９に進み、そのときの入力レベルlevを最小レベルgmlとする。候補値cdLevの更新が６フレーム以内であれば、ＮＯとなり、ステップＳ１０で入力レベルlevを候補値cdLevとする。
【００２７】
一方、ステップＳ７での判断でＮＯとなった後に進んだステップＳ１１では、１フレーム過去の入力レベルprevLevと現在の入力レベルlevの変動が小さいか否かを判断する。この１フレーム過去の入力レベルprevLevと現在の入力レベルlevの変動が小さいか否かの判断は、status１であるか否かの判断で行っている。status１は、現在の入力レベルlevが100.0以下というように充分小さいか、又は現在の入力レベルlevが500.0以下で１フレーム過去の入力レベルprevLev＊0.70より大きく、かつ１フレーム過去の入力レベルprevLev＊1.30より小さいというように１フレーム過去の入力レベルprevLevとの変動が小さいことを表す状態である。ここで、ＹＥＳを選択し、現在の入力レベルが充分小さいか、又は１フレーム過去の入力レベルと現在の入力レベルの変動が小さい場合には、ステップＳ１２に進み、現在の入力レベルlevを最小レベル候補値cdLevに設定する。一方、ステップＳ１１で現在の入力レベルが小さくないか、又は１フレーム過去の入力レベルと現在の入力レベルの変動が小さくないと判断すると、ステップＳ１３に進む。
【００２８】
ステップＳ１３では、最小レベルが設定された後、候補値が設定されていない回数gmlResetStateが４０より大きいか否かを判断する。ここで、ＮＯとなり候補値が設定されていない回数gmlResetStateが４０以下であるときには、ステップＳ１４で最小レベル候補値cdLevをクリアし、予め定めた最小値をセットする。一方ここで、ＹＥＳとなり、候補値が設定されていない回数gmlResetStateが４０回を越えていると判断すると、ステップＳ１５に進み、最小レベルgmlは最小レベルの最低値MIN_GMLに設定される。
【００２９】
以上のように最小レベルはある時間保持され、順次更新される。
【００３０】
次に、リファレンスレベル演算部５の動作について図３を用いて説明する。このリファレンスレベル演算部５は、リファレンスレベルrefLevを次の（１）式で算出する。
【００３１】
refLev＝Ａ×max（lev,refLev）＋（1.0−Ａ）×min（lev,refLev）・・・（１）
この（１）式において、入力端子６から与えるＡ＝０．７５としたときの入力レベルlevとリファレンスレベルrefLevとの関係を図３に示す。リファレンスレベルrefLevは、立ち上がりは入力レベルlevと同様に立ち上がるが、立ち下がりでは緩やかに減少していく。このため、上記リファレンスレベルを用いることで、音声信号区間において、瞬間的にたまたまレベルが下がった状態を背景雑音区間として判定してしまうことを防いでいる。このように、リファレンスレベル演算部５は、瞬間的なレベル変動に対してもある程度余裕を持たせるような滑らかなレベルを演算する。
【００３２】
比較部７は、最小レベル演算部４からの最小レベルに所定の定数Ｂを掛けたＢ×gmlと上記リファレンスレベル演算部５からのリファレンスレベルrefLevとを比較する。そして、その比較結果は、パラメータ生成部８に送られる。
【００３３】
パラメータ生成部８は、Ｖ／ＵＶ判定部３での判定結果により、Ｖと判定されたフレームについては、上記（１）式に示したリファレンスレベルrefLevが最小レベルgmlのＢ倍より小さいか否かを調べ、小さいときには背景雑音区間と判断する。ただし、過去のＶ／ＵＶ判断を調べ、Ｖのフレームが２フレーム以上連続している場合は音声区間が始まっているものとし、背景雑音区間と判断することはない。すなわち、現在のフレームがＶと判断されたときは、過去Ｖフレームが連続しているかを調べ、連続している場合には背景雑音モードに入らない。これは、Ｖフレームが連続しているときに背景雑音モードに入ると不連続感が生じるためである。
【００３４】
また、パラメータ生成部８は、Ｖ／ＵＶ判定部３からの判定結果がＵＶと判定されたフレームについては、Ｖの場合と同様に、リファレンスレベルrefLevが最小レベルgmlのＢ倍より小さいかを調べ、この条件を４回満たした場合、背景雑音区間と判断する。すなわち、ＵＶと判断された場合は、４フレーム連続で上記条件を満たした後、背景雑音区間と判断する。
【００３５】
なお、上記Ｂは適当な定数であり、ここでは２．０と定める。また、このような定数とせずに入力レベルlevの分散に比例した量とすることも考えられる。
【００３６】
そして、パラメータ生成部８は、出力端子１０５からidVUVパラメータを出力する。
【００３７】
このようにして、入力信号判定装置２１は、最小レベルgmlを更新しながら、それを元に音声信号区間と背景雑音区間とのしきい値（スレショルド）gml×Ｂを変化できるので、このスレショルドgml×ＢとリファレンスレベルrefLevを比較することにより音声信号区間と背景雑音区間との高精度な区別を可能とする。
【００３８】
なお、この入力信号判定装置２１は、図４に示すような、携帯電話装置の音声符号化装置２０内に組み込むことができる。この携帯電話装置は、上記入力信号判定装置（図４では入力信号判定部とする）２１による入力信号の判定結果を基に、音声符号化装置２０での符号化のレートを可変する。
【００３９】
この携帯電話装置は、送信時には、マイクロホン１から入力された音声信号を、Ａ／Ｄ変換器１０によりディジタル信号に変換し、音声符号化装置２０により上記idVUVパラメータに基づいた可変レートの符号化を施し、伝送路符号化器２２により伝送路の品質が音声品質に影響を受けにくいように符号化した後、変調器２３で変調し、送信機２４で出力ビットに送信処理を施し、アンテナ共用器２５を通して、アンテナ２６から送信する。
【００４０】
また、受信時には、アンテナ２６で捉えた電波を、アンテナ共用器２５を通じて受信機２７で受信し、復調器２９で復調し、伝送路復号化器３０で伝送路誤りを訂正し、音声復号化装置３１で復号し、Ｄ／Ａ変換器３２でアナログ音声信号に戻して、スピーカ３３から出力する。
【００４１】
また、制御部３４は上記各部をコントロールし、シンセサイザ２８は送受信周波数を送信機２４、及び受信機２７に与えている。また、キーパッド３５及びＬＣＤ表示器３６はマンマシンインターフェースに利用される。
【００４２】
次に、有声音又は無声音区間に分けられる音声信号区間と、背景雑音区間からなる入力信号を、入力信号判定部２１の判定結果idVUVパラメータに基づいて、可変レートで符号化する音声符号化装置２０について説明する。
【００４３】
先ず、可変レートエンコードを説明しておく。符号化パラメータの一種であるＬＳＰ量子化インデクス、及び励起パラメータインデクスを、以下の表１に示すように、idVUV判定パラメータが“１”の背景雑音のときには、１フレーム２０msec当たり０ビットにしてしまう。idVUV判定パラメータが“０”の無声音、“２，３”の有声音のときには、そのまま20mseec当たり１８ビット、及び２０ビットとする。これにより可変レートエンコードが実現できる。
【００４４】
【表１】

【００４５】
ここで、idVUV判定パラメータの内の、Ｖ／ＵＶ判定出力となる２ビットは、常に符号化されている。なお、無声音時の励起パラメータインデクスとしては、後述する雑音符号帳のコードブックのシェイプインデクスと、ゲインインデクスが挙げられる。上記ＬＳＰ量子化インデクス、シェイプインデクス及びゲインインデクスについては後述する。
【００４６】
この音声符号化装置の構成を図５、図６に示す。図５の音声符号化装置２０の基本的な考え方は、入力音声信号の短期予測残差例えばＬＰＣ（線形予測符号化）残差を求めてサイン波分析（sinusoidal analysis ）符号化、例えばハーモニックコーディング（harmonic coding ）を行う第１の符号化部１１０と、入力音声信号に対して位相伝送を行う波形符号化により符号化する第２の符号化部１２０とを有し、入力信号の有声音（Ｖ：Voiced）の部分の符号化には第１の符号化部１１０を用い、入力信号の無声音（ＵＶ：Unvoiced）の部分の符号化には第２の符号化部１２０を用いるようにすることである。
【００４７】
上記第１の符号化部１１０には、例えばＬＰＣ残差をハーモニック符号化やマルチバンド励起（ＭＢＥ）符号化のようなサイン波分析符号化を行う構成が用いられる。上記第２の符号化部１２０には、例えば合成による分析法を用いて最適ベクトルのクローズトループサーチによるベクトル量子化を用いた符号励起線形予測（ＣＥＬＰ）符号化の構成が用いられる。
【００４８】
図５の例では、入力端子１０１に供給された音声信号が、第１の符号化部１１０のＬＰＣ逆フィルタ１１１及びＬＰＣ分析・量子化部１１３に送られている。ＬＰＣ分析・量子化部１１３で得られたＬＰＣ係数あるいはいわゆるαパラメータは、ＬＰＣ逆フィルタ１１１に送られて、このＬＰＣ逆フィルタ１１１により入力音声信号の線形予測残差（ＬＰＣ残差）が取り出される。また、ＬＰＣ分析・量子化部１１３からは、後述するようにＬＳＰ（線スペクトル対）の量子化出力が取り出され、これが出力端子１０２に送られる。ＬＰＣ逆フィルタ１１１からのＬＰＣ残差は、サイン波分析符号化部１１４に送られる。サイン波分析符号化部１１４では、ピッチ検出やスペクトルエンベロープ振幅計算が行われると共に、上記入力信号判定部２１と同一構成の入力信号判定部１１５により入力信号の上記idVUVパラメータが求められる。サイン波分析符号化部１１４からのスペクトルエンベロープ振幅データはベクトル量子化部１１６に送られる。スペクトルエンベロープのベクトル量子化出力としてのベクトル量子化部１１６からのコードブックインデクスは、スイッチ１１７を介して出力端子１０３に送られ、サイン波分析符号化部１１４からのピッチ出力は、スイッチ１１８を介して出力端子１０４に送られる。また、入力信号判定部１１５からのidVUV判定パラメータ出力は出力端子１０５に送られると共に、スイッチ１１７、１１８及び図３に示すスイッチ１１９の制御信号に使われる。スイッチ１１７、１１８は、上記制御信号により有声音（Ｖ）のとき上記インデクス及びピッチを選択して各出力端子１０３及び１０４からそれぞれ出力する。
【００４９】
また、上記ベクトル量子化部１１６でのベクトル量子化の際には、例えば、周波数軸上の有効帯域１ブロック分の振幅データに対して、ブロック内の最後のデータからブロック内の最初のデータまでの値を補間するようなダミーデータ，又は最後のデータ及び最初のデータを延長するようなダミーデータを最後と最初に適当な数だけ付加してデータ個数をＮ_F 個に拡大した後、帯域制限型のＯ_S 倍（例えば８倍）のオーバーサンプリングを施すことによりＯ_S 倍の個数の振幅データを求め、このＯ_S 倍の個数（（ｍ_MX＋１）×Ｏ_S 個）の振幅データを直線補間してさらに多くのＮ_M 個（例えば２０４８個）に拡張し、このＮ_M 個のデータを間引いて上記一定個数Ｍ（例えば４４個）のデータに変換した後、ベクトル量子化している。
【００５０】
図５の第２の符号化部１２０は、この例ではＣＥＬＰ（符号励起線形予測）符号化構成を有しており、雑音符号帳１２１からの出力を、重み付きの合成フィルタ１２２により合成処理し、得られた重み付き音声を減算器１２３に送り、入力端子１０１に供給された音声信号を聴覚重み付けフィルタ１２５を介して得られた音声との誤差を取り出し、この誤差を距離計算回路１２４に送って距離計算を行い、誤差が最小となるようなベクトルを雑音符号帳１２１でサーチするような、合成による分析（Analysis by Synthesis ）法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。このＣＥＬＰ符号化は、上述したように無声音部分の符号化に用いられており、雑音符号帳１２１からのＵＶデータとしてのコードブックインデクスは、上記入力信号判定部１１５からのidVUV判定パラメータが無声音（ＵＶ）のときオンとなるスイッチ１２７を介して、出力端子１０７より取り出される。
【００５１】
また、スイッチ１２７の制御信号となるidVUV判定パラメータが“１”となり入力信号が背景雑音信号であると判定したときには、所定時間、例えば８フレーム分の時間をおいて無声音時の複数のパラメータ、例えば雑音符号帳１２１からのＵＶデータとしてのシェイプインデクスやゲインインデクスを送る。
【００５２】
次に、上記図５に示した音声信号符号化装置のより具体的な構成について、図３を参照しながら説明する。なお、図６において、上記図５の各部と対応する部分には同じ指示符号を付している。
【００５３】
この図６に示された音声信号符号化装置において、入力端子１０１に供給された音声信号は、ハイパスフィルタ（ＨＰＦ）１０９にて不要な帯域の信号を除去するフィルタ処理が施された後、ＬＰＣ（線形予測符号化）分析・量子化部１１３のＬＰＣ分析回路１３２と、ＬＰＣ逆フィルタ回路１１１とに送られる。
【００５４】
ＬＰＣ分析・量子化部１１３のＬＰＣ分析回路１３２は、入力信号波形の２５６サンプル程度の長さを１ブロックとしてハミング窓をかけて、自己相関法により線形予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、１６０サンプル程度とする。サンプリング周波数ｆｓが例えば８ｋHzのとき、１フレーム間隔は１６０サンプルで２０ｍsec となる。
【００５５】
ＬＰＣ分析回路１３２からのαパラメータは、α→ＬＳＰ変換回路１３３に送られて、線スペクトル対（ＬＳＰ）パラメータに変換される。これは、直接型のフィルタ係数として求まったαパラメータを、例えば１０個、すなわち５対のＬＳＰパラメータに変換する。変換は例えばニュートン−ラプソン法等を用いて行う。このＬＳＰパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。
【００５６】
α→ＬＳＰ変換回路１３３からのＬＳＰパラメータは、ＬＳＰ量子化器１３４によりマトリクスあるいはベクトル量子化される。このとき、このＬＳＰ量子化器１３４は、リーキングファクタを有する差分ベクトル量子化（差分ＶＱ）を行っても良い。差分ＶＱの量子化効率はマトリクス量子化（ＭＱ）に比べると優れており、また、ＭＱのように量子化誤差が一方のフレームに偏ることがないため、滑らかで異音の少ない音声が得られる。しかし、差分ＶＱでは一度エラーが起こると、その影響がしばらく続くので、差分のリーク量を大目にとるようにしている。しかし、入力信号判定部１１５で、背景雑音と判断されたときには、ＬＳＰは送らないので、ＬＳＰ量子化器１３４では、差分量子化の一種である上記差分ＶＱを行わない。
【００５７】
このＬＳＰ量子化器１３４からの量子化出力、すなわちＬＳＰ量子化のインデクスは、スイッチ１１９によって切り換えられてから、端子１０２を介して取り出され、また量子化済みのＬＳＰベクトルは、ＬＳＰ補間回路１３６に送られる。ここで、スイッチ１１９は、上記入力信号判定部１１５からのidVUV判定フラグにより切り換えが制御され、例えば有声音（Ｖ）のときにオンとなる。
【００５８】
また、ＬＳＰ補間回路１３６は、２０ｍsec毎に量子化されたＬＳＰのベクトルを補間し、８倍のレートにする。すなわち、２．５ｍsec 毎にＬＳＰベクトルが更新されるようにする。これは、残差波形をハーモニック符号化復号化方法により分析合成すると、その合成波形のエンベロープは非常になだらかでスムーズな波形になるため、ＬＰＣ係数が２０ｍsec 毎に急激に変化すると異音を発生することがあるからである。すなわち、２．５ｍsec 毎にＬＰＣ係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。
【００５９】
このような補間が行われた２．５ｍsec 毎のＬＳＰベクトルを用いて入力音声の逆フィルタリングを実行するために、ＬＳＰ→α変換回路１３７により、ＬＳＰパラメータを例えば１０次程度の直接型フィルタの係数であるαパラメータに変換する。このＬＳＰ→α変換回路１３７からの出力は、上記ＬＰＣ逆フィルタ回路１１１に送られ、このＬＰＣ逆フィルタ１１１では、２．５ｍsec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。このＬＰＣ逆フィルタ１１１からの出力は、サイン波分析符号化部１１４、具体的には例えばハーモニック符号化回路、の直交変換回路１４５、例えばＤＦＴ（離散フーリエ変換）回路に送られる。
【００６０】
ＬＰＣ分析・量子化部１１３のＬＰＣ分析回路１３２からのαパラメータは、聴覚重み付けフィルタ算出回路１３９に送られて聴覚重み付けのためのデータが求められ、この重み付けデータが後述する聴覚重み付きのベクトル量子化器１１６と、第２の符号化部１２０の聴覚重み付けフィルタ１２５及び聴覚重み付きの合成フィルタ１２２とに送られる。
【００６１】
ハーモニック符号化回路等のサイン波分析符号化部１１４では、ＬＰＣ逆フィルタ１１１からの出力を、ハーモニック符号化の方法で分析する。すなわち、ピッチ検出、各ハーモニクスの振幅Ａｍの算出、有声音（Ｖ）／無声音（ＵＶ）の判別を行い、ピッチによって変化するハーモニクスのエンベロープあるいは振幅Ａｍの個数を次元変換して一定数にしている。
【００６２】
図６に示すサイン波分析符号化部１１４の具体例においては、一般のハーモニック符号化を想定しているが、特に、ＭＢＥ（Multiband Excitation: マルチバンド励起）符号化の場合には、同時刻（同じブロックあるいはフレーム内）の周波数軸領域いわゆるバンド毎に有声音（Voiced）部分と無声音（Unvoiced）部分とが存在するという仮定でモデル化することになる。それ以外のハーモニック符号化では、１ブロックあるいはフレーム内の音声が有声音か無声音かの択一的な判定がなされることになる。なお、以下の説明中のフレーム毎のＶ／ＵＶとは、ＭＢＥ符号化に適用した場合には全バンドがＵＶのときを当該フレームのＵＶとしている。ここで上記ＭＢＥの分析合成手法については、本件出願人が先に提案した特願平４−９１４２２号明細書及び図面に詳細な具体例を開示している。
【００６３】
図６のサイン波分析符号化部１１４のオープンループピッチサーチ部１４１には、上記入力端子１０１からの入力音声信号が、またゼロクロスカウンタ１４２には、上記ＨＰＦ（ハイパスフィルタ）１０９からの信号がそれぞれ供給されている。サイン波分析符号化部１１４の直交変換回路１４５には、ＬＰＣ逆フィルタ１１１からのＬＰＣ残差あるいは線形予測残差が供給されている。オープンループピッチサーチ部１４１では、入力信号のＬＰＣ残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、抽出された粗ピッチデータは高精度ピッチサーチ１４６に送られて、後述するようなクローズドループによる高精度のピッチサーチ（ピッチのファインサーチ）が行われる。また、オープンループピッチサーチ部１４１からは、上記粗ピッチデータと共にＬＰＣ残差の自己相関の最大値をパワーで正規化した正規化自己相関最大値ｒ(p) が取り出され、入力信号判定部１１５に送られている。
【００６４】
直交変換回路１４５では例えばＤＦＴ（離散フーリエ変換）等の直交変換処理が施されて、時間軸上のＬＰＣ残差が周波数軸上のスペクトル振幅データに変換される。この直交変換回路１４５からの出力は、高精度ピッチサーチ部１４６及びスペクトル振幅あるいはエンベロープを評価するためのスペクトル評価部１４８に送られる。
【００６５】
高精度（ファイン）ピッチサーチ部１４６には、オープンループピッチサーチ部１４１で抽出された比較的ラフな粗ピッチデータと、直交変換部１４５により例えばＤＦＴされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部１４６では、上記粗ピッチデータ値を中心に、0.２〜0.５きざみで±数サンプルずつ振って、最適な小数点付き（フローティング）のファインピッチデータの値へ追い込む。このときのファインサーチの手法として、いわゆる合成による分析 (Analysis by Synthesis)法を用い、合成されたパワースペクトルが原音のパワースペクトルに最も近くなるようにピッチを選んでいる。このようなクローズドループによる高精度のピッチサーチ部１４６からのピッチデータについては、スイッチ１１８を介して出力端子１０４に送っている。
【００６６】
スペクトル評価部１４８では、ＬＰＣ残差の直交変換出力としてのスペクトル振幅及びピッチに基づいて各ハーモニクスの大きさ及びその集合であるスペクトルエンベロープが評価され、高精度ピッチサーチ部１４６及び聴覚重み付きのベクトル量子化器１１６に送られる。
【００６７】
入力信号判定部１１５は、オープンループピッチサーチ部１４１からの正規化自己相関最大値ｒ(p) と、ゼロクロスカウンタ１４２からのゼロクロスカウント値とに基づいて、当該フレームが上記有声音であるか、無声音であるか、あるいは背景雑音であるかの判定を行い、上記idVUV判定パラメータを出力する。この入力信号判定部１１５からの上記idVUV判定パラメータは、出力端子１０５を介して取り出されると共に、上述したように、スイッチ１１９及び、スイッチ１１７、１１８及び１２７の切り換え制御信号としても用いられる。
【００６８】
ところで、スペクトル評価部１４８の出力部あるいはベクトル量子化器１１６の入力部には、データ数変換（一種のサンプリングレート変換）部が設けられている。このデータ数変換部は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数が異なることを考慮して、エンベロープの振幅データ｜Ａ_m｜を一定の個数にするためのものである。すなわち、例えば有効帯域を３４００ｋHzまでとすると、この有効帯域が上記ピッチに応じて、８バンド〜６３バンドに分割されることになり、これらの各バンド毎に得られる上記振幅データ｜Ａ_m｜の個数ｍ_MX＋１も８〜６３と変化することになる。このためデータ数変換部では、この可変個数ｍ_MX＋１の振幅データを一定個数Ｍ個、例えば４４個、のデータに変換している。
【００６９】
このスペクトル評価部１４８の出力部あるいはベクトル量子化器１１６の入力部に設けられたデータ数変換部からの上記一定個数Ｍ個（例えば４４個）の振幅データあるいはエンベロープデータが、ベクトル量子化器１１６により、所定個数、例えば４４個のデータ毎にまとめられてベクトルとされ、重み付きベクトル量子化が施される。この重みは、聴覚重み付けフィルタ算出回路１３９からの出力により与えられる。ベクトル量子化器１１６からの上記エンベロープのインデクスは、スイッチ１１７を介して出力端子１０３より取り出される。なお、上記重み付きベクトル量子化に先だって、所定個数のデータから成るベクトルについて適当なリーク係数を用いたフレーム間差分をとっておくようにしてもよい。
【００７０】
次に、第２の符号化部１２０について説明する。第２の符号化部１２０は、いわゆるＣＥＬＰ（符号励起線形予測）符号化構成を有しており、特に、入力音声信号の無声音部分の符号化のために用いられている。この無声音部分用のＣＥＬＰ符号化構成において、雑音符号帳、いわゆるストキャスティック・コードブック（stochastic code book）１２１からの代表値出力である無声音のＬＰＣ残差に相当するノイズ出力を、ゲイン回路１２６を介して、聴覚重み付きの合成フィルタ１２２に送っている。重み付きの合成フィルタ１２２では、入力されたノイズをＬＰＣ合成処理し、得られた重み付き無声音の信号を減算器１２３に送っている。減算器１２３には、上記入力端子１０１からＨＰＦ（ハイパスフィルタ）１０９を介して供給された音声信号を聴覚重み付けフィルタ１２５で聴覚重み付けした信号が入力されており、合成フィルタ１２２からの信号との差分あるいは誤差を取り出している。なお、聴覚重み付けフィルタ１２５の出力から聴覚重み付き合成フィルタの零入力応答を事前に差し引いておくものとする。この誤差を距離計算回路１２４に送って距離計算を行い、誤差が最小となるような代表値ベクトルを雑音符号帳１２１でサーチする。このような合成による分析（Analysis by Synthesis ）法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。
【００７１】
このＣＥＬＰ符号化構成を用いた第２の符号化部１２０からのＵＶ（無声音）部分用のデータとしては、雑音符号帳１２１からのコードブックのシェイプインデクスと、ゲイン回路１２６からのコードブックのゲインインデクスとが取り出される。雑音符号帳１２１からのＵＶデータであるシェイプインデクスは、スイッチ１２７ｓを介して出力端子１０７ｓに送られ、ゲイン回路１２６のＵＶデータであるゲインインデクスは、スイッチ１２７ｇを介して出力端子１０７ｇに送られている。
【００７２】
ここで、これらのスイッチ１２７ｓ、１２７ｇ及び上記スイッチ１１７、１１８は、上記入力信号判定部１１５からのidVUV判定パラメータによりオン／オフ制御され、スイッチ１１７、１１８は、現在伝送しようとするフレームの音声信号のidVUV判定パラメータが有声音（Ｖ）のときオンとなり、スイッチ１２７ｓ、１２７ｇは、現在伝送しようとするフレームの音声信号が無声音（ＵＶ）のときオンとなる。また、idVUV判定パラメータが背景雑音を表すとき、上記スイッチ１２７ｓ、１２７ｇは、８フレーム時間毎にオンとされ、上記シェイプインデクス、ゲインインデクスを出力する。また、上記スイッチ１１９も８フレーム時間毎にオンとされ、上記ＵＶ用のＬＳＰインデクスを出力する。これらが、上述したＵＶ用の複数種類のパラメータである。
【００７３】
ここで、図４に戻る。音声復号化装置３１は、他の携帯電話装置の上記音声符号化装置２０により可変レート符号化された上記符号化データをアンテナ２６、アンテナ共用器２５、受信機２７、復調器２９及び伝送路復号化器３０を介して受け取り、復号化する。
【００７４】
この音声復号化装置３１は、上述したように、音声符号化装置２０から上記所定時間中にも常に伝送されてくるidVUV判定パラメータに基づいて、上記符号化データを復号化する。特に、idVUV判定パラメータが背景雑音区間を示す“１”であれば、８フレーム分をおいて伝送されてきた上記複数種類のパラメータ、例えば雑音符号帳のシェイプインデクスや、ゲインインデクス、又はＬＳＰパラメータを用いて、背景雑音を生成すると共に、８フレーム中では過去に送られてきた線スペクトル対（ＬＳＰ）パラメータを補間して上記背景雑音を生成する。
【００７５】
実際に、音声復号化装置３１では、常に、前回送られたＬＳＰ（prevLsp1）と前々回送られたＬＳＰ（prevLsp2）を、例えばＲＡＭ内に保持している。
【００７６】
そして、上記idVUV判定パラメータが背景雑音モードに入ると、新たなＬＳＰは送られてこないので、prevLsp1、prevLsp2の更新を行ず、この二つのＬＳＰを線形補間することにより、現在のフレームのＬＳＰとし、背景雑音を形成する。
【００７７】
背景雑音モード中、８フレーム目に通常のＵＶとして音声符号化装置側からＵＶの全パラメータが送られてくるが、このときゲイン回路１２６からのゲインインデクスを調べ、インデックスが前回送られたインデックス＋２より小さければ、そのフレームの合成に用いるＬＳＰを前回送られたパラメータに置き換える。この動作については後述する。ただし、ゲインインデクスは小さい順にソートされているものとする。
【００７８】
このような音声復号化装置３１の構成を図７及び図８に示す。図７は、音声復号化装置３１の基本構成を示すブロック図である。
【００７９】
この図７において、入力端子２０２には上記図６の出力端子１０２からの上記ＬＳＰ（線スペクトル対）の量子化出力としてのコードブックインデクスが入力される。入力端子２０３、２０４、及び２０５には、上記図６の各出力端子１０３、１０４、及び１０５からの各出力、すなわちエンベロープ量子化出力としてのインデクス、ピッチ、及びＶ／ＵＶ判定出力がそれぞれ入力される。また、入力端子２０７には、上記図６の出力端子１０７からのＵＶ（無声音）用のデータとしてのインデクスが入力される。
【００８０】
入力端子２０３からのエンベロープ量子化出力としてのインデクスは、逆ベクトル量子化器２１２に送られて逆ベクトル量子化され、ＬＰＣ残差のスペクトルエンベロープが求められて有声音合成部２１１に送られる。有声音合成部２１１は、サイン波合成により有声音部分のＬＰＣ（線形予測符号化）残差を合成するものであり、この有声音合成部２１１には入力端子２０４及び２０５からのピッチ及びidVUV判定パラメータも供給されている。有声音合成部２１１からの有声音のＬＰＣ残差は、ＬＰＣ合成フィルタ２１４に送られる。また、入力端子２０７からのＵＶデータのインデクスは、無声音合成部２２０に送られて、雑音符号帳を参照することにより無声音部分のＬＰＣ残差が取り出される。このＬＰＣ残差もＬＰＣ合成フィルタ２１４に送られる。ＬＰＣ合成フィルタ２１４では、上記有声音部分のＬＰＣ残差と無声音部分のＬＰＣ残差とがそれぞれ独立に、ＬＰＣ合成処理が施される。あるいは、有声音部分のＬＰＣ残差と無声音部分のＬＰＣ残差とが加算されたものに対してＬＰＣ合成処理を施すようにしてもよい。ここで入力端子２０２からのＬＳＰのインデクスは、ＬＰＣパラメータ再生部２１３に送られて、ＬＰＣのαパラメータが取り出され、これがＬＰＣ合成フィルタ２１４に送られる。ＬＰＣ合成フィルタ２１４によりＬＰＣ合成されて得られた音声信号は、出力端子２０１より取り出される。
【００８１】
ここで、入力端子２０５に供給されたidVUV判定パラメータと入力端子２０７に供給された上記ＵＶデータとしての雑音符号帳のシェイプインデクス及びゲインインデクスは、上記ＬＰＣパラメータ生成部２１３でのＬＰＣパラメータの再生を制御するＬＰＣパラメータ再生制御部２４０に送られる。
【００８２】
このＬＰＣ再生制御部２４０により制御され、ＬＰＣパラメータ再生部２１３は、背景雑音信号生成用のＬＰＣを生成し、ＬＰＣ合成フィルタ２１４に送る。
【００８３】
次に、図８は、上記図７に示した音声復号化装置３１のより具体的な構成を示している。この図８において、上記図７の各部と対応する部分には、同じ指示符号を付している。
【００８４】
この図８において、入力端子２０２には、上記図６の出力端子１０２からの出力に相当するＬＳＰのベクトル量子化出力、いわゆるコードブックのインデクスが供給されている。
【００８５】
このＬＳＰのインデクスは、ＬＰＣパラメータ再生部２１３のＬＳＰの逆ベクトル量子化器２３１に送られてＬＳＰ（線スペクトル対）データに逆ベクトル量子化され、スイッチ２４３を介してＬＳＰ補間回路２３２、２３３に送られてＬＳＰの補間処理が施された後、ＬＳＰ→α変換回路２３４、２３５でＬＰＣ（線形予測符号）のαパラメータに変換され、このαパラメータがＬＰＣ合成フィルタ２１４に送られる。ここで、ＬＳＰ補間回路２３２及びＬＳＰ→α変換回路２３４は有声音（Ｖ）用であり、ＬＳＰ補間回路２３３及びＬＳＰ→α変換回路２３５は無声音（ＵＶ）用である。またＬＰＣ合成フィルタ２１４は、有声音部分のＬＰＣ合成フィルタ２３６と、無声音部分のＬＰＣ合成フィルタ２３７とを分離している。すなわち、有声音部分と無声音部分とでＬＰＣの係数補間を独立に行うようにして、有声音から無声音への遷移部や、無声音から有声音への遷移部で、全く性質の異なるＬＳＰ同士を補間することによる悪影響を防止している。
【００８６】
また、図８の入力端子２０３には、上記図６のエンコーダ側の端子１０３からの出力に対応するスペクトルエンベロープ（Ａｍ）の重み付けベクトル量子化されたコードインデクスデータが供給され、入力端子２０４には、上記図６の端子１０４からのピッチのデータが供給され、入力端子２０５には、上記図６の端子１０５からのidVUV判定パラメータが供給されている。
【００８７】
入力端子２０３からのスペクトルエンベロープＡｍのベクトル量子化されたインデクスデータは、逆ベクトル量子化器２１２に送られて逆ベクトル量子化が施され、上記データ数変換に対応する逆変換が施されて、スペクトルエンベロープのデータとなって、有声音合成部２１１のサイン波合成回路２１５に送られている。
【００８８】
なお、エンコード時にスペクトルのベクトル量子化に先だってフレーム間差分をとっている場合には、ここでの逆ベクトル量子化後にフレーム間差分の復号を行ってからデータ数変換を行い、スペクトルエンベロープのデータを得る。
【００８９】
サイン波合成回路２１５には、入力端子２０４からのピッチ及び入力端子２０５からの上記idVUV判定パラメータが供給されている。サイン波合成回路２１５からは、上述した図６のＬＰＣ逆フィルタ１１１からの出力に相当するＬＰＣ残差データが取り出され、これが加算器２１８に送られている。このサイン波合成の具体的な手法については、例えば本件出願人が先に提案した、特願平４−９１４２２号の明細書及び図面、あるいは特願平６−１９８４５１号の明細書及び図面に開示されている。
【００９０】
また、逆ベクトル量子化器２１２からのエンベロープのデータと、入力端子２０４、２０５からのピッチ、idVUV判定パラメータとは、有声音（Ｖ）部分のノイズ加算のためのノイズ合成回路２１６に送られている。このノイズ合成回路２１６からの出力は、重み付き重畳加算回路２１７を介して加算器２１８に送っている。これは、サイン波合成によって有声音のＬＰＣ合成フィルタへの入力となるエクサイテイション（Excitation：励起、励振）を作ると、男声等の低いピッチの音で鼻づまり感がある点、及びＶ（有声音）とＵＶ（無声音）とで音質が急激に変化し不自然に感じる場合がある点を考慮し、有声音部分のＬＰＣ合成フィルタ入力すなわちエクサイテイションについて、音声符号化データに基づくパラメータ、例えばピッチ、スペクトルエンベロープ振幅、フレーム内の最大振幅、残差信号のレベル等を考慮したノイズをＬＰＣ残差信号の有声音部分に加えているものである。
【００９１】
加算器２１８からの加算出力は、ＬＰＣ合成フィルタ２１４の有声音用の合成フィルタ２３６に送られてＬＰＣの合成処理が施されることにより時間波形データとなり、さらに有声音用ポストフィルタ２３８ｖでフィルタ処理された後、加算器２３９に送られる。
【００９２】
次に、図８の入力端子２０７ｓ及び２０７ｇには、上記図６の出力端子１０７ｓ及び１０７ｇからのＵＶデータとしてのシェイプインデクス及びゲインインデクスがそれぞれ供給され、無声音合成部２２０に送られている。端子２０７ｓからのシェイプインデクスは、無声音合成部２２０の雑音符号帳２２１に、端子２０７ｇからのゲインインデクスはゲイン回路２２２にそれぞれ送られている。雑音符号帳２２１から読み出された代表値出力は、無声音のＬＰＣ残差に相当するノイズ信号成分であり、これがゲイン回路２２２で所定のゲインの振幅となり、窓かけ回路２２３に送られて、上記有声音部分とのつなぎを円滑化するための窓かけ処理が施される。
【００９３】
窓かけ回路２２３からの出力は、無声音合成部２２０からの出力として、ＬＰＣ合成フィルタ２１４のＵＶ（無声音）用の合成フィルタ２３７に送られる。合成フィルタ２３７では、ＬＰＣ合成処理が施されることにより無声音部分の時間波形データとなり、この無声音部分の時間波形データは無声音用ポストフィルタ２３８ｕでフィルタ処理された後、加算器２３９に送られる。
【００９４】
加算器２３９では、有声音用ポストフィルタ２３８ｖからの有声音部分の時間波形信号と、無声音用ポストフィルタ２３８ｕからの無声音部分の時間波形データとが加算され、出力端子２０１より取り出される。
【００９５】
また、ＬＰＣパラメータ再生部２１３内部には、背景雑音信号生成用に用いられるＬＰＣパラメータを再生するためのＬＳＰ補間回路２４５と、ＬＳＰ→α変換回路２４７も上記スイッチ２４３の後段に設けられている。さらに、上記ＬＳＰの逆量子化器２３１により得られた上記prevLSP1とprevLSP2を保持しておくためのＲＡＭ２４４と、８フレームの間隔があいている上記prevLSP1とprevLSP2との補間をフレーム間隔に補正するためのフレーム補間部２４５も備えている。
【００９６】
ＬＳＰ→α変換回路２４７からのBGN用のαパラメータは、ＬＰＣ合成フィルタ２１４の無声音部分のＬＰＣ合成フィルタ２３７に送られる。
【００９７】
また、上記ＬＰＣパラメータ再生制御部２４０は、入力端子２０７ｇからの上記ＵＶデータ用のゲインインデスクが、前回送られたインデックス＋２より小さいか否かを判定するインデックス判定部２４２と、このインデクス判定部２４２からの判定結果と上記入力端子２０５から供給されるidVUV判定パラメータとに基づいて上記スイッチ２４３の切り換えを制御する切り換え制御部２４１とを備えてなる。
【００９８】
上記idVUV判定パラメータが１であるとき、すなわち背景雑音区間であることを示す上記基本パラメータとなるモードビットを受信したときのこの音声復号化装置３１の動作を、図９に示すフローチャートを用いて説明する。
【００９９】
先ず、ステップＳ２１でidVUV判定パラメータが１であるとき、ＬＰＣパラメータ再生制御部２４０の切り換え制御部２４１は、切り換えスイッチ２４３をオフにする。そして、ステップＳ２２に進み、ＬＳＰ補間回路２４６で上記ＲＡＭ２４４に保持されたPrevLSP１とPrevLSP2をフレーム補間回路２４５を通して得たフレーム毎の直線補間値を使ってBGN用のＬＳＰを求める。そして、このBGN用のＬＳＰは、UV用の合成フィルタ２３７に供給され、背景雑音が合成される。
【０１００】
なお、音声符号化装置２０からは、背景雑音区間と判断されたフレームが連続８フレームとなると、次の９フレーム目は通常のＵＶデータ用のシェイプインデクス、ゲインインデクス及びＬＳＰパラメータが送られてくる。ここで、音声符号化装置２０では、９フレーム目に本当にidVUV判定パラメータがＵＶになることがないとは限らない。そこで、音声復号化装置３１側では、本当のＵＶ用データなのか、あるいは単に９フレーム目に送られたＵＶ用の全パラメータなのかを判断する必要がある。
【０１０１】
そこで、ＬＰＣパラメータ再生制御部２４０では、ステップＳ２３でidＶＵＶ＝０であるとき、ステップＳ２４に進み、インデクス判定部２４２により入力端子２０７ｇを介して送られてきたＵＶデータ用のゲインインデクスを調べ、ステップＳ２６のルーティンの処理か、ステップＳ２７の本来のＵＶの処理かを判断する。具体的には、上述したように、入力端子２０７ｇからの上記ＵＶデータ用のゲインインデスクが、前回送られたインデクス＋２より小さいか否かを判定する。９フレーム目に送られてきたＵＶデータ用のインデクスが音声としてのＵＶ用インデクスであれば前回送られたゲインインデクスのパラメータよりも大きいはずである。
【０１０２】
ステップＳ２４で上記ゲインインデクスが前回送られてきたインデクス＋２より小さいとなれば、これは９フレーム目に送られたＵＶデータ用の、すなわちルーティン用のデータであると判断し、ステップＳ２６に進み、切り換え制御部２４１により、スイッチ２４３をＬＳＰ補間回路２４６側に接続し、上記PrevLSP１とPrevLSP2を用いた直線補間により求めた値に変えて、ＵＶ用に送られたＬＳＰ逆量子化部２３１からのＬＳＰパラメータをＬＳＰ補間回路２４６に供給する。ＬＳＰ補間回路２４６では、このアップデートされたＬＳＰパラメータを、そのままＬＳＰ→α変換回路２４７に供給する。そして、ＬＳＰ→α変換回路２４７からのBGN用のαパラメータは、ＬＰＣ合成フィルタ２１４の無声音部分のＬＰＣ合成フィルタ２３７に送られ、９フレーム目には８フレーム間の背景雑音とは異なった背景雑音が得られることになる。このため、背景雑音の不自然さを緩和することができる。
【０１０３】
また、ステップＳ２４で上記ゲインインデクスが前回送られてきたインデクス＋２以上より大きいとなれば、これは９フレーム目に送られてきたのは、本当のＵＶ用のパラメータであると判断し、ステップＳ２７に進む。ステップＳ２７では、切り換え制御部２４１がスイッチ２４３をＵＶ用のＬＳＰ補間回路２３３に切り換えて、通常のＵＶ用のＬＳＰ補間により得られたＬＳＰを使った無声音の合成が行われる。
【０１０４】
一方、上記ステップＳ２３でidVUV判定パラメータが０でないと判断すると、ステップＳ２５に進み、ＵＶ用のＬＳＰからαパラメータを変換し、合成フィルタ２３６で有声音を合成する。
【０１０５】
以上のように、音声復号化装置３１では、idVUV判定パラメータが１であるとき、すなわち他の携帯電話装置の音声符号化装置が背景雑音区間を検出したときには、８フレームをおいて伝送されてきた複数種類のパラメータを用いて上記背景雑音を生成すると共に、上記８フレーム中には過去に送られたパラメータを用いて上記背景雑音を生成する。このため、背景雑音の不自然さを緩和することができる。また、９フレーム目に偶然に、本当の無声音区間が検出されて伝送されてきても、正確に判断できるので、高品質な音声を復号できる。
【０１０６】
ＬＳＰは８フレーム分のディレイが生じることになるが、背景雑音モード中は完全に滑らかに繋がることになり、急激にＬＳＰが変化して異音を発生することがなくなる。また、音声の子音部は背景雑音より高いレベルを有することが多いので、音声の子音部を誤って背景雑音として処理してしまうことを防げる。
【０１０７】
そして、再び背景雑音モードに入ったらprevLsp1、prevLsp2を線形補間することにより、現在のフレームのＬＳＰとする。
【０１０８】
ところで、モードビットが充分にあり、これを一つのモードとして送ることができれば、このような処理は必要ない。また、prevLsp1とprevLsp2の補間方法は線形補間以外にも様々なものが考えられる。
【０１０９】
なお、本発明に係る音声信号区間検出方法及び装置は、可変レートエンコーディングを行う音声符号化装置を備えた上記携帯電話装置にのみ適用されるものではなく、図１０に示すような携帯電話装置に適用されてもよい。
【０１１０】
この図１０に示す携帯電話装置は、送話用マイクロホン４１より入力された音声をＲＦ信号に変換し、このＲＦ信号を基地局を介して相手側に送信すると共に、相手側より基地局を介して送信されたＲＦ信号を受信して再生しスピーカ５２を介して使用者に聞かせることのできる携帯電話装置である。
【０１１１】
この携帯電話装置は、特に、入力信号から得られた背景雑音に応じて受話音量を制御するように、背景雑音を検出する入力信号判定部４３と、上記背景雑音に応じて受話音量を制御する受話音量コントロール部４４とを備えて成る。
【０１１２】
この携帯電話装置の送話用マイクロホン４１で電気信号とされた入力信号は、アナログ／ディジタル（Ａ／Ｄ）変換器４２によりディジタルデータとされて、音声符号化器４５に供給される。
【０１１３】
この音声符号化器４５は、ディジタルデータを圧縮し、符号化する。
【０１１４】
音声符号化器４５で情報圧縮、符号化が施されたデータは、ベースバンド信号処理回路４６に供給され、同期信号及び誤り訂正符号等が付加されたりフレーミング処理が施される。ベースバンド信号処理回路４６からの出力データは、ＲＦ送受信回路４７に供給され、必要な周波数に変調されてアンテナ４８から送信される。
【０１１５】
Ａ／Ｄ変換器４２が出力するディジタルデータは、入力信号判定部４３にも供給される。入力信号判定部４３は、上記入力信号に含まれる背景雑音を検出する。
【０１１６】
この入力信号判定部４３で検出された背景雑音は、受話音量コントロール部４４に供給される。受話音量コントロール部４４は、上記背景雑音区間を判定した結果をもとに、ディジタル／アナログ（Ｄ／Ａ）変換器５０によってアナログ信号とされた後述する受話音声を増幅するアンプ５１の利得を調整し、受話音量をコントロールする。
【０１１７】
ここで、受話音量とは、基地局を介して送信されてきた通話相手からの信号を再生するときの音量である。この通話相手からの信号は、アンテナ４８により受信され、ＲＦ送受信回路４７に供給される。ＲＦ送受信回路４７によりベースバンドに復調された相手側からの入力信号は、ベースバンド信号処理回路４６に供給され、所定の信号処理が施される。このベースバンド信号処理回路４６からの信号は、音声復号化器４９に供給される。音声復号化器４９でデコードされた音声信号は、Ｄ／Ａ変換器５０でアナログ音声信号に変換される。
【０１１８】
Ｄ／Ａ変換器５０からのアナログ音声信号は、アンプ５１に供給される。このアンプ５１は、上述したように受話音量コントロール部４４により制御されるので、スピーカ５２から発せられる再生音量、すなわち受話音量は背景雑音に応じてコントロールされる。
【０１１９】
【発明の効果】
本発明に係る音声信号区間検出方法及び装置は、背景雑音のレベルによることなく、音声信号区間と背景雑音区間との高精度な区別を実現する。
【図面の簡単な説明】
【図１】本発明に係る音声信号区間検出方法及び装置の実施の形態となる入力信号判定装置の構成を示すブロック図である。
【図２】上記図１に示した入力信号判定装置を構成する最小レベル演算部のアルゴリズムを説明するためのフローチャートである。
【図３】上記図１に示した入力信号判定装置を構成するリファレンスレベル演算部を説明するための特性図である。
【図４】上記図１に示した入力信号判定装置を用いて可変レートエンコードを行う携帯電話装置の構成を示すブロック図である。
【図５】上記携帯電話装置を構成する音声符号化装置の基本的な構成を示すブロック図である。
【図６】上記図５に示した音声符号化装置の詳細な構成を示すブロック図である。
【図７】上記携帯電話装置を構成する音声復号化装置の基本的な構成を示すブロック図である。
【図８】上記図７に示した音声復号化装置の詳細な構成を示すブロック図である。
【図９】上記音声復号化装置の動作を説明するためのフローチャートである。
【図１０】上記実施の形態となる入力信号判定部を適用した他の具体例となる携帯電話装置の構成を示すブロック図である。
【符号の説明】
３Ｖ／ＵＶ判定部、４最小レベル演算部、５リファレンスレベル演算部、７比較部、８パラメータ生成部

Claims

所定時間区間で入力信号から最小レベルを検出し、この最小レベルを保持する最小レベル演算工程と、
立ち上がりは上記入力信号と同様に立ち上がり、立ち下がりは緩やかに減少していくリファレンスレベルを前記入力信号から演算により求めるリファレンスレベル演算工程と、
上記最小レベル演算工程からの最小レベルと上記リファレンスレベル演算工程からのリファレンスレベルとを比較する比較工程と、
上記入力信号が有声音であるか無声音であるかを判定する有声音／無声音判定工程と、
上記有声音／無声音判定工程の結果と上記比較工程の結果に基づいて上記入力信号の音声信号区間を検出する工程と
を備えることを特徴とする音声信号区間検出方法。
所定時間区間で入力信号から最小レベルを検出し、この最小レベルを保持する最小レベル演算手段と、
立ち上がりは上記入力信号と同様に立ち上がり、立ち下がりは緩やかに減少していくリファレンスレベルを前記入力信号から演算により求めるリファレンスレベル演算手段と、
上記最小レベル演算手段からの最小レベルと上記リファレンスレベル演算手段からのリファレンスレベルとを比較する比較手段と、
上記入力信号が有声音であるか無声音であるかを判定する有声音／無声音判定手段と、
上記有声音／無声音判定手段の結果と上記比較手段の結果に基づいて上記入力信号の音声信号区間を検出する手段と
を備えることを特徴とする音声信号区間検出装置。