以下図面を参照しながら、この発明の実施の形態について説明する。
実施の形態1.
図1は、本実施の形態による音信号加工方法を適用した音声復号方法の全体構成を示し、図中1は音声復号装置、2はこの発明による信号加工方法を実行する信号加工部、3は音声符号、4は音声復号部、5は復号音声、6は出力音声である。信号加工部2は、信号変形部7、信号評価部12、重み付き加算部18より構成されている。信号変形部7は、フーリエ変換部8、振幅平滑化部9、位相擾乱部10、逆フーリエ部11より構成されている。信号評価部12は、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15、推定背景雑音パワー更新部16、推定雑音スペクトル更新部17より構成されている。
以下、図に基づいて動作を説明する。
まず音声符号3が音声復号装置1内の音声復号部4に入力される。なお、この音声符号3は、別途音声符号化部が音声信号を符号化した結果として出力され、通信路や記憶デバイスを介してこの音声復号部4に入力される。
音声復号部4は、音声符号3に対して、前記音声符号化部と対を成す復号処理を行い、得られた所定の長さ(1フレーム長)の信号を復号音声5として出力する。そして、この復号音声5は、信号加工部2内の信号変形部7、信号評価部12、重み付き加算部18に入力される。
信号変形部7内のフーリエ変換部8は、入力された現フレームの復号音声5と必要に応
じ前フレームの復号音声5の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを振幅平滑化部9に出力する。なお、フーリエ変換処理としては、離散フーリエ変換(DFT)、高速フーリエ変換(FFT)などが代表的である。窓がけ処理としては、台形窓、方形窓、ハニング窓など様々なものが適用可能であるが、ここでは、台形窓の両端の傾斜部分をそれぞれハニング窓の半分ずつに置換した変形台形窓を使用する。実際の形状例、復号音声5や出力音声6との時間関係については、図面を用いて後述説明する。
振幅平滑化部9は、フーリエ変換部8から入力された周波数毎のスペクトルの振幅成分に対して平滑化処理を行い、平滑化後のスペクトルを位相擾乱部10に出力する。ここで用いる平滑化処理としては、周波数軸方向、時間軸方向の何れを用いても、量子化雑音などの劣化音の抑制効果が得られる。しかし、周波数軸方向の平滑化をあまり強くすると、スペクトルの怠けが生じ、本来の背景雑音の特性を損なってしまうことが多い。一方、時間軸方向の平滑化についても、あまり強くしていくと、長時間にわたって同じ音が残ることになり、反響感が発生してしまう。色々な背景雑音に対して調整を進めた結果、周波数軸方向の平滑化はなし、時間軸方向は振幅を対数領域で平滑化する、とした場合が出力音声6の品質が良かった。その時の平滑化方法は、次式で表わされる。
yi = yi−1(1−α)+xiα ・・・ 式1
ここで、xiが現在のフレーム(第iフレーム)の平滑化前の対数振幅スペクトル値、yi−1が前フレーム(第i−1フレーム)の平滑化後の対数振幅スペクトル値、yiが現在のフレーム(第iフレーム)の平滑化後の対数振幅スペクトル値、αが0〜1の値を持つ平滑化係数である、平滑化係数αはフレーム長、解消したい劣化音のレベルなどによって最適値が異なるが、概ね0.5程度の値となる。
位相擾乱部10は、振幅平滑化部9から入力された平滑化後のスペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを逆フーリエ変換部11に出力する。各位相成分に擾乱を与える方法としては、乱数を用いて所定範囲の位相角を生成し、これを元々の位相角に加算すれば良い。位相角生成の範囲の制限を設けない場合には、各位相成分を乱数で生成した位相角に単に置換すればよい。符号化などによる劣化が大きい場合には、位相角生成の範囲は制限しない。
逆フーリエ変換部11は、位相擾乱部10から入力された擾乱後のスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を変形復号音声34として重み付き加算部18に出力する。
信号評価部12内の逆フィルタ部13は、後述する推定雑音スペクトル更新部17内に格納されている推定雑音スペクトルパラメータを用いて、前記音声復号部4から入力された復号音声5に対する逆フィルタ処理を行い、逆フィルタされた復号音声をパワー算出部14に出力する。この逆フィルタ処理によって、背景雑音の振幅が大きい、つまり音声と背景雑音が拮抗している可能性が高い成分の振幅抑圧を行っており、逆フィルタ処理を行わない場合に比べて、音声区間と背景雑音区間の信号パワー比が大きくとれるようになっている。
なお、推定雑音スペクトルパラメータは、音声符号化処理や音声復号処理との親和性、ソフトウエアの共有化といった観点で選択する。現状では多くの場合、線スペクトル対(LSP)を使用する。LSPの他にも、線形予測係数(LPC)、ケプストラムなどのスペクトル包絡パラメータ、または振幅スペクトルそのものを用いても類似の効果を得ることができる。後述する推定雑音スペクトル更新部17における更新処理としては線形補間
や平均処理などを用いる構成が簡単であり、スペクトル包絡パラメータの中では線形補間や平均処理を行ってもフィルタが安定であることが保証できるLSPとケプストラムが適している。雑音成分のスペクトルに対する表現力としてはケプストラムが優れているが、逆フィルタ部の構成の容易さという点ではLSPが勝る。振幅スペクトルを用いる場合には、この振幅スペクトル特性をもつLPCを算出して逆フィルタに使用するか、復号音声5をフーリエ変換した結果(フーリエ変換部8の出力に等しい)に対して振幅変形処理を行って逆フィルタと同様の効果を実現すればよい。
パワー算出部14は、逆フィルタ部13から入力された逆フィルタされた復号音声のパワーを求め、算出されたパワー値を背景雑音らしさ算出部15に出力する。
背景雑音らしさ算出部15は、パワー算出部14から入力されたパワーと、後述する推定雑音パワー更新部16内に格納されている推定雑音パワーを用いて、現在の復号音声5の背景雑音らしさを算出し、これを加算制御値35として重み付き加算部18に出力する。また、算出した背景雑音らしさを後述する推定雑音パワー更新部16と推定雑音スペクトル更新部17に対して出力し、パワー算出部14から入力されたパワーを後述する推定雑音パワー更新部16に対して出力する。ここで、背景雑音らしさについては、最も単純には、次式によって算出できる。
v = log(pN) − log(p) ・・・ 式2
ここで、pがパワー算出部14から入力されたパワー、pNが推定雑音パワー更新部16内に格納されている推定雑音パワー、vが算出された背景雑音らしさである。
この場合、vの値が大きい程(負値であればその絶対値が小さい程)背景雑音らしい、ということになる。この他にも、pN/pを計算してvとするなど、様々な算出方法が考えられる。
推定雑音パワー更新部16は、背景雑音らしさ算出部15から入力された背景雑音らしさとパワーを用いて、その内部に格納してある推定雑音パワーの更新を行う。例えば、入力された背景雑音らしさが高い(vの値が大きい)時に、次式に従い、入力されたパワーを推定雑音パワーに反映させることで更新を行う。
log(pN′)= (1−β)log(pN)+βlog(p) ・・・ 式3
ここで、βは0〜1の値を取る更新速度定数で、比較的0に近い値に設定するとよい。この式の右辺の値を求めて、左辺のpN′を新しい推定雑音パワーとすることで更新を行う。
なお、この推定雑音パワーの更新方法については、更に推定精度を向上させるためにフレーム間での変動性を参照したり、入力された過去のパワーを複数格納しておいて、統計分析によって雑音パワーの推定を行ったり、pの最低値をそのまま推定雑音パワーとしたりするなど様々な変形、改良が可能である。
推定雑音スペクトル更新部17は、まず入力された復号音声5を分析して、現在のフレームのスペクトルパラメータを算出する。算出するスペクトルパラメータについては逆フィルタ部13にて説明した通りで、多くの場合LSPを使用する。そして、背景雑音らしさ算出部15から入力され背景雑音らしさとここで算出したスペクトルパラメータを用いて、内部に格納してある推定雑音スペクトルを更新する。例えば、入力された背景雑音らしさが高い(vの値が大きい)時に、次式に従い、算出したスペクトルパラメータを推定雑音スペクトルに反映させることで更新を行う。
xN′= (1−γ)xN+γx ・・・ 式4
ここで、xが現在のフレームのスペクトルパラメータ、xNが推定雑音スペクトル(パラメータ)である。γは0〜1の値を取る更新速度定数で、比較的0に近い値に設定するとよい。この式の右辺の値を求めて、左辺のxN′を新しい推定雑音スペクトル(パラメータ)とすることで更新を行う。
なお、この推定雑音スペクトルの更新方法についても、上記推定雑音パワーの更新方法と同様に様々な改良が可能である。
そして、最後の処理として、重み付き加算部18は、信号評価部12から入力された加算制御値35に基づいて、音声復号部4から入力された復号音声5と信号変形部7から入力された変形復号音声34を重み付けして加算し、得られた出力音声6を出力する。重み付け加算の制御方法の動作としては、加算制御値35が大きく(背景雑音らしさが高く)なるにつれて復号音声5に対する重みを小さく、変形復号音声34に対する重みを大きく制御する。逆に加算制御値35が小さく(背景雑音らしさが低く)なるにつれて復号音声5に対する重みを大きく、変形復号音声34に対する重みを小さく制御する。
なお、フレーム間での重みの急変に伴う出力音声6の品質劣化を抑制するために、加算制御値35または重み付け係数をサンプル毎に徐々に変化するように平滑化を行うことが望ましい。
図2には、この重み付け加算部18における、加算制御値に基づく重み付け加算の制御例を示す。
図2(a)では、加算制御値35に対する2つの閾値v1とv2を用いて線形制御している場合である。加算制御値35がv1未満の場合には、復号音声5に対する重み付け係数wSを1、変形復号音声34に対する重み付け係数wNを0とする。加算制御値35がv2以上の場合には、復号音声5に対する重み付け係数wSを0、変形復号音声34に対する重み付け係数wNをANとする。そして加算制御値35がv1以上でv2未満の場合には、復号音声5に対する重み付け係数wSを1〜0、変形復号音声34に対する重み付け係数wNを0〜ANの間で線形的に計算して与えている。
この様に制御することで、確実に背景雑音区間であると判断できる場合(v2以上)には変形復号信号34のみが出力され、確実に音声区間であると判断できる場合(v1未満)には復号音声5そのものが出力され、音声区間か背景雑音区間か判断がつかない場合(v1以上v2未満)には、どちらの傾向が強いかに依存した比率で復号音声5と変形復号音声34が混合された結果が出力される。
なお、ここで確実に背景雑音区間であると判断できる場合(v2以上)に変形復号信号34に乗じる重み付け係数値ANとして1以下の値を与えれば、結果的に背景雑音区間の振幅抑圧効果が得られる。逆に1以上の値を与えれば、背景雑音区間の振幅強調効果が得られる。背景雑音区間は、音声符号化復号化処理によって振幅低下が起こる場合が多く、その場合には背景雑音区間の振幅強調を行うことによって、背景雑音の再現性を向上することができる。振幅抑圧と振幅強調のどちらを行うかは適用対象、使用者の要求などに依存する。
図2(b)では、新たな閾値v3を追加し、v1とv3間、v3とv2間で重み付け係数を線形的に計算して与えた場合である。閾値v3の位置における重み付け係数の値を調整することで、音声区間か背景雑音区間か判断がつかない場合( v1以上v2未満)に
おける混合比率を更に細かく設定することができる。一般に位相の相関が低い2つの信号を加算した場合、得られる信号のパワーは加算前の2つの信号のパワーの合計より小さくなる。v1以上v2未満の範囲における2つの重み付け係数の合計を1ないしwNより大きくすることで、このパワー低下を抑制することができる。なお、図2(a)によって得られた重み付け係数の平方根をとって更に定数を乗じた値を新たに重み付け係数とすることによっても同様の効果をもたらすことができる。
図2(c)では、図2(a)のv1未満の範囲における変形復号音声34に与える重み付け係数wNとして0より大きいBNという値を与え、これに応じてv1以上v2未満の範囲におけるwNも修正した場合である。背景雑音レベルが高い場合や、符号化における圧縮率が非常に高い場合など、音声区間における量子化雑音や劣化音が大きい場合には、この様に確実に音声区間と分かっている範囲においても、変形復号音声を加算することで、劣化音を聞こえにくくすることができる。
図2(d)は、背景雑音らしさ算出部15において、推定雑音パワーを現在のパワーで除算した結果(pN/p)を背景雑音らしさ(加算制御値35)として出力した場合に対応する制御例である。この場合、加算制御値35は復号音声5中に含まれる背景雑音の比率を示しているので、この値に比例した比率で混合されるように重み付け係数を算出している。具体的には、加算制御値35が1以上の場合にはwNが1でwSが0、1未満の場合には、wNが加算制御値35そのもの、wSが(1−wN)となっている。
図3には、フーリエ変換部8における切り出し窓、逆フーリエ変換部11における連接のための窓の実際の形状例、復号音声5との時間関係を説明する説明図を示す。
復号音声5は、音声復号部4から所定の時間長(1フレーム長)毎に出力されてくる。ここでこの1フレーム長をNサンプルとする。図3(a)は、この復号音声5の一例を示しており、x(0)〜x(N−1)が入力された現在のフレームの復号音声5に当たる。フーリエ変換部8では、図3(a)に示されるこの復号音声5に対して図3(b)に示す変形台形窓を乗じることで、長さ(N+NX)の信号を切り出す。NXは変形台形窓の両端の1未満の値を持つ区間のそれぞれの長さである。この両端の区間は長さ(2NX)のハニング窓を前半と後半に2分割したものに等しい。逆フーリエ変換部11では、逆フーリエ変換処理によって生成した信号に対して、図3(c)に示す変形台形窓を乗じ、(図3(c)に破線で示すように)前後のフレームで得られた同信号と時間関係を守りつつ信号の加算を行って、連続する変形復号音声34(図3(d))を生成する。
次のフレームの信号との連接のための区間(長さNX)については、現在のフレーム時点では変形復号音声34が確定していない。すなわち、新たに確定する変形復号音声34は、x′(−NX)〜x′(N−NX−1)である。このため、現在のフレームの復号音声5に対して得られる出力音声6は、次式の通りとなる。
y(n) = x(n) + x′(n) ・・・ 式5
(n= −NX,…,N−NX−1)
ここで、y(n)が出力音声6である。この時、信号加工部2としての処理遅延は最低でもNXだけ必要となる。
この処理遅延NXが許容できない適用対象の場合、復号音声5と変形復号音声34の時間的ズレを許容して、次式のように出力音声6を生成することもできる。
y(n) = x(n) + x′(n−NX) ・・・ 式6
(n= 0,…,N−1)
この場合、復号音声5と変形復号音声34の時間関係にズレがあるので、位相擾乱部10における擾乱が弱い(つまり復号音声の位相特性がある程度残っている)場合や、フレーム内でスペクトルやパワーが急変する場合には劣化を生じる場合がある。特に重み付き加算部18における重み付け係数が大きく変化するときと、2つの重み付け係数が拮抗している場合に劣化を生じ易い。しかし、それらの劣化は比較的少なく、信号加工部の導入効果の方が十分に大きい。よって処理遅延NXが許容できない適用対象についても、この方法を用いることができる。
なお、この図3の場合、フーリエ変換前と逆フーリエ変換後に変形台形窓を乗じており、連接部分の振幅低下を招く場合がある。この振幅低下も、位相擾乱部10における擾乱が弱い場合に起こりやすい。そのような場合には、フーリエ変換前の窓を方形窓に変更することで振幅低下の抑制が得られる。通常、位相擾乱部10によって位相が大きく変形された結果、逆フーリエ変換後の信号に最初の変形台形窓の形状が現れてこないので、前後のフレームの変形復号音声34とのスムーズな連接のために2つ目の窓がけが必要になる。
なお、ここでは、信号変形部7、信号評価部12、重み付け加算部18の処理を全てフレーム毎に行ったが、これに限ったものではない。例えば、1フレームを複数のサブフレームに分割し、信号評価部12の処理をサブフレーム毎に行ってサブフレーム毎の加算制御値35を算出し、重み付け加算部18における重み付け制御もサブフレーム毎に行っても良い。信号変形処理にフーリエ変換を使用しているので、フレーム長があまり短いとスペクトル特性の分析結果が不安定になり、変形復号音声34が安定しにくい。一方、背景雑音らしさはもっと短い区間に対しても比較的安定に算出できるので、サブフレーム毎に算出して重み付けを細かく制御することで音声の立ち上がり部分などにおける品質改善効果が得られる。
また、信号評価部12の処理をサブフレーム毎に行って、フレーム内の全ての加算制御値を組み合わせて、少数の加算制御値35を算出することもできる。音声区間を背景雑音らしいと誤りたくない場合には、全ての加算制御値の内の最小値(背景雑音らしさの最小値)を選択してフレームを代表する加算制御値35として出力すれば良い。
更に、復号音声5のフレーム長と信号変形部7の処理フレーム長は同一である必要はない。例えば、復号音声5のフレーム長が短くて、信号変形部7内のスペクトル分析にとって短すぎる場合には、複数フレームの復号音声5を蓄積して、一括して信号変形処理を行うようにすれば良い。但し、この場合には、複数フレームの復号音声5を蓄積するために処理遅延が発生してしまう。この他、復号音声5のフレーム長と全く独立に信号変形部7や信号加工部2全体の処理フレーム長を設定しても構わない。この場合、信号のバッファリングが複雑になるが、様々な復号音声5のフレーム長に依存することなく、信号加工処理にとって最適の処理フレーム長を選択でき、信号加工部2の品質が最も良くなる効果がある。
また、ここでは、背景雑音らしさの算出に、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15、推定背景雑音レベル更新部16、推定雑音スペクトル更新部17を使用したが、背景雑音らしさを評価するものであれば、この構成に限ったものではない。
この実施の形態1によれば、入力信号(復号音声)に対して所定の信号加工処理を行うことで、入力信号に含まれる劣化成分を主観的に気にならないようにした加工信号(変形復号音声)を生成し、所定の評価値(背景雑音らしさ)によって入力信号と加工信号の加算重みを制御するようにしたので、劣化成分が多く含まれる区間を中心に加工信号の比率
を増やして、主観品質を改善できる効果がある。
また、スペクトル領域で信号加工処理を行うようにしたことで、スペクトル領域での細かい劣化成分の抑圧処理を行うことができ、更に主観品質を改善できる効果がある。
また、加工処理として振幅スペクトル成分の平滑化処理と位相スペクトル成分の擾乱付与処理を行うようにしたので、量子化雑音などによって生じる振幅スペクトル成分の不安定な変動を良好に抑圧することができ、更に、位相成分間に独特な相互関係を持ってしまい特徴的な劣化と感じられることが多い量子化雑音に対して、位相成分間の関係に擾乱を与えることができ、主観品質を改善できる効果がある。
また、従来の音声区間または背景雑音区間のどちらか、という2値区間判定を廃し、背景雑音らしさという連続量を算出して、これに基づいて連続的に復号音声と変形復号音声の重み付け加算係数を制御するようにしたので、区間判定誤りによる品質劣化を回避できる効果がある。
また、音声区間における量子化雑音や劣化音が大きい場合には、確実に音声区間と分かっている区間においても、変形復号音声を加算することで、劣化音を聞こえにくくすることができる効果がある。
また、背景雑音の情報が多く含まれている復号音声の加工処理によって出力音声を生成しているので、実際の背景雑音の特性を残しつつ、雑音種やスペクトル形状にあまり依存しない安定な品質改善効果が得られるし、音源符号化などによる劣化成分に対しても改善効果が得られる効果がある。
また、現在までの復号音声を用いて処理を行うので特に大きな遅延時間は不要で、復号音声と変形復号音声の加算方法によっては処理時間以外の遅延を排除することもできる効果がある。変形復号音声のレベルを上げる際には復号音声のレベルを下げていくので、従来のように量子化雑音を聞こえなくするために大きな疑似雑音を重畳することも不要で、逆に適用対象に応じて、背景雑音レベルを小さ目にしたり、大き目にしたりすることすら可能である。また、当然のことであるが、音声復号装置または信号加工部内に閉じた処理であるので従来のような新たな伝送情報の追加は不要である。
更に、この実施の形態1では、音声復号部と信号加工部が明確に分離されており、両者の間の情報のやりとりも少ないので、既存のものも含めて様々な音声復号装置内に導入することが容易である。
実施の形態2.
図4は、本実施の形態による音信号加工方法を雑音抑圧方法と組み合わて適用した音信号加工装置の構成の一部を示す。図中36は入力信号、8はフーリエ変換部、19は雑音抑圧部、39はスペクトル変形部、12は信号評価部、18は重み付き加算部、11は逆フーリエ変換部、40は出力信号である。スペクトル変形部39は、振幅平滑化部9、位相擾乱部10より構成されている。
以下、図に基づいて動作を説明する。
まず、入力信号36が、フーリエ変換部8と信号評価部12に入力される。
フーリエ変換部8は、入力された現フレームの入力信号36と必要に応じ前フレームの入力信号36の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを雑音抑圧部
19に出力する。なお、フーリエ変換処理および窓がけ処理については実施の形態1と同様である。
雑音抑圧部19は、フーリエ変換部8より入力された周波数毎のスペクトル成分から、雑音抑圧部19内部に格納してある推定雑音スペクトルを減算し、得られた結果を雑音抑圧スペクトル37として重み付け加算部18とスペクトル変形部39内の振幅平滑化部9に出力する。これは、いわゆるスペクトルサブトラクション処理の主部に相当する処理である。そして、雑音抑圧部19は、背景雑音区間であるか否かの判定を行い、背景雑音区間であればフーリエ変換部8より入力された周波数毎のスペクトル成分を用いて、内部の推定雑音スペクトルを更新する。なお、背景雑音区間であるか否かの判定は、後述する信号評価部12の出力結果を流用して行うことで処理を簡易化することも可能である。
スペクトル変形部39内の振幅平滑化部9は、雑音抑圧部19より入力された雑音抑圧スペクトル37の振幅成分に対して平滑化処理を行い、平滑化後の雑音抑圧スペクトルを位相擾乱部10に出力する。ここで用いる平滑化処理としては、周波数軸方向、時間軸方向の何れを用いても、雑音抑圧部が発生させた劣化音の抑制効果が得られる。具体的な平滑化方法については実施の形態1と同様のものを用いることができる。
スペクトル変形部39内の位相擾乱部10は、振幅平滑化部9から入力された平滑化後の雑音抑圧スペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを変形雑音抑圧スペクトル38として重み付き加算部18に出力する。各位相成分に擾乱を与える方法については実施の形態1と同様のものを用いることができる。
信号評価部12は、入力信号36を分析して背景雑音らしさを算出し、これを加算制御値35として重み付け加算部18に出力する。なお、この信号評価部12内の構成と各処理については、実施の形態1と同様のものを用いることができる。
重み付き加算部18は、信号評価部12から入力された加算制御値35に基づいて、雑音抑圧部19から入力された雑音抑圧スペクトル37とスペクトル変形部39から入力された変形雑音抑圧スペクトル38を重み付けして加算し、得られたスペクトルを逆フーリエ変換部11に出力する。重み付け加算の制御方法の動作としては、実施の形態1と同様に、加算制御値35が大きく(背景雑音らしさが高く)なるにつれて雑音抑圧スペクトル37に対する重みを小さく、変形雑音抑圧スペクトル38に対する重みを大きく制御する。逆に加算制御値35が小さく(背景雑音らしさが低く)なるにつれて雑音抑圧スペクトル37に対する重みを大きく、変形雑音抑圧スペクトル38に対する重みを小さく制御する。
そして、最後の処理として、逆フーリエ変換部11は、重み付き加算部18から入力されたスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を出力信号40として出力する。連接のための窓がけと連接処理については、実施の形態1と同様である。
この実施の形態2によれば、雑音抑圧処理等によって劣化したスペクトルに対して所定の加工処理を行うことで、劣化成分を主観的に気にならないようにした加工スペクトル(変形雑音抑圧スペクトル)を生成し、所定の評価値(背景雑音らしさ)によって加工前のスペクトルと加工スペクトルの加算重みを制御するようにしたので、劣化成分が多く含まれて主観品質の低下につながっている区間(背景雑音区間)を中心に加工スペクトルの比率を増やして、主観品質を改善できる効果がある。
また、スペクトル領域での重み付け加算を行うようにしたので、実施の形態1に比べると加工処理のためのフーリエ変換と逆フーリエ変換が不要となり、処理が簡易になる効果がある。なお、この実施の形態2におけるフーリエ変換部8と逆フーリエ変換11は、雑音抑圧部19のために元々必要な構成である。
また、加工処理として振幅スペクトル成分の平滑化処理と位相スペクトル成分の擾乱付与処理を行うようにしたので、量子化雑音などによって生じる振幅スペクトル成分の不安定な変動を良好に抑圧することができ、更に、位相成分間に独特な相互関係を持ってしまい特徴的な劣化と感じられることが多い量子化雑音や劣化成分に対して、位相成分間の関係に擾乱を与えることができ、主観品質を改善できる効果がある。
また、背景雑音区間であるか否かという2値区間判定ではなく、背景雑音らしさという連続量を算出して、これに基づいて連続的に重み付け加算係数を制御するようにしたので、区間判定誤りによる品質劣化を回避できる効果がある。
また、背景雑音区間以外における劣化音が大きい場合には、図2(c)のような重み付け加算を行うことで、確実に背景雑音区間以外と分かっている区間においても変形雑音抑圧スペクトルを加算し、劣化音を聞こえにくくすることができる効果がある。
また、雑音抑圧スペクトルに対して、単純な処理を直接施して変形雑音抑圧スペクトルを生成しているので、雑音種やスペクトル形状にあまり依存しない安定な品質改善効果が得られる効果がある。
また、現在までの雑音抑圧スペクトルを用いて処理を行うので、雑音抑圧部19の遅延時間に追加して、大きな遅延時間がいらない特長を持つ。変形雑音抑圧スペクトルの加算レベルをあげる際には元々の雑音抑圧スペクトルの加算レベルを下げていくので、量子化雑音を聞こえなくするために比較的大きな雑音を重畳することも不要で、背景雑音レベルを小さくすることができる効果がある。また、当然のことであるが、この処理を音声符号化処理の前処理などとして用いる場合にも、符号化部内に閉じた処理となるので従来のような新たな伝送情報の追加は不要である。
実施の形態3.
図1との対応部分に同一符号を付けた図5は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中20は信号変形部7の変形強度を制御する情報を出力する変形強度制御部である。変形強度制御部20は、聴覚重み付け部21、フーリエ変換部22、レベル判定部23、連続性判定部24、変形強度算出部25より構成されている。
以下、図に基づいて動作を説明する。
音声復号部4から出力された復号音声5が、信号加工部2内の信号変形部7、変形強度制御部20、信号評価部12、重み付き加算部18に入力される。
変形強度制御部20内の聴覚重み付け部21は、音声復号部4より入力された復号音声5に対して、聴覚重み付け処理を行い、得られた聴覚重み付け音声をフーリエ変換部22に出力する。ここで、聴覚重み付け処理としては、音声符号化処理(音声復号部4で行った音声復号処理と対を成すもの)で使用されているものと同様な処理を行う。
CELPなどの符号化処理で良く用いられる聴覚重み付け処理は、符号化対象の音声を分析して線形予測係数(LPC)を算出し、これに定数乗算を行って2つの変形LPCを
求め、この2つの変形LPCをフィルタ係数とするARMAフィルタを構成し、このフィルタを用いたフィルタリング処理によって聴覚重み付けを行う、というものである。復号音声5に対して符号化処理と同様の聴覚重み付けを行うためには、受信した音声符号3を復号して得られたLPC、もしくは復号音声5を再分析して算出したLPCを出発点として、2つの変形LPCを求め、これを用いて聴覚重み付けフィルタを構成すれば良い。
CELPなどの符号化処理では、聴覚重み付け後の音声上での歪みを最小化するように符号化を行うので、聴覚重み付け後の音声において、振幅が大きいスペクトル成分は、量子化雑音の重畳が少ない、ということになる。従って、符号化時の聴覚重み付け音声に近い音声を復号化部1内で生成できれば、信号変形部7における変形強度の制御情報として有用である。
なお、音声復号部4における音声復号処理にスペクトルポストフィルタなどの加工処理が含まれている場合(CELPの場合にはほとんどに含まれている)には、本来であればまず復号音声5からスペクトルポストフィルタなどの加工処理の影響を除去した音声を生成するか、音声復号部4内からこの加工処理直前の音声を抽出するかして、該音声に対して聴覚重み付けを行うことによって、符号化時の聴覚重み付け音声に近い音声が得られる。しかし、背景雑音区間の品質改善を主な目的とする場合には、この区間におけるスペクトルポストフィルタなどの加工処理の影響は少なく、その影響を除去しなくても効果に大差は出ない。この実施の形態3は、スペクトルポストフィルタなどの加工処理の影響除去を行わない構成としている。
なお、当然のことであるが、符号化処理において聴覚重み付けを行っていない場合や、その効果が小さくて無視しても良い場合には、この聴覚重み付け部21は不要となる。その場合、信号変形部7内のフーリエ変換部8の出力を、後述するレベル判定部23と連続性判定部24に与えればよいので、フーリエ変換部22も不要とできる。
更に、スペクトル領域でも非線型振幅変換処理など聴覚重み付けに近い効果をもたらす方法があるので、符号化処理内で使用している聴覚重み付け方法との誤差を無視して構わない場合には、信号変形部7内のフーリエ変換部8の出力をこの聴覚重み付け部21への入力とし、聴覚重み付け部21がこの入力に対してスペクトル領域での聴覚重み付けを行い、フーリエ変換部22を省略して、後述するレベル判定部23と連続性判定部24に聴覚重み付けされたスペクトルを出力するように構成することも可能である。
変形強度制御部20内のフーリエ変換部22は、聴覚重み付け部21より入力された聴覚重み付け音声と必要に応じ前フレームの聴覚重み付け音声の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを聴覚重み付けスペクトルとしてレベル判定部23と連続性判定部24に出力する。なお、フーリエ変換処理および窓がけ処理については実施の形態1のフーリエ変換部8と同様である。
レベル判定部23は、フーリエ変換部22から入力された聴覚重み付けスペクトルの各振幅成分の値の大きさに基づいて、各周波数毎の第一の変形強度を算出し、これを変形強度算出部25に出力する。聴覚重み付けスペクトルの各振幅成分の値が小さい程量子化雑音の比率が大きいので、第一の変形強度を強くすればよい。最も単純には、全振幅成分の平均値を求めて、この平均値に所定の閾値Thを加算して、これを上回る成分に対しては第一の変形強度を0、これを下回る成分に対しては第一の変形強度を1とすればよい。図6には、この閾値Thを用いた場合の聴覚重み付けスペクトルと第一の変形強度の関係を示す。なお、第一の変形強度の算出方法はこれに限定されるものではない。
連続性判定部24は、フーリエ変換部22から入力された聴覚重み付けスペクトルの各振幅成分または各位相成分の時間方向の連続性を評価し、この評価結果に基づいて、各周波数毎の第二の変形強度を算出し、これを変形強度算出部25に出力する。聴覚重み付けスペクトルの振幅成分の時間方向の連続性、位相成分の(フレーム間の時間推移による位相の回転を補償した後の)連続性が低い周波数成分については、良好な符号化が行われていたとは考えにくいので、第二の変形強度を強くする。この第二の変形強度の算出についても、最も単純には所定の閾値を用いた判定によって0または1を与える方法を用いることができる。
変形強度算出部25は、レベル判定部23より入力された第一の変形強度と、連続性判定部24より入力された第二の変形強度に基づいて、各周波数毎の最終的な変形強度を算出し、これを信号変形部7内の振幅平滑化部9と位相擾乱部10に出力する。この最終的な変形強度については、第一の変形強度と第二の変形強度の最小値、重み付き平均値、最大値などを用いることができる。 以上でこの実施の形態3にて新たに加わった変形強度制御部20の動作の説明を終了する。
次に、この変形強度制御部20の追加に伴って、動作に変更がある構成要素について説明する。
振幅平滑化部9は、変形強度制御部20より入力された変形強度に従い、フーリエ変換部8から入力された周波数毎のスペクトルの振幅成分に対して平滑化処理を行い、平滑化後のスペクトルを位相擾乱部10に出力する。なお、変形強度が強い周波数成分程、平滑化を強めるように制御する。平滑化強度の強さを制御する最も単純な方法は、入力された変形強度が大きいときにのみ平滑化を行うようにすればよい。この他にも平滑化を強める方法としては、実施の形態1で説明した平滑化の数式における平滑化係数αを小さくしたり、固定的な平滑化を行った後のスペクトルと平滑化前のスペクトルを重み付き加算して最終的なスペクトルを生成するように構成しておき、平滑化前のスペクトルに対する重みを小さくするなど様々な方法を用いることができる。
位相擾乱部10は、変形強度制御部20より入力された変形強度に従い、振幅平滑化部9から入力された平滑化後のスペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを逆フーリエ変換部11に出力する。なお、変形強度が強い周波数成分程、位相の擾乱を大きく与えるように制御する。擾乱の大きさを制御する最も単純な方法は、入力された変形強度が大きいときにのみ擾乱を与えるようにすればよい。この他にも擾乱を制御する方法としては、乱数で生成する位相角の範囲を大小させるなど様々な方法を用いることができる。
その他の構成要素については、実施の形態1と同様であるため説明を省略する。
なお、ここでは、レベル判定部23と連続性判定部24の両方の出力結果を使用したが、一方だけを使用するようにして、残るもう一方は省略する構成も可能である。また、変形強度によって制御する対象を、振幅平滑化部9と位相擾乱部10の一方のみとする構成でも構わない。
この実施の形態3によれば、入力信号(復号音声)または聴覚重み付けされた入力信号(復号音声)の各周波数成分毎の振幅の大きさ、各周波数毎の振幅や位相の連続性の大きさに基づいて、加工信号(変形復号音声)を生成する際の変形強度を周波数毎に制御するようにしたので、実施の形態1が持つ効果に加えて、前記振幅スペクトル成分が小さいために量子化雑音や劣化成分が支配的になっている成分、スペクトル成分の連続性が低いために量子化雑音や劣化成分が多くなりがちな成分に対して重点的に加工が加えられ、量子
化雑音や劣化成分が少ない良好な成分まで加工してしまうことがなくなり、入力信号や実際の背景雑音の特性を比較的良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。
実施の形態4.
図5との対応部分に同一符号を付けた図7は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中41は加算制御値分割部であり、図5における信号変形部7の部分は、フーリエ変換部8、スペクトル変形部39、逆フーリエ変換部11の構成に変更している。
以下、図に基づいて動作を説明する。
音声復号部4から出力された復号音声5は、信号加工部2内のフーリエ変換部8、変形強度制御部20、信号評価部12に入力される。
フーリエ変換部8は、実施の形態2と同様にして、入力された現フレームの復号音声5と必要に応じ前フレームの復号音声5の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを復号音声スペクトル43として重み付き加算部18とスペクトル変形部39内の振幅平滑化部9に出力する。
スペクトル変形部39は、実施の形態2と同様にして、入力された復号音声スペクトル43に対して、振幅平滑化部9、位相擾乱部10の処理を順に行い、得られたスペクトルを変形復号音声スペクトル44として、重み付き加算部18に出力する。
変形強度制御部20内では、実施の形態3と同様に、入力された復号音声5に対して、聴覚重み付け部21、フーリエ変換部22、レベル判定部23、連続性判定部24、変形強度算出部25の処理を順次行い、得られた周波数毎の変形強度を加算制御値分割部41に出力する。
なお、実施の形態3と同様に、符号化処理において聴覚重み付けを行っていない場合や、その効果が小さい場合には、聴覚重み付け部21とフーリエ変換部22は不要となる。その場合、フーリエ変換部8の出力を、レベル判定部23と連続性判定部24に与えればよい。
また、フーリエ変換部8の出力をこの聴覚重み付け部21への入力とし、聴覚重み付け部21がこの入力に対してスペクトル領域での聴覚重み付けを行い、フーリエ変換部22を省略して、後述するレベル判定部23と連続性判定部24に聴覚重み付けされたスペクトルを出力するように構成することも可能である。この様に構成することで、処理の簡易化効果が得られる。
信号評価部12は、実施の形態1と同様に、入力された復号音声5に対して、背景雑音らしさを求めて、これを加算制御値35として加算制御値分割部41に出力する。
新たに加えられた加算制御値分割部41は、変形強度制御部20から入力された周波数毎の変形強度と、信号評価部12から入力された加算制御値35を用いて、周波数毎の加算制御値42を生成し、これを重み付き加算部18に出力する。変形強度が強い周波数については、その周波数の加算制御値42の値を制御して、重み付き加算部18における復号音声スペクトル43の重みを弱く、変形復号音声スペクトル44の重みを強くする。逆に変形強度が弱い周波数については、その周波数の加算制御値42の値を制御して、重み
付き加算部18における復号音声スペクトル43の重みを強く、変形復号音声スペクトル44の重みを弱くする。つまり、変形強度が強い周波数については、背景雑音らしさが高いわけであるので、その周波数の加算制御値42を大きくし、逆の場合には、小さくするわけである。
重み付き加算部18は、加算制御値分割部41から入力された周波数毎の加算制御値42に基づいて、フーリエ変換部8から入力された復号音声スペクトル43とスペクトル変形部39から入力された変形復号音声スペクトル44を重み付けして加算し、得られたスペクトルを逆フーリエ変換部11に出力する。重み付け加算の制御方法の動作としては、図2にて説明したのと同様に、周波数毎の加算制御値42が大きい(背景雑音らしさが高い)周波数成分に対しては復号音声スペクトル43に対する重みを小さく、変形復号音声スペクトル44に対する重みを大きく制御する。逆に周波数毎の加算制御値42が小さい(背景雑音らしさが低い)周波数成分に対しては復号音声スペクトル43に対する重みを大きく、変形復号音声スペクトル44に対する重みを小さく制御する。
そして、最後の処理として、逆フーリエ変換部11は、実施の形態2と同様にして、重み付き加算部18から入力されたスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を出力音声6として出力する。
なお、加算制御値分割部41を廃して、信号評価部12の出力を重み付き加算部18に与え、変形強度制御部20の出力である変形強度を振幅平滑化部9と位相擾乱部10に与える構成も可能である。この様にしたものは、実施の形態3の構成における重み付き加算処理をスペクトル領域で行うようにしたものに相当する。
更に、実施の形態3の場合と同様に、レベル判定部23と連続性判定部24の一方だけを使用するようにして、残るもう一方は省略する構成も可能である。
この実施の形態4によれば、入力信号(復号音声)または聴覚重み付けされた入力信号(復号音声)の各周波数成分毎の振幅の大きさ、各周波数毎の振幅や位相の連続性の大きさに基づいて、入力信号のスペクトル(復号音声スペクトル)と加工スペクトル(変形復号音声スペクトル)の重み付け加算を周波数成分毎に独立に制御するようにしたので、実施の形態1が持つ効果に加えて、前記振幅スペクトル成分が小さいために量子化雑音や劣化成分が支配的になっている成分、スペクトル成分の連続性が低いために量子化雑音や劣化成分が多くなりがちな成分に対して重点的に加工スペクトルの重みを強め、量子化雑音や劣化成分が少ない良好な成分まで加工スペクトルの重みを強めてしまうことがなくなり、入力信号や実際の背景雑音の特性を比較的良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。
実施の形態3と比較すると、平滑化と擾乱という2つの周波数毎の変形処理から、1つの周波数毎の変形処理に変わっており、処理が簡易化される効果がある。
実施の形態5.
図5との対応部分に同一符号を付けた図8は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中26は背景雑音らしさ(加算制御値35)の時間方向の変動性を判定する変動性判定部である。
以下、図に基づいて動作を説明する。
音声復号部4から出力された復号音声5が、信号加工部2内の信号変形部7、変形強度制御部20、信号評価部12、重み付き加算部18に入力される。 信号評価部12は、
入力された復号音声5に対して、背景雑音らしさを評価し、評価結果を加算制御値35として、変動性判定部26と重み付き加算部18に出力する。
変動性判定部26は、信号評価部12より入力された加算制御値35を、その内部に格納している過去の加算制御値35と比較し、値の時間方向の変動性が高いか否かを判定し、この判定結果に基づいて第三の変形強度を算出し、これを変形強度制御部20内の変形強度算出部25に出力する。そして、入力された加算制御値35を用いて内部に格納している過去の加算制御値35を更新する。
加算制御値35などのフレーム(またはサブフレーム)の特性を表すパラメータの時間方向の変動性が高い場合には、復号音声5のスペクトルが時間方向に大きく変化している場合が多く、必要以上に強い振幅平滑化や位相擾乱付与を行うと不自然な反響感が発生してしまう。そこで、この第三の変形強度は、加算制御値35の時間方向の変動性が高い場合には、振幅平滑化部9における平滑化と位相擾乱部10における擾乱付与が弱くなるように設定する。なお、フレーム(またはサブフレーム)の特性を表すパラメータであれば、復号音声のパワー、スペクトル包絡パラメータなど、加算制御値35以外のパラメータを用いても同様の効果を得ることができる。
変動性の判定方法としては、最も単純には、前フレームの加算制御値35との差分の絶対値を所定の閾値と比較して、閾値を上回っていれば変動性が高い、とすれば良い。この他、前フレームおよび前々フレームの加算制御値35との差分の絶対値を各々算出して、その一方が所定の閾値を上回っているか否かで判定してもよい。また、信号評価部12がサブフレーム毎に加算制御値35を算出する場合には、現在のフレーム内または必要に応じて前フレーム内の全サブフレーム間の加算制御値35の差分の絶対値を求めて、何れかが所定の閾値を上回っているか否かで判定することもできる。そして、具体的な処理例としては、閾値を上回っていれば第三の変形強度を0、閾値を下回っていれば第三の変形強度を1とする。
変形強度制御部20内では、入力された復号音声5に対して、聴覚重み付け部21、フーリエ変換部22、レベル判定部23、連続性判定部24までは、実施の形態3と同様な処理を行う。
そして、変形強度算出部25では、レベル判定部23より入力された第一の変形強度、連続性判定部24より入力された第二の変形強度、変動性判定部26より入力された第三の変形強度に基づいて、各周波数毎の最終的な変形強度を算出し、これを信号変形部7内の振幅平滑化部9と位相擾乱部10に出力する。この最終的な変形強度の算出方法としては、第三の変形強度を全周波数に対して一定値として与え、周波数毎にこの全周波数に拡張した第三の変形強度、第一の変形強度、第二の変形強度の最小値、重み付き平均値、最大値などを求めて最終的な変形強度とする、という方法を用いることができる。
以降の信号変形部7、重み付き加算部18の動作は、実施の形態3と同様であり、説明を省略する。
なお、ここでは、レベル判定部23と連続性判定部24の両方の出力結果を使用したが、一方だけを使用するようにしたり、両方とも使用しない構成も可能である。また、変形強度によって制御する対象を、振幅平滑化部9と位相擾乱部10の一方のみとしたり、第三の変形強度については一方のみを制御対象とする構成でも構わない。
この実施の形態5によれば、実施の形態3の構成に加えて、平滑化強度または擾乱付与強度を、所定の評価値(背景雑音らしさ)の時間変動性(フレームまたはサブフレーム間の変動性)の大きさによって制御するようにしたので、実施の形態3が持つ効果に加えて
、入力信号(復号音声)の特性が変動している区間において必要以上に強い加工処理を抑止でき、なまけ、エコー(反響感)の発生を防止できる効果がある。
実施の形態6.
図5との対応部分に同一符号を付けた図9は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示す。図中27は摩擦音らしさ評価部、31は背景雑音らしさ評価部、45は加算制御値算出部である。摩擦音らしさ評価部27は、低域カットフィルタ28、零交差数カウント部29、摩擦音らしさ算出部30より構成される。背景雑音らしさ評価部31は、図5における信号評価部12と同じ構成であり、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15、推定雑音パワー更新部16、推定雑音スペクトル更新部17より構成される。信号評価部12は、図5の場合と異なり、摩擦音らしさ評価部27、背景雑音らしさ評価部31、加算制御値算出部45より構成される。
以下、図に基づいて動作を説明する。
音声復号部4から出力された復号音声5が、信号加工部2内の信号変形部7、変形強度制御部20、信号評価部12内の摩擦音らしさ評価部27と背景雑音らしさ評価部31、そして重み付き加算部18に入力される。
信号評価部12内の背景雑音らしさ評価部31は、実施の形態3における信号評価部12と同様に、入力された復号音声5に対して、逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15の処理を行って、得られた背景雑音らしさ46を加算制御値算出部45に出力する。また、推定雑音パワー更新部16、推定雑音スペクトル更新部17の処理を行って、各々に格納してある推定雑音パワーと推定雑音スペクトルの更新を行う。
摩擦音らしさ評価部27内の低域カットフィルタ28は、入力された復号音声5に対して低周波数成分を抑圧する低域カットフィルタリング処理を行い、フィルタリング後の復号音声を零交差数カウント部29に出力する。この低域カットフィルタリング処理の目的は、復号音声に含まれる直流成分や低周波数の成分がオッフセットとなって、後述する零交差数カウント部29のカウント結果が少なくなることを防止することである。従って、単純には、フレーム内の復号音声5の平均値を算出し、これを復号音声5の各サンプルから減算することでもよい。
零交差数カウント部29は、低域カットフィルタ28より入力された音声を分析して、含まれる零交差数を数え上げ、得られた零交差数を摩擦音らしさ算出部30に出力する。零交差数を数え上げる方法としては、隣接サンプルの正負を比較し、同一でなければ零を交差している、としてカウントする方法、隣接サンプルの値の積をとって、その結果が負または零であれば零を交差している、としてカウントする方法などがある。
摩擦音らしさ算出部30は、零交差数カウント部29より入力された零交差数を、所定の閾値と比較し、この比較結果に基づいて摩擦音らしさ47を求めて、これを加算制御値算出部45に出力する。例えば、零交差数が閾値より大きい場合には、摩擦音らしいと判定して摩擦音らしさを1に設定する。逆に零交差数が閾値より小さい場合には、摩擦音らしくないと判定して摩擦音らしさを0に設定する。この他、閾値を2つ以上設けて、摩擦音らしさを段階的に設定したり、所定の関数を用意しておいて、零交差数から連続的な値の摩擦音らしさを算出するようにしても良い。
なお、この摩擦音らしさ評価部27内の構成は、あくまでも一例にすぎず、スペクトル傾斜の分析結果に基づいて評価するようにしたり、パワーやスペクトルの定常性に基づい
て評価するようにしたり、零交差数も含めて複数のパラメータを組み合わせて評価するようにしたりしても構わない。
加算制御値算出部45は、背景雑音らしさ評価部31より入力された背景雑音らしさ46と、摩擦音らしさ評価部27より入力された摩擦音らしさ47に基づいて、加算制御値35を算出し、これを重み付き加算部18に出力する。背景雑音らしい場合と摩擦音らしい場合のどちらにおいても、量子化雑音が聞き苦しくなってしまうことが多いので、背景雑音らしさ46と摩擦音らしさ47を適切に重み付き加算することで加算制御値35を算出すればよい。
以降の信号変形部7、変形強度制御部20、重み付き加算部18の動作は、実施の形態3と同様であり、説明を省略する。
この実施の形態6によれば、入力信号(復号音声)の背景雑音らしさと摩擦音らしさが高い場合に、入力信号(復号音声)の代わりに加工信号(変形復号音声)をより大きく出力するようにしたので、実施の形態3が持つ効果に加えて、量子化雑音や劣化成分が多く発生しがちな摩擦音区間に対して重点的な加工が加えられ、摩擦音以外の区間についてもその区間に適切な加工(加工しない、低レベルの加工を行うなど)が選択されるので、主観品質を改善できる効果がある。 なお、摩擦音らしさ以外にも、量子化雑音や劣化成分が多く発生しがちな部分がある程度特定できる場合には、その部分らしさを評価して、加算制御値に反映させることが可能である。その様に構成すれば、大きい量子化雑音や劣化成分を1つずつ抑圧していくことができるので、主観品質が一層改善できる効果がある。
また、当然のことであるが、背景雑音らしさ評価部を削除した構成も可能である。
実施の形態7.
図1との対応部分に同一符号を付けた図10は、本実施の形態による信号加工方法を適用した音声復号装置の全体構成を示し、図中32はポストフィルタ部である。
以下、図に基づいて動作を説明する。
まず音声符号3が音声復号装置1内の音声復号部4に入力される。
音声復号部4は、入力された音声符号3に対して復号処理を行い、得られた復号音声5をポストフィルタ部32、信号変形部7、信号評価部12に出力する。
ポストフィルタ部32は、入力された復号音声5に対して、スペクトル強調処理、ピッチ周期性強調処理などを行い、得られた結果をポストフィルタ復号音声48として重み付き加算部18に出力する。このポストフィルタ処理は、CELP復号処理の後処理として一般的に使用されているもので、符号化復号化によって発生した量子化雑音を抑圧することを目的として導入されている。スペクトル強度の弱い部分には量子化雑音が多く含まれているので、この成分の振幅を抑圧してしまうものである。なお、ピッチ周期性強調処理が行われず、スペクトル強調処理だけが行われている場合もある。
なお、実施の形態1、実施の形態3ないし6は、このポストフィルタ処理を音声復号部4内に含まれるもの、もしくは存在しないものの何れにも適用可能なものについて説明したが、この実施の形態7では、音声復号部4内にポストフィルタ処理が含まれるものからポストフィルタ処理の全部もしくは一部をポストフィルタ部32として独立させている。
信号変形部7は、実施の形態1と同様に、入力された復号音声5に対して、 フーリエ
変換部8、振幅平滑化部9、位相擾乱部10、逆フーリエ変換部11の処理を行い、得られた変形復号音声34を重み付き加算部18に出力する。
信号評価部12は、実施の形態1と同様に、入力された復号音声5に対して、背景雑音らしさを評価し、評価結果を加算制御値35として重み付き加算部18に出力する。
そして、最後の処理として、重み付き加算部18は、実施の形態1と同様に、信号評価部12から入力された加算制御値35に基づいて、ポストフィルタ部32から入力されたポストフィルタ復号音声48と信号変形部7から入力された変形復号音声34を重み付け加算し、得られた出力音声6を出力する。
この実施の形態7によれば、ポストフィルタによる加工前の復号音声に基づいて変形復号音声を生成し、更にポストフィルタによる加工前の復号音声を分析して背景雑音らしさを求め、これに基づいてポストフィルタ復号音声と変形復号音声の加算時の重みを制御するようにしたので、実施の形態1が持つ効果に加えて、ポストフィルタによる復号音声の変形を含まない変形復号音声が生成でき、ポストフィルタによる復号音声の変形に影響されずに算出した精度の高い背景雑音らしさに基づいて精度の高い加算重み制御ができるようになるので、更に主観品質が改善する効果がある。
背景雑音区間においては、ポストフィルタによって劣化音までも強調されて聞き苦しくなってしまっていることが多く、ポストフィルタによる加工前の復号音声を出発点として変形復号音声を生成した方が、歪み音は小さくなる。また、ポストフィルタの処理が複数のモードを持っており、しばしば処理を切り替える場合には、その切り替えが背景雑音らしさの評価に影響する危険性が高く、ポストフィルタによる加工前の復号音声に対して背景雑音らしさを評価した方が安定な評価結果が得られる。
なお、実施の形態3の構成において、この実施の形態7と同様にポストフィルタ部の分離を行った場合には、図5の聴覚重み付け部21の出力結果が、より符号化処理内の聴覚重み付け音声に近づき、量子化雑音の多い成分の特定精度が上がり、より良い変形強度制御が得られ、主観品質が更に改善する効果が得られる。
また、実施の形態6の構成において、この実施の形態7と同様にポストフィルタ部の分離を行った場合には、図9の摩擦音らしさ評価部27における評価精度が上がり、主観品質が更に改善する効果が得られる。
なお、ポストフィルタ部の分離を行わない構成は、分離したこの実施の形態7の構成に比べると、音声復号部(ポストフィルタを含む)との接続が復号音声の1点だけと少なく、独立の装置、プログラムにて実現が容易である長所がある。この実施の形態7では、ポストフィルタを有する音声復号部に対して独立の装置、プログラムにて実現することが容易でない短所もあるが、上記の様々な効果を持つものである。
実施の形態8.
図10との対応部分に同一符号を付けた図11は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中33は音声復号部4内で生成されたスペクトルパラメータである。図10との相違点としては、実施の形態3と同様の変形強度制御部20が追加され、スペクトルパラメータ33が音声復号部4から信号評価部12と変形強度制御部20に入力されている点である。
以下、図に基づいて動作を説明する。
まず音声符号3が音声復号装置1内の音声復号部4に入力される。
音声復号部4は、入力された音声符号3に対して復号処理を行い、得られた復号音声5をポストフィルタ部32、信号変形部7、変形強度制御部20、信号評価部12に出力する。また、復号処理の過程で生成したスペクトルパラメータ33を、信号評価部12内の推定雑音スペクトル更新部17と変形強度制御部20内の聴覚重み付け部21に出力する。なお、スペクトルパラメータ33としては、線形予測係数(LPC)、線スペクトル対(LSP)などが一般的に用いられていることが多い。
変形強度制御部20内の聴覚重み付け部21は、音声復号部4より入力された復号音声5に対して、やはり音声復号部4から入力されたスペクトルパラメータ33を用いて聴覚重み付け処理を行い、得られた聴覚重み付け音声をフーリエ変換部22に出力する。具体的な処理としては、スペクトルパラメータ33が線形予測係数(LPC)である場合にはこれをそのまま用い、スペクトルパラメータ33がLPC以外のパラメータである場合には、このスペクトルパラメータ33をLPCに変換して、このLPCに定数乗算を行って2つの変形LPCを求め、この2つの変形LPCをフィルタ係数とするARMAフィルタを構成し、このフィルタを用いたフィルタリング処理によって聴覚重み付けを行う。なお、この聴覚重み付け処理は、音声符号化処理(音声復号部4で行った音声復号処理と対を成すもの)で使用されているものと同様な処理を行うことが望ましい。
変形強度制御部20内では、上記聴覚重み付け部21の処理に続いて、実施の形態3と同様に、フーリエ変換部22、レベル判定部23、連続性判定部24、変形強度算出部25の処理を行い、得られた変形強度を信号変形部7に対して出力する。
信号変形部7は、実施の形態3と同様に、入力された復号音声5と変形強度に対して、
フーリエ変換部8、振幅平滑化部9、位相擾乱部10、逆フーリエ変換部11の処理を行い、得られた変形復号音声34を重み付き加算部18に出力する。
信号評価部12内では、実施の形態1と同様に、入力された復号音声5に対して、まず逆フィルタ部13、パワー算出部14、背景雑音らしさ算出部15の処理を行って背景雑音らしさを評価し、評価結果を加算制御値35として重み付き加算部18に出力する。また、推定雑音パワー更新部16の処理を行って、内部の推定雑音パワーを更新する。
そして、推定雑音スペクトル更新部17は、音声復号部4から入力されたスペクトルパラメータ33と背景雑音らしさ算出部15から入力され背景雑音を用いて、その内部に格納してある推定雑音スペクトルを更新する。例えば、入力された背景雑音らしさが高い時に、実施の形態1に示した式に従い、スペクトルパラメータ33を推定雑音スペクトルに反映させることで更新を行う。
以降のポストフィルタ部32、重み付き加算部18の動作については、実施の形態7と同様であるため、説明を省略する。
この実施の形態8によれば、音声復号処理の過程で生成されたスペクトルパラメータを流用して、聴覚重み付け処理、推定雑音スペクトルの更新を行うようにしたので、実施の形態3及び実施の形態7が持つ効果に加えて、処理が簡易化される効果がある。
更に、符号化処理とまったく同じ聴覚重み付け処理が実現され、量子化雑音の多い成分の特定精度が上がり、より良い変形強度制御が得られ、主観品質が改善する効果が得られる。
また、背景雑音らしさの算出に用いる推定雑音スペクトルの(音声符号化処理に入力さ
れた音声のスペクトルに近いという意味での)推定精度が上がり、結果として得られる安定した高精度の背景雑音らしさに基づいて精度の高い加算重み制御ができるようになり、主観品質が改善する効果がある。
なお、この実施の形態8では、ポストフィルタ部32を音声復号部4から分離した構成であったが、分離していない構成においても、実施の形態8のように音声復号部4が出力したスペクトルパラメータ33を流用して信号加工部2の処理を行うことができる。この場合でも、上記実施の形態8と同様の効果が得られる。
実施の形態9.
上記図7に示す実施の形態4の構成において、加算制御値分割部41が、重み付け加算部18にて加算される変形復号音声スペクトル44の周波数毎の重みを乗じた後のスペクトルの概形が、量子化雑音の推定スペクトル形状に一致するように、出力する変形強度を制御することも可能である。
図12は、この場合の復号音声スペクトル43と、変形復号音声スペクトル44に周波数毎の重みを乗じた後のスペクトルの一例を示す模式図である。
復号音声スペクトル43には、符号化方式に依存したスペクトル形状を持つ量子化雑音が重畳している。CELP系の音声符号化方式においては、聴覚重み付け処理後の音声における歪みを最小化するように符号の探索を行う。このため、量子化雑音は、聴覚重み付け処理後の音声においては、平坦なスペクトル形状を持つことになり、最終的な量子化雑音のスペクトル形状は、聴覚重み付け処理の逆特性のスペクトル形状を持つことになる。よって、聴覚重み付け処理のスペクトル特性を求め、この逆特性のスペクトル形状を求めて、変形復号音声スペクトルのスペクトル形状がこれに合うように、加算制御値分割部41の出力を制御することは可能である。
この実施の形態9によれば、最終的な出力音声6に含まれる変形復号音声成分のスペクトル形状を量子化雑音の推定スペクトルの概形に一致するようにしたので、実施の形態4が持つ効果に加えて、必要最低限のパワーの変形復号音声の加算によって音声区間における聞き苦しい量子化雑音を聞こえにくくすることができる効果がある。
実施の形態10.
上記実施の形態1、実施の形態3ないし8の構成において、振幅平滑化部9の処理内で、平滑化後の振幅スペクトルが推定量子化雑音の振幅スペクトル形状に一致するように加工することも可能である。なお、推定量子化雑音の振幅スペクトル形状の算出は、実施の形態9と同様にして行えばよい。
この実施の形態10によれば、変形復号音声のスペクトル形状を量子化雑音の推定スペクトル形状に一致するようにしたので、実施の形態1、実施の形態3ないし8が持つ効果に加えて、必要最低限のパワーの変形復号音声の加算によって音声区間における聞き苦しい量子化雑音を聞こえにくくすることができる効果がある。
実施の形態11.
上記実施の形態1、実施の形態3ないし10では、信号加工部2を復号音声5の加工に使用しているが、この信号加工部2のみを取り出して、音響信号復号部(音響信号符号化に対する復号部)、雑音抑圧処理の後段に接続するなど、他の信号加工処理に使用することもできる。但し、解消したい劣化成分の特性に応じて、信号変形部における変形処理、信号評価部における評価方法を変更、調整することが必要になる。
この実施の形態11によれば、復号音声以外の劣化成分を含む信号に対して、主観的に好ましくない成分を感じにくく加工することが可能である。
実施の形態12.
上記実施の形態1ないし11では、現在のフレームまでの信号を用いて該信号の加工を行っているが、処理遅延の発生を許して次フレーム以降の信号も使用する構成も可能である。
この実施の形態12によれば、次のフレーム以降の信号を参照できるので、振幅スペクトルの平滑化特性の改善、連続性判定の精度向上、雑音らしさなどの評価精度の向上効果が得られる。
実施の形態13.
上記実施の形態1、実施の形態3、実施の形態5ないし12では、フーリエ変換によってスペクトル成分を算出し、変形処理を行って、逆フーリエ変換によって信号領域に戻しているが、フーリエ変換の代わりにバンドパスフィルタ群の各出力に対して、変形処理を行い、帯域別信号の加算によって信号を再構築する構成も可能である。
この実施の形態13によれば、フーリエ変換を使用しない構成でも同様の効果が得られる。
実施の形態14.
上記実施の形態1ないし13では、振幅平滑化部9と位相擾乱部10の両方を備えた構成であったが、振幅平滑化部9と位相擾乱部10の一方を省略した構成も可能であるし、更に別の変形部を導入した構成も可能である。
この実施の形態14によれば、解消したい量子化雑音や劣化音の特性によっては、導入効果がない変形部を省略することで処理が簡易化できる効果がある。また、適切な変形部を導入することで、振幅平滑化部9と位相擾乱部10では解消できない量子化雑音や劣化音を解消できる効果が期待できる。