JP4358221B2

JP4358221B2 - 音信号加工方法及び音信号加工装置

Info

Publication number: JP4358221B2
Application number: JP2006316566A
Authority: JP
Inventors: 裕久田崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1997-12-08
Filing date: 2006-11-24
Publication date: 2009-11-04
Anticipated expiration: 2018-12-07
Also published as: JP2007079606A

Description

本発明は、音声や楽音などの符号化復号化処理によって発生する量子化雑音や、雑音抑圧処理などのさまざまな信号加工処理によって生じる歪み、などの主観的に好ましくない成分を主観的に感じにくいように加工する音信号加工方法および音信号加工装置に関する。

音声や楽音などの情報源符号化の圧縮率を高めていくと、次第に符号化時の歪みである量子化雑音が増えてくるし、量子化雑音が変形してきて主観的に耐えられないものになってくる。一例を挙げて説明すると、ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）やＡＤＰＣＭ（ＡｄａｐｔｉｖｅＤｉｆｆｅｒｅｎｔｉａｌＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）のような信号自体を忠実に表現しようとする音声符号化方式の場合には、量子化雑音は乱数状であり、主観的にもあまり気にならないが、圧縮率が高まり、符号化方式が複雑になるにつれて、量子化雑音に符号化方式固有のスペクトル特性が表れ、主観的に大きな劣化となる場合がでてくる。特に背景雑音が支配的な信号区間においては、高圧縮率の音声符号化方式が利用している音声モデルが合わないため、非常に聞き苦しい音となってしまう。

また、スペクトルサブトラクション法などの雑音抑圧処理を行った場合、雑音の推定誤差が処理後の信号上に歪みとして残り、これが処理前の信号と大きく異なる特性をもっているために、主観評価を大きく劣化させることがある。

上記のような量子化雑音や歪みによる主観評価の低下を抑制する従来の方法としては、特開平８−１３０５１３号、特開平８−１４６９９８号、特開平７−１６０２９６号、特開平６−３２６６７０号、特開平７−２４８７９３号、およびＳ．Ｆ．Ｂｏｌｌ著ｒａｃｔｉｏｎＳＳＰ−２７，Ｎｏ．２，ｐｐ．１１３−１２０，Ａｐｒｉｌ１９７９）（以降文献１と呼ぶ）に開示されているものがある。

特開平８−１３０５１３号は、背景雑音区間の品質改善を目的としたもので、背景雑音のみの区間であるか否かを判定して、背景雑音のみの区間に専用の符号化処理または復号化処理を行うようにし、背景雑音のみの区間の復号化を行う場合に合成フィルタの特性を抑制することで、聴感的に自然な再生音を得るようにしたものである。

特開平８−１４６９９８号は、白色雑音が符号化復号化によって耳障りな音色になることを抑制することを狙って、復号音声に対して白色雑音や予め格納しておいた背景雑音を加えるようにしたものである。

特開平７−１６０２９６号は、量子化雑音を聴感的に低減することを狙って、復号音声または音声復号化部が受信したスペクトルパラメータに関するインデックスを基に、聴覚マスキング閾値を求め、これを反映したフィルタ係数を求めて、この係数をポストフィルタに使用するようにしたものである。

特開平６−３２６６７０号は、通信電力制御などのために音声を含まない区間で符号伝送を停止するシステムでは、符号伝送の無い時には復号側で疑似背景雑音を生成して出力
するが、この時に発生する、音声区間に含まれる実際の背景雑音と無音区間の疑似背景雑音の間の違和感を軽減することを狙ったもので、音声を含まない区間だけでなく音声区間にも疑似背景雑音を重畳するようにしたものである。

特開平７−２４８７９３号は、雑音抑圧処理によって発生する歪み音を聴感的に軽減することを目的としたもので、符号化側では、まず雑音区間か音声区間か判定し、雑音区間では雑音スペクトルを伝送し、音声区間では雑音抑圧処理後のスペクトルを伝送し、復号化側では、雑音区間では受信した雑音スペクトルを用いて合成音を生成して出力し、音声区間では受信した雑音抑圧処理後のスペクトルを用いて生成した合成音に、雑音区間で受信した雑音スペクトルを用いて生成した合成音に重畳倍率を乗じて加算して出力するようにしたものである。

文献１は、雑音抑圧処理によって発生する歪み音を聴感的に軽減することを狙い、雑音抑圧処理後の出力音声に対して、時間的に前後の区間と振幅スペクトル上の平滑化を行い、更に背景雑音区間に限って振幅抑圧処理を行っている。
特開平８−１３０５１３号特開平８−１４６９９８号特開平７−１６０２９６号特開平６−３２６６７０号特開平７−２４８７９３号Ｓ．Ｆ．Ｂｏｌｌ著ｒａｃｔｉｏｎＳＳＰ−２７，Ｎｏ．２，ｐｐ．１１３−１２０，Ａｐｒｉｌ１９７９）

上記の従来法には、以下に述べる課題がある。

特開平８−１３０５１３号には、符号化処理や復号化処理を区間判定結果に従って大きく切り替えているために、雑音区間と音声区間の境界で特性の急変が起こる課題がある。特に雑音区間を音声区間と誤判定することが頻繁に起こった場合、本来比較的定常である雑音区間が不安定に変動してしまい、かえって雑音区間の劣化を起こす場合がある。雑音区間判定結果を伝送する場合、伝送するための情報の追加が必要で、更にその情報が伝送路上で誤った場合に、不必要な劣化を引き起こす課題がある。また、合成フィルタの特性を抑制するだけでは、音源符号化の際に生じる量子化雑音は軽減されないため、雑音種によっては改善効果がほとんど得られない課題がある。

特開平８−１４６９９８号には、予め用意してある雑音を加えてしてしまうために、符号化された現在の背景雑音の特性が失われてしまう課題がある。劣化音を聞こえにくくするためには劣化音を上回るレベルの雑音を加える必要があり、再生される背景雑音が大きくなってしまう課題がある。

特開平７−１６０２９６号では、スペクトルパラメータに基づいて聴覚マスキング閾値を求めて、これに基づいてスペクトルポストフィルタを行うだけであるので、スペクトルが比較的平坦な背景雑音などでは、マスキングされる成分もほとんどなく、全く改善効果が得られない課題がある。また、マスキングされない主要成分については、大きな変化を与えることができないので、主要成分に含まれている歪みについては何らの改善効果も得られない課題がある。

特開平６−３２６６７０号では、実際の背景雑音に関係なく疑似背景雑音を生成しているので、実際の背景雑音の特性が失われてしまう課題がある。

特開平７−２４８７９３号には、符号化処理や復号化処理を区間判定結果に従って大きく切り替えているために、雑音区間か音声区間かの判定を誤ると大きな劣化を引き起こす課題がある。雑音区間の一部を音声区間と誤った場合には、雑音区間内の音質が不連続に変動して聞き苦しくなる。逆に音声区間を雑音区間と誤った場合には、平均雑音スペクトルを用いた雑音区間の合成音と、音声区間で重畳される雑音スペクトルを用いた合成音に音声成分が混入し、全体的に音質劣化が起こる課題がある。更に、音声区間における劣化音を聞こえなくするためには、決して小さくない雑音を重畳することが必要である。

文献１には、平滑化のために半区間分（１０ｍｓ〜２０ｍｓ程度）の処理遅延が発生する課題がある。また、雑音区間内の一部を音声区間と誤判定してしまった場合、雑音区間内の音質が不連続に変動して聞き苦しくなる課題がある。

この発明は、かかる課題を解決するためになされたものであり、区間判定誤りによる劣化が少なく、雑音種やスペクトル形状への依存度が少なく、大きな遅延時間を必要としない、実際の背景雑音の特性を残すことができ、背景雑音レベルを過度に大きくすることがなく、新たな伝送情報の追加が不要で、音源符号化などによる劣化成分についても良好な抑圧効果を与えることのできる音信号加工方法および音信号加工装置を提供することを目的としている。

この発明の音信号加工方法は、音声符号から複数のパラメータを生成し、当該複数のパラメータを用いて前記音声符号に対応した復号音声を生成する復号音声生成ステップと、前記復号音声生成ステップにおいて生成された前記復号音声の振幅の時間軸方向の変動が小さくされた第一の加工音声を、前記復号音声の所定時点における振幅に、前記所定時点から所定時間だけ前の時点における前記復号音声の振幅と、前記所定時点から前記所定時間だけ後の時点における前記復号音声の振幅とを重み付け加算する重み付け加算処理を行って生成する第一加工音声生成ステップと、前記復号音声と前記第一の加工音声とを混合して第二の加工音声を生成する第二加工音声生成ステップであって、前記復号音声生成ステップによって生成された複数のパラメータの少なくとも１つに基づく前記復号音声の雑音らしさが高くなるにつれて大きくなる第一の重み付け係数と、周波数成分毎に異なる第二の重み付け係数とで重み付けられた前記第一の加工音声と、前記復号音声とを加算して第二の加工音声を生成する第二加工音声生成ステップとを備えたことを特徴とする。

この発明の音信号加工装置は、音声符号から複数のパラメータを生成し、当該複数のパラメータを用いて前記音声符号に対応した復号音声を生成する復号音声生成手段と、前記復号音声生成手段によって生成された前記復号音声の振幅の時間軸方向の変動が小さくされた第一の加工音声を、前記復号音声の所定時点における振幅に、前記所定時点から所定時間だけ前の時点における前記復号音声の振幅と、前記所定時点から前記所定時間だけ後の時点における前記復号音声の振幅とを重み付け加算する重み付け加算処理を行って生成する第一加工音声生成手段と、前記復号音声と前記第一の加工音声とを混合して第二の加工音声を生成する第二加工音声生成手段であって、前記復号音声生成手段によって生成された複数のパラメータの少なくとも１つに基づく前記復号音声の雑音らしさが高くなるにつれて大きくなる第一の重み付け係数と、周波数成分毎に異なる第二の重み付け係数とで重み付けられた前記第一の加工音声と、前記復号音声とを加算して第二の加工音声を生成する第二加工音声生成手段とを備えたことを特徴とする。

以上説明したように本発明の音信号加工方法は、音声符号から複数のパラメータを生成し、当該複数のパラメータを用いて前記音声符号に対応した復号音声を生成する復号音声
生成ステップと、前記復号音声生成ステップにおいて生成された前記復号音声の振幅の時間軸方向の変動が小さくされた第一の加工音声を、前記復号音声の所定時点における振幅に、前記所定時点から所定時間だけ前の時点における前記復号音声の振幅と、前記所定時点から前記所定時間だけ後の時点における前記復号音声の振幅とを重み付け加算する重み付け加算処理を行って生成する第一加工音声生成ステップと、前記復号音声と前記第一の加工音声とを混合して第二の加工音声を生成する第二加工音声生成ステップであって、前記復号音声生成ステップによって生成された複数のパラメータの少なくとも１つに基づく前記復号音声の雑音らしさが高くなるにつれて大きくなる第一の重み付け係数と、周波数成分毎に異なる第二の重み付け係数とで重み付けられた前記第一の加工音声と、前記復号音声とを加算して第二の加工音声を生成する第二加工音声生成ステップとを備えたことにより、主観品質を改善できる効果がある。

本発明の音信号加工装置は、音声符号から複数のパラメータを生成し、当該複数のパラメータを用いて前記音声符号に対応した復号音声を生成する復号音声生成手段と、前記復号音声生成手段によって生成された前記復号音声の振幅の時間軸方向の変動が小さくされた第一の加工音声を、前記復号音声の所定時点における振幅に、前記所定時点から所定時間だけ前の時点における前記復号音声の振幅と、前記所定時点から前記所定時間だけ後の時点における前記復号音声の振幅とを重み付け加算する重み付け加算処理を行って生成する第一加工音声生成手段と、前記復号音声と前記第一の加工音声とを混合して第二の加工音声を生成する第二加工音声生成手段であって、前記復号音声生成手段によって生成された複数のパラメータの少なくとも１つに基づく前記復号音声の雑音らしさが高くなるにつれて大きくなる第一の重み付け係数と、周波数成分毎に異なる第二の重み付け係数とで重み付けられた前記第一の加工音声と、前記復号音声とを加算して第二の加工音声を生成する第二加工音声生成手段とを備えたことにより、主観品質を改善できる効果がある。

以下図面を参照しながら、この発明の実施の形態について説明する。

実施の形態１．
図１は、本実施の形態による音信号加工方法を適用した音声復号方法の全体構成を示し、図中１は音声復号装置、２はこの発明による信号加工方法を実行する信号加工部、３は音声符号、４は音声復号部、５は復号音声、６は出力音声である。信号加工部２は、信号変形部７、信号評価部１２、重み付き加算部１８より構成されている。信号変形部７は、フーリエ変換部８、振幅平滑化部９、位相擾乱部１０、逆フーリエ部１１より構成されている。信号評価部１２は、逆フィルタ部１３、パワー算出部１４、背景雑音らしさ算出部１５、推定背景雑音パワー更新部１６、推定雑音スペクトル更新部１７より構成されている。

以下、図に基づいて動作を説明する。

まず音声符号３が音声復号装置１内の音声復号部４に入力される。なお、この音声符号３は、別途音声符号化部が音声信号を符号化した結果として出力され、通信路や記憶デバイスを介してこの音声復号部４に入力される。

音声復号部４は、音声符号３に対して、前記音声符号化部と対を成す復号処理を行い、得られた所定の長さ（１フレーム長）の信号を復号音声５として出力する。そして、この復号音声５は、信号加工部２内の信号変形部７、信号評価部１２、重み付き加算部１８に入力される。

信号変形部７内のフーリエ変換部８は、入力された現フレームの復号音声５と必要に応
じ前フレームの復号音声５の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを振幅平滑化部９に出力する。なお、フーリエ変換処理としては、離散フーリエ変換（ＤＦＴ）、高速フーリエ変換（ＦＦＴ）などが代表的である。窓がけ処理としては、台形窓、方形窓、ハニング窓など様々なものが適用可能であるが、ここでは、台形窓の両端の傾斜部分をそれぞれハニング窓の半分ずつに置換した変形台形窓を使用する。実際の形状例、復号音声５や出力音声６との時間関係については、図面を用いて後述説明する。

振幅平滑化部９は、フーリエ変換部８から入力された周波数毎のスペクトルの振幅成分に対して平滑化処理を行い、平滑化後のスペクトルを位相擾乱部１０に出力する。ここで用いる平滑化処理としては、周波数軸方向、時間軸方向の何れを用いても、量子化雑音などの劣化音の抑制効果が得られる。しかし、周波数軸方向の平滑化をあまり強くすると、スペクトルの怠けが生じ、本来の背景雑音の特性を損なってしまうことが多い。一方、時間軸方向の平滑化についても、あまり強くしていくと、長時間にわたって同じ音が残ることになり、反響感が発生してしまう。色々な背景雑音に対して調整を進めた結果、周波数軸方向の平滑化はなし、時間軸方向は振幅を対数領域で平滑化する、とした場合が出力音声６の品質が良かった。その時の平滑化方法は、次式で表わされる。

ｙ_ｉ＝ｙ_ｉ−１（１−α）＋ｘ_ｉα ・・・式１
ここで、ｘ_ｉが現在のフレーム（第ｉフレーム）の平滑化前の対数振幅スペクトル値、ｙ_ｉ−１が前フレーム（第ｉ−１フレーム）の平滑化後の対数振幅スペクトル値、ｙ_ｉが現在のフレーム（第ｉフレーム）の平滑化後の対数振幅スペクトル値、αが０〜１の値を持つ平滑化係数である、平滑化係数αはフレーム長、解消したい劣化音のレベルなどによって最適値が異なるが、概ね０．５程度の値となる。

位相擾乱部１０は、振幅平滑化部９から入力された平滑化後のスペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを逆フーリエ変換部１１に出力する。各位相成分に擾乱を与える方法としては、乱数を用いて所定範囲の位相角を生成し、これを元々の位相角に加算すれば良い。位相角生成の範囲の制限を設けない場合には、各位相成分を乱数で生成した位相角に単に置換すればよい。符号化などによる劣化が大きい場合には、位相角生成の範囲は制限しない。

逆フーリエ変換部１１は、位相擾乱部１０から入力された擾乱後のスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を変形復号音声３４として重み付き加算部１８に出力する。

信号評価部１２内の逆フィルタ部１３は、後述する推定雑音スペクトル更新部１７内に格納されている推定雑音スペクトルパラメータを用いて、前記音声復号部４から入力された復号音声５に対する逆フィルタ処理を行い、逆フィルタされた復号音声をパワー算出部１４に出力する。この逆フィルタ処理によって、背景雑音の振幅が大きい、つまり音声と背景雑音が拮抗している可能性が高い成分の振幅抑圧を行っており、逆フィルタ処理を行わない場合に比べて、音声区間と背景雑音区間の信号パワー比が大きくとれるようになっている。

なお、推定雑音スペクトルパラメータは、音声符号化処理や音声復号処理との親和性、ソフトウエアの共有化といった観点で選択する。現状では多くの場合、線スペクトル対（ＬＳＰ）を使用する。ＬＳＰの他にも、線形予測係数（ＬＰＣ）、ケプストラムなどのスペクトル包絡パラメータ、または振幅スペクトルそのものを用いても類似の効果を得ることができる。後述する推定雑音スペクトル更新部１７における更新処理としては線形補間
や平均処理などを用いる構成が簡単であり、スペクトル包絡パラメータの中では線形補間や平均処理を行ってもフィルタが安定であることが保証できるＬＳＰとケプストラムが適している。雑音成分のスペクトルに対する表現力としてはケプストラムが優れているが、逆フィルタ部の構成の容易さという点ではＬＳＰが勝る。振幅スペクトルを用いる場合には、この振幅スペクトル特性をもつＬＰＣを算出して逆フィルタに使用するか、復号音声５をフーリエ変換した結果（フーリエ変換部８の出力に等しい）に対して振幅変形処理を行って逆フィルタと同様の効果を実現すればよい。

パワー算出部１４は、逆フィルタ部１３から入力された逆フィルタされた復号音声のパワーを求め、算出されたパワー値を背景雑音らしさ算出部１５に出力する。

背景雑音らしさ算出部１５は、パワー算出部１４から入力されたパワーと、後述する推定雑音パワー更新部１６内に格納されている推定雑音パワーを用いて、現在の復号音声５の背景雑音らしさを算出し、これを加算制御値３５として重み付き加算部１８に出力する。また、算出した背景雑音らしさを後述する推定雑音パワー更新部１６と推定雑音スペクトル更新部１７に対して出力し、パワー算出部１４から入力されたパワーを後述する推定雑音パワー更新部１６に対して出力する。ここで、背景雑音らしさについては、最も単純には、次式によって算出できる。

ｖ＝ｌｏｇ（ｐ_Ｎ） − ｌｏｇ（ｐ）・・・式２
ここで、ｐがパワー算出部１４から入力されたパワー、ｐ_Ｎが推定雑音パワー更新部１６内に格納されている推定雑音パワー、ｖが算出された背景雑音らしさである。

この場合、ｖの値が大きい程（負値であればその絶対値が小さい程）背景雑音らしい、ということになる。この他にも、ｐ_Ｎ／ｐを計算してｖとするなど、様々な算出方法が考えられる。

推定雑音パワー更新部１６は、背景雑音らしさ算出部１５から入力された背景雑音らしさとパワーを用いて、その内部に格納してある推定雑音パワーの更新を行う。例えば、入力された背景雑音らしさが高い（ｖの値が大きい）時に、次式に従い、入力されたパワーを推定雑音パワーに反映させることで更新を行う。

ｌｏｇ（ｐ_Ｎ′）＝（１−β）ｌｏｇ（ｐ_Ｎ）＋βｌｏｇ（ｐ）・・・式３
ここで、βは０〜１の値を取る更新速度定数で、比較的０に近い値に設定するとよい。この式の右辺の値を求めて、左辺のｐ_Ｎ′を新しい推定雑音パワーとすることで更新を行う。

なお、この推定雑音パワーの更新方法については、更に推定精度を向上させるためにフレーム間での変動性を参照したり、入力された過去のパワーを複数格納しておいて、統計分析によって雑音パワーの推定を行ったり、ｐの最低値をそのまま推定雑音パワーとしたりするなど様々な変形、改良が可能である。

推定雑音スペクトル更新部１７は、まず入力された復号音声５を分析して、現在のフレームのスペクトルパラメータを算出する。算出するスペクトルパラメータについては逆フィルタ部１３にて説明した通りで、多くの場合ＬＳＰを使用する。そして、背景雑音らしさ算出部１５から入力され背景雑音らしさとここで算出したスペクトルパラメータを用いて、内部に格納してある推定雑音スペクトルを更新する。例えば、入力された背景雑音らしさが高い（ｖの値が大きい）時に、次式に従い、算出したスペクトルパラメータを推定雑音スペクトルに反映させることで更新を行う。

ｘ_Ｎ′＝（１−γ）ｘ_Ｎ＋γｘ・・・式４
ここで、ｘが現在のフレームのスペクトルパラメータ、ｘ_Ｎが推定雑音スペクトル（パラメータ）である。γは０〜１の値を取る更新速度定数で、比較的０に近い値に設定するとよい。この式の右辺の値を求めて、左辺のｘ_Ｎ′を新しい推定雑音スペクトル（パラメータ）とすることで更新を行う。

なお、この推定雑音スペクトルの更新方法についても、上記推定雑音パワーの更新方法と同様に様々な改良が可能である。

そして、最後の処理として、重み付き加算部１８は、信号評価部１２から入力された加算制御値３５に基づいて、音声復号部４から入力された復号音声５と信号変形部７から入力された変形復号音声３４を重み付けして加算し、得られた出力音声６を出力する。重み付け加算の制御方法の動作としては、加算制御値３５が大きく（背景雑音らしさが高く）なるにつれて復号音声５に対する重みを小さく、変形復号音声３４に対する重みを大きく制御する。逆に加算制御値３５が小さく（背景雑音らしさが低く）なるにつれて復号音声５に対する重みを大きく、変形復号音声３４に対する重みを小さく制御する。

なお、フレーム間での重みの急変に伴う出力音声６の品質劣化を抑制するために、加算制御値３５または重み付け係数をサンプル毎に徐々に変化するように平滑化を行うことが望ましい。

図２には、この重み付け加算部１８における、加算制御値に基づく重み付け加算の制御例を示す。

図２（ａ）では、加算制御値３５に対する２つの閾値ｖ_１とｖ_２を用いて線形制御している場合である。加算制御値３５がｖ_１未満の場合には、復号音声５に対する重み付け係数ｗ_Ｓを１、変形復号音声３４に対する重み付け係数ｗ_Ｎを０とする。加算制御値３５がｖ_２以上の場合には、復号音声５に対する重み付け係数ｗ_Ｓを０、変形復号音声３４に対する重み付け係数ｗ_ＮをＡ_Ｎとする。そして加算制御値３５がｖ_１以上でｖ_２未満の場合には、復号音声５に対する重み付け係数ｗ_Ｓを１〜０、変形復号音声３４に対する重み付け係数ｗ_Ｎを０〜Ａ_Ｎの間で線形的に計算して与えている。

この様に制御することで、確実に背景雑音区間であると判断できる場合（ｖ_２以上）には変形復号信号３４のみが出力され、確実に音声区間であると判断できる場合（ｖ_１未満）には復号音声５そのものが出力され、音声区間か背景雑音区間か判断がつかない場合（ｖ_１以上ｖ_２未満）には、どちらの傾向が強いかに依存した比率で復号音声５と変形復号音声３４が混合された結果が出力される。

なお、ここで確実に背景雑音区間であると判断できる場合（ｖ_２以上）に変形復号信号３４に乗じる重み付け係数値Ａ_Ｎとして１以下の値を与えれば、結果的に背景雑音区間の振幅抑圧効果が得られる。逆に１以上の値を与えれば、背景雑音区間の振幅強調効果が得られる。背景雑音区間は、音声符号化復号化処理によって振幅低下が起こる場合が多く、その場合には背景雑音区間の振幅強調を行うことによって、背景雑音の再現性を向上することができる。振幅抑圧と振幅強調のどちらを行うかは適用対象、使用者の要求などに依存する。

図２（ｂ）では、新たな閾値ｖ_３を追加し、ｖ_１とｖ_３間、ｖ_３とｖ_２間で重み付け係数を線形的に計算して与えた場合である。閾値ｖ_３の位置における重み付け係数の値を調整することで、音声区間か背景雑音区間か判断がつかない場合（ｖ_１以上ｖ_２未満）に
おける混合比率を更に細かく設定することができる。一般に位相の相関が低い２つの信号を加算した場合、得られる信号のパワーは加算前の２つの信号のパワーの合計より小さくなる。ｖ_１以上ｖ_２未満の範囲における２つの重み付け係数の合計を１ないしｗ_Ｎより大きくすることで、このパワー低下を抑制することができる。なお、図２（ａ）によって得られた重み付け係数の平方根をとって更に定数を乗じた値を新たに重み付け係数とすることによっても同様の効果をもたらすことができる。

図２（ｃ）では、図２（ａ）のｖ_１未満の範囲における変形復号音声３４に与える重み付け係数ｗ_Ｎとして０より大きいＢ_Ｎという値を与え、これに応じてｖ_１以上ｖ_２未満の範囲におけるｗ_Ｎも修正した場合である。背景雑音レベルが高い場合や、符号化における圧縮率が非常に高い場合など、音声区間における量子化雑音や劣化音が大きい場合には、この様に確実に音声区間と分かっている範囲においても、変形復号音声を加算することで、劣化音を聞こえにくくすることができる。

図２（ｄ）は、背景雑音らしさ算出部１５において、推定雑音パワーを現在のパワーで除算した結果（ｐ_Ｎ／ｐ）を背景雑音らしさ（加算制御値３５）として出力した場合に対応する制御例である。この場合、加算制御値３５は復号音声５中に含まれる背景雑音の比率を示しているので、この値に比例した比率で混合されるように重み付け係数を算出している。具体的には、加算制御値３５が１以上の場合にはｗ_Ｎが１でｗ_Ｓが０、１未満の場合には、ｗ_Ｎが加算制御値３５そのもの、ｗ_Ｓが（１−ｗ_Ｎ）となっている。

図３には、フーリエ変換部８における切り出し窓、逆フーリエ変換部１１における連接のための窓の実際の形状例、復号音声５との時間関係を説明する説明図を示す。

復号音声５は、音声復号部４から所定の時間長（１フレーム長）毎に出力されてくる。ここでこの１フレーム長をＮサンプルとする。図３（ａ）は、この復号音声５の一例を示しており、ｘ（０）〜ｘ（Ｎ−１）が入力された現在のフレームの復号音声５に当たる。フーリエ変換部８では、図３（ａ）に示されるこの復号音声５に対して図３（ｂ）に示す変形台形窓を乗じることで、長さ（Ｎ＋ＮＸ）の信号を切り出す。ＮＸは変形台形窓の両端の１未満の値を持つ区間のそれぞれの長さである。この両端の区間は長さ（２ＮＸ）のハニング窓を前半と後半に２分割したものに等しい。逆フーリエ変換部１１では、逆フーリエ変換処理によって生成した信号に対して、図３（ｃ）に示す変形台形窓を乗じ、（図３（ｃ）に破線で示すように）前後のフレームで得られた同信号と時間関係を守りつつ信号の加算を行って、連続する変形復号音声３４（図３（ｄ））を生成する。

次のフレームの信号との連接のための区間（長さＮＸ）については、現在のフレーム時点では変形復号音声３４が確定していない。すなわち、新たに確定する変形復号音声３４は、ｘ′（−ＮＸ）〜ｘ′（Ｎ−ＮＸ−１）である。このため、現在のフレームの復号音声５に対して得られる出力音声６は、次式の通りとなる。

ｙ（ｎ）＝ｘ（ｎ）＋ｘ′（ｎ）・・・式５
（ｎ＝ −ＮＸ，…，Ｎ−ＮＸ−１）
ここで、ｙ（ｎ）が出力音声６である。この時、信号加工部２としての処理遅延は最低でもＮＸだけ必要となる。

この処理遅延ＮＸが許容できない適用対象の場合、復号音声５と変形復号音声３４の時間的ズレを許容して、次式のように出力音声６を生成することもできる。

ｙ（ｎ）＝ｘ（ｎ）＋ｘ′（ｎ−ＮＸ）・・・式６
（ｎ＝０，…，Ｎ−１）
この場合、復号音声５と変形復号音声３４の時間関係にズレがあるので、位相擾乱部１０における擾乱が弱い（つまり復号音声の位相特性がある程度残っている）場合や、フレーム内でスペクトルやパワーが急変する場合には劣化を生じる場合がある。特に重み付き加算部１８における重み付け係数が大きく変化するときと、２つの重み付け係数が拮抗している場合に劣化を生じ易い。しかし、それらの劣化は比較的少なく、信号加工部の導入効果の方が十分に大きい。よって処理遅延ＮＸが許容できない適用対象についても、この方法を用いることができる。

なお、この図３の場合、フーリエ変換前と逆フーリエ変換後に変形台形窓を乗じており、連接部分の振幅低下を招く場合がある。この振幅低下も、位相擾乱部１０における擾乱が弱い場合に起こりやすい。そのような場合には、フーリエ変換前の窓を方形窓に変更することで振幅低下の抑制が得られる。通常、位相擾乱部１０によって位相が大きく変形された結果、逆フーリエ変換後の信号に最初の変形台形窓の形状が現れてこないので、前後のフレームの変形復号音声３４とのスムーズな連接のために２つ目の窓がけが必要になる。

なお、ここでは、信号変形部７、信号評価部１２、重み付け加算部１８の処理を全てフレーム毎に行ったが、これに限ったものではない。例えば、１フレームを複数のサブフレームに分割し、信号評価部１２の処理をサブフレーム毎に行ってサブフレーム毎の加算制御値３５を算出し、重み付け加算部１８における重み付け制御もサブフレーム毎に行っても良い。信号変形処理にフーリエ変換を使用しているので、フレーム長があまり短いとスペクトル特性の分析結果が不安定になり、変形復号音声３４が安定しにくい。一方、背景雑音らしさはもっと短い区間に対しても比較的安定に算出できるので、サブフレーム毎に算出して重み付けを細かく制御することで音声の立ち上がり部分などにおける品質改善効果が得られる。

また、信号評価部１２の処理をサブフレーム毎に行って、フレーム内の全ての加算制御値を組み合わせて、少数の加算制御値３５を算出することもできる。音声区間を背景雑音らしいと誤りたくない場合には、全ての加算制御値の内の最小値（背景雑音らしさの最小値）を選択してフレームを代表する加算制御値３５として出力すれば良い。

更に、復号音声５のフレーム長と信号変形部７の処理フレーム長は同一である必要はない。例えば、復号音声５のフレーム長が短くて、信号変形部７内のスペクトル分析にとって短すぎる場合には、複数フレームの復号音声５を蓄積して、一括して信号変形処理を行うようにすれば良い。但し、この場合には、複数フレームの復号音声５を蓄積するために処理遅延が発生してしまう。この他、復号音声５のフレーム長と全く独立に信号変形部７や信号加工部２全体の処理フレーム長を設定しても構わない。この場合、信号のバッファリングが複雑になるが、様々な復号音声５のフレーム長に依存することなく、信号加工処理にとって最適の処理フレーム長を選択でき、信号加工部２の品質が最も良くなる効果がある。

また、ここでは、背景雑音らしさの算出に、逆フィルタ部１３、パワー算出部１４、背景雑音らしさ算出部１５、推定背景雑音レベル更新部１６、推定雑音スペクトル更新部１７を使用したが、背景雑音らしさを評価するものであれば、この構成に限ったものではない。

この実施の形態１によれば、入力信号（復号音声）に対して所定の信号加工処理を行うことで、入力信号に含まれる劣化成分を主観的に気にならないようにした加工信号（変形復号音声）を生成し、所定の評価値（背景雑音らしさ）によって入力信号と加工信号の加算重みを制御するようにしたので、劣化成分が多く含まれる区間を中心に加工信号の比率
を増やして、主観品質を改善できる効果がある。

また、スペクトル領域で信号加工処理を行うようにしたことで、スペクトル領域での細かい劣化成分の抑圧処理を行うことができ、更に主観品質を改善できる効果がある。

また、加工処理として振幅スペクトル成分の平滑化処理と位相スペクトル成分の擾乱付与処理を行うようにしたので、量子化雑音などによって生じる振幅スペクトル成分の不安定な変動を良好に抑圧することができ、更に、位相成分間に独特な相互関係を持ってしまい特徴的な劣化と感じられることが多い量子化雑音に対して、位相成分間の関係に擾乱を与えることができ、主観品質を改善できる効果がある。

また、従来の音声区間または背景雑音区間のどちらか、という２値区間判定を廃し、背景雑音らしさという連続量を算出して、これに基づいて連続的に復号音声と変形復号音声の重み付け加算係数を制御するようにしたので、区間判定誤りによる品質劣化を回避できる効果がある。

また、音声区間における量子化雑音や劣化音が大きい場合には、確実に音声区間と分かっている区間においても、変形復号音声を加算することで、劣化音を聞こえにくくすることができる効果がある。

また、背景雑音の情報が多く含まれている復号音声の加工処理によって出力音声を生成しているので、実際の背景雑音の特性を残しつつ、雑音種やスペクトル形状にあまり依存しない安定な品質改善効果が得られるし、音源符号化などによる劣化成分に対しても改善効果が得られる効果がある。

また、現在までの復号音声を用いて処理を行うので特に大きな遅延時間は不要で、復号音声と変形復号音声の加算方法によっては処理時間以外の遅延を排除することもできる効果がある。変形復号音声のレベルを上げる際には復号音声のレベルを下げていくので、従来のように量子化雑音を聞こえなくするために大きな疑似雑音を重畳することも不要で、逆に適用対象に応じて、背景雑音レベルを小さ目にしたり、大き目にしたりすることすら可能である。また、当然のことであるが、音声復号装置または信号加工部内に閉じた処理であるので従来のような新たな伝送情報の追加は不要である。

更に、この実施の形態１では、音声復号部と信号加工部が明確に分離されており、両者の間の情報のやりとりも少ないので、既存のものも含めて様々な音声復号装置内に導入することが容易である。

実施の形態２．
図４は、本実施の形態による音信号加工方法を雑音抑圧方法と組み合わて適用した音信号加工装置の構成の一部を示す。図中３６は入力信号、８はフーリエ変換部、１９は雑音抑圧部、３９はスペクトル変形部、１２は信号評価部、１８は重み付き加算部、１１は逆フーリエ変換部、４０は出力信号である。スペクトル変形部３９は、振幅平滑化部９、位相擾乱部１０より構成されている。
以下、図に基づいて動作を説明する。

まず、入力信号３６が、フーリエ変換部８と信号評価部１２に入力される。

フーリエ変換部８は、入力された現フレームの入力信号３６と必要に応じ前フレームの入力信号３６の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを雑音抑圧部
１９に出力する。なお、フーリエ変換処理および窓がけ処理については実施の形態１と同様である。

雑音抑圧部１９は、フーリエ変換部８より入力された周波数毎のスペクトル成分から、雑音抑圧部１９内部に格納してある推定雑音スペクトルを減算し、得られた結果を雑音抑圧スペクトル３７として重み付け加算部１８とスペクトル変形部３９内の振幅平滑化部９に出力する。これは、いわゆるスペクトルサブトラクション処理の主部に相当する処理である。そして、雑音抑圧部１９は、背景雑音区間であるか否かの判定を行い、背景雑音区間であればフーリエ変換部８より入力された周波数毎のスペクトル成分を用いて、内部の推定雑音スペクトルを更新する。なお、背景雑音区間であるか否かの判定は、後述する信号評価部１２の出力結果を流用して行うことで処理を簡易化することも可能である。

スペクトル変形部３９内の振幅平滑化部９は、雑音抑圧部１９より入力された雑音抑圧スペクトル３７の振幅成分に対して平滑化処理を行い、平滑化後の雑音抑圧スペクトルを位相擾乱部１０に出力する。ここで用いる平滑化処理としては、周波数軸方向、時間軸方向の何れを用いても、雑音抑圧部が発生させた劣化音の抑制効果が得られる。具体的な平滑化方法については実施の形態１と同様のものを用いることができる。

スペクトル変形部３９内の位相擾乱部１０は、振幅平滑化部９から入力された平滑化後の雑音抑圧スペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを変形雑音抑圧スペクトル３８として重み付き加算部１８に出力する。各位相成分に擾乱を与える方法については実施の形態１と同様のものを用いることができる。

信号評価部１２は、入力信号３６を分析して背景雑音らしさを算出し、これを加算制御値３５として重み付け加算部１８に出力する。なお、この信号評価部１２内の構成と各処理については、実施の形態１と同様のものを用いることができる。

重み付き加算部１８は、信号評価部１２から入力された加算制御値３５に基づいて、雑音抑圧部１９から入力された雑音抑圧スペクトル３７とスペクトル変形部３９から入力された変形雑音抑圧スペクトル３８を重み付けして加算し、得られたスペクトルを逆フーリエ変換部１１に出力する。重み付け加算の制御方法の動作としては、実施の形態１と同様に、加算制御値３５が大きく（背景雑音らしさが高く）なるにつれて雑音抑圧スペクトル３７に対する重みを小さく、変形雑音抑圧スペクトル３８に対する重みを大きく制御する。逆に加算制御値３５が小さく（背景雑音らしさが低く）なるにつれて雑音抑圧スペクトル３７に対する重みを大きく、変形雑音抑圧スペクトル３８に対する重みを小さく制御する。

そして、最後の処理として、逆フーリエ変換部１１は、重み付き加算部１８から入力されたスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を出力信号４０として出力する。連接のための窓がけと連接処理については、実施の形態１と同様である。

この実施の形態２によれば、雑音抑圧処理等によって劣化したスペクトルに対して所定の加工処理を行うことで、劣化成分を主観的に気にならないようにした加工スペクトル（変形雑音抑圧スペクトル）を生成し、所定の評価値（背景雑音らしさ）によって加工前のスペクトルと加工スペクトルの加算重みを制御するようにしたので、劣化成分が多く含まれて主観品質の低下につながっている区間（背景雑音区間）を中心に加工スペクトルの比率を増やして、主観品質を改善できる効果がある。

また、スペクトル領域での重み付け加算を行うようにしたので、実施の形態１に比べると加工処理のためのフーリエ変換と逆フーリエ変換が不要となり、処理が簡易になる効果がある。なお、この実施の形態２におけるフーリエ変換部８と逆フーリエ変換１１は、雑音抑圧部１９のために元々必要な構成である。

また、加工処理として振幅スペクトル成分の平滑化処理と位相スペクトル成分の擾乱付与処理を行うようにしたので、量子化雑音などによって生じる振幅スペクトル成分の不安定な変動を良好に抑圧することができ、更に、位相成分間に独特な相互関係を持ってしまい特徴的な劣化と感じられることが多い量子化雑音や劣化成分に対して、位相成分間の関係に擾乱を与えることができ、主観品質を改善できる効果がある。

また、背景雑音区間であるか否かという２値区間判定ではなく、背景雑音らしさという連続量を算出して、これに基づいて連続的に重み付け加算係数を制御するようにしたので、区間判定誤りによる品質劣化を回避できる効果がある。

また、背景雑音区間以外における劣化音が大きい場合には、図２（ｃ）のような重み付け加算を行うことで、確実に背景雑音区間以外と分かっている区間においても変形雑音抑圧スペクトルを加算し、劣化音を聞こえにくくすることができる効果がある。

また、雑音抑圧スペクトルに対して、単純な処理を直接施して変形雑音抑圧スペクトルを生成しているので、雑音種やスペクトル形状にあまり依存しない安定な品質改善効果が得られる効果がある。

また、現在までの雑音抑圧スペクトルを用いて処理を行うので、雑音抑圧部１９の遅延時間に追加して、大きな遅延時間がいらない特長を持つ。変形雑音抑圧スペクトルの加算レベルをあげる際には元々の雑音抑圧スペクトルの加算レベルを下げていくので、量子化雑音を聞こえなくするために比較的大きな雑音を重畳することも不要で、背景雑音レベルを小さくすることができる効果がある。また、当然のことであるが、この処理を音声符号化処理の前処理などとして用いる場合にも、符号化部内に閉じた処理となるので従来のような新たな伝送情報の追加は不要である。

実施の形態３．
図１との対応部分に同一符号を付けた図５は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中２０は信号変形部７の変形強度を制御する情報を出力する変形強度制御部である。変形強度制御部２０は、聴覚重み付け部２１、フーリエ変換部２２、レベル判定部２３、連続性判定部２４、変形強度算出部２５より構成されている。

以下、図に基づいて動作を説明する。

音声復号部４から出力された復号音声５が、信号加工部２内の信号変形部７、変形強度制御部２０、信号評価部１２、重み付き加算部１８に入力される。

変形強度制御部２０内の聴覚重み付け部２１は、音声復号部４より入力された復号音声５に対して、聴覚重み付け処理を行い、得られた聴覚重み付け音声をフーリエ変換部２２に出力する。ここで、聴覚重み付け処理としては、音声符号化処理（音声復号部４で行った音声復号処理と対を成すもの）で使用されているものと同様な処理を行う。

ＣＥＬＰなどの符号化処理で良く用いられる聴覚重み付け処理は、符号化対象の音声を分析して線形予測係数（ＬＰＣ）を算出し、これに定数乗算を行って２つの変形ＬＰＣを
求め、この２つの変形ＬＰＣをフィルタ係数とするＡＲＭＡフィルタを構成し、このフィルタを用いたフィルタリング処理によって聴覚重み付けを行う、というものである。復号音声５に対して符号化処理と同様の聴覚重み付けを行うためには、受信した音声符号３を復号して得られたＬＰＣ、もしくは復号音声５を再分析して算出したＬＰＣを出発点として、２つの変形ＬＰＣを求め、これを用いて聴覚重み付けフィルタを構成すれば良い。

ＣＥＬＰなどの符号化処理では、聴覚重み付け後の音声上での歪みを最小化するように符号化を行うので、聴覚重み付け後の音声において、振幅が大きいスペクトル成分は、量子化雑音の重畳が少ない、ということになる。従って、符号化時の聴覚重み付け音声に近い音声を復号化部１内で生成できれば、信号変形部７における変形強度の制御情報として有用である。

なお、音声復号部４における音声復号処理にスペクトルポストフィルタなどの加工処理が含まれている場合（ＣＥＬＰの場合にはほとんどに含まれている）には、本来であればまず復号音声５からスペクトルポストフィルタなどの加工処理の影響を除去した音声を生成するか、音声復号部４内からこの加工処理直前の音声を抽出するかして、該音声に対して聴覚重み付けを行うことによって、符号化時の聴覚重み付け音声に近い音声が得られる。しかし、背景雑音区間の品質改善を主な目的とする場合には、この区間におけるスペクトルポストフィルタなどの加工処理の影響は少なく、その影響を除去しなくても効果に大差は出ない。この実施の形態３は、スペクトルポストフィルタなどの加工処理の影響除去を行わない構成としている。

なお、当然のことであるが、符号化処理において聴覚重み付けを行っていない場合や、その効果が小さくて無視しても良い場合には、この聴覚重み付け部２１は不要となる。その場合、信号変形部７内のフーリエ変換部８の出力を、後述するレベル判定部２３と連続性判定部２４に与えればよいので、フーリエ変換部２２も不要とできる。

更に、スペクトル領域でも非線型振幅変換処理など聴覚重み付けに近い効果をもたらす方法があるので、符号化処理内で使用している聴覚重み付け方法との誤差を無視して構わない場合には、信号変形部７内のフーリエ変換部８の出力をこの聴覚重み付け部２１への入力とし、聴覚重み付け部２１がこの入力に対してスペクトル領域での聴覚重み付けを行い、フーリエ変換部２２を省略して、後述するレベル判定部２３と連続性判定部２４に聴覚重み付けされたスペクトルを出力するように構成することも可能である。

変形強度制御部２０内のフーリエ変換部２２は、聴覚重み付け部２１より入力された聴覚重み付け音声と必要に応じ前フレームの聴覚重み付け音声の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを聴覚重み付けスペクトルとしてレベル判定部２３と連続性判定部２４に出力する。なお、フーリエ変換処理および窓がけ処理については実施の形態１のフーリエ変換部８と同様である。

レベル判定部２３は、フーリエ変換部２２から入力された聴覚重み付けスペクトルの各振幅成分の値の大きさに基づいて、各周波数毎の第一の変形強度を算出し、これを変形強度算出部２５に出力する。聴覚重み付けスペクトルの各振幅成分の値が小さい程量子化雑音の比率が大きいので、第一の変形強度を強くすればよい。最も単純には、全振幅成分の平均値を求めて、この平均値に所定の閾値Ｔｈを加算して、これを上回る成分に対しては第一の変形強度を０、これを下回る成分に対しては第一の変形強度を１とすればよい。図６には、この閾値Ｔｈを用いた場合の聴覚重み付けスペクトルと第一の変形強度の関係を示す。なお、第一の変形強度の算出方法はこれに限定されるものではない。

連続性判定部２４は、フーリエ変換部２２から入力された聴覚重み付けスペクトルの各振幅成分または各位相成分の時間方向の連続性を評価し、この評価結果に基づいて、各周波数毎の第二の変形強度を算出し、これを変形強度算出部２５に出力する。聴覚重み付けスペクトルの振幅成分の時間方向の連続性、位相成分の（フレーム間の時間推移による位相の回転を補償した後の）連続性が低い周波数成分については、良好な符号化が行われていたとは考えにくいので、第二の変形強度を強くする。この第二の変形強度の算出についても、最も単純には所定の閾値を用いた判定によって０または１を与える方法を用いることができる。

変形強度算出部２５は、レベル判定部２３より入力された第一の変形強度と、連続性判定部２４より入力された第二の変形強度に基づいて、各周波数毎の最終的な変形強度を算出し、これを信号変形部７内の振幅平滑化部９と位相擾乱部１０に出力する。この最終的な変形強度については、第一の変形強度と第二の変形強度の最小値、重み付き平均値、最大値などを用いることができる。以上でこの実施の形態３にて新たに加わった変形強度制御部２０の動作の説明を終了する。

次に、この変形強度制御部２０の追加に伴って、動作に変更がある構成要素について説明する。

振幅平滑化部９は、変形強度制御部２０より入力された変形強度に従い、フーリエ変換部８から入力された周波数毎のスペクトルの振幅成分に対して平滑化処理を行い、平滑化後のスペクトルを位相擾乱部１０に出力する。なお、変形強度が強い周波数成分程、平滑化を強めるように制御する。平滑化強度の強さを制御する最も単純な方法は、入力された変形強度が大きいときにのみ平滑化を行うようにすればよい。この他にも平滑化を強める方法としては、実施の形態１で説明した平滑化の数式における平滑化係数αを小さくしたり、固定的な平滑化を行った後のスペクトルと平滑化前のスペクトルを重み付き加算して最終的なスペクトルを生成するように構成しておき、平滑化前のスペクトルに対する重みを小さくするなど様々な方法を用いることができる。

位相擾乱部１０は、変形強度制御部２０より入力された変形強度に従い、振幅平滑化部９から入力された平滑化後のスペクトルの位相成分に擾乱を与え、擾乱後のスペクトルを逆フーリエ変換部１１に出力する。なお、変形強度が強い周波数成分程、位相の擾乱を大きく与えるように制御する。擾乱の大きさを制御する最も単純な方法は、入力された変形強度が大きいときにのみ擾乱を与えるようにすればよい。この他にも擾乱を制御する方法としては、乱数で生成する位相角の範囲を大小させるなど様々な方法を用いることができる。

その他の構成要素については、実施の形態１と同様であるため説明を省略する。

なお、ここでは、レベル判定部２３と連続性判定部２４の両方の出力結果を使用したが、一方だけを使用するようにして、残るもう一方は省略する構成も可能である。また、変形強度によって制御する対象を、振幅平滑化部９と位相擾乱部１０の一方のみとする構成でも構わない。

この実施の形態３によれば、入力信号（復号音声）または聴覚重み付けされた入力信号（復号音声）の各周波数成分毎の振幅の大きさ、各周波数毎の振幅や位相の連続性の大きさに基づいて、加工信号（変形復号音声）を生成する際の変形強度を周波数毎に制御するようにしたので、実施の形態１が持つ効果に加えて、前記振幅スペクトル成分が小さいために量子化雑音や劣化成分が支配的になっている成分、スペクトル成分の連続性が低いために量子化雑音や劣化成分が多くなりがちな成分に対して重点的に加工が加えられ、量子
化雑音や劣化成分が少ない良好な成分まで加工してしまうことがなくなり、入力信号や実際の背景雑音の特性を比較的良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。

実施の形態４．
図５との対応部分に同一符号を付けた図７は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中４１は加算制御値分割部であり、図５における信号変形部７の部分は、フーリエ変換部８、スペクトル変形部３９、逆フーリエ変換部１１の構成に変更している。

以下、図に基づいて動作を説明する。

音声復号部４から出力された復号音声５は、信号加工部２内のフーリエ変換部８、変形強度制御部２０、信号評価部１２に入力される。

フーリエ変換部８は、実施の形態２と同様にして、入力された現フレームの復号音声５と必要に応じ前フレームの復号音声５の最新部分を合わせた信号に対して、窓がけを行い、窓がけ後の信号に対してフーリエ変換処理を行うことで周波数毎のスペクトル成分を算出し、これを復号音声スペクトル４３として重み付き加算部１８とスペクトル変形部３９内の振幅平滑化部９に出力する。

スペクトル変形部３９は、実施の形態２と同様にして、入力された復号音声スペクトル４３に対して、振幅平滑化部９、位相擾乱部１０の処理を順に行い、得られたスペクトルを変形復号音声スペクトル４４として、重み付き加算部１８に出力する。

変形強度制御部２０内では、実施の形態３と同様に、入力された復号音声５に対して、聴覚重み付け部２１、フーリエ変換部２２、レベル判定部２３、連続性判定部２４、変形強度算出部２５の処理を順次行い、得られた周波数毎の変形強度を加算制御値分割部４１に出力する。

なお、実施の形態３と同様に、符号化処理において聴覚重み付けを行っていない場合や、その効果が小さい場合には、聴覚重み付け部２１とフーリエ変換部２２は不要となる。その場合、フーリエ変換部８の出力を、レベル判定部２３と連続性判定部２４に与えればよい。

また、フーリエ変換部８の出力をこの聴覚重み付け部２１への入力とし、聴覚重み付け部２１がこの入力に対してスペクトル領域での聴覚重み付けを行い、フーリエ変換部２２を省略して、後述するレベル判定部２３と連続性判定部２４に聴覚重み付けされたスペクトルを出力するように構成することも可能である。この様に構成することで、処理の簡易化効果が得られる。

信号評価部１２は、実施の形態１と同様に、入力された復号音声５に対して、背景雑音らしさを求めて、これを加算制御値３５として加算制御値分割部４１に出力する。

新たに加えられた加算制御値分割部４１は、変形強度制御部２０から入力された周波数毎の変形強度と、信号評価部１２から入力された加算制御値３５を用いて、周波数毎の加算制御値４２を生成し、これを重み付き加算部１８に出力する。変形強度が強い周波数については、その周波数の加算制御値４２の値を制御して、重み付き加算部１８における復号音声スペクトル４３の重みを弱く、変形復号音声スペクトル４４の重みを強くする。逆に変形強度が弱い周波数については、その周波数の加算制御値４２の値を制御して、重み
付き加算部１８における復号音声スペクトル４３の重みを強く、変形復号音声スペクトル４４の重みを弱くする。つまり、変形強度が強い周波数については、背景雑音らしさが高いわけであるので、その周波数の加算制御値４２を大きくし、逆の場合には、小さくするわけである。

重み付き加算部１８は、加算制御値分割部４１から入力された周波数毎の加算制御値４２に基づいて、フーリエ変換部８から入力された復号音声スペクトル４３とスペクトル変形部３９から入力された変形復号音声スペクトル４４を重み付けして加算し、得られたスペクトルを逆フーリエ変換部１１に出力する。重み付け加算の制御方法の動作としては、図２にて説明したのと同様に、周波数毎の加算制御値４２が大きい（背景雑音らしさが高い）周波数成分に対しては復号音声スペクトル４３に対する重みを小さく、変形復号音声スペクトル４４に対する重みを大きく制御する。逆に周波数毎の加算制御値４２が小さい（背景雑音らしさが低い）周波数成分に対しては復号音声スペクトル４３に対する重みを大きく、変形復号音声スペクトル４４に対する重みを小さく制御する。

そして、最後の処理として、逆フーリエ変換部１１は、実施の形態２と同様にして、重み付き加算部１８から入力されたスペクトルに対して逆フーリエ変換処理を行うことで、信号領域に戻し、前後のフレームとの滑らかな連接のための窓がけを行いつつ連接していき、得られた信号を出力音声６として出力する。

なお、加算制御値分割部４１を廃して、信号評価部１２の出力を重み付き加算部１８に与え、変形強度制御部２０の出力である変形強度を振幅平滑化部９と位相擾乱部１０に与える構成も可能である。この様にしたものは、実施の形態３の構成における重み付き加算処理をスペクトル領域で行うようにしたものに相当する。

更に、実施の形態３の場合と同様に、レベル判定部２３と連続性判定部２４の一方だけを使用するようにして、残るもう一方は省略する構成も可能である。
この実施の形態４によれば、入力信号（復号音声）または聴覚重み付けされた入力信号（復号音声）の各周波数成分毎の振幅の大きさ、各周波数毎の振幅や位相の連続性の大きさに基づいて、入力信号のスペクトル（復号音声スペクトル）と加工スペクトル（変形復号音声スペクトル）の重み付け加算を周波数成分毎に独立に制御するようにしたので、実施の形態１が持つ効果に加えて、前記振幅スペクトル成分が小さいために量子化雑音や劣化成分が支配的になっている成分、スペクトル成分の連続性が低いために量子化雑音や劣化成分が多くなりがちな成分に対して重点的に加工スペクトルの重みを強め、量子化雑音や劣化成分が少ない良好な成分まで加工スペクトルの重みを強めてしまうことがなくなり、入力信号や実際の背景雑音の特性を比較的良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。

実施の形態３と比較すると、平滑化と擾乱という２つの周波数毎の変形処理から、１つの周波数毎の変形処理に変わっており、処理が簡易化される効果がある。

実施の形態５．
図５との対応部分に同一符号を付けた図８は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中２６は背景雑音らしさ（加算制御値３５）の時間方向の変動性を判定する変動性判定部である。

以下、図に基づいて動作を説明する。

音声復号部４から出力された復号音声５が、信号加工部２内の信号変形部７、変形強度制御部２０、信号評価部１２、重み付き加算部１８に入力される。信号評価部１２は、
入力された復号音声５に対して、背景雑音らしさを評価し、評価結果を加算制御値３５として、変動性判定部２６と重み付き加算部１８に出力する。

変動性判定部２６は、信号評価部１２より入力された加算制御値３５を、その内部に格納している過去の加算制御値３５と比較し、値の時間方向の変動性が高いか否かを判定し、この判定結果に基づいて第三の変形強度を算出し、これを変形強度制御部２０内の変形強度算出部２５に出力する。そして、入力された加算制御値３５を用いて内部に格納している過去の加算制御値３５を更新する。
加算制御値３５などのフレーム（またはサブフレーム）の特性を表すパラメータの時間方向の変動性が高い場合には、復号音声５のスペクトルが時間方向に大きく変化している場合が多く、必要以上に強い振幅平滑化や位相擾乱付与を行うと不自然な反響感が発生してしまう。そこで、この第三の変形強度は、加算制御値３５の時間方向の変動性が高い場合には、振幅平滑化部９における平滑化と位相擾乱部１０における擾乱付与が弱くなるように設定する。なお、フレーム（またはサブフレーム）の特性を表すパラメータであれば、復号音声のパワー、スペクトル包絡パラメータなど、加算制御値３５以外のパラメータを用いても同様の効果を得ることができる。

変動性の判定方法としては、最も単純には、前フレームの加算制御値３５との差分の絶対値を所定の閾値と比較して、閾値を上回っていれば変動性が高い、とすれば良い。この他、前フレームおよび前々フレームの加算制御値３５との差分の絶対値を各々算出して、その一方が所定の閾値を上回っているか否かで判定してもよい。また、信号評価部１２がサブフレーム毎に加算制御値３５を算出する場合には、現在のフレーム内または必要に応じて前フレーム内の全サブフレーム間の加算制御値３５の差分の絶対値を求めて、何れかが所定の閾値を上回っているか否かで判定することもできる。そして、具体的な処理例としては、閾値を上回っていれば第三の変形強度を０、閾値を下回っていれば第三の変形強度を１とする。

変形強度制御部２０内では、入力された復号音声５に対して、聴覚重み付け部２１、フーリエ変換部２２、レベル判定部２３、連続性判定部２４までは、実施の形態３と同様な処理を行う。

そして、変形強度算出部２５では、レベル判定部２３より入力された第一の変形強度、連続性判定部２４より入力された第二の変形強度、変動性判定部２６より入力された第三の変形強度に基づいて、各周波数毎の最終的な変形強度を算出し、これを信号変形部７内の振幅平滑化部９と位相擾乱部１０に出力する。この最終的な変形強度の算出方法としては、第三の変形強度を全周波数に対して一定値として与え、周波数毎にこの全周波数に拡張した第三の変形強度、第一の変形強度、第二の変形強度の最小値、重み付き平均値、最大値などを求めて最終的な変形強度とする、という方法を用いることができる。

以降の信号変形部７、重み付き加算部１８の動作は、実施の形態３と同様であり、説明を省略する。

なお、ここでは、レベル判定部２３と連続性判定部２４の両方の出力結果を使用したが、一方だけを使用するようにしたり、両方とも使用しない構成も可能である。また、変形強度によって制御する対象を、振幅平滑化部９と位相擾乱部１０の一方のみとしたり、第三の変形強度については一方のみを制御対象とする構成でも構わない。

この実施の形態５によれば、実施の形態３の構成に加えて、平滑化強度または擾乱付与強度を、所定の評価値（背景雑音らしさ）の時間変動性（フレームまたはサブフレーム間の変動性）の大きさによって制御するようにしたので、実施の形態３が持つ効果に加えて
、入力信号（復号音声）の特性が変動している区間において必要以上に強い加工処理を抑止でき、なまけ、エコー（反響感）の発生を防止できる効果がある。

実施の形態６．
図５との対応部分に同一符号を付けた図９は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示す。図中２７は摩擦音らしさ評価部、３１は背景雑音らしさ評価部、４５は加算制御値算出部である。摩擦音らしさ評価部２７は、低域カットフィルタ２８、零交差数カウント部２９、摩擦音らしさ算出部３０より構成される。背景雑音らしさ評価部３１は、図５における信号評価部１２と同じ構成であり、逆フィルタ部１３、パワー算出部１４、背景雑音らしさ算出部１５、推定雑音パワー更新部１６、推定雑音スペクトル更新部１７より構成される。信号評価部１２は、図５の場合と異なり、摩擦音らしさ評価部２７、背景雑音らしさ評価部３１、加算制御値算出部４５より構成される。

以下、図に基づいて動作を説明する。

音声復号部４から出力された復号音声５が、信号加工部２内の信号変形部７、変形強度制御部２０、信号評価部１２内の摩擦音らしさ評価部２７と背景雑音らしさ評価部３１、そして重み付き加算部１８に入力される。

信号評価部１２内の背景雑音らしさ評価部３１は、実施の形態３における信号評価部１２と同様に、入力された復号音声５に対して、逆フィルタ部１３、パワー算出部１４、背景雑音らしさ算出部１５の処理を行って、得られた背景雑音らしさ４６を加算制御値算出部４５に出力する。また、推定雑音パワー更新部１６、推定雑音スペクトル更新部１７の処理を行って、各々に格納してある推定雑音パワーと推定雑音スペクトルの更新を行う。

摩擦音らしさ評価部２７内の低域カットフィルタ２８は、入力された復号音声５に対して低周波数成分を抑圧する低域カットフィルタリング処理を行い、フィルタリング後の復号音声を零交差数カウント部２９に出力する。この低域カットフィルタリング処理の目的は、復号音声に含まれる直流成分や低周波数の成分がオッフセットとなって、後述する零交差数カウント部２９のカウント結果が少なくなることを防止することである。従って、単純には、フレーム内の復号音声５の平均値を算出し、これを復号音声５の各サンプルから減算することでもよい。

零交差数カウント部２９は、低域カットフィルタ２８より入力された音声を分析して、含まれる零交差数を数え上げ、得られた零交差数を摩擦音らしさ算出部３０に出力する。零交差数を数え上げる方法としては、隣接サンプルの正負を比較し、同一でなければ零を交差している、としてカウントする方法、隣接サンプルの値の積をとって、その結果が負または零であれば零を交差している、としてカウントする方法などがある。

摩擦音らしさ算出部３０は、零交差数カウント部２９より入力された零交差数を、所定の閾値と比較し、この比較結果に基づいて摩擦音らしさ４７を求めて、これを加算制御値算出部４５に出力する。例えば、零交差数が閾値より大きい場合には、摩擦音らしいと判定して摩擦音らしさを１に設定する。逆に零交差数が閾値より小さい場合には、摩擦音らしくないと判定して摩擦音らしさを０に設定する。この他、閾値を２つ以上設けて、摩擦音らしさを段階的に設定したり、所定の関数を用意しておいて、零交差数から連続的な値の摩擦音らしさを算出するようにしても良い。

なお、この摩擦音らしさ評価部２７内の構成は、あくまでも一例にすぎず、スペクトル傾斜の分析結果に基づいて評価するようにしたり、パワーやスペクトルの定常性に基づい
て評価するようにしたり、零交差数も含めて複数のパラメータを組み合わせて評価するようにしたりしても構わない。

加算制御値算出部４５は、背景雑音らしさ評価部３１より入力された背景雑音らしさ４６と、摩擦音らしさ評価部２７より入力された摩擦音らしさ４７に基づいて、加算制御値３５を算出し、これを重み付き加算部１８に出力する。背景雑音らしい場合と摩擦音らしい場合のどちらにおいても、量子化雑音が聞き苦しくなってしまうことが多いので、背景雑音らしさ４６と摩擦音らしさ４７を適切に重み付き加算することで加算制御値３５を算出すればよい。

以降の信号変形部７、変形強度制御部２０、重み付き加算部１８の動作は、実施の形態３と同様であり、説明を省略する。

この実施の形態６によれば、入力信号（復号音声）の背景雑音らしさと摩擦音らしさが高い場合に、入力信号（復号音声）の代わりに加工信号（変形復号音声）をより大きく出力するようにしたので、実施の形態３が持つ効果に加えて、量子化雑音や劣化成分が多く発生しがちな摩擦音区間に対して重点的な加工が加えられ、摩擦音以外の区間についてもその区間に適切な加工（加工しない、低レベルの加工を行うなど）が選択されるので、主観品質を改善できる効果がある。なお、摩擦音らしさ以外にも、量子化雑音や劣化成分が多く発生しがちな部分がある程度特定できる場合には、その部分らしさを評価して、加算制御値に反映させることが可能である。その様に構成すれば、大きい量子化雑音や劣化成分を１つずつ抑圧していくことができるので、主観品質が一層改善できる効果がある。

また、当然のことであるが、背景雑音らしさ評価部を削除した構成も可能である。

実施の形態７．
図１との対応部分に同一符号を付けた図１０は、本実施の形態による信号加工方法を適用した音声復号装置の全体構成を示し、図中３２はポストフィルタ部である。

以下、図に基づいて動作を説明する。

まず音声符号３が音声復号装置１内の音声復号部４に入力される。

音声復号部４は、入力された音声符号３に対して復号処理を行い、得られた復号音声５をポストフィルタ部３２、信号変形部７、信号評価部１２に出力する。

ポストフィルタ部３２は、入力された復号音声５に対して、スペクトル強調処理、ピッチ周期性強調処理などを行い、得られた結果をポストフィルタ復号音声４８として重み付き加算部１８に出力する。このポストフィルタ処理は、ＣＥＬＰ復号処理の後処理として一般的に使用されているもので、符号化復号化によって発生した量子化雑音を抑圧することを目的として導入されている。スペクトル強度の弱い部分には量子化雑音が多く含まれているので、この成分の振幅を抑圧してしまうものである。なお、ピッチ周期性強調処理が行われず、スペクトル強調処理だけが行われている場合もある。

なお、実施の形態１、実施の形態３ないし６は、このポストフィルタ処理を音声復号部４内に含まれるもの、もしくは存在しないものの何れにも適用可能なものについて説明したが、この実施の形態７では、音声復号部４内にポストフィルタ処理が含まれるものからポストフィルタ処理の全部もしくは一部をポストフィルタ部３２として独立させている。

信号変形部７は、実施の形態１と同様に、入力された復号音声５に対して、フーリエ
変換部８、振幅平滑化部９、位相擾乱部１０、逆フーリエ変換部１１の処理を行い、得られた変形復号音声３４を重み付き加算部１８に出力する。

信号評価部１２は、実施の形態１と同様に、入力された復号音声５に対して、背景雑音らしさを評価し、評価結果を加算制御値３５として重み付き加算部１８に出力する。

そして、最後の処理として、重み付き加算部１８は、実施の形態１と同様に、信号評価部１２から入力された加算制御値３５に基づいて、ポストフィルタ部３２から入力されたポストフィルタ復号音声４８と信号変形部７から入力された変形復号音声３４を重み付け加算し、得られた出力音声６を出力する。

この実施の形態７によれば、ポストフィルタによる加工前の復号音声に基づいて変形復号音声を生成し、更にポストフィルタによる加工前の復号音声を分析して背景雑音らしさを求め、これに基づいてポストフィルタ復号音声と変形復号音声の加算時の重みを制御するようにしたので、実施の形態１が持つ効果に加えて、ポストフィルタによる復号音声の変形を含まない変形復号音声が生成でき、ポストフィルタによる復号音声の変形に影響されずに算出した精度の高い背景雑音らしさに基づいて精度の高い加算重み制御ができるようになるので、更に主観品質が改善する効果がある。

背景雑音区間においては、ポストフィルタによって劣化音までも強調されて聞き苦しくなってしまっていることが多く、ポストフィルタによる加工前の復号音声を出発点として変形復号音声を生成した方が、歪み音は小さくなる。また、ポストフィルタの処理が複数のモードを持っており、しばしば処理を切り替える場合には、その切り替えが背景雑音らしさの評価に影響する危険性が高く、ポストフィルタによる加工前の復号音声に対して背景雑音らしさを評価した方が安定な評価結果が得られる。

なお、実施の形態３の構成において、この実施の形態７と同様にポストフィルタ部の分離を行った場合には、図５の聴覚重み付け部２１の出力結果が、より符号化処理内の聴覚重み付け音声に近づき、量子化雑音の多い成分の特定精度が上がり、より良い変形強度制御が得られ、主観品質が更に改善する効果が得られる。

また、実施の形態６の構成において、この実施の形態７と同様にポストフィルタ部の分離を行った場合には、図９の摩擦音らしさ評価部２７における評価精度が上がり、主観品質が更に改善する効果が得られる。

なお、ポストフィルタ部の分離を行わない構成は、分離したこの実施の形態７の構成に比べると、音声復号部（ポストフィルタを含む）との接続が復号音声の１点だけと少なく、独立の装置、プログラムにて実現が容易である長所がある。この実施の形態７では、ポストフィルタを有する音声復号部に対して独立の装置、プログラムにて実現することが容易でない短所もあるが、上記の様々な効果を持つものである。

実施の形態８．
図１０との対応部分に同一符号を付けた図１１は、本実施の形態による音信号加工方法を適用した音声復号装置の全体構成を示し、図中３３は音声復号部４内で生成されたスペクトルパラメータである。図１０との相違点としては、実施の形態３と同様の変形強度制御部２０が追加され、スペクトルパラメータ３３が音声復号部４から信号評価部１２と変形強度制御部２０に入力されている点である。

以下、図に基づいて動作を説明する。

音声復号部４は、入力された音声符号３に対して復号処理を行い、得られた復号音声５をポストフィルタ部３２、信号変形部７、変形強度制御部２０、信号評価部１２に出力する。また、復号処理の過程で生成したスペクトルパラメータ３３を、信号評価部１２内の推定雑音スペクトル更新部１７と変形強度制御部２０内の聴覚重み付け部２１に出力する。なお、スペクトルパラメータ３３としては、線形予測係数（ＬＰＣ）、線スペクトル対（ＬＳＰ）などが一般的に用いられていることが多い。

変形強度制御部２０内の聴覚重み付け部２１は、音声復号部４より入力された復号音声５に対して、やはり音声復号部４から入力されたスペクトルパラメータ３３を用いて聴覚重み付け処理を行い、得られた聴覚重み付け音声をフーリエ変換部２２に出力する。具体的な処理としては、スペクトルパラメータ３３が線形予測係数（ＬＰＣ）である場合にはこれをそのまま用い、スペクトルパラメータ３３がＬＰＣ以外のパラメータである場合には、このスペクトルパラメータ３３をＬＰＣに変換して、このＬＰＣに定数乗算を行って２つの変形ＬＰＣを求め、この２つの変形ＬＰＣをフィルタ係数とするＡＲＭＡフィルタを構成し、このフィルタを用いたフィルタリング処理によって聴覚重み付けを行う。なお、この聴覚重み付け処理は、音声符号化処理（音声復号部４で行った音声復号処理と対を成すもの）で使用されているものと同様な処理を行うことが望ましい。

変形強度制御部２０内では、上記聴覚重み付け部２１の処理に続いて、実施の形態３と同様に、フーリエ変換部２２、レベル判定部２３、連続性判定部２４、変形強度算出部２５の処理を行い、得られた変形強度を信号変形部７に対して出力する。

信号変形部７は、実施の形態３と同様に、入力された復号音声５と変形強度に対して、
フーリエ変換部８、振幅平滑化部９、位相擾乱部１０、逆フーリエ変換部１１の処理を行い、得られた変形復号音声３４を重み付き加算部１８に出力する。

信号評価部１２内では、実施の形態１と同様に、入力された復号音声５に対して、まず逆フィルタ部１３、パワー算出部１４、背景雑音らしさ算出部１５の処理を行って背景雑音らしさを評価し、評価結果を加算制御値３５として重み付き加算部１８に出力する。また、推定雑音パワー更新部１６の処理を行って、内部の推定雑音パワーを更新する。

そして、推定雑音スペクトル更新部１７は、音声復号部４から入力されたスペクトルパラメータ３３と背景雑音らしさ算出部１５から入力され背景雑音を用いて、その内部に格納してある推定雑音スペクトルを更新する。例えば、入力された背景雑音らしさが高い時に、実施の形態１に示した式に従い、スペクトルパラメータ３３を推定雑音スペクトルに反映させることで更新を行う。
以降のポストフィルタ部３２、重み付き加算部１８の動作については、実施の形態７と同様であるため、説明を省略する。

この実施の形態８によれば、音声復号処理の過程で生成されたスペクトルパラメータを流用して、聴覚重み付け処理、推定雑音スペクトルの更新を行うようにしたので、実施の形態３及び実施の形態７が持つ効果に加えて、処理が簡易化される効果がある。

更に、符号化処理とまったく同じ聴覚重み付け処理が実現され、量子化雑音の多い成分の特定精度が上がり、より良い変形強度制御が得られ、主観品質が改善する効果が得られる。

また、背景雑音らしさの算出に用いる推定雑音スペクトルの（音声符号化処理に入力さ
れた音声のスペクトルに近いという意味での）推定精度が上がり、結果として得られる安定した高精度の背景雑音らしさに基づいて精度の高い加算重み制御ができるようになり、主観品質が改善する効果がある。

なお、この実施の形態８では、ポストフィルタ部３２を音声復号部４から分離した構成であったが、分離していない構成においても、実施の形態８のように音声復号部４が出力したスペクトルパラメータ３３を流用して信号加工部２の処理を行うことができる。この場合でも、上記実施の形態８と同様の効果が得られる。

実施の形態９．
上記図７に示す実施の形態４の構成において、加算制御値分割部４１が、重み付け加算部１８にて加算される変形復号音声スペクトル４４の周波数毎の重みを乗じた後のスペクトルの概形が、量子化雑音の推定スペクトル形状に一致するように、出力する変形強度を制御することも可能である。

図１２は、この場合の復号音声スペクトル４３と、変形復号音声スペクトル４４に周波数毎の重みを乗じた後のスペクトルの一例を示す模式図である。

復号音声スペクトル４３には、符号化方式に依存したスペクトル形状を持つ量子化雑音が重畳している。ＣＥＬＰ系の音声符号化方式においては、聴覚重み付け処理後の音声における歪みを最小化するように符号の探索を行う。このため、量子化雑音は、聴覚重み付け処理後の音声においては、平坦なスペクトル形状を持つことになり、最終的な量子化雑音のスペクトル形状は、聴覚重み付け処理の逆特性のスペクトル形状を持つことになる。よって、聴覚重み付け処理のスペクトル特性を求め、この逆特性のスペクトル形状を求めて、変形復号音声スペクトルのスペクトル形状がこれに合うように、加算制御値分割部４１の出力を制御することは可能である。

この実施の形態９によれば、最終的な出力音声６に含まれる変形復号音声成分のスペクトル形状を量子化雑音の推定スペクトルの概形に一致するようにしたので、実施の形態４が持つ効果に加えて、必要最低限のパワーの変形復号音声の加算によって音声区間における聞き苦しい量子化雑音を聞こえにくくすることができる効果がある。

実施の形態１０．
上記実施の形態１、実施の形態３ないし８の構成において、振幅平滑化部９の処理内で、平滑化後の振幅スペクトルが推定量子化雑音の振幅スペクトル形状に一致するように加工することも可能である。なお、推定量子化雑音の振幅スペクトル形状の算出は、実施の形態９と同様にして行えばよい。

この実施の形態１０によれば、変形復号音声のスペクトル形状を量子化雑音の推定スペクトル形状に一致するようにしたので、実施の形態１、実施の形態３ないし８が持つ効果に加えて、必要最低限のパワーの変形復号音声の加算によって音声区間における聞き苦しい量子化雑音を聞こえにくくすることができる効果がある。

実施の形態１１．
上記実施の形態１、実施の形態３ないし１０では、信号加工部２を復号音声５の加工に使用しているが、この信号加工部２のみを取り出して、音響信号復号部（音響信号符号化に対する復号部）、雑音抑圧処理の後段に接続するなど、他の信号加工処理に使用することもできる。但し、解消したい劣化成分の特性に応じて、信号変形部における変形処理、信号評価部における評価方法を変更、調整することが必要になる。

この実施の形態１１によれば、復号音声以外の劣化成分を含む信号に対して、主観的に好ましくない成分を感じにくく加工することが可能である。

実施の形態１２．
上記実施の形態１ないし１１では、現在のフレームまでの信号を用いて該信号の加工を行っているが、処理遅延の発生を許して次フレーム以降の信号も使用する構成も可能である。

この実施の形態１２によれば、次のフレーム以降の信号を参照できるので、振幅スペクトルの平滑化特性の改善、連続性判定の精度向上、雑音らしさなどの評価精度の向上効果が得られる。

実施の形態１３．
上記実施の形態１、実施の形態３、実施の形態５ないし１２では、フーリエ変換によってスペクトル成分を算出し、変形処理を行って、逆フーリエ変換によって信号領域に戻しているが、フーリエ変換の代わりにバンドパスフィルタ群の各出力に対して、変形処理を行い、帯域別信号の加算によって信号を再構築する構成も可能である。

この実施の形態１３によれば、フーリエ変換を使用しない構成でも同様の効果が得られる。

実施の形態１４．
上記実施の形態１ないし１３では、振幅平滑化部９と位相擾乱部１０の両方を備えた構成であったが、振幅平滑化部９と位相擾乱部１０の一方を省略した構成も可能であるし、更に別の変形部を導入した構成も可能である。

この実施の形態１４によれば、解消したい量子化雑音や劣化音の特性によっては、導入効果がない変形部を省略することで処理が簡易化できる効果がある。また、適切な変形部を導入することで、振幅平滑化部９と位相擾乱部１０では解消できない量子化雑音や劣化音を解消できる効果が期待できる。

この発明の実施の形態１による音声復号方法を適用した音声復号装置の全体構成を示す図である。この発明の実施の形態１の重み付け加算部１８における加算制御値に基づく重み付け加算の制御例を示す図である。この発明の実施の形態１のフーリエ変換部８における切り出し窓、逆フーリエ変換部１１における連接のための窓の実際の形状例、復号音声５との時間関係を説明する説明図である。この発明の実施の形態２の音信号加工方法を雑音抑圧方法と組み合わて適用した音声復号装置の構成の一部を示す図である。この発明の実施の形態３による音声復号方法を適用した音声復号装置の全体構成を示す図である。この発明の実施の形態３の聴覚重み付けスペクトルと第一の変形強度の関係を示す図である。この発明の実施の形態４による音声復号方法を適用した音声復号装置の全体構成を示す図である。この発明の実施の形態５による音声復号方法を適用した音声復号装置の全体構成を示す図である。この発明の実施の形態６による音声復号方法を適用した音声復号装置の全体構成を示す図である。この発明の実施の形態７による音声復号方法を適用した音声復号装置の全体構成を示す図である。この発明の実施の形態８による音声復号方法を適用した音声復号装置の全体構成を示す図である。この発明の実施の形態９を適用した復号音声スペクトル４３と、変形復号音声スペクトル４４に周波数毎の重みを乗じた後のスペクトルの一例を示す模式図である。

Claims

音声符号から複数のパラメータを生成し、当該複数のパラメータを用いて前記音声符号に対応した復号音声を生成する復号音声生成ステップと、
前記復号音声生成ステップにおいて生成された前記復号音声の振幅の時間軸方向の変動が小さくされた第一の加工音声を、前記復号音声の所定時点における振幅に、前記所定時点から所定時間だけ前の時点における前記復号音声の振幅と、前記所定時点から前記所定時間だけ後の時点における前記復号音声の振幅とを重み付け加算する重み付け加算処理を行って生成する第一加工音声生成ステップと、
前記復号音声と前記第一の加工音声とを混合して第二の加工音声を生成する第二加工音声生成ステップであって、前記復号音声生成ステップによって生成された複数のパラメータの少なくとも１つに基づく前記復号音声の雑音らしさが高くなるにつれて大きくなる第一の重み付け係数と、周波数成分毎に異なる第二の重み付け係数とで重み付けられた前記第一の加工音声と、前記復号音声とを加算して第二の加工音声を生成する第二加工音声生成ステップとを備えたことを特徴とする音信号加工方法。
音声符号から複数のパラメータを生成し、当該複数のパラメータを用いて前記音声符号に対応した復号音声を生成する復号音声生成手段と、
前記復号音声生成手段によって生成された前記復号音声の振幅の時間軸方向の変動が小さくされた第一の加工音声を、前記復号音声の所定時点における振幅に、前記所定時点から所定時間だけ前の時点における前記復号音声の振幅と、前記所定時点から前記所定時間だけ後の時点における前記復号音声の振幅とを重み付け加算する重み付け加算処理を行って生成する第一加工音声生成手段と、
前記復号音声と前記第一の加工音声とを混合して第二の加工音声を生成する第二加工音声生成手段であって、前記復号音声生成手段によって生成された複数のパラメータの少なくとも１つに基づく前記復号音声の雑音らしさが高くなるにつれて大きくなる第一の重み付け係数と、周波数成分毎に異なる第二の重み付け係数とで重み付けられた前記第一の加工音声と、前記復号音声とを加算して第二の加工音声を生成する第二加工音声生成手段とを備えたことを特徴とする音信号加工装置。