JP2022011893A

JP2022011893A - ノイズ抑圧回路

Info

Publication number: JP2022011893A
Application number: JP2020113301A
Authority: JP
Inventors: 康二郎今里; Kojiro Imazato
Original assignee: Japan Radio Co Ltd
Current assignee: Japan Radio Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2022-01-17
Anticipated expiration: 2040-06-30

Abstract

【課題】入力される信号から、本来受信したい目的信号への影響を最小限に抑えつつ、雑音成分を適切に減算する。【解決手段】ノイズ抑圧回路７は、処理対象のフレームが音声の始まりに該当するフレームであるか否かを判定するとともに音声の始まりに該当するフレームに後続するフレームを音声開始後続フレームとして特定するフレーム属性決定部７１と、処理対象のフレームの振幅スペクトルに該当する信号に含まれる雑音成分を抑圧するための抑圧係数Ｇｉ（ｆ）を算出する抑圧係数算出部７２と、抑圧係数Ｇｉ（ｆ）と振幅スペクトルに該当する信号Ｙｉ（ｆ）とを乗じて減算処理後の振幅スペクトルＳｉ（ｆ）を算出する抑圧部７３とを有する。音声開始後続フレームについての抑圧係数Ｇｉ（ｆ）を算出する際に用いられる忘却係数αの値が、その他のフレームについての抑圧係数Ｇｉ（ｆ）を算出する際に用いられる忘却係数αの値よりも小さい値に設定される。【選択図】図２

Description

この発明は、ノイズ抑圧回路に関し、例えば、高周波信号を送受信する無線機に組み込まれるノイズリダクション回路に用いられ得るノイズ抑圧回路に関する。

音声信号に含まれる雑音成分を抑圧する手法としてスペクトル減算法（Ｓpectral Ｓubtraction）が知られている（例えば、特許文献１、非特許文献１参照）。

特開平４－２３８３９９号公報

Ｐ．Ｓcalart and Ｊ．Ｖieira Ｆilho「Ｓpeech Ｅnhancement Ｂased on a Ｐriori Ｓignal to Ｎoise Ｅstimation」，ＩＥＥＥＩnternational Ｃonference on．Ａcoustics，Ｓpeech，Ｓignal Ｐrocessing，Ａtlanta，ＧＡ，ＵＳＡ，ｖｏｌ．２，ｐｐ．６２９－６３２，１９９６年

ところで、スペクトル減算法を適切に適用するためには、入力される信号から、本来受信したい目的信号（例えば、音声）への影響を最小限に抑えつつ、雑音成分を適切に減算することが重要である。

そこでこの発明は、入力される信号から、本来受信したい目的信号（例えば、音声）への影響を最小限に抑えつつ、雑音成分を適切に減算することが可能な、ノイズ抑圧回路を提供することを目的とする。

上記課題を解決するために、請求項１に記載の発明は、処理対象のフレームが音声の始まりに該当するフレームであるか否かを判定するとともに前記音声の始まりに該当するフレームに後続するフレームを音声開始後続フレームとして特定するフレーム属性決定部と、前記処理対象のフレームの振幅スペクトルに該当する信号に含まれる雑音成分を抑圧するための抑圧係数を算出する抑圧係数算出部と、前記抑圧係数と前記振幅スペクトルに該当する信号とを乗じて減算処理後の振幅スペクトルを算出する抑圧部と、を有し、前記音声開始後続フレームについての前記抑圧係数を算出する際に用いられる忘却係数の値が、その他のフレームについての前記抑圧係数を算出する際に用いられる忘却係数の値よりも小さい値に設定される、ことを特徴とするノイズ抑圧回路である。

請求項２に記載の発明は、請求項１に記載のノイズ抑圧回路において、前記音声の始まりに該当するフレームについての前記抑圧係数を算出する際に用いられる忘却係数の値も、前記その他のフレームについての前記抑圧係数を算出する際に用いられる前記忘却係数の値よりも小さい値に設定される、ことを特徴とする。

請求項３に記載の発明は、請求項２に記載のノイズ抑圧回路において、前記音声の始まりに該当するフレームについての前記抑圧係数を算出する際に用いられる忘却係数の値と、前記音声開始後続フレームについての前記抑圧係数を算出する際に用いられる忘却係数の値とが異なる、ことを特徴とする。

請求項４に記載の発明は、請求項１から３に記載のノイズ抑圧回路において、前記音声開始後続フレームについての前記抑圧係数を算出する際に用いられる忘却係数の値が、前記音声開始後続フレームによって変化する、ことを特徴とする。

請求項１に記載の発明によれば、非音声（具体的には、ノイズ）から音声へと変わる際の忘却係数を非音声または音声が連続する定常状態の忘却係数と比べて小さくすることにより、入力される信号から、本来受信したい目的信号（例えば、音声）への影響を最小限に抑えつつ、雑音成分を適切に減算することが可能となる。具体的には、処理対象の信号に含まれる雑音成分を抑圧するための抑圧係数の算出に使用される忘却係数によって雑音成分の抑圧レベルが過去のデータに影響を受けるところ、非音声（具体的には、ノイズ）から音声へと変わる際には、抑圧係数が大きく変化することになるため、忘却係数が大きいと声の抑揚が抑えられてしまい、一方で、忘却係数が小さいと非音声または音声が連続する定常状態での雑音成分の抑圧量が低下してしまう。そして、スペクトル減算法を実現する従来の回路では、忘却係数として固定値を使用するようにしているため、声の抑揚が極端に抑えられてしまったり雑音成分の抑圧量が極端に低下してしまったりする、という問題がある。これに対して、請求項１に記載の発明では、非音声から音声へと変わる際の忘却係数を非音声または音声が連続する定常状態の忘却係数と比べて小さくするようにしているので、非音声または音声が連続する定常状態と非音声から音声へと変わる際とのそれぞれの忘却係数を適切に制御して、雑音成分の抑圧による声の抑揚の制限を最小化しつつ雑音成分の抑圧量を確保することができ、延いては、本来受信したい目的信号（例えば、音声）への影響を最小限に抑えつつ、入力される信号から雑音成分を適切に減算することが可能となる。

請求項２ないし請求項４に記載の発明によれば、環境によっては請求項１に記載の発明よりも良好に、雑音成分の抑圧による声の抑揚の制限を最小化しつつ雑音成分の抑圧量を確保することができ、本来受信したい目的信号（例えば、音声）への影響を最小限に抑えつつ、入力される信号から雑音成分を適切に減算することが可能となる。

この発明の実施の形態に係るノイズ抑圧回路を含むノイズリダクション回路の概略構成を示す機能ブロック図である。実施の形態に係るノイズ抑圧回路の概略構成を示す機能ブロック図である。音声信号の時間波形におけるフレーム属性の特定の例を示す図である。（Ａ）は、忘却係数として固定値を使用した場合の、ディエンファシス回路から出力される音声信号の時間波形を示す図である。（Ｂ）は、図２のノイズ抑圧回路の作用効果の検証例を示す図であり、忘却係数を変化させた場合の、ディエンファシス回路から出力される音声信号の時間波形を示す図である。

以下、この発明を図示の実施の形態に基づいて説明する。

図１は、この発明の実施の形態に係るノイズ抑圧回路７を含むノイズリダクション回路１の概略構成を示す機能ブロック図である。図２は、実施の形態に係るノイズ抑圧回路７の概略構成を示す機能ブロック図である。

ノイズリダクション回路１は、例えば、高周波信号を送受信する無線機に組み込まれて、音声信号に含まれる雑音成分を抑圧する手法であるスペクトル減算法（Ｓpectral Ｓubtraction）を実現する回路であり、主として、プリエンファシス回路２と、窓処理部３と、時間周波数変換部４と、変換結果出力部５と、音声区間検出・ノイズ更新部６と、ノイズ抑圧回路７と、合成部８と、周波数時間変換部９と、ディエンファシス回路１０と、を有する。

プリエンファシス（Ｐre-Ｅmphasis：ＰＥ）回路２は、アンテナから受信した高周波信号を復調した音声信号に対して高周波成分の相対強度を予め増幅する高域強調処理を施して、高域強調処理後の信号を出力する。

窓処理部３は、プリエンファシス回路２から出力される高域強調処理後の信号の入力を受け、入力された前記信号から所定の時間長さのフレームを抽出する（例えば、１２．５ｍｓごとに２５ｍｓ分の時間波形を抽出する）とともに、各フレームに対して例えばハニング窓などの窓関数を乗じて窓処理を施す。窓処理部３は、各フレームに対して窓処理を施すたびに、窓処理後のフレームを出力する。

時間周波数変換部４は、窓処理部３から出力される窓処理後のフレームの入力を受け、前記フレームの入力を受けるたびに、前記フレームに対して時間領域の信号から周波数領域の信号への変換処理を施し、複数の周波数それぞれについての振幅成分と位相成分とを含む周波数スペクトルを計算して、実数と虚数との周波数スペクトルの信号を出力する。時間周波数変換部４は、例えば離散フーリエ変換（Ｄiscrete Ｆourier Ｔransform)や高速フーリエ変換（Ｆast Ｆourier Ｔransform）により、時間周波数変換を実行して周波数スペクトルを計算する。

変換結果出力部５は、時間周波数変換部４から出力されるフレームごとの（例えば、１２．５ｍｓ程度の間隔で）周波数スペクトルの信号の入力を受け、フレームごとに、入力された前記周波数スペクトルのうちの各周波数の振幅成分を含む振幅スペクトルに該当する信号をノイズ抑圧回路７に対して出力するとともに、入力された前記周波数スペクトルのうちの各周波数の位相成分を含む位相スペクトルに該当する信号を合成部８に対して出力する。

音声区間検出・ノイズ更新部６は、変換結果出力部５から出力されて分岐されるフレームごとの振幅スペクトルに該当する信号の入力を受け、入力された前記振幅スペクトルに該当する信号を用いて、周波数ごとの雑音成分を表すノイズスペクトルを更新する。

音声区間検出・ノイズ更新部６は、まず、入力された前記振幅スペクトルに該当する信号について、フレームごとに、ノイズ成分のみのフレームであるのか、音声成分を含むフレームであるのか、の判定を行う。

音声区間検出・ノイズ更新部６における、処理対象のフレームがノイズ成分のみであるのか音声成分を含むのかの判定の仕法は、特定の手順や手法に限定されるものではなく、従来もしくは新規の手順や手法の中から適当な手順や手法が適宜選択され得る。

音声区間検出・ノイズ更新部６における、処理対象のフレームがノイズ成分のみであるのか音声成分を含むのかの判定の仕法として、例えば、音声の非恒常性に着目して、振幅スペクトルの周波数別の振幅の大きさに関する平均や分散の値が直近のフレームにおいて複数回（例えば、３～５回程度）連続して所定の閾値未満であるときは処理対象のフレームはノイズ成分のみであると判定し、前記以外のときは処理対象のフレームには音声成分があると判定する手法や、あるいは、振幅スペクトルの周波数別の振幅の大きさに関する平均や分散の値が所定の閾値未満であるときは処理対象のフレームはノイズ成分のみであると判定し、前記平均や分散の値が前記閾値以上であるときは処理対象のフレームには音声成分があると判定する手法などが用いられ得る。

音声区間検出・ノイズ更新部６は、処理対象のフレームはノイズ成分のみであると判定した場合にはノイズ抑圧回路７に対してノイズフレーム信号を出力し、また、処理対象のフレームには音声成分があると判定した場合にはノイズ抑圧回路７に対して音声フレーム信号を出力する。音声区間検出・ノイズ更新部６は、フレームごとに、音声区間検出結果としてノイズフレーム信号または音声フレーム信号をノイズ抑圧回路７に対して出力する。

音声区間検出・ノイズ更新部６は、続いて、過去に計算された周波数ごとの雑音成分を表すノイズスペクトルに、現フレーム（別言すると、処理対象のフレーム、最新のフレーム）の振幅スペクトル、すなわち、入力された前記振幅スペクトルに該当する信号を加味することにより、最新のノイズスペクトルへの更新を行う。

音声区間検出・ノイズ更新部６における、周波数ごとの雑音成分を表すノイズスペクトルの更新の仕法は、特定の手順や手法に限定されるものではなく、従来もしくは新規の手順や手法の中から適当な手順や手法が適宜選択され得る。

音声区間検出・ノイズ更新部６における、周波数ごとの雑音成分を表すノイズスペクトルの更新の仕法として、例えば、入力された前記振幅スペクトルに該当する信号を用いて、更新後のノイズスペクトルＮi(ｆ)を、処理対象のフレームがノイズ成分のみであるのか音声成分を含むのかに応じて下記の数式１または数式２に従って算出する手法が用いられ得る。なお、以降の数式における添字ｉは、時系列の順序を表す順序数であり、すべての数式に共通して適用される順序を表す。また、以降の数式におけるｆは、入力された前記振幅スペクトルにおける周波数を表す。

具体的には、処理対象のフレームがノイズ成分のみである場合には、入力された前記振幅スペクトルに該当する信号を入力信号スペクトルＹi(ｆ)として、ＩＩＲ（Ｉnfinite Ｉmpulse Ｒesponse の略；無限インパルス応答）フィルタである以下の数式１に従って周波数ｆごとに更新後のノイズスペクトルＮi(ｆ)を算出する。数式１や数式２におけるＮi-1(ｆ)は、更新の１フレーム前のノイズスペクトルを表す。

数式１におけるＫは、処理対象のフレーム（別言すると、現フレーム、最新のフレーム）がノイズ成分のみのフレームである場合の、前記処理対象のフレームの振幅スペクトルである入力信号スペクトルＹi(ｆ)に対する更新の１フレーム前のノイズスペクトルＮi-1(ｆ)の重みづけを決定づける定数である。定数Ｋは、０以上の整数であれば特定の値に限定されるものではなく、具体的には例えば、ＩＩＲフィルタの時定数の０．０６～０．２０秒程度に相当する範囲（例えば、フレーム間隔１２．５ｍｓにおいてＫ＝５～１６程度の範囲）のうちのいずれかの値に設定されることが考えられ、特にＩＩＲフィルタの時定数の０．１秒程度に相当する値（例えば、フレーム間隔１２．５ｍｓにおいてＫ＝８程度）に設定されることが考えられる。

また、処理対象のフレームが音声成分を含む場合には、以下の数式２に従って周波数ｆごとに更新後のノイズスペクトルＮi(ｆ)を決定する。

音声区間検出・ノイズ更新部６は、各フレームについて、更新後の、周波数ｆごとのノイズスペクトルＮi(ｆ)に該当する信号をノイズ抑圧回路７に対して出力する。

ノイズ抑圧回路７は、変換結果出力部５から出力されるフレームごとの振幅スペクトルに該当する信号の入力を受けるとともに、音声区間検出・ノイズ更新部６から出力されるフレームごとの音声区間検出結果および更新後のノイズスペクトルに該当する信号の入力を受け、各フレームについて、入力された前記振幅スペクトルに該当する信号から、周波数ごとに（別言すると、スペクトルごとに）、入力された前記更新後のノイズスペクトルに該当する信号を減算する。

合成部８は、変換結果出力部５から出力されるフレームごとの位相スペクトルに該当する信号の入力を受けるとともに、ノイズ抑圧回路７から出力されるフレームごとの減算処理後の振幅スペクトルに該当する信号の入力を受け、フレームごとに、入力された前記位相スペクトルに該当する信号と前記振幅スペクトルに該当する信号とを合成して周波数スペクトルを生成して、実数と虚数との周波数スペクトルの信号を出力する。

周波数時間変換部９は、合成部８から出力されるフレームごとの周波数スペクトルの信号の入力を受け、フレームごとに、入力された前記周波数スペクトルの信号に対して周波数領域の信号から時間領域の信号への変換処理、すなわち時間周波数変換部４における変換処理の逆変換処理を施して、音声信号を出力する。周波数時間変換部９は、例えば逆離散フーリエ変換や逆高速フーリエ変換により、周波数時間変換を実行して音声信号を生成する。

ディエンファシス（Ｄe－Ｅmphasis：ＤＥ）回路１０は、周波数時間変換部９から出力される音声信号の入力を受け、入力された前記音声信号に対して高周波成分の相対強度を減衰させる高域減衰処理、すなわちプリエンファシス回路２の逆フィルタによる減衰処理を施して、高域減衰処理後の音声信号を出力する。

そして、実施の形態に係るノイズ抑圧回路７は、処理対象のフレームが音声の始まりに該当するフレームであるか否かを判定するとともに音声の始まりに該当するフレームに後続するフレームを音声開始後続フレームとして特定するフレーム属性決定部７１と、処理対象のフレームの振幅スペクトルに該当する信号に含まれる雑音成分を抑圧するための抑圧係数Ｇi(ｆ)を算出する抑圧係数算出部７２と、抑圧係数Ｇi(ｆ)と振幅スペクトルに該当する信号Ｙi(ｆ)とを乗じて減算処理後の振幅スペクトルＳi(ｆ)を算出する抑圧部７３と、を有し、音声開始後続フレームについての抑圧係数Ｇi(ｆ)を算出する際に用いられる忘却係数αの値が、その他のフレームについての抑圧係数Ｇi(ｆ)を算出する際に用いられる忘却係数αの値よりも小さい値に設定される、ようにしている。

ノイズ抑圧回路７は、変換結果出力部５から出力されるフレームごとの振幅スペクトルに該当する信号から、音声区間検出・ノイズ更新部６から出力されるフレームごとの音声区間検出結果を踏まえながら、前記音声区間検出・ノイズ更新部６から出力されるフレームごとの更新後のノイズスペクトルに該当する信号を減算するものであり、フレーム属性決定部７１と、抑圧係数算出部７２と、抑圧部７３と、を有する。

フレーム属性決定部７１は、まず、処理対象のフレームの直前のフレームについての音声区間検出結果と前記処理対象のフレームについての音声区間検出結果との組み合わせに基づいて、前記処理対象のフレームが音声の始まりに該当するフレームであるか否かを判定する。

フレーム属性決定部７１は、具体的には、処理対象のフレームの直前のフレームについての音声区間検出結果がノイズフレーム信号であり、且つ、前記処理対象のフレームについての音声区間検出結果が音声フレーム信号である場合に、処理対象のフレームの直前のフレームがノイズ成分のみのフレームであり且つ前記処理対象のフレームが音声成分を含むフレームであるので、前記処理対象のフレームは音声の始まりに該当するフレームであると判定する。フレーム属性決定部７１は、すなわち、直前の音声区間検出結果がノイズフレーム信号であり且つ最新の音声区間検出結果が音声フレーム信号である場合に、最新のフレーム（別言すると、処理対象のフレーム、現フレーム）は音声の始まりに該当するフレームであると判定する。

音声の始まりに該当するフレームの判定の例を図３に示す。なお、図３中の〈フレーム番号〉は、同図に示す範囲における各フレームを個別に特定するための、時系列の順序を表す順序数であり、説明の便宜のためのものであって処理上の特別の意味はない。

図３では、〈音声区間検出結果〉として、音声区間検出・ノイズ更新部６から出力されるフレームごとの音声区間検出結果が、ノイズフレーム信号であるフレームには［Ｎ］を対応させて表記し、音声フレーム信号であるフレームには［Ｓ］を対応させて表記している。

そして、図３に示す例では、フレーム番号３のフレームについての音声区間検出結果がノイズフレーム信号［Ｎ］であり、フレーム番号４のフレームについての音声区間検出結果が音声フレーム信号［Ｓ］であるので、フレーム番号４のフレームが音声の始まりに該当するフレームであると判定される。

フレーム属性決定部７１は、続いて、フレーム属性として、音声の始まりに該当するフレームを音声開始フレームとして特定するとともに、前記音声開始フレームに時系列において後続する、音声成分を含むフレームを音声開始後続フレームとして特定する。

図３に示す例では、フレーム属性として、フレーム番号４のフレーム［Ｓ］が音声開始フレームとして特定され（［Ｓ０］を対応させて表記）、また、前記音声開始フレーム［Ｓ０］に時系列において後続する、音声成分を含むフレームであるフレーム番号５のフレーム［Ｓ］が音声開始後続フレームとして特定される（［Ｓ１］を対応させて表記）とともにフレーム番号６のフレーム［Ｓ］が音声開始後続フレームとして特定される（［Ｓ２］を対応させて表記）。

音声開始後続フレームとして特定されるフレームの個数は、特定の個数に限定されるものではなく、フレームの時間間隔が考慮されるなどしたうえで、適当な個数（尚、複数個でも１個でもよい）に適宜設定される。音声開始後続フレームとして特定されるフレームの個数は、例えば、連続するフレームの全体での時間長さが１０ｍｓから１秒程度に相当する個数に設定されることが考えられる。

抑圧係数算出部７２における処理の一例として、以下の数式３を使用することにより、周波数ｆごとに抑圧係数Ｇi(ｆ)を算出することができる。

数式３におけるＸi(ｆ)は、事前ＳＮＲ（Ｓignal to Ｎoise Ｒatio）であり、以下の数式４に従って算出される。

数式４における変数はそれぞれ以下のとおりである。
Ｇi-1(ｆ)：時系列において現在の（別言すると、最新の）抑圧係数Ｇi(ｆ)の更新の１フレーム前の抑圧係数である。なお、抑圧係数Ｇi(ｆ)の初期値は例えば１に設定される。
Γi(ｆ)：事後ＳＮＲであり、下記の数式５に従って算出される。
Γi-1(ｆ)：時系列において現在の（別言すると、最新の）事後ＳＮＲ Γi(ｆ)の更新の１フレーム前の事後ＳＮＲである。
ｍａｘ［］：［］内の複数の数値のうちの最大値を選択する演算子である。

数式５における変数はそれぞれ以下のとおりである。
Ｙi(ｆ)：入力信号スペクトルとしての、変換結果出力部５から出力されるフレームごとの振幅スペクトルに該当する信号である。
λＤi(ｆ)：音声区間検出・ノイズ更新部６からフレームごとに出力される更新後のノイズスペクトルＮi(ｆ)の周波数ごとの分散（即ち、周波数方向の分散ではなく、時間方向／フレーム方向の分散）である。

ここで、数式４におけるαは、忘却係数と呼ばれ、０≦α＜１である。抑圧係数算出部７２は、フレーム属性決定部７１によって特定されるフレーム属性に応じて、忘却係数αの値を選択／制御しながら事前ＳＮＲＸi(ｆ)を算出して抑圧係数Ｇi(ｆ)を算出する。

抑圧係数算出部７２は、具体的には、音声開始後続フレームについての事前ＳＮＲＸi(ｆ)を算出する（延いては、抑圧係数Ｇi(ｆ)を算出する）際の忘却係数α（「音声開始忘却係数αs」と呼ぶ）の値として、音声開始後続フレーム以外のフレーム（即ち、音声成分を含むフレームが連続している定常状態やノイズ成分のみのフレームが連続している定常状態）についての事前ＳＮＲＸi(ｆ)を算出する（延いては、抑圧係数Ｇi(ｆ)を算出する）際の忘却係数α（「定常状態忘却係数αr」と呼ぶ）の値よりも小さい値を用いて事前ＳＮＲＸi(ｆ)を算出して抑圧係数Ｇi(ｆ)を算出する。

音声開始忘却係数αsおよび定常状態忘却係数αrは、αs＜αrであればそれぞれ特定の値には限定されない。例えば、音声開始忘却係数αsが０．０～０．９９９程度の範囲のうちのいずれかの値に設定されるとともに定常状態忘却係数αrが０．９～０．９９９９程度の範囲のうちのいずれかの値に設定される（但し、αs＜αr）ことが考えられ、特に、音声開始忘却係数αsが０．９９に設定されるとともに定常状態忘却係数αrが０．９９９に設定されることが考えられる。

図３に示す例では、フレーム番号５の音声開始後続フレーム［Ｓ１］およびフレーム番号６の音声開始後続フレーム［Ｓ２］について音声開始忘却係数αs＝０．９９に設定され、その他のフレームについて定常状態忘却係数αr＝０．９９９に設定されるようにしている。

なお、音声開始フレームについての事前ＳＮＲＸi(ｆ)を算出する際にも、忘却係数αとして音声開始忘却係数αsを用いるようにしてもよい。図３に示す例の場合には、フレーム番号４の音声開始フレーム［Ｓ０］についての事前ＳＮＲＸi(ｆ)を算出する際にも音声開始忘却係数αsを用いるようにしてもよい。

また、音声開始忘却係数αsの値は、フレーム属性決定部７１によって特定された音声開始後続フレームのすべてについて同じ／一定であるようにしてもよく、あるいは、フレーム属性決定部７１によって特定された音声開始後続フレームによって異なる／変化する（具体的には例えば、次第に増加する）ようにしてもよい（但し、αs＜αr である）。例えば、音声開始忘却係数αsが下記の〈例１〉ないし〈例３〉のように設定されるようにしてもよい（図３も参照；尚、図３ではフレーム番号７は音声開始後続フレームとして特定されている表記はないが、下記ではフレーム番号７も音声開始後続フレームとして特定されたと想定する）。
〈例１〉音声開始忘却係数αsが音声開始後続フレームによって変化する
（フレーム番号４）音声開始フレーム［Ｓ０］：定常状態忘却係数αr＝０．９９９
（フレーム番号５）音声開始後続フレーム［Ｓ１］：音声開始忘却係数αs＝０．９９
（フレーム番号６）音声開始後続フレーム［Ｓ２］：音声開始忘却係数αs＝０．９９５
（フレーム番号７）音声開始後続フレーム［Ｓ３］：音声開始忘却係数αs＝０．９９７
（フレーム番号８）音声フレーム信号［Ｓ］：定常状態忘却係数αr＝０．９９９
〈例２〉音声開始忘却係数αsが音声開始フレームと音声開始後続フレームとで異なる
（フレーム番号４）音声開始フレーム［Ｓ０］：音声開始忘却係数αs＝０．９９
（フレーム番号５）音声開始後続フレーム［Ｓ１］：音声開始忘却係数αs＝０．９９５
（フレーム番号６）音声開始後続フレーム［Ｓ２］：音声開始忘却係数αs＝０．９９５
（フレーム番号７）音声開始後続フレーム［Ｓ３］：音声開始忘却係数αs＝０．９９５
（フレーム番号８）音声フレーム信号［Ｓ］：定常状態忘却係数αr＝０．９９９
〈例３〉音声開始忘却係数αsが音声開始フレームと音声開始後続フレームとで異なり
且つ音声開始後続フレームによって変化する
（フレーム番号４）音声開始フレーム［Ｓ０］：音声開始忘却係数αs＝０．９９
（フレーム番号５）音声開始後続フレーム［Ｓ１］：音声開始忘却係数αs＝０．９９３
（フレーム番号６）音声開始後続フレーム［Ｓ２］：音声開始忘却係数αs＝０．９９５
（フレーム番号７）音声開始後続フレーム［Ｓ３］：音声開始忘却係数αs＝０．９９７
（フレーム番号８）音声フレーム信号［Ｓ］：定常状態忘却係数αr＝０．９９９

抑圧係数算出部７２は、フレームごとの振幅スペクトルに該当する信号の入力を受けるたびに、周波数ｆごとの抑圧係数Ｇi(ｆ)を算出する。

抑圧部７３は、ノイズ抑圧回路７へと入力された振幅スペクトルに該当する信号を入力信号スペクトルＹi(ｆ)として、抑圧係数算出部７２によって算出される周波数ｆごとの抑圧係数Ｇi(ｆ)を用いて、以下の数式６に従って周波数ｆごとに減算処理後の振幅スペクトルＳi(ｆ)を算出する。

ノイズ抑圧回路７は、フレームごとの振幅スペクトルに該当する信号の入力を受けるたびに、減算処理後の、周波数ｆごとの振幅スペクトルＳi(ｆ)に該当する信号を出力する。

上記のようなノイズ抑圧回路７の作用効果の検証例を図４に示す。

図４（Ａ）は、忘却係数として固定値を使用した場合の、ディエンファシス回路１０から出力される音声信号の時間波形を示す図である。同図（Ｂ）は、忘却係数を変化させた場合の、ディエンファシス回路１０から出力される音声信号の時間波形を示す図である。図４に示す例は、同図（Ａ）はフレーム属性によらず忘却係数α＝０．９９９に設定した場合の結果であり、同図（Ｂ）は、図３に示す例に倣って表記すると、音声開始フレーム［Ｓ０］に続く音声成分を含むフレームである音声開始後続フレーム［Ｓ１］および［Ｓ２］について音声開始忘却係数αs＝０．５に設定するとともにその他のフレーム［Ｓ０］，［Ｓ］，および［Ｎ］について定常状態忘却係数αr＝０．９９９に設定した場合の結果である。図４（Ａ）と（Ｂ）とを比較すると、同図（Ｂ）の方が、すなわち忘却係数を変化させた方が、音声の立ち上がりがシャープになっていることが確認され、これによって声の抑揚が改善される。

上記のようなノイズ抑圧回路７によれば、非音声（具体的には、ノイズ）から音声へと変わる際の忘却係数αsを非音声または音声が連続する定常状態の忘却係数αrと比べて小さくすることにより、入力される信号から、本来受信したい目的信号（例えば、音声）への影響を最小限に抑えつつ、雑音成分を適切に減算することが可能となる。具体的には、処理対象の信号に含まれる雑音成分を抑圧するための抑圧係数Ｇi(ｆ)の算出に使用される忘却係数αによって雑音成分の抑圧レベルが過去のデータに影響を受けるところ、非音声（具体的には、ノイズ）から音声へと変わる際には、抑圧係数Ｇi(ｆ)が大きく変化することになるため、忘却係数αが大きいと声の抑揚が抑えられてしまい、一方で、忘却係数αが小さいと非音声または音声が連続する定常状態での雑音成分の抑圧量が低下してしまう。そして、スペクトル減算法を実現する従来の回路では、忘却係数αとして固定値を使用するようにしているため、声の抑揚が極端に抑えられてしまったり雑音成分の抑圧量が極端に低下してしまったりする、という問題がある。これに対して、上記のようなノイズ抑圧回路７では、非音声から音声へと変わる際の忘却係数α（即ち、音声開始忘却係数αs）を非音声または音声が連続する定常状態の忘却係数α（即ち、定常状態忘却係数αr）と比べて小さくするようにしているので、非音声または音声が連続する定常状態と非音声から音声へと変わる際とのそれぞれの忘却係数αを適切に制御して、雑音成分の抑圧による声の抑揚の制限を最小化しつつ雑音成分の抑圧量を確保することができ、延いては、本来受信したい目的信号（例えば、音声）への影響を最小限に抑えつつ、入力される信号から雑音成分を適切に減算することが可能となる。

以上、この発明の実施の形態について説明したが、具体的な構成は、上記の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計の変更等があっても、この発明に含まれる。例えば、上記の実施の形態では図１に概略構成を示すノイズリダクション回路１に対してこの発明に係るノイズ抑圧回路７が適用される場合を例に挙げて説明しているが、この発明が適用され得るノイズリダクション回路の構成は図１に示す例には限定されない。さらに言えば、この発明が適用され得る回路は、ノイズリダクション回路には限定されない。すなわち、この発明は、雑音成分を抑圧することが必要とされる種々の回路に対して適用され得る。

また、この発明の要点は音声開始後続フレームについての抑圧係数Ｇi(ｆ)を算出する際に用いられる忘却係数αsの値が、その他のフレームについての抑圧係数Ｇi(ｆ)を算出する際に用いられる忘却係数αrの値よりも小さい値に設定されるようにする点であり、抑圧係数の算出の仕法は、上記の実施の形態における手順・手法に限定されるものではなく、忘却係数αを使用して抑圧係数が算出される手順や手法であればどのようなものであってもよい。

１ノイズリダクション回路
２プリエンファシス回路
３窓処理部
４時間周波数変換部
５変換結果出力部
６音声区間検出・ノイズ更新部
７ノイズ抑圧回路
７１フレーム属性決定部
７２抑圧係数算出部
７３抑圧部
８合成部
９周波数時間変換部
１０ディエンファシス回路

Claims

処理対象のフレームが音声の始まりに該当するフレームであるか否かを判定するとともに前記音声の始まりに該当するフレームに後続するフレームを音声開始後続フレームとして特定するフレーム属性決定部と、
前記処理対象のフレームの振幅スペクトルに該当する信号に含まれる雑音成分を抑圧するための抑圧係数を算出する抑圧係数算出部と、
前記抑圧係数と前記振幅スペクトルに該当する信号とを乗じて減算処理後の振幅スペクトルを算出する抑圧部と、を有し、
前記音声開始後続フレームについての前記抑圧係数を算出する際に用いられる忘却係数の値が、その他のフレームについての前記抑圧係数を算出する際に用いられる忘却係数の値よりも小さい値に設定される、
ことを特徴とするノイズ抑圧回路。
前記音声の始まりに該当するフレームについての前記抑圧係数を算出する際に用いられる忘却係数の値も、前記その他のフレームについての前記抑圧係数を算出する際に用いられる前記忘却係数の値よりも小さい値に設定される、
ことを特徴とする請求項１に記載のノイズ抑圧回路。
前記音声の始まりに該当するフレームについての前記抑圧係数を算出する際に用いられる忘却係数の値と、前記音声開始後続フレームについての前記抑圧係数を算出する際に用いられる忘却係数の値とが異なる、
ことを特徴とする請求項２に記載のノイズ抑圧回路。
前記音声開始後続フレームについての前記抑圧係数を算出する際に用いられる忘却係数の値が、前記音声開始後続フレームによって変化する、
ことを特徴とする請求項１から３のうちのいずれか１項に記載のノイズ抑圧回路。