JP7123134B2

JP7123134B2 - デコーダにおけるノイズ減衰

Info

Publication number: JP7123134B2
Application number: JP2020523364A
Authority: JP
Inventors: ギヨーム・フックス; トム・ベックストレム; スネーハー・ダス
Original assignee: フラウンホファーゲセルシャフトツールフェールデルンクダーアンゲヴァンテンフォルシュンクエー．ファオ．
Priority date: 2017-10-27
Filing date: 2018-08-13
Publication date: 2022-08-22
Anticipated expiration: 2038-08-13
Also published as: KR102383195B1; BR112020008223A2; EP3701523A1; WO2019081089A1; EP3701523B1; US20200251123A1; CN111656445B; US11114110B2; TW201918041A; RU2744485C1; AR113801A1; KR20200078584A; JP2021500627A; TWI721328B; CN111656445A

Description

本開示は、デコーダにおけるノイズ減衰に関する。

デコーダは通常、(たとえば、受信された、またはストレージデバイスに記憶された)ビットストリームを復号するために使用される。それにもかかわらず、信号は、たとえば量子化ノイズなどのノイズにさらされる可能性がある。したがって、このノイズの減衰は重要な目標である。

一態様によれば、本明細書において、ビットストリームにおいて定義された周波数領域信号を復号するためのデコーダであって、周波数領域入力信号は量子化ノイズにさらされ、このデコーダは、
ビットストリームから、入力信号のバージョンをフレームのシーケンスとして提供するビットストリームリーダであって、各フレームが複数のビンに細分され、各ビンがサンプル値を有する、ビットストリームリーダと、
処理中の1つのビンのコンテキストを定義するように構成されたコンテキスト定義器であって、コンテキストが、処理中のビンとあらかじめ定められた位置関係にある少なくとも1つの追加のビンを含む、コンテキスト定義器と、
処理中のビンと少なくとも1つの追加のビンとの間の統計的関係および/または情報、ならびに/またはそれらに関する情報を提供するように構成された統計的関係および/または情報推定器であって、統計的関係推定器が、量子化ノイズに関する統計的関係および/または情報を提供するように構成された量子化ノイズ関係および/または情報推定器を含む、統計的関係および/または情報推定器と、
推定された統計的関係および/または情報、ならびに統計的関係および/または量子化ノイズに関する情報に基づいて、処理中のビンの値の推定値を処理および取得するように構成された値推定器と、
推定信号を時間領域信号に変換するトランスフォーマとを備える、デコーダが提供される。

一態様によれば、本明細書において、ビットストリームにおいて定義された周波数領域信号を復号するためのデコーダであって、周波数領域入力信号はノイズにさらされ、このデコーダは、
ビットストリームから、入力信号のバージョンをフレームのシーケンスとして提供するビットストリームリーダであって、各フレームが複数のビンに細分され、各ビンがサンプル値を有する、ビットストリームリーダと、
処理中の1つのビンのコンテキストを定義するように構成されたコンテキスト定義器であって、コンテキストが、処理中のビンとあらかじめ定められた位置関係にある少なくとも1つの追加のビンを含む、コンテキスト定義器と、
処理中のビンと少なくとも1つの追加のビンとの間の統計的関係および/または情報、ならびに/またはそれらに関する情報を提供するように構成された統計的関係および/または情報推定器であって、統計的関係推定器が、ノイズに関する統計的関係および/または情報を提供するように構成されたノイズ関係および/または情報推定器を含む、統計的関係および/または情報推定器と、
推定された統計的関係および/または情報、ならびに統計的関係および/またはノイズに関する情報に基づいて、処理中のビンの値の推定値を処理および取得するように構成された値推定器と、
推定信号を時間領域信号に変換するトランスフォーマとを備える、デコーダが開示される。

一態様によれば、ノイズは、量子化ノイズではないノイズである。一態様によれば、ノイズは量子化ノイズである。

一態様によれば、コンテキスト定義器は、以前に処理されたビンの中から少なくとも1つの追加のビンを選択するように構成される。

一態様によれば、コンテキスト定義器は、ビンの帯域に基づいて少なくとも1つの追加のビンを選択するように構成される。

一態様によれば、コンテキスト定義器は、すでに処理されたビンの中から、あらかじめ定められたしきい値内で少なくとも1つの追加のビンを選択するように構成される。

一態様によれば、コンテキスト定義器は、異なる帯域のビンに異なるコンテキストを選択するように構成される。

一態様によれば、値推定器は、入力信号の最適推定値を提供するウィナーフィルタとして動作するように構成される。

一態様によれば、値推定器は、処理中のビンの値の推定値を、少なくとも1つの追加のビンの少なくとも1つのサンプル値から取得するように構成される。

一態様によれば、デコーダは、コンテキストの少なくとも1つの追加のビンの以前に実行された推定に関連付けられる測定値を提供するように構成された測定器をさらに備え、
値推定器は、測定値に基づいて、処理中のビンの値の推定値を取得するように構成される。

一態様によれば、測定値は、コンテキストの少なくとも1つの追加のビンのエネルギーに関連付けられる値である。

一態様によれば、測定値は、コンテキストの少なくとも1つの追加のビンに関連付けられる利得である。

一態様によれば、測定器は、ベクトルのスカラ積として利得を取得するように構成され、第1のベクトルはコンテキストの少なくとも1つの追加のビンの値を含み、第2のベクトルは第1のベクトルの転置共役である。

一態様によれば、統計的関係および/または情報推定器は、統計的関係および/または情報を、処理中のビンとコンテキストの少なくとも1つの追加のビンとの間のあらかじめ定義された推定値および/または期待される統計的関係として提供するように構成される。

一態様によれば、統計的関係および/または情報推定器は、処理中のビンとコンテキストの少なくとも1つの追加のビンとの間の位置関係に基づく関係として統計的関係および/または情報を提供するように構成される。

一態様によれば、統計的関係および/または情報推定器は、処理中のビンの値および/またはコンテキストの少なくとも1つの追加のビンの値に関係なく、統計的関係および/または情報を提供するように構成される。

一態様によれば、統計的関係および/または情報推定器は、統計的関係および/または情報を、分散、共分散、相関および/または自己相関値の形態で提供するように構成される。

一態様によれば、統計的関係および/または情報推定器は、統計的関係および/または情報を、処理中のビンおよび/またはコンテキストの少なくとも1つの追加のビンの間の分散、共分散、相関および/または自己相関値の関係を確立する行列の形態で提供するように構成される。

一態様によれば、統計的関係および/または情報推定器は、統計的関係および/または情報を、処理中のビンおよび/またはコンテキストの少なくとも1つの追加のビンの間の分散、共分散、相関および/または自己相関値の関係を確立する正規化された行列の形態で提供するように構成される。

一態様によれば、行列はオフライントレーニングによって取得される。

一態様によれば、値推定器は、処理中のビンおよび/またはコンテキストの少なくとも1つの追加のビンのエネルギーおよび/または利得の変動を考慮に入れるために、エネルギー関連または利得値によって行列の要素をスケーリングするように構成される。

一態様によれば、値推定器は、関係

に基づいて、処理中のビンの値の推定値を取得するように構成され、上式で、

はそれぞれノイズ行列と共分散行列であり、

はc+1次元のノイズ観測ベクトルであり、cはコンテキストの長さである。

一態様によれば、値推定器は、関係

に基づいて、処理中のビン(123)の値の推定値を取得するように構成され、上式で、

は正規化された共分散行列であり、

はノイズ共分散行列であり、

はc+1次元のノイズ観測ベクトルであり、処理中のビンとコンテキストの追加のビンに関連付けられており、cはコンテキストの長さであり、γはスケーリング利得である。

一態様によれば、値推定器は、コンテキストの追加のビンの各々のサンプル値がコンテキストの追加のビンの推定値に対応する場合、処理中のビンの値の推定値を取得するように構成される。

一態様によれば、値推定器は、処理中のビンのサンプル値が天井値と床値の間にあると期待される場合、処理中のビンの値の推定値を取得するように構成される。

一態様によれば、値推定器は、尤度関数の最大値に基づいて、処理中のビンの値の推定値を取得するように構成される。

一態様によれば、値推定器は、期待値に基づいて、処理中のビンの値の推定値を取得するように構成される。

一態様によれば、値推定器は、多変量ガウス確率変数の期待値に基づいて、処理中のビンの値の推定値を取得するように構成される。

一態様によれば、値推定器は、条件付き多変量ガウス確率変数の期待値に基づいて、処理中のビンの値の推定値を取得するように構成される。

一態様によれば、サンプル値は対数振幅領域にある。

一態様によれば、サンプル値は知覚領域にある。

一態様によれば、統計的関係および/または情報推定器は、信号の平均値を値推定器に提供するように構成される。

一態様によれば、統計的関係および/または情報推定器は、処理中のビンとコンテキストの少なくとも1つの追加のビンとの間の分散関連および/または共分散関連の関係に基づいて、クリーン信号の平均値を提供するように構成される。

一態様によれば、統計的関係および/または情報推定器は、処理中のビン(123)の期待値に基づいて、クリーン信号の平均値を提供するように構成される。

一態様によれば、統計的関係および/または情報推定器は、推定されたコンテキストに基づいて信号の平均値を更新するように構成される。

一態様によれば、統計的関係および/または情報推定器は、分散関連および/または標準偏差値関連値を値推定器に提供するように構成される。

一態様によれば、統計的関係および/または情報推定器は、処理中のビンと値コンテキストの少なくとも1つの追加のビンとの間の分散関連および/または共分散関連の関係に基づいて、分散関連および/または標準偏差値関連値を推定器に提供するように構成される。

一態様によれば、ノイズ関係および/または情報推定器は、ビンごとに、天井値と床値との間にあるべき信号の期待値に基づいて信号を推定するための天井値および床値を提供するように構成される。

一態様によれば、入力信号のバージョンは、量子化レベルである量子化された値を有し、量子化レベルは、離散的な数の量子化レベルから選択された値である。

一態様によれば、量子化レベルの数および/または値および/またはスケールは、エンコーダによってシグナリングされ、および/またはビットストリームにおいてシグナリングされる。

一態様によれば、値推定器は、l≦X≦uを条件として、

に関して、処理中のビンの値の推定値を取得するように構成され、上式で、

は処理中のビンの推定値であり、lとuはそれぞれ現在の量子化ビンの下限と上限であり、P(a₁|a₂)は、所与のa₂におけるa₁の条件付き確率であり、

は推定コンテキストベクトルである。

一態様によれば、値推定器は、期待値

に基づいて、処理中のビンの値の推定値を取得するように構成され、上式で、Xは、処理中のビンの特定の値[X]で、l<X<uの切り捨てガウス確率変数として表され、lは床値、uは天井値

であり、μ=E(x)であり、μおよびσは分布の平均および分散である。

一態様によれば、あらかじめ定められた位置関係はオフライントレーニングによって取得される。

一態様によれば、処理中のビンと少なくとも1つの追加のビンとの間の統計的関係および/または情報、ならびに/またはそれらに関する情報のうちの少なくとも1つは、オフライントレーニングによって取得される。

一態様によれば、量子化ノイズの関係および/または情報のうちの少なくとも1つは、オフライントレーニングによって取得される。

一態様によれば、入力信号はオーディオ信号である。

一態様によれば、入力信号は音声信号である。

一態様によれば、コンテキスト定義器、統計的関係および/または情報推定器、ノイズ関係および/または情報推定器、ならびに値推定器のうちの少なくとも1つは、ポストフィルタリング動作を実行して、入力信号のクリーンな推定を取得するように構成される。

一態様によれば、コンテキスト定義器は、複数の追加のビンでコンテキストを定義するように構成される。

一態様によれば、コンテキスト定義器は、周波数/時間グラフにおけるビンの単純に接続された近傍としてコンテキストを定義するように構成される。

一態様によれば、ビットストリームリーダは、ビットストリームからのフレーム間情報の復号を回避するように構成される。

一態様によれば、デコーダは、信号のビットレートを決定することと、ビットレートがあらかじめ定められたビットレートしきい値を超える場合、コンテキスト定義器、統計的関係および/または情報推定器、ノイズ関係および/または情報推定器、ならびに値推定器のうちの少なくとも1つをバイパスすることとを行うようにさらに構成される。

一態様によれば、デコーダは、以前に処理されたビンに関する情報を記憶する処理されたビンストレージユニットをさらに備え、
コンテキスト定義器は、少なくとも1つの以前に処理されたビンを追加のビンのうちの少なくとも1つとして使用してコンテキストを定義するように構成される。

一態様によれば、コンテキスト定義器は、少なくとも1つの未処理のビンを追加のビンのうちの少なくとも1つとして使用してコンテキストを定義するように構成される。

一態様によれば、統計的関係および/または情報推定器は、統計的関係および/または情報を、処理中のビンおよび/またはコンテキストの少なくとも1つの追加のビンの間の分散、共分散、相関および/または自己相関値の関係を確立する行列の形態で提供するように構成され、
統計的関係および/または情報推定器は、入力信号のハーモニックに関連付けられるメトリックに基づいて、複数のあらかじめ定義された行列から1つの行列を選択するように構成される。

一態様によれば、ノイズ関係および/または情報推定器は、ノイズに関連付けられる分散、共分散、相関および/または自己相関値の関係を確立する行列の形態でノイズに関する統計的関係および/または情報を提供するように構成され、
統計的関係および/または情報推定器は、入力信号のハーモニックに関連付けられるメトリックに基づいて、複数のあらかじめ定義された行列から1つの行列を選択するように構成される。

上記および/または下記の態様のいずれかによるエンコーダおよびデコーダを備えるシステムも提供され、エンコーダは、符号化された入力信号を伴うビットストリームを提供するように構成されている。

例において、
入力信号の処理中の1つのビンのコンテキストを定義するステップであって、コンテキストが、周波数/時間空間において、処理中のビンとあらかじめ定められた位置関係にある少なくとも1つの追加のビンを含む、ステップと、
処理中のビンと少なくとも1つの追加のビンとの間の統計的関係および/または情報、ならびに/またはそれらに関する情報に基づいて、ならびに量子化ノイズに関する統計的関係および/または情報に基づいて、処理中のビンの値を推定するステップと
を有する方法が提供される。

例において、
入力信号の処理中の1つのビンのコンテキストを定義するステップであって、コンテキストが、周波数/時間空間において、処理中のビンとあらかじめ定められた位置関係にある少なくとも1つの追加のビンを含む、ステップと、
処理中のビンと少なくとも1つの追加のビンとの間の統計的関係および/または情報、ならびに/またはそれらに関する情報に基づいて、ならびに量子化ノイズではないノイズに関する統計的関係および/または情報に基づいて、処理中のビンの値を推定するステップと
を有する方法が提供される。

上記の方法のうちの1つは、上記および/または以下の任意の態様のうちのいずれかの機器を使用し得る。

例において、プロセッサによって実行されると、プロセッサに、上記および/または下記の態様のいずれかの方法のいずれかを実行させる命令を記憶した非一時的ストレージユニットが提供される。

一例によるデコーダを示す図である。コンテキストを示す、信号のバージョンの周波数/時間空間グラフを概略的に示す図である。一例によるデコーダを示す図である。一例による方法を示す図である。信号のバージョンの周波数/時間空間グラフおよび振幅/周波数グラフを概略的に示す図である。コンテキストを示す、信号のバージョンの周波数/時間空間グラフの図式化を示す図である。例で得られたヒストグラムを示す図である。例による音声のスペクトログラムを示す図である。デコーダとエンコーダの例を示す図である。例で得られた結果のプロットを示す図である。例で得られた試験結果を示す図である。コンテキストを示す、信号のバージョンの周波数/時間空間グラフを概略的に示す図である。例で得られたヒストグラムを示す図である。音声モデルのトレーニングのブロック図である。例で得られたヒストグラムを示す図である。例を使用してSNRの改善を表すプロットを示す図である。デコーダとエンコーダの例を示す図である。例に関するプロットを示す図である。相関プロットを示す図である。一例によるシステムを示す図である。一例によるスキームを示す図である。一例によるスキームを示す図である。例による方法ステップを示す図である。一般的な方法を示す図である。一例による、プロセッサベースのシステムを示す図である。一例によるエンコーダ/デコーダシステムを示す図である。

4.1.詳細な説明
4.1.1.例
図1.1は、デコーダ110の例を示している。図1.2は、デコーダ110によって処理される信号バージョン120の表現を示している。

デコーダ110は、エンコーダによって生成されたビットストリーム111(デジタルデータストリーム)において符号化された周波数領域入力信号を復号し得る。ビットストリーム111は、たとえば、メモリに記憶されてもよく、デコーダ110に関連付けられる受信機デバイスに送信されてもよい。

ビットストリームを生成する際、周波数領域入力信号は量子化ノイズにさらされる可能性がある。他の例において、周波数領域入力信号は、他のタイプのノイズにさらされる可能性がある。以下に、ノイズを回避、制限、または低減することを可能にする技法について説明する。

デコーダ110は、ビットストリームリーダ113(通信受信機、大容量メモリリーダなど)を備え得る。ビットストリームリーダ113は、ビットストリーム111から、オリジナルの入力信号のバージョン113'(時間/周波数の2次元空間において、図1.2では120で表される)を提供し得る。入力信号のバージョン113'、120は、フレーム121のシーケンスとして見られ得る。たとえば、各フレーム121は、周波数領域、FD、タイムスロットのオリジナルの入力信号の表現であり得る。たとえば、各フレーム121は、20ミリ秒のタイムスロットに関連付けられ得る(他の長さが定義されてもよい)。フレーム121の各々は、離散スロットの離散シーケンスの整数「t」で識別され得る。たとえば、(t+1)番目のフレームは、t番目のフレームの直後である。各フレーム121は、複数のスペクトルビン(本明細書では、123～126として示される)に細分され得る。フレーム121ごとに、各ビンは、特定の周波数および/または特定の周波数帯域に関連付けられる。帯域は、フレームの各ビンが特定の周波数帯域に事前に割り当てられ得るという意味で、あらかじめ定められ得る。帯域は個別のシーケンスにおいて番号を付けることができ、各帯域はプログレッシブ数字「k」によって識別される。たとえば、(k+1)番目の帯域は、k番目の帯域よりも周波数が高くてもよい。

ビットストリーム111(および、その結果として信号113'、120)は、各時間/周波数ビンが特定の値(たとえば、サンプル値)に関連付けられるように提供され得る。サンプル値は一般にY(k,t)として表され、場合によっては、複素数値になり得る。いくつかの例において、サンプル値Y(k,t)は、帯域kにおけるタイムスロットtにおいてオリジナルに関してデコーダ110が有する固有の知識であり得る。したがって、エンコーダにおいてオリジナルの入力信号を量子化する必要性により、ビットストリームの生成する際、および/またはオリジナルのアナログ信号のデジタル化する際に近似エラーが導入されるため、サンプル値Y(k,t)は一般に量子化ノイズによって損なわれる。(他のタイプのノイズも他の例において図式化されている場合がある)。サンプル値Y(k,t)(ノイズの多い音声)は、
Y(k,t)=X(k,t)+V(k,t)
に関して表現されていると理解され得、X(k,t)はクリーンな信号(取得されることが望ましい)であり、V(k,t)は量子化ノイズ信号(または、他のタイプのノイズ信号)である。本明細書で説明される技法を用いて、クリーンな信号の適切で最適な推定値に到達することが可能である点に留意されたい。

動作は、各ビンが、ある特定の時間に、たとえば再帰的に処理されることを提供し得る。各反復において、処理されるビンが識別される(たとえば、図1.2のビン123またはC₀、瞬間t=4および帯域k=3に関連付けられ、ビンは「処理中のビン」と呼ばれる)。処理中のビン123に関して、信号120(113')の他のビンは、2つのクラスに分類され得る。
- 第1のクラスの未処理のビン126(図1.2では破線の円で示されている)、たとえば、将来の反復において処理されるビン
- 第2のクラスのすでに処理されたビン124、125(図1.2では四角で示されている)、たとえば、以前の反復において処理されたビン。

処理中の1つのビン123について、少なくとも1つの追加のビン(図1.2の方眼のビンのうちの1つであり得る)に基づいて最適な推定値を取得することが可能である。少なくとも1つの追加のビンは、複数のビンであり得る。

デコーダ110は、処理中の1つのビン123(C₀)のコンテキスト114'(または、コンテキストブロック)を定義するコンテキスト定義器114を備え得る。コンテキスト114'は、処理中のビン123とあらかじめ定められた位置関係にある少なくとも1つの追加のビン(たとえば、ビンのグループ)を含む。図1.2の例において、ビン123(C₀)のコンテキスト114'は、C₁～C₁₀で示される10個の追加のビン124(118')によって形成される(1つのコンテキストを形成する追加のビンの一般的な数は、本明細書では「c」で示され、図1.2では、c=10である)。追加のビン124(C₁～C₁₀)は、処理中のビン123(C₀)の近傍のビンであり得、および/またはすでに処理されたビンであり得る(たとえば、それらの値は、以前の反復中にすでに”取得されている場合がある)。追加のビン124(C₁～C₁₀)は、処理中のビン123(C₀)に最も近い(たとえば、すでに処理されたものの中の)ビン(たとえば、C₀からの距離があらかじめ定められたしきい値、たとえば3つの位置よりも小さいビン)であり得る。追加のビン124(C₁～C₁₀)は、(たとえば、すでに進行中のもののうち)処理中のビン123(C₀)との相関が最も高いと期待されるビンであり得る。コンテキスト114'は、周波数/時間表現において、すべてのコンテキストビン124が互いにおよび処理中のビン123(それによって「単純に接続された」近隣を形成するコンテキストビン124)に直接隣接しているという意味で、「穴」を回避するように近隣において定義され得る。(処理中のビン123のコンテキスト114'では選択されていないが、すでに処理されたビンは破線の四角で示され、125で示されている)。追加のビン124(C₁～C₁₀)は、互いに番号が付けられた関係にあり得る(たとえば、C₁、C₂、…、C_Cであり、cは、コンテキスト114'におけるビンの数、たとえば、10である)。コンテキスト114'の追加のビン124(C₁～C₁₀)の各々は、処理中のビン123(C₀)に対して固定位置にあり得る。追加のビン124(C₁～C₁₀)と処理中のビン123(C₀)との間の位置関係は、特定の帯域122に基づくことができる(たとえば、周波数/帯域数kに基づいて)。図1.2の例において、処理中のビン123(C₀)は第3の帯域(k=3)にあり、瞬間t(この場合はt=4)にある。この場合、以下が提供され得る。
- コンテキスト114'の第1の追加のビンC₁は、帯域k=3の瞬間t-1=3のビンである、
- コンテキスト114'の第2の追加のビンC₂は、帯域k-1=2の瞬間t=4のビンである、
- コンテキスト114'の第3の追加のビンC₃は、帯域k-1=2の瞬間t-1=3のビンである、
- コンテキスト114'の第4の追加のビンC₄は、帯域k+1=4の瞬間t-1=3のビンである、
- 以下同様である。(本明細書の後続の部分において、コンテキストの「追加のビン」124を示すために、「コンテキストビン」が使用され得る。)

例において、一般的なt番目のフレームのすべてのビンを処理した後、後続の(t+1)番目のフレームのすべてのビンが処理され得る。一般的なt番目のフレームごとに、t番目のフレームのすべてのビンを繰り返し処理され得る。それにもかかわらず、他のシーケンスおよび/またはパスが提供され得る。

したがって、t番目のフレームごとに、処理中のビン123(C₀)とコンテキスト114'(120)を形成する追加のビン124との間の位置関係は、処理中のビン123(C₀)の特定の帯域kに基づいて定義され得る。前の反復中に、処理中のビンが現在C6(t=4、k=1)として示されているビンであった場合、k=1で定義された帯域がないため、コンテキストの異なる形状が選択されていた。しかしながら、処理中のビンがt=3、k=3(現在はC₁として示されている)におけるビンである場合、コンテキストは図1.2のコンテキストと同じ形状を有する(ただし、左に向かって1つの時刻がずれている)。たとえば、図2.1では、図2.1(a)のビン123(C₀)のコンテキスト114'が、C₂が処理中のビンであったときに以前に使用されたビンC₂のコンテキスト114"と比較され、コンテキスト114'と114"は互いに異なる。

したがって、コンテキスト定義器114は、処理中の各ビン123(C₀)について、処理中のビン123(C₀)との期待される高い相関関係を有する(具体的には、コンテキストの形状は、処理中のビン123の特定の周波数に基づく場合がある)すでに処理されたビンを含むコンテキスト114'を形成するために、追加のビン124(118'、C₁～C₁₀)を繰り返し取り出すユニットであり得る。

デコーダ110は、処理中のビン123(C₀)とコンテキストビン118'、124との間の統計的関係および/または情報115'、119'を提供する統計的関係および/または情報推定器115を備え得る。統計的関係および/または情報推定器115は、コンテキスト114'の各ビン124(C₁～C₁₀)に影響を与えるノイズおよび/または処理中のビン123(C₀)の間の量子化ノイズ119'および/または統計的ノイズ関連関係に関する関係および/または情報を推定するために、量子化ノイズ関係および/または情報推定器119を含み得る。

例において、期待される関係115'は、ビン(たとえば、処理中のビンC₀とコンテキストC₁～C₁₀の追加のビン)の間の期待される共分散関係(または、他の期待される統計的関係)を含む行列(たとえば、共分散行列)を備え得る。行列は、各行および各列がビンに関連付けられている正方行列であり得る。したがって、行列の次元は(c+1)x(c+1)(たとえば、図1.2の例において11)であり得る。例において、行列の各要素は、行列の行に関連付けられるビンと行列の列に関連付けられたビンとの間の期待される共分散(および/または相関、ならびに/あるいは別の統計的関係)を示し得る。行列はエルミート行列(実係数の場合は対称)であり得る。行列は、対角線で、各ビンに関連付けられる分散値を備え得る。例において、行列の代わりに、他の形態のマッピングが使用され得る。

例において、期待されるノイズ関係および/または情報119'は、統計的関係によって形成され得る。しかしながら、この場合、統計的関係は量子化ノイズを指す場合がある。異なる周波数帯域に異なる共分散が使用され得る。

例において、量子化ノイズ関係および/または情報119'は、ビンに影響を与える量子化ノイズ間の期待される共分散関係(または、他の期待される統計的関係)を含む行列(たとえば、共分散行列)を備え得る。行列は、各行および各列がビンに関連付けられている正方行列であり得る。したがって、行列の次元は(c+1)x(c+1)(たとえば、11)であり得る。例において、行列の各要素は、行に関連付けられるビンと列に関連付けられるビンを損なう量子化ノイズの間の期待される共分散(および/または相関、ならびに/あるいは別の統計的関係)を示し得る。共分散行列はエルミート行列(実係数の場合は対称)であり得る。行列は、対角線で、各ビンに関連付けられる分散値を備え得る。例において、行列の代わりに、他の形態のマッピングが使用され得る。

ビン間の期待される統計的関係を使用してサンプル値Y(k,t)を処理することによって、クリーンな値X(k,t)のより良い推定が取得され得る点に留意されたい。

デコーダ110は、期待される統計的関係および/または情報、ならびに/あるいは統計的関係および/または量子化ノイズ119'に関する情報119'に基づいて、信号113'のサンプル値X(k,t)(処理中のビン123、C0において)の推定値116'を処理および取得するために値推定器116を備え得る。

したがって、クリーン値X(k,t)の良好な推定値である推定値116'は、強化されたTD出力信号112を取得するために、FD-TD変換器117に提供され得る。

推定値116'は、(たとえば、時刻tおよび/または帯域kに関連して)処理されたビンストレージユニット118に記憶され得る。推定値116'の記憶された値は、コンテキストビン124を定義することができるように、後続の反復において、すでに処理された推定値116'を追加のビン118'(上記参照)としてコンテキスト定義器114に提供し得る。

図1.3は、いくつかの態様では、デコーダ110であり得るデコーダ130の詳細を示す。この場合、デコーダ130は、値推定器116において、ウィナーフィルタとして動作する。

例において、推定された統計的関係および/または情報115'は、正規化された行列Λ_Xを備え得る。正規化された行列は、正規化された相関行列であってもよく、特定のサンプル値Y(k,t)から独立していてもよい。正規化された行列Λ_Xは、たとえば、ビンC₀～C₁₀の間の関係を含む行列であり得る。正規化された行列Λ_Xは静的であってもよく、たとえばメモリに記憶されてもよい。

例において、量子化ノイズ119'に関する推定された統計的関係および/または情報は、ノイズ行列Λ_Nを備え得る。この行列は、相関行列であってもよく、特定のサンプル値Y(k,t)の値から独立して、ノイズ信号V(k,t)に関する関係を表し得る。ノイズ行列Λ_Nは、たとえば、クリーン音声値Y(k,t)とは無関係に、ビンC₀～C₁₀の間のノイズ信号間の関係を推定する行列であり得る。

例において、測定器131(たとえば、利得推定器)は、以前に実行された推定値116'の測定値131'を提供し得る。測定値131'は、たとえば、以前に実行された推定値116'のエネルギー値および/または利得γであり得る(したがって、エネルギー値および/または利得γは、コンテキスト114'に依存し得る)。一般的に、処理中のビン123の推定値116'と値113'は、ベクトル

と見なすことができ、上式で、

は、現在処理中のビン123(C₀)のサンプル値であり、

は、以前に取得されたコンテキストビン124(C₁～C₁₀)の値である。正規化されたベクトル

を取得できるようにするために、ベクトルu_k,tを正規化することが可能である。たとえば、

を取得するために、利得γをその転置による正規化されたベクトルのスカラ積として取得することも可能である(

はZ_k,tの転置であり、したがってγはスカラの実数である)。

処理中のビン123のコンテストに関連付けられるエネルギー測定(および/または利得γ)を考慮に入れるスケーリングされた行列132'を取得するために正規化された行列Λ_Xを利得γによってスケーリングするために、スケーラ132が使用され得る。これは、音声信号の利得に大きな変動があることを考慮に入れるためである。したがって、エネルギーを考慮に入れた新しい行列

が取得され得る。特に、行列Λ_Xおよび行列Λ_Nはあらかじめ定義され得る(および/または、メモリにあらかじめ記憶されている要素を含む)ことができるが、行列

は実際には処理によって計算される。代替の例では、行列

を計算する代わりに、行列

を複数のあらかじめ記憶された行列

から選択することができ、各あらかじめ記憶された行列

は、測定された利得および/またはエネルギー値の特定の範囲に関連付けられる。

行列

を計算または選択した後、要素ごとに行列

の要素とノイズ行列Λ_Nの要素を加算して、加算された値133'(合計行列

)を取得するために、加算器133が使用され得る。代替の例では、計算される代わりに、合計された行列

が、測定された利得および/またはエネルギー値に基づいて、複数のあらかじめ記憶された合計された行列の中から選択され得る。

反転ブロック134では、合計された行列

を反転させて、

を値134'として取得することができる。代替の例では、計算される代わりに、逆行列

が、測定された利得および/またはエネルギー値に基づいて、複数のあらかじめ記憶された逆行列の中から選択され得る。

逆行列

(値134')に

を乗算して、値135'を

として取得することができる。代替の例では、計算される代わりに、測定された利得および/またはエネルギー値に基づいて、複数のあらかじめ記憶された行列の中から行列

が選択され得る。

この時点で、乗算器136において、値135'をベクトル入力信号yに乗算することができる。ベクトル入力信号は、次のように処理中のビン123(C₀)およびコンテキストビン(C₁～C₁₀)に関連付けられるノイズの多い入力を備えるベクトル

と見なされ得る。

したがって、乗算器136の出力136''は、ウィナーフィルタの場合のように、

であり得る。

図1.4には、一例(たとえば、上記の例のうちの1つ)による方法140が示されている。ステップ141において、処理中のビン123(C₀)(または、処理ビン)は、瞬間t、帯域k、およびサンプル値Y(k,t)におけるビンとして定義される。ステップ142(たとえば、コンテキスト定義器114によって処理される)において、コンテキストの形状は、帯域kに基づいて取り出される(帯域kに依存する形状は、メモリに記憶され得る)。コンテキストの形状はまた、瞬間tと帯域kが考慮された後のコンテキスト114'を定義する。したがって、ステップ143(たとえば、コンテキスト定義器114によって処理される)において、コンテキストビンC₁～C₁₀(118'、124)(たとえば、コンテキスト内にある以前に処理されたビン)が定義され、あらかじめ定義された順序に従って番号が付けられる(これは、形状とともにメモリに記憶されてもよく、帯域kに基づいてもよい)。ステップ144(たとえば、推定器115によって処理される)において、行列が取得されてもよい(たとえば、正規化された行列Λ_X、ノイズ行列Λ_N、または上述の行列のうちの別のものなど)。ステップ145(たとえば、値推定器116によって処理される)において、たとえば、ウィナーフィルタを使用して、処理ビンC₀の値が取得され得る。例において、エネルギーに関連付けられるエネルギー値(たとえば、上記の利得γ)は、上述のように使用され得る。ステップ146において、まだ処理されていない別のビン126を有する瞬間tに関連付けられる他の帯域があるかどうかが検証される。処理されるべき他の帯域(たとえば、帯域k+1)がある場合、ステップ147において、帯域の値が更新され(たとえば、k++)、ステップ141からの操作を繰り返すために新しい処理ビンC₀が瞬間tおよび帯域k+1において選択される。ステップ146において、処理されるべき他の帯域がないことが検証された場合(たとえば、帯域k+1において処理されるべき他のビンがないため)、ステップ148において、時刻tが更新され(たとえば、またはt++)、およびステップ141からの動作を繰り返すために第1の帯域(たとえば、k=1)が選択される。

図1.5を参照する。図1.5(a)は図1.2に対応し、周波数/時間空間におけるサンプル値Y(k,t)(それぞれがビンに関連付けられている)のシーケンスを示している。図1.5(b)は、時刻t-1の振幅/周波数グラフにおけるサンプル値のシーケンスを示し、図1.5(c)は、時刻tの振幅/周波数グラフにおけるサンプル値のシーケンスを示し、これは、現在処理中のビン123(C₀)に関連付けられる時刻である。サンプル値Y(k,t)は量子化され、図1.5(b)および1.5(c)に示されている。ビンごとに、複数の量子化レベルQL(t,k)が定義され得る(たとえば、量子化レベルは、離散的な数の量子化レベルの1つであり得、ならびに量子化レベルの数および/または値および/またはスケールはエンコーダによってシグナリングされてもよく、および/またはビットストリーム111においてシグナリングされてもよい)。サンプル値Y(k,t)は、必ず量子化レベルの1つになる。サンプル値は対数領域にあり得る。サンプル値は知覚領域にあり得る。各ビンの値の各々は、(たとえば、ビットストリーム111に書き込まれるように)選択することができる量子化レベル(離散的な数である)の1つとして理解され得る。上階u(天井値)と下階l(床値)は、kおよびtごとに定義される(本明細書では表記u(k,t)およびu(k,t)は簡潔にするために省略される)。これらの天井値および床値は、ノイズ関係および/または情報推定器119によって定義され得る。天井値および床値は、確かに値X(k,t)を量子化するために使用される量子化セルに関連する情報であり、量子化ノイズのダイナミックに関する情報を提供する。

処理中のビン123(C₀)の量子化されたサンプル値とコンテキストビン124が、それぞれ処理中のビンの推定値とコンテキストの追加のビンの推定値に等しい場合、値Xが天井値uと床値lの間にあるという条件付き尤度の期待値として、各ビンの値116'の最適な推定を確立することが可能である。このようにして、処理中のビン123(C₀)の振幅を推定することが可能である。たとえば、統計的関係および/または情報推定器によって提供され得る、クリーン値Xおよび標準偏差値(σ)の平均値(μ)に基づいて期待値を取得することが可能である。

以下に詳細に説明する手順に基づいて、クリーンな値Xおよび標準偏差値(σ)の平均値(μ)を取得することが可能であり、これは反復である場合がある。

たとえば(4.1.3、およびそのサブセクションも参照)、クリーンな信号Xの平均値は、コンテキストビン124(C₁～C₁₀)を考慮する新しい平均値(μ_up)を取得するために、コンテキストを考慮せずに、処理中のビン123に対して計算された無条件平均値(μ₁)を更新することによって取得され得る。各反復において、無条件で計算された平均値(μ₁)は、処理中のビン123(C₀)の推定値(ベクトル

で表される)と、コンテキストビンおよびコンテキストビン124の平均値(ベクトルμ₂で表される)との間の差を使用して修正され得る。これらの値は、処理中のビン123(C₀)とコンテキストビン124(C₁～C₁₀)との間の共分散および/または分散に関連付けられる値によって乗算され得る。

標準偏差値(σ)は、処理中のビン123(C₀)とコンテキストビン124(C₁～C₁₀)との間の分散および共分散関係(たとえば、共分散行列

)から取得され得る。

期待値を取得するための(したがって、X値116'を推定するための)方法の例は、次の擬似コードで提供され得る。

4.1.2.音声およびオーディオコーディング用の複雑なスペクトル相関を使用したポストフィルタリング
このセクションにおける、およびそのサブセクションにおける例は、主に音声およびオーディオコーディングの複雑なスペクトル相関を使用したポストフィルタリングするための技法に関する。

本実施例では、以下の図面が言及されている。

図2.1:(a)サイズL=10のコンテキストブロック(b)コンテキストビンC₂の繰返しコンテキストブロック。

図2.2:(a)従来の量子化出力のヒストグラム(b)量子化エラー(c)ランダム化を使用した量子化出力(d)ランダム化を使用した量子化エラー。入力は無相関のガウス分布信号である。

図2.3:(i)真の音声、(ii)量子化された音声、および(iii)ランダム化後に量子化された音声のスペクトログラム。

図2.4:テスト目的のコーデックのシミュレーションを含む、提案されたシステムのブロック図。

図2.5:(a)pSNRおよび(b)ポストフィルタリング後のpSNRの改善、および(c)異なるコンテキストのpSNRの改善を示すプロット。

図2.6:MUSHRAリスニングテストの結果a)すべての条件でのすべての項目のスコアb)男性と女性で平均した入力pSNR条件ごとの差分スコア。オラクル、低いアンカ、および非表示の参照スコアは、明確にするために省略されている。

このセクションにおける、およびサブセクションにおける例は、図1.3および図14の例、さらに一般的には、図1.1、図1.2、および図1.5を参照する、および/または詳細に説明する場合がある。

現在の音声コーデックは、品質、ビットレート、および複雑さの間の適切な妥協を実現する。しかしながら、目標ビットレート範囲外のパフォーマンスを維持することは依然として困難である。パフォーマンスを改善させるために、多くのコーデックは、量子化ノイズの知覚効果を低減するためにプレフィルタリングおよびポストフィルタリング技法を使用する。ここでは、音声信号の複素スペクトル相関を使用する、量子化ノイズを減衰させるためのポストフィルタリング方法を提案する。送信エラーは重大なエラー伝播を引き起こす可能性があるため、従来の音声コーデックは時間依存性のある情報を送信することができないため、相関をオフラインでモデル化し、デコーダにおいて使用して、サイド情報を送信する必要をなくす。客観的評価は、ノイズの多い信号に対して、コンテキストベースのポストフィルタを使用する信号の知覚SNRが平均4dB改善し、従来のウィナーフィルタと比較して平均2dB改善していることを示している。これらの結果は、主観的リスニングテストにおける最大30のMUSHRAポイントの改善によって確認されている。

4.1.2.1序論
音声信号を効率的に送信および記憶するために圧縮する処理である音声コーディングは、音声処理技術において不可欠なコンポーネントである。音声コーディングは、音声信号の送信、記憶、またはレンダリングに関わるほとんどすべてのデバイスにおいて使用されている。標準の音声コーデックは、目標ビットレートの周りで透過的なパフォーマンスを実現するが、コーデックのパフォーマンスは、目標ビットレート範囲外の効率と複雑さの点で影響を受ける[5]。

特に低いビットレートでは、パフォーマンスの低下は、信号の大部分がゼロに量子化され、ゼロと非ゼロとの間で頻繁に切り替わるまばらな信号が生成されるためである。これにより、信号に歪んだ品質が与えられ、これは、知覚的にミュージカルノイズとして特徴付けられる。EVS、USAC[3、15]のような最新のコーデックは、ポストプロセッシング方法[5、14]を実装することによって、量子化ノイズの影響を低減する。これらの方法の多くは、エンコーダとデコーダの両方において実装する必要があるため、コーデックのコア構造を変更する必要があり、追加のサイド情報の送信も必要になる場合がある。さらに、これらの方法のほとんどは、歪みの原因ではなく、歪みの影響を軽減することに焦点を当てている。

音声処理において広く採用されているノイズ低減技法は、音声コーディングにおいてバックグラウンドノイズを低減するためのプレフィルタとしてよく使用される。しかしながら、量子化ノイズの減衰のためのこれらの方法の適用は、まだ完全には調査されていない。この理由は、(i)ゼロ量子化されたビンからの情報は、従来のフィルタリング技法だけを使用することによって復元することはできない、および(ii)量子化ノイズは低いビットレートにおける音声と高い相関があるため、ノイズ低減のために音声と量子化ノイズの分布とを区別することは困難である。これらについては、セクション4.1.2.2においてさらに説明する。

基本的に、音声はゆっくりと変化する信号であるため、時間的な相関が高くなる[9]。最近、音声における固有の時間相関と周波数相関を使用するMVDRフィルタとウィナーフィルタが提案され、大幅なノイズ低減の可能性が示された[1、9、13]。しかしながら、音声コーデックは、情報損失の結果としてのエラー伝播を回避するために、そのような時間依存性を有する情報の送信を控えている。したがって、音声コーディングまたは量子化ノイズの減衰への音声相関の適用は、最近まで十分に研究されていなかった。添付の論文[10]は、量子化ノイズを低減するために音声振幅スペクトルに相関を組み込むことの利点を提示している。

この研究の貢献は次の通りである。(i)音声に固有のコンテキスト情報を組み込むために、複雑な音声スペクトルをモデル化する、(ii)モデルが音声信号における大きな変動に依存しないように問題を定式化し、サンプル間の相関反復により、はるかに大きなコンテキスト情報を組み込むことを可能にする、(iii)最小平均二乗エラーの意味においてフィルタが最適になるような解析解を取得する。まず、量子化ノイズの減衰に従来のノイズ低減技法を適用する可能性を検討し、次いで、破損した信号の観測から音声を推定するために、複雑な音声スペクトルをモデル化して、それをデコーダにおいて使用する。この手法により、追加のサイド情報を送信する必要がなくなる。

4.1.2.2モデル化と方法論
低ビットレートにおいては、従来のエントロピコーディング方法ではまばらな信号が生成され、ミュージカルノイズとして知られる知覚的なアーチファクトを引き起こすことがしばしばある。このようなスペクトルホールからの情報は、利得をほとんど修正するため、ウィナーフィルタリングなどの従来の手法によって回復することができない。さらに、音声処理において使用される一般的なノイズ低減技法は、音声とノイズの特性をモデル化し、それらを区別することによって低減を実行する。しかしながら、低いビットレートでは、量子化ノイズは基になる音声信号と高度に相関しているため、それらを区別することは困難になる。図2.2～図2.3はこれらの問題を示しており、図2.2(a)は非常にまばらな復号された信号の分布を示し、図2.2(b)は白色ガウス入力シーケンスの量子化ノイズの分布を示している。図2.3(i)および図2.3(ii)は、真の音声のスペクトログラムと、低いビットレートにおいてシミュレートされた復号された音声をそれぞれ示している。

これらの問題を緩和するために、信号を符号化する前にランダム化を適用することができる[2、7、18]。ランダム化は、以前は音声コーデック[19]において知覚信号品質を改善するために使用されていた一種のディザリング[11]であり、最近の研究[6、18]では、ビットレートを上げずにランダム化を適用することを可能にする。コーディングにランダム化を適用する効果は、図2.2(c)と(d)および図2.3(c)に示されている。図は、ランダム化が復号された音声分布を維持し、信号がまばらになることを防ぐことを明確に示している。さらに、量子化ノイズをより無相関な特性にして、音声処理の文献[8]から一般的なノイズ低減技法を適用できるようにする。

ディザリングにより、量子化ノイズは付加的で無相関の正規分布処理であると仮定することができ、
Y_k,t=X_k,t=V_k,t (2.1)
であり、上式で、Y、X、およびVは、それぞれノイズの多いクリーンな音声信号およびノイズ信号の複素数値の短時間周波数領域値である。kは、時間フレームtにおける周波数ビンを示す。さらに、XとVはゼロ平均ガウス確率変数であると仮定する。私たちの目的は、観測Y_k,tからX_k,tを推定することと、以前に推定された

のサンプルを使用することである。

をX_k,tのコンテキストと呼ぶ。

ウィナーフィルタ[8]として知られるクリーンな音声信号

の推定は、次のように定義される。

上式で、

はそれぞれ音声とノイズの共分散行列であり、

はc+1次元を有するノイズ観測ベクトルであり、cはコンテキストの長さである。式2.2における共分散は、コンテキスト近傍と呼ばれる時間周波数ビン間の相関を表す。共分散行列は、音声信号のデータベースからオフラインで学習される。音声信号と同様に、目標ノイズタイプ(量子化ノイズ)をモデル化することによって、ノイズ特性に関する情報も処理に組み込まれる。エンコーダの設計を知っているので、量子化特性を正確に知っており、したがって、ノイズ共分散Λ_Nを構築することは簡単な作業である。

コンテキスト近傍:サイズ10のコンテキスト近傍の例が図2.1(a)に提示されている。図面において、ブロックC₀は検討中の周波数ビンを表す。ブロックC_i、i∈{1,2,…,10}は、すぐ近傍で考慮される周波数ビンである。この特定の例では、コンテキストビンは、現在の時間フレームと2つの以前の時間フレーム、および2つのより低い周波数ビンとより高い周波数ビンにわたっている。コンテキスト近傍は、クリーン音声がすでに推定されている周波数ビンのみを含む。ここでのコンテキスト近傍の構造化はコーディングアプリケーションに類似しており、エントロピコーディングの効率を改善するためにコンテキスト情報が使用される[12]。直接のコンテキスト近傍からの情報を組み込むことに加えて、コンテキストブロック内のビンのコンテキスト近傍もフィルタリング処理に統合され、IIRフィルタリングと同様に、より大きなコンテキスト情報が利用される。これは図2.1(b)に示されており、青い線は、コンテキストビンC₂のコンテキストブロックを示している。近傍の数学的定式化については、次のセクションにおいて詳しく説明する。

正規化された共分散と利得のモデル化:音声信号は、利得とスペクトルエンベロープ構造において大きな変動を有する。スペクトル微細構造を効率的にモデル化するために[4]、この変動の影響を取り除くために正規化を使用する。利得は、現在のビンにおけるウィナー利得および以前の周波数ビンにおける推定値からノイズ減衰中に計算される。現在の周波数サンプルの推定値を取得するために、正規化された共分散と推定利得が一緒に使用される。このステップは、大きな変動にもかかわらず、実際の音声統計をノイズ低減のために使用することを可能にするため、重要である。

コンテキストベクトルを

として定義し、したがって、正規化されたコンテキストベクトルはz_k,t=u_k,t/||u_k,t||である。音声共分散は

として定義され、上式、Λ_Xは正規化された共分散であり、γは利得を表す。利得は、ポストフィルタリング中に、すでに処理された値に基づいて

として計算され、上式で、

は、処理中のビンとコンテキストのすでに処理された値によって形成されるコンテキストベクトルである。正規化された共分散は、音声データセットから次のように計算される。

式2.3から、この手法により、コンテキストサイズよりもはるかに大きい近傍からの相関とより多くの情報を組み込むことが可能になり、その結果、計算リソースを節約できることがわかる。ノイズ統計は次のように計算される。

上式で、

は、時刻tおよび周波数ビンkにおいて定義されたコンテキストノイズベクトルである。式2.4において、ノイズモデルのための正規化は必要ない点に留意されたい。最後に、推定されたクリーンな音声信号の式は次の通りである。

この定式化により、本方法の複雑さはコンテキストサイズに直線的に比例する。提案された方法は、複素振幅スペクトルを使用して動作する点で、[17]における2Dウィナーフィルタリングとは異なり、従来の方法とは異なり信号を再構築するためにノイズの多い位相を使用する必要がない。さらに、ノイズの多い振幅スペクトルにスケーラ利得を適用する1Dおよび2Dウィナーフィルタとは対照的に、提案されたフィルタは、ベクトル利得を計算するために以前の推定値からの情報を組み込む。したがって、以前の研究に関して、この方法の新規性は、コンテキスト情報がフィルタに組み込まれる方法にあり、したがって、システムを音声信号における変動に適応させることができる。

4.1.2.3実験および結果
提案された方法は、客観的テストと主観的テストの両方を使用して評価された。人間の知覚に近似しており、一般的な音声コーデックにおいてすでに利用可能であるため、知覚SNR(pSNR)[3、5]を客観的な尺度として使用した。主観的評価として、MUSHRAリスニングテストを実施した。

4.1.2.3.1システム概要
システム構造が図2.4に示される(例では、3GPP EVS [3]におけるTCXモードと同様であり得る)。第1に、周波数領域(242')における信号に変換するために、STFTを入力音声信号240'に適用する(ブロック241)。本明細書では、標準MDCTの代わりにSTFTを使用し得、結果を音声強調アプリケーションに簡単に転送することができる。非公式の実験により、変換の選択によって結果に予期しない問題が発生しないことが確認されている[8、5]。

コーディングノイズが知覚に与える影響を最小限に抑えるため、ブロック242において、重み付き信号242'を取得するために周波数領域信号241'を知覚的に重み付けする。プリプロセス理ブロック243の後、線形予測係数(LPC)に基づいて、(たとえば、EVSコーデック[3]で使用されるように)ブロック244において知覚モデルを計算する。知覚エンベロープで信号を重み付けした後、信号は正規化され、エントロピコーディングされる(図示せず)。簡単な再現性のために、セクション4.1.2.2.の説明に従って、知覚的に重み付けされたガウスノイズによって、ブロック244(必ずしも市販製品の一部ではない)において量子化ノイズをシミュレートした。したがって、(ビットストリーム111であり得る)コーデック242"が生成され得る。

したがって、図2.4のコーデック/量子化ノイズ(QN)シミュレーションブロック244の出力244'は、破損した復号信号である。提案されたフィルタリング方法は、この段階で適用される。強調ブロック246は、(オフラインモデルを含むメモリを含み得る)ブロック245からオフラインでトレーニングされた音声およびノイズモデル245'を取得し得る。強調ブロック246は、たとえば、推定器115および119を備え得る。強調ブロックは、たとえば、値推定器116を含み得る。ノイズ低減処理に続いて、信号246'(信号116'の一例であり得る)は、ブロック247において逆知覚エンベロープによって重み付けされ、次いで、ブロック248において、たとえば、音声出力249であり得る、強化され、復号された音声信号249を取得するために、時間領域に変換し直される。

4.1.2.3.2客観的評価
実験的なセットアップ:処理はトレーニング段階とテスト段階に分割される。トレーニング段階において、音声データからコンテキストサイズL∈{1,2..14}の静的正規化音声共分散を推定する。トレーニングでは、TIMITデータベースのトレーニングセットから50個のランダムサンプルを選択した[20]。すべての信号は12.8kHzにリサンプリングされ、50%の重複があるサイズ20ミリ秒のフレームにサインウィンドウが適用される。次いで、ウィンドウ処理された信号が周波数領域に変換される。強化は知覚領域において適用されるため、知覚領域における音声もモデル化する。知覚領域におけるビンサンプルごとに、セクション4.1.2.2で説明されているように、コンテキストの近傍が行列に構成され、共分散が計算される。同様に、知覚的に重み付けされたガウスノイズを使用してノイズモデルを取得する。

テストでは、105個の音声サンプルがデータベースからランダムに選択される。ノイズの多いサンプルは、音声とシミュレートされたノイズの加法合計として生成される。音声とノイズのレベルは、コーデックの標準的な動作範囲に適合するように、pSNRレベルごとに5個のサンプルを有する0～20dBの範囲のpSNRのための方法をテストするように制御される。サンプルごとに、14個のコンテキストサイズがテストされた。参考までに、オラクルフィルタを使用してノイズの多いサンプルが拡張され、従来のウィナーフィルタは、真のノイズをノイズ推定値として使用し、すなわち、最適なウィナー利得は知られている。

評価結果:結果が図2.5に示されている。従来のウィナーフィルタの出力pSNR、オラクルフィルタ、およびコンテキストの長さL={1,14}のフィルタを使用するノイズ減衰が図2.5(a)に示されている。図2.5(b)では、量子化ノイズによって破損した信号のpSNRに対する出力pSNRの改善である差動出力pSNRが、様々なフィルタリング手法の入力pSNRの範囲にわたってプロットされている。これらのプロットは、従来のウィナーフィルタがノイズの多い信号を大幅に改善し、低いpSNRにおいて3dB改善し、高いpSNRにおいて1dB改善することを示している。さらに、コンテキストフィルタL=14は、高いpSNRにおいて6dBの改善を示し、低いpSNRにおいて約2dBの改善を示している。

図2.5(c)は、異なる入力pSNRにおけるコンテキストサイズの影響を示している。低いpSNRにおいては、コンテキストサイズがノイズ減衰に大きな影響を与え、pSNRにおける改善は、コンテキストサイズの増加に伴って増加することがわかる。しかしながら、コンテキストサイズに関する改善の割合は、コンテキストサイズが大きくなるにつれて低下し、L>10の場合は飽和する傾向がある。高い入力pSNRにおいては、改善は比較的小さなコンテキストサイズにおいて飽和に達する。

4.1.2.3.3主観的評価
提案された方法の品質を主観的なMUSHRAリスニングテストで評価した[16]。テストは6つの項目で構成され、各項目は8つのテスト条件で構成されている。20歳から43歳までの、専門家と非専門家の両方のリスナが参加した。しかしながら、90MUSHRAポイントを超える非表示の参照をスコアした参加者の評価のみが選択されたため、この評価にスコアが含まれたリスナは15人になった。

テスト項目を生成するために、TIMITデータベースから6つの文がランダムに選択された。これらの項目は、コーディングノイズをシミュレートするために、知覚ノイズを追加することによって生成され、結果として信号のpSNRが2、5、および8dBに固定された。pSNRごとに、男性と女性の項目が1つずつ生成された。各項目は8つの条件で構成されている:MUSHRA規格に従って、下部アンカとしての3.5kHzローパス信号、および非表示の参照に加えて、ノイズが多い(強調なし)、知られているノイズ(オラクル)を有する理想的な強調、従来のウィナーフィルタ、コンテキストサイズが1(L=1)、6(L=6)、14(L=14)である提案された方法からのサンプル。

結果が図2.6に提示されている。図2.6(a)から、L=1の最小のコンテキストでも、提案された方法は、ほとんどの場合、信頼区間間に重複がない、破損した信号に対する改善を常に示すことがわかる。従来のウィナーフィルタと提案された方法との間で、条件L=1の平均は、平均で約10ポイント高く評価される。同様に、L=14は、ウィナーフィルタよりも約30MUSHRAポイント高く評価される。すべての項目で、L=14のスコアはウィナーフィルタスコアと重複せず、特により高いpSNRにおいて理想的な状態に近くなっている。これらの観測は、図2.6(b)に示されている差分プロットにおいてさらにサポートされる。pSNRごとのスコアは、男性と女性の項目で平均化されている。差分スコアは、ウィナー条件のスコアを参照として保持し、3つのコンテキストサイズ条件と強化なし条件との間の差を取得することによって取得された。これらの結果から、復号された信号の知覚品質を改善できるディザリングに加えて[11]、従来の技法を使用してデコーダにおいてノイズ低減を適用し、さらに、複雑な音声スペクトルに固有の相関を組み込んだモデルを使用すると、pSNRを大幅に改善できると結論付けることができる。

4.1.2.4結論
音声とオーディオのコーディングにおいて量子化ノイズを減衰させるための時間周波数ベースのフィルタリング方法であって、相関が統計的にモデル化され、デコーダにおいて使用さる方法を提案する。したがって、本方法は、追加の時間情報の送信を必要としないため、送信損失によるエラー伝播の可能性を排除する。コンテキスト情報を組み込むことによって、最良のケースでは6dB、一般的なアプリケーションでは2dBのpSNRの改善が見られ、主観的に、10から30のMUSHRAポイントの改善が観測される。

このセクションでは、特定のコンテキストサイズに対するコンテキスト近傍の選択を修正した。これは、コンテキストサイズに基づいて期待される改善の基準を提供するが、最適なコンテキスト近傍を選択することの影響を調べることは興味深いことである。さらに、MVDRフィルタはバックグラウンドノイズの低減において大幅な改善を示したため、このアプリケーションでは、MVDRと提案されたMMSE方法との比較を検討する必要がある。

要約すると、提案された方法は主観的品質と客観的品質の両方を改善し、あらゆる音声およびオーディオコーデックの品質を改善するために使用することができることを示した。

4.1.2.5参考文献
[1] Y. Huang and J. Benesty，"A multi-frame approach to the frequency-domain single-channel noise reduction problem"，IEEE Transactions on Audio, Speech, and Language Processing，vol. 20，no. 4，pp. 1256-1269，2012
[2] T. Backstrom, F. Ghido, and J. Fischer，"Blind recovery of perceptual models in distributed speech and audio coding"，in Interspeech，ISCA，2016，pp. 2483-2487
[3] "EVS codec detailed algorithmic description; 3GPP technical specification"，http://www.3gpp.org/DynaReport/26445.htm
[4] T. Baeckstroem，"Estimation of the probability distribution of spectral fine structure in the speech source"，in Interspeech，2017
[5] Speech Coding with Code-Excited Linear Prediction，Springer，2017
[6] T. Baeckstroem, J. Fischer, and S. Das，"Dithered quantization for frequency-domain speech and audio coding"，in Interspeech，2018
[7] T. Baeckstroem and J. Fischer，"Coding of parametric models with randomized quantization in a distributed speech and audio codec"，in Proceedings of the 12. ITG Symposium on Speech Communication，VDE，2016，pp. 1-5
[8] J. Benesty, M. M. Sondhi, and Y. Huang，Springer handbook of speech processing，Springer Science & Business Media，2007
[9] J. Benesty and Y. Huang，"A single-channel noise reduction MVDR filter"，in ICASSP，IEEE，2011，pp. 273-276
[10] S. Das and T. Baeckstroem，"Postfiltering using log-magnitude spectrum for speech and audio coding"，in Interspeech，2018
[11] R. W. Floyd and L. Steinber，"An adaptive algorithm for spatial gray-scale"，in Proc. Soc. Inf. Disp.，vol. 17，1976，pp. 75-77
[12] G. Fuchs, V. Subbaraman, and M. Multrus，"Efficient context adaptive entropy coding for real-time applications"，in ICASSP，IEEE，2011，pp. 493-496
[13] H. Huang, L. Zhao, J. Chen, and J. Benesty，"A minimum variance distortionless response filter based on the bifrequency spectrum for single-channel noise reduction"，Digital Signal Processing，vol. 33，pp. 169-179，2014
[14] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach et al.，"A novel scheme for low bitrate unified speech and audio coding-MPEG RM0"，in Audio Engineering Society Convention 126，Audio Engineering Society，2009
[15] --，"Unified speech and audio coding scheme for high quality at low bitrates"，in ICASSP，IEEE，2009，pp. 1-4
[16] M. Schoeffler, F. R. Stoeter, B. Edler, and J. Herre，"Towards the next generation of web-based experiments: a case study assessing basic audio quality following the ITU-R recommendation BS. 1534 (MUSHRA)"，in 1st Web Audio Conference，Citeseer，2015
[17] Y. Soon and S. N. Koh，"Speech enhancement using 2-D Fourier transform"，IEEE Transactions on speech and audio processing，vol. 11，no. 6，pp. 717-724，2003
[18] T. Baeckstroem and J. Fischer，"Fast randomization for distributed low-bitrate coding of speech and audio"，IEEE/ACM Trans. Audio, Speech, Lang. Process.，2017
[19] J. M. Valin, G. Maxwell, T. B. Terriberry, and K. Vos，"High-quality, low-delay music coding in the OPUS codec"，in Audio Engineering Society Convention 135，Audio Engineering Society，2013
[20] V. Zue, S. Seneff, and J. Glass，"Speech database development at MIT: TIMIT and beyond"，Speech Communication，vol. 9，no. 4，pp. 351-356，1990

4.1.3ポストフィルタリング、たとえば、音声およびオーディオコーディングのための対数振幅スペクトルの使用
このセクションとサブセクションにおける例は、主に音声およびオーディオコーディングのための対数振幅スペクトルを使用したポストフィルタリングのための技法を参照する。

このセクションとサブセクションにおける例では、たとえば、図1.1および図1.2の特定のケースをより適切に指定し得る。

この例では、次の図が示されている。

図3.1:サイズC=10のコンテキスト近傍。以前に推定されたビンは、現在のサンプルからの距離に基づいて選択され、並べ替えられる。

図3.2:任意の周波数ビンにおける(a)線形領域(b)対数領域における音声の振幅のヒストグラム。

図3.3:音声モデルのトレーニング。

図3.4:音声分布のヒストグラム(a)真の(b)推定された:ML(c)推定された:EL。

図3.5:異なるコンテキストサイズに対して提案された方法を使用したSNRの改善を表すプロット。

図3.6:システムの概要。

図3.7:(i)すべての時間フレームにわたる固定周波数帯域における(ii)すべての周波数帯域の固定時間フレームにおける、真の、量子化された、および推定された音声信号を示すサンプルプロット。

図3.8:(a)C=1、(b)C=40のゼロ量子化ビンにおける真の、量子化された、および推定された音声の散布図。プロットは、推定された音声と真の音声との間の相関を示している。

高度なコーディングアルゴリズムは、目標ビットレート範囲内でコーディング効率が高く、高品質の信号を生成するが、パフォーマンスは目標範囲外で低下する。より低いビットレートでは、パフォーマンスの低下は、復号された信号がまばらで、信号に知覚的にこもり、歪んだ特性を与えるためである。標準コーデックは、ノイズフィリングとポストフィルタリングの方法を適用することによって、そのような歪みを低減する。本明細書では、対数振幅スペクトルにおける固有の時間-周波数相関のモデル化に基づくポストプロセッシング方法を提案する。目標は、復号された信号の知覚SNRを改善し、信号のまばらさによって引き起こされる歪みを低減することである。客観的な測定は、4～18dBの範囲の入力知覚SNRで平均1.5dBの改善を示している。この改善は、ゼロに量子化されたコンポーネントにおいて特に顕著である。

4.1.3.1序論
音声およびオーディオコーデックは、ほとんどのオーディオ処理アプリケーションに不可欠な部分であり、最近、MPEG USAC[18、16]、および3GPP EVS[13]などのコーディング標準に急速な発展が見られる。これらの標準は、オーディオと音声のコーディングの統合に向けて動き、スーパーワイド帯域とフル帯域の音声信号のコーディングを可能にし、ボイスオーバIPのサポートを追加した。これらのコーデック内のコアコーディングアルゴリズムであるACELPおよびTCXは、目標ビットレート範囲内の中程度から高いビットレートで、知覚的に透過的な品質を実現する。しかしながら、コーデックがこの範囲外で動作すると、パフォーマンスが低下する。具体的には、周波数領域における低ビットレートコーディングの場合、パフォーマンスの低下は、符号化に使用できるビットが少なくなるためであり、これにより、エネルギーの低い領域はゼロに量子化される。復号された信号におけるそのようなスペクトルホールは、知覚的に歪められ、こもった特性を信号に与え、これはリスナにとって煩わしい場合がある。

目標ビットレート範囲外で満足のいくパフォーマンスを実現するために、CELPなどの標準コーデックは、主にヒューリスティックに基づくプリプロセッシングおよびポストプロセッシング方法を使用する。具体的には、低ビットレートにおいて量子化ノイズによって引き起こされる歪みを低減するために、コーデックはコーディング処理において、またはデコーダにおいてポストフィルタとして厳密に方法を実装する。フォルマントエンハンスメントおよびバスポストフィルタは、量子化ノイズが信号を知覚的に歪ませる方法と場所の知識に基づいて、復号された信号を修正する一般的な方法である[9]。フォルマントエンハンスメントは、ノイズが発生しやすい領域において本質的にエネルギーが少なくなるようにコードブックを形成し、エンコーダとデコーダの両方に適用される。対照的に、バスポストフィルタは、高調波ライン間のコンポーネントのようなノイズを除去し、デコーダにのみ実装される。

もう1つの一般的に使用されている方法はノイズフィリングであり、ここでは、ノイズのようなコンポーネントの正確な符号化は知覚に不可欠ではないため、擬似ランダムノイズが信号に追加される[16]。さらに、本手法は、信号のまばらさによって引き起こされる歪みの知覚効果を低減する際に役立つ。ノイズフィリングの品質は、ノイズのような信号を、たとえばその利得によってエンコーダにおいてパラメータ化し、その利得をデコーダに送信することによって改善することができる。

他の方法に対するポストフィルタリング方法の利点は、それらがデコーダにのみ実装されているため、エンコーダ-デコーダ構造を修正する必要がなく、サイド情報が送信される必要がないことである。しかしながら、これらの方法のほとんどは、原因に対処するのではなく、問題の影響を解決することに焦点を当てている。

本明細書では、音声振幅スペクトルに固有の時間周波数相関をモデル化し、量子化ノイズを低減するためにこの情報を使用して可能性を調査することによって、低ビットレートにおいて信号品質を改善するためのポストプロセッシング方法を提案する。この手法の利点は、サイド情報の送信を必要とせず、量子化された信号のみを観測およびオフラインでトレーニングされた音声モデルとして使用して動作することである。復号処理後にデコーダにおいて適用されるため、コーデックのコア構造を変更する必要はない。この手法では、ソースモデルを使用してコーディング処理中に失われた情報を推定することによって、信号の歪みに対処する。この研究の新規性は、(i)対数振幅モデル化を使用して音声信号にフォルマント情報を組み込むこと、(ii)対数領域における音声のスペクトル振幅における固有のコンテキスト情報を多変量ガウス分布として表すこと、(iii)切り捨てられたガウス分布の期待される尤度として、真の音声の推定に最適なものを見つけることにある。

4.1.3.2音声振幅スペクトルモデル
フォルマントは音声における言語内容の基本的な指標であり、音声のスペクトル振幅エンベロープによって表されるため、振幅スペクトルはソースモデル化の重要な部分である[10、21]。以前の研究では、音声の周波数係数はラプラシアンまたはガンマ分布によって最もよく表されることが示されている[1、4、2、3]。したがって、図3.2aに示されるように、音声の振幅スペクトルは指数分布である。この図は、分布が低い振幅値に集中していることを示している。数値の精度の問題のため、これをモデルとして使用することは困難である。さらに、一般的な数学的演算を使用するだけでは、推定値が正であることを確実にすることは困難である。スペクトルを対数振幅領域に変換することによって、この問題に対処する。対数は非線形であるため、指数分布振幅の分布が、対数表現における正規分布に類似するように、等級軸を再分布する(図3.2b)。これにより、ガウス確率密度関数(pdf)を使用して対数振幅スペクトルの分布を近似できるようになる。

近年、音声におけるコンテキスト情報はますます関心を集めている[11]。フレーム間および周波数間相関情報は、ノイズ低減のための音響信号処理において以前に調査されている[11、5、14]。MVDRおよびウィナーフィルタリング技法は、現在の時間-周波数ビンにおける信号の推定値を取得するために、以前の時間または周波数フレームを使用する。結果は、出力信号の品質の大幅な改善を示している。この研究では、音声をモデル化するために、同様のコンテキスト情報を使用する。具体的には、コンテキストをモデル化するために対数振幅を使用し、多変量ガウス分布を使用してそれを表すことの妥当性を探る。コンテキスト近傍は、検討中のビンまでのコンテキストビンの距離に基づいて選択される。図3.1は、サイズ10のコンテキスト近傍を示し、以前の推定値がコンテキストベクトルに同化される順序を示している。

モデル化(トレーニング)処理330の概要は、図3.3に提示されている。入力音声信号331は、ウィンドウイングし、次いでブロック332において短時間フーリエ変換(STFT)を適用することによって、周波数領域の周波数領域信号332'に変換される。次いで、周波数領域信号332'は、プリプロセスされた信号333'を取得するために、ブロック333においてプリプロセスされる。プリプロセスされた信号333'は、たとえばCELP[7、9]と同様の知覚エンベロープを計算することによって、知覚モデルを導出するために使用される。知覚モデルは、知覚的に重み付けされた信号334'を取得するために周波数領域信号332'を知覚的に重み付けするためにブロック334において使用される。最後に、コンテキストベクトル(たとえば、処理されるべきビンごとのコンテキストを構成するビン)335'は、ブロック335においてサンプル周波数ビンごとに抽出され、次いで、周波数帯域ごとの共分散行列336'がブロック336において推定され、したがって、必要な音声モデルを提供する。

言い換えると、トレーニング済みモデル336'は、
- コンテキストを定義するためのルール(たとえば、周波数帯域kに基づいて)、および/または、
- 処理中のビンとコンテキストを形成する少なくとも1つの追加のビンに関する情報、および/またはそれらの間の統計的関係および/または情報115'を生成するために、推定器115によって使用される音声のモデル(たとえば、正規化された共分散行列Λ_Xに使用される値)、ならびに/あるいは、
- ノイズの統計的関係および/または情報(たとえば、行列Λ_nを定義するために使用される値)を生成するために推定器119によって使用されるノイズのモデル(たとえば、量子化ノイズ)を備える。

以前の約4つの時間フレーム、より低い周波数ビン、およびより高い周波数ビンをそれぞれ含む、最大40のコンテキストサイズを調査した。この研究を拡張アプリケーションに拡張できるようにするために、標準コーデックにおいて使用されているMDCTではなくSTFTを使用して動作する点に留意されたい。この研究のMDCTへの拡張が進行中であり、非公式のテストにより、本明細書と同様の洞察が得られる。

4.1.3.3問題の定式化
私たちの目的は、統計的事前分布を使用して、ノイズの多い復号された信号の観測値からクリーンな音声信号を推定することである。この目的を達成するために、観測値と以前の推定値を考慮して、現在のサンプルの最尤(ML)として問題を定式化する。サンプルxが量子化レベルQ∈[l,u]に量子化されていると仮定する。次いで、最適化問題を次のように表すことができる。

l≦X≦uを条件として、

上式で、

は、現在のサンプルの推定値であり、lおよびuはそれぞれ現在の量子化ビンの下限と上限であり、P(a₁|a₂)は、所与のa₂におけるa₁の条件付き確率である。

は推定コンテキストベクトルである。図3.1は、サイズC=10のコンテキストベクトルの構成を示しており、ここで、数字は周波数ビンが組み込まれる順序を表している。復号された信号から、およびコーデックにおいて使用されている量子化方法の知識から、量子化レベルを取得し、量子化制限を定義することができ、特定の量子化レベルの下限と上限は、それぞれ前のレベルと次のレベルの中間に定義される。

式3.1のパフォーマンスを説明するために、一般的な数値手法を使用してそれを解決した。図3.4は、ゼロに量子化されたビンにおける真の音声(a)と推定された音声(b)の分布による結果を示している。量子化ビン内の推定値の相対分布を分析および比較するために、変動するlおよびuがそれぞれ0、1に固定されるようにビンをスケーリングする。(b)において、1付近の高いデータ密度が観測され、これは、推定値が上限に向かって偏っていることを意味する。これをエッジ問題と呼ぶことにする。この問題を緩和するために、次のように音声推定値を期待尤度(EL)として定義する[17、8]。

l≦X≦uを条件として、

ELを使用した結果の音声分布を図3.4cに示されており、これは、推定音声分布と真の音声分布との間の比較的良い一致を示している。最後に、解析解を得るために、制約条件をモデル化自体に組み込んで、それによって分布を切り捨てガウスpdfとしてモデル化する[12]。付録AおよびB(4.1.3.6.1および4.1.3.6.2)において、切り捨てられたガウスとして解が得られる方法を示す。次のアルゴリズムは、推定方法の概要を提示する。

4.1.3.4実験および結果
私たちの目的は、対数振幅スペクトルをモデル化することの利点を評価することである。エンベロープモデルは、従来のコーデックにおいて振幅スペクトルをモデル化するための主要な方法であるため、統計的事前分布の効果を、スペクトル全体とエンベロープのみの両方の観点から評価する。したがって、音声のノイズの多い振幅スペクトルから音声を推定するための提案された方法を評価するだけでなく、ノイズの多いエンベロープの観測からのスペクトルエンベロープの推定についてもテストする。スペクトルエンベロープを取得するために、信号を周波数領域に変換した後、ケプストラムを計算し、20個の低い係数を保持して、周波数領域に変換する。エンベロープモデル化の次のステップは、セクション4.1.3.2および図3.3において提示されたスペクトル振幅モデル化と同じであり、すなわち、コンテキストベクトルおよび共分散推定値を取得する。

4.1.3.4.1システム概要
システム360の一般的なブロック図が図3.6に示されている。エンコーダ360aにおいて、信号361はフレームに分割される(たとえば、50%の重複およびサインウィンドウを伴う20ミリ秒のもの)。次いで、音声入力361は、ブロック362において、たとえばSTFTを使用して、周波数領域信号362'に変換され得る。ブロック363においてプリプロセスし、ブロック364において信号をスペクトルエンベロープによって知覚的に重み付けした後、符号化された信号366(ビットストリーム111の例であり得る)を取得するために、ブロック365において振幅スペクトルが量子化され、ブロック366において算術コーディング[19]を使用してエントロピコーディングされる。

デコーダ360bにおいて、符号化された信号366'を復号するために、逆の処理がブロック367(ビットストリームリーダ113の例であり得る)において実装される。復号された信号366'は量子化ノイズによって破損する可能性があり、私たちの目的は、出力品質を改善するために、提案されたポストプロセッシング方法を使用することである。知覚的に重み付けされた領域において本方法を適用する点に留意されたい。対数変換ブロック368が提供される。

(上述の要素114、115、119、116、および/または130を実装し得る)ポストフィルタリングブロック369は、たとえば、トレーニングされたモデル336'および/または、(たとえば、周波数帯域kに基づいて)コンテキストを定義するためのルール、ならびに/あるいは処理中のビンとコンテキストを形成する少なくとも1つの追加のビンに関する情報、および/またはそれらの間の統計的関係および/または情報115'(たとえば、正規化された共分散行列Λ_X)、および/またはノイズ(たとえば、量子化ノイズ)に関する統計的関係および/または情報119'(たとえば、行列Λ_N)であり得る音声モデルに基づいて、上述のように量子化ノイズの影響を低減することを可能にする。

ポストプロセッシング後、ブロック369aにおいて逆知覚重みを適用し、ブロック369bにおいて逆周波数変換を適用することによって、推定された音声が時間領域に変換される。信号を時間領域に再構築するために、真の位相を使用する。

4.1.3.4.2実験的なセットアップ
トレーニングには、TIMITデータベース[22]のトレーニングセットから250個の音声サンプルを使用した。トレーニング処理のブロック図が図3.3に提示される。テストでは、データベースのテストセットから10個の音声サンプルがランダムに選択された。コーデックはTCXモードにおけるEVSコーデック[6]に基づいており、知覚SNR(pSNR)[6、9]がコーデックの標準的な範囲内になるようにコーデックパラメータを選択した。したがって、9.6～128kbpsの12個の異なるビットレートにおいてコーディングをシミュレーションし、これにより、pSNR値が約4～18dBの範囲になる。EVSのTCXモードにはポストフィルタリングが組み込まれていない点に留意されたい。テストケースごとに、コンテキストサイズが∈{1,4,8,10,14,20,40}である復号された信号にポストフィルタを適用する。コンテキストベクトルは、セクション4.1.3.2および図3.1における説明に従って取得される。振幅スペクトルを使用したテストでは、ポストプロセッシングされた信号のpSNRが、ノイズの多い量子化信号のpSNRと比較される。スペクトルエンベロープベースのテストでは、真のエンベロープと推定されたエンベロープとの間の信号対ノイズ比(SNR)が定量的測定として使用される。

4.1.3.4.3結果と分析
図3.4において、10個の音声サンプルの定量的測定の平均がプロットされる。プロット(a)および(b)は、振幅スペクトルを使用した評価結果を表し、プロット(c)および(d)は、スペクトルエンベロープテストに対応する。スペクトルとエンベロープの両方について、コンテキスト情報を組み込むと、SNRの一貫した改善が示される。改善の程度は、プロット(b)および(d)に示されている。振幅スペクトルの場合、改善の範囲は、低い入力pSNRにおいてすべてのコンテキストで1.5～2.2dB、また高い入力pSNRにおいて0.2～1.2dBである。スペクトルエンベロープの場合、傾向は似ており、コンテキストに対する改善は、低い入力SNRでは1.25～2.75dB、高い入力SNRでは0.5～2.25である。約10dBの入力SNRにおいて、改善はすべてのコンテキストサイズでピークに達する。

振幅スペクトルの場合、コンテキストサイズ1と4の間の品質の改善は非常に大きく、すべての入力pSNRで約0.5dBである。コンテキストサイズを増やすことによって、pSNRをさらに改善することができるが、サイズが4～40の場合、改善率は比較的低くなる。また、より高い入力pSNRにおいて、改善はかなり低くなる。10サンプル前後のコンテキストサイズは、精度と複雑さの間の適切な妥協点であると結論付ける。しかしながら、コンテキストサイズの選択はまた、処理する目標デバイスによって異なる。たとえば、デバイスの計算リソースが自由に使用できる場合は、最大限の改善を図るために大きいコンテキストサイズを使用することができる。

図3.7:サンプルプロットは、(i)すべての時間フレームにわたる固定周波数帯域における、(ii)すべての周波数帯域にわたる固定時間フレームにおける、真の、量子化された、および推定された音声信号を示している。

提案された方法のパフォーマンスは、8.2dBの入力pSNRとともに図3.7～図3.8にさらに示されている。図3.7のすべてのプロットからの目立った観測は、特にゼロに量子化されたビンにおいては、提案された方法は真の振幅に近い振幅を推定できることである。さらに、図3.7(ii)から、推定値はスペクトルエンベロープに従っているように見え、それによって、ガウス分布には、主にスペクトルエンベロープ情報が組み込まれ、ピッチ情報はそれほど組み込まれていないと結論付けることができる。したがって、ピッチの追加のモデル化方法にも対処し得る。

図3.8の散布図は、C=1とC=40のゼロ量子化ビンにおける、真の、推定された、および量子化された音声の振幅の間の相関を表している。これらのプロットは、情報が存在しないビン内の音声を推定する際にコンテキストが役立つことをさらに示している。したがって、この方法は、ノイズフィリングアルゴリズムにおいてスペクトルの振幅を推定する際に有益である。散布図では、量子化された、真の、および推定された音声振幅スペクトルが、それぞれ赤、黒、および青の点で表される。相関関係はどちらのサイズでも正であるが、C=40の場合、相関関係は大幅に高くなり、より明確になることがわかる。

4.1.3.5議論と結論
このセクションでは、量子化ノイズを低減するための、音声に固有のコンテキスト情報の使用を調査した。統計的事前分布を使用して、量子化された信号からデコーダにおいて音声サンプルを推定することに焦点を当てたポストプロセッシング方法を提案する。結果は、音声相関を含めるとpSNRが改善するだけでなく、ノイズフィリングアルゴリズムのスペクトル振幅の推定値も提供されることを示している。本書の焦点はスペクトル振幅のモデル化であったが、現在の洞察と添付の書類[20]からの結果に基づくジョイント振幅フェーズモデル化方法は、次のステップとして自然である。

このセクションはまた、コンテキスト近傍の情報を組み込むことによって、高度に量子化されたノイズの多いエンベロープからのスペクトルエンベロープの復元についても説明を開始する。

4.1.3.6付録
4.1.3.6.1付録A:切り捨てられたガウスpdf

を定義し、上式で、μ、σは分布の統計パラメータであり、erfはエラー関数である。次いで、一変量ガウス確率変数Xの期待値は次のように計算される。

従来、X∈[-∞,∞]である場合、式3.3はE(X)=μをもたらす。しかしながら、切り捨てられたガウス確率変数の場合、l<X<uの場合、関係は次のようになる。

これにより、切り捨てられた一変量ガウス確率変数の期待値を計算するための次の式が得られる。

4.1.3.6.2付録B:条件付きガウスパラメータ
コンテキストベクトルをx=[x₁,x₂]^Tとして定義し、上式で、

は検討中の現在のビンを表し、

はコンテキストである。次いで

であり、上式で、Cはコンテキストサイズである。統計モデルは、平均ベクトル

および共分散行列

によって表され、したがってx₁およびx₂と同じ次元のμ=[μ₁,μ₂]^Tであり、共分散は次のようになる。

Σijは、

の次元を持つΣのパーティションである。したがって、推定されたコンテキストに基づく現在のビンの分布の更新された統計は[15]である。

4.1.3.7参考文献
[1] J. Porter and S. Boll，"Optimal estimators for spectral restoration of noisy speech"，in ICASSP，vol. 9，Mar 1984，pp. 53-56
[2] C. Breithaupt and R. Martin，"MMSE estimation of magnitude-squared DFT coefficients with superGaussian priors"，in ICASSP，vol. 1，April 2003，pp. I-896-I-899 vol. 1
[3] T. H. Dat, K. Takeda, and F. Itakura，"Generalized gamma modeling of speech and its online estimation for speech enhancement"，in ICASSP，vol. 4，March 2005，pp. iv/181-iv/184 Vol. 4
[4] R. Martin，"Speech enhancement using MMSE short time spectral estimation with gamma distributed speech priors"，in ICASSP，vol. 1，May 2002，pp. I-253-I-256
[5] Y. Huang and J. Benesty，"A multi-frame approach to the frequency-domain single-channel noise reduction problem"，IEEE Transactions on Audio, Speech, and Language Processing，vol. 20，no. 4，pp.1256-1269，2012
[6] "EVS codec detailed algorithmic description; 3GPP technical specification"，http://www.3gpp.org/DynaReport/26445.htm
[7] T. Baeckstroem and C. R. Helmrich，"Arithmetic coding of speech and audio spectra using TCX based on linear predictive spectral envelopes"，in ICASSP，April 2015，pp. 5127-5131
[8] Y. I. Abramovich and O. Besson，"Regularized covariance matrix estimation in complex elliptically symmetric distributions using the expected likelihood approach part 1: The over-sampled case"，IEEE Transactions on Signal Processing，vol. 61，no. 23，pp. 5807-5818，2013
[9] T. Baeckstroem，Speech Coding with Code-Excited Linear Prediction，Springer，2017
[10] J. Benesty, M. M. Sondhi, and Y. Huan，Springer handbook of speech precessing，Springer Science & Business Media，2007
[11] J. Benesty and Y. Huang，"A single-channel noise reduction MVDR filter"，in ICASSP，IEEE，2011，pp. 273-276
[12] N. Chopin，"Fast simulation of truncated Gaussian distributions"，Statistics and Computing，vol. 21，no. 2，pp. 275-288，2011
[13] M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z. Wang, L. Laaksonen, A. Vasilache et al.，"Overview of the EVS codec architecture"，in ICASSP，IEEE，2015，pp. 5698-5702
[14] H. Huang, L. Zhao, J. Chen, and J. Benesty，"A minimum variance distortionless response filter based on the bifrequency spectrum for single-channel noise reduction"，Digital Signal Processing，vol. 33，pp.169-179，2014
[15] S. Korse, G. Fuchs, and T. Baeckstroem，"GMM-based iterative entropy coding for spectral envelopes of speech and audio"，in ICASSP，IEEE，2018
[16] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach et al.，"A novel scheme for low bitrate unified speech and audio coding-MPEG RM0"，in Audio Engineering Society Convention 126，Audio Engineering Society，2009
[17] E. T. Northardt, I. Bilik, and Y. I. Abramovich，"Spatial compressive sensing for direction-of-arrival estimation with bias mitigation via expected likelihood"，IEEE Transactions on Signal Processing，vol. 61，no. 5，pp. 1183-1195，2013
[18] S. Quackenbush，"MPEG unified speech and audio coding"，IEEE MultiMedia，vol. 20，no. 2，pp. 72-78，2013
[19] J. Rissanen and G. G. Langdon，"Arithmetic coding"，IBM Journal of Research and Development，vol. 23，no. 2，pp. 149-162，1979
[20] S. Das and T. Baeckstroem，"Postfiltering with complex spectral correlations for speech and audio coding"，in Interspeech，2018
[21] T. Barker，"Non-negative factorisation techniques for sound source separation"，Ph.D. dissertation，Tampere University of Technology，2017
[22] V. Zue, S. Seneff, and J. Glass，"Speech database development at MIT: TIMIT and beyond"，Speech Communication，vol. 9，no. 4，pp. 351-356，1990

4.1.4さらなる例
4.1.4.1システム構造
提案された方法は、ノイズを低減するために、時間-周波数領域においてフィルタリングを適用する。特に音声およびオーディオコーデックの量子化ノイズの減衰用に設計されているが、あらゆるノイズ低減タスクに適用可能である。図1にシステム構造を示す。

ノイズ減衰アルゴリズムは、正規化された時間周波数領域における最適なフィルタリングに基づいている。これは、次の重要な詳細を含む。
1.パフォーマンスを維持しながら複雑さを低減するために、フィルタリングは各時間-周波数ビンのすぐ近傍にのみ適用される。この近傍は、本明細書ではビンのコンテキストと呼ばれる。
2.利用可能な場合、コンテキストはクリーンな信号の推定を含むという意味で、フィルタリングは再帰的である。言い換えると、各時間-周波数ビンに対して反復においてノイズ減衰を適用すると、すでに処理されたビンが次の反復にフィードバックされる(図2を参照)。これにより、自己回帰フィルタリングと同様のフィードバックループが作成される。利点は2つある。
3.以前に推定されたサンプルは現在のサンプルとは異なるコンテキストを使用するため、現在のサンプルの推定においてより大きなコンテキストを効果的に使用している。より多くのデータを使用することによって、より良い品質を得ることができる。
4.以前に推定されたサンプルは、通常、完全な推定値ではなく、つまり、推定値には多少のエラーがある。以前に推定されたサンプルをクリーンなサンプルのように扱うことによって、現在のサンプルを以前に推定されたサンプルと同様のエラーに偏らせている。これは実際のエラーを増加させる可能性があるが、エラーはソースモデルにより良く適合し、すなわち、信号は目的の信号の統計により類似している。言い換えると、音声信号の場合、たとえ絶対エラーが必ずしも最小化されていなくても、フィルタリングされた音声は音声によく似ている。
5.コンテキストのエネルギーは、時間と周波数の両方で大きな変動を有するが、量子化精度が一定であると仮定すると、量子化ノイズエネルギーは事実上一定である。最適フィルタは共分散推定に基づいているため、現在のコンテキストがたまたま有しているエネルギーの量は、共分散に、したがって最適フィルタに大きな影響を与える。そのようなエネルギーにおける変動を考慮に入れるために、処理の一部において正規化を適用する必要がある。現在の実装形態では、コンテキストのノルムで処理する前に、目的のソースの共分散を入力コンテキストと一致するように正規化する(図4.3を参照)。フレームワーク全体の要件に応じて、正規化の他の実装形態も容易に可能である。
6.現在の研究では、最適なフィルタを導出するためのよく知られており、理解されている方法であるため、ウィナーフィルタリングを使用した。当業者が、最小分散歪みなし応答(MVDR)最適化基準などの、彼が選択した他の任意のフィルタ設計を選択できることは明らかである。

図4.2は、提案された推定の例の再帰的な性質を示している。サンプルごとに、ノイズの多い入力フレームからのサンプルを有するコンテキスト、以前のクリーンフレームの推定値、および現在のフレームにおける以前のサンプルの推定値を抽出する。次いで、これらのコンテキストは、現在のサンプルの推定値を見つけるために使用され、次いで、クリーンな現在のフレームの推定値を共同で形成する。

図4.3は、現在のコンテキストの利得(ノルム)の推定値、その利得を使用したソース共分散の正規化(スケーリング)、所望のソース信号と量子化ノイズの共分散のスケーリングされた共分散を使用した最適フィルタの計算、および最後に、出力信号の推定値を取得するために最適なフィルタを適用することを含む、そのコンテキストからの単一のサンプルの最適なフィルタリングを示している。

4.1.4.2従来技術と比較した提案の利点
4.4.4.2.1従来のコーディング手法
提案された方法の中心的な新規性は、音声信号の統計的な特性を時間-周波数表現において経時的に考慮に入れることである。3GPP EVSなどの従来の通信コーデックは、現在のフレーム内の周波数でのみエントロピコーダおよびソースモデル化において信号の統計を使用する[1]。MPEG USACなどのブロードキャストコーデックは、それらのエントロピコーダにおいて、いくつかの時間-周波数情報をやはり経時的に使用するが、その使用範囲は限られている[2]。

フレーム間情報の使用を避ける理由は、送信中に情報が失われると、信号を正しく再構築できなくなるためである。具体的には、失われたフレームのみを失うことはないが、後続のフレームは失われたフレームに依存しているため、後続のフレームも誤って再構築されるか、完全に失われる。したがって、コーディングでフレーム間情報を使用することは、フレーム損失が発生した場合に重大なエラーの伝播につながる。

対照的に、現在の提案は、フレーム間情報の送信を必要としない。信号の統計は、所望の信号と量子化ノイズの両方のコンテキストの共分散行列の形態で、オフラインで決定される。したがって、フレーム間統計はオフラインで推定されるため、エラー伝播の危険を冒すことなく、デコーダにおいてフレーム間情報を使用することができる。

提案された方法は、任意のコーデックのポストプロセッシング方法として適用可能である。主な制限は、従来のコーデックが非常に低いビットレートで動作する場合、信号のかなりの部分がゼロに量子化されるため、提案された方法の効率が大幅に低下することである。しかしながら、低レートでは、して、量子化エラーをガウスノイズによく似せるために、ランダム化された量子化方法を使用することができる[3、4]。それは、提案された方法を少なくとも以下において適用可能にする。
1.従来のコーデック設計を使用した中および高ビットレートにおいて、ならびに、
2.ランダム化された量子化を使用する場合の低ビットレートにおいて。

したがって、提案された手法は、信号の統計モデルを2つの方法で使用する。フレーム間情報は従来のエントロピコーディング方法を使用して符号化され、フレーム間情報はポストプロセッシングステップにおいてデコーダにおけるノイズ減衰に使用される。デコーダ側におけるソースモデル化のそのようなアプリケーションは、分散コーディング方法からよく知られており、統計モデル化がエンコーダとデコーダの両方に適用されるか、またはデコーダのみに適用されるかは問題ではないことが実証されている[5]。私たちの知る限り、私たちの手法は、分散コーディングアプリケーション以外の、音声およびオーディオコーディングにおけるこの機能の最初のアプリケーションである。

4.1.4.2.2ノイズ減衰
比較的最近になって、ノイズ減衰アプリケーションは、時間-周波数領域において統計情報を経時的に組み込むことから大きな恩恵を受けることが示された。具体的には、Benesty他は、バックグラウンドノイズを低減するために、時間-周波数領域においてMVDRなどの従来の最適フィルタを適用した[6、7]。提案された方法の主なアプリケーションは量子化ノイズの減衰であるが、Benestyが行うように一般的なノイズ減衰問題にも当然適用することができる。しかしながら、現在のビンとの相関が最も高い時間-周波数ビンをコンテキストに明示的に選択した点が異なる。違いは、Benestyは経時的にフィルタリングを適用するだけで、隣接する周波数は適用しないことである。時間-周波数ビンからより自由に選択することによって、最小のコンテキストサイズで品質が最も改善する周波数ビンを選択できるため、計算の複雑さが低減される。

4.1.4.3拡張
提案された方法から自然に続く多くの自然な拡張があり、上および下に開示された態様および例に適用され得る。
1.上記では、コンテキストは、ノイズの多い現在のサンプルと、クリーンな信号の過去の推定のみを含む。しかしながら、コンテキストは、まだ処理されていない時間-周波数近傍も含むことができる。すなわち、最も有用な近傍を含むコンテキストを使用でき、可能な場合は推定されたクリーンなサンプルを使用するが、それ以外の場合はノイズの多いサンプルを使用する。次いで、ノイズの多い近傍は、当然、現在のサンプルと同様のノイズの共分散を有する。
2.クリーンな信号の推定値は当然完全ではなく、多少のエラーも含まれるが、上記では、過去の信号の推定値にはエラーがないと仮定している。品質を改善させるために、過去の信号についても残留ノイズの推定値を含めることができる。
3.現在の研究は量子化ノイズの減衰に焦点を当てているが、明らかに、バックグラウンドノイズも含めることができる。その場合、最小化プロセスに適切なノイズ共分散を含めるだけで済む[8]。
4.本方法は、本明細書では単一チャネル信号にのみ適用されて提示されたが、従来の方法を使用して、それをマルチチャネル信号に拡張できることは明らかである[8]。
5.現在の実装形態では、オフラインで推定される共分散を使用しており、所望のソース共分散のスケーリングのみが信号に適用される。信号に関するさらなる情報がある場合、適応共分散モデルが役立つことは明らかである。たとえば、音声信号の発声量の指標、または高調波対雑音比(HNR)の推定値がある場合、発声またはHNRにそれぞれ一致するように所望のソース共分散を適応させることができる。同様に、量子化器のタイプまたはモードがフレームごとに変わる場合、量子化ノイズの共分散を適応させるためにそれを使用することができる。共分散が観測された信号の統計と一致することを確認することによって、明らかに所望の信号のより良い推定値が得られる。
6.現在の実装形態におけるコンテキストは、時間-周波数グリッドにおける最も近い近傍から選択される。しかしながら、これらのサンプルのみを使用することに制限はない。利用可能な任意の有用な情報を自由に選択することができる。たとえば、調和信号の櫛形構造に対応するコンテキスト内にサンプルを選択するために、信号の調和構造に関する情報を使用することができる。さらに、エンベロープモデルにアクセスできる場合、[9]と同様に、スペクトル周波数ビンの統計を推定するためにそれを使用することができる。一般化すると、クリーンな信号の推定値を改善するために、現在のサンプルと相関している任意の利用可能な情報を使用することができる。

4.1.4.4参考文献
[1] 3GPP，TS 26.445，EVS Codec Detailed Algorithmic Description，3GPP Technical Specification (Release 12)，2014
[2] ISO/IEC 23003-3:2012，"MPEG-D (MPEG audio technology)，Part 3: Unified speech and audio coding"，2012
[3] T Baeckstroem, F Ghido, and J Fischer，"Blind recovery of perceptual models in distributed speech and audio coding"，in Proc. Interspeech，2016，pp. 2483-2487
[4] T Baeckstroem and J Fischer，"Fast randomization for distributed low-bitrate coding of speech and audio"，accepted to IEEE/ACM Trans. Audio, Speech, Lang. Process.，2017
[5] R. Mudumbai, G. Barriac, and U. Madhow，"On the feasibility of distributed beamforming in wireless networks"，Wireless Communications，IEEE Transactions on，vol. 6，no. 5，pp. 1754-1763，2007
[6] Y.A. Huang and J. Benesty，"A multi-frame approach to the frequency-domain single-channel noise reduction problem"，IEEE Transactions on Audio, Speech, and Language Processing，vol. 20，no. 4，pp. 1256-1269，2012
[7] J. Benesty and Y. Huang，"A single-channel noise reduction MVDR filter"，in ICASSP，IEEE，2011，pp. 273-276
[8] J Benesty, M Sondhi, and Y Huang，Springer Handbook of Speech Processing，Springer，2008
[9] T Baeckstroem and C R Helmrich，"Arithmetic coding of speech and audio spectra using TCX based on linear predictive spectral envelopes"，in Proc. ICASSP，Apr. 2015，pp. 5127-5131

4.1.5追加の態様
4.1.5.1追加の仕様およびさらなる詳細
上記の例では、ビットストリーム111において符号化されたフレーム間情報は必要ない。したがって、例では、コンテキスト定義器114、統計的関係および/または情報推定器115、量子化ノイズ関係および/または情報推定器119、ならびに値推定器116のうちの少なくとも1つが、デコーダにおいてフレーム間情報を利用し、したがって、パケットまたはビット損失の場合のペイロードとエラー伝播のリスクを低減する。

上記の例では、主に量子化ノイズが参照されている。しかしながら、他の例では、他の種類のノイズに対処することができる。

上述の技法のほとんどは、低ビットレートに対して特に効果的であることが指摘されている。したがって、以下のいずれかを選択する技法を実装できる可能性がある。
- 低ビットレートモードであって、上記の技法が使用される、および
- 高ビットレートモードであって、提案されたポストフィルタリングがバイパスされる。
図5.1は、いくつかの例においてデコーダ110によって実装され得る例510を示す。ビットレートに関して決定511が実行される。ビットレートがあらかじめ定められたしきい値を下回る場合、512において、上記のコンテキストベースのフィルタリングが実行される。ビットレートが所定のしきい値を超える場合、513において、コンテキストベースのフィルタリングがスキップされる。

例において、コンテキスト定義器114は、少なくとも1つの未処理のビン126を使用してコンテキスト114'を形成し得きる。図1.5を参照すると、いくつかの例があり、したがって、コンテキスト114'は、丸で囲まれたビン126のうちの少なくとも1つを備え得る。したがって、いくつかの例では、処理されたビンストレージユニット118の使用が回避されてもよく、コンテキスト定義器114に少なくとも1つの未処理ビン126を提供する接続113"(図1.1)によって補完されてもよい。

上記の例では、統計的関係および/または情報推定器115ならびに/あるいはノイズ関係および/または情報推定器119は、複数の行列(たとえば、Λ_x、Λ_N)を記憶し得る。使用される行列の選択は、入力信号のメトリックに基づいて実行され得る(たとえば、コンテキスト114'および/または処理中のビン123)。したがって、(たとえば、異なる高調波対雑音比または他のメトリックで決定される)異なる高調波は、たとえば、異なる行列Λ_x、Λ_Nに関連付けられ得る。

あるいは、したがって、コンテキストの異なるノルム(たとえば、未処理のビン値または他のメトリックのコンテキストのノルムを測定して決定される)は、たとえば、異なる行列列Λ_x、Λ_Nに関連付けられ得る。

4.1.5.2方法
上記で開示された機器の動作は、本開示による方法であり得る。

以下を参照して、方法の一般的な例が図5.2に示される。
- 入力信号の処理中の1つのビン(たとえば、123)のコンテキスト(たとえば、114')が定義され、コンテキスト(たとえば、114')が、周波数/時間空間において、処理中のビン(たとえば123)とあらかじめ定められた位置関係にある少なくとも1つの追加のビン(たとえば118'、124)を含む、第1のステップ521(たとえば、コンテキスト定義器114によって実行される)、
- 処理中のビン(たとえば、123)と少なくとも1つの追加のビン(たとえば、118'、124)との間の統計的関係および/または情報(たとえば、115')、ならびに/あるいはそれらに関する情報に基づいて、ならびにノイズ(たとえば、量子化ノイズおよび/または他の種類のノイズ)に関する統計的関係および/または情報(たとえば、119')に基づいて、処理中のビン(たとえば、123)の値(たとえば、116')を推定する、第2のステップ522(たとえば、コンポーネント115、119、116のうちの少なくとも1つによって実行される)。

例において、本方法は、たとえばステップ522の後に繰り返される場合があり、たとえば、処理中のビンを更新することによって、および新しいコンテキストを選択することによって、ステップ521が新たに呼び出され得る。

方法520などの方法は、上記で論じた動作によって補完され得る。

4.1.5.3ストレージユニット
図5.3に示されるように、上記で開示された機器(たとえば、113、114、116、118、115、117、119など)および方法の動作は、プロセッサベースのシステム530によって実装され得る。後者は、プロセッサ532によって実行されると、ノイズを低減するように動作し得る非一時的ストレージユニット534を備え得る。入力/出力(I/O)ポート536が示されており、これは、たとえば受信アンテナおよび/またはストレージユニット(たとえば、入力信号111が記憶されている)から、データ(入力信号111など)をプロセッサ532に提供し得る。

4.1.5.4システム
図5.4は、エンコーダ542およびデコーダ130(または、上記の別のエンコーダ)を備えるシステム540を示している。エンコーダ542は、たとえばワイヤレス(たとえば、無線周波数および/または超音波および/または光通信)で、またはビットストリーム111をストレージサポートに記憶することによって、符号化された入力信号を伴うビットストリーム111を提供するように構成される。

4.1.5.5さらなる例
一般に、例は、プログラム命令を有するコンピュータプログラム製品として実装されてもよく、プログラム命令は、コンピュータプログラム製品がコンピュータ上で実行されるときに方法のうちの1つを実行するように動作する。プログラム命令は、たとえば、機械可読媒体に記憶され得る。

他の例は、機械可読キャリアに記憶された、本明細書に記載された方法のうちの1つを実行するためのコンピュータプログラムを備える。

言い換えれば、方法の例は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載された方法のうちの1つを実行するためのプログラム命令を有するコンピュータプログラムである。

したがって、本方法のさらなる例は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを記録したデータキャリア媒体(または、デジタルストレージ媒体、またはコンピュータ可読媒体)である。データキャリア媒体、デジタルストレージ媒体、または記録された媒体は、無形で一時的な信号ではなく、有形および/または非一時的なものである。

したがって、本方法のさらなる例は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえばデータ通信接続を介して、たとえばインターネットを介して転送され得る。

さらなる例は、本明細書に記載の方法のうちの1つを実行する処理手段、たとえばコンピュータ、またはプログラマブル論理デバイスを備える。

さらなる例は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを備える。

さらなる例は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを(たとえば、電子的または光学的に)受信機に転送する装置またはシステムを備える。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを備え得る。

いくつかの例では、本明細書に記載の方法の機能の一部またはすべてを実行するために、プログラマブル論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が使用され得る。いくつかの例では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの1つを実行するために、マイクロプロセッサと協働し得る。一般に、方法は、任意の適切なハードウェア装置によって実行され得る。

上述の例は、上述の原理を単に例示するものである。本明細書に記載の構成および詳細の修正および変形は明らかであることは理解される。したがって、添付の特許請求の範囲によって制限され、本明細書の例の説明および説明として提示された特定の詳細によって制限されないことが意図されている。

同一または同等の機能を有する同一または同等の要素は、たとえ異なる図面において生じている場合でも、同一または同等の参照番号によって以下の説明において示される。

110 デコーダ
111 ビットストリーム
112 強化されたTD出力信号
113 ビットストリームリーダ
113' 元の入力信号のバージョン
114 コンテキスト定義器
114' コンテキスト
115 統計的関係および/または情報推定器
115' 期待される関係
115' 推定された統計的関係および/または情報
116 値推定器
116' 推定値、推定信号
117 FD-TD変換器
118 コンテキストビン
118 処理されたビン記憶ユニット
118' 追加のビン
119 量子化ノイズ関係および/または情報推定器
120 信号バージョン
121 フレーム
122 帯域
123 ビン
124 コンテキストビン
124 すでに処理されたビン
125 すでに処理されたビン
126 未処理のビン
130 デコーダ
131 測定器
132 スケーラ
132' スケーリングされた行列
133 加算器
135' 値
136 乗算器
530 プロセッサベースのシステム
532 プロセッサ
534 非一時的ストレージユニット
540 システム
542 エンコーダ

Claims

ビットストリーム(111)において定義された周波数領域入力信号を復号するためのデコーダ(110)であって、前記周波数領域入力信号がノイズにさらされ、前記デコーダ(110)が、
前記ビットストリーム(111)から、前記周波数領域入力信号のバージョン(113'，120)をフレーム(121)のシーケンスとして提供するビットストリームリーダ(113)であって、各フレーム(121)が複数のビン(123～126)に細分され、各ビンがサンプル値を有する、ビットストリームリーダ(113)と、
処理中の1つのビン(123)のコンテキスト(114')を定義するように構成されたコンテキスト定義器(114)であって、前記コンテキスト(114')が、処理中の前記ビン(123)とあらかじめ定められた位置関係にある少なくとも1つの追加のビン(118'，124)を含む、コンテキスト定義器(114)と、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)との間の統計的関係(115')、および
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)とに関する情報
を提供するように構成された統計的関係および情報推定器(115)であって、前記統計的関係(115')が、共分散または相関の形態で提供され、前記情報が、分散または自己相関の形態で提供され、前記統計的関係および情報推定器(115)が、ノイズに関する統計的関係および情報(119')を提供するように構成されたノイズ関係および情報推定器(119)を含み、前記ノイズに関する統計的関係および情報(119')が、処理中の前記ビン(123)および前記少なくとも1つの追加のビン(118'，124)のノイズ信号間の関係を推定するノイズ行列(Λ_N)を含む、統計的関係および情報推定器(115)と、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)との間の推定された前記統計的関係(115')、および処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)とに関する推定された前記情報、ならびに前記ノイズに関する統計的関係および情報(119')に基づいて、処理中の前記ビン(123)の値の推定値(116')を取得するように構成された値推定器(116)と、
前記推定値(116')を時間領域信号(112)に変換するトランスフォーマ(117)と
を備える、デコーダ。
前記ノイズが量子化ノイズである、請求項1に記載のデコーダ。
前記ノイズが、量子化ノイズではないノイズである、請求項1に記載のデコーダ。
前記コンテキスト定義器(114)が、以前に処理されたビン(124，125)の中から前記少なくとも1つの追加のビン(118'，124)を選択するように構成される、請求項1から3のいずれか一項に記載のデコーダ。
前記コンテキスト定義器(114)が、前記ビンの帯域(122)に基づいて前記少なくとも1つの追加のビン(118'，124)を選択するように構成される、請求項1から4のいずれか一項に記載のデコーダ。
前記コンテキスト定義器(114)が、すでに処理されたビンの中から、あらかじめ定められた位置しきい値内で前記少なくとも1つの追加のビン(118'，124)を選択するように構成される、請求項1から5のいずれか一項に記載のデコーダ。
前記コンテキスト定義器(114)が、異なる帯域のビンに異なるコンテキストを選択するように構成される、請求項1から6のいずれか一項に記載のデコーダ。
前記値推定器(116)が、前記周波数領域入力信号の最適推定値を提供するウィナーフィルタとして動作するように構成される、請求項1から7のいずれか一項に記載のデコーダ。
前記値推定器(116)が、処理中の前記ビン(123)の前記値の前記推定値(116')を、前記少なくとも1つの追加のビン(118'，124)の少なくとも1つのサンプル値から取得するように構成される、請求項1から8のいずれか一項に記載のデコーダ。
前記コンテキスト(114')の前記少なくとも1つの追加のビン(118'，124)の以前に実行された推定(116')に関連付けられる測定値(131')を提供するように構成された測定器(131)をさらに備え、
前記値推定器(116)が、前記測定値(131')に基づいて、処理中の前記ビン(123)の前記値の推定値(116')を取得するように構成される、請求項1から9のいずれか一項に記載のデコーダ。
前記測定値(131')が、前記コンテキスト(114')の前記少なくとも1つの追加のビン(118'，124)のエネルギーに関連付けられる値である、請求項10に記載のデコーダ。
前記測定値(131')が、前記コンテキスト(114')の前記少なくとも1つの追加のビン(118'，124)に関連付けられる利得(γ)である、請求項10または11に記載のデコーダ。
前記測定器(131)が、ベクトルのスカラ積として前記利得(γ)を取得するように構成され、第1のベクトルが前記コンテキスト(114')の前記少なくとも1つの追加のビン(118'，124)の値を含み、第2のベクトルが前記第1のベクトルの転置共役である、請求項12に記載のデコーダ。
前記統計的関係および情報推定器(115)が、前記統計的関係および情報(115')を、処理中の前記ビン(123)と前記コンテキスト(114')の前記少なくとも1つの追加のビン(118'，124)との間のあらかじめ定義された推定値または期待される統計的関係として提供するように構成される、請求項1から13のいずれか一項に記載のデコーダ。
前記サンプル値が知覚領域にある、請求項1から14のいずれか一項に記載のデコーダ。
前記統計的関係および情報推定器(115)が、処理中の前記ビン(123)の前記値または前記コンテキスト(114')の前記少なくとも1つの追加のビン(118'，124)に関係なく、前記統計的関係および情報(115')を提供するように構成される、請求項1から15のいずれか一項に記載のデコーダ。
前記統計的関係および情報推定器(115)が、前記統計的関係および情報(115')を、処理中の前記ビン(123)と前記コンテキスト(114')の前記少なくとも1つの追加のビン(118'，124)との間の分散および共分散値、または相関および自己相関値の関係を確立する行列の形態で提供するように構成される、請求項1から16のいずれか一項に記載のデコーダ。
前記統計的関係および情報推定器(115)が、前記統計的関係および情報(115')を、処理中の前記ビン(123)と前記コンテキスト(114')の前記少なくとも1つの追加のビン(118'，124)との間の分散および共分散値、または相関および自己相関値の関係を確立する正規化された行列の形態で提供するように構成される、請求項1から17のいずれか一項に記載のデコーダ。
前記値推定器(116)が、処理中の前記ビン(123)および前記コンテキスト(114')の前記少なくとも1つの追加のビン(118'，124)のエネルギーおよび利得の変動を考慮に入れるために、エネルギー関連または利得値(131')によって前記行列の要素をスケーリング(132)するように構成される、請求項17または18に記載のデコーダ。
前記値推定器が、関係

に基づいて、処理中の前記ビン(123)の前記値の前記推定値(116')を取得するように構成され、上式で、

がそれぞれ共分散行列とノイズ行列であり、

がc+1次元のノイズ観測ベクトルであり、cがコンテキストの長さである、請求項1から19のいずれか一項に記載のデコーダ。
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)との間の前記統計的関係(115')および処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)とに関する情報が、正規化された共分散行列

を含み、
前記ノイズに関する統計的関係および情報(119')が、ノイズ行列

を含み、
ノイズ観測ベクトル

が、c+1次元で定義され、cがコンテキストの長さであり、前記ノイズ観測ベクトルが

であり、処理中の前記ビン(123)(C₀)に関連付けられるノイズ入力

を含み、

が前記少なくとも1つの追加のビン(C₁～C₁₀)に関連付けられるノイズ入力であり、
前記値推定器(116)が、関係

に基づいて、処理中の前記ビン(123)の前記値の前記推定値(116')を取得するように構成され、γが利得である、請求項1から20のいずれか一項に記載のデコーダ。
ビットストリーム(111)において定義された周波数領域入力信号を復号するためのデコーダ(110)であって、前記周波数領域入力信号がノイズにさらされ、前記デコーダ(110)が、
前記ビットストリーム(111)から、前記周波数領域入力信号のバージョン(113'，120)をフレーム(121)のシーケンスとして提供するビットストリームリーダ(113)であって、各フレーム(121)が複数のビン(123～126)に細分され、各ビンがサンプル値を有する、ビットストリームリーダ(113)と、
処理中の1つのビン(123)のコンテキスト(114')を定義するように構成されたコンテキスト定義器(114)であって、前記コンテキスト(114')が、処理中の前記ビン(123)とあらかじめ定められた位置関係にある少なくとも1つの追加のビン(118'，124)を含む、コンテキスト定義器(114)と、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)との間の統計的関係(115')、および
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)とに関する情報
を値推定器(116)に提供するように構成された統計的関係および情報推定器(115)であって、前記統計的関係および情報が、処理中の前記ビン(123)と前記コンテキスト(114')の前記少なくとも1つの追加のビン(118'，124)との間の分散関連および共分散関連の関係に基づく分散関連および/または標準偏差値関連値を含み、前記統計的関係および情報推定器(115)が、ノイズに関する統計的関係および情報(119')を提供するように構成されたノイズ関係および情報推定器(119)を含み、前記ノイズに関する統計的関係および情報(119')が、ビンごとに、天井値と床値との間にあるという条件付きの前記信号の期待値に基づいて前記信号を推定するための前記天井値および前記床値を含む、統計的関係および情報推定器(115)と、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)との間の推定された前記統計的関係(115')、および処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)とに関する推定された前記情報、ならびに前記ノイズに関する統計的関係および情報(119')に基づいて、処理中の前記ビン(123)の値の推定値(116')を取得するように構成された前記値推定器(116)と、
前記推定値(116')を時間領域信号(112)に変換するトランスフォーマ(117)と
を備える、デコーダ。
前記統計的関係および情報推定器(115)が、前記信号の平均値を前記値推定器(116)に提供するように構成される、請求項22に記載のデコーダ。
前記統計的関係および情報推定器(115)が、処理中の前記ビン(123)と前記コンテキスト(114')の少なくとも1つの追加のビン(118'，124)との間の分散関連および共分散関連の関係に基づいて、クリーン信号の平均値を提供するように構成される、請求項22または23に記載のデコーダ。
前記統計的関係および情報推定器(115)が、処理中の前記ビン(123)の期待値に基づいて、クリーン信号の平均値を提供するように構成される、請求項22から24のいずれか一項に記載のデコーダ。
前記統計的関係および情報推定器(115)が、推定されたコンテキストに基づいて前記信号の平均値を更新するように構成される、請求項25に記載のデコーダ。
前記周波数領域入力信号の前記バージョン(113'，120)が、量子化レベルである量子化された値を有し、前記量子化レベルが、離散的な数の量子化レベルから選択された値である、請求項22から26のいずれか一項に記載のデコーダ。
前記量子化レベルの数または値またはスケールが、前記ビットストリーム(111)においてシグナリングされる、請求項27に記載のデコーダ。
前記値推定器(116)が、l≦X≦uを条件として、

に関して、処理中の前記ビン(123)の前記値の前記推定値(116')を取得するように構成され、上式で、

が処理中の前記ビン(123)の前記推定値であり、lとuがそれぞれ現在の量子化ビンの下限と上限であり、P(a₁|a₂)が所与のa₂におけるa₁の条件付き確率であり、

が推定コンテキストベクトルである、請求項22から28のいずれか一項に記載のデコーダ。
前記値推定器(116)が、期待値

に基づいて、処理中の前記ビン(123)の前記値の前記推定値(116')を取得するように構成され、上式で、Xが、切り捨てガウス確率変数として表された、処理中の前記ビン(123)の特定の値であり、l<X<uであり、ここで、lが床値、uが天井値であり、

であり、μ=E(x)であり、μおよびσが分布の平均および分散である、請求項22から29のいずれか一項に記載のデコーダ。
前記周波数領域入力信号がオーディオ信号である、請求項22から30のいずれか一項に記載のデコーダ。
前記周波数領域入力信号が音声信号である、請求項22から31のいずれか一項に記載のデコーダ。
前記コンテキスト定義器(114)、前記統計的関係および情報推定器(115)、前記ノイズ関係および情報推定器(119)、ならびに前記値推定器(116)のうちの少なくとも1つが、ポストフィルタリング動作を実行して、前記周波数領域入力信号のクリーンな推定(116')を取得するように構成される、請求項22から32のいずれか一項に記載のデコーダ。
前記コンテキスト定義器(114)が、複数の追加のビン(124)で前記コンテキスト(114')を定義するように構成される、請求項22から33のいずれか一項に記載のデコーダ。
前記コンテキスト定義器(114)が、周波数/時間グラフにおいてビンの単純に接続された近傍として前記コンテキスト(114')を定義するように構成される、請求項22から34のいずれか一項に記載のデコーダ。
前記ビットストリームリーダ(113)が、前記ビットストリーム(111)からのフレーム間情報の復号を回避するように構成される、請求項22から35のいずれか一項に記載のデコーダ。
以前に処理されたビン(124，125)に関する情報を記憶する処理されたビンストレージユニット(118)をさらに備え、
前記コンテキスト定義器(114)が、少なくとも1つの以前に処理されたビンを前記追加のビン(124)のうちの少なくとも1つとして使用して前記コンテキスト(114')を定義するように構成される、請求項22から36のいずれか一項に記載のデコーダ。
前記コンテキスト定義器(114)が、少なくとも1つの未処理のビン(126)を前記追加のビンのうちの少なくとも1つとして使用して前記コンテキスト(114')を定義するように構成される、請求項22から37のいずれか一項に記載のデコーダ。
ビットストリーム(111)において定義された周波数領域入力信号を復号するための方法であって、前記周波数領域入力信号がノイズにさらされ、前記方法が、
ビットストリーム(111)から、周波数領域入力信号のバージョン(113'，120)をフレーム(121)のシーケンスとして提供するステップであって、各フレーム(121)が複数のビン(123～126)に細分され、各ビンがサンプル値を有する、ステップと、
前記周波数領域入力信号の処理中の1つのビン(123)のコンテキスト(114')を定義するステップであって、前記コンテキスト(114')が、周波数/時間空間において、処理中の前記ビン(123)とあらかじめ定められた位置関係にある少なくとも1つの追加のビン(118'，124)を含む、ステップと、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)との間の統計的関係(115')、処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)とに関する情報、ならびにノイズに関する統計的関係および情報(119')に基づいて、処理中の前記ビン(123)の値(116')を推定するステップであって、前記統計的関係(115')が、共分散または相関の形態で提供され、前記情報が、分散または自己相関の形態で提供され、前記ノイズに関する統計的関係および情報(119')が、処理中の前記ビン(123)および前記少なくとも1つの追加のビン(118'，124)のノイズ信号間の関係を推定するノイズ行列(Λ_N)を含む、ステップと、
推定値(116')を時間領域信号(112)に変換するステップと
を有する、方法。
ビットストリーム(111)において定義された周波数領域入力信号を復号するための方法であって、前記周波数領域入力信号がノイズにさらされ、前記方法が、
ビットストリーム(111)から、周波数領域入力信号のバージョン(113'，120)をフレーム(121)のシーケンスとして提供するステップであって、各フレーム(121)が複数のビン(123～126)に細分され、各ビンがサンプル値を有する、ステップと、
前記周波数領域入力信号の処理中の1つのビン(123)のコンテキスト(114')を定義するステップであって、前記コンテキスト(114')が、周波数/時間空間において、処理中の前記ビン(123)とあらかじめ定められた位置関係にある少なくとも1つの追加のビン(118'，124)を含む、ステップと、
処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)との間の統計的関係(115')、処理中の前記ビン(123)と前記少なくとも1つの追加のビン(118'，124)とに関する情報、ならびにノイズに関する統計的関係および情報(119')に基づいて、処理中の前記ビン(123)の値(116')を推定するステップであって、前記統計的関係および情報が、処理中の前記ビン(123)と前記コンテキスト(114')の前記少なくとも1つの追加のビン(118'，124)との間の分散関連および共分散関連の関係に基づいて提供される分散関連および/または標準偏差値関連値を含み、前記ノイズに関する統計的関係および情報(119')が、ビンごとに、天井値と床値との間にあるという条件付きの前記信号の期待値に基づいて前記信号を推定するための前記天井値および前記床値を含む、ステップと、
推定値(116')を時間領域信号(112)に変換するステップと
を有する、方法。
前記ノイズが量子化ノイズである、請求項39または40に記載の方法。
前記ノイズが、量子化ノイズではないノイズである、請求項39または40に記載の方法。
プロセッサによって実行されたときに、前記プロセッサに、請求項39から42のいずれか一項に記載の方法を実行させる命令を記憶した非一時的ストレージユニット。