JP6584431B2

JP6584431B2 - 音声情報を用いる改善されたフレーム消失補正

Info

Publication number: JP6584431B2
Application number: JP2016565232A
Authority: JP
Inventors: ジュリアン・フォール; ステファーヌ・ラゴ
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2014-04-30
Filing date: 2015-04-24
Publication date: 2019-10-02
Anticipated expiration: 2035-04-24
Also published as: FR3020732A1; RU2016146916A; KR20170003596A; MX2016014237A; ES2743197T3; WO2015166175A1; US20170040021A1; CN106463140A; RU2682851C2; MX368973B; RU2016146916A3; JP2017515155A; BR112016024358B1; KR20220045260A; EP3138095A1; US10431226B2; CN106463140B; BR112016024358A2; ZA201606984B; KR20230129581A

Description

本発明は、遠隔通信における符号化/復号の分野に関し、より詳しくは、復号におけるフレーム消失補正の分野に関する。

「フレーム」は、少なくとも1つのサンプルから構成されるオーディオセグメントである(本発明は、G.711によるコーディングにおける1つまたは複数のサンプルの消失、ならびに規格G.723、G729、その他によるコーディングにおけるサンプルの1つまたは複数のパケットの消失に当てはまる)。

オーディオフレームの消失は、符号器および復号器を使用するリアルタイム通信が、遠隔通信ネットワークの条件(無線周波数問題、アクセスネットワークの混雑、その他)によって乱されるときに起こる。この場合、復号器は、フレーム消失補正機構を使用して、欠落している信号を、復号器において利用できる情報を使用して再構成される信号(例えば1つまたは複数の過去のフレームについてすでに復号されたオーディオ信号)に置き換えることを試みる。この技法は、ネットワーク性能が劣化するにもかかわらず、サービスの品質を維持することができる。

フレーム消失補正技法はしばしば、使用されるコーディングの種類に大きく依存する。

CELPコーディングの場合は、平均包絡線に向かって収束するようにスペクトル包絡線を変更するまたはランダム固定コードブックを使用するなどの調整を用いて、前のフレーム内で復号されたあるパラメータ(スペクトル包絡線、ピッチ、コードブックからの利得)を繰り返すことが一般的である。

変換コーディングの場合は、フレーム消失を補正するために最も広く使用される技法は、もし1つのフレームが消失したならば、受け取った最後のフレームを繰り返し、2つ以上のフレームが失われると、直ちに、繰り返されるフレームをゼロに設定することから成る。この技法は、多くのコーディング規格(G.719、G.722.1、G.722.1C)に見いだされる。また、G.711コーディング規格の場合を挙げることもでき、その場合、G.711の付属書Iに述べられるフレーム消失補正の例は、すでに復号された信号内の基本周期(「ピッチ周期」と呼ばれる)を識別し、それを繰り返し、すでに復号された信号および繰り返された信号を重ね合わせて、加算する(「重なり加算」)。そのような重なり加算は、オーディオアーチファクトを「消去する」が、しかし実施されるためには、復号器内で追加の遅延(重なりの継続時間に対応する)を必要とする。

その上、コーディング規格G.722.1の場合は、50%の重なり加算および正弦波窓を用いた変調重複変換(またはMLT)が、最後の消失フレームと、単一の消失フレームの場合にフレームの単純繰り返しに関係するアーチファクトを消去するのに十分に遅い繰り返しフレームとの間の移行を確実にする。G.711規格(付属書I)に述べられるフレーム消失補正と異なり、この実施形態は、再構成された信号を用いて重なり加算を実施するために既存の遅延およびMLT変換の時間的エイリアシングを使用するので、追加の遅延を必要としない。

この技法は、安価であるが、しかしその主要な欠点は、フレーム消失の前に復号された信号と繰り返し信号との間に整合性がないことである。これは、MLT変換のために使用される窓が、文書FR1350845においてその文書の図1Aおよび図1Bを参照して述べられるような「短い遅延」であるときの場合のように、もし2つのフレーム間の重なりの継続時間が少ないならば、かなりのオーディオアーチファクトを生じさせることもあり得る位相不連続をもたらす。そのような場合には、規格G.711(付属書I)によるコーダーの場合のようなピッチ探索およびMLT変換の窓を使用する重なり加算を組み合わせる解決法でも、オーディオアーチファクトを取り除くのには十分でない。

文書FR1350845は、変換されたドメインでの位相連続性を保つためにこれらの方法の両方の利点を組み合わせるハイブリッド法を提案する。本発明は、この枠組み内で定義される。FR1350845において提案される解決法の詳細な説明は、図1を参照して以下で述べられる。

この解決法は、特に有望であるが、符号化信号が、例えばスピーチ信号の有声化セグメント内に1つの基本周期(「単ピッチ」)だけを有するとき、フレーム消失補正後のオーディオ品質は、悪化し、CELP(「符号励振線形予測」)などの種類のスピーチモデルによるフレーム消失補正を用いる場合ほどには良好でないこともあるので、この解決法は、改善を必要とする。

本発明は、その状況を改善する。

このために、本発明は、連続するフレームに配分された一連のサンプルを含むデジタルオーディオ信号を処理するための方法を提案し、その方法は、復号中に少なくとも1つの消失信号フレームを置き換えるために前記信号を復号するときに実施される。

本方法は、
a) 復号するときに利用できる有効信号セグメント内で、前記有効信号に基づいて決定される信号内の少なくとも1つの周期を探索するステップと、
b) 前記周期内で信号のスペクトル成分を決定するために、前記周期内で信号を分析するステップと、
c) 合成信号を、
- 前記決定されたスペクトル成分の中から選択される成分の付加、および
- 成分の付加に追加されるノイズ
から構成することによって、消失フレームのための少なくとも1つの置き換えるものを合成するステップとを含む。

特に、成分の付加に追加されるノイズの量は、復号するときに得られる有効信号の音声情報に基づいて重み付けされる。

有利には、復号するときに使用され、符号器の少なくとも1つのビットレートで伝送される音声情報は、もしこの信号が有声化されるならば、過去の信号の正弦波成分により多くの重みを与え、またはもしそうでないなら、ノイズにより多くの重みを与え、それは、はるかにより満足のいく可聴結果をもたらす。しかしながら、非有声化信号の場合または音楽信号の場合は、消失フレームを置き換える信号を合成するためにそれほど多くの成分を保持することは、不要である。この場合は、より多くの重みが、信号の合成のために注入されるノイズに与えられてもよい。これは有利には、特に非有声化信号の場合に、合成の品質を低下させることなく処理の複雑さを低減する。

ノイズ信号が成分に追加される実施形態では、したがってこのノイズ信号は、有効信号における有声化の場合はより小さい利得によって重み付けされる。例えば、ノイズ信号は、受け取られた信号と選択された成分の付加との間の残余によって、前に受け取られたフレームから得られてもよい。

追加のまたは代替実施形態では、付加のために選択される成分の数は、有効信号における有声化の場合はより大きい。それ故に、もし信号が有声化されるならば、上記のように、過去の信号のスペクトルは、より多く考慮される。

有利には、もし信号が有声化されるならば、ノイズ信号に適用すべき利得を最小化しながら、より多くの成分が選択される相補的な形の実施形態が選択されてもよい。それ故に、1未満の利得をノイズ信号に適用することによって減衰されるエネルギーの総量は、より多くの成分の選択によって部分的に相殺される。逆に、ノイズ信号に適用すべき利得は、減らされず、もし信号が有声化されないか、または弱く有声化されるならば、より少ない成分が、選択される。

加えて、復号における品質/複雑さの間の妥協をさらに改善することが可能であり、ステップa)では、上記の周期は、有効信号における有声化の場合は、より大きい長さの有効信号セグメント内で探索されてもよい。以下の詳細な説明において提示される実施形態では、探索は、もし信号が有声化されるならば、有効信号内で、典型的には少なくとも1つのピッチ周期に対応する繰り返し周期を相互に関連付けることによって行われ、この場合、特に男性の音声については、ピッチ探索は、例えば30ミリ秒よりも長く実行されてもよい。

オプションの実施形態では、音声情報は、復号において受け取られかつ連続するフレームに配分された一連のサンプルを含む前記信号に対応する符号化ストリーム(「ビットストリーム」)内に供給される。復号におけるフレーム消失の場合は、消失フレームに先行する有効信号フレームに含有される音声情報が、次いで使用される。

音声情報はそれ故に、ビットストリームを生成し、音声情報を決定する符号器に由来し、1つの特定の実施形態では、音声情報は、ビットストリーム内の単一ビットに符号化される。しかしながら、例示的実施形態として、符号器におけるこの音声データの生成は、符号器と復号器との間の通信ネットワーク上に十分な帯域幅があるかどうかに依存することもある。例えば、もし帯域幅がしきい値を下回るならば、音声データは、帯域幅を節約するために符号器によって伝送されない。この場合、純粋に例として、復号器において取得される最後の音声情報がフレーム合成のために使用されてもよく、または別法として、フレームの合成のために有声化されない場合を適用すると決定されてもよい。

実施では、音声情報は、ビットストリーム内の1ビットに符号化され、ノイズ信号に適用される利得の値はまたバイナリであってもよく、もし信号が有声化されるならば、利得値は、0.25に設定され、さもなければ1である。

別法として、音声情報は、スペクトルの調和性または平坦度のための値(例えば信号のスペクトル成分の振幅を背景ノイズと比較することによって得られる)を決定する符号器に由来し、符号器は次いで、この値をビットストリーム内にバイナリの形で(1ビットよりも多くを使用して)送る。

そのような代替案では、利得値は、前記平坦度値の関数として決定されてもよい(例えばその値の関数として連続的に増加する)。

一般に、前記平坦度値は、
- もし平坦度値がしきい値を下回るならば、信号は、有声化され、
- さもなければ信号は、有声化されない
ことを決定するために、しきい値と比較されてもよい(それは、バイナリ方式で有声化を特徴付ける)。

それ故に、単一ビットの実施ならびにその変形では、ピッチ探索が生じる信号セグメントの成分を選択しかつ/または継続時間を選択するための基準は、バイナリであってもよい。

例えば、成分の選択については、
- もし信号が有声化されるならば、隣接する第1のスペクトル成分の振幅よりも大きい振幅を有するスペクトル成分が、隣接する第1のスペクトル成分と同様に選択され、
- さもなければ、隣接する第1のスペクトル成分の振幅よりも大きい振幅を有するスペクトル成分だけが、選択される。

ピッチ探索セグメントの継続時間を選択することについては、例えば、
- もし信号が有声化されるならば、周期は、30ミリ秒を超える(例えば33ミリ秒)継続時間の有効信号セグメント内で探索され、
- もしそうでないならば、周期は、30ミリ秒未満(例えば28ミリ秒)の継続時間の有効信号セグメント内で探索される。

それ故に、本発明は、文書FR1350845において提示される処理における様々なステップ(ピッチ探索、成分の選択、ノイズ注入)を変更することによって、その文書の意味における従来技術を改善することを目標とするが、しかしなお特に原信号の特性に基づいている。

原信号のこれらの特性は、スピーチおよび/または音楽分類に従って、もし特にスピーチクラスに適しているならば、復号器へのデータストリーム(または「ビットストリーム」)内の特別な情報として符号化されてもよい。

復号におけるビットストリーム内のこの情報は、品質と複雑さとの間の妥協を最適化することを可能にし、まとめると、
- 消失フレームを置き換える合成信号を構成するために、選択されたスペクトル成分の合計に注入すべきノイズの利得を変えること、
- 合成のために選択される成分の数を変えること、
- ピッチ探索セグメントの継続時間を変えることを可能にする。

そのような実施形態は、音声情報の決定のための符号器、およびより詳しくはフレーム消失の場合については復号器において実施されてもよい。それは、3GPPグループ(SA4)によって指定される強化音声サービス(または「EVS」)のために符号化/復号を実行するためのソフトウェアとして実施されてもよい。

この能力(capacity)において、本発明はまた、プロセッサによって実行された場合に上記の方法を実施するための命令を含むコンピュータプログラムも提供する。そのようなプログラムの例示的流れ図は、復号のための図4および符号化のための図3を参照して、以下の詳細な説明において提示される。

本発明はまた、連続するフレームに配分された一連のサンプルを含むデジタルオーディオ信号を復号するためのデバイスにも関する。本デバイスは、
a) 復号するときに利用できる有効信号セグメント内で、前記有効信号に基づいて決定される信号内の少なくとも1つの周期を探索するステップと、
b) 前記周期内で信号のスペクトル成分を決定するために、前記周期内で信号を分析するステップと、
c) 合成信号を、
- 前記決定されたスペクトル成分の中から選択される成分の付加、および
- 成分の付加に追加されるノイズ
から構成することによって、消失フレームを置き換えるための少なくとも1つのフレームを合成するステップであって、成分の付加に追加されるノイズの量は、復号するときに得られる有効信号の音声情報に基づいて重み付けされる、ステップとによって、少なくとも1つの消失信号フレームを置き換えるための手段(プロセッサおよびメモリ、またはASICコンポーネントもしくは他の回路など)を備える。

同様に、本発明はまた、デジタルオーディオ信号を符号化するためのデバイスにも関し、本デバイスは、符号化デバイスによって送られるビットストリーム内に音声情報を提供し、有声化される可能性が高いスピーチ信号を音楽信号と区別し、スピーチ信号の場合は、
- 信号を一般的に有声化されると考えるために、信号が有声化されるもしくは一般的であると識別する、または
- 信号を一般的に有声化されないと考えるために、信号が不活性である、過渡的である、または有声化されないと識別するための手段(メモリおよびプロセッサ、またはASICコンポーネントもしくは他の回路など)を備える。

本発明の他の特徴および利点は、下記の詳細な説明および添付の図面を調べることから明らかとなる。

文書FR1350845の意味におけるフレーム消失を補正するための方法の主要ステップを要約する図である。本発明による方法の主要ステップを概略的に示す図である。本発明の意味における一実施形態での、符号化において実施されるステップの例を示す図である。本発明の意味における一実施形態での、復号において実施されるステップの例を示す図である。有効信号セグメントNc内でのピッチ探索のための、復号において実施されるステップの例を示す図である。本発明の意味における符号器および復号器デバイスの例を概略的に示す図である。

次いで、文書FR1350845に述べられる主要ステップを例示する図1を参照する。以下でb(n)と表される、一連のN個のオーディオサンプルは、復号器のバッファメモリに保存される。これらのサンプルは、すでに復号されたサンプルに対応し、したがって復号器においてフレーム消失を補正するためにアクセス可能である。もし合成すべき第1のサンプルが、サンプルNであるならば、オーディオバッファは、前のサンプル0からN-1に対応する。変換コーディングの場合は、オーディオバッファは、前のフレーム内のサンプルに対応し、そのサンプルは、この種の符号化/復号は信号を再構成する際に遅延を提供しないので、変えることができず、したがってフレーム消失をカバーするのに十分な継続時間のクロスフェードの実施が提供されない。

次は、周波数フィルタリングのステップS2であり、このステップでは、オーディオバッファb(n)は、Fcと表される分離周波数(例えばFc=4kHz)を用いて2つの帯域、低帯域LBおよび高帯域HBに分けられる。このフィルタリングは、好ましくは無遅延フィルタリングである。オーディオバッファのサイズは今では、fsからFcへの間引きに従ってN'=N*Fc/fに低減される。本発明の変形では、このフィルタリングステップは、オプションであってもよく、次のステップが、全帯域について実行される。

次のステップS3は、周波数Fcで再サンプリングされたバッファb(n)内の基本周期(または「ピッチ」)に対応するループ点およびセグメントp(n)について低帯域を探索することから成る。この実施形態は、再構成すべき消失フレーム内でのピッチ連続性を考慮することを可能にする。

ステップS4は、セグメントp(n)を正弦波成分の合計に分解する。例えば、信号の長さに対応する継続時間にわたる信号p(n)の離散フーリエ変換(DFT)が、計算されてもよい。それにより、信号の正弦波成分(または「ピーク」)の各々の周波数、位相、および振幅が得られる。DFT以外の変換も可能である。例えば、DCT、MDCT、またはMCLTなどの変換が、適用されてもよい。

ステップS5は、最も重要な成分だけを保有するためにK個の正弦波成分を選択するステップである。1つの特定の実施形態では、成分の選択は最初に、A(n)>A(n-1)かつA(n)>A(n+1)である振幅A(n)を選択することに対応し、ただし、

であり、これは、振幅がスペクトルピークに対応することを確実にする。

これを行うために、セグメントp(n)(ピッチ)のサンプルは、P'個のサンプルから構成されるセグメントp'(n)を得るように補間され、ただし、

であり、ceil(x)は、x以上の整数である。したがって、フーリエ変換FFTによる分析は、実際のピッチ周期を変更することなく(補間に起因して)、2の累乗である長さにわたってより効率的に行われる。p'(n)のFFT変換がΠ(k)=FFT(p'(n))として計算され、FFT変換から、正弦波成分の位相φ(k)および振幅A(k)が直接得られ、0から1の間の正規化周波数は、ここでは、

によって与えられる。

次に、この第1の選択の振幅の中から、成分が、振幅の降順に選択され、その結果選択されたピークの累積的振幅は、典型的には現在のフレームにおけるスペクトルの半分にわたる累積的振幅の少なくともx%(例えばx=70%)である。

加えて、合成の複雑さを低減するために、成分の数を(例えば20に)制限することも可能である。

正弦波合成ステップS6は、消失フレームのサイズ(T)に少なくとも等しい長さのセグメントs(n)を生成することから成る。合成信号s(n)は、選択された正弦波成分の合計、

として計算され、ただしkは、ステップS5において選択されたK個のピークの指数である。

ステップS7は、低帯域におけるある周波数ピークの脱落に起因するエネルギー損失を補償するための「ノイズ注入」(選択されない線に対応するスペクトル領域を埋めること)から成る。1つの特定の実施形態は、ピッチに対応するセグメントp(n)と合成信号s(n)との間の残余r(n)を計算することから成り、ただしn∈[0;P-1]であり、その結果、
r(n)=p(n)-s(n) n∈[0; P-1]
である。

サイズPのこの残余は、変換され、例えば特許FR1353551に述べられるように、窓処理され(windowed)、変化するサイズの窓間の重なりを用いて繰り返される。

信号s(n)は次いで、信号r'(n)と組み合わされる。

高帯域に適用されるステップS8は、単に過去の信号を繰り返すことから成ってもよい。

ステップS9で、信号は、ステップS8においてフィルタ処理した高帯域(ステップS11において単に繰り返される)と混合された後、その元の周波数で低帯域を再サンプリングすることによって合成される。

ステップS10は、フレーム消失前の信号と合成信号との間の連続性を確実にするための重なり加算(overlap-add)である。

次いで、本発明の意味における一実施形態において、図1の方法に追加される要素を述べる。

図2に提示される一般的手法によると、コーダーの少なくとも1ビットレートで伝送される、フレーム消失前の信号の音声情報が、1つまたは複数の消失フレームを置き換える合成信号に追加すべきノイズの割合を定量的に決定するために、復号(ステップDI-1)において使用される。それ故に、復号器は、有声化に基づいて、合成信号に混合されるノイズの全体的な量を減少させるために音声情報を使用する(ステップDI-3において残余から生じるノイズ信号r'(k)よりも低い利得G(res)を割り当てることによって、かつ/またはステップDI-4において合成信号を構成する際に使用するために振幅A(k)のより多い成分を選択することによって)。

加えて、復号器は、音声情報に基づいて、処理の品質/複雑さの間の妥協を最適化するように、特にピッチ探索について、復号器のパラメータを調整することができる。例えば、ピッチ探索について、もし信号が有声化されるならば、ピッチ探索窓Ncは、図5を参照して以下で見ることになるように、より大きくてもよい(ステップDI-5において)。

有声化を決定するために、情報は、符号器によって、2つの方法で、符号器の少なくとも1つのビットレートで、
- 符号器において識別される有声化の程度(後続処理のためにフレーム消失の場合にステップDI-1において符号器から受け取られ、ステップDI-2において読み出される)に応じて値1もしくは0のビットの形で提供されるか、または
- 背景ノイズと比較して、符号化において信号を構成するピークの平均振幅の値として提供されてもよい。

このスペクトル「平坦度」データPlは、図2のオプションのステップDI-10で復号器において複数ビットで受け取られ、次いでステップDI-11においてしきい値と比較されてもよく、それは、有声化がしきい値を上回るかまたは下回るかをステップDI-1およびDI-2において決定し、特にピークの選択およびピッチ探索セグメントの長さの選択について適切な処理を推定するのと同じである。

この情報(単一ビットの形であろうとまたはマルチビット値であろうと)は、ここで述べられる例では、符号器から受け取られる(コーデックの少なくとも1つのビットレートで)。

実際、図3を参照すると、符号器では、フレームの形で提示される入力信号C1が、ステップC2において分析される。この分析ステップは、現在のフレームのオーディオ信号が、例えば有声化スピーチ信号を有する場合のように、復号器におけるフレーム消失の場合に特別な処理を必要とする特性を有するかどうかを決定することから成る。

1つの特定の実施形態では、符号器においてすでに決定された分類(スピーチ/音楽またはその他)は有利には、処理の全体的複雑さを増加させるのを避けるために使用される。実際、スピーチであるか音楽であるかでコーディングモードを切り替えることができる符号器の場合は、符号器における分類で、用いられる符号化技法を信号の性質(スピーチまたは音楽)に適合させることがすでに可能になる。同様に、スピーチの場合は、G.718規格の符号器などの予測符号器はまた、符号器パラメータを信号の種類(有声化/非有声化、過渡的、一般的、不活性である音声)に適合させるためにも分類を使用する。

1つの特定の第1の実施形態では、1ビットだけが、「フレーム消失特徴付け」のために取っておかれる。それは、信号がスピーチ信号(有声化または一般的)であるかどうかを示すためにステップC3において符号化ストリーム(または「ビットストリーム」)に追加される。このビットは、例えば、
・スピーチ/音楽分類子の決定
・およびまたスピーチコーディングモード分類子の決定にも基づいて、次の表、

に従って1または0に設定される。ここで、用語「一般的」は、一般的なスピーチ信号(それは、破裂音の発音に関係する過渡信号でなく、不活性でなく、子音のない母音の発音などのように必ずしも純粋に有声化されるとは限らない)を指す。

第2の代替実施形態では、復号器に伝送されるビットストリーム内の情報は、バイナリではなく、スペクトル内のピークと谷との間の比の定量化に対応する。この比は、Plと表される、スペクトルの「平坦度」の測定値として表されてもよい。

この数式では、x(k)は、周波数ドメイン(FFT後の)における現在のフレームの分析から生じるサイズNの振幅のスペクトルである。

代替案では、符号器における信号を正弦波成分およびノイズに分解する正弦波分析が、提供され、平坦度測定値は、正弦波成分およびフレームの全エネルギーの比によって得られる。

ステップC3(音声情報の1ビットまたは平坦度測定値の複数ビットを含む)の後、符号器のオーディオバッファは、その後の復号器へのどの伝送よりも前にステップC4において従来法で符号化される。

次いで図4を参照して、本発明の1つの例示的実施形態での、復号器において実施されるステップを述べる。

ステップD1においてフレーム消失がない場合(図4の検査D1から出るNOKの矢印)は、ステップD2において、復号器は、「フレーム消失特徴付け」情報を含む、ビットストリームに含有される情報を読み出す(コーデックの少なくとも1つのビットレートで)。この情報は、メモリに保存され、そのため、後に続くフレームが欠落しているときに、再使用することができる。復号器は次いで、合成された出力フレームFR SYNTHを得るために、復号の従来ステップD3、その他を続ける。

フレーム消失が起こった場合(検査D1から出るOKの矢印)は、図1のステップS2、S3、S4、S5、S6、およびS11にそれぞれ対応するステップD4、D5、D6、D7、D8、およびD12が、適用される。しかしながら、ステップS3およびS5、すなわちそれぞれステップD5(ピッチ決定のためのループ点を探索すること)およびD7(正弦波成分を選択すること)に関するいくつかの変更が加えられてもよい。さらに、図1のステップS7におけるノイズ注入は、本発明の意味における復号器の図4での2つのステップD9およびD10による利得決定を用いて実行される。

「フレーム消失特徴付け」情報が知られている場合(前のフレームが受け取られたとき)は、本発明は、次の通りに、ステップD5、D7、およびD9〜D10の処理を変更することから成る。

第1の実施形態では、「フレーム損失特徴付け」情報は、バイナリであり、
- 音楽または過渡信号などの種類の有声化されない信号については0に等しく、
- さもなければ1に等しい(上記の表)値である。

ステップD5は、周波数Fcで再サンプリングされたオーディオバッファ内のピッチに対応するループ点およびセグメントp(n)を探索することから成る。文書FR1350845に述べられるこの技法は、図5に例示され、同図では、
- 復号器内のオーディオバッファは、サンプルサイズN'であり、
- Ns個のサンプルの目標バッファBCのサイズは、決定され、
- 相関探索は、Nc個のサンプルにわたって行われ、
- 相関曲線「Correl」は、mcにおいて最大値を有し、
- ループ点は、Loop ptと表され、相関最大のNs個のサンプルに位置し、
- 次いでピッチは、N'-1におけるp(n)残存サンプルにわたって決定される。

特に、本発明は、N'-NsとN'-1との間の(例えば6msの継続時間の)、サイズNsの目標バッファセグメントと、サンプル0とNc(ただしNc>N'-Ns)との間で始まるサイズNsのスライディングセグメント(sliding segment)との間の正規化相関corr(n)を計算する。

音楽信号については、信号の性質に起因して、値Ncは、非常に大きい必要はない(例えばNc=28ms)。この制限は、ピッチ探索中の計算の複雑さを節約する。

しかしながら、前に受け取った最後の有効フレームからの音声情報は、再構成すべき信号が有声化スピーチ信号(単ピッチ)であるかどうかを決定することを可能にする。したがって、そのような場合は、そのような情報を用いて、ピッチ探索を最適化するために(かつより高い相関値を潜在的に見いだすために)、セグメントのサイズNcを増大させる(例えばNc=33ms)ことが可能である。

図4におけるステップD7では、正弦波成分は、最も重要な成分だけが保有されるように選択される。また文書FR1350845にも提示される、1つの特定の実施形態では、成分の第1の選択は、

として、A(n)>A(n-1)かつA(n)>A(n+1)である振幅A(n)を選択することと同等である。

本発明の場合は、有利には、再構成するべき信号が、スピーチ信号(有声化または一般的)であるかどうか、したがって顕著なピークおよび低レベルのノイズを有するかどうかは、知られている。これらの条件下では、上で示されるようにA(n)>A(n-1)かつA(n)>A(n+1)であるピークA(n)選択するだけでなく、選択されたピークが、スペクトルの全エネルギーのより大きい部分を表すように、その選択をA(n-1)かつA(n+1)まで拡張することもまた好ましい。この変更は、エネルギー揺らぎに関係する可聴アーチファクトを引き起こさないように十分な全体的エネルギーレベルを保有しながら、ステップD8における正弦波合成によって合成される信号のレベルと比較してノイズのレベル(特に以下で提示されるステップD9およびD10において注入されるノイズのレベル)を下げることを可能にする。

次に、一般的または有声化スピーチ信号における場合のように、信号がノイズなしである場合(少なくとも低周波数において)は、FR1350845の意味内で変換された残余r'(n)に対応するノイズの付加が、実際には品質を低下させることを観察する。

したがって、音声情報は有利には、ステップD10において利得Gを適用することによってノイズを低減するために使用される。ステップD8から生じる信号s(n)は、ステップD9から生じるノイズr'(n)と混合されるが、前のフレームのビットストリームから生じる「フレーム消失特徴付け」情報に依存する利得Gがここで適用され、それは、

である。

この特定の実施形態では、Gは、例として以下に与えられる表、

に従って、前のフレームの信号の有声化または非有声化の性質に応じて1または0.25に等しい定数であってもよい。

「フレーム消失特徴付け」情報がスペクトルの平坦度Plを特徴付ける複数の離散レベルを有する代替実施形態では、利得Gは、Pl値の関数として直接表されてもよい。同じことが、ピッチ探索のためのセグメントNcの境界および/または信号の合成のために考慮すべきピークAnの数にも該当する。

下記などの処理が、例として定義されてもよい。

利得Gはすでに、Pl値の関数として直接定義されており、G(Pl)=2^Plである。

加えて、Pl値は、0値が、平坦なスペクトルに対応し、-5dBが、顕著なピークを有するスペクトルに対応するという条件で、平均値-3dBと比較される。

もしPl値が、平均しきい値-3dB未満である(それ故に有声化信号に特有である、顕著なピークを有するスペクトルに対応する)ならば、ピッチ探索のためのセグメントの継続時間Ncを33msに設定することができ、A(n)>A(n-1)かつA(n)>A(n+1)であるようなピークA(n)、ならびに第1の隣接するピークA(n-1)かつA(n+1)を選択することができる。

さもなければ(もしPl値が、しきい値を上回り、例えば音楽信号などのより顕著でないピーク、より多い背景ノイズに対応するならば)、継続時間Ncは、より短く、例えば25msに選択されてもよく、A(n)>A(n-1)かつA(n)>A(n+1)を満たすピークA(n)だけが、選択される。

復号は次いで、利得が上記のようにして選択される成分を用いて得られるノイズを混合することによって継続して、ステップD13において低周波数の合成信号を得、その合成信号がステップD14において得られる高周波数での合成信号に追加され、それによりステップD15において一般的合成信号を得ることができる。

図6を参照すると、本発明の1つの可能な実施が例示され、この実施では、図4の方法の実施のために、例えば電話機TELなどの遠隔通信デバイスに埋め込まれた復号器DECOD(例えばソフトウェアならびに適切にプログラムされたメモリMEMおよびこのメモリと協調するプロセッサPROCなどのハードウェア、または別法としてASICなどのコンポーネント、もしくは他のもの、ならびに通信インターフェースCOMを備える)は、それが符号器ENCODから受け取る音声情報を使用する。この符号器は、例えば、ソフトウェアならびに音声情報を決定するために適切にプログラムされたメモリMEM'およびこのメモリと協調するプロセッサPROC'などのハードウェア、または別法としてASICなどのコンポーネント、もしくは他のもの、ならびに通信インターフェースCOM'を備える。符号器ENCODは、電話機TEL'などの遠隔通信デバイスに埋め込まれる。

無論、本発明は、例として上で述べられる実施形態に限定されず、他の変形にまで及ぶ。

それ故に、例えば、音声情報は、変形として異なる形を取ることができると理解される。上で述べられる例では、これは、単一ビットのバイナリ値(有声化もしくは非有声化)、または信号スペクトルの平坦度などのパラメータもしくは音声化を特徴付ける(量的にもしくは質的に)ことを可能にする任意の他のパラメータに関係することもあり得るマルチビット値であってもよい。さらに、このパラメータは、例えばピッチ周期を識別するときに測定されてもよい相関の程度に基づいて、復号によって決定されてもよい。

特に低周波数帯域におけるスペクトル成分の選択とともに、先行する有効フレームからの信号の高周波数帯域および低周波数帯域への分離を含む実施形態が、例として上で提示された。この実施は、オプションであるが、しかしながら、処理の複雑さを低減するので有利である。別法として、本発明の意味において音声情報の助けを借りてフレームを置き換える方法は、有効信号の全スペクトルを考慮しながら実行されてもよい。

本発明が、重なり加算を用いた変換コーディングの文脈において実施される実施形態が、上で述べられた。しかしながら、この種の方法は、任意の他の種類のコーディング(特にCELP)に適合されてもよい。

重なり加算を用いた変換コーディングの文脈において(この場合、典型的には、合成信号は、重なりのために少なくとも2つのフレーム継続時間にわたって構成される)、前記ノイズ信号は、残余(有効信号とピークの合計との間の)によって時間的に残余に重み付けをすることによって得られてもよいことに留意すべきである。例えば、それは、重なりを用いた変換による符号化/復号の通常の文脈のように、重なり窓(overlap window)によって重み付けされてもよい。

音声情報の関数として利得を適用することは、今回は有声化に基づいて、別の重み付けを追加すると理解される。

COM 通信インターフェース
COM' 通信インターフェース
DECOD 復号器
ENCOD 符号器
MEM メモリ
MEM' メモリ
PROC プロセッサ
PROC' プロセッサ
TEL 電話機
TEL' 電話機

Claims

連続するフレームに配分された一連のサンプルを含むデジタルオーディオ信号を処理するための方法であって、復号中に少なくとも1つの消失信号フレームを置き換えるために前記信号を復号するときに実施され、
a) 復号するときに利用できる有効信号セグメント(Nc)内で、前記有効信号に基づいて決定される前記信号内の少なくとも1つの周期を探索するステップと、
b) 前記周期内で前記信号のスペクトル成分を決定するために、前記周期内で前記信号を分析するステップと、
c) 合成信号を、
- 前記決定されたスペクトル成分の中から選択される成分の付加、および
- 成分の前記付加に追加されるノイズ
から構成することによって、前記消失フレームのための少なくとも1つの置き換えるものを合成するステップであって、成分の前記付加に追加されるノイズの量は、復号するときに得られる前記有効信号の音声情報に基づいて重み付けされる、ステップとを含む、方法。
成分の前記付加に追加されるノイズ信号は、前記有効信号が有声音である場合はより小さい利得によって重み付けされる、請求項1に記載の方法。
前記ノイズ信号は、前記有効信号と選択された成分の前記付加との間の残余によって得られる、請求項2に記載の方法。
前記付加のために選択される成分の数は、前記有効信号が有声音である場合はより大きい、請求項1から3のいずれか一項に記載の方法。
ステップa)において、前記周期は、前記有効信号が有声音である場合はより大きい長さの有効信号セグメント(Nc)内で探索される、請求項1から4のいずれか一項に記載の方法。
前記音声情報は、復号において受け取られかつ連続するフレームに配分された一連のサンプルを含む前記信号に対応するビットストリーム内に供給され、
復号におけるフレーム消失の場合は、前記消失フレームに先行する有効信号フレームに含有される前記音声情報が、使用される、請求項1から5のいずれか一項に記載の方法。
前記音声情報は、前記ビットストリームを生成し、前記音声情報を決定する符号器に由来し、前記音声情報は、前記ビットストリーム内の単一ビットに符号化される、請求項6に記載の方法。
もし前記信号が有声音であるならば、前記利得値は、0.25であり、さもなければ1である、請求項2と組み合わせる請求項7に記載の方法。
前記音声情報は、前記信号の前記スペクトル成分の振幅を背景ノイズと比較することによって得られるスペクトル平坦度値(Pl)を決定する符号器に由来し、前記符号器は、前記値をバイナリの形で前記ビットストリーム内に送る、請求項6に記載の方法。
前記利得値は、前記平坦度値の関数として決定される、請求項2および7と組み合わせる請求項9に記載の方法。
前記平坦度値は、
- もし前記平坦度値がしきい値を下回るならば、前記信号は、有声音であり、
- さもなければ、前記信号は、無声音である
ことを決定するために、前記しきい値と比較される、請求項9および10のいずれか一項に記載の方法。
- もし前記信号が有声音であるならば、隣接する第1のスペクトル成分の振幅よりも大きい振幅を有する前記スペクトル成分が、前記隣接する第1のスペクトル成分と同様に選択され、
- さもなければ、前記隣接する第1のスペクトル成分の振幅よりも大きい振幅を有する前記スペクトル成分だけが、選択される、請求項4と組み合わせる請求項7および11のいずれか一項に記載の方法。
- もし前記信号が有声音であるならば、前記周期は、30ミリ秒を超える継続時間の有効信号セグメント内で探索され、
- もしそうでないならば、前記周期は、30ミリ秒未満の継続時間の有効信号セグメント内で探索される、請求項5と組み合わせる請求項7および11のいずれか一項に記載の方法。
プロセッサによって実行された場合に請求項1から13のいずれか一項に記載の方法を実施するための命令を含むことを特徴とする、コンピュータプログラム。
連続するフレームに配分された一連のサンプルを含むデジタルオーディオ信号を復号するためのデバイスであって、
a) 復号するときに利用できる有効信号セグメント(Nc)内で、前記有効信号に基づいて決定される前記信号内の少なくとも1つの周期を探索するステップと、
b) 前記周期内で前記信号のスペクトル成分を決定するために、前記周期内で前記信号を分析するステップと、
c) 合成信号を、
- 前記決定されたスペクトル成分の中から選択される成分の付加、および
- 成分の前記付加に追加されるノイズ
から構成することによって、消失フレームを置き換えるための少なくとも1つのフレームを合成するステップであって、成分の前記付加に追加されるノイズの量は、復号するときに得られる前記有効信号の音声情報に基づいて重み付けされる、ステップとによって、少なくとも1つの消失信号フレームを置き換えるための手段(MEM、PROC)を備える、デバイス。