JP2009539132A

JP2009539132A - オーディオ信号の線形予測符号化

Info

Publication number: JP2009539132A
Application number: JP2009512721A
Authority: JP
Inventors: ブリンケル，アルベルテュスセーデン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-05-30
Filing date: 2007-05-15
Publication date: 2009-11-12
Also published as: ATE447227T1; EP2030199B1; CN101460998A; US20090204397A1; DE602007003023D1; WO2007138511A1; EP2030199A1

Abstract

オーディオ信号の線形予測符号化装置は、オーディオ信号の信号セグメントを生成するセグメント化プロセッサ（201）を有する。自己相関プロセッサ（401）は、信号セグメント毎に第１の自己相関系列を生成し、変更プロセッサ（403）は、少なくとも１つの心理音響的特性に応じて第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成する。予測係数プロセッサ（405）は、第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定する。本発明は、心理音響的な配慮を考慮した複雑性の低い線形符号化を可能にし、これにより、所定のデータレートで改善した知覚符号化品質を可能にする。

Description

本発明は、オーディオ信号の線形予測符号化（linear predictive coding）に関する。

デジタル信号表現及び通信がアナログ表現及び通信に取って代わると共に、様々な発信元の信号のデジタル符号化は、最近１０年間でますます重要になってきている。例えば、GSM（Global System for Mobile）通信のような移動電話システムは、デジタル音声符号化に基づく。また、ビデオ及び音楽のようなメディアコンテンツの配信も、ますますデジタルコンテンツ符号化に基づいている。

コンテンツ符号化、特にオーディオ及び音声符号化では、線形予測符号化が低データレートで高品質を提供するため、しばしば使用されているツールである。線形予測符号化は、これまでは個々の信号に主に適用されているが、例えばステレオオーディオ信号のような多チャンネル信号にも適用可能である。

線形予測符号化は、信号の冗長度を低減し、これらを予測パラメータで取り込むことにより、効率的なデータレートを実現する。予測パラメータは符号化信号に含まれており、冗長度は、線形予測合成フィルタによりデコーダで回復される。

線形予測は、非音声符号化アプリケーションを含むオーディオ符号化の前処理ツールとして更に提案されている。最善の線形予測方式は、聞き手の知覚を正確に反映するために心理音響的な知識を反映するべきであることが特に示唆されている。特に、WLP（Warped Linear Prediction）及びPLP（Pure Linear Prediction）技術が提案されている。双方の技術は、心理音響学に従った周波数スケールのワーピング（warping）を含み、これにより、最も重要な周波数帯域でのモデル化機能の集中を可能にしている。特に、WLP及びPLPは、基底膜を通じた帯域の分散に似たような低周波数での集中を可能にする。このことはまた、スペクトルピークの広がりがWLP及びPSPの心理音響的に関係するスケールで効率的に実行可能であることを意味する。

更に、予測係数が音量スペクトル又はマスクされた閾値（又はマスクされた誤差パワー）のような知覚的に刺激されたスペクトルから導かれ得ることも示している。従って、提案のシステムでは、符号化される信号は、心理音響モデルに供給され、心理音響モデルは、関心のある心理音響的な量を反映する特定の信号セグメントのスペクトル（例えば、マスクされた閾値）を生成する。このスペクトルは、線形予測フィルタの予測係数を生成するために使用される。

しかし、この手法は、心理音響的なマスク効果を考慮したオーディオ符号化の線形予測を可能にするが、複数の欠点を有する。特に、この手法は、心理音響モデルが信号セグメント毎に実行されることを必要とし、これは複雑であり計算上高価である。更に、この手法は柔軟性のない傾向にあり、特に、心理音響的に関係する周波数スケールで動作するために、予測フィルタがWarpedフィルタ又はLaguerreフィルタであることを必要とする。

従って、改善した線形予測符号化が有利であり、特に、更なる柔軟性、低減した複雑性、容易な実装、改善した符号化品質及び／又は改善した性能を可能にする手法が有利である。

従って、本発明は、好ましくは１つ以上の前述の欠点を単一で又は何らかの組み合わせで緩和、軽減又は除去することを目的とする。

本発明の態様によれば、オーディオ信号の線形予測符号化装置が提供され、この装置は、オーディオ信号の信号セグメントを生成する手段と、信号セグメント毎に第１の自己相関系列を生成する手段と、少なくとも１つの心理音響的特性に応じて第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成する変更手段と、第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定する決定手段とを有する。

本発明は、聞き手の知覚を反映する改善した線形予測符号化を可能にし、これにより、所与の符号化レートで改善した符号化品質を提供する。本発明は、低減した複雑性、低減した計算リソース要求及び／又は容易な実装を可能にし得る。本発明は、心理音響的な配慮が様々な異なる線形予測符号化手法で使用されることを更に可能にし得る。

特に、本発明は、心理音響的に重み付けられた自己相関系列の計算が、第１の自己相関系列から決定されることを可能にし得る。計算は、低い複雑性であるが、心理音響的特性に効率的な適合を与え得る。

この装置は、線形予測符号化係数を有する符号化データストリームを生成する手段を更に有してもよい。この装置はまた、例えばデータファイルとして符号化データストリームを送信する手段を有してもよい。この装置は、線形予測符号化係数を使用する線形予測フィルタと、誤差信号を生成する手段とを更に有してもよい。この装置はまた、誤差信号を符号化し、これらを符号化データストリームに含める手段を有してもよい。

本発明の任意選択の特徴によれば、変更手段は、第１の自己相関系列のウィンドウ処理（windowing）を実行するように構成される。

このことは、改善した性能、高い品質、低減した複雑性及び／又は容易な実装を可能にし得る。特に、ウィンドウ処理は、心理音響的な知識に従ったスペクトル拡散を可能にし得る。ウィンドウ処理は、第１の自己相関系列を時間領域のウィンドウ系列で乗算することにより実行されてもよい。

本発明の任意選択の特徴によれば、ウィンドウ処理は、Bark帯域に対応する心理音響的な帯域に対応する。

このことは、改善した性能及び／又は高い品質を可能にし得る。

本発明の任意選択の特徴によれば、ウィンドウ処理は、ERB（Equivalent Rectangular Bandwidth）に対応する心理音響的な帯域に対応する。

本発明の任意選択の特徴によれば、変更手段は、最小値の自己相関系列で第２の自己相関系列を制限するように構成される。

このことは、改善した性能、高い品質、低減した複雑性及び／又は容易な実装を可能にし得る。特に、この特徴は、小さい信号量で改善した品質の線形予測符号化を提供する複雑度の低い方法を可能にし得る。

本発明の任意選択の特徴によれば、変更手段は、少なくとも最小値の自己相関系列に対応する第１の項（term）と第１の自己相関系列に応じて決定された第２の項との合計として、第２の自己相関系列を決定するように構成される。

このことは、改善した性能、高い品質、低減した複雑性及び／又は容易な実装を可能にし得る。

本発明の任意選択の特徴によれば、変更手段は、第２の項に対する第１の項の心理音響的な意味に対応する倍率で第１及び第２の項のうち少なくとも１つを調整するように構成される。

このことは、改善した性能、高い品質、低減した複雑性及び／又は容易な実装を可能にし得る。特に、倍率は、異なる心理音響的な効果を重み付けする複雑度の低い方法を可能にし得る。

本発明の任意選択の特徴によれば、最小値の自己相関系列は、静寂時閾値（threshold-in-quiet）曲線に対応する。

このことは、高い品質、低減した複雑性及び／又は容易な実装を可能にし得る。

本発明の任意選択の特徴によれば、線形予測符号化は、Laguerre予測符号化であり、決定手段は、第２の自己相関系列に応じてオーディオ信号とオーディオ信号のLaguerreフィルタリングされたものとの間の共分散系列を決定するように構成される。

このことは、Laguerre線形予測符号化の改善した性能、高い品質、低減した複雑性及び／又は容易な実装を可能にし得る。

本発明の任意選択の特徴によれば、第１の自己相関系列は、ワーピングされた（warped)自己相関系列である。

このことは、改善した性能、高い品質、低減した複雑性及び／又は容易な実装を可能にし得る。線形予測符号化は、Warped線形予測符号化でもよい。

本発明の任意選択の特徴によれば、第１の自己相関系列は、フィルタリング後のワーピングされた自己相関系列である。

このことは、改善した性能、高い品質、低減した複雑性及び／又は容易な実装を可能にし得る。線形予測符号化は、Laguerre線形予測符号化でもよい。

本発明の任意選択の特徴によれば、決定手段は、線形予測符号化係数を使用する線形予測フィルタへの入力信号に関連する誤差信号の信号パワー測定の最小化により線形予測係数を決定するように構成され、入力信号は第２の自己相関系列により特徴付けられる。

このことは、改善した性能、高い品質、低減した複雑性及び／又は容易な実装を可能にし得る。入力信号は、第２の自己相関系列に対応する自己相関系列を有する入力信号でもよく、誤差信号は、線形予測分析フィルタの出力として決定されてもよい。

本発明の任意選択の特徴によれば、決定手段は、
Q・α=P
により与えられる線形方程式を解く線形予測係数を決定するように構成され、ただし、Qは第２の自己相関系列に応じて決定された係数を有する行列であり、Pは第２の自己相関系列に応じて決定された係数を有するベクトルであり、αは線形予測係数を有するベクトルである。

本発明の任意選択の特徴によれば、変更手段は、実質的に
r(k)=t(k)+βr(k)w(k)
に従って第２の自己相関系列を決定するように構成され、ただし、r(k)は第２の自己相関系列であり、βは倍率であり、w(k)はウィンドウ処理系列であり、t(k)は静寂時閾値の自己相関系列である。

本発明の他の態様によれば、オーディオ信号を符号化する線形予測コーダが提供され、このコーダは、オーディオ信号の信号セグメントを生成する手段と、信号セグメント毎に第１の自己相関系列を生成する手段と、少なくとも１つの心理音響的特性に応じて第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成する変更手段と、第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定する決定手段とを有する。

本発明の他の態様によれば、前述のコーダを有するオーディオ記録装置が提供される。

本発明の他の態様によれば、オーディオ信号を送信する送信機が提供され、この送信機は、オーディオ信号を受信する手段と、オーディオ信号の信号セグメントを生成する手段と、信号セグメント毎に第１の自己相関系列を生成する手段と、少なくとも１つの心理音響的特性に応じて第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成する変更手段と、第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定する線形予測符号化手段と、線形予測符号化係数を有するオーディオ信号の符号化データを生成する手段と、符号化データを送信する手段とを有する。

本発明の他の態様によれば、オーディオ信号を伝送する伝送システムが提供され、この伝送システムは、送信機と受信機とを有し、送信機は、オーディオ信号を受信する手段と、オーディオ信号の信号セグメントを生成する手段と、信号セグメント毎に第１の自己相関系列を生成する手段と、少なくとも１つの心理音響的特性に応じて第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成する変更手段と、第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定する線形予測符号化手段と、線形予測符号化係数を有するオーディオ信号の符号化データを生成する手段と、符号化データを受信機に送信する手段とを有し、受信機は、符号化データを受信する手段と、復号化信号を生成する線形予測フィルタと、符号化データの線形予測符号化係数に応じて線形予測合成フィルタの係数を設定する手段とを有する。

本発明の他の態様によれば、オーディオ信号の線形予測符号化方法が提供され、この方法は、オーディオ信号の信号セグメントを生成し、信号セグメント毎に第１の自己相関系列を生成し、少なくとも１つの心理音響的特性に応じて第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成し、第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定することを有する。

本発明の他の態様によれば、オーディオ信号を送信する方法が提供され、この方法は、オーディオ信号を受信し、オーディオ信号の信号セグメントを生成し、信号セグメント毎に第１の自己相関系列を生成し、少なくとも１つの心理音響的特性に応じて第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成し、第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定し、線形予測符号化係数を有するオーディオ信号の符号化データを生成し、符号化データを送信することを有する。

本発明の他の態様によれば、オーディオ信号を送受信する方法が提供され、この方法は、送信機が、オーディオ信号を受信するステップと、オーディオ信号の信号セグメントを生成するステップと、信号セグメント毎に第１の自己相関系列を生成するステップと、少なくとも１つの心理音響的特性に応じて第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成するステップと、第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定するステップと、線形予測符号化係数を有するオーディオ信号の符号化データを生成するステップと、符号化データを受信機に送信するするステップとを実行し、受信機が、符号化データを受信するステップと、線形予測フィルタを使用して復号化信号を生成するステップと、符号化データの線形予測符号化係数に応じて線形予測合成フィルタの係数を設定するステップとを実行することを有する。

本発明の前記及び他の態様、特徴及び利点は、以下に説明する実施例から明らかになり、実施例を参照して説明される。

本発明について、図面を参照して一例のみとして説明する。

図１は、本発明の或る実施例に従ってオーディオ信号を通信する伝送システム100を示している。伝送システム100は、ネットワーク105を通じて受信機103に結合された送信機101を有する。ネットワーク105は、特にインターネットでもよい。

特定の例では、送信機101は信号記録装置であり、受信機は信号再生装置103であるが、他の実施例では、送信機及び受信機が他の用途及び他の目的に使用されてもよいことがわかる。例えば、送信機101及び／又は受信機103はコード変換機能の一部でもよく、例えば他の信号発信元又は宛先へのインタフェースを提供してもよい。

信号記録機能がサポートされる特定の例では、送信機101は、サンプリング及びアナログ・デジタル変換によりデジタルPCM信号に変換されるアナログ信号を受信するデジタイザ107を有する。

デジタイザ107は、線形予測符号化アルゴリズムに従ってPCM信号を符号化する図１の線形予測（LP：Linear Predictive）コーダ109に結合される。LPコーダ109は、符号化信号を受信し、インターネット105へのインタフェースになるネットワーク送信機111に結合される。ネットワーク送信機は、インターネット105を通じて符号化信号を受信機103に送信してもよい。

図２は、LPコーダ109を詳細に示している。

コーダ109は、デジタル化（サンプリングされた）オーディオ信号を受信する。明瞭及び簡潔にするため、入力信号は実数値のみを有することを仮定するが、或る実施例では、値は複素でもよいことがわかる。

コーダは、受信した信号を個々のセグメントフレームにセグメント化するセグメント化プロセッサ201を有する。特に、入力信号は、例えば20msec間隔に対応する所定のサイズの複数のサンプルブロックにセグメント化される。エンコーダは、予測データと、個々のフレーム毎の残差信号とを生成するように進む。

特に、セグメントは、エンコード及びデコード処理中に適用される予測フィルタのパラメータを決定する予測コントローラ203に供給される。特に、予測コントローラ203は、線形予測分析（LPA：Linear Predictive Analysis）フィルタを組み込んだ線形予測分析器205のフィルタ係数を決定する。

更に、線形予測分析器205は、入力信号サンプルを受信し、予測値と実際の入力サンプルとの間の誤差信号を決定する。

誤差信号は、誤差信号を符号化して量子化し、対応するビットストリームを生成する符号化ユニット207に供給される。

符号化ユニット207及び予測コントローラ203は、マルチプレクサ209に結合される。マルチプレクサ209は、エンコーダにより生成されたデータを、結合された符号化信号に結合する。

受信機103は、インターネット105へのインタフェースになり、送信機101から符号化信号を受信するように構成されたネットワーク受信機113を有する。

ネットワーク受信機111は、線形予測（LP：Linear Prediction）デコーダ115に結合される。LPデコーダ115は、符号化信号を受信し、線形予測復号化アルゴリズムに従ってこれを復号化する。

図３は、LPデコーダ115を詳細に示している。LPデコーダ115は、受信したビットストリームから線形予測係数及び符号化誤差信号を分離するデマルチプレクサ301を有する。誤差信号サンプルは、誤差信号を再生成する復号化プロセッサ303に供給される。デマルチプレクサ301及び復号化プロセッサ303は、線形予測合成（LPS：Linear Predictive Synthesis）フィルタを有する線形予測合成器（305）に結合される。LPSフィルタの係数は、受信した係数値に設定され、フィルタは、再生成された誤差信号を供給され、これによって、元のオーディオ信号を（実質的に）再生成する。

信号再生機能がサポートされる特定の例では、受信機103は、デコーダ115から復号化オーディオ信号を受信し、これをユーザに提示する信号再生器117を更に有する。特に、信号再生器113は、復号化オーディオ信号を出力するために必要に応じて、デジタル・アナログ変換器と、増幅器と、スピーカとを有してもよい。

図１のシステムにおいて、異なる線形予測符号化アルゴリズムが使用されてもよい。特に、標準的な線形予測、Warped線形予測又はLaguerre線形予測符号化技術が使用され得る。LPAフィルタの伝達関数H(z)は次の通りである。

ただし、これらの例で、G_k(z)は以下により与えられる。
標準的な線形予測：
G_k(z)=z^-k
従って、

である。
Warped線形予測（WLP）：

従って、

である。
Laguerre型線形予測：

従って、

である。

パラメータλは、ワーピング（warping）又はLaguerreパラメータとして知られ、異なる周波数の心理音響的な関係に従った周波数スケールのワーピングを可能にする。Kは予測フィルタのオーダとして知られている。LPSフィルタは、LPAフィルタの伝達関数の逆の伝達関数（すなわち、1/H(z)）を有する。フィルタ内で、部分伝達G_k(z)はY_k(z)=G_k(z)X(z)により与えられるz変換で信号y_kに結合される。ただし、X(z)は入力信号xのz変換である。

従って、このシステムにおいて、LPAフィルタは、前のサンプルから現在のサンプル値を推定することを試みる。特に、入力サンプルxを示すと、簡単な標準的な線形予測のLPAフィルタは、内部で以下のサンプルを生成する。

ただし、α_kは予測係数である。LPAフィルタの出力は、この推定により生成された誤差サンプルe(n)であり、e(n)は以下に等しくなる。

ただし、x(n)は入力信号サンプル値である。

予測コントローラ203は、誤差信号e(n)の信号パワー測定が所与の信号セグメントで最小化されるように、予測係数α_kを決定する。

特に、予測コントローラ203は、セグメント内のサンプルの最小平方誤差が最小化されるように、予測係数α_kを決定するように構成される。当業者にわかるように、最小値は、誤差信号測定関数（特に、最小平方誤差）を決定し、予測係数α_kの偏導関数をゼロに設定することにより検出されてもよい。更に当業者にわかるように、これは、以下により表されるKの線形方程式に導く。
Q・α=P
ただし、Qは信号の自己相関系列からの自己相関値に対応する係数を有するK×Kの行列であり、Pは信号の自己相関系列からの自己相関値を有するK要素のベクトルであり、αは線形予測係数を有するベクトルである。特に、Qは以下により与えられてもよい。

また、Pは以下により与えられてもよい。

ただし、r(k)は適切な自己相関系列である。

通常の標準的な線形予測では、r(k)は、入力信号の自己相関系列を表し、これは入力信号から直接測定され得る。通常のWarped線形予測では、系列r(k)は、いわゆるワーピングされた（warped）自己相関系列を表し、これも入力信号から決定され得る。

心理音響的な配慮を含めるために、入力信号のマスクされた閾値のような知覚的に刺激されたスペクトルを決定し、Q及びPでこのスペクトルに関連する自己相関を使用し、線形予測係数を決定することが提案されている。しかし、これは心理音響モデルがセグメント毎に評価され、心理音響モデルにより生成されたスペクトルが関連の自己相関系列に変換されることを必要とするため、極めて複雑になる。

図１のシステムでは、予測コントローラ203は、心理音響的に重み付けられた自己相関系列を決定し、線形予測係数を決定するためにこれを使用する。心理音響的に重み付けられた自己相関系列は、直接且つ非常に簡単な動作により、信号の自己相関系列から決定される。従って、図２のLPコーダにより、低い複雑性及び計算リソース要求を維持しつつ、特にセグメント毎に心理音響モデルを評価することなく、心理音響的な配慮が線形予測符号化を改善するために使用可能になる。

図４は、予測コントローラ203を詳細に示している。

予測コントローラ203は、受信した入力信号から自己相関系列r’(k)を決定する自己相関プロセッサ401を有する。新しい自己相関系列は、信号のセグメント毎に決定される。

自己相関プロセッサ401は、信号の自己相関系列r’(k)から心理音響的に重み付けられた自己相関系列

を決定する変更プロセッサ403に結合される。

心理音響的に重み付けられた自己相関系列は、LPA（及びLPS）フィルタの予測係数を決定する予測係数プロセッサ405に送信される。標準的な線形予測の例では、予測係数プロセッサ405は、入力信号の心理音響的に重み付けられた自己相関系列を使用して、以下の線形方程式を解く。
Q・α=P
従って、この例では、

である。例えば当業者に周知のLevinsonの帰納アルゴリズムのように、これらの方程式を解く如何なる適切なアルゴリズムが使用されてもよいことがわかる。

自己相関系列を心理音響的に重み付ける如何なる適切な動作又は関数が使用されてもよいことがわかる。

特に、ウィンドウ処理動作が、各信号セグメントの自己相関系列に適用されてもよい。例えば、入力信号の自己相関系列は、所定のウィンドウw(k)との時間領域の乗算により変更されてもよい。時間領域のこの乗算は、周波数領域の畳み込みに対応し、これによって、音の人間の知覚を反映し得るスペクトル拡散を提供する。

特に、心理音響的に関係する距離を反映するスペクトル帯域を有するウィンドウ関数で自己相関系列を乗算することが有利になり得る。特に、ウィンドウは、何らかの特定の周波数でBark帯域又はERB（Equivalent Rectangular Bandwidth）帯域の帯域幅を有するように選択され得る。特に、このことは、スペクトル的に形成した反映する心理音響的特性を可能にし得る。

更に又は代替として、変更プロセッサ403は、心理音響的に重み付けられた自己相関系列の値に下界を課してもよい。例えば、低い信号振幅での人間の知覚に対応する自己相関系列が決定され得る。このような特性は、一般的に静寂時閾値（threshold-in-quiet）曲線として知られている。従って、静寂時閾値曲線は、ユーザに知覚可能であると考えられる最小の信号レベルに対応する。この静寂時閾値曲線に対応する自己相関系列は、心理音響的に重み付けられた自己相関系列の最小値として決定及び使用され得る。

例えば、信号の自己相関系列でウィンドウ処理動作を実行した後に、それぞれの結果のサンプルは、静寂時閾値に対応する系列と比較可能であり、何らかの決定された値が静寂時閾値の対応する値より小さい場合、静寂時閾値の値がその代わりに使用される。他の例として、静寂時閾値の自己相関系列は、心理音響的に重み付けられた自己相関系列を決定する際の項として追加されてもよい。

最小値の自己相関系列により心理音響的に重み付けられた自己相関系列を制限することは、結果の自己相関系列が心理音響モデルから導かれたものに密接に対応し、特に低振幅レベルの入力信号で更なる符号化利得が実現されることを確保する。

特定の例として、変更プロセッサ403は、実質的に以下のように心理音響的に重み付けられた自己相関系列を決定し得る。

ただし、

は心理音響的に重み付けられた自己相関系列であり、βは倍率であり、w(k)はウィンドウ処理系列であり、t(k)は最小値の自己相関系列である。最小値の自己相関系列は、特に静寂時閾値の自己相関系列でもよい。

この例では、倍率βは、静寂時閾値の自己相関系列の相対的な影響及びウィンドウ処理が調整されることを可能にする設計パラメータである。

特に、この手法は、高いエネルギー強度でのマスク曲線が１次の近似で形態に依存しないレベルになるという認識に基づいてもよい。従って、高い強度レベルでは、線形予測は、適切な線形予測システム（WLP又はPLP等）を使用して、適切なスペクトル平滑化を使用して、マスク曲線の形態のまずまず良好な近似を与えることができるはずである。更に、低い強度レベルでは、静寂時閾値がマスク曲線の重要な部分になる。

線形予測係数を決定するために使用される自己相関系列の心理音響的な重み付けにより、どのように符号化信号がユーザにより知覚されるかを正確に反映し得る非常に改善した線形予測が実行されることが可能になる。更に、この手法は、非常に少ない簡単な動作を必要とし、かなりの複雑性又は計算リソースの増加を行わずに容易に実装可能である。

余分な計算上の複雑性を犠牲にして、多くの改良が組み込まれ得る。例えば、自己相関系列は、特定の周波数領域を強調するためにフィルタリングされてもよく、倍率βは入力レベルに依存してもよい等である。

前述の例は、標準的な線形予測を使用する例に着目している。しかし、記載の原理は、Warped線形予測及びLaguerre線形予測のように、他の複雑な線形予測にも同様に当てはまることがわかる。

特にWarped線形予測では、自己相関系列は、ワーピングされた自己相関系列である。従って、まず、自己相関プロセッサ401は、前述のようにワーピングされた心理音響的に重み付けられた自己相関系列を生成するように処理され得るワーピングされた自己相関系列を決定し得る。ワーピングされた自己相関系列は以下のように規定される。

及び

ただし、k=1,...,Kであり、y_kは入力信号xに対するWarped線形予測器のフィルタG_k(z)の応答である。この系列は、線形予測係数を決定するために使用される。特に、実行されるワーピング（warping）は、全通過フィルタの系列により入来する信号をフィルタリングすることに対応し、ワーピングされた自己相関系列は、これらの全通過フィルタの出力の共分散として決定されることがわかる。

Laguerre線形予測の場合、系列r(k)は以下により与えられる。

ただし、k=1,..,K-1であり、y_kは入力信号xに対するLaguerre線形予測器のフィルタG_k(z)の応答である。Warped線形予測器のG_kとLaguerre線形予測器のG_kとを比較すると、Laguerreの場合のr(k)は、xのフィルタリングされたもののワーピングされた自己相関系列として考えられ得ることがわかる。ただし、フィルタG₀(z)は以下により示される。

従って、Laguerre線形予測では、QはLaguerreフィルタリングされた信号の心理音響的に重み付けられた自己相関の値を有するToeplitz行列になる。しかし、Qが入力信号の共分散系列の値とオーディオ信号のLaguerreフィルタリングされたものとを有するため、PとQとの間の関係は、少し複雑になる。従って、以下のようになる。

ただし、

であり、k=1,..,Kであり、y_kは入力信号xに対するLaguerre線形予測器のフィルタG_k(z)の応答である。

k>1の場合、Qの値とPの値との間の関係は以下により与えられる。
r(k)=C₂p(k)+C₁p(k+1)
ただし、

及び

であり、λはLaguerreパラメータである。更に、以下のようになる。
r(0)=p(0)+2C₁p(1)
ただし、p(0)は入力信号のエネルギーに対応する。

特に、予測コントローラ203は、Laguerre線形予測について以下のステップを実行し得る。

まず、系列p(k)（k=0,...,K）が決定される。

p(K+1)がゼロに設定される。

前述の式を使用して、第１の自己相関r’(k)がp(k)から決定される。

心理音響的に重み付けられた自己相関

が以下から決定される。

例えば、w(k)は以下のように決定されてもよい。

ただし、サンプリング周波数及びLaguerreパラメータλを前提として、δは、w(k)のスペクトル表現が例えば1Barkの帯域を有するように決定される。Hanning、Hammingのような他のウィンドウの選択も実現可能である。

補われた共分散系列

は、p(k)とr(k)との間の前述の関係を使用して、

から計算される。

予測係数プロセッサ405は、
Q・α=P
からLPAフィルタの予測係数を決定する。
ただし、Q及びPの係数は

及び

から得られる。

図５は、オーディオ信号の線形予測符号化方法を示している。

この方法はステップ501で始まり、オーディオ信号の信号セグメントが生成される。

ステップ501はステップ503により後続され、信号セグメント毎に第１の自己相関系列が生成される。

ステップ503はステップ505により後続され、少なくとも１つの心理音響的特性に応じて第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列が生成される。

ステップ505はステップ507により後続され、第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数が決定される。

明瞭にするために、前述の説明は、異なる機能ユニット及びプロセッサを参照して本発明の実施例を説明していることがわかる。しかし、本発明から逸脱することなく、異なる機能ユニット又はプロセッサの間での機能の何らかの適切な分散が使用されてもよいことがわかる。例えば、別のプロセッサ又はコントローラにより実行されるように示されている機能は、同じプロセッサ又はコントローラにより実行されてもよい。従って、特定の機能ユニットへの参照は、厳密な論理的又は物理的構成又は機構を示すのではなく、前述の機能を提供する適切な手段への参照としてのみ理解されるべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらの何らかの組み合わせを含む何らかの適切な形式で実装され得る。任意選択で、本発明は、１つ以上のデータプロセッサ及び／又はデジタルシグナルプロセッサで動作するコンピュータソフトウェアとして少なくとも部分的に実装されてもよい。本発明の実施例の要素及び構成要素は、物理的、機能的及び論理的に如何なる適切な方法で実装されてもよい。実際に、機能は単一のユニットで実装されてもよく、複数のユニットで実装されてもよく、他の機能ユニットの一部として実装されてもよい。従って、本発明は、単一のユニットで実装されてもよく、物理的及び機能的に異なるユニット及びプロセッサの間に分散されてもよい。

或る実施例に関して本発明を説明したが、ここに示す特定の形式に限定されることを意図しない。むしろ、本発明の範囲は、特許請求の範囲のみにより限定される。更に、特徴は特定の実施例に関連して記載されているように見える可能性があるが、当業者は、記載の実施例の様々な特徴が本発明に従って結合され得ることを認識する。特許請求の範囲において、有するという用語は、他の要素又はステップの存在を除外しない。

更に、個別に記載されているが、複数の手段、要素又は方法のステップは、例えば単一のユニット又はプロセッサにより実施されてもよい。更に、個別の特徴が異なる請求項に含まれることがあるが、これらは場合によって有利に結合されてもよい。異なる請求項に含まれることは、特徴の組み合わせが実現不可能であること及び／又は有利でないことを示すのではない。また、請求項の１つのカテゴリに特徴が含まれることは、そのカテゴリへの限定を意味するのではなく、特徴が必要に応じて他の請求項のカテゴリにも同等に適用可能であることを示す。更に、請求項の特徴の順序は、特徴が動作されなければならない特定の順序を示すのではなく、特に、方法の請求項の個別のステップの順序は、ステップがこの順序で実行されなければならないことを示すのではない。むしろ、ステップは如何なる適切な順序で実行されてもよい。更に、単数への言及は複数を除外しない。従って、“１つの”、“第１の”、“第２の”等への言及は複数を除外しない。請求項の参照符号は、単に例を明瞭にするものとして提供されており、決して特許請求の範囲を限定するものとして解釈されるべきではない。

本発明の或る実施例に従ってオーディオ信号を通信する伝送システム本発明の或る実施例による線形予測コーダ線形予測デコーダ本発明の或る実施例による線形予測コーダの要素本発明の或る実施例によるオーディオ信号の線形予測符号化方法

Claims

オーディオ信号の線形予測符号化装置であって：
−前記オーディオ信号の信号セグメントを生成する手段と；
−信号セグメント毎に第１の自己相関系列を生成する手段と；
−少なくとも１つの心理音響的特性に応じて前記第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成する変更手段と；
前記第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定する決定手段と；
を有する装置。
前記変更手段は、前記第１の自己相関系列のウィンドウ処理を実行するように構成される、請求項１に記載の装置。
前記ウィンドウ処理は、Bark帯域に対応する心理音響的な帯域に対応する、請求項２に記載の装置。
前記ウィンドウ処理は、ERB（Equivalent Rectangular Bandwidth）に対応する心理音響的な帯域に対応する、請求項２に記載の装置。
前記変更手段は、最小値の自己相関系列で前記第２の自己相関系列を制限するように構成される、請求項１に記載の装置。
前記変更手段は、少なくとも前記最小値の自己相関系列に対応する第１の項と前記第１の自己相関系列に応じて決定された第２の項との合計として、前記第２の自己相関系列を決定するように構成される、請求項５に記載の装置。
前記変更手段は、前記第２の項に対する前記第１の項の心理音響的な意味に対応する倍率で前記第１及び第２の項のうち少なくとも１つを調整するように構成される、請求項６に記載の装置。
前記最小値の自己相関系列は、静寂時閾値曲線に対応する、請求項４に記載の装置。
前記線形予測符号化は、Laguerre予測符号化であり、
前記決定手段は、前記第２の自己相関系列に応じて前記オーディオ信号と前記オーディオ信号のLaguerreフィルタリングされたものとの間の共分散系列を決定するように構成される、請求項１に記載の装置。
前記第１の自己相関系列は、ワーピングされた自己相関系列である、請求項１に記載の装置。
前記第１の自己相関系列は、フィルタリング後のワーピングされた自己相関系列である、請求項１に記載の装置。
前記決定手段は、前記線形予測符号化係数を使用する線形予測フィルタへの入力信号に関連する誤差信号の信号パワー測定の最小化により前記線形予測係数を決定するように構成され、前記入力信号は前記第２の自己相関系列により特徴付けられる、請求項１に記載の装置。
前記決定手段は、
Q・α=P
により与えられる線形方程式を解く前記線形予測係数を決定するように構成され、ただし、Qは前記第２の自己相関系列に応じて決定された係数を有する行列であり、Pは前記第２の自己相関系列に応じて決定された係数を有するベクトルであり、αは前記線形予測係数を有するベクトルである、請求項１に記載の装置。
前記変更手段は、実質的に

に従って前記第２の自己相関系列を決定するように構成され、ただし、r(k)は前記第２の自己相関系列であり、βは倍率であり、w(k)はウィンドウ処理系列であり、t(k)は静寂時閾値の自己相関系列である、請求項１に記載の装置。
オーディオ信号を符号化する線形予測コーダであって：
−前記オーディオ信号の信号セグメントを生成する手段と；
−信号セグメント毎に第１の自己相関系列を生成する手段と；
−少なくとも１つの心理音響的特性に応じて前記第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成する変更手段と；
−前記第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定する決定手段と；
を有するコーダ。
請求項１５に記載のコーダを有するオーディオ記録装置。
オーディオ信号を送信する送信機であって：
−前記オーディオ信号を受信する手段と；
−前記オーディオ信号の信号セグメントを生成する手段と；
−信号セグメント毎に第１の自己相関系列を生成する手段と；
−少なくとも１つの心理音響的特性に応じて前記第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成する変更手段と；
−前記第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定する線形予測符号化手段と；
−前記線形予測符号化係数を有する前記オーディオ信号の符号化データを生成する手段と；
−前記符号化データを送信する手段と；
を有する送信機。
オーディオ信号を伝送する伝送システムであって：
−前記オーディオ信号を受信する手段と；
−前記オーディオ信号の信号セグメントを生成する手段と；
−信号セグメント毎に第１の自己相関系列を生成する手段と；
−少なくとも１つの心理音響的特性に応じて前記第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成する変更手段と；
−前記第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定する線形予測符号化手段と；
−前記線形予測符号化係数を有する前記オーディオ信号の符号化データを生成する手段と；
−前記符号化データを受信機に送信する手段と；
を有する送信機と、
−前記符号化データを受信する手段と；
−復号化信号を生成する線形予測フィルタと；
−前記符号化データの前記線形予測符号化係数に応じて前記線形予測合成フィルタの係数を設定する手段と；
を有する受信機と
を有する伝送システム。
オーディオ信号の線形予測符号化方法であって：
−前記オーディオ信号の信号セグメントを生成し；
−信号セグメント毎に第１の自己相関系列を生成し；
−少なくとも１つの心理音響的特性に応じて前記第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成し；
−前記第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定する；
ことを有する方法。
オーディオ信号を送信する方法であって：
−前記オーディオ信号を受信し；
−前記オーディオ信号の信号セグメントを生成し；
−信号セグメント毎に第１の自己相関系列を生成し；
−少なくとも１つの心理音響的特性に応じて前記第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成し；
−前記第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定し；
−前記線形予測符号化係数を有する前記オーディオ信号の符号化データを生成し；
−前記符号化データを送信する；
ことを有する方法。
オーディオ信号を送受信する方法であって：
送信機が、
−前記オーディオ信号を受信するステップと；
−前記オーディオ信号の信号セグメントを生成するステップと；
−信号セグメント毎に第１の自己相関系列を生成するステップと；
−少なくとも１つの心理音響的特性に応じて前記第１の自己相関系列を変更することにより、信号セグメント毎に第２の自己相関系列を生成するステップと；
−前記第２の自己相関系列に応じて信号セグメント毎に線形予測符号化係数を決定するステップと；
−前記線形予測符号化係数を有する前記オーディオ信号の符号化データを生成するステップと；
−前記符号化データを受信機に送信するするステップと；
を実行し、
前記受信機が、
−前記符号化データを受信するステップと；
−線形予測フィルタを使用して復号化信号を生成するステップと；
−前記符号化データの前記線形予測符号化係数に応じて前記線形予測合成フィルタの係数を設定するステップと；
を実行することを有する方法。
請求項１９ないし２１のうちいずれか１項に記載の方法を実行するコンピュータプログラム。