JP2005506581A - 正弦波モデルパラメータの周波数差分符号化 - Google Patents
正弦波モデルパラメータの周波数差分符号化 Download PDFInfo
- Publication number
- JP2005506581A JP2005506581A JP2003539025A JP2003539025A JP2005506581A JP 2005506581 A JP2005506581 A JP 2005506581A JP 2003539025 A JP2003539025 A JP 2003539025A JP 2003539025 A JP2003539025 A JP 2003539025A JP 2005506581 A JP2005506581 A JP 2005506581A
- Authority
- JP
- Japan
- Prior art keywords
- encoded
- audio signal
- encoding
- directly
- differentially
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 230000005236 sound signal Effects 0.000 claims description 36
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000003416 augmentation Effects 0.000 claims 1
- 238000010845 search algorithm Methods 0.000 abstract 1
- 238000013139 quantization Methods 0.000 description 21
- 238000002474 experimental method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Transmitters (AREA)
Abstract
オーディオ信号を符号化及び復号化する方法と、かかる方法を実行する装置とが開示される。符号化方法は、符号化されたフレーム中の所与の正弦波成分を、同じフレーム中の他の成分に対して差分的に、又は直接的に、即ち差分符号化なしに符号化する段階を特徴とする。符号化が差分的であるか直接的であるかは、アルゴリズムにより決定される。第1の種類のアルゴリズムは、グラフ理論から導出される方法を用いて最適な結果を与える。計算的にあまり強くない他のアルゴリズムは、反復的な貪欲探索アルゴリズムにより近似的な結果を与える。
Description
【0001】
本発明は、正弦波モデルパラメータの周波数差分符号化に係る。
【0002】
近年、低ビットレートオーディオ圧縮に対するモデルに基づくアプローチがますます関心を集めている。一般的には、これらのパラメトリック法は、オーディオ波形を、様々な同時に存在する信号部分、例えば、正弦波部分、ノイズ状部分、及び/又は、遷移部分へと分解する。続いて、各信号部分を示すモデルパラメータが量子化され、符号化され、復号化器へ送信され、復号化器において、量子化された信号部分は再構成された信号を形成するよう合成され加算される。しばしば、オーディオ信号の正弦波部分は、振幅、周波数、及び場合によっては位相パラメータを用いて特定される正弦波モデルを用いて表わされる。殆どのオーディオ信号について、正弦波信号部分は、知覚的にノイズ部分及び遷移部分よりも重要であり、従って、正弦波モデルパラメータを表わすために比較的多くの量の全ビット割当量が割り当てられる。例えば、ティー・エス・ヴァーマ(T. S. Verma)及びティー・エイチ・ワイ・メン(T. H. Y. Meng)により、「6kbps乃至85kbpsのスケーラブルオーディオ符号化器(A 6 kbps to 85 kbps scalable audio coder)」、Proc. IEEE Inst,. Conf. Acoust., Speech Signal Processing, 第877−880頁、2000年、に記載の公知のスケーラブルオーディオ符号化器では、利用可能なビットのうちの70%よりも多くが、正弦波パラメータを表わすのに用いられる。
【0003】
通常は、正弦波モデルに必要なビットレートを減少するために、時間差分(TD)符号化法を用いた正弦波パラメータ間のフレーム間相関が利用される。現在信号フレーム中の正弦波成分は、先行フレーム中の量子化された成分に関連付けられ(従って時間・周波数平面上に「トーントラック(tonal track)」を形成し)、パラメータの差分(differences)が量子化され符号化される。現在フレーム中の成分であって過去の成分とはリンクできないものは、新しいトラックの起点であると考えられ、通常は差分符号化なしに直接的に符号化される。TD符号化は、変動のない信号領域中でビットレートを減少させるには効率的であるが、突然の信号変化を伴う領域では、比較的少ない成分がトーントラックに関連付けられうるため、従って多数の成分が直接的に符号化されるため、あまり効率的ではない。更に、復号化器において差分パラメータから信号を再構成することが可能であるよう、TD符号化は、先行フレームのパラメータが無事に到着したという仮定に必ず依存する。例えばインターネットのような損失の多いパケットネットワーク等の伝送路では、この仮定は妥当ではないかもしれない。従って、幾つかの場合には、TD符号化に代わるものが望まれる。
【0004】
このような代替策の1つに、正弦波成分間のフレーム間相関が利用される周波数差分(FD)符号化がある。FD符号化では、同じ信号フレームに属するパラメータ間の差分は量子化され、符号化され、従って先行フレームからのパラメータの依存性をなくす。RF符号化は、正弦波に基づく音声(speech)符号化においては周知であり、近年ではオーディオ符号化にも使用されている。一般的には、フレーム中の正弦波成分は周波数の昇順で量子化され符号化され、まず、最も低い周波数を有する成分が直接的に符号化され、次に、より高い周波数の成分が、それらに対して最も近くのより低い周波数の近傍に対して一回に一つずつ量子化され符号化される。このアプローチは単純であるが、最適ではないかもしれない。例えば、幾つかのフレーム中では、最近傍(nearest-neighbour)制約条件を緩めることがより効率的であるかもしれない。
【0005】
本発明に想到するにあたって、発明者は、より一般的な正弦波モデルパラメータのRF符号化の方法を探した。本発明の方法は、所与のパラメータ量子化器及び各量子化レベルに対応する符号語の長さ(ビット単位)について、フレーム中の正弦波成分の周波数差分及び直接符号化の最善の組合せを見つける。方法は、任意の成分対を含むパラメータの差を許すという意味で、即ち周波数領域の近傍である必要はないという意味で、既存の方法よりも一般的である。更に、上述の単純な方法とは異なり、最も効率的な結果が得られるならば、幾つかの(極端な場合は全ての)成分が直接的に符号化されてもよい。
【0006】
オーディオ信号を符号化する方法から、方法は、符号化されたフレーム中の所与の正弦波成分のパラメータを、同じフレーム中の他の成分に対して差分的に、又は、直接的に、即ち差分符号化なしに、符号化する段階を有することを特徴とする。
【0007】
様々な面から、本発明は特許請求の範囲の独立項に記載の方法及び装置を提供する。本発明の実施例の更なる望ましい特徴は従属項に記載されている。
【0008】
本発明の実施例について、例として、添付の図面を参照して、以下に詳述する。
【0009】
本発明の実施例は、インターネット等の信頼性の低い通信リンクを通じてオーディオ信号を伝送するシステム中に構成されうる。図8に示すこのようなシステムは、一般的には、オーディオ信号の源10と、源10からのオーディオ信号を伝送する伝送装置12とを有する。伝送装置12は、源10からのオーディオ信号を得るための入力ユニット20と、符号化されたオーディオ信号を得るためにオーディオ信号を符号化する符号化装置22と、符号化された信号をネットワークリンク26へ与えることにより符号化されたオーディオ信号を伝送又は記録する出力ユニット24とを含む。受信装置30は、符号化されたオーディオ信号を受信するようネットワークリンク26に接続される。受信装置30は、符号化されたオーディオ信号を受信する入力ユニット32と、復号化されたオーディオ信号を得るために符号化されたオーディオ信号を復号化する装置34と、復号化されたオーディオ信号を出力する出力ユニット36とを含む。出力信号は、適当な装置40によって要求されるように再生され、記録され、又は他の処理がされる。
【0010】
符号化装置22内では、信号は、所与の正弦波成分のパラメータを、同じフレーム中の他の成分に対して差分的に、又は直接的に、即ち、差分符号化なしに、符号化する段階を含む方法に従って符号化される。方法は、符号化処理中の任意の段階において差分符号化を用いるか否かを決定せねばならない。
【0011】
この決定に至るために方法によって解決されねばならない問題を定式化するために、多数の正弦波成分s1,...,skが信号フレーム中で推定されている状況を考える。各成分skは、振幅ak及び周波数の値ωkで表わされる。本願の説明においては、位相値を考える必要はなく、なぜならば、位相値は周波数パラメータから導出されるか直接量子化されうるからである。それでも、本発明は、実際は、位相値及び/又は減衰係数等の他の値へ拡張されることがわかるであろう。
【0012】
所与の成分のパラメータの量子化についての以下の可能性を考える。
(1)直接的な量子化(即ち、差分的でない)、又は
(2)より低い周波数の成分のうちの1つの成分の量子化されたパラメータに対する差分量子化。
【0013】
図1に示すように、直接的及び差分的な量子化の全ての可能な組合せの組を、有向グラフ(ダイグラフ)Dを用いて表わす。
【0014】
頂点(vertex)s1,...,skは、量子化されるべき正弦波成分を表わす。これらの頂点の間の辺(edge)は、差分符号化の可能性を表し、例えば、s1とs4の間の辺は、s1に対するs4のパラメータの量子化を表す(即ち、振幅パラメータについては
【0015】
【数1】
である)。頂点s0は、直接的な量子化の可能性を表わすために導入されるダミー頂点である。例えば、s0とs2の間の辺は、s2のパラメータの直接的な量子化を表す。各辺には、辺によって表わされる特定の量子化を選ぶときのレート及び歪みに関するコストに対応する重みwijが割り当てられる。基本的なタスクは、直接的及び差分的な符号化のレート・歪みの最適の組合せを見つけることである。このことは、各頂点s1,...,skにちょうど1つの入辺(in-edge)が割り当てられるよう、最小の総コストでD中にK個の辺の部分集合(subset)を見つけることに対応する。
【0016】
ここで、辺の重みの計算について説明する。原理的には、各辺の重みは、
wij=rij+λdij 式1
の形であり、式中、rijはこの特定の量子化に関連するレート(即ちビット数)であり、dijはこの特定の量子化に関連する歪みであり、λはラグランジュ乗数である。一般的には、図1に示すように、より高い添え字を有する成分sjは(既に量子化されている)より低い添え字の成分に対して量子化されるため、重みwijの正確な値は、より低い添え字を有する成分siの特定の量子化に依存する。換言すれば、wijの値は、siが量子化される前には計算されえない。この依存性を除去するために、ここでは、振幅パラメータについて図2に示されるように同様の量子化器が直接的及び差分的な量子化に用いられると想定する。
【0017】
図2中、縦列(column)1は、直接振幅量子化器についての出力レベルを示し、縦列2は差分振幅増幅器についての出力レベルを示し、縦列3は差分量子化後の達成可能な振幅レベルの組を示す。
【0018】
この仮定の下、直接的及び差分的量子化を通じて達成されうる量子化レベルは同じであり、所与の成分は、直接的な量子化が用いられるのか差分的な量子化が用いられるのかには関係なく、同様に量子化される。このことは、直接的及び差分的な符号化の任意の組合せに対して総歪みが一定であることを意味するため、式1中でλ=0とすることができる。更に、Dの全ての重みの値は、予めwij=rijとして計算されえ、ただし、
【0019】
【数2】
であり、
【0020】
(外1)
は、
【0021】
(外2)
を表わすのに必要とされるビットの数を表わす。この例では、
【0022】
(外3)
の値は、予め計算されたハフマン符号語テーブル中のエントリとして見つけることができる。
【0023】
例をよく理解するために、扱われている問題を定式化することが必要である。当該の信号フレームは、符号化されるべきK個の正弦波成分を含むと仮定し、最適FD符号化問題を以下のように定式化する:
問題1:辺の重みがwijである所与の有向グラフDについて、
(a)各頂点s1,...,skにちょうど1つの入辺が割り当てられ、及び、
(b)各頂点s1,...,skに最大で1つの出辺(out-edge)が割り当てられる
よう、全体の重みが最小となるK個の辺の集合を見つける。
【0024】
制約条件(a)は、K個の正弦波成分の夫々が、ちょうど一回量子化され符号化されることを保証するため、重要である。制約条件(b)は、K個の辺の解の木上の特定の簡単な構造を実行する。これは、復号化器に対して、送信された(デルタ)振幅及び周波数をどのように組み合わせるかを知らせるのに必要な辺情報の量を減少させるために重要である。図3は、制約条件(a)と(b)を満たす可能な解の木の例を示す。尚、例えば従来技術の提案で用いられる「標準」FD符号化設定は、図示の枠組みの図3cの特別な場合である。
【0025】
上述の問題を解決するとき、2つのアルゴリズム(アルゴリズム1及びアルゴリズム2と称する)が与えられる。アルゴリズム1は数学的に最適であるのに対して、アルゴリズム2はより低い計算上の費用で近似的な解を与える。
【0026】
アルゴリズム1:問題1を解決するために、グラフ理論で周知の問題であるいわゆる割り当て(assignment)問題として定式化する。有向グラフD(図1)を用いて、図4に示すグラフGを構築する。Gの頂点は、2つの部分集合へ分けられ得る。即ち、頂点s1,...,sk-1及びs0のK個のコピーを含む左側部分集合Xと、頂点s1,...,sk及び
【0027】
(外4)
で示されるK−1個のダミー頂点を含む右側部分集合Yへ分けられる。
【0028】
多数の辺がXとYの頂点を連結する。X中の頂点に連結される辺は有向グラフD中の出辺に対応し、頂点s1,...,sk∈Yに連結される辺は有向グラフD中の入辺に対応する。例えば、G中のs2∈Xからs4∈Yへの辺は、有向グラフD中の辺s2s4に対応する。従って、グラフG中の実線で示される辺は有向グラフD中の「差分符号化」辺を表わす。更に、頂点{s0}∈Xからs1,...,sk∈Yへの破線で示される辺は全て、成分s1,...,skの直接的符号化に対応する。X中の頂点を頂点s1,...,sk∈Yに連結する辺の重みは、有向グラフD中の対応する辺の重みと同じである。最後に、K−1個のダミー頂点
【0029】
(外5)
は、解の木の中の幾つかの頂点は「葉(leaves)」であってもよいこと、即ち、出辺を有さないこと、を表わすために用いられる。例えば、図3a中、頂点s2は葉である。グラフG中、このことは、s2∈Xから頂点
【0030】
(外6)
のうちの1つへの辺として表わされる。
【0031】
(外7)
に連結される全ての辺は、重みが0である。
【0032】
問題1の制約条件(a)及び(b)を満たすD中のK個の辺の各集合は、GにおけるY中の頂点に対するX中の頂点の割り当てとして、即ち各頂点にちょうど1つの辺が割り当てられるようなG中の2K−1個の辺の部分集合として表わされうる。図5a乃至図5cは、図3a乃至図3c中の木に対応する割り当ての例を示す。従って、問題1は、いわゆる割り当て問題として再び定式化されえ、これを以下、問題2と称するものとする。
【0033】
問題2:各頂点にちょうど1つの辺が割り当てられるよう、グラフG中で、総重み(total weight)が最小である2K−1の辺の集合を見つける。
【0034】
問題2を解決する幾つかのアルゴリズムがあり、例えば、エイチ・ダブリュ・クーン(H.W.Kuhn)著、「割り当て問題におけるハンガリー法(The Hungarian Method for the Assignment Problem)」、海軍研究ロジスティックス季刊誌(Naval Research Logistics Quarterly)、2:第83−97頁、1995年、に記載のO((2K−1)3)の算術演算で問題を解決するいわゆるハンガリー法がある。他の実現方法に、アール・ジョンカー(R. Jonker)及びエイ・ヴォルジェナン(A. Volgenant)著、「密及び粗な線形割り当て問題に対する最短増大路アルゴリズム(A Shortest Augmenting Path Algorithm for Dense and Sparse Linear Assignment Problems)」、コンピューティング(Computing)誌、第38巻、第325乃至340頁、1987年、に記載のアルゴリズムがある。複雑さはハンガリー法と同様であるが、ジョンカー・ヴォルジェナン・アルゴリズムは、実用面ではより高速である。更に、このアルゴリズムは粗問題をより高速に解決でき、このことはこの実施例のマルチフレームリンク問題において重要である。
【0035】
概して、アルゴリズム1は、以下の段階を有する。まず、有向グラフD(及びその結果としてグラフG)が構築される。次に、最小の重みを有するGにおける割り当て(問題2)が決定される。最後に、Gにおける割り当てから、直接的及び差分的な符号化の最適な組合せが容易に導出される。
【0036】
アルゴリズム2は、グラフDの頂点s1,...,skを添え字の昇順に一回に1つずつ処理する反復的な貪欲(greedy)アルゴリズムである。k番目の繰り返しにおいて、候補辺集合から頂点skの入辺のうちの1つが選択される。候補集合は、以前に選択された出辺のない頂点から出発するskの入辺と、直接符号化辺s0skとからなる。この集合から、最小の重みを有する辺が選択される。この手順により、問題1の制約条件(a)及び(b)を満たすK個の辺の集合が得られる。一般的には、この貪欲アプローチは最適ではなく、即ち、制約条件(a)及び(b)を満たすより低い総重みを有するK個の辺の他の集合が存在しうる。アルゴリズム2は、O(K2)の計算上の複雑さを有する。
【0037】
上述のように符号化される正弦波(デルタ)パラメータに加え、本発明を具現化する符号化された信号は、復号化器においてどのようにパラメータを組み合わせるかを表わす副次情報を含まねばならない。1つの可能性は、考えられうる各解の木に対して、副次情報アルファベット中の1つの記号(symbol)を割り当てることである。しかしながら、異なる解の木(solution tree)の数は大きく、例えばフレーム中にK=25個の正弦波成分があるとき、異なる解の木の数は約1018であり、これは副次情報アルファベット中の解の木に索引付けするための62ビットに対応する。明らかに、この数は殆どの用途において大きすぎる。幸いなことに、(デルタ)パラメータシーケンスに特定の順序が適用されていれば、副次情報アルファベットは、トポロジー的に別個の解の木を表わすだけでよい。トポロジー的に別個の木であること及びパラメータ順序の表記をはっきりとさせるため、図6a及び図6c中の解の木の例と、木の下に列挙された対応するパラメータシーケンスとを考える。図6a及び図6b中のスパニングツリーは、夫々が3つの辺と2つの辺の枝から構成され、従って副次情報アルファベット中の同じ記号で表わされるため、トポロジー的に同一である。逆に、図6cの木は、5つの辺を含む単一の枝から構成され、トポロジー的に他の木とは別個である。トポロジー的な木構造を知り、例えば(デルタ)パラメータはまず最初に最長の枝でパラメータストリーム中に枝ごとに生ずると想定すると、復号化器は受信したパラメータを正確に組み合わせることが可能である。
【0038】
従って、本発明の望ましい実施例は、トポロジー的に別個の解の木に対応する記号を有する副次情報アルファベットを提供する。副次情報の上限は、このような木の数によって与えられる。トポロジー的に別個の木の数についての表現がそれに続く。
【0039】
図6a乃至図6cの例に示すように、解の木の構造は、木の中の各枝の長さを特定することによって表わされうる。最長の枝が最初であるという順序を想定すると、トポロジー的に別個の木の集合は、和がKとなる増加しない正の整数の別個のシーケンスによって特定され、組み合わせ論(combinatorics)では、このようなシーケンスは正の整数Kの「整数区画(integer partitions)」と称される。例えば、K=5のとき、次の7つの整数区画がある:{5}(図1c),{4,1},{3,2}(図1a及び図1b),{3,1,1},{2,2,1},{2,1,1,1}及び{1,1,1,1,1}である。従って、K=5のとき、7つのトポロジー的に別個の解の木があり、副次情報アルファベットは7つの記号からなる。Pj(K)を、最初の整数がjであるK個の整数区画の数を表わすものとすると、別個の解の木の数Pは以下の帰納式で表わすことができる。
【0040】
【数3】
但し、
【0041】
【数4】
図7は、正弦波成分の数Kの関数としてトポロジー的に別個の木の数を示す図である。従って、K=25のときの副次情報アルファベットのインデックス付けは、最大で11ビットを必要とする。尚、グラフは副次情報の上限を示し、例えばエントロピー符号化を用いる統計的な性質の利用は副次情報レートを更に減少させうる。
【0042】
提案されるアルゴリズムのパフォーマンスは、オーディオ信号を用いたシミュレーション研究で示されうる。44.1kHzのレートでサンプリングされ、約20秒間の持続時間で夫々サンプリングされた4つの異なるオーディオ信号は、連続するフレーム間に50%の重なり合いを有するHanningウィンドウを用いて1024サンプルの固定長のフレームへ分割された。
【0043】
各信号フレームは、そのパラメータがマッチング追跡アルゴリズムを用いて抽出される固定数のK=25個の、一定振幅、一定周波数の正弦波成分を有する正弦波モデルを用いれ表わされた。振幅及び周波数パラメータは、夫々20%及び0.5%の相対量子化レベル間隔を用いて対数領域で均一に量子化される。同様に相対量子化レベルは、図2に示すような直接的及び差分的量子化に使用され、量子化されたパラメータはハフマン符号化を用いて符号化された。
【0044】
各フレームについてどのように直接的及びFD符号化を組み合わせるかを決定するのにアルゴリズム1及び2を用いて、実験が行われた。更に、振幅及び周波数のパラメータが図3c中、K=5について示される「標準」FD符号化形態を用いて量子化されるシミュレーションが行われた。最後に、FD符号化の可能な利得を決定するために、パラメータは、直接的に、即ち差分符号化なしに量子化された。各実験は、実験において推定された異なるハフマン符号を用いたものである。
【0045】
これらの各符号化手順について、(デルタ)振幅及び周波数を符号化するのに必要なビットレートRparsが(1次のエントロピーを用いて)推定された。更に、アルゴリズム1及び2は、解の木構造に関する情報が復号化器へ送信されることを必要とするため、この副次情報を表わすのに必要なビットレートRS.Iもまた推定された。以下の表1は、様々な符号化戦略及びテスト信号についての推定されたビットレートを示す。このコンテキストでは、同様の量子化器が全ての実験に対して使用され、従ってテスト信号は同じ歪みレベルで符号化されるため、ビットレートの比較は妥当である。
【0046】
以下の表1の縦列は、様々な符号化法及びテスト信号に対するビットレート[kbps]を示す。テーブルの縦列は、Rpars:(デルタ)振幅及び周波数についてのビットレートと、RS.I:副次情報(木構造)に必要なレートと、RTotal:総レートである。利得は、様々なFD符号化法での直接的な符号化(差分的ではない)に対する相対的な改善である。
【0047】
表1は、直接的及びFD符号化の組合せを決定するアルゴリズム1を用いることは、直接的な符号化に対する18.8%−27.0%の範囲のビットレート低下を与えることを示す。アルゴリズム2は、18.5%−26.7%の範囲におけるビットレート低下で殆ど同じ動作を与える。アルゴリズム2から生ずる僅かに低い副次情報は、アルゴリズムがより少ないがより長い「枝」を生じさせる傾向があるため、観察される異なる解の木の数を減少させることによる。最後に、FD符号化の「標準」方法は、12.7−24.0%でビットレートを減少させる。
【0048】
従って、所与のフレーム中で正弦波成分の直接的及びFD符号化のビットレート最適な組合せを決定する2つのアルゴリズムを用いる符号化方法が与えられる。オーディオ信号を用いたシミュレーション実験では、提案されるアルゴリズムは、直接的な符号化に対して最大で27%のビットレートの低下を示した。提案されるアルゴリズムは更に、一般的に用いられるFD符号化法と比較して最大で7%のビットレートを低下させる。本発明について、単独の技術としてFD符号化に焦点を当てて考えてきたがが、方法の更なる実施例は、FD符号化をTD符号化と組み合わせて示すよう一般化される。このような結合TD/FD符号化法では、2つの符号化技術の強さを組み合わせる実施例を与えることが可能である。
【0049】
上述の実施例は、本発明を制限するものではなく例示的なものであって、当業者は、特許請求の範囲を逸脱することなく多くの他の実施例を設計することが可能であることに留意すべきである。特許請求の範囲において、括弧内に示す全ての参照符号は、特許請求の範囲を制限するものと考えられるべきではない。「有する」又は「含む」という単語は、特許請求の範囲に列挙する要素又は段階以外の要素又は段階の存在を排除するものではない。単数形で記載された要素は、その要素が複数存在する場合を排除するものではない。本発明は、幾つかの別々の要素を有するハードウエアによって、また、適切にプログラムされたコンピュータによって実現されうる。幾つかの手段を列挙した装置に関する請求項では、これらの手段のうちの幾つかは、同一のハードウエアアイテムによって実現されうる。互いに異なる従属項に幾つかの手段が記載されているという事実は、これらの手段の組合せが利用されうるものではないことを示すものではない。
【0050】
【表1】
【図面の簡単な説明】
【0051】
【図1】所与のフレームにおける正弦波成分(K=5)の直接的及び周波数差分的な符号化の全ての可能な組合せを表わすのに用いられる有向グラフDを示す図である。
【図2】本発明の実施例におけるスカラ振幅量子化器についての出力レベルの例を示す図である。
【図3a】K=5の場合の許可された解の木の例を示す図である。
【図3b】K=5の場合の許可された解の木の例を示す図である。
【図3c】K=5の場合の許可された解の木の例を示す図である。
【図4】割り当てとして(明細書中に定義した)問題1の可能な解を表わすグラフG(K=5)であり、明瞭性のため、幾つかの辺及び重みを示す図である。
【図5】図3の木に対応するグラフG中の割り当てを示す図である。
【図6a】トポロジー的に同一の及び別個の木の例を示す図である。
【図6b】トポロジー的に同一の及び別個の木の例を示す図である。
【図6c】トポロジー的に同一の及び別個の木の例を示す図である。
【図7】本発明を実現する符号化された信号中のトポロジー的に別個の解の木の数を正弦波成分の数Kの関数として示すグラフである。
【図8】本発明を実現するオーディオデータを伝送するシステムの簡単化されたブロック図である。
本発明は、正弦波モデルパラメータの周波数差分符号化に係る。
【0002】
近年、低ビットレートオーディオ圧縮に対するモデルに基づくアプローチがますます関心を集めている。一般的には、これらのパラメトリック法は、オーディオ波形を、様々な同時に存在する信号部分、例えば、正弦波部分、ノイズ状部分、及び/又は、遷移部分へと分解する。続いて、各信号部分を示すモデルパラメータが量子化され、符号化され、復号化器へ送信され、復号化器において、量子化された信号部分は再構成された信号を形成するよう合成され加算される。しばしば、オーディオ信号の正弦波部分は、振幅、周波数、及び場合によっては位相パラメータを用いて特定される正弦波モデルを用いて表わされる。殆どのオーディオ信号について、正弦波信号部分は、知覚的にノイズ部分及び遷移部分よりも重要であり、従って、正弦波モデルパラメータを表わすために比較的多くの量の全ビット割当量が割り当てられる。例えば、ティー・エス・ヴァーマ(T. S. Verma)及びティー・エイチ・ワイ・メン(T. H. Y. Meng)により、「6kbps乃至85kbpsのスケーラブルオーディオ符号化器(A 6 kbps to 85 kbps scalable audio coder)」、Proc. IEEE Inst,. Conf. Acoust., Speech Signal Processing, 第877−880頁、2000年、に記載の公知のスケーラブルオーディオ符号化器では、利用可能なビットのうちの70%よりも多くが、正弦波パラメータを表わすのに用いられる。
【0003】
通常は、正弦波モデルに必要なビットレートを減少するために、時間差分(TD)符号化法を用いた正弦波パラメータ間のフレーム間相関が利用される。現在信号フレーム中の正弦波成分は、先行フレーム中の量子化された成分に関連付けられ(従って時間・周波数平面上に「トーントラック(tonal track)」を形成し)、パラメータの差分(differences)が量子化され符号化される。現在フレーム中の成分であって過去の成分とはリンクできないものは、新しいトラックの起点であると考えられ、通常は差分符号化なしに直接的に符号化される。TD符号化は、変動のない信号領域中でビットレートを減少させるには効率的であるが、突然の信号変化を伴う領域では、比較的少ない成分がトーントラックに関連付けられうるため、従って多数の成分が直接的に符号化されるため、あまり効率的ではない。更に、復号化器において差分パラメータから信号を再構成することが可能であるよう、TD符号化は、先行フレームのパラメータが無事に到着したという仮定に必ず依存する。例えばインターネットのような損失の多いパケットネットワーク等の伝送路では、この仮定は妥当ではないかもしれない。従って、幾つかの場合には、TD符号化に代わるものが望まれる。
【0004】
このような代替策の1つに、正弦波成分間のフレーム間相関が利用される周波数差分(FD)符号化がある。FD符号化では、同じ信号フレームに属するパラメータ間の差分は量子化され、符号化され、従って先行フレームからのパラメータの依存性をなくす。RF符号化は、正弦波に基づく音声(speech)符号化においては周知であり、近年ではオーディオ符号化にも使用されている。一般的には、フレーム中の正弦波成分は周波数の昇順で量子化され符号化され、まず、最も低い周波数を有する成分が直接的に符号化され、次に、より高い周波数の成分が、それらに対して最も近くのより低い周波数の近傍に対して一回に一つずつ量子化され符号化される。このアプローチは単純であるが、最適ではないかもしれない。例えば、幾つかのフレーム中では、最近傍(nearest-neighbour)制約条件を緩めることがより効率的であるかもしれない。
【0005】
本発明に想到するにあたって、発明者は、より一般的な正弦波モデルパラメータのRF符号化の方法を探した。本発明の方法は、所与のパラメータ量子化器及び各量子化レベルに対応する符号語の長さ(ビット単位)について、フレーム中の正弦波成分の周波数差分及び直接符号化の最善の組合せを見つける。方法は、任意の成分対を含むパラメータの差を許すという意味で、即ち周波数領域の近傍である必要はないという意味で、既存の方法よりも一般的である。更に、上述の単純な方法とは異なり、最も効率的な結果が得られるならば、幾つかの(極端な場合は全ての)成分が直接的に符号化されてもよい。
【0006】
オーディオ信号を符号化する方法から、方法は、符号化されたフレーム中の所与の正弦波成分のパラメータを、同じフレーム中の他の成分に対して差分的に、又は、直接的に、即ち差分符号化なしに、符号化する段階を有することを特徴とする。
【0007】
様々な面から、本発明は特許請求の範囲の独立項に記載の方法及び装置を提供する。本発明の実施例の更なる望ましい特徴は従属項に記載されている。
【0008】
本発明の実施例について、例として、添付の図面を参照して、以下に詳述する。
【0009】
本発明の実施例は、インターネット等の信頼性の低い通信リンクを通じてオーディオ信号を伝送するシステム中に構成されうる。図8に示すこのようなシステムは、一般的には、オーディオ信号の源10と、源10からのオーディオ信号を伝送する伝送装置12とを有する。伝送装置12は、源10からのオーディオ信号を得るための入力ユニット20と、符号化されたオーディオ信号を得るためにオーディオ信号を符号化する符号化装置22と、符号化された信号をネットワークリンク26へ与えることにより符号化されたオーディオ信号を伝送又は記録する出力ユニット24とを含む。受信装置30は、符号化されたオーディオ信号を受信するようネットワークリンク26に接続される。受信装置30は、符号化されたオーディオ信号を受信する入力ユニット32と、復号化されたオーディオ信号を得るために符号化されたオーディオ信号を復号化する装置34と、復号化されたオーディオ信号を出力する出力ユニット36とを含む。出力信号は、適当な装置40によって要求されるように再生され、記録され、又は他の処理がされる。
【0010】
符号化装置22内では、信号は、所与の正弦波成分のパラメータを、同じフレーム中の他の成分に対して差分的に、又は直接的に、即ち、差分符号化なしに、符号化する段階を含む方法に従って符号化される。方法は、符号化処理中の任意の段階において差分符号化を用いるか否かを決定せねばならない。
【0011】
この決定に至るために方法によって解決されねばならない問題を定式化するために、多数の正弦波成分s1,...,skが信号フレーム中で推定されている状況を考える。各成分skは、振幅ak及び周波数の値ωkで表わされる。本願の説明においては、位相値を考える必要はなく、なぜならば、位相値は周波数パラメータから導出されるか直接量子化されうるからである。それでも、本発明は、実際は、位相値及び/又は減衰係数等の他の値へ拡張されることがわかるであろう。
【0012】
所与の成分のパラメータの量子化についての以下の可能性を考える。
(1)直接的な量子化(即ち、差分的でない)、又は
(2)より低い周波数の成分のうちの1つの成分の量子化されたパラメータに対する差分量子化。
【0013】
図1に示すように、直接的及び差分的な量子化の全ての可能な組合せの組を、有向グラフ(ダイグラフ)Dを用いて表わす。
【0014】
頂点(vertex)s1,...,skは、量子化されるべき正弦波成分を表わす。これらの頂点の間の辺(edge)は、差分符号化の可能性を表し、例えば、s1とs4の間の辺は、s1に対するs4のパラメータの量子化を表す(即ち、振幅パラメータについては
【0015】
【数1】
である)。頂点s0は、直接的な量子化の可能性を表わすために導入されるダミー頂点である。例えば、s0とs2の間の辺は、s2のパラメータの直接的な量子化を表す。各辺には、辺によって表わされる特定の量子化を選ぶときのレート及び歪みに関するコストに対応する重みwijが割り当てられる。基本的なタスクは、直接的及び差分的な符号化のレート・歪みの最適の組合せを見つけることである。このことは、各頂点s1,...,skにちょうど1つの入辺(in-edge)が割り当てられるよう、最小の総コストでD中にK個の辺の部分集合(subset)を見つけることに対応する。
【0016】
ここで、辺の重みの計算について説明する。原理的には、各辺の重みは、
wij=rij+λdij 式1
の形であり、式中、rijはこの特定の量子化に関連するレート(即ちビット数)であり、dijはこの特定の量子化に関連する歪みであり、λはラグランジュ乗数である。一般的には、図1に示すように、より高い添え字を有する成分sjは(既に量子化されている)より低い添え字の成分に対して量子化されるため、重みwijの正確な値は、より低い添え字を有する成分siの特定の量子化に依存する。換言すれば、wijの値は、siが量子化される前には計算されえない。この依存性を除去するために、ここでは、振幅パラメータについて図2に示されるように同様の量子化器が直接的及び差分的な量子化に用いられると想定する。
【0017】
図2中、縦列(column)1は、直接振幅量子化器についての出力レベルを示し、縦列2は差分振幅増幅器についての出力レベルを示し、縦列3は差分量子化後の達成可能な振幅レベルの組を示す。
【0018】
この仮定の下、直接的及び差分的量子化を通じて達成されうる量子化レベルは同じであり、所与の成分は、直接的な量子化が用いられるのか差分的な量子化が用いられるのかには関係なく、同様に量子化される。このことは、直接的及び差分的な符号化の任意の組合せに対して総歪みが一定であることを意味するため、式1中でλ=0とすることができる。更に、Dの全ての重みの値は、予めwij=rijとして計算されえ、ただし、
【0019】
【数2】
であり、
【0020】
(外1)
は、
【0021】
(外2)
を表わすのに必要とされるビットの数を表わす。この例では、
【0022】
(外3)
の値は、予め計算されたハフマン符号語テーブル中のエントリとして見つけることができる。
【0023】
例をよく理解するために、扱われている問題を定式化することが必要である。当該の信号フレームは、符号化されるべきK個の正弦波成分を含むと仮定し、最適FD符号化問題を以下のように定式化する:
問題1:辺の重みがwijである所与の有向グラフDについて、
(a)各頂点s1,...,skにちょうど1つの入辺が割り当てられ、及び、
(b)各頂点s1,...,skに最大で1つの出辺(out-edge)が割り当てられる
よう、全体の重みが最小となるK個の辺の集合を見つける。
【0024】
制約条件(a)は、K個の正弦波成分の夫々が、ちょうど一回量子化され符号化されることを保証するため、重要である。制約条件(b)は、K個の辺の解の木上の特定の簡単な構造を実行する。これは、復号化器に対して、送信された(デルタ)振幅及び周波数をどのように組み合わせるかを知らせるのに必要な辺情報の量を減少させるために重要である。図3は、制約条件(a)と(b)を満たす可能な解の木の例を示す。尚、例えば従来技術の提案で用いられる「標準」FD符号化設定は、図示の枠組みの図3cの特別な場合である。
【0025】
上述の問題を解決するとき、2つのアルゴリズム(アルゴリズム1及びアルゴリズム2と称する)が与えられる。アルゴリズム1は数学的に最適であるのに対して、アルゴリズム2はより低い計算上の費用で近似的な解を与える。
【0026】
アルゴリズム1:問題1を解決するために、グラフ理論で周知の問題であるいわゆる割り当て(assignment)問題として定式化する。有向グラフD(図1)を用いて、図4に示すグラフGを構築する。Gの頂点は、2つの部分集合へ分けられ得る。即ち、頂点s1,...,sk-1及びs0のK個のコピーを含む左側部分集合Xと、頂点s1,...,sk及び
【0027】
(外4)
で示されるK−1個のダミー頂点を含む右側部分集合Yへ分けられる。
【0028】
多数の辺がXとYの頂点を連結する。X中の頂点に連結される辺は有向グラフD中の出辺に対応し、頂点s1,...,sk∈Yに連結される辺は有向グラフD中の入辺に対応する。例えば、G中のs2∈Xからs4∈Yへの辺は、有向グラフD中の辺s2s4に対応する。従って、グラフG中の実線で示される辺は有向グラフD中の「差分符号化」辺を表わす。更に、頂点{s0}∈Xからs1,...,sk∈Yへの破線で示される辺は全て、成分s1,...,skの直接的符号化に対応する。X中の頂点を頂点s1,...,sk∈Yに連結する辺の重みは、有向グラフD中の対応する辺の重みと同じである。最後に、K−1個のダミー頂点
【0029】
(外5)
は、解の木の中の幾つかの頂点は「葉(leaves)」であってもよいこと、即ち、出辺を有さないこと、を表わすために用いられる。例えば、図3a中、頂点s2は葉である。グラフG中、このことは、s2∈Xから頂点
【0030】
(外6)
のうちの1つへの辺として表わされる。
【0031】
(外7)
に連結される全ての辺は、重みが0である。
【0032】
問題1の制約条件(a)及び(b)を満たすD中のK個の辺の各集合は、GにおけるY中の頂点に対するX中の頂点の割り当てとして、即ち各頂点にちょうど1つの辺が割り当てられるようなG中の2K−1個の辺の部分集合として表わされうる。図5a乃至図5cは、図3a乃至図3c中の木に対応する割り当ての例を示す。従って、問題1は、いわゆる割り当て問題として再び定式化されえ、これを以下、問題2と称するものとする。
【0033】
問題2:各頂点にちょうど1つの辺が割り当てられるよう、グラフG中で、総重み(total weight)が最小である2K−1の辺の集合を見つける。
【0034】
問題2を解決する幾つかのアルゴリズムがあり、例えば、エイチ・ダブリュ・クーン(H.W.Kuhn)著、「割り当て問題におけるハンガリー法(The Hungarian Method for the Assignment Problem)」、海軍研究ロジスティックス季刊誌(Naval Research Logistics Quarterly)、2:第83−97頁、1995年、に記載のO((2K−1)3)の算術演算で問題を解決するいわゆるハンガリー法がある。他の実現方法に、アール・ジョンカー(R. Jonker)及びエイ・ヴォルジェナン(A. Volgenant)著、「密及び粗な線形割り当て問題に対する最短増大路アルゴリズム(A Shortest Augmenting Path Algorithm for Dense and Sparse Linear Assignment Problems)」、コンピューティング(Computing)誌、第38巻、第325乃至340頁、1987年、に記載のアルゴリズムがある。複雑さはハンガリー法と同様であるが、ジョンカー・ヴォルジェナン・アルゴリズムは、実用面ではより高速である。更に、このアルゴリズムは粗問題をより高速に解決でき、このことはこの実施例のマルチフレームリンク問題において重要である。
【0035】
概して、アルゴリズム1は、以下の段階を有する。まず、有向グラフD(及びその結果としてグラフG)が構築される。次に、最小の重みを有するGにおける割り当て(問題2)が決定される。最後に、Gにおける割り当てから、直接的及び差分的な符号化の最適な組合せが容易に導出される。
【0036】
アルゴリズム2は、グラフDの頂点s1,...,skを添え字の昇順に一回に1つずつ処理する反復的な貪欲(greedy)アルゴリズムである。k番目の繰り返しにおいて、候補辺集合から頂点skの入辺のうちの1つが選択される。候補集合は、以前に選択された出辺のない頂点から出発するskの入辺と、直接符号化辺s0skとからなる。この集合から、最小の重みを有する辺が選択される。この手順により、問題1の制約条件(a)及び(b)を満たすK個の辺の集合が得られる。一般的には、この貪欲アプローチは最適ではなく、即ち、制約条件(a)及び(b)を満たすより低い総重みを有するK個の辺の他の集合が存在しうる。アルゴリズム2は、O(K2)の計算上の複雑さを有する。
【0037】
上述のように符号化される正弦波(デルタ)パラメータに加え、本発明を具現化する符号化された信号は、復号化器においてどのようにパラメータを組み合わせるかを表わす副次情報を含まねばならない。1つの可能性は、考えられうる各解の木に対して、副次情報アルファベット中の1つの記号(symbol)を割り当てることである。しかしながら、異なる解の木(solution tree)の数は大きく、例えばフレーム中にK=25個の正弦波成分があるとき、異なる解の木の数は約1018であり、これは副次情報アルファベット中の解の木に索引付けするための62ビットに対応する。明らかに、この数は殆どの用途において大きすぎる。幸いなことに、(デルタ)パラメータシーケンスに特定の順序が適用されていれば、副次情報アルファベットは、トポロジー的に別個の解の木を表わすだけでよい。トポロジー的に別個の木であること及びパラメータ順序の表記をはっきりとさせるため、図6a及び図6c中の解の木の例と、木の下に列挙された対応するパラメータシーケンスとを考える。図6a及び図6b中のスパニングツリーは、夫々が3つの辺と2つの辺の枝から構成され、従って副次情報アルファベット中の同じ記号で表わされるため、トポロジー的に同一である。逆に、図6cの木は、5つの辺を含む単一の枝から構成され、トポロジー的に他の木とは別個である。トポロジー的な木構造を知り、例えば(デルタ)パラメータはまず最初に最長の枝でパラメータストリーム中に枝ごとに生ずると想定すると、復号化器は受信したパラメータを正確に組み合わせることが可能である。
【0038】
従って、本発明の望ましい実施例は、トポロジー的に別個の解の木に対応する記号を有する副次情報アルファベットを提供する。副次情報の上限は、このような木の数によって与えられる。トポロジー的に別個の木の数についての表現がそれに続く。
【0039】
図6a乃至図6cの例に示すように、解の木の構造は、木の中の各枝の長さを特定することによって表わされうる。最長の枝が最初であるという順序を想定すると、トポロジー的に別個の木の集合は、和がKとなる増加しない正の整数の別個のシーケンスによって特定され、組み合わせ論(combinatorics)では、このようなシーケンスは正の整数Kの「整数区画(integer partitions)」と称される。例えば、K=5のとき、次の7つの整数区画がある:{5}(図1c),{4,1},{3,2}(図1a及び図1b),{3,1,1},{2,2,1},{2,1,1,1}及び{1,1,1,1,1}である。従って、K=5のとき、7つのトポロジー的に別個の解の木があり、副次情報アルファベットは7つの記号からなる。Pj(K)を、最初の整数がjであるK個の整数区画の数を表わすものとすると、別個の解の木の数Pは以下の帰納式で表わすことができる。
【0040】
【数3】
但し、
【0041】
【数4】
図7は、正弦波成分の数Kの関数としてトポロジー的に別個の木の数を示す図である。従って、K=25のときの副次情報アルファベットのインデックス付けは、最大で11ビットを必要とする。尚、グラフは副次情報の上限を示し、例えばエントロピー符号化を用いる統計的な性質の利用は副次情報レートを更に減少させうる。
【0042】
提案されるアルゴリズムのパフォーマンスは、オーディオ信号を用いたシミュレーション研究で示されうる。44.1kHzのレートでサンプリングされ、約20秒間の持続時間で夫々サンプリングされた4つの異なるオーディオ信号は、連続するフレーム間に50%の重なり合いを有するHanningウィンドウを用いて1024サンプルの固定長のフレームへ分割された。
【0043】
各信号フレームは、そのパラメータがマッチング追跡アルゴリズムを用いて抽出される固定数のK=25個の、一定振幅、一定周波数の正弦波成分を有する正弦波モデルを用いれ表わされた。振幅及び周波数パラメータは、夫々20%及び0.5%の相対量子化レベル間隔を用いて対数領域で均一に量子化される。同様に相対量子化レベルは、図2に示すような直接的及び差分的量子化に使用され、量子化されたパラメータはハフマン符号化を用いて符号化された。
【0044】
各フレームについてどのように直接的及びFD符号化を組み合わせるかを決定するのにアルゴリズム1及び2を用いて、実験が行われた。更に、振幅及び周波数のパラメータが図3c中、K=5について示される「標準」FD符号化形態を用いて量子化されるシミュレーションが行われた。最後に、FD符号化の可能な利得を決定するために、パラメータは、直接的に、即ち差分符号化なしに量子化された。各実験は、実験において推定された異なるハフマン符号を用いたものである。
【0045】
これらの各符号化手順について、(デルタ)振幅及び周波数を符号化するのに必要なビットレートRparsが(1次のエントロピーを用いて)推定された。更に、アルゴリズム1及び2は、解の木構造に関する情報が復号化器へ送信されることを必要とするため、この副次情報を表わすのに必要なビットレートRS.Iもまた推定された。以下の表1は、様々な符号化戦略及びテスト信号についての推定されたビットレートを示す。このコンテキストでは、同様の量子化器が全ての実験に対して使用され、従ってテスト信号は同じ歪みレベルで符号化されるため、ビットレートの比較は妥当である。
【0046】
以下の表1の縦列は、様々な符号化法及びテスト信号に対するビットレート[kbps]を示す。テーブルの縦列は、Rpars:(デルタ)振幅及び周波数についてのビットレートと、RS.I:副次情報(木構造)に必要なレートと、RTotal:総レートである。利得は、様々なFD符号化法での直接的な符号化(差分的ではない)に対する相対的な改善である。
【0047】
表1は、直接的及びFD符号化の組合せを決定するアルゴリズム1を用いることは、直接的な符号化に対する18.8%−27.0%の範囲のビットレート低下を与えることを示す。アルゴリズム2は、18.5%−26.7%の範囲におけるビットレート低下で殆ど同じ動作を与える。アルゴリズム2から生ずる僅かに低い副次情報は、アルゴリズムがより少ないがより長い「枝」を生じさせる傾向があるため、観察される異なる解の木の数を減少させることによる。最後に、FD符号化の「標準」方法は、12.7−24.0%でビットレートを減少させる。
【0048】
従って、所与のフレーム中で正弦波成分の直接的及びFD符号化のビットレート最適な組合せを決定する2つのアルゴリズムを用いる符号化方法が与えられる。オーディオ信号を用いたシミュレーション実験では、提案されるアルゴリズムは、直接的な符号化に対して最大で27%のビットレートの低下を示した。提案されるアルゴリズムは更に、一般的に用いられるFD符号化法と比較して最大で7%のビットレートを低下させる。本発明について、単独の技術としてFD符号化に焦点を当てて考えてきたがが、方法の更なる実施例は、FD符号化をTD符号化と組み合わせて示すよう一般化される。このような結合TD/FD符号化法では、2つの符号化技術の強さを組み合わせる実施例を与えることが可能である。
【0049】
上述の実施例は、本発明を制限するものではなく例示的なものであって、当業者は、特許請求の範囲を逸脱することなく多くの他の実施例を設計することが可能であることに留意すべきである。特許請求の範囲において、括弧内に示す全ての参照符号は、特許請求の範囲を制限するものと考えられるべきではない。「有する」又は「含む」という単語は、特許請求の範囲に列挙する要素又は段階以外の要素又は段階の存在を排除するものではない。単数形で記載された要素は、その要素が複数存在する場合を排除するものではない。本発明は、幾つかの別々の要素を有するハードウエアによって、また、適切にプログラムされたコンピュータによって実現されうる。幾つかの手段を列挙した装置に関する請求項では、これらの手段のうちの幾つかは、同一のハードウエアアイテムによって実現されうる。互いに異なる従属項に幾つかの手段が記載されているという事実は、これらの手段の組合せが利用されうるものではないことを示すものではない。
【0050】
【表1】
【図面の簡単な説明】
【0051】
【図1】所与のフレームにおける正弦波成分(K=5)の直接的及び周波数差分的な符号化の全ての可能な組合せを表わすのに用いられる有向グラフDを示す図である。
【図2】本発明の実施例におけるスカラ振幅量子化器についての出力レベルの例を示す図である。
【図3a】K=5の場合の許可された解の木の例を示す図である。
【図3b】K=5の場合の許可された解の木の例を示す図である。
【図3c】K=5の場合の許可された解の木の例を示す図である。
【図4】割り当てとして(明細書中に定義した)問題1の可能な解を表わすグラフG(K=5)であり、明瞭性のため、幾つかの辺及び重みを示す図である。
【図5】図3の木に対応するグラフG中の割り当てを示す図である。
【図6a】トポロジー的に同一の及び別個の木の例を示す図である。
【図6b】トポロジー的に同一の及び別個の木の例を示す図である。
【図6c】トポロジー的に同一の及び別個の木の例を示す図である。
【図7】本発明を実現する符号化された信号中のトポロジー的に別個の解の木の数を正弦波成分の数Kの関数として示すグラフである。
【図8】本発明を実現するオーディオデータを伝送するシステムの簡単化されたブロック図である。
Claims (23)
- 符号化されたフレーム中の所与の正弦波成分のパラメータを、同じフレーム中の他の成分に対して差分的に、又は、直接的に、即ち差分符号化なしに、符号化する段階を有することを特徴とする、オーディオ信号を符号化する方法。
- パラメータが差分的に符号化されるべきか直接的に符号化されるべきかをアルゴリズムにより決定する段階を含む、請求項1記載の方法。
- 前記アルゴリズムは、パラメータが差分的に符号化されるべきか直接的に符号化されるべきかについて最適の決定を行う、請求項2記載の方法。
- 前記アルゴリズムは、
(a)直接的に及び差分的に量子化された成分の全ての可能な組合せの集合の有向グラフDを構築し、そこからグラフGを構築する段階と、
(b)最小の総重みでG中の割り当てを決定し、
(c)前記G中の割り当てから直接的及び差分的符号化の最善の組合せを導出する段階とを含む、請求項2又は3記載の方法。 - 前記アルゴリズムは、パラメータが差分的に符号化されるべきか直接的に符号化されるべきかについて近似的な決定を行う、請求項2記載の方法。
- 前記アルゴリズムは、反復的な貪欲アルゴリズムである、請求項2又は5記載の方法。
- 前記アルゴリズムは、
(a)直接的に及び差分的に量子化された成分の全ての可能な組合せの集合の有向グラフDを構築し、そこからグラフGを構築する段階と、
(b)グラフGの頂点s1,...,skを添え字の昇順に一回に一つずつ処理する段階と、
(c)k番目の繰り返しにおいて、以前に選択された出辺のない頂点から出発するskの入辺及び直接的符号化辺s0skを有する候補辺集合から頂点skの入辺のうちの1つが選択される段階と、
(d)前記集合から、最小の重みを有する辺を選択する段階とを含む、請求項6記載の方法。 - 各頂点にちょうど1つの辺が割り当てられるよう最小の総重みを有する2K−1個の辺の集合のグラフG中で最適な組合せを探す段階を含む、請求項1乃至7のうちいずれか一項記載の方法。
- 最小の重みを有する辺の集合は、前記割り当て問題を解決するハンガリー法の使用を含む手順によって見つけられる、請求項8記載の方法。
- 最小の重みを有する辺の集合は、前記割り当て問題を解決するための最短増大経路アルゴリズムの使用を含む手順によって見つけられる、請求項8記載の方法。
- フレーム中の構成要素が差分的に符号化されるか又は直接的に符号化されるかを特定する副次情報を発生する段階を更に含む、請求項1乃至10のうちいずれか一項記載の方法。
- 所与の正弦波成分のパラメータを符号化する手段を有する、オーディオ信号を符号化する装置であって、
符号化されたフレーム中のパラメータは、同じフレーム中の他の成分に対して差分的に、又は、直接的に、即ち差分符号化なしに符号化されることを特徴とする、装置。 - 請求項1乃至11のうちいずれか一項記載の方法に従って動作可能な請求項12記載の符号化装置。
- 所与の正弦波成分のパラメータを有する符号化されたオーディオ信号を復号化する方法であって、
前記パラメータは、同じフレーム中の他の成分に対して差分的に、又は、直接的に、即ち差分符号化なしに、符号化されたフレーム中で符号化されていることを特徴とする方法。 - 前記信号は請求項1乃至11のうちいずれか一項記載の方法によって符号化されている、請求項12記載の符号化されたオーディオ信号を復号化する方法。
- 前記符号化された信号中の副次情報は、フレーム中の成分が差分的に復号化されるべきか直接的に復号化されるべきかを決定するべく解釈される、請求項15記載の方法。
- 符号化されたフレーム中で、同じフレーム中の他の成分に対して差分的に、又は直接的に、即ち差分符号化なしに符号化された所与の正弦波成分のパラメータを含む符号化されたオーディオ信号を復号化する装置。
- 請求項14乃至16のうちいずれか一項記載の方法によって動作する請求項17記載の装置。
- 符号化されたフレーム中で、同じフレーム中の他の成分に対して差分的に、又は直接的に、即ち差分符号化なしに符号化された所与の正弦波成分のパラメータを含む符号化されたオーディオ信号。
- フレーム中の成分が差分的に符号化されるか直接的に符号化されるかを特定する副次情報を含む、請求項19記載の符号化されたオーディオ信号。
- 請求項19又は20記載の符号化されたオーディオ信号が格納された記憶媒体。
- 符号化されたオーディオ信号を送信又は記録する装置であって、
(a)オーディオ信号を取得する入力ユニットと、
(b)前記符号化されたオーディオ信号を取得するよう前記オーディオ信号を符号化する請求項12又は13記載の装置と、
(c)前記符号化されたオーディオ信号を送信又は記録する出力ユニットとを有する装置。 - 符号化されたオーディオ信号を受信及び/又は再生する装置であって、
(a)前記符号化されたオーディオ信号を受信する入力ユニットと、
(b)復号化されたオーディオ信号を取得するよう前記符号化されたオーディオ信号を復号化する請求項17又は18記載の装置と、
(c)前記復号化されたオーディオ信号を出力する出力ユニットとを含む、装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01203934 | 2001-10-19 | ||
EP02077844 | 2002-07-15 | ||
PCT/IB2002/004018 WO2003036619A1 (en) | 2001-10-19 | 2002-09-27 | Frequency-differential encoding of sinusoidal model parameters |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005506581A true JP2005506581A (ja) | 2005-03-03 |
Family
ID=26077015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003539025A Withdrawn JP2005506581A (ja) | 2001-10-19 | 2002-09-27 | 正弦波モデルパラメータの周波数差分符号化 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7269549B2 (ja) |
EP (1) | EP1442453B1 (ja) |
JP (1) | JP2005506581A (ja) |
KR (1) | KR20040055788A (ja) |
CN (1) | CN1312659C (ja) |
AT (1) | ATE338999T1 (ja) |
DE (1) | DE60214584T2 (ja) |
WO (1) | WO2003036619A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008077638A (ja) * | 2006-09-19 | 2008-04-03 | Samsung Electronics Co Ltd | 自動搬送システムの作業割当装置及びその方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE332003T1 (de) * | 2002-04-22 | 2006-07-15 | Koninkl Philips Electronics Nv | Parametrische beschreibung von mehrkanal-audio |
KR101317269B1 (ko) | 2007-06-07 | 2013-10-14 | 삼성전자주식회사 | 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치 |
KR20090008611A (ko) * | 2007-07-18 | 2009-01-22 | 삼성전자주식회사 | 오디오 신호의 인코딩 방법 및 장치 |
KR101346771B1 (ko) | 2007-08-16 | 2013-12-31 | 삼성전자주식회사 | 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치 |
KR101410230B1 (ko) | 2007-08-17 | 2014-06-20 | 삼성전자주식회사 | 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치 |
KR101425354B1 (ko) * | 2007-08-28 | 2014-08-06 | 삼성전자주식회사 | 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치 |
KR101380170B1 (ko) * | 2007-08-31 | 2014-04-02 | 삼성전자주식회사 | 미디어 신호 인코딩/디코딩 방법 및 장치 |
EP2331201B1 (en) | 2008-10-01 | 2020-04-29 | Inspire Medical Systems, Inc. | System for treating sleep apnea transvenously |
US20110153337A1 (en) * | 2009-12-17 | 2011-06-23 | Electronics And Telecommunications Research Institute | Encoding apparatus and method and decoding apparatus and method of audio/voice signal processing apparatus |
US8489403B1 (en) * | 2010-08-25 | 2013-07-16 | Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ | Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission |
PL232466B1 (pl) | 2015-01-19 | 2019-06-28 | Zylia Spolka Z Ograniczona Odpowiedzialnoscia | Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE211326T1 (de) * | 1993-05-31 | 2002-01-15 | Sony Corp | Verfahren und vorrichtung zum kodieren oder dekodieren von signalen und aufzeichnungsmedium |
BR9405445A (pt) * | 1993-06-30 | 1999-09-08 | Sony Corp | Aparelho codificador e decodificador de sinal apropriado para codificar um sinal de entrada e decodificar um sinal codificado, suporte de gravação onde sinais codificados são gravados, e processo de codificação e de decodificação de sinal para codificar um sinal de entrada e decodificar um sinal codificado. |
BE1007617A3 (nl) * | 1993-10-11 | 1995-08-22 | Philips Electronics Nv | Transmissiesysteem met gebruik van verschillende codeerprincipes. |
DE69938016T2 (de) * | 1998-05-27 | 2008-05-15 | Microsoft Corp., Redmond | Verfahren und Vorrichtung zur Maskierung des Quantisierungsrauschens von Audiosignalen |
US6510407B1 (en) * | 1999-10-19 | 2003-01-21 | Atmel Corporation | Method and apparatus for variable rate coding of speech |
-
2002
- 2002-09-27 JP JP2003539025A patent/JP2005506581A/ja not_active Withdrawn
- 2002-09-27 WO PCT/IB2002/004018 patent/WO2003036619A1/en active IP Right Grant
- 2002-09-27 DE DE60214584T patent/DE60214584T2/de not_active Expired - Fee Related
- 2002-09-27 KR KR10-2004-7005778A patent/KR20040055788A/ko not_active Application Discontinuation
- 2002-09-27 AT AT02762729T patent/ATE338999T1/de not_active IP Right Cessation
- 2002-09-27 CN CNB028207076A patent/CN1312659C/zh not_active Expired - Fee Related
- 2002-09-27 EP EP02762729A patent/EP1442453B1/en not_active Expired - Lifetime
- 2002-10-14 US US10/270,948 patent/US7269549B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008077638A (ja) * | 2006-09-19 | 2008-04-03 | Samsung Electronics Co Ltd | 自動搬送システムの作業割当装置及びその方法 |
JP4675360B2 (ja) * | 2006-09-19 | 2011-04-20 | 三星電子株式会社 | 自動搬送システムの作業割当装置及びその方法 |
US8731697B2 (en) | 2006-09-19 | 2014-05-20 | Samsung Electronics Co., Ltd. | Job assignment apparatus of automatic material-handling system and method thereof |
Also Published As
Publication number | Publication date |
---|---|
US20040204936A1 (en) | 2004-10-14 |
WO2003036619A1 (en) | 2003-05-01 |
US7269549B2 (en) | 2007-09-11 |
EP1442453B1 (en) | 2006-09-06 |
DE60214584D1 (de) | 2006-10-19 |
CN1312659C (zh) | 2007-04-25 |
DE60214584T2 (de) | 2007-09-06 |
EP1442453A1 (en) | 2004-08-04 |
ATE338999T1 (de) | 2006-09-15 |
CN1571992A (zh) | 2005-01-26 |
KR20040055788A (ko) | 2004-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4296753B2 (ja) | 音響信号符号化方法及び装置、音響信号復号方法及び装置、並びにプログラム及び記録媒体 | |
WO1995001680A1 (fr) | Dispositif de codage de signaux numeriques, son dispositif de decodage, et son support d'enregistrement | |
JPH08263099A (ja) | 符号化装置 | |
KR20070085532A (ko) | 스테레오 부호화 장치, 스테레오 복호 장치 및 그 방법 | |
JP2005506581A (ja) | 正弦波モデルパラメータの周波数差分符号化 | |
CN101027718A (zh) | 可扩展性编码装置以及可扩展性编码方法 | |
JP2002372996A (ja) | 音響信号符号化方法及び装置、音響信号復号化方法及び装置、並びに記録媒体 | |
JP2006011091A (ja) | 音声符号化装置、音声復号化装置、およびこれらの方法 | |
JPH1097295A (ja) | 音響信号符号化方法及び復号化方法 | |
EP1385150A1 (en) | Method and system for parametric characterization of transient audio signals | |
JP2000155597A (ja) | デジタル音声符号器において使用するための音声符号化方法 | |
KR100952065B1 (ko) | 부호화 방법 및 장치, 및 복호 방법 및 장치 | |
WO2009122757A1 (ja) | ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法 | |
KR100508618B1 (ko) | 피치 주기 탐색 범위 설정 장치, 피치 주기 탐색 장치,적응 음원 벡터의 생성 장치, 음성 부호화 장치, 음성복호화 장치, 음성 신호 송신 장치, 음성 신호 수신 장치,이동국 장치 및 기지국 장치 | |
JP3472279B2 (ja) | 音声符号化パラメータ符号化方法及び装置 | |
JPH09135176A (ja) | 情報符号化装置および方法、情報復号化装置および方法、並びに情報記録媒体 | |
JP4578145B2 (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 | |
JP2958726B2 (ja) | 反復性をもつサンプル化アナログ信号をコード化しデコードするための装置 | |
Chang et al. | Smoothed DPCM codes | |
JP3099876B2 (ja) | 多チャネル音声信号符号化方法及びその復号方法及びそれを使った符号化装置及び復号化装置 | |
JP2006119301A (ja) | 音声符号化方法、広帯域音声符号化方法、音声符号化装置、広帯域音声符号化装置、音声符号化プログラム、広帯域音声符号化プログラム及びこれらのプログラムを記録した記録媒体 | |
Jensen et al. | Schemes for optimal frequency-differential encoding of sinusoidal model parameters | |
JP2018124304A (ja) | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、プログラム、および記録媒体 | |
JP4480135B2 (ja) | オーディオ信号圧縮方法 | |
JPH05206955A (ja) | 反復性をもつサンプル化されたアナログ信号のコード化方法およびその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050921 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20070507 |