JP2005165056A - オーディオ信号符号化装置及び方法 - Google Patents

オーディオ信号符号化装置及び方法 Download PDF

Info

Publication number
JP2005165056A
JP2005165056A JP2003405032A JP2003405032A JP2005165056A JP 2005165056 A JP2005165056 A JP 2005165056A JP 2003405032 A JP2003405032 A JP 2003405032A JP 2003405032 A JP2003405032 A JP 2003405032A JP 2005165056 A JP2005165056 A JP 2005165056A
Authority
JP
Japan
Prior art keywords
audio signal
block
short
block length
allowable error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003405032A
Other languages
English (en)
Inventor
Masanobu Funakoshi
正伸 船越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003405032A priority Critical patent/JP2005165056A/ja
Publication of JP2005165056A publication Critical patent/JP2005165056A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 符号化効率を保ちながらプリエコーを抑制し、音質の良いビットストリームを効率的に作成すること。
【解決手段】 オーディオ入力信号を処理単位に分割するフレーム分割器(1)と、処理単位毎の特徴データを出力する聴覚心理演算器(3)と、特徴データに基づいて、処理単位毎にロングブロック長かショートブロック長かを判定するブロック長判定器(4)と、ロングブロック長の場合に処理単位の許容誤差エネルギーを算出し、ショートブロック長の場合に前記処理単位のオーディオ信号をブロック化し、各ブロックの許容誤差エネルギーを算出するフィルタバンク(2)と、ショートブロックの場合に、前記許容誤差エネルギーに基づいてショートブロックをグループにまとめるグループ判定器(6)と、前記グループ毎または前記処理単位毎に、前記オーディオ信号を符号化する符号化手段(6〜8)とを有する。
【選択図】 図1

Description

本発明は、デジタルオーディオ信号の符号化装置及び方法に関し、特に、変換ブロック長の変更が可能な変換符号化技術を利用したオーディオ信号符号化装置及び方法に関する。
近年、高音質、かつ高効率なオーディオ信号符号化技術は、DVD-Videoの音声トラックや、半導体メモリやHDDなどを利用した携帯オーディオプレイヤー、インターネットを介した音楽配信、家庭内LANにおけるホームサーバへの楽曲蓄積などに広く利用され、幅広く普及するとともにその重要性も増している。
このようなオーディオ信号符号化技術の多くは、変換符号化技術を利用して時間周波数変換を行っている。例えば、MPEG-2 AACやDolby Digital(AC-3)などでは、MDCTなどの直交変換単体でフィルタバンクを構成しており、MPEG-1 Audio Layer3(MP3)やATRAC(MDに利用されている符号化方式)では、QMFなどのサブバンド分割フィルタと直交変換を多段接続してフィルタバンクを構成している。
変換符号化方式では、基本的にはフィルタバンクによって周波数成分に変換された入力信号を、人間の聴覚の周波数分解能に基づいて設定される分割周波数帯域ごとにまとめ、量子化時に各分割周波数帯域毎の正規化係数を決定し、正規化係数と量子化スペクトルの組み合わせで周波数成分を表現することで情報量を削減している。MPEG-2 AACでは、この分割周波数帯域をスケールファクタバンド(SFB)と呼び、正規化係数をスケールファクタと呼称する。
更に、これらの高効率オーディオ符号化技術では、人間の聴覚特性を利用したマスキング分析を行うことによって、マスキングされると判断したスペクトル成分を取り除く、あるいはマスクされる量子化誤差を許容することにより、スペクトルを表現するための情報量を削減し、圧縮効率を高めている。
これらの高効率オーディオ符号化技術で用いられているマスキング分析は、主に、静寂時の可聴周波数領域によるマスキングと、臨界帯域におけるマスカーによる周波数マスキングである。
上記マスキング分析により、人間に感知できないと判断される信号は主に高周波域の信号になるため、通常の場合、高周波成分の量子化誤差は多少大きくなってもマスキングされ得る。
ところが、変換符号化方式では、オーディオ入力信号に急激な変化がある、いわゆる過渡状態の場合、急激な変化が起こっている部分の高周波成分の量子化誤差が、急激な変化の直前や直後の信号にまで影響を与えるため、リンギングノイズが生じる。
人間の聴覚特性として、大きな音が発生した場合、その直前と直後の時間は音が聞こえづらくなる。これを時間マスキング効果という。大きな音の後に聞こえなくなる時間は、個人差はあるが約100msec程度と比較的長い。しかしながら、直前に働くマスキング効果の時間(プリマスキング時間)は約5〜6msecと短い。従って、リンギングノイズが生じると、大きな音の前のノイズは感知されやすくなってしまう。これは一般にプリエコーと呼ばれる現象である。
以下、この現象を図を用いて説明する。
図11(a)は、急激に振幅が変化しているオーディオ入力信号の一例である。この信号を、MPEG-2 AACの通常の変換ブロック長である2048サンプルブロックで符号化・復号化したオーディオ信号の例を図11(b)に示している。図示したように急激な信号の変化の部分で生じている高周波域の量子化誤差が、ブロック全域に亘って影響している。
前述したように、振幅が急激に変化する部分の直前では、時間マスキング効果によって人間はノイズを感知できない。しかしながら、入力信号が音楽用CDに用いられているPCM信号と同様な44.1KHzサンプリング周波数を用いていると仮定して、ブロック長を時間に換算すると、2048サンプルブロックの時間は2048÷44100×1000=約46.44msとなるため、この前半の時間にノイズが生じているとしてもプリマスキング時間をはみだしてしまい、人間はプリエコーを感知してしまう。
これを抑制するための一方法として、種々のオーディオ符号化方式では、入力信号の急激な変化を検知して変換ブロック長を短くすることにより、急激な変化による高周波成分の量子化誤差が、変化直前の部分に及ばないようにすることで、プリエコーの発生を抑制している。
図12では、MPEG-2 AACにおけるショートブロック長である256サンプルブロックで図11(a)に示すオーディオ信号を符号化、復号化した信号を示している。この場合、入力信号の急激な変化による高周波数域の量子化誤差の影響は、変化が発生している256サンプルブロックの中に閉じ込められてしまう。先ほどと同様に、このブロック長を44.1KHzサンプリング周波数で時間に換算すると、約5.80msとなるため、プリマスキング効果によりこのノイズを人間はほぼ感知できなくなり、結果としてプリエコーは消える。
ところが、一般にブロック長を短くすると、周波数分解能が落ちることによりマスキング分析の精度が落ちるばかりでなく、量子化時に使用するスケールファクタバンドがブロックの数だけ増大するために、スケールファクタによって消費される情報量が増えてしまい、量子化時に本来ならスペクトル情報に割り当てるべきビットがスケールファクタに消費されてしまうため、符号化効率が低下する。その結果、特に低ビットレート時には量子化誤差が厳密にマスキングできなくなるため、ブロック長が長い場合に比較して、ノイズが感知されやすくなる恐れがある。
そこで、MPEG-2 AACでは、ショートブロックで処理するときに、各ブロックに含まれる信号の特性によって複数のブロックをグループ化し、同じグループに含まれるブロックではスケールファクタを共有することによって、スケールファクタによって消費されるビットを削減する仕組みが規格上定められている。これをグルーピングと呼ぶ。
MPEG-2 AACでは、適切なグルーピングを行うことによって、ショートブロックで変換を行った場合の符号化効率の低下を抑制しつつ、効果的にプリエコーの発生を抑えることが可能である。
グルーピングではスケールファクタを異なるショートブロックで共有するため、本来ならば、スケールファクタを決定した後で、スケールファクタのパターンが似通っているショートブロックを同じグループにまとめることが望ましい。また、スケールファクタは入力信号の変化に応じて変化するため、ショートブロックのグループも入力信号の変化に合致していないと、復号時の量子化誤差が大きくなる可能性がある。
また、符号化効率を優先するあまりに多くのショートブロックを同じグループにしてしまうと、量子化誤差が聴覚上感知できるレベルまで大きくなってしまう危険性がある。MPEG-2 AACの場合、非特許文献1に記載の規格上ではショートブロックは必ず2つ以上のグループから構成されることになっている。
特許文献1には、隣接するブロック、もしくはグループを統合した場合のスペクトル変動指標を全ての組み合わせで算出し、この変動指標と閾値を比較することによってグループの判定を行う技術が開示されている。
また、特許文献2には、ブロック浮動演算のコンテキストにおいて、隣接するブロックのスケールファクタを共有する方法が提案されている。
しかしながら、ショートブロックとなるフレームが連続している場合は、1つのフレーム内に2つのグループという分け方も考えられるが、ショートブロックフレームが単体で存在する場合は、過渡状態前の部分と、信号が激しく変化している部分と、変化後の定常状態に戻る部分という少なくとも3つ以上のグループが構成されることが望ましい。
特開2003−108192号公報 特開平4−304031号公報 ISO/IEC 13818−7
ところが、MPEG-2 AAC規格書(非特許文献1参照)には、グルーピング情報をビットストリーム上に格納する書式情報や、グルーピング情報の復号化方法は記載されているものの、ショートブロックのグループを決定する方法についての記述が一切されていない。
また、ISOのMPEG-4 Ver.1リファレンスプログラムでは、グループ分けのパターンを予め決めておいて、全てのショートブロックフレームを同じグループパターンで処理するように実装されているが、これでは刻々と変化する入力情報とグルーピングパターンが合致せず、音質が劣化してしまう。
最も単純なグループ判定手法としては、全てのブロックのスケールファクタを算出した後に、隣接するブロック間でスケールファクタの類似の度合いを判定することによってグループを判定する方法がある。しかし、スケールファクタが実際に決定されるのは量子化処理後であるため、この手法では、グループ判定後に再度量子化をやり直すことになってしまい、処理量のオーバヘッドが著しく大きくなってしまうため、現実的ではない。
また、特許文献1に記載の方法では、変動指標を計算するために多くの計算量が要求され、また、グループ統合の決定を行う度に繰り返し計算を行わなければならないため結果として処理効率が落ちる。また、繰り返し計算を行う度に変動指標に累積される誤差が増して、結果として入力信号に合致しないグルーピングが行われてしまう可能性がある。
また、特許文献2に記載の方法では、ブロックのスペクトルピークのみを用い、ピーク間の差分が固定値を超えているかどうかで判断しているが、周波数軸上でピークがどこに現れるかについて考慮されていない。
また、これらの先行技術では、前後フレームの状況より考えられる最小グループ数は考慮されていない。
本発明は上記問題点を鑑みてなされたものであり、符号化効率を保ちながらプリエコーを抑制し、音質の良いビットストリームを効率的に作成することを目的とする。
上記目的を達成するために、本発明のオーディオ信号符号化装置は、オーディオ入力信号を処理単位に分割する分割手段と、前記処理単位毎に前記オーディオ入力信号を分析して、特徴データを出力する分析手段と、前記特徴データに基づいて、前記処理単位毎にオーディオ信号の変換ブロック長がロングブロック長であるかショートブロック長であるかを判定する判定手段と、ロングブロック長の場合に前記処理単位の許容誤差エネルギーを算出し、ショートブロック長の場合に前記処理単位のオーディオ信号をブロック化し、各ブロックの許容誤差エネルギーを算出する算出手段と、ショートブロックの場合に、前記許容誤差エネルギーに基づいてショートブロックをグループにまとめるグルーピング手段と、前記変換ブロック長がショートブロックの場合に前記グループ毎に、ロングブロックの場合に前記処理単位毎に、前記オーディオ信号を符号化する符号化手段とを有する。
また、本発明のオーディオ信号符号化方法は、オーディオ入力信号を処理単位に分割する分割工程と、前記処理単位毎に前記オーディオ入力信号を分析して、特徴データを出力する分析工程と、前記特徴データに基づいて、前記処理単位毎にオーディオ信号の変換ブロック長がロングブロック長であるかショートブロック長であるかを判定する判定工程と、ロングブロック長の場合に前記処理単位の許容誤差エネルギーを算出し、ショートブロック長の場合に前記処理単位のオーディオ信号をブロック化し、各ブロックの許容誤差エネルギーを算出する算出工程と、ショートブロックの場合に、前記許容誤差エネルギーに基づいてショートブロックをグループにまとめるグルーピング工程と、前記変換ブロック長がショートブロックの場合に前記グループ毎に、ロングブロックの場合に前記処理単位毎に、前記オーディオ信号を符号化する符号化工程とを有する。
また、処理対象の処理単位のオーディオ信号の変換ブロック長がショートブロックであり、前後の処理単位のオーディオ信号の変換ブロック長のが共にロングブロックであると判定された場合、最小ブロック数を3に設定する。更に、処理対象の処理単位のオーディオ信号の変換ブロック長がショートブロックであり、前後の処理単位のオーディオ信号の変換ブロック長の少なくともいずれか一方がショートブロックであると判定された場合、最小ブロック数を2に設定する。
上記構成によれば、フレーム内の符号量を割り当てる基準となる許容誤差エネルギーが類似しているブロックを同じグループと判定することによって、人間の聴覚特性に合致した適切なグループ判定が可能になり、プリエコーの発生を抑えながら、ショートブロック選択による符号化効率の低下を防止することにより、高音質なビットストリームを効率的に作成することができる。
更に、グループ判定に用いる閾値に、時間的に直前に位置するブロックの許容誤差エネルギーを用いることによって、入力信号が変化している部分を確実にグループの分割点として判断することが可能となり、入力信号の変化に応じた正確なグルーピング結果を得ることができる。
また、前後フレームのブロック長から最小グループ数を設定し、多くのブロックが同じグループに固まることによる量子化誤差の増大を防ぐことにより、適切なグルーピング結果を得ることができる。
以下、添付図面を参照して本発明を実施するための最良の形態を詳細に説明する。
<第1の実施形態>
図1は、本第1の実施形態におけるオーディオ信号符号化装置の一構成例を示すブロック図である。
図1の構成において、1はオーディオ入力信号を処理単位であるフレームに分割するフレーム分割器である。ここで分割されたフレームは後述するフィルタバンク2と聴覚心理演算器3とに送出される。聴覚心理演算器3は、入力されたフレーム単位のオーディオ入力信号を分析し、聴覚エントロピー値の算出と、量子化単位となる分割周波数帯域毎のマスキング計算を行う。この演算の結果、聴覚エントロピー(PE)値をブロック長判定器4に、また、各分割周波数帯域毎の信号対マスク比(Signal Mask Ratio:SMR)をグループ判定器5にそれぞれ出力する。
ブロック長判定器4は、聴覚心理演算器3から送出されるPE値と予め定められているPE閾値とを比較して変換ブロック長を判定し、フィルタバンク2に通知する。なお、本第1の実施形態において、PE閾値は予め決定され、ブロック長判定器4に保持されている。
フィルタバンク2は、フレーム分割器1から入力されたフレーム単位の入力時間信号をブロック長判定器4によって指定された長さのブロック長の周波数スペクトルに変換する。
グループ判定器5は、聴覚心理演算器3から送出される分割周波数帯域ごとのSMR値とフィルタバンク2から出力されるスペクトル列より、分割周波数帯域毎の許容誤差エネルギーを算出するとともに、スペクトル列がショートブロックの組の場合にのみ、許容誤差エネルギーに基づいてショートブロックのグループ判定を行う。
6はビット割当て器であり、聴覚心理演算器3より送出される分割周波数帯域毎のSMR値やフィルタバンク2から出力される周波数スペクトルを参照して、各分割周波数帯域に割り当てるビット量を決定する。7は量子化器であり、フィルタバンク2が出力する周波数スペクトルの正規化係数(スケールファクタ)を各周波数帯域毎に算出し、ビット割当て器6が出力する、各周波数帯域に割り当てられたビット量に従って周波数スペクトルを量子化する。8はビット整形器であり、量子化器7が出力するスケールファクタと量子化スペクトルを適宜規定のフォーマットに整形してビットストリームを作成し、出力する。
上記構成を有するオーディオ信号符号化装置におけるオーディオ信号の符号化処理動作を、図2を参照して以下に説明する。
なお、本第1の実施形態では説明の便宜のために符号化方式としてMPEG-2 AACを例にとって説明するが、グルーピングを行うその他の符号化方式についても同様な方法で実現可能である。また、符号化処理対象となる入力オーディオ信号としては、例えば、オーディオPCMファイル、マイクで捉えたリアルタイムの音声信号をアナログ・デジタル変換した信号が挙げられるが、これらに限られるものではない。
まず、ステップS1において、図1に示す各部の初期化を行う。このとき、本第1の実施形態ではPE閾値の初期値として2000が与えられ、ブロック長判定器4に格納される。
次に、ステップS2において、符号化する入力オーディオ信号が終了したかどうかを判定する。入力信号が終了している場合はステップS15へ進み、未終了の場合はステップS3へ進む。ステップS3では、入力オーディオ信号は、フレーム分割器1によって処理単位であるフレームに分割され、フィルタバンク2と聴覚心理演算器3に送出される。MPEG-2 AAC LC(Low-Complexity)プロファイルの場合、1フレームは1024サンプルのPCM信号で構成される。フレーム分割後、ステップS4に進む。
ステップS4では、入力オーディオ信号に対してフレーム毎に聴覚心理演算器3によって聴覚エントロピー(PE)と、量子化単位である各周波数帯域ごとのマスキング計算を行って信号対マスク(SMR)値を算出する。このSMR値はロングブロック長の場合の値とショートブロック長の場合の値が両方とも算出される。なお、MDCTにおけるエイリアシング除去を確実に行うために、ブロック長の判定は1フレーム分先行して行なう必要があるため、聴覚心理演算器3による聴覚分析は、符号化対象フレームよりも1フレーム分時間的に後となるフレーム(以下、先行フレーム)に対して行われる。次に、ステップS6で、ブロック長判定器4により、算出された先行フレームのPE値とブロック長判定器4内に予め設定されたPE閾値とを比較する。ここで、PE閾値よりも先行フレームのPE値が大きい場合は、先行フレームに短いブロック(ショートブロック)長を使用すると判定し、そうでない場合は、先行フレームに長いブロック(ロングブロック)長を使用すると判定する。次に、前回に判定された当該フレーム長と今回判定された先行フレーム長の判定結果に基づいて、当該フレームの変換ブロック長を正式に決定する。この結果、当該フレームにロングブロック長を使用する場合はステップS7へ進み、当該フレームにショートブロック長を使用する場合はしてステップS10に進む。以下に説明するように、フィルタバンク2では、この決定に沿ったブロック長で、入力信号を周波数スペクトルへ変換することになる。なお、先行フレームのブロック長判定結果は、次回の(先行フレームが符号化対象フレームとなる)ブロック長判定に使用されるまで、ブロック長判定器4内に保持される。
ステップS10では、フィルタバンク2により処理対象フレームに対してロングブロック長による直交変換を行う。MPEG-2 AACの場合、直交変換によるエイリアシングを除去するために、変換ブロック長の幅の窓掛け処理を行った上で、MDCTによる重複変換が行われる。時間周波数変換では、処理対象フレームとその直前のフレームを合わせた2048サンプルを一単位として入力し、1024個の周波数スペクトルを得る。このとき、ロングブロック長を用いる場合は、入力信号の2048サンプルを一つのブロックとして直交変換を行い、1024個の周波数スペクトルを出力する。この結果、1024の周波数成分に分割されたスペクトルの組が一組だけ得られる。処理を終えると、ステップS11に処理が進む。
ステップS11では、聴覚心理演算器3の前回の出力である当該フレームのSMR値とステップS10においてフィルタバンク2で得られたスペクトルから許容誤差エネルギーを算出する。ここで、グループ判定器5は、処理対象フレーム内の各ブロック毎に、分割周波数帯域毎の許容誤差エネルギーを求める。分割周波数帯域bの許容誤差エネルギーをxmin[b]とすると、次式より算出される。
Figure 2005165056
ここで、energy[b]は分割周波数帯域bに含まれるスペクトルの総エネルギーである。i番目のスペクトルをxiと表記し、帯域bに含まれるスペクトルがj番目からk番目までであるとすると、energy[b]は次式で求められる。
Figure 2005165056
また、SMR[b]は、聴覚心理演算器3が前回出力したロングブロック長の分割周波数帯域bにおけるSMR値である。なお、ステップS4において聴覚心理演算器3が出力したSMR値は、先行フレームが符号化対象フレームとなる次回の処理までグループ判定器5内に保持される。これは、ロングブロック長の場合とショートブロック長の場合の両方のSMR値がともに保存される。許容誤差エネルギーの算出が終わると、ステップS12に進む。
一方、ステップS6において当該フレームにショートブロック長を使用すると判断された場合、ステップS7において、フィルタバンク2により処理対象フレームに対してショートブロック長による直交変換を行う。ここでもMPEG-2 AACの場合、直交変換によるエイリアシングを除去するために、変換ブロック長の幅の窓掛け処理を行った上で、MDCTによる重複変換が行われる。時間周波数変換では、処理対象フレームとその直前のフレームを合わせた2048サンプルを一単位として入力し、1024個の周波数スペクトルを得る。このとき、ショートブロック長を用いる場合は、入力信号の256サンプルを一つのブロックとして128個の周波数スペクトルを出力する変換を、入力信号を128サンプルずつずらしながら都合8回行い、8組の周波数スペクトルを得る。処理を終えると、ステップS9に進む。
ステップS9において、グループ判定器5は前回保存されたショートブロックのSMR値に基づいて許容誤差エネルギーを算出し、その結果に基づき短ブロックのグループ判定を行い、結果をグループ情報として出力する。このグループ判定は、隣接する2つのブロック間において、各分割周波数帯域ごとに許容誤差エネルギーの差分を取り、その総和がある閾値を超えた場合、グループの分割点と判定する処理である。なお、この処理の詳細は図3を用いて後述する。グループ判定が終了すると、ステップS12に進む。
ステップS12では、フィルタバンク2から出力された周波数スペクトルと、グループ判定器5から出力されたグループ情報と許容誤差エネルギー値に基づいて、ビット割当て器6が各周波数帯域にビットを割り当てる。なお、ここではビット割当ては二段階に行われる。まず、処理中のフレーム全体に割り当てるビットを余剰ビット量やビット割り当て器6に保存されている処理中のフレームのPE値、変換ブロック長から決定し、次に、ステップS9もしくはステップS11で得られる許容誤差エネルギー値に基づいて、フレーム内の各分割周波数帯域に割り当てるビット量を決定する。このような処理は本発明のような変換符号化方法において一般的であるので、詳細説明は省略する。次に、聴覚心理演算器3から出力される先行フレームPE値をビット割り当て器6内に保存する。処理を終えると、ステップS13に進む。
ステップS13では、量子化器7は各周波数帯域のスケールファクタを算出し、ステップS12で各周波数帯域に割り当てられたビット量に従って周波数スペクトルを量子化する。処理を終えると、ステップS14に進む。
ステップS14では、ビット整形器8は、ステップS13で算出された各周波数帯域のスケールファクタと量子化スペクトルを符号化方式によって定められたフォーマットに従ってビットストリームに整形し、出力する。
その後、ステップS2に戻り、符号化する入力オーディオ信号が終了したかどうかを判定し、入力信号が終了している場合はステップS15へ進む。ステップS15では、聴覚心理演算や直交変換などで生じる遅延によってまだ出力されていない量子化スペクトルが残っているため、それらをビットストリームに整形して出力する。処理を終えると、オーディオ信号符号化処理を終了する。
次に、図3のフローチャートを参照して、グループ判定器5により図2のステップS9で行われるグループ判定処理の詳細を説明する。
ステップS101では、前回保存されたショートブロック時のSMR値とステップS7で求めた8組のショートブロックのスペクトル値より8組の許容誤差エネルギーを求める。この計算は、ステップS11でロングブロック長の処理を行う場合の処理と同様であり、式1及び式2に従って行われる。次に、ステップS4において聴覚心理演算器3から出力された先行フレームのSMR値をグループ判定器5内に保存する。この場合も、ロングブロック長のSMR値とショートブロック長のSMR値がともに保存される。処理を終えると、ステップS102へ進む。
ステップS102では、処理対象ブロックカウンタwを0にリセットする。なお、このカウンタwは、グループ判定器5内に保持される。、ステップS103において、処理対象ブロックカウンタwが7以上であるかどうかを判定する。wが7未満、すなわち、全てのショートブロック間のグループ判定が未終了の場合はステップS104に進む。wが7、すなわち、全てのショートブロック間のグループ判定が終了した場合はステップS109へ進む。
ステップS104では、w番目のショートブロックとw+1番目のショートブロックの許容誤差エネルギー差分和Sを算出する。本実施の形態において、各ショートブロックがn個の分割周波数帯域に分割される場合、Sは次式によって求められる。
Figure 2005165056
ただし、xmin[w][b]はブロックwの分割周波数帯域bにおける許容誤差エネルギーである。
次に、ステップS105において、ブロックwの許容誤差エネルギー総和Xを算出する。Xは次式によって求められる。
Figure 2005165056
処理を終えると、ステップS106へ進む。
ステップS106では、ステップS104で計算した許容誤差エネルギー差分和Sと、ステップS105で計算したブロックwの許容誤差エネルギー総和Xに予め定められた係数α(0<α<1)を掛けた値とを比較する。
このように、グループ判定に用いる閾値に、時間的に直前に位置するブロックの許容誤差エネルギーを用いることによって、入力信号が変化している部分を確実にグループの分割点として判断することが可能となる。
比較の結果、許容誤差エネルギー差分和Sの方が大きい場合は(ステップS106でYES)ステップS107へ処理が進み、ブロックwとブロックw+1の間をグループの切れ目と判断し、ブロックwとブロックw+1の境界にグループ境界を設定する。この処理では、グループ情報にこのグループ境界を追加する。処理を終えると、ステップS108へ進む。
一方、許容誤差エネルギー差分和Sの方が大きくない場合は(ステップS106でNO)、ブロックwとブロックw+1は同じグループであると判断し、そのままステップS108へ進む。ステップS108では、ブロックカウンタwをインクリメントして、ステップS103へ戻り、上述した処理を繰り返す。
また、ステップS103でwが7と判断した場合、すなわち、全てのショートブロック間のグループ判定が終了した場合には、ステップS109に進み、決定されたグループ情報に従って、許容誤差エネルギーをグループ毎にまとめる。本実施の形態では、この処理は、同グループ内に含まれる同じ分割周波数帯域の許容誤差エネルギーの総和Xを、グループに含まれるブロック数で割ることによって行われる。処理を終えると、ステップS110へ進む。
ステップS110では、決定されたグループ情報に従って、同グループ、同スケールファクタ毎にまとめるようにして、スペクトル成分の順番を入れ替える。本実施の形態では、MPEG-2 AACの場合を考慮しているが、MPEG-2 AACではこの並び替え順は規格上で定められており、公知であるため詳細な説明は省略する。処理を終えると、グループ判定処理を終了し、図2の処理にリターンする。
以上説明したように、本第1の実施形態におけるオーディオ信号符号化処理では、フレーム内の符号量を割り当てる基準となる許容誤差エネルギーが類似しているブロックを同じグループと判定することによって、人間の聴覚特性に合致した適切なグループ判定が可能になり、プリエコーの発生を抑えながら、ショートブロック選択による符号化効率の低下を防止することができる。これにより、高音質なビットストリームを効率的に作成することができる。
更に、グループ判定に用いる閾値に、時間的に直前に位置するブロックの許容誤差エネルギーを用いることによって、入力信号が変化している部分を確実にグループの分割点として判断することが可能となり、入力信号の変化に応じた正確なグルーピング結果を得ることができる。
<第2の実施形態>
本発明は、汎用的なPC上で動作するソフトウェアプログラムとして実施することも可能である。以下、この場合について図面を用いて説明する。
図4は本第2の実施形態における汎用的なPCを利用したオーディオ信号符号化装置の構成例である。
図示の構成において、100はCPUであり、オーディオ信号符号化処理のための演算、論理判断等を行い、バス102を介して、バス102に接続された各構成要素を制御する。101はメモリであり、本第2の実施形態の構成例における基本I/Oプログラムや、実行しているプログラムコード、プログラム処理時に必要なデータなどを格納する。102はバスであり、CPU100の制御の対象とする構成要素を指示するアドレス信号を転送し、CPU100の制御の対象とする各構成要素のコントロール信号を転送し、各構成機器相互間のデータ転送を行う。
103は端末であり、装置の起動、各種条件や入力信号の設定、符号化開始の指示を行う。104は外部記憶装置であり、データやプログラム等を記憶するための記憶領域を提供する。データやプログラム等は必要に応じて保管され、また、保管されたデータやプログラムは必要な時に呼び出される。
105はメディアドライブであり、記録媒体に記録されているプログラムやデータ、デジタルオーディオ信号などはこのメディアドライブ105が読み取ることにより本オーディオ信号符号化装置にロードされる。また、外部記憶部104に蓄えられた各種データや実行プログラムを記録媒体に書き込むことができる。
106はマイクであり、音を集音してオーディオ信号に変換する。107はスピーカーであり、任意のオーディオ信号データを実際の音にして出力することができる。
108は通信網であり、LAN、公衆回線、無線回線、放送電波などで構成されている。109は通信インタフェースであり、通信網に接続されている。本第2の実施形態のオーディオ信号符号化装置はこの通信インタフェース109を介して通信網を経由し、外部機器と通信し、データやプログラムを送受信することができる。
上記構成を有する本第2の実施形態のオーディオ信号符号化装置においては、端末103からの各種の入力に応じて作動する。端末103からの入力が供給されると、インタラプト信号がCPU100に送られることによって、CPU100がメモリ101内に記憶してある各種の制御信号を読出し、それらの制御信号に従って、各種の制御が行われる。
本第2の実施形態のオーディオ信号符号化装置は、基本I/Oプログラム、OS、および本オーディオ信号符号化処理プログラムをCPU100が実行することによって動作する。基本I/Oプログラムはメモリ101中に書き込まれており、OSは外部記憶装置104に書き込まれている。そして、本装置の電源がONにされると、基本I/Oプログラム中のIPL(イニシャルプログラムローディング)機能により外部記憶部104からOSがメモリ101に読み込まれ、OSの動作が開始される。
本第2の実施形態におけるオーディオ信号符号化処理プログラムは、後述する図8に示すオーディオ信号符号化処理手順のフローチャートに基づいてプログラムコード化されたものである。
図5は、本オーディオ信号符号化処理プログラムおよび関連データを記録媒体に記録したときの内容構成図である。
本第2の実施形態において、オーディオ信号符号化処理プログラムおよび関連データは記録媒体に記録されている。図示したように記録媒体の先頭領域には、この記録媒体のディレクトリ情報が記録されており、その後にこの記録媒体のコンテンツである本オーディオ信号符号化処理プログラムと、オーディオ信号符号化処理関連データがファイルとして記録されている。
図6は本第2の実施形態のオーディオ信号符号化装置に、オーディオ信号符号化処理プログラムを導入する様子を示す模式図である。記録媒体に記録されたオーディオ信号符号化処理プログラムおよび関連データは、図6に示したようにメディアドライブ105を通じて本第2の実施形態のオーディオ信号符号化装置にロードすることができる。この記録媒体110をメディアドライブ105にセットすると、OS及び基本I/Oプログラムの制御のもとに本オーディオ信号符号化処理プログラムおよび関連データが記録媒体から読み出され、外部記憶部104に格納される。その後、再起動時にこれらの情報がメモリ101にロードされて動作可能となる。
図7は、本オーディオ信号符号化装置処理プログラムがメモリ101にロードされ実行可能となった状態のメモリマップを示す。
このとき、メモリ101のワークエリアには、先行ブロック長、現行ブロック長、前ブロック長、許容誤差エネルギー、最小グループ数、ブロックカウンタw、グループ情報PE閾値、余剰ビット量、先行フレームSMR、現行フレームSMR、先行フレームPE値、現行フレームPE値が格納される。
以下、本第2の実施形態においてCPU100で実行されるオーディオ信号符号化処理を図8のフローチャートに従って説明する。
まず、ステップS21では、符号化する入力オーディオ信号をユーザが端末103を用いて指定する。本第2の実施形態において、符号化するオーディオ信号は、外部記憶104に格納されているオーディオPCMファイルでも良いし、マイク106で捉えたリアルタイムの音声信号をアナログ・デジタル変換した信号でも良い。
次に、ステップS22において、符号化する入力オーディオ信号が終了したかどうかを判定する。入力信号が終了している場合は、ステップS35へ進み、未終了の場合は、ステップS23へ進む。ステップS23では、入力オーディオ信号をチャンネル毎に処理単位であるフレームに分割する。第1の実施形態での説明同様、例えば、MPEG-2 AACの場合、オーディオ入力信号をチャンネル毎に1024サンプルのフレームに分割する。処理を終えると、ステップS24へ進む。
ステップS24では、符号化対象となっているフレームから時間的に次にくるフレーム(以下、先行フレーム)の聴覚心理演算を行う。この演算の結果、先行フレームの聴覚エントロピー(PE)と、同じく先行フレームに対する量子化単位である分割周波数帯域毎のSMR値が算出される。ここで、SMR値はショートブロック時の8組とロングブロック時の1組を共に算出する。算出されたPE値はメモリ101上の先行フレームPE値に、また、SMR値は全てメモリ101上の先行フレームSMRにそれぞれ格納される。処理を終えると、ステップS25へ進む。
ステップS25では、ステップS24で行われた聴覚分析の結果より、先行フレームのブロック長を判定する。本第2の実施形態において、この判定は、先行フレームのPE値と、メモリ101上のPE閾値とを比較することによって行われる。すなわち、先行フレームのPE値がPE閾値よりも大きい場合は、ショートブロック長と判定し、そうでない場合は、ロングブロック長と判定する。次に、メモリ101上の現行フレームブロック長に格納されているデータをメモリ101のワークエリア内の前フレームブロック長に記憶し、さらに、先行フレームブロック長に格納されているデータをメモリ101のワークエリア内の現行フレームブロック長に記憶した後、メモリ101のワークエリア内の先行フレームブロック長に判定結果を格納する。これにより、現行フレーム及びその前後のフレームのフレーム長を記憶しておく。処理を終えると、ステップS26へ進む。
ステップS26では、メモリ101上に格納されている現行フレームブロック長と先行フレームブロック長から、最終的な現行フレームのブロックタイプを決定する。この判定は、MPEG-2 AACの場合は、規格書に記載されている方法によって決定される。なお、ブロックタイプが決定されると、自動的にブロック長が決定する。ブロック長がショートブロック長である場合は、ステップS27へ進み、ロングブロック長である場合は、ステップS30に進む。
ステップS30では、ステップS26で行われた決定に基づき、処理対象フレームに対してロングブロック長による直交変換を行い、ステップS31において分割周波数帯域毎の許容誤差エネルギーを算出する。ステップS30及びS31で行われる処理は、第1の実施形態の図2に示すステップS10及びS11で行われる処理と同様であるため、ここでは詳細説明を省略する。
一方、ステップS26においてショートブロック長であると判断された場合、ステップS27では、処理対象フレームに対してショートブロック長による直交変換を行う。ここでの処理は、第1の実施形態の図2に示すステップS7で実施される処理と同様であり、MPEG-2 AACの場合、この結果128の周波数成分に分割されたスペクトルの組が8組得られる。処理を終えると、ステップS28に処理が進む。
ステップS28では、現行フレームの時間的な前後に位置するフレーム(つまり、先行フレーム、現行フレーム、前フレームの3つ)のブロック長に基づいて、最小グループ数を決定する。すなわち、メモリ101上の前フレームブロック長、もしくは、先行フレームブロック長のいずれかがショートブロック長である場合は、メモリ101上の最小グループ数に2を格納する。これは、この場合は前後のフレームと合わせて少なくとも過渡状態の前後と過渡状態の3つの部分に別れればよいため、MPEG-2 AACの規格上最低2つのグループにグルーピングできるからである。一方、前後のフレームがどちらもロングブロック長である場合は、処理中のフレームは単一のショートブロックフレームであるので、メモリ101上の最小グループ数に3を格納する。これは、前述したように、過渡状態前の部分と、信号が激しく変化している部分と、変化後の定常状態に戻る部分という少なくとも3つ以上のグループが構成されるべきであるからである。処理を終えると、ステップS29へ進む。
ステップS29は、メモリ101上に格納されているショートブロックの現行フレームSMR値と、ステップS27で計算された8組のショートブロックスペクトルから周波数帯域ごとの許容誤差エネルギーを計算し、それに基づいてショートブロックのグループを決定する。なお、この処理の詳細は図9を用いて後述する。処理を終えるとステップS32へ進む。
ステップS32ではメモリ101上の現行フレームPE値、変換ブロック長、及びステップS29もしくはステップS31で得られる許容誤差エネルギーを用いて、第1の実施形態の図2のステップS12と同様の手順でビット割当てを行い、ステップS33で各分割周波数帯域のスケールファクタを算出するとともに、ステップS32で割り当てられたビット量に従って、周波数スペクトルを量子化し、ステップS34で、ステップS33で算出されたスケールファクタと量子化スペクトルを、符号化方式によって定められたフォーマットに従って整形し、ビットストリームとして出力する。本第2の実施形態では、この処理によって出力されるビットストリームは、外部記憶104に格納されても良いし、あるいは、通信インターフェース109を介して回線網108に繋がっている外部機器に出力されても良い。
ステップS35はメモリ101上の先行フレームPE値を現行フレームPE値に、また、先行フレームSMRに格納されているSMR値を現行フレームSMRにそれぞれコピーする処理である。
その後、ステップS22に戻り、入力信号が終了するとステップS36に進む。ステップS36では、聴覚心理演算や直交変換などで生じる遅延によってまだ出力されていない量子化スペクトルがメモリ上に残っているため、それらをビットストリームに整形して出力する。処理を終えると、オーディオ信号符号化処理を終了する。
次に、図9のフローチャートを参照して、図8のステップS29で行われる本第2の実施形態のグループ判定処理について説明するが、第1の実施形態で説明した図3と同様の処理には同じ参照番号を付し、図3と異なる点について飲み説明する。
なお、図3における処理対象ブロックカウンタwは、メモリ101上で保持される。
図9に示す例では、ステップS103でwが7と判断した場合、すなわち、全てのショートブロック間のグループ判定が終了した場合には、ステップS120に進み、グループ判定の正否を判断する。
ステップS120において、得られたグループ数がステップS27で決定されたメモリ101上の最小グループ数以上になっているかどうかを判定する。グループ数が最小グループ数以上である場合は、ステップS109に進んで、第1の実施形態で説明した処理を行う。
一方、グループ数が最小グループ数未満の場合は、グループ判定が失敗したものとして再度グループ判定を行うために、ステップS121へ進む。ステップS121では、ステップS106において許容誤差総和Xに掛ける係数αを0.05減算し、ステップS102に戻ってグループ判定をやり直す。この係数αを減らすことにより、次回のステップS106における判定において閾値を下げることになるため、より細かくグループを分けが為されることになる。
上記の通り、本第2の実施形態によれば、汎用のPCを用いてオーディオ信号符号化を実施することができる。
また、図8のステップS27及び図9のステップS120及びS121の処理を行うことによって、前後に位置するフレームの状況も考慮した適切なブロック判定が行われることが保障される。
なお、上記処理は図1に示す第1の実施形態のオーディオ信号符号化装置における処理に適用することが可能であることは言うまでもない。また、図8及び図9に示す処理の代わりに、第1の実施形態で説明した図2及び図3の処理を汎用のPCを用いて実行することも勿論可能である。
<第3の実施形態>
上記第2の実施形態では、許容誤差エネルギーの差分の総和によってグルーピング判定を行う例を示したが、許容誤差エネルギーのピークによってグルーピング判定を行うことも可能である。以下、許容誤差エネルギーのピークによってグルーピング判定を行う処理について図10を用いて説明する。オーディオ信号符号化処理の全体の流れは図8のフローチャートに示す処理と同様であるため、説明を省略する。また、上記第2の実施形態で説明した図4に示すオーディオ信号符号化装置と同様の構成を有する装置により実現することができる。
図10は、第3の実施形態における、図8のステップS29のグループ判定処理を示すフローチャートである。
ステップS201は、処理対象であるフレームに含まれる全てのショートブロックにおける、分割周波数帯域(SFB)毎の許容誤差エネルギーを計算する。本第3の実施形態における許容誤差エネルギーも、第1の実施形態で説明した図2のステップS11における処理と同様な方法で計算される。処理を終えると、ステップS202へ進む。
ステップS202では、メモリ101上のブロックカウンタwを1にリセットし、ステップS203において、ブロック1における許容誤差エネルギーがピークとなるSFB位置(ピークSFB位置)を検出する。この処理は許容誤差エネルギーが最大となるSFB位置を求めればよい。
次にステップS204において、ブロックカウンタwが7未満であるかどうかを判断し、wが7未満、すなわち、全てのショートブロック間の判定が済んでいない場合は、ステップS205へ進む。wが7、すなわち、全てのショートブロック間の判定が終了した場合は、ステップS210へ進む。
ステップS205では、1ブロック前のショートブロックw+1の許容誤差エネルギーのピークSFB位置を、ステップS203と同様にして検出する。処理を終えると、ステップS206へ進む。
ステップS206では、ブロックwのピークSFB位置と、ブロックw+1のピークSFB位置の差分が閾値Aより大きいかどうかを判定する。なお、本第3の実施形態において、閾値Aは予め定められており、オーディオ信号符号化装置処理プログラムがメモリ101にロードされた時に、メモリ101のワークエリアに格納される。
判定の結果、ピークSFB位置の差分が閾値Aより大きい場合は、ブロックwとブロックw+1の間をグループの切れ目と判断し、ステップS208へ進み、メモリ101上のグループ情報において、ブロックwとブロックw+1の間にグループ境界を設定する。処理を終えると、ステップS209へ進む。
一方、ステップS206において、ピークSFB位置の差分が閾値A以下の場合は、ステップS207へ進み、ブロックwのピークSFB位置の許容誤差エネルギーと、ブロックw+1のピークSFB位置の許容誤差エネルギーの差分が、閾値Bより大きいかどうかを判定する。本第3の実施形態において、閾値Bも予め定められ、メモリ101上のワークエリアに格納されているものとする。判定の結果、ピーク許容誤差エネルギーの差分が閾値Bより大きい場合もブロックwとブロックw+1の間をグループの切れ目と判断し、ステップS208においてメモリ101上のグループ情報において、ブロックwとブロックw+1の間にグループ境界を設定する。処理を終えると、ステップS209へ進む。また、ピーク許容誤差エネルギーの差分が閾値Bより大きくない場合は、ブロックwとブロックw+1は同じグループであると判断し、直接ステップS209へ進む。
ステップS209では、グループカウンタwをインクリメントしてステップS204に戻り、上述した処理を繰り返す。
また、ステップS103でwが7と判断した場合、すなわち、全てのショートブロック間のグループ判定が終了した場合には、ステップS210に進み、グループ判定の正否を判断する。
ステップS210において、得られたグループ数が図8のステップS27で決定されたメモリ101上の最小グループ数以上になっているかどうかを判定する。グループ数が最小グループ数以上である場合は、ステップS213に進んで、第1の実施形態で説明した図3のステップS109及びS110の処理をステップS213及びS214で行う。
一方、グループ数が最小グループ数未満の場合は、グループ判定が失敗したものとして再度グループ判定を行うために、ステップS211へ進む。ステップS211は、メモリ101上の閾値Aから1を引き、更にステップS212において、メモリ101上の閾値Bを適宜減じる。処理を終えると、ステップS202に戻って、グループ判定をやり直す。
この処理を行うことによって、前後に位置するフレームの状況も考慮した適切なブロック判定が行われることが保障される。
以上説明したように、スペクトルのピーク位置が違うショートブロックを別グループとして扱うことによって、適切なグルーピングを行うことが可能になる。さらに、ピークの大きさが著しく異なる部分を別グループとして扱うことにより、入力信号の変化が激しい部分を確実に別グループとして扱うことが可能になり、この場合も入力信号の変化に合致したグルーピングが可能である。
また、許容誤差エネルギーの差分和とピーク位置差分、ピーク差分を同時に検出し、総合的に判断してグルーピングを行ってもよい。
また、上述の実施例2では、特に記録媒体に関して言及していないが、これは、FD、HDD、CD,DVD,MO、半導体メモリなど、どのような記録媒体を用いても適用可能である。
その他、本発明はその要旨を逸脱しない範囲で種種変形して実施することができる。
本発明の第1の実施形態におけるオーディオ信号符号化装置の構成例を示すブロック図である。 本発明の第1の実施形態におけるオーディオ信号符号化処理を示すフローチャートである。 本発明の第1の実施形態におけるグループ判定処理を示すフローチャートである。 本発明の第2の実施形態におけるオーディオ信号符号化装置の構成例を示すブロック図である。 本発明の第2の実施形態におけるオーディオ信号符号化処理プログラムを格納した記憶媒体の内容構成図である。 本発明の第2の実施形態におけるオーディオ信号符号化処理プログラムを導入する様子を示す模式図である。 本発明の第2の実施形態におけるオーディオ信号符号化処理プログラムがロードされた状態のメモリマップを示す図である。 本発明の第2の実施形態におけるオーディオ信号符号化処理を示すフローチャートである。 本発明の第2の実施形態におけるグループ判定処理を示すフローチャートである。 本発明の第3の実施形態におけるグループ判定処理を示すフローチャートである。 従来のオーディオ信号を2048サンプルブロックで符号化する場合の概念の説明図である。 従来のオーディオ信号を256サンプルブロックで符号化する場合の概念を示す図である。
符号の説明
1 フレーム分割器
2 フィルタバンク
3 聴覚心理演算器
4 ブロック長判定器
5 グループ判定器
6 ビット割当て器
7 量子化器
8 ビット整形器
100 CPU
101 メモリ
102 バス
103 端末
104 外部記憶装置
105 メディアドライブ
106 マイク
107 スピーカー
108 通信回線
109 通信インターフェース
110 記録媒体

Claims (23)

  1. オーディオ入力信号を処理単位に分割する分割手段と、
    前記処理単位毎に前記オーディオ入力信号を分析して、特徴データを出力する分析手段と、
    前記特徴データに基づいて、前記処理単位毎にオーディオ信号の変換ブロック長がロングブロック長であるかショートブロック長であるかを判定する判定手段と、
    ロングブロック長の場合に前記処理単位の許容誤差エネルギーを算出し、ショートブロック長の場合に前記処理単位のオーディオ信号をブロック化し、各ブロックの許容誤差エネルギーを算出する算出手段と、
    ショートブロックの場合に、前記許容誤差エネルギーに基づいてショートブロックをグループにまとめるグルーピング手段と、
    前記変換ブロック長がショートブロックの場合に前記グループ毎に、ロングブロックの場合に前記処理単位毎に、前記オーディオ信号を符号化する符号化手段と
    を有することを特徴とするオーディオ信号符号化装置。
  2. 前記グルーピング手段は、連続するショートブロックの許容誤差エネルギーの差分和が、一方のショートブロックの許容誤差エネルギーの総和の所定割合よりも小さい場合に同じグループであると判断し、大きい場合に異なるグループであると判断することにより、グループにまとめることを特徴とする請求項1に記載のオーディオ信号符号化装置。
  3. 前記グルーピング手段は、連続するショートブロックの許容誤差エネルギーが最大となる分割周波数帯域の位置の差が所定値よりも小さい場合に同じグループであると判断し、大きい場合に異なるグループであると判断することにより、グループにまとめることを特徴とする請求項1または2に記載のオーディオ信号符号化装置。
  4. 前記グルーピング手段は、連続するショートブロックの許容誤差エネルギーが最大となる分割周波数帯域の位置の差が所定値よりも小さく、且つ、当該位置におけるショートブロック間の許容誤差エネルギー差が所定値より小さい場合に同じグループであると判断し、それ以外の場合に異なるグループであると判断することにより、グループにまとめることを特徴とする請求項1または2に記載のオーディオ信号符号化装置。
  5. 前記判定手段により処理対象の処理単位のオーディオ信号の変換ブロック長がショートブロックであり、前後の処理単位のオーディオ信号の変換ブロック長のが共にロングブロックであると判定された場合、最小ブロック数を3に設定する設定手段を更に有することを特徴とする請求項1乃至4のいずれかに記載のオーディオ信号符号化装置。
  6. 前記設定手段は、判定手段により処理対象の処理単位のオーディオ信号の変換ブロック長がショートブロックであり、前後の処理単位のオーディオ信号の変換ブロック長の少なくともいずれか一方がショートブロックであると判定された場合、最小ブロック数を2に設定することを特徴とする請求項5に記載のオーディオ信号符号化装置。
  7. 前記グルーピング手段によりまとめられたグループ数が前記最小ブロック数に満たない場合グルーピングの判断基準を変更して、前記グルーピング手段による処理を再実行することを特徴とする請求項5または6に記載のオーディオ信号符号化装置。
  8. 前記特徴データは、聴覚エントロピーであることを特徴とする請求項1乃至7のいずれかに記載のオーディオ信号符号化装置。
  9. 前記許容誤差エネルギーは、各周波数分割帯域の信号対マスク比の逆数と、各周波数帯域のスペクトルエネルギーの積であることを特徴とする請求項1乃至8のいずれかに記載のオーディオ信号符号化装置。
  10. 前記符号化手段の符号化形式がMPEG-2/4 AACであることを特徴とする請求項1乃至9のいずれかに記載のオーディオ信号符号化装置。
  11. オーディオ入力信号を処理単位に分割する分割工程と、
    前記処理単位毎に前記オーディオ入力信号を分析して、特徴データを出力する分析工程と、
    前記特徴データに基づいて、前記処理単位毎にオーディオ信号の変換ブロック長がロングブロック長であるかショートブロック長であるかを判定する判定工程と、
    ロングブロック長の場合に前記処理単位の許容誤差エネルギーを算出し、ショートブロック長の場合に前記処理単位のオーディオ信号をブロック化し、各ブロックの許容誤差エネルギーを算出する算出工程と、
    ショートブロックの場合に、前記許容誤差エネルギーに基づいてショートブロックをグループにまとめるグルーピング工程と、
    前記変換ブロック長がショートブロックの場合に前記グループ毎に、ロングブロックの場合に前記処理単位毎に、前記オーディオ信号を符号化する符号化工程と
    を有することを特徴とするオーディオ信号符号化方法。
  12. 前記グルーピング工程では、連続するショートブロックの許容誤差エネルギーの差分和が、一方のショートブロックの許容誤差エネルギーの総和の所定割合よりも小さい場合に同じグループであると判断し、大きい場合に異なるグループであると判断することにより、グループにまとめることを特徴とする請求項11に記載のオーディオ信号符号化方法。
  13. 前記グルーピング工程では、連続するショートブロックの許容誤差エネルギーが最大となる分割周波数帯域の位置の差が所定値よりも小さい場合に同じグループであると判断し、大きい場合に異なるグループであると判断することにより、グループにまとめることを特徴とする請求項11または12に記載のオーディオ信号符号化方法。
  14. 前記グルーピング工程では、連続するショートブロックの許容誤差エネルギーが最大となる分割周波数帯域の位置の差が所定値よりも小さく、且つ、当該位置におけるショートブロック間の許容誤差エネルギー差が所定値より小さい場合に同じグループであると判断し、それ以外の場合に異なるグループであると判断することにより、グループにまとめることを特徴とする請求項11または12に記載のオーディオ信号符号化方法。
  15. 前記判定工程において処理対象の処理単位のオーディオ信号の変換ブロック長がショートブロックであり、前後の処理単位のオーディオ信号の変換ブロック長のが共にロングブロックであると判定された場合、最小ブロック数を3に設定する設定工程を更に有することを特徴とする請求項11乃至14のいずれかに記載のオーディオ信号符号化方法。
  16. 前記設定工程では、判定工程において処理対象の処理単位のオーディオ信号の変換ブロック長がショートブロックであり、前後の処理単位のオーディオ信号の変換ブロック長の少なくともいずれか一方がショートブロックであると判定された場合、最小ブロック数を2に設定することを特徴とする請求項15に記載のオーディオ信号符号化方法。
  17. 前記グルーピング工程においてまとめられたグループ数が前記最小ブロック数に満たない場合グルーピングの判断基準を変更して、前記グルーピング工程を再実行することを特徴とする請求項15または16に記載のオーディオ信号符号化方法。
  18. 前記特徴データは、聴覚エントロピーであることを特徴とする請求項11乃至17のいずれかに記載のオーディオ信号符号化方法。
  19. 前記許容誤差エネルギーは、各周波数分割帯域の信号対マスク比の逆数と、各周波数帯域のスペクトルエネルギーの積であることを特徴とする請求項11乃至18のいずれかに記載のオーディオ信号符号化方法。
  20. 前記符号化工程の符号化形式がMPEG-2/4 AACであることを特徴とする請求項11乃至19のいずれかに記載のオーディオ信号符号化方法。
  21. 情報処理装置が実行可能なプログラムであって、前記プログラムを実行した情報処理装置を、請求項1乃至10のいずれかに記載のオーディオ信号符号化装置として機能させることを特徴とするプログラム。
  22. 請求項11乃至20のいずれかに記載のオーディオ信号符号化方法を実現するためのプログラムコードを有することを特徴とする情報処理装置が実行可能なプログラム。
  23. 請求項21又は22に記載のプログラムを記憶したことを特徴とする情報処理装置が読み取り可能な記憶媒体。
JP2003405032A 2003-12-03 2003-12-03 オーディオ信号符号化装置及び方法 Withdrawn JP2005165056A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003405032A JP2005165056A (ja) 2003-12-03 2003-12-03 オーディオ信号符号化装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003405032A JP2005165056A (ja) 2003-12-03 2003-12-03 オーディオ信号符号化装置及び方法

Publications (1)

Publication Number Publication Date
JP2005165056A true JP2005165056A (ja) 2005-06-23

Family

ID=34727848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003405032A Withdrawn JP2005165056A (ja) 2003-12-03 2003-12-03 オーディオ信号符号化装置及び方法

Country Status (1)

Country Link
JP (1) JP2005165056A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007029304A1 (ja) * 2005-09-05 2007-03-15 Fujitsu Limited オーディオ符号化装置及びオーディオ符号化方法
JP2007523366A (ja) * 2004-01-20 2007-08-16 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション ブロック系列化に基づくオーディオコーディング

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007523366A (ja) * 2004-01-20 2007-08-16 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション ブロック系列化に基づくオーディオコーディング
WO2007029304A1 (ja) * 2005-09-05 2007-03-15 Fujitsu Limited オーディオ符号化装置及びオーディオ符号化方法

Similar Documents

Publication Publication Date Title
KR100823097B1 (ko) 멀티채널 신호를 처리하는 장치 및 방법
JP6306702B2 (ja) 符号化オーディオ信号の復号装置、方法およびコンピュータプログラム
KR102509345B1 (ko) 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법
JP5175028B2 (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
JP4673882B2 (ja) 推定値を決定するための方法および装置
JP2010079275A (ja) 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
JP2006011456A (ja) 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
CN110832581A (zh) 用于使用瞬态位置检测后处理音频信号的装置
JP2011513788A (ja) オーディオ信号処理方法及び装置
KR20010021226A (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
JP2008513823A (ja) 知覚的歪みを最小化する結合オーディオ符号化
US20090132238A1 (en) Efficient method for reusing scale factors to improve the efficiency of an audio encoder
TWI590237B (zh) 用以估計音訊信號中雜訊之方法、雜訊估計器、音訊編碼器、音訊解碼器、及用以傳送音訊信號之系統
JP4639073B2 (ja) オーディオ信号符号化装置および方法
JP2004184975A (ja) 少ない計算量で高周波数成分を復元するオーディオデコーディング方法及び装置
CN110709926A (zh) 用于使用基于预测的整形后处理音频信号的装置和方法
EP3707713B1 (en) Controlling bandwidth in encoders and/or decoders
JP2002132295A (ja) ステレオオーディオ信号高能率符号化装置
JP2005165056A (ja) オーディオ信号符号化装置及び方法
JP4822816B2 (ja) オーディオ信号符号化装置および方法
JP4649351B2 (ja) デジタルデータ復号化装置
JP4627737B2 (ja) デジタルデータ復号化装置
JP2006126372A (ja) オーディオ信号符号化装置、方法及びプログラム
JP4625709B2 (ja) ステレオオーディオ信号符号化装置
US10332527B2 (en) Method and apparatus for encoding and decoding audio signal

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070206