JPWO2019244666A1

JPWO2019244666A1 - 符号化装置および方法、復号装置および方法、並びにプログラム

Info

Publication number: JPWO2019244666A1
Application number: JP2020525515A
Authority: JP
Inventors: 明文河野; 徹知念; 本間　弘幸; 弘幸本間; 芳明及川
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-06-21
Filing date: 2019-06-07
Publication date: 2021-07-15
Anticipated expiration: 2039-06-07
Also published as: EP4283877A3; US20210210108A1; EP3813064A4; KR20210022546A; WO2019244666A1; BR112020025515A2; CN112400203A; EP4283877A2; EP3813064A1; JP7318645B2

Abstract

本技術は、符号化効率を向上させることができるようにする符号化装置および方法、復号装置および方法、並びにプログラムに関する。符号化装置は、オーディオ信号に対して変換窓を用いた時間周波数変換を行う時間周波数変換部と、変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、周波数スペクトル情報を算術符号化する符号化部とを備える。本技術は符号化装置および復号装置に適用することができる。

Description

本技術は、符号化装置および方法、復号装置および方法、並びにプログラムに関し、特に、符号化効率を向上させることができるようにした符号化装置および方法、復号装置および方法、並びにプログラムに関する。

例えば、オーディオ信号を符号化する方法として、国際標準規格であるMPEG(Moving Picture Experts Group)-2 AAC(Advanced Audio Coding)規格、MPEG-4 AAC規格やMPEG-D USAC(Unified Speech and Audio Coding)規格、MPEG-D USAC規格をCore CoderにしたMPEG-H 3D audio規格の符号化等が知られている（例えば、非特許文献１および非特許文献２参照）。

INTERNATIONAL STANDARD ISO/IEC 14496-3 Fourth edition 2009-09-01 Information technology-coding of audio-visual objects-part3:Audio INTERNATIONAL STANDARD ISO/IEC 23003-3 Frist edition 2012-04-01 Information technology-coding of audio-visual objects-part3:Unified speech and audio coding

ところで、従来の7.1チャネルサラウンド再生を超える、より高臨場感な再生や、“3D audio”で実現される多数の音素材（オブジェクト）を伝送するためには、より多くのオーディオチャネルを圧縮効率よく高速に復号可能な符号化技術が必要となる。すなわち、符号化効率の向上が望まれている。

本技術は、このような状況に鑑みてなされたものであり、符号化効率を向上させることができるようにするものである。

本技術の第１の側面の符号化装置は、オーディオ信号に対して変換窓を用いた時間周波数変換を行う時間周波数変換部と、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する符号化部とを備える。

本技術の第１の側面の符号化方法またはプログラムは、オーディオ信号に対して変換窓を用いた時間周波数変換を行い、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化するステップを含む。

本技術の第１の側面においては、オーディオ信号に対して変換窓を用いた時間周波数変換が行われ、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報がハフマン符号化され、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報が算術符号化される。

本技術の第２の側面の復号装置は、符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出する非多重化部と、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する復号部とを備える。

本技術の第２の側面の復号方法またはプログラムは、符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出し、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号するステップを含む。

本技術の第２の側面においては、符号化ビットストリームが非多重化されて、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとが抽出され、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データがハフマン符号化に対応する復号方式で復号される。

本技術の第１の側面および第２の側面によれば、符号化効率を向上させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

MPEG-4 AACでの符号化について説明する図である。 MPEG-4 AACにおける変換窓の種類について説明する図である。 MPEG-D USACでの符号化について説明する図である。 MPEG-D USACにおける変換窓の種類について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。ハフマン符号化と算術符号化の符号化効率について説明する図である。符号化装置の構成例を示す図である。符号化処理を説明するフローチャートである。復号装置の構成例を示す図である。復号処理を説明するフローチャートである。本技術における符号化効率について説明する図である。本技術における符号化効率について説明する図である。チャネルストリームのシンタックス例を示す図である。 ics_infoのシンタックス例を示す図である。符号化処理を説明するフローチャートである。復号処理を説明するフローチャートである。符号化処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
まず、本技術の概要について説明する。なお、本技術では、符号化対象とされる信号は、オーディオ信号や画像信号など、どのような信号であってもよいが、以下では符号化対象がオーディオ信号である場合を例として説明を行う。

例えばMPEG-4 AACでは、図１に示すようにしてオーディオ信号の符号化が行われる。

すなわち、符号化（エンコード）の処理が開始されると、最初にオーディオ信号に対してMDCT（Modified Discrete Cosine Transform）（修正離散コサイン変換）を用いた時間周波数変換が行われる。

次に、MDCTにより得られた周波数スペクトル情報であるMDCT係数が、スケールファクターバンドごとに量子化され、その結果として量子化MDCT係数が得られる。

ここで、スケールファクターバンドとは、QMF（Quadrature Mirror Filter）分析フィルタの分解能である所定帯域幅のサブバンドを複数束ねて得られる帯域である。

量子化により量子化MDCT係数が得られると、同一のハフマンコードブックを使用するセクションごとに、ハフマン符号が用いられて量子化MDCT係数とハフマンコードブック情報とが符号化される。すなわち、ハフマン符号化が行われる。なお、セクションは、スケールファクターバンドを複数束ねた帯域である。

以上のようにして得られたハフマン符号、つまりハフマン符号化された量子化MDCT係数とハフマンコードブック情報とが、オーディオ信号の符号化データとして出力される。

また、時間周波数変換においては、一般的に処理対象となるオーディオ信号の性質に応じて適切な変換窓を選択することで、単一の変換窓を用いるよりも高音質にオーディオ信号を圧縮できることが知られている。

例えば、時間的に急激な変化を伴うアタック性の強い音楽信号（アタック性音楽信号）に対しては短い変換窓長の変換窓が適しており、時間的に急激な変化を伴わない定常性の強い音楽信号（定常性音楽信号）に対しては長い変換窓長の変換窓が適していることが知られている。

具体的には、例えばMPEG4 AACでは図２に示すように４つのwindow sequenceのなかの適切なものに適宜切り替えられてMDCTが行われている。

図２において、「window_sequence」はwindow sequenceを示している。ここで、window sequenceは変換窓の種類、つまりウィンドウタイプを示している。

特に、MPEG4 AACではwindow_sequence、すなわちウィンドウタイプとして、ONLY_LONG_SEQUENCE、LONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCE、およびLONG_STOP_SEQUENCEの４つの種類の変換窓が選択可能となっている。

また、図２において「num_windows」は、各ウィンドウタイプの変換窓を用いたMDCTを行うときに用いられる変換窓の数を示しており、「looks like」の欄には変換窓の形状が示されている。特に「looks like」の欄では、図中、横方向が時間方向を示しており、図中、縦方向は各サンプル位置における変換窓の大きさ、つまり各サンプルに乗算される係数の大きさを示している。

MPEG4 AACでは、オーディオ信号のMDCT時には、定常性の強いフレームではONLY_LONG_SEQUENCEが選択される。このONLY_LONG_SEQUENCEにより示される変換窓は、変換窓長が2048サンプルの変換窓となっている。

また、アタック性の強いフレームではEIGHT_SHORT_SEQUENCEが選択される。このEIGHT_SHORT_SEQUENCEにより示される変換窓は、時間方向に分割された８個の変換窓であり、それらの分割された各変換窓の変換窓長は256サンプルとなっている。

EIGHT_SHORT_SEQUENCEにより示される変換窓は、LONG_STOP_SEQUENCEにより示される変換窓等の他の変換窓よりも変換窓長が短くなっている。

window_sequenceがONLY_LONG_SEQUENCEからEIGHT_SHORT_SEQUENCEへと遷移するフレームではLONG_START_SEQUENCEが選択される。このLONG_START_SEQUENCEにより示される変換窓は、変換窓長が2048サンプルの変換窓となっている。

window_sequenceがEIGHT_SHORT_SEQUENCEからONLY_LONG_SEQUENCEへと遷移するフレームではLONG_STOP_SEQUENCEが選択される。

すなわち、変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、LONG_STOP_SEQUENCEが選択される。LONG_STOP_SEQUENCEにより示される変換窓は、変換窓長が2048サンプルの変換窓となっている。

なお、MPEG4 AACで用いられる変換窓の詳細については、例えば「INTERNATIONAL STANDARD ISO/IEC 14496-3 Fourth edition 2009-09-01 Information technology-coding of audio-visual objects-part3:Audio」に詳細に記載されている。

これに対して、MPEG-D USACでは、図３に示すようにしてオーディオ信号の符号化が行われる。

すなわち、符号化（エンコード）の処理が開始されると、MPEG-4 AACにおける場合と同様に、まずオーディオ信号に対してMDCTを用いた時間周波数変換が行われる。

そして、時間周波数変換により得られたMDCT係数がスケールファクターバンドごとに量子化され、その結果として量子化MDCT係数が得られる。

さらに、量子化MDCT係数に対してコンテキストベースの算術符号化が行われ、算術符号化された量子化MDCT係数がオーディオ信号の符号化データとして出力される。

コンテキストベースの算術符号化では、出現確率の高い入力ビット列に短い符号を割り当て、出現確率の低い入力ビット列に長い符号を割り当てた出現確率テーブルが複数用意されている。

また、符号化対象となる量子化MDCT係数に対して時間的および周波数的に近傍にある過去の量子化MDCT係数の符号化結果（コンテキスト）に基づいて、効率のよい出現確率テーブルが選択される。すなわち、時間的および周波数的に近い量子化MDCT係数の相関性が考慮されて出現確率テーブルが適切に切り替えられる。そして、選択された出現確率テーブルが用いられて量子化MDCT係数が符号化される。

コンテキストベースの算術符号化では、複数の出現確率テーブルのなかから効率のよいものを選択して符号化を行うことで、高い符号化効率を実現することができる。

また、算術符号化ではハフマン符号化と異なり、コードブック情報を送る必要がない。そのため、算術符号化ではハフマン符号化と比較してコードブック情報分の符号量を削減することができる。

なお、MPEG-D USACでは図４に示すように適宜５つのwindow sequenceのなかの適切なものに切り替えられてMDCTが行われている。

図４において、「Window」はwindow sequenceを示しており、「num_windows」は、各ウィンドウタイプの変換窓を用いたMDCTを行うときに用いられる変換窓の数を示しており、「Window Shape」の欄には変換窓の形状が示されている。

MPEG-D USACではwindow_sequenceとして、ONLY_LONG_SEQUENCE、LONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCE、LONG_STOP_SEQUENCE、およびSTOP_START_SEQUENCEの５つの種類の変換窓が選択可能となっている。

特にwindow_sequence、つまりウィンドウタイプのうち、ONLY_LONG_SEQUENCE、LONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCE、およびLONG_STOP_SEQUENCEについてはMPEG4 AACにおける場合と同じとなっている。

MPEG-D USACでは、これらの４つのウィンドウタイプに加えて、さらにSTOP_START_SEQUENCEが用意されている。

STOP_START_SEQUENCEは、window_sequenceがLONG_STOP_SEQUENCEからLONG_START_SEQUENCEへと遷移するフレームで選択される。

このSTOP_START_SEQUENCEにより示される変換窓は、変換窓長が2048サンプルの変換窓となっている。

なお、MPEG-D USACについては、例えば「INTERNATIONAL STANDARD ISO/IEC 23003-3 Frist edition 2012-04-01 Information technology-coding of audio-visual objects-part3:Unified speech and audio coding」に詳細に記載されている。

また、以下では、MPEG4 AACを単にAACとも称し、MPEG-D USACを単にUSACとも称することとする。

以上において説明したAACとUSACを比較すると、現状のUSACではAACで採用しているハフマン符号化よりも圧縮効率（符号化効率）がよいとされるコンテキストベースの算術符号化が採用されている。

しかし、全てのオーディオ信号に対してコンテキストベースの算術符号化がハフマン符号化よりも圧縮効率がよくなる（高くなる）わけではない。

USACのコンテキストベースの算術符号化では定常性音楽信号に対しては符号が短くなり、AACのハフマン符号化よりも符号化効率が高くなりやすいが、その反面、アタック性音楽信号に対しては符号が長くなり符号化効率が低くなってしまう。

そのような例を図５乃至図１８に示す。なお、図５乃至図１８において横軸は時間、つまりオーディオ信号のフレームを示しており、縦軸はオーディオ信号を符号化したときの符号ビット数（必要ビット数）または必要ビット数の差分（差分ビット数）を示している。特に、ここでは１フレームは1024サンプルとなっている。

図５は、オーディオ信号としての定常性音楽信号に対してMDCTおよび量子化を行い、量子化後の同じ量子化MDCT係数に対して、AACのハフマン符号化を行った場合とUSACの算術符号化を行った場合でそれぞれ必要になる必要ビット数を示している。

この例では、折れ線L11が各フレームにおけるUSACの算術符号化の必要ビット数を示しており、折れ線L12が各フレームにおけるAACのハフマン符号化の必要ビット数を示している。この例では、殆どのフレームにおいてAACのハフマン符号化よりも、USACの算術符号化の方が必要ビット数が少なくなっていることが分かる。

また、図５における一部を拡大すると図６に示すようになる。なお、図６において図５における場合と対応する部分には同一の符号を付してあり、その説明は省略する。

図６に示す部分ではAACのハフマン符号化の必要ビット数と、USACの算術符号化の必要ビット数とでは100から150ビット程度の差があり、USACの算術符号化の方が符号化効率がよい（高い）ことが分かる。

図７は、図５に示した各フレームにおけるAACのハフマン符号化の必要ビット数と、USACの算術符号化の必要ビット数との差分、すなわち差分ビット数を示している。

図７において横軸はフレーム（時間）を示しており、縦軸は差分ビット数を示している。なお、ここでの差分ビット数は、USACの算術符号化の必要ビット数から、AACのハフマン符号化の必要ビット数を減算して得られたものである。

図７から分かるように、オーディオ信号が定常性音楽信号である場合、すなわちオーディオ信号が定常性を有する信号である場合、殆どのフレームにおいて差分ビット数が負の値となる。つまり、殆どのフレームにおいてAACのハフマン符号化よりも、USACの算術符号化の方が必要ビット数が少なくなっていることが分かる。

したがって、符号化対象のオーディオ信号が定常性を有する信号である場合には、符号化方式として算術符号化を選択すると、より高い符号化効率を得ることができる。

また、各フレームではMDCT時にwindow sequence、すなわち変換窓の種類が選択されるが、図７に示す差分ビット数のグラフを図２に示した４つのwindow sequenceごとに分離すると、図８乃至図１１に示すようになる。

すなわち、図８は図７に示した各フレームの差分ビット数のうち、window sequenceとしてONLY_LONG_SEQUENCEが選択されたフレームの差分ビット数を示している。

同様に、図９は図７に示した各フレームの差分ビット数のうち、window sequenceとしてLONG_START_SEQUENCEが選択されたフレームの差分ビット数を示している。図１０は図７に示した各フレームの差分ビット数のうち、window sequenceとしてEIGHT_SHORT_SEQUENCEが選択されたフレームの差分ビット数を示している。

さらに図１１は図７に示した各フレームの差分ビット数のうち、window sequenceとしてLONG_STOP_SEQUENCEが選択されたフレームの差分ビット数を示している。

なお、これらの図８乃至図１１において横軸はフレーム（時間）を示しており、縦軸は差分ビット数を示している。

これらの図８乃至図１１から分かるように、オーディオ信号が定常性音楽信号であるため、殆どのフレームにおいてONLY_LONG_SEQUENCEが選択されている。そして、残りのLONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCE、およびLONG_STOP_SEQUENCEが選択されるフレームは少ないことが分かる。

ここでは、図１１に示すようにLONG_STOP_SEQUENCEが選択された場合では、差分ビット数が正の値となり、AACのハフマン符号化の方が符号化効率が高くなるフレームが多くなっている。しかし、図７に示したように全体で見れば、AACのハフマン符号化よりもUSACの算術符号化の方が符号化効率が高いことが分かる。

これに対して図１２乃至図１８は、図５乃至図１１に対応するものであり、オーディオ信号がアタック性音楽信号である場合における必要ビット数や差分ビット数を示している。

すなわち、図１２は、オーディオ信号としてのアタック性音楽信号に対してMDCTおよび量子化を行い、量子化後の同じ量子化MDCT係数に対して、AACのハフマン符号化を行った場合とUSACの算術符号化を行った場合でそれぞれ必要になる必要ビット数を示している。

この例では、折れ線L31が各フレームにおけるUSACの算術符号化の必要ビット数を示しており、折れ線L32が各フレームにおけるAACのハフマン符号化の必要ビット数を示している。

この例では、多くのフレームではAACのハフマン符号化よりもUSACの算術符号化の方が必要ビット数が少なくなっている。しかし、AACのハフマン符号化の方が必要ビット数が少ないフレームが定常性音楽信号における場合よりも多くなっている。

また、図１２における一部を拡大すると図１３に示すようになる。なお、図１３において図１２における場合と対応する部分には同一の符号を付してあり、その説明は省略する。

図１３に示す部分では、いくつかのフレームではUSACの算術符号化よりもAACのハフマン符号化の方が必要ビット数が少なくなっていることが分かる。

図１４は、図１２に示した各フレームにおけるAACのハフマン符号化の必要ビット数と、USACの算術符号化の必要ビット数との差分、すなわち差分ビット数を示している。

図１４において横軸はフレーム（時間）を示しており、縦軸は差分ビット数を示している。なお、ここでの差分ビット数は、USACの算術符号化の必要ビット数から、AACのハフマン符号化の必要ビット数を減算して得られたものである。

図１４から分かるように、オーディオ信号がアタック性音楽信号である場合、すなわちオーディオ信号がアタック性を有する信号である場合、多くのフレームにおいて差分ビット数が負の値となる。

しかし、オーディオ信号が定常性音楽信号である場合と比較すると、差分ビット数が正の値となるフレームの数が多くなっていることが分かる。すなわち、AACのハフマン符号化の方が、USACの算術符号化よりも必要ビット数が少ないフレームも多くなっていることが分かる。

また、各フレームではMDCT時にwindow sequence、すなわち変換窓の種類が選択されるが、図１４に示す差分ビット数のグラフを図２に示した４つのwindow sequenceごとに分離すると、図１５乃至図１８に示すようになる。

すなわち、図１５は図１４に示した各フレームの差分ビット数のうち、window sequenceとしてONLY_LONG_SEQUENCEが選択されたフレームの差分ビット数を示している。

同様に、図１６は図１４に示した各フレームの差分ビット数のうち、window sequenceとしてLONG_START_SEQUENCEが選択されたフレームの差分ビット数を示している。図１７は図１４に示した各フレームの差分ビット数のうち、window sequenceとしてEIGHT_SHORT_SEQUENCEが選択されたフレームの差分ビット数を示している。

さらに図１８は図１４に示した各フレームの差分ビット数のうち、window sequenceとしてLONG_STOP_SEQUENCEが選択されたフレームの差分ビット数を示している。

なお、これらの図１５乃至図１８において横軸はフレーム（時間）を示しており、縦軸は差分ビット数を示している。

これらの図１５乃至図１８から分かるように、オーディオ信号がアタック性音楽信号である場合には、window sequenceとしてEIGHT_SHORT_SEQUENCE、LONG_START_SEQUENCE、LONG_STOP_SEQUENCEが選択される割合が定常性音楽信号である場合と比較して多いことが分かる。

また、オーディオ信号がアタック性音楽信号である場合でもONLY_LONG_SEQUENCEやLONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCEが選択された場合には、定常性音楽信号における場合と同様に、殆どのフレームにおいてAACのハフマン符号化よりもUSACの算術符号化の方が符号化効率が高いことが分かる。

しかし、LONG_STOP_SEQUENCEが選択された場合には、殆どのフレームにおいてUSACの算術符号化よりもAACのハフマン符号化の方が必要ビット数が少なく、符号化効率が高いことが分かる。

これは、USACの算術符号化において、アタック性の強いフレームと定常性の強いフレームとの遷移でコンテキストの相関性が低くなり、効率の悪い出現確率テーブルが選択されてしまったためである。

なお、EIGHT_SHORT_SEQUENCEが選択されたフレームにおいて、USACの算術符号化の必要ビット数（符号量）が多くならないのは、量子化MDCT係数の符号化に時間方向に８分割された変換窓が用いられるためである。すなわち、量子化MDCT係数の符号化が、時間方向に８分割された256サンプル分ずつ８回に分けて行われるために、コンテキストの相関性の低減度合いが分散および軽減されるためである。

以上のようにUSACの算術符号化では、アタック性を有するオーディオ信号において、特に短い変換窓長の変換窓を用いるフレームから、長い変換窓長の変換窓を用いるフレームに遷移したときのフレーム、すなわちLONG_STOP_SEQUENCEが選択されたフレームでAACのハフマン符号化よりも符号化効率（圧縮効率）が悪くなってしまう。

また、算術符号の符号長が長くなるということは、当然、復号時の計算量も多くなってしまうことになる。

さらに算術符号化は、１つの量子化MDCT係数の符号が全て揃わないと復号できないことや、ビット単位の演算処理が大量に発生するため、ハフマン符号化よりも計算量が多くなるという性質がある。

そこで、本技術では、オーディオ信号の符号化時に適切に符号化方式を選択することで符号化効率を向上させるとともに、復号の計算量を低減させることができるようにした。

具体的には、例えばUSACのように時間周波数変換を用いたコーデックにおいて、短い変換窓長の変換窓で時間周波数変換を行うフレームから、その変換窓よりも長い変換窓長の変換窓で時間周波数変換を行うフレームに遷移した場合、量子化された周波数スペクトル情報がハフマン符号化されるようにする。

例えばUSACであれば、LONG_STOP_SEQUENCEが選択されたフレームでは、符号化方式としてハフマン符号化が選択されるようにする。

また、それ以外のフレーム、つまり短い変換窓長から長い変換窓長へと遷移したときのフレーム以外の他のフレームにおいては、符号化方式としてハフマン符号化または算術符号化の何れかが選択されるようにする。

このとき、必要に応じて選択した符号化方式を識別する判定フラグを符号化ビットストリームに含めることで、復号側においてどの符号化方式が選択されたかを特定することができる。すなわち、デコーダシンタックスで判定フラグや復号方式の切り替えを規定することで、復号側において適切に復号方式を切り替えることができる。

〈符号化装置の構成例〉
続いて、本技術を適用した符号化装置と復号装置の具体的な実施の形態について説明する。なお、以下ではMPEG-D USACをベースに符号化および復号を行う実施の形態について説明する。しかし、変換窓長が適宜切り替えられて時間周波数変換された情報に対して、コンテキストベースの算術符号化を含む複数の符号化方式のうちの何れかを選択して符号化を行うものであれば、他のどのようなコーデックでもよい。

図１９は、本技術を適用した符号化装置の構成例を示す図である。

図１９に示す符号化装置１１は、時間周波数変換部２１、正規化部２２、量子化部２３、符号化方式選択部２４、符号化部２５、ビット制御部２６、および多重化部２７を有している。

時間周波数変換部２１は、供給されたオーディオ信号のフレームごとに変換窓を選択し、選択した変換窓を用いてオーディオ信号に対する時間周波数変換を行う。

また、時間周波数変換部２１は、時間周波数変換により得られた周波数スペクトル情報を正規化部２２に供給するとともに、各フレームで選択した変換窓の種類（window sequence）を示す変換窓情報を符号化方式選択部２４および多重化部２７に供給する。

例えば時間周波数変換部２１では、時間周波数変換としてMDCTが行われ、周波数スペクトル情報としてMDCT係数が得られる。以下では、周波数スペクトル情報がMDCT係数である場合を例として説明を続ける。

正規化部２２は、ビット制御部２６から供給された正規化のためのパラメータに基づいて、時間周波数変換部２１から供給されたMDCT係数を正規化し、その結果得られた正規化MDCT係数を量子化部２３に供給するとともに、正規化に関するパラメータを多重化部２７に供給する。

量子化部２３は、正規化部２２から供給された正規化MDCT係数を量子化し、その結果得られた量子化MDCT係数を符号化方式選択部２４に供給する。

符号化方式選択部２４は、時間周波数変換部２１から供給された変換窓情報に基づいて符号化方式を選択し、量子化部２３から供給された量子化MDCT係数を、符号化方式の選択結果に応じた符号化部２５のブロックへと供給する。

符号化部２５は、符号化方式選択部２４から供給された量子化MDCT係数を、符号化方式選択部２４により選択（指定）された符号化方式で符号化する。符号化部２５は、ハフマン符号化部３１および算術符号化部３２を有している。

ハフマン符号化部３１は、符号化方式選択部２４から量子化MDCT係数が供給された場合、その量子化MDCT係数をハフマン符号化方式により符号化する。すなわち量子化MDCT係数がハフマン符号化される。

ハフマン符号化部３１は、ハフマン符号化により得られたMDCT符号化データおよびハフマンコードブック情報をビット制御部２６に供給する。ここで、ハフマンコードブック情報は、ハフマン符号化時に用いられたハフマンコードブックを示す情報である。また、ビット制御部２６へと供給されるハフマンコードブック情報はハフマン符号化されたものとなっている。

算術符号化部３２は、符号化方式選択部２４から量子化MDCT係数が供給された場合、その量子化MDCT係数を算術符号化方式により符号化する。すなわち、量子化MDCT係数に対してコンテキストベースの算術符号化が行われる。

算術符号化部３２は、算術符号化により得られたMDCT符号化データをビット制御部２６に供給する。

ビット制御部２６は、ハフマン符号化部３１からMDCT符号化データおよびハフマンコードブック情報が供給されたか、または算術符号化部３２からMDCT符号化データが供給されるとビット量と音質の判定を行う。

すなわち、ビット制御部２６はMDCT符号化データ等のビット量（符号量）が目標使用ビット量内となっているかや、MDCT符号化データに基づく音の音質が許容範囲内の品質であるかを判定する。

ビット制御部２６は、MDCT符号化データ等のビット量が目標使用ビット量内であり、かつ音質が許容範囲内である場合、供給されたMDCT符号化データ等を多重化部２７へと供給する。

これに対して、ビット制御部２６はMDCT符号化データ等のビット量が目標使用ビット量内でない場合や、音質が許容範囲内でない場合には、正規化部２２に供給するパラメータを再設定し、再設定後のパラメータを正規化部２２に供給して再度の符号化を実施させる。

多重化部２７は、ビット制御部２６から供給されたMDCT符号化データやハフマンコードブック情報、時間周波数変換部２１から供給された変換窓情報、および正規化部２２から供給されたパラメータを多重化し、その結果得られた符号化ビットストリームを出力する。

〈符号化処理の説明〉
次に、符号化装置１１の動作について説明する。すなわち、以下、図２０のフローチャートを参照して、符号化装置１１による符号化処理について説明する。なお、この符号化処理はオーディオ信号のフレームごとに行われる。

ステップＳ１１において時間周波数変換部２１は、供給されたオーディオ信号のフレームに対して時間周波数変換を行う。

すなわち、例えば時間周波数変換部２１は、オーディオ信号の処理対象のフレームについて、時間的および周波数的に近傍にあるMDCT係数またはオーディオ信号の大きさや変動量などに基づいて、処理対象のフレームのアタック性や定常性の判定を行う。すなわち、MDCT係数の大きさや変動量、オーディオ信号の大きさや変動量などから、オーディオ信号がアタック性を有するものであるか定常性を有するものであるかが特定される。

時間周波数変換部２１は、アタック性や定常性の判定結果、処理対象のフレームの時間的に直前のフレームにおける変換窓の選択結果等に基づいて、処理対象のフレームについて変換窓を選択し、選択した変換窓を用いてオーディオ信号の処理対象のフレームに対する時間周波数変換を行う。時間周波数変換部２１は、時間周波数変換により得られたMDCT係数を正規化部２２に供給するとともに、選択した変換窓の種類を示す変換窓情報を符号化方式選択部２４および多重化部２７に供給する。

ステップＳ１２において正規化部２２は、ビット制御部２６から供給されたパラメータに基づいて、時間周波数変換部２１から供給されたMDCT係数を正規化し、その結果得られた正規化MDCT係数を量子化部２３に供給するとともに、正規化に関するパラメータを多重化部２７に供給する。

ステップＳ１３において量子化部２３は、正規化部２２から供給された正規化MDCT係数を量子化し、その結果得られた量子化MDCT係数を符号化方式選択部２４に供給する。

ステップＳ１４において符号化方式選択部２４は、時間周波数変換部２１から供給された変換窓情報により示される変換窓の種類、すなわちwindow sequenceがLONG_STOP_SEQUENCEであるか否かを判定する。

ステップＳ１４においてLONG_STOP_SEQUENCEであると判定された場合、符号化方式選択部２４は、量子化部２３から供給された量子化MDCT係数をハフマン符号化部３１に供給し、その後、処理はステップＳ１５へと進む。

LONG_STOP_SEQUENCEが選択されるフレームは、アタック性が強く、短い変換窓長のフレーム、つまりEIGHT_SHORT_SEQUENCEから、定常性が強く長い変換窓長のフレーム、つまりONLY_LONG_SEQUENCEへと遷移するときのフレームである。

このように短い変換窓長から長い変換窓長へと切り替わったフレーム、つまりLONG_STOP_SEQUENCEが選択されたフレームでは、例えば図１８を参照して説明したように算術符号化よりもハフマン符号化の方が符号化効率が高い。

そこで、そのようなフレームの符号化時には、符号化方式としてハフマン符号化方式が選択される。すなわち、MPEG4 AACと同様に同一のハフマンコードブックを使用するセクションごとに、量子化MDCT係数とハフマンコードブック情報が、ハフマン符号が用いられて符号化される。

ステップＳ１５において、ハフマン符号化部３１は、符号化方式選択部２４から供給された量子化MDCT係数に対して、ハフマンコードブック情報を用いたハフマン符号化を行い、MDCT符号化データおよびハフマンコードブック情報をビット制御部２６に供給する。

ビット制御部２６は、ハフマン符号化部３１から供給されたMDCT符号化データおよびハフマンコードブック情報に基づいて目標使用ビット量や音質についての判定を行う。符号化装置１１では、目標とするビット量や品質のMDCT符号化データおよびハフマンコードブック情報が得られるまで、パラメータの再設定や、正規化、量子化、ハフマン符号化の各処理が繰り返し行われる。

そして、目標とするビット量や品質のMDCT符号化データおよびハフマンコードブック情報が得られると、ビット制御部２６は、それらのMDCT符号化データおよびハフマンコードブック情報を多重化部２７に供給し、処理はステップＳ１７へと進む。

一方、ステップＳ１４においてLONG_STOP_SEQUENCEでないと判定された場合、すなわち、短い変換窓長から長い変換窓長へと切り替えられなかった場合、その後、処理はステップＳ１６へと進む。この場合、符号化方式選択部２４は、量子化部２３から供給された量子化MDCT係数を算術符号化部３２に供給する。

ステップＳ１６において算術符号化部３２は、符号化方式選択部２４から供給された量子化MDCT係数に対してコンテキストベースの算術符号化を行い、その結果得られたMDCT符号化データをビット制御部２６に供給する。換言すれば、量子化MDCT係数が算術符号化される。

ビット制御部２６は、算術符号化部３２から供給されたMDCT符号化データに基づいて目標使用ビット量や音質についての判定を行う。符号化装置１１では、目標とするビット量や品質のMDCT符号化データが得られるまで、パラメータの再設定や、正規化、量子化、算術符号化の各処理が繰り返し行われる。

そして、目標とするビット量や品質のMDCT符号化データが得られると、ビット制御部２６は、そのMDCT符号化データを多重化部２７に供給し、その後、処理はステップＳ１７へと進む。

ステップＳ１５またはステップＳ１６の処理が行われると、ステップＳ１７の処理が行われる。

すなわち、ステップＳ１７において多重化部２７は、多重化を行って符号化ビットストリームを生成し、得られた符号化ビットストリームを復号装置等に送信（出力）する。

例えばステップＳ１５の処理が行われた場合には、多重化部２７はビット制御部２６から供給されたMDCT符号化データおよびハフマンコードブック情報と、時間周波数変換部２１から供給された変換窓情報と、正規化部２２から供給されたパラメータとを多重化し、符号化ビットストリームを生成する。

また、例えばステップＳ１６の処理が行われた場合には、多重化部２７はビット制御部２６から供給されたMDCT符号化データと、時間周波数変換部２１から供給された変換窓情報と、正規化部２２から供給されたパラメータとを多重化し、符号化ビットストリームを生成する。

このようにして得られた符号化ビットストリームが出力されると、符号化処理は終了する。

以上のようにして符号化装置１１は、時間周波数変換時に用いた変換窓の種類に応じて符号化方式を選択する。このようにすることで、フレームごとに適切な符号化方式を選択し、符号化効率を向上させることができる。

〈復号装置の構成例〉
続いて、符号化装置１１から出力された符号化ビットストリームを受信して復号を行う復号装置について説明する。

そのような復号装置は、例えば図２１に示すように構成される。

図２１に示す復号装置７１は、取得部８１、非多重化部８２、復号方式選択部８３、復号部８４、逆量子化部８５、および時間周波数逆変換部８６を有している。

取得部８１は、符号化装置１１から送信されてきた符号化ビットストリームを受信することで、符号化ビットストリームを取得し、非多重化部８２に供給する。

非多重化部８２は、取得部８１から供給された符号化ビットストリームを非多重化し、非多重化により得られたMDCT符号化データやハフマンコードブック情報を復号方式選択部８３に供給する。また、非多重化部８２は、非多重化により得られた、正規化に関するパラメータを逆量子化部８５に供給するとともに、非多重化により得られた変換窓情報を復号方式選択部８３および時間周波数逆変換部８６に供給する。

復号方式選択部８３は、非多重化部８２から供給された変換窓情報に基づいて復号方式を選択し、非多重化部８２から供給されたMDCT符号化データ等を、復号方式の選択結果に応じた復号部８４のブロックへと供給する。

復号部８４は、復号方式選択部８３から供給されたMDCT符号化データ等の復号を行う。復号部８４は、ハフマン復号部９１および算術復号部９２を有している。

ハフマン復号部９１は、復号方式選択部８３からMDCT符号化データおよびハフマンコードブック情報が供給された場合、ハフマンコードブック情報を用いて、ハフマン符号化に対応する復号方式でMDCT符号化データを復号し、その結果得られた量子化MDCT係数を逆量子化部８５に供給する。

算術復号部９２は、復号方式選択部８３からMDCT符号化データが供給された場合、算術符号化に対応する復号方式でMDCT符号化データを復号し、その結果得られた量子化MDCT係数を逆量子化部８５に供給する。

逆量子化部８５は、非多重化部８２から供給されたパラメータを用いて、ハフマン復号部９１または算術復号部９２から供給された量子化MDCT係数を逆量子化し、その結果得られたMDCT係数を時間周波数逆変換部８６に供給する。より詳細には、例えば逆量子化部８５は、量子化MDCT係数を逆量子化して得られた値に、さらに非多重化部８２から供給されたパラメータ等を乗算するなどしてMDCT係数を得る。

時間周波数逆変換部８６は、非多重化部８２から供給された変換窓情報に基づいて、逆量子化部８５から供給されたMDCT係数に対して時間周波数逆変換を行い、その結果得られた時間信号である出力オーディオ信号を後段に出力する。

〈復号処理の説明〉
次に、復号装置７１の動作について説明する。すなわち、以下、図２２のフローチャートを参照して、復号装置７１による復号処理について説明する。なお、この復号処理は、取得部８１により１フレーム分の符号化ビットストリームが受信されると開始される。

ステップＳ４１において、非多重化部８２は、取得部８１から供給された符号化ビットストリームを非多重化し、非多重化により得られたMDCT符号化データ等を復号方式選択部８３などに供給する。すなわち、符号化ビットストリームから、MDCT符号化データや変換窓情報、各種のパラメータが抽出される。

この場合、オーディオ信号（MDCT係数）がハフマン符号化されているときには、MDCT符号化データとハフマンコードブック情報が符号化ビットストリームから抽出される。これに対して、オーディオ信号が算術符号化されているときには、MDCT符号化データが符号化ビットストリームから抽出される。

また、非多重化部８２は、非多重化により得られた、正規化に関するパラメータを逆量子化部８５に供給するとともに、非多重化により得られた変換窓情報を復号方式選択部８３および時間周波数逆変換部８６に供給する。

ステップＳ４２において復号方式選択部８３は、非多重化部８２から供給された変換窓情報により示される変換窓の種類がLONG_STOP_SEQUENCEであるか否かを判定する。

ステップＳ４２においてLONG_STOP_SEQUENCEであると判定された場合、復号方式選択部８３は、非多重化部８２から供給されたMDCT符号化データおよびハフマンコードブック情報をハフマン復号部９１へと供給し、処理はステップＳ４３へと進む。

この場合、処理対象のフレームは、短い変換窓長のフレームから長い変換窓長のフレームへと切り替わったフレームである。換言すれば、変換窓情報により示される変換窓は、短い変換窓長から長い変換窓長へと切り替えられたときに選択される変換窓である。そのため復号方式選択部８３では、復号方式としてハフマン符号化に対応する復号方式が選択される。

ステップＳ４３においてハフマン復号部９１は、復号方式選択部８３から供給されたMDCT符号化データおよびハフマンコードブック情報、すなわちハフマン符号の復号を行う。具体的にはハフマン復号部９１は、ハフマンコードブック情報およびMDCT符号化データに基づいて量子化MDCT係数を得る。

ハフマン復号部９１は、復号により得られた量子化MDCT係数を逆量子化部８５に供給し、その後、処理はステップＳ４５へと進む。

これに対して、ステップＳ４２においてLONG_STOP_SEQUENCEでないと判定された場合、復号方式選択部８３は、非多重化部８２から供給されたMDCT符号化データを算術復号部９２へと供給し、処理はステップＳ４４へと進む。

この場合、処理対象のフレームは、短い変換窓長のフレームから長い変換窓長のフレームへと切り替わったフレームではない。換言すれば、変換窓情報により示される変換窓は、短い変換窓長から長い変換窓長へと切り替えられたときに選択される変換窓ではない。そのため復号方式選択部８３では、復号方式として算術符号化に対応する復号方式が選択される。

ステップＳ４４において算術復号部９２は、復号方式選択部８３から供給されたMDCT符号化データ、すなわち算術符号の復号を行う。

算術復号部９２はMDCT符号化データを復号して得られた量子化MDCT係数を逆量子化部８５に供給し、その後、処理はステップＳ４５へと進む。

ステップＳ４３またはステップＳ４４の処理が行われると、ステップＳ４５の処理が行われる。

ステップＳ４５において逆量子化部８５は、非多重化部８２から供給されたパラメータを用いて、ハフマン復号部９１または算術復号部９２から供給された量子化MDCT係数を逆量子化し、その結果得られたMDCT係数を時間周波数逆変換部８６に供給する。

ステップＳ４６において時間周波数逆変換部８６は、非多重化部８２から供給された変換窓情報に基づいて、逆量子化部８５から供給されたMDCT係数に対して時間周波数逆変換を行い、その結果得られた出力オーディオ信号を後段に出力する。

出力オーディオ信号が出力されると、復号処理は終了する。

以上のようにして復号装置７１は、符号化ビットストリームを非多重化して得られた変換窓情報に基づいて復号方式を選択し、選択した復号方式で復号を行う。特に、変換窓の種類がLONG_STOP_SEQUENCEである場合にはハフマン符号化に対応する復号方式が選択され、それ以外の場合には算術符号化に対応する復号方式が選択される。このようにすることで、符号化側において符号化効率が向上するだけでなく、復号側における復号時の処理量（演算量）も削減することができる。

ところで、本技術のようにLONG_STOP_SEQUENCEのフレームでハフマン符号化を行い、LONG_STOP_SEQUENCE以外のフレームで算術符号化を行う手法をハイブリッド符号化手法と呼ぶこととする。このようなハイブリッド符号化手法によれば、符号化効率を向上させるとともに復号時の処理量も削減することができる。

例えば図２３は、図５における場合と同一の定常性音楽信号を符号化するときに、USACのLONG_STOP_SEQUENCEのフレームにハフマン符号化を用いた場合、つまりハイブリッド符号化手法により符号化を行った場合と、常にAACのハフマン符号化を用いた場合との必要ビット数の差分グラフを示している。

なお、図２３において横軸はフレーム（時間）を示しており、縦軸は差分ビット数を示している。ここでの差分ビット数は、ハイブリッド符号化手法の必要ビット数から、AACのハフマン符号化の必要ビット数を減算して得られたものである。

図２３に示す各フレームの差分ビット数は、図７に示した差分ビット数に対応し、これらの図２３と図７を比較すると、すなわちハイブリッド符号化手法により符号化を行う場合と、常に算術符号化を行う場合とを比較すると、図２３の例の方が符号化効率がよいが、それほど大きな差はないことが分かる。

これに対して、図１２における場合と同一のアタック性音楽信号を符号化するときに、USACのLONG_STOP_SEQUENCEのフレームにハフマン符号化を用いた場合、つまりハイブリッド符号化手法により符号化を行った場合と、常にAACのハフマン符号化を用いた場合との必要ビット数の差分は図２４に示すようになる。

なお、図２４において横軸はフレーム（時間）を示しており、縦軸は差分ビット数を示している。ここでの差分ビット数は、ハイブリッド符号化手法の必要ビット数から、AACのハフマン符号化の必要ビット数を減算して得られたものである。

図２４に示す各フレームの差分ビット数は、図１４に示した差分ビット数に対応し、これらの図２４と図１４を比較すると、すなわちハイブリッド符号化手法により符号化を行う場合と、常に算術符号化を行う場合とを比較すると、図２４の例の方が大幅に差分ビット数が減少していることが分かる。つまり、大幅に符号化効率が向上していることが分かる。

さらに、ハイブリッド符号化手法では、LONG_STOP_SEQUENCEのフレームで算術符号化ではなくハフマン符号化を用いたことにより、そのフレームの復号時の処理量も低減される。

〈第２の実施の形態〉
〈符号化方式の選択について〉
ところで、以上においてはLONG_STOP_SEQUENCEではないフレームにおいては、符号化方式として必ず算術符号化が選択されると説明した。しかし、符号化方式を選択するにあたっては、符号化効率（圧縮効率）だけでなく処理量の余裕や音質なども考慮できるとよい。

そこで、例えばLONG_STOP_SEQUENCEではないフレームにおいては、ハフマン符号化と算術符号化のうちの何れか一方が選択されるようにすることもできる。

そのような場合、例えば符号化ビットストリームには、符号化時にハフマン符号化と算術符号化のうちの何れの符号化方式が選択されたかを示す判定フラグが格納される。

ここでは、例えば判定フラグの値が「１」である場合にはハフマン符号化方式が選択されたことを示しており、判定フラグの値が「０」である場合には算術符号化方式が選択されたことを示しているとする。

このような判定フラグは、LONG_STOP_SEQUENCEではないフレーム、つまり短い変換窓長から長い変換窓長へと切り替えられなかった場合において、処理対象のフレームで選択された符号化方式を示す選択情報であるといえる。換言すれば、判定フラグは符号化方式の選択結果を示す選択情報であるといえる。

なお、LONG_STOP_SEQUENCEが選択されたフレームにおいては、必ずハフマン符号化方式が選択されるため、そのようなフレームについては符号化ビットストリームには判定フラグは含まれていない。

例えば、適宜、判定フラグが符号化ビットストリームに格納される場合、符号化ビットストリームにおける所定のチャネルのオーディオ信号の１フレーム分のチャネルストリームのシンタックスは、MPEG-D USACをベースとして図２５に示すようにすればよい。

図２５に示す例では、矢印Ｑ１１に示す部分、すなわち文字「ics_info()」の部分は、変換窓等に関する情報が格納されるics_infoを示している。

また、矢印Ｑ１２に示す文字「section_data()」の部分は、section_dataを示している。このsection_dataにはハフマンコードブック情報等が格納される。さらに図２５における文字「ac_spectral_data」はMDCT符号化データを示している。

また、文字「ics_info()」により示されるics_infoの部分のシンタックスは、例えば図２６に示すようにされる。

図２６に示す例では文字「window_sequence」の部分は、変換窓情報、すなわちwindow sequenceを示しており、文字「window_shape」の部分は変換窓の形状を示している。

また、文字「huffman_coding_flag」の部分は判定フラグを示している。

ここでは文字「window_sequence」の部分に格納される変換窓情報がLONG_STOP_SEQUENCEを示している場合、ics_infoには判定フラグは格納されていない。これに対して変換窓情報がLONG_STOP_SEQUENCE以外の種類を示している場合、ics_infoには判定フラグが格納されている。

したがって図２５に示した例では、図２６の文字「window_sequence」の部分に格納される変換窓情報がLONG_STOP_SEQUENCE以外の種類を示しており、かつ図２６の文字「huffman_coding_flag」の部分に値が「１」である判定フラグが格納されている場合、section_dataにハフマンコードブック情報等が格納されている。その他、図２６の文字「window_sequence」の部分に格納される変換窓情報がLONG_STOP_SEQUENCEを示している場合にもsection_dataにハフマンコードブック情報等が格納されている。

〈符号化処理の説明〉
図２５や図２６に示した例のように、符号化ビットストリームに適宜、判定フラグが格納される場合、符号化装置１１では、例えば図２７に示す符号化処理が行われる。以下、図２７のフローチャートを参照して、符号化装置１１による符号化処理について説明する。

なお、ステップＳ７１乃至ステップＳ７５の処理は、図２０のステップＳ１１乃至ステップＳ１５の処理と同様であるので、その説明は省略する。

ステップＳ７４においてLONG_STOP_SEQUENCEでないと判定された場合、ステップＳ７６において符号化方式選択部２４は、算術符号化を行うか否かを判定する。

例えば符号化方式選択部２４は、上位の制御装置から供給された指定情報に基づいて、算術符号化を行うか否かを判定する。

ここで、指定情報は、例えばコンテンツ制作者等が指定した符号化方式を示す情報である。例えばコンテンツ制作者は、LONG_STOP_SEQUENCEでないフレームでは、フレームごとに符号化方式としてハフマン符号化と算術符号化の何れか一方を指定することができるようになっている。

この場合、符号化方式選択部２４は、指定情報により示される符号化方式が算術符号化であるとき、ステップＳ７６において算術符号化を行うと判定する。これに対して、符号化方式選択部２４は、指定情報により示される符号化方式がハフマン符号化であるとき、ステップＳ７６において算術符号化を行わないと判定する。

その他、ステップＳ７６では、復号装置７１や符号化装置１１のリソース、つまり処理量、符号化されるオーディオ信号のビットレート、リアルタイム性が要求されているか否か等に基づいて符号化方式が選択されるようにしてもよい。

具体的には、例えばオーディオ信号のビットレートが高く、十分な音質を確保することができる場合には、符号化方式選択部２４は、より処理量が少ないハフマン符号化を選択し、ステップＳ７６において算術符号化を行わないと判定するようにしてもよい。

また、例えばリアルタイム性が要求されていたり、復号装置７１のリソースが少なかったりして、音質よりも、より少ない処理量で迅速に符号化および復号の処理を行うことが重要である場合、符号化方式選択部２４はハフマン符号化を選択し、ステップＳ７６において算術符号化を行わないと判定するようにしてもよい。

このようにリアルタイム性が要求される場合や、復号側のリソースが少ない場合には、符号化方式としてハフマン符号化を選択することで、常に算術符号化を行うときよりも高速に処理（動作）を行うことができるようになる。

なお、復号装置７１のリソースについては、例えば復号装置７１が設けられた機器の演算処理能力やメモリ量を示す情報等を、復号装置７１のリソース情報として符号化処理の開始前などに予め復号装置７１から取得しておけばよい。

ステップＳ７６において算術符号化を行うと判定された場合、符号化方式選択部２４は、量子化部２３から供給された量子化MDCT係数を算術符号化部３２に供給し、その後、ステップＳ７７の処理が行われる。すなわち、ステップＳ７７では、量子化MDCT係数に対してコンテキストベースの算術符号化が行われる。

なお、ステップＳ７７の処理は、図２０のステップＳ１６の処理と同様であるので、その説明は省略する。ステップＳ７７の処理が行われると、その後、処理はステップＳ７９へと進む。

これに対して、ステップＳ７６において算術符号化を行わないと判定された場合、つまりハフマン符号化を行う場合、符号化方式選択部２４は、量子化部２３から供給された量子化MDCT係数をハフマン符号化部３１に供給し、処理はステップＳ７８へと進む。

ステップＳ７８では、ステップＳ７５と同様の処理が行われ、その結果得られたMDCT符号化データおよびハフマンコードブック情報がハフマン符号化部３１からビット制御部２６へと供給される。ステップＳ７８の処理が行われると、その後、処理はステップＳ７９へと進む。

ステップＳ７７またはステップＳ７８の処理が行われると、ステップＳ７９においてビット制御部２６は判定フラグを生成する。

例えばステップＳ７７の処理、つまり算術符号化が行われた場合、ビット制御部２６は値が「０」である判定フラグを生成し、算術符号化部３２から供給されたMDCT符号化データとともに、生成した判定フラグを多重化部２７へと供給する。

また、例えばステップＳ７８の処理、つまりハフマン符号化が行われた場合、ビット制御部２６は値が「１」である判定フラグを生成し、ハフマン符号化部３１から供給されたMDCT符号化データおよびハフマンコードブック情報とともに、生成した判定フラグを多重化部２７へと供給する。

ステップＳ７９の処理が行われると、その後、処理はステップＳ８０へと進む。

ステップＳ７５またはステップＳ７９の処理が行われると、ステップＳ８０において多重化部２７は、多重化を行って符号化ビットストリームを生成し、得られた符号化ビットストリームを復号装置７１に送信する。なお、ステップＳ８０では、基本的には図２０のステップＳ１７と同様の処理が行われる。

例えばステップＳ７５の処理が行われた場合には、多重化部２７はMDCT符号化データ、ハフマンコードブック情報、変換窓情報、および正規化部２２からのパラメータが格納された符号化ビットストリームを生成する。この符号化ビットストリームには、判定フラグは含まれていない。

また、例えばステップＳ７８の処理が行われた場合、多重化部２７は判定フラグ、MDCT符号化データ、ハフマンコードブック情報、変換窓情報、および正規化部２２からのパラメータが格納された符号化ビットストリームを生成する。

さらに、例えばステップＳ７７の処理が行われた場合、多重化部２７は判定フラグ、MDCT符号化データ、変換窓情報、および正規化部２２からのパラメータが格納された符号化ビットストリームを生成する。

このようにして符号化ビットストリームが生成されて出力されると、符号化処理は終了する。

以上のようにして符号化装置１１は、LONG_STOP_SEQUENCEでないフレームにおいては、ハフマン符号化と算術符号化の何れか一方を選択し、選択した符号化方式により符号化を行う。このようにすることで、フレームごとに適切な符号化方式を選択し、符号化効率を向上させるとともに、より自由度の高い符号化を実現することができる。

〈復号処理の説明〉
また、符号化装置１１において図２７を参照して説明した符号化処理が行われた場合、復号装置７１では図２８に示す復号処理が行われる。

以下、図２８のフローチャートを参照して、復号装置７１による復号処理について説明する。なお、ステップＳ１２１乃至ステップＳ１２３の処理は、図２２のステップＳ４１乃至ステップＳ４３の処理と同様であるので、その説明は省略する。但し、ステップＳ１２１では、非多重化により符号化ビットストリームから判定フラグが抽出された場合には、その判定フラグが非多重化部８２から復号方式選択部８３へと供給される。

ステップＳ１２２においてLONG_STOP_SEQUENCEでないと判定された場合、ステップＳ１２４において復号方式選択部８３は、非多重化部８２から供給された判定フラグに基づいて、MDCT符号化データが算術符号であるか否かを判定する。すなわち、MDCT符号化データの符号化方式が算術符号化であるか否かが判定される。

例えば復号方式選択部８３は、判定フラグの値が「１」である場合、算術符号でない、つまりハフマン符号であると判定し、判定フラグの値が「０」である場合、算術符号であると判定する。このように復号方式選択部８３では、ハフマン符号化と算術符号化のうち、判定フラグにより示される符号化方式に対応する復号方式が選択される。

ステップＳ１２４において算術符号でない、つまりハフマン符号であると判定された場合、復号方式選択部８３は、非多重化部８２から供給されたMDCT符号化データおよびハフマンコードブック情報をハフマン復号部９１へと供給し、処理はステップＳ１２３へと進む。そして、ステップＳ１２３ではハフマン符号の復号が行われる。

これに対して、ステップＳ１２４において算術符号であると判定された場合、復号方式選択部８３は、非多重化部８２から供給されたMDCT符号化データを算術復号部９２へと供給し、処理はステップＳ１２５へと進む。

ステップＳ１２５では、算術符号であるMDCT符号化データに対して、算術符号化に対応する復号方式で復号が行われるが、ステップＳ１２５の処理は図２２のステップＳ４４の処理と同様であるので、その説明は省略する。

ステップＳ１２３またはステップＳ１２５の処理が行われると、その後、ステップＳ１２６およびステップＳ１２７の処理が行われて復号処理は終了するが、これらの処理は図２２のステップＳ４５およびステップＳ４６の処理と同様であるので、その説明は省略する。

以上のようにして復号装置７１は、変換窓情報と判定フラグに基づいて復号方式を選択し、復号を行う。特に、LONG_STOP_SEQUENCEでないフレームでも、判定フラグを参照することで正しい復号方式を選択することができるので、符号化効率の向上や復号側での処理量の削減だけでなく、自由度の高い符号化および復号を実現することができる。

〈第３の実施の形態〉
〈符号化処理の説明〉
その他、LONG_STOP_SEQUENCEではないフレームにおいて、ハフマン符号化と算術符号化のうちの何れか一方を選択する場合、より必要ビット数が少ない方を選択するようにしてもよい。

例えば復号装置７１や符号化装置１１で処理量に余裕があり、符号化効率（圧縮効率）を優先したい場合などにおいては、LONG_STOP_SEQUENCEではないフレームで、ハフマン符号化と算術符号化の必要ビット数を計算し、より必要ビット数が少ない方を選択するようにしてもよい。

そのような場合、符号化装置１１では、例えば図２９に示す符号化処理が行われる。すなわち、以下、図２９のフローチャートを参照して、符号化装置１１による符号化処理について説明する。

なお、ステップＳ１５１乃至ステップＳ１５５の処理は、図２０のステップＳ１１乃至ステップＳ１５の処理と同様であるので、その説明は省略する。

ステップＳ１５４においてLONG_STOP_SEQUENCEでないと判定された場合、符号化方式選択部２４は、量子化部２３から供給された量子化MDCT係数をハフマン符号化部３１および算術符号化部３２の両方に供給し、処理はステップＳ１５６へと進む。この場合、ステップＳ１５４の時点では、まだ何れの符号化方式が選択（採用）されるかは、決定されていない。

ステップＳ１５６において、算術符号化部３２は符号化方式選択部２４から供給された量子化MDCT係数に対してコンテキストベースの算術符号化を行い、その結果得られたMDCT符号化データをビット制御部２６に供給する。ステップＳ１５６では、図２０のステップＳ１６と同様の処理が行われる。

ステップＳ１５７において、ハフマン符号化部３１は符号化方式選択部２４から供給された量子化MDCT係数に対してハフマン符号化を行い、その結果得られたMDCT符号化データおよびハフマンコードブック情報をビット制御部２６に供給する。ステップＳ１５７では、ステップＳ１５５と同様の処理が行われる。

ステップＳ１５８においてビット制御部２６は、ハフマン符号化部３１から供給されたMDCT符号化データおよびハフマンコードブック情報のビット数と、算術符号化部３２から供給されたMDCT符号化データのビット数とを比較して符号化方式を選択する。

すなわち、ビット制御部２６はハフマン符号化により得られたMDCT符号化データおよびハフマンコードブック情報のビット数（符号量）が、算術符号化により得られたMDCT符号化データのビット数よりも少ない場合、符号化方式としてハフマン符号化を選択する。

この場合、ビット制御部２６は、ハフマン符号化により得られたMDCT符号化データおよびハフマンコードブック情報を多重化部２７へと供給する。

これに対して、ビット制御部２６は算術符号化により得られたMDCT符号化データのビット数が、ハフマン符号化により得られたMDCT符号化データおよびハフマンコードブック情報のビット数以下である場合、符号化方式として算術符号化を選択する。

この場合、ビット制御部２６は、算術符号化により得られたMDCT符号化データを多重化部２７へと供給する。

このように、ハフマン符号化と算術符号化とで実際のビット数（符号量）、すなわちそれらの符号化方式での必要ビット数を比較することで、より必要ビット数の少ない符号化方式を確実に選択することができる。この場合、実質的にはハフマン符号化時の必要ビット数と算術符号化時の必要ビット数とに基づいて、ハフマン符号化と算術符号化のうちの何れかの符号化方式を選択し、選択した符号化方式で符号化を行ったことになる。

ステップＳ１５９においてビット制御部２６は、ステップＳ１５８における符号化方式の選択結果に応じた判定フラグを生成し、多重化部２７に供給する。

例えばビット制御部２６は、符号化方式としてハフマン符号化を選択した場合、値が「１」である判定フラグを生成し、符号化方式として算術符号化を選択した場合、値が「０」である判定フラグを生成する。

このようにして判定フラグが生成されると、その後、処理はステップＳ１６０へと進む。

ステップＳ１５９の処理が行われたか、またはステップＳ１５５の処理が行われると、ステップＳ１６０の処理が行われて符号化処理は終了する。なお、ステップＳ１６０の処理は図２７のステップＳ８０の処理と同様であるので、その説明は省略する。

以上のようにして符号化装置１１は、LONG_STOP_SEQUENCEでないフレームにおいてはハフマン符号化と算術符号化のうちの必要ビット数の少ない方を選択し、選択した符号化方式で符号化されたMDCT符号化データを含む符号化ビットストリームを生成する。このようにすることで、フレームごとに適切な符号化方式を選択し、符号化効率を向上させるとともに、より自由度の高い符号化を実現することができる。

また、図２９を参照して説明した符号化処理が行われた場合、復号装置７１では、図２８を参照して説明した復号処理が行われる。

以上のように本技術によれば、適切に符号化方式を選択することで算術符号化のみを用いた場合よりも符号化効率（圧縮効率）を向上させるとともに、復号時の処理量を削減することができる。

また、第２の実施の形態や第３の実施の形態では、例えばオーディオ信号のビットレートが高く音質が十分である場合や、音質よりも処理量が重要な場合などにおいても、LONG_STOP_SEQUENCEでないフレームにおいて適切な符号化方式を選択することができる。これにより、より自由度の高い符号化および復号を実現することができる。すなわち、例えば復号時の処理量をより柔軟に制御することができる。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図３０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
オーディオ信号に対して変換窓を用いた時間周波数変換を行う時間周波数変換部と、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する符号化部と
を備える符号化装置。
（２）
前記周波数スペクトル情報の符号化データと、前記時間周波数変換に用いた前記変換窓の種類を示す変換窓情報とを多重化して符号化ビットストリームを生成する多重化部をさらに備える
（１）に記載の符号化装置。
（３）
前記符号化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、ハフマン符号化と算術符号化のうちの何れかの符号化方式で前記周波数スペクトル情報を符号化する
（１）または（２）に記載の符号化装置。
（４）
前記符号化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、符号化時の必要ビット数、前記オーディオ信号のビットレート、復号側のリソース情報、または符号化方式の指定情報に基づいて選択された符号化方式で前記周波数スペクトル情報を符号化する
（３）に記載の符号化装置。
（５）
前記多重化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報の符号化方式を示す選択情報と、前記符号化データと、前記変換窓情報とを多重化して前記符号化ビットストリームを生成する
（３）または（４）に記載の符号化装置。
（６）
符号化装置が、
オーディオ信号に対して変換窓を用いた時間周波数変換を行い、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する
符号化方法。
（７）
オーディオ信号に対して変換窓を用いた時間周波数変換を行い、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する
ステップを含む処理をコンピュータに実行させるプログラム。
（８）
符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出する非多重化部と、
前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する復号部と
を備える復号装置。
（９）
前記復号部は、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓でない場合、前記符号化データを算術符号化に対応する復号方式で復号する
（８）に記載の復号装置。
（１０）
前記復号部は、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓でない場合、ハフマン符号化と算術符号化のうち、前記符号化ビットストリームから抽出された選択情報により示される符号化方式に対応する復号方式で前記符号化データを復号する
（８）に記載の復号装置。
（１１）
復号装置が、
符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出し、
前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する
復号方法。
（１２）
符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出し、
前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する
ステップを含む処理をコンピュータに実行させるプログラム。

１１符号化装置，２１時間周波数変換部，２４符号化方式選択部，２６ビット制御部，２７多重化部，３１ハフマン符号化部，３２算術符号化部，７１復号装置，８１取得部，８２非多重化部，８３復号方式選択部，９１ハフマン復号部，９２算術復号部

Claims

オーディオ信号に対して変換窓を用いた時間周波数変換を行う時間周波数変換部と、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する符号化部と
を備える符号化装置。
前記周波数スペクトル情報の符号化データと、前記時間周波数変換に用いた前記変換窓の種類を示す変換窓情報とを多重化して符号化ビットストリームを生成する多重化部をさらに備える
請求項１に記載の符号化装置。
前記符号化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、ハフマン符号化と算術符号化のうちの何れかの符号化方式で前記周波数スペクトル情報を符号化する
請求項１に記載の符号化装置。
前記符号化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、符号化時の必要ビット数、前記オーディオ信号のビットレート、復号側のリソース情報、または符号化方式の指定情報に基づいて選択された符号化方式で前記周波数スペクトル情報を符号化する
請求項３に記載の符号化装置。
前記多重化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報の符号化方式を示す選択情報と、前記符号化データと、前記変換窓情報とを多重化して前記符号化ビットストリームを生成する
請求項３に記載の符号化装置。
符号化装置が、
オーディオ信号に対して変換窓を用いた時間周波数変換を行い、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する
符号化方法。
オーディオ信号に対して変換窓を用いた時間周波数変換を行い、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する
ステップを含む処理をコンピュータに実行させるプログラム。
符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出する非多重化部と、
前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する復号部と
を備える復号装置。
前記復号部は、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓でない場合、前記符号化データを算術符号化に対応する復号方式で復号する
請求項８に記載の復号装置。
前記復号部は、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓でない場合、ハフマン符号化と算術符号化のうち、前記符号化ビットストリームから抽出された選択情報により示される符号化方式に対応する復号方式で前記符号化データを復号する
請求項８に記載の復号装置。
復号装置が、
符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出し、
前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する
復号方法。
符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出し、
前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する
ステップを含む処理をコンピュータに実行させるプログラム。