JPWO2019244666A1 - 符号化装置および方法、復号装置および方法、並びにプログラム - Google Patents

符号化装置および方法、復号装置および方法、並びにプログラム Download PDF

Info

Publication number
JPWO2019244666A1
JPWO2019244666A1 JP2020525515A JP2020525515A JPWO2019244666A1 JP WO2019244666 A1 JPWO2019244666 A1 JP WO2019244666A1 JP 2020525515 A JP2020525515 A JP 2020525515A JP 2020525515 A JP2020525515 A JP 2020525515A JP WO2019244666 A1 JPWO2019244666 A1 JP WO2019244666A1
Authority
JP
Japan
Prior art keywords
conversion window
coding
conversion
window length
huffman
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020525515A
Other languages
English (en)
Other versions
JP7318645B2 (ja
Inventor
明文 河野
明文 河野
徹 知念
徹 知念
本間 弘幸
弘幸 本間
芳明 及川
芳明 及川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019244666A1 publication Critical patent/JPWO2019244666A1/ja
Application granted granted Critical
Publication of JP7318645B2 publication Critical patent/JP7318645B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/4006Conversion to or from arithmetic code
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/4031Fixed length to variable length coding
    • H03M7/4037Prefix coding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6064Selection of Compressor
    • H03M7/607Selection between different types of compressors
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/60General implementation details not specific to a particular type of compression
    • H03M7/6064Selection of Compressor
    • H03M7/6082Selection strategies
    • H03M7/6094Selection strategies according to reasons other than compression rate or data type
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本技術は、符号化効率を向上させることができるようにする符号化装置および方法、復号装置および方法、並びにプログラムに関する。符号化装置は、オーディオ信号に対して変換窓を用いた時間周波数変換を行う時間周波数変換部と、変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、周波数スペクトル情報を算術符号化する符号化部とを備える。本技術は符号化装置および復号装置に適用することができる。

Description

本技術は、符号化装置および方法、復号装置および方法、並びにプログラムに関し、特に、符号化効率を向上させることができるようにした符号化装置および方法、復号装置および方法、並びにプログラムに関する。
例えば、オーディオ信号を符号化する方法として、国際標準規格であるMPEG(Moving Picture Experts Group)-2 AAC(Advanced Audio Coding)規格、MPEG-4 AAC規格やMPEG-D USAC(Unified Speech and Audio Coding)規格、MPEG-D USAC規格をCore CoderにしたMPEG-H 3D audio規格の符号化等が知られている(例えば、非特許文献1および非特許文献2参照)。
INTERNATIONAL STANDARD ISO/IEC 14496-3 Fourth edition 2009-09-01 Information technology-coding of audio-visual objects-part3:Audio INTERNATIONAL STANDARD ISO/IEC 23003-3 Frist edition 2012-04-01 Information technology-coding of audio-visual objects-part3:Unified speech and audio coding
ところで、従来の7.1チャネルサラウンド再生を超える、より高臨場感な再生や、“3D audio”で実現される多数の音素材(オブジェクト)を伝送するためには、より多くのオーディオチャネルを圧縮効率よく高速に復号可能な符号化技術が必要となる。すなわち、符号化効率の向上が望まれている。
本技術は、このような状況に鑑みてなされたものであり、符号化効率を向上させることができるようにするものである。
本技術の第1の側面の符号化装置は、オーディオ信号に対して変換窓を用いた時間周波数変換を行う時間周波数変換部と、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する符号化部とを備える。
本技術の第1の側面の符号化方法またはプログラムは、オーディオ信号に対して変換窓を用いた時間周波数変換を行い、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化するステップを含む。
本技術の第1の側面においては、オーディオ信号に対して変換窓を用いた時間周波数変換が行われ、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報がハフマン符号化され、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報が算術符号化される。
本技術の第2の側面の復号装置は、符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出する非多重化部と、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する復号部とを備える。
本技術の第2の側面の復号方法またはプログラムは、符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出し、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号するステップを含む。
本技術の第2の側面においては、符号化ビットストリームが非多重化されて、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとが抽出され、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データがハフマン符号化に対応する復号方式で復号される。
本技術の第1の側面および第2の側面によれば、符号化効率を向上させることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
MPEG-4 AACでの符号化について説明する図である。 MPEG-4 AACにおける変換窓の種類について説明する図である。 MPEG-D USACでの符号化について説明する図である。 MPEG-D USACにおける変換窓の種類について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 ハフマン符号化と算術符号化の符号化効率について説明する図である。 符号化装置の構成例を示す図である。 符号化処理を説明するフローチャートである。 復号装置の構成例を示す図である。 復号処理を説明するフローチャートである。 本技術における符号化効率について説明する図である。 本技術における符号化効率について説明する図である。 チャネルストリームのシンタックス例を示す図である。 ics_infoのシンタックス例を示す図である。 符号化処理を説明するフローチャートである。 復号処理を説明するフローチャートである。 符号化処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
まず、本技術の概要について説明する。なお、本技術では、符号化対象とされる信号は、オーディオ信号や画像信号など、どのような信号であってもよいが、以下では符号化対象がオーディオ信号である場合を例として説明を行う。
例えばMPEG-4 AACでは、図1に示すようにしてオーディオ信号の符号化が行われる。
すなわち、符号化(エンコード)の処理が開始されると、最初にオーディオ信号に対してMDCT(Modified Discrete Cosine Transform)(修正離散コサイン変換)を用いた時間周波数変換が行われる。
次に、MDCTにより得られた周波数スペクトル情報であるMDCT係数が、スケールファクターバンドごとに量子化され、その結果として量子化MDCT係数が得られる。
ここで、スケールファクターバンドとは、QMF(Quadrature Mirror Filter)分析フィルタの分解能である所定帯域幅のサブバンドを複数束ねて得られる帯域である。
量子化により量子化MDCT係数が得られると、同一のハフマンコードブックを使用するセクションごとに、ハフマン符号が用いられて量子化MDCT係数とハフマンコードブック情報とが符号化される。すなわち、ハフマン符号化が行われる。なお、セクションは、スケールファクターバンドを複数束ねた帯域である。
以上のようにして得られたハフマン符号、つまりハフマン符号化された量子化MDCT係数とハフマンコードブック情報とが、オーディオ信号の符号化データとして出力される。
また、時間周波数変換においては、一般的に処理対象となるオーディオ信号の性質に応じて適切な変換窓を選択することで、単一の変換窓を用いるよりも高音質にオーディオ信号を圧縮できることが知られている。
例えば、時間的に急激な変化を伴うアタック性の強い音楽信号(アタック性音楽信号)に対しては短い変換窓長の変換窓が適しており、時間的に急激な変化を伴わない定常性の強い音楽信号(定常性音楽信号)に対しては長い変換窓長の変換窓が適していることが知られている。
具体的には、例えばMPEG4 AACでは図2に示すように4つのwindow sequenceのなかの適切なものに適宜切り替えられてMDCTが行われている。
図2において、「window_sequence」はwindow sequenceを示している。ここで、window sequenceは変換窓の種類、つまりウィンドウタイプを示している。
特に、MPEG4 AACではwindow_sequence、すなわちウィンドウタイプとして、ONLY_LONG_SEQUENCE、LONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCE、およびLONG_STOP_SEQUENCEの4つの種類の変換窓が選択可能となっている。
また、図2において「num_windows」は、各ウィンドウタイプの変換窓を用いたMDCTを行うときに用いられる変換窓の数を示しており、「looks like」の欄には変換窓の形状が示されている。特に「looks like」の欄では、図中、横方向が時間方向を示しており、図中、縦方向は各サンプル位置における変換窓の大きさ、つまり各サンプルに乗算される係数の大きさを示している。
MPEG4 AACでは、オーディオ信号のMDCT時には、定常性の強いフレームではONLY_LONG_SEQUENCEが選択される。このONLY_LONG_SEQUENCEにより示される変換窓は、変換窓長が2048サンプルの変換窓となっている。
また、アタック性の強いフレームではEIGHT_SHORT_SEQUENCEが選択される。このEIGHT_SHORT_SEQUENCEにより示される変換窓は、時間方向に分割された8個の変換窓であり、それらの分割された各変換窓の変換窓長は256サンプルとなっている。
EIGHT_SHORT_SEQUENCEにより示される変換窓は、LONG_STOP_SEQUENCEにより示される変換窓等の他の変換窓よりも変換窓長が短くなっている。
window_sequenceがONLY_LONG_SEQUENCEからEIGHT_SHORT_SEQUENCEへと遷移するフレームではLONG_START_SEQUENCEが選択される。このLONG_START_SEQUENCEにより示される変換窓は、変換窓長が2048サンプルの変換窓となっている。
window_sequenceがEIGHT_SHORT_SEQUENCEからONLY_LONG_SEQUENCEへと遷移するフレームではLONG_STOP_SEQUENCEが選択される。
すなわち、変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、LONG_STOP_SEQUENCEが選択される。LONG_STOP_SEQUENCEにより示される変換窓は、変換窓長が2048サンプルの変換窓となっている。
なお、MPEG4 AACで用いられる変換窓の詳細については、例えば「INTERNATIONAL STANDARD ISO/IEC 14496-3 Fourth edition 2009-09-01 Information technology-coding of audio-visual objects-part3:Audio」に詳細に記載されている。
これに対して、MPEG-D USACでは、図3に示すようにしてオーディオ信号の符号化が行われる。
すなわち、符号化(エンコード)の処理が開始されると、MPEG-4 AACにおける場合と同様に、まずオーディオ信号に対してMDCTを用いた時間周波数変換が行われる。
そして、時間周波数変換により得られたMDCT係数がスケールファクターバンドごとに量子化され、その結果として量子化MDCT係数が得られる。
さらに、量子化MDCT係数に対してコンテキストベースの算術符号化が行われ、算術符号化された量子化MDCT係数がオーディオ信号の符号化データとして出力される。
コンテキストベースの算術符号化では、出現確率の高い入力ビット列に短い符号を割り当て、出現確率の低い入力ビット列に長い符号を割り当てた出現確率テーブルが複数用意されている。
また、符号化対象となる量子化MDCT係数に対して時間的および周波数的に近傍にある過去の量子化MDCT係数の符号化結果(コンテキスト)に基づいて、効率のよい出現確率テーブルが選択される。すなわち、時間的および周波数的に近い量子化MDCT係数の相関性が考慮されて出現確率テーブルが適切に切り替えられる。そして、選択された出現確率テーブルが用いられて量子化MDCT係数が符号化される。
コンテキストベースの算術符号化では、複数の出現確率テーブルのなかから効率のよいものを選択して符号化を行うことで、高い符号化効率を実現することができる。
また、算術符号化ではハフマン符号化と異なり、コードブック情報を送る必要がない。そのため、算術符号化ではハフマン符号化と比較してコードブック情報分の符号量を削減することができる。
なお、MPEG-D USACでは図4に示すように適宜5つのwindow sequenceのなかの適切なものに切り替えられてMDCTが行われている。
図4において、「Window」はwindow sequenceを示しており、「num_windows」は、各ウィンドウタイプの変換窓を用いたMDCTを行うときに用いられる変換窓の数を示しており、「Window Shape」の欄には変換窓の形状が示されている。
MPEG-D USACではwindow_sequenceとして、ONLY_LONG_SEQUENCE、LONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCE、LONG_STOP_SEQUENCE、およびSTOP_START_SEQUENCEの5つの種類の変換窓が選択可能となっている。
特にwindow_sequence、つまりウィンドウタイプのうち、ONLY_LONG_SEQUENCE、LONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCE、およびLONG_STOP_SEQUENCEについてはMPEG4 AACにおける場合と同じとなっている。
MPEG-D USACでは、これらの4つのウィンドウタイプに加えて、さらにSTOP_START_SEQUENCEが用意されている。
STOP_START_SEQUENCEは、window_sequenceがLONG_STOP_SEQUENCEからLONG_START_SEQUENCEへと遷移するフレームで選択される。
このSTOP_START_SEQUENCEにより示される変換窓は、変換窓長が2048サンプルの変換窓となっている。
なお、MPEG-D USACについては、例えば「INTERNATIONAL STANDARD ISO/IEC 23003-3 Frist edition 2012-04-01 Information technology-coding of audio-visual objects-part3:Unified speech and audio coding」に詳細に記載されている。
また、以下では、MPEG4 AACを単にAACとも称し、MPEG-D USACを単にUSACとも称することとする。
以上において説明したAACとUSACを比較すると、現状のUSACではAACで採用しているハフマン符号化よりも圧縮効率(符号化効率)がよいとされるコンテキストベースの算術符号化が採用されている。
しかし、全てのオーディオ信号に対してコンテキストベースの算術符号化がハフマン符号化よりも圧縮効率がよくなる(高くなる)わけではない。
USACのコンテキストベースの算術符号化では定常性音楽信号に対しては符号が短くなり、AACのハフマン符号化よりも符号化効率が高くなりやすいが、その反面、アタック性音楽信号に対しては符号が長くなり符号化効率が低くなってしまう。
そのような例を図5乃至図18に示す。なお、図5乃至図18において横軸は時間、つまりオーディオ信号のフレームを示しており、縦軸はオーディオ信号を符号化したときの符号ビット数(必要ビット数)または必要ビット数の差分(差分ビット数)を示している。特に、ここでは1フレームは1024サンプルとなっている。
図5は、オーディオ信号としての定常性音楽信号に対してMDCTおよび量子化を行い、量子化後の同じ量子化MDCT係数に対して、AACのハフマン符号化を行った場合とUSACの算術符号化を行った場合でそれぞれ必要になる必要ビット数を示している。
この例では、折れ線L11が各フレームにおけるUSACの算術符号化の必要ビット数を示しており、折れ線L12が各フレームにおけるAACのハフマン符号化の必要ビット数を示している。この例では、殆どのフレームにおいてAACのハフマン符号化よりも、USACの算術符号化の方が必要ビット数が少なくなっていることが分かる。
また、図5における一部を拡大すると図6に示すようになる。なお、図6において図5における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
図6に示す部分ではAACのハフマン符号化の必要ビット数と、USACの算術符号化の必要ビット数とでは100から150ビット程度の差があり、USACの算術符号化の方が符号化効率がよい(高い)ことが分かる。
図7は、図5に示した各フレームにおけるAACのハフマン符号化の必要ビット数と、USACの算術符号化の必要ビット数との差分、すなわち差分ビット数を示している。
図7において横軸はフレーム(時間)を示しており、縦軸は差分ビット数を示している。なお、ここでの差分ビット数は、USACの算術符号化の必要ビット数から、AACのハフマン符号化の必要ビット数を減算して得られたものである。
図7から分かるように、オーディオ信号が定常性音楽信号である場合、すなわちオーディオ信号が定常性を有する信号である場合、殆どのフレームにおいて差分ビット数が負の値となる。つまり、殆どのフレームにおいてAACのハフマン符号化よりも、USACの算術符号化の方が必要ビット数が少なくなっていることが分かる。
したがって、符号化対象のオーディオ信号が定常性を有する信号である場合には、符号化方式として算術符号化を選択すると、より高い符号化効率を得ることができる。
また、各フレームではMDCT時にwindow sequence、すなわち変換窓の種類が選択されるが、図7に示す差分ビット数のグラフを図2に示した4つのwindow sequenceごとに分離すると、図8乃至図11に示すようになる。
すなわち、図8は図7に示した各フレームの差分ビット数のうち、window sequenceとしてONLY_LONG_SEQUENCEが選択されたフレームの差分ビット数を示している。
同様に、図9は図7に示した各フレームの差分ビット数のうち、window sequenceとしてLONG_START_SEQUENCEが選択されたフレームの差分ビット数を示している。図10は図7に示した各フレームの差分ビット数のうち、window sequenceとしてEIGHT_SHORT_SEQUENCEが選択されたフレームの差分ビット数を示している。
さらに図11は図7に示した各フレームの差分ビット数のうち、window sequenceとしてLONG_STOP_SEQUENCEが選択されたフレームの差分ビット数を示している。
なお、これらの図8乃至図11において横軸はフレーム(時間)を示しており、縦軸は差分ビット数を示している。
これらの図8乃至図11から分かるように、オーディオ信号が定常性音楽信号であるため、殆どのフレームにおいてONLY_LONG_SEQUENCEが選択されている。そして、残りのLONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCE、およびLONG_STOP_SEQUENCEが選択されるフレームは少ないことが分かる。
ここでは、図11に示すようにLONG_STOP_SEQUENCEが選択された場合では、差分ビット数が正の値となり、AACのハフマン符号化の方が符号化効率が高くなるフレームが多くなっている。しかし、図7に示したように全体で見れば、AACのハフマン符号化よりもUSACの算術符号化の方が符号化効率が高いことが分かる。
これに対して図12乃至図18は、図5乃至図11に対応するものであり、オーディオ信号がアタック性音楽信号である場合における必要ビット数や差分ビット数を示している。
すなわち、図12は、オーディオ信号としてのアタック性音楽信号に対してMDCTおよび量子化を行い、量子化後の同じ量子化MDCT係数に対して、AACのハフマン符号化を行った場合とUSACの算術符号化を行った場合でそれぞれ必要になる必要ビット数を示している。
この例では、折れ線L31が各フレームにおけるUSACの算術符号化の必要ビット数を示しており、折れ線L32が各フレームにおけるAACのハフマン符号化の必要ビット数を示している。
この例では、多くのフレームではAACのハフマン符号化よりもUSACの算術符号化の方が必要ビット数が少なくなっている。しかし、AACのハフマン符号化の方が必要ビット数が少ないフレームが定常性音楽信号における場合よりも多くなっている。
また、図12における一部を拡大すると図13に示すようになる。なお、図13において図12における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
図13に示す部分では、いくつかのフレームではUSACの算術符号化よりもAACのハフマン符号化の方が必要ビット数が少なくなっていることが分かる。
図14は、図12に示した各フレームにおけるAACのハフマン符号化の必要ビット数と、USACの算術符号化の必要ビット数との差分、すなわち差分ビット数を示している。
図14において横軸はフレーム(時間)を示しており、縦軸は差分ビット数を示している。なお、ここでの差分ビット数は、USACの算術符号化の必要ビット数から、AACのハフマン符号化の必要ビット数を減算して得られたものである。
図14から分かるように、オーディオ信号がアタック性音楽信号である場合、すなわちオーディオ信号がアタック性を有する信号である場合、多くのフレームにおいて差分ビット数が負の値となる。
しかし、オーディオ信号が定常性音楽信号である場合と比較すると、差分ビット数が正の値となるフレームの数が多くなっていることが分かる。すなわち、AACのハフマン符号化の方が、USACの算術符号化よりも必要ビット数が少ないフレームも多くなっていることが分かる。
また、各フレームではMDCT時にwindow sequence、すなわち変換窓の種類が選択されるが、図14に示す差分ビット数のグラフを図2に示した4つのwindow sequenceごとに分離すると、図15乃至図18に示すようになる。
すなわち、図15は図14に示した各フレームの差分ビット数のうち、window sequenceとしてONLY_LONG_SEQUENCEが選択されたフレームの差分ビット数を示している。
同様に、図16は図14に示した各フレームの差分ビット数のうち、window sequenceとしてLONG_START_SEQUENCEが選択されたフレームの差分ビット数を示している。図17は図14に示した各フレームの差分ビット数のうち、window sequenceとしてEIGHT_SHORT_SEQUENCEが選択されたフレームの差分ビット数を示している。
さらに図18は図14に示した各フレームの差分ビット数のうち、window sequenceとしてLONG_STOP_SEQUENCEが選択されたフレームの差分ビット数を示している。
なお、これらの図15乃至図18において横軸はフレーム(時間)を示しており、縦軸は差分ビット数を示している。
これらの図15乃至図18から分かるように、オーディオ信号がアタック性音楽信号である場合には、window sequenceとしてEIGHT_SHORT_SEQUENCE、LONG_START_SEQUENCE、LONG_STOP_SEQUENCEが選択される割合が定常性音楽信号である場合と比較して多いことが分かる。
また、オーディオ信号がアタック性音楽信号である場合でもONLY_LONG_SEQUENCEやLONG_START_SEQUENCE、EIGHT_SHORT_SEQUENCEが選択された場合には、定常性音楽信号における場合と同様に、殆どのフレームにおいてAACのハフマン符号化よりもUSACの算術符号化の方が符号化効率が高いことが分かる。
しかし、LONG_STOP_SEQUENCEが選択された場合には、殆どのフレームにおいてUSACの算術符号化よりもAACのハフマン符号化の方が必要ビット数が少なく、符号化効率が高いことが分かる。
これは、USACの算術符号化において、アタック性の強いフレームと定常性の強いフレームとの遷移でコンテキストの相関性が低くなり、効率の悪い出現確率テーブルが選択されてしまったためである。
なお、EIGHT_SHORT_SEQUENCEが選択されたフレームにおいて、USACの算術符号化の必要ビット数(符号量)が多くならないのは、量子化MDCT係数の符号化に時間方向に8分割された変換窓が用いられるためである。すなわち、量子化MDCT係数の符号化が、時間方向に8分割された256サンプル分ずつ8回に分けて行われるために、コンテキストの相関性の低減度合いが分散および軽減されるためである。
以上のようにUSACの算術符号化では、アタック性を有するオーディオ信号において、特に短い変換窓長の変換窓を用いるフレームから、長い変換窓長の変換窓を用いるフレームに遷移したときのフレーム、すなわちLONG_STOP_SEQUENCEが選択されたフレームでAACのハフマン符号化よりも符号化効率(圧縮効率)が悪くなってしまう。
また、算術符号の符号長が長くなるということは、当然、復号時の計算量も多くなってしまうことになる。
さらに算術符号化は、1つの量子化MDCT係数の符号が全て揃わないと復号できないことや、ビット単位の演算処理が大量に発生するため、ハフマン符号化よりも計算量が多くなるという性質がある。
そこで、本技術では、オーディオ信号の符号化時に適切に符号化方式を選択することで符号化効率を向上させるとともに、復号の計算量を低減させることができるようにした。
具体的には、例えばUSACのように時間周波数変換を用いたコーデックにおいて、短い変換窓長の変換窓で時間周波数変換を行うフレームから、その変換窓よりも長い変換窓長の変換窓で時間周波数変換を行うフレームに遷移した場合、量子化された周波数スペクトル情報がハフマン符号化されるようにする。
例えばUSACであれば、LONG_STOP_SEQUENCEが選択されたフレームでは、符号化方式としてハフマン符号化が選択されるようにする。
また、それ以外のフレーム、つまり短い変換窓長から長い変換窓長へと遷移したときのフレーム以外の他のフレームにおいては、符号化方式としてハフマン符号化または算術符号化の何れかが選択されるようにする。
このとき、必要に応じて選択した符号化方式を識別する判定フラグを符号化ビットストリームに含めることで、復号側においてどの符号化方式が選択されたかを特定することができる。すなわち、デコーダシンタックスで判定フラグや復号方式の切り替えを規定することで、復号側において適切に復号方式を切り替えることができる。
〈符号化装置の構成例〉
続いて、本技術を適用した符号化装置と復号装置の具体的な実施の形態について説明する。なお、以下ではMPEG-D USACをベースに符号化および復号を行う実施の形態について説明する。しかし、変換窓長が適宜切り替えられて時間周波数変換された情報に対して、コンテキストベースの算術符号化を含む複数の符号化方式のうちの何れかを選択して符号化を行うものであれば、他のどのようなコーデックでもよい。
図19は、本技術を適用した符号化装置の構成例を示す図である。
図19に示す符号化装置11は、時間周波数変換部21、正規化部22、量子化部23、符号化方式選択部24、符号化部25、ビット制御部26、および多重化部27を有している。
時間周波数変換部21は、供給されたオーディオ信号のフレームごとに変換窓を選択し、選択した変換窓を用いてオーディオ信号に対する時間周波数変換を行う。
また、時間周波数変換部21は、時間周波数変換により得られた周波数スペクトル情報を正規化部22に供給するとともに、各フレームで選択した変換窓の種類(window sequence)を示す変換窓情報を符号化方式選択部24および多重化部27に供給する。
例えば時間周波数変換部21では、時間周波数変換としてMDCTが行われ、周波数スペクトル情報としてMDCT係数が得られる。以下では、周波数スペクトル情報がMDCT係数である場合を例として説明を続ける。
正規化部22は、ビット制御部26から供給された正規化のためのパラメータに基づいて、時間周波数変換部21から供給されたMDCT係数を正規化し、その結果得られた正規化MDCT係数を量子化部23に供給するとともに、正規化に関するパラメータを多重化部27に供給する。
量子化部23は、正規化部22から供給された正規化MDCT係数を量子化し、その結果得られた量子化MDCT係数を符号化方式選択部24に供給する。
符号化方式選択部24は、時間周波数変換部21から供給された変換窓情報に基づいて符号化方式を選択し、量子化部23から供給された量子化MDCT係数を、符号化方式の選択結果に応じた符号化部25のブロックへと供給する。
符号化部25は、符号化方式選択部24から供給された量子化MDCT係数を、符号化方式選択部24により選択(指定)された符号化方式で符号化する。符号化部25は、ハフマン符号化部31および算術符号化部32を有している。
ハフマン符号化部31は、符号化方式選択部24から量子化MDCT係数が供給された場合、その量子化MDCT係数をハフマン符号化方式により符号化する。すなわち量子化MDCT係数がハフマン符号化される。
ハフマン符号化部31は、ハフマン符号化により得られたMDCT符号化データおよびハフマンコードブック情報をビット制御部26に供給する。ここで、ハフマンコードブック情報は、ハフマン符号化時に用いられたハフマンコードブックを示す情報である。また、ビット制御部26へと供給されるハフマンコードブック情報はハフマン符号化されたものとなっている。
算術符号化部32は、符号化方式選択部24から量子化MDCT係数が供給された場合、その量子化MDCT係数を算術符号化方式により符号化する。すなわち、量子化MDCT係数に対してコンテキストベースの算術符号化が行われる。
算術符号化部32は、算術符号化により得られたMDCT符号化データをビット制御部26に供給する。
ビット制御部26は、ハフマン符号化部31からMDCT符号化データおよびハフマンコードブック情報が供給されたか、または算術符号化部32からMDCT符号化データが供給されるとビット量と音質の判定を行う。
すなわち、ビット制御部26はMDCT符号化データ等のビット量(符号量)が目標使用ビット量内となっているかや、MDCT符号化データに基づく音の音質が許容範囲内の品質であるかを判定する。
ビット制御部26は、MDCT符号化データ等のビット量が目標使用ビット量内であり、かつ音質が許容範囲内である場合、供給されたMDCT符号化データ等を多重化部27へと供給する。
これに対して、ビット制御部26はMDCT符号化データ等のビット量が目標使用ビット量内でない場合や、音質が許容範囲内でない場合には、正規化部22に供給するパラメータを再設定し、再設定後のパラメータを正規化部22に供給して再度の符号化を実施させる。
多重化部27は、ビット制御部26から供給されたMDCT符号化データやハフマンコードブック情報、時間周波数変換部21から供給された変換窓情報、および正規化部22から供給されたパラメータを多重化し、その結果得られた符号化ビットストリームを出力する。
〈符号化処理の説明〉
次に、符号化装置11の動作について説明する。すなわち、以下、図20のフローチャートを参照して、符号化装置11による符号化処理について説明する。なお、この符号化処理はオーディオ信号のフレームごとに行われる。
ステップS11において時間周波数変換部21は、供給されたオーディオ信号のフレームに対して時間周波数変換を行う。
すなわち、例えば時間周波数変換部21は、オーディオ信号の処理対象のフレームについて、時間的および周波数的に近傍にあるMDCT係数またはオーディオ信号の大きさや変動量などに基づいて、処理対象のフレームのアタック性や定常性の判定を行う。すなわち、MDCT係数の大きさや変動量、オーディオ信号の大きさや変動量などから、オーディオ信号がアタック性を有するものであるか定常性を有するものであるかが特定される。
時間周波数変換部21は、アタック性や定常性の判定結果、処理対象のフレームの時間的に直前のフレームにおける変換窓の選択結果等に基づいて、処理対象のフレームについて変換窓を選択し、選択した変換窓を用いてオーディオ信号の処理対象のフレームに対する時間周波数変換を行う。時間周波数変換部21は、時間周波数変換により得られたMDCT係数を正規化部22に供給するとともに、選択した変換窓の種類を示す変換窓情報を符号化方式選択部24および多重化部27に供給する。
ステップS12において正規化部22は、ビット制御部26から供給されたパラメータに基づいて、時間周波数変換部21から供給されたMDCT係数を正規化し、その結果得られた正規化MDCT係数を量子化部23に供給するとともに、正規化に関するパラメータを多重化部27に供給する。
ステップS13において量子化部23は、正規化部22から供給された正規化MDCT係数を量子化し、その結果得られた量子化MDCT係数を符号化方式選択部24に供給する。
ステップS14において符号化方式選択部24は、時間周波数変換部21から供給された変換窓情報により示される変換窓の種類、すなわちwindow sequenceがLONG_STOP_SEQUENCEであるか否かを判定する。
ステップS14においてLONG_STOP_SEQUENCEであると判定された場合、符号化方式選択部24は、量子化部23から供給された量子化MDCT係数をハフマン符号化部31に供給し、その後、処理はステップS15へと進む。
LONG_STOP_SEQUENCEが選択されるフレームは、アタック性が強く、短い変換窓長のフレーム、つまりEIGHT_SHORT_SEQUENCEから、定常性が強く長い変換窓長のフレーム、つまりONLY_LONG_SEQUENCEへと遷移するときのフレームである。
このように短い変換窓長から長い変換窓長へと切り替わったフレーム、つまりLONG_STOP_SEQUENCEが選択されたフレームでは、例えば図18を参照して説明したように算術符号化よりもハフマン符号化の方が符号化効率が高い。
そこで、そのようなフレームの符号化時には、符号化方式としてハフマン符号化方式が選択される。すなわち、MPEG4 AACと同様に同一のハフマンコードブックを使用するセクションごとに、量子化MDCT係数とハフマンコードブック情報が、ハフマン符号が用いられて符号化される。
ステップS15において、ハフマン符号化部31は、符号化方式選択部24から供給された量子化MDCT係数に対して、ハフマンコードブック情報を用いたハフマン符号化を行い、MDCT符号化データおよびハフマンコードブック情報をビット制御部26に供給する。
ビット制御部26は、ハフマン符号化部31から供給されたMDCT符号化データおよびハフマンコードブック情報に基づいて目標使用ビット量や音質についての判定を行う。符号化装置11では、目標とするビット量や品質のMDCT符号化データおよびハフマンコードブック情報が得られるまで、パラメータの再設定や、正規化、量子化、ハフマン符号化の各処理が繰り返し行われる。
そして、目標とするビット量や品質のMDCT符号化データおよびハフマンコードブック情報が得られると、ビット制御部26は、それらのMDCT符号化データおよびハフマンコードブック情報を多重化部27に供給し、処理はステップS17へと進む。
一方、ステップS14においてLONG_STOP_SEQUENCEでないと判定された場合、すなわち、短い変換窓長から長い変換窓長へと切り替えられなかった場合、その後、処理はステップS16へと進む。この場合、符号化方式選択部24は、量子化部23から供給された量子化MDCT係数を算術符号化部32に供給する。
ステップS16において算術符号化部32は、符号化方式選択部24から供給された量子化MDCT係数に対してコンテキストベースの算術符号化を行い、その結果得られたMDCT符号化データをビット制御部26に供給する。換言すれば、量子化MDCT係数が算術符号化される。
ビット制御部26は、算術符号化部32から供給されたMDCT符号化データに基づいて目標使用ビット量や音質についての判定を行う。符号化装置11では、目標とするビット量や品質のMDCT符号化データが得られるまで、パラメータの再設定や、正規化、量子化、算術符号化の各処理が繰り返し行われる。
そして、目標とするビット量や品質のMDCT符号化データが得られると、ビット制御部26は、そのMDCT符号化データを多重化部27に供給し、その後、処理はステップS17へと進む。
ステップS15またはステップS16の処理が行われると、ステップS17の処理が行われる。
すなわち、ステップS17において多重化部27は、多重化を行って符号化ビットストリームを生成し、得られた符号化ビットストリームを復号装置等に送信(出力)する。
例えばステップS15の処理が行われた場合には、多重化部27はビット制御部26から供給されたMDCT符号化データおよびハフマンコードブック情報と、時間周波数変換部21から供給された変換窓情報と、正規化部22から供給されたパラメータとを多重化し、符号化ビットストリームを生成する。
また、例えばステップS16の処理が行われた場合には、多重化部27はビット制御部26から供給されたMDCT符号化データと、時間周波数変換部21から供給された変換窓情報と、正規化部22から供給されたパラメータとを多重化し、符号化ビットストリームを生成する。
このようにして得られた符号化ビットストリームが出力されると、符号化処理は終了する。
以上のようにして符号化装置11は、時間周波数変換時に用いた変換窓の種類に応じて符号化方式を選択する。このようにすることで、フレームごとに適切な符号化方式を選択し、符号化効率を向上させることができる。
〈復号装置の構成例〉
続いて、符号化装置11から出力された符号化ビットストリームを受信して復号を行う復号装置について説明する。
そのような復号装置は、例えば図21に示すように構成される。
図21に示す復号装置71は、取得部81、非多重化部82、復号方式選択部83、復号部84、逆量子化部85、および時間周波数逆変換部86を有している。
取得部81は、符号化装置11から送信されてきた符号化ビットストリームを受信することで、符号化ビットストリームを取得し、非多重化部82に供給する。
非多重化部82は、取得部81から供給された符号化ビットストリームを非多重化し、非多重化により得られたMDCT符号化データやハフマンコードブック情報を復号方式選択部83に供給する。また、非多重化部82は、非多重化により得られた、正規化に関するパラメータを逆量子化部85に供給するとともに、非多重化により得られた変換窓情報を復号方式選択部83および時間周波数逆変換部86に供給する。
復号方式選択部83は、非多重化部82から供給された変換窓情報に基づいて復号方式を選択し、非多重化部82から供給されたMDCT符号化データ等を、復号方式の選択結果に応じた復号部84のブロックへと供給する。
復号部84は、復号方式選択部83から供給されたMDCT符号化データ等の復号を行う。復号部84は、ハフマン復号部91および算術復号部92を有している。
ハフマン復号部91は、復号方式選択部83からMDCT符号化データおよびハフマンコードブック情報が供給された場合、ハフマンコードブック情報を用いて、ハフマン符号化に対応する復号方式でMDCT符号化データを復号し、その結果得られた量子化MDCT係数を逆量子化部85に供給する。
算術復号部92は、復号方式選択部83からMDCT符号化データが供給された場合、算術符号化に対応する復号方式でMDCT符号化データを復号し、その結果得られた量子化MDCT係数を逆量子化部85に供給する。
逆量子化部85は、非多重化部82から供給されたパラメータを用いて、ハフマン復号部91または算術復号部92から供給された量子化MDCT係数を逆量子化し、その結果得られたMDCT係数を時間周波数逆変換部86に供給する。より詳細には、例えば逆量子化部85は、量子化MDCT係数を逆量子化して得られた値に、さらに非多重化部82から供給されたパラメータ等を乗算するなどしてMDCT係数を得る。
時間周波数逆変換部86は、非多重化部82から供給された変換窓情報に基づいて、逆量子化部85から供給されたMDCT係数に対して時間周波数逆変換を行い、その結果得られた時間信号である出力オーディオ信号を後段に出力する。
〈復号処理の説明〉
次に、復号装置71の動作について説明する。すなわち、以下、図22のフローチャートを参照して、復号装置71による復号処理について説明する。なお、この復号処理は、取得部81により1フレーム分の符号化ビットストリームが受信されると開始される。
ステップS41において、非多重化部82は、取得部81から供給された符号化ビットストリームを非多重化し、非多重化により得られたMDCT符号化データ等を復号方式選択部83などに供給する。すなわち、符号化ビットストリームから、MDCT符号化データや変換窓情報、各種のパラメータが抽出される。
この場合、オーディオ信号(MDCT係数)がハフマン符号化されているときには、MDCT符号化データとハフマンコードブック情報が符号化ビットストリームから抽出される。これに対して、オーディオ信号が算術符号化されているときには、MDCT符号化データが符号化ビットストリームから抽出される。
また、非多重化部82は、非多重化により得られた、正規化に関するパラメータを逆量子化部85に供給するとともに、非多重化により得られた変換窓情報を復号方式選択部83および時間周波数逆変換部86に供給する。
ステップS42において復号方式選択部83は、非多重化部82から供給された変換窓情報により示される変換窓の種類がLONG_STOP_SEQUENCEであるか否かを判定する。
ステップS42においてLONG_STOP_SEQUENCEであると判定された場合、復号方式選択部83は、非多重化部82から供給されたMDCT符号化データおよびハフマンコードブック情報をハフマン復号部91へと供給し、処理はステップS43へと進む。
この場合、処理対象のフレームは、短い変換窓長のフレームから長い変換窓長のフレームへと切り替わったフレームである。換言すれば、変換窓情報により示される変換窓は、短い変換窓長から長い変換窓長へと切り替えられたときに選択される変換窓である。そのため復号方式選択部83では、復号方式としてハフマン符号化に対応する復号方式が選択される。
ステップS43においてハフマン復号部91は、復号方式選択部83から供給されたMDCT符号化データおよびハフマンコードブック情報、すなわちハフマン符号の復号を行う。具体的にはハフマン復号部91は、ハフマンコードブック情報およびMDCT符号化データに基づいて量子化MDCT係数を得る。
ハフマン復号部91は、復号により得られた量子化MDCT係数を逆量子化部85に供給し、その後、処理はステップS45へと進む。
これに対して、ステップS42においてLONG_STOP_SEQUENCEでないと判定された場合、復号方式選択部83は、非多重化部82から供給されたMDCT符号化データを算術復号部92へと供給し、処理はステップS44へと進む。
この場合、処理対象のフレームは、短い変換窓長のフレームから長い変換窓長のフレームへと切り替わったフレームではない。換言すれば、変換窓情報により示される変換窓は、短い変換窓長から長い変換窓長へと切り替えられたときに選択される変換窓ではない。そのため復号方式選択部83では、復号方式として算術符号化に対応する復号方式が選択される。
ステップS44において算術復号部92は、復号方式選択部83から供給されたMDCT符号化データ、すなわち算術符号の復号を行う。
算術復号部92はMDCT符号化データを復号して得られた量子化MDCT係数を逆量子化部85に供給し、その後、処理はステップS45へと進む。
ステップS43またはステップS44の処理が行われると、ステップS45の処理が行われる。
ステップS45において逆量子化部85は、非多重化部82から供給されたパラメータを用いて、ハフマン復号部91または算術復号部92から供給された量子化MDCT係数を逆量子化し、その結果得られたMDCT係数を時間周波数逆変換部86に供給する。
ステップS46において時間周波数逆変換部86は、非多重化部82から供給された変換窓情報に基づいて、逆量子化部85から供給されたMDCT係数に対して時間周波数逆変換を行い、その結果得られた出力オーディオ信号を後段に出力する。
出力オーディオ信号が出力されると、復号処理は終了する。
以上のようにして復号装置71は、符号化ビットストリームを非多重化して得られた変換窓情報に基づいて復号方式を選択し、選択した復号方式で復号を行う。特に、変換窓の種類がLONG_STOP_SEQUENCEである場合にはハフマン符号化に対応する復号方式が選択され、それ以外の場合には算術符号化に対応する復号方式が選択される。このようにすることで、符号化側において符号化効率が向上するだけでなく、復号側における復号時の処理量(演算量)も削減することができる。
ところで、本技術のようにLONG_STOP_SEQUENCEのフレームでハフマン符号化を行い、LONG_STOP_SEQUENCE以外のフレームで算術符号化を行う手法をハイブリッド符号化手法と呼ぶこととする。このようなハイブリッド符号化手法によれば、符号化効率を向上させるとともに復号時の処理量も削減することができる。
例えば図23は、図5における場合と同一の定常性音楽信号を符号化するときに、USACのLONG_STOP_SEQUENCEのフレームにハフマン符号化を用いた場合、つまりハイブリッド符号化手法により符号化を行った場合と、常にAACのハフマン符号化を用いた場合との必要ビット数の差分グラフを示している。
なお、図23において横軸はフレーム(時間)を示しており、縦軸は差分ビット数を示している。ここでの差分ビット数は、ハイブリッド符号化手法の必要ビット数から、AACのハフマン符号化の必要ビット数を減算して得られたものである。
図23に示す各フレームの差分ビット数は、図7に示した差分ビット数に対応し、これらの図23と図7を比較すると、すなわちハイブリッド符号化手法により符号化を行う場合と、常に算術符号化を行う場合とを比較すると、図23の例の方が符号化効率がよいが、それほど大きな差はないことが分かる。
これに対して、図12における場合と同一のアタック性音楽信号を符号化するときに、USACのLONG_STOP_SEQUENCEのフレームにハフマン符号化を用いた場合、つまりハイブリッド符号化手法により符号化を行った場合と、常にAACのハフマン符号化を用いた場合との必要ビット数の差分は図24に示すようになる。
なお、図24において横軸はフレーム(時間)を示しており、縦軸は差分ビット数を示している。ここでの差分ビット数は、ハイブリッド符号化手法の必要ビット数から、AACのハフマン符号化の必要ビット数を減算して得られたものである。
図24に示す各フレームの差分ビット数は、図14に示した差分ビット数に対応し、これらの図24と図14を比較すると、すなわちハイブリッド符号化手法により符号化を行う場合と、常に算術符号化を行う場合とを比較すると、図24の例の方が大幅に差分ビット数が減少していることが分かる。つまり、大幅に符号化効率が向上していることが分かる。
さらに、ハイブリッド符号化手法では、LONG_STOP_SEQUENCEのフレームで算術符号化ではなくハフマン符号化を用いたことにより、そのフレームの復号時の処理量も低減される。
〈第2の実施の形態〉
〈符号化方式の選択について〉
ところで、以上においてはLONG_STOP_SEQUENCEではないフレームにおいては、符号化方式として必ず算術符号化が選択されると説明した。しかし、符号化方式を選択するにあたっては、符号化効率(圧縮効率)だけでなく処理量の余裕や音質なども考慮できるとよい。
そこで、例えばLONG_STOP_SEQUENCEではないフレームにおいては、ハフマン符号化と算術符号化のうちの何れか一方が選択されるようにすることもできる。
そのような場合、例えば符号化ビットストリームには、符号化時にハフマン符号化と算術符号化のうちの何れの符号化方式が選択されたかを示す判定フラグが格納される。
ここでは、例えば判定フラグの値が「1」である場合にはハフマン符号化方式が選択されたことを示しており、判定フラグの値が「0」である場合には算術符号化方式が選択されたことを示しているとする。
このような判定フラグは、LONG_STOP_SEQUENCEではないフレーム、つまり短い変換窓長から長い変換窓長へと切り替えられなかった場合において、処理対象のフレームで選択された符号化方式を示す選択情報であるといえる。換言すれば、判定フラグは符号化方式の選択結果を示す選択情報であるといえる。
なお、LONG_STOP_SEQUENCEが選択されたフレームにおいては、必ずハフマン符号化方式が選択されるため、そのようなフレームについては符号化ビットストリームには判定フラグは含まれていない。
例えば、適宜、判定フラグが符号化ビットストリームに格納される場合、符号化ビットストリームにおける所定のチャネルのオーディオ信号の1フレーム分のチャネルストリームのシンタックスは、MPEG-D USACをベースとして図25に示すようにすればよい。
図25に示す例では、矢印Q11に示す部分、すなわち文字「ics_info()」の部分は、変換窓等に関する情報が格納されるics_infoを示している。
また、矢印Q12に示す文字「section_data()」の部分は、section_dataを示している。このsection_dataにはハフマンコードブック情報等が格納される。さらに図25における文字「ac_spectral_data」はMDCT符号化データを示している。
また、文字「ics_info()」により示されるics_infoの部分のシンタックスは、例えば図26に示すようにされる。
図26に示す例では文字「window_sequence」の部分は、変換窓情報、すなわちwindow sequenceを示しており、文字「window_shape」の部分は変換窓の形状を示している。
また、文字「huffman_coding_flag」の部分は判定フラグを示している。
ここでは文字「window_sequence」の部分に格納される変換窓情報がLONG_STOP_SEQUENCEを示している場合、ics_infoには判定フラグは格納されていない。これに対して変換窓情報がLONG_STOP_SEQUENCE以外の種類を示している場合、ics_infoには判定フラグが格納されている。
したがって図25に示した例では、図26の文字「window_sequence」の部分に格納される変換窓情報がLONG_STOP_SEQUENCE以外の種類を示しており、かつ図26の文字「huffman_coding_flag」の部分に値が「1」である判定フラグが格納されている場合、section_dataにハフマンコードブック情報等が格納されている。その他、図26の文字「window_sequence」の部分に格納される変換窓情報がLONG_STOP_SEQUENCEを示している場合にもsection_dataにハフマンコードブック情報等が格納されている。
〈符号化処理の説明〉
図25や図26に示した例のように、符号化ビットストリームに適宜、判定フラグが格納される場合、符号化装置11では、例えば図27に示す符号化処理が行われる。以下、図27のフローチャートを参照して、符号化装置11による符号化処理について説明する。
なお、ステップS71乃至ステップS75の処理は、図20のステップS11乃至ステップS15の処理と同様であるので、その説明は省略する。
ステップS74においてLONG_STOP_SEQUENCEでないと判定された場合、ステップS76において符号化方式選択部24は、算術符号化を行うか否かを判定する。
例えば符号化方式選択部24は、上位の制御装置から供給された指定情報に基づいて、算術符号化を行うか否かを判定する。
ここで、指定情報は、例えばコンテンツ制作者等が指定した符号化方式を示す情報である。例えばコンテンツ制作者は、LONG_STOP_SEQUENCEでないフレームでは、フレームごとに符号化方式としてハフマン符号化と算術符号化の何れか一方を指定することができるようになっている。
この場合、符号化方式選択部24は、指定情報により示される符号化方式が算術符号化であるとき、ステップS76において算術符号化を行うと判定する。これに対して、符号化方式選択部24は、指定情報により示される符号化方式がハフマン符号化であるとき、ステップS76において算術符号化を行わないと判定する。
その他、ステップS76では、復号装置71や符号化装置11のリソース、つまり処理量、符号化されるオーディオ信号のビットレート、リアルタイム性が要求されているか否か等に基づいて符号化方式が選択されるようにしてもよい。
具体的には、例えばオーディオ信号のビットレートが高く、十分な音質を確保することができる場合には、符号化方式選択部24は、より処理量が少ないハフマン符号化を選択し、ステップS76において算術符号化を行わないと判定するようにしてもよい。
また、例えばリアルタイム性が要求されていたり、復号装置71のリソースが少なかったりして、音質よりも、より少ない処理量で迅速に符号化および復号の処理を行うことが重要である場合、符号化方式選択部24はハフマン符号化を選択し、ステップS76において算術符号化を行わないと判定するようにしてもよい。
このようにリアルタイム性が要求される場合や、復号側のリソースが少ない場合には、符号化方式としてハフマン符号化を選択することで、常に算術符号化を行うときよりも高速に処理(動作)を行うことができるようになる。
なお、復号装置71のリソースについては、例えば復号装置71が設けられた機器の演算処理能力やメモリ量を示す情報等を、復号装置71のリソース情報として符号化処理の開始前などに予め復号装置71から取得しておけばよい。
ステップS76において算術符号化を行うと判定された場合、符号化方式選択部24は、量子化部23から供給された量子化MDCT係数を算術符号化部32に供給し、その後、ステップS77の処理が行われる。すなわち、ステップS77では、量子化MDCT係数に対してコンテキストベースの算術符号化が行われる。
なお、ステップS77の処理は、図20のステップS16の処理と同様であるので、その説明は省略する。ステップS77の処理が行われると、その後、処理はステップS79へと進む。
これに対して、ステップS76において算術符号化を行わないと判定された場合、つまりハフマン符号化を行う場合、符号化方式選択部24は、量子化部23から供給された量子化MDCT係数をハフマン符号化部31に供給し、処理はステップS78へと進む。
ステップS78では、ステップS75と同様の処理が行われ、その結果得られたMDCT符号化データおよびハフマンコードブック情報がハフマン符号化部31からビット制御部26へと供給される。ステップS78の処理が行われると、その後、処理はステップS79へと進む。
ステップS77またはステップS78の処理が行われると、ステップS79においてビット制御部26は判定フラグを生成する。
例えばステップS77の処理、つまり算術符号化が行われた場合、ビット制御部26は値が「0」である判定フラグを生成し、算術符号化部32から供給されたMDCT符号化データとともに、生成した判定フラグを多重化部27へと供給する。
また、例えばステップS78の処理、つまりハフマン符号化が行われた場合、ビット制御部26は値が「1」である判定フラグを生成し、ハフマン符号化部31から供給されたMDCT符号化データおよびハフマンコードブック情報とともに、生成した判定フラグを多重化部27へと供給する。
ステップS79の処理が行われると、その後、処理はステップS80へと進む。
ステップS75またはステップS79の処理が行われると、ステップS80において多重化部27は、多重化を行って符号化ビットストリームを生成し、得られた符号化ビットストリームを復号装置71に送信する。なお、ステップS80では、基本的には図20のステップS17と同様の処理が行われる。
例えばステップS75の処理が行われた場合には、多重化部27はMDCT符号化データ、ハフマンコードブック情報、変換窓情報、および正規化部22からのパラメータが格納された符号化ビットストリームを生成する。この符号化ビットストリームには、判定フラグは含まれていない。
また、例えばステップS78の処理が行われた場合、多重化部27は判定フラグ、MDCT符号化データ、ハフマンコードブック情報、変換窓情報、および正規化部22からのパラメータが格納された符号化ビットストリームを生成する。
さらに、例えばステップS77の処理が行われた場合、多重化部27は判定フラグ、MDCT符号化データ、変換窓情報、および正規化部22からのパラメータが格納された符号化ビットストリームを生成する。
このようにして符号化ビットストリームが生成されて出力されると、符号化処理は終了する。
以上のようにして符号化装置11は、LONG_STOP_SEQUENCEでないフレームにおいては、ハフマン符号化と算術符号化の何れか一方を選択し、選択した符号化方式により符号化を行う。このようにすることで、フレームごとに適切な符号化方式を選択し、符号化効率を向上させるとともに、より自由度の高い符号化を実現することができる。
〈復号処理の説明〉
また、符号化装置11において図27を参照して説明した符号化処理が行われた場合、復号装置71では図28に示す復号処理が行われる。
以下、図28のフローチャートを参照して、復号装置71による復号処理について説明する。なお、ステップS121乃至ステップS123の処理は、図22のステップS41乃至ステップS43の処理と同様であるので、その説明は省略する。但し、ステップS121では、非多重化により符号化ビットストリームから判定フラグが抽出された場合には、その判定フラグが非多重化部82から復号方式選択部83へと供給される。
ステップS122においてLONG_STOP_SEQUENCEでないと判定された場合、ステップS124において復号方式選択部83は、非多重化部82から供給された判定フラグに基づいて、MDCT符号化データが算術符号であるか否かを判定する。すなわち、MDCT符号化データの符号化方式が算術符号化であるか否かが判定される。
例えば復号方式選択部83は、判定フラグの値が「1」である場合、算術符号でない、つまりハフマン符号であると判定し、判定フラグの値が「0」である場合、算術符号であると判定する。このように復号方式選択部83では、ハフマン符号化と算術符号化のうち、判定フラグにより示される符号化方式に対応する復号方式が選択される。
ステップS124において算術符号でない、つまりハフマン符号であると判定された場合、復号方式選択部83は、非多重化部82から供給されたMDCT符号化データおよびハフマンコードブック情報をハフマン復号部91へと供給し、処理はステップS123へと進む。そして、ステップS123ではハフマン符号の復号が行われる。
これに対して、ステップS124において算術符号であると判定された場合、復号方式選択部83は、非多重化部82から供給されたMDCT符号化データを算術復号部92へと供給し、処理はステップS125へと進む。
ステップS125では、算術符号であるMDCT符号化データに対して、算術符号化に対応する復号方式で復号が行われるが、ステップS125の処理は図22のステップS44の処理と同様であるので、その説明は省略する。
ステップS123またはステップS125の処理が行われると、その後、ステップS126およびステップS127の処理が行われて復号処理は終了するが、これらの処理は図22のステップS45およびステップS46の処理と同様であるので、その説明は省略する。
以上のようにして復号装置71は、変換窓情報と判定フラグに基づいて復号方式を選択し、復号を行う。特に、LONG_STOP_SEQUENCEでないフレームでも、判定フラグを参照することで正しい復号方式を選択することができるので、符号化効率の向上や復号側での処理量の削減だけでなく、自由度の高い符号化および復号を実現することができる。
〈第3の実施の形態〉
〈符号化処理の説明〉
その他、LONG_STOP_SEQUENCEではないフレームにおいて、ハフマン符号化と算術符号化のうちの何れか一方を選択する場合、より必要ビット数が少ない方を選択するようにしてもよい。
例えば復号装置71や符号化装置11で処理量に余裕があり、符号化効率(圧縮効率)を優先したい場合などにおいては、LONG_STOP_SEQUENCEではないフレームで、ハフマン符号化と算術符号化の必要ビット数を計算し、より必要ビット数が少ない方を選択するようにしてもよい。
そのような場合、符号化装置11では、例えば図29に示す符号化処理が行われる。すなわち、以下、図29のフローチャートを参照して、符号化装置11による符号化処理について説明する。
なお、ステップS151乃至ステップS155の処理は、図20のステップS11乃至ステップS15の処理と同様であるので、その説明は省略する。
ステップS154においてLONG_STOP_SEQUENCEでないと判定された場合、符号化方式選択部24は、量子化部23から供給された量子化MDCT係数をハフマン符号化部31および算術符号化部32の両方に供給し、処理はステップS156へと進む。この場合、ステップS154の時点では、まだ何れの符号化方式が選択(採用)されるかは、決定されていない。
ステップS156において、算術符号化部32は符号化方式選択部24から供給された量子化MDCT係数に対してコンテキストベースの算術符号化を行い、その結果得られたMDCT符号化データをビット制御部26に供給する。ステップS156では、図20のステップS16と同様の処理が行われる。
ステップS157において、ハフマン符号化部31は符号化方式選択部24から供給された量子化MDCT係数に対してハフマン符号化を行い、その結果得られたMDCT符号化データおよびハフマンコードブック情報をビット制御部26に供給する。ステップS157では、ステップS155と同様の処理が行われる。
ステップS158においてビット制御部26は、ハフマン符号化部31から供給されたMDCT符号化データおよびハフマンコードブック情報のビット数と、算術符号化部32から供給されたMDCT符号化データのビット数とを比較して符号化方式を選択する。
すなわち、ビット制御部26はハフマン符号化により得られたMDCT符号化データおよびハフマンコードブック情報のビット数(符号量)が、算術符号化により得られたMDCT符号化データのビット数よりも少ない場合、符号化方式としてハフマン符号化を選択する。
この場合、ビット制御部26は、ハフマン符号化により得られたMDCT符号化データおよびハフマンコードブック情報を多重化部27へと供給する。
これに対して、ビット制御部26は算術符号化により得られたMDCT符号化データのビット数が、ハフマン符号化により得られたMDCT符号化データおよびハフマンコードブック情報のビット数以下である場合、符号化方式として算術符号化を選択する。
この場合、ビット制御部26は、算術符号化により得られたMDCT符号化データを多重化部27へと供給する。
このように、ハフマン符号化と算術符号化とで実際のビット数(符号量)、すなわちそれらの符号化方式での必要ビット数を比較することで、より必要ビット数の少ない符号化方式を確実に選択することができる。この場合、実質的にはハフマン符号化時の必要ビット数と算術符号化時の必要ビット数とに基づいて、ハフマン符号化と算術符号化のうちの何れかの符号化方式を選択し、選択した符号化方式で符号化を行ったことになる。
ステップS159においてビット制御部26は、ステップS158における符号化方式の選択結果に応じた判定フラグを生成し、多重化部27に供給する。
例えばビット制御部26は、符号化方式としてハフマン符号化を選択した場合、値が「1」である判定フラグを生成し、符号化方式として算術符号化を選択した場合、値が「0」である判定フラグを生成する。
このようにして判定フラグが生成されると、その後、処理はステップS160へと進む。
ステップS159の処理が行われたか、またはステップS155の処理が行われると、ステップS160の処理が行われて符号化処理は終了する。なお、ステップS160の処理は図27のステップS80の処理と同様であるので、その説明は省略する。
以上のようにして符号化装置11は、LONG_STOP_SEQUENCEでないフレームにおいてはハフマン符号化と算術符号化のうちの必要ビット数の少ない方を選択し、選択した符号化方式で符号化されたMDCT符号化データを含む符号化ビットストリームを生成する。このようにすることで、フレームごとに適切な符号化方式を選択し、符号化効率を向上させるとともに、より自由度の高い符号化を実現することができる。
また、図29を参照して説明した符号化処理が行われた場合、復号装置71では、図28を参照して説明した復号処理が行われる。
以上のように本技術によれば、適切に符号化方式を選択することで算術符号化のみを用いた場合よりも符号化効率(圧縮効率)を向上させるとともに、復号時の処理量を削減することができる。
また、第2の実施の形態や第3の実施の形態では、例えばオーディオ信号のビットレートが高く音質が十分である場合や、音質よりも処理量が重要な場合などにおいても、LONG_STOP_SEQUENCEでないフレームにおいて適切な符号化方式を選択することができる。これにより、より自由度の高い符号化および復号を実現することができる。すなわち、例えば復号時の処理量をより柔軟に制御することができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図30は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
オーディオ信号に対して変換窓を用いた時間周波数変換を行う時間周波数変換部と、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する符号化部と
を備える符号化装置。
(2)
前記周波数スペクトル情報の符号化データと、前記時間周波数変換に用いた前記変換窓の種類を示す変換窓情報とを多重化して符号化ビットストリームを生成する多重化部をさらに備える
(1)に記載の符号化装置。
(3)
前記符号化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、ハフマン符号化と算術符号化のうちの何れかの符号化方式で前記周波数スペクトル情報を符号化する
(1)または(2)に記載の符号化装置。
(4)
前記符号化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、符号化時の必要ビット数、前記オーディオ信号のビットレート、復号側のリソース情報、または符号化方式の指定情報に基づいて選択された符号化方式で前記周波数スペクトル情報を符号化する
(3)に記載の符号化装置。
(5)
前記多重化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報の符号化方式を示す選択情報と、前記符号化データと、前記変換窓情報とを多重化して前記符号化ビットストリームを生成する
(3)または(4)に記載の符号化装置。
(6)
符号化装置が、
オーディオ信号に対して変換窓を用いた時間周波数変換を行い、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する
符号化方法。
(7)
オーディオ信号に対して変換窓を用いた時間周波数変換を行い、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、
前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する
ステップを含む処理をコンピュータに実行させるプログラム。
(8)
符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出する非多重化部と、
前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する復号部と
を備える復号装置。
(9)
前記復号部は、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓でない場合、前記符号化データを算術符号化に対応する復号方式で復号する
(8)に記載の復号装置。
(10)
前記復号部は、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓でない場合、ハフマン符号化と算術符号化のうち、前記符号化ビットストリームから抽出された選択情報により示される符号化方式に対応する復号方式で前記符号化データを復号する
(8)に記載の復号装置。
(11)
復号装置が、
符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出し、
前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する
復号方法。
(12)
符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出し、
前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する
ステップを含む処理をコンピュータに実行させるプログラム。
11 符号化装置, 21 時間周波数変換部, 24 符号化方式選択部, 26 ビット制御部, 27 多重化部, 31 ハフマン符号化部, 32 算術符号化部, 71 復号装置, 81 取得部, 82 非多重化部, 83 復号方式選択部, 91 ハフマン復号部, 92 算術復号部

Claims (12)

  1. オーディオ信号に対して変換窓を用いた時間周波数変換を行う時間周波数変換部と、
    前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する符号化部と
    を備える符号化装置。
  2. 前記周波数スペクトル情報の符号化データと、前記時間周波数変換に用いた前記変換窓の種類を示す変換窓情報とを多重化して符号化ビットストリームを生成する多重化部をさらに備える
    請求項1に記載の符号化装置。
  3. 前記符号化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、ハフマン符号化と算術符号化のうちの何れかの符号化方式で前記周波数スペクトル情報を符号化する
    請求項1に記載の符号化装置。
  4. 前記符号化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、符号化時の必要ビット数、前記オーディオ信号のビットレート、復号側のリソース情報、または符号化方式の指定情報に基づいて選択された符号化方式で前記周波数スペクトル情報を符号化する
    請求項3に記載の符号化装置。
  5. 前記多重化部は、前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報の符号化方式を示す選択情報と、前記符号化データと、前記変換窓情報とを多重化して前記符号化ビットストリームを生成する
    請求項3に記載の符号化装置。
  6. 符号化装置が、
    オーディオ信号に対して変換窓を用いた時間周波数変換を行い、
    前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、
    前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する
    符号化方法。
  7. オーディオ信号に対して変換窓を用いた時間周波数変換を行い、
    前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられた場合、前記時間周波数変換により得られた周波数スペクトル情報をハフマン符号化し、
    前記変換窓の変換窓長が短い変換窓長から長い変換窓長へと切り替えられなかった場合、前記周波数スペクトル情報を算術符号化する
    ステップを含む処理をコンピュータに実行させるプログラム。
  8. 符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出する非多重化部と、
    前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する復号部と
    を備える復号装置。
  9. 前記復号部は、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓でない場合、前記符号化データを算術符号化に対応する復号方式で復号する
    請求項8に記載の復号装置。
  10. 前記復号部は、前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓でない場合、ハフマン符号化と算術符号化のうち、前記符号化ビットストリームから抽出された選択情報により示される符号化方式に対応する復号方式で前記符号化データを復号する
    請求項8に記載の復号装置。
  11. 復号装置が、
    符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出し、
    前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する
    復号方法。
  12. 符号化ビットストリームを非多重化して、オーディオ信号の時間周波数変換に用いた変換窓の種類を示す変換窓情報と、前記時間周波数変換により得られた周波数スペクトル情報の符号化データとを抽出し、
    前記変換窓情報により示される前記変換窓が、短い変換窓長から長い変換窓長へと切り替えられたときに選択される前記変換窓である場合、前記符号化データをハフマン符号化に対応する復号方式で復号する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2020525515A 2018-06-21 2019-06-07 符号化装置および方法、復号装置および方法、並びにプログラム Active JP7318645B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018117635 2018-06-21
JP2018117635 2018-06-21
PCT/JP2019/022681 WO2019244666A1 (ja) 2018-06-21 2019-06-07 符号化装置および方法、復号装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2019244666A1 true JPWO2019244666A1 (ja) 2021-07-15
JP7318645B2 JP7318645B2 (ja) 2023-08-01

Family

ID=68983988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020525515A Active JP7318645B2 (ja) 2018-06-21 2019-06-07 符号化装置および方法、復号装置および方法、並びにプログラム

Country Status (7)

Country Link
US (1) US20210210108A1 (ja)
EP (2) EP4283877A3 (ja)
JP (1) JP7318645B2 (ja)
KR (1) KR20210022546A (ja)
CN (1) CN112400203A (ja)
BR (1) BR112020025515A2 (ja)
WO (1) WO2019244666A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011022435A (ja) * 2009-07-17 2011-02-03 Sony Corp 信号符号化装置、信号復号装置、信号処理システム、これらにおける処理方法およびプログラム
JP2011509426A (ja) * 2008-01-04 2011-03-24 ドルビー・インターナショナル・アーベー オーディオエンコーダおよびデコーダ
JP2012181429A (ja) * 2011-03-02 2012-09-20 Fujitsu Ltd オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020049586A1 (en) * 2000-09-11 2002-04-25 Kousuke Nishio Audio encoder, audio decoder, and broadcasting system
US7433824B2 (en) * 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
EP1734511B1 (en) * 2002-09-04 2009-11-18 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
KR101237413B1 (ko) * 2005-12-07 2013-02-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
KR101485339B1 (ko) * 2008-09-29 2015-01-26 삼성전자주식회사 무손실 부호화/복호화 장치 및 방법
TWI459375B (zh) * 2009-01-28 2014-11-01 Fraunhofer Ges Forschung 音訊編碼器、音訊解碼器、包含經編碼音訊資訊之數位儲存媒體、用以將音訊信號編碼及解碼之方法及電腦程式
US8305243B2 (en) * 2010-06-30 2012-11-06 Schlumberger Technology Corporation Systems and methods for compressing data and controlling data compression in borehole communication
CN104041054A (zh) * 2012-01-17 2014-09-10 索尼公司 编码设备及编码方法、解码设备及解码方法以及程序
JP2014078860A (ja) * 2012-10-11 2014-05-01 Samsung Display Co Ltd 圧縮器、駆動装置、表示装置および圧縮方法
KR20140075466A (ko) * 2012-12-11 2014-06-19 삼성전자주식회사 오디오 신호의 인코딩 및 디코딩 방법, 및 오디오 신호의 인코딩 및 디코딩 장치
EP2830058A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
JP6512916B2 (ja) * 2014-06-16 2019-05-15 キヤノン株式会社 撮像装置およびその制御方法ならびにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011509426A (ja) * 2008-01-04 2011-03-24 ドルビー・インターナショナル・アーベー オーディオエンコーダおよびデコーダ
JP2011022435A (ja) * 2009-07-17 2011-02-03 Sony Corp 信号符号化装置、信号復号装置、信号処理システム、これらにおける処理方法およびプログラム
JP2012181429A (ja) * 2011-03-02 2012-09-20 Fujitsu Ltd オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム

Also Published As

Publication number Publication date
EP4283877A3 (en) 2024-01-10
US20210210108A1 (en) 2021-07-08
EP3813064A4 (en) 2021-06-23
KR20210022546A (ko) 2021-03-03
WO2019244666A1 (ja) 2019-12-26
BR112020025515A2 (pt) 2021-03-09
CN112400203A (zh) 2021-02-23
EP4283877A2 (en) 2023-11-29
EP3813064A1 (en) 2021-04-28
JP7318645B2 (ja) 2023-08-01

Similar Documents

Publication Publication Date Title
US11664038B2 (en) Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element
KR100818268B1 (ko) 오디오 데이터 부호화 및 복호화 장치와 방법
KR20100087661A (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP6465020B2 (ja) 復号装置および方法、並びにプログラム
JP2017528751A (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
IL305626B1 (en) Harmonic-inverse harmonic exchanger combination for high-frequency reproduction of audio signals
JP4399185B2 (ja) 符号化装置および復号化装置
KR101403340B1 (ko) 변환 부호화 방법 및 장치
JP2022188262A (ja) ステレオ信号符号化方法および装置、ならびにステレオ信号復号方法および装置
JP7318645B2 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
Auristin et al. New Ieee Standard For Advanced Audio Coding In Lossless Audio Compression: A Literature Review
WO2024051955A1 (en) Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata
CN113948094A (zh) 音频编解码方法和相关装置及计算机可读存储介质
KR20100054749A (ko) 신호의 처리 방법 및 이의 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230703

R151 Written notification of patent or utility model registration

Ref document number: 7318645

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151