JPWO2011158485A1 - オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置 - Google Patents

オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置 Download PDF

Info

Publication number
JPWO2011158485A1
JPWO2011158485A1 JP2012520286A JP2012520286A JPWO2011158485A1 JP WO2011158485 A1 JPWO2011158485 A1 JP WO2011158485A1 JP 2012520286 A JP2012520286 A JP 2012520286A JP 2012520286 A JP2012520286 A JP 2012520286A JP WO2011158485 A1 JPWO2011158485 A1 JP WO2011158485A1
Authority
JP
Japan
Prior art keywords
signal
frame
transform
audio
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012520286A
Other languages
English (en)
Other versions
JP5882895B2 (ja
Inventor
石川 智一
智一 石川
則松 武志
武志 則松
ジョン ハイシャン
ジョン ハイシャン
チョン コクセン
チョン コクセン
ゾウ フアン
ゾウ フアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2012520286A priority Critical patent/JP5882895B2/ja
Publication of JPWO2011158485A1 publication Critical patent/JPWO2011158485A1/ja
Application granted granted Critical
Publication of JP5882895B2 publication Critical patent/JP5882895B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

複数のスピーチ信号およびオーディオ信号に対してブロック切替を有する新たなオーディオハイブリッド復号装置およびオーディオハイブリッド符号化装置を提案する。現在、スピーチおよびオーディオ信号に対して非常に低いビットレートのオーディオ符号化方法が提案されているが、これらのオーディオ符号化方法では、非常に長い遅延が生じる。一般的に、オーディオ信号を符号化する際には、高周波分解能を得るためにアルゴリズムの遅延が長くなることが多い。スピーチ信号を符号化する際においては、通信に使われるため遅延を短くする必要がある。この2種類の非常に低いビットレートの入力信号の符号化の質を好適にするよう均衡をとるために、本発明は、AAC−ELDのような低遅延フィルタバンクとCELP符号化方法との組み合わせを提案する。

Description

複数の異なるコーデックを切替えながら符号化および復号の処理を行うオーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置に関する。
スピーチコーデックは、スピーチ信号の特徴に応じて特別に設計される[1]。スピーチコーデックは、スピーチ信号を効率的に符号化する効果を有する。たとえば、スピーチ信号を低ビットレートで符号化する際に高音質で符号化することが可能であり、低遅延ではある。一方で、スピーチ信号より広帯域なオーディオ信号を符号化する際の音質は、AAC方式など一部の変換コーデック程よい音質ではない。一方、AAC方式に代表される変換コーデックはオーディオ信号を符号化することに適しているが、スピーチコーデックと同じ音質でスピーチ信号を符号化するには、高いビットレートを要する。ハイブリッドコーデックは、スピーチ信号およびオーディオ信号を低ビットレートでも高音質で符号化することが可能である。ハイブリッドコーデックは低ビットレートで高音質な符号化を実現するために、2つの異なるコーデックの利点を組み合わせたものである。
低遅延のハイブリッドコーデックが、テレビ会議システムなどのリアルタイム通信を行う用途で所望されている。低遅延のハイブリッドコーデックの1つは、AAC−LD(低遅延AAC)符号化技術とスピーチ符号化技術とを組み合わせるものである。このAAC−LDには、アルゴリズム遅延量が20ミリ秒以内のモードがある。AAC−LDは、通常のAAC符号化技術から派生したものである。アルゴリズム遅延量を低減させるために、AAC−LDは、AACにいくつか変更が加えられたものである。第1に、AAC−LDのフレームサイズは、1024または960時間領域サンプルに減少しており、従ってMDCTフィルタバンクの出力スペクトル数も512および480スペクトル値に減少している。第2に、アルゴリズム遅延量を低減させるために、先読み処理を無効にし、その結果としてブロック切替処理を用いない。第3に、通常遅延量のAACにおける窓関数処理で用いるカイザー・ベッセル窓関数の代わりに、オーバーラップが少ない窓関数を用いる。オーバーラップが少ない窓関数は、AAC−LDにおいて過渡信号を効率的に符号化するために用いられる。第4に、ビットリザーバを最小化するか、一切使用しない。第5に、時間領域ノイズ整形と、長期予測関数とが、低遅延のフレームサイズに対応した修正を行って処理する。
一般的に、スピーチコーデックでは、線形予測符号化(ACELP:代数符号励振線形予測)に基づいて符号化している[1]。ACELP符号化において、線形予測分析をスピーチ信号に対して適用し、線形予測分析によって算出した励振信号を代数コードブックを用いて符号化する。ACELP符号化の音質をさらに向上させるため、昨今のスピーチコーデックではさらに変換符号化励振(変換符号化励振)符号化(TCX符号化)も用いて高音質化している。TCX符号化において、線形予測分析の後、変換符号化が励振信号に用いられる。フーリエ変換された、重み付けされた信号が代数ベクトル量子化(algebraic vector quantization)を用いて量子化される。スピーチコーデックには異なるフレームサイズが利用可能であり、たとえば、1024時間領域サンプル、512時間領域サンプル、および256時間領域サンプルなどが可能である。符号化モードが閉ループ分析合成方法を用いて選択される。
低遅延ハイブリッドコーデックは、AAC−LD符号化モード、ACELPモード、およびTCXモードの3つの異なる符号化モードを有する。異なるモードは、異なるドメインで信号を符号化し、異なるフレームサイズを有するため、ハイブリッドコーデックは、符号化モードが切り替わる遷移フレームに対してブロック切替方法を構成する必要がある。遷移フレームの一例を、図2に示す。たとえば、先行フレームがAAC−ELDモードで符号化され、対象フレームがACELPモードで符号化される場合、対象フレームは遷移フレームと定義される。先行技術においては、異なる符号化モードに切り替えるために、窓処理された先行フレームのエイリアシング部分が遷移フレームの対象ブロックの対象部分とは異なる方法で処理される[特許文献1:WO2010/003532、フラウンホーファー研究機構の特許出願]。
後述の段落におけるこの特許の説明を簡単にするために、AAC−ELDの変換および逆変換を背景技術において説明する。
エンコーダにおけるAAC−ELDモードの変換処理は、以下の通りである。
処理されたAAC−ELDのフレーム数は、4フレームである。フレームi−1が先行する3フレームに連結されて、長さが4Nの拡張フレームを形成する。ここで、Nは入力フレームのサイズである。すなわち、AAC−ELDモードでは、符号化対象フレームを符号化するために、符号化対象フレームのサンプルだけでなく、当該符号化対象フレームに先行する3つの先行フレームのサンプルを必要とする。
第1に、AAC−ELDモードにおいて拡張フレームを窓処理する。図3は、エンコーダのAAC−ELDモードにおけるエンコーダの窓形状を示す。エンコーダにおける窓を、wencと定義する。図示の便宜上、エンコーダの窓を8つに分割し、[w、w、w、w、w、w、w、w]とする。エンコーダの窓の長さは4Nである。AAC−ELDモードにおけるエンコーダの窓は、AAC−ELDモードで用いられている低遅延フィルタバンクに合致するように構成される。説明の便宜上、図3に示すように1つのフレームを2つの部分に分割する。たとえば、フレームi−1を2つのベクトル[ai−1、bi−1]に分割する。ここでai−1はN/2個のサンプルを有し、bi−1がN/2個のサンプルを有している。したがって、エンコーダの窓は、[ai−4、bi−4、ai−3、bi−3、ai−2、bi−2、ai−1、bi−1]と示されるベクトルに適用され、窓処理された信号、[ai−4、bi−4、ai−3、bi−3、ai−2、bi−2、ai−1、bi−1]が得られる。
次に、窓処理された信号を変換するために複数の低遅延フィルタバンクが用いられる。低遅延フィルタバンクは、以下のように定義される。
Figure 2011158485
式中、x=[ai−4、bi−4、ai−3、bi−3、ai−2、bi−2、ai−1、bi−1]である。
上記低遅延フィルタバンクに基づいて、出力係数の長さをNとし、処理するフレームの長さは4Nとする。
低遅延フィルタバンクは、DCT−IV変換によって表すこともできる。DCT−IV変換の定義を以下に示す。
Figure 2011158485
以下の恒等式により、
Figure 2011158485
Figure 2011158485
低遅延フィルタバンクにより変換されたフレームi−1の信号は、DCT−IV変換により以下のように表すことができる。
[DCT−IV(−(ai−4−bi−4+(ai−2+bi−2))、
DCT−IV(−ai−3+(bi−3+ai−1−(bi−1)]、
式中、(ai−4、(ai−2、(bi−3、(bi−1は、それぞれ、ベクトルai−4、ai−2、bi−3、bi−1の逆順を示す。
デコーダにおけるAAC−ELDモードの逆変換処理を、以下に説明する。
デコーダにおいて、フレームi−1がAAC−ELDモードで復号される場合を説明する。図7にAAC−ELDモードに対する逆変換処理を示す。デコーダにおけるAAC−ELDモードの逆低遅延フィルタバンクを、以下に示す。
Figure 2011158485
低遅延フィルタバンクの逆変換信号の長さは、4Nである。第1の実施の形態において説明したように、フレームi−1に対する逆変換信号は以下の通りである。
Figure 2011158485
逆低遅延フィルタバンクを適用した後、窓がyi−1に適用され、
Figure 2011158485
が得られる。図6は、AAC−ELDモードのデコーダの窓形状を示す。AAC−ELDモードにおける窓の長さは4Nである。これは、AAC−ELDモードのエンコーダの窓の逆順である。デコーダにおける窓は、wdecと示される。図示の便宜上、図6に示すように、デコーダの窓は8つの部分に分割され、[wR,8、wR,7、wR,6、wR,5、wR,4、wR,3、wR,2、wR,1]と示される。
窓処理された逆変換信号
Figure 2011158485
は、以下の通りである。
Figure 2011158485
AAC−ELDモードによって符号化された次のフレームiにおいて、窓処理された逆変換信号
Figure 2011158485
は、以下の通りである。
Figure 2011158485
フレームiの信号[ai−1、bi−1]を再構成するために、重複加算処理には先行する3つのフレームを必要とする。図7では、そのAAC−ELDモードの重複加算処理を示す。再構成された信号outの長さはNである。
重複加算処理は、以下の式により表すことができる。
Figure 2011158485
AAC−ELDのエイリアシングを除去するメカニズムを、図22に示す。フレームi、フレームi−1、フレームi−2、フレームi−3の窓処理された逆変換信号を図22に示す。視覚化するために、グラフは、
Figure 2011158485
である、特殊な場合の例を示す。
Figure 2011158485
窓は、以下の特性を有するように構成される。
Figure 2011158485
信号ai−1は、重複加算された後に再構成される。
同じ分析方法が信号bi−1の再構成に用いられる。
Figure 2011158485
Figure 2011158485
信号bi−1は、重複加算された後に再構成される。
Fuchs,Guillaume「Apparatus and method for encoding/decoding and audio signal using an aliasing switch scheme」、国際公開第2010/003532号
Milan Jelinek、「Wideband Speech Coding Advances in VMR−WB Standard」、IEEE Transactions on Audio、Speech and Language Processing、Vol.15、No.4、2007年5月
AAC−LDを用いる低遅延ハイブリッドコーデックは、通常遅延のAACを用いるよりも遅延が少ないが、その音質は、比較的狭帯域なものとなり、十分ではない。
ハイブリッドコーデックの音質を向上(特に広帯域化)させるために、AAC−LDモードをAAC−ELD符号化モードに置き換えることで音質向上が期待できる。AAC−ELDは、AAC−LDを用いるハイブリッドコーデックの遅延をさらに低減させる。
しかしながら、AAC−ELDを用いてハイブリッドコーデックを構成することには問題がある。異なる符号化モードを切り替える際、AAC−ELDでは先行フレームとオーバーラップしたサンプルを用いて周波数変換を行うために、対象フレーム内のサンプルだけで符号化が完結するACELPおよびTCXモードとの切り替わりにおける遷移フレームにおいてエイリアシングが生じ、不自然な音が発生する。AAC−ELDを用いる低遅延ハイブリッドコーデックの符号化構造が先行技術の他のハイブリッドコーデックとは異なるため、先行技術におけるブロック切替アルゴリズムを用いることでは、このエイリアシングを除去することができない。先行技術において、ブロック切替アルゴリズムは、AAC−LDモードと、ACELPおよびTCXモードとの間で切り替えられるように構成されている。これをそのままの形では、AAC−ELDモードと、ACELPおよびTCXモードとの間のブロック切替に適用できない。
つまり、低遅延ハイブリッドコーデックにおいてAAC−ELD符号化技術とACELP符号化技術およびTCX符号化技術をシームレスに組み合わせて、エイリアシングに起因する音質劣化を抑制ためには、符号化モードが切り替わる遷移フレームを処理するための新たなブロック切替アルゴリズムが必要である。
また、低遅延ハイブリッドコーデックの他の問題は、過渡信号の符号化に好適な方式がないため低音質であることである。AAC−ELDは、低遅延フィルタバンクに適応される窓形状を1種類のみ使用する。AAC−ELDの窓形状は長い。AAC−ELDのロングウインドウ形状により、過渡信号の符号化の品質が低くなる。より優れたAAC−ELDの過渡信号符号化方法が、低遅延ハイブリッドコーデックの音質の向上に必要である。
本発明の目的は、低遅延ハイブリッドコーデックにおいて異なる符号化モードを切り替える際に生じる音質低下の問題を解決することである。
本発明の目的は、符号化モードをシームレスに切り替えて、切り替えの際に発生する音質劣化を抑制するために、エンコーダとデコーダとにおける、スピーチおよびオーディオのハイブリッドコーデックに対する最適なブロック切替アルゴリズムを提供することである。先行技術では、窓処理されたブロックのエイリアシング部分に対して、遷移ブロックとそれ以降の部分とでは別の処理を行っていたが、本発明のに係る切替方式はこれとは異なる。すなわち、先行フレームの非エイリアシング部分を処理して、切替対象フレームにおけるエイリアシングの除去に用いる。従って、複数フレームの異なる部分に対して別々の符号化技術は用いられていない。
ブロック切替アルゴリズムは、以下の遷移フレームを処理するために用いる。
・AAC−ELDモードからACELPモード
・ACELPモードからAAC−ELDモード
・AAC−ELDモードからTCXモード
・TCXモードからAAC−ELDモード
さらに、低遅延ハイブリッドコーデックのためにACELPモードからAAC−ELDモードへ切り替わるブロックのビットレートを低減させることが好ましい。ここでは、ACELPからAAC−ELDの切り替えに要するビットレートを低減させるため、低遅延フィルタバンクを用いる代わりに、低遅延フィルタバンクに似た通常のMDCTフィルタバンクを用いる。
また、さらに、低遅延ハイブリッドコーデックにおいて過渡信号を処理するブロック切替方式を構成することによって音質を向上させることが好ましい。過渡信号では、急激なエネルギー変化があるため、過渡信号を符号化するためには、ショートウインドウ処理を用いることが望ましい。これにより、AAC−ELDモードにおいてショートウインドウからロングウインドウへシームレスに連結することができる。
図1は、3つの符号化モードを有する低遅延ハイブリッドエンコーダの構成を示すブロック図である。 図2は、通常フレームから通常フレームに切り替わる際の遷移フレームを示す図である。 図3は、AAC−ELDモードにおけるエンコーダの窓処理を示す図である。 図4は、エンコーダにおいてAAC−ELDモードがACELPモードに切り替えられる場合のフレーム境界を示す図である。 図5は、3つの復号モードを有する低遅延ハイブリッドデコーダの構成を示すブロック図である。 図6は、AAC−ELDモードにおけるデコーダの窓処理を示す図である。 図7は、AAC−ELDモードの復号処理を示す図である。 図8は、AAC−ELDからACELPに切り替える復号処理を示す図である。 図9は、デコーダにおいてACELPからAAC−ELDに遷移する場合の処理を示す図である。 図10は、エンコーダにおいてACELPモードがAAC−ELDモードに切り替えられる際の処理を示す図である。 図11は、ACELPからAAC−ELDに切り替える復号処理の例1を示す図である。 図12は、ACELPからAAC−ELDに切り替える復号処理の例2を示す図である。 図13は、エンコーダにおいてAAC−ELDモードがTCXモードに切り替えられる際の処理を示す図である。 図14は、デコーダにおいてAAC−ELDからTCXに遷移する場合の処理を示す図である。 図15は、エンコーダにおいてTCXモードがAAC−ELDモードに切り替えられる際の処理を示す図である。 図16は、TCXからAAC−ELDに切り替える復号処理を示す図である。 図17は、TCXからAAC−ELDに切り替える復号処理の詳細を示す図である。 図18は、エンコーダにおける過渡信号の処理を示す図である。 図19は、過渡信号の復号処理を示す図である。 図20は、2つの符号化モードを有する低遅延ハイブリッドエンコーダの構成を示すブロック図である。 図21は、2つの復号モードを有する低遅延ハイブリッドデコーダの構成を示すブロック図である。 図22は、AACC−ELDモードにおけるエイリアシング除去の処理を示す図である。 図23は、デコーダにおいてAAC−ELDからACELPに遷移する場合の処理を示す図である。 図24は、サブフレームの境界における平滑化処理を示す図である。
以下の実施の形態は、様々な発明ステップの原理を説明するものである。ここに説明する具体例の様々な変形例は、当業者には明らかであろう。
(第1の実施の形態)
第1の実施の形態において、AAC−ELDモードをACELPモードに切り替える途中のフレームである遷移フレームを符号化するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドエンコーダを考案する。
デコーダにおいて、AAC−ELDモードに起因する先行フレームのエイリアシングを除去するために、ACELPのフレームサイズを拡張する。AAC−ELDモードからACELPモードに切替える際に生じるエイリアシングは、AAC−ELDモードでは符号化対象フレームを符号化するために先行するフレームのサンプルが必要であるのに対し、ACELPでは符号化対象フレームを符号化するために符号化対象フレームの1フレーム分のサンプルしか使わないことに起因する。これに対し、まず符号化対象フレームに先行する先行フレームの後半は、対象フレームに連結され、通常の入力フレームサイズよりも長い拡張フレームを形成する。拡張フレームは、エンコーダにおいてACELPモードで符号化される。
図20は、AAC−ELD符号化技術とACELP符号化技術とを組み合わせたハイブリッドエンコーダの構成を示すブロック図である。図20において、入力信号が高周波エンコーダ2001に送信される。符号化された高周波パラメータは、ビットマルチプレクサブロック2006に送信される。入力信号は、信号分類ブロック2003にも送信される。信号分類では、低周波帯域の時間領域信号に対して、どの符号化モードを選択するかを決定する。信号分類ブロック2003からのモード指標が、ビットマルチプレクサブロック2006に送信される。モード指標は、ブロック切替アルゴリズム2002を制御するためにも用いられる。符号化対象の低周波帯域における時間領域信号は、モード指標に従って、対応する符号化技術2004、2005に送信される。ビットマルチプレクサブロック2006は、ビットストリームを生成する。
入力信号は、フレーム毎に符号化される。入力フレームサイズは、本実施の形態ではNと定義される。
図20において、複数のブロック切替アルゴリズム2002は、符号化モードが切り替えられる遷移フレームの処理に用いられる。図4は、第1の実施の形態におけるAAC−ELDからACELPへのブロック切替アルゴリズムを示す。
ブロック切替アルゴリズムは、先行フレームi−1の後半を連結して、処理フレームの長さが
Figure 2011158485
の拡張フレームを形成する。この処理が行われたフレームは、符号化のためにACELPモードに送信される。
(効果)
本実施の形態のブロック切替アルゴリズムを有するエンコーダにより、符号化モードをAAC−ELDモードからACELPモードに切り替える際、デコーダにおけるエイリアシングの除去を容易に行うことができ、オーディオ符号化モードとスピーチ符号化モードとの2つの符号化モードを有する低遅延のスピーチおよびオーディオハイブリッドコーデックにおいて、AAC−ELD符号化技術およびACELP符号化技術をシームレスに組み合わせることができる。
(第2の実施の形態)
第2の実施の形態において、AAC−ELDモードがACELPモードに切り替えられる遷移フレームを符号化するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドエンコーダを考案する。
第2の実施の形態では、第1の実施の形態と同様にACELPフレームの長さを拡張することである。エンコーダの構成は、第1の実施の形態と異なる。第2の実施の形態のエンコーダには、3つの符号化モードがある。それは、AAC−ELDモード、ACELPモード、およびTCXモードである。
図1は、オーディオコーデックであるAAC−ELDと、スピーチコーデックであるACELP符号化技術およびTCX符号化技術とを組み合わせる構成を示す。図1において、入力信号が高周波エンコーダ101に送信される。符号化された高周波パラメータは、ビットマルチプレクサブロック107に送信される。入力信号は、信号分類ブロック103にも送信される。信号分類は、どの符号化モードを選択するかを決定する。信号分類ブロックからのモード指標が、ビットマルチプレクサブロック107に送信される。モード指標は、ブロック切替アルゴリズム102を制御するためにも用いられる。符号化対象の低周波帯域における時間領域信号は、モード指標に従って、対応する符号化技術104、105、106に送信される。ビットマルチプレクサブロック107は、ビットストリームを生成する。
(効果)
本実施の形態のブロック切替アルゴリズムを有するエンコーダにより、符号化モードをAAC−ELDモードからACELPモードに切り替える際、デコーダにおけるエイリアシングの除去を容易に行うことができ、3つの符号化モードを有する低遅延のスピーチおよびオーディオハイブリッドコーデックにおいて、AAC−ELD符号化技術およびACELP符号化技術をシームレスに組み合わせることができる。
(第3の実施の形態)
第3の実施の形態において、AAC−ELDモードがACELPモードに切り替えられる遷移フレームを復号するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
本実施の形態において、対象フレームをフレームiと示す。AAC−ELD符号化モードに起因するフレームi−1のエイリアシングを除去するために、ブロック切替アルゴリズムは、フレームiのACELP合成信号の非エイリアシング部分およびフレームi−2の再構成信号を用いて逆エイリアシング成分を生成する。
図21は、AAC−ELD符号化技術とACELP復号技術とを組み合わせたスピーチおよびオーディオハイブリッドデコーダを示す。図21において、入力ビットストリームが2101において逆多重化される。モード指標が復号モードおよびブロック切替アルゴリズム2104の選択を制御するために送信される。高周波信号を再構成するために高周波パラメータが高周波デコーダ2105に送信される。モード指標に従って、低周波係数が対応するデコーダ2102、2103に送信される。逆変換信号および合成信号は、ブロック切替アルゴリズムに送信される。ブロック切替アルゴリズム2104は、異なる切替状況に応じて低周波帯域の時間領域信号を再構成する。高周波デコーダ2105は、高周波パラメータおよび低周波帯域の時間領域信号に基づいてこれらの信号を再構成する。
第3の実施の形態において、デコーダにおいてAAC−ELDモードからACELPモードに切り替えるためのブロック切替方法を考案する。図23は、AAC−ELDからACELPに遷移する場合を示す。フレームi−1は、AAC−ELDモードによって通常フレームとして逆変換される。フレームiは、ACELPモードにおいて通常フレームとして合成される。サブフレーム2301で示す非エイリアシング部分と、サブフレーム2304およびサブフレーム2305で示すフレームi−2の復号信号とを処理し、これを用いてサブフレーム2302で示すエイリアシング部分におけるエイリアシングを除去する。
図8は、ブロックの切り替えの一例を示す。
フレームiに対して、ACELP合成信号を、
Figure 2011158485
と示す。ACELP合成信号の長さは、第1の実施の形態において示されている符号化処理に基づき、
Figure 2011158485
である。図23においてサブフレーム2301と示されている非エイリアシング部分の一部は、エイリアシング除去のために抽出される。
Figure 2011158485
先行フレームi−1のAAC−ELD逆変換信号は、yi−1と示され、4Nの長さを有する。図23において、サブフレーム2302として示されている1つのエイリアシング部分が抽出され、このエイリアシング部分は背景技術の項目において説明したAAC−ELD逆変換に基づき以下のように表される。
Figure 2011158485
非エイリアシング部分2301bi−1と、フレームi−1−ai−3+(bi−3+ai−1−(bi−1のエイリアシング部分2302と、フレームi−2[ai−3、bi−3]の再構成信号であるサブフレーム2304、2305とが、遷移フレームの信号を再構成するために用いられる。
図8に示されるように、窓wが非エイリアシング部分bi−1に適用されて、bi−1が得られる。
窓処理後、折り畳みが適用されて、(bi−1で示されるbi−1の逆順が得られる。
図8に示すように、得られた非エイリアシング部分ai−3に窓wが適用され、ai−3が得られる。
図8に示すように、非エイリアシングbi−3に窓wが適用されて、bi−3が得られる。bi−3の逆順が得られ、901に示すように、これを(bi−3で示す。
エイリアシングを除去するために、図8に示すように−ai−3+(bi−3+ai−1−(bi−1、(bi−1、ai−3、(bi−3を加算する。
i−1に逆窓関数が適用されて、ai−1が得られる。
i−1=ai−1/7
したがって、フレームiの出力は、サブフレーム2301とサブフレーム801とを連結することによって再構成された信号[ai−1、bi−1]である。
(効果)
以上のように、ブロック切替アルゴリズムを有する本実施の形態のデコーダによれば、AAC−ELDモードからACELPモードに切り替える際に遷移フレームで生じるエイリアシングを、先行フレームの非エイリアシング部分を用いて信号処理を行うことにより除去することができる。これによって、2つの復号モードを有する低遅延のハイブリッドデコーダにおいては、AAC−ELD符号化技術およびACELP符号化技術をシームレスに組み合わせることができる。
(第4の実施の形態)
第4の実施の形態において、AAC−ELDモードがACELPモードに切り替えられる遷移フレームを復号するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
第4の実施の形態の原理は、第3の実施の形態と同じである。デコーダの構成は、第3の実施の形態と異なる。第4の実施の形態のデコーダには3つの復号モードがある。その復号モードは、AAC−ELD復号モード、ACELP復号モード、およびTCX復号モードである。
図5は、AAC−ELDとACELP符号化技術およびTCX符号化技術とを組み合わせるスピーチおよびオーディオハイブリッドデコーダを示す。図5において、入力ビットストリームが501において逆多重化される。モード指標が、復号モード502、503、504、およびブロック切替アルゴリズム505の選択を制御するために送信される。高周波パラメータは、高周波デコーダ506に送信されて、高周波信号が再構成される。低周波係数が、モード指標に従って、対応の復号モードに送信される。逆変換信号および合成信号がブロック切替アルゴリズム505に送信される。ブロック切替アルゴリズム505は、異なる切替状況に応じて低周波帯域の時間領域信号を再構成する。高周波デコーダ506は、高周波パラメータおよび低周波帯域の時間領域信号に基づいて、信号を再構成する。
(効果)
本実施の形態のブロック切替アルゴリズムを有するデコーダは、AAC−ELDモードがACELPモードに切り替えられる遷移フレームにおけるエイリアシング除去の問題を解決し、3つの復号モードを有する低遅延ハイブリッドコーデックにおいて、AAC−ELD符号化技術およびACELP符号化技術をシームレスに組み合わせることができる。
(第5の実施の形態)
第5の実施の形態において、ACELPモードがAAC−ELDモードに切り替えられる遷移フレームを符号化するために、スピーチおよびオーディオハイブリッドエンコーダを有するブロック切替アルゴリズムを考案する。
符号化モードがACELPからAAC−ELDモードに切り替えられる時、復号処理が通常のAAC−ELD重複加算処理に戻される。先行技術において、この遷移フレームは、通常のAAC−ELD低遅延フィルタバンクによって符号化される。先行技術とは異なり、本実施の形態のエンコーダはMDCTフィルタバンクを用いる。本実施の形態の方法の効果は、AAC−ELD符号化と比較して、符号化演算の複雑性を低減させることである。本実施の形態の方法を用いることによって、通常のAAC−ELDモードと比較して、デコーダに送信される変換係数が半分に低減される。そのため、ビットレートが節約される。
エンコーダの構成は、第1の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第1の実施の形態と異なる。本実施の形態は、ACELPモードがAAC−ELDモードに切り替えられる遷移フレームを符号化するためのものである。
図10は、遷移フレームに対する本実施の形態の符号化方法を示す。対象フレームi[a、b]が、ゼロ埋めによって2Nの長さに拡張され、[a、b、0、0]と示される。このベクトルに窓処理が行われて、ベクトル[a、b、0、0]が得られる。
窓処理後、MDCTフィルタバンクを用いて窓処理されたベクトルが変換される。
Figure 2011158485
MDCT変換係数は、DCT−IVでは以下のように表される。
[a、b、0、0]
この結果、N/2の部分の係数がすべて0となるために、N/2の長さを有するDCT−IV(a−(b)のみをデコーダに送信すればよいことになる。AAC−ELD係数の長さは、Nである。したがって、本実施の形態の方法を用いることによって、ビットレートが半分に節約される。
(効果)
ブロック切替アルゴリズムを有する本実施の形態のエンコーダは、符号化モードがACELPモードからAAC−ELDモードに切り替えられる時に、AAC−ELDモードによって符号化された後続フレームのエイリアシングの除去を行うためのフレームiのエイリアシング成分の作成に役立つものである。AAC−ELDモードを遷移フレームに直接用いる場合と比較して、符号化の演算複雑性およびビットレートが低減される。
(第6の実施の形態)
第6の実施の形態において、ACELPモードがAAC−ELDモードに切り替えられる遷移フレームを符号化するために、ブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドエンコーダを考案する。
第6の実施の形態の原理は、第5の実施の形態と同じであるが、エンコーダの構成は第5の実施の形態とは異なる。
第6の実施の形態のエンコーダは3つの符号化モードを有し、そのモードはAAC−ELDモード、ACELPモード、およびTCXモードである。第6の実施の形態のエンコーダの構成は、第2の実施の形態と同じである。
(第7の実施の形態)
第7の実施の形態において、ACELPモードがAAC−ELDモードに切り替えられる遷移フレームを復号するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
本実施の形態において、第5の実施の形態におけるエンコーダに従って、デコーダにおいてACELPからAAC−ELDへのブロックの切り替えが行われる。符号化モードがACELPからAAC−ELDモードに切り替えられる時、後続のフレームがAAC−ELD重複加算モードに戻される。フレームiの逆MDCT変換信号のエイリアシング部分と、フレームi−1のACELP合成信号の非エイリアシング部分と、フレームi−2およびフレームi−3の再構成信号を用いて、AAC−ELDのエイリアシングが生成される。図9は、デコーダにおいてACELPからAAC−ELDへ遷移する場合を示す。
デコーダの構成は、第3の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第3の実施の形態とは異なる。図9、11、および12は、復号処理の一例を示す。
第5の実施の形態によると、受信された低帯域の係数は、この遷移フレームiにおいてMDCT変換係数DCT−IV(a−(b)である。したがって、対応する逆フィルタバンクは、第7の実施の形態においてはIMDCTである。IMDCTのエイリアシングの出力は、長さNを有する[a−(b,−(a+b]で示され、図9においてサブフレーム901およびサブフレーム902と示される。
先行フレームi−1からのACELP合成信号の非エイリアシング部分は、長さNを有する[ai−1、bi−1]で示され、図9においてサブフレーム903およびサブフレーム904と示される。
先行する2つのフレームの出力は、[ai−2、bi−2]、[ai−3、bi−3]で示され、図9においてそれぞれ、サブフレーム905、906、907、908と示される。
逆AAC−ELDのエイリアシング部分は、上記サブフレームを用いて作成される。この目的は、通常のAAC−ELDモードに戻すことができるように、AAC−ELDモードにより符号化された後続フレームと重複加算するためにエイリアシング成分を作成することである。
逆低遅延フィルタバンクに起因するエイリアシング成分を生成する方法の一つを以下に説明する。図11、12は、AAC−ELDのエイリアシング要素を作成する方法の処理の詳細を示す。
図11において、フレームi−3ai−3の復号信号が窓処理されて、ai−3が得られる。逆順(ai−3を得るために折り畳みが適用される。
フレームi−3bi−3の復号信号の後半が窓処理されてbi−3が得られる。
フレームi−1のACELP合成信号ai−1の非エイリアシング部分の前半が窓処理されて、ai−1が得られる。逆順(ai−1)Rを得るために折り畳みが用いられる。
ACELP合成信号の非エイリアシング部分の後半を、bi−1と示す。bi−1に窓処理が行われて、bi−1が得られる。
ベクトル(ai−3、bi−3、(ai−1、bi−1を合算することにより、逆低遅延フィルタバンク係数yiのエイリアシング成分が以下のように再構成される。
Figure 2011158485
同じ分析方法を用いることで、逆変換係数yの残りの成分が再構成される。図12は、AAC−ELDのエイリアシング部分の生成処理の詳細を示す。
Figure 2011158485
図12に示すように、AAC−ELDフレームiのエイリアシング部分が得られる。
Figure 2011158485
デコーダの窓[wR,8、wR,7、wR,6、wR,5、wR,4、wR,3、wR,2、wR,1]が適用されて、窓処理されたエイリアシング部分
Figure 2011158485
が得られる。
Figure 2011158485
再生成されたAAC−ELDのエイリアシング部分を用いて、後続のAAC−ELDフレームのエイリアシング除去を続行することができる。
(効果)
ブロック切替アルゴリズムを有する本実施の形態のデコーダは、MDCT係数を用いてAAC−ELDモードのエイリアシング成分を生成して、AAC−ELDモードによって符号化された後続フレームのエイリアシングを容易に除去できるようにする。本発明は、2つの符号化モードを有する低遅延スピーチおよびオーディオハイブリッドコーデックにおいて、ACELPモードからのAAC−ELDモードへのシームレスな遷移を実現する。
(第8の実施の形態)
第8の実施の形態において、ACELPモードがAAC−ELDモードに切り替えられる遷移フレームを復号するために、複数のブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
第8の実施の形態の原理は、第7の実施の形態と同じである。デコーダの構成は、第7の実施の形態と異なる。
第8の実施の形態において、AAC−ELDモード、ACELPモード、およびTCXモードの3つの復号モードがある。第8の実施の形態の構成は、第4の実施の形態の構成と同じである。
(効果)
ブロック切替アルゴリズムを有する本実施の形態のデコーダは、AAC−ELDモードのエイリアシングを生成して、AAC−ELDモードによって符号化された後続フレームのエイリアシングを容易に除去できるようにする。本発明は、3つの符号化モードを有する低遅延スピーチおよびオーディオハイブリッドコーデックにおいて、ACELPモードからのAAC−ELDモードへのシームレスな遷移を実現する。
(第9の実施の形態)
第9の実施の形態において、AAC−ELDモードがTCXモードに切り替えられる遷移フレームを符号化するためにブロック切替アルゴリズムを有するスピーチおよびオーディオエンコーダを考案する。
デコーダにおけるAAC−ELDモードに起因する先行フレームのエイリアシングを除去するために、TCXフレームサイズを拡張する。本実施の形態において、ブロック切替アルゴリズムは、対象フレームを先行フレームと連結して、通常のフレームサイズよりも長い拡張フレームを形成する。この拡張フレームは、エンコーダにおいてTCXモードにより符号化される。
エンコーダの構成は、第2の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第2の実施の形態とは異なる。本実施の形態は、AAC−ELDモードがTCXモードに切り替えられる遷移フレームを符号化するためのものである。
図13は、符号化処理を示す。先行フレームはAAC−ELDモードにより符号化される。AAC−ELDモードに起因する先行フレームi−1のエイリアシングを除去するために、対象フレームiを先行フレームi−1と連結して長いフレームを形成する。処理フレームサイズは、2Nであり、Nはフレームサイズである。拡張されたフレームは、図13に示すように、TCXによって符号化される。
TCXモードの窓のサイズはNである。TCXモードにおいて、重複する長さは
Figure 2011158485
である。したがって、拡張フレームは、図13に示されるように、3つのTCX窓を含む。
(効果)
ブロック切替アルゴリズムを有する本実施の形態のエンコーダは、符号化モードがAAC−ELDモードからTCXモードに切り替えられる時、デコーダにおけるエイリアシングを容易に除去できるようにし、3つの符号化モードを有する低遅延のスピーチおよびオーディオハイブリッドコーデックにおいてAAC−ELD符号化技術とTCX符号化技術とをシームレスに組み合わせることができる。
(第10の実施の形態)
第10の実施の形態において、AAC−ELDモードがTCXモードに切り替えられる遷移フレームを復号するために、ブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
本実施の形態において、対象フレームをフレームiと示す。AAC−ELDモードに起因する先行フレームi−1のエイリアシングを除去するために、ブロック切替アルゴリズムは、フレームiのTCX合成信号とフレームi−2の再構成信号とを用いて逆エイリアシング成分を生成する。
デコーダの構成は、第4の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第4の実施の形態とは異なる。図14は、ブロック切替処理を示す。
第9の実施の形態によると、対象遷移フレームは、処理フレームサイズ2Nを用いて、TCXモードにより符号化される。ここで、Nはフレームサイズである。第9の実施の形態におけるエンコーダによると、デコーダにおける合成に、TCX合成を用いる。TCX合成信号は、長さ2Nを有する[ai−1+エイリアシング、bi−1、a、b+エイリアシング]である。図14においてサブフレーム1401として示す非エイリアシング部分のbi−1は、サブフレーム1402のエイリアシング成分を生成するために用いられる。
先行フレームi−1のAAC−ELD合成信号をyi−1で示し、長さは4Nである。背景技術において述べたAAC−ELD逆変換に基づき、yi−1を以下のように示す。
Figure 2011158485
サブフレーム1402として示すAAC−ELDエイリアシング成分−ai−3+(bi−3+ai−1−(bi−1は、TCX合成信号bi−1サブフレーム1401と、サブフレーム1403、1040として示すi−2outi−2=[ai−3、bi−3]の再構成信号とを用いて除去される。遷移フレームが再構成される。
図14におけるエイリアシング除去処理の詳細は、図8の説明と同じである。図23におけるサブフレーム2301は、非エイリアシング部分bi−11401によって置き換えられる。エイリアシング部分であるサブフレーム2302は、図14において1402と置き換えられる。サブフレーム2304および2305として示される非エイリアシング部分は、outi−2=[ai−3、bi−3]により置き換えられ、図14においてサブフレーム1403および1404として示される。遷移フレームiの再構成信号は、[ai−1、bi−1]である。
(効果)
ブロック切替アルゴリズムを有する本実施の形態のデコーダは、AAC−ELDモードに起因するフレームi−1のエイリアシングを除去する。これにより、低遅延のハイブリッドスピーチおよびオーディオコーデックにおいて、AAC−ELDモードからTCXモードへのシームレスな遷移を実現する。
(第11の実施の形態)
第11の実施の形態において、TCXモードがAAC−ELDモードに切り替えられる遷移フレームを符号化するために、ブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドエンコーダを考案する。
対象の遷移フレームは、フレームiと示し、このフレームiがAAC−ELDモードで符号化される。先行フレームは、TCXモードにより符号化されている。AAC−ELD低遅延フィルタバンクに起因するフレームiのエイリアシングを除去するために、ブロック切替アルゴリズムは、対象フレームを先行する3フレームとともにAAC−ELDモードで符号化する。
エンコーダの構成は、第2の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第2の実施の形態とは異なる。
図15は、エンコーダにおいてTCXモードがAAC−ELDモードに切り替えられる遷移フレームに対する符号化処理を示す。第9の実施の形態によると、重複する長さは、TCXモードにおいて
Figure 2011158485
であり、Nはフレームサイズである。通常のTCXモードにより符号化されたフレームに対して、図15に示すように2つのTCX窓が適用される。
図15に示されるように、対象の遷移フレームに対してAAC−ELDモードが直接適用されている。
(効果)
第11の実施の形態におけるエンコーダは、TCXモードがAAC−ELDモードに切り替えられる時にデコーダにおいて行われるエイリアシングの除去を容易にする。本実施の形態におけるブロック切替アルゴリズムは、低遅延のスピーチおよびオーディオハイブリッドコーデックにおけるAAC−ELD符号化技術とTCX符号化技術とのシームレスな組み合わせを実現する。
(第12の実施の形態)
第12の実施の形態において、TCXモードがAAC−ELDモードに切り替えられる遷移フレームを復号するために、ブロック切替アルゴリズムを有するスピーチおよびオーディオハイブリッドデコーダを考案する。
本実施の形態におけるブロック切替アルゴリズムは、TCX合成信号およびフレームi−2の再構成信号を用いてAAC−ELDのエイリアシングを生成し、ブロックを切り替えるために、AAC−ELDのエイリアシングを除去する。
図16は、TCXモードがAAC−ELDモードに切り替えられる遷移フレームに対応する復号処理を示す。第11の実施の形態に記載のエンコーダによると、先行フレームはTCXモードで符号化される。TCX合成後、TCXで合成された信号は、[bi−2+エイリアシング、ai−1、bi−1+エイリアシング]であり、
Figure 2011158485
の長さを有する。ai−1は、図16においてサブフレーム1601と示す。
対象フレームiに対して、逆低遅延フィルタバンクの後、以下に示すように、逆変換信号はyと示され、長さ4Nを有する。
Figure 2011158485
エイリアシング部分である、−(ai−3−bi−3+(ai−1+bi−1は、サブフレーム1602として示され、TCX合成信号ai−1およびサブフレーム1603、1604として示される再構成信号のフレームi−2outi−2=[ai−3、bi−3]により除去されて、遷移フレーム[ai−1、bi−1]の信号を再構成する。
図17は、エイリアシング除去の一例を示す。フレームi−2ai−3の再構成信号が窓処理されて、図17に示すようにai−3が得られる。ai−3の逆ベクトルを、(ai−3と示す。
outi−2の後半が窓処理されて、bi−3が得られる。
TCX合成信号ai−1が窓処理されて、ai−1が得られる。ai−1の逆順は、(ai−1である。
再度生成されたエイリアシング成分bi−1を加算および逆窓処理することにより、サブフレーム1701bi−1が再構成される。対象遷移フレームを得るために、サブフレーム1701が、図17に示すようにサブフレーム1601と連結される。
量子化の誤差により、連結部分の境界は滑らかではない。アーチファクトを除去するために、境界の平滑化に適応したアルゴリズムを考案する。図24は、サブフレーム境界平滑化処理を示す。
サブフレーム1701bi−1は、TCX窓形状により窓処理される。折り畳みおよび展開処理を適用してMDCT−TCXエイリアシング成分を生成する。得られた結果と、元々はMDCT−TCX逆変換に起因するサブフレーム1605のエイリアシング部分とが重ね合わされて、サブフレーム2401が得られる。サブフレーム1601と2401との間の境界は、重複加算処理により滑らかになる。過渡信号[ai−1、bi−1]が再構成される。
(効果)
ブロック切替アルゴリズムを有する本実施の形態のデコーダは、AAC−ELDモードに起因するフレームiのエイリアシングを除去する。これにより、TCXモードからAAC−ELDモードへのシームレスな遷移を実現する。
(第13の実施の形態)
第13の実施の形態において、低遅延のスピーチおよびオーディオハイブリッドコーデックにおいて過渡信号を符号化するための符号化方法を考案する。
AAC−ELDコーデックにおいて、ロングウインドウ形状のみが用いられる。これにより、エネルギーが急激に変化する過渡信号の符号化性能が低下する。過渡信号に対処するには、ショートウインドウが好ましい。本実施の形態では、過渡信号符号化アルゴリズムを考案する。過渡信号を有する対象フレームiが、先行フレームと連結されて、より長いフレームサイズを有する拡張フレームを形成する。複数のショートウインドウおよびMDCTフィルタバンクが、この処理されたフレームの符号化に用いられる。
エンコーダの構成は、第1および第2の実施の形態と同じである。図18は、エンコーダにおける符号化処理を示す。先行するフレームi−1は、先行する3つのフレームとともにAAC−ELDモードによって符号化される。フレームiは、図18に示すように先行フレームと連結される。拡張された長い遷移フレームの長さは、
Figure 2011158485
である。長さ
Figure 2011158485
を有する6つのショートウインドウが、拡張フレームに適用される。ショートウインドウ形状は、MDCTフィルタバンクによって用いられる対称のウィンドウであればどのような形状でもよい。MDCTフィルタバンクは、ショートウインドウ処理された信号に適用される。
(効果)
本実施の形態のエンコーダは、過渡信号処理アルゴリズムを提供し、AAC−ELD符号化技術を用いる低遅延ハイブリッドコーデックの音質を向上させる。
(第14の実施の形態)
第14の実施の形態において、過渡信号を復号するためのスピーチおよびオーディオハイブリッドデコーダを考案する。
第13の実施の形態において説明したように、過渡フレームiは、ショートウインドウMDCTによって符号化される。AAC−ELDモードに起因するフレームi−1のエイリアシングを除去するために、本実施の形態における過渡信号復号方法は、フレームiの逆MDCT変換信号とフレームi−3の再構成信号とを用いてAAC−ELDモードの逆エイリアシングを生成する。
過渡フレームの復号処理を、図19に示す。第13の実施の形態に記載の符号化処理によると、IMDCTおよび重複加算した後、信号1902は、[ai−1+エイリアシング、bi−1、a、b+エイリアシング]となり、長さ
Figure 2011158485
を有する。
MDCTからの非エイリアシング部分bi−1は、図19において1902として示されており、フレームi−1のAAC−ELD逆変換信号yi−11904およびフレームi−3の再構成信号outi−2=[ai−3、bi−3]1905は、信号[ai−1、bi−1]を再構成するために図19のブロック1901に送信される。したがって、フレームiの出力は[ai−1、bi−1]である。
図19におけるブロック1901の処理は、図8と同じである。図23におけるサブフレーム2301は、非エイリアシング部分1902により置き換えられる。図19におけるエイリアシング部分であるサブフレーム2302は、1904によって置き換えられる。サブフレーム2304、2305と示される非エイリアシング部分は、図19の1905と示されるouti−2=[ai−3、bi−3]によって置き換えられる。
(効果)
本実施の形態のデコーダは、過渡信号の符号化性能を向上させるために、過渡信号処理方法を提供する。その結果、AAC−ELD符号化技術を用いる低遅延ハイブリッドコーデックの音質が向上する。
本発明は、ハイブリッドオーディオ符号化システムに関し、具体的には、低ビットレートにおけるオーディオ符号化およびスピーチ符号化に対応するハイブリッド符号化システムに関する。ハイブリッド符号化システムは、変換符号化と時間領域符号化とを組み合わせる。放送システム、携帯テレビ、携帯電話の通信、テレビ会議に用いることができる。
【0019】
[数19]
Figure 2011158485
と示す。ACELP合成信号の長さは、第1の実施の形態において示されている符号化処理に基づき、
[数20]
Figure 2011158485
である。図23においてサブフレーム2301と示されている非エイリアシング部分の一部は、エイリアシング除去のために抽出される。
[0072]
[数21]
Figure 2011158485
[0073]
先行フレームi−1のAAC−ELD逆変換信号は、yi−1と示され、4Nの長さを有する。図23において、サブフレーム2302として示されている1つのエイリアシング部分が抽出され、このエイリアシング部分は背景技術の項目において説明したAAC−ELD逆変換に基づき以下のように表される。
[0074]
[数22]
Figure 2011158485
[0075]
非エイリアシング部分2301(bi−1)と、フレームi−1のエイリアシング部分2302(−ai−3+(bi−3+ai−1−(bi−1)と、フレームi−2[ai−3、bi−3]の再構成信号であるサブフレーム2304、2305とが、遷移フレームの信号を再構成するために用いられる。
[0076]
図8に示されるように、窓wが非エイリアシング部分bi−1に適用されて
【0022】
いて、この遷移フレームは、通常のAAC−ELD低遅延フィルタバンクによって符号化される。先行技術とは異なり、本実施の形態のエンコーダはMDCTフィルタバンクを用いる。本実施の形態の方法の効果は、AAC−ELD符号化と比較して、符号化演算の複雑性を低減させることである。本実施の形態の方法を用いることによって、通常のAAC−ELDモードと比較して、デコーダに送信される変換係数が半分に低減される。そのため、ビットレートが節約される。
[0090]
エンコーダの構成は、第1の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第1の実施の形態と異なる。本実施の形態は、ACELPモードがAAC−ELDモードに切り替えられる遷移フレームを符号化するためのものである。
[0091]
図10は、遷移フレームに対する本実施の形態の符号化方法を示す。対象フレームi[a、b]が、ゼロ埋めによって2Nの長さに拡張され、[a、b、0、0]と示される。このベクトルに窓処理が行われて、ベクトル[a、b、0、0]が得られる。
[0092]
窓処理後、MDCTフィルタバンクを用いて窓処理されたベクトルが変換される。
[0093]
[数23]
Figure 2011158485
[0094]
MDCT変換係数は、DCT−IVでは以下のように表される。
[0、DCT−IV(a−(b)]
[0095]
この結果、N/2の部分の係数がすべて0となるために、N/2の長さを有するDCT−IV(a−(b)のみをデコーダに送信すればよいことになる。AAC−ELD係数の長さは、Nである。したがって、本実施の形態の方法を用いることによって、ビットレートが半分に節約される。
[0096]
(効果)
【0024】
る場合を示す。
[0102]
デコーダの構成は、第3の実施の形態と同じである。本実施の形態におけるブロック切替方法は、第3の実施の形態とは異なる。図9、11、および12は、復号処理の一例を示す。
[0103]
第5の実施の形態によると、受信された低帯域の係数は、この遷移フレームiにおいてMDCT変換係数DCT−IV(a−(b)である。したがって、対応する逆フィルタバンクは、第7の実施の形態においてはIMDCTである。IMDCTのエイリアシングの出力は、長さNを有する[a−(bR’−(a+b]で示され、図9においてサブフレーム901およびサブフレーム902と示される。
[0104]
先行フレームi−1からのACELP合成信号の非エイリアシング部分は、長さNを有する[ai−1、bi−1]で示され、図9においてサブフレーム903およびサブフレーム904と示される。
[0105]
先行する2つのフレームの出力は、[ai−2、bi−2]、(ai−3、bi−3]で示され、図9においてそれぞれ、サブフレーム905、906、907、908と示される。
[0106]
逆AAC−ELDのエイリアシング部分は、上記サブフレームを用いて作成される。この目的は、通常のAAC−ELDモードに戻すことができるように、AAC−ELDモードにより符号化された後続フレームと重複加算するためにエイリアシング成分を作成することである。
[0107]
逆低遅延フィルタバンクに起因するエイリアシング成分を生成する方法の一つを以下に説明する。図11、12は、AAC−ELDのエイリアシング要素を作成する方法の処理の詳細を示す。
[0108]
図11において、フレームi−3の復号信号ai−3が窓処理されて、ai−3が得られる。逆順(ai−3を得るために折り畳みが適用される。
[0109]
フレームi−3の復号信号bi−3の後半が窓処理されてbi−3が得られる。
[0110]
フレームi−1のACELP合成信号ai−1の非エイリアシング部分の前半
【0030】
[数30]
Figure 2011158485
[0138]
サブフレーム1402として示すAAC−ELDエイリアシング成分−ai−3+(bi−3+ai−1−(bi−1は、サブフレーム1401のTCX合成信号bi−1と、サブフレーム1403、1040として示すフレームi−2における再構成信号outi−2=[ai−3、bi−3]とを用いて除去される。遷移フレームが再構成される。
[0139]
図14におけるエイリアシング除去処理の詳細は、図8の説明と同じである。図23におけるサブフレーム2301は、サブフレーム1401の非エイリアシング部分bi−1によって置き換えられる。エイリアシング部分であるサブフレーム2302は、図14において1402と置き換えられる。サブフレーム2304および2305として示される非エイリアシング部分は、outi−2=[a
【0033】
[0151]
[数33]
Figure 2011158485
[0152]
エイリアシング部分である、−(ai−3−bi−3+(ai−1+bi−1は、サブフレーム1602として示され、TCX合成信号ai−1およびサブフレーム1603、1604として示されるフレームi−2における再構成信号outi−2=[ai−3、bi−3]により除去されて、遷移フレーム[ai−1、bi−1]の信号を再構成する。
[0153]
図17は、エイリアシング除去の一例を示す。フレームi−2の再構成信号ai−3が窓処理されて、図17に示すようにai−3が得られる。ai−3の逆ベクトルを、(ai−3と示す。
[0154]
outi−2の後半が窓処理されて、bi−3が得られる。
[0155]
TCX合成信号ai−1が窓処理されて、ai−1が得られる。ai−1
【0034】
逆順は、(ai−1である。
[0156]
再度生成されたエイリアシング成分bi−1を加算および逆窓処理することにより、サブフレーム1701(bi−1)が再構成される。対象遷移フレームを得るために、サブフレーム1701が、図17に示すようにサブフレーム1601と連結される。
[0157]
量子化の誤差により、連結部分の境界は滑らかではない。アーチファクトを除去するために、境界の平滑化に適応したアルゴリズムを考案する。図24は、サブフレーム境界平滑化処理を示す。
[0158]
サブフレーム1701(bi−1)は、TCX窓形状により窓処理される。折り畳みおよび展開処理を適用してMDCT−TCXエイリアシング成分を生成する。得られた結果と、元々はMDCT−TCX逆変換に起因するサブフレーム1605のエイリアシング部分とが重ね合わされて、サブフレーム2401が得られる。サブフレーム1601と2401との間の境界は、重複加算処理により滑らかになる。過渡信号[ai−1、bi−1]が再構成される。
[0159]
(効果)
ブロック切替アルゴリズムを有する本実施の形態のデコーダは、AAC−ELDモードに起因するフレームiのエイリアシングを除去する。これにより、TCXモードからAAC−ELDモードへのシームレスな遷移を実現する。
[0160]
(第13の実施の形態)
第13の実施の形態において、低遅延のスピーチおよびオーディオハイブリッドコーデックにおいて過渡信号を符号化するための符号化方法を考案する。
[0161]
AAC−ELDコーデックにおいて、ロングウインドウ形状のみが用いられる。これにより、エネルギーが急激に変化する過渡信号の符号化性能が低下する。過渡信号に対処するには、ショートウインドウが好ましい。本実施の形態では、過渡信号符号化アルゴリズムを考案する。過渡信号を有する対象フレームiが、先行フレームと連結されて、より長いフレームサイズを有

Claims (18)

  1. 線形予測係数を用いたスピーチ符号化モードと低遅延直交変換を用いたオーディオ符号化モードとを切り替えながら符号化ストリームを復号するオーディオハイブリッド復号装置であって、
    前記オーディオ符号化モードにおいて、逆低遅延フィルタバンクを用いて前記符号化信号を復号することによって、合成信号を生成する低遅延変換復号部と、
    前記スピーチ符号化モードにおいて、前記線形予測係数を含む前記符号化信号を復号することによって、音声合成信号を生成する音声復号部と、
    前記低遅延直交変換を用いたオーディオ符号化モードから前記線形予測係数を用いた前記スピーチ符号化モードに切替られたフレームである第1の遷移フレームを、復号対象フレームに先行する先行フレームの信号を用いて復号し、復号された前記第1の遷移フレームの信号と、前記音声復号部によって生成された前記復号対象フレームの前記音声合成信号とを組み合わせることによって、前記入力信号の時間領域信号を再構成するブロック切替部と
    を備えるオーディオハイブリッド復号装置。
  2. 前記ブロック切替部は、前記復号対象フレームの前記音声合成信号、複数の前記逆低遅延フィルタバンクからの先行フレームの逆変換信号、および前記先行フレームの再構成信号を用いて、前記第1の遷移フレームを復号する
    請求項1記載のオーディオハイブリッド復号装置。
  3. 前記音声復号部は、前記線形予測係数と代数符号励振係数を復号することにより音声合成信号を生成する代数符号励振線形予測復号部を備え、
    前記ブロック切替部は、前記第1の遷移フレームが、前記低遅延直交変換を用いた前記オーディオ符号化モードから、前記代数符号励振線形予測係数を用いた前記スピーチ符号化モードに切替られたフレームである場合、前記復号対象フレームの代数符号励振線形予測合成信号、前記複数の逆低遅延フィルタバンクからの先行フレームの逆変換信号、および前記先行フレームの再構成信号を用いて、前記第1の遷移フレームを復号する
    請求項2記載のオーディオハイブリッド復号装置。
  4. 前記音声復号部は、さらに、前記線形予測係数を復号して、励振合成信号を直交変換処理によって生成する変換符号化励振復号部を備え、
    前記ブロック切替部は、前記第1の遷移フレームが、前記低遅延直交変換を用いた前記オーディオ符号化モードから、前記変換符号化励振復号処理を行うスピーチ符号化モードに切替られたフレームである場合、前記復号化対象フレームの変換符号化励振合成信号と、前記逆低遅延フィルタバンクからの先行フレームの逆変換信号と、前記先行フレームの再構成信号とを用いて、前記第1の遷移フレームを復号する
    請求項3記載のオーディオハイブリッド復号装置。
  5. 前記ブロック切替部は、前記スピーチ符号化モードが前記代数符号励振線形予測係数を用いた前記スピーチ符号化モードである場合、逆修正離散コサイン変換フィルタバンクからの前記複数の復号対象フレームの逆変換信号と、先行フレームの代数符号励振線形予測合成信号と、前記先行フレームの再構成信号とを用いることにより、前記スピーチ符号化モードから前記オーディオ符号化モードに切替られたフレームである第2の遷移フレームを復号する
    請求項3記載のオーディオハイブリッド復号装置。
  6. 前記スピーチ符号化モードが前記変換符号化励振係数を用いた前記スピーチ符号化モードである場合、前記ブロック切替部は、前記逆低遅延フィルタバンクからの複数の対象フレームの逆変換信号と、先行フレームの変換符号化励振合成信号と、前記先行フレームの再構成信号とを用いることにより、前記スピーチ符号化モードから前記オーディオ符号化モードに切替られたフレームである第2の遷移フレームを復号する
    請求項4記載のオーディオハイブリッド復号装置。
  7. 前記低遅延変換復号部は、復号対象フレームを、前記逆低遅延フィルタバンクの代わりに複数の修正離散コサイン変換フィルタバンクを用いた前記オーディオ符号化モードで復号する
    請求項1記載のオーディオハイブリッド復号装置。
  8. 前記低遅延変換復号部は、ショートウインドウ処理された前記拡張フレームに対して逆修正離散コサイン変換フィルタバンクを適用し、前記逆修正離散コサイン変換フィルタバンクからの複数の復号対象フレームの逆変換信号と、前記拡張フレームに含まれる先行フレームの逆変換信号と、前記先行フレームの再構成信号とを用いることにより、前記拡張フレームにおける時間信号を復号する
    請求項7記載のオーディオハイブリッド復号装置。
  9. 線形予測係数を用いたスピーチ符号化モードと低遅延直交変換を用いたオーディオ符号化モードとを切り替ながら入力信号を符号化するオーディオハイブリッド符号化装置であって、
    前記入力信号の特徴に応じて前記入力信号を分類し、前記分類結果に応じて、前記入力信号を符号化する符号化モードとして、前記スピーチ符号化モードと前記オーディオ符号化モードとを切替える信号分類部と、
    前記オーディオ符号化モードにおいて、低遅延フィルタバンクを用いて複数の符号化対象フレームの前記入力信号を符号化し、符号化された低遅延直交変換を用いて符号化信号を生成する低遅延変換符号化部と、
    前記スピーチ符号化モードにおいて、符号化対象フレームの前記入力信号の複数の線形予測係数を算出することにより、複数の前記線形予測係数を含む符号化信号を生成する線形予測符号化部と、
    前記信号分類部が、前記符号化モードを、前記低遅延直交変換を用いた前記オーディオ符号化モードから前記線形予測係数を用いた前記スピーチ符号化モードに切替えたフレームであり、前記符号化対象フレームに先行する先行フレームである第1の遷移フレームと、前記符号化対象フレームとを連結して拡張フレームを形成し、形成された前記拡張フレームを符号化するブロック切替部と
    を備えるオーディオハイブリッド符号化装置。
  10. 前記線形予測符号化部は、
    複数の前記線形予測係数の残差を、修正離散コサイン変換フィルタバンクを用いて符号化し、複数の変換符号化励振係数と前記複数の線形予測係数を含む符号化信号を生成する変換符号化励振符号化部と、
    複数の前記線形予測係数と、複数の代数符号励振係数を含む符号化信号を生成する代数符号励振線形予測符号化部と
    を備える請求項9記載のオーディオハイブリッド符号化装置。
  11. 前記ブロック切替部は、修正離散コサイン変換フィルタバンクを用いて複数の前記拡張フレームを変換することにより、前記スピーチ符号化モードから前記オーディオ符号化モードに切り替えられたフレームである第2の遷移フレームを符号化する
    請求項9記載のオーディオハイブリッド符号化装置。
  12. 前記ブロック切替部は、符号化対象フレームと前記符号化対象フレームに先行する先行フレームとを連結して拡張フレームを形成し、前記拡張フレームをショートウインドウ処理した後、修正離散コサイン変換フィルタバンクによる変換処理を用いて符号化する
    請求項9記載のオーディオハイブリッド符号化装置。
  13. 請求項3または請求項4記載のオーディオハイブリッド復号装置に備えられる前記ブロック切替部であって、
    a.ウィンドウ処理および順序付けを行うことにより前記復号対象フレームの代数符号励振線形予測合成信号または前記変換符号化励振合成信号を処理して第1の信号を取得する処理部と、
    b.ウィンドウ処理および順序付けを行うことにより前記先行フレームの再構成信号を処理して第2の信号を取得する処理部と、
    c.前記第1の信号と前記第2の信号とを逆低遅延フィルタバンクからの複数の前記先行フレームの逆変換信号に加算して第3の信号を取得する処理部と、
    d.ウィンドウ処理および順序付けを行うことにより前記第3の信号を処理して第4の信号を取得する処理部と、
    e.前記第4の信号と前記対象フレームの前記代数符号励振線形予測合成信号または前記変換符号化励振合成信号とを連結させて再構成された信号を取得する処理部と
    を備えるブロック切替部。
  14. 請求項7または請求項8記載のオーディオハイブリッド復号装置に備えられる前記ブロック切替部であって、
    a.復号対象フレームから3フレーム前の再構成信号を、ウィンドウ処理および順序付けを行うことにより処理して第1の信号を取得する処理部と、
    b.ウィンドウ処理および順序付けを行うことにより先行フレームの代数符号励振線形予測合成信号または変換符号化励振合成信号を処理して第2の信号を取得する処理部と、
    c.前記第1の信号と前記第2の信号とを加算して第3の信号を取得する処理部と、
    d.前記第3の信号をウィンドウ処理および順序付けを行うことにより前記復号対象フレームの逆低遅延直交変換信号の一部を取得する処理部と
    を備えるブロック切替部。
  15. 請求項7または請求項8記載のオーディオハイブリッド復号装置に備えられる前記ブロック切替部であって、
    a.復号対象フレームから2フレーム前の再構成信号をウィンドウ処理および順序付けを行うことにより処理して第1の信号を取得する処理部と、
    b.前記第1の信号と前記再構成信号とを、前記復号対象フレームの前記逆低遅延フィルタバンクからの複数の逆変換信号に加算して第3の信号を取得する処理部と、
    c.前記第3の信号を、ウィンドウ処理および順序付けを行うことにより前記復号対象ブロックの逆低遅延変換信号の一部を得る処理部と
    を備えるブロック切替部。
  16. 請求項4記載のオーディオハイブリッド復号装置に備えられる前記ブロック切替部であって、
    a.ウィンドウ処理および順序付けを行うことにより復号対象フレームの変換符号化励振合成信号を処理して第1の信号を取得する処理部と、
    b.先行フレームの再構成信号をウィンドウ処理および順序付けを行うことにより第2の信号を取得する処理部と、
    c.前記第1の信号と前記第2の信号とを、逆低遅延フィルタバンクからの前記複数の先行フレームの逆変換信号に加算して、第3の信号を取得する処理部と、
    d.ウィンドウ処理および順序付けを行うことにより前記第3の信号を処理して第4の信号を取得する処理部と、
    e.前記第4の信号と前記復号対象フレームの前記変換符号化励振合成信号とを連結させて再構成された信号を取得する処理部と
    を備えるブロック切替部。
  17. 請求項6記載のオーディオハイブリッド復号装置に備えられる前記ブロック切替部であって、
    a.ウィンドウ処理および順序付けにより先行フレームの前記変換符号化励振合成信号を処理して、第1の信号を取得する処理部と、
    b.ウィンドウ処理および順序付けを行うことにより先行フレームの前記再構成信号を処理して、第2の信号を取得する処理部と、
    c.前記第1の信号と前記第2の信号とを、逆低遅延フィルタバンクからの複数の復号対象フレームの逆変換信号に加算して第3の信号を取得する処理部と、
    d.ウィンドウ処理および順序付けを行うことにより前記第3の信号を処理して第4の信号を取得する処理部と、
    e.前記第4の信号と前記先行フレームの前記変換符号化励振合成信号とを連結させて再構成された信号を取得する処理部と
    を備えるブロック切替部。
  18. 請求項8記載のオーディオハイブリッド復号装置に備えられる前記ブロック切替部であって、
    a.前記複数の復号対象フレームの逆修正離散コサイン変換フィルタバンクからの再構成信号を、ウィンドウ処理および順序付けを行うことにより第1の信号を取得する処理部と、
    b.前記先行フレームの再構成信号をウィンドウ処理および順序付けを行うことにより、第2の信号を取得する処理部と、
    c.前記第1の信号と前記第2の信号とを逆低遅延フィルタバンクからの複数の先行フレームの逆変換信号に加算して、第3の信号を取得する処理部と、
    d.ウィンドウ処理および順序付けにより前記第3の信号を処理して第4の信号を取得する処理部と、
    e.前記第4の信号と前記複数の復号対象フレームの前記逆修正離散コサイン変換フィルタバンクからの前記再構成信号とを連結させて、再構成された信号を取得する処理部と
    を備えるブロック切替部。
JP2012520286A 2010-06-14 2011-06-14 復号装置 Active JP5882895B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012520286A JP5882895B2 (ja) 2010-06-14 2011-06-14 復号装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010134848 2010-06-14
JP2010134848 2010-06-14
PCT/JP2011/003352 WO2011158485A2 (ja) 2010-06-14 2011-06-14 オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置
JP2012520286A JP5882895B2 (ja) 2010-06-14 2011-06-14 復号装置

Publications (2)

Publication Number Publication Date
JPWO2011158485A1 true JPWO2011158485A1 (ja) 2013-08-19
JP5882895B2 JP5882895B2 (ja) 2016-03-09

Family

ID=45348685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012520286A Active JP5882895B2 (ja) 2010-06-14 2011-06-14 復号装置

Country Status (6)

Country Link
US (1) US9275650B2 (ja)
EP (1) EP2581902A4 (ja)
JP (1) JP5882895B2 (ja)
KR (1) KR101790373B1 (ja)
CN (1) CN102934161B (ja)
WO (1) WO2011158485A2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2730355C (en) * 2008-07-11 2016-03-22 Guillaume Fuchs Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
BR122021002034B1 (pt) * 2010-07-08 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador que utiliza cancelamento de serrilhado futuro
CN103477388A (zh) * 2011-10-28 2013-12-25 松下电器产业株式会社 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法
WO2013168414A1 (ja) * 2012-05-11 2013-11-14 パナソニック株式会社 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
BR112015025022B1 (pt) 2013-04-05 2022-03-29 Dolby International Ab Método de decodificação, decodificador em um sistema de processamento de áudio, método de codificação, e codificador em um sistema de processamento de áudio
CN114566182A (zh) 2013-04-05 2022-05-31 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
EP2863386A1 (en) 2013-10-18 2015-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
CN107452391B (zh) * 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
US10499229B2 (en) * 2016-01-24 2019-12-03 Qualcomm Incorporated Enhanced fallback to in-band mode for emergency calling

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007538283A (ja) * 2004-05-19 2007-12-27 ノキア コーポレイション オーディオ用コーダ・モード切り替え支援
WO2010040522A2 (en) * 2008-10-08 2010-04-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Multi-resolution switched audio encoding/decoding scheme

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
EP1618763B1 (en) 2003-04-17 2007-02-28 Koninklijke Philips Electronics N.V. Audio signal synthesis
BRPI0409327B1 (pt) 2003-04-17 2018-02-14 Koninklijke Philips N.V. Dispositivo para gerar um sinal de áudio de saída com base em um sinal de aúdio de entrada, método para prover um sinal de áudio de saída com base em um sinal de áudio de entrada e aparelho para fornecer um sinal de áudio de saída
US20060294312A1 (en) 2004-05-27 2006-12-28 Silverbrook Research Pty Ltd Generation sequences
EP1841072B1 (de) 2006-03-30 2016-06-01 Unify GmbH & Co. KG Verfahren und Einrichtung zum Dekodieren von schichtkodierten Daten
CN101231850B (zh) * 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
KR101490246B1 (ko) * 2007-07-02 2015-02-05 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
KR101405971B1 (ko) * 2007-07-02 2014-06-12 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
US8392179B2 (en) * 2008-03-14 2013-03-05 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
ES2650492T3 (es) * 2008-07-10 2018-01-18 Voiceage Corporation Dispositivo y método de cuantificación de filtro LPC de múltiples referencias
CA2730355C (en) 2008-07-11 2016-03-22 Guillaume Fuchs Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
KR101227729B1 (ko) 2008-07-11 2013-01-29 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더
JP5551695B2 (ja) 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MX2011000375A (es) 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
WO2011013980A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN101661749A (zh) 2009-09-23 2010-03-03 清华大学 一种语音和音乐双模切换编/解码的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007538283A (ja) * 2004-05-19 2007-12-27 ノキア コーポレイション オーディオ用コーダ・モード切り替え支援
WO2010040522A2 (en) * 2008-10-08 2010-04-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Multi-resolution switched audio encoding/decoding scheme

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUILLAUME FUCHS, ET AL.: "MDCT-Based Coder for Highly Adaptive Speech and Audio Coding", PROC. 17TH EUROPEAN SIGNAL PROCESSING CONFERENECE, JPN6015015713, 24 August 2009 (2009-08-24), GB, pages 1264 - 1268, ISSN: 0003057196 *
RAVI K. CHIVUKULA, ET AL.: "Efficient Algorithms for MPEG-4 AAC-ELD, AAC-LD and AAC-LC Filterbanks", PROC. INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING, 2008, JPN6015015714, 7 July 2008 (2008-07-07), CN, pages 1629 - 1634, XP031298601, ISSN: 0003057197 *

Also Published As

Publication number Publication date
JP5882895B2 (ja) 2016-03-09
WO2011158485A2 (ja) 2011-12-22
KR20130028751A (ko) 2013-03-19
US20130090929A1 (en) 2013-04-11
CN102934161B (zh) 2015-08-26
CN102934161A (zh) 2013-02-13
EP2581902A1 (en) 2013-04-17
US9275650B2 (en) 2016-03-01
EP2581902A4 (en) 2015-04-08
KR101790373B1 (ko) 2017-10-25

Similar Documents

Publication Publication Date Title
JP5882895B2 (ja) 復号装置
KR101508819B1 (ko) 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
JP5171842B2 (ja) 時間領域データストリームを表している符号化および復号化のための符号器、復号器およびその方法
KR101699898B1 (ko) 스펙트럼 영역에서 디코딩된 오디오 신호를 처리하기 위한 방법 및 장치
JP5722040B2 (ja) スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術
US8959015B2 (en) Apparatus for encoding and decoding of integrated speech and audio
WO2013061584A1 (ja) 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
KR101869395B1 (ko) 예측 인코딩 및 변환 인코딩 사이에서 교번하는 낮은―지연 사운드―인코딩
TWI479478B (zh) 用以使用對齊的預看部分將音訊信號解碼的裝置與方法
TW201009815A (en) Audio encoder and decoder for encoding frames of sampled audio signals
JP5404412B2 (ja) 符号化装置、復号装置およびこれらの方法
JP2010020346A (ja) 音声信号および音楽信号を符号化する方法
KR20110055545A (ko) 오디오 샘플 인코드 및 디코드용 오디오 인코더 및 디코더
US9984696B2 (en) Transition from a transform coding/decoding to a predictive coding/decoding
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
US8112271B2 (en) Audio encoding device and audio encoding method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160204

R151 Written notification of patent or utility model registration

Ref document number: 5882895

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151