JP6126006B2 - 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法 - Google Patents

音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法 Download PDF

Info

Publication number
JP6126006B2
JP6126006B2 JP2013537355A JP2013537355A JP6126006B2 JP 6126006 B2 JP6126006 B2 JP 6126006B2 JP 2013537355 A JP2013537355 A JP 2013537355A JP 2013537355 A JP2013537355 A JP 2013537355A JP 6126006 B2 JP6126006 B2 JP 6126006B2
Authority
JP
Japan
Prior art keywords
signal
frame
lfd
decoder
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013537355A
Other languages
English (en)
Other versions
JPWO2013168414A1 (ja
Inventor
セン チョン コク
セン チョン コク
則松 武志
武志 則松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2013168414A1 publication Critical patent/JPWO2013168414A1/ja
Application granted granted Critical
Publication of JP6126006B2 publication Critical patent/JP6126006B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、コーデックを切替可能な音信号ハイブリッドエンコーダ及び音信号ハイブリッドデコーダに関する。
ハイブリッドコーデックは、オーディオコーデックとスピーチコーデックとの利点を組み合わせたコーデックである。ハイブリッドコーデックによれば、スピーチ信号(音声信号)主体のコンテンツとオーディオ信号(音響信号)主体のコンテンツが混合した音信号を、オーディオコーデックとスピーチコーデックとを切替えることによりそれぞれに適した符号化方法により符号化することができる。したがって、ハイブリッドコーデックによれば、低ビットレートで安定した音信号の圧縮符号化が実現される。
また、ハイブリッドコーデックでは、コーデックの切替部分において生じるエイリアシングを抑制するために、符号化側でAC(Aliasing Cancel)信号を生成する方法が知られている。
Carot, Alexander et al.: "Networked Music Performance: State of the Art", AES 30th International Conference (15−17 March 2007). Schuller, Gerald et al.: "New Framework for Modulated Perfect Reconstruction Filter Banks", IEEE Transaction on Signal Processing, Vol. 44, pp. 1941−1954 (August 1996). Schnell, Markus, et al.: "MPEG−4 Enhanced Low Delay AAC − a new standard for high quality communication", AES 125th Convention (2−5 October 2008). Valin, Jean−Marc, et al.: "A Full−bandwidth Audio Codec with Low Complexity and Very Low Delay".
ハイブリッドコーデックは、スピーチ信号とオーディオ信号が混在するようなコンテンツに対して効率よく符号化できる。このため、ハイブリッドコーデックは、オーディオブック、放送システム、携帯型メディアデバイス、携帯通信端末(たとえば、スマートフォン、タブレット型コンピュータ)、テレビ会議装置およびネットワーク上の音楽演奏などのさまざまなアプリケーションに適用可能である。
ところが、ハイブリッドコーデックが、特にテレビ会議装置やネットワーク上の音楽演奏など、リアルタイム通信性能が重要なアプリケーションに対して適用される際には、符号化および復号処理時に生じるアルゴリズム遅延が大きな課題となる。
このようなアルゴリズム遅延を低減するために、例えば、フレームのサイズ(サンプル数)を小さくすることが考えられる。
しかしながら、フレームのサイズを小さくした場合、フレームの切り替え頻度が相対的に大きくなり、おのずとAC信号の発生頻度も大きくなる。低ビットレートで高品質かつ低遅延なハイブリッドコーデックを実現するには、AC信号の符号量はなるべく抑制されることが望ましい。つまり、効率的にAC信号を生成することが課題となる。
そこで、本発明は、効率的にAC信号を生成することができる音信号ハイブリッドエンコーダ等を提供する。
本発明の一態様に係る音信号ハイブリッドエンコーダは、音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析部と、前記フレームをLFD(Lapped Frequency Domain)変換することによって当該フレームを符号化したLFDフレームを生成するLFDエンコーダと、前記フレームの線形予測係数を算出することによって当該フレームを符号化したLP(Linear Prediction)フレームを生成するLPエンコーダと、前記信号解析部の判断結果に応じて、前記フレームを前記LFDエンコーダによって符号化するか、前記LPエンコーダによって符号化するかの切替を行う切替部と、前記切替部の切替制御によって前記LPフレームと連続する前記LFDフレームであるAC(Aliasing Cancel)対象フレームの少なくとも一部を復号した信号と、前記AC対象フレームに連続する前記LPフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコーダと、前記AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するAC信号生成部とを備え、前記AC信号生成部は、前記AC対象フレームが前記LPフレームの直後に連続する場合、または前記AC対象フレームが前記LPフレームの直前に連続するフレームである場合において、(1)複数の方式の中から選択した1つの方式にしたがって、前記AC信号を生成して出力し、かつ、(2)前記選択した1つの方式を示すACフラグを出力する。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
本発明の音信号ハイブリッドエンコーダは、効率的にAC信号を生成することができる。
図1は、MDCTを用いた符号化・復号における部分的オーバーラップによるエイリアシングの除去を説明するための図である。 図2は、LP符号化から変換符号化への切り替えにおいて用いられるAC信号の生成方法を示す図である。 図3は、変換符号化からLP符号化への切り替えにおいて用いられるAC信号の生成方法を示す図である。 図4は、実施の形態1に係る音信号ハイブリッドエンコーダの構成を示すブロック図である。 図5は、オーバーラップが小さい窓の形状を示す図である。 図6は、AC信号生成部の構成の一例を示すブロック図である。 図7は、AC信号生成部の動作の一例を示すフローチャートである。 図8は、LP符号化から変換符号化への切り替えにおいて用いられる、AC信号生成の第2の方式を示す図である。 図9は、変換符号化からLP符号化への切り替えにおいて用いられる、AC信号生成の第2の方式を示す図である。 図10は、実施の形態2に係る音信号ハイブリッドデコーダの構成を示すブロック図である。 図11は、AC出力信号生成部の構成の一例を示すブロック図である。 図12は、AC出力信号生成部の動作の一例を示すフローチャートである。
(本発明の基礎となった知見)
従来の音声圧縮技術は、大きく分類すれば、オーディオコーデックとスピーチコーデックとの2つに分けられる。
まず、オーディオコーデックについて説明する。
オーディオコーデックは、局所スペクトルコンテンツ(音色信号、高調波信号など)を含む定常信号を符号化するのに適している。オーディオコーデックでは、符号化は主に信号を周波数領域に変換することによって行われる。
具体的には、オーディオコーデックのエンコーダでは、修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)などの時間−周波数領域変換を用いて、入力信号を周波数(スペクトル)領域に変換する。MDCTの場合、符号化されるフレームは、当該フレームと時間的に連続する(隣接する)フレームと時間的に重なる部分(部分的オーバーラップ)を有し、符号化されるフレームのそれぞれは、窓処理される。上記部分的オーバーラップは、復号側で、フレームの境界を平滑化するためにある。
また、窓処理は、より高解像度のスペクトルを生成するとともに、上記平滑化のため符号化されたフレームの境界をぼかすという2つの目的を兼ね備えている。また、上記部分的オーバーラップにより生じる標本化効果を補償するために、MDCTは、時間領域サンプルを符号化用に数を減らしたスペクトル係数に変換する。MDCTのような時間−周波数領域変換は、エイリアシング成分が生じるが、上記部分的オーバーラップにより、復号側でエイリアシング成分は除去される。
オーディオコーデックの主要な利点の1つは、心理音響モデルを容易に用いることができることである。例えば、より多くのビット数を知覚「マスカー」に、より少ないビット数を人間の耳が感知することができない知覚「マスキー」に割り当てることができる。オーディオコーデックでは、心理音響モデルを利用することにより、符号化効率と音質が大幅に向上する。MPEGのアドバンスド・オーディオ・コーディング(AAC)は、純粋なオーディオコーデックの良い一例である。
次に、スピーチコーデックについて説明する。
スピーチコーデックは、声道のピッチ特性を利用するモデルに基づく方法であり、人間の発話を符号化するのに適している。スピーチコーデックのエンコーダでは、人間の発話のスペクトル包絡線を得るため、線形予測(LP:Linear Prediction)フィルタを用い、入力信号のLPフィルタの係数を符号化する。
次に、LPフィルタが入力信号を逆フィルタリングして(スペクトル的に分割して)、スペクトルがフラットな音源信号を生成する。ここでの音源信号は、通常、「符号語」を有する音源信号を表し、ベクトル量子化(VQ:Vector Quantization)法を用いて、まばらに符号化される。
なお、線形予測フィルタとは別に、音声の長期的な周期性を捉えるために、長期予測器(LTP:Long Term Predictor)が組み込まれてもよい。また、線形予測フィルタの前に、白色化フィルタを信号に適用することにより、心理音響的な側面を考慮した符号化が可能となる。
音源信号のまばらな符号化により、低ビットレートで優れた音質が実現される。しかしながら、このような符号化方式では、音楽のようなコンテンツの複素スペクトルを正確に捉えることはできず、音楽のようなコンテンツを高音質で再現することはできない。ITU.T(国際電気通信連合 電気通信標準化部門)の適応型マルチレート広帯域(AMR−WB)は、純粋なスピーチコーデックの良い一例である。
また、第3のコーデックとして、「変換符号化励振」(TCX:Transform Coded Excitation)と称される符号化方法がある。TCXは、LP符号化と変換符号化を組み合わせたような方法である。まず、入力信号の線形予測フィルタから導出された知覚フィルタで、入力信号が知覚的に重み付けされる。次に、重み付けされた入力信号は、スペクトル領域に変換され、スペクトル係数は、VQ法で符号化される。TCXは、ITU.Tの拡張適応型マルチレート広帯域(AMR−WB+)コーデックに見られる。(AMR−WB+)において用いられる周波数変換は、離散フーリエ変換(DFT:Discrete Fourier Transform)である。
ここで、さらなる低ビットレートの符号化を実現するために、低ビットレートツールを追加することにより、上記の主要な符号化方法を補足することもできる。2つの主要な低ビットレートツールは、帯域幅拡張ツールと多チャンネル拡張ツールである。
帯域幅拡張(BWE:Band Width Extension)ツールは、入力信号の低周波部分と高周波部分との高調波関係を利用して、入力信号の高周波部分をパラメータ的に符号化する。これらの帯域幅拡張パラメータは、例えば、サブバンドエネルギー及びTNR(Tone To Noise Ratio)などである。
デコーダは、入力信号をパッチするか引き伸ばすかにより、入力信号の低周波部分を拡張することで、基本高周波信号を形成する。次に、デコーダは、帯域幅拡張パラメータを用いて、スペクトル的に拡張された信号の振幅を形づくる。つまり、帯域幅拡張パラメータは、人工的に生成された対応物でノイズフロアとトーン(音色)とを補償する。
結果としてデコーダから出力される出力信号の波形は、元の入力信号の波形と類似していないが、元の入力信号と知覚的には似ている。MPEGの高効率AAC(HE−AAC)は、スペクトル帯域複製(SBR:Spectral Band Replication)というコード名の、このような帯域幅拡張ツールを含むコーデックである。SBRでは、直交ミラーフィルタバンク(QMF:Quadrature Mirror Filterbank)で生成されたハイブリッド領域(時間及び周波数領域)において、パラメータ計算が実行される。
多チャンネル拡張ツールは、多チャンネルを符号化用のチャンネルサブセットにダウンミックスする。多チャンネル拡張ツールは、個々のチャンネル間の関係をパラメータ的に符号化する。これらの多チャンネル拡張パラメータは、例えば、チャンネル間のレベル差、チャンネル間の時間差、及びチャンネル間の相関などである。
デコーダは、復号されたダウンミックス済チャンネルの信号と人工的に生成された「非相関」信号とを混ぜることにより、個々のチャンネルの信号を合成する。このとき、上述のパラメータに基づいて、ダウンミックス済チャンネルの信号と、非相関信号とのミキシングウェイトを算出する。
結果としてデコーダから出力される出力信号の波形は、元の入力信号の波形と類似していないが、元の入力信号と知覚的には似ている。MPEGサラウンド(MPS:MPEG Surround)は、このような多チャンネル拡張ツールの良い例である。SBRと同様に、QMF領域では、MPSパラメータも算出される。多チャンネル拡張ツールは、ステレオ拡張としても知られている。
ところで、高解像度(HD)時代に入り、通信装置は、マルチメディア、娯楽及び通信などのユーザのニーズに対応する汎用装置に変わりつつある。この結果、音声主体の信号(音声信号)と、音響主体の信号(音響信号)との両方を処理できる統合コーデックに対する需要が高まっている。
最近では、MPEGにより、統合音声音響符号化方式(USAC:Unified Speech And Audio Codec)が規格化されている。USACは、広範囲のビットレートの入力信号(音声信号及び音響信号)に対し、音声信号及び音響信号の符号化を処理できる低ビットレートのコーデックである。
具体的には、USACでは、入力信号の特性に応じて、上記のツール(AAC方式に類似の方式(以下AACとする)、LP、TCX、帯域拡大ツール(以下、SBRとする)、及びチャンネル拡大ツール(以下、MPSとする))すべての中から最適なツールが選択され、組み合わせて使用される。
USACのエンコーダは、MPSツールを用いてステレオ信号をモノラル信号にダウンミックスし、SBRツールを用いて全帯域のモノラル信号を狭帯域のモノラル信号に縮小する。さらに、USACのエンコーダは、狭帯域のモノラル信号を符号化するため、信号分類部を用いて信号フレームの特性を分析し、コアコーデック(AAC、LP、TCX)のうちいずれを用いて符号化すべきかを決定する。ここで、USACでは、コーデックの切り替えによりフレーム間に生じるエイリアシングを除去することが重要である。
上述の通り、フレームの境界を平滑化し、エイリアシングを除去するため、MDCTは、連続するフレームを連結し、変換を行う前に、連結した信号を窓処理する。これは、図1に示される。
図1は、MDCTを用いた符号化・復号における部分的オーバーラップによるエイリアシングの除去を説明するための図である。
図1では、aとbとは、フレーム1を2等分した場合の前半及び後半をそれぞれ示す。cとdとは、フレーム2を2等分した場合の前半及び後半をそれぞれ示す。eとfとは、フレーム3を2等分した場合の前半及び後半をそれぞれ示す。
ここで、1セット目のMDCT変換は、フレーム1と2とを結合した信号(a、b、c、d)に対して行われる。2セット目のMDCT変換は、フレーム2と3とを結合した信号(c、d、e、f)に対して行われる。cとdとは部分的オーバーラップ(オーバーラップ領域)である。
MDCTでは、まず、結合した信号に窓
Figure 0006126006
を適用する。なお、以下の式(1)は、1セット目のMDCTの場合であり、式(2)は、2セット目のMDCTの場合を示す。
Figure 0006126006
Figure 0006126006
デコーダにおいて確実に相補加算とエイリアシング除去を行うため、窓は、以下の式(3)の特徴を有する。
Figure 0006126006
ここで、下付き文字の「R」は、時間の逆転/反転を示す。このような関係は、具体的には、例えば、正弦関数の前半のサイクルに見られる。
デコーダでは、復号MDCT係数に逆修正離散コサイン変換(IMDCT:Inverse Modified Discrete Cosine Transform)を施す。1セット目のMDCTに対するIMDCT後の信号は、以下の式(4)に示される。
Figure 0006126006
式(4)に示される信号と、式(1)に示される原信号とを比較した場合、IMDCTにより、以下の式(5)に示されるようなエイリアシング成分が生じている。
Figure 0006126006
同様に、2セット目のMDCTに対するIMDCT後の信号は、以下の式(6)に示される。
Figure 0006126006
IMDCT後の信号である式(4)と式(6)とに、窓
Figure 0006126006
を掛けると、それぞれ以下の式(7)、式(8)のようになる。
Figure 0006126006
及び
Figure 0006126006
ここで、式(3)に示される窓特性を考慮して、式(7)の最後の2項を式(8)の最初の2項に加えることで、原信号であるcとdとが得られる。すなわち、エイリアシング成分が消去される。
なお、アルゴリズム遅延の観点から見れば、MDCTに基づく符号化においてフレームサイズが、サンプル数Nである場合、MDCT用にフルフレームを用意するためにサンプル数Nの時間が必要である。つまり、Nのフレーミング遅延が生じる。さらに、これとは別に、サンプル数Nの固有のMDCT遅延(フィルタ遅延)が生じる。したがって、総遅延は、サンプル数2Nである。
一方で、LP符号化の場合、フレームは、重なることなく順次符号化される。したがって、USACのように、LP符号化から変換符号化(LFD符号化とも記載する。例えば、MDCTを用いた符号化方式やTCXなどである。)に切り替えるか、またはその逆へ切り替える場合には、切り替えの境界におけるエイリアシングを除去する解決策が必要である。
MPEGのUSACでは、フォワード・エイリアシング除去(FAC:Forward Aliasing Cancel)ツールを用いて、エイリアシングを除去することができる。
図2は、FACツールの原理を示す図である。
図2では、aとbとはフレーム1を2等分した場合の前半及び後半をそれぞれ示す。cとdとは、フレーム2を2等分した場合の前半及び後半をそれぞれ示す。eとfとは、フレーム3を2等分した場合の前半及び後半をそれぞれ示す。フレーム1の前半及びフレーム2の後半(つまり、bとc)には、LP符号化が行われる。フレーム2において符号化方式がLP符号化から変換符号化に切り替わり、フレーム2とフレーム3とに対しては、変換符号化が行われる。
サブフレームcは、LP符号化されるサブフレームであるため、デコーダは、符号化されたサブフレームcのみを用いて、サブフレームcを完全に復号することができる。しかしながら、サブフレームdは、変換符号化(MDCTまたはTCX)により符号化されるため、デコーダがサブフレームdをそのまま復号した場合、復号後の信号には、エイリアシング成分が含まれる。このようなエイリアシング成分の除去を行うため、エンコーダは、以下の第1〜第3の信号を生成する。
式(9)に示されるように、エンコーダは、まず、ローカルデコーダを用いて、逆MDCTし、窓処理した第1の信号xを生成する。ここで、d’とc’とはそれぞれ、dとcとをローカルデコーダによって復号した信号である。
Figure 0006126006
また、エンコーダは、式(10)に示されるように、LP符号化されたサブフレームcをローカルデコーダを用いて復号した信号c’’に、2つの窓を掛けて反転することにより、第2の信号yを生成する。
Figure 0006126006
第3の信号は、式(11)に示されるように、先行LPフレームを窓処理したゼロ入力応答(ZIR:Zero Input Response)である。ゼロ入力応答(ZIR)とは、FIRフィルタ処理において、過去入力によって状態が時々刻々と変化している状態のFIRフィルタにゼロ入力がされたときの出力値を算出する処理である。
Figure 0006126006
式(12)に示されるように、エイリアシング除去(AC:Aliasing Cancel)信号は、原信号dから上記の3つの信号を引くことで算出される。
Figure 0006126006
AC信号は、以下のような特性を有する。符号化性能が十分であり、復号後の信号の波形と原信号の波形とが類似する場合、
Figure 0006126006
及び
Figure 0006126006
であり、式(12)は、以下の式(13)のように近似される。
Figure 0006126006
さらに、サブフレームdの最初で信号dを予測する際、線形予測符号化のZIRが確かであるとするならば、AC信号のサブフレームの最初は、
Figure 0006126006
である。また、サブフレームdの最後はw2→1となるため、AC信号のサブフレームの最後は、
Figure 0006126006
である。つまり、AC信号は、サブフレームdの両側でゼロに収束する、自然に窓処理された信号のような形をしている。
上記AC信号は、LP符号化から変換符号化(MDCT/TCX)への切り替え時に用いられるものである。変換符号化(MDCT/TCX)からLP符号化への切り替えの場合、同様のAC信号が生成される。
このような場合に異なる点は、変換符号化からLP符号化への切り替えにおいて用いられるAC信号は、ZIR成分がないことである。また、変換符号化からLP符号化への切り替えにおいて用いられるAC信号は、サブフレームのLP符号化されたフレームと隣接する端においてゼロでないため、窓処理された信号のような形をしていない点も異なる。
図3は、変換符号化からLP符号化への切り替えにおいて用いられるAC信号の生成方法を示す図である。
図3に示されるように、変換符号化からLP符号化への切り替えにおいては、サブフレームcに含まれるエイリアシング成分を除去するためにAC信号が生成される。具体的には、式(14)で示される第1の信号xと、式(15)で示される第2の信号yとを、原信号cから引き算することによって、式(16)に示されるように求められる。
Figure 0006126006
Figure 0006126006
Figure 0006126006
ここで、AC信号の最初(左の境界)においては、w2,R→1となるため、
Figure 0006126006
となる。
以上、エンコーダにおけるAC信号の生成例について説明した。なお、デコーダの動作については、エンコーダの動作の逆であるため、説明を省略する。
ところで、最近では、ソーシャルネットワーク文化の台頭により、テレビ会議や音響映像を通した娯楽などの社会活動に参加する、インターネットに精通した人々が増えている。このような状況において、普及が予想される活動の1つとして、異なる場所にいるユーザがインターネットを介して集結し、リアルタイムで相互に楽器を演奏したり、合唱したり、アカペラで歌ったりすることが考えられる(以下、このような活動をネットワーク上の音楽演奏と記載する)。
ネットワーク上の音楽演奏を行なう場合、ユーザが違和感を感じないために、低遅延で音信号の符号化・復号を行うことが重要である。
具体的には、人間の耳が知覚する「音ずれ」を防ぐためには、信号処理の時間と、信号がネットワークを通じて伝送される時間(ネットワーク遅延)との合計時間である総遅延は、30ミリ秒未満でなければならない(例えば、非特許文献1参照)。エコー除去処理及びネットワーク遅延が総遅延のうちの20ミリ秒を占める場合、符号化・復号において許容されるアルゴリズム遅延は、約10ミリ秒となる。
ここで、上述のMPEGのUSACのアルゴリズム遅延は長いため、ネットワーク上の音楽演奏のように低遅延が求められるアプリケーションには適さない。MPEGのUSACにおける主な遅延は、以下の1〜3によって生じる。
1.エンコーダおよびデコーダ双方で生じる主な遅延は、フレームのサイズが大きいことにより生じる。現在、MPEGのUSACの規格では、768サンプルまたは1024サンプルのフレームサイズが許可されている。ここで、MPEGのUSACにおいては、変換符号化時に、サンプル数をNとした場合、2Nの遅延が生じ、1536または2048サンプルの遅延が生じる。さらに、サンプリング周波数が48kHzであれば、32ミリ秒または43ミリ秒のコアMDCT+フレーミング遅延がそれぞれ生じる。
2.エンコーダおよびデコーダ双方で生じる主な遅延の二つ目は、SBR及びMPSに対するQMF分析及び合成フィルタバンクにおいて生じる。左右対称の典型的な窓を持つ従来のフィルタバンクは、追加577サンプルの遅延または48kHzのサンプリング周波数において12ミリ秒の遅延を生じる。
3.エンコーダで生じる主な遅延は、エンコーダの信号分類部により生じるルックアヘッドディレイである。信号分類部は、信号の遷移、音色及びスペクトル傾斜(信号の特性)を解析し、MDCT、LP及びTCXのうちいずれの方式によって信号を符号化すべきか決定する。通常これにより、さらに1フレーム分の遅延が生じる。その遅延は、サンプリング周波数が48kHzであれば、16ミリ秒または21ミリ秒である。
上記1〜3を鑑みれば、超低遅延を実現するために最初に行うべきことは、フレームサイズの大幅な縮小である。しかしながら、フレームサイズが縮小される場合は、変換符号化の符号化効率を低減するため、量子化の際にビットを効率的に使用することがこれまで以上に重要になる。
上述したように、特に、LP符号化と変換符号化(MDCT/TCX)との切り替えが行われる場合、変換符号化されたフレームのエイリアシング成分は、復号後のLP信号と合成される(例えば、式(10))。このため、エンコーダは、上述のようにAC信号と称される追加のエイリアシング残留信号を生成し、符号化することでエイリアシング成分を除去する。ここで、理想的には、符号化の負荷を最小限にするため、AC信号の符号量は、できるだけ小さくすべきである。
ところが、AC信号を用いてもエイリアシング成分を十分に除去できない場合がある。例えば、図2に示されるように、符号化方式がLP符号化から変換符号化(MDCT/TCX)に切り替わる場合、先行のLP符号化されたサブフレームcのZIRに基づき、AC信号は、最初がゼロになるように算出される。
このとき、AC信号は、一見すると窓処理された信号であり、特定の量子化方法を用いれば、効率的な符号化を促進するものである。しかしながら、図2に示されるAC信号の生成方法は、サブフレームcのZIRに基づき、サブフレームdの開始を予測するものであるため、例えば、信号特性が突然変化するような場合には、十分にエイリアシング成分を除去できない。
また、図3に示されるように、符号化方式が変換符号化(MDCT/TCX)からLP符号化に切り替わる場合、AC信号は、サブフレームcの最後においてゼロではない。これは、前の段落で説明したように、特定の量子化方法においては、非効率的な符号化を招く。
3つ目に、AC信号の波形は、符号化された原信号の波形より小さくなることはなく、エイリアシング除去済のMDCT信号及びLP信号は、原信号に類似する。高いビットレートでは、原信号の波形と復号後の信号の波形とが類似することがあり、符号化の際にAC信号が不必要な負担となる。
以上のような状況を鑑み、MPEGのUSACの全体構造に基づく、本発明のコーデックは、まず、低遅延化を図るために、以下の1〜3のような基本構成とした。
1.基本構成では、フレームサイズが小さくされている。具体的には、フレームのサイズは256サンプルが推奨されるが、これに限定されることはない。これにより、生じる遅延は、サンプル数では2×256=512サンプルであり、サンプリング周波数が48kHzであれば、11ミリ秒のMDCT+フレーミング遅延が生じることとなる。
2.また、基本構成では、さらに遅延を減少させるため、連続するMDCTフレーム間の重なり(オーバーラップ)を縮小する(例えば、非特許文献4参照)。ここで、推奨される重なりのサンプル数は、128サンプルである。これにより、MDCT+フレーミング遅延は、サンプル数では256+128=384サンプルであり、サンプリング周波数が48kHzであれば8ミリ秒となる。すなわち、生じる遅延は、上述の11ミリ秒から8ミリ秒に減少される。
3.また、基本構成では、非対称の典型的な窓を有する複合低遅延フィルタバンクを用いる。低遅延QMFフィルタバンクの構築については、非特許文献2に記載されており周知であり、MPEGのAAC−ELD(非特許文献3参照)で既に用いられている。複合低遅延フィルタバンクでは、非対称の典型的な窓の長さを半分にし、サブバンド数(M)パラメータと、過去の拡張(E)パラメータとを調整することにより、2ミリ秒未満の遅延を実現することができる。例えば、M=64、E=8、典型的な窓の長さが640の場合、MPEGのAAC−ELDの複合低遅延QMFフィルタバンクは、サンプル数では64サンプル、サンプリング周波数が48kHzであれば1.3ミリ秒の遅延が実現される。
このような基本構成を用いることによって、本発明のコーデックでは、10ミリ秒のアルゴリズム遅延を実現することができる。
ここで、このような基本構成では、フレームのサイズが縮小されることで符号化オーバーヘッドが生じる。このため、AC信号により生じるビットオーバーヘッドは、より目立つ。上記ビットオーバーヘッドは、特に、コーデックの切り替えが速い場合に目立つ。したがって、このため、効率的にAC信号を生成することが課題となる。
このような課題を解決するために、本願発明者らは、AC信号をより効率的に符号化する方法を見出した。
本発明の一態様に係る音信号ハイブリッドエンコーダは、音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析部と、前記フレームをLFD(Lapped Frequency Domain)変換することによって当該フレームを符号化したLFDフレームを生成するLFDエンコーダと、前記フレームの線形予測係数を算出することによって当該フレームを符号化したLP(Linear Prediction)フレームを生成するLPエンコーダと、前記信号解析部の判断結果に応じて、前記フレームを前記LFDエンコーダによって符号化するか、前記LPエンコーダによって符号化するかの切替を行う切替部と、前記切替部の切替制御によって前記LPフレームと連続する前記LFDフレームであるAC(Aliasing Cancel)対象フレームの少なくとも一部を復号した信号と、前記AC対象フレームに連続する前記LPフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコーダと、前記AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するAC信号生成部とを備え、前記AC信号生成部は、前記AC対象フレームが前記LPフレームの直後に連続する場合、または前記AC対象フレームが前記LPフレームの直前に連続するフレームである場合において、(1)複数の方式の中から選択した1つの方式にしたがって、前記AC信号を生成して出力し、かつ、(2)前記選択した1つの方式を示すACフラグを出力する。
このように、複数の方式から1つの方式を選択してAC信号を生成して出力することで、音信号ハイブリッドエンコーダは、効率的にAC信号を生成することができる。
また、例えば、前記AC信号生成部は、第1の方式及び前記第1の方式とは異なる第2の方式の中から選択した1つの方式にしたがって前記AC信号を生成して出力してもよい。
また、例えば、さらに、前記AC信号を量子化する量子化器を備え、前記AC信号生成部は、前記第1の方式及び前記第2の方式のそれぞれを用いて2つの前記AC信号を生成し、生成した2つの前記AC信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記AC信号の生成に用いられた方式の前記AC信号を出力してもよい。
これにより、音信号ハイブリッドエンコーダは、より符号量の少ないAC信号を選択し、出力することができる。
また、例えば、前記AC対象フレームが前記LPフレームの直後に連続するフレームである場合、前記第1の方式は、前記AC対象フレームの直前のLPフレームを窓処理したゼロ入力応答を用いて前記AC信号を生成する方式であり、前記第2の方式は、前記ゼロ入力応答を用いることなく前記AC信号を生成する方式であってもよい。
また、例えば、前記第1の方式は、USAC(Unified Speech And AudioCodec)において規格化された方式であり、前記第2の方式は、生成されるAC信号の量子化後の符号量が前記第1の方式よりも小さくなることが見込まれる方式であってもよい。
また、例えば、前記AC信号生成部は、前記音信号に含まれるフレームのフレームサイズが所定の大きさよりも大きい場合は、前記第1の方式を選択し、前記音信号に含まれるフレームのフレームサイズが前記所定の大きさ以下の場合は、前記第2の方式を選択してもよい。
第2の方式がフレームサイズが小さい場合に有効であるような場合、このような構成によっても、低ビットレートの効率的な符号化が実現される。
また、例えば、さらに、前記AC信号を量子化する量子化器を備え、前記AC信号生成部は、前記第1の方式で前記AC信号を生成し、前記第1の方式で生成した前記AC信号の前記量子化器による量子化後の符号量が所定の閾値よりも小さい場合は、前記第1の方式を選択し、前記第1の方式で生成した前記AC信号の前記量子化器による量子化後の符号量が所定の閾値以上である場合は、さらに前記第2の方式で前記AC信号を生成し、前記第1の方式で生成した前記AC信号及び前記第2の方式で生成した前記AC信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記AC信号を出力してもよい。
これにより、第1の方式で生成されたAC信号の符号量が十分小さいときは第2の方式でAC信号を生成する必要がないため、AC信号の生成における処理量を低減できる。
また、例えば、前記AC信号生成部は、さらに、前記第1の方式で前記AC信号を生成する第1のAC候補生成器と、前記第2の方式で前記AC信号を生成する第2のAC候補生成器と、(1)前記第1のAC候補生成器及び前記第2のAC候補生成器のうちから選択した1つのAC候補生成器が生成する前記AC信号を出力し、かつ、(2)出力される前記AC信号が前記第1の方式及び前記第2の方式のいずれの方式を用いて生成されたかを示す前記ACフラグを出力するAC候補選択器とを備えてもよい。
また、例えば、さらに、入力信号に対して時間周波数領域表現に変換した信号である入力サブバンド信号を生成するLD(Low Delay)解析フィルタバンクと、前記入力サブバンド信号から、マルチチャンネル拡張パラメータ及びダウンミックスサブバンド信号を生成するマルチチャンネル拡張部と、前記ダウンミックスサブバンド信号から、帯域幅拡張パラメータ及び狭帯域サブバンド信号を生成する帯域幅拡張部と、前記狭帯域サブバンド信号を時間周波数領域表現から時間領域表現に変換した信号である前記音信号を生成するLD合成フィルタバンクと、前記マルチチャンネル拡張パラメータ、前記帯域幅拡張パラメータ、出力された前記AC信号、前記LFDフレーム、及び前記LPフレームを量子化する量子化器と、前記量子化器が量子化した信号及び前記ACフラグを多重化して送信するビットストリームマルチプレクサとを備えてもよい。
また、例えば、前記LFDエンコーダは、TCX方式によって前記フレームを符号化してもよい。
また、例えば、前記LFDエンコーダは、MDCTによって前記フレームを符号化し、前記切替部は、前記LFDエンコーダが符号化する前記フレームに対し窓処理を行い、前記窓処理に用いられる窓は、前記フレームの長さの2分の1よりも短い期間において単調増加または単調減少してもよい。
また、本発明の一態様に係る音信号ハイブリッドデコーダは、LFD変換により符号化されたLFDフレームと、線形予測係数を用いて符号化されたLPフレームと、前記LPフレームと連続する前記LFDフレームであるAC対象フレームのエイリアシングの除去を行うためのAC信号とが含まれる符号化信号を復号する音信号ハイブリッドデコーダであって、前記LFDフレームを復号するILFD(Inverse Lapped Frequency Domain)デコーダと、前記LPフレームを復号するLPデコーダと、前記ILFDデコーダが復号したフレームに窓処理を行ったフレームと、前記LPデコーダが復号したフレームとを順番に整列した第2の狭帯域信号を出力する切替部と、前記AC信号の生成に用いられた方式を示すACフラグを取得し、前記ACフラグが示す方式に応じて、前記切替部、前記ILFDデコーダ、または前記LPデコーダから出力される信号を前記AC信号に加算したAC出力信号を生成するAC出力信号生成部と、前記第2の狭帯域信号のうちの前記AC対象フレームに相当する部分に、前記AC出力信号を加算した第3の狭帯域信号を出力する加算部とを備える。
また、例えば、さらに、量子化された前記符号化信号と、前記ACフラグとが含まれるビットストリームを取得するビットストリームデマルチプレクサと、前記量子化された前記符号化信号を逆量子化して前記符号化信号を生成する逆量子化器と、前記加算部から出力される前記第3の狭帯域信号を時間周波数領域表現に変換することにより、狭帯域サブバンド信号を生成するLD解析フィルタバンクと、前記逆量子化器により生成された符号化信号に含まれる帯域幅拡張パラメータを前記狭帯域サブバンド信号に適用することにより、高周波信号を合成し、帯域幅が拡張されたサブバンド信号を生成する帯域幅拡張復号部と、前記逆量子化器により生成された符号化信号に含まれるマルチチャンネル拡張パラメータを前記帯域幅が拡張されたサブバンド信号に適用することにより、マルチチャンネルサブバンド信号を生成するマルチチャンネル拡張復号部と、前記マルチチャンネルサブバンド信号を時間周波数領域表現から時間領域表現に変換した信号であるマルチチャンネル信号を生成するLD合成フィルタバンクとを備えてもよい。
また、例えば、前記AC信号は、第1の方式または前記第1の方式とは異なる第2の方式によって生成され、前記AC出力信号生成部は、さらに、前記第1の方式で生成された前記AC信号に対応する前記AC出力信号を生成する第1のAC候補生成器と、前記第2の方式で生成された前記AC信号に対応する前記AC出力信号を生成する第2のAC候補生成器と、前記ACフラグに応じて、前記第1のAC候補生成器及び前記第2のAC候補生成器のいずれか一方を選択し、選択したAC候補生成器に前記AC出力信号を生成させるAC候補選択器とを備えてもよい。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(実施の形態1)
実施の形態1では、音信号ハイブリッドエンコーダについて説明する。
図4は、実施の形態1に係る音信号ハイブリッドエンコーダの構成を示すブロック図である。
音信号ハイブリッドエンコーダ100は、LD(Low Delay)解析フィルタバンク400と、MPSエンコーダ401と、SBRエンコーダ402と、LD合成フィルタバンク403と、信号解析部404と、切替部405とを備える。また、音信号ハイブリッドエンコーダ100は、MDCTフィルタバンクを用いたオーディオエンコーダ406(以下、単にMDCTエンコーダ406と記載する)と、LPエンコーダ408と、TCXエンコーダ410とを備える。また、音信号ハイブリッドエンコーダ100は、複数の量子化器407、409、411、414、416、及び417と、ビットストリームマルチプレクサ415と、ローカルデコーダ412と、AC信号生成部413とを備える。
LD解析フィルタバンク400は、入力信号(マルチチャネル入力信号)に対して低遅延解析フィルタバンク処理を行うことにより、ハイブリッド時間/周波数表現で表される入力サブバンド信号を生成する。低遅延フィルタバンクは、具体的には、非特許文献2に示される低遅延QMFフィルタバンク等が候補として挙げられるが、これに限定されるものではない。
MPSエンコーダ401(マルチチャンネル拡張部)は、LD解析フィルタバンク400が生成した入力サブバンド信号を、より小さな信号のセットである、ダウンミックスサブバンド信号に変換し、MPSパラメータを生成する。ここでのダウンミックスサブバンド信号は、全帯域ダウンミックスサブバンド信号を意味する。
例えば、入力信号がステレオ信号である場合、生成されるダウンミックスサブバンド信号は1つのみである。なお、MPSパラメータは、量子化器416によって量子化される。
SBRエンコーダ402(帯域幅拡張部)は、ダウンミックスサブバンド信号を狭帯域サブバンド信号のセットにダウンサンプリングする。このプロセスにおいて、SBRパラメータが生成される。なお、SBRパラメータは、量子化器417によって量子化される。
LD合成フィルタバンク403は、狭帯域サブバンド信号を時間領域に再変換し、第1の狭帯域信号(音信号)を生成する。ここでも、非特許文献2に示される低遅延QMFフィルタバンクを用いることができる。
信号解析部404は、第1の狭帯域信号の特性を解析し、第1の狭帯域信号を符号化するために、MDCTエンコーダ406、LPエンコーダ408、及びTCXエンコーダ410の中から最適なエンコーダを選択する。なお、以下の説明では、MDCTエンコーダ406と、TCXエンコーダ410とは、LFD(Lapped Frequency Domain)エンコーダとも称される。
例えば、信号解析部404は、全体的に非常にトーン性があり、スペクトル傾斜の変動が小さい第1の狭帯域信号に対しては、MDCTエンコーダ406を選択することができる。MDCTの基準を適用できない場合、信号解析部404は、低周波領域においてトーン性が強く、スペクトル傾斜が大きく変動する第1の狭帯域信号であれば、LPエンコーダ408が選択される。上記いずれの基準にもあてはまらない第1の狭帯域信号に対しては、TCXエンコーダ410が選択される。
なお、上記の信号解析部404のエンコーダの判断基準は、一例であり、このような判断基準に限定されるものではない。信号解析部404は、第1の狭帯域信号(音信号)の特性を解析し、第1の狭帯域信号に含まれるフレームの符号化方法を判断すれば、判断基準はどのようなものであってもよい。
切替部405は、信号解析部404の判断結果に応じてフレームをLFDエンコーダ(MDCTエンコーダ406、またはTCXエンコーダ410)によって符号化するか、LPエンコーダ408によって符号化するかの切替制御を行う。具体的には、切替部405は、信号解析部404の判断結果に応じて選択したエンコーダに基づき、第1の狭帯域信号に含まれる符号化対象フレーム(過去と現在のフレーム)のサンプルサブセットを選択し、次の符号化のために、当該サンプルサブセットから第2の狭帯域信号を生成する。
ここで、切替部405は、MDCTを選択する場合、選択したサンプルサブセットに窓処理を行う。
図5は、オーバーラップが小さい窓の形状を示す図である。図5に示されるように、音信号ハイブリッドエンコーダ100において望ましい窓の形状は、オーバーラップが小さい。実施の形態1では、切替部405は、MDCTを選択する場合、このような窓処理を行う。
なお、図1等において示される窓は、フレームの長さの2分の1の期間において単調増加し、フレームの長さの2分の1の期間において単調減少する。これに対し、図5において示される窓は、フレームの長さの2分の1よりも短い期間において単調増加し、フレームの長さの2分の1よりも短い期間において単調減少する。このことは、すなわち、オーバーラップが小さいことを意味する。
MDCTエンコーダ406は、MDCTによって符号化対象フレームを符号化する。
LPエンコーダ408は、符号化対象フレームの線形予測係数を算出することによって当該符号化対象フレームを符号化する。LPエンコーダ408は、例えば、ACELP(Algebraic Code Excited Linear Prediction)、VSELP(Vector Sum Excited Linear Prediction)等のCELP方式である。
TCXエンコーダ410は、符号化対象フレームをTCX方式で符号化する。具体的には、TCXエンコーダ410は、符号化対象フレームの線形予測係数を算出し、線形予測係数の残差をMDCT処理して符号化対象フレームを符号化する。
なお、以下の説明では、MDCTエンコーダ406またはTCXエンコーダ410で符号化されたフレームをLFDフレームと記載し、LPエンコーダ408で符号化されたフレームをLPフレームと記載する。また、切替部405の切替によってエイリアシングが生じるLFDフレームを、AC対象フレームと記載する。
つまり、AC対象フレームは、切替部405の切替制御によってLPフレームと連続して符号化されたLFDフレームである。AC対象フレームには、AC対象フレームがLPフレームの直後に符号化されたフレーム(直後に連続するフレーム)である場合と、AC対象フレームがLPフレームの直前に符号化されたフレーム(直前に連続するフレーム)である場合との2種類がある。
量子化器407、409、及び411は、エンコーダの出力を量子化する。具体的には、量子化器407は、MDCTエンコーダ406の出力を量子化し、量子化器409は、LPエンコーダ408の出力を量子化し、量子化器411は、TCXエンコーダ410の出力を量子化する。
一般的に、量子化器407は、dBステップの量子化器とハフマン符号化との組み合わせであり、量子化器409、及び量子化器411は、ベクトル量子化器である。
ローカルデコーダ412は、ビットストリームマルチプレクサ415からAC対象フレーム、及びこれに連続するLPフレームを取得し、取得したフレームの少なくとも一部を復号したローカルデコード信号を生成する。ローカルデコード信号は、ローカルデコーダ412によって復号された狭帯域信号であり、具体的には、上述した、式(10)のd’及びc’や、式(11)のc’’、式(15)のd’’などである。
AC信号生成部413は、AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、上記第1信号及び第1の狭帯域信号を用いて生成し、出力する。すなわち、AC信号生成部413は、ローカルデコーダ412によって提供される復号した過去データ(過去フレーム)を活用してAC信号を生成する。
また、実施の形態1では、AC信号生成部413は、複数のACプロセス(方式)を用いて複数のAC信号をそれぞれ生成し、生成したAC信号のうち、どのAC信号が符号化する上でよりビット効率が良いかを確認する。さらに、AC信号生成部413は、符号化する上でよりビット効率が良いAC信号を選択し、選択したAC信号と、当該AC信号の生成に用いられたACプロセスを示すACフラグを出力する。なお、選択されたAC信号は、量子化器414によって量子化される。
ビットストリームマルチプレクサ415は、すべての符号化されたフレームと副情報とをビットストリームに書き込む。つまり、ビットストリームマルチプレクサ415は、量子化器407、409、411、414、416、及び417が量子化した信号、及びACフラグを多重化して送信する。
以下、実施の形態1に係る音信号ハイブリッドエンコーダ100の特徴動作である、AC信号生成部413の構成及び動作について詳細に説明する。
図6は、AC信号生成部413の構成の一例を示すブロック図である。
図6に示されるように、AC信号生成部413は、第1のAC候補生成器700と、第2のAC候補生成器701と、AC候補選択器702とを備える。
第1のAC候補生成器700及び第2のAC候補生成器701のそれぞれは、第1の狭帯域信号とローカルデコード信号とを用いて、最終的にAC信号生成部413から出力されるAC信号の候補であるAC候補を算出する。なお、以下の説明では、第1のAC候補生成器700が生成するAC候補を単にAC、第2のAC候補生成器701が生成するAC候補を単にAC2と表記することがある。
また、以下の説明では、第1のAC候補生成器700は、第1の方式でAC候補(AC信号)を生成し、第2のAC候補生成器は、第1の方式とは異なる第2の方式でAC候補(AC信号)を生成するものとする。第1の方式及び第2の方式の詳細については、後述する。
AC候補選択器702は、所定の条件に基づいてAC及びAC2のうちの一方のAC候補を選択する。ここで、所定の条件とは、実施の形態1では、各AC候補を量子化した場合の符号量である。AC候補選択器702は、選択したAC候補と、選択したAC候補が第1の方式及び第2の方式のいずれの方式を用いて生成されたかを示すACフラグとを出力する。
図7は、AC信号生成部413の動作の一例を示すフローチャートである。
音信号ハイブリッドエンコーダ100では、上述のように、信号解析部404の判断結果に応じて切替部405が符号化方式を切り替えながら、第1の狭帯域信号の符号化が行われる(S101、S102でNo)。
符号化対象フレームがAC対象フレームである場合(S102でYes)、AC信号生成部413は、まず第1の方式でAC信号を生成する(S103)。具体的には、第1のAC候補生成器700が、第1の狭帯域信号とローカルデコード信号とを用いて、ACを生成する。
次に、AC信号生成部413は、第2の方式でAC信号を生成する(S104)。具体的には、第2のAC候補生成器701が、第1の狭帯域信号とローカルデコード信号とを用いて、AC2を生成する。
次に、AC信号生成部413は、AC及びAC2のうちの一方のAC候補(AC信号)を選択する(S105)。具体的には、AC候補選択器702は、AC及びAC2のうち、量子化器414による量子化後の符号量が小さいAC候補を選択する。
最後に、AC信号生成部413は、ステップS105において選択したAC候補(AC信号)と、当該AC候補の生成方式を示すACフラグとを出力する(S106)。
以上説明したように、AC信号生成部413は、所定の条件に基づいて、第1の方式で生成したAC信号、及び、第1の方式とは異なる第2の方式で生成したAC信号のいずれか一方を選択して出力する。また、AC信号生成部413は、出力されるAC信号が第1の方式及び第2の方式のいずれの方式を用いて生成されたかを示すACフラグを出力する。
なお、AC信号生成部413は、AC対象フレームがLPフレームの直後に符号化されたフレームである場合及びAC対象フレームがLPフレームの直前に符号化されたフレームである場合のそれぞれにおいて、2つの方式でAC信号を生成する。
次に、第1の方式及び第2の方式について詳細に説明する。なお、以下の説明では、第1の方式と第2の方式との具体例をそれぞれ1つずつ挙げるが、AC信号の生成方式は、これらの具体例に限定されるものではなく、どのような方式であってもよい。
まず、LP符号化から変換符号化(MDCT/TCX)への切り替えにおける第1の方式及び第2の方式について説明する。
第1の方式は、既に図2を用いて説明したように、MPEGのUSACで通常用いられるACプロセスであり、式(12)を用いてAC候補(AC)を生成する方式である。すなわち、第1のAC候補生成器700は、式(12)を用いてAC候補(AC)を生成する。
しかしながら、上述した通り、第1の方式で生成されるAC信号が十分にエイリアシングを除去できるか否かは、ZIRの確実性に大きく影響される。ZIR成分が大きい場合には、エイリアシングが除去しにくい傾向にあるし、また一方でZIR成分が小さい場合には、エイリアシング除去がしやすい傾向にある。また、復号後の信号の波形が、原信号の波形と非常に類似している場合であっても、それに応じてエイリアシングが消えることはない。なぜなら、ZIRは、時間が経つにつれて原信号との相違が大きくなる特性があるからである。
そこで、AC信号生成部413は、さらにZIRを用いない、第2の方式を用いてAC信号を生成する。第2の方式は、生成されるAC信号の量子化後の符号量が第1の方式よりも小さくなることが見込まれる方式(エイリアシング除去よりも符号量を優先した方式)であることが望ましい。たとえば、第2の方式としては、AC信号の振幅が小さい場合に、その信号を量子化する量子化ビットを通常の量子化ビット数よりも削減する手法や、AC信号をLPCフィルタで表現する際のフィルタ係数の次数を削減する手法など、さまざまな手法をとることができる。
図8は、LP符号化から変換符号化への切り替えにおいて用いられる、AC信号生成の第2の方式を示す図である。すなわち、第2のAC候補生成器701は、以下の式(17)を用いてAC候補(AC2)を生成する。
Figure 0006126006
ここで、式(9)のx及び式(10)のyを式(17)に代入して式を展開すると、以下の式(18)及び(19)に示されるように、式(17)の根拠を理解することができる。
Figure 0006126006
Figure 0006126006
が上述したものと同様のものであるとすると、AC2は、以下の式(19)のように近似される。
Figure 0006126006
式(19)に示されるように、AC2は、ACよりビット効率の良い信号である可能性が高い。ACに比べ上記のAC2信号は、信号レベル変動が小さい可能性が高く、そういった信号に対して量子化する際に、量子化に割り当てるビット数をある程度間引いても、量子化精度が劣化しにくい。このため、特に、原信号dと復号後の信号d’の波形が類似しやすい場合や、ビットレートがより高く、dとd‘の差分が小さくなるような傾向の符号化条件の場合に特に、AC2は、ACよりビット効率の良い信号である可能性が高い。
続いて、変換符号化(MDCT/TCX)からLP符号化への切り替えにおける第1の方式及び第2の方式について説明する。
第1の方式は、既に図3を用いて説明したように、MPEGのUSACで通常用いられるACプロセスであり、式(16)を用いてAC候補(AC)を生成する。すなわち、第1のAC候補生成器700は、式(16)を用いてAC候補(AC)を生成する。
また、上記と同様の理由で、AC信号生成部413は、さらに、第2の方式を用いてAC信号を生成する。
図9は、変換符号化からLP符号化への切り替えにおいて用いられる、AC信号生成の第2の方式を示す図である。すなわち、第2のAC候補生成器701は、以下の式(20)を用いてAC候補(AC2)を生成する。
Figure 0006126006
式(20)において、x(式14)とy(式15)とを式(20)に代入して式(20)を展開し、かつ、
Figure 0006126006
と仮定すると、AC2は、以下の式(21)のように近似される。
Figure 0006126006
ここでも、AC2は、ACよりもビット効率の良い符号化対象の信号である可能性が高い。特によりビット効率の良い場合において、原信号cと復号後の信号c’の波形は類似しやすい。
次に、AC候補選択器702のAC信号の選択方法について説明する。
AC候補選択器702の最もシンプルな選択方法は、ACとAC2の両方を量子化器414に通し、符号化に必要なビット数(符号量)が少ないAC候補を選択する方法である。
なお、AC候補の選択方法は、このような方法に限定されず、その他の方法であってもよい。
例えば、AC候補選択器702(AC信号生成部413)は、第1の狭帯域信号に含まれるフレームのフレームサイズが所定の大きさよりも大きい場合(たとえば、当該フレームの符号量が多い場合など)は、第1の方式を選択し、第1の狭帯域信号に含まれるフレームのフレームサイズが所定の大きさ以下の場合(たとえば、当該フレームの符号量が少ない場合など)は、第2の方式を選択してもよい。
上述のように、AC2は、フレームサイズが小さい場合に有効であるため、このような構成によっても、低ビットレートの効率的なエンコーダを実現することができる。
また、例えば、AC信号生成部413は、第1の方式でAC信号を生成し、第1の方式で生成したAC信号の量子化器による量子化後の符号量が所定の閾値よりも小さい場合は、第1の方式を選択してもよい。
このような構成であれば、第1の方式で生成されたAC信号の符号量が十分小さいときは第2の方式でAC信号を生成する必要がないため、AC信号の生成における処理量を低減できる。
続いて、AC信号生成部413は、第1の方式で生成したAC信号の量子化器414による量子化後の符号量が所定の閾値以上である場合は、さらに第2の方式でAC信号を生成する。この結果、AC信号生成部413は、第1の方式で生成したAC信号及び第2の方式で生成したAC信号のうち、量子化器414による量子化後の符号量が小さいほうのAC信号を出力してもよい。
このような構成により、AC信号を生成における処理量を低減しつつ、適応的に方式を選択してAC信号を生成し、低ビットレートの効率的なエンコーダを実現することができる。
なお、実施の形態1に係る音信号ハイブリッドエンコーダは、少なくとも重複周波数領域変換エンコーダ(LFDエンコーダ。例えば、MDCT、TCX)と、線形予測エンコーダ(LPエンコーダ)とを含むエンコーダであれば、どのような構成のエンコーダとして実現されてもよい。例えば、実施の形態1に係る音信号ハイブリッドエンコーダは、TCXエンコーダ及びLPエンコーダのみを含むエンコーダとして実現されてもよい。また、実施の形態1における帯域拡張ツールとマルチチャンネル拡張ツールとは、任意の低ビットレートツールであり、必須の構成要素ではない。実施の形態1に係る音信号ハイブリッドエンコーダは、これらのツールのサブセットまたはこれらのツールすべてをまったく持たないエンコーダとして実現されてもよい。
なお、実施の形態1では、AC信号生成部413が、第1の方式及び第2の方式の中から選択した1つの方式にしたがってAC信号を生成する例について説明したが、AC信号生成部413は、3つ以上の方式の中から1つの方式を選択してもよい。すなわち、AC信号生成部413は、複数の方式の中から選択した1つの方式にしたがって、AC信号を生成して出力し、かつ、選択した1つの方式を示すACフラグを出力すればよい。この場合のACフラグは、複数ビットで構成されるなどして、複数の方式の中から1つの方式を区別可能な態様であればどのようなものであってもよい。
以上説明したように、実施の形態1に係る音信号ハイブリッドエンコーダによれば、符号化の際に、ビット効率の良いAC信号を適応的に選択することができる。すなわち、実施の形態1に係る音信号ハイブリッドエンコーダによれば、低ビットレートの効率的なエンコーダを実現することができる。このようなビットレートの低減効果は、コーデックの切り替えが速い場合、及び、符号化に多くのビットを必要とする低遅延エンコーダの場合に特に顕著となる。
(実施の形態2)
実施の形態2では、音信号ハイブリッドデコーダについて説明する。
図10は、実施の形態2に係る音信号ハイブリッドデコーダの構成を示すブロック図である。
音信号ハイブリッドデコーダ200は、LD解析フィルタバンク503と、LD合成フィルタバンク500と、MPSデコーダ501と、SBRデコーダ502と、切替部505とを備える。また、音信号ハイブリッドデコーダ200は、IMDCTフィルタバンクを用いたオーディオデコーダ506(以下、単にIMDCTデコーダ506と記載する)と、LPデコーダ508と、TCXデコーダ510と、逆量子化器507、509、511、514、516、及び517と、ビットストリームデマルチプレクサ515と、AC出力信号生成部513とを備える。
ビットストリームデマルチプレクサ515は、ビットストリームのコアコーダインジケータに基づき、IMDCTデコーダ506、LPデコーダ508、及びTCXデコーダ510うちの1つのデコーダと、これに対応する、逆量子化器507、509、及び511のうちの1つの逆量子化器とを選択する。ビットストリームデマルチプレクサ515は、選択した逆量子化器を用いてビットストリームデータを逆量子化し、選択したデコーダを用いてビットストリームデータを復号する。逆量子化器507、509、及び511の出力は、それぞれ、IMDCTデコーダ506、LPデコーダ508、またはTCXデコーダ510に入力され、デコーダにおいて時間領域にさらに変換され、第1の狭帯域信号が生成される。なお、以下の説明では、IMDCTデコーダ506と、TCXデコーダ510とは、ILFD(Inverse Lapped Frequency Domain)デコーダとも称される。
切替部505は、まず、過去サンプルとの時間の関係に従い(符号化された順番に従い)、第1の狭帯域信号のフレームを整列させる。フレームがIMDCTデコーダ506で復号されたフレームである場合、切替部505は、当該復号対象フレームに窓処理を行うことで得られる重なり部分を追加する。窓は、図5に示されるエンコーダが用いる窓と同じものが用いられ、図5に示される窓は、低遅延を実現するために、短いオーバーラップ領域を有する。
切替部505のコーデックの切り替えの際、AC対象フレーム(以下、切替フレームとも記載する)のフレーム境界周辺のエイリアシング成分は、図2及び図3に示される信号と一致する。また、切替部505は、第2の狭帯域信号を生成する。
ビットストリームに含まれるAC信号は、逆量子化器514で逆量子化される。ビットストリームに含まれるACフラグは、過去の狭帯域信号を用いた追加のエイリアシング除去成分の生成など、AC信号の次の処理方法を決定する。AC出力信号生成部513は、ACフラグに応じて逆量子化済のAC信号と、切替部505が生成したAC成分(x、y、zなど)とを合計することで、AC_out信号(AC出力信号)を生成する。
加算器504(加算部)は、切替部505によって整列され、オーバーラップ領域が追加された第2の狭帯域信号にAC_out信号を加算し、AC対象フレームのフレーム境界におけるエイリアシング成分を除去する。エイリアシング成分を除去した信号を第3の狭帯域信号と称す。
LD解析フィルタバンク503は、第3の狭帯域信号を処理し、ハイブリッド時間/周波数表現で表される狭帯域サブバンド信号を生成する。具体的には、非特許文献2に示される低遅延QMFフィルタバンク等が候補として挙げられるが、これに限定されるものではない。
SBRデコーダ502(帯域幅拡張復号部)は、狭帯域サブバンド信号をより高周波の領域に拡大する。拡大方法は、より高周波の帯域へ低周波帯域がコピーされる「パッチアップ」法か、位相ボコーダの原理に基づき低周波帯域のハーモニクスを伸長する「ストレッチアップ」法のいずれかである。拡大(合成)された高周波領域の特性、特にエネルギー、ノイズフロア及び音色は、逆量子化器517により逆量子化されたSBRパラメータに基づき調整される。これにより、帯域幅が拡張されたサブバンド信号が生成される。
MPSデコーダ501(マルチチャンネル拡張復号部)は、逆量子化器516により逆量子化されたMPSパラメータを用いて、帯域幅が拡張されたサブバンド信号からマルチチャンネルサブバンド信号を生成する。たとえば、MPSデコーダ501は、チャンネル間相関パラメータに基づいて、無相関信号とダウンミックス信号とをミックスする。MPSデコーダ501は、さらに、そのミックス後の信号の振幅と位相をチャンネル間レベル差パラメータ及びチャンネル間位相差パラメータに基づき調整し、マルチチャンネルサブバンド信号を生成する。
LD合成フィルタバンク500は、マルチチャンネルサブバンド信号を、ハイブリッド時間/周波数領域から時間領域に再変換し、時間領域のマルチチャンネル信号を出力する。
以下、実施の形態2に係る音信号ハイブリッドデコーダ200の特徴動作である、AC出力信号生成部513の構成及び動作について詳細に説明する。
図11は、AC出力信号生成部513の構成の一例を示すブロック図である。
図11に示されるように、AC出力信号生成部513は、第1のAC候補生成器800と、第2のAC候補生成器801と、AC候補選択器802及び803とを備える。
第1のAC候補生成器800及び第2のAC候補生成器801のそれぞれは、逆量子化されたAC信号と復号された狭帯域信号とを用いてAC候補(AC出力信号、AC_out)を算出する。AC候補選択器802及び803は、エイリアシング除去を行うため、ACフラグに基づき第1のAC候補生成器800及び第2のAC候補生成器801のうちから1つを選択する。
図12は、AC出力信号生成部513の動作の一例を示すフローチャートである。
音信号ハイブリッドデコーダ200では、上述のように、取得したフレームを当該フレームの符号化方式に応じて復号する処理が行われる(S201、S202でNo)。
AC出力信号生成部513がACフラグを取得した場合(S202でYes)、AC出力信号生成部513は、ACフラグに応じた処理を行い、AC_out信号を生成する(S203)。
具体的には、まず、AC候補選択器802及び803は、ACフラグが示すAC候補生成器を選択する。AC候補選択器802及び803は、ACフラグが第1の方式を示す場合は、第1のAC候補生成器800を選択する。AC候補選択器802及び803は、ACフラグが第2の方式を示す場合は、第2のAC候補生成器801を選択する。
続いて、AC出力信号生成部513(AC候補選択器802及び803)は、選択したAC候補生成器を用いてAC_out信号を生成する。言い換えれば、AC出力信号生成部513は、選択したAC候補生成器にAC_out信号を生成させる。具体的には、第1のAC候補生成器800は、第1のAC_out信号を生成する。第2のAC候補生成器801は、第2のAC_out信号を生成する。
最後に、加算器504は、AC出力信号生成部513が出力したAC_out信号を切替部505から出力される第2の狭帯域信号と加算し、エイリアシングの除去を行う(S204)。
次に、AC_out信号の生成方法について詳細に説明する。以下の説明では、実施の形態1で示される例に対応するAC_out信号の生成方法(算出方法)を示すが、AC_out信号の生成方法は、このような具体例に限定されるものではなく、どのような方法であってもよい。
まず、符号化方式がLP符号化から変換符号化(MDCT/TCX)へ切り替わる場合について、上述の図2を参照しながら説明する。第1のAC候補生成器800は、第1のAC_out信号を以下のように算出する。
Figure 0006126006
第2のAC候補生成器801は、第2のAC_out信号を以下のように算出する。
Figure 0006126006
ここで、x、y及びzは、以下の窓処理をした狭帯域信号である。xは、切替部505が、時間整列し窓処理した信号である。yは、切替部505が2つの窓を掛けて反転した、先行LPフレームを復号した信号であり、式(10)と一致する。zは、切替部505が窓処理した、先行LPフレームのZIRであり、式(11)と一致する。
同様に、符号化方式が変換符号化(MDCT/TCX)からLP符号化へ切り替わる場合について図3を参照しながら説明する。第1のAC候補生成器800は第1のAC_out信号を以下のように算出する。
Figure 0006126006
第2のAC候補生成器801は、第2のAC_out信号を以下のように算出する。
Figure 0006126006
ここで、xは、切替部505が時間整列し窓処理した信号である。yは、切替部505が2つの窓を掛けて反転し、後続LPフレームを復号した信号であり、式(15)と一致する。
以上説明したように、実施の形態2に係る音信号ハイブリッドデコーダ200によれば、ACフラグに応じて、AC候補選択器802及び803は、第1のAC候補生成器800または第2のAC候補生成器801を作動させ、AC_out1またはAC_out2を出力する。これにより、音信号ハイブリッドデコーダ200は、実施の形態1に係る音信号ハイブリッドエンコーダ100で符号化された信号のエイリアシング成分を除去することができる。
なお、実施の形態2に係る音信号ハイブリッドデコーダは、少なくとも重複周波数領域変換デコーダ(ILFDデコーダ。例えば、MDCT、TCX)と、線形予測デコーダ(LPデコーダ)とを含むデコーダであれば、どのような構成のデコーダとして実現されてもよい。例えば、実施の形態2に係る音信号ハイブリッドデコーダは、TCXデコーダ及びLPデコーダのみを含むデコーダとして実現されてもよい。また、実施の形態2における帯域拡張ツールとマルチチャンネル拡張ツールとは、任意の低ビットレートツールであり、必須の構成要素ではない。実施の形態2に係る音信号ハイブリッドデコーダは、これらのツールのサブセットまたはこれらのツールすべてをまったく持たないデコーダとして実現されてもよい。
以上説明したように、実施の形態2に係る音信号ハイブリッドデコーダによれば、ACフラグに応じて、実施の形態1に係る音信号ハイブリッドエンコーダによって符号化された信号を適切に復号することができる。実施の形態1に係る音信号ハイブリッドエンコーダは、符号化の際に、ビット効率の良いAC信号を適応的に選択する。このため、実施の形態2に係る音信号ハイブリッドデコーダによれば、低ビットレートの効率的なデコーダが実現される。
このようなビットレートの低減効果は、コーデックの切り替えが速い場合、及び、符号化に多くのビットを必要とする低遅延エンコーダの場合に特に顕著となる。
(変形例)
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムで実現され得る。RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、ROMからRAMにコンピュータプログラムをロードし、ロードしたコンピュータプログラムにしたがって演算等の動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されてもよい。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールには、上記の超多機能LSIが含まれてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有してもよい。
(4)本発明は、上記に示す方法で実現されてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムで実現してもよいし、コンピュータプログラムからなるデジタル信号で実現してもよい。
また、本発明は、コンピュータプログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray(登録商標) Disc)、半導体メモリなどに記録したもので実現してもよい。また、これらの記録媒体に記録されているデジタル信号で実現してもよい。
また、本発明は、コンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送してもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、メモリは、コンピュータプログラムを記憶しており、マイクロプロセッサは、コンピュータプログラムにしたがって動作してもよい。
また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
なお、本発明は、これらの実施の形態またはその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態またはその変形例に施したもの、あるいは異なる実施の形態またはその変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
本発明は、オーディオブック、放送システム、携帯型メディアデバイス、携帯通信端末(例えば、スマートフォン、タブレット型コンピュータ)、テレビ会議装置、及びネットワーク上の音楽演奏など、音声コンテンツ又は音楽コンテンツを含む信号の符号化に関連する用途に用いられる。
100 音信号ハイブリッドエンコーダ
200 音信号ハイブリッドデコーダ
400、503 LD解析フィルタバンク
401 MPSエンコーダ
402 SBRエンコーダ
403、500 LD合成フィルタバンク
404 信号解析部
405、505 切替部
406 MDCTエンコーダ
407、409、411、414、416、417 量子化器
408 LPエンコーダ
410 TCXエンコーダ
412 ローカルデコーダ
413 AC信号生成部
415 ビットストリームマルチプレクサ
501 MPSデコーダ
502 SBRデコーダ
504 加算器(加算部)
506 IMDCTデコーダ
507、509、511、514、516、517 逆量子化器
508 LPデコーダ
510 TCXデコーダ
513 AC出力信号生成部
515 ビットストリームデマルチプレクサ
700、800 第1のAC候補生成器
701、801 第2のAC候補生成器
702、802、803 AC候補選択器

Claims (20)

  1. 音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析部と、
    前記フレームをLFD(Lapped Frequency Domain)変換することによって当該フレームを符号化したLFDフレームを生成するLFDエンコーダと、
    前記フレームの線形予測係数を算出することによって当該フレームを符号化したLP(Linear Prediction)フレームを生成するLPエンコーダと、
    前記信号解析部の判断結果に応じて、前記フレームを前記LFDエンコーダによって符号化するか、前記LPエンコーダによって符号化するかの切替を行う切替部と、
    前記切替部の切替制御によって前記LPフレームと連続する前記LFDフレームであるAC(Aliasing Cancel)対象フレームの少なくとも一部を復号した信号と、前記AC対象フレームに連続する前記LPフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコーダと、
    前記AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するAC信号生成部とを備え、
    前記AC信号生成部は、前記AC対象フレームが前記LPフレームの直後に連続する場合、または前記AC対象フレームが前記LPフレームの直前に連続するフレームである場合において、(1)複数の方式の中から選択した1つの方式にしたがって、前記AC信号を生成して出力し、かつ、(2)前記選択した1つの方式を示すACフラグを出力する
    音信号ハイブリッドエンコーダ。
  2. 前記AC信号生成部は、第1の方式及び前記第1の方式とは異なる第2の方式の中から選択した1つの方式にしたがって前記AC信号を生成して出力する
    請求項1に記載の音信号ハイブリッドエンコーダ。
  3. さらに、前記AC信号を量子化する量子化器を備え、
    前記AC信号生成部は、前記第1の方式及び前記第2の方式のそれぞれを用いて2つの前記AC信号を生成し、生成した2つの前記AC信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記AC信号の生成に用いられた方式の前記AC信号を出力する
    請求項2に記載の音信号ハイブリッドエンコーダ。
  4. 前記AC対象フレームが前記LPフレームの直後に連続するフレームである場合、
    前記第1の方式は、前記AC対象フレームの直前のLPフレームを窓処理したゼロ入力応答を用いて前記AC信号を生成する方式であり、
    前記第2の方式は、前記ゼロ入力応答を用いることなく前記AC信号を生成する方式である
    請求項2または3に記載の音信号ハイブリッドエンコーダ。
  5. 前記第1の方式は、USAC(Unified Speech And Audio Codec)において規格化された方式であり、
    前記第2の方式は、生成されるAC信号の量子化後の符号量が前記第1の方式よりも小さくなることが見込まれる方式である
    請求項2〜4のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  6. 前記AC信号生成部は、前記音信号に含まれるフレームのフレームサイズが所定の大きさよりも大きい場合は、前記第1の方式を選択し、前記音信号に含まれるフレームのフレームサイズが前記所定の大きさ以下の場合は、前記第2の方式を選択する
    請求項5に記載の音信号ハイブリッドエンコーダ。
  7. さらに、前記AC信号を量子化する量子化器を備え、
    前記AC信号生成部は、前記第1の方式で前記AC信号を生成し、前記第1の方式で生成した前記AC信号の前記量子化器による量子化後の符号量が所定の閾値よりも小さい場合は、前記第1の方式を選択し、
    前記第1の方式で生成した前記AC信号の前記量子化器による量子化後の符号量が所定の閾値以上である場合は、さらに前記第2の方式で前記AC信号を生成し、前記第1の方式で生成した前記AC信号及び前記第2の方式で生成した前記AC信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記AC信号を出力する
    請求項2〜6のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  8. 前記AC信号生成部は、さらに、
    前記第1の方式で前記AC信号を生成する第1のAC候補生成器と、
    前記第2の方式で前記AC信号を生成する第2のAC候補生成器と、
    (1)前記第1のAC候補生成器及び前記第2のAC候補生成器のうちから選択した1つのAC候補生成器が生成する前記AC信号を出力し、かつ、(2)出力される前記AC信号が前記第1の方式及び前記第2の方式のいずれの方式を用いて生成されたかを示す前記ACフラグを出力するAC候補選択器とを備える
    請求項2〜7のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  9. さらに、
    入力信号に対して時間周波数領域表現に変換した信号である入力サブバンド信号を生成するLD(Low Delay)解析フィルタバンクと、
    前記入力サブバンド信号から、マルチチャンネル拡張パラメータ及びダウンミックスサブバンド信号を生成するマルチチャンネル拡張部と、
    前記ダウンミックスサブバンド信号から、帯域幅拡張パラメータ及び狭帯域サブバンド信号を生成する帯域幅拡張部と、
    前記狭帯域サブバンド信号を時間周波数領域表現から時間領域表現に変換した信号である前記音信号を生成するLD合成フィルタバンクと、
    前記マルチチャンネル拡張パラメータ、前記帯域幅拡張パラメータ、出力された前記AC信号、前記LFDフレーム、及び前記LPフレームを量子化する量子化器と、
    前記量子化器が量子化した信号及び前記ACフラグを多重化して送信するビットストリームマルチプレクサとを備える
    請求項1〜8のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  10. 前記LFDエンコーダは、TCX方式によって前記フレームを符号化する
    請求項1〜9のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  11. 前記LFDエンコーダは、MDCTによって前記フレームを符号化し、
    前記切替部は、前記LFDエンコーダが符号化する前記フレームに対し窓処理を行い、
    前記窓処理に用いられる窓は、前記フレームの長さの2分の1よりも短い期間において単調増加または単調減少する
    請求項1〜10のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  12. LFD変換により符号化されたLFDフレームと、線形予測係数を用いて符号化されたLPフレームと、前記LPフレームと連続する前記LFDフレームであるAC対象フレームのエイリアシングの除去を行うためのAC信号とが含まれる符号化信号を復号する音信号ハイブリッドデコーダであって、
    前記LFDフレームを復号するILFD(Inverse Lapped Frequency Domain)デコーダと、
    前記LPフレームを復号するLPデコーダと、
    前記ILFDデコーダが復号したフレームに窓処理を行ったフレームと、前記LPデコーダが復号したフレームとを順番に整列した第2の狭帯域信号を出力する切替部と、
    前記AC信号の生成に用いられた方式を示すACフラグを取得し、前記ACフラグが示す方式に応じて、前記切替部、前記ILFDデコーダ、または前記LPデコーダから出力される信号を前記AC信号に加算したAC出力信号を生成するAC出力信号生成部と、
    前記第2の狭帯域信号のうちの前記AC対象フレームに相当する部分に、前記AC出力信号を加算した第3の狭帯域信号を出力する加算部とを備える
    音信号ハイブリッドデコーダ。
  13. さらに、
    量子化された前記符号化信号と、前記ACフラグとが含まれるビットストリームを取得するビットストリームデマルチプレクサと、
    前記量子化された前記符号化信号を逆量子化して前記符号化信号を生成する逆量子化器と、
    前記加算部から出力される前記第3の狭帯域信号を時間周波数領域表現に変換することにより、狭帯域サブバンド信号を生成するLD解析フィルタバンクと、
    前記逆量子化器により生成された符号化信号に含まれる帯域幅拡張パラメータを前記狭帯域サブバンド信号に適用することにより、高周波信号を合成し、帯域幅が拡張されたサブバンド信号を生成する帯域幅拡張復号部と、
    前記逆量子化器により生成された符号化信号に含まれるマルチチャンネル拡張パラメータを前記帯域幅が拡張されたサブバンド信号に適用することにより、マルチチャンネルサブバンド信号を生成するマルチチャンネル拡張復号部と、
    前記マルチチャンネルサブバンド信号を時間周波数領域表現から時間領域表現に変換した信号であるマルチチャンネル信号を生成するLD合成フィルタバンクとを備える
    請求項12に記載の音信号ハイブリッドデコーダ。
  14. 前記AC信号は、第1の方式または前記第1の方式とは異なる第2の方式によって生成され、
    前記AC出力信号生成部は、さらに、
    前記第1の方式で生成された前記AC信号に対応する前記AC出力信号を生成する第1のAC候補生成器と、
    前記第2の方式で生成された前記AC信号に対応する前記AC出力信号を生成する第2のAC候補生成器と、
    前記ACフラグに応じて、前記第1のAC候補生成器及び前記第2のAC候補生成器のいずれか一方を選択し、選択したAC候補生成器に前記AC出力信号を生成させるAC候補選択器とを備える
    請求項12または13に記載の音信号ハイブリッドデコーダ。
  15. 音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析ステップと、
    前記フレームをLFD(Lapped Frequency Domain)変換することによって当該フレームを符号化したLFDフレームを生成するLFDエンコードステップと、
    前記フレームの線形予測係数を算出することによって当該フレームを符号化したLP(Linear Prediction)フレームを生成するLPエンコードステップと、
    前記信号解析ステップの判断結果に応じて、前記フレームを前記LFDエンコードステップにおいて符号化するか、前記LPエンコードステップにおいて符号化するかの切替を行う切替ステップと、
    前記切替ステップの切替制御によって前記LPフレームと連続する前記LFDフレームであるAC(Aliasing Cancel)対象フレームの少なくとも一部を復号した信号と、前記AC対象フレームに連続する前記LPフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコードステップと、
    前記AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するAC信号生成ステップとを含み、
    前記AC信号生成ステップでは、前記AC対象フレームが前記LPフレームの直後に連続する場合、または前記AC対象フレームが前記LPフレームの直前に連続するフレームである場合において、(1)複数の方式の中から選択した1つの方式にしたがって、前記AC信号を生成して出力し、かつ、(2)前記選択した1つの方式を示すACフラグを出力する
    音信号符号化方法。
  16. 請求項15に記載の音信号符号化方法をコンピュータに実行させるためのプログラム。
  17. 音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析部と、
    前記フレームをLFD(Lapped Frequency Domain)変換することによって当該フレームを符号化したLFDフレームを生成するLFDエンコーダと、
    前記フレームの線形予測係数を算出することによって当該フレームを符号化したLP(Linear Prediction)フレームを生成するLPエンコーダと、
    前記信号解析部の判断結果に応じて、前記フレームを前記LFDエンコーダによって符号化するか、前記LPエンコーダによって符号化するかの切替を行う切替部と、
    前記切替部の切替制御によって前記LPフレームと連続する前記LFDフレームであるAC(Aliasing Cancel)対象フレームの少なくとも一部を復号した信号と、前記AC対象フレームに連続する前記LPフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコーダと、
    前記AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するAC信号生成部とを備え、
    前記AC信号生成部は、前記AC対象フレームが前記LPフレームの直後に連続する場合、または前記AC対象フレームが前記LPフレームの直前に連続するフレームである場合において、(1)複数の方式の中から選択した1つの方式にしたがって、前記AC信号を生成して出力し、かつ、(2)前記選択した1つの方式を示すACフラグを出力する
    集積回路。
  18. LFD変換により符号化されたLFDフレームと、線形予測係数を用いて符号化されたLPフレームと、前記LPフレームと連続する前記LFDフレームであるAC対象フレームのエイリアシングの除去を行うためのAC信号とが含まれる符号化信号を復号する音信号復号方法であって、
    前記LFDフレームを復号するILFDデコードステップと、
    前記LPフレームを復号するLPデコードステップと、
    前記ILFDデコードステップで復号したフレームに窓処理を行ったフレームと、前記LPデコードステップにおいて復号したフレームとを順番に整列した第2の狭帯域信号を出力する切替ステップと、
    前記AC信号の生成に用いられた方式を示すACフラグを取得し、前記ACフラグが示す方式に応じて、前記切替ステップ、前記ILFDデコードステップ、または前記LPデコードステップにおいて出力される信号を前記AC信号に加算したAC出力信号を生成するAC出力信号生成ステップと、
    前記第2の狭帯域信号のうちの前記AC対象フレームに相当する部分に、前記AC出力信号を加算した第3の狭帯域信号を出力する加算ステップとを含む
    音信号復号方法。
  19. 請求項18に記載の音信号復号方法をコンピュータに実行させるためのプログラム。
  20. LFD変換により符号化されたLFDフレームと、線形予測係数を用いて符号化されたLPフレームと、前記LPフレームと連続する前記LFDフレームであるAC対象フレームのエイリアシングの除去を行うためのAC信号とが含まれる符号化信号を復号する集積回路であって、
    前記LFDフレームを復号するILFDデコーダと、
    前記LPフレームを復号するLPデコーダと、
    前記ILFDデコーダが復号したフレームに窓処理を行ったフレームと、前記LPデコーダが復号したフレームとを順番に整列した第2の狭帯域信号を出力する切替部と、
    前記AC信号の生成に用いられた方式を示すACフラグを取得し、前記ACフラグが示す方式に応じて、前記切替部、前記ILFDデコーダ、または前記LPデコーダから出力される信号を前記AC信号に加算したAC出力信号を生成するAC出力信号生成部と、
    前記第2の狭帯域信号のうち、復号後の前記AC対象フレームに相当する部分に、前記AC出力信号を加算した第3の狭帯域信号を出力する加算部とを備える
    集積回路。
JP2013537355A 2012-05-11 2013-05-08 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法 Active JP6126006B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012108999 2012-05-11
JP2012108999 2012-05-11
PCT/JP2013/002950 WO2013168414A1 (ja) 2012-05-11 2013-05-08 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法

Publications (2)

Publication Number Publication Date
JPWO2013168414A1 JPWO2013168414A1 (ja) 2016-01-07
JP6126006B2 true JP6126006B2 (ja) 2017-05-10

Family

ID=49550477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013537355A Active JP6126006B2 (ja) 2012-05-11 2013-05-08 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法

Country Status (5)

Country Link
US (1) US9489962B2 (ja)
EP (1) EP2849180B1 (ja)
JP (1) JP6126006B2 (ja)
CN (1) CN103548080B (ja)
WO (1) WO2013168414A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2639952C2 (ru) * 2013-08-28 2017-12-25 Долби Лабораторис Лайсэнзин Корпорейшн Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
RU2665281C2 (ru) * 2013-09-12 2018-08-28 Долби Интернэшнл Аб Временное согласование данных обработки на основе квадратурного зеркального фильтра
KR101498113B1 (ko) * 2013-10-23 2015-03-04 광주과학기술원 사운드 신호의 대역폭 확장 장치 및 방법
EP2980796A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US10504530B2 (en) 2015-11-03 2019-12-10 Dolby Laboratories Licensing Corporation Switching between transforms
RU2718418C2 (ru) * 2015-11-09 2020-04-02 Сони Корпорейшн Устройство декодирования, способ декодирования и программа
ES2830954T3 (es) 2016-11-08 2021-06-07 Fraunhofer Ges Forschung Mezclador descendente y método para la mezcla descendente de al menos dos canales y codificador multicanal y decodificador multicanal
PL3568853T3 (pl) * 2017-01-10 2021-06-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio, enkoder audio, sposób dostarczania dekodowanego sygnału audio, sposób dostarczania enkodowanego sygnału audio, strumień audio, moduł dostarczania strumienia audio i program komputerowy używający identyfikator strumienia
CN107454416B (zh) * 2017-09-12 2020-06-30 广州酷狗计算机科技有限公司 视频流发送方法和装置
KR20210135492A (ko) * 2019-03-05 2021-11-15 소니그룹주식회사 신호 처리 장치 및 방법, 그리고 프로그램
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、***、电子设备和存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8421498D0 (en) * 1984-08-24 1984-09-26 British Telecomm Frequency domain speech coding
ES2085680T5 (es) * 1989-01-27 2002-10-16 Dolby Lab Licensing Corp Asignacion adaptativa de bits para un codificador y un descodificador de audio.
US6124811A (en) * 1998-07-02 2000-09-26 Intel Corporation Real time algorithms and architectures for coding images compressed by DWT-based techniques
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US6426977B1 (en) * 1999-06-04 2002-07-30 Atlantic Aerospace Electronics Corporation System and method for applying and removing Gaussian covering functions
US6917913B2 (en) * 2001-03-12 2005-07-12 Motorola, Inc. Digital filter for sub-band synthesis
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
WO2009078681A1 (en) * 2007-12-18 2009-06-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
RU2515704C2 (ru) * 2008-07-11 2014-05-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер и аудиодекодер для кодирования и декодирования отсчетов аудиосигнала
CA2871268C (en) * 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
AU2009267518B2 (en) * 2008-07-11 2012-08-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
JP5555707B2 (ja) * 2008-10-08 2014-07-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチ分解能切替型のオーディオ符号化及び復号化スキーム
KR101377703B1 (ko) * 2008-12-22 2014-03-25 한국전자통신연구원 광대역 인터넷 음성 단말 장치
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP4892021B2 (ja) * 2009-02-26 2012-03-07 株式会社東芝 信号帯域拡張装置
RU2557455C2 (ru) 2009-06-23 2015-07-20 Войсэйдж Корпорейшн Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала
WO2011013980A2 (en) 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2011034374A2 (en) 2009-09-17 2011-03-24 Lg Electronics Inc. A method and an apparatus for processing an audio signal
RU2591011C2 (ru) * 2009-10-20 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров)
BR112012009032B1 (pt) 2009-10-20 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio, método para prover uma representação decodificada de um conteúdo de áudio para uso em aplicações de baixo retardamento
US9613630B2 (en) * 2009-11-12 2017-04-04 Lg Electronics Inc. Apparatus for processing a signal and method thereof for determining an LPC coding degree based on reduction of a value of LPC residual
EP2524374B1 (en) * 2010-01-13 2018-10-31 Voiceage Corporation Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering
US9275650B2 (en) * 2010-06-14 2016-03-01 Panasonic Corporation Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs
DK3239979T3 (da) * 2010-10-25 2024-05-27 Voiceage Evs Llc Kodning af generiske audiosignaler ved lave bitrater og lav forsinkelse
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee

Also Published As

Publication number Publication date
EP2849180B1 (en) 2020-01-01
CN103548080A (zh) 2014-01-29
CN103548080B (zh) 2017-03-08
WO2013168414A1 (ja) 2013-11-14
US20140074489A1 (en) 2014-03-13
JPWO2013168414A1 (ja) 2016-01-07
EP2849180A1 (en) 2015-03-18
US9489962B2 (en) 2016-11-08
EP2849180A4 (en) 2015-04-22

Similar Documents

Publication Publication Date Title
JP6126006B2 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
JP6941643B2 (ja) 全帯域ギャップ充填を備えた周波数ドメインプロセッサと時間ドメインプロセッサとを使用するオーディオ符号器及び復号器
JP6262668B2 (ja) 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
JP6310074B2 (ja) インテリジェントギャップ充填フレームワーク内の2チャネル処理を用いるオーディオ符号器、オーディオ復号器およびその方法
US8321210B2 (en) Audio encoding/decoding scheme having a switchable bypass
JP5203930B2 (ja) 高帯域時間軸伸縮を行うシステム、方法、および装置
RU2485606C2 (ru) Схема кодирования/декодирования аудио сигналов с низким битрейтом с применением каскадных переключений
JP2013508761A (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
MX2011000383A (es) Esquema de codificacion/decodificacion de audio a baja tasa de bits con pre-procesamiento comun.
KR20130133846A (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170406

R151 Written notification of patent or utility model registration

Ref document number: 6126006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151