JP5404412B2 - 符号化装置、復号装置およびこれらの方法 - Google Patents

符号化装置、復号装置およびこれらの方法 Download PDF

Info

Publication number
JP5404412B2
JP5404412B2 JP2009538955A JP2009538955A JP5404412B2 JP 5404412 B2 JP5404412 B2 JP 5404412B2 JP 2009538955 A JP2009538955 A JP 2009538955A JP 2009538955 A JP2009538955 A JP 2009538955A JP 5404412 B2 JP5404412 B2 JP 5404412B2
Authority
JP
Japan
Prior art keywords
signal
monaural
quantized value
energy ratio
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009538955A
Other languages
English (en)
Other versions
JPWO2009057329A1 (ja
Inventor
コック セン チョン
幸司 吉田
正浩 押切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2009538955A priority Critical patent/JP5404412B2/ja
Publication of JPWO2009057329A1 publication Critical patent/JPWO2009057329A1/ja
Application granted granted Critical
Publication of JP5404412B2 publication Critical patent/JP5404412B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、変換符号化音源(TCX)コーデックにインテンシティステレオを適用する符号化装置、復号装置およびこれらの方法に関する。
従来の音声通信システムでは、限定された帯域制限下でモノラル音声信号を送信する。通信ネットワークのブロードバンド化に伴い、音声通信に対するユーザの期待は、単なる明瞭さから自然らしさの提供へと移行しており、ステレオ音声を提供するトレンドが出現している。このモノラルシステムおよびステレオシステムが並存する過渡的時点においては、モノラルシステムとの下位互換性を維持しながらステレオ通信を実現することが望ましい。
前述の目標を達成するため、モノラル音声コーデック上にステレオ音声符号化システムを構築することができる。モノラル音声コーデックは、通常、ステレオ信号のダウンミックスにより生成されるモノラル信号に対して符号化を行う。ステレオ音声符号化システムは、復号器で復号されたモノラル信号に対して追加処理を適用しステレオ信号を復元する。
モノラルコーデックとの下位互換性を維持しながらステレオ符号化を実現する多くの先行技術が存在する。図9および図10は、それぞれ一般的な変換符号化音源(TCX)コーデックの符号化装置および復号装置を示す。TCXの高度な変形を使用する周知のコーデックとしてAMR−WB+が知られている(非特許文献1参照)。
図9に示す符号化装置において、まず、ステレオ信号における左信号L(n)および右信号R(n)は、加算器1と乗算器2とによりモノラル信号M(n)に変換され、減算器3と乗算器4とによりサイド信号S(n)に変換される(式(1))。
Figure 0005404412
モノラル信号M(n)は、線形予測(LP)処理されることによって音源信号M(n)に変換される。線形予測は、音声信号を(線形予測係数によってパラメータ化された)フォルマント成分および音源成分に分離して符号化を行うような音声符号化に、ごく一般的に使用されている。
また、モノラル信号M(n)はLP分析部5でLP分析され、線形予測係数A(z)が生成される。線形予測係数A(z)は量子化器6で量子化、符号化され、符号化情報AqMが得られる。符号化情報AqMは逆量子化器7で逆量子化され、線形予測係数AdM(z)が得られる。モノラル信号M(n)は、LP逆フィルタ8で線形予測係数AdM(z)を用いたLP逆フィルタリング処理され、モノラル音源信号M(n)が得られる。
低ビットレート符号化の場合、モノラル音源信号M(n)は音源符号帳を用いた符号化が行われる(非特許文献1参照)。高ビットレート符号化の場合、モノラル音源信号M(n)は、T/F変換部9で時間領域から周波数領域へT/F変換されてM(f)となる。この目的のため、離散フーリエ変換(DFT)あるいは変形離散コサイン変換(MDCT)のいずれかを使用することができる。MDCTの場合、2つの信号フレームの連
結が必要となる。周波数領域の音源信号M(f)の一部は、量子化器10で量子化され、符号化情報Mqeとなる。なお、量子化器10ではハフマン符号化などのロスレス符号化方法を使用して量子化符号情報量をさらに圧縮することもできる。
サイド信号S(n)にも、モノラル信号M(n)と同様な一連の処理がされる。すなわち、サイド信号S(n)はLP分析部11でLP分析され、線形予測係数A(z)が生成される。線形予測係数A(z)は量子化器12で量子化、符号化され、符号化情報AqSが得られる。符号化情報AqSは逆量子化器13で逆量子化され、線形予測係数AdS(z)が得られる。サイド信号S(n)は、LP逆フィルタ14で線形予測係数AdS(z)を用いたLP逆フィルタリング処理され、サイド音源信号S(n)が得られる。サイド音源信号S(n)は、T/F変換部15で時間領域から周波数領域へT/F変換されてS(f)となる。周波数領域のサイド音源信号S(f)の一部は、量子化器16で量子化され、符号化情報Sqeとなる。量子化・符号化されたすべての情報は、多重化部17で多重化されビットストリームを形成する。
図10に示す復号装置においてモノラル復号を行う場合、線形予測係数の符号化情報AqMおよび周波数領域のモノラル音源信号の符号化情報Mqeが分離部21でビットストリームから多重分離され処理される。符号化情報AqMは逆量子化器22で復号および逆量子化され、線形予測係数AdM(z)が得られる。一方、符号化情報Mqeは、逆量子化器23で復号および逆量子化され、周波数領域のモノラル音源信号Mde(f)が得られる。周波数領域のモノラル音源信号Mde(f)は、F/T変換部24で周波数領域から時間領域へF/T変換されてMde(n)となる。Mde(n)はLP合成部25で線形予測係数AdM(z)を用いてLP合成されモノラル信号M(n)が復元される。
ステレオ復号を行う場合、サイド信号に関する情報は、分離部21でビットストリームから多重分離される。サイド信号にもモノラル信号と同様の一連の処理がなされる。すなわち、符号化情報AqSに対する逆量子化器26による復号および逆量子化、符号化情報Sqeに対する逆量子化器27によるロスレス復号および逆量子化、F/T変換部28による周波数領域から時間領域変換へのF/T変換およびLP合成部29によるLP合成である。
モノラル信号M(n)およびサイド信号S(n)が復元されると、左右の信号Lout(n)、Rout(n)は、加算器30、減算器31により、次の式(2)のように復元することができる。
Figure 0005404412
モノラル下位互換性を有するステレオコーデックの他の例として、インテンシティステレオ(IS)を使用するものがある。インテンシティステレオの利点は、非常に低い符号化ビットレートを実現できることである。インテンシティステレオは、人間の耳の心理音響特性を利用するので聴感符号化の手段と考えられる。およそ5kHz以上の周波数で、人間の耳は左右の信号間の位相関係に対して鈍感である。したがって、左右の信号がそれぞれ同じエネルギーレベルに設定されたモノラル信号で置き換えられていても、人間は元の信号のステレオ感とほぼ同じように感じる。インテンシティステレオでは、復号信号における原音のステレオ感覚を維持するために、モノラル信号およびスケールファクタ(scale factor)のみの符号化が必要とされる。サイド信号は符号化されないので、ビットレートを低減することができる。インテンシティステレオはMPEG2/4 AACで用いられている(非特許文献2参照)。
図11は、インテンシティステレオを用いた一般的な符号化装置の構成を示すブロック図である。左信号L(n)および右信号R(n)は、T/F変換部41および42で時間領域から周波数領域へT/F変換され、それぞれL(f)およびR(f)となる。周波数領域の左信号L(f)および右信号R(f)は、加算器43と乗算器44とにより周波数領域のモノラル信号M(f)に変換され、減算器45と乗算器46とにより周波数領域のサイド信号S(f)に変換される(式(3))。
Figure 0005404412
M(f)は、量子化器47で量子化およびロスレス符号化され、符号化情報Mが得られる。インテンシティステレオを低周波数範囲に適用することは適切でないため、S(f)の低周波数部分(すなわち5kHz未満)はスペクトル分割部48で抽出され、量子化器49で量子化およびロスレス符号化され、符号化情報Sqlが得られる。
インテンシティステレオに対するスケールファクタを計算するため、左信号L(f)、右信号R(f)およびモノラル信号M(f)の高周波数部分は、それぞれスペクトル分割部51、52、53から抽出される。この出力をL(f)、R(f)およびM(f)で表記する。左信号用のスケールファクタαおよび右信号用のスケールファクタβは、それぞれスケールファクタ算出部54、55で次の式(4)により計算される。
Figure 0005404412
スケールファクタαおよびβは、それぞれ量子化器56、57で量子化される。すべての量子化・符号化情報は、多重化部58で多重化されビットストリームが形成される。
図12は、インテンシティステレオを用いた一般的な復号装置の構成を示すブロック図である。すべてのビットストリーム情報は、まず、分離部61で多重分離される。モノラル信号は、逆量子化器62でロスレス復号および逆量子化され、周波数領域モノラル信号M(f)が復元される。モノラル復号のみが行われる場合、M(f)はM(n)に変換され復号処理が完了する。
ステレオ復号を行う場合、M(f)は、スペクトル分割部63で、M(f)の高周波成分Mdh(f)と低周波成分Mdl(f)とに分割される。また、ステレオ復号を行う場合、サイド信号の符号化情報の低周波数部分Sqlは、逆量子化器64でロスレス復号および逆量子化され、Sdl(f)が得られる。
左右の信号の低周波数部分Ldl(f)およびRdl(f)は、加算器65、減算器66で、Mdl(f)およびSdl(f)を用いて、次の式(5)により復元される。
Figure 0005404412
インテンシティステレオに対するスケールファクタαおよびβは、逆量子化器67,68で逆量子化され、それぞれαおよびβとなる。そして、左右の信号の高周波数部分Ldh(f)およびRdh(f)は、乗算器69、70で、Mdh(f)、αおよびβを用いて次の式(6)により復元される。
Figure 0005404412
左信号の低、高周波数部分Ldl(f)およびLdh(f)は、合成部71で合成され、左信号の全帯域スペクトルLout(f)が得られる。同様に、右信号の低、高周波数部分Rdl(f)およびRdh(f)は、合成部72で合成され、右信号の全帯域スペクトルRout(f)が得られる。
最後に、Lout(f)およびRout(f)が、それぞれF/T変換部73、74で周波数領域から時間領域へF/T変換され、Lout(n)およびRout(n)が得られる。
3GPP TS 26.290 "Extended AMR Wideband Speech Codec (AMR-WB+)" Jurgen Herre, "From Joint Stereo to Spatial Audio Coding - Recent Progress and Standardization", Proc of the 7th International Conference on Digital Audio Effects, Naples, Italy, October 5-8, 2004.
(n)およびS(n)の両方を共に、高品質かつ低ビットレートで符号化することは困難である。この問題は、先行技術であるAMR−WB+(非特許文献1)を参照することによって説明することができる。
高ビットレートでは、サイド音源信号は周波数領域(DFTまたはMDCT)に変換され、周波数領域においてビットレートに応じて符号化対象の最大の帯域を決定し、符号化を行う。低ビットレートでは、変換符号化で符号化できる帯域は狭すぎるので、その代わりに符号帳駆動(code excitation)手法による符号化を行う。この手法では音源信号は、(きわめて少数のビットしか必要としない)符号帳インデックスで表わされる。しかしながら、符号帳駆動手法は音声信号に対する符号化の性能は十分であるが、一方で、オーディオ信号に対する音質は十分ではない。
本発明の目的は、低ビットレートのままで、ステレオ信号の音質を改善することができる符号化装置、復号装置およびこれらの方法を提供することである。
本発明の符号化装置は、入力ステレオ信号の第1チャネル信号および第2チャネル信号を合成してモノラル信号を生成し、前記第1チャネル信号と前記第2チャネル信号との差分であるサイド信号を生成するモノラル信号生成手段と、前記モノラル信号を時間領域から周波数領域に変換する第1変換手段と、前記サイド信号を時間領域から周波数領域に変換する第2変換手段と、前記周波数領域に変換されたモノラル信号を量子化して第1量子化値を得る第1量子化手段と、前記周波数領域に変換されたサイド信号の所定周波数以下の帯域である低周波数部分を量子化して第2量子化値を得る第2量子化手段と、前記第1チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第1エネルギー比を算出する第1スケールファクタ算出手段と、前記第2チャネル信号の前記所定周波数より高い帯域である高
周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第2エネルギー比を算出する第2スケールファクタ算出手段と、前記第1エネルギー比を量子化して第3量子化値を得る第3量子化手段と、前記第2エネルギー比を量子化して第4量子化値を得る第4量子化手段と、前記第1量子化値、前記第2量子化値、前記第3量子化値及び前記第4量子化値を送信する送信手段と、を具備する構成を採る。
本発明の復号装置は、入力ステレオ信号の第1チャネル信号および第2チャネル信号を合成することにより生成されたモノラル信号を周波数領域に変換して量子化した前記第1量子化値、前記第1チャネル信号と前記第2チャネル信号との差分であるサイド信号を周波数領域に変換して所定周波数以下の帯域である低周波数部分を量子化した第2量子化値、前記第1チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第1エネルギー比を量子化した前記第3量子化値、及び、前記第2チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第2エネルギー比を量子化した第4量子化値を受信する受信手段と、前記第1量子化値から前期周波数領域のモノラル信号を復号する第1復号手段と、前記第2量子化値から前記低周波数部分のサイド信号を復号する第2復号手段と、前記第3量子化値から前記第1エネルギー比を復号する第3復号手段と、前記第4量子化値から前記第2エネルギー比を復号する第4復号手段と、前記の周波数領域のモノラル信号の高周波数部分に対して、前記第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行い、スケーリング後のモノラル信号を生成する第1スケーリング手段と、前記の周波数領域のモノラル信号の高周波数部分に対して、前記第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行い、スケーリング後のサイド信号を生成する第2スケーリング手段と、前記スケーリング後のモノラル信号と低周波数部分のモノラル信号との合成信号を時間領域に変換する第3変換手段と、前記スケーリング後のサイド信号と低周波数部分のサイド信号との合成信号を時間領域に変換する第4変換手段と、前記第3変換手段により得られた時間領域のモノラル信号および第4変換手段より得られた時間領域のサイド信号を用いて、ステレオ信号の第1チャネル信号および第2チャネル信号を復号する復号手段と、を備え、前記第1スケーリング手段および第2スケーリング手段は、前記復号されたステレオ信号の第1チャネル信号および第2チャネル信号が、前記入力ステレオ信号の第1チャネル信号および第2チャネル信号とほぼ同じエネルギーとなるように、第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行う、構成を採る。
本発明の符号化方法は、入力ステレオ信号の第1チャネル信号および第2チャネル信号を合成してモノラル信号を生成し、前記第1チャネル信号と前記第2チャネル信号との差分であるサイド信号を生成するモノラル信号生成工程と、前記モノラル信号を時間領域から周波数領域に変換する第1変換工程と、前記サイド信号を時間領域から周波数領域に変換する第2変換工程と、前記周波数領域に変換されたモノラル信号を量子化して第1量子化値を得る第1量子化工程と、前記周波数領域に変換されたサイド信号の所定周波数以下の帯域である低周波数部分を量子化して第2量子化値を得る第2量子化工程と、前記第1チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第1エネルギー比を算出する第1スケールファクタ算出工程と、前記第2チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第2エネルギー比を算出する第2スケールファクタ算出工程と、前記第1エネルギー比を量子化して第3量子化値を得る第3量子化工程と、前記第2エネルギー比を量子化して第4量子化値を得る第4量子化工程と、前記第1量子化値、前記第2量子化値、前記第3量子化値及び前記第4量子化値を送信する送信工程と、を具備する方法を採る。
本発明の復号方法は、入力ステレオ信号の第1チャネル信号および第2チャネル信号を
合成することにより生成されたモノラル信号を周波数領域に変換して量子化した前記第1量子化値、前記第1チャネル信号と前記第2チャネル信号との差分であるサイド信号を周波数領域に変換して所定周波数以下の帯域である低周波数部分を量子化した第2量子化値、前記第1チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第1エネルギー比を量子化した前記第3量子化値、及び、前記第2チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第2エネルギー比を量子化した第4量子化値を受信する受信工程と、前記第1量子化値から前期周波数領域のモノラル信号を復号する第1復号工程と、前記第2量子化値から前記低周波数部分のサイド信号を復号する第2復号工程と、前記第3量子化値から前記第1エネルギー比を復号する第3復号工程と、前記第4量子化値から前記第2エネルギー比を復号する第4復号工程と、前記の周波数領域のモノラル信号の高周波数部分に対して、前記第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行い、スケーリング後のモノラル信号を生成する第1スケーリング工程と、前記の周波数領域のモノラル信号の高周波数部分に対して、前記第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行い、スケーリング後のサイド信号を生成する第2スケーリング工程と、前記スケーリング後のモノラル信号と低周波数部分のモノラル信号との合成信号を時間領域に変換する第3変換工程と、前記スケーリング後のサイド信号と低周波数部分のサイド信号との合成信号を時間領域に変換する第4変換工程と、前記第3変換工程により得られた時間領域のモノラル信号および第4変換工程より得られた時間領域のサイド信号を用いて、ステレオ信号の第1チャネル信号および第2チャネル信号を復号する復号工程と、を備え、前記第1スケーリング工程および第2スケーリング工程は、前記復号されたステレオ信号の第1チャネル信号および第2チャネル信号が、前記入力ステレオ信号の第1チャネル信号および第2チャネル信号とほぼ同じエネルギーとなるように、第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行う、方法を採る。
本発明により、変換符号化を低ビットレートで実現できるため、低ビットレートを維持したままで、ステレオ信号の音質を改善することができる。
本発明は、利用可能なビットの大多数を低周波数スペクトルの符号化に割り当て、利用可能な少数のビットを高周波数スペクトルに対してインテンシティステレオを適用するために割り当てる。
具体的には、本発明は、符号化装置において、TCXタイプのコーデックにおけるサイド音源信号の高周波数スペクトルの符号化に、インテンシティステレオを用いる。利用可能なビットの一部を用いて左右の音源信号とモノラル音源信号との間の高周波数エネルギー比の情報を送信する。復号装置では、上記のエネルギー比を用いて計算されたスケールファクタを用いて、復号処理により最終的に復元した左右の信号が原信号とほぼ同じエネルギーとなるように、周波数領域のモノラル音源信号およびサイド音源信号のエネルギーを調整する。
本発明により、人間の耳の心理音響特性を利用したインテンシティステレオの適用することで、変換符号化を低ビットレートで実現できるため、低ビットレートを維持したままで、ステレオ信号の音質を改善することができる。
TCXベースのモノラル信号/サイド信号符号化のフレームワークにおいては、LP逆フィルタリングにより得られる音源信号を周波数領域に変換したモノラル信号/サイド信号に対して量子化および符号化が行われる。従って、このような符号化のフレームワークにおいて、インテンシティステレオをモノラル信号に適用して左右の信号を直接構成するためには、復号器において、TCX復号装置でモノラル信号/サイド信号から復元された左右の信号を一旦周波数領域にT/F変換し、その高域側の周波数帯域に対してT/F変換した復元モノラル信号を用いたスケーリングを行った後に、得られた信号を用いて全帯域の信号として合成し、再び時間領域にF/T変換しなおす必要がある。この結果、新たな処理に伴う演算量増加と、T/F変換およびF/T変換に伴う追加の遅延が生じる。
本発明は、復元されたモノラル音源信号を周波数領域でスケーリングすることによって、間接的に周波数領域のサイド音源に対してインテンシティステレオを適用することができるため、新たな処理に伴う演算量増加やT/F変換およびF/T変換に伴う追加の遅延を生じることはない。
さらに、本発明は、インテンシティステレオを、線形予測とT/F変換を処理の一部として伴う広帯域拡張技術等の他の符号化技術と共存させることができる。
以下、本発明の各実施の形態について、図面を用いて説明する。
(実施の形態1)
図1は本実施の形態に係る符号化装置の構成を示すブロック図であり、図2は本実施の形態に係る復号装置の構成を示すブロック図である。これらは、変換符号化音源(TCX)符号化方式とインテンシティステレオを、本発明における有利な効果が得られるような工夫を施して組み合わせたものである。
図1に示す符号化装置において、ステレオ信号における左信号L(n)および右信号R(n)は、加算器101と乗算器102とによりモノラル信号M(n)に変換され、減算器103と乗算器104とによりサイド信号S(n)に変換される(上記式(1))。
モノラル信号M(n)はLP分析部105でLP分析され、線形予測係数A(z)が生成される。線形予測係数A(z)は量子化器106で量子化、符号化され、符号化情報AqMが得られる。符号化情報AqMは逆量子化器107で逆量子化され、線形予測係数AdM(z)が得られる。モノラル信号M(n)は、LP逆フィルタ108で線形予測係数AdM(z)を用いたLP逆フィルタリング処理され、モノラル音源信号M(n)が得られる。
モノラル音源信号M(n)は、T/F変換部109で時間領域から周波数領域へT/
F変換されてM(f)となる。この目的のため、離散フーリエ変換(DFT)あるいは変形離散コサイン変換(MDCT)のいずれかを使用できる。周波数領域のモノラル信号M(f)は、量子化器110で量子化され、符号化情報Mqeとなる。
サイド信号S(n)にも、モノラル信号M(n)と同様な一連の処理がされる。すなわち、サイド信号S(n)はLP分析部111でLP分析され、線形予測係数A(z)が生成される。線形予測係数A(z)は量子化器112で量子化、符号化され、符号化情報AqSが得られる。符号化情報AqSは逆量子化器113で逆量子化され、線形予測係数AdS(z)が得られる。サイド信号S(n)は、LP逆フィルタ114で線形予測係数AdS(z)を用いたLP逆フィルタリング処理され、サイド音源信号S(n)が得られる。サイド音源信号S(n)は、T/F変換部115で時間領域から周波数領域へT/F変換されてS(f)となる。周波数領域のサイド信号S(f)の低周波数部分Sel(f)は、スペクトル分割部116で抽出され、量子化器117で量子化され、符号化情報Sqelとなる。
インテンシティステレオのスケールファクタを計算するため、左信号L(n)に対して、LP逆フィルタ121およびT/F変換部122で、モノラル信号/サイド信号と同様なLP逆フィルタリングおよびT/F変換を施す必要がある。左信号L(n)は、LP逆フィルタ121で、モノラル信号の逆量子化線形予測係数AdM(z)を用いてLP逆フィルタリングされ、左音源信号L(n)が得られる。左音源信号L(n)は、T/F変換部122で時間領域から周波数領域に変換され、周波数領域の左信号L(f)が得られる。
また、符号化情報Mqeは、逆量子化器123で逆量子化され、周波数領域のモノラル信号Mde(f)が得られる。
本実施の形態では、スペクトル分割部124、125で、音源信号Mde(f)およびL(f)の高周波数部分は複数の帯域に分割される。ここで、i=1,2,・・・,Nは帯域の番号を示すインデックスであり、Nは高周波数部分の帯域分割数を示す。
図3は、任意の信号X(f)を用いたスペクトル分割処理を説明する図であり、N=4の例である。ここで、X(f)はMde(f)またはL(f)を示す。なお、各帯域は同一のスペクトル幅である必要はない。各帯域iは一組のスケールファクタαおよびβで特徴づけられる。各帯域の音源信号はMdeh,i(f)およびLeh,i(f)で示される。スケールファクタαおよびβは、それぞれスケールファクタ算出部126、127で次の式(7)により計算される。
Figure 0005404412
ここで、各帯域の右音源信号Reh,i(f)は、各帯域のモノラル音源信号Mdeh,i(f)および左音源信号Leh,i(f)から、それらの信号間の関係から算出するようにしたものであるが、右信号に対しても、左信号と同様に、LP逆フィルタ、T/F変換部およびスペクトル分割部により、直接Reh,i(f)を算出するようにしても良い。
なお、エネルギー比は上記式(7)に示すとおり音源領域で計算されるが、高周波数帯域における(LP逆フィルタリング前の)L/R信号とモノラル信号との間のエネルギー比を表すものである。したがって、左信号の逆フィルタリングに対しても、モノラル信号の逆量子化線形予測係数AdM(z)が使用される。
最後に、スケールファクタαおよびβは、それぞれ量子化器128、129で量子化され、それぞれ量子化情報αqiおよびβqiとなる。すべての量子化・符号化情報は、多重化部130で多重化されビットストリームとなる。
図2に示す復号装置において、まず、すべてのビットストリーム情報が分離部201で多重分離される。モノラル信号符号化情報Mqeは、逆量子化器202で復号され周波数領域のモノラル信号Mde(f)となる。Mde(f)は、F/T変換部203で周波数領域から時間領域へF/T変換され、モノラル音源信号Mde(n)が復元される。
符号化情報AqMは逆量子化器204で復号および逆量子化され、線形予測係数AdM(z)が得られる。Mde(n)はLP合成部205で線形予測係数AdM(z)を用いてLP合成されモノラル信号M(n)が復元される。
インテンシティステレオ動作を可能とするため、Mde(f)は、スペクトル分割部206で複数の信号帯域Mdel(f)およびMdeh,i(f)に分割される。
低周波数サイド信号の符号化情報Sqelは逆量子化器207で復号され、低周波数サイド信号Sdel(f)となる。符号化情報AqSは逆量子化器208で復号および逆量子化され、サイド信号に対する線形予測係数AdS(z)となる。量子化情報αqiおよびβqiは、それぞれ逆量子化器209、210で復号および逆量子化され、スケールファクタαdiおよびβdiとなる。
スケーリング部211で、各帯域のモノラル信号Mdeh,i(f)に対して、次の式(8)で示すスケールファクタαdiおよびβdiを用いたスケーリングが行われ、スケーリング後の各帯域のモノラル信号Mdeh2,i(f)が得られる。
Figure 0005404412
また、スケーリング部212で、各帯域のモノラル信号Mdeh,i(f)に対して、次の式(9)で示すスケールファクタαdiおよびβdiを用いたスケーリングが行われ、スケーリング後の各帯域のサイド信号Sdeh,i(f)が得られる。なお、式(9)における |AdS(z)/AdM(z)| は、帯域番号iで示す該当する周波数帯域に対する合成フィルタ1/AdM(z)と1/AdS(z)との間のLP予測利得比である。
Figure 0005404412
そして、以下の近似式(10)が成り立つとみなすことにより、高周波数スペクトルの各帯域を単位にした以下の式(11)が成り立つので、インテンシティステレオの原理が成立する、すなわち、モノラル信号に対するスケーリングにより原信号と同等のエネルギーを有する左右信号を復元していることを示すことができる。なお、周波数fからfまでの帯域に対応する |A(z)| は以下の式(12)から推定できる。式(12)のf
はサンプリング周波数、Nは整数(例えば512)、Δf=(f−f)/Nである。
Figure 0005404412
Figure 0005404412
Figure 0005404412
LP予測利得は、LP合成フィルタのインパルス応答に対して帯域通過フィルタをかけた信号のエネルギーを計算することによっても得ることができる。ここで、帯域通過フィルタリングは、帯域番号iで表記した該当周波数帯域用の通過帯域を持つ帯域通過フィルタを用いて実行する。
低周波数モノラル音源信号Mdel(f)は、合成部213で、エネルギーを調整したモノラル音源信号Mdeh2,i(f)と合成され、全帯域の音源信号Mde2(f)となる。Mde2(f)はF/T変換部214で周波数領域から時間領域にF/T変換されてMde2(n)となる。Mde2(n)はLP合成部215で線形予測係数AdM(z)を用いた合成フィルタリングが行われ、エネルギーを調整したモノラル信号Md2(n)が復元される。同様に、サイド信号の低周波数および高周波数部分Sdel(f)およびSdeh,i(f)は、合成部216で合成されてSde(f)となる。Sde(f)はF/T変換部217で周波数領域から時間領域にF/T変換されてSde(n)となる。Sde(n)はLP合成部218でAdS(z)を用いた合成フィルタリングが行われ、サイド信号S(n)が復元される。
モノラル信号Md2(n)およびサイド信号S(n)が復元されると、左右の信号Lout(n)、Rout(n)は、加算器219、減算器220により、次の式(13)のように復元される。
Figure 0005404412
このように、本実施の形態によれば、高周波数スペクトルに対してインテンシティステレオを適用することができるので、低ビットレートのままでステレオ信号の音質を改善することができる。
また、本実施の形態によれば、高周波数スペクトルは、複数の帯域に分割され各帯域が各々のスケールファクタ(左右の音源信号とモノラル音源信号との間のエネルギー比)を持たせるような構成であるため、ステレオ信号のエネルギーレベル差のより正確なスペクトル特性を生成することができ、より正確なステレオ感を実現することができる。
なお、本発明は、モノラル符号化に用いる符号化装置のタイプに制限はなく、例えば、TCX符号化装置、他のタイプの変換符号化装置、CELP(Code Excited Linear Prediction)等、どのようなタイプの符号化装置を用いても同様の効果を得ることができる。また、本発明の符号化装置は、スケーラブル符号化装置(ビットレートスケーラブルまたは帯域スケーラブル)、マルチレート符号化装置、可変レート符号化装置であってもよい。
また、本発明では、インテンシティステレオの帯域数は1つのみ(すなわちN=1)であってもよい。
また、本発明では、ベクトル量子化(VQ)を用いて一組のαdiおよびβdiを組にした量子化を行うようにしても良い。これにより、αdiおよびβdi間の相関を利用してより高い符号化効率を実現することができる。
(実施の形態2)
本発明の実施の形態2では、さらにビットレートを低減するため、サイド信号の線形予測係数A(z)の使用を省略し、代わりにモノラル信号に対する線形予測係数A(z)をS(n)の処理にも使用する場合について説明する。
図4は、本実施の形態に係る符号化装置の構成を示すブロック図である。なお、図4に示す符号化装置において、図1に示した符号化装置と共通する構成部分には、図1と同一符号を付し、詳しい説明を省略する。
図4に示す符号化装置は、図1に示した符号化装置と比較して、LP分析部111、量子化器112および逆量子化器113を削除した構成を採り、LP逆フィルタ114におけるS(n)に対するLP逆フィルタリングには、AdS(z)の代わりにAdM(z)が用いられる。
また、スペクトル分割部116において、高周波数サイド音源信号Seh,i(f)も出力される。
高周波数の左右の音源信号Leh,i(f)およびReh,i(f)は、次の式(14)に示すように周波数領域のモノラル音源信号Mdeh,i(f)およびサイド音源信号Seh,i(f)を用い、左右の音源信号とモノラル音源信号およびサイド音源信号との間の関係を利用して計算される。
Figure 0005404412
図5は、本実施の形態に係る復号装置の構成を示すブロック図である。なお、図5に示
す復号装置において、図2に示した復号装置と共通する構成部分には、図2と同一符号を付し、詳しい説明を省略する。
図5に示す復号装置は、図2に示した復号装置と比較して、逆量子化器208を削除した構成を採り、LP合成部218におけるサイド音源信号Sde(n)に対する合成フィルタリングには、AdS(z)の代わりにAdM(z)が用いられる。
また、図5に示す復号装置は、図2に示した復号装置と比較して、スケーリング部212のスケーリングが異なり、各帯域のモノラル信号Mdeh,i(f)に対して、次の式(15)で示すスケールファクタαdiおよびβdiを用いたスケーリングが行われ、スケーリング後の各帯域のサイド信号Sdeh,i(f)が得られる。
Figure 0005404412
高周波数部分の各帯域を単位にした以下の式(16)より、インテンシティステレオの原理が成立する。
Figure 0005404412
このように、本実施の形態によれば、実施の形態1に対して、サイド信号の線形予測係数A(z)の使用を省略し、代わりにモノラル信号に対する線形予測係数A(z)をS(n)の処理に使用することにより、さらにビットレートを低減することができる。
(実施の形態3)
本発明の実施の形態3ではは、TCXに基づくコーデックだけではなく、周波数領域でのモノラル/サイド信号符号化を実行する任意のコーデックに適用する場合について説明する。
本発明の実施の形態3では、インテンシティステレオを(モノラル/サイド音源信号の代わりに)モノラル/サイド信号に基づく符号化装置、復号装置に導入する場合について説明する。
図6は、本実施の形態に係る符号化装置の構成を示すブロック図である。なお、図6に示す符号化装置において、図1に示した符号化装置と共通する構成部分には、図1と同一符号を付し、詳しい説明を省略する。
図6に示す符号化装置は、図1に示した符号化装置と比較して、線形予測に関連したすべてのブロック(105、106、107、108、111、112、113、114、121)を削除した構成を採り、それら削除した部分以外の動作は実施の形態1の図1で示したものと同様である。
図7は、本実施の形態に係る復号装置の構成を示すブロック図である。なお、図7に示
す復号装置において、図2に示した復号装置と共通する構成部分には、図2と同一符号を付し、詳しい説明を省略する。図7に示す復号装置は、図2に示した復号装置と比較して、逆量子化器207、208およびLP合成部205、215、218を削除した構成を採る。
また、図7に示す復号装置は、図2に示した復号装置と比較して、スケーリング部211、212のスケーリングが異なり、それぞれ次の式(17)、(18)で示すスケーリングが行われる。
Figure 0005404412
Figure 0005404412
それ以外の動作は、図2に示したものと同様である。
このように、本実施の形態によれば、インテンシティステレオを周波数領域でのモノラル/サイド信号符号化を行うあらゆるコーデックに適用することができる。本発明により、復元されたモノラル音源信号を周波数領域でスケーリングすることによって、間接的に周波数領域のサイド音源に対してインテンシティステレオを適用することができるため、スケーリングにより直接左右の信号を生成する場合に必要となる追加の演算量増加やT/F変換およびF/T変換に伴う追加の遅延を生じないようにすることができる。
(実施の形態4)
実施の形態1で説明したTCX符号化にインテンシティステレオを組み合わせた符号化装置(図1)では、エネルギー比αおよびβ(i=1,2,・・・,N)を計算するため、時間領域音源信号を周波数領域に変換する必要がある。
これに対し、実施の形態4では、より単純化した方法として、帯域ごとに低次の帯域通過フィルタを使用する場合について説明する。
図8は、本実施の形態に係る符号化装置の構成を示すブロック図である。なお、図8に示す符号化装置において、図1に示した符号化装置と共通する構成部分には、図1と同一符号を付し、詳しい説明を省略する。
図8に示す符号化装置は、図1に示した符号化装置と比較して、T/F変換部122、逆量子化器123およびスペクトル分割部124、125を削除し、代わりに帯域通過フィルタ801、802を追加するものである。
左音源信号L(n)が各帯域に対応する帯域通過フィルタ801を通過することにより、高周波帯域i毎の左音源信号Leh,i(n)が抽出される。また、モノラル音源信号M(n)が各帯域に対応する帯域通過フィルタ802を通過することにより、高周波数帯域i毎のモノラル音源信号Mdeh,i(n)が抽出される。
本実施の形態の場合、エネルギー比αおよびβは、それぞれスケールファクタ算出部126、127で、次の式(19)に示すように、時間領域で計算される。
Figure 0005404412
このように、本実施の形態によれば、T/F変換を用いる代わりに帯域毎の低次の帯域通過フィルタを使用することにより、T/F変換を不要にしたことに伴う演算量の低減を図ることができる。
なお、インテンシティステレオ帯域(N=1)が一つのみの場合は、ひとつの高域フィルタのみとなる。
また、本実施の形態では、エネルギー比は、入力左信号L(n)(あるいは右信号R(n))および入力モノラル信号M(n)を用いて、LP逆フィルタを通すことなく直接帯域フィルタにかけた信号から計算することができる。
以上、本発明の実施の形態について説明した。
なお、上記の実施の形態1から4の全ての形態において、左信号(L)および右信号(R)は、左と右を逆に対応させて、左信号を右信号、右信号を左信号と置き換えても良いことは明らかである。
また、以上の説明は本発明の好適な実施の形態の例証であり、本発明の範囲はこれに限定されることはない。本発明は、符号化装置、復号装置を有するシステムであればどのような場合にも適用することができる。
また、本発明に係る符号化装置および復号装置は、例えば音声符号化装置および音声復号装置等として、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置と同様の機能を実現することができる。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2007年11月1日出願の特願2007−285607の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係る符号化装置および符号化方法は、携帯電話、IP電話、テレビ会議等に用いるに好適である。
本発明の実施の形態1に係る符号化装置の構成を示すブロック図 本発明の実施の形態1に係る復号装置の構成を示すブロック図 任意の信号X(f)を用いたスペクトル分割処理を説明する図 本発明の実施の形態2に係る符号化装置の構成を示すブロック図 本発明の実施の形態2に係る復号装置の構成を示すブロック図 本発明の実施の形態3に係る符号化装置の構成を示すブロック図 本発明の実施の形態3に係る復号装置の構成を示すブロック図 本発明の実施の形態4に係る符号化装置の構成を示すブロック図 一般的な変換符号化音源コーデックの符号化装置の構成を示すブロック図 一般的な変換符号化音源コーデックの復号装置の構成を示すブロック図 インテンシティステレオを用いた一般的な符号化装置の構成を示すブロック図 インテンシティステレオを用いた一般的な復号装置の構成を示すブロック図

Claims (7)

  1. 入力ステレオ信号の第1チャネル信号および第2チャネル信号を合成してモノラル信号を生成し、前記第1チャネル信号と前記第2チャネル信号との差分であるサイド信号を生成するモノラル信号生成手段と、
    前記モノラル信号を時間領域から周波数領域に変換する第1変換手段と、
    前記サイド信号を時間領域から周波数領域に変換する第2変換手段と、
    前記周波数領域に変換されたモノラル信号を量子化して第1量子化値を得る第1量子化手段と、
    前記周波数領域に変換されたサイド信号の所定周波数以下の帯域である低周波数部分を量子化して第2量子化値を得る第2量子化手段と、
    前記第1チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第1エネルギー比を算出する第1スケールファクタ算出手段と、
    前記第2チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第2エネルギー比を算出する第2スケールファクタ算出手段と、
    前記第1エネルギー比を量子化して第3量子化値を得る第3量子化手段と、
    前記第2エネルギー比を量子化して第4量子化値を得る第4量子化手段と、
    前記第1量子化値、前記第2量子化値、前記第3量子化値及び前記第4量子化値を送信する送信手段と、
    を具備する符号化装置。
  2. 前記モノラル信号を線形予測分析して第1線形予測係数を得る第1線形予測分析手段と、
    前記第1線形予測係数を量子化して第5量子化値を得る第5量子化手段と、を具備し、
    前記送信手段は、前記第5量子化値も送信する、
    請求項1記載の符号化装置。
  3. 前記サイド信号を線形予測分析して第2線形予測係数を得る第2線形予測分析手段と、
    前記第2線形予測係数を量子化して第6量子化値を得る第6量子化手段と、を具備し、
    前記送信手段は、前記第6量子化値も送信する、
    請求項2記載の符号化装置。
  4. 時間領域の前記第1チャネル信号から前記高周波数部分のみを通過させる第1フィルタと、
    時間領域の前記モノラル信号から前記高周波数部分のみを通過させる第2フィルタと、
    を具備する請求項1記載の符号化装置。
  5. 入力ステレオ信号の第1チャネル信号および第2チャネル信号を合成することにより生成されたモノラル信号を周波数領域に変換して量子化した第1量子化値、前記第1チャネル信号と前記第2チャネル信号との差分であるサイド信号を周波数領域に変換して所定周波数以下の帯域である低周波数部分を量子化した第2量子化値、前記第1チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第1エネルギー比を量子化した第3量子化値、及び、前記第2チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第2エネルギー比を量子化した第4量子化値を受信する受信手段と、
    前記第1量子化値から前記周波数領域のモノラル信号を復号する第1復号手段と、
    前記第2量子化値から前記低周波数部分のサイド信号を復号する第2復号手段と、
    前記第3量子化値から前記第1エネルギー比を復号する第3復号手段と、
    前記第4量子化値から前記第2エネルギー比を復号する第4復号手段と、
    記周波数領域のモノラル信号の高周波数部分に対して、前記第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行い、スケーリング後のモノラル信号を生成する第1スケーリング手段と、
    記周波数領域のモノラル信号の高周波数部分に対して、前記第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行い、スケーリング後のサイド信号を生成する第2スケーリング手段と、
    前記スケーリング後のモノラル信号と低周波数部分のモノラル信号との合成信号を時間領域に変換する第3変換手段と、
    前記スケーリング後のサイド信号と前記低周波数部分のサイド信号との合成信号を時間領域に変換する第4変換手段と、
    前記第3変換手段により得られた時間領域のモノラル信号および前記第4変換手段より得られた時間領域のサイド信号を用いて、ステレオ信号の第1チャネル信号および第2チャネル信号を復号する復号手段と、
    を備え、
    前記第1スケーリング手段および前記第2スケーリング手段は、前記復号されたステレオ信号の第1チャネル信号および第2チャネル信号が、前記入力ステレオ信号の第1チャネル信号および第2チャネル信号とほぼ同じエネルギーとなるように、前記第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行う、復号装置。
  6. 入力ステレオ信号の第1チャネル信号および第2チャネル信号を合成してモノラル信号を生成し、前記第1チャネル信号と前記第2チャネル信号との差分であるサイド信号を生成するモノラル信号生成工程と、
    前記モノラル信号を時間領域から周波数領域に変換する第1変換工程と、
    前記サイド信号を時間領域から周波数領域に変換する第2変換工程と、
    前記周波数領域に変換されたモノラル信号を量子化して第1量子化値を得る第1量子化工程と、
    前記周波数領域に変換されたサイド信号の所定周波数以下の帯域である低周波数部分を量子化して第2量子化値を得る第2量子化工程と、
    前記第1チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第1エネルギー比を算出する第1スケールファクタ算出工程と、
    前記第2チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第2エネルギー比を算出する第2スケールファクタ算出工程と、
    前記第1エネルギー比を量子化して第3量子化値を得る第3量子化工程と、
    前記第2エネルギー比を量子化して第4量子化値を得る第4量子化工程と、
    前記第1量子化値、前記第2量子化値、前記第3量子化値及び前記第4量子化値を送信する送信工程と、
    を具備する符号化方法。
  7. 入力ステレオ信号の第1チャネル信号および第2チャネル信号を合成することにより生成されたモノラル信号を周波数領域に変換して量子化した第1量子化値、前記第1チャネル信号と前記第2チャネル信号との差分であるサイド信号を周波数領域に変換して所定周波数以下の帯域である低周波数部分を量子化した第2量子化値、前記第1チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第1エネルギー比を量子化した第3量子化値、及び、前記第2チャネル信号の前記所定周波数より高い帯域である高周波数部分と前記モノラル信号の前記所定周波数より高い帯域である高周波数部分との第2エネルギー比を量子化した第4量子化値を受信する受信工程と、
    前記第1量子化値から前記周波数領域のモノラル信号を復号する第1復号工程と、
    前記第2量子化値から前記低周波数部分のサイド信号を復号する第2復号工程と、
    前記第3量子化値から前記第1エネルギー比を復号する第3復号工程と、
    前記第4量子化値から前記第2エネルギー比を復号する第4復号工程と、
    記周波数領域のモノラル信号の高周波数部分に対して、前記第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行い、スケーリング後のモノラル信号を生成する第1スケーリング工程と、
    記周波数領域のモノラル信号の高周波数部分に対して、前記第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行い、スケーリング後のサイド信号を生成する第2スケーリング工程と、
    前記スケーリング後のモノラル信号と低周波数部分のモノラル信号との合成信号を時間領域に変換する第3変換工程と、
    前記スケーリング後のサイド信号と前記低周波数部分のサイド信号との合成信号を時間領域に変換する第4変換工程と、
    前記第3変換工程により得られた時間領域のモノラル信号および前記第4変換工程より得られた時間領域のサイド信号を用いて、ステレオ信号の第1チャネル信号および第2チャネル信号を復号する復号工程と、
    を備え、
    前記第1スケーリング工程および前記第2スケーリング工程は、前記復号されたステレオ信号の第1チャネル信号および第2チャネル信号が、前記入力ステレオ信号の第1チャネル信号および第2チャネル信号とほぼ同じエネルギーとなるように、前記第1エネルギー比および前記第2エネルギー比を用いてスケーリングを行う、復号方法。
JP2009538955A 2007-11-01 2008-11-04 符号化装置、復号装置およびこれらの方法 Expired - Fee Related JP5404412B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009538955A JP5404412B2 (ja) 2007-11-01 2008-11-04 符号化装置、復号装置およびこれらの方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007285607 2007-11-01
JP2007285607 2007-11-01
JP2009538955A JP5404412B2 (ja) 2007-11-01 2008-11-04 符号化装置、復号装置およびこれらの方法
PCT/JP2008/003166 WO2009057329A1 (ja) 2007-11-01 2008-11-04 符号化装置、復号装置およびこれらの方法

Publications (2)

Publication Number Publication Date
JPWO2009057329A1 JPWO2009057329A1 (ja) 2011-03-10
JP5404412B2 true JP5404412B2 (ja) 2014-01-29

Family

ID=40590733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009538955A Expired - Fee Related JP5404412B2 (ja) 2007-11-01 2008-11-04 符号化装置、復号装置およびこれらの方法

Country Status (4)

Country Link
US (1) US8352249B2 (ja)
EP (1) EP2214163A4 (ja)
JP (1) JP5404412B2 (ja)
WO (1) WO2009057329A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556799B (zh) 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9230551B2 (en) * 2010-10-18 2016-01-05 Nokia Technologies Oy Audio encoder or decoder apparatus
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US9520140B2 (en) * 2013-04-10 2016-12-13 Dolby Laboratories Licensing Corporation Speech dereverberation methods, devices and systems
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
CA3162763A1 (en) 2013-12-27 2015-07-02 Sony Corporation Decoding apparatus and method, and program
JP6729186B2 (ja) * 2016-08-30 2020-07-22 富士通株式会社 音声処理プログラム、音声処理方法及び音声処理装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001255892A (ja) * 2000-03-13 2001-09-21 Nippon Telegr & Teleph Corp <Ntt> ステレオ信号符号化方法
US6629078B1 (en) * 1997-09-26 2003-09-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method of coding a mono signal and stereo information
JP2005202248A (ja) * 2004-01-16 2005-07-28 Fujitsu Ltd オーディオ符号化装置およびオーディオ符号化装置のフレーム領域割り当て回路
WO2006121101A1 (ja) * 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. 音声符号化装置およびスペクトル変形方法
JP2006345063A (ja) * 2005-06-07 2006-12-21 Oki Electric Ind Co Ltd 量子化装置、符号化装置、量子化方法および符号化方法
WO2007088853A1 (ja) * 2006-01-31 2007-08-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
JPH08123488A (ja) 1994-10-24 1996-05-17 Sony Corp 高能率符号化方法、高能率符号記録方法、高能率符号伝送方法、高能率符号化装置及び高能率符号復号化方法
TW321810B (ja) * 1995-10-26 1997-12-01 Sony Co Ltd
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
JP3496411B2 (ja) * 1996-10-30 2004-02-09 ソニー株式会社 情報符号化方法及び復号化装置
TW395142B (en) * 1997-05-15 2000-06-21 Matsushita Electric Ind Co Ltd Compressed code decoding device and audio decoding device
JP4242516B2 (ja) * 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
JP4046454B2 (ja) 2000-03-29 2008-02-13 三洋電機株式会社 オーディオデータ符号化装置
DE10118653C2 (de) * 2001-04-14 2003-03-27 Daimler Chrysler Ag Verfahren zur Geräuschreduktion
JP2005533271A (ja) * 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
CN1328707C (zh) * 2002-07-19 2007-07-25 日本电气株式会社 音频解码设备以及解码方法
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7650277B2 (en) * 2003-01-23 2010-01-19 Ittiam Systems (P) Ltd. System, method, and apparatus for fast quantization in perceptual audio coders
AU2003222397A1 (en) * 2003-04-30 2004-11-23 Nokia Corporation Support of a multichannel audio extension
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
JP4950040B2 (ja) * 2004-06-21 2012-06-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャンネルオーディオ信号を符号化及び復号する方法及び装置
JP4809370B2 (ja) * 2005-02-23 2011-11-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル音声符号化における適応ビット割り当て
US20060215683A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for voice quality enhancement
US7974417B2 (en) * 2005-04-13 2011-07-05 Wontak Kim Multi-channel bass management
BRPI0605857A (pt) * 2005-04-19 2007-12-18 Coding Tech Ab quantização dependente de energia para a codificação eficiente de parámetros de áudio espacial
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
EP1984913A4 (en) * 2006-02-07 2011-01-12 Lg Electronics Inc DEVICE AND METHOD FOR CODING / DECODING A SIGNAL
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
WO2007126015A1 (ja) * 2006-04-27 2007-11-08 Panasonic Corporation 音声符号化装置、音声復号化装置、およびこれらの方法
CN101548316B (zh) * 2006-12-13 2012-05-23 松下电器产业株式会社 编码装置、解码装置以及其方法
WO2008090970A1 (ja) * 2007-01-26 2008-07-31 Panasonic Corporation ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JPWO2008132850A1 (ja) 2007-04-25 2010-07-22 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6629078B1 (en) * 1997-09-26 2003-09-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method of coding a mono signal and stereo information
JP2001255892A (ja) * 2000-03-13 2001-09-21 Nippon Telegr & Teleph Corp <Ntt> ステレオ信号符号化方法
JP2005202248A (ja) * 2004-01-16 2005-07-28 Fujitsu Ltd オーディオ符号化装置およびオーディオ符号化装置のフレーム領域割り当て回路
WO2006121101A1 (ja) * 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. 音声符号化装置およびスペクトル変形方法
JP2006345063A (ja) * 2005-06-07 2006-12-21 Oki Electric Ind Co Ltd 量子化装置、符号化装置、量子化方法および符号化方法
WO2007088853A1 (ja) * 2006-01-31 2007-08-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6013036867; Marina BOSI, et al.: '"ISO/IEC MPEG-2 Advanced Audio Coding"' Journal of the Audio Engineering Society Vol.45, No.10, 199710, pp.789-814 *

Also Published As

Publication number Publication date
US8352249B2 (en) 2013-01-08
EP2214163A4 (en) 2011-10-05
US20100262421A1 (en) 2010-10-14
JPWO2009057329A1 (ja) 2011-03-10
EP2214163A1 (en) 2010-08-04
WO2009057329A1 (ja) 2009-05-07

Similar Documents

Publication Publication Date Title
JP5404412B2 (ja) 符号化装置、復号装置およびこれらの方法
KR101220621B1 (ko) 부호화 장치 및 부호화 방법
JP5608660B2 (ja) エネルギ保存型マルチチャネルオーディオ符号化
JP5243527B2 (ja) 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
EP2209114B1 (en) Speech coding/decoding apparatus/method
JP5215994B2 (ja) 損失エンコ−ドされたデータ列および無損失拡張データ列を用いた、原信号の無損失エンコードのための方法および装置
JP5340261B2 (ja) ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
JP5695074B2 (ja) 音声符号化装置および音声復号化装置
JPWO2007026763A1 (ja) ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
EP2133872B1 (en) Encoding device and encoding method
WO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
JP6027538B2 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
US9454972B2 (en) Audio and speech coding device, audio and speech decoding device, method for coding audio and speech, and method for decoding audio and speech
WO2010140350A1 (ja) ダウンミックス装置、符号化装置、及びこれらの方法
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
KR102546098B1 (ko) 블록 기반의 오디오 부호화/복호화 장치 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131029

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees