JP5809066B2 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
JP5809066B2
JP5809066B2 JP2011549936A JP2011549936A JP5809066B2 JP 5809066 B2 JP5809066 B2 JP 5809066B2 JP 2011549936 A JP2011549936 A JP 2011549936A JP 2011549936 A JP2011549936 A JP 2011549936A JP 5809066 B2 JP5809066 B2 JP 5809066B2
Authority
JP
Japan
Prior art keywords
signal
encoding
coefficient
unit
weighting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011549936A
Other languages
English (en)
Other versions
JPWO2011086924A1 (ja
Inventor
ゾンシアン リウ
ゾンシアン リウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2011549936A priority Critical patent/JP5809066B2/ja
Publication of JPWO2011086924A1 publication Critical patent/JPWO2011086924A1/ja
Application granted granted Critical
Publication of JP5809066B2 publication Critical patent/JP5809066B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声符号化装置および音声符号化方法に関する。
音声符号化には、主として2つのタイプの符号化技術として、変換符号化および線形予測符号化が存在する。
変換符号化では、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などを使用して、信号を時間領域からスペクトル領域に変換し、スペクトル係数を符号化する。符号化のプロセスにおいては、通常、心理音響モデルを適用してスペクトル係数の聴覚上の重要度を求めた後、スペクトル係数を、それぞれの聴覚上の重要度に従って符号化する。いくつかの一般的な変換符号化は、MPEG MP3、MPEG AAC、およびDolby AC3である。変換符号化は、音楽信号や一般的な音声信号に対して有効である。
図1は変換符号化の構成を示している。
図1の符号化側においては、時間−周波数変換部101が、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換を使用して、時間領域信号S(n)を周波数領域信号S(f)に変換する。
心理音響モデル分析部103は、周波数領域信号S(f)に心理音響モデル分析を行ってマスキング曲線を求める。
符号化部102は、心理音響モデル分析から求められたマスキング曲線に従って、周波数領域信号S(f)に符号化を行って量子化雑音が聞こえないようにする。
多重化部104は、符号化部102で生成された符号化パラメータを多重化して復号側に送信する。
図1の復号側においては、分離部105が、ビットストリーム情報を分離して符号化パラメータを生成する。
復号部106は、符号化パラメータを復号し、復号化された周波数領域信号S(f)を生成する。
周波数−時間変換部107は、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換を使用して、復号化された周波数領域信号S(f)を時間領域に変換し、復号化された時間領域信号S(n)を生成する。
一方、線形予測符号化では、時間領域における音声信号の冗長性を利用して、入力音声信号に線形予測を適用することによって、残差/励振信号を得る。音声信号、特に有声区間(共鳴効果と高いピッチ周期成分)の場合、線形予測符号化では、効率的に音響再生信号が生成される。線形予測の後、残差/励振信号を、主として2つの異なる方法、TCXおよびCELPによって符号化する。
TCXでは、残差/励振信号を周波数領域において効率的に変換および符号化する。いくつかの一般的なTCX符号化として、3GPP AMR−WB+,MPEG USAC等がある。
図2はTCX符号化の構成を示している。
図2の符号化側においては、LPC分析部201が、時間領域における信号の冗長性を利用するため、入力信号にLPC分析を行う。
符号化部202は、LPC分析部201からのLPC係数を符号化する。
復号部203は、符号化されたLPC係数を復号する。
逆フィルタ部204は、復号部203からの復号されたLPC係数を使用して、入力信号S(n)にLPC逆フィルタを適用することによって、残差(励振)信号S(n)を得る。
時間−周波数変換部205は、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換を使用して、残差信号S(n)を周波数領域信号S(f)に変換する。
符号化部206は、S(f)に対して符号化を行う。
多重化部207は、符号化部202で生成された、符号化されたLPC係数と、符号化部206で生成された符号化パラメータとを多重化し、復号側に送信する。
図2の復号側においては、分離部208が、ビットストリーム情報を分離して、符号化されたLPC係数と符号化パラメータとを生成する。
復号部210は、符号化パラメータを復号し、復号化された周波数領域の残差信号S (f)を生成する。
LPC係数復号部209は、符号化されたLPC係数を復号してLPC係数を得る。
周波数−時間変換部211は、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換を使用して、復号化された周波数領域の残差信号S (f)を時間領域に変換し、復号化された時間領域の残差信号S (n)を生成する。
合成フィルタ212は、LPC係数復号部209からの復号されたLPC係数を用いて、復号化された時間領域の残差信号S (n)をLPC合成フィルタリング処理し、復号化された時間領域信号S(n)を得る。
また、CELP符号化においては、残差/励振信号を、所定のコードブックを使用して符号化する。音質を向上させる目的で、多くの場合、元の信号とLPC合成信号との間の誤差信号を周波数領域に変換して符号化する。一般的なCELP符号化として、ITU−T G.729.1,ITU−T G.718等がある。
図3はCELP符号化と変換符号化とを組み合わせた符号化の構成を示している。
図3の符号化側においては、CELP符号化部301が、時間領域における信号の冗長性を利用するため、入力信号にCELP符号化を行う。
CELP復号部302は、CELP符号化部301で生成されたCELPパラメータを使用して合成信号Ssyn(n)を生成する。
減算器310は、入力信号から合成信号を減算することによって、誤差信号S(n)(入力信号と合成信号との間の誤差信号)を得る。
時間−周波数変換部303は、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換を使用して、誤差信号S(n)を周波数領域信号(スペクトル係数)S(f)に変換する。
符号化部304は、S(f)を符号化する。
多重化部305は、CELP符号化部301で生成されたCELPパラメータと、符号化部304で生成された符号化パラメータとを多重化して復号側に送信する。
図3の復号側においては、分離部306が、ビットストリーム情報を分離して、CELPパラメータと符号化パラメータとを生成する。
復号部308は、符号化パラメータを復号し、復号化された周波数領域の残差信号S (f)を生成する。
CELP復号部307は、CELPパラメータを使用してCELP合成信号Ssyn(n)を生成する。
周波数−時間変換部309は、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換を使用して、復号化された周波数領域の残差信号S (f)を時間領域に変換し、復号化された時間領域の残差信号(予測誤差信号)S (n)を生成する。
加算器311は、CELP合成信号Ssyn(n)と、復号化された予測誤差信号S (n)とを加算することによって、復号化された時間領域信号S(n)を生成する。
変換符号化および線形予測符号化では、周波数領域の信号、すなわちスペクトル係数(変換係数)に対して、何らかの符号化方法が適用される。
聴覚的に重要なスペクトル係数に限られた符号化ビットを集中させる目的で、変換符号化のスペクトル係数の符号化では、通常、符号化の前に、スペクトル係数の聴覚上の重要度を表す重み付け係数を求めてスペクトル係数の符号化に利用する。
変換符号化においては、人の聴覚系に特有のマスキング現象を利用するため、通常では心理音響モデルに従って聴覚重み付け係数を求める。
一方、線形予測符号化においては、入力信号に対して線形予測が行われるため、心理音響モデルを求めることが容易ではない。そのため、聴覚重み付け係数は、通常ではエネルギ対雑音比または信号対雑音比に基づいて計算する。
以下、変換符号化または線形予測符号化に適用されるスペクトル係数の符号化を、パルスベクトル符号化(pulse vector coding)と呼ぶことにする。
新たに標準化された音声符号化であるITU−T G.718の第5レイヤにおいて、パルスベクトル符号化法の1つである階乗パルス符号化(Factorial Pulse Coding)が提案されている(図4)。
階乗パルス符号化は、符号化情報が単位振幅パルス(unit magnitude pulse)であるパルスベクトル符号化の1つである。パルスベクトル符号化では、符号化の対象となるスペクトル係数を複数のパルスで表し、これらのパルスの位置、振幅、および極性を求めて、その情報を符号化する。その際、パルスを単位振幅に正規化するため、グローバルゲインを求め、これも符号化する。よって、図5に示したように、パルスベクトル符号化の符号化パラメータは、グローバルゲイン、パルスの位置、パルスの振幅、およびパルスの極性である。
図6は、パルスベクトル符号化の概念を示している。
図6に示すように、長さがNである入力スペクトルS(f)において、M個のパルスそれぞれの位置、振幅、および極性と、1つのグローバルゲインとを一緒に符号化する。符号化によって生成されたスペクトルS(f)においては、M個のパルスおよびそれらの位置、振幅、および極性のみが生成されており、それ以外のスペクトル係数はすべて0に設定されている。
従来の変換符号化においては、聴覚上の重要度は、サブバンドに基づいて求められる。一例は、G.729.1におけるTDAC(Time Domain Aliasing Cancellation)符号化である。
図7はG.729.1におけるTDAC符号化の構成を示している。
図7において、バンド分割部701は、入力信号(スペクトル係数)S(f)を複数のサブバンドに分割する。ここで、入力信号は、低域部においては原信号とCELP復号信号との間の誤差信号MDCT係数、高域部においては原信号のMDCT係数にて構成されている。
スペクトル包絡計算部702は、サブバンド信号{Ssb(f)}それぞれについてスペクトル包絡(サブバンド毎のエネルギ)を計算する。
符号化部703は、スペクトル包絡を符号化する。
ビット割当部704は、符号化されたスペクトル包絡に従って、聴覚上の重要度の順位{ipsb}を求め、サブバンドへのビット割り当てを行う。
ベクトル量子化部705は、割り当てられたビットを用いて、分割球ベクトル量子化(split spherical VQ method)を使用して、サブバンド信号{Ssb(f)}を符号化する。
ITU-T Recommendation G.729.1 (2007) ''G.729-based embedded variable bit-rate coder: An 8-32kbit/s scalable wideband coder bitstream interoperable with G.729'' T. Vaillancourt et al, ''ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunication Channels'', in Proc. Eusipco, Lausanne, Switzerland, August 2008 Lefebvre, et al., ''High quality coding of wideband audio signals using transform coded excitation (TCX)'', IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pp. I/193-I/196, Apr. 1994 Karl Heinz Brandenburg, ''MP3 and AAC Explained'', AES 17thInternational Conference, Florence, Italy, September 1999.
ここで、サブバンド単位に聴覚上の重要度を求めることは、上述したパルスベクトル符号化など、特定の符号化方法においては効果的でない。
聴覚上の重要度をサブバンド単位に求めることは、サブバンドに含まれるスペクトル係数の聴覚上の重要度が同じであることを意味する。
一方で、パルス符号化では、個々のスペクトル係数の振幅値に基づいて、全帯域のスペクトルから符号化されるスペクトル係数を選択する。この場合、サブバンド単位に求められる聴覚上の重要度は、個々のスペクトル係数の聴覚上の重要度を正確には表すことができない。
図8に示したように、1つのサブバンドに5つのスペクトル係数Ssb(f0)、Ssb(f1)、Ssb(f2)、Ssb(f3)、Ssb(f4)が存在するとする。また、符号化方法としてパルスベクトル符号化を使用する。5つのスペクトル係数のうちSsb(f1)が最大の振幅を有し、このサブバンドに割り当てられる符号化ビットによって1つのパルスを符号化することしかできないならば、Ssb(f1)を選択して符号化する。ここで仮に、このサブバンドにおいて聴覚上の重要度を求めて符号化したとしても、Ssb(f1)が依然として符号化されてしまう。なぜなら、5つのスペクトル係数すべての聴覚上の重要度レベルが同じであるからである。しかしながら、原信号のマスキング曲線M(f)を求めると、Ssb(f3)がマスキング曲線M(f)を超えているため、Ssb(f3)が聴覚上最も重要なスペクトル係数であることが分かる。したがって、サブバンドに基づいて聴覚上の重要度を求めた場合、聴覚上最も重要なスペクトル係数(この例ではSsb(f3))が符号化されずに、代わりに別のスペクトル係数(この例ではSsb(f1))が最も振幅値が大きいため符号化されることになる。
なお、周波数単位でマスキング曲線を求める従来技術は存在するが、符号化ビットの配分や聴感的な重み付け処理はサブバンド単位で行われている。つまり、サブバンド内に含まれるスペクトル係数の聴覚上の重要度の違いは考慮されていない。
本発明の音声符号化装置は、互いに異なる周波数の複数のスペクトル係数それぞれの聴覚上の重要度を推定する推定手段と、推定された各重要度に基づいて、前記複数のスペクトル係数それぞれの重み付け係数を算出する算出手段と、算出された各重み付け係数を用いて、前記複数のスペクトル係数それぞれを重み付けする重み付け手段と、重み付けされた前記複数のスペクトル係数を符号化する符号化手段と、を具備する構成を採る。
また、本発明の音声符号化装置は、少なくとも低位レイヤおよび高位レイヤの2階層よりなる階層符号化を行う音声符号化装置であって、入力信号と前記低位レイヤの復号信号との誤差信号を生成する生成手段と、前記入力信号および前記誤差信号を用いて信号対雑音比を算出し、前記信号対雑音比に基づいて、前記誤差信号における互いに異なる周波数の複数のスペクトル係数それぞれの聴覚上の重要度を推定する推定手段と、推定された各重要度に基づいて、前記複数のスペクトル係数それぞれの重み付け係数を算出する算出手段と、算出された各重み付け係数を用いて、前記複数のスペクトル係数それぞれを重み付けする重み付け手段と、重み付けされた前記複数のスペクトル係数を符号化する符号化手段と、を具備する構成を採る。
また、本発明の音声符号化方法は、互いに異なる周波数の複数のスペクトル係数それぞれの聴覚上の重要度を推定するステップと、推定された各重要度に基づいて、前記複数のスペクトル係数それぞれの重み付け係数を算出するステップと、算出された各重み付け係数を用いて、前記複数のスペクトル係数それぞれを重み付けするステップと、重み付けされた前記複数のスペクトル係数を符号化するステップと、を具備する。
本発明によれば、復号側において良好な音質の復号信号を得ることができる。
変換符号化の構成を示す図(従来) TCX符号化の構成を示す図(従来) CELP符号化と変換符号化とを組み合わせた符号化の構成を示す図(従来) ITU−T G.718の階乗パルス符号化の構成を示す図(従来) パルスベクトル符号化の符号化パラメータを示す図(従来) パルスベクトル符号化の概念を示す図(従来) G.729.1におけるTDAC符号化の構成を示す図(従来) G.729.1におけるTDAC符号化の聴覚上の重要度の計算例を示す図 本発明の聴覚上の重要度の計算例を示す図 本発明の実施の形態1に係る音声符号化装置の構成を示す図 本発明の実施の形態1に係る音声復号装置の構成を示す図 本発明の実施の形態1に係る聴覚重み付け部の構成を示す図 本発明の実施の形態1において個々のスペクトル係数を聴覚的に重み付けする様子を示す図 本発明の実施の形態2に係る音声符号化装置の構成を示す図 本発明の実施の形態2に係る音声復号装置の構成を示す図 本発明の実施の形態2に係る聴覚重み付け部の構成を示す図 本発明の実施の形態2において個々のスペクトル係数を聴覚的に重み付けする様子を示す図 本発明の実施の形態3に係る音声符号化装置の構成を示す図 本発明の実施の形態3に係る音声復号装置の構成を示す図 本発明の実施の形態3に係る聴覚重み付け部の構成を示す図(構成例1) 本発明の実施の形態3に係る聴覚重み付け部の構成を示す図(構成例2) 本発明の実施の形態3において個々のスペクトル係数を聴覚的に重み付けする様子を示す図
本発明では、サブバンド単位ではなく、個々のスペクトル係数それぞれの聴覚上の重要度を求めて符号化を行う。心理音響モデル分析、信号対雑音比、または聴感に関連したパラメータに基づき求められる聴覚上の重要度に従って、重み付け係数を求めて個々のスペクトル係数に適用する。重み付け係数は、スペクトル係数の聴覚上の重要度が高いほど大きく、聴覚上の重要度が低いほど小さい。よって、聴覚的に重み付けされたスペクトル係数に対して符号化が行われることにより、聴覚的に良好な品質を達成することができる。
本発明では、図9に示したように、マスキング曲線に従って聴覚上の重要度を求める。聴覚上の重要度によると、Ssb(f1)は、振幅は最大であるが聴覚上重要ではないことが分かる。そのため、聴覚上の重要度が低いSsb(f1)には小さい重みが適用されるため、Ssb(f1)は抑制される。その結果、聴覚上最も重要であるSsb(f3)が符号化されるようになる。
本発明の第1の態様においては、個々のスペクトル係数それぞれの聴覚上の重要度を求め、聴覚上の重要度に従って重み付け係数を求めてスペクトル係数それぞれに適用し、聴覚的に重み付けされたスペクトル係数に対して符号化を行う。
これにより、聴覚重み付け係数は、個々のスペクトル係数それぞれについて求められるため、より正確であり、したがって、聴覚上最も重要であるスペクトル係数を選択して符号化することができ、より良好な符号化性能(音質の向上)を達成することができる。
本発明の第2の態様においては、聴覚重み付け係数の適用を符号化側にてのみ行う。つまり、復号側ではこれに対応する逆重み付け処理は行わない。
これにより、聴覚重み付け係数を復号側に送信する必要がない。そのため、聴覚重み付け係数を符号化するためのビットを節約することができる。
本発明の第3の態様においては、階層符号化(スケーラブル符号化)では、各レイヤにおいて、誤差信号の聴覚上の重要度を更新する。各レイヤにおいて、聴覚上の重要度に従って重みを計算し、符号化するスペクトル係数それぞれに適用する。
これにより、各符号化ステップまたは各レイヤにおいて、信号がその聴覚上の重要度に従って符号化され、したがって、各符号化ステップまたは各レイヤにおいて、より良好な聴覚上の品質(音質の向上)を達成することができる。
以下、本発明の各実施の形態について図面を用いて説明する。
(実施の形態1)
図10Aに本実施の形態に係る音声符号化装置1000Aの構成を示す。また、図10Bに本実施の形態に係る音声復号装置1000Bの構成を示す。
本実施の形態では、パルスベクトル符号化において、個々のスペクトル係数を聴覚的に重み付けする。
音声符号化装置1000A(図10A)において、時間−周波数変換部1001は、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換を使用して、時間領域信号S(n)を周波数領域信号(スペクトル係数)S(f)に変換する。
心理音響モデル分析部1002は、周波数領域信号S(f)に対して心理音響モデル分析を行ってマスキング曲線を求める。
聴覚重み付け部1003は、マスキング曲線に基づいて聴覚上の重要度を推定し、個々のスペクトル係数それぞれの重み付け係数を求めてスペクトル係数に適用する。
符号化部1004は、聴覚的に重み付けされた周波数領域信号SPW(f)を符号化する。
多重化部1005は、符号化パラメータを多重化して音声復号装置1000B(図10B)に送信する。
音声復号装置1000B(図10B)において、分離部1006は、ビットストリーム情報を分離して符号化パラメータを生成する。
復号部1007は、符号化パラメータを復号し、復号化された周波数領域信号S(f)を生成する。
周波数−時間変換部1008は、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換を使用して、復号化された周波数領域信号S(f)を時間領域に変換し、復号化された時間領域信号S(n)を生成する。
図11に本実施の形態に係る聴覚重み付け部1003の構成を示す。図11には、個々のスペクトル係数を聴覚的に重み付けするための構成を示している。
聴覚重み付け部1003において、推定部1101は、マスキング曲線M(f)に従って、スペクトル係数それぞれの聴覚上の重要度pi(f)を推定する。聴覚上の重要度pi(f)は、スペクトル係数がどの程度聴感的に重要かを定量的に示すパラメータである。聴覚上の重要度pi(f)が大きい値を示すほど、そのスペクトル係数は聴感的に重要である。聴覚上の重要度pi(f)はマスキング曲線M(f)とスペクトル係数のエネルギに基づいて算出される。その算出は対数領域で行われても良く、例えば、次式に従い聴覚上の重要度pi(f)が算出される。
Figure 0005809066
重み係数算出部1102は、聴覚上の重要度pi(f)に基づいて重み付け係数W(f)を算出する。重み付け係数W(f)はスペクトル係数S(f)に重み付けを行うためのものである。聴覚上の重要度pi(f)が大きい値を示すほど、重み付け係数W(f)は大きい値となり、例えば次式のように求められる。
Figure 0005809066
重み付け部1103は、重み付け係数W(f)をスペクトル係数S(f)に乗じ、聴覚的に重み付けされたスペクトル係数SPW(f)を生成する。よって、スペクトル係数SPW(f)は次式のようになる。
Figure 0005809066
図12に、個々のスペクトル係数を聴覚的に重み付けする様子を示す。
図12に示すように、スペクトル係数S(f0)およびS(f4)のエネルギはマスキング曲線M(f0)およびM(f1)よりも下回っている。したがって、これら2つのスペクトル係数に乗じられる重み付け係数W(f0)およびW(f4)は1未満の値となるため、スペクトル係数S(f0)およびS(f4)のエネルギは抑制される。
一例として、聴覚上の重要度pi(f)および重み付け係数W(f)が上記のように算出される場合に、聴覚的に重み付けされたスペクトル係数SPW(f0)およびSPW(f4)は以下のように表され、スペクトル係数S(f0)およびS(f4)よりも小さくなることが分かる。
Figure 0005809066
このように、本実施の形態によれば、パルスベクトル符号化において、個々のスペクトル係数それぞれの聴覚上の重要度を求め、聴覚上の重要度に従って重み付け係数を求めてスペクトル係数それぞれに適用し、聴覚的に重み付けされたスペクトル係数に対して符号化を行う。
これにより、聴感的な重み付け処理をサブバンド単位で行う場合に比べ、聴覚重み付け係数は、個々のスペクトル係数それぞれについて、より正確に求めることができる。したがって、聴覚上最も重要であるスペクトル係数を選択して符号化することができるようになり、より良好な符号化性能を達成することができる。
また、本実施の形態によれば、聴覚重み付け係数の適用を符号化側(音声符号化装置1000A)にてのみ行う。つまり、復号側(音声復号装置1000B)ではこれに対応する逆重み付け処理は行わない。
これにより、聴覚重み付け係数を復号側に送信する必要がない。そのため、聴覚重み付け係数を符号化するためのビットを節約することができる。
(実施の形態2)
図13Aに本実施の形態に係る音声符号化装置1300Aの構成を示す。また、図13Bに本実施の形態に係る音声復号装置1300Bの構成を示す。
本実施の形態では、TCX符号化において、個々のスペクトル係数を聴覚的に重み付けする。
音声符号化装置1300A(図13A)において、LPC分析部1301は、時間領域における信号の冗長性を利用するため、入力信号にLPC分析を行う。
符号化部1302は、LPC分析部1301からのLPC係数を符号化する。
復号部1303は、符号化されたLPC係数を復号する。
逆フィルタ部1304は、復号部1303からの復号されたLPC係数を使用して、入力信号S(n)にLPC逆フィルタを適用することによって、残差(励振)信号S(n)を得る。
時間−周波数変換部1305は、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換を使用して、残差信号S(n)を周波数領域信号(スペクトル係数)S(f)に変換する。
時間−周波数変換部1306は、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換を使用して、原信号S(n)を周波数領域信号(スペクトル係数)S(f)に変換する。
聴覚重み付け部1307は、周波数領域信号S(f)に心理音響モデル分析を行ってマスキング曲線を求める。また、聴覚重み付け部1307は、マスキング曲線に基づいて聴覚上の重要度を推定し、個々のスペクトル係数それぞれの重み付け係数を求めてスペクトル係数に適用する。
符号化部1308は、聴覚的に重み付けされた残差信号Sr_PW(f)を符号化する。
多重化部1309は、符号化パラメータを多重化し、復号側に送信する。
音声復号装置1300B(図13B)において、分離部1310は、ビットストリーム情報を分離して符号化パラメータを生成する。
復号部1311は、符号化パラメータを復号し、復号化された周波数領域の残差信号S _PW(f)を生成する。
LPC係数復号部1313は、LPC係数を復号する。
周波数−時間変換部1312は、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換を使用して、復号化された周波数領域の残差信号S _PW(f)を時間領域に変換し、復号化された時間領域の残差信号S (n)を生成する。
合成フィルタ1314は、LPC係数復号部1313からの復号されたLPC係数を用いて、復号化された時間領域の残差信号S (n)をLPC合成フィルタリング処理し、復号化された時間領域信号S(n)を得る。
図14に本実施の形態に係る聴覚重み付け部1307の構成を示す。図14には、個々のスペクトル係数を聴覚的に重み付けするための構成を示している。なお、図14において図11と同一の構成には同一の符号を付し説明を省略する。
聴覚重み付け部1307において、心理音響モデル分析部1401は、原信号のスペクトル係数S(f)に基づいてマスキング曲線M(f)を計算する。
図15に、個々のスペクトル係数を聴覚的に重み付けする様子を示す。
図15に示すように、スペクトル係数S(f0)、S(f1)、S(f2)、およびS(f4)のエネルギはマスキング曲線M(f0)、M(f1)、M(f2)、およびM(f4)よりも下回っている。したがって、これらのスペクトル係数においてビットが無駄にならないように、これらのスペクトル係数のエネルギを抑制する。
このように、本実施の形態によれば、TCX符号化において、個々のスペクトル係数それぞれの聴覚上の重要度を求め、聴覚上の重要度に従って重み付け係数を求めてスペクトル係数それぞれに適用し、聴覚的に重み付けされたスペクトル係数に対して符号化を行う。
これにより、聴感的な重み付け処理をサブバンド単位で行う場合に比べ、聴覚重み付け係数は、個々のスペクトル係数それぞれについて、より正確に求めることができる。したがって、聴覚上最も重要であるスペクトル係数を選択して符号化することができるようになり、より良好な符号化性能を達成することができる。
また、本実施の形態によれば、聴覚重み付け係数の適用を符号化側(音声符号化装置1300A)にてのみ行う。つまり、復号側(音声復号装置1300B)ではこれに対応する逆重み付け処理は行わない。
これにより、聴覚重み付け係数を復号側に送信する必要がない。そのため、聴覚重み付け係数を符号化するためのビットを節約することができる。
(実施の形態3)
図16Aに本実施の形態に係る音声符号化装置1600Aの構成を示す。また、図16Bに本実施の形態に係る音声復号装置1600Bの構成を示す。
本実施の形態では、低位レイヤにCELP符号化、高位レイヤに変換符号化を用いた階層符号化(スケーラブル符号化)において、個々のスペクトル係数を聴覚的に重み付けする。なお、以下の説明では、低位レイヤおよび高位レイヤの2階層よりなる階層符号化を一例として説明するが、本発明は、3階層以上からなる階層符号化にも同様に適用することができる。
音声符号化装置1600A(図16A)において、CELP符号化部1601は、時間領域における信号の冗長性を利用するため、入力信号にCELP符号化を行う。
CELP復号部1602は、CELPパラメータを使用して合成信号Ssyn(n)を生成する。
減算器1612は、入力信号から合成信号を減算することによって、誤差信号S(n)(入力信号と合成信号との間の誤差信号)を得る。
時間−周波数変換部1604は、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換を使用して、誤差信号S(n)を周波数領域信号(スペクトル係数)S(f)に変換する。
時間−周波数変換部1603は、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間−周波数変換を使用して、CELP復号部1602からの合成信号Ssyn(n)を周波数領域信号(スペクトル係数)Ssyn(f)に変換する。
聴覚重み付け部1605は、個々のスペクトル係数における聴覚重み付けを、スペクトル係数S(f)に適用する。ここで、聴覚重み付け係数はスペクトル係数Ssyn(f)と誤差信号のスペクトル係数S(f)とを基に求められる。
符号化部1606は、聴覚的に重み付けされた信号を符号化する。
多重化部1607は、符号化パラメータおよびCELPパラメータを多重化し、復号側に送信する。
音声復号装置1600B(図16B)において、分離部1608は、ビットストリーム情報を分離して符号化パラメータおよびCELPパラメータを生成する。
復号部1610は、符号化パラメータを復号し、復号化された周波数領域の誤差信号S (f)を生成する。
CELP復号部1609は、CELPパラメータを使用して合成信号Ssyn(n)を生成する。
周波数−時間変換部1611は、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数−時間変換を使用して、復号化された周波数領域の残差信号S (f)を時間領域に変換し、復号化された時間領域の誤差信号S (n)を生成する。
加算器1613は、CELP合成信号Ssyn(n)と、復号化された誤差信号S (n)とを加算することによって、復号化された時間領域信号S(n)を生成する。
図17に本実施の形態に係る聴覚重み付け部1605の構成(構成例1)を示す。図17には、個々のスペクトル係数を聴覚的に重み付けするための構成を示している。なお、図17において図11と同一の構成には同一の符号を付し説明を省略する。
図17に示す聴覚重み付け部1605(構成例1)において、心理音響モデル分析部1701は、CELP復号信号のスペクトル係数Ssyn(f)に基づいてマスキング曲線M(f)を計算する。
図18に本実施の形態に係る聴覚重み付け部1605の構成(構成例2)を示す。図18には、個々のスペクトル係数を聴覚的に重み付けするための構成を示している。
図18に示す聴覚重み付け部1605(構成例2)において、加算器1805は、CELP復号信号のスペクトルSsyn(f)と誤差信号のスペクトルS(f)とを加算することによって、原信号のスペクトルS(f)を生成する。
SNR算出部1801は、生成された原信号のスペクトルS(f)と誤差信号のスペクトルS(f)との間の信号対雑音比を計算する。信号対雑音比SNR(f)は、次式のように算出される。
Figure 0005809066
推定部1802は、信号対雑音比SNR(f)に基づいて、スペクトル係数それぞれの聴覚上の重要度pi(f)を推定する。聴覚上の重要度pi(f)は、スペクトル係数がどの程度聴感的に重要かを定量的に示すパラメータである。聴覚上の重要度pi(f)が大きい値を示すほど、そのスペクトル係数は聴感的に重要である。聴覚上の重要度pi(f)は信号対雑音比SNR(f)とスペクトル係数のエネルギに基づいて算出される。その算出は対数領域で行われても良く、例えば、次式に従い聴覚上の重要度pi(f)が算出される。
Figure 0005809066
ここで、Save はサブバンドに含まれるスペクトル係数の平均エネルギであり、次式のように算出される。
Figure 0005809066
また、SNRaveはサブバンドに含まれるスペクトル係数全体の信号対雑音比を表し、次式のように算出される。
Figure 0005809066
または、聴覚上の重要度pi(f)を信号対雑音比の項のみを用いて次式のように求めても良い。
Figure 0005809066
重み係数算出部1803は、聴覚上の重要度pi(f)に基づいて重み付け係数W(f)を算出する。重み付け係数W(f)はスペクトル係数S(f)に重み付けを行うためのものである。聴覚上の重要度pi(f)が大きい値を示すほど、重み付け係数W(f)は大きい値となり、例えば次式のように求められる。
Figure 0005809066
重み付け部1804は、重み付け係数W(f)をスペクトル係数S(f)に乗じ、聴覚的に重み付けされたスペクトル係数Se_PW(f)を生成する。よって、スペクトル係数Se_PW(f)は次式のようになる。
Figure 0005809066
図19に、個々のスペクトル係数を聴覚的に重み付けする様子を示す。
図19においてスペクトル係数S(f1)に着目すると、このスペクトル係数が他のスペクトル係数よりも大きな振幅値を有していることが分かる。また、周波数f1における信号対雑音比SNR(f1)も他の信号対雑音比に比べて最大値となっている。このとき、本実施の形態では、誤差信号のスペクトル係数S(f1)には1未満の小さな重み付け係数W(f1)が乗じられることになり、重み付け後のスペクトル係数Se_PW(f1)はS(f1)よりも小さな振幅値となる。
一例として、聴覚上の重要度pi(f)および重み付け係数W(f)が上記のように算出される場合に、聴覚的に重み付けされたスペクトル係数Se_PW(f1)は以下のように表され、スペクトル係数S(f1)よりも小さくなることが分かる。
Figure 0005809066
このように、本実施の形態によれば、信号対雑音比に従って周波数単位に重み付け係数を算出することにより、信号対雑音比の高いスペクトルの重要性を下げて、このスペクトルへ符号化ビットを配分させにくくする。
これにより、他の信号対雑音比の低いスペクトルへ符号化ビットが多く配分されるようになり、音質が向上する。
以上、本発明の各実施の形態について説明した。
なお、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
2010年1月14日出願の特願2010−006312の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明は、音声符号化を行う通信装置、音声復号を行う通信装置、特に無線通信装置に好適である。
1000A 音声符号化装置
1000B 音声復号装置
1001 時間−周波数変換部
1002 心理音響モデル分析部
1003 聴覚重み付け部
1004 符号化部
1005 多重化部
1006 分離部
1007 復号部
1008 周波数−時間変換部
1101 推定部
1102 重み係数算出部
1103 重み付け部
1300A 音声符号化装置
1300B 音声復号装置
1301 LPC分析部
1302 符号化部
1303 復号部
1304 逆フィルタ部
1305 時間−周波数変換部
1306 時間−周波数変換部
1307 聴覚重み付け部
1308 符号化部
1309 多重化部
1310 分離部
1311 復号部
1312 周波数−時間変換部
1313 LPC係数復号部
1314 合成フィルタ
1401 心理音響モデル分析部
1600A 音声符号化装置
1600B 音声復号装置
1601 CELP符号化部
1602 CELP復号部
1603 時間−周波数変換部
1604 時間−周波数変換部
1605 聴覚重み付け部
1606 符号化部
1607 多重化部
1608 分離部
1609 CELP復号部
1610 復号部
1611 周波数−時間変換部
1612 減算器
1613 加算器
1701 心理音響モデル分析部
1801 SNR算出部
1802 推定部
1803 重み係数算出部
1804 重み付け部
1805 加算器

Claims (2)

  1. 少なくとも低位レイヤおよび高位レイヤの2階層よりなる階層符号化を行う音声符号化装置であって、
    入力信号と前記低位レイヤの復号信号との誤差信号を生成する生成手段と、
    前記入力信号および前記誤差信号を用いて信号対雑音比を算出し、前記信号対雑音比に基づいて、前記誤差信号における互いに異なる周波数の複数のスペクトル係数それぞれの聴覚上の重要度を推定する推定手段と、
    推定された各重要度に基づいて、前記複数のスペクトル係数それぞれの重み付け係数を算出する算出手段と、
    算出された各重み付け係数を用いて、前記複数のスペクトル係数それぞれを重み付けする重み付け手段と、
    重み付けされた前記複数のスペクトル係数を符号化する符号化手段と、
    を具備する音声符号化装置。
  2. 少なくとも低位レイヤおよび高位レイヤの2階層よりなる階層符号化を行う音声符号化方法であって、
    入力信号と前記低位レイヤの復号信号との誤差信号を生成するステップと、
    前記入力信号および前記誤差信号を用いて信号対雑音比を算出し、前記信号対雑音比に基づいて、前記誤差信号における互いに異なる周波数の複数のスペクトル係数それぞれの聴覚上の重要度を推定するステップと、
    推定された各重要度に基づいて、前記複数のスペクトル係数それぞれの重み付け係数を算出するステップと、
    算出された各重み付け係数を用いて、前記複数のスペクトル係数それぞれを重み付けするステップと、
    重み付けされた前記複数のスペクトル係数を符号化するステップと、
    を具備する音声符号化方法。
JP2011549936A 2010-01-14 2011-01-13 音声符号化装置および音声符号化方法 Active JP5809066B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011549936A JP5809066B2 (ja) 2010-01-14 2011-01-13 音声符号化装置および音声符号化方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010006312 2010-01-14
JP2010006312 2010-01-14
PCT/JP2011/000134 WO2011086924A1 (ja) 2010-01-14 2011-01-13 音声符号化装置および音声符号化方法
JP2011549936A JP5809066B2 (ja) 2010-01-14 2011-01-13 音声符号化装置および音声符号化方法

Publications (2)

Publication Number Publication Date
JPWO2011086924A1 JPWO2011086924A1 (ja) 2013-05-16
JP5809066B2 true JP5809066B2 (ja) 2015-11-10

Family

ID=44304200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011549936A Active JP5809066B2 (ja) 2010-01-14 2011-01-13 音声符号化装置および音声符号化方法

Country Status (4)

Country Link
US (1) US20130030796A1 (ja)
EP (1) EP2525355B1 (ja)
JP (1) JP5809066B2 (ja)
WO (1) WO2011086924A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及***
PL2933799T3 (pl) 2012-12-13 2017-12-29 Panasonic Intellectual Property Corporation Of America Urządzenie kodujące głos, urządzenie dekodujące głos, sposób kodowania głosu i sposób dekodowania głosu
CN105408957B (zh) * 2013-06-11 2020-02-21 弗朗霍弗应用研究促进协会 进行语音信号的频带扩展的装置及方法
KR102315920B1 (ko) * 2013-09-16 2021-10-21 삼성전자주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
CN105745703B (zh) 2013-09-16 2019-12-10 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
US9401823B2 (en) * 2013-11-26 2016-07-26 Plusn Llc System and method for radio frequency carrier aggregation
EP3040987B1 (en) * 2013-12-02 2019-05-29 Huawei Technologies Co., Ltd. Encoding method and apparatus
TWI569257B (zh) * 2014-07-04 2017-02-01 玄舟科技有限公司 音訊處理裝置及其音訊處理方法
PT3413307T (pt) * 2014-07-25 2020-10-19 Fraunhofer Ges Forschung Aparelho de codificação de sinal de áudio, dispositivo de descodificação de sinal de áudio, e seus métodos
MX356371B (es) * 2014-07-25 2018-05-25 Fraunhofer Ges Forschung Dispositivo de codificacion de señal acustica, dispositivo de decodificacion de señal acustica, metodo para codificar una señal acustica y metodo para decodificar una señal acustica.
CN106448688B (zh) * 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置
CN113196387A (zh) * 2019-01-13 2021-07-30 华为技术有限公司 高分辨率音频编解码

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1020898A (ja) * 1996-07-01 1998-01-23 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
JP2001331198A (ja) * 2000-05-22 2001-11-30 Nippon Telegr & Teleph Corp <Ntt> 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体
JP2006011170A (ja) * 2004-06-28 2006-01-12 Sony Corp 信号符号化装置及び方法、並びに信号復号装置及び方法
WO2006075563A1 (ja) * 2005-01-11 2006-07-20 Nec Corporation オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
JP2007193043A (ja) * 2006-01-18 2007-08-02 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7725313B2 (en) * 2004-09-13 2010-05-25 Ittiam Systems (P) Ltd. Method, system and apparatus for allocating bits in perceptual audio coders
MX2007005261A (es) * 2004-11-04 2007-07-09 Koninkl Philips Electronics Nv Codificacion y descodificacion de un conjunto de senales.
KR100707173B1 (ko) * 2004-12-21 2007-04-13 삼성전자주식회사 저비트율 부호화/복호화방법 및 장치
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US8046218B2 (en) * 2006-09-19 2011-10-25 The Board Of Trustees Of The University Of Illinois Speech and method for identifying perceptual features
US8396707B2 (en) * 2007-09-28 2013-03-12 Voiceage Corporation Method and device for efficient quantization of transform information in an embedded speech and audio codec
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
JP5508692B2 (ja) 2008-06-30 2014-06-04 日本プラスト株式会社 フェンダープロテクタを取付けた車両
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1020898A (ja) * 1996-07-01 1998-01-23 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
JP2001331198A (ja) * 2000-05-22 2001-11-30 Nippon Telegr & Teleph Corp <Ntt> 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体
JP2006011170A (ja) * 2004-06-28 2006-01-12 Sony Corp 信号符号化装置及び方法、並びに信号復号装置及び方法
WO2006075563A1 (ja) * 2005-01-11 2006-07-20 Nec Corporation オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
JP2007193043A (ja) * 2006-01-18 2007-08-02 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法

Also Published As

Publication number Publication date
EP2525355A4 (en) 2016-11-02
US20130030796A1 (en) 2013-01-31
WO2011086924A1 (ja) 2011-07-21
EP2525355A1 (en) 2012-11-21
EP2525355B1 (en) 2017-11-01
JPWO2011086924A1 (ja) 2013-05-16

Similar Documents

Publication Publication Date Title
JP5809066B2 (ja) 音声符号化装置および音声符号化方法
JP6170520B2 (ja) オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
RU2667382C2 (ru) Улучшение классификации между кодированием во временной области и кодированием в частотной области
JP5695074B2 (ja) 音声符号化装置および音声復号化装置
RU2485606C2 (ru) Схема кодирования/декодирования аудио сигналов с низким битрейтом с применением каскадных переключений
JP5863868B2 (ja) 適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
KR101411901B1 (ko) 오디오 신호의 부호화/복호화 방법 및 장치
WO2014115225A1 (ja) 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
KR101792712B1 (ko) 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조
WO2013168414A1 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
JPWO2007088853A1 (ja) 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
US9786292B2 (en) Audio encoding apparatus, audio decoding apparatus, audio encoding method, and audio decoding method
JP5629319B2 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
JP6042900B2 (ja) 音声信号の帯域選択的量子化方法及び装置
Song et al. Harmonic enhancement in low bitrate audio coding using an efficient long-term predictor
JP4354561B2 (ja) オーディオ信号符号化装置及び復号化装置
WO2011052221A1 (ja) 符号化装置、復号装置、およびそれらの方法
Motlicek et al. Wide-band audio coding based on frequency-domain linear prediction
Ko Transform coding based on source filter model in the MDCT domain
Lee et al. Bandwidth Extension of a Narrowband Speech Coder for Music Streaming Services Over IP Networks
KR20120089230A (ko) 신호 복호화 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140527

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140723

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150518

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150910

R150 Certificate of patent or registration of utility model

Ref document number: 5809066

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150