JP5894070B2 - オーディオ信号符号化器、オーディオ信号復号化器及びオーディオ信号符号化方法 - Google Patents

オーディオ信号符号化器、オーディオ信号復号化器及びオーディオ信号符号化方法 Download PDF

Info

Publication number
JP5894070B2
JP5894070B2 JP2012518488A JP2012518488A JP5894070B2 JP 5894070 B2 JP5894070 B2 JP 5894070B2 JP 2012518488 A JP2012518488 A JP 2012518488A JP 2012518488 A JP2012518488 A JP 2012518488A JP 5894070 B2 JP5894070 B2 JP 5894070B2
Authority
JP
Japan
Prior art keywords
linear prediction
unit
residual signal
audio frame
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012518488A
Other languages
English (en)
Other versions
JP2012532344A (ja
Inventor
ソン,ホ−サン
オ,ウン−ミ
キム,ジュン−フェ
キム,ミ−ヨン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2012532344A publication Critical patent/JP2012532344A/ja
Application granted granted Critical
Publication of JP5894070B2 publication Critical patent/JP5894070B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は、オーディオ信号の符号化技術または/及び復号化技術に関する。
オーディオ信号の符号化は、人間音声発生モデル(model of human speech generation)に関連したパラメータを抽出することで、本来のオーディオを圧縮する技術である。オーディオ信号の符号化では、入力されるオーディオ信号を所定のサンプリングレートでサンプリングして、時間ブロックまたはフレームに分割する。
かかるオーディオ符号化を行うオーディオ符号化装置は、所定のパラメータを抽出して、入力されるオーディオ信号を分析し、前記パラメータを、例えば、ビットのセットまたは二進データパケットのように、二進数で表現されるように量子化する。このように量子化されたビットストリームは、有無線チャネルを通じて、受信器及び復号化装置へ伝送されるか、または多様な記録媒体に保存される。前記復号化装置は、前記ビットストリームに含まれたオーディオフレームを処理し、それらを逆量子化して、前記パラメータを生成し、前記パラメータを利用してオーディオ信号を復元する。
最近、複数のフレームで構成されたスーパーフレームに対して、最適のビット率で符号化する方法が研究されている。知覚的に敏感でないオーディオ信号に対して、低いビット率で符号化し、知覚的に敏感なオーディオ信号に対しては、高いビット率で符号化する場合、音質の劣化を最小化しつつ、オーディオ信号を効率的に符号化できる。
本発明の目的は、音質の劣化を最小化しつつ、オーディオ信号を効率的に符号化することである。
本発明の他の目的は、無声音区間の音質を向上させることである。
本発明の一実施形態によれば、オーディオフレームの符号化モードを選択するモード選択部、前記選択された符号化モードによって、前記オーディオフレームのターゲットビット率を決定するビット率決定部、及び前記決定されたターゲットビット率によって、前記オーディオフレームに対して、加重線形予測変換符号化(Weighted Linear Prediction Transform)を行う加重線形予測変換符号化部を備えるオーディオ符号化器が提供される。
本発明の一側面によれば、符号化されたオーディオフレームのビット率を分析するビット率分析部、及び前記判断されたビット率によって、前記フレームに対して、加重線形予測逆変換(Weighted Linear Prediction Inverse Transform)を行う加重線形予測変換復号化部を備えるオーディオ復号化器が提供される。
本発明の他の側面によれば、オーディオフレームの符号化モードを選択するステップ、前記選択された符号化モードによって、前記オーディオフレームのターゲットビット率を決定するステップ、及び前記決定されたターゲットビット率によって、前記オーディオフレームに対して、加重線形予測変換(Weighted Linear Prediction Transform)符号化を行うステップを含むオーディオ符号化方法が提供される。
本発明の一実施形態によれば、音質の劣化を最小化しつつ、符号化されたオーディオ信号の大きさを減らすことができる。
本発明の一実施形態によれば、符号化されたオーディオ信号の無声音区間の音質を向上させることができる。
本発明によるオーディオ信号符号化装置の全体構成を示すブロック図である。 本発明の一実施形態によって、複数の線形予測を利用してオーディオ信号を符号化する符号化器の構成を示すブロック図である。 本発明の一実施形態によるオーディオ信号復号化器の構成を示すブロック図である。 本発明の一実施形態によって、複数の線形予測を利用してオーディオ信号を復号化する加重線形予測変換復号化部の構成を示すブロック図である。 本発明の一実施形態によって、TNSを利用してオーディオ信号を符号化する符号化器の構成を示すブロック図である。 本発明の一実施形態によって、TNSが行われたオーディオ信号を復号化する復号化器の構成を示すブロック図である。 本発明の一実施形態によって、コードブックを利用してオーディオ信号を符号化する符号化器の構成を示すブロック図である。 本発明の一実施形態によって、コードブックを利用してオーディオ信号を復号化する復号化器の構成を示すブロック図である。 本発明の一実施形態によって、オーディオ信号の符号化モードを決定するモード選択部の構成を示すブロック図である。 本発明の一実施形態によって、加重線形予測変換を利用してオーディオ信号を符号化する方法を段階別に説明した順序図である。 本発明の一実施形態によって、複数の線形予測を利用してオーディオ信号を符号化する方法を段階別に説明した順序図である。 本発明の一実施形態によって、TNSを利用してオーディオ信号を符号化する方法を段階別に説明した順序図である。 本発明の一実施形態によって、コードブックを利用してオーディオ信号を符号化する方法を段階別に説明した順序図である。
以下では、添付された図面を参照して、本発明の実施形態を詳細に説明する。
図1は、本発明によるオーディオ信号符号化装置の構成を示すブロック図である。図1を参照すれば、本発明によるオーディオ信号符号化装置は、モード選択部170、ビット率決定部171、一般線形予測変換符号化部181、無声線形予測変換符号化部182及び黙音線形予測変換符号化部183を備える。
前処理部103は、入力されたオーディオ信号から所望しない周波数成分を除去し、事前にフィルタリングを行って、オーディオ信号の符号化のための周波数特性を調整することができる。一例として、前処理部103は、AMR−WB(Adaptive Multi Rate Wide Band)の事前強調フィルタリング(Pre-emphasis filtering)を利用できる。ここで、入力されたオーディオ信号は、符号化に適した既定のサンプリング周波数にサンプリングされる。例えば、狭帯域のオーディオ符号化器では、8000Hzのサンプリング周波数を、広帯域のオーディオ符号化器では、16000Hzのサンプリング周波数を有する。
一実施形態によれば、オーディオ信号符号化装置は、複数のフレームで構成されたスーパーフレーム単位でオーディオ信号を符号化する。一例として、スーパーフレームは、四つのフレームで構成される。すなわち、スーパーフレームそれぞれの符号化は、四つのフレームに対する符号化で構成される。例えば、スーパーフレームのサイズが1024個のサンプルで構成される場合、四つのフレームのサイズは、それぞれ256個となる。この時、スーパーフレームのサイズは、OLA(OverLap and Add)の過程を経て、さらに大きく互いに重なるように調整される。
フレームビット率決定部120は、オーディオフレームに対するビット率を決定できる。フレームビット率決定部120は、ターゲットビット率と、以前のフレームで使われたビット量とを比較して、現在のスーパーフレームで使われるビット率を決定できる。
線形予測分析/量子化部130は、フィルタリングされた入力オーディオフレームを通じて、線形予測係数を抽出する。ここで、線形予測分析/量子化部130は、線形予測係数を量子化に有利な形態(例えば、ISF(Immittance spectral Frequencies)またはLSF(Line Spectral Frequencies)係数)に変換した後、多様な量子化方法(例えば、ベクトル量子化器)を通じて量子化する。抽出された線形予測係数と、量子化された線形予測係数とは、認知加重フィルタ部140へ伝送される。
認知加重フィルタ部140では、認知加重フィルタを通じて、前処理を経た信号をフィルタリングする。認知加重フィルタ部140は、人体聴覚構造のマスキング効果を利用するために、量子化ノイズをマスキング範囲内に減らす。認知加重フィルタ部140を通じてフィルタリングされた信号は、開ループピッチ探索部160へ伝送される。
開ループピッチ探索部160は、認知加重フィルタ部140でフィルタリングされて伝送する信号を利用して、開ループピッチを探索する。
音声活性度分析部150は、前処理部119を通じてフィルタリングされた信号を受信して、フィルタリングされたオーディオ信号の音声活性度を分析する。一例として、入力オーディオ信号についての特性として、周波数ドメインの勾配情報、各バーク(Bark)バンドのエネルギーなどを含む。
一実施形態によれば、モード選択部170は、オーディオ信号の特性によって、開ループ方式または閉ループ方式を適用して、前記オーディオ信号についての符号化モードを決定する。
モード選択部170は、最適の符号化モードを選択する前に、現在のフレームについてのオーディオ信号を分類できる。すなわち、モード選択部109は、無声音認知結果を利用して、現在のオーディオフレームを低エネルギーノイズ、ノイズ、無声音及び残りの信号に分類できる。この時、モード選択部170は、分類された結果に基づいて、現在のオーディオフレームで使用する符号化モードを選択できる。符号化モードは、複数のオーディオフレームで構成されたスーパーフレームに含まれたオーディオ信号を符号化するための一般線形予測変換符号化モード、無声線形予測変換符号化モード、黙音線形予測変換符号化モード、可変ビット率有声(ACELP)モードを含む。
ビット率決定部171は、モード選択部170が選択した符号化モードによって、オーディオフレームのターゲットビット率を決定する。本発明の一実施形態によれば、モード選択部170は、オーディオフレームに含まれたオーディオ信号が黙音であると判断し、黙音線形予測変換符号化モードをフレームの符号化モードとして選択する。この場合、ビット率決定部171は、フレームのターゲットビット率を非常に低く決定する。一方、モード選択部170は、オーディオフレームに含まれたオーディオ信号が有声音であると判断する。この場合、ビット率決定部171は、オーディオフレームのターゲットビット率を高く決定する。
線形予測変換符号化部180は、モード選択部170が選択した符号化モードによって、一般線形予測変換符号化部181、無声線形予測変換符号化部182、黙音線形予測変換符号化部183のうち一つを活性化させて、オーディオフレームを符号化する。
モード選択部170が、CELP(code-excited linear prediction)符号化モードをオーディオフレームについての符号化モードとして選択した場合に、CELP符号化部190は、CELP方式で符号化を行う。一実施形態によれば、CELP符号化部190は、フレームについてのターゲットビット率を参照して、毎オーディオフレームに対して相異なるビット率で符号化する。
以上、モード選択部170が選択したモードによって、オーディオフレームのターゲットビット率を決定する実施形態について説明したが、ビット率決定部171が決定したターゲットビット率によって、オーディオフレームの符号化モードを選択してもよい。ビット率決定部171が、オーディオ信号の特性に基づいて、オーディオフレームのターゲットビット率を決定すれば、モード選択部170は、ビット率決定部171が決定したターゲットビット率内で、最高の音質を維持できる符号化モードを選択する。
一実施形態によれば、モード選択部170は、複数の符号化モードによって、オーディオフレームをそれぞれ符号化する。モード選択部170は、符号化された各オーディオフレームを互いに比較し、最高の音質を維持できる符号化モードを選択する。モード選択部170は、符号化されたオーディオフレームの特性を測定し、測定された特性を所定の基準値と比較して符号化モードを選択する。一実施形態によれば、オーディオフレームの特性は、信号対ノイズ比でありうる。モード選択部170は、測定された信号対ノイズ比を所定の基準値と比較し、信号対ノイズ比が基準値よりさらに大きいモードのうち符号化モードを選択する。他の実施形態によれば、モード選択部170は、信号対ノイズ比の最も大きいモードを符号化モードとして選択する。
図2は、本発明の一実施形態によって、複数の線形予測を利用してオーディオ信号を符号化する符号化器の構成を示すブロック図である。本発明によるオーディオ信号符号化器は、第1線形予測分析部210、第1残余信号生成部220、第2線形予測分析部230、第2残余信号生成部240、及び加重線形予測変換符号化部250を備える。
第1線形予測部210は、オーディオフレームに対して線形予測を行って、第1線形予測データ及び第1線形予測係数を生成する。第1線形予測係数量子化部211は、第1線形予測係数を量子化する。一実施形態によれば、オーディオ信号復号化器は、第1線形予測係数を利用して第1線形予測データを復元する。
第1残余信号生成部220は、オーディオフレームに対して第1線形予測データを除去して、第1残余信号を生成する。第1残余信号生成部220は、複数のオーディオフレームまたは単一のオーディオフレーム内でオーディオ信号を分析し、オーディオ信号の値の変化を予想して、第1線形予測データを生成する。第1線形予測データの値がオーディオ信号の実際の値と非常に類似しているならば、オーディオフレームから第1線形予測データを除去した第1残余信号が有する値の範囲は狭い。したがって、実際のオーディオ信号でなく、第1残余信号を符号化するならば、少ないビットのみでオーディオフレームを符号化できる。
第2線形予測部230は、第1残余信号に対して線形予測を行って、第2線形予測データ及び第2線形予測係数を生成する。第2線形予測係数量子化部231は、第2線形予測係数を量子化する。オーディオ信号復号化器は、第2線形予測係数を利用して第1線形予測データを生成する。
第2残余信号生成部240は、第1残余信号から第2線形予測データを除去して、第2残余信号を生成する。一般的に、第2残余信号が有する値の範囲は、第1残余信号が有する値の範囲よりさらに狭い。したがって、第2残余信号を符号化するならば、さらに少ないビットのみでオーディオフレームを符号化できる。
加重線形予測変換符号化部250は、第2残余信号に対して加重線形予測変換符号化を行って、コードブックインデックス、コードブックの利得、ノイズレベルなどのパラメータを生成する。パラメータ量子化部260は、加重線形予測変換部250が生成したパラメータ及び符号化された第2残余信号を量子化する。
オーディオ信号復号化器は、量子化された第2残余信号、量子化されたパラメータ、量子化された第1線形予測係数、及び量子化された第2線形予測係数に基づいて、符号化されたオーディオフレームを復号化する。
図3は、本発明の一実施形態によるオーディオ信号復号化器の構成を示すブロック図である。本発明の一実施形態によるオーディオ信号復号化器300は、復号化モード決定部310、ビット率判断部320、及び加重線形予測変換復号化部330を備える。
復号化モード決定部310は、オーディオフレームの復号化モードを判断する。各オーディオフレームに含まれたオーディオ信号の特性は相異なるので、各オーディオフレームは、相異なる符号化モードで符号化される。復号化モード判断部310は、各オーディオフレームの符号化モードに相応する復号化モードを決定する。
ビット率判断部320は、符号化されたオーディオフレームのビット率を判断する。一実施形態によれば、各オーディオフレームに含まれるオーディオ信号の特性は相異なりうる。したがって、各オーディオフレームに含まれたオーディオ信号は、相異なるビット率で符号化される。ビット率判断部320は、オーディオフレームに対してビット率を判断する。
一実施形態によれば、ビット率判断部320は、決定された復号化モードを参照して、ビット率を判断する。
加重線形予測変換復号化部330は、判断された復号化率及び決定された復号化モードによって、オーディオフレームに対して加重予測変換復号化を行う。加重線形予測変換復号化部330の多様な実施形態については、以下、図4、図6及び図8で詳細に説明する。
図4は、本発明によって、複数の線形予測を利用して、オーディオ信号を復号化する加重線形予測変換復号化部の構成を示すブロック図である。加重線形予測変換復号化部は、パラメータ復号化部410、残余信号復元部420、第2線形予測係数逆量子化部430、第2線形予測合成部440、第1線形予測係数逆量子化部450及び第1線形予測合成部460を備える。
パラメータ復号化部410は、量子化されたコードブックインデックス、コードブックの利得、ノイズレベルなどのパラメータを復号化する。一実施形態によれば、パラメータは、符号化されたオーディオフレームにオーディオ信号の一部として含まれる。残余信号復元部420は、復号化されたコードブックインデックス、復号化されたコードブックの利得を参照して、第2残余信号を復元する。一実施形態によれば、コードブックは、ガウス分布による複数の構成要素を含んでもよい。残余信号復元部は、コードブックインデックスを利用して、コードブックの構成要素のうち一部の構成要素を選択し、選択された構成要素及びコードブックの利得に基づいて、第2残余信号を復元する。
第2線形予測係数逆量子化部430は、量子化された第2線形予測係数を復元する。第2線形予測合成部440は、第2線形予測係数を利用して、第2線形予測データを復元する。第2線形予測合成部440は、復元された第2線形予測データと第2残余信号とを合せて、第1残余信号を復元する。
第1線形予測係数逆量子化部450は、量子化された第1線形予測係数を復元する。第1線形予測合成部460は、第1線形予測係数を利用して、第1線形予測データを復元する。第1線形予測合成部460は、復元された第1線形予測データと第2残余信号とを合せて、オーディオ信号を復号化する。
図5は、本発明の一実施形態によって、TNS(Temporal Noise Shaping)を利用して、オーディオ信号を符号化する符号化器の構成を示すブロック図である。一実施形態によるオーディオ信号符号化器は、線形予測部510、線形予測係数量子化部511、残余信号生成部520及び加重線形予測変換符号化部530を備える。
加重線形予測変換符号化部530は、周波数領域変換部540、TNS部550、周波数領域処理部560及び量子化部570を備える。
線形予測部510は、オーディオフレームに対して線形予測を行って、線形予測データ及び線形予測係数を生成する。線形予測係数量子化部511は、線形予測係数を量子化する。一実施形態によれば、オーディオ信号復号化器は、線形予測係数を利用して、線形予測データを復元する。
残余信号生成部520は、オーディオフレームに対して線形予測データを除去して、残余信号を生成する。加重線形予測変換符号化部530は、残余信号を符号化して、低いビット率で高音質のオーディオ信号を符号化する。
周波数領域変換部540は、時間領域の残余信号を周波数領域に変換する。一実施形態によれば、周波数領域変換部540は、高速フーリエ変換(FFT: Fast Fourier Transform)または変形離散コサイン変換(MDCT: Modified Discrete Cosine Transform)を利用して、残余信号を周波数領域に変換する。
TNS部は、周波数領域の残余信号に対してTNSを行う。TNSは、アナログの連続的な音楽データを量子化して、デジタルデータに作る時に生じる誤差を知能的に減らして、雑音を減少させ、原音に近くする方法であって、時間軸ノイズ整形ともいう。時間領域で突然に発生した信号があるならば、符号化されたオーディオ信号には、プリエコーなどによるノイズが発生する。TNSは、プリエコーによるノイズを減少させる。
周波数領域処理部560は、オーディオ信号の音質を向上させ、符号化を容易にするための周波数領域での色々な処理を行える。
量子化部570は、TNSが行われた残余信号を量子化する。
図5に示す実施形態によれば、TNSを行って、符号化されたオーディオ信号のノイズを減少させる。したがって、低いビット率で高音質のオーディオ信号を符号化できる。
図6は、本発明の一実施形態によって、TNSが行われたオーディオ信号を復号化する復号化器の構成を示すブロック図である。一実施形態によるオーディオ信号復号化器は、逆量子化部610、周波数領域処理部620、逆TNS部630、時間領域変換部640、線形予測係数逆量子化部650、及び線形予測変換復号化部660を備える。
逆量子化部610は、フレームに含まれた量子化された残余信号を逆量子化して、
残余信号を復元する。逆量子化部で復元された残余信号は、周波数領域の残余信号でありうる。
周波数領域処理部620は、オーディオ信号の音質を向上させ、符号化を容易にするための周波数領域での色々な処理を行える。
逆TNS部630は、逆量子化された残余信号に逆TNSを行う。逆TNSは、量子化時に発生したノイズを除去するためのものである。時間領域で突然に発生した信号は、量子化時にプリエコーによるノイズを発生させるが、逆TNS部630は、かかるノイズを除去できる。
時間領域変換部640は、逆TNSが行われた残余信号を時間領域に変換する。
線形予測係数逆量子化部650は、オーディオフレームに含まれた量子化された線形予測係数を逆量子化する。加重線形予測変換復号化部660は、逆量子化された線形予測係数に基づいて、線形予測データを生成し、線形予測データと時間領域の残余信号とを合せて、符号化されたオーディオ信号を線形予測復号化する。
図7は、本発明の一実施形態によって、コードブックを利用して、オーディオ信号を符号化する符号化器の構成を示すブロック図である。一実施形態によるオーディオ信号符号化器は、線形予測部710、線形予測係数量子化部711、残余信号生成部720、及び加重線形予測変換符号化部730を備える。図7に示す線形予測部710、線形予測係数量子化部711、残余信号生成部720の動作は、図5に示す線形予測部510、線形予測係数量子化部511、残余信号生成部520の動作と類似しているので、詳細な説明は省略する。
加重線形予測変換符号化部730は、周波数領域変換部740、探索部750及び符号化部760を備える。
周波数領域変換部740は、時間領域の残余信号を周波数領域に変換する。一実施形態によれば、周波数領域変換部740は、高速フーリエ変換または変形離散コサイン変換を利用して、残余信号を周波数領域に変換する。
探索部750は、コードブックに含まれた複数の構成要素のうち、周波数領域に変換された残余信号に相応する構成要素を探索する。一実施形態によれば、残余信号に相応する構成要素は、コードブックに含まれた複数の構成要素のうち、残余信号と類似した構成要素でありうる。一実施形態によれば、コードブックの構成要素は、ガウス分布による。
符号化部760は、残余信号に相応する構成要素のインデックスを符号化する。
一実施形態によれば、オーディオ信号符号化器は、残余信号を符号化せず、残余信号と類似したコードブックのインデックスを符号化する。コードブックの構成要素は、残余信号と類似しているが、コードブックのインデックスは、残余信号に比べてその容量がはるかに少ない。したがって、低いビット率で高い音質のオーディオ信号を符号化できる。
オーディオ信号復号化器は、コードブックのインデックスを復号化し、復号化されたコードブックのインデックスを参照して、残余信号と類似したコードブックの構成要素を抽出する。
図7では、一回の線形予測及びコードブックを利用して、オーディオ信号を符号化する実施形態が示されたが、本発明の他の実施形態によれば、複数の線形予測及びコードブックを利用して、オーディオ信号を符号化する。図2を参照すれば、線形予測部710は、残余信号に対する線形予測を行って、第2線形予測データを生成する。残余信号生成部720は、残余信号から第2線形予測データを除去して、第2残余信号を生成する。
探索部750は、コードブックの構成要素から第2残余信号に相応する構成要素を探索し、符号化部760は、第2残余信号に相応する構成要素のインデックスを符号化する。
図8は、本発明の一実施形態によって、コードブックを利用して、オーディオ信号を復号化する復号化器の構成を示すブロック図である。一実施形態によるオーディオ信号復号化器は、逆量子化部810、コードブック保存部820、抽出部830、時間領域変換部840、線形予測係数逆量子化部850、及び加重線形予測変換復号化部860を備える。
逆量子化部810は、オーディオフレームに含まれた量子化されたコードブックインデックスを逆量子化する。
コードブック保存部820は、複数の構成要素を含むコードブックを保存する。一実施形態によれば、コードブックの構成要素は、ガウス分布による。
抽出部830は、コードブックインデックスを参照して、コードブックから一部の構成要素を抽出する。コードブックインデックスは、コードブックの構成要素のうち、残余信号と類似した構成要素を指示する。抽出部830は、逆量子化されたコードブックインデックスを参照して、残余信号と類似したコードブックの構成要素を抽出する。
時間領域変換部840は、抽出されたコードブックの構成要素を時間領域に変換する。
線形予測係数逆量子化部850は、オーディオフレームに含まれた量子化された線形予測係数を逆量子化する。加重線形予測変換復号化部860は、逆量子化された線形予測係数に基づいて、線形予測データを生成し、線形予測データと時間領域のコードブックの構成要素とを合せて、符号化されたオーディオ信号を加重線形予測変換復号化する。
図9は、本発明の一実施形態によって、オーディオ信号の符号化モードを決定するモード選択部の構成を示すブロック図である。本発明によるモード選択部は、音声活性度分析部910、無声音認知部920、無声音符号化部930、及び有声音符号化部940を備える。
音声活性度分析部(VAD: Voice Activity Detection)910は、オーディオフレームに含まれたオーディオ信号の音声活性度を分析する。オーディオ信号の音声活性度が所定の臨界値より低ければ、音声活性度分析部910は、オーディオ信号が黙音であると判断する。
無声音認知部920は、オーディオ信号が無声音であるか有声音であるかを認知する。無声音は、人間の声のうち、声帯を振動させずに発生する声であり、有声音は、声帯を振動させて発生する声である。
無声音認知部920が、入力されたオーディオ信号が無声音であると認知した場合、無声音符号化部930は、入力されたオーディオ信号を符号化する。
無声音符号化部930は、可変ビット率線形予測変換符号化部951、無声線形予測変換符号化部952、及び無声CELP符号化部953を備える。入力信号が無声音である場合に、線形予測変換符号化モード、無声線形予測変換符号化モード、及び無声CELP符号化モードは、各モードの符号化部である線形予測変換符号化部951、無声線形予測変換符号化部952、及び無声CELP符号化部953を利用して、オーディオ信号を符号化する。
第1符号化モード選択部954は、各モードによって符号化されたオーディオフレームの符号化された以後の特性に基づいて、符号化モードを選択する。一実施形態によれば、オーディオフレームの特性は、オーディオフレームの信号対ノイズ比(SNR: Signal to Noise Ratio)でありうる。すなわち、第1符号化モード選択部954は、各モードによって符号化されたオーディオフレームの符号化された以後の信号対ノイズ比に基づいて、符号化モードを選択する。第1符号化モード選択部954は、符号化されたオーディオフレームの信号対ノイズ比の高い符号化モードを、入力オーディオフレームについての符号化モードとして選択する。
図9では、第1符号化モード選択部954が、三つのモードのうち符号化モードを選択する実施形態が示されたが、他の実施形態によれば、第1符号化モード選択部954は、可変ビット率線形予測変換モードまたは無声線形予測変換符号化モードの二つのモードのうち符号化モードを選択してもよい。
さらに他の実施形態によれば、第1符号化モード選択部954は、各モードのオフセット(off)を異ならせて符号化された以後の信号対ノイズ比に基づいて、符号化モードを選択する。すなわち、第1符号化モード選択部954は、可変ビット率線形予測変換符号化部951のオフセットと、無声線形予測変換符号化部952のオフセットとを異ならせて、オーディオフレームを符号化し、符号化されたオーディオフレームの信号対ノイズ比を互いに比較する。可変ビット率線形予測変換符号化部951のオフセットが、無声線形予測変換符号化部952のオフセットよりさらに大きい場合にも、可変ビット率線形予測変換符号化モードによって符号化されたオーディオフレームの信号対ノイズ比が、無声線形予測変換符号化モードによって符号化されたオーディオフレームの信号対ノイズ比よりさらに大きい場合には、可変ビット率線形予測変換符号化モードを符号化モードとして選択する。
各モードに対するオフセットを異ならせて、オーディオフレームをそれぞれ符号化し、そのうち大きい信号対ノイズ比を有する符号化モードを選択する方式で、最適の符号化モードを選択する。
無声音認知部920が、オーディオフレームに含まれたオーディオ信号が有声音であると認知した場合に、有声音符号化部940でオーディオフレームを符号化する。
有声音符号化部940は、可変ビット率線形予測変換符号化部961及び可変ビット率CELP符号化部962を備える。
可変ビット率線形予測変換符号化部961は、可変ビット率線形予測変換符号化モードによって、可変ビット率CELP符号化部962は、可変ビット率CELP符号化モードによって、オーディオフレームを符号化する。
第2符号化モード選択部963は、各モードによって符号化されたオーディオフレームの符号化された以後の特性に基づいて、符号化モードを選択する。一実施形態によれば、オーディオフレームの特性は、オーディオフレームの信号対ノイズ比となりうる。すなわち、第2符号化モード選択部963は、符号化されたオーディオフレームの信号対ノイズ比の高い符号化モードを、オーディオフレームについての符号化モードとして選択する。
図9では、音声活性度分析部910がモード選択部に含まれた実施形態が示されたが、他の実施形態によれば、音声活性度分析部910は、モード選択部と別個に具現されてもよい。
図10は、本発明の一実施形態によって、加重線形予測変換を利用して、オーディオ信号を符号化する方法を段階別に説明した順序図である。
ステップS1010では、オーディオフレームの符号化モードを選択する。一実施形態によれば、ステップS1010では、無声加重線形予測変換符号化モード及び無声CELP符号化モードのうち、符号化モードを選択する。ステップS1010では、各符号化モードによって符号化されたオーディオフレームの信号対ノイズ比に基づいて、符号化モードを選択する。すなわち、無声加重線形予測変換符号化モードによって符号化されたオーディオフレームの信号対ノイズ比が、無声CELP符号化モードによって符号化されたオーディオフレームの信号対ノイズ比よりさらに高ければ、ステップS1010では、無声加重線形予測変換符号化モードを符号化モードとして選択する。
ステップS1020では、ステップS1010で選択された符号化モードによって、オーディオフレームのターゲットビット率を決定する。一実施形態によれば、ステップS1010では、符号化モードを無声加重線形予測変換符号化モードとして決定する。これは、オーディオフレームに含まれたオーディオ信号が無声音であることを意味する。オーディオ信号が無声音である場合、非常に低いターゲットビット率を決定する。ステップS1010では、有声CELPモードを符号化モードとして決定する。これは、オーディオ信号が有声音であることを意味する。ステップS1020では、有声音に対して高いターゲットビット率を決定する。
ステップS1030では、決定されたターゲットビット率及び選択された符号化モードによって、オーディオフレームに対して加重線形予測変換符号化を行う。一実施形態によれば、ステップS1030では、複数の線形予測を利用して、オーディオフレームを符号化するか、またはTNSを利用して、オーディオフレームを符号化するか、またはコードブックを利用して、オーディオフレームを符号化する。それぞれの実施形態については、以下、図11ないし図13で詳細に説明する。
図11は、本発明の一実施形態によって、複数の線形予測を利用して、オーディオ信号を符号化する方法を段階別に説明した順序図である。
ステップS1110では、オーディオフレームに対して線形予測を行って、第1線形予測データ及び第1線形予測係数を生成する。オーディオ信号復号化器は、第1線形予測係数に基づいて、第1線形予測データを復元する。
ステップS1120では、オーディオフレームに対して第1線形予測データを除去して、第1残余信号を生成する。オーディオフレームに含まれたオーディオ信号についての予測が正確であれば、第1線形予測データは、実際のオーディオ信号と類似している。したがって、第1残余信号のサイズは、オーディオ信号のサイズに比べて小さい。
ステップS1130では、第1残余信号に対して線形予測を行って、第2線形予測データ及び第2線形予測係数を生成する。オーディオ信号復号化器は、第2線形予測係数に基づいて、第2線形予測データを復元する。
ステップS1140では、第1残余信号から第2線形予測データを除去して、第2残余信号を生成する。
ステップS1030では、第2残余信号を符号化する。第2残余信号のサイズは、第1残余信号のサイズ及びオーディオ信号のサイズよりさらに小さい。したがって、非常に低いビット率でオーディオ信号を符号化する場合にも、オーディオ信号の音質を維持できる。
図12は、本発明の一実施形態によって、TNSを利用して、オーディオ信号を符号化する方法を段階別に説明した順序図である。
ステップS1210では、オーディオフレームに対して線形予測を行って、線形予測データ及び線形予測係数を生成する。オーディオ信号復号化器は、線形予測係数に基づいて、線形予測データを復元する。
ステップS1220では、オーディオフレームから線形予測データを除去して、残余信号を生成する。
ステップS1030では、残余信号を加重線形予測変換符号化する。以下、ステップS1030について詳細に説明する。
ステップS1230では、残余信号を周波数領域に変換する。一実施形態によれば、ステップS1230では、高速フーリエ変換または変形離散コサイン変換を利用して、残余信号を周波数領域に変換する。
ステップS1240では、周波数領域に変換された残余信号に対してTNSを行う。オーディオ信号が時間領域で突然発生した信号を含むならば、符号化されたオーディオ信号には、プリエコーなどによるノイズが発生する。TNSは、プリエコーによるノイズを減少させる。
ステップS1250では、TNSが行われた残余信号を量子化する。残余信号が有する値の範囲は、オーディオ信号が有する値の範囲より狭い。したがって、オーディオ信号でなく、残余信号を量子化すれば、さらに少ないビットを利用して、オーディオ信号を量子化できる。
図13は、本発明の一実施形態によって、コードブックを利用して、オーディオ信号を符号化する方法を段階別に説明した順序図である。
ステップS1310及びステップS1320は、ステップS1210及びステップS1220と類似しているので、詳細な説明は省略する。
ステップS1030では、残余信号を加重線形予測変換符号化する。以下、ステップS1030について詳細に説明する。
ステップS1230では、残余信号を周波数領域に変換する。一実施形態によれば、ステップS1330では、高速フーリエ変換または変形離散コサイン変換を利用して、残余信号を周波数領域に変換する。
ステップS1340では、コードブックの構成要素のうち、周波数領域に変換された残余信号に相応する構成要素を探索する。一実施形態によれば、相応する構成要素は、コードブックの構成要素のうち、残余信号と類似した構成要素でありうる。一実施形態によれば、コードブックの構成要素は、ガウス分布による。
ステップS1350では、残余信号に相応するコードブックの構成要素のインデックスを符号化する。したがって、低いビット率で高音質のオーディオ信号を符号化できる。
以上のように、本発明は、限定された実施形態と図面により説明されたが、本発明は、前記の実施形態に限定されるものではなく、当業者ならば、かかる記載から多様な修正及び変形が可能であろう。
前述したオーディオ信号の符号化方法またはオーディオ信号の復号化方法は、多様なコンピュータ手段を通じて行われるプログラム命令の形態に具現されて、コンピュータで読み取り可能な媒体に記録される。前記コンピュータで読み取り可能な媒体は、プログラム命令、信号ファイル、信号構造などを単独にまたは組み合わせて含む。前記媒体に記録されるプログラム命令は、特に設計されて構成されたものであるか、またはコンピュータソフトウェア当業者に公知されて使用可能なものであってもよい。コンピュータで読み取り可能な記録媒体の例には、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気・光媒体、及びROM、RAM、フラッシュメモリのようなプログラム命令を保存して行うように特に構成されたハードウェア装置が含まれる。前記媒体は、プログラム命令、信号構造などを指定する信号を伝送する搬送波を含む光または金属線、導波管などの伝送媒体であってもよい。プログラム命令の例には、コンパイラーにより形成されるような機械語コードだけでなく、インタープリタなどを使用して、コンピュータにより実行される高級言語コードを含む。前記ハードウェア装置は、動作を行うために一つ以上のソフトウェアモジュールとして作動するように構成され、その逆も同様である。
本発明の範囲は、前述した実施形態に限定されて決まってはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なものにより決まらねばならない。

Claims (20)

  1. フレームの単位でオーディオフレームの符号化モードを選択するモード選択部と、
    前記選択された符号化モードによって、前記オーディオフレームのターゲットビット率を決定するビット率決定部と、
    前記決定されたターゲットビット率によって、前記オーディオフレームに対して、加重線形予測変換(Weighted Linear Prediction Transform)符号化を行う加重線形予測変換符号化部と、を備えることを特徴とするオーディオ信号符号化器。
  2. 前記モード選択部は、無声の加重線形予測変換符号化モードまたは無声のCELP符号化モードのうち、前記オーディオフレームの符号化後の信号対ノイズ比(SNR: Signal to Noise Ratio)に基づいて、前記符号化モードを選択することを特徴とする請求項1に記載のオーディオ信号符号化器。
  3. 前記モード選択部は、無声の加重線形予測変換符号化モードまたは無声のCELP符号化モードのうち、各モードのオフセットを異ならせて符号化された前記オーディオフレームの信号対ノイズ比に基づいて、前記符号化モードを選択することを特徴とする請求項1に記載のオーディオ信号符号化器。
  4. 前記選択された符号化モードによって、前記オーディオフレームに対して、CELP方式の符号化を行うCELP符号化部をさらに備えることを特徴とする請求項1に記載のオーディオ信号符号化器。
  5. 前記CELP符号化部は、前記決定されたビット率を参照して、前記オーディオフレームに対する符号化を行うことを特徴とする請求項4に記載のオーディオ信号符号化器。
  6. 前記オーディオフレームに対して線形予測を行って、第1線形予測データを生成する第1線形予測部と、
    前記オーディオフレームから前記第1線形予測データを除去して、第1残余信号を生成する第1残余信号生成部と、
    前記第1残余信号に対して線形予測を行って、第2線形予測データを生成する第2線形予測部と、
    前記第1残余信号から前記第2線形予測データを除去して、第2残余信号を生成する第2残余信号生成部と、をさらに備え、
    前記加重線形予測変換符号化部は、前記第2残余信号に対する変換を行うことを特徴とする請求項1に記載のオーディオ信号符号化器。
  7. 前記オーディオフレームに対して線形予測を行って、線形予測データを生成する線形予測部と、
    前記オーディオフレームから残余信号を生成する残余信号生成部と、をさらに備え、
    前記加重線形予測変換符号化部は、
    前記残余信号を周波数領域に変換する周波数領域変換部と、
    前記周波数領域の残余信号に対してTNSを行うTNS部と、
    前記TNSが行われた残余信号を量子化する量子化部と、を備えることを特徴とする請求項1に記載のオーディオ信号符号化器。
  8. 前記オーディオフレームに対して線形予測を行って、線形予測データを生成する線形予測部と、
    前記オーディオフレームから残余信号を生成する残余信号生成部と、をさらに備え、
    前記加重線形予測変換符号化部は、
    前記残余信号を周波数領域に変換する周波数領域変換部と、
    コードブックに含まれた複数の構成要素のうち、前記周波数領域に変換された残余信号に相応する構成要素を探索する探索部と、
    前記相応する構成要素のインデックスを符号化する符号化部と、を備えることを特徴とする請求項1に記載のオーディオ信号符号化器。
  9. 符号化されたオーディオフレームのビット率をフレームの単位で決定するビット率判断部と、
    前記判断されたビット率によって、前記オーディオフレームに対して、加重線形予測変換(Weighted Linear Prediction Inverse Transform)復号化を行う加重線形予測変換復号化部と、を備えることを特徴とするオーディオ信号復号化器。
  10. 前記オーディオフレームの復号化モードを判断する復号化モード決定部をさらに備え、
    前記ビット率判断部は、前記決定された復号化モードを参照して、前記ビット率を判断することを特徴とする請求項9に記載のオーディオ信号復号化器。
  11. 前記加重線形予測変換復号化部は、
    前記オーディオフレームに含まれたコードブックインデックスを参照して、ガウス分布による複数の構成要素を備えるコードブックから第2残余信号を復元する残余信号復元部と、
    前記オーディオフレームに含まれた第2線形予測係数に基づいて、第2線形予測データを復元し、前記第2残余信号と前記第2線形予測データとを合せて、第1残余信号を復元する第2線形予測合成部と、
    前記オーディオフレームに含まれた第1線形予測係数に基づいて、第1線形予測データを復元し、前記第1残余信号と前記第1線形予測データとを合せて、符号化されたオーディオフレームを線形予測復号化する第1線形予測合成部と、を備えることを特徴とする請求項9に記載のオーディオ信号復号化器。
  12. 前記加重線形予測変換復号化部は、
    前記オーディオフレームに含まれた量子化された残余信号を逆量子化する逆量子化部と、
    前記逆量子化された残余信号を逆TNS行う逆TNS部と、
    前記逆TNSが行われた残余信号を時間領域に変換する時間領域変換部と、
    前記フレームに含まれた線形予測係数に基づいて、線形予測データを生成し、前記線形予測データと前記時間領域の残余信号とを合せて、前記オーディオフレームを線形予測復号化する線形予測復号化部と、を備えることを特徴とする請求項9に記載のオーディオ信号復号化器。
  13. 前記加重線形予測変換復号化部は、
    前記オーディオフレームに含まれたコードブックインデックスを参照して、ガウス分布による複数の構成要素を備えるコードブックから一部の構成要素を抽出する抽出部と、
    前記抽出された構成要素を時間領域に変換する時間領域変換部と、
    前記オーディオフレームに含まれた線形予測係数に基づいて、線形予測データを生成し、前記線形予測データと前記時間領域のコードブックの構成要素とを合せて、前記オーディオフレームを線形予測復号化する線形予測復号化部と、を備えることを特徴とする請求項9に記載のオーディオ信号復号化器。
  14. オーディオフレームの符号化モードを選択するステップと、
    前記選択された符号化モードによって、フレームの単位で前記オーディオフレームのビット率を決定するステップと、
    前記決定されたビット率によって、前記オーディオフレームに対して、加重線形予測変換符号化を行うステップと、を含むことを特徴とするオーディオ信号符号化方法。
  15. 前記符号化モードを選択するステップは、
    無声の加重線形予測変換符号化モード及び無声のCELP符号化モードのうち、前記オーディオフレームの符号化後の信号対ノイズ比に基づいて、前記符号化モードを選択することを特徴とする請求項14に記載のオーディオ信号符号化方法。
  16. 前記符号化モードを選択するステップは、
    無声の加重線形予測変換符号化モードまたは無声のCELP符号化モードのうち、各モードのオフセットを異ならせて符号化された前記オーディオフレームの信号対ノイズ比に基づいて、前記符号化モードを選択することを特徴とする請求項14に記載のオーディオ信号符号化方法。
  17. 前記オーディオフレームに対して線形予測を行って、第1線形予測データを生成するステップと、
    前記オーディオフレームから前記第1線形予測データを除去して、第1残余信号を生成するステップと、
    前記第1残余信号に対して線形予測を行って、第2線形予測データを生成するステップと、
    前記第1残余信号から前記第2線形予測データを除去して、第2残余信号を生成するステップと、をさらに含み、
    前記加重線形予測変換符号化するステップは、前記第2残余信号に対する変換を行うステップであることを特徴とする請求項14に記載のオーディオ信号符号化方法。
  18. 前記オーディオフレームに対して線形予測を行って、線形予測データを生成するステップと、
    前記オーディオフレームから残余信号を生成するステップと、をさらに含み、
    前記加重線形予測変換符号化するステップは、
    前記残余信号を周波数領域に変換するステップと、
    前記周波数領域の残余信号に対してTNSを行うステップと、
    前記TNSが行われた残余信号を量子化するステップと、を含むことを特徴とする請求項14に記載のオーディオ信号符号化方法。
  19. 前記オーディオフレームに対して線形予測を行って、線形予測データを生成するステップと、
    前記オーディオフレームから残余信号を生成するステップと、をさらに含み、
    前記加重線形予測変換符号化するステップは、
    前記残余信号を周波数領域に変換するステップと、
    コードブックに含まれた複数の構成要素のうち、前記周波数領域に変換された残余信号に相応する構成要素を探索するステップと、
    前記相応する構成要素のインデックスを符号化するステップと、を含むことを特徴とする請求項14に記載のオーディオ信号符号化方法。
  20. 請求項14ないし19のうちいずれか一項に記載の方法を実行させるためのプログラムが記録されたコンピュータで読み取り可能な記録媒体。
JP2012518488A 2009-06-29 2010-06-28 オーディオ信号符号化器、オーディオ信号復号化器及びオーディオ信号符号化方法 Active JP5894070B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020090058530A KR20110001130A (ko) 2009-06-29 2009-06-29 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
KR10-2009-0058530 2009-06-29
PCT/KR2010/004169 WO2011002185A2 (ko) 2009-06-29 2010-06-28 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법

Publications (2)

Publication Number Publication Date
JP2012532344A JP2012532344A (ja) 2012-12-13
JP5894070B2 true JP5894070B2 (ja) 2016-03-23

Family

ID=43411572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012518488A Active JP5894070B2 (ja) 2009-06-29 2010-06-28 オーディオ信号符号化器、オーディオ信号復号化器及びオーディオ信号符号化方法

Country Status (6)

Country Link
US (1) US20120173247A1 (ja)
EP (1) EP2450881A4 (ja)
JP (1) JP5894070B2 (ja)
KR (1) KR20110001130A (ja)
CN (1) CN102483922A (ja)
WO (1) WO2011002185A2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130066638A1 (en) * 2011-09-09 2013-03-14 Qnx Software Systems Limited Echo Cancelling-Codec
EP2670060B1 (en) * 2012-04-11 2015-09-09 Huawei Technologies Co., Ltd. Method and device for configuring transmission mode
WO2014081736A2 (en) * 2012-11-20 2014-05-30 Dts, Inc. Reconstruction of a high frequency range in low-bitrate audio coding using predictive pattern analysis
EP2976768A4 (en) * 2013-03-20 2016-11-09 Nokia Technologies Oy AUDIO SIGNAL ENCODER COMPRISING A MULTI-CHANNEL PARAMETER SELECTOR
CN107086043B (zh) * 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
FR3025923A1 (fr) * 2014-09-12 2016-03-18 Orange Discrimination et attenuation de pre-echos dans un signal audionumerique
US9847093B2 (en) * 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
US11367452B2 (en) 2018-03-02 2022-06-21 Intel Corporation Adaptive bitrate coding for spatial audio streaming
WO2020146868A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
CN110992963B (zh) * 2019-12-10 2023-09-29 腾讯科技(深圳)有限公司 网络通话方法、装置、计算机设备及存储介质
US11195203B2 (en) * 2020-02-04 2021-12-07 The Rocket Science Group Llc Predicting outcomes via marketing asset analytics
KR20220066749A (ko) * 2020-11-16 2022-05-24 한국전자통신연구원 잔차 신호의 생성 방법과 그 방법을 수행하는 부호화기 및 복호화기

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69233397T2 (de) * 1991-06-11 2005-08-11 Qualcomm, Inc., San Diego Vorrichtung und Methode zur Maskierung von Fehlern in Datenrahmen
JP3353852B2 (ja) * 1994-02-15 2002-12-03 日本電信電話株式会社 音声の符号化方法
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
TW321810B (ja) * 1995-10-26 1997-12-01 Sony Co Ltd
JP3531780B2 (ja) * 1996-11-15 2004-05-31 日本電信電話株式会社 音声符号化方法および復号化方法
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
JP3199020B2 (ja) * 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6260017B1 (en) * 1999-05-07 2001-07-10 Qualcomm Inc. Multipulse interpolative coding of transition speech frames
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US7333515B1 (en) * 2002-08-06 2008-02-19 Cisco Technology, Inc. Methods and apparatus to improve statistical remultiplexer performance by use of predictive techniques
US7398204B2 (en) * 2002-08-27 2008-07-08 Her Majesty In Right Of Canada As Represented By The Minister Of Industry Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking
CA2415105A1 (en) * 2002-12-24 2004-06-24 Voiceage Corporation A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
RU2316059C2 (ru) * 2003-05-01 2008-01-27 Нокиа Корпорейшн Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи
GB0321093D0 (en) * 2003-09-09 2003-10-08 Nokia Corp Multi-rate coding
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
KR100619893B1 (ko) * 2004-07-23 2006-09-19 엘지전자 주식회사 휴대단말기의 개선된 저전송률 선형예측코딩 장치 및 방법
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
WO2006107837A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
KR20080101872A (ko) * 2006-01-18 2008-11-21 연세대학교 산학협력단 부호화/복호화 장치 및 방법
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
JP5164970B2 (ja) * 2007-03-02 2013-03-21 パナソニック株式会社 音声復号装置および音声復号方法
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
DE602008005250D1 (de) * 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer

Also Published As

Publication number Publication date
JP2012532344A (ja) 2012-12-13
WO2011002185A3 (ko) 2011-03-31
EP2450881A2 (en) 2012-05-09
CN102483922A (zh) 2012-05-30
US20120173247A1 (en) 2012-07-05
WO2011002185A2 (ko) 2011-01-06
KR20110001130A (ko) 2011-01-06
EP2450881A4 (en) 2016-08-24

Similar Documents

Publication Publication Date Title
JP5894070B2 (ja) オーディオ信号符号化器、オーディオ信号復号化器及びオーディオ信号符号化方法
KR101747917B1 (ko) 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
EP2041745B1 (en) Adaptive encoding and decoding methods and apparatuses
KR20080101873A (ko) 부호화/복호화 장치 및 방법
KR102626320B1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
CA2923218A1 (en) Adaptive bandwidth extension and apparatus for the same
CN101180676A (zh) 用于谱包络表示的向量量化的方法和设备
JP6763849B2 (ja) スペクトル符号化方法
KR20130007485A (ko) 대역폭 확장신호 생성장치 및 방법
JP2004517348A (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
KR20100115215A (ko) 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
CA2918345A1 (en) Unvoiced/voiced decision for speech processing
KR101610765B1 (ko) 음성 신호의 부호화/복호화 방법 및 장치
KR102052144B1 (ko) 음성 신호의 대역 선택적 양자화 방법 및 장치
KR101857799B1 (ko) 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
Alipoor et al. Wide-band speech coding based on bandwidth extension and sparse linear prediction
KR101377667B1 (ko) 오디오/스피치 신호의 시간 도메인에서의 부호화 방법
KR101997897B1 (ko) 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
KR20100006491A (ko) 무성음 부호화 및 복호화 방법 및 장치
KR20080034817A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160225

R150 Certificate of patent or registration of utility model

Ref document number: 5894070

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250