JP5096474B2 - オーディオ信号を符号化及び復号化する方法及び装置 - Google Patents

オーディオ信号を符号化及び復号化する方法及び装置 Download PDF

Info

Publication number
JP5096474B2
JP5096474B2 JP2009532524A JP2009532524A JP5096474B2 JP 5096474 B2 JP5096474 B2 JP 5096474B2 JP 2009532524 A JP2009532524 A JP 2009532524A JP 2009532524 A JP2009532524 A JP 2009532524A JP 5096474 B2 JP5096474 B2 JP 5096474B2
Authority
JP
Japan
Prior art keywords
signal
encoder
input signal
sparse
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009532524A
Other languages
English (en)
Other versions
JP2010506239A (ja
Inventor
クリシュナン、ベンカテシュ
ラジェンドラン、ビベク
カンドハダイ、アナンサパドマナブハン・エー.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2010506239A publication Critical patent/JP2010506239A/ja
Application granted granted Critical
Publication of JP5096474B2 publication Critical patent/JP5096474B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

優先権の主張
本出願は、2006年10月10日に出願され、「A FRAMEWORK FOR ENCODING GENERALIZED AUDIO SIGNALS(汎用化されたオーディオ信号を符号化するフレームワーク)」と題された、米国仮特許出願第60/828,816号、及び、2007年6月8日に出願され、「METHOD AND APPARATUS FOR ENCODING AND DECODING AUDIO SIGNALS(オーディオ信号を符号化及び復号化する方法及び装置)」と題された、米国特許出願第60/942,984号への優先権を主張し、双方が本願の譲受人に譲渡され、参照によって本明細書に組み込まれる。
本開示は、一般に通信に関し、特にオーディオ信号を符号化及び復号化する技法に関する。
オーディオ符号器及び復号器は、無線通信、ボイス・オーバ・インターネット・プロトコル(VoIP)、マルチメディア、デジタルオーディオ等といった、種々の適用に広く使用されている。オーディオ符号器は、入力ビットレートでオーディオ信号を受信し、コード体系に基づいてオーディオ信号を符号化し、概して入力ビットレートよりも低い(また時にはかなり低い)出力ビットレートで符号化された信号を生成する。これは、符号化された信号が、より少ないリソースを使用して、送信されること又は格納されることを可能にする。
オーディオ符号器は、オーディオ信号の一定の推定された特性に基づいて設計されてもよく、また、オーディオ信号中の情報を表わすのにできるだけ少数のビットを使用するために、これらの信号特性を開発してもよい。オーディオ符号器の有効性は、従って、実際のオーディオ信号が、オーディオ符号器が設計された推定された特性とどれくらい緊密に一致するかに依存し得る。オーディオ信号が、オーディオ符号器が設計対象としたものとは異なる特性を有する場合、オーディオ符号器の性能は比較的低くなり得る。
効率的に入力信号を符号化し、符号化された信号を復号する技法が本明細書に記載される。一つの設計において、一般化された符号器は、少なくとも1つの検出器及び複数の符号器に基づいて入力信号(例えば、オーディオ信号)を符号化し得る。少なくとも1つの検出器は、信号活動検出器、雑音状の信号検出器、スパースネス検出器、何らかの他の検出器、又はこれらの組み合わせを備え得る。複数の符号器は、サイレンス符号器、雑音状の信号符号器、時間ドメイン符号器、少なくとも1つの変換ドメイン符号器、何らかの他の符号器、又はこれらの組み合わせを備え得る。入力信号の特性は、少なくとも1つの検出器に基づいて判定され得る。符号器は、入力信号の特性に基づいて複数の符号器の中から選択されてもよい。入力信号は、次いで、選択された符号器に基づいて符号化される。入力信号は、フレームのシーケンスを備えてもよい。フレームごとに、フレームの信号特性が判定されてもよく、符号器は当該フレームについてその特性に基づいて選択されてもよく、また、フレームは選択された符号器に基づいて符号化されてもよい。
別の設計においては、汎用化された符号器は、複数のドメイン用の複数の符号器及びスパースネス検出器に基づいて入力信号を符号化してもよい。複数のドメインの各々の入力信号のスパースネスが判定され得る。符号器は、複数のドメインの入力信号のスパースネスに基づいて複数の符号器の中から選択されてもよい。入力信号は、次いで、選択された符号器に基づいて符号化され得る。複数のドメインは、時間ドメインと変換ドメインを備えてもよい。時間ドメイン符号器は、入力信号が変換ドメインよりも時間ドメインにおいて、よりスパースであると考えられる場合に、時間ドメインの入力信号を符号化するために選択されてもよい。変換ドメイン符号器は、入力信号が時間ドメインよりも変換ドメインにおいて、よりスパースであると考えられる場合に、変換ドメイン(例えば、周波数ドメイン)の入力信号を符号化するために選択されてもよい。
また別の設計では、スパースネス検出器は、第1のドメイン(例えば、時間ドメイン)の第1の信号を変換して第2のドメイン(例えば、変換ドメイン)の第2の信号を取得することで、スパースネス検出を行なってもよい。第1及び第2のパラメータは、第1及び第2の信号中の成分/エネルギー値に基づいて判定されてもよい。少なくとも1つのカウントはまた、第1の信号がよりスパースであるという先の通知と、第2の信号がよりスパースであるという先の通知に基づいて、判定され得る。第1の信号がよりスパースであるか、又は第2の信号がよりスパースであるかは、第1及び第2のパラメータと、もし使用される場合は少なくとも1つのカウントとに基づいて、判定されてもよい。
本開示の種々の面及び特徴は、より詳細に以下に記載される。
図1は、汎用オーディオ符号器のブロック図を示す。 図2は、スパースネス検出器のブロック図を示す。 図3は、別のスパースネス検出器のブロック図を示す。 図4Aは、時間ドメイン及び変換ドメインにおける音声信号のプロットを示す。 図4Bは、時間ドメイン及び変換ドメインにおけるインストルメンタル信号のプロットを示す。 図5Aは、時間とメイン及び変換ドメインの音声信号の圧縮要因を示す。 図5Bは、時間とメイン及び変換ドメインのインストルメンタル信号の圧縮要因を示す。 図6Aは、オーディオフレームに対して時間ドメイン符号器あるいは変換ドメイン符号器のいずれかを選択する処理を示す。 図6Bは、オーディオフレームに対して時間ドメイン符号器あるいは変換ドメイン符号器のいずれかを選択する処理を示す。 図7は、汎用符号器を用いて入力信号を符号化する処理を示す。 図8は、複数のドメインのための符号器を用いて入力信号を符号化する処理を示す。 図9は、スパースネス検出を行なう処理を示す。 図10は、汎用オーディオ復号器のブロック図を示す。 図11は、無線通信装置のブロック図を示す。
詳細な説明
種々のタイプのオーディオ符号器を用いて、オーディオ信号を符号化し得る。いくつかのオーディオ符号器は、スピーチ、音楽、調子等といった異なるクラスのオーディオ信号を符号化することができてもよい。これらのオーディオ符号器は汎用オーディオ符号器と称され得る。他のいくつかのオーディオ符号器は、スピーチ、音楽、バックグラウンドノイズ等といった特定のクラスのオーディオ信号のために設計され得る。これらのオーディオ符号器は、特定の信号クラス用の(signal class-specific)オーディオ符号器、専門のオーディオ符号器等と呼ばれてもよい。一般に、特定のクラスのオーディオ信号用に設計されている、特定の信号クラス用のオーディオ符号器は、当該クラスのオーディオ信号を、汎用オーディオ符号器よりも効率的に符号化することができ得る。特定の信号クラス用のオーディオ符号器は、8キロビット/秒(Kbps)もの低いビットレートで特定のクラスのオーディオ信号の改善されたソースコーディングを達成することができ得る。
汎用オーディオ符号器は、汎用のオーディオ信号を効率的に符号化するために、1セットの特定の信号クラス用のオーディオ符号器を使用し得る。汎用のオーディオ信号は、異なるクラスに属してもよいし、及び/又は、時間と共に動的にクラスを変化させてもよい。例えば、オーディオ信号は、幾つかの時間間隔においては、ほとんど音楽を含み、いくつかの他の時間間隔においては、ほとんどスピーチを含み、いくつかの更に他の時間間隔においては、殆ど雑音を含む等であってもよい。汎用オーディオ符号器は、このオーディオ信号を、異なる時間間隔において適切に選択された異なる特定の信号クラス用のオーディオ符号器を用いて、効率的に符号化することができてもよい。汎用オーディオ符号器は、動的に変化するクラス及び/又は異なるクラスのオーディオ信号について良好な符号化パフォーマンスを達成することができ得る。
図1は、異なる特性及び/又は変化する特性を備えたオーディオ信号を符号化することができる、汎用オーディオ符号器100の設計のブロック図を示す。オーディオ符号器100は、1セットの検出器110、セレクタ120、1セットの特定の信号クラス用のオーディオ符号器130、及びマルチプレクサ(Mux)140を備える。検出器110及びセレクタ120は、オーディオ信号の特性に基づいて適切な特定のクラス向けのオーディオ符号器を選択するためのメカニズムを提供する。異なる特定の信号クラス用のオーディオ符号器はまた、異なるコーディングモードと称されてもよい。
オーディオ符号器100内において、信号活動検出器(signal activity detector)112は、オーディオ信号中の活動を検出し得る。ブロック122で判定されるように、信号活動が検出されない場合、オーディオ信号はサイレンス符号器(silence encoder)132に基づいて符号化され得るが、これは、大抵は雑音の符号化時に効率的であり得る。
信号の活動が検出される場合、検出器114は、オーディオ信号の周期的な特性及び/又は雑音状の特性(noise-like characteristics)を検出し得る。オーディオ信号は、それが周期的でない場合、予測可能な構造若しくはパターンを有しない場合、基本(ピッチ)周期等を有しない場合、雑音状の特性を有し得る。例えば、文字「s」の音は、雑音状の特性を有すると見なされるかもしれない。ブロック124で判定されるように、オーディオ信号が雑音状の特性を有する場合、オーディオ信号は雑音状の信号符号器134に基づいて符号化され得る。符号器134は、雑音励起線形予測(Noise Excited Linear Prediction)(NELP)技法、及び/又は、雑音状の特性を有する信号を効率的に符号化することができる、何らかの他のコーディング技法を実施し得る。
オーディオ信号が雑音状の特性を有しない場合、スパースネス検出器(sparseness detector)116は、オーディオ信号を分析して、当該信号が時間ドメインにおいて、あるいは1つ又は複数の変換ドメイン(transform domains)において、スパースネスを示す(demonstrates)かどうかを判定し得る。オーディオ信号は、時間ドメインから変換(transform)に基づいて別のドメイン(例えば、周波数ドメイン)へ変形され得るが、変換ドメインは、オーディオ信号が変換されるドメインを指す。オーディオ信号は、異なるタイプの変換に基づいて、異なる変換ドメインへ変換され得る。スパースネス(sparseness)は、わずかなビットを用いて情報を表わす能力をいう。オーディオ信号は、所与のドメインにおいて、当該ドメインの当該信号のごくわずかな値又は成分が、当該信号のほとんどのエネルギー又は情報を含む場合、スパースであるとみなされ得る。
ブロック126で判定されるように、オーディオ信号が時間ドメインにおいてスパースである場合、オーディオ信号は時間ドメイン符号器136に基づいて符号化され得る。符号器136は、符号励起線形予測(Code Excited Linear Prediction)(CELP)技法及び/又は時間ドメインにおいてスパースである信号を効率的に符号化することができる何らかの他の符号化技法を実施し得る。符号器136は、オーディオ信号の長期的な予測及び短期的な予測の残余を判定し且つ符号化してもよい。さもなければ、オーディオ信号が変換ドメインのうちの1つでスパースであり、及び/又は、変換ドメインのうちの1つにおける符号化効率が、時間ドメイン及び他の変換ドメインよりも良好である場合、オーディオ信号は変換ドメイン符号器138に基づいて符号化され得る。変換ドメイン符号器は、その変換ドメイン表現が、変換ドメインにおいてスパースである信号を符号化する符号器である。符号器138は、変形離散コサイン変換(Modified Discrete Cosine Transform)(MDCT)、1セットのフィルタバンク、正弦波モデル(sinusoidal modeling)、及び/又は、信号変換のスパース係数(sparse coefficients)を効率的に表わすことができる何らかの他の符号化技法を実施してもよい。
マルチプレクサ140は、符号器132、134、136及び138の出力を受け取り、1つの符号器の出力を符号化された信号として供給し得る。オーディオ信号の特性に基づいて、異なる時間間隔においては、符号器132、134、136及び138のうちの異なるものが選択され得る。
図1は、汎用オーディオ符号器100の特定の設計を示す。一般に、汎用オーディオ符号器は、オーディオ信号の任意の特性を検出するために使用され得る任意のタイプの検出器及び任意の数の検出器を備え得る。汎用オーディオ符号器はまた、オーディオ信号を符号化するために使用され得る任意のタイプの符号器及び任意の数の符号器も備え得る。いくつかの検出器及び符号器の例は上述されており、当業者には公知である。検出器と符号器は種々の方法で配置され得る。図1は、1つの配列例における検出器及び符号器の1つのセット例を示す。汎用オーディオ符号器は、図1に示されるものよりも、より少数の符号器及び検出器、より多くの符号器及び検出器、及び/又は、異なる符号器及び検出器を備えてもよい。
オーディオ信号はフレーム単位で処理され得る。フレームは、所定の時間間隔、例えば、10ミリセカンド(ms)、20ms等で集められたデータを含み得る。フレームはまた、所定のサンプルレートにおける所定の数のサンプルを備え得る。フレームは、パケット、データブロック、データユニット等とも称され得る。
汎用オーディオ符号器100は、図1に示されるように各フレームを処理してもよい。各フレームについて、信号活動検出器112は、当該フレームが無音(silence)又は活動(activity)を含むかどうかを判定し得る。無音フレーム(silence frame)が検出される場合、サイレンス符号器132は当該フレームを符号化し、符号化されたフレームを供給し得る。さもなければ、検出器114は、フレームが雑音状の信号を含んでいるかどうかを判定してもよく、含む場合、符号器134はフレームを符号化してもよい。さもなければ、符号器136又は138は、検出器116によるフレーム中のスパースネスの検出に基づいてフレームを符号化してもよい。汎用オーディオ符号器100は、異なる符号器間のシームレスな推移を可能にしつつ、符号化効率(例えば、低いビットレートで良好な再構築品質を達成する)を最大限にするために、フレーム毎に適切な符号器を選択してもよい。
下記の記載は、時間ドメインと変換ドメインとの間の選択を可能にするスパースネス検出器を記載しているが、下記の設計は、時間ドメイン及び任意の数の変換ドメインのうちから1つのドメインを選択するために一般化されてもよい。同様に、汎用オーディオコーダ中の符号器は、任意の数及び任意のタイプの変換ドメイン符号器を備えてもよく、それらのうちの1つは信号あるいは信号のフレームを符号化するために選択され得る。
図1に示される設計では、スパースネス検出器116は、オーディオ信号が時間ドメインあるいは変換ドメインにおいてスパースであるかどうかを判定し得る。この判定の結果は、オーディオ信号について、時間ドメイン符号器136又は変換ドメイン符号器138を選択するために使用され得る。スパース情報は、より少数のビットで表わされ得るので、スパースネスの基準は、オーディオ信号について効率的な符号器を選択するために使用されてもよい。スパースネスは種々の方法で検出され得る。
図2は、スパースネス検出器116aのブロック図を示し、これは図1のスパースネス検出器116の1つの設計である。この設計において、スパースネス検出器116aは、オーディオフレームを受け取り、当該オーディオフレームが時間ドメインにおいて、よりスパースか、あるいは変換ドメインにおいて、よりスパースかどうかを判定する。
図2に示される設計において、ユニット210は、現在のオーディオフレームの近傍で線形予測符号化(LPC)分析を行い、残りのフレームを供給してもよい。近傍には、概して、現在のオーディオフレームを備えており、また、過去のフレーム及び/又は将来のフレームを備えてもよい。例えば、ユニット210は、現在のフレームのみ、又は現在のフレーム及び1つ又は複数の過去のフレーム、又は現在のフレーム及び1つ又は複数の将来のフレーム、又は、現在のフレーム、1つ又は複数の過去のフレーム、及び1つ又は複数の将来のフレーム等のサンプルに基づいて、予測フレームを得てもよい。予測フレームはまた、例えば、現在のフレームからの160個のサンプル、次のフレームからの80個のサンプル等、異なるフレーム中の同じ数又は異なる数のサンプルに基づいて、得られてもよい。いずれにせよ、ユニット210は、現在のオーディオフレームと予測フレームとの間の差異を計算して、現在のフレームと予測フレームとの間の差異を含む残りのフレームを取得し得る。差異はまた、残余、予測誤差等と称される。
現在のオーディオフレームは、K個のサンプルを含み、ユニット210によって処理されて、K個の残余を含む残りのフレームを取得し得るが、ここでKは任意の整数値である。ユニット220は、残りのフレームを(例えば、図1の変換ドメイン符号器138によって使用されるのと同じ変換に基づいて)変換して、K個の係数を含む変換されたフレームを取得してもよい。
ユニット212は、残りのフレーム中の各残りのエネルギー又は二乗絶対値(square magnitude)を以下のように計算してもよい。
Figure 0005096474
ここで、
Figure 0005096474
は、残りのフレームのk番目の複素数値の残余(complex-valued residual)であり、また、
Figure 0005096474
は、k番目の残りのエネルギー又は二乗絶対値である。
ユニット212は、残余をフィルタリングし、次いで、フィルタリングされた残余のエネルギーを計算し得る。ユニット212はまた、残余のエネルギー値(residual energy values)を滑らかにし(smooth)、及び/又は、再サンプリングし得る。いずれにしても、ユニット212は、時間ドメインにおけるN個の残余のエネルギー値を供給し得るが、ここで
Figure 0005096474
である。
ユニット214は、N個の残余のエネルギー値を以下のように降順にソートし得る。
Figure 0005096474
ここで、Xは最大の|x値であり、Xは2番目に大きな|x値であり、またXは、ユニット212からのN個の|x値のうちで最も小さな|x値である。
ユニット216は、N個の残余のエネルギー価を合計して、合計の残余エネルギーを取得し得る。ユニット216はまた、N個のソートされた残余のエネルギー値を、蓄積された残余エネルギーが合計の残余エネルギーの所定の割合を以下のように超過するまで、一度に1つのエネルギー価ずつ蓄積し得る。
Figure 0005096474
ここで、Etotal, XはN個の残余のエネルギー値の全ての合計エネルギーであり、ηは、所定の割合、例えば、η=70又は何らかの他の値であり、また、Nは蓄積されたエネルギーが残余のエネルギーの合計のηパーセントを超える残余のエネルギー値の最小の数(minimum number of residual energy values)である。
ユニット222は、変換されたフレーム中の各係数のエネルギー又は二乗絶対値を以下のように計算し得る。
Figure 0005096474
ここで、
Figure 0005096474
は、変換されたフレーム中のk番目の係数であり、|yは、k番目の係数のエネルギー又は二乗絶対値である。
ユニット222は、変換されたフレーム中の係数にユニット212と同じ方法で作用し得る。例えば、ユニット222は、係数エネルギー値を滑らかにしてもよいし、及び/又は、再サンプリングをしてもよい。ユニット222は、N個の係数エネルギー値を供給してもよい。
ユニット224は、N個の係数エネルギー値を以下のように降順にソートし得る。
Figure 0005096474
ここで、Yは最大の|y値であり、Yは2番目に大きい|y値であり、Yはユニット222からのN個の|y値の中で最小の|y値である。
ユニット226は、N個の係数エネルギー価を合計して、合計の係数エネルギーを取得してもよい。ユニット226はまた、N個のソートされた係数エネルギー値を、蓄積された係数エネルギーが合計の係数エネルギーの所定の割合を以下のように超過するまで、一度に1つのエネルギー値ずつ蓄積してもよい。
Figure 0005096474
ここで、Etotal,Yは、N個の係数エネルギー値(coefficient energy values)全ての合計のエネルギーであり、また、Nは、蓄積されたエネルギーが合計の係数エネルギーのηパーセントを超過する、係数エネルギー値の最小の数(minimum number of coefficient energy values)である。
ユニット218及び228は、それぞれ時間ドメイン及び変換ドメインの圧縮要因(compaction factors)を、以下のように計算し得る。
Figure 0005096474
ここで、C(i)は、時間ドメインの圧縮要因であり、C(i)は、変換ドメインの圧縮要因である。
(i)は、上位i個の残余のエネルギー値の総計のエネルギーを示す。C(i)は、時間ドメインの累積的なエネルギー関数(cumulative energy function)と見なされてもよい。C(i)は、上位i個の係数エネルギー値の総計のエネルギーを示す。C(i)は、変換ドメインの累積的なエネルギー関数(cumulative energy function)と見なされてもよい。
ユニット238は、圧縮要因に基づいてデルタパラメータ(delta parameter)D(i)を、以下のように計算し得る。
Figure 0005096474
決定モジュール240は、ユニット216及び226から、それぞれパラメータN及びNを、ユニット238からデルタパラメータD(i)を、及び、ことによると他の情報を受け取り得る。決定モジュール240は、現在のフレームについて、時間ドメイン符号器136あるいは変換ドメイン符号器138のいずれかを、N、N、D(i)及び/又は他の情報に基づいて選択し得る。
一つの設計において、決定モジュール240は、現在のフレームについて、時間ドメイン符号器136又は変換ドメイン符号器138を、以下のように選択し得る。
<(N−Q)の場合、時間ドメイン符号器136を選択し、 式(9a)
<(N−Q)の場合、変換ドメイン符号器136を選択し、 式(9b)
ここで、QとQは所定の閾値であり、例えば、
Figure 0005096474
である。
は、より小さな値のNが、よりスパースな残りのフレームに対応し、逆もまた同様である状態で、時間ドメインにおける残りのフレームのスパースネスを示し得る。同様に、Nは、より小さなNの値が、よりスパースな変換されたフレームに対応し、逆もまた同様である状態で、変換ドメインにおける変換されたフレームのスパースネスを示してもよい。残余の時間ドメインの表現がよりスパースである場合、式(9a)は時間ドメイン符号器136を選択し、残余の変換ドメイン表現がよりスパースである場合、式(9b)は変換ドメイン符号器138を選択する。
式のセット(9)の選択は、現在のフレームについては未決定であってもよい。これは、例えば、N=N、Q>0、及び/又はQ>0の場合であり得る。この場合、D(i)といった1つ又は複数の付加的なパラメータを用いて、現在のフレームについて、時間ドメイン符号器136あるいは変換ドメイン符号器138のどちらを選択するべきかを判定してもよい。
例えば、式セット(9)だけでは符号器を選択するのに充分ではない場合、D(i)が0よりも大きければ、変換ドメイン符号器138が選択されてもよく、さもなければ、時間ドメイン符号器136が選択されてもよい。
閾値QとQを用いて、種々の効果を達成し得る。例えば、閾値Q及び/又はQは、N及びNの計算の中での差異あるいはバイアス(もしあれば)を考慮するために、選択され得る。閾値Q及び/又はQはまた、(1)小さなQ値及び/又は大きなQ値を使用することで、変換ドメイン符号器138よりも時間ドメイン符号器136を優遇する、又は(2)小さなQ値及び/又は大きなQ値を使用することで、時間ドメイン符号器136よりも変換ドメイン符号器138を優遇するために使用されてもよい。閾値Q及び/又はQはまた、符号器136又は138の選択の際にヒステリシス(hysteresis)を達成するために使用されてもよい。例えば、時間ドメイン符号器136が前のフレームに対して選択された場合、NがNよりもQだけ小さい場合、次いで、現在のフレームに変換ドメイン符号器138が選択され得るが、ここでQは符号器136から符号器138まで行く際の仮説の量である。同様に、変換ドメイン符号器138が前のフレームに対して選択された場合、NがNよりもQだけ小さい場合、次いで、現在のフレームに時間ドメイン符号器136が選択され得るが、ここでQは符号器138から符号器136まで行く際に仮説の量である。仮説は、信号特性が充分な量だけ変化した場合にのみ符号器を変更するために使用され得るが、ここで充分な量は、Q値及びQ値の適当な選択によって定義されてもよい。
別の設計において、決定モジュール240は、現在のフレーム及び過去のフレームについての最初の決定に基づいて、現在のフレームについて、時間ドメイン符号器136又は変換ドメイン符号器138を選択し得る。各フレームにおいて、決定モジュール240は、例えば上述したように、当該フレームに対して時間ドメイン符号器136あるいは変換ドメイン符号器138を使用する初期決定を行ない得る。決定モジュール240は、次いで、選択規則に基づいてある符号器から別の符号器に切り替わり得る。例えば、決定モジュール240は、Qの最も最近のフレームが切り替えを好む場合のみ、Q個の最も最近のフレームのうちQ個が切り替えを好むとき場合等、別の符号器へ切り替わってもよいが、ここで、Q、Q及びQは適切に選択された値であり得る。切り替えがなされない場合、決定モジュール240は現在の符号器を現在のフレームに使用してもよい。この設計は時間仮説(time hypothesis)を供給し、連続するフレームにおける符号器間の連続的な切り替えを防止し得る。
図3は、スパースネス検出器116bのブロック図を示すが、これは図1のスパースネス検出器116の別の設計である。この設計では、スパースネス検出器116bは、変換ドメインについては圧縮要因C(i)及び時間ドメインについては圧縮要因C(i)を計算するために図2について上記に記載されるように動作する、ユニット210、212、214、218、220、222、224及び228を備える。
ユニット330は、
Figure 0005096474
の回数と
Figure 0005096474
の回数とを、C(i)及びC(i)の全ての値について、最大で所定の値まで下記のように判定し得る。
Figure 0005096474
ここで、Kは時間ドメインのスパースネスパラメータであり、Kは変換ドメインのスパースネスパラメータであり、また、τはKとKを判定するために考慮される全エネルギーの割合である。1セットの濃度は、当該セット中のエレメントの数である。
式(10a)では、各時間ドメインの圧縮要因C(i)は、i=1,..,N且つ
Figure 0005096474
の場合、対応する変換ドメインの圧縮要因C(i)と比較される。比較される全ての時間ドメインの圧縮要因について、対応する変換ドメインの圧縮要因以上である時間ドメインの圧縮要因の数は、Kとして供給される。
式(10b)では、各変換ドメインの圧縮要因C(i)は、
i=1,..,N且つ
Figure 0005096474
の場合、対応する時間ドメインの圧縮要因C(i)と比較される。比較される全ての変換ドメイン圧縮要因について、対応する時間ドメインの圧縮要因以上である変換ドメインの圧縮要因の数は、Kとして供給される。
ユニット332は、下記のようにパラメータΔ及びΔを判定し得る。
Figure 0005096474
は、C(i)がC(i)以上になることが何回あるかを示し、Δは、C(i)>C(i)の場合、C(i)がC(i)を超過する総量(aggregate amount)を示す。Kは、C(i)がC(i)以上になることが何回あるかを示し、Δは、C(i)>C(i)の場合、C(i)がC(i)を超過する総量を示す。
決定モジュール340は、ユニット330及び332からパラメータK、K、Δ及びΔを受け取り、時間ドメイン符号器136又は変換ドメイン符号器138のいずれかを現在のフレームについて選択し得る。決定モジュール340は、時間ドメイン履歴カウントH及び変換ドメイン履歴カウントHを維持してもよい。時間ドメイン履歴カウントHは、フレームが時間ドメインにおいて、よりスパースであると考えられるときにはいつでも増加されてもよく、フレームが変換ドメインにおいて、よりスパースであると考えられる場合はいつでも減少させられてもよい。変換ドメイン履歴カウントHは、フレームが変換ドメインにおいて、よりスパースであると考えられるときにはいつでも増加されてもよく、フレームが時間ドメインにおいて、よりスパースであると考えられるときはいつでも、減少させられてもよい。
図4Aは、時間ドメイン及び変換ドメイン、例えばMDCTドメインにおける音声信号(speech signal)例のプロットを示す。この例において、音声信号は時間ドメインでは相対的大きな値が少ないが、変換ドメインでは多数の大きな値を有している。この音声信号は時間ドメインにおいて、よりスパースであり、時間ドメイン符号器136に基づいて、より効率的に符号化され得る。
図4Bは、時間ドメイン及び変換ドメイン、例えばMDCTドメインにおけるインストルメンタル信号(instrumental music signal)例のプロットを示す。この例において、インストルメンタル信号は、時間ドメインでは多数の大きな値を有するが、変換ドメインでは、より少数の大きな値を有している。このインストルメンタル信号は、変換ドメインにおいて、よりスパースであり、変換ドメインを符号器138に基づいて、より効率的に符号化され得る。
図5Aは、時間ドメインの圧縮要因C(i)のプロット510、及び図4Aに示される音声信号の変換ドメインの圧縮要因C(i)のプロット512を示す。プロット510及び512は、全エネルギーの所与の割合が変換ドメイン値よりも少数の時間ドメイン値によって占められ得ることを示す。
図5Bは、時間ドメインの圧縮要因C(i)のプロット520、及び図4Bで示されるインストルメンタル信号の変換ドメインの圧縮要因C(i)のプロット522を示す。プロット520及び522は、全エネルギーの所与の割合が時間ドメイン値よりも少数の変換ドメイン値によって占められ得ることを示す。
図6A及び図6Bは、オーディオフレームについて時間ドメイン符号器136又は変換ドメイン符号器138のいずれかを選択する処理600の設計のフロー図を示す。処理600は、図3のスパースネス検出器116bに使用され得る。以下の記載では、ZT1とZT2は、時間ドメイン履歴カウントHが比較される閾値であり、ZM1、ZM2、ZM3は、変換ドメイン履歴カウントHが比較される閾値である。UT1、UT2及びUT3は、時間ドメイン符号器136が選択される場合のHのインクリメント量であり、UM1、UM2及びUM3は、変換ドメイン符号器138が選択される場合のHのインクリメント量である。インクリメント量は、同じ値であっても異なる値であってもよい。DT1、DT2及びDT3は、変換ドメイン符号器138が選択される場合のHのデクリメント量であり、DM1、DM2及びDM3は、時間ドメイン符号器136が選択される場合のHのデクリメント量である。デクリメント量は、同じ値であっても異なる値であってもよい。V、V、V及びVは、履歴カウントH及びHを更新するか否かを決定するために使用される閾値である。
図6Aでは、符号化するためのオーディオフレームが最初に受信される(ブロック612)。以前のオーディオフレームが無音フレームあるいは雑音状の信号フレームであったかどうか判定がなされる(ブロック614)。答えが「Yes」である場合、時間ドメイン履歴カウント及び変換ドメイン履歴カウントは、H=0及びH=0としてリセットされる(ブロック616)。ブロック614で答えが「No」である場合、また、ブロック616の後も、パラメータK、K、Δ及びΔは、上述したように現在のオーディオフレームについて計算される(ブロック618)。
次いで、K>K且つ H<ZM1であるかどうか判定がなされる(ブロック620)。条件K>Kは、現在のオーディオフレームが、変換ドメインより時間ドメインにおいて、よりスパースであることを示し得る。条件H<ZM1は、先のオーディオフレームが変換ドメインにおいて強くスパースではなかったことを示し得る。ブロック620の答えが「Yes」である場合、時間ドメイン符号器136が、現在のオーディオフレームに対して選択される(ブロック622)。履歴カウントは、次いで、以下のようにブロック624で更新され得る。
Figure 0005096474
ブロック620に対して答えが「No」である場合、K>K且つH>ZM2かどうか判定がなされる(ブロック630)。条件K>Kは、現在のオーディオフレームが時間ドメインより変換ドメインにおいて、よりスパースであることを示し得る。条件H>ZM2は、先のオーディオフレームが変換ドメインにおいてスパースだったことを示し得る。ブロック630のための条件のセットは、時間ドメイン符号器138をより頻繁に選択する方向へ決定にバイアスをかけるのを支援する。ブロック中の第2の条件は、H>ZT1と置き換えて、ブロック620に一致させてもよい。ブロック630について答えが「Yes」である場合、変換ドメイン符号器138が現在のオーディオフレームに対して選択される(ブロック632)。履歴カウントは、次いで、ブロック634で以下のように更新され得る。
Figure 0005096474
ブロック624及び634の後、処理は終了する。ブロック630に対する答えが「No」である場合、処理は図6Bに進む。
ブロック620及び/又は630の履歴カウント条件が満たされない場合、又は、K=Kの場合、図6Bに到達し得る。Δ>Δ且つH>ZM2かどうかの判定は最初になされる(ブロック640)。条件Δ>Δは、現在のオーディオフレームが、時間ドメインより変換ドメインにおいて、よりスパースであることを示し得る。ブロック640で答えが「Yes」である場合、変換ドメイン符号器138が現在のオーディオフレームについて選択される(ブロック642)。次いで、(Δ−Δ)>Vかどうかの判定がなされる(ブロック644)。答えが「Yes」である場合、履歴カウントはブロック646で以下のように更新され得る。
Figure 0005096474
ブロック640に対して答えが「No」である場合、Δ>Δ且つH>ZT1かどうかの判定がなされる(ブロック650)。ブロック650に対して答えが「Yes」である場合、時間ドメイン符号器136が現在のオーディオフレームについて選択される(ブロック652)。次いで、(Δ−Δ)>Vかどうかの判定がなされる(ブロック654)。答えが「Yes」である場合、履歴カウントはブロック656で以下のように更新され得る。
Figure 0005096474
ブロック650に対して答えが「No」である場合、Δ>Δ且つH>ZT2かどうか判定がなされる(ブロック660)。条件Δ>Δは、現在のオーディオフレームが、変換ドメインより時間ドメインにおいて、よりスパースであることを示し得る。ブロック660に対して答えが「Yes」である場合、時間ドメイン符号器136が現在のオーディオフレームについて選択される(ブロック662)。次いで、(Δ−Δ)>Vかどうかの判定がなされる(ブロック664)。答えが「Yes」である場合、履歴カウントはブロック666で以下のように更新され得る。
Figure 0005096474
ブロック660に対して答えが「No」である場合、Δ>Δ且つH>ZM3かどうか判定がなされる(ブロック670)。ブロック670に対する答えが「Yes」である場合、変換ドメイン符号器138が現在のオーディオフレームについて選択される(ブロック672)。次いで、(Δ−Δ)>Vかどうかの判定がなされる(ブロック674)。答えが「Yes」である場合、履歴カウントはブロック676で以下のように更新され得る。
Figure 0005096474
ブロック670に対して答えが「No」である場合、デフォルトの符号器が現在のオーディオフレームについて選択されてもよい(ブロック682)。デフォルトの符号器は、先立つオーディオフレームで使用された符号器、指定された符号器(例えば、時間ドメイン符号器136、あるいは変換ドメイン符号器138)等であってよい。
時間ドメイン符号器136又は変換ドメイン符号器138の選択のチューニング(tuning)を可能にするために、種々の閾値が処理600中で使用される。閾値は、一定の状況において、ある符号器が別の符号器よりも有利になるように選択されてもよい。1つの設計例では、ZM1=ZM2=ZT1=ZT2=4、UT1=UM1=2、DT1=DM1=1、V=V=V=V=1、及びUM2=DT2=1である。他の閾値が処理600に用いられてもよい。
図2乃至図6Bは、図1のスパースネス検出器116の幾つかの設計を示す。スパースネス検出は、他の方法で、例えば、他のパラメータを用いて行なわれてもよい。スパースネス検出器は以下の目的で設計され得る。
・時間ドメイン符号器136又は変換ドメイン符号器138を選択するための信号特性に基づいたスパースネスの検出、
・有声音声信号フレーム(voiced speech signal frames)のための良好なスパースネス検出、例えば、有声音声信号フレームに対して変換ドメイン符号器138を選択する低い確率、
・バイオリンといった楽器に由来するオーディオフレームの場合、変換ドメイン符号器138が時間の高い割合で選択されるべきである、
・時間ドメイン符号器136と変換ドメイン符号器138との間の頻繁な切り替えを最小限にして、アーティファクト(artifacts)を低減する、
・低い複雑さ及び好ましくは開ループ動作、及び
・異なる信号特性及び雑音条件にわたるロバストな(robust)パフォーマンス。
図7は、汎用符号器で入力信号(例えば、オーディオ信号)を符号化する処理700のフロー図を示す。入力信号の特性は、少なくとも1つの検出器に基づいて判定され得るが、これは信号活動検出器、雑音状の信号検出器、スパースネス検出器、何らかの他の検出器、又はこれらの組み合わせを備えてもよい(ブロック712)。符号器は、入力信号の特性に基づいて複数の符号器の中から選択されてもよい(ブロック714)。複数の符号器は、サイレンス符号器、雑音状の信号符号器(例えば、NELP符号器)、時間ドメイン符号器(例えば、CELP符号器)、少なくとも1つの変換ドメイン符号器(例えば、MDCT符号器)、何らかの他の符号器、又はこれらの組み合わせを備え得る。入力信号は、選択された符号器に基づいて符号化されてもよい(ブロック716)。
ブロック712及び714については、入力信号の活動が検出されてもよく、活動が入力信号中に検出されない場合、サイレンス符号器が選択されてもよい。入力信号は雑音状の信号特性を有するかどうか判定されてもよく、また、入力信号が雑音状の信号特性を有する場合、雑音状の信号符号器が選択されてもよい。少なくとも1つの変換ドメイン符号器に対する少なくとも1つの変換ドメイン及び時間ドメインの入力信号のスパースネスが判定されてもよい。入力信号が少なくとも1つの変換ドメインより時間ドメインにおいて、よりスパースであると考えられる場合、時間ドメイン符号器が選択され得る。入力信号が、時間ドメイン及びもしあれば他の変換ドメインよりも対応する変換ドメインにおいて、よりスパースであると考えられる場合、少なくとも1つの変換ドメイン符号器のうちの1つが選択され得る。信号検出及び符号器選択は種々の順番で行なわれ得る。
入力信号は、フレームのシーケンスを備え得る。各フレームの特性が判定され、当該フレームの符号器は、その信号特性に基づいて選択されてもよい。各フレームは当該フレームについて選択された符号器に基づいて符号化され得る。特定の符号器は、所与のフレームについて、当該フレーム及び所定の数の先行するフレームが、当該特定の符号器への切り替えを示す場合に選択され得る。一般に、各フレームの符号器の選択は、任意のパラメータに基づいてもよい。
図8は、入力信号、例えばオーディオ信号を符号化する処理800のフロー図を示す。複数のドメインの各々の入力信号のスパースネスは、例えば、上記に記載された設計のうちのいずれに基づいて判定されてもよい(ブロック812)。符号器は、複数のドメインの入力信号のスパースネスに基づいて複数の符号器の中から選択され得る(ブロック814)。入力信号は、選択された符号器に基づいて符号化され得る(ブロック816)。
複数のドメインは、時間ドメインと少なくとも1つの変換ドメイン、例えば周波数ドメインを備え得る。少なくとも1つの変換ドメイン及び時間ドメインの入力信号のスパースネスは、上記に記載されたパラメータのうちのいずれか、時間ドメイン符号器の先行する選択及び少なくとも1つの変換ドメイン符号器の先行する選択等に基づいて更新され得る1つ又は複数の履歴カウントに基づいて判定され得る。時間ドメイン符号器は、入力信号が少なくとも1つの変換ドメインより時間ドメインにおいて、よりスパースであると判定される場合に、時間ドメインの入力信号を符号化するために選択されてもよい。入力信号が、時間ドメイン及びもしあれば他の変換ドメインより、その変換ドメインにおいて、よりスパースであると判定される場合、対応する変換ドメインの入力信号を符号化するために少なくとも1つの変換ドメイン符号器のうちの1つが選択されてもよい。
図9は、スパースネス検出を行なう処理900のフロー図を示す。第1のドメインの第1の信号は、第2のドメインの第2の信号を取得するために(例えば、MDCTに基づいて)変換され得る(ブロック912)。第1の信号は、線形予測符号化(LPC)をオーディオ入力信号に行なうことで取得され得る。第1のドメインは時間ドメインであってよく、また、第2のドメインは変換ドメイン、例えば周波数ドメインであってよい。第1及び第2のパラメータは、第1及び第2の信号に基づいて、例えば第1及び第2の信号の成分/エネルギーの値に基づいて、判定され得る(ブロック914)。少なくとも1つのカウントは、第1の信号がよりスパースであるとの先行する通知(declarations)、及び、第2の信号がよりスパースであるとの先行する通知に基づいて判定されてもよい(ブロック916)。第1の信号がよりスパースであるか、あるいは第2の信号がよりスパースであるかどうかは、第1及び第2のパラメータ並びに、もし使用されるなら、少なくとも1つのカウントに基づいて判定され得る。(ブロック918)。
図2に示される設計については、第1のパラメータは、第1の信号の全エネルギーの少なくとも特定の割合を含む第1の信号中の最少数の値(N)に対応し得る。第2のパラメータは、第2の信号の全エネルギーの少なくとも特定の割合を含む第2の信号中の最少数の値(N)に対応し得る。第1の信号は、例えば式(9a)に示されるように、第1のパラメータが第2のパラメータよりも第1の閾値分だけ小さいことに基づいて、よりスパースであると見なされてもよい。第2の信号は、例えば式(9b)に示されるように、第2のパラメータが第1のパラメータよりも第2の閾値分だけ小さいことに基づいて、よりスパースであるとみなされてもよい。第1の信号の累積的なエネルギーを示す第3のパラメータ(例えば、C(i))が判定されてもよい。第2の信号の累積的なエネルギーを示す第4のパラメータ(例えばC(i))もまた、判定されてもよい。第1の信号がよりスパースであるか、又は第2の信号がよりスパースであるかは、第3及び第4のパラメータに更に基づいて判定されてもよい。
図3、図6A及び図6Bに示される設計については、第1の信号のための第1の累積的なエネルギー関数(例えば、C(i))及び第2の信号のための第2の累積的なエネルギー関数(例えば、C(i))が判定されてもよい。第1の累積的なエネルギー関数が第2の累積的なエネルギー関数以上になる回数は、第1のパラメータ(例えば、K)として供給され得る。第2の累積的なエネルギー関数が第1の累積的なエネルギー関数以上になる回数は、第2のパラメータ(例えば、K)として供給され得る。第1の信号は、第1のパラメータが第2のパラメータより大きいことに基づいて、よりスパースであるとみなされてもよい。第2の信号は、第2のパラメータが第1のパラメータより大きいことに基づいて、よりスパースであるとみなされてもよい。式(11a)に示されるように、第3のパラメータ(例えば、Δ)は、例えば、第1の累積的なエネルギー関数が第2の累積的なエネルギー関数を超過する場合(instances)に基づいて判定されてもよい。式(11b)に示されるように、第4のパラメータ(例えば、Δ)は、第2の累積的なエネルギー関数が第1の累積的なエネルギー関数を超過する場合に基づいて判定されてもよい。第1の信号がよりスパースであるか、又は第2の信号がよりスパースであるかどうかは、第3及び第4のパラメータに更に基づいて判定されてもよい。
両方の設計について、第1の信号がよりスパースであるという通知ごとに、第1のカウント(例えば、H)はインクリメントされてもよく、また、第2のカウント(例えば、H)はデクリメントされてもよい。第2の信号がよりスパースであるという通知ごとに、第1のカウントはデクリメントされてもよく、また、第2のカウントはインクリメントされてもよい。第1の信号がよりスパースであるか、あるいは第2の信号がよりスパースであるかは、第1及び第2のカウントに更に基づいて判定されてもよい。
上記に記載されるように、複数の符号器を用いてオーディオ信号を符号化し得る。オーディオ信号がどのように符号化されるかについての情報は、種々の方法で送信され得る。一つの設計において、コード化されたフレームは各々、当該フレームに使用された特定の符号器を示す符号器/コーディング情報を含む。別の設計においては、コード化されたフレームは、当該フレームに使用された符号器が、先行するフレームに使用された符号器とは異なる場合のみ、符号器情報を含む。この設計では、符号器の切り替えがなされる度に、エンコーダ情報が送信されるだけであり、同じ符号器が使用される場合、情報は送信されない。一般に、符号器は、どの符号器が選択されているか復号器に通知する、コード化された情報内にシンボル/ビットを含み得る。あるいは、この情報はサイドチャネル(side channel)を使用して別個に送信されてもよい。
図10は、図1の汎用オーディオ符号器100で符号化されたオーディオ信号を復号することができる汎用オーディオ復号器1000の設計のブロック図を示す。オーディオ復号器1000は、セレクタ1020、1セットの特定の信号クラス用のオーディオ復号器1030、及びマルチプレクサ1040を備える。
セレクタ1020内では、ブロック1022はコード化されたオーディオフレームを受け取り、受け取ったフレームがサイレンスフレームかどうかを、例えば、当該フレームに含まれる符号器情報に基づいて、判定し得る。受け取ったフレームがサイレンスフレームである場合、サイレンス復号器(silence decoder)1032は受け取ったフレームを復号し、復号されたフレームを供給し得る。さもなければ、ブロック1024は、受け取ったフレームが雑音状の信号フレームかどうかを判定してもよい。答えが「Yes」である場合、雑音状の信号復号器1034は受け取ったフレームを復号し、復号されたフレームを供給し得る。さもなければ、ブロック1026は、受信されたフレームが時間ドメインフレームかどうかを判定してもよい。答えが「Yes」である場合、時間ドメイン復号器1036は、受け取ったフレームを復号し、復号されたフレームを供給してもよい。さもなければ、変換ドメイン復号器1038は、受け取ったフレームを復号し、復号されたフレームを供給してもよい。復号器1032、1034、1036及び1038は、それぞれ図1の汎用オーディオ符号器100内の符号器132、134、136及び138によって行なわれた符号化に対して補足的な方法で復号を行なってもよい。マルチプレクサ1040は、復号器1032、1034、1036及び1038の出力を受け取り、1つの復号器の出力を、復号されたフレームとして供給してもよい。オーディオ信号の特性に基づいて、異なる時間間隔では、復号器1032、1034、1036及び1038の異なるものが選択され得る。
図10は、汎用オーディオ復号器1000の特定の設計を示す。一般に、汎用オーディオ復号器は、任意の数の復号器及び任意のタイプの復号器を備え得るが、これらは種々の方法で配置され得る。図10は、1つの配置例における復号器のセットの一例を示す。汎用オーディオ復号器は、より少数の、より多数の、及び/又は、異なる復号器を備えてもよいが、これらは他の方法で配置され得る。
本明細書に記載される符号化及び復号化の技法は、通信、コンピューティング、ネットワーキング、パーソナル電子装置等に使用され得る。例えば、該技法は、無線通信装置、ハンドヘルド装置、ゲーム装置、コンピューティングデバイス、家電デバイス、パーソナルコンピュータ等に使用されてもよい。該技法の無線通信装置への使用例が下記に記載される。
図11は、無線通信システムの無線通信装置1100の設計のブロック図を示す。無線装置1100は、携帯電話、端末、ハンドセット、パーソナルデジタルアシスタント(PDA)、無線モデム、コードレスホン等であってもよい。無線通信システムは、符号分割多元接続(CDMA)システム、GSM(Global System for Mobile Communications)システム等であってもよい。
無線装置1100は、受信パス及び送信パスを介して双方向通信を提供することができる。受信パスにおいては、基地局によって送信された信号が、アンテナ1112によって受信され、受信機(RCVR)1114に供給される。受信機1114は、受信された信号を調整し(conditions)及びデジタル化し、更なる処理のためにデジタルセクション1120へサンプルを供給する。送信パスにおいては、送信機(TMTR)1116が、デジタルセクション1120から送信されるべきデータを受信し、データを処理し及び調整し、変調された信号を生成するが、これはアンテナ1112を介して基地局へ送信される。受信機1114及び送信機1116は、CDMA、GSM等をサポートし得るトランシーバの一部であってもよい。
デジタルセクション1120は、例えば、モデムプロセッサ1122、縮小命令セットコンピュータ/デジタル信号プロセッサ(RISC/DSP)1124、コントローラ/プロセッサ1126、内部メモリ1128、汎用オーディオ符号器1132、汎用オーディオ復号器1134、グラフィックス/ディスプレイ・プロセッサ1136、及び外部バスインタフェース(EBI)1138といった、種々の処理ユニット、インタフェースユニット、及びメモリユニットを備える。モデムプロセッサ1122は、データ送信及び受信のための処理、例えば、符号化、変調、復調、及び復号を行い得る。RISC/DSP1124は、無線装置1100のための一般的な処理及び専門の処理を行い得る。コントローラ/プロセッサ1126は、デジタルセクション1120内の種々の処理ユニット及びインタフェースユニットの動作を指示し得る。内部メモリ1128は、デジタルセクション1120内の種々のユニットのためにデータ及び/又は命令を格納し得る。
汎用オーディオ符号器1132は、オーディオソース1142、マイクロホン1143等からの入力信号のための符号化を行い得る。汎用オーディオ符号器1132は、図1に示されるように実施され得る。汎用オーディオ復号器1134は、コード化されたオーディオデータの復号を行なってもよく、また、スピーカ/ヘッドセット1144へ出力信号を供給してもよい。汎用オーディオ復号器1134は、図10に示されるように実施され得る。グラフィクス/ディスプレイ・プロセッサ1136は、グラフィクス、ビデオ、画像及びテキストのための処理を行い得るが、これらはディスプレイユニット1146に提示され得る。EBI1138は、デジタルセクション1120とメインメモリ1148との間のデータの転送を容易にし得る。
デジタルセクション1120は、1つ又は複数のプロセッサ、DSP、マイクロプロセッサ、RISC等で実施されてもよい。デジタルセクション1120はまた、1つ又は複数の特定用途向け集積回路(ASIC)及び/又は何らかの他のタイプの集積回路(IC)上に製造されてもよい。
一般に、本明細書に記載される如何なる装置も、携帯電話、セルラ電話、ラップトップ型コンピュータ、無線マルチメディア装置、無線通信パーソナルコンピュータ(PC)カード、PDA、外部モデム若しくは内蔵モデム、無線チャネルを介して通信する装置等といった、種々のタイプの装置を表わし得る。装置は、アクセス端末(AT)、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、携帯電話、モバイル、遠隔局、遠隔端末、遠隔ユニット、ユーザ装置、ユーザ機器、ハンドヘルド装置等といった種々の名称を有し得る。本明細書に記載される如何なる装置も、ハードウェア、ソフトウェア、ファームウェアあるいはこれらの組み合わせと同様に、命令及びデータを格納するためのメモリを有し得る。
本明細書に記載される符号化及び復号化の技法(例えば、図1の符号器100、図2のスパースネス検出器116a、図3のスパースネス検出器116b、図10の復号器1000等)は、種々の手段によって実施されてもよい。例えば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、あるいはこれらの組み合わせで実施されてもよい。ハードウェアで実施する場合、技法を行なうために使用される処理装置は、1つ又は複数のASIC、DSP、デジタル信号処理装置(DSPD)、プログラム可能な論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子装置、本明細書に記載される機能を行なうように設計された他の電子ユニット、コンピュータ、あるいはこれらの組み合わせの内で実施され得る。
ファームウェア及び/又はソフトウェアで実施する場合、技法は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、不揮発性のランダムアクセスメモリ(NVRAM)、プログラマブル読取専用メモリ(PROM)、電気的消去可能なPROM(EEPROM)、フラッシュメモリ、コンパクトディスク(CD)、磁気データ記憶装置若しくは光学データ記憶装置などといった、プロセッサ読み取り可能な媒体上に命令として具現化され得る。命令は、1つ又は複数のプロセッサによって実行可能であってよく、プロセッサに対して本明細書に記載される機能性の一定の面を行なわせてもよい。
本開示の先行する記載は、如何なる当業者も本開示を作成又は使用することを可能にすべく提供される。本開示への種々の変更は、当業者には容易に明白になるだろうし、また、本明細書に定義された一般的な原理は、本開示の範囲又は精神から逸脱することなく他のバリエーションに適用されてもよい。従って、本開示は、本明細書に示された例に限定されることは意図されないが、本明細書に開示された新規な特徴及び原理と一致する最も広い範囲に合致すべきものである。
以下に本件出願当初の特許請求の範囲に記載された発明を付記する。
[1] 雑音状の信号検出器を備える少なくとも1つの検出器に基づいて入力信号の特性を判定し、前記入力信号の前記判定された特性に基づいて複数の符号器の中から符号器を選択し、前記複数の符号器は、時間ドメイン符号器と、変換ドメインにおいてスパースな変換ドメイン表現を有する信号を符号化する少なくとも1つの変換ドメイン符号器とを備えており、前記入力信号を前記選択された符号器に基づいて符号化するように構成された少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに結合されるメモリと
を備える、装置。
[2] 前記入力信号はオーディオ信号である、[1]記載の装置。
[3] 前記複数の符号器は、サイレンス符号器を備え、前記少なくとも1つのプロセッサは、前記入力信号における活動を検出し、前記入力信号において活動が検出されない場合、前記サイレンス符号器を選択するように構成される、[1]記載の装置。
[4] 前記複数の符号器は、雑音状の信号符号器を備え、前記少なくとも1つのプロセッサは、前記入力信号が雑音状の信号特性を有するかどうかを判定し、前記入力信号が雑音状の信号特性を有する場合、前記雑音状の信号符号器を選択するように構成される、[1]記載の装置。
[5] 前記雑音状の信号符号器は、雑音励起線形予測(NELP)符号器を備える、[4]記載の装置。
[6] 前記少なくとも1つのプロセッサは、時間ドメインにおける前記入力信号のスパースネスを判定し、前記少なくとも1つの変換ドメイン符号器のための少なくとも1つの変換ドメインにおける前記入力信号のスパースネスを判定し、前記入力信号が、前記少なくとも1つの変換ドメインよりも前記時間ドメインにおいて、よりスパースであると判定される場合、前記時間ドメイン符号器を選択し、前記入力信号が、対応する変換ドメインにおいて、前記時間ドメイン及びもしあれば他の変換ドメインよりも、よりスパースであると判定される場合、前記少なくとも1つの変換ドメイン符号器を選択するように構成される、[1]記載の装置。
[7] 前記時間ドメイン符号器は、符号励起線形予測(CELP)符号器を備え、前記少なくとも1つの変換ドメイン符号器は、変形離散コサイン変換(MDCT)符号器を備える、[6]記載の装置。
[8] 前記入力信号は、フレームのシーケンスを備え、前記少なくとも1つのプロセッサは、前記シーケンスの各フレームの前記特性を判定し、前記フレームの前記判定された特性に基づいて各フレームに対して符号器を選択し、前記フレームに対して選択された前記符号器に基づいて各フレームを符号化するように構成される、[1]記載の装置。
[9] 前記少なくとも1つのプロセッサは、特定のフレームに対しては特定の符号器を、前記特定のフレーム及び所定の個数の先行するフレームが前記特定の符号器への切り替えを示す場合、選択するように構成される、[8]記載の装置。
[10] 前記装置は携帯電話である、[1]記載の装置。
[11] 前記装置は、符号分割多元接続(CDMA)トランシーバを備える携帯電話である、[1]記載の装置。
[12] 雑音状の信号検出器を備える少なくとも1つの検出器に基づいて入力信号の特性の判定し、
前記入力信号の前記判定された特性に基づいて、複数の符号器の中から符号器を選択し、前記複数の符号器は、時間ドメイン符号器と、変換ドメインにおいてスパースな変換ドメイン表現を有する信号を符号化する少なくとも1つの変換ドメイン符号器とを備えており、
前記選択された符号器に基づいて前記入力信号を符号化する
ことを含む、方法。
[13] 前記複数の符号器は、サイレンス符号器を備え、前記入力信号の前記特性を前記判定することは、前記入力信号における活動を検出することを含み、前記入力信号の前記判定された特性に基づいて前記符号器を前記選択することは、前記入力信号において活動が検出されない場合に前記サイレンス符号器を選択することを含む、[12]記載の方法。
[14] 前記複数の符号器は、雑音状の信号符号器を備え、前記入力信号の前記特性を前記判定することは、前記入力信号が雑音状の信号特性を有するかどうかを判定することを含み、前記入力信号の前記判定された特性に基づいて前記符号器を前記選択することは、前記入力信号が雑音状の信号特性を有する場合に前記雑音状の信号符号器を選択することを含む、[12]記載の方法。
[15] 前記入力信号の前記特性を前記判定することは、前記少なくとも1つの変換ドメイン符号器のための少なくとも1つの変換ドメインと時間ドメインにおける前記入力信号のスパースネスを判定することを含み、前記入力信号の前記判定された特性に基づいて前記符号器を前記選択することは、
前記入力信号が、前記少なくとも1つの変換ドメインよりも前記時間ドメインにおいて、よりスパースであると判定された場合、前記時間ドメイン符号器を選択し、
前記入力信号が、対応する変換ドメインにおいて、前記時間ドメイン及びもしあれば他の変換ドメインよりも、よりスパースであると判定される場合、前記少なくとも1つの変換ドメイン符号器のうちの1つを選択する
ことを含む、[12]記載の方法。
[16] 雑音状の信号検出器を備える少なくとも1つの検出器に基づいて入力信号の特性を判定する手段と、
前記入力信号の前記判定された特性に基づいて複数の符号器の中から符号器を選択する手段であって、前記複数の符号器は、時間ドメイン符号器と、変換ドメインにおいてスパースな変換ドメイン表現を有する信号を符号化する少なくとも1つの変換ドメイン符号器とを備える、手段と、
前記選択された符号器に基づいて前記入力信号を符号化する手段と
を備える、装置。
[17] 前記複数の符号器は、サイレンス符号器を備え、前記入力信号の前記特性を判定する前記手段は、前記入力信号における活動を検出する手段を備え、前記入力信号の前記判定された特性に基づいて前記符号器を選択する前記手段は、前記入力信号において活動が検出されない場合、前記サイレンス符号器を選択する手段を備える、[16]記載の装置。
[18] 前記複数の符号器は、雑音状の信号符号器を備え、前記入力信号の前記特性を判定する前記手段は、前記入力信号が雑音状の信号特性を有するかどうかを判定する手段を備え、前記入力信号の前記判定された特性に基づいて前記符号器を選択する前記手段は、前記入力信号が雑音状の信号特性を有する場合、前記雑音状の信号符号器を選択する手段を備える、[16]記載の装置。
[19] 前記入力信号の前記特性を判定する前記手段は、前記少なくとも1つの変換ドメイン符号器のための少なくとも1つの変換ドメインと時間ドメインとにおける前記入力信号のスパースネスを判定する手段を備え、前記入力信号の前記判定された特性に基づいて前記符号器を選択する前記手段は、
前記入力信号が、前記少なくとも1つの変換ドメインよりも前記時間ドメインにおいて、よりスパースであると判定される場合、前記時間ドメイン符号器を選択する手段と、
前記入力信号が、対応する変換ドメインにおいて、前記時間ドメイン及びもしあれば他の変換ドメインよりも、よりスパースであると判定される場合、前記少なくとも1つの変換ドメイン符号器のうちの1つ選択する手段と
を備える、[16]記載の装置。
[20] 雑音状の信号検出器を備える少なくとも1つの検出器に基づいて入力信号の特性を判定し、
前記入力信号の前記判定された特性に基づいて複数の符号器の中から符号器を選択し、前記複数の符号器は、時間ドメイン符号器と、変換ドメインにおいてスパースな変換ドメイン表現を有する信号を符号化する少なくとも1つの変換ドメイン符号器とを備え、
前記選択された符号器に基づいて前記入力信号を符号化する
命令を格納する、プロセッサ読み取り可能な媒体。
[21] 複数のドメインの各々における入力信号のスパースネスを判定し、前記複数のドメインにおける前記入力信号の前記スパースネスに基づいて複数の符号器の中から符号器を選択し、前記選択された符号器に基づいて前記入力信号を符号化するように構成された少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに結合されるメモリと
を備える、装置。
[22] 前記複数のドメインは、時間ドメインと変換ドメインとを備え、前記少なくとも1つのプロセッサは、前記時間ドメイン及び前記変換ドメインにおける前記入力信号のスパースネスを判定し、前記入力信号が、前記変換ドメインよりも前記時間ドメインにおいて、よりスパースであると判定される場合、前記時間ドメインにおいて前記入力信号を符号化する時間ドメイン符号器を選択し、前記入力信号が、前記時間ドメインよりも前記変換ドメインにおいて、よりスパースであると判定される場合、前記変換ドメインにおいて前記入力信号を符号化する変換ドメイン符号器を選択するように構成される、[21]記載の装置。
[23] 前記複数のドメインは、時間ドメインと変換ドメインとを備え、前記少なくとも1つのプロセッサは、前記時間ドメインにおける前記入力信号のスパースネスを示す第1のパラメータを判定し、前記変換ドメインにおける前記入力信号のスパースネスを示す第2のパラメータを判定し、前記第1及び第2のパラメータが前記入力信号は、前記変換ドメインよりも前記時間ドメインにおいて、よりスパースであると示す場合、時間ドメイン符号器を選択し、前記第1及び第2のパラメータが前記入力信号は、前記時間ドメインよりも前記変換ドメインにおいて、よりスパースであると示す場合、変換ドメイン符号器を選択するように構成される、[21]記載の装置。
[24] 前記少なくとも1つのプロセッサは、前記変換ドメイン符号器の先の選択と前記時間ドメイン符号器の先の選択とに基づいて、少なくとも1つのカウントを判定し、前記少なくとも1つのカウントに更に基づいて、前記時間ドメイン符号器又は前記変換ドメイン符号器を選択するように構成される、[23]記載の装置。
[25] 複数のドメインの各々における入力信号のスパースネスを判定し、
前記複数のドメインの前記入力信号の前記スパースネスに基づいて複数の符号器の中から符号器を選択し、
前記選択された符号器に基づいて前記入力信号を符号化する
ことを含む、方法。
[26] 前記複数のドメインは、時間ドメインと変換ドメインとを備え、前記入力信号の前記スパースネスを前記判定することは、
前記時間ドメインにおける前記入力信号のスパースネスを示す第1のパラメータを判定し、
前記変換ドメインにおける前記入力信号のスパースネスを示す第2のパラメータを判定することを含み、符号器を前記選択することは、
前記第1及び第2のパラメータが、前記入力信号は前記変換ドメインよりも前記時間ドメインにおいて、よりスパースであると示す場合、時間ドメイン符号器を選択し、
前記第1及び第2のパラメータが、前記入力信号は前記時間ドメインよりも前記変換ドメインにおいて、よりスパースであると示す場合、変換ドメイン符号器を選択する
ことを含む、[25]記載の方法。
[27] 前記変換ドメイン符号器の先の選択と、前記時間ドメイン符号器の先の選択とに基づいて、少なくとも1つのカウントを判定する
ことを更に含み、
符号器を前記選択することは、前記少なくとも1つのカウントに更に基づいて、前記変換ドメイン符号器又は前記時間ドメイン符号器を選択することを含む、[26]記載の方法。
[28] 第1のドメインにおける第1の信号を変換して、第2のドメインにおける第2の信号を取得し、前記第1及び第2の信号に基づいて第1及び第2のパラメータを判定し、前記第1及び第2のパラメータに基づいて、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを判定するように構成された少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに結合されるメモリと
を備える、装置。
[29] 前記第1のドメインは時間ドメインであり、前記第2のドメインは変換ドメインである、[28]記載の装置。
[30] 前記少なくとも1つのプロセッサは、前記第1の信号を変形離散コサイン変換(MDCT)に基づいて変換して、前記第2の信号を取得するように構成される、[28]記載の装置。
[31] 前記少なくとも1つのプロセッサは、前記第1及び第2の信号中のエネルギーの値に基づいて前記第1及び第2のパラメータを判定するように構成される、[28]記載の装置。
[32] 前記少なくとも1つのプロセッサは、入力信号に線形予測符号化(LPC)を行なって前記第1の信号中の残余を取得し、前記第1の信号中の前記残余を変換して前記第2の信号の係数を取得し、前記第1の信号の前記残余のエネルギー値を判定し、前記第2の信号の前記係数のエネルギー値を判定し、前記係数の前記エネルギー値及び前記残余の前記エネルギー値に基づいて前記第1及び第2のパラメータを判定するように構成される、[28]記載の装置。
[33] 前記少なくとも1つのプロセッサは、前記第1の信号の全エネルギーの少なくとも特定の割合を含む前記第1の信号の値の最小の数に基づいて前記第1のパラメータを判定し、前記第2の信号の全エネルギーの少なくとも前記特定の割合を含む前記第2の信号の値の最小の数に基づいて前記第2のパラメータを判定するように構成される、[28]記載の装置。
[34] 前記少なくとも1つのプロセッサは、前記第1のパラメータが前記第2のパラメータよりも第1の閾値分だけ小さいことに基づいて、前記第1の信号は、よりスパースであると判定し、また、前記第2のパラメータが前記第1のパラメータよりも第2の閾値分だけ小さいことに基づいて、前記第2の信号は、よりスパースであると判定するように構成される、[33]記載の装置。
[35] 前記少なくとも1つのプロセッサは、前記第1の信号の累積的なエネルギーを示す第3のパラメータを判定し、前記第2の信号の累積的なエネルギーを示す第4のパラメータを判定し、前記第3及び第4のパラメータに更に基づいて、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを判定するように構成される、[33]記載の装置。
[36] 前記少なくとも1つのプロセッサは、前記第1の信号のために第1の累積的なエネルギー関数を判定し、前記第2の信号のために第2の累積的なエネルギー関数を判定し、前記第1の累積的なエネルギー関数が前記第2の累積的なエネルギー関数以上になった回数に基づいて前記第1のパラメータを判定し、前記第2の累積的なエネルギー関数が前記第1の累積的なエネルギー関数以上になった回数に基づいて前記第2のパラメータを判定するように構成される、[28]記載の装置。
[37] 前記少なくとも1つのプロセッサは、前記第1のパラメータが前記第2のパラメータよりも大きいことに基づいて、前記第1の信号が、よりスパースであると判定し、前記第2のパラメータが前記第1のパラメータよりも大きいことに基づいて、前記第2の信号は、よりスパースであると判定するように構成される、[36]記載の装置。
[38] 前記少なくとも1つのプロセッサは、前記第1の累積的なエネルギー関数が前記第2の累積的なエネルギー関数を超過する場合に基づいて第3のパラメータを判定し、前記第2の累積的なエネルギー関数が前記第1の累積的なエネルギー関数を超過する場合に基づいて、第4のパラメータを判定し、前記第3及び第4のパラメータに更に基づいて、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを判定するように構成される、[36]記載の装置。
[39] 前記少なくとも1つのプロセッサは、前記第1の信号がよりスパースであるという先の通知と前記第2の信号がよりスパースであるという先の通知に基づいて、少なくとも1つのカウントを判定し、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを、前記少なくとも1つのカウントに更に基づいて判定するように構成される、[28]記載の装置。
[40] 前記少なくとも1つのプロセッサは、前記第1の信号がよりスパースであるという通知ごとに、第1のカウントをインクリメントし、且つ第2のカウントをデクリメントし、前記第2の信号がよりスパースであるという通知ごとに、前記第1のカウントをデクリメントし、且つ第2のカウントをインクリメントし、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを、前記第1及び第2のカウントに基づいて判定するように構成される、[28]記載の装置。
[41] 第1のドメインの第1の信号を変換して、第2のドメインの第2の信号を取得し、
前記第1及び第2番の信号に基づいて第1及び第2のパラメータを判定し、
前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを、前記第1及び第2のパラメータに基づいて判定する
ことを含む、方法。
[42] 前記第1及び第2のパラメータを前記判定することは、
前記第1の信号の全エネルギーの少なくとも特定の割合を含む前記第1の信号の値の最小の数に基づいて、前記第1のパラメータを判定し、
前記第2の信号の全エネルギーの少なくとも前記特定の割合を含む前記第2の信号の値の最小の数に基づいて前記第2のパラメータを判定する
ことを含む、[41の方法。
[43] 前記第1の信号について第1の累積的なエネルギー関数を判定し、
前記第2の信号について第2の累積的なエネルギー関数を判定することを更に含み、前記第1及び第2のパラメータを前記判定することは、
前記第1の累積的なエネルギー関数が前記第2の累積的なエネルギー関数以上になった回数に基づいて、前記第1のパラメータを判定し、
前記第2の累積的なエネルギー関数が前記第1の累積的なエネルギー関数以上になった回数に基づいて、前記第2のパラメータを判定する
ことを含む、[41]記載の方法。
[44] 前記第1の累積的なエネルギー関数が前記第2の累積的なエネルギー関数を超過する場合に基づいて第3のパラメータを判定し、
前記第2の累積的なエネルギー関数が前記第1の累積的なエネルギー関数を超過する場合に基づいて第4のパラメータを判定することを更に含み、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかは、前記第3及び第4のパラメータに更に基づいて判定される、[43]記載の方法。
[45] 前記第1の信号がよりスパースであるという先の通知と、前記第2の信号がよりスパースであるという先の通知に基づいて、少なくとも1つのカウントを判定することを更に含み、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかは、前記少なくとも1つのカウントに更に基づいて判定される、[41]記載の方法。
[46] サイレンス符号器、雑音状の信号符号器、時間ドメイン符号器、及び変換ドメイン符号器を備える複数の符号器の中から選択され、符号化された信号を生成するために使用される符号器を判定し、前記符号化された信号を生成するために使用された前記符号器に対して相補的な復号器に基づいて、前記符号化された信号を復号するように構成される少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに結合されるメモリと
を備える、装置。
[47] 前記少なくとも1つのプロセッサは、前記符号化された信号と共に送信された符号器情報に基づいて、前記符号化された信号を生成するために使用される符号器を判定するように構成される、[46]記載の装置。
[48] サイレンス符号器、雑音状の信号符号器、時間ドメイン符号器、及び変換ドメイン符号器を備える複数の符号器の中から選択され、符号化された信号を生成するために使用される符号器を判定し、
前記符号化された信号を生成するために使用された前記符号器に対して相補的な復号器に基づいて、前記符号化された信号を復号する
ことを含む、方法。

Claims (36)

  1. 雑音状の信号検出器を備える少なくとも1つの検出器に基づいて入力信号の特性を判定し、前記入力信号の前記判定された特性に基づいて複数の符号器の中から符号器を選択し、前記複数の符号器は、時間ドメイン符号器と、変換ドメインにおいてスパースな変換ドメイン表現を有する信号を符号化する少なくとも1つの変換ドメイン符号器とを備えており、前記入力信号を前記選択された符号器に基づいて符号化するように構成された少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに結合されるメモリと
    を備え、
    前記入力信号は、オーディオ信号であり、
    前記少なくとも1つのプロセッサは、前記入力信号の複数のパラメータに基づいて、少なくとも時間ドメインおよび変換ドメインにける前記入力信号のスパースネスを判定し、前記時間ドメインにおける前記入力信号の前記スパースネスを、前記変換ドメインにおける前記入力信号の前記スパースネスと比較し、前記比較に基づいて少なくとも前記時間ドメイン符号器と前記変換ドメイン符号器から符号器を選択するように構成される、装置。
  2. 前記複数の符号器は、サイレンス符号器を備え、前記少なくとも1つのプロセッサは、前記入力信号における活動を検出し、前記入力信号において活動が検出されない場合、前記サイレンス符号器を選択するように構成される、請求項1記載の装置。
  3. 前記複数の符号器は、雑音状の信号符号器を備え、前記少なくとも1つのプロセッサは、前記入力信号が雑音状の信号特性を有するかどうかを判定し、前記入力信号が雑音状の信号特性を有する場合、前記雑音状の信号符号器を選択するように構成される、請求項1記載の装置。
  4. 前記時間ドメイン符号器は、符号励起線形予測(CELP)符号器を備え、前記変換ドメイン符号器は、変形離散コサイン変換(MDCT)符号器を備える、請求項記載の装置。
  5. 前記入力信号は、フレームのシーケンスを備え、前記少なくとも1つのプロセッサは、前記シーケンスの各フレームの特性を判定し、前記フレームの前記判定された特性に基づいて各フレームに対して符号器を選択し、前記フレームに対して選択された前記符号器に基づいて各フレームを符号化するように構成される、請求項1記載の装置。
  6. 前記少なくとも1つのプロセッサは、特定のフレームに対しては特定の符号器を、前記特定のフレーム及び所定の個数の先行するフレームが前記特定の符号器への切り替えを示す場合、選択するように構成される、請求項記載の装置。
  7. 前記選択された符号器に関する情報は、符号化信号を生成するために使用される符号器の変更に応じて、受信機に送られる、請求項1記載の装置。
  8. 雑音状の信号検出器を備える少なくとも1つの検出器に基づいて入力信号の特性の判定し、
    前記入力信号の前記判定された特性に基づいて、複数の符号器の中から符号器を選択し、前記複数の符号器は、時間ドメイン符号器と、変換ドメインにおいてスパースな変換ドメイン表現を有する信号を符号化する少なくとも1つの変換ドメイン符号器とを備えており、
    前記選択された符号器に基づいて前記入力信号を符号化する
    ことを備え
    前記入力信号は、オーディオ信号であり、
    前記入力信号の前記特性を判定することは、前記入力信号の複数のパラメータに基づいて、少なくとも時間ドメインおよび変換ドメインにおける前記入力信号のスパースネスを判定することを含み、
    前記入力信号の前記判定された特性に基づいて前記符号器を選択することは、前記時間ドメインにおける前記入力信号の前記スパースネスを、前記変換ドメインにおける前記入力信号の前記スパースネスと比較し、前記比較に基づいて少なくとも前記時間ドメイン符号器と前記変換ドメイン符号器から符号器を選択することを含む、方法。
  9. 前記入力信号の前記特性を判定することは、前記入力信号における活動を検出することを含み、前記入力信号の前記判定された特性に基づいて前記符号器を選択することは、前記入力信号において活動が検出されない場合にサイレンス符号器を選択することを更に含む、請求項記載の方法。
  10. 記入力信号の前記特性を判定することは、前記入力信号が雑音状の信号特性を有するかどうかを判定することを備え、前記入力信号の前記判定された特性に基づいて前記符号器を選択することは、前記入力信号が雑音状の信号特性を有する場合に雑音状の信号符号器を選択することを更に含む、請求項記載の方法。
  11. 雑音状の信号検出器を備える少なくとも1つの検出器に基づいて入力信号の特性を判定する手段と、
    前記入力信号の前記判定された特性に基づいて複数の符号器の中から符号器を選択する手段であって、前記複数の符号器は、時間ドメイン符号器と、変換ドメインにおいてスパースな変換ドメイン表現を有する信号を符号化する少なくとも1つの変換ドメイン符号器とを備える、手段と、
    前記選択された符号器に基づいて前記入力信号を符号化する手段と
    を備え、
    前記入力信号は、オーディオ信号であり、
    前記入力信号の前記特性を判定する前記手段は、前記入力信号の複数のパラメータに基づいて、少なくとも時間ドメインおよび変換ドメインにおける前記入力信号のスパースネスを判定する手段を備え、
    前記入力信号の前記判定された特性に基づいて前記符号器を選択する前記手段は、前記時間ドメインにおける前記入力信号の前記スパースネスを、前記変換ドメインにおける前記入力信号の前記スパースネスと比較する手段と、前記比較に基づいて少なくとも前記時間ドメイン符号器と前記変換ドメイン符号器から符号器を選択する手段とを備える、装置。
  12. 記入力信号の前記特性を判定する前記手段は、前記入力信号における活動を検出する手段を更に備え、前記符号器を選択する前記手段は、前記入力信号において活動が検出されない場合、サイレンス符号器を選択する手段を更に備える、請求項11記載の装置。
  13. 記入力信号の前記特性を判定する前記手段は、前記入力信号が雑音状の信号特性を有するかどうかを判定する手段を更に備え、前記符号器を選択する前記手段は、前記入力信号が雑音状の信号特性を有する場合、雑音状の信号符号器を選択する手段を更に備える、請求項11記載の装置。
  14. 雑音状の信号検出器を備える少なくとも1つの検出器に基づいて入力信号の特性を判定し、
    前記入力信号の前記判定された特性に基づいて複数の符号器の中から符号器を選択し、前記複数の符号器は、時間ドメイン符号器と、変換ドメインにおいてスパースな変換ドメイン表現を有する信号を符号化する少なくとも1つの変換ドメイン符号器とを備え、
    前記選択された符号器に基づいて前記入力信号を符号化する
    命令を格納し、
    前記入力信号は、オーディオ信号であり、
    前記入力信号の前記特性を判定することは、前記入力信号の複数のパラメータに基づいて、少なくとも時間ドメインおよび変換ドメインにおける前記入力信号のスパースネスを判定することを含み、
    前記入力信号の前記判定された特性に基づいて前記符号器を選択することは、前記時間ドメインにおける前記入力信号の前記スパースネスを、前記変換ドメインにおける前記入力信号の前記スパースネスと比較し、前記比較に基づいて少なくとも前記時間ドメイン符号器と前記変換ドメイン符号器から符号器を選択することを含む、プロセッサ読み取り可能な媒体。
  15. 記少なくとも1つのプロセッサは、前記入力信号が、前記変換ドメインよりも前記時間ドメインにおいて、よりスパースであると判定される場合、前記時間ドメインにおいて前記入力信号を符号化する前記時間ドメイン符号器を選択し、前記入力信号が、前記時間ドメインよりも前記変換ドメインにおいて、よりスパースであると判定される場合、前記変換ドメインにおいて前記入力信号を符号化する前記変換ドメイン符号器を選択するように構成される、請求項1記載の装置。
  16. 記少なくとも1つのプロセッサは、前記時間ドメインにおける前記入力信号のスパースネスを示す第1のパラメータを判定し、前記変換ドメインにおける前記入力信号のスパースネスを示す第2のパラメータを判定し、前記第1及び第2のパラメータが前記入力信号は、前記変換ドメインよりも前記時間ドメインにおいて、よりスパースであると示す場合、前記時間ドメイン符号器を選択し、前記第1及び第2のパラメータが前記入力信号は、前記時間ドメインよりも前記変換ドメインにおいて、よりスパースであると示す場合、前記変換ドメイン符号器を選択するように構成される、請求項記載の装置。
  17. 前記少なくとも1つのプロセッサは、前記変換ドメイン符号器の先の選択と前記時間ドメイン符号器の先の選択とに基づいて、少なくとも1つのカウントを判定し、前記少なくとも1つのカウントに更に基づいて、前記時間ドメイン符号器又は前記変換ドメイン符号器を選択するように構成される、請求項16記載の装置。
  18. 記入力信号の前記スパースネスを判定することは、
    前記時間ドメインにおける前記入力信号のスパースネスを示す第1のパラメータを判定し、
    前記変換ドメインにおける前記入力信号のスパースネスを示す第2のパラメータを判定することを含み、
    前記符号器を前記選択することは、
    前記第1及び第2のパラメータが、前記入力信号は前記変換ドメインよりも前記時間ドメインにおいて、よりスパースであると示す場合、前記時間ドメイン符号器を選択し、
    前記第1及び第2のパラメータが、前記入力信号は前記時間ドメインよりも前記変換ドメインにおいて、よりスパースであると示す場合、前記変換ドメイン符号器を選択する
    ことを含む、請求項記載の方法。
  19. 前記変換ドメイン符号器の先の選択と、前記時間ドメイン符号器の先の選択とに基づいて、少なくとも1つのカウントを判定する
    ことを更に含み、
    符号器を前記選択することは、前記少なくとも1つのカウントに更に基づいて、前記変換ドメイン符号器又は前記時間ドメイン符号器を選択することを含む、請求項18記載の方法。
  20. 前記時間ドメインにおける前記入力信号の前記スパースネスを、前記変換ドメインにおける前記入力信号の前記スパースネスと比較することは、
    時間ドメインにおける第1の信号を変換して、変換ドメインにおける第2の信号を取得、前記第1及び第2の信号に基づいて第1のパラメータ及び第2のパラメータを判定、前記第1及び第2のパラメータに基づいて、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを判定することとを含む、請求項1記載の装置。
  21. 前記少なくとも1つのプロセッサは、前記第1の信号を変形離散コサイン変換(MDCT)に基づいて変換して、前記第2の信号を取得するように構成される、請求項20記載の装置。
  22. 前記少なくとも1つのプロセッサは、前記入力信号に線形予測符号化(LPC)を行なって前記第1の信号中の残余を取得し、前記第1の信号中の前記残余を変換して前記第2の信号の係数を取得し、前記第1の信号の前記残余のエネルギー値を判定し、前記第2の信号の前記係数のエネルギー値を判定し、前記係数の前記エネルギー値及び前記残余の前記エネルギー値に基づいて前記第1及び第2のパラメータを判定するように構成される、請求項20記載の装置。
  23. 前記少なくとも1つのプロセッサは、前記第1のパラメータが前記第2のパラメータよりも第1の閾値分だけ小さいことに基づいて、前記第1の信号は、よりスパースであると判定し、また、前記第2のパラメータが前記第1のパラメータよりも第2の閾値分だけ小さいことに基づいて、前記第2の信号は、よりスパースであると判定するように構成される、請求項20記載の装置。
  24. 前記第1の閾値は、前記第2の閾値とは異なる、請求項23記載の装置。
  25. 前記少なくとも1つのプロセッサは、前記第1の信号の累積的なエネルギーを示す第3のパラメータを判定し、前記第2の信号の累積的なエネルギーを示す第4のパラメータを判定し、前記第3及び第4のパラメータに更に基づいて、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを判定するように構成される、請求項20記載の装置。
  26. 前記少なくとも1つのプロセッサは、前記第1の信号のために第1の累積的なエネルギー関数を判定し、前記第2の信号のために第2の累積的なエネルギー関数を判定し、前記第1の累積的なエネルギー関数が前記第2の累積的なエネルギー関数以上になった回数に基づいて前記第1のパラメータを判定し、前記第2の累積的なエネルギー関数が前記第1の累積的なエネルギー関数以上になった回数に基づいて前記第2のパラメータを判定するように構成される、請求項20記載の装置。
  27. 前記少なくとも1つのプロセッサは、前記第1のパラメータが前記第2のパラメータよりも大きいことに基づいて、前記第1の信号が、よりスパースであると判定し、前記第2のパラメータが前記第1のパラメータよりも大きいことに基づいて、前記第2の信号は、よりスパースであると判定するように構成される、請求項26記載の装置。
  28. 前記少なくとも1つのプロセッサは、前記第1の累積的なエネルギー関数が前記第2の累積的なエネルギー関数を超過する場合に基づいて第3のパラメータを判定し、前記第2の累積的なエネルギー関数が前記第1の累積的なエネルギー関数を超過する場合に基づいて、第4のパラメータを判定し、前記第3及び第4のパラメータに更に基づいて、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを判定するように構成される、請求項26記載の装置。
  29. 前記少なくとも1つのプロセッサは、前記第1の信号がよりスパースであるという先の通知と前記第2の信号がよりスパースであるという先の通知に基づいて、少なくとも1つのカウントを判定し、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを、前記少なくとも1つのカウントに更に基づいて判定するように構成される、請求項20記載の装置。
  30. 前記少なくとも1つのプロセッサは、前記第1の信号がよりスパースであるという通知ごとに、第1のカウントをインクリメントし、且つ第2のカウントをデクリメントし、前記第2の信号がよりスパースであるという通知ごとに、前記第1のカウントをデクリメントし、且つ第2のカウントをインクリメントし、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを、前記第1及び第2のカウントに基づいて判定するように構成される、請求項20記載の装置。
  31. 前記時間ドメインにおける前記入力信号の前記スパースネスを、前記変換ドメインにおける前記入力信号の前記スパースネスと比較することは、
    時間ドメインの第1の信号を変換して、変換ドメインの第2の信号を取得し、
    前記第1及び第2番の信号に基づいて第1のパラメータ及び第2のパラメータを判定し、
    前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかを、前記第1及び第2のパラメータに基づいて判定する
    ことを含む、請求項8記載の方法。
  32. 前記第1及び第2のパラメータを判定することは、
    前記第1の信号の全エネルギーの少なくとも特定の割合を含む前記第1の信号の値の最小の数に基づいて、前記第1のパラメータを判定し、
    前記第2の信号の全エネルギーの少なくとも前記特定の割合を含む前記第2の信号の値の最小の数に基づいて前記第2のパラメータを判定する
    ことを含む、請求項31の方法。
  33. 前記第1の信号について第1の累積的なエネルギー関数を判定し、
    前記第2の信号について第2の累積的なエネルギー関数を判定することを更に備え
    前記第1及び第2のパラメータを判定することは、
    前記第1の累積的なエネルギー関数が前記第2の累積的なエネルギー関数以上になった回数に基づいて、前記第1のパラメータを判定し、
    前記第2の累積的なエネルギー関数が前記第1の累積的なエネルギー関数以上になった回数に基づいて、前記第2のパラメータを判定する
    ことを含む、請求項31記載の方法。
  34. 前記第1の累積的なエネルギー関数が前記第2の累積的なエネルギー関数を超過する場合に基づいて第3のパラメータを判定し、
    前記第2の累積的なエネルギー関数が前記第1の累積的なエネルギー関数を超過する場合に基づいて第4のパラメータを判定することを更に備え、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかは、前記第3及び第4のパラメータに更に基づいて判定される、請求項33記載の方法。
  35. 前記第1の信号がよりスパースであるという先の通知と、前記第2の信号がよりスパースであるという先の通知に基づいて、少なくとも1つのカウントを判定することを更に含み、前記第1の信号がよりスパースであるか又は前記第2の信号がよりスパースであるかは、前記少なくとも1つのカウントに更に基づいて判定される、請求項31記載の方法。
  36. 前記第1の信号がよりスパースであると判定することは、前記第1のパラメータが前記第2のパラメータよりも第1の閾値分だけ小さいことに基づき、前記第2の信号がよりスパースであると判定することは、前記第2のパラメータが前記第1のパラメータよりも第2の閾値分だけ小さいことに基づく、請求項31記載の方法。
JP2009532524A 2006-10-10 2007-10-08 オーディオ信号を符号化及び復号化する方法及び装置 Expired - Fee Related JP5096474B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US82881606P 2006-10-10 2006-10-10
US60/828,816 2006-10-10
US94298407P 2007-06-08 2007-06-08
US60/942,984 2007-06-08
PCT/US2007/080744 WO2008045846A1 (en) 2006-10-10 2007-10-08 Method and apparatus for encoding and decoding audio signals

Publications (2)

Publication Number Publication Date
JP2010506239A JP2010506239A (ja) 2010-02-25
JP5096474B2 true JP5096474B2 (ja) 2012-12-12

Family

ID=38870234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009532524A Expired - Fee Related JP5096474B2 (ja) 2006-10-10 2007-10-08 オーディオ信号を符号化及び復号化する方法及び装置

Country Status (10)

Country Link
US (1) US9583117B2 (ja)
EP (2) EP2458588A3 (ja)
JP (1) JP5096474B2 (ja)
KR (1) KR101186133B1 (ja)
CN (1) CN101523486B (ja)
BR (1) BRPI0719886A2 (ja)
CA (1) CA2663904C (ja)
RU (1) RU2426179C2 (ja)
TW (1) TWI349927B (ja)
WO (1) WO2008045846A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
EP2198424B1 (en) * 2007-10-15 2017-01-18 LG Electronics Inc. A method and an apparatus for processing a signal
WO2009059633A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
EP2220646A1 (en) * 2007-11-06 2010-08-25 Nokia Corporation Audio coding apparatus and method thereof
WO2009059632A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
AU2009267507B2 (en) * 2008-07-11 2012-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and discriminator for classifying different segments of a signal
KR101227729B1 (ko) * 2008-07-11 2013-01-29 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010008173A2 (ko) * 2008-07-14 2010-01-21 한국전자통신연구원 오디오 신호의 상태결정 장치
KR101230183B1 (ko) * 2008-07-14 2013-02-15 광운대학교 산학협력단 오디오 신호의 상태결정 장치
KR20100007738A (ko) 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
US10008212B2 (en) * 2009-04-17 2018-06-26 The Nielsen Company (Us), Llc System and method for utilizing audio encoding for measuring media exposure with environmental masking
CN102142924B (zh) * 2010-02-03 2014-04-09 中兴通讯股份有限公司 一种多用途语音频编码传输方法和装置
US9112591B2 (en) 2010-04-16 2015-08-18 Samsung Electronics Co., Ltd. Apparatus for encoding/decoding multichannel signal and method thereof
US9224398B2 (en) * 2010-07-01 2015-12-29 Nokia Technologies Oy Compressed sampling audio apparatus
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US20130066638A1 (en) * 2011-09-09 2013-03-14 Qnx Software Systems Limited Echo Cancelling-Codec
EP2761616A4 (en) * 2011-10-18 2015-06-24 Ericsson Telefon Ab L M IMPROVED METHOD AND DEVICE FOR AN ADAPTIVE MULTIRATE CODEC
SG11201503788UA (en) * 2012-11-13 2015-06-29 Samsung Electronics Co Ltd Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals
BR112016007515B1 (pt) * 2013-10-18 2021-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Método de codificação de segmento de sinal de áudio, codificador de segmento de sinal de áudio, e, terminal de usuário.
KR102354331B1 (ko) * 2014-02-24 2022-01-21 삼성전자주식회사 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치
CN107452390B (zh) * 2014-04-29 2021-10-26 华为技术有限公司 音频编码方法及相关装置
CN107424622B (zh) * 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
KR101728047B1 (ko) 2016-04-27 2017-04-18 삼성전자주식회사 부호화 방식 결정 방법 및 장치
AU2021479158A1 (en) * 2021-12-15 2024-07-04 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive predictive encoding
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、***、电子设备和存储介质

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109417A (en) 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
CA2483322C (en) 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
KR0166722B1 (ko) * 1992-11-30 1999-03-20 윤종용 부호화 및 복호화방법 및 그 장치
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
TW271524B (ja) 1994-08-05 1996-03-01 Qualcomm Inc
KR100419545B1 (ko) * 1994-10-06 2004-06-04 코닌클리케 필립스 일렉트로닉스 엔.브이. 다른코딩원리들을이용한전송시스템
JP3158932B2 (ja) * 1995-01-27 2001-04-23 日本ビクター株式会社 信号符号化装置及び信号復号化装置
JP3707116B2 (ja) 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US5978756A (en) * 1996-03-28 1999-11-02 Intel Corporation Encoding audio signals using precomputed silence
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
GB2326572A (en) * 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
DE69819460T2 (de) 1997-07-11 2004-08-26 Koninklijke Philips Electronics N.V. Übertrager mit verbessertem sprachkodierer und dekodierer
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
JP3273599B2 (ja) * 1998-06-19 2002-04-08 沖電気工業株式会社 音声符号化レート選択器と音声符号化装置
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
US6463407B2 (en) 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6456964B2 (en) 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6640209B1 (en) 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
US6697430B1 (en) * 1999-05-19 2004-02-24 Matsushita Electric Industrial Co., Ltd. MPEG encoder
JP2000347693A (ja) * 1999-06-03 2000-12-15 Canon Inc オーディオ符号化復号化システム、符号化装置、復号化装置及びこれらの方法並びに記憶媒体
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
US6397175B1 (en) 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6438518B1 (en) 1999-10-28 2002-08-20 Qualcomm Incorporated Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions
FR2802329B1 (fr) * 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
WO2001082293A1 (en) * 2000-04-24 2001-11-01 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US7085711B2 (en) * 2000-11-09 2006-08-01 Hrl Laboratories, Llc Method and apparatus for blind separation of an overcomplete set mixed signals
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
US6694293B2 (en) 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6785646B2 (en) * 2001-05-14 2004-08-31 Renesas Technology Corporation Method and system for performing a codebook search used in waveform coding
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
KR100748313B1 (ko) 2001-06-28 2007-08-09 매그나칩 반도체 유한회사 이미지센서의 제조방법
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
JP4399185B2 (ja) * 2002-04-11 2010-01-13 パナソニック株式会社 符号化装置および復号化装置
JP4022111B2 (ja) * 2002-08-23 2007-12-12 株式会社エヌ・ティ・ティ・ドコモ 信号符号化装置及び信号符号化方法
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
KR100604032B1 (ko) 2003-01-08 2006-07-24 엘지전자 주식회사 복수 코덱을 지원하는 장치와 방법
US20050096898A1 (en) * 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
CN1312946C (zh) * 2004-11-11 2007-04-25 向为 话音的自适应多速率编码和传输方法
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
JP4699117B2 (ja) * 2005-07-11 2011-06-08 株式会社エヌ・ティ・ティ・ドコモ 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법

Also Published As

Publication number Publication date
KR20090074070A (ko) 2009-07-03
EP2458588A3 (en) 2012-07-04
WO2008045846A1 (en) 2008-04-17
TWI349927B (en) 2011-10-01
CN101523486B (zh) 2013-08-14
EP2458588A2 (en) 2012-05-30
BRPI0719886A2 (pt) 2014-05-06
US9583117B2 (en) 2017-02-28
US20090187409A1 (en) 2009-07-23
CA2663904C (en) 2014-05-27
CA2663904A1 (en) 2008-04-17
JP2010506239A (ja) 2010-02-25
CN101523486A (zh) 2009-09-02
EP2092517B1 (en) 2012-07-18
RU2009117663A (ru) 2010-11-20
RU2426179C2 (ru) 2011-08-10
KR101186133B1 (ko) 2012-09-27
EP2092517A1 (en) 2009-08-26
TW200839741A (en) 2008-10-01

Similar Documents

Publication Publication Date Title
JP5096474B2 (ja) オーディオ信号を符号化及び復号化する方法及び装置
CN101681627B (zh) 使用音调规则化及非音调规则化译码的信号编码方法及设备
RU2418323C2 (ru) Системы и способы для изменения окна с кадром, ассоциированным с аудио сигналом
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
US8060363B2 (en) Audio signal encoding
EP2803068B1 (en) Multiple coding mode signal classification
CN101523484A (zh) 用于帧擦除恢复的***、方法和设备
CA2425034A1 (en) Improved spectral parameter substitution for the frame error concealment in a speech decoder
JP4511094B2 (ja) 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置
EP2127088B1 (en) Audio quantization

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120222

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120229

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120322

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120920

R150 Certificate of patent or registration of utility model

Ref document number: 5096474

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees