JP2007538281A - 異なる符号化モデルを用いる音声符号化 - Google Patents
異なる符号化モデルを用いる音声符号化 Download PDFInfo
- Publication number
- JP2007538281A JP2007538281A JP2007517466A JP2007517466A JP2007538281A JP 2007538281 A JP2007538281 A JP 2007538281A JP 2007517466 A JP2007517466 A JP 2007517466A JP 2007517466 A JP2007517466 A JP 2007517466A JP 2007538281 A JP2007538281 A JP 2007538281A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- section
- encoding
- encoder mode
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 147
- 238000004458 analytical method Methods 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 26
- 238000013459 approach Methods 0.000 description 19
- 239000000872 buffer Substances 0.000 description 15
- 230000008859 change Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000010972 statistical evaluation Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Steroid Compounds (AREA)
Abstract
本発明はオーディオ信号の符号化を支援する方法に関し、複数のセクションのオーディオ信号の符号化を行うために、少なくとも第1の符号器モードと第2の符号器モードとが利用可能である。第1の符号器モードによって、2つの異なる符号化モデルに基づく符号化が可能になる。ある一定の分析ウィンドウ用として決定された信号特性に基づく選択規則によって符号化モデルの選択が可能になる。第1の符号器モードへの切替え後のセクションの誤判別を回避するために、上記分析ウィンドウ用の十分なセクションを受信したときにのみ、上記選択規則を起動することが提案されている。本発明は、同様に、上記方法を実現するモジュール2、3、装置1、このようなモジュール2、3を備えるシステム、および、上記方法を実現するソフトウェアコードを備えるソフトウェアプログラム製品にも関する。
Description
本発明は、オーディオ信号の符号化を支援する方法に関し、上記特定のセクションのオーディオ信号の符号化のために、少なくとも第1の符号器モードと第2の符号器モードとが利用可能である。上記少なくとも第1の符号器モードによって、少なくとも2つの異なる符号化モデルに基づく、特定のセクションのオーディオ信号の符号化が可能になる。上記第1の符号器モードでは、特定のセクションに先行する少なくとも1つのセクションのオーディオ信号を包含している分析ウィンドウにおける信号特性の分析に基づく少なくとも1つの選択規則によって、特定のセクションのオーディオ信号を符号化するためのそれぞれの符号化モデルの選択が可能になる。本発明は、上記のようなオーディオ信号の符号化を支援する方法のみでなく、対応するモジュール、対応する電子装置、対応するソフトウェアプログラム製品、および対応するシステムにも関するものである。
オーディオ信号の効率のよい送信および/または格納を可能にするオーディオ信号の符号化が一般に知られている。
オーディオ信号は、音声信号または音楽のような別のタイプのオーディオ信号となることもあれば、様々なタイプのオーディオ信号に対して、異なる符号化モデルが適正となる場合もある。
音声信号の符号化用として広く利用されている手法として代数的符号励起線形予測(ACELP:Algebraic Code-Excited Linear Prediction)符号化がある。ACELPは人間の音声生成システムをモデル化するものであり、音声信号の周期性の符号化を行うのに非常に好適である。この結果、非常に低いビットレートを用いて高い音質を達成することが可能になる。例えば、適応マルチレート広帯域(AMR−WB:Adaptive Multi-Rate Wideband)はACELP技術に基づく音声コーデックである。AMR−WBについては、例えば、技術仕様3GPP TS26.190「音声コーデック音声処理機能(Speech Codec Speech Processing Functions);AMR広帯域音声コーデック(AMR Wideband Speech Codec);トランスコード機能(Transcoding Functions)」(V5.1.0(2001−12))に記載されている。しかしながら、人間の音声生成システムに基づく音声コーデックの性能は、音楽のような別のタイプのオーディオ信号用としては通常かなり劣るものとなる。
音声以外の別のオーディオ信号の符号化用として広く利用されている手法として変換符号化(TCX:Transform Coding)がある。オーディオ信号用の変換符号化の優越性は、知覚型マスキングおよび周波数領域符号化に基づいて得られるものである。この結果として生じるオーディオ信号の品質は、変換符号化用の適切な符号化用フレーム長を選択することによりさらに改善が可能になる。しかしながら、変換符号化手法の結果として、音声以外のオーディオ信号用の高い品質が得られるとはいえ、これらの変換符号化手法の性能は周期的音声信号用としては良好なものではない。このため、変換符号化音声の品質は通常かなり低いものとなり、特に、TCXフレーム長に関しては低品質となる。
拡張AMR−WB(AMR−WB+)コーデックは、ステレオオーディオ信号を高ビットレート・モノ信号の形で符号化し、ステレオ拡張部用としていくつかのサイド情報を出力するものである。AMR−WB+コーデックは、ACELP符号化とTCXモデルの双方を利用して、0Hz〜6400Hzの周波数帯域でコアのモノ信号を符号化するものである。TCXモデル用としては、20ms、40ms、または80msの符号化用フレーム長が利用される。
ACELPモデルによってオーディオ品質が劣化し、特に、長い符号化用フレームを用いる場合、通常、変換符号化の音声に関する性能が悪くなる可能性があるため、符号化対象信号の特性に応じて、それぞれ最善の符号化モデルを選択する必要がある。実際に採用する符号化モデルの選択は種々の方法で行うことができる。
移動マルチメディアサービス(MMS:Mobile Multimedia Services)のような複雑さの少ない手法を必要とするシステムでは、通常最適の符号化モデルの選択を行うために音楽/音声類別アルゴリズムが利用される。これらのアルゴリズムは、オーディオ信号のエネルギおよび周波数特性の分析に基づいて、音楽としてあるいは音声としてソース信号全体を類別するものである。
オーディオ信号が音声または音楽のみからなる場合、上記のような音楽/音声の類別に基づいて、信号全体用として同じ符号化モデルを利用することで満足のゆく結果が得られることになる。しかしながら、多くの場合、符号化対象のオーディオ信号は混合タイプのオーディオ信号となる。例えば、音声は、音楽と同時におよび/または時間的に交互にオーディオ信号の形で音楽と共に存在する場合もある。
これらの場合、ソース信号全体の音楽カテゴリまたは音声カテゴリへの類別は過度に限定されたアプローチとなる。ついで、オーディオ信号を符号化するとき、符号化モデル間で一時的に切替えを行うことによって音声品質全体を最大化することが可能になる。すなわち、音声以外のオーディオ信号として類別されたソース信号の符号化のためにも、部分的にACELPモデルを同様に利用している一方で、音声信号として類別されたソース信号用としても同様に部分的にTCXモデルを利用する。
フレーム毎のベースで、混合符号化モデルを用いて上記のような混合タイプのオーディオ信号を符号化するためにも、拡張AMR−WB(AMR−WB+)コーデックが同様に設計されている。
いくつかの方法でAMR−WB+内の選択符号化モデルが実行可能である。
最も複雑なアプローチでは、ACELPモデルとTCXモデルとを用いてまず信号の符号化が行われる。次に、個々の組み合わせについて信号は再び合成される。ついで、上記合成済みの音声信号の品質に基づいて最適の励起が選択される。ある特定の組み合わせと共に結果として得られる上記合成音声の品質は、例えば、当該合成音声の信号対雑音比(SNR)の計算により測定可能になる。このような分析/合成タイプのアプローチによって良好な結果が得られることになる。しかしながら、アプリケーションによっては、当該アプローチの非常に高度の複雑さに起因してこの分析/合成タイプのアプローチが実行不能となるものもなかにはある。このようなアプリケーションには例えば移動用アプリケーションが含まれる。上記の複雑さは、主としてエンコーダの最も複雑な部分であるACELP符号化の結果として生じるものである。
例えば、MMSのようなシステムでは、完全な閉ループ分析/合成アプローチはあまりに複雑なため実行不能となる。したがって、MMSエンコーダでは、特別のフレームを符号化するのにACELP符号化モデルが選択されているか、TCXモデルが選択されているかを決定する複雑さの少ない開ループ方法が採用されている。
AMR−WB+は、個々のフレームについてそれぞれの符号化モデルを選択するための、複雑さの少ない2つの異なる開ループアプローチを提供するものである。双方の開ループアプローチでは、ソース信号特性と、それぞれの符号化モデルを選択するための符号化用パラメータとが評価される。
第1の開ループアプローチでは、オーディオ信号は個々のフレーム内でまず分割されて、いくつかの周波数帯域に変えられ、ついで、より低い周波数帯域におけるエネルギと、より高い周波数帯域におけるエネルギとの間の関係、ならびに、上記周波数帯域内でのエネルギレベルの変動が分析される。ついで、異なる分析ウィンドウと、決定用しきい値とを用いて測定された測定値またはこれらの測定値の異なる組み合わせの双方に基づいて、音楽様のコンテンツまたは音声様のコンテンツとして、オーディオ信号の個々のフレーム内のオーディオコンテンツの類別が行われる。
モデル類別の微調整とも呼ばれる第2の開ループアプローチでは、オーディオ信号のそれぞれのフレーム内のオーディオコンテンツの周期性および定常的特性の評価に基づいて符号化モデルの選択が行われる。上記の周期性および定常的特性は、特に、相関と、長期予測(LTP:Long Term Prediction)パラメータと、スペクトル距離測定値との計算によって評価される。
サンプリング周波数が変らなければ、AMR−WB+コーデックにより、ACELP符号化モデルを排他的に採用しているAMR−WBモードと、ACELP符号化モデルまたはTCXモデルのいずれかを採用している拡張モードとの間で、オーディオストリームの符号化中の切替えが可能になる。サンプリング周波数は例えば16kHzであってもよい。
拡張モードはAMR−WBモードよりも高いビットレートを出力する。したがって、ネットワークでの混雑状態を軽減させるために、符号化終端部と復号化終端部とを接続するネットワークにおける送信条件が、より高いビットレートモードからより低いビットレートモードへの変更を必要とするときに、拡張モードからAMR−モードへの切替えによって利点が得られる場合がある。移動放送/マルチキャストサービス(MBMS:Mobile Broadcast/Multicast Service)時に新たな低い終端部受信装置を組み入れるために、より高いビットレートモードからより低いビットレートモードへの変更を必要とする場合も考えられる。
また一方で、ネットワークの送信条件の変更によって、より低いビットレートモードからより高いビットレートモードへの変更が可能になるときに、AMR−WBモードから拡張モードへの切替えによって利点を得ることができる。より高いビットレートモードの利用によってより良好な音声品質が可能になる。
AMR−WBモードとAMR−WB+拡張モード用としてコアコーデックが6.4kHzの同じサンプリングレートを使用し、かつ、少なくとも部分的に類似している符号化手法を採用しているため、この周波数帯域での拡張モードからAMR−WBモードへの変更のスムーズな処理が可能になる(あるいは、上記変更の逆の変更もまた同様である)。しかしながら、AMR−WBモードと拡張モードとに対するコア符号化処理がわずかに異なっているため、モード間での切替えを行う際、一方のアルゴリズムから他方のアルゴリズムへのすべての必要な状態変数およびバッファの格納とコピーとが行われることに留意する必要がある。
さらに、拡張モードでは符号化モデルの選択のみが必要となることを考慮する必要がある。動作可能にされた開ループ類別アプローチでは、相対的に長い分析ウィンドウとデータバッファとが利用される。符号化モデルの選択は分析ウィンドウを用いる統計解析を利用し、当該分析ウィンドウは、20msの16個のオーディオ信号のフレームに対応する320msまでの長さを有している。AMR−WBモードでは対応する情報のバッファリングを行う必要がないため、拡張モードアルゴリズムに従って上記情報を単純にコピーすることはできない。したがって、AMR−WBからAMR−WB+への切替えを行った後に、例えば統計解析に利用されるアルゴリズム等の類別アルゴリズムのデータバッファには有効な情報が含まれなくなったり、このようなデータバッファがリセットされたりすることになる。この結果、切替え後の第1の320ms中に、符号化モデル選択アルゴリズムが、現在のオーディオ信号に対して完全には適合しなくなったり、更新されたりする場合がある。非有効バッファデータに基づく選択の結果として、符号化モデルの歪められた決定が生じることになる。例えば、オーディオ信号が、オーディオ品質の維持のためにTCXモデルに基づく符号化を必要とする場合であっても、選択時に、ACELP符号化モデルに大きな重み付けを行うことも可能である。
この結果、符号化モデルの選択は最適なものにはならなくなる。というのは、AMR−WBモードから拡張モードへの切替え後、複雑さの少ない符号化モデルの選択の性能が悪くなるからである。
上記の観点より、本発明の目的は、第1の符号化モードから第2の符号化モードへの切替え後の符号化モデルの選択を改善することにある。
本発明においては、オーディオ信号の符号化を支援する方法が提案されている。この方法では、特定のセクションのオーディオ信号の符号化を行うために、少なくとも第1の符号器モードと第2の符号器モードとが利用可能である。さらに、少なくとも第1の符号器モードによって、少なくとも2つの異なる符号化モデルに基づいて特定のセクションの上記オーディオ信号の符号化が可能になる。上記第1の符号器モードでは、特定のセクションに先行する少なくとも1つのセクションの上記オーディオ信号を包含している分析ウィンドウから、少なくとも部分的に決定された信号特性に基づく少なくとも1つの選択規則によって、特定のセクションの上記オーディオ信号を符号化するためにそれぞれの符号化モデルを選択することが可能になる。ここでは、上記第2の符号器モードから上記第1の符号器モードへの切替えを行った後に、上記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの上記オーディオ信号の受信に応じて、上記少なくとも1つの選択規則を起動するステップを有する方法が提案されている。
第1の符号器モードと第2の符号器モードとは、排他的にというわけではないが、それぞれ、例えばAMR−WB+コーデックの拡張モードと上記AMR−WB+コーデックのAMR−WBモードとにすることが可能である。この場合、第1の符号器モード用として利用可能な符号化モデルは、例えばACELP符号化モデルとTCXモデルとにすることが可能である。
さらに、オーディオ信号の符号化を支援するモジュールが提案されている。このモジュールは、第1の符号器モードで特定のセクションのオーディオ信号を符号化するように構成される第1の符号器モード部と、第2の符号器モードでそれぞれのセクションの上記オーディオ信号を符号化するように構成される第2の符号器モード部とを備えている。上記モジュールは、第1の符号器モード部と第2の符号器モード部との間で切替えを行う切替え手段をさらに備えている。符号器モード部は、少なくとも2つの異なる符号化モデルに基づいてそれぞれのセクションの上記オーディオ信号を符号化するように構成される符号化部を含む。第1の符号器モード部は、それぞれの符号化モデルを選択するための、少なくとも1つの選択規則を適用するように構成される選択部をさらに含み、当該符号化モデルは、特定のセクションの上記オーディオ信号を符号化するための上記符号化部によって使用される。上記少なくとも1つの選択規則は、特定のセクションに先行する少なくとも1つのセクションの上記オーディオ信号を包含している分析ウィンドウから、少なくとも部分的に決定された信号特性に基づくものである。上記選択部は、第2の符号器モード部から第1の符号器モード部への切替えを上記切替え手段によって行った後に、上記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの上記オーディオ信号の受信に応じて、少なくとも1つの選択規則を起動するように構成される。
上記モジュールは、例えばエンコーダまたはエンコーダの一部であってもよい。
さらに、上記のようなモジュールを備えた電子装置が提案されている。
さらに、上記のようなモジュールを備えたオーディオ符号化システムと、さらに、このようなモジュールによって符号化されたオーディオ信号を復号化するデコーダとが提案されている。
最後に、オーディオ信号の符号化を支援するソフトウェアコードが格納されたソフトウェアプログラム製品が提案されている。それぞれのセクションの上記オーディオ信号を符号化するために、少なくとも第1の符号器モードと第2の符号器モードとが利用可能である。少なくとも上記第1の符号器モードによって、少なくとも2つの異なる符号化モデルに基づいて、それぞれのセクションの上記オーディオ信号の符号化が可能になる。上記第1の符号器モードでは、特定のセクションに先行する少なくとも1つのセクションの上記オーディオ信号を包含している分析ウィンドウから決定された信号特性に基づく少なくとも1つの選択規則によって、特定のセクションの上記オーディオ信号を符号化するためのそれぞれの符号化モデルの選択が可能になる。上記ソフトウェアコードが符号器の処理コンポーネントで実行されるときに、上記ソフトウェアコードは、上記第2の符号器モードから上記第1の符号器モードへの切替えを行った後に、上記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの上記オーディオ信号の受信に応じて、上記少なくとも1つの選択規則を起動する。
本発明は、少なくともそれぞれのタイプの選択が必要とする程度に合わせてバッファ内容を更新した後に、符号化モデルの選択を行うための基礎として用いられる無効なバッファ内容に関する問題が、上記のような選択を起動することによって回避可能であるという考察から生じたものである。したがって、選択規則が、複数のセクションのオーディオ信号を介して分析ウィンドウを利用して決定された信号特性を利用する場合、分析ウィンドウが必要とするすべてのセクションが受信されたときにのみ、上記選択規則を適用することが提案されている。上記の起動自体を選択規則の一部としてもよいことを理解されたい。
符号器モードの切替え後に、符号化モデルの改善された選択を可能にすることが本発明の利点である。さらに詳細には、本発明によりオーディオ信号のセクションの誤判別を防止し、これによって、不適切な符号化モデルの選択を防止することが可能になる。
いくつかの選択規則が起動されていない切替え後の時間の間、好適には、現在のセクションに先行するオーディオ信号に関する情報を利用しないような付加的な選択規則を提供することが望ましい。切替えの直後で、かつ、少なくとも別の選択規則が起動されるまでの間、上記のような付加的な選択規則の適用が可能になる。
分析ウィンドウにおいて決定された信号特性に基づく少なくとも1つの選択規則は、単一の選択規則または複数の選択規則を備えるものであってもよい。後者の場合、対応する分析ウィンドウは異なる長さを有するものであってもよい。この結果、複数の選択規則を次々に起動することが可能になる。
オーディオ信号のセクションは、特に、例えば20msのオーディオ信号のフレームのようなオーディオ信号のフレームにすることが可能である。
少なくとも1つの選択規則によって評価された信号特性は、全体的にあるいは部分的に分析ウィンドウに基づくものであってもよい。単一の選択規則によって用いられる信号特性もまた、異なる分析ウィンドウに基づくものであってもよいことを理解されたい。
本発明の他の目的および特徴は、添付図面に関連して考察される以下の詳細な説明から明らかになるであろう。
図1は本発明の一実施形態に基づくオーディオ符号化システムを示すブロック図であり、当該システムによって、最適符号化モデルの選択に使用される選択アルゴリズムのソフトウェアによる起動が可能になる。
上記システムは、AMR−WB+エンコーダ(モジュール)2を有する第1の装置1と、AMR−WB+デコーダ22を有する第2の装置21とを備える。第1の装置1は、例えばMMS(Multimedia Messaging Service)サーバとすることができ、また一方で、第2の装置21は、例えば移動電話や別のある移動通信装置とすることができる。
AMR−WB+エンコーダ2は、純然たるACELP符号化を実行するように構成されるAMR−WB符号化部4と、ACELP符号化モデルまたはTCXモデルのいずれかに基づいて符号化を実行するように構成される拡張符号化部5とを備えたものである。このようにして、拡張符号化部5は第1の符号器モード部を構成し、AMR−WB符号化部4は第2の符号器モード部をさらに構成する。
AMR−WB+エンコーダ2は、AMR−WB符号化部4または拡張符号化部5のいずれか一方へオーディオ信号のフレームを転送する切替え手段6をさらに備える。
拡張符号化部5は、信号特性決定部11とカウンタ12とを備える。拡張符号化部5と関連づけられた切替え手段6の端子は、信号特性決定部11およびカウンタ12の両方の部分の入力部側に接続される。信号特性決定部11の出力部とカウンタ12の出力部は、第1の選択部13、第2の選択部14、第3の選択部15、検証部16、微調整部17、および最終選択部18を介して、拡張符号化部5内でACELP/TCX符号化部19に接続される。
図1に提示されている部分11〜19は、ステレオオーディオ信号から生成されたものであるかもしれないモノオーディオ信号を符号化するために設計されたものであることを理解されたい。付加的なステレオ情報を追加のステレオ拡張部に生成するようにしてもよい(図示せず)。エンコーダ2が別の部分(図示せず)を備えることもさらに理解されたい。提示されている部分12〜19を別々の部分とする必要はなく、お互いの間でまたは別の部分と均等に組み合わせることが同程度に可能であることも理解されたい。
AMR−WB符号化部4と、拡張符号化部5と、切替え手段6とは、特に、破線によって示されているエンコーダ2の処理用コンポーネント(モジュール)3で実行されるソフトウェアSWによって実現可能である。
次に図2のフローチャートを参照しながら、拡張符号化部5での処理についてさらに詳細に説明する。
エンコーダ2は、第1の装置1に供給されたオーディオ信号を受信する。最初は、切替え手段6は、例えば、第1の装置1と第2の装置21とを接続するネットワークの中に十分な容量が存在しない等の理由のために、AMR−WB符号化部4にオーディオ信号を出力して低出力ビットレートの達成を図る。しかしながら、その後、ネットワーク内の条件が変化してより高いビットレートが可能になる。したがって、今度は、切替え手段6によってオーディオ信号は拡張符号化部5に転送される。
このような切替え手段の場合、第1のオーディオ信号のフレームを受信すると、カウンタ12のカウンタ値StatClassCountは15にリセットされる。次に、カウンタ12はそのカウンタ値StatClassCountを1ずつ減分し、別のオーディオ信号のフレームが拡張符号化部5に入力される。
さらに、信号特性決定部11は、AMR−WB有音部検出器(VAD:Voice Activity Detector)フィルタバンクによって、個々の入力オーディオ信号のフレームに対して種々のエネルギ関連信号特性を計算する。
個々の入力オーディオ信号20msのフレームに対して、フィルタバンクは、0Hz〜6400Hzの周波数帯域を包含している12の非均一な周波数帯域の各帯域内で信号エネルギE(n)を生成する。ついで、個々の周波数帯域に対して正規化済みのエネルギレベルEN(n)を生成するために、個々の周波数帯域nのエネルギレベルE(n)は、Hzで表される上記の周波数帯域の幅で分割される。
次に、上記正規化済みのエネルギレベルEN(n)のそれぞれの標準偏差は、一方で短いウィンドウstdshort(n)と、他方で長いウィンドウstdlong(n)とを用いて上記12の周波数帯域の各帯域に対して計算される。短いウィンドウは4個のオーディオ信号のフレーム長を有し、長いウィンドウは16個のオーディオ信号のフレーム長を有する。すなわち、個々の周波数帯域に対して現フレームから得られるエネルギレベルと、先行する4個と16個のフレームから得られるエネルギレベルとをそれぞれ使用して2つの標準偏差値が導き出される。別の使用のために、現在のオーディオ信号のフレームの同様に正規化済みのエネルギレベルが格納されているバッファから、先行するフレームの正規化済みのエネルギレベルが検索される。
しかしながら、有音部インジケータ(すなわち、有音部検出器VAD)が現フレーム用の活性化された音声を示す場合、上記標準偏差は単純に決定される。このような標準偏差の決定によって、アルゴリズムは、特に長い音声中断後に、より高速に反応するようになるであろう。
次に、長短のウィンドウの双方のウィンドウに対して12の周波数帯域にわたって、上記計算済みの標準偏差の平均値を計算し、現在のオーディオ信号のフレームに固有の第1信号および第2の信号として、2つの平均標準偏差値stdashortとstdalongとをそれぞれ作成する。
さらに、現在のオーディオ信号のフレームに対して、より低い周波数帯域内のエネルギと、より高い周波数帯域内のエネルギとの間の関係が計算される。この目的のために、信号特性決定部11は、より低い周波数帯域n=1〜7のエネルギE(n)を合計して、エネルギレベルlevLを取得する。Hzで表される上記のより低い周波数帯域の全幅でエネルギレベルlevLを分割することによって、当該エネルギレベルlevLは正規化される。さらに、信号特性決定部11は、より高い周波数帯域n=8〜11のエネルギE(n)を合計して、エネルギレベルlevHを取得する。Hzで表される上記のより高い周波数帯域の全幅でエネルギレベルlevHを分割することによって、当該エネルギレベルlevHは同様に正規化される。周波数帯域0はこれらの計算では使用されない。なぜならば、周波数帯域0には、通常、非常に多くのエネルギが含まれ、それゆえに、このエネルギによって計算が歪められ、別の周波数帯域からの寄与を過度に小さくすることになるからである。次に、信号特性決定部11は、関係式LPH=levL/levHを定義する。さらに、現在のオーディオ信号のフレーム用として、ならびに、前回の3個のオーディオ信号のフレーム用として計算されたLPHの値を用いて移動平均値LPHaが計算される。
今度は、現在のLP値と前回の7個のLP値とを合計することによって、エネルギ関係式の最終値LPHaFが現フレームに対して計算される。さらに、この合計時に、上記LPHaの最新値には、より古いLPHaの値よりもわずかに高い重み付けが付与される。別の使用のために、同様に現フレーム用のLPHaの値が格納されているバッファから、LPHaの前回の7個の値が均等に検索される。この値LPHaFによって第3の信号特性が構成される。
信号特性決定部11は、現在のオーディオ信号のフレーム用としてエネルギ平均レベルフィルタバンクAVLの値をさらに計算する。この値AVLを計算するために、12の周波数帯域の各帯域内のエネルギE(n)から推定レベルの暗騒音(background noise)を減算する。ついで、対応する周波数帯域のHzでの最高周波数をこれらの結果に乗算する。上記の乗算により、より低い周波数帯域よりも相対的に少ないエネルギを含む高周波数帯域の影響のバランスをとることが可能になる。この値AVLによって4番目の第3の信号特性が構成される。
最後に、信号特性決定部11は、個々のフィルタバンクに対する暗騒音の推定値によって低減されたすべてのフィルタバンクから得られる全エネルギTotE0を現フレームについて計算する。全エネルギTotE0はバッファにも格納される。この値TotE0によって第5の信号特性が構成される。
決定された信号特性ならびにカウンタ値StatClassCountは、現フレーム用の最善の符号化モデルを選択するために、以下の〔数1〕に示す擬似コードに従ってアルゴリズムを適用する第1の選択部13に出力される。
このアルゴリズムは、先行する16個のオーディオ信号のフレームに関する情報に基づいて信号特性stdalongを利用するものであることがわかる。したがって、AMR−WBからの切替え後、少なくとも17個のフレームが既に受信されているか否かがまずチェックされる。このケースは、カウンタ12がカウンタ値StatClassCount‘0’を有している場合に直ちに行われるケースである。カウンタ12がカウンタ値StatClassCount‘0’を有していない場合には、不確定モードが現フレームと直接関連づけられる。これによって、結果として信号特性stdalongおよびLPHaFの不正確な値の形で生じるような無効なバッファ内容によって結果が偽造されないことが保証されることになる。
ついで、信号特性と、これまで行われた符号化モデル選択とに関する情報は、今度は、第1の選択部13によって第2の選択部14に転送され、当該第2の選択部14は、現フレーム用の最善の符号化モデルを選択するために、以下の〔数2〕に示す擬似コードに従ってアルゴリズムを適用する。
このアルゴリズムの第2部は、先行する4個のオーディオ信号のフレームに関する情報に基づいて、信号特性stdashortを利用し、さらに、先行する10個のオーディオ信号のフレームに関する情報に基づいて信号特性LPHaFを利用するものであることがわかる。したがって、上記アルゴリズムのこの部分に対して、AMR−WBからの切替え後、少なくとも11個のフレームが既に受信されているか否かがまずチェックされる。このケースは、カウンタがカウンタ値StatClassCount‘4’を有している場合に直ちに行われるケースである。これによって、結果として信号特性LPHaFおよびstdashortの不正確な値の形で生じるような無効なバッファ内容によって結果が偽造されないことが保証されることになる。全体として、上記アルゴリズムは、既に存在する第11番目から16番目のフレームに対する符号化モデルの選択を可能にするものであり、さらに、平均エネルギレベルが所定値を上回る場合、最初の10個のフレームに対する符号化モデルの選択さえも可能にするものである。アルゴリズムのこの部分は図2には示されていない。上記アルゴリズムは、16番目のフレームに後続するフレームに対して均等に適用され、第1の選択部13により第1の選択の微調整が行われる。
ついで、信号特性と、これまで行われた符号化モデル選択とに関する情報は、第2の選択部14によって第3の選択部15に転送され、当該第3の選択部15は、現フレーム用のモードがそれでもまだ不確定な場合、現フレーム用の最善の符号化モデルを選択するために、以下の〔数3〕に示す擬似コードに従ってアルゴリズムを適用する。
上記擬似コードは、現在のオーディオ信号のフレーム内の全エネルギTotE0と、先行するオーディオ信号のフレーム内の全エネルギTotE-1との間の関係を利用するものであることがわかる。したがって、AMR−WBからの切替え後、少なくとも2個のフレームが既に受信されているか否かがまずチェックされる。このケースは、カウンタ12がカウンタ値StatClassCount‘14’を有している場合に直ちに行われるケースである。
採用されたカウンタしきい値が単に例示であり、多くの異なる方法で選択を行う可能性があることに留意する必要がある。例えば、第2の選択部14にて実現されるアルゴリズムで、信号特性LPHaFではなく信号特性LPHを評価することも可能である。この場合、カウンタ値StatClassCount<12に対応して、少なくとも5つのフレームが既に受信されているか否かのチェックを行えば十分である。
現フレーム用のモードがそれでもまだ不確定な場合、上記アルゴリズムによっておそらく現フレーム用の最善の符号化モデルを選択し、予め選択されたTCXモードが適切なものであるか否かの検証を行うことが可能になる。
また、検証部16での処理後、現在のオーディオ信号のフレームと関連づけられたモードがまだ不確定である場合がある。
高速のアプローチでは、今度は、ACELP符号化モデルまたはTCX符号化モデルのいずれかのモデルとなる所定の符号化モデルが、残りの不確定モードフレーム用として単純に選択されることになる。
図2にも例示されているさらに複雑なアプローチでは、いくつかの別の分析がまず行われる。
上記目的のために、これまで行われた符号化モデル選択に関する情報は、今度は、検証部16によって微調整部17に転送される。この微調整部17は、モデル類別の微調整を適用する。前述のように、このような処理は、オーディオ信号の周期性および定常的特性に基づく符号化モデルの選択である。上記周期性は、LTPパラメータによって遵守される。上記定常的特性は、正規化済みの相関関係とスペクトル距離測定値とを使用することによって分析される。
部分13、14、15、16および17による分析によって、それぞれのフレームの内容が、音声コンテンツであるかまたは音楽のような別のオーディオコンテンツであると仮定することが可能になり、このような類別が可能になった場合、対応する符号化モデルの選択が可能であるか否かが、オーディオ信号特性に基づいて決定される。部分13、14、15および16は、エネルギ関連特性を評価する第1の開ループアプローチを実現し、また一方で、部分17は、オーディオ信号の周期性および定常的特性を評価する第2の開ループアプローチを実現することになる。
2つの異なる開ループアプローチが適用されて、TCXモデルかまたはACELP符号化モデルかの選択が無駄になった場合、別の既存の開ループアルゴリズムによって最適符号化モデルの選択を行うことが、場合によっては困難になることもある。したがって、本実施形態では、残りの不明瞭なモード選択に対して単純なカウント方式による類別が採用される。
最終選択部18は、有音部インジケータのVADflagがそれぞれの不確定モードフレーム用としてセットされている場合、それぞれの隣接フレームと関連づけられた符号化モデルの統計的評価に基づいて、残りの不確定モードフレームに対して特定の符号化モデルを選択する。
統計的評価の場合、不確定モードフレームが属している現在のスーパーフレームと、この現在のスーパーフレームに先行する前回のスーパーフレームとが考慮される。スーパーフレームは80msの長さを有し、個々に20msの4個の連続するオーディオフレームを含むものとなる。最終選択部18は、現在のスーパーフレーム内のフレーム数、ならびに、先行する選択部12〜17のうちの1つの選択部によってACELP符号化モデルが選択された前回のスーパーフレーム内のフレーム数をカウンタによって計数する。さらに、最終選択部18は、先行する選択部12〜17のうちの1つの選択部によって、40msまたは80msの符号化用フレーム長を有するTCXモデルが選択され、さらに有音部インジケータがセットされ、さらに全エネルギが所定のしきい値を上回るような前回のスーパーフレーム内のフレーム数を計数する。すべての周波数帯域用の信号レベルを個別に決定することにより、かつ、オーディオ信号を異なる周波数帯域に分割することにより、ならびに、この結果として生じるレベルを合計することにより上記全エネルギを計算することができる。フレーム内の全エネルギ用の所定のしきい値は、例えば60にセットすることも可能である。
現在のスーパーフレームnの符号化が可能になる前に、現在のスーパーフレーム全体に対して符号化モデルの割当てを完了する必要がある。したがって、ACELP符号化モデルが割り当てられたフレームのカウントが、不確定モードのフレームに先行するフレームに限定されることはなくなる。不確定モードフレームが現在のスーパーフレーム内の最後のフレームでなければ、次回のフレームの選択済み符号化モデルも考慮される。
この擬似コードでは、iは、それぞれのスーパーフレーム内のフレーム番号を示し、値1、2、3および4を有する。これに対して、jは、現在のスーパーフレーム内の現フレームの番号を示す。prevMode(i)は、前回のスーパーフレーム内の20msのi番目のフレームのモードであり、モード(i)は、現在のスーパーフレーム内の20msのi番目のフレームである。TCX80は、80msの符号化用フレームを用いて、選択済みのTCXモデルを表し、TCX40は、40msの符号化用フレームを用いて、選択済みのTCXモデルを表す。vadFlagold(i)は、前回のスーパーフレーム内のi番目のフレーム用の有音部インジケータを表す。TotEiは、i番目のフレーム内の全エネルギである。カウンタ値TCXCountは、前回のスーパーフレーム内の選択済みの長いTCXフレームの数を表し、カウンタ値ACELPcountは、前回および現在のスーパーフレーム内のACELPフレームの数を表す。
この場合、統計的評価は以下のように行われる。
前回のスーパーフレーム内の、40msまたは80msの符号化用フレーム長を有する長いTCXモードフレームのカウント数が3よりも大きければ、TCXモデルは不確定モードフレームに対して均等に選択される。
前回のスーパーフレーム内の、40msまたは80msの符号化用フレーム長を有する長いTCXモードフレームのカウント数が3よりも大きければ、TCXモデルは不確定モードフレームに対して均等に選択される。
上記カウント数が3よりも大きくない場合、現在ならびに前回のスーパーフレーム内のACELPモードフレームのカウント数が1よりも大きければ、ACELPモデルが不確定モードフレーム用として選択される。
他のすべてのケースでは、TCXモデルは不確定モードフレーム用として選択される。
カウント方式によるアプローチは、カウンタ値StatClassCountが12よりも小さい場合に専ら行われる。このことは、AMR−WBから拡張モードへの切替えを行った後に、カウント方式によるアプローチが、第1の4*20msに対応する第1の4個のフレーム内では行われなくなることを意味する。
カウンタ値StatClassCountが12以上で、かつ、符号化モデルが不確定モードとしてまだ類別されていれば、TCXモデルが選択される。
有音部インジケータのVADflagがセットされていなければ、フラグは、それによって無音時間を示し、選択されたモードはデフォルトによってTCXとなり、モード選択アルゴリズムのいずれも実行する必要がなくなる。
したがって、部分13、14および15は、本発明の少なくとも1つの選択部を構成することになり、また一方で、部分16、17および18と部分14の一部とは、本発明の少なくとも1つの別の選択部を構成することになる。
次に、ACELP/TCX符号化部19は、それぞれ選択された符号化モデルに基づいて、オーディオ信号のすべてのフレームを符号化する。TCXモデルは、例示として、選択された符号化用フレーム長を使用する高速フーリエ変換(FFT:Fast Fourier Transform)に基づくモデルであり、ACELP符号化モデルでは、例示として、線形予測係数(LPC:Linear Prediction Coefficient)励起用の固定コードブックパラメータが用いられる。
ついで、符号化部19は、送信用符号化済みフレームを第2の装置21に供給する。第2の装置21で、デコーダ22は、ACELP符号化モデルを用いて、あるいは、必要に応じてAMR−WBモードまたは拡張モードを使用するTCX符号化モデルを用いて、すべての受信フレームを復号化する。これらの復号化済みフレームは、例えば第2の装置21のユーザへのプレゼンテーション用として提供される。
要約すれば、本明細書で提示された実施形態は、選択アルゴリズムのソフトウェアによる起動を可能にするものであり、当該実施形態では、選択規則に関連する分析バッファが完全に更新される順序で提供されるような選択アルゴリズムが起動される。1つ以上の選択アルゴリズムが動作不能になっている間、上記バッファ内容に依拠しない別の選択アルゴリズムに基づいて選択が行われる。
ここで記載されている実施形態は、本発明の種々の可能な実施形態の1つのみを構成するものにすぎないことに留意されたい。
Claims (23)
- オーディオ信号の符号化を支援する方法であって、
特定のセクションの前記オーディオ信号の符号化を行うために、少なくとも第1の符号器モードと第2の符号器モードとが利用可能であり、少なくとも前記第1の符号器モードによって、少なくとも2つの異なる符号化モデルに基づいて前記特定のセクションの前記オーディオ信号の符号化が可能になり、前記第1の符号器モードでは、前記特定のセクションに先行する少なくとも1つのセクションの前記オーディオ信号を包含している分析ウィンドウから、少なくとも部分的に決定された信号特性に基づく少なくとも1つの選択規則によって、前記特定のセクションの前記オーディオ信号を符号化するためのそれぞれの符号化モデルの選択が可能になり、
前記方法は、前記第2の符号器モードから上記第1の符号器モードへの切替えを行った後に、前記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの前記オーディオ信号の受信に応じて、前記少なくとも1つの選択規則を起動するステップを有することを特徴とする、オーディオ信号の符号化を支援する方法。 - 前記第1の符号器モードでは、前記特定のセクションに先行する複数のセクションの前記オーディオ信号に関する情報を利用することなく、少なくとも1つの別の選択規則によって、前記特定のセクションの前記オーディオ信号を符号化するためのそれぞれの符号化モデルの選択が可能になり、少なくとも、受信されたセクションの数の方が、前記少なくとも1つの選択規則用の信号特性を決定する分析ウィンドウが包含しているセクションの数よりも少ない限り、前記少なくとも1つの別の選択規則が適用される請求項1に記載の方法。
- 分析ウィンドウから決定された信号特性に基づく前記少なくとも1つの選択規則が、短い方の分析ウィンドウにおいて決定された信号特性に基づく第1の選択規則と、長い方の分析ウィンドウにおいて決定された信号特性に基づく第2の選択規則とを含み、前記短い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第1の選択規則が起動され、前記長い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第2の選択規則が起動される請求項1または2に記載の方法。
- それぞれのセクションの前記オーディオ信号が、20msの長さを有するそれぞれのオーディオ信号のフレームに対応し、前記短い方の分析ウィンドウは、選択される符号化モデルの対象オーディオ信号のフレームと、さらに4個の先行するオーディオの信号フレームとを包含し、前記長い方のウィンドウは、選択される符号化モデルの対象オーディオ信号のフレームと、さらに16個の先行するオーディオ信号のフレームとを包含する請求項3に記載の方法。
- 前記信号特性が、それぞれの分析ウィンドウの中にエネルギ関連値の標準偏差を含む請求項1から4のいずれか一項に記載の方法。
- 前記第1の符号器モードが、拡張適応マルチレート広帯域コーデックの拡張モードであり、代数的符号励起線形予測符号化モデルに基づく符号化と、さらに、変換符号化モデルに基づく符号化とを可能にし、前記第2の符号器モードが、前記拡張適応マルチレート広帯域コーデックの適応マルチレート広帯域モードであり、代数的符号励起線形予測符号化モデルに基づく符号化を可能にする請求項1から5のいずれか一項に記載の方法。
- 前記セクションが、前記オーディオ信号のフレームまたはサブフレームである請求項1から6のいずれか一項に記載の方法。
- オーディオ信号の符号化を支援するモジュールであって、前記モジュールは、
第1の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第1の符号器モード部(5)と、
第2の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第2の符号器モード部(4)と、
前記第1の符号器モード部(5)と前記第2の符号器モード部(4)との間で切替えを行う切替え手段(6)とを備え、
前記第1の符号器モード部(5)は、少なくとも2つの異なる符号化モデルに基づいてそれぞれのセクションの前記オーディオ信号を符号化するように構成される符号化部(9)を含み、
前記第1の符号器モード部(5)は、特定の符号化モデルを選択するための、少なくとも1つの選択規則を適用するように構成される選択部(13、14および15)をさらに含み、前記符号化モデルは、特定のセクションの前記オーディオ信号を符号化するための前記符号化部(9)によって使用され、前記少なくとも1つの選択規則は、前記特定のセクションに先行する少なくとも1つのセクションの前記オーディオ信号を包含している分析ウィンドウから、少なくとも部分的に決定された信号特性に基づくものであり、
前記選択部(13、14および15)は、前記第2の符号器モード部(4)から前記第1の符号器モード部(5)への切替えを前記切替え手段(6)によって行った後に、前記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの前記オーディオ信号の受信に応じて、前記少なくとも1つの選択規則を起動するように構成されることを特徴とするモジュール。 - 前記モジュールが、前記オーディオ信号のセクションの数を計数するように構成されるカウンタ(12)をさらに備え、前記セクションは、前記第2の符号器モード部(4)から前記第1の符号器モード部(5)への切替えを行った後に、前記第1の符号器モード部(5)に供給される請求項8に記載のモジュール。
- 前記第1の符号器モード部(5)が、少なくとも1つの別の選択部(16、17および18)をさらに含み、前記選択部は、それぞれの符号化モデルを選択するための、少なくとも1つの別の選択規則を適用するように構成され、前記符号化モデルは、特定のセクションの前記オーディオ信号を符号化するための前記符号化部(9)によって使用され、前記少なくとも1つの別の選択規則は、前記特定のセクションに先行する複数のセクションの前記オーディオ信号に関する情報を利用せず、前記第2の符号器モード部(4)から前記第1の符号器モード部(5)への切替えを行った後に、少なくとも前記第1の符号器部(5)により受信されたセクションの数の方が、前記少なくとも1つの選択規則用として採用されている分析ウィンドウが包含しているセクションの数よりも少ない限り、分析ウィンドウ内の信号特性の分析に基づく前記少なくとも1つの別の選択規則が適用される請求項8または9に記載のモジュール。
- 前記少なくとも1つの選択部(13、14および15)が、短い方の分析ウィンドウにおいて決定された信号特性に基づく第1の選択規則を適用するように構成される第1の選択部(14)と、前記第2の符号器モード部(4)から前記第1の符号器モード部(5)への切替えを行った後に、長い方の分析ウィンドウにおいて決定された信号特性に基づく第2の選択規則を適用するように構成される第2の選択部(13)とを含み、前記第1の符号器モデル部(5)が前記短い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第1の選択規則が起動され、前記第2の符号器モード部(4)から前記第1の符号器モード部(5)への切替えを行った後に、前記第1の符号器モデル部(5)が前記長い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第2の選択規則が起動される請求項8から10のいずれか一項に記載のモジュール。
- オーディオ信号の符号化を支援する電子装置であって、前記電子装置は、
第1の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第1の符号器モード部(5)と、
第2の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第2の符号器モード部(4)と、
前記第1の符号器モード部(5)と前記第2の符号器モード部(4)との間で切替えを行う切替え手段(6)とを備え、
前記第1の符号器モード部(5)は、少なくとも2つの異なる符号化モデルに基づいてそれぞれのセクションの前記オーディオ信号を符号化するように構成される符号化部(9)を含み、
前記第1の符号器モード部(5)が、特定の符号化モデルを選択するための、少なくとも1つの選択規則を適用するように構成される選択部(13、14および15)をさらに含み、前記符号化モデルは、特定のセクションの前記オーディオ信号を符号化するための前記符号化部(9)によって使用され、前記少なくとも1つの選択規則は、前記特定のセクションに先行する少なくとも1つのセクションの前記オーディオ信号を包含している分析ウィンドウから、少なくとも部分的に決定された信号特性に基づくものであり、
前記選択部(13、14および15)は、前記第2の符号器モード部(4)から前記第1の符号器モード部(5)への切替えを前記切替え手段(6)によって行った後に、前記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの前記オーディオ信号の受信に応じて、前記少なくとも1つの選択規則を起動するように構成されることを特徴とする電子装置。 - 前記電子装置が、前記オーディオ信号のセクションの数を計数するように構成されるカウンタ(12)をさらに備え、前記セクションは、前記第2の符号器モード部(4)から前記第1の符号器モード部(5)への切替えを行った後に、前記第1の符号器モード部(5)に供給される請求項12に記載の電子装置。
- 前記第1の符号器モード部(5)が、少なくとも1つの別の選択部(16、17および18)をさらに含み、前記選択部は、それぞれの符号化モデルを選択するための、少なくとも1つの別の選択規則を適用するように構成され、前記符号化モデルは、特定のセクションの前記オーディオ信号を符号化するための前記符号化部(9)によって使用され、前記少なくとも1つの別の選択規則は、前記特定のセクションに先行する複数のセクションの前記オーディオ信号に関する情報を利用せず、前記第2の符号器モード部(4)から前記第1の符号器モード部(5)への切替えを行った後に、少なくとも前記第1の符号器部(5)により受信されたセクションの数の方が、前記少なくとも1つの選択規則用として採用されている分析ウィンドウが包含しているセクションの数よりも少ない限り、分析ウィンドウ内の信号特性の分析に基づく前記少なくとも1つの別の選択規則が適用される請求項12または13に記載の電子装置。
- 前記少なくとも1つの選択部(13、14および15)が、短い方の分析ウィンドウにおいて決定された信号特性に基づく第1の選択規則を適用するように構成される第1の選択部(14)と、前記第2の符号器モード部(4)から前記第1の符号器モード部(5)への切替えを行った後に、長い方の分析ウィンドウにおいて決定された信号特性に基づく第2の選択規則を適用するように構成される第2の選択部(13)とを含み、前記第1の符号器モデル部(5)が前記短い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第1の選択規則が起動され、前記第2の符号器モード部(4)から前記第1の符号器モード部(5)への切替えを行った後に、前記第1の符号器モデル部(5)が前記長い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第2の選択規則が起動される請求項12から14のいずれか一項に記載の電子装置。
- それぞれのセクションの前記オーディオ信号が、20msの長さを有するそれぞれのオーディオ信号のフレームに対応し、前記短い方の分析ウィンドウは、選択される符号化モデルの対象オーディオ信号のフレームと、さらに4個の先行するオーディオの信号フレームとを包含し、前記長い方のウィンドウは、選択される符号化モデルの対象オーディオ信号のフレームと、さらに16個の先行するオーディオ信号のフレームとを包含する請求項15に記載の電子装置。
- 前記第1の符号器モード部(5)が信号特性決定部(11)をさらに含み、前記信号特性決定部(11)は、それぞれの分析ウィンドウにおいて前記オーディオ信号の信号特性を決定し、前記信号特性を前記選択部(13、14および15)に供給し、前記信号特性は、それぞれの分析ウィンドウの中にエネルギ関連値の標準偏差を含む請求項12から16のいずれか一項に記載の電子装置。
- 前記第1の符号器モードが、拡張適応マルチレート広帯域コーデックの拡張モードであり、前記第1の符号器モード部(5)の前記符号化部(9)が、代数的符号励起線形予測符号化モデルに基づいて、ならびに、変換符号化モデルに基づいて複数のセクションの前記オーディオ信号を符号化するように構成され、前記第2の符号器モードが、前記拡張適応マルチレート広帯域コーデックの適応マルチレート広帯域モードであり、前記第2の符号器モード部(4)が、代数的符号励起線形予測符号化モデルに基づいて複数のセクションの前記オーディオ信号を符号化するように構成される請求項12から17のいずれか一項に記載の電子装置。
- 請求項8から11のいずれか一項に記載のモジュールと、前記モジュールによって符号化されたオーディオ信号を復号化するデコーダ(20)とを備えることを特徴とするオーディオ符号化システム。
- 第1の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第1の符号器モード部(5)をさらに備える請求項19に記載のオーディオ符号化システム。
- 第2の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第2の符号器モード部(4)をさらに備える請求項19に記載のオーディオ符号化システム。
- 前記第1の符号器モード部(5)と前記第2の符号器モード部(4)との間で切替えを行う切替え手段(6)をさらに備える請求項19から21のいずれか一項に記載のオーディオ符号化システム。
- オーディオ信号の符号化を支援するソフトウェアコードが格納されたソフトウェアプログラム製品であって、
それぞれのセクションの前記オーディオ信号を符号化するために、少なくとも第1の符号器モードと第2の符号器モードとが利用可能であり、少なくとも前記第1の符号器モードによって、少なくとも2つの異なる符号化モデルに基づいて、それぞれのセクションの前記オーディオ信号の符号化が可能になり、前記第1の符号器モードでは、特定のセクションに先行する少なくとも1つのセクションの前記オーディオ信号を包含している分析ウィンドウから決定された信号特性に基づく少なくとも1つの選択規則によって、前記特定のセクションの前記オーディオ信号を符号化するためのそれぞれの符号化モデルの選択が可能になり、エンコーダ(2)の処理用コンポーネント(3)で実行される前記ソフトウェアコードは、下記のステップ、すなわち、
前記第2の符号器モードから前記第1の符号器モードへの切替えを行った後に、前記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの前記オーディオ信号の受信に応じて、前記少なくとも1つの選択規則を起動するステップを実現するソフトウェアプログラム製品。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2004/001579 WO2005112004A1 (en) | 2004-05-17 | 2004-05-17 | Audio encoding with different coding models |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007538281A true JP2007538281A (ja) | 2007-12-27 |
Family
ID=34957454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007517466A Withdrawn JP2007538281A (ja) | 2004-05-17 | 2004-05-17 | 異なる符号化モデルを用いる音声符号化 |
Country Status (13)
Country | Link |
---|---|
US (1) | US8069034B2 (ja) |
EP (1) | EP1747555B1 (ja) |
JP (1) | JP2007538281A (ja) |
CN (1) | CN1954365B (ja) |
AT (1) | ATE371926T1 (ja) |
AU (1) | AU2004319555A1 (ja) |
BR (1) | BRPI0418839A (ja) |
CA (1) | CA2566372A1 (ja) |
DE (1) | DE602004008676T2 (ja) |
ES (1) | ES2291877T3 (ja) |
MX (1) | MXPA06012578A (ja) |
TW (1) | TWI281981B (ja) |
WO (1) | WO2005112004A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010058518A1 (ja) * | 2008-11-21 | 2010-05-27 | パナソニック株式会社 | オーディオ再生装置及びオーディオ再生方法 |
JP2011527446A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法 |
JP2011527444A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム |
JP2011527453A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム |
WO2012066727A1 (ja) * | 2010-11-17 | 2012-05-24 | パナソニック株式会社 | ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1984911A4 (en) * | 2006-01-18 | 2012-03-14 | Lg Electronics Inc | DEVICE AND METHOD FOR SIGNAL CODING AND DECODING |
US9159333B2 (en) | 2006-06-21 | 2015-10-13 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptively encoding and decoding high frequency band |
US7966175B2 (en) | 2006-10-18 | 2011-06-21 | Polycom, Inc. | Fast lattice vector quantization |
US7953595B2 (en) | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
FR2911228A1 (fr) * | 2007-01-05 | 2008-07-11 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard. |
KR100889750B1 (ko) * | 2007-05-17 | 2009-03-24 | 한국전자통신연구원 | 오디오 신호의 무손실 부호화/복호화 장치 및 그 방법 |
RU2454736C2 (ru) * | 2007-10-15 | 2012-06-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство обработки сигнала |
US8504377B2 (en) * | 2007-11-21 | 2013-08-06 | Lg Electronics Inc. | Method and an apparatus for processing a signal using length-adjusted window |
US8306233B2 (en) * | 2008-06-17 | 2012-11-06 | Nokia Corporation | Transmission of audio signals |
EP3246918B1 (en) * | 2008-07-11 | 2023-06-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method for decoding an audio signal and computer program |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
KR20100007738A (ko) * | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
FR2936898A1 (fr) * | 2008-10-08 | 2010-04-09 | France Telecom | Codage a echantillonnage critique avec codeur predictif |
KR101797033B1 (ko) | 2008-12-05 | 2017-11-14 | 삼성전자주식회사 | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 |
JP4977157B2 (ja) * | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
EP2460158A4 (en) * | 2009-07-27 | 2013-09-04 | METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL | |
PL2473995T3 (pl) * | 2009-10-20 | 2015-06-30 | Fraunhofer Ges Forschung | Koder sygnału audio, dekoder sygnału audio, sposób dostarczania zakodowanej reprezentacji treści audio, sposób dostarczania dekodowanej reprezentacji treści audio oraz program komputerowy do wykorzystania w zastosowaniach z małym opóźnieniem |
US8442837B2 (en) * | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
IL295473B2 (en) | 2010-07-02 | 2023-10-01 | Dolby Int Ab | After–selective bass filter |
WO2012048472A1 (en) * | 2010-10-15 | 2012-04-19 | Huawei Technologies Co., Ltd. | Signal analyzer, signal analyzing method, signal synthesizer, signal synthesizing method, windower, transformer and inverse transformer |
CN102208188B (zh) | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
CN103295577B (zh) * | 2013-05-27 | 2015-09-02 | 深圳广晟信源技术有限公司 | 用于音频信号编码的分析窗切换方法和装置 |
EP2881943A1 (en) * | 2013-12-09 | 2015-06-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal with low computational resources |
WO2023110082A1 (en) * | 2021-12-15 | 2023-06-22 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive predictive encoding |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
US5751903A (en) * | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
JPH09185397A (ja) * | 1995-12-28 | 1997-07-15 | Olympus Optical Co Ltd | 音声情報記録装置 |
US6646995B1 (en) * | 1996-10-11 | 2003-11-11 | Alcatel Cit | Method of adapting the air interface and mobile radio system and corresponding base transceiver station, mobile station and transmission mode |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
US6167375A (en) * | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
ATE302991T1 (de) * | 1998-01-22 | 2005-09-15 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen |
US7047185B1 (en) * | 1998-09-15 | 2006-05-16 | Skyworks Solutions, Inc. | Method and apparatus for dynamically switching between speech coders of a mobile unit as a function of received signal quality |
US6640209B1 (en) * | 1999-02-26 | 2003-10-28 | Qualcomm Incorporated | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6477502B1 (en) * | 2000-08-22 | 2002-11-05 | Qualcomm Incorporated | Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system |
FR2825826B1 (fr) * | 2001-06-11 | 2003-09-12 | Cit Alcatel | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
ES2268112T3 (es) | 2001-11-14 | 2007-03-16 | Matsushita Electric Industrial Co., Ltd. | Codificacion y descodificacion de audio. |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US7876966B2 (en) * | 2003-03-11 | 2011-01-25 | Spyder Navigations L.L.C. | Switching between coding schemes |
KR100889750B1 (ko) * | 2007-05-17 | 2009-03-24 | 한국전자통신연구원 | 오디오 신호의 무손실 부호화/복호화 장치 및 그 방법 |
-
2004
- 2004-05-17 ES ES04733391T patent/ES2291877T3/es not_active Expired - Lifetime
- 2004-05-17 JP JP2007517466A patent/JP2007538281A/ja not_active Withdrawn
- 2004-05-17 AU AU2004319555A patent/AU2004319555A1/en not_active Abandoned
- 2004-05-17 DE DE602004008676T patent/DE602004008676T2/de not_active Expired - Lifetime
- 2004-05-17 AT AT04733391T patent/ATE371926T1/de not_active IP Right Cessation
- 2004-05-17 BR BRPI0418839-0A patent/BRPI0418839A/pt not_active IP Right Cessation
- 2004-05-17 CA CA002566372A patent/CA2566372A1/en not_active Abandoned
- 2004-05-17 EP EP04733391A patent/EP1747555B1/en not_active Expired - Lifetime
- 2004-05-17 CN CN2004800430555A patent/CN1954365B/zh not_active Expired - Lifetime
- 2004-05-17 MX MXPA06012578A patent/MXPA06012578A/es not_active Application Discontinuation
- 2004-05-17 WO PCT/IB2004/001579 patent/WO2005112004A1/en active IP Right Grant
-
2005
- 2005-05-06 US US11/126,380 patent/US8069034B2/en active Active
- 2005-05-13 TW TW094115506A patent/TWI281981B/zh active
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011527446A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法 |
JP2011527444A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム |
JP2011527453A (ja) * | 2008-07-11 | 2011-10-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム |
JP2013214089A (ja) * | 2008-07-11 | 2013-10-17 | Fraunhofer Ges Zur Foerderung Der Angewandten Forschung Ev | 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム |
WO2010058518A1 (ja) * | 2008-11-21 | 2010-05-27 | パナソニック株式会社 | オーディオ再生装置及びオーディオ再生方法 |
JP2010122640A (ja) * | 2008-11-21 | 2010-06-03 | Panasonic Corp | オーディオ再生装置及びオーディオ再生方法 |
WO2012066727A1 (ja) * | 2010-11-17 | 2012-05-24 | パナソニック株式会社 | ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法 |
CN103180899A (zh) * | 2010-11-17 | 2013-06-26 | 松下电器产业株式会社 | 立体声信号编码装置、立体声信号解码装置、立体声信号编码方法及立体声信号解码方法 |
JP5753540B2 (ja) * | 2010-11-17 | 2015-07-22 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法 |
US9514757B2 (en) | 2010-11-17 | 2016-12-06 | Panasonic Intellectual Property Corporation Of America | Stereo signal encoding device, stereo signal decoding device, stereo signal encoding method, and stereo signal decoding method |
Also Published As
Publication number | Publication date |
---|---|
CN1954365A (zh) | 2007-04-25 |
TWI281981B (en) | 2007-06-01 |
ATE371926T1 (de) | 2007-09-15 |
MXPA06012578A (es) | 2006-12-15 |
US8069034B2 (en) | 2011-11-29 |
EP1747555A1 (en) | 2007-01-31 |
ES2291877T3 (es) | 2008-03-01 |
CA2566372A1 (en) | 2005-11-24 |
DE602004008676D1 (de) | 2007-10-11 |
CN1954365B (zh) | 2011-04-06 |
TW200604536A (en) | 2006-02-01 |
BRPI0418839A (pt) | 2007-11-13 |
DE602004008676T2 (de) | 2008-06-05 |
AU2004319555A1 (en) | 2005-11-24 |
EP1747555B1 (en) | 2007-08-29 |
US20050261892A1 (en) | 2005-11-24 |
WO2005112004A1 (en) | 2005-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8069034B2 (en) | Method and apparatus for encoding an audio signal using multiple coders with plural selection models | |
EP1747442B1 (en) | Selection of coding models for encoding an audio signal | |
US7860709B2 (en) | Audio encoding with different coding frame lengths | |
KR100711280B1 (ko) | 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치 | |
US7657427B2 (en) | Methods and devices for source controlled variable bit-rate wideband speech coding | |
US20080162121A1 (en) | Method, medium, and apparatus to classify for audio signal, and method, medium and apparatus to encode and/or decode for audio signal using the same | |
CN101622666B (zh) | 非因果后置滤波器 | |
WO2008148321A1 (fr) | Appareil de codage et de décodage et procédé de traitement du bruit de fond et dispositif de communication utilisant cet appareil | |
KR20080091305A (ko) | 서로 다른 코딩 모델들을 통한 오디오 인코딩 | |
KR20070017379A (ko) | 오디오 신호를 부호화하기 위한 부호화 모델들의 선택 | |
KR20070017378A (ko) | 서로 다른 코딩 모델들을 통한 오디오 인코딩 | |
CA3170065A1 (en) | Method and device for speech/music classification and core encoder selection in a sound codec | |
JP2022532094A (ja) | コーディングされる音声信号内のアタックを検出し、検出されたアタックをコーディングするための方法およびデバイス | |
KR20070019739A (ko) | 오디오 코더 모드들 간의 스위칭 지원 | |
ZA200609478B (en) | Audio encoding with different coding frame lengths |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090327 |