JP2007538281A

JP2007538281A - 異なる符号化モデルを用いる音声符号化

Info

Publication number: JP2007538281A
Application number: JP2007517466A
Authority: JP
Inventors: マキネン，ヤリ; ラカニエミ，アリ; オヤラ，パシ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2004-05-17
Filing date: 2004-05-17
Publication date: 2007-12-27
Also published as: CN1954365A; TWI281981B; ATE371926T1; MXPA06012578A; US8069034B2; EP1747555A1; ES2291877T3; CA2566372A1; DE602004008676D1; CN1954365B; TW200604536A; BRPI0418839A; DE602004008676T2; AU2004319555A1; EP1747555B1; US20050261892A1; WO2005112004A1

Abstract

本発明はオーディオ信号の符号化を支援する方法に関し、複数のセクションのオーディオ信号の符号化を行うために、少なくとも第１の符号器モードと第２の符号器モードとが利用可能である。第１の符号器モードによって、２つの異なる符号化モデルに基づく符号化が可能になる。ある一定の分析ウィンドウ用として決定された信号特性に基づく選択規則によって符号化モデルの選択が可能になる。第１の符号器モードへの切替え後のセクションの誤判別を回避するために、上記分析ウィンドウ用の十分なセクションを受信したときにのみ、上記選択規則を起動することが提案されている。本発明は、同様に、上記方法を実現するモジュール２、３、装置１、このようなモジュール２、３を備えるシステム、および、上記方法を実現するソフトウェアコードを備えるソフトウェアプログラム製品にも関する。

Description

本発明は、オーディオ信号の符号化を支援する方法に関し、上記特定のセクションのオーディオ信号の符号化のために、少なくとも第１の符号器モードと第２の符号器モードとが利用可能である。上記少なくとも第１の符号器モードによって、少なくとも２つの異なる符号化モデルに基づく、特定のセクションのオーディオ信号の符号化が可能になる。上記第１の符号器モードでは、特定のセクションに先行する少なくとも１つのセクションのオーディオ信号を包含している分析ウィンドウにおける信号特性の分析に基づく少なくとも１つの選択規則によって、特定のセクションのオーディオ信号を符号化するためのそれぞれの符号化モデルの選択が可能になる。本発明は、上記のようなオーディオ信号の符号化を支援する方法のみでなく、対応するモジュール、対応する電子装置、対応するソフトウェアプログラム製品、および対応するシステムにも関するものである。

オーディオ信号の効率のよい送信および／または格納を可能にするオーディオ信号の符号化が一般に知られている。

オーディオ信号は、音声信号または音楽のような別のタイプのオーディオ信号となることもあれば、様々なタイプのオーディオ信号に対して、異なる符号化モデルが適正となる場合もある。

音声信号の符号化用として広く利用されている手法として代数的符号励起線形予測（ＡＣＥＬＰ：Algebraic Code-Excited Linear Prediction）符号化がある。ＡＣＥＬＰは人間の音声生成システムをモデル化するものであり、音声信号の周期性の符号化を行うのに非常に好適である。この結果、非常に低いビットレートを用いて高い音質を達成することが可能になる。例えば、適応マルチレート広帯域（ＡＭＲ−ＷＢ：Adaptive Multi-Rate Wideband）はＡＣＥＬＰ技術に基づく音声コーデックである。ＡＭＲ−ＷＢについては、例えば、技術仕様３ＧＰＰＴＳ２６.１９０「音声コーデック音声処理機能（Speech Codec Speech Processing Functions）；ＡＭＲ広帯域音声コーデック（AMR Wideband Speech Codec）；トランスコード機能（Transcoding Functions）」（Ｖ５.１.０（２００１−１２））に記載されている。しかしながら、人間の音声生成システムに基づく音声コーデックの性能は、音楽のような別のタイプのオーディオ信号用としては通常かなり劣るものとなる。

音声以外の別のオーディオ信号の符号化用として広く利用されている手法として変換符号化（ＴＣＸ：Transform Coding）がある。オーディオ信号用の変換符号化の優越性は、知覚型マスキングおよび周波数領域符号化に基づいて得られるものである。この結果として生じるオーディオ信号の品質は、変換符号化用の適切な符号化用フレーム長を選択することによりさらに改善が可能になる。しかしながら、変換符号化手法の結果として、音声以外のオーディオ信号用の高い品質が得られるとはいえ、これらの変換符号化手法の性能は周期的音声信号用としては良好なものではない。このため、変換符号化音声の品質は通常かなり低いものとなり、特に、ＴＣＸフレーム長に関しては低品質となる。

拡張ＡＭＲ−ＷＢ（ＡＭＲ−ＷＢ＋）コーデックは、ステレオオーディオ信号を高ビットレート・モノ信号の形で符号化し、ステレオ拡張部用としていくつかのサイド情報を出力するものである。ＡＭＲ−ＷＢ＋コーデックは、ＡＣＥＬＰ符号化とＴＣＸモデルの双方を利用して、０Ｈｚ〜６４００Ｈｚの周波数帯域でコアのモノ信号を符号化するものである。ＴＣＸモデル用としては、２０ｍｓ、４０ｍｓ、または８０ｍｓの符号化用フレーム長が利用される。

ＡＣＥＬＰモデルによってオーディオ品質が劣化し、特に、長い符号化用フレームを用いる場合、通常、変換符号化の音声に関する性能が悪くなる可能性があるため、符号化対象信号の特性に応じて、それぞれ最善の符号化モデルを選択する必要がある。実際に採用する符号化モデルの選択は種々の方法で行うことができる。

移動マルチメディアサービス（ＭＭＳ：Mobile Multimedia Services）のような複雑さの少ない手法を必要とするシステムでは、通常最適の符号化モデルの選択を行うために音楽／音声類別アルゴリズムが利用される。これらのアルゴリズムは、オーディオ信号のエネルギおよび周波数特性の分析に基づいて、音楽としてあるいは音声としてソース信号全体を類別するものである。

オーディオ信号が音声または音楽のみからなる場合、上記のような音楽／音声の類別に基づいて、信号全体用として同じ符号化モデルを利用することで満足のゆく結果が得られることになる。しかしながら、多くの場合、符号化対象のオーディオ信号は混合タイプのオーディオ信号となる。例えば、音声は、音楽と同時におよび／または時間的に交互にオーディオ信号の形で音楽と共に存在する場合もある。

これらの場合、ソース信号全体の音楽カテゴリまたは音声カテゴリへの類別は過度に限定されたアプローチとなる。ついで、オーディオ信号を符号化するとき、符号化モデル間で一時的に切替えを行うことによって音声品質全体を最大化することが可能になる。すなわち、音声以外のオーディオ信号として類別されたソース信号の符号化のためにも、部分的にＡＣＥＬＰモデルを同様に利用している一方で、音声信号として類別されたソース信号用としても同様に部分的にＴＣＸモデルを利用する。

フレーム毎のベースで、混合符号化モデルを用いて上記のような混合タイプのオーディオ信号を符号化するためにも、拡張ＡＭＲ−ＷＢ（ＡＭＲ−ＷＢ＋）コーデックが同様に設計されている。

いくつかの方法でＡＭＲ−ＷＢ＋内の選択符号化モデルが実行可能である。

最も複雑なアプローチでは、ＡＣＥＬＰモデルとＴＣＸモデルとを用いてまず信号の符号化が行われる。次に、個々の組み合わせについて信号は再び合成される。ついで、上記合成済みの音声信号の品質に基づいて最適の励起が選択される。ある特定の組み合わせと共に結果として得られる上記合成音声の品質は、例えば、当該合成音声の信号対雑音比（ＳＮＲ）の計算により測定可能になる。このような分析／合成タイプのアプローチによって良好な結果が得られることになる。しかしながら、アプリケーションによっては、当該アプローチの非常に高度の複雑さに起因してこの分析／合成タイプのアプローチが実行不能となるものもなかにはある。このようなアプリケーションには例えば移動用アプリケーションが含まれる。上記の複雑さは、主としてエンコーダの最も複雑な部分であるＡＣＥＬＰ符号化の結果として生じるものである。

例えば、ＭＭＳのようなシステムでは、完全な閉ループ分析／合成アプローチはあまりに複雑なため実行不能となる。したがって、ＭＭＳエンコーダでは、特別のフレームを符号化するのにＡＣＥＬＰ符号化モデルが選択されているか、ＴＣＸモデルが選択されているかを決定する複雑さの少ない開ループ方法が採用されている。

ＡＭＲ−ＷＢ＋は、個々のフレームについてそれぞれの符号化モデルを選択するための、複雑さの少ない２つの異なる開ループアプローチを提供するものである。双方の開ループアプローチでは、ソース信号特性と、それぞれの符号化モデルを選択するための符号化用パラメータとが評価される。

第１の開ループアプローチでは、オーディオ信号は個々のフレーム内でまず分割されて、いくつかの周波数帯域に変えられ、ついで、より低い周波数帯域におけるエネルギと、より高い周波数帯域におけるエネルギとの間の関係、ならびに、上記周波数帯域内でのエネルギレベルの変動が分析される。ついで、異なる分析ウィンドウと、決定用しきい値とを用いて測定された測定値またはこれらの測定値の異なる組み合わせの双方に基づいて、音楽様のコンテンツまたは音声様のコンテンツとして、オーディオ信号の個々のフレーム内のオーディオコンテンツの類別が行われる。

モデル類別の微調整とも呼ばれる第２の開ループアプローチでは、オーディオ信号のそれぞれのフレーム内のオーディオコンテンツの周期性および定常的特性の評価に基づいて符号化モデルの選択が行われる。上記の周期性および定常的特性は、特に、相関と、長期予測（ＬＴＰ：Long Term Prediction）パラメータと、スペクトル距離測定値との計算によって評価される。

サンプリング周波数が変らなければ、ＡＭＲ−ＷＢ＋コーデックにより、ＡＣＥＬＰ符号化モデルを排他的に採用しているＡＭＲ−ＷＢモードと、ＡＣＥＬＰ符号化モデルまたはＴＣＸモデルのいずれかを採用している拡張モードとの間で、オーディオストリームの符号化中の切替えが可能になる。サンプリング周波数は例えば１６ｋＨｚであってもよい。

拡張モードはＡＭＲ−ＷＢモードよりも高いビットレートを出力する。したがって、ネットワークでの混雑状態を軽減させるために、符号化終端部と復号化終端部とを接続するネットワークにおける送信条件が、より高いビットレートモードからより低いビットレートモードへの変更を必要とするときに、拡張モードからＡＭＲ−モードへの切替えによって利点が得られる場合がある。移動放送／マルチキャストサービス（ＭＢＭＳ：Mobile Broadcast/Multicast Service）時に新たな低い終端部受信装置を組み入れるために、より高いビットレートモードからより低いビットレートモードへの変更を必要とする場合も考えられる。

また一方で、ネットワークの送信条件の変更によって、より低いビットレートモードからより高いビットレートモードへの変更が可能になるときに、ＡＭＲ−ＷＢモードから拡張モードへの切替えによって利点を得ることができる。より高いビットレートモードの利用によってより良好な音声品質が可能になる。

ＡＭＲ−ＷＢモードとＡＭＲ−ＷＢ＋拡張モード用としてコアコーデックが６.４ｋＨｚの同じサンプリングレートを使用し、かつ、少なくとも部分的に類似している符号化手法を採用しているため、この周波数帯域での拡張モードからＡＭＲ−ＷＢモードへの変更のスムーズな処理が可能になる（あるいは、上記変更の逆の変更もまた同様である）。しかしながら、ＡＭＲ−ＷＢモードと拡張モードとに対するコア符号化処理がわずかに異なっているため、モード間での切替えを行う際、一方のアルゴリズムから他方のアルゴリズムへのすべての必要な状態変数およびバッファの格納とコピーとが行われることに留意する必要がある。

さらに、拡張モードでは符号化モデルの選択のみが必要となることを考慮する必要がある。動作可能にされた開ループ類別アプローチでは、相対的に長い分析ウィンドウとデータバッファとが利用される。符号化モデルの選択は分析ウィンドウを用いる統計解析を利用し、当該分析ウィンドウは、２０ｍｓの１６個のオーディオ信号のフレームに対応する３２０ｍｓまでの長さを有している。ＡＭＲ−ＷＢモードでは対応する情報のバッファリングを行う必要がないため、拡張モードアルゴリズムに従って上記情報を単純にコピーすることはできない。したがって、ＡＭＲ−ＷＢからＡＭＲ−ＷＢ＋への切替えを行った後に、例えば統計解析に利用されるアルゴリズム等の類別アルゴリズムのデータバッファには有効な情報が含まれなくなったり、このようなデータバッファがリセットされたりすることになる。この結果、切替え後の第１の３２０ｍｓ中に、符号化モデル選択アルゴリズムが、現在のオーディオ信号に対して完全には適合しなくなったり、更新されたりする場合がある。非有効バッファデータに基づく選択の結果として、符号化モデルの歪められた決定が生じることになる。例えば、オーディオ信号が、オーディオ品質の維持のためにＴＣＸモデルに基づく符号化を必要とする場合であっても、選択時に、ＡＣＥＬＰ符号化モデルに大きな重み付けを行うことも可能である。

この結果、符号化モデルの選択は最適なものにはならなくなる。というのは、ＡＭＲ−ＷＢモードから拡張モードへの切替え後、複雑さの少ない符号化モデルの選択の性能が悪くなるからである。

上記の観点より、本発明の目的は、第１の符号化モードから第２の符号化モードへの切替え後の符号化モデルの選択を改善することにある。

本発明においては、オーディオ信号の符号化を支援する方法が提案されている。この方法では、特定のセクションのオーディオ信号の符号化を行うために、少なくとも第１の符号器モードと第２の符号器モードとが利用可能である。さらに、少なくとも第１の符号器モードによって、少なくとも２つの異なる符号化モデルに基づいて特定のセクションの上記オーディオ信号の符号化が可能になる。上記第１の符号器モードでは、特定のセクションに先行する少なくとも１つのセクションの上記オーディオ信号を包含している分析ウィンドウから、少なくとも部分的に決定された信号特性に基づく少なくとも１つの選択規則によって、特定のセクションの上記オーディオ信号を符号化するためにそれぞれの符号化モデルを選択することが可能になる。ここでは、上記第２の符号器モードから上記第１の符号器モードへの切替えを行った後に、上記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの上記オーディオ信号の受信に応じて、上記少なくとも１つの選択規則を起動するステップを有する方法が提案されている。

第１の符号器モードと第２の符号器モードとは、排他的にというわけではないが、それぞれ、例えばＡＭＲ−ＷＢ＋コーデックの拡張モードと上記ＡＭＲ−ＷＢ＋コーデックのＡＭＲ−ＷＢモードとにすることが可能である。この場合、第１の符号器モード用として利用可能な符号化モデルは、例えばＡＣＥＬＰ符号化モデルとＴＣＸモデルとにすることが可能である。

さらに、オーディオ信号の符号化を支援するモジュールが提案されている。このモジュールは、第１の符号器モードで特定のセクションのオーディオ信号を符号化するように構成される第１の符号器モード部と、第２の符号器モードでそれぞれのセクションの上記オーディオ信号を符号化するように構成される第２の符号器モード部とを備えている。上記モジュールは、第１の符号器モード部と第２の符号器モード部との間で切替えを行う切替え手段をさらに備えている。符号器モード部は、少なくとも２つの異なる符号化モデルに基づいてそれぞれのセクションの上記オーディオ信号を符号化するように構成される符号化部を含む。第１の符号器モード部は、それぞれの符号化モデルを選択するための、少なくとも１つの選択規則を適用するように構成される選択部をさらに含み、当該符号化モデルは、特定のセクションの上記オーディオ信号を符号化するための上記符号化部によって使用される。上記少なくとも１つの選択規則は、特定のセクションに先行する少なくとも１つのセクションの上記オーディオ信号を包含している分析ウィンドウから、少なくとも部分的に決定された信号特性に基づくものである。上記選択部は、第２の符号器モード部から第１の符号器モード部への切替えを上記切替え手段によって行った後に、上記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの上記オーディオ信号の受信に応じて、少なくとも１つの選択規則を起動するように構成される。

上記モジュールは、例えばエンコーダまたはエンコーダの一部であってもよい。

さらに、上記のようなモジュールを備えた電子装置が提案されている。

さらに、上記のようなモジュールを備えたオーディオ符号化システムと、さらに、このようなモジュールによって符号化されたオーディオ信号を復号化するデコーダとが提案されている。

最後に、オーディオ信号の符号化を支援するソフトウェアコードが格納されたソフトウェアプログラム製品が提案されている。それぞれのセクションの上記オーディオ信号を符号化するために、少なくとも第１の符号器モードと第２の符号器モードとが利用可能である。少なくとも上記第１の符号器モードによって、少なくとも２つの異なる符号化モデルに基づいて、それぞれのセクションの上記オーディオ信号の符号化が可能になる。上記第１の符号器モードでは、特定のセクションに先行する少なくとも１つのセクションの上記オーディオ信号を包含している分析ウィンドウから決定された信号特性に基づく少なくとも１つの選択規則によって、特定のセクションの上記オーディオ信号を符号化するためのそれぞれの符号化モデルの選択が可能になる。上記ソフトウェアコードが符号器の処理コンポーネントで実行されるときに、上記ソフトウェアコードは、上記第２の符号器モードから上記第１の符号器モードへの切替えを行った後に、上記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの上記オーディオ信号の受信に応じて、上記少なくとも１つの選択規則を起動する。

本発明は、少なくともそれぞれのタイプの選択が必要とする程度に合わせてバッファ内容を更新した後に、符号化モデルの選択を行うための基礎として用いられる無効なバッファ内容に関する問題が、上記のような選択を起動することによって回避可能であるという考察から生じたものである。したがって、選択規則が、複数のセクションのオーディオ信号を介して分析ウィンドウを利用して決定された信号特性を利用する場合、分析ウィンドウが必要とするすべてのセクションが受信されたときにのみ、上記選択規則を適用することが提案されている。上記の起動自体を選択規則の一部としてもよいことを理解されたい。

符号器モードの切替え後に、符号化モデルの改善された選択を可能にすることが本発明の利点である。さらに詳細には、本発明によりオーディオ信号のセクションの誤判別を防止し、これによって、不適切な符号化モデルの選択を防止することが可能になる。

いくつかの選択規則が起動されていない切替え後の時間の間、好適には、現在のセクションに先行するオーディオ信号に関する情報を利用しないような付加的な選択規則を提供することが望ましい。切替えの直後で、かつ、少なくとも別の選択規則が起動されるまでの間、上記のような付加的な選択規則の適用が可能になる。

分析ウィンドウにおいて決定された信号特性に基づく少なくとも１つの選択規則は、単一の選択規則または複数の選択規則を備えるものであってもよい。後者の場合、対応する分析ウィンドウは異なる長さを有するものであってもよい。この結果、複数の選択規則を次々に起動することが可能になる。

オーディオ信号のセクションは、特に、例えば２０ｍｓのオーディオ信号のフレームのようなオーディオ信号のフレームにすることが可能である。

少なくとも１つの選択規則によって評価された信号特性は、全体的にあるいは部分的に分析ウィンドウに基づくものであってもよい。単一の選択規則によって用いられる信号特性もまた、異なる分析ウィンドウに基づくものであってもよいことを理解されたい。

本発明の他の目的および特徴は、添付図面に関連して考察される以下の詳細な説明から明らかになるであろう。

図１は本発明の一実施形態に基づくオーディオ符号化システムを示すブロック図であり、当該システムによって、最適符号化モデルの選択に使用される選択アルゴリズムのソフトウェアによる起動が可能になる。

上記システムは、ＡＭＲ−ＷＢ＋エンコーダ（モジュール）２を有する第１の装置１と、ＡＭＲ−ＷＢ＋デコーダ２２を有する第２の装置２１とを備える。第１の装置１は、例えばＭＭＳ（Multimedia Messaging Service）サーバとすることができ、また一方で、第２の装置２１は、例えば移動電話や別のある移動通信装置とすることができる。

ＡＭＲ−ＷＢ＋エンコーダ２は、純然たるＡＣＥＬＰ符号化を実行するように構成されるＡＭＲ−ＷＢ符号化部４と、ＡＣＥＬＰ符号化モデルまたはＴＣＸモデルのいずれかに基づいて符号化を実行するように構成される拡張符号化部５とを備えたものである。このようにして、拡張符号化部５は第１の符号器モード部を構成し、ＡＭＲ−ＷＢ符号化部４は第２の符号器モード部をさらに構成する。

ＡＭＲ−ＷＢ＋エンコーダ２は、ＡＭＲ−ＷＢ符号化部４または拡張符号化部５のいずれか一方へオーディオ信号のフレームを転送する切替え手段６をさらに備える。

拡張符号化部５は、信号特性決定部１１とカウンタ１２とを備える。拡張符号化部５と関連づけられた切替え手段６の端子は、信号特性決定部１１およびカウンタ１２の両方の部分の入力部側に接続される。信号特性決定部１１の出力部とカウンタ１２の出力部は、第１の選択部１３、第２の選択部１４、第３の選択部１５、検証部１６、微調整部１７、および最終選択部１８を介して、拡張符号化部５内でＡＣＥＬＰ／ＴＣＸ符号化部１９に接続される。

図１に提示されている部分１１〜１９は、ステレオオーディオ信号から生成されたものであるかもしれないモノオーディオ信号を符号化するために設計されたものであることを理解されたい。付加的なステレオ情報を追加のステレオ拡張部に生成するようにしてもよい（図示せず）。エンコーダ２が別の部分（図示せず）を備えることもさらに理解されたい。提示されている部分１２〜１９を別々の部分とする必要はなく、お互いの間でまたは別の部分と均等に組み合わせることが同程度に可能であることも理解されたい。

ＡＭＲ−ＷＢ符号化部４と、拡張符号化部５と、切替え手段６とは、特に、破線によって示されているエンコーダ２の処理用コンポーネント（モジュール）３で実行されるソフトウェアＳＷによって実現可能である。

次に図２のフローチャートを参照しながら、拡張符号化部５での処理についてさらに詳細に説明する。

エンコーダ２は、第１の装置１に供給されたオーディオ信号を受信する。最初は、切替え手段６は、例えば、第１の装置１と第２の装置２１とを接続するネットワークの中に十分な容量が存在しない等の理由のために、ＡＭＲ−ＷＢ符号化部４にオーディオ信号を出力して低出力ビットレートの達成を図る。しかしながら、その後、ネットワーク内の条件が変化してより高いビットレートが可能になる。したがって、今度は、切替え手段６によってオーディオ信号は拡張符号化部５に転送される。

このような切替え手段の場合、第１のオーディオ信号のフレームを受信すると、カウンタ１２のカウンタ値ＳｔａｔＣｌａｓｓＣｏｕｎｔは１５にリセットされる。次に、カウンタ１２はそのカウンタ値ＳｔａｔＣｌａｓｓＣｏｕｎｔを１ずつ減分し、別のオーディオ信号のフレームが拡張符号化部５に入力される。

さらに、信号特性決定部１１は、ＡＭＲ−ＷＢ有音部検出器（ＶＡＤ：Voice Activity Detector）フィルタバンクによって、個々の入力オーディオ信号のフレームに対して種々のエネルギ関連信号特性を計算する。

個々の入力オーディオ信号２０ｍｓのフレームに対して、フィルタバンクは、０Ｈｚ〜６４００Ｈｚの周波数帯域を包含している１２の非均一な周波数帯域の各帯域内で信号エネルギＥ（ｎ）を生成する。ついで、個々の周波数帯域に対して正規化済みのエネルギレベルＥ_N（ｎ）を生成するために、個々の周波数帯域ｎのエネルギレベルＥ（ｎ）は、Ｈｚで表される上記の周波数帯域の幅で分割される。

次に、上記正規化済みのエネルギレベルＥ_N（ｎ）のそれぞれの標準偏差は、一方で短いウィンドウｓｔｄ_short（ｎ）と、他方で長いウィンドウｓｔｄ_long（ｎ）とを用いて上記１２の周波数帯域の各帯域に対して計算される。短いウィンドウは４個のオーディオ信号のフレーム長を有し、長いウィンドウは１６個のオーディオ信号のフレーム長を有する。すなわち、個々の周波数帯域に対して現フレームから得られるエネルギレベルと、先行する４個と１６個のフレームから得られるエネルギレベルとをそれぞれ使用して２つの標準偏差値が導き出される。別の使用のために、現在のオーディオ信号のフレームの同様に正規化済みのエネルギレベルが格納されているバッファから、先行するフレームの正規化済みのエネルギレベルが検索される。

しかしながら、有音部インジケータ（すなわち、有音部検出器ＶＡＤ）が現フレーム用の活性化された音声を示す場合、上記標準偏差は単純に決定される。このような標準偏差の決定によって、アルゴリズムは、特に長い音声中断後に、より高速に反応するようになるであろう。

次に、長短のウィンドウの双方のウィンドウに対して１２の周波数帯域にわたって、上記計算済みの標準偏差の平均値を計算し、現在のオーディオ信号のフレームに固有の第１信号および第２の信号として、２つの平均標準偏差値ｓｔｄａ_shortとｓｔｄａ_longとをそれぞれ作成する。

さらに、現在のオーディオ信号のフレームに対して、より低い周波数帯域内のエネルギと、より高い周波数帯域内のエネルギとの間の関係が計算される。この目的のために、信号特性決定部１１は、より低い周波数帯域ｎ＝１〜７のエネルギＥ（ｎ）を合計して、エネルギレベルｌｅｖＬを取得する。Ｈｚで表される上記のより低い周波数帯域の全幅でエネルギレベルｌｅｖＬを分割することによって、当該エネルギレベルｌｅｖＬは正規化される。さらに、信号特性決定部１１は、より高い周波数帯域ｎ＝８〜１１のエネルギＥ（ｎ）を合計して、エネルギレベルｌｅｖＨを取得する。Ｈｚで表される上記のより高い周波数帯域の全幅でエネルギレベルｌｅｖＨを分割することによって、当該エネルギレベルｌｅｖＨは同様に正規化される。周波数帯域０はこれらの計算では使用されない。なぜならば、周波数帯域０には、通常、非常に多くのエネルギが含まれ、それゆえに、このエネルギによって計算が歪められ、別の周波数帯域からの寄与を過度に小さくすることになるからである。次に、信号特性決定部１１は、関係式ＬＰＨ＝ｌｅｖＬ／ｌｅｖＨを定義する。さらに、現在のオーディオ信号のフレーム用として、ならびに、前回の３個のオーディオ信号のフレーム用として計算されたＬＰＨの値を用いて移動平均値ＬＰＨａが計算される。

今度は、現在のＬＰ値と前回の７個のＬＰ値とを合計することによって、エネルギ関係式の最終値ＬＰＨａＦが現フレームに対して計算される。さらに、この合計時に、上記ＬＰＨａの最新値には、より古いＬＰＨａの値よりもわずかに高い重み付けが付与される。別の使用のために、同様に現フレーム用のＬＰＨａの値が格納されているバッファから、ＬＰＨａの前回の７個の値が均等に検索される。この値ＬＰＨａＦによって第３の信号特性が構成される。

信号特性決定部１１は、現在のオーディオ信号のフレーム用としてエネルギ平均レベルフィルタバンクＡＶＬの値をさらに計算する。この値ＡＶＬを計算するために、１２の周波数帯域の各帯域内のエネルギＥ（ｎ）から推定レベルの暗騒音（background noise）を減算する。ついで、対応する周波数帯域のＨｚでの最高周波数をこれらの結果に乗算する。上記の乗算により、より低い周波数帯域よりも相対的に少ないエネルギを含む高周波数帯域の影響のバランスをとることが可能になる。この値ＡＶＬによって４番目の第３の信号特性が構成される。

最後に、信号特性決定部１１は、個々のフィルタバンクに対する暗騒音の推定値によって低減されたすべてのフィルタバンクから得られる全エネルギＴｏｔＥ₀を現フレームについて計算する。全エネルギＴｏｔＥ₀はバッファにも格納される。この値ＴｏｔＥ₀によって第５の信号特性が構成される。

決定された信号特性ならびにカウンタ値ＳｔａｔＣｌａｓｓＣｏｕｎｔは、現フレーム用の最善の符号化モデルを選択するために、以下の〔数１〕に示す擬似コードに従ってアルゴリズムを適用する第１の選択部１３に出力される。

このアルゴリズムは、先行する１６個のオーディオ信号のフレームに関する情報に基づいて信号特性ｓｔｄａ_longを利用するものであることがわかる。したがって、ＡＭＲ−ＷＢからの切替え後、少なくとも１７個のフレームが既に受信されているか否かがまずチェックされる。このケースは、カウンタ１２がカウンタ値ＳｔａｔＣｌａｓｓＣｏｕｎｔ‘０’を有している場合に直ちに行われるケースである。カウンタ１２がカウンタ値ＳｔａｔＣｌａｓｓＣｏｕｎｔ‘０’を有していない場合には、不確定モードが現フレームと直接関連づけられる。これによって、結果として信号特性ｓｔｄａ_longおよびＬＰＨａＦの不正確な値の形で生じるような無効なバッファ内容によって結果が偽造されないことが保証されることになる。

ついで、信号特性と、これまで行われた符号化モデル選択とに関する情報は、今度は、第１の選択部１３によって第２の選択部１４に転送され、当該第２の選択部１４は、現フレーム用の最善の符号化モデルを選択するために、以下の〔数２〕に示す擬似コードに従ってアルゴリズムを適用する。

このアルゴリズムの第２部は、先行する４個のオーディオ信号のフレームに関する情報に基づいて、信号特性ｓｔｄａ_shortを利用し、さらに、先行する１０個のオーディオ信号のフレームに関する情報に基づいて信号特性ＬＰＨａＦを利用するものであることがわかる。したがって、上記アルゴリズムのこの部分に対して、ＡＭＲ−ＷＢからの切替え後、少なくとも１１個のフレームが既に受信されているか否かがまずチェックされる。このケースは、カウンタがカウンタ値ＳｔａｔＣｌａｓｓＣｏｕｎｔ‘４’を有している場合に直ちに行われるケースである。これによって、結果として信号特性ＬＰＨａＦおよびｓｔｄａ_shortの不正確な値の形で生じるような無効なバッファ内容によって結果が偽造されないことが保証されることになる。全体として、上記アルゴリズムは、既に存在する第１１番目から１６番目のフレームに対する符号化モデルの選択を可能にするものであり、さらに、平均エネルギレベルが所定値を上回る場合、最初の１０個のフレームに対する符号化モデルの選択さえも可能にするものである。アルゴリズムのこの部分は図２には示されていない。上記アルゴリズムは、１６番目のフレームに後続するフレームに対して均等に適用され、第１の選択部１３により第１の選択の微調整が行われる。

ついで、信号特性と、これまで行われた符号化モデル選択とに関する情報は、第２の選択部１４によって第３の選択部１５に転送され、当該第３の選択部１５は、現フレーム用のモードがそれでもまだ不確定な場合、現フレーム用の最善の符号化モデルを選択するために、以下の〔数３〕に示す擬似コードに従ってアルゴリズムを適用する。

上記擬似コードは、現在のオーディオ信号のフレーム内の全エネルギＴｏｔＥ₀と、先行するオーディオ信号のフレーム内の全エネルギＴｏｔＥ_-1との間の関係を利用するものであることがわかる。したがって、ＡＭＲ−ＷＢからの切替え後、少なくとも２個のフレームが既に受信されているか否かがまずチェックされる。このケースは、カウンタ１２がカウンタ値ＳｔａｔＣｌａｓｓＣｏｕｎｔ‘１４’を有している場合に直ちに行われるケースである。

採用されたカウンタしきい値が単に例示であり、多くの異なる方法で選択を行う可能性があることに留意する必要がある。例えば、第２の選択部１４にて実現されるアルゴリズムで、信号特性ＬＰＨａＦではなく信号特性ＬＰＨを評価することも可能である。この場合、カウンタ値ＳｔａｔＣｌａｓｓＣｏｕｎｔ＜１２に対応して、少なくとも５つのフレームが既に受信されているか否かのチェックを行えば十分である。

ついで、信号特性と、これまで行われた符号化モデル選択とに関する情報は、第３の選択部１５によって検証部１６に転送され、当該検証部１６は、以下の〔数４〕に示す擬似コードに従ってアルゴリズムを適用する。

現フレーム用のモードがそれでもまだ不確定な場合、上記アルゴリズムによっておそらく現フレーム用の最善の符号化モデルを選択し、予め選択されたＴＣＸモードが適切なものであるか否かの検証を行うことが可能になる。

また、検証部１６での処理後、現在のオーディオ信号のフレームと関連づけられたモードがまだ不確定である場合がある。

高速のアプローチでは、今度は、ＡＣＥＬＰ符号化モデルまたはＴＣＸ符号化モデルのいずれかのモデルとなる所定の符号化モデルが、残りの不確定モードフレーム用として単純に選択されることになる。

図２にも例示されているさらに複雑なアプローチでは、いくつかの別の分析がまず行われる。

上記目的のために、これまで行われた符号化モデル選択に関する情報は、今度は、検証部１６によって微調整部１７に転送される。この微調整部１７は、モデル類別の微調整を適用する。前述のように、このような処理は、オーディオ信号の周期性および定常的特性に基づく符号化モデルの選択である。上記周期性は、ＬＴＰパラメータによって遵守される。上記定常的特性は、正規化済みの相関関係とスペクトル距離測定値とを使用することによって分析される。

部分１３、１４、１５、１６および１７による分析によって、それぞれのフレームの内容が、音声コンテンツであるかまたは音楽のような別のオーディオコンテンツであると仮定することが可能になり、このような類別が可能になった場合、対応する符号化モデルの選択が可能であるか否かが、オーディオ信号特性に基づいて決定される。部分１３、１４、１５および１６は、エネルギ関連特性を評価する第１の開ループアプローチを実現し、また一方で、部分１７は、オーディオ信号の周期性および定常的特性を評価する第２の開ループアプローチを実現することになる。

２つの異なる開ループアプローチが適用されて、ＴＣＸモデルかまたはＡＣＥＬＰ符号化モデルかの選択が無駄になった場合、別の既存の開ループアルゴリズムによって最適符号化モデルの選択を行うことが、場合によっては困難になることもある。したがって、本実施形態では、残りの不明瞭なモード選択に対して単純なカウント方式による類別が採用される。

最終選択部１８は、有音部インジケータのＶＡＤｆｌａｇがそれぞれの不確定モードフレーム用としてセットされている場合、それぞれの隣接フレームと関連づけられた符号化モデルの統計的評価に基づいて、残りの不確定モードフレームに対して特定の符号化モデルを選択する。

統計的評価の場合、不確定モードフレームが属している現在のスーパーフレームと、この現在のスーパーフレームに先行する前回のスーパーフレームとが考慮される。スーパーフレームは８０ｍｓの長さを有し、個々に２０ｍｓの４個の連続するオーディオフレームを含むものとなる。最終選択部１８は、現在のスーパーフレーム内のフレーム数、ならびに、先行する選択部１２〜１７のうちの１つの選択部によってＡＣＥＬＰ符号化モデルが選択された前回のスーパーフレーム内のフレーム数をカウンタによって計数する。さらに、最終選択部１８は、先行する選択部１２〜１７のうちの１つの選択部によって、４０ｍｓまたは８０ｍｓの符号化用フレーム長を有するＴＣＸモデルが選択され、さらに有音部インジケータがセットされ、さらに全エネルギが所定のしきい値を上回るような前回のスーパーフレーム内のフレーム数を計数する。すべての周波数帯域用の信号レベルを個別に決定することにより、かつ、オーディオ信号を異なる周波数帯域に分割することにより、ならびに、この結果として生じるレベルを合計することにより上記全エネルギを計算することができる。フレーム内の全エネルギ用の所定のしきい値は、例えば６０にセットすることも可能である。

現在のスーパーフレームｎの符号化が可能になる前に、現在のスーパーフレーム全体に対して符号化モデルの割当てを完了する必要がある。したがって、ＡＣＥＬＰ符号化モデルが割り当てられたフレームのカウントが、不確定モードのフレームに先行するフレームに限定されることはなくなる。不確定モードフレームが現在のスーパーフレーム内の最後のフレームでなければ、次回のフレームの選択済み符号化モデルも考慮される。

以下の〔数５〕に示す擬似コードによってフレームのカウントを要約することが可能である。

この擬似コードでは、ｉは、それぞれのスーパーフレーム内のフレーム番号を示し、値１、２、３および４を有する。これに対して、ｊは、現在のスーパーフレーム内の現フレームの番号を示す。ｐｒｅｖＭｏｄｅ（ｉ）は、前回のスーパーフレーム内の２０ｍｓのｉ番目のフレームのモードであり、モード（ｉ）は、現在のスーパーフレーム内の２０ｍｓのｉ番目のフレームである。ＴＣＸ８０は、８０ｍｓの符号化用フレームを用いて、選択済みのＴＣＸモデルを表し、ＴＣＸ４０は、４０ｍｓの符号化用フレームを用いて、選択済みのＴＣＸモデルを表す。ｖａｄＦｌａｇｏｌｄ（ｉ）は、前回のスーパーフレーム内のｉ番目のフレーム用の有音部インジケータを表す。ＴｏｔＥ_iは、ｉ番目のフレーム内の全エネルギである。カウンタ値ＴＣＸＣｏｕｎｔは、前回のスーパーフレーム内の選択済みの長いＴＣＸフレームの数を表し、カウンタ値ＡＣＥＬＰｃｏｕｎｔは、前回および現在のスーパーフレーム内のＡＣＥＬＰフレームの数を表す。

この場合、統計的評価は以下のように行われる。
前回のスーパーフレーム内の、４０ｍｓまたは８０ｍｓの符号化用フレーム長を有する長いＴＣＸモードフレームのカウント数が３よりも大きければ、ＴＣＸモデルは不確定モードフレームに対して均等に選択される。

上記カウント数が３よりも大きくない場合、現在ならびに前回のスーパーフレーム内のＡＣＥＬＰモードフレームのカウント数が１よりも大きければ、ＡＣＥＬＰモデルが不確定モードフレーム用として選択される。

他のすべてのケースでは、ＴＣＸモデルは不確定モードフレーム用として選択される。

以下の〔数６〕に示す擬似コードによってｊ番目のフレームに対する符号化モデルのモード（ｊ）の選択を要約することができる。

カウント方式によるアプローチは、カウンタ値ＳｔａｔＣｌａｓｓＣｏｕｎｔが１２よりも小さい場合に専ら行われる。このことは、ＡＭＲ−ＷＢから拡張モードへの切替えを行った後に、カウント方式によるアプローチが、第１の４＊２０ｍｓに対応する第１の４個のフレーム内では行われなくなることを意味する。

カウンタ値ＳｔａｔＣｌａｓｓＣｏｕｎｔが１２以上で、かつ、符号化モデルが不確定モードとしてまだ類別されていれば、ＴＣＸモデルが選択される。

有音部インジケータのＶＡＤｆｌａｇがセットされていなければ、フラグは、それによって無音時間を示し、選択されたモードはデフォルトによってＴＣＸとなり、モード選択アルゴリズムのいずれも実行する必要がなくなる。

したがって、部分１３、１４および１５は、本発明の少なくとも１つの選択部を構成することになり、また一方で、部分１６、１７および１８と部分１４の一部とは、本発明の少なくとも１つの別の選択部を構成することになる。

次に、ＡＣＥＬＰ／ＴＣＸ符号化部１９は、それぞれ選択された符号化モデルに基づいて、オーディオ信号のすべてのフレームを符号化する。ＴＣＸモデルは、例示として、選択された符号化用フレーム長を使用する高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）に基づくモデルであり、ＡＣＥＬＰ符号化モデルでは、例示として、線形予測係数（ＬＰＣ：Linear Prediction Coefficient）励起用の固定コードブックパラメータが用いられる。

ついで、符号化部１９は、送信用符号化済みフレームを第２の装置２１に供給する。第２の装置２１で、デコーダ２２は、ＡＣＥＬＰ符号化モデルを用いて、あるいは、必要に応じてＡＭＲ−ＷＢモードまたは拡張モードを使用するＴＣＸ符号化モデルを用いて、すべての受信フレームを復号化する。これらの復号化済みフレームは、例えば第２の装置２１のユーザへのプレゼンテーション用として提供される。

要約すれば、本明細書で提示された実施形態は、選択アルゴリズムのソフトウェアによる起動を可能にするものであり、当該実施形態では、選択規則に関連する分析バッファが完全に更新される順序で提供されるような選択アルゴリズムが起動される。１つ以上の選択アルゴリズムが動作不能になっている間、上記バッファ内容に依拠しない別の選択アルゴリズムに基づいて選択が行われる。

ここで記載されている実施形態は、本発明の種々の可能な実施形態の１つのみを構成するものにすぎないことに留意されたい。

本発明の一実施形態に基づくオーディオ符号化システムを示すブロック図である。図１のシステムで実現される本発明に係る方法の一実施形態を例示するフローチャートである。

Claims

オーディオ信号の符号化を支援する方法であって、
特定のセクションの前記オーディオ信号の符号化を行うために、少なくとも第１の符号器モードと第２の符号器モードとが利用可能であり、少なくとも前記第１の符号器モードによって、少なくとも２つの異なる符号化モデルに基づいて前記特定のセクションの前記オーディオ信号の符号化が可能になり、前記第１の符号器モードでは、前記特定のセクションに先行する少なくとも１つのセクションの前記オーディオ信号を包含している分析ウィンドウから、少なくとも部分的に決定された信号特性に基づく少なくとも１つの選択規則によって、前記特定のセクションの前記オーディオ信号を符号化するためのそれぞれの符号化モデルの選択が可能になり、
前記方法は、前記第２の符号器モードから上記第１の符号器モードへの切替えを行った後に、前記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの前記オーディオ信号の受信に応じて、前記少なくとも１つの選択規則を起動するステップを有することを特徴とする、オーディオ信号の符号化を支援する方法。
前記第１の符号器モードでは、前記特定のセクションに先行する複数のセクションの前記オーディオ信号に関する情報を利用することなく、少なくとも１つの別の選択規則によって、前記特定のセクションの前記オーディオ信号を符号化するためのそれぞれの符号化モデルの選択が可能になり、少なくとも、受信されたセクションの数の方が、前記少なくとも１つの選択規則用の信号特性を決定する分析ウィンドウが包含しているセクションの数よりも少ない限り、前記少なくとも１つの別の選択規則が適用される請求項１に記載の方法。
分析ウィンドウから決定された信号特性に基づく前記少なくとも１つの選択規則が、短い方の分析ウィンドウにおいて決定された信号特性に基づく第１の選択規則と、長い方の分析ウィンドウにおいて決定された信号特性に基づく第２の選択規則とを含み、前記短い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第１の選択規則が起動され、前記長い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第２の選択規則が起動される請求項１または２に記載の方法。
それぞれのセクションの前記オーディオ信号が、２０ｍｓの長さを有するそれぞれのオーディオ信号のフレームに対応し、前記短い方の分析ウィンドウは、選択される符号化モデルの対象オーディオ信号のフレームと、さらに４個の先行するオーディオの信号フレームとを包含し、前記長い方のウィンドウは、選択される符号化モデルの対象オーディオ信号のフレームと、さらに１６個の先行するオーディオ信号のフレームとを包含する請求項３に記載の方法。
前記信号特性が、それぞれの分析ウィンドウの中にエネルギ関連値の標準偏差を含む請求項１から４のいずれか一項に記載の方法。
前記第１の符号器モードが、拡張適応マルチレート広帯域コーデックの拡張モードであり、代数的符号励起線形予測符号化モデルに基づく符号化と、さらに、変換符号化モデルに基づく符号化とを可能にし、前記第２の符号器モードが、前記拡張適応マルチレート広帯域コーデックの適応マルチレート広帯域モードであり、代数的符号励起線形予測符号化モデルに基づく符号化を可能にする請求項１から５のいずれか一項に記載の方法。
前記セクションが、前記オーディオ信号のフレームまたはサブフレームである請求項１から６のいずれか一項に記載の方法。
オーディオ信号の符号化を支援するモジュールであって、前記モジュールは、
第１の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第１の符号器モード部（５）と、
第２の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第２の符号器モード部（４）と、
前記第１の符号器モード部（５）と前記第２の符号器モード部（４）との間で切替えを行う切替え手段（６）とを備え、
前記第１の符号器モード部（５）は、少なくとも２つの異なる符号化モデルに基づいてそれぞれのセクションの前記オーディオ信号を符号化するように構成される符号化部（９）を含み、
前記第１の符号器モード部（５）は、特定の符号化モデルを選択するための、少なくとも１つの選択規則を適用するように構成される選択部（１３、１４および１５）をさらに含み、前記符号化モデルは、特定のセクションの前記オーディオ信号を符号化するための前記符号化部（９）によって使用され、前記少なくとも１つの選択規則は、前記特定のセクションに先行する少なくとも１つのセクションの前記オーディオ信号を包含している分析ウィンドウから、少なくとも部分的に決定された信号特性に基づくものであり、
前記選択部（１３、１４および１５）は、前記第２の符号器モード部（４）から前記第１の符号器モード部（５）への切替えを前記切替え手段（６）によって行った後に、前記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの前記オーディオ信号の受信に応じて、前記少なくとも１つの選択規則を起動するように構成されることを特徴とするモジュール。
前記モジュールが、前記オーディオ信号のセクションの数を計数するように構成されるカウンタ（１２）をさらに備え、前記セクションは、前記第２の符号器モード部（４）から前記第１の符号器モード部（５）への切替えを行った後に、前記第１の符号器モード部（５）に供給される請求項８に記載のモジュール。
前記第１の符号器モード部（５）が、少なくとも１つの別の選択部（１６、１７および１８）をさらに含み、前記選択部は、それぞれの符号化モデルを選択するための、少なくとも１つの別の選択規則を適用するように構成され、前記符号化モデルは、特定のセクションの前記オーディオ信号を符号化するための前記符号化部（９）によって使用され、前記少なくとも１つの別の選択規則は、前記特定のセクションに先行する複数のセクションの前記オーディオ信号に関する情報を利用せず、前記第２の符号器モード部（４）から前記第１の符号器モード部（５）への切替えを行った後に、少なくとも前記第１の符号器部（５）により受信されたセクションの数の方が、前記少なくとも１つの選択規則用として採用されている分析ウィンドウが包含しているセクションの数よりも少ない限り、分析ウィンドウ内の信号特性の分析に基づく前記少なくとも１つの別の選択規則が適用される請求項８または９に記載のモジュール。
前記少なくとも１つの選択部（１３、１４および１５）が、短い方の分析ウィンドウにおいて決定された信号特性に基づく第１の選択規則を適用するように構成される第１の選択部（１４）と、前記第２の符号器モード部（４）から前記第１の符号器モード部（５）への切替えを行った後に、長い方の分析ウィンドウにおいて決定された信号特性に基づく第２の選択規則を適用するように構成される第２の選択部（１３）とを含み、前記第１の符号器モデル部（５）が前記短い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第１の選択規則が起動され、前記第２の符号器モード部（４）から前記第１の符号器モード部（５）への切替えを行った後に、前記第１の符号器モデル部（５）が前記長い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第２の選択規則が起動される請求項８から１０のいずれか一項に記載のモジュール。
オーディオ信号の符号化を支援する電子装置であって、前記電子装置は、
第１の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第１の符号器モード部（５）と、
第２の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第２の符号器モード部（４）と、
前記第１の符号器モード部（５）と前記第２の符号器モード部（４）との間で切替えを行う切替え手段（６）とを備え、
前記第１の符号器モード部（５）は、少なくとも２つの異なる符号化モデルに基づいてそれぞれのセクションの前記オーディオ信号を符号化するように構成される符号化部（９）を含み、
前記第１の符号器モード部（５）が、特定の符号化モデルを選択するための、少なくとも１つの選択規則を適用するように構成される選択部（１３、１４および１５）をさらに含み、前記符号化モデルは、特定のセクションの前記オーディオ信号を符号化するための前記符号化部（９）によって使用され、前記少なくとも１つの選択規則は、前記特定のセクションに先行する少なくとも１つのセクションの前記オーディオ信号を包含している分析ウィンドウから、少なくとも部分的に決定された信号特性に基づくものであり、
前記選択部（１３、１４および１５）は、前記第２の符号器モード部（４）から前記第１の符号器モード部（５）への切替えを前記切替え手段（６）によって行った後に、前記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの前記オーディオ信号の受信に応じて、前記少なくとも１つの選択規則を起動するように構成されることを特徴とする電子装置。
前記電子装置が、前記オーディオ信号のセクションの数を計数するように構成されるカウンタ（１２）をさらに備え、前記セクションは、前記第２の符号器モード部（４）から前記第１の符号器モード部（５）への切替えを行った後に、前記第１の符号器モード部（５）に供給される請求項１２に記載の電子装置。
前記第１の符号器モード部（５）が、少なくとも１つの別の選択部（１６、１７および１８）をさらに含み、前記選択部は、それぞれの符号化モデルを選択するための、少なくとも１つの別の選択規則を適用するように構成され、前記符号化モデルは、特定のセクションの前記オーディオ信号を符号化するための前記符号化部（９）によって使用され、前記少なくとも１つの別の選択規則は、前記特定のセクションに先行する複数のセクションの前記オーディオ信号に関する情報を利用せず、前記第２の符号器モード部（４）から前記第１の符号器モード部（５）への切替えを行った後に、少なくとも前記第１の符号器部（５）により受信されたセクションの数の方が、前記少なくとも１つの選択規則用として採用されている分析ウィンドウが包含しているセクションの数よりも少ない限り、分析ウィンドウ内の信号特性の分析に基づく前記少なくとも１つの別の選択規則が適用される請求項１２または１３に記載の電子装置。
前記少なくとも１つの選択部（１３、１４および１５）が、短い方の分析ウィンドウにおいて決定された信号特性に基づく第１の選択規則を適用するように構成される第１の選択部（１４）と、前記第２の符号器モード部（４）から前記第１の符号器モード部（５）への切替えを行った後に、長い方の分析ウィンドウにおいて決定された信号特性に基づく第２の選択規則を適用するように構成される第２の選択部（１３）とを含み、前記第１の符号器モデル部（５）が前記短い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第１の選択規則が起動され、前記第２の符号器モード部（４）から前記第１の符号器モード部（５）への切替えを行った後に、前記第１の符号器モデル部（５）が前記長い方の分析ウィンドウのための十分な数のセクションの前記オーディオ信号を受信するや否や、前記第２の選択規則が起動される請求項１２から１４のいずれか一項に記載の電子装置。
それぞれのセクションの前記オーディオ信号が、２０ｍｓの長さを有するそれぞれのオーディオ信号のフレームに対応し、前記短い方の分析ウィンドウは、選択される符号化モデルの対象オーディオ信号のフレームと、さらに４個の先行するオーディオの信号フレームとを包含し、前記長い方のウィンドウは、選択される符号化モデルの対象オーディオ信号のフレームと、さらに１６個の先行するオーディオ信号のフレームとを包含する請求項１５に記載の電子装置。
前記第１の符号器モード部（５）が信号特性決定部（１１）をさらに含み、前記信号特性決定部（１１）は、それぞれの分析ウィンドウにおいて前記オーディオ信号の信号特性を決定し、前記信号特性を前記選択部（１３、１４および１５）に供給し、前記信号特性は、それぞれの分析ウィンドウの中にエネルギ関連値の標準偏差を含む請求項１２から１６のいずれか一項に記載の電子装置。
前記第１の符号器モードが、拡張適応マルチレート広帯域コーデックの拡張モードであり、前記第１の符号器モード部（５）の前記符号化部（９）が、代数的符号励起線形予測符号化モデルに基づいて、ならびに、変換符号化モデルに基づいて複数のセクションの前記オーディオ信号を符号化するように構成され、前記第２の符号器モードが、前記拡張適応マルチレート広帯域コーデックの適応マルチレート広帯域モードであり、前記第２の符号器モード部（４）が、代数的符号励起線形予測符号化モデルに基づいて複数のセクションの前記オーディオ信号を符号化するように構成される請求項１２から１７のいずれか一項に記載の電子装置。
請求項８から１１のいずれか一項に記載のモジュールと、前記モジュールによって符号化されたオーディオ信号を復号化するデコーダ（２０）とを備えることを特徴とするオーディオ符号化システム。
第１の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第１の符号器モード部（５）をさらに備える請求項１９に記載のオーディオ符号化システム。
第２の符号器モードでそれぞれのセクションのオーディオ信号を符号化するように構成される第２の符号器モード部（４）をさらに備える請求項１９に記載のオーディオ符号化システム。
前記第１の符号器モード部（５）と前記第２の符号器モード部（４）との間で切替えを行う切替え手段（６）をさらに備える請求項１９から２１のいずれか一項に記載のオーディオ符号化システム。
オーディオ信号の符号化を支援するソフトウェアコードが格納されたソフトウェアプログラム製品であって、
それぞれのセクションの前記オーディオ信号を符号化するために、少なくとも第１の符号器モードと第２の符号器モードとが利用可能であり、少なくとも前記第１の符号器モードによって、少なくとも２つの異なる符号化モデルに基づいて、それぞれのセクションの前記オーディオ信号の符号化が可能になり、前記第１の符号器モードでは、特定のセクションに先行する少なくとも１つのセクションの前記オーディオ信号を包含している分析ウィンドウから決定された信号特性に基づく少なくとも１つの選択規則によって、前記特定のセクションの前記オーディオ信号を符号化するためのそれぞれの符号化モデルの選択が可能になり、エンコーダ（２）の処理用コンポーネント（３）で実行される前記ソフトウェアコードは、下記のステップ、すなわち、
前記第２の符号器モードから前記第１の符号器モードへの切替えを行った後に、前記分析ウィンドウが包含しているセクションの数と少なくとも同じ数のセクションの前記オーディオ信号の受信に応じて、前記少なくとも１つの選択規則を起動するステップを実現するソフトウェアプログラム製品。