JP2014507016A

JP2014507016A - 時間領域符号化モード及び周波数領域符号化モードに対応するオーディオコーデック

Info

Publication number: JP2014507016A
Application number: JP2013553902A
Authority: JP
Inventors: ラルフ・ゲイゲル; コンスタンティン・シュミット; ベルンハルド・グリル; マンフレッド・ルツキー; ミハエル・ヴェルネル; マルク・ガイエル; ヨハネス・ヒルペルト; マリア・ルイス・バレロ; ヴォルフガング・ヤエガルス
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2011-02-14
Filing date: 2012-02-14
Publication date: 2014-03-20
Anticipated expiration: 2032-02-14
Also published as: TWI484480B; US20130332174A1; AU2012217160A1; KR20140000322A; AU2012217160B2; CA2827296C; JP5851525B2; KR101648133B1; WO2012110480A1; BR112013020589B1; US9037457B2; KR101751354B1; PL2676269T3; AU2016200351B2; ZA201306872B; EP2676269B1; AR085223A1; HK1192793A1; MY159444A; ES2562189T3

Abstract

時間領域符号化モード及び周波数領域符号化モードの両方に対応し、低遅延及びレート／ひずみ率の点で高い符号化効率を有するオーディオコーデックが、オーディオ符号器を異なる動作モードにおいて次のように動作するように構成することによって得られる。活性な動作モードが第１動作モードである場合、利用可能なフレーム符号化モードのモード依存セットが、時間領域符号化モードの第１サブセットに対して分離され、かつ周波数領域符号化モードの第２サブセットと重なり、かつ、活性な動作モードが第２動作モードである場合、利用可能なフレーム符号化モードのモード依存セットが、両方のサブセット、すなわち周波数領域符号化モードのサブセットばかりでなく、時間領域符号化モードのサブセットと重なるように動作する。
【選択図】図１

Description

本発明は、時間領域符号化モード及び周波数領域符号化モードに対応するオーディオコーデック（符号／復号器）に関する。

最近、ＭＰＥＧ−ＵＳＡＣコーデックがまとめられた。ＵＳＡＣ（Unified speech and audio coding：統一された音声・オーディオ符号化）は、ＡＡＣ（Advanced audio coding：先進的オーディオ符号化）、ＴＣＸ（Transform Coded Excitation：変換符号励振）及びＡＣＥＬＰ（Algebraic Code-Excited Linear Prediction代数符号励振線形予測）の組み合わせを用いてオーディオ信号を符号化するコーデックである。特に、ＭＰＥＧ−ＵＳＡＣは、１０２４サンプルのフレーム長を用い、かつ、１０２４サンプル又は８×１２８サンプルのＡＡＣ類似フレームと、ＴＣＸの１０２４フレーム又は１フレーム内でのＡＣＥＬＰフレーム（２５６サンプル）、ＴＣＸの２５６フレーム及びＴＣＸの５１２フレームの組合せとの間での切替えを可能にする。

不利なことに、ＭＰＥＧ−ＵＳＡＣコーデックは、低遅延を必要とする応用に適さない。双方向通信の応用は、例えば、そのような短い遅延を必要とする。１０２４サンプルのＵＳＡＣフレーム長のために、ＵＳＡＣは、これらの低遅延応用に対する候補ではない。

特許文献１では、ＵＳＡＣコーデックの符号化モードをＴＣＸモード及びＡＣＥＬＰモードだけに制限することによって、ＵＳＡＣの手法を低遅延応用に適したものにすることが提案されている。さらに、低遅延応用によって課された低遅延要求に従うように、フレーム構造をより細かくすることが提案されている。

しかしながら、レート／ひずみ率の点から、高い効率で低い符号化遅延を可能にするオーディオコーデックを提供する必要が未だ存在する。好ましくは、コーデックは、音声や音楽のような異なるタイプのオーディオ信号を効率的に扱うことができるべきである。

ＷＯ２０１１／１４７９５０

3GPP,"Audio codec processing functions; Extended Adaptive Multi-Rate-Wideband (AMR-WB+)codec; Transcoding functions",2009,3GPP TS 26.290. USAC codec (Unified Speech and Audio Codec),ISO/IEC CD 23003-3 dated September 24,2010.

したがって、本発明の目的は、低遅延応用のための低遅延を提示するオーディオコーデックを、しかも、ＵＳＡＣと比較して、例えばレート／ひずみ率の点から高い符復号化効率で提供することである。

この目的は、懸案の独立請求項の主題によって達成される。

本発明の基礎となる基本的概念は、仮にオーディオ符号器が異なる動作モードで動作するように構成される場合には、低遅延とレート／ひずみ率の点で高い符号化効率とを有する、時間領域符号化モード及び周波数領域符号化モードの両方に対応するオーディオコーデックが得られるというものである。その場合、仮に活性な動作モードが第１動作モードである場合、利用可能なフレーム符号化モードのモード依存セットは、時間領域符号化モードの第１サブセットに対して分離され、かつ周波数領域符号化モードの第２サブセットと重なり、これに対して、仮に活性な動作モードが第２動作モードである場合、利用可能なフレーム符号化モードのモード依存セットは、両方のサブセット、すなわち周波数領域符号化モードのサブセットばかりでなく、時間領域符号化モードのサブセットとも重なるようにする。例えば、第１及び第２動作モードのどちらがアクセスされるかについての決定は、データストリームを伝送するための利用可能な伝送ビットレートに依存して、実行されてもよい。例えば、決定の依存度は、より低い利用可能な伝送ビットレートの場合には第２動作モードがアクセスされ、その一方で、より高い利用可能な伝送ビットレートの場合には第１動作モードがアクセスされるというようなものであってもよい。特に、利用可能な伝送ビットレートによって決定されるような符号化環境の場合、符号器に動作モードを供給することによって、符号器が任意の時間領域符号化モードを選択することを防止し、その結果として、長期間基準でレート／ひずみ率の点での符号化効率を考慮すると、任意の時間領域符号化モードを選択したならば、符号化効率の損失を高い確率で引き起こしてしまうような状態を防止することが可能である。より正確に言えば、本願の発明者が見出したことは、（比較的）高い利用可能な伝送帯域幅の場合には、任意の時間領域符号化モードの選択を抑制することが符号化効率の増加に帰着すること、その一方で、短期間基準では、時間領域符号化モードが、周波数領域符号化モードよりも現在のところ好ましいと仮定してもよいが、仮にオーディオ信号を長期間に対して分析する場合、この仮定が正しくないと判明する確率は非常に高いということである。そのような、より長い分析又は先読みは、しかしながら、低遅延応用では可能ではなく、かつ、したがって、符号器が任意の時間領域符号化モードにアクセスするのを防止することは、高い符号化効率の達成を予め可能にする。

本発明の実施形態に従えば、上記の概念は、データストリーム・ビットレートがさらに増加される範囲まで活用される。符号器と復号器の動作モードを同期して制御することは、ビットレートを極めて安価なものとし、又は他の何らかの手段によって同期性が提供される場合には、ビットレートにはいかなるコストもかからないのに対して、符号器及び復号器が動作し、かつ動作モード間を同期して切替わるという事実は、オーディオ信号の連続した部分でのデータストリームの個々のフレームに関連したフレーム符号化モードそれぞれに信号送信することに対する、信号送信の経費を削減するように活用されてもよい。特に、復号器の関連付け装置が、データストリームの連続したフレームの各々の関連付けを、データストリームのフレームに関連したフレームモード構文要素に依存する複数のフレーム符号化モードのモード依存セットの１つに関して実行するように構成されてもよいのに対して、関連付け装置は、活性な動作モードに依存して、関連付け実行の依存度を特に変化させてもよい。特に、依存度の変化は、仮に活性な動作モードが第１動作モードである場合、モード依存セットは第１サブセットに対して分離され、かつ第２サブセットと重なり、かつ、仮に活性な動作モードが第２動作モードである場合、モード依存セットは両方のサブセットと重なるようであってもよい。しかしながら、ビットレートを増加させるあまり厳密でない解は、現在懸案となっている動作モードに関連する環境についての知識を活用することによって、しかしながら、実現可能でもある。

本発明の実施形態の有利な態様は、従属請求項の主題である。

特に、本発明の好ましい実施形態を図を参照しながら、以下にさらに詳細に説明する。

図１は一実施形態によるオーディオ復号器のブロック図を示す。図２は一実施形態に従う、フレームモード構文要素の可能な値とモード依存セットのフレーム符号化モードとの間の全単写像の模式図を示す。図３は一実施形態による時間領域復号器のブロック図を示す。図４は一実施形態による周波数領域符号器のブロック図を示す。図５は一実施形態によるオーディオ符号器のブロック図を示す。図６は一実施形態による時間領域符号器及び周波数領域符号器に対する実施形態を示す。

図の記述に関して注目されることであるが、１つの図における要素の記述は、別のやり方で明示的に教示されない場合、別の図におけるそれに関連する同じ参照符号を有する要素に等しく適用されるものとする。

図１は、本発明の実施形態に従うオーディオ復号器１０を示す。オーディオ復号器は、時間領域復号器１２と周波数領域復号器１４とを備えている。さらに、オーディオ復号器１０は、データストリーム２０の連続したフレーム１８ａ−１８ｃの各々を、複数のフレーム符号化モード２２のモード依存セットの中の１つに関連付けるように構成された関連付け装置１６を備えており、これら複数のフレーム符号化モードは、図１にＡ、Ｂ及びＣとして典型的に例示されている。３つより多くののフレーム符号化モードがあってもよく、かつ数は、したがって、３つから他の数に変えられてもよい。各フレーム１８ａ−１８ｃは、オーディオ復号器がデータストリーム２０から再構築することになっているオーディオ信号２６の連続した部分２４ａ−２４ｃに対応する。

より正確に言えば、関連付け装置１６は、以下でより詳細に説明される方法において、フレーム１８ａ−１８ｃに関連付けられるのと同じものを提供するように、復号器１０の入力２８、時間領域復号器１２及び周波数領域復号器１４の入力との間に接続されている。

時間領域復号器１２は複数のフレーム符号化モード２２の１つ以上の第１サブセット３０の関連付けられた１つを有するフレームを復号化するように構成され、かつ周波数領域復号器１４は複数のフレーム符号化モード２２の１つ以上の第２サブセット３２の関連付けられた１つを有するフレームを復号化するように構成されている。
図１に例示されるように、第１及び第２サブセットはお互いに分離されている。より正確に言えば、時間領域復号器１２は、関連付けられたフレーム符号化モードの第１サブセット３０の１つを有するフレームに対応するオーディオ信号２６の再構築された部分２４ａ−２４ｃを出力するように出力を有し、かつ周波数領域復号器１４は、関連付けられたフレーム符号化モードの第２サブセット３２の１つを有するフレームに対応するオーディオ信号２６の再構築された部分を出力するための出力を備えている。

図１に示されるように、オーディオ復号器１０は、好みに応じて、コンバイナ３４を有してもよく、コンバイナ３４は時間領域復号器１２及び周波数領域復号器１４の出力と復号器１０の出力３６との間に接続されている。特に、部分２４ａ−２４ｃはお互いに重ならないが時間ｔに関してお互いに直ちに続いて起こることを図１は示唆しており、この場合にはコンバイナ３４は無くても可能であろう。しかし、少なくとも部分的には、部分２４ａ−２４ｃが時間ｔに関して連続し、例えば周波数領域復号器１４によって使用される重複変換に関して時間エイリアシング相殺が含まれることを許可するためのように、部分的にはお互いに重なっていることも可能である。例えば、続いて説明される、周波数領域復号器１４のより詳細な実施形態の場合がそれに当てはまる。

図１の実施形態の記述についてさらに進める前に、図１に例示されたＡからＣのフレーム符号化モードの数は、単に例証的であることに注目するべきである。図１のオーディオ復号器は、３つより多くのの符号化モードに対応してもよい。以下では、サブセット３２のフレーム符号化モードは周波数領域符号化モードと呼ばれ、これに対して、サブセット３０のフレーム符号化モードは時間領域符号化モードと呼ばれる。関連付け装置１６は、任意の時間領域符号化モード３０のフレーム１５ａ−１５ｃを時間領域復号器１２へ転送し、かつ任意の周波数領域符号化モードのフレーム１８ａ−１８ｃを周波数領域復号器１４へ転送する。コンバイナ３４は、時間領域復号器１２及び周波数領域復号器１４による出力としてのオーディオ信号２６の再構築された部分を、図１に示されるように、時間ｔに関して連続的に配列されるように、正確に登録する。好みに応じて、コンバイナ３４は、周波数領域符号化モード部分２４の間で重複加算機能を実行してもよく、又は周波数領域復号器１４によって出力される部分の間でエイリアシング相殺を実行するために、直ちに連続する部分の間の遷移期に、重複加算機能のような他の特定の措置を実行してもよい。転送のエイリアシング相殺は、時間領域復号器１２及び周波数領域復号器１４によって別々に出力される直ちに続いて起こる部分２４ａ−２４ｃの間で、すなわち周波数領域符号化モード部分２４から時間領域符号化モード部分２４への、及びその逆の遷移期に対して実行されてもよい。可能な実施に関するさらなる詳細については、さらに以下で説明されるより詳細な実施形態が参照される。

以下でより詳細に概説されるであろうが、関連付け装置１６は、データストリーム２０の連続するフレーム１８ａ−１８ｃの関連付けをＡからＣのフレーム符号化モードにより実行するように構成されているが、その方法においては、時間領域符号化モードの使用が回避される場合がある。それは、高い利用可能伝送ビットレートの場合のようにそのような時間領域符号化モードの使用が不適当な場合であり、例えば周波数領域符号化モードと比較して、レート／ひずみ率の点で、時間領域符号化モードが不十分である可能性があり、その結果、時間領域フレーム符号化モードが、あるフレーム１８ａ−１８ｃに対して、符号化効率の減少につながる可能性が非常に高くなってしまうような場合である。

したがって、関連付け装置１６は、データストリーム２０におけるフレーム１８ａ−１８ｃに関連するフレームモード構文要素に依存するフレーム符号化モードに対して、フレームの関連付けを実行するように構成されている。例えば、データストリーム２０の構文は、各フレーム１８ａ−１８ｃが、対応するフレーム１８ａ−１８ｃが属するフレーム符号化モードを決定するためのそのようなフレームモード構文要素３８を備えるように構成され得るであろう。

さらに、関連付け装置１６は、複数の動作モードの活性な１つにおいて動作するように、又は複数の動作モードから現在の動作モードを選択するように構成される。関連付け装置１６は、データストリームに依存して、又は外部制御信号に依存して、この選択を実行してもよい。例えば、以下でより詳細に概説されるであろうが、復号器１０は、符号器での動作モード変化に同期してその動作モードを変化させ、かつその同期性を実施するために、符号器は活性な動作モードと動作モードの活性な１つにおける変化をデータストリーム２０内に信号送信してもよい。代わりに、符号器及び復号器１０は、ＥＰＳ又はＲＴＰなどのようなより低いトランスポート層によって提供される制御信号のような何らかの外部制御信号によって、同期的に制御されてもよい。外部的に提供される制御信号は、例えばいくらかの利用可能な伝送ビットレートを表すものであってもよい。

上で概説されたような時間領域符号化モードの不適切な選択又は不適切な使用を回避することを実証する又は実現するために、関連付け装置１６は、活性な動作モードに依存する符号化モードに対して、フレーム１８の関連付け実行の依存度を変化させるように構成されている。特に、仮に活性な動作モードが第１動作モードである場合、複数のフレーム符号化モードのモード依存セットは、例えば符号４０で示されたものであり、これは第１サブセット３０に対して分離され、かつ第２サブセット３２と重なる。これに対して、仮に活性な動作モードが第２動作モードである場合、モード依存セットは、例えば図１において符号４２で示されるようなものとなり、これは第１サブセット３０及び第２サブセット３２と重なる。

すなわち、図１の実施形態に従って、オーディオ復号器１０は、第１動作モードと第２動作モードとの間でその活性な動作モードを変化させるように、データストリーム２０又は外部制御信号を介して制御可能であり、これによって、フレーム符号化モードの動作モード依存セットを、したがって、すなわち４０と４２との間で変化させる。その結果、一方の動作モードに従って、モード依存セット４０は時間領域符号化モードのセットに対して分離されるが、これに対して、他方の動作モードでは、モード依存セット４２は、少なくとも１つの周波数領域符号化モードだけでなく、少なくとも１つの時間領域符号化モードを含む。

関連付け装置１６の関連付け実行の依存度における変化をより詳細に説明するために、図２を参照する。図２はデータストリーム２０からのフラグメントを典型的に示し、フラグメントは、図１のフレーム１８ａ−１８ｃのある１つに関連付けられたフレームモード構文要素３８を含む。この点において、簡単にいえば、図１に例示されたデータストリーム２０の構造は、単に例証目的のために適用されており、異なる構造が同様に適用されてもよい。例えば、図１におけるフレーム１８ａ−１８ｃは、その間に割込みのない単純に接続された部分、又はデータストリーム２０の連続部分として示されてはいるが、そのような割込みが同様に適用されてもよい。そのうえ、フレームモード構文要素３８は、それが参照するフレーム内に含まれることを図１は示唆してはいるが、これは必ずしもそうであるとは限らない。むしろ、フレームモード構文要素３８は、データストリーム２０内であるが、フレーム１８ａ−１８ｃの外側に位置付けられていてもよい。さらに、データストリーム２０内に含まれるフレームモード構文要素３８の数は、データストリーム２０の中のフレーム１８ａ−１８ｃの数に等しい必要はない。むしろ、図２のフレームモード構文要素３８は、例えばデータストリーム２０の中のフレーム１８ａ−１８ｃの１より多くと関連付けられていてもよい。

いずれの場合も、フレームモード構文要素３８がデータストリーム２０の中に挿入された方法に従って、データストリーム２０に含まれて伝送されたフレームモード構文要素３８と、フレームモード構文要素３８の可能な値のセット４６との間に、写像４４が存在する。例えば、フレームモード構文要素３８は、データストリーム２０の中に直接挿入されてもよく、すなわち、例えばＰＣＭのような２進法表現を用い、又は可変長符号を用い、及び／又は、ハフマン（Huffman）又は算術符号化のようなエントロピー符号化を用いて挿入されてもよい。したがって、関連付け装置１６は、復号化４８などによって、可能な値のセット４６の任意のもの引き出すように、データストリーム２０からフレームモード構文要素３８を抽出するように構成することができる。ここで、セット４６の可能な値は、図２において小さな三角形によって象徴的に例示されている。データストリーム２０へのフレームモード構文要素３８の挿入５０は、符号器側において符号化などによって対応して行われる。

すなわち、フレームモード構文要素３８がとるであろう可能な値の各々、つまり、フレームモード構文要素３８の可能な値の範囲４６内での可能な値の各々は、複数のフレーム符号化モードＡ、Ｂ及びＣのある１つと関連付けられている。特に、セット４６の可能な値とフレーム符号化モードのモード依存セットとの間で全単写像が存在する。図２で双頭の矢５２によって例示される写像は、活性な動作モードに依存して変化する。全単写像５２は、活性な動作モードに依存して写像５２を変化させる関連付け装置１６の機能の一部である。図１に関して説明されるように、図２に例示された第２動作モードの場合には、モード依存セット４０又は４２は両フレーム符号化モード・サブセット３０、３２と重なるが、第１動作モードの場合には、モード依存セットはサブセット３０に対して分離され、すなわち、サブセット３０のいかなる要素も含まない。言い換えれば、全単写像５２は、フレームモード構文要素３８の可能な値のドメイン(domain)を、モード依存セット５０及び５２と呼ばれる、フレーム符号化モードのコドメイン(co-domain)上にそれぞれ写像する。セット４６の可能な値に対して三角形の実線を使用して図１及び図２に例示されるように、全単写像５２のドメインは、両方の動作モードの中で同じままであってもよく、すなわち、第１及び第２動作モードのままであってもよく、一方で、上で例示されかつ説明されたように、全単写像５２のコドメインは変化する。

しかしながら、セット４６内の可能な値の数は、変化さえしてもよい。これは、図２において破線で描かれた三角形によって示される。より正確に言えば、利用可能なフレーム符号化モードの数は、第１動作モードと第２動作モードとの間で異なっていてもよい。そうであるならば、しかしながら、いずれの場合にも、関連付け装置１６は依然として全単写像５２のコドメインが上で概説された通りに振舞うように実行される。すなわち、第１動作モードが活性である場合、モード依存セットとサブセット３０との間で重なりはない。

別の言い方をすれば、次のことがいえる。内部的には、フレームモード構文要素３８は、ある２進値によって表されてもよく、その可能な値の範囲は、現在活性な動作モードに依存しない可能な値のセット４６を含む。さらに正確に言えば、関連付け装置１６は、内部的には、フレーム構文要素３８の値を２進法表現の２進値で表す。この２進値を用いて、セット４６の可能な値は、順序尺度に分類され、その結果、セット４６の可能な値は、動作モードの変化の場合でさえも、お互いに対等なままである。この順序尺度に従うセット４６の第１の可能な値は、例えばセット４６の可能な値の中で最も高い確率に関連付けられたものとして定義されてもよく、セット４６の可能な値の第２の可能な値は、次に低い確率に関連付けられたものというように、連続的に定義される。したがって、フレームモード構文要素３８の可能な値は、動作モードの変化にもかかわらず、このように、お互いに対等である。後の例では、全単写像５２のドメイン及びコドメイン、すなわち、可能な値のセット４６及びフレーム符号化モードのモード依存セットは、活性な動作モードが第１及び第２動作モードの間で変化するにもかかわらず、同じままであり、しかし全単写像５２は、モード依存セットのフレーム符号化モードとセット４６の対等な可能な値との間で関連付けを変化させる。後の実施形態では、図１の復号器１０は、符号器を依然として利用することができるが、この符号器は、続いて説明される実施形態に従って、すなわち第１動作モードの場合に、不適切な時間領域符号化モードを選択するのを差し控えることによって働く。第１動作モードの場合、セット４６のより確からしい可能な値だけを周波数領域符号化モード３２と関連付けることによって、一方で第１動作モードの間だけ、時間領域符号化モード３０に対して、セット４６のより低く確からしい可能な値を用いながら、また一方で第２動作モードの場合に、この方針を変化させることは、仮にフレームモード構文要素３８をデータストリーム２０の中に挿入するために、又はデータストリーム２０からフレームモード構文要素３８を抽出するためにエントロピー符号化を用いる場合、データストリーム２０に対するより高い圧縮率に帰着する。言い換えれば、第１動作モードにおける間、どの時間領域符号化モード３０も、任意の周波数領域符号化モード３２の上に写像５２によって写像された可能な値に対する確率よりも高い確率を、それに関連付けてきたセット４６の可能な値に関連付けられなくともよく、そのような場合は第２動作モードにおいて存在し、そこでは、少なくとも１つの時間領域符号化モード３０が、写像５２に従って、周波数領域符号化モード３２に関連付けられる別の可能な値よりもより高い確率をそれに関連付けてきた、そのような可能な値に関連付けられる。

可能な値４６と関連付けられ、かつ好みに応じて符号化／復号化のために同様に用いられる、今述べられたばかりの確率は、静的であっても、又は適応して変化させられてもよい。確率推定の異なるセットは、異なる動作モードに対して使用されてもよい。適応して確率を変化させる場合には、コンテキスト適応性のあるエントロピー符号化が使用されてもよい。

図１に例示されるように、関連付け装置１６のための好ましい実施形態は、関連付け実行の依存度が、活性な動作モードに依存するようなものであり、かつフレームモード構文要素３８は、データストリーム２０の中に符号化され、かつデータストリーム２０から復号化され、その結果、セット４６内で多数の区別しうる可能な値は、第１又は第２動作モードである活性な動作モードに依存しない。特に、図１の場合、区別しうる可能な値の数は２であり、実線を有する三角形を考慮すると、図２にもまた例示されている。その場合、例えば、仮に活性な動作モードが第１動作モードであるとすると、モード依存セット４０は、フレーム符号化モードの第２サブセット３２の第１フレーム符号化モードＡと第２フレーム符号化モードＢとを備えるように、関連付け装置１６が構成され、かつ、これらのフレーム符号化モードを実行する周波数領域復号器１４は、第１フレーム符号化モードＡ及び第２フレーム符号化モードＢのうちの関連付けられた１つを有するフレームを復号化する際に、異なる時間領域分解能を用いるように構成されている。この措置によって、例えばデータストリーム２０内のフレームモード構文要素３８を直接伝送するには、１ビットで十分であろう、すなわち、任意のさらなるエントロピー符号化なしに、ここでは、第１動作モードから第２動作モードへの変化及びその逆の変化に対して、全単写像５２が変化するだけである。

図３及び図４に関して以下ではより詳細に概説されるであろうが、時間領域復号器１２は、符号励振線形予測復号器であってもよく、かつ周波数領域復号器は、データストリーム２０の中に符号化された変換係数レベルに基づいて、関連付けられたフレーム符号化モードの任意の第２サブセットを有するフレームを復号化するように構成された変換復号器であってもよい。

例えば、図３を参照されたい。図３は、時間領域復号器１２及び時間領域符号化モードに関連付けられたフレームの例を示し、この結果として、時間領域符号化モードに関連付けられたフレームが時間領域復号器１２を通過して、再構築されたオーディオ信号２６の対応する部分２４が作り出される。図３の実施形態に従って、かつ後で説明されるべき図４の実施形態に従って、周波数領域復号器ばかりでなく、時間領域復号器１２も、データストリーム１２から各フレームに対する線形予測フィルタ係数を得るように構成された線形予測に基づいた復号器である。各フレーム１８は、その中に組み込まれた線形予測フィルタ係数１６を有してもよいことを、図３及び図４は示唆してはいるが、これは必ずしもそうであるとは限らない。線形予測係数６０がデータストリーム１２内で伝送されるＬＰＣ伝送レートは、フレーム１８のフレームレートと等しくてもよく、又はそれと異なってもよい。それにもかかわらず、符号器及び復号器は、ＬＰＣ伝送レートからＬＰＣアプリケーション・レート上に内挿することによって、各フレームに個々に関連付けられた線形予測フィルタ係数と同期して動作してもよく、又は線形予測フィルタ係数を適用してもよい。

図３に示されるように、時間領域復号器１２は、線形予測合成フィルタ６２と励振信号構築器６４とを備えてもよい。図３に示されるように、線形予測合成フィルタ６２は、現在の時間領域符号化モードフレーム１８に対してデータストリーム１２から得られた線形予測フィルタ係数を供給される。励振信号構築器６４は、現在復号化されているフレーム１８（時間領域符号化モードをこれに関連させた）に対してデータストリーム１２から得られた符号ブック索引６６のような励振パラメータ又は符号を供給される。励振信号構築器６４及び線形予測合成フィルタ６２は、合成フィルタ６２の出力に、再構築された対応するオーディオ信号部分２４を出力するように、直列に接続されている。特に、励振信号構築器６４は、励振パラメータ６６を用いて励振信号６８を構築するように構成されている。励振パラメータ６６は、図３に示されるように、現在復号化されたフレーム内に含まれてもよく、そのフレームはそれに関連付けられた任意の時間領域符号化モードを有する。励振信号６８は一種の残差信号であり、これのスペクトル包絡線は、線形予測合成フィルタ６２によって形成される。特に、線形予測合成フィルタは、オーディオ信号２６の再構築された部分２４を作り出すように、現在復号化されたフレーム（これに関連付けられた任意の時間領域符号化モードをもっている）に対してデータストリーム２０内で伝達される線形予測フィルタ係数によって制御される。

図３のＣＥＬＰ復号器の可能な実施に関するさらなる詳細については、例えば上述のＵＳＡＣ（非特許文献２参照。）又はＡＭＲ−ＷＢ＋コーデック（非特許文献１参照。）のような既知のコーデックが参照される。後者のコーデックによれば、図３のＣＥＬＰ復号器はＡＣＥＬＰ復号器として実施されてもよく、それによれば、励振信号６８は、符号／パラメータで制御された信号、すなわち革新励振、と連続的に更新された適応型励振を組み合わせることによって形成されるが、連続的に更新された適応型励振は、現在復号化される時間領域符号化モードフレーム１８に対して、データストリーム１２内でやはり伝達される適応型励振パラメータに従って、直接先行する時間領域符号化モードフレームに対して、最終的に得られかつ印加された励振信号を修正することに起因する。適応型励振パラメータは、例えばピッチ遅延及び利得を定義してもよく、このために、現在のフレームに対して適応型励振を得るように、ピッチ及び利得の向きにおいて過去の励振をいかに修正するかを規定する。革新励起は、現在のフレーム内の符号６６に由来してもよく、そこでは符号が、パルスの数及び励振信号内でのそれらの位置を定義する。符号６６は、符号ブック照合のために使用されてもよく、又は、そうでなければ、論理的に又は算術的に、例えば数及び位置の点から革新励振のパルスを定義する。

同様に図４は、周波数領域復号器１４のための可能な実施形態を示す。図４は、周波数領域復号器１４に入る現在のフレーム１８を示し、フレーム１８は、それに関連付けられた任意の周波数領域符号化モードを有する。周波数領域復号器１４は、周波数領域ノイズ整形器７０を備え、これの出力は再変換器７２に接続されている。再変換器７２の出力は、今度は、周波数領域復号器１４の出力であり、現在復号化されてきたフレーム１８に対応するオーディオ信号の再構築された部分を出力する。

図４に示されるように、データストリーム２０は、関連付けられた任意の周波数領域符号化モードを有するフレームに対して、変換係数レベル７４及び線形予測フィルタ係数７６を伝達してもよい。線形予測フィルタ係数７６は、関連付けられた任意の時間領域符号化モードを有するフレームに関連付けられた線形予測フィルタ係数と同じ構造を有してもよく、変換係数レベル７４は、変換領域において周波数領域フレーム１８に対して励振信号を表すためのものである。ＵＳＡＣから既知であるように、例えば変換係数レベル７４は、スペクトル軸に沿って差分をとるように符号化されてもよい。変換係数レベル７４の量子化精度は、共通のスケール因子又は利得因子によって制御されてもよい。スケール因子は、データストリームの一部分であり、変換係数レベル７４の一部分であると仮定される。しかしながら、他の任意の量子化方式が、同様に使用されてもよい。変換係数レベル７４は、周波数領域ノイズ整形器７０に供給される。同じことが、現在復号化される周波数領域フレーム１８のための線形予測フィルタ係数７６に当てはまる。周波数領域ノイズ整形器７０は、その後、変換係数レベル７４から励振信号の励振スペクトルを得るように、かつ線形予測フィルタ係数７６に従ってスペクトル的にこの励振スペクトルを整形するように構成されている。より正確に言えば、周波数領域ノイズ整形器７０は、励振信号のスペクトルを作り出すために、変換係数レベル７４を逆量子化（dequantize）するように構成されている。その後、周波数領域ノイズ整形器７０は、線形予測フィルタ係数７６によって定義された線形予測合成フィルタの伝達関数に対応するように、線形予測フィルタ係数７６を重み付けスペクトルの中に転換する。この転換は、ＬＰＣをスペクトル重み付け値に変えるように、ＬＰＣに適用されたＯＤＦＴを含んでもよい。さらなる詳細は、ＵＳＡＣ標準から得ることができる。重み付けスペクトルを用いて、周波数領域ノイズ整形器７０は、変換係数レベル７４によって得られる励振スペクトルを整形するか、又は重み付けし、これによって、励振信号スペクトルを得る。整形／重み付けによって、変換係数を量子化することによって符号器側で導入された量子化ノイズは、知覚的にそれほど著しくないように整形される。再変換器７２は、その後、復号化されたばかりのフレーム１８に対応する再構築された部分を得るように、周波数領域ノイズ整形器７０による出力としての整形された励振スペクトルを再変換する。

既に上で述べたように、図４の周波数領域復号器１４は、種々の符号化モードに対応する。特に周波数領域復号器１４は、関連付けられた異なる周波数領域符号化モードを有する周波数領域フレームを復号化する際、異なる時間−周波数分解能を適用するように構成されていてもよい。例えば再変換器７２によって実行される再変換は、重複変換であってもよく、この重複変換に従って、変換されるべき、連続したかつ相互に重なる信号の窓部分は、個々の変換に細分化され、ここで再変換７２は、これらの窓部分７８ａ、７８ｂ及び７８ｃの再構築を引き起こす。コンバイナ３４は、既に上で注目されたように、例えば重複加算プロセスによって、これらの窓部分の重なりで起こるエイリアシングを相互に補償するすることができる。重複変換又は再変換器７２の重複再変換は、時間エイリアシング相殺を必要とする、例えば決定的な方法でサンプリングされた変換／再変換であってもよい。例えば再変換器７２は、逆ＭＤＣＴを実行してもよい。いずれの場合も、周波数領域符号化モードＡ及びＢは、例えば次の点でお互いに異なる。すなわち、現在復号化されるフレーム１８に対応する部分１８は、１つの窓部分７８によって扱われ、さらに先行する部分及び後に続く部分に伸び、それによって、フレーム１８内に変換係数レベル７４の１つのより大きなセットを作り出すか、又は２つの連続した窓副部分７８ｃ及び７８ｂに伸び、相互に重なり、かつ先行する部分及び後に続く部分にそれぞれ伸び、かつ重なり合い、それによって、フレーム１８内に変換係数レベル７４の２つのより小さなセットを作り出すかのいずれかである。したがって、復号器及び周波数領域ノイズ整形器７０及び再変換器７２は、モードＡのフレームに対して、例えば２つの動作、整形及び再変換、を実行してもよいのに対し、例えばフレーム符号化モードＢのフレームに対してはフレームあたり１つの動作を決められた通りに実行する。

上で説明されたオーディオ復号器のための実施形態は、オーディオ符号器を利用するために特別に設計されたが、このオーディオ符号器は異なる動作モードで動作し、すなわち、それによって、これらの動作モード間でフレーム符号化モードの中での選択を変化させ、その結果として、時間領域フレーム符号化モードが、これらの動作モードの一方で選択されず、しかし他方でのみ選択される。しかしながら、注目されるべきことであるが、以下で説明されるオーディオ符号器のための実施形態はまた、少なくともこれらの実施形態のサブセットに関する限り、異なる動作モードに対応しないオーディオ復号器にも適合するであろう。これは、これらの符号器の実施形態にとって少なくとも真実であり、これらの符号器の実施形態によれば、データストリームの生成は、これらの動作モードの間では変化しない。言い換えれば、以下で説明されるオーディオ符号器のためのいくつかの実施形態に従えば、フレーム符号化モードの選択を動作モードの１つにおける周波数領域符号化モードに限定することは、それ自体をデータストリーム１２内に反映せず、データストリーム１２では、動作モード変化は、その限りにおいて、（これらの動作モードの１つが活性である間、時間領域フレーム符号化モードが存在しないことを除いて）明白である。しかしながら、上で概説された様々な実施形態に従う特別に専用のオーディオ復号器は、上で概説されたオーディオ符号器のためのそれぞれの実施形態と共に、オーディオコーデックを形成し、これは、上で概説したように、例えば特別な伝送条件に対応する特別な動作モードの間、フレーム符号化モード選択制限を付加的に利用する。

図５は、本発明の実施形態によるオーディオ符号器を示す。図５のオーディオ符号器は、全体が符号１００で示され、かつ関連付け装置１０２と、時間領域符号器１０４と、周波数領域符号器１０６とを備えている。関連付け装置１０２はオーディオ符号器１００の入力１０８と時間領域符号器１０４の入力及び周波数領域符号器１０６の入力との間に接続されている。時間領域符号器１０４の出力及び周波数領域符号器１０６の出力は、オーディオ符号器１００の出力１１０に接続されている。したがって、図５において符号１１２で示された符号化されるべきオーディオ信号は、入力１０８に入り、オーディオ符号器１００は、そこからデータストリーム１１４を形成するように構成されている。

関連付け装置１０２は、オーディオ信号１１２の連続する部分１１６ａ−１１６ｃ（前述部分２４に対応する）の各々を、複数のフレーム符号化モードのモード依存セットの中の１つと関連付けるように構成されている（図１から図４の４０及び４２を参照されたい）。

時間領域符号器１０４は、複数のフレーム符号化モード２２の１つ以上の第１サブセット３０の関連付けられた１つを有する部分１１６ａ−１１６ｃを、データストリーム１１４の対応フレーム１１８ａ−１１８ｃの中に符号化するように構成されている。周波数領域符号器１０６は、セット３２の関連付けられた任意の周波数領域符号化モードを有する部分を、データストリーム１１４の対応フレーム１１８ａ−１１８ｃの中に符号化することに対して同様に機能する。

関連付け装置１０２は、複数の動作モードの活性な１つで動作するように構成されている。より正確に言えば、関連付け装置１０２は、複数の動作モードの１つが確かに活性でなければならないが、しかし複数の動作モードの活性な１つの選択は、オーディオ信号１１２の部分１１６ａ−１１６ｃを連続して符号化する間に変わってもよいように構成されている。

特に関連付け装置１０２は以下のように構成され、具体的には、仮に活性な動作モードが第１動作モードである場合、モード依存セットは図１のセット４０のように振舞い、すなわち、モード依存セットは第１サブセット３０に対して分離され、かつ第２サブセット３２と重なるが、しかし、仮に活性な動作モードが第２動作モードである場合、複数の符号化モードのモード依存セットは、図１のモード４２のように振舞い、すなわち、モード依存セットは第１サブセット３０及び第２サブセット３２と重なる。

上で概説されるように、図５のオーディオ符号器の機能によって、符号器１００を外部的に制御することが可能になり、その結果、符号器が時間領域フレーム符号化モードを不利に選択することが防がれる。その不利な選択とは、選択を周波数領域フレーム符号化モードだけに制限することと比べたとき、時間領域フレーム符号化フレームを選択したとすれば、レート／ひずみ率の点でより低い符号化効率を引き起こす確率が高くなってしまうような、伝送条件などの外部条件であるにもかかわらず、時間領域フレーム符号化モードを選択することである。図５に示されるように、関連付け装置１０２は、例えば外部制御信号１２０を受信するように構成されている。関連付け装置１０２は、例えばある外部構成要素に接続されていてもよく、その結果、その外部構成要素によって供給される外部制御信号１２０が、データストリーム１１４の伝送のための利用可能な伝送バンド幅を示す。この外部構成要素は、例えばＯＳＩ階層モデルの点でより低いような、根本的なより低い伝送階層の一部であってもよい。例えば、外部構成要素は、ＬＴＥ通信網の一部であってもよい。信号１２２は、当然、実際の利用可能な伝送帯域幅の推定又は平均の将来利用可能な伝送帯域幅の推定に基づいて設定してもよい。図１から図４に関して既に上で注目されたように、「第１動作モード」は、ある一定の閾値よりも低い利用可能な伝送帯域幅に関連付けられてもよく、これに対して、「第２動作モード」は、所定の閾値を超える利用可能な伝送帯域幅に関連付けられてもよい。これによって、不適切な条件では符号器１００が任意の時間領域フレーム符号化モードを選択することを防ぐが、この不適切な条件では、すなわち仮に利用可能な伝送帯域幅がある閾値よりも低い場合に、時間領域符号化が、より非能率的な圧縮を引き起こす可能性が非常に高い。

しかしながら、注目すべきことであるが、制御信号１２０はまた、例えば再構築されるべきオーディオ信号、すなわち１１２を解析する音声検出器のような何らかの他の構成要素によって提供されてもよい。その場合、音声相、すなわち時間間隔（この間ではオーディオ信号１１２内のスピーチ成分が優勢である）と、非音声相（ここではオーディオ信号１１２内で音楽などのような他のオーディオ源が優勢である）との間で見分けがつけられる。制御信号１２０は、音声相と非音声相におけるこの変化を示してもよく、かつ関連付け装置１０２は、したがって動作モード間で変わるように構成されていてもよい。例えば音声相では関連付け装置１０２は前述の「第２動作モード」に入り、「第１動作モード」が非音声相と関連付けられることが可能であろう。これにより、非音声相で時間領域フレーム符号化モードを選択すると、効率的でない圧縮に帰着する可能性が非常に高いという事実に従うことができる。

関連付け装置１０２は、フレームモード構文要素１２２（図１における構文要素３８を比較のこと）をデータストリーム１１４の中に符号化するように構成されていてもよく、それによって、各部分１１６ａ−１１６ｃに対して、複数のフレーム符号化モードのどのフレーム符号化モードに、それぞれの部分が関連付けられるかが示されるが、その一方で、図１から図４のフレームモード構文要素３８を有するデータストリーム２０を作り出すために、このフレームモード構文要素１２２をデータストリーム１１４の中に挿入することは、動作モードに依存しなくてもよい。上で既に注目されたように、データストリーム１１４のデータストリーム生成は、現在活性な動作モードと無関係に実行されてもよい。

しかしながら、ビットレート経費の点では、仮にデータストリーム１１４が、図１から図４の実施形態に関して上で議論されたデータストリーム２０を作り出すように、図５のオーディオ符号器１００によって生成され、それらの実施形態に従って、データストリーム生成が、有利なことに現在活性な動作モードに適合されるのであれば、それは好ましいとされるべきである。

したがって、図１から図４に関してオーディオ復号器のために上で説明された実施形態に適合する図５のオーディオ符号器１００の実施形態に従えば、関連付け装置１０２は、フレームモード構文要素１２２をデータストリーム１１４の中に符号化するように構成され、その際、それぞれの部分１１６ａ−１１６ｃに関連付けられたフレームモード構文要素１２２の可能な値のセット４６とフレーム符号化モードのモード依存セットとの間で全単写像５２を用い、この全単写像５２が活性な動作モードに依存して変化する。特に、その変化は以下のようなものであってもよく、具体的には、仮に活性な動作モードが第１動作モードである場合、モード依存セットはセット４０のように振舞い、すなわちモード依存セットは第１サブセット３０に対して分離され、かつ第２サブセット３２と重なり、これに対して、仮に活性な動作モードが第２動作モードである場合、モード依存セットはセット４２のようであり、すなわち、それは第１サブセット３０と第２サブセット３２の両方と重なる。特に、既に上で注目されたように、第１又は第２動作モードである活性な動作モードとは無関係に、セット４６における可能な値の数は２であり、かつ関連付け装置１０２は次のように構成されてもよく、具体的には、仮に活性な動作モードが第１動作モードである場合、モード依存セットは周波数領域フレーム符号化モードＡ及びＢを備え、かつ周波数領域符号器１０６は、モードＡ又はモードＢであるそれらのフレームに依存して、それぞれの部分１１６ａ−１１６ｃを符号化する際、異なる時間−周波数分解能を用いるように構成されていてもよい。

図６は、既に上で注目された事実に対応する時間領域符号器１０４及び周波数領域符号器１０６の可能な実施のための実施形態を示す。この実施形態によれば、符号励振された線形予測符号化が、時間領域フレーム符号化モードに対して使用されてもよく、その一方で、変換符号化された励振線形予測符号化が周波数領域符号化モードに対して使用される。したがって、図６によれば、時間領域符号器１０４は符号励振された線形予測符号器であり、周波数領域符号器１０６は、関連付けられた任意の周波数領域フレーム符号化モードを有する部分を、変換係数レベルを用いて符号化し、データストリーム１１４の対応フレーム１１８ａ−１１８ｃの中に入れるように構成された変換符号器である。

時間領域符号器１０４及び周波数領域符号器１０６に対する可能な実施を説明するために、図６が参照される。図６によれば、周波数領域符号器１０６及び時間領域符号器１０４は、ＬＰＣアナライザ１３０を共同所有、又は分担する。しかしながら、注目されるべきことであるが、この環境は本実施形態にとって重大なものではなく、かつ異なる実施も可能であり、異なる実施によれば、符号器１０４及び１０６は、お互いに完全に切り離される。そのうえ、図１及び図４に関して上で説明された復号器の実施形態ばかりでなく、符号器の実施形態に関しても、本発明は、両方の符号化モード、すなわち時間領域フレーム符号化モードばかりでなく、周波数領域フレーム符号化モードも、線形予測に基づいているという場合に限定されないことは注目すべきである。むしろ、符号器及び復号器の実施形態はまた、時間領域符号化及び周波数領域符号化のいずれか１つが異なる方法で実施される他の場合に転じることが可能である。

図６の記述に戻ると、周波数領域符号器１０６は、ＬＰＣアナライザ１３０の他に、変換器１３２と、ＬＰＣから周波数領域への重み付け転換器１３４と、周波数領域ノイズ整形器１３６と、量子化器１３８とを備えている。変換器１３２、周波数領域ノイズ整形器１３６及び量子化器１３８は、共通入力１４０と周波数領域符号器１０６の出力１４２との間で直列に接続されている。ＬＰＣ転換器１３４は、ＬＰＣアナライザ１３０の出力と周波数領域ノイズ整形器１３６の重み付け入力との間に接続されている。ＬＰＣアナライザ１３０の入力は、共通入力１４０に接続されている。

時間領域符号器１０４に関しては、時間領域符号器１０４は、ＬＰＣアナライザ１３０の他に、ＬＰＣ解析フィルタ１４４と、符号に基づく励振信号近似器１４６とを備え、これらは両方とも、共通入力１４０と時間領域符号器１０４の出力１４８との間で直列に接続されている。ＬＰ解析フィルタ１４４の線形予測係数入力は、ＬＰＣアナライザ１３０の出力に接続されている。

入力１４０に入るオーディオ信号１１２を符号化する際に、ＬＰＣアナライザ１３０は、オーディオ信号１１２の各部分１１６ａ−１１６ｃに対して線形予測係数を連続的に決定する。ＬＰＣ決定は、連続した（重なっているか、又は重なっていない）オーディオ信号の窓部分の自己相関決定を含んでもよく、その自己相関の結果（好みに応じて、前もって自己相関に遅延ウィンドウ処理を施す）に（ウィーナー）レヴィソン−ダービン［(Wiener-)Levison-Durbin)］・アルゴリズム又はシュール（Schur）・アルゴリズムなどを用いるようなＬＰＣ推定を実行する。

図３及び図４に関して説明されるように、ＬＰＣアナライザ１３０は、フレーム１１８ａ−１１８ｃのフレームレートに等しいＬＰＣ伝送レートで、データストリーム１１４内の線形予測係数に必ずしも信号送信しない。そのレートよりも一層高いレートが、使用されてもよい。一般に、ＬＰＣアナライザ１３０は、ＬＰＣ情報６０及び７６を、自己相関の上述のレートによって定義されるＬＰＣ決定レートで決定してもよく、そのレートは例えばＬＰＣ決定の基になるレートである。その後、ＬＰＣアナライザ１３０は、ＬＰＣ決定レートよりも恐らく低いＬＰＣ伝送レートで、ＬＰＣ情報６０及び７６をデータストリームの中に挿入してもよい。そして、ＴＤ符号器１０４及びＦＤ符号器１０６は、今度は、線形予測係数をＬＰＣ伝送レートよりも高いＬＰＣアプリケーション・レートで更新しながら、線形予測係数を適用するが、これは、伝送されたＬＰＣ情報６０及び７６をデータストリーム１１４のフレーム１１８ａ−１１８ｃ内に内挿することによって行われる。特にＦＤ符号器１０６及びＦＤ復号器は、変換あたり一回、ＬＰＣ係数を適用するので、ＦＤフレーム内のＬＰＣアプリケーション・レートは、ＴＤ符号器／復号器において適用されるＬＰＣ係数がＬＰＣ伝送レートから内挿することによって適合される／更新されるレートよりも低くてもよい。その内挿はまた、復号化側で同期的に実行されてもよいので、一方で時間領域符号器及び周波数領域符号器に対して、かつ他方で時間領域復号器及び周波数領域復号器に対して、同じ線形予測係数が利用可能である。いずれの場合も、ＬＰＣアナライザ１３０は、フレームレートに等しいか又はフレームレートよりも高いあるＬＰＣ決定レートでオーディオ信号１１２に対する線形予測係数を決定し、かつ同じ線形予測係数をデータストリームの中に、恐らくＬＰＣ決定レートに等しいか又はそれよりも低いＬＰＣ伝送レートで挿入する。ＬＰ解析フィルタ１４４は、しかしながら、ＬＰＣ伝送レートよりも高いＬＰＣアプリケーション・レートでＬＰＣ解析フィルタを更新するように、内挿してもよい。ＬＰＣ転換器１３４は、必要なスペクトル重み付け転換に対する各変換又は各ＬＰＣに対して、ＬＰＣ係数を決定するように内挿を実行してもよいし、又は実行しなくてもよい。ＬＰＣ係数を伝送するために、ＬＰＣ係数は、ＬＳＦ／ＬＳＰ領域におけるような適切な領域で量子化に従ってもよい。

時間領域符号器１０４は、以下のように動作する。ＬＰ解析フィルタは、ＬＰＣアナライザ１３０によって出力される線形予測係数に依存して、オーディオ信号１１２の時間領域符号化モード部分をフィルタ処理してもよい。したがって、ＬＰ解析フィルタ１４４の出力に、励振信号１５０が引き出される。励振信号は、近似器１４６によって近似される。特に近似器１４６は、励振信号１５０を近似するために、符号ブック索引又は他のパラメータのような符号を設定するが、これは、一方では励振信号１５０の、例えば偏差によって定義されるある最適化尺度を最小化又は最大化することなどによって、及び、他方では合成された領域において、すなわちＬＰＣによるそれぞれの合成フィルタをそれぞれの励振信号に適用した後において、符号ブック索引によって定義されるような合成的に生成された励振信号を最小化又は最大化することなどによって行われる。最適化尺度は、好みに応じて、知覚的により関連性のある周波数帯での、知覚的に強調された偏差であってもよい。近似器１４６により設定された符号によって決定された革新励振は、革新パラメータと呼ばれることがある。

したがって、近似器１４６は、革新パラメータが、例えばフレームモード構文要素１２２によって、関連付けられた時間領域符号化モードを有する対応フレームの中に挿入されるように、時間領域フレーム符号化モード部分あたり１つ以上の革新パラメータを出力してもよい。周波数領域符号器１０６は、今度は、以下のように動作してもよい。変換器１３２は、１部分あたり１つ以上のスペクトルを得るように、例えば重複変換を用いて、オーディオ信号１１２の周波数領域部分を変換する。変換器１３２の出力で得られたスペクトログラムは、ＬＰＣに従ってスペクトル写真を表す連続したスペクトルを整形する周波数領域ノイズ整形器１３６に入る。この目的のために、ＬＰＣ転換器１３４は、スペクトルにスペクトル的な重み付けをするように、ＬＰＣアナライザ１３０の線形予測係数を、周波数領域重み付け値に転換する。このとき、スペクトル的な重み付けはＬＰ解析フィルタの伝達関数が生じるように実行される。すなわち、ＯＤＴＦが、例えばＬＰＣ係数をスペクトル的重み付けに転換するように使用されてもよい。スペクトル的重み付けは、その後、変換器１３２のスペクトル出力を分割するように使用されてもよく、それ故に、復号器側では逓倍が行われる。

以下で、量子化器１３８は、データストリーム１１４の対応フレーム中への挿入のために、周波数領域ノイズ整形器１３６により生成されて出力される励起スペクトルを変換係数レベル６０の中に量子化する。

上で説明された実施形態によれば、動作モードのある１つのモードの場合に、ＡＣＥＬＰモードを選択することを差し控えるように、ＵＳＡＣ符号器を異なる動作モードで動作するように変更することによって、本願の明細書の導入部分で議論されたＵＳＡＣコーデックを変更する場合、本発明の一実施形態を引き出すことができる。低遅延の達成を可能とするためには、ＵＳＡＣコーデックは、以下の方法でさらに変更することができる。例えば動作モードとは無関係に、ＴＣＸ及びＡＣＥＬＰフレーム符号化モードだけが使用されてもよい。より低い遅延を達成するために、フレーム長は、２０ミリ秒のフレーム化を達成するように縮小してもよい。特に上の実施形態に従ってＵＳＡＣコーデックをより効率的にする際、ＵＳＡＣの動作モード、すなわち狭帯域（ＮＢ）、広帯域（ＷＢ）及び超広帯域（ＳＷＢ）は、全面的に利用可能なフレーム符号化モードの適切なサブセットだけが、個々のモード内で利用可能であるように、続いて説明される表に従って修正してもよい。

上記の表が明らかにするように、上で説明された実施形態において、復号器の動作モードは、外部信号又はデータストリームだけから決定できるだけでなく、それら両方の組み合わせに基づいても決定できる。例えば上記の表では、データストリームは、復号器に主モード、すなわちＮＢ、ＷＢ、ＳＷＢ、ＦＢを、フレームレートよりも恐らく低いあるレートで、データストリームの中に存在する粗い動作モード構文要素として示すことができる。符号器は、構文要素３８に加えてこの構文要素を挿入する。しかしながら、正確な動作モードは、利用可能なビットレートを示す付加的な外部信号の検査を必要としてもよい。例えばＳＷＢの場合には、正確なモードは、４８ｋｂｐｓ未満、４８ｋｂｐｓ以上で９６ｋｂｐｓ未満、又は９６ｋｂｐｓ以上という利用可能なビットレートに依存する。

上の実施形態に関して以下のことに注目すべきことである。他の実施形態によることではあるが、仮に、情報信号のフレーム／時間部分が関連付けることができるすべての複数のフレーム符号化モードのセットが、時間領域フレーム符号化モード又は周波数領域フレーム符号化モードだけからなり（これは異なってもよいが）、その結果、時間領域符号化モードでもなく、周波数領域符号化モードでもない１つ又は１つより多くのフレーム符号化モードもできるとなれば、それは好ましいことである。

いくつかの態様が装置について説明してきたが、これらの態様もまた対応する方法の記述を表し、その対応する方法では、ブロック又はデバイスが、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップについて説明された態様はまた、対応する装置の、対応するブロック、項目又は特徴の記述を表す。いくつかの又はすべての方法ステップは、例えばマイクロプロセッサ、プログラム可能なコンピュータ又は電子回路のような、ハードウエア装置によって（を用いて）実行できる。いくつかの実施形態では、何らかの１つ以上の最も重要な方法ステップが、そのような装置によって実行できる。

ある実施要求事項に依存して、本発明の実施形態は、ハードウエアで、又はソフトウエアで実施できる。その実施は、例えばフロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はＦＬＡＳＨメモリのような、その上に蓄積された電子的に読出し可能な制御信号を有するデジタル記憶媒体を用いて実行でき、これらのデジタル記憶媒体は、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協力する（又は協力することができる）。それゆえに、デジタル記憶媒体は、コンピュータで読出し可能なものとすることができる。

本発明によるいくつかの実施形態は、電子的に読出し可能な制御信号を有するデータ担体を含み、電子的に読出し可能な制御信号は、プログラム可能なコンピュータシステムと協力することができ、その結果、本明細書で説明される方法の１つが実行される。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動く場合、方法の１つを実行するために作動する。プログラムコードは、例えばコンピュータで読み取ることができる担体上に蓄積されてもよい。

他の実施形態は、本明細書で説明される方法の１つを実行するための、コンピュータで読み取ることができる担体上に蓄積されたコンピュータプログラムを含む。

言い換えれば、独創的な方法の実施形態は、それゆえに、コンピュータプログラムであり、これは、コンピュータプログラムがコンピュータ上で動く場合に、本明細書で説明される方法の１つを実行するためのプログラムコードを有する。

独創的な方法のさらなる実施形態は、それゆえに、データ担体（又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体）であり、この上に記録された、本明細書で説明された方法の１つを実行するためのコンピュータプログラムを備える。データ担体、デジタル記憶媒体又は記録媒体は、通常、有形かつ／又は非遷移性のものである。

独創的な方法のさらなる実施形態は、それゆえに、本明細書で説明された方法の１つを実行するためのコンピュータプログラムを表すデータストリーム又は一連の信号である。データストリーム又は一連の信号は、例えば、データ通信接続、例えばインターネット、を介して転送されるように構成してもよい。

さらなる実施形態は、本明細書で説明された方法の１つを実行するように構成された、又は適合された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

さらなる実施形態は、本明細書で説明された方法の１つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。

本発明によるさらなる実施形態は、本明細書で説明された方法の１つを実行するためのコンピュータプログラムを受信器に（例えば電子的に又は光学的に）転送するように構成された装置又はシステムを含む。その受信器は、例えばコンピュータ、携帯機器、メモリ素子などとすることができる。その装置又はシステムとして、例えばコンピュータプログラムを受信器に転送するためのファイルサーバーを含むことができる。

いくつかの実施形態では、プログラム可能な論理デバイス（例えばフィールド・プログラマブル・ゲートアレイ）が、本明細書で説明された方法のいくつかの、又はすべての機能を実行するために使用できる。いくつかの実施形態では、フィールド・プログラマブル・ゲートアレイは、本明細書に説明された方法の１つを実行するために、マイクロプロセッサと協力できる。一般に、それらの方法は、任意のハードウエア装置によって実行されるのが好ましい。

上で説明された実施形態は、本発明の原理のための例証であるにすぎない。配置の変更と変形及び本明細書で説明された詳細が、当業者にとって明白であろうことは理解される。それゆえに、その趣旨は、以下の特許請求項の範囲によってのみ制限されることであり、かつ本明細書中の実施形態の記述及び説明として呈示された特定の詳細によって制限されないことである。

Claims

オーディオ復号器であって、
時間領域復号器（１２）と、
周波数領域復号器（１４）と、
データストリーム（２０）の連続したフレーム（１８ａ−１８ｃ）の各々を、複数のフレーム符号化モード（２２）のモード依存セットの中の１つと関連付けるように構成された関連付け装置（１６）であって、連続したフレーム（１８ａ−１８ｃ）の各々がオーディオ信号の連続した部分（２４ａ−２４ｃ）の対応フレームを表す、関連付け装置（１６）と、
を備え、
前記時間領域復号器（１２）は前記複数のフレーム符号化モード（２２）の１つ以上の第１サブセット（３０）の関連付けられた１つを有するフレーム（１８ａ−１８ｃ）を復号化するように構成され、かつ前記周波数領域復号器（１４）は前記複数のフレーム符号化モード（２２）の１つ以上の第２サブセット（３２）の関連付けられた１つを有するフレーム（１８ａ−１８ｃ）を復号化するように構成され、前記第１及び第２サブセットは互いに分離されており、
前記関連付け装置（１６）は、前記データストリーム（２０）における前記フレーム（１８ａ−１８ｃ）に関連付けられたフレームモード構文要素（３８）に依存する前記関連付けを実行し、かつ、前記データスリーム及び／又は外部制御信号に依存する複数の動作モードから１つの活性な動作モードを選択すると共に、前記活性な動作モードに依存して前記関連付け実行の依存度を変化させながら、前記活性な動作モードで動作するように構成されているオーディオ復号器。
前記関連付け装置（１６）は、仮に前記活性な動作モードが第１動作モードである場合、前記複数のフレーム符号化モードの前記モード依存セット（４０）は前記第１サブセット（３０）に対して分離され、かつ前記第２サブセット（３２）と重なり、かつ、仮に前記活性な動作モードが第２動作モードである場合、前記複数のフレーム符号化モードの前記モード依存セット（４２）は前記第１サブセット（３０）及び第２サブセット（３２）と重なるように構成されている請求項１に記載のオーディオ復号器。
前記フレームモード構文要素は、各フレームに関する前記フレームモード構文要素（３８）についての区別しうる可能な値の数が、前記第１又は第２動作モードである前記活性な動作モードと無関係であるように前記データストリーム（２０）の中に符号化されている請求項１又は２に記載のオーディオ復号器。
前記区別しうる可能な値の数が２であり、
前記関連付け装置（１６）は、前記活性な動作モードが前記第１動作モードである場合、前記モード依存セット（４０）は１つ以上のフレーム符号化モードの前記第２サブセット（３２）の第１及び第２フレーム符号化モードを含むように構成され、かつ、
前記周波数領域復号器（１４）は、関連付けられた前記第１及び第２フレーム符号化モードを有するフレームを復号化する際に、異なる時間−周波数分解能を用いるように構成されている請求項３に記載のオーディオ復号器。
前記時間領域復号器（１２）は符号励振された線形予測復号器である請求項１から４のいずれか１項に記載のオーディオ復号器。
前記周波数領域復号器は、１つ以上の前記フレーム符号化モードの前記第２サブセット（３２）の関連付けられた１つを有する前記フレームを、該フレーム中に符号化された変換係数レベルに基づいて復号化するように構成されている変換復号器である請求項１から５のいずれか１項に記載のオーディオ復号器。
前記時間領域復号器（１２）及び周波数領域復号器は、前記データストリームから各フレームに対する線形予測フィルタ係数を得るように構成された線形予測に基づく復号器であり、
前記時間領域復号器（１２）は、前記複数のフレーム符号化モードの１つ以上の前記第１サブセット（３０）の関連付けられた１つを有する前記フレームに対する前記ＬＰＣフィルタ係数に依存する線形予測合成フィルタを、前記複数のフレーム符号化モードの１つ以上の前記第１サブセットの関連付けられた１つを有する前記フレームにおける符号ブック索引を用いて構築された励振信号に適用することによって、フレーム符号化モードの１つ以上の前記第１サブセットの関連付けられた１つを有する前記フレームに対応する前記オーディオ信号（２６）の部分を再構築するように構成され、かつ、
前記周波数領域復号器（１４）は、前記第２サブセットの関連付けられた１つを有する前記フレームに対する前記ＬＰＣフィルタ係数に従って、前記第２サブセットの関連付けられた１つを有する前記フレームにおける変換係数レベルによって定義された励振スペクトルを整形すると共に、前記整形された励振スペクトルを再変換することによって、
前記フレーム符号化モードの１つ以上の前記第２サブセットの関連付けられた１つを有する前記フレームに対応する前記オーディオ信号の部分を再構築するように構成されている請求項１から６のいずれか１項に記載のオーディオ復号器。
オーディオ符号器であって、
時間領域符号器（１０４）と、
周波数領域符号器（１０６）と、
オーディオ信号（１１２）の連続した部分（１１６ａ−１１６ｃ）の各々を、複数のフレーム符号化モード（２２）のモード依存セット（４０、４２）の中の１つと関連付けるように構成された関連付け装置（１０２）と、
を備え、
前記時間領域符号器（１０４）は、前記複数のフレーム符号化モード（２２）の１つ以上の第１サブセット（３０）の関連付けられた１つを有する部分をデータストリーム（１１４）の対応フレーム（１１８ａ−１１８ｃまで）の中に符号化するように構成され、
前記周波数領域符号器（１０６）は、前記複数の符号化モードの１つ以上の第２サブセット（３２）の関連付けられた１つを有する部分を前記データストリームの対応フレームの中に符号化するように構成され、
前記関連付け装置（１０２）は、複数の動作モードの１つの活性なモードで動作し、前記活性な動作モードが第１動作モードである場合、前記複数のフレーム符号化モードの前記モード依存セット（４０）が前記第１サブセット（３０）に対して分離され、かつ前記第２サブセット（３２）と重なり、前記活性な動作モードが第２動作モードである場合、前記複数の符号化モードの前記モード依存セットが前記第１サブセット（３０）及び第２サブセット（３２）と重なるように構成されているオーディオ符号器。
前記関連付け装置（１０２）は、前記それぞれの部分が前記複数のフレーム符号化モードのどのフレーム符号化モードに関連付けられるかを各部分に対して示すように、フレームモード構文要素（１２２）を前記データストリーム（１１４）の中に符号化するように構成されている請求項８に記載のオーディオ符号器。
前記関連付け装置（１０２）は、それぞれの部分に関連付けられた前記フレームモード構文要素の１組の可能な値と前記フレーム符号化モードの前記モード依存セットとの間での全単写像を使用して、前記フレームモード構文要素（１２２）を前記データストリーム（１１４）の中に符号化し、前記全単写像（５２）が前記活性な動作モードに依存して変化するように構成されている請求項９に記載のオーディオ符号器。
前記関連付け装置（１０２）は、前記活性な動作モードが前記第１動作モードである場合、前記複数のフレーム符号化モードの前記モード依存セットが前記第１サブセット（３０）に対して分離され、かつ前記第２サブセット（３２）と重なり、前記活性な動作モードが第２動作モードである場合、前記複数のフレーム符号化モードの前記モード依存セットが前記第１及び第２サブセットと重なるように構成されている請求項９に記載のオーディオ符号器。
前記１組の可能な値における可能な値の数が２であり、
前記関連付け装置（１０２）は、前記活性な動作モードが前記第１動作モードである場合、前記モード依存セットが、１つ以上のフレーム符号化モードの前記第２セットの第１及び第２フレーム符号化モードを含むように構成され、
前記周波数領域符号器は、関連付けられた前記第１及び第２フレーム符号化モードを有する部分を符号化する際に、異なる時間−周波数分解能を用いるように構成されている請求項１１に記載のオーディオ復号器。
前記時間領域符号器（１０４）は、符号励起された線形予測符号器である請求項８から１２のいずれか１項に記載のオーディオ符号器。
前記周波数領域符号器（１０６）は、前記フレーム符号化モードの１つ以上の前記第２サブセットの関連付けられた１つを有する部分を、変換係数レベルを用いて符号化し、それを前記データストリームの対応フレームの中に入れるように構成された変換符号器である請求項８から１３のいずれか１項に記載のオーディオ符号器。
前記時間領域復号器及び前記周波数領域復号器は、前記オーディオ信号（１１２）の各部分に対してＬＰＣフィルタ係数に信号送信するように構成されたＬＰに基づく符号器であり、
前記時間領域符号器（１０４）は、前記ＬＰＣフィルタ係数に依存するＬＰ解析フィルタを、フレーム符号化モードの１つ以上の前記第１サブセットの関連付けられた１つを有する前記オーディオ信号（１１２）の部分に適用して励振信号（１５０）を得るように、かつ、その励振信号を、符号ブック索引を用いて近似して前記対応フレームの中に挿入するように構成されており、
前記周波数領域符号器（１０６）は、前記フレーム符号化モードの１つ以上の前記第２サブセットの関連付けられた１つを有する前記オーディオ信号の部分を変換してスペクトルを得るように、そのスペクトルを、前記第２サブセットの関連付けられた１つを有する前記部分に対する前記ＬＰＣフィルタ係数に従って整形して励振スペクトルを得るように、その励振スペクトルを、前記第２サブセットの関連付けられた１つを有する前記フレーム内の変換係数レベルに量子化し、かつその量子化された励振スペクトルを前記対応フレームの中に挿入するように構成されている請求項８から１４のいずれか１項に記載のオーディオ符号器。
時間領域復号器（１２）と周波数領域復号器（１４）とを用いるオーディオ復号方法であって、
データストリーム（２０）の連続したフレーム（１８ａ−１８ｃ）の各々を、複数のフレーム符号化モード（２２）のモード依存セットの中の１つに関連付けるためのステップであって、連続したフレーム（１８ａ−１８ｃ）の各々が、オーディオ信号の連続した部分（２４ａ−２４ｃ）の対応フレームを表す、ステップと、
データストリーム（２０）の連続したフレーム（１８ａ−１８ｃ）の各々に関連付けられた前記複数のフレーム符号化モード（２２）の１つ以上の第１サブセット（３０）の１つを有するフレーム（１８ａ−１８ｃ）を、前記時間領域復号器（１２）によって、復号化するステップと、
データストリーム（２０）の連続したフレーム（１８ａ−１８ｃ）の各々に関連付けられる前記複数のフレーム符号化モード（２２）の１つ以上の第２サブセット（３２）の１つを有するフレーム（１８ａ−１８ｃ）を、前記周波数領域復号器（１４）によって、復号化するステップであって、前記第１及び第２サブセットがお互いに分離されている、ステップと、
を備え、
前記関連付けは、前記データストリーム（２０）の中のフレーム（１８ａ−１８ｃ）に関連付けられたフレームモード構文要素（３８）に依存し、
かつ、前記関連付けは、前記データストリーム及び／又は外部制御信号に依存して複数の動作モードの中から選択した１つの活性な動作モードにおいて実行され、その結果、前記関連付け実行の依存度が前記活性な動作モードに依存して変化するオーディオ復号方法。
時間領域符号器（１０４）と周波数領域符号器（１０６）とを用いるオーディオ符号化方法であって、
オーディオ信号（１１２）の連続した部分（１１６ａ−１１６ｃ）の各々を、複数のフレーム符号化モード（２２）のモード依存セット（４０、４２）の中の１つに関連付けるステップと、
オーディオ信号（１１２）の連続した部分（１１６ａ−１１６ｃ）の各々に関連付けられた前記複数のフレーム符号化モード（２２）の１つ以上の第１サブセット（３０）の１つを有する部分を、前記時間領域符号器（１０４）によって、データストリーム（１１４）の対応フレーム（１１８ａ−１１８ｃ）の中に符号化するステップと、
オーディオ信号（１１２）の連続した部分（１１６ａ−１１６ｃ）の各々に関連付けられる前記複数の符号化モードの１つ以上の第２サブセット（３２）の１つを有する部分を、前記周波数領域符号器（１０６）によって、前記データストリームの対応フレームの中に符号化するステップと、
を備え、
前記関連付けが、複数の動作モードの１つの活性なモードにおいて、前記活性な動作モードが第１動作モードである場合、前記複数のフレーム符号化モードの前記モード依存セット（４０）が、前記第１サブセット（３０）に対して分離され、かつ前記第２サブセット（３２）に重なり、かつ、前記活性な動作モードが第２動作モードである場合、前記複数の符号化モードの前記モード依存セットが、前記第１サブセット（３０）及び第２サブセット（３２）と重なるように実行されるオーディオ符号化方法。
コンピュータ上で動くときに請求項１６又は１７による方法を実行するためのプログラムコードを有するコンピュータプログラム。