JP7279160B2

JP7279160B2 - サブバンド併合および時間領域エイリアシング低減を使用した適応的な非均一時間／周波数タイリングによる知覚音声符号化

Info

Publication number: JP7279160B2
Application number: JP2021522453A
Authority: JP
Inventors: ニルシュ・ヴェルナー; ベルンド・エドラー; ザッシャ・ディシュヘ
Original assignee: フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2018-10-26
Filing date: 2019-10-16
Publication date: 2023-05-22
Anticipated expiration: 2039-10-16
Also published as: BR112021007516A2; EP3871215A1; KR102630922B1; EP3871215C0; US20210233544A1; JP2022505789A; WO2020083727A1; US11688408B2; CN113330515B; EP3644313A1; EP3871215B1; CA3118121C; MX2021004636A; CA3118121A1; CN113330515A; KR20210076134A

Description

実施形態は、音声信号のサブバンド表現を取得するために音声信号を処理するための音声処理装置／方法に関する。さらなる実施形態は、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置／方法に関する。いくつかの実施形態は、サブバンド併合および時間領域エイリアシング低減を使用した適応不均一時間／周波数タイリングによる知覚音声符号化に関する。いくつかの実施形態は、不均一なフィルタバンクの多くのパラメータの制御、およびフィルタバンクのマルチチャネル動作への拡張を支援するための方法に関する。

知覚的符号化では、エントロピー、したがってビットレートは、一般に、冗長で知覚的に無関係な情報を破棄することによって低減される。これは、フィルタバンクおよび量子化を使用して達成される。このフィルタバンク、量子化器、および心理音響モデルは、システム［２］全体の符号化効率および知覚品質を最大化するために、量子化ノイズを可能な限りマスキング閾値に近くなるように成形するために一緒に使用される。

合成中、量子化ノイズは、フィルタバンクのインパルスおよび周波数応答のスペクトル形状および時間形状によって時間および周波数で整形される。したがって、量子化ノイズ形状のきめ細かい制御を可能にするために、時間および周波数の両方においてコンパクトなインパルス応答を有するフィルタバンクを使用することが望ましい。

これらの特性を有する最も一般的に使用されるフィルタバンクは、修正離散コサイン変換（ＭＤＣＴ）であり、すべての帯域で均一な時間周波数分解能を有するフィルタバンクである。

しかしながら、人間の聴覚システムは、不均一な時間／周波数分解能［３］を示し、異なる周波数に対して異なるマスキング閾値形状をもたらす。

したがって、本発明の目的は、可聴アーチファクトを低く維持しながら量子化ノイズの量を増加させることを可能にする不均一フィルタバンクを動作させるための概念を提供することである。

この目的は、独立請求項によって解決される。

実施形態は、音声信号のサブバンド表現を取得するために音声信号を処理するための音声処理装置を提供する。音声処理装置は、音声信号のサンプルの第１のブロックに基づいてサブバンドサンプルのセットを取得し、音声信号のサンプルの第２のブロックに基づいてサブバンドサンプルの対応するセットを取得するために、音声信号のサンプルの少なくとも２つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行するように構成されたカスケード重複変換ステージを備える。さらに、音声処理装置は、音声信号のエイリアシング低減サブバンド表現を取得するために、２つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するように構成された時間領域エイリアシング低減ステージを備え、一方は音声信号のサンプルの第１のブロックに基づいて取得され、他方は音声信号のサンプルの第２のブロックに基づいて取得される。それにより、カスケード重複クリティカルサンプル変換ステージは、少なくとも２つの窓関数を使用してサンプルの第１のブロックに基づいて取得されたビンのセットをセグメント化し、サンプルの第１のブロックに対応するビンのセグメント化されたセットに基づいてビンの少なくとも２つのセグメント化されたセットを取得するように構成され、カスケード重複クリティカルサンプル変換ステージは、少なくとも２つの窓関数を使用してサンプルの第２のブロックに基づいて取得されたビンのセットをセグメント化し、サンプルの第２のブロックに対応するビンのセグメント化されたセットに基づいてビンの少なくとも２つのセット［例えば、少なくとも２つの併合因子帯域］［例えば、それぞれ１２８の係数］を取得するように構成され、ビンのセットは、カスケード重複クリティカルサンプル変換ステージの第２の重複クリティカルサンプル変換ステージを使用して［例えば、併合された］処理され、第２の重複クリティカルサンプル変換ステージは、少なくとも１つの［例えば、各］ビンのセットに対して同じフレーム長［例えば、併合因子］を有する重複クリティカルサンプル変換を実行するように構成される。

実施形態では、第２の重複クリティカル変換ステージは、第１のサンプルブロックに対応するビンのセグメント化されたセットに基づいて取得されたビンの少なくとも２つのセットの第１のセット［例えば、１２８の係数のうちの］のＮ_１，１のサブセットに対してＮ_１，１の重複クリティカルサンプル変換を実行するように構成され、Ｎ_１，１の重複クリティカルサンプル変換は同じフレーム長［例えば、併合因子］を含み、Ｎ_１，１は２以上の自然数である。

実施形態では、第２の重複クリティカル変換ステージは、第２のサンプルブロックに対応するビンのセグメント化されたセットに基づいて得られたビンの少なくとも２つのセットの対応する第１のセット［例えば、１２８の係数のうちの］のＮ_１，２のサブセット［例えば、等しい長さの］に対してＮ_１，２の重複クリティカルサンプル変換を実行するように構成され、Ｎ_２，１の重複クリティカルサンプル変換は同じフレーム長［例えば、併合因子］を含み、Ｎ_２，１は２以上の自然数である。

実施形態では、音声処理装置は、ビンの各セットまたはビンの対応するセットのそれぞれについてフレーム長［例えば、併合因子］を個別に選択するように構成される。

例えば、処理装置は、各セットに対して併合因子を選択することができ、それによって、例えば、改善された、またはさらに最高の可能な符号化効率を達成することができる。

実施形態では、音声処理装置は、サンプルの各ブロックのフレーム長［例えば、併合係数］を個別に選択するように構成される。

例えば、処理装置は、ブロックごとに併合因子を選択することができ、それによって、例えば、改善された、またはさらに最高の可能な符号化効率を達成することができる。

実施形態では、音声処理装置は、同じフレーム長［例えば、併合因子］が２つの後続のブロックに使用される場合、時間領域エイリアシング低減ステージのアクティブ化をアクティブ化または維持するように構成され、かつ／または音声処理装置は、異なるフレーム長が２つの後続のブロックに使用される場合、時間領域エイリアシング低減ステージを非アクティブ化または非アクティブ化を維持するように構成される。

例えば、ＴＤＡＲにより、ブロック間に依存関係が存在する。併合因子が維持される場合、ＴＤＡＲが可能である。２つの後続のブロックの併合係数が異なる場合、ＴＤＡＲは非アクティブ化される。したがって（任意選択で）、処理装置は、併合因子を適合させるために共通／共同最適化を実行するように構成することができ、例えば、サブバンドサンプル［ｍｅｒｇｅｆａｃｔｏｒｂａｎｄ］のセットごとにトレリスグリッドを適合させる。

実施形態では、処理装置は、併合因子を適合させるために共通／共同最適化を実行するように構成される［例えば、サブバンドサンプルのセット毎のトレリスグリッド［ｍｅｒｇｅｆａｃｔｏｒｂａｎｄ］］。

実施形態では、少なくとも２つの窓関数は、同じ窓幅［例えば、スペクトルを同じサイズの少なくとも２つの［例えば、８］併合因子帯域に分割する［例えば、それぞれ１２８の係数］］を含む。

実施形態では、少なくとも２つの窓関数は、異なる窓幅［例えば、異なるサイズの少なくとも２つの併合因子帯域にスペクトルを分割するために、］を含む。

実施形態では、少なくとも２つの窓関数は、実質的に長方形の窓を含む。

実施形態では、少なくとも２つの窓関数に基づいて取得されたビンのセットは、第２の重複クリティカルサンプル変換ステージを使用して処理され［例えば、併合された］、第２の重複クリティカルサンプル変換ステージは、少なくとも２つの窓関数に基づいて取得されたビンのセットの少なくとも１つ［例えば、各］に対して同じフレーム長［例えば、併合因子］を有する少なくとも２つの重複クリティカルサンプル変換を実行するように構成される。

実施形態では、音声処理装置は、ジョイントチャネル符号化を実行するように構成される。

実施形態では、音声処理装置は、ジョイントチャネル処理としてＭ／ＳまたはＭＣＴを実行するように構成される。

実施形態では、音声処理装置は、少なくとも２つのセグメント化されたビンのセット［例えば、各併合因子帯域のジョイントチャネル処理を個別にアクティブ化または非アクティブ化するために、例えば、カスケード重複クリティカルサンプル変換ステージの第１のラップされたクリティカルサンプル変換ステージと第２のラップされたクリティカルサンプル変換ステージとの間］の各々について個別にジョイントチャネル処理をアクティブ化または非アクティブ化するように構成される。

実施形態では、音声処理装置は、音声信号の符号化エイリアシング低減サブバンド表現からビットストリームを形成するように構成され、音声処理装置は、ビットストリーム内のビンの対応するセットの少なくとも１つのフレーム長［例えば、併合因子］をシグナリングする少なくとも１つのＭＦパラメータを含むビットストリームを提供するように構成される。

実施形態では、音声処理装置は、少なくとも１つのＭＦパラメータをエントロピー符号化するように構成される。

実施形態では、音声処理装置は、ビットストリーム内のビンの対応するセットのフレーム長［例えば、併合因子］をシグナリングするＭＦパラメータのサブセットのみを含むビットストリームを提供するように構成される。

実施形態では、音声処理装置は、ビンの各対応するセットのＴＤＡＲパラメータを含むビットストリームを提供するように構成される。

実施形態では、音声処理装置は、ＭＦおよびＴＤＡＲパラメータのジョイント・エントロピー・符号化を実行するように構成される。

実施形態では、音声処理装置は、ＴＤＡＲパラメータが少なくとも１つのＭＦパラメータ［例えば、受信機または複号器サイトにおいて］から導出可能であるように、少なくとも１つのＭＦパラメータを含むビットストリームを提供するように構成される。

例えば、音声処理装置によって提供されるビットストリームにＴＤＡＲパラメータを含める代わりに、前記ＴＤＡＲパラメータは、少なくとも１つのＭＦパラメータから導出可能である。例えば、２つの後続のフレームにおける等しいＭＦパラメータは、ＴＤＡＲがアクティブであることを示しうる。ここで、トウの後続のフレームにおける異なるＭＦパラメータは、ＴＤＡＲが非アクティブであることを示しうる。

実施形態では、音声処理装置は、サブバンドサンプル［ｍｅｒｇｅｆａｃｔｏｒｂａｎｄ］のセットごとにトレリスグリッドを使用するように構成される。

さらなる実施形態は、音声符号化器を提供し、音声符号化器は、上述の実施形態のうちの１つによる音声処理装置を備え、音声符号化器は、音声信号の符号化されたエイリアシング低減サブバンド表現を得るために、音声信号のエイリアシング低減サブバンド表現を符号化するように構成された符号化器を備え、音声符号化器は、音声信号の符号化されたエイリアシング低減サブバンド表現からビットストリームを形成するように構成されたビットストリーム形成器を備える。

さらなる実施形態は、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置を提供する。音声処理装置は、エイリアスされたサブバンド表現を得るために、音声信号の２つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するように構成された逆時間領域エイリアシング低減ステージを備え、エイリアスされたサブバンド表現は、サブバンドサンプルのセットである。さらに、音声処理装置は、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するように構成されたカスケード逆重複クリティカルサンプル変換ステージを備える。それにより、カスケード逆重複クリティカルサンプル変換ステージは、音声信号の所与のサブバンドに関連付けられたビンのセットを取得するために、サブバンドサンプルのセットに対して逆重複クリティカルサンプル変換を実行するように構成された第１の逆重複クリティカルサンプル変換ステージを備え、第１の逆重複クリティカルサンプル変換ステージは、サブバンドサンプルのセットに対して同じフレーム長［例えば、併合因子］を有する逆重複クリティカルサンプル変換を実行するように構成される。

実施形態では、第１の逆重複クリティカルサンプル変換ステージは、サブバンドサンプルのセットのＮ_１，１のサブセットに対してＮ_１，１の逆重複クリティカルサンプル変換を実行するように構成され、Ｎ_１，１の重複クリティカルサンプル変換は、同じフレーム長［例えば、併合因子］を含み、Ｎ_１，１は、２以上の自然数である。

さらなる実施形態は、音声複号器を提供し、音声複号器は、符号化されたエイリアシング低減サブバンド表現を得るために、ビットストリームを解析するように構成されたビットストリームパーサを備え、音声複号器は、音声信号のエイリアシング低減サブバンド表現を得るために、符号化されたエイリアシング低減サブバンド表現を復号するように構成された複号器を備え、音声複号器は、上述の実施形態のうちの１つによる音声処理装置を備える。

さらなる実施形態は、音声信号のサブバンド表現を取得するために音声信号を処理するための方法を提供する。本方法は、音声信号のサンプルの第１のブロックに基づいてサブバンドサンプルのセットを取得し、音声信号のサンプルの第２のブロックに基づいてサブバンドサンプルの対応するセットを取得するために、音声信号のサンプルの少なくとも２つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行するステップを含む。さらに、本方法は、音声信号のエイリアシング低減サブバンド表現を取得するために、２つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するステップを含み、一方は音声信号のサンプルの第１のブロックに基づいて取得され、他方は音声信号のサンプルの第２のブロックに基づいて取得される。それにより、カスケード重複クリティカルサンプル変換を実行することは、少なくとも２つの窓関数を使用してサンプルの第１のブロックに基づいて取得されたビンのセットをセグメント化することと、サンプルの第１のブロックに対応するビンのセグメント化されたセットに基づいて、ビンの少なくとも２つのセグメント化されたセット［例えば、少なくとも２つの併合因子帯域］を取得することとを含み、カスケード重複クリティカルサンプル変換を実行することは、少なくとも２つの窓関数を使用してサンプルの第２のブロックに基づいて取得されたビンのセットをセグメント化することと、サンプルの第２のブロックに対応するビンのセグメント化されたセットに基づいてビンの少なくとも２つのセット［例えば、少なくとも２つの併合因子帯域］を取得することとを含み、第２の重複クリティカルサンプル変換は、少なくとも１つのビンのセットは［例えば、各々］に対して同じフレーム長を有する［例えば、併合された］重複クリティカルサンプル変換を実行することとを含む。

さらなる実施形態は、音声信号を取得するために音声信号のサブバンド表現を処理するための方法を提供する。本方法は、エイリアスされたサブバンド表現を得るために、音声信号の２つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するステップを含み、エイリアスされたサブバンド表現は、サブバンドサンプルのセットである。さらに、本方法は、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するステップを含み、カスケード逆重複クリティカルサンプル変換を実行するステップは、音声信号の所与のサブバンドに関連付けられたビンのセットを取得するために、サブバンドサンプルのセットに対して第１の逆重複クリティカルサンプル変換を実行するステップを含み、第１の逆重複クリティカルサンプル変換を実行するステップは、サブバンドサンプルのセットに対して同じフレーム長［例えば、併合因子］を有する逆重複クリティカルサンプル変換を実行するステップを含む。

実施形態は、高周波および低周波の両方でマスキング閾値をより厳密に追従することができることによって、可聴アーチファクトを導入することなく、より多くの量子化ノイズの導入を可能にし、それによって均一なフィルタバンクよりも低いビットレートを可能にするコンパクトなインパルス応答を有する不均一なフィルタバンクを提供する。

実施形態では、併合因子帯域への分割が実行される。それにより、多くの全く異なる併合レイアウトが可能である。しかしながら、高い柔軟性のために、システム全体を最適化することは非常に困難である。したがって、実施形態では、スペクトルは、同じ併合因子（ＭＦ）が常に使用される（以下の２．１．１項を比較されたい。）併合因子帯域（ＭＦＢ）に分割される。全ての併合因子帯域がこのように独立して制御され得るので（図１７を比較されたい）、併合因子帯域縁部で重なり合わない長方形の窓を使用することができる。

実施形態では、ジョイントチャネル処理（Ｍ／Ｓまたはマルチチャネル符号化ツール（ＭＣＴ）［１２］）が実行される。一般に、Ｍ／ＳまたはＭＣＴはまた、サブバンド併合およびＴＤＡＲとともに使用され得る。ミッドチャネルおよびサイドチャネルは、フレームごとに異なるＭＦパラメータおよびＴＤＡＲパラメータを独立して使用し得る。

実施形態では、Ｍ／ＳまたはＭＣＴは、併合因子帯域ごとに個別にオン／オフに切り替えられる。ジョイントステレオの拡張は、第１のＭＤＣＴと第２の併合ＭＤＣＴとの間でバンド状にジョイントステレオをオン／オフすることである。これは、例えばＭＦＢごとのＭＳ／ＭＣＴの周波数選択的活性化を可能にする。しかしながら、ＴＤＡＲは、同じジョイントステレオ構成（例えば、Ｌ／ＲとＭ／Ｓとの間にＴＤＡＲがない場合）を有する２つのフレーム間でのみ可能である。

実施形態では、併合因子決定のための既存の方法から窓切り替え判定器が使用される。既存の方法では、長い／短い窓のための判定器制御がある。いくつかの状況では、これらの決定因子もＭＦに使用され得る。

実施形態では、併合係数はビットストリームでシグナリングされる（エントロピー符号化およびいくつかのＭＦパラメータの相互処理を含む）。一般的に言えば、現在のフレームのＭＦをシグナリングするために、ビットストリームに数ビットが必要である。これらのビットはエントロピー符号化されてもよい。加えて、ビットはそれらの間で符号化されてもよい。背景：２、８、１、２、１６、３２などの様々なＭＦは、４、４、８、８、１６、１６などのより均一なＭＦよりも可能性が低いと考えられる。この相関は、例えば差分符号化によってデータを保存するために使用され得る。

実施形態では、より少ない併合因子が送信され、欠落した併合因子を近隣から導出／補間することができる。ＭＦが実際に前のセクションのように均一である場合、すべてのＭＦを少数のＭＦから補間することもできる。
実施形態では、ＴＤＡＲパラメータはＭＦパラメータから導出される。ＴＤＡＲは、ＭＦＢ当たり１ビットとして送信されてもよい。あるいは、ＴＤＡＲビットは、ＭＦビットから導出されてもよい（２つの連続するフレームにおける同じＭＦパラメータ＝ＴＤＡＲｏｎ）。その場合、ＴＤＡＲにいかなるサイド情報も必要としない。

実施形態では、ＭＦパラメータおよびＴＤＡＲパラメータの相互エントロピー符号化が実行される。ＭＦ値およびＴＤＡＲ値は、相互にエントロピー符号化されうる。

この場合、８ＭＦＢおよび６ＭＦでは、

のみ

ビット。

実施形態では、併合因子帯域は不均一に分割される。簡単にするために、以下の説明では均一なＭＦＢが想定される。しかしながら、これらは不均一になることもある。実現可能な分割は、おそらくスケールファクタ帯域（ＳＦＢ）と同一である。次に、ＳＦＢごとに１つのスケールファクタおよび１つの併合因子が送信される。

実施形態では、併合因子のトレリスベースの最適化が実行される。音声符号化のためのトレリスグリッドの使用は、既に最先端技術である［７］。しかしながら、従来のシステムは、単一のトレリスのみを使用することができる。一方、実施形態によれば、ＭＦＢごとに１つのトレリスを使用することができる。

さらなる実施形態は、音声信号のサブバンド表現を取得するために音声信号を処理するための音声処理装置を提供する。音声処理装置は、カスケード重複クリティカルサンプル変換ステージと、時間領域エイリアシング低減ステージとを備える。カスケード重複クリティカルサンプル変換ステージは、音声信号のサンプルの少なくとも２つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行し、音声信号のサンプルの第１のブロックに基づいてサブバンドサンプルのセットを取得し、音声信号のサンプルの第２のブロックに基づいてサブバンドサンプルの対応するセットを取得するように構成される。時間領域エイリアシング低減ステージは、音声信号のエイリアシング低減サブバンド表現を取得するために、２つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するように構成され、一方は音声信号のサンプルの第１のブロックに基づいて取得され、他方は音声信号のサンプルの第２のブロックに基づいて取得される。

さらなる実施形態は、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置を提供する。音声処理装置は、逆時間領域エイリアシング低減ステージと、カスケード逆重複クリティカルサンプル変換ステージとを備える。逆時間領域エイリアシング低減ステージは、エイリアスされたサブバンド表現を得るために、音声信号の（部分的に重なり合うサンプルの異なるブロックの）２つの対応するエイリアシング低減サブバンド表現の重み付けされた（シフトされた）組み合わせを実行するように構成され、エイリアスされたサブバンド表現は、サブバンドサンプルのセットである。カスケード逆重複クリティカルサンプル変換ステージは、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するように構成される。

本発明の概念によれば、追加の後処理ステージが重複クリティカルサンプル変換（例えば、ＭＤＣＴ）パイプラインに追加され、追加の後処理ステージは、周波数軸に沿った別の重複クリティカルサンプル変換（例えば、ＭＤＣＴ）と、各サブバンド時間軸に沿った時間領域エイリアシング低減とを含む。これにより、追加の冗長性を導入せず、重複されたクリティカルサンプル変換フレーム遅延を低減しながら、インパルス応答の時間的コンパクトさを改善した重複されたクリティカルサンプル変換（例えば、ＭＤＣＴ）スペクトログラムから任意の周波数スケールを抽出することができる。

さらなる実施形態は、音声信号のサブバンド表現を取得するために音声信号を処理するための方法を提供する。本方法は、

音声信号のサンプルの第１のブロックに基づいてサブバンドサンプルのセットを取得し、音声信号のサンプルの第２のブロックに基づいてサブバンドサンプルの対応するセットを取得するために、音声信号のサンプルの少なくとも２つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行するステップと、および

音声信号のエイリアシング低減サブバンド表現を取得するために、２つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するステップであって、一方は音声信号のサンプルの第１のブロックに基づいて取得され、他方は音声信号のサンプルの第２のブロックに基づいて取得される、ステップと、を含む。

さらなる実施形態は、音声信号を取得するために音声信号のサブバンド表現を処理するための方法を提供する。本方法は、

エイリアスされたサブバンド表現を得るために、前記音声信号の（部分的に重なり合うサンプルの異なるブロックの）２つの対応するエイリアシング低減サブバンド表現の重み付けされた（およびシフトされた）組み合わせを実行するステップであって、前記エイリアスされたサブバンド表現は、サブバンドサンプルのセットである、ステップと、および

音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するステップと、を含む。

有利な実施態様は、従属請求項に記載されている。

続いて、音声信号のサブバンド表現を取得するために音声信号を処理するための音声処理装置の有利な実装形態について説明する。

実施形態では、カスケード重複クリティカルサンプル変換ステージは、カスケードＭＤＣＴ（ＭＤＣＴ＝修正離散コサイン変換）、ＭＤＳＴ（ＭＤＳＴ＝修正離散サイン変換）、またはＭＬＴ（ＭＬＴ＝変調重複変換）ステージとすることができる。

実施形態では、カスケード重複クリティカルサンプル変換ステージは、第１のサンプルブロックのためのビンの第１のセットおよび第２のサンプルブロックのためのビンの第２のセット（重複クリティカルサンプリング係数）を得るために、音声信号のサンプルの少なくとも２つの部分的に重なり合うブロックのうちのサンプルの第１のブロックおよびサンプルの第２のブロックに対して重複クリティカルサンプル変換を実行するように構成された第１の重複クリティカルサンプル変換ステージを備えることができる。

第１の重複クリティカルサンプル変換ステージは、第１のＭＤＣＴ、ＭＤＳＴ、またはＭＬＴステージとすることができる。
カスケード重複クリティカルサンプル変換ステージは、ビンの第１のセットのセグメント（適切なサブセット）に対して重複クリティカルサンプル変換を実行し、ビンの第２のセットのセグメント（適切なサブセット）に対して重複クリティカルサンプル変換を実行するように構成された第２の重複クリティカルサンプル変換ステージをさらに含むことができ、各セグメントは、ビンの第１のセットのサブバンドサンプルのセットおよびビンの第２のセットのサブバンドサンプルのセットを取得するために、音声信号のサブバンドに関連付けられている。

第２の重複クリティカルサンプル変換ステージは、第２のＭＤＣＴ、ＭＤＳＴ、またはＭＬＴステージとすることができる。

それにより、第１および第２の重複クリティカルサンプル変換ステージは、同じタイプ、すなわちＭＤＣＴ、ＭＤＳＴまたはＭＬＴステージのうちの１つであり得る。

実施形態では、第２の重複クリティカルサンプル変換ステージは、ビンの第１のセットの少なくとも２つの部分的に重なり合うセグメント（適切なサブセット）に対して重複クリティカルサンプル変換を実行し、ビンの第２のセットの少なくとも２つの部分的に重なり合うセグメント（適切なサブセット）に対して重複クリティカルサンプル変換を実行するように構成することができ、各セグメントは音声信号のサブバンドに関連付けられており、ビンの第１のセットに対してサブバンドサンプルの少なくとも２つのセットを取得し、ビンの第２のセットに対してサブバンドサンプルの少なくとも２つのセットを取得する。

それにより、サブバンドサンプルの第１のセットは、ビンの第１のセットの第１のセグメントに基づいて、第１の重複したクリティカルサンプル変換の結果とすることができ、サブバンドサンプルの第２のセットは、ビンの第１のセットの第２のセグメントに基づいて、第２の重複したクリティカルサンプル変換の結果とすることができ、サブバンドサンプルの第３のセットは、ビンの第２のセットの第１のセグメントに基づいて、第３の重複したクリティカルサンプル変換の結果とすることができ、サブバンドサンプルの第４のセットは、ビンの第２のセットの第２のセグメントに基づいて、第４の重複したクリティカルサンプル変換の結果とすることができる。時間領域エイリアシング低減ステージは、第１のサブバンドサンプルのセットと第３のサブバンドサンプルのセットとの重み付き組み合わせを実行して、音声信号の第１のエイリアシング低減サブバンド表現を取得し、第２のサブバンドサンプルのセットと第４のサブバンドサンプルのセットとの重み付き組み合わせを実行して、音声信号の第２のエイリアシング低減サブバンド表現を取得するように構成することができる。

実施形態では、カスケード重複クリティカルサンプル変換ステージは、少なくとも２つの窓関数を使用して第１のサンプルブロックに基づいて取得されたビンのセットをセグメント化し、第１のサンプルブロックに対応するセグメント化されたビンのセットに基づいて少なくとも２つのサブバンドサンプルのセットを取得するように構成することができ、カスケード重複クリティカルサンプル変換ステージは、少なくとも２つの窓関数を使用して第２のサンプルブロックに基づいて取得されたビンのセットをセグメント化し、第２のサンプルブロックに対応するセグメント化されたビンのセットに基づいて少なくとも２つのサブバンドサンプルのセットを取得するように構成することができ、少なくとも２つの窓関数は異なる窓幅を含む。

実施形態では、カスケード重複クリティカルサンプル変換ステージは、少なくとも２つの窓関数を使用してサンプルの第１のブロックに基づいて取得されたビンのセットをセグメント化し、サンプルの第１のブロックに対応するセグメント化されたビンのセットに基づいてサブバンドサンプルの少なくとも２つのセットを取得するように構成することができ、カスケード重複クリティカルサンプル変換ステージは、少なくとも２つの窓関数を使用してサンプルの第２のブロックに基づいて取得されたビンのセットをセグメント化し、サンプルの第２のブロックに対応するセグメント化されたビンのセットに基づいてサブバンドサンプルの少なくとも２つのセットを取得するように構成することができ、サブバンドサンプルの隣接するセットに対応する窓関数のフィルタ勾配は対称である。

実施形態では、カスケード重複クリティカルサンプル変換ステージは、第１の窓関数を使用して音声信号のサンプルを第１のサンプルブロックおよび第２のサンプルブロックにセグメント化するように構成することができ、ラップされたクリティカルサンプル変換ステージは、対応するサブバンドサンプルを取得するために、第２の窓関数を使用して、第１のサンプルブロックに基づいて取得されたビンのセットおよび第２のサンプルブロックに基づいて取得されたビンのセットをセグメント化するように構成することができ、第１の窓関数および第２の窓関数は異なる窓幅を含む。

実施形態では、カスケード重複クリティカルサンプル変換ステージは、第１の窓関数を使用して音声信号のサンプルを第１のサンプルブロックおよび第２のサンプルブロックにセグメント化するように構成することができ、ラップされたクリティカルサンプル変換ステージは、対応するサブバンドサンプルを取得するために、第２の窓関数を使用して、第１のサンプルブロックに基づいて取得されたビンのセットおよび第２のサンプルブロックに基づいて取得されたビンのセットをセグメント化するように構成することができ、第１の窓関数の窓幅および第２の窓関数の窓幅は互いに異なり、第１の窓関数の窓幅および第２の窓関数の窓幅は、２の累乗とは異なる係数だけ異なる。

続いて、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置の有利な実装形態について説明する。

実施形態では、逆カスケード重複クリティカルサンプル変換ステージは、逆カスケードＭＤＣＴ（ＭＤＣＴ＝修正離散コサイン変換）、ＭＤＳＴ（ＭＤＳＴ＝修正離散サイン変換）、またはＭＬＴ（ＭＬＴ＝変調重複変換）ステージとすることができる。

実施形態では、カスケード逆重複クリティカルサンプル変換ステージは、音声信号の所与のサブバンドに関連するビンのセットを取得するために、サブバンドサンプルのセットに対して逆重複クリティカルサンプル変換を実行するように構成された第１の逆重複クリティカルサンプル変換ステージを含むことができる。

第１の逆重複クリティカルサンプル変換ステージは、第１の逆ＭＤＣＴ、ＭＤＳＴ、またはＭＬＴステージとすることができる。

実施形態では、カスケード逆重複クリティカルサンプル変換ステージは、音声信号のサンプルのブロックに関連付けられたビンのセットを取得するために、音声信号の所与のサブバンドに関連付けられたビンのセットと、音声信号の別のサブバンドに関連付けられたビンのセットとの重み付き組み合わせを含む、音声信号の複数のサブバンドに関連付けられたビンのセットの連結を実行するように構成された第１の重複加算ステージを含むことができる。

実施形態では、カスケード逆重複クリティカルサンプル変換ステージは、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、音声信号のサンプルのブロックに関連付けられたビンのセットに対して逆重複クリティカルサンプル変換を実行するように構成された第２の逆重複クリティカルサンプル変換ステージを含むことができる。

第２の逆重複クリティカルサンプル変換ステージは、第２の逆ＭＤＣＴ、ＭＤＳＴ、またはＭＬＴステージとすることができる。

それにより、第１および第２の逆重複クリティカルサンプル変換ステージは、同じタイプ、すなわち逆ＭＤＣＴ、ＭＤＳＴまたはＭＬＴステージのうちの１つであり得る。

実施形態では、カスケード逆重複クリティカルサンプル変換ステージは、音声信号を取得するために、音声信号のサンプルのブロックに関連付けられたサンプルのセットと、音声信号のサンプルの別のブロックに関連付けられたサンプルの別のセットとを重複および加算するように構成された第２の重複および加算ステージを含むことができ、サンプルのブロックおよび音声信号のサンプルの別のブロックは部分的に重なり合う。

本発明の実施形態は、添付の図面を参照して本明細書で説明される。

一実施形態による、音声信号を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置の概略ブロック図である。さらなる実施形態による、音声信号を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置の概略ブロック図である。さらなる実施形態による、音声信号を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置の概略ブロック図である。一実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置の概略ブロック図である。さらなる実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置の概略ブロック図である。さらなる実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための音声処理装置の概略ブロック図である。サブバンドサンプルの一例（上のグラフ）およびそれらのサンプルの時間および周波数に対する広がり（下のグラフ）を図で示す。いくつかの異なる変換によって得られたスペクトルおよび時間の不確実性を示す図である。ＴＤＡＲ、単純なＭＤＣＴショートブロック、およびＨａｄａｍａｒｄ行列サブバンドの併合の有無によるサブバンド併合によって生成された２つの例示的なインパルス応答の比較を図で示す。一実施形態による、音声信号のサブバンド表現を取得するために音声信号を処理するための方法のフローチャートである。一実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための方法のフローチャートである。一実施形態による、音声符号化器の概略ブロック図である。一実施形態による、音声複号器の概略ブロック図である。一実施形態による、音声分析器の概略ブロック図である。本発明の一実施形態による、図２および図３に示す音声処理装置の第２のラップされたクリティカルサンプル変換ステージのラップされたクリティカルサンプル変換サブステージの概略ブロック図である。本発明の一実施形態による、図５および図６に示す音声処理装置の第１の逆重複クリティカルサンプル変換ステージの逆重複クリティカルサンプル変換サブステージの概略ブロック図である。本発明の一実施形態による、ビンのセットを取得するためにビンのセットをセグメント化するために使用される窓関数を示す図である。コーダによって行われた併合因子（ＭＦ）および時間領域エイリアシング低減（ＴＤＡＲ）の選択の分布を図で示す。３９の試験項目にわたって異なる歪みパラメータｑについての２つのシステムの平均ビットレートを図で示す。テーブル品質設定およびそれらの歪みパラメータｑおよび結果として得られる平均ビットレートを示す図である。異なる試験項目を表に列挙した図である。わずかに損なわれた（ＭＱ）および中程度に損なわれた（ＬＱ）品質設定での窓切り替えフィルタバンク（ＷＳ）とサブバンド併合フィルタバンク（ＳＭ）との間の差の対ＭＵＳＨＲＡスコアについての正常性についてのシャピロウィルク検定の結果を示す表である。わずかに損なわれた（ＭＱ）および中程度に損なわれた（ＬＱ）品質設定における窓切り替えフィルタバンク（ＷＳ）とサブバンド結合フィルタバンク（ＳＭ）との間のＭＵＳＨＲＡスコア差の分布およびカーネル密度推定値を図で示す。わずかに損なわれた（ＭＱ）および中程度に損なわれた（ＬＱ）品質設定での窓スイッチングフィルタバンク（ＷＳ）およびサブバンド併合フィルタバンク（ＳＭ）を比較したＭＵＳＨＲＡスコアの平均、標準偏差（ＳＤ）、およびウィルコクソンの符号付き順位検定結果を示す表である。わずかに損なわれた（ＭＱ）および中程度に損なわれた（ＬＱ）品質設定での個々の項目、窓切り替えフィルタバンクおよびサブバンド併合フィルタバンクについてのＭＵＳＨＲＡスコア差の平均および９５％信頼区間を図で示す。一実施形態による、音声信号のサブバンド表現を取得するために音声信号を処理するための方法のフローチャートである。および一実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための方法を示すフローチャートである。

同等または同等の要素または同等または同等の機能を有する要素は、以下の説明では同等または同等の参照番号で示される。

以下の説明では、本発明の実施形態のより完全な説明を提供するために、複数の詳細が記載される。しかしながら、本発明の実施形態がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の例では、本発明の実施形態を不明瞭にすることを避けるために、周知の構造およびデバイスが詳細ではなくブロック図形式で示されている。さらに、以下に説明する異なる実施形態の特徴は、特に明記しない限り、互いに組み合わせることができる。

最初に、セクション１では、２つのＭＤＣＴおよび時間領域エイリアシング低減（ＴＤＡＲ）のカスケードに基づく不均一な直交フィルタバンクが説明され、時間および周波数［１］の両方においてコンパクトなインパルス応答を達成することができる。その後、セクション２において、音声コーダのシナリオにおけるそのような不均一なフィルタバンクの知覚品質が評価され、アドバンスト音声符号化（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ：ＡＡＣ）［２］などの現在のコーダで使用されるような窓切り替えを伴う均一なフィルタバンクの性能と比較される。

１．２つのＭＤＣＴおよび時間領域エイリアシング低減（ＴＤＡＲ）のカスケードに基づく不均一な直交フィルタバンク

図１は、一実施形態による、音声信号１０２を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置１００の概略ブロック図を示す。音声処理装置１００は、カスケード重複クリティカルサンプル変換（ＬＣＳＴ）ステージ１０４と、時間領域エイリアシング低減（ＴＤＡＲ）ステージ１０６とを備える。

カスケード重複クリティカルサンプル変換ステージ１０４は、音声信号１０２のサンプルの少なくとも２つの部分的に重なり合うブロック１０８＿１および１０８＿２に対してカスケード重複クリティカルサンプル変換を実行して、音声信号１０２の（サンプルの少なくとも２つの重なり合うブロック１０８＿１および１０８＿２の）サンプルの第１のブロック１０８＿１に基づいてサブバンドサンプルのセット１１０＿１，１を取得し、音声信号１０２の（サンプルの少なくとも２つの重なり合うブロック１０８＿１および１０８＿２の）サンプルの第２のブロック１０８＿２に基づいてサブバンドサンプルの対応するセット１１０＿２，１を取得するように構成される。

時間領域エイリアシング低減ステージ１０４は、２つの対応するサブバンドサンプルのセット１１０＿１，１および１１０＿２，１（すなわち、同じサブバンドに対応するサブバンドサンプル）の重み付き組み合わせを実行し、一方は音声信号１０２のサンプルの第１のブロック１０８＿１に基づいて取得され、他方は音声信号のサンプルの第２のブロック１０８＿２に基づいて取得され、音声信号１０２のエイリアシング低減サブバンド表現１１２＿１を取得するように構成される。

実施形態では、カスケード接続された重複クリティカルサンプル変換ステージ１０４は、少なくとも２つのカスケード接続された重複クリティカルサンプル変換ステージ、または言い換えれば、カスケード接続された２つの重複クリティカルサンプル変換ステージを含むことができる。

カスケード重複クリティカルサンプル変換ステージは、カスケードＭＤＣＴ（ＭＤＣＴ＝修正離散コサイン変換）ステージとすることができる。カスケードＭＤＣＴステージは、少なくとも２つのＭＤＣＴステージを含むことができる。

当然ながら、カスケード重複クリティカルサンプル変換ステージは、それぞれ少なくとも２つのＭＤＳＴまたはＭＬＴステージを含むカスケードＭＤＳＴ（ＭＤＳＴ＝修正離散サイン変換）またはＭＬＴ（ＭＬＴ＝変調ラップ変換）ステージであってもよい。

サブバンドサンプル１１０＿１，１および１１０＿２，１の２つの対応するセットは、同じサブバンド（すなわち、周波数帯域）に対応するサブバンドサンプルとすることができる。

図２は、さらなる実施形態による、音声信号１０２を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置１００の概略ブロック図を示す。

図２に示すように、カスケード重複クリティカルサンプル変換ステージ１０４は、音声信号１０２のサンプルの少なくとも２つの部分的に重なり合うブロック１０８＿１および１０８＿２のうちの（２Ｍ）のサンプルの第１のブロック１０８＿１（ｘｉ－１（ｎ）、０≦ｎ≦２Ｍ－１）および（２Ｍ）のサンプルの第２のブロック１０８＿２（ｘｉ（ｎ）、０≦ｎ≦２Ｍ－１）に対して重複されたクリティカルサンプル変換を実行して、サンプルの第１のブロック１０８＿１に対する（Ｍ）のビンの第１のセット１２４＿１（ＬＣＳＴ係数）（Ｘｉ－１（ｋ）、０≦ｋ≦Ｍ－１）およびサンプルの第２のブロック１０８＿２に対する（Ｍ）のビンの第２のセット１２４＿２（ＬＣＳＴ係数）（Ｘｉ（ｋ）、０≦ｋ≦Ｍ－１）を得るように構成された第１の重複クリティカルサンプル変換ステージ１２０を備えることができる。

カスケード重複クリティカルサンプル変換ステージ１０４は、ビンの第１のセット１２４＿１のセグメント１２８＿１，１（適切なサブセット）（Ｘｖ，ｉ－１（ｋ））に対して重複クリティカルサンプル変換を実行し、ビンの第２のセット１２４＿２のセグメント１２８＿２，１（適切なサブセット）（Ｘｖ，ｉ（ｋ））に対して重複クリティカルサンプル変換を実行するように構成された第２の重複クリティカルサンプル変換ステージ１２６を含むことができ、各セグメントは、ビンの第１のセット１２４＿１に対する

のセット１１０＿１，１と、ビンの第２のセット１２４＿２に対する

のセット１１０＿２，１とを得るために、音声信号１０２のサブバンドと関連付けられている。

図３は、さらなる実施形態による、音声信号１０２を処理して音声信号のサブバンド表現を取得するように構成された音声処理装置１００の概略ブロック図を示す。言い換えれば、図３は、分析フィルタバンクの図を示す。これにより、適切な窓関数が想定される。図３の簡略化のために（のみ）、サブバンドフレーム（ｙ［ｍ］、０＜＝ｍ＜Ｎ／２）の前半の処理（すなわち、式（６）の第１の行のみ）が示されていることに留意されたい。

図３に示すように、第１の重複クリティカルサンプル変換ステージ１２０は、（２Ｍ）のサンプル（ｘｉ－１（ｎ）、０≦ｎ≦２Ｍ－１）の第１のブロック１０８＿１に対して第１の重複クリティカルサンプル変換１２２＿１（例えば、ＭＤＣＴｉ－１）を実行し、サンプルの第１のブロック１０８＿１に対して（Ｍ）のビンの第１のセット１２４＿１（ＬＣＳＴ係数）（Ｘｉ－１（ｋ）、０≦ｋ≦Ｍ－１）を取得し、（２Ｍ）のサンプル（ｘｉ（ｎ）、０≦ｎ≦２Ｍ－１）の第２のブロック１０８＿２に対して第２の重複クリティカルサンプル変換１２２＿２（例えば、ＭＤＣＴｉ）を実行し、サンプルの第２のブロック１０８＿２に対して（Ｍ）のビンの第２のセット１２４＿２（ＬＣＳＴ係数）（Ｘｉ（ｋ）、０≦ｋ≦Ｍ－１）を取得するように構成することができる。

詳細には、第２の重複クリティカルサンプル変換ステージ１２６は、ビンの第１のセット１２４＿１の少なくとも２つの部分的に重複するセグメント１２８＿１，１および１２８＿１，２（適切なサブセット）（Ｘｖ，ｉ－１（ｋ））に対して重複クリティカルサンプル変換を実行し、ビンの第１のセット１２４＿１およびサブバンドサンプル（ｉ－１（ｍ））の少なくとも２つのセット１１０＿１，１および１１０＿１，２を得るために、各セグメントが音声信号のサブバンドに関連付けられている、ビンの第２のセットの少なくとも２つの部分的に重複するセグメント１２８＿２，１および１２８＿２（適切なサブセット）（Ｘｖ，ｉ－１（ｋ））に対して重複クリティカルサンプル変換を実行するように構成することができ、ｉ（ｍ））を、ビンの第２のセット１２８＿２について決定する。

例えば、サブバンドサンプルの第１のセット１１０＿１，１は、ビンの第１のセット１２４＿１の第１のセグメント１３２＿１，１に基づいて、第１の重複クリティカルサンプル変換１３２＿１，１の結果とすることができ、サブバンドサンプルの第２のセット１１０＿１，２は、ビンの第１のセット１２４＿１の第２のセグメント１２８＿１，２に基づいて、第２の重複クリティカルサンプル変換１３２＿１，２の結果とすることができ、サブバンドサンプルの第３のセット１１０＿２，１は、ビンの第２のセット１２４＿２の第１のセグメント１２８＿２，１に基づいて、第３の重複クリティカルサンプル変換１３２＿２，１の結果とすることができ、サブバンドサンプルの第４のセット１１０＿２，２は、第４の重複クリティカルサンプル変換１３２＿２，２の結果とすることができ、２は、ビンの第２のセット１２４＿２の第２のセグメント１２８＿２，２に基づく。

これにより、時間領域エイリアシング低減ステージ１０６は、音声信号の第１のエイリアシング低減サブバンド表現１１２＿１（ｙ１，ｉ［ｍ１］）を取得するために、サブバンドサンプルの第１のセット１１０＿１，１とサブバンドサンプルの第３のセット１１０＿２，１との重み付き組み合わせを実行するように構成されることができ、領域エイリアシング低減ステージ１０６は、音声信号の第２のエイリアシング低減サブバンド表現１１２＿２（ｙ２，ｉ［ｍ２］）を取得するために、サブバンドサンプルの第２のセット１１０＿１，２とサブバンドサンプルの第４のセット１１０＿２，２との重み付き組み合わせを実行するように構成されることができる。

図４は、一実施形態による、音声信号１０２を取得するために音声信号のサブバンド表現を処理するための音声処理装置２００の概略ブロック図を示す。音声処理装置２００は、逆時間領域エイリアシング低減（ＴＤＡＲ）ステージ２０２およびカスケード逆重複クリティカルサンプル変換（ＬＣＳＴ）ステージ２０４を備える。

逆時間領域エイリアシング低減ステージ２０２は、エイリアスされたサブバンド表現

を得るために、音声信号１０２の２つの対応するエイリアシング低減サブバンド表現１１２＿１および１１２＿２（ｙｖ，ｉ（ｍ）、ｙｖ，ｉ－１（ｍ））の重み付けされた（およびシフトされた）組み合わせを実行するように構成され、エイリアスされたサブバンド表現は、サブバンドサンプルのセット１１０＿１である。

カスケード逆重複クリティカルサンプル変換ステージ２０４は、音声信号１０２のサンプルのブロック１０８＿１に関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセット１１０＿１に対してカスケード逆重複クリティカルサンプル変換を実行するように構成される。

図５は、さらなる実施形態による、音声信号１０２を取得するために音声信号のサブバンド表現を処理するための音声処理装置２００の概略ブロック図を示す。カスケード逆重複クリティカルサンプル変換ステージ２０４は、第１の逆重複クリティカルサンプル変換（ＬＣＳＴ）ステージ２０８と、第１の重複加算ステージ２１０とを含むことができる。

第１の逆重複クリティカルサンプル変換ステージ２０８は、

の所与のサブバンドに関連付けられたビンのセット１１０＿１，１を取得するために、サブバンドサンプルのセット１２８＿１，１に対して逆重複クリティカルサンプル変換を実行するように構成されることができる。

第１の重複および加算ステージ２１０は、音声信号１０２のサンプルのブロック１０８＿１に関連付けられたビンのセット１２４＿１を取得するために、音声信号１０２の所与のサブバンド（ｖ）に関連付けられた

のセット１２８＿１，１と、音声信号１０２の別のサブバンド（ｖ－１）に関連付けられた

のセット１２８＿１，２との重み付き組み合わせを含む、音声信号の複数のサブバンドに関連付けられたビンのセットの連結を実行するように構成することができる。

図５に示すように、カスケード逆重複クリティカルサンプル変換ステージ２０４は、音声信号１０２のサンプルのブロック１０８＿１に関連付けられたサンプルのセット１２４＿１，１を取得するために、音声信号１０２のサンプルのブロック１０８＿１に関連付けられたビンのセット２０６＿１に対して逆重複クリティカルサンプル変換を実行するように構成された第２の逆重複クリティカルサンプル変換（ＬＣＳＴ）ステージ２１２を含むことができる。

さらに、カスケード逆重複クリティカルサンプル変換ステージ２０４は、音声信号１０２を取得するために、音声信号１０２のサンプルのブロック１０８＿１に関連付けられたサンプルのセット２０６＿１，１と、音声信号のサンプルの別のブロック１０８＿２に関連付けられたサンプルの別のセット２０６＿２，１と、部分的に重なり合う音声信号１０２のサンプルのブロック１０８＿１およびサンプルの別のブロック１０８＿２とを重複して加算するように構成された第２の重複加算ステージ２１４を含むことができる。

図６は、さらなる実施形態による、音声信号１０２を取得するために音声信号のサブバンド表現を処理するための音声処理装置２００の概略ブロック図を示す。言い換えれば、図６は、合成フィルタバンクの図を示す。これにより、適切な窓関数が想定される。図６の簡略化のために（のみ）、サブバンドフレーム（ｙ［ｍ］、０＜＝ｍ＜Ｎ／２）の前半の処理（すなわち、式（６）の第１の行のみ）が示されていることに留意されたい。

上述したように、音声処理装置２００は、逆時間領域エイリアシング低減ステージ２０２と、第１の逆重複クリティカルサンプリングステージ２０８および第２の逆重複クリティカルサンプリングステージ２１２を含む逆カスケード重複クリティカルサンプリングステージ２０４とを備える。

逆時間領域削減ステージ１０４は、第１および第２のエイリアシング低減サブバンド表現ｙ１，ｉ－１［ｍ１］およびｙ１，ｉ［ｍ１］の第１の重み付きシフト組み合わせ２２０＿１を実行して、第１のエイリアス化サブバンド表現

を取得し、エイリアス化サブバンド表現がサブバンドサンプルのセットであり、第３および第４のエイリアシング低減サブバンド表現ｙ２，ｉ－１［ｍ１］およびｙ２，ｉ［ｍ１］の第２の重み付きシフト組み合わせ２２０＿２を実行して、第２のエイリアス化サブバンド表現

を取得し、エイリアス化サブバンド表現がサブバンドサンプルのセットである、ように構成される。

第１の逆重複クリティカルサンプル変換ステージ２０８は、第１のサブバンドサンプルのセット

に対して第１の逆重複クリティカルサンプル変換２２２＿１を実行して、音声信号の所与のサブバンドに関連付けられたビンのセット１２８＿１，１を取得し

第２のサブバンドサンプルのセット

に対して第２の逆重複クリティカルサンプル変換２２２＿２を実行して、音声信号の所与のサブバンドに関連付けられたビンのセット１２８＿２，１を取得する

ように構成される。

第２の逆重複クリティカルサンプル変換ステージ２１２は、サンプルのブロック１０８＿２を取得するために、第１の逆重複クリティカルサンプル変換ステージ２０８によって提供されるビンのセット１２８＿１、１および１２８＿２１を重複して加算することによって取得された重複して加算されたビンのセットに対して逆重複クリティカルサンプル変換を実行するように構成される。

続いて、図１から図６に示される音声処理装置の実施形態が説明され、ここでは、カスケード重複クリティカルサンプル変換ステージ１０４がＭＤＣＴステージであり、すなわち、第１および第２の重複クリティカルサンプル変換ステージ１２０および１２６がＭＤＣＴステージであり、逆カスケード重複クリティカルサンプル変換ステージ２０４が逆カスケードＭＤＣＴステージであり、すなわち、第１および第２の逆重複されたクリティカルサンプル変換ステージ１２０および１２６が逆ＭＤＣＴステージであることが例示的に想定される。当然ながら、以下の説明は、カスケードＭＤＳＴもしくはＭＬＴステージまたは逆カスケードＭＤＳＴもしくはＭＬＴステージなど、カスケード重複クリティカルサンプル変換ステージ１０４および逆重複クリティカルサンプル変換ステージ２０４の他の実施形態にも適用可能である。

それにより、記載された実施形態は、限定された長さのＭＤＣＴスペクトルのシーケンスに作用し、サブバンド併合動作としてＭＤＣＴおよび時間領域エイリアシング低減（ＴＤＡＲ）を使用することができる。結果として得られる不均一なフィルタバンクは、ラップされ、直交し、ｎ∈Ｎでサブバンド幅ｋ＝２ｎを可能にする。ＴＤＡＲにより、時間的およびスペクトル的によりコンパクトなサブバンドインパルス応答の両方を達成することができる。

続いて、フィルタバンクの実施形態について説明する。

フィルタバンクの実装は、共通の重複ＭＤＣＴ変換方式に直接基づいており、重複および窓処理を伴う元の変換は変更されないままである。

一般性を失うことなく、以下の表記は、直交ＭＤＣＴ変換を想定しており、例えば、分析窓および合成窓は同一である。

ここで、はＭＤＣＴ変換カーネルおよび適切な解析窓であり、

次いで、この変換の出力

は、個々の幅

の

にセグメント化され、ＭＤＣＴを使用して再び変換される。これにより、時間方向とスペクトル方向の両方に重複を有するフィルタバンクが得られる。

本明細書におけるより簡単な表記のために、すべてのサブバンドに対して１つの共通の

が使用されるが、所望の時間－周波数分解能を実施するために任意の有効なＭＤＣＴ窓の切り替え／シーケンシングを使用することができる。解像度設計については後述する。

ここで、

は、適切な分析窓であり、一般にサイズが異なり、窓タイプが異なり得る。実施形態は周波数領域に窓を適用するので、窓の時間および周波数選択性が交換されることは注目に値する。

適切な境界処理のために、

追加のオフセットを式（４）に導入し、境界における長方形の開始／停止窓半分と組み合わせることができる。ここでも、表記を簡単にするために、このオフセットはここでは考慮されていない。

は、対応する

、およびその帯域幅に比例する時間分解能を有する係数の個々の長さのベクトルのリストである。

しかしながら、これらのベクトルは、元のＭＤＣＴ変換からのエイリアシングを含み、その結果、時間的コンパクト性が不十分であることを示す。このエイリアシングを補償するために、ＴＤＡＲを容易にすることができる。

ＴＤＡＲに使用されるサンプルは、現在および前の

内の２つの隣接するサブバンドサンプルブロックから取得される。その結果、前のフレームの後半および第２のフレームの前半におけるエイリアシングが低減される。

であり、

は、残留エイリアシングを最小限に抑えるように設計することができる。以下、

に基づく簡易な推定方法を紹介する。

また、Ａが非特異的である場合、演算（６）および（８）は双直交系に対応することに留意されたい。さらに、

である場合、例えば、両方のＭＤＣＴが直交し、行列Ａが直交する場合、パイプライン全体は直交変換を構成する。

逆変換を計算するために、第１の逆ＴＤＡＲが実行され、

続いて、式５で生成されたエイリアシングを相殺するために、逆ＭＤＣＴおよび時間領域エイリアシング相殺（ここでは周波数軸に沿ってエイリアシング除去が行われるが、ＴＤＡＣ）が実行されなければならない。

最後に、式２の初期ＭＤＣＴが反転され、再びＴＤＡＣが実行される。

続いて、時間－周波数分解能の設計上の制限について説明する。任意の所望の時間－周波数分解能が可能であるが、結果として得られる窓関数を設計するためのいくつかの制約は、反転性を保証するために遵守されなければならない。特に、式（６）がＰｒｉｎｃｅｎＢｒａｄｌｅｙ条件［Ｊ．Ｐｒｉｎｃｅｎ，Ａ．Ｊｏｈｎｓｏｎ，ａｎｄＡ．Ｂｒａｄｌｅｙ，‘‘Ｓｕｂｂａｎｄ／ｔｒａｎｓｆｏｒｍｃｏｄｉｎｇｕｓｉｎｇｆｉｌｔｅｒｂａｎｋｄｅｓｉｇｎｓｂａｓｅｄｏｎｔｉｍｅｄｏｍａｉｎａｌｉａｓｉｎｇｃａｎｃｅｌｌａｔｉｏｎ，’’ｉｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩＣＡＳＳＰ’８７．，Ａｐｒ１９８７年、第１２巻、２１６１～２１６４ページ］を満たすように、２つの隣接するサブバンドの勾配は対称であり得る。プリエコー効果に対抗するために元々設計された、［Ｂ．Ｅｄｌｅｒ、「ＣｏｄｉｅｒｕｎｇｖｏｎＡｕｄｉｏｓｉｇｎａｌｅｎｍｉｔｕｂｅｒｌａｐｐｅｎｄｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎｕｎｄａｄａｐｔｉｖｅｎＦｅｎｓｔｅｒｆｕｎｋｔｉｏｎｅｎ」、Ｆｒｅｑｕｅｎｚ、第４３巻、２５２～２５６ページ、１９８９年９月］で導入されたような窓切り替え方式をここで適用することができる。［ＯｌｉｖｉｅｒＤｅｒｒｉｅｎ、ＴｈｉｂａｕｄＮｅｃｃｉａｒｉ、およびＰｅｔｅｒＢａｌａｚｓ、「音声符号化のための準直交、可逆、および知覚的に関連する時間周波数変換であって、」、ＥＵＳＩＰＣＯ、Ｎｉｃｅ、フランス、２０１５年８月。］を参照されたい。

第２に、すべての第２のＭＤＣＴ変換長の合計は、提供されるＭＤＣＴ係数の全長に加算されなければならない。バンドは、所望の係数においてゼロを有する単位ステップ窓を使用して変換されないように選択されてもよい。隣接する窓の対称性は注意しなければならないが、［Ｂ．Ｅｄｌｅｒ、「ＣｏｄｉｅｒｕｎｇｖｏｎＡｕｄｉｏｓｉｇｎａｌｅｎｍｉｔｕｂｅｒｌａｐｐｅｎｄｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎｕｎｄａｄａｐｔｉｖｅｎＦｅｎｓｔｅｒｆｕｎｋｔｉｏｎｅｎ」、Ｆｒｅｑｕｅｎｚ、第４３巻、２５２～２５６ページ、１９８９年９月。］。結果として得られる変換は、これらの帯域にゼロをもたらすので、元の係数を直接使用することができる。

可能な限り、最新の音声コーダのほとんどからの時間周波数分解能スケールファクタバンドを直接使用することができる。

続いて、時間領域エイリアシング低減（ＴＤＡＲ）係数計算について説明する。

前述の時間分解能に従って、各サブバンドサンプルは、

、または元のサンプルのサイズの

に対応する。

さらに、各サブバンドサンプルにおけるエイリアシングの量は、それが表す間隔におけるエイリアシングの量に依存する。エイリアシングは、各サブバンドサンプル間隔における合成窓の近似値を使用して

で重み付けされるので、ＴＤＡＲ係数の良好な第１の推定値であると仮定される。

実験は、２つの非常に単純な係数計算スキームが、時間的およびスペクトル的コンパクト性の両方が改善された良好な初期値を可能にすることを示している。両方の方法は、

の仮説的な

に基づいている。

１）ＳｉｎｅまたはＫａｉｓｅｒＢｅｓｓｅｌＤｅｒｉｖｅｄのようなパラメトリック窓の場合、同じタイプの単純で短い窓を定義することができる。

２）閉じた表現のないパラメトリック窓および表形式窓の両方について、窓を等しいサイズの

に単に切断することができ、各部分の平均値を使用して係数を得ることができる。

ＭＤＣＴ境界条件およびエイリアシングのミラーリングを考慮に入れると、ＴＤＡＲ係数が得られる。

または直交変換の場合

Ａがフィルタバンク全体の非特異的完全再構成である限り、どのような係数近似解が選択されてもよい。そうでなければ準最適な係数選択は、

の残留エイリアシングの量にのみ影響するが、逆フィルタバンクによって合成された

には影響しない。

図７は、サブバンドサンプルの一例（上のグラフ）およびそれらのサンプルの時間および周波数に対する広がり（下のグラフ）を図で示す。注釈付きサンプルは、より広い帯域幅を有するが、下部サンプルよりも短い時間拡散を有する。分析窓（下のグラフ）は、元の時間サンプルごとに１つの係数のフル解像度を有する。したがって、ＴＤＡＲ係数は、各サブバンドサンプルの時間領域について近似されなければならない（ドットによって注釈が付けられなければならない）（ｍ＝２５６：：：３８４）。

続いて、（シミュレーション）結果について説明する。

図８は、［ＦｒｅｄｅｒｉｃＢｉｍｂｏｔ、ＥｗｅｎＣａｍｂｅｒｌｅｉｎ、およびＰｉｅｒｒｉｃｋＰｈｉｌｉｐｐｅによる、２００６年１０月のＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２１の「Ａｄａｐｔｉｖｅｆｉｌｔｅｒｂａｎｋｓｕｓｉｎｇｆｉｘｅｄｓｉｚｅｍｄｃｔａｎｄｓｕｂｂａｎｄｍｅｒｇｉｎｇｆｏｒａｕｄｉｏｃｏｄｉｎｇ－ｃｏｍｐａｒｉｓｏｎｗｉｔｈｔｈｅｍｐｅｇａａｃｆｉｌｔｅｒｂａｎｋｓ」。］に示すように、いくつかの異なる変換によって得られたスペクトルおよび時間の不確実性を示す。

Ｈａｄａｍａｒｄ－ｍａｔｒｉｘベースの変換は、著しく制限された時間－周波数トレードオフ能力を提供することが分かる。併合サイズを増大させるために、追加の時間分解能は、スペクトルの不確実性において不釣り合いに高いコストでもたらされる。

言い換えれば、図８は、異なる変換のスペクトルおよび時間エネルギー圧縮の比較を示す。インラインラベルは、ＭＤＣＴのフレーム長、Ｈｅｉｓｅｎｂｅｒｇ分割の分割係数、および他のすべての併合係数を示す。

しかしながら、ＴＤＡＲを用いたサブバンドの併合は、単純な均一ＭＤＣＴに平行して、時間的不確実性とスペクトル的不確実性との間の線形トレードオフを有する。２つの積は一定であるが、単純な均一ＭＤＣＴよりも少し高い。この分析のために、サイン解析窓およびカイザー・ベッセル導出サブバンドの併合窓は、最もコンパクトな結果を示し、このように選択された。

しかしながら、併合因子のためにＴＤＡＲを使用することは、時間的コンパクト性およびスペクトルコンパクト性の両方を減少させるようである。これは、セクションＩＩ－Ｂで導入された係数計算スキームが単純すぎ、急峻な窓関数勾配の値を適切に近似していないためであると考えられる。数値最適化スキームは、フォローアップ出版物に提示される。

これらの緻密性値は、重心ｃｏｇおよび［ＡｔｈａｎａｓｉｏｓＰａｐｏｕｌｉｓ、Ｓｉｇｎａｌａｎａｌｙｓｉｓ、Ｅｌｅｃｔｒｉｃａｌａｎｄｅｌｅｃｔｒｏｎｉｃｅｎｇｉｎｅｅｒｉｎｇシリーズ。ＭｃＧｒａｗ－Ｈｉｌｌ、ニューヨーク、サンフランシスコ、パリ、１９７７年。］として定義される

の

を使用して計算した。

各個々のフィルタバンクのすべてのインパルス応答の平均値が示されている。

図９は、［Ｏ．Ａ．ＮｉａｍｕｔおよびＲ．Ｈｅｕｓｄｅｎｓ、「Ｆｌｅｘｉｂｌｅｆｒｅｑｕｅｎｃｙｄｅｃｏｍｐｏｓｉｔｉｏｎｆｏｒｃｏｓｉｎｅ－ｍｏｄｕｌａｔｅｄｆｉｌｔｅｒｂａｎｋｓ」、Ａｃｏｕｓｔｉｃｓ、Ｓｐｅｅｃｈ、およびＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、２００３、処理。（ＩＣＡＳＳＰ’０３）。２００３２００３年４月のＩＥＥＥ国際会議、第５巻、ｐｐ．Ｖ－４４９－５２第５頁。］で提案されているように、ＴＤＡＲ、単純なＭＤＣＴショートブロック、およびＨａｄａｍａｒｄ行列サブバンド併合を用いた、および用いないサブバンド併合によって生成された２つの例示的なインパルス応答の比較を示す。

アダマール行列併合変換の時間的コンパクト性の悪さがはっきりと見える。また、サブバンド内のエイリアシングアーチファクトの大部分がＴＤＡＲによって著しく低減されることが明らかに分かる。

言い換えれば、図９は、ＴＤＡＲを用いずにここで提案された方法、［Ｏ．Ａ．ＮｉａｍｕｔおよびＲ．Ｈｅｕｓｄｅｎｓ、「Ｓｕｂｂａｎｄｍｅｒｇｉｎｇｉｎｃｏｓｉｎｅ－ｍｏｄｕｌａｔｅｄｆｉｌｔｅｒｂａｎｋｓ」、ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ、ＩＥＥＥ、第１０巻、第４号、１１１～１１４ページ、２００３年４月。］で提案された方法、および２５６サンプルのより短いＭＤＣＴフレーム長を使用して、ＴＤＡＲを用いて１０２４の元のビンのうちの８つを構成する統合サブバンドフィルタの例示的なインパルス応答を示す。

図１０は、音声信号のサブバンド表現を取得するために音声信号を処理するための方法３００のフローチャートを示す。方法３００は、音声信号のサンプルの第１のブロックに基づいてサブバンドサンプルのセットを取得するために、および音声信号のサンプルの第２のブロックに基づいてサブバンドサンプルの対応するセットを取得するために、音声信号のサンプルの少なくとも２つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行するステップ３０２を含む。さらに、方法３００は、音声信号のエイリアシング低減サブバンド表現を取得するために、一方が音声信号のサンプルの第１のブロックに基づいて取得され、他方が音声信号のサンプルの第２のブロックに基づいて取得される、２つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するステップ３０４を含む。

図１１は、音声信号を取得するために音声信号のサブバンド表現を処理するための方法４００のフローチャートを示す。方法４００は、エイリアスされたサブバンド表現を得るために、音声信号の（部分的に重なり合うサンプルの異なるブロックの）２つの対応するエイリアシング低減サブバンド表現の重み付けされた（シフトされた）組み合わせを実行するステップ４０２を含み、エイリアスされたサブバンド表現は、サブバンドサンプルのセットである。さらに、方法４００は、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するステップ４０４を含む。

図１２は、一実施形態による、音声符号化器１５０の概略ブロック図を示す。音声符号化器１５０は、上述したような音声処理装置（１００）と、音声信号の符号化されたエイリアシング低減サブバンド表現を得るために、音声信号のエイリアシング低減サブバンド表現を符号化するように構成された符号化器１５２と、音声信号の符号化されたエイリアシング低減サブバンド表現からビットストリーム１５６を形成するように構成されたビットストリーム形成器１５４とを備える。

図１３は、一実施形態による、音声複号器２５０の概略ブロック図を示す。音声複号器２５０は、ビットストリーム１５４を解析して、符号化されたエイリアシング低減サブバンド表現を取得するように構成されたビットストリームパーサ２５２と、符号化されたエイリアシング低減サブバンド表現を復号して、音声信号のエイリアシング低減サブバンド表現を取得するように構成された複号器２５４と、上述したような音声処理装置２００とを備える。

図１４は、一実施形態による、音声分析器１８０の概略ブロック図を示す。音声分析器１８０は、上述のような音声処理装置１００と、エイリアシング低減サブバンド表現を分析して音声信号を記述する情報を提供するように構成された情報抽出器１８２とを備える。

実施形態は、非一様直交修正離散コサイン変換（ＭＤＣＴ）フィルタバンクのサブバンドにおける時間領域エイリアシング低減（ＴＤＡＲ）を提供する。

実施形態は、広く使用されているＭＤＣＴ変換パイプラインに追加の後処理ステップを追加し、このステップ自体は、周波数軸に沿った別の重複ＭＤＣＴ変換および各サブバンド時間軸に沿った時間領域エイリアシング低減（ＴＤＡＲ）のみを含み、追加の冗長性およびただ１つのＭＤＣＴフレーム遅延を導入せずに、インパルス応答の時間的コンパクトさを改善してＭＤＣＴスペクトログラムから任意の周波数スケールを抽出することを可能にする。

２．サブバンド併合および時間領域エイリアシングを使用した適応不均一時間／周波数傾斜による知覚音声符号化

図１５は、本発明の一実施形態による、図２および図３に示す音声処理装置１００の第２の重複クリティカルサンプル変換ステージ１２６の重複クリティカルサンプル変換サブステージ１３２＿１、１、１３２＿１、２、１３２＿２、１および１３２＿２、２の概略ブロック図を示す。

これにより、重複クリティカルサンプル変換サブステージ１３２＿１、１，１３２＿１、２，１３２＿２、１および１３２＿２、２のうちの少なくとも１つは、ビンの対応するセット１２８＿１、１，１２８＿１、２，１２８＿２、１および１２８＿２、２に対して同じフレーム長（例えば、併合因子）を有する重複クリティカルサンプル変換を実行するように構成することができる。

実施形態では、第１の重複クリティカル変換サブステージ１３２＿１，１は、サンプルの第１のブロック１０８＿１に対応するビンのセグメント化されたセット１２８＿１に基づいて取得された等しい長さのビンの第１のセット１２４＿１，１のＮ_１，１のサブセットに対してＮ_１，１の重複クリティカルサンプル変換を実行するように構成することができ、Ｎ_１，１の重複クリティカルサンプル変換は同じフレーム長（例えば、併合因子）を含み、Ｎ_１，１は２以上の自然数である。

例えば、ビンの第１のセット１２８＿１，１が１２８のビン（または係数）を含むと仮定すると、第１の重複クリティカル変換サブステージ１３２＿１，１は、例えば、各々が６４のビンのＮ_１，１＝２のサブセット（すなわち、Ｎ_１，１で除算された１２８のビン）に対してＮ_１，１＝２の重複クリティカルサンプル変換を実行するように構成することができ、Ｎ_１，１＝２の重複クリティカルサンプル変換は、例えば６４の同じフレーム長（例えば、併合因子）を含む。当然ながら、第１の重複クリティカル変換サブステージ１３２＿１，１はまた、例えば、各々が３２（または１６）ビンのＮ_１，１＝４（または８）サブセットに対してＮ_１，１＝４（または８）重複クリティカルサンプル変換を実行するように構成することもでき（すなわち、Ｎ_１，１で除算された１２８のビン）、Ｎ_１，１＝４（または８）重複クリティカルサンプル変換は、例えば３２（または１６）の同じフレーム長（例えば、併合因子）を含む。

実施形態では、第２の重複クリティカル変換サブステージ１３２＿１，２は、サンプルの第１のブロック１０８＿１に対応するビンのセグメント化されたセット１２８＿１に基づいて取得された等しい長さのビンの第２のセット１２４＿１，２のＮ_１，２のサブセットに対してＮ_１，２の重複クリティカルサンプル変換を実行するように構成することができ、Ｎ_１，２の重複クリティカルサンプル変換は同じフレーム長（例えば、併合因子）を含み、Ｎ_１，２は２以上の自然数である。

例えば、ビンの第２のセット１２８＿１，２が１２８のビン（または係数）を含むと仮定すると、第２の重複クリティカル変換サブステージ１３２＿１，２は、例えば、各々が６４のビンのＮ_１，２＝２のサブセットに対してＮ_１，２＝２の重複クリティカルサンプル変換を実行するように構成することができ（すなわち、Ｎ_１，１で除算された１２８のビン）、Ｎ_１，２＝２の重複クリティカルサンプル変換は、例えば６４の同じフレーム長（例えば、併合因子）を含む。当然ながら、第２の重複クリティカル変換サブステージ１３２＿１，２はまた、例えば、各々が３２（または１６）ビンのＮ_１，２＝４（または８）サブセットに対してＮ_１，２＝４（または８）重複クリティカルサンプル変換を実行するように構成することもでき（すなわち、Ｎ_１，２で除算された１２８のビン）、Ｎ_１，２＝４（または８）重複クリティカルサンプル変換は、例えば３２（または１６）の同じフレーム長（例えば、併合因子）を含む。

実施形態では、第３の重複クリティカル変換サブステージ１３２＿２，１は、サンプルの第２のブロック１０８＿２に対応するビンのセグメント化されたセット１２８＿２に基づいて取得されたビンの第３のセット１２４＿２，１の等しい長さのＮ_２，１のサブセットに対してＮ_２，１の重複クリティカルサンプル変換を実行するように構成することができ、Ｎ_２，１の重複クリティカルサンプル変換は同じフレーム長（例えば、併合因子）を含み、Ｎ_２，１は２以上の自然数である。

例えば、ビンの第３のセット１２８＿２，１が１２８のビン（または係数）を含むと仮定すると、第３の重複クリティカル変換サブステージ１３２＿２，１は、例えば、Ｎ_２，１＝２の重複クリティカルサンプル変換をＮ２上で実行するように構成することができ、各々が６４のビンの１＝２のサブセット（すなわち、Ｎ_１，１で除算された１２８のビン）であり、Ｎ_１，１＝２の重複クリティカルサンプル変換は、例えば６４の同じフレーム長（例えば、併合因子）を含む。当然ながら、第３の重複クリティカル変換サブステージ１３２＿２，１はまた、例えば、Ｎ_２，１＝４（または８）の重複クリティカルサンプル変換を、それぞれ３２（または１６）ビンのＮ_２，１＝４（または８）サブセットに対して実行するように構成することができ（すなわち、Ｎ_１，１で除算された１２８のビン）、Ｎ_２，１＝４（または８）の重複クリティカルサンプル変換は、例えば３２（または１６）の同じフレーム長（例えば、併合因子）を含む。

実施形態では、第４の重複クリティカル変換サブステージ１３２＿２，２は、ビンの第２のブロック１０８＿２に対応するビンのセグメント化されたセット１２４＿２に基づいて得られた等しい長さのビンの第４のセット１２８＿２，２のＮ_２，２のサブセットに対してＮ_２，２の重複クリティカルサンプル変換を実行するように構成することができ、Ｎ_２，２の重複クリティカルサンプル変換は同じフレーム長（例えば、併合因子）を含み、Ｎ_２，２は２以上の自然数である。

例えば、サブバンドビンの第４のセット１２８＿２，２が１２８のビン（または係数）を含むと仮定すると、第４の重複クリティカル変換サブステージ１３２＿２，２は、例えば、Ｎ_２，２＝２の重複クリティカルサンプル変換をＮ２上で実行するように構成することができ、各々が６４のビンの２＝２のサブセット（すなわち、Ｎ_２，２によって分割された１２８のビン）であり、Ｎ_２，２＝２の重複クリティカルサンプル変換は、例えば６４の同じフレーム長（例えば、併合因子）を含む。当然ながら、第４の重複クリティカル変換サブステージ１３２＿２，２はまた、例えば、各々が３２（または１６）ビンのＮ_２，２＝４（または８）サブセットに対してＮ_２，２＝４（または８）重複クリティカルサンプル変換を実行するように構成することもでき（すなわち、Ｎ_２，２によって分割された１２８のビン）、Ｎ_２，２＝４（または８）重複クリティカルサンプル変換は、例えば３２（または１６）の同じフレーム長（例えば、併合因子）を含む。

実施形態では、ビンの第１のセット１２８＿１，１およびビンの第２のセット１２８＿１，２は、同じまたは異なる長さ（すなわち、ビンの数）を含むことができる。

実施形態では、Ｎ_１、１およびＮ_１、２は、同じまたは異なる自然数であり得る。

実施形態では、ビンの第３のセット１２８＿２，１およびビンの第４のセット１２８＿２，２は、同じまたは異なる長さ（すなわち、ビンの数）を含むことができる。

実施形態では、Ｎ_２，１およびＮ_２，２は、同じまたは異なる自然数であり得る。

実施形態では、ＴＤＡＲが使用可能である場合、ビンの第１のセット１２８＿１，１およびビンの第３のセット１２８＿２，１は、同じ長さ（すなわち、同じ数のビン）を含むことができる。また、Ｎ_１，１とＮ_２，１は、同一の自然数とすることができる。同様に、ビンの第２のセット１２８＿１，２およびビンの第４のセット１２８＿２，２も同じ長さ（すなわち、同じ数のビン）を含むことができる。また、Ｎ_２，１とＮ_２，２は、同じ自然数とすることができる。

実施形態では、ＴＤＡＲが無効にされている場合、ビンの第１のセット１２８＿１，１およびビンの第３のセット１２８＿２，１はまた、異なる長さ（すなわち、異なる数のビン）を含むことができ、Ｎ_１，１およびＮ_２，１は異なる自然数であり得る。同様に、ビンの第２のセット１２８＿１，２およびビンの第４のセット１２８＿２，２も異なる長さ（すなわち、異なる数のビン）を含むことができ、Ｎ_２，１およびＮ_２，２も異なる自然数とすることができる。

図１６は、本発明の一実施形態による、図５および図６に示す音声処理装置２００の第１の逆重複クリティカルサンプル変換ステージ２２２の逆重複クリティカルサンプル変換サブステージ２２２＿１および２０８＿２の概略ブロック図を示す。

これにより、逆重複クリティカルサンプル変換サブステージ２２２＿１および２２２＿２のうちの少なくとも１つは、対応するサブバンドサンプルのセット１１０＿１，１および１１０＿１，２に対して同じフレーム長（例えば、併合因子）を有する逆重複クリティカルサンプル変換を実行して、ビンの対応するセット１２８＿１，１および１２８＿１，２を取得するように構成され得る。

実施形態では、第１の逆重複クリティカル変換サブステージ２２２＿１は、サブバンドサンプルの第１のセット１１０＿１の等しい長さのＮ_１，１のサブセットに対してＮ_１，１の逆重複クリティカルサンプル変換を実行するように構成することができ、Ｎ_１，１の重複クリティカルサンプル変換は同じフレーム長（例えば、併合因子）を含み、Ｎ_１，１は２以上の自然数である。

実施形態では、第２の逆重複クリティカル変換サブステージ２２２＿２は、サブバンドサンプルの第２のセット１１０＿１の等しい長さのＮ_１，２のサブセットに対してＮ_１，２の逆重複クリティカルサンプル変換を実行するように構成することができ、Ｎ_１，２の重複クリティカルサンプル変換は同じフレーム長（例えば、併合因子）を含み、Ｎ_１，２は２以上の自然数である。

続いて、不均一フィルタバンクの詳細な実施形態について説明する。さらに、音声コーダのシナリオにおけるそのような不均一なフィルタバンクの知覚品質が評価され、アドバンスト音声符号化（ＡＡＣ）［２］などの現在のコーダで使用されるような窓切り替えを伴う均一なフィルタバンクの性能と比較される。

２．１符号化システム

評価システムは、分析フィルタバンク、心理音響モデル［４］、量子化器、知覚エントロピー推定［５］、および合成フィルタバンクを用いて、単純な知覚コーダをモデル化する。２つの競合するシステムでは、フィルタバンクは、窓切り替え［６］を有する均一なＭＤＣＴ（ＷＳ）、またはサブバンド併合およびＴＤＡＲ［１］を有する不均一なＭＤＣＴ（ＳＭ）のいずれかであった。

関連するフィルタバンクパラメータ（均一ＭＤＣＴの窓切り替え境界、または不均一ＭＤＣＴの併合因子およびＴＤＡＲ境界）は、全体的な残りのエントロピーを最小化するように適応的かつ最適に選択された。

追加の後処理工程または符号化ツールを使用しなくてもよい。

２．１．１フィルタバンクパラメータ

窓切り替えフィルタバンクは、通常のＡＡＣフレーム長：１０２４サンプルの長いフレームまたは１２８サンプルの８つの短いフレームおよびそれらの間の適切な遷移窓を有するＭＤＣＴを使用することができる。コサイン窓を用いることができる。サブバンド併合フィルタバンク１２０は、フレーム長の初期ＭＤＣＴ、例えば１０２４を使用し、次いで、スペクトルをそれぞれ１２８の係数の８つの併合因子帯域（例えば、１２８＿１、１，１２８＿１、２などである。）に分割することができる。次いで、各併合係数帯域は、併合係数と呼ばれるフレーム長のＭＤＣＴと併合され得る。

システムの設計によれば、分析中、併合因子の最適な選択はまだ知られておらず、各併合因子帯域は、その近傍のいずれの併合因子も知らない。したがって、併合因子帯域端部の窓は、常に非対称であり、最も急な可能性のある隣接併合因子を収容するのに十分急であるように選択することができる（図１７を参照）。

詳細には、図１７は、ビンのセット（またはセグメント）（１２８＿１，１，１２８＿１，２）を取得するために、ビンのセット（１２４＿１）をセグメント化するために使用される窓関数を図で示す。言い換えれば、図１６は、４つの併合因子帯域における例示的な窓選択を示す。急勾配の併合因子帯域のエッジ窓は、黒色で強調表示されている。

この設計上の選択は、フィルタバンクの全体的な柔軟性を制限し、これらの非対称窓［１］に対して理想的ではない時間リップルを導入するが、各併合因子帯域に対して併合因子を効率的かつ独立して最適化する方法を提供する。

コサイン窓を変換窓として使用することができ、任意に選択された

カイザー－ベッセル導出窓を併合窓として選択することができる。

最後に、量子化ステップサイズは、知覚モデルから推定マスキング閾値を一定係数ｑだけ乗算的に低下または上昇させる実値歪みパラメータｑを使用して制御することができる。量子化の後、知覚エントロピー推定器は、当然ｑに依存する理論ビットレートｒを計算する。ｑ＝１．０の場合、心理音響モデルは、可聴アーチファクトのない透明符号化を予測し、より大きい値ｑ＞１．０の場合、量子化ステップサイズが増加し、ビットレートｒが低下し、プロセスの知覚品質が低下すると予想される。

２．１．２パラメータの最適化

最適なパラメータ調整を実行するために、すべての可能なパラメータの組み合わせを使用して各信号を変換および量子化し、各パラメータに対する各フレームの知覚エントロピーを推定した。全ての出力係数のうち、過知覚エントロピーを最小化するパラメータの最適な組み合わせを算出し、これらのパラメータを用いて出力信号を合成した。

最適なフィルタバンクパラメータを見つけるために、各フレームの各併合係数帯域（１２８の係数の併合タイル）を量子化し、そのエントロピーを計算した。次いで、１つの併合因子帯域におけるすべての併合タイルのすべてのパラメータのグラフはトレリスを形成し、各遷移確率の重みは、後続の併合タイルのエントロピーに等しく設定される［７］。

前述したように、すべてのパラメータの組み合わせおよび遷移が合成中に完全な再構成を可能にするわけではなく、例えば長いフレームから短いフレームに切り替える場合、その間に非対称開始窓を使用しなければならない。非均一フィルタバンク［１］におけるＴＤＡＲの使用にも同様の規則が適用される。これらの不正なパラメータ遷移を防止するために、トレリス内の遷移確率は、すべての合法および不正な遷移を符号化したマスク、すなわち、合法の場合は１、不正な遷移の場合は１で乗算された。

その後、動的プログラミングを使用してトレリスを通る最小重み経路が計算され、完全な再構成も保証する個々の併合因子帯域ごとに過剰な最適パラメータ経路が得られた。

この手法は、複数の符号化パス、非常に大きな先読みを必要とし、したがって実際のオンラインコーダには適していないが、両方の方法が常に最大可能な効率で実行されることを保証する。オンライン符号化の場合、レイテンシ制約の下でそのようなトレリス図を復号するための方法が存在する［８］。

両方のシステムは、必要なサイド情報の単純かつ非圧縮の送信を想定していた：窓切り替えでは、ロングブロックおよびショートブロックをシグナリングするために各フレームに１ビットが使用された。

ＳｕｂｂａｎｄＭｅｒｇｉｎｇの場合、ｍｅｒｇｅｆａｃｔｏｒおよびＴＤＡＲフラグ（それぞれ６つのｍｅｒｇｅｆａｃｔｏｒおよび２つのＴＤＡＲ値を有する８つのｍｅｒｇｅｆａｃｔｏｒバンド）をシグナリングするために、フレームごとに２９ビットが使用された。

スケールファクタまたはマスキング閾値は、複号器側で知られていた。

２．２一般的な観察

符号化／復号プロセスを実行するだけで、以下の特性を観察することができる。

１５ｋＨｚ～２４ｋＨｚの範囲の最高の２～３つの併合因子帯域では、コーダはほぼ常に併合因子１を選択し、併合を無効にした。中央セクション、併合因子帯域２～５、または３ｋＨｚ～１５ｋＨｚの周波数範囲では、コーダは主に併合因子１または３２のいずれかを選択した。０ｋＨｚ～３ｋＨｚの範囲のより低い併合因子帯域では、符号器は主に併合係数１および２を選択した。併合因子４、８および１６はほとんど選択されなかった。図１８を参照されたい。

詳細には、図１８は、コーダによって行われた併合因子（ＭＦ）および時間領域エイリアシング低減（ＴＤＡＲ）の選択の分布を図で示す。

この観察結果は、聴覚系に関する基本的な想定と一致している。すなわち、高い周波数は静かに非常に高い閾値を有するため、事実上ほとんどすべてが０に量子化され、併合因子の選択は無関係になる。中域周波数では、聴覚系は高い時間分解能を有するが、低域周波数では、人間の耳はより高い周波数分解能を有する。

第２に、任意の選択された歪みパラメータｑについて、サブバンド併合フィルタバンクの対応するビットレートが窓切り替えフィルタバンクのビットレートを下回ることに留意されたい。平均して、不均一システムは、信号を符号化するためにサンプル当たり５～１３％少ないビットを必要とした（図１９を参照）。

詳細には、図１９は、３９の試験項目にわたる異なる歪みパラメータｑについての２つのシステムの平均ビットレートを図で示す。

２．３聴取試験設定

異なる量子化器ステップサイズ係数、したがって平均ビットレートにおける３つの異なる品質設定を考慮した：透明（ＨＱ）、わずかに損なわれた（ＭＱ）、および中程度に損なわれた（ＬＱ）。図２０の表１を参照されたい。

詳細には、図２０の表１は、品質設定およびそれらの歪みパラメータｑならびに結果として得られる平均ビットレートを列挙している。

知覚モデルの設計によれば、ＨＱの場合、可聴アーチファクトは予想されなかった［４］。実際、小規模なＡＢＣ／ＨＲ（ＩＴＵ－ＲＢＳ．１１１６－３）［９］聴取試験の間、専門家の聴取者はいずれかの方法と基準信号との間の有意差を識別することができなかった。このような聴取試験を実施しても意味のある結果が明らかになる可能性は低いので、２つの残りの品質設定ＭＱおよびＬＱのためにスキップした。

ＭＱおよびＬＱの場合、窓スイッチングフィルタバンクシステムの歪みパラメータｑは、その出力ビットレートがサブバンド合流フィルタバンクのビットレートと一致するように選択され、これは、サブバンド合流フィルタバンクの歪みパラメータｑが窓スイッチングフィルタバンクの歪みパラメータｑよりも低いことを意味する。したがって、不均一なフィルタバンクでは、窓切り替えフィルタバンクと同じビットレートを可能にしながら、より高い知覚品質を達成することができる。これを検証するため、ｈｉｄｄｅｎｒｅｆｅｒｅｎｃｅａｎｄａｎｃｈｏｒ法による多刺激試験（ＭＵＳＨＲＡ，ＩＴＵ－ＲＢＳ．１５３４－３）を用いた聴取試験を行った［１０］。

２．４テスト信号コーパス

この評価のためのテスト信号は、音声コーダの開発およびチューニングに一般的に使用されるテストセットから取得された。これには、男性および女性のスピーチ、ならびにハーモニック音および打楽器音の両方を含むいくつかの音楽録音が含まれていた。すべての条件は、ＩＴＵ－ＲＢＳ．１７７０－４を使用して音量を正規化した［１１］。図２１の表２を参照されたい。詳細には、図２１の表２は、異なる試験項目を列挙している。

２．５聴取試験結果

合計Ｎ＝１６名の専門聴取者が試験に参加した。

最初に、シャピロ－ウィルク検定を使用して、正常性について２つの方法間のＭＵＳＨＲＡスコアの対差を試験した。ＬＱおよびＭＱについては、差は有意に非正常であった（図２２の表３および図２３の図４を参照のこと）。

詳細には、図２２の表３は、わずかに損なわれた（ＭＱ）および中程度に損なわれた（ＬＱ）品質設定での窓切り替えフィルタバンク（ＷＳ）とサブバンド併合フィルタバンク（ＳＭ）との間の差のペアワイズＭＵＳＨＲＡスコアについての正常性のシャピロウィルク検定の結果を列挙している。ＷはＷ統計量を示し、ｐはｐ値を示す。

したがって、すべての条件についてパラメトリック対ｔ検定の代わりにオンパラメトリックウィルコクソンの符号順位検定を使用した。すべての試験の概要を図２４の表４に示す。

詳細には、図２４の表４は、わずかに損なわれた（ＭＱ）および中程度に損なわれた（ＬＱ）品質設定での窓切り替えフィルタバンク（ＷＳ）およびサブバンド併合フィルタバンク（ＳＭ）を比較したＭＵＳＨＲＡスコアについての平均、標準偏差（ＳＤ）、およびウィルコクソンの符号付き順位検定結果を列挙している。ＷはｓＷ統計量を示し、ｐはｐ値を示す。

ＭＱでの２つのシステムの知覚品質を比較するために、ウィルコクソンの符号順位検定を行った。窓切り替えフィルタバンクおよびサブバンド併合フィルタバンクのＭＵＳＨＲＡスコアには有意差があった、ｐ＝。０００。

第２に、ウィルコクソンの符号順位検定を行って、品質設定ＬＱにおける２つのシステムの知覚品質を比較した。窓切り替えフィルタバンクおよびサブバンド併合フィルタバンクのＭＵＳＨＲＡスコアには有意差があった、ｐ＝。０００。

図２５は、わずかに損なわれた（ＭＱ）および中程度に損なわれた（ＬＱ）品質設定での個々の項目、窓切り替えフィルタバンクおよびサブバンド併合フィルタバンクについてのＭＵＳＨＲＡスコア差の平均および９５％信頼区間を図で示す。正の値は、窓の切り替えよりもサブバンドの併合に有利である。

２．６さらなる実施形態

実施形態は、単純な音声コーダにおいてＭＤＣＴ分析／合成およびＴＤＡＲに基づく不均一直交フィルタバンクを使用する方法を提供する。上記では、その符号化効率を均一窓切り替えＭＤＣＴフィルタバンクと比較した。平均して、不均一は、テスト信号を符号化するためにサンプルあたり５から１３％少ないビットしか必要としなかった。この追加の符号化効率は、同じ出力ビットレートで符号器の知覚品質を改善するために使用することができる。

上記の試験では、ＭＵＳＨＲＡ聴取試験およびその後の統計分析を使用して、６～７ＭＵＳＨＲＡ点の改善された知覚品質を確認した。知覚品質の差は統計的に有意であることが分かった。

図２６は、本発明の一実施形態による、音声信号のサブバンド表現を取得するために音声信号を処理するための方法５００のフローチャートを示す。方法５００は、音声信号のサンプルの第１のブロックに基づいてサブバンドサンプルのセットを取得するために、および音声信号のサンプルの第２のブロックに基づいてサブバンドサンプルの対応するセットを取得するために、音声信号のサンプルの少なくとも２つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行するステップ５０２を含む。方法５００は、音声信号のエイリアシング低減サブバンド表現を取得するために、一方が音声信号のサンプルの第１のブロックに基づいて取得され、他方が音声信号のサンプルの第２のブロックに基づいて取得される、２つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するステップ５０４をさらに含む。カスケード重複クリティカルサンプル変換を実行するステップは、少なくとも２つの窓関数を使用して、サンプルの第１のブロックに基づいて取得されたビンのセットをセグメント化し、サンプルの第１のブロックに対応するビンのセグメント化されたセットに基づいて、ビンの少なくとも２つのセグメント化されたセットを取得するステップを含む。カスケード重複クリティカルサンプル変換を実行することは、前記少なくとも２つの窓関数を使用して前記サンプルの第２のブロックに基づいて取得されたビンのセットをセグメント化し、前記サンプルの第２のブロックに対応する前記セグメント化されたビンのセットに基づいて少なくとも２つのビンのセットを取得することを含む。前記ビンのセットは、前記カスケード重複クリティカルサンプル変換の第２の重複クリティカルサンプル変換を使用して処理し、第２の重複クリティカルサンプル変換は、少なくとも１つのビンのセットについて同じフレーム長を有する重複クリティカルサンプル変換を実行する。

図２７は、本発明の一実施形態による、音声信号を取得するために音声信号のサブバンド表現を処理するための方法６００のフローチャートを示す。方法６００は、エイリアスされたサブバンド表現を得るために、音声信号の２つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するステップ６０２を含み、エイリアスされたサブバンド表現は、サブバンドサンプルのセットである。さらに、方法６００は、音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するステップ６０４を含み、カスケード逆重複クリティカルサンプル変換を実行することは、音声信号の所与のサブバンドに関連付けられたビンのセットを取得するために、サブバンドサンプルのセットに対して第１の逆重複クリティカルサンプル変換を実行することを含み、第１の逆重複クリティカルサンプル変換を実行することは、サブバンドサンプルのセットに対して同じフレーム長を有する逆重複クリティカルサンプル変換を実行することを含む。

続いて、さらなる実施形態について説明する。これにより、以下の実施形態を上記実施形態と組み合わせることができる。

実施形態１：音声信号（１０２）を処理して、前記音声信号（１０２）のサブバンド表現を取得するための音声処理装置（１００）であって、前記音声処理装置（１００）は、音声信号（１０２）のサンプルの少なくとも２つの部分的に重なり合うブロック（１０８＿１；１０８＿２）に対してカスケード重複クリティカルサンプル変換を実行するように構成されたカスケード重複クリティカルサンプル変換ステージ（１０４）を備えて、音声信号（１０２）のサンプルの第１１のブロック（１０８＿１）に基づいてサブバンドサンプルのセット（１１０＿１，１）を取得し、音声信号（１０２）のサンプルの第２のブロック（１０８＿２）に基づいてサブバンドサンプルの対応するセット（１１０＿２，１）を取得するために、１つは前記音声信号（１０２）のサンプルの前記第１のブロック（１０８＿１）に基づいて取得されたものであり、もう１つは前記音声信号のサンプルの前記第２のブロック（１０８＿２）に基づいて取得されたものである、２つの対応するサブバンドサンプルのセット（１１０＿１，１；１１０＿１，２）の重み付け組み合わせを実行するように構成された時間領域エイリアシング低減ステージ（１０６）と、を含む。

実施形態２：前記カスケード重複クリティカルサンプル変換ステージ（１０４）は、サンプルの第１のブロック（１０８＿１）および前記少なくとも２つの部分的に重なり合うブロック（１０８＿１；１０８；１０８＿２）のサンプルの第２のブロック（１０８＿２）に対して重複クリティカルサンプル変換を実行するように構成された第１の重複クリティカルサンプル変換ステージ（１２０）を備える、実施形態１に記載の音声処理装置（１００）。サンプルの第１のブロック（１０８＿１）のためのビンの第１のセット（１２４＿１）およびサンプルの第２のブロック（１０８＿２）のためのビンの第２のセット（１２４＿２）を取得する。

実施形態３：カスケード重複クリティカルサンプル変換ステージ（１０４）は、ビンの第１のセット（１２４＿１）のセグメント（１２８＿１，１）に対して重複クリティカルサンプル変換を実行し、ビンの第２のセット（１２４＿２）のセグメント（１２８＿２，１）に対して重複クリティカルサンプル変換を実行するように構成された第２の重複クリティカルサンプル変換ステージ（１２６）をさらに備え、各セグメントは、ビンの第１のセットのサブバンドサンプルのセット（１１０＿１，１）と、ビンの第２のセットのサブバンドサンプルのセット（１１０＿２，１）とを取得するために、音声信号（１０２）のサブバンドに関連付けられている、実施形態２に記載の音声処理装置（１００）。

実施形態４：サブバンドサンプルの第１のセット（１１０＿１，１）が、ビンの第１のセット（１２４＿１）の第１のセグメント（１２８＿１，１）に基づく第１の重複クリティカルサンプル変換（１３２＿１，１）の結果であり、サブバンドサンプルの第２のセット（１１０＿１，２）が、ビンの第１のセット（１２４＿１）の第２のセグメント（１２８＿１，２）に基づく第２の重複クリティカルサンプル変換（１３２＿１，２）の結果であり、サブバンドサンプルの第３のセット（１１０＿２，１）が、ビンの第２のセット（１２８＿２，１）の第１のセグメント（１２８＿２，１）に基づく第３の重複クリティカルサンプル変換（１３２＿２，１）の結果であり、サブバンドサンプルの第４のセット（１１０＿２，２）が、ビンの第２のセット（１２８＿２，１）の第２のセグメント（１２８＿２，２）に基づく第４の重複クリティカルサンプル変換（１３２＿２，２）の結果である、実施形態３に記載の音声処理装置（１００）。前記時間領域エイリアシング低減ステージ（１０６）は、音声信号の第１のエイリアシング低減サブバンド表現（１１２＿１）を取得するためにサブバンドサンプルの第１のセット（１１０＿１，１）とサブバンドサンプルの第３のセット（１１０＿２，１）との重み付き組み合わせを実行するよう構成される。前記時間領域エイリアシング低減ステージ（１０６）は、音声信号の第２のエイリアシング低減サブバンド表現（１１２＿２）を取得するためにサブバンドサンプルの第２のセット（１１０＿１，２）とサブバンドサンプルの第４のセット（１１０＿２，２）との重み付き組み合わせを実行するよう構成される。

実施形態５：前記カスケード重複クリティカルサンプル変換ステージ（１０４）は、少なくとも２つの窓関数を使用して、サンプルの前記第１のブロック（１０８＿１）に基づいて取得されたビンのセット（１２４＿１）をセグメント化し、サンプルの前記第１のブロック（１０８＿１）に対応する前記セグメント化されたビンのセットに基づいて、サブバンドサンプルの少なくとも２つのセグメント化されたセット（１２８＿１，１；１２８＿１，２）を取得するように構成される、実施形態１から４のいずれか１つに記載の音声処理装置（１００）。前記カスケード重複クリティカルサンプル変換ステージ（１０４）は、前記少なくとも２つの窓関数を使用して、サンプルの前記第２のブロック（１０８＿２）に基づいて取得されたビンのセット（１２４＿２）をセグメント化し、サンプルの前記第２のブロック（１０８＿２）に対応するビンの前記セグメント化されたセットに基づいて、サブバンドサンプルの少なくとも２つのセグメント化されたセット（１２８＿２，１；１２８＿２，２）を取得するように構成される；前記少なくとも２つの窓関数は異なる窓幅を含む、請求項１に記載の装置。

実施形態６：前記カスケード重複クリティカルサンプル変換ステージ（１０４）は、少なくとも２つの窓関数を使用して、サンプルの前記第１のブロック（１０８＿１）に基づいて取得されたビンのセット（１２４＿１）をセグメント化し、サンプルの前記第１のブロック（１０８＿１）に対応する前記セグメント化されたビンのセットに基づいて、サブバンドサンプルの少なくとも２つのセグメント化されたセット（１２８＿１，１；１２８＿１，２）を取得するように構成される、実施形態１から５のいずれか１つに記載の音声処理装置（１００）。前記カスケード重複クリティカルサンプル変換ステージ（１０４）は、前記少なくとも２つの窓関数を使用して、サンプルの前記第２のブロック（１０８＿２）に基づいて取得されたビンのセット（１２４＿２）をセグメント化し、サンプルの前記第２のブロック（１０８＿２）に対応する前記セグメント化されたビンのセットに基づいて、サブバンドサンプルの少なくとも２つのセット（１２８＿２，１；１２８＿２，２）を取得するように構成される；隣接するサブバンドサンプルのセットに対応する前記窓関数のフィルタ勾配は対称である。

前記重複クリティカルサンプル変換ステージ（１０４）は、対応するサブバンドサンプルを得るために、サンプルの前記第１のブロック（１０８＿１）に基づいて得られるビンのセット（１２４＿１）と、サンプルの前記第２のブロック（１０８＿２）に基づいて得られるビンのセット（１２４＿２）とを、第２の窓関数を用いてセグメント化するように構成され、前記第１の窓関数および前記第２の窓関数は異なる窓幅を含む、請求項１に記載の装置。

実施形態８：カスケード重複クリティカルサンプル変換ステージ（１０４）が、第１の窓関数を使用して音声信号のサンプルをサンプルの第１のブロック（１０８＿１）およびサンプルの第２のブロック（１０８＿２）にセグメント化するように構成される、実施形態１から６のいずれか１つに記載の音声処理装置（１００）。前記カスケード重複クリティカルサンプル変換ステージ（１０４）は、対応するサブバンドサンプルを得るために、第２の窓関数を使用して、サンプルの前記第１のブロック（１０８＿１）に基づいて得られたビンのセット（１２４＿１）と、サンプルの前記第２のブロック（１０８＿２）に基づいて得られたビンのセット（１２４＿２）とをセグメント化するように構成され、前記第１の窓関数の窓幅と前記第２の窓関数の窓幅とは互いに異なり、前記第１の窓関数の窓幅と前記第２の窓関数の窓幅とは２のべき乗とは異なる係数だけ互いに異なる、請求項１に記載の方法。

実施形態９：時間領域エイリアシング低減ステージ（１０６）は、以下の式に従って２つの対応するサブバンドサンプルのセットの重み付けされた組み合わせを実行するように構成される、実施形態１から８のいずれか１つに記載の音声処理装置（１００）。

であり、

前記音声信号の前記エイリアシング低減サブバンド表現を取得し、ｙｖ，ｉ（ｍ）は、前記音声信号の第１のエイリアシング低減サブバンド表現であり、ｙｖ，ｉ－１（Ｎ－１－ｍ）は、前記音声信号の第２のエイリアシング低減サブバンド表現であり、

は、前記音声信号の前記第２のサンプルブロックに基づくサブバンドサンプルのセットであり、

は、前記音声信号の前記第１のサンプルブロックに基づくサブバンドサンプルのセットであり、ａ_ｖ（ｍ）は．．．であり、ｂ_ｖ（ｍ）は．．．であり、ｃ_ｖ（ｍ）は．．．であり、ｄ_ｖ（ｍ）は．．．．である。

実施形態１０：音声信号（１０２）を取得するために前記音声信号のサブバンド表現を処理するための音声処理装置（２００）であって、前記音声処理装置（２００）は、エイリアスされたサブバンド表現を取得するために、前記音声信号（１０２）の２つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するように構成された逆時間領域エイリアシング低減ステージ（２０２）を備え、前記エイリアスされたサブバンド表現は、サブバンドサンプルのセット（１１０＿１，１）である、音声処理装置（）。前記音声信号（１０２）のサンプルのブロックに関連付けられたサンプルのセット（１１０＿１，１）を取得するために、前記サブバンドサンプルのセット（２０６＿１，１）に対してカスケード逆重複クリティカルサンプル変換を実行するように構成されたカスケード逆重複クリティカルサンプル変換ステージ（２０４）と、を含む。

実施形態１１：前記カスケード逆重複クリティカルサンプル変換ステージ（２０４）は、前記音声信号の所与のサブバンドに関連付けられたビンのセット（１２８＿１，１）を取得するために、前記サブバンドサンプルのセット（１１０＿１，１）に対して逆重複クリティカルサンプル変換を実行するように構成された第１の逆重複クリティカルサンプル変換ステージ（２０８）を含む、実施形態１０に記載の音声処理装置（２００）。前記音声信号（１０２）のサンプルのブロックに関連付けられたビンのセット（１２４＿１）を取得するために、前記音声信号（１０２）の前記所与のサブバンドに関連付けられたビンのセット（１２８＿１，１）と、前記音声信号（１０２）の別のサブバンドに関連付けられたビンのセット（１２８＿１，２）との重み付き組み合わせを含む、前記音声信号の複数のサブバンドに関連付けられたビンのセットの連結を実行するように構成された第１の重複および加算ステージ（２１０）とを含む。

実施形態１２：カスケード逆重複クリティカルサンプル変換ステージ（２０４）は、音声信号（１０２）のサンプルのブロックに関連付けられたサンプルのセットを取得するために、音声信号（１０２）のサンプルのブロックに関連付けられたビンのセット（１２４＿１）に対して逆重複クリティカルサンプル変換を実行するように構成された第２の逆重複クリティカルサンプル変換ステージ（２１２）を含む、実施形態１１に記載の音声処理装置（２００）。

実施形態１３：カスケード逆重複クリティカルサンプル変換ステージ（２０４）は、音声信号（１０２）を取得するために、音声信号（１０２）のサンプルのブロックに関連付けられたサンプルのセット（２０６＿１，１）と、音声信号（１０２）のサンプルの別のブロックに関連付けられたサンプルの別のセット（２０６＿２，１）とを重複して加算するように構成された第２の重複加算ステージ（２１４）を備え、サンプルのブロックおよび音声信号（１０２）のサンプルの別のブロックは部分的に重複している、実施形態１２に記載の音声処理装置（２００）。

実施形態１４：逆時間領域エイリアシング低減ステージ（２０２）は、以下の式に基づいて、音声信号（１０２）の２つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するように構成される、実施形態１０から１３のいずれかに記載の音声処理装置（２００）。

であり、

エイリアスされたサブバンド表現を取得するために、ｙｖ，ｉ（ｍ）は、音声信号の第１のエイリアシング低減サブバンド表現であり、ｙｖ，ｉ－１（Ｎ－１－ｍ）は、音声信号の第２のエイリアシング低減サブバンド表現であり、

は、信号の第２のサンプルブロックに基づくサブバンドサンプルのセットであり、

は、音声信号の第１のサンプルブロックに基づくサブバンドサンプルのセットであり、ａ_ｖ（ｍ）は．．．であり、ｂ_ｖ（ｍ）は．．．であり、ｃ_ｖ（ｍ）は．．．であり、ｄ_ｖ（ｍ）は．．．．である。

実施形態１５：実施形態１から９のいずれか１つに記載の音声処理装置（１００）であって、前記音声信号の符号化されたエイリアシング低減サブバンド表現を得るために、前記音声信号の前記エイリアシング低減サブバンド表現を符号化するように構成された符号化器と、前記音声信号の前記符号化されたエイリアシング低減サブバンド表現からビットストリームを形成するように構成されたビットストリーム形成器とを備えている。

実施形態１６：符号化されたエイリアシング低減サブバンド表現を得るために、ビットストリームを解析するように構成されたビットストリームパーサを備える、音声複号器。前記符号化されたエイリアシング低減サブバンド表現を復号して、前記音声信号の前記エイリアシング低減サブバンド表現を取得するように構成された復号器と、および実施形態１０から１４のいずれか一項に記載の音声処理装置（２００）とを含む。

実施形態１７。実施形態１から９のいずれか１つに記載の音声処理装置（１００）であって、前記エイリアシング低減サブバンド表現を解析して、前記音声信号を記述する情報を提供するように構成された、情報抽出器と、を含む。

実施形態１８：音声信号を処理して、前記音声信号のサブバンド表現を取得するための方法（３００）であって、前記音声信号のサンプルの少なくとも２つの部分的に重なり合うブロックに対してカスケード重複クリティカルサンプル変換を実行し（３０２）、前記音声信号のサンプルの第１のブロックに基づいてサブバンドサンプルのセットを取得し、前記音声信号のサンプルの第２のブロックに基づいてサブバンドサンプルの対応するセットを取得するステップを含む方法。音声信号のエイリアシング低減サブバンド表現を取得するために、一方が音声信号のサンプルの第１のブロックに基づいて取得され、他方が音声信号のサンプルの第２のブロックに基づいて取得される、２つの対応するサブバンドサンプルのセットの重み付き組み合わせを実行するステップ（３０４）と、を含む。

実施形態１９：音声信号を取得するために前記音声信号のサブバンド表現を処理するための方法（４００）であって、エイリアスされたサブバンド表現を取得するために、前記音声信号の２つの対応するエイリアシング低減サブバンド表現の重み付き組み合わせを実行するステップ（４０２）を含み、前記エイリアスされたサブバンド表現は、サブバンドサンプルのセットである、方法。音声信号のサンプルのブロックに関連付けられたサンプルのセットを取得するために、サブバンドサンプルのセットに対してカスケード逆重複クリティカルサンプル変換を実行するステップ（４０４）と、を含む。

実施形態２０：実施形態１８および１９のいずれかに記載の方法を実行するためのコンピュータプログラム。

いくつかの態様を装置の文脈で説明したが、これらの態様は対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様はまた、対応する装置の対応するブロックまたは項目または特徴の説明を表す。方法ステップの一部またはすべては、例えばマイクロ処理装置、プログラマブルコンピュータ、または電子回路などのハードウェア装置によって（または使用して）実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの１つまたは複数は、そのような装置によって実行されてもよい。

特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装は、電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ、Ｂｌｕ－Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行することができ、これらはそれぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。

本発明によるいくつかの実施形態は、本明細書に記載の方法のうちの１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときの方法のうちの１つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納することができる。

他の実施形態は、機械可読キャリアに格納された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

言い換えれば、したがって、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを記録して含むデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体、または記録された媒体は、通常、有形および／または非一時的である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するように構成または適合された処理手段、例えばコンピュータまたはプログラマブル論理デバイスを含む。

さらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明によるさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを受信機に転送する（例えば、電子的または光学的に）ように構成された装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。

いくつかの実施形態では、プログラマブル・ロジック・デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書に記載の方法のうちの１つを実行するためにマイクロ処理装置と協働することができる。一般に、方法は、任意のハードウェア装置によって実行されることが好ましい。

本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実装され得る。

本明細書に記載の装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび／またはソフトウェアで実装されてもよい。

本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組み合わせを使用して実行され得る。

本明細書に記載の方法、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび／またはソフトウェアによって実行されてもよい。

上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載の構成および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、本明細書の実施形態の説明および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図される。

Claims

音声信号（１０２）を処理して前記音声信号（１０２）のサブバンド表現を取得するための音声処理装置（１００）であって、前記音声処理装置（１００）は、
前記音声信号（１０２）のサンプルの第１のブロック（１０８＿１）に基づいてサブバンドサンプルのセット（１１０＿１，１）を取得し、かつ前記音声信号（１０２）のサンプルの第２のブロック（１０８＿２）に基づいて、サブバンドサンプルの対応するセット（１１０＿２，１）を取得するために、前記音声信号（１０２）のサンプルの少なくとも２つの部分的に重なり合うブロック（１０８＿１；１０８＿２）に対してカスケード重複クリティカルサンプル変換を実行するように構成されたカスケード重複クリティカルサンプル変換ステージ（１０４）と、
前記音声信号（１０２）のエイリアシング低減サブバンド表現（１１２＿１）を取得するために、１つが前記音声信号（１０２）のサンプルの第１のブロック（１０８＿１）に基づいて取得され、１つが前記音声信号のサンプルの第２のブロック（１０８＿２）に基づいて取得されたサブバンドサンプルの２つの対応するセット（１１０＿１，１；１１０＿１，２）の重み付き組み合わせを実行するように構成された時間領域エイリアシング低減ステージ（１０６）と、を備え、
前記カスケード重複クリティカルサンプル変換ステージ（１０４）は、少なくとも２つの窓関数を使用して、サンプルの第１のブロック（１０８＿１）に基づいて取得されたビンのセット（１２４＿１）をセグメント化し、かつサンプルの第１のブロック（１０８＿１）に対応するビンのセグメント化されたセットに基づいて、ビンの少なくとも２つのセット（１２８＿１，１；１２８＿１，２）を取得するように構成され、
前記カスケード重複クリティカルサンプル変換ステージ（１０４）は、少なくとも２つの窓関数を使用してサンプルの第２のブロック（１０８＿２）に基づいて得られたビンのセット（１２４＿２）をセグメント化し、かつサンプルの第２のブロック（１０８＿２）に対応するセグメント化されたビンのセットに基づいて、少なくとも２つのビンのセット（１２８＿２，１；１２８＿２，２）を取得するように構成され、
前記ビンのセット（１２８＿１，１；１２８＿１，２；１２８＿２，１；１２８＿２，２）は、前記カスケード重複クリティカルサンプル変換ステージの第２の重複クリティカルサンプル変換ステージを使用して処理され、前記第２の重複クリティカルサンプル変換ステージは、少なくとも１セットのビンに対して同じフレーム長を持つ重複クリティカルサンプル変換を実行するように構成され、
前記音声処理装置（１００）は、同じフレーム長が２つの後続のブロック（１０８＿１，１０８＿２）に使用される場合に、アクティブ化された前記時間領域エイリアシング低減ステージ（１０６）をアクティブ化し、または維持するように構成され、
および／または、異なるフレーム長が２つの後続のブロック（１０８＿１，１０８＿２）に使用される場合、前記音声処理装置（１００）は、前記時間領域エイリアシング低減ステージ（１０６）を非アクティブ化するか、または非アクティブ化したままにするように構成されている、音声処理装置（１００）。
前記第２の重複クリティカルサンプル変換ステージ（１２６）は、サンプルの前記第１のブロック（１０８＿１）に対応するビンの前記セグメント化されたセットに基づいて取得されたビンの前記少なくとも２つのセット（１２８＿１，１；１２８＿１，２）のうちの第１のセット（１２８＿１，１）のＮ_１，１のサブセットに対してＮ_１，１の重複クリティカルサンプル変換を実行するように構成され、前記Ｎ_１，１の重複クリティカルサンプル変換は同じフレーム長を含み、Ｎ_１，１は２以上の自然数であり、
前記第２の重複クリティカルサンプル変換ステージ（１２６）は、前記サンプルの前記第２のブロック（１０８＿２）に対応する前記セグメント化されたビンのセットに基づいて取得された前記ビンの前記少なくとも２つのセット（１２８＿２，１；１２８＿２，２）のうちの対応する第１のセット（１２８＿１，２）のＮ_２，１のサブセットに対してＮ_２，１の重複クリティカルサンプル変換を実行するように構成され、前記Ｎ_２，１の重複クリティカルサンプル変換は同じフレーム長を含み、Ｎ_２，１は、２以上の自然数である、
請求項１に記載の音声処理装置（１００）。
前記音声処理装置（１００）は、ビンの各セット（１２８＿１，１，１２８＿１，２，１２８＿２，１，１２８＿２，２）またはビンの前記対応するセット（１２８＿１，１および１２８＿２，１；１２８＿１，２および１２８＿２，２）のそれぞれについて前記フレーム長を個別に選択するように構成されている、請求項１および２に記載の音声処理装置（１００）。
前記音声処理装置は、サンプルのブロック（１０８＿１，１０８＿２）ごとに前記フレーム長を個別に選択するように構成されている、請求項１から３のいずれか一項に記載の音声処理装置（１００）。
前記少なくとも２つの窓関数は同じ窓幅を含む、請求項１から４のいずれか一項に記載の音声処理装置（１００）。
前記少なくとも２つの窓関数は異なる窓幅を含む、請求項１から５のいずれか一項に記載の音声処理装置（１００）。
前記少なくとも２つの窓関数は、長方形の窓を含む、請求項１から６のいずれか一項に記載の音声処理装置（１００）。
前記少なくとも２つの窓関数に基づいて取得されたビンの前記セットが、前記第２の重複クリティカルサンプル変換ステージを使用して処理され、
前記第２の重複クリティカルサンプル変換ステージは、前記少なくとも２つの窓関数に基づいて取得された前記ビンのセットのうちの少なくとも１つに対して同じフレーム長を有する少なくとも２つの重複クリティカルサンプル変換を実行するように構成されている、請求項５から７のいずれか一項に記載の音声処理装置（１００）。
前記音声処理装置（１００）は、ジョイントチャネル符号化を実行するように構成されている、請求項１から８のいずれか一項に記載の音声処理装置（１００）。
前記音声処理装置（１００）は、ジョイントチャネル処理としてＭ／Ｓまたはマルチチャネル符号化ツール（ＭＣＴ）を実行するように構成されている、請求項９に記載の音声処理装置。
前記音声処理装置（１００）は、ビンの前記少なくとも２つのセグメント化されたセット（１２８＿１，１；１２８＿１，２）の各々について個別にジョイントチャネル処理をアクティブ化または非アクティブ化するように構成されている、請求項９又は１０に記載の音声処理装置（１００）。
前記音声処理装置（１００）は、前記音声信号の符号化されたエイリアシング低減サブバンド表現（１１２＿１，１１２＿２）からビットストリームを形成するように構成され、
前記音声処理装置（１００）は、前記ビットストリーム内のビンの前記対応するセット（１２８＿１，１および１２８＿２，１；１２８＿１，２および１２８＿２，２）の少なくとも１つのフレーム長をシグナリングする少なくとも１つの併合因子パラメータを含む前記ビットストリームを提供するように構成されている、請求項１から１１のいずれか一項に記載の音声処理装置（１００）。
前記音声処理装置（１００）は、前記少なくとも一つの併合因子パラメータをエントロピー符号化するように構成されている、請求項１２に記載の音声処理装置（１００）。
請求項１に記載の音声処理装置（１００）と、
前記音声信号の符号化されたエイリアシング低減サブバンド表現を得るために、前記音声信号の前記エイリアシング低減サブバンド表現を符号化するように構成された符号化器と、
前記音声信号の前記符号化されたエイリアシング低減サブバンド表現からビットストリームを形成するように構成されたビットストリーム形成器と、
を備えた音声符号化器。
音声信号（１０２）を処理して前記音声信号（１０２）のサブバンド表現を取得する方法であって、前記方法は、
前記音声信号（１０２）のサンプルの第１のブロック（１０８＿１）に基づいてサブバンドサンプルのセット（１１０＿１，１）を取得し、かつ前記音声信号（１０２）のサンプルの第２のブロック（１０８＿２）に基づいて、サブバンドサンプルの対応するセット（１１０＿２，１）を取得するために、前記音声信号（１０２）のサンプルの少なくとも２つの部分的に重なり合うブロック（１０８＿１；１０８＿２）に対してカスケード重複クリティカルサンプル変換を実行することと、
前記音声信号（１０２）のエイリアシング低減サブバンド表現（１１２＿１）を取得するために、１つが前記音声信号（１０２）のサンプルの第１のブロック（１０８＿１）に基づいて取得され、１つが前記音声信号のサンプルの第２のブロック（１０８＿２）に基づいて取得されたサブバンドサンプルの２つの対応するセット（１１０＿１，１；１１０＿１，２）の重み付き組み合わせを実行することと、を含み、
前記カスケード重複クリティカルサンプル変換を実行することは、少なくとも２つの窓関数を使用して、サンプルの第１のブロック（１０８＿１）に基づいて取得されたビンのセット（１２４＿１）をセグメント化し、かつサンプルの第１のブロック（１０８＿１）に対応するビンのセットに基づいて、ビンの少なくとも２つのセグメント化されたセット（１２８＿１，１；１２８＿１，２）を取得することを含み、
前記カスケード重複クリティカルサンプル変換することは、少なくとも２つの窓関数を使用してサンプルの第２のブロック（１０８＿２）に基づいて得られたビンのセット（１２４＿２）をセグメント化し、かつサンプルの第２のブロック（１０８＿２）に対応するセグメント化されたビンのセットに基づいて、少なくとも２つのビンのセット（１２８＿２，１；１２８＿２，２）を取得することを含み、
前記ビンのセット（１２８＿１，１；１２８＿１，２；１２８＿２，１；１２８＿２，２）は、前記カスケード重複クリティカルサンプル変換の第２の重複クリティカルサンプル変換を使用して処理され、前記第２の重複クリティカルサンプル変換は、少なくとも１セットのビンに対して同じフレーム長を持つ重複クリティカルサンプル変換を実行することを含み、
前記同じフレーム長が２つの後続のブロック（１０８＿１、１０８＿２）に使用される場合、前記サブバンドサンプルの２つの対応するセット（１１０＿１，１；１１０＿１，２）の重み付けされた組み合わせが実行され、
および／またはサブバンドサンプルの２つの対応するセット（１１０＿１，１；１１０＿１，２）の重み付けされた組み合わせは、２つの後続のブロック（１０８＿１、１０８＿２）に異なるフレーム長が使用されている場合は実行されない、方法。
請求項１５に記載の方法を実行するためのコンピュータプログラム。