JP7314280B2

JP7314280B2 - パルス処理を使用して周波数拡張オーディオ信号を生成するためのオーディオプロセッサおよび方法

Info

Publication number: JP7314280B2
Application number: JP2021536022A
Authority: JP
Inventors: ザシャディッシュ; ミヒャエルシュトゥルム
Original assignee: フラウンホッファー－ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2018-12-21
Filing date: 2019-12-12
Publication date: 2023-07-25
Anticipated expiration: 2039-12-12
Also published as: MX2021007331A; TW202030723A; BR112021011312A2; TWI751463B; EP3899937B1; US11776554B2; CN113272898A; US20230395085A1; US20210287687A1; EP3899937A1; CN113272898B; ZA202103742B; SG11202105709WA; ES2934964T3; JP2022516604A; CA3124158C; AU2019409071A1; WO2020126857A1; KR102619434B1; AU2019409071B2

Description

本発明はオーディオ信号処理、とりわけソースオーディオ信号から周波数拡張信号を生成するための概念に関連する。

オーディオ信号の格納または伝送にはしばしば、厳しいビットレート制約が課せられる。過去の、非常に低いビットレートしか使用できなかった時には、コーダは伝送されたオーディオ帯域を著しく削減しなければならなかった。今日、帯域幅拡張（ＢＷＥ）方法を使用することで、広帯域信号を符号化することができる［１－２］。

これらのアルゴリズムは、復号済み信号の波形符号化済み低周波数（ＬＦ）部分から、高周波数（ＨＦ）スペクトル領域への転位（「パッチング」）によって生成される、高周波数コンテンツ（ＨＦ）のパラメトリック表現に依拠する。その際、まずは「生」パッチが生成され、次に「生」パッチに対してパラメータ駆動型後処理が適用される。

典型的に、前記後処理は、高周波数の生成から転位に至るまでの間顧慮されることなく、そのため結果として生じる「生」パッチに対して事後的に調整する必要があった重要な知覚特性を調整するために適用される。

しかし、例えば任意のターゲット領域にコピーされたパッチ内のスペクトル微細構造が元のコンテンツのスペクトル微細構造と著しく異なっていれば、望まないアーチファクトが生じて、復号済みオーディオ信号の知覚品質が損なわれる可能性がある。これらのケースではしばしば、適用された後処理では「生」パッチの誤った特性を完全に訂正することはできなかった。

本発明の目的は、ＬＦ信号に知覚的に適合された、間隙充填または推定高周波数信号の「生」パッチコンテンツの新しい信号適応的生成を通して知覚品質を向上させることである。

知覚的に適応された「生」信号を既に得ておくことで、そうでない場合に必要となる事後訂正措置が最小化される。さらに、知覚的に適応された生信号によって、ＬＦとＨＦの間のクロスオーバー周波数の選択において、従来のアプローチよりもより低いものの選択が可能になる［３］。

ＢＷＥ方式において、所定のいわゆるクロスオーバー周波数を上回るＨＦスペクトル領域の復元はしばしば、スペクトルパッチングに基づく。典型的に、ＨＦ領域は複数のスタックされたパッチから成り、これらのパッチはそれぞれ、所定のクロスオーバー周波数未満のＬＦスペクトルのバンドパス（ＢＰ）領域にソースをとる。

最新のシステムはフィルタバンクまたは時間－周波数変換表現において、ソーススペクトルからターゲットスペクトル領域に隣接するサブバンド係数のセットをコピーすることで、パッチングを効率的に実行する。

次の工程において、調性、ノイジネス、およびスペクトルエンベロープが、エンコーダで測定されＢＷＥ副情報としてビットストリームに伝送された元のＨＦ信号の知覚的特性およびエンベロープに緊密に類似するように、調整される。

スペクトル帯域複製（ＳＢＲ）は、ハイ・エフィシエンシー・アドバンスト・オーディオ・コーディング（ＨＥ－ＡＡＣ）等、現代のオーディオコーデックに使用される周知のＢＷＥであって、上記に記載の技術を使用する［１］。

インテリジェントギャップ充填（ＩＧＦ）は、ＭＰＥＧ－Ｈ３Ｄオーディオまたは３ｇｐｐＥＶＳコーデック等の近代のコーデックのセミパラメトリック符号化技術を意味する［２］。ＩＧＦはエンコーダにおける量子化プロセスにおいて、低ビットレートの制約によってもたらされたスペクトルホールを充填するために用いることができる。

典型的に、限られたビット予算のために透明符号化ができない場合、まずは信号の高周波数（ＨＦ）領域にスペクトルホールが出現し、ビットレートが最も低い場合には、上部スペクトル領域に及ぼす影響が漸次的に増えていく。

デコーダ側では、このようなスペクトルホールはＩＧＦを介して、低周波数（ＬＦ）コンテンツからセミパラメトリックに生成された合成ＨＦコンテンツと、スペクトルエンベロープ調整およびスペクトル「ホワイトニングレベル」等の追加のパラメトリック副情報に制御される後処理を用いて置き換えられる。

しかしながら、前記後処理の後に、アーチファクトの知覚につながる可能性のあるミスマッチがまだ残っている可能性がある。このようなミスマッチは典型的には、
● 高調波のミスマッチ：高調波コンポーネントの配置場所の誤りによる拍動のミスマッチ
● 位相のミスマッチ：音声スピーチまたはブラス信号における鳴音の知覚される喪失につながる、パルス状励起信号の分散
● 調性のミスマッチ：過剰または過小な調性

したがって、追加の後処理を通してこれらのタイプのミスマッチを訂正するために、周波数および位相訂正メソッドが提案されてきた［３］。本発明においては、最新技術で確立されているように後処理工程で治すのではなく、これらのアーチファクトが「生」信号に組み込まれるのを最初から避けることを提案する。

他のＢＷＥの実施態様は、典型的には修正関数、二乗関数またはべき関数等の非線形関数を時間領域ＬＦ波形に適用してＨＦ信号を推定するための時間領域技術［４］に基づいている。こうして、ＬＦを歪ませることによって、ＨＦコンテンツを復元するための「生」信号として使用することのできる、調和した高調波と不協和の高調波の濃いミクスチャが生成される。

ここで、とりわけ調和のミスマッチが問題になってくる。というのも多声コンテンツに対しては、これらの技術は、望まない不調和なコンポーネントと不可避的にミックスされている所望の調和した高調波の濃厚なミクスチャを作り出すことになるからである。

このため、後処理はノイジネスを容易に増大させる可能性があり、ひとたび「生」と推定されたＨＦに組み込まれてしまえば、望まない不調和なトーン成分を全く除去することができない。

本発明は、ソースオーディオ信号から周波数拡張オーディオ信号を生成するためのより良い概念を提供することを目的とする。

この目的は、請求項１に記載のオーディオプロセッサ、請求項１７に記載のオーディオ信号を処理する方法、または請求項１８に記載のコンピュータプログラムによって達成される。

本発明は、間隙充填または推定された高周波数（ＨＦ）信号の「生」パッチコンテンツの新しい信号適応的な生成によって、オーディオ帯域幅拡張または間隙充填または一般的に周波数拡張の知覚的品質の向上が得られるとの知見に基づいている。知覚的に適応された「生」信号を得ることで、そうでなければ必要となる事後の訂正措置が最小化あるいは除去すらすることができる。

波形エンベロープ合成パルス励起（ＷＥＳＰＥ）と示される本発明の実施様態は、実際のパルス配置が時間領域エンベロープに合成される、時間領域におけるパルス列状の信号の生成に基づいている。時間領域エンベロープは、例えばコアコーダの出力において入手可能な、あるいはソースオーディオ信号の他のソースから入手可能な低周波数（ＬＦ）信号から導出される。こうして、知覚的に適応された「生」信号が得られる。

本発明の一側面によるオーディオプロセッサは、ソースオーディオ信号から周波数拡張オーディオを生成するように構成され、前記ソースオーディオ信号の少なくとも一部分の時間エンベロープを決定するためのエンベロープ決定器を備える。解析器は前記時間エンベロープを解析して時間エンベロープの所定の特徴の値を決定するように構成される。これらの値は時間値またはエネルギー、その他の特徴に関係する値でありうる。信号合成器は合成信号を生成するように配置され、合成信号の生成には、決定された時間値に関連したパルスの配置を含み、ここでパルスは時間エンベロープの振幅から導出された重みを使用して加重され、振幅はパルスが配置されている時間値に関連する。ソースオーディオ信号に含まれない合成信号の少なくとも１つの帯域とソースオーディオ信号とを結合して周波数拡張オーディオ信号を得るために、結合器が存在する。

例えば非線形処理等を使用することによる、ソースオーディオ信号からのある意味「無暗矢鱈な」高周波数の生成とは対照的に、本発明はソース信号の時間エンベロープを決定し、時間エンベロープの極大値または時間エンベロープの極小値等の時間エンベロープの所定の特性にパルスを配置すること、あるいはパルスを常に時間エンベロープの２つの極小値の間、あるいは時間エンベロープの所定の特徴に対して任意の関係性の場所に配置することによって、容易に制御することができる方法を提供している。パルスは、一般に、考慮されている周波数レンジ全体にわたって平坦な周波数コンテンツを有する。このように、理論上理想的ではないが、例えばそれに近いパルスが使用されたとしても、このような理想的ではないパルス、すなわち理想的なディラックの形状に即していないパルスの周波数コンテンツも、関心周波数レンジ内、例えばＩＧＦ（インテリジェントギャップ充填）の文脈では０～２０ｋＨｚ、あるいは、例えばソース信号の帯域幅が制限されているオーディオ帯域幅拡張の文脈では８～１６ｋＨｚまたは２０ｋＨｚの周波数レンジ内では、比較的平坦である。

このように、かかるパルスから成る合成信号は、濃密かつ容易に制御される高周波数コンテンツを提供する。例えばソースオーディオ信号のフレームから抽出された時間エンベロープごとにいくつかのパルスを配置することで、スペクトル領域における整形が得られる。というのも、所定の特徴に対して配置された異なるパルスの周波数コンテンツは、少なくとも最も優勢な特徴に合致するように、あるいは一般的にはソースオーディオ信号の時間エンベロープの所定の特徴に合致するように、スペクトル領域において互いに重畳するからである。パルスが表すスペクトル値の位相は互いにロックされているため、および、好ましくは、正のパルスまたは負のパルスのいずれかが信号合成器の隣に配置されるため、種々のパルスのうちの個別のパルスによって表されるスペクトル値の位相は互いにロックされる。したがって、非常に有用な周波数領域特性を持つ制御された合成信号が得られる。典型的に、合成信号は既存のオーディオ周波数レンジ全体にわたって広がる、すなわちＬＦレンジにも広がるブロードバンド信号である。周波数拡張の目的のためにソースオーディオ信号と結合されることがある最終的な信号を実際に生成するためには、合成信号の高帯域等少なくとも１つの帯域、あるいはバンドパスによって決定される信号が抽出され、ソースオーディオ信号に付加される。

本発明の概念は、完全に時間領域において、すなわち任意の特殊な変換なしで実施することができるポテンシャルを秘めている。時間領域は典型的な時間領域あるいは線形予測符号化（ＬＰＣ）フィルタ処理済み時間領域、つまりスペクトル的に白化され、オーディオ信号のレンダリングにおいて使用できるようにするために最終的にＬＰＣ合成フィルタを使用して処理して元のスペクトル形状を再度入れ込む必要がある、時間領域信号のいずれかである。このように、エンベロープの決定、解析、信号合成、合成信号帯域の抽出および最終的な結合は全て時間領域で実行することができ、典型的には遅延をもたらす時間－スペクトル変換またはスペクトル－時間変換を回避することができる。しかしながら、エンベロープ決定、信号合成および結合等いくつかの工程は部分的または完全にスペクトル領域で実行することもできる点で、本発明の概念は柔軟性を持つ。このように、本発明の実施、すなわち、発明が必要とする所定の工程が時間領域で実行されるかスペクトル領域で実行されるかは、所定のアプリケーションで必要とされる典型的なデコーダ設計の対応するフレームワークに常に全面的に適応させることができる。本発明の文脈は、例えばＬＰＣ励起信号（例えばＴＣＸ信号）の周波数拡張が実行されるＬＰＣ音声コーダを背景にした場合に、より一層柔軟性を持つ。合成信号とソースオーディオ信号の結合はＬＰＣ時間領域で実行され、ＬＰＣ時間領域から通常の時間領域への最終的な変換は、ＬＰＣ合成フィルタをもって行われ、具体的には、ＬＰＣ合成フィルタステージ内で、合成信号の少なくとも１つの帯域が表す、対応するスペクトル部分のための合成信号の典型的に好ましいエンベロープ調整が実行される。このように、典型的には必要となる後処理作業が単一のフィルタステージ内でのエンベロープ調整と結合される。このような後処理作業は、ＬＰＣ合成フィルタ処理、音声デコーダからの既知のデエンファシスフィルタ処理、その他低音部ポストフィルタ処理作業やＴＣＳＸデコーダまたはその他のデコーダで見られる、ＬＴＰ（長期予測）に基づく他の音声拡張ポストフィルタ処理方法などを含み得る。

本願の好ましい実施態様を以下に、添付の下記の図面に関連して論じる。

図１は、本願にかかるオーディオプロセッサの実施態様の分解組立図である。図２は、図１のエンベロープ決定器の好ましい実施態様のより詳細な描写である。図３ａは、サブバンドオーディオ信号またはフルバンドオーディオ信号の時間エンベロープを計算するための実施態様である。図３ｂは、時間エンベロープの生成のための別の実施態様である。図３ｃは、ヒルベルト変換を使用して図３ａの解析信号を決定する実施態様のフローチャートを示す。図４は、図１の解析器の好ましい実施態様を図示する。図５は、図１の信号合成器の好ましい実施態様を図示する。図６は、コアデコーダの文脈において使用される装置または方法としてのオーディオプロセッサの好ましい実施態様を図示する。図７は、合成信号とソースオーディオ信号との結合がＬＰＣ領域で実行される、好ましい実施態様を図示する。図８は、ハイパスフィルタまたはローパスフィルタ、エンベロープ調整およびソースオーディオ信号と合成信号との結合がスペクトル領域で実行される、本願の別の実施態様を図示する。図９ａは、「男性によるドイツ語のスピーチ」という音声アイテムに対する周波数拡張プロセスにおけるいくつかの信号を図示している。図９ｂは、「男性によるドイツ語のスピーチ」という音声アイテムについてのスペクトログラムを図示している。図１０ａは、「ピッチパイプ」という音声アイテムに対する周波数拡張プロセスにおけるいくつかの信号を図示している。図１０ｂは、「ピッチパイプ」という音声アイテムについてのスペクトログラムを図示している。図１１ａは、「マドンナのヴォーグ」という音声アイテムに対する周波数拡張プロセスにおけるいくつかの信号を図示している。図１１ｂは「マドンナのヴォーグ」という音声アイテムに対する周波数拡張プロセスにおけるいくつかの信号を図示している。

図１は、一方でエンベロープ決定器１００に入力され、他方で結合器４００に入力されたソースオーディオ信号から、前記結合器４００の出力において周波数拡張オーディオ信号４２０を生成するためのオーディオプロセッサを図示している。

エンベロープ決定器１００は、ソースオーディオ信号の少なくとも一部分の時間エンベロープを決定するように構成される。エンベロープ決定器は、フルバンドソースオーディオ信号、あるいは、例えば１００、２００または５００Ｈｚ等の周波数等、境界周波数がより低いソースオーディオ信号の、例えば一帯域または一部分のみのいずれかを使用することができる。時間エンベロープはエンベロープ決定器１００から解析器２００に送られ、時間エンベロープが解析されて時間エンベロープの所定の特徴の値が決定される。これらの値は時間値またはエネルギーまたは特徴に関連するその他の値でありうる。所定の特徴は、例えば、時間エンベロープの極大、時間エンベロープの極小、時間エンベロープのゼロクロッシング、または、２つの極大または２つの極小の間の、例えばこれらの特徴の間のポイントが隣接する特徴に対して同じ時間距離を持つ値であるポイントでありうる。このように、かかる所定の特徴は常に、２つの極大または２つの極小の中間のポイントである可能性がある。しかしながら、好ましい実施態様においては、例えば弧長積分処理を使用した時間エンベロープの極大の決定が好ましいとされる。時間エンベロープの所定の特徴の時間値は、合成信号を生成するための信号合成器３００に送られる。合成信号の生成には、決定された時間エンベロープに関連してのパルスの配置を含み、ここでパルスは配置前または配置後に時間エンベロープの振幅から導出された重みを使用して加重され、振幅は解析器から受信した時間値に関連、またはパルスが配置されている時間値に関連している。

合成信号の少なくとも１つの帯域または合成信号の高周波帯域全体または合成信号のいくつかの個別且つ別個の帯域あるいは合成信号全体が結合器４００に送られて、ソースオーディオ信号に含まれていない合成信号の少なくとも１つの帯域とソースオーディオ信号が結合されて、周波数拡張オーディオ信号が得られる。

好ましい実施態様においては、エンベロープ決定器は図２に図示されるように構成される。この実施態様において、ソースオーディオ信号または少なくともソースオーディオ信号の一部分は、１０５に図示されるように複数のサブバンド信号に分解される。１１０に図示されるように１つまたは複数またはすべてのサブバンドが選択または使用されて、１２０に図示されるように（選択された）それぞれのサブバンドについて個別の時間エンベロープが決定される。１２５に図示されるように、時間エンベロープは正規化またはフィルタ処理され、個別の時間エンベロープは１３０に示されるように互いに結合され、エンベロープ決定器の出力において最終時間エンベロープが得られる。この最終時間エンベロープは、図２に示される手順で決定される結合エンベロープであることがある。実施によっては、個別の選択されたサブバンドを正規化またはフィルタ処理するために、追加のフィルタ処理ステージ１１５が設けられることがある。すべてのサブバンドが使用されている場合には、これらの全てのサブバンドはブロック１１５に示されるように、正規化またはフィルタ処理される。１２５に記載される正規化工程は回避することができ、この決定された時間エンベロープの正規化またはフィルタ処理を回避する工程は、ブロック１２０において時間エンベロープが決定されることになるサブバンドが既に正規化または対応してフィルタ処理されている場合には有用である。当然、工程１１５と１２５のいずれも実行することができ、あるいは（選択された）それぞれのサブバンド１２０について時間エンベロープを決定する工程１２０とそれに続く時間エンベロープを結合する工程１３０のみが実行されて、ブロック１１５または１２５に図示される工程は一切実行されないこともありうる。

別の実施態様において、ブロック１０５における分解は一切実行することはできないが、周波数が２０、５０、１００または例えば５００Ｈｚ未満の低クロスオーバー周波数によるハイパスフィルタ処理に置き換えることができ、このハイパスフィルタ処理の結果からは１つの時間エンベロープしか決定することはできない。当然、ハイパスフィルタ処理も回避することができ、ソースオーディオ信号および典型的にはソースオーディオ信号のフレームから１つの時間エンベロープのみが導出され、ソースオーディオ信号は好ましくは典型的には重畳するフレームにおいて処理されるが、重畳しないフレームも同じく使用することができる。例えば、所定のサブバンド信号がサブバンド信号の特性に関する特定の基準を満たしていないとされた場合、または何らかの理由で最終の時間エンベロープを決定する工程から排除された場合、所定のシナリオにおいてブロック１１０に記載される選択が実行される。

図５は、信号合成器３００の好ましい実施態様を図示している。信号合成器３００は、解析器２００からの入力として、特徴の時間値と、さらに、エンベロープに関する更なる情報を受信する。アイテム３１０において、図５に図示される信号合成器３００は、時間値に関係する時間エンベロープからスケーリング係数を導出する。このため、ブロック３１０はエンベロープ振幅等のエンベロープ情報と、時間値を受信する。スケーリング係数の導出は、例えば平方根関数、たとえば１．０乗未満のべき関数、対数関数等の圧縮関数を用いて実行される。

信号合成器３００は、パルスを時間値に配置する工程３０５を含み、ここで好ましくは、パルスに関連付けられる関連スペクトル値の同期フェーズを得るため、負のパルスのみまたは正のパルスのみが配置される。しかしながら、別の実施態様では、ベースバンド信号の調性がさほど高くない時に、典型的には利用可能な間隙充填または帯域幅拡張サイド情報から導出される他の基準に依存して、パルスのランダムな配置が実行される。負のパルスまたは正のパルスの配置は、元の波形の極性によって制御することができる。パルスの極性は、波高率が最も高い元の波形の極性と等しくなるように選択することができる。言い換えると、これはつまり、正のピークが正のパルスによって形作られ、負のピークは負のパルスによって形作られることを意味する。

工程３１５において、ブロック３０５によって得られるパルスはブロック３１０の結果を用いてスケーリングされ、パルスに対して追加の後処理３２０が施される。パルス信号が得られ、パルス信号の周波数帯域を得るため、つまり結合器に送られる合成信号の少なくとも１つの帯域を得るために、パルス信号はブロック３２５に図示されるようにハイパスフィルタ処理またはバンドパスフィルタ処理される。しかしながら、フィルタ処理ステージ３２５によって出力される信号に対し、任意のスペクトルエンベロープ調整が施され、このスペクトルエンベロープ調整は、所定のエンベロープ関数または副情報から導出される、もしくは例えばブラインド帯域幅拡張アプリケーションを背景とした場合にソースオーディオ信号から導出される所定のエンベロープパラメータの選択によって実行される。

図６は、周波数拡張オーディオ信号を生成するためのオーディオプロセッサまたはオーディオ処理方法の好ましい実施態様を図示している。波形エンベロープ同期化パルス励起（ＷＥＳＰＥ）と名付けられる本発明のアプローチはパルス列状の信号の生成に基づいており、実際のパルス配置は専用の時間領域エンベロープに同期されている。この共通エンベロープと呼ばれるものはコアデコーダ２０の出力において、個別のエンベロープが結合されて１つの共通エンベロープになるＬＦ信号から、バンドパス信号のセットを介して導出される。

図６は帯域幅拡張（ＢＷＥ）機能を特徴とするオーディオデコーダへのＷＥＳＰＥ処理の典型的な統合を示しており、これは新技術の好ましい実施態様でもある。この実施態様は、任意でフレーム間で例えば５０％時間的に重畳する、例えば持続時間が２０ｍｓの時間フレームに対して作用する。

新たに提案されているＷＥＳＰＥＢＷＥの利点としては、以下が挙げられる。
・粗さと拍動のアーチファクトの軽減
・信号の調和的な継続
・パルスの維持
・音声ＢＷＥとして適格
・音楽も扱うことができる。
・調性、ピッチ整列、位相に関して自動調整するＢＷＥである。

ＷＥＳＰＥ処理は、以下の工程を含む。

１．時間エンベロープの推定（１００）
コアデコーダ２０から得られるＬＦ信号がバンドパス信号の集合に分割される（１０５）。次に、それぞれのバンドパス信号について時間エンベロープが決定される（１２０）。任意で、個々のエンベロープの正規化またはフィルタ処理が適用されることがある。そのうえで、すべての時間エンベロープが共通のエンベロープに結合される（１３０）。好ましくは、結合作業は平均化プロセスである。

２．同期化パルスの配置
工程１で導出された共通のエンベロープは、好ましくは極大の位置のための弧長積分の適用によって解析される（２０５）。得られた極大候補は任意で後選択されるまたは時間距離（２１０）に対して固定されることがある。ディラックパルスがそれぞれの極大位置におけるＨＦ生成のための推定された「生」信号に配置される（３０５）。任意で、このプロセスは副情報のサポートを受けることがある。

３．エンベロープからの個々のパルスの大きさのスケーリングの導出
前の工程２で集められたパルス列が、共通のエンベロープから導出された時間的重みによって加重される（３１５）。

４．後処理、ＨＦ抽出または間隙充填の選択
工程３で生成された「生」信号が任意で、例えばノイズ付加によって後処理され（３２０）、ＢＷＥにおいてＨＦとして、もしくは間隙充填ターゲットタイル信号として使用するために、フィルタ処理される（３２５）。

５．エネルギー調整
工程４からのフィルタ処理された信号のスペクトルエネルギー分布は、ＢＷＥにおいてＨＦとして、もしくは間隙充填ターゲットタイル信号として使用するために、調整される（３３０）。ここで、ビットストリームからの所望のエネルギー分布に関する副情報４０が使用される。

６．ＨＦまたは間隙充填信号とＬＦとのミキシング
最後に、工程５からの調整された信号が、通常のＢＷＥまたは間隙充填原則に従って、すなわちＨＰフィルタを通してＬＦを補足すること、あるいは間隙充填スペクトル領域におけるスペクトルホールを充填することによって、コアコーダ出力３０とミックスされる（４００）。

下記に、ＷＥＳＰＥ処理に含まれる各工程の機能を、例となる信号と処理結果に対する効果を示して、さらに詳細に説明する。

適正な共通の時間的エンベロープの推定は、ＷＥＳＰＥの鍵となる部分である。共通のエンベロープにより、個別の時間フレームそれぞれの平均化された、ひいては代表的な知覚的特性の推定が可能になる。

ＬＦ信号がピッチｆ０且つ間隔Δｆ０の強い高調波線スペクトルで非常に調性が高いのであれば、個々のバンドパス信号のそれぞれにいくつかの線が現れ、パスバンド幅が調整することができるのであれば、すべてのバンドバス帯域内での拍動を通じて強いコヒーレントなエンベロープ変調が作り出される。時間エンベロープを平均化すれば、バンドパスエンベロープ全体にわたって見いだされるこのようなコヒーレントなエンベロープ変調構造が維持され、ΔＴ０＝１／（Δｆ０）の間隔のほぼ等距離の位置における強いピークがもたらされる。その後、弧長積分の適用を通じて、これらのピーク位置に強いパルスが配置され、位置ｎ＊Δｆ０，ｎ＝１…Ｎに離散した等距離の線から成るスペクトルを有するパルス列が形成される。

強いトーン信号に高調波が一切ない場合、もしくはバンドパスフィルタの帯域幅が個々の帯域内の１つ以上のこれらの高調波を調整できない場合、変調構造はすべてのバンドパス信号において現れず、ひいては平均化された共通のエンベロープを支配することはなくなる。その結果生じるパルス配置は、大部分が不規則に間隔のあいた極大に基づくこととなり、よって雑音が多くなる。

同じことが、共通のエンベロープ信号において極大の配置がランダムな、雑音の多いＬＦ信号にも言える。これらは偽ランダムなパルス配置へとつながる。

このケースでは、すべてのバンドパス信号は時間的に整列され、ひいては共通のエンベロープにも表れる共通の極大を共有するため、一時的事象が維持される。

バンドパスは、知覚的帯域にわたって広がり、且つ分解が必要とされる最高周波数について少なくとも２つの高調波を調整することができるような大きさに定められるものとする。優れた平均化を行うためには、バンドパスは移行帯域に多少の重畳があっても良い。こうすると、評価された信号の調性は本質的にＬＦ信号に適応する。バンドパスは、例えば２０Ｈｚ未満の超低周波数を排除することがある。

同期化時間パルス配置およびスケーリングはＷＥＳＰＥのもう一つの鍵となる寄与である。同期化パルス配置は、共通のエンベロープの時間変調において濃縮された代表的な知覚特性を継承しており、知覚的に適応された生フルバンド信号にインプリントする。

人間による高周波数コンテンツの知覚は、臨界帯域エンベロープにおける変調の評価を通じて作用することが知られている。上記で詳説したとおり、共通のＬＦエンベロープに同期された時間パルス配置は、ＬＦとＨＦの間の知覚的に関連する時間およびスペクトル構造の類似性および整列を強いるものである。

例えばピッチパイプ等強く清い高調波を持つ非常に調性の高い信号の場合には、ＷＥＳＰＥは追加の任意の安定化によって、パルス配置が厳密に等距離となり、ひいては非常に調性の高い「生」信号のＨＦ高調波スペクトルに確実につながることとなる。

パルスを共通のエンベロープで加重することで、優勢な変調が強いパルスで維持され、一方でより重要性の低い変調は弱いパルスをもたらし、「生「信号のＬＦ信号への本質的な適応というＷＥＳＰＥの特性にさらに寄与することが確実になる。

ノイズの多い信号の場合には、パルス配置と加重が次第にランダムになっていけば、極めて所望の特性である、漸次的にノイズが多くなっていく「生」信号につながる。

ＨＦ抽出、エネルギー調整およびミキシングの残りの処理工程は、新しいＷＥＳＰＥ処理をコーデックに組み込んでＢＷＥまたは間隙充填の全機能性に適合させるために必要なさらなる工程である。

図３ａは、時間エンベロープの決定のための好ましい実施態様を図示している。１３５に示されるとおり、解析信号はヒルベルト変換を用いて決定される。ブロック１３５の出力、すなわちヒルベルト変換信号が、１４０に図示されるエンベロープＥＮＶ（ｔ）の算出のために用いられる。このため、エンベロープは所定の時刻における元のソースオーディオ信号の時間値と、所定の時刻における対応するヒルベルト変換値の平方とを平方し、平方値を加算し、個々の時刻のそれぞれについて加算結果から平方根を計算して、算出される。この方法により、時間エンベロープは元のソースオーディオ信号ａ（ｔ）と同じサンプル解像度で決定される。当然、ブロック１３５および１４０への入力が、図２のブロック１０５から得られたまたはブロック１１０が選択したまたはブロック１１５ｂによって正規化及びフィルタ処理された、サブバンド信号である場合に、同じ手順が実行される。

時間エンベロープを計算するための別の手順が図３ｂのブロック１４５および１５０に図示されている。この目的のために、ソースオーディオ信号またはソースオーディオ信号からのサブバンドの波形が修正されて（１４５）、修正済み信号がローパスフィルタ処理され（１５０）、このローパスフィルタ処理の結果がソースオーディオ信号のエンベロープ、または好ましくは図２の１３０に図示されるような平均化によって他のサブバンドの同様なエンベロープと結合された個々のサブバンド信号のエンベロープである。

２０１７年３月２０日発行Ｃ．ジャーン（Ｊａｒｎｅ）著「３ステップで信号エンベロープを得るための単純な経験的アルゴリズム（Simple empirical algorithm to obtain signal envelope in the three step）」は、支持が有限なスライディングウィンドウを通じて波形の瞬間的な二乗平均平方根（ＲＭＳ）の計算等、時間エンベロープの計算のための別の方法を図示している。別の方法は、波形のピークを発見しデータ全体にわたって移動するウィンドウに結合することで振幅エンベロープが作り出される、波形の区分線形近似を算出することから成る。さらなる方法は、ソースオーディオ信号またはサブバンド信号における恒常的なピークの決定と、補間によるエンベロープの導出に依拠する。

時間エンベロープを計算するための他の方法には、エンベロープを表す副情報を解釈するステップ、または対応する予測係数がフレームの時間エンベロープを表す、ＴＮＳ（時間的ノイズ整形）から知ることができる時間領域フレームから導出されるスペクトル値のセットに対してスペクトル領域における予測を実行するステップを含む。

当然、時間エンベロープを決定するための他の多くの方法を利用することができ、時間エンベロープは必ずしも実際に時間領域信号を「包絡」する必要はなく、当然、時間領域信号のいくつかの極大または極小がこの時刻における対応するエンベロープ値より大きかったり小さかったりすることもありうることが指摘される。

図４は、時間エンベロープの所定の特徴の時間値を決定する方法の好ましい実施態様を図示している。このため、特徴の初期時間値を決定するために平均時間エンベロープがブロック２０５に組み込まれる。これらの初期時間値は、例えば、時間エンベロープ内で実際に見つかった極大の時間値であっても良い。実際のパルスが配置される、特徴の最終時間値は、最適化関数、副情報またはブロック２１０に示されるように生の特徴を操作することによって、生時間値または「初期」時間値から導出される。好ましくは、ブロック２１０は初期値が処理ルールに従ってまたは最適化関数に従って操作されるようになっている。とりわけ、最適化関数または処理ルールは、時間値がラスタ間隔Ｔのラスタに配置されるように実施される。とりわけ、ラスタ間隔Ｔおよび／または時間エンベロープ内のラスタの位置は、時間値と初期時間値の間の偏差値が既定の特性を有し、実施態様において、偏差値の合計が差分の二乗を超え、および／または既定の特性が極小であるようになっている。このように、初期時間値の決定に引き続き、初期時間値の非均一的なラスタに可能な限り密接に合致するが、明確かつ理想的なトーン挙動を今や示す、時間値が等距離のラスタが配置される。ラスタはアップサンプリングされていない領域に比べるとより精細な時間粒度を有するアップサンプリングされた領域で決定することができる、あるいはその代わりに、サンプル未満の単位の精度を持つパルス配置のための非整数遅延を使用することもできる。

図７は、ＬＰＣ処理の文脈での本発明の別の実施態様を図示している。例えば図１または図６に示されるように、図７のオーディオプロセッサはエンベロープ決定器１００と解析器２００（いずれも図７には図示されていない）、および信号合成器３００を備えている。しかし、図６に反して、コアデコーダ出力データ、すなわちＬＦ出力３０は時間領域オーディオ信号ではなく、ＬＰＣ時間領域のオーディオ信号である。このようなデータは典型的にはＴＣＸ（変換符号化励起）コーダにおいて、内部信号表現としてみることができる。

図７のオーディオデコーダ２０によって生成されたＴＣＸデータは、図７においてはＬＰＣ領域加算器４０５として示されるミキサに転送される。信号合成器はＴＣＸ周波数拡張データを生成する。このように、信号合成器によって生成される合成信号は、この実施態様においてはＴＣＸデータ信号であるソースオーディオ信号から導出される。こうして、ブロック４０５の出力において、依然ＬＰＣ時間領域内にある周波数拡張信号が得られる。次いで接続されたＬＰＣ合成フィルタ４１０によって、ＬＰＣ時間領域信号の時間領域への変換が実行される。

ＬＰＣ合成フィルタは、必要に応じてある種のディエンファシスをさらに行うように構成され、またさらに、この時間領域フィルタは合成信号帯域についてスペクトルエンベロープ調整も行うように構成される。このように図７におけるＬＰＣ合成フィルタ４１０は、オーディオデコーダ２０が出力したＴＣＸデータ周波数レンジの合成フィルタ処理を行うだけでなく、オーディオデコーダ２０が出力したＴＣＸデータに含まれていないスペクトル帯域内のデータについてもスペクトルエンベロープ調整を実行する。典型的に、このデータも、オーディオデコーダ２０がコア周波数レンジのためのＬＰＣデータ４０ａを抽出し、さらに高帯域のためのスペクトルエンベロープ調整を抽出する、あるいはＩＧＦ（インテリジェントギャップ充填）については、図７の４０ｂに記される１つ以上の帯域を抽出することによって、符号化済みオーディオ信号１０から得られる。このように、図１の結合器またはミキサはＬＰＣ領域加算器４０５および引き続き接続される図７のＬＰＣ合成フィルタ４０によって実装され、４２０に示されるＬＰＣ合成フィルタの出力が周波数拡張済み時間領域オーディオ信号となる。スペクトルエンベロープ調整３３０が結合器４００によるミキシング作業を実行する前に行われる図６の方法とは対照的に、図７は高帯域のエンベロープ調整または帯域の充填を、ミキシングまたは両信号の結合後に実行している。

図８は、図６に図示される方法の別の実施態様を示している。基本的に図６の実施態様は時間領域で実行されていて、ブロック３２０、３２５、３３０、４００は完全に時間領域で行われている。その代わり、図８の実施態様は、低帯域については、任意の措置であるスペクトル変換１０５に依拠しているが、低帯域のための図８におけるスペクトル変換作業１０５は、図６のバンドパスフィルタバンク１０５の実装のために有利に使用されている。さらに、図８の実施態様は、典型的には図６のパルス配置３０５とパルススケーリング３１５を含む、パルスプロセッサ３４０の出力を変換するためのスペクトル変換器３４５を備える。図８のパルスプロセッサ３４０はさらに、任意の特徴として安定化ブロック２１０と、任意の特徴として極値検索ブロック２０５を備えることがある。

しかしながら、ハイパスフィルタ処理３２５、エンベロープ調整３３０、および低帯域と高帯域との結合の手順は合成フィルタバンクによって行われる、つまりスペクトル領域で行われ、図８の合成フィルタバンク４００の出力は時間領域周波数拡張オーディオ信号４２０である。一方で、要素４００が異なる帯域を結合するための単なる結合器として実装されていれば、ブロック４００の出力は、典型的にはいかなるようにも要求された通りにさらに処理される、スペクトル値の後続のブロックから成る、完全にスペクトル領域の信号であることもできる。

以下に、ＷＥＳＰＥＢＷＥを用いて帯域幅拡張された特性信号の３つの例を示す。サンプルレートは３２ｋＨｚで５１３本の線を持つ片側スペクトルによるＤＦＴ（図８の１０５）が用いられ、８つの重畳するバンドパス信号が抽出される。４ｋＨｚのハイパス（図８の３２５）を実装するためには、スペクトルエンベロープ調整（図８の３３０）およびＬＦとＨＦとのミキシング（図８の４００）、５０％重複した類似のＤＦＴ／ＩＤＦＴ（図８の３４５）が１６の同形のスケール係数帯域に整理されて使用される。結果として生じる、スペクトログラムに示される信号は、４ｋＨｚから１６ｋＨｚのＷＥＳＰＥによって生成された、ＤＣから４ｋＨｚまでの符号化されていないＰＣＭである。

図９ａは波形の短い抜粋（１０２４個のサンプルがあるブロック１つ）、共通のエンベロープおよび結果的に生じるＷＥＳＰＥによる合成・スケーリング済みパルス配置を示している。多少の分散がある大きなパルスが広い周期構造においてほぼ等距離に配置されている。

図９ｂはテストアイテム全体のスペクトログラムを描写している。音声スピーチの垂直パルス構造はＬＦとＨＦの間のコヒーレントに整列された状態を維持しており、一方で摩擦音はＨＦ構造のようなノイズを示している。

よって、図９ａは、アイテムが「男性によるドイツ語のスピーチ」である場合に、ＷＥＳＰＥがどのように音声パルスを形作り、波形、共通のエンベロープおよびパルス生成を示すかを示している。

図１０は、波形の短い抜粋（１０２４個のサンプルがあるブロック１つ）、共通のエンベロープおよび結果的に生じるＷＥＳＰＥによる合成・スケーリング済みパルス配置を示している。狭い周期構造の中に別個の鋭いパルスが等距離に配置されている。図１０ｂは、テストアイテム全体のスペクトログラムを描写している。ピッチパイプの水平ライン構造はＬＦとＨＦとの間で整列された状態を維持しているが、ただしＨＦも幾分ノイズの多いものであり、さらなる安定化で恩恵を被る。

図１０ａはＷＥＳＰＥがどのように倍音を形作り、波形、共通のエンベロープおよびパルス生成を示すかを示している。アイテムは「ピッチパイプ」である。図１０ｂはＷＥＳＰＥがどのように倍音を形作り、スペクトログラムを示すかを示している。アイテムは「ピッチパイプ」である。

図１１ａは、テストアイテム「マドンナのヴォーグ」の波形の短い抜粋（１０２４個のサンプルがあるブロック１つ）、共通のエンベロープおよび結果的に生じるＷＥＳＰＥによる合成・スケーリング済みパルス配置を示している。パルスの配置とスケーリングは、ほぼランダムな構造をしている。図１１ｂはテストアイテム全体のスペクトログラムを描写している。ポップミュージックの縦の一時的な構造は、ＬＦとＨＦとの間でコヒーレントに整列された状態を維持しているが、ＨＦの調性はほとんどが低くなっている。

図１１ａはＷＥＳＰＥがどのようにノイズの多いミクスチャを形作っているかを示しており、波形、共通のエンベロープおよびパルス生成を示している。アイテムは「ヴォーグ」である。図１１ｂはＷＥＳＰＥがどのようにノイズの多いミクスチャを形作っているかを示し、スペクトログラムを示している。アイテムは「ヴォーグ」である。
以上Ｃを挿入のこと

図９ａ、１０ａ、１１ａの最初の画像は低帯域ソース信号の１０２４個のサンプルのブロックの波形を図示している。さらに、サンプルのブロックを抽出するための解析フィルタの影響は、波形がブロックの始まりすなわちサンプル０ではゼロに等しく、ブロックの終わりすなわちサンプル１０２３でもゼロに等しいことで示されている。このような波形は、例えば図１のブロック１００への入力または図６の３０で得られる。図９ａ、９ｂおよび９ｃにおける縦軸は常に時間領域の振幅を示し、これらの図面における横軸は常に時間変数、とりわけ、典型的には１つのブロックについては０から１０２３にわたるサンプルの数を示す。

図９ａ、１０ａ、１０ｂの２番目の画像は平均化された低帯域エンベロープ、とりわけ、低帯域エンベロープの正の部分のみを図示している。当然、低帯域エンベロープは典型的に対称であり、負のレンジにも伸長する。しかしながら、低帯域エンベロープの正の部分のみが必要とされる。図９ａ、１０ａ、１１ａからは、この実施態様においては、エンベロープはブロックのサンプルの第１の組とブロックのサンプルの最後の組を除外して計算されただけであることが見て取れるが、これは、ブロックは好ましくは重畳して計算されるものであるため、一切問題とはならない。このように、図９ａ、１０ａ、１１ａの２番目の画像は典型的に、例えば、図１のブロック１００の出力または図２のブロック１３０の出力を図示している。

図９ａ、１０ａ、１１ａの３番目の画像は、パルススケーリングに続く、つまり、パルスがエンベロープの特徴の時間値に配置され、対応するエンベロープの振幅によって加重される処理に続く、合成信号を図示している。図９ａ、１０ａ、１１ａは配置されたパルスはサンプル２５６からサンプル７６８にしか伸長していないことを図示している。よって、加重されたパルスから成る信号は５１２個のサンプルにしかわたっておらず、これらのサンプルの前およびこれらのサンプルの後の部分は一切ない、つまりフレームの中央部分のみをカバーしている。このことは、前のフレームに重畳があり、後続のフレームにも重畳があるという状況を反映している。後続のブロックを伴うパルス信号を生成する目的において、次のブロックからのパルス信号も最初の４分の１と最後の４分の１が失われるように処理され、したがって、次のブロックからのパルス信号は図９ａ、１０ａ、１１ａの現在ブロックからの図示されたパルス信号の直後に配置されることになる。パルス信号の重畳／加算作業は必ずしも必須ではないため、この方法は極めて効率的である。しかしながら、重畳／加算作業またはあるフレームから次のフレームへのパルス信号に関するクロスフェーディングも、必要に応じて実行することができる。

図９ｂ、１０ｂ、１１ｂはスペクトログラムを図示している。横軸は時間を表しているが、図９ａ、１０ａ、１１ａのようにサンプルに対する時間ではなく、ＤＦＴブロックの数に対する時間を表している。縦軸は対応する図の下部の低周波数から対応する図の上部の高周波数までの周波数スペクトログラムを図示している。水平レンジは０～１６ｋＨｚにわたり、低い方の４分の１が元の信号を示し、高い方の４分の３が合成信号を表している。このように、図９ｂ、１０ｂ、１１ｂは周波数拡張オーディオ信号を示すが、これらの図の１番低い４分の１のみがソースオーディオ信号を示している。

図は低帯域構造が高帯域においてきわめてよく反映されていることを示している。このことはピッチパイプを図示する図１０に関してとりわけ見て取ることができ、ここでピッチパイプの３つの異なるトーンが図１０ｂにおける左から右に次々に演奏される。とりわけ、図１０ｂの左側の最初の部分はピッチパイプの最も低いトーンであり、中間部分はピッチパイプの中間トーンであり、図１０ｂの右側部分はピッチパイプの最も高いトーンである。ピッチパイプは非常に調性の高いスペクトルを特に特徴としており、本発明はより高い１２ｋＨｚにおいて調和構造を複製するのに特に有用であるように思われる。

第３のテストアイテムについては、このようなポップミュージックアイテムのための低帯域構造は、本発明の方法によって高周波数レンジに非常にうまく変換することが可能であることが見て取れる。

図１２は図６の実施態様にある意味類似する別の実施態様を図示している。したがって、図６と類似する参照符号は図１２において同じ項目を示す。図６の特徴に加えて、図１２の実施態様はＬＦ／ＨＦ周波数分解器１６０、ノイズテーブル等のランダムノイズまたは偽ランダムノイズ生成器１７０、およびエネルギー調整器１８０を含んでいる。

ＬＦ／ＨＦ分解器１６０は、時間エンベロープのＬＦエンベロープおよびＨＦエンベロープへの分解を実行する。好ましくは、ＬＦエンベロープはローパスフィルタ処理によって決定され、ＨＦエンベロープはＬＦエンベロープからＨＦエンベロープを差し引いて決定される。

ランダムノイズまたは偽ランダムノイズ生成器１７０はノイズ信号を生成し、エネルギー調整器１８０はノイズのエネルギーを同じく１８０で推定されるＨＦエンベロープのエネルギーに合わせる。（ＬＦエンベロープからの寄与は一切なく）ＨＦエンベロープのエネルギーに調整されたエネルギーを有するノイズは、付加器３３５によって、ブロック３１５が出力する加重済みパルス列に付加される。しかし例えば処理ブロックまたは工程３１５、３３５の順番は、変更することもできる。

一方で、２０５～３１５に関する手順は、ブロック１６０によって決定されるＬＦエンベロープにしか適用されない。

少なくとも２つの部分へのフルバンドエンベロープの分解に依拠する好ましい実施態様は、下記の順番または他の技術的に実現可能な順番で、以下のブロックまたは工程を含む。

時間エンベロープ推定１００
修正；例えば関数ｘ＾０．７５を使用した圧縮；そのうえでの、エンベロープのＬＦエンベロープおよびＨＦエンベロープへの分割１６０。ＬＦエンベロープはローパスフィルタ処理を通じて得られ、その時クロスオーバー周波数は例えば２～６ｋＨｚである。ある実施態様においては、ＨＦエンベロープは元のエンベロープと、好ましくは遅延調整されたＬＦエンベロープとの差分である。

同期化パルス配置３００
上記工程で導出されたＬＦエンベロープは、例えば弧長積分によって解析され、ＬＦエンベロープの極値の位置にパルス配置が行われる。

エンベロープから導出される個々のパルスの大きさのスケーリング３１５
上記工程において集められたパルス列が、ＬＦエンベロープから導出された時間的重みによって加重される。

ＨＦエンベロープのエネルギーが推定され、同エネルギーのランダムノイズが加重されたパルス列に付加（３５５）される。

後処理、ＨＦ抽出または間隙充填の選択
上記の工程においてブロック３３５の出力に生成された「生」信号は、例えばノイズ付加によって任意で後処理（３２０）され、ＢＷＥにおいてＨＦとして使用するため、または間隙充填ターゲットタイル信号として使用するためにフィルタ処理（３２５）される。

エネルギー調整３３０
上記の工程に説明されるエネルギー推定からのフィルタ済み信号のスペクトルエネルギー分布は、ＢＷＥにおいてＨＦとして使用するため、または間隙充填ターゲットタイル信号として使用するために調整される。ここで、所望のエネルギー分布に関するビットストリームからの情報が好ましくは使用される。

ＨＦまたは間隙充填信号とＬＦとのミキシング４００
最後に、工程５の調整された信号は通常のＢＷＷまたは間隙充填原則に従って、すなわちＨＰフィルタを通し、ＬＦを補完すること、または間隙充填スペクトル領域におけるスペクトルホールを充填することによってコアコーダ出力とミックスされる。

ここで、上記の全ての選択肢または側面、および下記請求の範囲の独立請求項に特定されるすべての側面は独立して、すなわち考慮されている選択肢、目的または独立請求項以外の他の選択肢または目的なしに使用することができることを指摘しておく。しかし、他の実施態様においては、２つ以上の選択肢または側面または独立請求項を互いに組み合わせることができ、また他の実施態様においては、すべての側面または選択肢と全ての独立請求項を互いに組み合わせることができる。

本発明に従って符号化されたオーディオ信号は、デジタル記憶媒体または非一時的記憶媒体に格納することができる、あるいはインターネット等の無線伝送媒体または有線伝送媒体等の伝送媒体上で伝送することができる。

いくつかの側面は装置の文脈で記載したが、これらの側面は対応する方法の記載を表すことは明らかであり、ブロックまたは装置は方法工程または方法工程の特徴を示す。同様に、方法工程の文脈で記載された側面は対応するブロックまたはアイテムあるいは対応する装置の特徴も表す。

所定の実施要件によっては、本発明の実施態様はハードウェアでもソフトウェアでも実装することができる。実施は電子的に読み取り可能な制御信号を格納した、それぞれの方法が実行できるようにプログラム可能なコンピュータシステムと協働する（あるいは協働することができる）、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリ等のデジタル記憶媒体を使用して実行することができる。

本発明に記載の一部の実施態様は、本発明に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる、電子的に読み取り可能な制御信号を有するデータキャリアを備える。

概して、本発明の実施態様はプログラムコードを備えるコンピュータプログラム製品として実装することができ、プログラムコードは、プログラムコードがコンピュータ上で実行されるときに、方法のうちの１つを実行するように動作する。プログラムコードは例えば機械可読のキャリア上に格納されていてもよい。

他の実施態様は、機械可読キャリアまたは非一時的記憶媒体に格納された、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを含む。

言い換えれば、本発明の方法の１つの実施態様はしたがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法の別の実施態様は、本明細書に記載された方法の１つを実行するためのコンピュータプログラムをその上に記録したデータキャリア（またはデジタル記憶媒体、またはコンピュータ読み取り可能な媒体）である。

したがって、本発明の方法の別の実施様態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは例えば、例えばインターネットを介して等データ通信接続を介して伝送されるように構成することができる。

別の実施態様は、例えばコンピュータやプログラム可能な論理装置等、本明細書に記載の方法の１つを実行するように構成された、あるいは適応された、処理手段を含む。

別の実施態様は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

一部の実施態様においては、本明細書に記載の方法の機能の一部または全部を実行するために、プログラム可能な論理装置（例えばフィールドプログラマブルゲートアレイ）を使用することができる。一部の実施態様においては、本明細書に記載の方法の１つを実行するために、フィールドプログラマブルゲートアレイがマイクロプロセッサと協働することがある。概して、方法は好ましくは何らかのハードウェア装置によって実行される。

上記に記載の実施態様は本発明の原則に対して単に例証するものである。本明細書に記載の構成および詳細の改変および変形は、当業者に自明であるものと理解される。したがって、後述の特許請求の範囲にのみ限定され、本明細書に記載の実施態様の記載および説明によってあらわされる具体的な詳細に限定されることを意図するものではない。

参照文献
[1] Dietz, M., Liljeryd, L., Kjoerling, K., and Kunz, 0., "Spectral Band Replication, a Novel Approach in Audio Coding," in Audio Engineering Society Convention 112, 2002.
[2] Disch, S., Niedermeier, A., Helmrich, C. R., Neukam, C., Schmidt, K., Geiger, R., Lecomte, J., Ghido, F., Nagel, F., and Edler, B., "Intelligent Gap Filling in Perceptual Transform Coding of Audio," in Audio Engineering Society Convention 141, 2016.
[3] Laitinen M-V., Disch S., Oates C., Pulkki V. "Phase derivative correction of bandwidth extended signals for perceptual audio codecs." In 140th Audio Engineering Society International Convention 2016, AES 2016. Audio Engineering Society. 2016.
[4] Atti, Venkatraman, Venkatesh Krishnan, Duminda A. Dewasurendra, Venkata Chebiyyam, Shaminda Subasingha, Daniel J. Sinder, Vivek Rajendran, Imre Varga, Jon Gibbs, Lei Miao, Volodya Grancharov and Harald Pobloth. "Super-wideband bandwidth extension for speech in the 3GPP EVS codec." 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2015): 5927-5931.

Claims

ソースオーディオ信号（３０）から周波数拡張オーディオ信号（４２０）を生成するためのオーディオプロセッサであって、
前記ソースオーディオ信号の少なくとも一部分の時間エンベロープを決定するためのエンベロープ決定器（１００）と、
前記時間エンベロープを解析して前記時間エンベロープの所定の特徴の時間値を決定するための解析器（２００）と、
合成信号を生成するための信号合成器（３００）であって、前記合成信号の生成には、決定された前記時間値に関連してのパルスの配置を含み、前記パルスは、前記パルスが配置されている、前記時間値に関連する前記時間エンベロープの振幅から導出される重みを使用して加重される、信号合成器（３００）と、
前記ソースオーディオ信号に含まれていない前記合成信号の少なくとも１つの帯域と前記ソースオーディオ信号とを結合して前記周波数拡張オーディオ信号（４２０）を得るための結合器（４００）と、
を備える、オーディオプロセッサ。
前記解析器（２００）は極大または極小の前記時間値を前記所定の特徴として決定するように構成される、請求項１に記載のオーディオプロセッサ。
前記エンベロープ決定器（１００）は、
前記ソースオーディオ信号を複数のサブバンド信号に分解（１０５）し、
前記複数のサブバンド信号のうちの選択されたサブバンド信号の選択された時間エンベロープを計算（１２０）し、ここで前記選択された時間エンベロープは前記時間エンベロープである、または、
前記複数のサブバンド信号のうちの少なくとも２つのサブバンド信号から少なくとも２つの時間エンベロープを計算（１２０）し、前記少なくとも２つのサブバンド信号を結合（１３０）して、前記時間エンベロープとしての結合時間エンベロープを得る
ように構成される、請求項１または請求項２に記載のオーディオプロセッサ。
前記エンベロープ決定器（１００）は、結合（１３０）する前に前記選択されたサブバンド信号または前記時間エンベロープを正規化（１１５、１２５）またはフィルタ処理するように構成される、または、
前記結合は平均化プロセスを含む、または
前記エンベロープ決定器（１００）は、前記複数のサブバンド信号のうちの全てのサブバンド信号から時間エンベロープを計算するように構成される、または、
前記エンベロープ決定器（１００）は、前記ソースオーディオ信号の単一のブロードバンド時間エンベロープを前記時間エンベロープとして決定するように構成される、
請求項３に記載のオーディオプロセッサ。
前記エンベロープ決定器（１００）は、前記時間エンベロープを、
波形を修正（１４５）し、修正された前記波形をローパスフィルタ処理（１５０）するように構成されたエンベロープフォロワーを使用して、または、
デジタル波形の絶対値または絶対値のべき乗を計算し、そのうえで計算結果をローパスフィルタ処理して、または
規定のウィンドウ幅のスライディングウィンドウを通した前記波形の瞬間的な二乗平均平方根値の計算を使用して、または
波形の区分的線形近似を決定することであって、ここで前記時間エンベロープは、前記区分的線形近似の結果間を移動するスライディングウィンドウ内の前記波形のピークを検出、結合して決定される、波形の区分的線形近似を決定することによって、または、
前記波形のための解析信号を生成するためのヒルベルト変換を使用して、且つ前記ソースオーディオ信号および前記解析信号から平方演算、加算演算および平方根演算を用いて前記時間エンベロープを計算して、
決定するように構成される、請求項１ないし請求項４のいずれかに記載のオーディオプロセッサ。
前記解析器（２００）は、
前記所定の特徴の初期時間値を決定（２０５）し、
前記初期時間値から、最適化関数を使用して、または前記ソースオーディオ信号に関連付けられた副情報を使用して、あるいは処理規則に従って付加値を選択または操作して、前記時間値を導出（２１０）する
ように構成される、請求項１ないし請求項５のいずれかに記載のオーディオプロセッサ。
前記処理規則または前記最適化関数は、前記時間値がラスタ内にラスタ間隔（Ｔ）をもって配置されるように実装され、前記ラスタ間隔（Ｔ）および前記ラスタの前記時間エンベロープ内での位置は、前記時間値と前記初期時間値との偏差値が既定の特性を持つようになっている、請求項６に記載のオーディオプロセッサ。
前記偏差値は差分の二乗の和であり、前記既定の特性は最小限の特性である、請求項７に記載のオーディオプロセッサ。
前記信号合成器（３００）は、
正のパルスのみまたは負のパルスのみを配置（３０５）してパルス列を取得し、
次いで前記パルス列内の前記パルスを加重（３１５）、または
パルス列内の前記パルスの前記時間値に関連付けられた対応する重みを使用して、負のパルスのみまたは正のパルスのみを加重し、
加重された前記パルスをそれぞれの前記時間値に配置して前記パルス列を取得する
ように構成される、請求項１ないし請求項８のいずれかに記載のオーディオプロセッサ。
前記信号合成器（３００）は、圧縮関数を使用して前記振幅から前記重みを導出（３１０）するように構成され、前記圧縮関数は、
１乗未満のべき関数、対数関数、平方根関数、およびより高い値を低減し、より低い値を増大させるように構成された非線形関数
を含む関数グループからの関数である、請求項１ないし請求項９に記載の装置。
前記信号合成器（３００）は後処理機能（３２０）を実行するように構成され、前記後処理機能は、ノイズ付加、欠損した高調波の追加、逆フィルタ処理、およびエンベロープ調整（３３０）から成る機能グループのうちの少なくとも１つを含む、請求項１ないし請求項１０に記載のオーディオプロセッサ。
前記エンベロープ決定器（１００）は前記時間エンベロープを低周波数部分と高周波数部分に分解（１６０）するように構成され、
前記解析器（２００）は解析のために前記時間エンベロープの前記低周波数部分を使用するように構成される、
請求項１ないし請求項１１に記載のオーディオプロセッサ。
前記信号合成器（３００）は、エネルギー調整済み（１８０）ノイズを生成（１７０）し、前記エネルギー調整済み（１８０）ノイズを加重されたまたは非加重のパルスを含む信号に付加（３３５）して、前記合成信号を得るように構成される、請求項１２に記載のオーディオプロセッサ。
前記信号合成器（３００）は配置され加重された前記パルスを含む信号をハイパスフィルタ処理（３２５）またはバンドパスフィルタ処理（３２５）して、前記ソースオーディオ信号に含まれない前記合成信号の前記少なくとも１つの帯域を得て、前記合成信号の前記帯域のスペクトルエンベロープ調整（３３０）を行うように構成される、もしくは前記スペクトルエンベロープ調整は、前記ソースオーディオ信号に関連付けられた副情報から導出されたエンベロープ調整値を使用して、または前記ソースオーディオ信号から導出された、または既定のエンベロープ調整関数に従って導出されたエンベロープ調整値を使用して行われる、
請求項１ないし請求項１３のいずれかに記載のオーディオプロセッサ。
前記ソースオーディオ信号は時間領域オーディオ信号であり、
前記合成信号の前記少なくとも１つの帯域は時間領域オーディオ信号であり、
前記結合器（４００）は前記合成信号の前記少なくとも１つの帯域のサンプルと前記ソースオーディオ信号（３０）の対応するサンプルとのサンプル毎の付加を使用して、時間領域結合を実施するように構成される、
請求項１ないし請求項１４のいずれかに記載のオーディオプロセッサ。
前記ソースオーディオ信号はＬＰＣ（ＬＰＣ＝線形予測符号化）領域の励起信号であり、
前記合成信号の前記少なくとも１つの帯域はＬＰＣ領域の励起信号であり、
前記結合器（４００）は前記ソースオーディオ信号と前記少なくとも１つの帯域とをＬＰＣ領域におけるサンプル毎の付加によって結合（４０５）するように構成され、
前記結合器（４００）は前記サンプル毎の付加の結果を、ＬＰＣ合成フィルタを使用してフィルタ処理（４１０）して前記周波数拡張オーディオ信号を得るように構成され、
前記ＬＰＣ合成フィルタ（４１０）は、副情報として前記ソースオーディオ信号に関連付けられたＬＰＣデータ（４０ａ）によって制御され、前記ＬＰＣ合成フィルタ（４１０）は前記合成信号の前記少なくとも１つの帯域のためのエンベロープ情報（４０ｂ）によってさらに制御される、
請求項１ないし請求項１５のいずれかに記載のオーディオプロセッサ。
前記解析器（２００）、前記信号合成器（３００）および前記結合器（４００）は、時間領域またはＬＰＣ時間領域で動作する、請求項１ないし請求項１６のいずれかに記載のオーディオプロセッサ。
前記エンベロープ決定器（１００）はスペクトル変換（１０５）を適用して、フレームのシーケンスについて複数のバンドパス信号を抽出するように構成され、
前記信号合成器（３００）はスペクトル変換を適用して前記合成信号の前記少なくとも１つの帯域を抽出（３２５）し、前記少なくとも１つの帯域にエンベロープ調整を施す（３３０）ように構成され、
前記結合器（４００）は、スペクトル領域において結合し、時間領域への変換を適用して前記周波数拡張オーディオ信号（４２０）を得るように構成される、
請求項１ないし請求項１６のいずれかに記載のオーディオプロセッサ。
ソースオーディオ信号（３０）から周波数拡張オーディオ信号（４２０）を生成する方法であって、
前記ソースオーディオ信号の少なくとも一部分の時間エンベロープを決定するステップ（１００）と、
前記時間エンベロープの所定の特徴の時間値を決定するために、前記時間エンベロープを解析するステップ（２００）と、
前記決定された時間値との関連で合成信号内にパルスを配置するステップ（３０５）であって、前記合成信号において、配置された前記パルスは、前記時間値に関連した前記時間エンベロープの振幅から導出された重みを使用して加重される、配置するステップと、前記周波数拡張オーディオ信号（４２０）を得るために、前記ソースオーディオ信号に含まれていない前記合成信号の少なくとも１つの帯域と、前記ソースオーディオ信号とを結合するステップ（４００）と、
を含む、方法。
コンピュータまたはプロセッサ上で動作する時に、請求項１９に記載の生成する方法を実行するためのコンピュータプログラム。