JP6001814B1

JP6001814B1 - ハイブリッドの波形符号化およびパラメトリック符号化発話向上

Info

Publication number: JP6001814B1
Application number: JP2016515937A
Authority: JP
Inventors: コッペンス，イェルン; ミンチ，ハンネス
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2013-08-28
Filing date: 2014-08-27
Publication date: 2016-10-05
Anticipated expiration: 2034-08-27
Also published as: US10607629B2; US20190057713A1; EP3503095A1; US20160225387A1; ES2700246T3; CN110890101B; EP3039675B1; EP3039675A1; BR112016004299B1; KR20160037219A; RU2639952C2; BR122020017207B1; BR112016004299A2; CN105493182B; JP2016534377A; WO2015031505A1; CN105493182A; US10141004B2; CN110890101A; HK1222470A1

Abstract

いくつかの信号条件のもとではパラメトリック符号化向上（またはパラメトリック符号化および波形符号化向上のブレンド）を用い、他の信号条件のもとでは波形符号化向上（またはパラメトリック符号化および波形符号化向上の異なるブレンド）を用いるハイブリッド発話向上のための方法。他の側面は、発話および他のコンテンツを含むオーディオ・プログラムを示すビットストリームを、該プログラムに対してハイブリッド発話向上が実行できるように生成する方法、本発明の方法の任意の実施形態によって生成されたエンコードされたオーディオ・ビットストリームの少なくとも一つのセグメントを記憶するバッファを含むデコーダおよび、本発明の方法の任意の実施形態を実行するよう構成された（たとえばプログラムされた）システムまたは装置（たとえばエンコーダまたはデコーダ）である。発話向上動作の少なくとも一部は、上流のオーディオ・エンコーダによって生成されたミッド／サイド発話向上メタデータを用いて受領側のオーディオ・デコーダによって実行される。

Description

関連出願への相互参照
本願は2013年8月28日に出願された米国仮特許出願第61/870,933号、2013年10月25日に出願された米国仮特許出願第61/895,959号、2013年11月25日に出願された米国仮特許出願第61/908,664号の優先権を主張する。各出願はここに参照によってその全体において組み込まれる。

技術
本発明は、オーディオ信号処理に、より詳細にはオーディオ・プログラムの発話コンテンツの、該プログラムの他のコンテンツに対する向上に関する。ここで、発話コンテンツは、いくつかの信号条件のもとでは波形符号化された向上（または相対的に、より波形符号化された向上）を、他の信号条件のもとではパラメトリック符号化された向上（または相対的に、よりパラメトリック符号化された向上）を含むという意味で「ハイブリッド」である。他の側面は、そのようなハイブリッド発話向上を可能にするのに十分なデータを含むオーディオ・プログラムのエンコード、デコードおよびレンダリングである。

映画およびテレビジョンにおいて、ダイアログおよびナレーションはしばしば、音楽、効果またはスポーツ・イベントからの周囲音といった他の非発話オーディオと一緒に呈示される。多くの場合、発話および非発話音は別個に捕捉されて、サウンド・エンジニアの制御のもとで一緒に混合される。サウンド・エンジニアは、大半の聴取者にとって適切な仕方で非発話のレベルに対する発話のレベルを選択する。しかしながら、一部の聴取者、たとえば聴覚障害のある者は、（エンジニアが決めた発話対非発話混合比をもつ）オーディオ・プログラムの発話コンテンツを理解するのに困難を経験し、発話がより高い相対レベルで混合されていたほうがよかったことになる。

これらの聴取者が、オーディオ・プログラム発話コンテンツの可聴性を非発話オーディオ・コンテンツの可聴性に対して増大させることを許容することにおいて、解決すべき課題がある。

ある現行のアプローチは、聴取者に二つの高品質オーディオ・ストリームを提供することである。一方のストリームは主コンテンツ・オーディオ（主に発話）を担持し、他方は副次コンテンツ・オーディオ（発話を除く残りのオーディオ・プログラム）を担持し、ユーザーが混合プロセスに対する制御を与えられる。残念ながら、この方式は、完全に混合されたオーディオ・プログラムを送信するという現行の慣行に基づいていないので、実際的ではない。さらに、それぞれが放送品質である二つの独立オーディオ・ストリームがユーザーに送達されなければならないので、現行の放送慣行の帯域幅の約2倍の帯域幅を必要とする。

もう一つの発話向上法（本稿では「波形符号化された」向上と称される）が特許文献１に記載されている。波形符号化された向上では、発話および非発話コンテンツのもとのオーディオ混合（時にメイン・ミックスと称される）の発話対背景（非発話）比が、メイン・ミックスと並んで受信器に送られたクリーンな発話信号の低下品質バージョン（低品質コピー）をメイン・ミックスに加えることによって、増大させられる。帯域幅オーバーヘッドを低減するために、低品質コピーは典型的には非常に低いビットレートで符号化される。低ビットレート符号化のため、低品質コピーには符号化アーチファクトが付随し、低品質コピーが単独でレンダリングおよび試聴されるとき、符号化アーチファクトは明瞭に聞こえる。このように、低品質コピーは、単独で試聴するときに不快な品質をもつ。波形符号化された向上は、非発話成分のレベルが高い時間の間にのみ低品質コピーをメイン・ミックスに加え、それにより符号化アーチファクトが非発話成分によってマスクされるようにすることによって、これらの符号化アーチファクトを隠そうとするものである。のちに詳述するように、このアプローチの限界は、次のことを含む：発話向上の量が典型的には時間的に一定になり得ず、メイン・ミックスの背景（非発話）成分が弱いまたはその周波数‐振幅スペクトルが符号化ノイズのものと大幅に異なるときにオーディオ・アーチファクトが可聴となることがある。

波形符号化された向上によれば、（デコードおよびその後のレンダリングのためのデコーダへの送達のための）オーディオ・プログラムは、低品質の発話のコピー（またはそのエンコードされたバージョン）をメイン・ミックスのサイドストリームとして含むビットストリームとしてエンコードされる。ビットストリームは、実行されるべき波形符号化発話向上の量を決定するスケーリング・パラメータを示すメタデータを含んでいてもよい（すなわち、スケーリング・パラメータは、スケーリングされた低品質の発話コピーがメイン・ミックスと組み合わされる前に低品質の発話のコピーに適用されるスケーリング因子を決定する、あるいは符号化アーチファクトのマスキングを保証するそのようなスケーリング因子の最大値を決定する）。スケーリング因子の現在値が0であるとき、デコーダはメイン・ミックスの対応するセグメントに対して発話向上を実行しない。スケーリング・パラメータの現在値（またはスケーリング・パラメータが達成しうる現在の最大値）は典型的にはエンコーダにおいて決定される（典型的には計算集約的な音響心理学モデルによって生成されるので）が、デコーダにおいて生成されることもできる。後者の場合、スケーリング・パラメータを示すメタデータがエンコーダからデコーダに送られる必要がなく、その代わり、デコーダが、メイン・ミックスから、混合の発話コンテンツのパワーの、混合のパワーに対する比を決定し、パワー比の現在値に応答して、モデルを利用してスケーリング・パラメータの現在値を決定することができる。

競合するオーディオ（背景）の存在時に発話の了解性を向上させるためのもう一つの方法（本稿では「パラメトリック符号化された」向上と称される）は、もとのオーディオ・プログラム（典型的にはサウンドトラック）を時間／周波数タイルにセグメント分割し、それらのタイルをその発話および背景コンテンツのパワー（またはレベル）の比に従ってブーストし、背景に対する発話成分のブーストを達成することである。このアプローチの根底にある発想は、案内されたスペクトル減算ノイズ抑制（guided spectral-subtraction noise suppression）の発想に近い。SNR（すなわち、発話成分のパワーまたはレベルの、競合する音コンテンツのパワーまたはレベルに対する比）が所定の閾値より低いすべてのタイルが完全に抑制されるこのアプローチの極端な例では、堅牢な発話了解性の向上を与えることが示されている。この方法の放送への適用において、発話対背景比（SNR）は、（発話および非発話コンテンツの）もとのオーディオ混合を混合の発話成分と比較することによって推定される。推定されたSNRは次いで、好適な一組の向上パラメータに変換されてもよく、それがもとのオーディオ混合と並んで送信される。受信器では、これらのパラメータが（任意的に）もとのオーディオ混合に適用されて、向上された発話を示す信号を導出してもよい。のちに詳述するように、パラメトリック符号化された向上は、発話信号（混合の発話成分）が背景信号（混合の非発話成分）に対して優勢であるときに最もよく機能する。

米国特許出願公開第2010/0106507A、2010年4月29日公開、ドルビー・ラボラトリーズ社に譲渡、発明者Hannes Muesch

波形符号化向上は、送達されるオーディオ・プログラムの発話成分の低品質のコピーが受信器において入手可能であることを必要とする。該コピーをメイン・オーディオ・ミックスと並んで送信することにおいて被るデータ・オーバーヘッドを制限するために、このコピーは非常に低いビットレートで符号化され、符号化歪みを示す。これらの符号化歪みは、非発話成分のレベルが高いときには、もとのオーディオによってマスクされる可能性が高い。符号化歪みがマスクされるときは、向上されたオーディオの結果的な品質は非常に良好である。

パラメトリック符号化向上は、メイン・オーディオ・ミックス信号を時間／周波数タイルにパースすることおよびこれらのタイルのそれぞれに好適な利得／減衰を適用することに基づく。これらの利得を受信器に中継するために必要とされるデータ・レートは、波形符号化向上に比べれば低い。しかしながら、パラメータの限られた時間‐スペクトル分解能のため、非発話オーディオと混合されたときの発話は非発話オーディオにも影響せずには操作できない。このように、オーディオ混合の発話コンテンツのパラメトリック符号化された向上は、混合の非発話コンテンツにおける変調を導入し、この変調（「背景変調」）は発話向上された混合の再生時に不快なものとなりうる。背景変調は、発話対背景比が非常に低いときに不快となる可能性が最も高い。

このセクションで記述されたアプローチは、追求されることができたが必ずしも以前に着想または追求されたアプローチではない。したがって、特に断りのない限り、このセクションにおいて記述されるアプローチはいずれも、このセクションに含まれているというだけのために従来技術の資格をもつと想定されるべきではない。同様に、特に断りのない限り、一つまたは複数のアプローチに関して特定されている問題は、このセクションに基づいて何らかの従来技術において認識されていたと想定されるべきではない。

本発明は、限定ではなく例として、付属の図面において示される。図面において、同様の参照符号は同様の要素を指す。
単一チャネルの混合されたコンテンツ信号（発話および非発話コンテンツをもつ）の発話コンテンツを再構成するために予測パラメータを生成するよう構成されたシステムのブロック図である。複数チャネルの混合されたコンテンツ信号（発話および非発話コンテンツをもつ）の発話コンテンツを再構成するために予測パラメータを生成するよう構成されたシステムのブロック図である。本発明のエンコード方法の実施形態を実行してオーディオ・プログラムを示すエンコードされたオーディオ・ビットストリームを生成するよう構成されたエンコーダと、エンコードされたオーディオ・ビットストリームに対して、デコードし、（本発明の実施形態に従って）発話向上を実行するよう構成されたデコーダとを含むシステムのブロック図である。通常の発話向上を実行することによることを含め、複数チャネルの混合されたコンテンツ・オーディオ信号をレンダリングするよう構成されたシステムのブロック図である。通常のパラメトリック符号化発話向上を実行することによることを含め、複数チャネルの混合されたコンテンツ・オーディオ信号をレンダリングするよう構成されたシステムのブロック図である。本発明の発話向上方法の実施形態を実行することによることを含め、複数チャネルの混合されたコンテンツ・オーディオ信号をレンダリングするよう構成されたシステムのブロック図である。本発明の発話向上方法の実施形態を実行することによることを含め、複数チャネルの混合されたコンテンツ・オーディオ信号をレンダリングするよう構成されたシステムのブロック図である。聴覚マスキング・モデルを使って本発明のエンコード方法の実施形態を実行するためのシステムのブロック図である。ＡおよびＢは、例示的なプロセス・フローを示す図である。本稿に記載されるコンピュータまたはコンピューティング装置が実装されうる例示的なハードウェア・プラットフォームを示す図である。

本稿では、ハイブリッドの波形符号化およびパラメトリック符号化発話向上に関する例示的実施形態が記述される。以下の記述では、本発明の十全な理解を提供するために、説明の目的で数多くの個別的詳細が記載される。しかしながら、本発明がそうした個別的詳細なしでも実施されうることは明白であろう。他方、本発明を無用に隠蔽し、かすませ、あるいは埋没させるのを避けるために、よく知られた構造および装置は網羅的な詳細さでは記述されない。

例示的実施形態は本稿では以下のアウトラインに従って記述される。
１．全般的概観
２．記法および命名法
３．予測パラメータの生成
４．発話向上動作
５．発話レンダリング
６．ミッド／サイド表現
７．例示的なプロセス・フロー
８．実装機構――ハードウェアの概観
９．等価物、拡張、代替その他。

〈１．全般的概観〉
この概観は、本発明の実施形態のいくつかの側面の基本的な記述を提示する。この概観は該実施形態の諸側面の包括的ないし網羅的な要約ではないことは注意しておくべきである。さらに、この概観は、該実施形態の何らかの特に有意な側面もしくは要素を特定するものと理解されることも、一般には本発明の、特に該実施形態の何らかの範囲を画定するものと理解されることも、意図されていないことを注意しておくべきである。この概観は単に、その例示的実施形態に関係するいくつかの概念を凝縮された単純化された形式で提示するものであり、単に後続の例示的な諸実施形態のより詳細な説明への概念的な導入部として理解されるべきである。別個の諸実施形態が本稿において論じられるが、本稿で論じられる実施形態および／または部分実施形態の任意の組み合わせがさらなる実施形態をなすよう組み合わされてもよいことを注意しておく。

本発明者らは、パラメトリック符号化向上および波形符号化向上の個々の強みおよび弱みが互いに打ち消すことができること、いくつかの信号条件のもとではパラメトリック符号化向上（またはパラメトリック符号化および波形符号化向上のブレンド）を、他の信号条件のもとでは波形符号化向上（またはパラメトリック符号化および波形符号化向上の異なるブレンド）を用いるハイブリッド向上方法によって、通常の発話向上が実質的に改善されることができることを認識するに至った。本発明のハイブリッド向上方法の典型的な実施形態は、パラメトリック符号化向上または波形符号化向上いずれか単独によって達成できるよりも、より一貫した、よりよい品質の発話向上を提供する。

あるクラスの実施形態では、本発明の方法は：（ａ）未向上の波形をもつ発話および他のオーディオ・コンテンツを含むオーディオ・プログラムを示すビットストリームを受領する段階を含む。前記ビットストリームは：前記発話および前記他のオーディオ・コンテンツを示すオーディオ・データと、前記発話の低下品質バージョンを示す波形データ（前記オーディオ・データは、発話データを非発話データと混合することによって生成されたものであり、前記波形データは典型的には前記発話データより少数のビットを含む）と、パラメトリック・データとを含む。前記低下品質バージョンは、前記未向上の波形に類似した（たとえば少なくとも実質的に同様の）第二の波形をもつ。前記低下品質バージョンは、単独で試聴されたとしたら不快な品質をもつであろう。前記パラメトリック・データは前記オーディオ・データとともに、パラメトリックに構築された発話を決定し、該パラメトリックに構築された発話は、前記発話に少なくとも実質的に一致する（たとえば、前記発話の良好な近似である）前記発話のパラメトリックに再構築されたバージョンである。本方法はさらに：（ｂ）ブレンド・インジケータに応答して前記ビットストリームに対して発話向上を実行し、それにより発話向上されたオーディオ・プログラムを示すデータを生成する段階を含む。これは、前記オーディオ・データを、前記波形データから決定された低品質発話データおよび再構成された発話データの組み合わせと組み合わせることによることを含む。前記組み合わせは、前記ブレンド・インジケータによって決定される（たとえば、前記組み合わせは、前記ブレンド・インジケータの現在値のシーケンスによって決定される状態のシーケンスをもつ）。前記再構成された発話データは、前記パラメトリック・データの少なくとも一部および前記オーディオ・データの少なくとも一部に応答して生成される。前記発話向上されたオーディオ・プログラムは、（前記発話の前記低下品質バージョンを示す）前記低品質発話データを前記オーディオ・データと組み合わせるだけによって決定される純粋に波形符号化された発話向上されたオーディオ・プログラムよりも、前記パラメトリック・データおよび前記オーディオ・データから決定される純粋にパラメトリック符号化された発話向上されたオーディオ・プログラムよりも、少ない可聴発話向上アーチファクト（たとえば、よりよくマスクされたまたは該発話向上されたオーディオ・プログラムがレンダリングされ、試聴されるときにそれほど可聴でない発話向上アーチファクト）をもつ。

ここで、「発話向上アーチファクト」（または「発話向上符号化アーチファクト」）は、発話信号（たとえば、波形符号化された発話信号または混合コンテンツ信号との関連でのパラメトリック・データ）の表現によって引き起こされる（発話信号および非発話信号を示す）オーディオ信号の歪み（典型的には測定可能な歪み）を表わす。

いくつかの実施形態では、ブレンド・インジケータ（これは値のシーケンスを有していてもよい。たとえばビットストリーム・セグメントのシーケンスのそれぞれについて一つの値）は、段階（ａ）で受領されたビットストリームに含まれる。いくつかの実施形態は、段階（ａ）で受領されたビットストリームに応答して（たとえばビットストリームを受領し、デコードする受信器において）ブレンド・インジケータを生成する段階を含む。

「ブレンド・インジケータ」という表現は、ブレンド・インジケータがビットストリームの各セグメントについての単一のパラメータまたは値（または単一のパラメータまたは値のシーケンス）であることを要求することは意図されていないことを理解しておくべきである。むしろ、いくつかの実施形態では、（ビットストリームのあるセグメントについての）ブレンド・インジケータは、二つ以上のパラメータまたは値の組（たとえば、各セグメントについて、パラメトリック符号化向上の制御パラメータおよび波形符号化向上の制御パラメータ）またはパラメータまたは値の組のシーケンスでありうることが考えられている。

いくつかの実施形態では、各セグメントについてのブレンド・インジケータは、当該セグメントの周波数帯域当たりのブレンドを指示する値のシーケンスであってもよい。

波形データおよびパラメトリック・データは、ビットストリームの各セグメントについて提供される（たとえば各セグメントに含まれる）必要はなく、波形データおよびパラメトリック・データの両方がビットストリームの各セグメントに対して発話向上を実行するために使われる必要もない。たとえば、場合によっては、少なくとも一つのセグメントが波形データのみを含んでいてもよく（そのような各セグメントについてブレンド・インジケータによって決定される組み合わせが波形データのみからなっていてもよい）、少なくとも一つの他のセグメントがパラメトリック・データのみを含んでいてもよい（そのような各セグメントについてブレンド・インジケータによって決定される組み合わせが再構成された発話データのみからなっていてもよい）。

典型的には、エンコーダがビットストリームを生成することが、同じエンコードを波形データまたはパラメトリック・データに適用することにはよらずにオーディオ・データをエンコードする（たとえば圧縮する）ことによることを含むことが考えられている。よって、ビットストリームが受信器に送達されるとき、受信器は典型的にはビットストリームをパースして、オーディオ・データ、波形データおよびパラメトリック・データ（それにブレンド・インジケータがビットストリーム中で送達されるのであればブレンド・インジケータも）を抽出するが、オーディオ・データのみをデコードする。受信器は典型的には、波形データまたはパラメトリック・データに、オーディオ・データに適用されるのと同じデコード・プロセスを適用することなく、（波形データおよび／またはパラメトリック・データを使って、）デコードされたオーディオ・データに対して発話向上を実行する。

典型的には、波形データと再構成された発話データの（ブレンド・インジケータによって指示される）組み合わせは時間とともに変化する。該組み合わせの各状態は、ビットストリームの対応するセグメントの発話および他のオーディオ・コンテンツに関する。ブレンド・インジケータは、（波形データおよび再構成された発話データの）該組み合わせの現在状態が、少なくとも部分的には、ビットストリームの対応するセグメントにおける発話および他のオーディオ・コンテンツの信号属性（たとえば、発話コンテンツのパワーと他のオーディオ・コンテンツのパワーとの比）によって決定されるよう、生成される。いくつかの実施形態では、ブレンド・インジケータは、該組み合わせの現在状態が、ビットストリームの対応するセグメントにおける発話および他のオーディオ・コンテンツの信号属性によって決定されるよう、生成される。いくつかの実施形態では、ブレンド・インジケータは、該組み合わせの現在状態が、ビットストリームの対応するセグメントにおける発話および他のオーディオ・コンテンツの信号属性ならびに波形データにおける符号化アーチファクトの量の両方によって決定されるよう、生成される。

段階（ｂ）は、前記低品質発話データの少なくとも一部を、ビットストリームの少なくとも一つのセグメントの前記オーディオ・データと組み合わせる（たとえば混合するまたはブレンドする）ことによって、波形符号化発話向上を実行し、前記再構成された発話データを、ビットストリームの少なくとも一つのセグメントの前記オーディオ・データと組み合わせることによって、パラメトリック符号化発話向上を実行する段階を含んでいてもよい。波形符号化発話向上とパラメトリック符号化発話向上の組み合わせは、ビットストリームの少なくとも一つのセグメントに対して、該セグメントについての低品質発話データおよびパラメトリックに構築された発話の両方を、該セグメントの前記オーディオ・データとブレンドすることによって、実行される。いくつかの信号条件のもとでは、波形符号化発話向上とパラメトリック符号化発話向上の一方のみ（両方ではない）が（ブレンド・インジケータに応答して）ビットストリームのあるセグメントに対して（または二つ以上のセグメントのそれぞれに対して）実行される。

ここで、「SNR」（信号対雑音比）という表現は、オーディオ・プログラムのあるセグメントの（またはプログラム全体の）発話コンテンツのパワーの、該セグメントまたはプログラムの非発話コンテンツのパワーに対する比（またはレベルの差）、あるいはプログラムのあるセグメントの（またはプログラム全体の）発話コンテンツのパワーの、該セグメントまたはプログラムのコンテンツ全体（発話および非発話）のパワーに対する比（またはレベルの差）を表わすために使われる。

あるクラスの実施形態では、本発明の方法は、オーディオ・プログラムのセグメントのパラメトリック符号化向上と波形符号化向上の間で、「盲目的な」時間的な、SNRに基づく切り換えを実装する。このコンテキストにおいて、「盲目的」とは、切り換えが、複雑な聴覚マスキング・モデル（たとえば本稿で述べるような型の）によって知覚的に案内されず、プログラムの諸セグメントに対応するSNR値（ブレンド・インジケータ）のシーケンスによって案内されることを表わす。このクラスのある実施形態では、この場合、ハイブリッド符号化発話向上は、パラメトリック符号化向上と波形符号化向上との間の時間的な切り換えによって達成される。それにより、パラメトリック符号化向上または波形符号化向上のいずれか（パラメトリック符号化向上および波形符号化向上の両方ではない）が、発話向上が実行されるオーディオ・プログラムの各セグメントに対して実行される。波形符号化向上が低SNRの条件の下で（SNRの低い値をもつセグメントに対して）最もよく性能を発揮し、パラメトリック符号化向上は好都合なSNRにおいて（SNRの高い値をもつセグメントに対して）最もよく性能を発揮することを認識して、切り換え決定は典型的には、もとのオーディオ混合における、発話（ダイアログ）の、残りのオーディオに対する比に基づく。

「盲目的な」時間的なSNRに基づく切り換えを実装する実施形態は典型的には：未向上のオーディオ信号（もとのオーディオ混合）を連続する時間スライス（セグメント）にセグメント分割し、各セグメントについて、セグメントの発話コンテンツと他のオーディオ・コンテンツとの間の（あるいは発話コンテンツと全オーディオ・コンテンツとの間の）SNRを決定し；各セグメントについて、SNRを閾値と比較し、SNRが閾値より大きいときはそのセグメントについてパラメトリック符号化向上の制御パラメータを提供し（すなわち、そのセグメントについてのブレンド・インジケータは、パラメトリック符号化向上が実行されるべきであることを示す）、SNRが閾値より大きくないときはそのセグメントについて波形符号化向上の制御パラメータを提供する（すなわち、そのセグメントについてのブレンド・インジケータは、波形符号化向上が実行されるべきであることを示す）段階を含む。典型的には、未向上のオーディオ信号は、メタデータとして含まれる前記制御パラメータとともに受信器に送達（たとえば送信）され、受信器は、（各セグメントに対して）そのセグメントについて制御パラメータによって示される型の発話向上を実行する。こうして、受信器は、制御パラメータがパラメトリック符号化向上の制御パラメータである各セグメントに対してはパラメトリック符号化向上を、制御パラメータが波形符号化された向上の制御パラメータである各セグメントに対しては波形符号化向上を実行する。

（波形符号化発話向上を実装するための）波形データおよびパラメトリック符号化向上パラメータの両方をもとの（未向上の）混合と一緒に（もとのオーディオ混合の各セグメントと一緒に）送信するコストをかけるつもりがあるなら、波形符号化向上およびパラメトリック符号化向上の両方を混合の個々のセグメントに適用することによって、より高い度合いの発話向上が達成できる。こうして、あるクラスの実施形態では、本発明の方法は、オーディオ・プログラムの諸セグメントのパラメトリック符号化向上と波形符号化向上の間の「盲目的な」時間的なSNRに基づくブレンドを実装する。このコンテキストにおいても、「盲目的」とは、切り換えが、複雑な聴覚マスキング・モデル（たとえば本稿で述べるような型の）によって知覚的に案内されず、プログラムの諸セグメントに対応するSNR値のシーケンスによって案内されることを表わす。

「盲目的な」時間的なSNRに基づくブレンドを実装する実施形態は、典型的には：未向上のオーディオ信号（もとのオーディオ混合）を連続する時間スライス（セグメント）にセグメント分割し、各セグメントについて、セグメントの発話コンテンツと他のオーディオ・コンテンツとの間の（あるいは発話コンテンツと全オーディオ・コンテンツとの間の）SNRを決定し；各セグメントについて、ブレンド制御インジケータを提供する段階を含む。ここで、ブレンド制御インジケータの値はそのセグメントについてのSNRによって決定される（SNRの関数である）。

いくつかの実施形態では、本方法は、発話向上の総量（T）を決定する（たとえば、Tに対する要求を受領する）段階を含み、ブレンド制御インジケータは、T＝αPw＋(1−α)Ppとなるような各セグメントについてのパラメータαである。ここで、Pwは、そのセグメントについて与えられる波形データを使ってそのセグメントの未向上のオーディオ・コンテンツに適用された場合に所定の向上総量Tを生じるであろうそのセグメントについての波形符号化向上であり（ここで、そのセグメントの発話コンテンツは未向上の波形をもち、そのセグメントについての波形データはそのセグメントの発話コンテンツの低下品質バージョンを示し、低下品質バージョンは未向上の波形と類似の（たとえば少なくとも実質的に同様の）波形をもち、発話コンテンツの低下品質バージョンは単独でレンダリングおよち知覚されるときに不快な品質である）、Ppは、そのセグメントについて与えられるパラメトリック・データを使ってそのセグメントの未向上のオーディオ・コンテンツに適用された場合に所定の向上総量Tを生じるであろうパラメトリック符号化向上である（ここで、そのセグメントについてのパラメトリック・データは、そのセグメントの未向上のオーディオ・コンテンツとともに、そのセグメントの発話コンテンツのパラメトリックに再構成されたバージョンを決定する）。いくつかの実施形態では、各セグメントについてのブレンド制御インジケータは、関連するセグメントの各周波数帯域についてのパラメータを含む、そのようなパラメータの集合である。

未向上のオーディオ信号がメタデータとしての制御パラメータと一緒に受信器に送達される（たとえば送信される）とき、受信器は（各セグメントに対して）、そのセグメントについての制御パラメータによって示されるハイブリッド発話向上を実行してもよい。あるいはまた、受信器は、未向上のオーディオ信号から制御パラメータを生成する。

いくつかの実施形態では、受信器は、（未向上のオーディオ信号の各セグメントに対して）（当該セグメントについてのパラメータαによってスケーリングされた向上Ppによって決定される量の）パラメトリック符号化された向上と、（当該セグメントについて値(1−α)によってスケーリングされた向上Pwによって決定される量の）波形符号化された向上との組み合わせを実行して、パラメトリック符号化された向上および波形符号化された向上の組み合わせが、所定の向上総量
T＝αPw＋(1−α)Pp (1)
を生成するようにする。

別のクラスの実施形態では、オーディオ信号の各セグメントに対して実行される波形符号化およびパラメトリック符号化向上の組み合わせは、聴覚マスキング・モデルによって決定される。このクラスのいくつかの実施形態では、オーディオ・プログラムのあるセグメントに対して実行されるべき波形符号化およびパラメトリック符号化向上のブレンドについての最適なブレンド比は、符号化ノイズが可聴にならないぎりぎりに保つ波形符号化された向上の最高量を使う。デコーダにおける符号化ノイズの入手可能性は常に統計的推定の形であり、厳密に決定されることはできないことは理解しておくべきである。

このクラスのいくつかの実施形態では、オーディオ・データの各セグメントについてのブレンド・インジケータは、そのセグメントに対して実行される波形符号化およびパラメトリック符号化向上の組み合わせを示し、該組み合わせは、聴覚マスキング・モデルによってそのセグメントについて決定される波形符号化を最大化する組み合わせに、少なくとも実質的に等しい。ここで、波形符号化を最大化する組み合わせは、発話向上されたオーディオ・プログラムの対応するセグメントにおける（波形符号化向上に起因する）符号化ノイズが不快なほど可聴でない（たとえば可聴でない）ことを保証する波形符号化向上の最大の相対量を指定する。いくつかの実施形態では、発話向上されたオーディオ・プログラムのセグメントにおける符号化ノイズが不快なほど可聴でないことを保証する波形符号化向上の最大の相対量は、（オーディオ・データの対応するセグメントに対して）実行されるべき波形符号化向上およびパラメトリック符号化向上の組み合わせが、当該セグメントの所定の発話向上総量を生成することを保証する最大の相対量である。および／または（パラメトリック符号化された向上のアーチファクトが聴覚マスキング・モデルによって実行される評価に含められる場合には）符号化アーチファクトが、パラメトリック符号化向上のアーチファクトより上に可聴であることを（これが好都合であるときは）許容してもよい（たとえば、（波形符号化向上に起因する）可聴の符号化アーチファクトは、パラメトリック符号化向上の可聴アーチファクトほど不快ではない）。

本発明のハイブリッド符号化方式における波形符号化向上の寄与は、符号化ノイズが不快なほど可聴にならない（たとえば可聴にならない）ことを保証しつつ、高めることができる。それは、（波形符号化向上を実装するために使われる）低下品質発話コピーにおける符号化ノイズがメイン・プログラムのオーディオ混合によってマスクされる様子をより正確に予測し、しかるべくブレンド比を選択するよう、聴覚マスキング・モデルを使うことによる。

聴覚マスキング・モデルを用いるいくつかの実施形態は：未向上のオーディオ信号（もとのオーディオ混合）を連続する時間スライス（セグメント）にセグメント分割し、各セグメントについて、（波形符号化向上において使うための）各セグメントにおける発話の低下品質コピーおよび（パラメトリック符号化向上において使うための）パラメトリック符号化向上パラメータを提供し；各セグメントについて、聴覚マスキング・モデルを使って、符号化アーチファクトが不快なほど可聴にならずに適用できる波形符号化向上の最大量を決定し；（そのセグメントについて聴覚マスキング・モデルを使って決定された波形符号化向上の最大量を超えず、かつ、そのセグメントについて聴覚マスキング・モデルを使って決定された波形符号化された向上の最大量に少なくとも実質的に一致する量の）波形符号化向上とパラメトリック符号化向上との組み合わせの（未向上のオーディオ信号の各セグメントについての）インジケータを生成する段階を含む。波形符号化向上とパラメトリック符号化向上との前記組み合わせは、そのセグメントについての所定の発話向上総量を生成するようにする。

いくつかの実施形態では、各インジケータは、未向上のオーディオ信号を示すエンコードされたオーディオ・データをも含むビットストリームに（たとえばエンコーダによって）含められる。

いくつかの実施形態では、未向上のオーディオ信号は連続する時間スライスにセグメント分割され、各時間スライスは周波数帯域にセグメント分割され、各時間スライスの各周波数帯域について、聴覚マスキング・モデルは、符号化アーチファクトが不快なほど可聴になることなく適用できる波形符号化された向上の最大量を決定するために使われ、未向上のオーディオ信号の各時間スライスの各周波数帯域についてインジケータが生成される。

任意的に、本方法は、（未向上のオーディオ信号の各セグメントに対して、）各セグメントについてのインジケータに応答して、波形符号化された向上およびパラメトリック符号化された向上の組み合わせが当該セグメントについて所定の発話向上総量を生じるようインジケータによって決定された、波形符号化された向上およびパラメトリック符号化された向上の組み合わせを実行する段階をも含む。

いくつかの実施形態では、オーディオ・コンテンツは、サラウンドサウンド構成、5.1スピーカー構成、7.1スピーカー構成、7.2スピーカー構成などといった参照オーディオ・チャネル構成（または表現）について、エンコードされたオーディオ信号においてエンコードされる。参照構成は、ステレオ・チャネル、左および右前方チャネル、サラウンド・チャネル、スピーカー・チャネル、オブジェクト・チャネルなどのようなオーディオ・チャネルを含んでいてもよい。発話コンテンツを担持するチャネルの一つまたは複数は、ミッド／サイド（M/S）オーディオ・チャネル表現のチャネルでなくてもよい。本稿での用法では、M/Sオーディオ・チャネル表現（または単にM/S表現）は、少なくともミッド・チャネルおよびサイド・チャネルを含む。ある例示的実施形態では、ミッド・チャネルは（たとえば等しく重み付けされた、などの）左右チャネルの和を表わし、一方、サイド・チャネルは左右チャネルの差を表わす。ここで、左および右のチャネルは、二つのチャネル、たとえば前方中央および前方左チャネルの任意の組み合わせと考えられてもよい。

いくつかの実施形態では、プログラムの発話コンテンツは、非発話コンテンツと混合されてもよく、参照オーディオ・チャネル構成において左および右チャネル、左および右前方チャネルなどといった二つ以上の非M/Sチャネル上で配送されてもよい。発話コンテンツは、左および右チャネルなどのような二つの非M/Sチャネルにおいて発話コンテンツが同じくらい大きいステレオ・コンテンツにおいてファントム中心において表現されてもよいが、それは必須ではない。ステレオ・コンテンツは、必ずしも等しい大きさでない、あるいはさらには二つのチャネルの両方に存在する、非発話コンテンツを含んでいてもよい。

いくつかのアプローチのもとでは、発話コンテンツが配送される複数の非M/Sオーディオ・チャネルに対応する、発話向上のための非M/S制御データ、制御パラメータなどの複数の組〔セット〕が、全体的なオーディオ・メタデータの一部として、オーディオ・エンコーダから下流のオーディオ・デコーダに送信される。発話向上のための非M/S制御データ、制御パラメータなどの複数の組の各組が、発話コンテンツが配送される複数の非M/Sオーディオ・チャネルのうちの特定のオーディオ・チャネルに対応し、下流のオーディオ・デコーダによって、該特定のオーディオ・チャネルに関係する発話向上動作を制御するために使われてもよい。本稿での用法では、非M/S制御データ、制御パラメータなどの組は、本稿に記載されるオーディオ信号がエンコードされている参照構成のような、非M/S表現のオーディオ・チャネルにおける発話向上動作のための制御データ、制御パラメータなどを指す。

いくつかの実施形態では、――非M/S制御データ、制御パラメータなどの一つまたは複数の組に加えてまたはその代わりに――M/S発話向上メタデータが、オーディオ・メタデータの一部として、オーディオ・エンコーダから下流のオーディオ・デコーダに送信される。M/S発話向上メタデータは、発話向上のためのM/S制御データ、制御パラメータなどの一つまたは複数の組を含んでいてもよい。本稿での用法では、M/S制御データ、制御パラメータなどの組は、M/S表現のオーディオ・チャネルにおける発話向上動作のための制御データ、制御パラメータなどを指す。いくつかの実施形態では、発話向上のためのM/S発話向上メタデータは、オーディオ・エンコーダによって下流のオーディオ・デコーダに、参照オーディオ・チャネル構成においてエンコードされた混合されたコンテンツとともに送信される。いくつかの実施形態では、M/S発話向上メタデータにおける発話向上のためのM/S制御データ、制御パラメータなどの組の数は、混合されたコンテンツにおける発話コンテンツが配送される参照オーディオ・チャネル表現における複数の非M/Sオーディオ・チャネルの数より少なくてもよい。いくつかの実施形態では、たとえ混合されたコンテンツにおける発話コンテンツが、参照オーディオ・チャネル構成における左および右チャネルなどのような二つ以上の非M/Sオーディオ・チャネルを通じて配送されるときでも、発話向上のためのM/S制御データ、制御パラメータなど一つの組――たとえばM/S表現のミッド・チャネルに対応するもの――だけがM/S発話向上メタデータとして、オーディオ・エンコーダによって下流のデコーダに送られる。発話向上のためのM/S制御データ、制御パラメータなどの該単一の組は、左および右チャネルなどのような二つ以上の非M/Sオーディオ・チャネルのすべてについての発話向上動作を達成するために使われてもよい。いくつかの実施形態では、本稿に記載されるように発話向上のためのM/S制御データ、制御パラメータなどに基づいて発話向上動作を適用するために、参照構成とM/S表現の間の変換行列が使われてもよい。

本稿に記載される技法は、発話コンテンツが左および右のチャネルのファントム中心においてパンされる、発話コンテンツが完全には該中心にパンされない（たとえば、左および右のチャネルなどの両方において同じくらいの大きさでない）などのシナリオにおいて使用できる。一例では、これらの技法は、発話コンテンツのエネルギーの大きな割合（たとえば70+%、80+%、90+%など）がM/S表現のミッド信号またはミッド・チャネルにあるシナリオにおいて使われてもよい。別の例では、パン、回転などの（たとえば空間的などの）変換が、参照構成において等しくない発話コンテンツを、M/S構成において等しいまたは実質的に等しくなるように変換するために使われてもよい。パン、回転などを表わすレンダリング・ベクトル、変換行列などは、発話向上動作の一部として、あるいはそれとの関連で使われてもよい。

いくつかの実施形態（たとえばハイブリッド・モードなど）では、発話コンテンツのあるバージョン（たとえば低減されたバージョン）が下流のオーディオ・デコーダに、ミッド・チャネル信号のみとして、あるいはミッド・チャネルおよびサイド・チャネル両方の信号として、M/S表現において、可能性としては非M/S表現と一緒に参照オーディオ・チャネル構成において送られる混合されたコンテンツと一緒に、送られる。いくつかの実施形態では、発話コンテンツの該バージョンが下流のオーディオ・デコーダに、M/S表現におけるミッド・チャネル信号のみとして送られるとき、該ミッド・チャネル信号に基づいて非M/Sオーディオ・チャネル構成（たとえば参照構成など）の一つまたは複数の非M/Sチャネルにおける信号部分を生成するよう該ミッド・チャネル信号に対して作用する（たとえば変換を実行するなど）対応するレンダリング・ベクトルも、下流のオーディオ・デコーダに送られる。

いくつかの実施形態では、オーディオ・プログラムのセグメントのパラメトリック符号化向上（たとえばチャネル独立ダイアログ予測、マルチチャネル・ダイアログ予測など）と波形符号化向上との間の「盲目的な」時間的なSNRに基づく切り換えを実装する（たとえば下流のオーディオ・デコーダなどにおける）ダイアログ／発話向上アルゴリズムが、少なくとも部分的にはM/S表現において動作する。

少なくとも部分的にM/S表現における発話向上動作を実装する本稿に記載される技法は、（たとえばミッド・チャネルなどにおける）チャネル独立予測、（たとえばミッド・チャネルおよびサイド・チャネルなどにおける）マルチチャネル予測などとともに使用されることができる。これらの技法は、同時に一つ、二つまたはそれ以上のダイアログについて発話向上をサポートするために使われることもできる。予測パラメータ、利得、レンダリング・ベクトルなどといった制御パラメータ、制御データなどのゼロ個、一つまたは複数の追加的な組が、追加的なダイアログをサポートするために、M/S発話向上メタデータの一部として、エンコードされたオーディオ信号において提供されることができる。

いくつかの実施形態では、エンコードされたオーディオ信号（たとえば、エンコーダから出力されるものなど）のシンタックスは、上流のオーディオ・エンコーダから下流のオーディオ・デコーダへのM/Sフラグの送信をサポートする。M/Sフラグは、発話向上動作が少なくとも部分的には、M/Sフラグと一緒に送信されるM/S制御データ、制御パラメータなどをもって実行されるときに存在する／セットされる。たとえば、M/Sフラグがセットされているとき、発話向上アルゴリズム（たとえば、チャネル独立ダイアログ予測、マルチチャネル・ダイアログ予測、波形ベースの、波形‐パラメトリック・ハイブリッドのなど）の一つまたは複数に従って、M/Sフラグと一緒に受領されるM/S制御データ、制御パラメータなどを用いたM/S発話向上動作を適用する前に、非M/Sチャネルにおけるステレオ信号（たとえば左および右チャネルなどからのもの）は、まず、受領側オーディオ・デコーダによって、M/S表現のミッド・チャネルおよびサイド・チャネルに変換されてもよい。M/S発話向上動作が実行された後、M/S表現における発話向上信号は非M/Sチャネルに変換し戻されてもよい。

いくつかの実施形態では、発話コンテンツが本発明に従って向上されるべきオーディオ・プログラムは、スピーカー・チャネルを含むが、オブジェクト・チャネルは含まない。他の実施形態では、発話コンテンツが本発明に従って向上されるべきオーディオ・プログラムは、少なくとも一つのオブジェクト・チャネルおよび任意的には少なくとも一つのスピーカー・チャネルをも含むオブジェクト・ベースのオーディオ・プログラム（典型的には、マルチチャネル・オブジェクト・ベース・オーディオ・プログラム）である。

本発明のもう一つの側面は、発話および非発話コンテンツを含むプログラムを示すオーディオ・データに応答して、エンコードされたオーディオ・データ、波形データおよびパラメトリック・データ（および任意的にはオーディオ・データの各セグメントについてのブレンド・インジケータ（たとえばブレンドを指示するデータ）も）を含むビットストリームを生成する本発明のエンコード方法の任意の実施形態を実行するよう構成された（たとえばプログラムされた）エンコーダと、前記ビットストリームをパースして、前記エンコードされたオーディオ・データを（および任意的には各ブレンド・インジケータも）復元し、前記エンコードされたオーディオ・データをデコードして前記オーディオ・データを復元するよう構成されたデコーダとを含むシステムである。あるいはまた、前記デコーダは、復元されたオーディオ・データに応答して、前記オーディオ・データの各セグメントについてブレンド・インジケータを生成するよう構成される。前記デコーダは、各ブレンド・インジケータに応答して、復元されたオーディオ・データに対してハイブリッド発話向上を実行するよう構成される。

本発明のもう一つの側面は、本発明の方法の任意の実施形態を実行するよう構成されたデコーダである。もう一つのクラスの実施形態では、本発明は、本発明の方法の任意の実施形態によって生成されたエンコードされたオーディオ・ビットストリームの少なくとも一つのセグメント（たとえばフレーム）を（たとえば非一時的な仕方で）記憶するバッファ・メモリ（バッファ）を含むデコーダである。

本発明の他の側面は、本発明の方法の任意の実施形態を実行するよう構成された（たとえばプログラムされた）システムまたは装置（たとえばエンコーダ、デコーダまたはプロセッサ）ならびに本発明の方法またはそのステップの任意の実施形態を実装するためのコードを記憶するコンピュータ可読媒体（たとえばディスク）を含む。たとえば、本発明のシステムは、プログラム可能な汎用プロセッサ、デジタル信号プロセッサまたはマイクロプロセッサであって、データに対して本発明の方法またはそのステップの実施形態を含む多様な動作のうちの任意のものを実行するようソフトウェアまたはファームウェアによってプログラムされたおよび／または他の仕方で構成されたものであるまたはそれを含むことができる。そのような汎用プロセッサは、入力装置と、メモリと、呈されるデータに応答して本発明の方法（またはそのステップ）の実施形態を実行するようプログラムされた（および／または他の仕方で構成された）処理回路とを含むコンピュータ・システムであるまたはそれを含むものであってもよい。

いくつかの実施形態では、本稿に記載される機構は、オーディオビジュアル装置、フラットパネルTV、ハンドヘルド装置、ゲーム機、テレビジョン、ホームシアター・システム、タブレット、モバイル装置、ラップトップ・コンピュータ、ネットブック・コンピュータ、セルラー無線電話、電子書籍リーダー、ポイントオブセール端末、デスクトップ・コンピュータ、コンピュータ・ワークステーション、コンピュータ・キオスク、さまざまな他の種類の端末およびメディア処理ユニットなどを含むがそれに限られない、メディア処理システムの一部をなす。

本稿に記載される好ましい実施携帯および一般的な原理および特徴に対するさまざまな修正が、当業者にはすぐに明白となるであろう。よって、本開示は、示されている実施形態に限定されることは意図されておらず、本稿に記載される原理および特徴と整合する最も広い範囲を与えられるものである。

〈２．記法および命名法〉
請求項を含む本開示を通じて、用語「ダイアログ」および「発話」は同義語として交換可能に使用されて、人間（または仮想世界ではキャラクター）による伝達の形として知覚されるオーディオ信号コンテンツを表わす。

請求項を含む本開示を通じて、信号またはデータ「に対して」動作を実行する（たとえば信号またはデータをフィルタリングする、スケーリングする、変換するまたは利得を適用する）という表現は、信号またはデータに対して直接的に、または信号またはデータの処理されたバージョンに対して（たとえば、予備的なフィルタリングまたは前処理を該動作の実行に先立って受けている前記信号のバージョンに対して）該動作を実行することを表わすために広義で使用される。

請求項を含む本開示を通じて、「システム」という表現は、装置、システムまたはサブシステムを表わす広義で使用される。たとえば、デコーダを実装するサブシステムは、デコーダ・システムと称されてもよく、そのようなサブシステムを含むシステム（たとえば、複数の入力に応答してX個の出力信号を生成するシステムであって、前記サブシステムが入力のうちのM個を生成し、他のX−M個の入力は外部源から受領されるもの）もデコーダ・システムと称されることがある。

請求項を含む本開示を通じて、用語「プロセッサ」は、データ（たとえばオーディオまたはビデオまたは他の画像データ）に対して動作を実行するよう（たとえばソフトウェアまたはファームウェアを用いて）プログラム可能または他の仕方で構成可能であるシステムまたは装置を表わす広義で使用される。プロセッサの例は、フィールド・プログラム可能なゲート・アレイ（または他の構成可能な集積回路またはチップセット）、オーディオまたは他のサウンド・データに対してパイプライン化された処理を実行するようプログラムされたおよび／または他の仕方で構成されたデジタル信号プロセッサ、プログラム可能な汎用プロセッサもしくはコンピュータおよびプログラム可能なマイクロプロセッサ・チップまたはチップセットを含む。

請求項を含む本開示を通じて、「オーディオ・プロセッサ」および「オーディオ処理ユニット」という表現は交換可能に、オーディオ・データを処理するよう構成されたシステムを表わす広義で使用される。オーディオ処理ユニットの例は、エンコーダ（たとえばトランスコーダ）、デコーダ、コーデック、前処理システム、後処理システムおよびビットストリーム処理システム（時にビットストリーム処理ツールと称される）を含むがこれに限られない。

請求項を含む本開示を通じて、「メタデータ」という表現は、対応するオーディオ・データ（メタデータをも含むビットストリームのオーディオ・コンテンツ）とは別個の異なるデータを指す。メタデータは、オーディオ・データに関連付けられ、該オーディオ・データの少なくとも一つの特徴または特性（たとえばそのオーディオ・データまたはそのオーディオ・データによって示されるオブジェクトの軌跡に対してどの型（単数または複数）の処理がすでに実行されているか、あるいは実行されるべきか）を示す。メタデータのオーディオ・データとの関連付けは、時間同期的である。このように、現在の（最も最近受領または更新された）メタデータは、対応するオーディオ・データが同時的に、示される特徴をもつおよび／または示される型のオーディオ・データ処理の結果を含むことを示しうる。

請求項を含む本開示を通じて、「結合する」または「結合される」という用語は、直接的または間接的な接続を意味するために使われる。よって、第一の装置が第二の装置に結合するとき、その接続は、直接接続を通じてであってもよいし、他の装置および接続を介した間接的な接続を通じてであってもよい。

請求項を含む本開示を通じて、以下の表現は以下の定義をもつ。

スピーカーおよびラウドスピーカーは、任意の音を発するトランスデューサを表わすものとして同義に使われる。この定義は、複数のトランスデューサ（たとえばウーファーおよびツイーター）として実装されるラウドスピーカーを含む。

スピーカー・フィード：ラウドスピーカーに直接加えられるオーディオ信号または直列の増幅器およびラウドスピーカーに加えられるオーディオ信号。

チャネル（または「オーディオ・チャネル」）：モノフォニック・オーディオ信号。そのような信号は典型的には、該信号を所望されるまたは公称上の位置にあるラウドスピーカーに直接加えるのと等価であるようにレンダリングされることができる。所望される位置は、物理的なラウドスピーカーについて典型的にそうであるように静的であってもよく、あるいは動的であってもよい。

オーディオ・プログラム：一つまたは複数のオーディオ・チャネル（少なくとも一つのスピーカー・チャネルおよび／または少なくとも一つのオブジェクト・チャネル）および任意的には関連するメタデータ（たとえば、所望される空間的オーディオ呈示を記述するメタデータ）の集合。

スピーカー・チャネル（または「スピーカー・フィード・チャネル」）：（所望されるまたは公称上の位置にある）指定されたラウドスピーカーに関連付けられているまたは定義されたスピーカー配位内での指定されたスピーカー・ゾーンに関連付けられているオーディオ・チャネル。スピーカー・チャネルは、該オーディオ信号を（所望されるまたは公称上の位置にある）指定されたラウドスピーカーにまたは指定されたスピーカー・ゾーン内のスピーカーに直接加えるのと等価であるようにレンダリングされる。

オブジェクト・チャネル：オーディオ源（時にオーディオ「オブジェクト」と称される）によって発される音を示すオーディオ・チャネル。典型的には、オブジェクト・チャネルは、パラメトリックなオーディオ源記述を決定する（たとえば、パラメトリックなオーディオ源記述を示すメタデータがオブジェクト・チャネル内に含められるまたはオブジェクト・チャネルと一緒に提供される）。源記述は、（時間の関数としての）源によって発された音、時間の関数としての源の見かけの位置（たとえば、3D空間座標）および任意的には源を特徴付ける少なくとも一つの追加的パラメータ（たとえば見かけの源サイズまたは幅）を決定してもよい。

オブジェクト・ベース・オーディオ・プログラム：一つまたは複数のオブジェクト・チャネルの集合を（および任意的には少なくとも一つのスピーカー・チャネルも）および任意的には関連するメタデータ（たとえば、オブジェクト・チャネルによって示される音を発するオーディオ・オブジェクトの軌跡を示すメタデータ、あるいは他の仕方でオブジェクト・チャネルによって示される音の所望される空間的オーディオ呈示を示すメタデータまたはオブジェクト・チャネルによって示される音の源である少なくとも一つのオーディオ・オブジェクトの識別情報を示すメタデータ）も含むオーディオ・プログラム。

レンダリング：オーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換するプロセスまたはオーディオ・プログラムを一つまたは複数のスピーカー・フィードに変換し、該スピーカー・フィードを一つまたは複数のラウドスピーカーを使って音に変換するプロセス。（後者の場合、レンダリングは本稿では時にラウドスピーカー「による」レンダリングと称される。）オーディオ・チャネルは、信号を所望される位置にある物理的なラウドスピーカーに直接加えることによって（所望される位置「において」）トリビアルにレンダリングされることができる。あるいは、一つまたは複数のオーディオ・チャネルは、（聴取者にとって）そのようなトリビアルなレンダリングと実質的に等価であるよう設計された多様な仮想化技法の一つを使ってレンダリングされることができる。この後者の場合、各オーディオ・チャネルは、一般には所望される位置とは異なる既知の位置にあるラウドスピーカー（単数または複数）に加えられるべき一つまたは複数のスピーカー・フィードに変換されてもよく、それによりフィードに応答してラウドスピーカーによって発される音は、所望される位置から発しているように知覚されることになる。そのような仮想化技法の例は、ヘッドフォンを介したバイノーラル・レンダリング（たとえばヘッドフォン装着者のために7.1チャネルまでのサラウンドサウンドをシミュレートするドルビー・ヘッドフォン処理を使う）および波面合成（wave field synthesis）を含む。

発明のエンコード、デコードおよび発話向上方法および該方法を実装するよう構成されたシステムの実施形態は、図３、図６および図７を参照して記述される。

〈３．予測パラメータの生成〉
（本発明の実施形態に基づくハイブリッド発話向上を含む）発話向上を実行するためには、向上されるべき発話信号へのアクセスを有する必要がある。発話向上が実行されるべき時点において（向上されるべき混合された信号の発話および非発話コンテンツの混合とは別個に）発話信号が利用可能でない場合には、パラメトリック技法が使用されて、利用可能な混合の発話の再構成を生成してもよい。

（発話および非発話コンテンツの混合を示す）混合コンテンツ信号の発話コンテンツのパラメトリック再構成のための一つの方法は、該信号の各時間‐周波数タイルにおける発話パワーを再構成することに基づき、次式によりパラメータを生成する。

ここで、p_n,bは、時間インデックスnおよび周波数帯域分割インデックスbをもつタイルについてのパラメータ（パラメトリック符号化発話向上値）であり、値D_s,fはタイルの時間スロットsおよび周波数ビンfにおける発話信号を表わし、値M_s,fはタイルの同じ時間スロットおよび周波数ビンにおける混合コンテンツ信号を表わし、和はすべてのタイルにおけるsおよびfのすべての値にわたる。パラメータp_n,bは、混合コンテンツ信号自身とともに（メタデータとして）送達されることができ、受領側が混合コンテンツ信号の各セグメントの発話コンテンツを再構成することを許容する。

図１に描かれているように、各パラメータp_n,bは、発話信号が向上されるべき混合コンテンツ信号（「混合オーディオ」）に対して時間領域から周波数領域への変換を実行し、発話信号（混合コンテンツ信号の発話信号）に対して時間領域から周波数領域への変換を実行し、タイル中のすべての時間スロットおよび周波数ビンにわたって（発話信号の時間インデックスnおよび周波数帯域分割インデックスbをもつ各時間‐周波数タイルの）エネルギーを積分し、タイル中のすべての時間スロットおよび周波数ビンにわたって混合コンテンツ信号の対応する時間‐周波数タイルのエネルギーを積分し、第一の積分の結果を第二の積分の結果で割ってそのタイルについてのパラメータp_n,bを生成することによって、決定されることができる。

混合コンテンツ信号の各時間‐周波数タイルが該タイルについてのパラメータp_n,bによって乗算されるとき、結果として得られる信号は、混合コンテンツ信号の発話コンテンツと同様のスペクトルおよび時間包絡をもつ。

典型的なオーディオ・プログラム、たとえばステレオまたは5.1チャネル・オーディオ・プログラムは、複数のスピーカー・チャネルを含む。典型的には、各チャネル（またはチャネルの部分集合のそれぞれ）は、発話および非発話コンテンツを示し、混合コンテンツ信号が各チャネルを決定する。記述されるパラメトリック発話再構成方法は、すべてのチャネルの発話成分を再構成するために、各チャネルに独立に適用されることができる。再構成された発話信号（各チャネルについて一つ）は、各チャネルについて適切な利得をもって、対応する混合コンテンツ・チャネル信号に加えられて、発話コンテンツの所望されるブーストを達成することができる。

マルチチャネル・プログラムの混合コンテンツ信号（チャネル）は、一組の信号ベクトルとして表現できる。各ベクトル要素は、特定のパラメータ集合に対応する時間‐周波数タイルの集合、すなわち、フレーム（n）中のパラメータ帯域（b）におけるすべての周波数ビン（f）および時間スロット（s）である。そのようなベクトルの集合の例は、三チャネル混合コンテンツ信号について、次のようなものである。

ここで、c_iはチャネルを示す。この例は三つのチャネルを想定しているが、チャネル数は任意の量である。

同様に、マルチチャネル・プログラムの発話コンテンツは、（発話コンテンツが一つのチャネルのみからなる場合）1×1行列D_n,bの集合として表現することができる。混合コンテンツ信号の各行列要素の、スカラー値との乗算は、各サブ要素のスカラー値との乗算につながる。こうして、各タイルについての再構成された発話値は、各nおよびbについて、

を計算することによって得られる。ここで、Pはその要素が予測パラメータである行列である。（すべてのタイルについての）再構成された発話は、
D_r＝diag(P)・M (5)
と表わすことができる。

マルチチャネル混合コンテンツ信号の複数のチャネルにおけるコンテンツは、チャネル間の相関を引き起こし、これは、発話信号のよりよい予測をするために用いることができる。（たとえば通常の型の）最小平均平方誤差（MMSE）予測器を用いることにより、チャネルは予測パラメータと組み合わされて、平均平方誤差（MSE）基準に基づき最小誤差をもって発話コンテンツを再構成することができる。図２に示されるように、三チャネルの混合コンテンツ入力信号を想定すると、（周波数領域で動作する）そのようなMMSE予測器は、混合コンテンツ入力信号と、該混合コンテンツ入力信号の発話コンテンツを示す単一の入力発話信号とに応答して、予測パラメータp_iの集合を逐次反復的に生成する（インデックスiは1,2または3）。

混合コンテンツ入力信号の各チャネルのタイルから再構成された発話値（各タイルは同じインデックスnおよびbをもつ）は、各チャネルについての重みパラメータによって制御される、混合コンテンツ信号の各チャネル（i＝1,2または3）のコンテンツ（M_ci,n,b）の線形結合である。これらの重みパラメータは、同じインデックスnおよびbをもつ諸タイルについての予測パラメータp_iである。このように、混合コンテンツ信号のすべてのチャネルのすべてのタイルから再構成された発話は
D_r＝p₁・M_c1＋p₂・M_c2＋p₃・M_c3 (6)
または信号行列の形では、
D_r＝PM
となる。

たとえば、背景（非発話）はチャネル間でインコヒーレントである一方、発話が混合コンテンツ信号の複数のチャネルにコヒーレントに存在するときは、チャネルの加法的な組み合わせが発話のエネルギーを優遇する。二つのチャネルについて、これは、チャネル独立な再構成に比べて、3dBよい発話分離につながる。もう一つの例として、発話が一つのチャネルに存在し、背景音が複数のチャネルにコヒーレントに存在するとき、チャネルの減法的な組み合わせが背景音を（部分的に）消去し、一方、発話は保存される。

あるクラスの実施形態では、本発明の方法は：（ａ）未向上の波形をもつ発話および他のオーディオ・コンテンツを含むオーディオ・プログラムを示すビットストリームを受領する段階を含む。前記ビットストリームは：前記発話および前記他のオーディオ・コンテンツを示す未向上のオーディオ・データと、前記発話の低下品質バージョンを示す波形データと、パラメトリック・データとを含む。前記低下品質バージョンは、前記未向上の波形に類似した（たとえば少なくとも実質的に同様の）第二の波形をもつ。前記低下品質バージョンは、単独で試聴されたとしたら不快な品質をもつであろう。前記パラメトリック・データは前記未向上のオーディオ・データとともに、パラメトリックに構築された発話を決定し、該パラメトリックに構築された発話は、前記発話に少なくとも実質的に一致する（たとえば、前記発話の良好な近似である）前記発話のパラメトリックに再構築されたバージョンである。本方法はさらに：（ｂ）ブレンド・インジケータに応答して前記ビットストリームに対して発話向上を実行し、それにより発話向上されたオーディオ・プログラムを示すデータを生成する段階を含む。これは、前記未向上のオーディオ・データを、前記波形データから決定された低品質発話データおよび再構成された発話データの組み合わせと組み合わせることによることを含む。前記組み合わせは、前記ブレンド・インジケータによって決定される（たとえば、前記組み合わせは、前記ブレンド・インジケータの現在値のシーケンスによって決定される状態のシーケンスをもつ）。前記再構成された発話データは、前記パラメトリック・データの少なくとも一部および前記未向上のオーディオ・データの少なくとも一部に応答して生成される。前記発話向上されたオーディオ・プログラムは、前記低品質発話データを前記未向上のオーディオ・データと組み合わせるだけによって決定される純粋に波形符号化発話向上されたオーディオ・プログラムよりも、前記パラメトリック・データおよび前記未向上のオーディオ・データから決定される純粋にパラメトリック符号化発話向上されたオーディオ・プログラムよりも、少ない可聴発話向上符号化アーチファクト（たとえば、よりよくマスクされた発話向上符号化アーチファクト）をもつ。

いくつかの実施形態では、ブレンド・インジケータ（これは値のシーケンスを有していてもよい。たとえばビットストリーム・セグメントのシーケンスのそれぞれについて一つの値）は、段階（ａ）で受領されたビットストリームに含まれる。他のいくつかの実施形態は、ビットストリームに応答して（たとえばビットストリームを受領し、デコードする受信器において）ブレンド・インジケータが生成される。

「ブレンド・インジケータ」という表現は、ビットストリームの各セグメントについての単一のパラメータまたは値（または単一のパラメータまたは値のシーケンス）を表わすことを意図しているのではないことを理解しておくべきである。むしろ、いくつかの実施形態では、（ビットストリームのあるセグメントについての）ブレンド・インジケータは、二つ以上のパラメータまたは値の組（たとえば、各セグメントについて、パラメトリック符号化向上の制御パラメータおよび波形符号化向上の制御パラメータ）であってもよい。いくつかの実施形態では、各セグメントについてのブレンド・インジケータは、セグメントの周波数帯域当たりのブレンドを示す値のシーケンスであってもよい。

波形データおよびパラメトリック・データは、ビットストリームの各セグメントについて提供される（たとえば各セグメントに含まれる）必要はなく、ビットストリームの各セグメントに対して発話向上を実行するために使われる必要もない。たとえば、場合によっては、少なくとも一つのセグメントが波形データのみを含んでいてもよく（そのような各セグメントについてブレンド・インジケータによって決定される組み合わせが波形データのみからなっていてもよい）、少なくとも一つの他のセグメントがパラメトリック・データのみを含んでいてもよい（そのような各セグメントについてブレンド・インジケータによって決定される組み合わせが再構成された発話データのみからなっていてもよい）。

いくつかの実施形態では、エンコーダがビットストリームを生成することが、未向上のオーディオ・データをエンコード（たとえば圧縮）するが波形データまたはパラメトリック・データはエンコード（たとえば圧縮）しないことによることを含むことが考えられている。よって、ビットストリームが受信器に送達されるとき、受信器は典型的にはビットストリームをパースして、未向上のオーディオ・データ、波形データおよびパラメトリック・データ（それにブレンド・インジケータがビットストリーム中で送達されるのであればブレンド・インジケータも）を抽出するが、未向上のオーディオ・データのみをデコードする。受信器は、波形データまたはパラメトリック・データに、オーディオ・データに適用されるのと同じデコード・プロセスを適用することなく、（波形データおよび／またはパラメトリック・データを使って、）デコードされた未向上のオーディオ・データに対して発話向上を実行する。

典型的には、波形データと再構成された発話データの（ブレンド・インジケータによって指示される）組み合わせは時間とともに変化する。該組み合わせの各状態は、ビットストリームの対応するセグメントの発話および他のオーディオ・コンテンツに関する。ブレンド・インジケータは、（波形データおよび再構成された発話データの）該組み合わせの現在状態が、ビットストリームの対応するセグメントにおける発話および他のオーディオ・コンテンツの信号属性（たとえば、発話コンテンツのパワーと他のオーディオ・コンテンツのパワーとの比）によって決定されるよう、生成される。

段階（ｂ）は、前記低品質発話データの少なくとも一部を、ビットストリームの少なくとも一つのセグメントの前記未向上のオーディオ・データと組み合わせる（たとえば混合するまたはブレンドする）ことによって、波形符号化発話向上を実行し、再構成された発話データを、ビットストリームの少なくとも一つのセグメントの前記未向上のオーディオ・データと組み合わせることによって、パラメトリック符号化発話向上を実行する段階を含んでいてもよい。波形符号化発話向上とパラメトリック符号化発話向上の組み合わせは、ビットストリームの少なくとも一つのセグメントに対して、該セグメントについての低品質発話データおよび再構成された発話の両方を、該セグメントの前記未向上のオーディオ・データとブレンドすることによって、実行される。いくつかの信号条件のもとでは、波形符号化発話向上とパラメトリック符号化発話向上の一方のみ（両方ではない）が（ブレンド・インジケータに応答して）ビットストリームのあるセグメントに対して（または二つ以上のセグメントのそれぞれに対して）実行される。

〈４．発話向上動作〉
本稿では、「SNR」（信号対雑音比）は、オーディオ・プログラムのあるセグメントの（またはプログラム全体の）発話成分（すなわち発話コンテンツ）のパワーの、該セグメントまたはプログラムの非発話成分（すなわち非発話コンテンツ）のパワーに対する比（またはレベルの差）、あるいは該セグメントまたはプログラムのコンテンツ全体（発話および非発話）のパワーに対する比（またはレベルの差）を表わすために使われる。いくつかの実施形態では、SNRは、（発話向上を受ける）オーディオ信号および該オーディオ信号の発話コンテンツを示す別個の信号（たとえば、波形符号化された向上において使うために生成された発話コンテンツの低品質コピー）から導出される。いくつかの実施形態では、SNRは、（発話向上を受ける）オーディオ信号からおよび（オーディオ信号のパラメトリック符号化向上において使うために生成された）パラメトリック・データから導出される。

あるクラスの実施形態では、本発明の方法は、オーディオ・プログラムのセグメントのパラメトリック符号化向上および波形符号化向上の間で、「盲目的な」時間的なSNRに基づく切り換えを実装する。このコンテキストにおいて、「盲目的」とは、切り換えが、複雑な聴覚マスキング・モデル（たとえば本稿で述べるような型の）によって知覚的に案内されず、プログラムの諸セグメントに対応するSNR値（ブレンド・インジケータ）のシーケンスによって案内されることを表わす。このクラスのある実施形態では、ハイブリッド符号化発話向上は、パラメトリック符号化向上と波形符号化向上との間の時間的な切り換え（ブレンド・インジケータ、たとえば図３のエンコーダのサブシステム２９において生成されたブレンド・インジケータに応答しての切り換え。ブレンド・インジケータは、パラメトリック符号化向上のみまたは波形符号化向上が対応するオーディオ・データに対して実行されるべきであることを示す）によって達成される。それにより、パラメトリック符号化向上または波形符号化向上のいずれか（だがパラメトリック符号化向上および波形符号化向上の両方ではない）が、発話向上が実行されるオーディオ・プログラムの各セグメントに対して実行される。波形符号化向上が低SNRの条件の下で（SNRの低い値をもつセグメントに対して）最もよく性能を発揮し、パラメトリック符号化向上は好都合なSNRにおいて（SNRの高い値をもつセグメントに対して）最もよく性能を発揮するとの認識から、切り換え決定は典型的には、発話（ダイアログ）の、もとのオーディオ混合における残りのオーディオに対する比に基づく。

「盲目的な」時間的なSNRに基づく切り換えを実装する実施形態は典型的には：未向上のオーディオ信号（もとのオーディオ混合）を連続する時間スライス（セグメント）にセグメント分割し、各セグメントについて、セグメントの発話コンテンツと他のオーディオ・コンテンツとの間の（あるいは発話コンテンツと全オーディオ・コンテンツとの間の）SNRを決定し；各セグメントについて、SNRを閾値と比較し、SNRが閾値より大きいときはそのセグメントについてパラメトリック符号化向上の制御パラメータを提供し（すなわち、そのセグメントについてのブレンド・インジケータは、パラメトリック符号化向上が実行されるべきであることを示す）、SNRが閾値より大きくないときはそのセグメントについて波形符号化向上の制御パラメータを提供する（すなわち、そのセグメントについてのブレンド・インジケータは、波形符号化向上が実行されるべきであることを示す）段階を含む。

未向上のオーディオ信号が、メタデータとして含まれる前記制御パラメータとともに受信器に送達（たとえば送信）されるとき、受信器は、（各セグメントに対して）そのセグメントについて制御パラメータによって示される型の発話向上を実行してもよい。こうして、受信器は、制御パラメータがパラメトリック符号化向上の制御パラメータである各セグメントに対してはパラメトリック符号化向上を、制御パラメータが波形符号化向上の制御パラメータである各セグメントに対しては波形符号化向上を実行する。

（波形符号化発話向上を実装するための）波形データおよびパラメトリック符号化向上パラメータの両方をもとの（未向上の）混合と一緒に（もとのオーディオ混合の各セグメントと一緒に）送信するコストを被るつもりがあるなら、波形符号化向上およびパラメトリック符号化向上の両方を混合の個々のセグメントに適用することによって、より高い度合いの発話向上が達成できる。こうして、あるクラスの実施形態では、本発明の方法は、オーディオ・プログラムの諸セグメントのパラメトリック符号化向上と波形符号化向上の間の「盲目的な」時間的なSNRに基づくブレンドを実装する。このコンテキストにおいても、「盲目的」とは、切り換えが、複雑な聴覚マスキング・モデル（たとえば本稿で述べるような型の）によって知覚的に案内されず、プログラムの諸セグメントに対応するSNR値のシーケンスによって案内されることを表わす。

「盲目的な」時間的なSNRに基づくブレンドを実装する実施形態は、典型的には：未向上のオーディオ信号（もとのオーディオ混合）を連続する時間スライス（セグメント）にセグメント分割し、各セグメントについて、そのセグメントの発話コンテンツと他のオーディオ・コンテンツとの間の（あるいは発話コンテンツと全オーディオ・コンテンツとの間の）SNRを決定し；発話向上の総量（T）を決定し（たとえば該総量に対する要求を受領し）；各セグメントについて、ブレンド制御パラメータを提供する段階を含む。ここで、ブレンド制御パラメータの値はそのセグメントについてのSNRによって決定される（SNRの関数である）。

たとえば、オーディオ・プログラムのセグメントについてのブレンド・インジケータは、そのセグメントについて図３のエンコーダのサブシステム２９において生成されたブレンド・インジケータ・パラメータ（またはパラメータ集合）であってもよい。

ブレンド制御インジケータは、T＝αPw＋(1−α)Ppとなるような各セグメントについてのパラメータαであってもよい。ここで、Pwは、そのセグメントについて与えられる波形データを使ってそのセグメントの未向上のオーディオ・コンテンツに適用された場合に所定の向上総量Tを生じるであろうそのセグメントについての波形符号化向上であり（ここで、そのセグメントの発話コンテンツは未向上の波形をもち、そのセグメントについての波形データはそのセグメントの発話コンテンツの低下品質バージョンを示し、低下品質バージョンは未向上の波形と類似の（たとえば少なくとも実質的に同様の）波形をもち、発話コンテンツの低下品質バージョンは単独でレンダリングおよち知覚されるときに不快な品質である）、Ppは、そのセグメントについて与えられるパラメトリック・データを使ってそのセグメントの未向上のオーディオ・コンテンツに適用された場合に所定の向上総量Tを生じるであろうパラメトリック符号化向上である（ここで、そのセグメントについてのパラメトリック・データは、そのセグメントの未向上のオーディオ・コンテンツとともに、そのセグメントの発話コンテンツのパラメトリックに再構成されたバージョンを決定する）。

いくつかの実施形態では、受信器は、（未向上のオーディオ信号の各セグメントに対して）（当該セグメントについてのパラメータαによってスケーリングされた）パラメトリック符号化向上Ppと、（当該セグメントについて値(1−α)によってスケーリングされた）波形符号化向上Pwとの組み合わせを実行して、スケーリングされたパラメトリック符号化向上およびスケーリングされた波形符号化向上の組み合わせが、式(1)（T＝αPw＋(1−α)Pp）におけるような所定の向上総量を生成するようにする。

あるセグメントについてのαとSNRとの間の関係の例は次のようなものである。αはSNRの非減少関数であり、αの範囲は0から1までであり、セグメントについてのSNRが閾値（SNR_poor）以下であるときはαは値0をもち、SNRがより大きな閾値（SNR_high）以上であるときはαは1の値をもつ。SNRが良好であるときは、αは高く、パラメトリック符号化向上の大きな割合につながる。SNRが貧弱であるときは、αは低く、波形符号化向上の大きな割合につながる。飽和点（SNR_poorおよびSNR_high）の位置は、波形符号化およびパラメトリック符号化向上アルゴリズムの両方の具体的な実装を受け入れるよう選択されるべきである。

別のクラスの実施形態では、オーディオ信号の各セグメントに対して実行される波形符号化されたおよびパラメトリック符号化された向上の組み合わせは、聴覚マスキング・モデルによって決定される。このクラスのいくつかの実施形態では、オーディオ・プログラムのあるセグメントに対して実行されるべき波形符号化およびパラメトリック符号化向上のブレンドについての最適なブレンド比は、符号化ノイズを可聴にならないぎりぎりに保つ波形符号化された向上の最高量を使う。

上記の盲目的なSNRに基づくブレンド実施形態では、あるセグメントについてのブレンド比は、SNRから導出され、SNRは、オーディオ混合が、波形符号化向上のために用いられる発話の低下品質バージョン（コピー）における符号化ノイズをマスキングする能力を示すと想定される。盲目的なSNRに基づくアプローチの利点は、実装の簡単さおよびエンコーダにおける低い計算負荷である。しかしながら、SNRは、符号化ノイズがどのくらいよく隠蔽されるかの予測子としては信頼できるものではなく、符号化ノイズが常にマスクされたままであることを保証するために、大きな安全マージンを適用する必要がある。つまり、少なくとも一部の時間には、ブレンドされる低下品質発話コピーのレベルが、可能なよりも低い、あるいは、マージンがより積極的に設定される場合には、符号化ノイズが一部の時間には可聴となる。聴覚マスキング・モデルを使って低下品質発話コピー中の符号化ノイズがどのくらいメイン・プログラムのオーディオ混合によってマスクされるかをより正確に予測し、それに応じてブレンド比を選択することにより、本発明のハイブリッド符号化方式における波形符号化された向上の寄与は、符号化ノイズが可聴にならないことを保証しつつ、上昇させることができる。

聴覚マスキング・モデルを用いる典型的な実施形態は：未向上のオーディオ信号（もとのオーディオ混合）を連続する時間スライス（セグメント）にセグメント分割し、各セグメントについて、（波形符号化向上において使うための）各セグメントにおける発話の低下品質コピーおよび（パラメトリック符号化向上において使うための）パラメトリック符号化された向上パラメータを提供し；各セグメントについて、聴覚マスキング・モデルを使って、アーチファクトが可聴にならずに適用できる波形符号化向上の最大量を決定し；（そのセグメントについて聴覚マスキング・モデルを使って決定された波形符号化向上の最大量を超えず、かつ、好ましくは、そのセグメントについて聴覚マスキング・モデルを使って決定された波形符号化向上の最大量に少なくとも実質的に一致する量の）波形符号化向上とパラメトリック符号化向上との組み合わせの（未向上のオーディオ信号の各セグメントについての）インジケータを生成する段階を含む。波形符号化向上とパラメトリック符号化向上との前記組み合わせは、そのセグメントについての所定の発話向上総量を生成するようにする。

いくつかの実施形態では、そのような各インジケータは、未向上のオーディオ信号を示すエンコードされたオーディオ・データをも含むビットストリームに（たとえばエンコーダによって）含められる。たとえば、図３のエンコーダ２０のサブシステム２９が、そのようなブレンド・インジケータを生成するよう構成されていてもよく、エンコーダ２０のサブシステム２８が、エンコーダ２０から出力されるビットストリームにブレンド・インジケータを含めるよう構成されていてもよい。もう一つの例では、ブレンド・インジケータは、（たとえば図７のエンコーダのサブシステム１３において）図７のエンコーダのサブシステム１４によって生成されたg_max(t)パラメータから生成されてもよく、図７のエンコーダのサブシステム１３は、図７のエンコーダから出力されるビットストリームにブレンド・インジケータを含めるよう構成されていてもよい。（あるいは、サブシステム１３は、図７のエンコーダから出力されるビットストリームに、サブシステム１４によって生成されたg_max(t)パラメータを含め、ビットストリームを受領してパースする受領側がg_max(t)パラメータに応答してブレンド・インジケータを生成するよう構成されていてもよい。）
任意的に、本方法は、（未向上のオーディオ信号の各セグメントに対して、）各セグメントについてのブレンド・インジケータに応答して、波形符号化向上およびパラメトリック符号化向上の組み合わせが当該セグメントについて所定の発話向上総量を生じるようブレンド・インジケータによって決定された、波形符号化向上およびパラメトリック符号化向上の組み合わせを実行する段階をも含む。

聴覚マスキング・モデルを用いる本発明の方法の実施形態の例は、図７を参照して記述される。この例では、発話および背景オーディオの混合A(t)（未向上のオーディオ混合）が（図７の要素１０において）決定され、（図７の要素１１によって実装される）聴覚マスキング・モデルに渡される。聴覚マスキング・モデルは、未向上のオーディオ混合の各セグメントについてマスキング閾値Θ(f,t)を予測する。未向上のオーディオ混合A(t)は、伝送のためにエンコードするためにエンコード要素１３にも与えられる。

モデルによって生成されるマスキング閾値は、周波数および時間の関数として、可聴であるためにどんな信号でも超えなければならない聴覚励起を示す。そのようなマスキング・モデルは当技術分野ではよく知られている。未向上のオーディオ混合A(t)の各セグメントの発話成分s(t)は、（低ビットレート・オーディオ符号化器１５において）エンコードされて、そのセグメントの発話コンテンツの低下品質コピーs'(t)を生成する。（もとの発話s(t)より少数のビットを含む）低下品質コピーs'(t)は、もとの発話s(t)と符号化ノイズn(t)の和として概念化できる。該符号化ノイズは、低下品質コピーから時間整列された発話信号s(t)を（要素１６において）減算することを通じて、解析のために低下品質コピーから分離されることができる。あるいはまた、符号化ノイズは、前記オーディオ符号化器から直接利用可能であってもよい。

符号化ノイズnは、要素１７において、スケール因子g(t)を乗算され、スケーリングされた符号化ノイズは（要素１８によって実装される）聴覚モデルに渡される。この聴覚モデルは、スケーリングされた符号化ノイズによって生成される聴覚励起N(f,t)を予測する。そのような励起モデルは当技術分野において既知である。最終段階において、聴覚励起N(f,t)は予測されたマスキング閾値Θ(f,t)と比較され、符号化ノイズがマスキングされることを保証する最大のスケール因子g_max(t)、すなわちN(f,t)＜Θ(f,t)であることを保証するg(t)の最大値が（要素１４において）見出される。聴覚モデルが非線形である場合、これは、要素１７において符号化ノイズn(t)に適用されるg(t)の値を逐次反復することによって、（図２に示されるように）逐次反復的に行なう必要があることがある。聴覚モデルが線形であれば、これは、単純なフィードフォワード段階において行なってもよい。結果として得られるスケール因子g_max(t)は、スケーリングされた低下品質発話コピーにおける符号化アーチファクトが、スケーリングされた低下品質発話コピーg_max(t)*s'(t)と未向上のオーディオ混合A(t)の混合において可聴になることなく、未向上のオーディオ混合A(t)の対応するセグメントに加えられる前に低下品質発話コピーs'(t)に適用されることができる最大のスケール因子である。

図７のシステムは、未向上のオーディオ混合の各セグメントに対してパラメトリック符号化発話向上を実行するためのパラメトリック符号化向上パラメータp(t)を（未向上のオーディオ混合A(t)および発話s(t)に応答して）生成するよう構成されている要素１２をも含む。

オーディオ・プログラムの各セグメントについて、パラメトリック符号化された発話向上パラメータp(t)のほかに符号化器１５において生成される低下品質発話コピーs'(t)と、要素１４において生成される因子g_max(t)も、エンコード要素１３に呈される。要素１３は、オーディオ・プログラムの各セグメントについて未向上のオーディオ混合A(t)、パラメトリック符号化向上パラメータp(t)、低下品質発話コピーs'(t)および因子g_max(t)を示すエンコードされたオーディオ・ビットストリームを生成し、このエンコードされたオーディオ・ビットストリームが受信器に、送信され、あるいは他の仕方で送達されうる。

この例では、発話向上は、未向上のオーディオ混合の各セグメントに対して（要素１３のエンコードされた出力が送達された受信器において）次のように実行されて、セグメントについてのスケール因子g_max(t)を使ってあらかじめ決定された（たとえば要求された）向上総量Tを適用する。エンコードされたオーディオ・プログラムがデコードされて、オーディオ・プログラムの各セグメントについて、未向上のオーディオ混合A(t)、パラメトリック符号化された向上パラメータp(t)、低下品質発話コピーs'(t)および因子g_max(t)を抽出する。各セグメントについて、波形符号化された向上Pwは、そのセグメントについての低下品質発話コピーs'(t)を使ってそのセグメントの未向上のオーディオ・コンテンツに適用されたとした場合に前記あらかじめ決定された向上総量Tを生じるであろう波形符号化された向上であるように決定され、パラメトリック符号化された向上Ppは、そのセグメントについて与えられるパラメトリック・データを使ってそのセグメントの未向上のオーディオ・コンテンツに適用されたとした場合に前記あらかじめ決定された向上総量Tを生じるであろうパラメトリック符号化された向上であるように決定される（ここで、そのセグメントについてのパラメトリック・データは、そのセグメントの未向上のオーディオ・コンテンツとともに、そのセグメントの発話コンテンツのパラメトリックに再構成されたバージョンを決定する）。各セグメントについて、パラメトリック符号化された向上（そのセグメントについてのパラメータα₂によってスケーリングされた量の）および波形符号化された向上（そのセグメントについての値α₁によってスケーリングされた量の）の組み合わせが実行され、パラメトリック符号化向上および波形符号化向上の該組み合わせが、モデルによって許される波形符号化向上の最大量T＝（α₁(Pw)＋α₂(Pp)）を使って前記あらかじめ決定された向上総量を生成する。ここで、因子α₁はそのセグメントについてg_max(t)を超えず、かつ指示された等式（T＝α₁(Pw)＋α₂(Pp)）の達成を許容する最大値であり、因子α₂は指示された等式（T＝α₁(Pw)＋α₂(Pp)）の達成を許容する最小の非負の値である。

ある代替的な実施形態では、パラメトリック符号化向上のアーチファクトが（聴覚マスキング・モデルによって実行される）評価に含められ、それにより、（波形符号化向上に起因する）符号化アーチファクトが、パラメトリック符号化向上のアーチファクトより好都合であるときには、可聴となることが許容される。

時に聴覚モデルに案内された複数帯域分割（multi-band splitting）の実施形態と称される、図７の実施形態の変形（および聴覚マスキング・モデルを用いる図７の実施形態と同様の実施形態）では、低下品質発話コピーにおける波形符号化向上の符号化ノイズN(f,t)とマスキング閾値Θ(f,t)との間の関係がすべての周波数帯域を通じて一様ではないことがある。たとえば、波形符号化向上の符号化ノイズのスペクトル特性が、第一の周波数領域ではマスキング・ノイズがマスキング閾値を超えそうである一方、第二の周波数領域ではマスクされる閾値のはるか下方であるようなものであることがありうる。図７の実施形態では、波形符号化向上の最大寄与は第一の周波数領域における符号化ノイズによって決定され、低下品質発話コピーに適用できる最大スケーリング因子gは第一の周波数領域における符号化ノイズおよびマスキング属性によって決定される。それは、最大スケーリング因子の決定が第二の周波数領域のみに基づいていたとした場合に適用されることができる最大スケーリング因子gより小さい。時間的ブレンドの原理が二つの周波数領域において別個に適用されたとしたら、全体的な性能が改善できる。

聴覚モデルに案内された複数帯域分割のある実装では、未向上のオーディオ信号はM個の連続的な重ならない周波数帯域に分割され、時間的ブレンド（すなわち、本発明のある実施形態に基づく波形符号化およびパラメトリック符号化向上のブレンドをもつハイブリッドの発話向上）の原理がM個の帯域のそれぞれにおいて独立して適用される。代替的な実装は、スペクトルをカットオフ周波数fcより下の低帯域とカットオフ周波数fcより上の高帯域に分割する。低帯域は常に波形符号化向上を用いて向上され、高帯域は常にパラメトリック符号化された向上を用いて向上される。カットオフ周波数は時間とともに変えられ、常に、あらかじめ決定された発話向上総量Tでの波形符号化向上の符号化ノイズがマスキング閾値未満であるという制約条件のもとで可能な限り高いよう選択される。換言すれば、任意の時点における最大カットオフ周波数は
max(fc|T*N(f＜fc,t)＜Θ(f,t)) (8)
となる。

上記の実施形態は、波形符号化向上の符号化アーチファクトが可聴になるのを防ぐために利用可能な手段が、（波形符号化対パラメトリック符号化向上の）ブレンド比を調整することまたは向上総量をスケール・バックすることであることを想定していた。代替は、低下品質発話コピーを生成するためのビットレートの可変割り当てを通じて波形符号化向上符号化ノイズの量を制御することである。この代替的な実施形態のある例では、一定の基本量のパラメトリック符号化された向上が適用され、所望される（あらかじめ決定された）向上総量に達するために追加的な波形符号化向上が適用される。低下品質発話コピーは可変ビットレートで符号化され、このビットレートは、波形符号化向上符号化ノイズをパラメトリック符号化向上されたメイン・オーディオのマスクされる閾値未満に保つ最低ビットレートとして選択される。

いくつかの実施形態では、本発明に基づいて発話コンテンツが向上されるオーディオ・プログラムは、スピーカー・チャネルを含むが、オブジェクト・チャネルは含まない。他の実施形態では、本発明に基づいて発話コンテンツが向上されるオーディオ・プログラムは、少なくとも一つのオブジェクト・チャネルおよび任意的にはまた少なくとも一つのスピーカー・チャネルを含む、オブジェクト・ベースのオーディオ・プログラム（典型的にはマルチチャネルのオブジェクト・ベースのオーディオ・プログラム）である。

本発明の他の側面は、本発明のエンコード方法の任意の実施形態を実行して、オーディオ入力信号に応答して（たとえば、マルチチャネルのオーディオ入力信号を示すオーディオ・データに応答して）、エンコードされたオーディオ信号を生成するよう構成されたエンコーダ、そのようなエンコードされた信号をデコードしてデコードされたオーディオ・コンテンツに対して発話向上を実行するよう構成されたデコーダおよびそのようなエンコーダおよびそのようなデコーダを含むシステムを含む。図３のシステムは、そのようなシステムの例である。

図３のシステムは、オーディオ・プログラムを示すオーディオ・データに応答して、エンコードされたオーディオ信号を生成する本発明のエンコード方法のある実施形態を実行するよう構成された（たとえばプログラムされた）エンコーダ２０を含む。典型的には、プログラムはマルチチャネル・オーディオ・プログラムである。いくつかの実施形態では、マルチチャネル・オーディオ・プログラムはスピーカー・チャネルのみを含む。他の実施形態では、マルチチャネル・オーディオ・プログラムは、少なくとも一つのオブジェクト・チャネルおよび任意的にはまた少なくとも一つのスピーカー・チャネルを含むオブジェクト・ベースのオーディオ・プログラムである。

オーディオ・データは、混合されたオーディオ・コンテンツ（発話および非発話コンテンツの混合）を示すデータ（図３では「混合オーディオ」データとして同定されている）と、該混合されたオーディオ・コンテンツの発話コンテンツを示すデータ（図３では「発話」データとして同定されている）とを含む。

発話データは、段２１において時間領域から周波数（QMF）領域への変換を受け、結果として得られるQMF成分が向上パラメータ生成要素２３に呈される。混合されたオーディオ・データは段２２において時間領域から周波数（QMF）領域への変換を受け、結果として得られるQMF成分が要素２３およびエンコード・サブシステム２７に呈される。

発話データは、サブシステム２５にも呈される。サブシステム２５は、混合されたオーディオ・データによって決定される混合された（発話および非発話）コンテンツの波形符号化発話向上において使うために、発話データの低品質コピーを示す波形データ（本稿では時に「低下品質」または「低品質」の発話コピーと称される）を生成するよう構成されている。低品質発話コピーは、もとの発話データより少数のビットを含み、単独でレンダリングされ知覚されたときには不快な品質であり、レンダリングされるとき、もとの発話データによって示される発話の波形と似た（たとえば少なくとも実質的に同様の）波形をもつ発話を示す。サブシステム２５を実装する諸方法は当技術分野において知られている。例は、AMRおよびG729.1のような符号励振線形予測（CELP）発話符号化器または典型的には低ビットレート（たとえば20kbps）で運用されるMPEG統合音声音響符号化（USAC）のような現代的な混合された符号化器である。あるいはまた、周波数領域符号化器が使われてもよい。例としては、Siren（G722.1）、MPEG2レイヤーII/III、MPEG AACが含まれる。

本発明の典型的な実施形態に基づいて（たとえばデコーダ４０のサブシステム４３において）実行されるハイブリッド発話向上は、波形データを生成するために（たとえばエンコーダ２０のサブシステム２５において）実行されたエンコードの逆を（波形データに対して）実行して、向上されるべき混合されたオーディオ信号の発話コンテンツの低品質コピーを復元する段階を含む。発話の復元された低品質コピーは、次いで、発話向上の残りの段階を実行するために（パラメトリック・データおよび混合されたオーディオ信号を示すデータとともに）使われる。

要素２３は、段２１および２２から出力されるデータに応答してパラメトリック・データを生成するよう構成されている。パラメトリック・データは、もとの混合されたオーディオ・データとともに、パラメトリックに構築された発話を決定する。これは、もとの発話データ（すなわち、混合されたオーディオ・データの発話コンテンツ）によって示される発話のパラメトリックに再構成されたバージョンである。発話のパラメトリックに再構成されたバージョンは、少なくとも実質的に、もとの発話データによって示される発話にマッチする（たとえば、その良好な近似である）。パラメトリック・データは、混合されたオーディオ・データによって決定される未向上の混合されたコンテンツの各セグメントに対して、パラメトリック符号化発話向上を実行するためのパラメトリック符号化向上パラメータp(t)の組を決定する。

ブレンド・インジケータ生成要素２９は、段２１および２２から出力されるデータに応答して、ブレンド・インジケータ（「BI」）を生成するよう構成される。エンコーダ２０から出力されたビットストリームによって示されるオーディオ・プログラムは（たとえばデコーダ４０において）ハイブリッド発話向上を受けて、発話向上されたオーディオ・プログラムを決定することが考えられている。これは、もとのプログラムの未向上のオーディオ・データを、（波形データから決定される）低品質発話データおよびパラメトリック・データの組み合わせと組み合わせることによることを含む。ブレンド・インジケータはそのような組み合わせを決定する（たとえば、前記組み合わせは、前記ブレンド・インジケータの現在値のシーケンスによって決定される状態のシーケンスをもつ）。それにより、発話向上されたオーディオ・プログラムは、前記低品質発話データを前記未向上のオーディオ・データと組み合わせるだけによって決定される純粋に波形符号化発話向上されたオーディオ・プログラムよりも、前記パラメトリックに構築された発話を前記未向上のオーディオ・データと組み合わせるだけによって決定される純粋にパラメトリック符号化発話向上されたオーディオ・プログラムよりも、少ない可聴発話向上符号化アーチファクト（たとえば、よりよくマスクされた発話向上符号化アーチファクト）をもつ。

図３の実施形態の変形では、本発明のハイブリッド発話向上のために用いられるブレンド・インジケータは、本発明のエンコーダにおいて生成されず（そしてエンコーダから出力されるビットストリームには含められず）、その代わり、エンコーダから出力されるビットストリーム（このビットストリームは、波形データおよびパラメトリック・データを含む）に応答して（たとえば受信器４０の変形において）生成される。

「ブレンド・インジケータ」という表現は、ビットストリームの各セグメントについての単一のパラメータまたは値（または単一のパラメータまたは値のシーケンス）を表わすことは意図されていないことを理解しておくべきである。むしろ、いくつかの実施形態では、（ビットストリームのあるセグメントについての）ブレンド・インジケータは、二つ以上のパラメータまたは値の組（たとえば、各セグメントについて、パラメトリック符号化向上の制御パラメータおよび波形符号化向上の制御パラメータ）でありうることが考えられている。

エンコード・サブシステム２７は、混合されたオーディオ・データのオーディオ・コンテンツを示すエンコードされたオーディオ・データ（典型的には混合されたオーディオ・データの圧縮されたバージョン）を生成する。エンコード・サブシステム２７は典型的には、段２２において実行される変換の逆および他のエンコード動作を実装する。

フォーマット段２８は、要素２３から出力されるパラメトリック・データ、要素２５から出力される波形データ、要素２９において生成されるブレンド・インジケータおよびサブシステム２７から出力されるエンコードされたオーディオ・データを集めて、オーディオ・プログラムを示すエンコードされたビットストリームにする。ビットストリーム（いくつかの実装ではE-AC-3またはAC-3フォーマットを有していてもよい）は、エンコードされていないパラメトリック・データ、波形データおよびブレンド・インジケータを含む。

エンコーダ２０から出力されるエンコードされたオーディオ・ビットストリーム（エンコードされたオーディオ信号）は、送達サブシステム３０に提供される。送達サブシステム３０は、エンコーダ２０によって生成されるエンコードされたオーディオ信号を記憶する（たとえば、該エンコードされたオーディオ信号を示すデータを記憶する）および／または該エンコードされたオーディオ信号を伝送するよう構成されている。

デコーダ４０は、サブシステム３０からのエンコードされたオーディオ信号を受領し（たとえば、サブシステム３０内の記憶からエンコードされたオーディオ信号を示すデータを読むまたは取り出すことまたはサブシステム３０によって送信されたエンコードされたオーディオ信号を受信することによって）、該エンコードされたオーディオ信号の混合された（発話および非発話）オーディオ・コンテンツをデコードし、デコードされた混合されたオーディオ・コンテンツに対してハイブリッド発話向上を実行するよう結合および構成（たとえばプログラム）されている。デコーダ４０は、典型的には、エンコーダ２０に入力された混合されたオーディオ・コンテンツの発話向上されたバージョンを示す発話向上されたデコードされたオーディオ信号を生成し、（たとえば図３には示さないレンダリング・システムに）出力するよう構成されている。あるいはまた、デコーダ４０は、サブシステム４３の出力を受領するよう結合されているそのようなレンダリング・システムを含む。

デコーダ４０のバッファ４４（バッファ・メモリ）は、デコーダ４０によって受領されたエンコードされたオーディオ信号（ビットストリーム）の少なくとも一つのセグメント（たとえばフレーム）を（たとえば非一時的な仕方で）記憶する。典型的な動作では、エンコードされたオーディオ・ビットストリームのセグメントのシーケンスが、バッファ４４に与えられ、バッファ４４から脱フォーマット段４１に呈される。

デコーダ４０の脱フォーマット（パース）段４１は、送達サブシステム３０からのエンコードされたビットストリームをパースし、そこから（エンコーダ２０の要素２３によって生成された）パラメトリック・データ、（エンコーダ２０の要素２５によって生成された）波形データ、（エンコーダ２０の要素２９によって生成された）ブレンド・インジケータおよび（エンコーダ２０のエンコード・サブシステム２７において生成された）エンコードされた混合された（発話および非発話）オーディオ・データを抽出するよう構成されている。

エンコードされた混合されたオーディオ・データは、デコーダ４０のデコード・サブシステム４２においてデコードされ、結果として得られるデコードされた混合された（発話および非発話）オーディオ・データがハイブリッド発話向上サブシステム４３に呈される（そして、任意的には発話向上を受けることなくデコーダ４０から出力される）。

ビットストリームから段４１によって抽出された（またはビットストリームに含まれたメタデータに応答して段４１において生成された）（ブレンド・インジケータを含む）制御データに応答して、かつ、段４１によって抽出されたパラメトリック・データおよび波形データに応答して、発話向上サブシステム４３は、本発明のある実施形態に基づいてデコード・サブシステム４２からデコードされた混合された（発話および非発話）オーディオ・データに対してハイブリッド発話向上を実行する。サブシステム４３から出力される発話向上されたオーディオ信号は、エンコーダ２０に入力された混合されたオーディオ・コンテンツの発話向上されたバージョンを示す。

図３のエンコーダ２０のさまざまな実装において、サブシステム２３は、デコードされた混合されたオーディオ信号の発話成分の再構成のために（たとえばデコーダ４０において）使うための、混合されたオーディオ入力信号の各チャネルの各タイルについて、予測パラメータp_iの記述される例の任意のものを生成してもよい。

デコードされた混合されたオーディオ信号の発話内容を示す発話信号（たとえば、エンコーダ２０のサブシステム２５によって生成された発話の低品質コピーまたはエンコーダ２０のサブシステム２３によって生成された予測パラメータp_iを使って生成された発話コンテンツの再構成）を用いて、（たとえば図３のデコーダ４０の４３のサブシステムにおいて）該発話信号をデコードされた混合されたオーディオ信号と混合することによって、発話向上が実行されることができる。加えられる（混合して入れられる）べき発話に利得を適用することによって、発話向上の量を制御することが可能である。6dBの向上のために、0dBの利得をもって発話が加えられてもよい（発話向上された混合における発話が、伝送されたまたは再構成された発話信号と同じレベルをもつとして）。発話向上された（speech-enhanced）信号は：
M_e＝M＋g・D_r (9)
である。

いくつかの実施形態では、発話向上利得Gを達成するために、次の混合利得
g＝10^G/20−1 (10)
が適用される。

チャネル独立な発話再構成の場合、発話向上された混合M_eは
M_e＝M・(1＋diag(P)・g) (11)
として得られる。

上記の例において、混合されたオーディオ信号の各チャネルにおける発話寄与は、同じエネルギーをもって再構成される。発話がサイド信号として（たとえば混合されたオーディオ信号の低品質コピーとして）送信されたとき、または発話が複数のチャネルを使って（MMSE予測器を用いるなどして）再構成されるとき、発話向上混合は、向上されるべき混合されたオーディオ信号にすでに存在している発話成分と同じ、種々のチャネルにわたる分布をもって発話を混合するために、発話レンダリング情報を必要とする。

このレンダリング情報は、各チャネルについてのレンダリング・パラメータr_iによって与えられてもよい。これは、三つのチャネルがあるとき、

の形をもつレンダリング・ベクトルRとして表現できる。発話向上混合は：
M_e＝M＋R・g・D_r (13)
となる。

複数のチャネルがあり、（混合されたオーディオ信号の各チャネルと混合されるべき）発話が予測パラメータp_iを使って再構成される場合、先の式は
M_e＝M＋R・g・P・M＝(I＋R・g・P)・M (14)
と書き換えられる。ここで、Iは恒等行列である。

〈５．発話レンダリング〉
図４は、
M_e＝M＋R・g・D_r (15)
の形の通常の発話向上混合を実装する発話レンダリング・システムのブロック図である。

図４では、向上されるべき三チャネルの混合されたオーディオ信号は、周波数領域にある（または周波数領域に変換される）。左チャネルの周波数成分は混合要素５２の入力に呈され、中央チャネルの周波数成分は混合要素５３の入力に呈され、右チャネルの周波数成分は混合要素５４の入力に呈される。

（混合されたオーディオ信号を向上させるために）混合されたオーディオ信号と混合されるべき発話信号は、サイド信号として（たとえば、混合されたオーディオ信号の発話コンテンツの低品質コピーとして）伝送されたものでもよく、あるいは、混合されたオーディオ信号と一緒に伝送される予測パラメータp_iから再構成されたものでもよい。発話信号は、周波数領域データによって示され（たとえば、時間領域信号を周波数領域に変換することによって生成された周波数成分を含む）、これらの周波数成分は混合要素５１の入力に呈され、そこで、利得パラメータgを乗算される。

要素５１の出力は、レンダリング・サブシステム５０に呈される。レンダリング・サブシステム５０には、CLD（channel level difference［チャネル・レベル差］）パラメータCLD₁およびCLD₂も呈される。これらは混合されたオーディオ信号と一緒に伝送されている。（混合されたオーディオ信号の各セグメントについての）CLDパラメータは、発話信号が混合されたオーディオ信号コンテンツの前記セグメントの諸チャネルにどのように混合されるかを記述する。CLD₁は、（たとえば、左および中央のチャネルの間の発話のパンを定義する）一対のスピーカー・チャネルについてのパン係数を示し、CLD₂は、（たとえば、中央および右のチャネルの間の発話のパンを定義する）スピーカー・チャネルの別の対についてのパン係数を示す。このように、レンダリング・サブシステム５０は（要素５２に）、左チャネルのためのR・g・D_r（発話コンテンツを左チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの）を示すデータを呈し、このデータは、要素５２において、混合されたオーディオ信号の左チャネルと合計される。レンダリング・サブシステム５０は（要素５３に）、中央チャネルのためのR・g・D_r（発話コンテンツを中央チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの）を示すデータを呈し、このデータは、要素５３において、混合されたオーディオ信号の中央チャネルと合計される。レンダリング・サブシステム５０は（要素５４に）、右チャネルのためのR・g・D_r（発話コンテンツを右チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの）を示すデータを呈し、このデータは、要素５４において、混合されたオーディオ信号の右チャネルと合計される。

要素５２、５３および５４の出力はそれぞれ、左スピーカーL、中央スピーカーCおよび右スピーカー「Right」を駆動するために用いられる。

図５は、
M_e＝M＋R・g・P・M＝(I＋R・g・P)・M (16)
の形の通常の発話向上混合を実装する発話レンダリング・システムのブロック図である。

図５では、向上されるべき三チャネルの混合されたオーディオ信号は、周波数領域にある（または周波数領域に変換される）。左チャネルの周波数成分は混合要素５２の入力に呈され、中央チャネルの周波数成分は混合要素５３の入力に呈され、右チャネルの周波数成分は混合要素５４の入力に呈される。

混合されたオーディオ信号と混合されるべき発話信号は、混合されたオーディオ信号と一緒に伝送された予測パラメータp_iから（示されるように）再構成される。予測パラメータp₁は、混合されたオーディオ信号の第一（左）チャネルから発話を再構成するために用いられ、予測パラメータp₂は、混合されたオーディオ信号の第二（中央）チャネルから発話を再構成するために用いられ、予測パラメータp₃は、混合されたオーディオ信号の第三（右）チャネルから発話を再構成するために用いられる。発話信号は、周波数領域データによって示され、これらの周波数成分は混合要素５１の入力に呈され、そこで利得パラメータgを乗算される。

要素５１の出力は、レンダリング・サブシステム５５に呈される。レンダリング・サブシステムには、CLD（channel level difference［チャネル・レベル差］）パラメータCLD₁およびCLD₂も呈される。これらは混合されたオーディオ信号と一緒に伝送されている。（混合されたオーディオ信号の各セグメントについての）CLDパラメータは、発話信号が混合されたオーディオ信号コンテンツの前記セグメントの諸チャネルにどのように混合されるかを記述する。CLD₁は、（たとえば、左および中央のチャネルの間の発話のパンを定義する）一対のスピーカー・チャネルについてのパン係数を示し、CLD₂は、（たとえば、中央および右のチャネルの間の発話のパンを定義する）スピーカー・チャネルの別の対についてのパン係数を示す。このように、レンダリング・サブシステム５５は（要素５２に）、左チャネルのためのR・g・P・M（再構成された発話コンテンツを混合オーディオ・コンテンツの左チャネルと混合し、左チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールし、混合オーディオ・コンテンツの左チャネルと混合したもの）を示すデータを呈し、このデータは、要素５２において、混合されたオーディオ信号の左チャネルと合計される。レンダリング・サブシステム５５は（要素５３に）、中央チャネルのためのR・g・P・M（再構成された発話コンテンツを混合オーディオ・コンテンツの中央チャネルと混合し、中央チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの）を示すデータを呈し、このデータは、要素５３において、混合されたオーディオ信号の中央チャネルと合計される。レンダリング・サブシステム５５は（要素５４に）、右チャネルのためのR・g・P・M（再構成された発話コンテンツを混合オーディオ・コンテンツの右チャネルと混合し、右チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの）を示すデータを呈し、このデータは、要素５４において、混合されたオーディオ信号の右チャネルと合計される。

CLD（チャネル・レベル差）パラメータは、従来、スピーカー・チャネル信号と一緒に伝送される（たとえば、種々のチャネルがレンダリングされるべきレベルの間の比を決定するために）。これらは、本発明のいくつかの実施形態では新規な仕方で（たとえば、発話を、発話向上されたオーディオ・プログラムのスピーカー・チャネルの間でパンするために）使われる。

典型的な実施形態では、レンダリング・パラメータr_iは、発話のアップミックス係数である（またはそれを示す）。これは、発話信号が、向上されるべき、混合されたオーディオ信号の諸チャネルにどのように混合されるかを記述する。これらの係数は、チャネル・レベル差パラメータ（CLD）を使って、効率的に発話向上器に伝送されうる。一つのCLDは二つのスピーカーについてのパン係数を示す。たとえば、

ここで、β₁は第一のスピーカーのためのスピーカー・フィードについての利得を示し、β₂はパンの間のある時点における第二のスピーカーのためのスピーカー・フィードについての利得を示す。CLD＝0では、パンは完全に第一のスピーカー上にある。一方、CLDが無限大に近づくと、パンは完全に第二のスピーカーのほうになる。dB領域で定義されたCLDでは、パンを記述するために、限られた数の量子化レベルが十分でありうる。

二つのCLDでは、三つのスピーカーにわたるパンが定義されることができる。CLDはレンダリング係数から次のように導出されることができる。

ここで、

は

となるような規格化されたレンダリング係数である。

その際、レンダリング係数は、CDLから次式によって再構成されることができる。

本稿の他所で述べたように、波形符号化発話向上は、向上されるべき混合コンテンツ信号の発話コンテンツの低品質コピーを使う。低品質コピーは典型的には、低ビットレートで符号化され、混合コンテンツ信号と一緒にサイド信号として伝送される。よって、低品質コピーは典型的には有意な符号化アーチファクトを含む。このように、波形符号化発話向上は、低いSNR（すなわち、発話と、混合コンテンツ信号によって示される他のすべての音との間の低い比）の状況において良好な発話向上性能を提供し、典型的には、高いSNRの状況では貧弱な性能を提供する（すなわち、望ましくない可聴な符号化アーチファクトを生じる）。

逆に、（向上されるべき混合コンテンツ信号の）発話コンテンツが単独で取り出される（たとえば、マルチチャネルの混合コンテンツ信号の中央チャネルの唯一のコンテンツとして提供される）あるいは混合コンテンツ信号が他の事情で高いSNRをもつときは、パラメトリック符号化発話向上が良好な発話向上性能を提供する。

したがって、波形符号化発話向上およびパラメトリック符号化発話向上は相補的な性能をもつ。発話コンテンツが向上されるべき信号の属性に基づいて、本発明のあるクラスの実施形態は、それらの性能をてこ入れするために、二つの方法をブレンドする。

図６は、ハイブリッド発話向上を実行するよう構成されたこのクラスの実施形態の発話レンダリング・システムのブロック図である。ある実装では、図３のデコーダ４０のサブシステム４３が図６のシステムを具現する（図６に示される三つのスピーカーを除いて）。ハイブリッド発話向上（混合）は、
M_e＝R・g₁・D_r＋(I＋R・g₂・P)・M (23)
によって記述されうる。ここで、R・g₁・D_rは従来の図４のシステムによって実装される型の波形符号化発話向上であり、R・g₂・P・Mは従来の図５のシステムによって実装される型のパラメトリック符号化発話向上であり、パラメータg₁およびg₂が全体的な向上利得および二つの発話向上方法の間のトレードオフを制御する。パラメータg₁およびg₂の定義の例は、
g₁＝α_c・(10^G/20−1) (24)
g₂＝(1−α_c)・(10^G/20−1) (25)
である。パラメータα_cはパラメトリック符号化発話向上およびパラメトリック符号化発話向上方法の間のトレードオフを定義する。α_c＝1の値では、発話の低品質コピーのみが波形符号化発話向上のために使われる。パラメトリック符号化発話向上モードはα_c＝0のときにフルに向上に寄与する。0と1の間のα_cの値は二つの方法をブレンドする。いくつかの実装では、α_cは広帯域パラメータである（オーディオ・データのすべての周波数帯域に適用される）。同じ原理は、個々の周波数帯域内に適用されることができる。それにより、ブレンドは、各周波数帯域についてのパラメータα_cの異なる値を使って、周波数依存の仕方で最適化される。

図６では、向上されるべき三チャネルの混合されたオーディオ信号は、周波数領域にある（または周波数領域に変換される）。左チャネルの周波数成分は混合要素６５の入力に呈され、中央チャネルの周波数成分は混合要素６６の入力に呈され、右チャネルの周波数成分は混合要素６７の入力に呈される。

（混合されたオーディオ信号を向上させるために）混合されたオーディオ信号と混合されるべき発話信号は、（波形符号化発話向上に従って）混合されたオーディオ信号と一緒に（たとえばサイド信号として）伝送された波形データから生成された混合されたオーディオ信号の発話コンテンツの低品質コピー（図６において「発話」として同定されている）と、混合されたオーディオ信号および（パラメトリック符号化発話向上に従って）混合されたオーディオ信号と一緒に伝送された予測パラメータp_iから再構成される（図６のパラメトリック符号化された発話再構成要素６８から出力される）再構成された発話信号とを含む。発話信号は、周波数領域データによって示される（たとえば、時間領域信号を周波数領域に変換することによって生成された周波数成分を含む）。低品質発話コピーの周波数成分は混合要素６１の入力に呈され、そこで利得パラメータg₂を乗算される。パラメトリックに再構成された発話信号の周波数成分は、要素６８の出力から混合要素６２の入力に呈され、そこで利得パラメータg₁を乗算される。代替的な実施形態では、発話向上を実装するために実行される混合は、図６の実施形態のように周波数領域ではなく、時間領域で実行されてもよい。

要素６１および６２の出力は、加算要素６３によって加算されて、混合されたオーディオ信号と混合されるべき発話信号を生成する。この発話信号が要素６３の出力からレンダリング・サブシステム６４に呈される。レンダリング・サブシステム６４には、CLD（channel level difference［チャネル・レベル差］）パラメータCLD₁およびCLD₂も呈される。これらは混合されたオーディオ信号と一緒に伝送されている。（混合されたオーディオ信号の各セグメントについての）CLDパラメータは、発話信号が混合されたオーディオ信号コンテンツの前記セグメントの諸チャネルにどのように混合されるかを記述する。CLD₁は、（たとえば、左および中央のチャネルの間の発話のパンを定義する）一対のスピーカー・チャネルについてのパン係数を示し、CLD₂は、（たとえば、中央および右のチャネルの間の発話のパンを定義する）スピーカー・チャネルの別の対についてのパン係数を示す。このように、レンダリング・サブシステム６４は（要素５２に）、左チャネルのためのR・g₁・D_r＋(R・g₂・P)・M（再構成された発話コンテンツを混合オーディオ・コンテンツの左チャネルと混合し、左チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールし、混合オーディオ・コンテンツの左チャネルと混合したもの）を示すデータを呈し、このデータは、要素５２において、混合されたオーディオ信号の左チャネルと合計される。レンダリング・サブシステム６４は（要素５３に）、中央チャネルのためのR・g₁・Dr＋(R・g₂・P)・M（再構成された発話コンテンツを混合オーディオ・コンテンツの中央チャネルと混合し、中央チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの）を示すデータを呈し、このデータは、要素５３において、混合されたオーディオ信号の中央チャネルと合計される。レンダリング・サブシステム６４は（要素５４に）、右チャネルのためのR・g₁・Dr＋(R・g₂・P)・M（再構成された発話コンテンツを混合オーディオ・コンテンツの右チャネルと混合し、右チャネルについての利得パラメータおよびレンダリング・パラメータによってスケールしたもの）を示すデータを呈し、このデータは、要素５４において、混合されたオーディオ信号の右チャネルと合計される。

図６のシステムは、パラメータα_cが値α_c＝0または値α_c＝1をもつよう制約されるときに時間的SNRベースの切り換えを実装してもよい。そのような実装は、低品質発話コピー・データが送られることができるまたはパラメトリック・データが送られることができるが両方は送られることができない、強くビットレート制約された状況において特に有用である。たとえば、あるそのような実装では、低品質発話コピーは、α_c＝1であるセグメントにおいてのみ、混合されたオーディオ信号と一緒に（たとえばサイド信号として）伝送され、予測パラメータp_iはα_c＝0であるセグメントにおいてのみ、混合されたオーディオ信号と一緒に（たとえばサイド信号として）伝送される。

（図６のこの実装の要素６１および６２によって実装される）スイッチは、各セグメントに対して波形符号化向上またはパラメトリック符号化向上のどちらが実行されるべきかを、当該セグメント内の発話と他のすべてのオーディオ・コンテンツとの比（SNR）に基づいて決定する（この比はα_cの値を決定する）。そのような実装は、どちらの方法を選ぶかを決定するためにSNRの閾値を使ってもよい：
α_c＝0 SNR＞τの場合 (26)
1 SNR≦τの場合
ここで、τは閾値である（たとえば、τは0に等しくてもよい）。

図６のいくつかの実装は、SNRが数フレームにわたって閾値のまわりにあるときに波形符号化向上およびパラメトリック符号化向上モードの間で素速く交互に切り換わることをを防止するためにヒステリシスを用いる。

図６のシステムは、パラメータα_cが0から1までの範囲（両端含む）における任意の実数値をもつことが許容されるとき、時間的なSNRに基づくブレンドを実装してもよい。

図６のシステムのある実装は、（向上されるべき混合されたオーディオ信号のセグメントのSNRの）二つの目標値τ₁およびτ₂を使う。これらの目標値の先では、一方の方法（波形符号化向上またはパラメトリック符号化向上のいずれか）が常に最良の性能を提供すると考えられる。これらの目標の間では、当該セグメントについてのパラメータα_cの値を決定するために補間が用いられる。たとえば、セグメントについてのパラメータα_cの値を決定するために線形補間が用いられてもよい。

あるいはまた、他の好適な補間方式が使用されることができる。SNRが利用可能でないときは、多くの実装における予測パラメータはSNRの近似を提供するために使われてもよい。

別のクラスの実施形態では、オーディオ信号の各セグメントに対して実行されるべき波形符号化およびパラメトリック符号化向上の組み合わせは、聴覚マスキング・モデルによって決定される。このクラスの典型的な実施形態では、オーディオ・プログラムのセグメントに対して実行されるべき波形符号化およびパラメトリック符号化向上のブレンドについての最適なブレンド比は、符号化ノイズを可聴にならないぎりぎりのところに保つ最高の量の波形符号化向上を使う。聴覚マスキング・モデルを用いる本発明の方法の実施形態の例が図７を参照して本稿で記述される。

より一般に、以下の考察は、オーディオ信号の各セグメントに対して実行されるべき波形符号化およびパラメトリック符号化向上の組み合わせ（たとえばブレンド）を決定するために聴覚マスキング・モデルが使われる実施形態に関する。そのような実施形態では、未向上のオーディオ混合と称される、発話と背景オーディオの混合を示すデータA(t)が、提供され、聴覚マスキング・モデル（たとえば、図７の要素１１によって実装されるモデル）に従って処理される。モデルは、未向上のオーディオ混合の各セグメントについてマスキング閾値Θ(f,t)を予測する。未向上のオーディオ混合の、時間インデックスnおよび周波数帯域分割インデックスbをもつ各時間‐周波数タイルのマスキング閾値は、Θ_n,bと表わされてもよい。

マスキング閾値Θ_n,bは、フレームnおよび帯域bについて、可聴になることなくどのくらいの歪みが加えられうるかを示す。ε_D,n,bが（波形符号化向上のために用いられるべき）低品質発話コピーのエンコード誤差（すなわち、量子化ノイズ）であり、ε_P,n,bがパラメトリック予測誤差であるとする。

このクラスのいくつかの実施形態は、未向上のオーディオ混合コンテンツによって最もよくマスクされる方法（波形符号化またはパラメトリック符号化向上）への硬スイッチを実装する。

多くの実際的な状況では、厳密なパラメトリック予測誤差ε_D,n,bは発話向上パラメータを生成する瞬間には利用可能でないことがある。これらは、未向上の混合された混合がエンコードされる前に生成されうるからである。特に、パラメトリック符号化方式は、混合されたコンテンツ・チャネルからの発話のパラメトリックな再構成の誤差に対して有意な効果をもつことができる。

したがって、いくつかの代替的な実施形態は、（波形符号化向上のために用いられる）低品質発話コピーが混合コンテンツによってマスクされないときは、（波形符号化向上と一緒の）パラメトリック符号化発話向上においてブレンドする。

ここで、τ_aは歪み閾値であり、これより先ではパラメトリック符号化向上のみが適用される。この解決策は、全体的な歪みが全体的なマスキング・ポテンシャルより大きいとき、波形符号化およびパラメトリック符号化向上のブレンドを開始する。実際上、これは歪みがすでに可聴であったことを意味する。したがって、0より大きい値をもつ第二の閾値が使われることができる。あるいはまた、平均挙動の代わりにマスクされない時間‐周波数タイルに焦点を当てる条件を使うことができる。

同様に、この手法は、（波形符号化向上のために用いられる）低品質発話コピーにおける歪み（符号化アーチファクト）が高すぎるときに、SNRによって案内されるブレンド規則と組み合わされることができる。この手法の利点は、非常に低いSNRの場合には、パラメトリック符号化向上モードは、低品質発話コピーの歪みよりも可聴なノイズを生じるので、使用されないということである。

もう一つの実装では、いくつかの時間‐周波数タイルについて実行される発話向上の型が、そのような各時間‐周波数タイルにおいてスペクトルの穴〔スペクトラル・ホール〕が検出されるときには、上記の例示的な方式（または同様の方式）によって決定されるものから逸脱する。（波形符号化向上のために用いられる）低品質発話コピーにおいてエネルギーが0であるところ、スペクトルの穴は、たとえば、パラメトリック再構成において対応するタイルにおけるエネルギーを評価することによって検出されることができる。このエネルギーが閾値を超えれば、有意なオーディオと考えられてもよい。これらの場合において、タイルについてのパラメータα_cは0に設定されてもよい（あるいは、SNRに依存して、タイルについてのパラメータα_cは0に向かってバイアスをかけられてもよい）。

いくつかの実施形態では、本発明のエンコーダは、以下のモードのうちの任意の選択されたものにおいて動作可能である。

１．チャネル独立パラメトリック――このモードでは、パラメータ・セットが発話を含む各チャネルについて伝送される。これらのパラメータを使って、エンコードされたオーディオ・プログラムを受領するデコーダが、該プログラムに対してパラメトリック符号化発話向上を実行し、これらのチャネルにおける発話を任意の量だけブーストすることができる。このパラメータ・セットの伝送のための例示的なビットレートは0.75〜2.25kbpsである。

２．マルチチャネル発話予測――このモードでは、混合されたコンテンツの複数のチャネルが発話信号を予測するために線形結合において組み合わされる。各チャネルについてパラメータ・セットが伝送される。これらのパラメータを使って、エンコードされたオーディオ・プログラムを受領するデコーダは、プログラムに対してパラメトリック符号化された発話向上を実行できる。追加的な位置データが、エンコードされたオーディオ・プログラムと一緒に伝送される。ブーストされた発話をもとの混合中に戻しレンダリングすることを可能にするためである。このパラメータ・セットの伝送のための例示的なビットレートはダイアログ当たり1.5〜6.75kbpsである。

３．波形符号化された発話――このモードでは、オーディオ・プログラムの発話コンテンツの低品質コピーが、通常のオーディオ・コンテンツと並列に、任意の好適な手段によって、別個に（たとえば別個のサブストリームとして）伝送される。エンコードされたオーディオ・プログラムを受領するデコーダは、発話コンテンツのこの別個の低品質コピーをメイン混合と混合することによって、プログラムに対する波形符号化発話向上を実行することができる。0dBの利得をもって発話の低品質コピーを混合することは、振幅が倍になるので、典型的には発話を6dBブーストする。このモードについては、発話信号が関連する諸チャネルにわたって正しく分配されるよう、位置データも伝送される。発話の低品質コピーおよび位置データの伝送のための例示的なビットレートはダイアログ当たり20kbpsを超える。

４．波形‐パラメトリック・ハイブリッド――このモードでは、（プログラムに対して波形符号化発話向上を実行することにおいて使うための）オーディオ・プログラムの発話コンテンツの低品質コピーおよび（プログラムのパラメトリック符号化発話向上を実行することにおいて使うための）各発話含有チャネルについてのパラメータ・セットの両方が、プログラムの未向上の混合された（発話および非発話）オーディオ・コンテンツと並列に伝送される。発話の低品質コピーについてのビットレートが下げられるときは、この信号における、より多くの符号化アーチファクトが可聴になり、伝送のために必要とされる帯域幅が低下する。発話の低品質コピーおよびパラメータ・セットを使ってプログラムの各セグメントに対して実行されるべき波形符号化発話向上とパラメトリック符号化発話向上の組み合わせを決定するブレンド・インジケータも伝送される。受信器では、ハイブリッド発話向上がプログラムに対して実行される。これは、ブレンド・インジケータによって決定される波形符号化発話向上およびパラメトリック符号化発話向上の組み合わせを実行し、それにより発話向上されたオーディオ・プログラムを示すデータを生成することによることを含む。ここでもまた、どこで発話信号をレンダリングするかを示すために、位置データもプログラムの未向上の混合オーディオ・コンテンツと一緒に伝送される。このアプローチの利点は、受信器／デコーダが発話の低品質コピーを破棄して、パラメータ・セットのみを適用してパラメトリック符号化向上を実行する場合に必要とされる受信器／デコーダの複雑さが軽減されることができるということである。発話の低品質コピー、パラメータ・セット、ブレンド・インジケータおよび位置データの伝送のための例示的なビットレートは、ダイアログ当たり8〜24kbpsである。

実際上の理由のため、発話向上利得は0〜12dBの範囲に限定されてもよい。エンコーダは、ビットストリーム・フィールドによってさらにこの範囲の上限をさらに下げることができるよう実装されてもよい。いくつかの実施形態では、（エンコーダから出力される）エンコードされたプログラムのシンタックスは（プログラムの非発話コンテンツに加えて）複数の同時向上可能なダイアログをサポートし、各ダイアログは別個に再構成およびレンダリングされることができる。これらの実施形態では、上記の諸モードにおいて、（異なる空間位置にある複数の源からの）同時ダイアログのための発話向上は単一位置においてレンダリングされる。

エンコードされたオーディオ・プログラムがオブジェクト・ベースのオーディオ・プログラムであるいくつかの実施形態では、一つまたは複数のオブジェクト・クラスター（最大総数のオブジェクト・クラスターの一つまたは複数）が発話向上のために選択されてもよい。オブジェクト・クラスターの間で向上された発話をパンするために、CLD値対が、発話向上およびレンダリング・システムによる使用のためにエンコードされたプログラムに含められてもよい。同様に、エンコードされたオーディオ・プログラムが通常の5.1フォーマットのスピーカー・チャネルを含むいくつかの実施形態では、前方スピーカー・チャネルの一つまたは複数が発話向上のために選択されてもよい。

本発明のもう一つの側面は、本発明のエンコード方法のある実施形態に基づいて生成されたエンコードされたオーディオ信号をデコードし、それに対してハイブリッド発話向上を実行するための方法（たとえば図３のデコーダ４０によって実行される方法）である。

本発明は、ハードウェア、ファームウェアまたはソフトウェアまたは両者の組み合わせにおいて（たとえばプログラム可能な論理アレイとして）実装されてもよい。特に断わりのない限り、本発明の一部として含まれるアルゴリズムまたはプロセスは、いかなる特定のコンピュータまたは他の装置にも本来的に関係していない。特に、さまざまな汎用機械が、本願の教示に従って書かれたプログラムとともに使用されてもよく、あるいは必要とされる方法ステップを実行するためにより特化した装置（たとえば集積回路）を構築することがより便利であることがある。このように、本発明は、一つまたは複数のプログラム可能なコンピュータ・システム（たとえば、図３のエンコーダ２０または図７のエンコーダまたは図３のデコーダ４０を実装するコンピュータ・システム）上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。各コンピュータ・システムは、少なくとも一つのプロセッサ、少なくとも一つのデータ記憶システム（揮発性および不揮発性メモリおよび／または記憶要素を含む）、少なくとも一つの入力装置またはポートおよび少なくとも一つの出力装置またはポートを有する。本稿に記載される機能を実行し、出力情報を生成するようプログラム・コードが入力データに適用される。出力情報は、既知の仕方で一つまたは複数の出力装置に適用される。

そのような各プログラムは、コンピュータ・システムと通信するためにいかなる所望されるコンピュータ言語（機械、アセンブリーまたは高水準手続き型、論理的またはオブジェクト指向のプログラミング言語を含む）において実装されてもよい。いずれの場合にも、言語はコンパイルされる言語でもインタープリットされる言語でもよい。

たとえば、コンピュータ・ソフトウェア命令のシーケンスによって実装されるとき、本発明の実施形態のさまざまな機能および段階は、好適なデジタル信号処理ハードウェアにおいて実行されるマルチスレッド式のソフトウェア命令シーケンスによって実装されてもよく、その場合、実施形態のさまざまな装置、段階および機能は、ソフトウェア命令の諸部分に対応してもよい。

そのような各コンピュータ・プログラムは好ましくは、汎用または専用のプログラム可能なコンピュータによって読み取り可能な記憶媒体またはデバイス（たとえば半導体メモリまたはメディアまたは磁気式もしくは光学式メディア）に記憶されるまたはダウンロードされ、記憶媒体またはデバイスがコンピュータ・システムによって読まれたときに、本稿に記載される手順を実行するようコンピュータを構成するまたは動作させる。本発明のシステムは、コンピュータ・プログラムをもって構成された（すなわちコンピュータ・プログラムを記憶している）コンピュータ可読記憶媒体として実装されてもよく、そのように構成された記憶媒体はコンピュータ・システムに、本稿に記載される機能を実行するよう特定のあらかじめ定義された仕方で動作させる。

本発明のいくつかの実施形態を記述してきたが、本発明の精神および範囲から外れることなくさまざまな修正がなしうることは理解しておくべきである。上記の教示に照らして、本発明の数多くの修正および変形が可能である。付属の請求項の範囲内で、本発明が、本稿で具体的に記載される以外の仕方で実施されてもよいことは理解されうる。

〈６．ミッド／サイド表現〉
本稿に記載される発話向上動作は、M/S表現での制御データ、制御パラメータなどに少なくとも部分的には基づいてオーディオ・デコーダによって実行されてもよい。M/S表現での制御データ、制御パラメータなどは、上流のオーディオ・エンコーダによって生成され、該上流のオーディオ・エンコーダによって生成されたエンコードされたオーディオ信号から当該オーディオ・デコーダによって抽出されてもよい。

発話コンテンツ（たとえば一つまたは複数のダイアログなど）が混合コンテンツから予測されるパラメトリック符号化向上モードでは、発話向上動作は一般に、次式に示されるように、単一の行列Hを用いて表現されうる。

ここで、左辺（LHS）は、右辺（RHS）のもとの混合コンテンツ信号に対して作用する行列Hによって表わされる発話向上動作によって生成される、発話向上された混合コンテンツ信号を表わす。

例解の目的のため、発話向上された混合コンテンツ信号（たとえば式(30)の左辺など）およびもとの混合コンテンツ信号（たとえば、式(30)においてHが作用するもとの混合コンテンツ信号など）のそれぞれは、発話向上されたおよびもとの混合コンテンツをそれぞれ二つのチャネルc₁およびc₂においてもつ二成分信号を含む。二つのチャネルc₁およびc₂は、非M/S表現に基づく非M/Sオーディオ・チャネル（左前方チャネル、右前方チャネルなど）であってもよい。さまざまな実施形態において、発話向上された混合コンテンツ信号およびもとの混合コンテンツ信号のそれぞれは、さらに、上記二つの非M/Sチャネルc₁およびc₂以外のチャネル（たとえばサラウンド・チャネル、低域効果チャネルなど）において非発話コンテンツをもつ成分信号を有していてもよいことを注意しておくべきである。さまざまな実施形態において、発話向上された混合コンテンツ信号およびもとの混合コンテンツ信号のそれぞれは、可能性としては、一つ、式(30)に示されるような二つ、または三つ以上のチャネルにおいて発話コンテンツをもつ成分信号を有していてもよいことを注意しておくべきである。本稿に記載される発話コンテンツは、一つ、二つまたはそれ以上のダイアログを含んでいてもよい。

いくつかの実施形態では、式(30)でHによって表わされる発話向上動作は、混合コンテンツにおける発話コンテンツと他の（たとえば非発話など）コンテンツとの間の比較的高いSNR値をもつ混合コンテンツの時間スライス（セグメント）のために（たとえば、SNRに案内されたブレンド規則によって指示されるように）使用されてもよい。

行列Hは、次式に示されるように、M/S表現での向上動作を表わす行列H_MSに、非M/S表現からM/S表現への順変換行列を右から乗算し、該順変換行列の逆（これは因子1/2を含む）を左から乗算した積として書き直してもよい（展開されてもよい）。

ここで、行列H_MSの右側の例示的な変換行列は、該順変換行列に基づいて、M/S表現におけるミッド・チャネルの混合コンテンツ信号を、二つのチャネルc₁およびc₂における二つの混合コンテンツ信号の和として定義し、M/S表現におけるサイド・チャネルの混合コンテンツ信号を、二つのチャネルc₁およびc₂における二つの混合コンテンツ信号の差として定義する。さまざまな実施形態において、式(31)に示される例示的な変換行列以外の他の変換行列（たとえば、異なる非M/Sチャネルに異なる重みを割り当てるものなど）が、ある表現から異なる表現に混合コンテンツ信号を変換するために使用されてもよい。たとえば、ファントム中心においてレンダリングされず不均等な重みλ₁およびλ₂をもって上記二つの信号の間でパンされるダイアログでのダイアログ向上についてである。M/S変換行列は、次式に示されるように、サイド信号におけるダイアログ成分のエネルギーを最小化するために修正されてもよい。

この例示的実施形態では、M/S表現における向上動作を表わす行列H_MSは、次式に示されるように、対角化された（たとえばエルミートなど）行列として定義されてもよい。

ここで、p₁およびp₂はそれぞれミッド・チャネルおよびサイド・チャネル予測パラメータを表わす。予測パラメータp₁およびp₂のそれぞれは、混合コンテンツ信号から発話コンテンツを再構成するために使用されるべき、M/S表現における対応する混合コンテンツ信号の時間‐周波数タイルについての時間変化する予測パラメータ・セットを含んでいてもよい。利得パラメータgは、たとえば式(10)に示される発話向上利得Gに対応する。

いくつかの実施形態では、M/S表現における発話向上動作は、パラメトリック・チャネル独立の向上モードにおいて実行される。いくつかの実施形態では、M/S表現における発話向上動作は、ミッド・チャネル信号およびサイド・チャネル信号の両方における予測された発話コンテンツをもって、あるいはミッド・チャネル信号のみにおける予測された発話コンテンツをもって、実行される。例解の目的のため、M/S表現における発話向上動作は、次式に示されるように、ミッド・チャネル信号のみにおける混合発話コンテンツをもって実行される。

ここで、パラメータp₁は、ミッド・チャネルのみにおける混合コンテンツ信号から発話コンテンツを再構成するために使用されるべき、M/S表現のミッド・チャネルにおける混合コンテンツ信号の時間‐周波数タイルについての単一の予測パラメータ・セットを含む。利得パラメータgは、たとえば式(10)に示される発話向上利得Gに対応する。

式(33)に与えられる対角化された行列H_MSに基づくと、式(31)によって表わされるパラメトリック向上モードにおける発話向上動作は、さらに、次式に帰着されることができる。これは式(30)における行列Hの明示的な例を与える。

波形‐パラメトリック・ハイブリッド向上モードでは、発話向上動作は、次の例示的な式をもってM/S表現において表わされることができる。

ここで、m₁およびm₂はそれぞれ、混合コンテンツ信号ベクトルMにおける、ミッド・チャネル混合コンテンツ信号（たとえば、左右の前方チャネルのような非M/Sチャネルにおける混合コンテンツ信号の和など）およびサイド・チャネル混合コンテンツ信号（たとえば、左右の前方チャネルのような非M/Sチャネルにおける混合コンテンツ信号の差など）を表わす。信号d_c,1はM/S表現のダイアログ信号ベクトルDcにおけるミッド・チャネル・ダイアログ波形信号（たとえば、混合コンテンツにおけるダイアログの低減バージョンを表わすエンコードされた波形など）を表わす。行列H_dは、M/S表現のミッド・チャネルにおけるダイアログ信号d_c,1に基づく、M/S表現における発話向上動作を表わし、第１行第１列の一つの行列要素のみを含んでいてもよい（1×1）。行列H_pは、M/S表現のミッド・チャネルについての予測パラメータp₁を使う再構成されたダイアログに基づくM/S表現における発話向上動作を表わす。いくつかの実施形態では、パラメータg₁およびg₂はまとめて、たとえば式(23)および(24)に描かれた発話向上利得Gに対応する（たとえば、それぞれダイアログ波形信号および再構成されたダイアログに適用された後など）。具体的には、パラメータg₁は、M/S表現のミッド・チャネルにおけるダイアログ信号d_c,1に関係する波形符号化発話向上動作において適用され、一方、パラメータg₂は、M/S表現のミッド・チャネルおよびサイド・チャネルにおける混合コンテンツ信号m₁およびm₂に関係するパラメトリック符号化発話向上動作において適用される。パラメータg₁およびg₂は、全体的な向上利得および二つの発話向上方法の間のトレードオフを制御する。

非M/S表現では、式(35)で表わされたものに対応する発話向上動作は、次式で表現できる。

ここで、式(35)に示されたM/S表現における混合コンテンツ信号m₁およびm₂は、非M/Sチャネルにおける混合コンテンツ信号M_c1およびM_c2に非M/S表現とM/S表現の間の順変換行列を左からかけたもので置き換えられている。式(36)における（因子1/2をもつ）逆変換行列は、式(35)に示されるM/S表現における発話向上された混合コンテンツ信号を、非M/S表現（たとえば、左右の前方チャネルなど）における発話向上された混合コンテンツ信号に変換し戻す。

追加的、任意的または代替的に、発話向上動作の後に行なわれるさらなるQMFベースの処理がないいくつかの実施形態では、ダイアログ信号d_c,1に基づく発話向上されたコンテンツと予測を通じた再構成されたダイアログに基づく発話向上された混合コンテンツとを組み合わせる（H_d、H_p、変換などによって表わされる）発話向上動作の一部または全部が、効率性の理由のために時間領域でQMF合成フィルタバンク後に実行されてもよい。

M/S表現のミッド・チャネルおよびサイド・チャネルの一方または両方における混合コンテンツ信号から発話コンテンツを構築／予測するために使われる予測パラメータは、図１に描かれたチャネル独立ダイアログ予測方法、図２に描かれたマルチチャネル・ダイアログ予測方法などの任意のものを含むがそれに限られない一つまたは複数の予測パラメータ生成方法のうちの一つに基づいて生成されてもよい。いくつかの実施形態では、予測パラメータ生成方法の少なくとも一つがMMSE、勾配降下法、一つまたは複数の他の最適化法などに基づいていてもよい。

いくつかの実装では、先に論じた「盲目的な」時間的なSNRに基づく切り換え方法が、M/S表現におけるオーディオ・プログラムの諸セグメントの、パラメトリック符号化向上データ（たとえばダイアログ信号d_c,1に基づく発話向上されたコンテンツなどに関係する）と波形符号化向上（たとえば予測を通じた再構成されたダイアログに基づく発話向上された混合コンテンツなどに関係する）の間で使われてもよい。

いくつかの実施形態では、M/S表現における波形データ（たとえばダイアログ信号d_c,1に基づく発話向上されたコンテンツなどに関係する）と再構成された発話データ（たとえば予測を通じた再構成されたダイアログに基づく発話向上された混合コンテンツなどに関係する）の組み合わせ（たとえば、先に論じたブレンド・インジケータ、式(35)におけるg₁およびg₂の組み合わせなどによって示される）は、時間とともに変化し、該組み合わせの各状態は、波形データおよび発話データ再構成に使われる混合コンテンツを担持するビットストリームの対応するセグメントの発話および他のオーディオ・コンテンツに関する。ブレンド・インジケータは、プログラムの対応するセグメントにおいて、（波形データおよび再構成された発話データの）組み合わせの現在状態が発話および他のオーディオ・コンテンツの信号属性（たとえば、発話コンテンツのパワーと他のオーディオ・コンテンツのパワーの比、SNRなど）によって決定されるよう、生成される。オーディオ・プログラムのセグメントについてのブレンド・インジケータは、そのセグメントについての図３のエンコーダのサブシステム２９において生成されるブレンド・インジケータ・パラメータ（またはパラメータ・セット）であってもよい。先に論じた聴覚マスキング・モデルは、ダイアログ信号ベクトルD_Cにおける低下品質発話コピーにおける符号化ノイズがメイン・プログラムのオーディオ混合によってどのようにマスクされているかをより正確に予測し、ブレンド比をしかるべく選択するために使われてもよい。

図３のエンコーダ２０のサブシステム２８は、エンコーダ２０から出力されるM/S発話向上メタデータの一部として、ビットストリーム中のM/S発話向上動作に関係するブレンド・インジケータを含めるよう構成されていてもよい。M/S発話向上動作に関係するブレンド・インジケータは、ダイアログ信号DCにおける符号化アーチファクトに関係するスケーリング因子g_max(t)などから（たとえば、図７のエンコーダのサブシステム１３において）生成されてもよい。スケーリング因子g_max(t)は、図７のエンコーダのサブシステム１４によって生成されてもよい。図７のエンコーダのサブシステム１３は、図７のエンコーダから出力されるビットストリーム中に、ブレンド・インジケータを含めるよう構成されてもよい。追加的、任意的または代替的に、サブシステム１３は、サブシステム１４によって生成されたスケーリング因子g_max(t)を図７のエンコーダから出力されるビットストリーム中に含めてもよい。

いくつかの実施形態では、図７の動作１０によって生成された未向上のオーディオ混合A(t)は、参照オーディオ・チャネル構成における混合コンテンツ信号ベクトル（たとえばその時間セグメントなど）を表わす。図７の要素１２によって生成されるパラメトリック符号化向上パラメータp(t)は、混合コンテンツ信号ベクトルの各セグメントに関するM/S表現におけるパラメトリック符号化発話向上のためのM/S発話向上メタデータの少なくとも一部を表わす。いくつかの実施形態では、図７の符号化器１５によって生成される低下品質発話コピーs'(t)は、M/S表現における（たとえばミッド・チャネル・ダイアログ信号、サイド・チャネル・ダイアログ信号などをもつ）ダイアログ信号ベクトルを表わす。

いくつかの実施形態では、図７の要素１４は、スケーリング因子g_max(t)を生成し、それらをエンコード要素１３に提供する。いくつかの実施形態では、要素１３は、オーディオ・プログラムの各セグメントについて、参照オーディオ・チャネル構成における（たとえば未向上などの）混合コンテンツ信号ベクトルを示すエンコードされたオーディオ・ビットストリームと、M/S発話向上メタデータと、該当するならM/S表現におけるダイアログ信号ベクトルと、該当するならスケーリング因子g_max(t)とを生成し、このエンコードされたオーディオ・ビットストリームが受信側に送信または他の仕方で送達されてもよい。

非M/S表現における未向上のオーディオ信号がM/S発話向上メタデータとともに受領器に送達される（たとえば送信される）とき、受領器は、M/S表現における未向上のオーディオ信号の各セグメントを変換し、該セグメントについてのM/S発話向上メタデータによって示されるM/S発話向上動作を実行してもよい。プログラムのあるセグメントについてのM/S表現におけるダイアログ信号ベクトルは、そのセグメントについての発話向上動作がハイブリッド発話向上モードにおいてまたは波形符号化向上モードにおいて実行されるべき場合には、非M/S表現における未向上の混合コンテンツ信号ベクトルと一緒に提供されることができる。該当するなら、ビットストリームを受領し、パースする受領器は、スケーリング因子g_max(t)に応答してブレンド・インジケータを生成し、式(35)における利得パラメータg₁およびg₂を生成するよう構成されていてもよい。

いくつかの実施形態では、発話向上動作は、少なくとも部分的には、要素１３のエンコードされた出力が送達された受領器において、M/S表現において実行される。一例では、未向上の混合コンテンツ信号の各セグメントに対して、あらかじめ決定された（たとえば要求された）向上総量に対応する式(35)の利得パラメータg₁およびg₂が、少なくとも部分的には、受領器によって受領されたビットストリームからパースされたブレンド・インジケータに基づいて、適用されてもよい。もう一つの例では、未向上の混合コンテンツ信号の各セグメントに対して、あらかじめ決定された（たとえば要求された）向上総量に対応する式(35)の利得パラメータg₁およびg₂が、少なくとも部分的には、受領器によって受領されたビットストリームからパースされた当該セグメントについてのスケール因子g_max(t)から決定されるブレンド・インジケータに基づいて、適用されてもよい。

いくつかの実施形態では、図３のエンコーダ２０の要素２３は、段２１および２２から出力されたデータに応答して、M/S発話向上メタデータ（たとえば、ミッド・チャネルおよび／またはサイド・チャネルにおける混合コンテンツからダイアログ／発話コンテンツを再構成するための予測パラメータなど）を含むパラメトリック・データを生成するよう構成されている。いくつかの実施形態では、図３のエンコーダ２０のブレンド・インジケータ生成要素２９は、段２１および２２から出力されるデータに応答して、（たとえば利得パラメータg₁などをもつ）パラメトリック発話向上されたコンテンツと（たとえば利得パラメータg₁などをもつ）波形ベースの発話向上されたコンテンツの組み合わせを決定することに向けたブレンド・インジケータ（「BI」）を生成するよう構成される。

図３の実施形態の変形では、M/Sハイブリッド発話向上のために用いられるブレンド・インジケータは、エンコーダにおいて生成されるのではなく（エンコーダから出力されるビットストリームには含まれない）、その代わり、エンコーダから出力されるビットストリーム（該ビットストリームは、M/Sチャネルにおける波形データおよびM/S波形向上メタデータは含んでいる）に応答して（たとえばある変形では受領器４０において）生成される。

デコーダ４０は、サブシステム３０からエンコードされたオーディオ信号を（たとえば、サブシステム３０内の記憶からエンコードされたオーディオ信号を示すデータを読むまたは取り出すことまたはサブシステム３０によって送信されたエンコードされたオーディオ信号を受信することによって）受領し、エンコードされたオーディオ信号から参照オーディオ・チャネル構成における混合（発話および非発話）コンテンツ信号ベクトルを示すデータをデコードし、少なくとも部分的にはM/S表現において、前記参照オーディオ・チャネル構成におけるデコードされた混合コンテンツに対して、発話向上動作を実行するよう結合および構成（たとえばプログラム）されている。デコーダ４０は、発話向上された混合コンテンツを示す発話向上されたデコードされたオーディオ信号を生成し、（たとえばレンダリング・システムなどに）出力するよう構成されていてもよい。

いくつかの実施形態では、図４ないし図６に描かれたレンダリング・システムの一部または全部は、M/S発話向上動作によって生成される発話向上された混合コンテンツをレンダリングするよう構成されていてもよい。該動作の少なくとも一部は、M/S表現において実行される動作である。図６Ａは、式(35)において表わされる発話向上動作を実行するよう構成された例示的なレンダリング・システムを示している。

図６Ａのレンダリング・システムは、パラメトリック発話向上動作において使われる少なくとも一つの利得パラメータ（たとえば、式(35)におけるg₂など）が（たとえばハイブリッド向上モードにおいて、パラメトリック向上モードにおいて、など）0でないことを判別することに応答して、パラメトリック発話向上動作を実行するよう構成されていてもよい。たとえば、そのような判別に際して、図６Ａのサブシステム６８Ａは、非M/Sチャネルにわたって分配されている混合コンテンツ信号ベクトル（「混合オーディオ（T/F）」）に対して変換を実行して、M/Sチャネルにわたって分配されている対応する混合コンテンツ信号ベクトルを生成するよう構成されていることができる。この変換は、適宜順変換行列を使ってもよい。予測パラメータ（たとえばp₁、p₂など）、パラメトリック向上動作のための利得パラメータ（たとえば式(35)のg₂など）が適用されて、M/Sチャネルの混合コンテンツ信号ベクトルから発話コンテンツを予測し、予測された発話コンテンツを向上させてもよい。

図６Ａのレンダリング・システムは、波形符号化発話向上動作において使われる少なくとも一つの利得パラメータ（たとえば、式(35)におけるg₁など）が（たとえばハイブリッド向上モードにおいて、波形符号化向上モードにおいて、など）0でないことを判別することに応答して、波形符号化発話向上動作を実行するよう構成されていてもよい。たとえば、そのような判別に際して、図６Ａのレンダリング・システムは、受領されたエンコードされたオーディオ信号から、M/Sチャネルにわたって分配されているダイアログ信号ベクトル（たとえば、混合コンテンツ信号ベクトルに存在する発話コンテンツの低減バージョン）を受領／抽出するよう構成されていることができる。波形符号化向上動作のための利得パラメータ（たとえば、式(35)におけるg₁など）が適用されて、M/Sチャネルのダイアログ信号ベクトルによって表わされる発話コンテンツをを向上させてもよい。ユーザー定義可能な向上利得（G）は、ブレンド・パラメータを使って利得パラメータg₁およびg₂を導出するために使われてもよい。ブレンド・パラメータはビットストリーム中に存在していてもいなくてもよい。いくつかの実施形態では、利得パラメータg₁およびg₂を導出するためにユーザー定義可能な向上利得（G）と一緒に使用されるブレンド・パラメータは、受領されたエンコードされたオーディオ信号におけるメタデータから抽出されることができる。他のいくつかの実施形態では、そのようなブレンド・パラメータは、受領されたエンコードされたオーディオ信号におけるメタデータから抽出されなくてもよく、受領されたエンコードされたオーディオ信号におけるオーディオ・コンテンツに基づいて受領側エンコーダによって導出されることができる。

いくつかの実施形態では、M/S表現でのパラメトリックな向上された発話コンテンツおよび波形符号化向上された発話コンテンツの組み合わせが、図６Ａのサブシステム６４Ａに呈されるまたは入力される。図６のサブシステム６４Ａは、M/Sチャネルにわたって分配されている向上された発話コンテンツの組み合わせに対して変換を実行して、非M/Sチャネルにわたって分配されている向上された発話コンテンツ信号ベクトルを生成してもよい。この変換は、適宜逆変換行列を使ってもよい。非M/Sチャネルの向上された発話コンテンツ信号ベクトルは、非M/Sチャネルにわたって分配されている混合コンテンツ信号ベクトル（「混合オーディオ（T/F）」）と組み合わされて、発話向上された混合コンテンツ信号ベクトルを生成してもよい。

いくつかの実施形態では、（たとえば図３のエンコーダ２０などから出力される）エンコードされたオーディオ信号のシンタックスは、上流のオーディオ・エンコーダ（たとえば図３のエンコーダ２０など）から下流のオーディオ・デコーダ（たとえば図３のデコーダ４０など）へのM/Sフラグの伝送をサポートする。M/Sフラグは、少なくとも部分的には該M/Sフラグと一緒に伝送されるM/S制御データ、制御パラメータなどとともに、発話向上動作が受領側オーディオ・デコーダ（たとえば、図３のデコーダ４０など）によって実行されるべきときに、オーディオ・エンコーダ（たとえば図３のエンコーダ２０における要素２３など）によってセットされる／存在する。たとえば、M/Sフラグがセットされているとき、M/Sフラグと一緒に受領されるM/S制御データ、制御パラメータなどを用いて発話向上アルゴリズム（たとえば、チャネル独立ダイアログ予測、マルチチャネル・ダイアログ予測、波形に基づく、波形‐パラメトリック・ハイブリッドなど）の一つまたは複数に従ってM/S発話向上動作を適用する前に、非M/Sチャネルにおけるステレオ信号（たとえば左右チャネルなどからのもの）がまず受領側オーディオ・デコーダ（たとえば図３のデコーダ４０など）によってM/S表現のミッド・チャネルおよびサイド・チャネルに変換される。受領側オーディオ・デコーダ（たとえば図３のデコーダ４０など）では、M/S発話向上動作が実行された後、M/S表現の発話向上された信号が、非M/Sチャネルに変換し戻されてもよい。

いくつかの実施形態では、本稿に記載されるオーディオ・エンコーダ（たとえば図３のエンコーダ２０、図３のエンコーダ２０の要素２３など）によって生成される発話向上メタデータは、発話向上動作の一つまたは複数の異なる型のための発話向上制御データ、制御パラメータなどの一つまたは複数のセットの存在を示すために一つまたは複数の個別的なフラグを担持することができる。発話向上動作の一つまたは複数の異なる型のための発話向上制御データ、制御パラメータなどの前記一つまたは複数のセットは、M/S制御データ、制御パラメータなどのセットをM/S発話向上メタデータとして含んでいてもよいが、それだけに限られるものではない。発話向上メタデータは、どの型の発話向上動作（たとえば、M/S発話向上動作、非M/S発話向上動作など）が好ましいかを指示するための選好フラグをも含んでいてもよい。発話向上メタデータは、非M/S参照オーディオ・チャネル構成のためにエンコードされた混合オーディオ・コンテンツを含むエンコードされたオーディオ信号において送達されるメタデータの一部として、下流のデコーダ（たとえば図３のデコーダ４０など）に送達されてもよい。

追加的、任意的または代替的に、オーディオ・デコーダ（たとえば図３の４０など）は、一つまたは複数の因子に基づいて、発話向上動作の特定の型（たとえば、M/S発話向上、非M/S発話向上など）を決定し、実行するよう構成されていることができる。これらの因子は、発話向上動作の特定のユーザー選択された型についての選好を指定するユーザー入力、発話向上動作のシステム選択された型についての選好を指定するユーザー入力、オーディオ・デコーダによって動作させられる特定のオーディオ・チャネル構成の機能、特定の型の発話向上動作のための発話向上メタデータの可用性、ある型の発話向上動作についてのエンコーダ生成された任意の選好フラグなどを含んでいてもよいが、それだけに限られるものではない。いくつかの実施形態では、これらの因子が互いに衝突する場合に特定の型の発話向上動作を決定するために、オーディオ・デコーダは、一つまたは複数の選好規則を実装してもよく、さらなるユーザー入力を求めてもよい、などである。

〈７．例示的なプロセス・フロー〉
図８のＡおよびＢは、例示的なプロセス・フローを示している。いくつかの実施形態では、メディア処理システムにおける一つまたは複数のコンピューティング装置またはユニットがこのプロセス・フローを実行してもよい。

図８のＡは、本稿に記載されるオーディオ・エンコーダ（たとえば図３のエンコーダ２０）によって実装されてもよい例示的なプロセス・フローを示している。図８のＡのブロック８０２では、オーディオ・エンコーダは、参照オーディオ・チャネル表現における発話コンテンツおよび非発話オーディオ・コンテンツの混合を有する混合オーディオ・コンテンツであって、該参照オーディオ・チャネル表現の複数のオーディオ・チャネルにわたって分配されているものを受領する。

ブロック８０４では、オーディオ・エンコーダは、前記参照オーディオ・チャネル表現の前記複数のオーディオ・チャネルにおける一つまたは複数の非ミッド／サイド（M/S）チャネルにわたって分配されている前記混合オーディオ・コンテンツの一つまたは複数の部分を、M/Sオーディオ・チャネル表現の一つまたは複数のM/Sチャネルにわたって分配されているM/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの一つまたは複数の部分に変換する。

ブロック８０６では、オーディオ・エンコーダは、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についてのM/S発話向上メタデータを決定する。

ブロック８０８では、オーディオ・エンコーダは、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツと、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についての前記M/S発話向上メタデータとを含むオーディオ信号を生成する。

ある実施形態では、オーディオ・エンコーダはさらに、前記混合オーディオ・コンテンツとは別個の、前記M/Sオーディオ・チャネル表現における、前記発話コンテンツのバージョンを生成し、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンとともにエンコードされた、前記オーディオ信号を出力することを実行するよう構成される。

ある実施形態では、オーディオ・エンコーダはさらに、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づく波形符号化発話向上と、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上との特定の定量的な組み合わせをもって発話向上を受領側オーディオ・デコーダが前記混合オーディオ・コンテンツに適用できるようにするブレンド指示データを生成し；前記ブレンド指示データとともにエンコードされた、前記オーディオ信号を出力することを実行するよう構成される。

ある実施形態では、前記オーディオ・エンコーダはさらに、前記M/Sオーディオ・チャネル表現における変換されたオーディオ・コンテンツの前記一つまたは複数の部分を前記オーディオ信号の一部としてエンコードすることを防止するよう構成される。

図８のＢは、本稿に記載されるオーディオ・デコーダ（たとえば図３のデコーダ４０）によって実装されうる例示的なプロセス・フローを示す。図８のＢのブロック８２２では、オーディオ・デコーダは、参照オーディオ・チャネル表現における混合オーディオ・コンテンツと、ミッド／サイド（M/S）発話向上メタデータとを含むオーディオ信号を受領する。

図８のＢのブロック８２４では、オーディオ・デコーダは、前記参照オーディオ・チャネル表現の複数のオーディオ・チャネルにおける一つ、二つまたは三つ以上の非M/Sチャネルにわたって分配されている前記混合オーディオ・コンテンツの一つまたは複数の部分を、M/Sオーディオ・チャネル表現の一つまたは複数のM/Sチャネルにわたって分配されているM/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの一つまたは複数の部分に変換する。

図８のＢのブロック８２６では、オーディオ・デコーダは、前記M/S発話向上メタデータに基づいて、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分に対して一つまたは複数のM/S発話向上動作を実行して、前記M/S表現における向上された発話コンテンツの一つまたは複数の部分を生成する。

図８のＢのブロック８２８では、オーディオ・デコーダは、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分を、前記M/S表現における向上された発話コンテンツの前記一つまたは複数と組み合わせて、前記M/S表現における発話向上された混合オーディオ・コンテンツの一つまたは複数の部分を生成する。

ある実施形態では、オーディオ・デコーダはさらに、前記M/S表現における発話向上された混合オーディオ・コンテンツの前記一つまたは複数の部分を、前記参照オーディオ・チャネル表現における発話向上された混合オーディオ・コンテンツの一つまたは複数の部分に逆変換するよう構成される。

ある実施形態では、オーディオ・デコーダはさらに：前記オーディオ信号から、前記混合オーディオ・コンテンツとは別個の、前記M/Sオーディオ・チャネル表現における、前記発話コンテンツのバージョンを抽出し；前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンの一つまたは複数の部分に対して、前記M/S発話向上メタデータに基づいて一つまたは複数の発話向上動作を実行して、前記M/Sオーディオ・チャネル表現における向上された発話コンテンツの一つまたは複数の第二の部分を生成することを実行するよう構成されている。

ある実施形態では、オーディオ・デコーダはさらに：発話向上のためのブレンド指示データを決定し；発話向上のための前記ブレンド指示データに基づいて、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づく波形符号化発話向上と、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上との特定の定量的な組み合わせを生成することを実行するよう構成される。

ある実施形態では、前記ブレンド指示データは、少なくとも部分的には、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のSNR値に基づいて生成される。前記一つまたは複数のSNR値は、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと非発話オーディオ・コンテンツとのパワーの比ならびに前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと全オーディオ・コンテンツとのパワーの比のうちの一つまたは複数を表わす。

ある実施形態では、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づく波形符号化発話向上と、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上との前記特定の定量的な組み合わせは、聴覚マスキング・モデルを用いて決定される。ここで、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づく前記波形符号化発話向上は、波形符号化発話向上と前記パラメトリック発話向上との複数の組み合わせのうちで、出力される発話向上されたオーディオ・プログラムにおける符号化ノイズが不快なほど可聴でないことを保証する、発話向上の最大の相対量を表わす。

ある実施形態では、前記M/S発話向上メタデータの少なくとも一部は、受領側オーディオ・デコーダが、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツから前記M/S表現における前記発話コンテンツのバージョンを再構成できるようにする。

ある実施形態では、前記M/S発話向上メタデータは、前記M/Sオーディオ・チャネル表現における波形符号化発話向上動作または前記M/Sオーディオ・チャネルにおけるパラメトリック発話向上動作の一つまたは複数に関係するメタデータを含む。

ある実施形態では、前記参照オーディオ・チャネル表現はサラウンド・スピーカーに関係するオーディオ・チャネルを含む。ある実施形態では、前記参照オーディオ・チャネル表現における前記一つまたは複数の非M/Sチャネルは、中央チャネル、左チャネルまたは右チャネルのうちの一つまたは複数を含み、一方、前記M/Sオーディオ・チャネル表現の前記一つまたは複数のM/Sチャネルは、ミッド・チャネルまたはサイド・チャネルの一つまたは複数を含む。

ある実施形態では、前記M/S発話向上メタデータは、前記M/Sオーディオ・チャネル表現のミッド・チャネルに関係する発話向上メタデータの単一のセットを含む。ある実施形態では、前記M/S発話向上メタデータは前記オーディオ信号においてエンコードされた全体的なオーディオ・メタデータの一部を表わす。ある実施形態では、前記オーディオ信号においてエンコードされたオーディオ・メタデータは、前記M/S発話向上メタデータの存在を示すデータ・フィールを含む。ある実施形態では、前記オーディオ信号は、オーディオビジュアル信号の一部である。

ある実施形態では、プロセッサを有する装置が、本稿に記載される方法の任意のものを実行するよう構成される。

ある実施形態では、一つまたは複数のプロセッサによって実行されたときに、本稿に記載される方法の任意のものの実行を引き起こすソフトウェア命令を含む非一時的なコンピュータ可読記憶媒体を含む。別個の複数の実施形態が本稿において論じられているものの、本稿で論じられる実施形態および／または部分実施形態の任意の組み合わせが組み合わされてさらなる実施形態を形成してもよいことを注意しておく。

〈８．実装機構――ハードウェアの概観〉
ある実施形態によれば、本稿に記載される技法は、一つまたは複数の特殊目的コンピューティング装置によって実装される。特殊目的コンピューティング装置は、本技法を実行するよう固定構成とされていてもよいし、あるいは一つまたは複数の特定用途向け集積回路（ASIC）またはフィールド・プログラマブル・ゲート・アレイ（FPGA）のような、本技法を実行するよう持続的にプログラムされたデジタル電子デバイスを含んでいてもよいし、あるいはファームウェア、メモリ、他の記憶または組み合わせにおけるプログラム命令に従って本技法を実行するようプログラムされた一つまたは複数の汎用ハードウェア・プロセッサを含んでいてもよい。そのような特殊目的コンピューティング装置は、カスタムの固定構成論理、ASICまたはFPGAをカスタムのプログラミングと組み合わせて本技法を達成してもよい。特殊目的コンピューティング装置はデスクトップ・コンピュータ・システム、ポータブル・コンピュータ・システム、ハンドヘルド装置、ネットワーキング装置または本技法を実装するために固定構成および／またはプログラム論理を組み込んでいる他の任意の装置であってもよい。

たとえば、図９は、本発明のある実施形態が実装されうるコンピュータ・システム９００を示すブロック図である。コンピュータ・システム９００は、情報を通信するためのバス９０２または他の通信機構と、情報を処理するための、バス９０２に結合されたハードウェア・プロセッサ９０４とを含む。ハードウェア・プロセッサ９０４はたとえば汎用マイクロプロセッサであってもよい。

コンピュータ・システム９００は、ランダム・アクセス・メモリ（RAM）または他の動的記憶装置のような、情報およびプロセッサ９０４によって実行されるべき命令を記憶するための、バス９０２に結合されたメイン・メモリ９０６をも含む。メイン・メモリ９０６はまた、一時変数または他の中間的な情報を、プロセッサ９０４によって実行されるべき命令の実行の間、記憶しておくために使われてもよい。そのような命令は、プロセッサ９０４にとってアクセス可能な非一時的な記憶媒体に記憶されたとき、コンピュータ・システム９００を、前記命令において指定されている処理を実行するよう装置固有の特殊目的機械にする。

コンピュータ・システム９００はさらに、バス９０２に結合された、静的な情報およびプロセッサ９０４のための命令を記憶するための読み出し専用メモリ（ROM）９０８または他の静的記憶装置を含む。磁気ディスクまたは光ディスクのような記憶装置９１０が提供され、情報および命令を記憶するためにバス９０２に結合される。

コンピュータ・システム９００は、コンピュータ・ユーザーに対して情報を表示するための、液晶ディスプレイ（LCD）のようなディスプレイ９１２にバス９０２を介して結合されていてもよい。英数字その他のキーを含む入力装置９１４が、情報およびコマンド選択をプロセッサ９０４に伝えるためにバス９０２に結合される。もう一つの型のユーザー入力装置は、方向情報およびコマンド選択をプロセッサ９０４に伝えるとともにディスプレイ９１２上でのカーソル動きを制御するための、マウス、トラックボールまたはカーソル方向キーのようなカーソル・コントロール９１６である。この入力装置は典型的には、第一軸（たとえばx）および第二軸（たとえばy）の二つの軸方向において二つの自由度をもち、これにより該装置は平面内での位置を指定できる。

コンピュータ・システム９００は、本稿に記載される技法を実施するのに、装置固有の固定構成論理、一つまたは複数のASICもしくはFPGA、コンピュータ・システムと組み合わさってコンピュータ・システム９００を特殊目的機械にするまたはプログラムするファームウェアおよび／またはプログラム論理を使ってもよい。ある実施形態によれば、本稿の技法は、プロセッサ９０４がメイン・メモリ９０６に含まれる一つまたは複数の命令の一つまたは複数のシーケンスを実行するのに応答して、コンピュータ・システム９００によって実行される。そのような命令は、記憶装置９１０のような別の記憶媒体からメイン・メモリ９０６に読み込まれてもよい。メイン・メモリ９０６に含まれる命令のシーケンスの実行により、プロセッサ９０４は、本稿に記載されるプロセス段階を実行する。代替的な実施形態では、ソフトウェア命令の代わりにまたはソフトウェア命令と組み合わせて固定構成の回路が使用されてもよい。

本稿で用いられる用語「記憶媒体」は、データおよび／または機械に特定の仕方で動作させる命令を記憶する任意の非一時的な媒体を指す。そのような記憶媒体は、不揮発性媒体および／または揮発性媒体を含んでいてもよい。不揮発性媒体は、たとえば、記憶装置９１０のような光学式または磁気ディスクを含む。揮発性媒体は、メイン・メモリ９０６のような動的メモリを含む。記憶媒体の一般的な形は、たとえば、フロッピーディスク、フレキシブルディスク、ハードディスク、半導体ドライブ、磁気テープまたは他の任意の磁気データ記憶媒体、CD-ROM、他の任意の光学式データ記憶媒体、孔のパターンをもつ任意の物理的媒体、RAM、PROMおよびEPROM、フラッシュEPROM、NVRAM、他の任意のメモリ・チップまたはカートリッジを含む。

記憶媒体は、伝送媒体とは異なるが、伝送媒体と関連して用いられてもよい。伝送媒体は、記憶媒体間で情報を転送するのに参加する。たとえば、伝送媒体は同軸ケーブル、銅線および光ファイバーを含み、バス９０２をなすワイヤを含む。伝送媒体は、電波および赤外線データ通信の際に生成されるような音響波または光波の形を取ることもできる。

さまざまな形の媒体が、一つまたは複数の命令の一つまたは複数のシーケンスを実行のためにプロセッサ９０４に搬送するのに関与しうる。たとえば、命令は最初、リモート・コンピュータの磁気ディスクまたは半導体ドライブ上に担持されていてもよい。リモート・コンピュータは該命令をその動的メモリにロードし、該命令をモデムを使って電話線を通じて送ることができる。コンピュータ・システム９００にローカルなモデムが、電話線上のデータを受信し、赤外線送信器を使ってそのデータを赤外線信号に変換することができる。赤外線検出器が赤外線信号において担持されるデータを受信することができ、適切な回路がそのデータをバス９０２上に載せることができる。バス９０２はそのデータをメイン・メモリ９０６に搬送し、メイン・メモリ９０６から、プロセッサ９０４が命令を取り出し、実行する。メイン・メモリ９０６によって受信される命令は、任意的に、プロセッサ９０４による実行の前または後に記憶装置９１０上に記憶されてもよい。

コンピュータ・システム９００は、バス９０２に結合された通信インターフェース９１８をも含む。通信インターフェース９１８は、ローカル・ネットワーク９２２に接続されているネットワーク・リンク９２０への双方向データ通信結合を提供する。たとえば、通信インターフェース９１８は、統合サービス・デジタル通信網（ISDN）カード、ケーブル・モデム、衛星モデムまたは対応する型の電話線へのデータ通信接続を提供するためのモデムであってもよい。もう一つの例として、通信インターフェース９１８は、互換LANへのデータ通信接続を提供するためのローカル・エリア・ネットワーク（LAN）カードであってもよい。無線リンクも実装されてもよい。そのようないかなる実装でも、通信インターフェース９１８は、さまざまな型の情報を表すデジタル・データ・ストリームを搬送する電気的、電磁的または光学的信号を送受信する。

ネットワーク・リンク９２０は典型的には、一つまたは複数のネットワークを通じた他のデータ装置へのデータ通信を提供する。たとえば、ネットワーク・リンク９２０は、ローカル・ネットワーク９２２を通じてホスト・コンピュータ９２４またはインターネット・サービス・プロバイダー（ISP）９２６によって運営されているデータ設備への接続を提供してもよい。ISP ９２６は、現在一般に「インターネット」９２８と称される世界規模のパケット・データ通信網を通じたデータ通信サービスを提供する。ローカル・ネットワーク９２２およびインターネット９２８はいずれも、デジタル・データ・ストリームを担持する電気的、電磁的または光学的信号を使う。コンピュータ・システム９００に／からデジタル・データを搬送する、さまざまなネットワークを通じた信号およびネットワーク・リンク９２０上および通信インターフェース９１８を通じた信号は、伝送媒体の例示的な形である。

コンピュータ・システム９００は、ネットワーク（単数または複数）、ネットワーク・リンク９２０および通信インターフェース９１８を通じて、メッセージを送り、プログラム・コードを含めデータを受信することができる。インターネットの例では、サーバー９３０は、インターネット９２８、ISP ９２６、ローカル・ネットワーク９２２および通信インターフェース９１８を通じてアプリケーション・プログラムのための要求されたコードを送信してもよい。

受信されたコードは、受信される際にプロセッサ９０４によって実行されても、または、のちの実行のために記憶装置９１０または他の不揮発性記憶に記憶されてもよい。

〈９．等価物、拡張、代替その他〉
以上の明細書では、本発明の例示的実施形態について、実装によって変わりうる数多くの個別的詳細に言及しつつ述べてきた。このように、何が本発明であるか、何が出願人によって本発明であると意図されているかの唯一にして排他的な指標は、この出願に対して付与される特許の請求項の、その後の訂正があればそれも含めてかかる請求項が特許された特定の形のものである。かかる請求項に含まれる用語について本稿で明示的に記載される定義があったとすればそれは請求項において使用される当該用語の意味を支配する。よって、請求項に明示的に記載されていない限定、要素、属性、特徴、利点もしくは特性は、いかなる仕方であれかかる請求項の範囲を限定すべきではない。よって、明細書および図面は制約する意味ではなく例示的な意味で見なされるべきものである。

Claims

参照オーディオ・チャネル表現の複数のオーディオ・チャネルにわたって分配されている、参照オーディオ・チャネル表現における混合オーディオ・コンテンツを受領する段階であって、前記混合オーディオ・コンテンツは発話コンテンツおよび非発話オーディオ・コンテンツの混合を有する、段階と；
前記参照オーディオ・チャネル表現の前記複数のオーディオ・チャネルにおける二つ以上の非ミッド／サイド（M/S）チャネルにわたって分配されている前記混合オーディオ・コンテンツの一つまたは複数の部分を、M/Sオーディオ・チャネル表現の一つまたは複数のM/Sチャネルにわたって分配されているM/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの一つまたは複数の部分に変換する段階であって、前記M/Sオーディオ・チャネル表現は少なくともミッド・チャネルおよびサイド・チャネルを含み、前記ミッド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない和を表わし、前記サイド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない差を表わす、段階と；
前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話向上のためのメタデータを決定する段階と；
前記混合オーディオ・コンテンツと、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話向上のための前記メタデータとを含むオーディオ信号を生成する段階とを含む、
一つまたは複数のコンピューティング装置によって実行される方法。
前記混合オーディオ・コンテンツが非M/Sオーディオ・チャネル表現になっている、請求項１記載の方法。
前記混合オーディオ・コンテンツとは別個の、前記M/Sオーディオ・チャネル表現における、前記発話コンテンツのバージョンを生成する段階と；
前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンとともにエンコードされた、前記オーディオ信号を出力する段階とをさらに含む、
請求項１または２記載の方法。
受領側オーディオ・デコーダによって生成されるべき第一および第二の型の発話向上の特定の定量的な組み合わせを指示するブレンド指示データを生成する段階であって、前記第一の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づく発話向上であり、前記第二の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上である、段階と；
前記ブレンド指示データとともにエンコードされた、前記オーディオ信号を出力する段階とをさらに含む、
請求項３記載の方法。
発話向上のための前記メタデータの少なくとも一部が、受領側オーディオ・デコーダが、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツから前記M/S表現における前記発話コンテンツの前記再構成されたバージョンを再構成できるようにする、請求項４記載の方法。
前記ブレンド指示データは、少なくとも部分的には、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のSNR値に基づいて生成され、前記一つまたは複数のSNR値は、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと非発話オーディオ・コンテンツとのパワーの比または前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと全オーディオ・コンテンツとのパワーの比のうちの一つまたは複数を表わす、請求項４または５記載の方法。
前記第一および第二の型の発話向上の前記特定の定量的な組み合わせは聴覚マスキング・モデルを用いて決定され、その際、前記第一の型の話向上が、前記第一および第二の型の発話向上の複数の組み合わせにおける、出力される発話向上されたオーディオ・プログラムにおける符号化ノイズが不快なほど可聴でないことを保証する、発話向上の最大の相対量を表わす、請求項４ないし６のうちいずれか一項記載の方法。
発話向上のための前記メタデータの少なくとも一部は、受領側オーディオ・デコーダが、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツから前記M/S表現における前記発話コンテンツのバージョンを再構成できるようにする、請求項１ないし７のうちいずれか一項記載の方法。
発話向上のための前記メタデータは、前記発話コンテンツの前記バージョンに基づく前記M/Sオーディオ・チャネル表現における発話向上動作または前記M/Sオーディオ・チャネル表現におけるパラメトリック発話向上動作の一つまたは複数に関係するメタデータを含む、請求項１ないし８のうちいずれか一項記載の方法。
前記参照オーディオ・チャネル表現がサラウンド・スピーカーに関係するオーディオ・チャネルを含む、請求項１ないし９のうちいずれか一項記載の方法。
前記参照オーディオ・チャネル表現の前記二つ以上の非M/Sチャネルは、中央チャネル、左チャネルまたは右チャネルのうちの二つ以上を含み、一方、前記M/Sオーディオ・チャネル表現の前記一つまたは複数のM/Sチャネルは、ミッド・チャネルまたはサイド・チャネルの一つまたは複数を含む、請求項１ないし１０のうちいずれか一項記載の方法。
発話向上のための前記メタデータは、前記M/Sオーディオ・チャネル表現のミッド・チャネルに関係する発話向上メタデータの単一のセットを含む、請求項１ないし１１のうちいずれか一項記載の方法。
前記M/Sオーディオ・チャネル表現における変換されたオーディオ・コンテンツの前記一つまたは複数の部分を前記オーディオ信号の一部としてエンコードすることを防止することをさらに含む、請求項１ないし１２のうちいずれか一項記載の方法。
発話向上のための前記メタデータが前記オーディオ信号においてエンコードされる全体的なオーディオ・メタデータの一部を表わす、請求項１ないし１３のうちいずれか一項記載の方法。
前記オーディオ信号においてエンコードされるオーディオ・メタデータが、発話向上のための前記メタデータの存在を示すデータ・フィールを含む、請求項１ないし１４のうちいずれか一項記載の方法。
前記オーディオ信号が、オーディオビジュアル信号の一部である、請求項１ないし１５のうちいずれか一項記載の方法。
参照オーディオ・チャネル表現における混合オーディオ・コンテンツと、発話向上のためのメタデータとを含むオーディオ信号を受領する段階であって、前記混合オーディオ・コンテンツは発話コンテンツおよび非発話オーディオ・コンテンツをもつ、段階と；
前記参照オーディオ・チャネル表現の複数のオーディオ・チャネルにおける二つ以上の非M/Sチャネルにわたって分散する前記混合オーディオ・コンテンツの一つまたは複数の部分を、M/Sオーディオ・チャネル表現の一つまたは複数のM/Sチャネルにわたって拡散するM/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの一つまたは複数の部分に変換する段階であって、前記M/Sオーディオ・チャネル表現は少なくともミッド・チャネルおよびサイド・チャネルを含み、前記ミッド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない和を表わし、前記サイド・チャネルは前記参照オーディオ・チャネル表現の二つのチャネルの重み付けされたまたは重み付けされない差を表わす、段階と；
発話向上のための前記メタデータに基づいて、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分に対して一つまたは複数の発話向上動作を実行する段階であって、前記M/S表現における向上された発話コンテンツの一つまたは複数の部分を生成する段階と；
前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分を、前記M/S表現における向上された発話コンテンツの前記一つまたは複数の部分と組み合わせる段階であって、前記M/S表現における発話向上された混合オーディオ・コンテンツの一つまたは複数の部分を生成する段階とを含む、
一つまたは複数のコンピューティング装置によって実行される、方法。
前記変換する段階、前記実行する段階および前記組み合わせる段階が、前記参照オーディオ・チャネル表現の前記複数のオーディオ・チャネルにおける二つ以上の非M/Sチャネルにわたって分散する前記混合オーディオ・コンテンツの前記一つまたは複数の部分に対して実行される単一の動作において実装される、請求項１７記載の方法。
前記M/S表現における発話向上された混合オーディオ・コンテンツの前記一つまたは複数の部分を、前記参照オーディオ・チャネル表現における発話向上された混合オーディオ・コンテンツの一つまたは複数の部分に逆変換する段階をさらに含む、請求項１７または１８記載の方法。
前記オーディオ信号から、前記混合オーディオ・コンテンツとは別個の、前記M/Sオーディオ・チャネル表現における、前記発話コンテンツのバージョンを抽出し；
前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンの一つまたは複数の部分に対して、発話向上のための前記メタデータの少なくとも一部に基づいて一つまたは複数の発話向上動作を実行して、前記M/Sオーディオ・チャネル表現における向上された発話コンテンツの一つまたは複数の第二の部分を生成することを実行する段階をさらに含む、
請求項１７ないし１９のうちいずれか一項記載の方法。
発話向上のためのブレンド指示データを決定する段階と；
発話向上のための前記ブレンド指示データに基づいて、二つの型の発話向上の特定の定量的な組み合わせを生成する段階であって、第一の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの前記バージョンに基づき、第二の型の発話向上は、前記M/Sオーディオ・チャネル表現における前記発話コンテンツの再構成されたバージョンに基づくパラメトリック発話向上である、段階とをさらに含む、
請求項２０記載の方法。
前記ブレンド指示データが、前記オーディオ信号を生成する上流のオーディオ・エンコーダまたは前記オーディオ信号を受領する受領側オーディオ・デコーダの一方によって、少なくとも部分的には、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分についての一つまたは複数のSNR値に基づいて生成され、前記一つまたは複数のSNR値は、前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツの前記一つまたは複数の部分の発話コンテンツと非発話オーディオ・コンテンツとのパワーの比または前記M/Sオーディオ・チャネル表現における変換された混合オーディオ・コンテンツもしくは参照オーディオ・チャネル表現における混合オーディオ・コンテンツの一方の前記一つまたは複数の部分の発話コンテンツと全オーディオ・コンテンツとのパワーの比のうちの一つまたは複数を表わす、請求項２１記載の方法。
前記二つの型の発話向上の前記特定の定量的な組み合わせは、前記オーディオ信号を生成する上流のオーディオ・エンコーダまたは前記オーディオ信号を受領する受領側オーディオ・デコーダの一方によって構築される聴覚マスキング・モデルを用いて決定され、その際、第一の型の発話向上が、第一および第二の型の発話向上の複数の組み合わせのうちでの、出力される発話向上されたオーディオ・プログラムにおける符号化ノイズが不快なほど可聴でないことを保証する、発話向上の最大の相対量を表わす、請求項２１または２２記載の方法。
発話向上のための前記メタデータの少なくとも一部は、受領側オーディオ・デコーダが、前記参照オーディオ・チャネル表現における前記混合オーディオ・コンテンツから前記M/S表現における前記発話コンテンツのあるバージョンを再構成できるようにする、請求項１７ないし２３のうちいずれか一項記載の方法。
発話向上のための前記メタデータは、前記発話コンテンツの前記バージョンに基づく前記M/Sオーディオ・チャネル表現における発話向上動作または前記M/Sオーディオ・チャネルにおけるパラメトリック発話向上動作の一つまたは複数に関係するメタデータを含む、請求項１７ないし２４のうちいずれか一項記載の方法。
前記参照オーディオ・チャネル表現はサラウンド・スピーカーに関係するオーディオ・チャネルを含む、請求項１７ないし２５のうちいずれか一項記載の方法。
前記参照オーディオ・チャネル表現の前記二つ以上の非M/Sチャネルは、中央チャネル、左チャネルまたは右チャネルのうちの一つまたは複数を含み、前記M/Sオーディオ・チャネル表現の前記一つまたは複数のM/Sチャネルは、ミッド・チャネルまたはサイド・チャネルの一つまたは複数を含む、請求項１７ないし２６のうちいずれか一項記載の方法。
発話向上のための前記メタデータは、前記M/Sオーディオ・チャネル表現のミッド・チャネルに関係する発話向上メタデータの単一のセットを含む、請求項１７ないし２７のうちいずれか一項記載の方法。
発話向上のための前記メタデータは前記オーディオ信号においてエンコードされた全体的なオーディオ・メタデータの一部を表わす、請求項１７ないし２８のうちいずれか一項記載の方法。
前記オーディオ信号においてエンコードされたオーディオ・メタデータは、発話向上のための前記メタデータの存在を示すデータ・フィールを含む、請求項１７ないし２９のうちいずれか一項記載の方法。
前記オーディオ信号は、オーディオビジュアル信号の一部である、請求項１７ないし３０のうちいずれか一項記載の方法。
請求項１ないし３１のうちいずれか一項記載の方法を実行するよう構成されたメディア処理システム。
請求項１ないし３１のうちいずれか一項記載の方法を実行するよう構成された、プロセッサを有する装置。
一つまたは複数のプロセッサによって実行されたときに請求項１ないし３１のうちいずれか一項記載の方法の実行を引き起こすソフトウェア命令を有している非一時的なコンピュータ可読記憶媒体。