JP5051782B2

JP5051782B2 - 音声合成と空間化との結合方法

Info

Publication number: JP5051782B2
Application number: JP2008558857A
Authority: JP
Inventors: グレゴリー・パローネ; マルク・エメリ; ダヴィド・ヴィレット
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-03-13
Filing date: 2007-03-01
Publication date: 2012-10-17
Anticipated expiration: 2027-03-01
Also published as: US8059824B2; ATE447224T1; DE602007002993D1; EP1994526A1; US20090097663A1; EP1994526B1; WO2007104877A1; JP2009530883A; PL1994526T3; ES2335246T3

Description

本発明は、音声処理に関し、具体的には、合成音声ソースの３次元空間化に関する。

現在、合成音声ソースに対する空間化は多くの場合、音声生成モード、即ち音声が合成される方法を考慮することなく行われる。故に、多数のモデル、特にパラメータが合成のために提案されてきた。同時に、多くの空間化技術も、一方で合成のために選択された技術との比較検討が提案されることなく、提案されてきた。

いわゆる“非パラメータ”方法が合成技術において知られている。メモリに予め記憶されたサンプルを修正するために、特定のパラメータは、もともと使用されない。これら方法の最も良く知られた代表的なものは、従来のウェーブテーブル合成である。

このタイプの技術と対照的なのは、“パラメータ”合成方法であって、非パラメータ方法で生成された信号サンプルの数と比べて低減された数のパラメータを扱うモデルの使用に依存する。パラメータ合成技術は通常、加算的、減算的、ソース／フィルタ又は非線形モデルに依存する。

これらパラメータ方法において、用語“相互”は、異なる音声ソースに対応するパラメータを結合的に扱い、その後全てのソースを除いて単一の合成処理のみ用いることが可能な方法を指すのに使用されうる。いわゆる“正弦関数”方法では通常、周波数スペクトルは、ソースの全音声スペクトルの各部分的要素に対する振幅及び周波数等のパラメータから構成される。実際、逆フーリエ変換の実行後に追加／重複を実行することで、同時に複数の音声ソースに対するかなり効果的な合成をもたらす。

音声ソースの空間化に関して、別の技術が現在知られている。いくつかの技術（“トランスオーラル”又は“バイノーラル”）は、ＨＲＴＦ伝達関数（頭部伝達関数）の考慮に基づき、その関数は、個人の形態学による音波の妨害を表し、これらＨＲＴＦ関数は、その個人に特有である。音声の再生は、通常２つの遠隔ラウドスピーカ上（トランスオーラル）で、又はヘッドセットの２つのイヤーピース（バイノーラル）から、聞き手のＨＲＴＦに適合される。他の技術、例えば“アンビオフォニック”又は“マルチチャンネル”（５．１から１０．１又はそれ以上）は、２つより多いラウドスピーカ上での再生にさらに適合される。

具体的に、特定のＨＲＴＦベースの技術は、ＨＲＴＦの“周波数”及び“位置”変数の分離を用いるので、（統計的変数が周波数である、ＨＲＴＦの共分散行列に固有な第１のｐ値に相当する）一組のｐ基本フィルタを与え、これらフィルタは、（ＨＲＴＦを基本フィルタに投影して求まる）空間関数によって重み付けされている。その後、空間関数は、文献ＵＳ５５００９００に記載のように補間することができる。

複数の音声ソースに対する空間化は、各音声ソースの信号に適用されるマルチチャンネルの実装を用いて実行することができる。空間化チャンネルの利得は、多くの場合時間領域に（場合により周波数領域にも）記述されている、信号の音声サンプルに直接適用される。これら音声サンプルは、これらサンプルの始点とは別に、（前述の位置に対する関数である利得を適用して）空間化アルゴリズムによって処理される。故に、提案された空間化は、ナチュラル音声へ、及び合成音声へ等しく適用可能である。

他方で、各音声ソースは、別個の空間利得を使用できるようにするため、（求めた時間又は周波数信号で）別個に合成する必要がある。従って、Ｎ個の音声ソースに対して、Ｎ回の合成計算をする必要がある。

他方で、音声サンプルに利得を適用することは、時間又は周波数領域から導出するかに関らず、サンプルと同数の乗算を要する。従って、Ｑ個のサンプルからなるブロックに対して、少なくともＮ．Ｍ．Ｑ個の利得を用いる必要があり、Ｍは中間チャンネル（例えばアンビオフォニックチャンネル）の数であり、Ｎはソースの数である。

故に、この技術は、複数の音声ソースを空間化する場合に高い計算コストを伴う。

アンビオフォニック技術の中で、いわゆる“仮想ラウドスピーカ”方法は、利得、特に予め計算されたフィルタによる符号化信号の畳み込みによって実行される復号化を、信号に適用することによって、信号が空間化されるよう符号化できるようにする（Jerome Daniel, [Representation of acoustic field, application to the transmission and reproduction of complex sound scenes in a multimedia context], doctoral thesis, 2000）。

合成及び空間化を組み合わせた、かなり有望な技術は、文献ＷＯ０５／０６９２７２に提示されている。

それは、音声ソースを示す信号に割り当てる振幅を決定して、合成すべきソースの音声強度（例えば“音量”）と、このソースの空間利得との両方を定めることである。この文献は、遅延及び利得（即ち“空間関数”）を考慮したバイノーラル空間化、特に、合成されたソースを空間符号化部分に混合することを明確に開示する。

より具体的に、この文献ＷＯ０５／０６９２７２が意図する、“トーン”からなる構成周波数（例えば基本周波数及びその高調波）に振幅を関連付けることによりソースが合成される、例示的な実施形態は、周波数に適用される連続的な空間化を目的として、合成信号を提供して同一の周波数でまとめてグループ化する。

この例示的な実施形態は、図１に示される。合成ブロックＳＹＮＴＨ（破線）では、合成されたＳ_１、．．．、Ｓ_Ｎに対する各ソースの周波数ｆ_０、ｆ_１、ｆ_２、．．．、ｆ_ｐに、各振幅ａ_０ ^１、ａ_１ ^１、．．．、ａ_ｐ ^１、．．．ａ_ｉ ^ｊ、．．．、ａ_０ ^Ｎ、ａ_１ ^Ｎ、．．．、ａ_ｐ ^Ｎが割り当てられ、一般記号ａ_ｉ ^ｊにおいて、ｊは１とＮとの間のソース記号であり、ｉは、０とｐとの間の周波数記号である。明らかに、同一のソースｊに割り当てられる一組のａ_０ ^ｊ、ａ_１ ^ｊ、．．．、ａ_ｐ ^ｊからなる特定の振幅は、対応する周波数がこのソースｊのトーンに現れない場合、ゼロでもよい。

各周波数ｆ_ｉに関する振幅ａ_ｉ ^１、．．．、ａ_ｉ ^Ｎは、（バイノーラルに、例えば各ソースに適用すべきインターオーラル遅延をその後提供することによって）周波数に符号化を適用する空間ブロックＳＰＡＴへ周波数毎に適用されるように、まとめてグループ化（“混合”）される。空間ブロックＳＰＡＴから導かれるチャンネルｃ_１、．．．、ｃ_ｋからなる信号は、その後一つ以上のネットワークを介して送信されるよう意図され、又は後ほど（適切な空間復号化により必要に応じて先に）再生することを目的として記憶、さもなければ処理される。

この技術は、かなり有望であるが、最適化も保証する。

一般に、現在の方法は、複数の合成された音声ソースを空間化するのにかなりの計算電力を要する。

本発明はこの状況を改善する。

このために、本発明は、関連する空間位置にある複数の音声ソースを一緒に合成及び空間化するための方法であって、
ａ）振幅を示す少なくとも一つのパラメータを各ソースに割り当てる段階と、
ｂ）複数のチャンネルへの符号化を実行する空間化段階であって、各振幅パラメータは、空間利得で乗算されるよう複製され、各空間利得は、一方では符号化チャンネルに関して決定され、他方では空間化されるソースに関して決定される、段階と、
ｃ）符号化チャンネル毎に全てのソースに前記乗算されたパラメータの合計を適用することによって、各符号化チャンネルに、利得により乗算されたパラメータをまとめてグループ化する段階と、
ｄ）各符号化チャンネルに適用されるパラメータ合成段階と
を具備する方法を提案する。

故に、本発明はこのために、空間符号化を先ず適用し、次に“疑似合成”を適用することを提案し、用語“疑似”は、通常の合成音声信号にではなく、空間化から導かれる、符号化されたパラメータに合成が特に適用されるという事実に関する。実際、本発明が提案する特徴は、ソースに直接対応する信号の空間符号化を実行することよりむしろ、少数の合成パラメータの空間符号化である。この空間符号化は、振幅を示す合成パラメータに特に適用され、有利には、ソースの各々所望の位置に基づき計算される空間利得をこれら少数の合成パラメータに適用することにある。故に、段階ｂ）において利得で乗算されたパラメータと、段階ｃ）においてまとめてグループ化されたパラメータとは実際に、前述した一般的な先行技術のような音声信号ではないことが分かる。

故に、本発明は、パラメータのうち１つが振幅の次元を有する相互パラメータ合成を用いる。従来技術とは異なり、本発明は故に、空間化を実行するためにそのような合成の利点を採用する。ソース毎に得られた一組の合成パラメータの組合せは、相互パラメータ合成符号化ブロックを全体として有利に制御することができる。

また、本発明は、パラメータ合成モデルからの複数の合成された音声ソースを同時に、及び別個に空間化することができ、空間利得は、時間又は周波数領域のサンプルよりむしろ、合成パラメータに適用される。その後、この実施形態は、低い計算コストを含むので、必要とされる計算電力に実質的な節約を提供する。

本発明が提供する１つの利点によると、合成における段階の数は、ソースの数と独立に成されるので、中間チャンネル毎に単に１つの合成が適用可能である。音声ソースの数に関係なく、合成計算の一定数Ｍのみが提供される。通常、ソースの数Ｎが中間チャンネルの数Ｍより増大する時、本発明は、従来技術による一般的な技法より少ない計算を必要とする。例えば、アンビオフォニックオーダが１で２次元（即ち３つの中間チャンネル）の場合、本発明は、空間化すべき４つのソースのみに対する計算利得を提供するだけである。

また、本発明は、適用すべき利得数を低減することができる。実際、利得は、合成パラメータに適用され、音声サンプルには適用されない。音量のようなパラメータの更新は、信号のサンプリング周波数よりもあまり頻繁でないので、故に計算の節約が得られる。例えば、２００Ｈｚのパラメータ更新周波数（特に音量等）に対して、乗算上の実質的な節約は、４４１００Ｈｚの信号のサンプリング周波数のために得られる（約２００の割合で）。

本発明を適用する分野は、音楽分野（特に携帯電話の和音着メロ）、マルチメディア分野（特にビデオゲームのサウンドトラック）、仮想現実分野（音楽場面の演出）、シミュレータ（エンジンノイズ合成）、及びその他の分野に等しく関わることができる。

図２を参照すると、振幅を示す少なくとも一つのパラメータｐ_ｉは、合成及び空間化されるように複数のソースＳ_１、．．．、Ｓ_Ｎの中からソースＳ_ｉに割り当てられる（ｉは１とＮとの間）。各パラメータｐ_ｉは、空間ブロックＳＰＡＴに提供されている符号化チャンネルと同じ数だけ複製される。Ｍ個の符号化チャンネルが空間化のために提供されることを示す例において、各パラメータｐ_ｉは、各空間利得ｇ_ｉ ^１、．．．、ｇ_ｉ ^Ｍを適用するためにＭ倍に複製される（ｉはソースの参照記号Ｓ_ｉを示す）。

その後、それぞれ利得によって乗算されたＮ．Ｍ個のパラメータｐ_１ｇ_１ ^１、．．．、ｐ_１ｇ_１ ^Ｍ、．．．、ｐ_ｉｇ_ｉ ^１、．．．、ｐ_ｉｇ_ｉ ^Ｍ、．．．、ｐ_Ｎｇ_Ｎ ^１、．．．、ｐ_Ｎｇ_Ｎ ^Ｍが得られる。

これら乗算されたパラメータはその後、空間チャンネル（全部でＭ個のチャンネル）上でまとめてグループ化され（図２の参照記号Ｒ）即ち、
−ｐ_１ｇ_１ ^１、．．．、ｐ_ｉｇ_ｉ ^１、．．．、ｐ_Ｎｇ_Ｎ ^１は第１の符号化チャンネルのパラメータｐ_ｇ ^１にまとめてグループ化され
−ｐ_１ｇ_１ ^Ｍ、．．．、ｐ_ｉｇ_ｉ ^Ｍ、．．．、ｐ_Ｎｇ_Ｎ ^Ｍは第Ｍの符号化チャンネルのパラメータｐ_ｇ ^Ｍにまとめてグループ化され、指数記号ｇは、用語“グローバル”を意味する。

故に、新たなパラメータｐ_ｉ ^ｍ（ｉは１からＮまで、ｍは１からＭまで変化）は、各ソースの位置から得られるパラメータｐ_ｉを符号化利得ｇ_ｉ ^ｍで乗算することにより計算される。パラメータｐ_ｉ ^ｍは、（一例では加算により）結合され、パラメータｐ_ｇ ^ｍを提供し、パラメータｐ_ｇ ^ｍは、Ｍ個の相互パラメータ合成ブロックに送られる。これらＭ個のブロック（図２の参照記号ＳＹＮＴＨ（１）からＳＹＮＴＨ（Ｍ））は、合成モジュールＳＹＮＴＨを構成し、パラメータｐ_ｇ ^ｍからの合成により得られたＭ個の時間又は周波数信号ｓｓ^ｍを供給する（ｍは１からＭまで変化）。これらの信号ｓｓ^ｍはその後、図３を参照して以下に説明するように、従来の空間復号化ブロックへ送ることができる。

特定の実施形態において使用される合成は、逆フーリエ変換（ＩＦＦＴ）を用いた加算合成である。

このために、一組のＮ個のソースは、複数のパラメータｐ_ｉ，ｋによって特徴付けられ、そのパラメータは、ｉ番目のソースＳ_ｉに対するｋ番目の周波数要素の周波数領域における振幅を示す。

このソースＳ_ｉに対応する時間信号ｓ_ｉ（ｎ）は、他のソースとは別に合成される場合、以下の式により与えられる。

ここで、瞬間ｎにおいて、ｐ_ｉ，ｋは、周波数要素ｆ_ｉ，ｋの振幅であり、φ_ｉ，ｋは、ソースＳ_ｉに対する位相である。

例えば文献ＦＲ−２６７９６８９に説明された技術を用いて、与えられたパラメータｐ_ｉ，ｋ、ｆ_ｉ，ｋ及びφ_ｉ，ｋのみから周波数領域の加算合成を供給することができる。

パラメータｐ_ｉ，ｋは、所定のソースＳ_ｉに対して与えられた周波数要素ｋの振幅を示す。故に、パラメータｐ^ｍ _ｉ，ｋは、以下の関係を用いて、各ソース及び各Ｍ個の符号化チャンネルについてそこから推定することができる。
ｐ^ｍ _ｉ，ｋ＝ｇ^ｍ _ｉ・ｐ_ｉ，ｋ、ｍは１からＭまで変化

利得ｇ^ｍ _ｉは、ソースＳ_ｉの所望の位置について、選択された空間符号化に従って、予め定められる。

例えばアンビオフォニック符号化（ambiophonic encoding）の場合、これら利得は、球面調和関数に対応し、ｇ^ｍ _ｉ＝Ｙ_ｍ（θ_ｉ、δ_ｉ）と表現でき、
−Ｙ_ｍはｍ番目の球面調和関数であり
−θ_ｉ及びδ_ｉはそれぞれ、ソースＳ_ｉに対する所望の方位角及び位置である。

パラメータｐ^ｍ _ｉ，ｋはその後、単一のグローバルパラメータ

を求めるために周波数毎に結合され、ここでｋ´は、全ソースＳ_ｉに存する全周波数ｆ_ｉ，ｋを記述する。

実際、共通周波数が同時に複数のソースを特徴付けできるので、ｋ´の値は、ｋ．ｉより低い。一つの実施形態において、特定のソース周波数に対する特定の振幅パラメータがゼロの場合、同一のグローバルな一組の周波数を全ソースに関連付けるような仮定が可能である。

この場合、ｋ及びｋ´の値は同じで、前述の関係式は簡単に以下のように表せる。

合成段階は、これらパラメータｐ^ｍ _ｇ，ｋ（ｍは１からＭまで変化）を用いて、合成モジュールＳＹＮＴＨから導出されるＭ個の周波数スペクトルｓｓ^ｍ（ω）の各々を合成することにある。このために、時間窓のフーリエ変換（例えばハニング）に対応し、周波数ｆ_ｋ上で予めサンプル化され、集計され、中央に置かれ、その後以下の式で表す、ｐ^ｍ _ｇ，ｋで重み付けされるスペクトル包絡線を繰返し追加することによって、ＦＲ−２６７９６８９に記載の技術を適用するような仮定が可能であり、ここでｅｎｖ_ｋ（ω）は、周波数ｆ_ｋ上で中央に置かれたスペクトル包絡線である。

この実施形態は、図４に図示される。Ｋ個の振幅パラメータｐ_ｉ，ｋは、各ソースＳ_ｉに割り当てられる。ソースの指数ｉは、１とＮとの間である。周波数の指数ｋは、１とＫとの間である。ソースＳ_ｉ毎に、これらＫ個のパラメータは、空間利得ｇ_ｉ ^ｍによって各々乗算されるようＭ倍に複製される。符号化チャンネルの指数ｍは１とＭとの間である。

各チャンネルｍにおいて、積ｇ_ｉ ^ｍ・ｐ_ｉ，ｋに対するＫ個の結果は、以下の式に従い周波数毎にまとめてグループ化される。

ここで、ｋは各符号化チャンネルｍにおいて１からＫまで変化し、ｍは１からＭまでグローバルに変化する。

故に各チャンネルｍにおいて、サブチャンネルｐ^ｍ _ｇ，ｋが提供され、それぞれ周波数要素ｋに関連付けられ、指数ｇは用語“グローバル”を意味する。

その後の処理は継続し、全てのＫ個のサブチャンネル（ｋは１とＫとの間）について、及びグローバルに、全てのＭ個の符号化チャンネル（ｍは１とＭとの間）について、この周波数ｆ_ｋ上で中央に置かれたスペクトル包絡線ｅｎｖ_ｋ（ω）によって、周波数ｆ_ｋに関連付けられた各サブチャンネルｐ^ｍ _ｇ，ｋのグローバルパラメータを乗算する。その後、Ｋ個のサブチャンネルは、以下の関係式に従い各符号化チャンネルｍについて合計される。

ここでｍは、全体で１からＭ個のチャンネルに及ぶ。

その後、信号ｓｓ^ｍ（ω）が求められ、その空間化に関して符号化され、本発明に従い合成される。それらは周波数領域で表される。

これらＭ個の信号を時間領域（即ちＳＳ^ｍ（ｎ））に至らしめるには、逆フーリエ変換（ＩＦＦＴ）をそれらにその後適用することができる。
ＳＳ^ｍ（ｎ）＝ＩＦＦＴ（ＳＳ^ｍ（ω））

連続フレームによる処理は、従来の追加／重複技術により実行可能である。

Ｍ個の時間信号ＳＳ^ｍ（ｎ）の各々はその後、空間復号化ブロックに供給可能である。

このために、例えば図３に示すように、各信号ＳＳ^ｍ（ｎ）について一対の整合フィルタＦｇ^ｍ（ｎ）、Ｆｄ^ｍ（ｎ）を畳み込みで使用し、左右両符号化チャンネルを備えたバイノーラル再生にアンビオフォニック符号化を適合するよう提供可能である。

アンビオフォニック／バイノーラル移行のようなこれらフィルタは、前述の仮想ラウドスピーカ技術を用いて求めることができる。

図３の空間復号化ブロックＤＥＣＯＤが実行する処理は、以下のタイプでもよい。
ＳＳ^ｍ _ｇ（ｎ）＝（ＳＳ^ｍ＊Ｆｇ^ｍ）（ｎ）
ＳＳ^ｍ _ｄ（ｎ）＝（ＳＳ^ｍ＊Ｆｄ^ｍ）（ｎ）

フィルタリング後、左右の耳に向けられた全信号は、各々合計され、故に一対のバイノーラル信号が求められる。

その後、２つのイヤーピースを備えたヘッドセットのスピーカに送られる。

ここで、以下により有利な実施形態の変形について記載する。バイノーラル形式にアンビオフォニックフォーマットを適合するフィルタは、周波数領域で直接用いられるので、時間領域の畳み込みと対応する計算費用とを回避することができる。

このために、Ｍ個の周波数スペクトルＳＳ^ｍ（ω）の各々は、時間フィルタの各フーリエ変換（一定数のポイントを有するよう調節された）Ｆｇ^ｍ（ω）及びＦｄ^ｍ（ω）によって直接乗算され、以下のように表せる。
ＳＳ^ｍ _ｇ（ω）＝ＳＳ^ｍ（ω）．Ｆｇ^ｍ（ω）
ＳＳ^ｍ _ｄ（ω）＝ＳＳ^ｍ（ω）．Ｆｄ^ｍ（ω）

その後、スペクトルは、逆フーリエ変換の実行と追加／重複の動作との前に各耳について合計され、即ち以下のようになる。

その後、時間領域で再生装置に送られる信号を表すために、逆フーリエ変換が使用される。
Ｓ_ｇ（ｎ）＝ＩＦＦＴ（Ｓ_ｇ（ω））
Ｓ_ｄ（ｎ）＝ＩＦＦＴ（Ｓ_ｄ（ω））

また、本発明は、コンピュータプログラム製品に向けられ、中央ユニットの、もしくは端末のメモリに、又は特にこの中央ユニットのドライブと協働する取り外し可能な媒体（ＣＤ−ＲＯＭ、ディスケット、その他）上に記憶可能であり、又は通信ネットワークを介してもダウンロード可能である。このプログラムは、特に前述の方法と、そのような方法の段階を要約した図５に一例として示しうるフロー図と、を実行するための命令を含む。

段階ａ）は、各ソースＳ_ｉに振幅を示すパラメータを割り当てることを対象とする。例では、パラメータｐ_ｉ，ｋは、前述のような各周波数要素ｆ_ｋに割り当てられる。

段階ｂ）は、符号化チャンネルの利得ｇ_ｉ ^ｍによるこれらパラメータの複製とその乗算とを対象とする。

段階ｃ）は、特に全てのソースＳ_ｉに対するその合計の計算に、段階ｂ）で求めた積をまとめてグループ化することを対象とする。

段階ｄ）は、前述のようなスペクトル包絡線ｅｎｖ_ｋによる乗算を用いたパラメータ合成を行ってから、全周波数要素に対する加算をチャンネル毎に適用することによりサブチャンネルをまとめてグループ化することを対象とする（指数ｋは１からＫに及ぶ）。

段階ｅ）は、２つのラウドスピーカ上で再生するために、例えばバイノーラル形式において、周波数領域で合成、空間化及び表現される、各符号化チャンネルから導かれる信号ｓｓ^ｍの空間復号化を対象とする。

また、本発明は、プロセッサと、具体的には前述のコンピュータプログラム製品の命令を専用に記憶するワーキングメモリとを特に含む、合成され空間化された音声を生成するための装置を対象とする。

もちろん、本発明は、一例であって前述の実施形態に限定されず、他の変形実施形態にも及ぶ。

故に、アンビオフォニック形式の空間符号化は、一例として前述され、図２のモジュールＳＰＡＴによって実行され、次にアンビオフォニック形式からバイノーラル形式に適合される。その変形として、例えばバイノーラル形式に符号化を直接用いるような仮定が可能である。

また、パラメータ合成のスペクトル包絡線による乗算は、一例として前述され、他の形式も変形実施形態として提供できる。

図１は、従来技術に関する。図２は、本発明による方法で提供された一般的な空間化及び合成処理を示す。図３は、再生することを目的とした空間復号化のために、空間化及び合成された信号を処理することを示す。図４は、各々が周波数要素に関連付けられた複数の振幅パラメータが各ソースに割り当てられている特定の実施形態を示す。図５は、本発明による方法の段階を示し、本発明を実行するためのコンピュータプログラムのフロー図に対応することができる。

Claims

関連する空間位置の複数の音声ソースを一緒に合成及び空間化するための方法であって、
ａ）振幅を示す少なくとも一つのパラメータ（ｐ_ｉ）を各ソースに割り当てる段階と、
ｂ）複数のチャンネルへの符号化を実行する空間化段階であって、各振幅パラメータ（ｐ_ｉ）は、空間利得（ｇ_ｉ ^ｍ）で乗算されるよう複製され、各空間利得は、一方では符号化チャンネルに関して決定され、他方では空間化されるソース（Ｓ_ｉ）に関して決定される、段階と、
ｃ）符号化チャンネル毎に全てのソース（Ｓ_ｉ）に前記乗算されたパラメータ（ｐ_ｉ ^ｍ）の合計を適用することによって、各符号化チャンネルに、利得により乗算されたパラメータ（ｐ_ｉ ^ｍ）をまとめてグループ化（Ｒ）する段階と、
ｄ）各符号化チャンネルに適用されるパラメータ合成段階（ＳＹＮＴＨ（１）、．．．、ＳＹＮＴＨ（Ｍ））と
を具備することを特徴とする方法。
ａ）各ソース（Ｓ_ｉ）は、周波数要素（ｆ_ｋ）の振幅を各々示す複数のパラメータ（ｐ_ｉ，ｋ）が割り当てられ、
ｂ）周波数要素（ｆ_ｋ）を示す各振幅パラメータ（ｐ_ｉ，ｋ）は、空間利得（ｇ_ｉ ^ｍ）で乗算されるよう複製され、各空間利得は、一方では符号化チャンネルに関して決定され、他方では空間化されるソース（Ｓ_ｉ）に関して決定され、
ｃ）各符号化チャンネルにおいて、周波数要素（ｆ_ｋ）に各々関連付けられたサブチャンネルに、利得（ｇ_ｉ ^ｍ）によるパラメータ（ｐ_ｉ，ｋ）の積を周波数要素毎にまとめてグループ化する
ことを特徴とする請求項１に記載の方法。
ｄ１）周波数要素（ｆ_ｋ）に関連付けられた各サブチャンネルの出力を、前記周波数要素（ｆ_ｋ）に対応する周波数上で中央に置かれたスペクトル包絡線（ｅｎｖ_ｋ）によって乗算する過程と、
ｄ２）過程ｄ１）から求まる積を、周波数要素（ｆ_ｋ）にわたる合計によってまとめてグループ化する過程と
によって合成が各チャンネルで行われ、空間的に符号化及び合成された、各チャンネルから導かれた信号（ｓｓ^ｍ）を過程ｄ２）の次に求めることを特徴とする請求項２に記載の方法。
空間化は、アンビオフォニック符号化により行われ、ソースに割り当てられる振幅を示すパラメータは、球面調和振幅（Ｙ_ｍ）に対応することを特徴とする請求項１〜３のうち何れか１項に記載の方法。
関連する空間位置の複数の音声ソースを一緒に合成及び空間化するための方法であって、
ａ）振幅を示す少なくとも一つのパラメータ（ｐ _ｉ）を各ソースに割り当てる段階と、
ｂ）複数のチャンネルへの符号化を実行する空間化段階であって、各振幅パラメータ（ｐ _ｉ）は、空間利得（ｇ _ｉ ^ｍ）で乗算されるよう複製され、各空間利得は、一方では符号化チャンネルに関して決定され、他方では空間化されるソース（Ｓ _ｉ）に関して決定される、段階と、
ｃ）符号化チャンネル毎に全てのソース（Ｓ _ｉ）に前記乗算されたパラメータ（ｐ _ｉ ^ｍ）の合計を適用することによって、各符号化チャンネルに、利得により乗算されたパラメータ（ｐ _ｉ ^ｍ）をまとめてグループ化（Ｒ）する段階と、
ｄ）各符号化チャンネルに適用されるパラメータ合成段階（ＳＹＮＴＨ（１）、．．．、ＳＹＮＴＨ（Ｍ））とを具備し、
ａ′）各ソース（Ｓ _ｉ）は、周波数要素（ｆ _ｋ）の振幅を各々示す複数のパラメータ（ｐ _ｉ，ｋ）が割り当てられ、
ｂ′）周波数要素（ｆ _ｋ）を示す各振幅パラメータ（ｐ _ｉ，ｋ）は、空間利得（ｇ _ｉ ^ｍ）で乗算されるよう複製され、各空間利得は、一方では符号化チャンネルに関して決定され、他方では空間化されるソース（Ｓ _ｉ）に関して決定され、
ｃ′）各符号化チャンネルにおいて、周波数要素（ｆ _ｋ）に各々関連付けられたサブチャンネルに、利得（ｇ _ｉ ^ｍ）によるパラメータ（ｐ _ｉ，ｋ）の積を周波数要素毎にまとめてグループ化する方法であって、
ｄ１）周波数要素（ｆ _ｋ）に関連付けられた各サブチャンネルの出力を、前記周波数要素（ｆ _ｋ）に対応する周波数上で中央に置かれたスペクトル包絡線（ｅｎｖ _ｋ）によって乗算する過程と、
ｄ２）過程ｄ１）から求まる積を、周波数要素（ｆ _ｋ）にわたる合計によってまとめてグループ化する過程と
によって合成が各チャンネルで行われ、空間的に符号化及び合成された、各チャンネルから導かれた信号（ｓｓ ^ｍ）を過程ｄ２）の次に求める方法であって、
空間化は、アンビオフォニック符号化により行われ、ソースに割り当てられる振幅を示すパラメータは、球面調和振幅（Ｙ _ｍ）に対応し、
アンビオフォニック符号化から復号化へ切換えてバイノーラル空間化モードで再生するために、過程ｄ２）の後に各チャンネルから導かれる積の結果に対して、処理が周波数領域で直接適用されることを特徴とする、方法。
中央ユニットの、若しくは端末のメモリに、及び／又は前記中央ユニットのドライブと特に協働する取り外し可能媒体に記憶され、及び／又は通信ネットワークを介してダウンロード可能であり、請求項１〜５のうち何れか１項に記載の方法を実行するための命令を含むことを特徴とするコンピュータプログラム製品。
空間化された合成音声を生成し、プロセッサを特に具備し、請求項６に記載のコンピュータプログラム製品の命令を記憶するワーキングメモリをさらに具備することを特徴とするモジュール。