JP5051782B2 - 音声合成と空間化との結合方法 - Google Patents

音声合成と空間化との結合方法 Download PDF

Info

Publication number
JP5051782B2
JP5051782B2 JP2008558857A JP2008558857A JP5051782B2 JP 5051782 B2 JP5051782 B2 JP 5051782B2 JP 2008558857 A JP2008558857 A JP 2008558857A JP 2008558857 A JP2008558857 A JP 2008558857A JP 5051782 B2 JP5051782 B2 JP 5051782B2
Authority
JP
Japan
Prior art keywords
channel
parameter
source
frequency
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008558857A
Other languages
English (en)
Other versions
JP2009530883A (ja
Inventor
グレゴリー・パローネ
マルク・エメリ
ダヴィド・ヴィレット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2009530883A publication Critical patent/JP2009530883A/ja
Application granted granted Critical
Publication of JP5051782B2 publication Critical patent/JP5051782B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/301Soundscape or sound field simulation, reproduction or control for musical purposes, e.g. surround or 3D sound; Granular synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Telephone Set Structure (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Golf Clubs (AREA)

Description

本発明は、音声処理に関し、具体的には、合成音声ソースの3次元空間化に関する。
現在、合成音声ソースに対する空間化は多くの場合、音声生成モード、即ち音声が合成される方法を考慮することなく行われる。故に、多数のモデル、特にパラメータが合成のために提案されてきた。同時に、多くの空間化技術も、一方で合成のために選択された技術との比較検討が提案されることなく、提案されてきた。
いわゆる“非パラメータ”方法が合成技術において知られている。メモリに予め記憶されたサンプルを修正するために、特定のパラメータは、もともと使用されない。これら方法の最も良く知られた代表的なものは、従来のウェーブテーブル合成である。
このタイプの技術と対照的なのは、“パラメータ”合成方法であって、非パラメータ方法で生成された信号サンプルの数と比べて低減された数のパラメータを扱うモデルの使用に依存する。パラメータ合成技術は通常、加算的、減算的、ソース/フィルタ又は非線形モデルに依存する。
これらパラメータ方法において、用語“相互”は、異なる音声ソースに対応するパラメータを結合的に扱い、その後全てのソースを除いて単一の合成処理のみ用いることが可能な方法を指すのに使用されうる。いわゆる“正弦関数”方法では通常、周波数スペクトルは、ソースの全音声スペクトルの各部分的要素に対する振幅及び周波数等のパラメータから構成される。実際、逆フーリエ変換の実行後に追加/重複を実行することで、同時に複数の音声ソースに対するかなり効果的な合成をもたらす。
音声ソースの空間化に関して、別の技術が現在知られている。いくつかの技術(“トランスオーラル”又は“バイノーラル”)は、HRTF伝達関数(頭部伝達関数)の考慮に基づき、その関数は、個人の形態学による音波の妨害を表し、これらHRTF関数は、その個人に特有である。音声の再生は、通常2つの遠隔ラウドスピーカ上(トランスオーラル)で、又はヘッドセットの2つのイヤーピース(バイノーラル)から、聞き手のHRTFに適合される。他の技術、例えば“アンビオフォニック”又は“マルチチャンネル”(5.1から10.1又はそれ以上)は、2つより多いラウドスピーカ上での再生にさらに適合される。
具体的に、特定のHRTFベースの技術は、HRTFの“周波数”及び“位置”変数の分離を用いるので、(統計的変数が周波数である、HRTFの共分散行列に固有な第1のp値に相当する)一組のp基本フィルタを与え、これらフィルタは、(HRTFを基本フィルタに投影して求まる)空間関数によって重み付けされている。その後、空間関数は、文献US5500900に記載のように補間することができる。
複数の音声ソースに対する空間化は、各音声ソースの信号に適用されるマルチチャンネルの実装を用いて実行することができる。空間化チャンネルの利得は、多くの場合時間領域に(場合により周波数領域にも)記述されている、信号の音声サンプルに直接適用される。これら音声サンプルは、これらサンプルの始点とは別に、(前述の位置に対する関数である利得を適用して)空間化アルゴリズムによって処理される。故に、提案された空間化は、ナチュラル音声へ、及び合成音声へ等しく適用可能である。
他方で、各音声ソースは、別個の空間利得を使用できるようにするため、(求めた時間又は周波数信号で)別個に合成する必要がある。従って、N個の音声ソースに対して、N回の合成計算をする必要がある。
他方で、音声サンプルに利得を適用することは、時間又は周波数領域から導出するかに関らず、サンプルと同数の乗算を要する。従って、Q個のサンプルからなるブロックに対して、少なくともN.M.Q個の利得を用いる必要があり、Mは中間チャンネル(例えばアンビオフォニックチャンネル)の数であり、Nはソースの数である。
故に、この技術は、複数の音声ソースを空間化する場合に高い計算コストを伴う。
アンビオフォニック技術の中で、いわゆる“仮想ラウドスピーカ”方法は、利得、特に予め計算されたフィルタによる符号化信号の畳み込みによって実行される復号化を、信号に適用することによって、信号が空間化されるよう符号化できるようにする(Jerome Daniel, [Representation of acoustic field, application to the transmission and reproduction of complex sound scenes in a multimedia context], doctoral thesis, 2000)。
合成及び空間化を組み合わせた、かなり有望な技術は、文献WO05/069272に提示されている。
それは、音声ソースを示す信号に割り当てる振幅を決定して、合成すべきソースの音声強度(例えば“音量”)と、このソースの空間利得との両方を定めることである。この文献は、遅延及び利得(即ち“空間関数”)を考慮したバイノーラル空間化、特に、合成されたソースを空間符号化部分に混合することを明確に開示する。
より具体的に、この文献WO05/069272が意図する、“トーン”からなる構成周波数(例えば基本周波数及びその高調波)に振幅を関連付けることによりソースが合成される、例示的な実施形態は、周波数に適用される連続的な空間化を目的として、合成信号を提供して同一の周波数でまとめてグループ化する。
この例示的な実施形態は、図1に示される。合成ブロックSYNTH(破線)では、合成されたS、...、Sに対する各ソースの周波数f、f、f、...、fに、各振幅a 、a 、...、a 、...a 、...、a 、a 、...、a が割り当てられ、一般記号a において、jは1とNとの間のソース記号であり、iは、0とpとの間の周波数記号である。明らかに、同一のソースjに割り当てられる一組のa 、a 、...、a からなる特定の振幅は、対応する周波数がこのソースjのトーンに現れない場合、ゼロでもよい。
各周波数fに関する振幅a 、...、a は、(バイノーラルに、例えば各ソースに適用すべきインターオーラル遅延をその後提供することによって)周波数に符号化を適用する空間ブロックSPATへ周波数毎に適用されるように、まとめてグループ化(“混合”)される。空間ブロックSPATから導かれるチャンネルc、...、cからなる信号は、その後一つ以上のネットワークを介して送信されるよう意図され、又は後ほど(適切な空間復号化により必要に応じて先に)再生することを目的として記憶、さもなければ処理される。
この技術は、かなり有望であるが、最適化も保証する。
一般に、現在の方法は、複数の合成された音声ソースを空間化するのにかなりの計算電力を要する。
本発明はこの状況を改善する。
このために、本発明は、関連する空間位置にある複数の音声ソースを一緒に合成及び空間化するための方法であって、
a)振幅を示す少なくとも一つのパラメータを各ソースに割り当てる段階と、
b)複数のチャンネルへの符号化を実行する空間化段階であって、各振幅パラメータは、空間利得で乗算されるよう複製され、各空間利得は、一方では符号化チャンネルに関して決定され、他方では空間化されるソースに関して決定される、段階と、
c)符号化チャンネル毎に全てのソースに前記乗算されたパラメータの合計を適用することによって、各符号化チャンネルに、利得により乗算されたパラメータをまとめてグループ化する段階と、
d)各符号化チャンネルに適用されるパラメータ合成段階と
を具備する方法を提案する。
故に、本発明はこのために、空間符号化を先ず適用し、次に“疑似合成”を適用することを提案し、用語“疑似”は、通常の合成音声信号にではなく、空間化から導かれる、符号化されたパラメータに合成が特に適用されるという事実に関する。実際、本発明が提案する特徴は、ソースに直接対応する信号の空間符号化を実行することよりむしろ、少数の合成パラメータの空間符号化である。この空間符号化は、振幅を示す合成パラメータに特に適用され、有利には、ソースの各々所望の位置に基づき計算される空間利得をこれら少数の合成パラメータに適用することにある。故に、段階b)において利得で乗算されたパラメータと、段階c)においてまとめてグループ化されたパラメータとは実際に、前述した一般的な先行技術のような音声信号ではないことが分かる。
故に、本発明は、パラメータのうち1つが振幅の次元を有する相互パラメータ合成を用いる。従来技術とは異なり、本発明は故に、空間化を実行するためにそのような合成の利点を採用する。ソース毎に得られた一組の合成パラメータの組合せは、相互パラメータ合成符号化ブロックを全体として有利に制御することができる。
また、本発明は、パラメータ合成モデルからの複数の合成された音声ソースを同時に、及び別個に空間化することができ、空間利得は、時間又は周波数領域のサンプルよりむしろ、合成パラメータに適用される。その後、この実施形態は、低い計算コストを含むので、必要とされる計算電力に実質的な節約を提供する。
本発明が提供する1つの利点によると、合成における段階の数は、ソースの数と独立に成されるので、中間チャンネル毎に単に1つの合成が適用可能である。音声ソースの数に関係なく、合成計算の一定数Mのみが提供される。通常、ソースの数Nが中間チャンネルの数Mより増大する時、本発明は、従来技術による一般的な技法より少ない計算を必要とする。例えば、アンビオフォニックオーダが1で2次元(即ち3つの中間チャンネル)の場合、本発明は、空間化すべき4つのソースのみに対する計算利得を提供するだけである。
また、本発明は、適用すべき利得数を低減することができる。実際、利得は、合成パラメータに適用され、音声サンプルには適用されない。音量のようなパラメータの更新は、信号のサンプリング周波数よりもあまり頻繁でないので、故に計算の節約が得られる。例えば、200Hzのパラメータ更新周波数(特に音量等)に対して、乗算上の実質的な節約は、44 100Hzの信号のサンプリング周波数のために得られる(約200の割合で)。
本発明を適用する分野は、音楽分野(特に携帯電話の和音着メロ)、マルチメディア分野(特にビデオゲームのサウンドトラック)、仮想現実分野(音楽場面の演出)、シミュレータ(エンジンノイズ合成)、及びその他の分野に等しく関わることができる。
図2を参照すると、振幅を示す少なくとも一つのパラメータpは、合成及び空間化されるように複数のソースS、...、Sの中からソースSに割り当てられる(iは1とNとの間)。各パラメータpは、空間ブロックSPATに提供されている符号化チャンネルと同じ数だけ複製される。M個の符号化チャンネルが空間化のために提供されることを示す例において、各パラメータpは、各空間利得g 、...、g を適用するためにM倍に複製される(iはソースの参照記号Sを示す)。
その後、それぞれ利得によって乗算されたN.M個のパラメータp 、...、p 、...、p 、...、p 、...、p 、...、p が得られる。
これら乗算されたパラメータはその後、空間チャンネル(全部でM個のチャンネル)上でまとめてグループ化され(図2の参照記号R)即ち、
−p 、...、p 、...、p は第1の符号化チャンネルのパラメータ にまとめてグループ化され
−p 、...、p 、...、p は第Mの符号化チャンネルのパラメータ にまとめてグループ化され、指数記号gは、用語“グローバル”を意味する。
故に、新たなパラメータp (iは1からNまで、mは1からMまで変化)は、各ソースの位置から得られるパラメータpを符号化利得g で乗算することにより計算される。パラメータp は、(一例では加算により)結合され、パラメータp を提供し、パラメータp は、M個の相互パラメータ合成ブロックに送られる。これらM個のブロック(図2の参照記号SYNTH(1)からSYNTH(M))は、合成モジュールSYNTHを構成し、パラメータp からの合成により得られたM個の時間又は周波数信号ssを供給する(mは1からMまで変化)。これらの信号ssはその後、図3を参照して以下に説明するように、従来の空間復号化ブロックへ送ることができる。
特定の実施形態において使用される合成は、逆フーリエ変換(IFFT)を用いた加算合成である。
このために、一組のN個のソースは、複数のパラメータpi,kによって特徴付けられ、そのパラメータは、i番目のソースSに対するk番目の周波数要素の周波数領域における振幅を示す。
このソースSに対応する時間信号s(n)は、他のソースとは別に合成される場合、以下の式により与えられる。
Figure 0005051782
ここで、瞬間nにおいて、pi,kは、周波数要素fi,kの振幅であり、φi,kは、ソースSに対する位相である。
例えば文献FR−2 679689に説明された技術を用いて、与えられたパラメータpi,k、fi,k及びφi,kのみから周波数領域の加算合成を供給することができる。
パラメータpi,kは、所定のソースSに対して与えられた周波数要素kの振幅を示す。故に、パラメータp i,kは、以下の関係を用いて、各ソース及び各M個の符号化チャンネルについてそこから推定することができる。
i,k=g ・pi,k、mは1からMまで変化
利得g は、ソースSの所望の位置について、選択された空間符号化に従って、予め定められる。
例えばアンビオフォニック符号化(ambiophonic encoding)の場合、これら利得は、球面調和関数に対応し、g =Y(θ、δ)と表現でき、
−Yはm番目の球面調和関数であり
−θ及びδはそれぞれ、ソースSに対する所望の方位角及び位置である。
パラメータp i,kはその後、単一のグローバルパラメータ
Figure 0005051782
を求めるために周波数毎に結合され、ここでk´は、全ソースSに存する全周波数fi,kを記述する。
実際、共通周波数が同時に複数のソースを特徴付けできるので、k´の値は、k.iより低い。一つの実施形態において、特定のソース周波数に対する特定の振幅パラメータがゼロの場合、同一のグローバルな一組の周波数を全ソースに関連付けるような仮定が可能である。
この場合、k及びk´の値は同じで、前述の関係式は簡単に以下のように表せる。
Figure 0005051782
合成段階は、これらパラメータp g,k(mは1からMまで変化)を用いて、合成モジュールSYNTHから導出されるM個の周波数スペクトルss(ω)の各々を合成することにある。このために、時間窓のフーリエ変換(例えばハニング)に対応し、周波数f上で予めサンプル化され、集計され、中央に置かれ、その後以下の式で表す、p g,kで重み付けされるスペクトル包絡線を繰返し追加することによって、FR−2 679689に記載の技術を適用するような仮定が可能であり、ここでenv(ω)は、周波数f上で中央に置かれたスペクトル包絡線である。
Figure 0005051782
この実施形態は、図4に図示される。K個の振幅パラメータpi,kは、各ソースSに割り当てられる。ソースの指数iは、1とNとの間である。周波数の指数kは、1とKとの間である。ソースS毎に、これらK個のパラメータは、空間利得g によって各々乗算されるようM倍に複製される。符号化チャンネルの指数mは1とMとの間である。
各チャンネルmにおいて、積g ・pi,kに対するK個の結果は、以下の式に従い周波数毎にまとめてグループ化される。
Figure 0005051782
ここで、kは各符号化チャンネルmにおいて1からKまで変化し、mは1からMまでグローバルに変化する。
故に各チャンネルmにおいて、サブチャンネルp g,kが提供され、それぞれ周波数要素kに関連付けられ、指数gは用語“グローバル”を意味する。
その後の処理は継続し、全てのK個のサブチャンネル(kは1とKとの間)について、及びグローバルに、全てのM個の符号化チャンネル(mは1とMとの間)について、この周波数f上で中央に置かれたスペクトル包絡線env(ω)によって、周波数fに関連付けられた各サブチャンネルp g,kのグローバルパラメータを乗算する。その後、K個のサブチャンネルは、以下の関係式に従い各符号化チャンネルmについて合計される。
Figure 0005051782
ここでmは、全体で1からM個のチャンネルに及ぶ。
その後、信号ss(ω)が求められ、その空間化に関して符号化され、本発明に従い合成される。それらは周波数領域で表される。
これらM個の信号を時間領域(即ちSS(n))に至らしめるには、逆フーリエ変換(IFFT)をそれらにその後適用することができる。
SS(n)=IFFT(SS(ω))
連続フレームによる処理は、従来の追加/重複技術により実行可能である。
M個の時間信号SS(n)の各々はその後、空間復号化ブロックに供給可能である。
このために、例えば図3に示すように、各信号SS(n)について一対の整合フィルタFg(n)、Fd(n)を畳み込みで使用し、左右両符号化チャンネルを備えたバイノーラル再生にアンビオフォニック符号化を適合するよう提供可能である。
アンビオフォニック/バイノーラル移行のようなこれらフィルタは、前述の仮想ラウドスピーカ技術を用いて求めることができる。
図3の空間復号化ブロックDECODが実行する処理は、以下のタイプでもよい。
SS (n)=(SS*Fg)(n)
SS (n)=(SS*Fd)(n)
フィルタリング後、左右の耳に向けられた全信号は、各々合計され、故に一対のバイノーラル信号が求められる。
Figure 0005051782
その後、2つのイヤーピースを備えたヘッドセットのスピーカに送られる。
ここで、以下により有利な実施形態の変形について記載する。バイノーラル形式にアンビオフォニックフォーマットを適合するフィルタは、周波数領域で直接用いられるので、時間領域の畳み込みと対応する計算費用とを回避することができる。
このために、M個の周波数スペクトルSS(ω)の各々は、時間フィルタの各フーリエ変換(一定数のポイントを有するよう調節された)Fg(ω)及びFd(ω)によって直接乗算され、以下のように表せる。
SS (ω)=SS(ω).Fg(ω)
SS (ω)=SS(ω).Fd(ω)
その後、スペクトルは、逆フーリエ変換の実行と追加/重複の動作との前に各耳について合計され、即ち以下のようになる。
Figure 0005051782
その後、時間領域で再生装置に送られる信号を表すために、逆フーリエ変換が使用される。
(n)=IFFT(S(ω))
(n)=IFFT(S(ω))
また、本発明は、コンピュータプログラム製品に向けられ、中央ユニットの、もしくは端末のメモリに、又は特にこの中央ユニットのドライブと協働する取り外し可能な媒体(CD−ROM、ディスケット、その他)上に記憶可能であり、又は通信ネットワークを介してもダウンロード可能である。このプログラムは、特に前述の方法と、そのような方法の段階を要約した図5に一例として示しうるフロー図と、を実行するための命令を含む。
段階a)は、各ソースSに振幅を示すパラメータを割り当てることを対象とする。例では、パラメータpi,kは、前述のような各周波数要素fに割り当てられる。
段階b)は、符号化チャンネルの利得g によるこれらパラメータの複製とその乗算とを対象とする。
段階c)は、特に全てのソースSに対するその合計の計算に、段階b)で求めた積をまとめてグループ化することを対象とする。
段階d)は、前述のようなスペクトル包絡線envによる乗算を用いたパラメータ合成を行ってから、全周波数要素に対する加算をチャンネル毎に適用することによりサブチャンネルをまとめてグループ化することを対象とする(指数kは1からKに及ぶ)。
段階e)は、2つのラウドスピーカ上で再生するために、例えばバイノーラル形式において、周波数領域で合成、空間化及び表現される、各符号化チャンネルから導かれる信号ssの空間復号化を対象とする。


また、本発明は、プロセッサと、具体的には前述のコンピュータプログラム製品の命令を専用に記憶するワーキングメモリとを特に含む、合成され空間化された音声を生成するための装置を対象とする。
もちろん、本発明は、一例であって前述の実施形態に限定されず、他の変形実施形態にも及ぶ。
故に、アンビオフォニック形式の空間符号化は、一例として前述され、図2のモジュールSPATによって実行され、次にアンビオフォニック形式からバイノーラル形式に適合される。その変形として、例えばバイノーラル形式に符号化を直接用いるような仮定が可能である。
また、パラメータ合成のスペクトル包絡線による乗算は、一例として前述され、他の形式も変形実施形態として提供できる。
図1は、従来技術に関する。 図2は、本発明による方法で提供された一般的な空間化及び合成処理を示す。 図3は、再生することを目的とした空間復号化のために、空間化及び合成された信号を処理することを示す。 図4は、各々が周波数要素に関連付けられた複数の振幅パラメータが各ソースに割り当てられている特定の実施形態を示す。 図5は、本発明による方法の段階を示し、本発明を実行するためのコンピュータプログラムのフロー図に対応することができる。

Claims (7)

  1. 関連する空間位置の複数の音声ソースを一緒に合成及び空間化するための方法であって、
    a)振幅を示す少なくとも一つのパラメータ(p)を各ソースに割り当てる段階と、
    b)複数のチャンネルへの符号化を実行する空間化段階であって、各振幅パラメータ(p)は、空間利得(g )で乗算されるよう複製され、各空間利得は、一方では符号化チャンネルに関して決定され、他方では空間化されるソース(S)に関して決定される、段階と、
    c)符号化チャンネル毎に全てのソース(S)に前記乗算されたパラメータ(p )の合計を適用することによって、各符号化チャンネルに、利得により乗算されたパラメータ(p )をまとめてグループ化(R)する段階と、
    d)各符号化チャンネルに適用されるパラメータ合成段階(SYNTH(1)、...、SYNTH(M))と
    を具備することを特徴とする方法。
  2. a)各ソース(S)は、周波数要素(f)の振幅を各々示す複数のパラメータ(pi,k)が割り当てられ、
    b)周波数要素(f)を示す各振幅パラメータ(pi,k)は、空間利得(g )で乗算されるよう複製され、各空間利得は、一方では符号化チャンネルに関して決定され、他方では空間化されるソース(S)に関して決定され、
    c)各符号化チャンネルにおいて、周波数要素(f)に各々関連付けられたサブチャンネルに、利得(g )によるパラメータ(pi,k)の積を周波数要素毎にまとめてグループ化する
    ことを特徴とする請求項1に記載の方法。
  3. d1)周波数要素(f)に関連付けられた各サブチャンネルの出力を、前記周波数要素(f)に対応する周波数上で中央に置かれたスペクトル包絡線(env)によって乗算する過程と、
    d2)過程d1)から求まる積を、周波数要素(f)にわたる合計によってまとめてグループ化する過程と
    によって合成が各チャンネルで行われ、空間的に符号化及び合成された、各チャンネルから導かれた信号(ss)を過程d2)の次に求めることを特徴とする請求項2に記載の方法。
  4. 空間化は、アンビオフォニック符号化により行われ、ソースに割り当てられる振幅を示すパラメータは、球面調和振幅(Y)に対応することを特徴とする請求項1〜3のうち何れか1項に記載の方法。
  5. 関連する空間位置の複数の音声ソースを一緒に合成及び空間化するための方法であって、
    a)振幅を示す少なくとも一つのパラメータ(p )を各ソースに割り当てる段階と、
    b)複数のチャンネルへの符号化を実行する空間化段階であって、各振幅パラメータ(p )は、空間利得(g )で乗算されるよう複製され、各空間利得は、一方では符号化チャンネルに関して決定され、他方では空間化されるソース(S )に関して決定される、段階と、
    c)符号化チャンネル毎に全てのソース(S )に前記乗算されたパラメータ(p )の合計を適用することによって、各符号化チャンネルに、利得により乗算されたパラメータ(p )をまとめてグループ化(R)する段階と、
    d)各符号化チャンネルに適用されるパラメータ合成段階(SYNTH(1)、...、SYNTH(M))とを具備し、
    a′)各ソース(S )は、周波数要素(f )の振幅を各々示す複数のパラメータ(p i,k )が割り当てられ、
    b′)周波数要素(f )を示す各振幅パラメータ(p i,k )は、空間利得(g )で乗算されるよう複製され、各空間利得は、一方では符号化チャンネルに関して決定され、他方では空間化されるソース(S )に関して決定され、
    c′)各符号化チャンネルにおいて、周波数要素(f )に各々関連付けられたサブチャンネルに、利得(g )によるパラメータ(p i,k )の積を周波数要素毎にまとめてグループ化する方法であって、
    d1)周波数要素(f )に関連付けられた各サブチャンネルの出力を、前記周波数要素(f )に対応する周波数上で中央に置かれたスペクトル包絡線(env )によって乗算する過程と、
    d2)過程d1)から求まる積を、周波数要素(f )にわたる合計によってまとめてグループ化する過程と
    によって合成が各チャンネルで行われ、空間的に符号化及び合成された、各チャンネルから導かれた信号(ss )を過程d2)の次に求める方法であって、
    空間化は、アンビオフォニック符号化により行われ、ソースに割り当てられる振幅を示すパラメータは、球面調和振幅(Y )に対応し、
    アンビオフォニック符号化から復号化へ切換えてバイノーラル空間化モードで再生するために、過程d2)の後に各チャンネルから導かれる積の結果に対して、処理が周波数領域で直接適用されることを特徴とする、方法
  6. 中央ユニットの、若しくは端末のメモリに、及び/又は前記中央ユニットのドライブと特に協働する取り外し可能媒体に記憶され、及び/又は通信ネットワークを介してダウンロード可能であり、請求項1〜5のうち何れか1項に記載の方法を実行するための命令を含むことを特徴とするコンピュータプログラム製品。
  7. 空間化された合成音声を生成し、プロセッサを特に具備し、請求項6に記載のコンピュータプログラム製品の命令を記憶するワーキングメモリをさらに具備することを特徴とするモジュール。
JP2008558857A 2006-03-13 2007-03-01 音声合成と空間化との結合方法 Active JP5051782B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0602170 2006-03-13
FR0602170 2006-03-13
PCT/FR2007/050868 WO2007104877A1 (fr) 2006-03-13 2007-03-01 Synthese et spatialisation sonores conjointes

Publications (2)

Publication Number Publication Date
JP2009530883A JP2009530883A (ja) 2009-08-27
JP5051782B2 true JP5051782B2 (ja) 2012-10-17

Family

ID=37400911

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008558857A Active JP5051782B2 (ja) 2006-03-13 2007-03-01 音声合成と空間化との結合方法

Country Status (8)

Country Link
US (1) US8059824B2 (ja)
EP (1) EP1994526B1 (ja)
JP (1) JP5051782B2 (ja)
AT (1) ATE447224T1 (ja)
DE (1) DE602007002993D1 (ja)
ES (1) ES2335246T3 (ja)
PL (1) PL1994526T3 (ja)
WO (1) WO2007104877A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8786852B2 (en) 2009-12-02 2014-07-22 Lawrence Livermore National Security, Llc Nanoscale array structures suitable for surface enhanced raman scattering and methods related thereto
US9395304B2 (en) 2012-03-01 2016-07-19 Lawrence Livermore National Security, Llc Nanoscale structures on optical fiber for surface enhanced Raman scattering and methods related thereto
US9788135B2 (en) 2013-12-04 2017-10-10 The United States Of America As Represented By The Secretary Of The Air Force Efficient personalization of head-related transfer functions for improved virtual spatial audio
JP2019530312A (ja) * 2016-10-04 2019-10-17 オムニオ、サウンド、リミテッドOmnio Sound Limited ステレオ展開技術

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2679689B1 (fr) * 1991-07-26 1994-02-25 Etat Francais Procede de synthese de sons.
JPH08502867A (ja) 1992-10-29 1996-03-26 ウィスコンシン アラムニ リサーチ ファンデーション 指向性音を作る方法及び装置
US5596644A (en) 1994-10-27 1997-01-21 Aureal Semiconductor Inc. Method and apparatus for efficient presentation of high-quality three-dimensional audio
FR2782228B1 (fr) 1998-08-05 2001-05-25 Ct Scient Tech Batiment Cstb Dispositif de simulation sonore et procede pour realiser un tel dispositif
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
FI118247B (fi) * 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
FR2851879A1 (fr) * 2003-02-27 2004-09-03 France Telecom Procede de traitement de donnees sonores compressees, pour spatialisation.
WO2005069272A1 (fr) * 2003-12-15 2005-07-28 France Telecom Procede de synthese et de spatialisation sonores
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
EP2112652B1 (en) * 2006-07-07 2012-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
JP5021809B2 (ja) * 2007-06-08 2012-09-12 ドルビー ラボラトリーズ ライセンシング コーポレイション アンビエンス信号成分とマトリックスデコードされた信号成分とを制御可能に結合することによるサラウンドサウンドオーディオチャンネルのハイブリッド導出

Also Published As

Publication number Publication date
US8059824B2 (en) 2011-11-15
ATE447224T1 (de) 2009-11-15
DE602007002993D1 (de) 2009-12-10
EP1994526A1 (fr) 2008-11-26
US20090097663A1 (en) 2009-04-16
EP1994526B1 (fr) 2009-10-28
WO2007104877A1 (fr) 2007-09-20
JP2009530883A (ja) 2009-08-27
PL1994526T3 (pl) 2010-03-31
ES2335246T3 (es) 2010-03-23

Similar Documents

Publication Publication Date Title
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
Carpentier et al. Twenty years of Ircam Spat: looking back, looking forward
KR101010464B1 (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
JP4921470B2 (ja) 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置
KR20110002491A (ko) 바이노럴 오디오 신호들의 복호화
AU2017210021B2 (en) Synthesis of signals for immersive audio playback
US9264838B2 (en) System and method for variable decorrelation of audio signals
WO2007080225A1 (en) Decoding of binaural audio signals
JP5051782B2 (ja) 音声合成と空間化との結合方法
CN111466123A (zh) 用于会议的子带空间处理和串扰消除***
KR20080078907A (ko) 양 귀 오디오 신호들의 복호화 제어
WO2007080224A1 (en) Decoding of binaural audio signals
MX2008008424A (es) Decodificacion de señales de audio binaurales
MX2008008829A (en) Decoding of binaural audio signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120619

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120719

R150 Certificate of patent or registration of utility model

Ref document number: 5051782

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250