JP2023164284A - 音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラム - Google Patents

音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラム Download PDF

Info

Publication number
JP2023164284A
JP2023164284A JP2023018244A JP2023018244A JP2023164284A JP 2023164284 A JP2023164284 A JP 2023164284A JP 2023018244 A JP2023018244 A JP 2023018244A JP 2023018244 A JP2023018244 A JP 2023018244A JP 2023164284 A JP2023164284 A JP 2023164284A
Authority
JP
Japan
Prior art keywords
sound source
sound
hrir
panning
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023018244A
Other languages
English (en)
Inventor
正之 西口
Masayuki Nishiguchi
勇貴 水谷
Yuki Mizutani
智一 石川
Tomokazu Ishikawa
成悟 榎本
Seigo Enomoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Akita Prefectural University
Panasonic Holdings Corp
Original Assignee
Akita Prefectural University
Panasonic Holdings Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Akita Prefectural University, Panasonic Holdings Corp filed Critical Akita Prefectural University
Priority to PCT/JP2023/016481 priority Critical patent/WO2023210699A1/ja
Publication of JP2023164284A publication Critical patent/JP2023164284A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

【課題】音源の個数が多くても演算負荷を抑える頭部インパルスレスポンスを用いた立体音声の生成装置を提供する。【解決手段】方向取得部10は、音源Sの音源方向を取得する。パニング部20は、方向取得部10により取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、音源Sの時間シフトとゲイン調整によって行うことにより、音源Sを表現するためのパニングを行う。パニング部20は、このパニングにより、代表方向からの頭部インパルスレスポンスの畳み込みによって音源方向の頭部インパルスレスポンスの畳み込みを模擬する。音源Sは、複数個存在し、代表方向は、音源Sの個数より少ない数である、それぞれの代表点に対する方向であり、パニング部20は、複数個の音源Sによる音像を、複数の代表方向の音により合成する。【選択図】図1

Description

本発明は、特にヘッドフォン等で再生される音声信号を作成する音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラムに関する。
従来から、映画、VR(Virtual Reality)、AR(Augmented Reality)等のコンテンツの再生が可能なVRヘッドフォンやHMD(Head Mounted Display)が存在する。
このようなVRヘッドフォンやHMDでは、より広い音場が感じられるように、受聴者から音源への方向を考慮した頭部伝達関数(Head-Related Transfer Function、以下、「HRTF」という。)を用いて、頭外定位させていた。
特許文献1には、このようなHRTFを算出する音声処理装置の一例として、リスナーの頭部の姿勢に応じた検出信号を出力するセンサーと、検出信号に基づく演算によりリスナーの頭部が向く方向を求めて、当該方向を示す方向情報を出力するセンサー信号処理部と、方向情報を平均化した平均情報に基づいて、センサー信号処理部から出力される方向情報を補正するセンサー出力補正部と、予め求められた頭部伝達関数を、補正された方向情報にしたがって修正する頭部伝達関数修正部と、再生対象の音声信号に、修正された頭部伝達関数に応じて音像定位処理を施す音像定位処理部とを含む装置が記載されている。
ここで、従来、ヘッドフォン等でHRTFを用いた立体音声を再生する際に、実際の音声信号への演算では、頭部伝達関数を時間軸上で表現した頭部インパルスレスポンス(Head-Related Impulse Response、以下「HRIR」とという。)を用いることも多かった。
特開2021-5822号公報
特許文献1に記載されたような従来の音声処理装置では、音源毎にHRIRの畳み込みをしていたため、音源の個数が多いと、それぞれにHRIRの畳み込みを行う必要があり、演算負荷が高くなっていた。
本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを目的とする。
本発明の音声生成装置は、音源の音源方向を取得する方向取得部と、前記方向取得部により取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現するためのパニング部とを備えることを特徴とする。
本発明の音声生成装置は、前記音源は、複数個存在し、前記代表方向は、前記音源の個数より少ない数である、それぞれの代表点に対する方向であり、前記パニング部は、複数個の前記音源による音像を、複数の前記代表方向の音によって合成することを特徴とする。
本発明の音声生成装置は、前記パニング部は、前記音源に対して、前記音源方向の頭部インパルスレスポンスと前記代表方向の頭部インパルスレスポンスとの相互相関が最大になるように算出された時間シフト、又は該時間シフトに負号を付した時間シフトを行うことを特徴とする。
本発明の音声生成装置は、前記時間シフト及び/又はゲインは、周波数軸上の重み付けフィルタをかけてから前記相互相関が算出されたものを用いることを特徴とする。
本発明の音声生成装置は、前記パニング部は、複数の前記代表点のそれぞれについて、前記時間シフトした前記音源に、前記音源と前記代表方向毎に設定されたゲインをかけることを特徴とする。
本発明の音声生成装置は、前記パニング部は、代表方向のHRIRベクトルの和で音源方向のHRIRベクトルを合成する際、合成されたHRIRベクトルと音源方向のHRIRベクトルとの誤差信号ベクトルが代表方向のHRIRベクトルと直行するようにして算出したゲインを用いることを特徴とする。
本発明の音声生成装置は、前記パニング部は、合成されたHRIRベクトルと音源方向のHRIRベクトルとの誤差信号ベクトルのエネルギー又はL2ノルムを最小化するようにして算出されたゲインを用いることを特徴とすることを特徴とする。
本発明の音声生成装置は、前記誤差信号ベクトルは、周波数軸上の重み付けフィルタをかけたものを用いることを特徴とする。
本発明の音声生成装置は、前記パニング部は、前記音源の位置からの左右の耳の頭部インパルスレスポンスのエネルギーバランスが、パニングにより実質的に複数の前記代表点からの頭部インパルスレスポンスで合成された頭部インパルスレスポンスでも維持されるように補正されたゲインを用いることを特徴とする。
本発明の音声生成装置は、前記パニング部は、前記音源に前記時間シフトを行い、前記ゲインを掛けた信号を前記代表点の位置に存在する代表点信号として扱い、前記音源の個数分の前記代表点信号の和信号に、前記代表点の位置の頭部インパルスレスポンスを畳み込んで、受聴者の耳元の信号を生成することを特徴とする。
本発明の音声生成装置は、前記時間シフトは、サンプリングの小数点分のシフトも許容することを特徴とする。
本発明の音声生成装置は、再生高域強調フィルタにより高域が減衰する傾向が補償されることを特徴とする。
本発明の音声生成装置は、前記音源は、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、前記方向取得部は、受聴者からみた前記音源の方向を取得することを特徴とする。
本発明の音声再生装置は、前記音声生成装置と、前記音声生成装置により生成された音声信号を出力させる音声出力部とを備えることを特徴とする。
本発明の音声生成方法は、音声生成装置により実行される音声生成方法であって、音源の音源方向を取得し、取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現することを特徴とする。
本発明の音声信号処理プログラムは、音声生成装置により実行される音声信号処理プログラムであって、前記音声生成装置により、音源の音源方向を取得させ、取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現させることを特徴とする。
本発明によれば、音源方向に基づいて、特定の代表方向のパニングにより、当該音源を合成することで、等価的に音源方向のHRIRを代表方向のHRIRによって生成することになり、演算負荷を軽くしたHRIRの立体音響を生成可能な音声生成装置を提供することができる。
本発明の第一実施形態に係る音声生成装置の制御構成図である。 図1に示すパニングによるHRIRの合成の概念を示す概念図である。 本発明の第一実施形態に係る音声再生処理のフローチャートである。 本発明の第一実施形態に係る音声再生処理におけるHRIRの合成を説明するための図である。 本発明の他の第一実施形態に係る音声生成装置の制御構成図である。 本発明の実施例1に係る本人のHRTF(4方向_斜め、右耳)のSNRの比較結果を示すグラフである 本発明の実施例1に係る本人のHRTF(4方向_斜め、左耳)のSNRの比較結果を示すグラフである 本発明の実施例1に係る本人のHRTF(4方向_縦横、右耳)のSNRの比較結果を示すグラフである 本発明の実施例1に係る本人のHRTF(4方向_縦横、右耳)のSNRの比較結果を示すグラフである 本発明の実施例1に係る本人のHRTF(6方向、右耳)のSNRの比較結果を示すグラフである 本発明の実施例1に係る本人のHRTF(6方向、左耳)のSNRの比較結果を示すグラフである 本発明の実施例1に係る主観評価による定位実験(真値)の結果を示すグラフである。 本発明の実施例1に係る主観評価による定位実験(4方向_斜め)の結果を示すグラフである。 本発明の実施例1に係る主観評価による定位実験(4方向_縦横)の結果を示すグラフである。 本発明の実施例1に係る主観評価による定位実験(6方向)の結果を示すグラフである。 本発明の実施例1に係るMUSHRA法での主観品質評価の結果を示すグラフである。 本発明の実施例1に係るFABIAN(4方向_斜め)のSNRの比較結果を示すグラフである。 本発明の実施例1に係るFABIAN(4方向_縦横)のSNRの比較結果を示すグラフである。 本発明の実施例1に係るFABIANの(6方向)SNRの比較結果を示すグラフである。 本発明の実施例1に係るFABIAN(3種類、右耳)のSNRの比較結果を示すグラフである。 本発明の実施例1に係るFABIAN(3種類、左耳)のSNRの比較結果を示すグラフである。 本発明の実施例1に係るFABIAN(4方向のみ、右耳)のSNRの比較結果を示すグラフである。 本発明の実施例1に係るFABIAN(4方向のみ、左耳)のSNRの比較結果を示すグラフである。 本発明の実施例1に係るFABIAN(4方向_斜め、右耳)のパニングにおける整数倍の時間シフトのグラフである。 本発明の実施例1に係るFABIAN(4方向_斜め、左耳)のパニングにおける整数倍の時間シフトのグラフである。 本発明の実施例1に係るFABIAN(4方向_縦横、右耳)のパニングにおける整数倍の時間シフトのグラフである。 本発明の実施例1に係るFABIAN(4方向_縦横、左耳)のパニングにおける整数倍の時間シフトのグラフである。 本発明の実施例1に係るFABIAN(6方向、右耳)のパニングにおける整数倍の時間シフトのグラフである。 本発明の実施例1に係るFABIAN(6方向、左耳)のパニングにおける整数倍の時間シフトのグラフである。 本発明の実施例1に係る小数シフトの効果をSNRで検証した比較結果を示すグラフである。 本発明の実施例1に係る小数シフトの効果をSNRで検証した比較結果を示すグラフである。 本発明の実施例1に係る小数シフトの効果をSNRで検証した比較結果を示すグラフである。 本発明の実施例1に係る小数シフトの効果をSNRで検証した比較結果を示すグラフである。 本発明の実施例1に係る小数シフトの効果をSNRで検証した比較結果を示すグラフである。 本発明の実施例1に係る小数シフトの効果をSNRで検証した比較結果を示すグラフである。 本発明の実施例1に係る本人のHRIRの波形の比較の例である。 本発明の実施例1に係るFABIANの波形の比較の例である。 本発明の実施例2に係るの周波数重み付けをした波形の比較のグラフである。
<第一実施形態>
〔音声再生装置1の制御構成〕
まず、図1を参照して、本発明の第一実施形態に係る音声再生装置1の制御構成について説明する。
音声再生装置1は、映像や音声や文字等のデータであるコンテンツの音響信号を再生したり、遠隔地との間で通話等をしたりするような、受聴者に装着され、音声の再生が可能な装置である。
具体的には、音声再生装置1は、例えば、ヘッドフォンが接続されたPC(Personal Computer)やスマートフォンによる立体音響再生装置、ゲーム専用機、光学媒体やフラッシュメモリーカードに格納されたコンテンツを再生するコンテンツ再生装置、映画館やパブリックビューイング会場の機器、専用のデコーダー及びヘッドトラッキングセンサーを備えたヘッドフォン、VR(Virtual Reality)やAR(Augmented Reality)やMR(Mixed Reality)用のHMD(Head-Mounted Display)、ヘッドフォン型スマートフォン(Smart Phone)、テレビ(ビデオ)会議システム、遠隔会議用機器、音声聞き取りの補助装置、補聴器、その他の家電製品等である。
本実施形態に係る音声再生装置1は、制御構成として、方向取得部10、パニング部20、出力部30、及び再生部40を備える。
また、本実施形態においては、方向取得部10及びパニング部20が、音声信号を生成する音声生成装置2として構成される。
ここで、本実施形態においては、複数の音声信号(音源信号、目的信号)である音源S-1~音源S-nから立体音声を生成する。この複数個存在する音源S-1~音源S-nのいずれかを、下記では単に「音源S」とも記載する。
本実施形態に係る音源Sとしては、コンテンツの音声信号、遠隔通話参加者の音声信号等を用いることが可能である。
このコンテンツは、例えば、ゲーム、映画、VR、AR、MR等の各種コンテンツであってもよい。この映画は、楽器の演奏、講演等も含む。この場合、音源Sとして、楽器、乗り物、ゲームキャラクタ等のオブジェクト(以下、単に「オブジェクト等」という。)に由来する音声信号、音声発生源となる役者やナレーターや落語家や講談家やその他の発話者のようなヒトの音声信号等を用いることが可能である。これらの音声信号は、コンテンツ内で、空間的な配置関係が設定される。
または、音源Sが、遠隔通話参加者の音声信号である場合、PC(Personal Computer)やスマートフォン等の各種メッセンジャーやビデオ会議用アプリケーションソフトウェア(Application Software、以下、単に「アプリ」という。)のユーザー(参加者)が発声した音声信号等を用いることが可能である。この音声信号等は、ヘッドセット等のマイクロフォンにより取得されたものでも、机等に固定されて取得されたものであってもよい。方向情報として、カメラ内での参加者の頭部の向き、又は仮想空間内で配置されたアバターの向き等が付加されてもよい。さらに、音源Sは、一対一、一対複数、複数対複数の拠点間のテレビ会議システム等の遠隔会議の参加者の音声信号等であってもよい。この場合も、各通話の参加者のカメラに対する向きが方向情報として設定されていてもよい。
また、いずれの場合においても、音源Sとして、ネットワーク又は直接接続されたマイクロフォン等で録音された音声信号も用いることが可能である。この場合も、音声信号には、方向情報が付加されていてもよい。または、上述の各コンテンツや遠隔参加者の音声信号の任意の組み合わせが用いられてもよい。
さらに、本実施形態においては、この音源Sの音声信号は、立体音響の方向を再現するための「目的信号」ともなる。
方向取得部10は、音源Sの音源方向を取得する。本実施形態において、方向取得部10は、受聴者の正面方向に対する音源Sの方向を取得する。さらに、方向取得部10は、音源Sの放射方向に対する受聴者の方向を取得してもよい。
具体的には、方向取得部10は、受聴者からみた音源Sの方向を取得する。加えて、方向取得部10は、音源Sからみた受聴者の方向を取得してもよい。
ここで、本実施形態に係る音源Sには、音声を発声させる際の方向情報が算出されたり設定されたりしている。このため、方向取得部10は、音源Sによる音の放射方向を取得する。本実施形態において、例えば、方向取得部10は、音源Sとなる参加者の頭部の方向を取得することが可能である。また、方向取得部10は、受聴者についても、HMDやスマートフォンのジャイロセンサー等によるヘッドトラッキング、仮想空間におけるアバターの向き等の方向情報から、受聴者の頭部の方向を取得可能である。
方向取得部10は、これらの方向の情報に基づいて、仮想空間を含む空間的な配置における、音源S及び受聴者の向きを相互に算出可能である。
パニング部20は、方向取得部10により取得された複数個の音源S(目的信号)の音源方向に基づいて、特定の代表方向からの音によるパニングを、音源Sの時間シフトとゲイン調整によって行うことにより、音源Sを表現するためのパニングを行う。具体的には、パニング部20は、音源Sの音源方向に近似する代表方向のパニングにより、音源S(目的信号)を合成する。これにより、パニング部20は、等価的に音源Sの音源方向のHRIRを生成する。ここで、本実施形態において、「等価」「等価的」とは、後述する実施例で示すように、誤差が特定程度以下であり、ほぼ同様の信号であることをいう。具体的には、パニング部20は、音源Sのパニングによって、音源Sの音源方向の最寄りの、又は音源方向のHRIRに最も似ている数個の方向のHRIRの合成で、等価的に当該方向のHRIRを生成する。この方向を、本実施形態において、下記で説明する「特定の代表方向」(以下、単に「代表方向」ともいう。)として説明する。これにより、耳元の信号を生成するための演算量を削減する。
すなわち、パニング部20は、複数個の音源Sによる音像を、複数の代表方向の音によって合成する。この代表方向は、例えば、2~3方向を用いることが可能である。具体的には、パニング部20は、音源Sの個数より少ない個数の代表点にまとめ、この代表点に対する代表方向のHRIRのみで音像を合成することが可能である。
この際、パニング部20は、音源Sの音源方向のHRIRと代表方向のHRIRとの相互相関が最大になる時間シフト(ディレイ、時間遅延)を算出する。ここで得られた時間シフト、又はこの時間シフトに負号を付した時間シフトを音源Sに付与した、時間シフト後の信号が代表方向にあるものとして、以降の処理を行う。
この時間シフトは、サンプリング周波数より短い時間での時間シフト(サンプル位置が小数で示されるシフト。以下、「小数シフト」という。)も許容してもよい。この小数シフトは、オーバーサンプリングにより行うことが可能である。
ここで、パニング部20は、音源Sを時間シフトした代表方向の信号にゲインをかけて、代表点毎に算出されたそれらの値に各代表点におけるHRIRを畳み込んだものの和を算出することで、音源Sに音源方向のHRIRを畳み込んだものと等価な信号を合成する。
一方、パニング部20は、代表方向のHRIR(ベクトル)の和で音源方向のHRIR(ベクトル)を合成する際、合成されたHRIR(ベクトル)と音源方向のHRIR(ベクトル)の誤差信号ベクトルが代表方向のHRIR(ベクトル)と直行させるようにして、ゲインを算出してもよい。なお、HRIR(ベクトル)とはHRIRの時間波形をベクトルと見立てたものである。以下、このHRIR(ベクトル)を、単に「HRIRベクトル」とも記載する。
パニング部20は、このゲインについて、音源位置からの左右の耳のHRIRのエネルギーバランスが、パニングにより実質的に複数の代表点からのHRIRで合成されたHRIRでも維持されるように補正する。すなわち、パニング部20は、音源Sによる受聴者Lの左右の耳のHRIRのエネルギーバランスが、パニングにより実質的に合成されたHRIRでも維持されるようにゲインを補正してもよい。
本実施形態においては、パニング部20は、音源Sの各音源方向について、代表方向のHRIRのゲインのゲイン値と、HRIRの時間シフトの時間に相当する時間シフト値とを算出して、後述するHRIRテーブル200に格納しておくことが可能である。
この上で、パニング部20は、各音源Sの音源方向に対応する時間シフト値及びゲイン値で、各音源Sの時間シフトを行い、ゲインをかけて、これの和をとって和信号とする。パニング部20は、この和信号が代表点の位置に存在するものとして扱う。パニング部20は、この和信号に、代表点の位置のHRIRを畳み込んで、受聴者の耳元の信号を生成することが可能である。
出力部30は、音声生成装置2により生成された音声信号を出力させる。本実施形態においては、出力部30は、例えば、D/Aコンバーター、ヘッドフォン用のアンプ(Amplifier)等を備え、ヘッドフォンである再生部40用の再生音響信号として音声信号を出力する。ここで、再生音響信号は、例えば、コンテンツに含まれる情報を基にしてデジタルデータが復号化され、再生部40で再生されることで受聴者が聴くことが可能な音声信号であってもよい。または、出力部30は、音声信号を符号化して、音声ファイルやストリーミング音声として出力することで再生してもよい。
再生部40は、出力部30により出力された再生音響信号を再生する。再生部40は、ヘッドフォンやイヤフォンの電磁ドライバー及びダイヤフラムを備えたスピーカー(以下、「スピーカー等」という。)、受聴者の装着する耳当てやイヤーピース等を備えていてもよい。
または、再生部40は、デジタルの再生音響信号をデジタル信号のまま又はD/Aコンバーターでアナログ音声信号に変換し、スピーカー等から出力して、受聴者に聴かせることが可能であってもよい。または、再生部40は、音声信号を別途、受聴者が装着したHMDのヘッドフォンやイヤフォン等に出力してもよい。
HRIRテーブル200は、パニング部20により選択される代表点のHRIRのデータである。さらに、HRIRテーブル200は、後述するパニング部20により算出された、HRIRのパニングによる合成のための各値を含んでいる。
具体的には、HRIRテーブル200は、この各値として、例えば、各代表点について、全周360°で2°ずつの音源方向についてそれぞれ算出されたゲイン値を含んでいる。このゲイン値は、例えば、代表点の数が二つの左右2方向のパニングを行う場合、各音源方向について二つ(A値、B値)、仰角方向を含む3方向のパニングを行う場合、三つ(A値、B値、C値)を用いてもよい。
さらに、HRIRテーブル200は、音源Sを時間シフトする時間シフト値についても含んでいてもよい。この時間シフト値は、音源Sをオーバーサンプリングすることで、小数シフトを行うための小数シフト値を含んでいてもよい。HRIRテーブル200は、この時間シフト値を、ゲイン値と対応づけられて格納することが可能である。
これらのゲイン値及び時間シフト値は、オフラインで事前に算出しておくことが可能である。
〔音声再生装置1のハードウェア構成〕
音声再生装置1は、例えば、各種回路として、ASIC(Application Specific Processor、特定用途向けプロセッサー)、DSP(Digital Signal Processor)、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の制御手段(制御部)を含んでいる。
さらに、音声再生装置1は、記憶手段(記憶部)として、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリー、HDD(Hard Disk Drive)等の磁気記録媒体、光学記録媒体等の記憶部を含んでいてもよい。ROMとしては、フラッシュメモリーやその他の書き込み、追記可能な記録媒体を含んでいてもよい。さらに、HDDの代わりに、SSD(Solid State Drive)を備えていてもよい。この記憶部には、本実施形態に係る制御プログラム及び各種のコンテンツを格納してもよい。このうち、制御プログラムは、本実施形態の音声信号処理プログラムを含む各機能構成及び各方法を実現するためのプログラムである。この制御プログラムは、ファームウェア等の組み込みプログラム、OS(Operating System)及びアプリを含む。
各種のコンテンツは、例えば、映画や音楽のデータ、ゲーム、オーディオブック、音声合成可能な電子書籍のデータ、テレビジョンやラジオの放送データ、カーナビゲーションや各種家電等の操作指示に関する各種音声データ、VR、AR、MR等を含む娯楽コンテンツ、その他の音声出力可能なデータであってもよい。または、ゲームによるBGMや効果音、MIDIファイル、携帯電話やトランシーバー等の音声通話データやメッセンジャーでのテキストの合成音声のデータをコンテンツとすることも可能である。これらのコンテンツは、有線や無線で伝送されたファイルやデータ塊でダウンロードされて取得されても、ストリーミング等により段階的に取得されてもよい。
また、本実施形態に係るアプリは、コンテンツを再生するメディアプレーヤー等のアプリ、メッセンジャーやビデオ会議用のアプリ等であってもよい。
また、音声再生装置1は、受聴者の向いている方向を算出するGNSS(Global Navigation Satellite System)受信機、部屋内位置方向検出器、ヘッドトラッキングが可能な、加速度センサー、ジャイロセンサー、地磁気センサー等と、これらの出力を方向情報に変換する回路とを含む方向算出手段を備えていてもよい。
さらに、音声再生装置1は、液晶ディスプレイや有機ELディスプレイ等の表示部、ボタン、キーボード、マウスやタッチパネル等のポインティングデバイス等の入力部、無線や有線での各種機器との接続を行うインターフェイス部とを備えていてもよい。このうち、インターフェイス部は、マイクロSD(登録商標)カードやUSB(Universal Serial Bus)メモリー等のフラッシュメモリー媒体等のインターフェイス、LANボード、無線LANボード、シリアル、パラレル等のインターフェイスを含んでいてもよい。
また、音声再生装置1は、主に記憶手段に格納された各種プログラムを用いて制御手段が実行することで、本実施形態に係る各方法を、ハードウェア資源を用いて実現することができる。
なお、上述の構成の一部又は任意の組み合わせをICやプログラマブルロジックやFPGA(Field-Programmable Gate Array)等でハードウェア的、回路的に構成してもよい。
〔音声再生装置1による音声再生処理〕
次に、図2~図4を参照して、本発明の第一実施形態に係る音声再生装置1による音声再生処理の説明を行う。
まずは、図2により、本実施形態に係る音声再生処理の概要について説明する。
音源Sから発せられる音の耳元での音を生成するために、従来は各音源方向から左右の耳元までの伝達関数である頭部伝達関数(HRTF)を時間軸上で表現したHRIR(頭部インパルスレスポンス)を各音源Sに畳み込んで、その結果を合算していた。図2では、音源S-1、音源S-2、音源S-3、音源S-4について、HRTFを畳み込んでいる例を示す。
しかしこの手法では、音源Sの数が増えると、多数の積和演算を行う畳み込みのための演算量が増大していた。
これに対して、本実施形態に係る音声再生処理では、各音源Sから耳元までのHRIRを直接、各音源Sに畳み込むのではなく、各音源Sを代表点R-1~R-n(以下、これらの代表点の一つを示す場合、単に「代表点R」という。)のパニングにより合成して表現することで、代表点Rから耳元までのHRIRの畳み込みを行う。これにより、全ての音源Sが、耳元で再生されている如く、立体音響による音像を表現することが可能である。これにより、音源Sの数が増えても、畳み込みの回数は代表点の数のみによって決まるため、畳み込みのための演算が増大することはなくなる。
図2の例では、音源S-1~音源S-4を、代表点R-1と代表点R-2の間のパニングで表現することで、四音源でありながら、畳み込みは代表点R-1と代表点R-2の二つ分のみとなる。
さらに、背後について、代表点R-3、代表点R-4等を加えてパニングを行うことも可能である。
本実施形態において、パニング部20がパニングを行う際には、音源S(目的信号)を時間シフトし、それにゲインをかけた信号が代表点Rの位置に存在する代表点信号として扱ってもよい。この上で、パニング部20は、代表点にまとめる音源Sの個数分の代表点信号の和信号を算出し、この和信号に代表点の位置のHRIRを畳み込んで、受聴者Lの耳元の信号を生成する。
すなわち、パニング部20は、一つの代表点Rを使用する音源Sがn個あったならば、それらn個の音源Sの代表点信号を足しこんだものに、代表点の位置のHRIRを畳み込むことで、耳元信号を生成することが可能である。
本実施形態の音声再生処理は、主に音声再生装置1において、それぞれ、制御手段が記憶手段に格納された制御プログラムを、各部と協働し、ハードウェア資源を用いて制御して実行し、又は、各回路で直接実行する。
以下で、図3のフローチャートを参照して、音声再生処理の詳細をステップ毎に説明する。
(ステップS101)
まず、音声再生装置1の方向取得部10が、音源及び方向取得処理を行う。
方向取得部10は、受聴者Lからみた音源Sの方向を取得する。
具体的には、方向取得部10は、音源Sの音声信号(目的信号)を取得する。この音声信号は、サンプリング周波数、量子化ビット数ともに任意である。本実施形態においては、例えば、サンプリング周波数48kHz、量子化ビット数16ビットの音声信号を用いる例について説明する。さらに、方向取得部10は、コンテンツの音声信号又は遠隔通話の参加者の音声信号等に付加されている、音源Sの方向情報を取得する。
この上で、方向取得部10は、音源Sと受聴者Lとの空間的な配置を把握する。この配置は、上述したように、コンテンツ等に設定された仮想空間等を含む空間内の配置であってもよい。そして、方向取得部10は、把握された空間内の配置に応じて、受聴者Lからみた音源Sの方向、すなわち音源方向として算出する。方向取得部10は、コンテンツの音声信号についても、同様に、音源Sの音声信号の方向情報を参照し、受聴者Lの配置に基づいて、音源方向を算出可能である。
なお、方向取得部10は、音源Sからみた受聴者Lの方向も算出してもよい。
(ステップS102)
次に、パニング部20が、パニング処理を行う。
ここでは、パニング部20は、方向情報を用いて、音源Sのパニングを行う。
本実施形態においては、パニング部20は、パニングによって耳元で合成された音が、いかに本来あるべき耳もとの音に近づけることができるかという観点で、パニングを行う。
図4により、パニング部20が、代表点R-1及び代表点R-2を用いて音源S-1をパニングする際の演算について説明する。図4は、説明用に、図2の一部を示したものである。ここで、パニングする信号は音源S-1であるものの、以下、そのための最適シフト量と最適ゲインを算出するため、音源S-1、代表点R-1、及び代表点R-2から耳元までのHRIRを用いて計算をする。
この図4の例において、音源S-1から耳元までのサンプリングのポイント数(タップ数)がPポイントのHRIRを、P次元ベクトルとする。これを、v{x}とする(以下の各実施形態において、ベクトルを「v{}」として示す。)。
ここで、パニング部20は、代表点R-1から受聴者Lの耳元までのHRIRをv{x01}、代表点R-2から耳元までのHRIRをv{x02}とする。v{x}とv{x01}との相互相関を算出し、これが最大になるようにv{x01}を時間シフトしたものをv{x1}とする。同様にv{x}とv{x02}との相互相関を算出し、これが最大になるようにv{x02}を時間シフトしたものをv{x2}として算出する。
このv{x1}にゲインAをかけ、v{x2}にゲインBをかけ、これらの和でv{x}を近似する。つまり、v{x}の近似値=A×v{x1}+B×v{x2}として、v{x}を近似する。これにより、誤差を少なくしたパニングを実現することが可能となる。
このゲインの算出と時間シフトの詳細について説明する。
まずは、ゲインの算出について説明する。
v{x}の近似による誤差ベクトルを、下記の式(1)で示す:
Figure 2023164284000002
なお、上述の式(1)では、変数上の矢印によりベクトルであることを示している。
ここで、AとBとが、最適な大きさになっている、すなわちエラーベクトルの大きさが最小になる場合、誤差ベクトルv{e}と、合成元のベクトルv{x1}及びv{x2}によって張られる面とは直交する。このため、以下の式(2)の関係が成立する:
Figure 2023164284000003
これにより、下記の式(3)が算出される:
Figure 2023164284000004
この式(3)を変形すると、下記の式(4)が得られる:
Figure 2023164284000005
式(4)の上の式に対して|v{x2}|2、下の式に対してv{x1}・v{x2}の演算を行うと、下記の式(5)が得られる:
Figure 2023164284000006
式(5)の上式から下式を減算し、Bを消去することでAを算出することが可能である。これを式(6)に示す:
Figure 2023164284000007
従って、ゲインAは、下記の式(7)となる:
Figure 2023164284000008
同様に、ゲインAを消去することで、下記の式(8)のように、ゲインBを算出可能である:
Figure 2023164284000009
このように、ゲインA、Bは、合成信号と目的信号の誤差ベクトルが、用いた代表方向ベクトルと直行するように決定される。
この計算で得られたゲインA、Bを、相互相関による時間シフト後のv{x1}のHRIR波形、及びv{x2}のHRIR波形に掛け、出力対象とするHRIRの合成が可能となる。すなわち、これらの時間シフト量(時間シフト値)とゲインA、Bとを、音源S-1に適用してパニングを行う。
次に、相互相関を最大化する時間シフトの具体的な演算処理について説明する。
本実施形態においては、v{x}及びv{x01}は、サンプル数がPポイントのHRIRをベクトルとして扱っている。
このため、HRIRの時間(サンプルのポイントの位置)の添え字を明示的に、下記の式(9)のように記載することが可能である:
Figure 2023164284000010
この上で、これら式(9)の二つのベクトルの相互相関を「k」の関数として、以下の式(10)のように定義する:
Figure 2023164284000011
ここで、φxx01(k)の最大値を与えるkを、kmax01と記す。パニング部20は、例えば、kに各値を代入する等して、このkmax01を算出する。
同様にして、φxx02(k)の最大値を与えるkを、kmax02と記す。パニング部20は、このkmax02を、kmax01と同様に算出する。
このkmax01及びkmax02のいずれかを、以下、単に「kmax」と記載する。
パニング部20は、例えば、全周360°で2°毎に異なる各音源Sの音源方向について算出されたゲインA、B、及びkmax01、kmax02を、それぞれゲイン値と時間シフト値としてHRIRテーブル200に格納しておき、下記の出力処理で使用する。
なお、このゲインA、Bと時間シフトのkmax01、kmax02の値の算出を既に実行し格納してあるHRIRテーブル200を用いて、下記の音声出力処理のみを行うことも可能である。
(ステップS103)
次に、パニング部20及び出力部30が音声出力処理を行う。
まず、パニング部20が、各音源Sについて、HRIRテーブル200から、取得された音源方向に対応するゲイン値及び時間シフト値を取得する。
この上で、パニング部20は、当該音源Sの波形の各サンプリング点(サンプル)について、このゲイン値を掛ける。
この際、パニング部20は、当該音源Sによる左右の耳のHRIRのエネルギーバランスが、パニングにより合成されたHRIRでも維持されるように、ゲインを補正してもよい。すなわち、各ゲイン値に、左右のHRIR間のエネルギーバランスを元々のHRIRと一致させるような調整係数を掛けてもよい。
次に、パニング部20は、このゲイン値を掛けた信号について、時間シフトを行う。
この時間シフトの詳細について説明する。
ベクトルv{x01}の要素をkmaxサンプルだけシフトしたベクトルv{x}を、下記の手順で生成する。
まず、位相を進めた場合、つまりkmax≧0の場合、ベクトルの最後にkmaxサンプルだけゼロを設定し、ベクトルの長さを維持する。
一方、位相を遅らせた場合、つまりkmax<0の場合、ベクトルの頭にkmaxサンプルだけゼロを設定し、ベクトルの長さを維持する。
つまり、以下の式(11)のように設定する:
Figure 2023164284000012
このようにして、時間シフトしたベクトルv{x1}を生成する。時間シフト量の値の正負の極性は、上記相互相関を算出する際の基準をどちらかにするかで反転する。また、HRIRの音源信号への畳み込みの際も、時間シフト量の極性に注意する必要がある。
なお、パニング部20は、後述する実施例で示すように、この時間シフトは、タップ数の整数倍ではなく、オーバーサンプリングして行う小数倍の小数シフトを行うことも可能である。また、時間シフトを行ってからゲイン値を掛けてもよい。
パニング部20は、このようにして算出された、ゲインと時間シフトを行った信号を代表点の位置に存在する代表点信号として扱う。
この上で、パニング部20は、代表点Rにまとめる音源Sの代表点信号の和をとり、和信号を生成する。
そして、パニング部20は、この和信号に、代表点の位置のHRIR(代表点方向のHRIR)を畳み込んで、受聴者Lの耳元の信号を生成する。
出力部30は、パニング部20により生成されたこの耳元の信号を、再生部40に出力することで再生させる。この出力は、例えば、受聴者の左耳、右耳に対応した2チャンネルのアナログ音声信号であってもよい。
これにより、再生部40は、ヘッドフォンによる2チャンネルの音声信号として仮想的な音場に対応した音声信号を再生することが可能となる。
以上により、本発明の第一実施形態に係る音声再生処理を終了する。
以上のように構成することで、以下のような効果を得ることができる。
近年、映画、AR、VR、MR、ゲーム等のコンテンツ再生をVRヘッドフォンやHMD等で行う際、3Dの音場全体を適切に記述、再生するレンダリング技術(バイノーラル化技術)が要求されていた。従来の3Dの立体音響(バイノーラル信号)の生成では、複数個の音源信号に、各々に対応する音源方向のHRIRを個別に畳み込むことで行っていた。このように、個々の音源にHRIRを畳み込むと、高い臨場感で人の動き(6DoF)に追従するために、膨大な演算量が要求され問題になっていた。
一方、スピーカーによるパニングでは、従来、サイン則、タンジェント則等でスピーカーの音量バランスを制御することでスピーカー間に音像を作っていた。しかしながら、単に音量バランスを制御するだけでは、ヘッドフォンによる立体音響の音像を、適切に再生することはできなかった。
これに対して、(A)本発明の第一実施形態に係る音声生成装置2は、音源Sの音源方向を取得する方向取得部10と、方向取得部10により取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、音源Sの時間シフトとゲイン調整によって行うことにより、音源Sを表現するためのパニング部20とを備えることを特徴とする。
このように構成することで、代表方向のパニングにより音源Sを合成し、音源方向数を減らすことで、より効率的で効果的なレンダリングが可能になる。これにより、一つ一つの音源の信号に、個別にHRIRを畳み込む従来手法に比べて演算量を削減することができる。すなわち、パニング部20は、方向取得部10により取得された音源方向に近似する代表方向のHRIRをパニングにより等価的に合成し、音源方向のHRIRを生成することができる。このようにして演算量を削減することで、3D音場の再生システムとして、ゲーム、映画等のVR/ARアプリへ応用することができる。また、スマートフォンや家電機器に適用することで、立体音響を生成する演算量を抑えることができ、コストが削減できる。さらに、より演算量を削減した方式として、国際標準化等に適用可能となる。
(B)本発明の第一実施形態に係る音声生成装置2において、音源Sは、複数個存在し、代表方向は、音源Sの個数より少ない数である、それぞれの代表点に対する方向であり、パニング部20は、複数個の音源による音像を、複数の代表方向の音によって合成することを特徴とする。
このように構成することで、複数の音源方向にある音源Sを、あらかじめ決められられた代表方向、例えば受聴者を取り囲む2方向~6方向等にパニングし、これらの方向に音源SをまとめてからHRIRを畳み込む。これにより、一つ一つの音源信号に個別にHRIRを畳み込む従来手法に比べて、演算量を削減することができる。
(C)本発明の第一実施形態に係る音声生成装置2において、パニング部20は、音源Sに対して、音源方向のHRIRと代表方向のHRIRとの相互相関が最大になるように算出された時間シフト、又は該時間シフトに負号を付した時間シフトを行うことを特徴とする。
このように構成し、パニング部20は、音源方向のHRIRと代表方向のHRIRの相互相関が最大になるように、音源方向毎に時間シフト量(時間シフト値)を算出しておき、その時間シフト量(時間シフト値)を音源信号に適用して、さらに適切なゲインを乗じることで各代表方向に音源信号をわりあてる。これにより、パニングを行う際、音源Sの信号を時間シフトして、代表方向からの放音により仮想的に合成されたHRIRの歪みを抑え、ターゲットとなるHRIRと等価なHRIRを音源Sに畳み込んだ信号を生成することができる。すなわち、音源Sを時間シフトしてパニングによって耳元で合成された音を、本来のHRIRで複数の音源を畳み込んで生成された耳元の音に近づけることができる。
(D)本発明の第一実施形態に係る音声生成装置2において、時間シフトは、サンプリングの小数点分のシフトも許容する(A)~(C)のいずれかに記載の音声生成装置であることを特徴とする。
このように構成することで、より歪を減らしたパニングを行うことができる。すなわち、後述する実施例で示すように、整数シフトによるS/N比(Signal-Noise Ratio。以下、「SNR」と称する)の櫛形の変化を抑えて、SNRを向上させることができる。
(E)本発明の第一実施形態に係る音声生成装置2において、パニング部20は、複数の代表点のそれぞれについて、時間シフトした音源Sに、音源Sと代表方向毎に設定されたゲインをかける(A)~(D)のいずれかに記載の音声生成装置であることを特徴とする。
このように構成し、代表点R毎に、音源Sのそれぞれについて設定されたゲインを掛けて全ての音源Sについてこのゲインを掛けた信号の和を算出する。すなわち、パニング部20は、時間シフトした音源Sにゲインをかけて、それらの和を算出したものに代表方向のHRIRを畳み込むことで、等価的に、音源Sに音源方向のHRIRを畳み込んだ信号を合成する。これにより、パニングにおいて歪を最小に抑え、演算量を減らしてHRIRによる立体音響の再生を行うことができる。
(F)本発明の第一実施形態に係る音声生成装置2において、パニング部20は、代表方向のHRIR(ベクトル)の和で音源方向のHRIR(ベクトル)を合成する際、合成されたHRIR(ベクトル)と音源方向のHRIR(ベクトル)との誤差信号ベクトルが代表方向のHRIR(ベクトル)と直行するようにして算出したゲインを用いる(A)~(E)のいずれかに記載の音声生成装置であることを特徴とする。
このように構成し、代表方向のHRIR(ベクトル)の和で音源方向のHRIR(ベクトル)を合成する際、合成されたHRIR(ベクトル)と音源方向のHRIR(ベクトル)の誤差信号ベクトルが代表方向のHRIR(ベクトル)と直行させるようにして、前記ゲインを算出する。すなわち、等価的に合成されたHRIRが、オリジナルHRIRに最も似た形状となるゲインを算出してパニングを行う。これにより、理論的に、歪を最小化したパニングを可能とすることができる。よって、演算資源を節約しつつ、サイン則、タンジェント則等よりも高精度に、AR/VR等のヘッドフォン受聴に適したパニングが可能となる。
(G)本発明の第一実施形態に係る音声生成装置2において、パニング部20は、音源Sの位置からの左右の耳のHRIRのエネルギーバランスが、パニングにより実質的に複数の代表点からのHRIRで合成されたHRIRでも維持されるように補正されたゲインを用いる(A)~(F)のいずれかに記載の音声生成装置であることを特徴とする。
このように構成することで、HRIRの合成によりエネルギーバランスが不自然にならないようにすることができる。
(H)本発明の第一実施形態に係る音声生成装置2において、パニング部20は、音源Sに時間シフトを行い、ゲインを掛けた信号を代表点の位置に存在する代表点信号として扱い、音源Sの個数分の代表点信号の和信号に、代表点の位置のHRIRを畳み込んで、受聴者Lの耳元の信号を生成する(A)~(G)のいずれかに記載の音声生成装置であることを特徴とする。
このように構成することで、演算量を抑えて高品質の立体音響の信号を生成することができる。さらに、ゲイン値、時間シフト値を算出してHRIRテーブル200に格納しておき、これらの値を音源Sに適用し和信号を算出し、それに代表点の位置のHRIRを畳み込むことで、立体音響を再生できる。この演算負荷は、後述する実施例で示すように、音源Sの個数が多くなるほど顕著に削減できる。具体的には、音源Sの個数が3~4でも、65~80%に積和演算数を削減することが可能である。
(I)本発明の第一実施形態に係る音声生成装置2において、音源Sは、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、方向取得部10は、音源による音の放射方向に対する受聴者の方向を取得する(A)~(H)のいずれかに記載の音声生成装置であることを特徴とする。
このように構成することで、コンテンツの再生時、1対1接続、1対多点接続、多点対多点接続のメッセンジャー、遠隔会議等の多数の音源に対して、負荷を減らして音声を生成することができる。
(J)本発明の第一実施形態に係る音声再生装置1は、上述の(A)~(I)に記載の声生成装置2と、音声生成装置2により生成された音声信号を出力させる音声出力部30とを備えることを特徴とする。
このように構成することで、生成された音声をヘッドフォンやHMD等で出力して、臨場感ある音声を体感することができる。
なお、上述の実施形態においては、パニング部20が、音源信号を左右2方向の代表点のよるパニングで表現する場合、すなわち左右方向のHRIRのベクトルを用いて等価的に音源方向のHRIRのベクトルを合成する例について記載した。すなわち、上述の実施形態においては、方向情報として、受聴者の左右の角度方向を考慮する例について記載した。
しかしながら、これらの到来方向として、上下方向についても考慮することが可能である。具体的には、音源方向のHRIRのベクトルを3方向のHRIRのベクトルによる補間で等価的に合成することも可能である。すなわち、パニング部20は、仰角方向を含む3方向の代表点によるパニング処理も同様に実行可能である。
この場合、2方向からの補間と同様、v{x}と相互相関が最大になるように代表方向のHRIRを時間シフトしたものをベクトル表記でv{x1}、v{x2}、v{x3}とする。
この場合、誤差ベクトルv{e}は、下記の式(12)で示される:
Figure 2023164284000013
これを、下記式(13)に当てはめて、解く:
Figure 2023164284000014
具体的には、下記式(14)により、最適なゲインA、B、Cが算出できる。
Figure 2023164284000015
ここで、上述の式(14)で、行列の右肩の「-1」は逆行列を意味する。
相互相関が最大になるように決定した代表方向のHRIRの時間シフト量kmax01、kmax02、kmax03についても、2方向の場合の値と同様に、上述のゲイン値に先だって算出する。
また、上述の実施形態においては、代表点Rを2個乃至4個用いる例について記載した。
しかしながら、2個以上の代表点Rを用いることも当然可能である。たとえば、後述する実施例で示すように、範囲角90°、60°等に対応する4~6個の代表点Rを用いることも可能である。さらに、4個の場合も、受聴者Lに対して斜め(45°、135°、225°、315°)、縦横(0°、90°、180°、270°)のように、異なる代表点の位置に設定することも可能である。4~6個の代表点Rから、音源方向に最も近い2点又は3点を選択して、当該音源の合成のための代表点として使用することも可能である。
このように構成し、(K)本発明の他の実施形態に係る音声生成装置2において、パニング部20は、合成されたHRIRベクトルと音源方向のHRIRベクトルとの誤差信号ベクトルのエネルギー又はL2ノルムを最小化するようにして算出されたゲインを用いることを特徴とする(A)~(H)のいずれかに記載の音声生成装置であることを特徴とする。
また、(L)本実施形態に係る音声再生装置1は、上述の音(K)に記載の声生成装置2と、音声生成装置2により生成された音声信号を出力させる音声出力部30とを備えていてもよい。
このように構成することで、音源方向のHRIRのベクトルを3方向のHRIRのベクトルによる補間で等価的に合成することが可能となる。
<第二実施形態>
(時間シフト及びゲイン算出時の重み付けフィルタ)
上述の第一実施形態においては、相互相関を最大化する時間シフト及びゲインの算出時に、HRIRそのものを用いている例について記載した。
しかしながら、)本発明の第二実施形態に係る音声生成装置において、時間シフト及び/又はゲインは、周波数軸上の重み付けフィルタをかけてから相互相関が算出されたものを用いてもよい。
すなわち、相互相関を最大化する時間シフトおよびゲインの算出時に、周波数軸上の重み付けフィルタ(以下、「周波数重み付けフィルタ」ともいう。)をかけたものを用いることが可能である。
この周波数重み付けフィルタは、ヒトの聴感の感度が高い周波数帯域近傍かそれよりやや高い周波数をカットオフ周波数として、それより高い帯域、すなわちヒトの聴感の感度が低くなってくる帯域を減衰させるようなフィルタを用いることが好適である。たとえば、カットオフ周波数を3000Hz~6000Hz、6db/oct(オクターブ)~12db/oct程度のローパスフィルタ(LPF)を用いることが好適である。
具体的には、v{x}及びv{x01}は、PポイントのHRIRをベクトルとして扱っているので、HRIRの時間の添え字を明示的に記して、上述の式(9)のように記すことが可能である。
ここで上述の式(9)の二つのベクトルに周波数重み付けフィルタのインパルス応答wc(n)を畳み込んで、長さをPで打ち切ったものを下記の式(15)に示す:
Figure 2023164284000016
ここで、演算「*」は、畳み込みを示す。
この上で、式(15)の二つのベクトルの相互相関を「k」の関数として、以下の式(16)のように定義する:
Figure 2023164284000017
ここで、式(16)によるφxx01(k)の最大値を与えるkを、kmaxと記す。パニング部20は、例えば、ベクトルv{x01}の要素をkmaxサンプルだけシフトしたベクトルv{x1}を、上述の式(11)と同様に、下記の手順で生成する。
具体的には、位相を進めた場合、つまりkmax≧0の場合、kmaxサンプル分となるように、ベクトルの最後にゼロを詰めて、ベクトルの長さを維持する。
つまり、kmax≧0の場合、
v{x1}=(x01(0+kmax),x01(1+kmax),x01(2+kmax), …… x01(P-1), …… 0,0,0)
となる。
一方、また、位相を遅らせた場合、つまりkmax<0の場合は、ベクトルの頭にゼロを詰めて、kmaxサンプル分となるようにベクトルの長さを維持する。
つまり、kmax<0の場合、
v{x1}=(0,0,0, ……,x01(0),x01(1),x01(2), …… ,x01(P-1+kmax))
となる。
このようにして、ベクトルv{x1}を生成する。
この上で、上述の第一実施形態と同様に、相互相関を算出して、用いることが可能である。
(誤差算出時の重み付けフィルタ)
また、上述の第一実施形態では、合成されたHRIRとオリジナルのHRIRの誤差(類似度)を算出する際に、上述の式(12)のようにして、誤差信号ベクトル(誤差ベクトル)v{e}の|v{e}|2を最小化するA,B,Cを算出していた。
これについて、本実施形態において、v{e}は、周波数重み付けフィルタをかけたものを用いてもよい。
具体的には、v{e}が時間軸上の波形データである場合、v{e}に重み付けフィルタのインパルス応答w(n)を畳み込んだものをv{ew}とすると、v{ew}は、下記の式(17)で示される:
Figure 2023164284000018
演算「*」は、畳み込みを示す。ここでベクトルに対して演算子「*」を用いているが、それは演算子の左右のベクトルを数列表記したもの同士の畳み込みを行った結果得られた数列を、ベクトル表記したものとする。つまりv{x}*v{y}は、x(n)*y(n)の結果をベクトル表記したものである。以下、特に指定がない場合、ベクトルに対する演算子「*」は、同様の扱いとなる。
この上で、v{ew}を下記の式(18)に当てはめて解くことで、ゲインA,B,Cを算出することが可能である:
Figure 2023164284000019
または、等価的に、下記の式(19)により、v{e}wを算出することも可能である。
Figure 2023164284000020
このようにして求められた時間シフトおよびゲインを用いて、目的信号を代表方向に振り分ける(パニングする)ことが可能となる。
なお、パニングする目的信号及び畳み込むHRIRは、上述の第一実施形態と同様であってもよい。すなわち、目的信号及び畳み込むHRIRには、重み付けフィルタを畳み込まなくてもよい。
このような周波数重み付けを導入することで、誤差をより小さく(精度良く)して、近似を行う周波数帯域を設定することが可能になる。とくに音楽や音声信号はその主要なエネルギーが低周波領域に集中しているため、低域側に重みをつける重み付けフィルタを用いることで、良好な性能が得られる。
また、インパルス応答がw(n)である重み付けフィルタとベクトルの畳み込みを、重み付けフィルタのインパルス応答w(n)を1サンプルづつ時間シフトしたものを各行にもつ畳み込み行列Wで表すと、式(17)を、下記式(20)のように変形することも可能である。
Figure 2023164284000021
この上で、下記の式(21)にて、|v{e}|2を算出可能である:
Figure 2023164284000022
ここで、WTは、Wの転置行列を表す。
また、重み付けフィルタは、相互相関の算出時と、ゲインの算出時で、同じ特性のものを用いても、異なる特性のものを用いても良い。同じものを用いる場合は、元々のHRIRのセット全体に重み付けフィルタwを畳み込んでから、上述の第一実施形態と同様の処理にて、時間シフト量およびゲインを算出してもよい。
なお、上述のように重み付けフィルタとして、LPFで低域に重み付けをして相互相関および最適ゲインを計算する場合、有効帯域を3000Hz程度に制限した際は、上述の第一実施形態の小数シフトは、しなくてもよい。この場合、オーバーサンプリングも不要となる。
(高域強調フィルタ)
上述の実施形態では、音声信号を複数方向の代表方向にパニングして分配して、各代表方向のHRIRを畳み込んで表現している。具体的には、上述の第一実施形態及び第二実施形態では、三方向のv{x}の近似値=A×v{x1}+B×v{x2}+C×v{x3}として目的方向のHRIRを代表方向のHRIRの和で模擬している。
このような場合、HRIRの高域の振幅特性は低域に比べて、オリジナルのHRIRよりもレベルが落ちる傾向がある。これは、リスニングポイントのわずかな位置ずれによる、わずか時間の誤差であっても、HRIRの高域成分の位相が大きく回転してしまい、パニングによる足し算で相殺される傾向が強くなるためであった。
これに対して、本実施形態に係る音声生成装置では、再生高域強調フィルタにより高域が減衰する傾向を補償してもよい。
具体的には、パニングして代表方向HRIRを畳み込んだ信号に、高域強調フィルタをかけることでその高域が減衰する傾向を補償することが可能である。または、等価的に、代表方向HRIRそのものに事前に高域強調フィルタ処理をかけておき、高域を強調してもよい。
この高域強調フィルタは、例えば、5000~15000Hz以上をターンオーバー周波数として、+1~+1.5dB程度、高域を強調するようなインパルス応答の重み付けフィルタであってもよい。
このように、パニングを用いて合成される音声の高域を強調するフィルタ処理を行うことで、より聴感上の立体感を高めることができる。
なお、上述の第一実施形態と同様の小数シフトを行った場合であっても、通常の8~16倍オーバーサンプリングでは、HRIRの高域成分のミスマッチは残るため、高域強調フィルタをかけてもよい。
〔他の実施形態〕
上述の実施形態においては、音源Sの音声信号にHRIRを畳み込むように記載したものの、音源Sの音声信号を周波数領域に変換し、HRTFを適用することによっても、同様な処理を行うことが可能である。
この場合、周波数領域毎に異なるHRTFを適用することが可能である。具体的には、上述の第二実施形態と同様に、ヒトの聴感の感度が高い周波数帯域近傍かそれよりやや高い周波数を基準として、低音域及び高音域のHRTFを用いることで、より精度の高い合成が可能となる。
加えて、パニング部20は、HRIRテーブル200から、ユーザ個人のHRIRやHRIRデータベースにより生成されたHRIR等を選択することが可能であってもよい。
さらに、パニング部20は、発話者及び受聴者が仮想空間内のアバター等に変身している場合、これに応じて、HRIRテーブル200からHRIRを選択することも可能である。すなわち、例えば、上方に耳が着いた猫やウサギのような形状のアバターの場合、これに合わせたような聞こえ方のHRIRを選択可能である。
さらに、パニング部20は、音源Sの直接音と、環境による反射音とを、別途、畳み込み等で重ね合わせる等して、現実感をさらに高めることも可能である。
このように構成することで、より現実に近く、明瞭な再生音を再生することができる。
加えて、上述の実施形態においては、再生部40として左右2チャンネルで再生する例について説明した。
これについて、複数チャンネルが再生可能なヘッドフォン等で再生を行うことも可能である。
また、上述の実施形態においては、音声再生装置1が一体的に構成されているように記載した。
しかしながら、音声再生装置1は、スマートフォンやPCや家電等の情報処理装置と、ヘッドセット、ヘッドフォン、左右分離型イヤフォン等の端末とが接続されるような再生システムとして構成されてもよい。このような構成の場合、方向取得部10及び再生部40が端末に備えられ、方向取得部10及びパニング部20の機能を情報処理装置又は端末のいずれかで実行するようにしてもよい。加えて、情報処理装置と端末との間は、例えば、Bluetooth(登録商標)、HDMI(登録商標)、WiFi(登録商標)、USB(Universal Serial Bus)、その他の有線や無線の情報伝送手段で伝送されてもよい。この場合、情報処理装置の機能を、イントラネットやインターネット上のサーバー等で実行することも可能である。
また、上述の第一乃至第二実施形態においては、音声再生装置1として、出力部30及び再生部40を含む構成について記載した。
しかしながら、出力部30及び再生部40を含まない構成も可能である
図5に、このような音声信号を生成するだけの音声生成装置2bの構成の一例を記載する。この音声生成装置2bにおいては、例えば、生成した音声信号のデータを記録媒体Mに格納可能である。
また、このような他の実施形態に係る音声生成装置2bは、PC、スマートフォン、ゲーム装置、メディアプレーヤー等のコンテンツ再生装置、VR、AR、MR、ビデオフォン、テレビ会議システム、遠隔会議システム、ゲーム装置、その他の家電等の各種装置に組み込んで用いることが可能である。つまり、音声生成装置2bは、テレビジョンやディスプレイを備えた装置、ディスプレイ越しのテレビ電話、ビデオ会議、テレプレゼンス等、仮想空間内での音源Sの方向が取得可能な全ての装置に適用可能である。
また、本実施形態に係る音声信号処理プログラムは、これらの装置で実行することも可能である。さらに、コンテンツ作成や配信時に、プロダクションや配信元等のPCやサーバー等で、これらの音声信号処理プログラムを実行することも可能である。また、上述の実施形態に係る音声再生装置1にて、この音声信号処理プログラムを実行することも可能である。
すなわち、上述の音声生成装置2、2b、及び/又は音声信号処理プログラムによる処理により、より臨場感、リアリティの高い、映画、ゲーム、VR、AR、MR等のヘッドフォン及び/又はHMDによる再生が可能になる。また、遠隔会議等においても、臨場感を高めることができる。また、映画館、フィールドゲーム、3D音場のキャプチャー、伝送、再生システムへの適用、AR、VRアプリ等ヘの適用等も可能である。
上述の第一乃至第二実施形態においては、音源Sの音声信号に方向情報が付加されている例について記載した。
これについて、上述の遠隔会議等のように、話し手、聞き手が随時入れ替わる会話を行なっているような状況は、音源Sの音声信号に方向情報が付加されていなくてもよい。すなわち、現在の受話者が発話者だった際に、その発話された音声信号を用いて、発話者(現在の受話者)の方向を推定し、それを現在の発話者からみた受話者の方向として使用することが可能である。
この場合、方向取得部10は、例えば、音声信号のL(左)チャンネルの信号(以下、「L信号」という。)及びR(右)チャンネルの信号(以下、「R信号」という。)の音声信号の受聴者から見た到来方向を算出する。この際、方向取得部10は、LチャンネルとRチャンネルの強度の比を取してもよい。その強度の比から、各周波数成分の信号の到来方向を推定することも可能である。
または、方向取得部10は、HRTF(Head-Related Transfer Function、頭部伝達関数)における各周波数の信号のITD(Interaural Time Difference)と到来方向との関係から、音声信号の到来方向を推定しても良い。方向取得部10は、このITDと到来方向との関係は、データベースとして記憶部に格納されているものを参照してもよい。
または、コンテンツやビデオ会議での通話者や受聴者等のヒトの顔画像データから、顔認識を行って、通話者や受聴者の方向を推定することも可能である。すなわち、ヘッドトラッキングのない構成であっても、方向を推定することが可能である。同様に、空間内の発話者や受聴者の位置を把握することも可能であってもよい。
このように構成することで、各種柔軟な構成に対応可能となる。また、VRやSocial VRのような用途においては、音源位置は事前に分かっているため、音源方向を推定せずとも音源Sと受聴者Lの位置関係から、音源Sの方向取得が可能である。
次に図面に基づき本発明を実施例によりさらに説明するが、以下の具体例は本発明を限定するものではない。
(本人のHRTFを用いたSNRの比較)
この実験では、実際に被験者(受聴者)本人のHRTFを15°間隔で作成したもの(以下、「オリジナル」という。)をHRIRに変換したものを作成した。
また、オリジナルのHRIRについて、代表点を設定し、水平面(左右方向)の全周で、上述の実施形態に係る相互相関による時間シフト値を用いて時間シフトを行い、上述のベクトル計算により算出されたゲイン値を使用して2点の代表点を用いるパニングを行った(以下、「本実施例のパニング」という。)。
具体的には、まず、音源SをオリジナルのHRIRで畳み込んだもの(以下、「真値」という。)と、本実施例のパニングを行ったものに2代表点の各HRIRを各々畳み込んだものを合算したもの(以下、「近似値」という。)との比較実験を行った。なお、実際は処理手順の簡単化のため、2代表点のHRIRを各々時間シフトしたものに各々ゲインを掛けたものを合算して、音源方向のHRIRを模擬し(以下、「合成HRIR」と呼ぶ)、それに音源信号を畳み込むことで、上記の「近似値」と等価な信号を生成した。
さらに、比較例として、従来の時間シフト無しの従来のサイン則によるゲインを用いた。この比較例のサイン則では、正面から音源Sまでの角度をθとし、代表点Rまでの角度をθ0とした場合に、2つの代表点を用いるHRIRに畳み込む音源信号に乗ずる左右のゲインAsとBsとを、

(As-Bs)/(As+Bs)=sinθ/sinθ0

として算出した。
本実施例で用いる代表点は、
(1)範囲角90°(45°、135°、225°、315°)
(2)範囲角90°(0°、90°、180°、270°)
(3)範囲角60°(30°、90°、150°、210°、270°、330°)
の代表点方向に設定した。
これらの代表点の組を、それぞれ4方向_斜め(1)、4方向_縦横(2)、6方向(3)と呼ぶ。
これら、実施例と比較例とについて、各音源方向のHRIRを畳み込んだ出力信号と「近似値」との差をSNRとして算出した。
図6~図11を参照し、この結果について説明する。各図において、横軸は角度、縦軸はSNR(dB、デシベル)を示す。
図6は、SNR比較(4方向_斜め、右耳)の結果を示す。
図7は、SNR比較(4方向_斜め、左耳)の結果を示す。
図8は、SNR比較(4方向_縦横、右耳)の結果を示す。
図9は、SNR比較(4方向_縦横、左耳)の結果を示す。
図10は、SNR比較(6方向、右耳)の結果を示す。
図11は、SNR比較(6方向、左耳)の結果を示す。
いずれも、比較例と比べて、5~10dB、SNRが高かった。このように、本実施例に係るパニングを用いることで、従来よりもSNRを向上させることができた。
(主観評価による定位実験)
次に、オリジナルのHRIRを畳み込んだ真値と、本実施例のパニングによる近似値とを用いて、被験者により主観定位を測定する実験(定位実験)を行った。
この定位実験の条件を、下記の表1に示す:
Figure 2023164284000023
このうち、提示音圧はダミーヘッドにヘッドフォンを装着し、メジャリングアンプを用いて測定した。
実験の結果を、図12~図15に示す。
各グラフにおいては、横軸が提示した音源方向を示し、縦軸が受聴者の回答した方向を示す。すなわち、斜めである45°の線に合っていれば、受聴者が提示された音源方向を正しく認識していることを示す。丸の大きさは、二回の試行で、同じになった箇所が大きく、異なっていた箇所は小さく示した。
図12は、真値で音源Sの主観定位を指示させた定位実験の結果を示す。図12の真値の結果では、一部、斜め方向に外れている箇所もあるものの、概ね、受聴者が回答した音源方向は、正しかった。すなわち、グラフ上、ほぼ45°の線に沿っていた。
図13は、上述の(1)4方向_斜めの代表点を用いた定位実験の結果を示す。
図14は、上述の(2)4方向_縦横の代表点を用いた定位実験の結果を示す。
図15は、上述の(3)6方向の代表点を用いた定位実験の結果を示す。
図13~図15において、(a)は、比較例としてサイン則によるゲインを用いた例であり、(b)は、本実施例の代表点のパニングによる近似値の例である。
結果として、いずれもサイン則でパニングした比較例では、4方向よりも6方向になると音源方向を認識できる程度がある程度、上昇するものの、受聴者は、あまり正しく音源方向を認識できなかった。
これに対して、本実施例の代表点のパニングによる近似値では、真値とかなり近く、45°の線にほぼ沿っている。本実施例の近似値では4方向_斜めでも、ほとんど45°の線に沿っていることが分かる。すなわち、本実施例の近似値では、代表点の数を減らしてもよく、4方向程度の代表点で、十分、受聴者が音源方向を認識可能となっていた。
すなわち、本実施例のパニングにおいて、ホワイトノイズを用いた場合、オリジナルのHRIRと比べて、受聴者が十分に音源方向の認識をすることができた。
(MUSHRA法での主観品質評価)
次に、音源Sの音色がどの程度変化したかを、スピーチ音源を使用して評価した。具体的には、オリジナルのHRIRを当該スピーチ音源に畳み込んだものと比べて、本実施例のパニングによる近似値が変化するのかを、ITU-R BS.1534で定義されているオーディオの主観品質を測定する手法であるMUSHRA(MUltiple Stimuli with Hidden Reference and Anchor)法で評価した。
ここでは、上述の他の試験と同様に、比較例、オリジナルのHRIR、及び本実施例のパニングの合成HRIRを、JVS(Japanese Versatile Speech)コーパス(<URL=”https://sites.***.com/site/shinnosuketakamichi/research-topics/jvs_corpus”>)に畳み込んで、(真値)及び(近似値)を生成して評価した。
このMUSHRA法での実験の条件を、下記の表2に示す:
Figure 2023164284000024
この実験では、音源がある角度は外して、オリジナルのHRIRにスピーチ音声を畳み込んだもの(真値)を聞かせた後に、(真値)を含む各実施例、比較例の評価をランダムに聞かせて、ブラインドで評価するようにした。
図16に、このMUSHRA法での主観品質評価の実験結果(男声1種)を示す。
各グラフは、それぞれ、Aがオリジナル(真値)、Bが4方向_斜め(比較例)、Cが4方向_縦横(比較例)、Dが6方向(比較例)、Eが4方向_斜め(実施例)、Fが6方向_縦横(実施例)、Gが6方向(実施例)を示す。いずれのグラフも、縦軸は評価点、×印がついた横のバーの箇所が評価点の平均値で、バーの高さが95%信頼区間を示す。
結果として、オリジナル(真値)、本実施例、比較例の順位となった。すなわち、本実施例のパニングにより、オリジナルのHRIRに近い評価点となり、従来のサイン則よりは評価点が高くなることが分かった。
(FABIANのHRIRを用いたSNRの比較)
上述したオリジナルのHRIRは15°間隔であった。このため、より狭い角度範囲で、客観的な評価を行うため、当業者によく使用されているオープンソースのHRIRデータベースであるFABIAN(<URL=”https://depositonce.tu-berlin.de/handle/11303/6153”>を用いた。このFABIANは2°間隔でのデータを含んでいる。FABIANは、被験者本人のHRIRではないので、本実施例のパニングを行ったものについて、SNRの客観評価だけを行い、結果を確認した。
この実施例で用いる代表点は、上述のオリジナルを用いた場合と同様である。すなわち、
(1)範囲角90°(45°、135°、225°、315°)
(2)範囲角90°(0°、90°、180°、270°)
(3)範囲角60°(30°、90°、150°、210°、270°、330°)
を、代表点方向に設定した。
これらの代表点の組を、それぞれ4方向_斜め(1)、4方向_縦横(2)、6方向(3)と呼ぶ。
このFABIANを用いた本実施例のパニングにおいても、相互相関による時間シフトを行い、ベクトル計算によって求めたゲインを使用した。
図17~図23を参照し、この結果について説明する。各図において、横軸は角度、縦軸はSNR(dB、デシベル)を示す。また、図17~図19において、(a)は左耳の結果、(b)は右耳の結果を示す。
図17は、(1)SNR(4方向_斜め)の結果を示す。
図18は、(2)SNR(4方向_縦横)の結果を示す。
図19は、(3)SNR(6方向)の結果を示す。
図20は、(1)~(3)の3種類をまとめたSNR比較(右耳)の結果を示す。
図21は、(1)~(3)の3種類をまとめたSNR比較(左耳)の結果を示す。
図22は、(1)~(2)の4方向のみのSNR比較(右耳)の結果を示す。
図23は、(1)~(2)の4方向のみのSNR比較(左耳)の結果を示す。
図17~19によれば、結果として、4方向の場合、良い角度で10dB、悪いとこで6dB程度のSNRとなった。また、(1)4方向_斜めより、(2)4方向_縦横のほうが良い結果となった。すなわち、4方向_縦横だと、良い角度では20dB超えるSNRとなり、悪い角度でも10dB程度となった。また、FABIANは、2°刻みでデータがあるため、角度毎の振る舞いがよく見えやすかった。
図20~21は、4方向及び6方向の全てを重ねて、どれが一番良いかを判断したものである。結論として4方向で十分そうであった。
図22~23は、4方向のみを重ねて、縦横と斜めだと、どちらが良いかを判断したものである。結論としては、(2)4方向_縦横の方が、(1)4方向_斜めより良く、斜めよりも縦横の4箇所を使うのが良いことがこのグラフから見て取れた。
(小数シフトによる効果)
上述のFABIANによる検証では、隣り合う角度でのSNRに大きな差があり、櫛形の形状となっていた。このため、本実施例のパニングで用いた時間シフト量を確認した。
図24~図29に、各角度における総合相関が最大となった時間シフト量を示す。いずれも、横軸は角度、縦軸は時間シフト量(サンプル数)を示している。「端点1」は代表点R-1を、「端点2」は代表点R-2を示す。
図24は、時間シフト量(4方向_斜め、右耳)の演算結果を示す。
図25は、時間シフト量(4方向_斜め、左耳)の演算結果を示す。
図26は、時間シフト量(4方向_縦横、右耳)の演算結果を示す。
図27は、時間シフト量(4方向_縦横、左耳)の演算結果を示す。
図28は、時間シフト量(6方向、右耳)の演算結果を示す。
図29は、時間シフト量(6方向、左耳)の演算結果を示す。
いずれのグラフも、2°刻みであっても、何点かで時間シフト量が等しくなっていた。
ここで、上述の実施例では、相互相関が最大となるような時間シフトを行っていたものの、整数値でのシフトのみであった。このため、本来シフトしたい量と実際のシフト量がずれている箇所があると考えられた。
例)シフトしたい量が0.6サンプルのところ、実際にシフトしている量が1サンプル
すなわち、音源Sのサンプリング周波数について整数値での時間シフトしか行っていないため、最も適切なシフトサンプルの値が小数の場合でも、整数になってしまっていた。
このため、本発明者らは、オーバーサンプリングを行って、実質的な小数シフトを可能にすることでシフト量のずれを低減し、SNRの向上が見込めるのではないかと考えて検証した。すなわち、0.5サンプルのシフト、0.25サンプルのシフト等を行って、相互相関を最大にすることに思い至り、検証した。
ここでは、4倍のオ-バーサンプリングを行い、整数シフトの場合(実施例)とのSNRの比較を行った。
具体的には、FABIANのHRIRで用いられている48kHzサンプリングを、4倍のオーバーサンプリングにより192kHzにして、相互相関を最大になるようにできるか検証した。
これは、48kHzサンプリングにおける1サンプルの空間上の長さは約0.7cmであり、4倍にオーバーサンプリングすると1サンプル当たりの空間上の長さは約0.18cmとなるため、人間の顔、耳のサイズを考えるとこの程度の分解能があればよいのではないかと考えられたためである。
このようにしたオーバーサンプリングによる小数シフトの効果を、FABIANのHRIRで検証した。
図30~図35に、整数倍シフトと小数シフトとでSNRを比較した結果を示す。いずれのグラフも、横軸は角度、縦軸はSNR(dB、デシベル)を示す。
図30は、SNR比較(4方向、斜め)の結果を示す。
図31は、SNR比較(4方向、斜め)の結果を示す。
図32は、SNR比較(4方向、縦横)の結果を示す。
図33は、SNR比較(4方向、縦横)の結果を示す。
図34は、SNR比較(6方向)の結果を示す。
図35は、SNR比較(6方向)の結果を示す。
いずれも、小数シフトを行うことで、角度による櫛形のSNRの変化が抑制され、よりSNRが向上した。
(演算量についての検討)
次に、小数シフトを行うためにオーバーサンプリングを行うと、演算量が増えるため、これによる演算量の増加について検討した。
具体的には、演算量を概算することで、オーバーサンプリングを行うことによる演算量の増加がどの程度かを概算し、確認した。
以下の条件で演算量を概算した。
・範囲角内の音源オブジェクト(音源S)の数:M
・HRIRのタップ数:L
・小数シフトのためのオーバーサンプリングフィルタの次数:N
(N次オーバーサンプリングを行った場合)
・M倍オーバーサンプリングで何ポイント(小数含む:3.25ポイント等)シフトを行うかの時間シフト値は、HRIRの音源Sの方向(音源方向)毎に、事前に算出しておいた。
・当該時間シフト値による時間シフトを音源Sに対して行う
比較例として各音源Sについて、音源Sの方向(音源方向)のHRIRの畳み込みを直接、行った場合と、本実施例のパニングを用いた場合の演算量とは、以下の(ア)~(ウ)の通りとなる:
(ア)パニングを行わず、それぞれ畳み込みを行った場合
・1サンプルあたり必要な演算量(積和の回数):ML

(イ)オーバーサンプリングを行い、小数シフトを許容したパニングを行った場合
1つのオ-バーサンプリング点の算出:2N
全ての音源Sにオーバーサンプリングを行う:2MN
代表点の値を算出:2M+2(M-1)
≒(2代表点へのゲイン値掛け)+(2代表点への和信号生成)
畳み込み:2L
・1サンプルあたり必要な演算量(積和の回数):2MN+2M+2(M-1)+2L

(ウ)オーバーサンプリング無しの場合(参考):
1サンプルあたり必要な演算量(積和の回数):2M+2(M-1)+2L
ここで、上述の(ア)と(イ)の手法での演算量比較の具体例について説明する。
どちらの場合も、オーバーサンプリングフィルタの次数Nは16とする。
i.音源オブジェクト数:M=3、HRIRのタップ数:L=256の場合
(ア)での演算量:3×256=768
(イ)での演算量:2×3×16+2×3+2(3-1)+2×256=618
ii.音源オブジェクト数:M=4、HRIRのタップ数:L=256の場合
(ア)での演算量:4×256=1024
(イ)での演算量:2×4×16+2×4+2(4-1)+2×256=654
結果として、いずれも65~80%に積和数が削減されていた。
(波形の例)
図36に、上述の本実施例のパニングによる合成HRIRの波形と、被験者本人(オリジナル)のHRIRの波形とを比較した例を示す。ここでは、後方(135°~225°)の波形(4方向_斜め)を比較した代表例を示す。上側の図が本実施例のパニングによる合成HRIRの波形であり、下側の図がオリジナルのHRIRの波形を示す。
図37に、上述の本実施例のパニングによる合成HRIRの波形と、FABIANのHRIRの波形とを比較した代表例を示す。ここでは、(4方向_斜め、右耳)の波形について、上側の図が本実施例のパニングによる合成HRIRの波形であり、下側の図がFABIANのHRIRの波形を示す。
いずれも、よく似た波形となっていることが分かった。他の波形でも同様であった。すなわち、本実施例のパニングにより、精度良く近似することが可能となっていた。つまり、特定の代表方向のパニングにより、当該音源を合成することで、等価的に音源方向のHRIRを代表方向のHRIRによって生成することが可能であった。
上述の第三実施形態で示したカットオフ周波数3000Hz、8dB/OctのLPFのインパルス応答の重み付けフィルタをかけて相互相関を算出したHRIRを生成し、オリジナルのHRIR及び重み付けフィルタをかけないものと比較した。
具体的には、1kHzの正弦波を、正面から左回りに8秒かけて頭部を1周したときの左耳の入力波形のエンベロープを測定した結果を、図38に示す。図38(a)はオリジナルのHRIRでの結果、(b)は比較例であり6方向のHRIRを重み付けフィルタなしで1層整数シフトして測定した結果、(c)は本実施例において6方向のHRIRを重み付けフィルタありで1層整数シフトして測定した結果を示す。
結果として、比較例と比較して、重み付けフィルタをかけることで、移動する音源にて、オリジナルのHRIRに近い、スムーズな推移をさせることができた。
なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。
本発明の音声生成装置は、立体音響を生成する際の演算量を減らして負荷を低減することができ、産業上に利用することができる。
1 音声再生装置
2、2b 音声生成装置
10 方向取得部
20 パニング部
30 出力部
40 再生部
200 HRIRテーブル
L 受聴者
S、S-1~S-n 音源
R、R-1~R-n 代表点
M 記録媒体

Claims (16)

  1. 音源の音源方向を取得する方向取得部と、
    前記方向取得部により取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現するためのパニング部とを備える
    ことを特徴とする音声生成装置。
  2. 前記音源は、複数個存在し、
    前記代表方向は、前記音源の個数より少ない数である、それぞれの代表点に対する方向であり、
    前記パニング部は、
    複数個の前記音源による音像を、複数の前記代表方向の音によって合成する
    ことを特徴とする請求項1に記載の音声生成装置。
  3. 前記パニング部は、
    前記音源に対して、前記音源方向の頭部インパルスレスポンスと前記代表方向の頭部インパルスレスポンスとの相互相関が最大になるように算出された時間シフト、又は該時間シフトに負号を付した時間シフトを行う
    ことを特徴とする請求項2に記載の音声生成装置。
  4. 前記時間シフト及び/又はゲインは、周波数軸上の重み付けフィルタをかけてから前記相互相関が算出されたものを用いる
    ことを特徴とする請求項3に記載の音声生成装置。
  5. 前記パニング部は、
    複数の前記代表点のそれぞれについて、前記時間シフトした前記音源に、前記音源と前記代表方向毎に設定されたゲインをかける
    ことを特徴とする請求項3に記載の音声生成装置。
  6. 前記パニング部は、
    代表方向のHRIRベクトルの和で音源方向のHRIRベクトルを合成する際、合成されたHRIRベクトルと音源方向のHRIRベクトルとの誤差信号ベクトルが代表方向のHRIRベクトルと直行するようにして算出したゲインを用いる
    ことを特徴とする請求項5に記載の音声生成装置。
  7. 前記パニング部は、
    合成されたHRIRベクトルと音源方向のHRIRベクトルとの誤差信号ベクトルのエネルギー又はL2ノルムを最小化するようにして算出されたゲインを用いることを特徴とする
    ことを特徴とする請求項5に記載の音声生成装置。
  8. 前記誤差信号ベクトルは、周波数軸上の重み付けフィルタをかけたものを用いる
    ことを特徴とする請求項7に記載の音声生成装置。
  9. 前記パニング部は、
    前記音源の位置からの左右の耳の頭部インパルスレスポンスのエネルギーバランスが、パニングにより実質的に複数の前記代表点からの頭部インパルスレスポンスで合成された頭部インパルスレスポンスでも維持されるように補正されたゲインを用いる
    ことを特徴とする請求項5に記載の音声生成装置。
  10. 前記パニング部は、
    前記音源に前記時間シフトを行い、前記ゲインを掛けた信号を前記代表点の位置に存在する代表点信号として扱い、前記音源の個数分の前記代表点信号の和信号に、前記代表点の位置の頭部インパルスレスポンスを畳み込んで、受聴者の耳元の信号を生成する
    ことを特徴とする請求項5に記載の音声生成装置。
  11. 前記時間シフトは、サンプリングの小数点分のシフトも許容する
    ことを特徴とする請求項3に記載の音声生成装置。
  12. 再生高域強調フィルタにより高域が減衰する傾向が補償される
    ことを特徴とする請求項3に記載の音声生成装置。
  13. 前記音源は、コンテンツの音声信号、及び遠隔通話の参加者の音声信号のいずれかであり、
    前記方向取得部は、受聴者からみた前記音源の方向を取得する
    ことを特徴とする請求項1に記載の音声生成装置。
  14. 請求項1乃至13のいずれか1項に記載の音声生成装置と、
    前記音声生成装置により生成された音声信号を出力させる音声出力部とを備える
    ことを特徴とする音声再生装置。
  15. 音声生成装置により実行される音声生成方法であって、
    音源の音源方向を取得し、
    取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現する
    ことを特徴とする音声生成方法。
  16. 音声生成装置により実行される音声信号処理プログラムであって、前記音声生成装置により、
    音源の音源方向を取得させ、
    取得された音源方向に基づいて、特定の代表方向からの音によるパニングを、前記音源の時間シフトとゲイン調整によって行うことにより、前記音源を表現させる
    ことを特徴とする音声信号処理プログラム。
JP2023018244A 2022-04-28 2023-02-09 音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラム Pending JP2023164284A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2023/016481 WO2023210699A1 (ja) 2022-04-28 2023-04-26 音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022074548 2022-04-28
JP2022074548 2022-04-28

Publications (1)

Publication Number Publication Date
JP2023164284A true JP2023164284A (ja) 2023-11-10

Family

ID=88651717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023018244A Pending JP2023164284A (ja) 2022-04-28 2023-02-09 音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラム

Country Status (1)

Country Link
JP (1) JP2023164284A (ja)

Similar Documents

Publication Publication Date Title
JP7367785B2 (ja) 音声処理装置および方法、並びにプログラム
JP5897219B2 (ja) オブジェクト・ベースのオーディオの仮想レンダリング
JP5533248B2 (ja) 音声信号処理装置および音声信号処理方法
JP5114981B2 (ja) 音像定位処理装置、方法及びプログラム
CN108781341B (zh) 音响处理方法及音响处理装置
JP6820613B2 (ja) 没入型オーディオ再生のための信号合成
JP2007266967A (ja) 音像定位装置およびマルチチャンネルオーディオ再生装置
KR20100081300A (ko) 오디오 신호의 디코딩 방법 및 장치
US11122381B2 (en) Spatial audio signal processing
JPWO2010131431A1 (ja) 音響再生装置
US10979846B2 (en) Audio signal rendering
US10440495B2 (en) Virtual localization of sound
WO2023210699A1 (ja) 音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラム
JP2023164284A (ja) 音声生成装置、音声再生装置、音声生成方法、及び音声信号処理プログラム
CN112602338A (zh) 信号处理装置、信号处理方法和程序
US11924623B2 (en) Object-based audio spatializer
Ranjan 3D audio reproduction: natural augmented reality headset and next generation entertainment system using wave field synthesis
WO2018066376A1 (ja) 信号処理装置および方法、並びにプログラム
US11665498B2 (en) Object-based audio spatializer
JP2022128177A (ja) 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム
WO2022034805A1 (ja) 信号処理装置および方法、並びにオーディオ再生システム
JP2011193195A (ja) 音場制御装置
Algazi et al. Effective use of psychoacoustics in motion-tracked binaural audio
CN118200840A (zh) 一种三维空间声混合式重放方法
CN116193196A (zh) 虚拟环绕声渲染方法、装置、设备及存储介质

Legal Events

Date Code Title Description
AA64 Notification of invalidation of claim of internal priority (with term)

Free format text: JAPANESE INTERMEDIATE CODE: A241764

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230322