JP2019213109A - Sound field signal estimation device, sound field signal estimation method, program - Google Patents
Sound field signal estimation device, sound field signal estimation method, program Download PDFInfo
- Publication number
- JP2019213109A JP2019213109A JP2018109188A JP2018109188A JP2019213109A JP 2019213109 A JP2019213109 A JP 2019213109A JP 2018109188 A JP2018109188 A JP 2018109188A JP 2018109188 A JP2018109188 A JP 2018109188A JP 2019213109 A JP2019213109 A JP 2019213109A
- Authority
- JP
- Japan
- Prior art keywords
- virtual
- signal
- sound field
- vector
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 19
- 239000013598 vector Substances 0.000 claims abstract description 74
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims abstract description 28
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000005236 sound signal Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 23
- 230000004048 modification Effects 0.000 description 14
- 238000012986 modification Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
本発明は、音場推定技術に関し、特に球面マイクロホンアレーを用いて収音した収音信号から再生装置向けの音場信号を推定する音場信号推定装置、音場信号推定方法、プログラムに関する。 The present invention relates to a sound field estimation technique, and more particularly to a sound field signal estimation device, a sound field signal estimation method, and a program for estimating a sound field signal for a playback device from a sound collection signal collected using a spherical microphone array.
近年、オーディオ再生に使われるチャネル数およびスピーカ数は、臨場感をより高めるために、2から、5.1へ、さらには22.1へと増加している。このような多チャネル再生システムに共通に使用する信号フォーマットとして、アンビソニックがよく使われる(非特許文献1)。 In recent years, the number of channels and the number of speakers used for audio playback has increased from 2 to 5.1 and further to 22.1 in order to enhance the sense of reality. Ambisonic is often used as a signal format commonly used in such a multi-channel reproduction system (Non-patent Document 1).
アンビソニック信号を実際の収音信号から求める方法として、球面マイクロホンアレーを用いる方法が示されている(非特許文献2)。この方法では、球面マイクロホンアレーを音場に配置し、アレー上の複数マイクロホンで収音する。そしてこのマルチチャネル収音信号をアンビソニック信号に変換する。アンビソニック信号はアンビソニックデコーダによりデコードされて、複数スピーカから再生される。 As a method for obtaining an ambisonic signal from an actual sound pickup signal, a method using a spherical microphone array is shown (Non-Patent Document 2). In this method, a spherical microphone array is placed in a sound field, and sound is picked up by a plurality of microphones on the array. The multi-channel sound pickup signal is converted into an ambisonic signal. The ambisonic signal is decoded by an ambisonic decoder and reproduced from a plurality of speakers.
通常、音場は複数の音源から放射された音波で構成される。従来のアンビソニック信号生成方法では、どの音源からの音波も均等に扱ってアンビソニック信号を生成する。しかし実際には、受聴者にとっての各音源の重要性は均等ではない。たとえば、音声に映像が組み合わされる場合、映像でフォーカスしている対象物は音源として重要だが、それ以外の音源からの音は、重要性が低い場合がある。 Usually, the sound field is composed of sound waves radiated from a plurality of sound sources. In the conventional ambisonic signal generation method, sound waves from any sound source are treated equally to generate an ambisonic signal. However, in reality, the importance of each sound source to the listener is not equal. For example, when video is combined with audio, an object focused on the video is important as a sound source, but sounds from other sound sources may be less important.
そこで本発明は、指定された方向にフォーカスしたアンビソニック信号を生成することができる音場信号推定装置、音場信号推定方法、プログラムを提供することを目的とする。 Accordingly, an object of the present invention is to provide a sound field signal estimation device, a sound field signal estimation method, and a program that can generate an ambisonic signal focused in a designated direction.
本発明の音場信号推定装置は、スパース波面分解部と、ターゲット波面抽出部と、仮想マイク信号生成部と、アンビソニック信号生成部を含む。 The sound field signal estimation device of the present invention includes a sparse wavefront decomposition unit, a target wavefront extraction unit, a virtual microphone signal generation unit, and an ambisonic signal generation unit.
スパース波面分解部は、Sを任意の自然数とし、球面マイクロホンアレーの収音信号が予め想定したS方向から到来するS個の平面波に分解されると仮定した場合の平面波の各波面の振幅と位相を表すS次元のスパースな複素数ベクトルを計算する。ターゲット波面抽出部は、予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを複素数ベクトルから抽出する。仮想マイク信号生成部は、ターゲットベクトルと、4つの仮想マイクロホンの仮想の3次元位置に基づいて、4つの仮想マイクロホンの出力信号を生成する。アンビソニック信号生成部は、出力信号に基づいて、4つのアンビソニック信号を生成する。 The sparse wavefront decomposition unit assumes that S is an arbitrary natural number, and the amplitude and phase of each wavefront of the plane wave when it is assumed that the collected sound signal of the spherical microphone array is decomposed into S plane waves coming from the previously assumed S direction. Compute an S-dimensional sparse complex vector representing. The target wavefront extraction unit extracts a target vector representing the amplitude and phase of each wavefront of a plane wave as a target determined based on a predetermined focus direction from the complex vector. The virtual microphone signal generation unit generates output signals of the four virtual microphones based on the target vector and the virtual three-dimensional position of the four virtual microphones. The ambisonic signal generation unit generates four ambisonic signals based on the output signal.
本発明の音場信号推定装置によれば、指定された方向にフォーカスしたアンビソニック信号を生成することができる。 According to the sound field signal estimation apparatus of the present invention, an ambisonic signal focused in a designated direction can be generated.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
以下、図1を参照して本実施例の音場信号推定装置の構成を説明する。同図に示すように、本実施例の音場信号推定装置100は、短時間フーリエ変換部110と、分解抽出変換部120と、短時間逆フーリエ変換部190を含み、分解抽出変換部120は、スパース波面分解部121と、ターゲット波面抽出部123と、仮想マイク信号生成部126と、アンビソニック信号生成部128を含む。本実施例の音場信号推定装置100は、球面マイクロホンアレー901の収音信号から再生用のアンビソニック信号を推定する装置である。通常、球面マイクロホンアレー901には剛球型が用いられる。以下、図2を参照して各構成要件の動作を説明する。
Hereinafter, the configuration of the sound field signal estimation apparatus of the present embodiment will be described with reference to FIG. As shown in the figure, the sound field
≪短時間フーリエ変換部110≫
短時間フーリエ変換部110は、球面マイクロホンアレー901が収音した収音信号を周波数領域に変換する(S110)。
≪Short-time Fourier
The short-time Fourier
≪分解抽出変換部120≫
分解抽出変換部120は、周波数領域に変換された収音信号の信号処理を実行する(S120)。以下、ステップS120の詳細について説明する。
<スパース波面分解部121>
スパース波面分解部121は、Sを任意の自然数とし、球面マイクロホンアレー901の収音信号が予め想定したS方向から到来するS個の平面波に分解されると仮定した場合の平面波の各波面の振幅と位相を表すS次元のスパースな複素数ベクトルを計算する(S121)。
≪Decomposition
The decomposition
<Sparse
The sparse
スパース波面分解部121が実行する具体的な処理を説明する。はじめに、剛球型球面マイクロホンアレー901の半径をrとして、この球面マイクロホンアレー901に、波数kの平面波が方向Ωs=(θs φs)から入射する状況を考える。波数kは、周波数=音速×kである。θsはelevation angleであり、φsはazimuth angleである。
A specific process executed by the sparse
半径rの球上のΩ'の音圧は The sound pressure of Ω 'on a sphere of radius r is
で与えられる。ただし Given in. However,
である。ここでjl( )はオーダーlの球ベッセル関数であり、j'l( )は関数jl( )の微分を意味する。hl (1)(kr)はオーダーlの第1種球ハンケル関数である。またPl(cosΘΩs,Ω')は、l次のルジャンドル多項式であり、ΘΩs,Ω'は方向Ωsと方向Ω'のなす角度である。 It is. Here, j l () is a spherical Bessel function of order l, and j ′ l () means differentiation of the function j l (). h l (1) (kr) is a first-class sphere Hankel function of order l. P l (cos Θ Ω s , Ω ′ ) is an l-order Legendre polynomial, and Θ Ω s , Ω ′ is an angle formed by the direction Ω s and the direction Ω ′.
球面上のM個のマイクロホンの各位置がΩ'm(1≦m≦M)で与えられる場合に、方向Ωsからの入射波に対するM個のマイクロホンの応答はベクトル形式で If each position of M microphones on the sphere is given by Ω ' m (1 ≤ m ≤ M), the response of M microphones to the incident wave from direction Ω s is in vector form
とかける。 Call it.
ここで、入射波は予め想定したS方向(Sは数百から数千)から到来するS個の平面波であると仮定した場合、波数kにおけるM個のマイクロホン信号p^1(k)〜p^M(k)と各平面波との関係は次の式で記述される。 Here, assuming that the incident wave is S plane waves coming from the S direction (S is several hundred to several thousand) assumed in advance, M microphone signals p ^ 1 (k) to p at wave number k The relationship between ^ M (k) and each plane wave is described by the following equation.
ここで右辺のa(k)はS次元の複素数ベクトルであり、S個の平面波の各波面の振幅と位相の情報からなる。この複素数ベクトルが疎(スパース)、すなわちごく一部の成分だけが0以外の値をとる、と仮定できるとき、数十個のマイクロホン信号からでも、各波面の振幅と位相からなるベクトルa(k)を求めることができる。 Here, a (k) on the right side is an S-dimensional complex vector, which is composed of information on the amplitude and phase of each wavefront of S plane waves. When it can be assumed that this complex vector is sparse, that is, only a small component takes a value other than 0, a vector a (k consisting of the amplitude and phase of each wavefront can be obtained from several tens of microphone signals. ).
スパース波面分解部121は、以下の最適化問題を解いて、スパースな複素数ベクトルa(k)を計算する(S121)。
The sparse
ただし||a||1はベクトルaのL1ノルムを取ることを意味し、 Where || a || 1 means taking the L1 norm of the vector a
である。D(k)を辞書行列と呼ぶ。この形式の問題はsquare-root LASSOと呼ばれる。式中のパラメータλは参考非特許文献1の方法によりD(k)から決定できる(参考非特許文献1:Florentina Bunea; Johannes Lederer; Yiyuan She, The Group Square-Root Lasso: Theoretical Properties and Fast Algorithms, IEEE Transactions on Information Theory
Year: 2014, Volume: 60, Issue: 2, Pages: 1313 - 1325.)。
It is. D (k) is called a dictionary matrix. This type of problem is called square-root LASSO. The parameter λ in the equation can be determined from D (k) by the method of Reference Non-Patent Document 1 (Reference Non-Patent Document 1: Florentina Bunea; Johannes Lederer; Yiyuan She, The Group Square-Root Lasso: Theoretical Properties and Fast Algorithms, IEEE Transactions on Information Theory
Year: 2014, Volume: 60, Issue: 2, Pages: 1313-1325.).
<ターゲット波面抽出部123>
ターゲット波面抽出部123は、予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを複素数ベクトルから抽出する(S123)。
<Target
The target
ターゲット波面抽出部123が実行する具体的な処理を説明する。ターゲット波面抽出部123は、予め定めたフォーカスする方向Ω''(フォーカス方向)に基づき、ターゲットとなる平面波を抽出する。具体的には、ターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを前述した複素数ベクトルa(k)から抽出する。例えばターゲット波面抽出部123は、予め想定したS個の方向から、フォーカス方向Ω''との差がδ以下になる方向を全て抽出する。δとしては例えば1〜30°等の値を設定することが考えられる。抽出されたインデックスの個数をS'、各インデックスをb(1)〜b(S')とする。
Specific processing executed by the target
このとき、抽出された方向の平面波からなるマイクロホン信号は、 At this time, the microphone signal consisting of the plane wave in the extracted direction is
と推定できる。なお、p(Ωb(s'))はターゲットとなる平面波に対するM個のマイクロホンの応答、ab(s')(k)はターゲットベクトルである。
<仮想マイク信号生成部126>
仮想マイク信号生成部126は、ターゲットベクトルと、4つの仮想マイクロホンの仮想の3次元位置に基づいて、4つの仮想マイクロホンの出力信号を生成する(S126)。
Can be estimated. Note that p (Ω b (s ′) ) is a response of M microphones to a target plane wave, and a b (s ′) (k) is a target vector.
<Virtual microphone
The virtual microphone
仮想マイク信号生成部126が実行する具体的な処理を説明する。仮想マイク信号生成部126は、平面波分解の結果a(k)と上記のインデックスb(s')、すなわちターゲットベクトルab(s')(k)から、仮想マイクロホンの収音信号(出力信号)を求める。図3に示すように、アンビソニック収音用に4つの仮想マイクロホン(o,x,y,z)を使用し、各仮想マイクロホンの仮想の3次元位置がベクトルro、rx、ry、rzで与えられるとする。このとき、仮想マイク信号生成部126は、各仮想マイクロホンの出力信号po(k)、px(k)、py(k)、pz(k)を、ターゲットベクトルab(s')(k)と、4つの仮想マイクロホンの仮想の3次元位置ro、rx、ry、rzに基づいて、下式のように生成する。
Specific processing executed by the virtual microphone
ただし、 However,
である。
It is.
<アンビソニック信号生成部128>
アンビソニック信号生成部128は、出力信号に基づいて、4つのアンビソニック信号を生成する(S128)。
<
The ambisonic
アンビソニック信号生成部128が実行する具体的な処理を説明する。アンビソニック信号生成部128は、各仮想マイクロホンの出力信号po(k)、px(k)、py(k)、pz(k)から0次および1次のアンビソニック信号を求める。具体的には4つのアンビソニック信号qo(k)、qx(k)、qy(k)、qz(k)を
qo(k)=po(k)
qx(k)=px(k)-po(k)
qy(k)=py(k)-po(k)
qz(k)=pz(k)-po(k)
で求める。
Specific processing executed by the
q o (k) = p o (k)
q x (k) = p x (k) -p o (k)
q y (k) = p y (k) -p o (k)
q z (k) = p z (k) -p o (k)
Ask for.
≪短時間逆フーリエ変換部190≫
短時間逆フーリエ変換部190は、処理済みの周波数領域の信号を時間領域に変換する(S190)。
≪Short-time inverse
The short-time inverse
[変形例1]
以下、実施例1を変形した変形例1の音場信号推定装置100Aについて説明する。実施例1の音場信号推定装置100は、フォーカス方向の平面波を取り出し、その他の方向の平面波を除去する。一方、本変形例の音場信号推定装置100Aは、その他の方向の平面波を除去する代わりに残存させ、ターゲット方向成分を強調する。本変形例の音場信号推定装置100Aは、実施例1における仮想マイク信号生成部126を仮想マイク信号生成部126Aに代替した構成となっている。
[Modification 1]
Hereinafter, a sound field
仮想マイク信号生成部126Aは、ターゲットベクトルと4つの仮想マイクロホンの仮想の3次元位置に基づいて生成する第1の項と、複素数ベクトルのうちターゲットベクトルとして抽出されなかったベクトルであるターゲット外ベクトルと4つの仮想マイクロホンの仮想の3次元位置と1よりも小さい重み係数に基づいて生成する第2の項により、4つの仮想マイクロホンの出力信号を生成する(S126A)。
The virtual microphone
具体的には、ステップS123で抽出されなかったインデックスの個数をS''、各インデックスをbn(1)〜bn(S'')とし、ターゲット外ベクトルをabn(s'')(k)とする。仮想マイク信号生成部126Aは、重み係数α<1をもちいて、各仮想マイクロホンの出力信号po(k)、px(k)、py(k)、pz(k)を下式のように生成する。
Specifically, the number of indexes not extracted in step S123 is S ″, each index is b n (1) to b n (S ″), and the non-target vector is a bn (s ″) ( k). The virtual
上式の第1項は、ターゲットベクトルab(s')(k)と、4つの仮想マイクロホンの仮想の3次元位置ro、rx、ry、rzに基づく項であり、上式の第2項は、ターゲット外ベクトルabn(s'')(k)と4つの仮想マイクロホンの仮想の3次元位置ro、rx、ry、rzと1よりも小さい重み係数αに基づく項である。この4チャネル信号にステップS128を実行することにより、その他方向の成分がα(<1)倍されたアンビソニック信号が得られる。 The first term of the above equation is a term based on the target vector a b (s ′) (k) and the virtual three-dimensional positions r o , r x , r y , r z of the four virtual microphones. The second term of is a non-target vector a bn (s ″) (k) and virtual three-dimensional positions r o , r x , r y , r z of four virtual microphones and a weighting factor α smaller than 1. It is a term based on. By executing step S128 on the four-channel signal, an ambisonic signal in which the component in the other direction is multiplied by α (<1) is obtained.
<変形例2>
以下、実施例1を変形した変形例2の音場信号推定装置100Bについて説明する。実施例1では、球面マイクロホンアレー901の各マイクロホンの収音信号をある時刻に注目した単一のベクトルとした。一方、本変形例では、各収音信号を複数の時刻についての複数本のベクトル、すなわち複数時刻の各収音信号を使用する場合をあつかう。複数時刻の各収音信号を入力とすることで、音場の平面波分解をより精度よく求めることが可能となる。本変形例の音場信号推定装置100Bは、実施例1におけるスパース波面分解部121をスパース波面分解部121Bに代替した構成となっている。
<Modification 2>
Hereinafter, a sound field
スパース波面分解部121Bは、時間のパラメータを含む最適化問題に基づき、複数時刻の球面マイクロホンアレーの収音信号の全てが再現されるように、複数時刻のS次元のスパースな複素数ベクトルを計算する(S121B)。
The sparse
具体的には、時刻tにおける球面マイクロホンアレー901の収音信号ベクトルを Specifically, the collected sound signal vector of the spherical microphone array 901 at time t is
として、T本の収音信号ベクトルp^(k,1)…p^(k,T)が与えられたとする。このとき時刻tにおける複素数ベクトルを Suppose that T collected sound signal vectors p ^ (k, 1)... P ^ (k, T) are given. At this time, the complex vector at time t is
として、
A(k)=[a(k,1)…a(k,T)]
を、スパース波面分解部121Bにおいて求めることを考える。この問題は複数本のベクトルをまとめて行列化すると、次の時間のパラメータを含む最適化問題の形で表現できる。
A(k)=argmin||[p^(k,1)…p^(k,T)]-D(k)A(k)||F+λ||A(k)||1,2
ただし||A||Fは行列Aのフロベニウスノルムをとることを意味する。また||A(k)||1,2は行列Aの混合ノルム、
||A(k)||1,2=ΣS s=1||[as(k,1)…as(k,T)]||1
を意味する。このノルムは、行列A(k)の各横ベクトルのL1ノルムの総和になる。
As
A (k) = [a (k, 1)… a (k, T)]
Is obtained in the sparse
A (k) = argmin || [p ^ (k, 1)… p ^ (k, T)]-D (k) A (k) || F + λ || A (k) || 1,2
However, || A || F means taking the Frobenius norm of matrix A. || A (k) || 1,2 is the mixed norm of matrix A,
|| A (k) || 1,2 = Σ S s = 1 || [a s (k, 1)… a s (k, T)] || 1
Means. This norm is the sum of the L1 norms of each horizontal vector of the matrix A (k).
音場信号推定装置100Bは、時間のパラメータを含み、行列で表現された上述の最適化問題を解いて得られたA(k)に基づき、各時刻においてステップS123、S126、S128を実行することにより、各時刻におけるアンビソニック信号を求める。
The sound field
実施例1では、球面マイクロホンアレーの出力信号から、0次と1次のアンビソニック信号を求める方法を示した。実施例2では、球面マイクロホンアレーの出力信号から、2次以上の高次アンビソニック信号を求める。以下、図4を参照して本実施例の音場信号推定装置の構成を説明する。同図に示すように、本実施例の音場信号推定装置200は、短時間フーリエ変換部110と、分解抽出変換部220と、短時間逆フーリエ変換部190を含み、分解抽出変換部220は、スパース波面分解部121と、ターゲット波面抽出部123と、仮想球面マイク信号生成部127と、高次アンビソニック信号生成部129を含む。実施例1における仮想マイク信号生成部126が、本実施例において仮想球面マイク信号生成部127に、実施例1におけるアンビソニック信号生成部128が、本実施例において高次アンビソニック信号生成部129に、それぞれ置き換わっている。
In the first embodiment, the method of obtaining the 0th-order and 1st-order ambisonic signals from the output signal of the spherical microphone array is shown. In the second embodiment, a second-order or higher order ambisonic signal is obtained from the output signal of the spherical microphone array. Hereinafter, the configuration of the sound field signal estimation apparatus of the present embodiment will be described with reference to FIG. As shown in the figure, the sound field
以下、図5を参照して、実施例1と異なる構成要件である仮想球面マイク信号生成部127、高次アンビソニック信号生成部129の動作を説明する。
Hereinafter, the operations of the virtual spherical microphone
<仮想球面マイク信号生成部127>
仮想球面マイク信号生成部127は、ターゲットベクトルに基づいて仮想の球面マイクロホンアレーの出力信号を生成する(S127)。あるいは、仮想球面マイク信号生成部127は、ターゲットベクトルに基づいて生成する第1の項と、複素数ベクトルのうち、ターゲットベクトルとして抽出されなかったベクトルであるターゲット外ベクトルと1よりも小さい重み係数に基づいて生成する第2の項により、仮想の球面マイクロホンアレーの出力信号を生成する(S127)。
<Virtual Spherical Microphone
The virtual spherical microphone
前述したように、ステップS123では、平面波分解の結果a(k)のうち、フォーカス方向に含まれるインデックスb(1)〜b(S')(すなわちターゲットベクトルab(s')(k))と、フォーカス方向に含まれないインデックスbn(1)〜bn(S'')(すなわちターゲット外ベクトルabn(s'')(k))が抽出される。仮想球面マイク信号生成部127は、フォーカス方向の平面波成分からなる球面マイクロホン信号を、
As described above, in step S123, of the plane wave decomposition result a (k), the indices b (1) to b (S ′) (that is, the target vector a b (s ′) (k)) included in the focus direction. Then, indexes b n (1) to b n (S ″) (that is, out-target vectors a bn (s ″) (k)) not included in the focus direction are extracted. The virtual spherical microphone
と推定する。仮想球面マイク信号生成部127は、フォーカス外の平面波成分からなる球面マイクロホン信号を
Estimated. The virtual spherical
と推定する。 Estimated.
仮想球面マイク信号生成部127は、仮想の球面マイクロホンアレーの出力信号を
The virtual spherical microphone
として出力する(ただしα<1)。出力された仮想の球面マイクロホンアレーの出力信号に後述するステップS129を実行することで、非フォーカス成分が一部残留する高次アンビソニック信号を得ることができる。上の式でα=0にしてステップS129を実行すれば、特定方向にフォーカスされた高次アンビソニック信号が得られる。
<高次アンビソニック信号生成部129>
高次アンビソニック信号生成部129は、仮想の球面マイクロホンアレーの出力信号を球調和関数領域へ変換し、高次アンビソニック信号を生成する(S129)。
(Where α <1). By executing step S129, which will be described later, on the output signal of the virtual spherical microphone array that has been output, it is possible to obtain a higher-order ambisonic signal in which a part of the non-focus component remains. If α = 0 in the above equation and step S129 is executed, a high-order ambisonic signal focused in a specific direction can be obtained.
<Higher order
The high-order
高次アンビソニック信号生成部129は、非特許文献2の方法をそのまま用いる。非特許文献2では、周波数領域の球面マイクロホンアレーの収音信号を球調和関数領域へ変換し、処理することで、高次アンビソニック信号を生成する手法が提案されている。
The higher-order
なお実施例2についても、実施例1の変形例2と同様に、複数時刻の各収音信号を使用することが可能である。 Note that in the second embodiment as well, as in the second modification of the first embodiment, it is possible to use each collected sound signal at a plurality of times.
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。 In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiment, and can be modified as appropriate without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiment are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from the portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (8)
予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを前記複素数ベクトルから抽出するターゲット波面抽出部と、
前記ターゲットベクトルと、4つの仮想マイクロホンの仮想の3次元位置に基づいて、4つの前記仮想マイクロホンの出力信号を生成する仮想マイク信号生成部と、
前記出力信号に基づいて、4つのアンビソニック信号を生成するアンビソニック信号生成部を含む
音場信号推定装置。 S is an arbitrary natural number, and the S-dimensional signal representing the amplitude and phase of each wavefront of the plane wave when the collected sound signal of the spherical microphone array is assumed to be decomposed into S plane waves coming from the previously assumed S direction. A sparse wavefront decomposition unit for calculating a sparse complex vector,
A target wavefront extraction unit that extracts a target vector representing the amplitude and phase of each wavefront of a plane wave as a target determined based on a predetermined focus direction from the complex vector;
A virtual microphone signal generation unit that generates output signals of the four virtual microphones based on the target vector and a virtual three-dimensional position of the four virtual microphones;
A sound field signal estimation apparatus including an ambisonic signal generator that generates four ambisonic signals based on the output signal.
前記仮想マイク信号生成部は、
前記ターゲットベクトルと4つの仮想マイクロホンの仮想の3次元位置に基づいて生成する第1の項と、前記複素数ベクトルのうち前記ターゲットベクトルとして抽出されなかったベクトルであるターゲット外ベクトルと4つの仮想マイクロホンの仮想の3次元位置と1よりも小さい重み係数に基づいて生成する第2の項により、4つの前記仮想マイクロホンの出力信号を生成する
音場信号推定装置。 The sound field signal estimation device according to claim 1,
The virtual microphone signal generator is
A first term that is generated based on the target vector and a virtual three-dimensional position of four virtual microphones; an out-of-target vector that is a vector that has not been extracted as the target vector of the complex vector; and four virtual microphones A sound field signal estimation device that generates output signals of four virtual microphones according to a second term that is generated based on a virtual three-dimensional position and a weighting factor smaller than one.
予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを前記複素数ベクトルから抽出するターゲット波面抽出部と、
前記ターゲットベクトルに基づいて仮想の球面マイクロホンアレーの出力信号を生成する仮想球面マイク信号生成部と、
前記仮想の球面マイクロホンアレーの出力信号を球調和関数領域へ変換し、高次アンビソニック信号を生成する高次アンビソニック信号生成部を含む
音場信号推定装置。 S is an arbitrary natural number, and the S-dimensional signal representing the amplitude and phase of each wavefront of the plane wave when the collected sound signal of the spherical microphone array is assumed to be decomposed into S plane waves coming from the previously assumed S direction. A sparse wavefront decomposition unit for calculating a sparse complex vector,
A target wavefront extraction unit that extracts a target vector representing the amplitude and phase of each wavefront of a plane wave as a target determined based on a predetermined focus direction from the complex vector;
A virtual spherical microphone signal generator that generates an output signal of a virtual spherical microphone array based on the target vector;
A sound field signal estimation device including a high-order ambisonic signal generator that converts an output signal of the virtual spherical microphone array into a spherical harmonic function region and generates a high-order ambisonic signal.
前記仮想球面マイク信号生成部は、
前記ターゲットベクトルに基づいて生成する第1の項と、前記複素数ベクトルのうち、前記ターゲットベクトルとして抽出されなかったベクトルであるターゲット外ベクトルと1よりも小さい重み係数に基づいて生成する第2の項により、仮想の球面マイクロホンアレーの出力信号を生成する
音場信号推定装置。 The sound field signal estimation device according to claim 3,
The virtual spherical microphone signal generator is
A first term that is generated based on the target vector, and a second term that is generated based on a non-target vector that is a vector that has not been extracted as the target vector, and a weighting factor smaller than 1, among the complex vectors. A sound field signal estimation device that generates an output signal of a virtual spherical microphone array.
前記スパース波面分解部は、
時間のパラメータを含む最適化問題に基づき、複数時刻の球面マイクロホンアレーの収音信号の全てが再現されるように、複数時刻のS次元のスパースな複素数ベクトルを計算する
音場信号推定装置。 The sound field signal estimation device according to any one of claims 1 to 4,
The sparse wavefront decomposition unit is
A sound field signal estimation device that calculates an S-dimensional sparse complex vector of multiple times so that all of the collected signals of a spherical microphone array of multiple times are reproduced based on an optimization problem including time parameters.
Sを任意の自然数とし、球面マイクロホンアレーの収音信号が予め想定したS方向から到来するS個の平面波に分解されると仮定した場合の前記平面波の各波面の振幅と位相を表すS次元のスパースな複素数ベクトルを計算するステップと、
予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを前記複素数ベクトルから抽出するステップと、
前記ターゲットベクトルと、4つの仮想マイクロホンの仮想の3次元位置に基づいて、4つの前記仮想マイクロホンの出力信号を生成するステップと、
前記出力信号に基づいて、4つのアンビソニック信号を生成するステップを含む
音場信号推定方法。 A sound field signal estimation method executed by the sound field signal estimation device,
S is an arbitrary natural number, and the S-dimensional signal representing the amplitude and phase of each wavefront of the plane wave when the collected sound signal of the spherical microphone array is assumed to be decomposed into S plane waves coming from the previously assumed S direction. Calculating a sparse complex vector;
Extracting a target vector representing the amplitude and phase of each wavefront of a plane wave as a target determined based on a predetermined focus direction from the complex vector;
Generating output signals of the four virtual microphones based on the target vector and a virtual three-dimensional position of the four virtual microphones;
A method for estimating a sound field signal, comprising: generating four ambisonic signals based on the output signal.
Sを任意の自然数とし、球面マイクロホンアレーの収音信号が予め想定したS方向から到来するS個の平面波に分解されると仮定した場合の前記平面波の各波面の振幅と位相を表すS次元のスパースな複素数ベクトルを計算するステップと、
予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを前記複素数ベクトルから抽出するステップと、
前記ターゲットベクトルに基づいて仮想の球面マイクロホンアレーの出力信号を生成するステップと、
前記仮想の球面マイクロホンアレーの出力信号を球調和関数領域へ変換し、高次アンビソニック信号を生成するステップを含む
音場信号推定方法。 A sound field signal estimation method executed by the sound field signal estimation device,
S is an arbitrary natural number, and the S-dimensional signal representing the amplitude and phase of each wavefront of the plane wave when the collected sound signal of the spherical microphone array is assumed to be decomposed into S plane waves coming from the previously assumed S direction. Calculating a sparse complex vector;
Extracting a target vector representing the amplitude and phase of each wavefront of a plane wave as a target determined based on a predetermined focus direction from the complex vector;
Generating an output signal of a virtual spherical microphone array based on the target vector;
A method for estimating a sound field signal, comprising: converting an output signal of the virtual spherical microphone array into a spherical harmonic function region to generate a high-order ambisonic signal.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018109188A JP2019213109A (en) | 2018-06-07 | 2018-06-07 | Sound field signal estimation device, sound field signal estimation method, program |
PCT/JP2019/019832 WO2019235193A1 (en) | 2018-06-07 | 2019-05-20 | Sound field signal estimation device, sound field signal estimation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018109188A JP2019213109A (en) | 2018-06-07 | 2018-06-07 | Sound field signal estimation device, sound field signal estimation method, program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019213109A true JP2019213109A (en) | 2019-12-12 |
Family
ID=68769368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018109188A Pending JP2019213109A (en) | 2018-06-07 | 2018-06-07 | Sound field signal estimation device, sound field signal estimation method, program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2019213109A (en) |
WO (1) | WO2019235193A1 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2743922A1 (en) * | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US10403292B2 (en) * | 2014-07-02 | 2019-09-03 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation |
-
2018
- 2018-06-07 JP JP2018109188A patent/JP2019213109A/en active Pending
-
2019
- 2019-05-20 WO PCT/JP2019/019832 patent/WO2019235193A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2019235193A1 (en) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10075799B2 (en) | Method and device for rendering an audio soundfield representation | |
US10382849B2 (en) | Spatial audio processing apparatus | |
JP2019078864A (en) | Musical sound emphasis device, convolution auto encoder learning device, musical sound emphasis method, and program | |
US20190069118A1 (en) | Sound processing apparatus and method, and program | |
US11218807B2 (en) | Audio signal processor and generator | |
JP2018077139A (en) | Sound field estimation device, sound field estimation method and program | |
WO2019235193A1 (en) | Sound field signal estimation device, sound field signal estimation method, and program | |
JP6087856B2 (en) | Sound field recording and reproducing apparatus, system, method and program | |
JP2022500710A (en) | Combined sound source localization and separation method for acoustic sources | |
JP2019075616A (en) | Sound field recording apparatus and sound field recording method | |
CN111147655B (en) | Model generation method and device | |
JP2017055156A (en) | Sound field measurement device, sound field measurement method, program | |
JP2018120129A (en) | Sound field estimation device, method and program | |
WO2022176045A1 (en) | Model learning device, arrival direction estimation device, model learning method, arrival direction estimation method, and program | |
JP2017118189A (en) | Sound collection signal estimating device, sound collection signal estimating method and program | |
CN113518299B (en) | Improved method, equipment and computer readable storage medium for extracting source component and environment component | |
JP7072163B2 (en) | Stereo signal generator, electronic musical instrument, stereo signal generation method, program | |
JP6445407B2 (en) | Sound generation device, sound generation method, and program | |
JP6538002B2 (en) | Target sound collection device, target sound collection method, program, recording medium | |
JP6585544B2 (en) | Ambient signal generation device, ambient signal generation method, program | |
WO2021100094A1 (en) | Sound source signal estimation device, sound source signal estimation method, and program | |
Perez-Lopez et al. | Analysis of spherical isotropic noise fields with an A-Format tetrahedral microphone | |
JP2013243465A (en) | Sound field similarity estimating device, method therefor and program | |
JP2018060059A (en) | Musical sound signal conversion device, musical sound signal conversion method, and program | |
JP2009284391A (en) | Sound pickup device, sound pickup method, program thereof, and recording medium thereof |