JP2019213109A - Sound field signal estimation device, sound field signal estimation method, program - Google Patents

Sound field signal estimation device, sound field signal estimation method, program Download PDF

Info

Publication number
JP2019213109A
JP2019213109A JP2018109188A JP2018109188A JP2019213109A JP 2019213109 A JP2019213109 A JP 2019213109A JP 2018109188 A JP2018109188 A JP 2018109188A JP 2018109188 A JP2018109188 A JP 2018109188A JP 2019213109 A JP2019213109 A JP 2019213109A
Authority
JP
Japan
Prior art keywords
virtual
signal
sound field
vector
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018109188A
Other languages
Japanese (ja)
Inventor
江村 暁
Akira Emura
暁 江村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018109188A priority Critical patent/JP2019213109A/en
Priority to PCT/JP2019/019832 priority patent/WO2019235193A1/en
Publication of JP2019213109A publication Critical patent/JP2019213109A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

To provide a sound field signal estimation device capable of generating an ambisonic signal focused in a specified direction.SOLUTION: A sound field signal estimation device comprises a sparse wave surface decomposition part for calculating an S-dimensional sparse complex vector representing the amplitude and phase of each wave surface of a plane wave, when assuming S as any natural number, and a pickup signal of a spherical surface microphone array is decomposed into S plane waves arriving from previously assumed S direction, a target wave surface extraction part for extracting, from the complex vector, a target vector representing the amplitude and phase of each wave surface of a plane wave becoming a target determined based on the predetermined focus direction, a virtual microphone signal generation part for generating the output signals of four virtual microphones, on the basis of the target vector and virtual three-dimensional position of the four virtual microphones, and an ambisonic signal generation part for generating four ambisonic signals on the basis of the output signal.SELECTED DRAWING: Figure 1

Description

本発明は、音場推定技術に関し、特に球面マイクロホンアレーを用いて収音した収音信号から再生装置向けの音場信号を推定する音場信号推定装置、音場信号推定方法、プログラムに関する。   The present invention relates to a sound field estimation technique, and more particularly to a sound field signal estimation device, a sound field signal estimation method, and a program for estimating a sound field signal for a playback device from a sound collection signal collected using a spherical microphone array.

近年、オーディオ再生に使われるチャネル数およびスピーカ数は、臨場感をより高めるために、2から、5.1へ、さらには22.1へと増加している。このような多チャネル再生システムに共通に使用する信号フォーマットとして、アンビソニックがよく使われる(非特許文献1)。   In recent years, the number of channels and the number of speakers used for audio playback has increased from 2 to 5.1 and further to 22.1 in order to enhance the sense of reality. Ambisonic is often used as a signal format commonly used in such a multi-channel reproduction system (Non-patent Document 1).

アンビソニック信号を実際の収音信号から求める方法として、球面マイクロホンアレーを用いる方法が示されている(非特許文献2)。この方法では、球面マイクロホンアレーを音場に配置し、アレー上の複数マイクロホンで収音する。そしてこのマルチチャネル収音信号をアンビソニック信号に変換する。アンビソニック信号はアンビソニックデコーダによりデコードされて、複数スピーカから再生される。   As a method for obtaining an ambisonic signal from an actual sound pickup signal, a method using a spherical microphone array is shown (Non-Patent Document 2). In this method, a spherical microphone array is placed in a sound field, and sound is picked up by a plurality of microphones on the array. The multi-channel sound pickup signal is converted into an ambisonic signal. The ambisonic signal is decoded by an ambisonic decoder and reproduced from a plurality of speakers.

西村竜一、「特集:立体音響技術 5章 アンビソニックス」、映像情報メディア学会誌、vol.68、No.8、pp.616-620、(2014)Ryuichi Nishimura, “Special Feature: Stereophonic Technology, Chapter 5 Ambisonics”, Journal of the Institute of Image Information and Television Engineers, vol.68, No.8, pp.616-620, (2014) S. Moreau, J. Daniel, and S. Bertet, “3D Sound Field Recording with Higher Order Ambisonics - Objective Measurements and Validation of a 4th Order Spherical Microphone Array,” 120th AES convention, May, 2006.S. Moreau, J. Daniel, and S. Bertet, “3D Sound Field Recording with Higher Order Ambisonics-Objective Measurements and Validation of a 4th Order Spherical Microphone Array,” 120th AES convention, May, 2006.

通常、音場は複数の音源から放射された音波で構成される。従来のアンビソニック信号生成方法では、どの音源からの音波も均等に扱ってアンビソニック信号を生成する。しかし実際には、受聴者にとっての各音源の重要性は均等ではない。たとえば、音声に映像が組み合わされる場合、映像でフォーカスしている対象物は音源として重要だが、それ以外の音源からの音は、重要性が低い場合がある。   Usually, the sound field is composed of sound waves radiated from a plurality of sound sources. In the conventional ambisonic signal generation method, sound waves from any sound source are treated equally to generate an ambisonic signal. However, in reality, the importance of each sound source to the listener is not equal. For example, when video is combined with audio, an object focused on the video is important as a sound source, but sounds from other sound sources may be less important.

そこで本発明は、指定された方向にフォーカスしたアンビソニック信号を生成することができる音場信号推定装置、音場信号推定方法、プログラムを提供することを目的とする。   Accordingly, an object of the present invention is to provide a sound field signal estimation device, a sound field signal estimation method, and a program that can generate an ambisonic signal focused in a designated direction.

本発明の音場信号推定装置は、スパース波面分解部と、ターゲット波面抽出部と、仮想マイク信号生成部と、アンビソニック信号生成部を含む。   The sound field signal estimation device of the present invention includes a sparse wavefront decomposition unit, a target wavefront extraction unit, a virtual microphone signal generation unit, and an ambisonic signal generation unit.

スパース波面分解部は、Sを任意の自然数とし、球面マイクロホンアレーの収音信号が予め想定したS方向から到来するS個の平面波に分解されると仮定した場合の平面波の各波面の振幅と位相を表すS次元のスパースな複素数ベクトルを計算する。ターゲット波面抽出部は、予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを複素数ベクトルから抽出する。仮想マイク信号生成部は、ターゲットベクトルと、4つの仮想マイクロホンの仮想の3次元位置に基づいて、4つの仮想マイクロホンの出力信号を生成する。アンビソニック信号生成部は、出力信号に基づいて、4つのアンビソニック信号を生成する。   The sparse wavefront decomposition unit assumes that S is an arbitrary natural number, and the amplitude and phase of each wavefront of the plane wave when it is assumed that the collected sound signal of the spherical microphone array is decomposed into S plane waves coming from the previously assumed S direction. Compute an S-dimensional sparse complex vector representing. The target wavefront extraction unit extracts a target vector representing the amplitude and phase of each wavefront of a plane wave as a target determined based on a predetermined focus direction from the complex vector. The virtual microphone signal generation unit generates output signals of the four virtual microphones based on the target vector and the virtual three-dimensional position of the four virtual microphones. The ambisonic signal generation unit generates four ambisonic signals based on the output signal.

本発明の音場信号推定装置によれば、指定された方向にフォーカスしたアンビソニック信号を生成することができる。   According to the sound field signal estimation apparatus of the present invention, an ambisonic signal focused in a designated direction can be generated.

実施例1およびその変形例の音場信号推定装置の構成を示すブロック図。The block diagram which shows the structure of Example 1 and the sound field signal estimation apparatus of the modification. 実施例1およびその変形例の音場信号推定装置の動作を示すフローチャート。The flowchart which shows operation | movement of the sound field signal estimation apparatus of Example 1 and its modification. 4つの仮想マイクロホンの仮想の3次元位置を示す図。The figure which shows the virtual three-dimensional position of four virtual microphones. 実施例2およびその変形例の音場信号推定装置の構成を示すブロック図。The block diagram which shows the structure of Example 2 and the sound field signal estimation apparatus of the modification. 実施例2およびその変形例の音場信号推定装置の動作を示すフローチャート。The flowchart which shows operation | movement of the sound field signal estimation apparatus of Example 2 and its modification.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.

以下、図1を参照して本実施例の音場信号推定装置の構成を説明する。同図に示すように、本実施例の音場信号推定装置100は、短時間フーリエ変換部110と、分解抽出変換部120と、短時間逆フーリエ変換部190を含み、分解抽出変換部120は、スパース波面分解部121と、ターゲット波面抽出部123と、仮想マイク信号生成部126と、アンビソニック信号生成部128を含む。本実施例の音場信号推定装置100は、球面マイクロホンアレー901の収音信号から再生用のアンビソニック信号を推定する装置である。通常、球面マイクロホンアレー901には剛球型が用いられる。以下、図2を参照して各構成要件の動作を説明する。   Hereinafter, the configuration of the sound field signal estimation apparatus of the present embodiment will be described with reference to FIG. As shown in the figure, the sound field signal estimation apparatus 100 of the present embodiment includes a short-time Fourier transform unit 110, a decomposition / extraction conversion unit 120, and a short-time inverse Fourier transform unit 190. , A sparse wavefront decomposition unit 121, a target wavefront extraction unit 123, a virtual microphone signal generation unit 126, and an ambisonic signal generation unit 128. The sound field signal estimation device 100 according to the present embodiment is a device that estimates an ambisonic signal for reproduction from the collected sound signal of the spherical microphone array 901. Normally, a hard sphere type is used for the spherical microphone array 901. Hereinafter, the operation of each component will be described with reference to FIG.

≪短時間フーリエ変換部110≫
短時間フーリエ変換部110は、球面マイクロホンアレー901が収音した収音信号を周波数領域に変換する(S110)。
≪Short-time Fourier transform unit 110≫
The short-time Fourier transform unit 110 transforms the collected sound signal collected by the spherical microphone array 901 into the frequency domain (S110).

≪分解抽出変換部120≫
分解抽出変換部120は、周波数領域に変換された収音信号の信号処理を実行する(S120)。以下、ステップS120の詳細について説明する。
<スパース波面分解部121>
スパース波面分解部121は、Sを任意の自然数とし、球面マイクロホンアレー901の収音信号が予め想定したS方向から到来するS個の平面波に分解されると仮定した場合の平面波の各波面の振幅と位相を表すS次元のスパースな複素数ベクトルを計算する(S121)。
≪Decomposition extraction conversion unit 120≫
The decomposition extraction conversion unit 120 performs signal processing of the collected sound signal converted into the frequency domain (S120). Details of step S120 will be described below.
<Sparse wavefront decomposition unit 121>
The sparse wavefront decomposition unit 121 sets S as an arbitrary natural number, and the amplitude of each wavefront of the plane wave when it is assumed that the sound collection signal of the spherical microphone array 901 is decomposed into S plane waves coming from the S direction assumed in advance. And an S-dimensional sparse complex vector representing the phase is calculated (S121).

スパース波面分解部121が実行する具体的な処理を説明する。はじめに、剛球型球面マイクロホンアレー901の半径をrとして、この球面マイクロホンアレー901に、波数kの平面波が方向Ωs=(θs φs)から入射する状況を考える。波数kは、周波数=音速×kである。θsはelevation angleであり、φsはazimuth angleである。 A specific process executed by the sparse wavefront decomposition unit 121 will be described. First, suppose that the radius of the hard sphere type spherical microphone array 901 is r and a plane wave having a wave number k is incident on the spherical microphone array 901 from the direction Ω s = (θ s φ s ). The wave number k is frequency = sound speed × k. θ s is the elevation angle, and φ s is the azimuth angle.

半径rの球上のΩ'の音圧は   The sound pressure of Ω 'on a sphere of radius r is

Figure 2019213109
Figure 2019213109

で与えられる。ただし Given in. However,

Figure 2019213109
Figure 2019213109

である。ここでjl( )はオーダーlの球ベッセル関数であり、j'l( )は関数jl( )の微分を意味する。hl (1)(kr)はオーダーlの第1種球ハンケル関数である。またPl(cosΘΩs,Ω')は、l次のルジャンドル多項式であり、ΘΩs,Ω'は方向Ωsと方向Ω'のなす角度である。 It is. Here, j l () is a spherical Bessel function of order l, and j ′ l () means differentiation of the function j l (). h l (1) (kr) is a first-class sphere Hankel function of order l. P l (cos Θ Ω s , Ω ′ ) is an l-order Legendre polynomial, and Θ Ω s , Ω ′ is an angle formed by the direction Ω s and the direction Ω ′.

球面上のM個のマイクロホンの各位置がΩ'm(1≦m≦M)で与えられる場合に、方向Ωsからの入射波に対するM個のマイクロホンの応答はベクトル形式で If each position of M microphones on the sphere is given by Ω ' m (1 ≤ m ≤ M), the response of M microphones to the incident wave from direction Ω s is in vector form

Figure 2019213109
Figure 2019213109

とかける。 Call it.

ここで、入射波は予め想定したS方向(Sは数百から数千)から到来するS個の平面波であると仮定した場合、波数kにおけるM個のマイクロホン信号p^1(k)〜p^M(k)と各平面波との関係は次の式で記述される。 Here, assuming that the incident wave is S plane waves coming from the S direction (S is several hundred to several thousand) assumed in advance, M microphone signals p ^ 1 (k) to p at wave number k The relationship between ^ M (k) and each plane wave is described by the following equation.

Figure 2019213109
Figure 2019213109

ここで右辺のa(k)はS次元の複素数ベクトルであり、S個の平面波の各波面の振幅と位相の情報からなる。この複素数ベクトルが疎(スパース)、すなわちごく一部の成分だけが0以外の値をとる、と仮定できるとき、数十個のマイクロホン信号からでも、各波面の振幅と位相からなるベクトルa(k)を求めることができる。   Here, a (k) on the right side is an S-dimensional complex vector, which is composed of information on the amplitude and phase of each wavefront of S plane waves. When it can be assumed that this complex vector is sparse, that is, only a small component takes a value other than 0, a vector a (k consisting of the amplitude and phase of each wavefront can be obtained from several tens of microphone signals. ).

スパース波面分解部121は、以下の最適化問題を解いて、スパースな複素数ベクトルa(k)を計算する(S121)。   The sparse wavefront decomposition unit 121 solves the following optimization problem and calculates a sparse complex vector a (k) (S121).

Figure 2019213109
Figure 2019213109

ただし||a||1はベクトルaのL1ノルムを取ることを意味し、 Where || a || 1 means taking the L1 norm of the vector a

Figure 2019213109
Figure 2019213109

である。D(k)を辞書行列と呼ぶ。この形式の問題はsquare-root LASSOと呼ばれる。式中のパラメータλは参考非特許文献1の方法によりD(k)から決定できる(参考非特許文献1:Florentina Bunea; Johannes Lederer; Yiyuan She, The Group Square-Root Lasso: Theoretical Properties and Fast Algorithms, IEEE Transactions on Information Theory
Year: 2014, Volume: 60, Issue: 2, Pages: 1313 - 1325.)。
It is. D (k) is called a dictionary matrix. This type of problem is called square-root LASSO. The parameter λ in the equation can be determined from D (k) by the method of Reference Non-Patent Document 1 (Reference Non-Patent Document 1: Florentina Bunea; Johannes Lederer; Yiyuan She, The Group Square-Root Lasso: Theoretical Properties and Fast Algorithms, IEEE Transactions on Information Theory
Year: 2014, Volume: 60, Issue: 2, Pages: 1313-1325.).

<ターゲット波面抽出部123>
ターゲット波面抽出部123は、予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを複素数ベクトルから抽出する(S123)。
<Target wavefront extraction unit 123>
The target wavefront extraction unit 123 extracts a target vector representing the amplitude and phase of each wavefront of a plane wave that is a target determined based on a predetermined focus direction from the complex vector (S123).

ターゲット波面抽出部123が実行する具体的な処理を説明する。ターゲット波面抽出部123は、予め定めたフォーカスする方向Ω''(フォーカス方向)に基づき、ターゲットとなる平面波を抽出する。具体的には、ターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを前述した複素数ベクトルa(k)から抽出する。例えばターゲット波面抽出部123は、予め想定したS個の方向から、フォーカス方向Ω''との差がδ以下になる方向を全て抽出する。δとしては例えば1〜30°等の値を設定することが考えられる。抽出されたインデックスの個数をS'、各インデックスをb(1)〜b(S')とする。   Specific processing executed by the target wavefront extraction unit 123 will be described. The target wavefront extraction unit 123 extracts a plane wave as a target based on a predetermined focusing direction Ω ″ (focus direction). Specifically, a target vector representing the amplitude and phase of each wavefront of the plane wave that is the target is extracted from the complex vector a (k) described above. For example, the target wavefront extraction unit 123 extracts all directions in which the difference from the focus direction Ω ″ is δ or less from S directions assumed in advance. For example, a value such as 1 to 30 ° may be set as δ. The number of extracted indexes is S ′, and each index is b (1) to b (S ′).

このとき、抽出された方向の平面波からなるマイクロホン信号は、   At this time, the microphone signal consisting of the plane wave in the extracted direction is

Figure 2019213109
Figure 2019213109

と推定できる。なお、p(Ωb(s'))はターゲットとなる平面波に対するM個のマイクロホンの応答、ab(s')(k)はターゲットベクトルである。
<仮想マイク信号生成部126>
仮想マイク信号生成部126は、ターゲットベクトルと、4つの仮想マイクロホンの仮想の3次元位置に基づいて、4つの仮想マイクロホンの出力信号を生成する(S126)。
Can be estimated. Note that p (Ω b (s ′) ) is a response of M microphones to a target plane wave, and a b (s ′) (k) is a target vector.
<Virtual microphone signal generation unit 126>
The virtual microphone signal generation unit 126 generates output signals of the four virtual microphones based on the target vector and the virtual three-dimensional positions of the four virtual microphones (S126).

仮想マイク信号生成部126が実行する具体的な処理を説明する。仮想マイク信号生成部126は、平面波分解の結果a(k)と上記のインデックスb(s')、すなわちターゲットベクトルab(s')(k)から、仮想マイクロホンの収音信号(出力信号)を求める。図3に示すように、アンビソニック収音用に4つの仮想マイクロホン(o,x,y,z)を使用し、各仮想マイクロホンの仮想の3次元位置がベクトルro、rx、ry、rzで与えられるとする。このとき、仮想マイク信号生成部126は、各仮想マイクロホンの出力信号po(k)、px(k)、py(k)、pz(k)を、ターゲットベクトルab(s')(k)と、4つの仮想マイクロホンの仮想の3次元位置ro、rx、ry、rzに基づいて、下式のように生成する。 Specific processing executed by the virtual microphone signal generation unit 126 will be described. The virtual microphone signal generation unit 126 uses the result of plane wave decomposition a (k) and the above-described index b (s ′), that is, the target vector a b (s ′) (k) to collect the sound signal (output signal) of the virtual microphone. Ask for. As shown in FIG. 3, Ambisonic four virtual microphone for sound pickup (o, x, y, z ) using a virtual three-dimensional position of each virtual microphone vector r o, r x, r y , Let r be given by z . At this time, the virtual microphone signal generation unit 126 uses the output signals p o (k), p x (k), p y (k), and p z (k) of each virtual microphone as the target vector a b (s ′). Based on (k) and the virtual three-dimensional positions r o , r x , r y , r z of the four virtual microphones, the following equation is generated.

Figure 2019213109
Figure 2019213109

ただし、 However,

Figure 2019213109

である。
Figure 2019213109

It is.

<アンビソニック信号生成部128>
アンビソニック信号生成部128は、出力信号に基づいて、4つのアンビソニック信号を生成する(S128)。
<Ambisonic signal generator 128>
The ambisonic signal generation unit 128 generates four ambisonic signals based on the output signal (S128).

アンビソニック信号生成部128が実行する具体的な処理を説明する。アンビソニック信号生成部128は、各仮想マイクロホンの出力信号po(k)、px(k)、py(k)、pz(k)から0次および1次のアンビソニック信号を求める。具体的には4つのアンビソニック信号qo(k)、qx(k)、qy(k)、qz(k)を
qo(k)=po(k)
qx(k)=px(k)-po(k)
qy(k)=py(k)-po(k)
qz(k)=pz(k)-po(k)
で求める。
Specific processing executed by the ambisonic signal generator 128 will be described. The ambisonic signal generator 128 obtains 0th-order and 1st-order ambisonic signals from the output signals p o (k), p x (k), p y (k), and p z (k) of each virtual microphone. Specifically, four ambisonic signals q o (k), q x (k), q y (k), q z (k)
q o (k) = p o (k)
q x (k) = p x (k) -p o (k)
q y (k) = p y (k) -p o (k)
q z (k) = p z (k) -p o (k)
Ask for.

≪短時間逆フーリエ変換部190≫
短時間逆フーリエ変換部190は、処理済みの周波数領域の信号を時間領域に変換する(S190)。
≪Short-time inverse Fourier transform unit 190≫
The short-time inverse Fourier transform unit 190 transforms the processed frequency domain signal into the time domain (S190).

[変形例1]
以下、実施例1を変形した変形例1の音場信号推定装置100Aについて説明する。実施例1の音場信号推定装置100は、フォーカス方向の平面波を取り出し、その他の方向の平面波を除去する。一方、本変形例の音場信号推定装置100Aは、その他の方向の平面波を除去する代わりに残存させ、ターゲット方向成分を強調する。本変形例の音場信号推定装置100Aは、実施例1における仮想マイク信号生成部126を仮想マイク信号生成部126Aに代替した構成となっている。
[Modification 1]
Hereinafter, a sound field signal estimation apparatus 100A of Modification 1 obtained by modifying Embodiment 1 will be described. The sound field signal estimation apparatus 100 according to the first embodiment extracts a plane wave in the focus direction and removes plane waves in other directions. On the other hand, the sound field signal estimation device 100A of the present modification causes the target direction component to be emphasized by remaining in place of removing plane waves in other directions. The sound field signal estimation device 100A of the present modification has a configuration in which the virtual microphone signal generation unit 126 in the first embodiment is replaced with a virtual microphone signal generation unit 126A.

仮想マイク信号生成部126Aは、ターゲットベクトルと4つの仮想マイクロホンの仮想の3次元位置に基づいて生成する第1の項と、複素数ベクトルのうちターゲットベクトルとして抽出されなかったベクトルであるターゲット外ベクトルと4つの仮想マイクロホンの仮想の3次元位置と1よりも小さい重み係数に基づいて生成する第2の項により、4つの仮想マイクロホンの出力信号を生成する(S126A)。   The virtual microphone signal generation unit 126A includes a first term that is generated based on the target vector and the virtual three-dimensional position of the four virtual microphones, and a non-target vector that is a vector that has not been extracted as a target vector among complex vectors. The output signals of the four virtual microphones are generated by the second term generated based on the virtual three-dimensional positions of the four virtual microphones and the weighting coefficient smaller than 1 (S126A).

具体的には、ステップS123で抽出されなかったインデックスの個数をS''、各インデックスをbn(1)〜bn(S'')とし、ターゲット外ベクトルをabn(s'')(k)とする。仮想マイク信号生成部126Aは、重み係数α<1をもちいて、各仮想マイクロホンの出力信号po(k)、px(k)、py(k)、pz(k)を下式のように生成する。 Specifically, the number of indexes not extracted in step S123 is S ″, each index is b n (1) to b n (S ″), and the non-target vector is a bn (s ″) ( k). The virtual microphone signal generator 126A uses the weighting coefficient α <1 and outputs the output signals p o (k), p x (k), p y (k), and p z (k) of each virtual microphone as Generate as follows.

Figure 2019213109
Figure 2019213109

上式の第1項は、ターゲットベクトルab(s')(k)と、4つの仮想マイクロホンの仮想の3次元位置ro、rx、ry、rzに基づく項であり、上式の第2項は、ターゲット外ベクトルabn(s'')(k)と4つの仮想マイクロホンの仮想の3次元位置ro、rx、ry、rzと1よりも小さい重み係数αに基づく項である。この4チャネル信号にステップS128を実行することにより、その他方向の成分がα(<1)倍されたアンビソニック信号が得られる。 The first term of the above equation is a term based on the target vector a b (s ′) (k) and the virtual three-dimensional positions r o , r x , r y , r z of the four virtual microphones. The second term of is a non-target vector a bn (s ″) (k) and virtual three-dimensional positions r o , r x , r y , r z of four virtual microphones and a weighting factor α smaller than 1. It is a term based on. By executing step S128 on the four-channel signal, an ambisonic signal in which the component in the other direction is multiplied by α (<1) is obtained.

<変形例2>
以下、実施例1を変形した変形例2の音場信号推定装置100Bについて説明する。実施例1では、球面マイクロホンアレー901の各マイクロホンの収音信号をある時刻に注目した単一のベクトルとした。一方、本変形例では、各収音信号を複数の時刻についての複数本のベクトル、すなわち複数時刻の各収音信号を使用する場合をあつかう。複数時刻の各収音信号を入力とすることで、音場の平面波分解をより精度よく求めることが可能となる。本変形例の音場信号推定装置100Bは、実施例1におけるスパース波面分解部121をスパース波面分解部121Bに代替した構成となっている。
<Modification 2>
Hereinafter, a sound field signal estimation apparatus 100B according to Modification 2 of Modification of Embodiment 1 will be described. In the first embodiment, the collected sound signal of each microphone of the spherical microphone array 901 is a single vector focused on a certain time. On the other hand, in this modification, a case where a plurality of vectors for a plurality of times, that is, a plurality of sound collection signals at a plurality of times, is used for each collected signal. By using each collected sound signal at a plurality of times as input, plane wave decomposition of the sound field can be obtained more accurately. The sound field signal estimation device 100B of this modification has a configuration in which the sparse wavefront decomposition unit 121 in the first embodiment is replaced with a sparse wavefront decomposition unit 121B.

スパース波面分解部121Bは、時間のパラメータを含む最適化問題に基づき、複数時刻の球面マイクロホンアレーの収音信号の全てが再現されるように、複数時刻のS次元のスパースな複素数ベクトルを計算する(S121B)。   The sparse wavefront decomposition unit 121B calculates an S-dimensional sparse complex vector of a plurality of times so that all the collected signals of the spherical microphone array of a plurality of times are reproduced based on an optimization problem including a time parameter. (S121B).

具体的には、時刻tにおける球面マイクロホンアレー901の収音信号ベクトルを   Specifically, the collected sound signal vector of the spherical microphone array 901 at time t is

Figure 2019213109
Figure 2019213109

として、T本の収音信号ベクトルp^(k,1)…p^(k,T)が与えられたとする。このとき時刻tにおける複素数ベクトルを Suppose that T collected sound signal vectors p ^ (k, 1)... P ^ (k, T) are given. At this time, the complex vector at time t is

Figure 2019213109
Figure 2019213109

として、
A(k)=[a(k,1)…a(k,T)]
を、スパース波面分解部121Bにおいて求めることを考える。この問題は複数本のベクトルをまとめて行列化すると、次の時間のパラメータを含む最適化問題の形で表現できる。
A(k)=argmin||[p^(k,1)…p^(k,T)]-D(k)A(k)||F+λ||A(k)||1,2
ただし||A||Fは行列Aのフロベニウスノルムをとることを意味する。また||A(k)||1,2は行列Aの混合ノルム、
||A(k)||1,2S s=1||[as(k,1)…as(k,T)]||1
を意味する。このノルムは、行列A(k)の各横ベクトルのL1ノルムの総和になる。
As
A (k) = [a (k, 1)… a (k, T)]
Is obtained in the sparse wavefront decomposition unit 121B. This problem can be expressed in the form of an optimization problem including the parameters of the next time when a plurality of vectors are grouped together.
A (k) = argmin || [p ^ (k, 1)… p ^ (k, T)]-D (k) A (k) || F + λ || A (k) || 1,2
However, || A || F means taking the Frobenius norm of matrix A. || A (k) || 1,2 is the mixed norm of matrix A,
|| A (k) || 1,2 = Σ S s = 1 || [a s (k, 1)… a s (k, T)] || 1
Means. This norm is the sum of the L1 norms of each horizontal vector of the matrix A (k).

音場信号推定装置100Bは、時間のパラメータを含み、行列で表現された上述の最適化問題を解いて得られたA(k)に基づき、各時刻においてステップS123、S126、S128を実行することにより、各時刻におけるアンビソニック信号を求める。   The sound field signal estimation device 100B executes steps S123, S126, and S128 at each time based on A (k) obtained by solving the above optimization problem expressed in a matrix including a time parameter. Thus, an ambisonic signal at each time is obtained.

実施例1では、球面マイクロホンアレーの出力信号から、0次と1次のアンビソニック信号を求める方法を示した。実施例2では、球面マイクロホンアレーの出力信号から、2次以上の高次アンビソニック信号を求める。以下、図4を参照して本実施例の音場信号推定装置の構成を説明する。同図に示すように、本実施例の音場信号推定装置200は、短時間フーリエ変換部110と、分解抽出変換部220と、短時間逆フーリエ変換部190を含み、分解抽出変換部220は、スパース波面分解部121と、ターゲット波面抽出部123と、仮想球面マイク信号生成部127と、高次アンビソニック信号生成部129を含む。実施例1における仮想マイク信号生成部126が、本実施例において仮想球面マイク信号生成部127に、実施例1におけるアンビソニック信号生成部128が、本実施例において高次アンビソニック信号生成部129に、それぞれ置き換わっている。   In the first embodiment, the method of obtaining the 0th-order and 1st-order ambisonic signals from the output signal of the spherical microphone array is shown. In the second embodiment, a second-order or higher order ambisonic signal is obtained from the output signal of the spherical microphone array. Hereinafter, the configuration of the sound field signal estimation apparatus of the present embodiment will be described with reference to FIG. As shown in the figure, the sound field signal estimation apparatus 200 of the present embodiment includes a short-time Fourier transform unit 110, a decomposition / extraction conversion unit 220, and a short-time inverse Fourier transform unit 190. , A sparse wavefront decomposition unit 121, a target wavefront extraction unit 123, a virtual spherical microphone signal generation unit 127, and a higher-order ambisonic signal generation unit 129. The virtual microphone signal generator 126 in the first embodiment is used as the virtual spherical microphone signal generator 127 in this embodiment, and the ambisonic signal generator 128 in the first embodiment is used as the higher-order ambisonic signal generator 129 in this embodiment. , Each has been replaced.

以下、図5を参照して、実施例1と異なる構成要件である仮想球面マイク信号生成部127、高次アンビソニック信号生成部129の動作を説明する。   Hereinafter, the operations of the virtual spherical microphone signal generation unit 127 and the higher-order ambisonic signal generation unit 129, which are different configuration requirements from the first embodiment, will be described with reference to FIG.

<仮想球面マイク信号生成部127>
仮想球面マイク信号生成部127は、ターゲットベクトルに基づいて仮想の球面マイクロホンアレーの出力信号を生成する(S127)。あるいは、仮想球面マイク信号生成部127は、ターゲットベクトルに基づいて生成する第1の項と、複素数ベクトルのうち、ターゲットベクトルとして抽出されなかったベクトルであるターゲット外ベクトルと1よりも小さい重み係数に基づいて生成する第2の項により、仮想の球面マイクロホンアレーの出力信号を生成する(S127)。
<Virtual Spherical Microphone Signal Generation Unit 127>
The virtual spherical microphone signal generation unit 127 generates an output signal of the virtual spherical microphone array based on the target vector (S127). Alternatively, the virtual spherical microphone signal generation unit 127 sets the first term to be generated based on the target vector, the non-target vector that is not extracted as the target vector among the complex vector, and the weighting coefficient smaller than 1. The output signal of the virtual spherical microphone array is generated by the second term generated based on the second term (S127).

前述したように、ステップS123では、平面波分解の結果a(k)のうち、フォーカス方向に含まれるインデックスb(1)〜b(S')(すなわちターゲットベクトルab(s')(k))と、フォーカス方向に含まれないインデックスbn(1)〜bn(S'')(すなわちターゲット外ベクトルabn(s'')(k))が抽出される。仮想球面マイク信号生成部127は、フォーカス方向の平面波成分からなる球面マイクロホン信号を、 As described above, in step S123, of the plane wave decomposition result a (k), the indices b (1) to b (S ′) (that is, the target vector a b (s ′) (k)) included in the focus direction. Then, indexes b n (1) to b n (S ″) (that is, out-target vectors a bn (s ″) (k)) not included in the focus direction are extracted. The virtual spherical microphone signal generation unit 127 converts a spherical microphone signal composed of a plane wave component in the focus direction,

Figure 2019213109
Figure 2019213109

と推定する。仮想球面マイク信号生成部127は、フォーカス外の平面波成分からなる球面マイクロホン信号を Estimated. The virtual spherical microphone signal generator 127 converts a spherical microphone signal composed of a plane wave component out of focus.

Figure 2019213109
Figure 2019213109

と推定する。 Estimated.

仮想球面マイク信号生成部127は、仮想の球面マイクロホンアレーの出力信号を   The virtual spherical microphone signal generation unit 127 outputs the output signal of the virtual spherical microphone array.

Figure 2019213109
Figure 2019213109

として出力する(ただしα<1)。出力された仮想の球面マイクロホンアレーの出力信号に後述するステップS129を実行することで、非フォーカス成分が一部残留する高次アンビソニック信号を得ることができる。上の式でα=0にしてステップS129を実行すれば、特定方向にフォーカスされた高次アンビソニック信号が得られる。
<高次アンビソニック信号生成部129>
高次アンビソニック信号生成部129は、仮想の球面マイクロホンアレーの出力信号を球調和関数領域へ変換し、高次アンビソニック信号を生成する(S129)。
(Where α <1). By executing step S129, which will be described later, on the output signal of the virtual spherical microphone array that has been output, it is possible to obtain a higher-order ambisonic signal in which a part of the non-focus component remains. If α = 0 in the above equation and step S129 is executed, a high-order ambisonic signal focused in a specific direction can be obtained.
<Higher order ambisonic signal generator 129>
The high-order ambisonic signal generator 129 converts the output signal of the virtual spherical microphone array into the spherical harmonic function region, and generates a high-order ambisonic signal (S129).

高次アンビソニック信号生成部129は、非特許文献2の方法をそのまま用いる。非特許文献2では、周波数領域の球面マイクロホンアレーの収音信号を球調和関数領域へ変換し、処理することで、高次アンビソニック信号を生成する手法が提案されている。   The higher-order ambisonic signal generator 129 uses the method of Non-Patent Document 2 as it is. Non-Patent Document 2 proposes a method of generating a higher-order ambisonic signal by converting a collected signal of a spherical microphone array in a frequency domain into a spherical harmonic function domain and processing it.

なお実施例2についても、実施例1の変形例2と同様に、複数時刻の各収音信号を使用することが可能である。   Note that in the second embodiment as well, as in the second modification of the first embodiment, it is possible to use each collected sound signal at a plurality of times.

<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。   The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。   In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   The present invention is not limited to the above-described embodiment, and can be modified as appropriate without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。   As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiment are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from the portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

Claims (8)

Sを任意の自然数とし、球面マイクロホンアレーの収音信号が予め想定したS方向から到来するS個の平面波に分解されると仮定した場合の前記平面波の各波面の振幅と位相を表すS次元のスパースな複素数ベクトルを計算するスパース波面分解部と、
予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを前記複素数ベクトルから抽出するターゲット波面抽出部と、
前記ターゲットベクトルと、4つの仮想マイクロホンの仮想の3次元位置に基づいて、4つの前記仮想マイクロホンの出力信号を生成する仮想マイク信号生成部と、
前記出力信号に基づいて、4つのアンビソニック信号を生成するアンビソニック信号生成部を含む
音場信号推定装置。
S is an arbitrary natural number, and the S-dimensional signal representing the amplitude and phase of each wavefront of the plane wave when the collected sound signal of the spherical microphone array is assumed to be decomposed into S plane waves coming from the previously assumed S direction. A sparse wavefront decomposition unit for calculating a sparse complex vector,
A target wavefront extraction unit that extracts a target vector representing the amplitude and phase of each wavefront of a plane wave as a target determined based on a predetermined focus direction from the complex vector;
A virtual microphone signal generation unit that generates output signals of the four virtual microphones based on the target vector and a virtual three-dimensional position of the four virtual microphones;
A sound field signal estimation apparatus including an ambisonic signal generator that generates four ambisonic signals based on the output signal.
請求項1に記載の音場信号推定装置であって、
前記仮想マイク信号生成部は、
前記ターゲットベクトルと4つの仮想マイクロホンの仮想の3次元位置に基づいて生成する第1の項と、前記複素数ベクトルのうち前記ターゲットベクトルとして抽出されなかったベクトルであるターゲット外ベクトルと4つの仮想マイクロホンの仮想の3次元位置と1よりも小さい重み係数に基づいて生成する第2の項により、4つの前記仮想マイクロホンの出力信号を生成する
音場信号推定装置。
The sound field signal estimation device according to claim 1,
The virtual microphone signal generator is
A first term that is generated based on the target vector and a virtual three-dimensional position of four virtual microphones; an out-of-target vector that is a vector that has not been extracted as the target vector of the complex vector; and four virtual microphones A sound field signal estimation device that generates output signals of four virtual microphones according to a second term that is generated based on a virtual three-dimensional position and a weighting factor smaller than one.
Sを任意の自然数とし、球面マイクロホンアレーの収音信号が予め想定したS方向から到来するS個の平面波に分解されると仮定した場合の前記平面波の各波面の振幅と位相を表すS次元のスパースな複素数ベクトルを計算するスパース波面分解部と、
予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを前記複素数ベクトルから抽出するターゲット波面抽出部と、
前記ターゲットベクトルに基づいて仮想の球面マイクロホンアレーの出力信号を生成する仮想球面マイク信号生成部と、
前記仮想の球面マイクロホンアレーの出力信号を球調和関数領域へ変換し、高次アンビソニック信号を生成する高次アンビソニック信号生成部を含む
音場信号推定装置。
S is an arbitrary natural number, and the S-dimensional signal representing the amplitude and phase of each wavefront of the plane wave when the collected sound signal of the spherical microphone array is assumed to be decomposed into S plane waves coming from the previously assumed S direction. A sparse wavefront decomposition unit for calculating a sparse complex vector,
A target wavefront extraction unit that extracts a target vector representing the amplitude and phase of each wavefront of a plane wave as a target determined based on a predetermined focus direction from the complex vector;
A virtual spherical microphone signal generator that generates an output signal of a virtual spherical microphone array based on the target vector;
A sound field signal estimation device including a high-order ambisonic signal generator that converts an output signal of the virtual spherical microphone array into a spherical harmonic function region and generates a high-order ambisonic signal.
請求項3に記載の音場信号推定装置であって、
前記仮想球面マイク信号生成部は、
前記ターゲットベクトルに基づいて生成する第1の項と、前記複素数ベクトルのうち、前記ターゲットベクトルとして抽出されなかったベクトルであるターゲット外ベクトルと1よりも小さい重み係数に基づいて生成する第2の項により、仮想の球面マイクロホンアレーの出力信号を生成する
音場信号推定装置。
The sound field signal estimation device according to claim 3,
The virtual spherical microphone signal generator is
A first term that is generated based on the target vector, and a second term that is generated based on a non-target vector that is a vector that has not been extracted as the target vector, and a weighting factor smaller than 1, among the complex vectors. A sound field signal estimation device that generates an output signal of a virtual spherical microphone array.
請求項1から4の何れかに記載の音場信号推定装置であって、
前記スパース波面分解部は、
時間のパラメータを含む最適化問題に基づき、複数時刻の球面マイクロホンアレーの収音信号の全てが再現されるように、複数時刻のS次元のスパースな複素数ベクトルを計算する
音場信号推定装置。
The sound field signal estimation device according to any one of claims 1 to 4,
The sparse wavefront decomposition unit is
A sound field signal estimation device that calculates an S-dimensional sparse complex vector of multiple times so that all of the collected signals of a spherical microphone array of multiple times are reproduced based on an optimization problem including time parameters.
音場信号推定装置が実行する音場信号推定方法であって、
Sを任意の自然数とし、球面マイクロホンアレーの収音信号が予め想定したS方向から到来するS個の平面波に分解されると仮定した場合の前記平面波の各波面の振幅と位相を表すS次元のスパースな複素数ベクトルを計算するステップと、
予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを前記複素数ベクトルから抽出するステップと、
前記ターゲットベクトルと、4つの仮想マイクロホンの仮想の3次元位置に基づいて、4つの前記仮想マイクロホンの出力信号を生成するステップと、
前記出力信号に基づいて、4つのアンビソニック信号を生成するステップを含む
音場信号推定方法。
A sound field signal estimation method executed by the sound field signal estimation device,
S is an arbitrary natural number, and the S-dimensional signal representing the amplitude and phase of each wavefront of the plane wave when the collected sound signal of the spherical microphone array is assumed to be decomposed into S plane waves coming from the previously assumed S direction. Calculating a sparse complex vector;
Extracting a target vector representing the amplitude and phase of each wavefront of a plane wave as a target determined based on a predetermined focus direction from the complex vector;
Generating output signals of the four virtual microphones based on the target vector and a virtual three-dimensional position of the four virtual microphones;
A method for estimating a sound field signal, comprising: generating four ambisonic signals based on the output signal.
音場信号推定装置が実行する音場信号推定方法であって、
Sを任意の自然数とし、球面マイクロホンアレーの収音信号が予め想定したS方向から到来するS個の平面波に分解されると仮定した場合の前記平面波の各波面の振幅と位相を表すS次元のスパースな複素数ベクトルを計算するステップと、
予め定めたフォーカス方向に基づいて定まるターゲットとなる平面波の各波面の振幅と位相を表すターゲットベクトルを前記複素数ベクトルから抽出するステップと、
前記ターゲットベクトルに基づいて仮想の球面マイクロホンアレーの出力信号を生成するステップと、
前記仮想の球面マイクロホンアレーの出力信号を球調和関数領域へ変換し、高次アンビソニック信号を生成するステップを含む
音場信号推定方法。
A sound field signal estimation method executed by the sound field signal estimation device,
S is an arbitrary natural number, and the S-dimensional signal representing the amplitude and phase of each wavefront of the plane wave when the collected sound signal of the spherical microphone array is assumed to be decomposed into S plane waves coming from the previously assumed S direction. Calculating a sparse complex vector;
Extracting a target vector representing the amplitude and phase of each wavefront of a plane wave as a target determined based on a predetermined focus direction from the complex vector;
Generating an output signal of a virtual spherical microphone array based on the target vector;
A method for estimating a sound field signal, comprising: converting an output signal of the virtual spherical microphone array into a spherical harmonic function region to generate a high-order ambisonic signal.
コンピュータを請求項1から5の何れかに記載の音場信号推定装置として機能させるプログラム。   A program for causing a computer to function as the sound field signal estimation device according to any one of claims 1 to 5.
JP2018109188A 2018-06-07 2018-06-07 Sound field signal estimation device, sound field signal estimation method, program Pending JP2019213109A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018109188A JP2019213109A (en) 2018-06-07 2018-06-07 Sound field signal estimation device, sound field signal estimation method, program
PCT/JP2019/019832 WO2019235193A1 (en) 2018-06-07 2019-05-20 Sound field signal estimation device, sound field signal estimation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018109188A JP2019213109A (en) 2018-06-07 2018-06-07 Sound field signal estimation device, sound field signal estimation method, program

Publications (1)

Publication Number Publication Date
JP2019213109A true JP2019213109A (en) 2019-12-12

Family

ID=68769368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018109188A Pending JP2019213109A (en) 2018-06-07 2018-06-07 Sound field signal estimation device, sound field signal estimation method, program

Country Status (2)

Country Link
JP (1) JP2019213109A (en)
WO (1) WO2019235193A1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US10403292B2 (en) * 2014-07-02 2019-09-03 Dolby Laboratories Licensing Corporation Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation

Also Published As

Publication number Publication date
WO2019235193A1 (en) 2019-12-12

Similar Documents

Publication Publication Date Title
US10075799B2 (en) Method and device for rendering an audio soundfield representation
US10382849B2 (en) Spatial audio processing apparatus
JP2019078864A (en) Musical sound emphasis device, convolution auto encoder learning device, musical sound emphasis method, and program
US20190069118A1 (en) Sound processing apparatus and method, and program
US11218807B2 (en) Audio signal processor and generator
JP2018077139A (en) Sound field estimation device, sound field estimation method and program
WO2019235193A1 (en) Sound field signal estimation device, sound field signal estimation method, and program
JP6087856B2 (en) Sound field recording and reproducing apparatus, system, method and program
JP2022500710A (en) Combined sound source localization and separation method for acoustic sources
JP2019075616A (en) Sound field recording apparatus and sound field recording method
CN111147655B (en) Model generation method and device
JP2017055156A (en) Sound field measurement device, sound field measurement method, program
JP2018120129A (en) Sound field estimation device, method and program
WO2022176045A1 (en) Model learning device, arrival direction estimation device, model learning method, arrival direction estimation method, and program
JP2017118189A (en) Sound collection signal estimating device, sound collection signal estimating method and program
CN113518299B (en) Improved method, equipment and computer readable storage medium for extracting source component and environment component
JP7072163B2 (en) Stereo signal generator, electronic musical instrument, stereo signal generation method, program
JP6445407B2 (en) Sound generation device, sound generation method, and program
JP6538002B2 (en) Target sound collection device, target sound collection method, program, recording medium
JP6585544B2 (en) Ambient signal generation device, ambient signal generation method, program
WO2021100094A1 (en) Sound source signal estimation device, sound source signal estimation method, and program
Perez-Lopez et al. Analysis of spherical isotropic noise fields with an A-Format tetrahedral microphone
JP2013243465A (en) Sound field similarity estimating device, method therefor and program
JP2018060059A (en) Musical sound signal conversion device, musical sound signal conversion method, and program
JP2009284391A (en) Sound pickup device, sound pickup method, program thereof, and recording medium thereof