WO2024047721A1 - 疑似アンビソニックス信号生成装置、疑似アンビソニックス信号生成方法、音響イベント提示システム、及びプログラム - Google Patents

疑似アンビソニックス信号生成装置、疑似アンビソニックス信号生成方法、音響イベント提示システム、及びプログラム Download PDF

Info

Publication number
WO2024047721A1
WO2024047721A1 PCT/JP2022/032478 JP2022032478W WO2024047721A1 WO 2024047721 A1 WO2024047721 A1 WO 2024047721A1 JP 2022032478 W JP2022032478 W JP 2022032478W WO 2024047721 A1 WO2024047721 A1 WO 2024047721A1
Authority
WO
WIPO (PCT)
Prior art keywords
pseudo
ambisonics signal
ambisonics
signal
spherical coordinates
Prior art date
Application number
PCT/JP2022/032478
Other languages
English (en)
French (fr)
Inventor
昌弘 安田
翔一郎 齊藤
祐介 日和▲崎▼
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/032478 priority Critical patent/WO2024047721A1/ja
Publication of WO2024047721A1 publication Critical patent/WO2024047721A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the disclosed technology relates to the recording, analysis, and utilization of three-dimensional acoustic information.
  • Detecting the type and direction of arrival of an acoustic event from an acoustic signal can be applied to a variety of things. For example, by linking the detection device with smart home equipment, it is possible to promptly notify users of abnormal situations in their homes, along with estimated event details and location information. Alternatively, by installing a detection device in a self-driving car, it can notify the driver of the occurrence of danger and necessary actions. Alternatively, if a pedestrian carries the detection device as a wearable device, the pedestrian can be informed of the occurrence of danger and the exact direction of the danger.
  • SELD Solid Event Localization and Detection
  • FOA first order ambisonic
  • Non-Patent Document 1 With reference to Non-Patent Document 1, we will give an overview of spherical harmonic expansion of acoustic signals and beamforming using ambisonics signals.
  • a sound pressure signal p of wave number k observed at spherical coordinates (r, ⁇ ) can be expanded as follows using a spherical harmonic function Ylm . Due to the orthogonality of Y lm , the expansion coefficient p lm is generally calculated by the following equation.
  • the beamformer output y can be expressed as follows.
  • the weight w lm for obtaining a beam pattern in the ⁇ u direction can be configured as follows.
  • b l (k) is a coefficient depending on the structure of the microphone baffle.
  • equation (7) is obtained.
  • the direction ⁇ u in which the signal strength in equation (7) is maximum is the direction of arrival of the signal.
  • Non-Patent Document 1 takes the case of first-order ambisonics as an example, and estimates the direction of the sound source by approximately deriving from the ambisonics signal a physical quantity representing the propagation direction and intensity of the sound, called an acoustic intensity vector. We are proposing a method to do so.
  • the sound intensity vector I is defined by the following equation, where p is the sound pressure and v is the particle velocity vector.
  • p x (k), p y (k), and p z (k) are as follows.
  • Many SELD devices improve the accuracy of estimating the direction of a sound source by using this pseudo acoustic intensity vector as an input feature.
  • an ambisonics signal means an N-order ambisonics signal that is not limited to the first order.
  • the ambisonics signal can be calculated using the spherical coordinates (R, ⁇ q , ⁇ q ) of each microphone calculated with the center of the sphere as the origin.
  • the spherical surface that passes through all the microphone positions is generally not determined. If the microphones are not placed on the same spherical surface, the collected acoustic signals cannot be converted into ambisonics signals.
  • An ambisonics format signal is required to derive a pseudo acoustic intensity vector used as an input feature for SELD. The challenge is to be able to obtain a pseudo sound intensity vector using acoustic signals collected by a device attached to a person (wearable device).
  • a pseudo ambisonics signal generation device includes a spherical coordinate acquisition section, a calculation section, and a signal extraction section.
  • the spherical coordinate acquisition unit acquires the spherical coordinates of each microphone with the origin being the intersection of a plane that symmetrically divides the face left and right and a straight line passing through the centers of the left and right ears.
  • the calculation unit calculates the average value of the radius of the spherical coordinates, and replaces the radius of each spherical coordinate with the average value.
  • the signal extraction unit generates a pseudo ambisonics signal using the spherical coordinates replaced by the average value and the acoustic signal acquired by the microphone.
  • the acoustic event presentation system includes at least four microphones arranged along the head of a human body, a pseudo ambisonics signal generation device, an estimation device, and a presentation device.
  • the pseudo ambisonics signal generation device generates a pseudo ambisonics signal from an acoustic signal acquired by a microphone.
  • the estimation device estimates the direction and type of the sound source from the pseudo ambisonics signal.
  • the presentation device presents information regarding the sound source to the user based on the estimation result.
  • a pseudo acoustic intensity vector can be obtained using an acoustic signal collected by a device attached to a person (wearable device), and a wearable pseudo ambisonics signal generation device and an acoustic event A presentation system can be realized.
  • FIG. 3 is a diagram illustrating SELD according to the conventional technology.
  • FIG. 1 is a functional block diagram of an acoustic event presentation system including a pseudo ambisonics signal generation device according to a first embodiment. The figure which shows an example of the spherical coordinate set to a human head.
  • FIG. 3 is a flowchart diagram illustrating the operation of the pseudo ambisonics signal generation device.
  • FIG. 3 is a flowchart diagram illustrating the operation of the estimation device.
  • FIG. 2 is a functional block diagram of the audio presentation device.
  • FIG. 3 is a flowchart diagram illustrating the operation of the audio presentation device.
  • FIG. 2 is a functional block diagram of a video presentation device.
  • FIG. 3 is a flowchart diagram illustrating the operation of the video presentation device.
  • FIG. 1 is a diagram showing an example of a functional configuration of a computer.
  • FIG. 2 shows a functional block diagram of an example of an acoustic event presentation system including a pseudo ambisonics signal generation device according to the disclosed technology.
  • the acoustic event presentation system includes an acoustic information acquisition device 201 , a pseudo ambisonics signal generation device 202 , an estimation device 206 , and a presentation device 209 .
  • the acoustic information acquisition device 201 acquires Q channel acoustic signals x q obtained from Q microphones installed at arbitrary positions on the head or a device worn on the head, and generates the pseudo ambisonics signal generation device 202. supply to.
  • Q is an integer of 4 or more.
  • the pseudo-ambisonics signal generation device 202 includes a microphone coordinate acquisition section 203, a calculation section 204, and a signal extraction section 205.
  • FIG. 3 shows an example of a spherical coordinate system for calculating microphone coordinates.
  • the settings of the x-axis, y-axis, and z-axis passing through the origin are merely examples, and are not limited thereto.
  • the line passing through the center of the left and right ears is the y-axis.
  • the origin of the spherical coordinate system is the intersection of the y-axis and the plane that symmetrically divides the face left and right.
  • a straight line passing through the origin in the vertical direction of the head and perpendicular to the y-axis is the z-axis of the spherical coordinate system.
  • a straight line passing through the origin in the front-back direction of the head and perpendicular to the y-axis is the x-axis of the spherical coordinate system.
  • the azimuth angle of the spherical coordinate system is ⁇
  • the elevation angle is ⁇ .
  • FIG. 4 is a flowchart illustrating the operation of the pseudo ambisonics signal generation device.
  • pq may be a value measured by a device external to the pseudo ambisonics signal generation device 202, or may be read as setting information stored in the pseudo ambisonics signal generation device 202.
  • the calculation unit 204 corrects the spherical coordinates acquired by the microphone coordinate acquisition unit.
  • the spherical coordinates of each microphone can be used as is to calculate the ambisonics signal, but in the case of microphones placed on the head, the distances between the origin defined above and each microphone are generally not equal, and the microphone coordinates remain unchanged. Cannot be used to calculate ambisonics signals.
  • the approximate spherical coordinates of each microphone are determined (step S403).
  • the pseudo-ambisonics signal generation device 202 acquires the Q-channel acoustic signal x q from the acoustic information acquisition device 201 (step S404), and generates a pseudo-ambisonics signal using the Q sets of p′ q and x q . . That is, when the Q-channel microphone is placed on a rigid sphere with radius r, signal processing (such as spherical harmonic function expansion) for obtaining an ambisonics signal is performed to generate a pseudo-ambisonics signal.
  • the estimation device 206 includes a pseudo acoustic intensity vector extracting section 207 and an estimating section 208, receives the pseudo ambisonics signal as input, and outputs the estimation result of the direction and type of the sound source.
  • FIG. 5 is a flowchart illustrating the operation of the estimation device 206.
  • the pseudo acoustic intensity vector extraction unit 207 generates a pseudo acoustic intensity vector from the pseudo ambisonics signal, for example, by the method described in Non-Patent Document 1 (step S501).
  • the estimation unit 208 estimates the arrival direction of the sound source (step S502) and the type of sound source (step S503) using the pseudo acoustic intensity vector and the pseudo ambisonics signal.
  • the estimation is similar to that described in “A. Politis et. al, “A dataset of dynamic reververant sound scenes with directional interferers for sound event localization and detection”, arXiv:2106.06999, 2021” (Reference 1), for example.
  • a DNN deep neural network trained by inputting the acoustic features extracted according to the present invention may be used. DNN inputs a pseudo acoustic intensity vector and a pseudo ambisonics signal, and as an estimation result, for example, the sound source direction corresponds to a three-dimensional unit vector, and the sound source type corresponds to a label such as "bell sound” or "car running sound”. All you have to do is configure it so that it outputs an integer.
  • the presentation device 209 converts the estimation results into acoustic or visual information and provides the information to the user.
  • FIG. 6 shows a functional block diagram of an audio presentation device 601 according to the first presentation example.
  • the audio presentation device 601 includes an HRTF search unit 602, an HRTF database 603, a voice/sound effect search unit 604, a voice/sound effect database 605, and a convolution calculation unit 606.
  • HRTF is an acronym for Head related transfer function, and is a function that represents how sound reaches both ears from the sound source. In Japanese, it is called head-related transfer function.
  • HRTF is an acronym for Head related transfer function, and is a function that represents how sound reaches both ears from the sound source. In Japanese, it is called head-related transfer function.
  • HRTF database HRTFs that cover all directions of a sphere centered on the head, HRTFs that cover all directions of the upper hemisphere, etc.
  • the sound source type compatible audio file corresponding to the sound source type "car” may be a warning sound saying "A car is approaching". You can use what you have recorded.
  • FIG. 7 is a flowchart illustrating the operation of the audio presentation device 601.
  • the HRTF search unit 602 searches the HRTF database for the HRTF in the direction closest to the sound source direction obtained as the estimation result, and obtains the sound source direction HRTF (step S701).
  • the voice/sound effect search unit 604 searches the voice/sound effect database for voices and sound effects corresponding to the sound source type obtained as the estimation result, and obtains a sound file corresponding to the sound source type (step S702).
  • the convolution calculation unit 606 convolves the sound source direction HRTF with the obtained sound source type corresponding audio file. As a result, a sound is generated assuming a situation where a sound source type-compatible audio file is played back in the direction of the sound source. For example, a voice saying "A car is approaching" can be presented to the user with stereophonic sound that appears to be coming from the direction the car is coming from.
  • FIG. 8 shows a functional block diagram of a video presentation device 801 according to the second presentation example.
  • the video presentation device 801 includes a marker image acquisition unit 802, a marker image database 803, a marker image conversion unit 804, a camera video acquisition unit 805, and an estimation result synthesis unit 806.
  • a three-dimensional arrow image with a shape and color depending on the type of sound source is registered in the marker image database 803 as a basic marker image.
  • FIG. 9 is a flowchart explaining the operation of the video presentation device 801.
  • the marker image acquisition unit 802 acquires a basic marker image corresponding to the type of sound source from the marker image database 803 (step S901).
  • the marker image conversion unit 804 uses the estimated sound source direction to three-dimensionally rotate the basic marker image to generate a modified marker image (step S902). For example, the marker image is rotated so as to show that it extends from the center of the head toward the sound source.
  • the camera image acquisition unit 805 acquires an image around the user (step S903).
  • the estimation result synthesis unit 806 adds and synthesizes the corrected marker image to the image acquired by the camera image acquisition unit 805 (step S904). Thereby, the video presentation device 801 can visually present the type and arrival direction of the sound source to the user.
  • marker images for all sound source directions and types may be registered in advance in the marker image database, and may be selected depending on the sound source type and direction.
  • a basic marker image may be generated depending on the type of sound source, and the direction of the marker image may be determined based on the direction of the sound source.
  • the approximate center of the head (the intersection of the line passing through the centers of the left and right ears and the plane that symmetrically divides the face left and right) was used as the origin of the spherical coordinates, but when there are four head-mounted microphones, You can calculate a spherical surface that passes through all of , and set the center of that sphere as the origin.
  • a program that describes this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be of any type, such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory.
  • this program is performed, for example, by selling, transferring, lending, etc. portable recording media such as DVDs and CD-ROMs on which the program is recorded. Furthermore, this program may be distributed by storing the program in the storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program for example, first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing a process, this computer reads a program stored in its own recording medium and executes a process according to the read program. In addition, as another form of execution of this program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and furthermore, the program may be transferred to this computer from the server computer. The process may be executed in accordance with the received program each time.
  • ASP Application Service Provider
  • the above-mentioned processing is executed by a so-called ASP (Application Service Provider) service, which does not transfer programs from the server computer to this computer, but only realizes processing functions by issuing execution instructions and obtaining results.
  • ASP Application Service Provider
  • the present apparatus is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be implemented in hardware.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

ウェアラブルデバイスで集音した音響信号を用いて、疑似音響強度ベクトルを求められるようにする。このため、開示技術に係る疑似アンビソニックス信号生成装置は、球座標取得部と、計算部と、信号抽出部を含む。球座標取得部は、顔を左右に対称に分ける平面と、左右耳の中心を通る直線の交点を原点として各マイクロフォンの球座標を取得する。計算部は、球座標の半径の平均値を計算し、各球座標の半径を平均値で置き換える。信号抽出部は、平均値で置き換えた球座標と、マイクロフォンで取得した音響信号を用いて疑似アンビソニックス信号を生成する。

Description

疑似アンビソニックス信号生成装置、疑似アンビソニックス信号生成方法、音響イベント提示システム、及びプログラム
 開示技術は3次元音響情報の記録、分析、利用に関する。
 音響信号から、音響イベントの種類と到来方向を検出できると、様々なことに応用できる。
 例えば、検出装置をスマートホーム機器と連動させることで、住居内の異常事態を、推定イベント内容と位置情報とともに、ユーザーに速やかに通知することができる。
 あるいは検出装置を自動運転の自動車に搭載することで、ドライバに危険の発生と必要なアクションを知らせることができる。
 また、あるいは、検出装置を歩行者がウェアラブルデバイスとして携行することで、歩行者に危険の発生と危険の正確な方向を知らせることができる。
 このような技術はSELD(Sound Event Localization and Detection:音響イベント検出・音源定位)と呼ばれる。
 3次元音場の測定に、SELDでは、主として、一次アンビソニック(First Order Ambisonic:FOA)マイクと呼ばれるマイクロフォンが利用されている。図1にFOAマイクを模式的に示す。FOAマイクは、単一指向性マイクロフォンMからMを正四面体の4つの頂点に配置したマイクロフォンアレイである。
 非特許文献1を参考に、音響信号の球面調和関数展開と、アンビソニックス信号によるビームフォーミングを概観する。
 球座標(r,Ω)で観測された波数kの音圧信号pは、球面調和関数Ylmを用いて次のように展開できる。
Figure JPOXMLDOC01-appb-M000001

 Ylmの直行性により、展開係数plmは、一般には、次式で計算される。
Figure JPOXMLDOC01-appb-M000002

 観測信号から求めた球面調和関数の係数情報plmをアンビソニックス信号と呼び、l=0,1まで用いた場合を、一次アンビソニックと呼ぶ。
 求めたplmは直交基底であるため,これらを重みづけ合成することで、任意のビームパターンを持つビームフォーマーを構成出来る.一般にビームフォーマー出力yは次のように表現できる。
Figure JPOXMLDOC01-appb-M000003

 音源が十分遠方にあり、観測信号が平面波とみなせる場合、Ωu方向へのビームパターンを得るための重みwlmは次のように構成できる。
Figure JPOXMLDOC01-appb-M000004

ここで,b(k)は,マイクロフォンのバッフルの構造に依存する係数である。
 式(3)、式(4)より、Ωu方向に指向性を持つビームフォーマー出力は次のように表される.
Figure JPOXMLDOC01-appb-M000005

 ここで、(5)を実際に半径rの剛体球上のq個のマイクロフォンで観測した信号音のから得るために、plmは次式で近似できることを利用する。
Figure JPOXMLDOC01-appb-M000006

 式(5)に式(6)を代入して式(7)を得る。
Figure JPOXMLDOC01-appb-M000007

 式(7)の信号強度が最大となる方向Ωuが、すなわち、信号の到来方向である。
 しかしながら、式(7)を用いて信号到来方向を求めるには、あらゆる方向の信号強度を計算する必要があり、容易でない。そこで、非特許文献1は、一次アンビソニックの場合を例に、アンビソニックス信号から、音響強度ベクトルと呼ばれる、音の伝搬方向と強度を表す物理量を近似的に導出して、音源の方向を推定する方法を提案している。
 音響強度ベクトルIは、音圧をp、粒子速度ベクトルをvとして次式で定義される。
Figure JPOXMLDOC01-appb-M000008

 上記pを、観測音響信号から求めた球面調和関数のゼロ次成分で、vを一次成分で置き換え、波数kの疑似音響強度ベクトルを次のように定義する。
Figure JPOXMLDOC01-appb-M000009

ここで、p(k),p(k),p(k)は以下の通り。
Figure JPOXMLDOC01-appb-M000010

Figure JPOXMLDOC01-appb-M000011

Figure JPOXMLDOC01-appb-M000012

 多くのSELD装置は、この疑似音響強度ベクトルを入力特徴量として利用することで音源方向の推定精度を高めている。
 マイクロフォンの数を増やし、観測3次元音場から得る情報量を増やすことで、より高次の球面調和関数を用いた展開が可能になる。
 なお、N次の球面調和関数は2N+1個の成分を持つため、N次までの展開係数を求めるには、少なくともΣm=0 (2m+1)=(N+1)個のマイクを必要とする。
 N次アンビソニックス信号における疑似音響強度ベクトルは、非特許文献1の疑似音響強度ベクトルの粒子速度ベクトルを、1次からN次の成分で計算して得ることができる。
 以下、アンビソニックス信号とは、一次に限定されないN次のアンビソニックス信号を意味するものとする。
D. P. Jarrett et al., "3D SOURCE LOCALIZATION IN THE SPHERICAL HARMONIC DOMAIN USING PSEUDOINTENSITY VECTOR," 18th European Signal Processing Conference (EUSIPCO 2010) Proceedings, pp.442-446
 正四面体の頂点に合計4つのマイクロフォンを配置するFOAマイクを、例えば、歩行者が日常的に携行することは現実的でなく、工夫が必要である。
 マイクロフォンをウェアラブル化すると人間が持ち運びやすくはなるが、マイクを同一球面上に配置するのが困難になる。半径Rの球面上に配置されたマイクロフォンアレイの場合、球の中心を原点として計算される各マイクロフォンの球座標(R, φ, θ)をそのまま用いてアンビソニックス信号を計算することが出来るが、頭部に多数のマイクロフォンを配置した場合、全てのマイク位置を通る球面は、一般には定まらない。
 マイクが同一球面上に配置されていないと、収音した音響信号をアンビソニックス信号に変換できない。SELDのための入力特徴量として用いられる疑似音響強度ベクトルの導出にはアンビソニックス形式の信号を必要とする。
 人に取り付けられるデバイス(ウェアラブルデバイス)によって集音された音響信号を用いて、疑似音響強度ベクトルを求められるようにすることが課題である。
 上記課題を解決するため、開示技術に係る疑似アンビソニックス信号生成装置は、球座標取得部と、計算部と、信号抽出部を含む。
 球座標取得部は、顔を左右に対称に分ける平面と、左右耳の中心を通る直線の交点を原点として各マイクロフォンの球座標を取得する。
 計算部は、球座標の半径の平均値を計算し、各球座標の半径を平均値で置き換える。
 信号抽出部は、平均値で置き換えた球座標と、マイクロフォンで取得した音響信号を用いて疑似アンビソニックス信号を生成する。
 また、開示技術に係る音響イベント提示システムは、人体の頭部に沿って配置された少なくとも4つのマイクロフォンと、疑似アンビソニックス信号生成装置と、推定装置と、提示装置を含む。
 疑似アンビソニックス信号生成装置は、マイクロフォンで取得した音響信号から疑似アンビソニックス信号を生成する。
 推定装置は、疑似アンビソニックス信号から音源の方向と種類を推定する。
 提示装置は、推定結果に基づいて、ユーザーに音源に関する情報を提示する。
 開示技術によれば、人に取り付けられるデバイス (ウェアラブルデバイス) によって集音された音響信号を用いて、疑似音響強度ベクトルを求められるようになり、ウェアラブルな疑似アンビソニックス信号生成装置、並びに、音響イベント提示システムが実現できる。
従来技術によるSELDを説明する図。 第一実施形態に係る疑似アンビソニックス信号生成装置を含む、音響イベント提示システムの機能ブロック図。 人体頭部に設定する球座標の一例を示す図。 疑似アンビソニックス信号生成装置の作用を説明するフローチャート図。 推定装置の作用を説明するフローチャート図。 音響提示装置の機能ブロック図。 音響提示装置の作用を説明するフローチャート図。 映像提示装置の機能ブロック図。 映像提示装置の作用を説明するフローチャート図。 コンピュータの機能構成例を示す図。
 以下、開示技術の実施形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第1実施形態]
 図2に、開示技術に係る疑似アンビソニックス信号生成装置を含む、音響イベント提示システムの一例の機能ブロック図を示す。
 音響イベント提示システムは、音響情報取得装置201、疑似アンビソニックス信号生成装置202、推定装置206、提示装置209を含む。
<音響情報取得装置>
 音響情報取得装置201は、頭部または、頭部に装着したデバイス上の任意の位置に設置されたQ個のマイクロフォンから得られるQチャネル音響信号xを取得し、疑似アンビソニックス信号生成装置202に供給する。なお、Qは4以上の整数とする。
<疑似アンビソニックス信号生成装置>
 疑似アンビソニックス信号生成装置202は、マイク座標取得部203、計算部204、信号抽出部205を含む。
 図3に、マイク座標を計算するための球座標系の一例を示す。なお、以下の球座標系の設定において、原点を通るx軸、y軸、z軸の設定は例示に過ぎず、これに限定されない。
 左右耳の中心を通る線をy軸とする。顔を左右に対称に分ける平面と、y軸の交点を球座標系の原点とする。頭部の上下方向に原点を通り、y軸に垂直な直線を球座標系のz軸とする。頭部の前後方向に原点を通り、y軸に垂直な直線を球座標系のx軸とする。また、球座標系の方位角をφ、仰角をθとする。
 図4は疑似アンビソニックス信号生成装置の作用を説明するフローチャートである。
 マイク座標取得部203は、図3の座標系に基づく各マイクロフォンの球座標p=(r, φ, θ)(q=1,2,・・・,Q)を取得する(ステップS401)。pは、疑似アンビソニックス信号生成装置202の外部の装置で計測した値を取得してもよいし、設定情報として疑似アンビソニックス信号生成装置202に記憶されたものを読み込んでもよい。
 計算部204は、マイク座標取得部で取得した球座標を補正する。
 FOAマイクの場合には(より一般的には半径Rの球面上に配置されたマイクロフォンアレイの場合には)、球の中心を原点として計算される各マイクロフォンの球座標(R, φ, θ)をそのまま用いてアンビソニックス信号を計算することが出来るが、頭部に配置されたマイクロフォンの場合、上記で定義した原点と各マイクロフォンの距離は、一般に、等しくはならず、マイク座標はそのままアンビソニックス信号の計算に利用できない。そこで、第一実施形態では、各マイクロフォンと原点の距離の平均値rを求め(ステップS402)、pの各rをrで置き換えたp'=(r, φ, θ)を各マイクロフォンの近似的な球座標とする(ステップS403)。
 次いで、疑似アンビソニックス信号生成装置202は、音響情報取得装置201からQチャンネル音響信号xを取得し(ステップS404)、Q組のp'とxを用いて疑似アンビソニックス信号を生成する。つまり、Qチャネルマイクロフォンが半径rの剛体球上に配置されている場合に、アンビソニックス信号を求めるための信号処理(球面調和関数展開など)を行って、疑似アンビソニックス信号を生成する。
<推定装置>
 推定装置206は、疑似音響強度ベクトル抽出部207と推定部208を備え、疑似アンビソニックス信号を入力として、音源の方向と種類の推定結果を出力する。
 図5は、推定装置206の作用を説明するフローチャートである。
 疑似音響強度ベクトル抽出部207は、例えば、非特許文献1に記載の方法で、疑似アンビソニックス信号から疑似音響強度ベクトルを生成する(ステップS501)。
 推定部208は、疑似音響強度ベクトルと疑似アンビソニックス信号を用いて音源の到来方向(ステップS502)と音源の種類(ステップS503)を推定する。
 推定は、例えば、「A. Politis et. al, “A dataset of dynamic reververant sound scenes with directional interferers for sound event localization and detection”, arXiv:2106.06999, 2021」(参考文献1)に記載のものと同様のDNN(ディープニューラルネットワーク)を、本発明によって抽出された音響特徴量を入力として学習したものを用いればよい。DNNは、疑似音響強度ベクトルと疑似アンビソニックス信号を入力とし、推定結果として、たとえば、音源方向は3次元の単位ベクトル、音源種類は「ベルの音」や「車の走行音」といったラベルと対応する整数を出力するように構成すればよい。
<提示装置>
 提示装置209は、推定結果を、音響的または視覚的情報に変換して、ユーザーに提供する。
<第一提示例>
 第一提示例では、推定結果を立体音響に変換してユーザーに提示する。図6に第一の提示例に係る音響提示装置601の機能ブロック図を示す。
 音響提示装置601は、HRTF探索部602、HRTFデータベース603、音声・効果音探索部604、音声・効果音データベース605、畳み込み演算部606を備える。
 なお、HRTFとはHead related transfer functionの頭文字を取ったもので、音源から両耳まで、音がどのように届くかを表した関数である。日本語では頭部伝達関数と呼ばれる。HRTFデータベースには、音響イベント提示システムの用途に合わせてあらかじめ、頭部を中心とした球の全方向をカバーするHRTF、あるいは上半球の全方向をカバーするHRTFなどを登録しておく。
 音声・効果音データベースには、推定結果として得られた音源種類に対応する音声や効果音を登録しておく。推定結果の音源種類と、音源種類対応音声ファイルの対応の決め方は任意であり、たとえば「車」という音源種類に対応する音源種類対応音声ファイルとしては、「車が近づいています」という警告音声を収録したものなどを用いることが出来る。
 図7は音響提示装置601の作用を説明するフローチャートである。
 HRTF探索部602は、推定結果として得られた音源方向と最も近い方向のHRTFをHRTFデータベースから検索し、音源方向HRTFを得る(ステップS701)。
 音声・効果音検索部604は、推定結果として得られた音源種類に対応する音声や効果音を音声・効果音データベースから検索し、音源種類対応音声ファイルを得る(ステップS702)。
 畳み込み演算部606は、得られた音源種類対応音声ファイルに音源方向HRTFを畳み込む。これによって、音源方向において音源種類対応音声ファイルが再生された状況を想定した音を生成する。例えば、「車が近づいています」という音声が、車の到来方向から聞こえるような立体音響をユーザーに提示できる。
<第二提示例>
 第二提示例では、推定結果を映像に変換してユーザーに提示する。図8に第二提示例に係る映像提示装置801の機能ブロック図を示す。
 映像提示装置801は、マーカー画像取得部802、マーカー画像データベース803、マーカー画像変換部804、カメラ映像取得部805、推定結果合成部806を備える。
 マーカー画像データベース803には、たとえば、音源の種類に応じた形や色の立体矢印画像を、基本マーカー画像として登録しておく。
 図9は映像提示装置801の作用を説明するフローチャートである。
 マーカー画像取得部802は、音源の種類に応じた基本マーカー画像を、マーカー画像データベース803から取得する(ステップS901)。
 マーカー画像変換部804は、推定結果の音源方向を用いて、基本マーカー画像を立体的に回転させ、修正マーカー画像を生成する(ステップS902)。例えば、マーカー画像が頭部中心から音源方向に延びる様を示すように回転させる。
 カメラ映像取得部805は、ユーザーの周囲の画像を取得する(ステップS903)。
 推定結果合成部806は、カメラ映像取得部805が取得した画像に、修正マーカー画像を加算合成する(ステップS904)。
 これにより、映像提示装置801は、ユーザーに、音源の種類と到来方向を視覚的に提示することができる。
 なお、マーカー画像データベースには、あらかじめ、全ての音源方向・種類に対するマーカー画像を事前に登録しておき、音源種類と方向に応じて選択するようにしてもよい。
 あるいは、音源種類に応じて基本マーカー画像を生成し、音源方向に基づいてマーカー画像の方向を定めるようにしてもよい。
[変形例]
 第一実施形態では頭部の略中心(左右耳の中心を通る線と、顔を左右に対称に分ける平面との交点)球座標の原点としたが、頭部装着マイクロフォンが4つの場合、マイクロフォンを全て通る球面を計算し、その球の中心を原点としてもよい。
[プログラム、記録媒体]
 上述の各種の処理は、図10に示すコンピュータ2000の記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040、表示部2050などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1.  人体の頭部に沿って配置された少なくとも4つのマイクロフォンで取得した音響信号からアンビソニックス信号を生成する装置であって、
     顔を左右に対称に分ける平面と、左右耳の中心を通る直線の交点を原点として各マイクロフォンの球座標を取得する球座標取得部と、
     前記球座標の半径の平均値を計算し、各球座標の半径を平均値で置き換える計算部と、
     前記平均値で置き換えた球座標と、マイクロフォンで取得した前記音響信号を用いて疑似アンビソニックス信号を生成する信号抽出部と、
     を含む疑似アンビソニックス信号生成装置。
  2.  人体の頭部に沿って配置された少なくとも4つのマイクロフォンで取得した音響信号からアンビソニックス信号を生成する方法であって、
     座標取得部が、顔を左右に対称に分ける平面と、左右耳の中心を通る直線の交点を原点として各マイクロフォンの球座標を取得するステップと、
     計算部が、前記球座標の半径の平均値を計算し、各球座標の半径を平均値で置き換えるステップと、
     信号抽出部が、前記平均値で置き換えた球座標と、マイクロフォンで取得した前記音響信号を用いて疑似アンビソニックス信号を生成するステップと、
     を含む疑似アンビソニックス信号生成方法。
  3.  人体の頭部に沿って配置された少なくとも4つのマイクロフォンと、
     前記マイクロフォンで取得した音響信号から疑似アンビソニックス信号を生成する疑似アンビソニックス信号生成装置と、
     前記疑似アンビソニックス信号から音源の方向と種類を推定する推定装置と、
     推定した前記音源の方向と種類に基づいて、ユーザーに音源に関する情報を提示する提示装置
     からなる音響イベント提示システム。
  4.  請求項3に記載の音響イベント提示システムであって、
     前記提示装置は、音源の方向と種類を聴覚的にまたは視覚的に提示する
     音響イベント提示システム。
  5.  請求項1に記載の疑似アンビソニックス信号生成装置、または請求項3,4のいずれかに記載の音響イベント提示システムとしてコンピュータを機能させるためのプログラム。
PCT/JP2022/032478 2022-08-30 2022-08-30 疑似アンビソニックス信号生成装置、疑似アンビソニックス信号生成方法、音響イベント提示システム、及びプログラム WO2024047721A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032478 WO2024047721A1 (ja) 2022-08-30 2022-08-30 疑似アンビソニックス信号生成装置、疑似アンビソニックス信号生成方法、音響イベント提示システム、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/032478 WO2024047721A1 (ja) 2022-08-30 2022-08-30 疑似アンビソニックス信号生成装置、疑似アンビソニックス信号生成方法、音響イベント提示システム、及びプログラム

Publications (1)

Publication Number Publication Date
WO2024047721A1 true WO2024047721A1 (ja) 2024-03-07

Family

ID=90098896

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/032478 WO2024047721A1 (ja) 2022-08-30 2022-08-30 疑似アンビソニックス信号生成装置、疑似アンビソニックス信号生成方法、音響イベント提示システム、及びプログラム

Country Status (1)

Country Link
WO (1) WO2024047721A1 (ja)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AGATOMO KENTO: "Sound event detection and source positioning for wearable devices on the head", PROCEEDINGS OF THE AUTUMN MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 2021, no. 9, 24 August 2021 (2021-08-24), pages 267 - 268, XP093143876 *
HARUKI SHIGETANI, MAKOTO OTANI: "A numerical study on binaural signal reproducibility of pinna-centered Higher-Order Ambisonics reproduction system", IEICE TECHNICAL REPORT, IEICE, JP, vol. 117, no. 255 (EA2017-43), 14 October 2017 (2017-10-14), JP, pages 1 - 6, XP009553074, ISSN: 0913-5685 *
YAZAWA, SAKURAKO; KOBAYASHI, KAZUNORI; SAITO, SHOICHIRO; HARADA, NOBORU: "Subjective evaluation of immersive VR audio systems", PROCEEDINGS OF THE ITE ANNUAL CONVENTION, INSTITUTE OF IMAGE INFORMATION AND TELEVISION ENGINEERS, JP, 15 August 2018 (2018-08-15) - 31 August 2018 (2018-08-31), JP, XP009553497, ISSN: 1343-1846, DOI: 10.11485/iteac.2018.0_33B-5 *

Similar Documents

Publication Publication Date Title
US11032663B2 (en) System and method for virtual navigation of sound fields through interpolation of signals from an array of microphone assemblies
CN104106267B (zh) 在增强现实环境中的信号增强波束成形
Tylka et al. Soundfield navigation using an array of higher-order ambisonics microphones
Keyrouz Advanced binaural sound localization in 3-D for humanoid robots
Zhang et al. Modeling of individual HRTFs based on spatial principal component analysis
CN109314832A (zh) 音频信号处理方法和设备
McCormack et al. Object-based six-degrees-of-freedom rendering of sound scenes captured with multiple ambisonic receivers
Salvador et al. Design theory for binaural synthesis: Combining microphone array recordings and head-related transfer function datasets
KR20220038478A (ko) 공간 변환 도메인에서 음장 표현을 처리하기 위한 장치, 방법 또는 컴퓨터 프로그램
Tylka Virtual navigation of ambisonics-encoded sound fields containing near-field sources
Otani et al. A fast calculation method of the head-related transfer functions for multiple source points based on the boundary element method
Barumerli et al. Round Robin Comparison of Inter-Laboratory HRTF Measurements–Assessment with an auditory model for elevation
Sakamoto et al. 3d sound-space sensing method based on numerous symmetrically arranged microphones
EP4238318A1 (en) Audio rendering with spatial metadata interpolation and source position information
WO2024047721A1 (ja) 疑似アンビソニックス信号生成装置、疑似アンビソニックス信号生成方法、音響イベント提示システム、及びプログラム
Niwa et al. Efficient Audio Rendering Using Angular Region-Wise Source Enhancement for 360$^{\circ} $ Video
Ahrens et al. Spherical harmonic decomposition of a sound field using microphones on a circumferential contour around a non-spherical baffle
Okamoto et al. Estimation of sound source positions using a surrounding microphone array
Sakamoto et al. A 3D sound-space recording system using spherical microphone array with 252ch microphones
Koyama Boundary integral approach to sound field transform and reproduction
JP2017130899A (ja) 音場推定装置、その方法及びプログラム
Zhang et al. Parameterization of the binaural room transfer function using modal decomposition
Sakamoto et al. SENZI and ASURA: New high-precision sound-space sensing systems based on symmetrically arranged numerous microphones
JP2022131067A (ja) 音声信号処理装置、立体音響システムおよび音声信号処理方法
Mathews Development and evaluation of spherical microphone array-enabled systems for immersive multi-user environments

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22957325

Country of ref document: EP

Kind code of ref document: A1