CN110089134A - 用于再现空间分布声音的方法 - Google Patents
用于再现空间分布声音的方法 Download PDFInfo
- Publication number
- CN110089134A CN110089134A CN201780057585.2A CN201780057585A CN110089134A CN 110089134 A CN110089134 A CN 110089134A CN 201780057585 A CN201780057585 A CN 201780057585A CN 110089134 A CN110089134 A CN 110089134A
- Authority
- CN
- China
- Prior art keywords
- virtual
- direction vector
- sound
- sound source
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 201
- 230000005236 sound signal Effects 0.000 claims abstract description 49
- 230000001419 dependent effect Effects 0.000 claims abstract description 28
- 238000009877 rendering Methods 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims abstract description 4
- 230000033228 biological regulation Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000021615 conjugation Effects 0.000 claims description 3
- 239000011800 void material Substances 0.000 claims 4
- 230000005764 inhibitory process Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 238000009792 diffusion process Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 238000012732 spatial analysis Methods 0.000 description 2
- 230000026683 transduction Effects 0.000 description 2
- 238000010361 transduction Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/008—Visual indication of individual signal levels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/02—Spatial or constructional arrangements of loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Engineering & Computer Science (AREA)
- Otolaryngology (AREA)
- Stereophonic System (AREA)
Abstract
本发明涉及一种用于再现多声道音频信号的空间分布声音的方法,包括:接收依赖于时间的输入音频信号并执行时间‑频率变换;对于每个时间‑频率片,根据针对所述时间‑频率片的不同输入声道的时间‑频率表示来确定有功方向矢量(I)和无功方向矢量(II),根据有功方向矢量(I)和无功方向矢量(II)确定虚拟声源(VS1,VS2,VS3)相对于参考收听点(O)的位置,并且确定每个虚拟声源(VS1,VS2,VS3)的频率信号值,以及基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间‑频率信号值分配给电声换能器。
Description
背景技术
本发明涉及一种用于再现多声道音频信号的空间分布声音的方法。
音频是传递任何种类信息(特别是声音方向信息)的重要介质。实际上,对于监视任务来说,人听觉***比视觉***更有效。由于多声道音频格式的发展,空间化已经成为以下所有音频领域的共同特征:电影、视频游戏、虚拟现实、音乐等。
通常,这种声音被混合到多个音频声道上,其中每个声道被馈送到专用扬声器。声音到不同声道的分布适于专用回放***的配置(扬声器的位置);以便再现所述声音的预期方向性。
因此,多声道音频流要求通过合适的扬声器布局来回放。例如,五声道格式化音频信号的每个声道与其五个扬声器阵列内的对应扬声器相关联。图1示出了由国际电信联盟(ITU)推荐的用于5.1环绕声配置的五声道扬声器布局的示例。存在布置在参考收听点O周围的左扬声器L、右扬声器R、中央扬声器C、环绕左扬声器LS和环绕右扬声器RS,参考收听点O是推荐的收听者的位置。以该参考收听点O作为中心,指示了扬声器的中心方向之间的相对角距离。
因此,根据专用于规定空间配置的音频文件格式对多声道音频信号进行编码,其中扬声器被布置距参考收听点的规定位置处。实际上,多声道音频信号的每个依赖于时间的输入音频信号与声道相关联,每个声道对应于扬声器的规定位置。
如果通过适当的声音***(即具有所需数量的扬声器和它们之间的正确角距离)回放多声道音频,则正常听力收听者能够检测组成多声道音频混合的声源的位置。然而,如果实际的声音***表现出不适当的特征,诸如扬声器太少或其角距离不准确,则音频内容的方向信息可能未被正确地递送给收听者。
专利申请WO2008/113428公开了一种在任意多声道格式之间进行转换的技术。输入多声道表示被转换成空间音频信号的不同输出多声道表示。导出空间音频信号的中间表示,该中间表示具有指示空间音频信号的一部分的起源方向的方向参数。使用空间音频信号的中间表示生成空间音频信号的输出多声道表示。
发明内容
该方法旨在提供一种用于利用音频***再现多声道音频信号的空间分布声音的方法,该音频***包括实际空间配置中的扬声器,该实际空间配置不同于与多声道音频信号的格式相关联的规定空间配置。
根据本发明的第一方面,该目的通过一种用于利用在实际空间配置中相对于参考收听点的实际位置处定位的电声换能器来再现多声道音频信号的空间分布声音的方法来实现,其中多声道音频信号包括依赖于时间的输入音频信号,每个依赖于时间的输入音频信号与输入声道相关联,每个声道对应于电声换能器在规定空间配置中相对于参考收听点的规定位置,所述方法包括以下步骤:
-接收依赖于时间的输入音频信号,
-对所述依赖于时间的输入音频信号执行时间-频率变换,以用于将依赖于时间的输入音频信号中的每个转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示,每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片(time-frequency tile),对于不同的输入声道来说时间-频率片是相同的,
-对于每个时间-频率片,根据所述时间-频率片的不同输入声道的时间-频率表示确定有功方向矢量(active directional vector)和无功方向矢量(reactivedirectional vector),其中,根据复数强度矢量的实部确定有功方向矢量并且根据复数强度矢量的虚部确定无功方向矢量;
-对于每个时间-频率片,根据有功方向矢量和无功方向矢量确定虚拟空间配置中虚拟声源相对于参考收听点的位置,并确定每个虚拟声源的频率信号值,
-基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给电声换能器,
-基于分配给电声换能器的时间-频率信号值,通过实际空间配置的电声换能器产生声音。
本发明方法的其他优选但非限制性的方面如下、分离的或技术上可行的组合:
-时间-频率片的有功方向矢量表示针对所述时间-频率片的时间帧和频率子带的参考收听点处的声能流,并且其中无功方向矢量表示在参考收听点处相对于声能流的声学扰动;
-每个输入声道与在参考收听点和与所述输入声道相关联的扬声器的规定位置之间定义的声音方向相关联,并且声速矢量被确定为由对应于与所述声音方向相关联的输入声道的时间-频率表示所加权的每个声音方向之和的函数,所述声速矢量被用于确定有功方向矢量和无功方向矢量;
-由不同输入声道的时间-频率表示的总和定义的声压值被用于确定有功方向矢量和无功方向矢量;
-复数强度矢量由时间-频率片的声压值的共轭与所述时间-频率片的声速矢量之间的复数乘积产生;
-为了确定虚拟声源中的每一个的时间-频率信号值,确定虚拟麦克风信号,每个虚拟麦克风信号与虚拟声源相关联并且对应于将获取被布置在参考收听点处并且方向上朝向所述虚拟声源的位置取向的虚拟麦克风的信号;
-通过在与所述虚拟声源相关联的虚拟麦克风信号中抑制来自其他虚拟声源的干扰来确定虚拟声源的时间-频率信号值;
-基于有功方向矢量的方向和无功方向矢量的方向,影响虚拟声源中的每一个的时间-频率信号值;
-虚拟声源被布置在以参考收听点为中心的圆上;
-基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给电声换能器,包括:
·对于每个时间-频率片,通过对与电声换能器相关联的该输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号,以及
·将时间-频率音频输出声道信号转换成依赖于时间的输出声道信号;
-每个依赖于时间的输出声道信号被馈送到每个对应的电声换能器;
-对于每个时间-频率片存在三个虚拟声源,每个虚拟声源具有相对于参考收听点的位置,其中:
·第一虚拟声源的位置与参考收听点一起定义与来自参考收听点的有功方向矢量的方向共线的方向,
·第二虚拟声源的位置与参考收听点一起定义与具有第一取向的无功方向矢量的方向共线的方向,
·第三虚拟声源的位置与参考收听点一起定义与具有与第一取向相反的第二取向的无功方向矢量的方向共线的方向。
-对于每个时间-频率片存在两个虚拟声源,每个虚拟声源具有相对于参考收听点的位置,并且其中:
·第一虚拟声源的位置与参考收听点一起定义从有功方向矢量和由正因子加权的无功方向矢量之和得到的方向,以及
·第二虚拟声源的位置与参考收听点一起定义从有功方向矢量和由负因子加权的无功方向矢量之和得到的方向。
根据本发明的第二方面,提供了一种非暂时性有形计算机可读介质,其上包含有计算机可执行指令,其在由计算机执行时,执行根据第一方面的方法。
根据本发明的第三方面,提供了一种用于再现多声道音频信号的空间分布声音的***,所述***包括:
-用于接收多个输入声道的依赖于时间的输入音频信号的输入端,
-处理器和存储器,用于:
·对所述依赖于时间的输入音频信号执行时间-频率变换,以用于将依赖于时间的输入音频信号中的每个转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示,每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片,对于不同的输入声道来说时间-频率片是相同的,
·对于每个时间-频率片,根据所述时间-频率片的不同输入声道的时间-频率表示确定有功方向矢量和无功方向矢量,其中,根据复数强度矢量的实部确定有功方向矢量并且根据复数强度矢量的虚部确定无功方向矢量,
·对于每个时间-频率片,根据有功方向矢量和无功方向矢量确定虚拟空间配置中虚拟声源相对于参考收听点的位置,并确定每个虚拟声源的时间-频率信号值,
·基于虚拟空间配置中的虚拟声源的位置与实际空间配置中的所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给电声换能器;以及
-用于将依赖于时间的输出声道信号递送到多个电声换能器的输出端,所述多个电声换能器被定位在实际空间配置中相对于参考收听点的实际位置处。
该***被配置用于实施根据本发明的方法。
附图说明
通过阅读下面作为非限制性示例给出的其优选实施例的详细描述并参考附图,本发明的其他方面、目的和优点将变得更加显而易见,在附图中:
-已经讨论过的图1示出了在针对多声道音频***的规定配置中扬声器相对于参考收听点的规定位置的示例;
-图2是示出了该方法的步骤的图;
-图3是示出了该方法中的信号处理阶段的图;
-图4示意性地示出了有功方向矢量和无功方向矢量与虚拟声源的位置之间的关系的示例;
-图5示意性地示出了具有两个虚拟声源和有功方向矢量和无功方向矢量以及两个对应的虚拟麦克风的心形的虚拟空间配置的示例;
-图6示意性地示出了三个电声换能器和图5的两个虚拟声源的实际空间配置的示例;
-图7示意性地示出了具有三个虚拟声源和三个对应虚拟麦克风的心形以及有功方向矢量和无功方向矢量的虚拟空间配置的示例;
-图8示意性地示出了三个电声换能器和图7的三个虚拟声源的实际空间配置的示例。
具体实施方式
该方法可以由用于再现多声道音频信号的空间分布声音的***来实施,所述***包括:
-用于接收多个输入声道的依赖于时间的输入音频信号的输入端,
-被配置为实施本发明的方法的处理器和存储器,
-用于将依赖于时间的输出声道信号递送到多个电声换能器的输出端,所述多个电声换能器被定位在实际空间配置中相对于参考收听点的实际位置处。
输入端接收包括多个输入声道的依赖于时间的输入音频信号的多声道音频信号(步骤S01)。每个依赖于时间的输入音频信号与输入声道相关联。每个输入声道对应于电声换能器相对于规定空间配置中的参考收听点的规定位置。例如,在图1所示的规定空间配置中,存在五个输入声道,对于每个扬声器LS、L、C、R、RS一个输入声道。
在平面波模型假设下,声源的位置(例如,每个扬声器的位置)可以仅由声源相对于参考收听点的方向来定义。然后,酉矢量(unitary vector)足以定位声源。因此,规定位置中的每个规定位置定义了表示声音方向并且源自参考收听点且指向每个扬声器的方向的酉矢量因此,每个输入声道i与在参考收听点和与所述输入声道i相关联的扬声器的规定位置之间定义的声音方向相关联。例如,在图1所示的规定空间配置中,扬声器C的位置由声音矢量定义,该声音矢量源自参考收听点O并且朝向酉圆上的扬声器C的位置。该声音矢量在收听点的前方延伸。以类似的方式,扬声器L的位置由声音矢量定义,该声音矢量源自参考收听点O并且朝向酉圆上的扬声器L的位置。在该示例中,声音矢量的方向和声音矢量的方向成30°角度。
然而,旨在回放多声道音频信号的实际音频***包括被定位在相对于实际空间配置中的参考收听点的实际位置处的电声换能器。下面参考图2和图3描述用于再现多声道音频信号的空间分布声音的方法。图2示出了该方法的按时间组织的步骤,而图3示出了该方法的数学推理。
频率分析
所接收的依赖于时间的输入音频信号ai(t)可以是模拟的,但它们最好是数字信号。存在与输入声道i一样多的输入音频信号ai(t)。在频率分析期间(步骤S10),通过执行时间-频率转换将依赖于时间的输入音频信号ai(t)转换到频域(步骤S02)。通常,时间-频率转换使用诸如短时傅立叶变换(STFT)的傅立叶相关变换,其被用于在信号随时间变化时确定信号的局部部分的正弦频率和相位内容(phase content)。
更确切地说,每个依赖于时间的输入音频信号ai(t)被转换成与所述依赖于时间的输入音频信号相关联的输入声道i的多个时间-频率表示Ai(k,n)。每个时间-频率表示Ai(k,n)对应于由时间帧和频率子带定义的时间-频率片。转换是在逐帧的基础上进行的。
优选地,帧长度在5ms和80ms之间。优选地,频率子带的宽度在10Hz和200Hz之间。优选地,帧间间隔在帧长度的1/16和一半之间。例如,对于48kHz的采样率和基于FFT的STFT处理框架,帧长度可以是具有46.875Hz的相关频率子带宽度(或仓宽度(bin width))和512个样本的帧间间隔的1024个样本。对于不同的输入声道i,时间-频率片是相同的。
在以下中,k被用作频率子带的频率索引并且n是帧索引,使得时间-频率表示Ai(k,n)指代与输入声道i的信号的第k个频率子带和第n个帧相关联的复数。
然后,时间-频率表示Ai(k,n)和声音方向被用在时间-频率处理(步骤S03)中,其中时间-频率片的数据被处理。
空间分析
根据时间-频率片的时间-频率表示Ai(k,n)和声音方向来执行空间分析(步骤S11)。对于每个时间-频率片,根据针对所述时间-频率片的不同输入声道的时间-频率表示Ai(k,n)来确定有功方向矢量和无功方向矢量(步骤S31)。
时间-频率片的有功方向矢量与有功声强度矢量成比例,该有功声强度矢量表示在参考收听点处的针对所述时间-频率片的时间帧和频率子带的声能流。更具体地,有功方向矢量对应于有功声强矢量,其通过参考收听点O处的声能EP(k,n)和EK(k,n)之和而被标准化(normalized),其中加上负号以便使其从参考收听点O指向酉圆。可以使用不同的标准化或省略负号,在这种情况下,矢量将指向参考收听点O。
无功方向矢量与无功声强度矢量成比例,其表示在参考收听点处的相对于相同时间-频率片的声能流的声学扰动。更具体地,无功方向矢量对应于无功声强度矢量,其通过参考收听点O处的声能EP(k,n)和EK(k,n)之和而被标准化。还加上了负号,但其可以被省略。对于有功方向矢量,可以使用不同的标准化。
从感知角度来看,如果有功方向矢量可以与主方向声场相关,则无功方向矢量与环境扩散声场相关。此外,无功方向矢量的方向信息使得能够处理该环境声场的空间特性,并且因此它不仅可以用于描述完全扩散环境声场而且可以描述部分扩散环境声场。
这种新方法本质上更加稳健,因为它有助于有功方向矢量的可靠性,有功方向矢量是真实声空间线索(与经验感知线索的Gerzon矢量相比),但也利用了声音通过无功方向矢量的扩散。
已经发现的是,有功方向矢量和无功方向矢量的组合可以用于识别声源的位置,如图4所示。在该图4中,声音分布由布置在以参考收听点O为中心的酉圆上的两个虚拟声源VS1和VS2来表示。有功方向矢量源自参考收听点O并且沿主要声流指向。在该示例中,两个不相关的声源VS1、VS2具有相等的能量(对于该时间-频率片)。因此,在参考收听点O处感知的声能流来自两个声源VS1、VS2的中间,并且因此有功方向矢量在两个声源VS1、VS2之间延伸。无功方向矢量在此垂直于有功方向矢量并且声源VS1、VS2的位置对应于有功方向矢量和无功方向矢量或无功方向矢量的相反矢量之和。
然而,大多数时候,声源VS1、VS2并非完全不相关。已经发现的是,无论两个声源VS1、VS2的确切位置如何,当源信号完全不相关时,无功强度最大。相反,当源信号完全相关时,无功强度最小。以类似的方式,在声源信号完全不相关的情况下,当源方向相对于参考收听点O在空间上负相关(即相反)时,无功强度最大。相反,当源方向相对于参考收听点在空间上相关(即在相同方向上)时,无功强度最小。
为了确定有功方向矢量和无功方向矢量使用规定空间配置中扬声器相对于参考收听点O的规定位置。如上所述,每个输入声道i与在参考收听点和与所述输入声道i相关联的扬声器的规定位置之间定义的声音方向相关联。
针对相同的时间-频率片,由不同输入声道的时间-频率表示Ai(k,n)之和定义的所述时间-频率片的声压值P(k,n)被确定为:
时间-频率片的声速矢量被确定,所述声速矢量与由对应于与所述声音方向相关联的输入声道i的时间-频率表示Ai(k,n)加权的每个声音方向之和成比例:
其中
其中和是用于虚拟空间配置的参考帧的坐标系的酉矢量,ρ是空气的密度,并且c是声速。例如,20℃下干燥空气中的声速为每秒343.2米,其可以被近似为340m.s-1。在海平面处并且在15℃下,空气密度约为1.225kg/m3,其可以被近似为1.2kg/m3。可以使用其他值。
由时间-频率片的声压值P(k,n)的共轭与所述时间-频率片的声速矢量之间的复数乘积产生的复数强度矢量被确定为:
并且被用于确定所述时间-频率片的有功方向矢量和无功方向矢量更确切地说,有功方向矢量是从复数乘积的实部确定的,并且无功方向矢量是从复数乘积的虚部确定的。
有功方向矢量和无功方向矢量可以如下计算:
其中
应注意的是,有功方向矢量和无功方向矢量在此通过能量EK(k,n)和EP(k,n)而被标准化,但可以另外方式来计算。应注意的是,负号被加到有功方向矢量和无功方向矢量的表达中,以便使它们从参考收听点O指向酉圆。将可以省略负号,在这种情况下,矢量将指向参考收听点O。
一旦有功方向矢量无功方向矢量声压值P(k,n)和声速矢量(或其等价物)已被确定,就可以执行音频源提取(步骤S12)以确定虚拟声源的位置和时间-频率信号值(步骤S32)。
音频源提取
该方法要求确定将在此后被用于确定实际空间配置的电声换能器的信号的虚拟声源的属性(位置和时间-频率信号值)。
对于每个时间-频率片,有功方向矢量和无功方向矢量被用于确定虚拟空间配置中虚拟声源相对于参考收听点的位置(步骤S32)。
所确定的虚拟声源的位置、有功方向矢量无功方向矢量声压值P(k,n)和声速矢量被用于确定虚拟一阶方向麦克风信号(步骤S122),该虚拟一阶方向麦克风信号对应于将由被布置在参考收听点O处并指向每个虚拟声源的虚拟麦克风获取的声音。存在与虚拟声源一样多的虚拟麦克风。
虚拟麦克风信号是声压值P(k,n)和可能由空气密度ρ和声速c加权的声速矢量与声源方向上的酉矢量之间的标量乘积之和的函数。例如,与被布置在由定义的方向上的虚拟声源相关联的虚拟心形麦克风信号Mj(k,n)可以如下计算:
虚拟麦克风信号突显在参考收听点O处感知的对应虚拟声源的声音,但还包含来自其他虚拟声源的干扰。然而,针对每个虚拟声源定义虚拟麦克风信号允许识别每个虚拟声源的虚拟声源信号。
应注意的是,可以通过修改虚拟声源的位置来执行空间操纵。这种方法比修改定义了规定位置的输入声道数据侧安全得多,这是因为保持了原始的主/环境能量比。
然而,源提取过程的细节根据虚拟声源的数量而改变。音频源提取过程估计虚拟声源的位置和频率信号值,其生成与由规定配置中的依赖于时间的输入音频信号所定义的声场相同的声场特性。需要定义与源相关的声场模型,这是因为不同模型,音频源提取过程可能非常不同。实际上,在基于对声强度的有功分量和无功分量两者的利用进行分析的情况下,两个模型是可靠的,一个模型具有两个声源而一个模型具有三个声源。
“双源”模型处理扩散(并因此利用无功分量)作为声源的感知宽度或局部扩散的指示。两个声源足以模拟较宽的声源,它们的空间和信号相关性定义了这种复合声源的感知宽度。
“三源”模型处理扩散(并因此利用无功分量)作为声音场景内的环境水平或全局扩散的指示。两个相反方向的不相关声源适合于模拟该环境分量。
下面解释如何继续进行两个虚拟声源或三个虚拟声源。
源提取:两个虚拟声源
在以参考收听点O为中心的酉圆的空间配置中,虚拟声源被定位在酉圆上。因此,虚拟声源的位置在酉圆与从参考收听点延伸的方向线的相交处。每个虚拟声源的位置可以由源自参考收听点的酉源方向矢量来定义。这如图5所示。
如上所述,源提取的第一步骤包括确定两个虚拟声源的位置(步骤S121)。如图5所示,每个酉源方向矢量通过有功方向矢量和无功方向矢量来定义。更准确地说,虚拟声源位于以下的相交处:
-酉圆以及
-与无功方向矢量共线并且穿过源自参考收听点的有功方向矢量的尖端的线。
如果所分析的声场是由两个不相关的声源(不必具有相等的能量)生成的,则该技术使得能够获取这两个声源的确切位置。如果用于生成声场的两个声源倾向于同相(相应地反相),则不再能够获取它们的确切位置。该技术过度估计(相应地低估)两个声源方向之间的空间相关性。然而,信号相关性和空间相关性之间的这种关系在感知上是贯通的。
确定两个虚拟声源VS1、VS2的位置等同于求解线与圆(对于三维声场则是球)的相交的几何问题。求解这个问题等同于求解二阶方程,其解是:
其中
应注意的是存在:
-第一虚拟声源VS1的位置与参考收听点O一起定义了从有功方向矢量和由正因子加权的无功方向矢量之和得到的方向,以及
-第二虚拟声源VS2的位置与参考收听点O一起定义了从有功方向矢量和由负因子加权的无功方向矢量之和得到的方向。
因此,我们有了第一虚拟声源VS1的源方向矢量以及第二虚拟声源VS2的源方向矢量如图5所示,这些源方向矢量将虚拟声源VS1、VS2定位在以参考收听点O为中心的酉圆上。
如上所述,在计算两个虚拟声源VS1、VS2的方向之后,可以通过将声压值P(k,n)和声速矢量组合到源方向矢量来创建两个虚拟定向麦克风。如图5所示,两个虚拟定向麦克风可以在源方向矢量的方向上具有心形指向性图案VM1、VM2。然后,可以通过如下定义的虚拟麦克风信号M1(k,n)、M2(k,n)来估计这两个方向上的虚拟麦克风拾取:
如上所述,每个虚拟麦克风信号突显在参考收听点O处感知的对应虚拟声源VS1、VS2的声音信号,但是还包含来自其他虚拟声源的干扰:
其中
其中S1(k,n)是第一虚拟声源VS1的时间-频率信号值,并且S2(k,n)是第二虚拟声源VS2的时间-频率信号值。最后的处理步骤允许通过对来自虚拟麦克风信号的源信号进行解混(unmixing)来提取每个虚拟声源的时间-频率信号值S1(k,n)、S2(k,n)(步骤S123):
其中
由源方向矢量和定义的两个虚拟声源VS1、VS2的位置以及它们相应的时间-频率信号值S1(k,n)和S2(k,n)已被确定。
应注意的是,两个虚拟声源VS1、VS2是等效的,在这个意义上它们包含主分量(通过有功方向矢量)和环境分量(通过无功方向矢量)两者。可以执行环境提取处理以实施额外的细化。
音频源提取:三个虚拟声源
如前所述,音频源提取的第一步骤包括通过由有功方向矢量和无功方向矢量定义的酉源方向矢量来确定三个虚拟声源的位置。在以参考收听点O为中心的酉圆的空间配置中,虚拟声源被定位酉圆上。因此,虚拟声源的位置在酉圆与从参考收听点延伸的方向线的相交处。每个虚拟声源的位置可以由源自参考收听点的酉源方向矢量来定义。酉源方向矢量通过有功方向矢量和无功方向矢量来定义。这如图7所示。
如已经解释的,有功方向矢量指示主要感知声音事件方向,无功强度指示“最大感知扩散的方向”。使用三个虚拟声源VS1、VS2、VS3因此出现相关以近似于声场属性:
-一个虚拟声源VS1在有功方向矢量的方向上,以表示主要声学流的重建,以及
-空间上负相关的两个虚拟声源VS2、VS3分别在无功方向矢量的方向上和其相反方向上,以表示声场的声学扰动。
因此,存在:
-第一虚拟声源VS1的位置与参考收听点O一起定义了与来自参考收听点的有功方向矢量的方向共线的方向,
-第二虚拟声源VS2的位置与参考收听点O一起定义了与来自参考收听点的具有第一取向的无功方向矢量的方向共线的方向,
-第三虚拟声源VS3的位置与参考收听点一起定义了与来自参考收听点O的具有与第一取向相反的第二取向的无功方向矢量的方向共线的方向。
实际上,针对三源模型确定虚拟声源VS1、VS2、VS3的位置比针对双源模型来说简单得多,这是因为它们的源方向矢量直接从有功方向矢量和无功方向矢量计算出:
其中第一虚拟声源VS1的第一源方向矢量为第二虚拟声源VS2的第二源方向矢量为并且第三虚拟声源VS3的第三源方向矢量为如图7所示,这些源方向矢量将虚拟声源VS1、VS2、VS3定位在以参考收听点O为中心的酉圆上。
如上所述,在计算三虚拟声源VS1、VS2、VS3的方向之后,可以通过将声压值P(k,n)、声速组合到源方向矢量来创建三个虚拟方向麦克风。如图7所示,三虚拟方向麦克风可以在源方向矢量的方向上具有心形指向性图案VM1、VM2、VM3。然后可以通过如下定义的虚拟麦克风信号来估计这三个方向上的虚拟麦克风拾取:
如上所述,每个虚拟麦克风信号M1(k,n)、M2(k,n)、M3(k,n)突显在参考收听点O处感知的相应虚拟声源VS1、VS2、VS3的声音,但也包含来自其他虚拟声源VS1、VS2、VS3的干扰。更准确地说,由于第二源方向矢量和第三源方向矢量方向相反,所以第二虚拟声源VS2与第三虚拟声源VS3之间的干扰是可忽略的,而它们两者都干扰第一虚拟声源VS1:
其中
最后的处理步骤(步骤S123)允许通过对源时间-频率值进行解混来提取每个虚拟声源的时间-频率信号值:
与具有两个虚拟声源的模型相反,三个虚拟声源已经被分解在主分量和环境分量之间:
-第一虚拟声源VS1对应于主分量,以及
-第二虚拟声源VS2和第三虚拟声源VS3对应于环境分量。因此,可以在不要求额外环境提取处理的情况下直接实施进一步的细化。
声音合成
一旦已经确定了虚拟声源的属性(位置和时间-频率信号值),就可以执行声音合成(步骤S13)。可以基于虚拟空间配置中的虚拟声源的位置与实际空间配置中的电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值Sj(k,n)分配(步骤S33)给所述电声换能器。这可以被称为空间合成。
为了这样做,使用与每个电声换能器h的实际位置有关的空间数据。空间数据由实际源方向矢量(其中h=1,2,3,...)例示,实际源方向矢量源自参考收听点O并指向每个电声换能器的方向,如图6和图8所示。图6和图8两者都示出了具有被定位在相对于参考收听点O的实际位置处的三个电声换能器AET1、AET2、AET3的相同的实际空间配置。在由第一实际源方向矢量表示的方向上,将第一电声换能器AET1布置在参考收听点O的前方。在由第二实际源方向矢量表示的方向上,将第二电声换能器AET2布置在参考收听点O的左侧上,与第一实际源方向矢量成直角。在由第三实际源方向矢量表示的方向上,将第三电声换能器AET3布置在参考收听点O的右侧上,与第二实际源方向矢量相反。这仅是示例,并且该方法不限于电声换能器的特定空间布局或特定数量的电声换能器。电声换能器可以是扬声器,但也可以是耳机。
对于每个时间-频率片,与虚拟源方向矢量相关联的各种时间-频率信号值Sj(k,n)与实际源方向矢量结合使用以便导出平移(panning)增益Gjh(k,n)。对于时间-频率片(k,n),平移增益Gjh(k,n)定义被馈送到电声换能器h的输出声道内的每个虚拟声源j的声级(以及潜在地相位)。
通过考虑所考虑的虚拟声源的虚拟源方向矢量与电声换能器的实际源方向矢量之间的几何关系来确定平移增益Gjh(k,n)。为简单起见,虚拟源方向矢量以某种方式投影到实际源方向矢量上。例如,在图6中,第二虚拟声源VS2比其他电声换能器AET1、AET3更靠近第二电声换能器AET2。平移增益G22(k,n)将大于G12(k,n)或G23(k,n)。当然,在实践中,可以使用更复杂的三角公式或基于矢量的公式。例如,可以使用基于矢量的幅度平移(VBAP),如Ville Pulkki在“Virtual Sound Source Positioning Using VectorBase Amplitude Panning”,Audio Engineering Society,Inc,1997中所公开的。
应注意的是,还可以实施头部-相关的(head-related)传递函数(HRTF)处理以便合成双耳声音。由于HRTF可以取决于虚拟声源位置,因此可以存储一组预定的HRTF,并且基于虚拟声源的位置来选择要使用的HRTF,如Michael M.Goodwin和Jean-Marc Jot在“Binaural 3D audio rendering based on spatial audio scene coding”,AudioEngineering Society,123rd Convention,New York,NY,2007中所解释的。
对于相同的频率仓,虚拟源方向矢量可以从一帧到下一帧快速变化。因此,平移增益Gjh(k,n)也可以从一帧到下一帧突然变化。可以通过组合相同频率仓的至少两个时间上连续的平移增益Gjh(k,n)来平滑平移增益Gjh(k,n),诸如:
其中λ为0到1之间的实数。
对于每个时间-频率片,然后通过对该输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号Bh(k,n):
然后将时间-频率音频输出声道信号Bh(k,n)转换回依赖于时间的输出声道信号bh(t)。逆短时傅里叶变换(ISTFT)可被用于该目的。
最后,每个依赖于时间的输出声道信号bh(t)被馈送到每个对应的电声换能器,即所述输出声道的电声换能器。然后,电声换能器从所接收的依赖于时间的输出声道信号bh(t)产生声音(步骤S04)。
如上所述的本发明的方法可以被实现为程序并被存储在非暂时性有形计算机可读介质中,诸如其上包含计算机可执行指令的CD-ROM、ROM、硬盘,所述计算机可执行指令在由计算机执行时,执行根据本发明的方法。
虽然已经关于某些优选实施例描述了本发明,但是对于本领域技术人员来说将显而易见的是,可以在不脱离所附权利要求限定的本发明的范围的情况下进行各种改变和修改。
Claims (14)
1.一种用于利用在实际空间配置中相对于参考收听点(O)的实际位置处被定位的电声换能器(AET1,AET2,AET3)来再现多声道音频信号的空间分布声音的方法,其中,所述多声道音频信号包括依赖于时间的输入音频信号,每个依赖于时间的输入音频信号与输入声道相关联,每个声道对应于电声换能器在规定空间配置中相对于参考收听点(O)的规定位置,所述方法包括以下步骤:
-接收(S01)所述依赖于时间的输入音频信号,
-对所述依赖于时间的输入音频信号执行时间-频率转换(S02),以用于将所述依赖于时间的输入音频信号中的每个依赖于时间的输入音频信号转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示,每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片,对于不同的输入声道来说时间-频率片是相同的,
-对于每个时间-频率片,根据针对所述时间-频率片的不同输入声道的时间-频率表示来确定(S31)有功方向矢量和无功方向矢量其中,所述有功方向矢量根据复数强度矢量的实部来确定,并且所述无功方向矢量根据所述复数强度矢量的虚部来确定,
-对于每个时间-频率片,根据所述有功方向矢量和所述无功方向矢量确定虚拟声源(VS1,VS2,VS3)在虚拟空间配置中相对于参考收听点(O)的位置,并确定每个虚拟声源(VS1,VS2,VS3)的频率信号值(S32),
-基于所述虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配(S33)给电声换能器,
-基于分配给电声换能器的时间-频率信号值,通过实际空间配置中的电声换能器来产生(S04)声音。
2.根据权利要求1所述的方法,其中,时间-频率片的有功方向矢量表示在针对所述时间-频率片的时间帧和频率子带的参考收听点处的声能流,并且其中,所述无功方向矢量表示在所述参考收听点处相对于所述声能流的声学扰动。
3.根据权利要求1至2中任一项所述的方法,其中,每个输入声道与在所述参考收听点和与所述输入声道相关联的扬声器的规定位置之间定义的声音方向相关联,并且声速矢量被确定为由对应于与所述声音方向相关联的输入声道的时间-频率表示所加权的每个声音方向之和的函数,所述声速矢量被用于确定所述有功方向矢量和所述无功方向矢量
4.根据权利要求1至3中任一项所述的方法,其中,由不同输入声道的时间-频率表示之和定义的声压值被用于确定所述有功方向矢量和所述无功方向矢量
5.根据权利要求3和4所述的方法,其中,所述复数强度矢量由针对时间-频率片的声压值的共轭和针对所述时间-频率片的声速矢量之间的复数乘积产生。
6.根据权利要求1至5中任一项所述的方法,其中,为了确定所述虚拟声源中的每个虚拟声源的时间-频率信号值,确定虚拟麦克风信号,每个虚拟麦克风信号与虚拟声源相关联并且对应于将获取被布置在所述参考收听点(O)处并且方向上朝向所述虚拟声源的位置定向的虚拟麦克风的信号。
7.根据权利要求6所述的方法,其中,通过在与所述虚拟声源相关联的虚拟麦克风信号中抑制来自其他虚拟声源的干扰来确定虚拟声源的时间-频率信号值。
8.根据权利要求6或7所述的方法,其中,所述虚拟声源被布置在以所述参考收听点(O)为中心的圆上,并且虚拟麦克风信号对应于将获取具有形状上与以所述参考收听点(O)为中心的圆相切的心形的心形指向性图案(VM1,VM2,VM3)的虚拟心形麦克风的信号。
9.根据权利要求1至8中任一项所述的方法,其中,基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器(AET1,AET2,AET3)的实际位置之间的比较,将所述虚拟声源(VS1,VS2,VS3)的时间-频率信号值分配给所述电声换能器(AET1,AET2,AET3),包括:
-对于每个时间-频率片,通过对与电声换能器相关联的该输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号,以及
-将时间-频率音频输出声道信号转换成依赖于时间的输出声道信号。
10.根据权利要求9所述的方法,其中,每个依赖于时间的输出声道信号被馈送到每个对应的电声换能器。
11.根据权利要求1至10中任一项所述的方法,其中,对于每个时间-频率片存在三个虚拟声源,每个虚拟声源具有相对于所述参考收听点的位置,其中:
-第一虚拟声源(VS1)的位置与所述参考收听点(O)一起定义与来自所述参考收听点(O)的有功方向矢量的方向共线的方向
-第二虚拟声源(VS2)的位置与所述参考收听点(O)一起定义与具有第一取向的无功方向矢量的方向共线的方向
-第三虚拟声源(VS3)的位置与所述参考收听点(O)一起定义与具有与所述第一取向相反的第二取向的无功方向矢量的方向共线的方向
12.根据权利要求1至11中任一项所述的方法,其中,对于每个时间-频率片存在两个虚拟声源,每个虚拟声源具有相对于所述参考收听点的位置,并且其中:
-第一虚拟声源(VS1)的位置与所述参考收听点(O)一起定义从所述有功方向矢量和由正因子加权的无功方向矢量之和得到的方向以及
-第二虚拟声源(VS2)的位置与所述参考收听点(O)一起定义从所述有功方向矢量和由负因子加权的无功方向矢量之和得到的方向
13.一种非暂时性有形计算机可读介质,其上包含计算机可执行指令,所述计算机可执行指令在由计算机执行时,执行根据权利要求1至12中任一项所述的方法。
14.一种用于再现多声道音频信号的空间分布声音的***,所述***包括:
-输入端,用于接收多个输入声道的依赖于时间的输入音频信号,
-处理器和存储器,用于:
·对所述依赖于时间的输入音频信号执行时间-频率变换,以用于将所述依赖于时间的输入音频信号中的每个依赖于时间的输入音频信号转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示Ai,每个时间-频率表示Ai对应于由时间帧和频率子带限定的时间-频率片,对于不同的输入声道来说时间-频率片是相同的,
·对于每个时间-频率片,根据针对所述时间-频率片的不同输入声道的时间-频率表示Ai来确定有功方向矢量和无功方向矢量其中,所述有功方向矢量根据复数强度矢量的实部来确定,并且所述无功方向矢量根据所述复数强度矢量的虚部来确定,
·对于每个时间-频率片,根据所述有功方向矢量和所述无功方向矢量确定虚拟声源在虚拟空间配置中相对于参考收听点的位置,并确定针对每个虚拟声源的时间-频率信号值,
·基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给电声换能器;以及
-输出端,用于将依赖于时间的输出声道信号递送到多个电声换能器(AET1,AET2,AET3),所述多个电声换能器(AET1,AET2,AET3)被定位在实际空间配置中相对于参考收听点(O)的实际位置处。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16306190.6 | 2016-09-19 | ||
EP16306190.6A EP3297298B1 (en) | 2016-09-19 | 2016-09-19 | Method for reproducing spatially distributed sounds |
PCT/EP2017/073565 WO2018050905A1 (en) | 2016-09-19 | 2017-09-19 | Method for reproducing spatially distributed sounds |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110089134A true CN110089134A (zh) | 2019-08-02 |
CN110089134B CN110089134B (zh) | 2021-06-22 |
Family
ID=57130308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780057585.2A Active CN110089134B (zh) | 2016-09-19 | 2017-09-19 | 用于再现空间分布声音的方法、***及计算机可读介质 |
Country Status (5)
Country | Link |
---|---|
US (3) | US20180084364A1 (zh) |
EP (1) | EP3297298B1 (zh) |
CN (1) | CN110089134B (zh) |
TW (1) | TWI770059B (zh) |
WO (1) | WO2018050905A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111372167A (zh) * | 2020-02-24 | 2020-07-03 | Oppo广东移动通信有限公司 | 音效优化方法及装置、电子设备、存储介质 |
CN114127843A (zh) * | 2019-07-02 | 2022-03-01 | 杜比国际公司 | 用于离散指向性数据的表示、编码和解码的方法、设备和*** |
Families Citing this family (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8930005B2 (en) | 2012-08-07 | 2015-01-06 | Sonos, Inc. | Acoustic signatures in a playback system |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11128977B2 (en) * | 2017-09-29 | 2021-09-21 | Apple Inc. | Spatial audio downmixing |
CN107890673A (zh) * | 2017-09-30 | 2018-04-10 | 网易(杭州)网络有限公司 | 补偿声音信息的视觉显示方法及装置、存储介质、设备 |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
GB2572419A (en) * | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
GB2572420A (en) * | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
CN108854069B (zh) * | 2018-05-29 | 2020-02-07 | 腾讯科技(深圳)有限公司 | 音源确定方法和装置、存储介质及电子装置 |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
EP3618464A1 (en) * | 2018-08-30 | 2020-03-04 | Nokia Technologies Oy | Reproduction of parametric spatial audio using a soundbar |
US10587430B1 (en) * | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
CN109036456B (zh) * | 2018-09-19 | 2022-10-14 | 电子科技大学 | 用于立体声的源分量环境分量提取方法 |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11956616B2 (en) | 2019-03-04 | 2024-04-09 | Steelseries France | Apparatus and method for audio analysis |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
GB2587196A (en) * | 2019-09-13 | 2021-03-24 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US12010493B1 (en) * | 2019-11-13 | 2024-06-11 | EmbodyVR, Inc. | Visualizing spatial audio |
US11291911B2 (en) | 2019-11-15 | 2022-04-05 | Microsoft Technology Licensing, Llc | Visualization of sound data extending functionality of applications/services including gaming applications/services |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
DE102020209050B4 (de) * | 2020-07-20 | 2022-05-25 | Sivantos Pte. Ltd. | Verfahren zum Betrieb eines Hörsystems, Hörsystem, Hörgerät |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1498035A (zh) * | 2002-10-23 | 2004-05-19 | ���µ�����ҵ��ʽ���� | 音频信息变换方法、程序和设备 |
WO2004077884A1 (en) * | 2003-02-26 | 2004-09-10 | Helsinki University Of Technology | A method for reproducing natural or modified spatial impression in multichannel listening |
WO2006006809A1 (en) * | 2004-07-09 | 2006-01-19 | Electronics And Telecommunications Research Institute | Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information |
US20070140497A1 (en) * | 2005-12-19 | 2007-06-21 | Moon Han-Gil | Method and apparatus to provide active audio matrix decoding |
WO2008113428A1 (en) * | 2007-03-21 | 2008-09-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for conversion between multi-channel audio formats |
US20080232617A1 (en) * | 2006-05-17 | 2008-09-25 | Creative Technology Ltd | Multichannel surround format conversion and generalized upmix |
CN101410157A (zh) * | 2006-03-27 | 2009-04-15 | 科乐美数码娱乐株式会社 | 声音处理装置、声音处理方法、信息记录媒体及程序 |
US20110129105A1 (en) * | 2009-11-30 | 2011-06-02 | Jongsuk Choi | Artificial ear and method for detecting the direction of a sound source using the same |
CN104919821A (zh) * | 2012-09-27 | 2015-09-16 | 声摩逊实验室 | 用于重放音频信号的方法和*** |
CN105392102A (zh) * | 2015-11-30 | 2016-03-09 | 武汉大学 | 用于非球面扬声器阵列的三维音频信号生成方法及*** |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9417185D0 (en) * | 1994-08-25 | 1994-10-12 | Adaptive Audio Ltd | Sounds recording and reproduction systems |
DE60036958T2 (de) | 1999-09-29 | 2008-08-14 | 1...Ltd. | Verfahren und vorrichtung zur ausrichtung von schall mit einer gruppe von emissionswandlern |
WO2005065159A2 (en) | 2003-12-30 | 2005-07-21 | Nielsen Media Research, Inc. | Methods and apparatus to distinguish a signal originating from a local device from a broadcast signal |
EP1761110A1 (en) | 2005-09-02 | 2007-03-07 | Ecole Polytechnique Fédérale de Lausanne | Method to generate multi-channel audio signals from stereo signals |
WO2007089129A1 (en) | 2006-02-03 | 2007-08-09 | Electronics And Telecommunications Research Institute | Apparatus and method for visualization of multichannel audio signals |
US8379868B2 (en) | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
US8374365B2 (en) | 2006-05-17 | 2013-02-12 | Creative Technology Ltd | Spatial audio analysis and synthesis for binaural reproduction and format conversion |
US8908873B2 (en) | 2007-03-21 | 2014-12-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
CA2748301C (en) | 2008-12-30 | 2017-06-27 | Karen Collins | Method and system for visual representation of sound |
PL2285139T3 (pl) | 2009-06-25 | 2020-03-31 | Dts Licensing Limited | Urządzenie i sposób konwersji przestrzennego sygnału audio |
US8208002B2 (en) | 2009-08-27 | 2012-06-26 | Polycom, Inc. | Distance learning via instructor immersion into remote classroom |
US8989401B2 (en) * | 2009-11-30 | 2015-03-24 | Nokia Corporation | Audio zooming process within an audio scene |
ES2656815T3 (es) | 2010-03-29 | 2018-02-28 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung | Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica |
EP2733965A1 (en) | 2012-11-15 | 2014-05-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals |
US9232337B2 (en) * | 2012-12-20 | 2016-01-05 | A-Volute | Method for visualizing the directional sound activity of a multichannel audio signal |
JP2014219467A (ja) * | 2013-05-02 | 2014-11-20 | ソニー株式会社 | 音信号処理装置、および音信号処理方法、並びにプログラム |
US20150332682A1 (en) | 2014-05-16 | 2015-11-19 | Qualcomm Incorporated | Spatial relation coding for higher order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
-
2016
- 2016-09-19 EP EP16306190.6A patent/EP3297298B1/en active Active
-
2017
- 2017-09-18 US US15/707,129 patent/US20180084364A1/en not_active Abandoned
- 2017-09-19 TW TW106132102A patent/TWI770059B/zh active
- 2017-09-19 CN CN201780057585.2A patent/CN110089134B/zh active Active
- 2017-09-19 US US16/334,333 patent/US10536793B2/en active Active
- 2017-09-19 WO PCT/EP2017/073565 patent/WO2018050905A1/en active Application Filing
- 2017-09-19 US US15/708,579 patent/US10085108B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1498035A (zh) * | 2002-10-23 | 2004-05-19 | ���µ�����ҵ��ʽ���� | 音频信息变换方法、程序和设备 |
WO2004077884A1 (en) * | 2003-02-26 | 2004-09-10 | Helsinki University Of Technology | A method for reproducing natural or modified spatial impression in multichannel listening |
WO2006006809A1 (en) * | 2004-07-09 | 2006-01-19 | Electronics And Telecommunications Research Institute | Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information |
US20070140497A1 (en) * | 2005-12-19 | 2007-06-21 | Moon Han-Gil | Method and apparatus to provide active audio matrix decoding |
CN101410157A (zh) * | 2006-03-27 | 2009-04-15 | 科乐美数码娱乐株式会社 | 声音处理装置、声音处理方法、信息记录媒体及程序 |
US20080232617A1 (en) * | 2006-05-17 | 2008-09-25 | Creative Technology Ltd | Multichannel surround format conversion and generalized upmix |
WO2008113428A1 (en) * | 2007-03-21 | 2008-09-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for conversion between multi-channel audio formats |
US20110129105A1 (en) * | 2009-11-30 | 2011-06-02 | Jongsuk Choi | Artificial ear and method for detecting the direction of a sound source using the same |
CN104919821A (zh) * | 2012-09-27 | 2015-09-16 | 声摩逊实验室 | 用于重放音频信号的方法和*** |
CN105392102A (zh) * | 2015-11-30 | 2016-03-09 | 武汉大学 | 用于非球面扬声器阵列的三维音频信号生成方法及*** |
Non-Patent Citations (1)
Title |
---|
胡瑞敏: "三维音频技术综述", 《数据采集与处理》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114127843A (zh) * | 2019-07-02 | 2022-03-01 | 杜比国际公司 | 用于离散指向性数据的表示、编码和解码的方法、设备和*** |
CN114127843B (zh) * | 2019-07-02 | 2023-08-11 | 杜比国际公司 | 用于离散指向性数据的表示、编码和解码的方法、设备和*** |
CN111372167A (zh) * | 2020-02-24 | 2020-07-03 | Oppo广东移动通信有限公司 | 音效优化方法及装置、电子设备、存储介质 |
CN111372167B (zh) * | 2020-02-24 | 2021-10-26 | Oppo广东移动通信有限公司 | 音效优化方法及装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3297298B1 (en) | 2020-05-06 |
US10085108B2 (en) | 2018-09-25 |
TWI770059B (zh) | 2022-07-11 |
US20180084364A1 (en) | 2018-03-22 |
US20180084367A1 (en) | 2018-03-22 |
TW201820898A (zh) | 2018-06-01 |
EP3297298A1 (en) | 2018-03-21 |
WO2018050905A1 (en) | 2018-03-22 |
US10536793B2 (en) | 2020-01-14 |
US20190208349A1 (en) | 2019-07-04 |
CN110089134B (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110089134A (zh) | 用于再现空间分布声音的方法 | |
US10645518B2 (en) | Distributed audio capture and mixing | |
KR101341523B1 (ko) | 스테레오 신호들로부터 멀티 채널 오디오 신호들을생성하는 방법 | |
CN104185869B9 (zh) | 用于合并基于几何的空间音频编码流的设备和方法 | |
JP5595602B2 (ja) | 予め計算された参照曲線を用いて入力信号を分解する装置および方法 | |
US8705750B2 (en) | Device and method for converting spatial audio signal | |
US9154895B2 (en) | Apparatus of generating multi-channel sound signal | |
US8712059B2 (en) | Apparatus for merging spatial audio streams | |
TWI797417B (zh) | 用於將保真立體音響格式聲訊訊號描繪至二維度(2d)揚聲器設置之方法和裝置以及電腦可讀式儲存媒體 | |
TWI512720B (zh) | 用以產生多個參數式音訊串流之裝置及方法和用以產生多個揚聲器信號之裝置及方法 | |
ES2754260T3 (es) | Aparato y método para generar una señal de salida que emplea un descomponedor | |
TW201246060A (en) | Audio spatialization and environment simulation | |
Laitinen et al. | Parametric time-frequency representation of spatial sound in virtual worlds | |
CN102907120A (zh) | 用于声音处理的***和方法 | |
Kraft et al. | Stereo signal separation and upmixing by mid-side decomposition in the frequency-domain | |
Nowak et al. | On the perception of apparent source width and listener envelopment in wave field synthesis | |
Takanen et al. | Binaural assessment of parametrically coded spatial audio signals | |
CN109036456B (zh) | 用于立体声的源分量环境分量提取方法 | |
Cobos et al. | Stereo to wave-field synthesis music up-mixing: An objective and subjective evaluation | |
Kraft | Stereo Signal Decomposition and Upmixing to Surround and 3D Audio | |
Walther | Perception and rendering of three-dimensional surround sound | |
AUDIO—PART | AES 40th INTERNATIONAL CONfERENCE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: French ASCQ Patentee after: Steelcyrus France Address before: Roubaix Patentee before: A-VOLUTE |
|
CP03 | Change of name, title or address |