CN110089134A - 用于再现空间分布声音的方法 - Google Patents

用于再现空间分布声音的方法 Download PDF

Info

Publication number
CN110089134A
CN110089134A CN201780057585.2A CN201780057585A CN110089134A CN 110089134 A CN110089134 A CN 110089134A CN 201780057585 A CN201780057585 A CN 201780057585A CN 110089134 A CN110089134 A CN 110089134A
Authority
CN
China
Prior art keywords
virtual
direction vector
sound
sound source
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780057585.2A
Other languages
English (en)
Other versions
CN110089134B (zh
Inventor
拉斐尔·尼古拉·格雷夫
洪·崇·图妍·方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Steelcyrus France
Original Assignee
A-Wallet Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A-Wallet Co filed Critical A-Wallet Co
Publication of CN110089134A publication Critical patent/CN110089134A/zh
Application granted granted Critical
Publication of CN110089134B publication Critical patent/CN110089134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/008Visual indication of individual signal levels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种用于再现多声道音频信号的空间分布声音的方法,包括:接收依赖于时间的输入音频信号并执行时间‑频率变换;对于每个时间‑频率片,根据针对所述时间‑频率片的不同输入声道的时间‑频率表示来确定有功方向矢量(I)和无功方向矢量(II),根据有功方向矢量(I)和无功方向矢量(II)确定虚拟声源(VS1,VS2,VS3)相对于参考收听点(O)的位置,并且确定每个虚拟声源(VS1,VS2,VS3)的频率信号值,以及基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间‑频率信号值分配给电声换能器。

Description

用于再现空间分布声音的方法
背景技术
本发明涉及一种用于再现多声道音频信号的空间分布声音的方法。
音频是传递任何种类信息(特别是声音方向信息)的重要介质。实际上,对于监视任务来说,人听觉***比视觉***更有效。由于多声道音频格式的发展,空间化已经成为以下所有音频领域的共同特征:电影、视频游戏、虚拟现实、音乐等。
通常,这种声音被混合到多个音频声道上,其中每个声道被馈送到专用扬声器。声音到不同声道的分布适于专用回放***的配置(扬声器的位置);以便再现所述声音的预期方向性。
因此,多声道音频流要求通过合适的扬声器布局来回放。例如,五声道格式化音频信号的每个声道与其五个扬声器阵列内的对应扬声器相关联。图1示出了由国际电信联盟(ITU)推荐的用于5.1环绕声配置的五声道扬声器布局的示例。存在布置在参考收听点O周围的左扬声器L、右扬声器R、中央扬声器C、环绕左扬声器LS和环绕右扬声器RS,参考收听点O是推荐的收听者的位置。以该参考收听点O作为中心,指示了扬声器的中心方向之间的相对角距离。
因此,根据专用于规定空间配置的音频文件格式对多声道音频信号进行编码,其中扬声器被布置距参考收听点的规定位置处。实际上,多声道音频信号的每个依赖于时间的输入音频信号与声道相关联,每个声道对应于扬声器的规定位置。
如果通过适当的声音***(即具有所需数量的扬声器和它们之间的正确角距离)回放多声道音频,则正常听力收听者能够检测组成多声道音频混合的声源的位置。然而,如果实际的声音***表现出不适当的特征,诸如扬声器太少或其角距离不准确,则音频内容的方向信息可能未被正确地递送给收听者。
专利申请WO2008/113428公开了一种在任意多声道格式之间进行转换的技术。输入多声道表示被转换成空间音频信号的不同输出多声道表示。导出空间音频信号的中间表示,该中间表示具有指示空间音频信号的一部分的起源方向的方向参数。使用空间音频信号的中间表示生成空间音频信号的输出多声道表示。
发明内容
该方法旨在提供一种用于利用音频***再现多声道音频信号的空间分布声音的方法,该音频***包括实际空间配置中的扬声器,该实际空间配置不同于与多声道音频信号的格式相关联的规定空间配置。
根据本发明的第一方面,该目的通过一种用于利用在实际空间配置中相对于参考收听点的实际位置处定位的电声换能器来再现多声道音频信号的空间分布声音的方法来实现,其中多声道音频信号包括依赖于时间的输入音频信号,每个依赖于时间的输入音频信号与输入声道相关联,每个声道对应于电声换能器在规定空间配置中相对于参考收听点的规定位置,所述方法包括以下步骤:
-接收依赖于时间的输入音频信号,
-对所述依赖于时间的输入音频信号执行时间-频率变换,以用于将依赖于时间的输入音频信号中的每个转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示,每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片(time-frequency tile),对于不同的输入声道来说时间-频率片是相同的,
-对于每个时间-频率片,根据所述时间-频率片的不同输入声道的时间-频率表示确定有功方向矢量(active directional vector)和无功方向矢量(reactivedirectional vector),其中,根据复数强度矢量的实部确定有功方向矢量并且根据复数强度矢量的虚部确定无功方向矢量;
-对于每个时间-频率片,根据有功方向矢量和无功方向矢量确定虚拟空间配置中虚拟声源相对于参考收听点的位置,并确定每个虚拟声源的频率信号值,
-基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给电声换能器,
-基于分配给电声换能器的时间-频率信号值,通过实际空间配置的电声换能器产生声音。
本发明方法的其他优选但非限制性的方面如下、分离的或技术上可行的组合:
-时间-频率片的有功方向矢量表示针对所述时间-频率片的时间帧和频率子带的参考收听点处的声能流,并且其中无功方向矢量表示在参考收听点处相对于声能流的声学扰动;
-每个输入声道与在参考收听点和与所述输入声道相关联的扬声器的规定位置之间定义的声音方向相关联,并且声速矢量被确定为由对应于与所述声音方向相关联的输入声道的时间-频率表示所加权的每个声音方向之和的函数,所述声速矢量被用于确定有功方向矢量和无功方向矢量;
-由不同输入声道的时间-频率表示的总和定义的声压值被用于确定有功方向矢量和无功方向矢量;
-复数强度矢量由时间-频率片的声压值的共轭与所述时间-频率片的声速矢量之间的复数乘积产生;
-为了确定虚拟声源中的每一个的时间-频率信号值,确定虚拟麦克风信号,每个虚拟麦克风信号与虚拟声源相关联并且对应于将获取被布置在参考收听点处并且方向上朝向所述虚拟声源的位置取向的虚拟麦克风的信号;
-通过在与所述虚拟声源相关联的虚拟麦克风信号中抑制来自其他虚拟声源的干扰来确定虚拟声源的时间-频率信号值;
-基于有功方向矢量的方向和无功方向矢量的方向,影响虚拟声源中的每一个的时间-频率信号值;
-虚拟声源被布置在以参考收听点为中心的圆上;
-基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给电声换能器,包括:
·对于每个时间-频率片,通过对与电声换能器相关联的该输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号,以及
·将时间-频率音频输出声道信号转换成依赖于时间的输出声道信号;
-每个依赖于时间的输出声道信号被馈送到每个对应的电声换能器;
-对于每个时间-频率片存在三个虚拟声源,每个虚拟声源具有相对于参考收听点的位置,其中:
·第一虚拟声源的位置与参考收听点一起定义与来自参考收听点的有功方向矢量的方向共线的方向,
·第二虚拟声源的位置与参考收听点一起定义与具有第一取向的无功方向矢量的方向共线的方向,
·第三虚拟声源的位置与参考收听点一起定义与具有与第一取向相反的第二取向的无功方向矢量的方向共线的方向。
-对于每个时间-频率片存在两个虚拟声源,每个虚拟声源具有相对于参考收听点的位置,并且其中:
·第一虚拟声源的位置与参考收听点一起定义从有功方向矢量和由正因子加权的无功方向矢量之和得到的方向,以及
·第二虚拟声源的位置与参考收听点一起定义从有功方向矢量和由负因子加权的无功方向矢量之和得到的方向。
根据本发明的第二方面,提供了一种非暂时性有形计算机可读介质,其上包含有计算机可执行指令,其在由计算机执行时,执行根据第一方面的方法。
根据本发明的第三方面,提供了一种用于再现多声道音频信号的空间分布声音的***,所述***包括:
-用于接收多个输入声道的依赖于时间的输入音频信号的输入端,
-处理器和存储器,用于:
·对所述依赖于时间的输入音频信号执行时间-频率变换,以用于将依赖于时间的输入音频信号中的每个转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示,每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片,对于不同的输入声道来说时间-频率片是相同的,
·对于每个时间-频率片,根据所述时间-频率片的不同输入声道的时间-频率表示确定有功方向矢量和无功方向矢量,其中,根据复数强度矢量的实部确定有功方向矢量并且根据复数强度矢量的虚部确定无功方向矢量,
·对于每个时间-频率片,根据有功方向矢量和无功方向矢量确定虚拟空间配置中虚拟声源相对于参考收听点的位置,并确定每个虚拟声源的时间-频率信号值,
·基于虚拟空间配置中的虚拟声源的位置与实际空间配置中的所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给电声换能器;以及
-用于将依赖于时间的输出声道信号递送到多个电声换能器的输出端,所述多个电声换能器被定位在实际空间配置中相对于参考收听点的实际位置处。
该***被配置用于实施根据本发明的方法。
附图说明
通过阅读下面作为非限制性示例给出的其优选实施例的详细描述并参考附图,本发明的其他方面、目的和优点将变得更加显而易见,在附图中:
-已经讨论过的图1示出了在针对多声道音频***的规定配置中扬声器相对于参考收听点的规定位置的示例;
-图2是示出了该方法的步骤的图;
-图3是示出了该方法中的信号处理阶段的图;
-图4示意性地示出了有功方向矢量和无功方向矢量与虚拟声源的位置之间的关系的示例;
-图5示意性地示出了具有两个虚拟声源和有功方向矢量和无功方向矢量以及两个对应的虚拟麦克风的心形的虚拟空间配置的示例;
-图6示意性地示出了三个电声换能器和图5的两个虚拟声源的实际空间配置的示例;
-图7示意性地示出了具有三个虚拟声源和三个对应虚拟麦克风的心形以及有功方向矢量和无功方向矢量的虚拟空间配置的示例;
-图8示意性地示出了三个电声换能器和图7的三个虚拟声源的实际空间配置的示例。
具体实施方式
该方法可以由用于再现多声道音频信号的空间分布声音的***来实施,所述***包括:
-用于接收多个输入声道的依赖于时间的输入音频信号的输入端,
-被配置为实施本发明的方法的处理器和存储器,
-用于将依赖于时间的输出声道信号递送到多个电声换能器的输出端,所述多个电声换能器被定位在实际空间配置中相对于参考收听点的实际位置处。
输入端接收包括多个输入声道的依赖于时间的输入音频信号的多声道音频信号(步骤S01)。每个依赖于时间的输入音频信号与输入声道相关联。每个输入声道对应于电声换能器相对于规定空间配置中的参考收听点的规定位置。例如,在图1所示的规定空间配置中,存在五个输入声道,对于每个扬声器LS、L、C、R、RS一个输入声道。
在平面波模型假设下,声源的位置(例如,每个扬声器的位置)可以仅由声源相对于参考收听点的方向来定义。然后,酉矢量(unitary vector)足以定位声源。因此,规定位置中的每个规定位置定义了表示声音方向并且源自参考收听点且指向每个扬声器的方向的酉矢量因此,每个输入声道i与在参考收听点和与所述输入声道i相关联的扬声器的规定位置之间定义的声音方向相关联。例如,在图1所示的规定空间配置中,扬声器C的位置由声音矢量定义,该声音矢量源自参考收听点O并且朝向酉圆上的扬声器C的位置。该声音矢量在收听点的前方延伸。以类似的方式,扬声器L的位置由声音矢量定义,该声音矢量源自参考收听点O并且朝向酉圆上的扬声器L的位置。在该示例中,声音矢量的方向和声音矢量的方向成30°角度。
然而,旨在回放多声道音频信号的实际音频***包括被定位在相对于实际空间配置中的参考收听点的实际位置处的电声换能器。下面参考图2和图3描述用于再现多声道音频信号的空间分布声音的方法。图2示出了该方法的按时间组织的步骤,而图3示出了该方法的数学推理。
频率分析
所接收的依赖于时间的输入音频信号ai(t)可以是模拟的,但它们最好是数字信号。存在与输入声道i一样多的输入音频信号ai(t)。在频率分析期间(步骤S10),通过执行时间-频率转换将依赖于时间的输入音频信号ai(t)转换到频域(步骤S02)。通常,时间-频率转换使用诸如短时傅立叶变换(STFT)的傅立叶相关变换,其被用于在信号随时间变化时确定信号的局部部分的正弦频率和相位内容(phase content)。
更确切地说,每个依赖于时间的输入音频信号ai(t)被转换成与所述依赖于时间的输入音频信号相关联的输入声道i的多个时间-频率表示Ai(k,n)。每个时间-频率表示Ai(k,n)对应于由时间帧和频率子带定义的时间-频率片。转换是在逐帧的基础上进行的。
优选地,帧长度在5ms和80ms之间。优选地,频率子带的宽度在10Hz和200Hz之间。优选地,帧间间隔在帧长度的1/16和一半之间。例如,对于48kHz的采样率和基于FFT的STFT处理框架,帧长度可以是具有46.875Hz的相关频率子带宽度(或仓宽度(bin width))和512个样本的帧间间隔的1024个样本。对于不同的输入声道i,时间-频率片是相同的。
在以下中,k被用作频率子带的频率索引并且n是帧索引,使得时间-频率表示Ai(k,n)指代与输入声道i的信号的第k个频率子带和第n个帧相关联的复数。
然后,时间-频率表示Ai(k,n)和声音方向被用在时间-频率处理(步骤S03)中,其中时间-频率片的数据被处理。
空间分析
根据时间-频率片的时间-频率表示Ai(k,n)和声音方向来执行空间分析(步骤S11)。对于每个时间-频率片,根据针对所述时间-频率片的不同输入声道的时间-频率表示Ai(k,n)来确定有功方向矢量和无功方向矢量(步骤S31)。
时间-频率片的有功方向矢量与有功声强度矢量成比例,该有功声强度矢量表示在参考收听点处的针对所述时间-频率片的时间帧和频率子带的声能流。更具体地,有功方向矢量对应于有功声强矢量,其通过参考收听点O处的声能EP(k,n)和EK(k,n)之和而被标准化(normalized),其中加上负号以便使其从参考收听点O指向酉圆。可以使用不同的标准化或省略负号,在这种情况下,矢量将指向参考收听点O。
无功方向矢量与无功声强度矢量成比例,其表示在参考收听点处的相对于相同时间-频率片的声能流的声学扰动。更具体地,无功方向矢量对应于无功声强度矢量,其通过参考收听点O处的声能EP(k,n)和EK(k,n)之和而被标准化。还加上了负号,但其可以被省略。对于有功方向矢量,可以使用不同的标准化。
从感知角度来看,如果有功方向矢量可以与主方向声场相关,则无功方向矢量与环境扩散声场相关。此外,无功方向矢量的方向信息使得能够处理该环境声场的空间特性,并且因此它不仅可以用于描述完全扩散环境声场而且可以描述部分扩散环境声场。
这种新方法本质上更加稳健,因为它有助于有功方向矢量的可靠性,有功方向矢量是真实声空间线索(与经验感知线索的Gerzon矢量相比),但也利用了声音通过无功方向矢量的扩散。
已经发现的是,有功方向矢量和无功方向矢量的组合可以用于识别声源的位置,如图4所示。在该图4中,声音分布由布置在以参考收听点O为中心的酉圆上的两个虚拟声源VS1和VS2来表示。有功方向矢量源自参考收听点O并且沿主要声流指向。在该示例中,两个不相关的声源VS1、VS2具有相等的能量(对于该时间-频率片)。因此,在参考收听点O处感知的声能流来自两个声源VS1、VS2的中间,并且因此有功方向矢量在两个声源VS1、VS2之间延伸。无功方向矢量在此垂直于有功方向矢量并且声源VS1、VS2的位置对应于有功方向矢量和无功方向矢量或无功方向矢量的相反矢量之和。
然而,大多数时候,声源VS1、VS2并非完全不相关。已经发现的是,无论两个声源VS1、VS2的确切位置如何,当源信号完全不相关时,无功强度最大。相反,当源信号完全相关时,无功强度最小。以类似的方式,在声源信号完全不相关的情况下,当源方向相对于参考收听点O在空间上负相关(即相反)时,无功强度最大。相反,当源方向相对于参考收听点在空间上相关(即在相同方向上)时,无功强度最小。
为了确定有功方向矢量和无功方向矢量使用规定空间配置中扬声器相对于参考收听点O的规定位置。如上所述,每个输入声道i与在参考收听点和与所述输入声道i相关联的扬声器的规定位置之间定义的声音方向相关联。
针对相同的时间-频率片,由不同输入声道的时间-频率表示Ai(k,n)之和定义的所述时间-频率片的声压值P(k,n)被确定为:
时间-频率片的声速矢量被确定,所述声速矢量与由对应于与所述声音方向相关联的输入声道i的时间-频率表示Ai(k,n)加权的每个声音方向之和成比例:
其中
其中是用于虚拟空间配置的参考帧的坐标系的酉矢量,ρ是空气的密度,并且c是声速。例如,20℃下干燥空气中的声速为每秒343.2米,其可以被近似为340m.s-1。在海平面处并且在15℃下,空气密度约为1.225kg/m3,其可以被近似为1.2kg/m3。可以使用其他值。
由时间-频率片的声压值P(k,n)的共轭与所述时间-频率片的声速矢量之间的复数乘积产生的复数强度矢量被确定为:
并且被用于确定所述时间-频率片的有功方向矢量和无功方向矢量更确切地说,有功方向矢量是从复数乘积的实部确定的,并且无功方向矢量是从复数乘积的虚部确定的。
有功方向矢量和无功方向矢量可以如下计算:
其中
应注意的是,有功方向矢量和无功方向矢量在此通过能量EK(k,n)和EP(k,n)而被标准化,但可以另外方式来计算。应注意的是,负号被加到有功方向矢量和无功方向矢量的表达中,以便使它们从参考收听点O指向酉圆。将可以省略负号,在这种情况下,矢量将指向参考收听点O。
一旦有功方向矢量无功方向矢量声压值P(k,n)和声速矢量(或其等价物)已被确定,就可以执行音频源提取(步骤S12)以确定虚拟声源的位置和时间-频率信号值(步骤S32)。
音频源提取
该方法要求确定将在此后被用于确定实际空间配置的电声换能器的信号的虚拟声源的属性(位置和时间-频率信号值)。
对于每个时间-频率片,有功方向矢量和无功方向矢量被用于确定虚拟空间配置中虚拟声源相对于参考收听点的位置(步骤S32)。
所确定的虚拟声源的位置、有功方向矢量无功方向矢量声压值P(k,n)和声速矢量被用于确定虚拟一阶方向麦克风信号(步骤S122),该虚拟一阶方向麦克风信号对应于将由被布置在参考收听点O处并指向每个虚拟声源的虚拟麦克风获取的声音。存在与虚拟声源一样多的虚拟麦克风。
虚拟麦克风信号是声压值P(k,n)和可能由空气密度ρ和声速c加权的声速矢量与声源方向上的酉矢量之间的标量乘积之和的函数。例如,与被布置在由定义的方向上的虚拟声源相关联的虚拟心形麦克风信号Mj(k,n)可以如下计算:
虚拟麦克风信号突显在参考收听点O处感知的对应虚拟声源的声音,但还包含来自其他虚拟声源的干扰。然而,针对每个虚拟声源定义虚拟麦克风信号允许识别每个虚拟声源的虚拟声源信号。
应注意的是,可以通过修改虚拟声源的位置来执行空间操纵。这种方法比修改定义了规定位置的输入声道数据侧安全得多,这是因为保持了原始的主/环境能量比。
然而,源提取过程的细节根据虚拟声源的数量而改变。音频源提取过程估计虚拟声源的位置和频率信号值,其生成与由规定配置中的依赖于时间的输入音频信号所定义的声场相同的声场特性。需要定义与源相关的声场模型,这是因为不同模型,音频源提取过程可能非常不同。实际上,在基于对声强度的有功分量和无功分量两者的利用进行分析的情况下,两个模型是可靠的,一个模型具有两个声源而一个模型具有三个声源。
“双源”模型处理扩散(并因此利用无功分量)作为声源的感知宽度或局部扩散的指示。两个声源足以模拟较宽的声源,它们的空间和信号相关性定义了这种复合声源的感知宽度。
“三源”模型处理扩散(并因此利用无功分量)作为声音场景内的环境水平或全局扩散的指示。两个相反方向的不相关声源适合于模拟该环境分量。
下面解释如何继续进行两个虚拟声源或三个虚拟声源。
源提取:两个虚拟声源
在以参考收听点O为中心的酉圆的空间配置中,虚拟声源被定位在酉圆上。因此,虚拟声源的位置在酉圆与从参考收听点延伸的方向线的相交处。每个虚拟声源的位置可以由源自参考收听点的酉源方向矢量来定义。这如图5所示。
如上所述,源提取的第一步骤包括确定两个虚拟声源的位置(步骤S121)。如图5所示,每个酉源方向矢量通过有功方向矢量和无功方向矢量来定义。更准确地说,虚拟声源位于以下的相交处:
-酉圆以及
-与无功方向矢量共线并且穿过源自参考收听点的有功方向矢量的尖端的线。
如果所分析的声场是由两个不相关的声源(不必具有相等的能量)生成的,则该技术使得能够获取这两个声源的确切位置。如果用于生成声场的两个声源倾向于同相(相应地反相),则不再能够获取它们的确切位置。该技术过度估计(相应地低估)两个声源方向之间的空间相关性。然而,信号相关性和空间相关性之间的这种关系在感知上是贯通的。
确定两个虚拟声源VS1、VS2的位置等同于求解线与圆(对于三维声场则是球)的相交的几何问题。求解这个问题等同于求解二阶方程,其解是:
其中
应注意的是存在:
-第一虚拟声源VS1的位置与参考收听点O一起定义了从有功方向矢量和由正因子加权的无功方向矢量之和得到的方向,以及
-第二虚拟声源VS2的位置与参考收听点O一起定义了从有功方向矢量和由负因子加权的无功方向矢量之和得到的方向。
因此,我们有了第一虚拟声源VS1的源方向矢量以及第二虚拟声源VS2的源方向矢量如图5所示,这些源方向矢量将虚拟声源VS1、VS2定位在以参考收听点O为中心的酉圆上。
如上所述,在计算两个虚拟声源VS1、VS2的方向之后,可以通过将声压值P(k,n)和声速矢量组合到源方向矢量来创建两个虚拟定向麦克风。如图5所示,两个虚拟定向麦克风可以在源方向矢量的方向上具有心形指向性图案VM1、VM2。然后,可以通过如下定义的虚拟麦克风信号M1(k,n)、M2(k,n)来估计这两个方向上的虚拟麦克风拾取:
如上所述,每个虚拟麦克风信号突显在参考收听点O处感知的对应虚拟声源VS1、VS2的声音信号,但是还包含来自其他虚拟声源的干扰:
其中
其中S1(k,n)是第一虚拟声源VS1的时间-频率信号值,并且S2(k,n)是第二虚拟声源VS2的时间-频率信号值。最后的处理步骤允许通过对来自虚拟麦克风信号的源信号进行解混(unmixing)来提取每个虚拟声源的时间-频率信号值S1(k,n)、S2(k,n)(步骤S123):
其中
由源方向矢量定义的两个虚拟声源VS1、VS2的位置以及它们相应的时间-频率信号值S1(k,n)和S2(k,n)已被确定。
应注意的是,两个虚拟声源VS1、VS2是等效的,在这个意义上它们包含主分量(通过有功方向矢量)和环境分量(通过无功方向矢量)两者。可以执行环境提取处理以实施额外的细化。
音频源提取:三个虚拟声源
如前所述,音频源提取的第一步骤包括通过由有功方向矢量和无功方向矢量定义的酉源方向矢量来确定三个虚拟声源的位置。在以参考收听点O为中心的酉圆的空间配置中,虚拟声源被定位酉圆上。因此,虚拟声源的位置在酉圆与从参考收听点延伸的方向线的相交处。每个虚拟声源的位置可以由源自参考收听点的酉源方向矢量来定义。酉源方向矢量通过有功方向矢量和无功方向矢量来定义。这如图7所示。
如已经解释的,有功方向矢量指示主要感知声音事件方向,无功强度指示“最大感知扩散的方向”。使用三个虚拟声源VS1、VS2、VS3因此出现相关以近似于声场属性:
-一个虚拟声源VS1在有功方向矢量的方向上,以表示主要声学流的重建,以及
-空间上负相关的两个虚拟声源VS2、VS3分别在无功方向矢量的方向上和其相反方向上,以表示声场的声学扰动。
因此,存在:
-第一虚拟声源VS1的位置与参考收听点O一起定义了与来自参考收听点的有功方向矢量的方向共线的方向,
-第二虚拟声源VS2的位置与参考收听点O一起定义了与来自参考收听点的具有第一取向的无功方向矢量的方向共线的方向,
-第三虚拟声源VS3的位置与参考收听点一起定义了与来自参考收听点O的具有与第一取向相反的第二取向的无功方向矢量的方向共线的方向。
实际上,针对三源模型确定虚拟声源VS1、VS2、VS3的位置比针对双源模型来说简单得多,这是因为它们的源方向矢量直接从有功方向矢量和无功方向矢量计算出:
其中第一虚拟声源VS1的第一源方向矢量为第二虚拟声源VS2的第二源方向矢量为并且第三虚拟声源VS3的第三源方向矢量为如图7所示,这些源方向矢量将虚拟声源VS1、VS2、VS3定位在以参考收听点O为中心的酉圆上。
如上所述,在计算三虚拟声源VS1、VS2、VS3的方向之后,可以通过将声压值P(k,n)、声速组合到源方向矢量来创建三个虚拟方向麦克风。如图7所示,三虚拟方向麦克风可以在源方向矢量的方向上具有心形指向性图案VM1、VM2、VM3。然后可以通过如下定义的虚拟麦克风信号来估计这三个方向上的虚拟麦克风拾取:
如上所述,每个虚拟麦克风信号M1(k,n)、M2(k,n)、M3(k,n)突显在参考收听点O处感知的相应虚拟声源VS1、VS2、VS3的声音,但也包含来自其他虚拟声源VS1、VS2、VS3的干扰。更准确地说,由于第二源方向矢量和第三源方向矢量方向相反,所以第二虚拟声源VS2与第三虚拟声源VS3之间的干扰是可忽略的,而它们两者都干扰第一虚拟声源VS1:
其中
最后的处理步骤(步骤S123)允许通过对源时间-频率值进行解混来提取每个虚拟声源的时间-频率信号值:
与具有两个虚拟声源的模型相反,三个虚拟声源已经被分解在主分量和环境分量之间:
-第一虚拟声源VS1对应于主分量,以及
-第二虚拟声源VS2和第三虚拟声源VS3对应于环境分量。因此,可以在不要求额外环境提取处理的情况下直接实施进一步的细化。
声音合成
一旦已经确定了虚拟声源的属性(位置和时间-频率信号值),就可以执行声音合成(步骤S13)。可以基于虚拟空间配置中的虚拟声源的位置与实际空间配置中的电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值Sj(k,n)分配(步骤S33)给所述电声换能器。这可以被称为空间合成。
为了这样做,使用与每个电声换能器h的实际位置有关的空间数据。空间数据由实际源方向矢量(其中h=1,2,3,...)例示,实际源方向矢量源自参考收听点O并指向每个电声换能器的方向,如图6和图8所示。图6和图8两者都示出了具有被定位在相对于参考收听点O的实际位置处的三个电声换能器AET1、AET2、AET3的相同的实际空间配置。在由第一实际源方向矢量表示的方向上,将第一电声换能器AET1布置在参考收听点O的前方。在由第二实际源方向矢量表示的方向上,将第二电声换能器AET2布置在参考收听点O的左侧上,与第一实际源方向矢量成直角。在由第三实际源方向矢量表示的方向上,将第三电声换能器AET3布置在参考收听点O的右侧上,与第二实际源方向矢量相反。这仅是示例,并且该方法不限于电声换能器的特定空间布局或特定数量的电声换能器。电声换能器可以是扬声器,但也可以是耳机。
对于每个时间-频率片,与虚拟源方向矢量相关联的各种时间-频率信号值Sj(k,n)与实际源方向矢量结合使用以便导出平移(panning)增益Gjh(k,n)。对于时间-频率片(k,n),平移增益Gjh(k,n)定义被馈送到电声换能器h的输出声道内的每个虚拟声源j的声级(以及潜在地相位)。
通过考虑所考虑的虚拟声源的虚拟源方向矢量与电声换能器的实际源方向矢量之间的几何关系来确定平移增益Gjh(k,n)。为简单起见,虚拟源方向矢量以某种方式投影到实际源方向矢量上。例如,在图6中,第二虚拟声源VS2比其他电声换能器AET1、AET3更靠近第二电声换能器AET2。平移增益G22(k,n)将大于G12(k,n)或G23(k,n)。当然,在实践中,可以使用更复杂的三角公式或基于矢量的公式。例如,可以使用基于矢量的幅度平移(VBAP),如Ville Pulkki在“Virtual Sound Source Positioning Using VectorBase Amplitude Panning”,Audio Engineering Society,Inc,1997中所公开的。
应注意的是,还可以实施头部-相关的(head-related)传递函数(HRTF)处理以便合成双耳声音。由于HRTF可以取决于虚拟声源位置,因此可以存储一组预定的HRTF,并且基于虚拟声源的位置来选择要使用的HRTF,如Michael M.Goodwin和Jean-Marc Jot在“Binaural 3D audio rendering based on spatial audio scene coding”,AudioEngineering Society,123rd Convention,New York,NY,2007中所解释的。
对于相同的频率仓,虚拟源方向矢量可以从一帧到下一帧快速变化。因此,平移增益Gjh(k,n)也可以从一帧到下一帧突然变化。可以通过组合相同频率仓的至少两个时间上连续的平移增益Gjh(k,n)来平滑平移增益Gjh(k,n),诸如:
其中λ为0到1之间的实数。
对于每个时间-频率片,然后通过对该输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号Bh(k,n):
然后将时间-频率音频输出声道信号Bh(k,n)转换回依赖于时间的输出声道信号bh(t)。逆短时傅里叶变换(ISTFT)可被用于该目的。
最后,每个依赖于时间的输出声道信号bh(t)被馈送到每个对应的电声换能器,即所述输出声道的电声换能器。然后,电声换能器从所接收的依赖于时间的输出声道信号bh(t)产生声音(步骤S04)。
如上所述的本发明的方法可以被实现为程序并被存储在非暂时性有形计算机可读介质中,诸如其上包含计算机可执行指令的CD-ROM、ROM、硬盘,所述计算机可执行指令在由计算机执行时,执行根据本发明的方法。
虽然已经关于某些优选实施例描述了本发明,但是对于本领域技术人员来说将显而易见的是,可以在不脱离所附权利要求限定的本发明的范围的情况下进行各种改变和修改。

Claims (14)

1.一种用于利用在实际空间配置中相对于参考收听点(O)的实际位置处被定位的电声换能器(AET1,AET2,AET3)来再现多声道音频信号的空间分布声音的方法,其中,所述多声道音频信号包括依赖于时间的输入音频信号,每个依赖于时间的输入音频信号与输入声道相关联,每个声道对应于电声换能器在规定空间配置中相对于参考收听点(O)的规定位置,所述方法包括以下步骤:
-接收(S01)所述依赖于时间的输入音频信号,
-对所述依赖于时间的输入音频信号执行时间-频率转换(S02),以用于将所述依赖于时间的输入音频信号中的每个依赖于时间的输入音频信号转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示,每个时间-频率表示对应于由时间帧和频率子带限定的时间-频率片,对于不同的输入声道来说时间-频率片是相同的,
-对于每个时间-频率片,根据针对所述时间-频率片的不同输入声道的时间-频率表示来确定(S31)有功方向矢量和无功方向矢量其中,所述有功方向矢量根据复数强度矢量的实部来确定,并且所述无功方向矢量根据所述复数强度矢量的虚部来确定,
-对于每个时间-频率片,根据所述有功方向矢量和所述无功方向矢量确定虚拟声源(VS1,VS2,VS3)在虚拟空间配置中相对于参考收听点(O)的位置,并确定每个虚拟声源(VS1,VS2,VS3)的频率信号值(S32),
-基于所述虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配(S33)给电声换能器,
-基于分配给电声换能器的时间-频率信号值,通过实际空间配置中的电声换能器来产生(S04)声音。
2.根据权利要求1所述的方法,其中,时间-频率片的有功方向矢量表示在针对所述时间-频率片的时间帧和频率子带的参考收听点处的声能流,并且其中,所述无功方向矢量表示在所述参考收听点处相对于所述声能流的声学扰动。
3.根据权利要求1至2中任一项所述的方法,其中,每个输入声道与在所述参考收听点和与所述输入声道相关联的扬声器的规定位置之间定义的声音方向相关联,并且声速矢量被确定为由对应于与所述声音方向相关联的输入声道的时间-频率表示所加权的每个声音方向之和的函数,所述声速矢量被用于确定所述有功方向矢量和所述无功方向矢量
4.根据权利要求1至3中任一项所述的方法,其中,由不同输入声道的时间-频率表示之和定义的声压值被用于确定所述有功方向矢量和所述无功方向矢量
5.根据权利要求3和4所述的方法,其中,所述复数强度矢量由针对时间-频率片的声压值的共轭和针对所述时间-频率片的声速矢量之间的复数乘积产生。
6.根据权利要求1至5中任一项所述的方法,其中,为了确定所述虚拟声源中的每个虚拟声源的时间-频率信号值,确定虚拟麦克风信号,每个虚拟麦克风信号与虚拟声源相关联并且对应于将获取被布置在所述参考收听点(O)处并且方向上朝向所述虚拟声源的位置定向的虚拟麦克风的信号。
7.根据权利要求6所述的方法,其中,通过在与所述虚拟声源相关联的虚拟麦克风信号中抑制来自其他虚拟声源的干扰来确定虚拟声源的时间-频率信号值。
8.根据权利要求6或7所述的方法,其中,所述虚拟声源被布置在以所述参考收听点(O)为中心的圆上,并且虚拟麦克风信号对应于将获取具有形状上与以所述参考收听点(O)为中心的圆相切的心形的心形指向性图案(VM1,VM2,VM3)的虚拟心形麦克风的信号。
9.根据权利要求1至8中任一项所述的方法,其中,基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器(AET1,AET2,AET3)的实际位置之间的比较,将所述虚拟声源(VS1,VS2,VS3)的时间-频率信号值分配给所述电声换能器(AET1,AET2,AET3),包括:
-对于每个时间-频率片,通过对与电声换能器相关联的该输出声道的每个虚拟声源的相应贡献求和来计算时间-频率音频输出声道信号,以及
-将时间-频率音频输出声道信号转换成依赖于时间的输出声道信号。
10.根据权利要求9所述的方法,其中,每个依赖于时间的输出声道信号被馈送到每个对应的电声换能器。
11.根据权利要求1至10中任一项所述的方法,其中,对于每个时间-频率片存在三个虚拟声源,每个虚拟声源具有相对于所述参考收听点的位置,其中:
-第一虚拟声源(VS1)的位置与所述参考收听点(O)一起定义与来自所述参考收听点(O)的有功方向矢量的方向共线的方向
-第二虚拟声源(VS2)的位置与所述参考收听点(O)一起定义与具有第一取向的无功方向矢量的方向共线的方向
-第三虚拟声源(VS3)的位置与所述参考收听点(O)一起定义与具有与所述第一取向相反的第二取向的无功方向矢量的方向共线的方向
12.根据权利要求1至11中任一项所述的方法,其中,对于每个时间-频率片存在两个虚拟声源,每个虚拟声源具有相对于所述参考收听点的位置,并且其中:
-第一虚拟声源(VS1)的位置与所述参考收听点(O)一起定义从所述有功方向矢量和由正因子加权的无功方向矢量之和得到的方向以及
-第二虚拟声源(VS2)的位置与所述参考收听点(O)一起定义从所述有功方向矢量和由负因子加权的无功方向矢量之和得到的方向
13.一种非暂时性有形计算机可读介质,其上包含计算机可执行指令,所述计算机可执行指令在由计算机执行时,执行根据权利要求1至12中任一项所述的方法。
14.一种用于再现多声道音频信号的空间分布声音的***,所述***包括:
-输入端,用于接收多个输入声道的依赖于时间的输入音频信号,
-处理器和存储器,用于:
·对所述依赖于时间的输入音频信号执行时间-频率变换,以用于将所述依赖于时间的输入音频信号中的每个依赖于时间的输入音频信号转换成针对与所述依赖于时间的输入音频信号相关联的输入声道的多个时间-频率表示Ai,每个时间-频率表示Ai对应于由时间帧和频率子带限定的时间-频率片,对于不同的输入声道来说时间-频率片是相同的,
·对于每个时间-频率片,根据针对所述时间-频率片的不同输入声道的时间-频率表示Ai来确定有功方向矢量和无功方向矢量其中,所述有功方向矢量根据复数强度矢量的实部来确定,并且所述无功方向矢量根据所述复数强度矢量的虚部来确定,
·对于每个时间-频率片,根据所述有功方向矢量和所述无功方向矢量确定虚拟声源在虚拟空间配置中相对于参考收听点的位置,并确定针对每个虚拟声源的时间-频率信号值,
·基于虚拟空间配置中虚拟声源的位置与实际空间配置中所述电声换能器的实际位置之间的比较,将所述虚拟声源的时间-频率信号值分配给电声换能器;以及
-输出端,用于将依赖于时间的输出声道信号递送到多个电声换能器(AET1,AET2,AET3),所述多个电声换能器(AET1,AET2,AET3)被定位在实际空间配置中相对于参考收听点(O)的实际位置处。
CN201780057585.2A 2016-09-19 2017-09-19 用于再现空间分布声音的方法、***及计算机可读介质 Active CN110089134B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16306190.6 2016-09-19
EP16306190.6A EP3297298B1 (en) 2016-09-19 2016-09-19 Method for reproducing spatially distributed sounds
PCT/EP2017/073565 WO2018050905A1 (en) 2016-09-19 2017-09-19 Method for reproducing spatially distributed sounds

Publications (2)

Publication Number Publication Date
CN110089134A true CN110089134A (zh) 2019-08-02
CN110089134B CN110089134B (zh) 2021-06-22

Family

ID=57130308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780057585.2A Active CN110089134B (zh) 2016-09-19 2017-09-19 用于再现空间分布声音的方法、***及计算机可读介质

Country Status (5)

Country Link
US (3) US20180084364A1 (zh)
EP (1) EP3297298B1 (zh)
CN (1) CN110089134B (zh)
TW (1) TWI770059B (zh)
WO (1) WO2018050905A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111372167A (zh) * 2020-02-24 2020-07-03 Oppo广东移动通信有限公司 音效优化方法及装置、电子设备、存储介质
CN114127843A (zh) * 2019-07-02 2022-03-01 杜比国际公司 用于离散指向性数据的表示、编码和解码的方法、设备和***

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8930005B2 (en) 2012-08-07 2015-01-06 Sonos, Inc. Acoustic signatures in a playback system
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11128977B2 (en) * 2017-09-29 2021-09-21 Apple Inc. Spatial audio downmixing
CN107890673A (zh) * 2017-09-30 2018-04-10 网易(杭州)网络有限公司 补偿声音信息的视觉显示方法及装置、存储介质、设备
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
GB2572419A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
CN108854069B (zh) * 2018-05-29 2020-02-07 腾讯科技(深圳)有限公司 音源确定方法和装置、存储介质及电子装置
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
EP3618464A1 (en) * 2018-08-30 2020-03-04 Nokia Technologies Oy Reproduction of parametric spatial audio using a soundbar
US10587430B1 (en) * 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
CN109036456B (zh) * 2018-09-19 2022-10-14 电子科技大学 用于立体声的源分量环境分量提取方法
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11956616B2 (en) 2019-03-04 2024-04-09 Steelseries France Apparatus and method for audio analysis
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
GB2587196A (en) * 2019-09-13 2021-03-24 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US12010493B1 (en) * 2019-11-13 2024-06-11 EmbodyVR, Inc. Visualizing spatial audio
US11291911B2 (en) 2019-11-15 2022-04-05 Microsoft Technology Licensing, Llc Visualization of sound data extending functionality of applications/services including gaming applications/services
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
DE102020209050B4 (de) * 2020-07-20 2022-05-25 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörsystems, Hörsystem, Hörgerät
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1498035A (zh) * 2002-10-23 2004-05-19 ���µ�����ҵ��ʽ���� 音频信息变换方法、程序和设备
WO2004077884A1 (en) * 2003-02-26 2004-09-10 Helsinki University Of Technology A method for reproducing natural or modified spatial impression in multichannel listening
WO2006006809A1 (en) * 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
US20070140497A1 (en) * 2005-12-19 2007-06-21 Moon Han-Gil Method and apparatus to provide active audio matrix decoding
WO2008113428A1 (en) * 2007-03-21 2008-09-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for conversion between multi-channel audio formats
US20080232617A1 (en) * 2006-05-17 2008-09-25 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
CN101410157A (zh) * 2006-03-27 2009-04-15 科乐美数码娱乐株式会社 声音处理装置、声音处理方法、信息记录媒体及程序
US20110129105A1 (en) * 2009-11-30 2011-06-02 Jongsuk Choi Artificial ear and method for detecting the direction of a sound source using the same
CN104919821A (zh) * 2012-09-27 2015-09-16 声摩逊实验室 用于重放音频信号的方法和***
CN105392102A (zh) * 2015-11-30 2016-03-09 武汉大学 用于非球面扬声器阵列的三维音频信号生成方法及***

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9417185D0 (en) * 1994-08-25 1994-10-12 Adaptive Audio Ltd Sounds recording and reproduction systems
DE60036958T2 (de) 1999-09-29 2008-08-14 1...Ltd. Verfahren und vorrichtung zur ausrichtung von schall mit einer gruppe von emissionswandlern
WO2005065159A2 (en) 2003-12-30 2005-07-21 Nielsen Media Research, Inc. Methods and apparatus to distinguish a signal originating from a local device from a broadcast signal
EP1761110A1 (en) 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
WO2007089129A1 (en) 2006-02-03 2007-08-09 Electronics And Telecommunications Research Institute Apparatus and method for visualization of multichannel audio signals
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8374365B2 (en) 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US8908873B2 (en) 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
CA2748301C (en) 2008-12-30 2017-06-27 Karen Collins Method and system for visual representation of sound
PL2285139T3 (pl) 2009-06-25 2020-03-31 Dts Licensing Limited Urządzenie i sposób konwersji przestrzennego sygnału audio
US8208002B2 (en) 2009-08-27 2012-06-26 Polycom, Inc. Distance learning via instructor immersion into remote classroom
US8989401B2 (en) * 2009-11-30 2015-03-24 Nokia Corporation Audio zooming process within an audio scene
ES2656815T3 (es) 2010-03-29 2018-02-28 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica
EP2733965A1 (en) 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
US9232337B2 (en) * 2012-12-20 2016-01-05 A-Volute Method for visualizing the directional sound activity of a multichannel audio signal
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
US20150332682A1 (en) 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1498035A (zh) * 2002-10-23 2004-05-19 ���µ�����ҵ��ʽ���� 音频信息变换方法、程序和设备
WO2004077884A1 (en) * 2003-02-26 2004-09-10 Helsinki University Of Technology A method for reproducing natural or modified spatial impression in multichannel listening
WO2006006809A1 (en) * 2004-07-09 2006-01-19 Electronics And Telecommunications Research Institute Method and apparatus for encoding and cecoding multi-channel audio signal using virtual source location information
US20070140497A1 (en) * 2005-12-19 2007-06-21 Moon Han-Gil Method and apparatus to provide active audio matrix decoding
CN101410157A (zh) * 2006-03-27 2009-04-15 科乐美数码娱乐株式会社 声音处理装置、声音处理方法、信息记录媒体及程序
US20080232617A1 (en) * 2006-05-17 2008-09-25 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
WO2008113428A1 (en) * 2007-03-21 2008-09-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for conversion between multi-channel audio formats
US20110129105A1 (en) * 2009-11-30 2011-06-02 Jongsuk Choi Artificial ear and method for detecting the direction of a sound source using the same
CN104919821A (zh) * 2012-09-27 2015-09-16 声摩逊实验室 用于重放音频信号的方法和***
CN105392102A (zh) * 2015-11-30 2016-03-09 武汉大学 用于非球面扬声器阵列的三维音频信号生成方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡瑞敏: "三维音频技术综述", 《数据采集与处理》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114127843A (zh) * 2019-07-02 2022-03-01 杜比国际公司 用于离散指向性数据的表示、编码和解码的方法、设备和***
CN114127843B (zh) * 2019-07-02 2023-08-11 杜比国际公司 用于离散指向性数据的表示、编码和解码的方法、设备和***
CN111372167A (zh) * 2020-02-24 2020-07-03 Oppo广东移动通信有限公司 音效优化方法及装置、电子设备、存储介质
CN111372167B (zh) * 2020-02-24 2021-10-26 Oppo广东移动通信有限公司 音效优化方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
EP3297298B1 (en) 2020-05-06
US10085108B2 (en) 2018-09-25
TWI770059B (zh) 2022-07-11
US20180084364A1 (en) 2018-03-22
US20180084367A1 (en) 2018-03-22
TW201820898A (zh) 2018-06-01
EP3297298A1 (en) 2018-03-21
WO2018050905A1 (en) 2018-03-22
US10536793B2 (en) 2020-01-14
US20190208349A1 (en) 2019-07-04
CN110089134B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN110089134A (zh) 用于再现空间分布声音的方法
US10645518B2 (en) Distributed audio capture and mixing
KR101341523B1 (ko) 스테레오 신호들로부터 멀티 채널 오디오 신호들을생성하는 방법
CN104185869B9 (zh) 用于合并基于几何的空间音频编码流的设备和方法
JP5595602B2 (ja) 予め計算された参照曲線を用いて入力信号を分解する装置および方法
US8705750B2 (en) Device and method for converting spatial audio signal
US9154895B2 (en) Apparatus of generating multi-channel sound signal
US8712059B2 (en) Apparatus for merging spatial audio streams
TWI797417B (zh) 用於將保真立體音響格式聲訊訊號描繪至二維度(2d)揚聲器設置之方法和裝置以及電腦可讀式儲存媒體
TWI512720B (zh) 用以產生多個參數式音訊串流之裝置及方法和用以產生多個揚聲器信號之裝置及方法
ES2754260T3 (es) Aparato y método para generar una señal de salida que emplea un descomponedor
TW201246060A (en) Audio spatialization and environment simulation
Laitinen et al. Parametric time-frequency representation of spatial sound in virtual worlds
CN102907120A (zh) 用于声音处理的***和方法
Kraft et al. Stereo signal separation and upmixing by mid-side decomposition in the frequency-domain
Nowak et al. On the perception of apparent source width and listener envelopment in wave field synthesis
Takanen et al. Binaural assessment of parametrically coded spatial audio signals
CN109036456B (zh) 用于立体声的源分量环境分量提取方法
Cobos et al. Stereo to wave-field synthesis music up-mixing: An objective and subjective evaluation
Kraft Stereo Signal Decomposition and Upmixing to Surround and 3D Audio
Walther Perception and rendering of three-dimensional surround sound
AUDIO—PART AES 40th INTERNATIONAL CONfERENCE

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: French ASCQ

Patentee after: Steelcyrus France

Address before: Roubaix

Patentee before: A-VOLUTE

CP03 Change of name, title or address