CN104349267B - 声音*** - Google Patents

声音*** Download PDF

Info

Publication number
CN104349267B
CN104349267B CN201410555492.0A CN201410555492A CN104349267B CN 104349267 B CN104349267 B CN 104349267B CN 201410555492 A CN201410555492 A CN 201410555492A CN 104349267 B CN104349267 B CN 104349267B
Authority
CN
China
Prior art keywords
sound
loudspeaker
conversion
audio signal
spatial audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410555492.0A
Other languages
English (en)
Other versions
CN104349267A (zh
Inventor
理查德·福塞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN104349267A publication Critical patent/CN104349267A/zh
Application granted granted Critical
Publication of CN104349267B publication Critical patent/CN104349267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及声音***。在某些实施方式中,根据给定分量的方向特征和方向特征的规定范围之间的关系来更改空间音频信号的给定分量的一个或多个声音特征;其增强了收听者的收听体验。在某些实施方式中,通过对球谐函数表达式执行变换来对处于使用声音分量的球谐函数表达式的格式的空间音频进行解码,其中,该变换基于预定扬声器布局和预定规则,预定规则表明当再现从给定方向入射的声音时根据预定布局所布置的每个扬声器的扬声器增益;对现有的空间音频流解码方法提供了替代方法,该替代方法注重于声场重构。在某些实施方式中,多个矩阵变换组合为组合变换,并对音频信号执行组合变换;这节省了正在使用的音频***的处理资源。

Description

声音***
本案为基于中国专利申请第201080006626.3号的分案申请。
技术领域
本发明涉及用于处理音频数据的***和方法。特别地,本发明涉及用于处理空间音频数据的***和方法。
背景技术
音频数据最简单的形式是采用表现声音特征(诸如,频率和音量)的单声道数据的形式;这被称为单声道信号。立体音频数据是一种非常成功的音频数据格式,其包括双声道音频数据,并因此在一定程度上包含该音频数据表现的声音的方向特征。最近,包括环绕声格式的音频格式日益流行,其可包括两个声道以上的音频数据并包括所表现声音的二维或三维方向特征。
本文使用的术语“空间音频数据”是指包含与所表现的声音的方向特征信息有关的任何数据。空间音频数据可以各种不同格式表示,每种格式具有规定数量的音频声道,并需要不同的解译以再现所表现的声音。这种格式的例子包括立体声、5.1环绕声及使用声场的球谐函数表达式的格式,诸如Ambisonic B格式和高阶Ambisonic(HOA)格式。在一阶B格式中,声场信息被编码至四个声道,通常标记为W、X、Y和Z,其中,W声道代表全向信号级,X、Y和Z声道代表三维中的方向分量。HOA格式使用更多的声道,这可以例如产生更大的甜区(即,用户听到基本达到预期的声音的区域),并在更高频率处产生更精确的声场再现。Ambisonic数据可使用声场麦克风通过现场录音创建,可使用ambisonic移动立体声录音法在录音室中混合,或通过(例如)游戏软件生成。
Ambisonic格式和一些其他格式使用声场的球谐函数表达式。球谐函数是拉普拉斯方程的一组正交解的角度部分。
球谐函数可以多种方式定义。球谐函数的实值形式可定义如下:
其中,1≥0、-1≥m≥1,l和m通常分别被称为特定球谐函数的“阶”和“指数”,为连带勒让德多项式。进一步,为方便起见,我们将球谐函数重新表示为Yn(θ,φ),其中,n≥0将针对1和m的值纠集在首先编码低阶的序列中。我们使用:
n=l(l+1)+m (ii)
这些Yn(θ,φ)可用于表示在整个球面上定义的任何分段连续函数f(θ,φ),使:
因为球谐函数Yi(θ,φ)在对于球面的积分下为正交,由此可见,ai可从以下方程得出:
其可用解析法或数值法求解。
可用如方程iii)所示的数列表示处于时域或频域的原点的中心收听点的周围的声场。以一些有限阶L对方程iii)的数列进行截取,可使用有限数目的分量给出函数f(θ,φ)的近似值。这种截取近似值通常为原函数的平滑形式:
可对该表达式进行解释,使函数f(θ,φ)代表平面波从该方向入射的方向,因此,从特定方向入射的平面波源被编码为:
ai=4πYi(θ,φ) (vi)
进一步,可将多个源的输出相加以合成更复杂的声场。还可通过将曲面波前分解为平面波,以表示到达中心收听点的曲面波前。
因此,代表任意数目的声音分量的方程vi)的截取ai数列可用于对时间点或频率点处的声场行为进行近似。一般情况下,这种ai(t)的时间数列被提供为用于重放的编码空间音频流,然后利用解码器算法根据新收听者的身体原则或心理声学原则对声音进行重构。可通过录音技术和/或声音合成获取这种空间音频流。四声道Ambisonic B格式表达式可示为L=1截取数列v)的简单线性变换。
可替换地,时间数列可(例如)通过加窗快速傅里叶变换技术变换至频域,提供ai(ω)形式的数据,其中,ω=2πf,f为频率。这种情况下,ai(ω)的值通常是复数。
进一步,可用以下方程将单音频流m(t)编码为空间音频流,作为从方向(θ,φ)入射的平面波:
ai(t)=4πYi(θ,φ)m(t) (vii)
其可写为时间相关矢量a(t)。
重放之前,必须对空间音频数据进行解码,以提供扬声器馈送,即,用于重放声音数据以再现声音的每个单独扬声器的数据。可在将解码数据写入用于供应消费者的(例如)DVD之前执行解码;这种情况下,假定消费者将使用包括预定数目扬声器的预定扬声器布局。在其他情况下,该空间音频数据可在重放期间实时地(on the fly)被解码。
解码空间音频数据(例如,ambisonic(环境声)音频数据)的方法一般涉及计算时域或频域内的扬声器输出,可能对于再现由空间音频数据代表的声场的、给定扬声器布局中的每个扬声器使用隔离高频解码和低频解码的时域滤波器。在任何指定时间,所有扬声器一般都能有效地再现声场,而与声场的源的方向无关。这要求扬声器布局的精确装配,可以看出,关于扬声器的位置缺乏稳定性,特别是在较高频率下。
众所周知,对空间音频数据进行变换,该变换可改变所代表的声场的空间特征。例如,通过对ambisonic声道的矢量表达式应用矩阵变换,可以对处于ambisonic格式的整个声场进行旋转或镜像。
本发明的目的在于提供用于处理和/或解码音频数据的方法和***,以增强收听者的收听体验。本发明进一步的目的在于提供用于处理和解码空间音频数据、不对正在使用的音频***造成过度负担的方法和***。
发明内容
根据本发明的第一方面,提供了处理空间音频信号的方法,该方法包括:
接收空间音频信号,该空间音频信号代表一个或多个声音分量,该声音分量具有规定方向特征和一个或多个声音特征;
提供变换,用于更改一个或多个声音分量的一个或多个声音特征,该声音分量的规定方向特征与方向特征的规定范围相关;
对空间音频信号应用该变换,从而生成更改的空间音频信号,其中,一个或多个声音分量的一个或多个声音特征被更改,对给定声音分量的更改与给定分量的规定方向特征与方向特征的规定范围之间的关系有关;以及
输出经更改的空间音频信号。
这允许对空间音频数据进行处理,使诸如频率特征和音量特征的声音特征可根据其方向来进行选择性地改变。
本文的术语“声音分量”指,例如,从规定方向入射的平面波,或属于特定声源(不论该源是静止或是移动(例如,人走动的情况))的声音。
根据本发明的第二方面,提供了解码空间音频信号的方法,该方法包括:
接收空间音频信号,该空间音频信号代表一个或多个声音分量,该声音分量具有预定方向特征,该信号处于使用该声音分量的球谐函数表达式的格式;
对球谐函数表达式进行变换,该变换基于预定扬声器布局和预定规则,该预定规则表示当再现从给定方向入射的声音时根据预定扬声器布局而布置的每个扬声器的扬声器增益,给定扬声器的扬声器增益与给定方向有关;该变换的执行产生多个扬声器信号,每个扬声器信号定义了扬声器的输出,该扬声器信号能够控制根据预定扬声器布局而布置的扬声器,以根据规定方向特征生成一个或多个声音分量;以及
输出经解码的信号。
本文所称的规则可为平移规则(panning rule)。
这对现有的、使用球谐函数表达式的音频数据解码技术提供了替代方法,其中,由扬声器生成的声音提供对方向的敏锐感知,并对于扬声器设置和扬声器意外移动较为稳固。
根据本发明的第三方面,提供了处理音频信号的方法,该方法包括:
接收对于更改音频信号的请求,该更改包括:对于预定格式和一个或多个规定声音特征这两者中的至少一个的更改;
响应于对该请求的接收,对存储多个矩阵变换的数据存储装置进行存取,每个矩阵变换用于更改音频流的格式和声音特征中的至少一个;
确定矩阵变换的多个组合,每个经确定的组合用于执行所请求的更改;
响应于对组合的选择,将选出的组合的矩阵变换组合为组合变换;
对接收的音频信号应用组合变换,从而生成更改的音频信号;以及
输出更改的音频信号。
确定用于执行所请求的更改的、矩阵变换的多种组合以在选择矩阵变换的步骤时,例如将用户偏好纳入考虑;组合所选组合的矩阵变换允许快速有效地处理复杂的变换操作。
本发明的进一步特征和优点将根据以下对于参考附图仅通过示例方式给出的本发明的优先实施方式的说明变得显而易见。
附图说明
图1是第一***的示意图,在该***中可以实现本发明的实施方式以提供对于空间音频数据的再现;
图2是第二***的示意图,在该***中可以实现本发明的实施方式以记录空间音频数据;
图3是被布置为根据本发明的任意实施方式执行解码操作的部件的示意图;
图4是示出了根据本发明的实施方式执行着色变换(tinting transform)的流程图;
图5是被布置为根据本发明的实施方式执行着色变换的部件的示意图;以及
图6是根据本发明的实施方式由变换引擎执行的处理的流程图。
具体实施方式
图1示出了根据本发明实施方式用于处理和播放音频信号的示例***100。图1中所示的每个部件可实现为硬件部件,或实现为在相同或不同硬件上运行的软件部件。该***包括DVD播放机110和游戏装置120,这两者均将输出提供至变换引擎104。游戏装置播放机120可以是通用个人计算机,或诸如“Xbox”的游戏机。
游戏装置120将输出(例如)以来自正在玩的游戏的OpenAL调用的形式提供给描绘器(renderer)112,并利用这些输出以诸如Ambisonic B格式的格式构造表示游戏声场的多声道音频流;然后,该Ambisonic B格式流输出至变换引擎104。
DVD播放机110能够以(例如)5.1环绕声或立体声将输出提供至变换引擎104。
变换引擎104根据下文描述技术的其中之一对于从游戏装置120和/或DVD播放机110接收的信号进行处理,以不同格式提供音频信号输出,和/或表现具有与输入音频流代表的特征不同的声音。附加地或可替代地,变换引擎104可根据下文描述的技术解码音频信号。用于该处理的变换可存储于变换数据库106;用户可设计变换,并可经由用户界面108将这些变换存储于变换数据库106。变换引擎104可从一个或多个处理插件114接收变换,该处理插件114可提供用于对声场执行空间操作(例如,旋转)的变换。
用户界面108还可用于对变换引擎104的操作方面进行控制,例如,选择在变换引擎104中使用的变换。
然后,由变换引擎执行的处理所产生的信号从该处理输出至输出管理器132,该输出管理器通过(例如)选择要使用的音频驱动器并提供适用于所使用的扬声器布局的扬声器馈送,从而对变换引擎104使用的格式与可用于重放的输出声道之间的关系进行管理。在图1所示的***100中,来自输出管理器132的输出可提供给耳机150和/或扬声器阵列140。
图2示出了可在其中实现本发明实施方式的可替换***200。图2的***用于对音频数据进行编码和/或记录。在该***中,诸如空间麦克风录音和/或其他输入的音频输入连接到数字音频工作站(DAW)204,其允许对音频数据进行编辑和重放。该DAW可与变换引擎104、变换数据库106和/或处理插件114结合使用,以根据下文描述的技术处理音频输入,从而将接收的音频输入编辑为预期形式。一旦音频数据被编辑为预期形式,就将其发送至出口管理器208,该出口管理器执行添加诸如与音频数据创作者相关的元数据等功能。该音频数据随后传输给音频文件写入器212,以写入记录介质。
现在将对变换引擎104的功能进行详细说明。变换引擎104处理音频流输入,以生成改变的音频流,其中,该改变可包括对所表现的声音的改变和/或空间音频流格式的改变;附加地或可替代地,变换引擎执行空间音频流解码。在一些情况下,该改变可包括:对多个声道中的每个声道应用相同滤波器。
变换引擎104被布置为将两个以上变换连在一起,以创建组合变换,这使得与单独执行每个变换的现有***相比实现更快速且更少资源密集处理。可从用户可配置的处理插件提供的变换数据库106中检索被组合以形成组合变换的单独变换。一些情况下,可直接计算变换,以提供(例如)声音旋转,旋转角度可由用户通过用户界面108选择。
变换可表示为有限脉冲响应(FIR)卷积滤波器的矩阵。在时域中,我们将这些矩阵的元索引为pij(t)。为了进行说明,假设FIR为长度T的数字因果滤波器。给出具有m个声道的多声道信号ai(t),具有n个声道的多声道输出bj(t)可由以下方程得出:
通过对每个矩阵分量执行可逆离散傅里叶变换(DFT),可以提供时域变换的等价表达式。然后,分量可表示为其中,ω=2πf以及f为频率。
在该表达式中,输入音频流也在频域中表示,每个音频声道j的输出流可由以下方程得到:
注意,这种形式(对于每个ω)与复杂矩阵乘法等价。因此,可以矩阵形式将变换表示为:
其中,是具有代表输入音频流声道的元的列向量,是具有代表输出音频流声道的元的列向量。
同样,如果对音频流应用另外的变换则进一步变换的输出可表示为:
将方程(3)代入方程(4),可得出:
因此,可为每个频率查找单矩阵
使方程(3)和(4)的变换可以作为单变换而进行:
其可表示为:
应理解的是,通过对关于方程(3)至(7)的上述步骤进行迭代,从而可以将该方法延伸为将任何数量的变换组合为等价组合变换。一旦形成新频域变换,就可以将其变换回时域。可替代地,如此处所述,可在频域内执行变换。
可以使用诸如在快速卷积算法中经常使用的开窗技术通过(例如)DFT将音频流切成块并传输至频域。随后,可使用方程(8)在频域中实现变换,这比在时域中执行变换更高效,原因在于不对s求和(方程(1)与(8)比较)。随后可对生成的块执行可逆离散傅里叶变换(IDFT),然后可以将块组合为新的音频流,并将该新的音频流输出至输出管理器。
以这种方式将变换连在一起允许将多个变换作为单个、线性变换来执行,意味着可快速执行复杂的数据操作,而没有对处理装置的资源造成沉重负担。
现在将提供可使用变换引擎104实现的变换的一些实施例。
格式变换
在输入音频流与扬声器布局不兼容的情况下,例如,在输入音频流为HOA流,但扬声器为一对耳机的情况下,可能需要改变音频流的格式。可替代地或附加地,可能需要改变格式以执行要求音频流的球谐函数表达式的操作,例如,着色(见下文)。现在,将提供格式变换的一些实施例。
矩阵编码音频
一些立体声格式通过操作相位来编码空间信息;例如,杜比立体声将四声道扬声器信号编码为立体声。矩阵编码音频的其他实施例包括:Matrix QS、Matrix SQ和Ambisonic UHJ立体声。变换为或变换自这些格式的变换可使用变换引擎104实现。
Ambisonic A-B格式转换
Ambisonic麦克风通常具有产生A格式信号的振膜舱四面体排列。在现有***中,该A格式信号通常是通过一组滤波器、矩阵混音器、以及一些其他滤波器转换为B格式空间音频流。在根据本发明实施方式的变换引擎104中,该操作组合可组合为从A格式到B格式的单个变换。
虚拟声源
给定扬声器馈送格式(例如,5.1环绕声数据),可通过位于特定方向的虚拟声向这些扬声器声道的每个声道馈送音频,从而合成抽象空间表达式。
这使矩阵从扬声器馈送格式变换为空间音频表达式;构造空间音频流的另一种方法见下文名为“用平移资料构造空间音频流”一节。
虚拟麦克风
给定音频流的抽象空间表示,通常可合成特定方向的麦克风响应。例如,可使用指向用户指定方向的一对虚拟心形方向性麦克风由Ambisonic信号构造立体声馈送。
恒等变换
有时在数据库中包含恒等变换(即,该变换实际上不会更改声音)是有用的,以帮助用户在格式之间进行变换;这可用于(例如)声音可明显地用不同方式表示的情况。例如,可将杜比立体声数据转换为立体声,用于烧录到CD。
其他简单矩阵变换
简单变换的其他实施例包括,(例如)通过简单地增加新(无声)低音声道,从5.0环绕声格式转换为5.1环绕声格式,或通过增加无声三阶声道将二阶Ambisonic流上采样为三阶。
同样,简单线性组合,例如,从左/右标准立体声向中/侧表达式的转换为表示为简单矩阵变换。
HRTF立体声
抽象空间音频流可转换为适用于使用HRTF(头部相关传输函数)数据的耳机的立体声。此处,滤波器通常相当复杂,因为最终频率组成与基础声源的方向有关。
Ambisonic解码
Ambisonic解码变换一般包括采取Ambisonic空间音频流以及针对特定扬声器布局进行转换的矩阵操作。这可称为简单矩阵变换。双频段解码器也可由通过使用交迭FIR或IIR滤波器组合的两个矩阵表示。
这种解码技术尝试重新构造对音频信号代表的声场的感知。Ambisonic解码的结果是对于该布局中的每个扬声器的扬声器馈送;无论对声场产生作用的声源的方向如何,每个扬声器通常都会对声场产生作用。这在假定听众所处的区域(“甜区”)的中心和非常靠近中心的位置产生精确的声场再现。但是,由ambisonic解码产生的甜区的尺寸通常是正被再现的声音的波长的数量级。人类的听觉范围为约17mm至17m的波长范围;特别地,在小波长下,由此形成的甜区的面积较小,意味着需要如上所述的、精确的扬声器设置。
投影平移
根据本发明的一些实施方式,提供了对使用球谐函数表达式的空间音频流进行解码的方法,其中,根据平移规则将空间音频流解码为扬声器馈送。以下描述涉及Ambisonic音频流,但此处描述的平移技术可用于使用球谐函数表达式的任何空间音频流;在输入音频流并非球谐函数格式的情况下,可使用(例如)上文中名为“虚拟声源”一节中所描述的技术转换,通过变换引擎104将该输入音频流转换为该形式。
在平移技术中,重新创建一个或多个虚拟声源;平移技术并非基于上文所描述的ambisonic解码技术中使用的声源再现。通常称为平移规则的规则被定义如下,其对于给定的扬声器布局指定了当再现以给定方向从声源入射的声音时每个扬声器的扬声器增益。因此,根据声源的叠加对声场进行重新构造。
一个示例是矢量基幅度平移(VBAP),其通常使用一大组扬声器中的、靠近声源的预期方向的两个或三个扬声器。
对于任何给定的平移规则,存在着针对每个扬声器j的一些实增益函数或复增益函数sj(θ,φ),该函数可用于代表在(θ,φ)方向上扬声器对于给定声源应产生的增益。由正在使用的特定平移规则和扬声器布局对sj(θ,φ)进行定义。例如,在VBAP的情况下,除了方向(θ,φ)靠近所讨论的扬声器的情况之外,sj(θ,φ)在大部分单位球面上为零。
这些sj(θ,φ)中的每个可表示为球谐函数分量Yi(θ,φ)的和:
因此,对于从特定方向(θ,φ)入射的声音,实际扬声器输出可由以下方程得出:
vj(t)=sj(θ,φ)m(t) (10)
其中,m(t)为单音频流。vj(t)可表示为球谐函数分量数列:
qi,j可由以下方程得出,以解析法或数值法执行所需要的积分:
如果将所使用的表达式截取为一定阶的球谐函数,可以构造矩阵P使得每个元由以下方程定义:
根据方程vii),声音可在空间音频流中表示为:
ai(t)=4πYi(θ,φ)m(t) (14)
因此,可利用以下方程产生扬声器输出音频流:
wT=aTP (15)
P仅与平移规则和扬声器位置有关,而与特定空间音频流无关,因此,其可在音频重放开始之前确定。
如果音频流a仅包含来自单平面波的分量,则w矢量内的分量现在具有以下值:
对于所使用的数列截取精度而言,方程(18)与根据方程(11)由平移技术提供的扬声器输出相同。
这提供了增益矩阵,当其应用于空间音频流时产生一组扬声器输出。如果将声音分量以特定方向记录至空间音频流,则对应的扬声器输出将处于与在声音直接平移时到达的方向相同或相似的方向。
由于方程(15)为线性,可以看出,其适用于可表示为平面波源叠加的任何声场。另外,如上所述,可将以上分析延伸至考虑波前的曲率。
与上文所描述的ambisonic解码技术相比,该方法将平移法则的使用与所使用的空间音频流完全分离,目的在于重新构造单独的声源,而不是重新构造对声场的感知。因此,可对记录的或合成的空间音频流进行处理,潜在地,包括了在没有关于要用于播放空间音频流的后续扬声器的任何信息的情况下以其它方式(例如,旋转或着色——见下文)***纵的其他分量(例如,真实或合成混响产生的附加资料)和多个声源。然后,将平移矩阵P直接应用到空间音频流,以得出用于实际扬声器的音频流。
由于在本文采用的平移技术中,一般仅使用两个或三个扬声器对来自任何给定角度的声源进行再现,可以看出,可获得灵敏的方向感应;这意味着,甜区较大,并且相对于扬声器布局较为稳固。在本发明的某些实施方式中,本文所描述的平移技术可用于解码较高频率的信号,上文所描述的Ambisonic解码技术用于较低频率。
进一步,在某些实施方式中,不同解码技术可应用于不同球谐函数阶数;例如,平移技术可应用于较高阶数,Ambisonic解码可应用于较低阶数。进一步,由于平移矩阵P的项仅与所使用的平移规则有关,因此可选择适于正在使用的特定扬声器布局的平移规则;某些情况下,采用VBAP,在其他情况下,采用诸如线性平移和/或恒功率平移的其他平移规则。某些情况下,不同频段可应用不同的平移规则。
方程(18)中的数列截取一般会产生轻微混淆扬声器音频流的效应。在某些情况下,由于声音在靠近真实扬声器方向的位置通过时某些平移算法会经历感知间断,上述效应可作为一个有用特征。
作为数列截取的替代方法,还可使用某些其他技术得出qi,j,例如,Nelder和Mead提出的下山单纯形方法的多维优化方法。
在某些实施方式中,利用时域中的延时和施加给扬声器输出的增益、或频域中的相位和增益修正对扬声器距离和增益进行补偿。还可采用数字式房间校正。这些处理可以以下方式表示:在得出qi,j项之前将上述sj(θ,φ)函数乘以(潜在频率相关)项,对sj(θ,φ)函数进行扩展。可替代地,可在应用平移矩阵之后进行相乘。这种情况下,可通过时域延时和/或其他数字式房间校正技术应用相位修正。
可将方程(15)的平移变换与作为变换引擎104的处理的一部分的其他变换组合,以提供代表单独扬声器馈送的解码输出。但是,在本发明的某些实施方式中,可使用如图3所示的平移解码器来独立于其他变换执行平移变换。在图3的实施例中,将空间音频信号302提供给平移解码器304,该平移解码器可为独立硬件或软件部件,并根据上述平移技术对信号进行解码并且适于所使用的扬声器阵列306。随后,将解码的单独扬声器馈送发送给扬声器阵列306。
根据平移资料构造空间音频流
多种常用格式的环绕声采用一组预定扬声器位置(例如,针对ITU5.1环绕声),录音室中的声音平移一般利用正在使用的混音台或软件所提供的单平移技术(例如,成对矢量平移)。产生的扬声器输出s提供给消费者,例如,通过DVD。
平移技术已知时,可经所使用的录音室平移技术近似于上述的矩阵P。
然后,可使用以下方程反演矩阵P,以得出可应用于扬声器馈送s的矩阵R,从而构造空间音频馈送:
aT=sTR (19)
应注意的是,矩阵P的反演可能为非平凡反演,因为在大多数情况下,P为奇异矩阵。由于这个原因,矩阵R一般并非严格逆矩阵,而是通过单值分解(SVD)、正则化或其他技术得出的伪逆矩阵或其他逆替代矩阵。
可使用在DVD或类似物上向使用的播放软件提供的数据流内的标记确定采用的平移技术,以避免播放器对平移技术进行推测,或需要收听者选择平移技术。可替代地,可将P或R的表示或描述包含在流中。
随后可根据本文所描述的一个或多个技术对产生的空间音频馈送aT进行处理,和/或根据收听环境中实际存在的扬声器使用Ambisonic解码器或平移矩阵、或其他解码方法进行解码。
通用变换
某些变换基本上可应用于任何格式,不需改变格式。例如,可对形成具有固定值的对角矩阵的音频流施加简单增益,从而对任何馈送进行放大。还可使用应用于某些或所有声道的随机FIR对任何给定馈送进行过滤。
空间变换
本节对可使用球谐函数代表的空间音频数据执行的一组处理进行描述。数据保持空间音频格式。
旋转与反射
可使用一个或多个矩阵变换对声像进行旋转、反射和/或翻转;例如在“RotationMatrices for Real Spherical Harmonics.Direct Determination by Recursion”,Joseph Ivanic and Klaus Ruedenberg,J.Phys.Chem.,1996,100(15),pp 6342-6347中说明的旋转。
着色
根据本发明的实施方式,提供了在特定方向改变声音特征的方法。例如,其可用于增强或减弱特定方向的声级。以下说明涉及ambisonic音频流;但是,应理解的是,该技术可用于使用球谐函数表达式的任何空间音频流。通过首先将音频流转换为采用球谐函数表达式的格式,该技术还可用于不采用这种表达式的音频流。
假设输入音频流aT在时域或频域中采用声场f(θ,φ)的球谐函数表达式,并且预期生成代表一个或多个方向上的声级有所改变的声场g(θ,φ)的输出音频流bT,可将函数h(θ,φ)定义如下:
g(θ,φ)=f(θ,φ)h(θ,φ) (20)
例如,h(θ,φ)可定义为:
其产生的结果是使g(θ,φ)在左侧比f(θ,φ)宏亮一倍,在右侧为无声。换句话说,对规定方向处于φ<π的角度范围内的声音分量施加增益2,对规定方向处于φ≥π的角度范围内的声音分量施加增益0。
假设f(θ,φ)和h(θ,φ)都为分段连续函数,则其乘积g(θ,φ)也为分段连续函数,意味着三个函数都可用球谐函数表示。
可用方程iv)得出bj的值,如下所示:
用方程(20):
用方程(22)和(24):
其中
这些ωi,j,k项与f、g和h无关,可用解析法(可用量子***研究中使用的维格纳3j符号表示)或数值法得出。在实践中,这些项可制成表。
如果对用于代表函数f(θ,φ)、g(θ,φ)和h(θ,φ)的数列进行截取,则方程(29)采用矩阵乘法的形式。如果将ai项代入矢量aT,将bj项代入bT,则:
bT=aTC (31)
其中
应注意的是,在方程(31)中,根据输入音频流aT中的音频声道的数量截取数列;如果要求更精确的处理,可附加零,以增加aT中的项数,并将数列扩展到要求的阶数,从而实现该目的。进一步,如果没有将着色函数h(θ,φ)规定为足够高的阶数,其截取数列也可通过附加零而扩展到要求的阶数。
矩阵C与f(θ,φ)或f(θ,φ)无关,仅与着色函数h(θ,φ)有关。因此,可在时域或频域中查找固定线性变换,其可用于对使用球谐函数表达式的空间音频流进行处理。应注意的是,在频域中,每个频率可能需要不同的矩阵。
虽然在该实施例中,着色函数h规定为在固定角度范围内具有固定值,但本发明的实施方式并不限于这种情况。在某些实施方式中,着色函数的值可随规定角度范围内角度的不同而不同,或着色函数可规定为在所有角度下具有非零值。该着色函数可随时间变化。
进一步,在(例如)可对处于较大角度范围内、和/或随时间和/或频率变化的声源指定声音分量的情况下,着色函数的方向特征与声音分量的方向特征之间的关系可能是复数。
采用这种技术,可根据用于处理采用球谐函数表达式的空间音频流的所定义的着色函数来生成着色变换。因此,可用预定函数增强或减弱特定方向的声级,以(例如)改变录音的空间均衡,以实现无噪声独奏者,在输入音频流中该独奏者是收听者噪音中唯一能听不见的。这要求独奏者的方向已知;这可通过(例如)观察录音位置而确定。
在着色技术用于游戏***的情况下,例如,用于图1所示的游戏装置120和变换引擎104时,该游戏装置120可为变换引擎提供游戏环境的变化信息,随后变换引擎104利用该变化信息生成和/或检索适用的变换。例如,游戏装置120可为变换引擎提供如下数据:该数据表明在游戏环境中驾驶车辆的用户正在靠墙驾驶。随后,变换引擎104可选择并使用变换来改变声音特征,并将墙壁的接近程度加以考虑。
在h(θ,φ)处于频域的情况下,对声场空间行为所作的改变可与频率相关。这可用于在指定方向进行均衡化,或改变来自特定方向的声音的频率特征,使(例如)特定声音分量的声音更清楚,或过滤掉特定方向的无用音高。
进一步,着色函数可在解码器(包括Ambisonic解码器)设计期间用作加权变换,以优先考虑特定方向和/或特定频率下的解码精度。
通过对h(θ,φ)进行适当定义,可将代表已知方向的单独声源的数据从空间音频流中提取出来,对提取数据进行某种处理,并将处理后的数据重新引入音频流中。例如,可通过将除了与目标管弦乐队组对应的角度之外的所有角度下的h(θ,φ)定义为0,提取管弦乐队的特定组的声音。随后,可对提取数据进行处理,使得在将数据重新引入空间音频流之前,改变来自管弦乐队组的声音的角分布(例如,管弦乐队组的声音的特定部分进一步靠后)。可替代地或附加地,可在与提取方向相同或不同的方向处理和引入提取数据。例如,可将对左侧讲话的人的声音进行提取和处理,以消除背景噪声,并在左侧将其重新引入空间音频流中。
HRTF着色
作为频域着色的一个实施例,我们考虑使用h(θ,φ)代表HRTF数据的情况。可使收听者感知到声源方向的重要提示包括两耳时差(ITD)和两耳强度差(IID),其中,两耳时差(ITD)是到达左耳与到达右耳的声音之间的时差,两耳强度差(IID)是左耳与右耳处的声音强度差。ITD和IID效应是由双耳的身体间距以及人的头部对入射声波的效应产生的。HRTF一般用于通过仿效人的头部对入射声波的效应的滤波器模拟这些效应,以(特别通过耳机)产生针对左耳和右耳的音频流,从而为收听者提供了改进的声源方向感,特别是对于声源高度的感知。但是,现有技术中的方法没有对空间音频流进行更改以包含这种数据;在现有技术的方法中,在再现时对解码信号进行更改。
此处假设针对左耳和右耳的HRTF有对称表达的形式:
hR(θ,φ)=hL(θ,2π-φ) (34)
代表hL的ci分量可以形成矢量cL,单左耳流可由空间分量ai代表的空间音频流f(θ,φ)得出。可用标积得出用于左耳的适合音频流:
dL=a.cL (35)
这将完整空间音频流减少为适用于一对耳机及其他中的一个的单音频流。这是一项有用的技术,但不能产生空间音频流。
根据本发明的某些实施方式,使用上文描述的着色技术将HRTF数据应用于空间音频流,并将hL转换为方程(31)形式的着色矩阵,获取着色的空间音频流,作为处理结果。其作用在于,将HRTF的特征添加至音频流。随后,可通过各种方式,例如,利用Ambisonic解码器在收听之前对该流继续进行解码。
例如,将该技术用于耳机时,如果直接将hL应用到空间音频流,用左耳的专有信息对空间音频流进行着色。在大多数对称应用中,该流对于右耳没有用,因此,利用方程(34)对声场也进行着色,以生成针对右耳的单独空间音频流。
在随后进行了处理的情况下,这种形式的着色音频流可用于驱动耳机(例如,与简单的头部模型结合使用,以形成ITD提示等)。同样,潜在地,其也可用于串声消除技术,以减少对旨在用于一只耳朵的声音被另一只耳朵拾取的影响。
进一步,根据本发明的某些实施方式,hL可分解为两个函数aL和pL的乘积,这两个函数分别对于每个频率的振幅和相位分量进行管理,其中,aL为实值,并捕获特定方向的频率组成,pL捕获相位形式的相对的两耳时延(ITD),并且:|pL|=1。
hL(θ,φ)=aL(θ,φ)pL(θ,φ) (36)
可将aL和pL分解为着色函数,并探测其截取表达中产生的误差。在较高频率下,pL表达越来越不精确,|PL|逐渐偏离1,从而对hL的整体振幅容量产生影响。
由于在较高频率下ITD提示重要性较低而IID提示的重要性较高,可对pL进行更改,使其在较高频率下为1,因此,上述误差不会引入振幅容量。对于每个方向,可用相位数据构造应用于每个频率f的延时使
pL(θ,φ,f)=e-2πifd(θ,φ,f) (37)
随后,可用以下方程构造限于特定频率范围[f1,f2]内的新版本的相位信息:
应注意的是,对于f>f2的情况,为1。
可将d值进行缩放,以模拟不同大小的头部。
可从记录的HRTF数据集中导出上述d值。可替代地,可使用头部的简单数学模型。例如,可将头部模拟为球体,将两个麦克风***相对侧。左耳的相对时延则可由以下方程得出:
其中,r为球体半径,c为声音速度。
如上所述,ITD和IID效应为提供感知声源方向提供了重要提示。但是,声源可自多个点上产生相同的ITD和IID提示。例如,在<1,1,0>、<-1,1,0>和<0,1,1>(相对于笛卡儿坐标系而定义,x向前为正、y向左为正、z向上为正,三者都为相对于收听者而言)三点上的声音将在人的头部的对称模型中产生相同的ITD和IID提示。这些点中的每组已知为“干扰锥形”,众所周知,人类听觉***利用HRTF型提示(在包括头部移动的其他提示中)帮助确定这种情况下的声音位置。
对于hL,可对数据进行处理,以除去所有非左右对称的ci分量。这产生新的空间函数,该函数实际上仅包含hL与hR共有的分量。这可通过将方程(30)中所有与非左右对称的球面函数对应的ci分量设为零而实现。这是有用的方法,原因在于消除了会被左耳和右耳混淆在一起而拾取的分量。
这会产生新矢量代表的新着色函数,可用于对空间音频流进行着色,并增强提示,以帮助收听者通过对双耳同等有效的方式解决干扰锥形的问题。该流随后可在线索完整无缺的情况下馈送给Ambisonics或其他重放装置,即使相关方向没有设置扬声器,例如,声源处于收听者上方或后面,相关方向没有设置扬声器,但仍可更敏锐地感知声源方向。
在已知收听者朝向特定方向的情况下,例如,观看电影或看舞台,或玩计算机游戏时,该方法特别有效。可将进一步的分量丢弃,仅保留关于垂直轴对称的分量(即,与θ无关的分量)。
这可产生着色函数,该函数可仅对高度提示进行增强。该方法对收听者的朝向进行较少假设;要求的唯一假设为,头部垂直。应注意的是,根据应用情况的不同,期望将一定量的高度和干扰锥形着色这两者或这些着色函数的某些定向分量应用于空间音频流。
应注意的是,根据应用情况的不同,可将高度和干扰锥形着色这两者,或这些函数的某些定向分量应用于空间音频流。
可替代地,或附加地,如上所述的丢弃HRTF表达的分量的技术还可用于成对平移技术,以及不采用球谐函数空间音频流的其他应用情况。此处,可用上述方程(30)直接根据HRTF函数进行处理,并生成适用的HRTF提示。
增益控制
根据应用情况的不同,期望能对应用的着色量进行控制,以使效果较弱或较强。我们注意到,着色函数可写为:
h(θ,φ)=1+(h(θ,φ)-1) (40)
随后,可如下将增益系数p代入方程:
h(θ,φ)=1+p(h(θ,φ)-1) (41)
应用上述方程(18)至(29),最终得出着色矩阵Cp,可由以下方程得出:
Cp=I+p(C-I) (42)
其中,I为相关大小的恒等矩阵,p可用作控制所应用的着色量的增益控制;p=0可使着色完全消失。
进一步,如果希望在特定方向提供不同的着色量,可将着色应用到h自身,或应用到h与上文所描述的恒定变换之间的差,例如,仅将着色应用到处于一定高度的后方或上方的声音。附加地,或可替代地,着色函数可选择在一定高度上的音频,并将HRTF数据应用于所选数据,同时将其他数据保持不变。
虽然上文所描述的着色变换可方便地作为变换引擎所执行的处理的一部分来实现,存储在变换数据库106内,或作为(例如)处理插件114提供,在本发明的某些实施方式中,着色变换独立于上文图1和图2所描述的***而实现,如本文图4和图5所描述的。
图4显示了作为软件插件实现的着色。在步骤S402中,从软件包,例如Nuendo中接收空间音频数据。在步骤S404中,在返回到软件音频包(步骤S406)之前,根据上文所描述的着色技术对其进行处理。
图5显示了在进行转换、用于耳机之前,将着色应用于空间音频流。声音文件播放器502将空间音频数据传输给多声道HRTF着色部件504,该部件根据上述技术之一执行HRTF着色,使空间音频流的IID提示增强。该增强的空间音频流随后传输给立体声转换器506,该立体声转换器可采用简单的立体声头部模型进一步引入ITD提示,并将空间音频流减少为立体声。该立体声随后被传输给数模转换器508,并输出给耳机510,为收听者进行重放。此处参考图5所描述的部件可为软件或硬件部件。
应理解的是,上述着色技术可在多种其他场境中应用。例如,软件和/或硬件部件可与游戏软件结合使用,作为Hi-Fi***或音频录制专用的硬件装置的一部分。
对于变换引擎104的功能,现在将参考图6提供实施例,其中,变换引擎104用于处理和解码用于给定扬声器阵列140的空间音频信号。
在步骤S602中,变换引擎104接收音频数据流。如上所述,该音频数据流可以是来自游戏、CD播放器,或能提供这种数据的任何其他源。在步骤S604中,变换引擎104确定输入格式,即,输入音频数据流的格式。在某些实施方式中,输入格式由用户通过用户界面设置。在某些实施方式中,自动检测输入格式;这可通过音频数据中包含的标记而实现,或者变换引擎可利用统计技术检测格式。
在步骤S606中,变换引擎104确定是否需要进行空间变换,例如,上述着色变换。空间变换可由用户通过用户界面108进行选择,和/或可通过软件部件选择;如为后者,空间变换则为(例如)用户进入不同声音环境(例如,从洞穴出来,进入开阔空间)的游戏中的提示,要求具有不同声音特征。
如果需要进行空间变换,可从变换数据库106中进行检索;在使用插件114的情况下,附加地或可替代地,可从插件中检索变换。
在步骤S610中,变换引擎104确定是否需要进行一个或多个格式变换。同样,这可由用户通过用户界面108指定。例如,如果输入格式不采用球谐函数表达式,将采用着色变换,附加地或可替代地,可要求进行格式变换,以执行空间变换。在步骤S611中,如果要求进行一个或多个格式变换,可从变换数据库106和/或插件114中进行检索。
在步骤S612中,变换引擎104确定要使用的平移矩阵。这与采用的扬声器布局以及要用于扬声器布局的平移规则有关,一般情况下,两者都由用户通过用户界面108指定。
在步骤S614中,通过对步骤S608、S611和S612中检索到的变换进行卷积,可形成组合矩阵变换。在步骤S616中执行变换,在步骤S618中输出解码数据。由于此处采用平移矩阵,因此输出为解码扬声器馈送的形式;某些情况下,变换引擎104的输出为编码空间音频流,该音频流随后被解码。
应理解的是,变换引擎104作为录音***的一部分时,其将进行相似步骤。这种情况下,空间变换一般都由用户指定;虽然变换引擎104可确定转换用户指定格式所需的变换,用户一般还可选择输入和输出格式。
在步骤S606至S612中,对变换进行选择,用于在步骤S614中组合为组合变换,在某些情况下,变换数据库106中可能存储多于一个的变换或变换组合,从而能够进行要求的数据转换。例如,如果用户或软件部件指定将输入的B格式音频流转换为环绕声7.1格式,变换数据库106可能存储有多个变换组合,可用于执行这种转换。变换数据库106可存储格式的指示,每个域变换在这些格式之间转换,允许变换引擎104确定第一格式到第二格式的多种“路径”。
在某些实施方式中,接收到对指定(例如)格式转换的请求时,变换引擎104在变换数据库106中搜索变换的备选组合(例如,串),以执行请求的转换。存储于变换数据库106中的变换可被标记,或与指示每个变换的函数的信息相关联,例如,给定格式变换转换为或转换自的格式;该信息可由变换引擎104用于查找适用的变换组合,用于进行请求的转换。在某些实施方式中,变换引擎104生成备选变换组合列表,以供用户选择,并将生成的列表提供给用户界面108。在某些实施方式中,如此处所描述的,变换引擎104对备选变换组合进行分析。
存储于数据库106中的变换可被标记,或与等级值相关联,两者都指定了特定变换的使用偏好。可根据(例如)有多少信息损失与给定变换相关联(例如,B格式到单音频格式的转换会产生较高信息损失),和/或针对变换的用户偏好的指示对等级值进行分配。某些情况下,可对每个变换分配指示使用变换的总体期望的单个值。某些情况下,用户可使用用户界面108改变等级值。
接收到对给定(例如)格式转换的请求时,变换引擎104可在数据库106中搜索适合于所请求的转换的备选变换组合,如上所述。一旦获得备选变换组合列表,变换引擎104就可根据上述等级值对列表进行分析。例如,如果将参数值设置为较高值表明对于使用给定变换的较低偏好,则可计算每个组合中包含的值的总和,并选择具有最低值的组合。某些情况下,将涉及的变换数量大于给定变换数量的组合丢弃。
在某些实施方式中,变换组合的选择由变换引擎104执行。在其他实施方式中,变换引擎104根据上述分析对备选变换列表进行排序,并将该排序列表发送给用户界面108,以供用户选择。
因此,在变换组合选择的实施例中,在预定了扬声器布局的情况下,用户通过用户界面108上的菜单选择给定输入格式(例如,B格式)和期望的输出格式(例如,环绕声7.1)。响应于该选择,变换引擎104随后在变换数据库106中搜索用于将B格式转换为环绕声7.1的变换组合,根据上述等级值将结果进行排序,并将据此排序的列表呈现给用户,以供选择。一旦用户做出了他或她的选择,所选变换组合的变换被组合为如上所述的单个变换,用于处理音频流输入的音频流。
上述实施方式应理解为本发明的示例性实施例。设想本发明的其他实施方式。应注意的是,上述技术不依赖于球谐函数的任何特定表示;通过使用(例如)球谐函数的任何其他表示或球谐函数分量的线性组合,也可获得相同结果。应理解的是,有关任何一个实施方式所描述的任意特征可单独使用或与所描述的其他特征结合使用,并可与任何其他实施方式的一个或多个特征,或任何其他实施方式的任何组合结合使用。另外,在不背离所附权利要求限定的本发明的范围的情况下,可采用上文没有描述的等同物和变型。

Claims (5)

1.一种用于生成空间音频信号的方法,包括:
接收多个扬声器信号,所述多个扬声器信号能够控制根据预定扬声器布局的扬声器以生成各自具有规定的方向特征的一个或多个声音分量,所述多个扬声器信号根据平移规则生成,所述平移规则表明当再现从给定方向入射的声音时根据所述预定扬声器布局所布置的每个扬声器的扬声器增益,给定扬声器的所述扬声器增益依赖于所述给定方向;
提供第一矩阵变换,所述第一矩阵变换包括第二矩阵变换的逆向形式,所述第二矩阵变换根据所述预定扬声器布局和所述平移规则,所述第二矩阵变换适用于将表示所述一个或多个声音分量的空间音频信号转换为所述多个扬声器信号,所述空间音频信号处于使用声音分量的球谐函数表达式的格式;
对所接收的多个扬声器信号应用所述第一矩阵变换,从而生成表示所述一个或多个声音分量的空间音频信号,所生成的空间音频信号使用声音分量的球谐函数表达式;
输出所述生成的空间音频信号。
2.根据权利要求1所述的方法,其中,所述第一矩阵变换包括所述第二矩阵变换的伪逆形式或逆替代形式。
3.根据权利要求1或2所述的方法,包括根据所述平移规则生成所述第二矩阵变换,其中,所述第二矩阵变换的生成包括:
将由所述平移规则表明的每个所述扬声器增益表示为球谐函数分量的和,每个所述球谐函数分量具有关联系数;
计算多个所述系数中的每个的值;
从多个矩阵元构造所述第二矩阵变换,每个矩阵元根据对应计算的系数值。
4.根据权利要求1或2所述的方法,包括:
提供进一步变换,所述进一步变换用于更改声音分量的一个或多个声音特征,所述声音分量的规定方向特征与方向特征的规定范围相关;
对所述空间音频信号应用所述进一步变换,从而生成更改的空间音频信号,其中,由所述空间音频信号表示的一个或多个声音分量的一个或多个声音特征被更改,对给定声音分量的所述更改依赖于所述给定声音分量的所述规定方向特征与方向特征的所述规定范围之间的关系;以及
输出经所述更改的空间音频信号。
5.一种提供用于控制多个扬声器的多个扬声器信号的方法,所述方法包括:
执行根据权利要求1至4中任一项的生成空间音频信号的方法;
对所生成的空间音频信号执行进一步变换,所述进一步变换根据进一步预定扬声器布局和进一步平移规则,所述进一步平移规则表明当再现从给定方向入射的声音时根据所述进一步预定扬声器布局所布置的每个扬声器的扬声器增益,给定扬声器的所述扬声器增益依赖于所述给定方向,所述进一步变换的执行产生各自规定了扬声器的输出的多个扬声器信号,所述扬声器信号能够控制根据所述进一步预定扬声器布局所布置的扬声器,以根据规定方向特征生成一个或多个声音分量;以及
输出多个所述扬声器信号。
CN201410555492.0A 2009-02-04 2010-02-04 声音*** Active CN104349267B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0901722.9 2009-02-04
GB0901722.9A GB2467534B (en) 2009-02-04 2009-02-04 Sound system
CN2010800066263A CN102318372A (zh) 2009-02-04 2010-02-04 声音***

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2010800066263A Division CN102318372A (zh) 2009-02-04 2010-02-04 声音***

Publications (2)

Publication Number Publication Date
CN104349267A CN104349267A (zh) 2015-02-11
CN104349267B true CN104349267B (zh) 2017-06-06

Family

ID=40469490

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2010800066263A Pending CN102318372A (zh) 2009-02-04 2010-02-04 声音***
CN201410555492.0A Active CN104349267B (zh) 2009-02-04 2010-02-04 声音***

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN2010800066263A Pending CN102318372A (zh) 2009-02-04 2010-02-04 声音***

Country Status (5)

Country Link
US (3) US9078076B2 (zh)
EP (1) EP2394445A2 (zh)
CN (2) CN102318372A (zh)
GB (3) GB2478834B (zh)
WO (1) WO2010089357A2 (zh)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203723A1 (en) * 2011-02-04 2012-08-09 Telefonaktiebolaget Lm Ericsson (Publ) Server System and Method for Network-Based Service Recommendation Enhancement
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2600637A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
US10140088B2 (en) 2012-02-07 2018-11-27 Nokia Technologies Oy Visual spatial audio
EP2829083B1 (en) * 2012-03-23 2016-08-10 Dolby Laboratories Licensing Corporation System and method of speaker cluster design and rendering
WO2013149867A1 (en) * 2012-04-02 2013-10-10 Sonicemotion Ag Method for high quality efficient 3d sound reproduction
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
GB201211512D0 (en) 2012-06-28 2012-08-08 Provost Fellows Foundation Scholars And The Other Members Of Board Of The Method and apparatus for generating an audio output comprising spartial information
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
KR20230137492A (ko) 2012-07-19 2023-10-04 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
CN107454511B (zh) 2012-08-31 2024-04-05 杜比实验室特许公司 用于使声音从观看屏幕或显示表面反射的扬声器
EP2717263B1 (en) 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
AU2013355504C1 (en) 2012-12-04 2016-12-15 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
US9736609B2 (en) * 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
EP2974384B1 (en) 2013-03-12 2017-08-30 Dolby Laboratories Licensing Corporation Method of rendering one or more captured audio soundfields to a listener
US9979829B2 (en) 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
EP2981101B1 (en) 2013-03-29 2019-08-14 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
US9723305B2 (en) 2013-03-29 2017-08-01 Qualcomm Incorporated RTP payload format designs
FR3004883B1 (fr) * 2013-04-17 2015-04-03 Jean-Luc Haurais Procede de restitution sonore d'un signal numerique audio
US9420393B2 (en) * 2013-05-29 2016-08-16 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US20140358565A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9788135B2 (en) 2013-12-04 2017-10-10 The United States Of America As Represented By The Secretary Of The Air Force Efficient personalization of head-related transfer functions for improved virtual spatial audio
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
KR102529121B1 (ko) * 2014-03-28 2023-05-04 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN103888889B (zh) * 2014-04-07 2016-01-13 北京工业大学 一种基于球谐展开的多声道转换方法
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
CN105208501A (zh) 2014-06-09 2015-12-30 杜比实验室特许公司 对电声换能器的频率响应特性进行建模
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
US9536531B2 (en) * 2014-08-01 2017-01-03 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9782672B2 (en) * 2014-09-12 2017-10-10 Voyetra Turtle Beach, Inc. Gaming headset with enhanced off-screen awareness
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
EP3251116A4 (en) * 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US9961475B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US20200267490A1 (en) * 2016-01-04 2020-08-20 Harman Becker Automotive Systems Gmbh Sound wave field generation
EP3188504B1 (en) 2016-01-04 2020-07-29 Harman Becker Automotive Systems GmbH Multi-media reproduction for a multiplicity of recipients
KR102640940B1 (ko) 2016-01-27 2024-02-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 음향 환경 시뮬레이션
US11128973B2 (en) * 2016-06-03 2021-09-21 Dolby Laboratories Licensing Corporation Pre-process correction and enhancement for immersive audio greeting card
US9865274B1 (en) * 2016-12-22 2018-01-09 Getgo, Inc. Ambisonic audio signal processing for bidirectional real-time communication
CN107147975B (zh) * 2017-04-26 2019-05-14 北京大学 一种面向不规则扬声器摆放的Ambisonics匹配投影解码方法
US20180315437A1 (en) * 2017-04-28 2018-11-01 Microsoft Technology Licensing, Llc Progressive Streaming of Spatial Audio
US10129648B1 (en) * 2017-05-11 2018-11-13 Microsoft Technology Licensing, Llc Hinged computing device for binaural recording
US10251014B1 (en) * 2018-01-29 2019-04-02 Philip Scott Lyren Playing binaural sound clips during an electronic communication
US11906642B2 (en) * 2018-09-28 2024-02-20 Silicon Laboratories Inc. Systems and methods for modifying information of audio data based on one or more radio frequency (RF) signal reception and/or transmission characteristics
US11843792B2 (en) * 2020-11-12 2023-12-12 Istreamplanet Co., Llc Dynamic decoder configuration for live transcoding
CN114173256B (zh) * 2021-12-10 2024-04-19 中国电影科学技术研究所 一种还原声场空间及姿态追踪的方法、装置和设备
CN114949856A (zh) * 2022-04-14 2022-08-30 北京字跳网络技术有限公司 游戏音效的处理方法、装置、存储介质及终端设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9204485D0 (en) * 1992-03-02 1992-04-15 Trifield Productions Ltd Surround sound apparatus
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
JPH06334986A (ja) * 1993-05-19 1994-12-02 Sony Corp 重み付きコサイン変換方法
AUPO099696A0 (en) * 1996-07-12 1996-08-08 Lake Dsp Pty Limited Methods and apparatus for processing spatialised audio
US6072878A (en) * 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
AUPP272598A0 (en) * 1998-03-31 1998-04-23 Lake Dsp Pty Limited Wavelet conversion of 3-d audio signals
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
US7031474B1 (en) * 1999-10-04 2006-04-18 Srs Labs, Inc. Acoustic correction apparatus
CA2406926A1 (en) * 2000-04-19 2001-11-01 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions
GB2379147B (en) * 2001-04-18 2003-10-22 Univ York Sound processing
AU2003210625A1 (en) * 2002-01-22 2003-09-02 Digimarc Corporation Digital watermarking and fingerprinting including symchronization, layering, version control, and compressed embedding
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
FR2847376B1 (fr) * 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
JP4114583B2 (ja) * 2003-09-25 2008-07-09 ヤマハ株式会社 特性補正システム
US7298925B2 (en) * 2003-09-30 2007-11-20 International Business Machines Corporation Efficient scaling in transform domain
US7634092B2 (en) * 2004-10-14 2009-12-15 Dolby Laboratories Licensing Corporation Head related transfer functions for panned stereo audio content
EP1938655A4 (en) * 2005-10-20 2009-04-22 Personal Audio Pty Ltd SPACE AUDIO SIMULATION
ES2359752T3 (es) * 2006-09-25 2011-05-26 Dolby Laboratories Licensing Corporation Resolución espacial mejorada del campo sonoro para sistemas de reproducción de audio multicanal mediante derivación de señales con términos angulares de orden superior.
US20080298610A1 (en) * 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
ITMI20071133A1 (it) 2007-06-04 2008-12-05 No El Srl Metodo e apparecchiatura per la corrugazione e 'avvolgimento di bobine di film plastico

Also Published As

Publication number Publication date
US10490200B2 (en) 2019-11-26
GB2467534A (en) 2010-08-11
WO2010089357A4 (en) 2011-02-03
US9078076B2 (en) 2015-07-07
GB0901722D0 (en) 2009-03-11
CN104349267A (zh) 2015-02-11
US20150262586A1 (en) 2015-09-17
US20120014527A1 (en) 2012-01-19
WO2010089357A2 (en) 2010-08-12
CN102318372A (zh) 2012-01-11
GB201104237D0 (en) 2011-04-27
GB201104233D0 (en) 2011-04-27
WO2010089357A3 (en) 2010-11-11
GB2476747A (en) 2011-07-06
EP2394445A2 (en) 2011-12-14
GB2478834B (en) 2012-03-07
US20170358308A1 (en) 2017-12-14
GB2467534B (en) 2014-12-24
GB2476747B (en) 2011-12-21
US9773506B2 (en) 2017-09-26
GB2478834A (en) 2011-09-21

Similar Documents

Publication Publication Date Title
CN104349267B (zh) 声音***
US10231073B2 (en) Ambisonic audio rendering with depth decoding
EP2285139B1 (en) Device and method for converting spatial audio signal
JP4364326B2 (ja) 複数の聴取者用3次元音響再生装置及びその方法
CN101112120A (zh) 处理多声道音频输入信号以从其中产生至少两个声道输出信号的装置和方法、以及包括执行该方法的可执行代码的计算机可读介质
CN106797524B (zh) 用于渲染声学信号的方法和装置及计算机可读记录介质
CN1860826A (zh) 再现宽立体声的设备和方法
Farina et al. Ambiophonic principles for the recording and reproduction of surround sound for music
CN101946526A (zh) 立体声扩展
KR20080060640A (ko) 개인 청각 특성을 고려한 2채널 입체 음향 재생 방법 및장치
JP2019512952A (ja) 音響再生システム
US20190394596A1 (en) Transaural synthesis method for sound spatialization
CN106954139A (zh) 一种联合耳机和扬声器的声场渲染方法及***
JP2006033847A (ja) 最適な仮想音源を提供する音響再生装置及び音響再生方法
CN107734445A (zh) 立体声再现方法和设备
CN109923877A (zh) 对立体声音频信号进行加权的装置和方法
CN105308989B (zh) 回放数字音频信号的声音的方法
KR20000026251A (ko) 5채널 오디오 데이터를 2채널로 변환하여 헤드폰으로 재생하는장치 및 방법
US20240056735A1 (en) Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same
Jot et al. Center-Channel Processing in Virtual 3-D Audio Reproduction over Headphones or Loudspeakers
CN114363793A (zh) 双声道音频转换为虚拟环绕5.1声道音频的***及方法
Jot et al. Loudspeaker-Based 3-D Audio System Design Using the MS Shuffler Matrix
KR20110119339A (ko) 박자 연동 음상 이동 음원파일 제작 및 그 서비스 방법
De Sena et al. Introduction to Sound Field Recording and Reproduction
Aarts Applications of DSP for sound reproduction improvement

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant