CN116868588A - 用于音频信号变换的装置和方法 - Google Patents

用于音频信号变换的装置和方法 Download PDF

Info

Publication number
CN116868588A
CN116868588A CN202180089036.XA CN202180089036A CN116868588A CN 116868588 A CN116868588 A CN 116868588A CN 202180089036 A CN202180089036 A CN 202180089036A CN 116868588 A CN116868588 A CN 116868588A
Authority
CN
China
Prior art keywords
domain
transformation
spherical harmonic
input signal
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180089036.XA
Other languages
English (en)
Inventor
尼尔斯·彼得斯
于尔根·赫勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN116868588A publication Critical patent/CN116868588A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供了用于音频信号变换的装置。装置包括确定单元(110),被配置为使用球面谐波信息确定用于在不同于球面谐波域的第一域中变换音频输入信号的变换规则。此外,装置还包括变换单元(120),被配置为使用变换规则对表示在第一域中的音频输入信号进行变换,以获得在第一域中表示的经变换的音频信号。球面谐波信息包括关于多个球面谐波的信息和/或包括在球面谐波域中表示的信息。

Description

用于音频信号变换的装置和方法
技术领域
本发明涉及用于音频信号变换的装置和方法,并且,特别地,例如涉及等效空间域中的音频信号变换。
背景技术
在混响室中辐射的声音与环境中的物体和表面相互作用,以产生反射。通过使用球形麦克风阵列,可以在房间中的固定点测量这些反射,并将入射波方向可视化。到达麦克风阵列的反射将导致麦克风球体上的声压分布。
这样的声场可以首先被变换到球面谐波域(SH域)。形象地说,可以找到空间形状的组合(见图6),它描述了球体上的给定声压分布。然后,可以在该域中执行与空间滤波或波束形成相当的波场分解,以将形状集中到入射波方向。
为了定义跨仰角β的球面谐波,可以例如采用一组正交函数。Legendre多项式在区间[-1,1]上是正交的。提供前六个多项式如下所示:
P0(x)=1
P1(x)=x
相应的曲线图如图5中所示,其中图5示出了阶数为n=5的Legendre多项式。
仰角在[0,π]之间定义。因此,所有正交关系都必须转移到单位球体上。相关的Legendre多项式Ln(cosβ)可以如下使用:
考虑球面坐标系下声压函数P(r,β,α,k),其中β和α为仰角和方位角,r为半径,k为波数(k=ω/c)。假设P(r,β,α,k)在两个角上都是平方可积的,它可以在球面谐波域中表示。
如下所示,球面谐波由相关的Legendre多项式指数项e+jmα和归一化项组成。Legendre多项式负责跨仰角β的形状,并且指数项负责方位角形状。
图6示出了高达n=4阶的球面谐波及其从-m到m的对应模式。每个阶由2m+1个模式组成。球面谐波的符号是正601或负602。
球面谐波是拉普拉斯算子在球面上的角分量的一组完整的正交特征函数,用于描述波动方程。
等效空间域(ESD)是Ambisonics音频信号的三维空间表示。ESD表示基于球体的等距采样(参见[2]),并且由(N+1)2个采样方向θ组成,其中N为Ambisonics阶。
根据3GPP规范(参见[1],4.1.1.2章),通过将Ambisonics声场表示渲染为K个虚拟扬声器信号(即将Ambisonics声场从球面谐波域转换到等效空间域),可以获得Nth阶Ambisonics声场表示的等效空间域表示,其中,相应K个虚拟扬声器位置位于单位球体上,并且可以使用球坐标系表示。用于将Ambisonics声场从球面谐波域(Ambisonics域)转换到等效空间域,并且反之亦然的转换规则也在[1]的4.1.1.2章中给出。
ESD表示被定义和使用,例如,作为高阶Ambisonics内容类型的MPEG-H解码器输出接口的的信号域(见[3],第17.10条)以及3GPP规范(见[1])。
现有技术中已经提供了球面谐波域中的空间变换,例如,参见Kronlachner,[4]。在Kronlachner的第3章中,给出了球面谐波域中的Ambisonics记录的变换。例如第3.1章和第3.2章。在那里,例如,通过方向相关增益进行加权、应用角度变换和旋转已经被广泛描述。作为绕z轴旋转(偏航旋转)的示例,Kronlachner在其等式3.12中提供了球面谐波旋转矩阵(即球面谐波域中的变换矩阵)。Kronlachner[4]的第3章的其他子章节3.3(方向性响度修正)、3.4(翘曲)、3.5和3.6也提供了球面谐波域中的多个其他变换示例。
然而,以前没有提供在特定域内的音频信号的变换,例如,在等效空间域内。
发明内容
本发明的目的是为声场变换提供改进的概念。本发明的目标通过根据权利要求1的装置、根据权利要求20的装置、根据权利要求23的装置、根据权利要求29的解码器、根据权利要求30的方法、根据权利要求31的方法、根据权利要求32的方法和根据权利要求33的计算机程序来解决。
提供了用于音频信号变换的装置。装置包括确定单元,确定单元被配置为使用球面谐波信息确定用于在不同于球面谐波域的第一域中变换音频输入信号的变换规则。此外,装置还包括变换单元,变换单元被配置为使用变换规则对在第一域中表示的音频输入信号进行变换,以获得在第一域中表示的经变换的音频信号。球面谐波信息包括关于多个球面谐波的信息和/或包括在球面谐波域中表示的信息。
此外,还提供了用于音频信号变换的另一种装置。装置包括第一转换单元,第一转换单元被配置为将音频输入信号从第一域转换到球面谐波域,其中第一域不同于球面谐波域。此外,装置包括变换单元,变换单元被配置为根据球面谐波域中的变换规则变换在球面谐波域中表示的音频输入信号,以获得在球面谐波域中表示的经变换的音频信号。此外,装置还包括第二转换单元,用于将经变换的音频信号从球面谐波域转换到第一域。
此外,还提供了用于音频信号变换的另一种装置。装置包括被配置为将音频输入信号从第一域转换到等效空间域的第一转换单元,其中第一域不同于等效空间域。此外,装置包括被配置为根据等效空间域中的变换规则变换在等效空间域中表示的音频输入信号,以获得在等效空间域中表示的经变换的音频信号。此外,装置包括第二转换单元,用于将经变换的音频信号从等效空间域转换到第一域。
此外,还提供了用于音频信号变换的方法。方法包括:
-使用球面谐波信息,确定用于在不同于球面谐波域的第一域中变换音频输入信号的变换规则。以及:
-使用变换规则对在第一域中表示的音频输入信号进行变换,以获得在第一域中表示的经变换的音频信号。
球面谐波信息包括关于多个球面谐波的信息和/或包括在球面谐波域中表示的信息。
此外,还提供了另一种用于音频信号变换的方法。方法包括:
-将音频输入信号从第一域转换到球面谐波域,其中第一域与球面谐波域不同。
-根据球面谐波域中的变换规则对在球面谐波域中表示的音频输入信号进行变换,以获得在球面谐波域中表示的经变换的音频信号。以及:
-将经变换的音频信号从球面谐波域变换到第一域。
此外,还提供了另一种用于音频信号变换的方法。方法包括:
-将音频输入信号从第一域转换到等效空间域,其中第一域不同于等效空间域。
-根据等效空间域中的变换规则对在等效空间域中表示的音频输入信号进行变换,以获得在等效空间域中表示的经变换的音频信号。以及:
-将经变换的音频信号从等效空间域转换到第一域。
此外,提供了当在计算机或信号处理器上执行时用于实现上述方法之一的计算机程序。
一些实施例介绍并提供等效空间域中用于音频信号的信号处理工作流。
根据一些实施例,提供了等效空间域中音频信号的信号处理和/或变换。
在一些实施例中,实现了防止ESD信号的转换以执行信号操作和/或变换。
一些实施例提供等效空间域中变换矩阵的插值。
附图说明
在下文中,参考附图更详细地描述了本发明的实施例,其中:
图1示出了根据实施例的用于音频信号变换的装置。
图2示出了方法,其中将音频输入从等效空间域变换到球面谐波域,其中确定变换矩阵并将其应用于球面谐波域中的音频输入,并且将经变换的音频输入变换回等效空间域。
图3示出了实施例,其中将变换矩阵从球面谐波域变换到等效空间域,并且其中在等效空间域中进行信号变换。
图4示出了在等效空间域中进行矩阵计算和信号处理的实施例,其中复杂性和存储器要求进一步降低。
图5示出了高达n=5阶的Legendre多项式。
图6示出了高达n=4阶的球面谐波及其相应的模式。
图7示出了根据进一步实施例的用于音频信号变换的装置。
图8示出了根据另一个实施例的用于音频信号变换的装置。
具体实施方式
下面提供了本发明的具体实施例。
为了解决以前没有提供某些特定域中音频信号的变换的问题,图7提供了实施例,该实施例使用球面谐波域中已知的信号变换概念解决了该问题。
根据图7,提供了根据实施例进行音频信号变换的装置。
装置包括第一转换单元710,其被配置为将音频输入信号从第一域转换到球面谐波域,其中第一域不同于球面谐波域。
此外,装置包括变换单元720,变换单元720被配置为根据球面谐波域中的变换规则变换在球面谐波域中表示的音频输入信号,以获得在球面谐波域中表示的经变换的音频信号。
此外,图7所示的装置包括第二转换单元730,用于将经变换的音频信号从球面谐波域转换到第一域。
例如,球面谐波域特别适合于进行变换,例如,进行声场的空间旋转。
根据实施例,第一域可以,例如,是空间域,其可以,例如,不同于球面谐波域。在特定实施例中,第一域可以,例如,是等效空间域。
在实施例中,变换规则可以例如包括变换信息,其中变换信息包括用于变换在第一域中表示的音频输入信号以获得经变换的音频信号的一个或多个变换矩阵和/或多个变换向量和/或多个系数。
根据图8,提供了根据进一步实施例的用于音频信号变换的装置。
图8的装置包括第一转换单元810,其被配置为将音频输入信号从第一域转换到等效空间域,其中第一域不同于等效空间域;
此外,装置包括变换单元820,变换单元820被配置为根据等效空间域中的变换规则变换在等效空间域中表示的音频输入信号,以获得在等效空间域中表示的经变换的音频信号。
此外,图8的装置包括第二转换单元830,用于将经变换的音频信号从等效空间域转换到第一域。
例如,等效空间域特别适合于进行仅与空间环境的特定空间区域相关的变换。例如,如果干扰噪声源特别地影响空间环境的特定空间区域,则等效空间域特别适合于消除或至少衰减该特定空间区域中的此类干扰噪声源。
根据实施例,变换规则可以,例如,被配置为实现音频输入信号的空间旋转。变换单元720;820例如可以被配置为通过对音频输入信号进行空间旋转来使用变换规则对音频输入信号进行变换。
在实施例中,装置可以,例如,被配置为接收变换输入。变换单元720;820可以,例如,被配置为根据变换输入变换音频输入信号。
根据实施例,变换单元720;820可以,例如,被配置为通过在第一变换矩阵和另外的变换矩阵之间进行插值来确定插值变换矩阵。
在实施例中,装置可以,例如,被配置为对在第一域中表示的经变换的音频信号执行双耳化处理,以获得双耳输出。
为了解决以前没有描述等效空间域中音频信号的空间变换的问题,根据实施例,方法是:
第一步:将ESD信号从等效空间域转换到球面谐波域。
第二步:应用变换过程(例如,声场旋转)。特殊的(非限制的)示例是变换矩阵TSH与(音频)信号向量的乘法。
第三步:将SH域信号的经变换的(音频)信号向量从球面谐波域转换回等效空间域。
不局限于“等效”的任意域的广义实施例
本实施例的优点是实现了所期望的目的。然而,上述实施例也有缺点,因为在第一步和第三步中音频信号的转换是昂贵的。避免需要将音频信号从等效空间域转换到球面谐波域,反之亦然,将更有效。
下面提出的其他实施例避免了上述实施例的这一缺点。
图1示出了根据另一实施例的用于音频信号变换的装置,该实施例避免了图7的实施例的缺点。
提供了用于音频信号变换的装置。
图1的装置包括确定单元110,其被配置为使用球面谐波信息确定用于在不同于球面谐波域的第一域中变换音频输入信号的变换规则。
此外,图1的装置包括变换单元120,变换单元120被配置为使用变换规则对在第一域中表示的音频输入信号进行变换,以获得在第一域中表示的经变换的音频信号。
球面谐波信息包括关于多个球面谐波的信息和/或包括在球面谐波域中表示的信息。
根据实施例,音频输入信号和经变换的音频信号可以,例如,在第一域中表示,第一域是空间域,可以例如不同于球面谐波域。在特定实施例中,第一域可以,例如,是等效空间域。
在实施例中,变换规则可以,例如,包括变换信息,其中变换信息包括用于变换在第一域中表示的音频输入信号以获得在第一域中表示的经变换的音频信号的一个或多个变换矩阵和/或多个变换向量和/或多个系数,变换信息取决于多个球面谐波。
根据实施例,变换信息取决于用于在球面谐波域中变换音频内容的变换信息。
在实施例中,用于在球面谐波域中变换音频内容的变换信息包括用于在球面谐波域中变换音频内容的一个或多个变换矩阵和/或多个变换向量和/或多个系数。
根据实施例,确定单元110可以,例如,被配置为确定变换规则,使得变换规则可以,例如,被配置为实现第一域中音频输入信号的空间旋转。变换单元120可以,例如,被配置为通过对第一域中的音频输入信号进行空间旋转使用变换规则对在第一域中表示的音频输入信号进行变换,以获得在第一域中表示的经变换的音频信号。
在实施例中,确定单元110可以,例如,被配置为通过确定球面谐波域中的旋转矩阵或多个旋转向量或旋转矩阵的多个系数,以及通过将多个旋转向量或旋转矩阵或旋转矩阵的多个系数从球面谐波域转换到第一域来确定变换规则。
根据实施例,确定单元110可以,例如,被配置为通过直接在第一域中确定旋转矩阵或多个旋转向量或旋转矩阵的多个系数而不将旋转信息从球面谐波域转换到第一域,来确定变换规则。
在实施例中,旋转矩阵或多个旋转向量或多个系数可以,例如,定义沿一个或多个旋转轴的旋转。
在实施例中,确定单元110可以,例如,被配置为变换多个空间方向以获得第一域的多个变换方向。例如,确定单元110可以被配置为确定变换规则,使得变换规则取决于多个变换方向的多个球面谐波的信息。
根据实施例,确定单元110被配置为根据被如下定义的变换矩阵TESD确定变换规则:
TESD=Y-1(θ)·Y(M(θ)),
其中θ表示第一域的多个方向,其中Y-1(θ)表示Y(θ)的逆,其中Y(θ)表示第一域的多个方向θ的多个球面谐波,以及其中M(θ)表示声场的修正。
例如,在实施例中,修正矩阵M(θ)可以,例如,被定义为
M(θ)=R(Φ,θ,ψ)·θ,
其中θ表示第一域的多个方向,并且其中R(Φ,θ,ψ)表示具有旋转角(Φ,θ,ψ)的旋转,其中(Φ,θ,ψ)表示偏航角,其中θ表示俯仰角,其中ψ表示翻滚角,其中Φ,θ,ψ中的至少一个不同于0°,并且其中Φ,θ,ψ中的任何其他一个也不同于0°或等于0°。换句话说,旋转是沿着一个或多个旋转轴进行的。
在另一个实施例中,确定单元110可以例如被配置为根据被如下定义的变换矩阵TESD确定变换规则:
TESD=Y-1(θ)·Y(M(η))·Y-1(η)·Y(θ)
其中θ表示第一域的第一多个方向,其中,Y(θ)表示第一域的第一多个方向θ的多个球面谐波,其中Y-1(θ)表示Y(θ)的逆,其中M(η)表示声场的修正,其中η表示第二多个方向,以及其中Y-1(η)表示Y(η)的逆,其中Y(η)表示第二多个方向η的多个球面谐波。
例如,在实施例中,修正矩阵M(η)可以例如被定义为
M(η)=R(Φ,θ,ψ)·η,
其中R(Φ,θ,ψ)表示具有旋转角(Φ,θ,ψ)的旋转,其中Φ表示偏航角,其中θ表示俯仰角,并且其中ψ表示翻滚角,并且其中η表示将通过旋转R(Φ,θ,ψ)被旋转的一个或多个方向,其中Φ,θ,ψ中的至少一个不同于0°,并且其中Φ,θ,ψ中的任何其他一个也不同于0°或等于0°。换句话说,旋转是沿着一个或多个旋转轴进行的。
根据实施例,装置可以,例如,被配置为接收转变换输入。确定单元110可以,例如,被配置为根据变换输入确定用于变换第一域中的音频输入信号的变换规则。
在实施例中,变换规则包括第一变换矩阵。确定单元110可以,例如,被配置为确定包括另外的变换矩阵的另外的变换规则。确定单元110可以,例如,被配置为通过在第一变换矩阵和另外的变换矩阵之间进行插值来确定插值变换矩阵。
根据实施例,装置可以,例如,被配置为对在第一域中表示的经变换的音频信号执行双耳化处理,以获得双耳输出。
图3示出了实施例,其中将变换矩阵从SH域变换到等效空间域,并且其中在等效空间域中进行信号变换。
特别地,图3描绘了改进的信号流。在这里,通过在等效空间域中执行声场变换处理来避免音频信号的转换。
在图3的特定实施例中,在第一步中进行变换矩阵从SH域到等效空间域的转换。
在进一步的步骤中,在等效空间域中进行信号变换,包括但不限于变换矩阵与ESD信号向量的乘法。例如,可以执行声场旋转。
这种实施例的优点是,仅在计算新的变换矩阵时才需要变换矩阵的转换,例如,每音频帧一次。
对于矩阵计算,一般来说,球面谐波域中的变换矩阵TSH可以,例如,通过以下方式转换到等效空间域:
TESD=Y-1(θ)·TSH·Y(θ), (1)
其中,θ表示用于描述ESD信号的(N+1)2个方向,以及Y(θ)表示用于这些(N+1)2个方向的高达N阶的球面谐波。
TESD表示等效空间域中的变换矩阵。TESD表示等效空间域中的变换规则。
在一些实施例中,变换矩阵TESD可以,例如,是常数矩阵,或者可以,例如,至少与时间t无关。在其他实施例中,变换矩阵TESD可以,例如,是时变的/可以,例如,取决于时间t:TESD=TESD(t)。符号TESD应指所有这些实施例,即其中TESD是静态的实施例,或者其中TESD至少不取决于时间t的实施例,以及其中TESD取决于时间,即其中TESD=TESD(t)的情况。
这同样适用于变换矩阵TSH:在一些实施例中,变换矩阵TSH可以,例如,是常数矩阵,或者可以,例如,至少与时间t无关。在其他实施例中,变换矩阵TSH可以,例如,是时变的/可以,例如,取决于时间t:TSH=TSH(t)。符号TSH应指所有这些实施例,即其中TSH是静态的实施例,或其中TSH至少不取决于时间t的实施例,以及其中TSH取决于时间的情况,即其中TSH=TSH(t)。
Y(θ)和Y-1(θ)表示球面谐波信息,其指示关于多个球面谐波的信息。TSH表示球面谐波信息,其指示在球面谐波域中表示的信息。
对于声场旋转,变换矩阵TSH可以被计算为
其中η表示L≥(N+1)2个空间方向,以及Y(η)表示用于这些L个方向的高达N阶的球面谐波。方向可以基于所需的旋转角度经由以下计算:
其中
其中(Φ,θ,ψ)是围绕x轴(Φ,翻滚),y轴(θ,俯仰)和z轴(ψ,偏航)的旋转角度。
结合等式1、2和3得到
TESD=Y-1(θ)·Y(R(Φ,θ,ψ)·η)·Y-1(η)·Y(θ), (5)
在等式(2)、(3)和(5)中,η表示多个空间方向。表示多个变换方向。旋转角度/>表示(例如,接收到的)变换输入。以及/>表示关于多个变换方向的多个球面谐波的信息。
由等式(5)可知,声场变换可以如下进行:
如果TESD取决于时间t,即如果TESD=TESD(t),则等式(6)也可以表示为:
在实施例中,使用等式(5)确定等效空间域中的变换矩阵。
在另一个实施例中,使用等式(1)确定等效空间域中的变换矩阵。在这样的实施例中,首先,确定球面谐波域中的变换矩阵,然后根据等式(1)将其转换到等效空间域。
使用等式(5)的实施例不需要确定球面谐波域中的变换矩阵。相反,在这样的实施例中,使用Y(θ)根据等式(5)直接计算等效空间域中的变换矩阵,如上所述,Y(θ)表示球面谐波信息,其指示关于多个球面谐波的信息。
如上所述,等效空间域中的变换矩阵表示用于在等效空间域中变换音频输入信号的变换规则。
然而,很显而易见,代替确定变换矩阵,同样显而易见地确定多个变换向量,这些变换向量包括基于上述原理的变换矩阵TESD的信息。这样的多个变换向量还构成用于在等效空间域中变换音频输入信号的变换规则的变换信息。
此外,同样显而易见的是,代替确定变换矩阵或多个变换向量,同样显而易见的是仅确定包括变换矩阵TESD的多个矩阵系数的信息的多个系数。这些系数还构成用于在等效空间域中变换音频输入信号的变换规则的变换信息。
此外,同样显而易见的是,提供的实施例不限于等效空间域,而是提供的实施例同样适用于任何其他(空间)域,特别是由多个空间音频信号分量(例如,由三个或更多个空间音频信号分量)表示音频信号的空间域。
回到等式(5),以下进一步的实施例是基于这样的发现,即如果变换矩阵直接在等效空间域中而不是在球面谐波域中计算,则计算复杂度和存储器需求可以例如进一步降低。
图4示出了具有相应信号流的实施例,其中在等效空间域中进行矩阵计算和信号处理,与图3的实施例相比,其复杂性和存储器需求降低。
对于ESD旋转矩阵的计算,例如,可以直接计算ESD信号的旋转变换矩阵TESD。当方向η等于定义等效空间域的空间方向θ时,等式(5)可表示为:
TEsD=Y-1(θ)·Y(R(Φ,θ,ψ)·θ)·Y-1(θ)·Y(θ), (7)
如上所述,Y-1(θ)和Y(θ)表示球面谐波信息,其指示关于多个球面谐波的信息。
考虑等式(7),项Y-1(θ)·Y(θ)(近似)产生单位矩阵。
因此,TESD的计算可以简化为:
TESD=Y-1(θ)·Y(R(Φ,θ,ψ)·θ), (8)
同样,如果TESD取决于时间t,即如果TESD=TESD(t),则等式(9)也可以表示为:
值得注意的是,项Y-1(θ)与期望的旋转无关。因此,在一些实施例中,例如,Y-1(θ)可以被预先计算,并且因此不会增加运行时的复杂性。
根据一些实施例,进行变换矩阵的插值。
在这样的实施例中,可以期望变换矩阵从一种状态到另一个状态的插值以避免可听伪影。为了限制计算复杂性开销,例如,可以例如通常应用有效的线性插值方法,例如,取决于
T=αT1+(1-α)T2, (10)
其中,α为插值值,其中T1为第一变换矩阵,并且其中T2为另外的变换矩阵。例如,T1可以定义为T1=Tt0,并且T2可以定义为T2=Tt1,其中Tt0表示时间r0处的变换矩阵,并且其中Tt1表示时间t1处的变换矩阵。
在一些其他实施例中,可以例如采用能量补偿的插值方案。
例如,上述实施例可以用于音频解码器/渲染器(例如,未来的MPEG-I解码器/渲染器),其中空间(例如,ESD)音频信号可以被实时旋转以执行时变双耳化。为了有效的实时实现,需要防止ESD信号的域切换。
例如,在实施例中,提供了用于解码经编码的音频信号的解码器。
解码器可以,例如,包括解码单元,用于解码经编码的音频信号以获得在第一域中表示的音频输入信号。
此外,解码器可以,例如,包括根据上述实施例之一所描述的装置,用于变换音频输入信号以获得在第一域中表示的经变换的音频信号。
在下文中,提供了本发明的进一步实施例。
根据一些实施例,提供了如上所述的用于从输入表示生成输出表示的装置、方法或计算机程序。
在其他实施例中,提供了用于从输入音频表示生成输出音频表示的装置、方法或计算机程序,其包括:
-使用输入数据生成旋转信息。
-将旋转信息转换到域,在该域中给出输入音频表示以获得转换后的旋转信息。以及:
-将转换后的旋转信息应用于输入音频表示,以获得音频输出表示。
在一些实施例中,装置、方法或计算机程序可以,例如,进一步包括对输出音频表示执行双耳化处理以获得双耳输出。
根据一些实施例,提供了用于从输入音频表示生成输出音频表示的装置、方法或计算机程序,其包括:
-在给定输入音频表示的域中使用输入数据生成旋转信息。以及:
-将旋转信息应用于输入音频表示,以获得音频输出表示。
在一些实施例中,装置、方法或计算机程序可以,例如,进一步包括对输出音频表示执行双耳化处理以获得双耳输出。
根据一些实施例,提供了用于从输入音频表示生成输出音频表示的装置、方法或计算机程序,其包括:
-将输入音频表示转换为中间域表示。
-使用输入数据生成旋转信息。
-将转换后的旋转信息应用到中间域表示,以获得经处理的中间域表示。以及:
-将中间域表示转换为输出音频表示。
在一些实施例中,装置、方法或计算机程序可以,例如,进一步包括对输出音频表示执行双耳化处理以获得双耳输出。
这里要提到的是,前面讨论的所有替代方案或方面以及以下权利要求中由独立权利要求定义的所有方面可以单独使用,即,除了所考虑的替代方案、对象或独立权利要求外,不需要任何其他替代方案或对象。然而,在其他实施例中,独立权利要求的两个或多个替代方案或方面可以相互组合,并且在其他实施例中,所有方面或替代方案和所有独立权利要求可以相互组合。
创造性地编码或处理的信号可以存储在数字存储介质或非暂时性存储介质上,或者可以在传输介质(诸如无线传输介质或诸如因特网的有线传输介质)上传输。
尽管在装置的上下文中描述了一些方面,但很明显,这些方面也代表了对相应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤上下文中描述的方面也表示对相应装置的相应块或项目或特征的描述。
根据某些实施要求,本发明的实施例可以在硬件或软件中实现。该实现可以使用数字存储介质来执行,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,其具有存储在其上的电子可读控制信号,其与可编程计算机***合作(或能够合作),从而执行相应的方法。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机***合作,从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码可用于执行方法之一。程序代码可以例如存储在机器可读的载体上。
其他实施例包括用于执行本文所述方法之一的计算机程序,该程序存储在机器可读载体或非暂时性存储介质上。
换句话说,因此,本发明方法的实施例是,当计算机程序在计算机上运行时,具有用于执行本文所述方法之一的程序代码的计算机程序。
因此,本发明方法的进一步实施例是数据载体(或数字存储介质,或计算机可读介质),包括记录在其上的用于执行本文所述方法之一的计算机程序。
因此,本发明方法的进一步实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接传送,例如经由互联网。
进一步的实施例包括处理手段,例如计算机或可编程逻辑器件,其被配置为或适应于执行本文所述的方法之一。
进一步的实施例包括在其上安装了用于执行本文所述方法之一的计算机程序的计算机。
在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可用于执行本文所述方法的部分或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器合作以执行本文所述的方法之一。通常,优选由任何硬件装置执行方法。
上述所描述的实施例仅是对本发明的原理进行说明。应当理解,本文所述的布置和细节的修正和变化对于本领域技术人员将是显而易见的。因此,其意图仅受即将到来的专利权利要求的范围的限制,而不受通过本文的实施例的描述和解释方式所提供的具体细节的限制。
参考文献
[1]3GPP.Objective test methodologies for the evaluation of immersiveaudio systems.Tech.rep.TS 26.260.3GPP,2018.
[2]Fliege and Ulrike Maier.“A two-stage approach for computingcubature formulae for the sphere”.In:Mathematik 139T,/>Dortmund,Fachbereich Mathematik,/>Dortmund,44221,Citeseer,1996.
[3]ISO/IEC 23008-3:2019Information technology–High efficiency codingand media delivery in heterogeneous environments–Part 3:3Daudio.Tech.rep.ISO/IEC,2019.
[4]Matthias Kronlachner.“Spatial transformations for the alterationof ambisonic recordings”.MA thesis.Graz University of Technology,2014.

Claims (33)

1.一种用于音频信号变换的装置,包括:
确定单元(110),被配置为使用球面谐波信息确定用于在不同于球面谐波域的第一域中变换音频输入信号的变换规则,以及
变换单元(120),被配置为使用变换规则对在第一域中表示的音频输入信号进行变换,以获得在第一域中表示的经变换的音频信号,
其中,球面谐波信息包括关于多个球面谐波的信息和/或包括在球面谐波域中表示的信息。
2.根据权利要求1所述的装置,
其中音频输入信号和经变换的音频信号在第一域中表示,第一域是不同于球面谐波域的空间域。
3.根据权利要求1或2所述的装置,
其中,第一域为等效空间域。
4.根据上述权利要求中任一项所述的装置,
其中,变换规则包括变换信息,其中变换信息包括用于变换在第一域中表示的音频输入信号以获得在第一域中表示的经变换的音频信号的一个或多个变换矩阵和/或多个变换向量和/或多个变换系数,
其中,变换信息取决于多个球面谐波。
5.根据权利要求4所述的装置,
其中,变换信息取决于在球面谐波域中变换音频内容的变换信息。
6.根据权利要求5所述的装置,
其中,用于变换球面谐波域中的音频内容的变换信息包括用于变换球面谐波域中的音频内容的一个或多个变换矩阵和/或多个变换向量和/或多个系数。
7.根据上述权利要求中任一项所述的装置,
其中,确定单元(110)被配置为确定变换规则,使得变换规则被配置为实现第一域中的音频输入信号的空间旋转,以及
其中,变换单元(120)被配置为使用变换规则,通过对第一域中的音频输入信号进行空间旋转,对在第一域中表示的音频输入信号进行变换,以获得在第一域中表示的经变换的音频信号。
8.根据权利要求7所述的装置,
其中,确定单元(110)被配置为通过确定球面谐波域中的旋转矩阵或多个旋转向量或旋转矩阵的多个系数,并通过将旋转矩阵或多个旋转向量或旋转矩阵的多个系数从球面谐波域转换到第一域来确定变换规则。
9.根据权利要求7所述的装置,
其中,确定单元(110)被配置为通过直接在第一域中确定旋转矩阵或多个旋转向量或旋转矩阵的多个系数而不将旋转信息从球面谐波域转换到第一域来确定变换规则。
10.根据上述权利要求中任一项所述的装置,
其中,确定单元(110)被配置为对多个空间方向进行变换以获得第一域的多个变换方向,以及
其中,确定单元(110)被配置为确定变换规则,使得变换规则取决于关于多个变换方向的多个球面谐波的信息。
11.根据权利要求10所述的装置,
其中,确定单元(110)被配置为确定变换规则,使得变换规则实现旋转并取决于关于多个变换方向的多个球面谐波的信息信息/>被定义为:
其中η表示多个空间方向,
其中表示多个变换方向,
其中R(Φ,θ,ψ)表示具有旋转角(Φ,θ,ψ)的旋转,其中Φ表示偏航角,其中θ表示俯仰角,并且其中ψ表示翻滚角,其中Φ,θ,ψ中的至少一个不同于0°,并且其中Φ,θ,ψ中的任何其他一个也不同于0°或等于0°。
12.根据上述权利要求中任一项所述的装置,
其中,确定单元(110)被配置为根据被如下定义的变换矩阵TESD确定变换规则:
TESD=Y-1(θ)·TSH·Y(θ),
其中TSH表示球面谐波域中的变换矩阵,
其中θ表示第一域的多个方向,
其中,Y(θ)表示第一域的多个方向θ的多个球面谐波,以及
其中Y-1(θ)表示Y(θ)的逆。
13.根据上述权利要求中任一项所述的装置,
其中,确定单元(110)被配置为根据被如下定义的变换矩阵TESD确定变换规则:
TESD=Y-1(θ)·Y(M(θ)),
其中θ表示第一域的多个方向,
其中Y-1(θ)表示Y(θ)的逆,其中Y(θ)表示第一域的多个方向θ的多个球面谐波,以及
其中M(θ)表示声场的修正。
14.根据权利要求1至12中任一项所述的装置,
其中,确定单元(110)被配置为根据被如下定义的变换矩阵TESD确定变换规则:
TESD=Y-1(θ)·Y(R(Φ,θ,ψ)·θ),
其中θ表示第一域的多个方向,
其中Y-1(θ)表示Y(θ)的逆,其中Y(θ)表示第一域的多个方向θ的多个球面谐波,以及
其中R(Φ,θ,ψ)表示具有旋转角(Φ,θ,ψ)的旋转,其中Φ表示偏航角,其中θ表示俯仰角,并且其中ψ表示翻滚角,其中Φ,θ,ψi中的至少一个不同于0°,并且其中Φ,θ,ψ中的任何其他一个也不同于0°或等于0°。
15.根据权利要求1至12中任一项所述的装置,
其中,确定单元(110)被配置为根据被如下定义的变换矩阵TESD确定变换规则:
TESD=Y-1(θ)·Y(M(η))·Y-1(η)·Y(θ)
其中θ表示第一域的第一多个方向,
其中,Y(θ)表示第一域的第一多个方向θ的多个球面谐波,
其中Y-1(θ)表示Y(θ)的逆,
其中M(η)表示声场的修正,
其中η表示第二多个方向,以及
其中Y-1(η)表示Y(η)的逆,其中Y(η)表示第二多个方向η的多个球面谐波。
16.根据权利要求1至12中任一项所述的装置,
其中,确定单元(110)被配置为根据被如下定义的变换矩阵TESD确定变换规则:
TESD=Y-1(θ)·Y(R(Φ,θ,ψ)·η)·Y-1(η)·Y(θ)
其中θ表示第一域的多个方向,
其中,Y(θ)表示第一域的多个方向θ的多个球面谐波,
其中Y-1(θ)表示Y(θ)的逆,
其中R(Φ,θ,ψ)表示具有旋转角R(Φ,θ,ψ)的旋转,其中Φ表示偏航角,其中θ表示俯仰角,并且其中ψ表示翻滚角,其中Φ,θ,ψ中的至少一个不同于0°,并且其中Φ,θ,ψ中的任何其他一个也不同于0°或等于0°,
其中η表示将通过旋转R(Φ,θ,ψ)被旋转的多个方向,以及
其中Y-1(η)表示Y(η)的逆,其中Y(η)表示多个方向η的多个球面谐波。
17.根据上述权利要求中任一项所述的装置,
其中,装置被配置为接收变换输入,
其中,确定单元(110)被配置为根据变换输入确定用于变换第一域中的音频输入信号的变换规则。
18.根据上述权利要求中任一项所述的装置,
其中,变换规则包括第一变换矩阵,
其中,确定单元(110)被配置为确定包括另外的变换矩阵的另外的变换规则,以及
其中,确定单元(110)被配置为通过在第一变换矩阵和另外的变换矩阵之间插值来确定插值变换矩阵。
19.根据上述权利要求中任一项所述的装置,
其中,装置被配置为对在第一域中表示的经变换的音频信号执行双耳化处理,以获得双耳输出。
20.一种用于音频信号变换的装置,包括:
第一转换单元(710)被配置为将音频输入信号从第一域转换到球面谐波域,其中第一域不同于球面谐波域,
变换单元(720)被配置为根据球面谐波域中的变换规则变换在球面谐波域中表示的音频输入信号,以获得在球面谐波域中表示的经变换的音频信号,以及
第二转换单元(730),用于将经变换的音频信号从球面谐波域转换到第一域。
21.根据权利要求20所述的装置,
其中第一域是不同于球面谐波域的空间域。
22.根据权利要求20或21所述的装置,
其中,第一域为等效空间域。
23.一种用于音频信号变换的装置,包括:
第一转换单元(810),被配置为将音频输入信号从第一域转换到等效空间域,其中第一域不同于等效空间域;
变换单元(820),被配置为根据等效空间域中的变换规则变换在等效空间域中表示的音频输入信号,以获得在等效空间域中表示的经变换的音频信号,以及
第二转换单元(830),用于将经变换的音频信号从等效空间域转换到第一域。
24.根据权利要求20至23中任一项所述的装置,
其中,变换规则包括变换信息,其中变换信息包括用于变换在第一域中表示的音频输入信号以获得经变换的音频信号的一个或多个变换矩阵和/或多个变换向量和/或多个系数。
25.根据权利要求20至24中任一项所述的装置,
其中,变换规则被配置为实现音频输入信号的空间旋转,以及
其中,变换单元(720;820)被配置为使用变换规则通过对音频输入信号进行空间旋转来变换音频输入信号。
26.根据权利要求20至25中任一项所述的装置,
其中,装置被配置为接收变换输入,
其中,变换单元(720;820)被配置为根据变换输入变换音频输入信号。
27.根据权利要求20至26中任一项所述的装置,
其中,变换单元(720;820)被配置为通过在第一变换矩阵和另外的变换矩阵之间插值来确定插值变换矩阵。
28.根据权利要求20至27中任一项所述的装置,
其中,装置被配置为对在第一域中表示的经变换的音频信号执行双耳化处理,以获得双耳输出。
29.一种用于解码经编码的音频信号的解码器,其中解码器包括:
解码单元,用于解码经编码的音频信号以获得在第一域中表示的音频输入信号,以及
根据上述权利要求中任一项所述的装置,用于变换音频输入信号以获得在第一域中表示的经变换的音频信号。
30.一种用于音频信号变换的方法,包括:
使用球面谐波信息确定用于变换在不同于球面谐波域的第一域中的音频输入信号的变换规则,以及
使用变换规则对在第一域中表示的音频输入信号进行变换,以获得在第一域中表示的经变换的音频信号,
其中,球面谐波信息包括关于多个球面谐波的信息和/或包括在球面谐波域中表示的信息。
31.一种用于音频信号变换的方法,包括:
将音频输入信号从第一域转换到球面谐波域,其中第一域不同于球面谐波域,
根据球面谐波域中的变换规则对在球面谐波域中表示的音频输入信号进行变换,以获得在球面谐波域中表示的经变换的音频信号,以及
将经变换的音频信号从球面谐波域转换到第一域。
32.一种用于音频信号变换的方法,包括:
将音频输入信号从第一域转换到等效空间域,其中第一域不同于等效空间域,
根据等效空间域中的变换规则对在等效空间域中表示的音频输入信号进行变换,以获得在等效空间域中表示的经变换的音频信号,以及
将经变换的音频信号从等效空间域转换到第一域。
33.一种计算机程序,用于当在计算机或信号处理器上执行时,实现如权利要求30至32中任一项所述的方法。
CN202180089036.XA 2020-11-03 2021-10-28 用于音频信号变换的装置和方法 Pending CN116868588A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20205520 2020-11-03
EP20205520.8 2020-11-03
PCT/EP2021/080059 WO2022096376A2 (en) 2020-11-03 2021-10-28 Apparatus and method for audio signal transformation

Publications (1)

Publication Number Publication Date
CN116868588A true CN116868588A (zh) 2023-10-10

Family

ID=73401298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180089036.XA Pending CN116868588A (zh) 2020-11-03 2021-10-28 用于音频信号变换的装置和方法

Country Status (4)

Country Link
US (1) US20230274749A1 (zh)
EP (1) EP4241464A2 (zh)
CN (1) CN116868588A (zh)
WO (1) WO2022096376A2 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230137492A (ko) * 2012-07-19 2023-10-04 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
JP5734329B2 (ja) * 2013-02-28 2015-06-17 日本電信電話株式会社 音場収音再生装置、方法及びプログラム
US9959875B2 (en) * 2013-03-01 2018-05-01 Qualcomm Incorporated Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams

Also Published As

Publication number Publication date
US20230274749A1 (en) 2023-08-31
EP4241464A2 (en) 2023-09-13
WO2022096376A3 (en) 2022-08-11
WO2022096376A2 (en) 2022-05-12

Similar Documents

Publication Publication Date Title
EP2727109B1 (en) Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
JP7220749B2 (ja) オーディオ再生のためのオーディオ音場表現のデコードのための方法および装置
US10674301B2 (en) Fast and memory efficient encoding of sound objects using spherical harmonic symmetries
CN109616130B (zh) 对声场的高阶立体混响表示进行压缩和解压缩的方法和设备
TWI590230B (zh) 從三維度空間性高階保真立體音響聲頻訊號解碼立體聲擴音器訊號之方法及裝置,以及所用解碼矩陣之決定方法
JP7378575B2 (ja) 空間変換領域における音場表現を処理するための装置、方法、またはコンピュータプログラム
US20120207310A1 (en) Multi-Way Analysis for Audio Processing
KR20200096508A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
CN116868588A (zh) 用于音频信号变换的装置和方法
WO2018066376A1 (ja) 信号処理装置および方法、並びにプログラム
RU2793625C1 (ru) Устройство, способ или компьютерная программа для обработки представления звукового поля в области пространственного преобразования
Rafaely et al. Spherical array beamforming
AU2016204408B2 (en) Method and device for decoding an audio soundfield representation for audio playback
Ahrens et al. Analysis of Near-Field Effects of Wave Field Synthesis using Linear Loudspeaker Arrays

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination