CN117678014A - 使用全通滤波器网络的仰角感知线索的无色生成 - Google Patents
使用全通滤波器网络的仰角感知线索的无色生成 Download PDFInfo
- Publication number
- CN117678014A CN117678014A CN202280047861.8A CN202280047861A CN117678014A CN 117678014 A CN117678014 A CN 117678014A CN 202280047861 A CN202280047861 A CN 202280047861A CN 117678014 A CN117678014 A CN 117678014A
- Authority
- CN
- China
- Prior art keywords
- component
- channel
- generate
- processors
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 113
- 230000004044 response Effects 0.000 claims abstract description 107
- 238000012546 transfer Methods 0.000 claims abstract description 32
- 230000001419 dependent effect Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 213
- 230000003595 spectral effect Effects 0.000 claims description 73
- 230000005236 sound signal Effects 0.000 claims description 60
- 230000008569 process Effects 0.000 abstract description 64
- 230000006870 function Effects 0.000 abstract description 40
- 238000004040 coloring Methods 0.000 abstract description 10
- 230000010363 phase shift Effects 0.000 abstract description 7
- 230000008447 perception Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 41
- 238000001914 filtration Methods 0.000 description 32
- 230000000694 effects Effects 0.000 description 19
- 238000004088 simulation Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 11
- 238000009877 rendering Methods 0.000 description 10
- 238000007792 addition Methods 0.000 description 9
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 230000001934 delay Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000004091 panning Methods 0.000 description 6
- 230000003321 amplification Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000003199 nucleic acid amplification method Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 241001342895 Chorus Species 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000003447 ipsilateral effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000007688 edging Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Landscapes
- Stereophonic System (AREA)
Abstract
一种***包括一个或多个计算设备,其将空间感知线索编码到单声道通道中以生成多个输出通道。计算设备确定多个输出通道的中间通道和侧通道的目标幅度响应,从而定义与一个或多个频率相关相移相关联的空间感知。计算设备基于目标幅度响应来确定单输入多输出全通滤波器的传递函数,并基于该传递函数来确定全通滤波器的系数,并且利用全通滤波器的系数来处理单声道通道以生成具有已编码空间感知线索的多个通道。全通滤波器被配置为相对于各个输出通道而言是无色的,从而允许将空间线索放置到音频流中以与音频的整体着色分离。
Description
技术领域
本公开一般涉及音频处理,并且更具体地涉及将空间线索编码到音频内容中。
背景技术
音频内容可以被编码为包括声场的空间属性,从而允许用户感知声场中的空间感。例如,特定声源(例如,诸如语音或乐器)的音频可以以创建与音频相关联的空间感(诸如音频从特定的到达方向到达用户或位于特定类型的位置(例如,小房间、大礼堂等)的感知)的方式被混合到音频内容中。
发明内容
一些实施例包括一种用于将沿矢状面的空间线索编码到单声道信号中以生成多个结果通道的方法。该方法包括,由处理电路,基于与频率相关的相移相关联的空间线索来确定多个结果通道的中间分量或侧分量的目标幅度响应;将中间分量或侧分量的目标幅度响应转换成单输入多输出全通滤波器的传递函数;以及使用全通滤波器来处理单声道信号,其中全通滤波器基于传递函数被配置。
一些实施例包括一种用于从单声道通道生成多个通道的***,其中多个通道利用一个或多个空间线索进行编码。该***包括一个或多个计算设备,其被配置为基于与频率相关的相移相关联的空间线索来确定多个通道的中间分量或侧分量的目标幅度响应。该一个或多个计算机还被配置为将中间分量或侧分量的目标幅度响应转换成单输入多输出全通滤波器的传递函数,并使用全通滤波器来处理单声道信号,其中全通滤波器根据传递函数被配置。
一些实施例包括一种非暂态计算机可读介质,其包括存储的指令以用于从单声道通道生成多个通道,其中多个通道利用一个或多个空间线索进行编码,该指令在由至少一个处理器执行时将该至少一个处理器配置为:基于与频率相关的相移相关联的空间线索来确定多个结果通道的中间分量或侧分量的目标幅度响应;将中间分量或侧分量的目标幅度响应转换成单输入多输出全通滤波器的传递函数;以及使用全通滤波器来处理单声道信号,其中全通滤波器基于传递函数被配置。
一些实施例涉及使用一系列希尔伯特变换来空间移位音频内容的一部分(例如,语音)。一些实施例包括一个或多个处理器和非暂态计算机可读介质。该计算机可读介质包括存储的程序代码,该程序代码在由一个或多个处理器执行时将该一个或多个处理器配置为:将音频通道分离成低频分量和高频分量;向高频分量应用第一希尔伯特变换以生成第一左分支(left leg)分量和第一右分支(right leg)分量,第一左分支分量相对于第一右分支分量异相90度;向第一右分支分量应用第二希尔伯特变换以生成第二左分支分量和第二右分支分量,第二左分支分量相对于第二右分支分量异相90度;将第一左分支分量与低频分量组合以生成左通道;以及将第二右分支分量与低频分量组合以生成右通道。
一些实施例包括包含存储的程序代码的非暂态计算机可读介质。该程序代码在由一个或多个处理器执行时将该一个或多个处理器配置为:将音频通道分离成低频分量和高频分量;向高频分量应用第一希尔伯特变换以生成第一左分支分量和第一右分支分量,第一左分支分量相对于第一右分支分量异相90度;向第一右分支分量应用第二希尔伯特变换以生成第二左分支分量和第二右分支分量,第二左分支分量相对于第二右分支分量异相90度;将第一左分支分量与低频分量组合以生成左通道;以及将第二右分支分量与低频分量组合以生成右通道。
一些实施例包括一种由一个或多个处理器执行的方法。该方法包括:将音频通道分离成低频分量和高频分量;向高频分量应用第一希尔伯特变换以生成第一左分支分量和第一右分支分量,第一左分支分量相对于第一右分支分量异相90度;向第一右分支分量应用第二希尔伯特变换以生成第二左分支分量和第二右分支分量,第二左分支分量相对于第二右分支分量异相90度;将第一左分支分量与低频分量组合以生成左通道;以及将第二右分支分量与低频分量组合以生成右通道。
附图说明
图1是根据一些实施例的音频处理***的框图。
图2是根据一些实施例的计算***环境的框图。
图3图示了根据一些实施例的示出在60度仰角处测量的经采样的HRTF的图表。
图4图示了根据一些实施例的的曲线图,该曲线图示出了由与11kHz处的无限衰减的窄区域相对应的目标幅度函数所表征的感知线索的示例。
图5图示了根据一些实施例的通过用白噪声驱动具有表1中所示系数的二阶全通滤波器部分而生成的频率图。
图6是根据一个或多个实施例的使用希尔伯特变换实现的PSM模块的框图。
图7是根据一个或多个实施例的希尔伯特变换模块的框图。
图8图示了根据一些实施例的通过用白噪声来驱动图6的HPSM模块而生成的频率图,其示出了多个通道的和(中间)与多个通道的差(侧)的输出频率响应。
图9是根据一些实施例的使用FNORD滤波器网络所实现的PSM模块的框图。
图10A是根据一些实施例的PSM模块900的详细框图。
图10B是根据一些实施例的在PSM模块的全通滤波器模块内实现的宽带相位旋转器的框图。
图11图示了根据一些实施例的频率响应曲线图,其示出了被配置为实现60度垂直线索的幅度响应的FNORD滤波器网络的输出频率响应。
图12是根据一个或多个实施例的音频处理***1000的框图。
图13A是根据一个或多个实施例的正交分量生成器的框图。
图13B是根据一个或多个实施例的正交分量生成器的框图。
图13C是根据一个或多个实施例的正交分量生成器的框图。
图14A是根据一个或多个实施例的正交分量处理器模块的框图。
图14B图示了根据一个或多个实施例的正交分量处理器模块的框图。
图15是根据一个或多个实施例的子带空间处理器模块的框图。
图16是根据一个或多个实施例的串扰补偿处理器模块的框图。
图17是根据一个或多个实施例的串扰模拟处理器模块的框图。
图18是根据一个或多个实施例的串扰消除处理器模块的框图。
图19是根据一个或多个实施例的使用希尔伯特变换感知声场修改(HPSM)模块进行PSM处理的过程的流程图。
图20是根据一些实施例的使用一阶非正交基于旋转的去相关(FNORD)滤波器网络进行PSM处理的另一过程的流程图。
图21是根据一个或多个实施例的使用超中间分量、残余中间分量、超侧分量或残余侧分量中的至少一个进行空间处理的过程的流程图。
图22是根据一个或多个实施例的使用超中间分量、残余中间分量、超侧分量或残余侧分量中的至少一个进行子带空间处理和串扰处理补偿的过程的流程图。
图23是根据一些实施例的计算机的框图。
附图仅出于说明的目的描绘了各种实施例。本领域技术人员从下面的讨论中将容易地认识到,可以在不脱离本文描述的原理的情况下采用本文所图示的结构和方法的替代实施例。
具体实施方式
附图和以下描述仅通过说明的方式涉及优选实施例。应当注意,根据以下讨论,本文所公开的结构和方法的替代实施例将容易地被认为是可以在不脱离所要求保护的原理的情况下采用的可行替代方案。
现在将详细参考若干实施例,其示例在附图中被图示出。注意,只要可行,相似或类似的参考标号可以在附图中使用,并且可以指示相似或类似的功能性。附图仅出于说明的目的描绘了所公开的***(或方法)的实施例。本领域技术人员从以下描述中将容易地认识到,可以在不脱离本文描述的原理的情况下采用本文所图示的结构和方法的替代实施例。
将空间感知线索编码到单声道音频源中在涉及呈现多个同时的可听内容流的各种应用中可能是期望的。此类应用的示例包括:
·会议用例——其中添加应用于一个或多个远程讲话者的空间感知线索可以帮助提高整体语音清晰度并增强收听者的整体沉浸感。
·视频和音乐播放/流媒体用例——其中可以通过添加空间感知线索来增强一个或多个音频通道或一个或多个音频通道的信号分量,从而提高语音或其他混合元素的清晰度或空间感。
·共同观看娱乐用例——其中流是各个内容通道,诸如一个或多个远程讲话者和娱乐节目材料,必须将它们混合在一起以形成身临其境的体验,并将空间感知线索应用于一个或多个元素可以增加混合元素之间的感知差异感,拓宽收听者的感知带宽。
实施例涉及一种音频***,其修改一个或多个音频通道的感知空间质量(例如,声场和相对于目标收听者头部的整***置)。在一些实施例中,修改音频通道的感知空间质量可以被用来将特定源的着色与其感知的空间位置分离,和/或减少编码这种效果所需的放大器和扬声器的数目。
由音频***所执行的音频信号处理被称为感知声场修改(PSM)处理。PSM处理的感知结果在本文中被称为空间移位。用户通常将心理声学效应体验为声源在头部上方、周围或朝向头部的整体移位,从而在感知上将声源与音频内容的其他部分区分开来。这种心理声学效应源自左通道和右通道之间的相位和时间关系,并通过全通滤波器和延迟网络来增强。在一些实施例中,该滤波器和延迟网络可以被实现为一个或多个二阶全通部分,诸如一系列希尔伯特变换,或者使用一阶非正交基于旋转的去相关(FNORD)滤波器网络,其每一个都将在下面更详细地描述。PSM处理的感知结果可能会取决于不同的收听配置(例如,头戴式耳机或扬声器等)而有所不同。对于一些内容和算法配置,结果还可能产生感知信号在听者头部周围传播(例如,扩散)的印象。对于单声道输入信号(例如,非空间音频信号),PSM处理的扩散效果可以被用于单声道到立体声的上混音。
在一些实施例中,音频***可以将音频信号的目标部分与音频信号的残余部分隔离,应用PSM处理的各种配置来感知地移位目标部分,并将经处理的结果与(例如,其可以是未处理的或以不同方式处理的)该残余部分混合。这样的***可以被理解为澄清、提升或以其他方式区分整个音频混合中的目标部分。在一些实施例中,PSM处理被用来在感知上移位包括唱出来或说出来的语音的音频信号的一部分。按照惯例,电视、电影或音乐音频流中的语音通常位于声场的中心,并且因此是立体声或多通道音频信号的中间分量(也被称为非空间或相关分量)的一部分。因此,PSM处理可以被应用于音频信号的中间分量或者超中间分量,该超中间分量包括从中间分量的频谱能量被移除的侧分量(也被称为空间或非相关分量)的频谱能量。
PSM处理可以与其他类型的处理组合。例如,音频***可以对音频信号的移位部分应用处理,以在感知上变换移位部分并将其与混合内的其他分量区分开。这些附加类型的处理可以包括单频带或多频带均衡、单频带或多频带动态处理(例如,限制、压缩、扩展等)、单频带或多频带增益或延迟、串扰处理(例如,串扰消除和/或串扰模拟处理)或串扰处理的补偿中的一种或多种。在一些实施例中,PSM处理可以与中间处理/侧处理一起执行,诸如子带空间处理,其中经由PSM处理所生成的音频信号的中间分量和侧分量的子带进行增益调节以增强声场的空间感。
用于PSM处理的音频通道的隔离可以以各种方式实现。在一些实施例中,可以对频谱正交声音分量(诸如音频信号的超中间分量)执行PSM处理。在其他实施例中,对与声源(例如,语音)相关联的音频通道执行PSM处理,并且经处理的通道随后与其他音频内容(例如,背景音乐)混合。
虽然下面的讨论主要集中在单声道信号到立体声(即,两个输出通道)的上混音,但是由于大部分音频呈现设备是立体声的,应当理解,所讨论的技术可以很容易被推广到包括更多数目的通道。立体声实施例可以根据中间处理/侧处理来讨论,其中左通道和右通道之间的相位差变成中间空间/侧空间中的放大和衰减的互补区域。
音频处理***示例
图1是根据一个或多个实施例的音频处理***100的框图。***100使用PSM处理来对音频信号进行空间移位,并且应用其他类型的空间(例如,中间/侧)处理。***100的一些实施例具有与此处描述的那些不同的组件。类似地,在一些情况下,可以按照与此处描述的方式不同的方式在组件之间分配功能。
***100包括PSM模块102、L/R到M/S转换器模块104、分量处理器模块106、M/S到L/R转换器模块108以及串扰处理器模块108。PSM模块102接收输入音频120并生成空间移位的左通道122和右通道124。下面结合图6-图11更详细地描述根据各种实施例的PSM 102的操作。
L/R到M/S转换器模块104接收左通道122和右通道124并根据通道122和124生成中间分量126(例如,非空间分量)和侧分量128(例如,空间分量)。在一些实施例中,中间分量126基于左通道122和右通道122之和来生成,并且侧分量128基于左通道122和右通道124之间的差异来生成。在一些实施例中,L/R空间中的点到M/S空间中的点的变换可以根据等式(1)而被表达如下:
而逆变换可以根据等式(2)而被表达如下:
应当理解,在其他实施例中,可以使用其他L/R到M/S类型的变换来生成中间分量126和侧分量128。在一些实施例中,由于较低的计算复杂性,可以使用等式(1)和等式(2)中所示的变换代替真正的正交形式,其中正变换和逆变换均按√2缩放。为了便于讨论,无论使用哪种特定的变换,都将使用通过右边的乘法变换行向量坐标的约定,以及将其基础作为其上方标记的经变换的坐标的符号,如下面的等式(3)所示:
分量处理器模块106处理中间分量126以生成经处理的中间分量130并且处理侧分量128以生成经处理的侧分量314。对分量126和128中的每一个的处理可以包括各种类型的滤波,诸如空间线索处理(例如,基于幅度或延迟的平移、双耳处理等)、单频带或多频带均衡、单频带或多频带动态处理(例如,压缩、扩展、限制等)、单频带或多频带增益或延迟级、添加音频效果或其他类型的处理。在一些实施例中,分量处理器模块106使用中间分量126和侧分量128来执行子带空间处理和/或串扰补偿处理。子带空间处理是对中间分量和侧分量的频率子带执行的处理,以在空间上增强音频信号。串扰补偿处理是针对串扰处理所引起的频谱伪影进行调节的处理,诸如针对扬声器的串扰补偿或针对耳机的串扰模拟。将参考图12A-图13进一步描述可以包括在分量处理器模块106中的各种组件。
M/S到L/R转换器模块108接收经处理的中间分量130和经处理的侧分量132并且生成经处理的左分量134和经处理的右分量136。在一些实施例中,M/S到L/R转换器模块108基于由L/R到M/S转换器模块104执行的变换的逆来变换经处理的中间分量130和侧分量132,例如,经处理的左分量134基于经处理的中间分量130和经处理的侧分量132之和来生成,并且经处理的右分量136基于经处理的中间分量130和经处理的侧分量132之间的差异来生成。可以使用其他M/S到L/R类型的变换以生成经处理的左分量134和经处理的右分量136。
串扰处理器模块110接收经处理的左分量134和经处理的右分量136并对其执行串扰处理。串扰处理包括例如串扰模拟或串扰消除。串扰模拟是为了模拟扬声器的效果而对(例如,经由耳机输出的)音频信号执行的处理。串扰消除是为了减少由扬声器引起的串扰而对(例如,经由扬声器输出的)音频信号执行的处理。串扰处理器模块110输出左通道138和右输出通道140。在一些实施例中,可以在分量处理之前执行串扰处理(例如,模拟或消除),诸如在左通道122和右通道124转换成中间分量和侧分量之前。将关于图15和图16进一步描述可以包括在串扰处理器模块110中的各种组件。
在一些实施例中,PSM模块100被并入到分量处理器模块106中。L/R到M/S转换器模块104接收左通道和右通道,其可以表示音频处理***100的(例如,立体声)输入。L/R到M/S转换器模块104使用左右输入通道来生成中间分量和侧分量。分量处理器模块106的PSM模块100将中间分量和/或侧分量作为输入进行处理,诸如本文针对输入音频102所讨论的,以生成左通道和右通道。分量处理器模块106还可以对中间分量和侧分量执行其他类型的处理,并且M/S到L/R转换器模块108根据经处理的中间分量和侧分量来生成左通道和右通道。由HPSM模块100生成的左通道与由M/S到L/R转换器模块108生成的左通道组合以生成经处理的左分量。由PSM模块100生成的右通道与由M/S到L/R转换器模块108生成的右通道组合以生成经处理的右分量。
***100向左扬声器112提供左通道138并且向右扬声器114提供右通道140。扬声器112和114可以是智能电话、平板计算机、智能扬声器、笔记本计算机、台式机、健身机等等的组件。扬声器112和114可以是包括***100的设备的一部分或者可以与***100分离,诸如经由网络而连接到***100。网络可以包括有线和/或无线连接。网络可以包括局域网、广域网(例如,包括互联网)或其组合。
图2是根据一些实施例的计算***环境200的框图。计算***200可以包括音频***202,音频***202可以包括经由网络208而连接到用户设备210a和210b的一个或多个计算设备(例如,服务器)。音频***202经由网络208向用户设备210a和210b(也单独地被称为用户设备210)提供音频内容。网络208促进***202和用户设备210之间的通信。网络106可以包括各种类型的网络,包括互联网。
音频***202包括一个或多个处理器204和计算机可读介质206。一个或多个处理器204执行使一个或多个处理器204执行功能性的程序模块,诸如从单声道通道生成多个输出通道。(多个)处理器204可以包括如下中的一个或多个:中央处理单元(CPU)、图形处理单元(GPU)、控制器、状态机、其他类型的处理电路、或者这些组合中的一个或多个。处理器204还可以包括存储程序模块、操作***数据等等的本地存储器。
计算机可读介质206是非暂态存储介质,其存储用于PSM模块102、分量处理器模块106、串扰处理器模块110、L/R和M/S转换模块104和108、以及通道求和模块212的程序代码。PSM模块102从单声道通道生成多个输出通道,其可以使用分量处理器模块106、串扰处理器模块110和/或L/R和M/S转换模块104和108来进行进一步处理。***202向用户设备210a提供多个输出通道,用户设备210a包括多个扬声器214以渲染输出通道中的每个输出通道。
通道求和模块212通过将由PSM模块102和/或其他模块生成的多个输出通道相加在一起来生成单声道输出通道。***202向用户设备210b提供单声道输出通道,用户设备210b包括用于呈现单声道输出通道的单个扬声器216。在一些实施例中,信道求和模块212位于用户设备210b处。音频***202向用户设备210b提供多个输出通道,用户设备210b将多个通道转换成用于扬声器216的单声道输出通道。用户设备210向用户呈现音频内容。用户设备210可以是用户的计算设备,诸如音乐播放器、智能扬声器、智能电话、可穿戴设备、平板计算机、笔记本计算机、台式机等。
中间/侧空间着色
在一些实施例中,通过在中间/侧空间中创建着色效果同时在左/右中避免它,来将空间线索编码到音频信号中。在一些实施例中,这是通过在左/右空间中应用全通滤波器来实现的,该全通滤波器具有专门被选择以在中间/侧中产生目标着色的属性。例如,在双通道***中,左/右相位角与中间/侧增益之间的关系可以使用等式(4)而被表达如下:
其中是以分贝为单位的在特定频率ω处分别由中间和侧目标增益因子组成的二维行向量,并且/>是左通道和右通道之间的相位关系的目标函数。根据下面的等式(5)和(6),针对/>求解等式(4)可提供应用于左/右空间中的期望频率相关相位差:
注意,如果***在左/右空间中是无色的约束被应用,则只能指定中间分量或侧分量的传递函数。如此,等式(5)和(6)的***是过度确定的,其中在不破坏所需对称性的情况下只能求解上述等式之一。在一些实施例中,选择特定等式产生对中间分量或侧分量的控制。如果***在左/右空间中是无色的约束被丢弃,则可以实现额外的自由度。在具有两个以上通道的***中,可以使用不同的技术(诸如成对或分层的和差变换)来代替中间和侧。
用于对仰角线索进行编码的示例全通滤波器实现
在一些实施例中,通过将频率相关的幅度线索(即,着色)嵌入到中间/侧空间中,同时将左/右信号约束为无色,可以将空间感知线索编码到音频信号中。例如,可以使用该框架来编码仰角线索(例如,沿着矢状面进行定位的空间感知线索),因为针对仰角的左/右线索理论上在着色上是对称的。
在一些实施例中,基于头部相关传递函数(HRTF)的仰角线索的明显特征是从大约8kHz开始并且作为仰角的函数单调上升到大约16kHz的凹口(notch),其可以被用来导出中间通道的适当着色,利用其对仰角进行编码。使用该中间编码线索,可以导出对应的频率相关相移,其可以进一步被用来导出要经由滤波器网络(例如,PSM模块100)实现的函数,诸如下面描述的那些。在一些实施例中,基于HRTF的仰角线索可以被表征为从大约8kHz开始并且作为仰角的函数单调上升到大约12kHz的凹口。
为了便于讨论,根据一些实施例,关于编码相同的感知线索来讨论以下示例滤波器框架,其中仰角的目标角度是60度(例如,在矢状面中将音频内容在空间上移位到水平面以上60度),但是应当理解,在其他实施例中,可以使用类似的技术来对具有不同仰角角度的感知线索进行编码。图3图示了根据一些实施例的示出在60度仰角处测量的经采样的HRTF的图表。图4图示了根据一些实施例的曲线图,该曲线图示出了由与大约11kHz处的无限衰减的窄区域相对应的目标幅度函数所表征的感知线索的示例。此类线索可以被用于在各种演示场景中产生大多数人对仰角的感知。虽然图4的曲线图图示了经采样的HRTF的简化,但是应当理解,还可以基于本文描述的框架导出更复杂的线索。
使用二阶全通部分进行设计
在一些实施例中,使用两个独立级联的二阶全通滤波器加上延迟元件来实现PSM模块100,以实现左/右空间中的期望相移从而对感知线索进行编码,诸如上面关于图4所描述的。在一些实施例中,二阶部分被实现为双二阶部分,其中系数被应用于最多两个延迟样本的反馈和前馈抽头。如本文所讨论的,使用分别命名一个和两个样本A1和A2的反馈系数以及分别命名零、一个和两个样本B0、B1和B2的前馈系数的约定。
在一些实施例中,使用被配置为执行极点和零点的消除的二阶全通滤波器来实现PSM模块100,以允许传递函数的幅度分量保持平坦,同时改变相位响应。通过在左/右空间中的两个通道上使用全通滤波器部分,可以保证频谱上的特定相移。这样做的另一个好处是除了中间/侧空间中的期望零点之外还允许在左和右之间存在给定的相位偏移,这将导致空间延伸感的增加。
下面的表1示出了根据一些实施例的可以在右通道上具有附加2样本延迟的二阶全通滤波器框架中使用的示例双二阶系数组。表1中所示的双二阶系数可以被设计用于44.1kHz采样率,但是也可以被用于具有其他采样率(例如,48kHz)采样率的***。
表1
具有表1中所示系数的滤波器网络可以在左/右空间中产生适当的相位响应,这导致在11kHz处在中间/侧空间中明显的零点/放大。图5图示了根据一些实施例的通过用白噪声驱动具有表1中所示系数的二阶全通滤波器部分而生成的频率图,其示出了多个通道的和502(中间)与多个通道的差504(侧)的输出频率响应。
在一些实施例中,可以通过使用交叉网络来进一步增强使用二阶全通滤波器部分所实现的PSM模块100,以排除对不需要它的频率区域的处理。交叉网络的使用可以通过允许对感知上显著的线索进行进一步处理以排除不必要的听觉数据来增加实施例的灵活性。
在一些实施例中,使用二阶全通滤波器部分实现的PSM模块100可以使用串行链接的希尔伯特变换的网络来实现,如下面将更详细地描述的。
示例希尔伯特变换感知声场修改(HPSM)模块
图6是根据一个或多个实施例的使用希尔伯特变换实现的PSM模块的框图。PSM模块600也可以被称为希尔伯特变换感知声场修改(HPSM)模块,其将串行链接的希尔伯特变换的网络应用到输入音频602(其可以对应于图1中所示的输入音频120)以感知地移位输入音频602。
模块600包括交叉网络模块604、增益单元610、增益单元612、希尔伯特变换模块614、希尔伯特变换模块620、延迟单元626、增益单元628、延迟单元630、增益单元632、加法单元634和加法单元636。模块600的一些实施例具有与此处描述的那些不同的组件。类似地,在一些情况下,可以按照与此处描述的方式不同的方式在组件之间分配功能。
交叉网络模块604接收输入音频602并生成低频分量606和高频分量608。低频分量包括具有比高频分量608的子带更低的频率的输入音频602的子带。在一些实施例中,低频分量606包括输入音频的包括低频的第一部分,并且高频分量608包括输入音频的包括高频的剩余部分。
如下文更详细讨论的,使用一系列希尔伯特变换来处理高频分量608,而低频分量606绕过这一系列希尔伯特变换,然后将低频分量和经处理的高频分量608重新组合。频率分量606和高频分量608之间的交叉频率可以是可调节的。例如,更多的频率可以被包括在高频分量608中以增加HPSM模块600的空间移位的感知强度,而更多的频率可以被包括在低频分量606中以减小移位的感知强度。在另一示例中,交叉频率被设置为使得感兴趣的声源(例如,语音)的频率被包括在高频分量608中。
输入音频602可以包括单声道或者可以是立体声信号或其他多通道信号(例如,环绕声、环绕立体声等)的混音。在一些实施例中,输入音频602是与要并入到音频混合内的声源相关联的音频内容。例如,输入音频602可以是由模块600处理的语音,并且经处理的结果与其他音频内容(例如,背景音乐)进行组合以生成音频混合。
增益单元610向低频分量606应用增益,并且增益单元612向高频分量608应用增益。增益单元610和612可以被用来调节低频分量606和高频分量608相对于彼此的总体水平。在一些实施例中,可以从模块600中省略增益单元610或增益单元612。
希尔伯特变换模块614和620将一系列希尔伯特变换应用于高频分量608。希尔伯特变换模块614将希尔伯特变换应用于高频分量608以生成左分支分量616和右分支分量618。左分支分量616和右分支分量618是相对于彼此异相90度的音频分量。在一些实施例中,左分支分量616和右分支分量618相对于彼此以除90度之外的角度异相,诸如在20度至160度之间。
希尔伯特变换模块620将希尔伯特变换应用于由希尔伯特变换模块614生成的右分支分量618,以生成左分支分量122和右分支分量624。左分支分量622和右分支分量624是相对于彼此异相90度的音频分量。在一些实施例中,希尔伯特变换模块620生成右分支分量624而不生成左分支分量122。在一些实施例中,左分支分量622和右分支分量624相对于彼此以除90度之外的角度异相,诸如在20度至160度之间。
在一些实施例中,希尔伯特变换模块614和620中的每一个在时域中被实现并且包括级联的全通滤波器和延迟,如下面结合图7更详细讨论的。在其他实施例中,希尔伯特变换模块614和620在频域中被实现。
延迟单元626、增益单元628、延迟单元630和增益单元632提供用于操纵模块600的过程的感知结果的调谐控制。延迟单元626将时间延迟应用到由希尔伯特变换模块614生成的左分支分量616。增益单元628将增益应用到左分支分量616。在一些实施例中,可以从模块600中省略延迟单元626或增益单元628。
延迟单元630将时间延迟应用到由希尔伯特变换模块620生成的右分支分量624。增益单元632将增益应用到右分支分量624。在一些实施例中,可以从模块600中省略延迟单元630或增益单元632。
加法单元634将低频分量606与左分支分量616组合以生成左通道642。左分支分量616是来自一系列中的第一希尔伯特变换模块614的输出。左分支分量616可以包括由延迟单元626应用的延迟和由增益单元628应用的增益。
加法单元636将低频分量606与右分支分量624组合以生成右通道644。右分支分量624是来自一系列中的第二希尔伯特变换模块620的输出。右分支分量624可以包括由延迟单元626应用的延迟和由增益单元628应用的增益。
图7是根据一个或多个实施例的希尔伯特变换模块700的框图。希尔伯特变换模块700是希尔伯特变换模块614或希尔伯特变换模块620的示例。希尔伯特变换模块700接收输入分量702并且使用输入分量702来生成左分支分量712和右分支分量724。希尔伯特变换模块700的实施例具有与此处描述的那些不同的组件。类似地,在一些情况下,可以按照与此处描述的方式不同的方式在组件之间分配功能。
希尔伯特变换模块700包括用于生成左分支分量712的全通滤波器级联模块740和用于生成右分支分量724的延迟单元714和全通滤波器级联模块742。全通滤波器级联模块714包括一系列全通滤波器704、706、708和710。延迟单元714将时间延迟应用到输入分量702。全通滤波器级联模块742包括一系列全通滤波器716、718、720和722。全通滤波器704至710和716至722中的每一个使增益相等的频率通过,同时改变不同频率之间的相位关系。在一些实施例中,每个全通滤波器704至710和716至722是如等式(7)所定义的双二阶滤波器:
其中z是复变量,并且a0、a1、a2、b0、b1和b2是数字滤波器系数。不同的双二阶滤波器可以包括不同的系数以应用不同的相位变化。
全通滤波器级联模块740和742可以各自包括不同数目的全通滤波器。希尔伯特变换模块700是具有八个全通滤波器的八阶滤波器,左分支分量712和右分支分量724各有四个。在其他实施例中,希尔伯特变换模块700是八阶滤波器(例如,对于全通滤波器级联模块740和742中的每一个有四个全通滤波器)或六阶滤波器(例如,对于全通滤波器级联模块740和742中的每一个有三个全通滤波器)。
如上面结合图6所讨论的,模块600包括一系列希尔伯特变换模块614和620。针对希尔伯特变换模块614和620中的每一个使用希尔伯特变换模块700,左分支分量616由被应用于高频分量608的一个全通滤波器级联模块742生成。右分支分量624由两个延迟单元714和两个全通滤波器级联模块742通过两次通过希尔伯特变换模块700生成。在一些实施例中,希尔伯特变换模块614和620可能会有所不同。例如,希尔伯特变换模块614和620可以包括不同阶的滤波器,诸如针对希尔伯特变换模块之一为八阶滤波器以及针对希尔伯特变换模块中的另一个为六阶滤波器。
使用针对希尔伯特变换模块614和620的希尔伯特变换模块700,右分支分量624包括与由全通滤波器创建的右分支分量618的相位和延迟关系以及希尔伯特变换模块620的延迟。右分支分量624还包括与由全通滤波器创建的高频分量608的相位和延迟关系以及希尔伯特变换模块614和620的延迟。在一些实施例中,希尔伯特变换模块620不是使用右分支分量618而是使用左分支分量616来生成左分支分量622和右分支分量624。这导致右分支分量624具有与由希尔伯特变换614的全通滤波器(例如,无延迟)创建的高频分量608的相位和延迟关系以及希尔伯特变换模块620的全通滤波器和延迟。
图8图示了根据一些实施例的通过用白噪声来驱动(如图6中所描述的)HPSM模块而生成的频率图,其示出了多个通道的和802(中间)与多个通道的差804(侧)的输出频率响应。
如图8中所示,虽然该滤波器确实在大约11kHz的区域产生了期望感知线索,但是它还在较低频率的中间和侧部赋予了额外着色。在一些实施例中,这可以通过将交叉网络(诸如图6中所图示的交叉网络模块604)应用于输入音频来校正,使得HPSM模块仅处理期望频率范围内的音频数据(例如,高频分量),或者直接移除与该频谱变换区域相对应的极点/零点对。
使用一阶非正交基于旋转的去相关(FNORD)进行设计
在一些实施例中,可以使用一阶非正交基于旋转的去相关(FNORD)滤波器网络来实现类似的感知效果。图9是根据一些实施例的使用FNORD滤波器网络所实现的PSM模块900的框图。PSM模块900可以对应于图1中所图示的PSM模块102,PSM模块900提供将单声道通道去相关为多个通道,并且包括幅度响应模块902、全通滤波器配置模块904和全通滤波器模块906。PSM模块900处理单声道输入通道x(t)912以生成多个输出通道,诸如提供给扬声器910a的通道ya(t)和提供给扬声器910b的通道yb(t)(其可以对应于图1中所示的左扬声器112和右扬声器114)。尽管示出了两个输出通道,但是PSM模块900可以生成任意数目的输出通道(每个输出通道被称为通道y(t))。PSM模块900可以被实现为计算设备的一部分,诸如音乐播放器、扬声器、智能扬声器、智能电话、可穿戴设备、平板计算机、笔记本计算机、台式机等等。虽然图9将PSM模块900图示为除了全通滤波器模块906之外还包含幅度响应模块902和滤波器配置模块904,但是在一些实施例中,PSM模块900可以包含全通滤波器模块906,其中幅度响应模块902和/或滤波器配置模块904与PSM模块900分开实现。
幅度响应模块902确定目标幅度响应,该目标幅度响应定义要被编码到输出通道y(t)中(例如,要被编码到输出通道y(t)的中间分量和侧分量中)的一个或多个空间线索。目标幅度响应由通道的幅度值和频率值(例如,通道的中间分量和侧分量)之间的关系来定义,诸如幅度作为频率的函数。在一些实施例中,目标幅度响应定义通道上的一个或多个空间线索,其可以包括目标宽带衰减、目标子带衰减、临界点、滤波器特性或声场位置。幅度响应模块902可以接收数据914和单声道通道x(t)912并且使用这些输入来确定目标幅度响应。数据914可以包括诸如要被编码的空间线索的特性、呈现设备(例如,一个或多个扬声器)的特性、音频数据的预期内容、或者收听者在上下文中的感知能力之类的信息。在一些实施例中,单声道通道x(t)912可以对应于图1中所图示的音频输入120,或者音频输入的一部分(例如,输入音频的高频分量,诸如图6中所图示的输入音频602的高频分量608)。在单声道通道x(t)912对应于音频输入的一部分的实施例中,输出通道y(t)可以与对应于音频输入的剩余部分的通道(例如,与如图6中所图示的低频分量)进行组合以生成组合输出通道。
目标宽带衰减是在所有频率上的衰减的规范。目标子带衰减是针对由子带定义的频率范围的幅度的规范。目标幅度响应可以包括一个或多个目标子带衰减值,每个目标子带衰减值针对不同的子带。
临界点是滤波器的目标幅度响应的曲率的规范,其被描述为输出通道中的一个(例如,输出通道的侧分量)的增益处于预定义值的频率值,诸如-3dB或-∞dB。该点的放置可能对目标幅度响应的曲率具有全局影响。临界点的一个示例对应于目标幅度响应为-∞dB的频率。由于目标幅度响应的行为是消除在该点附近的频率处的信号,因此该临界点是零点。临界点的另一个示例对应于目标幅度响应为-3dB的频率。由于和通道和差通道(例如,通道的中间分量和侧分量)的目标幅度响应的行为在该点处相交,所以该临界点是交叉点。
滤波器特性是指定如何对通道的中间分量和侧分量进行滤波的参数。滤波器特性的示例包括高通滤波器特性、低通特性、带通特性或带阻特性。滤波器特性描述了结果和的形状,就好像它是均衡滤波的结果一样。可以用什么频率可以通过滤波器或什么频率被拒绝来描述均衡滤波。因此,低通特性允许拐点以下的频率通过并衰减拐点以上的频率。高通特性则相反,允许拐点以上的频率通过并衰减拐点以下的频率。带通特性允许拐点周围频带中的频率通过,并且衰减其他频率。带阻特性抑制拐点周围频带中的频率,并且允许其他频率通过。
目标幅度响应可以定义将被编码到输出通道y(t)中的多于一个空间线索。例如,目标幅度响应可以定义由临界点和全通滤波器的中间分量或侧分量的滤波器特性指定的空间线索。在另一示例中,目标幅度响应可以定义由目标宽带衰减、临界点和滤波器特性指定的空间线索。尽管作为独立的规范进行讨论,但是对于参数化空间的大多数区域,规范可以彼此相互依赖。该结果可能是由于***对于相位而言是非线性的而引起。为了解决这个问题,可以设计目标幅度响应的附加的更高级别的描述符,其是目标幅度响应参数的非线性函数。
滤波器配置模块904基于从幅度响应模块902接收的目标幅度响应来确定单输入多输出全通滤波器的属性。特别地,滤波器配置模块基于目标幅度响应来确定全通滤波器的传递函数并基于传递函数来确定全通滤波器的系数。全通滤波器是一种去相关滤波器,它对根据目标幅度响应来描述的空间线索进行编码,并被应用于单声道输入通道x(t)以生成输出通道ya(t)和yb(t)。
全通滤波器可以包括基于由目标幅度响应所定义的空间线索和/或约束的不同配置和参数。具有编码空间线索的目标幅度响应的滤波器可以是无色的,例如,(例如,完全地)保留各个输出通道(例如,左/右输出通道)的频谱内容。如此,滤波器可以被用来通过以频率相关幅度线索的形式将着色嵌入到中间/侧空间中来对仰角线索进行编码,同时保留左信号和右信号的频谱内容。由于滤波器是无色的,因此单声道内容可以被放置在声场中的特定位置(例如,由目标仰角角度指定),其中音频的空间放置与其整体着色解耦合。
图10A和图10B是根据一些实施例的基于一阶非正交基于旋转的去相关(FNORD)技术的示例PSM模块的框图。图10A示出了根据一些实施例的PSM模块900的详细视图,而图10B提供了根据一些实施例的PSM模块900的全通滤波器模块906内的宽带相位旋转器1004的更详细视图。
如图10A中所示,全通滤波器模块906接收单声道输入音频信号x(t)912、旋转控制参数θbf 1048和一阶系数βbf 1050形式的信息。输入音频信号x(t)912和旋转控制参数θbf1048由宽带相位旋转器1004利用,宽带相位旋转器1004使用旋转控制参数θbf 1048处理输入音频信号912以生成左宽带旋转分量1020和右宽带旋转分量1022。然后,根据对于一些实施例,将左宽带旋转分量1020提供给窄带相位旋转器1024用于进一步处理,而将右宽带旋转分量1022作为PSM模块900的输出通道yb(t)(例如,作为右输出通道)来输出。窄带相位旋转器1024接收来自宽带相位旋转器1004的左宽带旋转分量1020和来自滤波器配置模块904的一阶系数βbf 1050,以生成窄带旋转分量1028,然后将其作为PSM模块900的输出通道ya(t)(例如,作为左输出通道)来提供。
根据一些实施例,用于配置幅度响应模块902的控制数据914可以包括临界点fc1038、滤波器特性θbf 1036、以及声场位置Γ1040。该数据经由幅度响应模块902而被提供给PSM模块900,幅度响应模块902确定临界点(以弧度计)ωc 1044、滤波器特性θbf 1042和二次项(secondary term)1046形式的数据的中间表示。在一些实施例中,幅度响应模块902基于输入音频信号x(t)912的一个或多个参数来修改控制数据914的一个或多个参数(例如,临界点fc 1038、滤波器特性θbf 1036和/或声场位置Γ1040)。在一些实施例中,诸如图10A中所示的实施例,滤波器特性θbf 1042等效于滤波器特性θbf 1036。这些中间表示1042、1044和1046被提供给滤波器配置模块904,滤波器配置模块904生成可以包括至少一阶系数βbf 1050和旋转控制参数1048的滤波器配置数据。一阶系数βbf 1050经由一阶全通滤波器1026而被提供给全通滤波器模块906。在一些实施例中,旋转控制参数θbf 1048可以等效于滤波器特性θbf 1036和1042,而在其他实施例中,为了方便起见可以缩放该参数。例如,在一些实施例中,滤波器特性与具有有意义中心点的参数范围(例如,0至0.5)相关联,并且相对于滤波器特性缩放旋转控制参数以改变参数范围,例如,改变为0到1。在一些实施例中,滤波器特性被线性缩放(例如,以与中心点相比而言,保持极点中增加的分辨率),而在其他实施例中,可以使用非线性映射(例如,为了增加中心点周围的数值分辨率)。在下面的等式中,旋转控制参数θbf被视为未缩放,但是应当理解,当旋转控制参数被缩放时可以应用相同的原理。旋转控制参数θbf 1048经由宽带相位旋转器1004而被提供给全通滤波器模块906。
图10B详细描述了根据一些实施例的宽带相位旋转器1004的示例实现。宽带相位旋转器1004接收单声道输入音频信号x(t)912和旋转控制参数θbf 1048形式的信息。输入音频信号x(t)912首先由希尔伯特变换模块1006处理以生成左分支分量1008和右分支分量1010。根据一些实施例,希尔伯特变换模块1006模块可以使用图7中所示的配置来实现,但是应当理解,在其他实施例中可以使用希尔伯特变换模块1006的其他实现。左分支分量1008和右分支分量1010被提供给2D正交旋转模块1012。左分支分量1008还被提供给宽带相位旋转器1004的输出作为右宽带旋转分量1022。由于宽带相位旋转器1004被配置为相对于彼此旋转左分支和右分支信号,因此在一些实施例中实现这一点的一种方式是作为右宽带旋转分量1022而保持左分支分量1008恒定,并且旋转左分支分量和右分支分量以形成左宽带旋转分量1020。
根据一些实施例,除了左分支分量1008和右分支分量1010之外,2D正交旋转模块1012还可以从滤波器配置模块904接收旋转控制参数θbf 1048,如图10A中所示。2D正交旋转模块1012使用该数据来生成左旋转分量1014和右旋转分量1016。投影模块1018然后接收左旋转分量1014和右旋转分量1016,它们被组合(例如,相加)以形成左宽带旋转分量1020。如图10A中所示,宽带相位旋转器1004将左宽带旋转分量1020输出到窄带相位旋转器1024,以生成窄带旋转分量1028作为PSM模块的左输出通道ya(t),并且生成右宽带旋转分量1022作为PSM模块的右输出通道yb(t)(其绕过窄带相位旋转器1024或不变地通过它)。在其他实施例中,窄带旋转分量1028和左分支分量1008(其在图10A和图10B中所示的实施例中用作右宽带旋转分量1022)改为分别被映射到右输出通道yb(t)和左输出通道ya(t)。
在一些实施例中,PSM模块900可以通过下面的等式(8)来形式化地描述:
在一些实施例中,该单输入多输出全通滤波器由多个部分组成,将依次解释每个部分。根据一些实施例,这些组分可以包括Af、Ab和H2。
根据一些实施例,Af可以对应于图10A中的窄带相位旋转器1024。Af是一阶全通滤波器,其一个通道的输出采用等式(9)的形式:
y(t)≡-βfx(t)+x(t-1)+βfy(t-1) (9)
其中βf是滤波器的系数,范围从-1到+1。滤波器的第二输出可以简单地使输入不变地通过。因此,根据一些实施例,滤波器Af实现可以通过等式(10)来定义:
Af(x(t),βf)≡[y(t),x(t)] (10)
Af的传递函数被表达为从一个输出到另一输出的微分相移该微分相移是弧度频率ω的函数,如等式(11)所定义:
其中目标幅度响应可以通过用替换等式(5)或(6)中的θ来导出,具体取决于响应是被放置在中间(等式(5))还是侧部(等式(6))。
总和增益αf=3dB可以被用作临界点以用于调谐的频率fc由以下来定义:
和
通过将目标幅度响应标准化为0dB,该临界点对应于参数fc,其可以是-3dB点。在等式(8)中,Af的输出被加下标以确认:根据一些实施例,仅使用第一通道的输出。
在等式(8)中,Ab是单输入多输出全通滤波器,其可以对应于图10A中的宽带相位旋转器1004。Ab可以在等式(14)中在形式上被定义为:
Ab(x(t),θ)=[(H2(x(t))1cosθ+H2(x(t))2sinθ) H2(x(t))1] (14)
其中H2(x(t))是滤波器的离散形式,使用一对正交全通滤波器来实现,并根据等式(15)使用连续时间原型来定义:
在一些实施例中,全通滤波器H(x(t))提供对两个输出信号之间的90度相位关系以及输入与两个输出信号之间的单位幅度关系的约束,但是不一定保证输入(单声道)信号与两个(立体声)输出信号之一之间的特定相位关系。
H(x(t))的离散形式被标示为H2(x(t)),并且由其对单声道信号x(t)的作用来定义。结果是一个二维向量,如等式(16)所定义:
根据一些实施例,离散单输入多输出全通滤波器可以对应于图10B中的希尔伯特变换模块1006,并且还对应于图7中的希尔伯特变换模块700。根据一些实施例,在等式(14)中,θ确定Ab的第一输出相对于第二输出的旋转角度。
最后,根据一些实施例,可以如下确定等式(8)中供应给完整***Abf的参数。这些参数可以包括βbf和θbf,其可以对应于图10A中的旋转控制参数θbf 1048和一阶系数βbf1050。在一些实施例中,βbf可以根据中心弧度频率ωc而被确定如下:
其中,可以使用等式(12)根据期望的中心频率fc来计算ωc。在图10A中,ωc对应于临界点ωc 1044,fc对应于临界点fc 1038,并且等式(17)的动作部分地在滤波器配置模块904内执行,产生一阶系数βbf。在一些实施例中,二次项1046可以通过等式(18)从θbf和布尔声场位置参数Γ导出:
该二次项1046由图10A中的幅度响应模块902提供给滤波器配置模块904。
在一些实施例中,高级参数fc、θbf和Γ可能足以直观且方便地调谐该***。根据这样的实施例,中心频率fc确定以Hz为单位的拐点,在该拐点处目标幅度响应渐近地接近-∞dB。参数θbf允许控制关于拐点fc的滤波器特性。对于0<θbf<1/4,该特性是低通的,在fc处为零,并且目标幅度函数中的频谱斜率随着θbf的增加而从有利于低频平滑地插值到平坦。对于1/4<θbf<1/2,随着θbf的增加,特性从fc处为零的平坦平滑地插值到高通。在θbf=1/4点,目标幅度函数是纯带阻的,在fc处为零。参数Γ是一个布尔值,它将由fc和θbf确定的目标幅度函数放置到中间通道(即,L+R)或侧通道(即,L-R)中。由于滤波器网络的两个输出都受到全通约束,所以Γ的作用是在互补的目标幅度响应之间切换。
在一些实施例中,为了实现60度垂直线索的幅度响应,可以使用参数fc=11kHz、θbf=0.13和X=1来配置上述FNORD滤波器网络。图11图示了根据一些实施例的频率响应曲线图,其示出了被配置为实现60度垂直线索的幅度响应的FNORD滤波器网络的输出频率响应。图11图示了中间分量1110和侧分量1120中的输出频率响应,其中FNORD滤波器网络由白噪声驱动。在一些实施例中,基于对期望角度处的基于HRTF的仰角线索的分析来选择滤波器参数fc、θbf和/或Γ。
在一些实施例中,PSM模块900使用全通滤波器的频域规范。例如,在一些情况下,可能需要更复杂的空间线索,例如从人体测量数据集中采样的空间线索。在某些限制内,上述技术可以被用来基于线索的幅度频域表示而将任意线索嵌入到音频流的相位差中。例如,滤波器配置模块904可以使用等式(5)或(6)形式的等式来根据中间或侧部的K个窄带衰减系数的矢量化目标幅度响应来确定K个相位角的矢量化传递函数/>
相位角矢量θ生成如等式(19)所定义的有限脉冲响应滤波器:
其中DFT-1标示离散傅里叶逆变换(idft)和然后,2(K-1)个FIR滤波器系数Bn(θ)的向量可以被应用于x(t),如等式(20)所定义:
其中标示卷积运算。
为了重现来自先前示例的效果,并且实现与60度的高度线索相对应的目标幅度响应,可以对观察到的HRIR进行采样并将其应用于长度为2(K-1)的DFT以产生其可以被用来使用以下运算来确定目标幅度响应向量/>/>
其中和/>是分别返回复数的实部和虚部的运算,并且所有运算都按分量而被应用于向量。代入到中间或侧部中的该目标幅度响应现在可以被应用于等式(5)或(6)之一以确定K个相位角的向量/>从该向量中可以导出FIR滤波器B。然后将该滤波器代入到等式(19)中以导出单输入多输出全通滤波器。
虽然等式(19)和(20)提供了用于约束目标幅度响应的有效手段,但是其实现通常将依赖于由逆DFT运算产生的相对高阶的FIR滤波器。这可能不适合资源有限的***。在这种情况下,可以使用低阶无限脉冲响应(IIR)实现,诸如结合等式(8)所讨论的。
全通滤波器模块906将滤波器配置模块904所配置的全通滤波器应用到单声道通道x(t)以生成输出通道ya(t)和yb(t)。全通滤波器对通道x(t)的应用可以如等式(8)、(20)所定义的那样执行,或者如图9或图10A中所描绘的那样执行。全通滤波器模块906将每个输出通道提供给相应的扬声器,诸如通道ya(t)提供给扬声器910a以及通道yb(t)提供给扬声器910b。尽管图9中未示出,但是应当理解,输出通道ya(t)和yb(t)可以经由一个或多个中介组件(例如分量处理器模块106、串扰处理器模块110和/或L/R到M/S转换器模块和M/S到L/R转换器模块104和108,如图1中所示)而被提供给扬声器910a和910b。
超中间处理
在一些实施例中,可以对接收到的音频信号的目标部分(诸如音频信号的中间分量或音频信号的超中间分量)执行PSM处理。图12是根据一个或多个实施例的音频处理***1200的框图。***1200生成超中间分量以隔离音频信号的目标部分(例如,语音),并对超中间分量执行PSM处理以在空间上移位目标部分。***1200的一些实施例具有与此处描述的那些不同的组件。类似地,在一些情况下,可以按照与此处描述的方式不同的方式在组件之间分配功能。
***1200包括L/R到M/S转换器模块1206、正交分量生成器模块1212、包括PSM模块102的正交分量处理器模块1214、以及串扰处理器模块1224。
L/R到M/S转换器模块1206接收左通道1202和右通道1204并且从通道1202和1204生成中间分量1208和侧分量1210。关于L/R到M/S转换器模块1206的讨论M/S转换器模块104可以适用于L/R到M/S转换器模块1206。
正交分量生成器模块1212处理中间分量1208和侧分量1210以生成以下中的至少之一:超中间分量Ml、超侧分量Sl、残余中间分量M2和残余侧分量S2。超中间分量M1是移除了侧分量1210的频谱能量后的频谱能量中间分量1208。超侧分量S1是移除了中间分量1208的频谱能量后的侧分量1210的频谱能量。残余中间分量M2是移除了超中间分量M1的频谱能量后的中间分量1208的频谱能量。残余侧分量S2是移除了超侧分量S1的频谱能量后的侧分量1210的频谱能量。***1200通过处理超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2中的至少一个来生成左通道1242和右输出通道1244。正交分量生成器模块1212将关于图13A、图13B和图13C进一步描述。
正交分量处理器模块1214处理超中间分量Ml、超侧分量S1、残余中间分量M2和/或残余侧分量S2中的一个或多个,并且将经处理的分量转换成经处理的左分量1220和经处理的右分量1222。关于分量处理器模块106的讨论可适用于正交分量处理器模块1214,除了对超中间分量M1、超侧分量S1、残余中间分量M2和/或残余侧分量S2执行处理而不是对中间分量和边分量执行处理之外。例如,对组件M1、M2、S1和S2的处理可以包括各种类型的处理,诸如空间线索处理(例如,基于幅度或延迟的平移、双耳处理等)、单频带或多频带均衡、单频带或多频带动态处理(例如压缩、扩展、限制等)、单频带或多频带增益或延迟级、添加音频效果或其他类型的处理。在一些实施例中,正交分量处理器模块1214使用超中间分量M1、超侧分量S1、残余中间分量M2和/或残余侧分量S2来执行子带空间处理和/或串扰补偿处理。正交分量处理器模块1214还可以包括L/R到M/S转换器,以将分量M1、S2、S1和S2转换成经处理的左分量1220和经处理的右分量1222。
正交分量处理器模块1214还包括PSM模块102,其可以对超中间分量Ml、超侧分量Sl、残余中间分量M2和/或残余侧分量S2中的一个或多个进行操作。例如,PSM模块102可以接收超中间分量M1作为输入并生成空间移位的左通道和右通道。超中间分量M1可以包括例如表示语音的音频信号的隔离部分,并且因此可以被选择用于HPSM处理。由PSM模块102生成的左通道被用来生成经处理的左分量1020,并且由PSM模块102生成的右通道被用来生成经处理的右分量1222。关于图12进一步描述正交分量处理器模块1214。
串扰处理器模块1224接收经处理的左分量1220和经处理的右分量1222并对其执行串扰处理。串扰处理器模块1224输出左通道1242和右通道1244。关于串扰处理器模块1224的讨论可以适用于串扰处理器模块1224。在一些实施例中,串扰处理(例如,模拟或消除)可以在正交分量处理之前被执行,诸如在将左通道1202和右通道1204转换为中间分量和侧分量之前。左通道1242可以被提供给左扬声器112并且右通道1244可以被提供给右扬声器114。
示例正交分量生成器
图13A-图13C分别是根据一个或多个实施例的正交分量生成器模块1313、1323和1343的框图。正交分量生成器模块1313、1323和1343是正交分量生成器模块1212的示例。模块1313、1323和1343的一些实施例具有与此处描述的那些不同的组件。类似地,在一些情况下,可以按照与此处描述的方式不同的方式在组件之间分配功能。
参考图13A,正交分量生成器模块1313包括减法单元1305、减法单元1309、减法单元1315和减法单元1319。如上所述,正交分量生成器模块1313接收中间分量1208和侧分量1210,并输出超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2中的一个或多个。
减法单元1305从中间分量1208的频谱能量中移除侧分量1210的频谱能量以生成超中间分量Ml。例如,减法单元1305从频域中的中间分量1208的幅度减去频域中的侧分量1210的幅度,同时保留相位,以生成超中间分量M1。可以使用对时域信号进行傅立叶变换以生成频域中的信号、然后对频域中的信号进行减法来执行频域中的减法。在其他示例中,频域中的减法可以以其他方式执行,诸如使用小波变换而不是傅立叶变换。减法单元1309通过从中间分量1208的频谱能量中移除超中间分量Ml的频谱能量来生成残余中间分量M2。例如,减法单元1309从频域中的中间分量1208的幅度减去频域中的超中间分量Ml的幅度,同时保留相位,以生成残余中间分量M2。虽然在时域中从中间分量中减去侧分量会得到信号的原始右通道,但是在频域中的上述操作会隔离中间分量的频谱能量中与侧分量的频谱能量不同的部分(称为M1,或超中间分量)并在中间分量的频谱能量中与侧分量的频谱能量不同的部分(称为M1,或超中间分量)与中间分量的频谱能量中与侧分量的频谱能量相同的部分(称为M2,或残余中间分量)之间区分开。
在一些实施例中,当从中间分量1006的频谱能量中减去侧分量1210的频谱能量导致超中间分量M1为负值时(例如,对于频域中的一个或多个仓(bin)),可以使用附加处理。在一些实施例中,当从中间分量1208的频谱能量减去侧分量1210的频谱能量导致负值时,超中间分量M1被固定在0值。在一些实施例中,通过将负值的绝对值作为超中间分量M1的值来对超中间分量M1进行环绕。当从中间分量1208的频谱能量中减去侧分量1210的频谱能量导致M1为负值时,可以使用其他类型的处理。当生成超侧分量S1、残余侧分量S2或残余中间分量M2的减法导致负值时,可以使用类似的附加处理,诸如固定在0处、环绕或其他处理。当减法导致负值时,将超中间分量M1固定在0处将在M1和两侧分量之间提供频谱正交性。同样,当减法导致负值时,将超侧分量S1固定在0处将在S1和两个中间分量之间提供频谱正交性。通过在超中间分量和侧分量及其适当的中间/侧对照分量(即,超中间分量的侧分量、超侧分量的中间分量)之间创建正交性,所导出的残余中间分量M2和残余侧分量S2包含与其适当的中间/侧对照分量不正交(即,共同)的频谱能量。也就是说,当对超中间分量应用固定在0处并使用该M1分量导出残余中间分量时,生成与侧分量没有共同的频谱能量的超中间分量和具有与侧分量完全相同的频谱能量的残余中间分量。当将超侧固定到0时,相同的关系适用于超侧和残余侧。当应用频域处理时,通常在频率和定时信息之间的分辨率上进行权衡。随着频率分辨率的增加(即,随着FFT窗口大小和频率仓数目的增加),时间分辨率降低,反之亦然。上述频谱减法是在每个频率仓的基础上发生的,因此在某些情形中,诸如当从超中间分量中移除声音能量时,具有较大FFT窗口大小可能是优选的(例如,在给定实值输入信号的情况下,8192个样本,产生4096个频率仓)。其他情形可能需要更高的时间分辨率,并且因此需要更低的总体延迟和更低的频率分辨率(例如,在给定实值输入信号的情况下,512个样本FFT窗口大小,产生256个频率仓)。在后一种情况下,当中间和侧部的低频分辨率彼此相减以导出超中间分量M1和超侧分量S1时,可能会产生可听频谱伪影,因为每个频率仓的频谱能量是在太大的频率范围内的平均能量表示。在这种情况下,在导出超中间分量M1或超侧分量S1时取中间和侧部之间的差异的绝对值可以通过允许每个频率仓从组件中的真实正交性发散来帮助减轻感知伪影。除了环绕0或者代替环绕0,我们可以对减数值应用一个系数,将该值缩放在0和1之间,从而提供一种在一个极端(即,值为1)处的超中间分量和残余中间分量/超侧分量和残余侧分量的完全正交性与在另一个极端(即,值为0)处的与其对应的原始中间分量和侧分量相同的超中间分量M1和超侧分量S1之间进行插值的方法。
减法单元1315从频域中的侧分量1210的频谱能量中移除频域中的中间分量1208的频谱能量,同时保留相位,以生成超侧分量Sl。例如,减法单元1315从频域中的侧分量1210的幅度中减去频域中的中间分量1208的幅度,同时保留相位,以生成超侧分量S1。减法单元1319从侧分量1210的频谱能量中移除超侧分量S1的频谱能量,以生成残余侧分量S2。例如,减法单元1319从频域中的侧分量1210的幅度中减去频域中的超侧分量S1的幅度,同时保留相位,以生成残余侧分量S2。
在图5B中,正交分量生成器模块1323与正交分量生成器模块1313相似之处在于,它接收中间分量1006和侧分量1210并生成超中间分量M1、残余中间分量M2、超侧分量S1、和残余侧分量S2。正交分量生成器模块1323与正交生成器模块1313的不同之处在于,在频域中生成超中间分量M1和超侧分量S1,然后将这些分量转换回时域以生成残余中间分量M2和残余侧分量S2。正交分量生成器模块1323包括前向FFT单元1320、带通单元1322、减法单元1324、超中间处理器1325、逆FFT单元1326、时间延迟单元1328、减法单元1330、前向FFT单元1332、带通单元1334、减法单元1336、超侧处理器1337、逆FFT单元1340、时间延迟单元1342和减法单元1344。
前向快速傅里叶变换(FFT)单元1320向中间分量1208应用前向FFT,将中间分量1208转换到频域。频域中的转换后的中间分量1208包括幅度和相位。带通单元1322向频域中间分量1208带通滤波器,其中带通滤波器指明超中间分量M1中的频率。例如,为了隔离典型的人类音域,带通滤波器可以指明300到8000Hz之间的频率。在另一示例中,为了移除与典型人类音域相关联的音频内容,带通滤波器可以在超中间分量M1中保留较低频率(例如,由低音吉他或鼓生成)和较高频率(例如,由铙钹生成)。在其他实施例中,代替带通单元1322应用的带通滤波器和/或除此之外,正交分量生成器模块1323向频域中间分量1208应用各种其他滤波器。在一些实施例中,正交分量生成器模块1323不包括带通单元1322并且不对频域中间分量1208应用任何滤波器。在频域中,减法单元1324从经滤波的中间分量中减去侧分量1210以生成超中间分量M1。在其他实施例中,代替由正交分量处理器模块(例如,图12的正交分量处理器模块)执行的应用于超中间分量Ml的后续处理和/或除此之外,正交分量生成器模块1323向频域超中间分量M1应用各种音频增强功能。超中间处理器1325在将频域中的超中间分量M1转换到时域之前对频域中的超中间分量M1执行处理。该处理可以包括子带空间处理和/或串扰补偿处理。在一些实施例中,代替可以由正交分量处理器模块1214执行的处理和/或除此之外,超中间处理器1325对超中间分量M1执行处理。逆FFT单元1326将逆FFT应用于超中间分量M1,将超中间分量M1转换回到时域。频域中的超中间分量M1包括M1的幅度和中间分量1208的相位,逆FFT单元1326将其转换到时域。时间延迟单元1328向中间分量1208应用时间延迟,使得中间分量1208和超中间分量M1同时到达减法单元1330。减法单元1330从时域中的时间延迟中间分量1208中减去时域中的超中间分量M1,生成残余中间分量M2。在该示例中,使用时域中的处理从中间分量1208的频谱能量中移除超中间分量M1的频谱能量。
前向FFT单元1332对侧分量1210应用前向FFT,将侧分量1210转换到频域。频域中的转换后的侧分量1210包括幅度和相位。带通单元1334将带通滤波器应用于频域侧分量1210。带通滤波器指明超侧分量S1中的频率。在其他实施例中,除了带通滤波器之外和/或代替带通滤波器,正交分量生成器模块1323向频域侧分量1210应用各种其他滤波器。在频域中,减法单元1336从经滤波的侧分量1210中减去中间分量1208以生成超侧分量S1。在其他实施例中,代替由正交分量处理器(例如,正交分量处理器模块1214)执行的应用于超侧分量Sl的后续处理和/或除此之外,正交分量生成器模块1323向频域超侧分量S1应用各种音频增强。超侧处理器1337在将频域中的超侧分量S1转换到时域之前对频域中的超侧分量S1执行处理。该处理可以包括子带空间处理和/或串扰补偿处理。在一些实施例中,代替可以由正交分量处理器模块1214执行的处理和/或除此之外,超侧处理器1337对超侧分量S1执行处理。逆FFT单元1340将逆FFT应用于频域中的侧分量S1,生成时域中的超侧分量S1。频域中的超侧分量S1包括S1的幅度和侧分量1210的相位,逆FFT单元1326将其转换到时域。时间延迟单元1342对侧分量1210进行时间延迟,使得侧分量1210与超侧分量S1同时到达减法单元1344。减法单元1344随后从时域中的时间延迟侧分量1210中减去时域中的超侧分量S1,生成残余侧分量S2。在该示例中,使用时域中的处理从侧分量1210的频谱能量中移除超侧分量S1的频谱能量。
在一些实施例中,如果由正交分量处理器模块1214执行超中间处理器1325和超侧处理器1337所执行的处理,则可以省略这些组件。
在图13C中,正交分量生成器模块1343与正交分量生成器模块1323相似之处在于,其接收中间分量1208和侧分量1210并生成超中间分量M1、残余中间分量M2、超侧分量S1、和残余侧分量S2,不同之处在于,正交分量生成器模块1343在频域中生成每个分量M1、M2、S1和S2,然后将这些分量转换到时域。正交分量生成器模块1343包括前向FFT单元1347、带通单元1349、减法单元1351、超中间处理器1352、减法单元1353、残余中间处理器1354、逆FFT单元1355、逆FFT单元1357、前向FFT单元1361、带通单元1363、减法单元1365、超侧处理器1366、减法单元1367、残余侧处理器1368、逆FFT单元1369和逆FFT单元1371。
前向FFT单元1347向中间分量1208应用前向FFT,将中间分量1208转换到频域。频域中的转换后的中间分量1208包括幅度和相位。前向FFT单元1361向侧分量1210应用前向FFT,将侧分量1210转换到频域。频域中的转换后的侧分量1210包括幅度和相位。带通单元1349向频域中间分量1208应用带通滤波器,带通滤波器指明超中间分量M1的频率。在一些实施例中,除了带通滤波器之外和/或代替带通滤波器,正交分量生成器模块1343向频域中间分量1208应用各种其他滤波器。减法单元1351从频域中间分量1208中减去频域侧分量1210,生成频域中的超中间分量M1。超中间处理器1352在将对频域中的超中间分量M1转换到时域之前对频域中的超中间分量M1执行处理。在一些实施例中,超中间处理器1352执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替可以由正交分量处理器模块1214执行的处理和/或除此之外,超中间处理器1352对超中间分量M1执行处理。逆FFT单元1357将逆FFT应用于超中间分量M1,将超中间分量M1转换回到时域。频域中的超中间分量M1包括M1的幅度和中间分量1208的相位,逆FFT单元1357将其转换到时域。减法单元1353在频域中从中间分量1208中减去超中间分量M1以生成残余中间分量M2。残余中间处理器1354在将频域中的残余中间分量M2转换到时域之前对频域中的残余中间分量M2执行处理。在一些实施例中,残余中间处理器1354对残余中间分量M2执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替可以由正交分量处理器模块1214执行的处理和/或除此之外,残余中间处理器1354对残余中间分量M2执行处理。逆FFT单元1355应用逆FFT来将残余中间分量M2转换到时域。频域中的残余中间分量M2包括M2的幅度和中间分量1208的相位,逆FFT单元1355将其转换到时域。
带通单元1363向频域侧分量1210应用带通滤波器。带通滤波器指明超侧分量Sl中的频率。在其他实施例中,除了带通滤波器之外和/或代替带通滤波器,正交分量生成器模块1343向频域侧分量1210应用各种其他滤波器。在频域中,减法单元1365从滤波侧分量1210中减去中间分量1208以生成超侧分量S1。超侧处理器1366在将频域中的超侧分量S1转换到时域之前,对频域中的超侧分量S1执行处理。在一些实施例中,超侧处理器1366对超侧分量S1执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替可以由正交分量处理器模块1214执行的处理和/或除此之外,超侧处理器1366对超侧分量S1执行处理。逆FFT单元1371应用逆FFT来将超侧分量S1转换回到时域。频域中的超侧分量S1包括S1的幅度和侧分量1210的相位,逆FFT单元1371将其转换到时域。减法单元1367在频域中从侧分量1210中减去超侧分量S1,生成残余侧分量S2。残余侧处理器1368在将频域中的残余侧分量S2转换到时域之前对频域中的残余侧分量S2执行处理。在一些实施例中,残余侧处理器1368对残余侧分量S2执行子带空间处理和/或串扰补偿处理。在一些实施例中,代替可以由正交分量处理器模块1214执行的处理和/或除此之外,残余侧处理器1368对残余侧分量S2执行处理。逆FFT单元1369向残余侧分量S2应用逆FFT,将其转换到时域。频域中的残余侧分量S2包括S2的幅度和侧分量1210的相位,逆FFT单元1369将其转换到时域。
在一些实施例中,如果由正交分量处理器模块1214执行超中间处理器1352、超侧处理器1366、残余中间处理器1354或残余侧处理器1368执行的处理,则可以省略这些组件。
示例正交分量处理器
图14A是根据一个或多个实施例的正交分量处理器模块1417的框图。正交分量处理器模块1417是正交分量处理器模块1412的示例。模块1417的一些实施例具有与此处描述的那些不同的组件。类似地,在一些情况下,可以按照与此处描述的方式不同的方式在组件之间分配功能。
正交分量处理器模块1417包括分量处理器模块1420、PSM模块102、加法单元1422、M/S到L/R转换器模块1424、加法单元1426和加法器1428。
分量处理器模块1420像分量处理器模块106一样执行处理,除了使用超中间分量Ml、超侧分量Sl、残余中间分量M2和/或残余侧分量S2而不是使用中间分量和侧分量。例如,分量处理器模块1420对超中间分量M1、残余中间分量M2、超侧分量S1和残余侧分量S2中的至少之一执行子带空间处理和/或串扰补偿处理。作为分量处理器模块1420的子带空间处理和/或串扰补偿的结果,正交分量处理器模块1417输出经处理的M1、经处理的M2、经处理的S1和经处理的S2中的至少一个。在一些实施例中,分量M1、M2、S1或S2中的一个或多个可以绕过分量处理器模块1420。
在一些实施例中,正交分量处理器模块1417对频域中的超中间分量Ml、残余中间分量M2、超侧分量Sl和残余侧分量S2中的至少一个执行子带空间处理和/或串扰补偿处理。正交分量生成器模块410可以将频域中的分量M1、M2、S1或S2提供给正交分量处理器模块1417,而不执行逆FFT。在生成经处理的M1、经处理的M2和经处理的侧分量1442之后,正交分量处理器模块1417可以执行逆FFT以将这些分量转换回到时域。在一些实施例中,正交分量处理器模块1417对经处理的M1、经处理的M2、经处理的S1和经处理的S1执行逆FFT,并且生成时域中的经处理的侧分量1446。
正交分量处理器模块1417的示例组件在图15和图16中被示出。在一些实施例中,正交分量处理器模块1417执行子带空间处理和串扰补偿处理两者。正交分量处理器模块1417执行的处理不限于子带空间处理或串扰补偿处理。诸如通过使用超中间分量代替中间分量或者使用超侧分量代替侧分量,使用中间/侧空间的任何类型的空间处理可以由正交分量处理器模块1417执行。一些其他类型的处理可以包括增益应用、基于幅度或延迟的平移、双耳处理、混响、动态范围处理(诸如压缩和限制)以及其他线性或非线性音频处理技术和效果,这些技术和效果从合唱或镶边到基于机器学习的声乐或器乐风格转移、转换或重新合成等方法。
PSM模块102接收经处理的Ml并应用PSM处理来在空间上移位经处理的Ml,产生左通道1432和右通道1434。虽然PSM模块102被示出为被应用于超中间分量Ml,但是PSM模块可以被应用于分量M1、M2、S1或S2中的一个或多个。在一些实施例中,由PSM模块102处理的分量绕过分量处理器模块1420的处理。例如,PSM模块102可以处理超中间分量M1而不是经处理的M1。
加法单元1422将经处理的S1与经处理的S2相加以生成经处理的侧分量1442。M/S到L/R转换器模块1424使用经处理的M2和经处理的侧分量1442来生成经处理的左分量1444和经处理的右分量1446。在一些实施例中,经处理的左分量1444基于经处理的M2与经处理的侧分量1442之和来生成,并且经处理的右分量1446基于经处理的M2与经处理的侧分量1442之间的差异来生成。可以使用其他M/S到L/R类型的变换来生成经处理的左分量1444和经处理的右分量1446。
加法单元1426将来自PSM模块102的左通道1432与经处理的左分量1444相加以生成左通道1452。加法单元1428将来自PSM模块102的右通道1434与经处理的右分量1446相加以生成右通道1454。更一般地,来自PSM模块102的一个或多个左通道可以与来自M/S到L/R转换器模块1424的左分量(例如,使用未被PSM模块102处理的超分量/残余分量而生成)相加以生成左通道1452,并且来自PSM模块102的一个或多个右通道可以与来自M/S到L/R转换器模块1424的右分量(例如,使用未被PSM模块102处理的超分量/残余分量而生成)相加以生成右通道1454。
如此,正交分量处理器模块1417将PSM处理应用到由L/R到M/S转换器模块1206和正交分量生成器模块1212隔离的音频信号的超中间分量M1。然后可以将PSM增强立体声信号(包括左通道1432和右通道1434)与残余左/右信号(例如,在没有超中间分量的情况下生成的经处理的左分量1444和经处理的右分量1446)求和。除了该示例之外或代替该示例,可以使用对被用于PSM处理的输入信号的分量进行隔离的其他方法,包括基于机器学习的音频源分离。
在一些实施例中,正交分量处理器模块1417应用PSM处理音频信号的中间分量M,而不是超中间分量Ml。图14B图示了根据一个或多个实施例的正交分量处理器模块1419的框图。在一些实施例中,图14B的正交分量处理器模块1419可以被实现为类似于图12中所图示的***1200的音频处理***的一部分,但是没有正交分量生成器模块1212,使得正交分量处理器模块接收中间分量和侧分量信号(例如,中间分量1208和侧分量1210),而不是超中间分量、超侧分量、残余中间分量和残余侧分量。在一些实施例中,正交分量处理器模块1410包括类似于分量处理器模块106的分量处理器模块,以根据接收到的中间分量和侧分量(未示出)来生成经处理的中间分量和经处理的侧分量。PSM模块102接收中间分量M(或经处理的中间分量),并应用PSM处理来在空间上移位接收到的中间信号,以生成中间信号的PSM经处理的左通道1432和PSM经处理的右通道1434,由M/S到L/R转换器模块1424将它们与侧分量S(或经处理的侧分量)组合以生成左通道1452和右通道1454。例如,如图14B中所示,M/S到L/R转换器模块1424使用加法单元1460来将左通道1452生成为PSM经处理的左通道1432和侧分量S之和,并且使用减法单元1462来将右通道1454生成为PSM经处理的右通道1434和侧分量S之间的差异。换言之,M/S到L/R转换器模块1424用于通过将侧信号与左通道以及将侧信号的逆与右通道组合而将侧信号(其在左右基础上位于由左分量(右分量的逆分量)所定义的子空间中)混合到左右空间中的PSM经处理的立体声信号中。
示例子带空间处理器
图15是根据一个或多个实施例的子带空间处理器模块1510的框图。子带空间处理器模块1510是分量处理器模块106或1520的组件的示例。子带空间处理器模块1510包括中间EQ滤波器1504(1)、中间EQ滤波器1504(2)、中间EQ滤波器1504(3)、中间EQ滤波器1504(4)、侧EQ滤波器1506(1)、侧EQ滤波器1506(2)、侧EQ滤波器1506(3)和侧EQ滤波器1506(4)。子带空间处理器模块1510的一些实施例具有与此处描述的那些不同的组件。类似地,在一些情况下,可以按照与此处描述的方式不同的方式在组件之间分配功能。
子带空间处理器模块1510接收非空间分量Ym和空间分量Ys,并且增益调节这些分量中的一个或多个分量的子带以提供空间增强。当子带空间处理器模块1510是分量处理器模块1420的一部分时,非空间分量Ym可以是超中间分量M1或残余中间分量M2。空间分量Ys可以是超侧分量S1或残余侧分量S2。当子带空间处理器模块1510是分量处理器模块106的一部分时,非空间分量Ym可以是中间分量126并且空间分量Ys可以是侧分量128。
子带空间处理器模块1510接收非空间分量Ym并且将中间EQ滤波器1504(1)至1504(4)应用到Ym的不同子带以生成增强的非空间分量Em。子带空间处理器模块1510还接收空间分量Ys并将侧EQ滤波器1506(1)至1506(4)应用到Ys的不同子带以生成增强的空间分量Es。子带滤波器可以包括峰值滤波器、陷波滤波器、低通滤波器、高通滤波器、低架滤波器、高架滤波器、带通滤波器、带阻滤波器和/或全通滤波器的各种组合。子带滤波器还可以将增益应用于各个子带。更特别地,子带空间处理器模块1510包括用于非空间分量Ym的n个频率子带中的每一个的子带滤波器和用于空间分量Ys的n个子带中的每一个的子带滤波器。例如,对于n=4个子带,子带空间处理器模块1510包括用于非空间分量Ym的一系列子带滤波器,包括用于子带(1)的中间均衡(EQ)滤波器1504(1)、用于子带(2)的中间EQ滤波器1504(2)、用于子带(3)的中间EQ滤波器1504(3)、以及用于子带(4)的中间EQ滤波器1504(4)。每个中间EQ滤波器1504将滤波器应用到非空间分量Ym的一个频率子带部分以生成增强的非空间分量Em。
子带空间处理器模块1510还包括用于空间分量Ys的频率子带的一系列子带滤波器,包括用于子带(1)的侧均衡(EQ)滤波器1506(1)、用于子带(2)的侧EQ滤波器1506(2)、用于子带(3)的侧EQ滤波器1506(3)、以及用于子带(4)的侧EQ滤波器1506(4)。每个侧EQ滤波器1506将滤波器应用到空间分量Ys的一个频率子带部分以生成增强的空间分量Es。
非空间分量Ym和空间分量Ys的n个频率子带中的每一个可以对应于频率范围。例如,频率子带(1)可以对应于0至300Hz,频率子带(2)可以对应于300至510Hz,频率子带(3)可以对应于510至2700Hz,并且频率子带(4)可以对应于2700Hz到奈奎斯特频率。在一些实施例中,n个频率子带中的每一个都是临界频带的合并集合。可以使用来自多种音乐流派的音频样本语料库来确定临界频带。根据样本来确定24个巴克等级临界频带上的中间分量到侧分量的长期平均能量比率。然后,具有相似长期平均比率的连续频带被分组在一起以形成一组临界频带。频率子带的范围以及频率子带的数目可以是可调节的。
在一些实施例中,子带空间处理器模块1510将残余中间分量M2处理为非空间分量Ym,并使用侧分量、超侧分量Sl或残余侧分量S2之一作为空间分量Ys。
在一些实施例中,子带空间处理器模块1510处理超中间分量Ml、超侧分量Sl、残余中间分量M2和残余侧分量S2中的一个或多个。应用于这些分量中的每一个分量的子带的滤波器可以不同。超中间分量M1和残余中间分量M2各自可以如针对非空间分量Ym所讨论的那样进行处理。超侧分量S1和残余侧分量S2各自可以如针对空间分量Ys所讨论的那样进行处理。
示例串扰补偿处理器
图16是根据一个或多个实施例的串扰补偿处理器模块1610的框图。串扰补偿处理器模块1610是分量处理器模块106或1420的组件的示例。串扰补偿处理器模块1610的一些实施例具有与此处描述的组件不同的组件。类似地,在一些情况下,可以按照与此处描述的方式不同的方式在组件之间分配功能。
串扰补偿处理器模块1610包括中间分量处理器1620和侧分量处理器1630。串扰补偿处理器模块1610接收非空间分量Ym和空间分量Ys并将滤波器应用于这些分量中的一个或多个以补偿针对由(例如后续或之前的)串扰处理引起的频谱缺陷。当串扰补偿处理器模块1610是分量处理器模块1420的一部分时,非空间分量Ym可以是超中间分量M1或残余中间分量M2。空间分量Ys可以是超侧分量S1或残余侧分量S2。当串扰补偿处理器模块1610是分量处理器模块106的一部分时,非空间分量Ym可以是中间分量126并且空间分量Ys可以是侧分量128。
串扰补偿处理器模块1610接收非空间分量Ym,并且中间分量处理器1620应用一组滤波器来生成增强的非空间串扰补偿分量Zm。串扰补偿处理器模块1610还接收空间子带分量Ys并且应用侧分量处理器1630中的一组滤波器来生成增强的空间子带分量Es。中间分量处理器1620包括多个滤波器1640,诸如m个中间滤波器1640(a)、1640(b)至1640(m)。在这里,m个中间滤波器1640中的每一个处理非空间分量Xm的m个频带之一。中间分量处理器1620相应地通过处理非空间分量Xm来生成中间串扰补偿通道Zm。在一些实施例中,中间滤波器1640使用非空间Xm的频率响应图以及通过模拟进行串扰处理来配置。此外,通过分析频率响应图,可以估计作为串扰处理的伪影而出现的超过预定阈值(例如,10dB)的任何频谱缺陷,诸如频率响应图中的峰值或谷值。这些伪影主要是由串扰处理中延迟的以及可能反转的对侧信号与其对应的同侧信号相加而产生的,从而有效地将梳状滤波器状的频率响应引入到最终渲染结果中。中间串扰补偿通道Zm可以由中间分量处理器1620生成以补偿估计的峰值或谷值,其中m个频带中的每一个对应于峰值或谷值。具体而言,基于串扰处理中应用的特定延迟、滤波频率和增益,频率响应中的峰值和谷值上下移位,导致频谱特定区域中的能量的可变放大和/或衰减。每个中间滤波器1640可以被配置为针对峰值和谷值中的一个或多个进行调节。
侧分量处理器1630包括多个滤波器1650,诸如m个侧滤波器1650(a)、1650(b)至1650(m)。侧分量处理器1630通过处理空间分量Xs来生成侧串扰补偿通道Zs。在一些实施例中,可以通过模拟来获得具有串扰处理的空间X的频率响应图。通过分析频率响应图,可以估计作为串扰处理的伪影而出现的超过预定阈值(例如,10dB)的任何频谱缺陷,诸如频率响应图中的峰值或谷值。侧串扰补偿通道Zs可以由侧分量处理器1630生成以补偿估计的峰值或谷值。具体而言,基于串扰处理中应用的特定延迟、滤波频率和增益,频率响应中的峰值和谷值上下移位,导致频谱特定区域中的能量的可变放大和/或衰减。每个侧滤光器1650可以被配置为针对峰值和谷值中的一个或多个进行调节。在一些实施例中,中间分量处理器1620和侧分量处理器1630可以包括不同数目的滤波器。
在一些实施例中,中间滤波器1640和侧滤波器1650可以包括具有由等式(7)定义的传递函数的双二阶滤波器。实现此类滤波器的一种方法是直接形式I拓扑,如等式(22)所定义:
其中X是输入向量,而Y是输出向量。可以使用其他拓扑,具体取决于它们的最大字长和饱和行为。然后,双二阶可以被用来实现具有实值输入和输出的二阶滤波器。为了设计离散时间滤波器,首先设计连续时间滤波器,然后经由双线性变换将其变换为离散时间。此外,可以使用频率扭曲来补偿所产生的中心频率和带宽中的移位。
例如,峰值滤波器可以具有由等式(23)定义的S平面传递函数:
其中s是复数变量,A是峰值的幅度,而Q是滤波器“质量”,并且数字滤波器系数由以下等式(24)定义:
b0=1+αA
b1=-2*cos(ω0)
b2=1-αA
α1=-2cos(ω0)
其中ω0是滤波器的中心频率(以弧度为单位),并且此外,滤波器质量Q可以由等式(25)定义:
其中是带宽,而fc是中心频率。中间滤波器1640被示出为串联,并且侧滤波器1650被示出为串联。在一些实施例中,中间滤波器1640与中间分量Xm并行应用,并且侧滤波器与侧分量Xs并行应用。在一些实施例中,串扰补偿处理器模块1610处理超中间分量M1、超侧分量S1、残余中间分量M2和残余侧分量S2中的每一个。被应用于每个分量的滤波器可以不同。
示例串扰处理器
图17是根据一个或多个实施例的串扰模拟处理器模块1700的框图。串扰模拟处理器模块1700是串扰处理器模块110或串扰处理器模块1224的示例。串扰模拟处理器模块1700的一些实施例具有与此处描述的那些不同的组件。类似地,在一些情况下,可以按照与此处描述的方式不同的方式在组件之间分配功能。
串扰模拟处理器模块1700生成对侧声音分量,以用于输出到立体声耳机,从而在耳机上提供类似扬声器的聆听体验。左输入通道XL可以是经处理的左分量134/1220并且右输入通道XR可以是经处理的右分量136/1222。
串扰模拟处理器模块1700包括左头部阴影低通滤波器1702、左头部阴影高通滤波器1724、左串扰延迟1704和左头部阴影增益1710以处理左输入通道XL。串扰模拟处理器模块1700还包括右头部阴影低通滤波器1706、右头部阴影高通滤波器1726、右串扰延迟1708和右头部阴影增益1712以处理右输入通道XR。串扰模拟处理器模块1500还包括加法单元1714和加法单元1716。
左头部阴影低通滤波器1702和左头部阴影高通滤波器1724向左输入通道XL应用调制,该调制对通过收听者头部之后的信号的频率响应进行建模。左头部阴影高通滤波器1724的输出被提供给应用时间延迟的左串扰延迟1704。时间延迟表示由对侧声音分量相对于同侧声音分量所经历的跨耳距离。左头部阴影增益1710将增益应用到左串扰延迟1704的输出以生成右左模拟通道WL。
类似地,对于右输入通道XR,右头部阴影低通滤波器1706和右头部阴影高通滤波器1726向右输入通道XR应用调制,该调制对收听者头部的频率响应进行建模。右头部阴影高通滤波器1726的输出被提供给应用时间延迟的右串扰延迟1708。右头部阴影增益1712将增益应用到右串扰延迟1708的输出以生成右串扰模拟通道WR。
头部阴影低通滤波器、头部阴影高通滤波器、串扰延迟和头部阴影增益对左通道和右通道中的每一个的应用可以以不同的顺序执行。
加法单元1714将右串扰模拟通道WR和左输入通道XL相加以生成左输出通道OL。加法单元1716将左串扰模拟通道WL与右输入通道XR相加以生成左输出通道OR。
图18是根据一个或多个实施例的串扰消除处理器模块1800的框图。串扰消除处理器模块1800是串扰处理器模块110或串扰处理器模块1224的示例。消除处理器模块1800的一些实施例具有与此处描述的那些不同的组件。类似地,在一些情况下,可以按照与此处描述的方式不同的方式在组件之间分配功能。
串扰消除处理器模块1800接收左输入通道XL和右输入通道XR,并对通道XL、XR执行串扰消除以生成左输出通道OL和右输出通道OR。左输入通道XL可以是经处理的左分量134/1220并且右输入通道XR可以是经处理的右分量136/1222。
串扰消除处理器模块1800包括带内带外划分器1810、反相器1820和1822、对侧估计器1830和1840、组合器1850和1852以及带内带外频带组合器1860。这些组件一起操作以将输入通道TL、TR划分为带内分量和带外分量,并对带内分量执行串扰消除以生成输出通道OL、OR。
通过将输入音频信号T划分成不同的频带分量并且通过对选择性分量(例如,带内分量)执行串扰消除,可以针对特定频带执行串扰消除,同时避免其他频带中的劣化。如果在不将输入音频信号T划分为不同频带的情况下执行串扰消除,则这种串扰消除之后的音频信号可能在低频(例如,低于350Hz)、较高频率(例如,高于12000Hz),或两者中在非空间和空间分量中表现出显著的衰减或放大。通过选择性地对带内(例如,250Hz到14000Hz之间)(其中绝大多数有影响的空间线索所在的带内)执行串扰消除,可以在混合中的频谱上保持平衡的总体能量,特别是在非空间分量中。
带内带外划分器1810将输入通道TL、TR分别分成带内通道TL,In、TR,In和带外通道TL,Out、TR,Out。特别地,带内带外划分器1810将左增强补偿通道TL划分为左带内通道TL,In和左带外通道TL,Out。类似地,带内带外划分器1810将右增强补偿通道TR分成右带内通道TR,In和右带外通道TR,Out。每个带内通道可以涵盖与包括例如250Hz至14kHz的频率范围相对应的相应输入通道的一部分。频带范围可以例如根据扬声器参数是可调节的。
反相器1820和对侧估计器1830一起操作以生成左对侧消除分量SL,以补偿由于左带内通道TL,In导致的对侧声音分量。类似地,反相器1822和对侧估计器1840一起操作以生成右对侧消除分量SR,以补偿由于右带内通道TR,In导致的对侧声音分量。
在一种方法中,反相器1820接收带内信道TL,In并且反转接收到的带内信道TL,In的极性以生成反相的带内信道TL,In'。对侧估计器1830接收反相的带内通道TL,In',并通过滤波来提取反相的带内通道TL,In'中与对侧声音分量相对应的部分。因为滤波是对反相的带内通道TL,In'执行的,所以由对侧估计器1830提取的部分变成带内通道TL,In的归因于对侧声音分量的部分的反相。因此,由对侧估计器1830提取的部分变成左对侧消除分量SL,其可以被添加到对照的带内通道TR,In以减少由于带内通道TL,In导致的对侧声音分量。在一些实施例中,反相器1820和对侧估计器1830以不同的顺序实现。
反相器1822和对侧估计器1840关于带内信道TR,In执行类似的操作以生成右对侧消除分量SR。因此,为了简洁起见,在本文中省略其详细描述。
在一个示例实现中,对侧估计器1830包括滤波器1832、放大器1834和延迟单元1836。滤波器1832接收反相的输入通道TL,In',并通过滤波来提取反相的带内通道TL,In'中与对侧声音分量相对应的部分。滤波器实现的示例是陷波或高架滤波器,其中心频率在5000到10000Hz之间选择,Q在0.5到1.0之间选择。增益分贝(GdB)可以从等式(26)导出:
GdB=-3.0-log1.333(D) (26)
其中D是延迟单元1836以样本为单位的延迟量,例如在48kHz的采样率下。另一种实现是低通滤波器,其角频率在5000到10000Hz之间选择,Q在0.5到1.0之间选择。此外,放大器1834将所提取的部分放大对应的增益系数GL,In,并且延迟单元1836根据延迟函数D来延迟来自放大器1834的放大输出,以生成左对侧消除分量SL。对侧估计器1840包括滤波器1842、放大器1844和延迟单元1846,延迟单元1846对反相的带内通道TR,In'执行类似操作以生成右对侧消除分量SR。在一个示例中,对侧估计器1830、1840根据下面的等式来生成左和右对侧消除分量SL、SR:
SL=D[GL,In*F[TL,In’]] (27)
SR=D[GR,In*F[TR,In’]] (28)
其中F[]是滤波器函数,而D[]是延迟函数。
串扰消除的配置可以由扬声器参数来确定。在一个示例中,可以根据两个扬声器之间相对于收听者而形成的角度来确定滤波器中心频率、延迟量、放大器增益和滤波器增益。在一些实施例中,扬声器角度之间的值被用来内插其他值。
组合器1850将右对侧消除分量SR组合到左带内通道TL,In以生成左带内串扰通道UL,并且组合器1852将左对侧消除分量SL组合到右带内通道TR,In以生成右带内串扰通道UR。带内带外组合器1860将左带内串扰通道UL与带外通道TL,Out组合以生成左输出通道OL,并将右带内串扰通道UR与带外通道TR,Out组合以生成右输出通道OR。
因此,左输出通道OL包括与带内通道TR,In中归因于对侧声音的那部分的反相相对应的右对侧消除分量SR,并且右输出通道OR包括与带内通道TL,In中归因于对侧声音的那部分的反相相对应的左对侧消除分量SL。在该配置中,根据右输出通道OR由右扬声器输出的同侧声音分量到达右耳的波前可以抵消根据左输出通道OL由左扬声器输出的对侧声音分量的波前。类似地,根据左输出通道OL由左扬声器输出的同侧声音分量到达左耳的波前可以抵消根据右输出通道OR由右扬声器输出的对侧声音分量的波前。因此,可以减少对侧声音分量以增强空间可检测性。
示例PSM流程
图19是根据一个或多个实施例的用于PSM处理的过程1900的流程图。过程1900可以包括更少或更多的步骤,并且步骤可以以不同的顺序执行。在一些实施例中,PSM处理可以使用希尔伯特变换感知声场修改(HPSM)模块来执行。
音频处理***(例如,音频处理***100或1200的PSM模块102)将输入通道分离1905为低频分量和高频分量。定义低频分量和高频分量之间的边界的交叉频率可以是可调节的,以便确保PSM处理感兴趣的频率被包括在高频分量中。在一些实施例中,音频处理***将增益应用到低频分量和/或高频分量。
输入通道可以是被提取用于PSM处理的音频信号的特定部分。在一些实施例中,输入通道是(例如,立体声或多通道)音频信号的中间分量或侧分量。在一些实施例中,输入通道是音频信号的超中间分量、超侧分量、残余中间分量或残余侧分量。在一些实施例中,输入通道与声源相关联,诸如语音或乐器,其将与其他声音组合成音频混合。
音频处理***向高频分量应用1910第一希尔伯特变换以生成第一左分支分量和第一右分支分量,第一左分支分量相对于第一右分支分量异相90度。
音频处理***向第一右分支分量应用1915第二希尔伯特变换以生成第二左分支分量和第二右分支分量,第一左分支分量相对于第一右分支分量异相90度。
在一些实施例中,音频处理***向第一左分支分量应用延迟和/或增益。音频处理***可以向第二右分支分量应用延迟和/或增益。这些增益和延迟可以便用来操纵PSM处理的感知结果。
音频处理***将第一左分支分量与低频分量组合1920以生成左通道。音频处理***将第二右分支分量与低频分量组合1925以生成右通道。左通道可以被提供给左扬声器并且右通道可以被提供给右扬声器。
图20是根据一些实施例的使用一阶非正交基于旋转的去相关(FNORD)滤波器网络进行PSM处理的另一过程2000的流程图。如图20中所示的过程可以由音频***(例如,***100、202或1200)的组件来执行。在其他实施例中,其他实体可以执行图20中的一些或全部步骤。实施例可以包括不同的和/或附加的步骤,或者以不同的顺序执行这些步骤。
音频***确定2005目标幅度响应,该目标幅度响应定义要被编码到单声道音频信号中的一个或多个空间线索以生成多个结果通道,其中该一个或多个空间线索与编码到结果通道的中间/侧空间中的一个或多个频率相关幅度线索相关联,其不会改变结果通道的整体着色。一个或多个空间线索可以包括与目标仰角角度相关联的至少一个仰角线索。每个仰角线索可以对应于要被编码到音频信号的中间/侧空间中的一个或多个频率相关幅度线索,诸如对应于在一个或多个特定频率处的无限衰减的窄区域的目标幅度函数。另一方面,由于仰角的左/右线索通常在着色上是对称的,因此左/右信号可以被约束为无色。在一些实施例中,空间线索可以基于采样的HRTF。
在一些实施例中,目标幅度响应还可以定义一个或多个参数化空间线索,其可以包括目标宽带衰减、目标子带衰减、临界点、滤波器特性和/或线索要被嵌入到的声场位置。临界点可以是3dB处的拐点。滤波器特性可以包括高通滤波器特性、低通特性、带通特性或带阻特性之一。声场位置可以包括中间或侧通道,或者在输出通道的数目大于两个的情况下,包括输出空间内的其他子空间,诸如经由成对和/或分层总和和/或差异而确定的子空间。可以基于呈现设备的特性(例如,扬声器的频率响应、扬声器的位置)、音频数据的预期内容、收听者在上下文中的感知能力或所涉及的音频呈现***的最低质量预期来确定一个或多个空间线索。例如,如果扬声器无法充分再现200Hz以下的频率,则应避免嵌入在该范围内的空间线索。类似地,如果预期音频内容是语音,则音频***可以选择仅影响耳朵最敏感的频率的目标幅度响应,该频率位于语音的预期带宽内。如果收听者将从上下文中的其他源(诸如该位置中的另一个扬声器阵列)获得听觉线索,则音频***可以确定与那些同时线索互补的目标幅度响应。
音频***基于目标幅度响应来确定2010单输入多输出全通滤波器的传递函数。传递函数定义输出通道的相位角的相对旋转。针对每个输出,以相位角旋转作为频率的函数,传递函数描述了滤波器网络对其输入的影响。
音频***基于传递函数来确定2015全通滤波器的系数。这些系数将以最适合约束和/或线索类型的方式被选择并被应用于输入音频流。系数集的一些示例在等式(12)、(13)、(17)和(19)中被定义。在一些实施例中,基于传递函数来确定全通滤波器的系数包括使用离散傅立叶逆变换(idft)。在这种情况下,可以如等式(19)所定义的那样确定系数集。在一些实施例中,基于传递函数来确定全通滤波器的系数包括使用相位声码器。在这种情况下,可以如等式(19)所定义的那样确定系数集,除了这些将在重新合成时域数据之前被应用于频域中之外。在一些实施例中,系数至少包括旋转控制参数和一阶系数,其是基于接收到的临界点参数、滤波器特性参数和声场位置参数来确定的。
音频***用全通滤波器的系数处理2020单声道以生成多个通道。例如,在一些实施例中,全通滤波器模块接收单声道音频通道,并基于旋转控制参数对单声道音频通道执行宽带相位旋转以生成多个宽带旋转分量通道(例如左和右宽带旋转分量),并且基于一阶系数对多个宽带旋转分量通道中的至少一个进行窄带相位旋转以确定窄带旋转分量通道,该窄带旋转分量通道与宽带旋转分量通道的一个或多个剩余通道一起,形成由音频***输出的多个通道。
在一些实施例中,如果***使用IIR实现操作在时域中,如等式(8)中,则系数可以缩放适当的反馈和前馈延迟。如等式(19)中,如果使用FIR实现,则可以仅使用前馈延迟。如果在谱域中确定并应用系数,则可以在重新合成之前将它们作为复数乘法应用到频谱数据。音频***可以将多个输出通道提供给呈现设备,诸如经由网络连接到音频***的用户设备。
上述示例PSM处理流程均利用全通滤波器网络来通过感知地将单声道内容放置到声场中的特定位置(例如,与目标仰角角度相关联的位置)来对空间线索进行编码。因为本文描述的全通滤波器网络是无色的,所以这些滤波器允许用户将音频的空间放置与其整体着色解耦合。
正交分量空间处理
图21是根据一个或多个实施例的用于使用超中间分量、残余中间分量、超侧分量或残余侧分量中的至少一个进行空间处理的过程2100的流程图。空间处理可以包括增益应用、基于幅度或延迟的平移、双耳处理、混响、动态范围处理(诸如压缩和限制)、线性或非线性音频处理技术和效果、合唱效果、镶边效果、基于机器学习的声乐或器乐风格转移、转换或重新合成的方法等等。经由执行该过程以向用户的设备提供空间增强的音频。该过程可以包括更少或更多的步骤,并且步骤可以以不同的顺序执行。
音频处理***(例如,音频处理***1200)接收2110输入音频信号(例如,左通道1202和右输入通道1204)。在一些实施例中,输入音频信号可以是包括多个左右通道对的多通道音频信号。每个左右通道对可以如本文针对左输入通道和右输入通道所讨论的那样进行处理。
音频处理***根据输入音频信号来生成2120非空间中间分量(例如,中间分量1208)和空间侧分量(例如,侧分量1210)。在一些实施例中,L/R到M/S转换器(例如,L/R到M/S转换器模块1206)执行输入音频信号到中间分量和侧分量的转换。
音频处理***生成2130超中间分量(例如,超中间分量Ml)、超侧分量(例如,超侧分量S1)、残余中间分量(例如,残余中间分量M2)和残余侧分量(例如残余侧分量S2)中的至少一个。音频处理***可以生成上面列出的分量中的至少一个和/或全部分量。超中间分量包括从中间分量的频谱能量中移除的侧分量的频谱能量。残余中间分量包括从中间分量的频谱能量中移除的超中间分量的频谱能量。超侧分量包括从侧分量的频谱能量中移除的中间分量的频谱能量。残余侧分量包括从侧分量的频谱能量中移除的超侧分量的频谱能量。被用来生成M1、M2、S1或S2的处理可以在频域或时域中被执行。
音频处理***对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一个进行滤波2140以增强音频信号。滤波可以包括HPSM处理,其中一系列希尔伯特变换被应用于残余中间分量、超侧分量、残余侧分量或超中间分量的高频分量。在一个示例中,超中间分量接收HPSM处理,而残余中间分量、超侧分量或残余侧分量中的一个或多个接收其他类型的滤波。
滤波可以包括PSM处理,其中经由上面结合等式(20)讨论的HRTF数据的人体测量采样或者通过如上面结合图10A和图10B更详细地讨论的空间线索的参数规范对空间线索进行无色编码。在一个示例中,超中间分量接收PSM处理,而残余中间分量、超侧分量或残余侧分量中的一个或多个不接收滤波或其他类型的滤波。
滤波可以包括其他类型的滤波,诸如空间线索处理。空间线索处理可以包括调节超中间分量、残余中间分量、超侧分量或残余侧分量的频率相关幅度或频率相关延迟。空间线索处理的一些示例包括基于幅度或延迟的平移或双耳处理。
滤波可以包括动态范围处理,诸如压缩或限制。例如,当超过用于压缩的阈值水平时,可以根据压缩比来压缩超中间分量、残余中间分量、超侧分量或残余侧分量。在另一示例中,当超过用于限制的阈值水平时,可以将超中间分量、残余中间分量、超侧分量或残余侧分量限制为最大水平。
滤波可以包括对超中间分量、残余中间分量、超侧分量或残余侧分量的基于机器学习的改变。一些示例包括基于机器学习的声乐或器乐风格转移、转换或重新合成。
超中间分量、残余中间分量、超侧分量或残余侧分量的滤波可以包括增益应用、混响、以及范围从合唱和/或翻边的其他线性或非线性音频处理技术和效果或者或其他类型的处理。在一些实施例中,滤波可以包括针对子带空间处理和串扰补偿的滤波,如下面结合图22更详细讨论的。
滤波可以在频域或时域中执行。在一些实施例中,中间分量和侧分量从时域被转换到频域,在频域中生成超分量和/或残余分量,在频域中执行滤波,并且将经滤波的分量转换到时域。在其他实施例中,超分量和/或残差分量被转换到时域,并且在时域中对这些分量执行滤波。
音频处理***使用一个或多个经滤波的超分量/残余分量来生成2150左输出通道(例如,左输出通道1242)和右输出通道(例如,右输出通道1244)。例如,可以使用根据经滤波的超中间分量、经滤波的残余中间分量、经滤波的超侧分量或经滤波的残余侧分量中的至少一个所生成的中间分量或侧分量来执行从M/S到L/R的转换。在另一示例中,经滤波的超中间分量或经滤波的残余中间分量可以被用作M/S到L/R转换的中间分量,或者经滤波的超侧分量或残余侧分量可以被用作M/S到L/R转换的侧分量。
正交分量子带空间和串扰处理
图22是根据一个或多个实施例的使用超中间分量、残余中间分量、超侧分量或残余侧分量中的至少一个进行子带空间处理和串扰处理补偿的过程2200的流程图。串扰处理可以包括串扰消除或串扰模拟。可以执行子带空间处理以提供具有增强的空间可检测性的音频内容,诸如通过创建声音不是从与扬声器的位置相对应的空间中的特定点而是从大区域被引导到收听者的感知(例如声场增强),从而为收听者带来更加身临其境的聆听体验。串扰模拟可以被用于到耳机的音频输出,以模拟具有对侧串扰的扬声器体验。串扰消除可以被用于到扬声器的音频输出,以移除串扰干扰的影响。串扰补偿用于补偿由串扰消除或串扰模拟所引起的频谱缺陷。该过程可以包括更少或更多的步骤,并且步骤可以以不同的顺序执行。超中间分量/侧分量和残余中间分量/侧分量可以以不同的方式来操纵以达到不同的目的。例如,在串扰补偿的情况下,目标子带滤波可以仅被应用于超中间分量M1(在许多电影内容中的大部分人声对话能量发生的情况下),以努力移除仅在该分量中由串扰处理产生的频谱伪影。在具有或不具有串扰处理的声场增强的情况下,可以将目标子带增益应用于残余中间分量M2和残余侧分量S2。例如,残余中间分量M2可以被衰减,并且残余侧分量S2可以被反向放大,以从增益角度增加这些分量之间的距离(如果做得有品位,则可以增加空间可检测性),而不会在最终L/R信号中产生感知响度的剧烈总体变化,同时还避免了超中间分量M1中的衰减(例如,通常包含大部分声音能量的信号部分)。
音频处理***接收2210输入音频信号,该输入音频信号包括左通道和右通道。在一些实施例中,输入音频信号可以是包括多个左右通道对的多通道音频信号。每个左右通道对可以如本文针对左输入通道和右输入通道所讨论的那样进行处理。
音频处理***对接收到的输入音频信号应用2220串扰处理。串扰处理包括串扰模拟和串扰消除中的至少一种。
在步骤2230至2260中,音频处理***使用超中间分量、超侧分量、残余中间分量或残余侧分量中的一个或多个来执行子带空间处理和用于串扰处理的串扰补偿。在一些实施例中,可以在步骤2230至2260中的处理之后执行串扰处理。
音频处理***根据(例如,经过串扰处理的)音频信号来生成2230中间分量和侧分量。
音频处理***生成2240超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一个。音频处理***可以生成上面列出的分量中的至少一个和/或全部分量。
音频处理***对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一个的子带进行滤波2250以将子带空间处理应用于音频信号。每个子带可以包括频率范围,诸如可以由临界频带集合定义。在一些实施例中,子带空间处理还包括对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一个的子带进行时间延迟。在一些实施例中,滤波包括应用HPSM处理。
音频处理***对超中间分量、残余中间分量、超侧分量和残余侧分量中的至少一个进行滤波2260,以补偿来自输入音频信号的串扰处理的频谱缺陷。频谱缺陷可以包括作为串扰处理的伪影而出现的超过预定阈值(例如,10dB)的超中间分量、残余中间分量、超侧分量或残余侧分量的频率响应图中的峰值或谷值。频谱缺陷可以是估计的频谱缺陷。
在一些实施例中,步骤2250中用于子带空间处理的频谱正交分量的滤波和步骤2260中的串扰补偿可以被集成到用于被选择用于进行滤波的每个频谱正交分量的单个滤波操作中。
在一些实施例中,用于子带空间处理或串扰补偿的超中间分量/侧分量/残余中间分量/侧分量的滤波器可以结合用于其他目的的滤波来执行,诸如增益应用、基于幅度或延迟的平移、双耳处理、混响、动态范围处理(诸如压缩和限制)、线性或非线性音频处理技术和效果(从合唱和/或镶边到基于机器学习的声乐或器乐风格转移、转换或重新合成方法)、或使用超中间分量、剩余中间分量、超侧分量和剩余侧分量中的任何一个的其他类型的处理。
滤波可以在频域或时域中被执行。在一些实施例中,中间分量和侧分量从时域被转换到频域,在频域中生成超分量和/或残余分量,在频域中执行滤波,并且将经滤波的分量转换到时域。在其他实施例中,超分量和/或残差分量被转换到时域,并且在时域中对这些分量执行滤波。
音频处理***根据经滤波的超中间分量来生成2270左输出通道和右输出通道。在一些实施例中,左输出通道和右输出通道另外基于经滤波的残余中间分量、经滤波的超侧分量和经滤波的残余侧分量中的至少一个。
示例计算机
图23是根据一些实施例的计算机2300的框图。计算机2300是包括实现诸如音频***100、202或1200之类的音频***的电路的计算设备的示例。图示的是耦合到芯片组2304的至少一个处理器2302。芯片组2304包括存储器控制器集线器2320和输入/输出(I/O)控制器集线器2322。存储器2306和图形适配器2312耦合到存储器控制器集线器2320,并且显示设备2318耦合到图形适配器2312。存储设备2308、键盘2310、定点设备2314和网络适配器2316耦合到I/O控制器集线器2322。计算机2300可以包括各种类型的输入或输出设备。计算机2300的其他实施例具有不同的架构。例如,在一些实施例中,存储器2306直接耦合到处理器2302。
存储设备2308包括一个或多个非暂态计算机可读存储介质,诸如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储器设备。存储器2306保存由处理器2302使用的程序代码(包括一个或多个指令)和数据。程序代码可以对应于参考图1到图3描述的处理方面。
定点设备2314与键盘2310结合使用以将数据输入到计算机***2300中。图形适配器2312在显示设备2318上显示图像和其他信息。在一些实施例中,显示设备2318包括用于接收用户输入和选择的触摸屏功能。网络适配器2316将计算机***2300耦合到网络。计算机2300的一些实施例具有与图23中所示的那些不同的和/或其他组件。
电路可以包括执行存储在非暂态计算机可读介质中的程序代码的一个或多个处理器,该程序代码在由一个或多个处理器执行时配置该一个或多个处理器以实现音频***或音频***的模块。实现音频***或音频***的模块的电路的其他示例可以包括集成电路,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他类型的计算机电路。
附加考虑因素
所公开的配置的示例益处和优点包括由于适应设备以及和相关联的音频呈现***的增强音频***而产生的动态音频增强以及由设备OS提供的其他相关信息,诸如用例信息(例如,指示音频信号被用于音乐播放而不是游戏)。增强音频***可以被集成到设备中(例如,使用软件开发套件)或被存储在远程服务器上以便按需访问。以这种方式,设备不需要投入存储或处理资源来维护特定于其音频呈现***或音频呈现配置的音频增强***。在一些实施例中,增强音频***使得能够对呈现***信息进行不同级别的查询,使得可以在不同级别的可用设备特定呈现信息上应用有效的音频增强。
贯穿本说明书,多个实例可以实现被描述为单个实例的组件、操作或结构。尽管一种或多种方法的各个操作被图示并描述为分开的操作,但是各个操作中的一个或多个可以同时执行,并且不要求操作以所图示的顺序来执行。在示例配置中呈现为分开组件的结构和功能性可以被实现为组合结构或组件。类似地,作为单个组件呈现的结构和功能性可以被实现为分开的组件。这些和其他变化、修改、添加和改进落入本文主题的范围内。
某些实施例在本文中被描述为包括逻辑或数个组件、模块或机制。模块可以构成软件模块(例如,体现在机器可读介质上或传输信号中的代码)或硬件模块。硬件模块是能够执行某些操作并且可以以某种方式配置或布置的有形单元。在示例实施例中,一个或多个计算机***(例如,独立的客户端或服务器计算机***)或计算机***的一个或多个硬件模块(例如,处理器或一组处理器)可以由软件(例如,应用或应用部分)配置为硬件模块,其操作以执行如本文所描述的某些操作。
本文描述的示例方法的各种操作可以至少部分地由临时配置(例如,通过软件)或永久配置为执行相关操作的一个或多个处理器来执行。无论是临时配置还是永久配置,这样的处理器都可以构成处理器实现的模块,其操作以执行一个或多个操作或功能。在一些示例实施例中,本文提及的模块可以包括处理器实现的模块。
类似地,本文描述的方法可以至少部分地由处理器实现。例如,一种方法的至少一些操作可以由一个或多个处理器或处理器实现的硬件模块来执行。某些操作的性能可以分布在一个或多个处理器之间,不仅驻留在单个机器内,而且被部署在多个机器上。在一些示例实施例中,一个或多个处理器可以位于单个位置(例如,在家庭环境内、办公室环境内或作为服务器场),而在其他实施例中,处理器可以分布在多个位置上。
除非另外具体说明,否则本文中使用诸如“处理”、“计算”(computing)、“计算”(calculating)、“确定”、“呈现”、“显示”等词语的讨论可以指代机器(例如,计算机)的动作或过程,该机器操纵或变换被表示为一个或多个存储器(例如,易失性存储器、非易失性存储器或其组合)、寄存器或接收、存储、传输或显示信息的其他机器组件内的物理(例如,电子、磁或光学)量的数据。
如本文中所使用的,对“一个实施例”或“实施例”的任何引用意味着结合该实施例描述的特定元件、特征、结构或特性被包括在至少一个实施例中。在说明书中不同地方出现的短语“在一个实施例中”不一定都指同一个实施例。
一些实施例可以使用表述“耦合”和“连接”及其派生词来描述。应当理解,这些术语并不旨在作为彼此的同义词。例如,一些实施例可以使用术语“连接”来描述,以指示两个或更多元件彼此直接物理或电接触。在另一示例中,一些实施例可以使用术语“耦合”来描述,以指示两个或更多元件处于直接物理或电接触。然而,术语“耦合”也可以意味着两个或更多元件彼此不直接接触,但仍然彼此协作或交互。实施例不限于此上下文。
如本文中所使用的,术语“包括”、“包含”、“具有”或其任何其他变体旨在覆盖非排他性包含。例如,包括一系列元素的过程、方法、物品或装置不必仅限于那些元素,而是可以包括未明确列出的或此类过程、方法、物品或装置所固有的其他元素。此外,除非明确相反地说明,否则“或”是指包含性的或而不是排他性的。例如,条件A或B通过以下任一条件来满足:A为真(或存在)且B为假(或不存在)、A为假(或不存在)且B为真(或存在),以及A和B都为真(或存在)。
此外,采用“一”或“一个”来描述本文中的实施例的元件和组件。这样做仅仅是为了方便并且给出本发明的一般意义。本描述应被解读为包括一个或至少一个,并且单数也包括复数,除非明显有其他含义。
本说明书的一些部分根据对信息的操作的算法和符号表示来描述实施例。这些算法描述和表示通常被数据处理领域的技术人员用来将他们的工作实质有效地传达给本领域的其他技术人员。这些操作虽然在功能上、计算上或逻辑上进行描述,但是应被理解为通过计算机程序或等效电路、微代码等来实现。此外,在不失一般性的情况下,将这些操作布置称为模块有时也证明是很方便的。所描述的操作及其相关联的模块可以被体现在软件、固件、硬件或其任何组合中。
本文描述的任何步骤、操作或过程可以用一个或多个硬件或软件模块单独地或与其他装置组合地执行或实现。在一个实施例中,软件模块利用计算机程序产品来实现,该计算机程序产品包括包含计算机程序代码的计算机可读介质,计算机程序代码可以由计算机处理器执行以用于执行所描述的任何或所有步骤、操作或过程。
实施例还可以涉及用于执行本文的操作的装置。该装置可以为了所需的目的而被专门构造,和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以被存储在非暂态有形计算机可读存储介质或适合于存储电子指令的任何类型的介质中,其可以耦合到计算机***总线。此外,本说明书中提及的任何计算***可以包括单个处理器或者可以是采用多处理器设计以提高计算能力的架构。
实施例还可以涉及由本文描述的计算过程产生的产品。这样的产品可以包括由计算过程产生的信息,其中该信息被存储在非暂态有形计算机可读存储介质上,并且可以包括计算机程序产品或本文描述的其他数据组合的任何实施例。
在阅读本公开后,本领域技术人员将了解通过本文所公开的原理用于音频内容去相关的***和过程的另外的替代结构和功能设计。因此,虽然已经图示和描述了特定实施例和应用,但是应当理解,所公开的实施例不限于本文所公开的精确构造和组件。在不脱离所附权利要求中定义的精神和范围的情况下,可以对本文公开的方法和装置的布置、操作和细节进行对本领域技术人员来说显而易见的各种修改、改变和变型。
最后,本说明书中使用的语言主要是出于可读性和指导目的而选择的,并且它不是为了描述或限制专利权而选择的。因此,专利权的范围不受该详细描述的限制,而是受基于在此的申请中发布的任何权利要求的限制。因此,实施例的公开内容旨在说明而不是限制所附权利要求中阐述的专利权的范围。
Claims (50)
1.一种用于将沿矢状面的空间线索编码到单声道信号中以生成多个结果通道的方法,包括由处理电路:
基于与频率相关的相移相关联的空间线索来确定针对所述多个结果通道的中间分量或侧分量的目标幅度响应;
将针对所述中间分量或所述侧分量的所述目标幅度响应转换成针对单输入多输出全通滤波器的传递函数;以及
使用所述全通滤波器来处理所述单声道信号,其中所述全通滤波器基于所述传递函数被配置。
2.根据权利要求1所述的方法,其中针对所述结果通道的所述中间分量或所述侧分量的所述目标幅度响应根据补偿零点而被确定。
3.根据权利要求2所述的方法,其中为了对垂直空间线索进行编码的目的,所述补偿零点在8kHz至16kHz的范围内。
4.根据权利要求1所述的方法,其中:
针对所述多个结果通道的所述中间分量或所述侧分量的所述目标幅度响应根据幅度与频率的关系而被确定;以及
所述方法还包括:使用离散傅里叶逆变换(idft)来将所述目标幅度响应转换成针对所述单输入多输出全通滤波器的系数。
5.根据权利要求1所述的方法,其中:
针对所述多个结果通道的所述中间分量或所述侧分量的所述目标幅度响应根据幅度与频率的关系而被确定;以及
所述方法还包括:使用相位声码器来将所述目标幅度响应转换成针对所述单输入多输出全通滤波器的系数。
6.根据权利要求1所述的方法,其中所述目标幅度响应定义一个或多个参数化空间线索,所述一个或多个参数化空间线索包括目标宽带衰减、临界点、滤波器特性和声场位置中的一个或多个。
7.根据权利要求6所述的方法,其中所述滤波器特性包括以下各项中的一项:
高通滤波器特性;
低通滤波器特性;
带通滤波器特性;或者
带阻滤波器特性。
8.一种用于将沿矢状面的空间线索编码到单声道信号中以生成多个结果通道的***,包括:
一个或多个计算设备,被配置为:
基于与频率相关的相移相关联的空间线索来确定针对所述多个结果通道的中间分量和侧分量的目标幅度响应;
将针对所述中间分量或所述侧分量的所述目标幅度响应转换成针对单输入多输出全通滤波器的传递函数;以及
使用所述全通滤波器来处理所述单声道信号,其中所述全通滤波器基于所述传递函数被配置。
9.根据权利要求8所述的***,其中针对所述结果通道的所述中间分量或所述侧分量的所述目标幅度响应根据补偿零点而被确定。
10.根据权利要求9所述的***,其中为了对垂直空间线索进行编码的目的,所述补偿零点在8kHz至12kHz的范围内。
11.根据权利要求8所述的***,其中:
针对所述多个结果通道的所述中间分量或所述侧分量的所述目标幅度响应根据幅度与频率的关系而被确定;以及
所述一个或多个计算设备还被配置为:使用离散傅里叶逆变换(idft)来将所述目标幅度响应转换成针对所述单输入多输出全通滤波器的系数。
12.根据权利要求8所述的***,其中:
针对所述多个结果通道的所述中间分量或所述侧分量的所述目标幅度响应根据幅度与频率的关系而被确定;以及
所述一个或多个计算设备还被配置为:使用相位声码器来将所述目标幅度响应转换成针对所述单输入多输出全通滤波器的系数。
13.根据权利要求8所述的***,其中所述目标幅度响应定义一个或多个参数化空间线索,所述一个或多个参数化空间线索包括目标宽带衰减、临界点、滤波器特性和声场位置中的一个或多个。
14.根据权利要求13所述的***,其中所述滤波器特性包括以下各项中的一项:
高通滤波器特性;
低通滤波器特性;
带通滤波器特性;或者
带阻滤波器特性。
15.一种非暂态计算机可读介质,包括用于将沿矢状面的空间线索编码到单声道信号中以生成多个结果通道的存储的指令,所述指令在由至少一个处理器执行时将所述至少一个处理器配置为:
基于与频率相关的相移相关联的空间线索来确定针对所述多个结果通道的中间分量和侧分量的目标幅度响应;
将针对所述中间分量或所述侧分量的所述目标幅度响应转换成针对单输入多输出全通滤波器的传递函数;以及
使用所述全通滤波器来处理所述单声道信号,其中所述全通滤波器基于所述传递函数被配置。
16.根据权利要求15所述的非暂态计算机可读介质,其中针对所述结果通道的所述中间分量或所述侧分量的所述目标幅度响应根据补偿零点而被确定。
17.根据权利要求16所述的非暂态计算机可读介质,其中为了对垂直空间线索进行编码的目的,所述补偿零点在8kHz至12kHz的范围内。
18.根据权利要求15所述的非暂态计算机可读介质,其中:
针对所述多个结果通道的所述中间分量或所述侧分量的所述目标幅度响应根据幅度与频率的关系而被确定;以及
所述一个或多个处理器还被配置为:使用离散傅立叶逆变换(idft)来将所述目标幅度响应转换成针对所述单输入多输出全通滤波器的系数。
19.根据权利要求15所述的非暂态计算机可读介质,其中:
针对所述多个结果通道的所述中间分量或所述侧分量的所述目标幅度响应根据幅度与频率的关系而被确定;以及
所述一个或多个处理器还被配置为:使用相位声码器来将所述目标幅度响应转换成针对所述单输入多输出全通滤波器的系数。
20.根据权利要求15所述的非暂态计算机可读介质,其中所述目标幅度响应定义对所述多个结果通道的总和的一个或多个约束,所述一个或多个约束包括目标宽带衰减、临界点和滤波器特性中的一个或多个。
21.一种***,包括:
一个或多个处理器;以及
非暂态计算机可读介质,包括存储的程序代码,所述程序代码在由所述一个或多个处理器执行时将所述一个或多个处理器配置为:
将音频通道分离成低频分量和高频分量;
向所述高频分量应用第一希尔伯特变换以生成第一左分支分量和第一右分支分量,所述第一左分支分量相对于所述第一右分支分量异相90度;
向所述第一右分支分量应用第二希尔伯特变换以生成第二左分支分量和第二右分支分量,所述第二左分支分量相对于所述第二右分支分量异相90度;
将所述第一左分支分量与所述低频分量组合以生成左通道;以及
将所述第二右分支分量与所述低频分量组合以生成右通道。
22.根据权利要求21所述的***,其中所述程序代码还将所述一个或多个处理器配置为:向所述低频分量应用第一增益,以及向所述高频分量应用第二增益,所述第一增益和所述第二增益不同。
23.根据权利要求21所述的***,其中所述程序代码还将所述一个或多个处理器配置为:向所述第一左分支分量应用第一延迟,以及向所述第二右分支分量应用第二延迟,所述第一延迟和所述第二延迟不同。
24.根据权利要求21所述的***,其中所述程序代码还将所述一个或多个处理器配置为:向所述第一左分支分量应用第一增益,以及向所述第二右分支分量应用第二增益,所述第一增益和所述第二增益不同。
25.根据权利要求21所述的***,其中:
将所述一个或多个处理器配置为向所述高频分量应用所述第一希尔伯特变换的所述程序代码将所述一个或多个处理器配置为:
向所述高频分量应用第一系列全通滤波器以生成所述第一左分支分量;以及
向所述高频分量应用第一延迟和第二系列全通滤波器以生成所述第一右分支分量;并且
将所述一个或多个处理器配置为向所述第一右分支分量应用所述第二希尔伯特变换的所述程序代码将所述一个或多个处理器配置为:
向所述第一右分支分量应用第三系列全通滤波器以生成所述第二左分支分量;以及
向所述第一右分支分量应用第二延迟和第四系列全通滤波器以生成所述第二右分支分量。
26.根据权利要求21所述的***,其中所述程序代码还将所述一个或多个处理器配置为通过以下方式生成所述音频通道:
从音频信号的左输入通道和右输入通道生成中间分量和侧分量;以及
生成超中间分量,所述超中间分量包括从所述中间分量的频谱能量被移除的所述侧分量的频谱能量。
27.根据权利要求21所述的***,其中所述程序代码还将所述一个或多个处理器配置为:
从所述左通道和所述右通道生成中间分量和侧分量;
向所述中间分量和所述侧分量应用滤波器;以及
从经滤波的所述中间分量和经滤波的所述侧分量生成左输出通道和右输出通道。
28.根据权利要求21所述的***,其中所述程序代码还将所述一个或多个处理器配置为:通过组合多通道音频信号的通道来生成所述音频通道。
29.根据权利要求21所述的***,其中所述程序代码还将所述一个或多个处理器配置为:通过隔离音频信号的一部分来生成所述音频通道。
30.根据权利要求21所述的***,其中所述高频分量包括针对语音的音频。
31.一种非暂态计算机可读介质,包括存储的程序代码,所述程序代码在由一个或多个处理器执行时将所述一个或多个处理器配置为:
将音频通道分离成低频分量和高频分量;
向所述高频分量应用第一希尔伯特变换以生成第一左分支分量和第一右分支分量,所述第一左分支分量相对于所述第一右分支分量异相90度;
向所述第一右分支分量应用第二希尔伯特变换以生成第二左分支分量和第二右分支分量,所述第二左分支分量相对于所述第二右分支分量异相90度;
将所述第一左分支分量与所述低频分量组合以生成左通道;以及
将所述第二右分支分量与所述低频分量组合以生成右通道。
32.根据权利要求31所述的计算机可读介质,其中所述程序代码还将所述一个或多个处理器配置为:向所述低频分量应用第一增益,以及向所述高频分量应用第二增益,所述第一增益和所述第二增益不同。
33.根据权利要求31所述的计算机可读介质,其中所述程序代码还将所述一个或多个处理器配置为:向所述第一左分支分量应用第一延迟,以及向所述第二右分支分量应用第二延迟,所述第一延迟和所述第二延迟不同。
34.根据权利要求31所述的计算机可读介质,其中所述程序代码还将所述一个或多个处理器配置为:向所述第一左分支分量应用第一增益,以及向所述第二右分支分量应用第二增益,所述第一增益和所述第二增益不同。
35.根据权利要求31所述的计算机可读介质,其中:
将所述一个或多个处理器配置为向所述高频分量应用所述第一希尔伯特变换的所述程序代码将所述一个或多个处理器配置为:
向所述高频分量应用第一系列全通滤波器以生成所述第一左分支分量;以及
向所述高频分量应用第一延迟和第二系列全通滤波器以生成所述第一右分支分量;并且
将所述一个或多个处理器配置为向所述第一右分支分量应用所述第二希尔伯特变换的所述程序代码将所述一个或多个处理器配置为:
向所述第一右分支分量应用第三系列全通滤波器以生成所述第二左分支分量;以及
向所述第一右分支分量应用第二延迟和第四系列全通滤波器以生成所述第二右分支分量。
36.根据权利要求31所述的计算机可读介质,其中所述程序代码还将所述一个或多个处理器配置为通过以下方式生成所述音频通道:
从音频信号的左输入通道和右输入通道生成中间分量和侧分量;以及
生成超中间分量,所述超中间分量包括从所述中间分量的频谱能量被移除的所述侧分量的频谱能量。
37.根据权利要求31所述的计算机可读介质,其中所述程序代码还将所述一个或多个处理器配置为:
从所述左通道和所述右通道生成中间分量和侧分量;
向所述中间分量和所述侧分量应用滤波器;以及
从经滤波的所述中间分量和经滤波的所述侧分量生成左输出通道和右输出通道。
38.根据权利要求31所述的计算机可读介质,其中所述程序代码还将所述一个或多个处理器配置为:通过组合多通道音频信号的通道来生成所述音频通道。
39.根据权利要求31所述的计算机可读介质,其中所述程序代码还将所述一个或多个处理器配置为:通过隔离音频信号的一部分来生成所述音频通道。
40.根据权利要求31所述的计算机可读介质,其中所述高频分量包括针对语音的音频。
41.一种方法,包括由一个或多个处理器:
将音频通道分离成低频分量和高频分量;
向所述高频分量应用第一希尔伯特变换以生成第一左分支分量和第一右分支分量,所述第一左分支分量相对于所述第一右分支分量异相90度;
向所述第一右分支分量应用第二希尔伯特变换以生成第二左分支分量和第二右分支分量,所述第二左分支分量相对于所述第二右分支分量异相90度;
将所述第一左分支分量与所述低频分量组合以生成左通道;以及
将所述第二右分支分量与所述低频分量组合以生成右通道。
42.根据权利要求41所述的方法,还包括由所述一个或多个处理器向所述低频分量应用第一增益,以及向所述高频分量应用第二增益,所述第一增益和所述第二增益不同。
43.根据权利要求41所述的方法,还包括由所述一个或多个处理器向所述第一左分支分量应用第一延迟,以及向所述第二右分支分量应用第二延迟,所述第一延迟和所述第二延迟不同。
44.根据权利要求41所述的方法,还包括由所述一个或多个处理器向所述第一左分支分量应用第一增益,以及向所述第二右分支分量应用第二增益,所述第一增益和所述第二增益不同。
45.根据权利要求41所述的方法,其中:
向所述高频分量应用所述第一希尔伯特变换包括:
向所述高频分量应用所述第一系列全通滤波器以生成第一左分支分量;以及
向所述高频分量应用第一延迟和第二系列全通滤波器以生成第一右分支分量;并且
向所述第一右分支分量应用所述第二希尔伯特变换包括:
向所述第一右分支分量应用第三系列全通滤波器以生成所述第二左分支分量;以及
向所述第一右分支分量应用第二延迟和第四系列全通滤波器以生成所述第二右分支分量。
46.根据权利要求41所述的方法,还包括由所述一个或多个处理器通过以下方式生成所述音频通道:
从音频信号的左输入通道和右输入通道生成中间分量和侧分量;
生成超中间分量,所述超中间分量包括从所述中间分量的频谱能量被移除的所述侧分量的频谱能量。
47.根据权利要求41所述的方法,还包括由所述一个或多个处理器:
从所述左通道和所述右通道生成中间分量和侧分量;
向所述中间分量和所述侧分量应用滤波器;以及
从经滤波的所述中间分量和经滤波的所述侧分量生成左输出通道和右输出通道。
48.根据权利要求41所述的方法,还包括由所述一个或多个处理器:通过组合多通道音频信号的通道来生成所述音频通道。
49.根据权利要求41所述的方法,还包括由所述一个或多个处理器:通过隔离音频信号的一部分来生成所述音频通道。
50.根据权利要求41所述的方法,其中所述高频分量包括针对语音的音频。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/219,698 | 2021-07-08 | ||
US202163284993P | 2021-12-01 | 2021-12-01 | |
US63/284,993 | 2021-12-01 | ||
PCT/US2022/036412 WO2023283374A1 (en) | 2021-07-08 | 2022-07-07 | Colorless generation of elevation perceptual cues using all-pass filter networks |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117678014A true CN117678014A (zh) | 2024-03-08 |
Family
ID=90084815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280047861.8A Pending CN117678014A (zh) | 2021-07-08 | 2022-07-07 | 使用全通滤波器网络的仰角感知线索的无色生成 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117678014A (zh) |
-
2022
- 2022-07-07 CN CN202280047861.8A patent/CN117678014A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7378515B2 (ja) | ヘッドマウントスピーカのためのオーディオエンハンスメント | |
KR101346490B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
US20220408188A1 (en) | Spectrally orthogonal audio component processing | |
JP7008862B2 (ja) | カンファレンスのためのサブバンド空間処理およびクロストークキャンセルシステム | |
TWI787586B (zh) | 用於空間音訊信號之串音處理之頻譜缺陷補償 | |
CN112566008A (zh) | 音频上混方法、装置、电子设备和存储介质 | |
CN117678014A (zh) | 使用全通滤波器网络的仰角感知线索的无色生成 | |
US20230022072A1 (en) | Colorless generation of elevation perceptual cues using all-pass filter networks | |
US20230085013A1 (en) | Multi-channel decomposition and harmonic synthesis | |
Cecchi et al. | Crossover Networks: A Review | |
CA3142575A1 (en) | Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |