CN117616780A - 用于心理声学频率范围扩展的使用尺度依赖非线性的自适应滤波器组 - Google Patents
用于心理声学频率范围扩展的使用尺度依赖非线性的自适应滤波器组 Download PDFInfo
- Publication number
- CN117616780A CN117616780A CN202280048258.1A CN202280048258A CN117616780A CN 117616780 A CN117616780 A CN 117616780A CN 202280048258 A CN202280048258 A CN 202280048258A CN 117616780 A CN117616780 A CN 117616780A
- Authority
- CN
- China
- Prior art keywords
- components
- harmonic spectral
- harmonic
- component
- spectral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003044 adaptive effect Effects 0.000 title description 4
- 230000001419 dependent effect Effects 0.000 title description 3
- 230000003595 spectral effect Effects 0.000 claims abstract description 163
- 238000001228 spectrum Methods 0.000 claims abstract description 51
- 230000001427 coherent effect Effects 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 35
- 239000000203 mixture Substances 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 11
- 238000011144 upstream manufacturing Methods 0.000 claims description 11
- 238000009499 grossing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 42
- 230000006870 function Effects 0.000 description 31
- 239000011159 matrix material Substances 0.000 description 28
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 230000009466 transformation Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 108020001568 subdomains Proteins 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Landscapes
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
一种***提供用用于心理声学频率范围扩展。该***从音频通道生成正交分量,并通过应用正变换来生成旋转的频谱正交分量,该正变换将正交分量的频谱从标准基旋转到旋转基。在旋转基中,***隔离旋转的频谱正交分量中目标频率处的分量,并且通过将具有符合约束的尺度依赖性的非线性应用于被隔离的分量来生成加权的相位相干谐波频谱正交分量。该电路***通过应用逆变换来生成谐波频谱分量,该逆变换将加权的相位相干谐波频谱正交分量的频谱从旋转基旋转到标准基。该电路***将谐波频谱分量与音频通道的在目标频率之外的频率组合以生成输出通道,并向扬声器提供输出通道。
Description
相关申请的交叉引用
本申请要求2021年7月15日提交的美国临时申请号63/222,370和2021年9月9日提交的美国申请号17/471,012的权益,其全部内容通过引用并入。
技术领域
本公开总体涉及音频处理,并且更具体地涉及产生超出物理驱动器带宽的频率的印象。
背景技术
扬声器、耳机和其他声学致动器的带宽通常限于人类听觉***的带宽的子域。这通常是可听频谱的低频区域(大约18Hz至250Hz)的问题。人们期望修改音频信号以产生超出物理驱动器的带宽的频率的印象。
发明内容
一些实施例包括一种***,该***包括电路***(例如,一个或多个处理器),提供针对扬声器的于心理声学频率范围扩展。该电路***从音频通道生成正交分量,该正交分量定义音频通道的正交表示,并且通过应用将正交分量的频谱从标准基旋转到旋转基的正变换来生成旋转的频谱正交分量。在旋转基中,电路***隔离旋转的频谱正交分量中目标频率处的分量,并且通过将具有符合约束的尺度依赖性的非线性应用于被隔离的分量来生成加权的相位相干谐波频谱正交分量。该电路***通过应用逆变换来生成谐波频谱分量,该逆变换将加权的相位相干谐波频谱正交分量的频谱从旋转基旋转到标准基。该电路***将谐波频谱分量与音频通道的在目标频率之外的频率组合以生成输出通道,并向扬声器提供输出通道。
在一些实施例中,非线性包括成分非线性的加权混合。约束各自包括对被应用于相应成分非线性的输入的增益校正的约束。
在一些实施例中,非线性包括第一类切比雪夫多项式的加权和,其幅度符合约束选择性地被分解出(factor out)。
在一些实施例中,电路***还被配置为生成多个谐波频谱分量。每个谐波频谱分量是使用音频通道的不同频带而被生成的。电路***被配置为通过组合多个谐波频谱分量来生成输出通道。
在一些实施例中,电路***被配置为串行(in series)地生成多个谐波频谱分量,每个下游谐波频谱分量是使用上游谐波频谱分量的残差作为输入而被生成的。
在一些实施例中,电路***被配置为并行地生成多个谐波频谱分量。
在一些实施例中,电路***还被配置为将奇非线性应用于谐波频谱分量。
在一些实施例中,谐波频谱分量包括与音频通道的目标频率不同的频率,并且当由扬声器渲染时产生目标频率的心理声学印象。
在一些实施例中,正变换旋转正交分量的频谱,使得目标频率被映射到0Hz。逆变换旋转加权的相位相干谐波频谱正交分量的频谱,使得0Hz被映射到目标频率。
在一些实施例中,目标频率包括18Hz与250Hz之间的频率。
在一些实施例中,电路***还被配置为基于扬声器的可再现范围、扬声器的功耗的减少或者扬声器的增加的使用寿命来确定目标频率。
在一些实施例中,扬声器是移动设备的组件。
在一些实施例中,电路***还被配置为使用门函数来隔离目标幅度处的分量。在一些实施例中,电路***还被配置为对被隔离的分量应用平滑函数。
一些实施例包括一种方法。该方法包括由电路***:从音频通道生成正交分量,该正交分量定义音频通道的正交表示;通过应用将正交分量的频谱从标准基旋转到旋转基的正变换来生成旋转的频谱正交分量;在旋转基中:隔离旋转的频谱正交分量中目标频率处的分量;并且通过将具有符合约束的尺度依赖性的非线性应用于隔离的分量来生成加权的相位相干谐波频谱正交分量;通过应用逆变换来生成谐波频谱分量,该逆变换将加权的相位相干谐波频谱正交分量的频谱从旋转基旋转到标准基;将谐波频谱分量与音频通道的在目标频率之外的频率组合以生成输出通道;以及向扬声器提供输出通道。
一些实施例包括一种非暂态计算机可读介质,包括所存储的指令,该指令在由至少一个处理器执行时将至少一个处理器配置为:从音频通道生成正交分量,该正交分量定义音频通道的正交表示;通过应用将正交分量的频谱从标准基旋转到旋转基的正变换来生成旋转的频谱正交分量;在旋转基中:隔离旋转的频谱正交分量中目标频率处的分量;并且通过将具有符合约束的尺度依赖性的非线性应用于被隔离的分量来生成加权的相位相干谐波频谱正交分量;通过应用逆变换来生成谐波频谱分量,该逆变换将加权的相位相干谐波频谱正交分量的频谱从旋转基旋转到标准基;将谐波频谱分量与音频通道的在目标频率之外的频率组合以生成输出通道;以及向扬声器提供输出通道。
附图说明
图1是根据一些实施例的音频***的框图。
图2是根据一些实施例的谐波处理模块的框图。
图3是根据一些实施例的正变换模块的框图。
图4是根据一些实施例的系数运算器模块的框图。
图5是根据一些实施例的逆变换模块的框图。
图6是根据一些实施例的组合器模块的框图。
图7是根据一些实施例的滤波器组模块的框图。
图8是根据一些实施例的用于心理声学频率范围扩展的过程的流程图。
图9是根据一些实施例的计算机的框图。
附图仅出于说明的目的描绘了各种实施例。本领域技术人员从下面的讨论中将容易地认识到,本文所示的结构和方法的备选实施例可以在不脱离本文描述的原理的情况下被采用。
具体实施方式
附图和以下描述仅通过说明的方式涉及优选实施例。应当注意,根据以下讨论,本文所公开的结构和方法的备选实施例将容易地被认为是可以在不脱离所要求保护的原理的情况下采用的可行备选。
现在将详细参考几个实施例,其示例在附图中示出。注意,只要可行,类似或相似的附图标记可以在附图中被使用,并且可以指示类似或相似的功能。附图仅出于说明的目的描绘了所公开的***(或方法)的实施例。本领域技术人员将容易地从以下描述中认识到,本文所示的结构和方法的备选实施例可以在不脱离本文描述的原理的情况下被采用。
实施例涉及提供心理声学频率范围扩展。由于人类听觉***以非线性方式响应提示,因此可以利用心理声学现象在实际刺激不可行的情况下创建虚拟刺激。音频***可以包括提供自适应非线性滤波器组的电路***,该自适应非线性滤波器组使用具有对符合约束的尺度依赖性的高度可调谐非线性。该非线性被使用以从音频通道的一个或多个子带生成加权的相位相干谐波频谱。非线性可以包括成分非线性的加权混合。约束可以各自包括对被应用于相应成分非线性的输入的增益校正的约束。独立约束可以被应用于定义非线性的总和中的每个成分非线性,这允许在生成的谐波的选定子集之中的选择性频谱动画。这允许达成更自然的效果,这成功地概括了内容。此外,它还减少了互调伪影的感知显着性,从而可能允许更少数目的滤波器被采用,并具有更宽的带宽。在一些实施例中,非线性包括第一类切比雪夫多项式的加权和,其幅度符合约束而选择性地被分解出。当子带的频率超出物理驱动器的带宽时,针对一个或多个子带的相位相干谐波频谱产生子带的印象。
在一些实施例中,自适应非线性滤波器组可以包括多个谐波处理器。每个谐波处理器包括非线性滤波器,该非线性滤波器分析音频信号内的目标子带,并利用可配置的频谱变换重新合成子带的数据。谐波处理器各自使用音频通道的不同频带生成谐波频谱分量,并且这些谐波频谱分量被组合以生成输出通道。谐波频谱分量可以并行或串行地被生成。在串行情况下,每个下游谐波频谱分量使用上游谐波频谱分量的残差作为输入。并行情况尽管概念上很简单,但偶尔会引起困难的调谐过程,诸如当并行设计不限制所分析的内容的功率谱时。通过利用串行架构,其中后续滤波器仅作用于输入信号的残差,总频谱功率在滤波器组的输入处被保留。结果是其组成滤波器不受制于相长干扰的滤波器组。
频率范围扩展的优点包括允许无法渲染某些频率的(例如,低质量)扬声器产生这些频率的心理声学印象。因此,低成本扬声器(诸如移动设备上通常发现的那些扬声器)可以提供高质量的聆听体验。心理声学频率范围扩展是通过处理音频信号来实现的,诸如通过移动设备中发现的处理电路***来实现,并且不需要对扬声器进行硬件修改。频率范围扩展和频率响应改进当在不求助于增加次优子带中的物理能量的量的情况下被实现时,对于改进扬声器驱动器的功耗特性和使用寿命也可以是有用的。
音频处理***
图1是根据一些实施例的音频***100的框图。音频***100使用非线性滤波器组模块120为扬声器110提供频率范围扩展。***100包括滤波器组模块120,滤波器组模块120包括谐波处理模块104(1)、104(2)、104(3)和104(4)、全通滤波器网络模块122和组合器模块106。音频***100的一些实施例可以包括与在此描述的那些不同的组件。
滤波器组模块120使用具有符合约束的尺度依赖性的、高度可调谐的非线性以从音频通道a(t)生成相位相干谐波频谱。在一些实施例中,谐波处理模块104可以并联连接,如图所示。一些实施例可以包括滤波器组模块的串行实现,其中每个上游谐波处理模块的残差被传递给下游谐波处理模块。结合图7更详细地讨论串行实现。***100生成被提供给扬声器110以供渲染的输出通道o(t)。滤波器组模块120的谐波处理模块104(1)至104(4)为音频通道a(t)提供超出扬声器110的物理带宽的心理声学频率范围扩展。
滤波器组模块120包括生成谐波频谱分量h(t)(n)的多个谐波处理模块104(n)。在一些实施例中,每个谐波处理模块104(1)至104(4)分析整个音频通道a(t)并合成相应的谐波频谱分量h(t)(1)至h(t)(4)。在一些实施例中,每个谐波处理模块可以分析音频通道的不同目标子带。每个谐波频谱分量h(t)(n)是a(t)中数据的相位相干频谱变换。每个谐波频谱分量h(t)(n)具有加权的相位相干谐波频谱,该加权的相位相干谐波频谱包括与a(t)的相应目标子带中的数据频率不同的频率,并且当由扬声器110输出时产生相应目标子带的频率的心理声学印象。谐波处理模块104(n)中的一个或多个谐波处理模块可以被选择来生成谐波频谱分量h(t)(n),以为扬声器110提供心理声学频率范围扩展。在一些实施例中,目标子带的选择可以基于扬声器110的能力,诸如扬声器110的频率响应。例如,如果扬声器110不能有效地渲染声音的低频,则谐波处理模块104可以被配置为以与低频相对应的频率子带分量为目标,并且这些可以被转换为谐频谱分量h(t)(n)。音频***100可以包括一个或多个谐波处理模块104。关于谐波处理模块104的附加细节结合图2至图5进行讨论。
全通滤波器网络模块122生成经滤波的音频通道a(t)以确保音频通道a(t)与滤波器组模块120的输出保持相干。全通滤波器网络122通过将匹配相位变化应用于输入信号a(t)来补偿由于谐波处理模块104(n)的应用而引起的相位变化。这允许在感知上与a(t)不可区分但具有***纵的相位的信号与由滤波器组模块120生成的谐波频谱分量h(t)(n)之间发生相干求和。
组合器模块106通过组合来自全通滤波器网络模块122的经滤波的音频通道a(t)和来自滤波器组模块120的一个或多个谐波频谱分量h(t)(n)来生成输出通道o(t)。组合器模块106向扬声器110提供输出通道o(t)。在一些实施例中,组合器模块106对经求和的谐波频谱分量h(t)(n)执行附加处理,如结合图6更详细讨论的。
图2是根据一些实施例的谐波处理模块104的框图。谐波处理模块104提供非线性滤波器,该非线性滤波器分析音频通道并利用可配置的频谱变换重新合成目标子带的数据。谐波处理模块104包括全通网络模块202、正变换器模块204、系数运算器模块206和逆变换器模块208。全通网络模块202将一对相位变换应用于音频通道x(t)以生成正交分量。正变换器模块204将正变换应用于正交分量,该正交分量旋转整个频谱,使得选定的频率被映射到0Hz以生成旋转的频谱正交分量。选定的频率到0Hz的移位被称为从标准基到旋转基的变化。选定的频率可以是目标子带的中心频率或其他频率。系数运算器模块206在旋转基中执行运算,包括基于频率、幅度或相位选择性地对数据进行滤波,以及通过将非线性应用于具有符合约束的尺度依赖性的隔离分量来生成加权的相位相干谐波频谱正交分量。逆变换器模块208应用逆变换来旋转加权的相位相干旋转频谱正交分量的频谱,使得0Hz被映射到选定的频率以生成谐波频谱分量0Hz到选定的频率的移位被称为从旋转基到标准基的变化。谐波频谱分量/>可以包括与音频通道x(t)的目标子带不同的频率,但是当由扬声器渲染时产生音频通道x(t)的目标子带的频率的心理声学印象。
在一些实施例中,输入到谐波处理模块104的音频分量x(t)可以是子带分量a(t)(n)。在该示例中,由系数运算器模块206进行的用于选择目标频率的选择性滤波可以被跳过。
全通网络202将音频通道x(t)转换为包括正交分量y1(t)和y2(t)的向量y(t)。正交分量y1(t)和y2(t)包括90°相位关系。正交分量y1(t)和y2(t)以及输入信号x(t)包括针对所有频率的统一幅度关系。实值输入信号x(t)通过一对匹配的全通滤波器H1和H2被调谐正交值。该操作可以经由连续时间原型来定义,如式1中所示:
一些实施例将不一定保证输入(单声道)信号与两个(立体声)正交分量y1(t)和y2(t)中的任一个正交分量之间的相位关系,但是产生包括90°相位关系的正交分量y1(t)和y2(t),以及包括针对所有频率的统一幅度关系的正交分量y1(t)和y2(t)以及输入信号x(t)。
图3是根据一些实施例的正变换器模块204的框图。正变换器模块204包括旋转矩阵模块302和矩阵乘法器304。正变换器模块204接收正交分量y1(t)和y2(t)并且应用正变换以生成包括旋转的频谱正交分量u1(t)和u2(t)的向量u(t)。该变换通过经由旋转矩阵模块302生成时变旋转矩阵并且经由矩阵乘法器304将其应用于正交分量来被应用,从而产生旋转的频谱正交分量u(t)。向量u(t)是音频信号x(t)的频谱的频移形式并定义系数空间,在该系数空间中不同时间t的每个u被定义为旋转的频谱正交分量。由向量u(t)定义的系数是旋转x(t)的频谱的结果,使得期望的中心频率θc现在位于0Hz。
正变换可以被应用为正交信号上的时变2维旋转,如由式2所定义:
u[t]=H1(x[t])R2(-θct) (2)
其中H1是全通滤波器,旋转R2(-θct)的角频率为θc,并且由式3定义:
式2和3包括对三角函数的迭代调用。在θc恒定的间隔内,正变换可以通过递归2D旋转而不是对三角函数的迭代调用被计算。当该优化策略被使用时,对sin和cos的调用仅在θc被初始化或改变时才进行。该优化递归地将每个矩阵R2(-θct)定义为无穷小旋转矩阵的连续幂,即:R2(-θc(t+1))≡R2(-θct)R2(-θc)。由于在大多数架构上将两个2×2矩阵相乘在一起是一种高度优化的计算,因此与对式3中呈现的对三角函数的迭代调用相比,该定义可能提供性能优势,尽管其是等价的。
图4是根据一些实施例的系数运算器模块206的框图。系数运算器模块206包括滤波器模块402、幅度模块404、门模块406、除法运算器408和410、谐波生成器模块412、乘法运算器414和416以及最大(max)模块420。系数运算器模块206使用包括旋转的频谱正交分量u1(t)和u2(t)的向量u(t)生成包括加权的相位相干旋转频谱正交分量和/>的旋转频谱/>
在一些实施例中,滤波器模块402是两通道低通滤波器。在这种情况下,谐波处理模块104被配置为在滤波器模块402的截止频率的两倍的带宽处对以θc为中心的目标子带执行频谱变换。滤波器模块402可以应用低通滤波器F(x),低通滤波器F(x)在逆变换后产生可调谐带通滤波器。在这种情况下,F(x)的截止频率对应于非线性滤波器的分析区域的带宽的一半。
幅度模块404确定2D向量的长度,其被用作瞬时幅度的测量,其可以使用除法运算器408和410选择性地从经滤波的信号向量中分解出。例如,除法运算器408可以对u(t)的u1(t)分量执行除法,并且除法运算器410可以对u(t)的u2(t)分量执行除法。如由式9中的max()函数定义的对尺度依赖性的约束由最大模块420应用,其有效地约束除法运算器408和410的动作。在一些实施例中,幅度可以被分解出,而不管尺度如何,以便允许谐波生成器模块412基于其关系不依赖于尺度的信号来提供谐波。
谐波生成器模块412生成包括加权的成分非线性的和的非线性。非线性提供基于旋转的频谱正交分量的目标子带的谐波频谱。例如,谐波生成器模块412生成不同谐波的成分非线性,将权重an应用于成分非线性,并生成非线性作为加权的成分非线性的和。
然后由幅度模块404提供的幅度再次被使用,这次被传递通过门模块406。门模块406生成包络,其瞬时斜率受回转(sle)限制器418限制。然后得到的回转受限的包络经由乘法运算器414和416被应用于谐波生成器模块412的输出。例如,乘法运算器416可以对u(t)的u1(t)分量执行乘法,并且乘法运算器414可以对u(t)的u2(t)分量执行乘法。由加权的谐波的和定义的非线性与时变包络相乘以生成旋转频谱
u(t)的系数可以使用式4以极坐标表示:
∠u[t]=atan2(u1[t],u2[t]) (4)
其中项||u(t)||是系数信号的瞬时幅度,并且∠u(t)是瞬时相位。这些项现在可以在逆变换阶段之前***纵。
由u(t)定义的系数基于它们的瞬时幅度选择性地被滤波。滤波可以包括由门模块406应用的门函数和由回转限制器418应用的回转限制滤波器。基于阈值n的门函数可以由式5定义:
其中x≥n的情况引起保留系数,而x<n的情况引起系数的移除。在一些实施例中,x<n的情况可以交替地引起系数的衰减而不是系数的完全移除。由于门函数根据瞬时幅度的估计进行操作,因此它通常比基于实值幅度的门响应更快,同时具有更少的伪影。
时域平滑可以经由回转限制滤波器来实现,以进一步调整非线性滤波器的响应的包络特性。回转限制滤波器是一种非线性滤波器,它使函数的最大(正)和最小(负)斜率饱和。各种类型的回转限制滤波器或元件可以被使用,诸如具有对正和负饱和点的独立控制的非线性滤波器,下面标记为S(x)。对门函数的输出应用回转限制引起时变包络:S(G(||u[t]||))。这可以被使用以塑造系数的包络。
为了生成的相位相干谐波谱,谐波生成器模块412可以使用由式6定义的第一类切比雪夫多项式:
Tn(x)=cos(ncos-1(x)) (6)
这些多项式通过对它们的输出求和来提供谐波的受控生成,如针对与尺度无关的非线性由式7或8所定义的:
或等价地:
其中an=[a0,a1,a2...aN]是被应用于相位相干谐波频谱的每个谐波n的谐波权重,并且N是最高的生成的谐波。在式7和8的两种表示中,非线性(例如,由求和结果定义的)与输入尺度无关。这可以防止输出频谱随输入响度变化,而只允许由频谱权重a确定的变化。权重通常排列为衰减的串联,模拟人类听觉***所习惯的自然发生的声音的谐波串联。该权重的串联与传入音频通道的尺度无关。
尽管等价,式7具有允许输出相位的直接操纵的优点,而式8省略了潜在昂贵的三角函数,仅对幅度进行操作。
在式7和8中,非线性的输出频谱不作为输入系数幅度||u(t)||的函数而变化。虽然这会引起严格受控和可预测的非线性,但这种均匀性可能生成在某些情况下听起来不自然的纹理。这种怪诞的效果在某些输入内容上尤其明显,例如口语和演唱的声音,并且如果低频内容也存在,这种效果被加剧。
例如,电影内容通常可以与对话同时采用低频效果(LFE))内容。这种LFE内容正是我们想使用该技术再现的内容类型,然而产生的互调失真会影响声音的清晰度和真实感。
为了解决这个问题,不同程度的控制可以被应用于非线性的每个成分非线性,从而允许所得到的谐波混合响应于输入内容而被(例如,某种程度上)动画化。传入幅度被削波为统一的程度将确定频谱稳定性的程度。当幅度低于统一性时,非线性成分的谐波贡献将包括较低整数谐波的混合。偶数多项式将生成偶数整数谐波的混合的同时,奇数多项式将生成奇数整数谐波的混合。
由于瞬时幅度计算被直接应用在式8中,因此我们可以简单地修改算法以对其应用来应用约束,如由式9所定义的:
其中bn=[b0,b1,b2...bN]针对由max(||u(t)||,bn)针对相位相干谐波频谱的每个谐波n定义的幅度校正因子来定义最小值约束,并且N是最高的生成的谐波。针对每个谐波n,幅度校正因子max(||u(t)||,bn)定义了对被应用于成分非线性的输入u(t)的增益校正的约束,如由公式10所定义:
因此,非线性如由式11所定义:
包括针对不同谐波(n=0到N)的成分非线性的加权(例如,通过an)混合,其中成分非线性由式10定义。
对于低于bn的u(t)幅度,用于校正的信号幅度被允许波动。对于高于bn的u(t)的幅度,谐波含量被定义为对应于多项式的阶的谐波的和,如针对式8中所有可能幅度的情况。在b和0之间的u(t)的幅度处,较高谐波含量随着幅度的减小而大致降低,然而对于高阶多项式混合,该关系可能比简单的单调更复杂。
例如,如由式12定义的包括第三切比雪夫多项式的传递函数:
T3(x)=4x3-3x (12)
当x是单位幅度余弦波时,产生以下纯三次谐波(以及1次谐波的-∞dB),如由式13所定义:
T3(cos(x))=cos(3x) (13)
但当x代替为-6dB幅度的余弦波时,将产生谐波的混合,如由式14所定义:
或者通俗地说,三次谐波为-18dB,一次(基波)谐波为+1dB。这种混合还证明了所有成分产生的谐波的奇异性。此外,一次谐波相对于输入已被放大,从而产生正dB值。
当被应用于-12dB的余弦波时,相同的传递函数创建如由式15所定义的结果:
其包括逐渐减小的三次谐波和一次谐波的非单调行为。
通过约束频谱削波的程度,算法可以更好地概括整个内容。此外,可能需要计算更少的频带,因为任何互调效应在感知上都更少存在。
互调效应是将非线性传递函数应用于具有多于一个频率的信号上的典型副产品。通常,这些互调效应包括输入信号频率的和与差的频率。在不受约束的情况下,这些互调效应被赋予了附加的权重和稳定性。通过约束频谱削波函数,所得到的频谱更不稳定,并且更强调主导频率而不是互调效应。
因此,经由受约束的频谱削波来扩展频率范围比使用无约束的方法可以使用更少的个体非线性滤波器来达成类似的效果。这可以引起计算效率的提高。此外,参数减少还可能引起更容易调谐的算法,因为许多滤波器之间的交互有时难以管理。
如式14所示,被应用于幅度为-6dB的余弦的第三切比雪夫多项式的处理可以引起放大,而不是被降级为衰减。这一事实,再加上谐波的混合的相对不直观的行为,如果不小心避免的话,可能引起削波。在一些实施例中,奇非线性可以被应用于由滤波器组模块120生成的谐波频谱分量以管理所产生的动态,如结合图6更详细地讨论的。
图5是根据一些实施例的逆变换器模块208的框图。逆变换器模块208包括旋转矩阵模块502、矩阵乘法器504、投影运算器506和矩阵转置运算器508。逆变换器模块208从包括相位相干旋转频谱正交分量和/>的旋转频谱/>生成谐波频谱分量/>旋转矩阵模块502生成与矩阵模块302所生成的旋转矩阵相同的旋转矩阵。旋转矩阵模块502生成与由矩阵模块302生成的旋转矩阵相同的旋转矩阵。由旋转矩阵模块502生成的矩阵由矩阵转置运算器508转置并由矩阵乘法器504应用于相位相干旋转频谱正交分量/>和的传入2D向量。所得到的2D向量被投影运算器506投影到单个维度。
为了执行从旋转基回到标准基的逆变换,输出频谱被移位,使得0Hz返回到其原始位置θc,如由式16所定义:
其中P是从二维实系数空间到单个维度的投影,如由式17所定义:
因为正变换R2(-θct)包括正交旋转,所以逆变换是转置。这种代数结构允许高速缓存正变换矩阵并简单地通过改变系数被相乘的顺序来对它求逆。正是在这个意义上,图3中的旋转矩阵模块302和图5中的旋转矩阵模块502被认为是相同的。谐波频谱分量是谐波频谱分量h(t)(n)的示例,并且因此可以是更大滤波器组中的非线性滤波器的响应。
图6是根据一些实施例的组合器模块106的框图。组合器模块106对来自滤波器组模块120的谐波频谱分量h(t)(n)执行进一步处理,组合谐波频谱分量h(t)(n)以生成组合的分量z(t),对组合的分量z(t)进行进一步处理,并将组合的分量z(t)与来自全通滤波器网络模块122的经滤波的音频通道a(t)组合以生成输出通道o(t)。
组合器模块106包括分量处理器602(1)至602(4)(单独地称为分量处理器602或602(n))、谐波频谱分量组合器604、组合的分量处理器606和输出组合器608。分量处理器602(1)至602(4)相应地对谐波频谱分量h(t)(1)至h(t)(n)应用处理。组合器模块106可以包括用于滤波器组模块120的每个谐波处理模块104的分量处理器602。如上所述,滤波器组模块120可以选择性地生成谐波频谱分量h(t)(n)中的一个或多个谐波频谱分量,其中每个谐波频谱分量h(t)(n)是使用音频通道a(t)的不同频带n被生成的。
对于式10中定义的受约束的非线性,可能引起的输出电平的较大变化提示采取更多措施来限制瞬时峰值水平。在谐波频谱分量h(t)(n)(或如由式16所定义的)的创建之后,分量处理器602(n)对信号应用非线性,将其约束在范围(-1,1)。该非线性可以是奇线性,诸如sigmoid函数。这种非线性通常可以保留符号,并逐渐地向该范围的任一极值倾斜。具有比例因子/>的双曲正切是这样的函数的一个示例,如由式18所定义:
当被采用以减少峰值时,该非线性还可以向谐波频谱分量h(t)(n)添加奇谐波。这些奇谐波将与谐波频谱分量h(t)(n)的谐波同相。此阶段的奇谐波会将整体幅度的变化转变为音色的变化,以符合针对响度的常见的人类听觉线索的方式。
当与峰值限制器组合时,峰值限制阈值可以被设置为低于式18中的阈值的少量,使得限制函数的谐波特性由更具感知意义的双曲正切主导,而不是峰值限制器的尖角。
在一些实施例中,分量处理器602(n)中的一个或多个分量处理器可以衰减(例如,利用独立调谐)它们相应的谐波频谱分量h(t)(n),以达成针对组合的分量z(t)的期望的非线性特性。
谐波频谱分量组合器604组合谐波频谱分量h(t)(n),诸如谐波频谱分量h(t)(1)至h(t)(n),以生成组合的分量z(t)。
组合的分量处理模块606处理组合的分量z(t)。组合的分量处理模块606还可以应用各种类型的处理,诸如高通滤波、动态范围处理(例如,限制或压缩)等。
输出组合器608将组合的分量z(t)与来自全通滤波器网络模块122的经滤波的音频通道a(t)组合以生成输出通道o(t)。在一些实施例中,输出组合器608可以在组合之前衰减经滤波的音频通道a(t)或组合的分量z(t)。
图7是根据一些实施例的滤波器组模块700的框图。滤波器组模块700是滤波器组模块120的实施例。滤波器组模块700使用串行实现,其中每个下游谐波频谱分量使用上游谐波频谱分量的残差作为输入被生成。尽管具有并行应用的独立滤波器的滤波器组模块的构造相对直观,但调谐这样的滤波器组模块可能是一项复杂的任务。这种困难是功率谱守恒丧失的结果。在实践中,具有问题的功率谱守恒的滤波器组调谐通常会给低频带来短延迟或梳状滤波器的印象,扰乱听众确定定时的能力。发生这种情况是因为冲击低频内容的包络通常在幅度和基频上同时下降。因此,功率谱的不连续性引起感知到多个瞬变,而之前只存在一个瞬变。
在串行范式中,滤波器组模块700的每个滤波器将信号在要分析的频带与传入内容的残差之间分叉。这是通过利用2-频带分频网络替换低通滤波器F(x)来完成的。注意,在一些情况下,这可以简单地通过在紧接低通操作之前从宽带信号中减去低通信号来实现。后续的滤波器仅对残差高通信号进行操作,而省略先前由上游滤波器作用的频谱数据。结果,由滤波器组模块700分析的总频谱能量与输入处的总频谱能量相同。
正如在并行情况中一样,每个串行滤波器使用独立的正变换和逆变换。这可以以多种方式来实现。在第一示例中,每个滤波器的正变换和逆变换在移动到下游滤波器的正变换逆变换之前被应用,依此类推。在第二示例中,金字塔算法被使用,其中针对后续滤波器的正变换的坐标被变换,其包括使用上游滤波器的频移θcn-1与下一个滤波器的频移θcn之间的差来计算变换矩阵。在所有正变换被应用之后,逆变换可以以相反的顺序被应用,从最下游的滤波器开始并向上移动串行。这允许正步骤和逆步骤之间的频率增量的高速缓存。
滤波器组模块700使用正变换和逆变换的金字塔算法。在该示例中,音频通道a(t)有N个被串行处理的子带,从子带1到子带N。块op1 718、op2734和opM 752分别对第一、第二和第N子带执行系数运算。op1 718、op2734和opM 752中的每个可以执行本文针对系数运算器模块206所讨论的系数运算。
块R 704、R720和R736各自执行右侧的2-维信号与时变旋转矩阵R2的乘法,如本文针对旋转矩阵模块302所讨论的。块H 702表示式1中描述的正交滤波器操作,其中块H和R一起执行由式2定义的操作。
块F 706、F 708、F 722、F724、F740和F742各自执行低通滤波器操作F(x),诸如本文针对滤波器模块402所讨论的。
块*(-1)710、*(-1)712、*(-1)726、*(-1)728、*(-1)744和*(-1)746对接收的输入求逆。块+714、+716、+730、+732、+748、+750、+774和+776组合接收的输入以生成输出。
块R-1754、R-1756、R-1762、R-1766、R-1764和R-1772执行R块的逆变换。例如,块R 704以及R-1、772和R-1766使用-(θc1t)的旋转。块R 720以及R-1、764和R-1762使用-(θc2-θc1)t的旋转。块R 736以及R-1、754和R-1756使用-(θcN-θc(N-1))t的旋转。
块P 778执行式17中描述的1-维投影操作。
注意使用θcn的相邻值之间的差,而不是角频率θc。对于θcn的某些选择,金字塔算法可以通过限制旋转R2(-θct)被计算的次数来提供计算更高效的实现。针对θcn分布的一个特别计算高效的选择是线性的(其中针对相邻滤波器的θc之间的差保持恒定),从而完全最小化R2(-θct)的重新计算,因为矩阵将彼此相同。
最终残差包含不受整个滤波器组影响的数据,消除了受影响的信号和未受影响的信号之间相长或相消干扰的可能性。该残差信号的传递函数将完美地吻合滤波器组分析区域。这并不一定意味着输出信号的功率谱的完美重建,因为系数运算可能会引起动态行为的修改或全新内容的合成。在许多情况下,该最终残差可以被完全丢弃,并且H 702的输出可以被使用以将未受影响的内容混合回到最终求和中。
滤波器组模块700使用上游谐波频谱分量的残差作为输入来生成每个下游谐波频谱分量。在这种情况下,包含M个非线性滤波器的滤波器组拓扑可以被描述为串行架构。这样,非线性滤波器可以由具有从1到M的值的索引m来定义。例如,块+714和+716输出一次谐波频谱分量(例如,m=1)的残差,其被使用以生成二次谐波频谱分量(例如,m=2)。在此,一次谐波频谱分量的残差指的是音频通道中被块F 706和F 708滤出并且因此未被块Op1 718处理的部分。这些残差部分通过由块*(-1)710和*(-1)712对经滤波的部分求逆并由块+714和+716将经求逆的经滤波的部分与经滤波的部分相加被生成。进一步的下游处理以类似的方式工作。例如,块+730和+732输出二次谐波频谱分量的残差,其被使用以生成三次谐波频谱分量(例如,m=3),等等。
示例过程
图8是根据一些实施例的用于心理声学频率范围扩展的过程800的流程图。图8所示的过程可以由音频***(例如,音频***100)的组件执行。在其他实施例中,其他实体可以执行图8中的一些或全部步骤。实施例可以包括不同的和/或附加的步骤,或者以不同的顺序执行这些步骤。
音频***生成805正交分量,该正交分量定义音频通道的正交表示。音频通道可以是多通道音频信号的通道,诸如立体声音频信号的左通道或右通道。正交分量包括90°相位关系。正交分量和音频通道包括针对所有频率的统一(unity)幅度关系。在一些实施例中,实值输入信号由匹配的全通滤波器对来调谐正交值。
音频***通过应用将正交分量的频谱(例如,整个频谱)从标准基旋转到旋转基的正变换来生成810旋转频谱正交分量。标准基是指旋转前输入音频通道的频率。旋转可以引起目标频率被映射到0Hz。该目标频率可以是谐波处理模块的分析区域的中心,诸如用于心理声学范围扩展的目标子带的中心频率。正变换可以使用对如由式3定义的三角函数的迭代调用或使用等价的递归2D旋转被计算。
音频***隔离815旋转频谱正交分量在目标频率和目标幅度处的分量。隔离这些分量可以在旋转基中被执行。例如,目标频率可以使用滤波器F(x)被隔离,其中x包括由u(t)定义的分量。在一些实施例中,滤波器移除高于阈值的频率,并且这具有关于正变换被调谐到的中心频率θc对称地隔离跨阈值两倍的目标子带的效果。在一些实施例中,音频***基于诸如扬声器的可再现范围、扬声器的功耗的减少或扬声器的增加的使用寿命的因素来确定目标频率。
音频***还可以诸如通过使用门函数将目标幅度处的分量从旋转的频谱正交分量隔离。门函数可以被配置为丢弃子带中不想要的信息,或者保留幅度包络。门函数还可以包括回转限制滤波器或类似的平滑函数。
音频***通过将符合约束的尺度具有依赖性的非线性应用于被隔离的分量来生成820加权的相位相干谐波频谱正交分量。加权的相位相干旋转频谱正交分量可以在旋转基中被生成。这种旋转基非常适合于设计者频谱的生成,因为它将标准基信号表示为2-维向量,并且因为它将目标频率集中在零附近。然后,该向量可以进一步被分解为极坐标,如式4所示,这类似于计算短时傅里叶变换(STFT)中单个箱(bin)的幅度和自变数(argument),STFT关于特定频率的信息的自然描述符。与STFT表示相比,这种实现有几个明显的优点。首先,箱信息仅根据需要被计算,而不是针对整个频谱。另一个优点是,结果是以正确表示瞬态数据所需的时间分辨率计算的。此外,滤波器(操作类似于STFT技术中的窗函数)可以出于目标频谱内容与其残差分开的目的而方便地被调谐,并且在多个谐波处理模块的情况下,可以具有不均匀的调谐。
非线性(其功能主要是在给定旋转频谱正交分量中的相位信息的情况下生成相位相干频谱)可以如由式11所定义的具有符合约束的尺度依赖性。非线性包括成分非线性的加权的混合,每个成分非线性由式10定义并且对应于不同的谐波n。非线性到被隔离的分量的应用由式9定义。对于每个谐波n,幅度校正因子max(||u(t)||,bn)定义对被应用于成分非线性的输入u(t)的增益校正的约束。尺度是指输入分量u(t)的幅度,如由||u(t)||定义,表示时间t处信号中存在的能量。不同的谐波n可以包括不同的最小值约束bn。例如,较低谐波(例如基波n=1)可以不受约束(例如bn=0),而较高谐波可以利用bn的较高值而更受约束。
非线性本身可以包括第一类切比雪夫多项式的加权和,其中幅度符合约束地选择性地被分解出。非线性的每个成分非线性可以由预定义的谐波权重an加权,如式9所定义的。
音频***通过应用将加权的相位相干旋转频谱正交分量的频谱从旋转基旋转到标准基的逆变换来生成625谐波频谱分量。逆变换可以旋转频谱,使得0Hz被映射到目标频率。谐波频谱分量包括与目标频率不同的频率,但当由扬声器渲染时产生目标频率的心理声学印象。谐波频谱分量的频率可以在扬声器的带宽内,而子带频率可以在扬声器的带宽之外。在一些实施例中,子带频率低于谐波频谱分量的频率。在一些实施例中,子带频率包括18Hz与250Hz之间的频率。在一些实施例中,目标子带或频率可以在扬声器的可再现范围内,但是可以已经出于应用特定的原因被挑选,例如,以减少音频***的功耗或提高扬声器的使用寿命。
音频***将谐波频谱分量与音频通道的在目标频率之外的频率组合830以生成输出通道,并向扬声器提供835输出通道。在一些实施例中,音频***通过将谐波频谱分量与原始音频通道组合来生成输出通道,并向扬声器提供输出通道。在一些实施例中,音频***对音频通道或音频通道的其他子带分量进行滤波(例如,排除被使用用于频率范围扩展的(多个)子带分量)以确保音频通道或其他子带分量与谐波频谱分量保持相干,并将经滤波的音频通道或其他子带分量与谐波频谱分量组合以生成针对扬声器的输出通道。在一些实施例中,经滤波的或原始的音频通道和谐波频谱分量的组合可以利用例如均衡、压缩等被进一步处理以生成针对扬声器的输出通道。
在步骤805至825中,谐波频谱分量针对音频通道的频带被生成。在一些实施例中,多个谐波频谱分量被生成并被组合830,其中谐波频谱分量中的每个谐波频谱分量使用音频通道的不同频带被生成。输出通道可以通过组合谐波频谱分量的目标频率之外的音频通道的频率被生成。谐波频谱分量可以并行或串行被生成。对于串行情况,每个下游谐波频谱分量可以使用上游谐波频谱分量的残差作为输入被生成。在一些实施例中,不同的扬声器可以具有不同的可用带宽或频率响应。例如,移动设备(例如,移动电话)可以包括不平衡扬声器。不同的子带分量可以被使用用于不同扬声器的频率范围扩展。
示例计算机
图9是根据一些实施例的计算机900的框图。计算机900是实现音频***及其组件(诸如音频***100或滤波器组模块120或滤波器组模块700)的电路***的示例。示出了耦合到芯片组904的至少一个处理器902。芯片组904包括存储器控制器集线器920和输入/输出(I/O)控制器集线器922。存储器906和图形适配器912耦合到存储器控制器集线器920,并且显示设备918耦合到图形适配器912。存储设备908、键盘910、指点设备914和网络适配器916耦合到I/O控制器集线器922。计算机900可以包括各种类型的输入或输出设备。计算机900的其他实施例具有不同的架构。例如,在一些实施例中,存储器906直接耦合到处理器902。
存储设备908包括一个或多个非暂态计算机可读存储介质,诸如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储器设备。存储器906保存由处理器902使用的程序代码(包括一个或多个指令)和数据。程序代码可以对应于参考图1至图8描述的处理方面。
指点设备914与键盘910组合使用以将数据输入到计算机***900中。图形适配器912在显示设备918上显示图像和其他信息。在一些实施例中,显示设备918包括用于接收用户输入和选择的触摸屏能力。网络适配器916将计算机***900耦合到网络。计算机900的一些实施例具有与图9中所示的那些不同的和/或其他组件。
电路***可以包括执行被存储在非暂态计算机可读介质中的程序代码的一个或多个处理器,该程序代码在由一个或多个处理器执行时配置该一个或多个处理器以实现音频处理***或音频处理***的模块。实现音频处理***或音频处理***的模块的电路***的其他示例可以包括集成电路,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他类型的计算机电路。
附加注意事项
所公开的配置的示例益处和优点包括允许扬声器有效地渲染超出扬声器的物理能力的(例如,更低)频率。通过处理如本文所讨论的音频信号,所渲染的声音产生超出物理驱动器的带宽的频率的印象。
贯穿本说明书,多个实例可以实现被描述为单个实例的组件、操作或结构。尽管一种或多种方法的个体操作被示出并描述为分开的操作,但是给体操作中的一个或多个操作可以并发地被执行,并且操作无需按照所示顺序被执行。在示例配置中作为分开组件呈现的结构和功能可以被实现为组合的结构或组件。类似地,作为单个组件呈现的结构和功能可以被实现为分开的组件。这些和其他变化、修改、添加和改进落入本文主题的范围内。
某些实施例在本文中被描述为包括逻辑或多个组件、模块、块或机构。模块可以构成软件模块(例如,体现在机器可读介质上或传输信号中的代码)或硬件模块。硬件模块是能够执行某些操作并且可以以某种方式配置或布置的有形单元。在示例实施例中,一个或多个计算机***(例如,独立的客户端或服务器计算机***)或计算机***的一个或多个硬件模块(例如,处理器或一组处理器)可以由软件(例如,应用或应用部分)配置为操作以执行本文所述的某些操作的硬件模块。
本文描述的示例方法的各种操作可以至少部分地由被临时配置(例如,通过软件)或永久配置以执行相关操作的一个或多个处理器来执行。无论是临时配置还是永久配置,这样的处理器都可以构成操作以执行一项或多项操作或功能的处理器实现的模块。在一些示例实施例中,本文提及的模块可以包括处理器实现的模块。
类似地,本文描述的方法可以至少部分地由处理器实现。例如,一种方法的至少一些操作可以由一个或多个处理器或处理器实现的硬件模块来执行。某些操作的执行可以被分布在一个或多个处理器之间,不仅驻留在单个机器内,而且跨多个机器被部署。在一些示例实施例中,一个或多个处理器可以位于单个位置(例如,在家庭环境内、办公室环境内或作为服务器场),而在其他一些实施例中,处理器可以跨多个位置分布。
除非另外具体说明,否则本文使用词语(诸如“处理”、“计算(computing)”、“计算(calculating)”、“确定”、“呈现”、“显示”等)的讨论可以指代机器(例如,计算机)的动作或过程,该机器操纵或变换一个或多个存储器(例如,易失性存储器、非易失性存储器或其组合)、寄存器或接收、存储、传输或显示信息的其他机器组件内被表示为物理(例如,电子、磁或光)量的数据。
如本文所使用的,对“一个(one)实施例”或“一个(an)实施例”的任何引用意味着结合该实施例描述的特定元件、特征、结构或特性被包括在至少一个实施例中。说明书中不同地方出现的短语“在一个(one)实施例中”不一定都指相同的实施例。
一些实施例可以使用表述“耦合”和“连接”及其派生词来描述。应当理解,这些术语并不旨在作为针对彼此的同义词。例如,一些实施例可以使用术语“连接”来描述,以指示两个或更多个元件彼此直接物理或电接触。在另一示例中,一些实施例可以使用术语“耦合”来描述,以指示两个或更多个元件处于直接物理或电接触。然而,术语“耦合”也可以意味着两个或更多个元件彼此不直接接触,但仍然相互合作或交互。实施例不限于此上下文。
如本文所使用的,术语“包括(comprises)”、“包括(comprising)”、“包括(includes)”、“包括(including)”、“具有(has)”、“具有(having)”或其任何其他变体旨在涵盖非排他性包含。例如,包括一列元素的过程、方法、物品或装置不必仅限于那些元素,而是可以包括未明确列出的或这样的过程、方法、物品或装置所固有的其他元素。此外,除非明确相反地说明,“或”是指包含性或而不是排他性或。例如,条件A或B通过以下任一项被满足:A为真(或存在)且B为假(或不存在)、A为假(或不存在)且B为真(或存在)、以及A和B两者都为真(或存在)。
另外,使用“一个(a)”或“一个(an)”来描述本文实施例的元素和组件。这样做仅仅是为了方便并且给出本发明的一般意义。本描述应被理解为包括一个或至少一个,并且单数也包括复数,除非明显有其他含义。
本描述的一些部分按照对信息的操作的算法和符号表示来描述实施例。这些算法描述和表示通常被数据处理领域的技术人员使用以将他们的工作实质有效地传达给本领域的其他技术人员。虽然在功能上、计算上或逻辑上被描述,但这些操作应被理解为通过计算机程序或等效电路、微代码等来实现。此外,有时也证明,将这些操作的布置称为模块是很方便的,而不失一般性。所描述的操作及其相关联的模块可以被体现在软件、固件、硬件或其任何组合中。
本文描述的任何步骤、操作或过程可以利用一个或多个硬件或软件模块单独地或与其他设备组合地被执行或实现。在一个实施例中,软件模块利用计算机程序产品来实现,该计算机程序产品包括包含计算机程序代码的计算机可读介质,计算机程序代码可以由计算机处理器执行以执行所描述的任何或所有步骤、操作或过程。
实施例还可以涉及用于执行本文的操作的装置。该装置可以为了所需的目的而专门构造,和/或它可以包括由被存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以被存储在非暂态有形计算机可读存储介质或适合于存储电子指令的任何类型的介质中,其可以耦合到计算机***总线。此外,本说明书中提及的任何计算***可以包括单个处理器或者可以是采用多处理器设计以提高计算能力的架构。
实施例还可以涉及由本文描述的计算过程产生的产品。这样的产品可以包括由计算过程产生的信息,其中该信息被存储在非暂态、有形计算机可读存储介质上,并且可以包括计算机程序产品或本文描述的其他数据组合的任何实施例。
在阅读本公开后,本领域技术人员将通过本文公开的原理理解针对***和过程的附加的备选结构和功能设计。因此,虽然特定实施例和应用已经被示出和描述,但是应当理解,所公开的实施例不限于本文所公开的精确构造和组件。在不脱离所附权利要求中限定的精神和范围的情况下,可以对本文公开的方法和装置的布置、操作和细节进行对本领域技术人员来说显而易见的各种修改、改变和变型。
最后,本说明书中使用的语言主要是出于可读性和指导目的而选择的,并且可能不是为了划定或限定专利权而选择的。因此,旨在专利权的范围不受该详细描述的限制,而是受基于此的申请而发布的任何权利要求的限制。因此,实施例的公开旨在说明而不是限制所附权利要求中阐述的专利权的范围。
Claims (24)
1.一种***,包括:
电路***,被配置为:
从音频通道生成正交分量,所述正交分量定义所述音频通道的正交表示;
通过应用正变换来生成旋转的频谱正交分量,所述正变换将所述正交分量的频谱从标准基旋转到旋转基;
在所述旋转基中:
隔离所述旋转的频谱正交分量中目标频率处的分量;以及
通过将非线性应用于被隔离的所述分量来生成加权的相位相干谐波频谱正交分量,所述非线性具有符合约束的尺度依赖性;
通过应用逆变换来生成谐波频谱分量,所述逆变换将所述加权的相位相干谐波频谱正交分量的频谱从所述旋转基旋转到所述标准基;
将所述谐波频谱分量与所述音频通道的在所述目标频率之外的频率组合以生成输出通道;以及
向扬声器提供所述输出通道。
2.根据权利要求1所述的***,其中:
所述非线性包括成分非线性的加权混合;
所述约束各自包括对被应用于相应成分非线性的输入的增益校正的约束。
3.根据权利要求2所述的***,其中所述非线性包括第一类切比雪夫多项式的加权和,其幅度符合所述约束选择性地被析出。
4.根据权利要求1所述的***,其中所述电路***还被配置为生成多个谐波频谱分量,每个谐波频谱分量是使用所述音频通道的不同频带被生成的,并且其中所述电路***被配置为通过组合所述多个谐波频谱分量来生成所述输出通道。
5.根据权利要求4所述的***,其中所述电路***被配置为串行地生成所述多个谐波频谱分量,其中每个下游谐波频谱分量使用上游谐波频谱分量的残差作为输入。
6.根据权利要求4所述的***,其中所述电路***被配置为并行地生成所述多个谐波频谱分量。
7.根据权利要求1所述的***,其中所述电路***还被配置为将奇非线性应用于所述谐波频谱分量。
8.根据权利要求1所述的***,其中所述谐波频谱分量包括与所述音频通道的所述目标频率不同的频率,并且当由所述扬声器渲染时产生所述目标频率的心理声学印象。
9.根据权利要求1所述的***,其中:
所述正变换旋转所述正交分量的所述频谱,使得目标频率被映射到0Hz;以及
所述逆变换旋转所述加权的相位相干谐波频谱正交分量的所述频谱,使得0Hz被映射到所述目标频率。
10.根据权利要求1所述的***,其中所述目标频率包括18Hz与250Hz之间的频率。
11.根据权利要求1所述的***,其中所述电路***还被配置为基于以下至少一项来确定所述目标频率:
所述扬声器的可再现范围;
所述扬声器的功耗的减少;或者
所述扬声器的增加的使用寿命。
12.根据权利要求1所述的***,其中所述扬声器是移动设备的组件。
13.根据权利要求1所述的***,其中所述电路***还被配置为使用门函数来隔离目标幅度处的所述分量。
14.根据权利要求1所述的***,其中所述电路***还被配置为对被隔离的所述分量应用平滑函数。
15.一种非暂态计算机可读介质,包括所存储的指令,所述指令当由至少一个处理器执行时将所述至少一个处理器配置为:
从音频通道生成正交分量,所述正交分量定义所述音频通道的正交表示;
通过应用正变换来生成旋转的频谱正交分量,所述正变换将所述正交分量的频谱从标准基旋转到旋转基;
在所述旋转基中:
隔离所述旋转的频谱正交分量中目标频率处的分量;以及
通过将非线性应用于被隔离的所述分量来生成加权的相位相干谐波频谱正交分量,所述非线性具有符合约束的尺度依赖性;
通过应用逆变换来生成谐波频谱分量,所述逆变换将所述加权的相位相干谐波频谱正交分量的频谱从所述旋转基旋转到所述标准基;
将所述谐波频谱分量与所述音频通道的在所述目标频率之外的频率组合以生成输出通道;以及
向扬声器提供所述输出通道。
16.根据权利要求15所述的非暂态计算机可读介质,其中:
所述非线性包括成分非线性的加权混合;
所述约束每个包括对被应用于相应成分非线性的输入的增益校正的约束。
17.根据权利要求16所述的非暂态计算机可读介质,其中所述非线性包括第一类切比雪夫多项式的加权和,其幅度符合所述约束地选择性地被分解出。
18.根据权利要求15所述的非暂态计算机可读介质,其中:
所述指令还将所述至少一个处理器配置为生成多个谐波频谱分量,每个谐波频谱分量是使用所述音频通道的不同频带被生成的;
所述输出通道通过组合所述多个谐波频谱分量被生成;以及
所述多个谐波频谱分量串行地被生成,其中每个下游谐波频谱分量使用上游谐波频谱分量的残差作为输入。
19.根据权利要求15所述的非暂态计算机可读介质,其中所述指令还将所述至少一个处理器配置为将奇非线性应用于所述谐波频谱分量。
20.一种方法,包括,由电路***:
从音频通道生成正交分量,所述正交分量定义所述音频通道的正交表示;
通过应用正变换来生成旋转的频谱正交分量,所述正变换将所述正交分量的频谱从标准基旋转到旋转基;
在所述旋转基中:
隔离所述旋转的频谱正交分量中目标频率处的分量;以及
通过将非线性应用于被隔离的所述分量来生成加权的相位相干谐波频谱正交分量,所述非线性具有符合约束的尺度依赖性;
通过应用逆变换来生成谐波频谱分量,所述逆变换将所述加权的相位相干谐波频谱正交分量的频谱从所述旋转基旋转到所述标准基;
将所述谐波频谱分量与所述音频通道的在所述目标频率之外的频率组合以生成输出通道;以及
向扬声器提供所述输出通道。
21.根据权利要求20所述的方法,其中:
所述非线性包括成分非线性的加权混合;
所述约束各自包括对被应用于相应成分非线性的输入的增益校正的约束。
22.根据权利要求21所述的方法,其中所述非线性包括第一类切比雪夫多项式的加权和,其幅度符合所述约束地选择性地被分解出。
23.根据权利要求20所述的方法,还包括由所述电路***生成多个谐波频谱分量,每个谐波频谱分量是使用所述音频通道的不同频带被生成的,并且其中:
所述输出通道通过组合所述多个谐波频谱分量被生成;以及
所述多个谐波频谱分量串行地被生成,其中每个下游谐波频谱分量使用上游谐波频谱分量的残差作为输入。
24.根据权利要求20所述的方法,还包括通过所述电路***将奇非线性应用于所述谐波频谱分量。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/222,370 | 2021-07-15 | ||
US17/471,012 US11838732B2 (en) | 2021-07-15 | 2021-09-09 | Adaptive filterbanks using scale-dependent nonlinearity for psychoacoustic frequency range extension |
US17/471,012 | 2021-09-09 | ||
PCT/US2022/037182 WO2023288008A1 (en) | 2021-07-15 | 2022-07-14 | Adaptive filterbanks using scale-dependent nonlinearity for psychoacoustic frequency range extension |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117616780A true CN117616780A (zh) | 2024-02-27 |
Family
ID=89953963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280048258.1A Pending CN117616780A (zh) | 2021-07-15 | 2022-07-14 | 用于心理声学频率范围扩展的使用尺度依赖非线性的自适应滤波器组 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117616780A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1176034A (zh) * | 1995-02-24 | 1998-03-11 | 艾利森公司 | 消除在扬声器电话中包括非线性失真的声学回声的装置和方法 |
US20190200146A1 (en) * | 2017-12-21 | 2019-06-27 | Harman International Industries, Incorporated | Constrained nonlinear parameter estimation for robust nonlinear loudspeaker modeling for the purpose of smart limiting |
US20210044898A1 (en) * | 2019-08-08 | 2021-02-11 | Boomcloud 360, Inc. | Nonlinear Adaptive Filterbanks for Psychoacoustic Frequency Range Extension |
-
2022
- 2022-07-14 CN CN202280048258.1A patent/CN117616780A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1176034A (zh) * | 1995-02-24 | 1998-03-11 | 艾利森公司 | 消除在扬声器电话中包括非线性失真的声学回声的装置和方法 |
US20190200146A1 (en) * | 2017-12-21 | 2019-06-27 | Harman International Industries, Incorporated | Constrained nonlinear parameter estimation for robust nonlinear loudspeaker modeling for the purpose of smart limiting |
US20210044898A1 (en) * | 2019-08-08 | 2021-02-11 | Boomcloud 360, Inc. | Nonlinear Adaptive Filterbanks for Psychoacoustic Frequency Range Extension |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114467313B (zh) | 用于心理声学频率范围延伸的非线性自适应滤波器组 | |
US11032644B2 (en) | Subband spatial and crosstalk processing using spectrally orthogonal audio components | |
CN117616780A (zh) | 用于心理声学频率范围扩展的使用尺度依赖非线性的自适应滤波器组 | |
US20230217166A1 (en) | Bass enhancement for loudspeakers | |
US11838732B2 (en) | Adaptive filterbanks using scale-dependent nonlinearity for psychoacoustic frequency range extension | |
CN111988726A (zh) | 一种立体声合成单声道的方法和*** | |
TWI727605B (zh) | 用於音訊處理之系統,方法以及非暫時性電腦可讀媒體 | |
GB2591111A (en) | Method for bi-phasic separation and reintegration on mobile media devices | |
CN117678014A (zh) | 使用全通滤波器网络的仰角感知线索的无色生成 | |
CN117043860A (zh) | 用于具有约束的无色去相关的全通网络*** | |
Huber | Multiband Compression for Ambisonics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |