CN103716748A

CN103716748A - 音频空间化及环境模拟

Info

Publication number: CN103716748A
Application number: CN201310399656.0A
Authority: CN
Inventors: 杰里·马哈布比; 斯蒂芬·M·伯恩西; 加里·史密斯
Original assignee: STEPHAN MBERNSEE
Current assignee: STEPHAN MBERNSEE
Priority date: 2007-03-01
Filing date: 2008-03-03
Publication date: 2014-04-09
Also published as: WO2008106680A2; CN101960866A; CN101960866B; JP2013211906A; US20090046864A1; WO2008106680A3; US9197977B2; JP2010520671A; JP5285626B2; EP2119306A4; EP2119306A2

Abstract

用于处理音频声音源以创建四维空间化声音的方法和装置。可以在指定的时期内，沿着三维空间内的路径移动虚拟声音源，以达成四维声音定位。用于所期望空间点的双耳滤波器被应用到音频波形，以产生空间化的波形，在从一对扬声器播放已空间化的波形时，声音似乎来源于所选择的空间点而不是扬声器。通过***从多个预先定义的双耳滤波器所选择的最近的相邻的双耳滤波器，来模拟用于空间点的双耳滤波器。使用短时傅里叶变换，音频波形能被以重叠的数据块的形式数字化处理。所定位的声音能被进一步处理用于多普勒频移和空间模拟。

Description

音频空间化及环境模拟

本申请是申请号为200880014407.2(PCT/US2008/055889)、发明名称为“音频空间化及环境模拟”的母案的分案申请，该母案的申请日为2008年3月3日。

交叉引用至相关申请

本申请主张2007年3月1号提交的No.60/892,508且名称为“自动空间化及环境模拟(Audio Spatialization and EnvironmentSimulation)”的美国临时申请的优先权，其揭示的内容被整体地合并至此文。

技术领域

一般地，本发明涉及声音工程，以及更特别地，涉及数字信号处理方法和用于计算并创建音频波形的装置，当通过耳机、扬声器或其它播放设备播放时，其仿真至少一个源自于四维空间内的至少一个空间坐标的声音。

背景技术

声音发源于四维空间内的不同点。人听到这些声音，可以利用多种听觉线索，来确定发出声音的空间点。例如，人类大脑迅速并有效地处理声音定位线索，比如耳间时间延迟(即，声音冲击每一个耳膜之间的时间延迟)、收听者耳朵之间的声音压力级别差、在对声音冲击左耳与右耳的感知方面的相位移动、等等以准确地识别出声音的发源点。通常，“声音定位线索”涉及收听者耳朵之间的时间和/或级别差，在声波方面的时间和/或级别差，以及用于音频波形的频谱信息。(在这里所使用的“四维空间”，通常涉及随时间变化(across time)的三维空间，或者作为时间函数的三维空间坐标的位移，和/或参数地定义的曲线。典型地，使用4-空间坐标或位置矢量定义四维空间，例如在矩形***内的{x，y，z，t}，在球形***内的{r，θ，Φ，t，}等等。)

人类大脑和听力***对声音起源进行三角测量方面的效力，对音频工程师和其他试图复制并使声音空间化以便通过两个或多个扬声器播放的人而言，呈现了特别地挑战。通常，过去的方法已经采用了复杂的声音预先及后处理，并可能需要专门的硬件比如解码器板或逻辑部分。这些方法的优秀例子包括杜比(Dolby)实验室的杜比数字处理，DTS，索尼的SDDS格式，等等。虽然这些方法已经获得了一定程度的成功，但它们是成本和劳动密集型的。进一步，典型地，所处理的音频的播放需要相对昂贵的音频组件。此外，这些方法可能不适合用于所有类型的音频或所有的音频应用。

据此，需要音频空间化的新方法，该方法将收听者放在静止的虚拟球体(或任何形状或大小的模拟虚拟环境)的中心，并移动声源，以从像两个这么少的扬声器或耳机，提供逼真(true-to-life)的声音体验。

发明内容

通常，本发明的一个实施例表现为用于创建四维空间化声音的方法和装置的形式。在一个广义的方面，用于通过空间化音频波形来创建空间化的声音的示例性的方法包括的操作有，确定在球形或笛卡尔坐标***内的空间点，以及把对应于该空6间点的冲击响应滤波器应到音频波形的第一段，以产生空间化的波形。空间化的波形仿真来源于该空间点的非空间化波形的音频特征。即，当从一对扬声器播放空间化的波形时，相位，幅度，耳间时间延迟，等等使得声音似乎来源于所选的空间点而非扬声器。

在考虑到不同的边界条件下，头相关传输函数(head-relatedtransfer function)对于给定的空间点是音响特性的模型。在本实施例中，对于给定的空间点，在球形坐标***内计算头相关传输函数。通过使用球形坐标，更精确的传输函数(以及因此更精确地冲击响应滤波器)可以被创建。这本身又允许更准确的音频空间化。

如能够被理解到的，本实施例可以采用多个头相关传输函数，以及因此多个冲击响应滤波器，以对多个空间点来空间化音频。(如这里所用的，专业术语“空间点”和“空间坐标”是可互换的。)因此，本实施例可以使音频波形去仿真各种各样的音响特征，由此看起来在不同时间来源于不同空间点。为了提供两个空间点之间的平滑传输以及因此的平滑四维音频体验，不同的空间化波形可以与其它的通过插值操作来卷积。

应注意到，没有特别的硬件或另外的软件，比如解码器板或应用，或采用杜比或DTS处理装备的立体声装备，是达成本实施例中音频全空间化所必需的。相反，可以通过任何具有两个或更多扬声器的音频***、具有或不具有逻辑处理或解码来播放已空间化的音频波形，并可以达成四维空间化的全范围。

一旦阅读了以下描述和权利要求，将清楚本发明的这些或其它优点或特性。

附图说明

图1描述了占有四个扬声器之间“最佳听音位置”的收听者的上下视图(top-down view)，以及示范性的方位角坐标***；

图2描述了图1所示的收听者的前视图，以及示范性的标高坐标***；

图3描述了图1所示的收听者的侧视图，以及示范性的图2的标高坐标***；

图4描述了用于本发明的一个实施例的高层软件架构的视图；

图5描述了用于本发明的一个实施例的单耳或立体声信号源的信号处理链；

图6是用于本发明的一个实施例的高层软件处理流程的流程图；

图7描述了虚拟声音源的3D地点怎样被设置；

图8描述了新HRTF滤波器怎样被从已存在的预先定义的HRTF滤波器***；

图9示意了左和右HRTF滤波器系数之间的耳间时差；

图10描述了用于本发明的一个实施例的声音源定位的DSP软件处理流程；

图11描述了HRTF滤波器的低频以及高频滚降(roll off)；

图12描述了频率和相位钳怎样被用于扩展HRTF滤波器的频率和相位响应；

图13示意了对静止和移动声音源的多普勒频移效应；

图14示意了收听者和静止的声音源之间的距离怎样被感知为简单延迟(simple delay)；

图15示意了收听者位置或源位置的移动怎样改变感知的声音源的间隙；

图16是全通滤波器实施为具有前馈和反馈路径的延迟元件的方决图；

图17描述了全通滤波器的嵌套，以模拟来自正被定位的虚拟声音源附近的对象的多重反射；

图18描述了全通滤波器模型的结果、优先波形(直接入射的声音)以及从源到收听者的早期反射；

图19示意了在处理期间使用重叠窗来***HRTF滤波器的幅度频谱以改善频谱平坦度。

图20示意了本发明的一个实施例所使用的改进HRTF滤波器的幅度频谱的频谱平坦度的短时增益因子；

图21描述了当对图19的各个窗求和以获得图22所示的修正的幅度响应时被本发明的一个实施例作为加权函数所使用的Hann窗；

图22描述了具有改进频谱平坦度的修正的HRTF滤波器的最终的幅度频谱；

图23示意了当立体声信号的左和右通道实质上相同时，声音源的视在位置；

图24示意了当信号仅仅出现在右通道时，声音源的视在位置；

图25描述了示出左和右通道之间的采样的短时分布的典型立体声音乐信号的角度(Goniometer)输出；

图26描述了用于利用中心信号带通滤波的本发明的一个实施例的信号路由；

图27图示了怎样使用重叠的STFT框来决处理长输入信号。

具体实施方式

1.本发明概览

通常，本发明的一个实施例利用声音定位技术，以把收听者放在静止的和移动声音的任何大小/形状的虚拟球体或虚拟空间的中心。这使用像两个这样少的扬声器或一对耳机来向收听者提供了逼真的声音体验。在任意位置，能通过处理音频信号以把它分开到左耳和右耳的通道内、把分离的滤波器应用至两个通道中的每一个(″双耳滤波″)，以创建已处理的音频的输出流，来创造出虚拟声源的印象；其中，该已处理的音频的数据流可以通过扬声器或耳机播放，或存储在文件中用于以后播放。

在本发明的一个实施例中，处理音频源，以达成四维(″4D″)声音定位。4D处理允许虚拟的声音源，在指定的时期内沿着在三维(″3D″)空间内的路径移动。当空间化的波形在多个空间坐标之间平移时(典型地，复制在空间内“移动”的声音源)，可以平滑空间坐标之间的平移，以创建多个逼真地、准确地体验。换句话说，空间化的波形可以***作，以使所空间化的声音，视在平滑地从一个空间坐标平移到另一个，而不是在空间内的非连续点之间突然性的变化(即使所空间化的声音实际上发源于一个或多个扬声器、一对耳机或其它的播放设备)。换句话说，与所空间化的波形对应的已空间化的声音，可能似乎不但发源于3D空间内的点，除了由放音设备所占用的点以外，而且视在的发源点可能随着时间变化。在本实施例中，在方向独立的自由域内和/或漫射域的双耳环境(diffuse field binaural environment)内，所空间化的波形可以被从第一空间坐标向第二空间坐标卷积。

可以通过用一组滤波器滤波输入音频数据来实现三维声音定位(以及，最后，4D定位)，其中，该组滤波器是从预先确定的头相关传输函数(pre-determined head-related transfer function)(HRTF)或头相关冲击响应(head related impulse response)(HRTR)得到的，三维声音定位可以为每一个耳朵在频率上数学地建模相位和幅度的变化，以用于发源于给定的3D坐标的声音。也就是说，每一个三维坐标可以具有唯一的HRTF和/或HRIR。对于缺少预先计算的滤波器HRTF或者HRIR的空间坐标，可以根据邻近的滤波器/HRTF/HRIR对估计的滤波器HRTF或者HRIR进行插值。以下将对插值作详细描述。怎样得到HRTF和/或HRIR的细节可以在2004年3月16号提交的申请号为10/802,319的美国专利申请中得到，该申请通过引用而整体地并入本文中。

HRTF可以考虑到不同的生理因素，比如，在耳朵的耳廓内的反射或回声，或由耳廓的不规则形状引起的失真，来自收听者肩膀和/或躯干的反射，收听者鼓膜之间的距离，等等。HRTF可以并入这些因素，以产生更值得信赖或准确的空间化的声音的再现。

可以创建或计算冲击响应滤波器(一般地为有限的，但在可替代实施例中是无限的)以仿真HRTF的空间特性。然而，简言之，冲击响应滤波器是HRTF的数值/数字表示。

立体声波形可以通过应用冲击响应滤波器或它的近似，通过本方法来变换，以创建空间化的波形。立体声波形上每一个点(由时间间隔所分离的每一个点)，被有效地映射到空间坐标，对应的声音将自该空间坐标产生。立体声波形可以被采样并受到有限冲击响应滤波器(″FIR″)处理，该滤波器近似于前面提到的HRTF。作为参考，FIR是一种数字信号滤波器，仅使用一些有限数目的过去的采样，在其中，每一个输出采样相当于当前和过去的输入采样的加权和。

FIR，或它的系数，通常修正波形，以复制所空间化的声音。

由于FIR的系数被定义，它们可以被应用到另外的二重听觉波形(dichotic waveforms)(或立体声或单声道)，以使这些波形的声音空间化，跳过每一次产生FIR的中间步骤。本发明的其它实施例，可以使用其它类型的冲击响应滤波器比如无限冲击响应(″IIR″)滤波器而非FIR滤波器，来近似HRTF。

随着虚拟环境的大小降低，本实施例可以以增加的精度来复制在三维空间内的点处的声音。使用相对的测量单位，从零到一百，本发明的一个实施例，从虚拟空间的中心到它的边界，测量任意大小的场所作为虚拟环境。本实施倒采用球形坐标，来测量在虚拟空间的空间化的点的地点。应注意到，讨论中的空间化的点是相对于收听者的。也就是说，收听者头的中心对应于球形坐标***的原点。这样，以上给出的复制的相对精确度与空间大小有关，且增强了收听者对空间化的点的感知。

本发明的一个示例性的实施采用位于单位球面上的一组7337个预先计算的HRTF滤波器组，在每一个滤波器组中有左和右HRTF滤波器。如这里所使用的，“单位球面”是按度测量的具有方位角和仰角的球形坐标***。如以下更为详细的描述，通过为那个位置适当的***滤波器系数，可以模拟在空间内的其他点。

2.球形坐标***

通常，本实施例采用球形坐标***(即，具有半径r，高度(altitude)θ，以及方位角φ作为坐标的坐标***)，但是可以供在标准笛卡尔坐标***下的输入使用。通过本发明的某些实施例，笛卡尔输入可以被变抉到球形坐标。球形坐标可以被用于映射模拟空间点，HRTF滤波器系数的计算，两个空间点之间的卷积，和/或基本上这里描述的所有计算。通常，通过采用球形坐标***，HRTF滤波器的准确度(以及由此播放期间波形的空间准确度)可以被提高。据此，当不同的空间化操作在球形坐标***执行时，可以实现某些优点，比如提高的准确度和精确度。

此外，在某些实施例中，球形坐标的使用，可以最小化创建HRTF滤波器和卷积空间点之间的空间音频、以及其它这里所描述的操作所需的处理时间。因为声音/音频波通常穿过媒介以频谱波传播，球形坐标***非常适于对声音波形的特性进行建模，并以此空间化声音。供替换的实施例可以采用不同的坐标***，包括笛卡尔坐标***。

在本文件中，当讨论示例性的实施时，采用特定的球形坐标协定。进一步，如图1和3内分别所示，零方位角100、零高度105以及足够长度的非零半径，对应于在收听者头中心前面的点。如前面所提到的，术语“高度”和“仰角”在这里一般是可互换的。在本实施例中，方位角在顺时针方向增加，而180度在收听者的正后面。方位角范围从0度到359度。如图1所示，可替代的实施例可以在逆时针方向增加方位角。相似地，如图2所示，高度范围可以从90度(收听者头的正上方)到-90度(收听者头的正下方)。图3描述了这里所使用的高度坐标***的侧视图。

应当注意到，在本文前面提到的坐标***的讨论中，假定收听者面对主要的或前方的一对扬声器110，120。因此，如图1所示，对应于前面的扬声器的安置，方位角的半球范围从0度到90度以及从270度到359度，而对应于背后的扬声器的安置，方位角的半球范围从90度到270度。在本事例中，收听者关于前面的扬声器110，120改变其旋转平面图(rotational alignment)，坐标***不变化。换言之，仰角和高度依赖于扬声器，并独立于收听者。然而，当空间化的音频由收听者所带的耳机交叉播放时，甚至在耳机随着收听者移动时，参考坐标***独立于收听者。为了这里讨论的目的，假定收听者相对地保持在一对前面的扬声器110，120之间的中心，且与它们等距。后面的或另外周围的扬声器130，140是可选择的。坐标***的原点160近似地对应于收听者的头250的中心，或者在图1的扬声器配置内的“最佳听音位置”(″sweet spot″)。然而，应当注意到，本实施例可以采用任何球形坐标的符号。现在使用的符号仅仅为了方便，而不是作为限制。此外，当通过扬声器或其他播放设备交叉播放时，音频波形的空间化以及相应的空间化效果，不必取决于占有“最佳听音位置”或相对于播放设备的任何其它位置的收听者。所空间化的波形可以通过标准音频播放装置播放，以在播放期间，创造发源自虚拟声音源位置150的已空间化的音频的空间感。

3.软件架构

图4描述了高层软件架构的视图，其用于本发明的一个实施例，利用客户-服务器软件架构。在几个不同的形式内，这种架构使得本发明的例示包括，但不限于，用于4D音频后期处理的专业音频工程师应用，用于在2-通道立体声输出中，模拟多-通道呈现格式(例如，5.1音频)的专业音频工程师工具，用于热衷于家庭音频混合的人以及使3D定位后期处理均衡的小的独立工作室的“专业-消费者”(例如，“专业型消费者”)应用，以及，把给定了一组预先选择的虚拟立体声扬声器位置的立体声文件实时地定位的消费应用。所有这些应用常常利用同样的基本处理原理和编码。

如图4所示，在一个示范的实施例中，有几个服务器端的库(server side libraries)。主机***改编库400提供多个适配器和接口，其允许主机应用和服务器端的库直接通信。数字信号处理库405包括滤波器和音频处理软件程序(routines)，其把输入信号变换成定位的3D及4D信号。信号播放库410提供用于一个或多个已处理音频信号的基本播放功能，比如播放、暂停、快放、倒退以及录音。曲线建模库415对空间内用于虚拟声音源的静态3D点建模，以及对空间内的随时间移动的动态4D路径建模。数据建模库420对输入和***参数建模，典型地，***参数包括音乐仪器数字化接口设置、用户喜好设置、数据加密以及数据复制保护。一般使用库425为所有的库提供通用函数，比如坐标转换，字符串操作，时间函数和基本数学函数。

在不同的主机***，包括视频游戏控制台430，混合平台435，基于主机的插件包括，但不限于，实时音频套件接口440，TDM音频接口，虚拟演播技术接口445，以及音频单元接口，或者在独立应用中运行在个人计算机设备(比如桌式或膝上电脑)，基于Web的应用450，虚拟环绕应用455，膨胀立体声应用(expa nsivestereo aPPlication)460，iPod或其它MP3播放设备，SD无线电接收机，蜂窝电话，个人数字助理或其它手持计算机设备，光盘(″CD″)播放器，数字多用光盘(″DVD″)播放器，其它消费及专业音频播放或管理电子***或应用，等等，可以采用本发明不同的实施例，以在所处理的音频文件通过扬声器或耳机播放时，提供出现在空间任意位置的虚拟声音源。

也就是说，所空间化的波形可以通过标准音频播放装置来播放，在播放期间，不需要特别的编码设备来创建来源于虚拟声音源地点的空间化的音频的空间感。换言之，不像当前的音频空间化技术比如杜比，LOGIC7，DTS，等等，播放装置不需要包括任何准确再现输入波形的空间化的特殊的程序或硬件。相似地，从任何扬声器配置，包括耳机、两-通道音频、三或四-通道音频、五-通道音频或更多的、等等，具有或不具有亚低音扬声器，可以准确地体验到空间化。

图5描述了用于单耳500或立体声505音频源输入文件或数据流(来自插件卡比如声卡的音频信号)的信号处理链。因为信号源通常被放置在3D空间，在由数字信号处理器(″DSP″)525处理之前，多-通道音频源比如立体声被混降到单个的单耳通道510。注意DSP可以在特别目的的硬件上被执行，或在通用目的的计算机的CPU上被执行。输入通道选择器515使立体声文件的通道，或两个通道，能够被处理。单个的单耳通道随后被***成两个相同的输入通道，其可以被路由到DSP525用于进一步处理。

本发明的一些实施例能够使多个输入文件或数据流被同时处理。通常，图5被复制用于每一个正被同时处理的另外的输入文件。全局旁路开关520使所有的输入文件绕过DSP525。这对于输出的″A/B″比较(例如，把已处理的与未处理的文件或波形比较)是有用的。

此外，每一个个体的输入文件或数据流能够被直接路由到左输出530，右输出535或中心/低频率发射输出540，而非通过DSP525。例如，当多个输入文件或数据流被并发地处理且一个或多个文件将不被DSP处理时，这是可以被使用的。例如，如果只是左前和右前通道将被定位，可能需要用于上下文(context)的非-定位的(non-localized)中心通道，以及该中心通道将被绕过DSP路由。此外，具有极低频率(例如，中心音频文件或数据流通常具有在20-500Hz范围内的频率)的音频文件或数据流，可能不需要被空间化，这种情况下，典型地，大多数收听者难以查明低频起源。尽管具有这样的频率的波形，可以藉由HRTF滤波器的使用来空间化，大多数收听者在检测相关联的声音定位线索时将体验到的困难，使这种空间化的可用性最小化。因此，这样的音频文件或数据流可以绕过DSP路由，以降低在本发明的计算机-实施的实施例中所需要的计算时间和处理功耗。

图6是用于本发明一个实施例的高层软件处理流程的流程图。该处理以操作600开始，其中，本实施例初始化该软件。然后，执行操作605。操作605从插件导入待处理的音频文件或数据流。执行操作610，如果该音频文件将被定位或当音频文件不是正被定位时将选择贯通(pass-through)，则为该音频文件来选择虚拟声音源位置。在操作615，进行核查，以确定是否有更多待处理的输入音频文件。如果其它的音频文件被导入，则又一次执行操作60S。如果没有更多的音频文件被导入，那么本实施例继续操作620。

操作620为每一个音频输入文件或数据流，配置播放选项。播放选项可以包括，但不限于，循环播放以及待处理的通道(左，右，两者，等等)。然后，执行操作62S，以确定用于音频文件或数据流的声音路径是否正在被创建。如果声音路径正在被创建，执行操作630，以载入声音路径数据。声音路径数据是一组HRTF滤波器，其被用于随时间，沿着声音路径在不同的三维空间地点定位声音。声音路径数据可以由用户实时输入，存储在持久存储器中或在其它适当的存储装置内。操作630之后，本实施例如以下所描述的，执行操作635。然而，在操作625中，如果本实施例确定声音路径没有正被创建，则访问操作635，而不是操作630(换句话说，操作630被跳过)。

操作635播放正在被处理的输入信号的音频信号段(segment)。然后，执行操作640，以确定输入音频文件或数据流是否将由DSP处理。如果文件或流将由DSP处理，执行操作645。如果操作640确定出没有待执行的DSP处理，则执行操作650。

操作645通过DSP处理音频输入文件或数据流段，以产生定位的立体声的声音输出文件。然后，执行操作650，而本实施例输出音频文件段或数据流。即，在本发明的一些实施例中，输入音频可以被大体上实时地处理。在操作655，该实施例确定是否到达输入音频文件或数据流的末端。如果还没有到达文件或数据流的末端，执行操作660。如果已经到达音频文件或数据流的末端，那么处理停止。

操作660确定用于输入音频文件或数据流的虚拟声音位置是否将被移动，以创建4D声音。注意，在初始化配置期间，用户指定声音源的3D地点，并可以提供另外的3D地点，以及声音源何时在那个地点的时间戳。如果声音源正在移动，那么执行操作665。否则，执行操作635。

操作665设定新的用于虚拟声音源的地点。然后，执行操作630。

应注意到，典型地，对正在被并发处理的每一个输入音频文件或数据流，操作625，630，635，640，645，650，655，660，以及665被并行地执行。就是说，每一个输入音频文件或数据流，一段接一段，与其它输入文件或数据流一起被并发地处理。

4.指定声音源地点以及双耳滤波器插值

图7示出了本发明一个实施例采用的基本过程，用于在3D空间内指定虚拟声音源的地点。执行操作700，以获得3D声音地点的坐标。典型地，用户通过用户接口输入3D源地点。可替代地，通过文件或硬件设备，能够输入3D地点。可以在矩形坐标(x，y，z)或在球形坐标(r，theta，phi)内指定3D声音源地点。然后，执行操作705，以确定声音地点是否在矩形坐标内。如果3D声音地点是在矩形坐标内，执行操作710，以把矩形坐标转换成球形坐标。执行操作715，以便以合适的数据结构存储3D地点的球形坐标，和增益值一起用于进一步处理。增益值提供信号“音量”的独立控制。在一个实施例中，使独立的增益值能够用于每个输入音频信号流或文件。

如前面所讨论的，本发明的一个实施例存储7，337个预先定义的双耳滤波器，每一个在单位球面上的离散地点处。每一个双耳滤波器具有两个组件，HRTFL滤波器(一般由冲击响应滤波器近似，例如，FIRL滤波器)和HRTF_R滤波器(一般由冲击响应滤波器近似，例如，FIR_R滤波器)，共同地，滤波器组。每一个滤波器组被提供作为位于单位球面上HRIR形式的滤波器系数。这些滤波器组可以围绕单位球面均匀或非均匀分布，用于不同的实施例。其它实施例可以存储更多或更少的双耳滤波器组。操作715后，执行操作720。当所指定的3D地点没有被预先定义的双耳滤波器之一所覆盖时，操作720选择最近的N个相邻的滤波器。执行操作725。操作725通过三个最近的相邻的滤波器的插值来为所指定的3D地点产生新滤波器。其它实施例可以使用更多或更少预先定义的滤波器，形成新的滤波器。

应理解到，HRTF滤波器不是特定波形的。也就是说，对任何输入波形的任何部分，每一个HRTF滤波器可以使音频空间化，使它在通过扬声器或耳机播放时，显然来源于虚拟声音源地点。

图8描述了几个预先定义的位于单位球面上的HRTF滤波器组，每一个由X表示，利用它们，以***在地点800处的新的HRTF滤波器。地点800是期望的3D虚拟声音源地点，其由它的方位角和仰角(0.5，1.5)指定。这个地点没有被预先定义的滤波器组中的一个所覆盖。在这个示意中，三个最近的相邻的预先定义的滤波器组80S，810，815被用来为地点800***滤波器组。选择用于地点800的适当的三个相邻滤波器组，是通过最小化所期望的位置和所有已存储的在单位球面上的位置之间的距离D来达成，距离D按照勾股定理的距离关系：D＝SQRT((ex-ek)²+(ax-ak)²))求出，其中，e_k和a_k是在已存储地点k处的仰角和方位角，而e_x和a_x是所期望地点x处的仰角和方位角。

因此，滤波器组805，810，815可以被一个实施例使用，以获得用于地点800的***滤波器组。在插值操作期间，其它实施例可以使用更多或更少预先设定的滤波器。插值操作的准确性取决于，在正被定位的源地点的附近内，预先设定的滤波器的网格的密度，处理的精确度(例如，32位浮点，单精度)以及所使用的插值类型(例如，线形，正弦，抛物线)。因为滤波器的系数表示带限信号(band limited signal)，带限插值(正弦插值)可以提供创建新的滤波器系数的最佳途径。

插值能够通过预先确定的滤波器系数之间的多项式或带限插值完成。在一个实施例中，使用一阶次多项式(order onepolynomial)，即，线形插值，来进行两个最近的邻居之间的插值，以最小化处理时间。在这个特殊的实施中，每一个***的滤波器系数，可以通过设置α＝x-k以及计算h_t(d_x)＝αh_t(d_k+l）+(1-α)h_l(d_k)来获得。其中，h_t(d_x)是在地点x处***的滤波器系数，h_t(d_k+1)和h_t(d_k)是两个最近的相邻的预先定义的滤波器系数。

当***滤波器系数时，一般必须考虑耳间时差(″ITD″)。每一个滤波器具有内部延迟，如图9所示，其取决于各个耳朵通道和声音源之间的距离。这个ITD出现在HRIR内，作为在实际滤波器系数前面的非零偏移。所以，根据已知的位置k和k+1，在所期望的位置x，创建类似HRIR的滤波器一般是困难的。当网格由预先设定的滤波器密集地构成时，因为误差很小，所以由ITD引入的延迟可以被忽略。然而，当存储有限时，这可能不是一个选择。

当存储受到限制时，分别用于右耳通道和左耳通道的ITD905，910，应被预估，使得ITD对延迟的贡献、右和左滤波器的D_R和D_L，在插值操作期间可以分别地被去除。在本发明的一个实施例中，通过检查偏移，可以确定ITD，其中，在该偏移处，HRIR超过HRIR最大绝对值的5％。这个预估不精确，因为ITD是延迟时间D超过采样间隔的分辨率(resolution)的分数延迟。使用抛物线插值与HRIR内的波峰交叉，来确定实际上延迟的分数，以预估波峰的实际地点T。这一般通过找到通过三个已知点的拟和抛物线的最大值来完成，其可以数学性地表示为

p_n＝|h_T|-|h_r-1|

p_m＝|b_T|-|h_T+1|

D＝t+(p_n-p_m)/(2*(p_n+p_m+∈))

其中，ε是小数字，以确保分母不为零。

然后，在频域内，通过计算修正的相位频谱φ′{H_k}＝φ{H_k}+(D*π*k)/N，，使用相位频谱从每一个滤波器减去延迟D，其中，N是用于FFT的频仓(frequency bins)的变换次数。可替代地，使用h′_t＝h_t+D，在时域上，HRIR可以被时移。

插值之后，以通过分别以D_R或D_L的量来延迟右和左通道，的方式，ITD被加回。根据正在被描绘的声音源的当前位置，该延迟也被***。也就是说，对每一个通道D＝αD_k+1+(1-α)D_k，其中，α＝x-k。

5.数字信号处理以及HRTF滤波

一旦已经确定了用于所指定的3D声音地点的双耳滤波器系数，便能够处理每一个输入音频流，以提供定位的立体声输出。在本发明的一个实施例中，DSP单元被再分成三个独立的子过程。这些是双耳滤波，多普勒频移处理以及背景处理。图10示出了本发明的一个实施例的用于声音源定位的DSP软件处理流程。

最初，执行操作1000，以用于音频输入通道的音频数据块用于由DSP进一步处理。然后，执行操作1005，处理该块以用于双耳滤波。然后，执行操作1010，处理该块以用于多普勒频移。最后，执行操作1015，处理该块以用于空间模拟。其它实施例可以以其它顺序，进行双耳滤波1005，多普勒频移处理1010以及场所模拟处理1015。

双耳滤波操作1005期间，执行操作1020，以读入用于所指定的3D地点的HRIR滤波器设置。然后，执行操作1025。操作1025把傅立叶变换应用到HRIR滤波器组，以获得滤波器组的频率响应，一个用于右耳通道且一个用于左耳通道。一些实施例可以通过在他们的转换状态中存储并读入滤波器系数，跳过操作1025，以节省时间。然后，执行操作1030。操作1030调整用于幅度、相位和白化的滤波器。然后，进行操作1035。

在操作1035中，实施例对数据决进行频域卷积。在这个操作期间，所变换的数据块与右耳通道的频域响应以及与左耳通道的相乘。然后，执行操作1040。操作1040对数据块进行傅立叶变换的逆变换，以把它变回时间域。

然后，执行操作1045。操作1045处理音频数据块，用于高频和低频调整。

在音频数据块的空间模拟处理期间(操作1015)，执行操作1015。操作1050处理音频数据块，适合于空间的形状和大小。然后，执行操作1055。操作1055处理音频数据块，以适合于墙、地板和天花板材料。然后，执行操作1060。操作1060处理反映从3D声音源地点到收听者耳朵的距离的音频数据块。

根据声音线索与环境的各种各样的交互作用以及包括外耳与耳廓的人类听觉***，人类的耳朵推导声音线索的位置。来自不同地点的声音，在人类的听觉***，创建了不同的共振和消除，其使得大脑能够确定空间内声音线索的相对位置。

这些由声音线索与环境的交互作用所创建的共振和消除，耳朵以及耳廓在本质上基本是线性的，且能够被通过把已定位的声音表达为线性时不变(″LTI″)***对外部刺激的响应来捕获，其可以通过本发明的不同实施例计算。(一般地，计算，计算公式和在此列出的其它操作可以，以及典型地，通过本发明的实施例来执行。因此，例如，示范的实施例表现为近似地-配置计算机硬件或软件，其可以执行任务、计算、操作等等此处所揭示的。据此，这样的任务、公式、操作、计算等等(共同地，“数据”)的讨论，应被理解将被列在示范的包括、进行、访问或相反地使用这样的数据的具体化的上下文中。)

对单冲击响应的任何离散LTI***的响应被称作***的“冲击响应”。如果给出这样的***的冲击响应h(t)，它对任意输入信号s(t)的响应y(t)能够通过实施例，经由被称为在时域内卷积的处理来构建。就是说，y(t)＝s(t)·h(t)，其中·代表卷积。然而，就计算量而言，时城内的卷积一般是非常高的，因为用于标准时间域卷积的处理时间，随滤波器内点的数目而呈指数型增加。因为时域内的卷积对应于频域内的乘法，使用称作快速傅立叶变换(″FFT″)卷积的技术在频域内对长滤波器进行卷积，可能更有效。就是说，y(t)＝F^-1{S(f)*H(f))，其中，F^-1是傅立叶变换的逆变换，S(f)是输入信号的傅立叶变换，而H(f)是***冲击响应的傅立叶变换。应注意到，用于FFT卷积所需要的时间增加的非常慢，仅仅像滤波器内点的数目的算法

输入信号s(t)的离散时间、离散频率的傅立叶变换由下式给出：

F {s (t)} = S (k) = Σ_{k = 0}^{N - 1} s (t) e^{- jωl}, ω = \frac{2 πk}{N}

其中，k称为“频率仓指数(frequency bin index)”，ω是角频率，而N是傅立叶变换框(或窗)大小。所以，FFT卷积可以被表达为y(t)＝F^-1{S(k)*H(k)}，其中，F^-1是傅立叶变换的逆变换。因此，通过用于实数值的输入信号s(t)的实施例，在频域的卷积需要两个FFT和N/2+1个复数乘法。对于长h(t)，即，有许多系数的滤波器，可以通过使用FFT卷积取代时域卷积来达成在处理时间方面的可观的节省。然而，当进行FFT卷积时，FFT框的大小一般应足够长，使得循环卷积不会发生。通过使FFT框的大小等于或大于由卷积产生的输出段的大小，可以避免循环卷积。例如，当长度为N的输入段与长度为M的滤波器卷积时，产生的输出数据段具有N+M-1的长度。因此，可以使用大小N+M-1或更大的FFT框。通常，为了计算效率和实施FFT的便捷性的目的，可选择N+M-1作为2的乘方。本发明的一个实施例，使用数据块大小N＝2048以及具有M=1920个系数的滤波器。所使用的FFT框的大小是4096，或下一个最高的2的乘方，其能够保持大小为3967的输出段，以避免循环卷积效应。通常，在它们被傅立叶变换之前，滤波器系数以及数据块两者被以零填充到大小为N+M-1，与FFT框的大小一样。

本发明的一些实施例，利用了对于实数值的输入信号FFT输出的对称性。傅立叶变换是复数值操作。严格说来，输入和输出值具有实部和虚部。一般地，音频数据通常是实数信号。对于实数值输入信号，FFT输出是共轭对称函数。就是说，它的值的一半将是冗余。这可以数学地表示为

通过本发明的一些实施例，冗余可以被利用，以使用单FFT在相同的时间来变换两个实数信号。因而发生的变换是两个由两个输入信号(一个信号是纯实数，而另一个是纯虚数)引起的对称变换的结合。实数信号是厄米对称(Hermitian symmetric)，而虚数信号是逆厄米对称(anti-Hermitian symmetric)。为了分开两个变换，T1和T2，在每一个频率仓f，f范围从0到N/2+1，实数和虚数部分在f和-f处的和或差被用于生成两个变换，T1和T2。这可以数学性的表达为：

reT_l(f)＝reT_l(-f)＝0.5*(re(f)+re(-f))

imT_l(f)=0.5*(re(f)-re(-f))

imT_i(-f)＝-0.5*(re(f)-re(-f))

reT₂(f)＝reT₂(-f)＝0.5*(im(f)+im(-f))

imT₂(f)=-0.5*(re(f)-re(-f))

imT₂(-f)=0.5*(re(f)-re(-f))

其中，re(f)，im(f)，re(-f)和im(-f)是在频率仓f和-f处的初始变换的实部和虚部；reT1(f)，imT1(f)，reT1(-f)和imT1(-f)是在频率仓f和-f处的转换T1的实部和虚部；而reT2(f)，imT2(f)，reT2(-f)和imT2(-f)是在频率仓f和-f处的变换T2的实部和虚部。

由于HRTF滤波器的本性，典型地，如图11所示，它们在高频和低频端都具有固有的频率滚降(intrinsic roll-off)。对单独的声音(比如，语音或单个仪器)而言，这个滤波器滚降可能不是显著的，因为大多数单独声音具有可忽略的低和高频内容。然而，当通过本发明的实施例来处理整个混和时，滤波器滚降的效应可能更加显著。如图12所示，本发明的一个实施例，通过在大于上限截止频率，C_upper，以及低于下限截止频率，C_lower的频率处，箝位幅度和相位，来消除滤波器滚降。这是图10的1045操作。

此箝位效果可以数学地表达为：

if(k＞c_upper)|S_k|＝|S_Cupper|.φ{S_k}=φ{S_Cupper}

if(k＜c_tower)|S_k|＝|S_Clower|.φ{S_k}=φ{S_Clowor}

箝位是有效地零阶保持插值。其它实施例可以使用其它插值方法，来扩展低和高频通带，比如使用最低和最高感兴趣频段(highest frequency band of interest)的平均幅度和相位。

本发明的一些实施例，可以调整HRTF滤波器的幅度和相位(图10的操作1030)，以调整引入的定位数量。在一个实施例中，定位的数量在0-9的标度上是可调整的。定位调整可以被分开成两个部分，HRTF滤波器对幅度频谱的影响以及HRTF滤波器对相位频谱的影响。

相位频谱定义了到达并与收听者和他的耳廓交互的声波的频率相关的延迟(frequency dependent delay)。对相位项最大的贡献一般是ITD，其导致了大的线性相位偏移。在本发明的一个实施例中，通过把相位频谱和标量α相乘并可选地加上偏移β来修改ITD，使得φ{S_k}＝φ{S_k}*α+k*β。

一般地，为了相位调整恰当地工作，相位应沿着频率轴展开。当在连贯的频仓之间有大于π弧度的绝对跳跃时，通过增加或减去2π的倍数，相位展开纠正了弧度相位角。即，2π的倍数改变了在频仓k＝1处的相位角，使得频仓k和频仓k＝1之间的相位差被最小化。

对任何近域对象和收听者的头由在给定频率处声波的共振和消除产生已定位的音频信号的幅度频谱。典型地，幅度频谱包括几个峰值频率，在该频率处，共振作为声波与收听者的头和耳廓的相互作用的结果出现。对所有的收听者，一般地，由于在头、外耳以及身体大小方面的低差异，典型地，这些共振的频率大约相同。共振频率的地点可以影响定位效果，使得共振频率的变更可以影响定位的效果。

滤波器的陡度，决定它的选择性、分离、或“品质”，由l/Q＝2sinh(ln(2)N2)所给出的品质因子(unitless factor)Q通常所表达特性，其中，λ是滤波器在倍频程方面的带宽。越高的滤波器分离导致更显著的共振(滤波器坡越陡)其反过来增强或衰减定位效果。

在本发明的一个实施例中，对所有的幅度频谱项应用非线性算于，以调整定位效果。数学性地，这可以表示为：|S _k|＝(1-α)*|S_k|+α*|S_k|^β；α＝0到1，[β]＝0到n。

在这个实施例中，α是幅度定标的密度，而β是幅度定标指数。在一个特殊的实施例中β＝2，以把幅度定标减少到可有效计算的形式|S_k|＝(1-α)*|S_k|+α*|S_k|*|S_k|；α＝0到1。

音频数据块已经被双耳滤波后，本发明的一些实施例可以进一步处理音频数据块，以计算出或创建多普勒频移(图10的操作1010)。音频数据块被双耳滤波前，其它的实施例可以处理用于多普勒频移的数据块。如图13所说明的，作为声音源关于收听者相对移动的结果，多普勒频移是关于可感知的声音源的间距的变化。如图13所说明，静止的声音源的间距不变化。然而，向收听者移动的声音源1310被感知具有较高的间距，而向远离收听者方向移动的声音源被感知具有较低的间距。因为声音的速度是334米/秒，比移动源的速度高少许倍，即使对于慢慢移动的源而言，多普勒频移很明显的。因此，可以配置本发明，使得定位处理可以计算出多普勒频移，以使收听者能够确定移动的声音源的速度和方向。

使用数字信号处理，通过本发明的一些实施例，可以创建多普勒频移效应。创建在大小上与声音源和收听者之间的最大距离成比例的数据缓冲器。现在，参考图14，音频数据块，在“进入抽头”1400处，被输送到缓冲器内，其可以在缓冲器的0索引处并对应于虚拟声音源的位置。“输出抽头”1415对应于收听者的位置。如图14内所示的，对静止的虚拟声音源，收听者和虚拟声音源之间的距离将被感知为简单的延迟。

当虚拟声音源沿着路径移动时，通过移动收听者抽头或声音源抽头，可以引入多普勒频移效应，以改变所感知的声音的间距。例如，如在图15内所说明的，如果收听者的抽头位置1515向左移动，其意味着朝声音源1500移动，声波的波峰和波谷将更快地击中收听者的位置，其相当于间距的增加。可替代地，向远离声音源1500的方向移动收听者抽头位置1515，以减少所感知的间距。

本实施例可以分别为左耳和右耳创建多普勒频移，以模仿不仅快速移动而且关于收听者循环地移动的声音源。当源正在接近收听者时，因为多普勒频移能够创建在频率上更高的间距，且因为输入信号可能被临界采样，间距的增加可能导致一些频率落在奈奎斯特频率外面，因此造成混叠。当以速度Sr所采样的信号包括在或大于奈奎斯特频率＝Sr/2(例如，以44。1kHz采样的信号具有22,050Hz的奈奎斯特频率，则信号应具有小于22.050Hz的频率内容，以避免混叠)时，混叠出现。大于奈奎斯特频率的频率出现在更低的频率地点，会引起不期望的混叠效应。在多普勒频移处理之前或处理期间，本发明的一些实施例可以采用抗-混叠滤波器，使得间距的任何变化，在所处理的音频信号内将不会创建出与其它频率混叠的频率。

因为左耳和右耳的多普勒频移被彼此独立地处理，在多处理器***上执行的本发明的一些实施例可以使用分开的处理器，用于每一个耳朵，以最小化音频数据块的全部处理时间。

本发明的一些实施例可以在音频数据决上进行环境处理(图10的操作1015).环境处理包括计算出空间特征的反射处理(图10的操作1050和1055)以及距离处理(图10的操作1060)。

声音源的响度(分贝度)是声音源和收听者之间的距离的函数。在到收听者的途中，由于摩擦力和消散(空气吸收)，声波内的一些能量被转变成热。同样，当收听者和声音源相隔更远时，由于在3D空间内的波传播，声波的能量被通过更大的空间量散布开(距离衰减)。

在理想地环境中，在相距d2的收听者和声音源之间的声音压力级别内的衰减A(以dB为单位)，可以被表达为A＝20log10(d2/dl)，其中，其参考级别在距离d1处被测量。

一般地，仅仅对在完美的、没有任何干预对象的空气中的点源，这个关系才是有效的。在本发明的一个实施例中，这个关系被用来为在距离d2处的声音源，计算衰减因子。

一般地，声波与环境中的对象互相作用，它们被从这些对象反射，折射或绕射(diffract)。离开表面的反射导致离散的回声被加到信号，而折射和绕射一般更依赖频率并造成随频率变化的时间延迟。所以，本发明的一些实施例并入关于直接环境的信息，以增强声音源的距离感知。

有几种本发明的实施例可以利用的方法来建模声波和对象的相互作用，包括声线跟踪(ray tracing)和使用梳状及全通滤波的混响处理。在声线跟踪中，虚拟声音源的反射，被从收听者的位置反追溯到声音源。因为该操作对声波的路径建模，所以其考虑到了真实场所的逼真近似。

在使用梳状及全通滤波的混响处理中，典型地，实际环境没有被建模。反而，替代地，逼真的环境效果被再现。如在论文“Colorless artificial reverberation，”M.R.Schroeder和B.F.Logan，IRE Transactions，Vol. AU-9，PP.209-214，1961，所描述的，一个广泛使用的方法，涉及在连续的和并行的配置内安排梳状和全通滤波器，其被作为参考并入这里。

像图16所示的，全通滤波器1600可以被实施为有前馈1610和反馈1615路径的延迟元件1605。在全通滤波器的结构中，滤波器i由S_l(z)＝(k₁+z^-1)/(1+k_jz^-1)给出传输函数。

理想的全通滤波器创建具有长时统一幅度响应(long-termunity magnitude response)(因此叫全通)。同样地，全通滤波器仅对长时相位频谱具有影响。如图17所示，在本发明的一个实施例中，全通滤波器1705，1710可以被嵌套，以达成通过对象所增加的多反射的音响效果，其中，所述对象在正被定位的虚拟声音源的附近。在一个特殊的实施例中，16个嵌套的全通滤波器的网络被实施跨接共享的存储块(累加缓存器)。另外的16个输出抽头、每音频通路八个，模拟围绕虚拟声音源和收听者的墙、天花板、地板的存在。

进入累加缓存器的抽头，可以某种方式被隔开，该方式使得它们的时间延迟，对应于收听者的两个耳朵和场所内的虚拟声音源之间的路径长度以及第一级反射时间。图18描述了全通滤波器模型的结果，较佳波形1805(直接入射声音)，和从虚拟声音源到收听者的前期反射1810，181S，1820，182S，1830。

6.进一步处理改进

在某些条件下，HRTF滤波器可以引入能够非所愿地加强某些频率的频谱不均衡。这由在滤波器的幅度频谱内可能有大的下降(dips)和峰值的事实引起，如果所处理的信号具有平坦幅度频谱，该事实能造成邻接频率区域之间的不平衡。

为了抵消这个声调的不平衡，而不影响一般在形成定位线索中所使用的小规模峰值，随着频率变化的全部的增益因子被应用到滤波器幅度频谱。这个增益因子充当均衡器(equalizer)，其缓和频率频谱的变化，且通常最大化它的平坦度及最小化对理想滤波器频谱的大规模偏差。

本发明的一个实施例可以如以下实现增益因子。首先，整个滤波器幅度频谱的算数平均数S′计算如下：

S^{'} = \frac{2}{N} Σ_{k = 0}^{N / 2} | S_{k} |

然后，如图19中所示的，幅度频谱1900被拆散成小的、重叠的窗1905、1910、1915、1920、1925。对每一个窗，再次通过使用算数平决值计算平均频谱幅度用于第j个频

然后，幅度频谱的窗化区域由短时增益因子定标，使得所窗化的幅度数据组的算术平均值，普遍地匹配整个幅度频谱的算数平均数。如图20中所示的，一个实施例使用短时增益因子2000。然后，使用加权函数W₁，各个窗被一起加回来，其导致了修正的幅度频谱，其普遍地接近横跨所有FFT仓的统一。一般地，这个操作通过最大化频谱平坦性来白化频谱。如图21所示，本发明的一个实施例使用用于加权函数的Hann窗。

最后，对每一个j，1＜j＜2M/D+1，其中，M＝滤波器长度，以下表达式子被估计：

| S_{i - \frac{jD}{2}}^{ω} | + = Σ_{i = 0}^{D - 1} \frac{| S_{i - \frac{jC}{2}} |}{S_{j}^{'}} ω_{i} S^{'}

图22描述了具有改善的频谱平衡的所修正的HRTF滤波器的最后的幅度频谱2200。

一般地，在图10的操作1030期间，可以通过本发明优选的实施例，进行以上HRTF滤波器的白化。

另外，当通过两个虚拟扬声器播放立体声轨道(stereo track)时，可以消除双耳滤波器的一些效应，其中，所述两个虚拟扬声器的位置相对于收听者对称。这可能是由于耳间级差(″ILD″)，ITD和滤波器的相位响应的对称。即，通常地，左耳滤波器及右耳滤波器的相位响应和ILD、ITD一个是另一个的倒数(reciprocals)。

图23描述了当立体声信号的左和右通道大体上相同时比如当单耳信号通过两个虚拟扬声器2305、2310播放时，可能会出现的情况。因为该设置关于收听者2315是对称的，ITD L-R＝ITD R-L且ITD L-L＝ITD R-R。

其中，ITD L-R是用于左通道到右耳的ITD，ITD R-L是用于右通道到左耳的ITD，ITD L-L是用于左通道到左耳的ITD，而ITD R-R是用于右通道到左耳的ITD。

如图23所示，对通过两个对称置放的虚拟扬声器2305、2310播放的单耳信号，一般地，多个ITD相加使得虚拟声音源似乎来自中心2320。

进一步，图24示出了信号仅仅出现在右2405(或左2410)通道的情况。在这种情况下，仅仅右(左)滤波器组和它的ITD，I LD及相位和频率响应将被应用到信号，使该信号似乎来自扬声器现场以外的远右方2415(远左方)位置。

最后，由图25所示，当立体声轨道正被处理时，通常，大部分的能量将被定位在立体声现场2500的中心。一般地，这意味着对有着许多仪器的立体声轨道，大多数的仪器将被摇动到立体声映像的中心，且仅仅少许仪器将出现在立体声映像的边侧。

为了使对于通过两个或更多的扬声器播放的已定位的立体声信号的定位更有效，两个立体声通道之间的采样分布可以偏向立体声映像的边缘。通过去相关两个输入通道，有效地降低了对两个通道是共同的所有的信号，使得输入信号中的大多数通过双耳滤波器被定位。

然而，衰减立体声映像的中心部分可能引入其它问题。特别地，它可能导致声音和主导仪器被衰减，造成不期望的类似卡拉OK的效果。本发明的一些实施例可以通过带通滤波中心信号来抵消这种情况，以使得声音和主导仪器虚拟地未受损。

图26示出了，用于本发明的一个实施例、利用中心信号带通滤波的信号路由。这可以通过本实施例被并入到图5所示的操作525。

参考图5，DSP处理模式可以接受多个输入文件或数据流，以创建多个DSP信号路径的例子。一般地，用于每一个信号路径的DSP处理模式接受单个立体声文件或数据流作为输入，把输入信号分到它的左和右通道，创建DSP操作的两个实例，以及把左通道指派给一个实例作为单耳信号而把右通道指派给另一个实例作为单耳信号。图26描述了在处理模式内的左实例2605和右实例2610。

图26的左实例2605包括所描述的所有组件，但仅仅使信号呈现在左通道。右实例2610与左实例相似，但仅仅使信号呈现在右通道。在左实例的情况下，信号被分开，一半到了加法器2615而一半到了左减法器2620。加法器2615产生了立体声信号的中心成份(center contribution)的单耳信号，其被输入到带通滤波器2625，一些频率范围将被允许经过带通滤波器2625到衰减器2630。中心成份可以与左减法器结合，以只产生仅仅立体声信号最左边(left-most)或仅仅左边的(left-only)的方面，然后，其通过左HRTF滤波器2635处理以定位。最后，左边定位的信号与衰减的中心成份信号相结合。相似的处理出现于右实例2610。

可以把左和右实例结合成最终的输出。这导致，当保持原始信号的中心成份的呈现时，远左和远右的声音更好地定位。

在一个实施例中，带通滤波器2625具有12dB/倍频程的陡度，300Hz的下限截止频率以及2kHz的上限截止频率。当衰减的百分比在20-40％之间时，一般产生良好的结果。其它实施例可能使用用于带通滤波器的不同的设置和/或不同的衰减百分比。

7.基于块处理

通常，音频输入信号可以很长。可以将这样的长输入信号与双耳滤波器在时域内卷积，以产生定位立体声输出。然而，当通过本发明的一些实施例，对信号数字化处理时，可以以音频数据块的方式处理输入音频信号。不同的实施例可以使用短时(Short-Time)傅里叶变换(″STFT″)处理音频数据块。STFT是用来确定随时间变化信号的本地部分的正弦频率和相位成分的傅里叶相关变换。即，STFT可以被用来分析并合成输入音频数据的时域序列的邻接片，从而提供输入音频信号的短项频谱代表。

如图27中所示，因为STFT在称为“变换框”的离散数据块上操作，音频数据可以在块2705内被处理使得块重叠。通过每k个采样得到STFT变换框(称作k采样的步幅)，其中k是小于变换框大小N的整数。这通过定义为(N-k)/N的步幅因子导致了邻接的变换框重叠。一些实施例可能变更步幅因子

可以在重叠的块内处理音频信号，以最小化当信号在变换窗的边缘处被截止时所引起的边缘效应。STFT把在变换框内的信号视为被周期性地扩展到框的外部。任意地截止信号可能引入致使信号变形的瞬时高频现象。不同的实施例可以把窗2710(抽头函数)应用到在变换框内的数据，致使数据在变换框的开始和结束处逐渐到0。一个实施例可以使用Hann窗作为抽头函数。

Hann窗函数被数学性地表达为y＝0.5-0.5cos(2πt/N)。

其它的实施例可以利用其它合适的窗比如，但不限于Hamming，GauSS和Kaiser窗。

为了创建来自各个变换框的无缝输出，可以把STFT逆变换应用到每一个变换框。通过使用与在分析相位期间所使用的步幅一样的步幅，把由所处理的变换框产生的结果一起相加。使用称为“重叠存储”的技术，这可以被完成，其中，每一个变换框的部分被存储以与下一个框一起应用于交叉衰落。当使用恰当的步幅时，窗函数的效果在各个滤波的变换框被串在一起时取消(即，计算总数到统一)。这带来了从各个滤波的变换框的无故障(glitch-free)输出。在一个实施例中，可以使用等于FFT变换框大小的50％的步幅，即，对于4096的FFT框大小，步幅可以被设置到2048。在这个实施例中，每一个处理的段按照50％重叠在前的段。也就是说，STFT框i的第二半被加到STFT框i+1的第一半，以创建最终的输出信号。这通常导致少量数据在信号处理期间被存储，以达成框之间的交叉衰落。

通常地，因为少量数据被存储以达成交叉衰落，输入和输出信号之间的轻微滞后(延迟)可能出现。典型地，因为这个延迟远远低于20ms，且通常对于所有处理的通道是相同的，所以它对所处理的信号一般地具有可以忽略的影响。还应注意到，是对来5自文件的数据进行处理、而非被现场处理，使这种延迟不相关。

进一步，基于块的处理可能限制每秒钟参数更新的数量。在本发明的一个实施例中，可以使用单一的一组HRTF滤波器来处理每一个变换框。同样地，随着STFT框的持续时间，没有声音源位置的变化出现。一般地，因为邻接变换框之间的交叉衰落也平稳地交叉衰落了两个不同的声音源位置之间的表现，所以这不明显。替代地，可以减少步幅k，但典型地，这不增加每秒钟所处理的变换框的数量。

为了优化执行，STFT框的大小可以是2的幂。STFT的大小或许取决于包括音频信号采样率的几个因素。对于以44.1kHz采样的音频信号，在本发明的一个实施例中，STFT框的大小可以被设置在4096。其可以容纳2048个输入音频数据采样，以及1920个滤波器系数，当在频域内卷积时，其导致3967个采样点的输出序列长度。对于输入音频数据采样率高于或低于44.1kHz，STFT框的大小、输入采样大小以及滤波器系数的数量可以按比例的调整地更高或更低。

在一个实施例中，音频文件单元可以提供到信号处理***的输入。音频文件单元读取并转变(编码)音频文件到二进制脉冲编码调制(″PCM″)数据的流，该数据的流随着原始声音的压力级别成比例地变化。最终的输入数据流可以是IEEE754内的浮点数据格式(即，以44。1kHz采样以及数据值被限制在-1.0到+1.0范围内)。这能够使整个处理链都具有一致的精度。应注意到，一般地，正被处理的音频文件以恒定率采样。其它实施例可能使用以其它格式编码和/或以不同的速率采样的音频文件。但是，其它实施例可以大体实时地处理来自***卡比如声卡的输入音频数据流。

如前面所讨论的，一个实施例可以使用具有7，337个预先定义的滤波器的HRTF滤波器组。这些滤波器可以具有长度为24位(bit)的系数。通过上采样、下采样、上分辨或下分辨，HRTF滤波器组可以被改变成一组新的滤波器(即，滤波器系数)，以把原始的44.1kHz、24位格式改变到任何采样率和/或分辨率，其随后可以被应用到具有不同的采样率和分辨率的(例如，88.2kHz，32位)的输出音频波形。

音频数据处理之后，用户可以把输出存储到文件。用户可以把输出存储为单个的、内部混降的立体声文件，或可以把每一个定位的轨道存储为单个立体声文件。用户可以选择由此产生的文件格式(比如，*.mp3，*.aif，*.au，*.way，*.wma，等等)。由此产生的定位立体声输出可以在传统的音频设备上播放，无需任何特别的装备来再现定位立体声。进一步，一旦被存储，文件可以被转变到用于通过CD播放器播放标准的CD音频。CD音频文件格式的一个例子是.CDA格式。文件还可以被转变到其它格式，包括但不限于，DVD音频，HD音频以及VHS音频格式。

已定位的立体声音，其提供定向音频线索，能够被应用在许多不同的应用中，以向收听者提供更大的逼真感。例如，所定位的2通道立体声声音输出，可以被经过通道传送到多-扬声器设置比如5.1。这可以通过把所定位的立体声文件导入到混和工具，比如DigiDesign′s Pro工具，以形成最后的5.1输出文件来完成。通过提供在3D空间内随着时间移动的多个声音源的逼真感知，这样的技术将在高清晰度无线电、家庭、汽车、商业接收机***以及可携带音乐***中，找到应用。该输出还可以被播送到TV，用于增强DVD声音或用于增强电影声音。

该技术还可被用来增强视频游戏的虚拟现实环境的逼真且全面的体验。与运动设备比如跑步机和固定自行车所结合的虚拟设计，也可以被增强，以提供更愉悦的锻炼体验。通过引入虚拟定向声音，可以使模拟器比如航空器、车以及船模拟器更逼真。

可以使立体声音源听起来更加地广阔，因此提供更愉悦的收听体验。这样的立体声源可以包括家庭和商业立体接收机以及便携式音乐播放器。

该技术也可以被并入到数字听力辅助器中，使得一个耳朵具有部分听力障碍的个体能够体验到来自身体的无听力侧的声音定位。倘若听力障碍不是天生的，一个耳朵听力全障碍的个体也具有这个体验。

该技术也可以被并入到便携式电话中，“智能”电话以及其它支持多个，同时的(即，会议)呼叫的无线通信设备，使得每一个呼叫者可以实时地被放置在不同的虚拟空间地点中。即，该技术可以被应用到网络电话(voice over IP)以及简单的老式电话服务以及到移动电话服务。

此外，该技术可以使军方和民用导航***能够向用户提供更准确的定向线索。通过提供更好地使用户能够更容易地识别声音地点的定向音频线索，这种增强可以帮助使用冲突避免***的飞行员，从事空对空战斗工作的军方飞行员以及GPS导航***用户。

如本领域普通技术人员认识到的，根据在前的本发明的示意性的实施的描述，在不背离本发明的精神和范围的情况下，可以对所描述的实施进行许多变化。例如，可以存储更多或更少的HRTF滤波器组，可以使用其它类型的冲击响应滤波器比如IIR滤波器来近似HRTF，可以使用不同的STFT框大小和步幅长度，以及可以不同地存储滤波器系数(比如在SQL数据库内的目录)。进一步，尽管本发明已经被描述在特定实施例和操作的上下文中，这种描述只是示例的方式而非限制。据此，本发明的合适的范围由所附的权利要求书而非前面的例子所指定。

Claims

1.用于定位数字音频文件的计算机实施的方法，该方法包括：

确定代表虚拟声音源地点的空间点；

形成对应于所述空间点的双耳滤波器；

把所述音频文件分割成多个重叠的音频数据块，每一个重叠对应于多个步幅因子；

计算所述多个音频数据块的第一个的离散傅里叶变换，以产生第一变换的音频数据块；

所述第一变换的音频数据块与已进行傅里叶变换的双耳滤波器相乘，以产生第一变换的定位的音频数据块；以及

计算所述第一变换的定位的音频数据块的离散傅里叶变换的逆变换，以产生第一空间化的音频波形段。

2.根据权利要求1所述的方法，进一步包括：

计算所述多个音频数据块的第二个的离散傅里叶变换，以产生第二变换的音频数据块；

所述第二变换的音频数据块与所述变换的双耳滤波器相乘，以产生第二变换的定位的音频数据块；

计算所述第二变换的定位的音频数据块的离散傅里叶变换的逆变换，以产生第二空间化的音频波形段；以及

使用所述步幅因子把所述第二空间化的音频波形段和所述第一空间化的音频波形段相加来模拟所述第二和第一空间化的音频波形段之间的交叉衰落。

3.根据权利要求1所述的方法，其中，所述傅里叶变换是框大小为N的短时傅里叶变换。

4.根据权利要求3所述的方法，其中N是2的乘方。

5.根据权利要求3所述的方法，其中，每一个数据块包括2048个邻近的数据采样点，以及所述双耳滤波器包括1920个系数。

6.根据权利要求5所述的方法，其中N是4096。

7.根据权利要求6所述的方法，其中，在被变换之前，所述数据块和所述双耳滤波器系数每一个被以零填充到大小为N。

8.根据权利要求1所述的方法，其中窗被应用到所述数据块，使得所述数据，在所述数据块的开始和结束处，逐渐地变到零。

9.根据权利要求8所述的方法，其中，从由Hann窗、Hamming窗口、Gauss窗以及Kaiser窗组成的群中选择所述窗。

10.根据权利要求1所述的方法，其中所述步幅因子是50％。

11.根据权利要求1所述的方法，其中，所述数字音频文件包括来自音频文件单元的输出。

12.根据权利要求2所述的方法，进一步包括把所结合的空间化的音频波形段保存到文件。

13.根据权利要求12所述的方法，其中，所述文件是从由MP3音频格式、aif音频格式、au格式、wav音频格式、wma音频格式、CD音频格式、DVD音频格式、HD音频格式以及VHS音频格式所组成的群中所选择的文件格式。

14.根据权利要求1所述的方法，进一步包括：

确定代表第二虚拟声音源地点的第二空间点；

形成对应于所述第二空间点的第二双耳滤波器；

所述第二变换的音频数据块与已变换的第二双耳滤波器相乘，以产生第二变换的定位的音频数据块；