CN108574925A

CN108574925A - 虚拟听觉环境中控制音频信号输出的方法和装置

Info

Publication number: CN108574925A
Application number: CN201710149313.7A
Authority: CN
Inventors: 王彦
Original assignee: Toshiba Corp; Toshiba Client Solutions Co Ltd
Current assignee: Dynabook Inc
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2018-09-25
Also published as: JP2018152834A

Abstract

本发明提供一种在虚拟听觉环境中控制音频信号输出的方法和装置。该装置包括：音频输入单元，其被配置为接收与所述虚拟听觉环境中的一个或多个声源相对应的一个或多个音频信号；方位信息获取单元，其被配置为获取所述虚拟听觉环境中的对象的方位信息；确定单元，其被配置为为所述对象确定与所述方位信息相对应的一个或多个声源方位数据集合，所述一个或多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至与所述方位信息相对应的方位的传输特性；处理单元，其被配置为基于所述一个或多个声源方位数据集合，分别对所述一个或多个音频信号进行处理，以得到双耳声信号；音频输出单元，其被配置为输出所述双耳声信号。

Description

虚拟听觉环境中控制音频信号输出的方法和装置

技术领域

本发明涉及虚拟听觉技术，尤其涉及在虚拟听觉环境中控制音频信号输出的方法和装置。

背景技术

人类的听觉是除视觉之外感知外界信息的另一重要途径。在现实听觉环境中，声源辐射的声波经直达和环境反射的途径传输到倾听者，并经倾听者的头部、耳廓、躯干等生理结构散射或反射后传输到双耳，因而双耳所接收到的声压信号包括声源和环境的声学空间信息。听觉***(包括高层神经***)利用这些信息产生相应的空间听觉，以及对声源的定位和对周围声学环境的主观感觉。

虚拟听觉环境是由人工产生或控制声学环境，使倾听者产生犹如置身于自然声学环境的感觉。由于双耳声信号包括了声音的主要信息，因而可以通过人工模拟双耳声信号并用耳机或扬声器重放的方法，使倾听者产生犹如置身于特定声学环境的主观感觉。

在现有技术中，公开了一些通过耳机或扬声器向倾听者虚拟出相应的空间听觉的方案。例如，在专利文献CN 1402593A中，提供了一种5.1通路环绕声的耳机重发的信号处理的方法，通过使用该方法，可以消除耳机重发的头中定位效应，并且可以在无需模拟听音室的房间反射声的前提下，重发出较为自然的5.1通路环绕立体声效果。

在目前的这些方案中，仅能实现通过耳机或扬声器为倾听者提供自然的空间听觉效果。而当倾听者自身移动或转动时，其感受到的声场却不会随之发生改变，从而无法获得更为逼真的沉浸效果。

发明内容

本发明提供一种控制音频信号输出的方法和装置。所述方法和装置可以构建虚拟的听觉环境，使身处其中的倾听者按照自身物理方位的不同，能够听到与其物理方位相符合的声音效果，由此使倾听者获得真实的虚拟听觉体验。进一步地，该虚拟听觉环境能够随着倾听者的物理方位变化进行调整，使倾听者感受到与其物理方位变化相符合的声音效果，从而增强倾听者的虚拟听觉体验。

根据本发明的一个实施例的在虚拟听觉环境中控制音频信号输出的方法，包括：第一获取步骤，获取所述虚拟听觉环境中的对象的方位信息；第一确定步骤，为所述对象确定与所述方位信息相对应的一个或多个声源方位数据集合，所述一个或多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至与所述方位信息相对应的方位的传输特性；以及第一处理步骤，基于所述一个或多个声源方位数据集合，分别对与所述一个或多个声源相对应的一个或多个音频信号进行处理，以得到用于输出的双耳声信号。

在进一步的实施例中，上述方法还包括：第二获取步骤，获取所述虚拟听觉环境中的所述对象的变化后的方位信息；第二确定步骤，为所述对象确定与所述变化后的方位信息相对应的另一个或另多个声源方位数据集合，所述另一个或另多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至与所述变化后的方位信息相对应的方位的传输特性；以及第二处理步骤，基于所述另一个或另多个声源方位数据集合，分别对与所述一个或多个声源相对应的一个或多个音频信号进行处理，以得到用于输出的双耳声信号。

根据本发明的一个实施例的在虚拟听觉环境中控制音频信号输出的装置，包括：音频输入单元，其被配置为接收与所述虚拟听觉环境中的一个或多个声源相对应的一个或多个音频信号；方位信息获取单元，其被配置为获取所述虚拟听觉环境中的对象的方位信息；确定单元，其被配置为为所述对象确定与所述方位信息相对应的一个或多个声源方位数据集合，所述一个或多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至与所述方位信息相对应的方位的传输特性；处理单元，其被配置为基于所述一个或多个声源方位数据集合，分别对所述一个或多个音频信号进行处理，以得到双耳声信号；音频输出单元，其被配置为输出所述双耳声信号。

在进一步的实施例中，所述方位信息获取单元进一步被配置为：获取所述虚拟听觉环境中的所述对象的变化后的方位信息；所述确定单元进一步被配置为：为所述对象确定与所述变化后的方位信息相对应的另一个或另多个声源方位数据集合，所述另一个或另多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至与所述变化后的方位信息相对应的方位的传输特性；所述处理单元进一步被配置为：基于所述另一个或另多个声源方位数据集合，分别对所述一个或多个音频信号进行处理，以得到双耳声信号。

附图说明

图1示出了根据本发明的实施例的在单对象虚拟听觉环境中控制音频信号输出的装置的结构框图；

图2示出了根据本发明的实施例的单对象虚拟现实***的示意图；

图3示出了根据本发明的实施例的在单对象虚拟听觉环境中控制音频信号输出的方法的流程图；

图4示出了根据本发明的实施例的在多对象虚拟听觉环境中控制音频信号输出的装置的结构框图；

图5示出了根据本发明的实施例的多对象虚拟现实***的示意图；以及

图6示出了根据本发明的实施例的在多单对象虚拟听觉环境中控制音频信号输出的方法的流程图。

具体实施方式

声源传输声波至某一具体方位的传输特性可以被表达为函数数据集合，这种表征声波传输特性的函数数据集合可被用于处理音频信号，使音频信号体现所述声源传输声波至该方位的传输特性。当这种经过处理的音频信号经由播放设备转化为声音时，该声音即表现出所述声源传输声波至该方位的传输特性，使倾听者能够感受到虚拟的声源空间方位。如果用多个函数数据集合分别表征声源传输声波至多个具体方位的传输特性，并用该多个函数数据集合分别处理音频信号，就可以使音频信号分别表现出所述声源传输声波至多个具体方位的传输特性。借助这种方案可以构建虚拟的听觉环境，在此基础上，如果将倾听者的现实物理方位投射为虚拟听觉环境中的具体方位，在倾听者的不同现实物理方位和虚拟听觉环境中的不同具体方位之间建立对应关系，就可以使倾听者按照自身物理方位的不同，听到与自身物理方位相符合的声音效果。本发明所提出的这种技术方案可以使倾听者感受到的声音不再一成不变的体现既定的空间方位感，而能够体现与倾听者的物理方位相符合的空间方位感。

在本发明的技术方案中，所述用于表征声波传输特性的函数数据集合被称为声源方位数据集合。适用于本发明的声源方位数据集合可以是例如头部相关传输函数数据(Head Related Transfer Function，HRTF)集合，耳间时间差数据(Interaural TimeDifference，ITD)集合，耳间强度差数据(IID)集合等任何适当的能够表征声源发出的声波传输至某一方位的传输特性的数据集合。

ITD是指由于声源离左、右耳的距离差异，使得声信号到达双耳时的时间差。IID是指由于声源离左、右耳的距离差异，使得声信号到达双耳时的强度差。ITD和IID均是声源位置和声波频率的函数。当声源定位数据集合为ITD和IID数据集合时，用户可以分辨声源位于其左侧还是右侧。

HRTF是自由场情况下从声源到双耳的声学传输函数，其用来描述在自由声场中的声源发出的声波，以一定角度入射到耳道内某点时所发生的特征变化。HRTF是声源位置、声波频率以及人体表面形状和性质的函数。从声源到人体测量点的单位脉冲响应称为头部相关脉冲响应(Head Related Impulse Response，HRIR)。HRTF是HRIR的傅立叶变换。当声源定位数据集合为HRTF数据集合时，用户可以分辨声源位于其前方、后方、上方、下方、左侧还是右侧。

为了更好地理解本发明，下文中将以HRTF数据集合为例对声源方位数据集合在本发明技术方案中的应用进行说明。在详细叙述本发明的各个实施例之前，首先对HRTF的获取方式作简要介绍。

HRTF可以通过实验测量被获取。测量通常在自由场(例如，消声室)内进行。HRTF的测量原理与通常的声学传输函数的测量类似。声源(例如，小型扬声器***)产生激励信号，采用一对传声器捡拾受试者双耳处的声压信号，然后用信号处理的方法求出传输函数。通过改变声源与受试者之间的相对位置，则可以得到不同声源位置的HRTF。至于双耳处声压信号的捡拾，对人工头模型受试者，可以将传声器放置在耳道模拟器的末端，相当于鼓膜的位置进行测量；而对真人受试者，可以将微缩传声器放置在封闭耳道口进行测量。

HRTF也可以通过计算的方式被获取。例如，可以将头部简化为刚性圆球，将双耳简化为球面上相对的2点，然后采用刚性圆球对平面入射波的Raylei散射公式计算HRTF。又例如，在考虑躯干影响的情况下，可以将头部和躯干简化为2个不同半径的球，然后采用格林函数和多重散射的方法计算HRTF。此外，还可以采用激光或CT扫描等方法，将研究对象的外形转换成计算机图像，然后用近似方法计算HRTF。

以上仅是针对若干已知的获取HRTF的方式所作的列举，应当理解的是，通过任何已知的或者未来可能开发出的方式获取的HRTF都能够应用于本发明的基本构思，由此而落入本发明的保护范围之内。

以下将结合附图分别针对单对象虚拟听觉环境和多对象虚拟听觉环境对本发明的各个实施例进行说明。所述虚拟听觉环境可以应用于多种场景，例如，虚拟航空航天训练、虚拟军事训练、虚拟娱乐***、虚拟会议***等。通常情况下，以上列举的各种应用场景同时包括虚拟听觉环境和虚拟视觉环境，两者互相配合而构建出相对完整的虚拟现实环境。在该虚拟现实环境中，用户作为体验者被投射为虚拟现实环境中的对象，用户的行为相应地被投射为对象在虚拟现实环境中的活动，例如，用户可以通过自身在现实环境中的运动来实现对象在虚拟现实场景中的运动。需要说明的是，在下文中为了便于理解和叙述简便，并不严格区分现实世界中的用户和虚拟现实环境中用户所投射的对象。例如，如果需要获得对象在虚拟现实环境中的方位信息，实际操作步骤是通过用户佩戴的方位检测单元检测用户在现实中的物理方位，再基于现实世界的用户和虚拟现实环境中的对象之间的对应关系获得对象在虚拟现实环境中的方位信息。为了便于理解和叙述简便，可以直接将此种操作称为检测对象的方位信息。此外还需要说明的是，本发明所述的虚拟听觉环境可以不依赖于虚拟视觉环境而单独存在。

单对象虚拟听觉环境

图1示出了根据本发明的实施例的在单对象虚拟听觉环境中控制音频信号输出的装置10(以下简称“装置10”)。在单对象虚拟听觉环境中，对象的数目仅为一个。如图1所示，装置10包括音频输入单元110、方位信息获取单元120、确定单元130、处理单元140以及音频输出单元150。

参照图1，音频输入单元110用于接收并向处理单元140输送音频信号。音频信号可以是例如由麦克风采集的音频信号，或者由音频播放器输出的音频信号。音频信号可以是例如单声道、双声道或者立体声音频信号。

为了确定对象在虚拟听觉环境中的方位，方位信息获取单元120获取对象的方位信息。该方位信息包括对象在该单对象虚拟听觉环境中的方位。

对象的方位信息可以由方位信息提供单元(图中未示出)提供给方位信息获取单元120。方位信息提供单元的功能可以通过多种方式实现，这些方式可以单独使用，也可以组合使用。例如，用户可以配备有方位检测单元，通过方位检测单元来检测用户在虚拟听觉环境中所投射的对象的方位，然后将检测到的方位信息提供给方位信息获取单元120。或者，用户也可以配备有用户输入界面，通过用户输入界面来接收用户对其在虚拟听觉环境中所投射的对象的方位的输入，然后将方位信息提供给方位信息获取单元120。方位检测单元可以是，例如陀螺仪、罗盘、加速度计等任意适合的能够用于检测对象方位的元件或者元件组合。用户输入界面的输入可以包括例如文字、符号、语音、或者对界面上的图标的点击、拖动等多种方式。

方位信息获取单元120获取对象的方位信息后，将其传输至确定单元130。由确定单元130基于对象的方位信息，为该对象确定与其方位信息相对应的一个或多个HRTF数据集合，并将确定信息传输至处理单元140。确定信息可以呈现多种形式，例如，确定信息可以包括一个或多个HRTF数据集合本身，或者仅包括所确定的一个或多个HRTF数据集合的索引。对于后者，处理单元140中需要存储有与各索引相对应的HRTF数据集合。

上述为该对象确定的一个或多个HRTF数据集合用于表征单对象虚拟听觉环境中的一个或多个声源传输声波至该对象所处方位的传输特性。当单对象虚拟听觉环境中相对于该对象的声源为单一声源时，确定单元130只为该对象确定与该单一声源相对应的一个HRTF数据集合。当单对象虚拟听觉环境中相对于该对象的声源为多个声源时，确定单元130为该对象确定与该多个声源相对应的多个HRTF数据集合。

用于表征虚拟听觉环境中的声源传输声波至对象所处方位的传输特性的HRTF数据集合可以通过实验测量方式或者计算方式被获取。在一个例子中，可以通过实验测量或计算方式预先获取相互之间一一对应的方位信息与HRTF数据集合。所获取的对应关系可以预存在装置10的内部存储单元(图中未示出)，或者也可以预存在装置10之外的外部存储器中。在该例子中，确定单元130可以基于该对象的方位信息，以及预存的方位信息与HRTF数据集合的对应关系，为该对象选择与其方位信息相匹配的一个或多个HRTF数据集合。

应当理解的是，在HRTF的实际测量中，通常只能做到对M个有限空间方位的测量，而无法穷尽对所有空间方位的测量，因此，倘若方位信息获取单元120获取并传输至确定单元130的方位信息不包括在该M个有限空间方位之内，确定单元130还可以采用空间插值法，例如线性插值法，由M个已知的HRTF数据集合计算出与该方位信息相对应的HRTF数据集合。

在另一个例子中，也可以不预先获取并存储方位信息与HRTF数据集合之间的对应关系，而是由确定单元130根据该对象的方位信息，以及预存的计算HRTF时所需的其它相关信息，为该对象实时计算出与其方位信息相对应的一个或多个HRTF数据集合。

处理单元140基于确定单元130为该对象确定的与其方位信息相对应的一个或多个HRTF数据集合，分别对来自音频输入单元110的与单对象虚拟听觉环境中的一个或多个声源相对应的一个或多个音频信号进行处理，得到用于输出的双耳声信号，并将其传输至音频输出单元150。其中，为该对象确定的与其方位信息相对应的每个HRTF数据集合中均包括针对左右耳的两组HRTF数据。

具体而言，针对虚拟听觉环境中的每个声源，处理单元140首先对与该声源相对应的音频信号进行傅立叶变换，得到该音频信号的频域表示。然后，处理单元140将对应于左右耳的两组HRTF数据与音频信号的频域表示分别相乘后进行傅立叶反变换，以得到用于输出的双耳声信号。

可以理解的是，以上对应的是在频域中的信号处理方式，而对应于时域中，则是将对应于左右耳的两组HRIR数据与音频信号进行卷积，从而得到用于输出的双耳声信号。

音频输出单元150将双耳声信号提供给用户。

考虑到对象在单对象虚拟听觉环境中的方位可能会发生变化，因此，在进一步的实施例中，装置10还可以基于对象的变化后的方位信息，为其确定与变化后的方位信息相对应的另一个或另多个HRTF数据集合，从而实现实时地为该对象选择与其当前方位相匹配的HRTF数据集合的效果。以下将针对该进一步的实施例进行详细说明。

当对象在虚拟听觉环境中的方位发生变化时，可以由方位信息提供单元(图中未示出)获取该对象的方位变化并将方位变化信息提供给方位信息获取单元120。方位信息提供单元的功能可以通过多种方式来实现。例如，可以通过方位检测单元检测用户在虚拟听觉环境中所投射的对象的方位变化，和/或通过用户输入界面接收用户对其在虚拟听觉环境中所投射的对象的方位变化的输入，然后将方位变化信息提供给方位信息获取单元120。例如，方位检测单元可以实时或者周期性地对该对象的方位变化进行检测，也可以响应于触发对该对象的方位变化进行检测。另一方面，也可以随时通过用户输入界面输入该对象的方位变化。该对象在单对象虚拟听觉环境中的方位变化可以包括在水平方向上的转动，平移，在竖直方向上的转动，平移，或者其任意组合。

方位信息获取单元120获取来自方位信息提供单元(图中未示出)的方位变化信息后，基于对象的原方位信息和此次获取的方位变化信息，计算出对象的变化后的方位信息，并将变化后的方位信息提供给确定单元130。确定单元130基于对象的变化后的方位信息，为该对象确定与其变化后的方位信息相对应的另一个或另多个HRTF数据集合。

或者，方位信息提供单元也可以直接获取该对象的变化后的方位并将变化后的方位信息提供给方位信息获取单元120。在此情形下，方位信息获取单元120无需执行上述计算，而只需将获取的变化后的方位信息传输至确定单元130，由确定单元130根据变化后的方位信息，为该对象确定与其变化后的方位信息相对应的另一个或另多个HRTF数据集合。

确定单元130为对象确定与变化后的方位信息相对应的另一个或另多个HRTF数据集合的方式与上文中描述的确定单元130为对象确定与方位信息相对应的一个或多个HRTF数据集合的方式类似，为简明起见，在此不作赘述。

在确定单元130确定与变化后的方位信息相对应的另一个或另多个HRTF数据集合后，处理单元140基于该一个或多个HRTF数据集合，对来自音频输入单元110的与虚拟听觉环境中的一个或多个声源相对应的一个或多个音频信号进行处理，得到用于输出的双耳声信号。随后由音频输出单元150将双耳声信号提供给用户。

处理单元140基于另一个或另多个HRTF数据集合对一个或多个音频信号进行处理的方式与上文中描述的处理单元140基于一个或多个HRTF数据集合对一个或多个音频信号进行处理的方式类似，为简明起见，在此不作赘述。

下文中，以模拟海滩场景的单对象虚拟听觉环境为例，结合图2对图1的控制音频信号输出的装置在具体应用场景中的运用作进一步描述。

图2示出了根据本发明的实施例的示例性单对象虚拟现实***20。如图2所示，单对象虚拟现实***20包括音视频播放器210、图1的控制音频信号输出的装置10(以下简称“装置10”)、方位信息提供单元220、双耳耳机230以及虚拟现实眼镜240。

参照图2，音视频播放器210用于提供音频信号和视频信号。音视频播放器210可以是个人电脑、智能手机、个人数字助理、MP3播放器等任何适当的具有音视频播放功能的设备。在本实施例的海滩场景中，当用户佩戴上双耳耳机230和虚拟现实眼镜240，音视频播放器210向虚拟现实眼镜240传输视频信号，以向该用户呈现蓝色大海和白色沙滩的虚拟视觉环境，以及向双耳耳机230传输经过装置10处理的音频信号，以向用户提供海浪声的虚拟听觉环境。此外，在本实施例的海滩场景中，假设声源的数目仅为一个，也即大海。

当用户所投射的对象进入虚拟现实场景，方位信息提供单元220通过获取用户在现实环境中所处的物理方位来获取用户所投射的对象在虚拟现实场景中的方位，并将对象的方位信息提供给装置10。以方位信息提供单元220是方位检测单元为例，在本实施例的海滩场景中，方位检测单元通过检测用户所处的物理方位来获取对象在该虚拟海滩场景中的方向、位置以及两者的变化，并将方位信息以及方位变化信息提供给装置10。方位检测单元可以设置在能够检测到用户物理方位的任何适当的位置，例如，独立地佩戴在用户的头部位置，或者集成在双耳耳机230或虚拟现实眼镜240中。

以对象左耳朝向声源(也即大海)方向为例，假定对象面朝声源方向时方位为0度，并且对象顺时针转动时角度增加，则此时方位检测单元检测到的方位为90度。装置10中的方位信息获取单元(图中未示出)获取来自方位检测单元的90度方位信息并将其传输至装置10中的确定单元(图中未示出)。随后，由确定单元为对象确定与该90度方位信息相对应的HRTF数据集合，并将确定信息传输至装置10中的处理单元(图中未示出)。处理单元基于所确定的与90度方位信息相对应的HRTF数据集合，对由装置10中的音频输入单元(图中未示出)从音视频播放器210处接收到的海浪声的音频信号进行处理，得到用于输出的双耳声信号。装置10中的音频输出单元(图中未示出)将双耳声信号通过双耳耳机230提供给用户。由于对来自音视频播放器210的海浪声的音频信号采用了与90度方位信息相对应的HRTF数据集合进行处理，因此，用户所感受到的海浪声就会体现与90度方位信息相应的方位特征，也即，用户所感受到的海浪声位于其左耳侧。

进一步地，当用户在现实环境中的物理方位发生变化，例如顺时针旋转90度，那么用户所投射的对象在海滩场景中也顺时针旋转90度，此时方位检测单元检测到的方位变化为顺时针旋转90度，并将该方位变化信息提供给装置10中的方位信息获取单元(图中未示出)。方位信息获取单元获取该顺时针旋转90度的方位变化信息后，基于对象的原方位信息(也即90度方位信息)和此次获取的方位变化信息(也即顺时针旋转90度的方位变化信息)，计算出变化后的方位信息(也即180度方位信息)，并将变化后的方位信息传输至装置10中的确定单元(图中未示出)。确定单元基于变化后的方位信息，为对象确定与该变化后的方位信息相对应的HRTF数据集合，并将确定信息提供给装置10中的处理单元(图中未示出)。处理单元基于所确定的HRTF数据集合，对由装置10中的音频输入单元(图中未示出)从音视频播放器210处接收到的海浪声的音频信号进行处理，得到用于输出的双耳声信号。装置10中的音频输出单元(图中未示出)将双耳声信号通过双耳耳机230提供给用户。由于对来自音视频播放器210的海浪声的音频信号采用了与变化后的方位信息(180度方位信息)相对应的HRTF数据集合进行处理，因此，用户所感受到的海浪声就会体现与180度方位信息相应的方位特征，也即，用户所感受到的海浪声位于用户的正后方。

需要说明的是，尽管上述实施例是以对象在虚拟现实场景中的方向顺时针水平转动90度为例，不涉及对象的位置变化，本领域技术人员应当理解，本发明的技术方案实际上可适用于更复杂的对象方位变化。例如，所述对象的方位变化还可以包括平移，或者转动与平移的组合。此外，所述平移和转动并不局限于二维平面，其可以是三维空间内的任意平移和转动。

另外需要说明的是，上述海滩应用场景中将虚拟听觉环境与虚拟视觉环境相结合进行描述仅是为了更好地说明本发明的技术方案，本发明的技术方案可以仅运用于虚拟听觉环境的应用场景。

图3示出了根据本发明的实施例的在单对象虚拟听觉环境中控制音频信号输出的方法。该方法包括第一获取步骤S310、第一确定步骤S320以及第一处理步骤S330。

参照图3，在第一获取步骤S310中，获取单对象虚拟听觉环境中的对象的方位信息。该方位信息包括对象在单对象虚拟听觉环境中的方位。

在第一确定步骤S320中，为该对象确定与其方位信息相对应的一个或多个声源方位数据集合。该一个或多个声源方位数据集合分别表征单对象虚拟听觉环境中的一个或多个声源传输声波至该对象所处的方位的传输特性。

为对象确定与其方位信息相对应的一个或多个声源方位数据集合可以通过多种方式来实现。例如，可以基于该对象的方位信息，并根据预存的方位信息与声源方位数据集合的对应关系，为该对象选择与其方位信息相匹配的一个或多个声源方位数据集合。又例如，可以基于该对象的方位信息，为该对象计算与其方位信息相对应的一个或多个声源方位数据集合。

声源方位数据集合可以是例如头相关传递函数数据集合、耳间时间差数据集合、耳间强度差数据集合等任何适当的能够表征声源发出的声波传输至某一方位的传输特性的数据集合。

在第一处理步骤S330中，基于所确定的一个或多个声源方位数据集合，分别对与单对象虚拟听觉环境中的一个或多个声源相对应的一个或多个音频信号进行处理，以得到用于输出的双耳声信号。

考虑到该对象在单对象虚拟听觉环境中的方位可能会发生变化，因此，在进一步的实施例中，还可以基于该对象的变化后的方位信息，为其确定与变化后的方位信息相对应的另一个或另多个HRTF数据集合，从而实现实时地为该对象选择与其当前方位相匹配的HRTF数据集合的效果。

在该进一步的实施例中，除了上述第一获取步骤、第一确定步骤以及第一处理步骤之外，还包括第二获取步骤、第二确定步骤以及第二处理步骤。

在第二获取步骤中，获取单对象虚拟听觉环境中的该对象的变化后的方位信息。该变化后的方位信息包括该对象在单对象虚拟听觉环境中的变化后的方位。

在第二确定步骤中，为该对象确定与其变化后的方位信息相对应的另一个或另多个声源方位数据集合。该另一个或另多个声源方位数据集合分别表征单对象虚拟听觉环境中的一个或多个声源传输声波至该对象所处的变化后的方位的传输特性。

为该对象确定与其变化后的方位信息相对应的另一个或另多个声源方位数据集合也可以通过多种方式来实现。例如，可以基于该对象的变化后的方位信息，并根据预存的方位信息与声源方位数据集合的对应关系，为该对象选择与其变化后的方位信息相匹配的另一个或另多个声源方位数据集合。又例如，可以基于该对象的变化后的方位信息，为该对象计算与其变化后的方位信息相对应的另一个或另多个声源方位数据集合。

在第二处理步骤中，基于所确定的另一个或另多个声源方位数据集合，分别对与单对象虚拟听觉环境中的一个或多个声源相对应的一个或多个音频信号进行处理，以得到用于输出的双耳声信号。

多对象虚拟听觉环境

图4示出了根据本发明的实施例的在多对象虚拟听觉环境中控制音频信号输出的装置40(以下简称“装置40”)。在对象虚拟听觉环境中，对象的数目为多个。如图4所示，装置40包括音频输入单元410、方位信息获取单元420、确定单元430、处理单元440以及音频输出单元450。

参照图4，音频输入单元410用于接收并向处理单元440输送音频信号。对于多对象虚拟听觉环境，音频信号可以是例如由麦克风采集的音频信号，或者由音频播放器输出的音频信号。典型的由麦克风采集的音频信号可以是来自各对象的音频信号，典型的由音频播放器输出的音频信号可以是来自虚拟听觉环境中非对象声源的音频信号。此处所述的来自各对象的音频信号，其实际含义是指各用户通过麦克风采集并传输至音频输入单元410的音频信号，在此简称为来自各对象的音频信号；与此类似，所述的来自虚拟听觉环境中非对象声源的音频信号，其实际含义是指由音频播放器播放音频文件并传输至音频输入单元410的音频信号，在此简称为来自虚拟听觉环境中非对象声源的音频信号。音频信号可以是例如单声道、双声道或者立体声音频信号。

为了确定对象在虚拟听觉环境中的方位，方位信息获取单元420获取多对象虚拟听觉环境中的每个对象的方位信息。

在一个例子中，每个对象仅接收来自虚拟听觉环境中非对象声源的音频信号。在这种情形下，所述每个对象的方位信息可以只包括该对象在虚拟听觉环境中的方位。

在另一个例子中，每个对象接收来自虚拟听觉环境中非对象声源的音频信号，以及来自其它对象的音频信号；或者仅接收来自其它对象的音频信号。在这两类情形下，所述每个对象的方位信息包括该对象在虚拟听觉环境中的方位，以及该对象与其它对象的相对方位。

对象的方位信息可以由方位信息提供单元(图中未示出)提供给方位信息获取单元420。方位信息提供单元的功能可以通过多种方式实现，这些方式可以单独使用，也可以组合使用。例如，每个用户可以各自配备方位检测单元，通过方位检测单元来检测用户在虚拟听觉环境中所投射的对象的方位，然后将检测到的方位信息提供给方位信息获取单元420。方位检测单元可以是例如陀螺仪、罗盘、加速度计等任何适当的能够用于检测对象方位的元件或者元件组合。或者，每个用户也可以配备独立的用户输入界面，由用户自定义其在虚拟听觉环境中所投射的对象的方位，以及该对象与其它对象的相对方位。用户输入界面的输入可以包括例如文字、符号、语音、或者对界面上的图标的点击、拖动等多种方式。通过用户输入界面输入的方位信息随即被提供给方位信息获取单元420。以上所述的检测方式和用户自定义方式既可以单独使用，也可以相互组合使用。

方位信息获取单元420获取每个对象的方位信息后，将其传输至确定单元430，由确定单元430基于每个对象的方位信息，分别为每个对象确定与其方位信息相对应的一个或多个HRTF数据集合，并将确定信息传输至处理单元440。确定信息可以呈现多种形式，例如，确定信息可以包括一个或多个HRTF数据集合本身，或者仅包括所确定的一个或多个HRTF数据集合的索引。对于后者，处理单元440中需要存储有与各索引相对应的HRTF数据集合。

上述为每个对象确定的一个或多个HRTF数据集合用于表征多对象虚拟听觉环境中的一个或多个声源传输声波至该对象所处方位的传输特性。当多对象虚拟听觉环境中相对于某一对象的声源为单一声源时，确定单元430只为该对象确定与该单一声源相对应的一个HRTF数据集合。当多对象虚拟听觉环境中相对于某一对象的声源为多个声源时，确定单元430为该对象确定与该对个声源相对应的多个HRTF数据集合，与该多个声源相应。

确定单元430为每个对象确定与其方位信息相对应的一个或多个HRTF数据集合可以通过多种方式来实现。例如，确定单元430可以基于每个对象的方位信息，以及预存的方位信息与HRTF数据集合的对应关系，为每个对象确定与其方位信息相匹配的一个或多个HRTF数据集合。方位信息与HRTF数据集合的对应关系的获取方式已在上文中做出说明，为简明起见，在此不作赘述。又例如，确定单元430可以根据每个对象的方位信息，以及预存的计算HRTF时所需的其它相关信息，为每个对象实时计算出与其方位信息相对应的一个或多个HRTF数据集合。

处理单元440基于确定单元430为每个对象确定的与其方位信息相对应的一个或多个HRTF数据集合，分别对来自音频输入单元410的与多对象虚拟听觉环境中的一个或多个声源相对应的一个或多个音频信号进行处理，得到用于输出的双耳声信号。随后，音频输出单元450将双耳声信号分别提供给相应的用户。

考虑到每个对象在多对象虚拟听觉环境中的方位和/或与其它对象的相对方位可能会发生变化，因此，在进一步的实施例中，装置40还可以基于每个对象的变化后的方位信息，为每个对象确定与其变化后的方位信息相对应的另一个或另多个HRTF数据集合，从而实现实时地为每个对象选择与其变化后的方位相匹配的HRTF数据集合的效果。以下将针对该进一步的实施例进行详细说明。

当多个对象中的某一对象在虚拟听觉环境中的方位和/或与其它对象的相对方位发生变化时，可以由该对象配备的方位信息提供单元(图中未示出)获取该对象的方位变化和/或与其它对象的相对方位变化并将方位变化信息提供给方位信息获取单元420。

在一个例子中，每个对象仅接收来自虚拟听觉环境中非对象声源的音频信号。在这种情形下，所述每个对象的方位变化信息可以只包括该对象在虚拟听觉环境中的方位变化。

在另一个例子中，每个对象接收来自虚拟听觉环境中非对象声源的音频信号，以及来自其它对象的音频信号；或者仅接收来自其它对象的音频信号。在这两类情形下，所述每个对象的方位信息包括该对象在虚拟听觉环境中的方位变化，以及该对象与其它对象的相对方位变化。

方位信息提供单元的功能可以通过多种方式实现，这些方式可以单独使用，也可以组合使用。例如，每个用户可以各自配备方位检测单元，通过方位检测单元来实时地、周期性地、或者响应于触发检测用户在虚拟听觉环境中所投射的对象的方位变化，然后将检测到的方位变化信息提供给方位信息获取单元420。对象在该多对象虚拟听觉环境中的方位变化可以包括在水平方向上的转动或平移或者其组合，和/或在竖直方向上的转动或平移或者其组合。或者，每个用户也可以配备独立的用户输入界面，由用户自定义其在虚拟听觉环境中所投射的对象的方位变化，以及该对象与其它对象的相对方位变化。用户输入界面的输入可以包括例如文字、符号、语音、或者对界面上的图标的点击、拖动等多种方式。通过用户输入界面输入的方位变化信息随即被提供给方位信息获取单元420。以上所述的检测方式和用户自定义方式既可以单独使用，也可以相互组合使用。

以上所述的检测方式和用户自定义方式可以相互组合，共同向方位信息获取单元420提供对象在该多对象虚拟听觉环境中的方位变化信息。例如，在进入虚拟听觉环境时，用户可以通过用户输入界面自定义输入其所投射的对象在虚拟听觉环境中的方位，和/或该对象与其它对象的相对方位，并将方位信息作为初始方位信息提供给方位信息获取单元420。随后由每个用户所配备的方位检测单元实时地、周期性地、或者响应于触发检测用户在虚拟听觉环境中所投射对象的方位变化，并将检测到的方位变化信息提供给方位信息获取单元420。在此过程中，用户也可以随时通过用户输入界面自定义调整对象在虚拟听觉环境中的方位，和/或该对象与其它对象的相对方位。

方位信息获取单元420获取每个对象在虚拟听觉环境中的方位变化信息后，基于每个对象的原方位信息和此次获取的方位变化信息，计算出变化后的方位信息，并将每个对象的变化后的方位信息提供给确定单元430。确定单元430基于每个对象的变化后的方位信息，为每个对象确定与其变化后的方位信息相对应的另一个或另多个HRTF数据集合。

或者，对象配备的方位信息提供单元也可以直接获取该对象的变化后的方位和/或与其它对象的变化后的相对方位并将变化后的方位信息提供给方位信息获取单元120。在此情形下，方位信息获取单元420无需执行上述计算，而只需将获取的每个对象的变化后的方位信息传输至确定单元430，由确定单元430根据每个对象的变化后的方位信息，分别为每个对象确定与其变化后的方位信息相对应的另一个或另多个HRTF数据集合。

在确定单元430为每个对象确定与其变化后的方位信息相对应的另一个或另多个HRTF数据集合后，处理单元440基于该一个或多个HRTF数据集合，对来自音频输入单元410的与虚拟听觉环境中的一个或多个声源相对应的一个或多个音频信号进行处理，得到用于输出的双耳声信号。随后由音频输出单元450将双耳声信号分别提供给相应的用户。

根据本发明的实施例的在多对象虚拟听觉环境中控制音频信号输出的装置可以位于远端，例如，集成在远程服务器中；也可以位于本地端，例如，集成在本地的音视频播放设备或多方会议设备中。

需要说明的是，尽管上述实施例是以在多对象虚拟听觉环境中的控制音频信号输出的装置获取多个对象中的每个对象的方位信息并为每个对象确定与其方位信息相对应的一个或多个HRTF数据集合为例进行描述，本领域技术人员应当理解，在其它实施例中，该控制音频信号输出的装置也可以仅获取多个对象中的部分对象的方位信息并分别为该部分对象确定与其方位信息相对应的一个或多个HRTF数据集合。例如，当该控制音频信号输出的装置位于本地端时，其可以仅获取本地对象的方位信息并为本地对象确定与其方位信息相对应的一个或多个HRTF数据集合，本地对象的方位信息可以包括本地对象在多对象虚拟听觉环境中的方位和/或与其它对象的相对方位。该本地对象的数目可以是一个或者多个。

下文中，以模拟多方会议场景的多对象虚拟听觉环境为例，结合图5对图4的控制音频信号输出的装置在具体应用场景中的运用作进一步描述。

图5示出了根据本发明的实施例的示例性多对象虚拟现实***50。如图5所示，多对象虚拟现实***50包括多方会议设备510、图4的控制音频信号输出的装置40(以下简称“装置40”)、用户输入界面520、双耳耳机530以及虚拟现实眼镜540。在本应用场景中，以装置40位于本地端并且仅接收本地对象的方位信息和变化的方位信息为例进行说明。

参照图5，多方会议设备510提供视频信号以及来自参会者的音频信号，所述视频信号用于模拟多方会议场景的虚拟视觉环境，所述音频信号用于模拟多方会议场景的虚拟听觉环境。当用户佩戴上双耳耳机530和虚拟现实眼镜540，多方会议设备510向虚拟现实眼镜540传输视频信号，以向该用户呈现虚拟的多方会议场景。在所述虚拟的多方会议场景中，该用户以及其他参会者可以被分别呈现为处于不同方位的对象。在此基础上，多方会议设备510还向双耳耳机530传输经过装置40处理的来自其他参会者的音频信号，以模拟处于不同方位的对象的声音。

假设在本实施例的多方会议场景中，共有三位参会者，他们分别是位于装置40所在地的本地用户A，以及位于别处的异地参会者B和C。本地用户A佩戴有上述双耳耳机530和虚拟现实眼镜540。当多方会议设备510被启动后，本地用户A被投射为虚拟现实场景中的本地对象a，异地参会者B和C分别被投射为虚拟现实场景中的其它对象b和c。此时本地用户A可以通过虚拟现实眼镜540看到虚拟现实场景中的对象b和c，也可以看到或者至少部分看到自身投射于虚拟现实场景中的对象a。

在本实施例中，本地用户A可以通过用户输入界面520自定义输入自身所投射的本地对象a在多方会议场景中的方位及该对象a与其它对象b和c的相对方位，并将此方位信息作为初始方位信息提供给装置40中的方位信息获取单元(图中未示出)。

装置40中的方位信息获取单元(图中未示出)获取该方位信息并将其传输至装置40中的确定单元(图中未示出)，由确定单元为本地对象a确定与该方位信息相对应的两个HRTF数据集合，并将确定信息传输至装置40中的处理单元(图中未示出)。其中一个HRTF数据集合表征对象b作为声源发出的声波传输至对象a的传输特点，另一个HRTF数据集合表征对象c作为声源发出的声波传输至对象a的传输特点。随后，装置40中的处理单元(图中未示出)基于所确定的两个HRTF数据集合，分别对由装置40中的音频输入单元(图中未示出)从多方会议设备510处接收到的来自对象b和c的音频信号进行处理，得到用于输出的双耳声信号。装置40中的音频输出单元(图中未示出)将双耳声信号通过双耳耳机530提给本地用户A。由于来自对象b和c的音频信号分别由装置40中的处理单元基于与方位信息相对应的不同HRTF数据集合进行处理，本地用户A所感受到的来自对象b和c的声音就会体现与方位信息相应的方位特征。按照此种方案，用户在虚拟现实场景的多方会议中可以仅根据声音就分辨出不同参会者的方位。例如，假定本地用户A自定义输入的方位信息为，本地对象a在正中间，对象b在其左前方，对象c在其右前方，则本地用户A实际在该虚拟的多方会议中听到的参会者B的声音就在其左前方，参会者C的声音也就在其右前方，和用户A设定的，或者用户A通过虚拟现实眼镜540可以看到的虚拟视觉场景并无二致，从而在听觉上增强了用户的虚拟现实体验。

进一步地，本地用户A也可以随时通过用户输入界面520调整本地对象a在多方会议场景中的方位及该对象a与其它对象b和c的相对方位。

装置40中的方位信息获取单元(图中未示出)获取变化后的方位信息并将其传输至装置40中的确定单元(图中未示出)，由确定单元为本地对象a确定与变化后的方位信息相对应的两个HRTF数据集合。其中，一个HRTF数据集合表征对象b作为声源发出的声波传输至对象a的传输特点，另一个HRTF数据集合表征对象c作为声源发出的声波传输至对象a的传输特点。随后，装置40中的处理单元(图中未示出)基于所确定的两个HRTF数据集合，对由装置40中的音频输入单元(图中未示出)从多方会议设备510处接收到的来自对象b和c的音频信号进行处理，得到用于输出的双耳声信号。装置40中的音频输出单元(图中未示出)将双耳声信号通过双耳耳机530提供给本地用户。由于来自对象b和c的音频信号分别由装置40中的处理单元基于与变化后的方位信息相对应的HRTF数据集合进行处理，本地用户A所感受到的对象b和c的声音就会体现与方位信息变化相应的变化。按照此种方案，用户在虚拟现实场景的多方会议中可以仅根据声音就分辨出不同参会者的方位变化。例如，在用户A前一次自定义输入的方位信息基础上，假定用户A自定义输入的变化后的方位信息为，本地对象a在正中间不变，对象b移动至其正前方，对象c移动至其正右方，则用户A实际在该虚拟的会议中听到的参会者B的声音就移动到其正前方，参会者C的声音也就移动到其正右方，和用户A此次设定的，或者通过虚拟现实眼镜540可以看到的虚拟视觉场景并无二致，从而在听觉上进一步增强用户的虚拟现实体验。

可以理解的是，对于所述的两个异地参会者B和C，在其各自的本地端也可以配备有装置40，以对其提供类似的虚拟听觉环境。

上述多方会议应用场景中将虚拟听觉环境与虚拟视觉环境相结合进行描述仅是为了更好地说明本发明的技术方案，可以理解的是，本发明的技术方案可以仅运用于虚拟听觉环境的应用场景。

图6示出了根据本发明的实施例的在多对象虚拟听觉环境中控制音频信号输出的方法。该方法包括第一获取步骤S610、第一确定步骤S620以及第一处理步骤S630。

参照图6，在第一获取步骤S610中，获取多对象虚拟听觉环境中的多个对象中的至少一个对象的方位信息。该至少一个对象的方位信息包括该对象在多对象虚拟听觉环境中的方位和/或与其它对象的相对方位。

在第一确定步骤S620中，为该至少一个对象确定与其方位信息相对应的一个或多个声源方位数据集合。该一个或多个声源方位数据集合分别表征多对象虚拟听觉环境中的一个或多个声源传输声波至该至少一个对象所处的方位的传输特性。

为至少一个对象确定与其方位信息相对应的一个或多个声源方位数据集合可以通过多种方式来实现。例如，可以基于该至少一个对象的方位信息，并根据预存的方位信息与声源方位数据集合的对应关系，为该至少一个对象选择与其方位信息相匹配的一个或多个声源方位数据集合。又例如，可以基于该至少一个对象的方位信息，为该至少一个对象计算与其方位信息相对应的一个或多个声源方位数据集合。

在第一处理步骤S630中，基于所确定的一个或多个声源方位数据集合，分别对与多对象虚拟听觉环境中的一个或多个声源相对应的一个或多个音频信号进行处理，以得到用于输出的双耳声信号。

在一个例子中，对于该至少一个对象中的每个对象，其它对象作为该多对象虚拟听觉环境中的一个或多个声源。

考虑到该至少一个对象在多对象虚拟听觉环境中的方位可能会发生变化，因此，在进一步的实施例中，还可以基于该至少一个对象的变化后的方位信息，为该至少一个对象确定与其变化后的方位信息相对应的另一个或另多个HRTF数据集合，从而实现实时地为该至少一个对象选择与其当前方位相匹配的HRTF数据集合的效果。

在第二获取步骤中，获取该至少一个对象的变化后的方位信息。该至少一个对象的变化后的方位信息包括该对象在所述虚拟听觉环境中的变化后的方位和/或与其它对象的变化后的相对方位。

在第二确定步骤中，为该至少一个对象确定与其变化后的方位信息相对应的另一个或另多个声源方位数据集合。该另一个或另多个声源方位数据集合分别表征多对象虚拟听觉环境中的一个或多个声源传输声波至该至少一个对象所处的变化后的方位的传输特性。

为该至少一个对象确定与其变化后的方位信息相对应的另一个或另多个声源方位数据集合也可以通过多种方式来实现。例如，可以基于该至少一个对象的变化后的方位信息，并根据预存的方位信息与声源方位数据集合的对应关系，为该至少一个对象选择与其变化后的方位信息相匹配的另一个或另多个声源方位数据集合。又例如，可以基于该至少一个对象的变化后的方位信息，为该至少一个对象计算与其变化后的方位信息相对应的另一个或另多个声源方位数据集合。

在第二处理步骤中，基于所确定的另一个或另多个声源方位数据集合，分别对与多对象虚拟听觉环境中的一个或多个声源相对应的一个或多个音频信号进行处理，以得到用于输出的双耳声信号。

根据本发明各实施例的控制音频信号输出的装置中的各单元可以完全或者部分地由软件、硬件、固件或其任意组合来实现。硬件单元的示例包括但不限于片上***(SOC)、集成电路(IC)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)，等等。

根据本发明各实施例的控制音频信号输出的装置可以被实现为单机设备，也即，所有的单元都实现在一个物理机器中。或者，根据本发明各实施例的控制音频信号输出的装置也可以是一个分布式设备，也即，某些单元与其他单元分别部署在不同的物理机器或位置。

根据本发明各实施例的控制音频信号输出的装置与外部装置之间或者根据本发明各实施例的控制音频信号输出的装置的内部各单元之间可以借助于任何目前已知或者将来开发的通信技术彼此通信，这样的技术包括但不限于：进程/线程间通信、蓝牙、红外、无线或有线的计算机网络、通信网络，等等。

本发明的以上描述用于使本领域的任何普通技术人员能够实现或使用发明。对于本领域普通技术人员来说，本发明的各种修改都是显而易见的，并且本文定义的一般性原理也可以在不脱离本公开的精神和保护范围的情况下应用于其它变形。因此，本发明并不限于本文的实例和设计，而是与本文公开的原理和新颖性特性的最广范围相一致。

Claims

1.一种在虚拟听觉环境中控制音频信号输出的方法，包括：

第一获取步骤，获取所述虚拟听觉环境中的对象的方位信息；

第一确定步骤，为所述对象确定与所述方位信息相对应的一个或多个声源方位数据集合，所述一个或多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至与所述方位信息相对应的方位的传输特性；以及

第一处理步骤，基于所述一个或多个声源方位数据集合，分别对与所述一个或多个声源相对应的一个或多个音频信号进行处理，以得到用于输出的双耳声信号。

2.根据权利要求1所述的方法，其中，还包括：

第二获取步骤，获取所述虚拟听觉环境中的所述对象的变化后的方位信息；

第二确定步骤，为所述对象确定与所述变化后的方位信息相对应的另一个或另多个声源方位数据集合，所述另一个或另多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至与所述变化后的方位信息相对应的方位的传输特性；以及

第二处理步骤，基于所述另一个或另多个声源方位数据集合，分别对与所述一个或多个声源相对应的一个或多个音频信号进行处理，以得到用于输出的双耳声信号。

3.根据权利要求1所述的方法，其中，

所述第一确定步骤包括：基于所述方位信息，并根据预存的方位信息与声源方位数据集合的对应关系，为所述对象选择与所述方位信息相匹配的所述一个或多个声源方位数据集合。

4.根据权利要求1所述的方法，其中，

所述第一确定步骤包括：基于所述方位信息，为所述对象计算与所述方位信息相对应的所述一个或多个声源方位数据集合。

5.根据权利要求2所述的方法，其中，

所述第二确定步骤包括：基于所述变化后的方位信息，并根据预存的方位信息与声源方位数据集合的对应关系，为所述对象选择与所述变化后的方位信息相匹配的所述另一个或另多个声源方位数据集合。

6.根据权利要求2所述的方法，其中，

所述第二确定步骤包括：基于所述变化后的方位信息，为所述对象计算与所述变化后的方位信息相对应的所述另一个或另多个声源方位数据集合。

7.根据权利要求1所述的方法，其中，所述对象为一个对象，

所述第一获取步骤包括：获取所述一个对象的方位信息，所述方位信息包括所述一个对象在所述虚拟听觉环境中的方位；

所述第一确定步骤包括：为所述一个对象确定与其方位信息相对应的一个或多个声源方位数据集合，所述一个或多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至所述一个对象的所述方位的传输特性。

8.根据权利要求2所述的方法，其中，所述对象为一个对象，

所述第二获取步骤包括：获取所述一个对象的变化后的方位信息，所述变化后的方位信息包括所述一个对象在所述虚拟听觉环境中的变化后的方位；

所述第二确定步骤包括：为所述一个对象确定与其变化后的方位信息相对应的另一个或另多个声源方位数据集合，所述另一个或另多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至所述一个对象的所述变化后的方位的传输特性。

9.根据权利要求1所述的方法，其中，所述对象为多个对象，

所述第一获取步骤包括：获取所述多个对象中的至少一个对象的方位信息，所述至少一个对象的方位信息包括该对象在所述虚拟听觉环境中的方位和/或与其它对象的相对方位；

所述第一确定步骤包括：为所述至少一个对象确定与其方位信息相对应的一个或多个声源方位数据集合，所述一个或多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至所述至少一个对象的所述方位的传输特性。

10.根据权利要求2所述的方法，其中，所述对象为多个对象，

所述第二获取步骤包括：获取所述多个对象中的至少一个对象的变化后的方位信息，所述至少一个对象的变化后的方位信息包括该对象在所述虚拟听觉环境中的变化后的方位和/或与其它对象的变化后的相对方位；

所述第二确定步骤包括：为所述至少一个对象确定与其变化后的方位信息相对应的另一个或另多个声源方位数据集合，所述另一个或另多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至所述至少一个对象的所述变化后的方位的传输特性。

11.根据权利要求9或10所述的方法，其中，对于所述至少一个对象中的每个对象，其它对象为所述虚拟听觉环境中的所述一个或多个声源。

12.根据权利要求1-10中任一项所述的方法，其中，所述声源方位数据集合包括以下任一项：

头相关传递函数数据集合；

耳间时间差数据集合；

耳间强度差数据集合。

13.一种在虚拟听觉环境中控制音频信号输出的装置，包括：

音频输入单元，其被配置为接收与所述虚拟听觉环境中的一个或多个声源相对应的一个或多个音频信号；

方位信息获取单元，其被配置为获取所述虚拟听觉环境中的对象的方位信息；

确定单元，其被配置为为所述对象确定与所述方位信息相对应的一个或多个声源方位数据集合，所述一个或多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至与所述方位信息相对应的方位的传输特性；

处理单元，其被配置为基于所述一个或多个声源方位数据集合，分别对所述一个或多个音频信号进行处理，以得到双耳声信号；

音频输出单元，其被配置为输出所述双耳声信号。

14.根据权利要求13所述的装置，其中，

所述方位信息获取单元进一步被配置为：获取所述虚拟听觉环境中的所述对象的变化后的方位信息；

所述确定单元进一步被配置为：为所述对象确定与所述变化后的方位信息相对应的另一个或另多个声源方位数据集合，所述另一个或另多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至与所述变化后的方位信息相对应的方位的传输特性；

所述处理单元进一步被配置为：基于所述另一个或另多个声源方位数据集合，分别对所述一个或多个音频信号进行处理，以得到双耳声信号。

15.根据权利要求14所述的装置，其中，

所述方位信息获取单元被配置为：接收所述虚拟听觉环境中的所述对象的方位变化信息，并且基于所述方位变化信息和所述方位信息，确定所述对象的所述变化后的方位信息。

16.根据权利要求13所述的装置，其中，

所述确定单元被配置为：基于所述方位信息，并根据预存的方位信息与声源方位数据集合的对应关系，为所述对象选择与所述方位信息相匹配的所述一个或多个声源方位数据集合。

17.根据权利要求13所述的装置，其中，

所述确定单元被配置为：基于所述方位信息，为所述对象计算与所述方位信息相对应的所述一个或多个声源方位数据集合。

18.根据权利要求14所述的装置，其中，

所述确定单元被配置为：基于所述变化后的方位信息，并根据预存的方位信息与声源方位数据集合的对应关系，为所述对象选择与所述变化后的方位信息相匹配的所述另一个或另多个声源方位数据集合。

19.根据权利要求14所述的装置，其中，

所述确定单元被配置为：基于所述变化后的方位信息，为所述对象计算与所述变化后的方位信息相对应的所述另一个或另多个声源方位数据集合。

20.根据权利要求13所述的装置，其中，所述对象为一个对象，

所述方位信息获取单元被配置为：获取所述一个对象的方位信息，所述方位信息包括所述一个对象在所述虚拟听觉环境中的方位；

所述确定单元被配置为：为所述一个对象确定与其方位信息相对应的一个或多个声源方位数据集合，所述一个或多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至所述一个对象的所述方位的传输特性。

21.根据权利要求14所述的装置，其中，所述对象为一个对象，

所述方位信息获取单元被配置为：获取所述一个对象的变化后的方位信息，所述变化后的方位信息包括所述一个对象在所述虚拟听觉环境中的变化后的方位；

所述确定单元被配置为：为所述一个对象确定与其变化后的方位信息相对应的另一个或另多个声源方位数据集合，所述另一个或另多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至所述一个对象的所述变化后的方位的传输特性。

22.根据权利要求13所述的装置，其中，所述对象为多个对象，

所述方位信息获取单元被配置为：获取所述多个对象中的至少一个对象的方位信息，所述至少一个对象的方位信息包括该对象在所述虚拟听觉环境中的方位和/或与其它对象的相对方位；

所述确定单元被配置为：为所述至少一个对象确定与其方位信息相对应的一个或多个声源方位数据集合，所述一个或多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至所述至少一个对象的所述方位的传输特性。

23.根据权利要求14所述的装置，其中，所述对象为多个对象，

所述方位信息获取单元被配置为：获取所述多个对象中的至少一个对象的变化后的方位信息，所述至少一个对象的变化后的方位信息包括该对象在所述虚拟听觉环境中的变化后的方位和/或与其它对象的变化后的相对方位；

所述确定单元被配置为：为所述至少一个对象确定与其变化后的方位信息相对应的另一个或另多个声源方位数据集合，所述另一个或另多个声源方位数据集合分别表征所述虚拟听觉环境中的一个或多个声源传输声波至所述至少一个对象的所述变化后的方位的传输特性。

24.根据权利要求22或23所述的装置，其中，对于所述至少一个对象中的每个对象，其它对象为所述虚拟听觉环境中的所述一个或多个声源。

25.根据权利要求13所述的装置，其中，还包括：

方位信息提供单元，其被配置为向所述方位信息获取单元提供所述对象的所述方位信息。

26.根据权利要求14所述的装置，其中，还包括：

方位信息提供单元，其被配置为向所述方位信息获取单元提供所述对象的所述变化后的方位信息或者所述对象的方位变化信息。

27.根据权利要求13-23中任一项所述的装置，其中，所述声源方位数据集合包括以下任一项：

头相关传递函数数据集合；

耳间时间差数据集合；

耳间强度差数据集合。