CN118264971A

CN118264971A - 基于扬声器的空间音频***、音频处理器、车辆、虚拟环绕声转换方法及音频渲染方法

Info

Publication number: CN118264971A
Application number: CN202410694626.0A
Authority: CN
Inventors: 谭波; 刘少鹏
Original assignee: Shanghai Lingjing Acoustic Technology Co ltd; Suzhou Lingjing Av Technology Co ltd
Current assignee: Shanghai Lingjing Acoustic Technology Co ltd; Suzhou Lingjing Av Technology Co ltd
Filing date: 2024-05-31
Publication date: 2024-06-28

Abstract

本发明公开了一种基于扬声器的空间音频***、音频处理器、车辆、虚拟环绕声转换方法及音频渲染方法，在不增加声道数量的前提下将空间音频转换为虚拟环绕声的方法包括：接收初始音频流数据；进行空间渲染操作，包括：预先设定一虚拟空间，且在虚拟空间内设置虚拟耳朵的方位；利用HRTF算法模拟音频在虚拟空间内的声音传播，并模拟耳朵接收到虚拟空间内传播的声音；分析左右耳接收到的声音差异；根据左右耳接收到的声音差异，估计虚拟声源在虚拟空间内的位置；在完成空间渲染后，将音频重新编码为包含空间位置信息的虚拟环绕声音频。通过模拟声场和环境反应，用户可以感受到音频源在虚拟空间中的定位和环境感，增强音频体验的沉浸感和真实感。

Description

基于扬声器的空间音频***、音频处理器、车辆、虚拟环绕声转换方法及音频渲染方法

技术领域

本发明涉及音频信号处理领域，尤其涉及一种基于扬声器的空间音频***、音频处理器、车辆、虚拟环绕声转换方法及音频渲染方法。

背景技术

目前移动终端如手机、平板电脑、笔记本电脑等设备声音大都采用立体声播放的设备，立体声播放设备是指能够产生左右声道声音效果的设备，通过左右声道的声音分别输入到左右耳朵，以模拟立体声效果。这些设备通常包括音频源（如音乐或视频文件）、音频处理器（如解码器或处理芯片）和扬声器。

传统的立体声播放设备通常采用双扬声器布局，一个扬声器用于产生左声道音频，另一个扬声器用于产生右声道音频。这种布局使得用户可以感受到音源在左右方向上的分布，从而获得一定的立体声效果。这种技术的优点是简单、成本低，适用于大多数消费电子设备。

尽管立体声播放设备已经获得了显著的改进，但仍然存在一些不足之处：

空间限制：传统的立体声布局在模拟立体声效果时受到空间的限制。由于只使用了两个扬声器，无法提供真实的三维声场效果；在小型设备中（如智能手机、笔记本电脑等）的扬声器布局和声学限制下，往往无法提供宽广和沉浸式的声场效果，这意味着用户无法感受到音源的真实定位和环绕感，导致音频体验的局限性；

体验的舒适性：目前比如苹果空间音频、移动终端的杜比全景声等格式的内容都需要佩戴耳机才能体验到环绕感，长时间的佩戴耳机会对人耳造成不适的感觉；

主观性差异：每个人的听觉特征和喜好不同，对于立体声效果的感知和满意度也有所不同，因此，设计一个能够满足所有用户需求的通用立体声***是一项挑战；

移动设备的限制：移动设备（如手机和平板电脑）通常具有较小的尺寸和限制的扬声器布局，这会限制其提供立体声效果的能力；小型设备中使用的内置扬声器通常受到尺寸、功率和设计限制，导致它们的声学性能有限，这可能导致音质不够清晰、分辨率较低，无法准确地再现音频信号的细节和动态范围；

环境干扰：外部环境中的噪音和声学反射可能会对立体声效果产生干扰，降低音频体验的质量；

多声道需求：传统的立体声***通常需要多个扬声器通道来实现沉浸和环绕声效果，这要求用户购买昂贵的环绕声设备***，并在安装和配置方面面临一定的复杂性和限制。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，也不必然会给出技术教导；在没有明确的证据表明上述内容在本专利申请的申请日之前已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明的目的是提供一种转换虚拟环绕声的空间音频***，在不对设备进行硬件改造的前提下，创造更宽广和沉浸式的声场效果。

为达到上述目的，本发明采用的技术方案如下：

一种基于扬声器设备的空间音频***，包括扬声器设备及集成有HRTF算法的音频处理器，所述音频处理器实时接收所述扬声器设备的立体声格式或环绕声格式的初始音频流数据，并基于不增加声道的前提下将其转换为虚拟环绕声音频，包括：

对所述初始音频流数据进行预处理，使其在各个声道的音频响度统一；

对预处理后的音频进行空间渲染操作，包括：

预先设定一虚拟空间，且在所述虚拟空间内设置虚拟耳朵的方位，所述虚拟耳朵包括左耳和右耳；

利用HRTF算法模拟所述预处理后的音频在所述虚拟空间内的声音传播，并模拟所述虚拟耳朵接收到所述虚拟空间内传播的声音；

分析左耳与右耳接收到的声音差异，其中，所述声音差异包括时间延迟差异、相位差异、响度衰减差异中的一项或多项；

根据左耳与右耳接收到的声音差异，估计虚拟声源在所述虚拟空间内的位置，所述虚拟声源被定义为在所述虚拟空间内传播的声音的起点；

在完成空间渲染后，将音频重新编码为包含空间位置信息的虚拟环绕声音频，并将其返回给所述扬声器设备。

进一步地，承前所述的任一技术方案或多个技术方案的组合，所述音频处理器将立体声格式的预处理后的音频的左右声道信号分离，或者，将环绕声格式的预处理后的音频的各声道信号分离，得到每个声道对应的单声道音频；

模拟每个声道对应的单声道音频在所述虚拟空间内传播，并模拟得到被左耳和右耳接收的单声道音频；

分析左耳与右耳接收到的声音差异包括：对单声道音频进行时域分析，以确定左耳与右耳接收到声音的时间差；和/或，对单声道音频进行相位分析，以确定左耳与右耳接收到声音的相位差；和/或，对单声道音频进行频域分析，以确定左耳与右耳接收到声音的频率分布。

进一步地，承前所述的任一技术方案或多个技术方案的组合，通过以下方式估计虚拟声源在所述虚拟空间内的位置：

预设一初始化源点，使其位于左耳与右耳的中垂线上；

确定左耳与右耳接收到声音的时间差之后，基于HRTF数据库存储的声学传输特性，确定第一偏移向量；和/或，确定左耳与右耳接收到声音的相位差之后，基于HRTF数据库存储的声学传输特性，确定第二偏移向量；和/或，确定左耳与右耳接收到声音的频率分布后，基于HRTF数据库存储的声学传输特性，确定第三偏移向量；

确定综合偏移向量，并据此对所述初始化源点进行偏移，得到所述虚拟声源在所述虚拟空间内的位置。

进一步地，承前所述的任一技术方案或多个技术方案的组合，将音频重新编码为包含空间位置信息的虚拟环绕声音频包括：

根据估计的所述虚拟声源在所述虚拟空间内的位置，对所述预处理后的音频进行增强处理，包括：

使音频宽度增大；

和/或，通过HRTF算法模拟音频信号在不同方向上被左耳和右耳接收，评估对应的音频效果，以确定音频的方向调整；

和/或，通过HRTF算法模拟音频信号以不同音量和滤波效果被左耳和右耳接收，评估对应的音频效果，以确定音频的频率调整和相位调整；

和/或，通过HRTF算法模拟音频信号以不同的混响和回声效果被左耳和右耳接收，评估对应的音频效果，以确定音频的反射调整。

进一步地，承前所述的任一技术方案或多个技术方案的组合，所述扬声器设备配置有两个以上扬声器，且两扬声器间距在15cm以上；

所述音频处理器集成在所述扬声器设备上；或者，所述扬声器设备配置有客户端应用程序，所述音频处理器设置在该客户端应用程序对应的服务器端或云端。

进一步地，承前所述的任一技术方案或多个技术方案的组合，预先根据所述扬声器设备的扬声器的间距，利用HRTF算法设计所述虚拟空间：扬声器的间距越大，所述虚拟空间越大；

所述扬声器设备包括手机、平板电脑、笔记本电脑、PC电脑、音频播放终端、电视、车载音响设备中的一种或多种。

进一步地，承前所述的任一技术方案或多个技术方案的组合，所述***还包括与所述音频处理器电连接的人机交互模块，其配置有以下调节单元中的一种或多种：

响度统一调节单元，其用于调节对所述初始音频流数据在各个声道的音频响度统一的响度值；

虚拟空间调节单元，其用于调节所述虚拟空间大小和/或调节所述虚拟耳朵在所述虚拟空间内的方位，并用于一键复位虚拟空间的初始设置参数；

空间混响设置单元，其用于从多种预设的空间混响模式中选择一期望混响模式，且所述音频处理器被配置为根据被选择的期望混响模式匹配关联的声道均衡参数和混音参数，所述预设的空间混响模式包括板混响模式、房间混响模式、大厅混响模式。

进一步地，承前所述的任一技术方案或多个技术方案的组合，通过以下方式预先为空间混响模式预设关联的声道均衡参数和混音参数：

针对每一种空间混响模式，多次操作所述扬声器设备的音频***；

根据预设的评价因素对每次操作进行评价计算该次操作的音质分数；

操作预设的次数，并选取其中最高音质分数对应操作下的声道均衡参数和混音参数作为关联的优化参数；或者，直至音质分数达到预设的优化分数阈值则停止操作，并将最后一次操作下的声道均衡参数和混音参数作为关联的优化参数。

根据本发明的另一方面，提供了一种音频处理器，通过以下步骤处理音频以得到虚拟环绕声音频：

获取立体声格式或环绕声格式的初始音频流数据；

对预处理后的音频进行空间渲染操作，包括：

在完成空间渲染后，将音频重新编码为包含空间位置信息的虚拟环绕声音频，且其声道与所述初始音频流数据的声道相同。

进一步地，承前所述的任一技术方案或多个技术方案的组合，将立体声格式的预处理后的音频的左右声道信号分离，或者，将环绕声格式的预处理后的音频的各声道信号分离，得到每个声道对应的单声道音频；

进一步地，承前所述的任一技术方案或多个技术方案的组合，通过以下方式估计虚拟声源在所述虚拟空间内的位置：预设一初始化源点，使其位于左耳与右耳的中垂线上；确定左耳与右耳接收到声音的时间差之后，基于HRTF数据库存储的声学传输特性，确定第一偏移向量；和/或，确定左耳与右耳接收到声音的相位差之后，基于HRTF数据库存储的声学传输特性，确定第二偏移向量；和/或，确定左耳与右耳接收到声音的频率分布后，基于HRTF数据库存储的声学传输特性，确定第三偏移向量；确定综合偏移向量，并据此对所述初始化源点进行偏移，得到所述虚拟声源在所述虚拟空间内的位置；

或者，将音频重新编码为包含空间位置信息的虚拟环绕声音频包括：根据估计的所述虚拟声源在所述虚拟空间内的位置，对所述预处理后的音频进行增强处理，包括：使音频宽度增大；和/或，通过HRTF算法模拟音频信号在不同方向上被左耳和右耳接收，评估对应的音频效果，以确定音频的方向调整；和/或，通过HRTF算法模拟音频信号以不同音量和滤波效果被左耳和右耳接收，评估对应的音频效果，以确定音频的频率调整和相位调整；和/或，通过HRTF算法模拟音频信号以不同的混响和回声效果被左耳和右耳接收，评估对应的音频效果，以确定音频的反射调整。

根据本发明的再一方面，提供了一种空间音频的虚拟环绕声转换方法，在不增加声道数量的前提下将空间音频转换为虚拟环绕声，所述方法包括以下步骤：

接收立体声格式或环绕声格式的初始音频流数据；

对预处理后的音频进行空间渲染操作，包括：

预先设定一虚拟空间，且在所述虚拟空间内设置虚拟耳朵的方位，所述虚拟耳朵包括左耳和右耳；利用HRTF算法模拟所述预处理后的音频在所述虚拟空间内的声音传播，并模拟所述虚拟耳朵接收到所述虚拟空间内传播的声音；

在完成空间渲染后，将音频重新编码为包含空间位置信息的虚拟环绕声音频。

进一步地，承前所述的任一技术方案或多个技术方案的组合，分析左耳与右耳接收到的声音差异之前还包括：将立体声格式的预处理后的音频的左右声道信号分离，或者，将环绕声格式的预处理后的音频的各声道信号分离，得到每个声道对应的单声道音频；模拟每个声道对应的单声道音频在所述虚拟空间内传播，并模拟得到被左耳和右耳接收的单声道音频；

预设一初始化源点，使其位于左耳与右耳的中垂线上；

进一步地，承前所述的任一技术方案或多个技术方案的组合，将音频重新编码为包含空间位置信息的虚拟环绕声音频的方式包括：

使音频宽度增大；

根据本发明的又一方面，提供了一种空间音频的空间渲染方法，包括以下步骤：

利用HRTF算法模拟一待渲染的空间音频在所述虚拟空间内的声音传播，并模拟所述虚拟耳朵接收到所述虚拟空间内传播的声音，其中，所述空间音频为立体声格式或环绕声格式；

根据估计的虚拟声源在所述虚拟空间内的位置，将音频重新编码为包含空间位置信息的虚拟环绕声音频。

此外，本发明还提供了一种车辆，其特征在于，包括如上所述的空间音频***，所述空间音频***包含的扬声器设备为车载音响设备。

本发明提供的技术方案带来的有益效果如下：

a. 声场改善：本专利的空间音频技术能够打破传统声场的限制，通过算法和信号处理技术，在不对设备进行硬件改造的前提下，创造更宽广和沉浸式的声场效果，用户可以感受到音源在三维空间中的定位和环绕感，提供更真实的音频体验；

b. 无需多声道配置：与传统的多声道配置不同，本专利的空间音频技术能够在不需要特殊音频格式或多个扬声器通道的情况下实现更好的声场效果，这意味着用户无需购买昂贵的环绕声设备***，也能享受到沉浸、清晰、均衡的音质体验；

c. 在音频处理器中植入空间音频算法，扬声器设备上来自应用程序等一切媒体源的声音都将经过算法处理，而实时渲染为具有沉浸式空间音频效果的虚拟环绕声。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个示例性实施例提供的基于扬声器设备的空间音频***的示意图；

图2为本发明的一个示例性实施例提供的空间音频的虚拟环绕声转换方法的流程图；

图3为本发明的一个示例性实施例提供的估计虚拟声源在虚拟空间内位置的流程示意图；

图4为本发明的一个示例性实施例提供的空间音频的空间渲染方法的流程图；

图5为未经处理的音频的声场宽度的示意图；

图6为图5中的音频转换为虚拟环绕声后的音频声场宽度的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本发明的一个实施例中，提供了一种基于扬声器设备的空间音频***，如图1所示，尤其涉及基于立体声扬声器设备的空间音频***，空间音频***包括扬声器设备及集成有HRTF算法的音频处理器，扬声器设备须配置有两个以上扬声器，且两扬声器间距优选在15cm以上。

所述音频处理器实时接收所述扬声器设备的立体声格式或环绕声格式的初始音频流数据，并基于不增加声道的前提下将其转换为虚拟环绕声音频，间距大有利于提高转换成虚拟环绕声的音效，可适用的扬声器设备包括手机、平板电脑、笔记本电脑、PC电脑、音频播放终端、电视、车载音响。

本实施例的空间音频***旨在提供沉浸的空间音频效果，使用户能够在现有设备上实时渲染和播放更具有沉浸感的音频内容，可以采用两种实时方案来实现：

第一种实时方案为音频处理器集成在所述扬声器设备上，将空间音频算法植入音频处理器；

另一种实时方案为扬声器设备允许安装第三方应用程序，开发专门的客户端应用程序，音频处理器设置在该客户端应用程序对应的服务器端或云端，即空间音频算法植入在App的服务器上。

音频处理器将立体声或环绕声转换成实现更沉浸的空间音频体验的虚拟环绕声的流程具体如图2所示：

对初始音频流数据进行预处理，使其在各个声道的音频响度统一，确保后续处理的音频是符合国家标准响度的；使用的技术包括数字滤波器和动态范围压缩。

对预处理后的音频进行空间渲染操作，包括：

预先根据扬声器设备的扬声器的间距，利用HRTF算法设计虚拟空间：扬声器的间距越大，所述虚拟空间越大；且在所述虚拟空间内设置虚拟耳朵的方位，所述虚拟耳朵包括左耳和右耳；虚拟空间是通过HRTF算法和数据模型构建的三维声音环境，它允许声音在这个空间内以模拟的方式传播。这种空间通过使用HRTF数据来定义，模拟声音如何从不同的方位和距离到达听者的耳朵，从而创造出立体声或环绕声效果。虚拟空间内的声音传播模仿现实世界中的声学特性，包括声音的方向、反射、衰减等。

在完成空间渲染后，将音频重新编码为包含空间位置信息的虚拟环绕声音频，并将其返回给所述扬声器设备。一旦确定了虚拟声源的空间位置，算法会根据该位置信息对音频内容进行处理和增强，包括调整声音的方向、距离感和环境反射等效果，以模拟真实的三维声场。算法会应用声学模型、滤波器、增强算法等技术来实现空间音频效果的生成，即重新编码得到包含空间位置信息的虚拟环绕声音频。

重新编码的目的是根据估计的所述虚拟声源在所述虚拟空间内的位置，对所述预处理后的音频进行增强处理，具体可以采用以下手段或其组合：

手段一：使音频宽度增大，经过处理后的音频声场宽度如图6，对比图5的处理前的原始音频的声场宽度，更能提供宽广和沉浸式的声场效果；

手段二：通过HRTF算法模拟音频信号在不同方向上被左耳和右耳接收，评估对应的音频效果，以确定音频的方向调整；即通过使用头部相关传输函数（HRTF），模拟声音在不同方向上如何被人耳接收，以调整声音方向。

手段三：通过HRTF算法模拟音频信号以不同音量和滤波效果被左耳和右耳接收，评估对应的音频效果，以确定音频的频率调整和相位调整；调整声音的音量和滤波效果来模拟声源距离听者的远近，声音越远，音量越小，高频成分减少。

手段四：通过HRTF算法模拟音频信号以不同的混响和回声效果被左耳和右耳接收，评估对应的音频效果，以确定音频的反射调整；使用混响和回声效果来模拟声音在不同环境中的反射特性，增加声音的环境感。

具体地，在分析左耳与右耳接收到的声音差异之前，所述音频处理器将立体声格式的预处理后的音频的左右声道信号分离，或者，将环绕声格式的预处理后的音频的各声道信号分离，得到每个声道对应的单声道音频；

分析左耳与右耳接收到的声音差异包括：对单声道音频进行时域分析，以确定左耳与右耳接收到声音的时间差；和/或，对单声道音频进行相位分析，以确定左耳与右耳接收到声音的相位差，相位的不同也会影响听觉定位感；和/或，对单声道音频进行频域分析，通过FFT（快速傅里叶变换）方法，分析每个声道的频谱，识别出各个频率成分，从而了解声音的频率分布和特征，以确定左耳与右耳接收到声音的频率分布。

算法推断立体声音源位置通常依赖于头部相关传输函数（HRTF）的特性。通过分析音频信号与HRTF之间的相互作用，算法可以模拟人类耳朵和大脑如何根据声音的到达时间差异、音量差异以及频率滤波效果（由头部、耳朵形状等因素引起）来定位声源。这些差异被编码进音频信号中，使得算法能够推断出声源在虚拟空间中的方位和距离，从而在听众的耳机或扬声器中重现具有高度空间感的音频景象。推断音源位置的过程涉及几个关键步骤：首先，通过分析声音信号的频率响应和相位信息，结合HRTF数据，模拟声音如何从各个方向到达听者的耳朵。算法考虑声音在到达听者前由于头部、耳朵等阻挡造成的滤波效果，这些效果对声音的频率成分和相位产生变化。然后，算法利用这些变化来计算声音的虚拟来源方向和距离。通过对左右耳接收到的声音差异（包括到达时间差和强度差）的精确分析，可以推断出声源在三维空间中的位置。

在一个具体实施例中，在分析左耳与右耳接收到的声音差异之后，提供了估计虚拟声源在所述虚拟空间内的位置的方式如图3所示：

预设一初始化源点，使其位于左耳与右耳的中垂线上；

确定左耳与右耳接收到声音的时间差之后，基于HRTF数据库存储的声学传输特性，确定第一偏移向量，其表征所述初始化源点在垂直所述中垂线方向上的偏移；

确定左耳与右耳接收到声音的相位差之后，基于HRTF数据库存储的声学传输特性，确定第二偏移向量，其表征所述初始化源点在以左右耳间中点为圆心的圆周上的偏移；

确定左耳与右耳接收到声音的频率分布后，基于HRTF数据库存储的声学传输特性，确定第三偏移向量，其表征所述初始化源点分别在中垂线方向、垂直所述中垂线方向上的偏移；

结合第一偏移向量、第二偏移向量和第三偏移向量，确定综合偏移向量，并据此对所述初始化源点进行偏移，得到所述虚拟声源在所述虚拟空间内的位置。

在一个实施例中，所述***还包括与所述音频处理器电连接的人机交互模块，如图1所示，其配置有以下调节单元中的一种或多种：

针对空间混响设置单元，通过以下方式预先为空间混响模式预设关联的声道均衡参数和混音参数：

人机交互模块可以集成在扬声器设备上，也可以独立于扬声器设备，通过人机交互模块，可以实现用户根据自己的听觉特征和喜好来定制专属的音频方案，成为一个能够满足不同用户需求的通用立体声音频***。

无论是将空间音频算法植入在扬声器设备的音频处理器上，还是采用在扬声器设备上安装APP来实现空间音频算法的方式，都能够实现实时渲染和播放处理后的音频内容，这意味着用户可以即时体验到沉浸式的空间音频效果。

本发明实施例可以适用于任何设备，包括智能手机、平板电脑、笔记本电脑、PC电脑、音频播放终端、电视、车载音响等允许安装第三方应用程序（APP）的播放设备，这使得用户可以在自己已有的设备上实现立体环绕音频效果的提升，而无需购买新的专门设备或进行硬件改造。

通过算法植入或安装APP，用户可以在自己已有的设备上实现立体环绕音频效果的提升，不需要购买额外的设备来增加多声道配置或进行复杂的设置。

在本发明的一个实施例中，提供了一种音频处理器，通过以下步骤处理音频以得到虚拟环绕声音频：

获取立体声格式或环绕声格式的初始音频流数据；

对预处理后的音频进行空间渲染操作，包括：

具体地，将立体声格式的预处理后的音频的左右声道信号分离，或者，将环绕声格式的预处理后的音频的各声道信号分离，得到每个声道对应的单声道音频；

通过以下方式估计虚拟声源在所述虚拟空间内的位置：预设一初始化源点，使其位于左耳与右耳的中垂线上；确定左耳与右耳接收到声音的时间差之后，基于HRTF数据库存储的声学传输特性，确定所述初始化源点在垂直所述中垂线方向上的偏移向量；和/或，确定左耳与右耳接收到声音的相位差之后，基于HRTF数据库存储的声学传输特性，确定所述初始化源点在以左右耳间中点为圆心的圆周上的偏移向量；和/或，确定左耳与右耳接收到声音的频率分布后，基于HRTF数据库存储的声学传输特性，确定所述初始化源点分别在中垂线方向、垂直所述中垂线方向上的偏移向量；确定综合偏移向量，并据此对所述初始化源点进行偏移，得到所述虚拟声源在所述虚拟空间内的位置。

将音频重新编码为包含空间位置信息的虚拟环绕声音频包括：根据估计的所述虚拟声源在所述虚拟空间内的位置，对所述预处理后的音频进行增强处理，包括：使音频宽度增大；和/或，通过HRTF算法模拟音频信号在不同方向上被左耳和右耳接收，评估对应的音频效果，以确定音频的方向调整；和/或，通过HRTF算法模拟音频信号以不同音量和滤波效果被左耳和右耳接收，评估对应的音频效果，以确定音频的频率调整和相位调整；和/或，通过HRTF算法模拟音频信号以不同的混响和回声效果被左耳和右耳接收，评估对应的音频效果，以确定音频的反射调整。

本实施例提供的音频处理器与上述实施例提供的空间音频***属于相同的发明构思，在此通过全文引用的方式将空间音频***实施例的全部内容合并到此音频处理器的实施例中。

在本发明的一个实施例中，提供了一种空间音频的虚拟环绕声转换方法，在不增加声道数量的前提下将空间音频转换为虚拟环绕声，所述方法包括以下步骤：

接收立体声格式或环绕声格式的初始音频流数据；

在完成空间渲染后，将音频重新编码为包含空间位置信息的虚拟环绕声音频。具体地，将音频重新编码为包含空间位置信息的虚拟环绕声音频的方式包括：使音频宽度增大；和/或，通过HRTF算法模拟音频信号在不同方向上被左耳和右耳接收，评估对应的音频效果，以确定音频的方向调整；和/或，通过HRTF算法模拟音频信号以不同音量和滤波效果被左耳和右耳接收，评估对应的音频效果，以确定音频的频率调整和相位调整；和/或，通过HRTF算法模拟音频信号以不同的混响和回声效果被左耳和右耳接收，评估对应的音频效果，以确定音频的反射调整。

本实施例提供的音频处理器与上述实施例提供的空间音频***属于相同的发明构思，即分析左耳与右耳接收到的声音差异之前还包括：将立体声格式的预处理后的音频的左右声道信号分离，或者，将环绕声格式的预处理后的音频的各声道信号分离，得到每个声道对应的单声道音频；模拟每个声道对应的单声道音频在所述虚拟空间内传播，并模拟得到被左耳和右耳接收的单声道音频；

通过以下方式估计虚拟声源在所述虚拟空间内的位置：

预设一初始化源点，使其位于左耳与右耳的中垂线上；

确定左耳与右耳接收到声音的时间差之后，基于HRTF数据库存储的声学传输特性，确定所述初始化源点在垂直所述中垂线方向上的偏移向量；和/或，确定左耳与右耳接收到声音的相位差之后，基于HRTF数据库存储的声学传输特性，确定所述初始化源点在以左右耳间中点为圆心的圆周上的偏移向量；和/或，确定左耳与右耳接收到声音的频率分布后，基于HRTF数据库存储的声学传输特性，确定所述初始化源点分别在中垂线方向、垂直所述中垂线方向上的偏移向量；

在此通过全文引用的方式将空间音频***实施例的全部内容合并到此空间音频的虚拟环绕声转换方法的实施例中。

在本发明的一个实施例中，提供了一种空间音频的空间渲染方法，参见图4，包括以下步骤：

本实施例提供的空间渲染方法为上述空间音频的虚拟环绕声转换方法实施例中的重要环节，即将上述空间音频的虚拟环绕声转换方法实施例中的从扬声器设备实时接收的初始音频流数据进行预处理之后的音频即为本实施例中的待渲染的空间音频。

空间渲染的目的是在不增加初始音频流数据的声道数量的前提下，将初始音频流数据转换为包含空间位置信息的虚拟环绕声音频，使得在扬声器设备播放包含空间位置信息的虚拟环绕声音频时，用户在三维空间中感受音源的定位和环绕感更强烈，为客户提供更真实、沉浸式的音频体验。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于扬声器设备的空间音频***，其特征在于，包括扬声器设备及集成有HRTF算法的音频处理器，所述音频处理器实时接收所述扬声器设备的立体声格式或环绕声格式的初始音频流数据，并基于不增加声道的前提下将其转换为虚拟环绕声音频，包括：

对预处理后的音频进行空间渲染操作，包括：

2.根据权利要求1所述的基于扬声器设备的空间音频***，其特征在于，所述音频处理器将立体声格式的预处理后的音频的左右声道信号分离，或者，将环绕声格式的预处理后的音频的各声道信号分离，得到每个声道对应的单声道音频；

3.根据权利要求2所述的基于扬声器设备的空间音频***，其特征在于，通过以下方式估计虚拟声源在所述虚拟空间内的位置：

预设一初始化源点，使其位于左耳与右耳的中垂线上；

4.根据权利要求2所述的基于扬声器设备的空间音频***，其特征在于，将音频重新编码为包含空间位置信息的虚拟环绕声音频包括：

使音频宽度增大；

5.根据权利要求1所述的基于扬声器设备的空间音频***，其特征在于，所述扬声器设备配置有两个以上扬声器，且两扬声器间距在15cm以上；

6.根据权利要求5所述的基于扬声器设备的空间音频***，其特征在于，预先根据所述扬声器设备的扬声器的间距，利用HRTF算法设计所述虚拟空间：扬声器的间距越大，所述虚拟空间越大；

7.根据权利要求1至6中任一项所述的基于扬声器设备的空间音频***，其特征在于，所述***还包括与所述音频处理器电连接的人机交互模块，其配置有以下调节单元中的一种或多种：

8.根据权利要求7所述的基于扬声器设备的空间音频***，其特征在于，通过以下方式预先为空间混响模式预设关联的声道均衡参数和混音参数：

9.一种音频处理器，其特征在于，通过以下步骤处理音频以得到虚拟环绕声音频：

获取立体声格式或环绕声格式的初始音频流数据；

对预处理后的音频进行空间渲染操作，包括：

10.根据权利要求9所述的音频处理器，其特征在于，将立体声格式的预处理后的音频的左右声道信号分离，或者，将环绕声格式的预处理后的音频的各声道信号分离，得到每个声道对应的单声道音频；

11.根据权利要求10所述的音频处理器，其特征在于，通过以下方式估计虚拟声源在所述虚拟空间内的位置：预设一初始化源点，使其位于左耳与右耳的中垂线上；确定左耳与右耳接收到声音的时间差之后，基于HRTF数据库存储的声学传输特性，确定第一偏移向量；和/或，确定左耳与右耳接收到声音的相位差之后，基于HRTF数据库存储的声学传输特性，确定第二偏移向量；和/或，确定左耳与右耳接收到声音的频率分布后，基于HRTF数据库存储的声学传输特性，确定第三偏移向量；确定综合偏移向量，并据此对所述初始化源点进行偏移，得到所述虚拟声源在所述虚拟空间内的位置；

12.一种空间音频的虚拟环绕声转换方法，其特征在于，在不增加声道数量的前提下将空间音频转换为虚拟环绕声，所述方法包括以下步骤：

接收立体声格式或环绕声格式的初始音频流数据；

对预处理后的音频进行空间渲染操作，包括：

13.根据权利要求12所述的空间音频的虚拟环绕声转换方法，其特征在于，分析左耳与右耳接收到的声音差异之前还包括：将立体声格式的预处理后的音频的左右声道信号分离，或者，将环绕声格式的预处理后的音频的各声道信号分离，得到每个声道对应的单声道音频；模拟每个声道对应的单声道音频在所述虚拟空间内传播，并模拟得到被左耳和右耳接收的单声道音频；

14.根据权利要求13所述的空间音频的虚拟环绕声转换方法，其特征在于，通过以下方式估计虚拟声源在所述虚拟空间内的位置：

预设一初始化源点，使其位于左耳与右耳的中垂线上；

15.根据权利要求13所述的空间音频的虚拟环绕声转换方法，其特征在于，将音频重新编码为包含空间位置信息的虚拟环绕声音频的方式包括：

使音频宽度增大；

16.一种空间音频的空间渲染方法，其特征在于，包括以下步骤：

17.一种车辆，其特征在于，包括如权利要求1至8中任一项所述的空间音频***，所述空间音频***包含的扬声器设备为车载音响设备。