CN110853658B

CN110853658B - 音频信号的下混方法、装置、计算机设备及可读存储介质

Info

Publication number: CN110853658B
Application number: CN201911173782.8A
Authority: CN
Inventors: 王薇娜; 高五峰; 董强国; 孙学京
Original assignee: CHINA FILM SCIENCE AND TECHNOLOGY INST
Current assignee: China Film Science and Technology Research Institute (Film Technology Quality Inspection Institute of the Central Propaganda Department)
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-12-07
Anticipated expiration: 2039-11-26
Also published as: CN110853658A

Abstract

本发明公开一种音频信号的下混方法、装置、计算机设备及可读存储介质。该方法包括：将多声道音频信号乘以双声道转换系数，获得左声道音频信号及右声道音频信号；分别对多声道音频信号、左声道音频信号及右声道音频信号进行转换，生成多声道频域信号、第一左声道频域信号及第一右声道频域信号；基于头相关传输模型处理多声道频域信号，获得第二左声道频域信号及第二右声道频域信号；对第一左声道频域信号和第二左声道频域信号进行加权，生成下混左声道频域信号，对第一右声道频域信号和第二右声道频域信号进行加权，生成下混右声道频域信号；对下混左声道频域信号及下混右声道频域信号进行转换，生成下混左声道音频信号及下混右声道音频信号。

Description

音频信号的下混方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及音频处理领域，具体而言，涉及一种音频信号的下混方法、装置、计算机设备及计算机可读存储介质。

背景技术

近年来，随着高清视频技术从2K升级到4K、甚至8K，以及VR(Virtual Reality，虚拟现实)、AR(Augmented Reality，增强现实)的不断发展，人们对音频的听觉要求也逐渐提高。沉浸式音频5.1、7.1甚至更多声道的***开始大量涌现。

随着移动互联网的快速发展，越来越多的用户选择通过耳机体验音频内容。因此，需要将多声道的音频内容转化成双声道或立体声格式(即下混处理，Downmix)，以适应耳机或双扬声器播放的场景。然而，当前下混技术并不成熟，获得的双声道音频难以兼备音质和空间渲染效果。

需要说明的是，在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种音频信号的下混方法、装置、计算机设备及计算机可读存储介质。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一方面，提供一种音频信号的下混方法，包括：获取多声道音频信号；分别将所述多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数，获得左声道音频信号及右声道音频信号；分别对所述多声道音频信号、所述左声道音频信号及所述右声道音频信号进行时域-频域转换，对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号；分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型，对所述多声道频域信号进行处理，获得第二左声道频域信号及第二右声道频域信号；根据权重系数，对所述第一左声道频域信号和所述第二左声道频域信号进行加权处理，生成下混左声道频域信号，并对所述第一右声道频域信号和所述第二右声道频域信号进行加权处理，生成下混右声道频域信号；以及分别对所述下混左声道频域信号及所述下混右声道频域信号进行频域-时域转换，对应生成下混左声道音频信号及下混右声道音频信号。

根据本发明的一实施方式，所述左声道转换系数及所述右声道转换系数为所述头相关传输模型对应各声道的滤波阻尼系数。

根据本发明的一实施方式，所述权重系数是根据所述多声道音频信号的音源的移动速度预先确定的。

根据本发明的一实施方式，当所述音源为静止音源时，所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数为0。

根据本发明的一实施方式，所述权重系数是基于卷积神经网络模型对多声道音频样本信号对应的多声道频域信号进行预先训练确定的。

根据本发明的一实施方式，所述方法还包括：根据所述多声道音频信号对应的协方差矩阵的最大特征值与所有特征值之和的比值，确定所述权重系数。

根据本发明的一实施方式，根据所述多声道音频信号对应的协方差矩阵的最大特征值与所有特征值之和的比值，确定所述权重系数包括：当所述比值大于预设阈值时，确定所述第一左声道频域信号与所述第一右声道频域信号对应的权重系数小于所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数；当所述比值小于所述预设阈值时，确定所述第一左声道频域信号与所述第一右声道频域信号对应的权重系数大于所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数。

根据本发明的另一方面，提供一种音频信号的下混装置，包括：信号获取模块，用于获取多声道音频信号；第一处理模块，用于分别将所述多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数，获得左声道音频信号及右声道音频信号；第一转换模块，用于分别对所述多声道音频信号、所述左声道音频信号及所述右声道音频信号进行时域-频域转换，对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号；第二处理模块，用于分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型，对所述多声道频域信号进行处理，获得第二左声道频域信号及第二右声道频域信号；第三处理模块，用于根据权重系数，对所述第一左声道频域信号和所述第二左声道频域信号进行加权处理，生成下混左声道频域信号，并对所述第一右声道频域信号和所述第二右声道频域信号进行加权处理，生成下混右声道频域信号；以及第二转换模块，用于分别对所述下混左声道频域信号及所述下混右声道频域信号进行频域-时域转换，对应生成下混左声道音频信号及下混右声道音频信号。

根据本发明的再一方面，提供一种计算机设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现上述任一种音频信号的下混方法。

根据本发明的再一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现上述任一种音频信号的下混方法。

根据本发明提供的音频信号的下混方法，能够获得兼具良好音质和良好空间渲染效果的双声道音频信号。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施方式示出的一种音频信号的下混方法的流程图。

图2是根据一示例性实施方式示出的另一种音频信号的下混方法的流程图。

图3是根据一示例性实施方式示出的一种音频信号的下混装置的框图。

图4是根据一示例性实施方式示出的一种计算机设备的结构示意图。

图5是根据一示例性实施例示出的一种多声道音频***的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

如上所述，为解决下混的双声道音频存在音质缺损或空间失准的问题，本发明提出了一种新的音频信号的下混方法。下面通过本发明的各实施方式进行具体说明。

图1是根据一示例性实施方式示出的一种音频信号的下混方法的流程图。如图1所示的音频信号的下混方法例如可以应用于典型沉浸式5.1***的双耳化(binauralization)处理过程。

如图5所示，典型沉浸式5.1***输出的音频信号包括：左声道(l)音频信号、右声道(r)音频信号、中置声道(c)音频信号、左环绕声道(ls)音频信号及右环绕声道(rs)音频信号。其中，左声道音频信号的方位角为-30°，右声道音频信号的方位角为30°，中置声道音频信号的方位角为0°，左环绕声道音频信号的方位角为-110°，右环绕声道音频信号的方位角为110°。

参考图1，音频信号的下混方法10包括：

在步骤S102中，获取多声道音频信号。

以典型沉浸式5.1***为例进行说明：获取的多声道音频信号可表示为：x_in(t)＝[x_{in_l}(t)，x_{in_r}(t)，x_{in_c}(t)，x_{in_ls}(t)，x_{in_rs}(t)]^T。其中，x_{in_l}(t)，x_{in_r}(t)，x_{in_c}(t)，x_{in_ls}(t)，x_{in_rs}(t)分别为左声道、右声道、中置声道、左环绕声道以及右环绕声道音频信号。

在步骤S104中，分别将多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数，获得左声道音频信号及右声道音频信号。

在一些实施例中，左声道转换系数及右声道转换系数为头相关传输(HeadRelated Transfer Function，HRTF)模型对应各声道的滤波阻尼系数。

对应于上述5个声道，左声道转换系数可表示为：α_l＝[α_{l_l}，α_{r_l}，α_{c_l}，α_{ls_l}，α_{rs_l}]^T，右声道转换系数可表示为：α_r＝[α_{l_r}，α_{r_r}，α_{c_r}，α_{ls_r}，α_{rs_r}]^T。

承上述，获得的左声道音频信号可表示为：x_{m_l}(t)＝[x_{in_l}(t)·α_{l_l}，x_{in_r}(t)·α_{r_l}，x_{in_c}(t)·α_{c_l}，x_{in_ls}(t)·α_{ls_l}，x_{in_rs}(t)·α_{rs_l}]^T，获得的右声道音频信号可表示为：x_{m_r}(t)＝[x_{in_l}(t)·α_{l_r}，x_{in_r}(t)·α_{r_r}，x_{in_c}(t)·α_{c_r}，x_{in_ls}(t)·α_{ls_r}，x_{in_rs}(t)·α_{rs_r}]^T。

在步骤S106中，分别对多声道音频信号、左声道音频信号及右声道音频信号进行时域-频域转换，对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号。

例如，可基于快速傅里叶变换算法(Fast Fourier Transform，FFT)，将时域上的多声道音频信号x_in(t)、左声道音频信号x_{m_l}(t)及右声道音频信号x_{m_r}(t)分别转换为频域上的多声道频域信号x_in(k,n)、第一左声道频域信号x_{m_l}(k,n)及第一右声道频域信号x_{m_r}(k,n)。其中，k和n分别代表离散域的频率和时间。

在步骤S108中，分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型，对多声道频域信号进行处理，获得第二左声道频域信号及第二右声道频域信号。

头相关传输模型中的左声道频域响应子模型的响应函数可表示为：h_l(k,n)＝[h_{l_l}(k,n)，h_{r_l}(k,n)，h_{c_l}(k,n)，h_{ls_l}(k,n)，h_{rs_l}(k,n)]^T，头相关传输模型中的右声道频域响应子模型的响应函数可表示为：h_r(k,n)＝[h_{l_r}(k,n)，h_{r_r}(k,n)，h_{c_r}(k,n)，h_{ls_r}(k,n)，h_{rs_r}(k,n)]^T。因此，处理得到的第二左声道频域信号可表示为：x_{h_l}(k,n)＝[x_{in_l}(k,n)·h_{l_l}(k,n)，x_{in_r}(k,n)·h_{r_l}(k,n)，x_{in_c}(k,n)·h_{c_l}(k,n)，x_{in_ls}(k,n)·h_{ls_l}(k,n)，x_{in_rs}(k,n)·h_{rs_l}(k,n)]^T，第二右声道频域信号可表示为：x_{h_r}(k,n)＝[x_{in_l}(k,n)·h_{l_r}(k,n)，x_{in_r}(k,n)·h_{r_r}(k,n)，x_{in_c}(k,n)·h_{c_r}(k,n)，x_{in_ls}(k,n)·h_{ls_r}(k,n)，x_{in_rs}(k,n)·h_{rs_r}(k,n)]^T。

在步骤S110中，根据权重系数，对第一左声道频域信号和第二左声道频域信号进行加权处理，生成下混左声道频域信号，并对第一右声道频域信号和第二右声道频域信号进行加权处理，生成下混右声道频域信号。

承上述，根据权重系数ω(k,n)及1-ω(k,n)，下混左声道频域信号可表示为：y_l(k,n)＝ω(k,n)·x_{h_l}(k,n)+(1-ω(k,n))·x_{m_l}(k,n)，下混右声道频域信号可表示为：y_r(k,n)＝ω(k,n)·x_{h_r}(k,n)+(1-ω(k,n))·x_{m_r}(k,n)。

需要说明的是，由于不同频段对音质有不同的影响，且生成第一双声道频域信号的方法与生成第二双声道频域信号的方法对不同频率的影响也不相同，因此上述权重系数ω可与频率k相关。

第一双声道频域信号(x_{m_l}(k,n)，x_{m_r}(k,n))有效地保留了音质，尤其能够保障高频信号的音质；基于头相关传输模型处理得到的第二双声道频域信号(x_{h_l}(k,n)，x_{h_r}(k,n))拥有精准的方位连续性和空间感。因此，下混得到的双声道频域信号(y_l(k,n)，y_r(k,n))可以兼具良好的音质和空间渲染效果。

在步骤S112中，分别对下混左声道频域信号及下混右声道频域信号进行频域-时域转换，对应生成下混左声道音频信号及下混右声道音频信号。

即与步骤S106相对应地，可基于快速傅里叶逆变换算法(Inverse Fast FourierTransform，IFFT)，将频域上的下混左声道频域信号y_l(k,n)及下混右声道频域信号y_r(k,n)分别转换为时域上的下混左声道音频信号y_l(t)及下混右声道音频信号y_r(t)，以支持耳机模式或双扬声器模式的输出。

根据本发明实施方式提供的音频信号的下混方法，能够获得兼具良好音质和良好空间渲染效果的双声道音频信号。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施方式。

关于步骤S110中使用的权重系数ω(k,n)的确定方案，本发明提供了下面三种实施例进行举例说明。需要说明的是，在本发明方法中，权重系数的取得并不以下述三种实施例为限。

【一】权重系数ω(k,n)是根据多声道音频信号x_in(t)的音源的移动速度预先确定的。

具体而言，第二双声道频域信号(x_{h_l}(k,n)，x_{h_r}(k,n))对应的权重系数ω(k,n)与音源的移动速度正相关，则第一双声道频域信号(x_{m_l}(k,n)，x_{m_r}(k,n))对应的权重系数1-ω(k,n)与音源的移动速度负相关。特别地，当音源为静止音源时，可确定ω(k,n)＝0。

此方案一般适用于已知音源是否移动及其移动速度的场景。音源移动地越快，则设置ω(k,n)越趋近于1，以增强下混第二双声道频域信号(x_{h_l}(k,n)，x_{h_r}(k,n))，进而保障输出信号的方位连续性。

【二】权重系数ω(k,n)是基于卷积神经网络(Convolutional Neural Networks，CNN)模型对多声道音频样本信号对应的多声道频域信号进行预先训练确定的。

卷积神经网络具有表征学***移不变性，即能够识别位于空间不同位置的相近特征。在训练样本时，将多声道音频样本信号转换得到的多声道频域信号(例如以多声道语谱图的形式)输入卷积神经网络模型，卷积神经网络模型将输出训练得到的权重系数ω(k,n)，用于步骤S110中的加权处理过程。

此方案一般适用于无法预知音源是否移动或无法预知音源移动速度的场景。

【三】权重系数ω(k,n)是通过判断多声道音频信号x_in(t)的“主声道”能量占比是否突出进行确定的。

承上述，图2是根据一示例性实施方式示出的另一种音频信号的下混方法的流程图。与图1所示方法10的不同之处在于，图2所示的方法进一步提供了确定权重系数的一种具体方法，即进一步提供了方法10的一实施例。同样地，如图2所示的音频信号的下混方法例如也可以应用于典型沉浸式5.1***的双耳化处理过程。

参考图2，方法10还包括：

在步骤S202中，根据多声道音频信号对应的协方差矩阵的最大特征值与所有特征值之和的比值，确定权重系数。

具体而言，在步骤S2022中，当比值大于预设阈值时，确定第一左声道频域信号与第一右声道频域信号对应的权重系数小于第二左声道频域信号与第二右声道频域信号对应的权重系数。

反之，在步骤S2024中，当比值小于预设阈值时，确定第一左声道频域信号与第一右声道频域信号对应的权重系数大于第二左声道频域信号与第二右声道频域信号对应的权重系数。

对于

而言，多声道音频信号对应的协方差矩阵为5维方阵，每一行代表1个声道特征。该协方差矩阵存在5个特征值，其中最大特征值所在行对应的声道即为“主声道”。

如果最大特征值与所有特征值之和的比值越接近于1，表明主声道能量占比越突出；反之，如果最大特征值与所有特征值之和的比值越接近于0，表明各声道的能量越均衡，主声道能量占比越不突出。

在本发明中，当判定主声道能量占比突出时(例如，最大特征值与所有特征值之和的比值大于0.5)，可以选择增强下混第二双声道频域信号(x_{h_l}(k,n)，x_{h_r}(k,n))，即设置ω(k,n)处于0.5～1之间，且比值越接近于1，设置ω(k,n)越接近于1；相应地，弱化下混第一双声道频域信号(x_{m_l}(k,n)，x_{m_r}(k,n))，1-ω(k,n)处于0～0.5之间。

反之，当判定主声道能量占比不突出时(例如，最大特征值与所有特征值之和的比值小于0.5)，可以选择弱化下混第二双声道频域信号(x_{j_l}(k,n)，x_{h_r}(k,n))，即设置ω(k,n)处于0～0.5之间，且比值越接近于0，设置ω(k,n)越接近于0；相应地，增强下混第一双声道频域信号(x_{m_l}(k,n)，x_{m_r}(k,n))，1-ω(k,n)处于0.5～1之间。

需要说明的是，本发明并不以预设阈值的大小为限，实际应用中可根据输入音频信号的声道数及具体设计需求进行预先设定。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

参考图3，音频信号的下混装置30包括：信号获取模块302、第一处理模块304、第一转换模块306、第二处理模块308、第三处理模块310以及第二转换模块312。

其中，信号获取模块302用于获取多声道音频信号。

第一处理模块304用于分别将多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数，获得左声道音频信号及右声道音频信号。

第一转换模块306用于分别对多声道音频信号、左声道音频信号及右声道音频信号进行时域-频域转换，对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号。

第二处理模块308用于分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型，对多声道频域信号进行处理，获得第二左声道频域信号及第二右声道频域信号。

第三处理模块310用于根据权重系数，对第一左声道频域信号和第二左声道频域信号进行加权处理，生成下混左声道频域信号，并对第一右声道频域信号和第二右声道频域信号进行加权处理，生成下混右声道频域信号。

第二转换模块312用于分别对下混左声道频域信号及下混右声道频域信号进行频域-时域转换，对应生成下混左声道音频信号及下混右声道音频信号。

根据本发明实施方式提供的音频信号的下混装置，能够获得兼具良好音质和良好空间渲染效果的双声道音频信号。

需要注意的是，上述附图中所示的框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为***、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

图4是根据一示例性实施方式示出的一种计算机设备的结构示意图。需要说明的是，图4示出的计算机设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本发明的设备中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

获取多声道音频信号；分别将多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数，获得左声道音频信号及右声道音频信号；分别对多声道音频信号、左声道音频信号及右声道音频信号进行时域-频域转换，对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号；分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型，对多声道频域信号进行处理，获得第二左声道频域信号及第二右声道频域信号；根据权重系数，对第一左声道频域信号和第二左声道频域信号进行加权处理，生成下混左声道频域信号，并对第一右声道频域信号和第二右声道频域信号进行加权处理，生成下混右声道频域信号；以及分别对下混左声道频域信号及下混右声道频域信号进行频域-时域转换，对应生成下混左声道音频信号及下混右声道音频信号。

以上具体地示出和描述了本发明的示例性实施方式。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种音频信号的下混方法，其特征在于，包括：

获取多声道音频信号；

分别将所述多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数，获得左声道音频信号及右声道音频信号；

分别对所述多声道音频信号、所述左声道音频信号及所述右声道音频信号进行时域-频域转换，对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号；

分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型，对所述多声道频域信号进行处理，获得第二左声道频域信号及第二右声道频域信号；

根据权重系数，对所述第一左声道频域信号和所述第二左声道频域信号进行加权处理，生成下混左声道频域信号，并对所述第一右声道频域信号和所述第二右声道频域信号进行加权处理，生成下混右声道频域信号；以及

分别对所述下混左声道频域信号及所述下混右声道频域信号进行频域-时域转换，对应生成下混左声道音频信号及下混右声道音频信号。

2.根据权利要求1所述的方法，其特征在于，所述左声道转换系数及所述右声道转换系数为所述头相关传输模型对应各声道的滤波阻尼系数。

3.根据权利要求1或2所述的方法，其特征在于，所述权重系数是根据所述多声道音频信号的音源的移动速度预先确定的。

4.根据权利要求3所述的方法，其特征在于，当所述音源为静止音源时，所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数为0。

5.根据权利要求1或2所述的方法，其特征在于，所述权重系数是基于卷积神经网络模型对多声道音频样本信号对应的多声道频域信号进行预先训练确定的。

6.根据权利要求1或2所述的方法，其特征在于，还包括：根据所述多声道音频信号对应的协方差矩阵的最大特征值与所有特征值之和的比值，确定所述权重系数。

7.根据权利要求6所述的方法，其特征在于，根据所述多声道音频信号对应的协方差矩阵的最大特征值与所有特征值之和的比值，确定所述权重系数包括：

当所述比值大于预设阈值时，确定所述第一左声道频域信号与所述第一右声道频域信号对应的权重系数小于所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数；

当所述比值小于所述预设阈值时，确定所述第一左声道频域信号与所述第一右声道频域信号对应的权重系数大于所述第二左声道频域信号与所述第二右声道频域信号对应的权重系数。

8.一种音频信号的下混装置，其特征在于，包括：

信号获取模块，用于获取多声道音频信号；

第一处理模块，用于分别将所述多声道音频信号对应乘以预设的左声道转换系数及右声道转换系数，获得左声道音频信号及右声道音频信号；

第一转换模块，用于分别对所述多声道音频信号、所述左声道音频信号及所述右声道音频信号进行时域-频域转换，对应生成多声道频域信号、第一左声道频域信号及第一右声道频域信号；

第二处理模块，用于分别基于头相关传输模型中的左声道频域响应子模型和右声道频域响应子模型，对所述多声道频域信号进行处理，获得第二左声道频域信号及第二右声道频域信号；

第三处理模块，用于根据权重系数，对所述第一左声道频域信号和所述第二左声道频域信号进行加权处理，生成下混左声道频域信号，并对所述第一右声道频域信号和所述第二右声道频域信号进行加权处理，生成下混右声道频域信号；以及

第二转换模块，用于分别对所述下混左声道频域信号及所述下混右声道频域信号进行频域-时域转换，对应生成下混左声道音频信号及下混右声道音频信号。

9.一种计算机设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，其特征在于，所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。