CN111615045B

CN111615045B - 音频处理方法、装置、设备及存储介质

Info

Publication number: CN111615045B
Application number: CN202010578962.0A
Authority: CN
Inventors: 胡诗超; 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2021-06-11
Anticipated expiration: 2040-06-23
Also published as: CN111615045A

Abstract

本申请公开了一种音频处理方法、装置、设备及存储介质，属于音频技术领域。该方法包括：获取待处理的双声道音频信号，双声道音频信号包括左声道信号和右声道信号；根据左声道信号和右声道信号，确定单通道频域信号；根据左声道信号和右声道信号，确定声场信息；根据声场信息，确定单通道频域信号中的频点的方向信息；对单通道频域信号中的频点的方向信息进行归类，得到多个通道的掩码序列，一个掩码序列与一个通道对应，每个掩码序列用于指示对应的通道包括单通道频域信号中的多个频点对应的频域信号情况；根据多个通道的掩码序列和单通道频域信号，确定多通道音频信号。本申请实施例可以减小不同通道的频域信号之间的相关性。

Description

音频处理方法、装置、设备及存储介质

技术领域

本申请涉及音频技术领域，特别涉及一种音频处理方法、装置、设备及存储介质。

背景技术

多通道环绕声***广泛应用于影视、广播等领域，然而，有很多音频是由双声道立体声***制作的，为了获得更好的听觉效果，往往会将音频从双声道音频信号转换为多通道音频信号。

目前，可以利用变换矩阵，将双声道音频信号转换为多通道音频信号。譬如，可以将双声道音频信号转换为信号矩阵，对该信号矩阵进行转换得到多通道音频信号。

然而，在多通道音频信号的通道数量确定的情况下，不同的双声道音频信号都是与同一个变换矩阵相乘，得到不同的多通道音频信号的。在该种情况下，可能会导致转换得到的多通道音频信号中各个通道的音频信号之间相关性较高。

发明内容

本申请实施例提供了一种音频处理方法、装置、设备及存储介质，可以解决相关技术中各个通道的音频信号之间的相关性较高的问题。所述技术方案如下：

一方面，提供了一种音频处理方法，所述方法包括：

获取待处理的双声道音频信号，所述双声道音频信号包括左声道信号和右声道信号；

根据所述左声道信号和所述右声道信号，确定单通道频域信号；

根据所述左声道信号和所述右声道信号，确定声场信息，所述声场信息用于指示双耳接收信号的差异；

根据所述声场信息，确定所述单通道频域信号中的频点的方向信息；

对所述单通道频域信号中的频点的方向信息进行归类，得到多个通道的掩码序列，一个掩码序列与一个通道对应，每个掩码序列用于指示对应的通道包括所述单通道频域信号中的多个频点对应的频域信号情况；

根据所述多个通道的掩码序列和所述单通道频域信号，确定所述双声道音频信号对应的多通道音频信号。

在本申请一种可能的实现方式中，所述多个通道中的每个通道对应有参考方向信息和方向信息偏差阈值；所述单通道频域信号中的频点的数量为多个；

所述对所述单通道频域信号中的频点的方向信息进行归类，得到多个通道的掩码序列，包括：

对于多个通道中的任一通道，确定所述多个频点中每个频点的方向信息与所述任一通道对应的参考方向信息之间的差值的绝对值，得到每个频点与所述任一通道的方向信息偏差；

根据每个频点与所述任一通道的方向信息偏差、以及所述任一通道的方向信息偏差阈值，确定所述任一通道对应的掩码序列中每个频点对应的掩码值。

在本申请一种可能的实现方式中，所述根据每个频点与所述任一通道的方向信息偏差、以及所述任一通道的方向信息偏差阈值，确定所述任一通道对应的掩码序列中每个频点对应的掩码值，包括：

对于所述多个频点中的任一频点，若所述任一频点与所述任一通道的方向信息偏差小于所述任一通道对应的方向信息偏差阈值，则确定所述任一通道对应的掩码序列中所述任一频点对应的掩码值为第一数值，所述第一数值用于指示所述任一频点对应的频域信号属于所述任一通道；

若所述任一频点与所述任一通道的方向信息偏差大于所述任一通道的方向信息偏差阈值，则确定所述任一通道对应的掩码序列中所述任一频点对应的掩码值为第二数值，所述第二数值用于指示所述任一频点对应的频域信号不属于所述任一通道。

在本申请一种可能的实现方式中，所述根据所述多个通道的掩码序列和所述单通道频域信号，确定所述双声道音频信号对应的多通道音频信号，包括：

将每个通道对应的掩码序列与所述单通道频域信号相乘，得到每个通道的频域信号；

对每个通道的频域信号进行傅里叶逆变换，得到每个通道的时域信号；

将所述多个通道的时域信号确定为所述多通道音频信号。

在本申请一种可能的实现方式中，所述根据所述左声道信号和所述右声道信号，确定声场信息，包括：

确定所述左声道信号对应的左声道频域信号，以及确定所述右声道信号对应的右声道频域信号；

根据所述左声道频域信号和所述右声道频域信号，确定所述双耳强度差；

根据所述左声道频域信号和所述右声道频域信号，确定所述双耳相位差；

将所述双耳强度差和所述双耳相位差确定为所述声场信息。

在本申请一种可能的实现方式中，所述根据所述左声道频域信号和所述右声道频域信号，确定所述双耳强度差，包括：

分别确定所述左声道频域信号的绝对值和所述右声道频域信号的绝对值；

确定所述左声道频域信号的绝对值与所述右声道频域信号的绝对值的差值，得到第三数值；

确定所述左声道频域信号的绝对值与所述右声道频域信号的绝对值之和，得到第四数值；

将所述第三数值与所述第四数值相除，得到所述双耳强度差。

在本申请一种可能的实现方式中，所述根据所述左声道频域信号和所述右声道频域信号，确定所述双耳相位差，包括：

分别确定所述左声道频域信号的角频率和所述右声道频域信号的角频率；

根据所述左声道频域信号的角频率和所述右声道频域信号的角频率的角频率差值，确定所述双耳相位差。

在本申请一种可能的实现方式中，所述根据所述左声道信号和所述右声道信号，确定单通道频域信号，包括：

根据所述左声道频域信号和所述右声道频域信号，确定所述单通道频域信号的幅值；

根据所述左声道频域信号和所述右声道频域信号，确定所述单通道频域信号的角频率；

根据所述单通道频域信号的幅值和角频率，确定所述单通道频域信号。

另一方面，提供了一种音频处理装置，所述装置包括：

获取模块，用于获取待处理的双声道音频信号，所述双声道音频信号包括左声道信号和右声道信号；

第一确定模块，用于根据所述左声道信号和所述右声道信号，确定单通道频域信号；

第二确定模块，用于根据所述左声道信号和所述右声道信号，确定声场信息，所述声场信息用于指示双耳接收信号的差异；

第三确定模块，用于根据所述声场信息，确定所述单通道频域信号中的频点的方向信息；

归类模块，用于对所述单通道频域信号中的频点的方向信息进行归类，得到多个通道的掩码序列，一个掩码序列与一个通道对应，每个掩码序列用于指示对应的通道包括所述单通道频域信号中的多个频点对应的频域信号情况；

第四确定模块，用于根据所述多个通道的掩码序列和所述单通道频域信号，确定所述双声道音频信号对应的多通道音频信号。

所述归类模块用于：

在本申请一种可能的实现方式中，所述归类模块用于：

在本申请一种可能的实现方式中，所述第四确定模块用于：

将所述多个通道的时域信号确定为所述多通道音频信号。

在本申请一种可能的实现方式中，所述第二确定模块用于：

将所述双耳强度差和所述双耳相位差确定为所述声场信息。

在本申请一种可能的实现方式中，所述第三确定模块用于：

在本申请一种可能的实现方式中，所述第一确定模块用于：

另一方面，提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现上述一方面所述的音频处理方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述一方面所述的音频处理方法。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述一方面所述的音频处理方法。

本申请实施例提供的技术方案带来的有益效果是：

分别基于待处理的双声道音频信号，确定单通道频域信号和声场信息，其中，单通道频域信号是用于生成每个通道的频域信号的基准信号，该声场信息可以用于指示双耳接收信号的差异。根据声场信息，确定单通道频域信号中每个频点的方向信息。进而，可以单通道频域信号中的频点的方向信息，确定多个通道的掩码序列，该掩码序列可以用于指示对应的通道包括单频道频域信号中哪些频点对应的频域信号，从而根据该多个通道的掩码序列，将该单通道频域信号的频点分配至对应的通道中，从而使得同一通道包括的频点的方向信息之间的差距较小，不同通道包括的频点的方向信息之间的差距较大，减小了不同通道的频域信号之间的相关性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种音频处理方法的流程图；

图2是根据一示例性实施例示出的一种音频处理的示意图；

图3是根据一示例性实施例示出的一种音频处理装置的结构示意图；

图4是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的音频处理方法进行详细介绍之前，对本申请实施例涉及的实施环境进行简单介绍。

本申请实施例提供的音频处理方法可以由电子设备来执行，该电子设备具有音频处理功能。进一步地，该电子设备中可以安装有能够用于处理音频的应用，电子设备可以通过该应用对音频进行处理，将双声道音频信号转换为多通道音频信号。作为一种示例，该电子设备可以为PC(Personal Computer，个人计算机)、手机、智能手机、PDA(PersonalDigital Assistant，个人数字助手)、可穿戴设备、PPC(Pocket PC，掌上电脑)、平板电脑、智能车机、智能电视、智能音箱等，本申请实施例对此不做限定。

在介绍完本申请实施例涉及的实施环境后，接下来将结合附图对本申请实施例提供的音频处理方法进行详细介绍。

请参考图1，该图1是根据一示例性实施例示出的一种音频处理方法的流程图，本实施例以该方法应用于上述电子设备中为例进行说明，该方法可以包括如下几个实现步骤：

步骤101：获取待处理的双声道音频信号，该双声道音频信号包括左声道信号和右声道信号。

通常情况下，待处理的双声道音频信号可以为任一双声道音频信号，该双声道音频信号是由左声道时域信号和右声道时域信号组成的音频，即这里所述的左声道信号和右声道信号通常是指时域信号。需要说明的是，该待处理的双声道音频信号可以为用户上传的音频、电子设备中存储的音频、云端的音频等，本实施例对此不做限定。

一般来说，对于频域信号的处理难度是小于对于时域信号的处理难度的，因此，当要对时域信号进行处理时，往往可以将该时域信号转换为频域信号，进而基于频域信号进行处理，以降低处理难度。所以，可以确定左声道时域信号对应的左声道频域信号，以及确定右声道时域信号对应的右声道频域信号。

由此，电子设备可以分别对左声道时域信号和右声道时域信号做傅里叶变换，得到待处理的双声道音频信号的左声道频域信号和右声道频域信号。

示例性的，如图2所示，可以通过Xt1＝STFT(x1)确定左声道频域信号，通过Xt2＝STFT(x2)确定右声道频域信号。

其中，x1为左声道时域信号，x2为右声道时域信号，STFT为短时傅里叶变换函数，Xt1为左声道频域信号，Xt2为右声道频域信号。

需要说明的是，除了短时傅里叶变换之外，还可以通过改进离散余弦变换(Modified Discrete Cosine Transform，MDCT)、离散余弦变换(Discrete CosineTransform，DCT)等方式将时域信号转换为频域信号，本实施例对此不做限定。

步骤102：根据左声道信号和右声道信号，确定单通道频域信号。

其中，单通道频域信号可以理解为基准信号，即不体现方向信息的频域信号，该单通道频域信号可以用于生成每个通道的频域信号。

作为一种示例，根据左声道信号和右声道信号，确定单通道频域信号的实现方式可以为：确定左声道信号对应的左声道频域信号，以及确定右声道信号对应的右声道频域信号。根据左声道频域信号和右声道频域信号，确定单通道频域信号的幅值。根据左声道频域信号和右声道频域信号，确定单通道频域信号的角频率。根据单通道频域信号的幅值和角频率，确定单通道频域信号。

也就是，可以根据左声道频域信号和右声道频域信号，确定单通道频域信号的幅值和角频率，由于频域信号可以基于幅值和角频率确定，因此可以基于所确定的单通道频域信号的幅值和角频率，确定单通道频域信号。

示例性的，可以通过如下公式(1)确定单通道频域信号的幅值：

其中，Xt1为左声道频域信号，Xt2为右声道频域信号，XM为单通道频域信号的幅值。

示例性的，可以通过如下公式(2)确定单通道频域信号的角频率：

angM＝arctan2(imag(Xt1)+imag(Xt2)，real(Xt1)+real(Xt2))(2)

其中，Xt1为左声道频域信号，Xt2为右声道频域信号，angM为单通道频域信号的角频率，imag为用于确定复数的虚部的函数，real为用于确定复数的实部的函数，arctan2为反正切函数。

步骤103：根据左声道信号和右声道信号，确定声场信息，该声场信息用于指示双耳接收信号的差异。

其中，声场信息可以包括双耳强度差(Interaural Level Difference，ILD)、双耳相位差(Interaural Phase Difference，IPD)和双耳时间差(Interaural TimeDifference，ITD)等等，本实施例对此不做限定。

通常，当声源位置距离左耳和右耳的距离不同时，音频信号从声源位置发出后，到达左耳和右耳所用的时间是不同的，而且左耳和右耳所感知到的音频信号的强度也是不同的。在这种情况下，可以将左耳和右耳接收到音频信号的时间差定义为双耳时间差，将左耳和右耳所感知到的音频信号的强度差定义为双耳强度差，将由于双耳时间差造成的声波到达左耳和右耳的相位差定义为双耳相位差。

作为一种示例，根据左声道信号和右声道信号，确定声场信息的实现方式可以为：确定左声道信号对应的左声道频域信号，以及确定右声道信号对应的右声道频域信号。根据左声道频域信号和右声道频域信号，确定双耳强度差。根据左声道频域信号和右声道频域信号，确定双耳相位差。将双耳强度差和双耳相位差确定为声场信息。

也就是，当声场信息包括双耳强度差和双耳相位差时，可以根据左声道频域信号和右声道频域信号，确定双耳强度差和双耳相位差。

作为一种示例，根据左声道频域信号和右声道频域信号，确定双耳强度差的实现方式可以为：分别确定左声道频域信号的绝对值和右声道频域信号的绝对值。确定左声道频域信号的绝对值与右声道频域信号的绝对值的差值，得到第三数值。确定左声道频域信号的绝对值与右声道频域信号的绝对值之和，得到第四数值。将第三数值与第四数值相除，得到双耳强度差。

也就是，可以分别对左声道频域信号和右声道频域信号做取绝对值处理，以得到左声道频域信号的绝对值和右声道频域信号的绝对值。进而，可以基于左声道频域信号的绝对值和右声道频域信号的绝对值，确定左耳和右耳所感知到的频域信号的强度差。

示例性的，可以通过如下公式(3)确定双耳强度差：

其中，Xt1为左声道频域信号，Xt2为右声道频域信号，ILD为双耳强度差。

作为一种示例，根据左声道频域信号和右声道频域信号，确定双耳相位差的实现方式可以为：分别确定左声道频域信号的角频率和右声道频域信号的角频率。根据左声道频域信号的角频率和右声道频域信号的角频率的角频率差值，确定双耳相位差。

也就是，可以分别对左声道频域信号和右声道频域信号做取角频率处理，以得到左声道频域信号的角频率和右声道频域信号的角频率。进而，可以基于左声道频域信号的角频率和右声道频域信号的角频率，确定声波到达左耳和右耳的相位差。

示例性的，可以通过如下公式(4)确定双耳相位差：

其中，Xt1为左声道频域信号，Xt2为右声道频域信号，IPD为双耳相位差。

示例性的，ang(Xt1)和ang(Xt2)可以通过上述公式(2)确定。

步骤104：根据声场信息，确定单通道频域信号中的频点的方向信息。

其中，频点可以理解为对单通道频域信号进行采样得到的采样点。通常，频点的数量可以通过信号采样率确定，该信号采样率可以基于实际情况进行设置。可以理解的是，信号采样率越高，单通道频域信号中的频点的数量越多，信号采样率越低，单通道频域信号中的频点的数量越低。

需要说明的是，单通道频域信号中的频点的数量可以为一个，也可以为多个，本实施例对此不做限定。

示例性的，可以通过如下公式(5)确定单通道频域信号中的频点的方向信息：

θ(w)＝arctan2(ILD(w),IPD(w))(5)

其中，w为单通道频域信号中的频点，IPD(w)为频点w的双耳相位差，ILD(w)为频点w的双耳强度差，θ(w)为频点w的方向信息，arctan2为反正切函数。

需要说明的是，除了通过公式(5)确定单通道频域信号中的频点的方向信息之外，还可以通过MUSIC(Multiple Signal Classification，多重信号分类)、神经网络模型、波达方向(Direction Of Arrival，DOA)估计等方法确定单通道频域信号中的频点的方向信息，本实施例对此不做限定。

步骤105：对该单通道频域信号中的频点的方向信息进行归类，得到多个通道的掩码序列，一个掩码序列与一个通道对应，每个掩码序列用于指示对应的通道包括该单通道频域信号中的多个频点对应的频域信号情况。

其中，所确定的待处理的双声道音频信号的多通道音频信号的通道数是不限定的，可以根据实际需求进行设置。譬如，可以生成通道数为5的多通道音频信号，也可以生成通道数为7的多通道音频信号等。

作为一种示例，多个通道中的每个通道对应有参考方向信息和方向信息偏差阈值。单通道频域信号中的频点的数量为多个。

其中，参考方向信息和方向信息偏差阈值可以根据实际情况进行设置，本实施例对此不做限定。

示例性的，若多通道音频信号的通道数为5，可以设置通道1的参考方向信息为0度，设置通道1的方向信息偏差阈值为60度。设置通道2的参考方向信息为正30度，设置通道2的方向信息偏差阈值为60度。设置通道3的参考方向信息为负30度，设置通道3的方向信息偏差阈值为60度。设置通道4的参考方向信息为正135度，设置通道4的方向信息偏差阈值为60度。设置通道5的参考方向信息为负135度，设置通道5的方向信息偏差阈值为60度。

也就是，可以根据多个频点的方向信息、任一通道对应的参考方向信息和方向信息偏差阈值，确定单通道频域信号中的多个频点中，有哪些频点对应的频域信号是属于该任一通道的，有哪些频点对应的频域信号是不属于该任一通道的。

作为一种示例，作为一种示例，对该单通道频域信号中的频点的方向信息进行归类，得到多个通道的掩码序列的具体实现可以包括：对于多个通道中的任一通道，确定多个频点中每个频点的方向信息与任一通道对应的参考方向信息之间的差值的绝对值，得到每个频点与任一通道的方向信息偏差。根据每个频点与该任一通道的方向信息偏差、以及该任一通道的方向信息偏差阈值，确定该任一通道对应的掩码序列中每个频点对应的掩码值。

也就是，可以将多个频点中每个频点的方向信息与任一通道对应的参考方向信息进行比对，即可以将每个频点的方向信息与任一通道对应的参考方向信息相减，再对相减得到的差值取绝对值，得到该每个频点与该任一通道的方向信息偏差。从而可以根据该方向信息偏差确定该每个频点在该任一通道对应的掩码序列中的掩码值，即可以根据方向信息偏差确定该每个频点对应的频域信号是否属于该任一通道。

示例性的，若θ(w)为频点w的方向信息，θ(n)为通道n的参考方向信息，可以用θ(w)减去θ(n)，得到θ(w)-θ(n)，再对相减得到的差值取绝对值，得到θ(w)-θ(n)，将该绝对值确定为频点w与通道n的方向信息偏差，从而可以根据该方向信息偏差，确定频点w在通道n对应的掩码序列中对应的掩码值。

譬如，若频点1的方向信息为65度，通道2的参考方向信息为60度，可以用65度减去60度，再对相减得到的差值取绝对值，确定频点1与通道2的方向信息偏差为5度，从而可以根据该方向信息偏差，确定频点1在通道2对应的掩码序列中对应的掩码值。

作为一种示例，根据每个频点与该任一通道的方向信息偏差、以及该任一通道的方向信息偏差阈值，确定该任一通道对应的掩码序列中每个频点对应的掩码值的实现方式可以为：对于多个频点中的任一频点，若任一频点与任一通道的方向信息偏差小于任一通道对应的方向信息偏差阈值，则确定任一通道对应的掩码序列中任一频点对应的掩码值为第一数值，第一数值用于指示任一频点对应的频域信号属于任一通道。若任一频点与任一通道的方向信息偏差大于任一通道的方向信息偏差阈值，则确定任一通道对应的掩码序列中任一频点对应的掩码值为第二数值，第二数值用于指示任一频点对应的频域信号不属于任一通道。

其中，第一数值和第二数值可以根据实际情况进行设置，本实施例对此不做限定。譬如，可以设置第一数值为1，可以设置第二数值为0。

也就是，若任一频点与任一通道的方向信息偏差小于该任一通道对应的方向信息偏差阈值，说明该任一频点的方向信息与该任一通道的参考方向信息之间的差距较小，即可以确定该任一频点对应的频域信号属于该任一通道，在该种情况下，可以将该任一通道对应的掩码序列中该任一频点对应的掩码值标记为第一数值。若任一频点与任一通道的方向信息偏差大于任一通道对应的方向信息偏差阈值，说明该任一频点的方向信息与该任一通道的参考方向信息之间的差距较大，即可以确定该任一频点对应的频域信号不属于该任一通道，在该种情况下，可以将该任一通道对应的掩码序列中该任一频点对应的掩码值标记为第二数值。

示例性的，若θ(w)为频点w的方向信息，θ(n)为通道n的参考方向信息，θ(th_n)为通道n的方向信息偏差阈值。当|θ(w)-θ(n)|<θ(th_n)时，可以说明频点w的方向信息与通道n的参考方向信息之间的差距较小，即可以确定频点w对应的频域信号属于通道n，在该种情况下，将通道n对应的掩码序列中频点w对应的掩码值标记为第一数值。当|θ(w)-θ(n)|≥θ(th_n)时，可以说明频点w的方向信息与通道n的参考方向信息之间的差距较大，即可以确定频点w对应的频域信号不属于通道n，在该种情况下，将通道n对应的掩码序列中频点w对应的掩码值标记为第二数值。

譬如，若通道2的参考方向信息为正60度，通道2的方向信息偏差阈值为60度，若频点1的方向信息为正70度，由于|70-60|＝10，10<60，可以说明频点1的方向信息与通道2的参考方向信息之间的差距较小，即可以确定频点1对应的频域信号属于通道2，在该种情况下，将通道2对应的掩码序列中频点w对应的掩码值标记为第一数值，

需要说明的是，对于单通道频域信号中的任一频点而言，其对应的频域信号可以属于一个通道，也可以属于多个通道，本实施例对此不做限定。

譬如，若通道1的参考方向信息为正30度，通道1的方向信息偏差阈值为60度，通道2的参考方向信息为正60度，通道2的方向信息偏差阈值为60度。若频点1的方向信息为正70度，由于|70-60|＝10，10<60，且|70-30|＝40，40<60，因此可以确定频点1既属于通道1又属于通道2。

按照该种实现方式，可以确定多个频点中每个频点在任一通道对应的掩码序列中对应的掩码值，如此，可以确定任一通道对应的掩码序列。

示例性的，若第一数值为1，第二数值为0，单通道频域信号包括7个频点，频点1在通道2对应的掩码序列中对应的掩码值为1，频点2在通道2对应的掩码序列中对应的掩码值为0，频点3在通道2对应的掩码序列中对应的掩码值为0，频点4在通道2对应的掩码序列中对应的掩码值为1，频点5在通道2对应的掩码序列中对应的掩码值为0，频点6在通道2对应的掩码序列中对应的掩码值为1，频点7在通道2对应的掩码序列中对应的掩码值为1。如此，可以确定通道2对应的掩码序列为(1，0，0，1，0，1，1)。

步骤106：根据该多个通道的掩码序列和该单通道频域信号，确定该双声道音频信号对应的多通道音频信号。

对于该多个通道中的任一通道，可以通过任一通道对应的掩码序列，确定单通道频域信号中的多个频点中有哪些频点对应的频域信号是属于该任一通道的，进而，可以将所有属于该任一通道的频点对应的频域信号确定为该任一通道的频域信号。

示例性的，根据该多个通道的掩码序列和该单通道频域信号，确定该双声道音频信号对应的多通道音频信号可以包括如下1-3几个实现步骤：

1、可以将每个通道对应的掩码序列与单通道频域信号相乘，以得到每个通道的频域信号。

譬如，若第一数值为1，第二数值为0，通道1的掩码序列为(1，1，1，0，1)时，可以将单通道频域信号中频点1对应的频域信号乘以1，将单通道频域信号中频点2对应的频域信号乘以1，将单通道频域信号中频点3对应的频域信号乘以1，将单通道频域信号中频点4对应的频域信号乘以0，将单通道频域信号中频点5对应的频域信号乘以1。如此，可以将由频点1对应的频域信号、频点2对应的频域信号、频点3对应的频域信号和频点5对应的频域信号组成的频域信号确定为通道1的频域信号。

2、对每个通道的频域信号进行傅里叶逆变换，得到每个通道的时域信号。

示例性的，如图2所示，可以通过xn＝ISTFT(Xn)，确定通道n的时域信号。

其中，Xn为通道n的频域信号，xn为通道n的时域信号，ISTFT为短时傅里叶逆变换函数。

3、将多个通道的时域信号确定为多通道音频信号。

示例性的，当多通道音频信号的通道数为5时，可以将5个通道的时域信号确定为多通道音频信号。当多通道音频信号的通道数为7时，可以将7个通道的时域信号确定为多通道音频信号。

在一种可能的实现方式中，在基于多个频点中每个频点的方向信息和单通道频域信号，确定多个通道的频域信号之后，还可以确定多个通道中每个通道的频域信号包括的频点的频域特征，进而可以基于所确定的频域特征，对多个通道中每个通道的频域信号进行频域信号分离，得到基于单通道频域信号、频点的方向信息和频点的频域特征确定的多个通道的频域信号。

其中，频域特征包括频域能量特征、音高特征、频率特征等等，本实施例对此不做限定。

示例性的，若基于多个频点中每个频点的方向信息和单通道频域信号，确定出5个通道的频域信号，可以基于该5个通道中每个通道的频域信号包括的频点的频域特征，进一步进行频域信号分离。此处以基于频点的频域特征对通道2的频域信号进行频域信号分离为例进行说明，可以确定通道2的频域信号包括的频点的音高特征，进而可以基于所确定的音高特征，将通道2的频域信号分离为人声通道的频域信号和吉他声通道的频域信号。也就是，可以基于音高特征确定哪些频点对应的频域信号属于人声通道，哪些频点对应的频域信号属于吉他声通道，将所有属于人声通道的频点对应的频域信号确定为人声通道的频域信号，将所有属于吉他声通道的频点对应的频域信号确定为吉他声通道的频域信号。

进而，可以对基于单通道频域信号、频点的方向信息和频点的频域特征确定的多个通道的频域信号分别做短时傅里叶反变换，得到多个通道的时域信号，并将该多个通道的时域信号确定为多通道音频信号。

当然，还可以先基于单通道频域信号和频点的频域特征确定多个通道的频域信号，再基于多个通道中每个通道的频域信号包括的频点的方向信息，对所确定的多个通道中每个通道的频域信号进一步进行频域信号分离，本实施例对此不做限定。

在本申请实施例中，分别基于待处理的双声道音频信号，确定单通道频域信号和声场信息，其中，单通道频域信号是用于生成每个通道的频域信号的基准信号，该声场信息可以用于指示双耳接收信号的差异。根据声场信息，确定单通道频域信号中每个频点的方向信息。进而，可以单通道频域信号中的频点的方向信息，确定多个通道的掩码序列，该掩码序列可以用于指示对应的通道包括单频道频域信号中哪些频点对应的频域信号，从而根据该多个通道的掩码序列，将该单通道频域信号的频点分配至对应的通道中，从而使得同一通道包括的频点的方向信息之间的差距较小，不同通道包括的频点的方向信息之间的差距较大，减小了不同通道的频域信号之间的相关性。

图3是根据一示例性实施例示出的一种音频处理装置的结构示意图，该音频处理装置可以由软件、硬件或者两者的结合实现。该音频处理装置可以包括：

获取模块310，用于获取待处理的双声道音频信号，所述双声道音频信号包括左声道信号和右声道信号；

第一确定模块320，用于根据所述左声道信号和所述右声道信号，确定单通道频域信号；

第二确定模块330，用于根据所述左声道信号和所述右声道信号，确定声场信息，所述声场信息用于指示双耳接收信号的差异；

第三确定模块340，用于根据所述声场信息，确定所述单通道频域信号中的频点的方向信息；

归类模块350，用于对所述单通道频域信号中的频点的方向信息进行归类，得到多个通道的掩码序列，一个掩码序列与一个通道对应，每个掩码序列用于指示对应的通道包括所述单通道频域信号中的多个频点对应的频域信号情况；

第四确定模块360，用于根据所述多个通道的掩码序列和所述单通道频域信号，确定所述双声道音频信号对应的多通道音频信号。

所述归类模块350用于：

在本申请一种可能的实现方式中，所述归类模块350用于：

在本申请一种可能的实现方式中，所述第四确定模块360用于：

将所述多个通道的时域信号确定为所述多通道音频信号。

在本申请一种可能的实现方式中，所述第二确定模块330用于：

将所述双耳强度差和所述双耳相位差确定为所述声场信息。

在本申请一种可能的实现方式中，所述第三确定模块340用于：

在本申请一种可能的实现方式中，所述第一确定模块320用于：

需要说明的是：上述实施例提供的音频处理装置在进行音频处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本申请实施例提供的一种电子设备400的结构示意图，该电子设备400可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的音频处理方法。

当然，该电子设备400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备400还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述图1所示实施例提供的音频处理方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述图1所示实施例提供的音频处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述多个通道中的每个通道对应有参考方向信息和方向信息偏差阈值；所述单通道频域信号中的频点的数量为多个；

3.如权利要求2所述的方法，其特征在于，所述根据每个频点与所述任一通道的方向信息偏差、以及所述任一通道的方向信息偏差阈值，确定所述任一通道对应的掩码序列中每个频点对应的掩码值，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述多个通道的掩码序列和所述单通道频域信号，确定所述双声道音频信号对应的多通道音频信号，包括：

将所述多个通道的时域信号确定为所述多通道音频信号。

5.如权利要求1所述的方法，其特征在于，所述根据所述左声道信号和所述右声道信号，确定声场信息，包括：

根据所述左声道频域信号和所述右声道频域信号，确定双耳强度差；

根据所述左声道频域信号和所述右声道频域信号，确定双耳相位差；

将所述双耳强度差和所述双耳相位差确定为所述声场信息。

6.如权利要求5所述的方法，其特征在于，所述根据所述左声道频域信号和所述右声道频域信号，确定双耳强度差，包括：

7.如权利要求5所述的方法，其特征在于，所述根据所述左声道频域信号和所述右声道频域信号，确定双耳相位差，包括：

8.如权利要求1所述的方法，其特征在于，所述根据所述左声道信号和所述右声道信号，确定单通道频域信号，包括：

9.一种音频处理装置，其特征在于，所述装置包括：

10.如权利要求9所述的装置，其特征在于，所述多个通道中的每个通道对应有参考方向信息和方向信息偏差阈值；所述单通道频域信号中的频点的数量为多个；

所述归类模块用于：

11.如权利要求10所述的装置，其特征在于，所述归类模块用于：

12.如权利要求11所述的装置，其特征在于，所述第四确定模块用于：

将所述多个通道的时域信号确定为所述多通道音频信号。

13.如权利要求9所述的装置，其特征在于，所述第二确定模块用于：

将所述双耳强度差和所述双耳相位差确定为所述声场信息。

14.如权利要求13所述的装置，其特征在于，所述第三确定模块用于：

15.如权利要求13所述的装置，其特征在于，所述第三确定模块用于：

16.如权利要求9所述的装置，其特征在于，所述第一确定模块用于：

17.一种电子设备，其特征在于，包括：

处理器；

存储器，所述存储器存储有所述处理器可执行的指令；

其中，所述处理器被配置为执行所述指令并实现权利要求1-8中所述的任一项方法的步骤。

18.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-8中所述的任一项方法的步骤。