CN111863027A

CN111863027A - 处理音频的方法、装置和***

Info

Publication number: CN111863027A
Application number: CN201910337575.5A
Authority: CN
Inventors: 刘鲁鹏
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2020-10-30
Anticipated expiration: 2039-04-24

Abstract

本公开提供了一种处理音频的方法，包括：获取分别由m个采集装置采集的m个原始音频信号；根据m个采集装置的位置信息，利用神经网络模型处理m个原始音频信号中的n个原始音频信号，获取与n个原始音频信号一一对应的n个已处理音频信号；根据n个原始音频信号及n个已处理音频信号，确定n个原始音频信号的处理参数；以及根据n个原始音频信号的处理参数，处理m个原始音频信号中除n个原始音频信号外的其他原始音频信号，其中，m、n均为大于等于2的正整数，且n小于m。本公开还提供了一种处理音频的装置和一种处理音频的***。

Description

处理音频的方法、装置和***

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种处理音频的方法、装置和***。

背景技术

随着深度学习领域的不断发展，以神经网络为代表的深度学习技术越来越多地应用于音频信号处理领域。基于神经网络的音频处理技术凭借其良好的非线性表达能力及稳健地泛化能力，对非稳态的噪声具有良好的抑制效果。

在实现本公开构思的过程中，发明人发现现有技术中至少存在如下问题：现有技术中采用神经网络对音频进行处理时，通常是以DNN(Deep Neural Networks，深度神经网络)为处理的核心单元。但是由于DNN网络节点数庞大，会带来巨大的计算量。如将该现有技术的方法直接移植到嵌入式处理平台中，考虑到硬件处理能力等的限制，往往仅能对单路或者少数几路的音频做处理，而无法应用到需要同时对所有路音频进行处理的应用场景，例如无法应用于相控阵采集***。

发明内容

有鉴于此，本公开提供了一种能够应用于对所有路音频进行处理的应用场景的处理音频的方法、装置和***。

本公开的一个方面提供了一种处理音频的方法，包括：获取分别由m个采集装置采集的m个原始音频信号；根据m个采集装置的位置信息，利用神经网络模型处理m个原始音频信号中的n个原始音频信号，获取与n个原始音频信号一一对应的n个已处理音频信号；根据n个原始音频信号及n个已处理音频信号，确定n个原始音频信号的处理参数；以及根据n个原始音频信号的处理参数，处理m个原始音频信号中除n个原始音频信号外的其他原始音频信号。其中，m、n均为大于等于2的正整数，且n小于m。

根据本公开的实施例，上述根据n个原始音频信号及n个已处理音频信号，确定n个原始音频信号的处理参数包括：根据n个原始音频信号的幅度谱及n个已处理音频信号的幅度谱，确定n个原始音频信号的处理参数。

根据本公开的实施例，上述确定n个原始音频信号的处理参数包括对于 n个原始音频信号中的第i个原始音频信号：根据第i个原始音频信号的幅度谱，确定第i个原始音频信号的对数幅度谱X_i；根据与第i个原始音频信号对应的第i个已处理音频信号的幅度谱，确定第i个已处理音频信号的对数幅度谱X′_i；以及确定第i个原始音频信号的处理参数SNR_i＝X′_i./X_i，其中，i为小于或等于n的正整数。

根据本公开的实施例，上述处理m个原始音频信号中除n个原始音频信号外的其他原始音频信号包括：对于其他原始音频信号中的第j个原始音频信号：根据m个采集装置的位置信息，确定采集n个原始音频信号的采集装置与采集第j个原始音频信号的采集装置的相对位置信息；根据相对位置信息及n个原始音频信号的处理参数，确定第j个原始音频信号的处理参数；以及根据第j个原始音频信号的处理参数，处理第j个原始音频信号，其中，j为小于等于(m-n)的正整数。

根据本公开的实施例，上述根据相对位置信息及n个原始音频信号的处理参数，确定第j个原始音频信号的处理参数包括：根据相对位置信息，确定用于第j个原始音频信号的加权因子集合；根据加权因子集合，对n个原始音频信号的处理参数加权求和，得到第j个音频信号的处理参数。

根据本公开的实施例，上述n个已处理音频信号为降噪后的音频信号；上述处理m个原始音频信号中除n个原始音频信号外的其他原始音频信号包括：对m个原始音频信号中除n个原始音频信号外的其他原始音频信号做降噪处理。

本公开的另一方面提供了一种处理音频的装置，包括信号获取模块、第一处理模块、处理参数确定模块和第二处理模块。信号获取模块用于获取分别由m个采集装置采集的m个原始音频信号。第一处理模块用于根据m个采集装置的位置信息，利用神经网络模型处理m个原始音频信号中的n个原始音频信号，获得与n个原始音频信号一一对应的n个已处理音频信号。处理参数确定模块用于根据n个原始音频信号及n个已处理音频信号，确定n 个原始音频信号的处理参数。第二处理模块用于根据n个原始音频信号的处理参数，处理m个原始音频信号中除n个原始音频信号外的其他原始音频信号。其中，m、n均为大于等于2的正整数，且n小于m。

根据本公开的实施例，上述处理参数确定模块具体用于：根据n个原始音频信号的幅度谱及n个已处理音频信号的幅度谱，确定n个原始音频信号的处理参数。

根据本公开的实施例，上述处理参数确定模块包括对数幅度谱确定子模块和第一处理参数确定子模块。对于所述n个原始音频信号中的第i个原始音频信号：对数幅度谱确定子模块用于根据第i个原始音频信号的幅度谱，确定第i个原始音频信号的对数幅度谱X_i，以及根据与第i个原始音频信号对应的第i个已处理音频信号的幅度谱，确定第i个已处理音频信号的对数幅度谱X′_i；第一处理参数确定子模块用于确定第i个原始音频信号的处理参数 SNR_i＝X′_i./X_i。其中，i为小于或等于n的正整数。

根据本公开的实施例，上述第二处理模块包括相对位置信息确定子模块、第二处理参数确定子模块和音频信号处理子模块。对于其他原始音频信号中的第j个原始音频信号：相对位置信息确定子模块用于根据m个采集装置的位置信息，确定采集n个原始音频信号的采集装置与采集第j个原始音频信号的采集装置的相对位置信息；第二处理参数确定子模块用于根据相对位置信息及n个原始音频信号的处理参数，确定第j个原始音频信号的处理参数。音频信号处理子模块用于根据第j个原始音频信号的处理参数，处理第j个原始音频信号。其中，j为小于等于(m-n)的正整数。

根据本公开的实施例，上述第二处理参数确定子模块包括加权因子确定单元和处理参数计算单元。加权因子确定单元用于根据相对位置信息，确定用于第j个原始音频信号的加权因子集合。处理参数计算单元用于根据加权因子集合，对n个原始音频信号的处理参数加权求和，得到第j个音频信号的处理参数。

根据本公开的实施例，上述n个已处理音频信号为降噪后的音频信号。上述第二处理模块具体用于对m个原始音频信号中除n个原始音频信号外的其他原始音频信号做降噪处理。

本公开的另一方面提供了一种处理音频的***，包括一个或多个处理器；存储装置，用于存储一个或多个程序。其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述的处理音频的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的处理音频的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的处理音频的方法。

根据本公开的实施例，可以至少部分地解决现有的处理音频的方法无法对多路音频信号中的所有路音频信号进行处理的技术问题，并因此通过选择多路中的部分音频信号采用神经网络进行处理，根据该部分音频信号的处理结果处理其他路音频信号的技术方案，使得本公开实施例的处理音频的方法可以应用于对所有路音频进行处理的应用场景。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的处理音频的方法、装置和***的应用场景；

图2示意性示出了根据本公开实施例的处理音频的方法流程图；

图3示意性示出了根据本公开实施例的确定n个原始音频信号中第i个原始音频信号的处理参数的流程图；

图4示意性示出了根据本公开实施例的处理其他原始音频信号中第j个原始音频信号的流程图；

图5示意性示出了根据相对位置信息确定其他原始音频信号中第j个原始音频信号的处理参数的流程图；

图6示意性示出了根据本公开实施例的处理音频的装置的结构框图；以及

图7示意性示出了根据本公开实施例的适于实现处理音频的方法的处理音频的***的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C 的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、 B、C的***等)。

本公开的实施例提供了一种能够应用于对所有路音频进行处理的应用场景的处理音频的方法、装置和***。其中，处理音频的方法包括：获取分别由m个采集装置采集的m个原始音频信号；根据m个采集装置的位置信息，利用神经网络模型处理m个原始音频信号中的n个原始音频信号，获取与n 个原始音频信号一一对应的n个已处理音频信号；根据n个原始音频信号及 n个已处理音频信号，确定n个原始音频信号的处理参数；以及根据n个原始音频信号的处理参数，处理m个原始音频信号中除n个原始音频信号外的其他原始音频信号，其中，m、n均为大于等于2的正整数，且n小于m。

图1示意性示出了根据本公开实施例的处理音频的方法、装置和***的应用场景100。需要注意的是，图1所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。

如图1所示，根据该实施例的应用场景可以包括终端设备111、112、113 和音频采集***120。

其中，终端设备111、112、113例如可以与音频采集***120通过信号传输线有线连接，或者通过网络有线或无线连接，以接收音频采集***120 采集的音频信号。

其中，终端设备111、112、113上例如可以安装有各种客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、音频处理类应用等(仅为示例)。具体地，该终端设备111、112、113可以安装有音频处理类应用，用于对接收的音频信号进行处理。

终端设备111、112、113可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

其中，音频采集***120例如可以为相控阵采集***，其具体可以包括有多个采集装置或多个采集单元，例如可以包括采集装置121～125。该多个采集装置例如可以为线阵排列、环形排列或其他任意的排列方式。

根据本公开的实施例，如图1所示，该应用场景100中还可以包括网络 130和服务器140。网络130用以在终端设备111、112、113和服务器140之间提供通信链路的介质。网络130可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备111、112、113通过网络130与服务器140交互，以接收或发送消息等。服务器140可以是提供各种服务的服务器，例如对用户利用终端设备111、112、113所浏览的网站提供支持的后台管理服务器(仅为示例)。例如终端设备111、112、113可以将接收到的音频信号发送给该后台管理服务器，后台管理服务器则可以对接收到的音频信号进行降噪处理，并将处理结果反馈给终端设备111、112、113。

需要说明的是，本公开实施例所提供的处理音频的方法一般可以由终端设备111、112、113执行，相应地，本公开实施例所提供的处理音频的装置和***一般可以设置于终端设备111、112、113中。本公开实施例所提供的处理音频的方法也可以由能够与终端设备111、112、113通信的服务器140 或服务器集群执行。相应地，本公开实施例所提供的处理音频的装置和***也可以设置于能够与终端设备111、112、113通信的服务器140或服务器集群中。

应该理解，图1中的终端设备、音频采集***、网络和服务器的数目和类型仅仅是示意性的。根据实现需要，可以具有任意类型和数目的终端设备、音频采集***、网络和服务器。

图2示意性示出了根据本公开实施例的处理音频的方法流程图。

如图2所示，本公开实施例的处理音频的方法包括操作S210～操作S240。该操作S210～操作S240可以由终端设备111、112、113执行，或者由服务器 140执行。

在操作S210，获取分别由m个采集装置采集的m个原始音频信号。

根据本公开的实施例，m个采集装置具体例如可以是图1描述的音频采集***包括的采集装置，m为大于等于2的正整数。该m个采集装置例如可以组成相控阵麦克风，一个采集装置具体可以是相控阵麦克风中的一个麦克风。该m个采集装置例如可以呈线性排列、环形排列等排列形式，则该m个采集装置中的任意两个采集装置应该位于不同位置，以采集不同位置的音频信号。则操作S210中获取的原始音频信号即为采集装置采集的音频信号。

根据本公开的实施例，为了唯一确定m个采集装置中每个采集装置采集的原始音频信号，每个采集装置例如可以具有一个编号。则在操作S210获取到m个原始音频信号后，可以建立每个原始音频信号与每个采集装置的编号的对应关系。

根据本公开的实施例，为了便于后续处理，除了获取m个采集装置采集的音频信号外，还可以获取m个采集装置的位置信息。该位置信息具体例如可以是m个采集装置的GPS定位信息或者相对终端设备111、112、113的三维相对位置坐标等。

在操作S220，根据m个采集装置的位置信息，利用神经网络模型处理m 个原始音频信号中的n个原始音频信号，获取与n个原始音频信号一一对应的n个已处理音频信号。

根据本公开的实施例，该操作S220具体可以包括：先根据m个采集装置的位置信息，自m个采集装置中选择n个采集装置；然后再确定该n个采集装置对应的n个原始音频信号；最后将n个原始音频信号依次作为神经网络的输入，经由神经网络模型对该n个原始音频信号进行处理，获取得到与该n个原始音频信号一一对应的n个已处理音频信号。其中，n为大于2的正整数，且n小于m。

根据本公开的实施例，根据m个采集装置的位置信息，自m个采集装置中选择n个采集装置具体可以包括：先根据m个采集装置的位置信息，确定 m个采集装置的分布；然后自该m个采集装置中确定分散布置的n个采集装置。例如，若该m个采集装置包括如图1所示的线性排列的5个采集装置 121～125时，确定的分散布置的n个采集装置可以是位于两端的采集装置121 和采集装置125；或者可以是两端的采集装置121、125及位于中心位置的采集装置123。可以理解的是，选择的采集装置的个数可以根据采集装置的总个数m和实际需求进行设定。

根据本公开的实施例，根据m个采集装置的位置信息，自m个采集装置中确定分散布置的n个采集装置例如还可以包括：先为m个采集装置根据分布分配编号，其中，位置信息表征位置相邻的两个采集装置分配得到的编号最相近，对于线性排列的m个采集装置，则可以从两端的采集装置开始分配编号，得到采集装置编号集合I＝{1，2，3，4，5，6，……，m}。然后确定需要挑选的采集装置的个数n的值，该n例如可以取m/L向下取值的值，其中，L为大于等于2的自然数。然后从采集装置编号集合I中的第一个编号开始，每间隔L-1个编号取一个编号，最终得到n个编号。此时，该n个编号对应的n个采集装置即可以为确定的分散布置的n个采集装置。则操作S220 中利用神经网络处理的n个原始音频信号即为该n个采集装置采集到的音频信号。可以理解的是，上述确定n个采集装置的方法及n取值的确定仅作为示例以利于理解本公开，本公开对此不作限定。

根据本公开的实施例，上述神经网络模型具体例如可以是用于对音频信号进行降噪的模型。该神经网络模型具体例如可以是能够用于处理回归问题的深度神经网络模型或卷积神经网络模型等。

在操作S230，根据n个原始音频信号及n个已处理音频信号，确定n个原始音频信号的处理参数。

根据本公开的实施例，该操作S230具体可以包括：将n个已处理音频信号分别与一一对应的n个原始音频信号进行对比，得到n个原始音频信号的处理参数。其中，考虑到音频信号为时域信号，操作S230具体可以先对n个已处理音频信号和n个原始音频信号分别进行傅里叶变换，分别得到该n个已处理音频信号和n个原始音频信号的频域信号，然后分别将n个已处理音频信号的频域信号与一一对应的n个原始音频信号的频域信号进行比对，得到n个原始音频信号的处理参数。

根据本公开的实施例，上述操作S230具体可以是根据n个原始音频信号的频域信号的幅度谱及n个已处理音频信号的频域信号的幅度谱，来确定n 个原始音频信号的处理参数。具体地，该操作S230具体可以通过图3描述的方法来实现，在此不再详述。

在操作S240，根据n个原始音频信号的处理参数，处理m个原始音频信号中除n个原始音频信号外的其他原始音频信号。

根据本公开的实施例，该操作S240具体可以包括：先根据n个原始音频信号的处理参数，确定m个原始音频信号中除n个原始音频信号外的其他原始音频信号中每个原始音频信号的处理参数。然后再根据每个原始音频信号的处理参数，对每个原始音频信号进行处理。根据本公开的实施例，对其他原始音频信号的处理具体例如可以是做降噪处理。

根据本公开的实施例，该操作S240具体可以通过图4描述的操作S441～操作S443来实现，在此不再详述。

综上可知，本公开实施例的处理音频的方法，在对多路原始音频信号进行处理时，可以先选择部分的原始音频信号采用神经网络进行降噪处理，在根据降噪处理的音频信号的处理参数对其他路音频信号进行处理，从而能够在保证开销较低的前提下，实现对多路原始音频信号中的每路音频信号的处理。因此，本公开的处理音频的方法可以移植到嵌入式处理平台，可以应用于对相控阵采集***中对所有路音频的处理。

图3示意性示出了根据本公开实施例的确定n个原始音频信号中第i个原始音频信号的处理参数的流程图。

根据本公开的实施例，上述操作S230中，在确定n个原始音频信号的处理参数具体可以是分别确定n个原始音频信号中的每个原始音频信号的处理参数。其中，如图3所示，对于该n个原始音频信号中的第i个原始音频信号，可以通过操作S331～操作S333来确定处理参数。其中，i为小于或等于n 的正整数，即第i个原始音频信号为n个原始音频信号中的任意一个原始音频信号。

在操作S331，根据第i个原始音频信号的幅度谱，确定第i个原始音频信号的对数幅度谱X_i。在操作S332，根据与第i个原始音频信号对应的第i 个已处理音频信号的幅度谱，确定第i个已处理音频信号的对数幅度谱X′_i。

根据本公开的实施例，该操作S331具体可以通过以下方法实现：对该第 i个原始音频信号的幅度谱进行对数运算，计算得到该第i个原始音频信号的对数幅度谱X_i。例如，若该第i个原始音频信号的幅度谱为x，则对数幅度谱 X_i＝10lgx。操作S332通过与该操作S331相同的操作，即可得到第i个已处理音频信号的对数幅度谱X′_i。

在得到第i个原始音频信号的对数幅度谱及于该第i个原始音频信号对应的第i个已处理音频信号的对数幅度谱后，即可通过操作S333来确定第i个原始音频信号的处理参数。具体地，在操作S333，确定第j个原始音频信号的处理参数SNR_i＝X′_i./X_i。

根据本公开的实施例，考虑到每个音频信号为时域信号，则第i个原始音频信号和对应的第i个已处理音频信号的时域信号的维度可以为(1，N)，其中，N表示音频的时域点数。则通过操作S331～操作S332确定的对数幅度谱X_i与对数幅度谱X′_i均为N维向量，则在确定第i个原始音频信号的处理参数时，应通过向量的点除“./”计算来确定。

图4示意性示出了根据本公开实施例的处理其他原始音频信号中第j个原始音频信号的流程图，图5示意性示出了根据相对位置信息确定其他原始音频信号中第j个原始音频信号的处理参数的流程图。

根据本公开的实施例，上述操作S240中，在对其他原始音频信号处理时，具体可以是分别对其他原始音频信号中的每个原始音频信号进行处理。其中，如图4所示，对于其他原始音频信号中的第j个原始音频信号，可以通过操作S441～操作S443来处理。其中，j为小于或等于(m-n)的正整数，即第j 个原始音频信号为其他原始音频信号中的任意一个原始音频信号。

在操作S441，根据m个采集装置的位置信息，确定采集n个原始音频信号的采集装置与采集第j个原始音频信号的采集装置的相对位置信息。

根据本公开的实施例，该操作S441具体可以是，根据采集n个原始音频信号的采集装置中每个采集装置的位置信息和采集第j个原始音频信号的第j 个采集装置的位置信息，确定该第j个采集装置相对于n个采集装置中每个采集装置的相对位置信息。根据本公开的实施例，所述的相对位置信息具体例如可以是相对距离。

根据本公开的实施例，若m个采集装置为图1所示的线性排列的五个采集装置，确定的n个采集装置为两端的采集装置121和采集装置125，其中第j个采集装置例如为采集装置122。则通过上述操作S441可以得到采集装置122距离采集装置121的距离d1及采集装置122距离采集装置125的距离 d2。

根据本公开的实施例，若m个采集装置为环形排列的多个采集装置，则通过上述操作S441确定的相对位置信息例如可以包括：第j个采集装置在n 个采集装置中采集装置a和采集装置b连线上的投影点c与该两个采集装置之间的距离d_ab1和d_ab2，其中，d_ab1为投影点c距离采集装置a的距离，d_ab2为投影点距离采集装置b的距离。其中，采集装置a和采集装置b为n个采集装置中的任意两个采集装置。则通过操作S441，总共可以得到n(n-1)个距离值。

根据本公开的实施例，考虑到第j个原始音频信号往往与n个采集装置中距离第j个采集装置最近的两个采集装置的音频信号关联性较大，而与其他已被处理的音频信号关联性很小。则上述操作S441具体还可以是先根据n 个采集装置的位置信息和第j个采集装置的位置信息，确定n个采集装置中距离第j个采集装置最近的采集装置包括采集装置d和采集装置e；然后在确定相对位置信息时，仅确定第j个采集装置距离采集装置d和采集装置e的距离即可。

在操作S442，根据相对位置信息及n个原始音频信号的处理参数，确定第j个原始音频信号的处理参数。

根据本公开的实施例，该操作S442具体可以是综合采集装置d采集的原始音频信号的处理参数及采集装置e采集的原始音频信号的处理参数，根据第j个原始音频信号与采集装置d和采集装置e采集的原始音频信号的线性关系，来确定第j个原始音频信号的处理参数。其中所述的线性关系具体可以与操作S441中确定的相对位置信息相关。

根据本公开的实施例，如图5所示，该操作S442具体例如可以包括操作 S5421～操作S5422。

在操作S5421，根据相对位置信息，确定用于第j个原始音频信号的加权因子集合。在操作S5422，根据加权因子集合，对n个原始音频信号的处理参数加权求和，得到第j个原始音频信号的处理参数。

根据本公开的实施例，用于第j个原始音频信号的加权因子集合具体可以根据操作S441得到的相对位置信息来确定。具体地，在操作S5421得到的相对位置信息为第j个采集装置相对于采集装置d的距离d₃和第j个采集装置相对于采集装置e的距离d₄时，确定的加权因子集合应包括两个加权因子。假定d₃＜d₄，则加权因子集合包括的两个加权因子可以分别为：α＝d₃/d₄，β＝1-α。可以理解的是，上述加权因子集合的确定方法仅作为示例以利于理解本公开，本公开对此不作限定。可以理解的是，无论采用何种方法来确定加权因子集合中的加权因子，该集合中的各个加权因子均应该为归一化的数值。

则在操作S5422中，即可根据该加权因子集合及线性关系来确定第j个原始音频信号的处理参数。具体地，若分别以SNR₃和SNR₄来表示采集装置 d和采集装置e采集的原始音频信号的处理参数，则该第j个原始音频信号的处理参数可以表示为SNR_j＝α.*SNR₃+β.*SNR₄＝d₃/d₄.*SNR₃+(1-d₃/d₄).*SNR₄。可以理解的是，上述第j个原始音频信号的处理参数的确定方法仅作为示例以利于理解本公开，本公开对此不作限定。考虑到SNR₃、SNR₄均为N为向量，则上述应该采用点乘“.*”的计算来确定SNR_j。

在操作S443，根据第j个原始音频信号的处理参数，处理第j个原始音频信号。

根据本公开的实施例，在确定了第j个原始音频信号的处理参数后，根据该第j个原始音频信号的对数幅度谱即可确定处理该第j个原始音频信号后得到的第j个已处理音频信号。则上述操作S443具体可以包括：先对该第j 个原始音频信号的时域信号y做傅里叶变换，得到频谱Y＝FFT(y)；然后对该频谱的幅度谱进行对数运算，得到该第j个原始音频信号的对数幅度谱X_i；然后基于第j个原始音频信号的处理参数SNR_i，对该第j个原始音频信号的对数幅度谱X_i做降噪，得到降噪后的对数幅度谱X′_j＝X_i.*SNR_j；然后基于该降噪后的对数幅度谱X′_j，计算得到降噪后的频域信号为Y′＝exp(X′_j)；最后进行逆傅里叶变换，得到降噪后的时域信号y′＝IFFT(exp(X′_j))。从而得到降噪后的第j个已处理音频信号。可以理解的是，所述的处理参数具体例如可以为信噪比掩膜等，本公开对此不作限定。

综上可知，本公开实施例的处理音频的方法，可以通过经由神经网络处理的n个原始音频信号的处理参数，以及各个原始音频信号之间的关联性来对其他原始音频信号进行处理，从而便于实现对所有路音频信号的处理。并因此使得本公开实施例的处理音频的方法可以集成于嵌入式处理平台中，实现对相控阵采集***的所有音频信号的处理。

图6示意性示出了根据本公开实施例的处理音频的装置的结构框图。

如图6所示，本公开实施例的处理音频的装置600包括信号获取模块610、第一处理模块620、处理参数确定模块630和第二处理模块640。

信号获取模块610用于获取分别由m个采集装置采集的m个原始音频信号。其中，m为大于等于2的正整数。根据本公开的实施例，该信号获取模块610具体例如可以用于执行图2描述的操作S210，在此不再赘述。

第一处理模块620用于根据m个采集装置的位置信息，利用神经网络模型处理m个原始音频信号中的n个原始音频信号，获得与n个原始音频信号一一对应的n个已处理音频信号。其中，n为大于等于2的正整数，且n小于m。根据本公开的实施例，该第一处理模块620具体例如可以用于执行图 2描述的操作S220，在此不再赘述。

处理参数确定模块630用于根据n个原始音频信号及n个已处理音频信号，确定n个原始音频信号的处理参数。根据本公开的实施例，该处理参数确定模块630具体例如可以用于执行图2描述的操作S230，在此不再赘述。

第二处理模块640用于根据n个原始音频信号的处理参数，处理m个原始音频信号中除n个原始音频信号外的其他原始音频信号。根据本公开的实施例，该第二处理模块640具体例如可以用于执行图2描述的操作S240，在此不再赘述。

根据本公开的实施例，上述处理参数确定模块630具体用于：根据n个原始音频信号的幅度谱及n个已处理音频信号的幅度谱，确定n个原始音频信号的处理参数。

根据本公开的实施例，如图6所示，处理参数确定模块630可以包括对数幅度谱确定子模块631和第一处理参数确定子模块632。对于所述n个原始音频信号中的第i个原始音频信号：对数幅度谱确定子模块631用于根据第i个原始音频信号的幅度谱，确定第i个原始音频信号的对数幅度谱X_i，以及根据与第i个原始音频信号对应的第i个已处理音频信号的幅度谱，确定第 i个已处理音频信号的对数幅度谱X′_i。第一处理参数确定子模块632用于确定第i个原始音频信号的处理参数SNR_i＝X′_i./X_i。其中，i为小于或等于n的正整数。根据本公开的实施例，对数幅度谱确定子模块631例如可以用于执行图3描述的操作S331～操作S332，第一处理参数确定子模块632例如可以用于执行图3描述的操作S333，在此不再赘述。

根据本公开的实施例，如图6所示，第二处理模块640可以包括相对位置信息确定子模块641、第二处理参数确定子模块642和音频信号处理子模块643。对于其他原始音频信号中的第j个原始音频信号：相对位置信息确定子模块641用于根据m个采集装置的位置信息，确定采集n个原始音频信号的采集装置与采集第j个原始音频信号的采集装置的相对位置信息。第二处理参数确定子模块642用于根据相对位置信息及n个原始音频信号的处理参数，确定第j个原始音频信号的处理参数。音频信号处理子模块643用于根据第j个原始音频信号的处理参数，处理第j个原始音频信号。其中，j为小于等于(m-n)的正整数。根据本公开的实施例，相对位置信息确定子模块 641、第二处理参数确定子模块642和音频信号处理子模块643例如可以分别用于执行图4描述的操作S441～操作S443，在此不再赘述。

根据本公开的实施例，如图6所示，第二处理参数确定子模块642可以包括加权因子确定单元6421和处理参数计算单元6422。加权因子确定单元 6421用于根据相对位置信息，确定用于第j个原始音频信号的加权因子集合。处理参数计算单元6422用于根据加权因子集合，对n个原始音频信号的处理参数加权求和，得到第j个音频信号的处理参数。根据本公开的实施例，加权因子确定单元6421和处理参数计算单元6422例如可以分别用于执行图5 描述的操作S5421～操作S5422，在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，信号获取模块610、第一处理模块620、处理参数确定模块630、第二处理模块640、对数幅度谱确定子模块631、第一处理参数确定子模块 632、相对位置信息确定子模块641、第二处理参数确定子模块642、音频信号处理子模块643、加权因子确定单元6421以及处理参数计算单元6422中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，信号获取模块610、第一处理模块620、处理参数确定模块630、第二处理模块640、对数幅度谱确定子模块631、第一处理参数确定子模块632、相对位置信息确定子模块641、第二处理参数确定子模块642、音频信号处理子模块643、加权因子确定单元6421以及处理参数计算单元6422中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，信号获取模块610、第一处理模块 620、处理参数确定模块630、第二处理模块640、对数幅度谱确定子模块631、第一处理参数确定子模块632、相对位置信息确定子模块641、第二处理参数确定子模块642、音频信号处理子模块643、加权因子确定单元6421以及处理参数计算单元6422中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图7示意性示出了根据本公开实施例的适于实现处理音频的方法的处理音频的***的方框图。图7示出的处理音频的***仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，根据本公开实施例的处理音频的***700包括处理器701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器 701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 703中，存储有处理音频的***700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。处理器701 通过执行ROM 702和/或RAM703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 702和RAM 703 以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，处理音频的***700还可以包括输入/输出(I/O) 接口705，输入/输出(I/O)接口705也连接至总线704。***700还可以包括连接至I/O接口705的以下部件中的一项或多项：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时，执行本公开实施例的***中限定的上述功能。根据本公开的实施例，上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的；也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM 或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703 以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和 /或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种处理音频的方法，包括：

获取分别由m个采集装置采集的m个原始音频信号；

根据所述m个采集装置的位置信息，利用神经网络模型处理所述m个原始音频信号中的n个原始音频信号，获取与所述n个原始音频信号一一对应的n个已处理音频信号；

根据所述n个原始音频信号及所述n个已处理音频信号，确定所述n个原始音频信号的处理参数；以及

根据所述n个原始音频信号的处理参数，处理所述m个原始音频信号中除所述n个原始音频信号外的其他原始音频信号，

其中，m、n均为大于等于2的正整数，且n小于m。

2.根据权利要求1所述的方法，其中，根据所述n个原始音频信号及所述n个已处理音频信号，确定所述n个原始音频信号的处理参数包括：

根据所述n个原始音频信号的幅度谱及所述n个已处理音频信号的幅度谱，确定所述n个原始音频信号的处理参数。

3.根据权利要求2所述的方法，其中，所述确定所述n个原始音频信号的处理参数包括对于所述n个原始音频信号中的第i个原始音频信号：

根据所述第i个原始音频信号的幅度谱，确定所述第i个原始音频信号的对数幅度谱X_i；

根据与所述第i个原始音频信号对应的第i个已处理音频信号的幅度谱，确定所述第i个已处理音频信号的对数幅度谱X′_i；以及

确定所述第i个原始音频信号的处理参数SNR_i＝X′_i./X_i，

其中，i为小于或等于n的正整数。

4.根据权利要求1所述的方法，其中，处理所述m个原始音频信号中除所述n个原始音频信号外的其他原始音频信号包括：对于所述其他原始音频信号中的第j个原始音频信号：

根据所述m个采集装置的位置信息，确定采集所述n个原始音频信号的采集装置与采集所述第j个原始音频信号的采集装置的相对位置信息；

根据所述相对位置信息及所述n个原始音频信号的处理参数，确定所述第j个原始音频信号的处理参数；以及

根据所述第j个原始音频信号的处理参数，处理所述第j个原始音频信号，

其中，j为小于等于(m-n)的正整数。

5.根据权利要求4所述的方法，其中，根据所述相对位置信息及所述n个原始音频信号的处理参数，确定所述第j个原始音频信号的处理参数包括：

根据所述相对位置信息，确定用于所述第j个原始音频信号的加权因子集合；

根据所述加权因子集合，对所述n个原始音频信号的处理参数加权求和，得到所述第j个原始音频信号的处理参数。

6.根据权利要求1所述的方法，其中：

所述n个已处理音频信号为降噪后的音频信号；以及

所述处理所述m个原始音频信号中除所述n个原始音频信号外的其他原始音频信号包括：对所述m个原始音频信号中除所述n个原始音频信号外的其他原始音频信号做降噪处理。

7.一种处理音频的装置，包括：

信号获取模块，用于获取分别由m个采集装置采集的m个原始音频信号；

第一处理模块，用于根据所述m个采集装置的位置信息，利用神经网络模型处理所述m个原始音频信号中的n个原始音频信号，获得与所述n个原始音频信号一一对应的n个已处理音频信号；

处理参数确定模块，用于根据所述n个原始音频信号及所述n个已处理音频信号，确定所述n个原始音频信号的处理参数；以及

第二处理模块，用于根据所述n个原始音频信号的处理参数，处理所述m个原始音频信号中除所述n个原始音频信号外的其他原始音频信号，

其中，m、n均为大于等于2的正整数，且n小于m。

8.根据权利要求7所述的装置，其中，处理参数确定模块具体用于：

9.一种处理音频的***，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行权利要求1～6中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行权利要求1～6中任一项所述的方法。