CN110910893B

CN110910893B - 音频处理方法、装置及存储介质

Info

Publication number: CN110910893B
Application number: CN201911174201.2A
Authority: CN
Inventors: 张巍耀; 任伟; 张新成
Original assignee: Beijing Wutong Chelian Technology Co Ltd
Current assignee: Beijing Wutong Chelian Technology Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2022-07-22
Anticipated expiration: 2039-11-26
Also published as: CN110910893A

Abstract

本申请公开了一种音频处理方法及装置，属于音频数量技术领域。在本申请中，由于时频数据可以很好地表征一个音源的声音特征，因此，如果两个Mic的质量存在较大差别，则在获取到这两个Mic对同一音源采集的第一音频信号和第二音频信号之后，可以先根据第一音频信号确定第一时频数据，根据第二音频信号确定第二时频数据，然后通过对第一时频数据和第二时频数据进行拟合，得到第三时频数据，进而根据第三时频数据得到第三音频信号。这样，第三音频信号同时结合了第一音频信号和第二音频信号的特征，相较于质量较差的Mic采集到的音频信号，信号质量更好且更稳定，有利于提高后续的语音识别的识别准确率。

Description

音频处理方法、装置及存储介质

技术领域

本申请涉及音频处理技术领域，特别涉及一种音频处理方法、装置及存储介质。

背景技术

目前，在双音区的语音识别方案中，前端的两个Mic(microphone，麦克风)各采集一路音频信号，例如，汽车顶灯位置处会设置两个Mic，当驾驶员说话时，两个Mic会采集两路音频信号，之后前端将采集的音频信号发送给后端的语音识别模块进行语音识别。

通常两个Mic位于不同的位置，也即是处于不同的音区，在采集音频信号时，两个Mic可以根据音频信号判断声源距离哪个Mic较近，距离声源较近的Mic会将采集到的音频信号进行放大，之后发送给语音识别模块进行语音识别。但是由于实际中两个Mic的品质可能有差距，因此，两个Mic采集到的音频信号的质量也存在差距。在这种情况下，当声源距离品质较差的Mic较近时，这个Mic采集到的质量较差的音频信号将会被发送至语音识别模块，这样，将会导致语音识别模块的识别准确率较低，也即是在两个Mic的品质有差距的情况下，存在两个音区的识别效果差距较大的问题。基于此，亟需提供一种音频信号的处理方案，以保证音频信号的质量，从而保证语音识别的识别效果。

发明内容

本申请实施例提供了一种音频处理方法、装置及存储介质，可以解决在双音区的语音识别方案中，距离较近的Mic品质较差时，采集到质量较低的音频信号导致识别率较低的问题。所述技术方案如下：

一方面，提供了一种音频处理方法，所述方法包括：

获取第一音频采集设备采集的第一音频信号和第二音频采集设备采集的第二音频信号，所述第一音频信号和所述第二音频信号是在同一时段内对同一音源采集得到的信号；

根据所述第一音频信号确定第一时频数据，根据所述第二音频信号确定第二时频数据；

对所述第一时频数据和所述第二时频数据进行拟合，得到第三时频数据；

根据所述第三时频数据，生成第三音频信号。

可选地，所述对所述第一时频数据和所述第二时频数据进行拟合，得到第三时频数据，包括：

根据所述第一时频数据和所述第二时频数据，确定第一拟合时频曲线，所述第一拟合时频曲线用于指示所述第三音频信号的时间与频率的关系；

根据所述第一拟合时频曲线，确定所述第三时频数据。

可选地，所述根据所述第一时频数据和所述第二时频数据，确定第一拟合时频曲线，包括：

根据所述第一时频数据、所述第二时频数据和多个第一拟合参数，确定多个第二拟合参数；

根据所述多个第二拟合参数生成第二拟合时频曲线；

根据所述第二拟合时频曲线生成第四音频信号；

获取所述第四音频信号的识别准确率；

如果所述识别准确率小于识别率阈值，则对所述多个第一拟合参数进行调整，返回所述根据所述第一时频数据、所述第二时频数据和多个第一拟合参数，确定多个第二拟合参数的步骤，直到所述识别准确率不小于所述识别率阈值时，将根据最后一次确定的多个第二拟合参数拟合得到的第二拟合时频曲线作为所述第一拟合时频曲线。

可选地，所述第一时频数据包括多个第一时间点和多个第一频率值，所述多个第一时间点和所述多个第一频率值一一对应，所述第二时频数据包括所述多个第二时间点和多个第二频率值，所述多个第二时间点和所述多个第二频率值一一对应；

所述根据所述第一时频数据、所述第二时频数据和多个第一拟合参数，确定多个第二拟合参数，包括：

根据所述多个第一时间点、所述多个第一频率值、所述多个第二时间点、所述多个第二频率值和所述多个第一拟合参数，确定多个第三时间点和多个第三频率值，所述多个第三时间点是所述多个第一时间点和所述多个第二时间点的并集，所述多个第三时间点和所述多个第三频率值一一对应；

根据所述每个第三时间点对应的第三频率值、每个第一时间点对应第一频率值、每个第二时间点对应的第二频率值，确定所述多个第二拟合参数。

可选地，所述根据所述第一音频信号确定第一时频数据，根据所述第二音频信号确定第二时频数据，包括：

对所述第一音频信号进行傅里叶变换，得到所述第一时频数据；

对所述第二音频信号进行傅里叶变换，得到所述第二时频数据。

另一方面，提供了一种音频处理装置，所述装置包括：

获取模块，用于获取第一音频采集设备采集的第一音频信号和第二音频采集设备采集的第二音频信号，所述第一音频信号和所述第二音频信号是在同一时段内对同一音源采集得到的信号；

确定模块，用于根据所述第一音频信号确定第一时频数据，根据所述第二音频信号确定第二时频数据；

拟合模块，用于对所述第一时频数据和所述第二时频数据进行拟合，得到第三时频数据；

生成模块，用于根据所述第三时频数据，生成第三音频信号。

可选地，所述拟合模块包括：

第一确定单元，用于根据所述第一时频数据和所述第二时频数据，确定第一拟合时频曲线，所述第一拟合时频曲线用于指示所述第三音频信号的时间与频率的关系；

第二确定单元，用于根据所述第一拟合时频曲线，确定所述第三时频数据。

可选地，所述第一确定单元包括：

第一确定子单元，用于根据所述第一时频数据、所述第二时频数据和多个第一拟合参数，确定多个第二拟合参数；

第一生成子单元，用于根据所述多个第二拟合参数生成第二拟合时频曲线；

第二生成子单元，用于根据第二拟合时频曲线生成第四音频信号；

获取子单元，用于获取所述第四音频信号的识别准确率；

第二确定子单元，用于如果所述识别准确率小于识别率阈值，则对所述多个第一拟合参数进行调整，返回所述根据所述第一时频数据、所述第二时频数据和多个第一拟合参数，确定多个第二拟合参数的步骤，直到所述识别准确率不小于所述识别率阈值时，将根据最后一次确定的多个第二拟合参数拟合得到的第二拟合时频曲线作为所述第一拟合时频曲线。

所述第一确定子单元具体用于：

可选地，所述确定模块包括：

第一变换单元，用于对所述第一音频信号进行傅里叶变换，得到所述第一时频数据；

第二变换单元，用于对所述第二音频信号进行傅里叶变换，得到所述第二时频数据。

另一方面，提供了一种音频处理设备，所述音频处理机设备包括处理器、通信接口、存储器和通信总线；

其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；

所述存储器用于存放计算机程序；

所述处理器用于执行所述存储器上所存放的程序，以实现前述提供音频处理方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述提供的音频处理方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，由于时频数据可以很好地表征一个音源的声音特征，因此，如果两个Mic的质量存在较大差别，则在获取到这两个Mic对同一音源采集的第一音频信号和第二音频信号之后，可以先根据第一音频信号确定第一时频数据，根据第二音频信号确定第二时频数据，然后通过对第一时频数据和第二时频数据进行拟合，得到第三时频数据，进而根据第三时频数据得到第三音频信号。这样，第三音频信号同时结合了第一音频信号和第二音频信号的特征，相较于质量较差的Mic采集到的音频信号，信号质量更好且更稳定，有利于提高后续的语音识别的识别准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频处理方法所涉及的***架构图；

图2是本申请实施例提供的一种音频处理方法的流程图；

图3是本申请实施例提供的一种音频处理装置的结构示意图；

图4是本申请实施例提供的一种音频处理设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细的解释说明之前，先对本申请实施例涉及的应用场景予以介绍。

目前，在双音区的语音识别方案中，设置于两个音区的两个Mic可以各采集一路音频信号，例如，汽车顶灯位置处会设置两个Mic，当驾驶员说话时，两个Mic会采集两路音频信号，又如，在室内的不同位置设置有两个Mic的场景中，当室内有人说话时，也是由两个Mic采集两路音频信号。可以根据本申请实施例提供的音频处理方法对这两路音频信号进行处理，得到质量较高的音频信号，以提高后续语音识别的识别准确率。

接下来对本申请实施例提供的音频处理方法所涉及的***架构进行介绍。

图1是本申请实施例提供的一种音频处理方法的***架构图。如图1所示，该***架构包括第一音频采集设备101、第二音频采集设备102、音频处理设备103和语音识别设备104。第一音频采集设备101、音频处理设备103和语音识别设备104中的任意两个设备之间可以通过无线或者有线方式连接以进行通信，第二音频采集设备102、音频处理设备103和语音识别设备104中的任意两个设备之间也可以通过无线或者有线方式连接以进行通信。

其中，第一音频采集设备101用于采集第一音频信号，并将采集到的第一音频信号发送至音频处理设备103。第二音频采集设备102用于采集第二音频信号，并将采集到的第二音频信号发送至音频处理设备103。其中，第一音频采集设备101和第二音频采集设备102可以是设置于两个音区的两个设备，第一音频信号和第二音频信号是在同一时段内对同一音源采集得到的信号。

音频处理设备103可以用于接收第一音频采集设备101发送的第一音频信号和第二音频采集设备102发送的第二音频信号，并且可以根据本申请实施例提供的音频处理方法对第一音频信号和第二音频信号进行处理，得到第三音频信号。

语音识别设备104可以用于接收音频处理设备103发送的第三音频信号，并对第三音频信号进行语音识别，得到识别出的文本以及识别准确率等，除此之外，语音识别设备还可以接收第四音频信号，用于对第四音频信号进行语音识别，并将识别准确率发送给音频处理设备103，以使音频处理设备可以根据识别准确率对第四音频信号进行进一步的调整，得到质量较高的第三音频信号。

在本申请实施例中，第一音频采集设备101和第二音频采集设备102均可以为Mic，还可以是其他的具有音频采集功能的设备。音频处理设备103可以是手机、电脑、智能音箱、智能电视、智能手环等设备，还可以是其他的具有音频处理功能的设备。语音识别设备104可以是手机、电脑、智能音箱、智能电视、智能手环等设备，还可以是其他的具有语音识别功能的设备，本申请实施例对此不作限定。

需要说明的是，语音识别设备104还可以集成在音频处理设备103中，在这种情况下，音频处理设备103可以包括语音识别模块，以使音频处理设备103还可以具有语音识别的功能。

接下来对本申请实施例提供的音频处理方法进行介绍。

图2是本申请实施例提供的一种音频处理方法的流程图，可以应用于图1所示的音频处理设备中。如图2所示，该方法包括以下步骤：

步骤201：获取第一音频采集设备采集的第一音频信号和第二音频采集设备采集的第二音频信号，第一音频信号和第二音频信号是在同一时段内对同一音源采集得到的信号。

在本申请实施例中，当一个音源发出声音时，设置于不同音区的第一音频采集设备和第二音频采集设备可以同时对该音源发出的声音进行信号采集，从而得到第一音频信号和第二音频信号。由此可见，该第一音频信号和第二音频信号在同一时段内对该音源发出的声音采集的音频信号。音频处理设备可以接收第一音频采集设备采集到的第一音频信号、以及第二音频采集设备采集到的第二音频信号，也即是音频处理设备可以获取到第一音频信号和第二音频信号。

需要说明的是，第一音频信号和第二音频信号均可以为PCM(Pulse CodeModulation，脉冲编码调制)信号，也即是第一音频信号和第二音频信号可以为离散的时域数据。

步骤202：根据第一音频信号确定第一时频数据，根据第二音频信号确定第二时频数据。

由于时频数据可以很好地表征一个音源的声音特征，因此，在本申请实施例中，音频处理设备可以根据第一音频信号确定第一时频数据，根据第二音频信号确定第二时频数据，第一时频数据和第二时频数据均可以表征音源的声音的一部分特征，后续可以结合第一时频数据和第二时频数据，得到可以更好地表征音源的声音特征的第三时频数据。

在本申请实施例中，音频处理设备可以对第一音频信号进行傅里叶变换，得到第一时频数据，对第二音频信号进行傅里叶变换，得到第二时频数据。

可选地，在本申请实施例中，音频处理设备在对音频信号进行傅里叶变换之前，可以先对第一音频信号和第二音频信号分别进行分帧处理，也即是可以根据第一帧间距，将第一音频信号进行切分，得到第一音频信号在每个第一帧间距内的第一时域数据，根据第二帧间距，将第二音频信号进行切分，得到第二音频信号在每个第二帧间距内的第二时域数据。

其中，第一帧间距和第二帧间距可以相同或不同。例如，第一帧间距和第二帧间距可以均为25ms或其他数值，或者第一帧间距可以为20ms，第二帧间距可以为25ms，本申请实施例对此不作限定。

需要说明的是，由于本申请实施例中的第一音频信号和第二音频信号均为离散的时域数据，因此，音频处理设备可以采用离散傅里叶变换公式(1)，对分帧处理之后得到的时域数据进行傅里叶变换。

其中，x(m)表示时域数据，M表示时域采样点数，F(k)表示频域数据。

在本申请实施例中，音频处理设备可以根据公式(1)对每个第一时域数据进行傅里叶变换，得到每个第一帧间距内的频域数据，频域数据包括频率值和相应的频率能量。由于第一帧间距时间较短，在较短时间内的音频信号对应的频率是相对稳定的，基于此，音频处理设备可以将每个第一帧间距内的频域数据中频率能量最高的频率值，作为相应第一帧间距内包括的多个第一时间点中每个第一时间点对应的第一频率值。这样，对于多个第一帧间距，就可以得到多个第一帧间距包括的多个第一时间点中每个第一时间点对应的第一频率值，也即是可以得到第一时频数据。其中，第一时频数据包括多个第一时间点和多个第一频率值，该多个第一时间点和多个第一频率值一一对应，第一时频数据可以用于表征第一音频信号的时间与频率的关系。

音频处理设备还可以根据公式(1)对每个第二时域数据进行傅里叶变换，得到每个第二帧间距内的频域数据。然后音频处理设备可以将每个第二帧间距内的频域数据中频率能量最高的频率值，作为相应第二帧间距内包括的多个第二时间点中每个第二时间点对应的第二频率值。这样，对于多个第二帧间距，就可以得到多个第二帧间距包括的多个第二时间点中每个第二时间点对应的第二频率值，也即是可以得到第二时频数据。其中，第二时频数据包括多个第二时间点和多个第二频率值，该多个第二时间点和多个第二频率值一一对应，第二时频数据可以用于表征第二音频信号的时间与频率的关系。

步骤203：对第一时频数据和第二时频数据进行拟合，得到第三时频数据。

在本申请实施例中，音频处理设备在确定第一时频数据和第二时频数据之后，可以对第一时频数据和第二时频数据进行拟合，得到第三时频数据。

其中，音频处理设备可以根据第一时频数据和第二时频数据，确定第一拟合时频曲线，该第一拟合时频曲线用于指示第三音频信号的时间与频率的关系。然后根据第一拟合时频曲线，确定第三时频数据。

在一种可能的情况中，音频处理设备可以根据第一时频数据、第二时频数据和多个第一拟合参数，确定多个第二拟合参数；根据多个第二拟合参数生成第二拟合时频曲线；根据第二拟合时频曲线生成第四音频信号；获取第四音频信号的识别准确率；如果识别准确率小于识别率阈值，则对多个第一拟合参数进行调整，返回根据第一时频数据、第二时频数据和多个第一拟合参数，确定多个第二拟合参数的步骤，直到识别准确率不小于识别率阈值时，将根据最后一次确定的多个第二拟合参数拟合得到的第二拟合时频曲线作为第一拟合时频曲线。其中，多个第一拟合参数为初始化的拟合参数。

由前述可知，第一时频数据包括多个第一时间点和多个第一频率值，该多个第一时间点和多个第一频率值一一对应，第二时频数据包括多个第二时间点和多个第二频率值，该多个第二时间点和多个第二频率值一一对应。基于此，音频处理设备可以首先确定多个第三时间点和多个第三频率值，多个第三时间点是多个第一时间点和多个第二时间点的并集，多个第三时间点和多个第三频率值一一对应。根据每个第三时间点对应的第三频率值、每个第一时间点对应第一频率值、每个第二时间点对应的第二频率值，确定多个第二拟合参数。

需要说明的是，由于第一音频采集设备和第二音频采集设备采集音频信号时的采样周期可能相同或不同，因此，多个第一时间点可以与多个第二时间点完全相同或者存在不同。基于此，在本申请实施例中，音频处理设备可以获取多个第一时间点和多个第二时间点的并集，从而得到多个第三时间点。对于多个第三时间点中的任一第三时间点，音频处理设备可以根据第一拟合参数和该第三时间点，通过下述参考公式(2)确定得到与该第三时间点对应的第三频率值。

P(x)＝a₀+a₁x+…+a_nxⁿ (2)

其中，a₀,a₁,…,a_n为多个第一拟合参数中的权重参数，n为多个第一拟合参数中的拟合阶数，P(x)为拟合之后得到的第三时间点x对应的第三频率值。

在得到每个第三时间点对应的第三频率值之后，音频处理设备可以根据最小二乘法，根据使拟合得到的数据与实际数据之间误差的平方和最小的原则，对权重参数a₀,a₁,…,a_n进行迭代调整，也即是计算每个第三频率值与对应的第一频率值和/或第二频率值之间误差的平方，根据误差的平方和最小的原则，对多个权重参数进行迭代调整。当迭代次数达到预设迭代次数，或者误差的平方和小于误差阈值时，可以将最后一次迭代得到的拟合参数确定为多个第二拟合参数。这样，对于每个第三时间点x来说，拟合得到的频率值P(x)与对应的实际频率值之间的误差的平方和逼近最小。

在确定得到多个第二拟合参数之后，音频处理设备可以根据该多个第二拟合参数生成第二拟合时频曲线。

在本申请实施例中，在得到第二拟合时频曲线后，音频处理设备可以根据第二拟合时频曲线，生成第四音频信号。

可选地，音频处理设备可以根据第三帧间距，对第二拟合时频曲线进行切分，得到每个第三帧间距内的时频曲线，并对每个第三帧间距内的时频曲线进行采样，得到每个第三帧间距内的多个第四时间点、以及每个第四时间点对应的频率值。之后，音频处理设备可以根据公式(3)，对每个第三帧间距内的每个第四时间点对应的频率值进行傅里叶逆变换，得到每个第三帧间距内的时域数据，进而得到第四音频信号。

需要说明的是，第三帧间距可以为25ms等数值，第三帧间距可以与第一帧间距相同或不同，在本申请实施例中对此不作限定。

然后，音频处理设备可以获取第四音频信号的识别准确率。由前述对本申请实施例所涉及的***架构的相关介绍可知，当音频处理设备与语音识别设备为两个独立的设备时，音频处理设备可以将第四音频信号发送至语音识别设备，并可以获取语音识别设备根据第四音频信号得到的识别准确率。当音频处理设备包括语音识别模块时，音频处理设备可以将第四音频数据发送至语音识别模块，并直接获取语音识别模块根据第四音频数据得到的识别准确率。

在获取到第四音频信号的识别准确率之后，音频处理设备可以判断该识别准确率是否小于识别率阈值。如果该识别准确率小于识别率阈值，则可以对多个第一拟合参数进行调整，并返回根据第一时频数据、第二时频数据和多个第一拟合参数，确定多个第二拟合参数的步骤，直到识别准确率不小于识别率阈值时，将最后一次拟合得到的第二拟合时频曲线作为第一拟合时频曲线。也即是，音频处理设备可以重新拟合来确定第一拟合时频曲线。

需要说明的是，在本申请实施例中，在识别准确率小于识别率阈值的情况下，调整多个第一拟合参数的方法可以是，保持n不变，重新随机产生一组初始化参数a₀,a₁,…,a_n，或者可以将n在原值的基础上增加1或减小1，又或者可以将n在原值的基础上增加1，并重新随机产生一组初始化参数a₀,a₁,…,a_n,a_n+1，又或者可以将n在原值的基础上减小1，并重新随机产生一组初始化参数a₀,a₁,…,a_n-1。又或者可以根据一些人工经验，人工来调整拟合参数，例如，可以根据语音识别的唤醒率来人工调整第一拟合参数。

在本申请实施例中，音频处理设备在得到第一拟合时频曲线之后，可以根据第一拟合时频曲线，确定第三时频数据。

可选地，音频处理设备可以根据第一拟合时频曲线，确定多个第三时间点在第一拟合时频曲线上对应的频率值，将多个第三时间点、以及相应第三时间点在第一拟合时频曲线上对应的频率值，作为第三时频数据。或者可以将多个第一时间点、以及相应第一时间点在第一拟合时频曲线上对应的频率值，作为第三时频数据。又或者可以将多个第二时间点、以及相应第二时间点在第一拟合时频曲线上对应的频率值，作为第三时频数据。又或者可以对第一拟合时频曲线进行采样，将采样得到的多个第四时间点、以及相应第四时间点在第一拟合时频曲线上对应的频率值，作为第三时频数据。

可选地，在另一种可能的情况中，音频处理设备可以根据第一时频数据、第二时频数据和多个第一拟合参数，参考前述介绍的方法，确定多个第二拟合参数，之后，根据该多个第二拟合参数得到第一拟合时频曲线。也即是，音频处理设备进行一次拟合来得到第三时频数据，不必根据语音识别的识别准确率来再次调整多个第一拟合参数。

步骤204：根据第三时频数据，生成第三音频信号。

在本申请实施例中，音频处理设备可以根据第三时频数据，生成第三音频信号。

可选地，音频处理设备可以先根据第四帧间距，对第三时频数据进行切分，得到第三时频数据在每个第四帧间距内的时频数据，并对每个第四帧间距内包括的每个时间点对应的频率值进行傅里叶逆变换，得到每个第四帧间距内的时域数据，进而得到第三音频信号。

需要说明的是，在本申请实施例中，由于第三时频数据是离散的时频数据，因此，可以根据公式(3)，也即是根据离散傅里叶逆变换公式对第三时频数据进行处理，得到第三音频信号。另外，第四帧间距可以为25ms等数值，第四帧间距可以与第一帧间距相同或不同，在本申请实施例中对此不作限定。

综上所述，在本申请实施例中，由于时频数据可以很好地表征一个音源的声音特征，因此，如果两个Mic的质量存在较大差别，则在获取到这两个Mic对同一音源采集的第一音频信号和第二音频信号之后，可以先根据第一音频信号确定第一时频数据，根据第二音频信号确定第二时频数据，然后通过对第一时频数据和第二时频数据进行拟合，得到第三时频数据，进而根据第三时频数据得到第三音频信号。这样，第三音频信号同时结合了第一音频信号和第二音频信号的特征，相较于质量较差的Mic采集到的音频信号，信号质量更好且更稳定，有利于提高后续的语音识别的识别准确率。

参见图3，本申请实施例提供了一种音频处理装置300，该音频处理装置可以是图1所示的***架构中的音频处理设备，该装置300包括：

获取模块301，用于获取第一音频采集设备采集的第一音频信号和第二音频采集设备采集的第二音频信号，第一音频信号和第二音频信号是在同一时段内对同一音源采集得到的信号；

确定模块302，用于根据第一音频信号确定第一时频数据，根据第二音频信号确定第二时频数据；

拟合模块303，用于对第一时频数据和第二时频数据进行拟合，得到第三时频数据；

生成模块304，用于根据第三时频数据，生成第三音频信号。

可选地，拟合模块303包括：

第一确定单元，用于根据第一时频数据和第二时频数据，确定第一拟合时频曲线，第一拟合时频曲线用于指示第三音频信号的时间与频率的关系；

第二确定单元，用于根据第一拟合时频曲线，确定第三时频数据。

可选地，第一确定单元包括：

第一确定子单元，用于根据第一时频数据、第二时频数据和多个第一拟合参数，确定多个第二拟合参数；

第一生成子单元，用于根据多个第二拟合参数生成第二拟合时频曲线；

获取子单元，用于获取第四音频信号的识别准确率；

第二确定子单元，用于如果识别准确率小于识别率阈值，则对多个第一拟合参数进行调整，返回根据第一时频数据、第二时频数据和多个第一拟合参数，确定多个第二拟合参数的步骤，直到识别准确率不小于识别率阈值时，将根据最后一次确定的多个第二拟合参数拟合得到的第二拟合时频曲线作为第一拟合时频曲线。

可选地，第一时频数据包括多个第一时间点和多个第一频率值，多个第一时间点和多个第一频率值一一对应，第二时频数据包括多个第二时间点和多个第二频率值，多个第二时间点和多个第二频率值一一对应；

第一确定子单元具体用于：

根据多个第一时间点、多个第一频率值、多个第二时间点、多个第二频率值和多个第一拟合参数，确定多个第三时间点和多个第三频率值，多个第三时间点是多个第一时间点和多个第二时间点的并集，多个第三时间点和多个第三频率值一一对应；

根据每个第三时间点对应的第三频率值、每个第一时间点对应第一频率值、每个第二时间点对应的第二频率值，确定多个第二拟合参数。

可选地，确定模块302包括：

第一变换单元，用于对第一音频信号进行傅里叶变换，得到第一时频数据；

第二变换单元，用于对第二音频信号进行傅里叶变换，得到第二时频数据。

需要说明的是：上述实施例提供的音频处理装置在音频处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本申请实施例提供的一种音频处理设备400的结构框图。该音频处理设备400可以手机、电脑、智能音箱、智能电视、智能手环等设备，还可以是其他具备音频处理功能的设备。音频处理设备400还可能被称为用户设备、便携式音频处理设备、膝上型音频处理设备、台式音频处理设备等其他名称。

通常，音频处理设备400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的音频处理方法。

在一些实施例中，音频处理设备400还可选包括有：***设备接口403和至少一个***设备。处理器401、存储器402和***设备接口403之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口403相连。具体地，***设备包括：射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

***设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和***设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和***设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它音频处理设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个设置于音频处理设备400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在音频处理设备400的不同表面或呈折叠设计；在其他一些实施例中，显示屏405可以是柔性显示屏，设置在音频处理设备400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在音频处理设备的前面板，后置摄像头设置在音频处理设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在音频处理设备400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位音频处理设备400的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源409用于为音频处理设备400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，音频处理设备400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以音频处理设备400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测音频处理设备400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对音频处理设备400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在音频处理设备400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在音频处理设备400的侧边框时，可以检测用户对音频处理设备400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，由处理器401根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置音频处理设备400的正面、背面或侧面。当音频处理设备400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在音频处理设备400的前面板。接近传感器416用于采集用户与音频处理设备400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与音频处理设备400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与音频处理设备400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对音频处理设备400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由音频处理设备的处理器执行时，使得音频处理设备能够执行上述图2所示实施例提供的音频处理方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述图2所示实施例提供的音频处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

根据所述第一时频数据、所述第二时频数据和多个第一拟合参数，确定多个第二拟合参数，所述多个第一拟合参数包括权重参数和拟合阶数；根据所述多个第二拟合参数生成第二拟合时频曲线；根据所述第二拟合时频曲线生成第四音频信号；获取所述第四音频信号的识别准确率；

如果所述识别准确率小于识别率阈值，则对所述多个第一拟合参数进行调整，返回所述根据所述第一时频数据、所述第二时频数据和多个第一拟合参数，确定多个第二拟合参数的步骤，直到所述识别准确率不小于所述识别率阈值时，将根据最后一次确定的多个第二拟合参数拟合得到的第二拟合时频曲线作为第一拟合时频曲线；

根据所述第一拟合时频曲线，确定第三时频数据；

根据所述第三时频数据，生成第三音频信号，所述第一拟合时频曲线用于指示所述第三音频信号的时间与频率的关系。

2.根据权利要求1所述的方法，其特征在于，所述第一时频数据包括多个第一时间点和多个第一频率值，所述多个第一时间点和所述多个第一频率值一一对应，所述第二时频数据包括多个第二时间点和多个第二频率值，所述多个第二时间点和所述多个第二频率值一一对应；

根据每个第三时间点对应的第三频率值、每个第一时间点对应第一频率值、每个第二时间点对应的第二频率值，确定所述多个第二拟合参数。

3.根据权利要求1-2任一所述的方法，其特征在于，所述根据所述第一音频信号确定第一时频数据，根据所述第二音频信号确定第二时频数据，包括：

4.一种音频处理装置，其特征在于，所述装置包括：

生成模块，用于根据所述第三时频数据，生成第三音频信号；

所述拟合模块包括：

第二确定单元，用于根据所述第一拟合时频曲线，确定所述第三时频数据；

所述第一确定单元包括：

第一确定子单元，用于根据所述第一时频数据、所述第二时频数据和多个第一拟合参数，确定多个第二拟合参数，所述多个第一拟合参数包括权重参数和拟合阶数；

第二生成子单元，用于根据所述第二拟合时频曲线生成第四音频信号；

获取子单元，用于获取所述第四音频信号的识别准确率；

第二确定子单元，用于如果所述识别准确率小于识别率阈值，则对所述多个第一拟合参数进行调整，返回所述根据所述第一时频数据、所述第二时频数据和多个第一拟合参数，确定多个第二拟合参数的步骤，直到所述识别准确率不小于所述识别率阈值时，将根据最后一次拟合得到的多个第二拟合时频曲线拟合得到的作为所述第一拟合时频曲线。

5.根据权利要求4所述的装置，其特征在于，所述第一时频数据包括多个第一时间点和多个第一频率值，所述多个第一时间点和所述多个第一频率值一一对应，所述第二时频数据包括多个第二时间点和多个第二频率值，所述多个第二时间点和所述多个第二频率值一一对应；

所述第一确定子单元具体用于：

6.根据权利要求4-5任一所述的装置，其特征在于，所述确定模块包括：

7.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-3任一所述的方法的步骤。