CN115273822A

CN115273822A - 音频处理方法、装置、电子设备及介质

Info

Publication number: CN115273822A
Application number: CN202210912108.2A
Authority: CN
Inventors: 方晓华
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-01

Abstract

本申请公开了一种音频处理方法、装置、电子设备及介质，属于音频处理技术领域。该方法包括：根据获取的第一音频，确定N个第一子音频段，每个第一子音频段分别对应该第一音频的一个文字信息，N为正整数；分别获取N个第一子音频段的N个第一音频特征，该N个第一音频特征和该N个第一子音频段一一对应；根据N个第一音频特征，分别获取N个第二子音频段，该N个第二子音频段和该N个第一音频特征一一对应，每个第二子音频段是根据对应的第一音频特征确定的；根据N个第二子音频段，生成第二音频；其中，每个第二子音频段对应的文字信息，分别与一个第一子音频段对应的文字信息相匹配。

Description

音频处理方法、装置、电子设备及介质

技术领域

本申请属于音频处理技术领域，具体涉及一种音频处理方法、装置、电子设备及介质。

背景技术

通常，用户可以先在电子设备中输入需求发送的语音音频，然后再触发电子设备将该语音音频发送至其他电子设备，以使得其他用户可以在该其他电子设备中收听该语音音频，从而用户可以与其他用户进行交流沟通。

但是，由于可能会出现某些原因(例如用户的口音、外界杂音等)，而导致用户输入的语音音频不清晰的情况，这样可能会导致其他用户无法听清该语音音频的文字信息的情况，从而用户需要进行多次操作，以输入清晰的语音音频。

因此，导致使用电子设备发送语音音频的便捷性较差。

发明内容

本申请实施例的目的是提供一种音频处理方法、装置、电子设备及介质，能够解决用户使用电子设备发送语音音频的便捷性较差的问题。

第一方面，本申请实施例提供了一种音频处理方法，该方法包括：根据获取的第一音频，确定N个第一子音频段，每个第一子音频段分别对应该第一音频的一个文字信息，N为正整数；分别获取N个第一子音频段的N个第一音频特征，该N个第一音频特征和该N个第一子音频段一一对应；根据N个第一音频特征，分别确定N个第二子音频段，该N个第二子音频段和该N个第一音频特征一一对应，每个第二子音频段是根据对应的第一音频特征确定的；根据N个第二子音频段，生成第二音频；其中，每个第二子音频段对应的文字信息，分别与一个第一子音频段对应的文字信息相匹配。

第二方面，本申请实施例提供了一种音频处理的装置，该音频处理装置包括：确定模块、获取模块以及生成模块。其中，确定模块，用于根据获取的第一音频，确定N个第一子音频段，每个第一子音频段分别对应该第一音频的一个文字信息，N为正整数。获取模块，用于分别获取确定模块确定的N个第一子音频段的N个第一音频特征，该N个第一音频特征和该N个第一子音频段一一对应。确定模块，还用于根据获取模块获取的N个第一音频特征，分别确定N个第二子音频段，该N个第二子音频段和该N个第一音频特征一一对应，每个第二子音频段是根据对应的第一音频特征确定的。生成模块，用于根据确定模块确定的N个第二子音频段，生成第二音频。其中，每个第二子音频段对应的文字信息，分别与一个第一子音频段对应的文字信息相匹配。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，电子设备可以先根据获取的第一音频，确定N个第一子音频段(每个第一子音频段分别对应该第一音频的一个文字信息)，并分别获取和该N个第一子音频段一一对应的N个第一音频特征，再根据该N个第一音频特征，分别获取和该N个第一音频特征一一对应N个第二子音频段(每个第二子音频段是根据对应的第一音频特征确定的)，从而电子设备可以根据该N个第二子音频段(每个第二子音频段对应的文字信息，分别与一个第一子音频段对应的文字信息相匹配)，生成第二音频。由于电子设备可以先确定第一音频的每个文字信息对应的第一子音频段，再根据每个第一子音频段的第一音频特征，获取与该每个第一子音频段对应的文字信息相匹配的第二子音频段，即与该每个第一子音频段对应的文字信息相匹配的清晰的子音频段，以生成清晰的第二音频，而无需用户在电子设备进行多次操作，以输入清晰的语音音频，因此，可以提高使用电子设备发送语音音频的便捷性。

附图说明

图1是本申请实施例提供的音频处理方法的流程示意图之一；

图2是本申请实施例提供的音频处理方法的流程示意图之二；

图3是本申请实施例提供的聊天界面示意图之一；

图4是本申请实施例提供的聊天界面示意图之二；

图5是本申请实施例提供的音频处理方法的流程示意图之三；

图6是本申请实施例提供的的三角滤波器中心频率示意图；

图7是本申请实施例提供的音频段库示意图之一；

图8是本申请实施例提供的音频段库示意图之二；

图9是本申请实施例提供的音频段库示意图之三；

图10是本申请实施例提供的音频处理装置的结构示意图；

图11是本申请实施例提供的电子设备的结构示意图；

图12是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频处理方法进行详细地说明。

图1示出了本申请实施例提供的一种音频处理方法的流程图。如图1所示，本申请实施例提供的音频处理方法，该音频处理方法可以包括下述的步骤101至步骤104。

步骤101、电子设备根据获取的第一音频，确定N个第一子音频段。

可以理解，N个第一子音频段中的每个第一子音频段为第一音频中的部分音频段。

本申请实施例中，每个第一子音频段分别对应第一音频的一个文字信息，N为正整数。

本申请实施例中，第一音频包括N个文字信息，该N个文字信息中的每个文字信息具体可以为文字字符串。其中，该N个文字信息所属的语系可以完全相同，或部分相同，或完全不同。

需要说明的是，上述“N个文字信息”可以理解为：将第一音频转换为文本后，可以得到的文字信息。

可选地，本申请实施例中，N个文字信息的内容可以部分相同，或完全不同。

示例性地，假设第一音频包括N个文字信息(例如四个文字信息)，例如文字信息“你”、文字信息“们”、文字信息“好”以及文字信息“啊”，该四个文字信息所属的语系完全相同，且该四个文字信息的内容完全不同。

可选地，本申请实施例中，电子设备在获取到第一音频的情况下，可以先对该第一音频进行预处理，然后再根据预处理后的第一音频的波段特征，将该预处理后的第一音频划分为N个第一子音频段。

其中，电子设备可以将第一音频中的静音部分对应的子音频段删除，以对该第一音频进行预处理。

其中，电子设备可以根据预处理后的第一音频的波谷位置，将预处理后的第一音频划分为N个第一子音频段。

其中，在将预处理后的第一音频划分为N个第一子音频段之后，电子设备可以分别对每个第一子音频段进行标号，以便于电子设备对N个第一子音频段进行处理。

示例性地，电子设备可以将N个第一子音频段中的第一个第一子音频段标为D1，并将N个第一子音频段中的第二个第一子音频段标为D2，以及将N个第一子音频段中的第三个第一子音频段标为D3，以此类推，直至将N个第一子音频段中的最后一个第一子音频段标为Dn。

可选地，本申请实施例中，在电子设备显示目标应用的界面的情况下，电子设备可以根据用户对该界面中的第一音频的标识(例如下述实施例中的目标音频标识)的输入(例如下述实施例中的第一输入)，获取第一音频，从而电子设备可以根据第一音频段，确定N个第一子音频段。

其中，目标应用可以为以下任一项：聊天类应用、音乐类应用、网页类应用、支付类应用、生活类应用等。

可选地，本申请实施例中，结合图1，如图2所示，上述步骤101之前，本申请实施例提供的音频处理方法还包括下述步骤201至步骤204。

步骤201、电子设备在显示目标音频标识的情况下，接收用户对目标音频标识的第一输入。

可选地，本申请实施例中，在电子设备显示目标应用的主界面的情况下，电子设备可以根据用户对该主界面的至少一个用户标识中的目标用户标识的点击输入，显示该目标用户标识对应的聊天界面，该聊天界面中包括目标音频标识，从而用户可以进行第一输入。

在一种示例中，在显示目标用户标识对应的聊天界面的情况下，用户可以对该聊天界面中的“按住说话”控件进行按压输入，并对电子设备进行语音输入，以使得电子设备可以得到第一音频，并在该聊天界面的输入框中显示目标音频标识。

可以理解，在本示例中，电子设备可以为发送方设备。

在另一种示例中，电子设备可以先从目标用户标识对应的其他电子设备接收第一音频，从而在用户对目标用户标识进行点击输入的情况下，电子设备可以显示该目标用户标识对应的聊天界面，并在该聊天界面中显示目标音频标识。

可以理解，在本示例中，电子设备可以为接收方设备。

本申请实施例中，目标音频标识为第一音频的标识。

可选地，本申请实施例中，上述目标音频标识可以为以下任一项：音频名称、音频链接、音频图标等。

可选地，本申请实施例中，第一输入具体可以为以下任一项：长按输入、单击输入、双击输入、滑动输入等。

需要说明的是，上述“滑动输入”可以理解为：起始输入位置为目标音频标识所在的位置的滑动输入。

举例说明，以电子设备为手机为例进行说明。如图3所示，在用户对目标用户标识10(如“张三”)进行点击输入的情况下，电子设备可以显示该目标用户标识对应的聊天界面，并在该聊天界面中显示目标音频标识11。用户可以点击目标音频标识11，以收听目标用户张三发送的语音消息。

步骤202、电子设备响应于第一输入，显示目标控件。

本申请实施例中，目标控件用于触发生成第二音频。

可选地，本申请实施例中，电子设备可以在目标音频标识所在区域的相邻区域内，悬浮显示目标控件。

需要说明的是，上述“目标音频标识所在区域的相邻区域”可以理解为：目标音频标识所在区域的预定范围内的区域。

进一步可选地，本申请实施例中，电子设备可以悬浮显示第一窗口，该第一窗口中包括至少一个控件，每个控件分别用于对第一音频进行操作处理，该至少一个控件中包括目标控件。

举例说明，结合图3，如图4所示，用户对目标音频标识11进行长按输入，电子设备可以在目标音频标识所在区域的预定范围内的区域悬浮显示第一窗口12，该第一窗口12中包括至少一个控件，每个控件分别用于对第一音频进行操作处理，该至少一个控件中包括目标控件13(如“矫正播放”)。

步骤203、电子设备接收用户对目标控件的第二输入。

可选地，本申请实施例中，第二输入具体可以为以下任一项：长按输入、单击输入、双击输入、滑动输入等。

步骤204、电子设备响应于第二输入，获取第一音频。

可选地，本申请实施例中，电子设备可以从电子设备的缓存区域中读取第一音频，以获取该第一音频，从而电子设备可以根据第一音频，确定N个第一子音频段。

如此可知，电子设备在显示目标音频标识的情况下，可以接收用户对目标音频标识的第一输入，并在目标音频标识所在区域的相邻区域显示目标控件，然后接收用户对目标控件的第二输入，获取第一音频，从而可以简化用户获取第一音频的操作，因此，提升了用户使用电子设备发送或者接收音频内容的便携性。

步骤102、电子设备分别获取N个第一子音频段的N个第一音频特征。

本申请实施例中，N个第一音频特征和N个第一子音频段一一对应。

可选地，本申请实施例中，上述第一音频特征具体可以为以下任一项：过零率、短时能量、基频、梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，MFCC)。

进一步可选地，本申请实施例中，在第一音频特征为MFCC的情况下，结合图1，如图5所示，上述步骤102具体可以通过步骤102a至步骤102d来实现。

步骤102a、电子设备根据第六子音频段，确定连续的X个音频帧。

本申请实施例中，上述第六子音频段为N个第一子音频段中的任意一个第一子音频段。

可选地，本申请实施例中，电子设备可以将第六子音频段通过高通滤波器进行算法处理，以对该第六子音频段进行预加重处理。

进一步可选地，本申请实施例中，上述高通滤波器可以用第一算法：H(Z)＝1-μz^-1，对一个第一子音频段进行算法处理。

其中，μ为大于或等于0.9、且小于或等于1的正数，例如μ可以为0.97。

本申请实施例中，电子设备可以通过对第六子音频段进行预加重处理，以提高该第六子音频段的信号的高频部分，以使得该信号的频谱变得平坦，从而使得电子设备可以在低频到高频的整个频带中，使用相同的信噪比来计算频谱。并且，电子设备可以通过对该第六子音频段进行预加重处理，以消除发声过程中声带和嘴唇的效应，进而可以补偿该第六子音频段的信号受到用户的发音***所抑制的高频部分，继而可以突出该第六子音频段的信号的高频的共振峰。

可选地，本申请实施例中，电子设备对第六子音频段进行预加重处理后，将该第六子音频段的信号分成X个音频帧。

其中，音频信号处理范围的大小为20毫秒到40毫秒，一般可以设置为25毫秒的帧大小。

本申请实施例中，X个音频帧中相邻的音频帧在时域上至少部分重叠。

其中，为了避免相邻两帧音频信号的变化过大，两相邻连续帧之间要求有一段重叠区域，通常连续帧之间有50％(+/-10％)的重叠区域，一般设置为15毫秒的重叠区域。

步骤102b、电子设备根据X个音频帧，确定目标功率谱。

需要说明的是，音频在长范围内不停变动，因而没有固定的特性，无法对其进行处理。所以，在该第六子音频段的信号分成X个音频帧后，需要将一个窗口函数应用于每个音频帧。

本申请实施例中，电子设备将一个窗口函数应用于每个音频帧可以抵消FFT处理中所假设的数据是无限的情况，并减少频谱泄漏。

可选地，本申请实施例中，上述窗口函数可以为方窗、汉明窗和汉宁窗等，根据窗函数的频域特性，一般采用汉明窗。

可选地，本申请实施例中，上述音频帧具体可以为短时帧。

其中，每个短时帧乘以汉明窗函数，可以增加短时帧左端和右端的连续性。

这里假设分帧后的信号为S(n),n＝0,1…,N-1,N为帧的大小，乘上汉明窗函数后S'(n)＝S(n)×W(n)，W(n)形式如下：

不同的a值会产生不同的汉明窗，一般情况下，a可以取0.46。

需要说明的是，由于信号在时域上的变换较难分辨信号的特性，所以通常将信号在时域上的变换转换为频域上的能量分布来观察，不同的能量分布，可以代表不同音频的特性。

本申请实施例中，音频帧在乘上汉明窗函数后，每帧音频帧还需要再经过快速傅里叶变换以得到在频谱上的能量分布。

可选地，本申请实施例中，该第六子音频段的信号分成X个音频帧并乘以汉明窗函数后，对各帧信号进行快速傅里叶变换得到各帧的频谱。

其中，电子设备对音频信号的频谱取模平方得到音频信号的目标功率谱，式中，设音频信号的DFT为：

式中x(n)为输入的音频信号，N表示傅里叶变换的点数。

步骤102c、电子设备基于目标功率谱，得到至少一个对数能量。

本申请实施例中，电子设备可以将目标功率谱通过一组梅尔Mel尺度的滤波器组。

可选地，本申请实施例中，电子设备可以将目标功率谱通过一组包括M个滤波器(滤波器的个数和临界带的个数相近)的梅尔Mel尺度的滤波器组。

进一步可选地，本申请实施例中，该滤波器可以为三角滤波器，该三角滤波器中心频率可以表示为f(m)。

其中，m通常取22-26。各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽，如图6所示。

其中，三角滤波器的频率响应定义为:

式中

本申请实施例中，三角滤波器可以对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。本申请实施例中，计算每个滤波器组输出的对数能量为：

步骤102d、电子设备根据至少一个对数能量，计算得到第六子音频段的第一音频特征。

本申请实施例中，每个滤波器组输出的对数能量经DCT处理后得到MFCC系数为：

其中，将上述的对数能量带入离散余弦变换，求出L阶的Mel参数。L阶指MFCC系数阶数，通常取12-16。这里M是三角滤波器个数。

本申请实施例中，经过上诉步骤，最后输出的第六子音频段的声学特征参数MFCC是一个二维矩阵(T，N)，T为时长，N为设置的特征维度，默认一般是13或者39。

可选地，本申请实施例中，电子设备分别将第一音频的N个第一子音频段按照上述MFCC特征参数的提取过程进行提取处理，得到N个第一子音频段对应的N个MFCC特征参数。

如此可知，由于电子设备可以通过将一个第一子音频段分为连续的X个音频帧，并根据该X个音频帧，确定目标功率谱，进而基于目标功率谱，得到至少一个对数能量并计算得到第一音频特征，从而获取N个第一子音频段的N个第一音频特征。因此，提高了电子设备获取N个第一音频特征的准确性。

步骤103、电子设备根据N个第一音频特征，分别确定N个第二子音频段。

本申请实施例中，N个第二子音频段和N个第一音频特征一一对应，每个第二子音频段是根据对应的第一音频特征确定的。

可选地，本申请实施例中，将该N个第一子音频特征中的每一个第一子音频特征和目标音频段库(如下述申请实施例中的云上的音频段库)进行对比，匹配出与第一音频特征相似度最大的一个第二音频特征所对应的第二子音频段。

进一步可选地，本申请实施例中，该一个第二音频特征具体可以通过将至少一个音频段对应的MFCC特征和一个第一音频特征采用动态时间归准(Dynamic Time Warping,DTW)算法得到。DTW算法在下述申请实施例中有详细说明，在此不再赘述。

可选地，本申请实施例中，电子设备可以根据N个第一音频特征，分别和目标音频段库进行对比，获取N个与第一音频特征一一对应的N个第二子音频段。

步骤104、电子设备根据N个第二子音频段，生成第二音频。

本申请实施例中，每个第二子音频段对应的文字信息，分别与一个第一子音频段对应的文字信息相匹配。

示例性地，一个第一音频特征对应一个第一子音频段，该一个第一子音频段对应的文字信息为“你”，目标音频段库中，与该一个第一音频特征相似度最大的一个第二音频特征对应一个第二子音频段，该一个第二子音频段对应的文字信息为“你”，每一个第二子音频段对应的文字信息与一个第一子音频段对应的文字信息相匹配。

可选地，本申请实施例中，N个第二子音频段对应的文字信息与N个第一子音频段对应的文字信息一一匹配。

可以理解，将N个第二子音频段按照N个第一子音频段对应的文字信息原有的顺序进行拼接处理，生成第二音频。

当然，生成的第二音频为标准音，如果感觉标准音过于机械音，从而使对方用户无法正确理解接收到的音频的感情状态，电子设备可以自动识别用户录制的音频时的音色、音调等信息，将生成的标准音和对应音色音调进行合成，从而让对方用户接收到的音频更贴近用户的语气状态。

可选地，本申请实施例中，上述步骤104之后，本申请实施例提供的音频处理方法还包括下述步骤301至步骤302。

步骤301、电子设备获取第一音频的目标音频参数。

可选地，本申请实施例中，上述目标音频参数为以下至少一项：音频音色、音频音调。

可以理解，当电子设备获取第一音频时，可以自动识别录制的音频的音色、音调等信息，并提取出来进行保存。

步骤302、电子设备根据目标音频参数，调整第二音频的音频参数。

需要说明的是，上述“电子设备根据目标音频参数，调整第二音频的音频参数”，可以理解为：电子设备获取第二音频后，将第二音频对应的音色、音调等音频参数，调整成预先保存的第一音频对应的音色、音调等音频参数。

如此可知，由于电子设备可以先获取第一音频的目标音频参数，并在获取第二音频后，将第二音频对应的音频参数调整为第一音频的目标音频参数，从而使第二音频的音色和音调更接近第一音频，因此，用户可以更好确理解接收到的音频的感情状态。

本申请实施例提供的音频处理方法，电子设备可以先根据获取的第一音频，确定N个第一子音频段(每个第一子音频段分别对应该第一音频的一个文字信息)，并分别获取和该N个第一子音频段一一对应的N个第一音频特征，再根据该N个第一音频特征，分别获取和该N个第一音频特征一一对应N个第二子音频段(每个第二子音频段是根据对应的第一音频特征确定的)，从而电子设备可以根据该N个第二子音频段(每个第二子音频段对应的文字信息，分别与一个第一子音频段对应的文字信息相匹配)，生成第二音频。由于电子设备可以先确定第一音频的每个文字信息对应的第一子音频段，再根据每个第一子音频段的第一音频特征，获取与该每个第一子音频段对应的文字信息相匹配的第二子音频段，即与该每个第一子音频段对应的文字信息相匹配的清晰的子音频段，以生成清晰的第二音频，而无需用户在电子设备进行多次操作，以输入清晰的语音音频，因此，可以提高使用电子设备发送语音音频的便捷性。

以下具体说明电子设备是如何从目标音频段库中得到第二子音频段的。

可选地，本申请实施例中，上述步骤103，具体可以通过下述的步骤103a至步骤103c实现。

步骤103a、电子设备分别确定与N个第一音频特征相似度最大的N个第二音频特征。

本申请实施例中，N个第二音频特征与N个第一音频特征一一对应。

可选地，本申请实施例中，第一音频特征和第二音频特征具体可以为MFCC特征参数。

可选地，本申请实施例中，每个MFCC特征参数都属于时间序列数据，不同的MFCC特征参数可以采用DTW算法进行相似度的比较。

进一步可选地，本申请实施例中，该一个第二音频特征具体可以通过将目标音频段库提供的至少一个音频段对应的MFCC特征和一个第一音频特征采用动态时间归准(Dynamic Time Warping,DTW)算法得到。

需要说明的是，上述“目标音频段库”可以为网络服务器提供的音频段库，如网络云上的海量音频段库，也可以为电子设备本身自带的音频段库。

可选地，本申请实施例中，目标音频段库包含收集的海量音频片段，并记录了每个音频片段的声学MFCC特征，并且每个音频片段都有其映射的内容含义，和其所属的语系信息。

举例说明，如图7所示，该目标音频段库包含收集的n个音频段，每个音频段记录了各自的声学MFCC特征，并且每个音频片段都有其映射的内容含义，和其所属的语系信息，如音频段1：MFCC特征为(1000/10,13),内容含义为“你”，所属的语系为“汉语，标准”；音频段2：MFCC特征为(2000/10,13),内容含义为“们”，所属的语系为“汉语，河南口音”；音频段3：MFCC特征为(3000/10,13),内容含义为“好”，所属的语系为“汉语，河北口音”等。

进一步可选地，本申请实施例中，上述DTW算法可以衡量两个长度不同的时间序列的相似度。

其中，把两个序列伸长或缩短到和参考模板的长度一致，在这一过程中，两个序列会产生扭曲或弯折，以便其特征量与标准模式对应。

这里，假设两条MFCC序列为Q和C，两条MFCC序列的长度分别是n和m。

Q＝q1,q2,...,qn

C＝q1,q2,...,qm

用一个m×n矩阵来对比两个MFCC序列，规准(warping)路径会穿越该矩阵，warping路径的第k个元素表示w_k＝(i,j)_k，横纵代表的是两个序列对齐的点。

可选地，本申请实施例中，对warping路径的约束条件包括边界条件、连续性条件以及单调性条件。

进一步可选地，本申请实施例中，该边界条件为：w₁＝(1,1)和w_k＝(m,n)。

其中，两条序列首尾必须匹配，而且各部分的先后次序也要匹配。

进一步可选地，本申请实施例中，该连续性约束条件为:如果w_k＝(a,b)且w_k-1＝(a',b')，则必须满足a-a'≥1且b-b'≤1。

其中，该连续性条件表示在匹配过程中多对一和一对多的情况只能匹配周围一个时间步的情况，不可能跨过某个点去匹配，只能和相邻的点对齐，这样可以保证Q和C中的每个坐标都在wraping路径中出现。

进一步可选地，本申请实施例中，该单调性约束条件为：如果w_k-1＝(a',b'),且w_k＝(a,b)，则必须满足a-a'≥0且b-b'≥0。

其中，该单调性约束条件表示warping路径一定是随时间单调递增的。

需要说明的是，满足以上约束条件的warping路径有很多，所以找出与一个第一音频特征相似度最大的一个第二音频特征的本质就是找出最优warping路径。

这里，用数学语言可以描述为：

γ(i,j)＝d(q_i,c_j)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}。

其中，套用公式便可计算得到某两个音频段的MFCC特征匹对后的最小warping路径，同理依次俩俩对比，即可得到一个第一音频特征和音频段库中所有音频段对应的音频特征的最小warping路径，分别为P1、P2、P3、P4、P5，P6.....Pn。根据匹配的各最小warping路径中找到最小的那一个路径，min(P1,P2,P3,P4,...,Pn)，从而就找到了匹配概率最大的一个音频特征，确定为一个第二音频特征，进而可以获取到该一个第二音频特征对应的音频段，以及该音频段中映射的含义信息和其所属语系信息。

举例说明，如图8所示，一个第一音频特征对应的MFCC特征为(1200/10,13),通过DTW算法，从音频段库中对比得到与该一个第一音频特征相似度最大的一个音频特征为第二音频特征，该一个第二音频特征为(1000/10,13)内容含义为“你”，所属的语系为“汉语，河南”。

步骤103b、电子设备根据N个第二音频特征，分别确定N个目标音频集。

本申请实施例中，N个目标音频集与N个第二音频特征一一对应，一个目标音频集包括至少一个第三子音频段。

可选地，本申请实施例中，一个第二音频特征对应一个音频段的声学MFCC特征，并且根据该一个音频段映射的内容含义，可以得到至少一个第三子音频段，该至少一个第三子音频段的内容含义相同，所属的语系信息不同。

可选地，本申请实施例中，该至少一个第三子音频段组成一个目标音频集。

示例性地，该一个目标音频集包括：第三子音频段1：“你，标准汉语”；第三子音频段2：“你，河南口音汉语”；第三子音频段3：“你，陕北口音汉语”；第三子音频段4：“你。标准日语”；第三子音频段5：“你，标准英语”等。

可选地，本申请实施例中，上述步骤103b具体可以通过下述步骤103b1和步骤103b2实现。

步骤103b1、电子设备采用Q个第一对应关系，确定与第三音频特征对应的目标文字信息。

本申请实施例中，每个第一对应关系为一个音频特征与一个文字信息间的对应关系，第三音频特征为N个第二音频特征中的任一个音频特征，Q为正整数。

可选地，本申请实施例中，上述目标文字信息可以为N个第二音频特征中的一个第二音频特征对应的音频段表示的文字信息，

举例说明，结合图8所示，目标音频段库中的音频特征与文字信息间的第一对应关系为音频段1：MFCC特征为(1200/10,13),内容含义为“你”，所属的语系为“汉语，标准”；音频段2：MFCC特征为(2000/10,13),内容含义为“们”，所属的语系为“汉语，河南口音”；音频段3：MFCC特征为(3000/10,13),内容含义为“好”，所属的语系为“汉语，河北口音”等。一个第一音频特征对应的MFCC特征为(1200/10,13),经过DTW算法，从该目标音频段库中对比得到与该一个第一音频特征相似度最大的一个第三音频特征为(1000/10,13)内容含义为“你”。

步骤103b2、电子设备从至少一个预存子音频段中，确定出与目标文字信息相匹配的至少一个第三子音频段，得到第一音频集。

本申请实施例中，第一音频集为N个目标音频集中与第三音频特征对应的目标音频集。

可选地，本申请实施例中，上述至少一个预存子音频段具体可以为网络提供的音频段库。

示例性地，电子设备从网络提供的目标音频段库中，对比确定出与目标文字信息“你”相匹配，但所属的语系信息不同的至少一个第三子音频段组成的第一音频集：第三子音频段1：“你，标准汉语”；第三子音频段2：“你，河南口音汉语”；第三子音频段3：“你，陕北口音汉语”；第三子音频段4：“你。标准日语”；第三子音频段5：“你，标准英语”等。

如此可知，电子设备采用Q个音频特征与一个文字信息间的对应关系，确定与N个第二音频特征中的任一个音频特征对应的目标文字信息，并从至少一个预存子音频段中，确定出与目标文字信息相匹配的至少一个第三子音频段，从而准确得到得到第一音频集，因此，提高了电子设备得到第一音频集的准确性。

步骤103c、电子设备从N个目标音频集的第三子音频段中，分别确定N个第二子音频段。

本申请实施例中，N个第二子音频段与N个目标音频集一一对应。

可选地，本申请实施例中，电子设备分别确定与N个第一音频特征相似度最大的N个第二音频特征，并根据N个第二音频特征，分别确定N个目标音频集，从而从N个目标音频集的第三子音频段中，分别确定N个第二子音频段。

如此可知，由于电子设备可以分别确定N个第一音频特征相似度最大的N个第二音频特征，并根据N个第二音频特征，分别确定N个目标音频集，从而从N个目标音频集的第三子音频段中，分别确定N个第二子音频段，因此，电子设备可以准确匹配第二子音频段。

可选地，本申请实施例中，上述步骤103c之前，该音频处理方法还包括下述步骤401，且上述步骤103c具体可以通过下述步骤103c1和步骤103c2实现。

步骤401、电子设备采用T个第二对应关系，确定与第四音频特征对应的目标语系信息。

本申请实施例中，每个第二对应关系为一个音频特征与一个语系信息间的对应关系，第四音频特征为N个第二音频特征中的任一个音频特征。

可选地，本申请实施例中，上述目标语系信息具体可以为“汉语”

举例说明，如图7所示，目标音频段库中的音频特征与语系信息的第二对应关系为：音频段1：MFCC特征为(1200/10,13),内容含义为“你”，所属的语系为“汉语，河南”；音频段2：MFCC特征为(2000/10,13),内容含义为“们”，所属的语系为“汉语，河南口音”；音频段3：MFCC特征为(3000/10,13),内容含义为“好”，所属的语系为“汉语，河北口音”；音频段4：MFCC特征为(1500/10,13),内容含义为“啊”，所属的语系为“日语，标准”等。一个第一音频特征对应的MFCC特征为(1200/10,13),经过DTW算法，从该目标音频段库中对比得到与该一个第一音频特征相似度最大的一个第四音频特征为(1000/10,13)，内容含义为“你”，其对应的目标语系信息为“汉语”。

步骤103c1、电子设备从第二音频集的第三子音频段中，确定出与目标语系信息相匹配的M个第四子音频段。

本申请实施例中，第二音频集为N个目标音频集中与第四音频特征对应的目标音频集，M为正整数。

举例说明，如图9所示，网络提供的目标音频段库中，与第四音频特征对应的第二音频集为目标文字信息“你”，目标语系信息为“汉语”的音频集。该第二音频集由至少一个第四子音频段组成的，例如：音频段1：MFCC特征为(1000/10,13),内容含义为“你”，所属的语系为“汉语，标准”；音频段2：MFCC特征为(2500/10,13),内容含义为“你”，所属的语系为“汉语，河南口音”；音频段3：MFCC特征为(2800/10,13),内容含义为“你”，所属的语系为“汉语，陕北口音”；音频段4：MFCC特征为(1500/10,13),内容含义为“你”，所属的语系为“汉语，河北口音”；音频段m：MFCC特征为(1800/10,13),内容含义为“你”，所属的语系为“汉语，山西口音”等组成的音频集。

步骤103c2、电子设备从M个第四子音频段中，确定出与预定语种相匹配的第五子音频段。

本申请实施例中，第五子音频段为N个第二子音频段中与第二音频集对应的第二子音频段。

可选地，本申请实施例中，上述预定语种具体可以为“汉语，标准”。

举例说明，结合图9，从图9所示的第二音频集中确定出语种为“汉语，标准”的第五子音频段(如，音频段1：MFCC特征为(1000/10,13),内容含义为“你”，所属的语系为“汉语，标准”)。

如此可知，由于电子设备从第二音频集的第三子音频段中，确定出与目标语系信息相匹配的M个第四子音频段，并从M个第四子音频段中，确定出与预定语种相匹配的第五子音频段。因此，提高了电子设备得到第一音频集的准确性。

本申请实施例提供的音频处理方法，执行主体可以为音频处理装置。本申请实施例中以音频处理装置执行音频处理的方法为例，说明本申请实施例提供的音频处理装置。

图10示出了上述实施例中所涉及的一种音频处理装置的一种可能的结构示意图。如图10所示，本申请实施例提供的音频处理的装置60包括：确定模块61、获取模块62以及生成模块63。其中，确定模块61，用于根据获取的第一音频，确定N个第一子音频段，每个第一子音频段分别对应该第一音频的一个文字信息，N为正整数。获取模块62，用于分别获取确定模块确定的N个第一子音频段的N个第一音频特征，该N个第一音频特征和该N个第一子音频段一一对应。确定模块，还用于根据获取模块获取的N个第一音频特征，分别确定N个第二子音频段，该N个第二子音频段和该N个第一音频特征一一对应，每个第二子音频段是根据对应的第一音频特征确定的。生成模块63，用于根据确定模块确定的N个第二子音频段，生成第二音频。其中，每个第二子音频段对应的文字信息，分别与一个第一子音频段对应的文字信息相匹配。

在一种可能的实现方式中，上述确定模块具体用于分别确定与N个第一音频特征相似度最大的N个第二音频特征，该N个第二音频特征与该N个第一音频特征一一对应，并根据N个第二音频特征，分别确定N个目标音频集，该N个目标音频集与该N个第二音频特征一一对应，一个目标音频集包括至少一个第三子音频段，以及从N个目标音频集的第三子音频段中，分别确定N个第二子音频段，该N个第二子音频段与该N个目标音频集一一对应。

在一种可能的实现方式中，上述确定模块还具体用于采用Q个第一对应关系，确定与第三音频特征对应的目标文字信息，并从至少一个预存子音频段中，确定出与该目标文字信息相匹配的至少一个第三子音频段，得到第一音频集。

其中，每个第一对应关系为一个音频特征与一个文字信息间的对应关系，第三音频特征为N个第二音频特征中的任一个音频特征，第一音频集为N个目标音频集中与第三音频特征对应的目标音频集，Q为正整数。

在一种可能的实现方式中，上述确定模块，还用于采用T个第二对应关系，确定与第四音频特征对应的目标语系信息，每个第二对应关系为一个音频特征与一个语系信息间的对应关系，该第四音频特征为N个第二音频特征中的任一个音频特征。确定模块，还具体用于从第二音频集的第三子音频段中，确定出与目标语系信息相匹配的M个第四子音频段，M为正整数，并从M个第四子音频段中，确定出与预定语种相匹配的第五子音频段。其中，第二音频集为N个目标音频集中与第四音频特征对应的目标音频集，第五子音频段为N个第二子音频段中与第二音频集对应的第二子音频段。

在一种可能的实现方式中，上述获取模块包括：确定子模块和计算子模块。

其中，确定子模块，用于根据第六子音频段，确定连续的X个音频帧，该X个音频帧中相邻的音频帧在时域上至少部分重叠，并根据该X个音频帧，确定目标功率谱，以及基于确定子模块确定的目标功率谱，得到至少一个对数能量。计算子模块，用于根据确定子模块得到的至少一个对数能量，计算得到第六子音频段的第一音频特征。其中，第六子音频段为N个第一子音频段中的任一个第一子音频段，X为正整数。

在一种可能的实现方式中，音频处理装置还包括：调整模块。其中，获取模块，还用于获取第一音频的目标音频参数。调整模块，用于根据获取模块获取的目标音频参数，调整第二音频的音频参数。

本申请实施例提供的音频处理装置，由于音频处理装置可以先确定第一音频的每个文字信息对应的第一子音频段，再根据每个第一子音频段的第一音频特征，获取与该每个第一子音频段对应的文字信息相匹配的第二子音频段，即与该每个第一子音频段对应的文字信息相匹配的清晰的子音频段，以生成清晰的第二音频，而无需用户在音频处理装置进行多次操作，以输入清晰的语音音频，因此，可以提高使用音频处理装置发送语音音频的便捷性。

本申请实施例中的音频处理装置装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。电子设备可以是终端，也可以为除终端之外的其他设备。示例性地，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(network attached storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频处理装置装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为iOS操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的音频处理装置装置能够实现图1至图9的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图11所示，本申请实施例还提供一种电子设备80，包括处理器81和存储器82，存储器82上存储有可在所述处理器81上运行的程序或指令，该程序或指令被处理器81执行时实现上述音频处理方法实施例的各个过程步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图12为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器110逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图12中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器110，用于根据获取的第一音频，确定N个第一子音频段，每个第一子音频段分别对应该第一音频的一个文字信息，N为正整数；分别获取该N个第一子音频段的N个第一音频特征，该N个第一音频特征和该N个第一子音频段一一对应；根据该N个第一音频特征，分别获取N个第二子音频段，该N个第二子音频段和该N个第一音频特征一一对应，每个第二子音频段是根据对应的第一音频特征确定的；根据该N个第二子音频段，生成第二音频；其中，每个第二子音频段对应的文字信息，分别与一个第一子音频段对应的文字信息相匹配。

本申请实施例提供的电子设备，由于电子设备可以先确定第一音频的每个文字信息对应的第一子音频段，再根据每个第一子音频段的第一音频特征，获取与该每个第一子音频段对应的文字信息相匹配的第二子音频段，即与该每个第一子音频段对应的文字信息相匹配的清晰的子音频段，以生成清晰的第二音频，而无需用户在电子设备进行多次操作，以输入清晰的语音音频，因此，可以提高使用电子设备发送语音音频的便捷性。

可选地，本申请实施例中，处理器110，具体用于分别确定与N个第一音频特征相似度最大的N个第二音频特征，该N个第二音频特征与该N个第一音频特征一一对应；根据N个第二音频特征，分别确定N个目标音频集，该N个目标音频集与该N个第二音频特征一一对应，一个目标音频集包括至少一个第三子音频段；从N个目标音频集的第三子音频段中，分别确定N个第二子音频段，该N个第二子音频段与N个目标音频集一一对应。

可选地，本申请实施例中，处理器110，具体用于采用Q个第一对应关系，确定与第三音频特征对应的目标文字信息；从至少一个预存子音频段中，确定出与目标文字信息相匹配的至少一个第三子音频段，得到第一音频集；其中，每个第一对应关系为一个音频特征与一个文字信息间的对应关系；第三音频特征为N个第二音频特征中的任一个音频特征；第一音频集为N个目标音频集中与第三音频特征对应的目标音频集；Q为正整数。

如此可知，由于电子设备采用Q个音频特征与一个文字信息间的对应关系，确定与N个第二音频特征中的任一个音频特征对应的目标文字信息，并从至少一个预存子音频段中，确定出与目标文字信息相匹配的至少一个第三子音频段，从而准确得到第一音频集，因此，提高了电子设备得到第一音频集的准确性。

可选地，本申请实施例中，处理器110，具体用于采用T个第二对应关系，确定与第四音频特征对应的目标语系信息，每个第二对应关系为一个音频特征与一个语系信息间的对应关系，该第四音频特征为N个第二音频特征中的任一个音频特征；从第二音频集的第三子音频段中，确定出与目标语系信息相匹配的M个第四子音频段，M为正整数；从M个第四子音频段中，确定出与预定语种相匹配的第五子音频段；其中，第二音频集为N个目标音频集中与第四音频特征对应的目标音频集；第五子音频段为N个第二子音频段中与第二音频集对应的第二子音频段。

可选地，本申请实施例中，处理器110，具体用于根据第六子音频段，确定连续的X个音频帧，该X个音频帧中相邻的音频帧在时域上至少部分重叠；根据X个音频帧，确定目标功率谱；基于目标功率谱，得到至少一个对数能量；根据至少一个对数能量，计算得到第六子音频段的第一音频特征；其中，第六子音频段为N个第一子音频段中的任一个第一子音频段；X为正整数。

可选地，本申请实施例中，处理器110，具体用于获取第一音频的目标音频参数；根据目标音频参数，调整第二音频的音频参数。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(graphicsprocessing unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作***、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选地，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作***、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

根据获取的第一音频，确定N个第一子音频段，每个第一子音频段分别对应所述第一音频的一个文字信息，N为正整数；

分别获取所述N个第一子音频段的N个第一音频特征，所述N个第一音频特征和所述N个第一子音频段一一对应；

根据所述N个第一音频特征，分别确定N个第二子音频段，所述N个第二子音频段和所述N个第一音频特征一一对应，每个第二子音频段是根据对应的第一音频特征确定的；

根据所述N个第二子音频段，生成第二音频；

其中，每个第二子音频段对应的文字信息，分别与一个第一子音频段对应的文字信息相匹配。

2.根据权利要求1所述的方法，其特征在于，所述根据所述N个第一音频特征，分别确定N个第二子音频段，包括：

分别确定与所述N个第一音频特征相似度最大的N个第二音频特征，所述N个第二音频特征与所述N个第一音频特征一一对应；

根据所述N个第二音频特征，分别确定N个目标音频集，所述N个目标音频集与所述N个第二音频特征一一对应，一个目标音频集包括至少一个第三子音频段；

从所述N个目标音频集的第三子音频段中，分别确定N个第二子音频段，所述N个第二子音频段与所述N个目标音频集一一对应。

3.根据权利要求2所述的方法，其特征在于，所述根据所述N个第二音频特征，分别确定N个目标音频集，包括：

采用Q个第一对应关系，确定与第三音频特征对应的目标文字信息；

从至少一个预存子音频段中，确定出与所述目标文字信息相匹配的至少一个第三子音频段，得到第一音频集；

其中，每个第一对应关系为一个音频特征与一个文字信息间的对应关系；所述第三音频特征为所述N个第二音频特征中的任一个音频特征；所述第一音频集为所述N个目标音频集中与所述第三音频特征对应的目标音频集；Q为正整数。

4.根据权利要求2所述的方法，其特征在于，在所述从所述N个目标音频集的第三子音频段中，分别确定N个第二子音频段之前，所述方法包括：

采用T个第二对应关系，确定与第四音频特征对应的目标语系信息，每个第二对应关系为一个音频特征与一个语系信息间的对应关系，所述第四音频特征为所述N个第二音频特征中的任一个音频特征；

所述从所述N个目标音频集的第三子音频段中，分别确定N个第二子音频段，包括：

从第二音频集的第三子音频段中，确定出与所述目标语系信息相匹配的M个第四子音频段，M为正整数；

从所述M个第四子音频段中，确定出与预定语种相匹配的第五子音频段；

其中，所述第二音频集为所述N个目标音频集中与所述第四音频特征对应的目标音频集；所述第五子音频段为所述N个第二子音频段中与所述第二音频集对应的第二子音频段。

5.根据权利要求1所述的方法，其特征在于，所述分别获取所述N个第一子音频段的N个第一音频特征，包括：

根据第六子音频段，确定连续的X个音频帧，所述X个音频帧中相邻的音频帧在时域上至少部分重叠；

根据所述X个音频帧，确定目标功率谱；

基于所述目标功率谱，得到至少一个对数能量；

根据所述至少一个对数能量，计算得到所述第六子音频段的第一音频特征；

其中，所述第六子音频段为所述N个第一子音频段中的任一个第一子音频段；X为正整数。

6.根据权利要求1所述的方法，其特征在于，在所述根据所述N个第二子音频段，生成第二音频之后，所述方法还包括：

获取所述第一音频的目标音频参数；

根据所述目标音频参数，调整所述第二音频的音频参数。

7.一种音频处理装置，其特征在于，所述音频处理装置包括：确定模块、获取模块以及生成模块。

所述确定模块，用于根据获取的第一音频，确定N个第一子音频段，每个第一子音频段分别对应所述第一音频的一个文字信息，N为正整数；

所述获取模块，用于分别获取所述确定模块确定的所述N个第一子音频段的N个第一音频特征，所述N个第一音频特征和所述N个第一子音频段一一对应；

所述确定模块，还用于根据所述获取模块获取的N个第一音频特征，分别确定N个第二子音频段，所述N个第二子音频段和所述N个第一音频特征一一对应，每个第二子音频段是根据对应的第一音频特征确定的；

所述生成模块，用于根据所述确定模块确定的所述N个第二子音频段，生成第二音频；

8.根据权利要求7所述的音频处理装置，其特征在于，所述确定模块具体用于分别确定与所述N个第一音频特征相似度最大的N个第二音频特征，所述N个第二音频特征与所述N个第一音频特征一一对应；并根据所述N个第二音频特征，分别确定N个目标音频集，所述N个目标音频集与所述N个第二音频特征一一对应，一个目标音频集包括至少一个第三子音频段；以及从所述N个目标音频集的第三子音频段中，分别确定N个第二子音频段，所述N个第二子音频段与所述N个目标音频集一一对应。

9.根据权利要求8所述的音频处理装置，其特征在于，所述确定模块具体用于采用Q个第一对应关系，确定与第三音频特征对应的目标文字信息；并从至少一个预存子音频段中，确定出与所述目标文字信息相匹配的至少一个第三子音频段，得到第一音频集；

10.根据权利要求8所述的音频处理装置，其特征在于，

所述确定模块，还用于采用T个第二对应关系，确定与第四音频特征对应的目标语系信息，每个第二对应关系为一个音频特征与一个语系信息间的对应关系，所述第四音频特征为所述N个第二音频特征中的任一个音频特征；

所述确定模块，还具体用于从第二音频集的第三子音频段中，确定出与所述目标语系信息相匹配的M个第四子音频段，M为正整数；并从所述M个第四子音频段中，确定出与预定语种相匹配的第五子音频段；

11.根据权利要求7所述的音频处理装置，其特征在于，所述获取模块包括：确定子模块和计算子模块；

所述确定子模块，用于根据第六子音频段，确定连续的X个音频帧，所述X个音频帧中相邻的音频帧在时域上至少部分重叠；并根据所述X个音频帧，确定目标功率谱；以及，基于所述确定子模块确定的目标功率谱，得到至少一个对数能量；

所述计算子模块，用于根据所述确定子模块得到的至少一个对数能量，计算得到所述第六子音频段的第一音频特征；

12.根据权利要求7所述的音频处理装置，其特征在于，所述音频处理装置还包括：调整模块；

所述获取模块，还用于获取所述第一音频的目标音频参数；

所述调整模块，用于根据所述获取模块获取的目标音频参数，调整所述第二音频的音频参数。

13.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至中6任一项所述的音频处理方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的音频处理方法的步骤。