CN113035228A

CN113035228A - 声学特征提取方法、装置、设备及存储介质

Info

Publication number: CN113035228A
Application number: CN202110310466.1A
Authority: CN
Inventors: 孙洪文; 陈传艺; 劳振锋; 关迪聆
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-06-25

Abstract

本申请公开了一种声学特征提取方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：对目标音频片段进行分帧处理，得到多个音频帧；提取各个音频帧分别对应的音高和音素，得到目标音频片段的音高序列信息、音素序列信息和音素位置信息；对音高序列信息、音素序列信息和音素位置信息进行合成处理，得到目标音频片段的合成属性信息；对合成属性信息进行编解码处理，得到目标音频片段的声学特征。本申请在进行声学特征提取时，除了考虑音素、音高这类基本特征，还考虑了音素位置信息，使得最终提取得到的声学特征更具准确性。

Description

声学特征提取方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种声学特征提取方法、装置、设备及存储介质。

背景技术

声学特征是指表示语音声学特性的物理量，也是声音诸要素声学表现的统称。如表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。

在相关技术中，提供了基于深度学习模型从音频片段中提取声学特征的方案，但已有方案所提取的声学特征的效果不佳，无法准确全面地反映音频的相关特性。

发明内容

本申请实施例提供了一种声学特征提取方法、装置、设备及存储介质。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种声学特征提取方法，所述方法包括：

对目标音频片段进行分帧处理，得到多个音频帧；

提取各个所述音频帧分别对应的音高和音素，得到所述目标音频片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括各个所述音频帧对应的音高，所述音素序列信息包括各个所述音频帧对应的音素，所述音素位置信息包括各个所述音频帧对应的音素在所述目标音频片段中的位置编码；

对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述目标音频片段的合成属性信息；

对所述合成属性信息进行编解码处理，得到所述目标音频片段的声学特征。

根据本申请实施例的一个方面，提供了一种声学特征提取模型的训练方法，所述方法包括：

获取训练样本，所述训练样本包括样本音频片段以及所述样本音频片段对应的目标声学特征；

提取所述样本音频片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括所述样本音频片段中的各个音频帧对应的音高，所述音素序列信息包括各个所述音频帧对应的音素，所述音素位置信息包括各个所述音频帧对应的音素在所述样本音频片段中的位置编码；

对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述样本音频片段的合成属性信息；

通过所述声学特征提取模型对所述合成属性信息进行编解码处理，得到所述样本音频片段的预测声学特征；

基于所述预测声学特征和所述目标声学特征，计算所述声学特征提取模型的损失函数值；

基于所述损失函数值对所述声学特征提取模型的参数进行调整。

根据本申请实施例的一个方面，提供了一种声学特征提取装置，所述装置包括：

分帧处理模块，用于对目标音频片段进行分帧处理，得到多个音频帧；

属性提取模块，用于提取各个所述音频帧分别对应的音高和音素，得到所述目标音频片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括各个所述音频帧对应的音高，所述音素序列信息包括各个所述音频帧对应的音素，所述音素位置信息包括各个所述音频帧对应的音素在所述目标音频片段中的位置编码；

属性合成模块，用于对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述目标音频片段的合成属性信息；

特征提取模块，用于对所述合成属性信息进行编解码处理，得到所述目标音频片段的声学特征。

根据本申请实施例的一个方面，提供了一种声学特征提取模型的训练装置，所述装置包括：

样本获取模块，用于获取训练样本，所述训练样本包括样本音频片段以及所述样本音频片段对应的目标声学特征；

属性提取模块，用于提取所述样本音频片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括所述样本音频片段中的各个音频帧对应的音高，所述音素序列信息包括各个所述音频帧对应的音素，所述音素位置信息包括各个所述音频帧对应的音素在所述样本音频片段中的位置编码；

属性合成模块，用于对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述样本音频片段的合成属性信息；

特征提取模块，用于通过所述声学特征提取模型对所述合成属性信息进行编解码处理，得到所述样本音频片段的预测声学特征；

损失计算模块，用于基于所述预测声学特征和所述目标声学特征，计算所述声学特征提取模型的损失函数值；

参数调整模块，用于基于所述损失函数值对所述声学特征提取模型的参数进行调整。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述声学特征提取方法，或者上述声学特征提取模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述声学特征提取方法，或者上述声学特征提取模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述声学特征提取方法，或者上述声学特征提取模型的训练方法。

本申请实施例提供的技术方案至少包括如下有益效果：

通过获取目标音频片段的音高序列信息、音素序列信息和音素位置信息，然后对基于上述各项信息进行合成处理后得到的合成属性信息进行编解码处理，得到目标音频片段的声学特征，在进行声学特征提取时，除了考虑音素、音高这类基本特征，还考虑了音素位置信息，使得最终提取得到的声学特征更具准确性。

附图说明

图1是本申请一个实施例提供的方案实施环境的示意图；

图2是本申请一个实施例提供的声学特征提取方法的流程图；

图3是本申请另一个实施例提供的声学特征提取方法的流程图；

图4是本申请一个实施例提供的声学特征提取方法的架构图；

图5是本申请一个实施例提供的声学特征提取模型的训练方法的流程图；

图6是本申请一个实施例提供的声学特征提取装置的框图；

图7是本申请一个实施例提供的声学特征提取模型的训练装置的框图；

图8是本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备10和模型使用设备20。

模型训练设备10可以是诸如电脑、服务器等计算机设备，用于对声学特征提取模型进行训练。在本申请实施例中，声学特征提取模型是用于从音频片段中提取声学特征的神经网络模型，模型训练设备10可以采用机器学习的方式对该声学特征提取模型进行训练，以使得其具备较好的声学特征提取性能。

训练完成的声学特征提取模型可部署在模型使用设备20中使用。模型使用设备20可以是诸如手机、平板电脑、PC(Personal Computer，个人计算机)、智能电视、多媒体播放设备等终端设备，也可以是服务器。在需要提取目标音频片段的声学特征时，模型使用设备20可以通过声学特征提取模型提取该目标音频片段的声学特征。

从音频片段中提取的声学特征可以在多种场景中使用。例如，在语音识别场景下，通过从目标音频片段中提取声学特征，将该声学特征与一些预设用户的声学特征进行匹配，可以确定出该目标音频片段的发音用户。又例如，在歌声合成场景下，通过从目标音频片段中提取声学特征，然后采用声码器基于该声学特征合成出相应的歌曲演唱音频，从而实现虚拟歌手等产品功能。当然，上述两个应用场景仅是示例性和解释性的，声学特征还可在其他多种场景下应用，本申请对此不作限定。

请参考图2，其示出了本申请一个实施例提供的声学特征提取方法的流程图。该方法各步骤的执行主体可以是诸如手机、平板电脑、PC等终端设备，也可以是服务器。该方法可以包括如下几个步骤(210～240)：

步骤210，对目标音频片段进行分帧处理，得到多个音频帧。

目标音频片段可以是某一个发音者说出一句/一段话的音频片段，也可以是某一个发音者演唱一句歌词/一首歌的音频片段。

可选地，在时域上对目标音频片段进行分帧处理，每一个音频帧为设定时长(比如10ms)。在一个示例中，假设目标音频片段的时长为5s，按照每帧10ms对其进行分帧处理，可以得到500个音频帧。

步骤220，提取各个音频帧分别对应的音高和音素，得到目标音频片段的音高序列信息、音素序列信息和音素位置信息。

音高序列信息包括各个音频帧对应的音高。音高是声音的一种基本特征，即音的高度。声音的本质是机械波，所以音的高低是由机械波的频率决定的，声速一定时，和波长也有关系。频率高、波长短，则音“高”；反之，频率低、波长长，则音“低”。

音素序列信息包括各个音频帧对应的音素。音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

延续上述举例，假设目标音频片段被划分为500个音频帧，分别提取每个音频帧对应的音高和音素。需要说明的是，一个音频帧对应于一个音高，以及一个音素。500个音频帧能够得到500个音高，这500个音高按照音频帧的顺序排列，构成音高序列信息。类似地，500个音频帧能够得到500个音素，这500个音素按照音频帧的顺序排列，构成音素序列信息。在本申请实施例中，对音高和音素的提取方式，不作具体限定。

音素位置信息包括各个音频帧对应的音素在目标音频片段中的位置编码。位置编码是位置的表示信息，以实现对位置的数值化表达。对于同一个音素来讲，其在不同的音频帧中的声学特征可能也会有所不同，会受到上下文信息的影响，因此本申请在声学特征提取时，除了考虑音素本身(也即上述音素序列信息)之外，还考虑了音素位置信息，以使得最终提取得到的声学特征更具准确性。

示例性地，通过如下方式获取音素位置信息：

1、对于每一个音频帧，获取该音频帧在相同音素连续帧序列中的位置信息，相同音素连续帧序列是指与该音频帧具有相同音素且连续的多个音频帧所形成的序列；

例如，目标音频片段的前50个音频帧对应的音素相同，均为音素1；第51～70个音频帧对应的音素相同，均为音素2。那么对于目标音频片段的第1个音频帧而言，其对应的相同音素连续帧序列即为第1～50帧，该第1个音频帧的位置信息即为该第1个音频帧在第1～50帧中的位置信息，如在第1～50帧这一组相同音素连续帧序列中的第1帧位置。对于目标音频片段的第5个音频帧而言，其对应的相同音素连续帧序列也是第1～50帧，该第5个音频帧的位置信息即为该第5个音频帧在第1～50帧中的位置信息，如在第1～50帧这一组相同音素连续帧序列中的第5帧位置。再例如，对于目标音频片段的第52个音频帧而言，其对应的相同音素连续帧序列是第51～70帧，该第52个音频帧的位置信息即为该第52个音频帧在第51～70帧中的位置信息，如在第51～70帧这一组相同音素连续帧序列中的第2帧位置。

2、基于位置信息，生成音频帧对应的音素的位置编码；

在得到音频帧在相同音素连续帧序列中的位置信息之后，对该位置信息进行数值编码处理，得到该音频帧对应的音素的位置编码。

可选地，基于位置信息和相同音素连续帧序列中包含的音频帧数量，确定位置编码的元参数；基于该元参数生成音频帧对应的音素的位置编码，该位置编码是一个包括多个元素的向量。

例如，音频帧对应的音素的位置编码为：[f1(x),f2(x),f3(x)]；其中，

f1(x)＝x

f2(x)＝0.5-abs(0.5-x)

f3(x)＝1-x

其中，x为位置编码的元参数，用于表示音频帧在相同音素连续帧序列中的位置信息，abs()表示取绝对值。示例性地，x＝n/N，n表示音频帧在相同音素连续帧序列中的位置，N表示相同音素连续帧序列中包含的音频帧数量。

继续以上述例子说明，对于目标音频片段的第1个音频帧而言，其位置编码的元参数x＝1/50＝0.02，该第1个音频帧对应的音素的位置编码为[0.02,0.02,0.98]。对于目标音频片段的第5个音频帧而言，其位置编码的元参数x＝5/50＝0.10，该第5个音频帧对应的音素的位置编码为[0.10,0.10,0.90]。对于目标音频片段的第52个音频帧而言，其位置编码的元参数x＝2/20＝0.10，该第52个音频帧对应的音素的位置编码为[0.10,0.10,0.90]。

上述示例中，音频帧对应的音素的位置编码是一个3维向量，在一些其他实施例中，位置编码也可以是一个2维、4维或者其他维数的向量，或者也可以是一个一维数值(如一个取值在0～1之间的数值)。在实际应用中，可以通过实验等手段，选择位置编码的合适表征方式，以尽可能地提升声学特征的提取效果，包括效率、准确度等多方面因素的平衡。

另外，通过实验发现，使用连续值来表示位置编码，相比于采用诸如嵌入向量(embedding)这样的离散表达方式，能够更好地学习发音(特别是歌声中长音的发音)，使得发音更加自然。另外，采用3维向量作为位置编码，能够使得特征学习地更加充分，比一维连续值获得更快的收敛速度。

3、合并各个音频帧对应的音素的位置编码，得到音素位置信息。

在得到各个音频帧对应的音素的位置编码之后，对其进行简单的拼接合并处理，即可得到音素位置信息。

步骤230，对音高序列信息、音素序列信息和音素位置信息进行合成处理，得到目标音频片段的合成属性信息。

合成处理是指将上述多个方面信息进行整合，得到包含上述多个方面信息的合成属性信息。

在示例性实施例中，本步骤包括如下几个子步骤：

1、获取各个音频帧对应的音高的嵌入向量，得到第一嵌入向量序列；

在一个示例中，将音高序列信息中的各个音高转换为嵌入向量后得到第一嵌入向量序列，然后将该第一嵌入向量序列与其他信息进行合成。

可选地，对各个音频帧对应的音高分别进行数值转换处理，得到各个音频帧对应的转换后音高值；对各个音频帧对应的转换后音高值分别进行取整处理，得到各个音频帧对应的取整值；基于各个音频帧对应的取整值，确定各个音频帧对应的音高的嵌入向量；合并各个音频帧对应的音高的嵌入向量，得到第一嵌入向量序列。

可选地，上述数值转换处理可以是将原始的音高值转换至log域，得到转换后音高值。然后，对该转换后音高值进行取整处理，此处的取整处理可以是向上取整、向下取整或者四舍五入取整等方式，本申请对此不作限定。之后，基于取整值查询第一嵌入向量查询表得到相应的嵌入向量。第一嵌入向量查询表是用于提供音高的嵌入向量的表格，其包括了若干组数值(如1、2、3等整数值)与嵌入向量之间的对应关系。对于某一个音频帧来说，假设通过上述方式对该音频帧对应的音高进行数值转换处理和取整处理之后，得到的取整值为5，那么就从第一嵌入向量查询表中查询得到5对应的嵌入向量，作为该音频帧对应的音高的嵌入向量。以此类推，得到各个音频帧对应的音高的嵌入向量之后，进行合并，得到第一嵌入向量序列。

示例性地，上述将原始的音高值转换至log域可采用如下公式：

f0_log＝64×log₂(x/80)

其中，x代表音频帧对应的音高(也即原始的音高值)，f0_log代表转换后音高值。

由于原始的音高值的取值范围通常在80～1100(单位：赫兹Hz)之间，如果直接基于该原始的音高值查表获取相应的嵌入向量的话，需要预先得到大量的音高值与嵌入向量之间的对应关系来构建查询表，且临近音高值之间在声学特征上区别度不大，没必要映射到不同的嵌入向量。在本申请实施例中，通过对原始的音高值进行数值转换处理和取整处理，然后查表得到相应的嵌入向量，一方面可以充分降低查询表中所需包含的嵌入向量的数量，这有助于提升嵌入向量的查询效率且降低存储需求，另一方面能够将临近音高值映射到相同的嵌入向量，更加符合声学特征的特点，使得音准更加稳定。

另外，在本申请实施例中，通过基于音频中提取的实际音高值来作为声学特征提取的输入信息，相比于采用音符来表示音高，能够获得更加细粒度的音高信息，有助于提升最终合成得到的声学特征的稳定性和音质。另外，通过实验也验证发现，音高采用嵌入向量的形式作为输入，而不是直接采用连续值的形式作为输入，能够获得更加清晰的音频。

2、获取各个音频帧对应的音素的嵌入向量，得到第二嵌入向量序列；

在一个示例中，将音素序列信息中的各个音素转换为嵌入向量后得到第二嵌入向量序列，然后将该第二嵌入向量序列与其他信息进行合成。

可选地，获取各个音频帧对应的音素的标识信息；基于各个音频帧对应的音素的标识信息，确定各个音频帧对应的音素的嵌入向量；合并各个音频帧对应的音素的嵌入向量，得到第二嵌入向量序列。

在得到音素的标识信息之后，可以查询第二嵌入向量查询表得到相应的嵌入向量。第二嵌入向量查询表是用于提供音素的嵌入向量的表格，其包括了若干组标识信息(如1、2、3等数值)与嵌入向量之间的对应关系。对于某一个音频帧来说，假设该音频帧对应的音素的标识信息为7，那么就从第二嵌入向量查询表中查询得到7对应的嵌入向量，作为该音频帧对应的音素的嵌入向量。以此类推，得到各个音频帧对应的音素的嵌入向量之后，进行合并，得到第二嵌入向量序列。

需要说明的是，上文介绍的第一嵌入向量查询表和第二嵌入向量查询表是两个不同的表格，第一嵌入向量查询表用于提供音高对应的嵌入向量，第二嵌入向量查询表用于提供音素对应的嵌入向量。并且，本申请对上述生成第一嵌入向量序列和第二嵌入向量序列这两个步骤的执行先后顺序不作限定，两者可以依次先后执行，也可以同步执行。

3、对音素位置信息进行线性变换处理，得到处理后的音素位置信息；

可选地，通过对音素位置信息进行线性变换处理，将低维特征转换为高维特征，得到处理后的音素位置信息。上述线性变换处理可以通过一个或多个全连接层实现，本申请对此不作限定。

4、对第一嵌入向量序列、第二嵌入向量序列和处理后的音素位置信息进行合成处理，得到合成属性信息。

最后，通过将第一嵌入向量序列、第二嵌入向量序列和处理后的音素位置信息进行简单的拼接合成处理，得到合成属性信息。

可选地，合成属性信息还包括目标音频片段的发音者标识对应的嵌入向量。以目标音频片段为歌曲片段为例，那么其发音者标识即为歌手标识。在示例性实施例中，构建第三嵌入向量查询表，该第三嵌入向量查询表中包括多组发音者标识与嵌入向量之间的对应关系，从该第三嵌入向量查询表中可以查询获取目标音频片段的发音者标识对应的嵌入向量。之后，将目标音频片段的发音者标识对应的嵌入向量、第一嵌入向量序列、第二嵌入向量序列和处理后的音素位置信息进行合成处理，得到合成属性信息。

可选地，第二嵌入向量序列并不直接参与合成，而是经过转换后再与其他信息进行合成得到合成属性信息。可选地，采用音素特征转换网络对第二嵌入向量序列进行转换处理，得到转换后的第二嵌入向量序列；其中，音素特征转换网络用于在对第二嵌入向量序列进行转换处理的过程中，去除发音者信息。该转换后的第二嵌入向量序列用于生成合成属性信息。音素特征转换网络可以是一个卷积神经网络，在对该音素特征转换网络进行训练时，通过GRL(Gradient Reversal Layer，梯度反向层)以最大化目标函数为目标，使得音素特征转换网络无法有效分辨出不同发音者信息，从而达到去除发音者信息的目的。

通过上述方式，将第二嵌入向量序列中的发音者信息去除，由发音者标识提供准确的发音者信息，使得最终合成得到的合成属性信息中包括准确的发音者信息，这有助于提升最终获得的声学特征的准确性。

需要说明的是，在本申请中，对上述生成第一嵌入向量序列、生成第二嵌入向量序列以及生成处理后的音素位置信息这几个步骤的执行先后顺序不作限定，可以依次先后执行，也可以同步执行。例如，可以按序依次执行上述步骤1、2、3和4；也可以按序依次执行上述步骤3、1、2和4；还可以同步执行1、2和3，最后执行步骤4；也可以同步执行1和2，再执行步骤3，最后执行步骤4，等等。总之，各步骤之间的执行先后顺序，本领域技术人员可以结合实际情况和需求进行合理设定，本申请对此不作限定。

步骤240，对合成属性信息进行编解码处理，得到目标音频片段的声学特征。

本步骤中的编解码处理可以由预先训练好的声学特征提取模型来执行。声学特征提取模型是用于提取声学特征的机器学习模型，其可以是编解码结构的神经网络模型，如包括编码网络和解码网络。采用编码网络对合成属性信息进行编码处理得到编码特征向量，然后采用解码网络对编码特征向量进行解码处理，得到声学特征。

可选地，声学特征可以是梅尔谱图，也可以是其他形式表示，本申请不作限定。

综上所述，本申请实施例提供的技术方案，通过获取目标音频片段的音高序列信息、音素序列信息和音素位置信息，然后对基于上述各项信息进行合成处理后得到的合成属性信息进行编解码处理，得到目标音频片段的声学特征，在进行声学特征提取时，除了考虑音素、音高这类基本特征，还考虑了音素位置信息，使得最终提取得到的声学特征更具准确性。

另外，音素的位置编码采用连续值来表示，相比于采用诸如嵌入向量这样的离散表达方式，能够更好地学习发音(特别是歌声中长音的发音)。另外，采用多维向量作为位置编码，能够使得特征学习地更加充分，比一维连续值获得更快的收敛速度。

另外，通过对原始的音高值进行数值转换处理和取整处理，然后查表得到相应的嵌入向量，一方面可以充分降低查询表中所需包含的嵌入向量的数量，这有助于提升嵌入向量的查询效率且降低存储需求，另一方面能够将临近音高值映射到相同的嵌入向量，更加符合声学特征的特点，使得音准更加稳定。

另外，还通过将第二嵌入向量序列中的发音者信息去除，由发音者标识提供准确的发音者信息，使得最终合成得到的合成属性信息中包括准确的发音者信息，这有助于提升最终获得的声学特征的准确性。

下面，结合图3，对采用声学特征提取模型(该模型包括编码网络和解码网络)对目标音频片段的合成属性信息进行编解码处理，得到目标音频片段的声学特征的方法流程进行介绍说明。如图3所示，该过程可以包括如下几个步骤(310～340)：

步骤310，采用编码网络对合成属性信息进行编码处理，得到编码特征向量。

有关获取目标音频片段的合成属性信息的具体过程，请参见上文实施例中的介绍说明，此处不再赘述。

由于合成属性信息中包含的是一些序列信息，RNN(Recurrent Neural Network，循环神经网络)对于序列信息具有较好的特征提取能力，能够学习到序列信息的上下文信息。因此，编码网络可以采用RNN来实现。

在一个示例中，编码网络包括LSTM(Long Short-Term Memory，长短期记忆)网络和CNN(Convolutional Neural Network，卷积神经网络)。例如，编码网络可以由2层双向LSTM网络和3层CNN网络按序级联构成。由于LSTM网络相比于普通的RNN能够学习长的依赖关系，且双向LSTM能够有效学习到上下文信息，因此采用双向LSTM网络对合成属性信息进行编码处理，能够充分考虑长短期的上下文信息，使得最终提取的声学特征更具连贯性。

步骤320，对编码特征向量进行下采样处理，得到下采样后的编码特征向量。

下采样处理用于降低编码特征向量的维度，从而减少后续解码处理时所需的计算量，提升解码效率。下采样处理可以采用CNN来实现，本申请对此不作限定。需要说明的是，在一些实施例中，该下采样处理是非必要的，也可以直接将编码特征向量送入下述特征重组处理的步骤，或者直接送入解码处理的步骤。

步骤330，采用注意力机制对下采样后的编码特征向量进行特征重组处理，得到重组后的编码特征向量。

为了进一步提升声学特征提取性能，专注于从一些重要特征中提取信息，本申请在编码网络和解码网络之间引入注意力机制，通过采用注意力机制对下采样后的编码特征向量进行特征重组处理，得到重组后的编码特征向量。

可选地，采用基于GMM(Gaussian Mixed Model，高斯混合模型)的注意力机制对下采样后的编码特征向量进行特征重组处理。采用GMM在对特征进行重组处理时，需要计算特征的方差和均值，通常采用的方式是使用神经网络进行预估得到上述方差和均值，在本实施例中，均值参数由已知的时间信息(如特征所对应的音频帧的时间戳)来确定，既能够保证声学特征合成时的稳定性，又能保留注意力机制的灵活性，提升合成质量。

步骤340，采用解码网络对重组后的编码特征向量进行解码处理，得到目标音频片段的声学特征。

解码网络同样采用RNN结构，如采用LSTM网络构建解码网络。采用递归结构的神经网络生成声学特征，能够充分考虑序列信息的上下文信息，提升声学特征提取的准确性。

在一些实施例中，解码网络得到的目标音频片段的声学特征即为最终提取得到的声学特征。该声学特征可以结合实际应用的需求，进行相应的后处理。例如，在语音识别场景下，通过从目标音频片段中提取声学特征，将该声学特征与一些预设用户的声学特征进行匹配，可以确定出该目标音频片段的发音用户。又例如，在歌声合成场景下，通过从目标音频片段中提取声学特征，然后采用声码器基于该声学特征合成出相应的歌曲演唱音频，从而实现虚拟歌手等产品功能。

在一些实施例中，为了进一步提升声学特征的准确性，如图3所示，步骤340之后还可以包括如下步骤350～360：

步骤350，采用残差预估网络对解码网络得到的目标音频片段的声学特征进行残差预估处理，得到残差信息。

步骤360，基于残差信息对目标音频片段的声学特征进行修正，得到修正后的声学特征。

残差预估网络可以是一个预训练好的卷积神经网络，残差预估网络用于确定解码网络输出的声学特征与真实声学特征之间的残差信息。通过基于残差预估网络输出的残差信息对解码网络输出的声学特征进行修正，能够得到更加接近真实的声学特征。在本申请中，对卷积神经网络的卷积层数量不作限定，如可以是5层或者其他数量，这都可以结合实际情况进行设置和调整。

在一个示例中，将残差信息与解码网络得到的目标音频片段的声学特征进行相加处理，得到修正后的声学特征。

结合图4，对本申请提供的声学特征提取方法进行介绍说明。提取音频片段的发音者标识、音高序列信息、音素序列信息和音素位置信息之后，发音者标识、音高序列信息和音素序列信息分别转化为嵌入向量，音素位置信息经过线性变换处理，然后合成得到合成属性信息输入至编码网络。可选地，音素序列信息对应的嵌入向量序列会经过音素特征转换网络去除发音者信息之后，再与其他信息进行合成。编码网络对合成属性信息进行编码处理，得到编码特征向量。然后对编码特征向量进行下采样处理，得到下采样后的编码特征向量。编码特征向量经过基于GMM的注意力机制进行特征重组处理，得到重组后的编码特征向量。最后，采用解码网络对重组后的编码特征向量进行解码处理，得到音频片段的声学特征。可选地，为了进一步提升声学特征的准确性，可以采用残差预估网络对解码网络得到的声学特征进行残差预估处理，得到残差信息，然后基于该残差信息对解码网络得到的声学特征进行修正，得到修正后的声学特征，该修正后的声学特征作为最终的输出结果。在本申请中，编码网络和解码网络都可以采用LSTM网络进行构建，以充分考虑序列信息的上下文信息，提升声学特征提取的准确性。

综上所述，本申请实施例提供的技术方案，通过采用声学特征提取模型对目标音频片段的合成属性信息进行编解码处理，得到目标音频片段的声学特征，提供了一种基于深度学习模型从音频片段中提取声学特征的方案。由于合成属性信息中包括了音高序列信息、音素序列信息和音素位置信息等多方面的信息，因此采用声学特征提取模型基于该合成属性信息进行声学特征提取，能够使得最终提取得到的声学特征更具准确性。

另外，声学特征提取模型的编码网络和解码网络之间引入注意力机制，专注于从一些重要特征中提取信息，进一步提升声学特征的提取性能。

另外，通过对编码特征向量进行下采样处理，能够减少后续解码处理时所需的计算量，提升解码效率。

另外，还通过残差预估网络确定解码网络输出的声学特征与真实声学特征之间的残差信息，基于该残差预估网络输出的残差信息对解码网络输出的声学特征进行修正，能够得到更加接近真实的声学特征。

下面，通过实施例对声学特征提取模型的训练流程进行介绍说明，有关该声学特征提取模型使用过程中涉及的内容和训练过程中涉及的内容是相互对应的，两者互通，如在一侧未作详细说明的地方，可以参考另一侧的描述说明。

请参考图5，其示出了本申请一个实施例提供的声学特征提取模型的训练方法的流程图。该方法各步骤的执行主体可以是电脑、服务器等计算机设备。该方法可以包括如下几个步骤(510～560)：

步骤510，获取训练样本，该训练样本包括样本音频片段以及样本音频片段对应的目标声学特征。

训练样本的数量通常为多个。每一个训练样本包括一个样本音频片段以及该样本音频片段对应的目标声学特征。目标声学特征作为模型的标签信息，用于指导模型的训练。

步骤520，提取样本音频片段的音高序列信息、音素序列信息和音素位置信息。

其中，音高序列信息包括样本音频片段中的各个音频帧对应的音高，音素序列信息包括各个音频帧对应的音素，音素位置信息包括各个音频帧对应的音素在样本音频片段中的位置编码。

同样地，可以对样本音频片段进行分帧处理，得到多个音频帧，然后提取各个音频帧分别对应的音高和音素，得到样本音频片段的音高序列信息、音素序列信息和音素位置信息。

步骤530，对音高序列信息、音素序列信息和音素位置信息进行合成处理，得到样本音频片段的合成属性信息。

有关样本音频片段的合成属性信息的生成方式，与上文介绍的目标音频片段的合成属性信息的生成方式相同，具体可参见上文实施例中的介绍说明，此处不再赘述。

步骤540，通过声学特征提取模型对合成属性信息进行编解码处理，得到样本音频片段的预测声学特征。

声学特征提取模型可以参见上文图3和图4实施例中的介绍说明。该声学特征提取模型可以包括编码网络和解码网络。可选地，采用编码网络对样本音频片段的合成属性信息进行编码处理，得到编码特征向量；对编码特征向量进行下采样处理，得到下采样后的编码特征向量；采用注意力机制对下采样后的编码特征向量进行特征重组处理，得到重组后的编码特征向量；采用解码网络对所述重组后的编码特征向量进行解码处理，得到样本音频片段的预测声学特征。在本实施例中，将声学特征提取模型输出的声学特征称作预测声学特征，以和目标声学特征进行区分。

步骤550，基于预测声学特征和目标声学特征，计算声学特征提取模型的损失函数值。

步骤560，基于损失函数值对声学特征提取模型的参数进行调整。

模型的损失函数用于衡量预测声学特征和目标声学特征之间的差异。可选地，以最小化该损失函数值为优化目标，通过对声学特征提取模型(包括编码网络和解码网络)的参数进行调整，以尽可能地减小该损失函数值，在损失函数值符合预设条件(如小于某一门限值)时，完成模型训练。

可选地，如果声学特征提取模型还包括残差预估网络，则可以采用残差预估网络对解码网络得到的预测声学特征进行残差预估处理得到残差信息，然后基于该残差信息对预测声学特征进行修正，得到修正后的预测声学特征，后续基于修正后的预测声学特征和目标声学特征，计算声学特征提取模型的损失函数值。在此情况下，还可以基于损失函数值对残差预估网络的参数进行调整。当然，在一些其他实施例中，残差预估网络也可以是一个预训练好的模型，即在声学特征提取模型的训练过程中，不需要对该残差预估网络的参数进行优化调整，仅需优化调整编码网络和解码网络的参数即可。

综上所述，本申请实施例提供的技术方案，通过训练声学特征提取模型，提供了一种基于声学特征提取模型从音频片段中提取声学特征的方案。由于合成属性信息中包括了音高序列信息、音素序列信息和音素位置信息等多方面的信息，因此采用声学特征提取模型基于该合成属性信息进行声学特征提取，能够使得最终提取得到的声学特征更具准确性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图6，其示出了本申请一个实施例提供的声学特征提取装置的框图。该装置具有实现上述声学特征提取方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置600可以包括：分帧处理模块610、属性提取模块620、属性合成模块630和特征提取模块640。

分帧处理模块610，用于对目标音频片段进行分帧处理，得到多个音频帧；

属性提取模块620，用于提取各个所述音频帧分别对应的音高和音素，得到所述目标音频片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括各个所述音频帧对应的音高，所述音素序列信息包括各个所述音频帧对应的音素，所述音素位置信息包括各个所述音频帧对应的音素在所述目标音频片段中的位置编码；

属性合成模块630，用于对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述目标音频片段的合成属性信息；

特征提取模块640，用于对所述合成属性信息进行编解码处理，得到所述目标音频片段的声学特征。

在示例性实施例中，所述属性合成模块630，用于：

获取各个所述音频帧对应的音高的嵌入向量，得到第一嵌入向量序列；

获取各个所述音频帧对应的音素的嵌入向量，得到第二嵌入向量序列；

对所述音素位置信息进行线性变换处理，得到处理后的音素位置信息；

对所述第一嵌入向量序列、所述第二嵌入向量序列和所述处理后的音素位置信息进行合成处理，得到所述合成属性信息。

在示例性实施例中，所述属性合成模块630，用于：

对各个所述音频帧对应的音高分别进行数值转换处理，得到各个所述音频帧对应的转换后音高值；

对各个所述音频帧对应的转换后音高值分别进行取整处理，得到各个所述音频帧对应的取整值；

基于各个所述音频帧对应的取整值，确定各个所述音频帧对应的音高的嵌入向量；

合并各个所述音频帧对应的音高的嵌入向量，得到所述第一嵌入向量序列。

在示例性实施例中，所述合成属性信息还包括所述目标音频片段的发音者标识对应的嵌入向量；

所述属性合成模块630，还用于采用音素特征转换网络对所述第二嵌入向量序列进行转换处理，得到转换后的第二嵌入向量序列；其中，所述音素特征转换网络用于在对所述第二嵌入向量序列进行转换处理的过程中，去除发音者信息；

其中，所述转换后的第二嵌入向量序列用于生成所述合成属性信息。

在示例性实施例中，所述属性提取模块620，用于：

对于每一个所述音频帧，获取所述音频帧在相同音素连续帧序列中的位置信息，所述相同音素连续帧序列是指与所述音频帧具有相同音素且连续的多个音频帧所形成的序列；

基于所述位置信息，生成所述音频帧对应的音素的位置编码；

合并各个所述音频帧对应的音素的位置编码，得到所述音素位置信息。

在示例性实施例中，所述属性提取模块620，用于：

基于所述位置信息和所述相同音素连续帧序列中包含的音频帧数量，确定所述位置编码的元参数；

基于所述元参数生成所述音频帧对应的音素的位置编码，所述位置编码是一个包括多个元素的向量。

在示例性实施例中，所述编解码处理由声学特征提取模型执行，所述声学特征提取模型包括编码网络和解码网络；

所述特征提取模块640，用于：

采用所述编码网络对所述合成属性信息进行编码处理，得到编码特征向量；

对所述编码特征向量进行下采样处理，得到下采样后的编码特征向量；

采用注意力机制对所述下采样后的编码特征向量进行特征重组处理，得到重组后的编码特征向量；

采用所述解码网络对所述重组后的编码特征向量进行解码处理，得到所述目标音频片段的声学特征。

在示例性实施例中，所述特征提取模块640，还用于：

采用残差预估网络对所述解码网络得到的所述目标音频片段的声学特征进行残差预估处理，得到残差信息；

基于所述残差信息对所述目标音频片段的声学特征进行修正，得到修正后的声学特征。

请参考图7，其示出了本申请一个实施例提供的声学特征提取模型的训练装置的框图。该装置具有实现上述声学特征提取模型的训练方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置700可以包括：样本获取模块710、属性提取模块720、属性合成模块730、特征提取模块740、损失计算模块750和参数调整模块760。

样本获取模块710，用于获取训练样本，所述训练样本包括样本音频片段以及所述样本音频片段对应的目标声学特征。

属性提取模块720，用于提取所述样本音频片段的音高序列信息、音素序列信息和音素位置信息；其中，所述音高序列信息包括所述样本音频片段中的各个音频帧对应的音高，所述音素序列信息包括各个所述音频帧对应的音素，所述音素位置信息包括各个所述音频帧对应的音素在所述样本音频片段中的位置编码。

属性合成模块730，用于对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述样本音频片段的合成属性信息。

特征提取模块740，用于通过所述声学特征提取模型对所述合成属性信息进行编解码处理，得到所述样本音频片段的预测声学特征。

损失计算模块750，用于基于所述预测声学特征和所述目标声学特征，计算所述声学特征提取模型的损失函数值。

参数调整模块760，用于基于所述损失函数值对所述声学特征提取模型的参数进行调整。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图8，其示出了本申请一个实施例提供的计算机设备的结构示意图。该计算机设备可以是任何具备数据计算、处理和存储功能的电子设备，如手机、平板电脑、PC(Personal Computer，个人计算机)或服务器等。该计算机设备用于实施上述实施例中提供的声学特征提取方法或声学特征提取模型的训练方法。具体来讲：

该计算机设备800包括中央处理单元(如CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)和FPGA(Field Programmable GateArray，现场可编程逻辑门阵列)等)801、包括RAM(Random-Access Memory，随机存储器)802和ROM(Read-Only Memory，只读存储器)803的***存储器804，以及连接***存储器804和中央处理单元801的***总线805。该计算机设备800还包括帮助服务器内的各个器件之间传输信息的基本输入/输出***(Input Output System，I/O***)806，和用于存储操作***813、应用程序814和其他程序模块815的大容量存储设备807。

该基本输入/输出***806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中，该显示器808和输入设备809都通过连接到***总线805的输入输出控制器810连接到中央处理单元801。该基本输入/输出***806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

该大容量存储设备807通过连接到***总线805的大容量存储控制器(未示出)连接到中央处理单元801。该大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说，该大容量存储设备807可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦写可编程只读存储器)、闪存或其他固态存储技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的***存储器804和大容量存储设备807可以统称为存储器。

根据本申请实施例，该计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在该***总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机***(未示出)。

所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述声学特征提取方法或声学特征提取模型的训练方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序在被计算机设备的处理器执行时实现上述声学特征提取方法或声学特征提取模型的训练方法。

可选地，该计算机可读存储介质可以包括：ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存储器)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory，电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行上述声学特征提取方法或声学特征提取模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种声学特征提取方法，其特征在于，所述方法包括：

对目标音频片段进行分帧处理，得到多个音频帧；

2.根据权利要求1所述的方法，其特征在于，所述对所述音高序列信息、所述音素序列信息和所述音素位置信息进行合成处理，得到所述目标音频片段的合成属性信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取各个所述音频帧对应的音高的嵌入向量，得到第一嵌入向量序列，包括：

4.根据权利要求2所述的方法，其特征在于，所述合成属性信息还包括所述目标音频片段的发音者标识对应的嵌入向量；

所述获取各个所述音频帧对应的音素的嵌入向量，得到第二嵌入向量序列之后，所述方法还包括：

采用音素特征转换网络对所述第二嵌入向量序列进行转换处理，得到转换后的第二嵌入向量序列；其中，所述音素特征转换网络用于在对所述第二嵌入向量序列进行转换处理的过程中，去除发音者信息；

5.根据权利要求1所述的方法，其特征在于，所述得到音素位置信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述位置信息，生成所述音频帧对应的音素的位置编码，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述编解码处理由声学特征提取模型执行，所述声学特征提取模型包括编码网络和解码网络；

所述对所述合成属性信息进行编解码处理，得到所述目标音频片段的声学特征，包括：

8.根据权利要求7所述的方法，其特征在于，所述采用所述解码网络对所述重组后的编码特征向量进行解码处理，得到所述目标音频片段的声学特征之后，还包括：

9.一种声学特征提取模型的训练方法，其特征在于，所述方法包括：

10.一种声学特征提取装置，其特征在于，所述装置包括：

11.一种声学特征提取模型的训练装置，其特征在于，所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的声学特征提取方法，或者实现如权利要求9所述的声学特征提取模型的训练方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至8任一项所述的声学特征提取方法，或者实现如权利要求9所述的声学特征提取模型的训练方法。