CN110148424B

CN110148424B - 语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN110148424B
Application number: CN201910381777.XA
Authority: CN
Inventors: 方轲; 郑文; 宋丛礼
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2021-05-25
Anticipated expiration: 2039-05-08
Also published as: CN110148424A

Abstract

本公开提供了一种语音处理方法、装置和电子设备及存储介质，所述方法包括：获取第一语音数据对应的第一语音频谱图，第二语音数据对应的第二语音频谱图，以及待处理语音频谱图；通过预设的二维卷积神经网络模型，获取该第一语音频谱图的第一内容特征矩阵，该第二语音频谱图的第一风格特征矩阵，以及该待处理语音频谱图对应的第二内容特征矩阵和第二风格特征矩阵；根据该第一内容特征矩阵和该第二内容特征矩阵获取重构损失函数；根据该第一风格特征矩阵和该第二风格特征矩阵获取风格损失函数；根据该重构损失函数和该风格损失函数对该待处理语音频谱图进行处理得到目标语音频谱图，并通过预设语音重建算法获取该目标语音频谱图对应的语音数据。

Description

语音处理方法、装置、电子设备及存储介质

技术领域

本公开涉及信息处理技术领域，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

由于不同用户的声音风格(即音色等)存在差异，通常可以将某一语音内容转换为不同语音风格进行播放，从而使得语音效果多样化。

相关技术中，考虑到语音为一段连续的波形，使得可以从波形中进行采样得到一维离散序列的语音信号，并将语音信号输入至一维网络模型中得到一维的语音特征矩阵。可见，现有技术中提取的语音特征为一维特征，由于图像特征和语音特征存在差异，图像风格迁移方法采用一维的语音特征使得语音风格迁移的结果较差。

发明内容

为克服相关技术中存在的问题，本公开提供一种语音处理方法、装置、电子设备及存储介质，以解决现有技术中采用图像风格迁移方法进行语音风格迁移导致的语音风格迁移结果较差的问题。

根据本公开实施例的第一方面，提供一种语音处理方法，所述方法包括：

获取第一语音数据对应的第一语音频谱图，第二语音数据对应的第二语音频谱图，以及待处理语音频谱图；所述第一语音数据为用于提取语音内容的数据；所述第二语音数据为用于提取语音风格的数据；

通过预设的二维卷积神经网络模型，获取所述第一语音频谱图的第一内容特征矩阵，所述第二语音频谱图的第一风格特征矩阵，以及所述待处理语音频谱图对应的第二内容特征矩阵和第二风格特征矩阵；

根据所述第一内容特征矩阵和所述第二内容特征矩阵获取重构损失函数；

根据所述第一风格特征矩阵和所述第二风格特征矩阵获取风格损失函数；

根据所述重构损失函数和所述风格损失函数对所述待处理语音频谱图进行处理得到目标语音频谱图，并通过预设语音重建算法获取所述目标语音频谱图对应的语音数据。

可选的，所述获取第一语音数据对应的第一语音频谱图，第二语音数据对应的第二语音频谱图，包括：

对所述第一语音数据和所述第二语音数据分别进行瞬时傅里叶变换，得到对应的所述第一语音频谱图和所述第二语音频谱图。

可选的，所述通过预设的二维卷积神经网络模型，获取所述第二语音频谱图的第一风格特征矩阵，包括：

通过所述二维卷积神经网络模型，获取所述第二语音频谱图对应的第三内容特征矩阵；

将所述第三内容特征矩阵沿着时间轴展开得到第一内容特征转换矩阵；所述第三内容特征矩阵的维度表示为(n_C1，n_H1，n_W1)，所述第一内容特征转换矩阵的维度表示为(n_C1×n_H1，n_W1)，n_C1表示所述第三内容特征矩阵对应的通道数数轴，n_H1表示所述第三内容特征矩阵对应的频率数轴，n_W1表示所述第三内容特征矩阵对应的时间数轴；n_c1×n_H1表示所述第三内容特征矩阵对应的通道数数轴以及所述第三内容特征矩阵对应的频率数轴进行堆叠展开后生成的数轴；

将所述第一内容特征转换矩阵进行转置处理得到第一内容特征转置矩阵，并计算所述第一内容特征转换矩阵和所述第一内容特征转置矩阵之间的乘积，得到所述第一风格特征矩阵。

可选的，所述通过预设的二维卷积神经网络模型，获取所述待处理语音频谱图的第二风格特征矩阵，包括：

将所述第二内容特征矩阵沿着时间轴展开得到第二内容特征转换矩阵；所述第二内容特征矩阵的维度表示为(n_C2,n_H2,n_W2)，所述第二内容特征转换矩阵的维度表示为(n_C2×n_H2，n_W2)，n_C2表示所述第二内容特征矩阵对应的通道数数轴，n_H2表示所述第二内容特征矩阵对应的频率数轴，n_W2表示所述第二内容特征矩阵对应的时间数轴，n_C2×n_H2表示所述第二内容特征矩阵对应的通道数数轴以及所述第二内容特征矩阵对应的频率数轴进行堆叠展开后生成的数轴；

将所述第二内容特征转换矩阵进行转置处理得到第二内容特征转置矩阵，并计算所述第二内容特征转换矩阵和所述第二内容特征转置矩阵之间的乘积，得到所述第二风格特征矩阵。

可选的，所述根据所述第一风格特征矩阵和所述第二风格特征矩阵获取风格损失函数，包括：

通过以下公式计算所述风格损失函数：

或者，

其中，loss表示风格损失函数，s_ij表示第一风格特征矩阵中的(i，j)位置对应的风格值,q_ij表示第二风格特征矩阵中(i，j)位置对应的风格值。

根据本公开实施例的第二方面，提供一种语音处理装置，所述装置包括：

频谱图获取模块，被配置为获取第一语音数据对应的第一语音频谱图，第二语音数据对应的第二语音频谱图，以及待处理语音频谱图；所述第一语音数据为用于提取语音内容的数据；所述第二语音数据为用于提取语音风格的数据；

特征矩阵获取模块，被配置为通过预设的二维卷积神经网络模型，获取所述第一语音频谱图的第一内容特征矩阵，所述第二语音频谱图的第一风格特征矩阵，以及所述待处理语音频谱图对应的第二内容特征矩阵和第二风格特征矩阵；

重构函数获取模块，被配置为根据所述第一内容特征矩阵和所述第二内容特征矩阵获取重构损失函数；

风格函数获取模块，被配置为根据所述第一风格特征矩阵和所述第二风格特征矩阵获取风格损失函数；

语音处理模块，被配置为根据所述重构损失函数和所述风格损失函数对所述待处理语音频谱图进行处理得到目标语音频谱图，并通过预设语音重建算法获取所述目标语音频谱图对应的语音数据。

可选的，所述频谱图获取模块，被配置为对所述第一语音数据和所述第二语音数据分别进行瞬时傅里叶变换，得到对应的所述第一语音频谱图和所述第二语音频谱图。

可选的，所述特征矩阵获取模块，被配置为通过所述二维卷积神经网络模型，获取所述第二语音频谱图对应的第三内容特征矩阵；

可选的，所述特征矩阵获取模块，被配置为将所述第二内容特征矩阵沿着时间轴展开得到第二内容特征转换矩阵；所述第二内容特征矩阵的维度表示为(n_C2,n_H2,n_W2)，所述第二内容特征转换矩阵的维度表示为(n_C2×n_H2，n_W2)，n_C2表示所述第二内容特征矩阵对应的通道数数轴，n_H2表示所述第二内容特征矩阵对应的频率数轴，n_W2表示所述第二内容特征矩阵对应的时间数轴，n_C2×n_H2表示所述第二内容特征矩阵对应的通道数数轴以及所述第二内容特征矩阵对应的频率数轴进行堆叠展开后生成的数轴；

可选的，所述风格函数获取模块，被配置为通过以下公式计算所述风格损失函数：

loss＝∑|s_ij-q_ij|，或者，loss＝∑(s_ij-q_ij)²

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述的语音处理方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述的语音处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行时，使得电子设备能够执行上述的语音处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本示例性实施例示出的语音处理方法，获取第一语音数据对应的第一语音频谱图，第二语音数据对应的第二语音频谱图，以及待处理语音频谱图；所述第一语音数据为用于提取语音内容的数据；所述第二语音数据为用于提取语音风格的数据；通过预设的二维卷积神经网络模型，获取所述第一语音频谱图的第一内容特征矩阵，所述第二语音频谱图的第一风格特征矩阵，以及所述待处理语音频谱图对应的第二内容特征矩阵和第二风格特征矩阵；根据所述第一内容特征矩阵和所述第二内容特征矩阵获取重构损失函数；根据所述第一风格特征矩阵和所述第二风格特征矩阵获取风格损失函数；根据所述重构损失函数和所述风格损失函数对所述待处理语音频谱图进行处理得到目标语音频谱图，并通过预设语音重建算法获取所述目标语音频谱图对应的语音数据。可见，本公开实施例提供的语音处理方法，由于图像风格迁移方法适用于图像，而语音数据为一维离散序列的语音信号，因此，为了可以将图像风格迁移方法应用于语音数据，本公开在将第一语音数据和第二语音数据输入至预设的二维卷积神经网络模型之前，需要将第一语音数据和第二语音数据分别转换为对应的第一语音频谱图和第二语音频谱图，以使得第一语音频谱图和第二语音频谱图符合图像风格迁移方法中的图像特征，从而提高了语音风格迁移结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语音处理方法的流程图；

图2是根据一示例性实施例示出的一种语音处理装置的框图；

图3是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音处理方法的流程图，如图1所示，所述方法可以包括以下步骤：

在步骤101中，获取第一语音数据对应的第一语音频谱图，第二语音数据对应的第二语音频谱图，以及待处理语音频谱图；所述第一语音数据为用于提取语音内容的数据；所述第二语音数据为用于提取语音风格的数据。

在本公开实施例中，该待处理语音频谱图可以为随机初始化后得到的频谱图，并且本公开后续步骤中需要对该待处理语音频谱图进行处理得到目标语音频谱图，以使得该目标语音频谱图中包括该第一语音频谱图中的语音内容，以及第二语音频谱图中的语音风格。

另外，由于现有技术中，提取语音内容的语音数据，提取语音风格的语音数据分别为一维离散序列的语音信号，并通过语音信号对待处理语音信号进行图像风格迁移，但是图像风格迁移方法通常为针对图像而言的，并且语音特征和图像特征之间存在差异，因此，通过图像风格迁移方法对语音信号进行语音风格迁移导致语音风格迁移结果较差。为了解决该问题，本公开可以对所述第一语音数据和所述第二语音数据分别进行瞬时傅里叶变换，得到对应的所述第一语音频谱图和所述第二语音频谱图。即对第一语音数据进行瞬时傅里叶变换得到第一语音频谱图；以及，对第二语音数据进行瞬时傅里叶变换得到第二语音频谱图。这样，通过将第一语音数据和第二语音数据分别转换为语音频谱图，使得第一语音频谱图和第二语音频谱图以及待处理语音频谱图符合图像风格迁移方法。

在步骤102中，通过预设的二维卷积神经网络模型，获取所述第一语音频谱图的第一内容特征矩阵，所述第二语音频谱图的第一风格特征矩阵，以及所述待处理语音频谱图对应的第二内容特征矩阵和第二风格特征矩阵。

在本公开实施例中，在该第一语音数据为用于提取语音内容的数据的情况下，该第一内容特征矩阵即为该第一语音频谱图中的频谱图内容(即语音内容)对应的矩阵，在该第二语音数据为用于提取语音风格的数据的情况下，该第一风格特征矩阵即为该第二语音频谱图中的频谱图风格(即语音风格)对应的矩阵。另外，该第二内容特征矩阵可以为待处理语音频谱图的频谱图内容(即语音内容)对应的矩阵，该第二风格特征矩阵可以为待处理语音频谱图的频谱图风格(即语音风格)对应的矩阵。

其中，由于单层的二维卷积神经网络模型可以达到较好的特征提取效果，因此本公开可以通过单层的二维卷积神经网络模型进行特征提取。进一步地，可以对单层的二维卷积神经网络模型设置多个通道(如32个通道或者64个通道等)，使得各个通道提取到的特征进行互补，以使得获取到的特征矩阵更加准确。本公开主要针对单层的二维卷积神经网络模型进行叙述，具体可以通过以下方式获取本公开中的各个特征矩阵：

由于该第一内容特征矩阵为该第一语音频谱图中的频谱图内容对应的矩阵，因此，可以将第一语音频谱图输入至该单层的二维卷积神经网络模型得到该第一内容特征矩阵。其中，若单层的二维卷积神经网络模型设置有多个通道，则本公开可以获取到每一通道对应的第一内容特征矩阵，在本公开实施例中，该多个通道可以为相同的通道(即二维卷积神经网络模型使用的滤波器都相同)，当然，该多个通道也可以为不相同通道(即二维卷积神经网络模型使用的滤波器不同)，即各个通道分别不相同，或者多个通道中的至少两个通道不相同，本公开对此不作限定。

由于第一风格特征矩阵为该第二语音频谱图中的频谱图风格对应的矩阵，因此，可以通过单层的二维卷积神经网络模型，获取所述第二语音频谱图对应的第三内容特征矩阵。这样，考虑到现有技术中获取图像风格的风格特征矩阵时，图像中各个轴的坐标的含义相同(即均为像素点坐标)，此时，将图像中的任一像素点的不同坐标进行对换即改变图像中的像素点位置，但是对于语音频谱图，每一像素点的不同坐标的含义是不相同的，如某一像素点的一个坐标为频率轴，该某一像素点的另一个坐标为时间轴，此时，将不同坐标进行对换即频率和时间都发生了变化，为了解决该问题，本公开考虑到语音风格随着时间的变化不会发生变化。因此，可以首先将所述第三内容特征矩阵沿着时间轴展开得到第一内容特征转换矩阵；所述第三内容特征矩阵的维度表示为(n_C1，n_H1，n_W1)，所述第一内容特征转换矩阵的维度表示为(n_C1×n_H1，n_W1)，n_C1表示所述第三内容特征矩阵对应的通道数数轴，n_H1表示所述第三内容特征矩阵对应的频率数轴，n_W1表示所述第三内容特征矩阵对应的时间数轴；n_c1×n_H1表示所述第三内容特征矩阵对应的通道数数轴以及所述第三内容特征矩阵对应的频率数轴进行堆叠展开后生成的数轴；然后将所述第一内容特征转换矩阵进行转置处理得到第一内容特征转置矩阵，并计算所述第一内容特征转换矩阵和所述第一内容特征转置矩阵之间的乘积，得到所述第一风格特征矩阵。

由于第二内容特征矩阵为待处理语音频谱图的频谱图内容对应的矩阵，该第二风格特征矩阵为待处理语音频谱图的频谱图风格对应的矩阵，因此，可以将待处理语音频谱图输入至该单层的二维卷积神经网络模型得到该第二内容特征矩阵，并同样由于语音风格随着时间的变化不会发生变化，这样，将所述第二内容特征矩阵沿着时间轴展开得到第二内容特征转换矩阵；所述第二内容特征矩阵的维度表示为(n_C2,n_H2,n_W2)，所述第二内容特征转换矩阵的维度表示为(n_C2×n_H2，n_W2)，n_C2表示所述第二内容特征矩阵对应的通道数数轴，n_H2表示所述第二内容特征矩阵对应的频率数轴，n_W2表示所述第二内容特征矩阵对应的时间数轴，n_C2×n_H2表示所述第二内容特征矩阵对应的通道数数轴以及所述第二内容特征矩阵对应的频率数轴进行堆叠展开后生成的数轴；将所述第二内容特征转换矩阵进行转置处理得到第二内容特征转置矩阵，并计算所述第二内容特征转换矩阵和所述第二内容特征转置矩阵之间的乘积，得到所述第二风格特征矩阵。其中，若单层的二维卷积神经网络设置多个通道，则可以获取到每一通道对应的第二内容特征矩阵。

需要说明的是，本公开中也可以通过多层的二维卷积神经网络模型进行特征提取以获取本公开中的各个特征矩阵。具体地，在图像处理领域中，对于多层的二维卷积神经网络模型，通常低层网络的卷积结果可以较好地反映图像内容，以及通过每层网络的卷积结果可以获取到图像风格。这样，由于该第一内容特征矩阵为该第一语音频谱图中的频谱图内容对应的矩阵，因此，在将第一语音频谱图输入至多层的二维卷积神经网络模型中后，将该多层的二维卷积神经网络模型中的指定低层网络层的输出结果作为第一内容特征矩阵；由于第一风格特征矩阵为该第二语音频谱图中的频谱图风格对应的矩阵，因此，将第二语音频谱图输入至多层的二维卷积神经网络模型以便获取到每层卷积网络对应的第一初始内容特征矩阵，并根据每层卷积网络对应的第一初始内容特征矩阵获取到每层卷积网络对应的第一风格特征矩阵，具体过程可以参考通过单层的卷积神经网络模型获取第一风格特征矩阵，不再赘述；由于第二内容特征矩阵为待处理语音频谱图的频谱图内容对应的矩阵，该第二风格特征矩阵为待处理语音频谱图的频谱图风格对应的矩阵，因此，在将待处理语音频谱图输入至多层的二维卷积神经网络模型中后，将该多层的二维卷积神经网络模型中的指定低层网络层的输出结果作为该第二内容特征矩阵，以及将该多层的二维卷积神经网络模型中的每层卷积网络的输出结果作为该每层卷积网络的第二初始内容特征矩阵，并根据每层卷积网络对应的第二初始内容特征矩阵获取到每层卷积网络的第二风格特征矩阵，具体过程可以参考通过单层的卷积神经网络模型获取第一风格特征矩阵，不再赘述。示例地，以多层的二维卷积神经网络模型包括VGG(Visual Geometry Group)网络模型为例进行说明，可以使用VGG网络模型中的第4.1层网络作为该指定低层网络层。上述示例只是举例说明，本公开对此不作限定。

在步骤103中，根据所述第一内容特征矩阵和所述第二内容特征矩阵获取重构损失函数。

在本步骤中，由于该第一内容特征矩阵为提取有第一语音频谱图的语音内容的矩阵，该第二内容特征矩阵为提取有待处理语音频谱图的待处理语音内容的矩阵，可见，本公开需要使得该待处理语音频谱图中的待处理语音内容与该第一语音频谱图中的语音内容尽可能接近。

在一种可能的实现方式中，在该二维卷积神经网络模型为单层的卷积神经网络模型情况下，若该单层的卷积神经网络模型包括单个通道，则该重构损失函数可以表示为

L₁表示包括单个通道的单层的卷积神经网络模型对应的重构损失函数，F_n表示第一内容特征矩阵中的n位置对应的内容值，P_n表示第二内容特征矩阵中的n位置对应的内容值；若该单层的卷积神经网络模型包括多个通道，则该重构损失函数可以表示为

其中，L₂表示包括多个通道的单层的卷积神经网络模型对应的重构损失函数，F_m,n表示第m个通道对应的第一内容特征矩阵中的n位置对应的内容值；P_m,n表示第m个通道对应的第一内容特征矩阵中的n位置对应的内容值。在该二维卷积神经网络模型为多层的卷积神经网络模型情况下，该重构损失函数的获取方式为：获取每层网络的重构损失函数对应的重构加权值，并计算该每层网络对应的重构加权值的和值得到该多层的二维卷积神经网络模型的风格损失函数，上述示例只是举例说明，本公开对此不作限定。

在步骤104中，根据所述第一风格特征矩阵和所述第二风格特征矩阵获取风格损失函数。

在本公开实施例中，由于该第一风格特征矩阵为提取有第二语音频谱图的语音风格的矩阵，该第二风格特征矩阵为提取有待处理语音频谱图的待处理语音风格的矩阵，可见，本公开需要使得该待处理语音频谱图中的待处理语音风格与该第二语音频谱图中的语音风格尽可能接近。

在一种可能的实现方式中，在二维卷积神经网络模型为单层的二维卷积网络模型的情况下，可以通过以下公式计算所述风格损失函数：

或者，

其中，loss表示风格损失函数，s_ij表示第一风格特征矩阵中的(i，j)位置对应的风格值,q_ij表示第二风格特征矩阵中(i，j)位置对应的风格值。由于获取到的风格特征矩阵(即第一风格特征矩阵和/或第二特征矩阵)可能存在异常值，因此，可以根据需求确定使用的风格损失函数，如若对风格特征矩阵中的异常值不敏感，则可以采用

如若对风格特征矩阵中的异常值敏感，则可以采用

在二维卷积神经网络模型为多层的二维卷积神经网络模型的情况下，该风格损失函数的获取方式为：获取每层网络的风格损失函数对应的风格加权值，并计算该每层网络对应的风格加权值的和值得到该多层的二维卷积神经网络模型的风格损失函数。

在步骤105中，根据所述重构损失函数和所述风格损失函数对所述待处理语音频谱图进行处理得到目标语音频谱图，并通过预设语音重建算法获取所述目标语音频谱图对应的语音数据。

在本步骤中，可以根据重构损失函数和风格损失函数获取到总损失函数，该总损失函数为Y＝αloss+βL,α表示风格权重，β表示内容权重，L表示重构损失函数，loss表示风格损失函数。

通过上述总损失函数，本公开可以将风格权重和内容权重设置为固定值，从而可以不断调整风格损失函数中的第二风格特征矩阵和重构损失函数中的第二内容特征矩阵。在该总损失函数为最小值的情况下，对应的可以获取到调整后的第二风格特征矩阵和调整后的第二内容特征矩阵，并根据调整后的第二风格特征矩阵和调整后的第二内容特征矩阵获取到目标语音频谱图，这样，可以根据预设语音重建算法获取到该目标语音频谱图对应的语音数据，该预设语音重建算法可以Griffin-Lim算法、sp/si(Switching P Picture/Switching I Picture；切换预测帧/切换起始帧)帧技术算法或者WaveNet等音频解码算法，该语音数据即为包括第一语音数据中的语音内容和第二语音数据中的语音风格的数据。

采用上述方法，获取第一语音数据对应的第一语音频谱图，第二语音数据对应的第二语音频谱图，以及待处理语音频谱图；所述第一语音数据为用于提取语音内容的数据；所述第二语音数据为用于提取语音风格的数据；通过预设的二维卷积神经网络模型，获取所述第一语音频谱图的第一内容特征矩阵，所述第二语音频谱图的第一风格特征矩阵，以及所述待处理语音频谱图对应的第二内容特征矩阵和第二风格特征矩阵；根据所述第一内容特征矩阵和所述第二内容特征矩阵获取重构损失函数；根据所述第一风格特征矩阵和所述第二风格特征矩阵获取风格损失函数；根据所述重构损失函数和所述风格损失函数对所述待处理语音频谱图进行处理得到目标语音频谱图，并通过预设语音重建算法获取所述目标语音频谱图对应的语音数据。可见，本公开实施例提供的语音处理方法，由于图像风格迁移方法适用于图像，而语音数据为一维离散序列的语音信号，因此，为了可以将图像风格迁移方法应用于语音数据，本公开在将第一语音数据和第二语音数据输入至预设的二维卷积神经网络模型之前，需要将第一语音数据和第二语音数据分别转换为对应的第一语音频谱图和第二语音频谱图，以使得第一语音频谱图和第二语音频谱图符合图像风格迁移方法中的图像特征，从而提高了语音风格迁移结果的准确性。

图2是根据一示例性实施例示出的一种语音处理装置的框图。参照图2，该装置包括：频谱图获取模块201、特征矩阵获取模块202、重构函数获取模块203、风格函数获取模块204以及语音处理模块205，具体地，

频谱图获取模块201，被配置为获取第一语音数据对应的第一语音频谱图，第二语音数据对应的第二语音频谱图，以及待处理语音频谱图；所述第一语音数据为用于提取语音内容的数据；所述第二语音数据为用于提取语音风格的数据；

特征矩阵获取模块202，被配置为通过预设的二维卷积神经网络模型，获取所述第一语音频谱图的第一内容特征矩阵，所述第二语音频谱图的第一风格特征矩阵，以及所述待处理语音频谱图对应的第二内容特征矩阵和第二风格特征矩阵；

重构函数获取模块203，被配置为根据所述第一内容特征矩阵和所述第二内容特征矩阵获取重构损失函数；

风格函数获取模块204，被配置为根据所述第一风格特征矩阵和所述第二风格特征矩阵获取风格损失函数；

语音处理模块205，被配置为根据所述重构损失函数和所述风格损失函数对所述待处理语音频谱图进行处理得到目标语音频谱图，并通过预设语音重建算法获取所述目标语音频谱图对应的语音数据。

可选的，在另一实施例中，所述频谱图获取模块201，被配置为对所述第一语音数据和所述第二语音数据分别进行瞬时傅里叶变换，得到对应的所述第一语音频谱图和所述第二语音频谱图。

可选的，在另一实施例中，所述特征矩阵获取模块202，被配置为通过所述二维卷积神经网络模型，获取所述第二语音频谱图对应的第三内容特征矩阵；

可选的，在另一实施例中，所述特征矩阵获取模块202，被配置为将所述第二内容特征矩阵沿着时间轴展开得到第二内容特征转换矩阵；所述第二内容特征矩阵的维度表示为(n_C2,n_H2,n_W2)，所述第二内容特征转换矩阵的维度表示为(n_C2×n_H2，n_W2)，n_C2表示所述第二内容特征矩阵对应的通道数数轴，n_H2表示所述第二内容特征矩阵对应的频率数轴，n_W2表示所述第二内容特征矩阵对应的时间数轴，n_C2×n_H2表示所述第二内容特征矩阵对应的通道数数轴以及所述第二内容特征矩阵对应的频率数轴进行堆叠展开后生成的数轴；

被配置为将所述第二内容特征矩阵沿着时间轴展开得到第二内容特征转换矩阵；所述第二内容特征矩阵的维度表示为(n_C2,n_H2,n_W2)，所述第二内容特征转换矩阵的维度表示为(n_C2×n_H2，n_w2)，n_C2表示所述第二内容特征矩阵对应的通道数数轴，n_H2表示所述第二内容特征矩阵对应的频率数轴，n_W2表示所述第二内容特征矩阵对应的时间数轴，n_C2×n_H2表示所述第二内容特征矩阵对应的通道数数轴以及所述第二内容特征矩阵对应的频率数轴进行堆叠展开后生成的数轴；

可选的，在另一实施例中，所述风格函数获取模块204，被配置为通过以下公式计算所述风格损失函数：

或者，

采用上述装置，获取第一语音数据对应的第一语音频谱图，第二语音数据对应的第二语音频谱图，以及待处理语音频谱图；所述第一语音数据为用于提取语音内容的数据；所述第二语音数据为用于提取语音风格的数据；通过预设的二维卷积神经网络模型，获取所述第一语音频谱图的第一内容特征矩阵，所述第二语音频谱图的第一风格特征矩阵，以及所述待处理语音频谱图对应的第二内容特征矩阵和第二风格特征矩阵；根据所述第一内容特征矩阵和所述第二内容特征矩阵获取重构损失函数；根据所述第一风格特征矩阵和所述第二风格特征矩阵获取风格损失函数；根据所述重构损失函数和所述风格损失函数对所述待处理语音频谱图进行处理得到目标语音频谱图，并通过预设语音重建算法获取所述目标语音频谱图对应的语音数据。可见，本公开实施例提供的语音处理方法，由于图像风格迁移方法适用于图像，而语音数据为一维离散序列的语音信号，因此，为了可以将图像风格迁移方法应用于语音数据，本公开在将第一语音数据和第二语音数据输入至预设的二维卷积神经网络模型之前，需要将第一语音数据和第二语音数据分别转换为对应的第一语音频谱图和第二语音频谱图，以使得第一语音频谱图和第二语音频谱图符合图像风格迁移方法中的图像特征，从而提高了语音风格迁移结果的准确性。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种电子设备300的框图。电子设备可以为移动终端也可以为服务器，本公开实施例中以电子设备为移动终端为例进行说明。例如，电子设备300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，电子设备300可以包括以下一个或多个组件：处理组件302，存储器304，电源组件306，多媒体组件308，音频组件310，输入/输出(I/O)的接口312，传感器组件314，以及通信组件316。

处理组件302通常控制电子设备300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理组件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在电子设备300的操作。这些数据的示例包括用于在电子设备300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件306为电子设备300的各种组件提供电力。电源组件306可以包括电源管理***，一个或多个电源，及其他与为电子设备300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述电子设备300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当电子设备300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当电子设备300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口312为处理组件302和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为电子设备300提供各个方面的状态评估。例如，传感器组件314可以检测到电子设备300的打开/关闭状态，组件的相对定位，例如所述组件为电子设备300的显示器和小键盘，传感器组件314还可以检测电子设备300或电子设备300一个组件的位置改变，用户与电子设备300接触的存在或不存在，电子设备300方位或加速/减速和电子设备300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图谱传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于电子设备300和其他设备之间有线或无线方式的通信。电子设备300可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件316经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述图1中所示的语音处理方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器304，上述指令可由电子设备300的处理器320执行以完成上述图1中所示的语音处理方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当计算机程序产品中的指令由电子设备300的处理器320执行时，使得电子设备300执行上述图1中所示的语音处理方法。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

根据所述重构损失函数和所述风格损失函数对所述待处理语音频谱图进行处理得到目标语音频谱图，并通过预设语音重建算法获取所述目标语音频谱图对应的语音数据；

其中，所述通过预设的二维卷积神经网络模型，获取所述第二语音频谱图的第一风格特征矩阵，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一语音数据对应的第一语音频谱图，第二语音数据对应的第二语音频谱图，包括：

3.根据权利要求1所述的方法，其特征在于，所述通过预设的二维卷积神经网络模型，获取所述待处理语音频谱图的第二风格特征矩阵，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一风格特征矩阵和所述第二风格特征矩阵获取风格损失函数，包括：

通过以下公式计算所述风格损失函数：

或者，

5.一种语音处理装置，其特征在于，所述装置包括：

语音处理模块，被配置为根据所述重构损失函数和所述风格损失函数对所述待处理语音频谱图进行处理得到目标语音频谱图，并通过预设语音重建算法获取所述目标语音频谱图对应的语音数据；

其中，所述特征矩阵获取模块，被配置为通过所述二维卷积神经网络模型，获取所述第二语音频谱图对应的第三内容特征矩阵；

6.根据权利要求5所述的装置，其特征在于，所述频谱图获取模块，被配置为对所述第一语音数据和所述第二语音数据分别进行瞬时傅里叶变换，得到对应的所述第一语音频谱图和所述第二语音频谱图。

7.根据权利要求5所述的装置，其特征在于，所述特征矩阵获取模块，被配置为将所述第二内容特征矩阵沿着时间轴展开得到第二内容特征转换矩阵；所述第二内容特征矩阵的维度表示为(n_C2,n_H2,n_W2)，所述第二内容特征转换矩阵的维度表示为(n_C2×n_H2，n_W2)，n_C2表示所述第二内容特征矩阵对应的通道数数轴，n_H2表示所述第二内容特征矩阵对应的频率数轴，n_W2表示所述第二内容特征矩阵对应的时间数轴，n_C2×n_H2表示所述第二内容特征矩阵对应的通道数数轴以及所述第二内容特征矩阵对应的频率数轴进行堆叠展开后生成的数轴；

8.根据权利要求5所述的装置，其特征在于，所述风格函数获取模块，被配置为通过以下公式计算所述风格损失函数：

或者，

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至4中任一项所述的语音处理方法的步骤。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行权利要求1至4中任一项所述的语音处理方法的步骤。