CN111883106B

CN111883106B - 音频处理方法及装置

Info

Publication number: CN111883106B
Application number: CN202010733480.8A
Authority: CN
Inventors: 庄晓滨
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2024-04-19
Anticipated expiration: 2040-07-27
Also published as: CN111883106A

Abstract

本申请实施例公开了一种音频处理方法及装置，该方法包括：针对样本语音信号集合中每个样本语音信号，从样本语音信号中提取音素向量序列和目标频谱序列。将目标频谱序列输入初始音色提取模型，以得到音色特征向量。将根据音色特征向量和音素向量序列生成的联合特征向量序列输入初始序列转换模型，以得到预测频谱序列。根据目标频谱序列和预测频谱序列调整初始音色提取模型和初始序列转换模型。当基于调整后的初始音色提取模型和初始序列转换模型输出的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，将调整后的初始音色提取模型确定为目标音色提取模型。采用本申请实施例，提高音色提取模型的精度，适用性高。

Description

音频处理方法及装置

技术领域

本申请涉及音频信号处理领域，尤其涉及一种音频处理方法及装置。

背景技术

随着人工智能技术的发展，语音方面的智能应用也越来越多。在影视配音行业，可将原演员的音色特征加入到本地化电影配音中，让配音更原汁原味。在卡拉OK等数字化娱乐行业，可以在保留音色的同时修改音高信息，实现修音。在医疗领域里，声音转换技术可以提升声道受损的病人的声音的可懂性。在军事国防领域里，语音转换技术可以在通信中对说话人语音进行伪装。在日常生活中，手机语音助手、问答机器人、电子读书和虚拟歌姬等都和音色音高相关。现有技术中，通常都需要提供梅尔倒谱系数对应的音频所属的说话人标签才可以训练和建模，难以克服标签错误以及同一个人在不同时刻的音色差异带来为偏差问题，进而使训练得到的音色识别模型效果不佳。

发明内容

本申请实施例提供一种音频处理方法及装置，可提高音色提取模型的精度，适用性高。

第一方面，本申请实施例提供了一种音频处理方法，该方法包括：

获取样本语音信号集合，所述样本语音信号集合中包括至少一个样本语音信号；

针对每个样本语音信号，从所述样本语音信号中提取音素向量序列，以及从所述样本语音信号中提取目标频谱序列；

将所述目标频谱序列输入初始音色提取模型，以得到所述初始音色提取模型输出的音色特征向量；

根据所述音色特征向量和所述音素向量序列生成联合特征向量序列，将所述联合特征向量序列输入初始序列转换模型，以得到所述初始序列转换模型输出的预测频谱序列；

根据所述目标频谱序列和所述预测频谱序列调整所述初始音色提取模型和所述初始序列转换模型；

当基于调整后的初始音色提取模型和初始序列转换模型所输出的每个样本语音信号对应的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，将调整后的初始音色提取模型确定为目标音色提取模型，其中，所述目标音色提取模型用于提取待检测语音信号的音色特征向量。

结合第一方面，在一种可能的实施方式中，所述从所述样本语音信号中提取音素向量序列，包括：

对所述样本语音信号进行分帧加窗处理，以得到组成所述样本语音信号的至少一个分帧信号；

提取每个分帧信号中包括的文字信息，并确定构成所述文字信息的至少一个音素；

获取预设的音素向量查询表，从所述音素向量查询表中确定出每个音素对应的音素向量，其中，所述音素向量查询表中包括多个音素对应的多个音素向量，每一音素各自对应一个音素向量；

通过将各分帧信号对应的音素向量进行拼接，以得到所述样本语音信号对应的音素向量序列。

结合第一方面，在一种可能的实施方式中，所述目标频谱序列包括目标梅尔谱序列；所述从所述样本语音信号中提取目标频谱序列，包括：

获取每个分帧信号对应的线性频谱，将每个分帧信号对应的线性频谱输入梅尔滤波器组，以得到所述梅尔滤波器组输出的每个分帧信号对应的梅尔谱；

将各分帧信号对应的梅尔谱进行拼接，以得到所述样本语音信号对应的梅尔谱序列；

根据所述梅尔谱序列确定所述样本语音信号对应的目标梅尔谱序列。

结合第一方面，在一种可能的实施方式中，所述根据所述梅尔谱序列确定所述样本语音信号对应的目标梅尔谱序列，包括：

从所述梅尔谱序列中随机抽取连续的n个分帧信号所对应的梅尔谱作为目标梅尔谱序列，其中，n为正整数。

结合第一方面，在一种可能的实施方式中，所述根据所述音色特征向量和所述音素向量序列生成联合特征向量序列，包括：

将所述音色特征向量和所述音素向量序列进行拼接或求和，以生成联合特征向量序列。

结合第一方面，在一种可能的实施方式中，所述方法还包括：

获取待检测语音信号，从所述待检测语音信号中提取目标频谱序列；

将所述待检测语音信号的目标频谱序列输入目标音色提取模型，以得到所述目标音色提取模型输出的目标音色特征向量；

根据所述目标音色特征向量确定所述待检测语音信号所属的说话人。

结合第一方面，在一种可能的实施方式中，所述根据所述目标音色特征向量确定所述待检测语音信号所属的说话人，包括：

获取注册用户的音色特征向量集合，其中，一个注册用户对应一个音色特征向量；

确定所述目标音色特征向量与所述音色特征向量集合中各音色特征向量间的音色相似度，以得到多个音色相似度；

从所述多个音色相似度中确定出最大音色相似度对应的注册用户作为所述待检测语音信号所属的说话人。

第二方面，本申请实施例提供了一种音频处理装置，该装置包括：

样本语音获取模块，语音获取样本语音信号集合，所述样本语音信号集合中包括至少一个样本语音信号；

序列获取模块，用于针对每个样本语音信号，从所述样本语音信号中提取音素向量序列，以及从所述样本语音信号中提取目标频谱序列；

音色特征向量获取模块，用于将所述目标频谱序列输入初始音色提取模型，以得到所述初始音色提取模型输出的音色特征向量；

预测频谱序列获取模块，用于根据所述音色特征向量和所述音素向量序列生成联合特征向量序列，将所述联合特征向量序列输入初始序列转换模型，以得到所述初始序列转换模型输出的预测频谱序列；

模型调整模块，用于根据所述目标频谱序列和所述预测频谱序列调整所述初始音色提取模型和所述初始序列转换模型；

模型确定模块，用于当基于调整后的初始音色提取模型和初始序列转换模型所输出的每个样本语音信号对应的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，将调整后的初始音色提取模型确定为目标音色提取模型，其中，所述目标音色提取模型用于提取待检测语音信号的音色特征向量。

结合第二方面，在一种可能的实施方式中，上述序列获取模块包括音素向量序列提取单元，所述音色向量序列提取单元包括：

信号分帧子单元，用于对所述样本语音信号进行分帧加窗处理，以得到组成所述样本语音信号的至少一个分帧信号；

音素确定子单元，用于提取每个分帧信号中包括的文字信息，并确定构成所述文字信息的至少一个音素；

音素向量确定子单元，用于获取预设的音素向量查询表，从所述音素向量查询表中确定出每个音素对应的音素向量，其中，所述音素向量查询表中包括多个音素对应的多个音素向量，每一音素各自对应一个音素向量；

音素向量序列确定子单元，用于通过将各分帧信号对应的音素向量进行拼接，以得到所述样本语音信号对应的音素向量序列。

结合第二方面，在一种可能的实施方式中，所述目标频谱序列包括目标梅尔谱序列；上述序列获取模块包括目标频谱序列提取单元，所述目标频谱序列提取单元包括：

梅尔谱获取子单元，用于获取每个分帧信号对应的线性频谱，将每个分帧信号对应的线性频谱输入梅尔滤波器组，以得到所述梅尔滤波器组输出的每个分帧信号对应的梅尔谱；

梅尔谱序列获取子单元，用于将各分帧信号对应的梅尔谱进行拼接，以得到所述样本语音信号对应的梅尔谱序列；

目标梅尔谱序列确定子单元，用于根据所述梅尔谱序列确定所述样本语音信号对应的目标梅尔谱序列。

结合第二方面，在一种可能的实施方式中，上述目标梅尔谱序列确定子单元具体用于：

结合第二方面，在一种可能的实施方式中，上述预测频谱序列获取模块包括联合特征向量序列确定单元和预测频谱序列确定单元，所述联合特征向量序列确定单元用于：

结合第二方面，在一种可能的实施方式中，上述装置还包括：

待检测语音信号预处理模块，用于获取待检测语音信号，从所述待检测语音信号中提取目标频谱序列；

音色特征向量确定模块，用于将所述待检测语音信号的目标频谱序列输入目标音色提取模型，以得到所述目标音色提取模型输出的目标音色特征向量；

语音识别模块，用于根据所述目标音色特征向量确定所述待检测语音信号所属的说话人。

结合第二方面，在一种可能的实施方式中，上述语音识别模块包括：

向量集合获取单元，用于获取注册用户的音色特征向量集合，其中，一个注册用户对应一个音色特征向量；

音色相似度确定单元，用于确定所述目标音色特征向量与所述音色特征向量集合中各音色特征向量间的音色相似度，以得到多个音色相似度；

说话人确定单元，用于从所述多个音色相似度中确定出最大音色相似度对应的注册用户作为所述待检测语音信号所属的说话人。

第三方面，本申请实施例提供了一种终端设备，该终端设备包括处理器和存储器，该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用上述程序指令，执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

在本申请实施例中，通过获取样本语音信号集合，可得到样本语音信号集合中包括至少一个样本语音信号。其中，针对每个样本语音信号，可从样本语音信号中提取音素向量序列，以及从样本语音信号中提取目标频谱序列。通过将目标频谱序列输入初始音色提取模型，可得到初始音色提取模型输出的音色特征向量。根据音色特征向量和音素向量序列生成联合特征向量序列，将联合特征向量序列输入初始序列转换模型，可得到初始序列转换模型输出的预测频谱序列。根据目标频谱序列和预测频谱序列调整初始音色提取模型和初始序列转换模型。当基于调整后的初始音色提取模型和初始序列转换模型所输出的每个样本语音信号对应的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，将调整后的初始音色提取模型确定为目标音色提取模型。其中，目标音色提取模型用于提取待检测语音信号的音色特征向量。采用本申请实施例，可提高音色提取模型的精度，适用性高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频处理方法的一流程示意图；

图1a是本申请实施例提供的目标频谱序列的应用场景示意图；

图1b是本申请实施例提供的音色提取模型的结构示意图；

图2是本申请实施例提供的音频处理方法的另一流程示意图；

图3是本申请实施例提供的音频处理装置的一结构示意图；

图4是本申请实施例提供的音频处理装置的另一结构示意图；

图5是本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的音频处理方法，可广泛适用于能够进行音频信号处理的终端设备。其中，上述终端设备包括但不限于服务器、智能手机、平板电脑、笔记本电脑和台式计算机等，在此不做限制。为方便描述，下面将以终端设备为例进行说明。本申请实施例中的方法，获取样本语音信号集合，可得到样本语音信号集合中包括至少一个样本语音信号。其中，针对每个样本语音信号，可从样本语音信号中提取音素向量序列，以及从样本语音信号中提取目标频谱序列。通过将目标频谱序列输入初始音色提取模型，可得到初始音色提取模型输出的音色特征向量。根据音色特征向量和音素向量序列生成联合特征向量序列，将联合特征向量序列输入初始序列转换模型，可得到初始序列转换模型输出的预测频谱序列。根据目标频谱序列和预测频谱序列调整初始音色提取模型和初始序列转换模型。当基于调整后的初始音色提取模型和初始序列转换模型所输出的每个样本语音信号对应的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，将调整后的初始音色提取模型确定为目标音色提取模型。其中，目标音色提取模型用于提取待检测语音信号的音色特征向量。采用本申请实施例，可提高音色提取模型的精度，适用性高。

下面将结合图1至图4分别对本申请实施例提供的方法及相关装置分别进行详细说明。本申请实施例提供的方法中可包括用于获取样本语音信号集合、从每个样本语音信号中提取音素向量序列和目标频谱序列、获取音色特征向量、根据音色特征向量和音素向量序列确定出联合特征向量序列、获取预测频谱序列、根据目标频谱序列和预测频谱序列调整初始音色提取模型和初始序列转换模型等数据处理阶段。其中，上述各个数据处理阶段的实现方式可参见如下图1至图2所示的实现方式。

参见图1，图1为本申请实施例提供的音频处理方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤S101至S106：

S101、获取样本语音信号集合。

在一些可行的实施方式中，可从终端设备的本地存储中，或者从与终端设备相连的外部存储器中，或者从终端设备的云端存储空间中获取样本语音信号集合。其中，上述样本语音信号集合中包括至少一个样本语音信号。

可选的，在一些可行的实施方式中，还可以实时获取终端设备的麦克风所录制的音频，以作为样本语音信号，在不做限制。

S102、针对每个样本语音信号，从样本语音信号中提取音素向量序列，以及从样本语音信号中提取目标频谱序列。

在一些可行的实施方式中，针对样本语音信号集合中的每个样本语音信号，可从每个样本语音信号中提取出音素向量序列，以及从每个样本语音信号中提取出目标频谱序列。

具体地，针对每个样本语音信号，通过对样本语音信号进行分帧加窗处理，可得到组成该样本语音信号的至少一个分帧信号。其中，上述分帧加窗处理所使用的帧长可以在8-32毫秒内，例如，帧长可以为10毫秒。且上述分帧加窗处理时所使用的窗函数可选择汉宁窗或海明窗等，具体根据实际应用场景确定，在此不做限制。

进一步地，针对每个分帧信号，通过提取分帧信号中包括的文字信息，可确定出构成文字信息的至少一个音素。应当理解的是，音素是构成音节的最小语音单位，其中，根据音节里的发音动作来分析，一个发音动作构成一个音素。一般来说，音素可分为汉语音素和英语音素。其中，汉语音素是构成汉语语音的最小单位，例如汉语音节a(啊)只包括一个音素a，ai(爱)包括两个音素，分别为a和i，dai(呆)包括三个音素，分别为d，a和i，zhuang(庄)包括四个音素，分别为zh，u，a和ng。相应地，英语音素是构成英语语音的最小单位，具体地，英语音素共包括20个元音音素和28个辅音音素。

应当理解的是，构成音节的音素可用两种不同的方式表示，一种是语音帧级别的音素表示形式，另一种是发音动作级别的音素表示形式。通常来说，一个发音动作可对应多个语音帧。举例来说，针对汉语音节zhuang(庄)，如果用语音帧级别的音素表示形式，则可表示为zh(3)u(4)a(3)ng(5)，其中，括号内的值表示语音帧个数，即汉语音节zhuang(庄)可表示为zh zh zh u u u u a a a ng ng ng ng ng。如果用发音动作级别的音素表示形式，则一个音素只对应固定一个发音动作，因此可表示为zh(1)u(1)a(1)ng(1)，也就是说，汉语音节zhuang(庄)可表示为zh u a ng。

其中，通过获取预设的音素向量查询表，可从音素向量查询表中确定出每个音素对应的音素向量。这里，音素向量查询表中包括多个音素对应的多个音素向量，其中，每一音素各自对应一个音素向量。不难理解的是，通过将各分帧信号对应的音素向量进行拼接，可得到完整的样本语音信号对应的音素向量序列。

其中，针对每个分帧信号，将每个分帧信号进行傅里叶变换，可得到每个分帧信号对应的线性频谱。应当理解的是，通过将组成样本语音信号的至少一个分帧信号中，各分帧信号对应的线性频谱进行拼接，可得到样本语音信号对应的完整的线性频谱序列。进而，可将得到的样本语音信号完整的线性频谱序列确定为目标频谱序列。可选的，为避免训练得到的模型过拟合，还可以从上述完整的线性频谱序列中随机抽取连续的n个分帧信号所对应的线性频谱，以作为目标频谱序列。也就是说，可从完整的线性频谱序列中随机抽取部分连续的线性频谱序列以作为目标频谱序列。其中，n为正整数。

可选的，在一些可行的实施方式中，目标频谱序列还可以为梅尔谱序列或者巴克刻度频谱序列等，在此不做限制。为便于理解，本申请实施例以目标频谱序列为梅尔谱序列为例进行说明。具体地，通过获取每个分帧信号对应的线性频谱，并将每个分帧信号对应的线性频谱输入梅尔滤波器组，可得到梅尔滤波器组输出的每个分帧信号对应的梅尔谱。其中，通过将各分帧信号对应的梅尔谱进行拼接，可得到上述样本语音信号对应的梅尔谱序列。进而，可将得到的完整的梅尔谱序列确定为目标频谱序列。可选的，为避免训练得到的模型过拟合，还可以从上述完整的梅尔谱序列中随机抽取连续的n个分帧信号所对应的梅尔谱，以作为目标梅尔谱序列。也就是说，可从完整的梅尔谱序列中随机抽取部分连续的梅尔谱序列，以作为目标频谱序列。其中，n为正整数。

举例来说，请参见图1a，图1a是本申请实施例提供的目标频谱序列的应用场景示意图。如图1b所示，假设样本语音信号集合中的任一样本语音信号经过分帧加窗处理后，可得到分帧信号1、分帧信号2、分帧信号3、分帧信号4、分帧信号5、和分帧信号6。其中，通过对每个分帧信号进行傅里叶变换，可得到分帧信号1对应的线性频谱1、分帧信号2对应的线性频谱2、分帧信号3对应的线性频谱3、分帧信号4对应的线性频谱4、分帧信号5对应的线性频谱5、以及分帧信号6对应的线性频谱6。进一步地，通过将每个分帧信号对应的线性频谱输入梅尔滤波器组，可得到线性频谱1对应的梅尔谱1、线性频谱2对应的梅尔谱2、线性频谱3对应的梅尔谱3、线性频谱4对应的梅尔谱4、线性频谱5对应的梅尔谱5、以及线性频谱6对应的梅尔谱6。通过将各梅尔谱进行拼接，可得到上述样本语音信号完整的梅尔谱序列。假设n等于4，则可从上述完整的梅尔谱序列中随机抽取连续的4个分帧信号所对应的梅尔谱，以作为目标梅尔谱序列。如图1b所示，可将分帧信号2、分帧信号3、分帧信号4以及分帧信号5分别对应的梅尔谱2、梅尔谱3、梅尔谱4以及梅尔谱5作为目标频谱序列。

S103、将目标频谱序列输入初始音色提取模型，以得到初始音色提取模型输出的音色特征向量。

在一些可行的实施方式中，通过将得到的目标频谱序列输入初始音色提取模型，可得到初始音色提取模型输出的音色特征向量。其中，初始音色提取模型可由两层残差连接结构和一层单向门控循环单元组成。请参见图1b，图1b是本申请实施例提供的音色提取模型的结构示意图。如图1b所示，初始音色提取模型包括两层残差连接结构和一层单向门控循环单元，其中，每层残差连接结构可由一维卷积单元和修正线性单元构成。如图1b所示，图中的箭头表示数据流向，应当理解的是，一维卷积单元中所使用的卷积核大小可根据输入的目标频谱序列的维度确定。通常来说，卷积核的大小可以是3*3或者5*5等，具体根据实际应用场景确定，在此不做限制。其中，音色提取模型的输入为目标频谱序列，音色提取模型的单向门控循环单元的输出即为音色特征向量。不难理解的是，音色特征向量的维度与上述音素向量维度一致。

S104、根据音色特征向量和音素向量序列生成联合特征向量序列，将联合特征向量序列输入初始序列转换模型，以得到初始序列转换模型输出的预测频谱序列。

在一些可行的实施方式中，针对每个样本语音信号，当得到其对应的音色特征向量和音素向量序列后，可根据音色特征向量和音素向量序列生成联合特征向量序列。进而，可将联合特征向量序列输入初始序列转换模型，以得到初始序列转换模型输出的预测频谱序列。具体地，可将音色特征向量和音素向量序列进行拼接或求和，以生成联合特征向量序列。不难理解的是，经典的序列转换模型可由编码器和解码器组成。

S105、根据目标频谱序列和预测频谱序列调整初始音色提取模型和初始序列转换模型。

在一些可行的实施方式中，根据目标频谱序列和预测频谱序列可调整初始音色提取模型和初始序列转换模型的模型参数。

S106、当基于调整后的初始音色提取模型和初始序列转换模型所输出的每个样本语音信号对应的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，将调整后的初始音色提取模型确定为目标音色提取模型。

在一些可行的实施方式中，当基于调整后的初始音色提取模型和初始序列转换模型所输出的每个样本语音信号对应的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，可将调整后的初始音色提取模型确定为目标音色提取模型。其中，目标音色提取模型用于提取待检测语音信号的音色特征向量。

参见图2，图2是本申请实施例提供的音频处理方法的另一流程示意图。本申请实施例提供的方法可通过如下步骤S201至S209提供的实现方式进行说明：

S201、获取样本语音信号集合。

S202、针对每个样本语音信号，从样本语音信号中提取音素向量序列，以及从样本语音信号中提取目标频谱序列。

S203、将目标频谱序列输入初始音色提取模型，以得到初始音色提取模型输出的音色特征向量。

S204、根据音色特征向量和音素向量序列生成联合特征向量序列，将联合特征向量序列输入初始序列转换模型，以得到初始序列转换模型输出的预测频谱序列。

S205、根据目标频谱序列和预测频谱序列调整初始音色提取模型和初始序列转换模型。

S206、当基于调整后的初始音色提取模型和初始序列转换模型所输出的每个样本语音信号对应的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，将调整后的初始音色提取模型确定为目标音色提取模型。

其中，步骤S201至步骤S206的具体实现方式可以参见图1对应的实施例中对步骤S101至步骤S106的描述，这里不再进行赘述。

S207、获取待检测语音信号，从待检测语音信号中提取目标频谱序列。

在一些可行的实施方式中，通过获取待检测语音信号，可从待检测语音信号中提取出目标频谱序列。应当理解的是，提取待检测语音信号中目标频谱序列的方法可参见上述从样本语音信号中提取目标频谱序列的步骤，这里不再进行赘述。

S208、将待检测语音信号的目标频谱序列输入目标音色提取模型，以得到目标音色提取模型输出的目标音色特征向量。

在一些可行的实施方式中，通过将待检测语音信号的目标频谱序列输入训练好的目标音色提取模型，可得到目标音色提取模型输出的上述待检测语音信号的音色特征向量，即目标音色特征向量。

S209、根据目标音色特征向量确定待检测语音信号所属的说话人。

在一些可行的实施方式中，根据目标音色特征向量可确定出待检测语音信号所属的说话人。具体地，通过获取注册用户的音色特征向量集合，可得到音色特征向量集合中包括的多个注册用户对应的音色特征向量，其中，一个注册用户对应一个音色特征向量。进一步地，通过计算目标音色特征向量与音色特征向量集合中各音色特征向量间的音色相似度，可得到多个音色相似度。因此，可从多个音色相似度中确定出最大音色相似度对应的注册用户，以作为待检测语音信号所属的说话人。其中，音色相似度的计算方式包括欧氏距离，曼哈顿距离，明可夫斯基距离，余弦相似度等，在此不做限制。为方便描述，本申请实施例主要以欧式距离为例进行说明。具体地，通过计算出目标音色特征向量与音色特征向量集合中各音色特征向量间的欧氏距离，进而可将欧式距离转换为相似度值，以作为目标音色特征向量与音色特征向量集合中各音色特征向量间的音色相似度。例如，假设目标音色特征向量A＝{a1,a2,..,am}，音色特征向量集合中任一音色特征向量B＝{b1,b2,..,bm}，则目标音色特征向量A与音色特征向量集合中任一音色特征向量B间的欧氏距离D可基于公式1计算得到：

其中，当计算得到目标音色特征向量A与音色特征向量集合中任一音色特征向量B间的欧氏距离后，可将欧式距离转换为相似度值，例如可基于公式2将欧式距离转换为相似度值：

其中，分母中的1用来保证相似度值最高是1，应当理解，除了上述公式2的转换公式，欧式距离转换为相似度值的公式还可以根据不同需求采用不用的定义方式，在此不做限制。

可选的，在一些可行的实施方式中，基于目标音色提取模型得到目标音色特征向量后，还可以将目标音色特征向量应用于音色转换，语音合成和歌声合成等场景，在此不做限制。

在本申请实施例中，通过获取样本语音信号集合，可得到样本语音信号集合中包括至少一个样本语音信号。其中，针对每个样本语音信号，可从样本语音信号中提取音素向量序列，以及从样本语音信号中提取目标频谱序列。通过将目标频谱序列输入初始音色提取模型，可得到初始音色提取模型输出的音色特征向量。根据音色特征向量和音素向量序列生成联合特征向量序列，将联合特征向量序列输入初始序列转换模型，可得到初始序列转换模型输出的预测频谱序列。根据目标频谱序列和预测频谱序列调整初始音色提取模型和初始序列转换模型。当基于调整后的初始音色提取模型和初始序列转换模型所输出的每个样本语音信号对应的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，将调整后的初始音色提取模型确定为目标音色提取模型。其中，目标音色提取模型用于提取待检测语音信号的音色特征向量。进一步地，通过获取待检测语音信号，并从待检测语音信号中提取目标频谱序列，可将待检测语音信号的目标频谱序列输入目标音色提取模型，以得到目标音色提取模型输出的目标音色特征向量。根据目标音色特征向量确定待检测语音信号所属的说话人。采用本申请实施例，可提高音色提取模型的精度以及语音识别的精度，适用性高。

参见图3，图3是本申请实施例提供的音频处理装置的一结构示意图。本申请实施提供的音频处理装置包括：

样本语音获取模块31，语音获取样本语音信号集合，所述样本语音信号集合中包括至少一个样本语音信号；

序列获取模块32，用于针对每个样本语音信号，从所述样本语音信号中提取音素向量序列，以及从所述样本语音信号中提取目标频谱序列；

音色特征向量获取模块33，用于将所述目标频谱序列输入初始音色提取模型，以得到所述初始音色提取模型输出的音色特征向量；

预测频谱序列获取模块34，用于根据所述音色特征向量和所述音素向量序列生成联合特征向量序列，将所述联合特征向量序列输入初始序列转换模型，以得到所述初始序列转换模型输出的预测频谱序列；

模型调整模块35，用于根据所述目标频谱序列和所述预测频谱序列调整所述初始音色提取模型和所述初始序列转换模型；

模型确定模块36，用于当基于调整后的初始音色提取模型和初始序列转换模型所输出的每个样本语音信号对应的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，将调整后的初始音色提取模型确定为目标音色提取模型，其中，所述目标音色提取模型用于提取待检测语音信号的音色特征向量。

请一并参见图4，图4是本申请实施例提供的音频处理装置的另一结构示意图。其中：

在一些可行的实施方式中，上述序列获取模块32包括音素向量序列提取单元321，所述音色向量序列提取单元321包括：

信号分帧子单元3211，用于对所述样本语音信号进行分帧加窗处理，以得到组成所述样本语音信号的至少一个分帧信号；

音素确定子单元3212，用于提取每个分帧信号中包括的文字信息，并确定构成所述文字信息的至少一个音素；

音素向量确定子单元3213，用于获取预设的音素向量查询表，从所述音素向量查询表中确定出每个音素对应的音素向量，其中，所述音素向量查询表中包括多个音素对应的多个音素向量，每一音素各自对应一个音素向量；

音素向量序列确定子单元3214，用于通过将各分帧信号对应的音素向量进行拼接，以得到所述样本语音信号对应的音素向量序列。

在一些可行的实施方式中，所述目标频谱序列包括目标梅尔谱序列；上述序列获取模块32包括目标频谱序列提取单元322，所述目标频谱序列提取单元322包括：

梅尔谱获取子单元3221，用于获取每个分帧信号对应的线性频谱，将每个分帧信号对应的线性频谱输入梅尔滤波器组，以得到所述梅尔滤波器组输出的每个分帧信号对应的梅尔谱；

梅尔谱序列获取子单元3222，用于将各分帧信号对应的梅尔谱进行拼接，以得到所述样本语音信号对应的梅尔谱序列；

目标梅尔谱序列确定子单元3223，用于根据所述梅尔谱序列确定所述样本语音信号对应的目标梅尔谱序列。

在一些可行的实施方式中，上述目标梅尔谱序列确定子单元3223具体用于：

在一些可行的实施方式中，上述预测频谱序列获取模块34包括联合特征向量序列确定单元341和预测频谱序列确定单元342，所述联合特征向量序列确定单元341用于：

在一些可行的实施方式中，上述装置还包括：

待检测语音信号预处理模块37，用于获取待检测语音信号，从所述待检测语音信号中提取目标频谱序列；

音色特征向量确定模块38，用于将所述待检测语音信号的目标频谱序列输入目标音色提取模型，以得到所述目标音色提取模型输出的目标音色特征向量；

语音识别模块39，用于根据所述目标音色特征向量确定所述待检测语音信号所属的说话人。

在一些可行的实施方式中，上述语音识别模块39包括：

向量集合获取单元391，用于获取注册用户的音色特征向量集合，其中，一个注册用户对应一个音色特征向量；

音色相似度确定单元392，用于确定所述目标音色特征向量与所述音色特征向量集合中各音色特征向量间的音色相似度，以得到多个音色相似度；

说话人确定单元393，用于从所述多个音色相似度中确定出最大音色相似度对应的注册用户作为所述待检测语音信号所属的说话人。

具体实现中，上述音频处理装置可通过其内置的各个功能模块执行如上述图1至图2中各个步骤所提供的实现方式。例如，上述样本语音获取模块31可用于执行上述各个步骤中获取样本语音信号等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述序列获取模块32可用于执行上述各个步骤中从样本语音信号中获取音素向量序列、以及目标频谱序列等相关步骤所描述的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述音色特征向量获取模块33可用于执行上述各个步骤中获取初始音色提取模型、基于初始音色提取模型和目标频谱序列输出音色特征向量等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述预测频谱序列获取模块34可用于执行上述各个步骤中根据音色特征向量和音素向量序列生成联合特征向量、获取初始序列转换模型、基于初始序列转换模型和联合特征向量输出预测频谱序列等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述模型调整模块35可用于执行上述各个步骤中基于目标频谱序列和预测频谱序列调整初始音色提取模型和初始序列转换模型等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述模型确定模块36可用于执行上述各个步骤中将调整后满足收敛条件的初始音色提取模型确定为目标音色提取模型等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述待检测语音信号预处理模块37可用于执行上述各个步骤中获取待检测语音信号、从待检测语音信号中提取目标频谱序列等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述音色特征向量确定模块38可用于执行上述各个步骤中将待检测语音信号的目标频谱序列输入目标音色提取模型，获取目标音色提取模型输出的目标音色特征向量等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述语音识别模块39可用于执行上述各个步骤中根据目标音色特征向量确定待检测语音所属的说话人等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，音频处理装置通过获取样本语音信号集合，可得到样本语音信号集合中包括至少一个样本语音信号。其中，针对每个样本语音信号，可从样本语音信号中提取音素向量序列，以及从样本语音信号中提取目标频谱序列。通过将目标频谱序列输入初始音色提取模型，可得到初始音色提取模型输出的音色特征向量。根据音色特征向量和音素向量序列生成联合特征向量序列，将联合特征向量序列输入初始序列转换模型，可得到初始序列转换模型输出的预测频谱序列。根据目标频谱序列和预测频谱序列调整初始音色提取模型和初始序列转换模型。当基于调整后的初始音色提取模型和初始序列转换模型所输出的每个样本语音信号对应的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，将调整后的初始音色提取模型确定为目标音色提取模型。其中，目标音色提取模型用于提取待检测语音信号的音色特征向量。采用本申请实施例，可提高音色提取模型的精度，适用性高。

参见图5，图5是本申请实施例提供的终端设备的结构示意图。如图5所示，本实施例中的终端设备可以包括：一个或多个处理器401和存储器402。上述处理器401和存储器402通过总线403连接。存储器402用于存储计算机程序，该计算机程序包括程序指令，处理器401用于执行存储器402存储的程序指令，执行上述实施例中的各个步骤，这里不再进行赘述。

应当理解，在一些可行的实施方式中，上述处理器401可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器402可以包括只读存储器和随机存取存储器，并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如，存储器402还可以存储设备类型的信息。

具体实现中，上述终端设备可通过其内置的各个功能模块执行如上述图1至图2中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，终端设备通过获取样本语音信号集合，可得到样本语音信号集合中包括至少一个样本语音信号。其中，针对每个样本语音信号，可从样本语音信号中提取音素向量序列，以及从样本语音信号中提取目标频谱序列。通过将目标频谱序列输入初始音色提取模型，可得到初始音色提取模型输出的音色特征向量。根据音色特征向量和音素向量序列生成联合特征向量序列，将联合特征向量序列输入初始序列转换模型，可得到初始序列转换模型输出的预测频谱序列。根据目标频谱序列和预测频谱序列调整初始音色提取模型和初始序列转换模型。当基于调整后的初始音色提取模型和初始序列转换模型所输出的每个样本语音信号对应的预测频谱序列与目标频谱序列间的最小均方误差不大于预设阈值时，将调整后的初始音色提取模型确定为目标音色提取模型。其中，目标音色提取模型用于提取待检测语音信号的音色特征向量。采用本申请实施例，可提高音色提取模型的精度，适用性高。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图1至图2中各个步骤所提供的音频处理方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的音频处理装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smartmedia card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

针对每个样本语音信号，从所述样本语音信号中提取音素向量序列，以及从所述样本语音信号中提取目标频谱序列，其中，所述目标频谱序列是根据从所述样本语音信号的每个分帧信号对应的线性频谱序列中获取的部分分帧信号对应的线性频谱得到的频谱序列；所述音素向量序列是根据各分帧信号中包括的文字信息的至少一个音素来确定的；

2.根据权利要求1所述的方法，其特征在于，所述从所述样本语音信号中提取音素向量序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标频谱序列包括目标梅尔谱序列；所述从所述样本语音信号中提取目标频谱序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述梅尔谱序列确定所述样本语音信号对应的目标梅尔谱序列，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述音色特征向量和所述音素向量序列生成联合特征向量序列，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标音色特征向量确定所述待检测语音信号所属的说话人，包括：

8.一种音频处理装置，其特征在于，所述装置包括：

序列获取模块，用于针对每个样本语音信号，从所述样本语音信号中提取音素向量序列，以及从所述样本语音信号中提取目标频谱序列，其中，所述目标频谱序列是根据从所述样本语音信号的每个分帧信号对应的线性频谱序列中获取的部分分帧信号对应的线性频谱得到的频谱序列；所述音素向量序列是根据各分帧信号中包括的文字信息的至少一个音素来确定的；

9.一种终端设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。