CN111326136B

CN111326136B - 语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN111326136B
Application number: CN202010090433.6A
Authority: CN
Inventors: 林炳怀; 王丽园; 邓锦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2022-10-14
Anticipated expiration: 2040-02-13
Also published as: CN111326136A

Abstract

本申请涉及计算机技术领域，公开了一种语音处理方法、装置、电子设备及存储介质，涉及人工智能技术，利用人工智能中机器学习技术进行语音分类，所述方法包括：将待处理语音转换为韵律学嵌入向量，将韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据预设数量个GST获得表征语音韵律特征的风格嵌入向量；根据风格嵌入向量获得待处理语音对应的分类结果。本申请实施例提供的语音处理方法、装置、电子设备及存储介质，有助于提高语音分类的准确度，且具有更好的通用性。

Description

语音处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

现有的基于神经网络的语音分类方法通常是，将语音数据进行短时傅里叶变换，进而转换为相应的语谱图，然后基于音频的工程特性，从语谱图提取一组频域信息集合，作为输入神经网络的语音特征向量，进而得到分类结果。因此现有的语音分类方法，需要开发人员具备音频方面的专业知识，才能确定从语谱图提取哪些信息作为语音特征向量，且获提取语音特征向量的方法不具有通用性。

发明内容

本申请实施例提供一种语音处理方法、装置、电子设备及存储介质，有助于提高语音分类的准确度，且具有更好的通用性。

一方面，本申请一实施例提供了一种语音处理方法，包括：

将待处理语音转换为韵律学嵌入向量；

将所述韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据所述预设数量个GST获得表征语音韵律特征的风格嵌入向量；

根据所述风格嵌入向量获得所述待处理语音对应的分类结果。

一方面，本申请一实施例提供了一种语音处理方法，包括：

获取用户输入的待处理语音，并发送给后台服务器，以使所述后台服务器获得所述待处理语音对应的至少一个分类任务对应的分类结果；

接收并展示所述后台服务器发送的分类结果；

将用户针对展示的分类结果输入的用户反馈信息发送给所述后台服务器，以使所述后台服务器基于所述用户反馈信息确定针对所述用户的个性化服务内容；

接收所述后台服务器发送的所述个性化服务内容。

可选地，所述方法还包括：若未触发任一修正按钮，则确定所述用户反馈信息为不需要修正分类结果。

一方面，本申请一实施例提供了一种语音特征提取模型的训练方法，包括：

基于通用训练数据集训练初始语音合成模型，获得通用语音合成模型，其中，所述通用训练数据集中包括多种分类任务的训练数据，每个训练数据包括一个通用训练语音和通用训练语音对应的文本，所述初始语音合成模型包括韵律学编码器、语音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器；

基于分类任务对应的领域训练数据集训练所述通用语音合成模型，获得所述分类任务对应的专用语音合成模型，其中，所述领域训练数据集中的每个训练数据包括所述分类任务所属领域的一个专用训练语音和专用训练语音对应的文本；

基于所述专用语音合成模型，获得所述分类任务对应的用于提取风格嵌入向量的语音特征提取模型，所述语音特征提取模型包括所述专用语音合成模型中的韵律学编码器和第一注意力模块。

一方面，本申请一实施例提供了一种语音处理装置，包括：

韵律学模块，用于将待处理语音转换为韵律学嵌入向量；

风格确定模块，用于将所述韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据所述预设数量个GST获得表征语音韵律特征的风格嵌入向量；

分类模块，用于根据所述风格嵌入向量获得所述待处理语音对应的分类结果。

可选地，韵律学模块，具体用于基于已训练的韵律学编码器，将待处理语音转换为韵律学嵌入向量；

风格确定模块，具体用于基于已训练的第一注意力模块，将所述韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据所述预设数量个GST获得表征语音韵律特征的风格嵌入向量；其中：

所述已训练的韵律学编码器和所述已训练的第一注意力模块，是基于语音训练数据集训练语音合成模型而获得的，其中，所述语音训练数据集中包括多种分类任务的语音训练数据，每个语音训练数据包括一个训练语音和训练语音对应的文本，所述初始语音合成模型包括韵律学编码器、语音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器。

可选地，所述分类结果包括至少一个，各个分类结果对应于不同的分类任务，所述韵律学模块，具体用于：针对每一个分类任务，基于分类任务对应的已训练的韵律学编码器，将待处理语音转换为韵律学嵌入向量；

所述风格确定模块，具体用于：针对每一个分类任务，基于所述分类任务对应的已训练的第一注意力模块，将所述韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据所述预设数量个GST获得表征语音韵律特征的风格嵌入向量；其中：

所述已训练的韵律学编码器和所述已训练的第一注意力模块，是基于所述分类任务对应的领域训练数据集训练通用语音合成模型而获得的，其中，所述领域训练数据集中的每个训练数据包括分类任务所属领域的一个专用训练语音和专用训练语音对应的文本；

所述通用语音合成模型是基于通用训练数据集训练初始语音合成模型而获得的，其中，所述通用训练数据集中包括多种分类任务的训练数据，每个训练数据包括一个通用训练语音和通用训练语音对应的文本，所述初始语音合成模型包括韵律学编码器、语音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器。

可选地，所述基于分类任务对应的领域训练数据集训练通用语音合成模型的过程中，调整的参数包括：所述通用语音合成模型中的第一注意力模块的参数。

可选地，所述分类结果包括至少一个，各个分类结果对应于不同的分类任务，所述分类模块，具体用于：针对每一个分类任务，基于分类任务对应的分类器，根据所述风格嵌入向量获得所述待处理语音对应的分类结果，其中，所述分类器是基于所述分类任务对应的分类训练数据集对分类器进行训练获得的，所述分类训练数据集中的每个训练数据包括所述分类任务所属领域的一个语音数据和语音数据对应的分类标签。

可选地，所述基于所述分类任务对应的分类训练数据集对分类器进行训练，具体包括：

基于所述已训练的韵律学编码器将所述分类训练数据集中的各个语音数据转换为对应的韵律学嵌入向量；

基于所述已训练的第一注意力模块将每个语音数据对应的韵律学嵌入向量分解为预设数量个基础嵌入GST，并对所述预设数量个GST进行加权，获得每个语音数据对应的风格嵌入向量；

基于所述分类训练数据集中各个语音数据对应的风格嵌入向量和分类标签，训练所述分类器。

可选地，所述分类任务包括以下至少一种：识别用户年龄、识别用户性别、语种识别、口音识别以及音质识别。

一方面，本申请一实施例提供了一种语音处理装置，包括：

获取模块，用于获取用户输入的待处理语音，并发送给后台服务器，以使所述后台服务器获得所述待处理语音对应的至少一个分类任务对应的分类结果；

接收模块，用于接收所述后台服务器发送的分类结果；

展示模块，用于展示所述后台服务器发送的分类结果；

发送模块，用于将用户针对展示的分类结果输入的用户反馈信息发送给所述后台服务器，以使所述后台服务器基于所述用户反馈信息确定针对所述用户的个性化服务内容；

所述接收模块，还用于接收所述后台服务器发送的所述个性化服务内容。

可选地，所述展示模块，具体用于：展示每个分类结果以及每个分类结果对应的修正按钮；

所述展示模块，还用于：响应针对任一分类结果对应的修正按钮，展示所述任一分类结果对应的可选选项，所述可选选项包括所述任一分类结果对应的分类任务包含的类别；响应针对展示的任一可选选项的选中操作，则确定所述用户反馈信息包括将所述任一分类结果修正为所述任一可选选项。

可选地，所述展示模块，还用于若未触发任一修正按钮，则确定所述用户反馈信息为不需要修正分类结果。

可选地，当所述至少一个分类任务对应的分类结果中包括所述待处理语音的音质差时，所述展示模块，还用于展示当前录音环境嘈杂的提示信息；响应针对所述提示信息输入的重新录制操作，重新采集用户输入的语音，并将重新采集的语音发送给所述后台服务器。

一方面，本申请一实施例提供了一种语音特征提取模型的训练装置，包括：

通用训练模块，用于基于通用训练数据集训练初始语音合成模型，获得通用语音合成模型，其中，所述通用训练数据集中包括多种分类任务的训练数据，每个训练数据包括一个通用训练语音和通用训练语音对应的文本，所述初始语音合成模型包括韵律学编码器、语音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器；

专用训练模块，用于基于分类任务对应的领域训练数据集训练所述通用语音合成模型，获得所述分类任务对应的专用语音合成模型，其中，所述领域训练数据集中的每个训练数据包括所述分类任务所属领域的一个专用训练语音和专用训练语音对应的文本；

模型确定模块，用于基于所述专用语音合成模型，获得所述分类任务对应的用于提取风格嵌入向量的语音特征提取模型，所述语音特征提取模型包括所述专用语音合成模型中的韵律学编码器和第一注意力模块。

一方面，本申请一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种方法的步骤。

一方面，本申请一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

本申请实施例提供的语音处理方法、装置、电子设备及存储介质，基于从待处理语音中提取的韵律学嵌入向量进行语音分类，该风格嵌入向量是一种与文本无关的韵律特征，为更高层次、更具通用性的语音韵律特征的抽象表示，有助于提高语音分类的准确度。此外，从待处理语音中提取的韵律学嵌入向量的方法无需开发人员具备音频方面的专业知识，因此，本申请实施例提供的语音处理方法具有更好的通用性，可应用于不同的语音分类任务中。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为Tacotron的***架构的示意图；

图2为本申请一实施例提供的语音处理方法的应用场景示意图；

图3为本申请一实施例提供的语音处理方法的流程示意图；

图4为本申请一实施例提供的一种基于语音训练数据集训练语音合成模型的方法的流程示意图；

图5为本申请一实施例提供的一种语音特征提取模型的训练方法的流程示意图；

图6为本申请一实施例提供的一种分类器的训练方法的流程示意图；

图7为本申请一实施例提供的语音处理方法的流程示意图；

图8A为本申请一实施例提供的终端设备展示分类结果的界面示意图；

图8B为本申请一实施例提供的在终端设备上修正分类结果的界面示意图；

图9为本申请一实施例提供的在录音过程中提示录音环境质量的界面示意图；

图10为本申请一实施例提供的语音处理装置的结构示意图；

图11为本申请一实施例提供的语音处理装置的结构示意图；

图12为本申请一实施例提供的语音特征提取模型的训练装置的结构示意图；

图13为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

Tacotron：谷歌提出的一种端到端语音合成模型，是基于深度神经网络的文本转语音(TTS)研究的一个重大突破，Tacotron可以简化语音构建通道并产生自然的语音，有助于更好地实现人机交互。

Prosody Embedding：即韵律学嵌入向量，是语音片段的低维度嵌入，用以扩充Tacotron，实现韵律学建模和韵律迁移。Prosody Embedding是通过Tacotron中构建的韵律学编码器(Prosody Encoder)得到的，可捕捉独立于说话者特质和文本信息的音频特征，比如重音、语调、语速等的变化。

GST：Global Style Tokens的缩写，是一个与文本无关的韵律特征，而任何语音片段的韵律学嵌入向量均可被分解为一定数量的GST的固定线性组合。

Style Embedding：即风格嵌入向量，是根据上述分解得到的GST确定的，例如，基于对韵律学嵌入向量分解得到的多个GST进行加权，得到风格嵌入向量。风格嵌入向量是一种具有更高层次、更具通用性的语音韵律特征的抽象表示。

Tacotron的***架构可参考图1，包括：韵律学编码器(Prosody Encoder)、第一注意力模块(Attention)、文本编码器(Text Encoder)、语音特征提取模块、向量拼接模块(Conditioning)、第二注意力模块(Attention)和解码器(Decoder)。将参考音频(Reference Audio)输入韵律学编码器，韵律学编码器将输入的参考音频转换为韵律学嵌入向量，第一注意力模块将韵律学编码器输出的韵律学嵌入向量分解为预设数量个GST，并根据这预设数量个GST获得韵律学嵌入向量对应的风格嵌入向量；与此同时，文本编码器将输入文本(Input Text Sequence)转换为多个文本嵌入向量(Text Embedding)，其中每个文本嵌入向量对应输入文本中的一个单词或一个字，语音特征提取模块提取参考音频的各个语音片段分别对应的语音特征，并输入第二注意力模块和解码器；然后，向量拼接模块将风格嵌入向量与多个文本嵌入向量分别进行拼接，得到多个联合特征向量，并将多个联合特征向量输入第二注意力模块；针对每个语音特征，基于第二注意力模块计算该语音特征与各个联合特征向量之间的权重，并输入解码器。解码器分别根据各个语音特征对应的权重对多个联合特征向量进行加权，得到各个语音特征对应的参考特征向量，基于各个语音特征对应的参考特征向量和各个语音特征，获得合成语音。为此，基于韵律学嵌入向量这种文本无关的特性，使得Tacotron能更理想地实现语音风格迁移，先将有参考音频的韵律特征表示为GST的权重组合，再按照这个权重组合合成语音，从而保证即便输入文本和参考音频的长度、结构不同，合成语音的风格也能和参考音频保持一致。图1所示的Tacotron提供了一种建模潜在语音韵律因素的无监督的方法，使Tacotron能学习较高层的语音模式，而不是基于时间对齐的精确韵律学特征，从而保证模型能在任意不同的文本之间做韵律迁移。

Open API：即开放平台API，开放平台的服务商将自己的网站服务封装成一系列API(Application Programming Interface，应用编程接口)开放出去，供第三方开发者。

SDK：即软件开发工具包，指由第三方服务商提供的实现软件产品某些功能的工具包。

应用：即应用程序，可以完成某项或多项业务的计算机程序，一般具有可视的显示界面，能与用户进行交互，比如电子地图和微信等都可以称为应用。其中，有些应用需要用户安装到所使用的终端设备上才可以使用，有些则并不需要进行应用安装，例如，微信中的各个小程序。小程序不需要下载安装即可使用，用户扫一扫或者搜一下即可打开应用。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在具体实践过程中，现有的基于神经网络的语音分类方法通常是，将语音数据进行短时傅里叶变换，进而转换为相应的语谱图，然后基于音频的工程特性，从语谱图提取一组频域信息集合，作为输入神经网络的语音特征向量，进而得到分类结果。因此现有的语音分类方法，需要开发人员具备音频方面的专业知识，才能确定从语谱图提取哪些信息作为语音特征向量，且提取语音特征向量的方法不具有通用性。

此外，目前在语音领域，鲜有适用于多种任务的通用语音分类***，即针对每种语音分类任务(如口音识别、语种识别、儿童成人语音分类等)，都需要基于深度神经网络训练专用的语音分类模型，这类模型取得较好的分类效果的关键点在于：(1)基于大量精细化筛选和标注过的数据集，进行很长时间的训练，(2)针对具体分类任务的实际情况，构建精巧的网络结构，或在训练模型时采用一些独特但不具备通用性的技巧。上述现有技术成功的两个关键点，也是其最大的缺点所在，第一个关键点意味着需要付出较高的数据成本和训练成本，第二个关键点意味着需要开发人员具备较高的专有性，同时牺牲了模型的泛化性。然而，在现实工业环境下，大量精细化标注的数据往往是不可得或成本过高的，另一方面，具体业务往往复杂且涉及很多方面，不可能为每一个细分的分类任务都定制一个专有模型。因此，继续一种具有统一架构、且通用的语音分类模型以及模型训练方法。

为此，本申请提取了一种语音处理方法，基于从待处理语音中提取的韵律学嵌入向量进行语音分类，具体包括如下步骤：将待处理语音转换为韵律学嵌入向量；将韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据预设数量个GST获得表征语音韵律特征的风格嵌入向量；根据风格嵌入向量获得待处理语音对应的分类结果。其中，风格嵌入向量是一种与文本无关的韵律特征，为一种更高层次、更具通用性的语音韵律特征的抽象表示，有助于提高语音分类的准确度，且从待处理语音中提取的韵律学嵌入向量的方法无需开发人员具备音频方面的专业知识，因此上述语音处理方法具有更好的通用性，可应用于不同的语音分类任务中。

此外，针对现有的模型训练方法需要大量精细化标注的数据，成本过高且模型通用性很差的问题，本申请提出一种通用的语音特征提取模型的训练方法，该训练方法具有低成本和高通用性的优势，可在较少的训练数据集和较低的训练成本下，较好地获得多个不同的语音分类任务对应的语音特征提取模型以及分类器。具体训练过程分为预训练(pre-training)阶段和微调(fine-tuning)阶段，其中，预训练阶段采用通用训练数据集训练初始语音合成模型，以获得一个通用语音合成模型，其中，通用训练数据集中包括多种分类任务的训练数据，例如英式口音的语音和美式口音的语音、儿童语音和成人语音、纯净的语音和有噪的语音等，每个训练数据包括一个通用训练语音和通用训练语音对应的文本。在微调阶段，采用某一领域的领域训练数据集训练通用语音合成模型，获得针对具体分类任务的专用语音合成模型，例如针对“英式口音和美式口音”分类任务，对应的领域训练数据集中包含英式口音的语音和美式口音的语音，通过领域训练数据集对通用语音合成模型中的参数进行微调，以强化专用语音合成模型在执行具体分类任务时所提取的语音特征(此处主要指风格嵌入向量)的表达能力。最后，获取专用语音合成模型中的韵律学编码器和第一注意力模块，得到具体分类任务对应的用于提取风格嵌入向量的语音特征提取模型。通过上述训练方式获得的语音特征提取模型，能够从语音中提出风格嵌入向量，该风格嵌入向量在充分表达语音基本韵律特征的前提下又强化了其对具体分类任务的表达能力，可作为一种通用的语音分类特征。且上述训练方法可以在数据集有限的情况下，利用较低的训练成本，获得多种分类任务对应的语音特征提取模型，从而满足了“一套架构，多种任务”的需求，在应用和产品层面上带来巨大的收益。

此外，可将基于具体分类任务对应的语音特征提取模型提取的风格嵌入向量，训练该分类任务对应的分类器，并利用该分类器对任意一段新的语音进行分析，得到的分类结果将有助于优化***性能、丰富产品功能、提高服务质量、提升用户体验。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

参考图2，其为本申请实施例提供的语音处理方法的应用场景示意图。该应用场景包括终端设备201和后台服务器202，其中，终端设备201和后台服务器202之间通过无线或有线的通信网络连接。终端设备201包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(personal digitalassistant，PDA)、销售终端(point of sales，POS)等电子设备。后台服务器202可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

在一种具体的应用场景中，终端设备201获取用户输入的待处理语音并发送给后台服务器202；后台服务器202将待处理语音转换为韵律学嵌入向量，将韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据预设数量个GST获得表征语音韵律特征的风格嵌入向量，根据风格嵌入向量获得待处理语音对应至少一个分类任务对应的分类结果，基于分类结果确定针对用户的个性化服务内容，将个性化服务内容推送到终端设备201。当然，在一些应用场景中，上述后台服务器202执行的步骤也可以由终端设备101执行。

当然，本申请实施例提供的方法并不限用于图2所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图2所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

本申请实施例提供的方案涉及人工智能的语音技术，具体涉及语音特征提取以及语音分类技术。下面结合图2所示的应用场景，对本申请实施例提供的技术方案进行说明。

参考图3，本申请实施例提供一种语音处理方法，可应用于图2所示的后台服务器202或者终端设备201，具体包括以下步骤：

S301、将待处理语音转换为韵律学嵌入向量。

具体实施时，可由终端设备采集用户输入的语音作为待处理语音，终端设备可将待处理语音发送给后台服务器，由后台服务器执行步骤S301-S303，以获得待处理语音对应的分类结果，也可以由终端设备内安装的应用程序执行步骤S301-S303，获得待处理语音对应的分类结果。待处理语音也可以是后台服务器收集存储的语音，本申请对待处理语音的来源不做限定。

具体实施时，可基于已训练的韵律学编码器将待处理语音转换为韵律学嵌入向量，即将待处理语音输入已训练的韵律学编码器，由韵律学编码器对待处理语音进行编码、特征提取等操作，获得待处理语音对应的韵律学嵌入向量。其中，已训练的韵律学编码器可以是图1所示的语音合成模型中的韵律学编码器。

S302、将韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据预设数量个GST获得表征语音韵律特征的风格嵌入向量。

其中，预设数量可根据实际应用需求结合测试结果确定，例如预设数量可以是5、10或15等，本申请实施例不作限定。

具体实施时，可基于已训练的第一注意力模块，将韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据预设数量个GST获得表征语音韵律特征的风格嵌入向量。即，将韵律学嵌入向量输入第一注意力模块，第一注意力模块利用注意例机制将输入的各个韵律学嵌入向量分解为预设数量个GST的固定线性组合，从而获得对应的风格嵌入向量。具体地，可以对这预设数量个GST进行加权组合，得到相应的风格嵌入向量；也可以按一定顺序连接这预设数量个GST，得到相应的风格嵌入向量，等等。其中，已训练的第一注意力模块可以是图1所示的语音合成模型中的第一注意力模块。

由于GST是一个与文本无关的韵律特征，而风格嵌入向量是基于多个GST获得的，使得韵律学嵌入向量能够表达语音中更高层次的特征，更具有通用性。因此，与现有的语音特征相比，风格嵌入向量是一种具有更高层次、更具通用性的语音特征，基于风格嵌入向量进行语音分析，有助于提高后续分析识别的准确度。

S303、根据风格嵌入向量获得待处理语音对应的分类结果。

具体实施时，一个分类结果对应一个分类任务，例如，分类任务可以是：识别用户年龄、识别用户性别、语种识别、口音识别以及音质识别。针对每一个分类任务可训练专用的分类器，例如针对识别用户年龄的分类任务训练一个年龄段分类器，可基于用户输入的语音识别用户属于哪个年龄段(如儿童、中年、老年等)，例如针对英式口音和美式口音的分类任务训练一个英语发音分类器，可基于用户输入的语音识别用户说的英语是英式口音还是美式口音，等等。

具体实施时，每个分类任务对应的分类器是基于该分类任务对应的分类训练数据集对分类器进行训练获得的，分类训练数据集中的每个训练数据包括分类任务所属领域的一个语音数据和语音数据对应的分类标签。其中，分类标签用于标注对应的语音数据属于哪个类别，例如，针对英式口音和美式口音的分类任务，英式口音的语音数据的分类标签为“英式口音”，美式口音的语音数据的分类标签为“美式口音”。为此，可基于分类任务对应的分类器，根据风格嵌入向量获得待处理语音对应的分类结果。

本申请实施例中的分类器可以是通过决策树、逻辑回归、朴素贝叶斯、神经网络等算法实现的分类器，不作限定。

具体实施时，可将待处理语音对应的风格嵌入向量输入多个不同分类任务对应的分类器，从而获得多个分类结果，各个分类结果对应于不同的分类任务。进而可根据多个分类结果，更加全面、准确地推断出用户的信息和需求，辅助具体产品为用户提供智能的、个性化的服务，让产品更懂用户，从而更好地提升产品的用户体验。例如，通过性别分类器、年龄段分类器、英语发音分类器，可确定用户A为一位准备练习英式英语的小女孩，进而为用户A推荐与英式英语相关的适合儿童的课程、视频等内容。

本申请实施例提供的语音处理方法，基于从待处理语音中提取的韵律学嵌入向量进行语音分类，该风格嵌入向量是一种与文本无关的韵律特征，为更高层次、更具通用性的语音韵律特征的抽象表示，有助于提高语音分类的准确度。此外，从待处理语音中提取的韵律学嵌入向量的方法无需开发人员具备音频方面的专业知识，因此，本申请实施例提供的语音处理方法具有更好的通用性，可应用于不同的语音分类任务中。

在一种可能的实施方式中，可基于语音训练数据集训练语音合成模型，从而获得上述任一实施方式中所指的已训练的韵律学编码器和已训练的第一注意力模块。其中，语音训练数据集中可包括至少一种分类任务的语音训练数据，每个语音训练数据包括一个训练语音和训练语音对应的文本，语音合成模型包括韵律学编码器、语音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器，初始语音合成模型的具体结构可参考图1。

参考图4，本申请提供了一种基于语音训练数据集训练语音合成模型的方法，可应用于图2所示的后台服务器，具体包括如下步骤：

S401、从语音训练数据集中获取一个语音训练数据，该语音训练数据包括一个训练语音和训练语音对应的文本。

S402、基于韵律学编码器将获取的训练语音转换为韵律学嵌入向量。

其中，韵律学嵌入向量包括多个维度的韵律特征。

S403、基于第一注意力模块将韵律学编码器输出的韵律学嵌入向量分解为预设数量个GST，并根据预设数量个GST获得韵律学嵌入向量对应的风格嵌入向量。

其中，风格嵌入向量包括多个维度的风格特征。

S404、基于文本编码器将输入韵律学编码器的训练语音对应的文本转换为多个文本嵌入向量。

具体实施时，文本编码器可以一个单词或一个汉字为单位，将文本转换为多个文本嵌入向量，即一个单词或一个汉字对应一个文本嵌入向量。

S405、基于语音特征提取模型，提取训练语音的各个语音片段分别对应的语音特征。

其中，可训练语音划分成若干个语音片段，基于特征提取模型分别提取各个语音片段的语音特征，并输入第二注意力模块和解码器。

需要说明的是，步骤S402、S404和S405可并行执行。

S406、将风格嵌入向量与多个文本嵌入向量分别进行拼接，得到多个联合特征向量。

其中，联合特征向量的数量与文本嵌入向量的数量相同。例如，针对文本“我想唱歌”可得到4个文本嵌入向量，将韵律学嵌入向量分别拼接到这4个文本嵌入向量中，得到4个联合特征向量。一个联合特征向量中包括多个维度的联合特征。

S407、针对每个语音特征，基于第二注意力模块计算该语音特征与各个联合特征向量之间的权重。

具体实施时，可以计算语音特征和联合特征向量之间的相似度，将该相似度作为该语音特征和联合特征向量之间的权重。例如，若存在4个联合特征向量，则一个语音特征对应4个权重。

S408、基于解码器分别根据各个语音特征对应的权重对多个联合特征向量进行加权，得到各个语音特征对应的参考特征向量，基于各个语音特征对应的参考特征向量和各个语音特征，获得合成语音。

例如，针对一个语音特征，基于该语音特征对应的权重，对多个联合特征向量进行加权，将加权得到的向量作为该语音特征对应的参考特征向量。

S409、基于合成语音和输入韵律学编码器的训练语音计算损失函数，根据损失函数调整语音合成模型的参数。

S410、判断是否满足结束条件，若满足，则结束训练，若不满足，则返回步骤S401，从语音训练数据集中获取下一个语音训练数据，继续对语音合成模型进行训练。

具体实施时，结束条件可以是：调整参数后的语音合成模型输出的合成语音达到要求，或者训练次数达到预设次数等，可根据不同任务对应模型的训练要求确定，此处不作限定。

具体实施时，可通过图4所示的方法训练一个通用的语音合成模型，基于该通用的语音合成模型获得一个语音特征提取模型，该语音特征提取模型包括该通用的语音合成模型中的韵律学编码器和第一注意力模块，该语音特征提取模型可用于本申请提供的语音处理方法。此时，训练过程中使用的语音训练数据集可以是通用训练数据集训练，通用训练数据集中包括多种分类任务的训练数据，每个训练数据包括一个通用训练语音和通用训练语音对应的文本。通过图4所示方法获得的语音特征提取模型，可用于提取多种分类任务中的语音的韵律学嵌入向量。

具体实施时，针对每一分类任务，可通过图4所示的方法训练一个针对该分类任务的专用的语音合成模型，基于该专用的语音合成模型获得一个语音特征提取模型，该语音特征提取模型包括该专用的语音合成模型中的韵律学编码器和第一注意力模块，该语音特征提取模型可用于本申请提供的语音处理方法。此时，训练过程中使用的语音训练数据集为该分类任务对应的领域训练数据集，该领域训练数据集中的每个训练数据包括分类任务所属领域的一个专用训练语音和专用训练语音对应的文本。

在另一种可能的实施方式中，参考图5，本申请实施例还提供了一种语音特征提取模型的训练方法，具体包括如下步骤：

S501、基于通用训练数据集训练初始语音合成模型，获得通用语音合成模型。

其中，通用训练数据集中包括多种分类任务的训练数据，每个训练数据包括一个通用训练语音和通用训练语音对应的文本，初始语音合成模型包括韵律学编码器、语音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器，具体结构可参考图1。基于通用训练数据集训练初始语音合成模型的具体方法可参考图4所示的方法，只需将图4中的语音训练数据集替换成通用训练数据集即可，不再赘述。

步骤S501即对应预训练阶段，其采用通用训练数据集训练初始语音合成模型，以获得一个通用语音合成模型，其中，通用训练数据集中包括多种分类任务的训练数据，例如英式口音的语音和美式口音的语音、儿童语音和成人语音、纯净的语音和有噪的语音等。通用训练数据集中的训练数据的种类越丰富，基于通用语音合成模型提取到的风格嵌入向量就具有更强的表达能力和更好的通用性。

S502、基于分类任务对应的领域训练数据集训练通用语音合成模型，获得分类任务对应的专用语音合成模型。

其中，分类任务对应的领域训练数据集中的每个训练数据包括分类任务所属领域的一个专用训练语音和专用训练语音对应的文本。通用语音合成模型的结构与初始语音合成模型的结构相同，只是模型的参数不同。基于分类任务对应的领域训练数据集训练通用语音合成模型的具体方法可参考图4所示的方法，只需将图4中的语音训练数据集替换成分类任务对应的领域训练数据集，将语音合成模型替换成通过步骤S501获得的通用语音合成模型即可，不再赘述。

步骤S502即对应微调阶段，其采用某一领域的领域训练数据集训练通用语音合成模型，以获得针对具体分类任务的专用语音合成模型，例如针对“英式口音和美式口音”分类任务，对应的领域训练数据集中包含英式口音的语音和美式口音的语音，通过领域训练数据集对通用语音合成模型中的参数进行微调，以强化获得的专用语音合成模型在执行具体分类任务时所提取的风格嵌入向量的表达能力。

在通用语音合成模型的基础上，可训练不同分类任务对应的专用语音合成模型，即只需要训练一个通用语音合成模型，所有分类任务共享同一个通用语音合成模型。由于在通用语音合成模型的训练过程中已经完成大部分的参数调整，因此，只需要某一领域少量的训练数据，即可完成对通用语音合成模型的训练，快速获得某一分类任务对应的专用语音合成模型。

S503、基于专用语音合成模型，获得分类任务对应的用于提取风格嵌入向量的语音特征提取模型，该语音特征提取模型包括专用语音合成模型中的韵律学编码器和第一注意力模块。

图5所示的训练方法，在预训练阶段中，基于全面而大量的通用训练数据集对初始语音合成模型进行长时间、充分的训练，得到一个具有通用性的通用语音合成模型，基于通用语音合成模型提取到的风格嵌入向量更具通用性。在通用语音合成模型的基础上，各开发人员只需要针对自己关注的具体分类任务，使用较少的训练数据进行较短时间的微调，就可得到一个强化了该分类任务的专用语音合成模型，基于该专用语音合成模型获得该分类任务对应的语音特征提取模型。为此，图5所示的训练方法可同时降低准备领域训练数据集的成本和训练模型的成本。另一方面，开发人员可以根据实际需要，采用多种领域训练数据集分别对通用语音合成模型进行微调，得到不同分类任务对应的语音特征提取模型，从而满足了“一套架构，多种任务”的需求。

因此，本申请实施例提供的语音特征提取模型的训练方法具有低成本和高通用性的优势，可在数据集有限的情况下，利用较低的训练成本，获得多种分类任务对应的语音特征提取模型，从而满足了“一套架构，多种任务”的需求，在应用和产品层面上带来巨大的收益。通过上述训练方式获得的语音特征提取模型，能够从语音中提出风格嵌入向量，该风格嵌入向量在充分表达语音基本韵律特征的前提下又强化了其对具体分类任务的表达能力，可作为一种通用的语音分类特征。

进一步地，在基于分类任务对应的领域训练数据集训练通用语音合成模型的过程中，调整的参数包括：通用语音合成模型中的第一注意力模块的参数。由于在预训练阶段已经完成对通用语音合成模型中大部分参数的调整，因此，可以仅调整微调第一注意力模块的参数中的相关参数，以强化提取的风格嵌入向量在某一分类任务中的表达能力，获得更好的效果。

在上述任一实施方式的基础上，参考图6，本申请实施例提供了一种分类器的训练方法，可应用与图2所示的后台服务器，具体包括如下步骤：

S601、基于已训练的韵律学编码器将分类训练数据集中的各个语音数据转换为对应的韵律学嵌入向量。

S602、基于已训练的第一注意力模块将每个语音数据对应的韵律学嵌入向量分解为预设数量个基础嵌入GST，并对预设数量个GST进行加权，获得每个语音数据对应的风格嵌入向量。

具体实施时，步骤S601和S602中的韵律学编码器和第一注意力模块可以是通过图4所示的方法获得的。

具体实施时，步骤S601和S602中的韵律学编码器和第一注意力模块也可以是通过图5所示的方法获得的。此时，训练哪种分类任务的分类器，就使用该分类任务对应的韵律学编码器和第一注意力模块执行步骤S601和S602。

S603、基于分类训练数据集中各个语音数据对应的风格嵌入向量和分类标签，训练分类器。

图6所示的方法，利用已训练的韵律学编码器和第一注意力模块，提取分类训练数据集中各个语音数据对应的风格嵌入向量，基于风格嵌入向量训练分类器，有助于提高了分类器的分类准确度。

在多个分类任务上的大量实验结果显示，利用本申请实施例提供的训练方法，可降低此类深度学习模型对大量优质数据集的依赖，可大大降低模型的训练成本，可采用一套架构简单而高效地完成多个分类任务的语音特征提取模型和分类器的训练。

实验中，预训练阶段的通用训练数据集采用经典的LJSpeech-1.1，内含13100条语音(每条语音的长度为7s左右)及对应文本。通用语音合成模型经100000轮(每轮32条数据)训练而得。后续还可不断地扩充通用训练数据集，使其涵盖多种分类任务的方方面面，并相应增加训练轮数，从而获得一个更加通用和高效的通用语音合成模型。

在微调阶段，以“英美语音分类”、“儿童成人语音分类”、“噪声与非噪声语音分类”这3个具体分类任务为例进行说明。针对每个具体分类任务，均采用10000条左右的语音数据，进行5个epoch(用领域训练数据集中的全部样本训练一次即为一个epoch)的微调训练，得到专有语音合成模型，基于该专用语音合成模型获得语音特征提取模型。然后，在新的数据集上分别对3个分类任务的语音特征提取模型进行测试，3个分类任务的表现如表1所示，表中的F1分数(即F1 Score)，是统计学中用来衡量分类器分类精确度的一种指标。

表1

任务	实验结果
		英美语音分类	英式英语分类F1：0.8054；美式英语分类F1：0.8429
儿童成人语音分类	儿童语音分类F1：0.8807；成人语音分类F1：0.7860
		噪声非噪声语音分类	噪声语音分类F1：0.7362；非噪声语音分类F1：0.8635

表1的实验结果显示，采用本申请的模型训练方法，可以解除模型对训练数据的质量和数量的过度依赖，降低训练成本，实现“一套架构，多个任务”的通用性。

参考图7，本申请实施例还提供了一种语音处理方法，可应用于图2所示的终端设备，具体包括如下步骤：

S701、获取用户输入的待处理语音，并发送给后台服务器，以使后台服务器获得待处理语音对应的至少一个分类任务对应的分类结果。

具体实施时，终端设备中安装有应用程序，用户可打开应用程序，触发应用程序中的语音输入功能以输入待处理语音，在用户点击提交按钮后，应用程序通过终端设备将待处理语音并发送给后台服务器。

具体实施时，后台服务器基于待处理语音的风格嵌入向量，获得至少一个分类任务对应的分类结果，并发送给终端设备。后台服务器的具体处理过程可参考图3所示的方法。

具体实施时，每一分类任务对应一个语音特征提取模型和一个分类器。后台服务器可将待处理语音分别输入至少一个分类任务对应的语音特征提取模型和分类器，以获得至少一个分类任务对应的分类结果。其中，每一分类任务对应的语音特征提取模型和分类器对待处理语音的处理方式，可参考图3，不再赘述。其中，同时进行的分类任务的数量和种类可根据应用需求确定。

具体实施时，多个分类任务也可使用一个通用的语音特征提取模型，即后台服务器将待处理语音输入该通用的语音特征提取模型，得到一个风格嵌入向量，然后将该风格嵌入向量分别输入各个分类任务对应的分类器，得到各个分类任务对应的分类结果。

具体实施时，后台服务器可进行的分类任务包括但不限于：识别用户年龄、识别用户性别、语种识别、口音识别以及音质识别等。具体分类任务可由应用程序的开发人员根据实际业务需要设定，以基于用户输入的语音获取用户信息和用户需求。

S702、接收并展示后台服务器发送的分类结果。

具体实施时，参考图8A，可在终端设备的应用界面80上展示每个分类结果801，以及每个分类结果对应的确认按钮802和修正按钮803。终端设备在收到后台服务器发送的分类结果后，可在应用界面80上生成的一个弹窗804，在弹窗804内展示多个分类结果801、以及各个分类结果分别对应的确认按钮802和修正按钮803，弹窗804中还可以显示提交按钮805和跳过按钮806。

以图8A所示的展示方式为例，本申请实施例的语音处理方法还包括如下步骤：响应针对任一分类结果对应的修正按钮，展示该分类结果对应的可选选项，可选选项包括该分类结果对应的分类任务包含的类别；响应针对展示的任一可选选项的选中操作，则确定用户反馈信息包括将该分类结果修正为选中操作对应的可选选项。

以图8A为例，若用户想要修改分类任务“英美语音分类”的分类结果“我们猜测，你想学习英式发音“，则可点击该分类结果对应的修正按钮803。参考图8B，用户点击修正按钮803后，应用程序在应用界面80上展示选项框806，选项框806中给出了分类任务“英美语音分类”对应的多个可选选项：英式发音、美式发音和英美混杂，用户可根据自己的需求选择一个可选选项，例如用户想要练习美式发音，则可以点击选项框806中的“美式发音”，此时应用程序确定分类任务“英美语音分类”的分类结果被修正为“美式发音”，并将分类任务“英美语音分类”的分类结果被修正为“美式发音”这一修正操作添加到用户反馈信息中。若用户确定分类结果无需修正，则可点击这些分类结果对应的确认按钮802，以向应用程序反馈这些分类结果是正确的，此时可将这些分类结果正确的信息也添加到用户反馈信息中。然后，用户可点击提交按钮804，由应用程序通过终端设备将用户反馈信息发送给后台服务器，并关闭弹窗804。后台服务器根据反馈信息，确定针对性别分类和年龄段分类的预测是准确的，并将“英美语音分类”的分类结果修正为“美式发音”，后续基于修正后的分类结果为用户推送个性化的服务内容。当然，用户也可以通过点击跳过按钮805放弃提交用户反馈信息的机会，同时关闭弹窗804。

具体实施时，若未触发任一修正按钮或者分类结果的确认按钮被触发，则确定用户反馈信息为不需要修正分类结果。以图8B为例，若用户认为展示的所有分类结果均正确，则用户可以逐个点击正确按钮802后点击提交按钮804，或者可以直接点击提交按钮804，此时，发送给后台服务器的用户反馈信息为不需要修正分类结果，表示用户认可展示的分类结果。

S703、将用户针对展示的分类结果输入的用户反馈信息发送给后台服务器，以使后台服务器基于用户反馈信息确定针对用户的个性化服务内容。

以图8B为例，用户反馈信息为：将“英美语音分类”的分类结果修正为“美式发音”，后台服务器对该用户的判断是：一位准备练习英式英语的小女孩，则后台服务器可以向该用户推荐适合儿童的英式英语的课程、动画视频等个性化服务内容。

S704、接收后台服务器发送的个性化服务内容。

终端设备接收后台服务器发送的个性化服务内容，并展示给用户，以供用户选择。

本申请实施例的语音处理方法，可从用户输入的语音中提取韵律学嵌入向量，基于韵律学嵌入向量准确预测用户信息和用户需求，基于预测的用户信息和用户需求，辅助应用程序为用户提供智能的、个性化的服务，让应用程序更懂用户，从而更好地提升产品的用户体验。

具体实施时，当终端设备接收到的至少一个分类任务对应的分类结果中包括待处理语音的音质差时，展示后台服务器发送的分类结果，还包括：展示当前录音环境嘈杂的提示信息。相应地，本申请实施例的语音处理方法还包括如下步骤：响应针对提示信息输入的重新录制操作，重新采集用户输入的语音，并将重新采集的语音发送给后台服务器。

具体实施时，还可以在终端设备实时采集语音的过程中，对实时采集的语音进行实时检测语音的音质，具体过程为：将实时采集的语音转换为韵律学嵌入向量，将韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据预设数量个GST获得表征语音韵律特征的风格嵌入向量，基于音质识别任务对应的分类器，根据风格嵌入向量获得待处理语音对应的分类结果。更加具体的实施方式可参考图3所示的方法，不再赘述。上述分类结果表示实时采集的语音的音质的好坏，若实时采集的语音的音质是差，则生成当前录音环境嘈杂的提示信息，用户可选择更换安静的环境重新录制，也可以选择忽略提示信息，继续录制。这样，终端设备可实时监测录音环境质量，当录音环境可能严重影响评测质量时，将及时提醒用户。

以“英语口语在线教育”领域的应用程序为例，该应用程序中的一个重要功能是对用户进行口语评测并给予一定指导。口语练习的形式是多样化的，例如单词发音练习、情景对话练习、短文跟读练习等。参考图9，为短文跟读练习的应用场景，用户选择跟读的文本后即可开始录音，点击结束根据按钮901即可终止录制，并将录制的语音上传到后台服务器，由后台服务器对应录制的语音进行评测并反馈结果。而用户的录音环境会在一定程度上影响口语评测的准确性，为此，终端设备可实时监测录音环境质量，当录音环境可能严重影响评测质量时，可通过弹窗的方式展示当前录音环境嘈杂的提示信息902，用户可选择安静的环境，并通过点击重新录制按钮903进行重新录制，也可以通过点击继续录制按钮904，选择忽略提示信息继续录制。

本申请的语音处理方法可封装成Open API，作为应用程序SDK的一部分，以服务的方式提供给应用程序的开发人员。开发人员可在此基础上进行二次开发，利用本申请提供的语音处理方法来改进应用程序的业务。

本申请实施例提供的语音处理方法，基于一套通用架构，以较低的成本较好地完成多种语音分类任务，可用于扩展产品功能、优化***性能、提高服务质量和提升用户体验，在后台服务器侧和前端的终端设备中均有广阔的应用前景。

如图10所示，基于与上述语音处理方法相同的发明构思，本申请实施例还提供了一种语音处理装置100，包括：韵律学模块1001、风格确定模块1002和分类模块1003。

韵律学模块1001，用于将待处理语音转换为韵律学嵌入向量；

风格确定模块1002，用于将韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据预设数量个GST获得表征语音韵律特征的风格嵌入向量；

分类模块1003，用于根据风格嵌入向量获得待处理语音对应的分类结果。

可选地，韵律学模块1001，具体用于基于已训练的韵律学编码器，将待处理语音转换为韵律学嵌入向量；

风格确定模块1002，具体用于基于已训练的第一注意力模块，将韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据预设数量个GST获得表征语音韵律特征的风格嵌入向量；其中：

已训练的韵律学编码器和已训练的第一注意力模块，是基于语音训练数据集训练语音合成模型而获得的，其中，语音训练数据集中包括多种分类任务的语音训练数据，每个语音训练数据包括一个训练语音和训练语音对应的文本，初始语音合成模型包括韵律学编码器、语音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器。

可选地，分类结果包括至少一个，各个分类结果对应于不同的分类任务，韵律学模块1001，具体用于：针对每一个分类任务，基于分类任务对应的已训练的韵律学编码器，将待处理语音转换为韵律学嵌入向量；

风格确定模块1002，具体用于：针对每一个分类任务，基于分类任务对应的已训练的第一注意力模块，将韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据预设数量个GST获得表征语音韵律特征的风格嵌入向量；其中：

已训练的韵律学编码器和已训练的第一注意力模块，是基于分类任务对应的领域训练数据集训练通用语音合成模型而获得的，其中，领域训练数据集中的每个训练数据包括分类任务所属领域的一个专用训练语音和专用训练语音对应的文本；

通用语音合成模型是基于通用训练数据集训练初始语音合成模型而获得的，其中，通用训练数据集中包括多种分类任务的训练数据，每个训练数据包括一个通用训练语音和通用训练语音对应的文本，初始语音合成模型包括韵律学编码器、音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器。

可选地，基于分类任务对应的领域训练数据集训练通用语音合成模型的过程中，调整的参数包括：通用语音合成模型中的第一注意力模块的参数。

可选地，分类结果包括至少一个，各个分类结果对应于不同的分类任务，分类模块1003，具体用于：针对每一个分类任务，基于分类任务对应的分类器，根据风格嵌入向量获得待处理语音对应的分类结果，其中，分类器是基于分类任务对应的分类训练数据集对分类器进行训练获得的，分类训练数据集中的每个训练数据包括分类任务所属领域的一个语音数据和语音数据对应的分类标签。

可选地，基于分类任务对应的分类训练数据集对分类器进行训练，具体包括：

基于已训练的韵律学编码器将分类训练数据集中的各个语音数据转换为对应的韵律学嵌入向量；

基于已训练的第一注意力模块将每个语音数据对应的韵律学嵌入向量分解为预设数量个基础嵌入GST，并对预设数量个GST进行加权，获得每个语音数据对应的风格嵌入向量；

基于分类训练数据集中各个语音数据对应的风格嵌入向量和分类标签，训练分类器。

可选地，分类任务包括以下至少一种：识别用户年龄、识别用户性别、语种识别、口音识别以及音质识别。

如图11所示，基于与上述语音处理方法相同的发明构思，本申请实施例还提供了一种语音处理装置110，包括：获取模块1101、发送模块1102、接收模块1103和展示模块1104。

获取模块1101，用于获取用户输入的待处理语音；

发送模块1102，用于将待处理语音发送给后台服务器，以使后台服务器获得待处理语音对应的至少一个分类任务对应的分类结果；

接收模块1103，用于接收后台服务器发送的分类结果；

展示模块1104，用于展示后台服务器发送的分类结果；

发送模块1102，还用于将用户针对展示的分类结果输入的用户反馈信息发送给后台服务器，以使后台服务器基于用户反馈信息确定针对用户的个性化服务内容；

接收模块1103，还用于接收后台服务器发送的个性化服务内容。

可选地，展示模块1104，具体用于：展示每个分类结果以及每个分类结果对应的修正按钮；

展示模块1104，还用于：响应针对任一分类结果对应的修正按钮，展示任一分类结果对应的可选选项，可选选项包括任一分类结果对应的分类任务包含的类别；响应针对展示的任一可选选项的选中操作，则确定用户反馈信息包括将任一分类结果修正为任一可选选项。

可选地，展示模块1104，还用于若未触发任一修正按钮，则确定用户反馈信息为不需要修正分类结果。

可选地，当至少一个分类任务对应的分类结果中包括待处理语音的音质差时，展示模块1104，还用于展示当前录音环境嘈杂的提示信息；响应针对提示信息输入的重新录制操作，重新采集用户输入的语音，并将重新采集的语音发送给后台服务器。

本申请实施例提的语音处理装置与上述语音处理方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

如图12所示，基于与上述语音特征提取模型的训练相同的发明构思，本申请实施例还提供了一种语音特征提取模型的训练装置120，包括：通用训练模块1201、专用训练模块1202以及模型确定模块1203。

通用训练模块1201，用于基于通用训练数据集训练初始语音合成模型，获得通用语音合成模型，其中，通用训练数据集中包括多种分类任务的训练数据，每个训练数据包括一个通用训练语音和通用训练语音对应的文本，初始语音合成模型包括韵律学编码器、音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器；

专用训练模块1202，用于基于分类任务对应的领域训练数据集训练通用语音合成模型，获得分类任务对应的专用语音合成模型，其中，领域训练数据集中的每个训练数据包括分类任务所属领域的一个专用训练语音和专用训练语音对应的文本；

模型确定模块1203，用于基于专用语音合成模型，获得分类任务对应的用于提取风格嵌入向量的语音特征提取模型，语音特征提取模型包括专用语音合成模型中的韵律学编码器和第一注意力模块。

基于与上述语音处理方法相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备具体可以为图2所示的终端设备或后台服务器等。如图13所示，该电子设备130可以包括处理器1301和存储器1302。

处理器1301可以是通用处理器，例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1302作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1302还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

本申请实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行本申请实施例所公开的任一方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

以上，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本申请实施例的方法，不应理解为对本申请实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种语音处理方法，其特征在于，包括：

将待处理语音转换为韵律学嵌入向量；

根据所述风格嵌入向量获得所述待处理语音对应的分类结果；

其中，所述分类结果包括至少一个，各个分类结果对应于不同的分类任务，针对每一个分类任务：

基于分类任务对应的分类器，根据所述风格嵌入向量获得所述待处理语音对应的分类结果，其中，所述分类器是基于所述分类任务对应的分类训练数据集对分类器进行训练获得的，所述分类训练数据集中的每个训练数据包括所述分类任务所属领域的一个语音数据和语音数据对应的分类标签。

2.根据权利要求1所述的方法，其特征在于，

基于已训练的韵律学编码器，将待处理语音转换为韵律学嵌入向量；

基于已训练的第一注意力模块，将所述韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据所述预设数量个GST获得表征语音韵律特征的风格嵌入向量，其中：

所述已训练的韵律学编码器和所述已训练的第一注意力模块，是基于语音训练数据集训练语音合成模型而获得的，其中，所述语音训练数据集中包括多种分类任务的语音训练数据，每个语音训练数据包括一个训练语音和训练语音对应的文本，初始语音合成模型包括韵律学编码器、音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器。

3.根据权利要求1所述的方法，其特征在于，所述分类结果包括至少一个，各个分类结果对应于不同的分类任务，针对每一个分类任务：

基于分类任务对应的已训练的韵律学编码器，将待处理语音转换为韵律学嵌入向量；

基于所述分类任务对应的已训练的第一注意力模块，将所述韵律学嵌入向量分解为预设数量个基础嵌入GST，并根据所述预设数量个GST获得表征语音韵律特征的风格嵌入向量，其中：

所述通用语音合成模型是基于通用训练数据集训练初始语音合成模型而获得的，其中，所述通用训练数据集中包括多种分类任务的训练数据，每个训练数据包括一个通用训练语音和通用训练语音对应的文本，所述初始语音合成模型包括韵律学编码器、音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器。

4.根据权利要求3所述的方法，其特征在于，所述基于分类任务对应的领域训练数据集训练通用语音合成模型的过程中，调整的参数包括：所述通用语音合成模型中的第一注意力模块的参数。

5.根据权利要求1所述的方法，其特征在于，所述基于所述分类任务对应的分类训练数据集对分类器进行训练，具体包括：

基于已训练的韵律学编码器将所述分类训练数据集中的各个语音数据转换为对应的韵律学嵌入向量；

基于已训练的第一注意力模块将每个语音数据对应的韵律学嵌入向量分解为预设数量个基础嵌入GST，并对所述预设数量个GST进行加权，获得每个语音数据对应的风格嵌入向量；

6.一种语音特征提取模型的训练方法，其特征在于，包括：

基于通用训练数据集训练初始语音合成模型，获得通用语音合成模型，其中，所述通用训练数据集中包括多种分类任务的训练数据，每个训练数据包括一个通用训练语音和通用训练语音对应的文本，所述初始语音合成模型包括韵律学编码器、音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器；

基于所述专用语音合成模型，获得所述分类任务对应的用于提取风格嵌入向量的语音特征提取模型，所述语音特征提取模型包括所述专用语音合成模型中的韵律学编码器和第一注意力模块，其中，所述风格嵌入向量用于获取待处理语音对应的分类结果，所述分类结果包括至少一个，各个分类结果对应于不同的分类任务，针对每一个分类任务，基于分类任务对应的分类器，根据所述风格嵌入向量获得所述待处理语音对应的分类结果，其中，所述分类器是基于所述分类任务对应的分类训练数据集对分类器进行训练获得的，所述分类训练数据集中的每个训练数据包括所述分类任务所属领域的一个语音数据和语音数据对应的分类标签。

7.一种语音处理装置，其特征在于，包括：

韵律学模块，用于将待处理语音转换为韵律学嵌入向量；

分类模块，用于根据所述风格嵌入向量获得所述待处理语音对应的分类结果；

其中，所述分类结果包括至少一个，各个分类结果对应于不同的分类任务，所述分类模块，具体用于：针对每一个分类任务，基于分类任务对应的分类器，根据所述风格嵌入向量获得所述待处理语音对应的分类结果，其中，所述分类器是基于所述分类任务对应的分类训练数据集对分类器进行训练获得的，所述分类训练数据集中的每个训练数据包括所述分类任务所属领域的一个语音数据和语音数据对应的分类标签。

8.一种语音特征提取模型的训练装置，其特征在于，包括：

通用训练模块，用于基于通用训练数据集训练初始语音合成模型，获得通用语音合成模型，其中，所述通用训练数据集中包括多种分类任务的训练数据，每个训练数据包括一个通用训练语音和通用训练语音对应的文本，所述初始语音合成模型包括韵律学编码器、音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器；

模型确定模块，用于基于所述专用语音合成模型，获得所述分类任务对应的用于提取风格嵌入向量的语音特征提取模型，所述语音特征提取模型包括所述专用语音合成模型中的韵律学编码器和第一注意力模块，其中，所述风格嵌入向量用于获取待处理语音对应的分类结果，所述分类结果包括至少一个，各个分类结果对应于不同的分类任务，针对每一个分类任务，基于分类任务对应的分类器，根据所述风格嵌入向量获得所述待处理语音对应的分类结果，其中，所述分类器是基于所述分类任务对应的分类训练数据集对分类器进行训练获得的，所述分类训练数据集中的每个训练数据包括所述分类任务所属领域的一个语音数据和语音数据对应的分类标签。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至6任一项所述方法的步骤。