CN114822495B

CN114822495B - 声学模型训练方法、装置及语音合成方法

Info

Publication number: CN114822495B
Application number: CN202210745256.XA
Authority: CN
Inventors: 谌明; 徐欣康; 胡新辉; 赵旭东
Original assignee: Hangzhou Tonghuashun Data Development Co ltd
Current assignee: Hangzhou Tonghuashun Data Development Co ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-10-14
Anticipated expiration: 2042-06-29
Also published as: US20240005905A1; CN114822495A

Abstract

本说明书实施例提供一种声学模型训练方法、装置及语音合成方法，其中，所述声学模型训练方法包括：获取多个样本，所述样本包括样本文本输入、与所述样本文本输入对应的样本情感标签以及与所述样本文本输入对应的样本参考梅尔谱；将所述多个样本输入声学模型；基于损失目标，迭代调整所述声学模型的模型参数，直至训练完成。

Description

声学模型训练方法、装置及语音合成方法

技术领域

本说明书涉及人工智能技术领域，特别涉及一种声学模型训练方法、装置及语音合成方法。

背景技术

随着机器学习的发展，语音合成技术越发成熟。然而，现有的语音合成技术仍然存在较多问题，例如，语音生硬不自然，缺乏丰富的情感表达等。因此，有必要提供一种语音合成方法，提升机器人语音的自然感及情感丰富程度。

发明内容

本说明书实施例提供一种声学模型训练方法，所述方法包括：获取多个样本，所述样本包括样本文本输入、与所述样本文本输入对应的样本情感标签以及与所述样本文本输入对应的样本参考梅尔谱；将所述多个样本输入声学模型；基于损失目标，迭代调整所述声学模型的模型参数，直至训练完成。

在一些实施例中，所述声学模型包括：编码器，用于确定所述样本文本输入的文本序列向量；有监督模块，用于确定所述样本情感标签对应的样本情感嵌入向量；无监督模块，用于确定所述样本参考梅尔谱对应的样本参考风格向量。

在一些实施例中，所述声学模型还包括：向量处理模块，用于基于所述样本情感嵌入向量和所述样本参考风格向量的加和，确定综合情感向量，其中，所述综合情感向量为字符级嵌入向量。

在一些实施例中，所述声学模型还包括：解码器，用于基于所述文本序列向量和所述综合情感向量的级联向量，确定预测梅尔谱。

在一些实施例中，所述向量处理模块还用于确定隐状态向量；所述声学模型还包括：情感分类器，用于基于所述隐状态向量确定向量情感类别。

在一些实施例中，所述声学模型还包括：向量预测模块，用于基于所述文本序列向量，确定样本预测风格向量。

在一些实施例中，所述声学模型还包括：情感鉴别模块，用于确定所述预测梅尔谱对应的预测深度情感特征和所述参考梅尔谱对应的参考深度情感特征。

在一些实施例中，所述损失目标包括以下内容中的至少一个：所述样本预测风格向量与所述参考风格向量间的差异损失；所述情感类别的分类损失；所述预测梅尔谱与所述参考梅尔谱的差异损失；所述预测深度情感特征和所述参考深度情感特征的差异损失。

本说明书实施例还提供一种语音合成方法，所述方法包括：获取文本输入和所述文本输入对应的情感标签；基于所述文本输入和所述情感标签，通过训练好的声学模型，生成所述文本输入对应的预测梅尔谱；基于所述预测梅尔谱，生成所述文本输入对应的预测语音。

本说明书实施例还提供一种声学模型训练装置，所述装置包括：至少一个存储介质，所述存储介质包括计算机指令；至少一个处理器，所述至少一个处理器用于执行所述计算机指令，以实现如上任一项所述的方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的示例性语音合成***的应用场景示意图。

图2是根据本说明书一些实施例所示的示例性语音合成方法的流程图。

图3是根据本说明书一些实施例所示的示例性声学模型训练方法的流程图。

图4是根据本说明书一些实施例所示的示例性声学模型的示意图。

图5是根据本说明书一些实施例所示的示例性声学模型的训练过程示意图。

图6是根据本说明书一些实施例所示的示例性语音合成过程的示意图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

虽然本说明书对根据本说明书的实施例的***中的某些模块或单元做出了各种引用，然而，任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的，并且所述***和方法的不同方面可以使用不同模块。

本说明书中使用了流程图用来说明根据本说明书的实施例的***所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

应当理解，本文使用的“***”、“装置”、“模块”和/或“器件”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

在一些实施例中，语音合成***100可以适用于人机对话、有声阅读、语音助手、语音翻译、变声等。

在一些实施例中，语音合成***100可以包括终端设备110、存储设备120、处理设备130以及网络140。在一些实施例中，语音合成***100中的各个部件可以以多种方式相互连接。例如，终端设备110可以与处理设备130通过网络140连接，也可以与处理设备130直接连接（如图1中终端设备110和处理设备130之间的虚线箭头所示的双向连接）。又例如，存储设备120可以与处理设备130直接连接或通过网络140连接。又例如，终端设备110可以与存储设备120通过网络140连接，也可以与存储设备120直接连接（如图1中终端设备110和存储设备120之间的虚线箭头所示的双向连接）。

终端设备110可以接收、发送、输入和/或输出数据。在一些实施例中，终端设备110接收、发送、输入和/或输出的数据可以包括文本数据、语音数据、计算机指令等。例如，终端设备110可以获取用户输入数据（例如，语音输入、按键输入），将用户输入数据发送至处理设备130进行处理，并接收处理设备130基于用户输入数据生成的响应数据。进一步地，终端设备110可以将响应数据以语音的方式输出以实现人机交互。又例如，终端设备110可以从存储设备120获取文本数据，并对文本数据进行处理以生成语音数据；或将文本数据发送至处理设备130进行处理，并接收处理设备130对文本数据进行处理后得到的响应数据。

在一些实施例中，终端设备110接收的响应数据可以包括语音数据、文本数据、计算机指令等或其任意组合。当响应数据为语音数据时，终端设备110可以通过喇叭或扬声器等输出设备输出语音数据；当响应数据为文本数据或计算机指令时，终端设备110可以对文本数据或计算机指令进行处理，以生成语音数据。

在一些实施例中，终端设备110可以包括移动设备111、平板计算机112、膝上型计算机113、机器人114等或其任意组合。例如，移动设备111可以包括移动电话、个人数字助理（PDA）等或其任意组合。又例如，机器人114可以包括服务机器人、教学机器人、智能管家、语音助手等或其任意组合。

在一些实施例中，终端设备110可以包括输入设备、输出设备等。在一些实施例中，输入设备可以包括鼠标、键盘、麦克风、摄像机等或其任意组合。在一些实施例中，输入设备可以采用键盘输入、触摸屏输入、语音输入、手势输入或任何其他类似的输入机制。通过输入设备接收的输入信息可以通过网络140传输到处理设备130，以进行进一步处理。在一些实施例中，输出设备可以包括显示器、扬声器、打印机等或其任意组合，在一些实施例中，输出设备可以用于输出终端设备110从处理设备130接收的响应数据。

存储设备120可以储存数据、指令和/或任何其他信息。在一些实施例中，存储设备120可以存储从终端设备110和/或处理设备130获取的数据。例如，存储设备120可以存储终端设备110获取的用户输入数据。在一些实施例中，存储设备120可以存储终端设备110或处理设备130用来执行或使用以完成本说明书中描述的示例性方法的数据和/或指令。

在一些实施例中，存储设备120可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器（ROM）等或其任意组合。在一些实施例中，存储设备120可以在云平台上实现。仅作为示例，云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，存储设备120可以连接到网络140以与语音合成***100中的至少一个其他组件（例如，终端设备110、处理设备130）通信。语音合成***100中的至少一个组件可以通过网络140访问存储设备120中存储的数据、指令或其他信息。在一些实施例中，存储设备120可以与***100中的一个或以上组件（例如，终端设备110、终端设备110）直接连接或通信。在一些实施例中，存储设备120可以是终端设备110和/或处理设备130的一部分。

处理设备130可以处理从终端设备110或存储设备120获取的数据和/或信息。在一些实施例中，处理设备130可以从存储设备120获取预先存储的计算机指令，并执行该计算机指令以实现本说明书涉及的方法和/或过程。例如，处理设备130可以从终端设备110获取用户输入数据，并生成用户输入数据所对应的响应数据。又例如，处理设备130可以基于样本信息训练声学模型。又例如，处理设备130可以基于文本信息和训练好的声学模型，生成预测梅尔谱，并基于预测梅尔谱生成相应的语音响应数据。

在一些实施例中，处理设备130可以是单一服务器或服务器组。服务器组可以是集中式的或分布式的。在一些实施例中，处理设备130可以是本地或远程的。例如，处理设备130可以通过网络140从终端设备110和/或存储设备120访问信息和/或数据。又例如，处理设备130可以直接连接到终端设备110和/或存储设备120以访问信息和/或数据。在一些实施例中，处理设备130可以在云平台上实现。例如，云平台可以包括私有云、公共云、混合云、社区云、分布式云、云间云、多云等或其任意组合。

网络140可以促进信息和/或数据的交换。网络140可以包括能够促进语音合成***100的信息和/或数据交换的任何合适的网络。在一些实施例中，语音合成***100的至少一个组件（例如，终端设备110、处理设备130、存储设备120）可以通过网络140与至少一个其他组件交换信息和/或数据。例如，处理设备130可以通过网络140从终端设备110获取用户输入数据。又例如，终端设备110可以通过网络140从处理设备130或存储设备120获取响应数据。

在一些实施例中，网络140可以为任意形式的有线或无线网络，或其任意组合。仅作为示例，网络140可以包括缆线网络、有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网络（LAN）、广域网络（WAN）、无线局域网络（WLAN）、城域网（MAN）、公共开关电话网络（PSTN）、蓝牙网络、ZigBee网络、近场通讯（NFC）网络等或其任意组合。在一些实施例中，网络140可以包括至少一个网络接入点。例如，网络140可以包括有线和/或无线网络接入点（例如，基站和/或互联网交换点），语音合成***100的至少一个组件可以通过接入点连接到网络140以交换数据和/或信息。

应当注意的是，上述有关语音合成***100的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对语音合成***100进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

图2是根据本说明书一些实施例所示的示例性语音合成方法的流程图。在一些实施例中，语音合成方法200可以通过处理逻辑执行，处理逻辑可以包括硬件（例如，电路、专用逻辑、可编程逻辑、微代码等）、软件（例如，计算机指令）等或其任意组合。图2所示的一个或多个操作可以通过图1所示的终端设备110和/或处理设备130实现。例如，语音合成方法200可以以指令的形式存储在存储设备120中，并由终端设备110和/或处理设备130执行调用和/或执行。

步骤210，获取文本输入和文本输入对应的情感标签。

在一些实施例中，文本输入可以指需要转换为语音的文本数据。在一些实施例中，文本输入可以包括字、词、字符、句子等或其任意组合。

在一些实施例中，文本输入的语言可以包括中文、英文、日文、韩文等或其任意组合。

在一些实施例中，文本输入可以从存储设备120获取。例如，终端设备110和/或处理设备130可以基于语音合成需求，从存储设备120中读取文本数据作为文本输入。

在一些实施例中，文本输入可以基于用户输入获取。例如，终端设备110和/或处理设备130可以接收用户输入（例如，文本输入、语音输入），并对用户输入进行分析处理以生成响应用户输入的文本数据，该文本数据可以作为步骤210所述的文本输入。

在一些实施例中，情感标签可以体现文本输入的基本情感基调或情感特点。在一些实施例中，情感标签可以包括中性、开心、悲伤、生气、害怕、厌恶、惊讶等或其任意组合。

在一些实施例中，情感标签可以预先配置。例如，可以对文本数据中的至少一个句子/词语/字符等配置对应的情感标签，并将情感标签与文本数据一同存储在存储设备120中。当终端设备110和/或处理设备130从存储设备120读取文本数据时，可以同时获取文本数据所对应的情感标签。

在一些实施例中，情感标签可以通过对文本输入进行处理确定。例如，结合上文，当文本输入为响应用户输入的文本数据时，可以通过检索数据库或提取特征等方式确定文本输入所对应的情感标签。又例如，类似地，当文本输入为响应用户输入的文本数据时，可以通过人工手动方式添加对应的情感标签。

步骤220，基于文本输入和情感标签，通过训练好的声学模型，生成文本输入对应的预测梅尔谱。

在一些实施例中，预测梅尔谱可以指基于文本输入及情感标签处理得到的声学特征数据。

在一些实施例中，训练好的声学模型可以配置在终端设备110和/或处理设备130。在一些实施例中，声学模型的训练过程中会对样本进行多种处理（例如，字符级的情感嵌入处理），使得训练好的声学模型可以产生丰富的情感表达。相应地，基于训练好的声学模型所生成的预测梅尔谱具有丰富的情感表达。关于声学模型的更多内容可以参照本说明书的其他部分（例如，图3~图5部分及其相关论述），此处不再赘述。

步骤230，基于预测梅尔谱，生成文本输入对应的预测语音。

在一些实施例中，在通过训练好的声学模型得到前述预测梅尔谱之后，可以通过声码器对预测梅尔谱进行进一步处理，以生成前述文本输入所对应的预测语音。

在一些实施例中，声码器可以基于声学特征数据，生成相应的语音。在一些实施例中，声码器可以控制合成语音的音质。

在一些实施例中，声码器可以包括生成器和判别器。在一些实施例中，生成器可以包括HiFi-GAN生成器。在一些实施例中，生成器可以采用子带编码技术，大大提升合成速度（例如，合成速度提升一倍以上）。在一些实施例中，判别器可以包括fre-GAN判别器。在一些实施例中，判别器可以采用离散小波变换进行下采样。相应地，可以保留高频信息，从而减少模型输出中高频部分的失真。

应当注意的是，上述有关语音合成方法200的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对语音合成方法200进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。关于语音合成方法200的更多内容可以参照本说明书的其他位置（例如，图6部分及其相关论述），此处不再赘述。

图3是根据本说明书一些实施例所示的示例性声学模型训练方法的流程图。在一些实施例中，声学模型训练方法300可以由终端设备110和/或处理设备130执行。在一些实施例中，声学模型训练方法300可以由单独的声学模型训练装置执行。

步骤310，获取多个样本。

在一些实施例中，训练样本可以包括样本文本输入、与样本文本输入对应的样本情感标签以及与样本文本输入对应的样本参考梅尔谱。

在一些实施例中，结合步骤210所述，样本文本输入可以指训练样本中的文本数据；样本情感标签可以体现样本文本输入的基本情感基调或情感特点；样本参考梅尔谱可以指样本文本输入相对应的真实语音（或标准语音）所对应的梅尔谱。

在一些实施例中，多个样本中可以包括多种语言所对应的样本文本输入，从而使得声学模型具备多种语言的处理能力。

在一些实施例中，多个样本中的至少部分内容可以从存储设备120和/或外部数据库获取。

步骤320，将多个样本输入声学模型。

在一些实施例中，可以将多个样本输入声学模型进行模型训练。在一些实施例中，声学模型可以包括以Tacotron2或DeepVoice3等为基础的声学模型。

如图4所示，在一些实施例中，声学模型400可以包括编码器410、有监督模块420、无监督模块430、向量处理模块440、解码器450、情感分类器460、向量预测模块470以及情感鉴别模块480。

编码器410可以用于确定样本文本输入的文本序列向量。具体地，当前述多个样本输入声学模型后，可以通过编码器410，将样本中所包含的样本文本输入转换为文本序列向量。在一些实施例中，文本序列向量可以指样本文本输入所对应的向量表示。

有监督模块420可以确定样本情感标签对应的样本情感嵌入向量。具体地，当前述多个样本输入声学模型后，可以通过有监督模块420处理样本中所包含的样本情感标签，得到其对应的样本情感嵌入向量。在一些实施例中，样本情感嵌入向量可以指样本文本输入所对应的情感的向量表示。在本说明书中，“有监督”可以指广义的通过预先设定标签的有监督模型训练方式。

无监督模块430可以确定样本参考梅尔谱所对应的样本参考风格向量。具体地，当前述多个样本输入声学模型后，可以通过无监督模块430处理样本中所包含的样本参考梅尔谱，得到其对应的样本参考风格向量。在一些实施例中，样本参考风格向量可以指样本文本输入所对应的风格（例如，严肃、幽默、低沉等）的向量表示。在本说明书中，“无监督”可以指广义的无预先设定标签的无监督训练方式。

在本说明书实施例中，在通过有监督模块420生成样本文本输入所对应的样本情感嵌入向量后，同时通过无监督模块430从样本参考梅尔谱中提取样本文本输入所对应的样本参考风格向量。相应地，可以综合考虑不同文本输入的不同情感表达方式或强弱等，使得情感表达更丰富。通过有监督模块420和无监督模块430的结合，可以综合考虑样本文本输入对应的情感和风格，从而使得后续处理得到的合成语音更加真实自然，并富有情感。

向量处理模块440可以基于样本情感嵌入向量和样本参考风格向量的加和，确定综合情感向量。在一些实施例中，综合情感向量可以为字符级嵌入向量，从而可以更准确地控制句子、词语乃至于字符的情感表达。与句子级的嵌入向量相比，字符级嵌入向量可以解决句子级的风格嵌入粒度较粗的问题，更能体现一个句子中不同字词或不同字符的风格变化。

解码器450可以基于前述文本序列向量和综合情感向量的级联向量，确定预测梅尔谱。具体地，可以通过将本序列向量和综合情感向量相加得到文本序列向量和综合情感向量的级联向量。在一些实施例中，还可以通过其他方式（例如，向量相乘方式）得到级联向量，本说明书对此不作限制。

在一些实施例中，向量处理模块440还可以用于确定隐状态向量，隐状态向量可以理解为与前述综合情感向量相关的低维密集的嵌入向量。进一步地，情感分类器460可以基于隐状态向量确定对应的向量情感类别。在一些实施例中，可以基于情感类别与样本情感标签的差异和/或关联，调整和/或更新有监督模块420、向量处理模块440和/或情感分类器460的内部参数。通过情感分类器460，可以对前述字符级的综合情感向量起到约束作用，从而增强合成语音情感的准确性。

向量预测模块470可以基于前述文本序列向量，确定样本预测风格向量。在一些实施例中，样本预测风格向量可以指对样本文本输入所对应的风格预测结果。在一些实施例中，可以基于样本预测风格向量与样本参考风格向量的差异和/或关联，调整和/或更新无监督模块430和/或向量预测模块470的内部参数。

情感鉴别模块480可以用于确定前述预测梅尔谱对应的预测深度情感特征和样本参考梅尔谱对应的参考深度情感特征。在一些实施例中，可以基于预测深度情感特征与参考深度情感特征的差异和/或关联，调整和/或更新解码器450的内部参数。

需要注意的是，上述关于声学模型400的描述仅出于说明性目的而提供，并不旨在限制本说明书的范围。可以理解，对于本领域的技术人员来说，可以根据本说明书的描述，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子***与其他模块连接。例如，图4中披露的编码器410、有监督模块420、无监督模块430、向量处理模块440、解码器450、情感分类器460、向量预测模块470、情感鉴别模块480可以是一个模型中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。例如，有监督模块420、无监督模块430可以是两个模块，也可以是一个模块同时具有有监督学习功能和无监督学习功能。又例如，参考风格向量编码器、向量预测模块470、情感鉴别模块480等模块或器件可以采用其他的结构代替。再例如，各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

关于上述模块的更多内容可以参照图5部分，此处不再赘述。

步骤330，基于损失目标，迭代调整声学模型的模型参数，直至训练完成。

在一些实施例中，损失目标（也可以称之为“损失函数”）可以包括样本预测风格向量与参考风格向量间的差异损失、情感类别的分类损失（例如，向量情感类别与样本情感标签之间的差异损失）、预测梅尔谱与样本参考梅尔谱的差异损失或预测深度情感特征和参考深度情感特征的差异损失中的至少一个。

仅作为示例，损失目标可以包括：

其中，L_emb表示样本预测风格向量与参考风格向量间的差异损失，其可以等于样本预测风格向量V_style_pd与参考风格向量V_style之间的平均平方差；L_cls表示情感类别的分类损失，其可以等于向量情感类别score_h与样本情感标签e之间的交叉熵；L_mel表示预测梅尔谱与样本参考梅尔谱的差异损失，其可以等于预测梅尔谱m_pd与样本参考梅尔谱之间的平均平方差；L_style表示预测深度情感特征和参考深度情感特征的差异损失，其可以等于StyleLoss(fmap_gt, fmap_pd)，fmap_gt表示参考深度情感特征，fmap_pd表示预测深度情感特征，StyleLoss可以为两个张量的格莱姆矩阵MSE。

在一些实施例中，损失目标L = L_emb + L_cls + L_mel + L_style。在一些实施例中，损失目标还可以是其他形式，例如，L = L_emb + L_cls + L_mel 或L = L_cls + L_mel + L_style，本说明书对此不作限制。

在一些实施例中，可以在损失目标达到预设阈值时结束训练。在一些实施例中，可以在迭代次数达到指定要求时结束训练。在一些实施例中，可以设定其他的训练终止条件，本说明书对此不作限制。

在本说明书实施例中，采用多维度的损失目标对声学模型进行训练，使得声学模型对输入文本的处理结果更加精确、输出情感信息更加丰富。

如图5所示，声学模型训练时的输入可以包括样本文本输入、样本情感标签以及样本参考梅尔谱。

将训练样本输入声学模型后，编码器410可以对训练样本中的样本文本输入进行处理，得到样本文本输入对应的文本序列向量；有监督模块420可以对训练样本中的样本情感标签进行处理，得到与样本文本输入对应的样本情感嵌入向量；无监督模块430可以对训练样本中的样本参考梅尔谱进行处理，得到样本文本输入对应的样本参考风格向量。

在一些实施例中，编码器410可以将样本文本输入转换为one hot编码，其可以采用word2vec、doc2vec、TFIDF、FastText中的任意一种或多种文本编码方式。在一些实施例中，有监督模块420可以包括情感嵌入字典、情感嵌入数据库等。在一些实施例中，无监督模块430可以包括参考风格向量编码器。在一些实施例中，参考风格向量编码器可以包括CNN（Convolutional Neural Network）和RNN（Recurrent Neural Network）的结合。例如，5层CNN与1层RNN的结合。在一些实施例中，参考风格向量编码器还可以通过其他形式实现，例如，可以包括更多或更少的CNN网络和/或RNN网络，本说明书对此不作限制。

向量处理模块440可以基于有监督模块420处理得到的样本情感嵌入向量与无监督模块430处理得到的样本参考风格向量的向量加和，确定文本输入对应的综合情感向量。如本说明书其他位置所述，综合情感向量为字符级嵌入向量。进一步地，向量处理模块440还可以生成与该综合情感向量相关的隐状态向量。在一些实施例中，向量处理模块440可以包括RNN。

解码器450可以基于编码器410处理得到的文本序列向量与向量处理模块440处理得到的综合情感向量的级联向量，生成预测梅尔谱。进一步地，情感鉴别模块480可以分别对样本参考梅尔谱以及解码器450处理得到的预测梅尔谱进行处理，得到预测梅尔谱对应的预测深度情感特征和样本参考梅尔谱对应的参考深度情感特征。在一些实施例中，可以基于预测深度情感特征与参考深度情感特征的差异和/或关联，调整和/或更新解码器450的内部参数，以提升声学模型确定预测梅尔谱的能力。

在一些实施例中，解码器450可以包括动态解码网络和/或静态解码网络。在一些实施例中，情感鉴别模块480可以通过预先训练得到。在一些实施例中，情感鉴别模块480可以包括双向GRU（Gated Recurrent Unit）、池化层和线性层。在一些实施例中，可以取池化层后的预设维度（例如，80维）的特征作为深度特征。

情感分类器460可以基于向量处理模块440输出的隐状态向量确定对应的向量情感类别。在一些实施例中，可以基于情感类别与样本情感标签的差异和/或关联，调整和/或更新有监督模块420、向量处理模块440和/或情感分类器460的内部参数，以提升声学模型确定情感表达的能力。

向量预测模块470可以对编码器410处理得到的文本序列向量进行进一步处理，得到预测风格向量。在一些实施例中，可以基于样本预测风格向量与样本参考风格向量的差异和/或关联，调整和/或更新无监督模块430和/或向量预测模块470的内部参数，以提升声学模型确定风格的能力。

具体的损失目标的形式可见图3部分及其相关描述，此处不再赘述。

在一些实施例中，情感分类器460可以包括线性分类器。在一些实施例中，向量预测模块470可以包括RNN（Recurrent Neural Network）和Linear（Linear Nerual Network）的结合。例如，1层RNN和两层Linear的结合。

需要说明的是，以上关于声学模型的训练过程的描述仅为示例性说明，在一些实施例中，该声学模型的训练过程可以更多或更少，甚至不同的步骤。

结合前文，在得到前述训练好的声学模型后，由于各个模块均已掌握相应的数据处理能力，因此声学模型可以直接基于文本输入以及该文本输入对应的情感标签生成与文本输入对应的预测梅尔谱。

需要说明的是，在一些实施例中，声学模型的输入可以仅包括文本输入，这种情况下，声学模型可以通过对文本输入进行处理，得到文本输入对应的情感标签，进而根据文本输入及其对应的情感标签得到与文本输入对应的预测梅尔谱。

具体地，当将文本输入输入到训练好的声学模型后，编码器410可以对文本输入进行处理，得到对应的文本序列向量。此外，可以通过情感嵌入字典确定情感标签对应的情感嵌入向量。

向量预测模块470可以对文本序列向量进行处理，得到文本输入对应的预测风格向量。

向量处理模块440可以基于预测风格向量与情感嵌入向量的加和以及编码器410处理得到的文本序列向量，确定文本输入所对应的综合情感向量。

进一步地，解码器450可以基于编码器410处理得到的文本序列向量与向量处理模块440处理得到的综合情感向量的级联向量，生成输入文本所对应的包含情感信息的预测梅尔谱。

在通过声学模型得到与文本输入对应的预测梅尔谱之后，可以进一步通过声码器对预测梅尔谱进行处理，从而得到与文本输入对应的真实自然的、富有感情色彩的预测语音。

可以看出，声学模型的输入为文本输入和情感标签，输出为预测梅尔谱，整体结构为端到端方式，简洁高效。

本说明书实施例还提供一种声学模型训练装置，包括至少一个存储介质以及至少一个处理器，其中，存储介质包括计算机指令。至少一个处理器用于执行计算机指令，以实现本说明书所述的声学模型训练方法。

本说明书实施例还提供一种语音合成装置，包括至少一个存储介质以及至少一个处理器，其中，存储介质包括计算机指令。至少一个处理器用于执行计算机指令，以实现本说明书所述的语音合成方法。

本说明书实施例可能带来的有益效果包括但不限于：（1）基于有监督方式确定样本情感嵌入向量，基于无监督方式确定样本参考风格向量，进而通过有监督方式和无监督方式的结合，使得后续处理得到的合成语音更加真实自然且富有情感。（2）引入字符级情感嵌入向量，解决句子级的风格嵌入粒度较粗的问题，更能体现一个句子中不同字词或不同字符的风格变化。（3）通过引入情感分类器对向量处理模块生成的字符级的综合情感向量进行约束，可以强化情感表达，避免合成语音的情感不清晰。（4）通过采用多维度的损失目标对声学模型进行训练，可以使得声学模型对输入文本的处理结果更加精确、输出情感信息更加丰富。（5）通过端到端方式建模，可以使得训练部署简洁高效。

需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获取的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件（包括固件、常驻软件、微码等）执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“***”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行***、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（SaaS）。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的***组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的***。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件（当前或之后附加于本说明书中的）也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种声学模型训练方法，其特征在于，所述方法包括：

获取多个样本，所述样本包括样本文本输入、与所述样本文本输入对应的样本情感标签以及与所述样本文本输入对应的样本参考梅尔谱；

将所述多个样本输入声学模型，其中，所述声学模型包括：

编码器，用于确定所述样本文本输入的文本序列向量；

有监督模块，用于确定所述样本情感标签对应的样本情感嵌入向量；

无监督模块，用于确定所述样本参考梅尔谱对应的样本参考风格向量；

向量处理模块，用于基于所述样本情感嵌入向量和所述样本参考风格向量的加和确定综合情感向量以及确定隐状态向量；

解码器，用于基于所述文本序列向量和所述综合情感向量的级联向量，确定预测梅尔谱；

情感分类器，用于基于所述隐状态向量确定向量情感类别；

情感鉴别模块，用于确定所述预测梅尔谱对应的预测深度情感特征和所述参考梅尔谱对应的参考深度情感特征；以及

向量预测模块，用于基于所述文本序列向量，确定样本预测风格向量；

至少基于所述综合情感向量、所述预测梅尔谱、所述向量情感类别、所述预测深度情感特征、所述参考深度情感特征及损失目标，迭代调整所述声学模型的模型参数，直至训练完成；其中，所述损失目标包括所述样本预测风格向量与所述样本参考风格向量间的差异损失、所述情感类别的分类损失、所述预测梅尔谱与所述参考梅尔谱的差异损失以及所述预测深度情感特征和所述参考深度情感特征的差异损失。

2.如权利要求1所述的方法，其特征在于，所述综合情感向量为字符级嵌入向量。

3.一种语音合成方法，其特征在于，所述方法包括：

获取文本输入和所述文本输入对应的情感标签；

基于所述文本输入和所述情感标签，通过训练好的声学模型，生成所述文本输入对应的预测梅尔谱；

基于所述预测梅尔谱，生成所述文本输入对应的预测语音；其中，

所述声学模型基于如权利要求1～2中任意一项所述的方法训练得到。

4.一种声学模型训练装置，其特征在于，所述装置包括：

至少一个存储介质，所述存储介质包括计算机指令；

至少一个处理器，所述至少一个处理器用于执行所述计算机指令，以实现如权利要求1～2中任一项所述的方法。