CN111785249A

CN111785249A - 语音合成的输入音素的训练方法、装置及获得方法

Info

Publication number: CN111785249A
Application number: CN202010663237.3A
Authority: CN
Inventors: 李小波; 王少佳
Original assignee: Hengxin Shambala Culture Co ltd
Current assignee: Hengxin Shambala Culture Co ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-16

Abstract

本申请公开了语音合成的输入音素的训练方法、装置及获得方法，训练方法包括：将中文文本中的中文句子拆分成汉字；将汉字转化成拼音，该拼音包括声调；将拼音转化为音素；将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；形成拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。本申请训练和获得的输入音素包含了汉字的信息和拼音的结构信息以及声调信息，作为语音合成模型的输入，因此语音合成模型无需对汉字、拼音和声调之间的对应关系进行训练。

Description

语音合成的输入音素的训练方法、装置及获得方法

技术领域

本申请涉及计算机技术领域，具体涉及一种语音合成的输入音素的训练方法、装置及获得方法。

背景技术

现有技术中，在中文语音合成时，将中文句子转成音素序列时，一个汉字对应一个拼音，一个拼音对应多个音素。在上述两个步骤中，在汉字-拼音的转化中，去掉了汉字的信息。在拼音-音素的转化中，丢掉了拼音的结构信息。这些信息对中文语音合成很必要，是判断在何处‘停顿’、用什么‘语气’、用什么‘情感’等等的主要依据。尽管这些信息有可能仍然包含在音素序列中，但挖掘这些信息，语音合成模型需要更多的训练数据，也需要更大的语音合成模型。

因此，现有的语音合成模型的输入只包含汉语拼音的音素(比如BOPOMOFO中文注音格式)序列，减少了信息量，给模型学习增加了难度。

发明内容

本申请的目的在于提供一种语音合成的输入音素的训练方法、装置及获得方法，用于解决现有的语音合成模型的输入音素给模型学习增加了难度的技术问题。

本申请提供一种语音合成的输入音素的训练方法，包括：将中文文本中的中文句子拆分成汉字；将汉字转化成拼音，该拼音包括声调；将拼音转化为音素；将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；形成拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。

优选地，通过发音词典将拼音转化为音素。

优选地，词嵌入模型的输出中，汉字向量集与声调向量集之间存在一一对应关系。

优选地，根据音素间的关联关系形成单个拼音向量。

优选地，依据音素所在的拼音确定音素间的关联关系，并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。

本申请还提供一种基于上述训练方法的输入音素的获得方法，包括：将中文文本中的中文句子拆分成汉字；将汉字转化成拼音，该拼音包括声调；将汉字、拼音以及声调输入词嵌入模型，获得汉字向量、声调向量以及单个拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。

优选地，将中文句子拆分成汉字时将中文句子中的相邻汉字间隔开。

优选地，根据音素间的关联关系形成单个拼音向量。

本申请还提供一种语音合成的输入音素的训练装置，包括拆分模块、汉字转拼音模块、拼音转音素模块、词嵌入模块、拼音获得模块；其中，拆分模块将中文文本中的中文句子拆分成汉字；汉字转拼音模块将汉字转化成拼音，该拼音包括声调；拼音转音素模块将拼音转化为音素；词嵌入模块将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；拼音获得模块形成单个拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。

本申请训练和获得的输入音素包含了汉字的信息和拼音的结构信息以及声调信息，作为语音合成模型的输入，因此语音合成模型无需对汉字、拼音和声调之间的对应关系进行训练。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音合成的输入音素的训练方法及其获得方法的流程图；

图2是本申请实施例提供的语音合成的输入音素的训练装置的结构图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本申请提供了一种语音合成的输入音素的训练方法，保留了汉字的信息和拼音的结构信息。

图1中虚线所示流程为语音合成的输入音素的训练方法的流程图。如图1所示，语音合成的输入音素的训练方法包括如下步骤：

S110：将中文文本中的中文句子拆分成汉字。具体地，将中文句子中的相邻汉字间隔开。

S120：将汉字转化成拼音，该拼音包括声调。具体地，可以通过现有的软件将汉字转化为拼音。

S130：将拼音转化为音素。具体地，通过发音词典将拼音转化为音素。作为一个实施例，音素包括声母和韵母。

S140：将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量，形成汉字向量集、音素序列向量集和声调向量集。具体地，在词嵌入模型中，将汉字转化为汉字向量，将声调转化成声调向量，将单个的音素转化为音素序列向量。

其中，与S110中的中文文本对应的多个汉字向量组成汉字向量集，与S110中的中文文本对应的多个声调向量组成声调向量集，与S110中的中文文本对应的多个音素序列向量组成音素序列向量集，并且汉字向量集与声调向量集之间存在一一对应关系。

S150：根据音素间的关联关系形成单个拼音向量，形成拼音向量集，并且单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。具体地，依据音素所在的拼音确定音素的相邻音素(具有关联关系的音素)，并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。与S110中的中文文本对应的多个单个拼音向量组成拼音向量集，并且单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。作为一个实施例，通过训练网络实现该步骤，例如神经网络等。

S160：按照单个拼音向量包含的音素的数量对汉字向量和声调向量进行复制，使汉字向量的数量、声调向量的数量与音素的数量相同，并将这些汉字向量、声调向量与该单个拼音向量建立对应关系。

依据汉字的拼音结构，音素的数量可能是1-4个，因此，同一个汉字向量和同一个声调向量的数量可能是1-4，如图1所示。

实施例二

本申请还提供一种输入音素的获得方法，利用了实施例一获得的汉字向量集、声调向量集以及拼音向量集，获得的输入音素将作为语音合成模型的输入，输入音素包含了汉字的信息和拼音的结构信息以及声调信息，语音合成模型无需对汉字、拼音和声调之间的对应关系进行训练。

图1中实线所示流程为语音合成的输入音素的获得方法的流程图。如图1所示，输入音素的获得方法包括如下步骤：

S210：将中文文本中的中文句子拆分成汉字。具体地，将中文句子中的相邻汉字间隔开。

S220：将汉字转化成拼音，该拼音包括声调。具体地，可以通过现有的软件将汉字转化为拼音。

S230：将汉字、拼音以及声调输入词嵌入模型，利用实施例一获得的汉字向量、声调向量以及拼音向量及其对应关系获得与中文文本对应的汉字向量、声调向量以及单个拼音向量。

S240：按照获得的单个拼音向量包含的音素的数量对汉字向量和声调向量进行复制，使汉字向量的数量、声调向量的数量与音素的数量相同，并将这些汉字向量、声调向量与该单个拼音向量建立对应关系。

将与单个拼音向量包含的音素数量相同的汉字向量、声调向量以及该单个拼音向量作为语音合成模型的输入进行语音合成。

实施例三

本申请还提供一种与实施例一匹配的语音合成的输入音素的训练装置。如图2所示，训练装置包括拆分模块210、汉字转拼音模块220、拼音转音素模块230、词嵌入模块240、拼音获得模块250以及重排模块260。

拆分模块210将中文文本中的中文句子拆分成汉字。具体地，将中文句子中的相邻汉字间隔开。

汉字转拼音模块220将汉字转化成拼音，该拼音包括声调。具体地，可以通过现有的软件将汉字转化为拼音。

拼音转音素模块230将拼音转化为音素。具体地，通过发音词典将拼音转化为音素。作为一个实施例，音素包括声母和韵母。

词嵌入模块240将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量。具体地，在词嵌入模型中，将汉字转化为汉字向量，将声调转化成声调向量，将单个的音素转化为音素序列向量。

其中，与中文文本对应的多个汉字向量组成汉字向量集，与中文文本对应的多个声调向量组成声调向量集，与中文文本对应的多个音素序列向量组成音素序列向量集，并且汉字向量集与声调向量集之间存在一一对应关系。

拼音获得模块250根据音素间的关联关系形成单个拼音向量。具体地，以依据音素所在的拼音确定音素的相邻音素(具有关联关系的音素)，并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。与中文文本对应的多个单个拼音向量组成拼音向量集，并且单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。

重排模块260按照单个拼音向量包含的音素的数量对汉字向量和声调向量进行复制，使汉字向量的数量、声调向量的数量与音素的数量相同，并将这些汉字向量、声调向量与该单个拼音向量建立对应关系。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语音合成的输入音素的训练方法，其特征在于，包括：

将中文文本中的中文句子拆分成汉字；

将汉字转化成拼音，该拼音包括声调；

将拼音转化为音素；

将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；

形成拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。

2.如权利要求1所述的训练方法，其特征在于，通过发音词典将拼音转化为音素。

3.如权利要求1所述的训练方法，其特征在于，词嵌入模型的输出中，汉字向量集与声调向量集之间存在一一对应关系。

4.如权利要求1所述的训练方法，其特征在于，根据音素间的关联关系形成单个拼音向量。

5.如权利要求4所述的训练方法，其特征在于，依据音素所在的拼音确定音素间的关联关系，并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。

6.一种基于权利要求1-5所述的训练方法的输入音素的获得方法，其特征在于，包括：

将中文文本中的中文句子拆分成汉字；

将汉字转化成拼音，该拼音包括声调；

将汉字、拼音以及声调输入词嵌入模型，获得汉字向量、声调向量以及单个拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。

7.如权利要求6所述的获得方法，其特征在于，将中文句子拆分成汉字时将中文句子中的相邻汉字间隔开。

8.如权利要求6所述的获得方法，其特征在于，根据音素间的关联关系形成单个拼音向量。

9.如权利要求8所述的获得方法，其特征在于，依据音素所在的拼音确定音素间的关联关系，并根据音素间的关联关系将多个音素向量组合起来形成单个拼音向量。

10.一种语音合成的输入音素的训练装置，其特征在于，包括拆分模块、汉字转拼音模块、拼音转音素模块、词嵌入模块、拼音获得模块；

其中，拆分模块将中文文本中的中文句子拆分成汉字；

汉字转拼音模块将汉字转化成拼音，该拼音包括声调；

拼音转音素模块将拼音转化为音素；

词嵌入模块将汉字、音素和声调输入词嵌入模型，获得汉字向量、音素序列向量和声调向量；

拼音获得模块形成单个拼音向量，单个拼音向量与对应的汉字向量及其声调向量存在一一对应关系。