CN111354333A

CN111354333A - 一种基于自注意力的汉语韵律层级预测方法及***

Info

Publication number: CN111354333A
Application number: CN201811571546.7A
Authority: CN
Inventors: 张鹏远; 卢春晖; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2020-06-30
Anticipated expiration: 2038-12-21
Also published as: CN111354333B

Abstract

本发明公开了一种基于自注意力的汉语韵律层级预测方法，所述方法包括：对大量无标注文本进行学习获得单字的字向量，利用字向量将待预测的文本转换为字向量序列，将字向量序列输入训练好的韵律层级预测模型，输出文本的词位和韵律层级。本发明的方法利用韵律层级预测模型进行汉语韵律层级预测，在保证预测性能的同时以字粒度的特征作为输入，避免了对于分词***的依赖及其可能造成的负面影响，该模型利用自注意力机制，直接对文本中任意两个字间的关系建模，可实现并行化计算；并利用额外数据进行预训练提高模型性能，实现对待处理文本各韵律层级同时准确的预测，避免了错误的传递。

Description

一种基于自注意力的汉语韵律层级预测方法及***

技术领域

本发明涉及语音合成技术领域，具体涉及一种基于自注意力的汉语韵律层级预测方法及***。

背景技术

在语音合成***中，根据输入待合成文本预测韵律层级结构一直是至关重要的一步，其预测结果将作为语言学特征的一部分用于声学特征及时长的建模。因此韵律层级预测的准确性在很大程度上决定了合成语音的自然度，实现准确的韵律层级预测有重要意义。

目前主流的方法为使用双向长短时记忆网络BLSTM，以词向量作为输入对不同的韵律层级分别进行建模，即对韵律词、韵律短语、语调短语分别训练一个模型，并将低层级的预测结果作为高层级的输入实现韵律的逐级预测。

但是，上述方法存在以下问题：1)LSTM作为一种RNN结构，每次预测当前时刻输出值时需要利用前一时刻的输出值，这种顺序的计算阻碍了它的并行化而且使任意两个字间的距离为O(n)；2)在词粒度上进行韵律预测模型的训练与预测意味着必须对输入文本先进行分词处理，而分词的结果将会直接影响韵律层级预测的性能。另外，汉语词条数目巨大，存储这些词向量将占用很大的存储空间与计算资源，这对于离线语音合成来说显然是不实用的；3)逐级的韵律预测会使错误的结果不断传递，导致后续的预测错误。

实现对文本的韵律层级预测是语音合成***中必不可少的一步，但目前主流的方法利用词级别的特征依赖分词***的性能，而且逐级的韵律预测会造成错误结果的不断传递。

发明内容

本发明旨在至少在一定程度上解决现有相关技术中存在的上述问题，提出一种韵律层级预测方法，该方法以字作为模型的基本单元，在避免对分词***依赖的同时，减小对存储空间的需求；并且利用一个模型实现对多级韵律的同时预测，解决错误传递的问题。

为了实现上述目的，本发明提出了一种基于自注意力的汉语韵律层级预测方法，所述方法包括：

对大量无标注文本进行学习获得单字的字向量，利用字向量将待预测的文本转换为字向量序列，将字向量序列输入训练好的韵律层级预测模型，输出文本的词位和韵律层级。

作为上述方法的一种改进，所述韵律层级预测模型的训练步骤包括：

步骤1)对大量无标注文本进行学习获得单字的字向量；

步骤2)利用步骤1)得到的字向量将分词数据对应的文本转换为字向量序列，并根据分词结果得到其词位标记序列；

步骤3)基于自注意力机制构建韵律层级预测模型，分别以步骤2)中得到的分词数据的字向量序列及词位标记序列作为输入和输出，对该预测模型进行预训练；

步骤4)利用步骤1)得到的字向量将韵律标注数据对应的文本转换为字向量序列，根据其对应分词结果得到词位标记序列，并根据韵律标注获得各韵律层级对应的标注序列；

步骤5)在步骤3)的预训练得到的模型基础上，根据步骤4)得到的韵律数据的字向量序列、词位标记序列、韵律标注序列，再次训练韵律层级预测模型，得到训练好的韵律层级预测模型。

作为上述方法的一种改进，所述步骤1)具体为：基于连续词袋模型CBOW，设定字向量维度为d，利用大量无标注文本进行训练得到文本中所有单字的字向量初始值，以字-字向量初始值构建字表。

作为上述方法的一种改进，所述步骤2)进一步包括：

步骤2-1)根据所述分词数据的文本信息，通过查找字表的方式查到对应字的字向量，从而确定对应文本的字向量特征序列；

步骤2-2)根据字在词中的位置确定分词数据文本对应的词位标记序列，分别以B、M、E、S表示字在词的开头、字在词的中间、字在词的结尾、单字词。

作为上述方法的一种改进，所述步骤3)进一步包括：

步骤3-1)构建一个N层的韵律层级预测模型，每层包含一个前馈神经网络子层和一个自注意力子层，在每两个子层间采用残差连接，如下式：

Y＝X+SubLayer(X)

其中X、Y分别表示子层的输入和输出；该预测模型共有四个输出层，其中三个输出层分别预测韵律词边界、韵律短语边界和语调短语边界；还有一个输出层预测词位，实现对文本的分词；

所述前馈神经网络子层由两个线性投影组成，中间由修正线性单元作为激活函数进行连接，公式如下：

FFN(X)＝max(XW₁+b₁,0)W₂+b₂

其中W₁、W₂为两个线性投影的权重矩阵，维度分别为d×d_f和d_f×d；b₁、b₂为偏置向量；

所述自注意力子层采用多头自注意力，对于每个头，先对输入矩阵进行线性投影，得到三个矩阵Q、K、V，然后对这三个矩阵进行缩放点积注意力操作，得到向量M，将所有头的M拼接并做线性投影得到该子层的输出；M由下式计算：

其中，Softmax()为归一化指数函数；

步骤3-2)使用不同频率的正弦和余弦函数对输入序列的不同位置进行编码，编码函数如下：

PE(t,2i)＝sin(t/10000^2i/d)

PE(t,2i+1)＝sin(t/10000^2i/d)

其中，t为位置，i为维度；位置编码与输入字向量维度同为d，将两者相加一起作为韵律层级预测模型的输入；

步骤3-3)对韵律层级预测模型进行预训练；

以最小化分词任务实际的输出与期望的输出间的交叉熵为准则进行迭代，其代价函数为：

其中，y为期望输出，y＝{0,1}，a是实际的输出值，满足a∈[0,1],x对应输出层的每个节点，n为输出层的节点数量；模型的参数通过随机梯度下降的反向传播算法进行更新。

作为上述方法的一种改进，所述步骤4)进一步包括：

步骤4-1)根据所述韵律标注数据的文本信息，通过查找字表的方式查到对应字的字向量，从而确定对应文本的字向量特征序列；

步骤4-2)根据韵律数据对应分词结果，确定韵律数据文本对应的词位标记序列；分别以B、M、E、S表示字在词的开头、字在词的中间、字在词的结尾、单字词；

步骤4-3)根据韵律数据的标注确定韵律词、韵律短语、语调短语各韵律层级的标注序列；分别以B表示该字为韵律边界，以NB表示该字不是韵律边界。

作为上述方法的一种改进，所述步骤5)具体为：在步骤3)的预训练得到的模型基础上，以韵律数据的字向量序列作为模型的输入，以词位标记序列、各层级的韵律标注序列作为模型的输出；以最小化各个输出层实际的输出与期望的输出间的交叉熵之和作为模型训练准则，采用随机梯度下降的反向传播算法对模型参数进行更新，得到训练好的韵律层级预测模型。

此外，本发明还提供了一种基于自注意力的汉语韵律层级预测***，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求上述方法的步骤。

本发明的优点在于：

1、本发明的韵律层级预测模型在保证预测性能的同时以字粒度的特征作为输入，避免了对于分词***的依赖及其可能造成的负面影响，同时缩减了模型大小；

2、本发明的韵律层级预测模型利用自注意力机制，直接对文本中任意两个字间的关系建模，可实现并行化计算；并利用额外数据进行预训练提高模型性能，实现对待处理文本韵律层级的准确预测；

3、本发明的方法采用一个模型同时对多个韵律层级进行预测，避免了错误的传递。

附图说明

图1是本发明的基于自注意力的汉语韵律层级预测方法的流程图。

具体实施方式

下面结合附图对本发明作进一步的描述。

本发明提出了—种基于自注意力的汉语韵律预测方法。该方法以字向量为输入特征，通过自注意力机制对文本中字间的依赖关系建模，对每级韵律设置其独立的输出层，实现对韵律各个层级的同时预测。该方法在避免对分词***依赖的同时实现了对文本韵律层级的准确预测。

本发明提出一种基于自注意力的汉语韵律层级预测模型构建方法，包括：对大量无标注文本进行学习获得单字的字向量；根据字向量及分词数据获取该数据对应文本的字向量序列及词位标记序列；基于自注意力机制构建韵律预测模型，根据分词数据的字向量序列及词位标记序列对模型进行预训练；根据字向量及带分词信息的韵律标注数据得到其对应文本的字向量序列、词位标记序列及各韵律层级标注序列；根据韵律数据的字向量序列、词位标记序列及各韵律层级标注序列，在预训练韵律层级预测模型基础上继续训练。该方法基于字级别的特征，通过自注意力机制对文本中任意两个字间的关系的直接建模，并利用额外数据进行预训练提高模型性能，实现对待处理文本韵律层级的准确预测。

本发明的方法包括以下步骤：

步骤1)构建并训练韵律层级预测模型，如图1所示，该步骤具体包括：

步骤101)、对大量无标注文本进行学习获得单字的字向量。

其中无标注文本从各领域预料文本收集而来，以文本中的字作为基本训练单元，基于连续词袋模型CBOW，设每个字向量维度为d，训练得到每个字的初始字向量。以字-字向量初始值构建字表。

步骤102)、根据所述字向量及分词数据获取其对应文本的字向量序列及词位标记序列。

其中字向量特征序列通过对分词文本中的每个字进行查找字表的操作查到对应字的字向量的方式获得。

词位标记序列根据分词数据文本对应的字在词中的位置确定。分别以B、M、E、S表示字在词的开头、字在词的中间、字在词的结尾、单字词。

具体地，对于分词文本“阿里巴巴与沃尔玛完全不同”其词位标记序列为：[B,M,M,E,S,B,M,E,B,E,S,S]。

步骤103)、构建基于自注意力机制的韵律层级预测模型，并利用步骤102)中得到的分词数据的字向量特征序列及词位标记序列，对模型进行预训练。

构建的韵律层级预测模型由N层构成，每层包含一个前馈神经网络子层和一个自注意力子层，在每两个子层间采用残差连接，如下式：

Y＝X+SubLayer(X)

其中X、Y分别表示子层的输入和输出。模型共有四个输出层，其中的三个进行韵律层级的预测，即分别预测韵律词边界、韵律短语边界和语调短语边界，实现在一个模型内对多级韵律的同时预测；另外一个输出层进行分词任务，因为韵律层级边界建立在语法词基础上，引入分词任务可以获得词级别信息以提升韵律层级预测的准确性。

具体地，前馈神经网络子层由两个线性投影组成，中间由修正线性单元作为激活函数进行连接，公式如下：

FFN(X)＝max(XW₁+b₁,0)W₂+b₂

其中W₁、W₂为两个线性投影的权重矩阵，维度分别为d×d_f和d_f×d；b₁、b₂为偏置向量。

自注意力子层采用多头自注意力，对于每个头，先对输入矩阵进行线性投影，得到三个矩阵Q、K、V，然后对这三个矩阵进行缩放点积注意力(scaled dot-productattention)操作，得到向量M，将所有头的M拼接并做线性投影得到该子层的输出。M由下式计算：

其中Softmax()为归一化指数函数。

该模型未使用RNN等序列模型，不能考虑到时序信息，因此使用不同频率的正弦和余弦函数对输入序列的不同位置进行编码，以在一定程度上引入字间的顺序关系，编码函数如下：

PE(t,2i)＝sin(t/10000^2i/d)

PE(t,2i+1)＝sin(t/10000^2i/d)

其中t为位置，i为维度。位置编码与输入字向量维度同为d，将两者相加一起作为模型输入。

对模型进行预训练时以最小化分词任务实际的输出与期望的输出间的交叉熵为准则进行迭代，其代价函数为：

其中，y为期望输出，y＝{0,1}，a是网络实际的输出值，满足a∈[0,1],x对应输出层的每个节点，n为输出层的节点数量。神经网络的参数通过随机梯度下降的反向传播算法进行更新。

步骤104)、根据所述字向量及带分词信息的韵律标注数据得到其对应文本的字向量序列、词位标记序列及各层级韵律标注序列。

其中字向量序列和词位标记序列获得方法与步骤102)相同。韵律词、韵律短语、语调短语各韵律层级的标注序列由韵律标注确定。分别以B表示该字为韵律边界，以NB表示该字不是韵律边界。

具体地，对于韵律标注文本“阿里巴巴#1与#1沃尔玛#2完全#1不同#3”其韵律词标注序列为[NB,NB,NB,B,B,NB,NB,B,NB,B,NB,B]，韵律短语标注序列为[NB,NB,NB,NB,NB,NB,NB,B,NB,NB,NB,B]，语调短语标注序列为[NB,NB,NB,NB,NB,NB,NB,NB,NB,NB,NB,B]。

步骤105)、利用步骤104)得到的字向量序列、词位标记序列及各层级韵律标注序列，在步骤103)预训练韵律层级预测模型的基础上继续训练。

其中字向量序列为模型输入，词位标记序列及各层级韵律标注序列为模型输出，训练时以最小化各个输出层实际的输出与期望的输出间的交叉熵之和为准则。

步骤2)利用步骤101)的字向量将待预测的文本转换为字向量序列，将字向量序列输入训练好的韵律层级预测模型，输出文本的词位和韵律层级。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于自注意力的汉语韵律层级预测方法，所述方法包括：

2.根据权利要求1所述的基于自注意力的汉语韵律层级预测方法，其特征在于，所述韵律层级预测模型的训练步骤包括：

步骤1)对大量无标注文本进行学习获得单字的字向量；

3.根据权利要求2所述的基于自注意力的汉语韵律层级预测方法，其特征在于，所述步骤1)具体为：基于连续词袋模型CBOW，设定字向量维度为d，利用大量无标注文本进行训练得到文本中所有单字的字向量初始值，以字-字向量初始值构建字表。

4.根据权利要求3所述的基于自注意力的汉语韵律层级预测方法，其特征在于，所述步骤2)进一步包括：

5.根据权利要求4所述的基于自注意力的汉语韵律层级预测方法，其特征在于，所述步骤3)进一步包括：

Y＝X+SubLayer(X)

FFN(X)＝max(XW₁+b₁,0)W₂+b₂

其中，Softmax()为归一化指数函数；

PE(t,2i)＝sin(t/10000^2i/d)

PE(t,2i+1)＝sin(t/10000^2i/d)

步骤3-3)对韵律层级预测模型进行预训练；

6.根据权利要求5所述的基于自注意力的汉语韵律层级预测方法，其特征在于，所述步骤4)进一步包括：

7.根据权利要求6所述的基于自注意力的汉语韵律层级预测方法，其特征在于，所述步骤5)具体为：在步骤3)的预训练得到的模型基础上，以韵律数据的字向量序列作为模型的输入，以词位标记序列、各层级的韵律标注序列作为模型的输出；以最小化各个输出层实际的输出与期望的输出间的交叉熵之和作为模型训练准则，采用随机梯度下降的反向传播算法对模型参数进行更新，得到训练好的韵律层级预测模型。

8.一种基于自注意力的汉语韵律层级预测***，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～7之一所述方法的步骤。