CN112489629A

CN112489629A - 语音转写模型、方法、介质及电子设备

Info

Publication number: CN112489629A
Application number: CN202011395498.8A
Authority: CN
Inventors: 李婉; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-12
Anticipated expiration: 2040-12-02

Abstract

本申请涉及一种语音转写模型、方法、介质及电子设备。语音转写模型包括：接收模块，用于接收输入语音并提取其声学特征和音素特征；编码器，内置声学特征编码头和音素特征编码头，用于将声学特征和音素特征编码为声学特征向量和音素特征向量；对齐模块，用于将声学特征向量和音素特征向量对齐得到映射信息，并将映射信息与声学特征融合得到解码信息；解码器，用于对解码信息进行解码得到目标说话人声学特征；声码器，用于将目标说话人声学特征转换为目标说话人语音；语音转写模型为全并行卷积模型结构，使得模型一次性并行地转写全部语音，极大地提升了转写效率，减少了转写过程的等待时间。

Description

语音转写模型、方法、介质及电子设备

技术领域

本申请实施例涉及语音转写技术领域，具体而言，涉及一种语音转写模型、方法、介质及电子设备。

背景技术

语音转写(Voice conversion,VC)的语音应当清晰、自然且富有表现力，但是优秀语音转写模型的训练依赖于大量源说话人和目标说话人的高质量语音对，这种高质量的数据对的数量有限，且为了收集到这些高质量的数据对所耗费的时间和其他成本也较高。

此外，语音转写模型大量使用RNN和Attention等自回归结构(即当前帧的生成需要依赖前一帧的结果作为输入之一)，自回归(Auto-regressive)结构会造成的转写速度慢，使得转写时间与生成的语音长度成正比。

发明内容

鉴于此，为了解决语音转写模型转写过程耗时较长的问题，本申请实施例提供了一种语音转写模型、方法、介质及设备。

本申请实施例第一方面提供一种语音转写模型，所述模型包括：

接收模块，用于接收输入语音，并提取所述输入语音的声学特征和音素特征；

编码器，内置声学特征编码头和音素特征编码头，用于将所述声学特征编码为声学特征向量和将所述音素特征编码为音素特征向量；

对齐模块，用于将所述声学特征向量和所述音素特征向量对齐得到映射信息，并将所述映射信息与所述声学特征融合得到解码信息；

解码器，用于对所述解码信息进行解码得到目标说话人声学特征；

声码器，用于将所述目标说话人声学特征转换为目标说话人语音；

其中，所述语音转写模型为全并行卷积模型结构，所述全并行卷积模型结构包括：

所述编码器和所述解码器二者都采用卷积神经网络。

可选的，所述语音转写模型是经过预先训练得到的，所述预先训练包括以下步骤：

收集所述目标说话人的语音合成数据和所述目标说话人的语音转写数据；

提取所述语音合成数据中的文本特征和目标人说话人语音，将所述文本特征转换为第一音素特征，并将所述目标人说话人语音转换为目标说话人声学特征；

利用所述第一音素特征和所述目标说话人声学特征对初始编码器、初始对齐模块和初始解码器进行第一轮训练，得到第一轮编码器、第一轮对齐模块和第一轮解码器；

提取所述语音转写数据中的源说话人声学特征；

利用所述源说话人声学特征和所述目标说话人声学特征对所述第一轮编码器、所述第一轮对齐模块和所述第一轮解码器进行第二轮训练，得到训练完成的解码器、对齐模块和解码器。

可选的，第二轮训练的学习率为第一轮训练的学习率的十分之一到三分之一。

可选的，所述声码器包括以下任意一者：

传统声码器WORLD、传统声码器STRAIGHT、神经声码器WAVENET、神经声码器WAVERNN、神经声码器SAMPLERNN、神经声码器WAVEGLOW。

本申请实施例第二方面提供一种语音转写方法，使用以上任一所述的语音转写模型，得到目标说话人语音，所述方法包括：

输入源说话人语音到接收模块，得到源说话人语音声学特征和源说话人语音音素特征；

将所述源说话人语音声学特征和所述源说话人语音音素特征输入编码器，将所述声学特征编码为声学特征向量和将所述音素特征编码为音素特征向量；

将所述声学特征向量和所述音素特征向量输入对齐模块，得到映射信息，并将所述映射信息与所述声学特征融合得到解码信息；

使用解码器解码所述解码信息，得到目标说话人声学特征；

利用声码器将所述目标说话人声学特征转换为目标说话人语音；

所述编码器和所述解码器二者都采用卷积神经网络。

提取所述语音转写数据中的源说话人声学特征；

可选的，所述声码器包括以下任意一者：

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

根据本申请实施例的语音转写模型、方法、介质及电子设备，将传统语音转写模型中的自回归结构替换为全并行卷积模型结构，使得模型可以一次性并行地转写全部语音，极大地提升了转写效率，减少了转写过程的等待时间。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的一种语音转写模型的示意图；

图2是本申请一实施例提出的一种对齐模块的流程图；

图3是本申请一实施例提出的全并行卷积模型结构的示意图；

图4是本申请一实施例提出的语音转写模型的预先训练的流程图；

图5是本申请一实施例提出的语音转写方法的流程图；

图6是本申请一实施例提出的现有语音转写模型的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对现有的语音转写模型进行介绍，现有的语音转写模型如图6所示，。模型是一个典型sequence-to-sequence结构，分为编码器(Encoder)，解码器(Decoder)和后处理(PostNet)三个部分，源说话人的语音通过信号参数提取算法，提取出声学特征。为了更加精准的转写，图6模型额外使用了源语音经过语音识别***(ASR)得到的音素特征作为输入之一。将声学特征和音素特征逐帧拼接起来，经过编码器进行信息编码。同时，目标说话人的语音经过同样算法提取出声学特征，经过预处理模块(PreNet)和Attention RNN(自注意力)进行信息编码。两种编码信息经过辅助分类器(AC)，还原音素特征，作为训练时的辅助手段。实际转换的过程中，这一部分不参与转写运算。两种编码信息通过Attention模块，做注意力计算，得到注意力矩阵，同目标说话人语音的编码拼接起来，经过RNN解码器(Decoder RNN)得到声学特征。该声学特征经过后处理(PostNet)，得到优化平滑过的声学特征。声学特征通过声码器，得到最终的目标说话人语音。

参考图1，图1是本申请一实施例提出的一种语音转写模型的示意图。如图1所示，该语音转写模型包括：

接收模块101，接收模块101用于接收输入语音，并提取所述输入语音的声学特征和音素特征。

声学特征是是描述声学信号特性的重要参数，只有提取到能描述信号本质的信息才可能将这些参数应用于高效处理中。声学特征的提取既是对原始波形信号进行压缩的过程，同时也是对信号进行解卷积的过程。由于语音信号是短时稳信号在较短时间内(普遍认为10ms-30ms范围内)其信号特性能够保持相对稳定，故对语音信号的特征提取必须建立是在短时分析的基础上。在本申请的实施例中声学特征包括：线性预测参数LPC、倒谱系数CEP、梅尔频率倒谱系数MFCC以及感知线性预测系数PLP等。

音素特征，音素是构成音节的最小语音单位。依据音节里的发音动作来分析，一个动作构成一个音素。例如汉语音节ā(啊)只有一个音素，ài(爱)有两个音素，dāi(呆)有三个音素，zhuāng有zh，u，a，ng四個音素。提取输入语音中的音素作为语音的音素特征。

编码器102，编码器102内置声学特征编码头和音素特征编码头，用于将所述声学特征编码为声学特征向量和将所述音素特征编码为音素特征向量。

编码器内的声学特征编码头将声学特征卷积得到声学特征中间表征，即声学特征向量，编码器内的音素特征编码头将音素特征卷积得到音素特征中间表征，即音素特征向量。

对齐模块103，对齐模块103用于将所述声学特征向量和所述音素特征向量对齐得到映射信息，并将所述映射信息与所述声学特征融合得到解码信息。

如图2所述，对齐模块输入为编码器102输出的声学特征向量或音素特征向量。经过图2所示对齐模块的多个过程，一个过程内有卷积(Conv1d)-归一化(LayerNorm)-激活函数(Relu)-丢弃(Dropout)这四个阶段，输出为对齐模块输入的向量与编码器输出的对应向量的映射信息，该映射信息表示对齐模块输入的向量与编码器输出的对应向量的对应关系参数(linear)，例如当输入为声学特征向量就应当与编码器输出的音素特征对齐，输入为音素特征向量就应当与声学特征向量对齐，对齐模块输入的特征向量与该对应关系参数沿时间维度扩充，会得到与解码器输出向量沿时间维度一致的向量集。以音素特征的对齐为例，一个音素向量输入对齐模块，得到与声学特征的对应系数为3，意味着将此音素向量复制为原来的3倍，所有的输出音素向量按照此步骤进行扩充，最终得到与声学特征的在时间维度上保持一致的向量集合。

在本申请的一个实施例中，音素特征是利用ASR技术从源说话人的语音中按帧提取，因此，声学特征和音素特征在输入时，就已经存在按帧一一对应关系，两种特征分别通过各自的编码器头，而后将得到特征进行拼接，输入对齐模块。

将得到的声学-音素映射信息与源说话人声学特征向量融合得到解码信息，在本申请的一个实施例中，可选择将声学-声学映射信息与源说话人编码向量相乘的方式进行融合，融合得到解码信息。

解码器104，解码器104用于对所述解码信息进行解码得到目标说话人声学特征；

所述编码器和所述解码器二者都采用卷积神经网络。

全并行卷积模型结构如图3所示，全并行卷积模型结构总体上采用一个U形结构，编码器对特征先压缩，解码器后扩充，压缩-扩充配合残差结构，在这个过程中实现特征在时间维度上的相互融合，使得最后输出的特征包含了上下文的信息。

具体到模型的结构，卷积层1到平均池化层4表示模型的编码器，卷积层用于上下文特征融合，平均池化层用于压缩特征的维度，卷积层和平均池化层配合，使得每一次输出的特征维度减半，令下一层的A获取更加长程的上下文信息。转置卷积层5到卷积层8表示模型的解码器，转置卷积层作用是扩充特征维度，卷积层作用是还原上下文信息。转置卷积层和卷积层结合，将特征扩充回卷积层1特征输入时的维度，方便与输入的特征相加，做残差运算。全连接层5的作用是保持特征维度不变的情况下，对特征进行平滑。

声码器105，声码器105用于将所述目标说话人声学特征转换为目标说话人语音；

声码器的作用是将声学特征转为语音波形，示例的，声码器Wavenet可以通过中间表征合成语音波形。中间表征可以是梅尔频谱、线性声谱图等声学特征，也可以是文字、说话人编码等。这时输入到模型的是<音频、中间表征>。公式(1)是Wavenet作为声码器时的预测公式，x_t是音频序列，h是中间特征。

训练时，h和目标说话人语音同时输入模型。合成时，只需要调整h就可以合成不同的语音。

在本申请实施例中，所述语音转写模型包括：接收模块，用于接收输入语音，并提取所述输入语音的声学特征和音素特征；编码器，内置声学特征编码头和音素特征编码头，用于将所述声学特征编码为声学特征向量和将所述音素特征编码为音素特征向量；对齐模块，用于将输入数据和目标说话人特征向量对齐得到映射信息，并将所述映射信息与所述声学特征融合得到解码信息，其中，所述输入数据包括声学特征向量、音素特征向量至少一者；解码器，用于对所述解码信息进行解码得到目标说话人声学特征；声码器，用于将所述目标说话人声学特征转换为目标说话人语音；其中，所述语音转写模型为全并行卷积模型结构，所述全并行卷积模型结构包括：所述编码器和所述解码器二者都采用卷积神经网络；所述编码器、所述对齐模块和所述解码器直接连接。本申请实施例将传统语音转写模型中的自回归结构替换为全并行卷积模型结构，使得模型可以一次性并行地转写全部语音，极大地提升了转写效率，减少了转写过程的等待时间。

在本申请的一种可选实施方式中，所述声码器105包括以下任意一者：

不同声学特征经各自声码器的合成，会影响合成语音的质量。声码器的选用可以根据具体应用场景的需求进行合理适配。

在现有技术中，语音转写数据有限，造成合成声音本身不够饱满。语音转写的训练数据集，需要源说话人和目标说话人内容相同的语音数据对，这种成对数据往往数量有限，难以对模型进行充分训练，导致合成出的声音不够饱满自然。

在本申请的一种可选实施方式中，所述语音转写模型是经过预先训练得到的，所述预先训练如图4所示，所述预先训练包括以下步骤：

步骤S401、收集所述目标说话人的语音合成数据和所述目标说话人的语音转写数据。

步骤S402、提取所述语音合成数据中的文本特征和目标人说话人语音，将所述文本特征转换为第一音素特征，并将所述目标人说话人语音转换为目标说话人第一声学特征。

步骤S403、利用所述第一音素特征和所述目标说话人第一声学特征对初始编码器、初始对齐模块和初始解码器进行第一轮训练，得到第一轮编码器、第一轮对齐模块和第一轮解码器。

步骤S404、提取所述语音转写数据中的源说话人声学特征。

步骤S405、利用所述源说话人声学特征和所述目标说话人第一声学特征对所述第一轮编码器、所述第一轮对齐模块和所述第一轮解码器进行第二轮训练，得到训练完成的解码器、对齐模块和解码器。

进一步的，在步骤S405中，第二轮训练的学习率为第一轮训练的学习率的十分之一到三分之一。相对于第二轮训练，第二轮训练是一个微调的过程，因此需要降低第二轮的学习率。

本申请可选实施例的语音转写模型。先用容易获取的通过利用语音合成(Text toSpeech,TTS)数据对先对初始语音转写模型进行训练，而后再利用语音合成(Voiceconversion,VC)数据对再次对第一轮训练完的语音转写模型进行调整，无需依赖大量训练数据也可以得到优秀的语音合成模型。语音合成模型合成的语音饱满自然，摆脱了现有技术中对声音合成模型的训练需要依赖大量语音合成(TTS)数据的缺陷，有效节约了时间和人力成本。

图5是本申请一实施例提出的语音转写方法的流程图，使用本申请以上实施例一处的任一所述的语音转写模型，得到目标说话人语音，所述方法包括如图5所示所述语音转写方法包括步骤：

S501、输入源说话人语音至接收模块，得到源说话人语音声学特征和源说话人语音音素特征；

S502、将所述源说话人语音声学特征和所述源说话人语音音素特征输入编码器，将所述声学特征编码为声学特征向量和将所述音素特征编码为音素特征向量；

S503、将所述声学特征向量和所述音素特征向量输入对齐模块，得到映射信息，并将所述映射信息与所述声学特征融合得到解码信息；

S504、使用解码器解码所述解码信息，得到目标说话人声学特征；

S505、利用声码器将所述目标说话人声学特征转换为目标说话人语音；

所述编码器和所述解码器二者都采用卷积神经网络。

在本申请的一种可选实施方式中，所述语音转写模型是经过预先训练得到的，所述预先训练包括以下步骤：

提取所述语音转写数据中的源说话人声学特征；

进一步的，第二轮训练的学习率为第一轮训练的学习率的十分之一到三分之一。

在本申请的一种可选实施方式中，所述声码器包括以下任意一者：

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的语音转写方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的语音转写方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种语音转写模型、方法、介质及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音转写模型，其特征在于，所述语音转写模型包括：

所述编码器和所述解码器二者都采用卷积神经网络。

2.根据权利要求1所述模型，其特征在于，所述语音转写模型是经过预先训练得到的，所述预先训练包括以下步骤：

提取所述语音合成数据中的文本特征和目标人说话人语音，将所述文本特征转换为第一音素特征，并将所述目标人说话人语音转换为目标说话人第一声学特征；

利用所述第一音素特征和所述目标说话人第一声学特征对初始编码器、初始对齐模块和初始解码器进行第一轮训练，得到第一轮编码器、第一轮对齐模块和第一轮解码器；

提取所述语音转写数据中的源说话人声学特征；

利用所述源说话人声学特征和所述目标说话人第一声学特征对所述第一轮编码器、所述第一轮对齐模块和所述第一轮解码器进行第二轮训练，得到训练完成的解码器、对齐模块和解码器。

3.根据权利要求2所述模型，其特征在于，第二轮训练的学习率为第一轮训练的学习率的十分之一到三分之一。

4.根据权利要求1所述模型，其特征在于，所述声码器包括以下任意一者：

5.一种语音转写方法，其特征在于，使用权利要求1至5任一所述的语音转写模型，得到目标说话人语音，所述方法包括：

使用解码器解码所述解码信息，得到目标说话人声学特征；

所述编码器和所述解码器二者都采用卷积神经网络。

6.根据权利要求5所述方法，其特征在于，所述语音转写模型是经过预先训练得到的，所述预先训练包括以下步骤：

提取所述语音转写数据中的源说话人声学特征；

7.根据权利要求6所述方法，其特征在于，第二轮训练的学习率为第一轮训练的学习率的十分之一到三分之一。

8.据权利要求5所述方法，其特征在于，所述声码器包括以下任意一者：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求6至8任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求6至8任一所述的方法的步骤。