CN115359780A

CN115359780A - 语音合成方法、装置、计算机设备及存储介质

Info

Publication number: CN115359780A
Application number: CN202210897499.5A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-18

Abstract

本发明公开了一种语音合成方法、装置、计算机及存储介质，该方法包括：对文本序列进行处理，获取文本隐向量；对韵律参照音频进行韵律特征提取，获取韵律隐向量；获取用户标识对应的用户编码向量；对所述文本隐向量、所述韵律隐向量和用户编码向量进行合成，获取目标声学特征；基于所述目标声学特征进行语音合成，获取所述文本序列对应的目标音频文件。该方法使得获取到的目标音频文件不仅与文本序列对应的文本内容相关，还与韵律参照音频中的韵律风格和用户标识对应的用户语音音色相关，有助于保障目标音频文件的语音合成效果，提高合成语音的自然度。

Description

语音合成方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术和数字信号处理技术的发展，语音合成技术开始发展起来，当前的TTS技术已经在信息的交流与播报等方面得到广泛应用，Tacotron是一种端到端的TTS生成模型。所谓“端到端”就是直接从字符文本合成语音，打破各个传统组件之间的壁垒，可以通过模型将文本直接合成为声学特征，再通过声码器生成声学特征对应的音频文件，甚至可以将文本输入模型，直接生成音频文件而跳过中间的声码器环节。现有语音合成一般是对文本内容进行简单合成，使得语音合成效果较差。

发明内容

本发明实施例提供一种语音合成方法、装置、计算机设备及存储介质，以解决语音合成效果较差的问题。

一种语音合成方法，包括：

对文本序列进行处理，获取文本隐向量；

对韵律参照音频进行韵律特征提取，获取韵律隐向量；

获取用户标识对应的用户编码向量；

采用注意力机制对所述文本隐向量、所述韵律隐向量和用户编码向量进行合成，获取目标声学特征；

基于所述目标声学特征进行语音合成，获取所述文本序列对应的目标音频文件。

一种语音合成装置，包括：

文本隐向量获取模块，用于对文本序列进行处理，获取文本隐向量；

韵律隐向量获取模块，用于对韵律参照音频进行韵律特征提取，获取韵律隐向量；

用户编码向量获取模块，用于获取用户标识对应的用户编码向量；

目标声学特征获取模块，用于采用注意力机制对所述文本隐向量、所述韵律隐向量和用户编码向量进行合成，获取目标声学特征；

目标音频文件获取模块，用于基于所述目标声学特征进行语音合成，获取所述文本序列对应的目标音频文件。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音合成方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音合成方法。

上述语音合成方法、装置、计算机设备及存储介质，基于文本序列确定文本隐向量，使其既包含文本内容，又可进行后续编码合成处理，保障语音合成的可行性；基于韵律参照音频确定其韵律隐向量，使其可学习到韵律参照音频中的韵律风格；获取用户标识对应的用户编码向量，使其可学习到用户语音音色；基于所述文本隐向量、所述韵律隐向量和用户编码向量进行合成形成的目标声学特征进行语音合成，使得获取到的目标音频文件不仅与文本序列对应的文本内容相关，还与韵律参照音频中的韵律风格和用户标识对应的用户语音音色相关，有助于保障目标音频文件的语音合成效果，提高合成语音的自然度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音合成方法的一应用环境示意图；

图2是本发明一实施例中语音合成方法的一流程图；

图3是本发明一实施例中语音合成方法的另一流程图；

图4是本发明一实施例中语音合成方法的另一流程图；

图5是本发明一实施例中语音合成方法的另一流程图；

图6是本发明一实施例中语音合成方法的另一流程图；

图7是本发明一实施例中语音合成方法的另一流程图；

图8是本发明一实施例中语音合成方法的另一流程图；

图9是本发明一实施例中语音合成装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音合成方法，该语音合成方法可应用如图1所示的应用环境中。具体地，该语音合成方法应用在语音合成***中，该语音合成***包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于实现多用户语音合成。其中，客户端又称为用户端，是指与服务器相对应，为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语音合成方法方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S201：对文本序列进行处理，获取文本隐向量；

S202：对韵律参照音频进行韵律特征提取，获取韵律隐向量；

S203：获取用户标识对应的用户编码向量；

S204：对文本隐向量、韵律隐向量和用户编码向量进行合成，获取目标声学特征；

S205：基于目标声学特征进行语音合成，获取文本序列对应的目标音频文件。

其中，文本序列是需要进行语音合成的文本内容所形成的序列。文本隐向量是指对文本序列进行向量转换所形成的向量，具体是采用编码器网络对文本序列进行编码所形成的隐向量。隐向量是指特定网络输出的中间向量。

作为一示例，步骤S201中，服务器获取需要进行语音合成的文本序列，对文本序列进行解析和向量转换处理，获取对应的文本隐向量。该文本隐向量可理解为与文本内容相关的中间向量。例如，服务器可对文本序列进行解析得到音素序列，再对音素序列进行编码得到网络可接受的特定格式数据，然后，通过编码器网络对特定格式数据进行处理，得到隐层特征表示，即为文本隐向量。可理解地，该文本隐向量为需要进行语音合成的文本序列的向量表示，为后续进行语音合成提供文本基础。

其中，韵律参照音频预先设置的用于提供作为参考对象的韵律风格的音频。韵律是指声韵和节律，可理解为语音中的平仄格式和押韵规则，或者理解为说话停顿或者快慢等信息。韵律隐向量是对韵律参照音频进行韵律风格提取和编码所形成的隐向量。

作为一示例，步骤S202中，服务器可采用默认设置的韵律参照音频或者用户选定的韵律参照音频，对韵律参照音频韵律风格进行提取，以获取韵律隐向量。该韵律隐向量是指从韵律参照音频中学习到的与韵律风格相关的中间向量。本示例中，服务器可采用默认设置的韵律参照音频，该默认设置的韵律参照音频所提取到的韵律隐向量为预先提取到的隐向量，可以为人工标识提取的韵律隐向量，也可以为韵律编码器进行智能提取的韵律隐向量。例如，采用人工标注方式，对不同的韵律参照音频进行标注，使得相同的韵律风格有相同的值，这种方法基于人耳感知来标注，主观性较强。例如，采用韵律编码器对不同的韵律参照音频进行特征提取，提取频谱特征作为韵律风格信息，再对韵律风格信息进行编码，获得韵律隐向量。可理解地，该韵律隐向量为从韵律参照音频中学习到的与韵律相关的隐向量，为后续进行语音合成提供韵律基础，可保障最终合成的目标音频文件学习到韵律参照音频中的韵律风格。

其中，用户标识是为了区分不同的用户的标识。用户编码向量是用于反映与不同用户语音相关的向量。作为一示例，用户编码向量可以采用简单的数字编号ID，也可以采用声学特征，可根据用户需求自主设置。

作为一示例，步骤S203中，服务器可获取至少一个用户标识对应的用户编码向量，该用户编码向量可理解为对每一用户标识对应用户说话所形成的音频数据进行编码处理所形成的向量。本示例中，确定用户标识对应的用户编码向量，使得用户编码向量可反映语音音色，可保障后续语音合成形成的目标音频文件的合成效果，使得用户标识对应的用户相关，提高语音合成的自然度。

作为一示例，步骤S204中，服务器在获取文本隐向量、韵律隐向量和用户编码向量后，由于文本隐向量为进行语音合成的文本内容所形成的向量，韵律隐向量为学习韵律参照音频中的韵律风格所形成的向量，用户编码向量为学习不同用户的语音音色，可对文本隐向量、韵律隐向量和用户编码向量进行融合，获取融合后的目标向量，再将目标向量输入到解码器进行解码，即可获取目标声学特征，使得该目标声学特征与文本内容、韵律风格和用户的语音音色相关，有助于保障语音合成的合成效果。

本示例中，服务器可先将文本隐向量和韵律隐向量进行时长对齐，保障时长的一致性；再对时长对齐后的文本隐向量和韵律隐向量进行第一次拼接融合，获取融合隐向量；接着，将融合隐向量和用户编码向量进行第二次拼接融合，获取融合后的目标向量；最后，将融合后的目标向量输入到解码器得到获取目标声学特征。

作为一示例，步骤S205中，服务器在获取到目标声学特征后，可采用预先设置的声码器，对融合文本内容、韵律风格和用户的语音音色等信息的目标声学特征进行编编码合成，获取文本序列对应的目标音频文件，使得目标音频文件不仅与文本序列对应的文本内容相关，还与韵律参照音频中的韵律风格和用户标识对应的用户语音音色相关，有助于保障目标音频文件的语音合成效果，提高合成语音的自然度。

本实施例所提供的语音合成方法中，基于文本序列确定文本隐向量，使其既包含文本内容，又可进行后续编码合成处理，保障语音合成的可行性；基于韵律参照音频确定其韵律隐向量，使其可学习到韵律参照音频中的韵律风格；获取用户标识对应的用户编码向量，使其可学习到用户语音音色；基于文本隐向量、韵律隐向量和用户编码向量进行合成形成的目标声学特征进行语音合成，使得获取到的目标音频文件不仅与文本序列对应的文本内容相关，还与韵律参照音频中的韵律风格和用户标识对应的用户语音音色相关，有助于保障目标音频文件的语音合成效果，提高合成语音的自然度。

在一实施例中，如图3所示，步骤S201，即对文本序列进行处理，获取文本隐向量，包括：

S301：对文本序列进行解析，获取音素序列；

S302：对音素序列进行空间向量转换，获取音素特征向量；

S303：采用音素编码器对音素特征向量进行编码，获取文本隐向量。

其中，音素序列是与音素相关的序列，具体是对文本序列进行文字-音素转换所得到的序列。音素(phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

作为一示例，步骤S301中，服务器可采用预先设置的用于进行文字和音素转换的模型，包括但不限于G2P(Grapheme-to-Phoneme，即字素-音素转换)模型，对文本序列进行解析，获取音素序列。本示例中，服务器可采用基于RNN和LSTM的G2P模型，实现文本序列到音素序列的转换，以获取音素序列。

其中，音素特征向量是把每一个音素向量用一个对应的空间向量来表示。

作为一示例，步骤S302中，服务器对音素序列进行空间嵌入编码，即将音素序列中的每一个音素，采用一个对应的空间向量来表示，以获取音素特征向量。本示例中，所获取的音素特征向量可以是连续变量，也可以是离散变量，连续变量在数据上则会表示为相关的浮点型数据格式，如果是离散变量表示也可以表示为设定的整数向量，也可以是浮点型数据向量。

其中，音素编码器是用于实现音素编码的功能模块。作为一示例，音素编码器可采用LSTM层或者transformer层构建的编码器。

作为一示例，步骤S303中，服务器可采用音素编码器对音素特征向量进行编码，将音素编码器的输出结果，作为文本序列的隐层特征，确定为文本隐向量。本示例中，服务器可采用基于transformer层构建的音素编码器，音素编码器中设有四层前馈transformer层，采用四层前馈transformer层，利用transformer层中的注意力机制，增强对文本序列中的时序注意力的学习，提高音素编码器编码获取的文本隐向量的识别准确率。

本实施例所提供的语音合成方法中，先对文本序列进行解析，获取由最小语音单位(即音素)所形成的音素序列，提高语音合成的基础；再对音素序列进行空间嵌入编码，获取音素特征向量，以将音素序列转换成可进行编码计算的音素特征向量，保障编码可行性；最后，采用音素编码器对音素特征向量进行编码，获取文本序列编码输出的文本隐向量，为后续语音合成提供文本基础。可理解地，在音素编码器采用四层前馈transformer层的编码器时，利用transformer层中的注意力机制，增强对文本序列中的时序注意力的学习，提高音素编码器编码获取的文本隐向量的识别准确率。

在一实施例中，如图4所示，步骤S202，将对韵律参照音频进行韵律特征提取，获取韵律隐向量，包括：

S401：对韵律参照音频进行韵律特征提取，获取韵律风格编码；

S402：采用韵律编码器对韵律风格编码和韵律参照音频进行编码，获取韵律特征向量；

S403：采用时长控制模块对韵律特征向量进行时长对齐处理，获取韵律隐向量。

其中，韵律参照音频预先设置的用于提供作为参考对象的韵律风格的音频。韵律风格编码是对韵律参照音频进行韵律特征提取后的编码。

作为一示例，步骤S401中，服务器可采用默认设置的韵律参照音频或者用户选定的韵律参照音频，对韵律参照音频进行韵律特征提取，从韵律参照音频中提取出与其语音发音方式相关的韵律风格信息，对提取到的韵律风格信息进行编码，获取可进行后续模型处理的韵律风格编码。该韵律风格信息为与文本内容无关的韵律表达特征。韵律风格编码为韵律风格信息进行编码的编码结果。本示例中，服务器采用编码器-解码器的方式，具体采用但不限于Mel-GAN声码器对韵律参照音频进行韵律特征提取，获取韵律风格编码。

其中，Mel-GAN声码器为预先训练的声码器，其训练过程包括如下步骤：获取训练文本和与训练文本相对应的训练音频；对训练音频进行频谱提取，获取训练音频的真实频谱；根据训练文本进行音频生成，获取生成音频；对生成音频进行频谱提取，获取生成音频对应的生成频谱；采用损失函数，计算真实频谱和生成频谱之间的模型损失值；若模型损失值小于预设值，则认定Mel-GAN声码器训练完成。

其中，韵律编码器是用于实现韵律编码的编码器。作为一示例，韵律编码器可采用2层二维卷积网络，相比于1层二维卷积网络，其编码输出的韵律特征向量的结果更准确，相比于多层二维卷积网络，其处理效率较高。

作为一示例，步骤S402中，服务器可采用韵律编码器，对输入的韵律风格编码和韵律参照音频进行编码处理，具体可先对韵律参照音频进行频谱转换，获取韵律参照频谱；再采用二维卷积网络对韵律参照频谱进行处理，输出频谱特征信息；将频谱特征信息和韵律风格编码进行拼接或者采用其他方式融合，输出采用二维矩阵形式表示的韵律特征向量。

其中，时长控制模块是用于实现时长对齐处理的模块。

作为一示例，步骤S403中，服务器在获取二维矩阵形式表示的韵律特征向量后，采用时长控制模块对韵律特征向量进行时长对齐，以获取时长对齐后的韵律隐向量。本示例中，韵律特征向量为反映韵律音素-时间相应关系的二维矩阵，则采用时长控制模块对韵律特征向量进行时长对齐时，可列向量进行扩展，得到扩展后的二维矩阵作为韵律隐向量。一般来说，音频的时长是帧序列大小，例如1秒的音频按照帧块大小为20ms进行分帧会得到行为500的二维矩阵，其中行向量表征时长，基于韵律风格编码和韵律参照音频进行编码后的二维矩阵形式的韵律特征向量中，会对应多个音频帧，需要根据时长控制模块的预测，进行复制扩展韵律特征向量，输出韵律隐向量。

本实施例所提供的语音合成方法中，先根据默认设置的韵律参照音频或者用户选定的韵律参照音频，对韵律参照音频进行韵律特征提取，获取韵律风格编码，提高语音合成的基础；再采用采用韵律编码器对韵律风格编码和韵律参照音频进行编码，获取韵律特征向量，保证编码的可行性；最后，采用时长控制模块对韵律特征向量进行时长对齐处理，获取韵律隐向量，为后续语音合成提供文本基础。可理解地，韵律编码器采用2层二维卷积网络，相比于1层二维卷积网络，其编码输出的韵律特征向量的结果更准确，相比于多层二维卷积网络，提高了语音合成的效率。

在一实施例中，如图5所示，步骤S203中，将获取用户标识对应的用户编码向量，包括：

S501：基于用户标识查询标识编码表，判断用户标识是否在标识编码表中的预设标识；

S502：若用户标识为预设标识，则将预设标识对应的预设编码向量，确定为用户标识对应的用户编码向量；

S503：若用户标识不为预设标识，则获取用户标识对应的用户音频数据，基于用户音频数据，确定用户标识对应的用户编码向量。

其中，标识编码表是根据训练集中的不同的预设标识和其对应的预设编码向量形成的信息表。预设标识是预先设置并存储在标识编码表中的用于唯一识别某一用户的标识。

作为一示例，步骤S501中，服务器在获取用户标识后，可基于用户标识查询预先设置的标识编码表，以判断用户标识是否为标识编码表中的预设标识。

其中，预设编码向量为根据预设标识对应的预设音频数据进行特征提取所形成的编码向量，该预设编码向量反映预设标识对应的用户说话的说话习惯。

作为一示例，步骤S502中，服务器在用户标识为标识编码表中的预设标识时，说明在***当前时间之前，已经采用过该用户标识对应的预设音频数据，并将预设音频数据进行编码所形成的预设编码向量与预设标识关联存储在标识编码表中，因此，可直接将预设标识对应的预设编码向量，确定为用户标识对应的用户编码向量，可提高用户编码向量的获取效率。

其中，用户音频数据与用户标识相对应的音频数据，即为用户标识对应的用户说话所形成的音频数据。

作为一示例，步骤S503中，服务器在用户标识不为标识编码表中的预设标识时，说明标识编码表中不存在预先设置的预设编码向量，此时，需实时获取用户标识对应的用户音频数据，接着，对用户音频数据进行编码，确定用户标识对应的用户编码向量，保障用户编码向量获取的实时性。

本示例中，服务器内设有用户编码模块，用户编码模块是为了区分不同用户的语音合成的编码模块。用户编码模块可以采用多种方式，最简单的方式是使用数字编号ID作为用户标识，区分不同用户，通过一层embedding层完成用户编码，获取用户编码向量，这种获取用户编码向量的优点是方便简捷。用户编码模块也可以采用声学特征，例如X-vector、d-vector等用向量来区分不同用户语音音色，以获取用户编码向量，使得用户编码向量可反映语音音色，可保障后续语音合成形成的目标音频文件的合成效果，使得用户标识对应的用户相关，提高语音合成的自然度。

本实施例所提供的语音合成方法中，根据用户标识是否为标识编码表中的预设标识，在用户标识为预设标识时，可直接将预设标识对应的预设编码向量，确定为用户标识对应的用户编码向量，可提高用户编码向量的获取效率；在用户标识不为预设标识时，可对用户音频数据进行编码，以获取用户编码向量，保障用户编码向量获取的实时性。可理解地，确定用户标识对应的用户编码向量，使得用户编码向量可反映语音音色，可保障后续语音合成形成的目标音频文件的合成效果，使得用户标识对应的用户相关，提高语音合成的自然度。

在一实施例中，如图6所示，步骤S503，即基于用户音频数据，确定用户标识对应的用户编码向量，包括：

S601：对用户音频数据进行特征提取，获取第一频谱特征；

S602：对第一频谱特征进行分割，获取N个第二频谱特征；

S603：将N个第二频谱特征依次输出卷积神经网络进行处理，获取N个第二频谱特征对应的第一隐向量；

S604：对N个第二频谱特征对应的第一隐向量进行均值和方差计算，确定N个第二频谱特征对应的隐向量均值和隐向量方差；

S605：对N个第二频谱特征对应的隐向量均值和隐向量方差进行拼接，获取第二隐向量；

S606：将第二隐向量输入到卷积神经网络进行处理，获取用户标识对应的用户编码向量。

其中，第一频谱特征为对用户音频数据提取获得的频谱特征。

作为一示例，步骤S601中，服务器实时获取用户标识对应的用户音频数据，对用户音频数据进行特征提取，具体可提取用户音频数据对应的频谱特征，将其作为第一频谱特征，为后续编码向量生成提供基础。

其中，第二频谱特征为对第一频谱特征进行分割所获取的频谱特征。

作为一示例，步骤S602中，服务器将提取到的第一频谱特征，按照预先设置的频谱特征分割策略，对第一频谱特征进行分割，将分割好的每一段频谱特征作为第二频谱特征。其中，频谱特征分割策略是预先设置的用于对频谱特征进行分割的策略，具体可以是按照固定时长进行分割，也可以按用户自定义的分割标准进行分割。

其中，第一卷积神经网络是是用于对第二频谱特征进行处理的卷积神经网络。本示例中，第二卷积神经网络为DNN网络，DNN网络(Deep Neural Networks)为深度神经网络，DNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层，中间的隐藏层可以分为多层。第一隐向量为第二频谱特征经过卷积神经网络输出值。

作为一示例，步骤S602中，服务器将分割好的每一第二频谱特征依次输入到第一卷积神经网络，具体可输入一个由9层全连接层构成的卷积神经网络，将卷积神经网络的输出值，确定为第二频谱特征对应的第一隐向量。此处的第一隐向量可理解为卷积神经网络对第二频谱特征进行处理后输出的中间变量。

作为一示例，步骤S603中，服务器在获取N个第二频谱特征对应的第一隐向量后，可采用均值计算公式和方差计算公式，分别对N个第二频谱特征对应的第一隐向量进行计算，以确定N个第二频谱特征对应的隐向量均值和隐向量方差。

作为一示全一，步骤S604中，服务器在获取N个第二频谱特征对应的隐向量均值和隐向量方差后，可采用特定的拼接策略或依据预先设置的拼接顺序，对N个第二频谱特征对应的隐向量均值和隐向量方差进行拼接，将拼接结果确定为第二隐向量。

其中，第二卷积神经网络是用于对第二隐向量进行处理的卷积神经网络。用户编码向量为可以声纹识别向量X-vector，可接受任意长度的输入，转化为固定长度的特征表达。

作为一示例，步骤S606中，服务器将第二隐向量输入到第二卷积神经网络进行处理，具体输入到一个4层的第二卷积神经网络，得到声纹识别向量X-vector，将声纹识别向量X-vector作为用户标识对应的用户编码向量，本示例中，可直接跳过全连接层直接生成用户编码向量。

本实施例所提供的语音合成方法中，先对用户音频数据进行特征提取，获取第一频谱特征提高编码向量合成提供基础；再对第二频谱特征进行分割，使得每一第二频谱特征的信息量较少，方便后续进行处理，保障编码生成的可行性；接着将第二频谱特征输入到第一卷积神经网络，再对其输出的第一隐向量进行均值和方差计算和拼接，得到第二隐向量，为后续编码向量合成提供基础，最后将第二隐向量第二卷积神经网络，得到用户编码向量。该生成的用户编码向量为声纹识别向量X-vector，可接受任意长度的输入，转化为固定长度的特征表达，在卷积神经网络训练中引入了包含噪声和混响在内的数据增强策略，使得模型对于噪声和混响等干扰更强。

在一实施例中，如图7所示，步骤S204，即对文本隐向量、韵律隐向量和用户编码向量进行合成，获取目标声学特征，包括：

S701：采用注意力机制对文本隐向量和韵律隐向量进行处理，获取融合隐向量；

S702：对融合隐向量和用户编码向量进行合成，获取目标声学特征。

其中，注意力机制采用的是cross attention(跨越注意力)，可以理解地，就是根据相似度算出来权重来进行加权平均。融合隐向量就是通过注意力机制对文本隐向量和韵律隐向量合成得到的向量。

作为一示例，步骤S701中，服务器采用的注意力机制，具体可采用crossattention这种注意力机制，对文本隐向量和韵律隐向量进行处理，可将文本隐向量作为注意力机制的query，韵律隐向量作为注意力机制的key，进行计算注意力得分，将计算出的注意力得分，确定为融合隐向量。

作为一示例，步骤S702中，服务器将融合隐向量和用户编码向量一起输入到解码器进行解码，以将解码器的输出结果，确定为目标声学特征。

本实施例所提供的语音合成方法中，先采用注意力机制对文本隐向量和韵律隐向量进行合成，获取融合隐向量，为获取目标声学特征做出准备。最后，采用融合向量与用户编码向量输入到解码器进行解码，获取目标声学特征，使得获取到的目标声学特征不仅与文本隐向量和韵律隐向量相关，还与用户编码向量相关，有助于保障目标音频文件的语音合成效果，提高合成语音的自然度。

在一实施例中，如图8所示，S701，即采用注意力机制对文本隐向量和韵律隐向量进行处理，获取融合隐向量，包括：

S801：采用注意力机制对文本隐向量和韵律隐向量进行相似度计算，获取向量相似度；

S802：采用softmax层对向量相似度进行归一化处理，获取韵律权重值；

S803：基于文本隐向量和韵律权重值进行加权处理，获取融合隐向量。

其中，向量相似度是对文本隐向量和韵律隐向量进行一个向量相似度计算得出的。Softmax层是一种激活函数，可以将一个数值向量归一化为一个概率分布向量。

作为一示例，步骤S801中，服务器采用注意力机制对文本隐向量和韵律隐向量进行相似度计算，获取向量相似度F(query,key)，其中query为文本隐向量，Key为韵律隐向量，F为文本隐向量与韵律隐向量的相似度计算，得出向量相似度。其中，相似度计算可以使用点乘完成，也可以使用全连接层实现。

作为一示例，步骤S802中，服务器在计算出文本隐向量和韵律隐向量对应的向量相似度F(query,key)后，可采用softmax层对向量相似度F(query,key)进行归一化处理，以将向量相似度F(query,key)归一化为0-1之间的数值，确定为韵律权重值，即Softmax(F(query,key))。

作为一示例，步骤S803中，服务器再对基于文本隐向量α和韵律权重值Softmax(F(query,key))进行加权求和，即∑α*Softmax(F(query,key))，得出融合隐向量。本示例中，需要通过训练集中不断的训练，不断地优化文本隐向量和韵律隐向量。

本实施例所提供的语音合成方法中，服务器采用注意力机制对文本隐向量和韵律隐向量进行相似度计算，提到了方案的可行性，接着采用了softmax层对向量相似度进行归一化处理，获得韵律权重值，最后将韵律权重值与文本隐向量进行加权求和处理，得出了融合隐向量，为与用户编码合成做基础，为增强多用户语音合成中韵律风格控制做准备。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音合成装置，该语音合成装置与上述实施例中语音合成方法一一对应。如图9所示，该语音合成装置包括文本隐向量获取模块901、韵律隐向量获取模块902、用户编码向量获取模块903、目标声学特征获取模块904和目标音频文件获取模块905。各功能模块详细说明如下：

文本隐向量获取模块901，用于对文本序列进行处理，获取文本隐向量；

韵律隐向量获取模块902，用于对韵律参照音频进行韵律特征提取，获取韵律隐向量；

用户编码向量获取模块903，用于获取用户标识对应的用户编码向量；

目标声学特征获取模块904，用于采用注意力机制对文本隐向量、韵律隐向量和用户编码向量进行合成，获取目标声学特征；

目标音频文件获取模块905，用于基于目标声学特征进行语音合成，获取文本序列对应的目标音频文件。

在一实施例中，文本隐向量获取模块901，包括：

音素序列获取单元，用于对文本序列进行解析，获取音素序列；

音素特征向量获取单元，用于对音素序列进行空间向量转换，获取音素特征向量；

文本隐向量获取单元，用于对音素特征向量进行编码，获取文本隐向量。

在一实施例中，韵律隐向量获取模块902，包括：

韵律风格编码获取单元，用于对韵律参照音频进行韵律特征提取，获取韵律风格编码；

韵律特征向量获取单元，用于对韵律风格编码和韵律参照音频进行编码，获取韵律特征向量；

韵律隐向量获取单元，用于对韵律特征向量进行时长对齐处理，获取韵律隐向量。

在一实施例中，用户编码向量获取模块903，包括：

预设标识判断单元，用于基于用户标识查询标识编码表，判断用户标识是否在标识编码表中的预设标识；

第一用户编码向量确定单元，用于若用户标识为预设标识，则将预设标识对应的预设编码向量，确定为用户标识对应的用户编码向量；

第二用户编码向量确定单元，用于若用户标识不为预设标识，则获取用户标识对应的用户音频数据，基于用户音频数据，确定用户标识对应的用户编码向量。

在一实施例中，第二用户编码向量确定单元，包括：

第一频谱特征获取子单元，用于对用户音频数据进行特征提取，获取第一频谱特征；

第二频谱特征获取子单元，用于对第一频谱特征进行分割，获取N个第二频谱特征；

第一隐向量获取子单元，用于将N个第二频谱特征依次输出第一卷积神经网络进行处理，获取N个第二频谱特征对应的第一隐向量；

均值方差确定子单元，用于对N个第二频谱特征对应的第一隐向量进行均值和方差计算，确定N个第二频谱特征对应的隐向量均值和隐向量方差；

第二隐向量获取子单元，用于对N个第二频谱特征对应的隐向量均值和隐向量方差进行拼接，获取第二隐向量；

用户编码向量获取子单元，用于将第二隐向量输入到第二卷积神经网络进行处理，获取用户标识对应的用户编码向量。

在一实施例中，目标声学特征获取模块904，包括：

融合隐向量获取单元，用于采用注意力机制对文本隐向量和韵律隐向量进行处理，获取融合隐向量；

目标声学特征获取单元，对融合隐向量和用户编码向量进行合成，获取目标声学特征。

在一实施例中，融合隐向量获取单元，包括：

向量相似度获取子单元，用于采用注意力机制对文本隐向量和韵律隐向量进行相似度计算，获取向量相似度；

韵律权重值获取子单元，用于对向量相似度进行归一化处理，获取韵律权重值；

融合隐向量获取子单元，用于基于文本隐向量和韵律权重值进行加权处理，获取融合隐向量。

关于语音合成装置的具体限定可以参见上文中对于语音合成方法的限定，在此不再赘述。上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行语音合成方法过程中采用或生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成方法。

在一实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音合成方法，例如图2所示S201-S205，或者图3至图8中所示，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现语音合成装置这一实施例中的各模块/单元的功能，例如图9所示的文本隐向量获取模块901、韵律隐向量获取模块902、用户编码向量获取模块903、目标声学特征获取模块904和目标音频文件获取模块905的功能，为避免重复，这里不再赘述。

在一实施例中，提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中语音合成方法，例如图2所示S201-S205，或者图3至图8中所示，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述语音合成装置这一实施例中的各模块/单元的功能，例如图9所示的文本隐向量获取模块901、韵律隐向量获取模块902、用户编码向量获取模块903、目标声学特征获取模块904和目标音频文件获取模块905的功能，为避免重复，这里不再赘述。计算机可读存储介质可以是非易失性，也可以是易失性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

对文本序列进行处理，获取文本隐向量；

对韵律参照音频进行韵律特征提取，获取韵律隐向量；

获取用户标识对应的用户编码向量；

对所述文本隐向量、所述韵律隐向量和所述用户编码向量进行合成，获取目标声学特征；

2.如权利要求1所述的语音合成方法，其特征在于，所述对所述文本序列进行处理，获取文本隐向量，包括：

对所述文本序列进行解析，获取音素序列；

对所述音素序列进行空间向量转换，获取音素特征向量；

对所述音素特征向量进行编码，获取文本隐向量。

3.如权利要求1所述的语音合成方法，其特征在于，所述对所述韵律参照音频进行韵律特征提取，获取韵律隐向量，包括：

对所述韵律参照音频进行韵律特征提取，获取韵律风格编码；

对所述韵律风格编码和所述韵律参照音频进行编码，获取韵律特征向量；

对所述韵律特征向量进行时长对齐处理，获取韵律隐向量。

4.如权利要求1所述的语音合成方法，其特征在于，所述获取用户标识对应的用户编码向量，包括：

基于所述用户标识查询标识编码表，判断所述用户标识是否在所述标识编码表中的预设标识；

若所述用户标识为所述预设标识，则将所述预设标识对应的预设编码向量，确定为所述用户标识对应的用户编码向量；

若所述用户标识不为所述预设标识，则获取所述用户标识对应的用户音频数据，基于所述用户音频数据，确定所述用户标识对应的用户编码向量。

5.如权利要求4所述的语音合成方法，其特征在于，所述基于所述用户音频数据，确定用户标识对应的用户编码向量，包括：

对所述用户音频数据进行特征提取，获取第一频谱特征；

对所述第一频谱特征进行分割，获取N个第二频谱特征；

将N个所述第二频谱特征依次输出第一卷积神经网络进行处理，获取N个所述第二频谱特征对应的第一隐向量；

对N个所述第二频谱特征对应的第一隐向量进行均值和方差计算，确定N个所述第二频谱特征对应的隐向量均值和隐向量方差；

对N个所述第二频谱特征对应的隐向量均值和隐向量方差进行拼接，获取第二隐向量；

将所述第二隐向量输入到第二卷积神经网络进行处理，获取用户标识对应的用户编码向量。

6.如权利要求1所述的语音合成方法，其特征在于，所述采用注意力机制对所述文本隐向量、所述韵律隐向量和所述用户编码向量进行合成，获取目标声学特征，包括：

采用注意力机制对所述文本隐向量和所述韵律隐向量进行处理，获取融合隐向量；

对所述融合隐向量和所述用户编码向量进行合成，获取目标声学特征。

7.如权利要求6所述的语音合成方法，其特征在于，所述采用注意力机制对所述文本隐向量和所述韵律隐向量进行处理，获取融合隐向量，包括：

采用注意力机制对所述文本隐向量和所述韵律隐向量进行相似度计算，获取向量相似度；

对所述向量相似度进行归一化处理，获取韵律权重值；

基于所述文本隐向量和所述韵律权重值进行加权处理，获取融合隐向量。

8.一种语音合成装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音合成方法。