CN117219052A

CN117219052A - 韵律预测方法、装置、设备、存储介质和程序产品

Info

Publication number: CN117219052A
Application number: CN202310121183.1A
Authority: CN
Inventors: 吴志勇; 李翔; 刘颂湘
Original assignee: Shenzhen Tencent Computer Systems Co Ltd; Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen Tencent Computer Systems Co Ltd; Shenzhen International Graduate School of Tsinghua University
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-12-12

Abstract

本申请提供了一种韵律预测方法、装置、设备、存储介质和程序产品；涉及人工智能技术；方法包括：对目标文本进行特征提取，得到所述目标文本的文本特征；从第一目标分布中采样得到用于韵律预测的初始韵律特征，并从第二目标分布中采样得到用于韵律预测的噪声；基于所述文本特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征；其中，所述预测韵律特征，用于供结合所述文本特征进行语音合成，得到所述目标文本的、具有所述预测韵律特征的合成语音；通过本申请，能够丰富文本的预测韵律特征的多样性，使得基于预测韵律特征针对文本进行语音合成所得到的合成语音具备多样化。

Description

韵律预测方法、装置、设备、存储介质和程序产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种韵律预测方法、装置、设备、存储介质和程序产品。

背景技术

人工智能(AI，Artificial Intelligence)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

韵律预测也是人工智能的一个重要应用方向。相关技术中，在进行韵律预测时，通过确定性韵律预测模型对文本进行韵律预测，得到文本的预测韵律特征。但是，由于确定性韵律预测针对一个文本只能预测得到一种预测韵律特征，使得同一文本的预测韵律特征缺乏变化，导致基于该预测韵律特征针对该文本进行语音合成所得到的合成语音过于单一化。

发明内容

本申请实施例提供一种韵律预测方法、装置、电子设备、计算机可读存储介质和计算机程序产品，能够丰富文本的预测韵律特征的多样性，使得基于预测韵律特征针对文本进行语音合成所得到的合成语音具备多样化。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种韵律预测方法，包括：

对目标文本进行特征提取，得到所述目标文本的文本特征；

从第一目标分布中采样得到用于韵律预测的初始韵律特征，并从第二目标分布中采样得到用于韵律预测的噪声；

基于所述文本特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征；

其中，所述预测韵律特征，用于供结合所述文本特征进行语音合成，得到所述目标文本的、具有所述预测韵律特征的合成语音。

本申请实施例还提供一种韵律预测装置，包括：

特征提取模块，用于对目标文本进行特征提取，得到所述目标文本的文本特征；

采样模块，用于从第一目标分布中采样得到用于韵律预测的初始韵律特征，并从第二目标分布中采样得到用于韵律预测的噪声；

韵律预测模块，用于基于所述文本特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征；

在上述方案中，所述特征提取模块，还用于对所述目标文本进行分词处理，得到所述目标文本包括的多个分词；针对每个所述分词，获取所述分词的音素信息，并对所述音素信息进行编码处理，以将所述音素信息转换为音素特征；将每个所述分词的所述音素特征进行组合，得到所述目标文本的文本特征。

在上述方案中，所述采样模块，还用于在从第一目标分布中采样得到用于韵律预测的初始韵律特征，并从第二目标分布中采样得到用于韵律预测的噪声之前，生成符合第一数据分布类型的第一随机数据，并基于所述第一随机数据构建所述第一目标分布；生成符合第二数据分布类型的第二随机数据，并基于所述第二随机数据构建所述第二目标分布。

在上述方案中，所述韵律预测模块，还用于在所述基于所述文本特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征之前，获取用于韵律预测的韵律控制信息；所述韵律预测模块，还用于将所述文本特征和所述韵律控制信息进行组合，得到组合特征；基于所述组合特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征。

在上述方案中，所述韵律预测包括M轮韵律预测；所述采样模块，还用于针对所述M轮韵律预测中的每轮韵律预测，从所述第二目标分布中，采样得到用于所述轮韵律预测的噪声；所述韵律预测模块，还用于针对所述M轮韵律预测中的第1轮韵律预测，基于所述文本特征、所述初始韵律特征、以及用于所述第1轮韵律预测的噪声，对所述目标文本进行韵律预测，得到所述第1轮韵律预测的中间预测韵律特征；针对所述M轮韵律预测中的第m轮韵律预测，基于所述文本特征、第(m-1)轮韵律预测的中间预测韵律特征、以及用于所述第m轮韵律预测的噪声，对所述目标文本进行韵律预测，得到所述第m轮韵律预测的中间预测韵律特征；对所述m进行遍历，得到第M轮韵律预测的中间预测韵律特征，并将所述第M轮韵律预测的中间预测韵律特征，作为所述目标文本的预测韵律特征；其中，所述M和所述m为大于0的整数，所述M大于或者等于所述m。

在上述方案中，所述韵律预测模块，还用于基于所述文本特征和所述初始韵律特征，对所述初始韵律特征进行待去除噪声的预测，得到待去除噪声；将所述初始韵律特征与所述待去除噪声进行相减，并基于相减得到的相减结果和所述噪声，确定所述目标文本的预测韵律特征。

在上述方案中，所述第一目标分布符合第一数据分布类型，所述采样模块，还用于从所述第一目标分布中，随机采样得到符合所述第一数据分布类型的第一采样数据，并将所述第一采样数据作为用于韵律预测的所述初始韵律特征；所述第二目标分布符合第二数据分布类型，所述采样模块，还用于从所述第二目标分布中，随机采样得到符合所述第二数据分布类型的第二采样数据，并将所述第二采样数据作为用于韵律预测的所述噪声。

在上述方案中，所述韵律预测模块，还用于获取用于韵律预测的韵律预测模型；基于所述文本特征、所述初始韵律特征、以及所述噪声，调用所述韵律预测模型对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征。

在上述方案中，所述韵律预测模块，还用于获取初始韵律预测模型，并获取用于训练所述初始韵律预测模型的样本文本、以及所述样本文本的目标韵律特征；对所述样本文本进行特征提取，得到所述样本文本的样本文本特征，并从第三目标分布中采样得到样本噪声；基于所述样本文本特征、所述目标韵律特征和所述样本噪声，通过所述初始韵律预测模型进行待去除噪声的预测，得到预测待去除噪声，所述预测待去除噪声，用于确定所述初始韵律预测模型针对所述样本文本的韵律预测结果；基于所述预测待去除噪声，更新所述初始韵律预测模型的模型参数，得到用于韵律预测的所述韵律预测模型。

在上述方案中，所述韵律预测模块，还用于基于所述预测待去除噪声，确定所述初始韵律预测模型的梯度；基于所述梯度，更新所述初始韵律预测模型的模型参数。

在上述方案中，所述韵律预测模块，还用于基于所述文本特征和所述预测韵律特征，对所述目标文本进行语音合成，得到所述目标文本的目标合成语音。

本申请实施例还提供一种电子设备，包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的韵律预测方法。

本申请实施例还提供一种计算机可读存储介质，存储有计算机可执行指令或计算机程序，所述计算机可执行指令或计算机程序被处理器执行时，实现本申请实施例提供的韵律预测方法。

本申请实施例还提供一种计算机程序产品，包括计算机可执行指令或计算机程序，所述计算机可执行指令或计算机程序被处理器执行时，实现本申请实施例提供的韵律预测方法。

本申请实施例具有以下有益效果：

应用本申请上述实施例，首先对目标文本进行特征提取，得到目标文本的文本特征，然后从第一目标分布中采样得到用于韵律预测的初始韵律特征，并从第二目标分布中采样得到用于韵律预测的噪声，从而基于文本特征、初始韵律特征、以及噪声，对目标文本进行韵律预测，得到目标文本的预测韵律特征；如此，可以结合该预测韵律特征和文本特征进行语音合成，得到目标文本的、具有预测韵律特征的合成语音。

这里，由于韵律预测处理时采样得到的初始韵律特征和噪声具有随机性，因此不同轮次的韵律预测处理之间，采样得到的初始韵律特征和噪声是不同的，从而使得预测得到的预测韵律特征也是不同的。如此，通过本申请实施例提供的韵律预测方法，能够针对同一文本预测得到不同的预测韵律特征，丰富了文本的预测韵律特征的多样性，从而使得基于预测韵律特征针对文本进行语音合成所得到的合成语音具备多样化。

附图说明

图1是本申请实施例提供的韵律预测***100的架构示意图；

图2是本申请实施例提供的实施韵律预测方法的电子设备500的结构示意图；

图3是本申请实施例提供的韵律预测方法的流程示意图；

图4是本申请实施例提供的韵律预测方法的流程示意图；

图5是本申请实施例提供的韵律预测方法的流程示意图；

图6是本申请实施例提供的韵律预测方法的流程示意图；

图7是本申请实施例提供的韵律预测模型的应用示意图；

图8是本申请实施例提供的韵律预测模型的训练示意图；

图9是本申请实施例提供的韵律预测模型的应用示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)客户端，终端中运行的用于提供各种服务的应用程序，例如支持韵律预测的客户端。

2)响应于，用于表示所执行的操作所依赖的条件或状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

3)音素：根据语音的自然属性划分出来的最小语音单位，在语音合成方法中作为基本建模单元存在。

4)韵律特征，在语流中，除了包括元音、辅音按时间顺序排列成的音色特征以外，还包括声音的高低(音高)、强弱(音强)、长短(音长)和其相互关系等的特征。语音的韵律特征也就是常说的语音中的抑扬顿挫。韵律特征具体表现为：音节层次上的声调、音节组合层次上的轻重音、音位层次上的长短音、语句层次上的语调。

5)语音合成，又称文语转换(Text to Speech，TTS)技术，是通过机械的、电子的方法产生人造语音的技术。TTS技术是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

6)编码，是信息从一种形式或格式转换为另一种形式的过程。解码，是编码的逆过程。

本申请实施例提供一种韵律预测方法、装置、电子设备、计算机可读存储介质和计算机程序产品，能够丰富文本的预测韵律特征的多样性，使得基于预测韵律特征针对文本进行语音合成所得到的合成语音具备多样化。接下来分别进行说明。

需要说明的是，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面说明本申请实施例提供的韵律预测***。参见图1，图1是本申请实施例提供的韵律预测***100的架构示意图，为实现支撑一个示例性应用，终端(示例性示出了终端400-1)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

终端(例如400-1)，用于响应于针对目标文本的韵律预测指令，发送针对目标文本的韵律预测请求至服务器200；

服务器200，用于接收终端发送的针对目标文本的韵律预测请求；响应于韵律预测请求，获取目标文本，并对目标文本进行特征提取，得到目标文本的文本特征；从第一目标分布中采样得到用于韵律预测的初始韵律特征，并从第二目标分布中采样得到用于韵律预测的噪声；基于文本特征、初始韵律特征、以及噪声，对目标文本进行韵律预测，得到目标文本的预测韵律特征；

在一些实施例中，当需要对目标文本进行语音合成时，用户可以在终端触发针对目标文本的语音合成指令，此时，终端(例如400-1)，还用于发送针对目标文本的语音合成请求至服务器200；服务器200，还用于接收针对目标文本的语音合成请求；响应于语音合成请求，基于目标文本的文本特征和预测韵律特征进行语音合成，得到目标文本的、具有预测韵律特征的合成语音；返回目标文本的合成语音至终端；终端(例如400-1)，还用于接收服务器200返回的目标文本的合成语音；播放目标文本的合成语音。

在一些实施例中，本申请实施例提供的韵律预测方法可以由各种电子设备实施，例如，可以由终端单独实施，也可以由服务器单独实施，也可以由终端和服务器协同实施。本申请实施例提供的韵律预测方法可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶、游戏、音视频等。

在一些实施例中，本申请实施例提供的实施韵律预测方法的电子设备可以是各种类型的终端或服务器。其中，服务器(例如服务器200)可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***。终端(例如终端400-1)可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备(例如智能音箱)、智能家电(例如智能电视)、智能手表、车载终端、可穿戴设备、虚拟现实(Virtual Reality，VR)设备等，但并不局限于此。终端和服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例对此不做限制。

在一些实施例中，本申请实施例提供的韵律预测方法可以借助于云技术(CloudTechnology)实现。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算资源和存储资源。作为示例，服务器(例如服务器200)还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一些实施例中，多个服务器可组成为一区块链，而服务器为区块链上的节点，区块链中的每个节点之间可以存在信息连接，节点之间可以通过信息连接进行信息传输。其中，本申请实施例提供的韵律预测方法所相关的数据(例如目标文本、该目标文本的预测韵律特征、该目标文本的合成语音等)可保存于区块链上。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的韵律预测方法，举例来说，计算机程序可以是操作***中的原生程序或软件模块；可以是本地(Native)应用程序(Application，APP)，即需要在操作***中安装才能运行的程序；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

下面说明本申请实施例提供的实施韵律预测方法的电子设备。参见图2，图2是本申请实施例提供的实施韵律预测方法的电子设备500的结构示意图。本申请实施例提供的电子设备500可以是终端，也可以是服务器。本申请实施例提供的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线***540耦合在一起。可理解，总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(Digital Signal Processor，DSP)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。存储器550可以包括在物理位置上远离处理器510的一个或多个存储设备。存储器550包括易失性存储器或非易失性存储器，也可包括易失性存储器和非易失性存储器两者。非易失性存储器可以是只读存储器(Read Only Memory，ROM)，易失性存储器可以是随机存取存储器(Random Access Memory，RAM)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***551，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他电子设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(Universal Serial Bus，USB)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的韵律预测装置可以采用软件方式实现，图2示出了存储在存储器550中的韵律预测装置555，其可以是程序和插件等形式的软件，包括以下软件模块：特征提取模块5551、采样模块5552和韵律预测模块5553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

下面说明本申请实施例提供的韵律预测方法。在一些实施例中，本申请实施例提供的韵律预测方法可以由各种电子设备实施，例如，可以由终端单独实施，也可以由服务器单独实施，也可以由终端和服务器协同实施。以终端实施为例，参见图3，图3是本申请实施例提供的韵律预测方法的流程示意图，本申请实施例提供的韵律预测方法包括：

步骤101：终端对目标文本进行特征提取，得到目标文本的文本特征。

在步骤101中，终端可以设置有客户端，比如支持韵律预测的客户端。终端运行该客户端，用户可以通过客户端触发针对目标文本的韵律预测指令；终端响应于该韵律预测指令，获取待进行韵律预测的目标文本。该目标文本可以是用户根据需要设置的，也可以根据上下文场景生成的(比如智能语音助手根据用户的语音生成的)，还可以是已有的文本(比如有声读物等)，例如，目标文本可以是：“你好呀”、“遇见你很高兴”等。当终端获取目标文本之后，首先对目标文本进行特征提取，得到目标文本的文本特征。

在一些实施例中，参见图4，图4是本申请实施例提供的韵律预测方法的流程示意图，这里，图3所示的步骤101可通过图4所示的步骤1011-步骤1013实现：步骤1011，对目标文本进行分词处理，得到目标文本包括的多个分词；步骤1012，针对每个分词，获取分词的音素信息，并对音素信息进行编码处理，以将音素信息转换为音素特征；步骤1013，将每个分词的音素特征进行组合，得到目标文本的文本特征。

这里，在对目标文本进行特征提取时，可以提取目标文本的音素级特征。在实际实施时，可以通过预先构建的文本编码器实现。该文本编码器可以是基于至少一层Transformer网络构建的。其中，对目标文本进行特征提取的过程包括：在步骤1011中，可以对目标文本进行分词处理，得到目标文本包括的多个分词，具体地，可以先对目标文本进行正则化处理，得到标准文本，然后对标准文本进行分词处理，得到目标文本包括的多个分词。在步骤1012中，1)针对每个分词，获取该分词的音素信息，具体是获取该分词中每个文字的音素信息，该音素信息是表示相应分词发音的信息，比如该音素信息可以是分词的拼音、音标等任何适用于表示该短句发音的发音符号。2)针对每个分词，将该分词的音素信息进行编码处理，从而将分词的音素信息转换为音素特征。在步骤1013中，将目标文本包括的每个分词的音素特征进行组合，得到目标文本的文本特征。具体地，可以将每个分词的音素特征进行拼接处理，得到拼接音素特征，将该拼接音素特征作为目标文本的文本特征。该拼接处理可以包括：将每个分词的音素特征进行相加处理、相乘处理等等。

需要说明的是，韵律特征是目标文本的音素的韵律特征，每个音素具有相应的韵律特征。该韵律特征可以通过基频、能量、时长等维度来表示。本申请实施例中的文本特征可以理解为文本表征，韵律特征可以理解为韵律表征。

步骤102：从第一目标分布中采样得到用于韵律预测的初始韵律特征，并从第二目标分布中采样得到用于韵律预测的噪声。

在步骤102中，终端可以首先获取第一目标分布和第二目标分布。然后从第一目标分布中进行随机采样，得到用于韵律预测的初始韵律特征；并从第二目标分布中进行随机采样，得到用于韵律预测的噪声。在实际应用中，该第一目标分布可以符合第一数据分布类型，即第一目标分布包括符合第一数据分布类型的多个随机数据，该第二目标分布可以符合第二数据分布类型，即第二目标分布包括符合第二数据分布类型的多个随机数据。该第一数据分布类型和第二数据分布类型可以是相同的，也可以是不同的。该数据分布类型(第一数据分布类型或者第二数据分布类型)可以是正态分布、标准正态分布等。

在一些实施例中，终端可通过如下方式构建第一目标分布：生成符合第一数据分布类型的第一随机数据，并基于第一随机数据构建第一目标分布；相应的，终端可通过如下方式构建第二目标分布：生成符合第二数据分布类型的第二随机数据，并基于第二随机数据构建第二目标分布。这里，在生成随机数据时，可以通过随机数据生成算法生成。

在一些实施例中，当目标分布(第一目标分布或者第二目标分布)符合某个目标数据分布类型(第一数据分布类型或者第二数据分布类型)时，在进行随机采样时，可以从目标分布中采样符合该目标数据分布类型的采样数据，将该采样数据作为采样结果。即，第一目标分布符合第一数据分布类型，终端可通过如下方式从第一目标分布中采样得到初始韵律特征：从第一目标分布中，随机采样得到符合第一数据分布类型的第一采样数据，并将第一采样数据作为用于韵律预测的初始韵律特征；相应的，第二目标分布符合第二数据分布类型，终端可通过如下方式从第二目标分布中采样得到噪声：从第二目标分布中，随机采样得到符合第二数据分布类型的第二采样数据，并将第二采样数据作为用于韵律预测的噪声。

这里，由于韵律预测处理时采样的初始韵律特征和噪声具有随机性，因此不同轮次的韵律预测处理之间，采样的初始韵律特征和噪声是不同的，从而使得预测得到的预测韵律特征也是不同的。如此，通过针对同一文本多轮次执行本申请实施例提供的韵律预测方法，可以针对同一文本得到不同的预测韵律特征，丰富了文本的预测韵律特征的多样性，从而使得基于预测韵律特征针对文本进行语音合成所得到的合成语音具备多样化。

步骤103：基于文本特征、初始韵律特征、以及噪声，对目标文本进行韵律预测，得到目标文本的预测韵律特征。

其中，该预测韵律特征，用于供结合文本特征进行语音合成，得到目标文本的、具有预测韵律特征的合成语音。

在步骤103中，在得到目标文本的文本特征、用于韵律预测的初始韵律特征和噪声之后，基于文本特征、初始韵律特征、以及噪声，对目标文本进行韵律预测，得到目标文本的预测韵律特征。

在一些实施例中，终端在对目标文本进行韵律预测之前，还可以获取用于韵律预测的韵律控制信息(或称韵律控制条件)，该韵律控制信息可以是预先设置的，也可以是根据目标文本的上下文场景、目标文本的内容等生成的。该韵律控制信息可以包括音色、音调、音强、情感(比如高兴、悲伤)等信息。基于此，终端可通过如下方式基于文本特征、初始韵律特征、以及噪声，对目标文本进行韵律预测，得到目标文本的预测韵律特征：将文本特征和韵律控制信息进行组合，得到组合特征；基于组合特征、初始韵律特征、以及噪声，对目标文本进行韵律预测，得到目标文本的预测韵律特征。这里，在将文本特征和韵律控制信息进行组合时，可以是将文本特征和韵律控制信息进行拼接处理，将拼接处理的结果作为该组合特征。该拼接处理可以包括将文本特征和韵律控制信息进行相加处理、相乘处理等等。

在一些实施例中，韵律预测的过程是对初始韵律特征进行去噪的过程，因此在进行韵律预测时，实际预测的是初始韵律特征所要去除的待去除噪声。基于此，参见图5，图5是本申请实施例提供的韵律预测方法的流程示意图，这里，图3所示的步骤103还可通过图5所示的步骤1031-步骤1032实现：步骤1031，基于文本特征和初始韵律特征，对初始韵律特征进行待去除噪声的预测，得到待去除噪声；步骤1032，将初始韵律特征与待去除噪声进行相减，并基于相减得到的相减结果和噪声，确定目标文本的预测韵律特征。

在一些实施例中，韵律预测包括M轮韵律预测；相应的，参见图6，图6是本申请实施例提供的韵律预测方法的流程示意图，这里，图3所示的步骤102可通过图6所示的步骤1021实现：从第一目标分布中采样得到用于韵律预测的初始韵律特征，并针对M轮韵律预测中的每轮韵律预测，从第二目标分布中，采样得到用于轮韵律预测的噪声。基于此，图3所示的步骤103还可通过图6所示的步骤1033-步骤1035实现：步骤1033，针对M轮韵律预测中的第1轮韵律预测，基于文本特征、初始韵律特征、以及用于第1轮韵律预测的噪声，对目标文本进行韵律预测，得到第1轮韵律预测的中间预测韵律特征；步骤1034，针对M轮韵律预测中的第m轮韵律预测，基于文本特征、第(m-1)轮韵律预测的中间预测韵律特征、以及用于第m轮韵律预测的噪声，对目标文本进行韵律预测，得到第m轮韵律预测的中间预测韵律特征；步骤1035，对m进行遍历，得到第M轮韵律预测的中间预测韵律特征，并将第M轮韵律预测的中间预测韵律特征，作为目标文本的预测韵律特征；其中，M和m为大于0的整数，M大于或者等于m。

在实际应用中，该韵律预测包括M轮韵律预测。在本申请实施例中，针对M轮韵律预测中的每轮韵律预测，分别从第二目标分布中采样得到用于该轮韵律预测的噪声，即，每轮韵律预测，分别有用于该轮韵律预测的噪声。基于此，说明M轮韵律预测中的每轮韵律预测的处理过程：

针对M轮韵律预测中的第1轮韵律预测：基于文本特征、初始韵律特征、以及用于第1轮韵律预测的噪声，对目标文本进行韵律预测，得到第1轮韵律预测的中间预测韵律特征。具体地，首先将文本特征、初始韵律特征、以及用于第1轮韵律预测的噪声进行拼接，得到拼接特征，然后基于拼接特征对目标文本进行韵律预测，得到第1轮韵律预测的中间预测韵律特征。

针对M轮韵律预测中的第m轮韵律预测：基于文本特征、第(m-1)轮韵律预测的中间预测韵律特征、以及用于第m轮韵律预测的噪声，对目标文本进行韵律预测，得到第m轮韵律预测的中间预测韵律特征。同样的，也可以首先将文本特征、第(m-1)轮韵律预测的中间预测韵律特征、以及用于第m轮韵律预测的噪声进行拼接，得到拼接特征，然后基于拼接特征对目标文本进行韵律预测，得到第1轮韵律预测的中间预测韵律特征。从而通过对m进行遍历，得到第M轮韵律预测的中间预测韵律特征，并将第M轮韵律预测的中间预测韵律特征，作为目标文本的预测韵律特征。这里，可以通过上一轮的中间预测韵律特征，计算得到下一轮的中间预测特征，从而通过M轮级联的逐轮韵律预测的方式，提高韵律预测的准确性，并提高预测韵律特征和最终合成语音的表现力。

在实际应用中，针对M轮韵律预测中的第1轮韵律预测：基于文本特征和初始韵律特征，对初始韵律特征进行待去除噪声的预测，得到第1轮待去除噪声；将初始韵律特征与第1轮待去除噪声进行相减，并基于相减得到的相减结果和噪声，确定第1轮韵律预测的中间预测韵律特征。针对M轮韵律预测中的第m轮韵律预测：基于文本特征和第(m-1)轮韵律预测的中间预测韵律特征，对第(m-1)轮韵律预测的中间预测韵律特征进行待去除噪声的预测，得到第(m-1)轮待去除噪声；将第(m-1)轮韵律预测的中间预测韵律特征与第(m-1)轮待去除噪声进行相减，并基于相减得到的相减结果和噪声，确定第m轮韵律预测的中间预测韵律特征。对m进行遍历，得到第M轮韵律预测的中间预测韵律特征，并将第M轮韵律预测的中间预测韵律特征，作为目标文本的预测韵律特征。如此，通过M轮级联的韵律预测，实现了对初始韵律特征进行逐步去噪的过程，使得所得到的预测韵律特征更为准确，从而提高预测韵律特征和最终合成语音的表现力。

在一些实施例中，终端可通过如下方式基于文本特征、初始韵律特征、以及噪声，对目标文本进行韵律预测，得到目标文本的预测韵律特征：获取用于韵律预测的韵律预测模型；基于文本特征、初始韵律特征、以及噪声，调用韵律预测模型对目标文本进行韵律预测，得到目标文本的预测韵律特征。这里，该韵律预测模型可以是基于神经网络构建的，比如深度神经网络、卷积神经网络。在本申请实施例中，该韵律预测模型是以扩散概率模型为核心构建的，此时，上述轮数M等于扩散概率模型的扩散总时间步数T(T为正整数)，每个m值对应一个时间步t，该时间步t归属于时间步序列{T，T-1，…2,1}，随着m的增加，时间步t较少，直至1。基于此，在进行每轮韵律预测时，还需要结合该时间步t进行韵律预测。具体地，韵律预测模型可通过如下公式(一)预测得到预测韵律表征：

其中，c为文本表征与韵律控制条件(即上述韵律控制信息)组合得到的输入条件；x_t-1为上一时间步预测得到的预测韵律表征(即第(m-1)轮韵律预测的中间预测韵律特征)；z为每一时间步t中采样自第二目标分布(比如标准正态分布)的噪声；固定参数∈_θ(x_t,c,t)为待去除噪声。按照上述公式(一)重复计算T次后，得到最终的预测韵律表征。

另外，由于韵律预测模型的韵律预测过程包括M轮韵律预测，可以从M轮韵律预测中采样N(N为小于M的正整数)轮韵律预测进行训练即可，如此提高了模型的训练效率，减少计算资源的浪费。

在实际实施时，该韵律预测模型是预先训练完成的，接下来对韵律预测模型的训练过程进行说明。

在一些实施例中，终端可通过如下方式训练得到韵律预测模型：获取初始韵律预测模型，并获取用于训练初始韵律预测模型的样本文本、以及样本文本的目标韵律特征；对样本文本进行特征提取，得到样本文本的样本文本特征；基于样本文本特征和目标韵律特征，通过初始韵律预测模型进行待去除噪声的预测，得到预测待去除噪声，预测待去除噪声，用于确定初始韵律预测模型针对样本文本的韵律预测结果；基于预测待去除噪声，更新初始韵律预测模型的模型参数，得到用于韵律预测的韵律预测模型。

在一些实施例中，终端可通过如下方式基于预测待去除噪声，更新初始韵律预测模型的模型参数：基于预测待去除噪声，确定初始韵律预测模型的梯度；基于梯度，更新初始韵律预测模型的模型参数。

这里，在模型训练阶段，韵律预测模型的训练目标为最大化韵律表征分布的对数似然的变分下界，为达到以该训练目标训练韵律预测模型的效果，在实际训练过程中，通过韵律预测模型对训练数据(包括样本文本特征和目标韵律特征)进行处理，具体是通过韵律预测模型基于训练数据，对待去除噪声进行预测，得到预测待去除噪声，然后基于预测待去除噪声计算初始韵律预测模型的梯度，从而基于梯度更新初始韵律预测模型的模型参数直至收敛即完成训练。

在实际应用中，当初始韵律预测模型基于扩散概率模型构建时，可通过采用如下公式(二)基于预测待去除噪声，确定初始韵律预测模型的梯度：

其中，c为样本文本表征与韵律控制条件(即上述韵律控制信息)组合得到的输入条件；t为在1到T之间的正整数集上均匀采样得到的当前时间步；∈为采样自标准正态分布的噪声；为当前时间步的预测待去除噪声，x₀为目标韵律表征；而固定参数α_t：＝1-β_t，/>β_t为当前时间步t待加入的扩散噪声。

在实际应用中，当需要进行语音合成时，可以基于文本特征和预测韵律特征，对目标文本进行语音合成，得到目标文本的目标合成语音。这里，该语音合成的处理过程可以通过预先训练完成的语音合成模型实现。具体地，可以通过语音合成模型的声学解码器，对文本特征和预测韵律特征进行解码处理，得到该目标合成语音。

下面以韵律预测模型基于扩散概率模型构建为例，说明本申请实施例在一个实际的应用场景中的示例性应用。

首先说明相关技术中提供的韵律预测方法。相关技术中，预设了真实人类语音的韵律表征服从简单的单峰拉普拉斯或高斯分布，从而通过优化预测结果的误差来进行韵律预测模型的训练。其中，韵律预测模型采用了传统的确定性预测模型，即在韵律控制条件(即上述韵律控制信息)相同的情况下，对于单条输入文本，输出的预测韵律表征始终保持不变。因此，相关技术中存在如下缺点：1)对于人类语音的韵律表征分布作了过于简化的预设，偏离了真实情况，导致预测韵律表征出现过平滑现象，最终导致合成语音的表现力下降；2)直接优化预测结果误差的训练方式，导致韵律预测模型过拟合到训练数据中的样本文本上，韵律预测模型的泛化性能差；3)确定性模型预测结果使得单条输入文本的预测韵律表征缺乏变化，导致基于该预测韵律表征针对该输入文本进行语音合成所得到的合成语音过于单一化。

基于此，本申请实施例提供一种韵律预测方法，以至少解决上述存在的问题。本申请实施例具体是提供一种基于扩散概率模型的韵律预测方法，该韵律预测方法面向语音合成任务。具体地，以目标文本及韵律控制条件作为韵律预测模型的输入，使用韵律预测模型预测得到相应的预测韵律表征并输出。该预测韵律表征可用于控制语音合成任务所生成的合成语音的韵律变化，从而提高合成语音表现力与多样性。基于此，本申请实施例提供的韵律预测方法解决了如下问题：1)扩散概率模型不对韵律表征的原始分布做预设，通过最大化韵律表征分布的对数似然的变分下界来进行模型训练，且以逐步去噪的形式进行韵律预测，能够建模更复杂的韵律表征分布，避免过平滑现象，提高预测韵律表征和最终合成语音的表现力；2)扩散概率模型作为生成式模型，在预测韵律表征时，通过从正态分布中随机采样初始韵律特征和噪声的方式，使得每轮次采样的初始韵律特征和噪声具备随机性，从而使得不同轮次得到的预测韵律表征也是不同的，即对于同一条文本，可以通过多轮次执行本申请实施例提供的韵律预测方法，得到不同的预测韵律表征，丰富了文本的预测韵律表征的多样性，从而提升合成语音的多样性。

在实际应用中，本申请实施例提供的韵律预测方法可应用于智能语音助手、电子有声读物自动生成等依赖于语音合成的内容生成场景。具体地，参见图7，图7是本申请实施例提供的韵律预测模型的应用示意图。这里，本申请实施例提供的韵律预测模型可结合包含文本编码器、声学解码器的语音合成框架，形成如图7所示的语音合成服务流程，包括：

(1)服务调用者给出输入文本和韵律控制条件(如音色、情感等被训练数据覆盖的信息)；(2)文本编码器根据输入文本得到文本表征；(3)韵律预测模型根据文本表征和韵律控制条件进行韵律预测，得到预测韵律表征；(4)声学解码器根据文本表征和预测韵律表征解码得到该输入文本的合成语音，该合成语音的内容为输入文本，而合成语音的韵律受到预测韵律表征调控。

本申请实施例提供的韵律预测方法主要涉及文本编码器和韵律预测模型。其中，1)文本编码器可以采用随语音合成框架预训练的多层前馈Transformer网络，负责将输入文本编码为音素级表征(即文本表征)，在模型训练过程中可以保持文本编码器的参数冻结不变。2)韵律预测模型采用以非因果Wavenet作为去噪器的扩散概率模型，负责在给定文本表征和韵律控制条件下，建模韵律表征分布，并提供根据建模的韵律表征分布进行预测的功能，从而得到预测韵律表征。具体地，扩散概率模型的主要参数包括：a)预设的固定参数：a1)扩散过程的总时间步数T(即上述韵律预测的轮数M，为正整数)；a2)长度为T的扩散过程中待加入的扩散噪声序列{β₁，…，β_T}；b)可训练参数：基于非因果WaveNet的去噪器中的神经网络参数θ。

接下来对本申请实施例提供的韵律预测模型的训练过程进行说明。参见图8，图8是本申请实施例提供的韵律预测模型的训练示意图。这里，在模型训练阶段，韵律预测模型的训练目标为最大化韵律表征分布的对数似然的变分下界，为达到以该训练目标训练韵律预测模型的效果，在实际训练过程中，通过韵律预测模型对训练数据(包括样本文本、韵律控制条件、样本文本的目标韵律表征x₀)进行处理，具体是通过扩散概率模型中的去噪器基于训练数据，对当前时间步t需要去除的待去除噪声进行预测，输出预测的待去除噪声，然后基于如下梯度计算公式(二)计算梯度，从而通过梯度更新韵律预测模型的可训练参数θ直至收敛即完成训练。

其中，c为训练数据集中的样本文本由文本编码器编码为样本文本表征后与韵律控制条件组合得到的输入条件；t为在1到T之间的正整数集上均匀采样得到的当前时间步；∈为采样自第三目标分分布(如标准正态分布)的噪声；为扩散概率模型中去噪器预测的当前时间步的预测待去除噪声，这里，x₀为训练数据集中预先处理好的各音素的目标韵律表征，由基频、能量、时长三个维度的韵律表征组成；而固定参数α_t：＝1-β_t，/>

接下来对本申请实施例提供的韵律预测模型的应用过程进行说明。参见图9，图9是本申请实施例提供的韵律预测模型的应用示意图。这里，在模型推理应用阶段，韵律预测模型从采样自标准正态分布的初始韵律表征x_T出发，对扩散时间步序列{T，T-1，…,1}中的每一个时间步t，依次按照如下公式(一)更新韵律表征：

其中，c为基于输入文本(即上述目标文本)的文本表征与韵律控制条件组合得到的输入条件；x_t-1为上一时间步预测得到的预测韵律表征；z为每一时间步t中采样自第二目标分布(比如标准正态分布)的噪声；∈_θ(x_t,c,t)为待去除噪声；固定参数按照上述公式(一)重复计算T次后，得到最终的预测韵律表征。

在实际应用中，1)关于文本编码器中的多层前馈Transformer模型，也可以使用其他结构的神经网络替代；2)关于韵律预测模型中扩散概率模型的非因果Wavenet网络，也可以使用其他结构的神经网络替代；3)关于模型训练过程中当前时间步t的采样方法，可以替代为加权采样，其中权重可动态更新；4)关于模型训练过程中当前时间步t的表示方法，也可以通过在1到T之间的正整数集上采样后除以T，得到其小数表示形式作为替代；5)关于韵律表征的组成内容，也可以替代为其他类型的声学特征或神经网络提取的隐式表征的组合。

应用本申请上述实施例，1)本申请实施例对比相关技术，在总体上提升了预测韵律表征分布对真实分布的拟合效果，在基频、能量、时长三个韵律预测表征维度上的分布Jensen-Shannon Divergence(所属区间为(0，1)，值越小表明拟合效果越好)分别从0.199、0.056、0.119下降至0.085、0.055、0.056。2)本申请实施例对比相关技术，提升了预测韵律表征及其控制合成的合成语音的表现力。3)本申请实施例对比相关技术，丰富了单个文本的预测韵律表征的多样性，实现了通过不同轮次的韵律预测处理得到不同的预测韵律表征，改善了相关技术同等条件下单个文本只能输出相同预测韵律表征的问题，从而提升合成语音的多样性。

下面继续说明本申请实施例提供的韵律预测装置555的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器550的韵律预测装置555中的软件模块可以包括：特征提取模块5551，用于对目标文本进行特征提取，得到所述目标文本的文本特征；采样模块5552，用于从第一目标分布中采样得到用于韵律预测的初始韵律特征，并从第二目标分布中采样得到用于韵律预测的噪声；韵律预测模块5553，用于基于所述文本特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征；其中，所述预测韵律特征，用于供结合所述文本特征进行语音合成，得到所述目标文本的、具有所述预测韵律特征的合成语音。

在一些实施例中，所述特征提取模块5551，还用于对所述目标文本进行分词处理，得到所述目标文本包括的多个分词；针对每个所述分词，获取所述分词的音素信息，并对所述音素信息进行编码处理，以将所述音素信息转换为音素特征；将每个所述分词的所述音素特征进行组合，得到所述目标文本的文本特征。

在一些实施例中，所述采样模块5552，还用于在从第一目标分布中采样得到用于韵律预测的初始韵律特征，并从第二目标分布中采样得到用于韵律预测的噪声之前，生成符合第一数据分布类型的第一随机数据，并基于所述第一随机数据构建所述第一目标分布；生成符合第二数据分布类型的第二随机数据，并基于所述第二随机数据构建所述第二目标分布。

在一些实施例中，所述韵律预测模块5553，还用于在所述基于所述文本特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征之前，获取用于韵律预测的韵律控制信息；所述韵律预测模块5553，还用于将所述文本特征和所述韵律控制信息进行组合，得到组合特征；基于所述组合特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征。

在一些实施例中，所述韵律预测包括M轮韵律预测；所述采样模块5552，还用于针对所述M轮韵律预测中的每轮韵律预测，从所述第二目标分布中，采样得到用于所述轮韵律预测的噪声；所述韵律预测模块5553，还用于针对所述M轮韵律预测中的第1轮韵律预测，基于所述文本特征、所述初始韵律特征、以及用于所述第1轮韵律预测的噪声，对所述目标文本进行韵律预测，得到所述第1轮韵律预测的中间预测韵律特征；针对所述M轮韵律预测中的第m轮韵律预测，基于所述文本特征、第(m-1)轮韵律预测的中间预测韵律特征、以及用于所述第m轮韵律预测的噪声，对所述目标文本进行韵律预测，得到所述第m轮韵律预测的中间预测韵律特征；对所述m进行遍历，得到第M轮韵律预测的中间预测韵律特征，并将所述第M轮韵律预测的中间预测韵律特征，作为所述目标文本的预测韵律特征；其中，所述M和所述m为大于0的整数，所述M大于或者等于所述m。

在一些实施例中，所述韵律预测模块5553，还用于基于所述文本特征和所述初始韵律特征，对所述初始韵律特征进行待去除噪声的预测，得到待去除噪声；将所述初始韵律特征与所述待去除噪声进行相减，并基于相减得到的相减结果和所述噪声，确定所述目标文本的预测韵律特征。

在一些实施例中，所述第一目标分布符合第一数据分布类型，所述采样模块5552，还用于从所述第一目标分布中，随机采样得到符合所述第一数据分布类型的第一采样数据，并将所述第一采样数据作为用于韵律预测的所述初始韵律特征；所述第二目标分布符合第二数据分布类型，所述采样模块5552，还用于从所述第二目标分布中，随机采样得到符合所述第二数据分布类型的第二采样数据，并将所述第二采样数据作为用于韵律预测的所述噪声。

在一些实施例中，所述韵律预测模块5553，还用于获取用于韵律预测的韵律预测模型；基于所述文本特征、所述初始韵律特征、以及所述噪声，调用所述韵律预测模型对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征。

在一些实施例中，所述韵律预测模块5553，还用于获取初始韵律预测模型，并获取用于训练所述初始韵律预测模型的样本文本、以及所述样本文本的目标韵律特征；对所述样本文本进行特征提取，得到所述样本文本的样本文本特征，并从第三目标分布中采样得到样本噪声；基于所述样本文本特征、所述目标韵律特征和所述样本噪声，通过所述初始韵律预测模型进行待去除噪声的预测，得到预测待去除噪声，所述预测待去除噪声，用于确定所述初始韵律预测模型针对所述样本文本的韵律预测结果；基于所述预测待去除噪声，更新所述初始韵律预测模型的模型参数，得到用于韵律预测的所述韵律预测模型。

在一些实施例中，所述韵律预测模块5553，还用于基于所述预测待去除噪声，确定所述初始韵律预测模型的梯度；基于所述梯度，更新所述初始韵律预测模型的模型参数。

在一些实施例中，所述韵律预测模块5553，还用于基于所述文本特征和所述预测韵律特征，对所述目标文本进行语音合成，得到所述目标文本的目标合成语音。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机可执行指令或计算机程序，该计算机可执行指令或计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令或计算机程序，处理器执行该计算机可执行指令或计算机程序，使得该电子设备执行本申请实施例提供的韵律预测方法。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机可执行指令或计算机程序，当该计算机可执行指令或计算机程序被处理器执行时，将引起处理器执行本申请实施例提供的韵律预测方法。

在一些实施例中，计算机可读存储介质可以是RAM、ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(Hyper TextMarkup Language，HTML)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种韵律预测方法，其特征在于，所述方法包括：

对目标文本进行特征提取，得到所述目标文本的文本特征；

2.如权利要求1所述的方法，其特征在于，所述对目标文本进行特征提取，得到所述目标文本的文本特征，包括：

对所述目标文本进行分词处理，得到所述目标文本包括的多个分词；

针对每个所述分词，获取所述分词的音素信息，并对所述音素信息进行编码处理，以将所述音素信息转换为音素特征；

将每个所述分词的所述音素特征进行组合，得到所述目标文本的文本特征。

3.如权利要求1所述的方法，其特征在于，所述从第一目标分布中采样得到用于韵律预测的初始韵律特征，并从第二目标分布中采样得到用于韵律预测的噪声之前，所述方法还包括：

生成符合第一数据分布类型的第一随机数据，并基于所述第一随机数据构建所述第一目标分布；

生成符合第二数据分布类型的第二随机数据，并基于所述第二随机数据构建所述第二目标分布。

4.如权利要求1所述的方法，其特征在于，所述基于所述文本特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征之前，所述方法还包括：

获取用于韵律预测的韵律控制信息；

所述基于所述文本特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征，包括：

将所述文本特征和所述韵律控制信息进行组合，得到组合特征；

基于所述组合特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征。

5.如权利要求1所述的方法，其特征在于，所述韵律预测包括M轮韵律预测；所述从第二目标分布中采样得到用于韵律预测的噪声：

针对所述M轮韵律预测中的每轮韵律预测，从所述第二目标分布中，采样得到用于所述轮韵律预测的噪声；

针对所述M轮韵律预测中的第1轮韵律预测，基于所述文本特征、所述初始韵律特征、以及用于所述第1轮韵律预测的噪声，对所述目标文本进行韵律预测，得到所述第1轮韵律预测的中间预测韵律特征；

针对所述M轮韵律预测中的第m轮韵律预测，基于所述文本特征、第(m-1)轮韵律预测的中间预测韵律特征、以及用于所述第m轮韵律预测的噪声，对所述目标文本进行韵律预测，得到所述第m轮韵律预测的中间预测韵律特征；

对所述m进行遍历，得到第M轮韵律预测的中间预测韵律特征，并将所述第M轮韵律预测的中间预测韵律特征，作为所述目标文本的预测韵律特征；

其中，所述M和所述m为大于0的整数，所述M大于或者等于所述m。

6.如权利要求1所述的方法，其特征在于，所述基于所述文本特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征，包括：

基于所述文本特征和所述初始韵律特征，对所述初始韵律特征进行待去除噪声的预测，得到待去除噪声；

将所述初始韵律特征与所述待去除噪声进行相减，并基于相减得到的相减结果和所述噪声，确定所述目标文本的预测韵律特征。

7.如权利要求1所述的方法，其特征在于，

所述第一目标分布符合第一数据分布类型，所述从第一目标分布中采样得到用于韵律预测的初始韵律特征，包括：

从所述第一目标分布中，随机采样得到符合所述第一数据分布类型的第一采样数据，并将所述第一采样数据作为用于韵律预测的所述初始韵律特征；

所述第二目标分布符合第二数据分布类型，所述从第二目标分布中采样得到用于韵律预测的噪声，包括：

从所述第二目标分布中，随机采样得到符合所述第二数据分布类型的第二采样数据，并将所述第二采样数据作为用于韵律预测的所述噪声。

8.如权利要求1所述的方法，其特征在于，所述基于所述文本特征、所述初始韵律特征、以及所述噪声，对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征，包括：

获取用于韵律预测的韵律预测模型；

基于所述文本特征、所述初始韵律特征、以及所述噪声，调用所述韵律预测模型对所述目标文本进行韵律预测，得到所述目标文本的预测韵律特征。

9.如权利要求8所述的方法，其特征在于，所述获取用于韵律预测的韵律预测模型，包括：

获取初始韵律预测模型，并获取用于训练所述初始韵律预测模型的样本文本、以及所述样本文本的目标韵律特征；

对所述样本文本进行特征提取，得到所述样本文本的样本文本特征，并从第三目标分布中采样得到样本噪声；

基于所述样本文本特征、所述目标韵律特征和所述样本噪声，通过所述初始韵律预测模型进行待去除噪声的预测，得到预测待去除噪声，所述预测待去除噪声，用于确定所述初始韵律预测模型针对所述样本文本的韵律预测结果；

基于所述预测待去除噪声，更新所述初始韵律预测模型的模型参数，得到用于韵律预测的所述韵律预测模型。

10.如权利要求9所述的方法，其特征在于，所述基于所述预测待去除噪声，更新所述初始韵律预测模型的模型参数，包括：

基于所述预测待去除噪声，确定所述初始韵律预测模型的梯度；

基于所述梯度，更新所述初始韵律预测模型的模型参数。

11.如权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述文本特征和所述预测韵律特征，对所述目标文本进行语音合成，得到所述目标文本的目标合成语音。

12.一种韵律预测装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机可执行指令时，实现权利要求1至11任一项所述的韵律预测方法。

14.一种计算机可读存储介质，存储有计算机可执行指令或计算机程序，其特征在于，所述计算机可执行指令或计算机程序被处理器执行时，实现权利要求1至11任一项所述的韵律预测方法。

15.一种计算机程序产品，包括计算机可执行指令或计算机程序，其特征在于，所述计算机可执行指令或计算机程序被处理器执行时，实现权利要求1至11任一项所述的韵律预测方法。