CN114822492A

CN114822492A - 语音合成方法及装置、电子设备、计算机可读存储介质

Info

Publication number: CN114822492A
Application number: CN202210738396.4A
Authority: CN
Inventors: 刘龙飞
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-07-29
Anticipated expiration: 2042-06-28
Also published as: CN114822492B

Abstract

本公开关于一种语音合成方法及装置、电子设备、计算机可读存储介质。该方法包括：将目标对象的语音和待合成文本输入到编码器中，得到第一特征和第二特征，其中，第一特征包含从目标对象的语音提取的特征，第二特征包含从待合成文本提取的特征；将待合成文本输入到时长预测网络中，得到待合成文本中每个文本单元的第一时长，其中，第一时长是待合成文本按所述目标对象的声音呈现的语音中相应文本单元的时长；基于目标语音风格，将每个文本单元的第一时长调整为相应的第二时长；将第一特征、第二特征和第二时长输入到扩帧网络中，得到按第二时长进行扩帧后的第三特征；将第三特征输入到解码器中，得到符合目标语音风格的目标合成语音。

Description

语音合成方法及装置、电子设备、计算机可读存储介质

技术领域

本公开涉及音视频处理领域，尤其涉及一种语音合成方法及装置、电子设备、计算机可读存储介质。

背景技术

随着人工智能的快速发展，如何使用合成技术自动合成语音日益成为学术界和工业界的关注焦点。传统的语音合成（如，从文本到语音（Text To Speech，缩写为TTS））技术生成的语音一般为朗读形式的风格，比较贴近人自然状态下的说话风格，因为语音合成训练数据一般为自然说话风格，带有一定节奏感的训练数据比较缺乏，例如，想要为一个不会说唱的目标人合成即兴说唱音乐的节奏感的语音时，需要大量的针对目标人的具有即兴说唱音乐的节奏感的训练数据，但目标人并不具备说唱能力，所以无法获取到目标人的训练数据，此时无法为目标人合成带有即兴说唱音乐的节奏感的语音。

发明内容

本公开提供一种语音合成方法及装置、电子设备、计算机可读存储介质，以至少解决相关技术中的语音合成方法无法合成带有一定节奏感的语音的问题。

根据本公开实施例的第一方面，提供一种语音合成方法，语音合成方法基于语音合成模型实现，语音合成模型包括编码器、时长预测网络、扩帧网络和解码器，语音合成方法包括：将目标对象的语音和待合成文本输入到编码器中，得到第一特征和第二特征，其中，第一特征包含从目标对象的语音提取的特征，第二特征包含从待合成文本提取的特征；将待合成文本输入到时长预测网络中，得到待合成文本中每个文本单元的第一时长，其中，第一时长是待合成文本按目标对象的声音呈现的语音中相应文本单元的时长；基于目标语音风格，将每个文本单元的第一时长调整为相应的第二时长；将第一特征、第二特征和第二时长输入到扩帧网络中，得到按第二时长进行扩帧后的第三特征；将第三特征输入到解码器中，得到符合目标语音风格的目标合成语音。

可选地，基于目标语音风格，将每个文本单元的第一时长调整为相应的第二时长，包括：基于预设单元配置信息，确定待合成文本中待调整时长的文本单元，其中，预设单元配置信息包含待调整时长的文本单元的确定规则；将每个待调整时长的文本单元的第一时长调整为符合目标语音风格的时长。

可选地，基于目标语音风格，将每个文本单元的第一时长调整为相应的第二时长，还包括：将待合成文本中预定文本单元的第一时长调整为预定长度的时长，其中，预定文本单元是除所述待调整时长的文本单元之外的文本单元。

可选地，基于预设单元配置信息，确定待合成文本中待调整时长的文本单元，包括：获取待合成文本对应的语义信息；基于语义信息和预设单元配置信息，确定待合成文本中待调整时长的文本单元。

可选地，语音合成模型通过如下方式进行训练：获取训练数据，其中，训练数据包括训练对象的语音、训练对象的语音对应的文本以及文本中每个文本单元在训练对象的语音中的实际时长；将训练对象的语音和训练对象的语音对应的文本输入到编码器中，得到第一预估特征和第二预估特征，其中，第一预估特征包含从训练对象的语音提取的特征，第二预估特征包含从文本提取的特征；将文本输入到时长预测网络中，得到文本中每个文本单元在训练对象的语音中的第一预估时长；将第一预估特征、第二预估特征和文本中每个文本单元在训练对象的语音中的实际时长输入到扩帧网络中，得到按实际时长进行扩帧后的第三预估特征；将第三预估特征输入到解码器中，得到预估合成语音，其中，预估合成语音的风格与训练对象的语音的风格相同；基于第一预估时长、实际时长、训练对象的语音和预估合成语音的损失值，调整语音合成模型的参数，对语音合成模型进行训练。

可选地，基于第一预估时长、实际时长、训练对象的语音和预估合成语音的损失值，调整语音合成模型的参数，对语音合成模型进行训练，包括：基于第一预估时长和实际时长，确定第一损失值；基于训练对象的语音和预估合成语音，确定第二损失值；基于第一损失值和第二损失值，确定目标损失值；基于目标损失值，调整语音合成模型的参数，对语音合成模型进行训练。

根据本公开实施例的第二方面，提供一种语音合成装置，语音合成装置基于语音合成模型实现，语音合成模型包括编码器、时长预测网络、扩帧网络和解码器，语音合成装置包括：特征获取单元，被配置为将目标对象的语音和待合成文本输入到编码器中，得到第一特征和第二特征，其中，第一特征包含从目标对象的语音提取的特征，第二特征包含从待合成文本提取的特征；时长获取单元，被配置为将待合成文本输入到时长预测网络中，得到待合成文本中每个文本单元的第一时长，其中，第一时长是待合成文本按目标对象的声音呈现的语音中相应文本单元的时长；时长调整单元，被配置为按基于目标语音风格，将每个文本单元的第一时长调整为相应的第二时长；扩帧单元，被配置为将第一特征、第二特征和第二时长输入到扩帧网络中，得到按第二时长进行扩帧后的第三特征；合成语音获取单元，被配置为将第三特征输入到解码器中，得到符合目标语音风格的目标合成语音。

可选地，时长调整单元，还被配置为基于预设单元配置信息，确定待合成文本中待调整时长的文本单元，其中，预设单元配置信息包含待调整时长的文本单元的确定规则；将每个待调整时长的文本单元的第一时长调整为符合目标语音风格的时长。

可选地，时长调整单元，还被配置为将待合成文本中预定文本单元的第一时长调整为预定长度的时长，其中，预定文本单元是除所述待调整时长的文本单元之外的文本单元。

可选地，时长调整单元，还被配置为获取待合成文本对应的语义信息；基于语义信息和预设单元配置信息，确定待合成文本中待调整时长的文本单元。

可选地，还包括训练单元，被配置为获取训练数据，其中，训练数据包括训练对象的语音、训练对象的语音对应的文本以及文本中每个文本单元在训练对象的语音中的实际时长；将训练对象的语音和训练对象的语音对应的文本输入到编码器中，得到第一预估特征和第二预估特征，其中，第一预估特征包含从训练对象的语音提取的特征，第二预估特征包含从文本提取的特征；将文本输入到时长预测网络中，得到文本中每个文本单元在训练对象的语音中的第一预估时长；将第一预估特征、第二预估特征和文本中每个文本单元在训练对象的语音中的实际时长输入到扩帧网络中，得到按实际时长进行扩帧后的第三预估特征；将第三预估特征输入到解码器中，得到预估合成语音，其中，预估合成语音的风格与训练对象的语音的风格相同；基于第一预估时长、实际时长、训练对象的语音和预估合成语音的损失值，调整语音合成模型的参数，对语音合成模型进行训练。

可选地，训练单元，还被配置为基于第一预估时长和实际时长，确定第一损失值；基于训练对象的语音和预估合成语音，确定第二损失值；基于第一损失值和第二损失值，确定目标损失值；基于目标损失值，调整语音合成模型的参数，对语音合成模型进行训练。

根据本公开实施例的第三方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现根据本公开的语音合成方法。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行如上根据本公开的语音合成方法。

根据本公开实施例的第五方面，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现根据本公开的语音合成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的语音合成方法及装置、电子设备、计算机可读存储介质，在语音合成过程中引入了时长调整操作，即对时长预测网络输出的时长，按目标语音风格进行调整，调整为符合目标语音风格的时长，从而基于该时长进行扩帧，可以得到符合目标语音风格的合成语音，也即通过本公开可以得到任意风格的合成语音，且通过本公开的合成方法，由于在语音合成过程中引入了时长调整操作，使得所依赖的语音合成模型在训练阶段无需大量符合目标语音风格的样本，采用普通的自然说话样本即可，降低了训练样本的获取难度。因此，本公开解决了相关技术中语音合成方法无法合成带有一定节奏感的语音的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的语音合成方法的实施场景示意图。

图2是根据一示例性实施例示出的一种语音合成方法的流程图。

图3是根据一示例性实施例示出的一种合成说唱风格语音的***的示意图。

图4是根据一示例性实施例示出的一种合成说唱风格语音的语音合成模型的训练的示意图。

图5是根据一示例性实施例示出的一种语音合成装置的框图。

图6是根据本公开实施例的一种电子设备600的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：（1）包括A；（2）包括B；（3）包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：（1）执行步骤一；（2）执行步骤二；（3）执行步骤一和步骤二。

本公开提供了一种语音合成方法，能够合成带有一定节奏感的语音，例如，下面以按发言人的声音合成即时说唱风格的语音为例进行说明。

图1是示出根据本公开的示例性实施例的语音合成方法的实施场景示意图，如图1所述，该实施场景包括服务器100、用户终端110和用户终端120，其中，用户终端不限于2个，包括并不限于手机、个人计算机等设备，用户终端可以安装获取发言人的语音的麦克风，服务器可以是一个服务器，也可以是若干个服务器组成服务器集群，还可以是云计算平台或虚拟化中心。

用户终端110或用户终端120通过麦克风获取发言人的语音，并将该语音和待合成文本发送给服务器100，服务器100将发言人的语音和待合成文本输入到编码器中，得到第一特征和第二特征，其中，第一特征包含从发言人的语音提取的特征，第二特征包含从待合成文本提取的特征；并将待合成文本输入到时长预测网络中，得到待合成文本中每个文本单元的第一时长，其中，第一时长是待合成文本按目标对象的声音呈现的语音中每个文本单元的时长；基于即时说唱风格，将每个文本单元的第一时长调整为相应的第二时长；将第一特征、第二特征和第二时长输入到扩帧网络中，得到按第二时长进行扩帧后的第三特征；将第三特征输入到解码器中，得到符合即时说唱风格的目标合成语音。

下面，将参照附图详细描述根据本公开的示例性实施例的语音合成方法及装置。

图2是根据一示例性实施例示出的一种语音合成方法的流程图，如图2所示，语音合成方法基于语音合成模型实现，语音合成模型包括编码器、时长预测网络、扩帧网络和解码器，语音合成方法包括以下步骤：

在步骤S201中，将目标对象的语音和待合成文本输入到编码器中，得到第一特征和第二特征，其中，第一特征包含从目标对象的语音提取的特征，第二特征包含从待合成文本提取的特征。上述目标对象一般情况下是人，当然也可以是其他可以发声的物体，对此，本公开并不进行限定。上述目标对象的语音可以是任意文本的语音。再有，在本步骤中，一般会先获取目标对象的语音的梅尔谱特征，将该梅尔谱特征和待合成文本输入到编码器中，需要说明的是，从语音中获取梅尔谱特征的方法比较常规，本公开不展开论述。

例如，在该步骤中，编码器可以是多个，如包括用来处理目标对象的语音的语音编码器和用来处理待合成文本的文本编码器，具体地，步骤S201可以包括：将目标对象的语音输入到语音编码器，得到第一特征，该第一特征主要包含目标对象的声音信息，用于合成语音以使合成语音以该目标对象的声音呈现，将待合成文本输入到文本编码器中，得到和第二特征，该第二特征主要包含待合成文本的信息，用于合成语音以使合成语音以该待合成文本中的词语为文本合成的。

返回图2，在步骤S202中，将待合成文本输入到时长预测网络中，得到待合成文本中每个文本单元的第一时长，其中，第一时长是待合成文本按目标对象的声音呈现的语音中相应文本单元的时长。上述待合成文本按目标对象的声音呈现的语音可以与步骤S201的目标对象的语音是同一语音，也可以是不同的语音，即都是以目标对象的声音呈现的语音，但是语音对应的文本是不同的，但待合成文本按目标对象的声音呈现的语音对应的文本一定是待合成文本。上述文本单元可以是待合成文本中的一个汉字，也可以是待合成文本中的一个拼音，还可以是待合成文本中其他任意单元，对此本公开并不进行限定。

返回图2，在步骤S203中，基于目标语音风格，将每个文本单元的第一时长调整为相应的第二时长。上述目标语音风格可以是即时说唱风格，也可以是普通歌曲风格，还可以是其他任意风格，本公开对此并不进行限定。

根据本公开的示例性实施例，可基于预设单元配置信息，确定待合成文本中待调整时长的文本单元，其中，预设单元配置信息包含待调整时长的文本单元的确定规则，并将每个待调整时长的文本单元的第一时长调整为符合目标语音风格的时长。由于通过时长预测网络得到的待合成文本中每个文本单元在第一合成语音中的第一时长不符合目标语音风格的节奏，因此，可按照目标语音风格对至少一部分文本单元的第一时长进行调整。需要说明的是，对于除待调整时长的文本单元之外的单元的第一时长可以维持原有时长，也可以根据需要调整为等时长，对此本公开并不进行限定。根据本实施例，针对性仅仅调整待调整时长的文本单元的时长为符合目标语音风格的时长，提高了时长调整效率。

例如，上述预设单元配置信息中的确定规则根据用户需求设定，如可以按分词中字数来确定，待合成文本中待调整时长的文本单元，待合成文本中5个字以内的分词可以确定为待调整时长的文本单元，上述确定待合成文本的分词等信息可以是通过TTS信息（如TTS前端信息）确定。需要说明的是，上述只是一种预设单元配置信息，也可以通过其他需求确定，如预设设置好待合成文本中哪些文本单元作为待调整时长的文本单元，对此本公开并不进行限定。

根据本公开的示例性实施例，还可将待合成文本中预定文本单元的第一时长调整为预定长度的时长，其中，预定文本单元是除所述待调整时长的文本单元之外的文本单元。上述预定时长可以根据需要设定，上述预定长度也可以根据需要设定，由于原始的第一时长可能长短不一，不具备节奏感，如果调整为同一时长会更有节奏感。根据本实施例，将除待调整时长的文本单元之外的单元的第一时长调整为等时长，可以进一步地提高节奏感。

根据本公开的示例性实施例，可获取待合成文本对应的语义信息；基于语义信息和预设单元配置信息，确定待合成文本中待调整时长的文本单元。根据本实施例，通过TTS信息，可以方便、快速的确定待合成文本中待调整时长的文本单元。需要说明的是，上述TTS为Text To Speech，也即从文本到语音。

例如，上述TTS信息可以是TTS前端信息，该TTS前端信息中一般包含了分词、停顿等语言信息，然后根据该语言信息确定好待调整时长的分词，如将待押韵的分词作为待调整时长的分词，通常为1-5个字，超过5个字则视为无押韵，然后将待押韵的分词（该分词可能包含多个文本单元，即可以能包含多个字，此时以一个汉字为文本单元）的时长调整为目标语音风格中对应的时长，将无需押韵部分的每个字的时长调整为等时长，当然无需押韵部分的每个字的时长也可以调整为其他形式，本公开对此并不进行限定。

在步骤S204中，将第一特征、第二特征和第二时长输入到扩帧网络中，得到按第二时长进行扩帧后的第三特征。

根据本公开的示例性实施例，可将第一特征和第二特征进行拼接，得到拼接特征；将拼接特征和第二时长输入到扩帧网络中，得到按第二时长进行扩帧后的第三特征。当单独输入时，扩帧网络需要处理第一特征和第二特征这两个输入，且这两个特征处理方式大体相同，故可以将其拼接在一起，扩帧网络可以按一个输入处理。根据本实施例，预先拼接第一特征和第二特征，可以降低扩帧网络的复杂度。对于第二时长也可以考虑进一步拼接，也可以独立于拼接特征单独输入，对此本公开并不进行限定。

具体地，以第一特征按第二时长进行扩帧为例进行说明，如目标对象的语音对应的文本是“今天你好吗”，一个文本单元即句中的一个字，此时第一特征即“今天你好吗”的语义向量，每个文本单元的第二时长分别是1秒、2秒、3秒、4秒、5秒，则将第一特征和每个文本单元的第二时长输入到扩帧网络后，得到结果是“今”扩帧到1秒，“天”扩帧到2秒，“你”扩帧到3秒，“好”扩帧到4秒，“吗”扩帧到5秒。第二特征的扩帧过程与第一特征的扩帧过程相同，此处不再展开论述。另外，将第一特征和第二特征拼接，同样将第一特征和第二特征对应的时长也拼接，即将两个特征看做一个特征，进行扩帧操作，与第一特征的扩帧过程相同，此处也不再展开论述。

在步骤S205中，将第三特征输入到解码器中，得到符合目标语音风格的目标合成语音。如上所述，在步骤S201中一般会先获取目标对象的语音的梅尔谱特征，将该梅尔谱特征和待合成文本输入到编码器中用于后续处理，故解码器中输出的一般是合成语音的梅尔谱特征，得到梅尔谱特征后将其转换为合成语音。

为了方便理解上述实施例，下面以目标语音风格为说唱风格为例，结合图3的交互流程进行***的说明，图3是根据一示例性实施例示出的一种合成说唱风格语音的***的示意图，如图3所示，本***包括6个模块：发言人编码器（speaker encoder，也即上述语音编码器）、文本编码器（text encoder）、时长预测网络、扩帧网络、解码器和说唱调整模块。

首先，获取一段发言人的语音并从该语音中获取对应的梅尔谱（mel）特征。

其次，该梅尔谱特征输入到发言人编码器中，得到包含该发言人的声音信息的第一特征，需要说明的是，发言人编码器的作用是负责建模发言人的声音信息；同时将待合成文本输入到文本编码器中得到包含待合成文本的文本信息的第二特征，需要说明的是，文本编码器的作用是负责建模待合成文本的文本信息；同时还将待合成文本输入到时长预测网络中得到待合成文本中phone序列（即上述文本单元）在发言人声音呈现的语音中对应的时长，需要说明的是，时长预测网络的作用是负责预测出待合成文本中phone序列在发言人声音呈现的语音中对应的时长。

然后，将该时长输入到说唱调整模块，说唱调整模块负责将预测出的时长调整成对应的说唱风格的时长，具体调整过程上面已经详细论述过，此处不再展开论述。

最后，将发言人编码器的输出与文本编码器的输出的拼接后，和调整后的时长输入到扩帧网络，按调整好的时长进行扩帧操作得到扩帧后的特征，需要说明的是，扩帧网络负责根据真实的时长信息（也即调整后的时长），将文本长度的向量映射到合成语音长度（mel）的向量；将该扩帧后的特征输入到解码器得到合成语音的梅尔谱特征，需要说明的是，解码器负责将此向量解码成此合成语音的mel谱，在将该mel谱转换为合成语音，进而得到最后的合成语音。

根据本公开的示例性实施例，语音合成模型通过如下方式进行训练：获取训练数据，其中，训练数据包括训练对象的语音、训练对象的语音对应的文本以及文本中每个文本单元在训练对象的语音中的实际时长；将训练对象的语音和和训练对象的语音对应的文本输入到编码器中，得到第一预估特征和第二预估特征，其中，第一预估特征包含从训练对象的语音提取的特征，第二预估特征包含从文本提取的特征；将文本输入到时长预测网络中，得到文本中每个文本单元在训练对象的语音中的第一预估时长；将第一预估特征、第二预估特征和文本中每个文本单元在训练对象的语音中的实际时长输入到扩帧网络中，得到按实际时长进行扩帧后的第三预估特征；将第三预估特征输入到解码器中，得到预估合成语音，其中，预估合成语音的风格与训练对象的语音的风格相同；基于第一预估时长、实际时长、训练对象的语音和预估合成语音的损失值，调整语音合成模型的参数，对语音合成模型进行训练。根据本实施例，可以采用普通的自然说话样本实现快速训练。

例如，在训练开始前需要准备训练样本集，该训练样本集可以包括多个人的TTS语音数据和一个人的即兴说唱语音数据，还包括每个语音数据标注好的文本单元的时长，如，文本单元可以phone序列为例，在准备好训练样本后，开始对语音合成模型进行训练，训练过程如图4所示，图4是根据一示例性实施例示出的一种合成说唱风格语音的语音合成模型的训练的示意图。

如图4所示，选择一个训练样本（一个人的TTS语音数据和对应的标注好的phone序列的时长），将该训练样本中的TTS语音数据的梅尔谱特征输入到发言人编码器中，得到包含该人的声音信息的第一特征；同时将待合成文本输入到文本编码器中，得到包含待合成文本的文本信息的第二特征；同时还将待合成文本输入到时长预测网络中，得到待合成文本中phone序列（即上述文本单元）在该人的TTS语音数据中对应的预估时长。然后，将发言人编码器的输出与文本编码器的输出的拼接后，和该人的标注好的phone序列的时长输入到扩帧网络，按标注的phone序列的时长进行扩帧操作得到扩帧后的特征；将该扩帧后的特征输入到解码器得到合成语音的预估梅尔谱特征。基于该预估时长和标注的时长、该训练样本的TTS语音数据的梅尔谱特征和预估梅尔谱特征调整语音合成模型的参数，对语音合成模型进行训练。

根据本公开的示例性实施例，可基于第一预估时长和实际时长，确定第一损失值；基于训练对象的语音和预估合成语音，确定第二损失值；基于第一损失值和第二损失值，确定目标损失值；基于目标损失值，调整语音合成模型的参数，对语音合成模型进行训练。根据本实施例，分别确定时长的损失值和语音的损失值，可以提高损失值精准度，从而更好的调整模型参数来完成训练。

例如，如图4所示，在模型的训练中，存在两个损失函数（loss）：第一个为解码器输出的mel谱与真实mel谱之间的loss，第二个为时长预测模块输出的预估时长与真实时长（也即标注的时长）之间的loss，上述两个loss可以均采用均方误差，然后求和，从而可以根据二个损失函数综合来调整模型的参数，使得时长预测模块能够很好的学习每个文本在当前发言人的声音中的时长信息，也可以使得模型更好进行语音合成。

综上，针对目前的语音合成***生产的语音一般为自然风格的语音，缺少节奏感（如即兴说唱的韵律节奏感），本公开提出了一种基于深度学习的语音合成技术，可以在有限的带节奏感数据（如即兴说唱风格数据）的基础上下，结合自然风格的数据，对语音合成模型训练，在训练好的模型中引入时长调节操作，从而可以对任意文本做到带有任意风格（如即兴说唱风格）的语音合成。

图5是根据一示例性实施例示出的一种语音合成装置的框图。参照图5，语音合成装置基于语音合成模型实现，语音合成模型包括编码器、时长预测网络、扩帧网络和解码器，语音合成装置包括：

特征获取单元50，被配置为将目标对象的语音和待合成文本输入到编码器中，得到第一特征和第二特征，其中，第一特征包含从目标对象的语音提取的特征，第二特征包含从待合成文本提取的特征；时长获取单元52，被配置为将待合成文本输入到时长预测网络中，得到待合成文本中每个文本单元的第一时长，其中，第一时长是待合成文本按目标对象的声音呈现的语音中相应文本单元的时长；时长调整单元54，被配置为基于目标语音风格，将每个文本单元的第一时长调整为相应的第二时长；扩帧单元56，被配置为将第一特征、第二特征和第二时长输入到扩帧网络中，得到按第二时长进行扩帧后的第三特征；合成语音获取单元58，被配置为将第三特征输入到解码器中，得到符合目标语音风格的目标合成语音。

根据本公开的示例性实施例，时长调整单元54，还被配置为基于预设单元配置信息，确定待合成文本中待调整时长的文本单元，其中，预设单元配置信息包含待调整时长的文本单元的确定规则；将每个待调整时长的文本单元的第一时长调整为符合目标语音风格的时长。

根据本公开的示例性实施例，时长调整单元54，还被配置为将待合成文本中预定文本单元的第一时长调整为预定长度的时长，其中，预定文本单元是除所述待调整时长的文本单元之外的文本单元。

根据本公开的示例性实施例，时长调整单元54，还被配置为获取待合成文本对应的语义信息；基于语义信息和预设单元配置信息，确定待合成文本中待调整时长的文本单元。

根据本公开的示例性实施例，还包括训练单元510，被配置为获取训练数据，其中，训练数据包括训练对象的语音、训练对象的语音对应的文本以及文本中每个文本单元在训练对象的语音中的实际时长；将训练对象的语音和和训练对象的语音对应的文本输入到编码器中，得到第一预估特征和第二预估特征，其中，第一预估特征包含从训练对象的语音提取的特征，第二预估特征包含从文本提取的特征；将文本输入到时长预测网络中，得到文本中每个文本单元在训练对象的语音中的第一预估时长；将第一预估特征、第二预估特征和文本中每个文本单元在训练对象的语音中的实际时长输入到扩帧网络中，得到按实际时长进行扩帧后的第三预估特征；将第三预估特征输入到解码器中，得到预估合成语音，其中，预估合成语音的风格与训练对象的语音的风格相同；基于第一预估时长、实际时长、训练对象的语音和预估合成语音的损失值，调整语音合成模型的参数，对语音合成模型进行训练。

根据本公开的示例性实施例，训练单元510，还被配置为基于第一预估时长和实际时长，确定第一损失值；基于训练对象的语音和预估合成语音，确定第二损失值；基于第一损失值和第二损失值，确定目标损失值；基于目标损失值，调整语音合成模型的参数，对语音合成模型进行训练。

根据本公开的实施例，可提供一种电子设备。图6是根据本公开实施例的一种电子设备600的框图，该电子设备包括至少一个存储器601和至少一个处理器602，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的语音合成方法。

作为示例，电子设备600可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令（或指令集）的装置或电路的集合体。电子设备600还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程（例如，经由无线传输）以接口互联的便携式电子设备。

在电子设备600中，处理器602可包括中央处理器（CPU）、图形处理器（GPU）、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，处理器602还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器602可运行存储在存储器中的指令或代码，其中，存储器601还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器601可与处理器602集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器601可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储器601和处理器602可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器602能够读取存储在存储器601中的文件。

此外，电子设备600还可包括视频显示器（诸如，液晶显示器）和用户交互接口（诸如，键盘、鼠标、触摸输入装置等）。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行本公开实施例的语音合成方法。这里的计算机可读存储介质的示例包括：只读存储器（ROM）、随机存取可编程只读存储器（PROM）、电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器（HDD）、固态硬盘（SSD）、卡式存储器（诸如，多媒体卡、安全数字（SD）卡或极速数字（XD）卡）、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现本公开实施例的语音合成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音合成方法，其特征在于，所述语音合成方法基于语音合成模型实现，所述语音合成模型包括编码器、时长预测网络、扩帧网络和解码器，所述语音合成方法包括：

将目标对象的语音和待合成文本输入到所述编码器中，得到第一特征和第二特征，其中，所述第一特征包含从所述目标对象的语音提取的特征，所述第二特征包含从所述待合成文本提取的特征；

将所述待合成文本输入到所述时长预测网络中，得到所述待合成文本中每个文本单元的第一时长，其中，所述第一时长是所述待合成文本按所述目标对象的声音呈现的语音中相应文本单元的时长；

基于目标语音风格，将所述每个文本单元的第一时长调整为相应的第二时长；

将所述第一特征、所述第二特征和所述第二时长输入到所述扩帧网络中，得到按所述第二时长进行扩帧后的第三特征；

将所述第三特征输入到所述解码器中，得到符合目标语音风格的目标合成语音。

2.如权利要求1所述的语音合成方法，其特征在于，所述基于目标语音风格，将所述每个文本单元的第一时长调整为相应的第二时长，包括：

基于预设单元配置信息，确定所述待合成文本中待调整时长的文本单元，其中，所述预设单元配置信息包含待调整时长的文本单元的确定规则；

将每个待调整时长的文本单元的第一时长调整为符合目标语音风格的时长。

3.如权利要求2所述的语音合成方法，其特征在于，所述基于目标语音风格，将所述每个文本单元的第一时长调整为相应的第二时长，还包括：

将所述待合成文本中预定文本单元的第一时长调整为预定长度的时长，其中，所述预定文本单元是除所述待调整时长的文本单元之外的文本单元。

4.如权利要求2所述的语音合成方法，其特征在于，所述基于预设单元配置信息，确定所述待合成文本中待调整时长的文本单元，包括：

获取所述待合成文本对应的语义信息；

基于所述语义信息和所述预设单元配置信息，确定所述待合成文本中待调整时长的文本单元。

5.如权利要求1所述的语音合成方法，其特征在于，所述语音合成模型通过如下方式进行训练：

获取训练数据，其中，所述训练数据包括训练对象的语音、所述训练对象的语音对应的文本以及所述文本中每个文本单元在所述训练对象的语音中的实际时长；

将训练对象的语音和所述训练对象的语音对应的文本输入到所述编码器中，得到第一预估特征和第二预估特征，其中，所述第一预估特征包含从所述训练对象的语音提取的特征，所述第二预估特征包含从所述文本提取的特征；

将所述文本输入到所述时长预测网络中，得到所述文本中每个文本单元在所述训练对象的语音中的第一预估时长；

将所述第一预估特征、所述第二预估特征和所述文本中每个文本单元在所述训练对象的语音中的实际时长输入到所述扩帧网络中，得到按所述实际时长进行扩帧后的第三预估特征；

将所述第三预估特征输入到所述解码器中，得到预估合成语音，其中，所述预估合成语音的风格与所述训练对象的语音的风格相同；

基于所述第一预估时长、所述实际时长、所述训练对象的语音和所述预估合成语音的损失值，调整所述语音合成模型的参数，对所述语音合成模型进行训练。

6.如权利要求5所述的语音合成方法，其特征在于，所述基于所述第一预估时长、所述实际时长、所述训练对象的语音和所述预估合成语音的损失值，调整所述语音合成模型的参数，对所述语音合成模型进行训练，包括：

基于所述第一预估时长和所述实际时长，确定第一损失值；

基于所述训练对象的语音和所述预估合成语音，确定第二损失值；

基于所述第一损失值和所述第二损失值，确定目标损失值；

基于目标损失值，调整所述语音合成模型的参数，对所述语音合成模型进行训练。

7.一种语音合成装置，其特征在于，所述语音合成装置基于语音合成模型实现，所述语音合成模型包括编码器、时长预测网络、扩帧网络和解码器，所述语音合成装置包括：

特征获取单元，被配置为将目标对象的语音和待合成文本输入到所述编码器中，得到第一特征和第二特征，其中，所述第一特征包含从所述目标对象的语音提取的特征，所述第二特征包含从所述待合成文本提取的特征；

时长获取单元，被配置为将所述待合成文本输入到所述时长预测网络中，得到所述待合成文本中每个文本单元的第一时长，其中，所述第一时长是所述待合成文本按所述目标对象的声音呈现的语音中相应文本单元的时长；

时长调整单元，被配置为基于目标语音风格，将所述每个文本单元的第一时长调整为相应的第二时长；

扩帧单元，被配置为将所述第一特征、所述第二特征和所述第二时长输入到所述扩帧网络中，得到按所述第二时长进行扩帧后的第三特征；

合成语音获取单元，被配置为将所述第三特征输入到所述解码器中，得到符合目标语音风格的目标合成语音。

8.如权利要求7所述的语音合成装置，其特征在于，所述时长调整单元，还被配置为基于预设单元配置信息，确定所述待合成文本中待调整时长的文本单元，其中，所述预设单元配置信息包含待调整时长的文本单元的确定规则；将每个待调整时长的文本单元的第一时长调整为符合目标语音风格的时长。

9.如权利要求8所述的语音合成装置，其特征在于，所述时长调整单元，还被配置为将所述待合成文本中预定文本单元的第一时长调整为预定长度的时长，其中，所述预定文本单元是除所述待调整时长的文本单元之外的文本单元。

10.如权利要求8所述的语音合成装置，其特征在于，所述时长调整单元，还被配置为获取所述待合成文本对应的语义信息；基于所述语义信息和所述预设单元配置信息，确定所述待合成文本中待调整时长的文本单元。

11.如权利要求7所述的语音合成装置，其特征在于，还包括训练单元，被配置为获取训练数据，其中，所述训练数据包括训练对象的语音、所述训练对象的语音对应的文本以及所述文本中每个文本单元在所述训练对象的语音中的实际时长；将训练对象的语音和所述训练对象的语音对应的文本输入到所述编码器中，得到第一预估特征和第二预估特征，其中，所述第一预估特征包含从所述训练对象的语音提取的特征，所述第二预估特征包含从所述文本提取的特征；将所述文本输入到所述时长预测网络中，得到所述文本中每个文本单元在所述训练对象的语音中的第一预估时长；将所述第一预估特征、所述第二预估特征和所述文本中每个文本单元在所述训练对象的语音中的实际时长输入到所述扩帧网络中，得到按所述实际时长进行扩帧后的第三预估特征；将所述第三预估特征输入到所述解码器中，得到预估合成语音，其中，所述预估合成语音的风格与所述训练对象的语音的风格相同；基于所述第一预估时长、所述实际时长、所述训练对象的语音和所述预估合成语音的损失值，调整所述语音合成模型的参数，对所述语音合成模型进行训练。

12.如权利要求11所述的语音合成装置，其特征在于，所述训练单元，还被配置为基于所述第一预估时长和所述实际时长，确定第一损失值；基于所述训练对象的语音和所述预估合成语音，确定第二损失值；基于所述第一损失值和所述第二损失值，确定目标损失值；基于目标损失值，调整所述语音合成模型的参数，对所述语音合成模型进行训练。

13.一种电子设备，其特征在于，包括:

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的语音合成方法。

14.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至6中任一项所述的语音合成方法。

15.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1至6中任一项所述的语音合成方法。