CN112750422A

CN112750422A - 一种歌声合成方法、装置及设备

Info

Publication number: CN112750422A
Application number: CN202011543835.3A
Authority: CN
Inventors: 杨喜鹏; 张旭; 殷昊; 江明奇; 陈云琳
Original assignee: Go Out And Ask Suzhou Information Technology Co ltd
Current assignee: Mobvoi Innovation Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-05-04
Anticipated expiration: 2040-12-23
Also published as: CN112750422B

Abstract

本发明公开了一种歌声合成方法、装置及设备，该方法包括：获取目标歌曲的第一歌词文本，确定第一歌词文本的第一音素，将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络，根据预设目标歌曲的第二基频对第一基频进行调整，对调整后的第一基频和第一谱包络进行合成，得到合成歌声。由于训练声学模型的数据远小于现有的歌声合成所需要的数据，从而无需收集大量的数据就可以实现歌声合成，可以降低歌声合成的成本；并且，本发明的合成歌声具有目标歌曲原歌手歌唱时的韵律，曲调，且曲调连续，不会因音调的突然转换而产生不自然的听感。

Description

一种歌声合成方法、装置及设备

技术领域

本申请涉及语音合成技术领域，尤其涉及一种歌声合成方法、装置及设备。

背景技术

近年来，歌声合成技术一直备受社会各界的关注。歌声合成技术最大的便利性在于其可以让计算机唱出任何旋律的歌曲。现有的歌声合成的主流技术之一是波形拼接，波形拼接的核心是预先录制某种语言中每个发音在不同音高的歌声，得到语音合成数据库。因此，采用语音合成数据库中固有的歌声来合成歌声，依赖非常庞大的录音数据，这就需要耗费大量的时间和人力来收集数据，这样就导致歌声合成的成本比较高。

申请内容

本申请实施例通过提供一种歌声合成方法、装置及设备，用以解决现有技术中歌声合成时依赖非常庞大的录音数据，需要耗费大量的时间和人力来收集录音数据，从而使得歌声合成的成本比较高的问题。

为了解决上述问题，第一方面，本发明实施例提供了一种歌声合成方法，包括：获取目标歌曲的第一歌词文本；确定第一歌词文本的第一音素；将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络；根据预设目标歌曲的第二基频对第一基频进行调整；对调整后的第一基频和第一谱包络进行合成，得到合成歌声。

可选地，确定第一歌词文本的音素，包括：将第一歌词文本转成拼音文本，拼音文本包括声母和韵母；根据声母和韵母确定第一歌词文本的第一音素。

可选地，在获取目标歌曲的第一歌词文本之前，歌声合成方法还包括：获取多个训练样本，训练样本包括：第二歌词文本、第二歌词文本对应的朗读语音；从各训练样本中提取第二歌词文本的第二音素和朗读语音的第二声学特征，第二声学特征包括第三基频、第二谱包络；根据第二音素和朗读语音确定第二音素的朗读时长；向循环神经网络输入第二音素、第二音素的朗读时长，训练时长模型；向循环神经网络输入第二音素、第二音素的朗读时长及第二声学特征，训练特征模型；根据时长模型和特征模型得到预设的声学模型。

可选地，将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络，包括：将第一音素输入时长模型，得到第一音素的朗读时长；根据第一音素的歌唱时长对第一音素的朗读时长进行调整；将第一音素、调整后的第一音素的朗读时长输入特征模型，得到第一声学特征，第一声学特征包括第一基频、第一谱包络。

可选地，根据预设目标歌曲的第二基频对第一基频进行调整，包括：根据预设目标歌曲的第二基频，将第一基频调整为第二基频。

可选地，在根据预设目标歌曲的第二基频对第一基频进行调整之前，歌声合成方法还包括：将预设目标歌曲的第二基频中的零值插值为非零值；确定第一基频中的零值；根据第一基频中的零值调整第二基频中对应位置处的基频值。

可选地，在对调整后的第一基频和第一谱包络进行合成，得到合成歌声之后，歌声合成方法还包括：对合成歌声进行变声处理；对变声处理后的合成歌声进行滤波处理。

第二方面，本发明实施例提供了一种歌声合成装置，包括：获取单元，用于获取目标歌曲的第一歌词文本；确定单元，用于确定第一歌词文本的第一音素；处理单元，用于将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络；调整单元，用于根据预设目标歌曲的第二基频对第一基频进行调整；合成单元，用于对调整后的第一基频和第一谱包络进行合成，得到合成歌声。

第三方面，本发明实施例提供了一种歌声合成设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行如第一方面或第一方面任意实施方式中的歌声合成方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行如第一方面或第一方面任意实施方式中的歌声合成方法。

本发明实施例提供的一种歌声合成方法、装置及设备，是提前对目标歌曲进行处理，得到第一音素的歌唱时长和第二基频，并提前训练好声学模型，从而在歌声合成时，通过获取目标歌曲的第一歌词文本，确定第一歌词文本的第一音素，将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络，根据预设目标歌曲的第二基频对第一基频进行调整，对调整后的第一基频和第一谱包络进行合成，得到合成歌声，由于训练声学模型的数据远小于现有的歌声合成所需要的数据，从而无需收集大量的数据就可以实现歌声合成，可以降低歌声合成的成本；并且，本发明将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，从而第一声学特征具有目标歌曲原歌手歌唱时的韵律，然后采用目标歌曲的第二基频对第一基频进行调整，从而第一基频与目标歌曲的第二基频一致，从而合成歌声具有目标歌曲原歌手歌唱时的韵律，曲调，并且基于调整后的第一基频合成歌声，合成歌声曲调连续，不会因音调的突然转换而产生不自然的听感。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本发明实施例中一种歌声合成方法的流程示意图；

图2为本发明实施例中一种歌声合成装置的结构示意图；

图3为本发明实施例中一种歌声合成设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种歌声合成方法，如图1所述，包括：

S101.获取目标歌曲的第一歌词文本；具体地，本发明的执行主体可以为歌声合成设备，还可以是终端或者服务器，在此不做具体地限定，本发明实施例中以歌声合成设备为执行主体为例进行说明。歌声合成设备可以通过有线连接方式或者无线连接方式接收用户的歌唱请求，然后根据用户的歌词请求获取目标歌曲的歌词文本。目标歌曲可以是用户指定的歌曲，也可以是歌声合成设备在接收到上述歌唱请求时，从预置的曲库中随机选取的歌曲，还可以是歌声合成设备根据用户的行为和使用习惯从预置的曲库中选取的歌曲。

S102.确定第一歌词文本的第一音素；具体地，根据第一歌词文本中的歌词对应的声母和韵母可以确定第一歌词文本的第一音素。

S103.将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络；具体地，第一音素的歌唱时长可以在歌声合成设备中提前设置，在计算目标歌曲中第一音素的歌唱时长时，如果目标歌曲是混合背景音乐的歌曲，则可以使用spleeter开源工具分离背景音乐，得到干音和背景音乐。然后使用语音识别模型中的时长对齐方法(alignment)，标记出歌词的第一音素在干音中对应的时长和位置，预标注出时长文件。时长文件包括：歌曲id、干音相对于背景音乐的位置，歌词中第一音素的歌唱时长。然后将时长文件转成TextGrid格式的文件，使用praat语音分析工具微调预标注的第一音素的歌唱时长，生成准确的第一音素的歌唱时长。

预设的声学模型可以通过采用多个训练样本对循环神经网络进行训练得到。训练样本包括：第二歌词文本、第二歌词文本对应的朗读语音。朗读语音可以是用户朗读第二歌词文本时产生，也可以是采用语音播报模型播报第二歌词文本时产生。将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，可以输出对应的第一声学特征。第一谱包络包括快速傅里叶变换特征、非周期成分特征、梅尔谱特征、线性预测编码(LPC)特征、Fbank特征。由于基于第一音素及第一音素的歌唱时长，得到第一声学特征，因此，第一声学特征具有目标歌曲的韵律，且可以符合人在唱歌时的习惯，因为人在唱歌曲中的长音时，字符中每个音素的拉伸时长是不一样的。因此，基于第一音素及第一音素的歌唱时长得到第一声学特征，这样能够使得合成歌曲更加准确。

S104.根据预设目标歌曲的第二基频对第一基频进行调整；具体地，预设目标歌曲的第一基频可以在歌声合成设备中提取预置。在确定目标歌曲的第一基频时，可以通过基频提取工具提取目标歌曲的第二基频。根据预设目标歌曲的第二基频对第一基频进行调整，从而可以使第一基频具有目标歌曲的曲调。

S105.对调整后的第一基频和第一谱包络进行合成，得到合成歌声。具体地，对调整后的第一基频和第一谱包络进行合成，得到了根据目标歌曲的歌词文本合成的歌声。可以理解的是，本实施例中得到的合成歌声，是清唱的歌声，没有伴奏。

本发明实施例提供的一种歌声合成方法，是提前对目标歌曲进行处理，得到第一音素的歌唱时长和第二基频，并提前训练好声学模型，从而在歌声合成时，通过获取目标歌曲的第一歌词文本，确定第一歌词文本的第一音素，将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络，根据预设目标歌曲的第二基频对第一基频进行调整，对调整后的第一基频和第一谱包络进行合成，得到合成歌声，由于训练声学模型的数据远小于现有的歌声合成所需要的数据，从而无需收集大量的数据就可以实现歌声合成，可以降低歌声合成的成本；并且，本发明将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，从而第一声学特征具有目标歌曲原歌手歌唱时的韵律，然后采用目标歌曲的第二基频对第一基频进行调整，从而第一基频与目标歌曲的第二基频一致，从而合成歌声具有目标歌曲原歌手歌唱时的韵律，曲调，并且基于调整后的第一基频合成歌声，合成歌声曲调连续，不会因音调的突然转换而产生不自然的听感。

在可选的实施例中，步骤S102，确定第一歌词文本的音素，包括：将第一歌词文本转成拼音文本，拼音文本包括声母和韵母；根据声母和韵母确定第一歌词文本的第一音素。

具体地，可以利用pypinyin工具或语音合成工具将第一歌词文本中的歌词转成拼音，得到拼音文本。然后根据拼音文本中的声母和韵母确定第一歌词文本的第一音素。声母对应一个第一音素，韵母可以对应一个第一音素。

由于人在歌唱时，对于声母的拉伸时长和对于韵母的拉伸时长是不一致的，因此，通过将第一歌词文本转成拼音文本，然后根据声母和韵母确定第一歌词文本的第一音素，从而根据第一音素及预设第一音素的歌唱时长确定的第一声学特征更加符合人在歌唱时的规律，从而可以使得合成歌声更加自然。

在可选的实施例中，在步骤S101，获取目标歌曲的第一歌词文本之前，歌声合成方法还包括：获取多个训练样本，训练样本包括：第二歌词文本、第二歌词文本对应的朗读语音；从各训练样本中提取第二歌词文本的第二音素和朗读语音的第二声学特征，第二声学特征包括第三基频、第二谱包络；根据第二音素和朗读语音确定第二音素的朗读时长；向循环神经网络输入第二音素、第二音素的朗读时长，训练时长模型；向循环神经网络输入第二音素、第二音素的朗读时长及第二声学特征，训练特征模型；根据时长模型和特征模型得到预设的声学模型。

具体地，预设的声学模型可以包括时长模型和特征模型。在对时长模型进行训练时，可以向循环神经网络输入第二音素、第二音素的朗读时长，以训练时长模型。第二音素的朗读时长可以通过第二歌词文本和语音识别模型对朗读语音中的第二音素进行时长标注得到。在对特征模型进行训练时，可以向循环神经网络输入第一音素、第二音素的朗读时长及第二声学特征，以训练特征模型。根据训练好的时长模型和特征模型就可以得到声学模型。

通过对时长模型训练和对特征模型进行训练，得到声学模型，从而可以采用远小于现有的歌声合成所需要的数据，来得到声学模型，从而得到合成歌声，从而可以无需收集大量的数据就可以实现歌声合成，可以降低歌声合成的成本。

在可选的实施例中，步骤S103，将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络，包括：将第一音素输入时长模型，得到第一音素的朗读时长；根据第一音素的歌唱时长对第一音素的朗读时长进行调整；将第一音素、调整后的第一音素的朗读时长输入特征模型，得到第一声学特征，第一声学特征包括第一基频、第一谱包络。

具体地，由于时长模型是根据第二音素及第二音素的朗读时长训练得到的，因此，将第一音素输入时长模型，可以输出第一音素的朗读时长。然后根据第一音素的歌唱时长可以调整第一音素的朗读时长，使得第一音素的朗读时长与第一音素的歌唱时长对应。由于特征模型是根据第二音素、第二音素的朗读时长及第二声学特征进行训练得到的，因此，将调整后的第一音素的朗读时长及第一音素输入特征模型，可以输出与目标歌曲对应的第一声学特征。

通过根据第一音素的歌唱时长对第一音素的朗读时长进行调整，将第一音素、调整后的第一音素的朗读时长输入特征模型，得到第一声学特征，由于基于第一音素的歌唱时长，得到第一声学特征，从而第一声学特征具有目标歌曲的韵律。

在可选的实施例中，步骤S104，根据预设目标歌曲的第二基频对第一基频进行调整，包括：根据预设目标歌曲的第二基频，将第一基频调整为第二基频。

具体地，将第一基频调整为第二基频，从而可以使第一基频具有目标歌曲一样的曲调。

在可选的实施例中，在根据预设目标歌曲的第二基频对第一基频进行调整之前，歌声合成方法还包括：将预设目标歌曲的第二基频中的零值插值为非零值；确定第一基频中的零值；根据第一基频中的零值调整第二基频中对应位置处的基频值。

具体地，将第二基频中的零值插值为非零值，主要是保证歌词文本中每句歌词的句首和句末的第二基频不会渐进到零。由于有些第一音素是没有基频信息的，如b、sh，对于没有基频信息的第一音素，其对应的第一基频为零，相应地，在合成歌声时，根据第二基频调整第一基频前，应该将第二基频中对应位置处的基频值致为零，因此，可以根据第一基频中的零值调整第二基频对应位置处的基频值。

通过对第二基频进行调整，可以减少由于第二基频提取不准导致的噪声问题。

在可选的实施例中，在对调整后的第一基频和第一谱包络进行合成，得到合成歌声之后，歌声合成方法还包括：对合成歌声进行变声处理；对变声处理后的合成歌声进行滤波处理。

具体地，可以采用sound touch开源工具对合成歌声做变声处理，采用低通滤波消除合成歌声的嘶嘶声。还可以对合成歌声添加背景音乐。在对采样率的歌声合成中，可对背景音乐进行上采样或下采样(支持但不限于16k、22.05k、24k、44.1k、48k等)。还可以对合成歌曲进行加混响操作。对合成歌声进行变声处理，对变声处理后的合成歌声进行滤波处理，可以提高合成歌声的歌唱效果。

本发明实施例还提供了一种歌声合成装置，如图2所示，包括：获取单元201，用于获取目标歌曲的第一歌词文本；具体的实施方式详见上述实施例步骤S101的描述，在此不再赘述。确定单元202，用于确定第一歌词文本的第一音素；具体的实施方式详见上述实施例步骤S102的描述，在此不再赘述。处理单元203，用于将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络；具体的实施方式详见上述实施例步骤S103的描述，在此不再赘述。调整单元204，用于根据预设目标歌曲的第二基频对第一基频进行调整；具体的实施方式详见上述实施例步骤S104的描述，在此不再赘述。合成单元205，用于对调整后的第一基频和第一谱包络进行合成，得到合成歌声。具体的实施方式详见上述实施例步骤S105的描述，在此不再赘述。

本发明实施例提供的一种歌声合成装置，是提前对目标歌曲进行处理，得到第一音素的歌唱时长和第二基频，并提前训练好声学模型，从而在歌声合成时，通过获取目标歌曲的第一歌词文本，确定第一歌词文本的第一音素，将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络，根据预设目标歌曲的第二基频对第一基频进行调整，对调整后的第一基频和第一谱包络进行合成，得到合成歌声，由于训练声学模型的数据远小于现有的歌声合成所需要的数据，从而无需收集大量的数据就可以实现歌声合成，可以降低歌声合成的成本；并且，本发明将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，从而第一声学特征具有目标歌曲原歌手歌唱时的韵律，然后采用目标歌曲的第二基频对第一基频进行调整，从而第一基频与目标歌曲的第二基频一致，从而合成歌声具有目标歌曲原歌手歌唱时的韵律，曲调，并且基于调整后的第一基频合成歌声，合成歌声曲调连续，不会因音调的突然转换而产生不自然的听感。

基于与前述实施例中一种歌声合成同样的发明构思，本发明还提供一种歌声合成设备，其上存储有计算机程序，该程序被处理器执行时实现前文所述一种歌声合成的任一方法的步骤。

其中，在图3中，总线架构(用总线300来代表)，总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。

处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

基于与前述实施例中一种歌声合成方法同样的发明构思，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取目标歌曲的第一歌词文本；确定第一歌词文本的第一音素；将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络；根据预设目标歌曲的第二基频对第一基频进行调整；对调整后的第一基频和第一谱包络进行合成，得到合成歌声。

在具体实施过程中，该程序被处理器执行时，还可以实现实施例一中的任一方法步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器，使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种歌声合成方法，其特征在于，包括：

获取目标歌曲的第一歌词文本；

确定所述第一歌词文本的第一音素；

将所述第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，所述第一声学特征包括第一基频、第一谱包络；

根据预设目标歌曲的第二基频对所述第一基频进行调整；

对调整后的所述第一基频和所述第一谱包络进行合成，得到合成歌声。

2.根据权利要求1所述的歌声合成方法，其特征在于，所述确定所述第一歌词文本的音素，包括：

将所述第一歌词文本转成拼音文本，所述拼音文本包括声母和韵母；

根据所述声母和韵母确定所述第一歌词文本的第一音素。

3.根据权利要求1所述的歌声合成方法，其特征在于，在所述获取目标歌曲的第一歌词文本之前，还包括：

获取多个训练样本，所述训练样本包括：第二歌词文本、第二歌词文本对应的朗读语音；

从各训练样本中提取第二歌词文本的第二音素和朗读语音的第二声学特征，所述第二声学特征包括第三基频、第二谱包络；

根据所述第二音素和所述朗读语音确定所述第二音素的朗读时长；

向循环神经网络输入第二音素、第二音素的朗读时长，训练时长模型；

向循环神经网络输入第二音素、第二音素的朗读时长及第二声学特征，训练特征模型；

根据所述时长模型和所述特征模型得到预设的声学模型。

4.根据权利要求3所述的歌声合成方法，其特征在于，所述将所述第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，所述第一声学特征包括第一基频、第一谱包络，包括：

将所述第一音素输入所述时长模型，得到所述第一音素的朗读时长；

根据所述第一音素的歌唱时长对所述第一音素的朗读时长进行调整；

将所述第一音素、调整后的所述第一音素的朗读时长输入所述特征模型，得到所述第一声学特征，所述第一声学特征包括第一基频、第一谱包络。

5.根据权利要求1所述的歌声合成方法，其特征在于，所述根据预设目标歌曲的第二基频对所述第一基频进行调整，包括：

根据预设目标歌曲的第二基频，将所述第一基频调整为所述第二基频。

6.根据权利要求1所述的歌声合成方法，其特征在于，在所述根据预设目标歌曲的第二基频对所述第一基频进行调整之前，还包括：

将预设目标歌曲的第二基频中的零值插值为非零值；

确定所述第一基频中的零值；

根据所述第一基频中的零值调整所述第二基频中对应位置处的基频值。

7.根据权利要求1所述的歌声合成方法，其特征在于，在所述对调整后的所述第一基频和所述第一谱包络进行合成，得到合成歌声之后，还包括：

对所述合成歌声进行变声处理；

对变声处理后的所述合成歌声进行滤波处理。

8.一种歌声合成装置，其特征在于，包括：

获取单元，用于获取目标歌曲的第一歌词文本；

确定单元，用于确定所述第一歌词文本的第一音素；

处理单元，用于将所述第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，所述第一声学特征包括第一基频、第一谱包络；

调整单元，用于根据预设目标歌曲的第二基频对所述第一基频进行调整；

合成单元，用于对调整后的所述第一基频和所述第一谱包络进行合成，得到合成歌声。

9.一种歌声合成设备，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7任意一项所述的歌声合成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行如权利要求1-7任意一项所述的歌声合成方法。