CN111028823A

CN111028823A - 音频生成方法、装置、计算机可读存储介质及计算设备

Info

Publication number: CN111028823A
Application number: CN201911267158.4A
Authority: CN
Inventors: 肖纯智; 劳振锋
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-04-17
Anticipated expiration: 2039-12-11
Also published as: CN111028823B

Abstract

本申请是关于一种音频生成方法、装置、计算机可读存储介质及计算设备，属于电子技术应用领域。方法包括：获取多个发音信息，其中，多个发音信息包括至少一个第一发音信息，每个第一发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、目标音素的相邻音素的内容以及连音指示符，其中，任一目标音素的相邻音素包括任一目标音素的前一个音素和后一个音素，连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音；将多个发音信息输入音频合成模型，得到音频合成模型输出的目标音频，多个发音信息中的每个发音信息对应的音频帧为目标音频中的一个音频帧。本申请能够提高输出音频的质量。

Description

音频生成方法、装置、计算机可读存储介质及计算设备

技术领域

本申请涉及电子技术应用领域，特别涉及一种音频生成方法、装置、计算机可读存储介质及计算设备。

背景技术

音频合成模型是一种用于进行音频合成的模型。通过音频合成模型可以合成歌曲等音频。

目前采用音频合成模型生成音频的过程包括：经过模型训练过程，得到音频合成模型，将多个发音信息(condition)输入音频合成模型，由音频合成模型输出目标音频。该多个发音信息与输出的目标音频包括的多个音频帧一一对应，每个发音信息用于描述对应的音频帧的音频特征。通常，每个发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、目标音素的前一个音素的内容以及后一个音素的内容。

但是，真人演唱的歌曲实际是由人的声腔变化而形成的，采用前述音频合成模型生成的歌曲，无法有效反映人的声腔变化过程，导致输出音频的质量较差。

发明内容

本申请实施例提供了一种音频生成方法、装置、计算机可读存储介质及计算设备，能够提高生成的音频的质量。所述技术方案如下：

根据本申请实施例的第一方面，提供一种音频生成方法，包括：

获取多个发音信息，其中，所述多个发音信息包括至少一个第一发音信息，每个所述第一发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、所述目标音素的相邻音素的内容以及连音指示符，其中，任一目标音素的相邻音素包括所述任一目标音素的前一个音素和后一个音素，所述连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音，所述多个发音信息中的每个发音信息对应的音频帧为所述目标音频中的一个音频帧；

将所述多个发音信息输入音频合成模型，得到所述音频合成模型输出的目标音频。

可选地，在所述获取多个发音信息之前，所述方法还包括：

对样本音频进行分析，得到多个样本发音信息，所述多个样本发音信息包括至少一个第二发音信息，每个所述第二发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、所述目标音素的相邻音素的内容以及连音指示符，所述多个样本发音信息中的每个样本发音信息对应的音频帧为所述样本音频中的一个音频帧；

基于所述多个样本发音信息，进行模型训练，得到所述音频合成模型。

可选地，所述对样本音频进行分析，得到多个样本发音信息，包括：

获取所述样本音频中每个音频帧的音高；

检测所述样本音频中每个音素与相邻的音素是否存在连音，得到连音检测结果；

基于所述每个音频帧的音高以及所述连音检测结果，生成所述多个样本发音信息。

可选地，所述检测所述样本音频中每个音素与相邻的音素是否存在连音，得到连音检测结果，包括：

当所述样本音频中，任一音素对应的样本音频帧集合的起始点之前相邻的M个音频帧以及之后相邻的N个音频帧均为有音高帧，确定所述任一音素存在前连音，所述有音高帧为音高大于0的音频帧，所述N和所述M均为正整数，所述任一音素对应的样本音频帧集合为所述样本音频中所述任一音素在发音过程中所形成的音频帧的集合；

当所述样本音频中，任一音素对应的样本音频帧集合的结束点之前相邻的M个音频帧以及之后相邻的N个音频帧均为有音高帧，确定所述任一音素存在后连音。

可选地，所述连音指示符包括前连音指示符和后连音指示符，所述前连音指示符用于指示所在的发音信息中的目标音素与其相邻的前一个音素是否存在连音，所述后连音指示符用于指示所在的发音信息中的目标音素与其相邻的后一个音素是否存在连音；

或者，所述连音指示符包括一个指示符，所述一个指示符用于指示所在的发音信息中的目标音素与其相邻的前一个音素是否存在连音，以及所在的发音信息中的目标音素与其相邻的后一个音素是否存在连音。

根据本申请实施例的第二方面，提供一种音频生成装置，包括：

获取模块，用于获取多个发音信息，其中，所述多个发音信息包括至少一个第一发音信息，每个所述第一发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、所述目标音素的相邻音素的内容以及连音指示符，其中，任一目标音素的相邻音素包括所述任一目标音素的前一个音素和后一个音素，所述连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音，所述多个发音信息中的每个发音信息对应的音频帧为所述目标音频中的一个音频帧；

处理模块，用于将所述多个发音信息输入音频合成模型，得到所述音频合成模型输出的目标音频。

可选地，所述装置还包括：

分析模块，用于在所述获取多个发音信息之前，对样本音频进行分析，得到多个样本发音信息，所述多个样本发音信息包括至少一个第二发音信息，每个所述第二发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、所述目标音素的相邻音素的内容以及连音指示符，所述多个样本发音信息中的每个样本发音信息对应的音频帧为所述样本音频中的一个音频帧；

训练模块，用于基于所述多个样本发音信息，进行模型训练，得到所述音频合成模型。

可选地，所述分析模块，包括：

获取子模块，用于获取所述样本音频中每个音频帧的音高；

检测子模块，用于检测所述样本音频中每个音素与相邻的音素是否存在连音，得到连音检测结果；

生成子模块，用于基于所述每个音频帧的音高以及所述连音检测结果，生成所述多个样本发音信息。

可选地，所述检测子模块，用于：

根据本申请实施例的第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序在被处理器执行时使得所述处理器实现如前述第一方面任一所述的音频生成方法。

根据本申请实施例的第四方面，提供一种计算设备，所述计算设备包括处理器和存储器；

所述存储器存储计算机指令；所述处理器执行所述存储器存储的计算机指令，使得所述计算设备执行第一方面任一所述的音频生成方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请实施例提供的音频生成方法及装置，由于输入音频合成模型中的发音信息包括连音指示符，该连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音，由于在音频生成过程中涉及到了各个音素的连音情况，该音频合成模型合成的音频可以有效反映出现的连音情况，提高连音处的声音平顺性。因此，可以有效反映实现人的声腔变化过程，提高输出音频的质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请的实施例，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种音频生成方法的流程图。

图2是根据一示例性实施例示出的另一种音频生成方法的流程图。

图3是根据一示例性实施例示出的一种音频生成装置的框图。

图4是根据一示例性实施例示出的另一种音频生成装置的框图。

图5是根据一示例性实施例示出的一种分析模块的框图。

图6是根据一示例性实施例示出的一种终端的结构示意图。

图7是根据一示例性实施例示出的一种服务器的结构示意图。

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

音素(phoneme)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。在不同的发音规则中，音素的类型不同。示例的，对于英文发音规则，音素包括元音音素和辅音音素两类，每一个类中又细分为多个具体音素，国际音标(由国际语音学会制定，用来统一标示各国语音的字母。也称为“国际语音学字母”或“万国语音学字母”)的音标符号与音素一一对应；对于中文发音规则，每个中文汉字的发音都可以分解成声母和韵母，音素包括声母音素和韵母音素两类，每一个类中又细分为多个具体音素，中文的声母韵母表中的符号与音素一一对应。

不同音素的发音需要将声腔改变成不同的形状，而声腔的变化是需要一个过程的，例如，该过程可以简单地划分成开口、平稳、闭口三个阶段。开口和闭口都是声腔产生开合变化的过程，若相邻的两个音素中，第一个音素与第二个音素的发音相近，两者连续发音时，声腔变化不明显，可直接从第一个音素的平稳阶段转变到第二个音素的平稳阶段，这种情况可以称为连音。例如，在出现连音时，连续的两个音素中，第一个音素的闭口状态和第二个音素的开口状态消失。

以中文发音规则为例，“一样”中“一”和“样”连读即可以出现连音。但歌曲演唱时，也存在“一”和“样”中间有些许停顿，出现非连音的情况。因此，在实际发音时，在不同情形下，同样的相邻音素可能有不同的发音效果。

传统的音频合成模型在生成音频时，采用的多个发音信息中每个发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、目标音素的前一个音素的内容以及后一个音素的内容。该音频合成模型合成的音频无法反映本应出现的连音情况，导致连音处的声音平顺性较差。因此，无法有效反映人的声腔变化过程，导致输出音频的质量较差。

本申请实施例提供一种音频生成方法，该方法可以应用于多种类型的音频的生成，例如中文歌曲、英文歌曲或者其他包括人声的音频，例如评书或曲艺音频等。通过该音频生成方法可以实现对人声的模拟，从而为用户提供虚拟歌姬等人工智能演唱功能。

如图1所示，图1是该音频生成方法的流程图，包括：

步骤101、获取多个发音信息，其中，该多个发音信息包括至少一个第一发音信息，每个第一发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、目标音素的相邻音素的内容以及连音指示符。

其中，任一目标音素的相邻音素包括任一目标音素的前一个音素和后一个音素，连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音，该多个发音信息中的每个发音信息对应的音频帧为所述目标音频中的一个音频帧。

步骤102、将多个发音信息输入音频合成模型，得到音频合成模型输出的目标音频。

综上所述，本申请实施例提供的音频生成方法，由于输入音频合成模型中的发音信息包括连音指示符，该连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音，由于在音频生成过程中涉及到了各个音素的连音情况，该音频合成模型合成的音频可以有效反映出现的连音情况，提高连音处的声音平顺性。因此，可以有效反映人的声腔变化过程，提高输出音频的质量。

本申请实施例提供另一种音频生成方法，该方法可以由音频生成装置执行，该音频生成装置可以为终端或服务器，该终端可以为显示器、计算机、智能手机、平板电脑和膝上型便携计算机等等。服务器可以为一台服务器或者由若干台服务器组成的服务器集群。该方法涉及模型训练过程和模型使用过程，如图2所示，图2是该音频生成方法的流程图，该方法包括：

步骤201、对样本音频进行分析，得到多个样本发音信息。

样本音频可以是预先录制的一个或多个指定音频，该指定音频可以为歌曲音频或者其他包括人声的音频，如评书或者曲艺音频。

其中，该样本音频可以包括多个音频帧，该多个音频帧与多个样本发音信息分别对应，通常为一一对应，每个样本发音信息用于表示对应音频帧的音频特征。多个样本发音信息包括至少一个第二发音信息，每个第二发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、目标音素的相邻音素的内容以及连音指示符。任一目标音素的相邻音素包括该任一目标音素的前一个音素和后一个音素。该前一个音素以及后一个音素通常分别与该任一目标音素不同。以中文发音规则为例，“你好”中包括的音素依次为“n，i，h，ao”。对于音素：韵母“i”，其前一个音素为声母“n”，后一个音素为声母“h”。，该多个样本发音信息中的每个样本发音信息对应的音频帧为样本音频中的一个音频帧。该对应的音频帧的语音内容中包含其对应的音素的内容。

可选地，对样本音频进行分析，得到多个样本发音信息的过程可以包括：

步骤A1、获取样本音频中每个音频帧的音高。

示例的，可以采用指定软件识别样本音频中每个音频帧的音高。其中，在样本音频的无声段、清音段及非连音的短暂音素过渡区等等，由于人的声带没有振动，音频不具有周期性，无法提取音高；而在浊音段及连音的音素过渡区(即存在连音的两个音素中一个音素到另一个音素之间的区域)声带是持续振动的，音频具有周期性，可提取出音高。该音高可以采用音高值序列的方式或者音高图表的方式记录。

步骤A2、检测样本音频中每个音素与相邻的音素是否存在连音，得到连音检测结果。

其中，检测样本音频中每个音素与相邻的音素是否存在连音的方式有多种。本申请实施例以以下两种可选方式为例进行说明：

在第一种可选方式中，通过检测样本音频中每个有音高帧相邻的音频帧中是否存在有音高帧，以确定每个音素与相邻的音素是否存在连音。其中，有音高帧为音高大于0的音频帧。

在本申请实施例，任一音素在发音过程中所形成的音频帧的集合为该任一音素对应的音频帧集合。为了便于读者理解，后续实施例中，将样本音频中，任一音素在发音过程中所形成的音频帧的集合称为该任一音素对应的样本音频帧集合；将目标音频中，任一音素在发音过程中所形成的音频帧的集合称为该任一音素对应的目标音频帧集合。

示例的，对于样本音频中的每个音素，检测该音素对应的样本音频帧集合的起始点之前相邻的M个音频帧以及之后相邻的N个音频帧(即连续的M+N个音频帧)是否均为有音高帧，N和M均为正整数。当样本音频中，任一音素对应的样本音频帧集合的起始点之前相邻的M个音频帧以及之后相邻的N个音频帧均为有音高帧，确定该任一音素存在前连音；当样本音频中，任一音素对应的样本音频帧集合的起始点之前相邻的M个音频帧以及之后相邻的N个音频帧中存在任一无音高帧，确定该任一音素不存在前连音，该无音高帧为音高等于0的音频帧。其中，该任一音素对应的样本音频帧集合为在该任一音素发音所形成的音频帧的集合。也即是，任一音素所对应的音频帧的集合为该任一音素在发音过程中，语音内容包含该任一音素的连续的一个或多个音频帧所组成的集合。例如，假设音素：声母“n”发音较短时，仅持续70ms(毫秒)，而一个音频帧的持续时长为10ms，则声母“n”对应的样本音频帧集合有7个音频帧帧，每个音频帧的语音内容都包含该音素“n”；又例如，假设音素：韵母“i”发音较长，持续300ms，则韵母“i”对应的音频帧集合有30个音频帧帧，每个音频帧的语音内容都包含该音素“i”。

对于样本音频中的每个音素，检测该音素对应的样本音频帧集合的结束点之前相邻的M个音频帧以及之后相邻的N个音频帧(即连续的M+N个音频帧)是否均为有音高帧。当样本音频中，任一音素对应的样本音频帧集合的结束点之前相邻的M个音频帧以及之后相邻的N个音频帧均为有音高帧，确定该任一音素存在后连音；当样本音频中，任一音素对应的样本音频帧集合的结束点之前相邻的M个音频帧以及之后相邻的N个音频帧中存在任一无音高帧，确定该任一音素不存在后连音，该无音高帧为音高等于0的音频帧。其中，M和N可以相同也可以不同，例如，M和N的取值范围为1至5。

在一种可选示例中，每个音素对应的样本音频帧集合的开始点和结束点可以以该样本音频帧集合在所在音频中的开始时刻和结束时刻分别表示，如开始时刻为9：00，结束点为9:02；在另一种可选示例中，样本音频中的每个音频帧分配有序号，该序号用于标识相应音频帧在样本音频中的位置，每个音素对应的样本音频帧集合的开始点和结束点也可以以该样本音频帧集合的第一个音频帧的序号和最后一个音频帧的序号分别表示。本申请实施例对样本音频帧集合的表示方式并不限定。

对于每个音素，其对应的样本音频帧集合的第一个音频帧的开始点是该音素的前分界点，其对应的样本音频帧集合的最后一个音频帧的结束点是该音素的后分界点，前述步骤A2实质为查询每个音素的前分界点之前相邻的M个音频帧和之后相邻的N个音频帧是否均为有音高帧，以及每个音素的后分界点之前相邻的M个音频帧和之后相邻的N个音频帧是否均为有音高帧，从而来确定每个音素与相邻的音素是否存在连音。也即是，对于每个音素的分界点，查询该前分界点之前相邻的M个音频帧和之后相邻的N个音频帧是否均为有音高帧，从而来确定每个音素与相邻的音素是否存在连音。采用前述连音检测方式，对于每个音素的分界点的检测方式一致。并且，有效避免确定的样本音频帧集合存在误差的情况对连音检测结果的影响，从而可以保证检测出的连音状态更为准确。

值得说明的是，在对各个音素进行连音检测时，可以依次遍历样本音频中所有的样本音频帧集合来执行前述连音检测过程，跳过其他无关的音频帧，也可以直接遍历样本音频中的所有音频帧，在每个音素对应的样本音频帧集合处来执行前述连音检测过程，本申请实施例对此不做限定。

示例的，假设以中文发音规则进行音素的划分，M＝N＝3，样本音频的文字内容为“我们都一样”，包括的音素依次为“w、o、m、en、d、ou、y、i、y、ang”，对于样本音频中的每个音素，检测该音素对应的样本音频帧集合的开始点之前相邻的3个音频帧以及之后相邻的3个音频帧(即6个相邻的音频帧)是否均为有音高帧，以及该有样本音频帧集合的结束点之前相邻的3个音频帧以及之后相邻的3个音频帧是否均为有音高帧，则对于音素：韵母“i”对应的样本音频帧集合，若检测得到与该样本音频帧集合的开始点相邻的前3个音频帧和后3个音频帧均为有音高帧，且与该样本音频帧集合的结束点相邻的前3个音频帧和后3个音频帧均为有音高帧，则该音素“i”存在前连音和后连音。

需要说明的是，样本音频中，每个音素对应的样本音频帧集合是已知的，在一种可选方式中，每个音素对应的样本音频帧集合可以预先人为标定的；在另一种可选方式中，每个音素对应的样本音频帧集合可以由音频识别软件识别得到；在再一种可选方式中，样本音频为预先生成的每个音素内容已知的音频，例如在网络中下载的有歌词的歌曲，每个音素对应的样本音频帧集合在该样本音频获取时已标定。本申请实施例对每个音素对应的样本音频帧集合的获取方式不做限定。

在第二种可选方式中，通过人工标定方式确定每个音素与相邻的音素是否存在连音。

如步骤A1，音频帧的音高可以采用音高值序列的方式或者音高图表的方式记录。音频生成装置可以以前述记录的方式呈现样本音频的音高以及对应的各个音频帧的序号(或图标)。工作人员可以通过人为标定的方式标注存在前连音的音素和/或后连音的音素所在的音频帧。相应的，音频生成装置接收标注指令，基于标注指令确定每个音频帧中的音素与相邻的音素是否存在连音。

值得说明的是，前述连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音。该连音指示符可以由多种实现方式。本申请实施例以以下几种实现方式为例进行说明。

在第一种可选实现方式中，该连音指示符包括前连音指示符和后连音指示符。该前连音指示符用于指示所在的发音信息中的目标音素与其相邻的前一个音素是否存在连音。该后连音指示符用于指示所在的发音信息中的目标音素与其相邻的后一个音素是否存在连音。其中，前连音指示符和后连音指示符均可以由一个或多个字符组成。该字符可以为二进制字符，例如0或1。示例的，可以采用0表示存在连音，采用1表示不存在连音。该字符也可以为其他类型的字符，如字母，本申请实施例对此不做限定。前连音指示符和后连音指示符可以分别在发音信息中占用一个字段，两者共在发音信息占用两个字段。

在第二种可选实现方式中，连音指示符包括一个指示符，该一个指示符用于指示所在的发音信息中的目标音素与其相邻的前一个音素是否存在连音，以及所在的发音信息中的目标音素与其相邻的后一个音素是否存在连音。其中，连音指示符可以由一个或多个字符组成。该字符可以为二进制字符，例如连音指示符可以包括：00、01、10和11三种类型。示例的，可以采用00表示目标音素与其相邻的前一个音素和后一个音素均不存在连音，采用01表示目标音素与其相邻的前一个音素存在连音，和后一个音素不存在连音，采用10表示目标音素与其相邻的前一个音素不存在连音，和后一个音素存在连音，采用11表示目标音素与其相邻的前一个音素和后一个音素均存在连音。该字符也可以为其他类型的字符，如字母，本申请实施例对此不做限定。该一个指示符可以在发音信息中占用一个字段。

在该第二种可选实现方式中，一个指示符可以同时指示前述前连音指示符和后连音指示符所指示的情况，减少对字段的占用，提高了后续模型的运算效率。

当采用第一种和第二种可选实现方式所提供的指示方式设置连音指示符时，该样本音频中所有音频帧对应的发音信息中每个发音信息均为前述第二发音信息，也即是每个发音信息中均包括前述的连音指示符，如此，可以有效进行连音情况的指示。

本申请实施例在实际实现时，当发音信息中的目标音素与其相邻的所有音素均不存在连音，可以不携带连音指示符；当发音信息中的目标音素与其相邻的所有音素均存在连音，可以携带连音指示符。也即是，前述样本音频的多个音频帧所对应的多个样本发音信息包括两种类型的发音信息，分别为第二发音信息以及其他发音信息，第二发音信息所携带的连音指示符可以参考前述第一种可选实现方式和前述第二种可选实现方式中的情况。该其他发音信息的内容可以参考传统的发音信息，或者在第二发音信息中的内容的基础进行简单变形。当该多个样本发音信息包括两种类型的发音信息时，相对于所有样本发音信息均为第二发音信息的情况，可以减少所有样本发音信息中携带连音指示符的发音信息的个数，减少对字段的占用，提高了后续模型的运算效率。

步骤A3、基于每个音频帧的音高以及连音检测结果，生成多个样本发音信息。

音频生成装置可以基于每个音频帧的音高以及连音检测结果，为所有音频帧生成对应的多个样本发音信息。

值得说明的是，前述样本发音信息还可以根据实际情况，添加其他描述其对应音频帧的信息。示例的，样本发音信息还包括：对应音频帧的位置信息，该位置信息用于描述对应音频帧在样本音频帧集合中的位置，该样本音频帧集合是该对应音频帧所对应的目标音素所对应的音频帧的集合。其解释可以参考前述步骤A2中的解释。

示例的，对应音频帧的位置信息可以采用该音频帧在样本音频帧集合中的分段位置表示。可选地，样本音频帧集合可以按照预设分段规则(例如该分段规则为平均分段规则)划分为w段，w为正整数，分段位置即为该w段中的一段。可选的，w为固定值，且w>1。示例的，w＝3，也即是，样本音频帧集合分成3段，该3段按照平均分段规则划分为时长相等(或相近)的开口段、平稳段和闭口段。则假设样本发音信息对应的音频帧处于开口段，对应音频帧的位置信息用于指示该开口段。

示例的，前述位置信息可以采用一个或多个字符标识分段位置。该字符可以为二进制字符，例如位置信息包括：00、01和10三种类型。示例的，可以采用00表示开口段，采用01表示平稳段，采用10表示闭口段。该字符也可以为其他类型的字符，如字母，本申请实施例对此不做限定。前述位置信息可以在发音信息中占用一个字段。

步骤202、基于多个样本发音信息，进行模型训练，得到音频合成模型。

由于样本音频已知，可以将样本音频作为标签，采用多个样本发音信息作为输入信息，进行模型训练，直至预设的损失函数对应的损失值收敛至目标范围，得到音频合成模型。

通过采用该多个样本发音信息进行模型训练，可以有效地帮助音频合成模型学***顺性。

步骤203、获取多个发音信息，其中，该多个发音信息包括至少一个第一发音信息，每个第一发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、目标音素的相邻音素的内容以及连音指示符。

其中，相邻音素和连音指示符的解释可以参考前述步骤201中的解释。其中，该后续需要合成的目标音频可以包括多个音频帧，该多个音频帧与该多个发音信息分别对应，通常为一一对应，每个发音信息用于表示对应音频帧的音频特征。基于该发音信息能够对应生成音频帧。每个发音信息对应的音频帧是对应的音素在发音过程中所形成的音频帧中的一帧，该对应的音频帧的语音内容中包含其对应的音素的内容。

在本申请实施例中，获取多个发音信息的过程可以有多种实现方式：

在第一种实现方式中，音频生成装置可以接收多个音素的发音信息。可选地，该初始音频可以为用户自己录制的音频，也可以是通过其他方式获取的音频，例如，从网络下载的音频。用户可以基于自身需求获取不同类型的初始音频，由此生成的后续的目标音频，可以有效满足用户需求，实现音频合成的定制化和个性化，提高用户体验。

例如，该音频生成装置为手机、笔记本电脑或台式电脑等，用户(或程序员)可以通过I/O(Input/Output，输入/输出)，如键盘或触摸屏，输入该多个音素的发音信息，相应的，音频生成装置接收该多个音素的发音信息。可选地，音频生成装置接收多个音素的发音信息的过程可以有以下两种可选示例：在第一种可选示例中，音频生成装置接收第一待编辑信息，该第一待编辑信息包括：各个待生成的目标音频帧的音高，每个目标音频帧所对应的目标音素的内容，每个目标音素的相邻音素的内容以及每个目标音素对应的连音指示符；音频生成装置对接收的第一待编辑信息进行编码得到多个音素的发音信息。示例的，音频生成装置可以采用onehot编码方式或者emmbebing编码方式来进行前述第一待编辑信息的编码。在第二种可选示例中，音频生成装置可以直接接收多个音素的发音信息，每个音素的发音信息是经过onehot编码方式或者emmbebing编码方式等编码得到的信息。

在第二种实现方式中，音频生成装置可以接收至少一个初始音频，并对至少一个初始音频分析，得到多个音素的发音信息。对每个初始音频的分析过程可以参考前述步骤201中对样本音频进行分析的过程。可选地，对至少一个初始音频分析，得到多个音素的发音信息的过程可以包括：对至少一个初始音频分析，得到第二待编辑信息，该第二待编辑信息包括：各个待生成的目标音频帧的音高，每个目标音频帧所对应的目标音素的内容，每个目标音素的相邻音素的内容以及每个目标音素对应的连音指示符；音频生成装置对接收的第二待编辑信息进行编码得到多个音素的发音信息。示例的，音频生成装置可以采用onehot编码方式或者emmbebing编码方式来进行前述第二待编辑信息的编码。

本申请实施例在实际实现时，音频生成装置可以接收多个初始音频，并对多个初始音频分析，得到多个音素的发音信息，如此后续过程中，合成的目标音频相当于该多个初始音频组合得到的音频。

参考步骤201，前述样本发音信息还可以根据实际情况，添加其他描述其对应音频帧的信息。相应的，步骤203所获取的发音信息与样本发音信息中的信息内容一致，也可以添加其他描述其对应音频帧的信息。示例的，发音信息还包括：对应音频帧的位置信息，该位置信息用于描述对应音频帧(即待生成的音频帧)在对应的音素所对应的音频帧集合中的位置。假设对应音频帧对应的音素为第一音素，该第一音素对应的音频帧集合为目标音频帧集合，即目标音频中该第一音素在发音过程中所形成的音频帧的集合。该位置信息的解释可以参考前述步骤201，本申请实施例对此不做限定。

为了便于读者理解，表1示意性地示出多个发音信息的内容，该多个发音信息为中文文字内容“一样”的发音信息，表1以中文发音规则进行音素的划分，如表1所示，假设，位置信息包括00、01和10三种类型，00表示开口段，01表示平稳段，10表示闭口段。连音指示符包括前连音指示符和后连音指示符，其中，0表示存在连音，1表示不存在连音。“null”表示不存在。以对应音频帧的序号为4的发音信息为例，其包含的内容为：音高为150Hz，目标音素为：韵母i(表示序号为4的音频帧的语音内容中包含音素i)，前一个音素为声母y，后一个音素为声母y，前连音指示符为0(表示存在前连音)，后连音指示符为0(表示存在后连音)，且位置信息为00(表示位于开口段)。其他发音信息的解释可以参考该发音信息的解释，本申请实施例对此不再赘述。

表1

步骤204、将多个发音信息输入音频合成模型，得到音频合成模型输出的目标音频。

音频生成装置将多个发音信息输入音频合成模型，该音频合成模型输出的音频即为目标音频。本申请实施例中，音频合成模型是一种用于进行音频合成的模型，通过音频合成模型可以合成歌曲等音频。音频合成模型通常为深度学习(Deep Learning)模型。示例的，该音频合成模型可以为wavenet模型，或者NPSS模型。

步骤201至步骤202属于模型训练过程，步骤203至步骤204属于模型使用过程。本申请实施例提供的音频生成方法，由于输入音频合成模型中的发音信息包括连音指示符，该连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音，由于在音频生成过程中涉及到了各个音素的连音情况，该音频合成模型合成的音频可以有效反映出现的连音情况，提高连音处的声音平顺性。因此，本申请实施例中，对发音信息进行了扩充，增加了该发音信息中的目标音素前后是否存在连音的信息，从而有效地帮助音频合成模型学***顺性，从而可以实现人的声腔变化过程的有效反映，提高输出音频的质量。

值得说明的是，前述音频合成方法可以由终端执行，也可以由服务器执行，还可以由终端和服务器配合执行。在第一种情况中，当前述音频合成方法由终端执行时，前述音频合成装置为终端，步骤201至204由终端执行。在第二种情况中，当前述音频合成方法由服务器执行时，前述音频合成装置为服务器，步骤201至204由服务器执行，其中，步骤201中的样本音频可以是终端发送至服务器的，也可以由服务器自行获取；步骤203中的第一种实现方式中，多个发音信息可以是终端发送至服务器的，也可以由服务器自行获取；步骤203中的第二种实现方式中，至少一个初始音频可以是终端发送至服务器的，也可以由服务器自行获取。在步骤204之后，服务器可以将生成的目标音频发送至终端。在第三种情况中，当前述音频合成方法由由终端和服务器配合执行时，前述音频合成装置视为终端和服务器组成的***，步骤201至202由服务器执行，步骤203至204由终端执行，在步骤202之后，服务器将训练完成的音频合成模型发送至终端。

本申请实施例提供的音频生成方法的步骤先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

本申请实施例提供一种音频生成装置30，如图3所示，包括：

获取模块301，用于获取多个发音信息，其中，多个发音信息包括至少一个第一发音信息，每个第一发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、目标音素的相邻音素的内容以及连音指示符，其中，任一目标音素的相邻音素包括任一目标音素的前一个音素和后一个音素，连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音。该多个发音信息中的每个发音信息对应的音频帧为所述目标音频中的一个音频帧。

处理模块302，用于将多个发音信息输入音频合成模型，得到音频合成模型输出的目标音频。

本申请实施例提供的音频生成装置，由于输入音频合成模型中的发音信息包括连音指示符，该连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音，由于在音频生成过程中涉及到了各个音素的连音情况，该音频合成模型合成的音频可以有效反映出现的连音情况，提高连音处的声音平顺性。因此，可以实现人的声腔变化过程的有效反映，提高输出音频的质量。

可选地，如图4所示，装置30还包括：

分析模块303，用于在获取多个发音信息之前，对样本音频进行分析，得到多个样本发音信息，多个样本发音信息包括至少一个第二发音信息，每个第二发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、目标音素的相邻音素的内容以及连音指示符，该多个样本发音信息中的每个样本发音信息对应的音频帧为所述样本音频中的一个音频帧；

训练模块304，用于基于多个样本发音信息，进行模型训练，得到音频合成模型。

可选地，如图5所示，分析模块303，包括：

获取子模块3031，用于获取样本音频中每个音频帧的音高；

检测子模块3032，用于检测样本音频中每个音素与相邻的音素是否存在连音，得到连音检测结果；

生成子模块3033，用于基于每个音频帧的音高以及连音检测结果，生成多个样本发音信息。

可选地，检测子模块3032，用于：

当样本音频中，任一音素对应的样本音频帧集合的起始点之前相邻的M个音频帧以及之后相邻的N个音频帧均为有音高帧，确定任一音素存在前连音，有音高帧为音高大于0的音频帧，所述N和所述M均为正整数，任一音素对应的样本音频帧集合为在任一音素发音过程中所形成的音频帧的集合；

当样本音频中，任一音素对应的样本音频帧集合的结束点之前相邻的M个音频帧以及之后相邻的N个音频帧均为有音高帧，确定任一音素存在后连音。

可选地，连音指示符包括前连音指示符和后连音指示符，前连音指示符用于指示所在的发音信息中的目标音素与其相邻的前一个音素是否存在连音，后连音指示符用于指示所在的发音信息中的目标音素与其相邻的后一个音素是否存在连音；

或者，连音指示符包括一个指示符，一个指示符用于指示所在的发音信息中的目标音素与其相邻的前一个音素是否存在连音，以及所在的发音信息中的目标音素与其相邻的后一个音素是否存在连音。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由计算设备的处理器执行以完成本申请各个实施例所示的音频生成方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例提供一种计算设备，计算设备包括处理器和存储器；

存储器存储计算机指令；处理器执行存储器存储的计算机指令，使得计算设备执行本申请实施例提供的任一的音频生成方法。

本申请实施例中，前述计算设备可以为终端，图6示出了本申请一个示例性实施例提供的终端600的结构框图。该终端600可以是：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的音频生成方法。

在一些实施例中，终端600还可选包括有：***设备接口603和至少一个***设备。处理器601、存储器602和***设备接口603之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口603相连。具体地，***设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

***设备接口603可被用于将I/O相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例中，前述计算设备可以为服务器，图7是根据一示例性实施例示出的一种服务器的结构示意图。所述服务器700包括中央处理单元(CPU)701、包括随机存取存储器(RAM)702和只读存储器(ROM)703的***存储器704，以及连接***存储器704和中央处理单元701的***总线705。所述服务器700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)706，和用于存储操作***713、应用程序714和其他程序模块715的大容量存储设备707。

所述基本输入/输出***706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中所述显示器708和输入设备709都通过连接到***总线705的输入输出控制器710连接到中央处理单元701。所述基本输入/输出***706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备707通过连接到***总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储设备707及其相关联的计算机可读介质为服务器700提供非易失性存储。也就是说，所述大容量存储设备707可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器704和大容量存储设备707可以统称为存储器。

根据本申请的各种实施例，所述服务器700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器700可以通过连接在所述***总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机***(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器701通过执行该一个或一个以上程序来实现本申请实施例提供的音频生成方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

在本申请中，术语“第一”和“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。“A参考B”，指的是A与B相同，或者A在B的基础上进行简单变形。本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种音频生成方法，其特征在于，包括：

获取多个发音信息；

将所述多个发音信息输入音频合成模型，得到所述音频合成模型输出的目标音频；

其中，所述多个发音信息包括至少一个第一发音信息，每个所述第一发音信息包括：对应的音频帧的音高、对应的音频帧所对应的目标音素的内容、所述目标音素的相邻音素的内容以及连音指示符，其中，任一目标音素的相邻音素包括所述任一目标音素的前一个音素和后一个音素，所述连音指示符用于指示所在的发音信息中的目标音素与其相邻音素是否存在连音，所述多个发音信息中的每个发音信息对应的音频帧为所述目标音频中的一个音频帧。

2.根据权利要求1所述的方法，其特征在于，在所述获取多个发音信息之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述对样本音频进行分析，得到多个样本发音信息，包括：

获取所述样本音频中每个音频帧的音高；

4.根据权利要求3所述的方法，其特征在于，所述检测所述样本音频中每个音素与相邻的音素是否存在连音，得到连音检测结果，包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述连音指示符包括前连音指示符和后连音指示符，所述前连音指示符用于指示所在的发音信息中的目标音素与其相邻的前一个音素是否存在连音，所述后连音指示符用于指示所在的发音信息中的目标音素与其相邻的后一个音素是否存在连音；

6.一种音频生成装置，其特征在于，包括：

获取模块，用于获取多个发音信息；

处理模块，用于将所述多个发音信息输入音频合成模型，得到所述音频合成模型输出的目标音频；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述分析模块，包括：

获取子模块，用于获取所述样本音频中每个音频帧的音高；

9.根据权利要求8所述的装置，其特征在于，所述检测子模块，用于：

当所述样本音频中，任一音素对应的样本音频帧集合的结束点之前相邻的M个音频帧以及之后相邻的N个音频帧均为有音高帧，确定所述任一音素存在后连音，M为正整数。

10.根据权利要求6至9任一所述的装置，其特征在于，所述连音指示符包括前连音指示符和后连音指示符，所述前连音指示符用于指示所在的发音信息中的目标音素与其相邻的前一个音素是否存在连音，所述后连音指示符用于指示所在的发音信息中的目标音素与其相邻的后一个音素是否存在连音；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序在被处理器执行时使得所述处理器实现如权利要求1至5任一所述的音频生成方法。

12.一种计算设备，其特征在于，所述计算设备包括处理器和存储器；

所述存储器存储计算机指令；所述处理器执行所述存储器存储的计算机指令，使得所述计算设备执行如权利要求1至5任一所述的音频生成方法。