CN112614477B

CN112614477B - 多媒体音频的合成方法、装置、电子设备和存储介质

Info

Publication number: CN112614477B
Application number: CN202011280587.8A
Authority: CN
Inventors: 孙子涵; 左晨; 孙晨曦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2023-09-12
Anticipated expiration: 2040-11-16
Also published as: CN112614477A

Abstract

本申请公开了多媒体音频的合成方法、装置、电子设备及存储介质，涉及语音技术和深度学习等人工智能技术领域。具体实现方案为：接收多媒体合成请求，其中，多媒体生成请求包括操作者的标识和目标多媒体信息；根据操作者的标识，获取操作者的音色特征信息；根据目标多媒体信息，获取目标多媒体的音素特征信息以及基频特征信息；以及根据音色特征信息、音素特征信息以及基频特征信息，合成操作者针对目标多媒体的音频。由此，结合操作者的音色特征以及多媒体的音素特征和基频特征，生成了具有操作者音色特征、自然且效果较好的多媒体音频，满足了操作者生成具有自身音色特点的多媒体音频的个性化需求的同时，可降低生成多媒体音频的合成成本。

Description

多媒体音频的合成方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及语音技术、深度学习等人工智能技术领域，尤其涉及多媒体音频的方法、装置、电子设备及存储介质。

背景技术

随着语音合成技术的发展，音频合成作为语音合成中重要的分支之一，也越来越受到市场和研究者的关注。

相关技术中，在一定的场景，例如，乐团歌唱合成会因乐谱的规范，对合成音频有较高的要求，因此，如何更好的实现对多媒体音频的合成成为现在亟待解决的问题。

发明内容

本申请提供了一种多媒体音频的合成方法、装置、电子设备以及存储介质。

根据本申请的第一方面，提供了一种多媒体音频的合成方法，包括：

接收多媒体合成请求，其中，所述多媒体生成请求包括操作者的标识和目标多媒体信息；

根据所述操作者的标识，获取所述操作者的音色特征信息；

根据所述目标多媒体信息，获取目标多媒体的音素特征信息以及基频特征信息；以及

根据所述音色特征信息、音素特征信息以及基频特征信息，合成所述操作者针对所述目标多媒体的音频。

根据本申请的第二方面，提供了一种多媒体音频的合成装置，包括：

第一接收模块，用于接收多媒体合成请求，其中，所述多媒体生成请求包括操作者的标识和目标多媒体信息；

第一获取模块，用于根据所述操作者的标识，获取所述操作者的音色特征信息；

第二获取模块，用于根据所述目标多媒体信息，获取目标多媒体的音素特征信息以及基频特征信息；以及

第一合成模块，用于根据所述音色特征信息、音素特征信息以及基频特征信息，合成所述操作者针对所述目标多媒体的音频。

根据本申请的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请的第一方面所述的多媒体音频的合成方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请第一方面所述的面所述的多媒体音频的合成方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请一个实施例的多媒体音频的合成方法的流程图；

图2是根据本申请一个具体实施例的多媒体音频的合成方法的流程图；

图3是根据本申请一个实施例的多媒体合成模型的训练过程的示意图；

图4是根据本申请一个具体实施例的多媒体音频的合成方法的流程图；

图5是根据本申请一个多媒体音频的合成装置的示意图；

图6是根据本申请另一个多媒体音频的合成装置的示意图；

图7是根据本申请又一个多媒体音频的合成装置的示意图；

图8是根据本申请实施例的多媒体音频的合成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，歌唱合成因为乐谱的规范，对合成音频音高有明确的要求，不能出现“跑调”等问题，并且对发音人有较多的歌唱数据的要求。因此，歌唱合成技术对效果和数据都有较高的要求，而这些问题和要求，从而导致合成自然的歌唱多媒体数据比较困难，且合成自然的歌唱多媒体数据成本较高。因此，如何以便捷的方式合成效果较好且成本较低的多媒体音频是目前亟待解决的问题。

为了解决上述问题，本申请提出了一种多媒体音频的合成方法、装置、电子设备及存储介质，本申请在根据多媒体合成请求合成多媒体的音频的过程总，结合多媒体合成请求中操作者的标识获取操作者的音色特征信息，并结合多媒体合成请求中的目标多媒体信息，获取目标多媒体的音素特征信息以及基频特征信息，然后根据音色特征信息、音素特征信息以及基频特征信息，合成操作者针对目标多媒体的音频，由此，结合操作者的音色特征以及多媒体的音素特征和基频特征，生成了具有操作者音色特征、自然且效果较好的多媒体音频，满足了操作者生成具有自身音色特点的多媒体音频的个性化需求的同时，可降低生成多媒体音频的合成成本。

下面参考附图描述本申请实施例的多媒体音频的合成方法、装置、电子设备以及存储介质。

图1是根据本申请一个实施例的多媒体音频的合成方法的流程图。需要说明的是，本申请实施例的多媒体音频的合成方法可应用于本申请实施例的多媒体音频的合成装置，该装置具体可以为硬件设备，或者硬件设备中的软件等，并且该装置可应用在电子设备中，其中，电子设备可以包括终端设备或者服务器。例如移动终端包括智能手机、平板电脑、PAD、个人数字助理等。本申请实施例对此不作限定。

S101、接收多媒体合成请求，其中，多媒体合成请求包括操作者的标识和目标多媒体信息。

其中，多媒体合成请求可以为用户对多媒体音频的合成装置中预设按键的点击、预设控件的点击、预设区域的点击等，可以根据实际需求进行设定，在本申请不做限制。

其中，多媒体可以为戏曲、歌曲、视频音频、动画音频等。

其中，操作者的标识可理解为操作者的ID（Identity document，专属编号），用于对操作者进行唯一标识，不同操作者对应的标识均是不同的。

在本实施例中，在一些实例中，目标多媒体信息可以为目标多媒体的标识。在另一些实施例中上述目标多媒体信息可以包括目标多媒体的多媒体数据。

其中，目标多媒体的标识用于对目标多媒体信息进行标识，可以理解的是，不同目标多媒体其各自对应的标识均是不同的。

其中，目标多媒体的多媒体数据包括但不仅限于目标多媒体的音频数据等。

举例而言，当有需求歌曲合成时，可点击电子设备中预设按键，以向电子设备发送歌曲合成请求，进而电子设备可接收歌曲合成请求。其中，歌曲合成请求包括操作者的编号和目标歌曲的音频数据。

又例如，当有需求歌曲合成时，可点击电子设备中预设按键，以向电子设备发送歌曲合成请求，进而电子设备可接收歌曲合成请求。其中，歌曲合成请求包括操作者的编号和目标歌曲的标识。

S102、根据操作者的标识，获取操作者的音色特征信息。

作为一种示例性的实施方式，在获取操作者的标识后，可基于预设的操作者的标识和音色特征之间的对应关系，根据操作者的标识获取操作者的音色特征。

其中，音色特征信息可以包括但不限于音高、长度、音调等特征。

其中，可以理解的是，上述操作者的音色特征可以是通过该操作者的说话音频进行音色特征分析。

作为一种示例性的实施方式，在操作者第一次使用多媒体音频的合成装置时，可提示操作者结合多媒体音频的合成装置中提供的文本信息录入说话音频，以方便后续多媒体音频的合成装置结合操作者输入的说话音频进行音色特征进行。

作为一种可能的实现方式，可通过音色特征提取算法对说话音频进行音色特征提取，以得到操作者的音色特征信息。

作为另一种可能的实现方式，可将操作者的说话音频输入到预先训练的音色模型中，以通过该音色模型对操作者的说话音频进行分析，以得到该操作者的音色特征信息。

S103、根据目标多媒体信息，获取目标多媒体的音素特征信息以及基频特征信息。

在本申请的一个实施例中，当目标多媒体信息为目标多媒体的标识时，可根据目标多媒体的标识，获取与目标多媒体对应的多媒体音频，获取多媒体音频对应的文本数据，然后根据多媒体音频和文本数据，确定目标多媒体的音素特征信息，之后对多媒体音频进行基频特征提取，以得到目标多媒体的基频特征信息。

在本申请的另一个实施例中，对于一个多媒体而言，其可能存在不同的版本，例如，对于一首歌曲而言，其可能存在不同版本，即，对于同一首歌曲而言，可能存在多个已有发音人的情况。因此，为了满足操作者可以生成对应版本的多媒体的音频的需求，当目标多媒体信息为目标多媒体的标识时，可根据目标多媒体的标识，获取与目标多媒体对应的已有发音者，从已有发音者中获取指定的发音者，并获取指定的发音者针对目标多媒体的多媒体音频，并获取多媒体音频对应的文本数据，然后根据多媒体音频和文本数据，确定目标多媒体的音素特征信息，之后对多媒体音频进行基频特征提取，以得到目标多媒体的基频特征信息。

其中，本实施例中的已有发音者的数量可以为多个。

其中，在本申请的实施例中，可通过对多媒体音频和文本数据进行对齐处理，以得到文本数据中每个音素在多媒体音频中的音频起始帧和音频结束帧，然后根据每个音素在多媒体音频中的音频起始帧和音频结束帧，生成目标多媒体的音素特征信息。

在本申请的另一个实施例中，当目标多媒体信息为目标多媒体的多媒体数据时，可根据目标多媒体的多媒体数据，分别进行音色特征以及基频特征分析，以便获取目标歌曲多媒体的音素特征信息以及基频特征信息。

举例而言，当目标多媒体信息为目标多媒体音频数据时，可将目标多媒体的音频数据输入至深度学习网络模型中，深度学习网络模型基于自动提取音素特征和基频特征，进而可获取多媒体的音素特征信息以及基频特征信息。

S104、根据音色特征信息、音素特征信息以及基频特征信息，合成操作者针对目标多媒体的音频。

在本申请的实施例中，为了提高获取合成音频的效率，上述根据音色特征信息、音素特征信息以及基频特征信息，合成操作者针对目标多媒体的音频的一种可能实现方式为：可将音色特征信息、音素特征信息以及基频特征信息输入到多媒体合成模型，以合成操作者针对目标多媒体的音频。

根据本申请实施例的多媒体音频的合成方法，通过接收多媒体合成请求，其中，多媒体生成请求包括操作者的标识和目标多媒体信息，然后根据操作者的标识，获取操作者的音色特征信息，根据目标多媒体信息，获取目标多媒体的音素特征信息以及基频特征信息，之后根据音色特征信息、音素特征信息以及基频特征信息，合成操作者针对目标多媒体的音频。由此，结合操作者的音色特征以及多媒体的音素特征和基频特征，生成了具有操作者音色特征、自然且效果较好的多媒体音频，满足了操作者生成具有自身音色特点的多媒体音频的个性化需求的同时，可降低生成多媒体音频的合成成本。

为了使得合成的多媒体音频更准确且更符合的个性化需求，在本申请的实施例中，下面结合图2对该实施例多媒体合成的训练过程的描述。如图2所示，图2是根据本申请实施例的训练多媒体合成模型的流程图。

S201、获取训练数据，其中，训练数据包括音色特征信息以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本。

S202、将音色特征信息、基频特征样本和音素特征样本输入到多媒体合成模型，以得到预测梅尔频谱。

S203、根据预测梅尔频谱和梅尔样本频谱对多媒体合成模型进行训练。

其中，样本多媒体的梅尔样本频谱是通过对样本多媒体的音频数据进行频域转换，并对频域结果进行梅尔变换而得到的。

需要理解的是，由于基频变化较快，并且人耳对小于10hz的基频变化并不敏感，本实施例对基频进行了梅尔刻度的转换，并进行粗粒度化，可以有效屏蔽提取的基频细小变化对后期模型训练带来的负担，从而可提高输入基频对合成音频的控制能力。

例如，当预测梅尔频谱和梅尔样本频谱之间的差值越小时，多媒体合成模型可进行收敛。又如，当预测梅尔频谱和梅尔样本频谱之间的差值在第一阈值范围内时，多媒体合成模型可进行收敛。为了使得本领域技术人员可以清楚了解本申请的多媒体合成模型的训练过程，下面结合图3对该实施例中的多媒体合成模型的训练过程进行进一步示例性阐述。其中，该实施例中以目标发音人为本实施例的操作者，且多媒体为歌曲为例进行描述。

如图3所示，图3中的(a)部分为训练多媒体合成模型所需要的训练数据，包括一部分已有的几个样本发音人的歌唱数据和对应的文本信息，以及目标发音人的说话数据和对应的文本信息。

其中，可以理解的是，本实施例可以借用已有样本发音人的歌唱数据，使模型训练数据的音高分布更接近歌唱的真实分布，克服说话数据普遍音域较窄的问题。

其中，本实施例中的歌唱数据为清唱音频数据。

具体而言，在获取上述训练数据后，可分别对训练数据中的每个音频数据进行自动声学特征提取，以得到相应的基频特征和梅尔频谱。另外，对训练数据中的音频数据和其对应的文本数据进行自动对齐，根据对齐结果进行分析，以得到相应的音素特征信息。

其中，图3中以音素特征信息为音素边界信息为例进行示意。其中，音素边界信息包括对应音素在对应音频数据中的音频起始帧和音频结束帧。

其中，需要说明的是，由于基频变化较快，并且人耳对小于10hz的基频变化并不敏感，基频细小变化对模型训练带来的负担，为此，本实施例在对多媒体合成模型进行训练的过程中，直接采用梅尔频谱。

图3中(c)部分为分配给每个发音人独有的标识编号。由于***训练时，目标发音人的说话数据与多个已有发音人的歌唱数据混合训练，发音人标识编号可以有效的分离不同的音色。

其中，需要说明的是，由于本实施例在训练多媒体模型的过程中，使用音素、基频和发音人标识编号，因此，可通过音素、基频和发音人标识编号，分别对对合成多媒体的文本、音高和音色进行控制，减少了对其他信息和特征的耦合，极大的提高了输入对生成的控制灵活性。

另外，由于目标发音人仅有说话数据，而真实歌唱的音高很有可能高于训练数据，继而导致音色跟音高仍有一定程度的耦合，为了减少音色与音高之间的耦合，本实施例的多媒体合成模型的模型结构中在编码器中加入一个发音人分类器1，并在解码器的输出端加入一个发音人分类器2。

其中，发音人分类器1内部包含GRL(gradient reversal layer)模块，这个模块使用交叉熵损失函数，目标概率为每个发音人平分概率，分类器无法通过编码器的输出分辨出发音人，即编码器的输出与发音人无关。从而达到音素信息与发音人分离的效果。

另外，需要说明的是，在需要对分离音素信息和音高进行分离的场景中，也可以通过上述使用交叉熵损失函数，目标概率为每个发音人平分概率的方式，实现音素信息和音高解耦。

在本申请的一个实施例中，对多媒体合成模型进行训练的过程中，可在如图3所示，(e)位置设置用一个判别器来尝试判别生成频谱是否为真实频谱，以及发音人的分类，而生成器，即声学模型，尝试干扰判别器的判别。模型收敛后，声学模型的输出可以达到有效区分发音人的效果。

在本申请的另一个实施例中，对多媒体合成模型进行训练的过程中，在如图3所示(e)位置设计一个误差函数，模型在训练时，使得模型在训练过程中因设计的损失函数而使生成频谱趋向自己，而偏离其他发音人的中心，从而达到音色分离的效果。

本实施例中图3中的多媒体合成模型的训练过程大致如下:结合已有样本发音人的歌唱数据，得到歌曲的梅尔频谱、基频，然后根据训练数据中发音人的音频数据以及对应文本数据，得到音素边界信息，然后，模型结构中的编码器对音素边界信息进行编码，以得到歌曲的音素特征信息，并根据训练数据中各个发音人的音频数据，得到各个发音人的音色特征信息，然后，模型结合歌曲的音素特征信息、基频以及各个发音人的音色特征信息，生成各个发音人对应的梅尔频谱预测结果，如果确定各个发音人的梅尔频谱预测结果与其各自对应的梅尔频谱计算多媒体合成模型的损失函数进行损失计算，如果计算结果满足预设的模型结束条件，则确定多媒体合成模型可以准确合成对应歌曲的梅尔频谱，即多媒体合成模型已满足要求。此时，通过声码器对梅尔频谱进行时域转换，即可得到合成的歌唱音频。

基于上述实施例，为了避免音色和音高存在一定程度的耦合，提高音色提取模型和多媒体合成模型的准确度，多媒体音频的合成装置可以对音色提取模型和多媒体合成模型进行联合训练。如图4所示，图4是根据本申请一个具体实施例的训练合成模型的细化流程图。其中，音色提取模型和多媒体合成模型进行联合训练的具体过程可以包括：

S401、获取初始的联合模型，其中，联合模型包括：依次连接的音色提取模型和多媒体合成模型。

其中，在本申请的实施例中，音色提取模型的输入为操作者音频，输出为音频中的音色。多媒体合成模型的输入为音色、音素以及基频，输出为合成后的多媒体音频。

S402、获取训练数据，其中，训练数据包括：操作者音频以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本。

在本申请实施例中，服务器中可存在大量操作者音频以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本，因此，多媒体音频的合成装置可以获取大量操作者音频以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本作为训练数据，对初始的联合模型进行训练。

S403、将操作者音频、基频特征样本和音素特征样本输入到初始的联合模型，以得到预测梅尔频谱。

S404、根据预测梅尔频谱和梅尔样本频谱对初始的联合模型进行训练，以得到训练好的联合模型。

在本申请的一个实施例中，在训练联合模型的过程中，如果确定预测梅尔频谱与梅尔样本频谱之间的差异度小于预设差异度阈值，则说明联合模型可以准确预测出梅尔频谱，此时，联合模型训练结束。

S405、获取训练好的联合模型中的音色提取模型以及多媒体合成模型。

综上，在对模型进行训练的过程中，将操作者音频、基频特征样本和音素特征样本输入到初始的联合模型，以得到预测梅尔频谱，并根据预测梅尔频谱和梅尔样本频谱对初始的联合模型进行训练，以得到训练好的联合模型；获取训练好的联合模型中的音色提取模型以及多媒体合成模型，从而可以通过音色提取模型以及多媒体合成模型的联合训练，提高音色提取模型以及多媒体合成模型的准确度，进而提高合成得到的多媒体音频的准确度。

与上述几种实施例提供的多媒体音频的合成方法相对应，本申请的一种实施例还提供一种多媒体音频的合成装置，由于本申请实施例提供的多媒体音频的合成装置与上述几种实施例提供的多媒体音频的合成方法相对应，因此在多媒体音频的合成方法的实施方式也适用于本实施例提供的多媒体音频的合成装置，在本实施例中不再详细描述。

图5是根据本申请多媒体音频的合成装置的示意图。如图5所示，该多媒体音频的合成装置500包括：第一接收模块510、第一获取模块520、第二获取模块530和第一合成模块540。其中：

第一接收模块510，用于接收多媒体合成请求，其中，所述多媒体生成请求包括操作者的标识和目标多媒体信息；

第一获取模块520，用于根据所述操作者的标识，获取所述操作者的音色特征信息；

第二获取模块530，用于根据所述目标多媒体信息，获取目标多媒体的音素特征信息以及基频特征信息；作为一种示例，所述目标多媒体信息包括所述目标多媒体的标识；所述第二获取模块530，包括：获取已有发音者单元，用于根据所述目标多媒体的标识，获取与所述目标多媒体对应的已有发音者；获取目标操作者单元，用于从所述已有发音者中获取指定的发音者，并获取所述指定的发音者针对所述目标多媒体的多媒体音频，并获取所述多媒体音频对应的文本数据；确定音素特征单元，用于根据所述多媒体音频和所述文本数据，确定所述目标多媒体的音素特征信息；以及提取单元，用于对所述多媒体音频进行基频特征提取，以得到所述目标多媒体的基频特征信息。

在本申请的一个实施例中，所述确定音素特征单元，具体用于：对所述多媒体音频和所述文本数据进行对齐处理，以得到所述文本数据中每个音素在所述多媒体音频中的音频起始帧和音频结束帧；以及根据每个音素在所述多媒体音频中的音频起始帧和音频结束帧，生成所述目标多媒体的音素特征信息。

第一合成模块540，用于根据所述音色特征信息、音素特征信息以及基频特征信息，合成所述操作者针对所述目标多媒体的音频。

在本申请的一个实施例中，所述第一合成模块540，具体用于：将所述音色特征信息、音素特征信息以及基频特征信息输入到多媒体合成模型，以合成所述操作者针对所述目标多媒体的音频。

在本申请的一个实施例中，如图6所示，在所述第一合成模块640之前，对多媒体合成模型进行训练，对应地，所述装置还包括：获取第一数据模块650，用于获取训练数据，其中，所述训练数据包括所述音色特征信息以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本；第一输入模块660，用于将所述音色特征信息、所述基频特征样本和所述音素特征样本输入到所述多媒体合成模型，以得到预测梅尔频谱；第一训练模块670，用于根据所述预测梅尔频谱和所述梅尔样本频谱对所述多媒体合成模型进行训练。

其中，图6中610-640和图5中的510-540具有相同功能和结构。

在本申请的一个实施例中，所述第一获取模块620，具体用于：根据所述操作者的标识，获取所述操作者的操作者音频；以及将所述操作者音频输入到音色提取模型，以得到所述操作者的音色特征信息。

在本申请的一个实施例中，如图7所示，在所述第一合成模块740之前，可通过音色提取模型以及多媒体合成模型的联合训练，对应地，所述装置还包括：获取初始模型模块780，用于获取初始的联合模型，其中，所述联合模型包括：依次连接的音色提取模型和多媒体合成模型；数据第二获取模块790，用于获取训练数据，其中，所述训练数据包括：操作者音频以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本；第二输入模块7110，用于将所述操作者音频、所述基频特征样本和音素特征样本输入到所述初始的联合模型，以得到预测梅尔频谱；第二训练模块7120，用于根据所述预测梅尔频谱和所述梅尔样本频谱对所述初始的联合模型进行训练，以得到训练好的联合模型；获取模型模块7130，用于获取所述训练好的联合模型中的音色提取模型以及多媒体合成模型。

其中，图7中710-740和图5中的510-540具有相同功能和结构。

本申请实施例的多媒体音频的合成装置，通过接收多媒体合成请求，其中，多媒体生成请求包括操作者的标识和目标多媒体信息，然后根据操作者的标识，获取操作者的音色特征信息，根据目标多媒体信息，获取目标多媒体的音素特征信息以及基频特征信息，之后根据音色特征信息、音素特征信息以及基频特征信息，合成操作者针对目标多媒体的音频。由此，结合操作者的音色特征以及多媒体的音素特征和基频特征，生成了具有操作者音色特征、自然且效果较好的多媒体音频，满足了操作者生成具有自身音色特点的多媒体音频的个性化需求的同时，可降低生成多媒体音频的合成成本。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的多媒体音频的合成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器***）。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的多媒体音频的合成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的多媒体音频的合成方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的多媒体音频的合成方法对应的程序指令/模块（例如，附图5所示的第一接收模块510、第一获取模块520、第二获取模块530和第一合成模块540）。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的多媒体音频的合成方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据多媒体音频的合成的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至多媒体音频的合成的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

多媒体音频的合成方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与多媒体音频的合成的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（“Virtual Private Server”，或简称“VPS”）中，存在的管理难度大，业务扩展性弱的缺陷。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种多媒体音频的合成方法，包括：

接收多媒体合成请求，其中，所述多媒体合成请求包括操作者的标识和目标多媒体信息；

根据所述操作者的标识，获取所述操作者的音色特征信息；

将所述音色特征信息、音素特征信息以及基频特征信息输入到多媒体合成模型，以合成所述操作者针对所述目标多媒体的音频；

其中，在所述将所述音色特征信息、音素特征信息以及基频特征信息输入到多媒体合成模型，以合成所述操作者针对所述目标多媒体的音频之前，所述方法还包括：

获取训练数据，其中，所述训练数据包括所述音色特征信息以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本；

将所述音色特征信息、所述基频特征样本和所述音素特征样本输入到所述多媒体合成模型，以得到预测梅尔频谱；

根据所述预测梅尔频谱和所述梅尔样本频谱对所述多媒体合成模型进行训练。

2.根据权利要求1所述的方法，其中，所述根据所述操作者的标识，获取所述操作者的音色特征信息，包括：

根据所述操作者的标识，获取所述操作者的操作者音频；以及

将所述操作者音频输入到音色提取模型，以得到所述操作者的音色特征信息。

3.根据权利要求2所述的方法，其中，在所述将所述音色特征信息、音素特征信息以及基频特征信息输入到多媒体合成模型，以合成所述操作者针对所述目标多媒体的音频之前，所述方法还包括：

获取初始的联合模型，其中，所述联合模型包括：依次连接的音色提取模型和多媒体合成模型；

获取训练数据，其中，所述训练数据包括：操作者音频以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本；

将所述操作者音频、所述基频特征样本和音素特征样本输入到所述初始的联合模型，以得到预测梅尔频谱；

根据所述预测梅尔频谱和所述梅尔样本频谱对所述初始的联合模型进行训练，以得到训练好的联合模型；

获取所述训练好的联合模型中的音色提取模型以及多媒体合成模型。

4.根据权利要求1所述的方法，其中，所述目标多媒体信息包括所述目标多媒体的标识；所述根据所述目标多媒体信息，获取目标多媒体的音素特征信息以及基频特征信息，包括：

根据所述目标多媒体的标识，获取与所述目标多媒体对应的已有发音者；

从所述已有发音者中获取指定的发音者，并获取所述指定的发音者针对所述目标多媒体的多媒体音频，并获取所述多媒体音频对应的文本数据；

根据所述多媒体音频和所述文本数据，确定所述目标多媒体的音素特征信息；以及

对所述多媒体音频进行基频特征提取，以得到所述目标多媒体的基频特征信息。

5.根据权利要求4所述的方法，其中，所述根据所述多媒体音频和所述文本数据，确定所述目标多媒体的音素特征信息，包括：

对所述多媒体音频和所述文本数据进行对齐处理，以得到所述文本数据中每个音素在所述多媒体音频中的音频起始帧和音频结束帧；以及

根据每个音素在所述多媒体音频中的音频起始帧和音频结束帧，生成所述目标多媒体的音素特征信息。

6.一种多媒体音频的合成装置，包括：

第一接收模块，用于接收多媒体合成请求，其中，所述多媒体合成请求包括操作者的标识和目标多媒体信息；

第一合成模块，用于将所述音色特征信息、音素特征信息以及基频特征信息输入到多媒体合成模型，以合成所述操作者针对所述目标多媒体的音频；

其中，在所述第一合成模块之前，所述装置还包括：

获取第一数据模块，用于获取训练数据，其中，所述训练数据包括所述音色特征信息以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本；

第一输入模块，用于将所述音色特征信息、所述基频特征样本和所述音素特征样本输入到所述多媒体合成模型，以得到预测梅尔频谱；

第一训练模块，用于根据所述预测梅尔频谱和所述梅尔样本频谱对所述多媒体合成模型进行训练。

7.根据权利要求6所述的装置，其中，所述第一获取模块，具体用于：

8.根据权利要求7所述的装置，其中，在所述第一合成模块之前，所述装置还包括：

获取初始模型模块，用于获取初始的联合模型，其中，所述联合模型包括：依次连接的音色提取模型和多媒体合成模型；

数据第二获取模块，用于获取训练数据，其中，所述训练数据包括：操作者音频以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本；

第二输入模块，用于将所述操作者音频、所述基频特征样本和音素特征样本输入到所述初始的联合模型，以得到预测梅尔频谱；

第二训练模块，用于根据所述预测梅尔频谱和所述梅尔样本频谱对所述初始的联合模型进行训练，以得到训练好的联合模型；

获取模型模块，用于获取所述训练好的联合模型中的音色提取模型以及多媒体合成模型。

9.根据权利要求6所述的装置，其中，所述目标多媒体信息包括所述目标多媒体的标识；所述第二获取模块，包括：

获取已有发音者单元，用于根据所述目标多媒体的标识，获取与所述目标多媒体对应的已有发音者；

获取目标操作者单元，用于从所述已有发音者中获取指定的发音者，并获取所述指定的发音者针对所述目标多媒体的多媒体音频，并获取所述多媒体音频对应的文本数据；

确定音素特征单元，用于根据所述多媒体音频和所述文本数据，确定所述目标多媒体的音素特征信息；以及

提取单元，用于对所述多媒体音频进行基频特征提取，以得到所述目标多媒体的基频特征信息。

10.根据权利要求9所述的装置，其中，所述确定音素特征单元，具体用于：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的多媒体音频的合成方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的多媒体音频的合成方法。