CN110459200A

CN110459200A - 语音合成方法、装置、计算机设备及存储介质

Info

Publication number: CN110459200A
Application number: CN201910602385.1A
Authority: CN
Inventors: 向纯玉
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-11-15
Also published as: WO2021004113A1

Abstract

本发明公开了一种语音合成方法、装置、计算机设备及存储介质，该方法通过获取待配音视频中的人脸图片；提取所述人脸图片的人脸特征；根据所述人脸特征确定所述待配音视频中的人脸图片对应的人脸标签；从声学模型库中选取所述人脸标签对应的声学模型，所述声学模型包括多个语音标签；确定多个所述语音标签中每个所述语音标签对应的语音特征参数；采用每个所述语音标签对应的语音特征参数为所述待配音视频中的人脸图片对应的角色合成语音，以实现提高配音准确率目的。

Description

语音合成方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机领域，尤其涉及一种语音合成方法、装置、计算机设备及存储介质。

背景技术

目前，随着新媒体的不断发展，逐渐诞生了适用于网络的自媒体，这些自媒体通常会制作一些简单的配音视频用以娱乐大众。然而在这一类视频中，由于制作成本的原因，视频中的角色配音通常采用语音合成技术得到。由于当前的语音合成技术音色单一，只有简单的一种和两种音色，这样会容易导致人物角色之间缺乏关联性，人物角色的人脸和声音不相匹配或者匹配度不高，从而导致配音准确率不高。

发明内容

本发明实施例提供一种语音合成方法、装置、计算机设备及存储介质，以实现提高配音的准确率的目的。

一种语音合成方法，包括：

获取待配音视频中的人脸图片；

提取所述人脸图片的人脸特征；

根据所述人脸特征确定所述待配音视频中的人脸图片对应的人脸标签；

从声学模型库中选取所述人脸标签对应的声学模型，所述声学模型包括多个语音标签；

确定多个所述语音标签中每个所述语音标签对应的语音特征参数；

采用每个所述语音标签对应的语音特征参数为所述待配音视频中的人脸图片对应的角色合成语音。

一种语音合成装置，包括：

第一获取模块，用于获取待配音视频中的人脸图片；

第一提取模块，用于提取所述人脸图片的人脸特征；

第一确定模块，用于根据所述人脸特征确定所述待配音视频中的人脸图片对应的人脸标签；

选取模块，用于从声学模型库中选取所述人脸标签对应的声学模型，所述声学模型包括多个语音标签；

第二确定模块，用于确定多个所述语音标签中每个所述语音标签对应的语音特征参数；

合成模块，用于采用每个所述语音标签对应的语音特征参数为所述待配音视频中的人脸图片对应的角色合成语音。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音合成方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音合成方法的步骤。

上述语音合成方法、装置、计算机设备及存储介质，通过获取待配音视频中的人脸图片，然后对人脸图片的人脸特征分析得到人脸图片对应的人脸标签，然后根据人脸标签从声学模型库中选取声学模型，采用声学模型对应的语音特征参数来合成声音，能够依据人脸得到不同语音特征参数，根据语音特征参数合成声音，能够识别娱乐视频中的角色人脸特征，从而根据人脸特征为人物角色匹配一个最贴合人脸特征的声学模型，使得配音与人物角色之间的关联性增强，提高了人脸与配音之间的匹配度，避免了人声不对应的情况，从而提高配音的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音合成方法的一应用环境示意图；

图2是本发明一实施例中语音合成方法的一示例图；

图3是本发明一实施例中语音合成方法的另一示例图；

图4是本发明一实施例中语音合成方法的另一示例图；

图5是本发明一实施例中语音合成方法的另一示例图；

图6是本发明一实施例中语音合成方法的另一示例图；

图7是本发明一实施例中语音合成装置的一示例图；

图8是本发明一实施例中语音合成装置的另一示例图；

图9是本发明一实施例中语音合成装置的另一示例图；

图10是本发明一实施例中计算机设备的一示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音合成方法，可应用在如图1的应用环境中，其中，终端设备通过网络与服务器进行通信，终端设备在获取到待配音视频之后，将待配音视频中的人脸图片传给服务器，服务器接收人脸图片之后开始提取人脸图片的人脸特征，并确定人脸图片对应的人脸标签，进而根据人脸标签从声学模型库中选取声学模型，最后合成待配音视频中的人脸图片对应的角色的语音。其中，终端设备/可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语音合成方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取待配音视频中的人脸图片。

在该实施例中，人脸图片是待配音视频中出现的人脸对应的人脸图片。其中，为了后续人脸特征提取的准确性，待配音视频中的人脸图片中，人脸的五官和人脸的外轮廓应清晰可见。

S20：提取人脸图片的人脸特征。

其中，人脸特征是指反映人脸信息的关键特征，如人脸图像的几何特征(如人脸五官特征点和人脸轮廓特征点)和人脸图像灰度特征(如人脸肤色)，用于对人脸图像进行识别。

优选地，本实施例中几何特征包括人脸五官的关键点定位和人脸轮廓的关键点定位的特征点。具体地，可以采用ASM(Active Shape Model)的人脸特征点定位算法获取人脸特征，上述算法为全局人脸外观建立通用模型，对局部图像损坏是稳键的，但是它的计算代价很高，需要大量迭代步骤，还可以是AAM(Active Appreance Model)的人脸特征点定位算法获取人脸特征，该算法将特征点定位直接看作一个回归任务，用一个全局的回归器来计算特征点的坐标。由于人脸特征点定位仍然是一项非常有挑战的工作，因为人脸表情、姿势、光照等变化很多。同时，人脸不同位置特征点的定位难度是不同的，要是用一种单一的模型来定位的话，难以保证定位的准确率。因此，为了克服上述问题，可以采用Coarse-to-fine CNN网络的人脸特征点定位算法获取人脸特征。

S30：根据人脸特征确定待配音视频中的人脸图片对应的人脸标签。

其中，人脸标签是指根据人脸特征来对人脸图片进行分类的标签。示例性地，人脸标签可以是女娃娃脸标签、女青年脸标签、奶奶脸标签、男娃娃脸标签、男青年脸标签、大叔脸标签、爷爷脸标签等。需要说明的是，在本实施例中，上述人脸标签只是为了有助于对本实施例进行理解而进行列举的，本实施例对人脸标签不作限定。

S40：从声学模型库中选取人脸标签对应的声学模型，声学模型包括多个语音标签。

其中，语音标签包括声音的音调、音色、语速、强度标签等；声学模型库包含了多个声学模型，每个声学模型中包含了多个语音标签，每个语音标签对应有语音特征参数，该语音特征参数用于表征语音标签对应的语音特征，声学模型库中的各个声学模型是根据人脸标签设置的，不同的人脸标签对应有不同的声学模型。例如，相较于其他人脸标签，女青年脸标签对应的声学模型中，音调标签对应的语音特征参数高一些，说明女青年人脸标签对应的音调高一些；奶奶脸标签对应的声学模型中，语速标签对应的语速参数低一些，说明明女青年人脸标签对应的语速慢一些。

具体地，根据人脸标签从预设的声学模型库中选取出与该人脸标签对应的声学模型。

S50：确定多个语音标签中每个语音标签对应的语音特征参数。

其中，语音特征参数是指语音的音调、音色、语速、强度等语音特征参数。

S60：采用每个语音标签对应的语音特征参数为待配音视频中的人脸图片对应的角色合成语音。

具体地，由于声学模型中的语音特征参数是在一个数值区间内的，然而合成语音所需要的语音特征参数是一个确定的数值，因此，可以在所述声学模型的语音特征参数的数值区间内随机选取一个数值作为合成语音所需要的数值。

服务器根据这些语音特征参数进行语音合成，然后输出语音文件，并将语音文件返回给终端设备，其中，语音文件的格式是根据需求而定，例如，语音文件的格式可以是.mp3或者.wvm，这里不做限定。

在该实施例中，合成语音可以是采用语音特征参数合成一段与语音文本对应的语音，也可以是根据语音特征参数对所述语音片段进行变声处理。具体地，可获取所述待配音视频对应的获取语音文本，再采用所述语音特征参数为所述待配音视频合成所述语音文本对应的语音。

在该实施例中，由于面部特征在一定程度上能够体现人物的性格，而人物的声音与人物不对应的话，会给人一种出戏的感觉。因此，通过获取待配音视频中的人脸图片，然后对人脸图片的人脸特征分析得到人脸图片对应的人脸标签，然后根据人脸标签从声学模型库中选取声学模型，采用声学模型对应的语音特征参数来合成声音，能够依据人脸得到不同语音特征参数，根据语音特征参数合成声音，能够识别娱乐视频中的角色人脸特征，从而根据人脸特征为人物角色匹配一个最贴合人脸特征的声学模型，使得配音与人物角色之间的关联性增强，提高了人脸与配音之间的匹配度，避免了人声不对应的情况，从而提高配音的准确率。

在一实施例中，如图3所示，获取声学模型库具体包括如下步骤：

S70：获取多个人脸样本和多个人脸样本对应的多个语音样本。

在该实施例中，人脸样本指的是一张包含人脸面部各个五官的图像，语音样本指的是一段语音。其中，每一人脸样本和每一语音样本存在着关联关系，即语音样本是由人脸样本对应的人输出(说出)的。

示例性地，为了得到更贴合人脸特征的声学模型库，可以从大量包含语音和人脸的视频中提取出个人脸样本和多个人脸样本对应的多个语音样本，由于在一些特定的场景中，视频中的声音(语音样本)是由人脸(人脸样本)对应的人物说出的，因此，这些人脸样本与语音样本具有一定的关联性。

S80：提取人脸样本的人脸特征。

其中，为了保证所提取的人脸特征的准确性，可以采用预先训练的Coarse-to-fine CNN网络来提取人脸样本的人脸特征。

S90：确定人脸特征对应的人脸标签。

具体地，可以通过判断所述人脸特征的特征值是否在任意一个预设标签的特征值区间内，若在任意一个预设标签的特征值区间内，则确定该预设标签为所述人脸特征对应的人脸标签。

S100：提取语音样本的语音特征，语音特征包括多个语音特征参数。

在该实施例中，语音特征是语音样本中的音调高低特征、音色好坏特征、语速快慢特征、强度大小特征等，例如音调、音色、语速、强度等。具体地，可以采用Python所提供的语音库(如Audiolab)来进行语音样本的语音特征提取，在具体操作时，只需要把语音样本作为一个参数传入到Audiolab库中。当然，方案还可以采用Matlab来绘制语音样本的语音频谱图，然后对语音频谱图进行分析，得到语音样本的语音特征。但是，考虑到语音样本的数据量，以及操作的简便性，本方案优选地采用Python所提供的语音库来进行语音样本的语音特征提取。

S110：确定多个语音特征参数对应的多个语音标签。

在该实施例中，由于每一个语音样本的语音特征包括多个语音特征参数，因此要根据每一个语音特征参数来确定每一类语音标签，即每一个语音特征参数对应一个语音标签。具体确定方法可以是，先确定每一个语音特征参数所述的区间，然后根据该区间确定语音标签。本实施例以音调参数进行举例说明：基于步骤S100：的提取语音特征，得到该语音样本的音调为100Hz，然后基于各个预设音调区间(高音调区间[300Hz,500Hz]、中音调区间[80Hz,300Hz)、低音调区间[0Hz,80Hz))，得出该音调处于中音调区间，则确定该语音样本的音调标签为中音调。

S120：根据多个人脸标签和多个语音标签生成声学模型库。

在一实施例中，如图4所示，步骤S120：根据多个人脸标签和多个语音标签生成声学模型库，具体包括如下步骤：

S121：对多个人脸样本对应的人脸标签以及语音标签进行的数量统计，以获取人脸标签与所述语音标签的关联性，所述关联性用于匹配每类人脸标签对应出现概率最大的语音标签。

具体地，可以通过对每类人脸标签对应的语音标签的数量进行统计，将每类出现概率最大(也即出现次数最多)的语音标签作为与人脸标签具有关联性的语音标签。

S122：根据关联性确定每个人脸标签所对应的语音标签。

S123：根据每个人脸标签所对应的语音标签，生成人脸标签对应的声学模型。

其中，声学模型是指包括多个语音特征参数的模型。示例性地，人脸标签对应的声学模型可以是女娃娃脸的人脸标签对应有女娃娃脸的声学模型。

生成人脸标签对应的声学模型是为了为选取人脸标签对应的声学模型提供支持。

S124：根据所有人脸标签对应的声学模型生成声学模型库。

在该实施例中，对多个人脸样本对应的人脸标签以及语音标签进行的数量统计，以获取人脸标签与所述语音标签的关联性，根据关联性确定每个人脸标签所对应的语音标签，根据每个人脸标签所对应的语音标签，生成人脸标签对应的声学模型，根据所有人脸标签对应的声学模型生成声学模型库，能够增加人脸与语音之间的关联性，使得脸型与语音更加贴合，使得后续在为待配音视频中的人脸图像对应的觉得进行语音合成时，所合成的语音更加符合人物形象，从而不至于让观众产生“出戏”的感觉。

在一实施例中，如图5所示，步骤S80：提取人脸样本的人脸特征，包括以下步骤：

S81：从每一人脸样本中提取出多个外轮廓特征点和多个五官特征点。

其中，外轮廓特征点是指人脸的外轮廓的特征点；五官包括眼、耳、口、鼻和眉，五官特征点是指左右眼睛、眉毛、鼻子、嘴巴这5个部分上的特征点。

作为本实施例的优选，可采用多模型来定位人脸不同位置的特征点，将人脸分为五官特征点与外轮廓特征点来分别定位，五官特征点指的是人脸的五官所在的特征点，外轮廓特征点指的是人脸的外轮廓所在的特征点。在本方实施例中，可采用Coarse-to-fineCNN网络的人脸特征点定位算法获取每一人脸图像上的五官特征点及外轮廓特征点，从而获取人脸特征。

具体地，将DCNN模型分成两组并行的CNN级联网络。其中一组是一个4级级联的CNN，用于获取人脸的五官特征点(如选取51个人脸五官特征点)。其中，第1级用于人脸五官特征点的最小包围盒(bounding box)的定位，所述五官特征点的最小包围盒为包围了人脸图像上的所有五官(左右眼睛、眉毛、鼻子、嘴巴5个部分)的最小图片；第2级用于将最小包围盒中输入到CNN中，从而初步估计多个特征点的位置；第3级用于将最小包围盒中的各个五官的图片裁剪出来，并输入到该级的CNN中进行进一步精确估计多个五官特征点的位置；第4级是用于上述各个五官的图片进行旋转校正，并对旋转校正后各个五官特征点进行精确定位，得到多个五官特征点。另一组是2级级联的CNN，第1组用于人脸的外轮廓特征点(如选取17个外轮廓特征点)的最小包围盒的定位，所述外轮廓特征点的最小包围盒为包围了人脸图像的外轮廓的最小图片。第2级用于从外轮廓特征点的最小包围盒中估计多个外轮廓特征点的准确位置，得到多个外轮廓特征点。之所以两组并行的CNN级联网络的第1级都需要定位最小包围盒，是因为传统的DCNN在先验知识不足时，卷积网络大部分的力量都浪费在寻找人脸上，降低了人脸特征点定位的效率，进而影响人脸特征的获取效率。

S82：将每一人脸样本所有外轮廓特征点进行连接，得到人脸图像的外轮廓。

S82：将每一人脸样本的所有相同五官类型的五官特征点进行连接，得到人脸图像的各个五官对应的五官轮廓。

其中，将相同五官类型的五官特征点进行连接，是指将左眼睛、右眼睛、嘴巴、鼻子和眉毛对应的五官特征点分别进行连接。五官轮廓是指左眼睛轮廓、右眼睛轮廓、嘴巴轮廓、鼻子轮廓和眉毛轮廓。

S83：将每一人脸样本的外轮廓和各个五官的轮廓作为人脸样本对应的人脸特征。

在一实施例中，如图6所示，步骤S90：确定人脸特征对应的人脸标签，包括如下步骤：

S91：计算人脸样本的外轮廓的弧度。

S92：根据各个五官轮廓，计算各个五官之间的间距、各个五官的长度和宽度。

其中，各个五官之间的间距是指左右眼睛、嘴巴、鼻子和眉毛之间的两两间距，例如眼睛与眉毛之间的间距、左右眼睛之间的间距、两眉之间的间距以及鼻子与嘴巴之间的间距等；五官的宽度是指各个五官的最大宽度，例如左眼睛的最大宽度、右眼睛的最大宽度、嘴巴的最大宽度以及鼻子的最大宽度；五官的长度是指五官的最大长度，例如左眼睛的最大长度、右眼睛的最大长度、嘴巴的最大长度、鼻子的最大长度以及眉毛的长度。

S93：根据外轮廓的弧度和各个五官之间的间距、各个五官的长度和宽度，确定人脸特征对应的人脸标签。

确定人脸特征对应的人脸标签的原理是：根据人脸的外轮廓弧度、五官的宽度、五官的长度和各个五官之间的间距等进行分类。例如，人脸的外轮廓弧度、各个五官的宽度、各个五官的长度以及各个五官之间的间距，达到预设的女娃娃脸的外轮廓弧度阈值、五官的宽度阈值、五官的长度阈值和各个五官之间的间距阈值时，则为该人脸特征对应的人脸图片分类为女娃娃脸，并赋予女娃娃脸标签。

需要说明的是，由于人脸标签是通过人脸特征确定的，而人脸特征通常体现在人脸的外轮廓的弧度以及五官之间的间距、各个五官的长度和宽度，因此，在该实施例中，计算人脸样本的外轮廓的弧度、各个五官之间的间距、各个五官的长度和宽度，并根据能人脸样本的外轮廓的弧度、各个五官之间的间距、各个五官的长度和宽度够确认该人脸样本的对应的脸型、五官的大小和各个五官之间的间距，从而能确定出该人脸样本对应的人脸标签。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音合成装置，该语音合成装置与上述实施例中语音合成方法一一对应。如图7所示，该语音合成装置包括第一获取模块10、第一提取模块20、第一确定模块30、选取模块40、第二确定模块50和合成模块60。各功能模块详细说明如下：

第一获取模块10，用于获取待配音视频中的人脸图片；

第一提取模块20，用于提取人脸图片的人脸特征；

第一确定模块30，用于根据人脸特征确定待配音视频中的人脸图片对应的人脸标签；

选取模块40，用于从声学模型库中选取人脸标签对应的声学模型，声学模型包括多个语音标签；

第二确定模块50，用于确定多个语音标签中每个语音标签对应的语音特征参数；

合成模块60，用于采用每个语音标签对应的语音特征参数为待配音视频中的人脸图片对应的角色合成语音。

优选地，在一实施例中，如图8所示，通过如下模块获取声学模型库：

第二获取模块70，用于获取多个人脸样本和多个人脸样本对应的多个语音样本；

第二提取模块80，用于提取人脸样本的人脸特征；

第三确定模块90，用于确定人脸特征对应的人脸标签；

第三提取模块100，用于提取语音样本的语音特征，语音特征包括多个语音特征参数；

第四确定模块110，用于确定多个语音特征参数对应的多个语音标签；

生成模块120，用于根据多个人脸标签和多个语音标签生成声学模型库。

优选地，在一实施例中，如图9所示，生成模块120包括：

统计单元121，用于对多个人脸样本对应的人脸标签以及语音标签的数量进行统计，以获取人脸标签与语音标签的关联性，所述关联性用于匹配每类人脸标签对应出现概率最大的语音标签；

第一确定单元122，用于根据关联性确定每个人脸标签所对应的语音标签；

第一生成单元123，用于根据每个人脸标签所对应的语音标签，生成人脸标签对应的声学模型；

第二生成单元124，用于根据所有人脸标签对应的声学模型生成声学模型库。

可选地，在一实施例中，第一提取模块20包括：

提取单元，用于从每一人脸样本中提取出多个外轮廓特征点和多个五官特征点；

第一连接单元，用于将每一人脸样本所有外轮廓特征点进行连接，得到人脸图像的外轮廓；

第二连接单元，用于将每一人脸样本的所有相同五官类型的五官特征点进行连接，得到人脸图像的各个五官对应的五官轮廓；

第二确定单元，用于将每一人脸样本的外轮廓和各个五官的轮廓作为人脸样本对应的人脸特征。

可选地，在一实施例中，第三确定模块90，包括：

第一计算单元，用于计算人脸特征的外轮廓的弧度；

第二计算单元，用于根据各个五官轮廓，计算各个五官之间的间距、各个五官的长度和宽度；

第三确定单元，用于根据外轮廓的弧度和各个五官之间的间距、各个五官的长度和宽度，确定人脸特征对应的人脸标签。

关于语音合成装置的具体限定可以参见上文中对于语音合成方法的限定，在此不再赘述。上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音合成方法所需要的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

获取待配音视频中的人脸图片；

提取人脸图片的人脸特征；

根据人脸特征确定待配音视频中的人脸图片对应的人脸标签；

从声学模型库中选取人脸标签对应的声学模型，声学模型包括多个语音标签；

确定多个语音标签中每个语音标签对应的语音特征参数；

采用每个语音标签对应的语音特征参数为待配音视频中的人脸图片对应的角色合成语音。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待配音视频中的人脸图片；

提取人脸图片的人脸特征；

确定多个语音标签中每个语音标签对应的语音特征参数；

上述语音合成方法、装置、计算机设备及存储介质，通过获取待配音视频中的人脸图片，然后对人脸图片的人脸特征分析得到人脸图片对应的人脸标签，然后根据人脸标签从声学模型库中选取声学模型，采用声学模型对应的语音特征参数来合成声音，能够依据人脸得到不同语音特征参数，根据语音特征参数合成声音，从而能区分娱乐视频中的角色，满足多角色的情况下使用，并且配音与人物角色之间具备关联性，多个角色的配音效果比较多样，从而提高配音效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，包括：

获取待配音视频中的人脸图片；

提取所述人脸图片的人脸特征；

2.如权利要求1所述的语音合成方法，其特征在于，通过如下步骤获取所述声学模型库：

获取多个人脸样本和所述多个人脸样本对应的多个语音样本；

提取所述人脸样本的人脸特征；

确定所述人脸特征对应的人脸标签；

提取所述语音样本的语音特征，所述语音特征包括多个语音特征参数；

确定多个所述语音特征参数对应的多个语音标签；

根据多个所述人脸标签和多个所述语音标签生成所述声学模型库。

3.如权利要求2所述的语音合成方法，其特征在于，所述根据多个所述人脸标签和多个所述语音标签生成所述声学模型库，包括：

对多个所述人脸样本对应的所述人脸标签以及所述语音标签的数量进行统计，以获取所述人脸标签与所述语音标签的关联性，所述关联性用于匹配每类所述人脸标签对应出现概率最大的所述语音标签；

根据所述关联性确定每个所述人脸标签所对应的语音标签；

根据所述每个人脸标签所对应的语音标签，生成所述人脸标签对应的声学模型；

根据所有所述人脸标签对应的声学模型生成所述声学模型库。

4.如权利要求2所述的语音合成方法，其特征在于，所述提取所述人脸样本的人脸特征，包括：

从每一所述人脸样本中提取出多个外轮廓特征点和多个五官特征点；

将每一所述人脸样本所有所述外轮廓特征点进行连接，得到所述人脸图像的外轮廓；

将每一所述人脸样本的所有相同五官类型的五官特征点进行连接，得到所述人脸图像的各个五官对应的五官轮廓；

将每一所述人脸样本的所述外轮廓和所述各个五官的轮廓作为所述人脸样本对应的所述人脸特征。

5.如权利要求4所述的语音合成方法，其特征在于，所述确定所述人脸特征对应的人脸标签，包括：

计算所述人脸样本的所述外轮廓的弧度；

根据各个所述五官轮廓，计算各个五官之间的间距、各个五官的长度和宽度；

根据所述外轮廓的弧度和所述各个五官之间的间距、各个五官的长度和宽度，确定所述人脸特征对应的人脸标签。

6.一种语音合成装置，其特征在于，包括：

第一获取模块，用于获取待配音视频中的人脸图片；

第一提取模块，用于提取所述人脸图片的人脸特征；

7.如权利要求6所述的语音合成装置，其特征在于，通过如下模块获取所述声学模型库：

第二获取模块，用于获取多个人脸样本和所述多个人脸样本对应的多个语音样本；

第二提取模块，用于提取所述人脸样本的人脸特征；

第三确定模块，用于确定所述人脸特征对应的人脸标签；

第三提取模块，用于提取所述语音样本的语音特征，所述语音特征包括多个语音特征参数；

第四确定模块，用于确定多个所述语音特征参数对应的多个语音标签；

生成模块，用于根据多个所述人脸标签和多个所述语音标签生成所述声学模型库。

8.如权利要求7所述的语音合成装置，其特征在于，所述生成模块包括：

统计单元，用于对多个所述人脸样本对应的所述人脸标签以及所述语音标签的数量进行统计，以获取所述人脸标签与所述语音标签的关联性，所述关联性用于匹配每类所述人脸标签对应出现概率最大的所述语音标签；

第一确定单元，用于根据所述关联性确定每个所述人脸标签所对应的语音标签；

第一生成单元，用于根据所述每个人脸标签所对应的语音标签，生成所述人脸标签对应的声学模型；

第二生成单元，用于根据所有所述人脸标签对应的声学模型生成所述声学模型库。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音合成方法。