CN115550744A

CN115550744A - 一种语音生成视频的方法和装置

Info

Publication number: CN115550744A
Application number: CN202211508415.0A
Authority: CN
Inventors: 王鹏飞
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2022-12-30
Anticipated expiration: 2042-11-29
Also published as: WO2024113701A1; CN115550744B

Abstract

本发明实施例提供了一种语音生成视频的方法和装置，方法包括：响应于语音输入操作，确定语音输入操作对应的语音数据；根据语音数据，从针对目标对象配置的多个预设形象中确定目标形象；获取基于语音提取姿势数据的第一模型，并通过第一模型确定语音数据的初始姿势数据；获取目标形象对应的标准姿势数据，并根据标准姿势数据对初始姿势数据进行重定向，得到目标姿势数据；确定目标形象对应的用于基于姿势合成视频的第二模型，并将目标姿势数据输入第二模型中，生成目标形象的目标视频。通过本发明实施例，实现了基于语音数据生成包含目标对象姿势动作的目标视频，使生成的视频更形象生动，增加沉浸感和体验感。

Description

一种语音生成视频的方法和装置

技术领域

本发明涉及语音技术领域，特别是涉及一种语音生成视频的方法和装置。

背景技术

在实际应用中，可以实现基于语音生成人脸视频，以通过人脸形象地展示语音，在生成人脸视频的技术可以分为：生成特定人脸的人脸视频或者生成任意人脸的人脸视频。

在生成特定人脸的人脸视频的过程中，通过对特定形象的短视频进行训练得到深度学习模型，在训练过程中，将视频帧与语音信号分离，使模型能够记住特定发音时人脸的表情及嘴部动作，从而，在实际使用时不需要视频仅通过音频输入即可生成训练时对应人脸的视频。

在生成任意人脸的人脸视频的过程中，可以预先选择不同形象的短视频进行训练，将面部形象编码为一个隐向量，按照不同语音信号，随机选择隐向量调整人脸的形象，来生成对应语音的嘴部动作和面部表情。

然而，上述基于语音生成人脸视频的技术局限于人脸，并不涉及人体的姿势及动作；同时，由于人体的姿势动作较为丰富多变，上述基于语音生成人脸视频的方案中一对一的音素到唇形的假设并不能直接移植到语音合成人体动作视频，从而无法针对整体人物进行视频合成。

发明内容

鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的一种语音生成视频的方法和装置，包括：

本发明第一方面提供了一种语音生成视频的方法，所述方法包括：

响应于语音输入操作，确定所述语音输入操作对应的语音数据；

根据所述语音数据，从针对目标对象配置的多个预设形象中确定目标形象；

获取基于语音提取姿势数据的第一模型，并通过所述第一模型确定所述语音数据的初始姿势数据；

获取所述目标形象对应的标准姿势数据，并根据所述标准姿势数据对所述初始姿势数据进行重定向，得到目标姿势数据；

确定所述目标形象对应的用于基于姿势合成视频的第二模型，并将所述目标姿势数据输入所述第二模型中，生成所述目标形象的目标视频。

本发明第二方面提供了一种语音生成姿势的模型训练方法，所述方法包括：

获取预设的第一模型和针对所述第一模型进行训练的第一视频；所述第一模型用于基于目标对象的语音提取姿势数据；所述第一视频为目标对象随语音变换姿势的语音视频；

确定所述第一视频中候选语音数据以及所述候选语音数据对应的候选语义数据；

从所述第一视频的每帧图像中提取所述目标对象的候选姿势数据；

根据所述候选语音数据、所述候选语义数据和所述候选姿势数据对所述第一模型进行训练，以使所述第一模型针对输入的语音数据生成对应的姿势数据。

本发明第三方面提供了一种姿势合成视频的模型训练方法，所述方法包括：

针对目标对象录制基于目标形象变换姿势的第二视频；

获取预设的用于基于姿势合成视频的第二模型；

将所述第二视频输入到第二模型中，以从所述第二视频的每帧图像中提取所述目标对象对应的第三预测姿势数据，并基于所述第三预测姿势数据生成预测视频；

基于所述第二视频和所述预测视频调整所述第二模型。

本发明第四方面提供了一种语音生成视频的装置，所述装置包括：

语音输入模块，用于响应于语音输入操作，确定所述语音输入操作对应的语音数据；

目标形象确定模块，用于根据所述语音数据，从针对目标对象配置的多个预设形象中确定目标形象；

初始姿态确定模块，用于获取基于语音提取姿势数据的第一模型，并通过所述第一模型确定所述语音数据的初始姿势数据；

姿势重定向模块，用于获取所述目标形象对应的标准姿势数据，并根据所述标准姿势数据对所述初始姿势数据进行重定向，得到目标姿势数据；

目标视频生成模块，用于确定所述目标形象对应的用于基于姿势合成视频的第二模型，并将所述目标姿势数据输入所述第二模型中，生成所述目标形象的目标视频。

本发明第五方面提供了一种语音生成姿势的模型训练装置，所述装置包括：

第一视频获取模块，用于获取预设的第一模型和针对所述第一模型进行训练的第一视频；所述第一模型用于基于目标对象的语音提取姿势数据；所述第一视频为目标对象随语音变换姿势的语音视频；

候选语音语义确定模块，用于确定所述第一视频中候选语音数据以及所述候选语音数据对应的候选语义数据；

候选姿态确定模块，用于从所述第一视频的每帧图像中提取所述目标对象的候选姿势数据；

第一模型调整模块，用于根据所述候选语音数据、所述候选语义数据和所述候选姿势数据对所述第一模型进行训练，以使所述第一模型针对输入的语音数据生成对应的姿势数据。

本发明第六方面提供了一种姿势合成视频的模型训练装置，所述装置包括：

第二视频录制模块，用于针对目标对象录制基于目标形象变换姿势的第二视频；

第二模型获取模块，用于第二视频获取模块获取预设的用于基于姿势合成视频的第二模型；

预测视频获取模块，用于将所述第二视频输入到第二模型中，以从所述第二视频的每帧图像中提取所述目标对象对应的第三预测姿势数据，并基于所述第三预测姿势数据生成预测视频；

第二视频调整模块，用于基于所述第二视频和所述预测视频调整所述第二模型。

本发明第七方面提供了一种服务器，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述语音生成视频的方法。

本发明第八方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述语音生成视频的方法。

本发明实施例具有以下优点：

本发明实施例，通过响应于语音输入操作，确定语音输入操作对应的语音数据，进而可以根据语音数据，从针对目标对象配置的多个预设形象中确定目标形象，进而获取基于语音提取姿势数据的第一模型，并通过第一模型确定语音数据的初始姿势数据，获取目标形象对应的标准姿势数据，并根据标准姿势数据对初始姿势数据进行重定向，得到目标姿势数据，从而可以确定目标形象对应的用于基于姿势合成视频的第二模型，并将目标姿势数据输入第二模型中，生成目标形象的目标视频，实现了基于语音数据生成包含目标对象姿势动作的目标视频，使生成的视频更形象生动，增加沉浸感和体验感。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语音生成视频的方法的步骤流程图；

图2是本发明一实施例提供的另一种语音生成视频的方法的步骤流程图；

图3是本发明一实施例提供的另一种语音生成视频的方法的步骤流程图；

图4a是本发明一实施例提供的一种语音生成姿势的模型训练方法的步骤流程意图；

图4b是本发明一实施例提供的一种第一模型的结构示意图；

图5a是本发明一实施例提供的一种姿势合成视频的模型训练方法的步骤流程图；

图5b是本发明一实施例提供的一种第二模型的结构示意图；

图6a是本发明一实施例提供的一种第三模型训练步骤流程图；

图6b是本发明一实施例提供的一种第三模型的结构示意图；

图7是本发明一实施例提供的语音生成视频的过程示意图；

图8是本发明一实施例提供的语音生成视频的装置的结构示意图;

图9是本发明一实施例提供的一种语音生成姿势的模型训练装置的结构示意图；

图10是本发明一实施例提供的一种姿势合成视频的模型训练装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在实际应用，针对一段语音，可以将其转化为人脸视频，进而使语音具象化，已增加沉浸感和体验感。具体的，在将语音转化为人脸视频的过程中，可以通过以下方式实现：

（1）3D人脸重建，使用3DMM（即三维可变形人脸模型）学习人脸图像到3D模型参数的映射。

（2）将语音信号映射成3D人脸表情、嘴部动画参数；

（3）将步骤（1）中和步骤（2）的映射结果使用3D渲染管线完成每一帧视频的渲染。

该步骤（2）中，语音到嘴部动画和面部表情的驱动可以认为是一一对应的，即发相同音时其嘴部动画、面部表情保持一致，在不同个体之间会有差别，但在同一形象上是有对应关系的。因此，3D人脸模型建模准确，渲染效果良好的情况下，语音特征到人脸动作特征的映射取决于数据集是否足够，数据集质量高，数量不断增加，则效果可以不断提高。

依照上述方案仅仅能生成人脸视频，而并不能确定人物在发声时的肢体动作，从而现有的基于语音生成人脸的技术从而无法生成完整的人体视频。

对于虚拟形象而言，声音驱动面部表情和嘴型是提升其真实性和自然性的重要步骤，在类似虚拟客服、虚拟教师、虚拟主持人、虚拟主播等应用场景中，在虚拟形象讲话过程中，手势及身体的动作同样会对沉浸感有非常重要的影响。

在本发明实施例中通过语音数据确定目标形象以及基于目标形象训练姿势合成视频的第二模型，获取基于语音提取姿势数据的第一模型，从而，可以通过第一模型根据语音提取姿势数据，进而通过第二模型将姿势数据合成目标形象的个性化视频，实现了基于语音生成个性化视频，使生成的视频更形象生动，增加沉浸感和体验感。

参照图1，示出了本发明一实施例提供的一种语音生成视频的方法的步骤流程图，具体可以包括如下步骤：

步骤101，响应于语音输入操作，确定语音输入操作对应的语音数据；

在实际应用中，可以通过语音输入操作确定待处理的语音数据，具体的，语音输入操作可以是用户实时录制语音的操作，也可以是从历史录制的语音中选定需要合成视频的语音数据的操作。

步骤102，根据语音数据，从针对目标对象配置的多个预设形象中确定目标形象；

在将语音数据合成目标对象的视频过程中，需要确定目标对象的具体形象，可以预先针对目标对象配置多个预设形象，在确定待处理的语音数据后，可以确定与语音数据与每个预设形象进行匹配，确定匹配度最高的预设形象为目标形象。

例如，当针语音数据合成人物视频时，可以基于人物年龄、性别的组合，得到多个预设形象，其中，年龄可以划分为0-15（小孩）15-30（青年）30-45（中年）45+（老年），性别划分为男女，年龄与性别组合可以得到8中预设形象。

在本发明一实施例中，步骤102可以包括以下子步骤：

子步骤S11，获取预先训练的用于筛选形象的第三模型；

在实际应用中，可以预先训练第三模型，第三模型用于针对给定的待处理的语音数据从预设形象中确定语音匹配对最高的目标形象，第三模型可以基于语音数据的音频特征数据与形象属性进行匹配，进而确定目标形象。

子步骤S12，将语音数据输入第三模型，确定语音数据的音频特征数据，并根据音频特征数据确定语音数据对应的形象属性信息；

其中，形象属性信息为预设形象的特征数据，可以包括年龄信息、性别信息中任意一项或多项。

将待处理的语音数据输入第三模型，在第三模型中，可以确定语音数据的音频特征数据，进而基于第三模型中音频特征数据与形象属性之后的对应关系，确定音频特征数据匹配的形象属性。

子步骤S13，基于形象属性信息从针对目标对象配置的多个预设形象中确定目标形象。

在确定形象属性信息后，可以在多个预设形象中确定形象属性信息对应的目标形象。

例如，语音数据匹配的形象属性为年龄为0-15（小孩）、性别为女，从而该语音数据对应的目标形象为0-15岁的女孩的形象。

步骤103，获取基于语音提取姿势数据的第一模型，并通过第一模型确定语音数据的初始姿势数据；

其中，第一模型为预先针对目标对象进行训练后得到的可以用于基于语音提取姿势数据的模型，针对第一模型输入的语音数据，可以得到目标对象的多个姿势数据，即语音数据的初始姿势数据。

其中，姿势数据为针对目标对象整个形态姿态动作的表征，可以由目标对象的特定关键点构成。

例如，当目标对象为人物对象时，姿势数据可以指针对人体关节上定义的一些关键点的位置数据，不同模型检测得到的关键点有区别，比如COCO数据集中把人体关键点表示为17个关节，分别是鼻子，左右眼，左右耳，左右肩，左右肘，左右腕，左右臀，左右膝，左右脚踝。

步骤104，获取目标形象对应的标准姿势数据，并根据标准姿势数据对初始姿势数据进行重定向，得到目标姿势数据；

其中，目标形象对应的标准姿势数据可以是指目标对象以目标形象展示的特定姿势，例如，可以将人体站立时的姿势数据作为目标形象对应的标准姿势数据。

第一模型在训练姿势过程中采用的视频形象不一定采用目标形象的视频进行训练，从而使得到的多个初始姿势数据不是目标形象的姿势数据；此外，即使第一模型是采用目标形象进行训练，也可能在不同的训练视频中，目标对象与镜头的距离存在差异，从而不同初始姿态数据存在缩放，导致初始姿态数据大小各异。

为了生成针对目标形象的视频，在确定目标形象后，可以确定目标形象的标准姿势数据，以标准姿势数据为基准，对初始姿势数据进行重定向，以将初始姿势数据调整为目标形象下的姿势数据，即得到目标形象的目标姿势数据，以便进行姿势合成，得到目标形象的视频。

在本发明一实施例中，步骤104具体可以包括：确定标准姿势数据的姿势参数；根据姿势参数对初始姿势数据进行调整，得到目标姿势数据。

在实际应用中，可以根据标准姿态数据确定姿势参数，如目标任务的肩宽参数等，进而，在初始姿态数据中针对姿势参数进行调整，具体的，可以通过缩放初始姿势数据进行姿势调整，在姿势调整完成后，可以得到目标姿势数据。

步骤105，确定目标形象对应的用于基于姿势合成视频的第二模型，并将目标姿势数据输入第二模型中，生成目标形象的目标视频。

在确定目标形象后，还可以确定基于目标形象训练得到的第二模型，第二模型是基于目标形象的姿势进行视频合成的模型，在重定向生成目标姿势数据后，可以将目标姿势数据输入到第二模型中，第二模型可以将多帧目标姿势数据按照语音数据的顺序连接，并平滑处理后，得到目标形象的目标视频。

在本发明一实施例中，还包括：将目标视频和语音数据合并，生成目标音视频。

在实际应用中，在得到目标视频后，还可以进一步将视频与语音按照时序信息进行合并对齐，生成目标音视频，增加沉浸感和体验感。

在本发明实施例中，通过响应于语音输入操作，确定语音输入操作对应的语音数据，进而可以根据语音数据，从针对目标对象配置的多个预设形象中确定目标形象，进而获取基于语音提取姿势数据的第一模型，并通过第一模型确定语音数据的初始姿势数据，获取目标形象对应的标准姿势数据，并根据标准姿势数据对初始姿势数据进行重定向，得到目标姿势数据，从而可以确定目标形象对应的用于基于姿势合成视频的第二模型，并将目标姿势数据输入第二模型中，生成目标形象的目标视频，实现了基于语音数据生成包含目标对象姿势动作的目标视频，使生成的视频更形象生动，增加沉浸感和体验感。

参照图2，示出了本发明一实施例提供的另一种语音生成视频的方法的步骤流程图，具体可以包括如下步骤：

步骤201，响应于语音输入操作，确定语音输入操作对应的语音数据；

步骤202，根据语音数据，从针对目标对象配置的多个预设形象中确定目标形象；

步骤203，获取基于语音提取姿势数据的第一模型，确定语音数据对应的语义数据，并根据语音数据和语义数据，确定语音数据对应的初始姿势数据。

其中，第一模型为预先针对目标对象进行训练后得到的可以用于基于语音提取姿势数据的模型，针对第一模型输入的语音数据，可以得到目标对象的多个姿势数据，即初始姿势数据，具体的，在第一模型中可以结合语音数据以及语音数据对应的语义数据，确定初始姿态数据。

在获取第一模型后，可以将语音数据输入到第一模型中，在第一模型中可以确定语音数据对应的语义数据，进而可以在第一模型中结合语音数据和语义数据确定目标对象的初始姿态数据。

在实际应用中，语音与姿势的对应为一对多的，即同一音素可以对应不同的姿势，通过语音与语义结合确定姿势数据，可以生成有逻辑性的姿势动作。

步骤204，获取目标形象对应的标准姿势数据，并根据标准姿势数据对初始姿势数据进行重定向，得到目标姿势数据；

步骤205，确定目标形象对应的用于基于姿势合成视频的第二模型，并将目标姿势数据输入第二模型中，生成目标形象的目标视频。

在本发明实施例中，根据语音数据和语义数据在第一模型中确定初始姿势数据，可以得到更具逻辑性的初始姿态数据，使最终生成的视频更加连贯自然。

参照图3，示出了本发明一实施例提供的另一种语音生成视频的方法的步骤流程图，具体可以包括如下步骤：

步骤301，响应于语音输入操作，确定语音输入操作对应的语音数据；

步骤302，根据语音数据，从针对目标对象配置的多个预设形象中确定目标形象；

步骤303，获取基于语音提取姿势数据的第一模型，将语音数据输入第一模型，确定语音数据对应的语义数据；

步骤304，判断语义数据是否为目标语义数据，目标语义数据在第一模型中存在对应的第一姿势数据；

在确定语义数据后，可以判断语义数据是否为第一模型中预设的目标语义数据，目标语义数据在第一模型存在对应的第一姿势数据，其中，目标语义数据可以是“你好”、“再见”等具有明确含义的数据。

根据判定结果针对语音数据进行不同的处理，具体的，当判定语义数据为目标语义数据时，执行步骤305至步骤307；当判定语义数据不为目标语义数据时，执行步骤309至步骤310。

步骤305，在判定语义数据为目标语义数据时，确定目标语义数据的目标语义向量；

在语义数据为目标语义数据时，对目标语义数据进行编码，生成目标语义数据的目标语义向量。

步骤306，确定语音数据的第一语音向量；

在语义数据为目标语义数据时，可以针对语音数据进行编码，得到第一语音向量。

步骤307，根据目标语义向量、第一语音向量和第一姿势数据确定语音数据的初始姿势数据。

第一姿势数据可以是针对目标语义数据的姿势数据集，在确定目标语义向量和第一语音向量后，可以结合目标语义向量和第一语音向量在第一姿势数据中确定语音数据的初始姿势数据。

本发明实施例中，在预先建立目标语义数据与姿势数据的联系的情况下，结合语音、语义确定初始姿态数据可以避免语音与姿态一对一简单对应，使语音数据可以得到更富有逻辑，更多样化的姿势数据。

在本发明一实施例中，步骤307可以包括以下子步骤：

子步骤S21，将目标语义向量和第一语音向量进行拼接，生成第一拼接向量；

在实际应用中，可以将目标语义向量和第一语音向量进行拼接，得到第一拼接向量，第一拼接向量同时包含语义和语音的特征。

子步骤S22，根据第一拼接向量和第一姿势数据确定语音数据的初始姿势数据。

在得到第一拼接向量后，可以根据第一拼接向量在第一姿势数据中确定该段语音数据对应的初始姿势数据。

步骤308，在判定语义数据不为目标语义数据时，从第一模型中预设的多个模板向量中随机确定目标模板向量；目标模板向量在第一模型中存在对应的第二姿势数据；

在第一模型中的训练过程中，可以建立模板向量与姿势数据之间的关联关系，在语义数据不为目标语义数据时，则可以从预设的多个模板向量中随机选择目标模板向量，并确定目标向量对应的第二姿势数据。

步骤309，确定语音数据的第二语音向量；

步骤310，根据目标模板向量、第二语音向量以及第二姿势数据确定其他语音数据的初始姿势数据。

第二姿势数据可以是针对模板向量的姿势数据集，在确定目标模板向量和第二语音向量后，可以结合目标模板向量和第二语音向量在第二姿势数据中确定语音数据的初始姿势数据。

在本发明一实施例中，步骤310包括以下步骤：

子步骤S31，将目标模板向量和第二语音向量进行拼接，生成第二拼接向量；

在实际应用中，可以将目标模板向量和第二语音向量进行拼接，得到第二拼接向量，第二拼接向量同时包含语义和语音的特征。

子步骤S32，根据第二拼接向量和第二姿势数据确定目标语音数据的初始姿势数据。

在一示例中，针对语音数据中所有未定义的语义（即非目标语义数据），可以采用同一目标模板向量，或者在预设的时间段内采用同一目标模板向量，以确保姿势动作的连贯性，避免姿势动作过于跳跃。

步骤311，获取目标形象对应的标准姿势数据，并根据标准姿势数据对初始姿势数据进行重定向，得到目标姿势数据；

步骤312，确定目标形象对应的用于基于姿势合成视频的第二模型，并将目标姿势数据输入第二模型中，生成目标形象的目标视频。

在本发明实施例中，在第一模型中，可以基于语音和语义的结合确定初始姿态数据，进而重定向得到目标姿势数据，通过第二模型生成目标形象的目标视频，实现了从语音生成视频增加沉浸感和体验感，同时，根据语音、语义生成有逻辑性和自然丰富的姿势动作，使得最终生成的视频更自然连贯。

参照图4a，示出了本发明一实施例提供的一种语音生成姿势的模型训练方法的步骤流程图，具体可以包括如下步骤：

步骤401，获取预设的第一模型和针对第一模型进行训练的第一视频；第一模型用于基于目标对象的语音提取姿势数据；第一视频为目标对象随语音变换姿势的语音视频；

其中，第一模型可以是姿势检测模型，如openpose/alphapose等姿态检测模型，第一视频为针对目标对象的语音视频，且在第一视频中目标对象随语音可以变换姿势动作，第一视频用于训练第一模型，以使第一模型针对输入的语音数据可以输出对应的目标对象的初始姿势数据。

步骤402，确定第一视频中候选语音数据以及候选语音数据对应的候选语义数据；

步骤403，从第一视频的每帧图像中提取目标对象的候选姿势数据；

针对第一视频中的每帧图像，可以确定每帧图像中目标对象的关键点位置信息，进而可以由关键点构成目标对象的候选姿势数据。

步骤404，根据候选语音数据、候选语义数据和候选姿势数据对第一模型进行训练，以使第一模型针对输入的语音数据生成对应的姿势数据。

在基于第一视频得到候选语音数据、候选语义数据和候选姿势数据后，通过候选语音数据、候选语义数据和候选姿势数据对第一模型进行训练，调整第一模型的模型参数，进而以使第一模型在输入语音数据时，更准确地输出姿势数据，具体的，在训练过程中以候选语音数据、候选语义数据为输入的数据源，以候选姿势数据为第一模型需要达成的输出效果不断调整第一模型。

在本发明一实施例中，步骤404可以包括以下子步骤：

子步骤S41，确定第一模型中预设的目标语义数据；

在实际应用中，可以选择多个具有明确含义的文本作为目标语音数据，并在第一模型中配置目标语音数据，例如，在对第一模型进行训练时标定了第一视频中20个有明确文本含义的姿势及文本，如你好、再见等，以建立文本与姿势的关联关系。

子步骤S42，当候选语义数据为目标语义数据时，确定目标语义数据的目标语义向量和候选语音数据对应的语音向量；

在从第一视频提取出候选语义数据后，可以判断候选语义数据是否为预设的目标语义数据，在确定候选语义数据为目标语义数据时，将候选语义数据、候选语音数据分别进行编码。得到语义数据的目标语义向量和候选语音数据对应的语音向量，目标语义向量和语音向量可以用于更方便在第一模型中确定不同语音之间的逻辑关系。

子步骤S43，将目标语义向量和语音向量输入第一模型，生成第一预测姿势数据；

将目标语义向量和语音向量输入第一模型，可以初步得到语音数据的第一预测姿势数据。

子步骤S44，基于候选姿势数据和第一预测姿势数据对第一模型进行调整。

在得到第一预测姿势数据后，可以对比第一模型针对语音数据预测得到的第一预测姿势数据和语音数据实际的候选姿势数据，进而根据对比结果调整模型参数，以对第一模型进行优化，在优化模型后，可以重复执行步骤401至步骤404的模型训练过程，直到候选姿势数据和第一预测姿势数据的误差在预设误差范围内，第一模型的训练结束。

在本发明一实施例中，步骤404还可以包括以下子步骤：

子步骤51，当候选语义数据不为目标语义数据时，从第一模型中预设的多个模板向量中随机确定目标模板向量；

在第一模型中可以预设多个模板向量，在候选语义数据不为目标语义数据时，可以从多个模板向量中随机确定目标模板向量。

子步骤52，将目标模板向量和候选语音数据对应的语音向量输入第一模型，生成第二预测姿势数据；

将目标模板向量和语音向量输入第一模型后，可以初步得到语音数据的第二预测姿势数据。

子步骤53，基于候选姿势数据和第二预测姿势数据对第一模型进行调整。

在得到第二预测姿势数据后，可以对比第一模型针对语音数据预测得到的第二预测姿势数据和语音数据实际的候选姿势数据，进而根据对比结果调整模型参数，以对第一模型进行优化，在优化模型后，可以重复执行步骤401至步骤404的模型训练过程，直到候选姿势数据和第二预测姿势数据的误差在预设误差范围内，第一模型的训练结束。

如图4b所示，为第一模型的结构示意图：

第一模型可以由音频模块、梅尔频谱模块、音频编码模块、语音特征向量模块，文本/模板向量模块、DNN网络模块、姿势关键点模块构成。

在数据准备阶段，可以选取演讲者演讲的视频（如国内某知名UP主的演讲视频4小时）作为训练集，通过音频模块提取视频中的音频，并将视频中的文本识别出来，并标注对应的时间。

将音频输入梅尔频谱模块，将音频转化为梅尔频谱，并通过音频编码模块将梅尔频谱进行编码，得到语音特征向量。

用openpose获取每一帧中演讲者的关键点，在训练时标定第一视频中20个有明确文本含义的姿势及文本，如你好、再见等文本。

在训练过程中，针对标定的有明确意义的文本在1s的时间维度里，通文本/模板向量模块确定文本的向量，并将文本的向量与语音信号的向量结合送入DNN网络，根据输出的预测姿势对第一模型进行参数调整。

针对没有明确意义的文本，在预设时间维度（如4秒）里，可以使用同一个模板向量结合语音信号的编码向量送入DNN网络，根据输出的预测姿势对第一模型进行参数调整。

训练完成后，给定一段语音及其对应的文本，便可驱动第一模型生成对应的连续帧的初始姿态数据。

参照图5a，示出了本发明一实施例提供的一种姿势合成视频的模型训练方法的步骤流程图，具体可以包括如下步骤：

步骤501，针对目标对象录制基于目标形象变换姿势的第二视频；

其中，第二视频为目标对象在目标形象下录制的视频，在第二视频中可以包括目标对象的姿势变化。

为了生成个性化的视频，可以针对目标对象可以配置多个预设形象，针对每种预设形象均可以训练其对应的第二模型，以在第二模型中可以生成预设形象的视频，在本发明实施例中，以目标形象对应的第二模型的训练过程为例进行说明，其他预设形象对应的第二模型的训练过程可参考本实施例进行适应性调整。

步骤502，获取预设的用于基于姿势合成视频的第二模型；

其中，第二模型可以基于输入的姿势数据，输出基于姿势合成的视频，例如，Pose2video模型。

步骤503，将第二视频输入到第二模型中，以从第二视频的每帧图像中提取目标对象对应的第三预测姿势数据，并基于第三预测姿势数据生成预测视频；

将录制的第二视频输入到第二模型中，在第二模型中，可以针对第二视频的每一帧检测关键点，以提取目标对象对应的第三预测姿势数据，进而将多帧图像提取到的第三预测姿势数据进行拼接，基于第二视频中的模型参数生成预测视频。

步骤504，基于第二视频和预测视频调整第二模型。

在生成预测视频后，可以对比预测视频与第二视频，并进一步在第一模型中判断预测视频、第二视频是否是真实的视频，以调整第二模型的模型参数，在调整第二模型的模型参数后，继续基于调整后的模型进行训练，直到生成的预测视频与第二视频的误差在预设的误差范围内时，结束模型训练。

在本发明一实施例中，步骤504可以包括：确定第二模型的第一损失函数；基于第二视频和预测视频，确定第一损失函数的第一损失值；根据第一损失值调整第二模型的模型参数。

在实际应用中，可以在第二模型中设置一第一损失函数，用于反馈模型训练的结果，并调整第二模型的模型参数。

第一损失函数可以设置为第二模型输出值、真实视频以及第二模型的模型参数三者之间关联的函数，在得到预测视频后，可以根据预测视频和第二视频得到第一损失函数的第一损失值，进而基于第一损失值对第二模型的模型参数进行调整。

在本发明一实施例，还包括：在目标形象的第二模型训练完成后，基于第三预测姿势数据生成目标形象的标准姿势数据。

在实际应用中，还可以在第三预测姿势数据中确定目标形象的标准姿势数据，例如，将人物形象处于站立姿势时的第三预测姿势数据作为标准姿势数据。

如图5b所示，为第二模型的结构示意图：

第二模型为一个复合模型，在生成预设数字人形象的第二视频后，将第二视频的视频图像帧输入到第二模型，通过姿态检测模型（P），逐帧检测得到姿态关键点，在将姿态关键点作为输入，使用生成对抗网络中的生成网络（G）由姿态关键点得到不同姿态对应的数字人形象（即预测视频），将得到的数字人形象（即预测视频）与真实的数字人形象（即第二视频）输入生成对抗网络中的对抗网络（D）做判别，判断视频是合成还是真实，根据判断结果求取第一损失函数的loss值，loss值反传求取梯度可以更新模型的参数。

参照图6a，示出了本发明一实施例提供的一种第三模型的训练方法的步骤流程图，具体可以包括如下步骤：

步骤601，获取用于训练第三模型的不同形象属性的音频数据以及音频数据对应的目标形象属性信息；

其中，形象属性信息可以包括年龄信息、性别信息中任意一项或多项。第三模型针对音频进行训练的模型，通过输入音频数据，可以输出该音频数据匹配的形象属性信息。

获取用于训练第三模型的音频数据，并对音频数据设置其对应的标签，每个标签用于表示该音频数据对应的形象属性。

步骤602，将音频数据输入第三模型，基于音频数据的音频特征数据，输出音频数据的预测形象属性信息；

将用于训练的音频数据输入第三模型，第三模型可以通过提取音频数据的音频特征数据，进而可以确定该音频特征对应的形象属性，即预测形象属性信息。

步骤603，基于目标形象属性信息和预测形象属性信息对第三模型进行调整。

在第三模型输出预测得到的音频数据的形象属性后，可以将根据音频本身的标签和基于第三模型预测的形象属性进行对比，从而对第三模型的模型参数进行调整，进而针对调整后的第三模型继续执行步骤601-603的模型训练过程，使第三模型输出的形象属性与音频数据实际的标签所匹配。

在本发明一实施例中，步骤603具体可以包括：确定第三模型的第二损失函数；基于目标形象属性信息和预测形象属性信息，确定第二损失函数的第二损失值；基于第一损失值调整第三模型的模型参数。

在实际应用中，可以在第三模型中建立一第二损失函数，用于反馈模型训练的结果，并调整第三模型的模型参数。

第二损失函数可以设置为第三模型输出值、音频数据的形象属性信息以及第三模型的模型参数三者之间关联的函数，在得到预测形象属性信息后，可以根据预测形象属性信息和目标形象属性信息得到第二损失函数的第二损失值，进而基于第一损失值对第三模型的模型参数进行调整。

如图6b所示，为第三模型的一种结构示意图。在获取音频数据后，基于音频数据得到声谱图，通过DNN深度学习网络确定声谱图的音频特征，进而通过音频特征回归说话者的年龄与性别（Pred），并与真实（GT）的说话者年龄与性别求loss（第二损失值），loss值反传求取梯度可以更新模型的参数。

以下结合图7对本发明上述实施例进行示例性说明：

如图7为本发明一音频合成视频的流程图，其中，涉及Co-speech ID模型（即第三模型）、Co-speech gesture 模型（第一模型）、pose2video模型（第二模型）。

在实际应用中，为了基于语音生成个性化的视频，可以针对Co-speech ID模型（即第三模型）、Co-speech gesture （第一模型）、pose2video（第二模型）分别进行训练。

其中，可以基于年龄划分为0-15（小孩）15-30（青年）30-45（中年）45+（老年），性别划分为男女，组合得到8种人物形象。

Co-speech ID模型的训练数据为不同年龄段人群声音以及对应的标签，训练完毕后，输入5-10秒音频信号可以得到其年龄、性别两个标签。

Co-speech gesture 模型的训练数据是演讲者演讲的视频，在训练完成，针对输入的音频，可以根据语音、语义生成多样性有逻辑性的姿势动作。

pose2video模型可以根据Co-speech ID模型的标签数量，选择8个对应的数字人形象，每一个录制30-50s运动视频进行训练。在训练结束后，针对特定形象的姿势数据合成视频。

在三个模型训练完成后，在实际应用过程中，输入一段语音信号，截取5s音频数据，送入Co-speech ID网络得到语音对应的年龄和性别，并根据年龄、性别选择对应的pose2video网络，以及网络所对应标准姿势。

进而，将语音信号和对应的文本信息输入co-speech gesture网络，得到每一帧的25个关键点，将关键点与标准姿势进行重定向，在重定向过程中可以将co-speech gesture网络生成的姿势通过肩宽数据按比例缩放到标准姿势的形状。在重定向完成后，将重定向后的所有姿势帧，逐帧输入到pose2video模型中，即可得到对应对象的视频。将语音信息合成到视频中即可完成音视频的合成显示。

需要说明的是，对于方法实施例，为了简单描述，故将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图8，示出了本发明一实施例提供的一种语音生成视频的装置的结构示意图，具体可以包括如下模块：

语音输入模块801，用于响应于语音输入操作，确定所述语音输入操作对应的语音数据；

目标形象确定模块802，用于根据所述语音数据，从针对目标对象配置的多个预设形象中确定目标形象；

初始姿态确定模块803，用于获取基于语音提取姿势数据的第一模型，并通过所述第一模型确定所述语音数据的初始姿势数据；

姿势重定向模块804，用于获取所述目标形象对应的标准姿势数据，并根据所述标准姿势数据对所述初始姿势数据进行重定向，得到目标姿势数据；

目标视频生成模块805，用于确定所述目标形象对应的用于基于姿势合成视频的第二模型，并将所述目标姿势数据输入所述第二模型中，生成所述目标形象的目标视频。

在本发明一实施例中，所述初始姿态确定模块803可以包括：

语义数据生成子模块，用于确定所述语音数据对应的语义数据；

初始姿态数据生成子模块，用于根据所述语音数据和所述语义数据，确定所述语音数据对应的初始姿势数据。

在本发明一实施例中，所述初始姿态数据生成子模块可以包括：

语义判断单元，用于判断所述语义数据是否为目标语义数据，所述目标语义数据在所述第一模型中存在对应的第一姿势数据；

目标语义向量确定单元，用于在判定所述语义数据为目标语义数据时，确定所述目标语义数据的目标语义向量；

第一语音向量确定单元，用于确定所述语音数据的第一语音向量；

第一初始姿势确定单元，用于根据所述目标语义向量、所述第一语音向量和所述第一姿势数据确定所述目标语音数据的初始姿势数据。

在本发明一实施例中，所述第一初始姿势确定单元包括：

第一向量拼接子单元，用于将所述目标模板向量和所述第一语音向量进行拼接，生成第一拼接向量；

第一初始姿态生成子单元，用于根据所述第一拼接向量和所述第一姿势数据确定所述目标语音数据的初始姿势数据。

在本发明一实施例中，所述初始姿态数据生成子模块还可以包括：

目标模板向量确定单元，用于在判定所述语义数据不为目标语义数据时，从所述第一模型中预设的多个模板向量中随机确定目标模板向量；所述目标模板向量在所述第一模型中存在对应的第二姿势数据；

第二语音向量确定单元，用于确定所述语音数据的第二语音向量；

第二初始姿势确定单元，用于根据所述目标模板向量、所述第二语音向量以及所述第二姿势数据确定所述语音数据的初始姿势数据。

在本发明一实施例中，第二初始姿势确定单元可以包括：

第二向量拼接子单元，用于将所述目标模板向量和所述第二语音向量进行拼接，生成第二拼接向量；

第二初始姿态生成子单元，用于根据所述第二拼接向量和所述第二姿势数据确定所述语音数据的初始姿势数据。

在本发明一实施例中，所述姿势重定向模块804可以包括：

姿势参数确定子模块，用于确定所述标准姿势数据的姿势参数；

目标姿势数据确定子模块，用于根据所述姿势参数对所述初始姿势数据进行调整，得到目标姿势数据。

在本发明一实施例中，所述目标形象确定模块802可以包括：

第三模型确定子模块，用于获取预先训练的用于筛选形象的第三模型；

形象属性信息确定子模块，用于将所述语音数据输入所述第三模型，确定所述语音数据的音频特征数据，并根据所述音频特征数据确定所述语音数据对应的形象属性信息；

目标形象确定子模块，用于基于所述形象属性信息从针对目标对象配置的多个预设形象中确定目标形象。

在本发明一实施例中，所述装置还包括：

第一视频获取模块，用于获取预设的第一模型和针对所述第一模型进行训练的第一视频；所述第一视频为目标对象随语音变换姿势的语音视频；

在本发明一实施例中，所述第一模型调整模块包括：

目标语义确定子模块，用于确定所述第一模型中预设的目标语义数据；

语音向量确定子模块，用于当所述候选语义数据为所述目标语义数据时，确定所述目标语义数据的目标语义向量和所述候选语音数据对应的语音向量；

第一预测姿势数据生成子模块，用于将所述目标语义向量和所述语音向量输入所述第一模型，生成第一预测姿势数据；

第一模型调整子模块，用于基于所述候选姿势数据和所述第一预测姿势数据对所述第一模型进行调整。

在本发明一实施例中，所述第一模型调整模块还可以包括：

目标模板向量确定子模块，用于当所述候选语义数据不为所述目标语义数据时，从所述第一模型中预设的多个模板向量中随机确定目标模板向量；

第二预测姿势数据生成子模块，用于将所述目标模板向量和所述候选语音数据对应的语音向量输入所述第一模型，生成第二预测姿势数据；

第一模型调整子模块，基于所述候选姿势数据和所述第二预测姿势数据对所述第一模型进行调整。

在本发明一实施例中，所述装置还包括：

第二视频获取模块，用于针对所述目标对象录制基于目标形象变换姿势的第二视频；

第二模型获取模块，用于获取预设的用于基于姿势合成视频的第二模型；

第二模型调整模块，用于基于所述第二视频和所述预测视频调整所述第二模型。

在本发明一实施例中，所述第二模型调整模块可以包括：

第一损失函数确定子模块，用于确定所述第二模型的第一损失函数；

第一损失值确定子模块，用于基于所述第二视频和所述预测视频，确定所述第一损失函数的第一损失值；

第二模型参数调整子模块，用于根据所述第一损失值调整所述第二模型的模型参数。

在本发明一实施例中，所述装置还包括：

标准姿势数据生成模块，用于在所述目标形象的第二模型训练完成后，基于所述第三预测姿势数据生成所述目标形象的标准姿势数据。

在本发明一实施例中，所述装置还包括：

训练音频获取模块，用于获取用于训练所述第三模型的不同形象属性的音频数据以及所述音频数据对应的目标形象属性信息；

预测形象属性信息输出模块，用于将所述音频数据输入第三模型，基于所述音频数据的音频特征数据，输出所述音频数据的预测形象属性信息；

第三模型调整模块，用于基于所述目标形象属性信息和所述预测形象属性信息对所述第三模型进行调整。

在本发明一实施例中，所述第三模型调整模块可以包括：

第二损失函数确定子模块，用于确定所述第三模型的第二损失函数；

第二损失值确定子模块，用于基于所述目标形象属性信息和所述预测形象属性信息，确定所述第二损失函数的第二损失值；

第三模型参数调整子模块，用于基于所述第一损失值调整所述第三模型的模型参数。

在本发明一实施例中，所述装置还包括：

目标音视频合成单元，用于将所述目标视频和所述语音数据合并，生成目标音视频。

参照图9，示出了本发明一实施例提供的一种语音生成视频的模型训练装置的结构示意图，具体可以包括如下模块：

第一视频获取模块901，用于获取预设的第一模型和针对所述第一模型进行训练的第一视频；所述第一模型用于基于目标对象的语音提取姿势数据；所述第一视频为目标对象随语音变换姿势的语音视频；

候选语音语义确定模块902，用于确定所述第一视频中候选语音数据以及所述候选语音数据对应的候选语义数据；

候选姿态确定模块903，用于从所述第一视频的每帧图像中提取所述目标对象的候选姿势数据；

第一模型调整模块904，用于根据所述候选语音数据、所述候选语义数据和所述候选姿势数据对所述第一模型进行训练，以使所述第一模型针对输入的语音数据生成对应的姿势数据。

在本发明一实施例中，所述第一模型调整模块904包括：

在本发明一实施例中，所述第一模型调整模块904还可以包括：

参照图10，示出了本发明一实施例提供的一种姿势合成视频的模型训练装置的结构示意图，具体可以包括如下模块：

第二视频录制模块1011，用于针对所述目标对象录制基于目标形象变换姿势的第二视频；

第二模型获取模块1012，用于获取预设的用于基于姿势合成视频的第二模型；

预测视频获取模块1013，用于将所述第二视频输入到第二模型中，以从所述第二视频的每帧图像中提取所述目标对象对应的第三预测姿势数据，并基于所述第三预测姿势数据生成预测视频；

第二模型调整模块1014，用于基于所述第二视频和所述预测视频调整所述第二模型。

在本发明一实施例中，所述第二模型调整模块1014可以包括：

在本发明一实施例中，所述装置还包括：

本发明一实施例还提供了一种服务器，可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上语音生成视频的方法。

本发明一实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上语音生成视频的方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对所提供的一种语音生成视频的方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音生成视频的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述第一模型确定所述语音数据的初始姿势数据，包括：

确定所述语音数据对应的语义数据；

根据所述语音数据和所述语义数据，确定所述语音数据对应的初始姿势数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音数据和所述语义数据，确定所述语音数据对应的初始姿势数据，包括：

判断所述语义数据是否为目标语义数据，所述目标语义数据在所述第一模型中存在对应的第一姿势数据；

在判定所述语义数据为目标语义数据时，确定所述目标语义数据的目标语义向量；

确定所述语音数据的第一语音向量；

根据所述目标语义向量、所述第一语音向量和所述第一姿势数据确定所述目标语音数据的初始姿势数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标语义向量、所述第一语音向量和所述第一姿势数据确定所述语音数据的初始姿势数据，包括：

将所述目标语义向量和所述第一语音向量进行拼接，生成第一拼接向量；

根据所述第一拼接向量和所述第一姿势数据确定所述目标语音数据的初始姿势数据。

5.根据权利要求3所述的方法，其特征在于，还包括：

在判定所述语义数据不为目标语义数据时，从所述第一模型预设的多个模板向量中随机确定目标模板向量；所述目标模板向量在所述第一模型中存在对应的第二姿势数据；

确定所述语音数据的第二语音向量；

根据所述目标模板向量、所述第二语音向量以及所述第二姿势数据确定所述语音数据的初始姿势数据。

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标模板向量、所述第二语音向量以及所述第二姿势数据确定所述语音数据的初始姿势数据，包括：

将所述目标模板向量和所述第二语音向量进行拼接，生成第二拼接向量；

根据所述第二拼接向量和所述第二姿势数据确定所述语音数据的初始姿势数据。

7.根据权利要求1所述的方法，其特征在于，所述根据所述标准姿势数据对所述初始姿势数据进行重定向，得到目标姿势数据，包括：

确定所述标准姿势数据的姿势参数；

根据所述姿势参数对所述初始姿势数据进行调整，得到目标姿势数据。

8.根据权利要求1所述的方法，其特征在于，所述根据所述语音数据，从针对目标对象配置的多个预设形象中确定目标形象，包括：

获取预先训练的用于筛选形象的第三模型；

将所述语音数据输入所述第三模型，确定所述语音数据的音频特征数据，并根据所述音频特征数据确定所述语音数据对应的形象属性信息；

基于所述形象属性信息从针对目标对象配置的多个预设形象中确定目标形象。

9.根据权利要求1所述的方法，其特征在于，所述第一模型通过如下步骤训练生成：

获取预设的第一模型和针对所述第一模型进行训练的第一视频；所述第一视频为所述目标对象随语音变换姿势的语音视频；

10.根据权利要求9所述的方法，其特征在于，所述根据所述候选语音数据、所述候选语义数据和所述候选姿势数据对所述第一模型进行训练，包括：

确定所述第一模型中预设的目标语义数据；

当所述候选语义数据为所述目标语义数据时，确定所述目标语义数据的目标语义向量和所述候选语音数据对应的语音向量；

将所述目标语义向量和所述语音向量输入所述第一模型，生成第一预测姿势数据；

基于所述候选姿势数据和所述第一预测姿势数据对所述第一模型进行调整。

11.根据权利要求10所述的方法，其特征在于，还包括：

当所述候选语义数据不为所述目标语义数据时，从所述第一模型预设的多个模板向量中随机确定目标模板向量；

将所述目标模板向量和所述候选语音数据对应的语音向量输入所述第一模型，生成第二预测姿势数据；

基于所述候选姿势数据和所述第二预测姿势数据对所述第一模型进行调整。

12.根据权利要求1所述的方法，其特征在于，所述目标形象的第二模型通过如下步骤训练生成：

针对所述目标对象录制基于目标形象变换姿势的第二视频；

获取预设的用于基于姿势合成视频的第二模型；

基于所述第二视频和所述预测视频调整所述第二模型。

13.根据权利要求12所述的方法，其特征在于，所述基于所述第二视频和所述预测视频调整所述第二模型，包括：

确定所述第二模型的第一损失函数；

基于所述第二视频和所述预测视频，确定所述第一损失函数的第一损失值；

根据所述第一损失值调整所述第二模型的模型参数。

14.根据权利要求12所述的方法，其特征在于，还包括：

在所述目标形象的第二模型训练完成后，基于所述第三预测姿势数据生成所述目标形象的标准姿势数据。

15.根据权利要求8所述的方法，其特征在于，所述第三模型通过如下步骤训练生成：

获取用于训练所述第三模型的不同形象属性的音频数据以及所述音频数据对应的目标形象属性信息；

将所述音频数据输入第三模型，基于所述音频数据的音频特征数据，输出所述音频数据的预测形象属性信息；

基于所述目标形象属性信息和所述预测形象属性信息对所述第三模型进行调整。

16.根据权利要求15所述的方法，其特征在于，所述基于所述目标形象属性信息和所述预测形象属性信息对所述第三模型进行调整，包括：

确定所述第三模型的第二损失函数；

基于所述目标形象属性信息和所述预测形象属性信息，确定所述第二损失函数的第二损失值；

基于所述第二损失值调整所述第三模型的模型参数。

17.根据权利要求1所述的方法，其特征在于，还包括：

将所述目标视频和所述语音数据合并，生成目标音视频。

18.一种语音生成姿势的模型训练方法，其特征在于，所述方法包括：

19.根据权利要求18所述的方法，其特征在于，所述根据所述候选语音数据、所述候选语义数据和所述候选姿势数据对所述第一模型进行训练，包括：

确定所述第一模型中预设的目标语义数据；

20.根据权利要求19所述的方法，其特征在于，还包括：

当所述候选语义数据不为所述目标语义数据时，从所述第一模型中预设的多个模板向量中随机确定目标模板向量；

21.一种姿势合成视频的模型训练方法，其特征在于，所述方法包括：

针对目标对象录制基于目标形象变换姿势的第二视频；

获取预设的用于基于姿势合成视频的第二模型；

基于所述第二视频和所述预测视频调整所述第二模型。

22.根据权利要求21所述的方法，其特征在于，所述基于所述第二视频和所述预测视频调整所述第二模型，包括：

确定所述第二模型的第一损失函数；

根据所述第一损失值调整所述第二模型的模型参数。

23.根据权利要求21所述的方法，其特征在于，还包括：

24.一种语音生成视频的装置，其特征在于，所述装置包括：

25.一种语音生成姿势的模型训练装置，其特征在于，所述装置包括：

26.一种姿势合成视频的模型训练装置，其特征在于，所述装置包括：

27.一种服务器，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至17中任一项所述语音生成视频的方法。

28.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至17中任一项所述语音生成视频的方法。