CN116597054A

CN116597054A - 视频生成方法及装置

Info

Publication number: CN116597054A
Application number: CN202310599887.XA
Authority: CN
Inventors: 周海强; 毛王珍
Original assignee: Wireless Life Hangzhou Information Technology Co ltd
Current assignee: Wireless Life Hangzhou Information Technology Co ltd
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-15

Abstract

本公开是关于视频生成方法及装置。该方法包括：接收棉花娃娃信息，棉花娃娃信息包括：棉花娃娃图像和棉花娃娃特征数据；将棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型；接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片，参考图片用于提取待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征；根据棉花娃娃模型、特征文案描述信息和参考图片生成符合特征文案描述信息以及指定动作特征的目标棉花娃娃图像；根据目标棉花娃娃图像生成目标棉花娃娃视频。其中，通过扩散模型生成棉花娃娃图像，能够保证生成的图像质量和真实感可以自动生成棉花娃娃视频，并且无需拍摄设备和场地租赁，从而可以降低棉花娃娃视频的制作成本。

Description

视频生成方法及装置

技术领域

本公开涉及图像技术领域，尤其涉及视频生成方法及装置。

背景技术

目前，在生成棉花娃娃视频时，需要执行以下步骤：

(1)准备好专业摄像机或智能手机等设备。

(2)创建故事板或剧本，规划和组织拍摄过程所需的镜头和场景。

(3)找适合拍摄的场地。

(4)摆放和定位棉花娃娃，开始拍摄。

(5)录制视频，确保捕捉到所有必要的镜头和动作。

(6)拍摄完毕后，将视频导入计算机并使用视频编辑软件进行剪辑和处理。

(7)最后导出视频。

但该种方案，存在以下缺点：

(1)设备成本：如果想拍摄高质量的视频，需要使用专业摄影设备或智能手机等设备。这些设备的价格较高，会增加制作成本。

(2)场地成本：选择适合拍摄的场地也会产生成本。特别是在需要租赁或购买场地的情况下，成本更高。

(3)技能要求：将实体的棉花娃娃制作成视频需要一定的拍摄技能、编辑技能。

(4)时间成本：拍摄和编辑一个高质量的视频需要大量的时间和精力投入。

因此，如何在保证棉花娃娃视频质量的前提下降低棉花娃娃视频的制作成本成为亟待解决的问题。

发明内容

为克服相关技术中存在的问题，本公开实施例提供视频生成方法及装置。所述技术方案如下：

根据本公开实施例的第一方面，提供一种视频生成方法，包括：

接收棉花娃娃信息，所述棉花娃娃信息包括：棉花娃娃图像和棉花娃娃特征数据，所述棉花娃娃特征数据包括但不限于以下信息中的至少一项：身体部位、姿态和表情；

将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型；

接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片，所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征；

根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像；

根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

本公开该实施例提供一种视频生成方法，包括：接收棉花娃娃信息，棉花娃娃信息包括：棉花娃娃图像和棉花娃娃特征数据，棉花娃娃特征数据包括但不限于以下信息中的至少一项：身体部位、姿态和表情；将棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型；接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片，参考图片用于提取待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征；根据棉花娃娃模型、特征文案描述信息和参考图片生成符合特征文案描述信息以及指定动作特征的目标棉花娃娃图像；根据目标棉花娃娃图像生成目标棉花娃娃视频。其中，通过扩散模型生成棉花娃娃图像，能够保证生成的图像质量和真实感可以自动生成棉花娃娃视频，并且无需拍摄设备和场地租赁，从而可以在保证棉花娃娃视频质量的前提下降低棉花娃娃视频的制作成本。

在一个实施例中，所述根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频，包括：

根据gen-2算法和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

在一个实施例中，所述根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像，包括：

通过所述棉花娃娃模型将所述特征文案描述信息解析成目标数字信号；

通过ControlNet模型从所述参考图片中提取所述指定动作特征；

通过所述棉花娃娃模型、所述ControlNet模型、所述目标数字信号和所述指定动作特征共同生成所述目标棉花娃娃图像。

在一个实施例中，所述通过ControlNet模型从所述参考图片中提取所述指定动作特征，包括：

通过ControlNet模型的openpose算法从所述参考图片中提取所述指定动作特征。

在一个实施例中，所述将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型，包括：

将所述棉花娃娃信息转换为样本数字信号；

将所述样本数字信号输入所述扩散模型以训练得到所述棉花娃娃模型。

接收视频数据信息，所述视频数据信息包括：视频格式，和/或，视频分辨率；

根据所述视频数据信息和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

根据本公开实施例的第二方面，提供一种视频生成装置，包括：

第一接收模块，用于接收棉花娃娃信息，所述棉花娃娃信息包括：棉花娃娃图像和棉花娃娃特征数据，所述棉花娃娃特征数据包括但不限于以下信息中的至少一项：身体部位、姿态和表情；

训练模型，用于将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型；

第二接收模块，用于接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片，所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征；

第一生成模块，用于根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像；

第二生成模块，用于根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

在一个实施例中，所述第二生成模块，包括：

第一生成子模块，用于根据gen-2算法和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

在一个实施例中，所述第一生成模块，包括：

解析子模块，用于通过所述棉花娃娃模型将所述特征文案描述信息解析成目标数字信号；

提取子模块，用于通过ControlNet模型从所述参考图片中提取所述指定动作特征；

第二生成子模块，用于通过所述棉花娃娃模型、所述ControlNet模型、所述目标数字信号和所述指定动作特征共同生成所述目标棉花娃娃图像。

在一个实施例中，所述第二生成子模块，包括：

生成子单元，用于通过ControlNet模型的openpose算法从所述参考图片中提取所述指定动作特征。

在一个实施例中，所述训练模型，包括：

转换子模块，用于将所述棉花娃娃信息转换为样本数字信号；

训练子模型，用于将所述样本数字信号输入所述扩散模型以训练得到所述棉花娃娃模型。

在一个实施例中，所述第二生成模块，包括：

接收子模块，用于接收视频数据信息，所述视频数据信息包括：视频格式，和/或，视频分辨率；

第三生成子模块，用于根据所述视频数据信息和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

根据本公开实施例的第三方面，提供一种视频生成装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现第一方面中任一项所述方法的步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的视频生成方法的流程图。

图2是根据一示例性实施例示出的视频生成装置的框图。

图3是根据一示例性实施例示出的一种用于视频生成的装置20的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的视频生成方法的流程图，如图1所示，该方法包括以下步骤S101-S105：

在步骤S101中，接收棉花娃娃信息，棉花娃娃信息包括：棉花娃娃图像和棉花娃娃特征数据，棉花娃娃特征数据包括但不限于以下信息中的至少一项：身体部位、姿态和表情；

这些棉花娃娃信息可以为用户提前准备好的。

在步骤S102中，将棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型；

具体的，可以将棉花娃娃信息转换为样本数字信号；然后将样本数字信号输入扩散模型以训练得到棉花娃娃模型。

其中，扩散模型可以包括Diffusion模型。

这里也可以理解为：将样本数字信号输入Diffusion模型训练产出自有Diffusion模型，此时的自有Diffusion模型即为上述的棉花娃娃模型。

其中，利用Diffusion模型生成棉花娃娃图像，能够保证生成的图像质量和真实感。

在步骤S103中，接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片，参考图片用于提取待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征；

在该步骤中，用户可以提供希望阐述的目标棉花娃娃视频的特征文案描述信息。

在步骤S104中，根据棉花娃娃模型、特征文案描述信息和参考图片生成符合特征文案描述信息以及指定动作特征的目标棉花娃娃图像；

上述步骤104包括以下子步骤A1-A3：

A1、通过棉花娃娃模型将特征文案描述信息解析成目标数字信号；

A2、通过ControlNet模型从参考图片中提取指定动作特征；

具体的，可以通过ControlNet模型的openpose算法从参考图片中提取指定动作特征。

A3、通过棉花娃娃模型、ControlNet模型、目标数字信号和指定动作特征共同生成目标棉花娃娃图像。

其中，使用ControlNet技术控制棉花娃娃的动作，可以使棉花娃娃更加灵活和具有交互性。

在步骤S105中，根据目标棉花娃娃图像生成目标棉花娃娃视频。

具体的，可以根据gen-2算法和目标棉花娃娃图像生成目标棉花娃娃视频。

其中，使用gen-2算法生成视频，能够将生成的图像序列转化为高质量的视频。

在一种可实现方式中，根据目标棉花娃娃图像生成目标棉花娃娃视频可以包括以下子步骤B1-B2：

B1、接收视频数据信息，所述视频数据信息包括：视频格式，和/或，视频分辨率；

B2、根据所述视频数据信息和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

本公开还可以生成不同格式和分辨率的视频，提升了视频的多样性。

以下详细介绍本公开中的方法。

本公开使用Diffusion模型生成棉花娃娃图像，并通过ControlNet技术控制棉花娃娃的动作，最终使用gen-2算法生成棉花娃娃视频，具体的：

1.预处理：准备大量棉花娃娃图像和棉花娃娃特征数据，包括棉花娃娃的身体部位、姿态、表情等信息。将这些信息转化为样本数字信号，以便于输入Diffusion模型训练产出自有Diffusion模型。

2.Diffusion模型结合ControlNet的openpose算法：选中预处理中训练产出的自有Diffusion模型，提供希望产出的目标棉花娃娃视频的特征文案描述信息，并提供一张参考图片供ControlNet的openpose算法提取目标棉花娃娃的指定动作特征。Diffusion模型使用多模态将特征文案描述信息解析成目标数字信号，并结合ControlNet的openpose算法提取目标棉花娃娃的动作数据，最终两种算法共同生成一个符合特征文案描述信息以及指定动作的高质量的目标棉花娃娃图像。

3.gen-2算法：使用gen-2算法将生成的目标棉花娃娃图像转化为视频，得到最终的目标棉花娃娃视频。

还可以选择输出不同格式和分辨率的视频。

基于人工智能技术，可以提高视频生成的效率和精度，大幅度降低制作成本(拍摄设备成本、场地租赁成本)、时间成本和人力资源的消耗。

本公开可以应用于多个领域，例如动画制作、广告宣传、儿童玩具等等。通过实验和测试，本发明可以实现高质量、高效率的棉花娃娃视频生成，同时具有较低的制作成本和人力资源的消耗。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图2是根据一示例性实施例示出的一种视频生成装置的框图，如图2所示，该视频生成装置包括：

第一接收模块11，用于接收棉花娃娃信息，所述棉花娃娃信息包括：棉花娃娃图像和棉花娃娃特征数据，所述棉花娃娃特征数据包括但不限于以下信息中的至少一项：身体部位、姿态和表情；

训练模型12，用于将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型；

第二接收模块13，用于接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片，所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征；

第一生成模块14，用于根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像；

第二生成模块15，用于根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

在一个实施例中，所述第二生成模块15，包括：

在一个实施例中，所述第一生成模块14，包括：

在一个实施例中，所述第二生成子模块，包括：

在一个实施例中，所述训练模型12，包括：

在一个实施例中，所述第二生成模块15，包括：

本公开还提供一种视频生成装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

上述处理器还可被配置为：

通过ControlNet模型从所述参考图片中提取所述指定动作特征；

将所述棉花娃娃信息转换为样本数字信号；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种用于视频生成的装置20的框图。例如，装置20可以被提供为一服务器。装置20包括处理组件202，其进一步包括一个或多个处理器，以及由存储器203所代表的存储器资源，用于存储可由处理组件202的执行的指令，例如应用程序。存储器203中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件202被配置为执行指令，以执行上述方法。

装置20还可以包括一个电源组件206被配置为执行装置20的电源管理，一个有线或无线网络接口205被配置为将装置20连接到网络，和一个输入输出(I/O)接口208。装置20可以操作基于存储在存储器203的操作***，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置20的处理器执行时，使得装置20能够执行上述的视频生成方法，所述方法包括：

根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

通过ControlNet模型从所述参考图片中提取所述指定动作特征；

将所述棉花娃娃信息转换为样本数字信号；

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频生成方法，其特征在于，包括：

根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

2.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频，包括：

3.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像，包括：

通过ControlNet模型从所述参考图片中提取所述指定动作特征；

4.根据权利要求3所述的视频生成方法，其特征在于，所述通过ControlNet模型从所述参考图片中提取所述指定动作特征，包括：

5.根据权利要求1所述的视频生成方法，其特征在于，所述将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型，包括：

将所述棉花娃娃信息转换为样本数字信号；

6.根据权利要求1所述的视频生成方法，其特征在于，所述根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频，包括：

7.一种视频生成装置，其特征在于，包括：

8.根据权利要求7所述的视频生成装置，其特征在于，所述第二生成模块，包括：

9.一种视频生成装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。