CN116597054A - 视频生成方法及装置 - Google Patents

视频生成方法及装置 Download PDF

Info

Publication number
CN116597054A
CN116597054A CN202310599887.XA CN202310599887A CN116597054A CN 116597054 A CN116597054 A CN 116597054A CN 202310599887 A CN202310599887 A CN 202310599887A CN 116597054 A CN116597054 A CN 116597054A
Authority
CN
China
Prior art keywords
doll
cotton
cotton doll
video
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310599887.XA
Other languages
English (en)
Inventor
周海强
毛王珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wireless Life Hangzhou Information Technology Co ltd
Original Assignee
Wireless Life Hangzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wireless Life Hangzhou Information Technology Co ltd filed Critical Wireless Life Hangzhou Information Technology Co ltd
Priority to CN202310599887.XA priority Critical patent/CN116597054A/zh
Publication of CN116597054A publication Critical patent/CN116597054A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本公开是关于视频生成方法及装置。该方法包括:接收棉花娃娃信息,棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据;将棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,参考图片用于提取待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;根据棉花娃娃模型、特征文案描述信息和参考图片生成符合特征文案描述信息以及指定动作特征的目标棉花娃娃图像;根据目标棉花娃娃图像生成目标棉花娃娃视频。其中,通过扩散模型生成棉花娃娃图像,能够保证生成的图像质量和真实感可以自动生成棉花娃娃视频,并且无需拍摄设备和场地租赁,从而可以降低棉花娃娃视频的制作成本。

Description

视频生成方法及装置
技术领域
本公开涉及图像技术领域,尤其涉及视频生成方法及装置。
背景技术
目前,在生成棉花娃娃视频时,需要执行以下步骤:
(1)准备好专业摄像机或智能手机等设备。
(2)创建故事板或剧本,规划和组织拍摄过程所需的镜头和场景。
(3)找适合拍摄的场地。
(4)摆放和定位棉花娃娃,开始拍摄。
(5)录制视频,确保捕捉到所有必要的镜头和动作。
(6)拍摄完毕后,将视频导入计算机并使用视频编辑软件进行剪辑和处理。
(7)最后导出视频。
但该种方案,存在以下缺点:
(1)设备成本:如果想拍摄高质量的视频,需要使用专业摄影设备或智能手机等设备。这些设备的价格较高,会增加制作成本。
(2)场地成本:选择适合拍摄的场地也会产生成本。特别是在需要租赁或购买场地的情况下,成本更高。
(3)技能要求:将实体的棉花娃娃制作成视频需要一定的拍摄技能、编辑技能。
(4)时间成本:拍摄和编辑一个高质量的视频需要大量的时间和精力投入。
因此,如何在保证棉花娃娃视频质量的前提下降低棉花娃娃视频的制作成本成为亟待解决的问题。
发明内容
为克服相关技术中存在的问题,本公开实施例提供视频生成方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种视频生成方法,包括:
接收棉花娃娃信息,所述棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,所述棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;
将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;
接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;
根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像;
根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
本公开该实施例提供一种视频生成方法,包括:接收棉花娃娃信息,棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;将棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,参考图片用于提取待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;根据棉花娃娃模型、特征文案描述信息和参考图片生成符合特征文案描述信息以及指定动作特征的目标棉花娃娃图像;根据目标棉花娃娃图像生成目标棉花娃娃视频。其中,通过扩散模型生成棉花娃娃图像,能够保证生成的图像质量和真实感可以自动生成棉花娃娃视频,并且无需拍摄设备和场地租赁,从而可以在保证棉花娃娃视频质量的前提下降低棉花娃娃视频的制作成本。
在一个实施例中,所述根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频,包括:
根据gen-2算法和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
在一个实施例中,所述根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像,包括:
通过所述棉花娃娃模型将所述特征文案描述信息解析成目标数字信号;
通过ControlNet模型从所述参考图片中提取所述指定动作特征;
通过所述棉花娃娃模型、所述ControlNet模型、所述目标数字信号和所述指定动作特征共同生成所述目标棉花娃娃图像。
在一个实施例中,所述通过ControlNet模型从所述参考图片中提取所述指定动作特征,包括:
通过ControlNet模型的openpose算法从所述参考图片中提取所述指定动作特征。
在一个实施例中,所述将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型,包括:
将所述棉花娃娃信息转换为样本数字信号;
将所述样本数字信号输入所述扩散模型以训练得到所述棉花娃娃模型。
在一个实施例中,所述根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频,包括:
接收视频数据信息,所述视频数据信息包括:视频格式,和/或,视频分辨率;
根据所述视频数据信息和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
根据本公开实施例的第二方面,提供一种视频生成装置,包括:
第一接收模块,用于接收棉花娃娃信息,所述棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,所述棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;
训练模型,用于将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;
第二接收模块,用于接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;
第一生成模块,用于根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像;
第二生成模块,用于根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
在一个实施例中,所述第二生成模块,包括:
第一生成子模块,用于根据gen-2算法和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
在一个实施例中,所述第一生成模块,包括:
解析子模块,用于通过所述棉花娃娃模型将所述特征文案描述信息解析成目标数字信号;
提取子模块,用于通过ControlNet模型从所述参考图片中提取所述指定动作特征;
第二生成子模块,用于通过所述棉花娃娃模型、所述ControlNet模型、所述目标数字信号和所述指定动作特征共同生成所述目标棉花娃娃图像。
在一个实施例中,所述第二生成子模块,包括:
生成子单元,用于通过ControlNet模型的openpose算法从所述参考图片中提取所述指定动作特征。
在一个实施例中,所述训练模型,包括:
转换子模块,用于将所述棉花娃娃信息转换为样本数字信号;
训练子模型,用于将所述样本数字信号输入所述扩散模型以训练得到所述棉花娃娃模型。
在一个实施例中,所述第二生成模块,包括:
接收子模块,用于接收视频数据信息,所述视频数据信息包括:视频格式,和/或,视频分辨率;
第三生成子模块,用于根据所述视频数据信息和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
根据本公开实施例的第三方面,提供一种视频生成装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
接收棉花娃娃信息,所述棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,所述棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;
将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;
接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;
根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像;
根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项所述方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的视频生成方法的流程图。
图2是根据一示例性实施例示出的视频生成装置的框图。
图3是根据一示例性实施例示出的一种用于视频生成的装置20的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的视频生成方法的流程图,如图1所示,该方法包括以下步骤S101-S105:
在步骤S101中,接收棉花娃娃信息,棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;
这些棉花娃娃信息可以为用户提前准备好的。
在步骤S102中,将棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;
具体的,可以将棉花娃娃信息转换为样本数字信号;然后将样本数字信号输入扩散模型以训练得到棉花娃娃模型。
其中,扩散模型可以包括Diffusion模型。
这里也可以理解为:将样本数字信号输入Diffusion模型训练产出自有Diffusion模型,此时的自有Diffusion模型即为上述的棉花娃娃模型。
其中,利用Diffusion模型生成棉花娃娃图像,能够保证生成的图像质量和真实感。
在步骤S103中,接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,参考图片用于提取待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;
在该步骤中,用户可以提供希望阐述的目标棉花娃娃视频的特征文案描述信息。
在步骤S104中,根据棉花娃娃模型、特征文案描述信息和参考图片生成符合特征文案描述信息以及指定动作特征的目标棉花娃娃图像;
上述步骤104包括以下子步骤A1-A3:
A1、通过棉花娃娃模型将特征文案描述信息解析成目标数字信号;
A2、通过ControlNet模型从参考图片中提取指定动作特征;
具体的,可以通过ControlNet模型的openpose算法从参考图片中提取指定动作特征。
A3、通过棉花娃娃模型、ControlNet模型、目标数字信号和指定动作特征共同生成目标棉花娃娃图像。
其中,使用ControlNet技术控制棉花娃娃的动作,可以使棉花娃娃更加灵活和具有交互性。
在步骤S105中,根据目标棉花娃娃图像生成目标棉花娃娃视频。
具体的,可以根据gen-2算法和目标棉花娃娃图像生成目标棉花娃娃视频。
其中,使用gen-2算法生成视频,能够将生成的图像序列转化为高质量的视频。
在一种可实现方式中,根据目标棉花娃娃图像生成目标棉花娃娃视频可以包括以下子步骤B1-B2:
B1、接收视频数据信息,所述视频数据信息包括:视频格式,和/或,视频分辨率;
B2、根据所述视频数据信息和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
本公开还可以生成不同格式和分辨率的视频,提升了视频的多样性。
本公开该实施例提供一种视频生成方法,包括:接收棉花娃娃信息,棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;将棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,参考图片用于提取待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;根据棉花娃娃模型、特征文案描述信息和参考图片生成符合特征文案描述信息以及指定动作特征的目标棉花娃娃图像;根据目标棉花娃娃图像生成目标棉花娃娃视频。其中,通过扩散模型生成棉花娃娃图像,能够保证生成的图像质量和真实感可以自动生成棉花娃娃视频,并且无需拍摄设备和场地租赁,从而可以在保证棉花娃娃视频质量的前提下降低棉花娃娃视频的制作成本。
以下详细介绍本公开中的方法。
本公开使用Diffusion模型生成棉花娃娃图像,并通过ControlNet技术控制棉花娃娃的动作,最终使用gen-2算法生成棉花娃娃视频,具体的:
1.预处理:准备大量棉花娃娃图像和棉花娃娃特征数据,包括棉花娃娃的身体部位、姿态、表情等信息。将这些信息转化为样本数字信号,以便于输入Diffusion模型训练产出自有Diffusion模型。
2.Diffusion模型结合ControlNet的openpose算法:选中预处理中训练产出的自有Diffusion模型,提供希望产出的目标棉花娃娃视频的特征文案描述信息,并提供一张参考图片供ControlNet的openpose算法提取目标棉花娃娃的指定动作特征。Diffusion模型使用多模态将特征文案描述信息解析成目标数字信号,并结合ControlNet的openpose算法提取目标棉花娃娃的动作数据,最终两种算法共同生成一个符合特征文案描述信息以及指定动作的高质量的目标棉花娃娃图像。
3.gen-2算法:使用gen-2算法将生成的目标棉花娃娃图像转化为视频,得到最终的目标棉花娃娃视频。
还可以选择输出不同格式和分辨率的视频。
基于人工智能技术,可以提高视频生成的效率和精度,大幅度降低制作成本(拍摄设备成本、场地租赁成本)、时间成本和人力资源的消耗。
本公开可以应用于多个领域,例如动画制作、广告宣传、儿童玩具等等。通过实验和测试,本发明可以实现高质量、高效率的棉花娃娃视频生成,同时具有较低的制作成本和人力资源的消耗。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图2是根据一示例性实施例示出的一种视频生成装置的框图,如图2所示,该视频生成装置包括:
第一接收模块11,用于接收棉花娃娃信息,所述棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,所述棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;
训练模型12,用于将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;
第二接收模块13,用于接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;
第一生成模块14,用于根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像;
第二生成模块15,用于根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
在一个实施例中,所述第二生成模块15,包括:
第一生成子模块,用于根据gen-2算法和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
在一个实施例中,所述第一生成模块14,包括:
解析子模块,用于通过所述棉花娃娃模型将所述特征文案描述信息解析成目标数字信号;
提取子模块,用于通过ControlNet模型从所述参考图片中提取所述指定动作特征;
第二生成子模块,用于通过所述棉花娃娃模型、所述ControlNet模型、所述目标数字信号和所述指定动作特征共同生成所述目标棉花娃娃图像。
在一个实施例中,所述第二生成子模块,包括:
生成子单元,用于通过ControlNet模型的openpose算法从所述参考图片中提取所述指定动作特征。
在一个实施例中,所述训练模型12,包括:
转换子模块,用于将所述棉花娃娃信息转换为样本数字信号;
训练子模型,用于将所述样本数字信号输入所述扩散模型以训练得到所述棉花娃娃模型。
在一个实施例中,所述第二生成模块15,包括:
接收子模块,用于接收视频数据信息,所述视频数据信息包括:视频格式,和/或,视频分辨率;
第三生成子模块,用于根据所述视频数据信息和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
本公开还提供一种视频生成装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
接收棉花娃娃信息,所述棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,所述棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;
将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;
接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;
根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像;
根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
上述处理器还可被配置为:
在一个实施例中,所述根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频,包括:
根据gen-2算法和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
在一个实施例中,所述根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像,包括:
通过所述棉花娃娃模型将所述特征文案描述信息解析成目标数字信号;
通过ControlNet模型从所述参考图片中提取所述指定动作特征;
通过所述棉花娃娃模型、所述ControlNet模型、所述目标数字信号和所述指定动作特征共同生成所述目标棉花娃娃图像。
在一个实施例中,所述通过ControlNet模型从所述参考图片中提取所述指定动作特征,包括:
通过ControlNet模型的openpose算法从所述参考图片中提取所述指定动作特征。
在一个实施例中,所述将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型,包括:
将所述棉花娃娃信息转换为样本数字信号;
将所述样本数字信号输入所述扩散模型以训练得到所述棉花娃娃模型。
在一个实施例中,所述根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频,包括:
接收视频数据信息,所述视频数据信息包括:视频格式,和/或,视频分辨率;
根据所述视频数据信息和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种用于视频生成的装置20的框图。例如,装置20可以被提供为一服务器。装置20包括处理组件202,其进一步包括一个或多个处理器,以及由存储器203所代表的存储器资源,用于存储可由处理组件202的执行的指令,例如应用程序。存储器203中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件202被配置为执行指令,以执行上述方法。
装置20还可以包括一个电源组件206被配置为执行装置20的电源管理,一个有线或无线网络接口205被配置为将装置20连接到网络,和一个输入输出(I/O)接口208。装置20可以操作基于存储在存储器203的操作***,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置20的处理器执行时,使得装置20能够执行上述的视频生成方法,所述方法包括:
接收棉花娃娃信息,所述棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,所述棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;
将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;
接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;
根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像;
根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
在一个实施例中,所述根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频,包括:
根据gen-2算法和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
在一个实施例中,所述根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像,包括:
通过所述棉花娃娃模型将所述特征文案描述信息解析成目标数字信号;
通过ControlNet模型从所述参考图片中提取所述指定动作特征;
通过所述棉花娃娃模型、所述ControlNet模型、所述目标数字信号和所述指定动作特征共同生成所述目标棉花娃娃图像。
在一个实施例中,所述通过ControlNet模型从所述参考图片中提取所述指定动作特征,包括:
通过ControlNet模型的openpose算法从所述参考图片中提取所述指定动作特征。
在一个实施例中,所述将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型,包括:
将所述棉花娃娃信息转换为样本数字信号;
将所述样本数字信号输入所述扩散模型以训练得到所述棉花娃娃模型。
在一个实施例中,所述根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频,包括:
接收视频数据信息,所述视频数据信息包括:视频格式,和/或,视频分辨率;
根据所述视频数据信息和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种视频生成方法,其特征在于,包括:
接收棉花娃娃信息,所述棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,所述棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;
将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;
接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;
根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像;
根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
2.根据权利要求1所述的视频生成方法,其特征在于,所述根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频,包括:
根据gen-2算法和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
3.根据权利要求1所述的视频生成方法,其特征在于,所述根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像,包括:
通过所述棉花娃娃模型将所述特征文案描述信息解析成目标数字信号;
通过ControlNet模型从所述参考图片中提取所述指定动作特征;
通过所述棉花娃娃模型、所述ControlNet模型、所述目标数字信号和所述指定动作特征共同生成所述目标棉花娃娃图像。
4.根据权利要求3所述的视频生成方法,其特征在于,所述通过ControlNet模型从所述参考图片中提取所述指定动作特征,包括:
通过ControlNet模型的openpose算法从所述参考图片中提取所述指定动作特征。
5.根据权利要求1所述的视频生成方法,其特征在于,所述将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型,包括:
将所述棉花娃娃信息转换为样本数字信号;
将所述样本数字信号输入所述扩散模型以训练得到所述棉花娃娃模型。
6.根据权利要求1所述的视频生成方法,其特征在于,所述根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频,包括:
接收视频数据信息,所述视频数据信息包括:视频格式,和/或,视频分辨率;
根据所述视频数据信息和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
7.一种视频生成装置,其特征在于,包括:
第一接收模块,用于接收棉花娃娃信息,所述棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,所述棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;
训练模型,用于将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;
第二接收模块,用于接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;
第一生成模块,用于根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像;
第二生成模块,用于根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
8.根据权利要求7所述的视频生成装置,其特征在于,所述第二生成模块,包括:
第一生成子模块,用于根据gen-2算法和所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
9.一种视频生成装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
接收棉花娃娃信息,所述棉花娃娃信息包括:棉花娃娃图像和棉花娃娃特征数据,所述棉花娃娃特征数据包括但不限于以下信息中的至少一项:身体部位、姿态和表情;
将所述棉花娃娃信息输入扩散模型以训练得到棉花娃娃模型;
接收待生成的目标棉花娃娃视频的特征文案描述信息和参考图片,所述参考图片用于提取所述待生成的目标棉花娃娃视频中的棉花娃娃的指定动作特征;
根据所述棉花娃娃模型、所述特征文案描述信息和所述参考图片生成符合所述特征文案描述信息以及所述指定动作特征的目标棉花娃娃图像;
根据所述目标棉花娃娃图像生成所述目标棉花娃娃视频。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。
CN202310599887.XA 2023-05-23 2023-05-23 视频生成方法及装置 Pending CN116597054A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310599887.XA CN116597054A (zh) 2023-05-23 2023-05-23 视频生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310599887.XA CN116597054A (zh) 2023-05-23 2023-05-23 视频生成方法及装置

Publications (1)

Publication Number Publication Date
CN116597054A true CN116597054A (zh) 2023-08-15

Family

ID=87611353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310599887.XA Pending CN116597054A (zh) 2023-05-23 2023-05-23 视频生成方法及装置

Country Status (1)

Country Link
CN (1) CN116597054A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117994593A (zh) * 2024-04-03 2024-05-07 青岛大学 一种基于多源数据复合模型的自动配棉方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117994593A (zh) * 2024-04-03 2024-05-07 青岛大学 一种基于多源数据复合模型的自动配棉方法
CN117994593B (zh) * 2024-04-03 2024-06-21 青岛大学 一种基于多源数据复合模型的自动配棉方法

Similar Documents

Publication Publication Date Title
EP3889912A1 (en) Method and apparatus for generating video
CN106851386B (zh) 基于Android***的电视终端中增强现实的实现方法及装置
CN110490959B (zh) 三维图像处理方法及装置、虚拟形象生成方法以及电子设备
CN113313085A (zh) 一种图像处理方法、装置、电子设备及存储介质
KR102358464B1 (ko) 인공지능 기술을 이용하여 영상 정보로부터 3d 캐릭터 애니메이션을 자동으로 생성하는 3d 이미지 변환장치 및 이를 포함하는 3d 이미지 변환시스템
CN116597054A (zh) 视频生成方法及装置
CN111598983A (zh) 动画制作***、方法、存储介质及程序产品
KR102118937B1 (ko) 3d 데이터서비스장치, 3d 데이터서비스장치의 구동방법 및 컴퓨터 판독가능 기록매체
CN110415318B (zh) 图像处理方法和装置
CN110414322B (zh) 提取图片的方法、装置、设备及存储介质
CN115239856A (zh) 3d虚拟对象的动画生成方法、装置、终端设备及介质
CN116030108A (zh) 基于三维实景重建算法的配置及调度方法及***
CN116016837A (zh) 一种沉浸式虚拟网络会议方法和装置
CN116320711A (zh) 图像拍摄方法及装置
CN111553961B (zh) 线稿对应色图的获取方法和装置、存储介质和电子装置
CN114283066A (zh) 影像处理设备以及超解析处理方法
CN114187173A (zh) 模型训练方法、图像处理方法及装置、电子设备、介质
CN218383892U (zh) 一种互动教学设备
CN118071941B (zh) 三维扫描方法、装置、设备及存储介质
CN116129091B (zh) 生成虚拟形象视频的方法及装置、电子设备和存储介质
CN113992866B (zh) 视频制作方法及装置
CN114741541B (zh) 基于模板化编辑的ai数字人对ppt的交互控制方法及装置
CN115423887B (zh) 一种针对人脸线条图片的参考性上色方法、***、装置及存储介质
CN113742630B (zh) 图像处理方法、电子设备及计算机存储介质
CN115714888B (zh) 视频生成方法、装置、设备与计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination