CN112819933A - 一种数据处理方法、装置、电子设备及存储介质 - Google Patents

一种数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112819933A
CN112819933A CN202110220285.XA CN202110220285A CN112819933A CN 112819933 A CN112819933 A CN 112819933A CN 202110220285 A CN202110220285 A CN 202110220285A CN 112819933 A CN112819933 A CN 112819933A
Authority
CN
China
Prior art keywords
natural
video
target
target material
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110220285.XA
Other languages
English (en)
Inventor
申省梅
蔡茂
涂晓光
王薇琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Pengsi Technology Co ltd
Original Assignee
Beijing Pengsi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Pengsi Technology Co ltd filed Critical Beijing Pengsi Technology Co ltd
Publication of CN112819933A publication Critical patent/CN112819933A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请提供一种数据处理方法、装置、设备及存储介质。该数据处理方法包括:获得具有故事情节的文本和/或图像集合;通过对所述文本和/或所述图像集合进行分析,获得所述故事情节对应的要素信息;根据所述要素信息,生成目标视频,其中,所述目标视频至少包括:自然场景和/或自然对象。在本申请中,通过AI技术,根据给定的文本和/或图像集合的故事情节,生成对应的自然视频,从而实现自然视频创作的智能化。

Description

一种数据处理方法、装置、电子设备及存储介质
本申请要求在2020年2月26日提交新加坡专利局、申请号为10202001693V、发明名称为“Methods and Apparatus for AI(Artificial Intelligence)Movie ProducerSystem(一种用于AI电影制作***的方法和装置)”的新加坡专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能(artificial intelligence,AI)领域,特别涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
在电影产业中,一部电影的诞生,往往需要众多工作人员的努力,如编剧、导演、演员、化妆师、音效师等。雇佣这些人员导致制作电影的成本较高,同时也需要花费大量的时间(从数个月到数年)。而对拍摄视频来说,同样也需要耗费大量的人力物力。
为了节约成本,可以采用AI技术来进行电影的制作。尽管目前的AI***能够改变图像的风格、更换面部、为视频提供面部、创作特定类型的图像,却仍无法根据给定的故事情节创作自然电影或者自然短视频,智能程度较差。
发明内容
本申请提供了一种数据处理方法、装置、电子设备及存储介质,以实现自然视频创作的智能化。
第一方面,本申请提供一种数据处理方法,可以用于视频生成***。该视频生成***可以为采用AI技术的视频生成***。该视频生成***可以应用于电子设备,如计算机、笔记本电脑、平板电脑、移动电话等。数据处理方法可以包括:获得具有故事情节的文本和/或图像集合;通过对文本和/或图像集合进行分析,获得故事情节对应的要素信息;根据要素信息,生成目标视频,其中,目标视频至少包括:自然场景和/或自然对象。
其中,上述文本可以指具有故事情节的书籍和/或剧本,例如:小说、剧本等;上述图像集合可以指包括多张图像的集合,例如,漫画(可以理解多张漫画图像)、套图(可以理解为具有关联关系的多张图像)、动画视频(可以理解为卡通电影(cartoon movie)、动画短视频等)中的至少一种。
可选地,自然对象可以包括以下至少一个:自然人物、自然动物、自然物品。
在本申请实中,通过AI技术,根据给定的文本和/或图像集合的故事情节,生成对应的自然视频,使得故事书籍、剧本、漫画、套图、动画视频等能够被快速、有效地转换为自然视频,从而实现自然视频创作的智能化,进而提供更好的用户体验。
进一步地,在电影制作场景下,对于给定故事书籍、剧本、漫画、套图、动画视频等,通过使用AI技术来以低价和快捷的方式创作自然电影,使得故事书籍、剧本、漫画、套图、动画视频等能够被快速地、有效地转换为自然电影,使得用户可以以文本、具有生动视觉的图片、各种声音效果的电影等多种方式进行享受。
在一些可能的实施方式中,根据要素信息,生成目标视频,包括:根据要素信息,从预设的素材集合中选择对应的目标素材,其中,预设的素材集合包括使用素材创建网络创建的素材;根据目标素材,生成目标视频。
在一些可能的实施方式中,根据要素信息,生成目标视频,包括:生成并输出交互界面,其中,交互界面包括待选择的素材;根据用户在交互界面上的选择操作,从待选择的素材中确定目标素材;根据目标素材,生成目标视频。
在一些可能的实施方式中,根据目标素材,生成目标视频,包括:按照故事情节,设置目标素材的属性信息;根据目标素材以及目标素材的属性信息,生成目标视频。
在一些可能的实施方式中,根据目标素材以及目标素材的属性信息,生成目标视频,包括:将目标素材以及目标素材的属性信息输入生成网络,生成目标视频,其中,生成网络是基于样本文本和/或样本图像集合训练得到的。
在一些可能的实施方式中,当目标素材包括视频素材时,目标素材包括:自然场景的图像和/或自然对象的图像;目标素材的属性信息包括以下至少一个:自然场景的布局信息、自然对象在自然场景中的位置信息、自然对象之间的相对位置信息。
在一些可能的实施方式中,当自然对象为自然人物时,目标素材的属性信息包括以下至少一个:自然人物的自然面部信息、自然人物的自然人体信息、自然人物的自然人属性信息、自然人物的自然人动作信息。
在一些可能的实施方式中,当目标素材的属性信息为自然人物的自然面部信息时,按照故事情节,设置目标素材的属性信息,包括:为自然人物的图像生成三维人脸形变统计模型(3DMM);根据故事情节,变换3DMM的系数;相应地,根据目标素材以及目标素材的属性信息,生成目标视频,包括:基于自然人物的图像和变换后的系数,生成自然人物的自然面部信息。
在实际应用中,上述按照故事情节,设置目标素材的属性信息的步骤可以包括:将自然人物的图像作为源图像;为源图像创建3DMM,并根据3DMM的系数估算3D面部形状和3D顶点;根据故事情节,由用于预测的长短期记忆(long short time memory,LSTM)网络预测3DMM的系数,并将3DMM的系数变换为预测的系数,以对3D面部形状进行重塑;
相应地,基于自然人物的图像和变换后的系数,生成自然人物的自然面部信息,包括:对源图像进行采样,使用采样纹理对重塑后的3D面部形状进行渲染,以引导生成目标视频生成过程中自然人物的自然面部信息。
在一些可能的实施方式中,当目标素材包括音频素材时,目标素材包括:自然场景的声音和/或自然对象的声音;目标素材的属性信息包括:音色和/或音量。
在一些可能的实施方式中,当自然对象为自然人物时,目标素材包括:自然语音和/或自然对话。
在一些可能的实施方式中,通过对文本和/或图像集合进行分析,获得故事情节对应的要素信息,包括:将文本和/或图像集合输入已训练的分析网络;获得分析网络输出的要素信息。
在一些可能的实施方式中,上述方法还包括:按照故事情节,对目标视频进行帧间平滑处理。
第二方面,本申请还提供一种数据处理装置,该数据处理装置可以为视频生成***或者视频生成***中的芯片或者片上***,还可以为视频生成***中用于实现第一方面或第一方面的任一可能的实施方式所述的方法的功能模块。该数据处理装置可以实现上述第一方面及其可能的实施方式中所述的功能,这些功能可以通过硬件执行相应的软件实现,其中,硬件或软件包括一个或多个上述功能相应的模块。具体来说,数据处理装置可以包括:输入模块、分析模块以及生成模块;其中,输入模块,用于获得具有故事情节的文本和/或图像集合;分析模块,用于通过对文本和/或图像集合进行分析,获得故事情节对应的要素信息;生成模块,用于根据要素信息,生成目标视频,其中,目标视频至少包括:自然场景和/或自然对象。
在一些可能的实施方式中,生成模块,用于:根据要素信息,从预设的素材集合中选择对应的目标素材,其中,预设的素材集合包括使用素材创建网络创建的素材;根据目标素材,生成目标视频。
在一些可能的实施方式中,生成模块,用于:生成并输出交互界面,其中,交互界面包括待选择的素材;根据用户在交互界面上的选择操作,从待选择的素材中确定目标素材;根据目标素材,生成目标视频。
在一些可能的实施方式中,生成模块,用于:按照故事情节,设置目标素材的属性信息;根据目标素材以及目标素材的属性信息,生成目标视频。
在一些可能的实施方式中,生成模块,用于:将目标素材以及目标素材的属性信息输入生成网络,生成目标视频,生成网络是基于样本文本和/或样本图像集合训练得到的。
在一些可能的实施方式中,当目标素材包括视频素材时,目标素材包括:自然场景的图像和/或自然对象的图像;目标素材的属性信息包括以下至少一个:自然场景的布局信息、自然对象在自然场景中的位置信息、自然对象之间的相对位置信息。
在一些可能的实施方式中,当自然对象为自然人物时,目标素材的属性信息包括以下至少一个:自然人物的自然面部信息、自然人物的自然人体信息、自然人物的自然人属性信息、自然人物的自然人动作信息。
在一些可能的实施方式中,生成模块,还用于:当目标素材的属性信息为自然人物的自然面部信息时,为自然人物的图像生成三维人脸形变统计模型3DMM;根据故事情节,变换3DMM的系数;基于自然人物的图像和变换后的系数,生成自然人物的自然面部信息。
在一些可能的实施方式中,当目标素材包括音频素材时,目标素材包括:自然场景的声音和/或自然对象的声音;目标素材的属性信息包括:音色和/或音量。
在一些可能的实施方式中,当自然对象为自然人物时,目标素材包括:自然语音和/或自然对话。
在一些可能的实施方式中,分析模块,用于:将文本和/或图像集合输入已训练的分析网络;获得分析网络输出的要素信息。
在一些可能的实施方式中,生成模块,还用于按照故事情节,对目标视频进行帧间平滑处理。
在一些可能的实施方式中,文本包括剧本和/或故事书籍;图像集合包括漫画、套图和动画视频中的至少一种。
在一些可能的实施方式中,自然对象包括以下至少一个:自然人物、自然动物、自然物品。
第三方面,本申请提供一种电子设备,包括处理器和存储器,其中,存储器存储有可由所述处理器处理的指令,当该指令被处理器执行时,使得电子设备执行如上述第一方面或者第一方面的任一种可能的实施方式所述的数据处理方法。
第四方面,本申请提供一种芯片***,该芯片***包括处理器、存储器和接口电路,存储器、接口电路和处理器通过线路互联,存储器中存储有可由所述处理器处理的指令;当指令被处理器执行时,实现如上述第一方面或者第一方面的任一种可能的实施方式所述的数据处理方法。
第五方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有指令,当指令由处理器运行时,用于执行如上述第一方面或者第一方面的任一种可能的实施方式所述的数据处理方法。
第六方面,本申请提供一种计算机程序或计算机程序产品,当计算机程序或计算机程序产品在计算机上被执行时,使得计算机实现如上述第一方面或者第一方面的任一种可能的实施方式所述的数据处理方法。
应当理解的是,本申请的第二至六方面与本申请的第一方面的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例中所需要使用的附图进行说明。
图1为本申请实施例中的文本对应的视频生成方法的流程示意图;
图2为本申请实施例中的图像集合对应的视频生成方法的流程示意图;
图3为本申请实施例中的数据处理方法的流程示意图;
图4为本申请实施例中的数据处理装置的结构示意图;
图5为本申请实施例中的电子设备的结构示意图;
图6为本申请实施例中的AI电影制作***来高效创作自然电影的总图;
图7为本申请实施例中的基于文本故事、漫画、套图的AI电影制作***的详图;
图8为本申请实施例中的基于卡通电影中的故事的AI电影制作***的详图;
图9为本申请实施例中的具有用户接口的AI电影制作***的示意图;
图10为本申请实施例中的基于具有3D重构和3D顶点的给定图像的视频生成方法的示意图;
图11为本申请实施例中的具有用于预测的LSTM以及用于生成网络的编码器和解码器的视频生成方法的示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。以下描述中,参考形成本申请一部分并以说明之方式示出本申请实施例的具体方面或可使用本申请实施例的具体方面的附图。应理解,本申请实施例可在其它方面中使用,并可包括附图中未描绘的结构或逻辑变化。例如,应理解,结合所描述方法的揭示内容可以同样适用于用于执行所述方法的对应设备或***,且反之亦然。例如,如果描述一个或多个具体方法步骤,则对应的设备可以包含如功能单元等一个或多个单元,来执行所描述的一个或多个方法步骤(例如,一个单元执行一个或多个步骤,或多个单元,其中每一个都执行多个步骤中的一个或多个),即使附图中未明确描述或说明这种一个或多个单元。另一方面,例如,如果基于如功能单元等一个或多个单元描述具体装置,则对应的方法可以包含一个步骤来执行一个或多个单元的功能性(例如,一个步骤执行一个或多个单元的功能性,或多个步骤,其中每一个执行多个单元中一个或多个单元的功能性),即使附图中未明确描述或说明这种一个或多个步骤。进一步,应理解的是,除非另外明确提出,本文中所描述的各示例性实施例和/或方面的特征可以相互组合。
首先,对本申请实施例涉及的概念进行解释。
1)、文本:可以指具有故事情节的书籍和/或剧本,例如:小说、剧本等。
2)、图像集合:可以指包括多张图像的集合,例如,漫画(可以理解多张漫画图像)、套图(可以理解为具有关联关系的多张图像)、动画视频(可以理解为卡通电影、动画短视频等)中的至少一种。
3)、自然视频,可以指包括自然场景和/或自然对象等真实内容的视频,如电影、短视频等。
4)、自然场景(natural scene/background):可以指由自然景物构成的真实场景。可以理解的,自然景物可以指如海洋、山峦、树木、建筑物、街道等。
5)、自然对象(natural characters):可以包括自然人物(natural humancharacters)、自然动物(natural animal characters)、自然物品(natural objects)等。这里,自然人物是真实人物(如男人、女人、老人、小孩等);自然动物是真实动物(如猫、狗、鸟等);自然物品是真实物品(如汽车、家具、衣服等)。
6)、自然场景的属性信息,可以指真实场景的属性信息,如自然景物的布局信息、自然景物的颜色、尺寸、形状、类型、图样等信息。
7)、自然对象的属性信息,可以包括自然人物的属性信息、自然动物的属性信息、自然物品的属性信息。例如,自然人物的属性信息可以包括:自然人物的自然人属性信息(如自然人物的年龄、身高、体型、发色、发型、配饰、衣服颜色和图案等)、自然人物的自然面部信息(如自然人物的面部表情、眼睛等)、自然人物的自然人体信息(如自然人物的身体信息、姿态信息等)、自然人物的动作(action)、移动(movement)等信息。当然,自然人物的属性信息还可以包括如挎包、抱孩子、骑摩托车等其他属性信息。
8)、AI技术,可以包括但不限于:深度学习网络(deep learning network,DLN)、对抗生成网络(generative adversarial networks,GAN)以及深度强化学习(deepreinforcement learning,DRL)。
需要说明的是,上述举例仅为示例,用于解释上述概念,并不用于限定本申请的保护范围。本领域技术人员可根据实际需要自行设计,本申请实施例对此不做具体限定。
本申请实施例提供一种视频生成***,该视频生成***可以为采用AI技术的视频生成***。该视频生成***可以应用于电子设备,如计算机、笔记本电脑、平板电脑、移动电话等。
结合上述视频生成***,本申请实施例提供一种数据处理方法。在本申请实施例中,视频生成***可以针对具有故事情节的文本和/或图像集合生成对应的视频。在下文中分别以输入文本和输入图像集合为例对本申请实施例提供的数据处理方法进行说明。
在一种情况下,以输入文本为剧本为例对本申请实施例提供的数据处理方法进行说明。
图1为本申请实施例中的文本对应的视频生成方法的流程示意图,参见图1所示,该方法可以包括以下步骤:S101、S102以及S103。
S101,视频生成***获得输入的剧本(即文本)。
可以理解的,例如,用户想要以剧本为基础通过视频生成***生成自然视频时,用户可以将该剧本通过视频生成***的输入接口输入到视频生成***中。此时,视频生成***获得上述剧本,即具有故事情节的文本。
S102,视频生成***通过对剧本进行分析,获得剧本的故事情节对应的要素信息。
可以理解的,视频生成***在获得上述剧本后,可以利用AI技术和/或自然语言处理(natural language processing,NLP)对剧本进行分析和识别,理解该剧本的故事情节,从而识别出场景、人物、物品及其属性。这里,视频生成***的识别结果可以理解为剧本的故事情节对应的要素信息,即构成剧本的故事情节的多个要素的信息。例如,剧本中的故事情节为“小明在海里游泳”,视频生成***采用NLP的方式对上述故事情节进行分析和识别,得到包括如大海、沙滩、天空等的场景、如小明的人物以及场景和人物的属性信息。
在一些可能的实施方式中,上述要素信息可以包括:场景信息、对象信息等。这里,场景信息可以理解为剧本中各个场景及其属性的信息,如各个场景所包括的景物,如海洋、树林、山峦等以及这些景物的属性,对象信息可以理解为人物、动物、物品及其属性的信息。当然,要素信息还可以包括其他信息,本申请实施例不做具体限定。
在一些可能的实施方式中,视频生成***可以采用AI技术和/或NLP训练得到分析网络,那么,上述S102可以包括:将剧本输入已训练的分析网络;获得该分析网络输出的要素信息。
S103,视频生成***根据要素信息,生成目标视频(即自然视频)。
其中,目标视频至少包括:自然场景和/或自然对象。
可以理解的,视频生成***可以且不限于采用如下几种方法实现S103。
第一种方法,S103可以包括:根据要素信息,从预设的素材集合中选择对应的目标素材,其中,预设的素材集合包括使用素材创建网络创建的素材;根据目标素材,生成目标视频。
可以理解的,视频生成***在通过S102获得要素信息之后,可以根据要素信息创建对应的自然场景和/或自然对象。其中,视频生成***可以预先训练得到一个素材集合(也可以理解为素材库),该素材集合可以包括场景素材集合、人物素材集合、动物素材集合、物品素材集合等。视频生成***可以从素材集合中选取与要素信息匹配的目标素材,最后,视频生成***根据这些目标素材生成目标视频。
在本申请实施例中,通过对素材集合的训练,视频生成***可以创建出真实世界中现存的或者从未出现过的素材,并将该素材真实化,极大的丰富了目标视频的内容,并且提升了目标视频对故事情节的还原度。
在一些可能的实施方式中,素材集合可以设置在本地,以提高视频生成***的处理速度。在另一些可能的实施方式中,素材集合也可以设置在云端服务器,以减少视频生成***占用的资源。
进一步地,视频生成***还可以提供数据接口(interface),用于调用在线素材生成工具。视频生成***通过在线素材生成工具可以获取互联网中现存的素材,并使用这些素材更新本地的素材集合,或者直接使用这些素材作为目标素材,本申请实施例对此不做具体限定。
在本申请实施例中,上述目标素材可以包括视频素材,视频素材可以包括自然场景的图像和/或自然对象的图像。相应的,视频素材的属性信息可以包括:自然场景的布局信息、自然对象在自然场景中的位置信息、自然对象之间的相对位置信息等。
示例性的,当自然对象为自然人物时,视频素材的属性信息可以包括:自然人物的自然面部信息、自然人物的自然人体信息、自然人物的自然人属性信息、自然人物的自然人动作、移动等信息。
其中,当目标素材的属性信息为自然人物的自然面部信息时,S103可以包括:为自然人物的图像生成三维人脸形变统计模型(3-dimension morphable model,3DMM);根据故事情节,变换3DMM的系数;基于自然人物的图像和变换后的系数,生成自然人物的自然面部。
可以理解的,视频生成***可以基于具有3D重构和3D顶点的自然人物的面部图像生成目标视频。首先,将目标素材,即自然人物的图像作为源图像,为源图像创建3DMM,并根据3DMM的系数估计3D面部形状和3D顶点。然后,根据故事情节,由用于预测的长短期记忆(long short time memory,LSTM)网络预测3DMM的系数,并将3DMM的系数变换为预测的系数,以对3D面部形状进行重塑。接下来,对源图像进行采样,使用采样纹理对重塑后的3D面部形状进行渲染,以引导生成目标视频生成过程中自然人物的自然面部信息(即采样纹理)。具体的处理过程可以结合图10和图11的描述,在此不展开进行说明。
那么,通过上述方法生成的自然人物的自然面部可以包括面部的形状、表情、摄像头投射矩等。基于3DMM并根据单个面部图像来估算3D面部,能够创建与故事情节匹配的自然人物的面部图像,提高目标视频的真实性。
其中,二维(2-dimension,2D)面部图像的3D顶点能够被表达为一组主成分分析(principal component analysis,PCA)基的线性组合。
进一步地,为了提供更好、更丰富的视频体验,上述目标素材还可以包括音频素材。音频素材可以包括自然场景的声音和/或自然对象的声音。音频素材的属性信息可以包括:音色和/或音量。示例性的,当自然对象为自然人物时,音频素材可以包括:自然语音和/或自然对话。例如,自然场景的声音可以包括大海的浪声、风声、海鸥的叫声等背景声音,自然对象的声音可以包括小明的说话声。
第二种方法,S103可以包括:根据要素信息,生成交互界面,其中,交互界面包括待选择的素材;输出交互界面;根据用户在交互界面上的选择操作,确定目标素材;根据目标素材,生成目标视频。
可以理解的,为了使生成的目标视频实现个性化,更加符合用户的偏好,视频生成***还可以提供交互接口。该交互接口用于指示用户在上述素材集合中选择素材。具体地,用户在看到上述交互界面后,可以在该交互界面进行选择操作。例如,通过交互界面,用户可以从给定的素材集合中选择或者查找需要的条目,进而实现素材选择。视频生成***根据用户的选择操作,可以将用户选择的素材确定为目标素材。最后,视频生成***根据这些目标素材生成目标视频。
在一些可能的实现方式中,上述交互界面还可以提供输入接口,使得用户可以通过该输入接口进行如写作、绘图、书写、剪辑、录音、***等操作,从而制作出个性化视频。
在本申请实施例中,通过上述交互界面,用户能够根据自身的偏好选择目标素材,使得对于给定的故事情节,生成的目标视频能够具有不同的风格、不同的开始、不同的结束、不同的自然人物、不同的自然场景、不同的自然背景音乐、不同的自然语音和交谈等,更加个性化,提供更好的用户体验。
当然,上述两种方式仅为实现S103的示例,在实际应用中,视频生成***还可以将上述两种方式结合使用,当然,本领域技术人员还可以采用其他的实现方式,本申请实施例不做具体限定。
进一步地,上述S103中,上述根据目标素材生成目标视频的步骤,可以包括:按照故事情节,设置目标素材的属性信息;根据目标素材以及目标素材的属性信息,生成目标视频。
具体来说,当视频生成***确定了目标素材之后,可以根据S102所分析的剧本的故事情节来设置目标素材的属性信息。例如,剧本中的故事情节为“小明在海里游泳”,那么,视频生成***可以设置场景和人物的属性信息,如海水的颜色、天空的颜色、沙滩的颜色、小明的自然人属性信息、小明的游泳动作、小明游泳的移动轨迹等。视频生成***在完成对目标素材的属性信息的设置后,可以将目标素材以及设置的属性信息作为输入向量输入生成网络,以此生成目标视频。
在本申请实施例中,上述生成网络是视频生成***训练得到的。可以理解的,视频生成***可以获取样本文本并识别样本文本的要素信息,然后获得对应的真实视频数据集,并构建判别网络和基于视频生成的生成网络;将样本文本的要素信息输入生成网络中,获得样本视频;样本视频和真实视频数据集作为判别网络的输入,获得判别损失结果,并根据判别损失结果训练生成网络,其中,判别损失结果在样本视频属于真实视频数据集时为真。通过样本数据进行生成器网络和判别网络的训练。其中,真实的视频为真实世界获取的视频,通过这样多次重复的对抗训练方式,能进一步的规范生成视频的内容,逐步的提升生成视频的真实性以及提升生成视频的质量。
在一些可能的实施方式中,上述分析网络和生成网络在使用过程中还可以根据输入的剧本进行进一步的训练,以更新网络。
可选地,生成网络还可以为上述音频素材中自然人物的自然语音和/或自然交谈生成相应的字幕文件,与自然视频(即目标视频)封装在一起。
可选地,为了提升目标视频的真实性和生成视频的质量,视频生成***还可以根据故事情节对目标视频进行帧间平滑处理,使得相邻视频帧中的内容过度自然、真实。
可选地,在S103之后,上述方法还可以包括:S104,视频生成***输出目标视频。可以理解的,视频生成***通过S103生成目标视频之后,还可以将该目标视频输出,例如,视频生成***可以通过视频播放器播放目标视频;视频生成***还可以将目标视频保存至本地或者远端服务器。当然,在S103之后,视频生成***还可以对目标视频进行其他处理,本申请实施例不做具体限定。
至此,便完成了为剧本(即文本)生成自然视频的过程。
在本申请实施例中,通过AI技术,根据给定的文本的故事情节,生成对应的自然视频,使得故事书籍、剧本等文本能够被快速、有效地转换为自然视频,从而实现自然视频创作的智能化,进而提供更好的用户体验。
在另一种情况下,以输入图像集合为动画视频为例。
图2为本申请实施例中的图像集合对应的视频生成方法的流程示意图,参见图2所示,该方法可以包括以下步骤:S201、S202以及S203。
S201,视频生成***获得输入的动画视频(即图像集合)。
S202,视频生成***通过对动画视频进行分析,获得动画视频的故事情节对应的要素信息。
可以理解的,视频生成***在获得上述动画视频后,可以利用AI图像视频理解分析技术对动画视频进行分析和识别,如对动画视频进行多模式学习,理解该动画视频的故事情节,从而识别出场景、人物、物品及其属性。这里,视频生成***的识别结果可以理解为动画视频的故事情节对应的要素信息,即构成动画视频的故事情节的多个要素的信息。
S203,视频生成***根据要素信息,生成目标视频。
可选地,S204,视频生成***输出目标视频。
其中,目标视频至少包括:自然场景和/或自然对象。
上述S201至S203的具体实现过程可以参见S101至S103的描述,为了节约篇幅,在此不再赘述。
至此,便完成了为动画视频(即图像集合)生成自然视频的过程。
由上述可知,本申请实施例所提供的数据处理方法可以用于将给定的文本和/或者图像集合转换成自然视频。示例性的,图3为本申请实施例中的数据处理方法的流程示意图,参见图3所以,上述方法可以包括以下步骤:S301、S302、S303、S304和S305。
S301,用户将文本和/或图像集合输入视频生成***。
其中,文本可以包括:故事书籍、剧本等;图像集合可以包括:漫画、套图、动画视频等。
S302,视频生成***对文本和/或图像集合进行分析并理解故事情节,以获得故事情节对应的要素信息。
S303,视频生成***创作自然场景、自然人物、自然动物、自然物品及其属性信息(如自然人物/自然动物的属性、表情、移动等,或者自然物品的位置、移动等)。
可以理解的,视频生成***可以从合成的自然图像视频(natural image-video)素材库选择和/或通过在线合成图像-视频生成工具来创作上述目标素材。
S304,视频生成***根据上述目标素材,生成自然视频(如电影产品、视频内容等)。
S305,视频生成***输出自然视频。
在本申请实施例中,通过AI技术,根据给定的文本和/或图像集合的故事情节,生成对应的自然视频,使得故事书籍、剧本、漫画、套图、动画视频等能够被快速、有效地转换为自然视频,从而实现自然视频创作的智能化,进而提供更好的用户体验。
基于相同的发明构思,本申请实施例还提供一种数据处理装置,该数据处理装置可以为上述视频生成***或者视频生成***中的芯片或者片上***,还可以为视频生成***中用于实现上述一个或者多个实施例所述方法的功能模块。该数据处理装置可以实现上述一个或者多个实施例所述的功能,这些功能可以通过硬件执行相应的软件实现,其中,硬件或软件包括一个或多个上述功能相应的模块。
图4为本申请实施例中的数据处理装置的结构示意图,参见图4中实线所示,上述数据处理装置400可以包括:输入模块401、分析模块402以及生成模块403。输入模块401,用于获得具有故事情节的文本和/或图像集合。分析模块402,用于通过对文本和/或图像集合进行分析,获得故事情节对应的要素信息。生成模块403,用于根据要素信息,生成目标视频,其中,目标视频至少包括:自然场景和/或自然对象。
可选地,参见图4中虚线所示,上述数据处理装置400还可以包括:输出模块404,用于输出目标视频。
在一些可能的实施方式中,生成模块403,用于:根据要素信息,从预设的素材集合中选择对应的目标素材,其中,预设的素材集合包括使用素材创建网络创建的素材;根据目标素材,生成目标视频。
在一些可能的实施方式中,生成模块403,用于:生成并输出交互界面,其中,交互界面包括待选择的素材;根据用户在交互界面上的选择操作,从待选择的素材中确定目标素材;根据目标素材,生成目标视频。
在一些可能的实施方式中,生成模块403,用于:按照故事情节,设置目标素材的属性信息;根据目标素材以及目标素材的属性信息,生成目标视频。
在一些可能的实施方式中,生成模块403,用于:将目标素材以及目标素材的属性信息输入生成网络,生成目标视频,生成网络是基于样本文本和/或样本图像集合训练得到的。
在一些可能的实施方式中,当目标素材包括视频素材时,目标素材包括:自然场景的图像和/或自然对象的图像;目标素材的属性信息包括以下至少一个:自然场景的布局信息、自然对象在自然场景中的位置信息、自然对象之间的相对位置信息。
在一些可能的实施方式中,当自然对象为自然人物时,目标素材的属性信息包括以下至少一个:自然人物的自然面部信息、自然人物的自然人体信息、自然人物的自然人属性信息、自然人物的自然人动作信息。
在一些可能的实施方式中,生成模块403,还用于:当目标素材的属性信息为自然人物的自然面部信息时,为自然人物的图像生成三维人脸形变统计模型3DMM;根据故事情节,变换3DMM的系数;基于自然人物的图像和变换后的系数,生成自然人物的自然面部信息。
在一些可能的实施方式中,当目标素材包括音频素材时,目标素材包括:自然场景的声音和/或自然对象的声音;目标素材的属性信息包括:音色和/或音量。
在一些可能的实施方式中,当自然对象为自然人物时,目标素材包括:自然语音和/或自然对话。
在一些可能的实施方式中,分析模块402,用于:将文本和/或图像集合输入已训练的分析网络;获得分析网络输出的要素信息。
在一些可能的实施方式中,生成模块403,还用于按照故事情节,对目标视频进行帧间平滑处理。
在一些可能的实施方式中,文本包括剧本和/或故事书籍;图像集合包括漫画、套图和动画视频中的至少一种。
在一些可能的实施方式中,自然对象包括以下至少一个:自然人物、自然动物、自然物品。
基于相同的发明构思,本申请实施例提供一种电子设备。图5为本申请实施例中的电子设备的结构示意图,参见图5所示,电子设备500,采用了通用的计算机硬件,包括处理器501、存储器502、总线503、输入设备504以及输出设备505。
在一些可能的实施方式中,存储器502可以包括以易失性和/或非易失性存储器形式的计算机存储媒体,如只读存储器和/或随机存取存储器。存储器502可以存储操作***、应用程序、其他程序模块、可执行代码、程序数据、用户数据等。
输入设备504可以用于向电子设备输入命令和信息,输入设备504如键盘或指向设备,如鼠标、轨迹球、触摸板、麦克风、操纵杆、游戏垫、***天线、扫描仪或类似设备。这些输入设备可以通过总线503连接至处理器501。
输出设备505可以用于电子设备输出信息,除了监视器之外,输出设备505还可以为其他***输出设各,如扬声器和/或打印设备,这些输出设备也可以通过总线503连接到处理器501。
电子设备可以通过网络接口506连接到网络中,例如连接到局域网(local areanetwork,LAN)。在联网环境下,控制备中存储的计算机执行指令可以存储在远程存储设备中,而不限于在本地存储。
当电子设备中的处理器501执行存储器502中存储的可执行代码或应用程序时,电子设备以执行以上实施例中的视频生成***执行的数据处理方法,具体执行过程参见上述实施例,在此不再赘述。
此外,上述存储器502中存储有用于实现图4中的输入模块401、分析模块402及生成模块403的功能的计算机执行指令。图4中的输入模块401、分析模块402及生成模块403的功能/实现过程均可以通过图5中的处理器501调用存储器502中存储的计算机执行指令来实现,具体实现过程和功能参考上述相关实施例。
基于相同的发明构思,本申请实施例提供一种芯片***。该芯片***包括处理器、存储器和接口电路,存储器、接口电路和处理器通过线路互联,存储器中存储有可由所述处理器处理的指令;当指令被所述处理器执行时,实现如上述一个或多个实施例所述的数据处理方法。
基于相同的发明构思,本申请实施例提供一种计算机可读存储介质。计算机可读存储介质存储有指令,当指令在计算机上运行时,用于执行如上述一个或多个实施例所述的数据处理方法。
基于相同的发明构思,本申请实施例提供一种计算机程序或计算机程序产品,当计算机程序或计算机程序产品在计算机上被执行时,使得计算机实现如上述一个或多个实施例所述的数据处理方法。
基于相同的发明构思,本申请实施例还提供一种AI电影制作***。该AI电影制作***可以为上述实施例中所述的完整视频生成***或者视频生成***的一部分。
参见附图,以下为本申请优选实施例。
图6为本申请实施例中的AI电影制作***的总图,并在此说明。
参见图6所示,在模块61中,AI***接收故事书籍、剧本、漫画、套图、动画视频中的至少一种。在有人参与或无人参与、详细设置或简单交互的情况下,AI***通过模块62基于给定故事自动、有效地创作自然电影或视频。根据电影制作人的期望和意图并借助于制作人和所发明的AI电影制作***之间的接口,所创作地自然电影或自然视频能够具有不同的电影和视频风格、不同的开始、不同的结束、不同的自然人物、不同的自然场景、不同的自然背景音乐、不同的自然语音和交谈等。
图7为本申请实施例中的基于文本故事、漫画、套图的AI电影制作***的详图,并在此说明。
参见图7所示,在模块71中,AI***接收所输入的文本、漫画或套图中的故事内容。
在模块72中,AI***通读故事内容,并使用AI技术和NLP技术在细节上领会故事情节和内容,从而理解场景、识别故事内容中的人物和其他物品及其属性、动作和移动。
在模块73中,AI***创作与具有自然海洋、山峦、河流、树木、街道、道路、田野、公园和其他物体、及其诸如颜色、尺寸、形状、类型、图样等属性在内的故事内容所对应的、带有音乐和声音的自然场景和背景。在模块78中,AI***能够对所创作的场景和背景、所创作的物体、以及彼此之间的位置和布局进行属性改变。
在模块74中,AI***创作与故事内容对应的、具有自然面部、自然人体和自然人类属性的自然人类演员。在模块79中,AI***能够对所创作的自然人类演员的属性(包括但不限于,年龄、面部皮肤、面部形状、发型、如眼睛、口罩、围巾、帽子等穿戴配件、身体大小和形状、不同颜色和图样的衣物、以及诸如挎包、抱孩子、骑摩托车等其他人类属性)进行改变。
在模块75中,AI***创作与故事内容对应的、具有如皮肤颜色、皮肤图样、大小、形状等属性、且具有自然声音的自然动物。
在模块76中,AI***对应于故事内容来对自然人类面部表情、自然动作和移动、以及自然语音和声音进行创作和改变,在帧与帧之间进行自然且平滑的过渡。
在模块77中,AI***对应于故事内容来对物体和/或自然动物的移动和声音进行创作和改变,在帧与帧之间进行自然且平滑的过渡。
图8为本申请实施例中的基于动画视频中的故事的AI电影制作***的详图,并在此说明。
参见图8所示,在模块81中,AI***接收动画视频中的输入故事内容。
在模块82中,AI***通读故事,并使用AI图像视频理解分析技术在细节上领会故事情节和内容,从而理解场景、识别故事内容中的人物和其他物品及其属性、动作和移动。
在模块83中,AI***创作与具有自然海洋、山峦、河流、树木、街道、道路、田野、公园和其他物体、及其诸如颜色、尺寸、形状、类型、图样等属性在内的故事内容所对应的、带有音乐和声音的自然场景和背景。可选地,在模块88中,AI***能够对所创作的场景和背景、所创作的物体、以及彼此之间的位置和布局进行属性改变。
在模块84中,AI***创作与故事内容对应的、具有自然面部、自然人体和自然人类属性的自然人类演员。可选地,在模块89中,AI***能够对所创作的自然人类演员的属性(包括但不限于,年龄、面部皮肤、面部形状、发型、如眼睛、口罩、围巾、帽子等穿戴配件、身体大小和形状、不同颜色和图样的衣物、以及诸如挎包、抱孩子、骑摩托车等其他人类属性)进行改变。
在模块85中,AI***创作与故事内容对应的、具有如皮肤颜色、皮肤图样、大小、形状等属性、且具有自然声音的自然动物。
在模块86中,AI***对应于故事内容来对自然人类面部表情、自然动作和移动、以及自然语音和声音进行创作和改变,在帧与帧之间进行自然且平滑的过渡。
在模块87中,AI***对应于故事内容来对物体和/或自然动物的移动和声音进行创作和改变,在帧与帧之间进行自然且平滑的过渡。
图9为本申请实施例中的具有用户接口的AI电影制作***的示意图,并在此说明。
参见图9所示,在模块91中,AI***接收文本故事、漫画、套图、动画视频中的至少一种。
在模块92中,人作为用户使用计算机、笔记本电脑、平板电脑、移动电话通过用户界面与AI电影制作***进行交互。
在模块93中,所述用户接口允许用户从模块94的给定库中选择、查找所需条目,甚至是在自动功能顶部深度参与到电影创作过程(包括但不限于,写作、绘图、书写、剪辑、录音、***)中,从而制作出想要的个性化电影。所需的项目包括但不限于,具有各种场景结构、各种物体、各种风格的场景;具有各种人物面部、各种面部表情、各种人物人体、各种人物属性、各种动作、运动和语音的人物;具有各种属性和运动的物品。
在模块94中,AI***除了完全自动的电影创作功能之外还提供了AI电影制作库,其中所提供的海量条目是预先创作的、并且是由深度学习网络、对抗生成网络、深度强化学习或其他技术在线学习和更新的;并且这样的条目包括但不限于,具有各种场景结构、各种场景布置、各种物体、各种风格的场景;具有各种人物面部、各种面部表情、各种人物属性、各种动作、运动和语音的人物;具有各种属性和运动的物品及动物。
基于相同的发明构思,本申请实施例还提供了一种使用AI技术来生成具有给定面部图像的视频内容或序列的方法,该给定面部图像可以是世界上现存的或者未出现的,其中所生成的视频中的面部姿势和表情对应地跟随给定目标视频中的相同姿势和表情。
在一些可能的实施方式中,在上述生成具有给定面部图像的视频内容或序列的方法中,还可以对所生成的视频中的面部姿势和表情进行预测、或者使用特定准则(guideline)来预测、或者随机生成、或者基于给定的故事文本进行翻译。
可选地,上述所生成的视频中的面部姿势和表情被创作为所生成的图像之间的给定特定姿势和面部、或者给定的姿势和表情。
具体来说,参见图10和图11,本申请实施例提供一种用于根据单个面部图像的高真实性、保留身份(identity-preserving)的面部视频内容生成的新框架,其中将面部动态作为条件对先验引导面部生成器的面部生成进行引导。该框架可以应用于前述模块74和模块84中对于自然人类演员进行的创作,特别是自然人类演员的自然面部的创作;以及应用于前述模块76和模块86中对于自然人类面部表情进行的创作和改变,特别是实现自然面部在帧与帧之间的过渡。3D动态生成网络用于预测时空一致3D动态序列。3D下采样纹理映射被设计用于将源图像的3D面部形状作为先验知识,其覆盖了丰富的源图像内容信息以引导面部生成。面部视频生成包括有随机方式和可控方式,前者预测合理的未来面部帧,而后者能够由具有所设计面部帧的给定目标视频中限定的规则控制或者由特定准则控制以生成给定目标的面部帧。
图10为本申请实施例中的基于具有3D重构和3D顶点的给定图像的视频生成方法的示意图。
参见图10所示,给定一张面部图像作为源面部图像(即源面部帧),模块12中的3D面部形状和模块13中的3D顶点能够通过对模块11中的3DMM的系数进行估计来得到。模块12将3DMM系数变换为3Dc1、3Dc2……3Dck(即由LSTM网络采用设计条件或随机预测的3DMM系数,或从视频序列中的目标面部图像(如源面部图像)预测的3DMM系数),模块14中的3D面部形状能够重塑并且其表面能够基于模块15中的3D下采样纹理(即源图像的采样纹理)映射进行渲染,得到采样后的纹理(P0……Pk)。采样后的纹理(P0……Pk)可以用于引导面部生成。
这里使用3D面部拟合来根据给定的输入面部图像估计3D面部形状、表情和摄像头投射矩阵。基于3DMM并根据单个面部图像来估算3D面部,其中2D面部图像的3D顶点能够被表达为一组主成分分析PCA基的线性组合。
进一步地,图11为本申请实施例中的具有用于预测的长短期记忆(long shorttime memory,LSTM)以及用于生成网络的编码器和解码器的视频生成方法的示意图。
参见图11所示,3D动态预测(3D dynamic prediction,3DDP)网络21用于预测源面部(即源面部图像Is)的未来3D动态序列(3Ddi)。源面部图像连同所生成的3Ddi用于生成3D先验(Pi),Pi用于对面部生成网络(即3DPP网络中的PGFG)的面部生成进行引导,3D先验可以理解为图10中模块15中3D下采样纹理映射得到的纹理(P0……Pk)。这里,3Ddi表示源面部的3D动态序列中的第i个系数,3D动态序列可以理解为图10的实施例中所述的预测的3DMM的系数的集合。Pi表示3Ddi生成的3D先验。Ii表示为由Pi引导生成的面部图像,i=0、1、2、…、N。
具体来说,在3DDP网络21中,首先,将源面部图像Is输入3DMM,获得3DMM的系数3Dd0,然后,将3Dd0输入多个LSTM网络,并由LSTM网路采用如设计条件、随机预测、从视频序列中的目标面部图像(如源面部图像)等方式预测3DMM的系数(即3Dd1、3Dd2、…、3Ddi、…、3DdN),以此得到3D动态序列。接下来,针对其中的每一个系数3Ddi,可以采用图10的实施所述的方法,基于3Ddi对3D面部形状进行重塑,并对重塑后的3D面部型形状进行3D下采样纹理映射并渲染,获得该系数3Ddi对应的、用于引导面部生成的Pi
在面部生成网络22中,源面部图像Is被用于基于3D下采样纹理映射对预测的3D动态(3Ddi)进行渲染。这里,3D下采样纹理是用于引导面部生成的3D先验(Pi)。面部生成网络22是有条件GAN,其包含用于以预测的3D先验序列为条件的高真实度面部生成的先验引导面部生成器以及对目标3D先验相关的输出的真/伪(real/fake)进行辨别的双输入鉴别器D。
在面部生成网络22中,面部生成网络获取到三个输入,包括:源面部图像Is、Is的对应3D先验(Ps)、以及目标3D先验(Pt)。将Ps和Pt提供给编码器E并相减以获得先验残差,而不是使用Pt直接引导面部生成。因此,能够以先验残差为条件并根据Is来预测目标面部图像。
其中,先验引导面部生成器可以包括编码器E和解码器F。F以源面部图像Is、以及3D先验(Ps)和目标3D先验(Pt)之间的先验残差的串联表示为输入,输出图像
Figure BDA0002954512310000161
双输入鉴别器D以目标3D先验(Pt)作为条件,并将真/伪图像(即真实的面部图像(It)以及图像
Figure BDA0002954512310000162
)配对为双输入。
基于相同的发明构思,本申请还提供一种用于AI电影制作***的方法和装置,
实施例1、一种用于AI电影制作***的方法和装置,包括:
接收文本、漫画、或套图中的故事情节;
通读故事情节,并且领会故事内容;
基于所述故事内容自动创作自然电影或视频。
实施例2、根据实施例1所述用于AI电影制作***的方法和装置,其中通读故事情节,并且领会故事内容进一步包括:
基于故事内容来理解具有对应物体和属性的场景;
基于故事内容来识别具有对应属性的人物;
基于故事内容来识别具有对应属性的动物;
基于故事内容来识别面部表情、人的动作和移动;
基于故事内容来识别具有对应属性和运动的其他物体(例如车辆)。
实施例3、根据实施例1所述用于AI电影制作***的方法和装置,其中基于故事内容自动创作自然电影或视频进一步包括:
基于故事内容,创作具有诸如海洋、山峦、树木、建筑物等自然物体及其属性的自然场景,并且改变其位置和彼此布局;
基于故事内容,创作具有自然面部表情、自然人属性、自然人动作、和自然语音和对话的自然演员,并且以帧与帧之间平滑、自然过渡的方式对所述自然面部表情、自然人属性、自然人动作、和自然语音和对话进行改变;
基于故事内容,创作具有属性和动作的自然动物,并且以帧与帧之间平滑、自然过渡的方式对所述属性和动作进行改变;
基于故事内容,创作具有属性和动作的自然物品(例如车辆),并且以帧与帧之间平滑、自然过渡的方式对所述属性和动作进行改变。
实施例4、根据实施例1所述用于AI电影制作***的方法和装置,其中基于故事内容自动创作自然电影或视频进一步包括:
基于故事内容但并不完全与之相同,创作具有诸如海洋、山峦、树木、建筑物等自然物体及其属性的自然场景,并且改变其位置和彼此布局;
基于故事内容但并不完全与之相同,创作具有自然面部表情、自然人属性、自然人动作、和自然语音和对话的自然演员,并且以帧与帧之间平滑、自然过渡的方式对所述自然面部表情、自然人属性、自然人动作、和自然语音和对话进行改变;
基于故事内容但并不完全与之相同,创作具有属性和动作的自然动物,并且以帧与帧之间平滑、自然过渡的方式对所述属性和动作进行改变;
基于故事内容但并不完全与之相同,创作具有属性和动作的自然物品(例如车辆),并且以帧与帧之间平滑、自然过渡的方式对所述属性和动作进行改变。
实施例5、根据实施例1所述用于AI电影制作***的方法和装置,其中基于故事内容自动创作自然电影或视频进一步包括:
具有使用户与AI电影制作***进行交互以供用户从所提供的作为AI电影制作***一部分的库中进行选择的功能,并且这样的选择包括但不限于:场景结构及其属性,人物,人面部,人属性,动物及其属性,物品及其属性,人、动物和物品的动作和移动,具有特定运动的一部分视频;
具有使用户与AI电影制作***进行交互以供用户使用关键字从作为AI电影制作***一部分的库中查找期望条目的功能,并且这样的条目包括但不限于:场景结构及其属性,人物,人面部,人属性,动物及其属性,物品及其属性,人、动物和物品的动作和移动,具有特定运动的一部分视频;
具有使用户与AI电影制作***进行交互以供用户基于其兴趣和偏好参与到包括画图、写作、书写、使用计算机或移动电话用户接口进行的剪辑、声音和语音录制、之后***到场景和图像和音轨中或者修改场景和图像或音轨,并且这样的兴趣包括但不限于:场景结构及其属性,人物,人面部,人属性,动物及其属性,物品及其属性,人、动物和物品的动作和移动,具有特定运动的一部分视频。
实施例6、一种用于AI电影制作***的方法和装置,包括:
接收卡通电影或动画中的故事情节;
通读故事情节,并且领会故事内容;
基于所述卡通电影或动画中的故事内容自动创作自然电影或视频。
实施例7、根据实施例6所述用于AI电影制作***的方法和装置,其中通读故事情节,并且领会故事内容进一步包括:
基于卡通电影或动画中的故事内容来理解具有对应物体和属性的场景;
基于卡通电影或动画中的故事内容来识别具有对应属性的人物;
基于卡通电影或动画中的故事内容来识别具有对应属性的动物;
基于卡通电影或动画中的故事内容来识别面部表情、人的动作和移动;
基于卡通电影或动画中的故事内容来识别具有对应属性和运动的其他物体(例如车辆)。
实施例8、根据实施例6所述用于AI电影制作***的方法和装置,其中基于卡通电影或动画中的故事内容自动创作自然电影或视频进一步包括:
基于卡通电影或动画中的故事内容,创作具有诸如海洋、山峦、树木、建筑物等自然物体及其属性的自然场景,并且改变其位置和彼此布局;
基于卡通电影或动画中的故事内容,创作具有自然面部表情、自然人属性、自然人动作、和自然语音和对话的自然演员,并且以帧与帧之间平滑、自然过渡的方式对所述自然面部表情、自然人属性、自然人动作、和自然语音和对话进行改变;
基于卡通电影或动画中的故事内容,创作具有属性和动作的自然动物,并且以帧与帧之间平滑、自然过渡的方式对所述属性和动作进行改变;
基于卡通电影或动画中的故事内容,创作具有属性和动作的自然物品(例如车辆),并且以帧与帧之间平滑、自然过渡的方式对所述属性和动作进行改变。
实施例9、根据实施例6所述用于AI电影制作***的方法和装置,其中基于卡通电影或动画中的故事内容自动创作自然电影或视频进一步包括:
基于卡通电影或动画中的故事内容但并不完全与之相同,创作具有诸如海洋、山峦、树木、建筑物等自然物体及其属性的自然场景,并且改变其位置和彼此布局;
基于卡通电影或动画中的故事内容但并不完全与之相同,创作具有自然面部表情、自然人属性、自然人动作、和自然语音和对话的自然演员,并且以帧与帧之间平滑、自然过渡的方式对所述自然面部表情、自然人属性、自然人动作、和自然语音和对话进行改变;
基于卡通电影或动画中的故事内容但并不完全与之相同,创作具有属性和动作的自然动物,并且以帧与帧之间平滑、自然过渡的方式对所述属性和动作进行改变;
基于卡通电影或动画中的故事内容但并不完全与之相同,创作具有属性和动作的自然物品(例如车辆),并且以帧与帧之间平滑、自然过渡的方式对所述属性和动作进行改变。
实施例10、根据实施例6所述用于AI电影制作***的方法和装置,其中基于卡通电影或动画中的故事内容自动创作自然电影或视频进一步包括:
具有使用户与AI电影制作***进行交互以供用户从所提供的作为AI电影制作***一部分的库中进行选择的功能,并且这样的选择包括但不限于:场景结构及其属性,人物,人面部,人属性,动物及其属性,物品及其属性,人、动物和物品的动作和移动,具有特定运动的一部分视频;
具有使用户与AI电影制作***进行交互以供用户使用关键字从作为AI电影制作***一部分的库中查找期望条目的功能,并且这样的条目包括但不限于:场景结构及其属性,人物,人面部,人属性,动物及其属性,物品及其属性,人、动物和物品的动作和移动,具有特定运动的一部分视频;
具有使用户与AI电影制作***进行交互以供用户基于其兴趣和偏好参与到包括画图、写作、书写、使用计算机或移动电话用户接口进行的剪辑、声音和语音录制、之后***到场景和图像和音轨中或者修改场景和图像或音轨,并且这样的兴趣包括但不限于:场景结构及其属性,人物,人面部,人属性,动物及其属性,物品及其属性,人、动物和物品的动作和移动,具有特定运动的一部分视频。
实施例11、一种用于AI电影制作***的方法和装置,包括:
输入可用的单张图像或一套面部图像,或使用AI技术创建现实的人面部图像,以作为源图像;
针对上述源图像创建3DMM系数;
根据所述3DMM系数估算3D面部形状和3D顶点;
通过改变3DMM系数来对3D形状重塑形状;
使用纹理对3D形状进行渲染以引导视频内容创作过程中的面部生成。
实施例12、根据实施例11所述用于AI电影制作***的方法和装置,其中通过改变3DMM系数来对3D形状重塑形状进一步包括:
由LSTM网络采用设计条件或随机预测3DMM系数,或从视频序列中的目标面部帧预测3DMM系数。
本领域技术人员能够领会,结合本文公开描述的各种说明性逻辑框、模块和算法步骤所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施,那么各种说明性逻辑框、模块、和步骤描述的功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包括任何促进将计算机程序从一处传送到另一处的媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本申请中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
作为实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。并且,任何连接被恰当地称作计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。但是,应理解,所述计算机可读存储媒体和数据存储媒体并不包括连接、载波、信号或其它暂时媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的各种说明性逻辑框、模块、和步骤所描述的功能可以提供于经配置以用于编码和解码的专用硬件和/或软件模块内,或者并入在组合编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本申请的技术可在各种各样的装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本申请中描述各种组件、模块或单元是为了强调用于执行所揭示的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可结合合适的软件和/或固件组合在编码解码器硬件单元中,或者通过互操作硬件单元(包含如上文所描述的一或多个处理器)来提供。
在上述实施例中,对各个实施例的描述各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上所述,仅为本申请示例性的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以实施例的保护范围为准。

Claims (11)

1.一种数据处理方法,其特征在于,包括:
获得具有故事情节的文本和/或图像集合;
通过对所述文本和/或所述图像集合进行分析,获得所述故事情节对应的要素信息;
根据所述要素信息,生成目标视频,其中,所述目标视频至少包括:自然场景和/或自然对象。
2.根据权利要求1所述的方法,其特征在于,所述根据所述要素信息,生成目标视频,包括:
根据所述要素信息,从预设的素材集合中选择对应的目标素材,其中,所述预设的素材集合包括使用素材创建网络创建的素材;以及
根据所述目标素材,生成所述目标视频;
或者,
所述根据所述要素信息,生成目标视频,包括:
生成并输出交互界面,其中,所述交互界面包括待选择的素材;
根据用户在所述交互界面上的选择操作,从所述待选择的素材中确定目标素材;以及
根据所述目标素材,生成所述目标视频。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标素材,生成所述目标视频,包括:
按照所述故事情节,设置所述目标素材的属性信息;以及
根据所述目标素材以及所述目标素材的属性信息,生成所述目标视频。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标素材以及所述目标素材的属性信息,生成所述目标视频,包括:
将所述目标素材以及所述目标素材的属性信息输入生成网络,生成所述目标视频,其中,所述生成网络是基于样本文本和/或样本图像集合训练得到的;
优选地,当所述目标素材包括视频素材时,所述目标素材包括:所述自然场景的图像和/或所述自然对象的图像;所述目标素材的属性信息包括以下至少一个:所述自然场景的布局信息、所述自然对象在所述自然场景中的位置信息、所述自然对象之间的相对位置信息;
优选地,当所述目标素材包括音频素材时,所述目标素材包括:所述自然场景的声音和/或所述自然对象的声音;所述目标素材的属性信息包括:音色和/或音量;进一步优选地,当所述自然对象为自然人物时,所述目标素材包括:自然语音和/或自然对话。
5.根据权利要求4所述的方法,其特征在于,当所述自然对象为自然人物时,所述目标素材的属性信息包括以下至少一个:所述自然人物的自然面部信息、所述自然人物的自然人体信息、所述自然人物的自然人属性信息、所述自然人物的自然人动作信息;
优选地,当所述目标素材的属性信息为所述自然人物的自然面部信息时,所述按照所述故事情节,设置所述目标素材的属性信息,包括:
为所述自然人物的图像生成三维人脸形变统计模型3DMM;以及
根据所述故事情节,变换所述3DMM的系数;
相应地,所述根据所述目标素材以及所述目标素材的属性信息,生成所述目标视频,包括:
基于所述自然人物的图像和变换后的系数,生成所述自然人物的自然面部信息。
6.根据权利要求1所述的方法,其特征在于,所述通过对所述文本和/或所述图像集合进行分析,获得所述故事情节对应的要素信息,包括:
将所述文本和/或所述图像集合输入已训练的分析网络;以及
获得所述分析网络输出的所述要素信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
按照所述故事情节,对所述目标视频进行帧间平滑处理。
8.根据权利要求1所述的方法,其特征在于,所述文本包括剧本和/或故事书籍;所述图像集合包括漫画、套图和动画视频中的至少一种;
和/或,
所述自然对象包括以下至少一个:自然人物、自然动物、自然物品。
9.一种数据处理装置,其特征在于,包括:输入模块、分析模块以及生成模块;其中,
所述输入模块,用于获得具有故事情节的文本和/或图像集合;
所述分析模块,用于通过对所述文本和/或所述图像集合进行分析,获得所述故事情节对应的要素信息;
所述生成模块,用于根据所述要素信息,生成目标视频,其中,所述目标视频至少包括:自然场景和/或自然对象。
10.一种电子设备,其特征在于,包括:
处理器;
存储器,其存储有可由所述处理器处理的指令,当所述指令被所述处理器执行时,使得所述电子设备执行如权利要求1至8任一项所述的方法。
11.一种存储介质,其存储有指令,当所述指令由处理器运行时,执行如权利要求1至8任一项所述的方法。
CN202110220285.XA 2020-02-26 2021-02-26 一种数据处理方法、装置、电子设备及存储介质 Pending CN112819933A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SG10202001693V 2020-02-26
SG10202001693VA SG10202001693VA (en) 2020-02-26 2020-02-26 Methods and Apparatus for AI (Artificial Intelligence) Movie Producer System

Publications (1)

Publication Number Publication Date
CN112819933A true CN112819933A (zh) 2021-05-18

Family

ID=75864127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110220285.XA Pending CN112819933A (zh) 2020-02-26 2021-02-26 一种数据处理方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN112819933A (zh)
SG (1) SG10202001693VA (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821690A (zh) * 2021-11-23 2021-12-21 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法、装置、电子设备和存储介质
CN115550682A (zh) * 2021-06-29 2022-12-30 上海数字电视国家工程研究中心有限公司 一种图文视频的合成方法和***
CN116389853A (zh) * 2023-03-29 2023-07-04 阿里巴巴(中国)有限公司 视频生成方法
CN117041627A (zh) * 2023-09-25 2023-11-10 宁波均联智行科技股份有限公司 Vlog视频生成方法及电子设备
CN118055300A (zh) * 2024-04-10 2024-05-17 深圳云天畅想信息科技有限公司 基于大模型的云视频生成方法、装置及计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101268494A (zh) * 2005-09-21 2008-09-17 松下电器产业株式会社 视频制作装置以及视频制作方法
KR20150116929A (ko) * 2014-04-08 2015-10-19 주식회사 엘지유플러스 텍스트에 기반한 동영상 생성장치 및 그 생성방법
US20180268201A1 (en) * 2017-03-15 2018-09-20 Nec Laboratories America, Inc. Face recognition using larger pose face frontalization
CN108933970A (zh) * 2017-05-27 2018-12-04 北京搜狗科技发展有限公司 视频的生成方法和装置
CN109218835A (zh) * 2018-09-30 2019-01-15 百度在线网络技术(北京)有限公司 精华视频的生成方法、装置、设备及存储介质
US20190065835A1 (en) * 2017-08-31 2019-02-28 Banuba Limited Computer-implemented methods and computer systems for real-time detection of human's emotions from visual recordings
US20190304157A1 (en) * 2018-04-03 2019-10-03 Sri International Artificial intelligence in interactive storytelling
CN110611840A (zh) * 2019-09-03 2019-12-24 北京奇艺世纪科技有限公司 一种视频生成方法、装置、电子设备及存储介质
CN110677598A (zh) * 2019-09-18 2020-01-10 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101268494A (zh) * 2005-09-21 2008-09-17 松下电器产业株式会社 视频制作装置以及视频制作方法
KR20150116929A (ko) * 2014-04-08 2015-10-19 주식회사 엘지유플러스 텍스트에 기반한 동영상 생성장치 및 그 생성방법
US20180268201A1 (en) * 2017-03-15 2018-09-20 Nec Laboratories America, Inc. Face recognition using larger pose face frontalization
CN108933970A (zh) * 2017-05-27 2018-12-04 北京搜狗科技发展有限公司 视频的生成方法和装置
US20190065835A1 (en) * 2017-08-31 2019-02-28 Banuba Limited Computer-implemented methods and computer systems for real-time detection of human's emotions from visual recordings
US20190304157A1 (en) * 2018-04-03 2019-10-03 Sri International Artificial intelligence in interactive storytelling
CN109218835A (zh) * 2018-09-30 2019-01-15 百度在线网络技术(北京)有限公司 精华视频的生成方法、装置、设备及存储介质
CN110611840A (zh) * 2019-09-03 2019-12-24 北京奇艺世纪科技有限公司 一种视频生成方法、装置、电子设备及存储介质
CN110677598A (zh) * 2019-09-18 2020-01-10 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115550682A (zh) * 2021-06-29 2022-12-30 上海数字电视国家工程研究中心有限公司 一种图文视频的合成方法和***
CN113821690A (zh) * 2021-11-23 2021-12-21 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法、装置、电子设备和存储介质
CN113821690B (zh) * 2021-11-23 2022-03-08 阿里巴巴达摩院(杭州)科技有限公司 数据处理方法、装置、电子设备和存储介质
CN116389853A (zh) * 2023-03-29 2023-07-04 阿里巴巴(中国)有限公司 视频生成方法
CN116389853B (zh) * 2023-03-29 2024-02-06 阿里巴巴(中国)有限公司 视频生成方法
CN117041627A (zh) * 2023-09-25 2023-11-10 宁波均联智行科技股份有限公司 Vlog视频生成方法及电子设备
CN117041627B (zh) * 2023-09-25 2024-03-19 宁波均联智行科技股份有限公司 Vlog视频生成方法及电子设备
CN118055300A (zh) * 2024-04-10 2024-05-17 深圳云天畅想信息科技有限公司 基于大模型的云视频生成方法、装置及计算机设备

Also Published As

Publication number Publication date
SG10202001693VA (en) 2021-09-29

Similar Documents

Publication Publication Date Title
Zhan et al. Multimodal image synthesis and editing: A survey and taxonomy
CN112819933A (zh) 一种数据处理方法、装置、电子设备及存储介质
Chuang et al. Mood swings: expressive speech animation
CN115205949B (zh) 图像生成方法以及相关设备
JP2021192222A (ja) 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
KR102509666B1 (ko) 텍스트 및 오디오 기반 실시간 얼굴 재연
Cosatto et al. Lifelike talking faces for interactive services
KR20210124312A (ko) 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체
CN111724457A (zh) 基于ue4的真实感虚拟人多模态交互实现方法
US11581020B1 (en) Facial synchronization utilizing deferred neural rendering
US11582519B1 (en) Person replacement utilizing deferred neural rendering
CN114357135A (zh) 交互方法、交互装置、电子设备以及存储介质
US20180143741A1 (en) Intelligent graphical feature generation for user content
WO2023221684A1 (zh) 数字人生成方法和装置及存储介质
US11983808B2 (en) Conversation-driven character animation
Margetis et al. Realistic natural interaction with virtual statues in x-reality environments
CN113395569B (zh) 视频生成方法及装置
Chamola et al. Beyond reality: The pivotal role of generative ai in the metaverse
Ju et al. Expressive facial gestures from motion capture data
CN117036555B (zh) 数字人的生成方法、装置和数字人的生成***
CN115550744B (zh) 一种语音生成视频的方法和装置
CN116863003A (zh) 视频生成方法、训练视频生成模型的方法及装置
CN117115310A (zh) 一种基于音频和图像的数字人脸生成方法及***
Li Musical instrument performance in augmented virtuality
CN117370605A (zh) 一种虚拟数字人驱动方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210518

WD01 Invention patent application deemed withdrawn after publication