CN116939288A

CN116939288A - 视频生成方法及其装置、计算机设备

Info

Publication number: CN116939288A
Application number: CN202310879292.XA
Authority: CN
Inventors: 林绪虹; 李凌; 王颖琦
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-10-24

Abstract

本申请实施例提供一种视频生成方法及其装置、计算机设备，所述方法包括：接收预设文本，解析所述预设文本得到第一类视频素材和第二类视频素材；基于所述第二类视频素材，生成前景层以及背景层；基于所述第一类视频素材、所述前景层以及所述背景层，生成视频。本申请能够有效提升基于文本生成视频的效率。

Description

视频生成方法及其装置、计算机设备

技术领域

本申请属于图像处理领域，涉及视频处理技术，尤其涉及一种视频生成方法及其装置、计算机设备。

背景技术

用户在制作视频的过程中，需要采用不同的辅助工具来配置视频中涉及的相关视频元素，比如，借助特效辅助工具来制作视频的特效部分，这类方法适用于具备一定视频制作功底的用户。针对普通用户而言，在制作视频的过程中需要花费大量的时间，视频制作的难度较大且效率较低，比如从事教育、咨询以及信息播报等行业的用户，这类用户往往需要生成内容较为复杂的视频，并且需要频繁更新视频。用户若没有一定的视频制作功底，在采用辅助工具生成视频时，不仅会增加视频生成的难度，还会降低视频生成的效率。

发明内容

本申请实施例提供一种视频生成方法及其装置、计算机设备，能够解决文本生成视频的效率低的技术问题。

本申请实施例第一方面提供一种视频生成方法，包括：接收预设文本，解析所述预设文本得到第一类视频素材和第二类视频素材；基于所述第二类视频素材，生成前景层以及背景层；基于所述第一类视频素材、所述前景层以及所述背景层，生成视频。

根据本申请实施例，所述方法还包括：所述预设文本包括第一类文本，所述解析所述预设文本得到第一类视频素材和第二类视频素材，包括：获取所述第一类文本中的场景文本、角色文本以及风格文本；基于所述场景文本、所述角色文本以及所述风格文本，生成目标文本；将所述目标文本输入预设的语义识别模型，得到所述第一类视频素材与所述第二类视频素材。

根据本申请实施例，所述方法还包括：所述第一类视频素材包括语音脚本、字幕脚本、动作脚本以及角色脚本中的一种或多种；所述第二类视频素材包括前景脚本与背景脚本。

根据本申请实施例，所述方法还包括：所述预设文本包括第二类文本，所述解析所述预设文本得到第一类视频素材和第二类视频素材，包括：将所述第二类文本输入预设的语义识别模型，得到所述第一类视频素材与所述第二类视频素材；将所述第一类视频素材中的字幕脚本替换成所述第二类文本。

根据本申请实施例，所述方法还包括：所述基于所述第二类视频素材，生成前景层以及背景层，包括：分别将所述前景脚本以及背景脚本输入预设的生成对抗网络，得到所述前景层对应的多个图像序列，以及所述背景层对应的多个图像序列；融合所述前景层对应的多个图像序列，得到所述前景层；融合所述背景层对应的多个图像序列，得到所述背景层。

根据本申请实施例，所述方法还包括：获取所述前景层中每一个图像的生成时间，以及所述背景层中每一个图像的生成时间；对所述前景层与所述背景层中具有相同生成时间的图像进行融合，得到多个视频帧。

根据本申请实施例，所述方法还包括：所述基于所述第一类视频素材、所述前景层以及所述背景层，生成视频，包括：获取生成所述第一类视频素材的每个关键词在所述目标文本或者所述第二类文本中的第一位置；获取生成每个视频帧的图像对应的每个关键词在所述目标文本或者所述第二类文本中的第二位置；根据所述第一位置与所述第二位置，将所述第一类视频素材***所述多个视频帧；对***所述第一类视频素材的多个视频帧进行融合，得到所述视频。

根据本申请实施例，所述方法还包括：所述前景层与所述背景层均分别包含子视频、图片、文字以及特效中的一种或多种。

本申请实施例第二方面提供一种视频生成装置，所述视频生成装置包括接收模块、第一生成模块以及第二生成模块：所述接收模块，用于接收预设文本，解析所述预设文本得到第一类视频素材和第二类视频素材；所述第一生成模块，用于基于所述第二类视频素材，生成前景层以及背景层；所述第二生成模块，用于基于所述第一类视频素材、所述前景层以及所述背景层，生成视频。

本申请实施例第三方面提供一种计算机设备，包括：存储器，及处理器，所述处理器执行所述存储器中存储的计算机可读指令，实现所述的视频生成方法。

本申请实施例提供的视频生成方法，能够基于预设文本，解析出第一类视频素材以及第二类视频素材，可以不借助额外的视频辅助工具，生成视频所需要的视频素材，在一定程度上可以减小视频生成的时间。此外，在得到第一类视频素材以及第二类视频素材之后，先基于第二类视频素材生成前景层以及背景层，再结合第一类视频素材，生成视频，能够在一定程度上降低视频生成的难度，以及提高视频生成的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频生成方法的应用环境示意图。

图2为本申请实施例提供的视频生成方法的流程示意图。

图3为本申请实施例提供的视频生成方法的流程示意图。

图4为本申请又一实施例提供的视频生成方法的流程示意图。

图5为本申请又一实施例提供的视频生成方法的流程示意图。

图6为本申请实施例提供的一种视频生成装置的原理框图。

图7为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本申请进行详细描述。

需要说明的是，本申请中“至少一个”是指一个或者多个，“多个”是指两个或多于两个。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不是用于描述特定的顺序或先后次序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，为本申请实施例提供的一种视频生成方法的应用环境示意图。如图1所示，用户终端10与服务器20通过网络进行通信。所述网络可以是有线网络通信，也可以是无线网络通信。有线网络可以是局域网、城域网和广域网中的任意一种，无线网络可以是蓝牙(Bluetooth,BT)、无线保真(Wireless Fidelity,Wi-Fi)、近场通信(Near FieldCommunication，NFC)、自组网无线通信(ZigBee Wireless Networks,ZigBee)技术、红外技术(Infrared，IR)、超宽带(Ultra Wideband，UWB)技术、无线通用串行总线(UniversalSerial Bus，USB)等任意一种网络。

用户终端10可以是手机、平板电脑、多媒体播放设备、个人计算机(PersonalComputer,PC)、可穿戴设备等电子设备。用户终端10可以是安装了应用程序的客户端，应用程序可以是教育类应用程序、咨询类应用程序、信息播报应用程序、直播类应用程序等。

服务器20用于为用户终端10中的应用程序提供后台服务。例如，服务器20可以是上述教育类应用程序的后台服务器。服务器20可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

示例性地，以教育类应用程序为例进行说明。用户在安装有教育类应用程序的客户端(例如，用户终端10)中执行了生成教育类视频的操作，并输入了生成教育类视频的预设文本，用户终端10将该预设文本发送至服务器20，服务器20对预设文本进行解析以及向用户终端10反馈生成的视频。通过这种方式，服务器20能够将具有逻辑性的预设文本或者用户直接输入的无逻辑性的多段预设文本进行解析生成视频，减少文本生成视频的难度，此外，当服务器20接收到用户直接输入的无逻辑性的多段预设文本时，能够将无逻辑性的多段预设文本转换成生成视频所需的文本，提高了视频生成的效率。

下文将以所述计算机程序产品运行于服务器(如图1所示的服务器20)为例进行说明。请参阅图2所示，为本申请实施例提供的视频生成方法的流程示意图，在本申请一实施例中，包括如下步骤：

步骤S201，接收预设文本，解析所述预设文本，得到第一类视频素材和第二类视频素材。

在本申请的一些实施例中，服务器接收到用户终端发送的预设文本，预设文本可以是一段或多端具有逻辑性的文本，还可以是一段或多段不具有逻辑性的描述性文本，本申请对此不予限制。

在本申请的一些实施例中，预设文本可以包括第一类文本以及第二类文本。在一示例中，第一类文本可以是一段或多段不具有逻辑性的描述性文本。在用户终端安装的一应用程序的用户界面(User Interface,UI)提供多个预设栏位供用户输入相应的内容，例如，预设栏位可以包括但不限于场景栏位、角色栏位以及风格栏位。各个预设栏位可以提供对应的指示信息，指示信息用于指示各个相应栏位需要输入的文本内容，场景栏位可以输入场景文本、角色栏位可以输入角色文本以及风格栏位可以输入风格文本等。用户根据指示信息可以填写相应内容的描述性文本，例如，用户可以在场景文本对应的位置填写描述场景相关的词汇或者一段文字，比如，描述场景相关的词汇可以是“阳光明媚、鸟语花香”等，描述场景相关的一段文字可以是“在明亮的教室内，有一群学生在上课”等。用户还可以在角色文本对应的栏位填写描述角色相关的词汇或者一段文字，比如，角色文本可以是小女孩、小学生、老师等。用户还可以在风格文本对应的位置填写描述风格相关的词汇或一段文字，比如，风格相关的描述可以包括复古风、简约风、科技立体风等。

在一示例中，第二类文本可以是一段或者多段具有逻辑性的描述性文本，第二类文本与第一类文本不同，第一类文本需要用户在相应的位置(例如，上述多个栏位)填写对应的内容，第二类文本不考虑制式要求，可以是用户任意输入的一段文字，例如，用户可以从剧本、故事或者策划文案中直接复制的一段文字而无需经过任何人工编辑。

在本申请的一些实施例中，在接收到第一类文本或者第二类文本时，可以对第一类文本或者第二类文本进行关键词解析，以得到合成视频所需要的第一类视频素材以及第二类视频素材。例如，可以采用语义识别模型对第一类文本或者第二类文本的关键词进行解析，以得到第一视频素材以及第二视频素材，其中，第一视频素材可以包括语音脚本、字幕脚本、动作脚本以及角色脚本中的一种或多种，第二视频素材可以包括前景脚本与背景脚本，将在下文结合具体实施例进行介绍。

步骤S202，基于第二类视频素材，生成前景层以及背景层。

在本申请的一些实施例中，第二类视频素材包括前景脚本与背景脚本，前景脚本可以是描述前景的描述性文字，背景脚本可以是描述背景的描述性文字。在本实施例中，可以采用文本到图像的生成技术，将前景脚本转换成前景层，将背景脚本转换成背景层，前景层与背景层均可以包括子视频、图片、文字以及特效等。其中，文本到图像的生成技术可以包括深度学习模型，如生成对抗网络(Generative Adversarial Networks,GAN)或变分自编码器(Variational Autoencoders,VAE)。

例如，在使用GAN或者VAE之前，需要先完成模型训练，以训练GAN为例进行说明。预先准备训练所需的数据集，数据集可以包括文本以及文本对应的图像序列，文本可以是描述性文本，比如，需要训练一个能够识别教育类文本的GAN，那么数据集中的文本可以包括教育类用语，对应的图像序列可以包括教室、校园等，如，文本为“上课”对应的图像可以为教室图，也可以为校园图，由多个不同的教室图以及校园图组成“上课”对应的图像序列。

GAN包括生成器(Generator)和判别器(Discriminator)，在确定数据集以后，将文本输入生成器中，生成器根据文本以及对应图像序列的映射关系，生成新的图像序列，将生成新的图像序列输入判别器中进行判断，判别器的目的是为了判断生成器生成的图像序列与数据集中的图像序列的相似度，判别器会根据判断输出一个概率值，如果判别器输出的概率值小于预设值，例如0.5，表示生成器生成的新的图像序列与数据集中的图像序列差异较大，需要继续训练，如果判别器输出的概率值大于或等于0.5，表示GAN训练完成。

在本申请的一些实施例中，将前景脚本输入经过训练的GAN以后，生成前景脚本对应的图像序列。融合前景脚本的图像序列，得到前景层对应的子视频、图像以及特效等，其中，融合前景脚本的图像序列可以采用光流估计等技术来跟踪图像序列中的动态对象，动态对象可以是相邻帧之间存在差异的对象，根据动态对象生成前景层的子视频以及特效等。光流估计是一种计算机视觉技术，用于估计图像中像素的运动，能够通过计算相邻帧之间的像素位置差异来推断物体(例如，动态对象)的运动方向和速度。在光流估计中，可以使用“光流场”的概念来表示每个像素在时间上的位置和运动状态。光流场可以通过对相邻帧之间的像素位置进行差分来计算得到。然后，可以使用这些光流值来计算物体在图像中的运动轨迹。

同样地，将背景脚本输入经过训练的GAN，可以得到背景脚本对应的图像序列。融合背景脚本的图像序列，得到背景层对应的子视频、图像以及特效等，其中，融合背景脚本的图像序列可以采用光流估计等技术来跟踪图像序列中的动态对象。

步骤S203，基于第一类视频素材、前景层以及背景层，生成视频。

在本申请的一些实施例中，在得到第一类视频素材、前景层以及背景层以后，可以根据前景层以及背景层生成视频帧，例如，获取生成前景层的生成时间以及生成背景层的生成时间，将相同的生成时间的前景层以及背景层融合成一视频帧，再基于时间顺序组合所有的视频帧。

在确定每一视频帧以后，获取第一类视频素材中对应的时间，将相同时间的第一类视频素材与视频帧融合，得到视频。例如，第一类视频素材包括语音脚本、字幕脚本、动作脚本以及角色脚本中的一种或多种，假设要融合携带第一时间的视频帧，遍历第一类视频素材中的所有脚本，若语音脚本中存在有第一时间生成的语音，将该语音作为第一时间的视频帧的播放语音，若字幕脚本中存在有第一时间生成的字幕，将该字幕作为第一时间的视频帧的字幕。

本申请实施例中，能够基于预设文本，解析出第一类视频素材以及第二类视频素材，可以不借助额外的视频辅助工具，生成视频所需要的视频素材，在一定程度上可以减小视频生成的时间。此外，在得到第一类视频素材以及第二类视频素材之后，先基于第二类视频素材生成前景层以及背景层，再结合第一类视频素材，生成视频，能够在一定程度上降低视频生成的难度，以及提高视频生成的效率。

请参阅图3，为本申请又一实施例提供的视频生成方法的流程示意图。在本实施例中，预设文本可以包括第一类文本，服务器可以从用户终端中获取第一类文本，以根据对第一类文本的处理，得到第一类文本对应的第一类视频素材与第二类视频素材。如图3所示的实施例，包括如下步骤：

步骤S301，接收第一类文本。

在本申请的一些实施例中，为了更符合用户的需求，用户可以直接在用户终端的UI界面对应的预设栏位上输入描述性文本。服务器可以接收到用户终端发送的预设文本，预设文本可以是不具有逻辑性的描述性文本。此外，步骤S301中关于第一类文本的具体描述，还可以参考如图2所示实施例的步骤S201，在此不再重复描述。

步骤S302，获取第一类文本中的场景文本、角色文本以及风格文本。

在本申请的一些实施例中，步骤S302的具体描述，可以参考如图2所示实施例的步骤S201关于第一类文本中场景文本、角色文本以及风格文本的描述，此外，服务器可以获取用户在用户终端的多个预设栏位中输入的内容。在一示例中，用户可以在用户终端的场景对应的预设栏位输入场景文本，用户可以在用户终端的角色对应的预设栏位输入角色文本，用户可以在用户终端的风格对应的栏位输入风格文本，服务器可以获取用户终端上的场景文本、角色文本以及风格文本。

步骤S303，基于场景文本、角色文本以及风格文本，生成目标文本。

在本申请的一些实施例中，接收到第一类文本时，可以将用户输入的场景文本、角色文本以及风格文本等合成一段具有逻辑性的目标文本，可以采用如序列到序列(Seq2Seq)模型、循环神经网络的序列到序列模型(Recurrent Neural Network-basedSequence-to-Sequence Model)、变分自编码器的序列到序列模型(VariationalAutoencoder-based Sequence-to-Sequence Model)等模型进行合成。

在一示例中，以采用序列到序列(Seq2Seq)模型进行文本合成为例进行说明。Seq2Seq模型包括编码器和解码器，将场景文本、角色文本以及风格文本输入到Seq2Seq模型中，编码器将场景文本、角色文本以及风格文本转换为具有固定长度的向量表示，解码器根据编码器转换得到的向量表示，生成目标文本。为了让目标文本更贴合用户输入的场景文本、角色文本以及风格文本，在Seq2Seq模型处理的过程中，可以加入注意力机制以及记忆单元等。将用户输入的场景文本、角色文本以及风格文本合成目标文本，可以让用户输入的描述性文本具有逻辑顺序，以便后续的处理。

步骤S304，将目标文本输入预设的语义识别模型，得到第一类视频素材与第二类视频素材。

在本申请的一些实施例中，在得到目标文本以后，可以从目标文本中得到合成视频所需要的第一类视频素材以及第二类视频素材，第一类视频素材以及第二类视频素材可以是根据目标文本生成的描述性文本。可以采用语义识别模型对目标文本进行识别，以得到第一类视频素材以及第二类视频素材。在采用语义识别模型对目标文本进行识别之前，可以先对语义识别模型进行训练，将已标记的训练数据输入深度学习模型进行编码，通过softmax函数将深度学习模型输出的描述性文本映射至第一类视频素材以及第二类视频素材中，以检测已标记的训练数据是否正确分类。

在一示例中，每一次训练结束后，可以计算深度学习模型输出的分类的准确率，通过准确率来评估深度学习模型是否训练完成，例如，若准确率达到预设的目标值，如95％，则确定深度学习模型训练完成。

在另一示例中，每一次训练结束后，可以计算深度学习模型的损失函数值，如果损失函数值逐渐减小，且趋于预设的损失函数范围内，则确定深度学习模型训练完成。

在另一示例中，可以预先设定训练深度学习模型的预设次数，若训练的次数达到预设次数，则确定深度学习模型训练完成。

在深度学习模型训练完成时，可以得到经过训练的语义识别模型。在训练得到语义识别模型以后，将目标文本输入语义识别模型，可以得到第一类视频素材以及第二类视频素材，第一类视频素材可以包括合成视频所需要的语音脚本、字幕脚本、动作脚本以及角色脚本中的一种或多种，第二类视频素材可以包括合成视频所需要的前景脚本以及背景脚本。

在本申请的实施例中，能够根据用户输入的场景文本、角色文本以及风格文本，获取更贴近用户需求的文本，在此基础上，利用文本合成技术，合成一段具有逻辑性的目标文本，为得到第一类视频素材与第二类视频素材提供依据，其中，第一类视频素材以及第二类视频素材中可以包括随时间(或文本逻辑)变化的文本。

请参阅图4，为本申请又一实施例提供的视频生成方法的流程示意图，在得到第一类视频素材、前景层以及背景层以后，可以根据生成第一类视频素材的关键词的第一位置，以及生成前景层和背景层的图像的关键词所在的第二位置，将第一类视频素材与前景层与背景层融合，得到视频。基于此，提供了如图4所示的实施例，包括如下步骤：

步骤S401，获取生成第一类视频素材的每个关键词在目标文本或者第二类文本中的第一位置。

在本申请的一些实施例中，第一类视频素材可以包括合成视频所需要的语音脚本、字幕脚本、动作脚本以及角色脚本，从语音脚本中提取生成语音脚本的每一个关键词在目标文本或者第二类文本中的位置作为第一位置，从字幕脚本中提取生成字幕脚本的每一个关键词在目标文本或者第二类文本中的位置作为第一位置，从动作脚本中提取生成动作脚本的每一个关键词在目标文本或者第二类文本中的位置作为第一位置，从角色脚本中提取生成角色脚本的每一个关键词在目标文本或者第二类文本中的位置作为第一位置。其中，每一关键词均有对应的第一位置，第一位置的确定，可以基于关键词位于目标文本或者第二类文本中的位置而确定，例如，一段话分为前序部分，中序部分以及后序部分，根据每一部分在目标文本或者第二类文本中出现的逻辑顺序，可以确定每一部分的每一个关键词均可以有对应的第一位置。

例如，在一示例中，以获取生成第一类视频素材的每个关键词在第二类文本中的第一位置为例进行说明。第二类文本为“人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能”。

以对第一句话“人工智能是计算机科学的一个分支”解析为例进行说明，对第二类文本中的每一个字进行排序，得到每一个字的序号。从该第二类文本中可以得到为“人工智能是计算机科学的一个分支”的语音脚本以及字幕脚本，其中，“人工智能是计算机科学的一个分支”的第一位置为位置序号1-15，还可以得到为“人工智能”的角色脚本，由于角色是视频中不可或缺的对象，在识别到角色为“人工智能”时，角色脚本的关键词的第一位置可以与语音脚本以及字幕脚本的第一位置相同，则角色为“人工智能”的第一位置也为位置序号1-15，也即，在播放语音脚本“人工智能是计算机科学的一个分支”时，角色为“人工智能”的角色脚本会同步显示，以同步语音脚本的播放。

步骤S402，获取生成每个视频帧的图像对应的每个关键词在目标文本或者第二类文本中的第二位置。

在本申请的一些实施例中，前景层与背景层包含多个图像序列，获取前景层中每一个图像的生成时间，以及背景层中每一个图像的生成时间，将对应相同的生成时间的前景层与背景层中对应的图像进行融合，得到多个视频帧。

例如，在一示例中，生成前景层的图像序列包括图像1、图像2以及图像3，图像1的生成时间为1点零1分、图像2的生成时间为1点零1分以及图像3生成时间为1点零2分，生成背景层的图像序列包括图像4、图像5以及图像6，图像4的生成时间为1点零1分、图像5的生成时间为1点零2分，图像6的生成时间为1点零2分。则将图像1、图像2以及图像4进行融合，生成一视频帧1，图像3、图像5以及图像6进行融合，生成一视频帧2，基于生成时间的顺序，对生成的多个视频帧进行排序，则视频帧1播放的时间早于视频帧2。以上只是示例，实际应用中，每一秒会生成若干张图像。

在本申请的一些实施例中，获取生成每个视频帧的图像对应的每一个关键词在目标文本或者第二类文本中的位置作为第二位置。

例如，在一示例中，对目标文本或者第二类文本中的文字进行排序，按照每个字在文中出现的位置进行排序，假设图像序列中包含关键词“人工智能”对应的图像1，则获取关键词“人工智能”在目标文本或者第二类文本中的位置，比如，位置为序号1-4，则序号1-4为图像1对应的关键词的第二位置。

步骤S403，根据第一位置与第二位置，将第一类视频素材***多个视频帧。

在本申请的一些实施例中，将每个第一位置与每个第二位置进行匹配，将具有相同位置的第一类视频素材与视频帧进行融合。

例如，在一示例中，“人工智能是计算机科学的一个分支”中的“人工智能”的语音脚本、字幕脚本以及角色脚本对应的第一位置为位置序号1-4，生成图像1的关键词“人工智能”对应的第二位置为序号1-4，则在基于图像1生成的视频1上***为“人工智能”的语音脚本、字幕脚本以及角色脚本。

步骤S404，对***第一类视频素材的多个视频帧进行融合，得到视频。

在本申请的一些实施例中，由于生成每个视频帧对应的图像均有对应的生成时间，因此，在将第一类视频素材***对应的视频帧以后，按照视频帧对应的图像的生成时间，组合多个视频帧后生成视频。

在本申请的实施例中，为了能够提升视频编辑的效率，在生成视频时分为两个部分，第一部分是对第一类视频素材的处理，第二部分是对第二类视频素材的处理，在基于第二类视频素材生成的视频帧的基础上，再融合第一类视频素材，能够在一定程度上提高生成视频的效率，以降低生成视频的难度。

请参阅图5，为本申请又一实施例提供的视频生成方法的流程示意图，为了让文本生成的视频更符合用户的逻辑要求，预设文本可以包括第二类文本，第二类文本可以是用户输入的具有逻辑性的文本，服务器可以从用户终端中获取第二类文本，以根据对第二类文本的处理，得到第二类文本对应的第一类视频素材与第二类视频素材。基于此，提供了如图5所示的实施例，包括如下步骤：

步骤S501，接收第二类文本。

在本申请的一些实施例中，为了让文本生成的视频更符合用户的逻辑要求，用户可以直接在用户终端的UI界面上输入一段或多段具有逻辑性的文本。此外，步骤S501中关于第二类文本的具体描述，可以参考如图2所示实施例的步骤S201，在此不再重复描述。

步骤S502，将第二类文本输入预设的语义识别模型，得到第一类视频素材与第二类视频素材。

在本申请的一些实施例中，步骤S502中关于语义识别模型的具体描述，可以参考如图3所示实施例的步骤S304的具体描述，在此不再对语义识别模型重复描述。从外，由于目标文本为一段或多段具有逻辑性的文本，第二类文本为一段或多段具有逻辑性的描述性文本，因此，将第二类文本输入预设的语义识别模型，得到第一类视频素材与第二类视频素材的处理过程，可以如图3所示实施例的步骤S304将目标文本输入预设的语义识别模型，得到第一类视频素材与第二类视频素材的处理过程，在此不再重复描述。

步骤S503，将第一类视频素材中的字幕脚本替换成第二类文本。

在本申请的一些实施例中，采用语义识别模型对目标文本与第二类文本的处理过程以及输出结果可以相同。在采用语义识别模型得到第一类视频素材的字幕脚本以后，为了更贴近客户的逻辑需求，可以直接将第二类文本作为第一类视频素材中的字幕脚本，也即将第一类视频素材中由语义识别模型生成的字幕脚本替换成第二类文本，将基于语义识别模型生成的字幕脚本置为无效数据。

在本申请的实施例中，在接收到第二类文本时，由于第二类文本属于一段或多端具有逻辑性的描述性文本，可以利用预设的语义识别模型，得到第一类视频素材以及第二类视频素材，在一定程度上可以提高提高生成视频的效率。此外，为了更贴近用户的需求，将基于语义识别模型生成的字幕脚本替换成第二类文本，可以提高生成视频的准确度。

请参阅图6，为本申请实施例提供的一种视频生成装置的原理框图，适应本申请的目的之一而提供一种视频生成装置，是对本申请的视频生成方法的功能化体现，该视频生成装置包括接收模块61、第一生成模块62以及第二生成模块63，其中：所述接收模块61，用于接收预设文本，解析所述预设文本得到第一类视频素材和第二类视频素材；所述第一生成模块62，用于基于所述第二类视频素材，生成前景层以及背景层；所述第二生成模块63，用于基于所述第一类视频素材、所述前景层以及所述背景层，生成视频。

在本申请任意实施例的基础上，预设文本包括第一类文本，所述接收模块61还包括：获取所述第一类文本中的场景文本、角色文本以及风格文本；基于所述场景文本、所述角色文本以及所述风格文本，生成目标文本；将所述目标文本输入预设的语义识别模型，得到所述第一类视频素材与所述第二类视频素材。

在本申请任意实施例的基础上，所述接收模块61还包括：所述第一类视频素材包括语音脚本、字幕脚本、动作脚本以及角色脚本中的一种或多种；所述第二类视频素材包括前景脚本与背景脚本。

在本申请任意实施例的基础上，预设文本包括第二类文本，所述接收模块61还包括：将所述第二类文本输入预设的语义识别模型，得到所述第一类视频素材与所述第二类视频素材；将所述第一类视频素材中的字幕脚本替换成所述第二类文本。

在本申请任意实施例的基础上，所述第一生成模块62还用于：所述基于所述第二类视频素材，生成前景层以及背景层，包括：分别将所述前景脚本以及背景脚本输入预设的生成对抗网络，得到所述前景层对应的多个图像序列，以及所述背景层对应的多个图像序列；融合所述前景层对应的多个图像序列，得到所述前景层；融合所述背景层对应的多个图像序列，得到所述背景层。

在本申请任意实施例的基础上，所述接收模块61还用于：获取所述前景层中每一个图像的生成时间，以及所述背景层中每一个图像的生成时间；对所述前景层与所述背景层中具有相同生成时间的图像进行融合，得到多个视频帧。

在本申请任意实施例的基础上，所述第二生成模块63还用于：获取生成所述第一类视频素材的每个关键词在所述目标文本或者所述第二类文本中的第一位置；获取生成每个视频帧的图像对应的每个关键词在所述目标文本或者所述第二类文本中的第二位置；根据所述第一位置与所述第二位置，将所述第一类视频素材***所述多个视频帧；对***所述第一类视频素材的多个视频帧进行融合，得到所述视频。

在本申请任意实施例的基础上，还包括：所述前景层与所述背景层均分别包含子视频、图片、文字以及特效中的一种或多种。

本申请的另一实施例还提供一种计算机设备。图1的应用环境仅是给出了一种示例，在另外一些示例性的实施例中，实现本申请实施例的视频生成方法的计算机程序产品也可以运行于任意具备足够算力的计算机设备(如图7所示的计算机设备)中，执行所述视频生成方法的各个步骤，从而提供文本生成视频的功能。

请参阅图7，为本申请实施例提供的一种计算机设备的结构示意图。如图7所示，在本申请的一个实施例中，计算机设备700可以为手机、平板电脑、智能穿戴设备、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)设备、笔记本电脑、上网本等设备上，本申请实施例对计算机设备700的具体类型不作任何限制。

如图7所示，该计算机设备700可以包括，但不限于，可以包括通信模块71、存储器72、处理器73、输入/输出(Input/Output，I/O)接口74及总线75。处理器73通过总线75分别耦合于通信接口71、存储器72、I/O接口74。

本领域技术人员可以理解，示意图仅仅是计算机设备700的示例，并不构成对计算机设备700的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备700还可以包括网络接入设备等。

通信模块71可以包括有线通信模块和/或无线通信模块。有线通信模块可以提供通用串行总线(Universal Serial Bus，USB)、控制器局域网总线(CAN，Controller AreaNetwork)等有线通信的解决方案中的一种或多种。无线通信模块可以提供无线保真(Wireless Fidelity,Wi-Fi)、蓝牙(Bluetooth,BT)、移动通信网络、调频(FrequencyModulation，FM)、近距离无线通信技术(near field communication，NFC)、红外技术(Infrared，IR)技术等无线通信的解决方案中的一种或多种。

存储器72可用于存储计算机可读指令和/或模块，处理器73通过运行或执行存储在存储器72内的计算机可读指令和/或模块，以及调用存储在存储器72内的数据，实现计算机设备700的各种功能。存储器72可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备700的使用所创建的数据等。存储器72可以包括非易失性和易失性存储器，例如：硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。

存储器72可以是计算机设备700的外部存储器和/或内部存储器。进一步地，存储器72可以是具有实物形式的存储器，如内存条、TF卡(Trans-flash Card)等等。

处理器73可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器73是计算机设备700的运算核心和控制中心，利用各种接口和线路连接整个计算机设备700的各个部分，及执行计算机设备700的操作***以及安装的各类应用程序、程序代码等。

示例性的，计算机可读指令可以被分割成一个或多个模块/子模块/单元，一个或者多个模块/子模块/单元被存储在存储器72中，并由处理器73执行，以完成本申请。一个或多个模块/子模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该计算机可读指令段用于描述计算机可读指令在计算机设备700中的执行过程。例如，计算机可读指令可以被分割接收模块61、第一生成模块62以及第二生成模块63。

计算机设备700集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，的计算机可读指令可存储于一计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。

其中，计算机可读指令包括计算机可读指令代码，计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)。

结合图2至图5，计算机设备700中的存储器72存储计算机可读指令，处理器73可执行存储器72中存储的计算机可读指令从而实现如图2至图5所示的视频生成方法。

具体地，处理器73对上述计算机可读指令的具体实现方法可参考图2至图5对应实施例中相关步骤的描述，在此不赘述。

I/O接口74用于提供用户输入或输出的通道，例如I/O接口74可用于连接各种输入输出设备，例如，鼠标、键盘、触控装置、显示屏等，使得用户可以录入信息，或者使信息可视化。

总线75至少用于提供计算机设备700中的通信模块71、存储器72、处理器73、I/O接口74之间相互通信的通道。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

接收预设文本，解析所述预设文本得到第一类视频素材和第二类视频素材；

基于所述第二类视频素材，生成前景层以及背景层；

基于所述第一类视频素材、所述前景层以及所述背景层，生成视频。

2.根据权利要求1所述的视频生成方法，其特征在于，所述预设文本包括第一类文本，所述解析所述预设文本得到第一类视频素材和第二类视频素材，包括：

获取所述第一类文本中的场景文本、角色文本以及风格文本；

基于所述场景文本、所述角色文本以及所述风格文本，生成目标文本；

将所述目标文本输入预设的语义识别模型，得到所述第一类视频素材与所述第二类视频素材。

3.根据权利要求2所述的视频生成方法，其特征在于，包括：

所述第一类视频素材包括语音脚本、字幕脚本、动作脚本以及角色脚本中的一种或多种；

所述第二类视频素材包括前景脚本与背景脚本。

4.根据权利要求1所述的视频生成方法，其特征在于，所述预设文本包括第二类文本，所述解析所述预设文本得到第一类视频素材和第二类视频素材，包括：

将所述第二类文本输入预设的语义识别模型，得到所述第一类视频素材与所述第二类视频素材；

将所述第一类视频素材中的字幕脚本替换成所述第二类文本。

5.根据权利要求3所述的视频生成方法，其特征在于，所述基于所述第二类视频素材，生成前景层以及背景层，包括：

分别将所述前景脚本以及背景脚本输入预设的生成对抗网络，得到所述前景层对应的多个图像序列，以及所述背景层对应的多个图像序列；

融合所述前景层对应的多个图像序列，得到所述前景层；

融合所述背景层对应的多个图像序列，得到所述背景层。

6.根据权利要求5所述的视频生成方法，其特征在于，所述方法还包括：

获取所述前景层中每一个图像的生成时间，以及所述背景层中每一个图像的生成时间；

对所述前景层与所述背景层中具有相同生成时间的图像进行融合，得到多个视频帧。

7.根据权利要求6所述的视频生成方法，其特征在于，所述基于所述第一类视频素材、所述前景层以及所述背景层，生成视频，包括：

获取生成所述第一类视频素材的每个关键词在所述目标文本或者所述第二类文本中的第一位置；

获取生成每个视频帧的图像对应的每个关键词在所述目标文本或者所述第二类文本中的第二位置；

根据所述第一位置与所述第二位置，将所述第一类视频素材***所述多个视频帧；

对***所述第一类视频素材的多个视频帧进行融合，得到所述视频。

8.根据权利要求5所述的视频生成方法，其特征在于，所述前景层与所述背景层均分别包含子视频、图片、文字以及特效中的一种或多种。

9.一种视频生成装置，其特征在于，所述视频生成装置包括接收模块、第一生成模块以及第二生成模块：

所述接收模块，用于接收预设文本，解析所述预设文本得到第一类视频素材和第二类视频素材；

所述第一生成模块，用于基于所述第二类视频素材，生成前景层以及背景层；

所述第二生成模块，用于基于所述第一类视频素材、所述前景层以及所述背景层，生成视频。

10.一种计算机设备，其特征在于，包括：

存储器，及

处理器，所述处理器执行所述存储器中存储的计算机可读指令，实现如权利要求1至8中任一项所述的视频生成方法。