CN118138854A

CN118138854A - 视频生成方法、装置、计算机设备及介质

Info

Publication number: CN118138854A
Application number: CN202410369477.0A
Authority: CN
Inventors: 刘高成; 刘青松; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2024-03-28
Filing date: 2024-03-28
Publication date: 2024-06-04

Abstract

本发明涉及计算机技术领域，公开了视频生成方法、装置、计算机设备及介质，该方法包括：获取文本内容，并根据文本内容确定各文本场景；根据各文本场景将文本内容拆为至少一个文本段落，其中，各文本场景与各文本段落一一对应；提取各文本段落的关键词信息，将各关键词信息输入至目标图片生成模型，得到各文本段落对应的图片；根据文本内容和各文本段落对应的图片，生成目标视频。

Description

视频生成方法、装置、计算机设备及介质

技术领域

本发明涉及计算机技术领域，具体涉及视频生成方法、装置、计算机设备及介质。

背景技术

根据文本生成视频是一种视频制作技术，它结合自然语言处理和人工智能技术，将文本内容转化为视频形式。这种技术能够显著缩短视频制作的时间和降低制作成本，同时提高视频的可定制性。

目前，文本生成视频是通过人工拆解文本内容，将拆解的文本内容，进行图文检索，最终将检索到的图片进行拼接得到视频。

然而，上述过程需要进行复杂、繁琐的人工操作，制作周期长，故亟需改进。

发明内容

有鉴于此，本发明提供了一种视频生成方法、装置、计算机设备及介质，以解决视频生成过程繁琐的问题。

第一方面，本发明提供了一种视频生成方法，该方法包括：

获取文本内容，并根据文本内容确定各文本场景；

根据各文本场景将文本内容拆分为至少一个文本段落，其中，各文本场景与各文本段落一一对应；

提取各文本段落的关键词信息，将各关键词信息输入至目标图片生成模型，得到各文本段落对应的图片；

根据文本内容和各文本段落对应的图片，生成目标视频。

在一种可选的实施方式中，在提取各文本段落的关键词信息，将各关键词信息输入至目标图片生成模型，得到各文本段落对应的图片之前，该方法还包括：

获取文本内容对应的视频风格；

根据视频风格，从模型库中选择目标图片生成模型。

在一种可选的实施方式中，根据视频风格，从模型库中选择目标图片生成模型，包括：

对候选模型库中的各候选图片生成模型的名称进行编码，得到各候选图片生成模型对应的特征向量；

对视频风格进行编码，得到风格向量；

将风格向量与各候选图片生成模型对应的特征向量进行特征匹配，从各候选图片生成模型中选择目标图片生成模型。

在一种可选的实施方式中，将风格向量与各候选图片生成模型对应的特征向量进行特征匹配，从各候选图片生成模型中选择目标图片生成模型，包括：

将风格向量与各候选图片生成模型对应的特征向量进行特征匹配，得到各匹配度值；

将匹配度值最高的候选图片生成模型，确定为目标图片生成模型。

在一种可选的实施方式中，根据文本内容和各文本段落对应的图片，生成目标视频，包括：

根据文本内容，生成音频信息；

将音频信息按照文本段落进行划分，得到与各文本段落对应的音频段落；

根据各文本段落对应的图片和音频段落，生成目标视频。

在一种可选的实施方式中，根据各文本段落对应的图片和音频段落，生成目标视频，包括：

根据各文本段落对应的图片和音频段落，生成视频帧；

根据各文本段落，对视频帧进行标注，得到包含字幕的视频帧；

根据各视频帧，得到目标视频。

在一种可选的实施方式中，根据各文本段落，对视频帧进行标注，得到包含字幕的视频帧，包括：

根据文本内容对应的视频风格，对文本段落进行格式转换；

根据格式转换后的文本段落，对视频帧进行标注，得到包含字幕的视频帧。

第二方面，本发明提供了一种视频生成装置，该装置包括：

获取模块，用于获取文本内容，并根据文本内容确定各文本场景；

拆分模块，用于根据各文本场景将文本内容拆分为至少一个文本段落，其中，各文本场景与各文本段落一一对应；

提取模块，用于提取各文本段落的关键词信息，将各关键词信息输入至目标图片生成模型，得到各文本段落对应的图片；

生成模块，用于根据文本内容和各文本段落对应的图片，生成目标视频。

第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的视频生成方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的视频生成方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的视频生成方法的流程示意图；

图2是根据本发明实施例提供的从模型库中选择目标图片生成模型的的流程示意图；

图3是根据本发明实施例提供的生成目标视频的流程示意图；

图4是根据本发明实施例提供的一种视频生成装置的装置示意图；

图5是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，文本生成视频是通过人工拆解文本内容，将拆解的文本内容，进行图文检索，最终将检索到的图片进行拼接得到视频。然而，上述过程需要人工进行复杂，繁琐的操作，制作周期长，故亟需改进。

为解决上述问题，本发明实施例，提供了一种视频生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在包括诸如一组计算机可执行指令的计算机***(计算机设备)中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种视频生成方法，可用于上述的终端机设备，如手机、平板电脑等，图1是根据本发明实施例的视频生成方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取文本内容，并根据文本内容确定各文本场景。

具体的，首先获取待转换成视频的文本内容。这可以是一个故事、一篇文章、一个剧本或者任何形式的叙述性文本。获取文本内容后，需要将其拆分成一个或多个文本段落。拆分的方式可以根据文本的结构、长度和内容来确定，目的是为了更好地组织和理解文本信息，以便于后续的关键词提取和图片生成。

可选的，根据文本内容确定各文本场景时，首先需要分析文本的整体主题和意图。这可以通过自然语言处理技术来实现，例如文本分类、关键词提取、情感分析等。根据文本的主题和意图，可以将文本划分为不同的场景，每个场景代表了文本中的一个特定主题或子主题。

步骤S102，根据各文本场景将文本内容拆分为至少一个文本段落。

其中，各文本场景与各文本段落一一对应。

可以理解的是，一旦确定了文本场景，接下来就可以将文本内容拆分为与各个场景相对应的文本段落。这个过程可以根据场景的定义和文本的结构来进行。例如，如果文本是关于一个故事的叙述，那么可以按照故事的发展顺序将文本拆分为不同的段落，每个段落对应故事中的一个情节或场景。

示例性的，设我们有一段文本内容是关于一个旅行者的经历，文本中描述了旅行者在不同的地点所做的事情和感受。我们可以根据文本内容确定以下几个文本场景：出发、途中风景、目的地体验、回程。然后，我们可以将文本内容拆分为与这些场景相对应的文本段落；其中，

1)出发段落：描述旅行者开始旅行的准备和出发的心情。

2)途中风景段落：描述旅行者在旅途中看到的风景和感受。

3)目的地体验段落：描述旅行者到达目的地后的活动和体验。

4)回程段落：描述旅行者结束旅行并返回的过程和感受。

通过这样的拆分，可以将文本内容组织得更加清晰和有条理，便于后续的处理和分析。

S103，提取各文本段落的关键词信息，将各关键词信息输入至目标图片生成模型，得到各文本段落对应的图片。

可以理解的是，针对每个拆分后的文本段落，提取其关键词信息。关键词可以是名词、动词、形容词等，它们能够代表文本段落中的主要内容和情境。提取关键词后，将这些关键词信息输入到一个预先训练好的图片生成模型中(如GANs、StyleGAN、DALL-E等)。这个模型会根据输入的关键词信息生成与之对应的图片。这些图片在视觉上应该能够反映出文本段落所描述的场景、物体或动作。

示例性的，将用户上传的文本的，送入文本内容理解模块，该模块主要是利用大语言模型(Large Language Model)，对文本内容进行理解，生成每个段落的概括内容TxT(P1,P2,P3,P4…Pn)，其中n代表有n个段落，P1表示每个段落的概括总结内容。将TxT(P1,P2,P3,P4…Pn)送入文本内容关键信息抽取模块，该模块主要对每个片段内容，进行关键信息抽取，提取每段文本内容的关键词(Prompt)，例如(场景，人物，动作，表情)等等。

步骤S104，根据文本内容和各文本段落对应的图片，生成目标视频。

可选的，在得到各文本段落对应的图片后，最后一步是根据原始文本内容和这些图片来生成目标视频。这通常涉及到将图片按照文本段落的顺序和时间线进行排列和组合，以形成一个连贯的视觉叙事。此外，还可以根据需要添加过渡效果、背景音乐、旁白或字幕等元素来增强视频的表现力和观赏性。最终生成的视频应该能够以一种直观和动态的方式呈现出原始文本内容所传达的信息和情感。

示例性的，通过上述每个段落的Prompt进行英文翻译，并送入多模态图片生成模型(Stable DIffusion)中，生成对应的图片。

本实施例提供的视频生成方法，本申请结合文本理解和图像生成的功能，用户只需提供文本和想要的风格信息，***就能自动完成从文本理解、图像生成到视频合成的全部过程。这种端到端的解决方案简化了操作流程，提高了生成效率，使用户能够更快速、更方便地将文本内容转换为视频形式。

在一个实施例中，如图2所示，该方法还包括：

步骤S201，获取文本内容对应的视频风格。

可选的，通过分析用户提供的文本内容，以确定用户期望的视频风格。这可以通过自然语言处理技术来实现，例如对文本中的关键词、情感倾向、描述细节等进行分析，以推断出适合的视频风格。视频风格可能包括动画风格、写实风格、抽象风格、特定时代或地域的风格等。***可以将这些风格信息编码为可理解的格式，如风格向量，以便后续的处理和匹配。

步骤S202，根据视频风格，从模型库中选择目标图片生成模型。

具体可以包括：1)、对候选模型库中的各候选图片生成模型的名称进行编码，得到各候选图片生成模型对应的特征向量。

其中，***首先对候选模型库中的每个图片生成模型的名称或描述进行编码，将其转换为特征向量的形式。这些特征向量应该能够反映模型在生成图片时的风格、特点和能力。

2)、对视频风格进行编码，得到风格向量。

同样地，***也需要将步骤S201中确定的视频风格编码为风格向量。这个风格向量应该能够准确地表示用户期望的视频风格的特点和属性。

3)、将风格向量与各候选图片生成模型对应的特征向量进行特征匹配，从各候选图片生成模型中选择目标图片生成模型。

具体的，将风格向量与各候选图片生成模型对应的特征向量进行特征匹配，得到各匹配度值；将匹配度值最高的候选图片生成模型，确定为目标图片生成模型。接下来，***将风格向量与候选模型库中的每个图片生成模型的特征向量进行匹配。匹配的过程可以是计算它们之间的相似度或距离，以量化它们之间的匹配程度。最后，***根据匹配度值从候选模型库中选择一个与视频风格最匹配的图片生成模型作为目标模型。通常，***会选择匹配度值最高的模型，因为它最有可能生成符合用户期望的视频风格的图片。

示例性的，利用CLIP模型对所有的图片生成模型的名字进行编码，得到所有的特征向量(F1,F2,…Fn)；利用CLIP模型对用户选择的风格文本进行编码，得到特征F；将F与(F1,F2,…Fn)进行点积运算，选取得分最高的，获得对应的图像生成模型。

在一个实施例中，如图3所示，提供了一种根据文本内容和各文本段落对应的图片，生成目标视频的可选方式，具体可以包括：

步骤S301，根据文本内容，生成音频信息。

可以理解的是，可以利用文本到语音(Text-to-Speech,TTS)技术或其他音频生成方法，将用户提供的文本内容转换为音频信息。这个音频信息可以包括朗读文本的声音、背景音乐、声效等，以增强视频的表现力和观感。

步骤S302，将音频信息按照文本段落进行划分，得到与各文本段落对应的音频段落。

进一步的，音频信息生成后，***需要根据文本段落的划分，将音频信息也相应地划分为多个音频段落。每个音频段落应该与对应的文本段落内容相匹配，以确保在后续的视频生成过程中，音频和图像能够同步且协调地展示。

步骤S303，根据各文本段落对应的图片和音频段落，生成目标视频。

最后，***将每个文本段落对应的图片和音频段落结合起来，生成目标视频。这个过程可能涉及到图像和音频的同步处理、过渡效果的添加、视频编码和格式转换等技术，以确保生成的视频在视觉和听觉上都是连贯和高质量的。

具体的，根据各文本段落对应的图片和音频段落，生成视频帧；根据各文本段落，对视频帧进行标注，得到包含字幕的视频帧；根据各视频帧，得到目标视频。

进一步的，根据文本内容对应的视频风格，对文本段落进行格式转换；根据格式转换后的文本段落，对视频帧进行标注，得到包含字幕的视频帧。

可以理解的是，根据每个文本段落对应的图片和音频段落来生成视频帧。图片会被设置为视频帧的背景或主要内容，而音频段落则与视频帧同步播放，以提供声音信息。这个过程可能涉及到图像的缩放、裁剪、旋转等处理，以确保图片在视频帧中的显示效果和比例都是最佳的。

接下来，***会根据需要对视频帧进行标注，添加字幕。字幕可以是文本段落的全部或部分内容，用于在视频播放时提供额外的文本信息。添加字幕的过程可能包括确定字幕的位置、大小、颜色、字体等属性，以及设置字幕的显示时间和动画效果。

另外，还可以根据用户选择的视频风格(如电影风格、动画风格、复古风格等)来调整字幕的样式和表现形式。例如，在电影风格中，字幕可能会以特定的字体、颜色和位置显示，以模拟电影中的字幕效果。这种格式转换可以确保字幕与视频的整体风格保持一致，提升视频的观赏体验。

最后，会将所有包含字幕的视频帧按照顺序和时间线进行组合和编码，生成目标视频。这个过程可能涉及到视频压缩、编码格式选择等步骤，以确保生成的视频文件既符合质量要求又便于传输和存储。

在本实施例中还提供了一种视频生成装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种视频生成装置4，如图4示，包括：

获取模块41，用于获取文本内容，并根据文本内容确定各文本场景；

拆分模块42，用于根据各文本场景将文本内容拆分为至少一个文本段落，其中，各文本场景与各文本段落一一对应；；

提取模块43，用于提取各文本段落的关键词信息，将各关键词信息输入至目标图片生成模型，得到各文本段落对应的图片；

生成模块44，用于根据文本内容和各文本段落对应的图片，生成目标视频。

本实施例中的视频生成装置是以功能模块的形式来呈现，这里的模块是指专用集成电路(Application Specific Integrated Circuit，简称ASIC)，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种计算机设备，具有上述图4所示的视频生成装置。

请参阅图5，图5是本发明可选实施例提供的一种计算机设备的结构示意图，如图5所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图5中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，存储器20存储有可由至少一个处理器10执行的指令，以使至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据一种小程序落地页的展现的计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置30可接收输入的数字或字符信息，以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。上述显示设备包括但不限于液晶显示器，发光二极管，显示器和等离子体显示器。在一些可选的实施方式中，显示设备可以是触摸屏。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获取文本内容，并根据所述文本内容确定各文本场景；

根据各文本场景将所述文本内容拆分为至少一个文本段落，其中，各文本场景与各文本段落一一对应；

根据所述文本内容和各文本段落对应的图片，生成目标视频。

2.根据权利要求1所述的方法，其特征在于，在所述提取各文本段落的关键词信息，将各关键词信息输入至目标图片生成模型，得到各文本段落对应的图片之前，所述方法还包括：

获取所述文本内容对应的视频风格；

根据所述视频风格，从模型库中选择目标图片生成模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述视频风格，从模型库中选择目标图片生成模型，包括：

对所述视频风格进行编码，得到风格向量；

将所述风格向量与各候选图片生成模型对应的特征向量进行特征匹配，从各候选图片生成模型中选择目标图片生成模型。

4.根据权利要求3所述的方法，其特征在于，所述将所述风格向量与各候选图片生成模型对应的特征向量进行特征匹配，从各候选图片生成模型中选择目标图片生成模型，包括：

将所述风格向量与各候选图片生成模型对应的特征向量进行特征匹配，得到各匹配度值；

5.根据权利要求2所述的方法，其特征在于，所述根据所述文本内容和各文本段落对应的图片，生成目标视频，包括：

根据所述文本内容，生成音频信息；

将所述音频信息按照所述文本段落进行划分，得到与各文本段落对应的音频段落；

根据各文本段落对应的图片和音频段落，生成目标视频。

6.根据权利要求5所述的方法，其特征在于，所述根据各文本段落对应的图片和音频段落，生成目标视频，包括：

根据各文本段落对应的图片和音频段落，生成视频帧；

根据各文本段落，对所述视频帧进行标注，得到包含字幕的视频帧；

根据各视频帧，得到目标视频。

7.根据权利要求6所述的方法，其特征在于，所述根据各文本段落，对所述视频帧进行标注，得到包含字幕的视频帧，包括：

根据所述文本内容对应的视频风格，对文本段落进行格式转换；

根据格式转换后的文本段落，对所述视频帧进行标注，得到包含字幕的视频帧。

8.一种视频生成装置，其特征在于，所述装置包括：

生成模块，用于根据所述文本内容和各文本段落对应的图片，生成目标视频。

9.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至7中任一项所述的视频生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的视频生成方法。