CN116977903A

CN116977903A - 一种通过文本智能生成短视频的aigc方法

Info

Publication number: CN116977903A
Application number: CN202311020319.6A
Authority: CN
Inventors: 陈建文; 白树伟
Original assignee: Sichuan Cuiya Education Technology Co ltd
Current assignee: Sichuan Cuiya Education Technology Co ltd
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-10-31

Abstract

本发明提供一种通过文本智能生成短视频的AI GC方法，涉及人工智能技术领域。该智能生成短视频的AI GC方法，具体包括以下步骤：步骤1.文本解析获取，步骤2.向量特征关联。通过将给定的文本内容进行最佳相似文本的解析和映射，提供最佳相似语义解析文本和三个相似文本作为参考，从而缩小生成文本和视频内容的语义差异；在文本分析上增加了字、词和字段的情感分析，并进行整句关联模拟，使其更加贴近文本本身情绪内容；同时将给定的文本数据自动生成无音效、模板的短视频，大幅度减少了第三方人工干预，提高了短视频生成的效率，且促使生成的短视频更加灵活和贴近文本本身，保证了生成短视频的质量。

Description

一种通过文本智能生成短视频的AIGC方法

技术领域

本发明涉及人工智能技术领域，具体为一种通过文本智能生成短视频的AI GC方法。

背景技术

随着智能手机和互联网的普及，大量用户通过社交媒体(如微博、抖音、快手等)以文本、短视频等多种方式来发表自己的观点，海量社交媒体数据的形态不再局限于单一的文本模态，更多的是融合了文本、图像、短视频的多模态数据。

随着深度学习技术的发展，基于序列学习的编码器-解码器视频描述方法被不断提出。编码器利用卷积神经网络提取视频特征用于表征视频内容信息，解码器采用长短时记忆神经网络、门控循环单元解码视频特征生成描述视频内容的自然语句。为了捕捉视频中的时序信息，相关工作利用注意力机制、LSTM或分层LSTM处理视频帧特征，其中，相关工作人员提出一种层次循环神经编码器，其将视频划分为多个短视频，将短视频输入低层LSTM得到每个短视频的特征表示，再将短视频特征表示输入高层LSTM用以捕获更长视频时序信息，高层LSTM最后一时间步的隐藏向量作为整个视频的特征表示；另外，提出分层时序模型，通过探索全局和局部的时序结构更好的识别细粒度的目标和动作；为了更好地捕捉长期依赖，研究人员提出基于注意力机制的密集连接长短时记忆网络，将所有先前时刻的隐藏单元连接到当前单元，这使得当前状态的更新直接与先前所有状态相关。

然而，由于文本和视频属于两种不同结构的数据模态，难以将文本语义内容较为准确的转换为视频内容，生成的视频内容存在语义鸿沟。同时传统的视频生成并未将文本作为潜在向量，大多直接从噪声中生成视频，而不是从语义文本中生成视频，导致视频偏差较大。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种通过文本智能生成短视频的AI GC方法，解决了传统方法中难以将文本语义内容较为准确的转换为视频内容，生成的视频内容存在语义鸿沟的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种通过文本智能生成短视频的AI GC方法，具体包括以下步骤：

步骤1.文本解析获取

获取用于制作短视频的文本内容，以字、词和字段为单位进行分词成多个文本单元，每个文本单元作为一个样本，对样本进行情感向量特征、语义向量特征和应用场景向量特征的提取，并从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征；

步骤2.向量特征关联

根据多个文本单元样本提取的情感向量特征、语义向量特征和应用场景向量特征将以字、词和字段为单位进行分词成多个文本单元样本进行向量关联后的语义重构，解析最佳相近语义；

步骤3.向量拼接

利用卷积神经网络提取所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征，并将两种特征进行拼接，得到特征表示；

步骤4.模型图像生成

输入步骤3中拼接获取后的特征表示，经过深度图估计模型，输出深度信息后利用步骤2中分析的最佳相近语义进行语构文本模型图像集生成；

步骤5.短视频生成

利用基于图像动态化GAN网络将步骤4中生成的语构文本模型图像集进行一系列图像帧处理，并依照人工配置模板和背景音乐完成最终短视频生成。

优选的，所述步骤1中的情感向量特征包括网络词汇、符号、多字叠用和字义解析，其中语义向量特征包括重要性、限定值和关联词解析。

优选的，所述步骤2中通过自回归模型和随机梯度反向算法进行向量关联重构，并利于函数相似度进行最佳语义归类。

优选的，所述步骤2中的最佳相近是指相似度偏差在0.3以内的语义文本，选择相似度最低的4个答案，其中最低的相似度文本作为目标文本、其他三个作为相似答案文本；相似度的范围是[0,2]。

优选的，所述步骤3中的特征拼接得到的特征表示通过将所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征使用一个全连接层压缩到一个较小维度之后，按照特征维度大小并使用l eakyReLU再与噪声向量拼接组合。

优选的，所述步骤4中的所述深度图估计模型为DPT模型，其中DPT模型使用Vi T作为主干网络，提取图像tokens，tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征，即多尺度的图像特征；多尺度的图像特征通过融合模块和上采样，得到深度密集预测结果，即深度信息。

优选的，所述步骤4中的语构文本模型图像集包括整段文本的多个图像的所有动态语义的静态图片册。

优选的，所述步骤5中的图像动态化GAN网络包括生成器和判别器，其中生成器用于接收拼接后的特征表示。

(三)有益效果

本发明提供了一种通过文本智能生成短视频的AI GC方法。具备以下有益效果：

1、本发明提供了一种通过文本智能生成短视频的AI GC方法，通过将给定的文本内容进行最佳相似文本的解析和映射，提供最佳相似语义解析文本和三个相似文本作为参考，从而缩小生成文本和视频内容的语义差异；在文本分析上增加了字、词和字段的情感分析，并进行整句关联模拟，使其更加贴近文本本身情绪内容；同时将给定的文本数据自动生成无音效、模板的短视频，大幅度减少了第三方人工干预，提高了短视频生成的效率，且促使生成的短视频更加灵活和贴近文本本身，保证了生成短视频的质量。

具体实施方式

下面将结合本发明实施例对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

本发明实施例提供一种通过文本智能生成短视频的AIGC方法，具体包括以下步骤：

步骤1.文本解析获取

其中情感向量特征包括网络词汇、符号、多字叠用和字义解析，其中语义向量特征包括重要性、限定值和关联词解析；根据文本中所使用的新型字、词或句进行深度学习，保证其解析后的向量特征提取准确，例如：是是是、对对对、好好好这类带有明显敷衍语义的叠字使用；同时包含如：“草”字的同音字词所附带的特殊语义和可能出现的场景；

步骤2.向量特征关联

通过自回归模型和随机梯度反向算法进行向量关联重构，并利于函数相似度进行最佳语义归类；而函数会从结构体中获取搜索结果，包括相似的向量列表、相似度得分列表等；然后，函数会遍历搜索结果，将每个相似向量的和相似度得分封装到数组中；函数会返回封装好的搜索结果，包括相似向量的ID列表、相似度得分列表等。在返回结果前，函数会对每个相似度得分进行归一化处理，确保它们的值在[0,1]范围内，以便于后续的处理和分析；

其中最佳相近是指相似度偏差在0.3以内的语义文本，选择相似度最低的4个答案，其中最低的相似度文本作为目标文本、其他三个作为相似答案文本；相似度的范围是[0,2]；

步骤3.向量拼接

利用卷积神经网络提取文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征，并将两种特征进行拼接，得到特征表示；

特征拼接得到的特征表示通过将文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征使用一个全连接层压缩到一个较小维度之后，按照特征维度大小并使用l eaky ReLU再与噪声向量拼接组合，使其作为生成器的整体的输入，输入后根据卷积神经网络进行前后推断生成；

步骤4.模型图像生成

深度图估计模型为DPT模型，其中DPT模型使用Vi T作为主干网络，提取图像tokens，tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征，即多尺度的图像特征；多尺度的图像特征通过融合模块和上采样，得到深度密集预测结果，即深度信息；通过DPT模型得到深度信息以后，通过预设的相机参数和图像分辨率计算归一化焦距和中心像素坐标，进一步得到图像对应的三维信息；

具体的，语构文本模型图像集包括整段文本的多个图像的所有动态语义的静态图片册，根据整个文本进行全程动作的图像生成，便于后续短视频的生成组合，提高了短视频生成的效率；

步骤5.短视频生成

其中图像动态化GAN网络包括生成器和判别器，其中生成器用于接收拼接后的特征表示，生成器通过潜向量控制视频特征，同时结合注入网络的噪声，实现对视频随机属性的控制，判别器区分视频是真实的还是生成器生成的。从而将给定的文本数据自动生成无音效、模板的短视频，大幅度减少了第三方人工干预，并在后续加入配置模板和背景音乐即可最终完成短视频的生成，极大的提高了短视频生成的效率，同时将给定的文本内容进行最佳相似文本的解析和映射，提供最佳相似语义解析文本和三个相似文本作为参考，从而缩小生成文本和视频内容的语义差异；在文本分析上增加了字、词和字段的情感分析，并进行整句关联模拟，使其更加贴近文本本身情绪内容，促使生成的短视频更加灵活和贴近文本本身，保证了生成短视频的质量。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种通过文本智能生成短视频的AIGC方法，其特征在于，具体包括以下步骤：

步骤1.文本解析获取

步骤2.向量特征关联

步骤3.向量拼接

步骤4.模型图像生成

步骤5.短视频生成

2.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法，其特征在于：所述步骤1中的情感向量特征包括网络词汇、符号、多字叠用和字义解析，其中语义向量特征包括重要性、限定值和关联词解析。

3.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法，其特征在于：所述步骤2中通过自回归模型和随机梯度反向算法进行向量关联重构，并利于函数相似度进行最佳语义归类。

4.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法，其特征在于：所述步骤2中的最佳相近是指相似度偏差在0.3以内的语义文本，选择相似度最低的4个答案，其中最低的相似度文本作为目标文本、其他三个作为相似答案文本；相似度的范围是[0,2]。

5.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法，其特征在于：所述步骤3中的特征拼接得到的特征表示通过将所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征使用一个全连接层压缩到一个较小维度之后，按照特征维度大小并使用leaky ReLU再与噪声向量拼接组合。

6.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法，其特征在于：所述步骤4中的所述深度图估计模型为DPT模型，其中DPT模型使用ViT作为主干网络，提取图像tokens，tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征，即多尺度的图像特征；多尺度的图像特征通过融合模块和上采样，得到深度密集预测结果，即深度信息。

7.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法，其特征在于：所述步骤4中的语构文本模型图像集包括整段文本的多个图像的所有动态语义的静态图片册。

8.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法，其特征在于：所述步骤5中的图像动态化GAN网络包括生成器和判别器，其中生成器用于接收拼接后的特征表示。