CN116977903A - 一种通过文本智能生成短视频的aigc方法 - Google Patents

一种通过文本智能生成短视频的aigc方法 Download PDF

Info

Publication number
CN116977903A
CN116977903A CN202311020319.6A CN202311020319A CN116977903A CN 116977903 A CN116977903 A CN 116977903A CN 202311020319 A CN202311020319 A CN 202311020319A CN 116977903 A CN116977903 A CN 116977903A
Authority
CN
China
Prior art keywords
text
samples
features
vector
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311020319.6A
Other languages
English (en)
Inventor
陈建文
白树伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Cuiya Education Technology Co ltd
Original Assignee
Sichuan Cuiya Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Cuiya Education Technology Co ltd filed Critical Sichuan Cuiya Education Technology Co ltd
Priority to CN202311020319.6A priority Critical patent/CN116977903A/zh
Publication of CN116977903A publication Critical patent/CN116977903A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种通过文本智能生成短视频的AI GC方法,涉及人工智能技术领域。该智能生成短视频的AI GC方法,具体包括以下步骤:步骤1.文本解析获取,步骤2.向量特征关联。通过将给定的文本内容进行最佳相似文本的解析和映射,提供最佳相似语义解析文本和三个相似文本作为参考,从而缩小生成文本和视频内容的语义差异;在文本分析上增加了字、词和字段的情感分析,并进行整句关联模拟,使其更加贴近文本本身情绪内容;同时将给定的文本数据自动生成无音效、模板的短视频,大幅度减少了第三方人工干预,提高了短视频生成的效率,且促使生成的短视频更加灵活和贴近文本本身,保证了生成短视频的质量。

Description

一种通过文本智能生成短视频的AIGC方法
技术领域
本发明涉及人工智能技术领域,具体为一种通过文本智能生成短视频的AI GC方法。
背景技术
随着智能手机和互联网的普及,大量用户通过社交媒体(如微博、抖音、快手等)以文本、短视频等多种方式来发表自己的观点,海量社交媒体数据的形态不再局限于单一的文本模态,更多的是融合了文本、图像、短视频的多模态数据。
随着深度学习技术的发展,基于序列学习的编码器-解码器视频描述方法被不断提出。编码器利用卷积神经网络提取视频特征用于表征视频内容信息,解码器采用长短时记忆神经网络、门控循环单元解码视频特征生成描述视频内容的自然语句。为了捕捉视频中的时序信息,相关工作利用注意力机制、LSTM或分层LSTM处理视频帧特征,其中,相关工作人员提出一种层次循环神经编码器,其将视频划分为多个短视频,将短视频输入低层LSTM得到每个短视频的特征表示,再将短视频特征表示输入高层LSTM用以捕获更长视频时序信息,高层LSTM最后一时间步的隐藏向量作为整个视频的特征表示;另外,提出分层时序模型,通过探索全局和局部的时序结构更好的识别细粒度的目标和动作;为了更好地捕捉长期依赖,研究人员提出基于注意力机制的密集连接长短时记忆网络,将所有先前时刻的隐藏单元连接到当前单元,这使得当前状态的更新直接与先前所有状态相关。
然而,由于文本和视频属于两种不同结构的数据模态,难以将文本语义内容较为准确的转换为视频内容,生成的视频内容存在语义鸿沟。同时传统的视频生成并未将文本作为潜在向量,大多直接从噪声中生成视频,而不是从语义文本中生成视频,导致视频偏差较大。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种通过文本智能生成短视频的AI GC方法,解决了传统方法中难以将文本语义内容较为准确的转换为视频内容,生成的视频内容存在语义鸿沟的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种通过文本智能生成短视频的AI GC方法,具体包括以下步骤:
步骤1.文本解析获取
获取用于制作短视频的文本内容,以字、词和字段为单位进行分词成多个文本单元,每个文本单元作为一个样本,对样本进行情感向量特征、语义向量特征和应用场景向量特征的提取,并从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征;
步骤2.向量特征关联
根据多个文本单元样本提取的情感向量特征、语义向量特征和应用场景向量特征将以字、词和字段为单位进行分词成多个文本单元样本进行向量关联后的语义重构,解析最佳相近语义;
步骤3.向量拼接
利用卷积神经网络提取所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征,并将两种特征进行拼接,得到特征表示;
步骤4.模型图像生成
输入步骤3中拼接获取后的特征表示,经过深度图估计模型,输出深度信息后利用步骤2中分析的最佳相近语义进行语构文本模型图像集生成;
步骤5.短视频生成
利用基于图像动态化GAN网络将步骤4中生成的语构文本模型图像集进行一系列图像帧处理,并依照人工配置模板和背景音乐完成最终短视频生成。
优选的,所述步骤1中的情感向量特征包括网络词汇、符号、多字叠用和字义解析,其中语义向量特征包括重要性、限定值和关联词解析。
优选的,所述步骤2中通过自回归模型和随机梯度反向算法进行向量关联重构,并利于函数相似度进行最佳语义归类。
优选的,所述步骤2中的最佳相近是指相似度偏差在0.3以内的语义文本,选择相似度最低的4个答案,其中最低的相似度文本作为目标文本、其他三个作为相似答案文本;相似度的范围是[0,2]。
优选的,所述步骤3中的特征拼接得到的特征表示通过将所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征使用一个全连接层压缩到一个较小维度之后,按照特征维度大小并使用l eakyReLU再与噪声向量拼接组合。
优选的,所述步骤4中的所述深度图估计模型为DPT模型,其中DPT模型使用Vi T作为主干网络,提取图像tokens,tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征,即多尺度的图像特征;多尺度的图像特征通过融合模块和上采样,得到深度密集预测结果,即深度信息。
优选的,所述步骤4中的语构文本模型图像集包括整段文本的多个图像的所有动态语义的静态图片册。
优选的,所述步骤5中的图像动态化GAN网络包括生成器和判别器,其中生成器用于接收拼接后的特征表示。
(三)有益效果
本发明提供了一种通过文本智能生成短视频的AI GC方法。具备以下有益效果:
1、本发明提供了一种通过文本智能生成短视频的AI GC方法,通过将给定的文本内容进行最佳相似文本的解析和映射,提供最佳相似语义解析文本和三个相似文本作为参考,从而缩小生成文本和视频内容的语义差异;在文本分析上增加了字、词和字段的情感分析,并进行整句关联模拟,使其更加贴近文本本身情绪内容;同时将给定的文本数据自动生成无音效、模板的短视频,大幅度减少了第三方人工干预,提高了短视频生成的效率,且促使生成的短视频更加灵活和贴近文本本身,保证了生成短视频的质量。
具体实施方式
下面将结合本发明实施例对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
本发明实施例提供一种通过文本智能生成短视频的AIGC方法,具体包括以下步骤:
步骤1.文本解析获取
获取用于制作短视频的文本内容,以字、词和字段为单位进行分词成多个文本单元,每个文本单元作为一个样本,对样本进行情感向量特征、语义向量特征和应用场景向量特征的提取,并从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征;
其中情感向量特征包括网络词汇、符号、多字叠用和字义解析,其中语义向量特征包括重要性、限定值和关联词解析;根据文本中所使用的新型字、词或句进行深度学习,保证其解析后的向量特征提取准确,例如:是是是、对对对、好好好这类带有明显敷衍语义的叠字使用;同时包含如:“草”字的同音字词所附带的特殊语义和可能出现的场景;
步骤2.向量特征关联
根据多个文本单元样本提取的情感向量特征、语义向量特征和应用场景向量特征将以字、词和字段为单位进行分词成多个文本单元样本进行向量关联后的语义重构,解析最佳相近语义;
通过自回归模型和随机梯度反向算法进行向量关联重构,并利于函数相似度进行最佳语义归类;而函数会从结构体中获取搜索结果,包括相似的向量列表、相似度得分列表等;然后,函数会遍历搜索结果,将每个相似向量的和相似度得分封装到数组中;函数会返回封装好的搜索结果,包括相似向量的ID列表、相似度得分列表等。在返回结果前,函数会对每个相似度得分进行归一化处理,确保它们的值在[0,1]范围内,以便于后续的处理和分析;
其中最佳相近是指相似度偏差在0.3以内的语义文本,选择相似度最低的4个答案,其中最低的相似度文本作为目标文本、其他三个作为相似答案文本;相似度的范围是[0,2];
步骤3.向量拼接
利用卷积神经网络提取文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征,并将两种特征进行拼接,得到特征表示;
特征拼接得到的特征表示通过将文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征使用一个全连接层压缩到一个较小维度之后,按照特征维度大小并使用l eaky ReLU再与噪声向量拼接组合,使其作为生成器的整体的输入,输入后根据卷积神经网络进行前后推断生成;
步骤4.模型图像生成
输入步骤3中拼接获取后的特征表示,经过深度图估计模型,输出深度信息后利用步骤2中分析的最佳相近语义进行语构文本模型图像集生成;
深度图估计模型为DPT模型,其中DPT模型使用Vi T作为主干网络,提取图像tokens,tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征,即多尺度的图像特征;多尺度的图像特征通过融合模块和上采样,得到深度密集预测结果,即深度信息;通过DPT模型得到深度信息以后,通过预设的相机参数和图像分辨率计算归一化焦距和中心像素坐标,进一步得到图像对应的三维信息;
具体的,语构文本模型图像集包括整段文本的多个图像的所有动态语义的静态图片册,根据整个文本进行全程动作的图像生成,便于后续短视频的生成组合,提高了短视频生成的效率;
步骤5.短视频生成
利用基于图像动态化GAN网络将步骤4中生成的语构文本模型图像集进行一系列图像帧处理,并依照人工配置模板和背景音乐完成最终短视频生成。
其中图像动态化GAN网络包括生成器和判别器,其中生成器用于接收拼接后的特征表示,生成器通过潜向量控制视频特征,同时结合注入网络的噪声,实现对视频随机属性的控制,判别器区分视频是真实的还是生成器生成的。从而将给定的文本数据自动生成无音效、模板的短视频,大幅度减少了第三方人工干预,并在后续加入配置模板和背景音乐即可最终完成短视频的生成,极大的提高了短视频生成的效率,同时将给定的文本内容进行最佳相似文本的解析和映射,提供最佳相似语义解析文本和三个相似文本作为参考,从而缩小生成文本和视频内容的语义差异;在文本分析上增加了字、词和字段的情感分析,并进行整句关联模拟,使其更加贴近文本本身情绪内容,促使生成的短视频更加灵活和贴近文本本身,保证了生成短视频的质量。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种通过文本智能生成短视频的AIGC方法,其特征在于,具体包括以下步骤:
步骤1.文本解析获取
获取用于制作短视频的文本内容,以字、词和字段为单位进行分词成多个文本单元,每个文本单元作为一个样本,对样本进行情感向量特征、语义向量特征和应用场景向量特征的提取,并从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征;
步骤2.向量特征关联
根据多个文本单元样本提取的情感向量特征、语义向量特征和应用场景向量特征将以字、词和字段为单位进行分词成多个文本单元样本进行向量关联后的语义重构,解析最佳相近语义;
步骤3.向量拼接
利用卷积神经网络提取所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征,并将两种特征进行拼接,得到特征表示;
步骤4.模型图像生成
输入步骤3中拼接获取后的特征表示,经过深度图估计模型,输出深度信息后利用步骤2中分析的最佳相近语义进行语构文本模型图像集生成;
步骤5.短视频生成
利用基于图像动态化GAN网络将步骤4中生成的语构文本模型图像集进行一系列图像帧处理,并依照人工配置模板和背景音乐完成最终短视频生成。
2.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤1中的情感向量特征包括网络词汇、符号、多字叠用和字义解析,其中语义向量特征包括重要性、限定值和关联词解析。
3.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤2中通过自回归模型和随机梯度反向算法进行向量关联重构,并利于函数相似度进行最佳语义归类。
4.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤2中的最佳相近是指相似度偏差在0.3以内的语义文本,选择相似度最低的4个答案,其中最低的相似度文本作为目标文本、其他三个作为相似答案文本;相似度的范围是[0,2]。
5.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤3中的特征拼接得到的特征表示通过将所述文本单元样本的向量特征和从文本单元中生成对应的视频或图像样本、语音样本和文本样本后生成对应的向量特征使用一个全连接层压缩到一个较小维度之后,按照特征维度大小并使用leaky ReLU再与噪声向量拼接组合。
6.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤4中的所述深度图估计模型为DPT模型,其中DPT模型使用ViT作为主干网络,提取图像tokens,tokens通过transformer网络得到的tokens重新组合成多个分辨率的图像特征,即多尺度的图像特征;多尺度的图像特征通过融合模块和上采样,得到深度密集预测结果,即深度信息。
7.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤4中的语构文本模型图像集包括整段文本的多个图像的所有动态语义的静态图片册。
8.根据权利要求1所述的一种通过文本智能生成短视频的AIGC方法,其特征在于:所述步骤5中的图像动态化GAN网络包括生成器和判别器,其中生成器用于接收拼接后的特征表示。
CN202311020319.6A 2023-08-15 2023-08-15 一种通过文本智能生成短视频的aigc方法 Pending CN116977903A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311020319.6A CN116977903A (zh) 2023-08-15 2023-08-15 一种通过文本智能生成短视频的aigc方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311020319.6A CN116977903A (zh) 2023-08-15 2023-08-15 一种通过文本智能生成短视频的aigc方法

Publications (1)

Publication Number Publication Date
CN116977903A true CN116977903A (zh) 2023-10-31

Family

ID=88473094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311020319.6A Pending CN116977903A (zh) 2023-08-15 2023-08-15 一种通过文本智能生成短视频的aigc方法

Country Status (1)

Country Link
CN (1) CN116977903A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118037898A (zh) * 2024-04-15 2024-05-14 南京邮电大学 一种基于图像引导视频编辑的文本生成视频方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118037898A (zh) * 2024-04-15 2024-05-14 南京邮电大学 一种基于图像引导视频编辑的文本生成视频方法

Similar Documents

Publication Publication Date Title
Wang et al. One-shot talking face generation from single-speaker audio-visual correlation learning
US20230042654A1 (en) Action synchronization for target object
CN113762322B (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
Tan et al. KT-GAN: Knowledge-transfer generative adversarial network for text-to-image synthesis
Li et al. Direct speech-to-image translation
CN114390218B (zh) 视频生成方法、装置、计算机设备和存储介质
CN116721334B (zh) 图像生成模型的训练方法、装置、设备及存储介质
CN113077537A (zh) 一种视频生成方法、存储介质及设备
Hou et al. Textface: Text-to-style mapping based face generation and manipulation
CN113392265A (zh) 多媒体处理方法、装置及设备
CN116977903A (zh) 一种通过文本智能生成短视频的aigc方法
Tu et al. I 2 Transformer: Intra-and inter-relation embedding transformer for TV show captioning
Khurram et al. Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics
Abdulsalam et al. Emotion recognition system based on hybrid techniques
CN117609550A (zh) 视频标题生成方法和视频标题生成模型的训练方法
Zhang et al. A survey on multimodal-guided visual content synthesis
Zeng et al. Expression-tailored talking face generation with adaptive cross-modal weighting
Huang et al. Fine-grained talking face generation with video reinterpretation
CN117115310A (zh) 一种基于音频和图像的数字人脸生成方法及***
Echizen et al. Generation and detection of media clones
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
Zhao et al. Research on video captioning based on multifeature fusion
Guo et al. Attention-based visual-audio fusion for video caption generation
HUANG et al. Multimodal emotion recognition with transfer learning of deep neural network
Zhang et al. Realistic Speech‐Driven Talking Video Generation with Personalized Pose

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination