CN117692676A

CN117692676A - 一种基于人工智能技术的视频快速剪辑方法

Info

Publication number: CN117692676A
Application number: CN202311688242.XA
Authority: CN
Inventors: 李明; 赖晓平; 林诗杰; 林俊杰; 杨皓庆; 蔡之鑫
Original assignee: Guangdong Creative Hot Store Internet Technology Co ltd
Current assignee: Guangdong Creative Hot Store Internet Technology Co ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-12

Abstract

本发明公开了一种基于人工智能技术的视频快速剪辑方法，包括视频素材处理，视频检索和视频拼接等步骤。本发明通过将任一视频素材进行切片分段成内容相对独立完整的视频片段，同时配以相应的描述文本，并通过向量形式存储在数据库中，使得可以通过视频脚本的方式检索和拼接前述的视频片段，从而生成逻辑性强、内容连贯的拼接视频。

Description

一种基于人工智能技术的视频快速剪辑方法

技术领域

本发明涉及视频处理技术，更具体地说，涉及一种视频剪辑方法。

背景技术

视频内容目前在各大互联网平台上的传播和消费持续增长。视频剪辑作为一种重要的视频处理方式，能够将原始视频素材进行剪裁、编辑和拼接，创造出更具吸引力和效果的视觉呈现形式。

基于互联网技术和人工智能的发展，利用人工智能技术进行视频处理的各种视频剪辑方法及工具应运而生。通过目前的这些运用人工智能的视频处理方法及工具，可以完成对视频进行生成、剪辑、分割、拼接等，并可以通过输入文案内容，自动合成语音。目前市面上的人工智能视频处理软件包括抖音AI绘画、智影、VidPress、VideoLab、Wanna DoVideo等等。

相比于人工视频剪辑，用户无需特别繁琐的手动操作，即可创建视频内容，在一定程度上提高效率。

但是，现有的人工智能视频剪辑技术对于以拼接方式生成的剪辑视频来说，其逻辑性相对较弱，视频内容的情节不够连贯，相对突兀。

发明内容

针对现有技术的缺点，本发明的目的在于提供一种基于人工智能技术的视频快速剪辑方法，解决现有技术中以拼接方式生成的剪辑视频逻辑性较差的问题。

为了实现上述目的，本发明的技术方案为：一种基于人工智能技术的视频快速剪辑方法，包括：(1)利用视频片段切分方法对任一视频素材进行切片，分割成若干段内容相对独立完整的视频片段，从而得到视频素材库；对视频素材库中的每个视频片段进行向量化，形成视频向量并存储到一视频向量数据库中；利用视频转文本的开源大模型对每个视频片段的内容进行描述得到对应的视频描述文本，对所述视频描述文本进行向量化，形成文本向量存入到所述视频向量数据库中；(2)对用户输入的剪辑提示信息进行向量化后，从所述的视频向量数据库中找到与所述剪辑提示信息最相关的前N个视频描述文本；将所述的前N个视频描述文本作为上下文，利用大语言模型，从中筛选出具有一定逻辑性的M个描述文本，形成一视频脚本，然后再利用一逻辑性判断模型对所述视频脚本的逻辑性进行判断，得到具有一定逻辑性的视频脚本；根据所诉视频脚本中的每个视频描述文本，从所述视频向量数据库中检索出对应的视频片段，得到M个视频片段；(3)将所述M个视频片段按照所述视频描述文本的序列进行拼接，得到最终的剪辑视频；优选地，可以在拼接的视频片段之间加入过渡片段。

优选地，利用所述逻辑性判断模型对所述视频脚本的逻辑性进行判断的步骤包括：设置一个阈值，当逻辑性概率值小于该阈值的时候，重新生成视频脚本，直到逻辑性概率值大于所述阈值；或者尝试次数多于一定次数的时候停止，并取逻辑性概率值最大的视频脚本作为最终结果。

优选地，所述逻辑性判断模型的训练方式为：随机从故事性文章中摘取n段文本，并利用大语言模型对每一段文本总结成一句话以及从人工剪辑的视频片段中，抽取n个视频片段，并利用video-chatgpt将每个视频片段描述成一句话；将n句话按顺序排列构建成为正样本，将n句话随机打乱构建成为负样本，正负样本比例为1比5；利用clip4clip中的文本编码器将每句话转换成维度一致的向量，并利用基于transformer的序列分类模型，对文本序列进行分类，判断是否具有逻辑性；损失函数采用交叉熵损失。

优选地，所述剪辑提示信息包括主题词和主题元素，每次检索使用主题词加主题元素来查找前N个相关的视频描述。

与现有技术相比，本发明通过将任一视频素材进行切片分段成内容相对独立完整的视频片段，同时配以相应的描述文本，并通过向量形式存储在数据库中，使得可以通过视频脚本的方式检索和拼接前述的视频片段，从而生成逻辑性强、内容连贯的拼接视频。

附图说明

下面结合附图和具体实施方式，对本发明的结构及其有益技术效果进行详细说明。

图1是本发明的流程示意图；

图2是本发明的视频素材处理流程示意图；

图3是本发明的视频检索流程示意图。

具体实施方式

为了使本发明的发明目的、技术方案及其有益技术效果更加清晰，以下结合附图和具体实施方式，对本发明进行进一步详细说明。应当理解的是，本说明书中描述的具体实施方式仅仅是为了解释本发明，并非为了限定本发明。

请参阅图1至图3，本实施例的基于人工智能技术的视频快速剪辑方法包括视频素材处理，视频检索和视频拼接三部分内容。

(一)视频素材处理：

利用视频片段切分方法如PySceneDetect对视频素材进行切片，分割成N段内容相对独立完整的视频片段，从而得到视频素材库；利用现有的视频多模态预训练大模模型对视频片段进行向量化，形成视频向量并存储到视频向量数据库中，方便后续快速检索。

利用video-chatgpt对每个视频片段的内容进行详细的描述，得到每段视频的视频描述文本；然后利用预训练好的视频文本多模态预训练大模型对视频描述文本进行向量化，将视频描述文本向量存入到视频向量数据库中，方便后续快速根据文本内容检索到指定视频。

具体的视频向量化方法选用视频-文本对比学习编码器clip4clip中的文本编码器，向量数据库选用faiss。

(二)视频检索：

用户输入想要剪辑的提示信息，包括主题词和主题元素，主题词如‘欢乐’，‘恐怖’等，以及所要包含的主题元素如家庭、僵尸等，将主题词和相关主题元素利用clip4clip中的文本编码器进行向量化后，从视频文本描述中找到前N个最相关的视频描述。这里每次检索使用主体词加一个主题元素来查找前N个相关的视频描述文本，最终如果有10个元素和1个主题词则得到10N个相关的视频描述。

将10N个相关的视频描述作为上下文，让大语言模型如chatgpt从中筛选出M个描述，并让其排序成具有一定故事性和逻辑性的包含主题词和元素的视频描述文本序列，得到视频脚本。将视频脚本中的每个描述向量化后从视频数据库中检索出对应视频，由于视频一定在视频库中，所以相似度最大的那个视频就是文本描述对应的视频，最终得到M段视频。

由于大语言模型筛选及排序出来的描述序列的逻辑性可能不强，为此本发明训练了一个逻辑性判断模型，用于判断描述序列是否具有足够的逻辑性。具体包括：随机从故事性文章中摘取n段文本，并利用大语言模型对每一段文本进行总结，总结成一句话以及从人工剪辑的视频片段中，抽取n个视频片段，并利用video-chatgpt将视频片段描述成一句话；并将n句话按顺序排列构建成为正样本，将n句话随机打乱构建成为负样本，正负样本比例为1比5；每句话会利用clip4clip中的文本编码器转换成维度一致的向量，并利用基于transformer的序列分类模型，对文本序列进行分类，判断是否具有逻辑性；损失函数采用交叉熵损失。在具体使用过程中，当大语言模型对描述进行筛选和排序之后，利用逻辑性判断模型对结果进行判断，并设置一个阈值，当逻辑性概率值小于阈值的时候，重新生成，直到生成的逻辑性超过设定的阈值；或者尝试次数多于一定次数的时候停止，并取逻辑性概率值最大的那个描述，作为最终结果。

(三)视频拼接：

将检索到的视频片段按照视频描述文本序列进行拼接，最终得到符合视频脚本的剪辑视频。这里为了让拼接更加自然，使用开源的视频转场工具gl-transition进行平滑处理，使得视频过渡更加自然。为了给视频配上最合适的音乐，可以使用video2music为视频生成合适的背景音乐。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还可以对上述实施方式进行适当的变更和修改。因此，本发明并不局限于上面揭示和描述的具体实施方式，对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种基于人工智能技术的视频快速剪辑方法，其特征在于，包括：

(1)利用视频片段切分方法对任一视频素材进行切片，分割成若干段内容相对独立完整的视频片段，从而得到视频素材库；对视频素材库中的每个视频片段进行向量化，形成视频向量并存储到一视频向量数据库中；利用视频转文本的开源大模型对每个视频片段的内容进行描述得到对应的视频描述文本，对所述视频描述文本进行向量化，形成文本向量存入到所述视频向量数据库中；

(2)对用户输入的剪辑提示信息进行向量化后，从所述的视频向量数据库中找到与所述剪辑提示信息最相关的前N个视频描述文本；

将所述的前N个视频描述文本作为上下文，利用大语言模型，从中筛选出具有一定逻辑性的M个描述文本，形成一视频脚本，然后再利用一逻辑性判断模型对所述视频脚本的逻辑性进行判断，得到具有一定逻辑性的视频脚本；

根据所诉视频脚本中的每个视频描述文本，从所述视频向量数据库中检索出对应的视频片段，得到M个视频片段；

(3)将所述M个视频片段按照所述视频描述文本的序列进行拼接，得到最终的剪辑视频。

2.根据权利要求1所述的基于人工智能技术的视频快速剪辑方法，其特征在于，利用所述逻辑性判断模型对所述视频脚本的逻辑性进行判断的步骤包括：设置一个阈值，当逻辑性概率值小于该阈值的时候，重新生成视频脚本，直到逻辑性概率值大于所述阈值；或者尝试次数多于一定次数的时候停止，并取逻辑性概率值最大的视频脚本作为最终结果。

3.根据权利要求2所述的基于人工智能技术的视频快速剪辑方法，其特征在于，所述逻辑性判断模型的训练方式为：随机从故事性文章中摘取n段文本，并利用大语言模型对每一段文本总结成一句话以及从人工剪辑的视频片段中，抽取n个视频片段，并利用video-chatgpt将每个视频片段描述成一句话；将n句话按顺序排列构建成为正样本，将n句话随机打乱构建成为负样本，正负样本比例为1比5；利用clip4clip中的文本编码器将每句话转换成维度一致的向量，并利用基于transformer的序列分类模型，对文本序列进行分类，判断是否具有逻辑性；损失函数采用交叉熵损失。

4.根据权利要求1所述的基于人工智能技术的视频快速剪辑方法，其特征在于，所述剪辑提示信息包括主题词和主题元素，每次检索使用主题词加主题元素来查找前N个相关的视频描述。