CN117692676A - 一种基于人工智能技术的视频快速剪辑方法 - Google Patents
一种基于人工智能技术的视频快速剪辑方法 Download PDFInfo
- Publication number
- CN117692676A CN117692676A CN202311688242.XA CN202311688242A CN117692676A CN 117692676 A CN117692676 A CN 117692676A CN 202311688242 A CN202311688242 A CN 202311688242A CN 117692676 A CN117692676 A CN 117692676A
- Authority
- CN
- China
- Prior art keywords
- video
- text
- script
- clip
- logicality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000001172 regenerating effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开了一种基于人工智能技术的视频快速剪辑方法,包括视频素材处理,视频检索和视频拼接等步骤。本发明通过将任一视频素材进行切片分段成内容相对独立完整的视频片段,同时配以相应的描述文本,并通过向量形式存储在数据库中,使得可以通过视频脚本的方式检索和拼接前述的视频片段,从而生成逻辑性强、内容连贯的拼接视频。
Description
技术领域
本发明涉及视频处理技术,更具体地说,涉及一种视频剪辑方法。
背景技术
视频内容目前在各大互联网平台上的传播和消费持续增长。视频剪辑作为一种重要的视频处理方式,能够将原始视频素材进行剪裁、编辑和拼接,创造出更具吸引力和效果的视觉呈现形式。
基于互联网技术和人工智能的发展,利用人工智能技术进行视频处理的各种视频剪辑方法及工具应运而生。通过目前的这些运用人工智能的视频处理方法及工具,可以完成对视频进行生成、剪辑、分割、拼接等,并可以通过输入文案内容,自动合成语音。目前市面上的人工智能视频处理软件包括抖音AI绘画、智影、VidPress、VideoLab、Wanna DoVideo等等。
相比于人工视频剪辑,用户无需特别繁琐的手动操作,即可创建视频内容,在一定程度上提高效率。
但是,现有的人工智能视频剪辑技术对于以拼接方式生成的剪辑视频来说,其逻辑性相对较弱,视频内容的情节不够连贯,相对突兀。
发明内容
针对现有技术的缺点,本发明的目的在于提供一种基于人工智能技术的视频快速剪辑方法,解决现有技术中以拼接方式生成的剪辑视频逻辑性较差的问题。
为了实现上述目的,本发明的技术方案为:一种基于人工智能技术的视频快速剪辑方法,包括:(1)利用视频片段切分方法对任一视频素材进行切片,分割成若干段内容相对独立完整的视频片段,从而得到视频素材库;对视频素材库中的每个视频片段进行向量化,形成视频向量并存储到一视频向量数据库中;利用视频转文本的开源大模型对每个视频片段的内容进行描述得到对应的视频描述文本,对所述视频描述文本进行向量化,形成文本向量存入到所述视频向量数据库中;(2)对用户输入的剪辑提示信息进行向量化后,从所述的视频向量数据库中找到与所述剪辑提示信息最相关的前N个视频描述文本;将所述的前N个视频描述文本作为上下文,利用大语言模型,从中筛选出具有一定逻辑性的M个描述文本,形成一视频脚本,然后再利用一逻辑性判断模型对所述视频脚本的逻辑性进行判断,得到具有一定逻辑性的视频脚本;根据所诉视频脚本中的每个视频描述文本,从所述视频向量数据库中检索出对应的视频片段,得到M个视频片段;(3)将所述M个视频片段按照所述视频描述文本的序列进行拼接,得到最终的剪辑视频;优选地,可以在拼接的视频片段之间加入过渡片段。
优选地,利用所述逻辑性判断模型对所述视频脚本的逻辑性进行判断的步骤包括:设置一个阈值,当逻辑性概率值小于该阈值的时候,重新生成视频脚本,直到逻辑性概率值大于所述阈值;或者尝试次数多于一定次数的时候停止,并取逻辑性概率值最大的视频脚本作为最终结果。
优选地,所述逻辑性判断模型的训练方式为:随机从故事性文章中摘取n段文本,并利用大语言模型对每一段文本总结成一句话以及从人工剪辑的视频片段中,抽取n个视频片段,并利用video-chatgpt将每个视频片段描述成一句话;将n句话按顺序排列构建成为正样本,将n句话随机打乱构建成为负样本,正负样本比例为1比5;利用clip4clip中的文本编码器将每句话转换成维度一致的向量,并利用基于transformer的序列分类模型,对文本序列进行分类,判断是否具有逻辑性;损失函数采用交叉熵损失。
优选地,所述剪辑提示信息包括主题词和主题元素,每次检索使用主题词加主题元素来查找前N个相关的视频描述。
与现有技术相比,本发明通过将任一视频素材进行切片分段成内容相对独立完整的视频片段,同时配以相应的描述文本,并通过向量形式存储在数据库中,使得可以通过视频脚本的方式检索和拼接前述的视频片段,从而生成逻辑性强、内容连贯的拼接视频。
附图说明
下面结合附图和具体实施方式,对本发明的结构及其有益技术效果进行详细说明。
图1是本发明的流程示意图;
图2是本发明的视频素材处理流程示意图;
图3是本发明的视频检索流程示意图。
具体实施方式
为了使本发明的发明目的、技术方案及其有益技术效果更加清晰,以下结合附图和具体实施方式,对本发明进行进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本发明,并非为了限定本发明。
请参阅图1至图3,本实施例的基于人工智能技术的视频快速剪辑方法包括视频素材处理,视频检索和视频拼接三部分内容。
(一)视频素材处理:
利用视频片段切分方法如PySceneDetect对视频素材进行切片,分割成N段内容相对独立完整的视频片段,从而得到视频素材库;利用现有的视频多模态预训练大模模型对视频片段进行向量化,形成视频向量并存储到视频向量数据库中,方便后续快速检索。
利用video-chatgpt对每个视频片段的内容进行详细的描述,得到每段视频的视频描述文本;然后利用预训练好的视频文本多模态预训练大模型对视频描述文本进行向量化,将视频描述文本向量存入到视频向量数据库中,方便后续快速根据文本内容检索到指定视频。
具体的视频向量化方法选用视频-文本对比学习编码器clip4clip中的文本编码器,向量数据库选用faiss。
(二)视频检索:
用户输入想要剪辑的提示信息,包括主题词和主题元素,主题词如‘欢乐’,‘恐怖’等,以及所要包含的主题元素如家庭、僵尸等,将主题词和相关主题元素利用clip4clip中的文本编码器进行向量化后,从视频文本描述中找到前N个最相关的视频描述。这里每次检索使用主体词加一个主题元素来查找前N个相关的视频描述文本,最终如果有10个元素和1个主题词则得到10N个相关的视频描述。
将10N个相关的视频描述作为上下文,让大语言模型如chatgpt从中筛选出M个描述,并让其排序成具有一定故事性和逻辑性的包含主题词和元素的视频描述文本序列,得到视频脚本。将视频脚本中的每个描述向量化后从视频数据库中检索出对应视频,由于视频一定在视频库中,所以相似度最大的那个视频就是文本描述对应的视频,最终得到M段视频。
由于大语言模型筛选及排序出来的描述序列的逻辑性可能不强,为此本发明训练了一个逻辑性判断模型,用于判断描述序列是否具有足够的逻辑性。具体包括:随机从故事性文章中摘取n段文本,并利用大语言模型对每一段文本进行总结,总结成一句话以及从人工剪辑的视频片段中,抽取n个视频片段,并利用video-chatgpt将视频片段描述成一句话;并将n句话按顺序排列构建成为正样本,将n句话随机打乱构建成为负样本,正负样本比例为1比5;每句话会利用clip4clip中的文本编码器转换成维度一致的向量,并利用基于transformer的序列分类模型,对文本序列进行分类,判断是否具有逻辑性;损失函数采用交叉熵损失。在具体使用过程中,当大语言模型对描述进行筛选和排序之后,利用逻辑性判断模型对结果进行判断,并设置一个阈值,当逻辑性概率值小于阈值的时候,重新生成,直到生成的逻辑性超过设定的阈值;或者尝试次数多于一定次数的时候停止,并取逻辑性概率值最大的那个描述,作为最终结果。
(三)视频拼接:
将检索到的视频片段按照视频描述文本序列进行拼接,最终得到符合视频脚本的剪辑视频。这里为了让拼接更加自然,使用开源的视频转场工具gl-transition进行平滑处理,使得视频过渡更加自然。为了给视频配上最合适的音乐,可以使用video2music为视频生成合适的背景音乐。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行适当的变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对本发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
Claims (4)
1.一种基于人工智能技术的视频快速剪辑方法,其特征在于,包括:
(1)利用视频片段切分方法对任一视频素材进行切片,分割成若干段内容相对独立完整的视频片段,从而得到视频素材库;对视频素材库中的每个视频片段进行向量化,形成视频向量并存储到一视频向量数据库中;利用视频转文本的开源大模型对每个视频片段的内容进行描述得到对应的视频描述文本,对所述视频描述文本进行向量化,形成文本向量存入到所述视频向量数据库中;
(2)对用户输入的剪辑提示信息进行向量化后,从所述的视频向量数据库中找到与所述剪辑提示信息最相关的前N个视频描述文本;
将所述的前N个视频描述文本作为上下文,利用大语言模型,从中筛选出具有一定逻辑性的M个描述文本,形成一视频脚本,然后再利用一逻辑性判断模型对所述视频脚本的逻辑性进行判断,得到具有一定逻辑性的视频脚本;
根据所诉视频脚本中的每个视频描述文本,从所述视频向量数据库中检索出对应的视频片段,得到M个视频片段;
(3)将所述M个视频片段按照所述视频描述文本的序列进行拼接,得到最终的剪辑视频。
2.根据权利要求1所述的基于人工智能技术的视频快速剪辑方法,其特征在于,利用所述逻辑性判断模型对所述视频脚本的逻辑性进行判断的步骤包括:设置一个阈值,当逻辑性概率值小于该阈值的时候,重新生成视频脚本,直到逻辑性概率值大于所述阈值;或者尝试次数多于一定次数的时候停止,并取逻辑性概率值最大的视频脚本作为最终结果。
3.根据权利要求2所述的基于人工智能技术的视频快速剪辑方法,其特征在于,所述逻辑性判断模型的训练方式为:随机从故事性文章中摘取n段文本,并利用大语言模型对每一段文本总结成一句话以及从人工剪辑的视频片段中,抽取n个视频片段,并利用video-chatgpt将每个视频片段描述成一句话;将n句话按顺序排列构建成为正样本,将n句话随机打乱构建成为负样本,正负样本比例为1比5;利用clip4clip中的文本编码器将每句话转换成维度一致的向量,并利用基于transformer的序列分类模型,对文本序列进行分类,判断是否具有逻辑性;损失函数采用交叉熵损失。
4.根据权利要求1所述的基于人工智能技术的视频快速剪辑方法,其特征在于,所述剪辑提示信息包括主题词和主题元素,每次检索使用主题词加主题元素来查找前N个相关的视频描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311688242.XA CN117692676A (zh) | 2023-12-08 | 2023-12-08 | 一种基于人工智能技术的视频快速剪辑方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311688242.XA CN117692676A (zh) | 2023-12-08 | 2023-12-08 | 一种基于人工智能技术的视频快速剪辑方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117692676A true CN117692676A (zh) | 2024-03-12 |
Family
ID=90134653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311688242.XA Pending CN117692676A (zh) | 2023-12-08 | 2023-12-08 | 一种基于人工智能技术的视频快速剪辑方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117692676A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7702014B1 (en) * | 1999-12-16 | 2010-04-20 | Muvee Technologies Pte. Ltd. | System and method for video production |
US20140147095A1 (en) * | 2012-05-01 | 2014-05-29 | Wochit, Inc. | Semi-automatic generation of multimedia content |
CN110909185A (zh) * | 2018-09-17 | 2020-03-24 | 国家新闻出版广电总局广播科学研究院 | 智能化广播电视节目制作方法及装置 |
CN114979705A (zh) * | 2022-04-12 | 2022-08-30 | 杭州电子科技大学 | 一种基于深度学习、自注意力机制与符号推理的自动剪辑方法 |
CN115022711A (zh) * | 2022-04-28 | 2022-09-06 | 之江实验室 | 一种电影场景内镜头视频排序***及方法 |
CN115052201A (zh) * | 2022-05-17 | 2022-09-13 | 阿里巴巴(中国)有限公司 | 视频剪辑方法及电子设备 |
CN115080731A (zh) * | 2021-03-16 | 2022-09-20 | 广州视源电子科技股份有限公司 | 评语语段生成方法、装置、电子设备和存储介质 |
CN115115984A (zh) * | 2022-06-28 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 视频数据处理方法、装置、程序产品、计算机设备和介质 |
CN115134646A (zh) * | 2022-08-25 | 2022-09-30 | 荣耀终端有限公司 | 视频编辑方法和电子设备 |
CN116614672A (zh) * | 2023-05-24 | 2023-08-18 | 上海数川数据科技有限公司 | 一种基于文本-视频检索的自动混剪视频的方法 |
CN116935287A (zh) * | 2023-08-07 | 2023-10-24 | 百度时代网络技术(北京)有限公司 | 视频理解方法和装置 |
-
2023
- 2023-12-08 CN CN202311688242.XA patent/CN117692676A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7702014B1 (en) * | 1999-12-16 | 2010-04-20 | Muvee Technologies Pte. Ltd. | System and method for video production |
US20140147095A1 (en) * | 2012-05-01 | 2014-05-29 | Wochit, Inc. | Semi-automatic generation of multimedia content |
CN110909185A (zh) * | 2018-09-17 | 2020-03-24 | 国家新闻出版广电总局广播科学研究院 | 智能化广播电视节目制作方法及装置 |
CN115080731A (zh) * | 2021-03-16 | 2022-09-20 | 广州视源电子科技股份有限公司 | 评语语段生成方法、装置、电子设备和存储介质 |
CN114979705A (zh) * | 2022-04-12 | 2022-08-30 | 杭州电子科技大学 | 一种基于深度学习、自注意力机制与符号推理的自动剪辑方法 |
CN115022711A (zh) * | 2022-04-28 | 2022-09-06 | 之江实验室 | 一种电影场景内镜头视频排序***及方法 |
CN115052201A (zh) * | 2022-05-17 | 2022-09-13 | 阿里巴巴(中国)有限公司 | 视频剪辑方法及电子设备 |
CN115115984A (zh) * | 2022-06-28 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 视频数据处理方法、装置、程序产品、计算机设备和介质 |
CN115134646A (zh) * | 2022-08-25 | 2022-09-30 | 荣耀终端有限公司 | 视频编辑方法和电子设备 |
CN116614672A (zh) * | 2023-05-24 | 2023-08-18 | 上海数川数据科技有限公司 | 一种基于文本-视频检索的自动混剪视频的方法 |
CN116935287A (zh) * | 2023-08-07 | 2023-10-24 | 百度时代网络技术(北京)有限公司 | 视频理解方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107315737B (zh) | 一种语义逻辑处理方法及*** | |
CN110555136B (zh) | 一种视频标签的生成方法、装置及计算机存储介质 | |
US6363380B1 (en) | Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser | |
CN110083729B (zh) | 一种图像搜索的方法及*** | |
CN112417863B (zh) | 基于预训练词向量模型与随机森林算法的中文文本分类方法 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN111191022A (zh) | 商品短标题生成方法及装置 | |
CN113821605B (zh) | 一种事件抽取方法 | |
CN112800263A (zh) | 一种基于人工智能的视频合成***、方法及介质 | |
CN107122393B (zh) | 电子相册生成方法以及装置 | |
CN112784056B (zh) | 一种基于视频智能识别及智能语义搜索的短视频生成方法 | |
CN114547373A (zh) | 一种基于音频智能识别搜索节目的方法 | |
CN110866086A (zh) | 一种文章配图*** | |
CN117634615A (zh) | 一种基于模态无关对比学习的多任务代码检索方法 | |
Medida et al. | An optimized E-lecture video retrieval based on machine learning classification | |
CN112543371A (zh) | 视频数据处理方法、装置、终端及存储介质 | |
CN112528073A (zh) | 视频生成方法及装置 | |
CN117692676A (zh) | 一种基于人工智能技术的视频快速剪辑方法 | |
CN114741512A (zh) | 一种文本自动分类方法及*** | |
CN113869043A (zh) | 内容标注方法、装置、设备及存储介质 | |
Huang et al. | Play it again IMuCo! music composition to match your mood | |
KR101986784B1 (ko) | 특허 검색을 위한 최적 검색식 자동 추천 시스템 및 방법 | |
CN114328990B (zh) | 图像完整性识别方法、装置、计算机设备和存储介质 | |
CN113113043B (zh) | 语音转图像方法及装置 | |
CN117544831B (zh) | 一种课堂教学环节自动分解的方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |