CN115134660A - 视频剪辑方法、装置、计算机设备及存储介质 - Google Patents

视频剪辑方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN115134660A
CN115134660A CN202210737613.8A CN202210737613A CN115134660A CN 115134660 A CN115134660 A CN 115134660A CN 202210737613 A CN202210737613 A CN 202210737613A CN 115134660 A CN115134660 A CN 115134660A
Authority
CN
China
Prior art keywords
video
text
knowledge point
target
source file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210737613.8A
Other languages
English (en)
Inventor
马亿凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210737613.8A priority Critical patent/CN115134660A/zh
Publication of CN115134660A publication Critical patent/CN115134660A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请涉及音视频处理技术领域,提供了一种视频剪辑方法、装置、计算机设备及存储介质,方法部分包括:当接收到第一目标账户发送的视频剪辑指令时,根据视频剪辑指令读取目标视频源文件,从目标视频源文件中提取目标音频信息,通过文本转换,得到目标视频源文件对应的目标视频文本。基于预设词典从目标视频文本中确定出至少一个知识点文本,然后根据各个知识点文本在目标视频源文件对应时间轴上的位置,确定出各个知识点文本对应的视频片段,按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频。本方案通过基于目标视频源文件中的知识点文本对目标视频源文件进行视频剪辑,提高了视频剪辑的效率。

Description

视频剪辑方法、装置、计算机设备及存储介质
技术领域
本申请涉及音视频处理技术领域,尤其涉及一种视频剪辑方法、视频剪辑装置、计算机设备及存储介质。
背景技术
视频剪辑是使用软件对视频源进行非线性编辑,加入的图片、背景音乐、特效、场景等素材与视频进行重混合,对视频源进行切割、合并,通过二次编码,生成具有不同表现力的新视频。
在现有的很多企业中,由于不具备视频剪辑的相关技术人员,需要预先将视频源文件进行整理后输出为短视频剧本,再提交给供应商,供应商根据短视频剧本进行视频剪辑,过程繁琐,且对于像培训类的视频源文件,若企业人员对培训内容理解不透彻,那么整理出的短视频文本容易出现不清楚的问题,进而影响视频剪辑的效果,综上可知,现有的视频剪辑方案剪辑效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种视频剪辑方法,以解决现有的视频剪辑方案中视频剪辑效率较低的问题。
本申请实施例的第一方面提供了一种视频剪辑方法,包括:
响应于第一目标账户发送的视频剪辑指令,读取目标视频源文件;
从所述目标视频源文件中提取目标音频信息,并采用预设语音识别模型对所述目标音频信息进行文本转换,得到目标视频文本;
基于预设词典从所述目标视频文本中匹配出至少一个知识点文本;其中,所述预设词典包括与所述知识点文本匹配的关键词;
根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置,确定出每个所述知识点文本对应的视频片段;
按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频;其中,同种知识点文本是指匹配到的同一所述关键词的知识点文本;不同知识点文本是指匹配到不同的所述关键词的文本。
本申请实施例的第二方面提供了一种视频剪辑装置,包括:
响应模块:用于响应于第一目标账户发送的视频剪辑指令,读取目标视频源文件;
转换模块:用于从所述目标视频源文件中提取目标音频信息,并采用预设语音识别模型对所述目标音频信息进行文本转换,得到目标视频文本;
匹配模块:用于基于预设词典从所述目标视频文本中匹配出至少一个知识点文本;其中,所述预设词典包括与所述知识点文本匹配的关键词;
确定模块:用于根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置,确定出每个所述知识点文本对应的视频片段;
输出模块:用于按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频;其中,同种知识点文本是指匹配到的同一所述关键词的知识点文本;不同知识点文本是指匹配到不同的所述关键词的文本。
本申请实施例的第三方面提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述视频剪辑方法。
本申请实施例的第四方面提供了一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述视频剪辑方法。
实施本申请实施例提供的一种视频剪辑方法、视频剪辑装置、计算机设备及存储介质,具有以下有益效果:
本申请提供一种视频剪辑方法,当接收到第一目标账户发送的视频剪辑指令时,根据视频剪辑指令读取目标视频源文件,为了能够更精确地按照目标视频源文件中的知识点对目标视频源文件进行剪辑,首先从目标视频源文件中提取目标音频信息,通过文本转换,得到目标视频源文件对应的目标视频文本。由于预设词典包括与知识点文本匹配的关键词,因此基于预设词典能够从目标视频文本中确定出至少一个知识点文本,然后根据各个知识点文本在目标视频源文件对应时间轴上的位置,确定出各个知识点文本对应的视频片段,按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频。本方案通过在接收到视频剪辑指令后,根据视频剪辑指令获取目标视频源文件,并基于知识点文本对目标视频源文件进行视频剪辑,无需供应商干预且能够更精确的对目标视频源文件进行知识点分类,提高了视频剪辑的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中视频剪辑方法的应用环境示意图;
图2是本申请实施例中视频剪辑方法的实现流程示意图;
图3是本申请实施例中视频剪辑装置的结构示意图;
图4是本申请实施例中计算机设备的一示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1示出了本申请实施例中视频剪辑方法的一应用环境示意图,如图1所示,第一目标账户通过客户端发送视频剪辑指令,服务器接收并响应该视频剪辑指令,读取目标视频源文件,将目标视频源文件剪辑为不同知识点文本对应的短视频,将短视频返回至客户端。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。不同业务***的用户终端可以同时与服务器,或者与服务器集群中的某个特定服务器之间进行交互。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在具体实现时,服务器响应于第一目标账户发送的视频剪辑指令,根据该视频剪辑指令,读取目标原视频文件。然后服务器采用预设语音识别模型,对目标视频源文件对应的目标音频信息进行文本转换,得到目标视频文本。基于根据目标视频源文件配置得到的预设词典,服务器从目标视频文本中匹配出至少一个知识点文本后,再根据各个知识点文本在目标视频源文件对应时间轴上的位置,确定出每个知识点文本对应的视频片段,按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频。本方案通过在接收到视频剪辑指令后,根据视频剪辑指令获取目标视频源文件,并基于知识点文本对目标视频源文件进行视频剪辑,无需供应商干预且能够更精确的对目标视频源文件进行知识点分类,提高了视频剪辑的效率。
请参阅图2,图2所示为本申请实施例中视频剪辑方法的实现流程图,以该方法应用在图1中的服务端的服务器为例进行说明,包括如下步骤:
S11:响应于第一目标账户发送的视频剪辑指令,读取目标视频源文件。
在步骤S11中,第一目标账户是指在企业客户端完成注册的账户,通过第一目标账户可以上传视频,上传视频源文件的地址,观看视频、评价视频,发送视频剪辑指令等等。视频剪辑指令包含视频源文件的地址信息。目标视频源文件是指视频剪辑指令对应的待剪辑的视频源文件。
在本实施例中,考虑到***较多,可能来自外部的网站,也可能是由企业线下同步录制的视频。因此不适合直接通过接口形式做视频对接方案,获取视频源文件。可以由企业员工在用户终端上传目标视频源文件的地址信息,用户终端将改地址信息封装至视频剪辑指令中,并将该视频剪辑指令发送至服务器。服务器接收到视频剪辑指令,通过对其进行解析获取到目标视频源文件。
S12:从所述目标视频源文件中提取目标音频信息,并采用预设语音识别模型对所述目标音频信息进行文本转换,得到目标视频文本。
在步骤S12中,目标视频源文件包括目标音频信息、图像等信息。预设语音识别模型可以是ASR(Automatic Speech Recognition,自动语音识别技术)模型、Wav2Vec模型等等,用于将音频转化为文本。
在本实施例中,为了能够根据目标视频源文件的内容对目标视频源文件进行剪辑,需要学***稳信号的环境中收敛性好、其期望值无偏地收敛到维纳解和利用有限精度实现算法时的平稳性等特性,能够用于去噪等等。
S13:基于预设词典从所述目标视频文本中匹配出至少一个知识点文本。
在步骤S13中,预设词典是根据目标视频源文件配置得到的;预设词典包括与知识点文本匹配的关键词。
在本实施例中,目标视频源文件对应的有PPT、word等格式的电子版的视频资料,可由企业内相关人员预先对该视频资料中的知识框架、专业术语等进行关键词标注,并将标注的关键词作为目标视频源文件对应的视频中可能出现的知识点,基于关键词构建预设词典。在获取到目标视频文本后,通过将目标视频文本与预设词典中的各个关键词进行相似度匹配,可从目标视频文本中确定出至少一个知识点文本。需要说明的是,预设词典中的各个关键词均以向量标识。
作为一示例,请参阅下表1,表1所示为根据一目标视频源文件配置的预设词典,该预设词典中包括不同的主题关键词以及各个主题下对应的内容关键词,其中,主题关键词和内容关键词均用于知识点文本匹配。
Figure BDA0003716528900000071
Figure BDA0003716528900000081
表1
作为本申请一实施例,所述基于预设词典从所述目标视频文本中匹配出至少一个知识点文本,包括:通过预设自然语言处理模型对所述目标视频文本进行预处理,得到至少一个名词文本;计算每一所述名词文本与所述预设词典中各个所述关键词的关联度分值;当所述关联度分值大于预设阈值时,将所述关联度分值对应的名词文本判定为所述知识点文本。
在本实施例中,可采用预设自然语言处理模型进行相似度计算。其中,预设自然语言处理模型可以是One-hot编码、BOW(Bag of Words,词袋模型)、N-gram语言模型等等。在NLP(Natural Language Processing,自然语言处理)模型中,常用的相似度计算方法。一类是统计指标,比如余弦相似度、Person相关系数、欧氏距离等;一类是基于文本距离的计算方法,比如编辑距离、WMD、BM25等;还有一类是基于深度匹配的相似度计算,比如DSSM(DeepStructured Semantic Models)。
由于目标视频文本是通过语音识别模型进行文本转换得到连续的文本,包括有许多与知识点文本匹配无关的词汇,因此需要先通过预设自然语言处理模型对目标视频文本进行预处理,提取出目标视频文本中的所有名词文本。然后计算每一名词文本与预设词典的关联度分值,也即,在判断名词文本是否为知识点文本时,将该名词文本与预设词典中的每一个关键词进行相似度计算,例如可以计算该名词文本与预设词典中的每一个关键词之间的欧氏距离、余弦相似度等,然后取相似度的最高值作为该名词文本与预设词典的关联度分值。若识别到某一名词文本与预设词典的关联度分值大于预设阈值,则可判定预设词典中存在一关键词与该名词文本匹配,将该名词文本判定为知识点文本,其中关联度分值大于等于0分且小于等于10分,预设阈值可以取6、7等等。
需要说明的是,上述所有名词文本及预设词典中各个关键词均以向量表示。
作为本申请一实施例,所述通过预设自然语言处理模型对所述目标视频文本进行预处理,得到至少一个名词文本,包括:利用预设自然语言处理模型对所述目标视频文本进行切词处理,得到至少一个文本词汇;对所有所述文本词汇进行词性标注,得到标注文本词汇;从所述标注文本词汇中提取标注为名词词性的文本,得到至少一个名词文本。
在本实施例中,由于在目标视频文本中可能存在较多的语气词,例如嗯,啊等等,这些语气词与后续的知识点文本匹配无关,因此需要先对目标视频文本进行切词处理,得到至少一个文本词汇,例如采用正向最大匹配算法对目标视频进行切词。完成切词后,根据语法规则,对每一个文本词汇进行词性标注,得到标注文本词汇,其中,标注文本词汇包括形容词文本、副词文本、名词文本等等。将所有名词文本从标注文本词汇中提取出来,用于后续进行知识点文本匹配。
S14:根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置,确定出每个所述知识点文本对应的视频片段。
在步骤S14中,目标视频源文件对应的时间轴,也即目标视频源文件对应视频的播放时间轴。
在本实施例中,在通过预设语音识别模型对目标视频源文件进行文本转换时会同步标识目标视频文本的时间点,从而可以确定出目标视频文本中各个知识点文本在时间轴上的各个时间点,根据各个知识点文本对应时间点,确定出每个知识点文本对应的视频片段。需要说明的是相同的知识点可能在不同的时间段出现,两个不同的知识点对应的视频片段也可能存在重叠。
作为本申请一实施例,所述根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置,确定出每个所述知识点文本对应的视频片段,包括:识别各个所述知识点文本在所述目标视频文本中的时间戳;所述时间戳包括开始时间戳和结束时间戳;根据每个所述知识点文本对应的所述开始时间戳和结束时间戳,确定出每个所述知识点文本对应的视频片段。
在本实施例中,沿着时间轴出现第一个知识点文本的时间点即第一个知识点文本的开始时间戳,当在第一个知识点文本出现的某个随机时间点之后的预设时间内第一个知识点文本不再出现则将这个随机时间点作为第一个知识点文本的结束时间戳,其中预设时间可以自定义,例如3分钟、5分钟等等。同理,出现第二个知识点文本的时间点即第二个知识点文本的开始时间戳,当在第二个知识点文本出现的某个随机时间点之后的预设时间内第二个知识点文本不再出现则将这个随机时间点作为第二个知识点文本的结束时间戳,以此类推,确定出各个知识点文本的开始时间戳和结束时间戳,每个知识点文本的开始时间戳和结束时间戳之间的视频片段即该知识点文本对应的视频片段。
需要说明的是两个不同的知识点文本对应的视频片段可能存在重叠,相同的知识点文本也可能在不同的时间段上出现。作为一示例,请参阅下表2,表2展示了同一主题下4个知识点文本的开始时间戳、结束时间戳,如表2所示,第一个“客户名单”对应的视频片段与“目标人群”知识点文本对应的视频片段有重叠,相同的两个知识点文本“客户名单”在不同的时间段出现。
Figure BDA0003716528900000111
表2
S15:按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频。
在步骤S15中,同种知识点文本是指匹配到的同一关键词的知识点文本;不同知识点文本是指匹配到不同的关键词的文本。例如两个知识点文本,客户名单和客户清单,均与预设词典中的关键词“客户名单”匹配,则将这两个知识点文本判定为同种知识点文本。预设视频拼装策略用于表征知识点文本对应视频片段的拼装规则。
在本实施例中,由于获取到的各个知识点文本对应的视频片段比较散乱,因此需要将同种知识点文本对应的视频片段按照预设视频拼装策略进行拼装,以便于第一目标账户能够按照知识点进行分段学习。
作为本申请一实施例,所述按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频,包括:根据各个知识点文本对应的关键词对所述视频片段进行分类,得到至少一组视频片段集合;其中,每组所述视频片段集合对应一种知识点文本;基于所述视频片段集合中各个子视频片段的时间顺序,对所述子视频片段进行顺序标识,得到标识后的子视频片段;按照所述标识后的子视频片段的顺序,对所述标识后的子视频片段进行拼装,得到各个不同知识点文本对应的短视频。
在本实施例中,按照预设词典中与各个知识点文本匹配的关键词,将匹配到同一关键词的知识点文本划分为同种知识点文本,并将同种知识点文本对应的各个视频片段放到一个视频片段集合中。由于每组视频片段集合中,各个子视频片段在时间轴上的时间顺序不同,为了使得输出的该知识点文本对应的短视频能够连贯,可基于视频片段集合中各个子视频片段的时间顺序,对各个子视频片段进行顺序标识,作为一种实施方式,可以根据各个子视频片段的开始时间戳或结束时间戳的大小,确定各个子视频片段的时间先后顺序。例如视频片段集合中包括两个子视频片段,两个子视频片段的开始时间戳分别为第10分钟和第30分钟,则将开始时间戳为第10分钟的子视频片段标识为1,开始时间戳为第30分钟的子视频片段标识为2。作为其他实施方式,还可以以视频片段集合对应的关键词加上各个子视频片段的时间顺序来标识该视频片段集合中的各个子视频片段。最后,按照所述标识后的子视频片段的标识,将标识后的子视频片段拼装成一个完整的短视频,该短视频对应一种知识点文本。
作为一种实施方式,若目标视频源文件包含由不同的主题,可以按照上述方法先划分出各个主题对应的主题短视频,再根据每个主题下细分的知识点文本对每个子主题对应的主题短视频进行进一步的划分。
本申请提供一种视频剪辑方法,当接收到第一目标账户发送的视频剪辑指令时,根据视频剪辑指令读取目标视频源文件,为了能够更精确地按照目标视频源文件中的知识点对目标视频源文件进行剪辑,首先从目标视频源文件中提取目标音频信息,通过文本转换,得到目标视频源文件对应的目标视频文本。由于预设词典是根据所述目标视频源文件配置得到的,且预设词典包括与知识点文本匹配的关键词,因此基于预设词典能够从目标视频文本中确定出至少一个知识点文本,然后根据各个知识点文本在目标视频源文件对应时间轴上的位置,确定出各个知识点文本对应的视频片段,按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频。本方案通过在接收到视频剪辑指令后,根据视频剪辑指令获取目标视频源文件,并基于知识点文本对目标视频源文件进行视频剪辑,无需供应商干预且能够更精确的对目标视频源文件进行知识点分类,提高了视频剪辑的效率。
作为本申请另一实施例,在所述按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频的步骤之后,还包括:接收第二目标账户对各个所述短视频的评价结果,根据所述评价结果更新各个所述短视频对应知识点文本的关联度分值;所述第二目标账户包括所述第一目标账户;对所述关联度分值处于下降状态的短视频进行删减操作,得到删减后的短视频。
在本实施例中,第二目标账户也是指在企业客户端完成注册的账户,其包括第一目标账户和不具有发送视频剪辑指令权限的其他目标账户。第二目标账户在观看各个知识点文本对应的短视频后,可对各个短视频进行评价,服务器根据第二目标账户对各个短视频的评价结果,更新各个短视频对应知识点文本的关联度分值。
具体地,若第二目标账户对短视频的评价结果为赞同,则提高短视频对应知识点文本的关联度分值;若第二目标账户对目标短视频的评价结果为反对,则降低短视频对应知识点文本的关联度分值。对于知识点文本的关联度分值降低的短视频,第一目标账户会不定期的对其进行视频片段抽取,并判断该视频片段对应知识点文本是否与该视频片段所属的短视频对应的知识点文本一致,若不一致,则将该视频片段标记为废弃内容,服务器根据该标记,将该视频片段从其所属的短视频中删除,得到删减后的短视频,并将删减后的短视频发送至企业客户端,第二目标账户可继续观看、评价删减后的短视频。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在一个实施例中,提供一种视频剪辑装置300,该视频剪辑装置与上述实施例中视频剪辑方法一一对应。如图3所示,该视频剪辑装置包括响应模块301、转换模块302、匹配模块303、确定模块304以及输出模块305。各功能模块详细说明如下:
响应模块301:用于响应于第一目标账户发送的视频剪辑指令,读取目标视频源文件;
转换模块302:用于从所述目标视频源文件中提取目标音频信息,并采用预设语音识别模型对所述目标音频信息进行文本转换,得到目标视频文本;
匹配模块303:用于基于预设词典从所述目标视频文本中匹配出至少一个知识点文本;其中,所述预设词典是根据所述目标视频源文件配置得到的;所述预设词典包括与所述知识点文本匹配的关键词;
确定模块304:用于根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置,确定出每个所述知识点文本对应的视频片段;
输出模块305:用于按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频;其中,同种知识点文本是指匹配到的同一所述关键词的知识点文本;不同知识点文本是指匹配到不同的所述关键词的文本。
关于视频剪辑装置的具体限定可以参见上文中对于视频剪辑方法的限定,在此不再赘述。上述视频剪辑装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作***、计算机可读指令和数据库。该内存储器为可读存储介质中的操作***和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储视频剪辑方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种视频剪辑方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该非易失性存储介质存储有操作***和计算机可读指令。该内存储器为可读存储介质中的操作***和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行时以实现一种视频剪辑方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
响应于第一目标账户发送的视频剪辑指令,读取目标视频源文件;
从所述目标视频源文件中提取目标音频信息,并采用预设语音识别模型对所述目标音频信息进行文本转换,得到目标视频文本;
基于预设词典从所述目标视频文本中匹配出至少一个知识点文本;其中,所述预设词典是根据所述目标视频源文件配置得到的;所述预设词典包括与所述知识点文本匹配的关键词;
根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置,确定出每个所述知识点文本对应的视频片段;
按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频;其中,同种知识点文本是指匹配到的同一所述关键词的知识点文本;不同知识点文本是指匹配到不同的所述关键词的文本。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
响应于第一目标账户发送的视频剪辑指令,读取目标视频源文件;
从所述目标视频源文件中提取目标音频信息,并采用预设语音识别模型对所述目标音频信息进行文本转换,得到目标视频文本;
基于预设词典从所述目标视频文本中匹配出至少一个知识点文本;其中,所述预设词典是根据所述目标视频源文件配置得到的;所述预设词典包括与所述知识点文本匹配的关键词;
根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置,确定出每个所述知识点文本对应的视频片段;
按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频;其中,同种知识点文本是指匹配到的同一所述关键词的知识点文本;不同知识点文本是指匹配到不同的所述关键词的文本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种视频剪辑方法,其特征在于,所述视频剪辑方法包括:
响应于第一目标账户发送的视频剪辑指令,读取目标视频源文件;
从所述目标视频源文件中提取目标音频信息,并采用预设语音识别模型对所述目标音频信息进行文本转换,得到目标视频文本;
基于预设词典从所述目标视频文本中匹配出至少一个知识点文本;其中,所述预设词典包括与所述知识点文本匹配的关键词;
根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置,确定出每个所述知识点文本对应的视频片段;
按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频;其中,同种知识点文本是指匹配到的同一所述关键词的知识点文本;不同知识点文本是指匹配到不同的所述关键词的文本。
2.如权利要求1所述的视频剪辑方法,其特征在于,所述基于预设词典从所述目标视频文本中匹配出至少一个知识点文本,包括:
通过预设自然语言处理模型对所述目标视频文本进行预处理,得到至少一个名词文本;
计算每一所述名词文本与所述预设词典中各个所述关键词的关联度分值;
当所述关联度分值大于预设阈值时,将所述关联度分值对应的名词文本判定为所述知识点文本。
3.如权利要求2所述的视频剪辑方法,其特征在于,所述通过预设自然语言处理模型对所述目标视频文本进行预处理,得到至少一个名词文本,包括:
利用预设自然语言处理模型对所述目标视频文本进行切词处理,得到至少一个文本词汇;
对所有所述文本词汇进行词性标注,得到标注文本词汇;
从所述标注文本词汇中提取标注为名词词性的文本,得到至少一个名词文本。
4.如权利要求1所述的视频剪辑方法,其特征在于,所述根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置,确定出每个所述知识点文本对应的视频片段,包括:
识别各个所述知识点文本在所述目标视频文本中的时间戳;所述时间戳包括开始时间戳和结束时间戳;
根据每个所述知识点文本对应的所述开始时间戳和结束时间戳,确定出每个所述知识点文本对应的视频片段。
5.如权利要求1所述的视频剪辑方法,其特征在于,所述按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频,包括:
根据各个知识点文本对应的关键词对所述视频片段进行分类,得到至少一组视频片段集合;其中,每组所述视频片段集合对应一种知识点文本;
基于所述视频片段集合中各个子视频片段的时间顺序,对所述子视频片段进行顺序标识,得到标识后的子视频片段;
按照所述标识后的子视频片段的顺序,对所述标识后的子视频片段进行拼装,得到各个不同知识点文本对应的短视频。
6.如权利要求2所述的视频剪辑方法,其特征在于,在所述按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频的步骤之后,还包括:
接收第二目标账户对各个所述短视频的评价结果,根据所述评价结果更新各个所述短视频对应知识点文本的关联度分值;
对所述关联度分值处于下降状态的短视频进行删减操作,得到删减后的短视频。
7.如权利要求6所述的视频剪辑方法,其特征在于,所述根据所述评价结果更新各个所述短视频对应知识点文本的关联度分值,包括:
若所述第二目标账户对所述短视频的评价结果为赞同,则提高所述短视频对应知识点文本的关联度分值;
若所述第二目标账户对所述短视频的评价结果为反对,则降低所述短视频对应知识点文本的关联度分值。
8.一种视频剪辑装置,其特征在于,所述视频剪辑装置包括:
响应模块:用于响应于第一目标账户发送的视频剪辑指令,读取目标视频源文件;
转换模块:用于从所述目标视频源文件中提取目标音频信息,并采用预设语音识别模型对所述目标音频信息进行文本转换,得到目标视频文本;
匹配模块:用于基于预设词典从所述目标视频文本中匹配出至少一个知识点文本;其中,所述预设词典包括与所述知识点文本匹配的关键词;
确定模块:用于根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置,确定出每个所述知识点文本对应的视频片段;
输出模块:用于按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装,输出各个不同知识点文本对应的短视频;其中,同种知识点文本是指匹配到的同一所述关键词的知识点文本;不同知识点文本是指匹配到不同的所述关键词的文本。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时以实现权利要求1-7任意一项所述的视频剪辑方法。
10.一个或多个可读存储介质,所述可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1-7任意一项所述的视频剪辑方法。
CN202210737613.8A 2022-06-27 2022-06-27 视频剪辑方法、装置、计算机设备及存储介质 Pending CN115134660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210737613.8A CN115134660A (zh) 2022-06-27 2022-06-27 视频剪辑方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210737613.8A CN115134660A (zh) 2022-06-27 2022-06-27 视频剪辑方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115134660A true CN115134660A (zh) 2022-09-30

Family

ID=83379496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210737613.8A Pending CN115134660A (zh) 2022-06-27 2022-06-27 视频剪辑方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115134660A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115767174A (zh) * 2022-10-31 2023-03-07 上海卓越睿新数码科技股份有限公司 在线视频剪辑方法
CN118042248A (zh) * 2024-04-11 2024-05-14 深圳市捷易科技有限公司 视频生成方法、装置、设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858005A (zh) * 2019-03-07 2019-06-07 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN112929744A (zh) * 2021-01-22 2021-06-08 北京百度网讯科技有限公司 用于分割视频剪辑的方法、装置、设备、介质和程序产品
CN113254708A (zh) * 2021-06-28 2021-08-13 北京乐学帮网络技术有限公司 一种视频搜索方法、装置、计算机设备及存储介质
CN113286173A (zh) * 2021-05-19 2021-08-20 北京沃东天骏信息技术有限公司 一种视频剪辑方法和装置
CN113709384A (zh) * 2021-03-04 2021-11-26 腾讯科技(深圳)有限公司 基于深度学习的视频剪辑方法、相关设备及存储介质
CN114357996A (zh) * 2021-12-06 2022-04-15 北京网宿科技有限公司 时序文本特征提取方法、装置、电子设备及存储介质
CN114449310A (zh) * 2022-02-15 2022-05-06 平安科技(深圳)有限公司 视频剪辑方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858005A (zh) * 2019-03-07 2019-06-07 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN112929744A (zh) * 2021-01-22 2021-06-08 北京百度网讯科技有限公司 用于分割视频剪辑的方法、装置、设备、介质和程序产品
CN113709384A (zh) * 2021-03-04 2021-11-26 腾讯科技(深圳)有限公司 基于深度学习的视频剪辑方法、相关设备及存储介质
CN113286173A (zh) * 2021-05-19 2021-08-20 北京沃东天骏信息技术有限公司 一种视频剪辑方法和装置
CN113254708A (zh) * 2021-06-28 2021-08-13 北京乐学帮网络技术有限公司 一种视频搜索方法、装置、计算机设备及存储介质
CN114357996A (zh) * 2021-12-06 2022-04-15 北京网宿科技有限公司 时序文本特征提取方法、装置、电子设备及存储介质
CN114449310A (zh) * 2022-02-15 2022-05-06 平安科技(深圳)有限公司 视频剪辑方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115767174A (zh) * 2022-10-31 2023-03-07 上海卓越睿新数码科技股份有限公司 在线视频剪辑方法
CN118042248A (zh) * 2024-04-11 2024-05-14 深圳市捷易科技有限公司 视频生成方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110765244B (zh) 获取应答话术的方法、装置、计算机设备及存储介质
US11468239B2 (en) Joint intent and entity recognition using transformer models
US9923860B2 (en) Annotating content with contextually relevant comments
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
US20200304433A1 (en) Interactive virtual conversation interface systems and methods
CN113901320A (zh) 场景服务推荐方法、装置、设备及存储介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN114556328A (zh) 数据处理方法、装置、电子设备和存储介质
US11416539B2 (en) Media selection based on content topic and sentiment
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
US20230289514A1 (en) Speech recognition text processing method and apparatus, device, storage medium, and program product
CN113254613A (zh) 对话问答方法、装置、设备及存储介质
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN114449310A (zh) 视频剪辑方法、装置、计算机设备及存储介质
CN115134660A (zh) 视频剪辑方法、装置、计算机设备及存储介质
US11437038B2 (en) Recognition and restructuring of previously presented materials
US11972759B2 (en) Audio mistranscription mitigation
CN117520498A (zh) 基于虚拟数字人交互处理方法、***、终端、设备及介质
US9747891B1 (en) Name pronunciation recommendation
CN112307738A (zh) 用于处理文本的方法和装置
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN115169345A (zh) 文本情感分析模型的训练方法、装置、设备及存储介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination