CN113613065B

CN113613065B - 视频编辑方法、装置、电子设备以及存储介质

Info

Publication number: CN113613065B
Application number: CN202110883507.6A
Authority: CN
Inventors: 马彩虹; 叶芷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2022-09-09
Anticipated expiration: 2041-08-02
Also published as: WO2023011094A1; CN113613065A

Abstract

本公开提供了视频编辑方法、装置、电子设备以及存储介质，涉及人工智能技术领域，尤其涉及深度学习和视频分析领域。具体实现方案为：根据与视频正片包括的至少一个事件场景各自的第一部分帧相对应的第一帧信息，对每个事件场景进行分类处理，得到场景分类结果；在场景分类结果表征与场景分类结果相对应的目标事件场景为片段切分点的情况下，根据目标事件场景的起始时间信息，将视频正片拆分为至少一个视频片段，其中，每个视频片段中包括至少一个事件场景；以及基于至少一个视频片段进行视频编辑操作。

Description

视频编辑方法、装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习和视频分析领域，具体涉及一种视频编辑方法、装置、电子设备以及存储介质。

背景技术

视频(Video)技术泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的技术。相关技术中，可以按照一定的标准和规则，对视频资料进行切分、归类、著录、标引等编辑操作。

发明内容

本公开提供了一种视频编辑方法、装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种视频编辑方法，包括：根据与视频正片包括的至少一个事件场景各自的第一部分帧相对应的第一帧信息，对每个所述事件场景进行分类处理，得到场景分类结果；在所述场景分类结果表征与所述场景分类结果相对应的目标事件场景为片段切分点的情况下，根据所述目标事件场景的起始时间信息，将所述视频正片拆分为至少一个视频片段，其中，每个所述视频片段中包括至少一个所述事件场景；以及基于所述至少一个视频片段进行视频编辑操作。

根据本公开的另一方面，提供了一种视频编辑装置，包括：第一处理模块，用于根据与视频正片包括的至少一个事件场景各自的第一部分帧相对应的第一帧信息，对每个所述事件场景进行分类处理，得到场景分类结果；第一拆分模块，用于在所述场景分类结果表征与所述场景分类结果相对应的目标事件场景为片段切分点的情况下，根据所述目标事件场景的起始时间信息，将所述视频正片拆分为至少一个视频片段，其中，每个所述视频片段中包括至少一个所述事件场景；以及视频编辑模块，用于基于所述至少一个视频片段进行视频编辑操作。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用视频编辑方法及装置的示例性***架构；

图2示意性示出了根据本公开实施例的视频编辑方法的流程图；

图3示意性示出了根据本公开实施例的视频分级示意图；

图4示意性示出了根据本公开实施例的根据事件场景划分视频片段的示例图；

图5示意性示出了根据本公开实施例的视频编辑方法的流程示意图；

图6示意性示出了根据本公开实施例的视频编辑装置的框图；以及

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

视频编辑技术可以利用视频中的图像、音频、字幕等信息，对视频资料基于内容和形式特征进行分析、归纳和记录，并组织、制作各种检索目录或检索途径，包括视频打标签、视频拆条等需求。例如，编辑中可以对视频进行节目层、片段层、场景层、镜头层的时间线打点处理、视频关键词标签确定、视频内容描述、视频标题说明等。

发明人在实现本公开构思的过程中发现，视频标签、视频拆条、视频描述，需要结合视频的上下文结构信息，提取高层的语义信息。传统处理主要依靠人工。当前多媒体数据量激增，为了平衡人工处理速度和媒体数据的增长，视频编辑需要耗费更多的人力完成视频的编辑入库。

实现视频编辑的一些其他方案例如包括：(1)镜头检测技术辅助人工实现视频拆分。视频编辑工具利用视频帧差信息，实现视频镜头层切分；计算机视觉技术利用人脸检测实现镜头拆分。(2)基于机器学习的视频描述技术。如video-caption技术，利用视频的图像和音频信息，实现简单的场景描述，如“某人在某空间做某事”。(3)基于机器学习的视频智能标签技术。如图像分类、图像检测、视频分类等。

发明人在实现本公开构思的过程中发现，方案(1)利用单帧图像信息或者短时序的图像信息，只能实现镜头粒度的拆分，无法实现更高层的语义聚合。对于更高语义层级(如场景层、片段层)的划分，仍然需要利用人工辅助完成。方案(2)的AI模型，需要大量的人工标注，实现模型训练。且模型对场景描述过于简单、生硬，无法满足实际落地应用的需求。由于视频的时序冗余信息较多，尤其是在长视频影视剧上，采用方案(3)对全部的关键帧进行无区别的处理，会导致处理效率低下。

基于此，本公开引入自动编辑技术，通过基于机器学习的多模***，实现自动化编辑需求。主要解决目前对人工理解依赖度较高的视频编辑部分：智能标签、自动拆条、视频描述生成等功能。

图1示意性示出了根据本公开实施例的可以应用视频编辑方法及装置的示例性***架构。

需要注意的是，图1所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。例如，在另一实施例中，可以应用视频编辑方法及装置的示例性***架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的视频编辑方法及装置。

如图1所示，根据该实施例的***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持视频浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual PrivateServer″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

需要说明的是，本公开实施例所提供的视频编辑方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的视频编辑装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的视频编辑方法一般也可以由服务器105执行。相应地，本公开实施例所提供的视频编辑装置一般可以设置于服务器105中。本公开实施例所提供的视频编辑方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的视频编辑装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如，在需要对视频进行编辑时，终端设备101、102、103可以根据与视频正片包括的至少一个事件场景各自的第一部分帧相对应的第一帧信息，对每个事件场景进行分类处理，得到场景分类结果。然后在场景分类结果表征与场景分类结果相对应的目标事件场景为片段切分点的情况下，根据目标事件场景的起始时间信息，将视频正片拆分为至少一个视频片段。其中，每个视频片段中包括至少一个事件场景。之后，基于至少一个视频片段进行视频编辑操作。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群可以根据视频正片中视频场景的场景分类结果对视频正片进行处理，并实现视频编辑操作。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的视频编辑方法的流程图。

如图2所示，该方法包括操作S210～S230。

在操作S210，根据与视频正片包括的至少一个事件场景各自的第一部分帧相对应的第一帧信息，对每个事件场景进行分类处理，得到场景分类结果。

在操作S220，在场景分类结果表征与该场景分类结果相对应的目标事件场景为片段切分点的情况下，根据目标事件场景的起始时间信息，将视频正片拆分为至少一个视频片段。其中，每个视频片段中包括至少一个事件场景。

在操作S230，基于至少一个视频片段进行视频编辑操作。

根据本公开的实施例，视频按照拆分粒度由小到大可分为四级：镜头层、场景层、片段层、节目层。镜头层可以指同一摄像机一次摄录的连续画面，即镜头画面。场景层可以指由同一时空覆盖下的一个或多个镜头构成的场面不变的一段连续视频。片段层可以由一个以上相关联的事件场景构成。节目层一般为输入的一段完整视音频资料。

图3示意性示出了根据本公开实施例的视频分级示意图。

如图3所示，在节目层，正片视频300包括两个片段310、320。在片段层，片段310中包括四个场景330、340、350、360，片段320对应一个场景370。在场景层，每个场景中包括多个镜头，如，场景330中包括四个镜头331、332、333、334。

根据本公开的实施例，片段拆分用于对语义连续的场景进行聚合，同一连续的事件场景合并为一个片段。片段间拆开的标准可包括如下至少之一：(1)两片段属于不同时空；(2)两片段在事件语意上无紧密联系。片段拆分在视频中的表现可包括如下至少之一：(1)拆分位置在场景画面变换处；(2)拆分位置处通常有明显音频变化，如明显的静音停顿，背景音乐变化，音频变化，背景噪声突变如鸣笛、车声等的变化；(3)拆分位置常伴随明显的缓冲视频段，如无明显人物的景色镜头，黑屏镜头，旋进旋出等特色镜头；(4)拆分前后故事情节主题发生变化。

根据本公开的实施例，视频中可以包括一个或多个事件场景。第一部分帧可以为一个事件场景对应的多个帧中的部分帧。第一帧信息可以包括与第一部分帧相对应的图形特征向量、音频特征向量和文本特征向量等其中至少之一，以及场景间图像的差值向量、场景间音频的差值向量和场景间文本的差值向量等其中至少之一。

根据本公开的实施例，针对事件场景进行分类处理得到场景分类结果的过程可以由基于场景粒度的边界分类模型来完成。在确定当前正片视频中已包含的事件场景的前提下，可以从每个事件场景中提取部分帧，得到第一部分帧。通过将多个事件场景对应的多个第一部分帧作为输入特征输入边界分类模型，可以得到视频中每个场景的边界分类结果。边界分类结果可以表现为0或1的形式，1可以表示与该结果相对应的帧所属的目标事件场景为场景粒度下的边界点，即可表征分类结果为1的帧所属的目标事件场景为片段切分点，0为非边界点，即非片段切分点。

需要说明的是，在场景粒度下确定的片段切分点可以具体表现为一个事件场景，在视频正片中包括多个视频场景的情况下，通过一个被判定为片段切分点的事件场景可以将场景粒度的视频正片重新划分为片段粒度的视频片段。

图4示意性示出了根据本公开实施例的根据事件场景划分视频片段的示例图。

如图4所示，正片视频400包括5个事件场景：410、420、430、440、450。针对每个事件场景，可以提取其中的部分帧，针对不同的事件场景提取的部分帧的个数可以不同，如针对事件场景410提取m个帧：411、...、41m，针对事件场景450提取n个帧：451、…、45n等。然后将与提取到的每个帧相对应的图形特征向量、音频特征向量和文本特征向量等其中至少之一，以及相邻两个帧间图像的差值向量、音频的差值向量和文本的差值向量等其中至少之一作为输入特征输入边界分类模型，例如可输出如00000000100000000100的结果。基于输出结果，例如可以确定两个表征片段切分点的帧。针对每个表征片段切分点的帧，可进一步确定与该表征片段切分点的帧相对应的目标事件场景，例如分别为430和440。从而可根据430和440的起始时间点对正片视频进行拆分，可得到三个视频视频片段，410、420构成第一个视频片段460，430构成第二个视频片段470，440、450构成第三个视频片段480。

根据本公开的实施例，对于正片视频和划分得到的视频片段，均可生成相应的解说视频，解说视频可包括针对正片视频或视频片段的文字简介、语音描述以及拼接的多个镜头等内容。

通过本公开的上述实施例，可以利用场景层切分信息，有选择的采样部分帧，以较低的资源消耗实现高效的视频片段编辑效果。

下面结合具体实施例，对图2所示的方法做进一步说明。

根据本公开的实施例，基于至少一个视频片段进行视频编辑操作包括：确定需要生成解说视频的目标视频片段。根据目标视频片段中的人物特征和文本特征，确定目标视频片段的标识信息。根据目标视频片段的文本特征确定目标视频片段的摘要信息。从目标视频片段中确定与摘要信息相关的目标镜头。根据摘要信息确定目标视频片段的标题信息。根据标识信息、摘要信息、目标镜头和标题信息，生成解说视频。

根据本公开的实施例，目标视频片段可以为从视频正片拆分得到的至少一个视频片段中确定的视频片段。人物特征可以包括目标视频片段中的人物信息所表征的特征。文本特征可以包括目标视频片段中的字幕信息、语音信息等其中至少之一所表征的特征。标识信息可以包括目标视频片段所对应的视频名字，如影视剧片段的剧名等。摘要信息可以表示针对目标视频片段的文字解说。目标镜头可以为目标视频片段的一个或多个镜头。标题信息可以为针对目标视频片段重新定义的标题、名称。

需要说明的是，目标视频片段也可以替换为视频正片。即，针对视频正片，可以进行如上的操作，生成相应的解说视频。

根据本公开的实施例，以影视剧片段为例，根据目标视频片段中的人物特征和文本特征，确定目标视频片段的标识信息可以具体表现为：根据目标视频片段所对应的片段区间的人脸检测聚合结果，可获得该片段区间内人物的明星名字。对字幕关键词进行提取可获得该片段区间中人物的影视人物名字。通过结合明星名字和影视人物名字，在影视剧知识图谱中搜索可以获取该片段对应的影视剧名字。

根据本公开的实施例，在同一目标视频片段中存在多个需要确定标识信息的片段的情况下，可以首先通过前述方法确定各个片段的影视剧名字。由于对各个片段识别得到的影视剧名字可能不同，可以进一步结合不同结果的计分投票，取票数最多的影视名字作为同一目标视频片段中各个片段的最终输出结果。

通过本公开的上述实施例，针对视频正片、视频片段生成视频解说，可以进一步提高视频编辑结果的丰富度。

根据本公开的实施例，文本特征包括目标视频片段中的台词文本。根据目标视频片段的文本特征确定目标视频片段的摘要信息包括：确定文本特征中各台词文本的生成者标识。对以生成者标识标记的各台词文本进行信息提取，得到摘要信息。

根据本公开的实施例，根据目标视频片段的文本特征确定目标视频片段的摘要信息的过程可以由篇章摘要模型完成。篇章摘要模型可以以输入片段对应的台词文本作为输入，获得该部分片段对应的摘要描述作为输出进行训练。训练的片段摘要可来源于网络中电视剧、电影对应的剧情介绍。

根据本公开的实施例，训练得到的篇章摘要模型可以以目标视频片段的字幕文本作为输入，生成该目标视频片段的摘要信息。字幕文本可以包括叙述人和叙述内容，叙述人可以包括影视剧人物名字。影视剧人物名字可以通过首先由人脸检测获得明星，然后由明星和角色对应关系获得的人物名字来确定。叙述内容可以包括台词和字幕内容其中至少之一。

通过本公开的上述实施例，提供了一种智能化的摘要信息生成方法，基于目标视频片段的人物和台词信息确定摘要信息，可有效提高摘要描述的准确度与完整度。

根据本公开的实施例，文本特征包括目标视频片段中的台词文本。从目标视频片段中确定与摘要信息相关的目标镜头包括：确定对摘要信息进行语音播报的语音播报时长。确定与摘要信息相关联的至少一个台词文本。针对每个台词文本，确定与台词文本在时间上匹配的镜头片段，得到多个镜头片段。根据语音播报时长，从多个镜头片段中确定至少一个目标镜头片段。其中，至少一个目标镜头片段的总时长与语音播报时长相匹配。将至少一个目标镜头片段确定为目标镜头。

根据本公开的实施例，在篇章摘要模型中，可以针对文本时序特点引入self-attention(自注意力)操作，self-attention数值可以表征某句台词文本对最终输出摘要信息的贡献度。针对每句台词文本可选取一个时间重合度最高的镜头层视频，或是与该台词文本相关联的镜头层视频，作为与该台词文本对应的镜头片段。摘要信息的语音播报时长可以根据AI自动播报语速计算确定。至少一个目标镜头片段可以按照镜头分数自高至低选取，直至选取的镜头片段能够填充完整该语音播报时长。镜头分数可以为self-attention对应的归一化分数。

通过本公开的上述实施例，通过提取目标镜头对语音播报过程进行填充，可进一步增加解说视频的丰富度。

根据本公开的实施例，根据摘要信息确定目标视频片段的标题信息的过程可以由篇章标题生成模型预测完成。通过网络可爬取大量电影电视剧剧情介绍，以及分集、分段对应的标题。通过这些数据，可训练得到篇章标题生成模型。

根据本公开的实施例，通过将摘要信息输入上述篇章标题生成模型，即可预测得到标题信息。

根据本公开的实施例，根据摘要信息确定目标视频片段的标题信息。根据标识信息、摘要信息、目标镜头和标题信息，生成解说视频可以具体表现为：将前述选取的目标镜头按时序播放，配上视频的影视名字、片段标题、文本摘要字幕和摘要的AI人声播报，得到针对目标视频片段的解说视频。

通过本公开的上述实施例，得到的解说视频可高效体现目标视频片段，并有效保证完整度、准确度和丰富度。

根据本公开的实施例，视频编辑方法还可以包括：根据与视频正片包括的至少一个镜头各自的第二部分帧相对应的第二帧信息，对每个镜头进行分类处理，得到每个镜头的镜头分类结果。在镜头分类结果表征与镜头分类结果相对应的目标镜头为场景切分点的情况下，根据目标镜头的起始时间信息将视频正片拆分为至少一个事件场景。其中，每个事件场景中包括至少一个镜头。

根据本公开的实施例，镜头拆分的标准可以包括摄像头切换。可以使用如基于颜色直方图、帧间差分、图像特征相似度、video-splitter工具等方法，对视频实现镜头拆分。场景拆分通常基于镜头的空间或者时间出现变换这类标准。例如，视频由现实转为回忆叙述，属于时间场景变换。视频从室内转为机场，属于空间场景变换。

根据本公开的实施例，视频通常由一个或多个镜头拼接而成。第二部分帧可以为一个镜头对应的多个帧中的部分帧。第二帧信息可以包括与第二部分帧相对应的图像特征、人脸特征和音频特征等其中至少之一。

根据本公开的实施例，针对镜头进行分类处理得到镜头分类结果的过程可以由基于镜头粒度的边界分类模型来完成。可以结合开源数据集“MovieScenes数据集”和本地数据库中的标记数据，对正片视频中的每个镜头是否为边界进行编码，联合训练该边界分类模型。

根据本公开的实施例，在预测某个镜头是否为边界时，可以从视频正片的每个镜头中提取部分帧，得到第二部分帧。通过将镜头对应的第二部分帧作为输入特征输入该边界分类模型，可以得到视频中每个镜头的镜头分类结果，实现对镜头是否为边界的判断。边界分类结果同样可以表现为0或1的形式，1可以表示与该结果相对应的帧为镜头粒度下的边界点，0为非边界点。若判断某镜头是边界，则可以将该镜头的开始时刻作为场景拆分的开始时刻，从而将视频正片拆分为事件场景。

通过本公开的上述实施例，可以利用镜头层切分信息，有选择的采样部分帧，以较低的资源消耗实现高效的视频场景拆分效果。

根据本公开的实施例，在对正片视频进行多级拆分之后，可以基于拆分结果，对不同层级的视频数据，采用不同策略的模型提取标签。

根据本公开的实施例，视频编辑方法还可以包括：针对每个镜头：获取镜头对应的第四部分帧；对第四部分帧中的每个帧进行特征提取，得到第二特征提取结果。根据第二特征提取结果确定镜头的镜头标签。

根据本公开的实施例，镜头层可以采用图像粒度模型进行镜头标签的提取。例如，使用人脸检测模型识别不同明星；使用物体检测模型检测不同的物件，如***、旗帜等；使用物体属性模型检测任务属性，如人物形象类型、着装类型等；使用图像分类模型对如画面美观度、画面风格等进行检测。因视频时长较长，如果采样全部关键帧生成标签，不同帧间图像标签仍有较大冗余。如果每帧都进入图像模型进行分析，视频级分析速度较慢。基于镜头粒度，取其中少量几帧得到第四部分帧，通过对第四部分帧进行分析取平均值得到的第二特征提取结果可以作为镜头标签。

通过本公开的上述实施例，基于镜头粒度，有选择的采样部分帧，以较低的资源确定镜头标签，既保证了标签召回率也提升了视频整体分析速度。

根据本公开的实施例，视频编辑方法还可以包括：针对每个事件场景：获取事件场景包括的每个目标镜头对应的第三部分帧；对第三部分帧中的每个帧进行特征提取，得到第一特征提取结果。根据第一特征提取结果确定事件场景的场景标签。

根据本公开的实施例，场景层可以采用视频粒度时序模型，为视频提供场景、活动、动作等标签，如机场、客厅、瞌睡、交谈等标签。在进行事件场景的标签判定时，可以对场景中的每个目标镜头，采样部分帧得到第三部分帧，作为场景模型的输入，从而得到每个事件场景的场景标签，进而确定该事件场景的场景发生地、活动、动作等信息。

需要说明的是，对一个事件场景中不同镜头的取帧数量可以不同。在一种实施例，每个镜头的取帧数量可以与镜头时长正相关。

通过本公开的上述实施例，基于场景层切分信息，有选择的采样部分帧，以较低的资源确定场景标签，可进一步保证标签召回率和提升视频整体分析速度。

根据本公开的实施例，视频编辑方法还可以包括：对视频帧序列信息进行如下至少之一的处理：在检测到第一目标视频帧序列的情况下，确定第一目标视频帧序列为初始视频的片头或片尾的视频帧序列；在检测到第二目标视频帧序列的情况下，确定第二目标视频帧序列为初始视频的片头或片尾的视频帧序列。其中，视频帧序列信息包括初始视频中的视频帧序列和与视频帧序列相对应的音频，第一目标视频帧序列中包括字幕位于视频帧画面的第一位置的视频帧，第二目标视频帧序列所对应的音频为目标类型的音频。根据第一目标视频帧序列和第二目标视频帧序列其中至少之一确定视频正片。

根据本公开的实施例，初始视频可以为包括片头片尾的视频。头片尾检测模型可以对视频中的片头片尾进行检测，该模型可采用字幕检测和音频特征分类实现。在字幕方面，正片中，字幕通常出现在画底；片头片尾中，字幕常出现在画面中。因此可定义第一位置包括画面中。在音频方面，片头片尾一般无演员叙述音频，多为纯音乐或夹杂部分特效背景音的音乐。因此可定义目标类型包括纯音乐、特效背景音等类型。

根据本公开的实施例，对于初始视频，可以先经过片头片尾检测模型，确定视频正片开始和结束的位置。具体地，可以对如以1秒为单位的滑动窗口内的某段音频特征进行是否为片头片尾的分类。结合字幕位置检测和音频特征检测的结果，可以实现对视频秒粒度的片头片尾时间打点，从而确定正片视频。

通过本公开对上述实施例，在视频处理之前提供了一种筛选方式，可以对较为主要的视频内容进行筛选，可有效提高视频编辑效率。

根据本公开的实施例，视频编辑方法还可以包括：确定视频正片中的多个第三目标视频帧序列。针对每个第三目标视频帧序列进行特征提取，得到第三特征提取结果。根据多个第三特征提取结果确定视频正片的类型标签。

根据本公开的实施例，视频正片的类型标签，即节目层类型标签，可以基于图像和音频序列的长视频时序模型得到。通过该模型可以为整段视频提供综合标签，如电视剧-家庭伦理、电影-科幻等。长视频时序模型可以在训练中设置视频的最大分析帧数，以维护机器内存稳定。若分析视频帧数大于阈值，训练时可以随机截取最大数量的连续帧作为训练输入。预测时，可以采用无重叠的滑窗，依次顺序取最大帧数得到第三目标视频帧序列，作为输入。通过对获得的所有滑窗分数结果取平均，可以作为视频正片的类型标签输出。

通过本公开的上述实施例，基于节目层信息，有选择的采样部分帧序列，以较低的资源确定视频的类型标签，可有效既保证标签召回率，同时可提升视频整体分析速度。

根据本公开的实施例，第一帧信息可以包括与第一部分帧相对应的图像特征、音频特征和文本特征其中至少之一，以及第一部分帧中相邻两帧之间的图像差值向量、音频差值向量和文本差值向量其中至少之一。和/或，第二帧信息可以包括与第二部分帧相对应的图像特征和音频特征其中至少之一。在此不做限定。

通过本公开的上述实施例，基于视频各维度的信息进行处理，可有效保证时间编辑结构的准确度与丰富度。

图5示意性示出了根据本公开实施例的视频编辑方法的流程的示意图。

如图5所示，对于一个初始视频，可以首先经过片头片尾检测模型510进行检测，以筛除片头片尾，得到正片视频。结合视频分级模块520中的图像模型521、视频模型522、文本模型523可以对正片视频进行进一步处理，以将正片视频进行镜头粒度、场景粒度、片段粒度的划分。基于分级划分得到的镜头粒度信息、场景粒度信息、片段粒度信息等结果，可进一步确定针对该初始视频编辑得到的镜头层图像标签、场景层时空标签、片段层视频解说生成以及节目层类型等。

通过本公开的上述实施例，提供了一种智能标签、智能拆条、智能解说生成的方法。整个方法可有效降低人工处理依赖度，提升视频的编辑处理速度。基于部分帧或关键帧进行视频处理，可以对整段视频在不同层级进行标注，为视频的入库索引提供基础。

图6示意性示出了根据本公开实施例的视频编辑装置的框图。

如图6所示，视频编辑装置600包括第一处理模块610、第一拆分模块620和视频编辑模块630。

第一处理模块610，用于根据与视频正片包括的至少一个事件场景各自的第一部分帧相对应的第一帧信息，对每个事件场景进行分类处理，得到场景分类结果。

第一拆分模块620，用于在场景分类结果表征与场景分类结果相对应的目标事件场景为片段切分点的情况下，根据目标事件场景的起始时间信息，将视频正片拆分为至少一个视频片段。其中，每个视频片段中包括至少一个事件场景。

视频编辑模块630，用于基于至少一个视频片段进行视频编辑操作。

根据本公开的实施例，视频编辑模块包括第一确定单元、第二确定单元、第三确定单元、第四确定单元、第五确定单元和生成单元。

第一确定单元，用于确定需要生成解说视频的目标视频片段。

第二确定单元，用于根据目标视频片段中的人物特征和文本特征，确定目标视频片段的标识信息。

第三确定单元，用于根据目标视频片段的文本特征确定目标视频片段的摘要信息。

第四确定单元，用于从目标视频片段中确定与摘要信息相关的目标镜头。

第五确定单元，用于根据摘要信息确定目标视频片段的标题信息。

生成单元，用于根据标识信息、摘要信息、目标镜头和标题信息，生成解说视频。

根据本公开的实施例，文本特征包括目标视频片段中的台词文本。第三确定单元包括第一确定子单元和获得子单元。

第一确定子单元，用于确定文本特征中各台词文本的生成者标识。

获得子单元，用于对以生成者标识标记的各台词文本进行信息提取，得到摘要信息。

根据本公开的实施例，文本特征包括目标视频片段中的台词文本。第四确定单元包括第二确定子单元、第三确定子单元、第四确定子单元、第五确定子单元和第六确定子单元。

第二确定子单元，用于确定对摘要信息进行语音播报的语音播报时长。

第三确定子单元，用于确定与摘要信息相关联的至少一个台词文本。

第四确定子单元，用于针对每个台词文本，确定与台词文本在时间上匹配的镜头片段，得到多个镜头片段。

第五确定子单元，用于根据语音播报时长，从多个镜头片段中确定至少一个目标镜头片段。其中，至少一个目标镜头片段的总时长与语音播报时长相匹配。

第六确定子单元，用于将至少一个目标镜头片段确定为目标镜头。

根据本公开的实施例，视频编辑装置还包括第二处理模块和第二拆分模块。

第二处理模块，用于根据与视频正片包括的至少一个镜头各自的第二部分帧相对应的第二帧信息，对每个镜头进行分类处理，得到每个镜头的镜头分类结果。

第二拆分模块，用于在镜头分类结果表征与镜头分类结果相对应的目标镜头为场景切分点的情况下，根据目标镜头的起始时间信息，将视频正片拆分为至少一个事件场景。其中，每个事件场景中包括至少一个镜头。

根据本公开的实施例，视频编辑装置还包括第一特征提取模块和第一确定模块。

第一特征提取模块，用于针对每个事件场景：获取事件场景包括的每个目标镜头对应的第三部分帧；对第三部分帧中的每个帧进行特征提取，得到第一特征提取结果。

第一确定模块，用于根据第一特征提取结果确定事件场景的场景标签。

根据本公开的实施例，视频编辑装置还包括第二特征提取模块和第二确定模块。

第二特征提取模块，用于针对每个镜头：获取镜头对应的第四部分帧；对第四部分帧中的每个帧进行特征提取，得到第二特征提取结果。

第二确定模块，用于根据第二特征提取结果确定镜头的镜头标签。

根据本公开的实施例，视频编辑装置还包括第三确定模块、第四确定模块和第五确定模块。

第三确定模块，用于在检测到第一目标视频帧序列的情况下，确定第一目标视频帧序列为初始视频的片头或片尾的视频帧序列。其中，第一目标视频帧序列中包括字幕位于视频帧画面的第一位置的视频帧。

第四确定模块，用于在检测到第二目标视频帧序列的情况下，确定第二目标视频帧序列为初始视频的片头或片尾的视频帧序列。其中，第二目标视频帧序列所对应的音频为目标类型的音频。

第五确定模块，用于根据第一目标视频帧序列和第二目标视频帧序列其中至少之一确定视频正片。

根据本公开的实施例，视频编辑装置还包括第六确定模块、第三特征提取模块和第七确定模块。

第六确定模块，用于确定视频正片中的多个第三目标视频帧序列。

第三特征提取模块，用于针对每个第三目标视频帧序列进行特征提取，得到第三特征提取结果。

第七确定模块，用于根据多个第三特征提取结果确定视频正片的类型标签。

根据本公开的实施例，第一帧信息包括与第一部分帧相对应的图像特征、音频特征和文本特征其中至少之一，以及第一部分帧中相邻两帧之间的图像差值向量、音频差值向量和文本差值向量其中至少之一。和/或，第二帧信息包括与第二部分帧相对应的图像特征和音频特征其中至少之一。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如视频编辑方法。例如，在一些实施例中，视频编辑方法可被实现为计算机软件程序，其被有形地包括于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的视频编辑方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频编辑方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包括或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包括在本公开保护范围之内。

Claims

1.一种视频编辑方法，包括：

根据与视频正片包括的至少一个事件场景各自的第一部分帧相对应的第一帧信息，对每个所述事件场景进行分类处理，得到场景分类结果；

在所述场景分类结果表征与所述场景分类结果相对应的目标事件场景为片段切分点的情况下，根据所述目标事件场景的起始时间信息，将所述视频正片拆分为至少一个视频片段，其中，每个所述视频片段中包括至少一个所述事件场景；以及

基于所述至少一个视频片段进行视频编辑操作；

其中，所述基于所述至少一个视频片段进行视频编辑操作包括：

从所述至少一个视频片段中确定目标视频片段；

根据所述目标视频片段中的人物特征和文本特征，确定所述目标视频片段的标识信息；

根据所述目标视频片段的文本特征确定所述目标视频片段的摘要信息；

从所述目标视频片段中确定与所述摘要信息相关的目标镜头；

根据所述摘要信息确定所述目标视频片段的标题信息；以及

根据所述标识信息、所述摘要信息、所述目标镜头和所述标题信息，生成与所述目标视频片段相对应的解说视频。

2.根据权利要求1所述的方法，其中，所述文本特征包括所述目标视频片段中的台词文本；所述根据所述目标视频片段的文本特征确定所述目标视频片段的摘要信息包括：

确定所述文本特征中各台词文本的生成者标识；以及

对以所述生成者标识标记的各台词文本进行信息提取，得到所述摘要信息。

3.根据权利要求1所述的方法，其中，所述文本特征包括所述目标视频片段中的台词文本；所述从所述目标视频片段中确定与所述摘要信息相关的目标镜头包括：

确定对所述摘要信息进行语音播报的语音播报时长；

确定与所述摘要信息相关联的至少一个台词文本；

针对每个台词文本，确定与所述台词文本在时间上匹配的镜头片段，得到多个镜头片段；

根据所述语音播报时长，从所述多个镜头片段中确定至少一个目标镜头片段，其中，所述至少一个目标镜头片段的总时长与所述语音播报时长相匹配；以及

将所述至少一个目标镜头片段确定为所述目标镜头。

4.根据权利要求1至3中任一所述的方法，还包括：

根据与视频正片包括的至少一个镜头各自的第二部分帧相对应的第二帧信息，对每个所述镜头进行分类处理，得到每个所述镜头的镜头分类结果；

在所述镜头分类结果表征与所述镜头分类结果相对应的目标镜头为场景切分点的情况下，根据所述目标镜头的起始时间信息，将所述视频正片拆分为所述至少一个事件场景，其中，每个所述事件场景中包括至少一个所述镜头。

5.根据权利要求4所述的方法，还包括：

针对每个所述事件场景：

获取所述事件场景包括的每个目标镜头对应的第三部分帧；

对所述第三部分帧中的每个帧进行特征提取，得到第一特征提取结果；以及

根据所述第一特征提取结果确定所述事件场景的场景标签。

6.根据权利要求4所述的方法，还包括：

针对每个所述镜头：

获取所述镜头对应的第四部分帧；

对所述第四部分帧中的每个帧进行特征提取，得到第二特征提取结果；以及

根据所述第二特征提取结果确定所述镜头的镜头标签。

7.根据权利要求1所述的方法，还包括：

在检测到第一目标视频帧序列的情况下，确定所述第一目标视频帧序列为初始视频的片头或片尾的视频帧序列，其中，所述第一目标视频帧序列中包括字幕位于视频帧画面的第一位置的视频帧；

在检测到第二目标视频帧序列的情况下，确定所述第二目标视频帧序列为所述初始视频的片头或片尾的视频帧序列，其中，所述第二目标视频帧序列所对应的音频为目标类型的音频；以及

根据所述第一目标视频帧序列和所述第二目标视频帧序列其中至少之一确定所述视频正片。

8.根据权利要求1所述的方法，还包括：

确定视频正片中的多个第三目标视频帧序列；

针对每个所述第三目标视频帧序列进行特征提取，得到第三特征提取结果；以及

根据多个所述第三特征提取结果确定所述视频正片的类型标签。

9.根据权利要求4所述的方法，其中，所述第一帧信息包括与所述第一部分帧相对应的图像特征、音频特征和文本特征其中至少之一，以及所述第一部分帧中相邻两帧之间的图像差值向量、音频差值向量和文本差值向量其中至少之一；和/或

所述第二帧信息包括与所述第二部分帧相对应的图像特征和音频特征其中至少之一。

10.一种视频编辑装置，包括：

第一处理模块，用于根据与视频正片包括的至少一个事件场景各自的第一部分帧相对应的第一帧信息，对每个所述事件场景进行分类处理，得到场景分类结果；

第一拆分模块，用于在所述场景分类结果表征与所述场景分类结果相对应的目标事件场景为片段切分点的情况下，根据所述目标事件场景的起始时间信息，将所述视频正片拆分为至少一个视频片段，其中，每个所述视频片段中包括至少一个所述事件场景；以及

视频编辑模块，用于基于所述至少一个视频片段进行视频编辑操作；

其中，所述视频编辑模块包括：

第一确定单元，用于确定需要生成解说视频的目标视频片段；

第二确定单元，用于根据所述目标视频片段中的人物特征和文本特征，确定所述目标视频片段的标识信息；

第三确定单元，用于根据所述目标视频片段的文本特征确定所述目标视频片段的摘要信息；

第四确定单元，用于从所述目标视频片段中确定与所述摘要信息相关的目标镜头；

第五确定单元，用于根据所述摘要信息确定所述目标视频片段的标题信息；以及

生成单元，用于根据所述标识信息、所述摘要信息、所述目标镜头和所述标题信息，生成与所述目标视频片段相对应的解说视频。

11.根据权利要求10所述的装置，其中，所述文本特征包括所述目标视频片段中的台词文本；所述第三确定单元包括：

第一确定子单元，用于确定所述文本特征中各台词文本的生成者标识；以及

获得子单元，用于对以所述生成者标识标记的各台词文本进行信息提取，得到所述摘要信息。

12.根据权利要求10所述的装置，其中，所述文本特征包括所述目标视频片段中的台词文本；所述第四确定单元包括：

第二确定子单元，用于确定对所述摘要信息进行语音播报的语音播报时长；

第三确定子单元，用于确定与所述摘要信息相关联的至少一个台词文本；

第四确定子单元，用于针对每个台词文本，确定与所述台词文本在时间上匹配的镜头片段，得到多个镜头片段；

第五确定子单元，用于根据所述语音播报时长，从所述多个镜头片段中确定至少一个目标镜头片段，其中，所述至少一个目标镜头片段的总时长与所述语音播报时长相匹配；以及

第六确定子单元，用于将所述至少一个目标镜头片段确定为所述目标镜头。

13.根据权利要求10至12中任一所述的装置，还包括：

第二处理模块，用于根据与视频正片包括的至少一个镜头各自的第二部分帧相对应的第二帧信息，对每个所述镜头进行分类处理，得到每个所述镜头的镜头分类结果；

第二拆分模块，用于在所述镜头分类结果表征与所述镜头分类结果相对应的目标镜头为场景切分点的情况下，根据所述目标镜头的起始时间信息，将所述视频正片拆分为所述至少一个事件场景，其中，每个所述事件场景中包括至少一个所述镜头。

14.根据权利要求13所述的装置，还包括：

第一特征提取模块，用于针对每个所述事件场景：

获取所述事件场景包括的每个目标镜头对应的第三部分帧；

第一确定模块，用于根据所述第一特征提取结果确定所述事件场景的场景标签。

15.根据权利要求10所述的装置，还包括：

第二特征提取模块，用于针对每个所述镜头：

获取所述镜头对应的第四部分帧；

第二确定模块，用于根据所述第二特征提取结果确定所述镜头的镜头标签。

16.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。