CN114339451A

CN114339451A - 视频剪辑方法、装置、计算设备及存储介质

Info

Publication number: CN114339451A
Application number: CN202111679121.XA
Authority: CN
Inventors: 张云栋; 刘程
Original assignee: Shanghai IQIYI New Media Technology Co Ltd
Current assignee: Shanghai IQIYI New Media Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本申请公开了一种视频剪辑方法、装置、计算设备及存储介质，包括：获取待处理的原始视频，并识别该原始视频中的多个关键位置，该原始视频在关键位置的音频内容包括目标类型声音；根据原始视频中的多个关键位置，从原始视频中切分得到多个视频片段，从而基于该多个视频片段，拼接得到目标视频，该目标视频的播放时长小于该原始视频的播放时长。由于根据原始视频中关键位置，自动对原始视频进行剪辑并生成目标视频，这相比于人工剪辑的方式而言，不仅可以有效降低人力成本，而且，生成剪辑视频的效率通常也较高。并且，针对原始视频的自动化剪辑效果可以达到较高水平。

Description

视频剪辑方法、装置、计算设备及存储介质

技术领域

本申请涉及视频处理技术领域，特别是涉及一种视频剪辑方法、装置、计算设备及存储介质。

背景技术

实际应用场景中，针对播放时长较长的视频，通常可以对该视频进行剪辑，以生成播放时长相对较短、包含核心视频内容的剪辑视频。比如，在互联网视频网站的脱口秀类综艺正片下方，通常会发布一些根据正片所剪辑得到的笑点集锦视频片段，以供观众快速观看全篇笑点片段。

目前，通常采用人工剪辑的方式生成剪辑视频，这不仅会使得人力成本较高，而且人工剪辑视频的效率通常也较低。

发明内容

本申请实施例提供了一种视频剪辑方法、装置、计算设备及存储介质，旨在通过对视频进行自动化剪辑的方式，提高生成剪辑视频的效率、降低成本。

第一方面，本申请实施例提供了一种视频剪辑方法，所述方法包括：

获取待处理的原始视频；

识别所述原始视频中的多个关键位置，所述原始视频在所述关键位置的音频内容包括目标类型声音；

根据所述原始视频中的多个关键位置，从所述原始视频中切分得到多个视频片段；

基于所述多个视频片段，拼接得到目标视频，所述目标视频的播放时长小于所述原始视频的播放时长。

在一种可能的实施方式中，所述根据所述原始视频中的多个关键位置，从所述原始视频中切分得到多个视频片段，包括：

根据所述原始视频中的多个关键位置，确定所述原始视频中多个候选视频片段对应的起始分割点以及终止分割点；

对目标候选视频片段对应的音频内容进行语义分析，得到所述目标候选视频片段对应的语义分析结果；

根据所述语义分析结果调整所述目标候选视频片段的起始分割点；

根据调整后的起始分割点以及所述目标候选视频片段对应的终止分割点，从所述原始视频中切分得到所述目标候选视频片段。

在一种可能的实施方式中，所述目标候选视频片段对应的终止分割点，根据所述目标候选视频片段中的转场位置进行确定，所述目标候选视频片段中位于所述转场位置的视频图像与前一帧视频图像之间的相似度小于预设阈值。

在一种可能的实施方式中，所述基于所述多个视频片段，拼接得到目标视频，包括：

将所述多个视频片段划分为多个视频集合，每个视频集合包括的不同视频片段中具有相同的表演人物，不同视频集合的视频片段中表演人物不同；

根据各个视频集合中包括的视频片段的数量以及所述目标视频的最大播放时长，确定各个视频集合分别对应的播放时长限值，其中，视频集合包括的视频片段的数量与视频集合对应的播放时长限值呈正相关；

根据各个视频集合分别对应的播放时长限值，从各个视频集合中挑选第一视频片段进行拼接，生成所述目标视频，所述第一视频片段为从所述各个视频集合包括的视频片段中挑选出的视频片段。

在一种可能的实施方式中，各个视频集合中还包括第二视频片段，所述第二视频片段为所述视频集合中除所述第一视频片段以外的其余视频片段；

则，每个视频集合中的第一视频片段的播放时长大于该视频集合中的第二视频片段的播放时长，或者，每个视频集合中的第一视频片段包括的目标类型声音对应的播放时长，大于该视频集合中的第二视频片段包括的目标类型声音对应的播放时长。

在一种可能的实施方式中，每个视频集合中的第二视频片段包括人物上场片段和/或表演结束片段。

在一种可能的实施方式中，所述将所述多个视频片段划分为多个视频集合，包括：

对所述多个视频片段进行人脸识别，确定各个视频片段对应的表演人物；

根据各个视频片段对应的表演人物，将所述多个视频片段划分为多个视频集合。

第二方面，本申请实施例还提供了一种视频剪辑装置，所述装置包括：

获取模块，用于获取待处理的原始视频；

识别模块，用于识别所述原始视频中的多个关键位置，所述原始视频在所述关键位置的音频内容包括目标类型声音；

切分模块，用于根据所述原始视频中的多个关键位置，从所述原始视频中切分得到多个视频片段；

拼接模块，用于基于所述多个视频片段，拼接得到目标视频，所述目标视频的播放时长小于所述原始视频的播放时长。

在一种可能的实施方式中，所述切分模块，包括：

第一确定单元，用于根据所述原始视频中的多个关键位置，确定所述原始视频中多个候选视频片段对应的起始分割点以及终止分割点；

语义分析单元，用于对目标候选视频片段对应的音频内容进行语义分析，得到所述目标候选视频片段对应的语义分析结果，所述目标候选视频片段为所述多个候选视频片段中的任一候选视频片段；

调整单元，用于根据所述语义分析结果调整所述目标候选视频片段的起始分割点；

切分单元，用于根据调整后的起始分割点以及所述目标候选视频片段对应的终止分割点，从所述原始视频中切分得到所述目标候选视频片段。

在一种可能的实施方式中，所述拼接模块，包括：

划分单元，用于将所述多个视频片段划分为多个视频集合，每个视频集合包括的不同视频片段中具有相同的表演人物，不同视频集合的视频片段中表演人物不同；

第二确定单元，用于根据各个视频集合中包括的视频片段的数量以及所述目标视频的最大播放时长，确定各个视频集合分别对应的播放时长限值，其中，视频集合包括的视频片段的数量与视频集合对应的播放时长限值呈正相关；

挑选单元，用于根据各个视频集合分别对应的播放时长限值，从各个视频集合中挑选第一视频片段进行拼接，生成所述目标视频，所述第一视频片段为从所述各个视频集合包括的视频片段中挑选出的视频片段。

在一种可能的实施方式中，所述划分单元，具体用于：

第三方面，本申请实施例还提供了一种计算设备，该计算设备可以包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行上述第一方面以及第一方面中任一种实施方式所述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面以及第一方面中任一种实施方式所述的方法。

在本申请实施例的上述实现方式中，获取待处理的原始视频，并识别该原始视频中的多个关键位置，该原始视频在关键位置的音频内容包括目标类型声音；根据原始视频中的多个关键位置，从原始视频中切分得到多个视频片段，从而基于该多个视频片段，拼接得到目标视频，该目标视频的播放时长小于该原始视频的播放时长。

由于根据原始视频中的关键位置，自动对原始视频进行剪辑并生成目标视频，这相比于人工剪辑的方式而言，不仅可以有效降低人力成本，而且，生成剪辑视频(也即目标视频)的效率通常也较高。另外，目标关键位置的音频内容包括如掌声、笑声等目标类型声音，并且，由于包括目标类型声音的视频片段，通常为该原始视频中的精彩片段，因此，基于这些视频片段所生成的目标视频，通常涵盖了原始视频中的大部分甚至所有核心的视频片段，从而可以使得针对原始视频的自动化剪辑效果达到较高水平。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一示例性应用场景示意图；

图2为本申请实施例中一种视频剪辑方法的流程示意图；

图3为本申请实施例中又一种视频剪辑方法的流程示意图；

图4为本申请实施例中一种视频剪辑装置的结构示意图；

图5为本申请实施例中一种计算设备的硬件结构示意图。

具体实施方式

参见图1，为本申请实施例提供的一种应用场景示意图。在图1所示应用场景中，客户端101可以与计算设备102存在通信连接。并且，客户端101可以接收用户(如视频剪辑人员)提供的视频，并将视频发送给计算设备102；计算设备102用于对接收到的视频进行音频识别、人脸识别、视频分段等处理，生成剪辑视频，并将该剪辑视频通过客户端101呈现给用户。

其中，计算设备102，是指具有数据处理能力的设备，例如可以是终端、服务器等。客户端101可以应用于独立于计算设备102的物理设备中。例如当计算设备102通过服务器实现时，客户端101可以运行于用户侧的用户终端等设备。或者，客户端101也可以运行于计算设备102上。

由于实际应用场景中，通常人工生成剪辑视频的方式不仅成本较高，而且生成剪辑视频的效率也较低。为此，本申请实施例提供了一种视频剪辑方法，由计算设备102自动对原始视频进行剪辑，以提高生成剪辑视频的效率、降低成本。具体实现时，客户端101可以将用户提供的原始视频发送给计算设备102。计算设备102识别该原始视频中的多个关键位置，该原始视频在关键位置的音频内容包括目标类型声音，如掌声、笑声等。然后，计算设备102根据原始视频中的多个关键位置，从原始视频中切分得到多个视频片段，从而计算设备102基于这些具有目标类型声音的多个视频片段，拼接得到目标视频，该目标视频的播放时长小于该原始视频的播放时长。

由于计算设备102可以根据原始视频中的关键位置，自动对原始视频进行剪辑并生成目标视频，这相比于人工剪辑的方式而言，不仅可以有效降低人力成本，而且，生成剪辑视频(也即目标视频)的效率通常也较高。另外，目标关键位置的音频内容包括如掌声、笑声等目标类型声音，并且，由于包括目标类型声音的视频片段，通常为该原始视频中的精彩片段，因此，基于这些视频片段所生成的目标视频，通常涵盖了原始视频中的大部分甚至所有核心的视频片段，从而可以使得计算设备102针对原始视频的自动化剪辑效果可以达到较高水平。

需要说明的是，本实施例中的视频，是指同时具有图像与音频内容的视频，即一份视频文件中，不仅包括连续多帧的视频帧图像，还包括与该视频帧图像同步的音频数据。

可以理解的是，图1所示的应用场景的架构仅是本申请实施例提供的一个示例，实际应用时，本申请实施例也可以应用于其它可适用的场景中，如计算设备102可以自动从互联网中获取一个或者多个视频，并通过上述实现方式自动生成各个视频对应的剪辑视频等。总之，本申请实施例可以应用于任何可适用的场景中，而不局限于上述场景示例。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面将结合附图对本申请实施例中的各种非限定性实施方式进行示例性说明。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

参阅图2，图2示出了本申请实施例中一种视频剪辑方法流程示意图，该方法可以应用于图1所示的应用场景中，或者可以应用于其它可适用的应用场景等。为便于说明与理解，下面应用于图1所示的应用场景为例进行说明。该方法具体可以包括：

S201：获取待处理的原始视频。

为便于区分和描述，本实施例中将需要进行剪辑的视频称之为原始视频，而对于剪辑生成的视频，称之为目标视频。

在一种可能的实施方式中，原始视频可以是由用户提供给计算设备102。具体地，客户端101可以向用户呈现视频导入界面，从而用户可以在该视频导入界面上通过执行相应的操作，将原始视频导入该客户端101。然后，客户端101可以将用户提供的原始视频，通过与计算设备102之间的网络连接，将其传输给计算设备102。

而在另一种可能的实施方式中，原始视频也可以是由计算设备102从互联网中获取。例如，用户可以通过客户端101向计算设备102发送生成剪辑视频的指令，从而计算设备102可以基于该指令，从互联网中下载特定类型的视频，如下载脱口秀类型的视频或者相声类型的视频等，并将这些视频作为原始视频，以便后续对这些原始视频进行剪辑处理。

值得注意的是，计算设备102所获取的原始视频，可以是一个视频，也可以是多个视频，如计算设备102可以基于多个原始视频，剪辑生成一个目标视频等，本实施例对此并不进行限定。为便于理解与说明，本实施例中，以原始视频为一个视频为例进行说明，当原始视频包括多个视频时，其实现方式与本实施例类似，其区别在于后续拼接的多个视频片段来源于多个不同的原始视频。

S202：识别原始视频中的多个关键位置，该原始视频在各个关键位置的音频内容包括目标类型声音。

其中，目标类型声音，例如可以是笑声、掌声、哭泣声、特效音等任意一种或者多种类型的声音，或者也可以是其它类型的声音等，本实施例对此并不进行限定。并且，对于包括该目标类型声音的视频内容，通常是实际应用场景中期望被剪辑出来的视频内容。比如，原始视频中出现的掌声和/或笑声，是观众对于表演者(如脱口秀表演者、相声表演者)的精彩表演给予认可和喝彩的表现，通常也意味着出现掌声和/或笑声附近的视频片段，为表演者的精彩表演片段，也是人工通常会剪辑出的视频片段。为此，计算设备102可以识别该原始视频的多个关键位置，以便后续对原始视频进行剪辑，每个关键位置可以通过原始图像中的一帧视频图像的位置进行表示。

作为一种实现示例，计算设备102可以通过音频识别的方式，确定该原始视频中的多个关键位置。具体的，计算设备102可以将该原始视频输入至预先完成训练的人工智能(Artificial Intelligence，AI)模型，并由该AI模型输出该原始视频中的多个关键位置。其中，该AI模型预先通过具有目标类型声音标记的视频样本完成训练，从而完成训练的AI模型可以识别出视频中的目标类型声音。

而在另一种示例中，计算设备102可以通过比对声纹特征的方式确定原始视频中的多个关键位置。具体地，计算设备102可以获取具有“目标类型声音内容的音频数据，并提取出该将目标类型声音的声纹特征，然后，计算设备102可以将声纹特征与原始视频中的音频数据对应的声纹特征进行逐段比对，并将声纹特征一致的音频数据位置，确定为关键位置，以此确定出原始视频中的多个关键位置。

需要说明的是，上述两种确定关键位置的实现方式进作为一些示例性说明，实际应用时，计算设备102也可以是通过其它方式确定出原始视频中具有目标类型声音的关键位置，本实施例对此并不进行限定。

S203：根据原始视频中的多个关键位置，从原始视频中切分得到多个视频片段。

其中，切分得到的每个视频片段中的音频内容包括目标类型声音。

本实施例中，计算设备102在确定出原始视频中的各个关键位置后，可以切分出各个关键位置附近的一段视频，以得到多个包括目标类型声音内容的视频片段。

在一种可能的实施方式中，计算设备102可以先根据该原始视频中的多个关键位置，确定原始视频中的多个候选视频片段对应的起始分割点以及终止分割点。其中，起始分割点，是指候选视频片段的起始点，该起始分割点处的视频帧图像即为该候选视频片段的第一帧图像。相应的，终止分割点，是指该候选视频片段的终止点，该终止分割点处的视频帧图像即为该候选视频片段的最后一帧图像。例如，计算设备102可以将关键位置的前15(或者其它数值，可以由专家进行设定等)秒处的播放位置确定为候选视频片段的起始分割点，将该关键位置的后1(或者其它数值)秒处的播放位置确定为该候选视频片段的终止分割点。

进一步地，计算设备102还可以根据原始视频中的转场位置确定候选视频片段的终止分割点。其中，转场位置，是指原始视频中的人物发生切换的位置，如由表演者切换为观众或者嘉宾席等，对应于原始图像中的一帧视频图像所在的位置。具体实现时，针对任意候选视频片段(以下称之为目标候选视频片段)，计算设备102可以先识别距离目标候选视频片段对应的关键位置不超过播放时长阈值的视频片段中是否包括转场位置。如果存在，则计算设备102可以进一步根据该转场位置确定目标候选视频片段的终止分割点，如将转场位置作为终止分割点，或者将转场位置之后的任意位置作为终止分割点等。由于实际应用时，通常是在拍摄的一段完整的视频内容结束时，会切换镜头拍摄的人物类型(以丰富视频的拍摄视角等)，从而转场位置可以表征一段完整视频内容的结束，这样，基于转场位置确定目标候选视频片段的终止分割点后，可以使得在播放该目标候选视频片段时视频内容更加连贯。如果不存在，则计算设备102可以根据上述关键位置确定目标候选视频片段的终止分割点。

示例性地，计算设备102可以通过比较两帧视频图像之间的相似度的方式确定转场位置。具体的，针对关键位置之后的预设播放时长(如3秒等)内的视频片段，计算设备102可以依次比较连续两个相邻的视频帧图像之间的图像相似度，并且，如果存在两个视频帧图像之间的图像相似度小于预设阈值，则将后一帧视频图像的位置确定为转场位置。而若该视频片段内的任意两帧视频图像之间的图像相似度均大于预设阈值，则计算设备102确定该段视频中不存在转场位置。示例性地，计算设备102在计算两帧图像之间相似度时，可以先将这两帧图像分别缩小至8像素*8像素的尺寸，即缩小后的每帧图像均具有64个像素。这一步的作用是为了去除图像的细节，只保留图像中的结构/明暗等基本信息，降低后续的计算量；然后，计算设备102可以对缩小后的两帧图像进行灰度处理，并分别计算出每帧图像的平均灰度值(即每帧图像中的64个灰度值的平均值)；接着，计算设备102将每帧图像中各个像素的灰度值与该帧图像对应的平均灰度值进行比较，并且，灰度值大于或者等于平均灰度值的像素标记为1，灰度值小于平均灰度值的像素标记为0，从而每帧图像中的64个像素按照统一规则进行组合，可以生成64位的哈希值(由1以及0组成)，该哈希值可以作为该帧图像的指纹。这样，计算设备102可以比较两帧图像分别对应的64位哈希值，当这两个哈希值中存在差异的位数超过预设值(如5等)时，计算设备102确定这两帧图像相似度较小，而当这两个哈希值中存在差异的位数不超过该预设值时，计算设备102确定这两帧图像相似度较大。

在确定各个候选视频片段对应的起始分割点以及终止分割点后，针对任意一个候选视频片段(也即目标候选视频片段)，计算设备102可以对目标候选视频片段对应的音频内容进行语音识别，得到该目标候选视频片段对应的语义分析结果。例如，计算设备102可以识别目标候选视频片段中的字幕，例如可以是通过光学字符识别(Optical CharacterRecognition，OCR)技术进行字幕识别等，得到目标候选视频片段对应的字幕文本；然后，计算设备102可以对目标候选视频片段对应的字幕文本进行语义分析，得到相应的语义分析结果。或者，计算设备102可以对目标候选视频片段的音频数据进行语音识别，得到该音频数据对应的文本内容；然后，计算设备102可以对识别得到的文本内容进行语义分析，得到相应的语义分析结果。

在得到语义识别结果后，计算设备102可以根据该语义分析结果调整目标候选视频片段的起始分割点，例如可以基于台词完整性算法根据语义分析结果将一段完整语义的第一句话在原始视频中首次出现的位置确定为目标候选视频片段的起始分割点等，以使得基于该起始分割点所切分得到的视频片段中的字幕语义完整、连贯。如此，计算设备102可以基于调整后的起始分割点以及前述终止分割点，从原始视频中切分得到目标候选视频片段，从而计算设备102可以参照上述类似方式从原始视频中切分得到的多个候选视频片段。

S204：基于多个视频片段，拼接得到目标视频，该目标视频的播放时长小于该原始视频的播放时长。

在从原始视频中剪辑出包括多个视频片段后，计算设备102可以对该多个视频片段进行拼接，生成目标视频。其中，计算设备102可以按照各个视频片段在原始视频中的播放顺序进行顺序拼接，或者可以采用其它顺序进行拼接等，本实施例对此并不进行限定。

本实施例中，由于计算设备102可以根据原始视频中的关键位置，自动对原始视频进行剪辑并生成目标视频，这相比于人工剪辑的方式而言，不仅可以有效降低人力成本，而且，生成剪辑视频(也即目标视频)的效率通常也较高。另外，计算设备102基于包括目标类型声音的视频片段拼接生成目标视频，通常可以使得计算设备102针对原始视频的自动化剪辑效果达到较高的水平。

实际应用时，在对原始视频进行视频剪辑时，通常对剪辑生成的目标视频的播放时长具有一定要求。比如，对于播放时长为2小时的原始视频，对其进行剪辑生成的目标视频的播放时长可以不超过10分钟。因此，若多个视频片段对应的播放总时长大于所要生成的目标视频的最大播放时长时，计算设备102从多个视频片段中，挑选部分视频片段来生成目标视频。

进一步的，当原始视频中包括多组表演者分别单独表演的视频内容时，计算设备102可以根据与各组表演者有关的视频片段的数量来确定出所要挑选的视频片段。

具体的，参见图3，为本申请实施例提供了又一种视频剪辑方法的流程示意图，如图3所示，该方法具体可以包括：

S301：获取待处理的原始视频。

S302：识别原始视频中的多个关键位置，该原始视频在各个关键位置的音频内容包括目标类型声音。

S303：根据原始视频中的多个关键位置，从原始视频中切分得到多个视频片段。

其中，步骤S301至步骤S303的具体实现方式与前述实施例中的步骤S201至步骤S203的具体实现方式类似，具体可参见前述实施例的相关之处描述，在此不做赘述。

S304：将多个视频片段划分为多个视频集合，每个视频集合包括的不同视频片段中具有相同的表演人物，不同视频集合的视频片段中表演人物不同。

本实施例中，计算设备102可以将多个视频片段划分为多个视频集合，其中，每个视频集合包括至少一个视频片段，并且，当视频集合包括多个视频片段时，该视频集合包括的不同视频片段中具有相同的表演人物，并且不同视频集合的视频片段中的表演人物不同。

作为一种实现示例，计算设备102可以预先确定原始视频中各个表演人物的视频区间，例如，由于在脱口秀等原始视频中通常会是一个(或者2个等)表演人物在连续时间段内进行发言，因此，计算设备102可以对原始视频进行抽样提取视频帧图像，并通过人脸识别的方式确定表演人物分段的起始点和截止点。比如，计算设备102可以从原始视频中每秒抽取2帧视频图像，并通过人脸识别算法(或者基于人脸识别算法由海量人脸样本训练得到人脸识别模型)识别并记录每一帧出现的人脸；当一个人脸连续出现超过4分钟，则通过人脸识别的方式记录该人脸出现的起始和结束点位作为人物分段片段的起始点和截止点。这样，后续计算设备102可以将位于该起始点以及截止点之内的视频片段，划分至一个集合中。

而在另一种实现示例性中，计算设备102也可以是从每个视频片段中抽取部分视频帧图像，并通过人脸识别算法(或者人脸识别模型)识别出各个视频帧图像中包括的人脸图像，以此确定各个视频片段对应的表演人物，从而计算设备102可以根据各个视频片段对应的表演人物，将多个视频片段划分为多个视频集合，具体可以是将具有相同人脸图像的视频帧图像所在的视频片段划入同一视频集合中。

S305：根据各个视频集合中包括的视频片段的数量以及目标视频的最大播放时长，确定各个视频集合分别对应的播放时长限值，其中，视频集合包括的视频片段的数量与视频集合对应的播放时长限值呈正相关。

其中，视频集合包括的视频片段的数量与视频集合对应的播放时长限值呈正相关。即，视频集合中包括的视频片段的数量越多，则分配给该视频集合的播放时长限值越大；反之，视频集合中包括的视频片段的数量越少，则分配给该视频集合的播放时长限值越小。

计算设备102在得到多个视频集合后，可以根据各个视频集合中包括的视频片段的数量以及目标视频的最大播放时长，确定各个视频集合分别对应的播放时延限值，比如，假设视频集合A中包括4个视频片段，而视频集合B中包括8个视频片段，如果所要生成的目标视频的最大播放时长为3分钟，则可以按照视频集合A与视频集合B分别包括的视频片段比例，确定分配给视频集合的A的播放时长为1分钟(即3*(4/12))，分配给视频集合B的播放时长为2分钟(即3*(8/12))。

S306：根据各个视频集合分别对应的播放时长限值，从各个视频集合中挑选第一视频片段进行拼接，生成所述目标视频。

对于从视频集合中挑选出的视频片段，本实施例称之为第一视频片段，并且，从每个视频集合中挑选出的第一视频片段的播放总时长不超过该视频集合对应的播放时长限值。而对于视频集合中未被挑选的视频片段，本实施例称之为第二视频片段。

本实施例中，可以根据各个视频集合分别对应的播放时长限值，从各个视频集合中挑选第一视频片段进行拼接，生成所述目标视频。仍以上述视频集合A对应的播放时长限值为1分钟为例，假设视频集合A包括视频片段1、视频片段2、视频片段3以及视频片段4，其分别对应的播放时长为14秒、20秒、18秒、21秒，则计算设备102可以将视频集合中的视频片段1、视频片段2以及视频片段3作为第一视频片段，并对这三个视频片段进行拼接，并且拼接后的视频播放时长为52秒(即14秒+20秒+18秒)，不超过视频集合A对应的播放时长限值1分钟(即60秒)，未被挑选的视频片段4，即为上述第二视频片段。

在一种选择第一视频片段的示例性方式中，计算设备102可以优先选择播放时长较长的视频片段作为第一视频片段，未被选择的第二视频片段的播放时长相对较小。比如，计算设备102在从视频集合A包括的4个视频片段中选择用于生成剪辑视频的第一视频片段时，计算设备102可以优先选择播放时长最大的视频片段4。并且，该视频片段4的播放时长未超出视频集合A对应的播放时长限值(1分钟)，因此，计算设备102可以继续从剩余的3个视频片段中选择播放时长最大的视频片段2。由于视频片段2以及视频片段4的总播放时长仍为超出1分钟，因此，计算设备102可以继续从剩余的2个视频片段中选择播放时长最大的视频片段3。此时，视频片段2、3以及4的总播放时长仍为超出1分钟，但是当继续选择剩余的视频片段时，会使得总播放时长超出1分钟，因此，计算设备102可以确定从视频集合A中选择的第一视频片段包括视频片段2、3以及4。

或者，计算设备102可以各个视频片段包括的目标类型声音对应的播放时长，优先选择目标类型声音对应的播放时长更长的视频片段作为第一视频片段，即视频集合中第一视频片段包括的目标类型声音对应的播放时长，大于该视频集合中的第二视频片段包括的目标类型声音对应的播放时长。当然，上述挑选用于参与视频拼接的第一视频片段的方式仅作为一些示例性说明，实际应用时也可以采用其它方式确定第一视频片段等，本实施例对此并不进行限定。

实际应用场景中，当人物上场以及表演结束时，可能也会存在目标类型的声音，如掌声或者笑声等，因此，在进一步可能的实施方式中，计算设备102可以识别出各个视频集合中包括的人物上场片段(即表演人物登台上场时的视频片段)和/或表演结束片段(即表演人物表演结束时的视频片段)，并将这些频段确定为不参与后续视频拼接的第二视频片段。或者，计算设备102在根据关键位置切分得到多个视频片段的过程中，可以识别出该人物上场片段和/或表演结束片段，并从切分得到的多个视频片段中过滤掉该人物上场片段和/或表演结束片段等，本实施例对此并不进行限定。

为便于理解，下面以原始视频为多个表演者依次上台表演的脱口秀视频进行举例说明。计算设备102在获取到该脱口秀视频后，可以通过AI模型识别该脱口秀视频中存在笑声和/或掌声的位置，或者通过声纹特征比对的方式确定该脱口秀视频中存在笑声和/或掌声的关键位置等。然后，针对每个关键位置，计算设备102可以进一步确定出该关键位置的前15秒处的播放位置以及后3秒处的播放位置，并识别该关键位置至后3秒处的播放位置之间是否包括转场位置。如果包括，则计算设备102可以将该关键位置的前15秒处的播放位置作为起始分割点，将该转场位置作为终止分割点，从原始视频中切分出来从起始分割点至终止分割点的视频片段。如此，针对多个关键位置，计算设备102可以切分出来多个包括笑声和/或掌声的视频片段。由于所要剪辑生成的视频具有播放时长的限制，因此，当切分出来的多个视频片段对应的播放时长总和大于该播放时长时，计算设备102可以从该多个视频片段中挑选出部分视频片段进行拼接，以生成剪辑视频。具体实现时，计算设备102可以通过人脸识别算法或者人脸识别模型，将多个视频片段划分成多个视频集合，每个视频集合中包括至少一个视频片段，并且，对于包括多个视频片段的视频集合，该视频集合包括的不同视频片段中具有相同的表演者，并且不同视频集合的视频片段中的表演者不同。然后，计算设备102可以统计各个视频集合中包括的视频片段的数量，并根据各个视频集合包括的视频片段的数量之比以及剪辑视频的最大播放时长，确定各个视频集合中参与视频剪辑的视频片段的总播放时长的限值，从而基于各个视频集合对应的播放时长限值，从该视频集合中挑选出一个或者多个视频片段，从该视频集合中所挑选出的视频片段的总播放时长不超过该播放时长限值。并且，在从视频集合中挑选视频片段时，可以优先挑选播放时长相对较长的视频片段，或者优先挑选包括的笑声和/或掌声在原始视频中的播放时长相对较长的视频片段等。最后，计算设备102可以根据最终从各个视频集合中挑选出的多个视频片段，生成脱口秀视频集锦，也即用户所期望的剪辑视频。

此外，本申请实施例还提供了一种视频剪辑装置。参阅图4，图4示出了本申请实施例中一种视频剪辑装置的结构示意图，该视频剪辑装置400包括：

获取模块401，用于获取待处理的原始视频；

识别模块402，用于识别所述原始视频中的多个关键位置，所述原始视频在所述关键位置的音频内容包括目标类型声音；

切分模块403，用于根据所述原始视频中的多个关键位置，从所述原始视频中切分得到多个视频片段；

拼接模块404，用于基于所述多个视频片段，拼接得到目标视频，所述目标视频的播放时长小于所述原始视频的播放时长。

在一种可能的实施方式中，所述切分模块403，包括：

在一种可能的实施方式中，所述拼接模块404，包括：

在一种可能的实施方式中，所述划分单元，具体用于：

需要说明的是，上述装置各模块、单元之间的信息交互、执行过程等内容，由于与本申请实施例中方法实施例基于同一构思，其带来的技术效果与本申请实施例中方法实施例相同，具体内容可参见本申请实施例前述所示的方法实施例中的叙述，此处不再赘述。

此外，本申请实施例还提供了一种计算设备。参阅图5，图5示出了本申请实施例中一种计算设备的硬件结构示意图，该计算设备500可以包括处理器501以及存储器502。

其中，所述存储器502，用于存储计算机程序；

所述处理器501，用于根据所述计算机程序执行以下步骤：

获取待处理的原始视频；

在一种可能的实施方式中，所述处理器501，具体用于根据所述计算机程序执行以下步骤：

对目标候选视频片段对应的音频内容进行语义分析，得到所述目标候选视频片段对应的语义分析结果，所述目标候选视频片段为所述多个候选视频片段中的任一候选视频片段

另外，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方法实施例中所述的方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请示例性的实施方式，并非用于限定本申请的保护范围。

Claims

1.一种视频剪辑方法，其特征在于，所述方法包括：

获取待处理的原始视频；

2.根据权利要求1所述的方法，其特征在于，所述根据所述原始视频中的多个关键位置，从所述原始视频中切分得到多个视频片段，包括：

对目标候选视频片段对应的音频内容进行语义分析，得到所述目标候选视频片段对应的语义分析结果，所述目标候选视频片段为所述多个候选视频片段中的任一候选视频片段；

3.根据权利要求2所述的方法，其特征在于，所述目标候选视频片段对应的终止分割点，根据所述目标候选视频片段中的转场位置进行确定，所述目标候选视频片段中位于所述转场位置的视频图像与前一帧视频图像之间的相似度小于预设阈值。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于所述多个视频片段，拼接得到目标视频，包括：

5.根据权利要求4所述的方法，其特征在于，各个视频集合中还包括第二视频片段，所述第二视频片段为所述视频集合中除所述第一视频片段以外的其余视频片段；

6.根据权利要求5所述的方法，其特征在于，每个视频集合中的第二视频片段包括人物上场片段和/或表演结束片段。

7.根据权利要求4所述的方法，其特征在于，所述将所述多个视频片段划分为多个视频集合，包括：

8.一种视频剪辑装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的原始视频；

9.一种计算设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-7中任一项所述的方法。