CN110430443A

CN110430443A - 视频镜头剪切的方法、装置及计算机设备

Info

Publication number: CN110430443A
Application number: CN201910624918.6A
Authority: CN
Inventors: 雷晨雨
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-08
Anticipated expiration: 2039-07-11
Also published as: CN110430443B; WO2021003825A1

Abstract

本申请公开了一种视频镜头剪切的方法、装置及计算机设备，涉及计算机技术领域，可以解决在利用人工软件工具进行视频剪切时，剪切操作麻烦、效率低下且耗时耗力的问题。其中方法包括：提取待剪切视频中的各个单帧图片；基于方差变化值从所述单帧图片中筛选出候选帧图片；利用目标检测算法确定所述候选帧图片中包含的所有镜头切换帧图片；根据所述镜头切换帧图片将所述待剪切视频剪切成多个视频片段。本申请适用于对不同镜头场景下视频片段的自动剪切。

Description

视频镜头剪切的方法、装置及计算机设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频镜头剪切的方法、装置及计算机设备。

背景技术

镜头切换是视频剪辑中非常重要的一步，它不仅是电视节目叙事构成或者艺术表现的需要，同时也是观众观赏的需要。一般在体育比赛或者电视节目等长视频中，往往需要比较频繁的进行镜头切换，之后需要把这种长视频剪切成多个单一镜头场景的视频片段。随着人们生活水平的提高，对观赏类娱乐项目的质量要求也要求越来越严格，故如何加强视频剪切技术，使视频剪辑更能满足消费者的用户体验，在当下环境中显得尤为重要。

目前这种视频剪切工作一般还是由人工使用视频剪切软件来完成，而这种剪切方法通常比较麻烦，剪切效率低且费时费力。

发明内容

有鉴于此，本申请公开了一种视频镜头剪切的方法、装置及计算机设备，主要目的在于解决在利用人工软件工具进行视频剪切时，剪切操作麻烦、效率低下且耗时耗力的问题。

根据本申请的一个方面，提供了一种视频镜头剪切的方法，该方法包括：

提取待剪切视频中的各个单帧图片；

基于方差变化值从所述单帧图片中筛选出候选帧图片；

利用目标检测算法确定所述候选帧图片中包含的所有镜头切换帧图片；

根据所述镜头切换帧图片将所述待剪切视频剪切成多个视频片段。

根据本申请的另一个方面，提供了一种视频镜头剪切的装置，该装置包括：

提取模块，用于提取待剪切视频中的各个单帧图片；

筛选模块，用于基于方差变化值从所述单帧图片中筛选出候选帧图片；

确定模块，用于利用目标检测算法确定所述候选帧图片中包含的所有镜头切换帧图片；

剪切模块，用于根据所述镜头切换帧图片将所述待剪切视频剪切成多个视频片段。

根据本申请的又一个方面，提供了一种非易失性可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述视频镜头剪切的方法。

根据本申请的再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述视频镜头剪切的方法。

借由上述技术方案，本申请提供的一种视频镜头剪切的方法、装置及计算机设备，与目前利用人工软件工具进行视频剪切的方式相比，本申请可通过从待剪切视频中提取出各个单帧图片；基于方差变化值从单帧图片中初步筛选出候选帧图片；之后利用目标检测算法确定存在较大差异的各个相邻候选帧，以便从候选帧图片中确定出镜头切换帧图片；最后根据镜头切换帧图片自动将待剪切视频剪切成多个视频片段。通过本申请中的技术方案，可以根据方差计算结果以及yolo目标检测模型的检测结果，自动从待剪切视频中提取出镜头切换帧，并在镜头切换帧处完成对待剪切视频的剪切，避免了人工检测时容易出现的检测误差，有效提高了镜头切换帧的检测精度以及镜头剪切的工作效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种视频镜头剪切的方法的流程示意图；

图2示出了本申请实施例提供的另一种视频镜头剪切的方法的流程示意图；

图3示出了本申请实施例提供的一种视频镜头剪切的装置的结构示意图；

图4示出了本申请实施例提供的另一种视频镜头剪切的装置的结构示意图。

具体实施方式

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前在利用人工软件工具进行视频剪切时，剪切操作麻烦、效率低下且耗时耗力的问题，本申请实施例提供了一种视频镜头剪切的方法，如图1所示，该方法包括：

101、提取待剪切视频中的各个单帧图片。

在具体的应用场景中，为了方便对待剪切视频的精确剪切，预进行剪切的待剪切视频的放映时长至少要保证在三分钟以上。执行剪切操作的第一步需要从待剪切视频中提取出各个单帧的图片，以便通过对各个单帧图片的比较分析，确定出待剪切视频中包含的所有镜头切换帧。

102、基于方差变化值从单帧图片中筛选出候选帧图片。

在具体的应用场景中，因图片方差值的大小可显示图片中像素点的波动程度，故可通过计算各个单帧图片与相邻单帧图片的方差变化差值，来初步确定两个相邻单帧图片中像素点高频部分的变化情况。其中，方差变化值越大，说明像素点的变化波动越大，进一步确定这两个单帧图片中出现了不同的像素聚集点，即可初步将该单帧图片确定为候选帧图片，同时剔除由方差变化差值小而确定出的非镜头切换帧图片，进而使保留下的单帧图片全部为候选帧图片，以便进行更精细的筛选。

103、利用目标检测算法确定候选帧图片中包含的所有镜头切换帧图片。

其中，在本实施例中目标检测算法采用的是yolo目标检测的方法，即将对候选帧图片中连通分量的检测任务当做回归问题(regressionproblem)来处理，直接通过整张图片的所有像素得到检测框bounding box的坐标、bounding box中包含物体的置信度和条件类别概率。每个bounding box的位置坐标为(x,y,w,h),x和y表示boundingbox中心点坐标，w和h表示bounding box宽度和高度。通过yolo对目标进行检测，通过识别图片就能判断出候选帧图片中都有哪些物体和这些物体的位置。

104、根据镜头切换帧图片将待剪切视频剪切成多个视频片段。

在具体的应用场景中，在确定出所有的镜头切换帧图片后，可实现对待剪切视频的自动剪切，进而获取得到多个单一镜头场景下的视频片段。

通过本实施例中视频镜头剪切的方法，可通过从待剪切视频中提取出各个单帧图片；基于方差变化值从单帧图片中初步筛选出候选帧图片；之后利用目标检测算法确定存在较大差异的各个相邻候选帧，以便从候选帧图片中确定出镜头切换帧图片；最后根据镜头切换帧图片自动将待剪切视频剪切成多个视频片段。通过本申请中的技术方案，可以根据方差计算结果以及yolo目标检测模型的检测结果，自动从待剪切视频中提取出镜头切换帧，并在镜头切换帧处完成对待剪切视频的剪切，避免了人工检测时容易出现的检测误差，有效提高了镜头切换帧的检测精度以及镜头剪切的工作效率。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种视频镜头剪切的方法，如图2所示，该方法包括：

201、提取待剪切视频中的各个单帧图片。

在具体的应用场景中，由于场景切换过程中视频的单帧图片都有一个变换过程，根据变换时长可把这个过程分成2类：快速的镜头切换和慢速的镜头切换。其中，确定镜头切换的快慢可通过每秒钟内镜头播放不同单帧图片的数量来确定，当每秒钟内播放不同单帧图片的数量大于画面转换设定阈值时，说明一秒钟内播放的视频段属于快速的镜头切换，否则说明是慢速的镜头切换。

在本实施例中，针对快速的镜头切换场景，由于不同单帧图片的转换速度较快，故可将待剪切视频中每个连续帧对应的图片都提取出来，作为本实施例中的待分析的单帧图片，继续执行实施例步骤202至214中的分析剪切操作。

相应的，作为一种优选方式，针对慢速的镜头切换场景，由于不同单帧图片的转换速度较慢，进而会导致出现多个连续单帧图片变动不大的情况，为了减少计算量，可设置一个采样频率(大于20帧)，通过采样频率对图片进行稀疏采样，每个一个采样周期获取一个采样图片作为本实施例中待分析的单帧图片。例如，结合实际情况，在本方案可中将单帧图片的采样频率设定为32，则可通过采样频率对图片进行稀疏采样，以此来减少计算量。如一个视频帧有300帧，则可根据采样频率提取第0帧，第32帧，第32*2帧，第32*3帧，第32*4帧，…等图片作为本实施例中的单帧图片。

202、将各个单帧图片缩放到预设尺寸大小。

在具体的应用场景中，为了方便对提取出的单帧图片进行统一的分析，进而保证分析的精确性，可将单帧图片处理成统一格式大小，在本实施例中，为适应需要，可将预设尺寸大小设定为256*256，当获取到单帧图片时，则需要将各个单帧图片缩放到256*256的像素大小。

203、对缩放后的单帧图片进行灰度化处理。

相应的，由于从待剪切视频中提取出的单帧图片多为彩色图像，都是采用RGB颜色模式，为了消除单帧图片中无关信息对图像检测的干扰，增强有关信息的可检测性，并且最大限度地简化数据，需要在初期处理单帧图片的时候，预先对待识别的单帧图片进行灰度化处理，从而保证图片检测的可靠性。

204、计算各个单帧图片中所有像素点的方差值。

对于本实施例，每一个单帧图片的方差计算公式为：

其中，S(t)为每个单帧图片的方差值，xi为单帧图片中各个像素点的灰度值，为单帧图片中所有像素点的平均灰度值，n为参与方差比较的单帧图片中包含的像素点的总数。

205、计算各个单帧图片与对应下一帧单帧图片之间的方差变化值。

在具体的应用场景中，由于根据各个单帧图片与相邻下一帧单帧图片的方差变化差值，可初步确定两个相邻单帧图片中像素点高频部分的变化情况。故可通过计算方差变化值，初步确定出当前单帧图片与下一帧图片变化大小，进而区分当前单帧图片是非镜头切换帧图片还是候选帧图片。

206、若确定方差变化值小于第一预设阈值，则判定单帧图片为非镜头切换帧图片。

其中，第一预设阈值为用于判定当前单帧图片为候选帧图片的最小方差变化值。

相应的，对于本实施例，若确定当前单帧图片与对应下一帧单帧图片之间的方差变化值小于第一预设阈值，则可说明当前单帧图片与下一帧单帧图片之间的变化差异不明显，即可判定待剪切视频中在当前帧与下一帧之间不存在镜头场景的转换，故不需要进行剪切，则可将当前单帧图片确定为非镜头切换帧图片，之后进行滤除。

例如，计算出当前单帧图片的方差值为S(t)，对应下一帧单帧图片的方差值为S(t+1)，且设定第一预设阈值为N1，若计算：|S(t)-S(t+1)|<N1，则可判定当前单帧图片为为非镜头切换帧图片。

207、若确定方差变化值大于或等于第一预设阈值，则判定单帧图片为候选帧图片。

在具体的应用场景中，对于本实施例，若确定当前单帧图片与对应下一帧单帧图片之间的方差变化值大于或等于第一预设阈值，则可说明当前单帧图片与下一帧单帧图片之间的变化差异相对较大，两者是否为同一镜头场景仍需要进行下一步的精确判定，故可将当前单帧图片保存为待进行下一步对比检测的候选帧图片。

例如，计算出当前单帧图片的方差值为S(t)，对应下一帧单帧图片的方差值为S(t+1)，且设定第一预设阈值为N1，若计算：|S(t)-S(t+1)|≥N1，则可判定当前单帧图片为为候选帧图片。

208、基于目标检测算法训练得到训练结果满足预设标准的目标检测模型。

对于本实施例，在具体的应用场景中，实施例步骤208具体可以包括：采集多个单帧图片作为样本图像；标注样本图像中各个连通分量的位置坐标和类别信息；将已标注坐标位置的样本图像作为训练集，输入预先基于yolo目标检测算法创建的初始目标检测模型中；利用初始目标检测模型提取样本图像中各类连通分量的图像特征，并基于图像特征生成各个连通分量的建议窗口以及建议窗口对应各类连通分量的条件类别概率；将条件类别概率最大的连通分量类别确定为建议窗口内连通分量的类别识别结果；若判定所有建议窗口的置信度均大于第二预设阈值，且类别识别结果与标注的类别信息匹配，则判定初始目标检测模型通过训练；若判定初始目标检测模型未通过训练，则利用样本图像中标注的各个连通分量的位置坐标和类别信息修正训练初始目标检测模型，以使初始目标检测模型的判定结果满足预设标准。

其中，置信度confidence是用于判定识别检测框中是否含有物体，且存在物体的概率。其计算公式为：Pr(Object)是用于识别检测框中有无物体，Pr(Object)∈{0,1}，当Pr(Object)＝0时，说明检测框中不包含物体，则计算出置信度confidence＝0，即代表未识别出物体；当Pr(Object)＝1时，说明检测框中包含物体，则置信度confidence的取值为交并比是产生检测出的候选框(candidate bound)与实际标记框(ground truthbound)的交叠率，即它们的交集与并集的比值。最理想情况是完全重叠，即比值为1。第二预设阈值是用于评定初始目标检测模型是否通过训练的评判标准，将判定出非零的置信度与第二预设阈值比较，当置信度大于第二预设阈值，则判定初始目标检测模型通过训练，否则未通过训练。由于置信度的取值在0到1之间，故设定的第二预设阈值的最大值为1，设定的第二预设阈值越大，代表模型训练得越精准，具体设定数值可根据应用标准来进行确定。类别信息为待剪切视频中包含连通分量的类别，如不同体型以及外貌的人、固定的建筑物、器械等，在具体的应用场景中，可根据实际的视频录制场景设定不同待识别的类别信息。初始目标检测模型为预先根据设计需要创建的，与目标检测模型的区别是：初始目标检测模型只是初步创建完成，未通过模型训练，且未满足预设标准，而目标检测模型是指通过模型训练，已达到预设标准、可应用于对各个单帧图片中连通分量的检测。

在具体的应用场景中，置信度confidence是针对每个建议窗口的，而条件类别概率conditional class probability信息是针对每个网格的，即各个建议窗口中物体对应各个类别的概率，如训练识别a、b、c、d、e五个类别，则依据置信度判定建议窗口A包含物体，则分别预测建议窗口A对应a、b、c、d、e五个类别的条件类别概率，如预测结果分别为：80％、55％、50％、37％、15％，则将条件类别概率最高的a类别判定为识别结果，则需要验证检测框中实际标定的物体类别是否为a类别，如为a类别，则判定初始目标检测模型识别此建议窗口中类别信息是正确的。在判定所有识别出的建议窗口置信度均大于第二预设阈值，且类别识别结果与标注的类别信息匹配，则判定初始目标检测模型通过训练。

209、将候选帧图片输入目标检测模型中，获取候选帧图片对应的第一检测数据信息。

其中，第一检测信息为候选帧图片中包含的所有连通分量的类别、数量，以及各个连通分量对应的位置信息、高度、宽度等数据信息。

210、将候选帧图片对应的下一帧单帧图片输入目标检测模型中，获取下一帧单帧图片对应的第二检测数据信息。

其中，下一帧单帧图片为待剪切视频中当前候选帧图片对应下一帧的单帧图片，下一帧单帧图片可为非镜头切换帧图片，也可为候选帧图片。第二检测数据信息为下一帧单帧图片中包含的所有连通分量的类别、数量，以及各个连通分量对应的位置信息、高度、宽度等数据信息。

211、若判定第一检测数据信息和第二检测数据信息中不包含同一连通分量，则确定候选帧图片为镜头切换帧图片。

在具体的应用场景中，对于本实施例，若确定第一检测数据信息和第二检测数据信息中不包含同一连通分量，则可说明当前候选帧图片与对应的下一帧单帧图片处于两个完全不同的镜头场景，即判定候选帧与下一帧之间出现了镜头场景的切换，故保留当前候选帧图片为镜头切换帧图片。反之，若确定第一检测数据信息和第二检测数据信息中至少包含一个同一连通分量，则可确定当前候选帧图片为非镜头切换帧图片，进而滤除该候选帧。

212、若判定第一检测数据信息和第二检测数据信息中包含同一连通分量，则计算同一连通分量的差异值。

在具体的应用场景中，对于本实施例，实施例步骤212具体可以包括：基于第一检测数据信息与第二检测数据信息中同一连通分量的位置坐标信息计算第一差异值；基于第一检测数据信息与第二检测数据信息中同一连通分量的高度和宽度信息计算第二差异值。

例如，检测出当前候选帧图片及对应下一帧单帧图片中包含2个相同的连通分量，且对应的两个连通分量分别为：s1、s2，通过第一检测数据信息获取到s1的大小和位置数据为{x1,y1,w1,h1}，通过第二检测数据信息获取到s2的大小和位置数据为为：{x2,y2,w2,h2}。其中，x1、y1分别为s1在当前候选帧图片中的位置坐标信息，x2、y2分别为s2在下一帧单帧图片中的位置坐标信息，w1、h1分别为s1的宽和高，w2、h2分别为s2的宽和高。则可计算出第一差异值为：d1＝(x1-x2)^2+(y1-y2)^2；第二差异值为：d2＝(w1-w2)^2+(h1-h2)^2。

213、当差异值符合预设条件时，则判定候选帧图片为镜头切换帧图片。

相应的，对于本实施例，实施例步骤213具体可以包括：若第一差异值和/或第二差异值大于第三预设阈值，则判定候选帧图片为镜头切换帧图片。

其中，预设条件为第一差异值和第二差异值中至少存在一个大于第三预设阈值，第三预设阈值为用于判定候选帧图片为镜头切换帧图片的最小差异值，具体数值可根据实际情况进行设定。

例如，基于实施例步骤212中的实例，计算出第一差异值为d1，第二差异值为d2，且设定的第三预设阈值为N2，若判定d1>N2或d2>N2或d1、d2>N2，则可判定候选帧图片为镜头切换帧图片。

214、根据镜头切换帧图片将待剪切视频剪切成多个视频片段。

在具体的应用场景中，对于本实施例，实施例步骤214具体可以包括：确定各个镜头切换帧图片对应的镜头切换帧；在镜头切换帧处剪切待剪切视频。

例如，从待剪切视频中提取出的所有单帧图片序列为：[t0，…，tn]，若确定提取出的镜头切换帧图片对应的镜头切换帧为：tx1，tx2，…，txm，且(t0<tx1<tx2<…<txm<tn)。则可将待剪切视频剪切成[t0,tx1]，[tx1+1，tx2]，…[txm+1，tn]个视频片段，其中每个视频片段都是一个单一的镜头片段。

通过上述视频镜头剪切的方法，可通过从待剪切视频中提取出各个单帧图片；在对各个单帧图片进行预处理后，计算各个单帧图片与对应下一帧单帧图片之间的方差变化值，在方差变化值大于第一预设阈值时，判定该单帧图片为候选帧图片，在提取出所有候选帧图片后，基于yolo目标检测算法比较候选帧图片与对应下一帧单帧图片的连通分量的差异度，当差异较大时，则可将该候选帧图片确定为镜头切换帧图片；最后在镜头切换帧图片对应的镜头切换帧处剪切待剪切视频。在本实施例中，通过对镜头切换帧的二重检测，可准确高效的确定出待剪切视频包含的所有镜头切换帧，进而实现对各个单一镜头场景的准确切割，提升了切割效率的同时，也降低了视频剪切的劳动成本。

进一步的，作为图1和图2所示方法的具体体现，本申请实施例提供了一种视频镜头剪切的装置，如图3所示，该装置包括：提取模块31、筛选模块32、确定模块33、剪切模块34。

提取模块31，用于提取待剪切视频中的各个单帧图片；

筛选模块32，用于基于方差变化值从单帧图片中筛选出候选帧图片；

确定模块33，用于利用目标检测算法确定候选帧图片中包含的所有镜头切换帧图片；

剪切模块34，用于根据镜头切换帧图片将待剪切视频剪切成多个视频片段。

在具体的应用场景中，为了排除干扰，提高单帧图片的检测精度，如图4所示，本装置还包括：缩放模块35、处理模块36。

缩放模块35，用于将各个单帧图片缩放到预设尺寸大小；

处理模块36，用于对缩放后的单帧图片进行灰度化处理。

相应的，为了基于方差变化值从单帧图片中筛选出候选帧图片，筛选模块32，具体用于计算各个单帧图片中所有像素点的方差值；计算各个单帧图片与对应下一帧单帧图片之间的方差变化值；若确定方差变化值小于第一预设阈值，则判定单帧图片为非镜头切换帧图片；若确定方差变化值大于或等于第一预设阈值，则判定单帧图片为候选帧图片。

在具体的应用场景中，为了利用目标检测算法确定候选帧图片中包含的所有镜头切换帧图片，确定模块33，具体用于基于目标检测算法训练得到训练结果满足预设标准的目标检测模型；将候选帧图片输入目标检测模型中，获取候选帧图片对应的第一检测数据信息；将候选帧图片对应的下一帧单帧图片输入目标检测模型中，获取下一帧单帧图片对应的第二检测数据信息；若判定第一检测数据信息和第二检测数据信息中不包含同一连通分量，则确定候选帧图片为镜头切换帧图片；若判定第一检测数据信息和第二检测数据信息中包含同一连通分量，则计算同一连通分量的差异值；当差异值符合预设条件时，则判定候选帧图片为镜头切换帧图片。

相应的，为了基于目标检测算法训练得到训练结果满足预设标准的目标检测模型，确定模块33，具体用于采集多个单帧图片作为样本图像；标注样本图像中各个连通分量的位置坐标和类别信息；将已标注坐标位置的样本图像作为训练集，输入预先基于yolo目标检测算法创建的初始目标检测模型中；利用初始目标检测模型提取样本图像中各类连通分量的图像特征，并基于图像特征生成各个连通分量的建议窗口以及建议窗口对应各类连通分量的条件类别概率；将条件类别概率最大的连通分量类别确定为建议窗口内连通分量的类别识别结果；若判定所有建议窗口的置信度均大于第二预设阈值，且类别识别结果与标注的类别信息匹配，则判定初始目标检测模型通过训练；若判定初始目标检测模型未通过训练，则利用样本图像中标注的各个连通分量的位置坐标和类别信息修正训练初始目标检测模型，以使初始目标检测模型的判定结果满足预设标准。

在具体的应用场景中，在判定第一检测数据信息和第二检测数据信息中包含同一连通分量时，确定模块33，具体用于基于第一检测数据信息与第二检测数据信息中同一连通分量的位置坐标信息计算第一差异值；基于第一检测数据信息与第二检测数据信息中同一连通分量的高度和宽度信息计算第二差异值。

相应的，当差异值符合预设条件时，确定模块33，具体用于若第一差异值和/或第二差异值大于第三预设阈值，则判定候选帧图片为镜头切换帧图片。

在具体的应用场景中，为了将待剪切视频剪切成多个视频片段，剪切模块34，具体用于确定各个镜头切换帧图片对应的镜头切换帧；在镜头切换帧处剪切待剪切视频。

需要说明的是，本实施例提供的一种视频镜头剪切的装置所涉及各功能单元的其它相应描述，可以参考图1至图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的视频镜头剪切的方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1、图2所示的方法，以及图3、图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的视频镜头剪切的方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

非易失性可读存储介质中还可以包括操作***、网络通信模块。操作***是视频镜头剪切的实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请可通过从待剪切视频中提取出各个单帧图片；在对各个单帧图片进行预处理后，计算各个单帧图片与对应下一帧单帧图片之间的方差变化值，在方差变化值大于第一预设阈值时，判定该单帧图片为候选帧图片，在提取出所有候选帧图片后，基于yolo目标检测算法比较候选帧图片与对应下一帧单帧图片的连通分量的差异度，当差异较大时，则可将该候选帧图片确定为镜头切换帧图片；最后在镜头切换帧图片对应的镜头切换帧处剪切待剪切视频。在本实施例中，通过对镜头切换帧的二重检测，可准确高效的确定出待剪切视频包含的所有镜头切换帧，进而实现对各个单一镜头场景的准确切割，提升了切割效率的同时，也降低了视频剪切的劳动成本。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种视频镜头剪切的方法，其特征在于，包括：

提取待剪切视频中的各个单帧图片；

基于方差变化值从所述单帧图片中筛选出候选帧图片；

2.根据权利要求1所述的方法，其特征在于，在所述基于方差变化值从所述单帧图片中筛选出候选帧图片之前，具体还包括：

将各个所述单帧图片缩放到预设尺寸大小；

对缩放后的所述单帧图片进行灰度化处理。

3.根据权利要求2所述的方法，其特征在于，所述基于方差变化值从所述单帧图片中筛选出候选帧图片，具体包括：

计算各个所述单帧图片中所有像素点的方差值；

计算各个所述单帧图片与对应下一帧单帧图片之间的方差变化值；

若确定所述方差变化值小于第一预设阈值，则判定所述单帧图片为非镜头切换帧图片；

若确定所述方差变化值大于或等于第一预设阈值，则判定所述单帧图片为候选帧图片。

4.根据权利要求3所述的方法，其特征在于，所述利用目标检测算法确定所述候选帧图片中包含的所有镜头切换帧图片，具体包括：

基于目标检测算法训练得到训练结果满足预设标准的目标检测模型；

将所述候选帧图片输入所述目标检测模型中，获取所述候选帧图片对应的第一检测数据信息；

将所述候选帧图片对应的下一帧单帧图片输入所述目标检测模型中，获取所述下一帧单帧图片对应的第二检测数据信息；

若判定所述第一检测数据信息和所述第二检测数据信息中不包含同一连通分量，则确定所述候选帧图片为镜头切换帧图片；

若判定所述第一检测数据信息和所述第二检测数据信息中包含同一连通分量，则计算所述同一连通分量的差异值；

当所述差异值符合预设条件时，则判定所述候选帧图片为所述镜头切换帧图片。

5.根据权利要求4所述的方法，其特征在于，所述基于目标检测算法训练得到训练结果满足预设标准的目标检测模型，具体包括：

采集多个单帧图片作为样本图像；

标注所述样本图像中各个连通分量的位置坐标和类别信息；

将已标注坐标位置的所述样本图像作为训练集，输入预先基于yolo目标检测算法创建的初始目标检测模型中；

利用所述初始目标检测模型提取所述样本图像中各类连通分量的图像特征，并基于所述图像特征生成各个所述连通分量的建议窗口以及所述建议窗口对应各类连通分量的条件类别概率；

将所述条件类别概率最大的连通分量类别确定为所述建议窗口内连通分量的类别识别结果；

若判定所有所述建议窗口的置信度均大于第二预设阈值，且所述类别识别结果与标注的所述类别信息匹配，则判定所述初始目标检测模型通过训练；

若判定所述初始目标检测模型未通过训练，则利用所述样本图像中标注的各个连通分量的位置坐标和类别信息修正训练所述初始目标检测模型，以使所述初始目标检测模型的判定结果满足预设标准。

6.根据权利要求5所述的方法，其特征在于，所述若判定所述第一检测数据信息和所述第二检测数据信息中包含同一连通分量，则计算所述同一连通分量的差异值，具体包括：

基于所述第一检测数据信息与所述第二检测数据信息中所述同一连通分量的位置坐标信息计算第一差异值；

基于所述第一检测数据信息与所述第二检测数据信息中所述同一连通分量的高度和宽度信息计算第二差异值；

所述当所述差异值符合预设条件时，则判定所述候选帧图片为所述镜头切换帧图片，具体包括：

若所述第一差异值和/或所述第二差异值大于第三预设阈值，则判定所述候选帧图片为镜头切换帧图片。

7.根据权利要求6所述的方法，其特征在于，所述根据所述镜头切换帧图片将所述待剪切视频剪切成多个视频片段，具体包括：

确定各个所述镜头切换帧图片对应的镜头切换帧；

在所述镜头切换帧处剪切所述待剪切视频。

8.一种视频镜头剪切的装置，其特征在于，包括:

提取模块，用于提取待剪切视频中的各个单帧图片；

9.一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的视频镜头剪切的方法。

10.一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的视频镜头剪切的方法。