CN108810620B

CN108810620B - 识别视频中的关键时间点的方法、装置、设备及存储介质

Info

Publication number: CN108810620B
Application number: CN201810791373.3A
Authority: CN
Inventors: 吴韬; 徐敘遠; 龚国平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2021-08-17
Anticipated expiration: 2038-07-18
Also published as: CN108810620A; EP3826317A4; EP3826317A1; EP3826317B1; WO2020015492A1; US11803749B2; US20200401808A1

Abstract

本申请是关于一种识别视频中的关键时间点的方法。该方法包括：通过图像分类模型对视频中的各个图像帧进行处理，获得至少一个视频分片；通过图像检测模型对目标视频分片进行处理，获得第一对象和第二对象分别在所述目标视频分片包含的图像帧中的位置；当第一图像帧中的第一对象的位置和第二对象的位置之间满足预设条件时，根据第一图像帧在视频中的时间点确定视频的关键时间点。由于机器学习模型在图像分类和物体检测领域具有较强的适应性，因此，本方案能够比较准确的完成对视频中的关键时间点的识别，从而提高识别的准确性。

Description

识别视频中的关键时间点的方法、装置、设备及存储介质

技术领域

本申请实施例涉及机器学习技术领域，特别涉及一种识别视频中的关键时间点的方法、计算机设备及存储介质。

背景技术

通过计算机设备快速确定足球或篮球等体育比赛视频中的关键时间点，对于体育比赛的视频剪辑等应用场景有着非常重要的意义。

在相关技术中，对于足球或篮球等体育比赛视频，通常通过图像处理算法确定关键时间点。比如，以篮球比赛视频为例，计算机设备首先通过视频中各个图像帧的方向梯度直方图(Histogram of Oriented Gradient，HOG)，将视频划分为不同镜头类型对应的视频分片，并使用加速鲁棒特征(Speed Up Robust Features，SURF)结合卡尔曼滤波算法，在其中一种或多种镜头类型对应的视频分片中进行篮球和篮框的跟踪，根据跟踪获得的篮球和篮框之间的位置关系确定视频中的关键时间点。

然而，传统的图像处理算法(比如上述HOG、SURF以及卡尔曼滤波等算法)的鲁棒性比较差，对于复杂场景以及镜头的移动的适应性较差，导致确定出的关键时间点的准确性较低。

发明内容

本申请实施例提供了一种识别视频中的关键时间点的方法、计算机设备及存储介质，能够比较准确的完成对视频中的关键时间点的识别，提高识别的准确性，技术方案如下：

一方面，提供了一种识别视频中的关键时间点的方法，所述方法包括：

通过图像分类模型对视频中的各个图像帧进行处理，获得至少一个视频分片；所述图像分类模型是根据第一图像帧样本训练获得的机器学习模型，所述第一图像帧样本是标注有镜头类型的图像帧；每个所述视频分片包含所述视频中相邻的至少两个图像帧，且每个所述视频分片对应一种镜头类型；

通过图像检测模型对目标视频分片进行处理，获得第一对象和第二对象分别在所述目标视频分片包含的图像帧中的位置；所述图像检测模型是根据第二图像帧样本训练获得的机器学习模型，所述第二图像帧样本是标注有所述第一对象的位置和所述第二对象的位置的图像帧；所述目标视频分片是所述至少一个视频分片中，对应指定镜头类型的视频分片；

当第一图像帧中的所述第一对象的位置和所述第二对象的位置之间满足预设条件时，根据所述第一图像帧在所述视频中的时间点确定所述视频的关键时间点；所述第一图像帧是所述目标视频分片包含的图像帧中的任意图像帧。

另一方面，提供了一种识别视频中的关键时间点的装置，所述装置包括：

第一处理模块，用于通过图像分类模型对视频中的各个图像帧进行处理，获得至少一个视频分片；所述图像分类模型是根据第一图像帧样本训练获得的机器学习模型，所述第一图像帧样本是标注有镜头类型的图像帧；每个所述视频分片包含所述视频中相邻的至少两个图像帧，且每个所述视频分片对应一种镜头类型；

第二处理模块，用于通过图像检测模型对目标视频分片进行处理，获得第一对象和第二对象分别在所述目标视频分片包含的图像帧中的位置；所述图像检测模型是根据第二图像帧样本训练获得的机器学习模型，所述第二图像帧样本是标注有所述第一对象的位置和所述第二对象的位置的图像帧；所述目标视频分片是所述至少一个视频分片中，对应指定镜头类型的视频分片；

确定模块，用于当第一图像帧中的所述第一对象的位置和所述第二对象的位置之间满足预设条件时，根据所述第一图像帧在所述视频中的时间点确定所述视频的关键时间点；所述第一图像帧是所述目标视频分片包含的图像帧中的任意图像帧。

另一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的识别视频中的关键时间点的方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的识别视频中的关键时间点的方法。

本申请提供的技术方案可以包括以下有益效果：

通过预先训练好的机器学习模型对视频进行分类，并检测第一对象和第二对象在指定镜头类型对应的视频分片的图像帧中的位置，再根据图像帧中的第一对象和第二对象的位置关系，识别图像帧对应的时间点是否可以用于确定视频的关键时间点，由于机器学习模型在图像分类和物体检测领域具有较强的适应性，因此，本方案能够比较准确的完成对视频中的关键时间点的识别，从而提高识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一个示例性实施例示出的一种模型训练及关键时间点识别框架图；

图2是图1所示实施例涉及的一种图像分类模型训练流程示意图；

图3是图1所示实施例涉及的一种图像检测模型训练流程示意图；

图4是根据一个示例性实施例示出的一种识别视频中的关键时间点的方法流程图；

图5是根据一个示例性实施例示出的一种识别视频中的关键时间点的方法流程图；

图6是图5所示实施例涉及的关键时间点识别***的框架图；

图7是根据一个示例性实施例示出的识别视频中的关键时间点的装置的结构方框图；

图8是根据一个示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请实施例提出了一种高效并且高准确率的视频中的关键时间点的方案，该方案能够通过机器学习模型对视频进行分片和对象检测，并根据检测结果识别视频中的关键时间点。为了便于理解，下面对本申请实施例涉及的几个名词进行解释。

(1)镜头类型

在本申请各个实施例中，镜头类型可以是图像帧中的场景内容对应的类型，比如，镜头类型可以包括远景镜头、近景镜头、特写镜头、观众镜头以及广告镜头中的至少一种。

(2)机器学习模型

本申请各个实施例涉及的机器学习模型，包括但不限于通过预先标注好的训练数据进行训练获得的模型。具体的，本申请各个实施例至少包括图像分类模型和图像检测模型。

其中，上述图像分类模型可以用于对图像帧进行处理，以确定输入的图像帧所属的镜头类型。例如，上述图像分类模型可以是卷积神经网络(Convolutional NeuralNetwork，CNN)模型。

上述图像检测模型，可以用于检测输入的图像帧中的指定对象，比如指定的人或者物体。例如，上述图像检测模型可以是快速基于区域的卷积神经网络 (Faster Regionswith Convolutional Neural Network Features，Faster-RCNN)模型。

本申请实施例的方案包括模型训练阶段和识别阶段。图1是根据一个示例性实施例示出的一种模型训练及关键时间点识别框架图。如图1所示，在模型训练阶段，模型训练设备110通过第一图像帧样本训练出图像分类模型，并通过第二图像帧样本训练出图像检测模型，其中，第一图像帧样本是标注有镜头类型的图像帧，第二图像帧样本是标注有第一对象的位置和第二对象的位置的图像帧，在识别阶段，识别设备120通过训练好的机器学习模型(即上述图像分类模型和图像检测模型)以及输入的视频识别出视频中的关键时间点。

其中，上述模型训练设备110和识别设备120可以是具有机器学***板电脑或者电子书阅读器等移动式计算机设备。

可选的，上述模型训练设备110和识别设备120可以是同一个设备，或者，模型训练设备110和识别设备120也可以是不同的设备。并且，当模型训练设备110和识别设备120是不同的设备时，模型训练设备110和识别设备120可以是同一类型的设备，比如模型训练设备110和识别设备120可以都是个人电脑；或者，模型训练设备110和识别设备120也可以是不同类型的设备，比如模型训练设备110可以是服务器，而识别设备120可以是个人电脑等。本申请实施例对于模型训练设备110和识别设备120的具体类型不做限定。

上述模型训练设备110通过第一图像帧样本训练出图像分类模型时，可以从视频样本中提取第一图像帧样本。为了避免第一图像帧样本中的各个图像帧样本过于类似而导致训练结果过拟合，在本申请实施例中，模型训练设备110 可以从视频样本中各帧提取图像帧，并将提取到的图像帧输出给标注人员进行人工标注对应的镜头类型，获得第一图像帧样本。

其中，上述图像分类模型可以获得输入的图像帧属于各种镜头类型的概率，当输入的图像帧属于某一种镜头类型的概率大于预设的概率阈值(比如80％) 时，可以认为图像分类模型成功识别出该图像帧的镜头类型(即对应的概率大于预设的概率阈值的镜头类型)。

可选的，为了节约标注时间，提高样本标注和模型训练的效率，在本申请实施例中，模型训练设备110可以首先通过一部分第一图像帧样本训练获得初始分类模型，然后将未标注的图像帧输入初始分类模型，当该初始分类模型成功识别出该图像帧所属的镜头类型时，模型训练设备110将该图像帧以及该初始分类模型识别出的镜头类型作为新的第一图像帧样本，当该初始分类模型未能成功识别出该图像帧所属的镜头类型时，模型训练设备110将该图像帧输出给标注人员进行人工标注对应的镜头类型，并将该图像帧以及标注人员人工标注的镜头类型作为新的第一图像帧样本，在获得上述新的第一图像帧样本之后，模型训练设备110通过上述新的第一图像帧样本继续对初始分类模型进行训练，直至获得上述图像分类模型。

比如，请参考图2，其示出了本申请实施例涉及的一种图像分类模型训练流程示意图。如图2所示，以体育比赛视频为例，模型训练设备收集训练体育视频，通过隔帧采样的方式提取图像帧，并由标注人员标注出提取到的各个图像帧的不同场景(对应上述镜头类型)，并按照不同镜头类型分为N类(例如：远景、近景、广告、特写等)，通过CNN模型提取特征并训练，得到初始分类模型(即图2中的分类网络)，之后，模型训练设备从更多的测试体育视频中隔帧提取图像帧，利用初训模型对提取出的图像帧进行分类，若分类成功，则将提取出的图像帧以及初始分类模型分类获得的镜头类型增加到训练样本中，若分类失败，则由标注人员标注提取出的图像帧的镜头类型，并将提取出的图像帧以及标注结果增加到训练样本中，以逐步增加样本量，对初始分类模型不断进行优化，直至获得上述图像分类模型。比如，当初始分类模型的准确率达到某一阈值时，可以将初始分类模型确定为图像分类模型。

上述在通过第二图像帧样本训练出图像检测模型时，标注人员可以预先收集体育视频中存在第一对象和/或第二对象的图像帧，并在收集的图像帧中标注出第一对象和/或第二对象的位置，将标注有第一对象和/或第二对象的位置的图像帧作为上述第二图像帧样本。

其中，上述第一对象和第二对象可以是体育视频对应的体育比赛中涉及胜负或得分与否的体育器械。比如，以体育视频是将某一指定物体移动至一个指定位置为获胜或者得分的体育比赛的视频为例，上述第一对象和第二对象可以是上述指定物体以及指定位置的标记，比如，上述第一对象和第二对象可以分别是篮球和篮框，或者，上述第一对象和第二对象可以分别是足球和球门。

类似的，为了节约标注时间，提高样本标注和模型训练的效率，在本申请实施例中，模型训练设备110可以首先通过一部分第二图像帧样本训练获得初始检测模型，然后将未标注对象位置的图像帧输入初始检测模型，当该初始分检测模型成功识别出该图像帧中的第一对象和/或第二对象的位置时，模型训练设备110将该图像帧以及该初始检测模型识别出的第一对象和/或第二对象的位置作为新的第二图像帧样本，当该初始检测模型未能成功识别出该图像帧中的第一对象和/或第二对象的位置时，模型训练设备110将该图像帧输出给标注人员进行人工标注对应的第一对象和/或第二对象的位置，并将该图像帧以及标注人员人工标注的第一对象和/或第二对象的位置作为新的第二图像帧样本，在获得上述新的第二图像帧样本之后，模型训练设备110通过上述新的第二图像帧样本继续对初始检测模型进行训练，直至获得上述图像检测模型。

比如，请参考图3，其示出了本申请实施例涉及的一种图像检测模型训练流程示意图。如图3所示，以体育比赛视频为例，模型训练设备收集训练体育视频，通过隔帧采样的方式提取图像帧，并由标注人员标注出提取到的各个图像帧中的第一对象和/或第二对象的位置，通过Faster-RCNN模型提取特征并训练，得到初始检测模型(即图3中的检测网络)，之后，模型训练设备从更多的测试体育视频中隔帧提取图像帧，利用初训模型对提取出的图像帧进行检测，若检测成功，则将提取出的图像帧以及初始检测模型检测获得的第一对象和/或第二对象的位置增加到训练样本中，若检测失败，则由标注人员标注提取出的图像帧中的第一对象和/或第二对象的位置，并将提取出的图像帧以及标注结果增加到训练样本中，以逐步增加样本量，对初始检测模型不断进行优化，直至获得上述图像检测模型。

其中，上述训练图像分类模型所使用的训练体育视频和测试体育视频，与训练图像检测模型所使用的训练体育视频和测试体育视频，可以是相同的体育视频，也可以是不同的体育视频。

请参考图4，其是根据一个示例性实施例示出的一种识别视频中的关键时间点的方法流程图。如图4所示，上述识别设备120通识别出视频中的关键时间点的过程可以如下：

识别设备通过图像分类模型对视频中的各个图像帧进行处理，获得至少一个视频分片；每个视频分片包含视频中相邻的至少两个图像帧，且每个视频分片对应一种镜头类型(步骤41)。

识别设备通过图像检测模型对目标视频分片进行处理，获得第一对象和第二对象分别在目标视频分片包含的图像帧中的位置；目标视频分片是上述至少一个视频分片中，对应指定镜头类型的视频分片(步骤42)。

当第一图像帧中的第一对象的位置和第二对象的位置之间满足预设条件时，识别设备根据第一图像帧在视频中的时间点确定视频的关键时间点；该第一图像帧是目标视频分片包含的图像帧中的任意图像帧(步骤43)。

上述图4所示的方案，通过预先训练好的机器学习模型对视频进行分类，并检测第一对象和第二对象在指定镜头类型对应的视频分片的图像帧中的位置，再根据图像帧中的第一对象和第二对象的位置关系，识别图像帧对应的时间点是否可以用于确定视频的关键时间点，由于机器学习模型在图像分类和物体检测领域具有较强的适应性，因此，本方案能够较为准确的完成对视频中的关键时间点的识别，从而提高识别的准确性。

本申请可以利用机器学***滑处理，以提高关键时间点的识别准确性。

具体比如，针对体育视频的特殊性，在第一阶段，利用CNN模型提取不同镜头类型下的场景特征，对视频中的图像帧进行分类。为了提高分类准确性，分类完成后还可以在时域上进行滤波，保证视频分片的平滑性。在第二阶段，结合第一阶段的分类结果在有效分片(即指定镜头类型对应的视频分片)上进行物体检测(例如篮球比赛视频中的篮球)，捕捉关键时间点信息(比如投篮)，进一步的，为了提高关键时间点的识别准确性，在检测完成后，还可以在时域上进行滤波，去除突变的误检，然后，采用跟踪算法填补漏检帧，降低关键镜头的漏检率。本申请将机器学习中的场景分类和物体检测技术相结合，运用在体育视频的关键时间点检测上，利用了体育视频的特殊性和机器学习技术对于视频分析的能力，对于提取体育视频中的关键时间点提供了很大的便利。

图5是根据一个示例性实施例示出的一种识别视频中的关键时间点的方法的流程图，该识别视频中的关键时间点的方法可以由计算机设备执行，比如上述图1所示的识别设备120。如图5所示，该识别视频中的关键时间点的方法可以包括如下步骤：

步骤501，将该视频中的各个图像帧输入该图像分类模型，获得该图像分类模型输出的模型分类结果，该模型分类结果用于指示该视频中的各个图像帧各自所属的镜头类型。

其中，该图像分类模型是根据第一图像帧样本训练获得的机器学习模型，该第一图像帧样本是标注有镜头类型的图像帧。

在本申请实施例中，图像分类模型可以对输入的视频中的各个图像帧逐帧进行分类，即对每个输入的图像帧进行特征提取并计算该图像帧属于各个镜头类型的概率，并将概率最大值对应的镜头类型确定为该图像帧所属的镜头类型。

步骤502，对该模型分类结果指示的该视频中的各个图像帧各自所属的镜头类型进行平滑修正。

可选的，在本申请实施例中，识别设备可以获取第一图像组的类别众数和第二图像组的类别众数，该类别众数指示图像组中对应图像帧数最多的镜头类型；该第一图像组是第二图像帧的前r帧图像帧，该第二图像组是该第二图像帧的后r帧图像帧，该第二图像帧是该视频中除了前r帧和末尾r帧之外的任意图像帧，r是大于或者等于1的整数；当该第一图像组的类别众数和该第二图像组的类别众数分别指示的镜头类型相同时，识别设备将该第二图像帧所属的镜头类型设置为该第一图像组的类别众数所指示的镜头类型。

比如，以上述视频为体育视频为例，在模型训练设备训练得到分类网络(即上述图像分类模型)后，识别设备将体育视频逐帧通过分类网络进行分类，得到整个体育视频的镜头类型序列。由于体育比赛的每个场景有一定的持续时间，并且在持续时间内是平滑的，因此，在本申请实施例中，可以在时域上使用半径为r的滤波器f进行滤波，剔除由于误分类导致的时域上的突变帧。具体的滤波方式如下：

对于体育视频中的第t帧，统计第t-r帧到第t-1帧的类别众数和第t+1帧到第t+r帧的类别众数，如果两个众数为同一镜头类型C，则将第t帧归为镜头类型C，否则保持第t帧的镜头类型不变。

在一种可能的示例中，在获取第一图像组或者第二图像组的类别众数时，若第一图像组或者第二图像组中对应图像帧数最多的镜头类型有两种或者两种以上，则不对第二图像帧的镜头类型进行修正。

比如，以r为10为例，假设第一图像组的10个图像帧中，对应第一镜头类型和对应第二镜头类型的图像帧的数量都为4，即第一图像组中对应图像帧数最多的镜头类型有两种，此时，识别设备可以不对第二图像帧的镜头类型进行修正，即保持第二图像帧的镜头类型为模型分类结果指示的镜头类型。

可选的，上述步骤中对各个图像帧所属的镜头类型进行平滑修正时，可以从视频的第r+1个图像帧开始，从前到后对视频中的各个图像帧的镜头类型进行平滑修正，或者，也可以从视频的倒数第r+1个图像帧开始，从后到前对视频中的各个图像帧的镜头类型进行平滑修正，本申请实施例对于识别设备对视频中的各个图像帧进行平滑修正的顺序不做限定。

其中，上述方案中的第二图像帧是视频中的第r+1个图像帧到视频的倒数第 r+1个图像帧之间的任意图像帧，而对于视频中的前r帧和末尾r帧所属的镜头类型可以不做平滑修正，即视频中的前r帧和末尾r帧所属的镜头类型保持为图像分类模型识别出的镜头类型。

或者，在另一种可能的示例中，对于视频中的第1个图像帧和最后1个图像帧的所属的镜头类型不做平滑修正，而对于视频的前r帧中的第p个图像帧(其中，2≤p≤r，p为整数)，识别设备可以获取第p个图像帧的前p-1个图像帧组成的图像组的类别众数(即前p-1个图像帧中对应图像帧数最多的镜头类型)，并获取第p个图像帧的后r个图像帧(即第p+1个图像帧到第p+r个图像帧)组成的图像组的类别众数(即第p个图像帧的后r个图像帧中对应图像帧数最多的镜头类型)，当上述前p-1个图像帧组成的图像组的类别众数与上述第p个图像帧的后r个图像帧组成的图像组的类别众数分别指示的镜头类型相同时，将第p 个图像帧所属的镜头类型设置为上述前p-1个图像帧组成的图像组的类别众数所指示的镜头类型。

比如，假设r为10，识别设备保持视频中的第1帧的镜头类型不变，当p 为5时，识别设备将第1至4帧中对应图像帧最多的镜头类型，与第6至15帧中对应图像帧最多的镜头类型进行比较，当两者一致时，将第5帧的镜头类型设置为第1至4帧中对应图像帧最多的镜头类型。

而对于视频的后r帧中的倒数第q个图像帧(其中，2≤q≤r，q为整数)，识别设备可以获取倒数第q个图像帧的后q-1个图像帧组成的图像组的类别众数，并获取倒数第q个图像帧的前r个图像帧(即倒数第q+1个图像帧到倒数第 q+r个图像帧)组成的图像组的类别众数，当上述后q-1个图像帧组成的图像组的类别众数与上述倒数第q个图像帧的前r个图像帧组成的图像组的类别众数分别指示的镜头类型相同时，将倒数第q个图像帧所属的镜头类型设置为上述后 q-1个图像帧组成的图像组的类别众数所指示的镜头类型。

步骤503，根据平滑修正后的该视频中的各个图像帧各自所属的镜头类型，将该视频划分为至少一个视频分片。

可选的，识别设备可以根据平滑修正后的该视频中的各个图像帧各自所属的镜头类型，将该视频划分为至少一个临时视频分片；每个该临时视频分片中包含的图像帧所属的镜头类型相同，且相邻的两个该临时视频分片中包含的图像帧所属的镜头类型不同；当目标临时视频分片中包含的图像帧的数量小于预设数量阈值时，识别设备将该目标临时视频分片中的各个图像帧所属的镜头类型，修改为该目标临时视频分片的前一个临时视频分片中的各个图像帧所属的镜头类型，并将该目标临时视频分片合并至该目标临时视频分片的前一个临时视频分片；该目标临时视频分片是该至少一个临时视频分片中除了第一个临时视频分片之外的任意临时视频分片；识别设备将合并后剩余的临时视频分片作为上述至少一个视频分片。

可选的，当上述目标临时视频分片中包含的图像帧的数量不小于预设数量阈值时，识别设备对该目标临时视频分片中的图像帧的镜头类型不做修改。

比如，还是以上述视频为体育视频为例，上述滤波完成后，考虑到视频的分段的连续性，可以考虑排除掉一些存在时间很短的视频分片。具体的，可以在识别设备中设定阈值T，并按照各个视频分片的时间顺序，逐一判断各个视频分片的长度(即图像帧数)，对于长度小于T的视频分片，识别设备将该视频分片的镜头类型修改为前一个视频分片对应的镜头类型，以将该存在时长较短的视频分片与前一个视频分片进行合并，而对于长度不小于T的视频分片，则识别设备对该视频分片对应的镜头类型不做修改。

比如，假设识别设备根据平滑修正后的视频中的各个图像帧各自所属的镜头类型，将视频划分为5个临时视频分片，分别为临时视频分片1、临时视频分片2、临时视频分片3、临时视频分片4以及临时视频分片5，识别设备首先判断出临时视频分片2中的图像帧的数量小于预设数量阈值(假设为100)，则将临时视频分片2中的各个图像帧所属的镜头类型，修改为临时视频分片1中的各个图像帧所属的镜头类型，以将临时视频分片2并入临时视频分片1，获得临时视频分片1’，此时，该视频的各个临时视频分片为临时视频分片1’、临时视频分片3、临时视频分片4以及临时视频分片5。之后，识别设备再次判断临时视频分片3中的图像帧的数量小于100，则将临时视频分片3中的各个图像帧所属的镜头类型，修改为临时视频分片1’中的各个图像帧所属的镜头类型，以将临时视频分片3并入临时视频分片1’，获得临时视频分片1”，此时，该视频的各个临时视频分片为临时视频分片1”、临时视频分片4以及临时视频分片5。之后，识别设备判断出临时视频分片4和临时视频分片5中的图像帧的数量都不小于100，则保持临时视频分片4和临时视频分片5中的图像帧的镜头类型不变，最终合并后剩余的临时视频分片为临时视频分片1”、临时视频分片4以及临时视频分片5。

可选的，上述步骤中对各个临时视频分片进行合并操作时，可以从视频的第2个临时视频分片开始，从前到后对视频的各个临时视频分片进行合并判断，或者，也可以从视频的最后1个临时视频分片开始，从后到前对视频中的各个临时视频分片进行合并判断，本申请实施例对于识别设备对视频的各个临时视频分片进行合并判断的顺序不做限定。比如，以上述将视频划分为5个临时视频分片，分别为临时视频分片1、临时视频分片2、临时视频分片3、临时视频分片4以及临时视频分片5为例，识别设备可以首先判断临时视频分片4中的图像帧的数量是否小于预设数量阈值，然后再判断临时视频分片3中的图像帧的数量是否小于预设数量阈值，以此类推。

通过上述时域滤波和分片合并操作，一方面可以矫正部分错分类的帧，另一方面可以保证整个视频的分片的平滑性。

步骤504，将目标视频分片中的各个图像帧输入该图像检测模型，获得该图像检测模型输出的模型检测结果，该模型检测结果用于指示第一对象和第二对象分别在该目标视频分片包含的图像帧中的临时位置。

以上述视频是体育视频为例，在体育视频中，通常只有远景、近景以及特写等镜头中才会出现精彩镜头。因此，在本申请实施例中，上述目标视频分片可以是对应镜头类型为远景镜头、近景镜头以及特写镜头等指定镜头类型的视频分片。识别设备在对视频进行分片后，只对其中对应指定镜头类型的目标视频分片进行对象检测处理，而对于对应指定镜头类型之外的其它视频分片则不需要进行对象检测，避免不必要的检测步骤，从而提高关键时间点的识别效率。

在本申请实施例中，图像检测模型可以对输入的目标视频分片中的各个图像帧逐帧进行对象检测，即对每个输入的图像帧进行特征提取并计算目标对象 (即上述第一对象和第二对象中的任意一种)在该图像帧中的各个位置的概率，并将概率最大值对应的位置确定为目标对象在该图像帧中的位置。

步骤505，对第一对象和第二对象分别在该目标视频分片包含的图像帧中的临时位置进行平滑修正，获得该第一对象和该第二对象分别在该目标视频分片包含的图像帧中的位置。

可选的，识别设备获取目标对象在第三图像组和第四图像组的图像帧中的临时位置，该目标对象是该第一对象和该第二对象中的任意对象，该第三图像组是第三图像帧的前w帧图像帧，该第四图像组是该第三图像帧的后w帧图像帧，该第三图像帧是该目标视频分片中除了前w帧和末尾w帧之外的任意图像帧，w是大于或者等于1的整数；识别设备获取平均位置，该平均位置是该目标对象在该第三图像组和该第四图像组的图像帧中的临时位置的平均值；识别设备根据该平均位置，对该目标对象在该第三图像帧中的临时位置进行修正。

比如，假设目标视频分片中包含1000个图像帧，w的数值为5，则对于目标视频分片中的第6至995个图像帧中的第j个图像帧，识别设备可以获取目标对象在第j-5至j-1个图像帧，以及第j+1至j+5个图像帧中的平均位置，根据获取到的平均位置对目标对象在该第j个图像帧中的临时位置进行修正。

可选的，在根据该平均位置，对该目标对象在该第三图像帧中的临时位置进行修正时，识别设备可以获取该目标对象在该第三图像帧中的临时位置相对于该平均位置的偏移量；当该偏移量大于偏移量阈值时，将该目标对象在该第三图像帧中的临时位置修正为该平均位置。反之，当该偏移量不大于偏移量阈值时，识别设备可以不对目标对象在该第三图像帧中的临时位置进行修正。

在另一种可能的实现方式中，在根据该平均位置，对该目标对象在该第三图像帧中的临时位置进行修正时，识别设备可以将该目标对象在该第三图像帧中的临时位置，与上述平均位置再取平均值，并将该目标对象在该第三图像帧中的临时位置修正为再次获取的该平均值。

可选的，在对该第一对象和该第二对象分别在该目标视频分片包含的图像帧中的临时位置进行平滑修正之前，识别设备还可以获取第四图像帧对应的模版图像，该第四图像帧是该目标视频分片包含的图像帧中，该图像检测模型未检测到该目标对象的图像帧；该模版图像是第五图像帧中对应在该目标对象的临时位置处的图像；该第五图像帧是该目标视频分片包含的图像帧中，该第四图像帧的前一个被该图像检测模型检测到该目标对象的图像帧，和/或，该第五图像帧是该目标视频分片包含的图像帧中，该第四图像帧的后一个被该图像检测模型检测到该目标对象的图像帧；通过该模版图像在该第四图像帧中进行模版匹配，获得该目标对象在该第四图像帧中的临时位置。

在实际应用中，图像检测模型可能出现漏检测的情况，即某一个图像帧中存在目标对象，但是图像检测模型未能成功检测出该目标对象的位置，因此，在本申请实施例中，在对各个图像帧中的目标对象的临时位置进行平滑修正之前，可以首先通过模版匹配的方式补全目标对象在漏检的图像帧中的位置。具体比如，对于某一个未检测到目标对象的当前图像帧，识别设备可以使用该当前图像帧的前一个被检测出目标对象的图像帧中，目标对象所在的位置对应的图像作为模板，并通过该模板在当前图像帧中进行模版匹配，获得当前图像帧中的各个位置的图像与该模板匹配度最高的位置，当该匹配度最高的位置对应的匹配度高于预设匹配度阈值时，识别设备可以将该匹配度最高的位置确定为目标对象在当前图像帧中的位置。

为了避免误匹配，在本申请实施例中，识别设备使用模版图像在当前图像帧中进行模版匹配时，可以仅在目标位置周围预设范围内进行模版匹配，其中，该目标位置可以是模版图像在当前图像帧的前一个被检测出目标对象的图像帧中的临时位置。

当存在图像检测模型未能成功检测出目标对象位置的至少两个连续图像帧时，识别设备可以先对该至少两个连续图像帧中的第一个图像帧进行模版匹配，并将匹配获得的位置处的图像作为新的模板图像，并通过新的模板图像，在第二个图像帧中进行模版匹配，以此类推。

此外，上述方案仅以使用该当前图像帧的前一个被检测出目标对象的图像帧中，目标对象所在的位置对应的图像作为模板(即顺序匹配)进行举例说明，在实际应用中，也可以使用当前图像帧的后一个被检测出目标对象的图像帧中，目标对象所在的位置对应的图像作为模板(即逆序匹配)。相应的，当存在图像检测模型未能成功检测出目标对象位置的至少两个连续图像帧时，识别设备可以先对该至少两个连续图像帧中的最后一个图像帧进行模版匹配，并将匹配获得的位置处的图像作为新的模板图像，并通过新的模板图像，在倒数第二个图像帧中进行模版匹配，以此类推。

进一步的，识别设备还将顺序匹配和逆序匹配的匹配结果相结合。比如，对于上述当前图像帧，识别设备通过顺序匹配获得目标对象在当前图像帧中的第一位置，并通过逆序匹配获得目标对象在当前图像帧中的第二位置，再对该第一位置和第二位置取平均值，获得目标对象在该当前图像帧中的临时位置。或者，也可以将第一位置和第二位置中，对应匹配度高的位置作为临时位置。

以篮球或足球比赛视频为例，通过本申请所示的方案可以通过追踪篮球和篮筐的位置可以捕捉到投篮的关键镜头，或者，通过追踪足球和球门的位置可以捕捉到射门的关键镜头。

考虑到球在视频中像素面积较小，本申请实施例可以采用Faster-RCNN进行球类检测。以篮球比赛视频为例，通过标注一定量的不同场景下的篮球和篮筐的样本，使用Faster-RCNN模型进行训练，得到初步检测的结果。在训练过程中，可以按照一个场景中只有一个篮球的原则，以及篮球在不同镜头中的大小存在一定的规律(例如在远景中篮球较小)，通过控制Faster-RCNN中最大最小检测框的大小来排除更多的错检测位置。

测试过程中，可以利用上述步骤501至步骤503的分类结果，排除掉一些不存在关键镜头的视频分片(例如插播广告，观众特写等)，仅在有可能存在关键镜头的视频分片中进行检测。

考虑到在某一个连续片段中短时间内物***置的连续性，本申请可以采用时域上的滤波修正一些位置有很大偏移的图像帧，保证物***置变化的连续性。具体例如，对于有n帧的连续片段，以每一帧检测到篮球的框的中心像素坐标作为篮球的位置，记为C_i,i＝1,2...,n。对于某一帧篮球的位置C_k，设λ为上述偏移量阈值，如果：

则可以认为该帧的篮球位置存在问题，对该帧的篮球位置调整为：

由于检测的结果中存在一部分的漏检，某些帧检测结果的缺失可能对关键镜头的捕捉造成影响，因此，本申请还可以采用跟踪算法对于漏检帧进行补充。考虑到球在运动中存在不规则的形变，采用边缘或者HOG特征都无法取得较好的跟踪的效果，因此采用RGB空间的模版匹配法进行球类跟踪。对于检测缺失的第t帧，如果第t-1帧检测结果存在，则使用第t-1帧中被检测出的物体图像作为模版，在第t帧中，对应第t-1帧中的物***置的邻域内进行模版匹配，记录下匹配度大于阈值的位置，选取匹配度最大的位置作为最终匹配结果。对于有n帧的连续片段P＝(p₁,p₂,...,p_n)，按照时间正向顺序进行一次模版匹配(对于第t帧，以第t-1帧作为模版)，再按照时间反向顺序进行一次追踪(对于第t帧，以第t+1帧作为模版)，对于每一个漏检帧，选取正向追踪和反向追踪中匹配度更高的结果作为追踪结果。

在上述方案中，识别设备首先对图像检测模型未检测出的目标对象的图像帧进行模版匹配，然后再对各个图像帧中的目标对象的位置进行平滑修正。在另一种可能的实现方式中，识别设备还可以先对各个图像帧中的目标对象的位置进行平滑修正，然后再对图像检测模型未检测出的目标对象的图像帧进行模版匹配。

步骤506，当第一图像帧中的第一对象的位置和第二对象的位置之间满足预设条件时，根据该第一图像帧在该视频中的时间点确定该视频的关键时间点；该第一图像帧是该目标视频分片包含的图像帧中的任意图像帧。

可选的，当第一图像帧中的第一对象的位置和第二对象的位置之间满足预设条件时，识别设备将第一图像帧在视频中的时间点确定为视频的关键时间点。

可选的，当第一图像帧中的该第一对象的位置和该第二对象的位置之间的距离小于距离阈值时，识别设备可以根据该第一图像帧在该视频中的时间点确定该视频的关键时间点。

比如，假设第一图像帧在视频中的时间点为0:25:38(即播放时间中的第25 分38秒)，且第一图像帧中的第一对象的位置和第二对象的位置之间的距离小于距离阈值，此时，识别设备可以将0:25:38确定为视频中的关键时间点。

获得关键物体的运动轨迹，能够对关键镜头的捕捉提供很大的方便。以篮球比赛中的投篮为例，可以通过篮球和篮筐的位置关系来确定是否有投篮镜头的产生。比如，输入一段篮球视频，在每一个分片上，检测到第i帧中的篮球的位置B_i和篮筐的位置S_i，设定阈值为k，当满足：|B_i-S_i|<k，即认为有投篮事件的产生，即该第i帧在视频中的时间点附近存在关键镜头，此时，可以将第i帧在视频中的时间点识别为关键时间点。

如图6所示，其示出了本申请实施例涉及的关键时间点识别***的框架图。如图6所示，输入一段体育视频后，首先将视频进行分片，对于视频中每一帧图像，利用已经训练好的图像分类模型进行镜头类型的分类。分类完成之后，由于可能存在极少数错分类的帧，考虑到体育视频在每个特定的场景下都有一定的持续时间，本申请采用时域上的滤波(对应上述步骤502所示的平滑修正)，并将存在帧数小于某一阈值的镜头类型修正为与其相邻的帧数大于阈值的镜头类型。经过时域的滤波之后，视频按照镜头类型被分为多个分片。分片本身可以作为有用的信息进行输出，也可以作为后续检测的输入信息。对于球类运动，可以判断获得的分片是否为有用分片(即上述目标视频分片，比如远景镜头对应的分片)上利用训练完成的图像检测模型进行关键物体的检测(如篮球比赛中的篮球和篮筐，足球比赛中的足球和球门等)。在每个连续的分片上，关键物体的位置可以认为是连续的(不存在跳变)，因此在每个连续的分片上，对于有跳变的错检位置，利用前后帧的位置信息进行修正。对于有漏检的帧，在相邻帧检测到的物***置的邻域内进行模版匹配追踪。得到关键物体的位置信息后，本申请可以利用该信息去判断是否有精彩镜头的出现(如进球)，若存在精彩镜头，则将精彩镜头所在的图像帧在视频中的时间点输出。

近些年来，深度学习等机器学习算法在图像分类以及物体检测方面已经展现出强大的能力。以篮球比赛视频为例，本申请在采用篮球和篮筐位置关系来判断投篮镜头的策略下，利用CNN对比赛视频进行分片处理，剔除掉不需要提取篮球的分片后，在剩余的分片上利用Faster-RCNN检测篮球和篮筐的位置。考虑到每个分片在时域上的连续性，利用时域的滤波排除掉有较大位置跳变的错检帧数。最后利用模版匹配的跟踪方法填补漏检帧，进而通过篮筐和篮球的位置关系判断投篮点。本申请提出的方法具有很好的鲁棒性，对于复杂比赛场景和镜头的移动都能达到很高准确率和召回率。具体的，在体育视频分析上，本申请的内容可以包括以下两点：

1、利用机器学习算法对体育比赛视频进行分片，对不同场景镜头的分片单独处理，大大提升了后续关键镜头判断的准确率。

2、利用机器学习算法的物体检测技术结合跟踪算法来检测出视频中的关键物体，在每个单独的分片上利用时域滤波排除掉错检帧，能够大幅提高后续关键镜头判断的检测准确率和召回率。

需要说明的是，上述方案仅以篮球或足球比赛视频为例进行说明，在实际应用中，本申请实施例所示的方案也可以应用在其他可以通过至少两个关键对象之间的位置判断是否存在关键镜头的体育比赛视频或者非体育比赛视频中。

通过上述方案，体育视频的分片和关键镜头的提取对于后续的视频剪辑能够提供很大的便利，视频剪辑人员可以更加方便的提取关键镜头制作集锦。同时，对于用户侧来说，通过本申请的方案，能够给用户提供跳过或选择某些场景或者镜头的选择，提升用户观看体育比赛视频的体验。

综上所述，本申请实施例所示的方案通过预先训练好的机器学习模型对视频进行分类，并检测第一对象和第二对象在指定镜头类型对应的视频分片的图像帧中的位置，再根据图像帧中的第一对象和第二对象的位置关系，识别图像帧对应的时间点是否可以用于确定视频的关键时间点，由于机器学习模型在图像分类和物体检测领域具有较强的适应性，因此，本方案能够比较准确的完成对视频中的关键时间点的识别，从而提高识别的准确性。

图7是根据一个示例性实施例示出的一种识别视频中的关键时间点的装置的结构方框图。该识别视频中的关键时间点的装置可以用于计算机设备中，以执行图4或图5所示实施例中的全部或者部分步骤。该识别视频中的关键时间点的装置可以包括：

第一处理模块701，用于通过图像分类模型对视频中的各个图像帧进行处理，获得至少一个视频分片；所述图像分类模型是根据第一图像帧样本训练获得的机器学习模型，所述第一图像帧样本是标注有镜头类型的图像帧；每个所述视频分片包含所述视频中相邻的至少两个图像帧，且每个所述视频分片对应一种镜头类型；

第二处理模块702，用于通过图像检测模型对目标视频分片进行处理，获得第一对象和第二对象分别在所述目标视频分片包含的图像帧中的位置；所述图像检测模型是根据第二图像帧样本训练获得的机器学习模型，所述第二图像帧样本是标注有所述第一对象的位置和所述第二对象的位置的图像帧；所述目标视频分片是所述至少一个视频分片中，对应指定镜头类型的视频分片；

确定模块703，用于当第一图像帧中的所述第一对象的位置和所述第二对象的位置之间满足预设条件时，根据所述第一图像帧在所述视频中的时间点确定所述视频的关键时间点；所述第一图像帧是所述目标视频分片包含的图像帧中的任意图像帧。

可选的，所述第一处理模块701，具体用于，

将所述视频中的各个图像帧输入所述图像分类模型，获得所述图像分类模型输出的模型分类结果，所述模型分类结果用于指示所述视频中的各个图像帧各自所属的镜头类型；

对所述模型分类结果指示的所述视频中的各个图像帧各自所属的镜头类型进行平滑修正；

根据平滑修正后的所述视频中的各个图像帧各自所属的镜头类型，将所述视频划分为所述至少一个视频分片。

可选的，在对所述模型分类结果指示的所述视频中的各个图像帧各自所属的镜头类型进行平滑修正时，所述第一处理模块701，具体用于，

获取第一图像组的类别众数和第二图像组的类别众数，所述类别众数指示图像组中对应图像帧数最多的镜头类型；所述第一图像组是第二图像帧的前r 帧图像帧，所述第二图像组是所述第二图像帧的后r帧图像帧，所述第二图像帧是所述视频中除了前r帧和末尾r帧之外的任意图像帧，r是大于或者等于1的整数；

当所述第一图像组的类别众数和所述第二图像组的类别众数分别指示的镜头类型相同时，将所述第二图像帧所属的镜头类型设置为所述第一图像组的类别众数所指示的镜头类型。

可选的，在根据平滑修正后的所述视频中的各个图像帧各自所属的镜头类型，将所述视频划分为所述至少一个视频分片时，所述第一处理模块701，具体用于，

根据平滑修正后的所述视频中的各个图像帧各自所属的镜头类型，将所述视频划分为至少一个临时视频分片；每个所述临时视频分片中包含的图像帧所属的镜头类型相同，且相邻的两个所述临时视频分片中包含的图像帧所属的镜头类型不同；

当目标临时视频分片中包含的图像帧的数量小于预设数量阈值时，将所述目标临时视频分片中的各个图像帧所属的镜头类型，修改为所述目标临时视频分片的前一个临时视频分片中的各个图像帧所属的镜头类型，并将所述目标临时视频分片合并至所述目标临时视频分片的前一个临时视频分片；所述目标临时视频分片是所述至少一个临时视频分片中除了第一个临时视频分片之外的任意临时视频分片；

将合并后剩余的各个临时视频分片作为所述至少一个视频分片。

可选的，所述第二处理模块702，具体用于，

将所述目标视频分片中的各个图像帧输入所述图像检测模型，获得所述图像检测模型输出的模型检测结果，所述模型检测结果用于指示所述第一对象和所述第二对象分别在所述目标视频分片包含的图像帧中的临时位置；

对所述第一对象和所述第二对象分别在所述目标视频分片包含的图像帧中的临时位置进行平滑修正，获得所述第一对象和所述第二对象分别在所述目标视频分片包含的图像帧中的位置。

可选的，在对所述第一对象和所述第二对象分别在所述目标视频分片包含的图像帧中的临时位置进行平滑修正时，所述第二处理模块702，具体用于，

获取目标对象在第三图像组和第四图像组的图像帧中的临时位置，所述目标对象是所述第一对象和所述第二对象中的任意对象，所述第三图像组是第三图像帧的前w帧图像帧，所述第四图像组是所述第三图像帧的后w帧图像帧，所述第三图像帧是所述目标视频分片中除了前w帧和末尾w帧之外的任意图像帧，w是大于或者等于1的整数；

获取平均位置，所述平均位置是所述目标对象在所述第三图像组和所述第四图像组的图像帧中的临时位置的平均值；

根据所述平均位置，对所述目标对象在所述第三图像帧中的临时位置进行修正。

可选的，在根据所述平均位置，对所述目标对象在所述第三图像帧中的临时位置进行修正时，所述第二处理模块702，具体用于，

获取所述目标对象在所述第三图像帧中的临时位置相对于所述平均位置的偏移量；

当所述偏移量大于偏移量阈值时，将所述目标对象在所述第三图像帧中的临时位置修正为所述平均位置。

可选的，所述第二处理模块702，还用于在对所述第一对象和所述第二对象分别在所述目标视频分片包含的图像帧中的临时位置进行平滑修正之前，获取第四图像帧对应的模版图像，所述第四图像帧是所述目标视频分片包含的图像帧中，所述图像检测模型未检测到所述目标对象的图像帧；所述模版图像是第五图像帧中对应在所述目标对象的临时位置处的图像；所述第五图像帧是所述目标视频分片包含的图像帧中，所述第四图像帧的前一个被所述图像检测模型检测到所述目标对象的图像帧，和/或，所述第五图像帧是所述目标视频分片包含的图像帧中，所述第四图像帧的后一个被所述图像检测模型检测到所述目标对象的图像帧；

通过所述模版图像在所述第四图像帧中进行模版匹配，获得所述目标对象在所述第四图像帧中的临时位置。

可选的，所述确定模块703，具体用于当第一图像帧中的所述第一对象的位置和所述第二对象的位置之间的距离小于距离阈值时，根据所述第一图像帧在所述视频中的时间点确定所述视频的关键时间点。

可选的，所述确定模块703，具体用于当第一图像帧中的所述第一对象的位置和所述第二对象的位置之间满足预设条件时，将所述第一图像帧在所述视频中的时间点确定为所述视频的关键时间点。

可选的，所述镜头类型包括远景镜头、近景镜头、特写镜头、观众镜头以及广告镜头中的至少一种。

其中，上述各个模块的功能可以参考图4或图5所示实施例中的各个步骤的描述，此处不再赘述。

图8是根据一个示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备800包括中央处理单元(CPU)801、包括随机存取存储器(RAM) 802和只读存储器(ROM)803的***存储器804，以及连接***存储器804和中央处理单元801的***总线805。所述计算机设备800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)806，和用于存储操作***813、应用程序814和其他程序模块815的大容量存储设备807。

所述基本输入/输出***806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到***总线805的输入输出控制器810连接到中央处理单元 801。所述基本输入/输出***806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备807通过连接到***总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说，所述大容量存储设备807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器804和大容量存储设备807可以统称为存储器。

计算机设备800可以通过连接在所述***总线805上的网络接口单元811 连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器801通过执行该一个或一个以上程序来实现图4 或图5所示的方法的全部或者部分步骤。

在一个示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法的全部或者部分步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器 (RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种识别视频中的关键时间点的方法，其特征在于，所述方法包括：

通过图像分类模型对视频中的各个图像帧进行处理，并根据处理后所述视频中各个图像帧各自所属的镜头类型将所述视频划分为至少一个视频分片；所述图像分类模型是根据第一图像帧样本训练获得的机器学习模型，所述第一图像帧样本是标注有镜头类型的图像帧；每个所述视频分片包含所述视频中相邻的至少两个图像帧，且每个所述视频分片对应一种镜头类型；

2.根据权利要求1所述的方法，其特征在于，所述通过图像分类模型对视频中的各个图像帧进行处理，并根据处理后所述视频中各个图像帧各自所属的镜头类型将所述视频划分为至少一个视频分片，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述模型分类结果指示的所述视频中的各个图像帧各自所属的镜头类型进行平滑修正，包括：

获取第一图像组的类别众数和第二图像组的类别众数，所述类别众数指示图像组中对应图像帧数最多的镜头类型；所述第一图像组是第二图像帧的前r帧图像帧，所述第二图像组是所述第二图像帧的后r帧图像帧，所述第二图像帧是所述视频中除了前r帧和末尾r帧之外的任意图像帧，r是大于或者等于1的整数；

4.根据权利要求2所述的方法，其特征在于，所述根据平滑修正后的所述视频中的各个图像帧各自所属的镜头类型，将所述视频划分为所述至少一个视频分片，包括：

5.根据权利要求1所述的方法，其特征在于，通过图像检测模型对目标视频分片进行处理，获得第一对象和第二对象分别在所述目标视频分片包含的图像帧中的位置，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述第一对象和所述第二对象分别在所述目标视频分片包含的图像帧中的临时位置进行平滑修正，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述平均位置，对所述目标对象在所述第三图像帧中的临时位置进行修正，包括：

8.根据权利要求6所述的方法，其特征在于，在对所述第一对象和所述第二对象分别在所述目标视频分片包含的图像帧中的临时位置进行平滑修正之前，还包括：

获取第四图像帧对应的模版图像，所述第四图像帧是所述目标视频分片包含的图像帧中，所述图像检测模型未检测到所述目标对象的图像帧；所述模版图像是第五图像帧中对应在所述目标对象的临时位置处的图像；所述第五图像帧是所述目标视频分片包含的图像帧中，所述第四图像帧的前一个被所述图像检测模型检测到所述目标对象的图像帧，和/或，所述第五图像帧是所述目标视频分片包含的图像帧中，所述第四图像帧的后一个被所述图像检测模型检测到所述目标对象的图像帧；

9.根据权利要求1所述的方法，其特征在于，所述当第一图像帧中的所述第一对象的位置和所述第二对象的位置之间满足预设条件时，根据所述第一图像帧在所述视频中的时间点确定所述视频的关键时间点，包括：

当第一图像帧中的所述第一对象的位置和所述第二对象的位置之间的距离小于距离阈值时，根据所述第一图像帧在所述视频中的时间点确定所述视频的关键时间点。

10.根据权利要求1所述的方法，其特征在于，所述当第一图像帧中的所述第一对象的位置和所述第二对象的位置之间满足预设条件时，根据所述第一图像帧在所述视频中的时间点确定所述视频的关键时间点，包括：

当第一图像帧中的所述第一对象的位置和所述第二对象的位置之间满足预设条件时，将所述第一图像帧在所述视频中的时间点确定为所述视频的关键时间点。

11.一种识别视频中的关键时间点的装置，其特征在于，所述装置包括：

第一处理模块，用于通过图像分类模型对视频中的各个图像帧进行处理，并根据处理后所述视频中各个图像帧各自所属的镜头类型将所述视频划分为至少一个视频分片；所述图像分类模型是根据第一图像帧样本训练获得的机器学习模型，所述第一图像帧样本是标注有镜头类型的图像帧；每个所述视频分片包含所述视频中相邻的至少两个图像帧，且每个所述视频分片对应一种镜头类型；

12.根据权利要求11所述的装置，其特征在于，所述第一处理模块，具体用于，

13.根据权利要求11所述的装置，其特征在于，所述第一处理模块，具体用于，

14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的识别视频中的关键时间点的方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的识别视频中的关键时间点的方法。