CN110166827A

CN110166827A - 视频片段的确定方法、装置、存储介质及电子装置

Info

Publication number: CN110166827A
Application number: CN201811427035.8A
Authority: CN
Inventors: 黄超; 周大军; 张力柯; 荆彦青
Original assignee: Shenzhen Tencent Information Technology Co Ltd
Current assignee: Shenzhen Tencent Information Technology Co Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2019-08-23
Anticipated expiration: 2038-11-27
Also published as: CN110166827B

Abstract

本发明公开了一种视频片段的确定方法、装置、存储介质及电子装置。其中，该方法包括：从视频资源中获取多个视频片段；获取所述多个视频片段中每个视频片段的第一特征和第二特征，其中，所述第一特征用于指示所述每个视频片段中所包括的对象的图像特征，所述第二特征用于指示所述每个视频片段中所包括的对象的运动特征；根据所述第一特征和所述第二特征，在所述多个视频片段中确定出目标视频片段，其中，所述目标视频片段为所述多个视频片段中所包括的对象具有目标图像特征和目标运动特征的视频片段。本发明解决了相关技术中从视频资源中确定满足条件的视频片段的效率较低的技术问题。

Description

视频片段的确定方法、装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频片段的确定方法、装置、存储介质及电子装置。

背景技术

将视频资源中精彩的部分或者观众可能更感兴趣的部分剪辑出来提供给用户，能够吸引更多的用户关注。目前剪辑视频资源的方式一般是通过工作人员从视频中将他认为精彩的部分剪辑到一个视频中，这种方式剪辑速度慢，浪费时间和精力的同时，剪辑的标准也很难掌握，全凭工作人员的认知来剪辑视频，无法准确掌握用户的需求，导致视频剪辑的效率很低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频片段的确定方法、装置、存储介质及电子装置，以至少解决相关技术中从视频资源中确定满足条件的视频片段的效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种视频片段的确定方法，包括：从视频资源中获取多个视频片段；获取所述多个视频片段中每个视频片段的第一特征和第二特征，其中，所述第一特征用于指示所述每个视频片段中所包括的对象的图像特征，所述第二特征用于指示所述每个视频片段中所包括的对象的运动特征；根据所述第一特征和所述第二特征，在所述多个视频片段中确定出目标视频片段，其中，所述目标视频片段为所述多个视频片段中所包括的对象具有目标图像特征和目标运动特征的视频片段。

根据本发明实施例的另一方面，还提供了一种视频片段的确定装置，包括：第一获取模块，用于从视频资源中获取多个视频片段；第二获取模块，用于获取所述多个视频片段中每个视频片段的第一特征和第二特征，其中，所述第一特征用于指示所述每个视频片段中所包括的对象的图像特征，所述第二特征用于指示所述每个视频片段中所包括的对象的运动特征；确定模块，用于根据所述第一特征和所述第二特征，在所述多个视频片段中确定出目标视频片段，其中，所述目标视频片段为所述多个视频片段中所包括的对象具有目标图像特征和目标运动特征的视频片段。

可选地，第一确定单元包括：第一输入子单元，用于将所述第一特征输入图像分类模型，得到所述每个视频片段对应的第一类别参数，其中，所述图像分类模型为使用标注有图像类别的第一特征样本对第一分类模型进行训练得到的模型，所述第一类别参数用于指示所述每个视频片段所属的图像类别；第二输入子单元，用于将所述第二特征输入运动分类模型，得到所述每个视频片段对应的第二类别参数，其中，所述运动分类模型为使用标注有运动类别的第二特征样本对第二分类模型进行训练得到的模型，所述第二类别参数用于指示所述每个视频片段所属的运动类别；第一确定子单元，用于将所述每个视频片段对应的所述第一类别参数和所述第二类别参数的加权和确定为所述每个视频片段的视频类别参数，其中，所述视频类别参数用于指示所述每个视频片段所属的视频类别。

可选地，第一确定单元包括：融合子单元，用于对所述每个视频片段的所述第一特征和所述第二特征进行特征融合，得到所述每个视频片段的时空特征；第三输入子单元，用于将所述每个视频片段的所述时空特征输入时空分类模型，得到所述每个视频片段对应的视频类别参数，其中，所述时空分类模型为使用标注有视频类别的时空特征样本对第三分类模型进行训练得到的模型，所述视频类别参数用于指示所述每个视频片段所属的视频类别。

可选地，第二确定单元包括：第一获取子单元，用于从所述多个视频片段中获取所述视频类别参数落入目标阈值范围的视频片段；第二确定子单元，用于将所述视频类别参数落入目标阈值范围的视频片段确定为所述目标视频片段。

可选地，第二获取模块包括：第一输入单元，用于将所述每个视频片段输入第一特征提取模型，得到所述每个视频片段的所述第一特征，其中，所述第一特征提取模型为使用第一特征样本对初始第一特征模型进行训练得到的模型；第二输入单元，用于将所述每个视频片段输入光流特征提取模型，得到所述每个视频片段的光流特征，其中，所述光流特征提取模型为使用光流特征样本对初始光流特征模型进行训练得到的模型，所述第二特征包括所述光流特征。

可选地，所述装置还包括：第三获取模块，用于获取初始图像卷积模型的RGB三通道对应的第一个卷积层参数的平均值，并将所述平均值确定为所述初始光流特征模型的第一个卷积层的初始化参数；调整模块，用于将初始光流特征样本的光流谱的数值范围调整为所述初始图像卷积模型的输入参数的数值范围，得到所述光流特征样本；训练模块，用于使用所述光流特征样本对所述初始光流特征模型进行训练，得到所述光流特征提取模型。

可选地，所述多个视频片段为所述视频资源中包括目标对象的视频片段，其中，第一获取模块包括：第一获取单元，用于获取所述目标对象对应的画面模板，其中，所述画面模板用于指示所述目标对象的属性信息；第二获取单元，用于从所述视频资源的视频帧中获取与所述画面模板的相似度高于目标相似度的目标视频帧；第三获取单元，用于从所述目标视频帧中获取所述多个视频片段，其中，所述多个视频片段中的每个视频片段中包括一个或者连续的多个所述目标视频帧。

可选地，第二获取单元包括：第二获取子单元，用于从所述视频资源的视频帧中获取第一视频帧，其中，所述第一视频帧的第一属性与所述目标对象的第一属性匹配；第三获取子单元，用于从所述第一视频帧中获取与所述画面模板的相似度高于所述目标相似度的第二视频帧作为所述目标视频帧。

可选地，第二获取单元包括：划分子单元，用于将所述视频资源的视频帧中的每个视频帧划分为前景画面和背景画面；第三确定子单元，用于分别确定所述每个视频帧的所述前景画面与前景模板之间的第一距离，以及所述每个视频帧的所述背景画面与背景模板之间的第二距离，其中，所述画面模板包括所述前景模板和所述背景模板；第四确定子单元，用于确定所述每个视频帧的所述第一距离与所述第二距离的加权和，其中，所述第一距离对应第一权重，所述第二距离对应第二权重，所述第一权重大于所述第二权重；第五确定子单元，用于将所述视频资源的视频帧中每个视频帧对应的所述加权和低于目标值的视频帧确定为所述目标视频帧。

可选地，所述目标视频片段为多个目标视频片段，其中，所述装置还包括：拼接模块，用于将所述多个目标视频片段按照时间顺序拼接为目标视频资源；发送模块，用于将所述目标视频资源发送至用于播放所述目标视频资源的客户端。

根据本发明实施例的另一方面，还提供了一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项中所述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。

在本发明实施例中，采用从视频资源中获取多个视频片段；获取所述多个视频片段中每个视频片段的第一特征和第二特征，其中，所述第一特征用于指示所述每个视频片段中所包括的对象的图像特征，所述第二特征用于指示所述每个视频片段中所包括的对象的运动特征；根据所述第一特征和所述第二特征，在所述多个视频片段中确定出目标视频片段，其中，所述目标视频片段为所述多个视频片段中所包括的对象具有目标图像特征和目标运动特征的视频片段的方式，通过对视频资源中的视频片段的用于指示图像特征的第一特征和用于指示运动特征的第二特征的提取，来根据第一特征和第二特征从多个视频片段中确定出满足目标图像特征和目标运动特征的视频片段，从而实现了视频片段的自动获取的同时充分考虑了目标视频片段在图像维度和运动维度上的特征，使得能够更加准确地确定满足条件的目标视频片段，从而实现了提高从视频资源中确定满足条件的视频片段的效率的技术效果，进而解决了相关技术中从视频资源中确定满足条件的视频片段的效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频片段的确定方法的示意图；

图2是根据本发明实施例的一种可选的视频片段的确定方法的应用环境示意图；

图3是根据本发明可选的实施方式的一种可选的视频片段的确定方法的示意图；

图4是根据本发明可选的实施方式的一种可选的TSN网络模型的示意图；

图5是根据本发明可选的实施方式的一种可选的Inception模型结构的示意图；

图6是根据本发明可选的实施方式的一种可选的卷积网络模型结构的示意图；

图7是根据本发明可选的实施方式的一种可选的视频片段自动剪辑方法的示意图；

图8是根据本发明可选的实施方式的一种可选的多个视频片段的获取方法的示意图；

图9是根据本发明可选的实施方式的另一种可选的多个视频片段的获取方法的示意图；

图10是根据本发明实施例的一种可选的视频片段的确定装置的示意图；

图11是根据本发明实施例的一种可选的视频片段的确定方法的应用场景示意图；以及

图12是根据本发明实施例的一种可选的电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种视频片段的确定方法，如图1所示，该方法包括：

S102，从视频资源中获取多个视频片段；

S104，获取多个视频片段中每个视频片段的第一特征和第二特征，其中，第一特征用于指示每个视频片段中所包括的对象的图像特征，第二特征用于指示每个视频片段中所包括的对象的运动特征；

S106，根据第一特征和第二特征，在多个视频片段中确定出目标视频片段，其中，目标视频片段为多个视频片段中所包括的对象具有目标图像特征和目标运动特征的视频片段。

可选地，在本实施例中，上述视频片段的确定方法可以应用于如图2所示的服务器202和客户端204所构成的硬件环境中。如图2所示，服务器202从视频资源中获取多个视频片段；获取多个视频片段中每个视频片段的第一特征和第二特征，其中，第一特征用于指示每个视频片段中所包括的对象的图像特征，第二特征用于指示每个视频片段中所包括的对象的运动特征；根据第一特征和第二特征，在多个视频片段中确定出目标视频片段，其中，目标视频片段为多个视频片段中所包括的对象具有目标图像特征和目标运动特征的视频片段。

可选地，在本实施例中，服务器202可以将得到的一个或者多个目标视频片段发送给客户端204，由客户端204显示接收到的一个或者多个目标视频片段。服务器202还可以在目标视频片段为多个目标视频片段的情况下，将多个目标视频片段拼接成一个目标视频资源，再将给目标视频资源发送给客户端204。客户端204将接收到的目标视频资源显示在屏幕上。

可选地，在本实施例中，上述视频片段的确定方法可以但不限于应用于视频剪辑的场景中。其中，上述客户端可以但不限于为各种类型的应用，例如，在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的，可以但不限于应用于在上述游戏应用中进行视频剪辑的场景中，或还可以但不限于应用于在上述多媒体应用中进行视频剪辑的场景中，以提高从视频资源中确定满足条件的视频片段的效率。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，上述视频片段的确定方法可以但不限于由服务器执行，或者也可以由客户端执行，或者还可以由服务器和客户端交互执行。

可选地，在本实施例中，视频资源可以但不限于包括视频网站、视频播放器中的视频资源，如：影视剧、动漫、综艺等等视频文件。还可以包括游戏直播、体育直播、直播应用等等的直播视频流，比如：体育赛事直播、游戏比赛直播、电视节目直播等等。或者，还可以包括客户端的使用过程中得到的视频，比如游戏视频等等。

可选地，在本实施例中，视频片段可以但不限于为上述视频资源中的符合一定条件的片段。如：影视剧、动漫、综艺等等视频文件中确定某演员或者歌手的表演片段。还可以包括直播视频流中的精彩镜头等等，比如：体育赛事直播中比赛精彩镜头的视频片段，或者某球星的进球片段集锦等等。或者还可以包括客户端使用过程中的精彩片段或者有用内容的片段等等，比如：游戏中的击杀片段、办公软件使用过程的教学片段等等。

可选地，在本实施例中，第一特征用于指示每个视频片段中所包括的对象的图像特征。比如：图像特征可以但不限于包括颜色特征、纹理特征、形状特征、对象间的空间关系特征等等。

可选地，在本实施例中，第二特征用于指示所述每个视频片段中所包括的对象的运动特征。比如：运动特征可以但不限于包括光流特征、用于表示对象的运动幅度的特征等等。

可选地，在本实施例中，目标图像特征和目标运动特征可以但不限于是根据对目标视频片段的需求确定的目标视频片段需要满足的条件。目标图像特征和目标运动特征可以但不限于通过配置获得，或者也可以通过人工智能网络对历史数据的分析自动生成。比如：以篮球球星进球集锦为例，可以将该球星的历史进球片段输入到人工智能算法中，由算法自动识别出目标图像特征可能包括该球星的面部特征、篮筐的特征、篮球的特征等等，目标运动特征可能包括该球星的动作幅度超过目标值、篮球进入篮筐等等。

可选地，在本实施例中，可以确定第一特征为目标图像特征的视频片段为具有目标图像特征的视频片段，第二特征为目标运动特征的视频片段为具有目标运动特征的视频片段。或者还可以确定第一特征与目标图像特征的相似度达到某值的视频片段为具有目标图像特征的视频片段，第二特征与目标运动特征的相似度达到某值的视频片段为具有目标图像特征的视频片段。需要说明的是，确定视频片段中所包括的对象是否具有目标图像特征和目标运动特征不限于此。

在一个可选的实施方式中，以枪战类游戏中淘汰敌人的精彩片段的确定过程为例，如图3所示，从游戏视频中获取多个视频片段(片段1、片段2、片段3)，可以是将该游戏视频划分为多个视频片段或者也可以是从游戏视频中提取出可能是精彩淘汰镜头的片段，获取多个视频片段中每个视频片段的第一特征和第二特征，比如：片段1对应特征1a和特征2a，片段2对应特征1b和特征2b，片段3对应特征1c和特征2c，根据上述第一特征和第二特征，确定特征1a、特征1b和特征1c与目标图像特征1的相似度均符合条件，确定多个视频片段均具有目标图像特征，但特征2a与目标运动特征2的相似度不满足条件，特征2b和特征2c与目标运动特征2的相似度满足条件，则在多个视频片段中确定出目标视频片段为片段2和片段3。

可见，通过上述步骤，通过对视频资源中的视频片段的用于指示图像特征的第一特征和用于指示运动特征的第二特征的提取，来根据第一特征和第二特征从多个视频片段中确定出满足目标图像特征和目标运动特征的视频片段，从而实现了视频片段的自动获取的同时充分考虑了目标视频片段在图像维度和运动维度上的特征，使得能够更加准确地确定满足条件的目标视频片段，从而实现了提高从视频资源中确定满足条件的视频片段的效率的技术效果，进而解决了相关技术中从视频资源中确定满足条件的视频片段的效率较低的技术问题。

作为一种可选的方案，根据第一特征和第二特征，在多个视频片段中确定出目标视频片段包括：

S1，根据第一特征和第二特征确定多个视频片段中每个视频片段的视频类别；

S2，将多个视频片段中视频类别为目标类别的视频片段确定为目标视频片段。

可选地，在本实施例中，在确定目标视频片段的过程中可以根据第一特征和第二特征对多个视频片段进行分类，再将属于目标类别的视频片段确定为目标视频片段。

可选地，在本实施例中，对多个视频片段进行分类的方式可以但不限于包括采用机器学习的方式，利用分类网络模型确定各个视频片段的类别。例如：利用分类网络将视频片段分为两类：精彩片段和普通片段，将其中属于精彩片段的视频片段确定为目标视频片段。

作为一种可选的方案，根据第一特征和第二特征确定多个视频片段中每个视频片段的视频类别包括：

S1，将第一特征输入图像分类模型，得到每个视频片段对应的第一类别参数，其中，图像分类模型为使用标注有图像类别的第一特征样本对第一分类模型进行训练得到的模型，第一类别参数用于指示每个视频片段所属的图像类别；

S2，将第二特征输入运动分类模型，得到每个视频片段对应的第二类别参数，其中，运动分类模型为使用标注有运动类别的第二特征样本对第二分类模型进行训练得到的模型，第二类别参数用于指示每个视频片段所属的运动类别；

S3，将每个视频片段对应的第一类别参数和第二类别参数的加权和确定为每个视频片段的视频类别参数，其中，视频类别参数用于指示每个视频片段所属的视频类别。

可选地，在本实施例中，可以但不限于训练图像特征模型用来根据图像特征对视频片段进行分类，训练运动特征模型用来根据运动特征对视频片段进行分类，再将两种分类进行整合确定出视频片段的最终分类。

可选地，在本实施例中，第一类别参数和第二类别参数可以但不限于为一个类别的概率，例如：视频片段分为两类，精彩和普通，模型输出的类别参数用来表示属于精彩类视频片段的概率，可以将这个概率高于预定值的视频片段确定为精彩视频片段。

可选地，在本实施例中，第一类别参数和第二类别参数可以但不限于为类别的标签。比如：0表示普通视频，1表示精彩视频等等。

可选地，在本实施例中，在确定第一类别参数和第二类别参数的加权和的过程中，权重值可以根据图像特征和运动特征对于视频类别的重要程度来分配。比如：运动特征对视频类别的影响较大，则可以为运动特征分配较大的权重值0.7，为图像特征分配较小的权重值0.3。

在一个可选的实施方式中，将多个视频片段输入到一个TSN网络中，TSN网络为时空分割网络Temporal Segment Network，是将图像特征和光流特征结合起来从而实现视频内容分析的端对端学习的一种全新方式。TSN网络通过图像卷积网络和光流卷积网络提取时空特征分别进行打分，将分数融合后输出视频片段的精彩度打分。最终，输出打分较高的视频片段作为目标视频片段。

如图4所示，TSN网络旨在利用整个视频的视觉信息来执行预测视频标签，由图像卷积网络和光流卷积网络组成。时空分割网络不是处理单个帧或帧堆栈，而是对整个视频中稀疏采样的短片段序列进行操作。这个序列中的每个片段将产生视频标签的初步预测。然后，片段预测融合后生成最终预测结果。在学习过程中，可以通过迭代更新模型参数来优化预测的损失值。形式上，给定一个视频，把它分成K个相同持续时间的片段{S1,S2,…,SK}，然后，时空分割网络通过如下模型预测视频标签：

TSN(T₁,T₂,...,T_K)＝H(G(F(T₁,W),F(T₂,W),...,F(T_K,W)))

其中，(T1,T2,…,TK)是一系列小片段，针对图像卷积网络，Tk是从Sk中随机采样的一帧图像，针对光流卷积网络，Tk是从Sk中随机采样的五帧连续的光流图像。F(Tk,W)表示参数W的卷积网络在输入Tk后取得的类别打分，G函数对不同片段得到的类别打分进行整合，实验中采取求平均值的方法。H函数是求各个类别的后验概率，用来对结果进行归一化，采用softmax的方法，结合交叉熵损失，TSN的损失可以表示为：

其中，C是类别个数，yi是第i类的真实标签。可以采用随机梯度下降法优化模型参数。

为了提取表达能力更强的中层特征，卷积网络使用了Inception模型，这种并联结构能提取多尺度的抽象特征，从而提升特征的表达能力。Inception模型采用并联结构，可以提取多尺度特征，其中，Inception的两种结构如图5所示。上述图像卷积网络和光流卷积网络的整体结构可以如图6所示。光流卷积网络与图像卷积网络类似，只是第一个卷积层的输入通道由3改为5。

得到训练的模型之后，可以从测试的视频片段中截取相同时间间距的25张图像帧和对应的光流谱，分别输入图像网络和光流网络，得到分类打分。最终，给两类打分指定不同的权重，加权求和后选择分数最高的类别作为最终的标签。

S1，对每个视频片段的第一特征和第二特征进行特征融合，得到每个视频片段的时空特征；

S2，将每个视频片段的时空特征输入时空分类模型，得到每个视频片段对应的视频类别参数，其中，时空分类模型为使用标注有视频类别的时空特征样本对第三分类模型进行训练得到的模型，视频类别参数用于指示每个视频片段所属的视频类别。

可选地，在本实施例中，可以将第一特征和第二特征进行特征融合，再利用融合后的特征对视频片段进行分类。

可选地，在本实施例中，时空分类模型为使用标注有视频类别的时空特征样本对第三分类模型进行训练得到的模型。

可选地，在本实施例中，根据得到的视频类别参数可以但不限于通过以下方式确定目标视频片段：从多个视频片段中获取视频类别参数落入目标阈值范围的视频片段，将视频类别参数落入目标阈值范围的视频片段确定为目标视频片段。

可选地，在本实施例中，可以使用3D卷积以及LSTM结构来利用时空关联确定视频片段的视频类别。

在一个可选的实施方式中，以游戏视频精彩片段剪辑为例，如图7所示，输入一段游戏视频，首先生成可能的精彩片段，然后通过图像卷积网络和光流卷积网络提取特征，经过特征融合后输出每个视频片段的精彩打分输出精彩片段作为目标视频片段。

作为一种可选的方案，获取多个视频片段中每个视频片段的第一特征和第二特征包括：

S1，将每个视频片段输入第一特征提取模型，得到每个视频片段的第一特征，其中，第一特征提取模型为使用第一特征样本对初始第一特征模型进行训练得到的模型；

S2，将每个视频片段输入光流特征提取模型，得到每个视频片段的光流特征，其中，光流特征提取模型为使用光流特征样本对初始光流特征模型进行训练得到的模型，第二特征包括光流特征。

可选地，在本实施例中，可以分别训练用于提取第一特征的第一特征提取模型和用于提取第二特征的光流特征提取模型。

可选地，在本实施例中，可以但不限于通过以下方式训练光流特征提取模型：获取初始图像卷积模型的RGB三通道对应的第一个卷积层参数的平均值，并将平均值确定为初始光流特征模型的第一个卷积层的初始化参数，将初始光流特征样本的光流谱的数值范围调整为初始图像卷积模型的输入参数的数值范围，得到光流特征样本，使用光流特征样本对初始光流特征模型进行训练，得到光流特征提取模型。上述方式能够有效避免模型训练的过拟合。

可选地，在本实施例中，初始图像卷积模型的输入参数的数值范围可以但不限于为0至255。

可选地，在本实施例中，由于上述各个模型参数过多，在训练样本数量少且不完备的情况下容易过拟合，因此，可以采以下用三种方式防止模型过拟合：方式1，使用大规模数据库(ImageNet)训练的模型参数做参数初始化，在这上面做参数微调。针对光流模型，首先将光流谱的数值范围调整到0到255之间，使之与图像的数值范围相同。随后，将RGB三通道对应的第一个卷积层参数的平均值作为光流模型的第一个卷积层的初始化参数，其他层保持不变。方式2，采用块归一化方法。限定每一层输出的方差和均值，能加快模型的收敛和提升模型的鲁棒性。方式3，增加训练样本的数量。实验中可以采用随机裁剪、翻转等方式扩充训练样本的数量。

作为一种可选的方案，多个视频片段为视频资源中包括目标对象的视频片段，其中，从视频资源中获取多个视频片段包括：

S1，获取目标对象对应的画面模板，其中，画面模板用于指示目标对象的属性信息；

S2，从视频资源的视频帧中获取与画面模板的相似度高于目标相似度的目标视频帧；

S3，从目标视频帧中获取多个视频片段，其中，多个视频片段中的每个视频片段中包括一个或者连续的多个目标视频帧。

可选地，在本实施例中，为了能够更加高效地确定出目标视频片段，可以对视频资源中的视频帧进行初步的筛选，从中筛选出满足一定条件(比如：包括目标对象)的目标视频帧作为多个视频片段。

可选地，在本实施例中，目标对象可以但不限于包括目标场景、目标人物、目标物体、目标文字、目标图像等等。

可选地，在本实施例中，可以使用视频资源中的视频帧与目标对象对应的画面模板进行匹配，如果满足匹配条件，比如：相似度高于目标相似度，则确定该视频帧为目标视频帧。

作为一种可选的方案，从视频资源的视频帧中获取与画面模板的相似度高于目标相似度的目标视频帧包括：

S1，从视频资源的视频帧中获取第一视频帧，其中，第一视频帧的第一属性与目标对象的第一属性匹配；

S2，从第一视频帧中获取与画面模板的相似度高于目标相似度的第二视频帧作为目标视频帧。

可选地，在本实施例中，为了进一步提高处理效率，可以利用目标对象的第一属性与视频帧进行匹配，将满足匹配条件的视频帧筛选出来作为第一视频帧与画面模板再进行匹配，从而获取目标视频帧。

可选地，在本实施例中，第一属性可以但不限于包括颜色属性、纹理属性、形状属性等等。

在一个可选的实施方式中，以枪战游戏的精彩片段剪辑为例，如图8所示，由于枪战游戏中的精彩镜头大部分是击杀敌人的视频片段，给定一段游戏视频，首先通过击杀检测生成可能的精彩片段。以枪战游戏的生存模式为例，在这个模式下，每击杀一个对手，图像中间区域会出现红色的“淘汰”字样。如图9所示，首先可以计算图像中间的矩形区域中红色的比例，如果比例高于阈值，则初步认为该图像为可能的击杀画面的图像。可以采用基于滑动窗的模板匹配方法检测“淘汰”。随后，计算图像块与模板之间的欧式距离，如果低于阈值，则检测到击杀画面。检测红色比例是为了减少计算复杂度，因为模板匹配的复杂度比计算红色比例的复杂度高，而红色比例超过阈值是击杀的必要条件。

S1，将视频资源的视频帧中的每个视频帧划分为前景画面和背景画面；

S2，分别确定每个视频帧的前景画面与前景模板之间的第一距离，以及每个视频帧的背景画面与背景模板之间的第二距离，其中，画面模板包括前景模板和背景模板；

S3，确定每个视频帧的第一距离与第二距离的加权和，其中，第一距离对应第一权重，第二距离对应第二权重，第一权重大于第二权重；

S4，将视频资源的视频帧中每个视频帧对应的加权和低于目标值的视频帧确定为目标视频帧。

可选地，在本实施例中，为了提高目标视频帧的筛选准确度，将每个视频帧划分为前景画面和背景画面，分别与前景模板和背景模板进行匹配，分别得到匹配结果，再为对于目标视频帧的影响相对较大的前景画面的匹配结果分配较大的第一权重，为对于目标视频帧的影响相对较小的背景画面的匹配结果分配较小的第二权重，确定出匹配结果的加权和作为视频帧与画面模板之间的相似度，从而根据该相似度确定目标视频帧。

可选地，在本实施例中，上述匹配结果可以但不限于通过视频帧与画面模板之间的距离来表示，比如：欧式距离、马氏距离等等。距离越小表示相似度越高。

在上述实施方式中，通过上述方式能获得较好的击杀检测效果，然而，由于游戏背景变化有时较为剧烈，模板中如果包含了部分背景会对模板匹配造成干扰。因此，可以首先根据“淘汰”字样的颜色阈值生成前景掩模(相当于上述前景模板)，在计算特征之间的欧式距离时赋予前景较大权重，给背景较小权重。通过这种方法能有效检测游戏中的击杀画面。

作为一种可选的方案，目标视频片段为多个目标视频片段，其中，在根据第一特征和第二特征，在多个视频片段中确定出目标视频片段之后，方法还包括：

S1，将多个目标视频片段按照时间顺序拼接为目标视频资源；

S2，将目标视频资源发送至用于播放目标视频资源的客户端。

可选地，在本实施例中，为用户提供的可以是上述筛选出的多个目标视频片段，也可以是将目标视频片段拼接为一个或者多个目标视频资源提供给用户。

可选地，在本实施例中，可以按照时间顺序拼接视频片段，也可以按照其他拼接顺序拼接视频片段。比如：按照精彩度打分的高低拼接，拼接顺序可以但不限于是从高到低，从低到高或者先高后低再高等等的顺序。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频片段的确定方法的视频片段的确定装置，如图10所示，该装置包括：

第一获取模块102，用于从视频资源中获取多个视频片段；

第二获取模块104，用于获取多个视频片段中每个视频片段的第一特征和第二特征，其中，第一特征用于指示每个视频片段中所包括的对象的图像特征，第二特征用于指示每个视频片段中所包括的对象的运动特征；

确定模块106，用于根据第一特征和第二特征，在多个视频片段中确定出目标视频片段，其中，目标视频片段为多个视频片段中所包括的对象具有目标图像特征和目标运动特征的视频片段。

可选地，在本实施例中，上述视频片段的确定装置可以应用于如图2所示的服务器202和客户端204所构成的硬件环境中。如图2所示，服务器202从视频资源中获取多个视频片段；获取多个视频片段中每个视频片段的第一特征和第二特征，其中，第一特征用于指示每个视频片段中所包括的对象的图像特征，第二特征用于指示每个视频片段中所包括的对象的运动特征；根据第一特征和第二特征，在多个视频片段中确定出目标视频片段，其中，目标视频片段为多个视频片段中所包括的对象具有目标图像特征和目标运动特征的视频片段。

可选地，在本实施例中，上述视频片段的确定装置可以但不限于应用于视频剪辑的场景中。其中，上述客户端可以但不限于为各种类型的应用，例如，在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的，可以但不限于应用于在上述游戏应用中进行视频剪辑的场景中，或还可以但不限于应用于在上述多媒体应用中进行视频剪辑的场景中，以提高从视频资源中确定满足条件的视频片段的效率。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，上述视频片段的确定装置可以但不限于由服务器执行，或者也可以由客户端执行，或者还可以由服务器和客户端交互执行。

可见，通过上述装置，通过对视频资源中的视频片段的用于指示图像特征的第一特征和用于指示运动特征的第二特征的提取，来根据第一特征和第二特征从多个视频片段中确定出满足目标图像特征和目标运动特征的视频片段，从而实现了视频片段的自动获取的同时充分考虑了目标视频片段在图像维度和运动维度上的特征，使得能够更加准确地确定满足条件的目标视频片段，从而实现了提高从视频资源中确定满足条件的视频片段的效率的技术效果，进而解决了相关技术中从视频资源中确定满足条件的视频片段的效率较低的技术问题。

可选地，在本实施例中，确定模块包括：第一确定单元，用于根据第一特征和第二特征确定多个视频片段中每个视频片段的视频类别；第二确定单元，用于将多个视频片段中视频类别为目标类别的视频片段确定为目标视频片段。

可选地，在本实施例中，第一确定单元包括：第一输入子单元，用于将第一特征输入图像分类模型，得到每个视频片段对应的第一类别参数，其中，图像分类模型为使用标注有图像类别的第一特征样本对第一分类模型进行训练得到的模型，第一类别参数用于指示每个视频片段所属的图像类别；第二输入子单元，用于将第二特征输入运动分类模型，得到每个视频片段对应的第二类别参数，其中，运动分类模型为使用标注有运动类别的第二特征样本对第二分类模型进行训练得到的模型，第二类别参数用于指示每个视频片段所属的运动类别；第一确定子单元，用于将每个视频片段对应的第一类别参数和第二类别参数的加权和确定为每个视频片段的视频类别参数，其中，视频类别参数用于指示每个视频片段所属的视频类别。

可选地，在本实施例中，第一确定单元包括：融合子单元，用于对每个视频片段的第一特征和第二特征进行特征融合，得到每个视频片段的时空特征；第三输入子单元，用于将每个视频片段的时空特征输入时空分类模型，得到每个视频片段对应的视频类别参数，其中，时空分类模型为使用标注有视频类别的时空特征样本对第三分类模型进行训练得到的模型，视频类别参数用于指示每个视频片段所属的视频类别。

可选地，在本实施例中，第二确定单元包括：第一获取子单元，用于从多个视频片段中获取视频类别参数落入目标阈值范围的视频片段；第二确定子单元，用于将视频类别参数落入目标阈值范围的视频片段确定为目标视频片段。

可选地，在本实施例中，第二获取模块包括：第一输入单元，用于将每个视频片段输入第一特征提取模型，得到每个视频片段的第一特征，其中，第一特征提取模型为使用第一特征样本对初始第一特征模型进行训练得到的模型；第二输入单元，用于将每个视频片段输入光流特征提取模型，得到每个视频片段的光流特征，其中，光流特征提取模型为使用光流特征样本对初始光流特征模型进行训练得到的模型，第二特征包括光流特征。

可选地，在本实施例中，上述装置还包括：第三获取模块，用于获取初始图像卷积模型的RGB三通道对应的第一个卷积层参数的平均值，并将平均值确定为初始光流特征模型的第一个卷积层的初始化参数；调整模块，用于将初始光流特征样本的光流谱的数值范围调整为初始图像卷积模型的输入参数的数值范围，得到光流特征样本；训练模块，用于使用光流特征样本对初始光流特征模型进行训练，得到光流特征提取模型。

可选地，在本实施例中，多个视频片段为视频资源中包括目标对象的视频片段，其中，第一获取模块包括：第一获取单元，用于获取目标对象对应的画面模板，其中，画面模板用于指示目标对象的属性信息；第二获取单元，用于从视频资源的视频帧中获取与画面模板的相似度高于目标相似度的目标视频帧；第三获取单元，用于从目标视频帧中获取多个视频片段，其中，多个视频片段中的每个视频片段中包括一个或者连续的多个目标视频帧。

可选地，在本实施例中，第二获取单元包括：第二获取子单元，用于从视频资源的视频帧中获取第一视频帧，其中，第一视频帧的第一属性与目标对象的第一属性匹配；第三获取子单元，用于从第一视频帧中获取与画面模板的相似度高于目标相似度的第二视频帧作为目标视频帧。

可选地，在本实施例中，第二获取单元包括：划分子单元，用于将视频资源的视频帧中的每个视频帧划分为前景画面和背景画面；第三确定子单元，用于分别确定每个视频帧的前景画面与前景模板之间的第一距离，以及每个视频帧的背景画面与背景模板之间的第二距离，其中，画面模板包括前景模板和背景模板；第四确定子单元，用于确定每个视频帧的第一距离与第二距离的加权和，其中，第一距离对应第一权重，第二距离对应第二权重，第一权重大于第二权重；第五确定子单元，用于将视频资源的视频帧中每个视频帧对应的加权和低于目标值的视频帧确定为目标视频帧。

可选地，在本实施例中，目标视频片段为多个目标视频片段，其中，上述装置还包括：拼接模块，用于将多个目标视频片段按照时间顺序拼接为目标视频资源；发送模块，用于将目标视频资源发送至用于播放目标视频资源的客户端。

本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境，本实施例中对此不再赘述。本发明实施例提供了用于实施上述实时通信的连接方法的一种可选的具体应用示例。

作为一种可选的实施例，上述视频片段的确定方法可以但不限于应用于如图11所示的枪战类游戏的精彩片段剪辑的场景中。在自动化剪辑枪战类游戏视频精彩片段时，AI可以根据击杀检测生成可能的精彩片段，随后，对每个可能的精彩片段，TSN网络可以根据图像特征和光流特征，结合离线样本的标签数据，得到每个片段的精彩打分。最终实现使用机器学习的方法自动化剪辑枪战类游戏视频精彩片段。

在枪战类游戏视频中，大部分时间是在进行地图的探索，其中的精彩片段只是很少的一部分。以枪战类游戏的生存模式为例，网络上有很多的枪战类游戏的游戏视频，其中的精彩片段集锦吸引了大批网友的注意。人工选择这些精彩片段会耗费大量时间和精力。在本场景中，为了解决精彩片段的自动剪辑而提出了上述精彩度评价方法。通过此方法，将根据图像和光流特征，输出各个片段的精彩度打分，从而实现枪战类游戏视频片段的自动剪辑。

枪战类游戏视频精彩片段剪辑的上述实现方法可以让游戏视频剪辑实现自动化，并且输出的精彩片段符合人类认知，提高了游戏片段剪辑的效率。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频片段的确定的电子装置，如图12所示，该电子装置包括：一个或多个(图中仅示出一个)处理器1202、存储器1204、传感器1206、编码器1208以及传输装置1210，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，从视频资源中获取多个视频片段；

S2，获取多个视频片段中每个视频片段的第一特征和第二特征，其中，第一特征用于指示每个视频片段中所包括的对象的图像特征，第二特征用于指示每个视频片段中所包括的对象的运动特征；

S3，根据第一特征和第二特征，在多个视频片段中确定出目标视频片段，其中，目标视频片段为多个视频片段中所包括的对象具有目标图像特征和目标运动特征的视频片段。

可选地，本领域普通技术人员可以理解，图12所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。

其中，存储器1202可用于存储软件程序以及模块，如本发明实施例中的视频片段的确定方法和装置对应的程序指令/模块，处理器1204通过运行存储在存储器1202内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标组件的控制方法。存储器1202可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1202可进一步包括相对于处理器1204远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1210用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1210包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1210为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1202用于存储应用程序。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，从视频资源中获取多个视频片段；

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频片段的确定方法，其特征在于，包括：

从视频资源中获取多个视频片段；

获取所述多个视频片段中每个视频片段的第一特征和第二特征，其中，所述第一特征用于指示所述每个视频片段中所包括的对象的图像特征，所述第二特征用于指示所述每个视频片段中所包括的对象的运动特征；

根据所述第一特征和所述第二特征，在所述多个视频片段中确定出目标视频片段，其中，所述目标视频片段为所述多个视频片段中所包括的对象具有目标图像特征和目标运动特征的视频片段。

2.根据权利要求1所述的方法，其特征在于，根据所述第一特征和所述第二特征，在所述多个视频片段中确定出目标视频片段包括：

根据所述第一特征和所述第二特征确定所述多个视频片段中每个视频片段的视频类别；

将所述多个视频片段中所述视频类别为目标类别的视频片段确定为所述目标视频片段。

3.根据权利要求2所述的方法，其特征在于，根据所述第一特征和所述第二特征确定所述多个视频片段中每个视频片段的视频类别包括：

将所述第一特征输入图像分类模型，得到所述每个视频片段对应的第一类别参数，其中，所述图像分类模型为使用标注有图像类别的第一特征样本对第一分类模型进行训练得到的模型，所述第一类别参数用于指示所述每个视频片段所属的图像类别；

将所述第二特征输入运动分类模型，得到所述每个视频片段对应的第二类别参数，其中，所述运动分类模型为使用标注有运动类别的第二特征样本对第二分类模型进行训练得到的模型，所述第二类别参数用于指示所述每个视频片段所属的运动类别；

将所述每个视频片段对应的所述第一类别参数和所述第二类别参数的加权和确定为所述每个视频片段的视频类别参数，其中，所述视频类别参数用于指示所述每个视频片段所属的视频类别。

4.根据权利要求2所述的方法，其特征在于，根据所述第一特征和所述第二特征确定所述多个视频片段中每个视频片段的视频类别包括：

对所述每个视频片段的所述第一特征和所述第二特征进行特征融合，得到所述每个视频片段的时空特征；

将所述每个视频片段的所述时空特征输入时空分类模型，得到所述每个视频片段对应的视频类别参数，其中，所述时空分类模型为使用标注有视频类别的时空特征样本对第三分类模型进行训练得到的模型，所述视频类别参数用于指示所述每个视频片段所属的视频类别。

5.根据权利要求3或4所述的方法，其特征在于，将所述多个视频片段中所述视频类别为目标类别的视频片段确定为所述目标视频片段包括：

从所述多个视频片段中获取所述视频类别参数落入目标阈值范围的视频片段；

将所述视频类别参数落入目标阈值范围的视频片段确定为所述目标视频片段。

6.根据权利要求1所述的方法，其特征在于，获取所述多个视频片段中每个视频片段的第一特征和第二特征包括：

将所述每个视频片段输入第一特征提取模型，得到所述每个视频片段的所述第一特征，其中，所述第一特征提取模型为使用第一特征样本对初始第一特征模型进行训练得到的模型；

将所述每个视频片段输入光流特征提取模型，得到所述每个视频片段的光流特征，其中，所述光流特征提取模型为使用光流特征样本对初始光流特征模型进行训练得到的模型，所述第二特征包括所述光流特征。

7.根据权利要求6所述的方法，其特征在于，在将所述每个视频片段输入光流特征提取模型，得到所述每个视频片段的光流特征之前，所述方法还包括：

获取初始图像卷积模型的RGB三通道对应的第一个卷积层参数的平均值，并将所述平均值确定为所述初始光流特征模型的第一个卷积层的初始化参数；

将初始光流特征样本的光流谱的数值范围调整为所述初始图像卷积模型的输入参数的数值范围，得到所述光流特征样本；

使用所述光流特征样本对所述初始光流特征模型进行训练，得到所述光流特征提取模型。

8.根据权利要求1所述的方法，其特征在于，所述多个视频片段为所述视频资源中包括目标对象的视频片段，其中，从所述视频资源中获取所述多个视频片段包括：

获取所述目标对象对应的画面模板，其中，所述画面模板用于指示所述目标对象的属性信息；

从所述视频资源的视频帧中获取与所述画面模板的相似度高于目标相似度的目标视频帧；

从所述目标视频帧中获取所述多个视频片段，其中，所述多个视频片段中的每个视频片段中包括一个或者连续的多个所述目标视频帧。

9.根据权利要求8所述的方法，其特征在于，从所述视频资源的视频帧中获取与所述画面模板的相似度高于目标相似度的目标视频帧包括：

从所述视频资源的视频帧中获取第一视频帧，其中，所述第一视频帧的第一属性与所述目标对象的第一属性匹配；

从所述第一视频帧中获取与所述画面模板的相似度高于所述目标相似度的第二视频帧作为所述目标视频帧。

10.根据权利要求8所述的方法，其特征在于，从所述视频资源的视频帧中获取与所述画面模板的相似度高于目标相似度的目标视频帧包括：

将所述视频资源的视频帧中的每个视频帧划分为前景画面和背景画面；

分别确定所述每个视频帧的所述前景画面与前景模板之间的第一距离，以及所述每个视频帧的所述背景画面与背景模板之间的第二距离，其中，所述画面模板包括所述前景模板和所述背景模板；

确定所述每个视频帧的所述第一距离与所述第二距离的加权和，其中，所述第一距离对应第一权重，所述第二距离对应第二权重，所述第一权重大于所述第二权重；

将所述视频资源的视频帧中每个视频帧对应的所述加权和低于目标值的视频帧确定为所述目标视频帧。

11.根据权利要求1所述的方法，其特征在于，所述目标视频片段为多个目标视频片段，其中，在根据所述第一特征和所述第二特征，在所述多个视频片段中确定出目标视频片段之后，所述方法还包括：

将所述多个目标视频片段按照时间顺序拼接为目标视频资源；

将所述目标视频资源发送至用于播放所述目标视频资源的客户端。

12.一种视频片段的确定装置，其特征在于，包括：

第一获取模块，用于从视频资源中获取多个视频片段；

第二获取模块，用于获取所述多个视频片段中每个视频片段的第一特征和第二特征，其中，所述第一特征用于指示所述每个视频片段中所包括的对象的图像特征，所述第二特征用于指示所述每个视频片段中所包括的对象的运动特征；

确定模块，用于根据所述第一特征和所述第二特征，在所述多个视频片段中确定出目标视频片段，其中，所述目标视频片段为所述多个视频片段中所包括的对象具有目标图像特征和目标运动特征的视频片段。

13.根据权利要求12所述的装置，其特征在于，确定模块包括：

第一确定单元，用于根据所述第一特征和所述第二特征确定所述多个视频片段中每个视频片段的视频类别；

第二确定单元，用于将所述多个视频片段中所述视频类别为目标类别的视频片段确定为所述目标视频片段。

14.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至11任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。