CN114329063B

CN114329063B - 视频片段检测方法、装置以及设备

Info

Publication number: CN114329063B
Application number: CN202111275890.3A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2024-06-11
Anticipated expiration: 2041-10-29
Also published as: CN114329063A

Abstract

本申请公开了视频片段检测方法、装置以及设备，所述方法包括：对待检测视频片段进行多维度特征提取，得到多个片段特征信息，基于所述多个片段特征信息，从源视频集合中确定第一源视频片段并基于第一源视频片段确定目标源视频标识。基于多个片段特征信息中的第一片段特征信息和第二片段特征信息，从源视频集合中确定第二源视频片段，并基于第二源视频片段确定目标起始时间点和目标结束时间点，得到源视频定位信息。该方法可以提高待检测视频片段和源视频间的关联性，提高视频片段检测的准确性和效率，从而提高视频片段推荐的连续性和效率。

Description

视频片段检测方法、装置以及设备

技术领域

本申请涉及视频处理技术领域，尤其涉及视频片段检测方法、装置以及设备。

背景技术

短视频是指在各种新媒体平台上播放的、适合在移动状态和短时休闲状态下观看的、高频推送的视频内容，几秒到几分钟不等。通过对源视频剪辑和拆条的方式，可以得到很多不同时长片段的短视频。相关技术中，在关联短视频和源视频时，需要基于人工标注短视频在源视频上的位置信息，从而造成视频片段检测的效率低，并导致视频片段推荐的效率低。

发明内容

本申请提供了视频片段检测方法、装置以及设备，可以解决视频片段检测的效率低和视频片段推荐效率低的技术问题。

一方面，本申请提供了一种视频片段检测方法，所述方法包括：

对待检测视频片段进行多维度特征提取，得到多个片段特征信息；

基于所述多个片段特征信息，从源视频集合中确定与每个片段特征信息匹配的至少一个第一源视频片段；

对所述多个片段特征信息对应的多个第一源视频片段的源视频标识进行匹配验证，得到目标源视频标识；

基于所述多个片段特征信息中的第一片段特征信息和第二片段特征信息，从所述源视频集合中确定与所述第一片段特征信息匹配，且与所述第二片段特征信息匹配的至少一个第二源视频片段，所述第一片段特征信息为与时间信息无关的特征信息，所述第二片段特征信息为与时间信息相关的特征信息；

从所述第二源视频片段对应的时间点信息中，确定目标时间点信息；

将所述目标源视频标识和所述目标时间点信息作为所述待检测视频片段对应的源视频定位信息。

另一方面提供了一种视频片段检测装置，所述装置包括：

片段特征提取模块，用于对待检测视频片段进行多维度特征提取，得到多个片段特征信息；

第一源视频片段确定模块，用于基于所述多个片段特征信息，从源视频集合中确定与每个片段特征信息匹配的至少一个第一源视频片段；

源视频标识匹配验证模块，被配置为执行对所述多个片段特征信息对应的多个第一源视频片段的源视频标识进行匹配验证，得到目标源视频标识；

第二源视频片段确定模块，用于基于所述多个片段特征信息中的第一片段特征信息和第二片段特征信息，从所述源视频集合中确定与所述第一片段特征信息匹配，且与所述第二片段特征信息匹配的至少一个第二源视频片段，所述第一片段特征信息为与时间信息无关的特征信息，所述第二片段特征信息为与时间信息相关的特征信息；

时间点确定模块，用于从所述第二源视频片段对应的时间点信息中，确定目标时间点信息；

定位信息确定模块，用于将所述目标源视频标识和所述目标时间点信息作为所述待检测视频片段对应的源视频定位信息。

另一方面提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述所述的视频片段检测方法。

另一方面提供了一种计算机可读存储介质，所述存储介质包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述所述的视频片段检测方法。

另一方面提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述所述的视频片段检测方法。

本申请提供的视频片段检测方法、装置以及设备，所述方法包括：对待检测视频片段进行多维度特征提取，得到多个片段特征信息，基于所述多个片段特征信息，从源视频集合中确定第一源视频片段并基于第一源视频片段确定目标源视频标识。基于多个片段特征信息中的第一片段特征信息，从源视频集合中确定第二源视频片段，并基于多个片段特征信息中的第二片段特征信息，从第二源视频片段中确定第二源视频片段，并基于第二源视频片段确定目标起始时间点和目标结束时间点，得到源视频定位信息。该方法可以提高待检测视频片段和源视频间的关联性，提高视频片段检测的准确性和效率，从而提高视频片段推荐的连续性和效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频片段检测方法的应用场景示意图；

图2为本申请实施例提供的一种视频片段检测方法的流程图；

图3为本申请实施例提供的一种视频片段检测方法中进行多维度特征提取方法的流程图；

图4为本申请实施例提供的一种视频片段检测方法中进行多维度特征提取的示意图；

图5为本申请实施例提供的一种视频片段检测方法中文本特征提取模型的训练方式示意图；

图6为本申请实施例提供的一种视频片段检测方法中图像特征提取模型的应用方法的示意图；

图7为本申请实施例提供的一种视频片段检测方法中得到目标源视频标识的流程图；

图8为本申请实施例提供的一种视频片段检测方法中确定目标起始时间点和目标结束时间点方法的流程图；

图9为本申请实施例提供的一种视频片段检测方法中进行时长验证的流程图；

图10为本申请实施例提供的一种视频片段检测方法得到源视频定位信息的示意图；

图11为本申请实施例提供的基于一种视频片段检测方法进行视频推荐的流程图；

图12为本申请实施例提供的一种视频片段检测方法中显示目标起始时间点和源视频标识的示意图；

图13为本申请实施例提供的一种视频片段检测方法中进行视频片段检测的应用场景示意图；

图14为本申请实施例提供的一种视频片段检测装置的结构示意图；

图15为本申请实施例提供的一种视频片段检测***的结构示意图；

图16为本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。而且，术语“第一”、“第二”等适用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

请参见图1，其显示了本申请实施例提供的一种视频片段检测方法的应用场景示意图，所述应用场景包括客户端110和服务器120，服务器120可以基于多维度的特征提取，确定待检测视频片段对应的源视频定位信息，在客户端110播放当前视频片段时，服务器120可以通过当前视频片段对应的源视频定位信息，确定当前视频片段的下一视频片段，从而在当前视频片段播放结束时，将下一视频片段推荐到客户端110。

在本申请实施例中，客户端110包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中实体设备上运行的操作***可以包括但不限于安卓***、IOS***、linux、Unix、windows等。客户端110包括UI（User Interface，用户界面）层，客户端110通过UI层对外提供视频片段的显示，另外，基于API（Application ProgrammingInterface，应用程序接口）接收服务器110发送的下一视频片段。

在本申请实施例中，服务器120可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器120可以包括有网络通信单元、处理器和存储器等等。具体的，服务器120可以基于多维度的特征提取，确定待检测视频片段对应的源视频定位信息。

请参见图2，其显示了一种视频片段检测方法，可应用于服务器侧，方法包括：

S210.对待检测视频片段进行多维度特征提取，得到多个片段特征信息；

在一些实施例中，基于多个特征提取模型，分别对待检测视频片段进行特征提取，可以得到每个特征提取模型对应的片段特征信息。

在一些实施例中，请参见图3，如图3所示，多个片段特征信息包括片段文本特征信息、片段图像特征信息和片段音频特征信息，对待检测视频片段进行多维度特征提取，得到多个片段特征信息包括：

S310.基于预设的文本特征提取模型，对待检测视频片段进行文本特征提取，得到片段文本特征信息；

S320.基于预设的图像特征提取模型，对待检测视频片段进行图像特征提取，得到片段图像特征信息；

S330.基于预设的音频特征提取模型，对待检测视频片段进行音频特征提取，得到片段音频特征信息。

在一些实施例中，请参见图4，如图4所示，基于预设的文本特征提取模型，从待检测视频片段的对应的文本信息中获取片段文本特征信息，该文本信息例如短视频标题。基于预设的图像特征提取模型，从待检测视频片段的视频信号中获取片段图像特征信息，基于预设的音频特征提取模型，从待检测视频片段的音频信号中获取片段音频特征信息。

在一些实施例中，基于预设的文本特征提取模型，对待检测视频片段进行文本特征提取，得到片段文本特征信息。待检测视频片段中的文本特征信息可以通过该视频片段的标题和该视频内容的文本摘要进行特征提取，还可以通过该视频片段播放过程中显示的文本信息进行特征提取，通过光学字符识别（Optical Character Recognition，OCR）算法对播放过程中显示的文本信息进行识别即可。

基于预设的文本特征提取模型，对待检测视频片段进行文本特征提取，得到视频标题、文本摘要以及OCR识别结果的全局特征向量，即得到片段文本特征信息。该文本特征提取模型可以为Bert模型，如图5所示，在模型训练的过程中，通过预训练的方式，将对预设的文本信息进行截取，并将截取后的文本信息作为训练数据，将截取得到的文本片段作为标注数据，将截取后的文本信息输入到待训练模型进行上下文识别，得到训练文本片段，基于训练文本片段和截取得到的文本片段对待训练模型进行训练，可以得到预训练模型，例如对句子A和句子B进行截取，将截取后的句子A和截取后的句子B输入到待训练模型中进行上下文识别，得到句子A和句子B中截取的训练文本片段，基于训练文本片段和句子A和句子B截取得到的文本片段对待训练模型进行训练。识别截取后的文本信息中缺失的部分，从而可以使得模型学习到文本信息中的上下文关系。再将文本信息作为训练数据，对预训练模型进行调整，此时可以选择MNLI数据集(Multi-Genre Natural Language Inference)、SQuAD数据集等多种数据集作为训练用的数据集，输入到预训练模型中进行特征提取，并根据特征提取结果和标注数据进行模型训练，得到文本特征提取模型。此时也可以对预训练模型中的命名实体识别（Named Entity Recognition，NER）功能进行训练，从而基于该功能识别出待检测视频片段对应的文本信息中实体类、时间类和数字类等信息，以及人名、机构名、地名、时间、日期、货币和百分比等信息。

在一些实施例中，对待检测视频片段进行图像特征提取之前，可以对待检测视频片段中的视频帧进行抽帧作为用于进行特征提取的图像信息，例如可以每一秒确定一个视频帧。待检测视频片段经过抽帧处理后可以得到视频帧序列，基于预设的图像特征提取模型，对该视频帧序列进行特征提取，得到每一个视频帧的图像特征信息，再对每一个视频帧的图像特征信息进行加和平均，可以得到片段图像特征信息，图像特征提取模型可以为多个，请参见图6，如图6所示，将视频帧序列输入到时间敏感型网络（Temporal SegmentNetworks，TSN）进行网络处理，然后通过Xception模型提取图像特征，再使用Youtub8M-NeXtVLad的网络比赛模型的中间层得到的每一个视频帧的图像特征向量，对每一个视频帧的图像特征向量进行加和平均，得到片段图像特征信息。

在一些实施例中，在对音频特征进行提取时，可以从待检测视频片段中获取音频信号，通过计算梅尔频率倒谱系数（mel-frequency cepstrum，MFCC）特征将音频信号转换为频谱图像输入信息，在频谱图像输入信息上进行特征提取，可以得到片段音频特征信息。可以基于预设的音频特征提取窗口和滑动步长，在频谱图像上获取音频的变化特征和能量值，从而得到每个音频特征提取窗口对应的特征提取结果，对每个特征提取结果进行加权求和，可以得到片段音频特征信息。音频特征提取模型可以为VGGish模型，VGGish是从AudioSet数据集训练得到的音频模型，可以产生128维的特征向量。在对每个音频特征提取窗口对应的频谱图像进行特征提取时，可以通过NetXtVLAD进行特征提取，得到特征提取结果。

通过不同的特征提取模型，获取不同类型的片段特征信息，从而可以在视频片段检测的过程中基于不同类型的片段特征信息进行交叉验证，提高视频片段检测的准确性。

S220.基于多个片段特征信息，从源视频集合中确定与每个片段特征信息匹配的至少一个第一源视频片段；

在一些实施例中，对每个片段特征信息和源视频集合中的源视频的视频特征信息进行匹配，可以从源视频集合中确定与每个片段特征信息分别匹配的第一源视频片段。

在一些实施例中，基于多个片段特征信息，从源视频集合中确定每个片段特征信息分别对应的第一源视频片段包括：

获取源视频集合中每个源视频的视频特征信息，视频特征信息为与多个片段特征信息的特征类型分别对应的特征信息；

对每个片段特征信息和视频特征信息进行匹配，确定每个片段特征信息分别对应的至少一个第一源视频片段。

在一些实施例中，多个片段特征信息可以包括片段文本特征信息、片段图像特征信息和片段音频特征信息，多个片段特征信息分别对应不同的特征类型，源视频集合中每个源视频的视频特征信息同样需要对应这些特征类型，才可以和片段特征信息进行匹配，也即在片段特征信息包括片段文本特征信息、片段图像特征信息和片段音频特征信息的情况下，视频特征信息对应包括视频文本特征信息、视频图像特征信息和视频音频特征信息。

在一些实施例中，将片段文本特征信息与视频文本特征信息进行匹配，获取匹配到的视频文本特征信息对应的源视频片段，将这些源视频片段作为片段文本特征信息对应的第一源视频片段。

将片段图像特征信息与视频图像特征信息进行匹配，获取匹配到的视频图像特征信息对应的源视频片段，将这些源视频片段作为片段图像特征信息对应的第一源视频片段。

将片段音频特征信息与视频音频特征信息进行匹配，获取匹配到的视频音频特征信息对应的源视频片段，将这些源视频片段作为片段音频特征信息对应的第一源视频片段。

确定不同特征类型的片段特征信息对应的视频特征信息，针对每一种片段特征信息独立进行匹配召回，使得后续可以将各个匹配召回的结果相互验证，提高视频片段检测的准确性。

S230.对多个片段特征信息对应的多个第一源视频片段的源视频标识进行匹配验证，得到目标源视频标识；

在一些实施例中，目标源视频标识为与待检测片段信息对应的源视频标识，确定两两片段特征信息对应的多个第一源视频片段的源视频标识中相同的源视频标识，基于相同的源视频标识对第一源视频片段是否正确进行验证，可以得到目标源视频标识。源视频标识为源视频对应的文创作品的名称信息，文创作品可以包括文学、影视、动漫、游戏、短视频等等。源视频标识可以为源视频ip，目标源视频标识也就可以为该待检测片段对应的源视频ip，例如某本网络文学作品，其改编的电视剧、游戏、动漫等一系列衍生产品，都属于该网络文学作品，因此，其改编的电视剧、游戏、动漫等视频的ip也就是该网络文学作品。或者，在某些短视频平台上，某一账号发布的一系列视频内容，都属于该账号对应的ip，因此这些视频的ip也就是该账号。

在一些实施例中，请参见图7，对多个片段特征信息对应的多个第一源视频片段的源视频标识进行匹配验证，得到目标源视频标识包括：

S710.获取每个源视频标识的数目；

S720.基于预设的每个片段特征信息对应的权重信息，对每个源视频标识的数目进行加权处理；

S730.根据加权后的源视频标识的数目，从源视频标识中确定目标源视频标识。

在一些实施例中，每个片段特征信息可以对应多个第一源视频片段，获取这些第一源视频片段对应的源视频标识，确定每个源视频标识的数目。例如片段文本特征信息对应5个源视频片段，源视频标识分别为A、B、C和D。片段图像特征信息对应3个源视频片段，源视频标识分别为A、B和E。片段音频特征信息对应3个源视频片段，源视频标识分别为A和E。则一共有五种源视频片段对应的源视频标识，源视频标识A的数目为3个，源视频标识B的数目为2个，源视频标识C的数目为1个，源视频标识D的数目为1个，源视频标识E的数目为2个。

在不增加权重信息的情况下，可以选择源视频标识的数目的最大值对应的源视频标识作为目标源视频标识，例如在源视频标识A的数目为3个，源视频标识B的数目为2个，源视频标识C的数目为1个，源视频标识D的数目为1个，源视频标识E的数目为2个的情况下，可以将源视频标识A确定为目标源视频标识。

在一些实施例中，可以对每个片段特征信息设置对应的权重信息，该权重信息通常为经验值。该权重信息可以针对不同的视频内容对应的关键特征进行调整，该关键特征为与源视频相关的特征信息，例如，对于短视频内容，可以设置片段文本特征信息、片段图像特征信息和片段音频特征信息为0.25、0.35和0.3，对于视频标题较为随意的视频内容，片段文本特征信息就与源视频相关度较低，因此可以降低片段文本特征信息的权重，将权重信息调整为0.1、0.4和0.4。

在设置有权重信息的情况下，根据每个源视频标识对应的片段特征信息的权重信息，按比例对每个源视频标识的数目进行调整，从而对每个源视频标识的数目进行加权处理。例如在权重信息为0.1、0.4和0.4的情况下，片段文本特征信息对应的源视频标识的数目可以视为一个源视频标识，片段图像特征信息对应的源视频标识的数目可以视为四个源视频标识，片段音频特征信息对应的源视频标识的数目可以视为四个源视频标识。片段文本特征信息对应的源视频标识分别为A、B、C和D。片段图像特征信息对应的源视频标识分别为A、B和E。片段音频特征信息的源视频标识分别为A和E时，可以基于权重信息，确定源视频标识A的数目为9个，源视频标识B的数目为5个，源视频标识C的数目为1个，源视频标识D的数目为1个，源视频标识E的数目为8个。

在设置权重信息的情况下，可以选择加权处理后的源视频标识的数目的最大值对应的源视频标识作为目标源视频标识。例如在源视频标识A的数目为9个，源视频标识B的数目为5个，源视频标识C的数目为1个，源视频标识D的数目为1个，源视频标识E的数目为8个的情况下，确定源视频标识A为目标源视频标识。

从多个相互独立的匹配召回的结果中获取数目最多的源视频标识，从而得到目标源视频标识，可以通过每个维度的片段特征信息与源视频建立关联，从而提高了待检测视频片段和源视频的相关性。

S240.基于多个片段特征信息中的第一片段特征信息和第二片段特征信息，从源视频集合中确定与第一片段特征信息匹配，且与第二片段特征信息匹配的至少一个第二源视频片段，第一片段特征信息为与时间信息无关的特征信息，第二片段特征信息为与时间信息相关的特征信息；

在一些实施例中，第一片段特征信息为与视频的时间轴之间不具有确定的对应关系的特征信息，例如片段文本特征信息。例如片段文本特征信息，片段文本特征信息通常表示视频片段中的内容或简介信息，片段文本特征信息与视频的时间轴不存在对应关系或，对应开始时间点和结束时间点较为模糊的一段时间轴。例如某一电视剧的片段剧情中，片段文本特征信息会对应该电视剧中某一片段，该片段的开始时间点和结束时间点同样可以为片段文本特征信息对应的开始时间点和结束时间点，但是通常可以用文本概括的片段对应的时间范围都较为模糊，难以精确确定待检测片段在对应的源视频中的开始时间点和结束时间点，因此可以视为该片段文本特征信息与时间信息无关。

在一些实施例中，第二片段特征信息为与视频的时间轴之间具有确定的对应关系的特征信息。例如片段图像特征信息和片段音频特征信息，根据片段图像特征信息和片段音频特征信息均可以确定到源视频中时间轴上的某一确定的时间点，例如3分15秒的时候对应的图像1，2分13秒的时候对应的音频2等，因此片段图像特征信息和片段音频特征信息为与时间信息相关的特征信息，片段图像特征信息和片段音频特征信息在源视频中的时间轴上均可以确定到具体的时间点。

在一些实施例中，可以先基于第一片段特征信息，从源视频集合中确定与第一片段特征信息匹配的源视频片段，再基于第二片段特征信息，从与第一片段特征信息匹配的源视频片段中获取与第二片段特征信息匹配的源视频片段，从而得到第二源视频片段。也可以先基于第二片段特征信息，从源视频集合中确定与第二片段特征信息匹配的源视频片段，再基于第一片段特征信息缩小范围，从与第二片段特征信息匹配的源视频片段中获取与第一片段特征信息匹配的源视频片段，从而得到第二源视频片段。

S250.从第二源视频片段对应的时间点信息中，确定目标时间点信息；

在一些实施例中，在时间点信息包括起始时间点的情况下，对起始时间点进行匹配验证，得到目标起始时间点。在时间点信息包括起始时间点和结束时间点的情况下，对起始时间点和结束时间点分别进行匹配验证，并对起始时间点和结束时间点对应的时长信息进行验证，得到目标时间点信息，目标时间点信息包括目标起始时间点和目标结束时间点。

在一些实施例中，请参见图8，目标时间点信息包括目标起始时间点和目标结束时间点，从第二源视频片段对应的时间点信息中，确定目标时间点信息包括：

S810.对第二源视频片段的起始时间点进行匹配验证，得到初始起始时间点；

S820.对第二源视频片段的结束时间点进行匹配验证，得到初始结束时间点；

S830.基于初始起始时间点和初始结束时间点间的差值，得到初始时长信息；

S840.对初始时长信息进行时长验证，得到时长验证结果；

S850.基于时长验证结果，确定目标起始时间点和目标结束时间点。

在一些实施例中，获取多个第二片段特征信息对应的第二源视频片段的起始时间点，确定这些起始时间点中对应同一时间的时间点的数目或对应同一时间区间的时间点的数目，将该数目中最大值对应的起始时间点确定为初始起始时间点。获取多个片段特征信息对应的第二源视频片段的结束时间点，确定这些起始时间点中对应同一时间的时间点的数目或对应同一时间区间的时间点的数目，将该数目中最大值对应的结束时间点确定为初始结束时间点。时间区间为预设的经验值，可以设置为10秒内或5秒内。第二源视频片段可以有多个，对应的起始时间点和结束时间点同样可以有多个。

例如片段图像特征信息对应的第二源视频片段的起始时间点1为第6分钟、起始时间点2为第6分钟5秒和起始时间点3为第6分钟30秒，片段音频特征信息对应的第二源视频片段的起始点为起始时间点4为第6分钟、起始时间点5为第6分钟40秒和起始时间点6为第6分钟10秒，其中起始时间点1和起始时间点4为对应同一时间的时间点，在时间区间为10秒的情况时，起始时间点1、起始时间点4、起始时间点2和起始时间点6为对应同一时间区间的时间点，这四个时间点对应的时间相近，且时间点的数目为最大值，因此可以将第6分钟设置为初始起始时间点。初始结束时间点可以使用根据初始起始时间点相同的方式进行设置。

在一些实施例中，基于初始起始时间点和初始结束时间点间的差值，可以得到初始时长信息，对初始时长信息进行时长验证，确定初始起始时间点和初始结束时间点的设置是否合理，得到时长验证结果，并根据时长验证结果，确定目标起始时间点和目标结束时间点。

基于与时间相关的特征信息和与时间无关的特征信息，再次进行匹配召回，从而可以在缩小召回范围的基础上对时间轴上的时间点进行相互验证，确定待检测视频片段对应的目标起始时间点和目标结束时间点，提高了时间点确定的准确性。

在一些实施例中，请参见图9，时长验证结果包括第一时长验证结果和第二时长验证结果，对初始时长信息进行时长验证，得到时长验证结果包括：

S910.从第二源视频片段中确定目标源片段；

S920.对比初始时长信息和目标源片段对应的目标时长信息，得到第一时长验证结果；

S930.对比初始时长信息和待检测视频片段的待检测时长信息，得到第二时长验证结果；

基于时长验证结果，确定目标起始时间点和目标结束时间点包括：

S940.在第一时长验证结果指示初始时长信息小于等于目标时长信息，且第二时长验证结果指示初始时长信息大于等于待检测时长信息的情况下，将初始起始时间点确定为目标起始时间点，将初始结束时间点确定为目标结束时间点。

在一些实施例中，从多个第二片段特征信息对应的第二源视频片段中确定目标源片段，可以对多个第二片段特征信息对应的第二源视频片段进行匹配验证，获取每个第二源视频片段的数目，并将该数目的最大值对应的第二源视频片段作为目标源片段。

对比初始时长信息和目标源片段对应的目标时长信息，可以得到第一时长验证结果，在初始时长信息在小于等于目标时长信息的情况下，可以确定初始起始时间点和初始结束时间点对应的初始时长信息与目标时长信息匹配，即初始时长信息通过验证。在初始时长信息大于目标时长信息的情况下，可以确定初始起始时间点和初始结束时间点对应的初始时长信息与目标时长信息不匹配，即初始时长信息未通过验证。

对比初始时长信息和待检测视频片段的待检测时长信息，可以得到第二时长验证结果，在初始时长信息大于等于待检测时长信息的情况下，可以确定待检测视频片段与定位到的源视频片段匹配，且该待检测视频片段不是拼接得到的视频片段，即该初始时长信息通过验证。在初始时长信息小于待检测时长信息的情况下，可以确定待检测视频片段与定位到的源视频片段不匹配，且该待检测视频片段可能是拼接得到的视频片段，其结束时间超过了定位到的源视频片段的结束时间，即该初始时长信息未通过验证。

在一些实施例中，在第一时长验证结果指示初始时长信息小于等于目标时长信息，且第二时长验证结果指示初始时长信息大于等于待检测时长信息的情况下，将初始起始时间点确定为目标起始时间点，将初始结束时间点确定为目标结束时间点。

在第一时长验证结果指示初始时长信息小于等于目标时长信息，且第二时长验证结果指示初始时长信息小于待检测时长信息的情况下，实际上可以确定初始起始时间点为目标起始时间点，但是初始结束时间点不是目标结束时间点，因此初始起始时间点通过验证，而初始结束时间点未通过验证，在输出源视频定位信息时只输出目标起始时间点。

在第一时长验证结果指示初始时长信息大于目标时长信息，且第二时长验证结果指示初始时长信息小于待检测时长信息的情况下，初始起始时间点和初始结束时间点均未通过验证。

在得到初始起始时间点和初始结束时间点后，对初始起始时间点和初始结束时间点对应的时长信息进行验证，可以确定不同的待检测视频片段，从而针对不同的待检测视频片段，输出对应的源视频定位信息，分别应用于视频连续推荐场景或剪辑视频推荐场景等不同的应用场景中，丰富了源视频定位信息的适用性。

S260.将目标源视频标识和目标时间点信息作为待检测视频片段对应的源视频定位信息。

在一些实施例中，若可以检测到目标结束时间点，则将目标源视频标识、目标起始时间点和目标结束时间点作为源视频定位信息，若无法检测到目标结束时间点，可以将目标源视频标识和目标起始时间点作为源视频定位信息。例如，在多个来自不同的源视频的视频片段剪辑得到的视频中，存在多个目标源视频标识且有的视频片段的时间较短，检测不到目标结束时间点，则可以将每个目标源视频标识和每个目标源视频标识对应的目标起始时间点作为源视频定位信息。

在一些实施例中，目标源视频标识包括多个源视频标识的情况下，该方法还包括：

从第二源视频片段对应的起始时间点中，确定每个目标源视频标识对应的目标起始时间点；

将每个目标源视频标识和每个目标源视频标识对应的目标起始时间点作为待检测视频片段对应的源视频定位信息。

在一些实施例中，待检测视频片段可能为多个视频片段拼接得到的，即该待检测视频片段为视频剪辑结果。对于视频剪辑结果，不存在需要视频连续播放的问题，而在视频剪辑结果中，某一源视频的画面可能只有几秒钟，因此每个视频片段对应的初始时长信息一定会小于该视频剪辑结果的时长信息，无法确定到目标结束时间点，从而需要确定的是各个目标源视频标识以及每个目标源视频标识对应的目标起始时间点。例如，请参见图10，如图10所示，在经过视频定位检测后，待检测视频片段对应的源视频定位信息为源视频标识：电视剧X-第三集，该源视频标识对应的目标起始时间点：00:34:53。

因此，在对视频剪辑结果进行视频检测时，可以确定对视频剪辑结果中使用的视频片段的源视频标识，使得用户可以确定该视频剪辑结果中包括哪些源视频，从而根据自己的需求获取对应的源视频。还可以确定该视频剪辑结果中使用的视频片段的目标起始时间点，即确定每个目标源视频标识对应的目标起始时间点，将每个目标源视频标识和每个目标源视频标识对应的目标起始时间点作为该视频剪辑结果对应的源视频定位信息。

在一些实施例中，请参见图11，该方法还包括：

S1110.响应于目标对象对应的当前视频片段的播放指令，获取当前视频片段的当前源视频定位信息；

S1120.基于当前源视频定位信息，确定当前视频片段的下一视频片段；

S1130.在当前视频片段播放结束时，向目标对象推荐下一视频片段。

在一些实施例中，应用于视频推荐场景中时，可以响应于目标对象对应的当前视频片段的播放指令，目标对象可以为用户，即在用户点击播放当前视频片段时，获取当前视频片段的当前源视频定位信息。基于该当前源视频定位信息，可以得到当前视频片段的下一视频片段，从而可以在当前视频片段播放结束时，自动向用户推荐下一视频片段。该下一视频片段可以为在故事情节上与当前视频片段连贯的视频片段，在当前视频片段为系列剧集中的某一集时，该下一视频片段也可以就是当前视频片段的下一集，实现了同一故事情节的续播和内容剧集的组织播，使得用户可以获得沉浸式的播放体验，提高了视频播放的时间以及用户体验。

在一些实施例中，请参见图12，如图12所示，可以在当前视频片段中显示该视频片段对应的目标起始时间点和源视频标识。基于源视频定位信息，可以在当前视频片段播放时确定到下一视频片段，并在当前视频片段的下方列表中，显示当前视频片段的下一视频片段。在当前视频片段播放结束后，切换到下一视频片段进行播放。从而可以提高视频片段推荐的连续性和推荐效率。

在当前视频片段的下方列表中，还可以显示下一视频片段之后的视频片段，如图12所示，当前视频片段为第一个视频片段，下一视频片段为第二个视频片段，第三个视频片段为第二个视频片段的下一视频片段，第四个视频片段为第三个视频片段的下一视频片段。

在一些实施例中，请参见图13，如图13所示，获取待检测视频片段后，分别提取文本、图像和音频三个维度的特征信息，得到片段文本特征信息、片段图像特征信息和片段音频特征信息。在获取片段文本特征信息时可以通过sentenc2vec模型确定短文本表征信息，即片段文本特征信息，sentenc2vec模型可以将句子向量映射到向量空间中。在获取片段图像特征信息时可以先对待检测视频片段进行帧采样，在帧采样得到视频帧序列后通过卷积网络进行特征提取，得到片段图像特征信息。在获取片段音频特征信息时可以构建特征窗，再对音频信号进行傅里叶变换得到频域特征，在频域特征上基于特征窗进行特征提取，得到片段音频特征信息。

基于多维度的特征信息进行文本匹配、图像匹配和音频匹配，并基于匹配的结果，对待检测视频片段进行定位，输出视频定位结果。

本申请实施例还提供了一种视频片段检测方法，该方法包括：对待检测视频片段进行多维度特征提取，得到多个片段特征信息，基于所述多个片段特征信息，从源视频集合中确定第一源视频片段并基于第一源视频片段确定目标源视频标识。基于多个片段特征信息中的第一片段特征信息和第二片段特征信息，从源视频集合中确定第二源视频片段，并基于第二源视频片段确定目标时间点信息，得到源视频定位信息。该方法可以提高待检测视频片段和源视频间的关联性，提高视频片段检测的准确性和效率，从而提高视频片段推荐的连续性和效率。

同时，该方法降低了人工做视频片段标注需要的大量人力物力开销，又提高了用户体验，可以激发用户查看更多感兴趣的内容，从而为人均视频消费带来实质的提升，并优化了推荐引擎内容分发的效率；该方法还可以实现短视频和长视频ip内容的联动，通过短视频调度长视频的播放，降低长视频引流和推广成本。

本申请实施例还提供了一种视频片段检测装置，请参见图14，该装置包括：

片段特征提取模块1410，用于对待检测视频片段进行多维度特征提取，得到多个片段特征信息；

第一源视频片段确定模块1420，用于基于多个片段特征信息，从源视频集合中确定与每个片段特征信息匹配的至少一个第一源视频片段；

源视频标识匹配验证模块1430，被配置为执行对多个片段特征信息对应的多个第一源视频片段的源视频标识进行匹配验证，得到目标源视频标识；

第二源视频片段确定模块1440，用于基于多个片段特征信息中的第一片段特征信息和第二片段特征信息，从源视频集合中确定与第一片段特征信息匹配，且与第二片段特征信息匹配的至少一个第二源视频片段，第一片段特征信息为与时间信息无关的特征信息，第二片段特征信息为与时间信息相关的特征信息；

时间点确定模块1450，用于从第二源视频片段对应的时间点信息中，确定目标时间点信息；

定位信息确定模块1460，用于将目标源视频标识和目标时间点信息作为所述待检测视频片段对应的源视频定位信息。

在一些实施例中，第一源视频片段确定模块包括：

视频特征信息获取单元，用于获取源视频集合中每个源视频的视频特征信息，视频特征信息为与多个片段特征信息的特征类型分别对应的特征信息；

特征匹配单元，用于对每个片段特征信息和视频特征信息进行匹配，确定每个片段特征信息分别对应的至少一个第一源视频片段。

在一些实施例中，源视频标识匹配验证模块包括：

源视频标识数目获取单元，用于获取每个源视频标识的数目；

加权处理单元，用于基于预设的每个片段特征信息对应的权重信息，对每个源视频标识的数目进行加权处理；

目标源视频标识确定单元，用于根据加权后的源视频标识的数目，从源视频标识中确定目标源视频标识。

在一些实施例中，目标时间点信息包括目标起始时间点和目标结束时间点，时间点确定模块包括：

初始起始时间点确定单元，用于对第二源视频片段对应的起始时间点进行匹配验证，得到初始起始时间点；

初始结束时间点确定单元，用于对第二源视频片段对应的结束时间点进行匹配验证，得到初始结束时间点；

初始时长信息确定单元，用于基于初始起始时间点和初始结束时间点间的差值，得到初始时长信息；

时长验证单元，用于对初始时长信息进行时长验证，得到时长验证结果；

目标时间点确定单元，用于基于时长验证结果，确定目标起始时间点和目标结束时间点。

在一些实施例中，时长验证结果包括第一时长验证结果和第二时长验证结果，时长验证单元包括：

目标源片段确定单元，用于从第二源视频片段中确定目标源片段；

第一对比单元，用于对比初始时长信息和目标源片段对应的目标时长信息，得到第一时长验证结果；

第二对比单元，用于对比初始时长信息和待检测视频片段的待检测时长信息，得到第二时长验证结果；

目标时间点确定单元包括：

条件匹配单元，用于在第一时长验证结果指示初始时长信息小于等于目标时长信息，且第二时长验证结果指示初始时长信息大于等于待检测时长信息的情况下，将初始起始时间点确定为目标起始时间点，将初始结束时间点确定为目标结束时间点。

在一些实施例中，目标源视频标识包括多个源视频标识的情况下，该装置还包括：

剪辑视频时间点确定单元，用于从第二源视频片段对应的起始时间点中，确定每个目标源视频标识对应的目标起始时间点；

剪辑视频定位单元，用于将每个目标源视频标识和每个目标源视频标识对应的目标起始时间点作为待检测视频片段对应的源视频定位信息。

在一些实施例中，多个片段特征信息包括片段文本特征信息、片段图像特征信息和片段音频特征信息，片段特征提取模块包括：

文本特征提取单元，用于基于预设的文本特征提取模型，对待检测视频片段进行文本特征提取，得到片段文本特征信息；

图像特征提取单元，用于基于预设的图像特征提取模型，对待检测视频片段进行图像特征提取，得到片段图像特征信息；

音频特征提取单元，用于基于预设的音频特征提取模型，对待检测视频片段进行音频特征提取，得到片段音频特征信息。

在一些实施例中，该装置还包括：

当前定位信息获取模块，用于响应于目标对象对应的当前视频片段的播放指令，获取当前视频片段的当前源视频定位信息；

下一视频片段确定模块，用于基于当前源视频定位信息，确定当前视频片段的下一视频片段；

推荐模块，用于在当前视频片段播放结束时，向目标对象推荐下一视频片段。

上述实施例中提供的装置可执行本申请任意实施例所提供方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的一种视频片段检测方法。

本申请实施例还提供了一种视频片段检测***，请参见图15，该***包括：生产端、消费端和服务器。服务器包括内容分发出口服务、人工审核***、调度中心服务、上下行接口服务、内容数据库、多模态片源定位服务、向量检索服务、多模态向量生成服务、文本解析及音视抽帧服务、源视频库、内容存储服务、下载文件***。

其中，生产端和消费端均和上下行接口服务电连接，上下行接口服务和调度中心服务、内容存储服务以及内容数据库电连接，调度中心服务和多模态片源定位服务、人工审核***以及内容分发出口服务电连接，内容分发出口服务和消费端电连接，人工审核***和内容数据库电连接。多模态片源定位服务和向量检索服务以及多模态向量生成服务电连接，向量检索服务和多模态向量生产服务电连接。多模态向量生成服务和文本解析及音视抽帧服务电连接，文本解析及音视抽帧服务和下载文件***以及源视频库电连接，下载文件***和内容存储服务电连接，内容存储服务和消费端电连接。

生产端可以为专业生产内容（Professional Generated Content，PGC）或者用户生成内容（User Generate Content，UGC），通过移动端或者后端接口***，提供视频内容，该视频内容为推荐分发内容的主要内容来源。

生产端和上下行内容接口服务的通讯，进行视频内容发布的生产端通常是一个拍摄摄影端，拍摄过程当中本地视频内容可以选择搭配的音乐，剪辑，选择封面图，滤镜模板和视频的美化功能等等；

消费端和上下行内容接口服务器通讯，推过推荐获取访问内容的索引信息，然后和内容存储服务通讯，获取对应的内容包括推荐得到内容，专题订阅的内容，内容存储服务存储的是内容实体比如视频源文件，封面图的图片源文件，而内容的元信息比如标题，作者，封面图，分类，标签信息等等存储在内容数据库。同时消费端可以将上传和下载过程当中用户播放的行为数据，卡顿，加载时间，播放点击等上报给后端用于统计分析。消费端通常通过Feeds流方式浏览内容数据。

上下行内容接口服务和生产端直接通讯，从生产端提交的内容，通常是内容的标题，发布者，摘要，封面图和发布时间等，上下行内容接口服务把文件存入内容数据库。上下行内容接口服务将内容的元信息，比如文件大小，封面图链接，标题，发布时间，作者等信息写入内容数据库。上下行内容接口服务将发布的提交的内容同步给调度中心服务，进行后续的内容处理和流转。

内容数据库是内容的核心数据库，所有生产者发布内容的元信息都保存在这个业务数据库当中，重点是内容本身的元信息比如文件大小，封面图链接，码率，文件格式，标题，发布时间，作者，视频文件大小，视频格式，是否原创的标记或者首发还包括人工审核过程中对内容的分类。

人工审核***进行人工审核的过程当中会读取内容数据库当中的信息，同时人工审核的结果和状态也会回传进入内容数据库。

调度中心服务可以对内容处理，主要包括机器处理和人工审核处理，这里机器处理核心包括各种质量判断比如低质过滤，内容标签比如分类，标签信息，还有就是内容相似排查，结果会写入内容数据库，完全重复一样的内容不会给人工进行重复的二次处理，节省审核的人力资源。

调度中心服务负责内容流转的整个调度过程，通过上下行内容接口服务接收入库的内容，然后从内容数据库中获取内容的元信息；

调度中心服务可以调度人工审核***和机器处理***，控制调度的顺序和优先级。调度中心服务通过人工审核***内容被启用，然后通过内容出口分发服务直接的展示页面提供给终端的消费端，也就是消费端获得的内容索引信息，通常是内容访问的入口地址。

人工审核***是人工服务能力的载体，主要用于审核过滤敏感，色情，法律不允许等机器无法确定判断的内容，同时还对进行视频内容的标签标注；

内容存储服务可以存储内容的元信息之外的内容实体信息，比如视频源文件和图文内容的图片源文件。在获取视频内容标签特征的时候，提供视频源文件包括源文件中间的抽帧内容和音频信息的临时存储，避免重复抽取。

下载文件***可以从内容存储服务下载和获取原始的内容，控制下载的速度和进度，通常是一组并行的服务器，有相关的任务调度和分发集群构成。下载完成的文件调用文本解析及视音频抽帧服务从源文件当中获取必要的视频文件的视频帧和音频信息，作为后续构造视频的图像向量和音频向量的基础输入。

文本解析及视音频抽帧服务可以按照上面提到的算法和策略，对下载文件***从内容存储服务以及源视频库上下载到的文件进行文件特征的初级处理。按照上面描述的视频模态和音频模态的特征构建方法，来抽取视频的帧图像作为视频查找，视频的关联数据源。

多模态向量生成服务可以按照上面的描述的方法为每个待检测视频片段获得一个文本向量，很多视觉帧向量和音频内容向量。生成的向量可以写入向量检索服务当中存储和索引，方便定位检索。

源视频库可以人工收集或者互联网上下载的用于定位片源的源内容库，比如影视综，体育，动漫，游戏等垂类视频内容库，然后通过实现人工运营和机器学习知识图谱中抽取出作品名称、集数、演员、角色等关键信息。源视频库和文本解析及视音频抽帧服务通讯，对于源视频库的内容建立向量索引；

向量检索服务在构建的多模态视频向量的基础上，使用Faiss库来存储和管理向量，同时使用Faiss的向量匹配检索功能作为检索服务的基础，并与多模态片源定位服务通讯，完成基础的视频多模态向量管理的检索服务的底层实现；

多模态片源定位服务可以对待检测视频片段，进行文本信息识别，抽取视频帧等特征提取操作，然后按照的方法把不同的向量作为查询的入口来检索所有源视频库的内容，实现准确的视频片段定位，定位为每个待检测视频片段的源视频标识、目标起始时间点和目标结束时间点。

上述实施例中提供的***可执行本申请任意实施例所提供方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的一种视频片段检测方法。

本实施例还提供了一种计算机可读存储介质，存储介质中存储有计算机可执行指令，计算机可执行指令由处理器加载并执行本实施例上述的一种视频片段检测方法。

本实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该电子设备执行上述视频片段检测的各种可选实现方式中提供的方法。

本实施例还提供了一种电子设备，该电子设备包括处理器和存储器，其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行本实施例上述的一种视频片段检测方法。

电子设备可以为计算机终端、移动终端或服务器，电子设备还可以参与构成本申请实施例所提供的装置或***。如图16所示，服务器16可以包括一个或多个（图中采用1602a、1602b，……，1602n来示出）处理器1602（处理器1602可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器1604、以及用于通信功能的传输装置1606。除此以外，还可以包括：输入/输出接口、网络接口、电源和/或相机。本领域普通技术人员可以理解，图16所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，服务器16还可包括比图16中所示更多或者更少的组件，或者具有与图16所示不同的配置。

应当注意到的是上述一个或多个处理器1602和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到服务器16中的其他元件中的任意一个内。

存储器1604可用于存储应用软件的软件程序以及模块，如本申请实施例中的方法对应的程序指令/数据存储装置，处理器1602通过运行存储在存储器1604内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种基于自注意力网络的时序行为捕捉框生成方法。存储器1604可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1604可进一步包括相对于处理器1602远程设置的存储器，这些远程存储器可以通过网络连接至服务器16。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器16的通信供应商提供的无线网络。在一个实例中，传输装置1606包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置1606可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或中断产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行（例如并行处理器或者多线程处理的环境）。

本实施例中所示出的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比示出的更多或更少的部件，或者组合某些部件，或者具有不同的部件的布置。应当理解到，本实施例中所揭露的方法、装置等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元模块的间接耦合或通信连接。

基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员还可以进一步意识到，结合本说明书所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但这种实现不应认为超出本申请的范围。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频片段检测方法，其特征在于，所述方法包括：

对所述多个片段特征信息对应的多个第一源视频片段的源视频标识进行匹配验证，得到目标源视频标识，所述多个片段特征信息包括片段文本特征信息、片段图像特征信息和片段音频特征信息；

对所述第二源视频片段的起始时间点进行匹配验证，得到初始起始时间点；对所述第二源视频片段的结束时间点进行匹配验证，得到初始结束时间点；基于所述初始起始时间点和所述初始结束时间点间的差值，得到初始时长信息；

对所述初始时长信息进行时长验证，得到时长验证结果，所述时长验证结果包括第一时长验证结果和第二时长验证结果，所述第一时长验证结果指示所述初始时长信息是否小于等于所述第二源视频片段中目标源片段对应的目标时长信息，所述第二时长验证结果指示所述初始时长信息是否大于等于所述待检测视频片段的待检测时长信息；

基于所述时长验证结果，确定目标时间点信息，所述目标时间点信息包括目标起始时间点和目标结束时间点，或所述目标时间点信息包括目标起始时间点；

2.根据权利要求1所述的视频片段检测方法，其特征在于，所述基于所述多个片段特征信息，从源视频集合中确定每个片段特征信息分别对应的第一源视频片段包括：

获取所述源视频集合中每个源视频的视频特征信息，所述视频特征信息为与所述多个片段特征信息的特征类型分别对应的特征信息；

将所述每个片段特征信息和所述视频特征信息进行匹配，确定所述每个片段特征信息分别对应的至少一个第一源视频片段。

3.根据权利要求1所述的视频片段检测方法，其特征在于，所述对所述多个片段特征信息对应的多个第一源视频片段的源视频标识进行匹配验证，得到目标源视频标识包括：

获取每个源视频标识的数目；

基于预设的每个片段特征信息对应的权重信息，对所述每个源视频标识的数目进行加权处理；

根据加权后的源视频标识的数目，从所述源视频标识中确定目标源视频标识。

4.根据权利要求1所述的视频片段检测方法，其特征在于，所述对所述初始时长信息进行时长验证，得到时长验证结果包括：

从所述第二源视频片段中确定所述目标源片段；

对比所述初始时长信息和所述目标源片段对应的目标时长信息，得到所述第一时长验证结果；

对比所述初始时长信息和所述待检测视频片段的待检测时长信息，得到所述第二时长验证结果；

所述基于所述时长验证结果，确定所述目标时间点信息包括：

在所述第一时长验证结果指示所述初始时长信息小于或等于所述目标时长信息，且所述第二时长验证结果指示所述初始时长信息大于或等于所述待检测时长信息的情况下，将所述初始起始时间点确定为所述目标起始时间点，将所述初始结束时间点确定为所述目标结束时间点。

5.根据权利要求1所述的视频片段检测方法，其特征在于，所述目标源视频标识包括多个源视频标识的情况下，所述方法还包括：

从所述第二源视频片段对应的起始时间点中，确定每个目标源视频标识对应的目标起始时间点；

将所述每个目标源视频标识和所述每个目标源视频标识对应的目标起始时间点作为所述待检测视频片段对应的源视频定位信息。

6.根据权利要求1所述的视频片段检测方法，其特征在于，所述对待检测视频片段进行多维度特征提取，得到多个片段特征信息包括：

基于预设的文本特征提取模型，对所述待检测视频片段进行文本特征提取，得到片段文本特征信息；

基于预设的图像特征提取模型，对所述待检测视频片段进行图像特征提取，得到片段图像特征信息；

基于预设的音频特征提取模型，对所述待检测视频片段进行音频特征提取，得到片段音频特征信息。

7.根据权利要求1所述的视频片段检测方法，其特征在于，所述方法还包括：

响应于目标对象对应的当前视频片段的播放指令，获取所述当前视频片段的当前源视频定位信息；

基于所述当前源视频定位信息，确定所述当前视频片段的下一视频片段；

在所述当前视频片段播放结束时，向所述目标对象推荐所述下一视频片段。

8.一种视频片段检测装置，其特征在于，所述装置包括：

片段特征提取模块，用于对待检测视频片段进行多维度特征提取，得到多个片段特征信息，所述多个片段特征信息包括片段文本特征信息、片段图像特征信息和片段音频特征信息；

时间点确定模块，所述时间点确定模块包括初始起始时间点确定单元，用于对所述第二源视频片段的起始时间点进行匹配验证，得到初始起始时间点；初始结束时间点确定单元，用于对所述第二源视频片段的结束时间点进行匹配验证，得到初始结束时间点；初始时长信息确定单元，用于基于所述初始起始时间点和所述初始结束时间点间的差值，得到初始时长信息；

时长验证单元，用于对初始时长信息进行时长验证，得到时长验证结果，所述时长验证结果包括第一时长验证结果和第二时长验证结果，所述第一时长验证结果指示所述初始时长信息是否小于等于所述第二源视频片段中目标源片段对应的目标时长信息，所述第二时长验证结果指示所述初始时长信息是否大于等于所述待检测视频片段的待检测时长信息；

目标时间点确定单元，用于基于所述时长验证结果，确定目标时间点信息，所述目标时间点信息包括目标起始时间点和目标结束时间点，或所述目标时间点信息包括目标起始时间点；

9.根据权利要求8所述的视频片段检测装置，其特征在于，所述第一源视频片段确定模块包括：

视频特征信息获取单元，用于获取所述源视频集合中每个源视频的视频特征信息，所述视频特征信息为与所述多个片段特征信息的特征类型分别对应的特征信息；

特征匹配单元，用于将所述每个片段特征信息和所述视频特征信息进行匹配，确定所述每个片段特征信息分别对应的至少一个第一源视频片段。

10.根据权利要求8所述的视频片段检测装置，其特征在于，所述源视频标识匹配验证模块包括：

加权处理单元，用于基于预设的每个片段特征信息对应的权重信息，对所述每个源视频标识的数目进行加权处理；

目标源视频标识确定单元，用于根据加权后的源视频标识的数目，从所述源视频标识中确定目标源视频标识。

11.根据权利要求8所述的视频片段检测装置，其特征在于，所述时长验证单元包括：

目标源片段确定单元，用于从所述第二源视频片段中确定所述目标源片段；

第一对比单元，用于对比所述初始时长信息和所述目标源片段对应的目标时长信息，得到所述第一时长验证结果；

第二对比单元，用于对比所述初始时长信息和所述待检测视频片段的待检测时长信息，得到所述第二时长验证结果；

所述目标时间点确定单元包括：

条件匹配单元，用于在所述第一时长验证结果指示所述初始时长信息小于或等于所述目标时长信息，且所述第二时长验证结果指示所述初始时长信息大于或等于所述待检测时长信息的情况下，将所述初始起始时间点确定为所述目标起始时间点，将所述初始结束时间点确定为所述目标结束时间点。

12.根据权利要求8所述的视频片段检测装置，其特征在于，所述目标源视频标识包括多个源视频标识的情况下，所述装置还包括：

剪辑视频时间点确定单元，用于从所述第二源视频片段对应的起始时间点中，确定每个目标源视频标识对应的目标起始时间点；

剪辑视频定位单元，用于将所述每个目标源视频标识和所述每个目标源视频标识对应的目标起始时间点作为所述待检测视频片段对应的源视频定位信息。

13.根据权利要求8所述的视频片段检测装置，其特征在于，所述片段特征提取模块包括：

文本特征提取单元，用于基于预设的文本特征提取模型，对所述待检测视频片段进行文本特征提取，得到片段文本特征信息；

图像特征提取单元，用于基于预设的图像特征提取模型，对所述待检测视频片段进行图像特征提取，得到片段图像特征信息；

音频特征提取单元，用于基于预设的音频特征提取模型，对所述待检测视频片段进行音频特征提取，得到片段音频特征信息。

14.根据权利要求8所述的视频片段检测装置，其特征在于，所述装置还包括：

当前定位信息获取模块，用于响应于目标对象对应的当前视频片段的播放指令，获取所述当前视频片段的当前源视频定位信息；

下一视频片段确定模块，用于基于所述当前源视频定位信息，确定所述当前视频片段的下一视频片段；

推荐模块，用于在所述当前视频片段播放结束时，向所述目标对象推荐所述下一视频片段。

15.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7任一项所述的视频片段检测方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7任一项所述的视频片段检测方法。

17.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的视频片段检测方法。