CN111291224A

CN111291224A - 视频流数据处理方法、装置、服务器及存储介质

Info

Publication number: CN111291224A
Application number: CN202010096782.9A
Authority: CN
Inventors: 董小斐
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-16

Abstract

本发明实施例提供了一种视频流数据处理方法、装置、服务器及存储介质，所述方法包括：获取视频流数据，从所述视频流数据中提取预设第一数量的第一关键帧；识别所述视频流数据对应的标签，根据所述标签查找候选视频流数据集；针对任一第一关键帧，从所述候选视频流数据集中查找相匹配的候选视频流数据，并更新所述候选视频流数据对应的匹配次数；统计所述候选视频流数据集中任一候选视频流数据对应的匹配次数；基于所述匹配次数，从所述候选视频流数据集中确定目标视频流数据，并与所述视频流数据进行链接。如此在诸如短视频等视频流数据的场景下，基于视频流数据进行实体链接，可以提高实体链接的准确率。

Description

视频流数据处理方法、装置、服务器及存储介质

技术领域

本发明涉及视频流数据技术领域，尤其涉及一种视频流数据处理方法、装置、服务器及存储介质。

背景技术

实体链接，是指将文本中的实体，根据上下文确定其在知识库中的目标实体。例如，对于文本中的“苹果”，根据上下文确定其在知识库中的目标实体：水果中的“苹果”，或者苹果公司，或者电影《苹果》等。实体链接对于搜索、推荐、feed质量评估等任务，都起到至关重要的作用。

然而在诸如短视频等视频流数据的场景下，文本信息较少而导致上下文不充足，基于现有的纯文本的实体链接方法往往不能准确链接到知识库中的目标实体(例如相关影视剧专辑)，影响了实体链接的准确率。例如短视频“奇葩说高晓松蔡康永辩论”，仅通过文本信息无法确定是奇葩说第几季中第几集。

发明内容

本发明实施例的目的在于提供一种视频流数据处理方法、装置、服务器及存储介质，以实现在诸如短视频等视频流数据的场景下，提高实体链接的准确率的有益效果。具体技术方案如下：

在本发明实施例的第一方面，首先提供了一种视频流数据处理方法，所述方法包括：

获取视频流数据，从所述视频流数据中提取预设第一数量的第一关键帧；识别所述视频流数据对应的标签，根据所述标签查找候选视频流数据集；针对任一第一关键帧，从所述候选视频流数据集中查找相匹配的候选视频流数据，并更新所述候选视频流数据对应的匹配次数；统计所述候选视频流数据集中任一候选视频流数据对应的匹配次数；基于所述匹配次数，从所述候选视频流数据集中确定目标视频流数据，并与所述视频流数据进行链接。

在一个可选的实施方式中，所述根据所述标签查找候选视频流数据集，包括：

根据所述标签查找候选视频流数据集对应的所有第一特征向量；

所述针对任一第一关键帧，从所述候选视频流数据集中查找相匹配的候选视频流数据，包括：

针对任一第一关键帧，输入至预设的视频流特征提取模型，以使所述视频流特征提取模型输出对应的第二特征向量；若存在所述第一特征向量与所述第二特征向量相匹配，从所述候选视频流数据集中查找所述第一特征向量对应的候选视频流数据，作为与该第一关键帧相匹配的候选视频流数据。

在一个可选的实施方式中，所述根据所述标签查找候选视频流数据集对应的所有第一特征向量，包括：

根据所述标签查找候选视频流数据集对应的所有第一特征压缩向量；

所述若存在所述第一特征向量与所述第二特征向量相匹配，从所述候选视频流数据集中查找所述第一特征向量对应的候选视频流数据，包括：

利用预设的压缩算法对所述第二特征向量进行压缩，生成第二特征压缩向量；若存在所述第一特征压缩向量与所述第二特征压缩向量相匹配，从所述候选视频流数据集中查找所述第一特征压缩向量对应的候选视频流数据。

在一个可选的实施方式中，所述方法还包括：

获取候选视频流数据集，并识别所述候选视频流数据集对应的标签；从所述候选视频流数据集的每个候选视频流数据中提取预设第二数量的第二关键帧；将所述第二关键帧输入预设的视频流特征提取模型，以使所述视频流特征提取模型输出对应的第一特征向量；利用预设的压缩算法对所述第一特征向量进行压缩，生成第一特征压缩向量；将所述候选视频流数据集对应的所有第一特征压缩向量进行聚类，建立所述标签与所述候选视频流数据集对应的所有第一特征压缩向量的索引。

在一个可选的实施方式中，所述视频流特征提取模型具体通过以下方式得到：

获取预训练模型，以及从目标视频流中提取第三关键帧组成关键帧数据集；按照以下步骤进行迭代，直至所述预训练模型的指标满足预设条件，以生成视频流特征提取模型：从所述关键帧数据集中选取一帧第三关键帧进行裁剪处理，生成第一训练样本；从所述关键帧数据集中选取另一帧第三关键帧进行裁剪处理，生成第二训练样本；基于所述第一训练样本以及所述第二训练样本对所述预训练模型进行模型训练。

在一个可选的实施方式中，所述基于所述匹配次数，从所述候选视频流数据集中确定目标视频流数据，包括：

基于所述匹配次数，对所述候选视频流数据集中的候选视频流数据进行降序排序；选取排名第一的第一候选视频流数据以及排名第二的第二候选视频流数据；基于所述第一候选视频流数据对应的匹配次数，以及所述第二候选视频流数据对应的匹配次数，从所述候选视频流数据集中确定目标视频流数据。

在一个可选的实施方式中，所述基于所述第一候选视频流数据对应的匹配次数，以及所述第二候选视频流数据对应的匹配次数，从所述候选视频流数据集中确定目标视频流数据，包括：

将所述第一候选视频流数据对应的匹配次数，以及所述第二候选视频流数据对应的匹配次数输入至预设的相似度计算模型；判断所述相似度计算模型输出结果是否不小于预设阈值；若所述相似度计算模型输出结果不小于预设阈值，从所述候选视频流数据集中确定所述第一候选视频流数据为目标视频流数据。

在一个可选的实施方式中，所述相似度计算模型，包括：

Score＝(log(top1_count-N))*(top1_count/(top2_count+1))；

其中，所述Score为所述相似度计算模型输出结果，所述top1_count为所述第一候选视频流数据对应的匹配次数，所述top2_count为所述第二候选视频流数据对应的匹配次数，所述N为第一关键帧的数量。

在本发明实施例的第二方面，还提供了一种视频流数据处理装置，所述装置包括：

关键帧提取模块，用于获取视频流数据，从所述视频流数据中提取预设第一数量的第一关键帧；

数据集查找模块，用于识别所述视频流数据对应的标签，根据所述标签查找候选视频流数据集；

关键帧匹配模块，用于针对任一第一关键帧，从所述候选视频流数据集中查找相匹配的候选视频流数据，并更新所述候选视频流数据对应的匹配次数；

次数统计模块，用于统计所述候选视频流数据集中任一候选视频流数据对应的匹配次数；

数据确定模块，用于基于所述匹配次数，从所述候选视频流数据集中确定目标视频流数据，并与所述视频流数据进行链接。

在一个可选的实施方式中，所述数据集查找模块具体用于：

所述关键帧匹配模块包括：

向量提取子模块，用于针对任一第一关键帧，输入至预设的视频流特征提取模型，以使所述视频流特征提取模型输出对应的第二特征向量；

关键帧匹配子模块，用于若存在所述第一特征向量与所述第二特征向量相匹配，从所述候选视频流数据集中查找所述第一特征向量对应的候选视频流数据，作为与该第一关键帧相匹配的候选视频流数据。

在一个可选的实施方式中，所述数据集查找模块具体用于：

所述关键帧匹配子模块具体用于：

在一个可选的实施方式中，所述装置还包括：

向量聚类模块，用于获取候选视频流数据集，并识别所述候选视频流数据集对应的标签；从所述候选视频流数据集的每个候选视频流数据中提取预设第二数量的第二关键帧；将所述第二关键帧输入预设的视频流特征提取模型，以使所述视频流特征提取模型输出对应的第一特征向量；利用预设的压缩算法对所述第一特征向量进行压缩，生成第一特征压缩向量；将所述候选视频流数据集对应的所有第一特征压缩向量进行聚类，建立所述标签与所述候选视频流数据集对应的所有第一特征压缩向量的索引。

在一个可选的实施方式中，所述装置还包括：

模型生成模块，用于获取预训练模型，以及从目标视频流中提取第三关键帧组成关键帧数据集；按照以下步骤进行迭代，直至所述预训练模型的指标满足预设条件，以生成视频流特征提取模型：从所述关键帧数据集中选取一帧第三关键帧进行裁剪处理，生成第一训练样本；从所述关键帧数据集中选取另一帧第三关键帧进行裁剪处理，生成第二训练样本；基于所述第一训练样本以及所述第二训练样本对所述预训练模型进行模型训练。

在一个可选的实施方式中，所述数据确定模块包括：

数据排序子模块，用于基于所述匹配次数，对所述候选视频流数据集中的候选视频流数据进行降序排序；

数据选取子模块，用于选取排名第一的第一候选视频流数据以及排名第二的第二候选视频流数据；

数据确定子模块，用于基于所述第一候选视频流数据对应的匹配次数，以及所述第二候选视频流数据对应的匹配次数，从所述候选视频流数据集中确定目标视频流数据。

在一个可选的实施方式中，所述数据确定子模块具体用于：

在一个可选的实施方式中，所述相似度计算模型，包括：

Score＝(log(top1_count-N))*(top1_count/(top2_count+1))；

在本发明实施例的第三方面，还提供了一种服务器，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的视频流数据处理方法。

在本发明实施例的第四方面，还提供了一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面中任一所述的视频流数据处理方法。

在本发明实施例的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面中任一所述的视频流数据处理方法。

本发明实施例提供的技术方案，通过从视频流数据中提取预设第一数量的第一关键帧，根据视频流数据对应的标签查找候选视频流数据集，针对任一第一关键帧，从候选视频流数据集中查找相匹配的候选视频流数据，并更新该候选视频流数据对应的匹配次数，统计候选视频流数据集中任一候选视频流数据对应的匹配次数，基于该匹配次数从候选视频流数据集中确定目标视频流数据，与视频流数据进行链接。如此在诸如短视频等视频流数据的场景下，基于视频流数据进行实体链接，可以提高实体链接的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中示出的一种视频流数据处理方法的实施流程示意图；

图2为本发明实施例中示出的一种得到视频流特征提取模型的实施流程示意图；

图3为本发明实施例中示出的另一种视频流数据处理方法的实施流程示意图；

图4为本发明实施例中示出的一种视频流特征提取模型的示意图；

图5为本发明实施例中示出的另一种视频流数据处理方法的实施流程示意图；

图6为本发明实施例中示出的一种视频流数据处理装置的结构示意图；

图7为本发明实施例中示出的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例提供的一种视频流数据处理方法的实施流程示意图，该方法具体可以包括以下步骤：

S101，获取视频流数据，从所述视频流数据中提取预设第一数量的第一关键帧；

在本发明实施例中，可以获取视频流数据，对于视频流数据，例如可以是短视频，可以是图像集合，本发明实施例对此不作限定。

对于上述视频流数据，从视频流数据中提取预设第一数量的第一关键帧。具体地，可以是基于预设的关键帧提取规则，从视频流数据中提取预设第一数量的第一关键帧。

例如，对于“奇葩说第一季高晓松蔡康永辩论”短视频，以两秒为时间间隔，提取第一关键帧，具体提取的第一关键帧的数量可以是20帧。

S102，识别所述视频流数据对应的标签，根据所述标签查找候选视频流数据集；

对于上述视频流数据，一方面从视频流数据中提取预设第一数量的第一关键帧，另一方面识别该视频流数据对应的标签，其中标签可以是短视频的名称(即实体名)，可以是短视频的ID，本发明实施例对此不作限定。

具体地，可以通过文本实体识别，识别视频流数据对应的标签，进而根据该标签查找候选视频流数据集。

例如，对于“奇葩说第一季高晓松蔡康永辩论”短视频，通过文本实体识别，识别短视频对应的mention(实体名)：“奇葩说第一季”，进而可以根据“奇葩说第一季”查找候选视频流数据集：“奇葩说第一季第一期”、“奇葩说第一季第二期”、“奇葩说第一季第三期”、“奇葩说第一季第四期”、“奇葩说第一季第五期”等。

S103，针对任一第一关键帧，从所述候选视频流数据集中查找相匹配的候选视频流数据，并更新所述候选视频流数据对应的匹配次数；

对于上述提取的预设第一数量的第一关键帧，针对任一第一关键帧，本发明实施例从上述候选视频流数据集中查找与其相匹配的候选视频流数据。

而对于该候选视频流数据，与该第一关键帧匹配成功，可以更新该候选视频流数据的匹配次数，在原有匹配次数的基础之上加1。

例如，对于“奇葩说第一季高晓松蔡康永辩论”短视频，以两秒为时间间隔，提取20帧第一关键帧，以第一关键帧1为例，从上述“奇葩说第一季第一期”、“奇葩说第一季第二期”、“奇葩说第一季第三期”、“奇葩说第一季第四期”、“奇葩说第一季第五期”中，查找与第一关键帧1相匹配的“奇葩说第一季第一期”，第一关键帧1与“奇葩说第一季第一期”匹配成功，此时更新“奇葩说第一季第一期”的匹配次数，在原有匹配次数的基础之上加1，对于其它第一关键帧类似，本发明实施例在此不再一一赘述。

S104，统计所述候选视频流数据集中任一候选视频流数据对应的匹配次数；

经过上述步骤，对于上述候选视频流数据集，统计该候选视频流数据集中任一候选视频流数据对应的匹配次数。

例如，对于“奇葩说第一季第一期”、“奇葩说第一季第二期”、“奇葩说第一季第三期”、“奇葩说第一季第四期”、“奇葩说第一季第五期”，统计各自对应的匹配次数，如下表1所示。

候选视频流数据	匹配次数
		“奇葩说第一季第一期”	20
“奇葩说第一季第二期”	0
		“奇葩说第一季第三期”	0
“奇葩说第一季第四期”	0
		“奇葩说第一季第五期”	0

表1

S105，基于所述匹配次数，从所述候选视频流数据集中确定目标视频流数据，并与所述视频流数据进行链接。

在统计候选视频流数据集中任一候选视频流数据对应的匹配次数之后，可以基于上述候选视频流数据集中任一候选视频流数据对应的匹配次数，从候选视频流数据集中确定目标视频流数据，与上述视频流数据进行链接，如此可以完成实体链接。

例如，如上述表1所示，可以基于“奇葩说第一季第一期”对应的匹配次数、“奇葩说第一季第二期”对应的匹配次数、“奇葩说第一季第三期”对应的匹配次数、“奇葩说第一季第四期”对应的匹配次数、“奇葩说第一季第五期”对应的匹配次数，从“奇葩说第一季第一期”、“奇葩说第一季第二期”、“奇葩说第一季第三期”、“奇葩说第一季第四期”、“奇葩说第一季第五期”中确定目标视频流数据：“奇葩说第一季第一期”，与上述“奇葩说第一季高晓松蔡康永辩论”短视频进行链接，如此可以完成实体链接。

通过上述对本发明实施例提供的技术方案的描述，通过从视频流数据中提取预设第一数量的第一关键帧，根据视频流数据对应的标签查找候选视频流数据集，针对任一第一关键帧，从候选视频流数据集中查找相匹配的候选视频流数据，并更新该候选视频流数据对应的匹配次数，统计候选视频流数据集中任一候选视频流数据对应的匹配次数，基于该匹配次数从候选视频流数据集中确定目标视频流数据，与视频流数据进行链接。如此在诸如短视频等视频流数据的场景下，基于视频流数据进行实体链接，可以提高实体链接的准确率。

如图2所示，为本发明实施例提供的一种得到视频流特征提取模型的实施流程示意图，该方法具体可以包括以下步骤：

S201，获取预训练模型，以及从目标视频流中提取第三关键帧组成关键帧数据集；

在本发明实施例中，可以获取预训练模型，对于预训练模型可以是Xception预训练模型等，本发明实施例对此不作限定。

在本发明实施例中，可以从目标视频流中提取第三关键帧组成关键帧数据集。具体地，可以根据预设的关键帧提取规则从目标视频流中提取第三关键帧组成关键帧数据集。对于目标视频流，可以是当前比较热门的视频，例如“庆余年第一集”、“庆余年第二季”等，本发明实施例对此不作限定

例如，对于“庆余年全集”，可以以2秒为时间间隔，从“庆余年全集”中提取第三关键帧组成关键帧数据集，如此关键帧数据集中可以包括多个第三关键帧。

S202，按照以下步骤进行迭代，直至所述预训练模型的指标满足预设条件，以生成视频流特征提取模型：

对于上述获取的预训练模型，可以按照下述步骤S203-S205进行迭代，直至上述预训练模型的指标满足预设条件，以生成视频流特征提取模型。

其中，对于预训练模型的指标，可以是迭代次数，也可以是损失函数前后变化结果，本发明实施例对此不作限定。

具体地，在本发明实施例中，对于上述获取的预训练模型，可以按照下述步骤S203-S205进行迭代，直至预训练模型的迭代次数大于预设第一阈值，或者预训练模型的损失函数前后变化结果小于预设第二阈值，可以停止模型训练，以生成视频流特征提取模型，本发明实施例对此不作限定。

例如，本发明实施例构建损失函数，如下所示，对于Xception预训练模型，可以按照下述步骤S203-S205进行迭代，直至预训练模型的损失函数前后变化结果小于预设第二阈值，可以停止模型训练，以生成视频流特征提取模型。

Loss＝∑_(m，c)∈Tmax(0,1-sim(e，mc)+sim(e’，mc))；

其中，mc为第三关键帧自身的向量表示，e为第一训练样本(正样本)的向量表示，e’为第二训练样本(负样本)的向量表示，sim为计算余弦相似度。

S203，从所述关键帧数据集中选取一帧第三关键帧进行裁剪处理，生成第一训练样本；

对于上述关键帧数据集，在每次迭代过程中，本发明实施例从该关键帧数据集中选取一帧第三关键帧进行裁剪处理，生成第一训练样本。

具体地，可以从该关键帧数据集中随机选取一帧第三关键帧进行随机裁剪处理，生成第一训练样本。

其中，在本发明实施例中，对于裁剪处理，具体可以是裁剪该关键帧的边界，例如上边界、下边界、左边界、右边界，本发明实施例对此不作限定。对于裁剪比例，例如左边界裁剪范围在0-0.2，本发明实施例对此不作限定。

例如，对于关键帧数据集，从该关键帧数据集中选取第三关键帧1，裁剪第三关键帧1的左边界，可以生成第一训练样本(正样本)。

S204，从所述关键帧数据集中选取另一帧第三关键帧进行裁剪处理，生成第二训练样本；

在本发明实施例中，对于上述关键帧数据集，在每次迭代过程中，可以从该关键帧数据集中选取另一帧第三关键帧进行裁剪处理，生成第二训练样本，如此对于第一训练样本以及对于第二训练样本，在每次迭代过程中各自对应的第三关键帧不一致。

具体地，可以从该关键帧数据集中随机选取另一帧第三关键帧进行随机裁剪处理，生成第二训练样本。

例如，对于关键帧数据集，从该关键帧数据集中选取第三关键帧2，裁剪第三关键帧2的右边界，可以生成第二训练样本(负样本)，在当前迭代过程中第三关键帧2与上述第三关键帧1不同。

S205，基于所述第一训练样本以及所述第二训练样本对所述预训练模型进行模型训练。

基于上述步骤，在每次迭代过程中，从上述关键帧数据集中获取两帧不同的第三关键帧进行裁剪处理，可以生成第一训练样本以及第二训练样本，可以基于第一训练样本以及第二训练样本对上述预训练模型进行模型训练。

其中，在本发明实施例中采用的模型训练方法可以是梯度下降法，当然还可以是其它模型训练方法，本发明实施例对此不作限定。

例如，在每次迭代过程中，对于上述Xception预训练模型，基于第一训练样本以及第二训练样本，采用梯度下降法对Xception预训练模型进行模型训练。

通过上述对本发明实施例提供的生成视频流特征提取模型的技术方案的描述，增加裁剪处理的第一训练样本以及第二训练样本，可以有效提高视频流特征提取模型的抗噪性，能够对图像裁剪和图像噪声等具有一定程度的适应性。

基于上述视频流特征提取模型，如图3所示，本发明实施例还提供了另一种视频流数据处理方法的实施流程示意图，该方法具体可以包括以下步骤：

S301，获取视频流数据，从所述视频流数据中提取预设第一数量的第一关键帧；

在本发明实施例中，本步骤与上述步骤S101类似，本发明实施例在此不再一一赘述。

S302，识别所述视频流数据对应的标签，根据所述标签查找候选视频流数据集对应的所有第一特征向量；

在本发明实施例中，对于上述视频流数据，一方面从视频流数据中提取预设第一数量的第一关键帧，另一方面识别该视频流数据对应的标签，其中标签可以是短视频的名称(即实体名)，可以是短视频的ID，本发明实施例对此不作限定。

具体地，可以通过文本实体识别，识别视频流数据对应的标签，进而根据该标签查找候选视频流数据集对应的所有第一特征向量。

例如，对于“庆余年精彩集锦”短视频，通过文本实体识别，识别短视频对应的mention(实体名)：“庆余年”，由于预先建立候选视频流数据集对应的mention(实体名)：“庆余年”，与候选视频流数据集对应的所有第一特征向量的索引，可以根据mention(实体名)：“庆余年”进而查找候选视频流数据集对应的所有第一特征向量。

S303，针对任一第一关键帧，输入至预设的视频流特征提取模型，以使所述视频流特征提取模型输出对应的第二特征向量；

对于上述提取的预设第一数量的第一关键帧，针对任一第一关键帧，本发明实施例将其输入至上述得到的视频流特征提取模型，以使视频流特征提取模型输出与该第一关键帧对应的第二特征向量。

例如，对于“庆余年精彩集锦”短视频，以两秒为时间间隔，提取20帧第一关键帧，以第一关键帧1为例，输入至上述视频流特征提取模型，以使视频流特征提取模型输出与第一关键帧1对应的第二特征向量1，以此类推，如图4所示，可以得到与上述第一关键帧对应的20个第二特征向量。

S304，若存在所述第一特征向量与所述第二特征向量相匹配，从所述候选视频流数据集中查找所述第一特征向量对应的候选视频流数据，作为与该第一关键帧相匹配的候选视频流数据，并更新所述候选视频流数据对应的匹配次数；

对于上述候选视频流数据集对应的所有第一特征向量，如果存在第一特征向量与上述第二特征向量相匹配，则从上述候选视频流数据集中查找该第一特征向量对应的候选视频流数据，作为与该第一关键帧相匹配的候选视频流数据。

例如，如图4所示，对于第二特征向量1，如果存在第一特征向量与第二特征向量1相匹配，从上述候选视频流数据集中查找该第一特征向量对应的候选视频流数据，作为与该第一关键帧1相匹配的候选视频流数据。

具体地，有可能存在多个第一特征向量与第二特征向量1相匹配，可以选取排名前五的第一特征向量，从上述候选视频流数据集中查找这五个第一特征向量对应的候选视频流数据，作为与该第一关键帧1相匹配的候选视频流数据。

对于该候选视频流数据，与该第一关键帧匹配成功，可以更新该候选视频流数据的匹配次数，在原有匹配次数的基础之上加1。

例如，对于“庆余年精彩集锦”短视频，以两秒为时间间隔，提取20帧第一关键帧，以第一关键帧1为例，对于第一关键帧1对应的第二特征向量1，如果存在第一特征向量与第二特征向量1相匹配，从上述候选视频流数据集中查找该第一特征向量对应的“庆余年第一集”，与该第一关键帧1相匹配，从而更新“庆余年第一集”的的匹配次数，在原有匹配次数的基础之上加1，对于其它第一关键帧类似，本发明实施例在此不再一一赘述。

S305，统计所述候选视频流数据集中任一候选视频流数据对应的匹配次数；

在本发明实施例中，本步骤与上述步骤S104类似，本发明实施例在此不再一一赘述。

S306，基于所述匹配次数，从所述候选视频流数据集中确定目标视频流数据，并与所述视频流数据进行链接。

在本发明实施例中，本步骤与上述步骤S105类似，本发明实施例在此不再一一赘述。

在本发明实施例中，为了节省存储空间，提高实体链接的效率，可以对特征向量进行压缩，如图5所示，本发明实施例还提供了另一种视频流数据处理方法的实施流程示意图，该方法具体可以包括以下步骤：

S501，获取视频流数据，从所述视频流数据中提取预设第一数量的第一关键帧；

S502，识别所述视频流数据对应的标签，根据所述标签查找候选视频流数据集对应的所有第一特征压缩向量；

在本发明实施例中，对于候选视频流数据集中的每个候选视频流数据进行以下处理，可以得到候选视频流数据集对应的所有第一特征压缩向量：

步骤1、获取该候选视频流数据集，并识别该候选视频流数据集对应的标签；

获取候选视频流数据集，对于该候选视频流数据集，例如可以是“庆余年全集”，包含“庆余年第一集”、“庆余年第二集”、……，识别该“庆余年全集”对应的标签“庆余年”。

步骤2、从候选视频流数据集的每个候选视频流数据中提取预设第二数量的第二关键帧；

在本发明实施例中可以基于预设的关键帧提取规则，从候选视频流数据集的每个候选视频流数据中提取预设第二数量的第二关键帧。

例如，对于“庆余年全集”中的“庆余年第一集”，以两秒为时间间隔，提取1000帧第二关键帧，对于“庆余年第二集”、“庆余年第三集”、……类似，本发明实施例在此不再一一赘述。

步骤3、将所述第二关键帧输入预设的视频流特征提取模型，以使所述视频流特征提取模型输出对应的第一特征向量；

对于上述提取的第二关键帧，可以输入上述视频流特征提取模型，以使视频流特征提取模型输出与该第二关键帧对应的第一特征向量。

例如，以第二关键帧1为例，输入至视频流特征提取模型，以使视频流特征提取模型输出与该第二关键帧1对应的第一特征向量1，对于其它第二关键帧2、第二关键帧3、……类似，本发明实施例在此不再一一赘述。

步骤4、利用预设的压缩算法对所述第一特征向量进行压缩，生成第一特征压缩向量；

在本发明实施例中，为了对上述第一特征向量进行压缩，采用的压缩算法可以是PCA(principal components analysis，主成分分析技术)、PQ(product quantization，乘积量化)等压缩算法，本发明实施例对此不作限定。

例如，对于视频流特征提取模型输出的第一特征向量1为2048维，将第一特征向量1先经过PCA降维到256维，然后使用PQ量化压缩为16字节，如此可以生成第一特征压缩向量。

步骤5、将所述候选视频流数据集对应的所有第一特征压缩向量进行聚类，建立所述标签与所述候选视频流数据集对应的所有第一特征压缩向量的索引。

对于上述候选视频流数据集对应的所有第一特征压缩向量，以标签为聚类条件，将上述候选视频流数据集对应的所有第一特征压缩向量进行聚类，同时建立标签与上述候选视频流数据集对应的所有第一特征压缩向量之间的索引。

基于上述处理，对于上述视频流数据，一方面从视频流数据中提取预设第一数量的第一关键帧，另一方面识别该视频流数据对应的标签，基于该标签可以查找候选视频流数据集对应的所有第一特征压缩向量。

S503，针对任一第一关键帧，输入至预设的视频流特征提取模型，以使所述视频流特征提取模型输出对应的第二特征向量；

在本发明实施例中，本步骤与上述S303类似，本发明实施例在此不再一一赘述。

S504，利用预设的压缩算法对所述第二特征向量进行压缩，生成第二特征压缩向量；

对于上述得到的第二特征向量，为了对第二特征向量进行压缩，采用的压缩算法可以是PCA(principal components analysis，主成分分析技术)、PQ(productquantization，乘积量化)等压缩算法，本发明实施例对此不作限定。

例如，对于视频流特征提取模型输出的第二特征向量1为2048维，将第二特征向量1先经过PCA降维到256维，然后使用PQ量化压缩为16字节，如此可以生成第二特征压缩向量。

S505，若存在所述第一特征压缩向量与所述第二特征压缩向量相匹配，从所述候选视频流数据集中查找所述第一特征压缩向量对应的候选视频流数据，作为与该第一关键帧相匹配的候选视频流数据，并更新所述候选视频流数据对应的匹配次数；

对于上述候选视频流数据集对应的所有第一特征压缩向量，如果存在第一特征压缩向量与第二特征压缩向量相匹配，从候选视频流数据集中查找第一特征压缩向量对应的候选视频流数据，作为与该第一关键帧相匹配的候选视频流数据。

例如，对于第二特征压缩向量1，如果存在第一特征压缩向量与该第二特征压缩向量1相匹配，从上述候选视频流数据集中查找该第一特征压缩向量对应的候选视频流数据，作为与该第一关键帧1相匹配的候选视频流数据。

例如，对于“庆余年精彩集锦”短视频，以两秒为时间间隔，提取20帧第一关键帧，以第一关键帧1为例，对于第一关键帧1对应的第二特征压缩向量1，如果存在第一特征压缩向量与第二特征压缩向量1相匹配，从上述候选视频流数据集中查找该第一特征压缩向量对应的“庆余年第一集”，与该第一关键帧1相匹配，从而更新“庆余年第一集”的的匹配次数，在原有匹配次数的基础之上加1，对于其它第一关键帧类似，本发明实施例在此不再一一赘述。

S506，统计所述候选视频流数据集中任一候选视频流数据对应的匹配次数；

S507，基于所述匹配次数，从所述候选视频流数据集中确定目标视频流数据，并与所述视频流数据进行链接。

在本发明实施例中，对于上述候选视频流数据集中的候选视频流数据，基于每个候选视频流数据对应的匹配次数进行降序排序，选取排名第一的第一候选视频流数据以及排名第二的第二候选视频流数据，基于第一候选视频流数据对应的匹配次数，以及第二候选视频流数据对应的匹配次数，从候选视频流数据集中确定目标视频流数据。

例如，对于“庆余年全集”，基于庆余年每集对应的匹配次数进行降序排序，选取排名第一的“庆余年第一集”以及排名第二的“庆余年第二集”，基于“庆余年第一集”对应的匹配次数，以及“庆余年第二集”对应的匹配次数，从“庆余年全集”中确定目标视频流数据，即庆余年中第几集。

具体地，本发明实施例可以通过以下方式确定目标视频流数据：

其中，对于相似度计算模型，可以如下所示：

Score＝(log(top1_count-N))*(top1_count/(top2_count+1))；

例如，对于“庆余年第一集”对应的匹配次数，以及“庆余年第二集”对应的匹配次数，输入上述相似度计算模型，其中N＝20，获取相似度计算模型输出结果Score，如果相似度计算模型输出结果Score不小于预设阈值，则可以从“庆余年全集”中确定“庆余年第一集”为目标视频流数据。

如此通过上述步骤可以确定目标视频流数据，可以与上述视频流数据进行链接。

另外，在本发明实施例中，对于现有的基于纯文本的实体链接模型，可以将上述相似度计算模型输出结果添加至纯文本的实体链接模型中，如此可以得到新的纯文本的实体链接模型，可以利用新的纯文本的实体链接模型进行实体链接，可以增加现有的基于纯文本的实体链接模型的准确率。

例如，对于现有的纯文本的实体链接模型：LR线性模型，可以将上述相似度计算模型输出结果添加至LR线性模型中，得到新的LR线性模型，可以利用该新的LR线性模型进行实体链接，具体过程可以参照现有技术，本发明实施例在此不再一一赘述。

与上述方法实施例相对应，本发明实施例还提供了一种视频流数据处理装置，如图6所示，该装置可以包括：关键帧提取模块610、数据集查找模块620、关键帧匹配模块630、次数统计模块640、数据确定模块650。

关键帧提取模块610，用于获取视频流数据，从所述视频流数据中提取预设第一数量的第一关键帧；

数据集查找模块620，用于识别所述视频流数据对应的标签，根据所述标签查找候选视频流数据集；

关键帧匹配模块630，用于针对任一第一关键帧，从所述候选视频流数据集中查找相匹配的候选视频流数据，并更新所述候选视频流数据对应的匹配次数；

次数统计模块640，用于统计所述候选视频流数据集中任一候选视频流数据对应的匹配次数；

数据确定模块650，用于基于所述匹配次数，从所述候选视频流数据集中确定目标视频流数据，并与所述视频流数据进行链接。

在本发明实施例的具体实施方式中，所述数据集查找模块620具体用于：

所述关键帧匹配模块630包括：

向量提取子模块631，用于针对任一第一关键帧，输入至预设的视频流特征提取模型，以使所述视频流特征提取模型输出对应的第二特征向量；

关键帧匹配子模块632，用于若存在所述第一特征向量与所述第二特征向量相匹配，从所述候选视频流数据集中查找所述第一特征向量对应的候选视频流数据，作为与该第一关键帧相匹配的候选视频流数据。

所述关键帧匹配子模块632具体用于：

在本发明实施例的具体实施方式中，所述装置还包括：

向量聚类模块660，用于获取候选视频流数据集，并识别所述候选视频流数据集对应的标签；从所述候选视频流数据集的每个候选视频流数据中提取预设第二数量的第二关键帧；将所述第二关键帧输入预设的视频流特征提取模型，以使所述视频流特征提取模型输出对应的第一特征向量；利用预设的压缩算法对所述第一特征向量进行压缩，生成第一特征压缩向量；将所述候选视频流数据集对应的所有第一特征压缩向量进行聚类，建立所述标签与所述候选视频流数据集对应的所有第一特征压缩向量的索引。

在本发明实施例的具体实施方式中，所述装置还包括：

模型生成模块670，用于获取预训练模型，以及从目标视频流中提取第三关键帧组成关键帧数据集；按照以下步骤进行迭代，直至所述预训练模型的指标满足预设条件，以生成视频流特征提取模型：从所述关键帧数据集中选取一帧第三关键帧进行裁剪处理，生成第一训练样本；从所述关键帧数据集中选取另一帧第三关键帧进行裁剪处理，生成第二训练样本；基于所述第一训练样本以及所述第二训练样本对所述预训练模型进行模型训练。

在本发明实施例的具体实施方式中，所述数据确定模块650包括：

数据排序子模块651，用于基于所述匹配次数，对所述候选视频流数据集中的候选视频流数据进行降序排序；

数据选取子模块652，用于选取排名第一的第一候选视频流数据以及排名第二的第二候选视频流数据；

数据确定子模块653，用于基于所述第一候选视频流数据对应的匹配次数，以及所述第二候选视频流数据对应的匹配次数，从所述候选视频流数据集中确定目标视频流数据。

在本发明实施例的具体实施方式中，所述数据确定子模块653具体用于：

在本发明实施例的具体实施方式中，所述相似度计算模型，包括：

Score＝(log(top1_count-N))*(top1_count/(top2_count+1))；

本发明实施例还提供了一种服务器，如图7所示，包括处理器71、通信接口72、存储器73和通信总线74，其中，处理器71，通信接口72，存储器73通过通信总线74完成相互间的通信，

存储器73，用于存放计算机程序；

处理器71，用于执行存储器73上所存放的程序时，实现如下步骤：

上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述服务器与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种存储介质，该存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频流数据处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频流数据处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中，或者从一个存储介质向另一个存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频流数据处理方法，其特征在于，所述方法包括：

获取视频流数据，从所述视频流数据中提取预设第一数量的第一关键帧；

识别所述视频流数据对应的标签，根据所述标签查找候选视频流数据集；

针对任一第一关键帧，从所述候选视频流数据集中查找相匹配的候选视频流数据，并更新所述候选视频流数据对应的匹配次数；

统计所述候选视频流数据集中任一候选视频流数据对应的匹配次数；

基于所述匹配次数，从所述候选视频流数据集中确定目标视频流数据，并与所述视频流数据进行链接。

2.根据权利要求1所述的方法，其特征在于，所述根据所述标签查找候选视频流数据集，包括：

针对任一第一关键帧，输入至预设的视频流特征提取模型，以使所述视频流特征提取模型输出对应的第二特征向量；

若存在所述第一特征向量与所述第二特征向量相匹配，从所述候选视频流数据集中查找所述第一特征向量对应的候选视频流数据，作为与该第一关键帧相匹配的候选视频流数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述标签查找候选视频流数据集对应的所有第一特征向量，包括：

利用预设的压缩算法对所述第二特征向量进行压缩，生成第二特征压缩向量；

若存在所述第一特征压缩向量与所述第二特征压缩向量相匹配，从所述候选视频流数据集中查找所述第一特征压缩向量对应的候选视频流数据。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取候选视频流数据集，并识别所述候选视频流数据集对应的标签；

从所述候选视频流数据集的每个候选视频流数据中提取预设第二数量的第二关键帧；

将所述第二关键帧输入预设的视频流特征提取模型，以使所述视频流特征提取模型输出对应的第一特征向量；

利用预设的压缩算法对所述第一特征向量进行压缩，生成第一特征压缩向量；

将所述候选视频流数据集对应的所有第一特征压缩向量进行聚类，建立所述标签与所述候选视频流数据集对应的所有第一特征压缩向量的索引。

5.根据权利要求2-4任一项所述的方法，其特征在于，所述视频流特征提取模型具体通过以下方式得到：

获取预训练模型，以及从目标视频流中提取第三关键帧组成关键帧数据集；

按照以下步骤进行迭代，直至所述预训练模型的指标满足预设条件，以生成视频流特征提取模型：

从所述关键帧数据集中选取一帧第三关键帧进行裁剪处理，生成第一训练样本；

从所述关键帧数据集中选取另一帧第三关键帧进行裁剪处理，生成第二训练样本；

基于所述第一训练样本以及所述第二训练样本对所述预训练模型进行模型训练。

6.根据权利要求1所述的方法，其特征在于，所述基于所述匹配次数，从所述候选视频流数据集中确定目标视频流数据，包括：

基于所述匹配次数，对所述候选视频流数据集中的候选视频流数据进行降序排序；

选取排名第一的第一候选视频流数据以及排名第二的第二候选视频流数据；

基于所述第一候选视频流数据对应的匹配次数，以及所述第二候选视频流数据对应的匹配次数，从所述候选视频流数据集中确定目标视频流数据。

7.根据权利要求6所述的方法，其特征在于，所述基于所述第一候选视频流数据对应的匹配次数，以及所述第二候选视频流数据对应的匹配次数，从所述候选视频流数据集中确定目标视频流数据，包括：

将所述第一候选视频流数据对应的匹配次数，以及所述第二候选视频流数据对应的匹配次数输入至预设的相似度计算模型；

判断所述相似度计算模型输出结果是否不小于预设阈值；

若所述相似度计算模型输出结果不小于预设阈值，从所述候选视频流数据集中确定所述第一候选视频流数据为目标视频流数据。

8.根据权利要求7所述的方法，其特征在于，所述相似度计算模型，包括：

Score＝(log(top1_count-N))*(top1_count/(top2_count+1))；

9.一种视频流数据处理装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述数据集查找模块具体用于：

所述关键帧匹配模块包括：

11.根据权利要求10所述的装置，其特征在于，所述数据集查找模块具体用于：

所述关键帧匹配子模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

向量聚类模块，用于获取候选视频流数据集，并识别所述候选视频流数据集对应的标签；

13.根据权利要求10-12任一项所述的装置，其特征在于，所述装置还包括：

模型生成模块，用于获取预训练模型，以及从目标视频流中提取第三关键帧组成关键帧数据集；

14.根据权利要求9所述的装置，其特征在于，所述数据确定模块包括：

15.根据权利要求14所述的装置，其特征在于，所述数据确定子模块具体用于：

判断所述相似度计算模型输出结果是否不小于预设阈值；

16.根据权利要求15所述的装置，其特征在于，所述相似度计算模型，包括：

Score＝(log(top1_count-N))*(top1_count/(top2_count+1))；

17.一种服务器，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8中任一所述的方法步骤。

18.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的方法。