CN112784102A

CN112784102A - 视频检索方法、装置和电子设备

Info

Publication number: CN112784102A
Application number: CN202110076616.7A
Authority: CN
Inventors: 薛学通; 杨敏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2021-05-11
Anticipated expiration: 2041-01-20
Also published as: CN112784102B

Abstract

本公开公开了视频检索方法、装置和电子设备，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习领域。具体实现方案为：获取待检索视频的多个视频帧对应的多个第一特征向量，并获取查询图片对应的第二特征向量；对多个待检索视频对应的第一特征向量进行聚类，以生成多个聚类中心和对应的多个第一特征向量；根据多个视频帧之间的时序依赖关系、第二特征向量、多个聚类中心和多个聚类中心对应的多个第一特征向量，确定多个待检索视频中的目标视频。该方法中，能够考虑到视频帧之间的时序依赖关系对视频检索结果的影响，使得视频检索结果更加精确，根据聚类结果进行视频检索，能够减少第一特征向量的数量，适应数量规模较大的视频检索。

Description

视频检索方法、装置和电子设备

技术领域

本公开涉及计算机技术领域中的人工智能技术领域，尤其涉及一种视频检索方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

目前，大多采用图片对比的方式来进行视频检索。然而，由于视频体积较大等原因，例如，一个2分钟左右的短视频可包含超过3000帧图片，会造成需要对比的图片数量过大，需要消耗较多的计算资源，视频检索速度也较慢，需要等待较长时间才能获取到检索结果，另外，相关技术中的视频检索方法的准确度也较低，用户体验感受较差。

发明内容

提供了一种视频检索方法、装置、电子设备、存储介质和计算机程序产品。

根据第一方面，提供了一种视频检索方法，包括：获取待检索视频的多个视频帧对应的多个第一特征向量，并获取查询图片对应的第二特征向量；对多个所述待检索视频对应的多个所述第一特征向量进行聚类，以生成多个聚类中心和所述多个聚类中心对应的所述多个第一特征向量；根据所述多个视频帧之间的时序依赖关系、所述第二特征向量、所述多个聚类中心和所述多个聚类中心对应的所述多个第一特征向量，确定多个所述待检索视频中的目标视频。

根据第二方面，提供了一种视频检索装置，包括：获取模块，用于获取待检索视频的多个视频帧对应的多个第一特征向量，并获取查询图片对应的第二特征向量；聚类模块，用于对多个所述待检索视频对应的多个所述第一特征向量进行聚类，以生成多个聚类中心和所述多个聚类中心对应的所述多个第一特征向量；确定模块，用于根据所述多个视频帧之间的时序依赖关系、所述第二特征向量、所述多个聚类中心和所述多个聚类中心对应的所述多个第一特征向量，确定多个所述待检索视频中的目标视频。

根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面所述的视频检索方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开第一方面所述的视频检索方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现本公开第一方面所述的视频检索方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本公开第一实施例的视频检索方法的流程示意图；

图2是根据本公开第二实施例的视频检索方法中确定多个待检索视频中的目标视频的流程示意图；

图3是根据本公开第三实施例的视频检索方法中确定多个待检索视频中的目标视频的流程示意图；

图4是根据本公开第四实施例的视频检索方法的示意图；

图5是根据本公开第一实施例的视频检索装置的框图；

图6是根据本公开第二实施例的视频检索装置的框图；

图7是用来实现本公开实施例的视频检索方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

AI(Artificial Intelligence，人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门技术科学。目前，AI技术具有自动化程度高、精确度高、成本低的优点，得到了广泛的应用。

CV(Computer Vision，计算机视觉)是一门研究用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像的科学，可以看作是研究如何使人工***从图像或多维数据中“感知”的科学。

DL(Deep Learning，深度学习)是ML(Machine Learning，机器学习)领域中一个新的研究方向，是学习样本数据的内在规律和表示层次，使得机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据的一门科学，广泛应用于语音和图像识别。

图1是根据本公开第一实施例的视频检索方法的流程示意图。

如图1所示，本公开第一实施例的视频检索方法包括：

S101，获取待检索视频的多个视频帧对应的多个第一特征向量，并获取查询图片对应的第二特征向量。

需要说明的是，本公开实施例的视频检索方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地，执行主体可包括工作站、服务器，计算机、用户终端及其他智能设备。其中，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

可以理解的是，待检索视频可包括多个视频帧，每个视频帧可对应一个第一特征向量，则待检索视频的多个视频帧可对应多个第一特征向量。

可选的，可预先建立待检索视频的多个视频帧和第一特征向量之间的映射关系或者映射表，在获取到待检索视频的多个视频帧之后，查询映射关系或者映射表，能够获取到待检索视频的多个视频帧对应的多个第一特征向量。应说明的是，上述映射关系或者映射表均可根据实际情况进行设置。

本公开的实施例中，可获取查询图片对应的第二特征向量。其中，查询图片指的是用于视频检索的图片。可以理解的是，不同的查询图片可对应不同的第二特征向量。

可选的，获取查询图片对应的第二特征向量，可包括获取查询图片，根据查询图片和CNN(Convolutional Neural Networks，卷积神经网络)模型生成对应的第二特征向量。例如，可将查询图片输入至卷积神经网络模型中，以得到对应的第二特征向量。

需要说明的是，本公开的实施例中，对待检索视频的类型不做过多限定。例如，待检索视频包括但不限于长视频、短视频等。

S102，对多个待检索视频对应的多个第一特征向量进行聚类，以生成多个聚类中心和多个聚类中心对应的多个第一特征向量。

本公开的实施例中，可对多个待检索视频对应的多个第一特征向量进行聚类，以生成多个聚类中心和多个聚类中心对应的多个第一特征向量。可以理解的是，聚类中心的数量为至少一个，每个聚类中心可对应多个第一特征向量。

需要说明的是，聚类中心也为向量形式，聚类中心的纬度与第一特征向量的纬度相同。

可选的，可采用预设算法对多个待检索视频对应的多个第一特征向量进行聚类。其中，预设算法可根据实际情况进行设置。例如，可采用KNN(K-NearestNeighbor，k最近邻分类)算法对多个待检索视频对应的多个第一特征向量进行聚类。

S103，根据多个视频帧之间的时序依赖关系、第二特征向量、多个聚类中心和多个聚类中心对应的多个第一特征向量，确定多个待检索视频中的目标视频。

本公开的实施例中，可根据多个视频帧之间的时序依赖关系、第二特征向量、多个聚类中心和多个聚类中心对应的多个第一特征向量，确定多个待检索视频中的目标视频，能够考虑到视频帧之间的时序依赖关系对视频检索结果的影响，使得视频检索结果更加精确，且对视频对应的第一特征向量进行聚类，并根据聚类中心和聚类中心对应的第一特征向量进行视频检索，能够大大减少第一特征向量的数量，有助于加快视频检索速度，能够适应数量规模较大的视频检索。

其中，多个视频帧之间的时序依赖关系，包括但不限于视频帧之间的时序先后关系等。比如，视频帧A的时间在视频帧B的时间之前，视频帧C的时间在视频帧B的时间之后。

可选的，确定多个待检索视频中的目标视频，可包括确定多个待检索视频中的目标视频的标识，以根据目标视频的标识确定目标视频。其中，目标视频的标识包括但不限于目标视频的名称、编号等，这里不做过多限定。

综上，根据本公开实施例的视频检索方法，可根据多个视频帧之间的时序依赖关系、第二特征向量、多个聚类中心和多个聚类中心对应的多个第一特征向量，确定多个待检索视频中的目标视频，能够考虑到视频帧之间的时序依赖关系对视频检索结果的影响，使得视频检索结果更加精确，且对视频对应的第一特征向量进行聚类，并根据聚类中心和聚类中心对应的第一特征向量进行视频检索，能够大大减少第一特征向量的数量，有助于加快视频检索速度，能够适应数量规模较大的视频检索。

在上述任一实施例的基础上，步骤S101中获取待检索视频的多个视频帧对应的多个第一特征向量，可包括获取待检索视频，从待检索视频中提取多个视频帧，并根据视频帧和CNN(Convolutional Neural Networks，卷积神经网络)模型生成对应的第一特征向量。

可选的，从待检索视频中提取多个视频帧，可包括按照预设时间间隔从待检索视频中提取多个视频帧。其中，预设时间间隔可根据实际情况进行设置，例如可设置为2秒。

可选的，根据视频帧和卷积神经网络模型生成对应的第一特征向量，可包括将视频帧输入至卷积神经网络模型中，以得到对应的第一特征向量。

由此，该方法可获取待检索视频，从待检索视频中提取多个视频帧，并根据视频帧和卷积神经网络模型生成对应的第一特征向量，以获取待检索视频的多个视频帧对应的多个第一特征向量。

在上述任一实施例的基础上，如图2所示，步骤S103中根据多个视频帧之间的时序依赖关系、第二特征向量、多个聚类中心和多个聚类中心对应的多个第一特征向量，确定多个待检索视频中的目标视频，可包括：

S201，根据多个视频帧之间的时序依赖关系，确定与聚类中心存在链接关系的关联聚类中心和链接关系的权重。

本公开的实施例中，可根据多个视频帧之间的时序依赖关系，确定与聚类中心存在链接关系的关联聚类中心和链接关系的权重，可考虑到多个视频帧之间的时序依赖关系对关联聚类中心和链接关系的权重的影响。

可以理解的是，不同的聚类中心可对应不同的关联聚类中心，一个聚类中心可对应至少一个关联聚类中心。

可选的，根据多个视频帧之间的时序依赖关系，确定与聚类中心存在链接关系的关联聚类中心和链接关系的权重，可包括多个视频帧中的第一视频帧为第二视频帧的相邻视频帧，则将第一视频帧对应的聚类中心确定为与第二视频帧对应的聚类中心存在链接关系的关联聚类中心，并将第二视频帧对应的聚类中心和第一视频帧对应的聚类中心之间的链接关系的权重加一。由此，可根据相邻视频帧对应的聚类中心确定关联聚类中心，并将相邻视频帧之间的链接关系的权重加一。

例如，可通过图网络表示更新聚类中心、关联聚类中心和链接关系的权重。可将聚类中心作为图的顶点，图的边根据多个视频帧之间的时序依赖关系来确定。例如，视频帧A为视频帧B之后的第一个视频帧，可将视频A对应的聚类中心确定为与视频帧B对应的聚类中心存在链接关系的关联聚类中心，视频帧A和视频帧B分别对应的聚类中心直接形成一条边，所有的边确定之后，可根据顶点的第一级领域的链接数目得到一个链接关系的权重。

S202，根据第二特征向量、多个聚类中心、多个聚类中心对应的多个第一特征向量、与聚类中心存在链接关系的关联聚类中心和链接关系的权重，确定多个待检索视频中的目标视频。

由此，可根据第二特征向量、多个聚类中心、多个聚类中心对应的多个第一特征向量、与聚类中心存在链接关系的关联聚类中心和链接关系的权重，确定多个待检索视频中的目标视频，能够考虑到与聚类中心存在链接关系的关联聚类中心和链接关系的权重对视频检索结果的影响，使得视频检索结果更加精确。

在上述任一实施例的基础上，如图3所示，步骤S202中根据第二特征向量、多个聚类中心、多个聚类中心对应的多个第一特征向量、与聚类中心存在链接关系的关联聚类中心和链接关系的权重，确定多个待检索视频中的目标视频，可包括：

S301，计算第二特征向量和聚类中心的第一相似度。

本公开的实施例中，可计算第二特征向量和聚类中心的第一相似度。可以理解的是，第二特征向量与不同聚类中心的第一相似度不同。

可选的，可将第二特征向量、聚类中心输入至相似度模型中，通过相似度模型计算第二特征向量和聚类中心的第一相似度。其中，相似度模型可根据实际情况进行设置。

S302，根据第一相似度确定多个聚类中心中的第一候选聚类中心。

本公开的实施例中，可根据第一相似度确定多个聚类中心中的第一候选聚类中心，从而根据第一相似度从多个聚类中心中筛选出第一候选聚类中心。

可选的，根据第一相似度确定多个聚类中心中的第一候选聚类中心，可包括将第一相似度按照从高到低进行排序，将排序前N个的第一相似度对应的聚类中心作为第一候选聚类中心。该方法可从多个聚类中心中筛选出第一相似度较高的N个聚类中心，作为第一候选聚类中心。其中，N为大于1的整数，可根据实际情况进行设置。

S303，根据第一候选聚类中心对应的链接关系的权重，确定与第一候选聚类中心存在链接关系的聚类中心中的第二候选聚类中心。

本公开的实施例中，可根据第一候选聚类中心对应的链接关系的权重，确定与第一候选聚类中心存在链接关系的聚类中心中的第二候选聚类中心，从而根据链接关系的权重从多个聚类中心中筛选出与第一候选聚类中心存在链接关系的第二候选聚类中心。

可选的，根据第一候选聚类中心对应的链接关系的权重，确定与第一候选聚类中心存在链接关系的聚类中心中的第二候选聚类中心，可包括将链接关系的权重按照从高到低进行排序，将排序前M个的链接关系的权重对应的聚类中心作为与第一候选聚类中心存在链接关系的第二候选聚类中心。该方法可从多个聚类中心中筛选出链接关系的权重较高的M个聚类中心，作为第二候选聚类中心。其中，M为大于1的整数，可根据实际情况进行设置。

S304，计算第二特征向量和候选第一特征向量之间的第二相似度，候选第一特征向量为第一候选聚类中心和第二候选聚类中心对应的第一特征向量。

本公开的实施例中，可计算第二特征向量和候选第一特征向量之间的第二相似度，候选第一特征向量为第一候选聚类中心和第二候选聚类中心对应的第一特征向量。也就是说，候选第一特征向量包括第一候选聚类中心对应的第一特征向量、第二候选聚类中心对应的第一特征向量。

需要说明的是，计算第二特征向量和候选第一特征向量之间的第二相似度的相关内容，可参照上述实施例，这里不再赘述。

S305，根据第二相似度确定多个待检索视频中的目标视频。

可选的，根据第二相似度确定多个待检索视频中的目标视频，可包括根据第二相似度确定候选第一特征向量中的目标第一特征向量，根据目标第一特征向量确定对应的目标视频。

其中，根据第二相似度确定候选第一特征向量中的目标第一特征向量，可包括将第二相似度按照从高到低进行排序，将排序前S个的第二相似度对应的候选第一特征向量作为目标第一特征向量。该方法可从多个候选第一特征向量中筛选出第二相似度较高的S个候选第一特征向量，作为目标第一特征向量。其中，S为大于1的整数，可根据实际情况进行设置。

其中，根据目标第一特征向量确定对应的目标视频，可包括获取目标第一特征向量对应的目标视频标识，根据目标视频标识确定对应的目标视频。

由此，该方法可计算第二特征向量和聚类中心的第一相似度，根据第一相似度确定多个聚类中心中的第一候选聚类中心，根据第一候选聚类中心对应的链接关系的权重，确定与第一候选聚类中心存在链接关系的聚类中心中的第二候选聚类中心，计算第二特征向量和候选第一特征向量之间的第二相似度，候选第一特征向量为第一候选聚类中心和第二候选聚类中心对应的第一特征向量，并根据第二相似度确定多个待检索视频中的目标视频。

如图4所示，可从待检索视频中提取出多个视频帧，并将多个视频帧输入至卷积神经网络模型，以获取多个视频帧对应的多个第一特征向量，并可对多个视频帧对应的多个第一特征向量进行聚类，生成多个聚类中心和多个聚类中心对应的多个第一特征向量，还可将查询图片输入至卷积神经网络模型，以获取查询图片对应的第二特征向量，之后可根据多个视频帧之间的时序依赖关系、第二特征向量、多个聚类中心和多个聚类中心对应的多个第一特征向量，确定多个待检索视频中的目标视频。

图5是根据本公开第一实施例的视频检索装置的框图。

如图5所示，本公开实施例的视频检索装置500，包括：获取模块501、聚类模块502、确定模块503。

获取模块501用于获取待检索视频的多个视频帧对应的多个第一特征向量，并获取查询图片对应的第二特征向量；

聚类模块502用于对多个所述待检索视频对应的多个所述第一特征向量进行聚类，以生成多个聚类中心和所述多个聚类中心对应的所述多个第一特征向量；

确定模块503用于根据所述多个视频帧之间的时序依赖关系、所述第二特征向量、所述多个聚类中心和所述多个聚类中心对应的所述多个第一特征向量，确定多个所述待检索视频中的目标视频。

在本公开的一个实施例中，所述获取模块501具体用于：获取所述待检索视频；从所述待检索视频中提取所述多个视频帧；根据所述视频帧和卷积神经网络模型生成对应的所述第一特征向量。

在本公开的一个实施例中，所述获取模块501具体用于：获取所述查询图片；根据所述查询图片和卷积神经网络模型生成对应的所述第二特征向量。

在本公开的一个实施例中，所述聚类模块502具体用于：采用k最近邻分类算法对多个所述待检索视频对应的多个所述第一特征向量进行聚类。

综上，本公开实施例的视频检索装置，可根据多个视频帧之间的时序依赖关系、第二特征向量、多个聚类中心和多个聚类中心对应的多个第一特征向量，确定多个待检索视频中的目标视频，能够考虑到视频帧之间的时序依赖关系对视频检索结果的影响，使得视频检索结果更加精确，且对视频对应的第一特征向量进行聚类，并根据聚类中心和聚类中心对应的第一特征向量进行视频检索，能够大大减少第一特征向量的数量，有助于加快视频检索速度，能够适应数量规模较大的视频检索。

图6是根据本公开第二实施例的视频检索装置的框图。

如图6所示，本公开实施例的视频检索装置600，包括：获取模块601、聚类模块602、确定模块603。

其中，获取模块601与获取模块501具有相同功能和结构，聚类模块602与聚类模块502具有相同功能和结构。

在本公开的一个实施例中，所述确定模块603，包括：第一确定单元6031，用于根据所述多个视频帧之间的时序依赖关系，确定与所述聚类中心存在链接关系的关联聚类中心和所述链接关系的权重；第二确定单元6032，用于根据所述第二特征向量、所述多个聚类中心、所述多个聚类中心对应的所述多个第一特征向量、所述与所述聚类中心存在链接关系的关联聚类中心和所述链接关系的权重，确定多个所述待检索视频中的所述目标视频。

在本公开的一个实施例中，所述第二确定单元6032，包括：第一计算子单元，用于计算所述第二特征向量和所述聚类中心的第一相似度；第一确定子单元，用于根据所述第一相似度确定所述多个聚类中心中的第一候选聚类中心；第二确定子单元，用于根据所述第一候选聚类中心对应的所述链接关系的权重，确定与所述第一候选聚类中心存在链接关系的聚类中心中的第二候选聚类中心；第二计算子单元，用于计算所述第二特征向量和候选第一特征向量之间的第二相似度，所述候选第一特征向量为所述第一候选聚类中心和所述第二候选聚类中心对应的所述第一特征向量；第三确定子单元，用于根据所述第二相似度确定多个所述待检索视频中的所述目标视频。

在本公开的一个实施例中，所述第三确定子单元，具体用于：根据所述第二相似度确定所述候选第一特征向量中的目标第一特征向量；根据所述目标第一特征向量确定对应的所述目标视频。

在本公开的一个实施例中，所述第一确定单元6031，具体用于：所述多个视频帧中的第一视频帧为第二视频帧的相邻视频帧，则将所述第一视频帧对应的聚类中心确定为与所述第二视频帧对应的聚类中心存在链接关系的关联聚类中心，并将所述第二视频帧对应的聚类中心和所述第一视频帧对应的聚类中心之间的所述链接关系的权重加一。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如图1至图4所述的视频检索方法。例如，在一些实施例中，视频检索方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的视频检索方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频检索方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

根据本申请的实施例，本申请还提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现本申请上述实施例所述的视频检索方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频检索方法，包括：

获取待检索视频的多个视频帧对应的多个第一特征向量，并获取查询图片对应的第二特征向量；

对多个所述待检索视频对应的多个所述第一特征向量进行聚类，以生成多个聚类中心和所述多个聚类中心对应的所述多个第一特征向量；

根据所述多个视频帧之间的时序依赖关系、所述第二特征向量、所述多个聚类中心和所述多个聚类中心对应的所述多个第一特征向量，确定多个所述待检索视频中的目标视频。

2.根据权利要求1所述的视频检索方法，其中，所述根据所述多个视频帧之间的时序依赖关系、所述第二特征向量、所述多个聚类中心和所述多个聚类中心对应的所述多个第一特征向量，确定多个所述待检索视频中的目标视频，包括：

根据所述多个视频帧之间的时序依赖关系，确定与所述聚类中心存在链接关系的关联聚类中心和所述链接关系的权重；

根据所述第二特征向量、所述多个聚类中心、所述多个聚类中心对应的所述多个第一特征向量、所述与所述聚类中心存在链接关系的关联聚类中心和所述链接关系的权重，确定多个所述待检索视频中的所述目标视频。

3.根据权利要求2所述的视频检索方法，其中，所述根据所述第二特征向量、所述多个聚类中心、所述多个聚类中心对应的所述多个第一特征向量、所述与所述聚类中心存在链接关系的关联聚类中心和所述链接关系的权重，确定多个所述待检索视频中的所述目标视频，包括：

计算所述第二特征向量和所述聚类中心的第一相似度；

根据所述第一相似度确定所述多个聚类中心中的第一候选聚类中心；

根据所述第一候选聚类中心对应的所述链接关系的权重，确定与所述第一候选聚类中心存在链接关系的聚类中心中的第二候选聚类中心；

计算所述第二特征向量和候选第一特征向量之间的第二相似度，所述候选第一特征向量为所述第一候选聚类中心和所述第二候选聚类中心对应的所述第一特征向量；

根据所述第二相似度确定多个所述待检索视频中的所述目标视频。

4.根据权利要求3所述的视频检索方法，其中，所述根据所述第二相似度确定多个所述待检索视频中的所述目标视频，包括：

根据所述第二相似度确定所述候选第一特征向量中的目标第一特征向量；

根据所述目标第一特征向量确定对应的所述目标视频。

5.根据权利要求2所述的视频检索方法，其中，所述根据所述多个视频帧之间的时序依赖关系，确定与所述聚类中心存在链接关系的关联聚类中心和所述链接关系的权重，包括：

所述多个视频帧中的第一视频帧为第二视频帧的相邻视频帧，则将所述第一视频帧对应的聚类中心确定为与所述第二视频帧对应的聚类中心存在链接关系的关联聚类中心，并将所述第二视频帧对应的聚类中心和所述第一视频帧对应的聚类中心之间的所述链接关系的权重加一。

6.根据权利要求1所述的视频检索方法，其中，所述获取待检索视频的多个视频帧对应的多个第一特征向量，包括：

获取所述待检索视频；

从所述待检索视频中提取所述多个视频帧；

根据所述视频帧和卷积神经网络模型生成对应的所述第一特征向量。

7.根据权利要求1所述的视频检索方法，其中，所述获取查询图片对应的第二特征向量，包括：

获取所述查询图片；

根据所述查询图片和卷积神经网络模型生成对应的所述第二特征向量。

8.根据权利要求1所述的视频检索方法，其中，所述对多个所述待检索视频对应的多个所述第一特征向量进行聚类，包括：

采用k最近邻分类算法对多个所述待检索视频对应的多个所述第一特征向量进行聚类。

9.一种视频检索装置，包括：

获取模块，用于获取待检索视频的多个视频帧对应的多个第一特征向量，并获取查询图片对应的第二特征向量；

聚类模块，用于对多个所述待检索视频对应的多个所述第一特征向量进行聚类，以生成多个聚类中心和所述多个聚类中心对应的所述多个第一特征向量；

确定模块，用于根据所述多个视频帧之间的时序依赖关系、所述第二特征向量、所述多个聚类中心和所述多个聚类中心对应的所述多个第一特征向量，确定多个所述待检索视频中的目标视频。

10.根据权利要求9所述的视频检索装置，其中，所述确定模块，包括：

第一确定单元，用于根据所述多个视频帧之间的时序依赖关系，确定与所述聚类中心存在链接关系的关联聚类中心和所述链接关系的权重；

第二确定单元，用于根据所述第二特征向量、所述多个聚类中心、所述多个聚类中心对应的所述多个第一特征向量、所述与所述聚类中心存在链接关系的关联聚类中心和所述链接关系的权重，确定多个所述待检索视频中的所述目标视频。

11.根据权利要求10所述的视频检索装置，其中，所述第二确定单元，包括：

第一计算子单元，用于计算所述第二特征向量和所述聚类中心的第一相似度；

第一确定子单元，用于根据所述第一相似度确定所述多个聚类中心中的第一候选聚类中心；

第二确定子单元，用于根据所述第一候选聚类中心对应的所述链接关系的权重，确定与所述第一候选聚类中心存在链接关系的聚类中心中的第二候选聚类中心；

第二计算子单元，用于计算所述第二特征向量和候选第一特征向量之间的第二相似度，所述候选第一特征向量为所述第一候选聚类中心和所述第二候选聚类中心对应的所述第一特征向量；

第三确定子单元，用于根据所述第二相似度确定多个所述待检索视频中的所述目标视频。

12.根据权利要求11所述的视频检索装置，其中，所述第三确定子单元，具体用于：

根据所述目标第一特征向量确定对应的所述目标视频。

13.根据权利要求10所述的视频检索装置，其中，所述第一确定单元，具体用于：

14.根据权利要求9所述的视频检索装置，其中，所述获取模块，具体用于：

获取所述待检索视频；

从所述待检索视频中提取所述多个视频帧；

15.根据权利要求9所述的视频检索装置，其中，所述获取模块，具体用于：

获取所述查询图片；

16.根据权利要求9所述的视频检索装置，其中，所述聚类模块，具体用于：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的视频检索方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的视频检索方法。

19.一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的视频检索方法。