CN107169106A

CN107169106A - 视频检索方法、装置、存储介质及处理器

Info

Publication number: CN107169106A
Application number: CN201710351135.6A
Authority: CN
Inventors: 周文明; 王志鹏
Original assignee: Zhuhai Xi Yue Information Technology Co Ltd
Current assignee: Zhuhai Xi Yue Information Technology Co Ltd
Priority date: 2017-05-18
Filing date: 2017-05-18
Publication date: 2017-09-15
Anticipated expiration: 2037-05-18
Also published as: CN107169106B

Abstract

本发明公开了一种视频检索方法、装置、存储介质及处理器。其中，该方法包括：获取目标检索图片和多个视频图像；对多个视频图像进行预处理，得到至少一个第一目标视频图像；根据第一预设模型对至少一个第一目标视频图像进行处理，得到至少一个第一目标视频图像中的每个第一目标视频图像的全部目标图像序列；根据第二预设模型对每个第一目标视频图像的全部目标图像序列进行处理，得到每个第一目标视频图像的第一特征和第二特征；根据预设算法对第一特征和第二特征进行聚类处理得到检索模型；对目标检索图像进行抠图处理得到目标区域图像；对目标区域图像进行检索得到检索结果。本发明解决了现有技术中存在的视频检索精度和检索效率较低的技术问题。

Description

视频检索方法、装置、存储介质及处理器

技术领域

本发明涉及数字智能化领域，具体而言，涉及一种视频检索方法、装置、存储介质及处理器。

背景技术

随着平安城市、智慧社区等项目的构建和普及，视频安防监控设备已逐步架设到城市的各个角落，并且可以7x24小时昼夜不间断的录制采集视频图像数据。对于规模庞大、数量繁多的交通、社区监控视频***，新兴的基于计算机视觉技术的智慧视频分析使得海量视频的自动分析及目标识别成为了可能。众所周知，监控视频主要用于社区及公共安全的维护，通过实时取证及事后检索，对保障社会治安起着至关重要的作用。然而，视频图像作为非结构化数据，数据量庞大，有效信息少，在格式化存储方面仍存在很多问题。此外，视频数据的实时快速检索也面临诸多挑战，而人为检索由于工作量大、检索目标众多、容易遗漏、效率低下等种种限制因素而不符合实际应用。基于上述，现有技术中的视频检索技术主要包括以下两种方式：

方式一，基于语义的视频检索。该种检索方式以关键字为基础，通过对视频人为添加或自动生成语义描述数据进行基于关键字的检索匹配，关键字可以是标题、主题、人物、视频事件等。然而，在安防监控应用中，基于语义的视频检索技术的精度依赖于大量的语义描述信息，且对单个特定目标的描述信息较少，检索效果十分受限。例如，在海量的公共安防视频中寻找某个目标人物，其描述信息仅有如“穿蓝色上衣黑色裤子的人”，而无法具体描述该人物的深层特征信息，检索的针对性差，搜索到的结果将会十分庞杂。

方法二、基于内容的视频检索。该种检索方式通常采用传统图像处理方法，通过提取视频图像的颜色、纹理、边缘、特征点等底层信息，以分析视频之间的相似度作为检索的依据。相较于语义检索，基于内容的视频检索有效利用了图像视频中的底层特征，检索效率有所提升。然而，目前大多数基于内容的图像检索技术需采用传统图像特征，描述能力仍存在一定限制，且用于检索的特征向量维度高，计算相似性时耗时很长，难以做到真正的实时检索。

综上，目前的视频检索技术存在检索针对性、检索精度和检索效率较低，检索实时性较差的技术问题，因此，现有技术中存在视频检索精度和检索效率较低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频检索方法、装置、存储介质及处理器，以至少解决现有技术中存在的视频检索精度和检索效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种视频检索方法，该方法包括：获取目标检索图片和多个视频图像；对上述多个视频图像进行预处理，得到至少一个第一目标视频图像；根据第一预设模型对上述至少一个第一目标视频图像进行目标检测处理和目标跟踪处理，得到上述至少一个第一目标视频图像中的每个上述第一目标视频图像的全部目标图像序列；根据第二预设模型对上述每个上述第一目标视频图像的全部目标图像序列进行特征提取处理，得到上述每个上述第一目标视频图像的第一特征和第二特征，其中，上述第一特征为上述第一目标视频图像的二值化哈希特征，上述第二特征为上述第一目标视频图像的原始特征；根据预设近似最邻近算法对上述第一特征和上述第二特征进行聚类处理，得到检索模型；对上述目标检索图像进行抠图处理，得到目标区域图像；根据上述检索模型对上述目标区域图像进行检索，得到检索结果。

进一步地，上述根据上述检索模型对上述目标区域图像进行检索，得到检索结果包括：获取上述目标区域图像的第三特征和第四特征，其中，上述第三特征为上述目标区域图像的二值化哈希特征，上述第四特征为上述目标区域图像的原始特征；计算上述第三特征与上述每个上述第一目标视频图像的上述第一特征之间的汉明距离，得到至少一个第二目标视频图像；计算上述第四特征与上述至少一个第二目标视频图像中的每个上述第二目标视频图像的上述第二特征的欧式距离，得到目标图像帧，其中，上述目标图像帧与上述目标检索图像的相似度大于预设相似度阈值；获取上述目标图像帧的帧ID；在上述多个视频图像中查找与上述帧ID对应的上述视频图像，得到上述检索结果。

进一步地，在根据第二预设模型对上述每个上述第一目标视频图像的全部目标图像序列进行特征提取处理之后，上述方法还包括：将上述至少一个第一目标视频图像、上述目标图像序列、上述第一特征和上述第二特征结构化存储至数据库中。

进一步地，上述预设近似最邻近算法为局部敏感度哈希算法。

进一步地，上述对上述多个视频图像进行预处理，得到至少一个第一目标视频图像包括：对上述多个视频图像中的每个上述视频图像依次进行长度归一化处理和解码处理，得到上述第一目标视频图像。

进一步地，上述方法还包括：根据随机梯度下降算法对上述第一预设模型和上述第二预设模型进行训练，直至上述第一预设模型和上述第二预设模型达到收敛状态。

根据本发明实施例的另一方面，还提供了一种视频检索装置，该装置包括：获取单元，用于获取目标检索图片和多个视频图像；第一处理单元，用于对上述多个视频图像进行预处理，得到至少一个第一目标视频图像；第二处理单元，用于根据第一预设模型对上述至少一个第一目标视频图像进行目标检测处理和目标跟踪处理，得到上述至少一个第一目标视频图像中的每个上述第一目标视频图像的全部目标图像序列；第三处理单元，用于根据第二预设模型对上述每个上述第一目标视频图像的全部目标图像序列进行特征提取处理，得到上述每个上述第一目标视频图像的第一特征和第二特征，其中，上述第一特征为上述第一目标视频图像的二值化哈希特征，上述第二特征为上述第一目标视频图像的原始特征；第四处理单元，用于根据预设近似最邻近算法对上述第一特征和上述第二特征进行聚类处理，得到检索模型；第五处理单元，用于对上述目标检索图像进行抠图处理，得到目标区域图像；检索单元，用于根据上述检索模型对上述目标区域图像进行检索，得到检索结果。

进一步地，上述检索单元包括：第一获取子单元，用于获取上述目标区域图像的第三特征和第四特征，其中，上述第三特征为上述目标区域图像的二值化哈希特征，上述第四特征为上述目标区域图像的原始特征；第一计算子单元，用于计算上述第三特征与上述每个上述第一目标视频图像的上述第一特征之间的汉明距离，得到至少一个第二目标视频图像；第二计算子单元，用于计算上述第四特征与上述至少一个第二目标视频图像中的每个上述第二目标视频图像的上述第二特征的欧式距离，得到目标图像帧，其中，上述目标图像帧与上述目标检索图像的相似度大于预设相似度阈值；第二获取子单元，用于获取上述目标图像帧的帧ID；检索子单元，用于在上述多个视频图像中检索与上述帧ID对应的上述视频图像，得到上述检索结果。

根据本发明实施例的又一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行上述的视频检索方法。

根据本发明实施例的又一方面，还提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述的视频检索方法。

在本发明实施例中，采用下述方式：获取目标检索图片和多个视频图像；对多个视频图像进行预处理，得到至少一个第一目标视频图像；根据第一预设模型对至少一个第一目标视频图像进行目标检测处理和目标跟踪处理，得到至少一个第一目标视频图像中的每个第一目标视频图像的全部目标图像序列；根据第二预设模型对每个第一目标视频图像的全部目标图像序列进行特征提取处理，得到每个第一目标视频图像的第一特征和第二特征，其中，第一特征为第一目标视频图像的二值化哈希特征，第二特征为第一目标视频图像的原始特征；根据预设近似最邻近算法对第一特征和第二特征进行聚类处理，得到检索模型；通过对目标检索图像进行抠图处理得到目标区域图像；达到了根据检索模型对目标区域图像进行检索得到检索结果的目的，从而实现了提升视频的检索精度和检索效率、降低检索的时间成本和人力成本的技术效果，进而解决了现有技术中存在的视频检索精度和检索效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频检索方法的流程示意图；

图2是根据本发明实施例的另一种可选的视频检索方法的流程示意图；

图3是根据本发明实施例的一种可选的视频检索装置的结构示意图；

图4是根据本发明实施例的另一种可选的视频检索装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种视频检索方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的视频检索方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S102，获取目标检索图片和多个视频图像；

步骤S104，对多个视频图像进行预处理，得到至少一个第一目标视频图像；

步骤S106，根据第一预设模型对至少一个第一目标视频图像进行目标检测处理和目标跟踪处理，得到至少一个第一目标视频图像中的每个第一目标视频图像的全部目标图像序列；

步骤S108，根据第二预设模型对每个第一目标视频图像的全部目标图像序列进行特征提取处理，得到每个第一目标视频图像的第一特征和第二特征，其中，第一特征为第一目标视频图像的二值化哈希特征，第二特征为第一目标视频图像的原始特征；

步骤S110，根据预设近似最邻近算法对第一特征和第二特征进行聚类处理，得到检索模型；

步骤S112，对目标检索图像进行抠图处理，得到目标区域图像；

步骤S114，根据检索模型对目标区域图像进行检索，得到检索结果。

可选地，多个视频图像可以理解为海量的视频图像，目标检索图片由用户输入，需要说明的是，该目标检索图片可能包含于多个视频图像中，也可能并不包含于多个视频图像中。

可选地，执行本申请上述步骤S102至步骤S110，可以先对海量的视频图像进行处理，提取每个视频图像的特征(包括目标检测、目标跟踪、特征提取)，该特征包括原始特征(维度较长)和二值化哈希特征(维度较短，只有0或1两个数字)，进而对上述视频图像的原始特征和二值化哈希特征进行保存及聚类，从而构建检索服务模型。

可选地，在用户输入单张图片作为目标检索图片的情况下，执行步骤S112可以对用户输入的单张图片进行预处理，去掉图片中与目标区域图像无关的信息，把目标区域图像单独抠出。

可选地，第一预设模型中可以包含两个子模型，分别为基于深度学习的目标检测子模型和基于深度学习的目标跟踪子模型；第二预设模型可以为基于深度学习的目标特征提取模型。

可选地，图2是根据本发明实施例的另一种可选的视频检索方法的流程示意图，如图2所示，步骤S114，根据检索模型对目标区域图像进行检索，得到检索结果包括：

步骤S202，获取目标区域图像的第三特征和第四特征，其中，第三特征为目标区域图像的二值化哈希特征，第四特征为目标区域图像的原始特征；

步骤S204，计算第三特征与每个第一目标视频图像的第一特征之间的汉明距离，得到至少一个第二目标视频图像；

步骤S206，计算第四特征与至少一个第二目标视频图像中的每个第二目标视频图像的第二特征的欧式距离，得到目标图像帧，其中，目标图像帧与目标检索图像的相似度大于预设相似度阈值；

步骤S208，获取目标图像帧的帧ID；

步骤S210，在多个视频图像中查找与帧ID对应的视频图像，得到检索结果。

可选地，执行步骤S202，可以得到目标区域图像中维度较长的原始特征和维度较短的二值化哈希特征。

可选地，执行步骤S204，可以计算用户输入图像的二值化特征与海量视频数据的二值化特征的汉明距离，从而缩小检索范围，得到范围缩小后的海量视频数据特征。其中，汉明距离可以表征上述特征之间的相似度，汉明距离越大则相似度越低。例如，计算汉明距离可以缩小检索范围，例如海量数据库中有十万个视频图像，用户输入一张哈士奇的图片，可能计算汉明距离之后还剩一万个视频图像，这一万个视频图像中可能都是包含狗的。

可选地，执行步骤S206至步骤S210，可以计算用户输入图像的原始特征与范围缩小后的海量视频数据的原始特征之间的欧式距离，从而得到海量视频数据中前N条与用户输入图像相似度高的图像帧，进而根据图像帧ID在海量视频数据中查找对应的视频标识、图像所在帧号等相关信息，最终获得视频检索结果。例如，计算欧式距离，即可在上述举例中的一万个包含狗的视频图像中，得到仅包含哈士奇的一千张视频图像。因此，依次计算汉明距离和计算欧式距离，可以将检索的范围进一步缩小。

可选地，基于上述，首先按照目标检索图片的二值化哈希特征通过标准正太分布图标获取对应分桶的位置，根据分桶标记从redis中获取相对应的二值向量集合，通过汉明距离比较、排序，获取对应相似度高的二值化哈希特征，完成初步检索。进而按照目标检索图片的原始特征，通过计算欧式距离可以进行进一步的精确检索。最终，经过比较和排序，获取前N条相似度高的图像帧，根据图像帧ID查找对应的视频标识、图像所在帧号等相关信息，从而获得视频检索结果。其中，N设置为10，即搜索返回前10个相似度最高的视频序列。

可选地，在执行完成步骤S108之后，即在根据第二预设模型对每个第一目标视频图像的全部目标图像序列进行特征提取处理之后，该方法还可以包括：

步骤S10，将至少一个第一目标视频图像、目标图像序列、第一特征和第二特征结构化存储至数据库中。该数据库可以为Mongodb数据库或Poseidon数据库，上述数据库可以作为检索数据库，在进行视频图像检索时，均需要将目标特征与该数据库中的数据进行比对，得到检索结果。

可选地，该预设近似最邻近算法为局部敏感度哈希算法。具体地，基于ANN(Approximate Nearest Neighbor)近似最近邻算法对视频文件的结构化信息进行聚类。基于标准正太分布二值哈希进行分桶，并将分桶后的二值向量数据存储到内存数据redis中，从而构建检索服务。

可选地，执行步骤S104，即对多个视频图像进行预处理，得到至少一个第一目标视频图像包括：

步骤S20，对多个视频图像中的每个视频图像依次进行长度归一化处理和解码处理，得到第一目标视频图像。

具体地，对视频图像进行长度归一化处理，可以将连续的视频流截取为长度固定的视频流串，从而便于后期分析与保存；在对视频图像解码处理时，可以通过opencv对视频文件进行解码，并对每帧图像进行尺寸缩放归一化操作。其中，尺寸缩放采用双线性差值算法，缩放的尺寸为1920*1080。

可选地，该方法还可以包括：步骤S30，根据随机梯度下降算法对第一预设模型和第二预设模型进行训练，直至第一预设模型和第二预设模型达到收敛状态。

具体地，可以采用上述方式训练第一预设模型：首先可以将图像数据集及其对应的类别标签信息分别对应分成两部分，一部分作为训练样本集，另一部分作为测试样本集，其中，训练样本集和测试样本集中每个样本均包括一张图像及对应的类别标签。进而可以构建第一预设模型中的两个子模型：基于深度学习的目标检测子模型和基于深度学习的目标跟踪子模型，其中，目标检测子模型采用经典的YOLO架构，目标跟踪子模型采用RNN架构。最终，可以利用训练样本集，按照SGD随机梯度下降法对目标检测子模型和目标跟踪子模型进行训练。其中，训练的学习率步长设置为0.01。

具体地，可以采用上述方式训练第二预设模型：首先将图像数据集及其对应的类别标签信息分别对应分成两部分，一部分作为训练样本集，另一部分作为测试样本集，其中，训练样本集和测试样本集中每个样本均包括一张图像及对应的类别标签。进而，构建深度卷积神经网络架构，深度卷积神经网络架构包含卷积子网络、哈希层、损失层，卷积子网络用于学习图像的原始特征，哈希层用于对原始特征进行特征压缩降维，转换为二进制编码，获得输入图像的二值化哈希特征，损失层用于衡量Softmax分类误差；其中，卷积子网络采用VGG架构。原始特征维度为4096维。二值化哈希特征维度为128维。最终，利用训练样本集，依据深度卷积神经网络架构，按照SGD随机梯度下降法对第二预设模型进行训练，得到基于深度学习的目标特征提取模型。其中，训练的学习率步长设置为0.01。

实施例2

根据本发明实施例的另一个方面，还提供了一种视频检索装置，如图3所示，该装置包括：获取单元301、第一处理单元303、第二处理单元305、第三处理单元307、第四处理单元309、第五处理单元311以及检索单元313。

其中，获取单元301，用于获取目标检索图片和多个视频图像；第一处理单元303，用于对多个视频图像进行预处理，得到至少一个第一目标视频图像；第二处理单元305，用于根据第一预设模型对至少一个第一目标视频图像进行目标检测处理和目标跟踪处理，得到至少一个第一目标视频图像中的每个第一目标视频图像的全部目标图像序列；第三处理单元307，用于根据第二预设模型对每个第一目标视频图像的全部目标图像序列进行特征提取处理，得到每个第一目标视频图像的第一特征和第二特征，其中，第一特征为第一目标视频图像的二值化哈希特征，第二特征为第一目标视频图像的原始特征；第四处理单元309，用于根据预设近似最邻近算法对第一特征和第二特征进行聚类处理，得到检索模型；第五处理单元311，用于对目标检索图像进行抠图处理，得到目标区域图像；检索单元313，用于根据检索模型对目标区域图像进行检索，得到检索结果。

可选地，如图4所示，检索单元313可以包括：第一获取子单元401、第一计算子单元403、第二计算子单元405、第二获取子单元407以及检索子单元409。

其中，第一获取子单元401，用于获取目标区域图像的第三特征和第四特征，其中，第三特征为目标区域图像的二值化哈希特征，第四特征为目标区域图像的原始特征；第一计算子单元403，用于计算第三特征与每个第一目标视频图像的第一特征之间的汉明距离，得到至少一个第二目标视频图像；第二计算子单元405，用于计算第四特征与至少一个第二目标视频图像中的每个第二目标视频图像的第二特征的欧式距离，得到目标图像帧，其中，目标图像帧与目标检索图像的相似度大于预设相似度阈值；第二获取子单元407，用于获取目标图像帧的帧ID；检索子单元409，用于在多个视频图像中检索与帧ID对应的视频图像，得到检索结果。

实施例3

根据本发明实施例的又一个方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行本申请实施例1中的上述视频检索方法。

根据本发明实施例的又一方面，还提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行本申请实施例1中的上述视频检索方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频检索方法，其特征在于，包括：

获取目标检索图片和多个视频图像；

对所述多个视频图像进行预处理，得到至少一个第一目标视频图像；

根据第一预设模型对所述至少一个第一目标视频图像进行目标检测处理和目标跟踪处理，得到所述至少一个第一目标视频图像中的每个所述第一目标视频图像的全部目标图像序列；

根据第二预设模型对所述每个所述第一目标视频图像的全部目标图像序列进行特征提取处理，得到所述每个所述第一目标视频图像的第一特征和第二特征，其中，所述第一特征为所述第一目标视频图像的二值化哈希特征，所述第二特征为所述第一目标视频图像的原始特征；

根据预设近似最邻近算法对所述第一特征和所述第二特征进行聚类处理，得到检索模型；

对所述目标检索图像进行抠图处理，得到目标区域图像；

根据所述检索模型对所述目标区域图像进行检索，得到检索结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述检索模型对所述目标区域图像进行检索，得到检索结果包括：

获取所述目标区域图像的第三特征和第四特征，其中，所述第三特征为所述目标区域图像的二值化哈希特征，所述第四特征为所述目标区域图像的原始特征；

计算所述第三特征与所述每个所述第一目标视频图像的所述第一特征之间的汉明距离，得到至少一个第二目标视频图像；

计算所述第四特征与所述至少一个第二目标视频图像中的每个所述第二目标视频图像的所述第二特征的欧式距离，得到目标图像帧，其中，所述目标图像帧与所述目标检索图像的相似度大于预设相似度阈值；

获取所述目标图像帧的帧I D；

在所述多个视频图像中查找与所述帧I D对应的所述视频图像，得到所述检索结果。

3.根据权利要求1所述的方法，其特征在于，在根据第二预设模型对所述每个所述第一目标视频图像的全部目标图像序列进行特征提取处理之后，所述方法还包括：

将所述至少一个第一目标视频图像、所述目标图像序列、所述第一特征和所述第二特征结构化存储至数据库中。

4.根据权利要求1所述的方法，其特征在于，所述预设近似最邻近算法为局部敏感度哈希算法。

5.根据权利要求1所述的方法，其特征在于，所述对所述多个视频图像进行预处理，得到至少一个第一目标视频图像包括：

对所述多个视频图像中的每个所述视频图像依次进行长度归一化处理和解码处理，得到所述第一目标视频图像。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据随机梯度下降算法对所述第一预设模型和所述第二预设模型进行训练，直至所述第一预设模型和所述第二预设模型达到收敛状态。

7.一种视频检索装置，其特征在于，包括：

获取单元，用于获取目标检索图片和多个视频图像；

第一处理单元，用于对所述多个视频图像进行预处理，得到至少一个第一目标视频图像；

第二处理单元，用于根据第一预设模型对所述至少一个第一目标视频图像进行目标检测处理和目标跟踪处理，得到所述至少一个第一目标视频图像中的每个所述第一目标视频图像的全部目标图像序列；

第三处理单元，用于根据第二预设模型对所述每个所述第一目标视频图像的全部目标图像序列进行特征提取处理，得到所述每个所述第一目标视频图像的第一特征和第二特征，其中，所述第一特征为所述第一目标视频图像的二值化哈希特征，所述第二特征为所述第一目标视频图像的原始特征；

第四处理单元，用于根据预设近似最邻近算法对所述第一特征和所述第二特征进行聚类处理，得到检索模型；

第五处理单元，用于对所述目标检索图像进行抠图处理，得到目标区域图像；

检索单元，用于根据所述检索模型对所述目标区域图像进行检索，得到检索结果。

8.根据权利要求7所述的装置，其特征在于，所述检索单元包括：

第一获取子单元，用于获取所述目标区域图像的第三特征和第四特征，其中，所述第三特征为所述目标区域图像的二值化哈希特征，所述第四特征为所述目标区域图像的原始特征；

第一计算子单元，用于计算所述第三特征与所述每个所述第一目标视频图像的所述第一特征之间的汉明距离，得到至少一个第二目标视频图像；

第二计算子单元，用于计算所述第四特征与所述至少一个第二目标视频图像中的每个所述第二目标视频图像的所述第二特征的欧式距离，得到目标图像帧，其中，所述目标图像帧与所述目标检索图像的相似度大于预设相似度阈值；

第二获取子单元，用于获取所述目标图像帧的帧I D；

检索子单元，用于在所述多个视频图像中检索与所述帧I D对应的所述视频图像，得到所述检索结果。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求6中任意一项所述的视频检索方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至权利要求6中任意一项所述的视频检索方法。