CN110674342B

CN110674342B - 查询目标图像的方法和装置

Info

Publication number: CN110674342B
Application number: CN201810615126.8A
Authority: CN
Inventors: 郭阶添
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2023-04-25
Anticipated expiration: 2038-06-14
Also published as: CN110674342A

Abstract

本发明公开了一种查询目标图像的方法和装置，属于智能分析领域。所述方法包括：在录制的视频中，提取目标类型的监控对象的图像；将在同一视频段中提取的相同监控对象的图像，输入第一语义提取模型，得到所述视频段中所述监控对象对应的语义特征，存储得到的各语义特征；当接收到携带有目标监控对象的属性信息的监控对象查询请求时，将所述属性信息，输入第二语义提取模型，得到所述属性信息对应的第一语义特征；在存储的各语义特征中，确定与所述第一语义特征满足预设相似度条件的第二语义特征，获取所述第二语义特征对应的至少一个图像，对所述监控对象查询请求进行反馈。采用本发明，可以提高查询结果的准确率。

Description

查询目标图像的方法和装置

技术领域

本发明涉及智能分析领域，特别涉及一种查询目标图像的方法和装置。

背景技术

随着电子技术领域的发展，公共场所中的监控设备越来越全面，相应的，对监控视频的智能分析越来越重要。例如，当用户在具备监控设备的公共场所丢失了某物品时，可以通过用户提供的关于该物品的相关信息，对监控视频进行分析查询，在监控视频中找到拿走该物品的人的图像。

目前，对监控视频的智能分析的方法通常是，在监控视频中，提取目标类型的监控对象的图像，其中，目标类型可以是技术人员预设的某个类型，例如，目标类型可以是汽车，则将监控视频的图像帧中检测到的所有汽车类型的图像提取出来，可以包括卡车的图像、公交车的图像、轿车的图像等。然后在所有提取到的图像中，识别哪些图像是来自同一辆汽车，将同一辆汽车的所有图像归为一组，最终得到多个监控对象各自的一组图像。根据清晰度或完整度等选择依据，在每个监控对象的一组图像中选出一张最优图像，计算每张最优图像与查询目标图像的相似度，获取相似度最大的最优图像，作为查询结果。

在实现本发明的过程中，发明人发现相关技术至少存在以下问题：

选出的最优图像虽然清晰，但是可能不能很好的反映监控对象的特点，从而，导致查询结果的准确率较低。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种查询目标图像的方法和装置。所述技术方案如下：

第一方面，提供了一种查询目标图像的方法，所述方法包括：

在录制的视频中，提取目标类型的监控对象的图像；

将在同一视频段中提取的相同监控对象的图像，输入第一语义提取模型，得到所述视频段中所述监控对象对应的语义特征，存储得到的各语义特征；

当接收到携带有目标监控对象的属性信息的监控对象查询请求时，将所述属性信息，输入第二语义提取模型，得到所述属性信息对应的第一语义特征；

在存储的各语义特征中，确定与所述第一语义特征满足预设相似度条件的第二语义特征，获取所述第二语义特征对应的至少一个图像，对所述监控对象查询请求进行反馈。

可选地，所述第一语义提取模型包括图像特征提取子模型、图像语义生成子模型和语义特征提取子模型；

所述将在同一视频段中提取的相同监控对象的图像，输入第一语义提取模型，得到所述视频段中所述监控对象对应的语义特征，包括：

将在同一视频段中提取的相同监控对象的图像，输入所述图像特征提取子模型，得到图像特征；

将所述图像特征输入所述图像语义生成子模型，得到语义描述字符串；

将所述语义描述字符串输入所述语义特征提取子模型，得到所述视频段中所述监控对象对应的语义特征。

可选地，所述将所述属性信息，输入第二语义提取模型，得到所述属性信息对应的第一语义特征，包括：

根据所述属性信息的数据类型、以及所述数据类型与语义提取模型的对应关系，确定所述属性信息对应的所述第二语义提取模型；

将所述属性信息，输入所述属性信息对应的所述第二语义提取模型，得到所述属性信息对应的第一语义特征。

可选地，所述属性信息的数据类型包括图像类型、音频类型和字符类型中的一种或多种。

可选地，如果所述属性信息包括图像类型的属性信息，则第二语义提取模型包括图像特征提取子模型、图像语义生成子模型和语义特征提取子模型，所述将所述属性信息，输入所述第二语义提取模型，得到所述属性信息对应的第一语义特征，包括：

将所述图像类型的属性信息，输入所述图像特征提取子模型，得到所述图像类型的属性信息对应的图像特征；

将所述图像类型的属性信息对应的图像特征，输入所述图像语义生成子模型，得到所述图像类型的属性信息对应的语义描述字符串；

将所述图像类型的属性信息对应的语义描述字符串，输入所述语义特征提取子模型，得到所述图像类型的属性信息对应的第一语义特征。

可选地，如果所述属性信息包括音频类型的属性信息，则第二语义提取模型包括音频语义生成子模型和语义特征提取子模型，所述将所述属性信息，输入所述第二语义提取模型，得到所述属性信息对应的第一语义特征，包括：

将所述音频类型的属性信息，输入所述音频语义生成子模型，得到所述音频类型的属性信息对应的语义描述字符串；

将所述音频类型的属性信息对应的语义描述字符串，输入所述语义特征提取子模型，得到所述音频类型的属性信息对应的第一语义特征。

可选地，如果所述属性信息包括字符类型的属性信息，则第二语义提取模型包括语义特征提取子模型，所述将所述属性信息，输入所述第二语义提取模型，得到所述属性信息对应的第一语义特征，包括：

将所述字符类型的属性信息，输入所述语义特征提取子模型，得到所述字符类型的属性信息对应的第一语义特征。

可选地，所述在存储的各语义特征中，确定与所述第一语义特征满足预设相似度条件的第二语义特征，包括：

在存储的各语义特征中，确定与所述第一语义特征的相似度大于预设相似度阈值的第二语义特征。

第二方面，提供了一种查询目标图像的装置，所述装置包括：

提取模块，用于在录制的视频中，提取目标类型的监控对象的图像；

第一获取模块，用于将在同一视频段中提取的相同监控对象的图像，输入第一语义提取模型，得到所述视频段中所述监控对象对应的语义特征，存储得到的各语义特征；

第二获取模块，用于当接收到携带有目标监控对象的属性信息的监控对象查询请求时，将所述属性信息，输入第二语义提取模型，得到所述属性信息对应的第一语义特征；

反馈模块，用于在存储的各语义特征中，确定与所述第一语义特征满足预设相似度条件的第二语义特征，获取所述第二语义特征对应的至少一个图像，对所述监控对象查询请求进行反馈。

所述第一获取模块，用于：

可选地，所述第二获取模块，用于：

可选地，如果所述属性信息包括图像类型的属性信息，则第二语义提取模型包括图像特征提取子模型、图像语义生成子模型和语义特征提取子模型，所述第二获取模块，用于：

可选地，如果所述属性信息包括音频类型的属性信息，则第二语义提取模型包括音频语义生成子模型和语义特征提取子模型，所述第二获取模块，用于：

可选地，如果所述属性信息包括字符类型的属性信息，则第二语义提取模型包括语义特征提取子模型，所述第二获取模块，用于：

可选地，所述反馈模块，用于：

第三方面，提供了一种计算机设备，所述计算机设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现如上述第一方面所述的查询目标图像的方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述第一方面所述的查询目标图像的方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，在录制的视频中，提取目标类型的监控对象的图像；将在同一视频段中提取的相同监控对象的图像，输入第一语义提取模型，得到所述视频段中所述监控对象对应的语义特征，存储得到的各语义特征；当接收到携带有目标监控对象的属性信息的监控对象查询请求时，将所述属性信息，输入第二语义提取模型，得到所述属性信息对应的第一语义特征；在存储的各语义特征中，确定与所述第一语义特征满足预设相似度条件的第二语义特征，获取所述第二语义特征对应的至少一个图像，对所述监控对象查询请求进行反馈。这样，得到的各监控对象的语义特征可以较好的反映监控对象的特点，进而，可以提高查询结果的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种查询目标图像的方法的流程图；

图2是本发明实施例提供的一种查询目标图像的方法的流程图；

图3是本发明实施例提供的一种查询目标图像的方法的流程图；

图4是本发明实施例提供的一种查询目标图像的界面示意图；

图5是本发明实施例提供的一种查询目标图像的界面示意图；

图6是本发明实施例提供的一种查询目标图像的装置的结构示意图；

图7是本发明实施例提供的一种服务器结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种查询目标图像的方法，该方法可以由服务器实现。

服务器可以包括处理器、存储器、收发器等部件。处理器，可以为CPU(CentralProcessing Unit，中央处理单元)等，可以用于提取目标类型的监控对象的图像、得到视频段中监控对象对应的语义特征、得到属性信息对应的第一语义特征、确定与第一语义特征满足预设相似度条件的第二语义特征，以及对监控对象查询请求进行反馈等处理。存储器，可以为RAM(Random Access Memory，随机存取存储器)，Flash(闪存)等，可以用于存储接收到的数据、处理过程所需的数据和处理过程中生成的数据等，如目标类型的监控对象的图像、第一语义提取模型、监控对象对应的语义特征、监控对象查询请求、属性信息、第二语义提取模型、第一语义特征、第二语义特征和预设相似度条件等。收发器，可以用于与终端或其它服务器(如定位服务器)进行数据传输，例如，接收终端发送的监控对象查询请求，收发器可以包括天线、匹配电路和调制解调器等。

如图1所示，该方法的处理流程可以包括如下的步骤：

在步骤101中，在录制的视频中，提取目标类型的监控对象的图像。

其中，目标类型为技术人员预先设置的类型，举例来说，目标类型可以是汽车类型，则服务器在提取目标类型的监控对象的图像时，将视频的图像帧中的所有汽车类型的图像提取出来，包括卡车的图像、公交车的图像、轿车的图像等等。目标类型可以是包含一种类型，也可以包含多种类型，本发明对此不做限制。

在实施中，为了便于在录制的视频中查询用户想要查询的监控对象，可以优先对录制的视频进行处理。

用户可以预先训练目标检测模型，将录制的视频输入到训练好的目标检测模型中，对目标类型的监控对象的图像进行提取。例如，用户预先训练目标检测模型可以提取汽车类型的监控对象的图像，然后，将录制的视频输入到训练好的目标检测中，服务器在对汽车类型的监控对象的图像进行提取时，可以采用检测框的形式标识出监控对象，得到每个监控对象在视频中的初次出现的位置信息，该位置信息可以是检测框的四个顶角的坐标信息。目标检测模型可以是HOG(Histogram of Oriented Gradient，方向梯度直方图)模型、SSD(Single Shot MultiBox Detector，一种目标检测算法)、DPM(Deformable PartsModels，可变型部件模型)、Fast RCNN(Region Convolutional Neural Network，一种利用深度学习进行目标检测的算法)、YOLO(You Only Look Once，一种目标检测方法)或其他目标检测方法，本发明对此不做限制。

以目标检测模型是YOLO模型为例，YOLO模型包括24个卷积层和2个全连接层，其中，卷积层用来提取图像特征，全连接层用来预测图像位置和类别概率值。

提取到监控对象的位置信息后，对于提取到的每一个监控对象，分别进行目标跟踪，得到该监控对象在视频帧中的一系列位置信息，既得到一个坐标序列。然后，对该监控对象出现的每一帧图像，进行目标部件分割，即将检测框的像素点进行分类，更细致的标识出哪些像素点属于该监控对象的哪部分特征，得到一系列的属性标签。例如，监控对象是个人类，通过目标检测，检测框标识出该监控对象的头部，则在对该监控对象进行目标部件分割时，可以标识出检测框中的哪部分像素点属于该监控对象的头发特征，哪部分像素点属于眼睛特征。然后，依据图像的清晰度、光照强度合适度、部件完整性等依据，对提取到的一系列图像进行评分，评分越高的图像，其清晰度越高、光照强度越合适、部件完整性越高。

最后，如图2所示，通过上述处理后得到监控对象的一系列图像，存储得到的每个监控对象的一系列图像。存储的图像可以是根据评分进行筛选得到的图像，也可以是不经过评分筛选的原始图像，可以根据具体需求选择，本发明对此不作限定。

需要说明的是，上述步骤为预先训练一个可以提取多个类型的监控对象的图像的提取模型。基于该提取模型，预先提取得到各个类型的监控对象的图像，然后将提取到的监控对象的图像进行存储，当用户想要在视频中查询目标监控对象时，获取与目标监控对象所属同一类型的、预先存储的监控对象的图像，根据这些监控对象的图像进行后续运算。

另外，除上述方式外，也可以是预先训练多个提取模型，每个提取模型可以用于提取一个类型的监控对象的图像，在用户想要在视频中查询目标监控对象时，确定目标监控对象所属的类型，将其确定为目标类型，然后，获取目标类型对应的提取模型，基于该提取模型在视频中提取目标类型的监控对象的图像。本发明对此不做限制。

在步骤102中，将在同一视频段中提取的相同监控对象的图像，输入第一语义提取模型，得到视频段中监控对象对应的语义特征，存储得到的各语义特征。

其中，第一语义提取模型用于在录制的视频中提取目标类型的监控对象对应的语义特征。

在实施中，通过上述步骤101提取到目标类型的多个监控对象的多组图像后，将同一监控对象的一组图像，输入到预先训练好的第一语义提取模型中，第一语义提取模型对输入的一组图像进行语义提取，可以得到该监控对象对应的语义特征，该语义特征可以是文字形式的特征，是对该监控对象的描述，以监控对象为一只狗为例，语义特征可以是“一只黄色的长毛狗”。

按照上述步骤将每个监控对象的一组图像输入到语义提取模型，得到每个监控对象对应的语义特征，将得到的各监控对象的各语义特征存储在对应的数据库中。

可选地，上述的第一语义提取模型可以包括图像特征提取子模型、图像语义生成子模型和语义特征提取子模型；上述步骤102的具体处理可以是：将在同一视频段中提取的相同监控对象的图像，输入图像特征提取子模型，得到图像特征；将图像特征输入图像语义生成子模型，得到语义描述字符串；将语义描述字符串输入语义特征提取子模型，得到视频段中监控对象对应的语义特征。

在实施中，上述的第一语义提取模型可以包括以下几个模型：图像特征提取子模型、图像语义生成子模型和语义特征提取子模型。

以同一视频段中的同一监控对象为例，将上述步骤提取到的同一监控对象的一组图像输入到图像特征提取子模型中，图像特征提取子模型可以是卷积神经网络模型，该卷积神经网络模型可以对一组图像进行图像特征提取，分别得到这一组图像的全局图像特征、局部图像特征、运动特征和与其他物体的关联特征。

全局图像特征用于描述该监控对象的整体特征信息，如形状、颜色、局部特征分布等信息；局部图像特征用于描述该监控对象的部分细节特征，以监控对象是某个人为例，局部特征可以是眼睛形状、身体伤疤、黑痣等细节特征；运动特征用于描述监控对象的运动趋势，如中心位置发生的位移变化、运动轨迹变化等特征；与其他物体的关联特征用于描述监控对象与其他物体之间的联系，如监控对象是某个人，而这个人一只手拿着包、一只手牵着一只宠物狗，则该监控对象的关联特征可能描述的就是该监控对象与手中拿的包、以及该监控对象与牵着的宠物狗之间的关系。上述的全局图像特征、局部图像特征、运动特征和关联特征分别为一个特征向量，卷积神经网络模型生成这些特征后，将这些特征向量合成一个特征向量，即为图像特征。

将得到的图像特征输入到图像语义生成子模型中，图像语义生成子模型可以是循环神经网络模型、时间递归神经网络模型或门控循环神经网络模型等模型，该循环神经网络模型对图像特征进行语义生成，得到语义描述字符串，该语义描述字符串可以是以文字形式对监控对象的描述，然后，将生成的语义描述字符串输入到语义特征提取子模型中。

语义特征提取子模型可以包含两个模块：分词模块以及自然语言处理模块。语义描述字符串输入到语义特征提取子模型后，分词模块对语义描述字符串进行分词处理，提取其中的关键词，将提取到的关键词输入自然语言处理模块中。自然语言处理模块可以是word2vec(一种用于词向量计算的工具)，word2vec可以将输入的关键词转换成向量形式，得到该监控对象的语义特征。

将每个监控对象的一组图像按照上述步骤进行处理，得到各监控对象的语义特征，将各监控对象的语义特征进行存储。

需要说明的是，上述步骤对各监控对象的语义特征进行存储时，为了使用户更简便地获取监控对象的相关信息，可以将监控对象对应的目标类型、监控对象的这一组图片在视频中的起始时刻信息和终止时刻信息、监控对象在视频中的位置信息等信息，与监控对象的语义特征一起进行存储，这样，后续用户对视频中的监控对象进行查询时，可以展示给用户，使用户更清楚地了解监控对象的相关信息。

需要说明的是，上述第一语义提取模型可以是预先训练好的模型，即第一语义提取模型包括的图像特征提取子模型、图像语义生成子模型和语义特征提取子模型都可以是预先训练好的。训练的过程可以如下：

首先，获取多个训练样本，每个训练样本中可以包括样本图像、样本标签和样本特征信息。训练的过程可以是迭代训练，将多个训练样本输入到模型中，第一个训练样本对模型进行训练。将第一个训练样本中的样本图像输入到待训练的图像特征提取子模型中，待训练的图像特征提取子模型对样本图像进行图像特征提取，得到第一样本图像特征，将第一样本图像特征输入到待训练的图像语义生成子模型中，得到第一样本的语义描述字符串。将语义描述字符串输入到语义特征提取子模型，该语义特征提取子模型不需要训练，输出第一样本语义特征。将第一样本语义特征与样本特征信息进行对比，得到误差值，根据误差值对图像特征提取子模型和图像语义生成子模型中的参数进行调整。然后再根据第二个训练样本对模型进行训练，重复上述训练过程，直至得到的误差值小于预设误差值阈值，确定此时图像特征提取子模型和图像语义生成子模型中的各参数，将此时的图像特征提取子模型和图像语义生成子模型确定为训练好的图像特征提取子模型和图像语义生成子模型，得到训练好的第一语义提取模型。

在步骤103中，当接收到携带有目标监控对象的属性信息的监控对象查询请求时，将属性信息，输入第二语义提取模型，得到属性信息对应的第一语义特征。

其中，第二语义提取模型用于提取用户输入的属性信息对应的语义特征，由于属性信息的数据类型不同，因此第二语义提取模型可以包括不同类型的语义提取模型。通过不同数据类型的属性信息提取语义特征，根据提取到的语义特征，在视频中对目标监控对象进行查询的方法，即为语义检索方法。

在实施中，当用户对录制的视频有查询需求时，例如，当用户的宠物狗走失的时候，用户想要通过对监控视频的查询，找到宠物狗的监控影像，然后判断宠物狗可能的去向，这种情况下，用户可以在终端中输入目标监控对象的属性信息，终端向服务器发送携带有目标监控对象的属性信息的监控对象查询请求。服务器接收到终端发送的监控对象查询请求时，将监控对象查询请求中携带的属性信息输入第二语义提取模型中，第二语义提取模型对属性信息进行语义提取，得到目标监控对象的属性信息对应的语义特征(即第一语义特征)。

需要说明的是，上述属性信息可以是图像类型的属性信息、音频类型的属性信息和字符类型的属性信息中的一种或多种，当属性信息不同时，对应的第二语义提取模型也不同，相应的处理可以是：根据属性信息的数据类型、以及属性信息的数据类型与语义提取模型的对应关系，确定属性信息对应的第二语义提取模型；将属性信息，输入第二语义提取模型，得到属性信息对应的第一语义特征。

在实施中，发明人发现，目前的查询目标图像的方法中，只能根据用户提供的图片在视频中进行查询，无法根据用户提供的语音或用户提供的文本信息进行查询，这样，当用户无法提供目标监控对象的图像时，会导致查询的准确率降低。因此，发明人想到可以根据音频类型以及字符类型的属性信息，在视频中查询目标监控对象的图像，这样，可以进行属性信息的联合查询，即使在用户无法提供目标监控对象的图像的情况下，也可以根据用户的语音描述或文字描述对目标监控对象的图像进行查询，提到了查询的准确率。

为了便于确定不同数据类型的属性信息对应的语义提取模型，技术人员可以预先将属性信息的数据类型与语义提取模型的对应关系存储在服务器中，该对应关系可以如下表1所示。

表1

属性信息的数据类型	语义提取模型
		图像类型的属性信息	图像类型的语义提取模型
音频类型的属性信息	音频类型的语义提取模型
		字符类型的属性信息	字符类型的语义提取模型

根据获取到的属性信息的数据类型，在上述对应关系表中进行查询，查找到属性信息的数据类型对应的语义提取模型，即为第二语义提取模型。将属性信息输入到确定的第二语义提取模型中，通过第二语义提取模型对属性信息记性语义特征提取，得到属性信息对应的语义特征，即为第一语义特征。

可选地，如果上述属性信息包括图像类型的属性信息，则确定的第二语义提取模型可以包括图像类型的语义提取模型，该图像类型的语义提取模型包括图像特征提取子模型、图像语义生成子模型和语义特征提取子模型，则根据图像类型的语义提取模型生成图像类型的属性信息对应的第一语义特征的处理步骤可以如下：将图像类型的属性信息，输入图像特征提取子模型，得到图像类型的属性信息对应的图像特征；将图像类型的属性信息对应的图像特征，输入图像语义生成子模型，得到图像类型的属性信息对应的语义描述字符串；将图像类型的属性信息对应的语义描述字符串，输入语义特征提取子模型，得到图像类型的属性信息对应的第一语义特征。

在实施中，如果属性信息包括图像类型的属性信息，且图像类型的属性信息为一张图片或一组图片，则将图像类型的属性信息输入到图像类型的语义提取模型，根据图像类型的语义提取模型对图像类型的属性信息进行语义特征提取的过程参照上述步骤102的处理，在此不做赘述。

如果属性信息包括图像类型的属性信息，且图像类型的属性信息为一段视频，则先参照步骤101的处理，在该属性信息中提取目标监控对象的图像，将该图像输入到图像类型的语义提取模型，根据图像类型的语义提取模型对图像类型的属性信息进行语义特征提取的过程参照上述步骤102的处理，在此不做赘述。

可选地，如果上述属性信息包括音频类型的属性信息，则确定的第二语义提取模型包括音频类型的语义提取模型，该音频类型的语义提取模型包括音频语义生成子模型和语义特征提取子模型，则根据音频类型的语义提取模型生成音频类型的属性信息对应的语义特征的处理步骤可以如下：将音频类型的属性信息，输入音频语义生成子模型，得到音频类型的属性信息对应的语义描述字符串；将音频类型的属性信息对应的语义描述字符串，输入语义特征提取子模型，得到音频类型的属性信息对应的第一语义特征。

在实施中，如果属性信息中包括音频类型的属性信息，则第二语义提取模型至少包括音频类型的语义提取模型。将音频类型的属性信息输入到音频类型的语义提取模型中的音频语义生成子模型，音频语义生成子模型可以识别音频中的词汇，并根据识别的词汇生成音频类型的属性信息对应的语义描述字符串，该语义描述字符串可以是文字形式的字符串。将得到的语义描述字符串输入语义特征提取子模型，语义特征提取子模型的结构与上述语义特征提取子模型的结构相同，包含分词模块和自然语言处理模块，具体生成语义特征的处理过程参照上述步骤中根据语义特征提取子模型生成语义特征的过程，在此不做赘述。

可选地，如果属性信息包括字符类型的属性信息，则第二语义提取模型包括语义特征提取子模型，将属性信息，输入第二语义提取模型，得到属性信息对应的第一语义特征，包括：

将字符类型的属性信息，输入语义特征提取子模型，得到字符类型的属性信息对应的第一语义特征。

在实施中，如果属性信息中包括至少一个类型的属性信息，而该属性信息中包含字符类型的属性信息时，针对字符类型的属性信息的第二语义提取模型可以包括语义特征提取子模型，根据语义特征提取子模型对字符类型的属性进行语义特征提取的过程可以是：将字符类型的属性信息输入到语义特征提取子模型中，语义特征提取子模型中的分词模块可以对字符类型的属性信息进行分词处理，提取出字符类型的属性信息中的关键词，然后将提取到的关键词输入到语义特征提取子模型中的自然语言处理模块，如word2vec等，通过自然语言处理模块对关键词进行特征向量化，将关键词转换成向量形式的语义特征，这样，就得到字符类型的属性信息对应的语义特征(即第一语义特征)。

需要说明的是，用户输入的属性信息可以只是一种类型的属性信息，该属性信息可以是图像类型的属性信息、音频类型的属性信息或字符类型的属性信息中的某一种类型的属性信息，除此之外，用户输入的属性信息也可以是多种类型组合的属性信息，具体地，属性信息可以是图像类型和音频类型的属性信息、图像类型和字符类型的属性信息、音频类型和字符类型的属性信息或图像类型和音频类型以及字符类型的属性信息，这种情况下，终端将属性信息发送给服务器后，服务器对不同类型的属性信息进行分类，然后按照上述步骤分别对不同类型的属性信息进行语义特征提取，得到多个语义特征。然后服务器根据预设的融合方式，对得到的多个语义特征进行融合，得到一个语义特征，即为第一语义特征，如图3所示。其中，融合方式可以是对多个语义特征取均值等方式。这样可以提供给用户多种输入方式，使用户灵活应用可查询的属性信息进行查询，且多个语义特征融合后得到的语义特征更具有代表性，既提高了信息的利用率，又提高了查询的准确度。

在步骤104中，在存储的各语义特征中，确定与第一语义特征满足预设相似度条件的第二语义特征，获取第二语义特征对应的至少一个图像，对监控对象查询请求进行反馈。

在实施中，通过上述步骤得到第一语义特征后，获取存储的各监控对象对应的各语义特征(可称作待选取的各语义特征)，并逐一计算待选取的各语义特征与第一语义特征的相似度，判断得到的相似度是否满足预设相似度条件，如果该相似度满足预设相似度条件，则将该相似度对应的待选取的语义特征确定为第二语义特征，获取第二语义特征对应的至少一个图像，根据获取到的至少一个图像，对监控对象查询请求进行反馈。如果计算得到的所有相似度均不满足预设相似度条件，则向监控对象查询请求反馈查询失败的消息，如图4所示。

需要说明的是，当用户输入的属性信息为图像类型的属性信息时，为了提高计算的相似度的准确性，在逐一计算待选取的各语义特征与第一语义特征的相似度的同时，计算每个待选取的语义特征对应的图像特征与第一语义特征对应的图像特征(即用户输入的图像类型的属性信息生成的图像特征)的相似度，也就是说，根据用户输入的图像类型的属性信息得到的图像特征与预先存储的某个监控对象的图像特征计算得到第一相似度，根据用户输入的图像类型的属性信息的语义特征与该监控对象的语义特征计算得到第二相似度，将第一相似度与第二相似度按照预设的融合方式进行融合，如取均值等方式，得到最终的一个相似度，即为用户输入的图像类型的属性信息与该监控对象之间的相似度。

可选地，上述的预设相似度条件可以是相似度大于预设相似度阈值，相应的操作可以如下：在存储的各语义特征中，确定与第一语义特征的相似度大于预设相似度阈值的第二语义特征。

在实施中，得到第一语义特征后，获取存储的各监控对象对应的各语义特征(可称作待选取的各语义特征)，并逐一计算待选取的各语义特征与第一语义特征的相似度，将计算得到的相似度与预设相似度阈值进行比较，如果相似度大于预设相似度阈值，说明该相似度对应的待选取的语义特征与第一语义特征比较相似，因此可以将该语义特征确定为第二语义特征。

需要说明的是，根据获取到的至少一个图像上述对监控对象查询请求进行反馈时，可以将满足预设相似度条件的至少一个相似度按照相似度从大到小进行排序，获取排序后的相似度对应的图像，然后将获取到的图像、以及每个图像对应的相似度发送给终端，使终端显示图像和该图像对应的相似度，如图5所示。除此之外，服务器还可以获取图像对应的时刻、图像在视频中的位置、通过该图像获得的语义描述字符串等信息一同反馈给终端，使终端将更详细的信息展示给用户，使用户可以更清晰的了解该图像对应的监控对象的信息。

基于相同的技术构思，本发明实施例还提供了一种查询目标图像的装置，该装置可以为上述实施例中的服务器，如图6所示，该装置包括：提取模块610，第一获取模块620、第二获取模块630和反馈模块640。

该提取模块610，被配置为在录制的视频中，提取目标类型的监控对象的图像；

该第一获取模块620，被配置为将在同一视频段中提取的相同监控对象的图像，输入第一语义提取模型，得到所述视频段中所述监控对象对应的语义特征，存储得到的各语义特征；

该第二获取模块630，被配置为当接收到携带有目标监控对象的属性信息的监控对象查询请求时，将所述属性信息，输入第二语义提取模型，得到所述属性信息对应的第一语义特征；

该反馈模块640，被配置为在存储的各语义特征中，确定与所述第一语义特征满足预设相似度条件的第二语义特征，获取所述第二语义特征对应的至少一个图像，对所述监控对象查询请求进行反馈。

所述第一获取模块620，被配置为：

可选地，所述第二获取模块630，被配置为：

可选地，如果所述属性信息包括图像类型的属性信息，则第二语义提取模型包括图像特征提取子模型、图像语义生成子模型和语义特征提取子模型，所述第二获取模块630，被配置为：

可选地，如果所述属性信息包括音频类型的属性信息，则第二语义提取模型包括音频语义生成子模型和语义特征提取子模型，所述第二获取模块630，被配置为：

可选地，如果所述属性信息包括字符类型的属性信息，则第二语义提取模型包括语义特征提取子模型，所述第二获取模块630，被配置为：

可选地，所述反馈模块640，被配置为：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是：上述实施例提供的查询目标图像的装置在查询目标图像时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的查询目标图像的装置与查询目标图像的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)701和一个或一个以上的存储器702，其中，所述存储器702中存储有至少一条指令，所述至少一条指令由所述处理器701加载并执行以实现下述查询目标图像的方法步骤：

在录制的视频中，提取目标类型的监控对象的图像；

可选的，所述至少一条指令由所述处理器701加载并执行以实现下述方法步骤：

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种查询目标图像的方法，其特征在于，所述方法包括：

在录制的视频中，提取目标类型的每个监控对象的一系列图像，其中，所述监控对象的一系列图像是通过如下处理得到的：基于所述监控对象在所述视频的视频帧中的一系列位置信息得到坐标序列，根据所述坐标序列对所述监控对象出现的每个视频帧进行目标部分分割，以得到所述监控对象的一系列图像；

将在同一视频段中提取的相同监控对象的一系列图像，输入图像特征提取子模型，得到所述监控对象的全局图像特征、局部图像特征、运动特征和与其他物体的关联特征，对所述全局图像特征、所述局部图像特征、所述运动特征和所述与其他物体的关联特征进行合成，得到所述监控对象的图像特征；

将所述图像特征输入图像语义生成子模型，得到语义描述字符串；

将所述语义描述字符串输入语义特征提取子模型，得到所述视频段中所述监控对象对应的语义特征，存储得到的各语义特征；其中，所述语义特征提取子模型包括分词模块与自然语言处理模块，所述分词模块用于对所述语义描述字符串进行分词后提取关键词，所述自然语言处理模块用于将所述分词模块提取的关键词转换成语义特征；

当接收到携带有目标监控对象的属性信息的监控对象查询请求时，根据所述属性信息的数据类型、以及所述数据类型与语义提取模型的对应关系，确定所述属性信息对应的第二语义提取模型；将所述属性信息，输入所述属性信息对应的所述第二语义提取模型，得到所述属性信息对应的第一语义特征；所述属性信息的数据类型包括图像类型、音频类型和字符类型中的一种或多种；

2.根据权利要求1所述的方法，其特征在于，如果所述属性信息包括图像类型的属性信息，则第二语义提取模型包括图像特征提取子模型、图像语义生成子模型和语义特征提取子模型，所述将所述属性信息，输入所述第二语义提取模型，得到所述属性信息对应的第一语义特征，包括：

3.根据权利要求1所述的方法，其特征在于，如果所述属性信息包括音频类型的属性信息，则第二语义提取模型包括音频语义生成子模型和语义特征提取子模型，所述将所述属性信息，输入所述第二语义提取模型，得到所述属性信息对应的第一语义特征，包括：

4.根据权利要求1所述的方法，其特征在于，如果所述属性信息包括字符类型的属性信息，则第二语义提取模型包括语义特征提取子模型，所述将所述属性信息，输入所述第二语义提取模型，得到所述属性信息对应的第一语义特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述在存储的各语义特征中，确定与所述第一语义特征满足预设相似度条件的第二语义特征，包括：

6.一种查询目标图像的装置，其特征在于，所述装置包括：

提取模块，用于在录制的视频中，提取目标类型的每个监控对象的一系列图像，其中，所述监控对象的一系列图像是通过如下处理得到的：基于所述监控对象在所述视频的视频帧中的一系列位置信息得到坐标序列，根据所述坐标序列对所述监控对象出现的每个视频帧进行目标部分分割，以得到所述监控对象的一系列图像；

第一获取模块，用于将在同一视频段中提取的相同监控对象的一系列图像，输入图像特征提取子模型，得到所述监控对象的全局图像特征、局部图像特征、运动特征和与其他物体的关联特征，对所述全局图像特征、所述局部图像特征、所述运动特征和所述与其他物体的关联特征进行合成，得到所述监控对象的图像特征；将所述图像特征输入图像语义生成子模型，得到语义描述字符串；将所述语义描述字符串输入语义特征提取子模型，得到所述视频段中所述监控对象对应的语义特征，存储得到的各语义特征；其中，所述语义特征提取子模型包括分词模块与自然语言处理模块，所述分词模块用于对所述语义描述字符串进行分词后提取关键词，所述自然语言处理模块用于将所述分词模块提取的关键词转换成语义特征；

第二获取模块，用于当接收到携带有目标监控对象的属性信息的监控对象查询请求时，根据所述属性信息的数据类型、以及所述数据类型与语义提取模型的对应关系，确定所述属性信息对应的第二语义提取模型；将所述属性信息，输入所述属性信息对应的所述第二语义提取模型，得到所述属性信息对应的第一语义特征；所述属性信息的数据类型包括图像类型、音频类型和字符类型中的一种或多种；

7.根据权利要求6所述的装置，其特征在于，如果所述属性信息包括图像类型的属性信息，则第二语义提取模型包括图像特征提取子模型、图像语义生成子模型和语义特征提取子模型，所述第二获取模块，用于：

8.根据权利要求6所述的装置，其特征在于，如果所述属性信息包括音频类型的属性信息，则第二语义提取模型包括音频语义生成子模型和语义特征提取子模型，所述第二获取模块，用于：

9.根据权利要求6所述的装置，其特征在于，如果所述属性信息包括字符类型的属性信息，则第二语义提取模型包括语义特征提取子模型，所述第二获取模块，用于：

10.根据权利要求6所述的装置，其特征在于，所述反馈模块，用于：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5任一所述的查询目标图像的方法。