CN113239226A

CN113239226A - 一种图像检索方法、装置、设备及存储介质

Info

Publication number: CN113239226A
Application number: CN202110611965.4A
Authority: CN
Inventors: 刘杰; 肖京; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-10

Abstract

本申请实施例提供了一种图像检索方法、装置、设备及存储介质，应用于金融科技领域及人工智能领域，该方法包括：获取多张目标图像，所述目标图像不包括目标元素；提取所述多张目标图像中每张目标图像的局部特征；从预设的聚类特征集中，分别筛选出距离每个所述局部特征最近的聚类中心特征，并利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码；根据所述每张目标图像的局部特征的编码获取到目标特征，并利用所述目标特征进行图像检索。采用本申请，可以提升图像检索精度。本申请涉及区块链技术，如可将多张目标图像写入区块链中或从区块链中读取多张目标图像。

Description

一种图像检索方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及智能决策技术领域，尤其涉及一种图像检索方法、装置、设备及存储介质。

背景技术

基于深度学习的图像检索技术通常使用的为全局特征检索方法。其中，全局特征检索方法包括NetVLAD、RMAC和GEM，等等。全局特征检索方法主要是通过提取图像的全局特征来进行图像检索。然而，这种全局检索方法对一些背景遮挡严重和高度相似背景的图像的检索精度不高。。

发明内容

本申请实施例提供了一种图像检索方法、装置、设备及存储介质，可以提升图像检索准确度，尤其是提升对一些背景遮挡严重和高度相似背景的图像检索精度。

第一方面，本申请实施例提供了一种图像检索方法，包括：

获取多张目标图像，所述目标图像不包括目标元素；

提取所述多张目标图像中每张目标图像的局部特征；

从预设的聚类特征集中，分别筛选出距离每个所述局部特征最近的聚类中心特征，并利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码；

根据所述每张目标图像的局部特征的编码获取到目标特征，并利用所述目标特征进行图像检索。

可选的，所述提取所述多张目标图像中每张目标图像的局部特征，包括：

将所述多张目标图像输入训练后的卷积神经网络；

通过训练后的卷积神经网络对所述多张目标图像中每张目标图像进行特征提取，得到所述每张目标图像对应的特征图；

将所述每张目标图像对应的特征图包括的网格单元确定为所述每张目标图像的局部特征。

可选的，所述方法还包括：

获取多张样本图像，所述样本图像不包括目标元素；

利用所述多张样本图像构建训练集，所述训练集包括多个样本图像对，所述多个样本图像对包括第一样本图像对和第二样本图像对，所述第一样本图像对包括第一样本图像以及与所述第一样本图像背景相似的第二样本图像，所述第二样本图像对包括第一样本图像以及与所述第一样本图像背景不相似的第三样本图像；

将所述训练集输入初始的卷积神经网络，以对所述初始的卷积神经网络进行训练，得到训练后的卷积神经网络。

可选的，所述利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码，包括：

获取距离所述局部特征距离最近的聚类中心特征的码字；所述码字为预设的码本中的码字，所述码本包括多个码字，每个码字对应一个聚类中心特征；

利用距离所述局部特征距离最近的聚类中心特征的码字，对所述局部特征进行编码表示，得到对所述局部特征的编码。

可选的，所述方法还包括：

采用聚类算法对所述训练集进行聚类处理，得到多个聚类中心特征；

根据所述多个聚类中心特征构建所述码本。

获取所述局部特征与距离所述局部特征距离最近的聚类中心特征之间的距离值；

利用所述局部特征与距离所述局部特征最近的聚类中心特征之间的距离值，对所述局部特征的编码表示，得到对所述局部特征的编码。

可选的，所述根据所述每张目标图像的局部特征的编码获取到目标特征，包括：

将所述每张目标图像的局部特征的编码输入训练后的Transformer网络；

通过所述训练后的Transformer网络根据所述每张目标图像的局部特征的编码处理得到目标特征。

第二方面，本申请实施例提供了一种图像检索装置，包括：

获取模块，用于获取多张目标图像，所述目标图像不包括目标元素；

提取模块，用于提取所述多张目标图像中每张目标图像的局部特征；

筛选模块，用于从预设的聚类特征集中，分别筛选出距离每个所述局部特征最近的聚类中心特征，并利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码；

所述获取模块，还用于利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码，并根据所述每张目标图像的局部特征的编码获取到目标特征；

检索模块，用于利用所述目标特征进行图像检索。

第三方面，本申请实施例提供了一种图像检索设备，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序指令，所述处理器被配置用于执行所述程序指令，实现如第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如第一方面所述的方法。

综上所述，图像检索设备可以提取多张目标图像中每张目标图像的局部特征，并从预设的聚类特征集中分别筛选出距离该局部特征最近的聚类中心特征，从而利用距离该局部特征最近的聚类中心特征获得该局部特征的编码，并根据每张目标图像的局部特征的编码获取到目标特征，并利用目标特征进行图像检索，相较于现有技术基于全局特征的图像检索方式，本申请能够提升图像检索精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像检索方法的流程示意图；

图2是本申请实施例提供的另一种图像检索方法的流程示意图；

图3是本申请实施例提供的一种图像检索装置的结构示意图；

图4是本申请实施例提供的一种图像检索设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

请参阅图1，为本申请实施例提供的一种图像检索方法的流程示意图。该图像检索方法可以应用于图像检索设备，该图像检索设备可以为服务器或智能终端等可以实现图像检索功能的设备。具体地，该方法可以包括以下步骤：

S101、获取多张目标图像，所述目标图像不包括目标元素。

其中，目标元素可以为人体图像、某种动物图像或某种物体图像，等等。在一个实施例中，目标元素可以是遮挡了背景图像的图像。目标图像可以是背景图像。

在一个实施例中，图像检索设备可以获取目标设备采集的多张目标图像。其中，目标设备可以是具有摄像头的电子设备，或具有图像下载功能的电子设备。此处的电子设备例如可以为智能手机、笔记本电脑、台式电脑等智能终端。

在一个实施例中，图像检索设备可以获取目标设备采集的多张图像，当多张图像中存在第一图像包括目标元素时，对第一图像包括的目标元素进行抠图处理，得到抠图了的第一图像，以作为目标图像。图像检索设备可以将抠图了的第一图像以及多张图像中不包括目标元素的图像，确定为多张目标图像。其中，第一图像可以为多张图像中包括目标元素的图像。对目标元素进行抠图处理，可以降低目标元素对图像检索准确度的不良影响。

在一个实施例中，图像检索设备可以获取目标设备采集的多张图像，当所述多张图像中存在第一图像包括目标元素的图像时，还可以为第一图像包括的目标元素添加蒙板，得到目标图像。图像检索设备可以添加了蒙版的第一图像以及多张图像中不包括目标元素的图像，确定为多张目标图像。为目标元素添加蒙版，可以降低目标元素对图像检索准确度的不良影响。

需要说明的是，除了采用抠图处理或添加蒙版的方式使得一张图像不包括目标元素之外，还可以采用其它图像处理方式使得一张图像不包括目标元素，在此不一一列举。

在一个实施例中，图像检索设备可以获取目标视频，并获取目标视频的连续多帧图像，当多帧图像中存在第二图像包括目标元素时，对第二图像包括的目标元素进行抠图处理，得到抠图了的第二图像。图像检索设备可以将抠图了的第二图像以及多帧图像中不包括目标元素的图像确定为多张目标图像。其中，目标视频可以是正在直播的视频，或可以是已经录制好的视频，等等。其中，第二图像可以指多帧图像中包括目标元素的图像。

在一个实施例中，所述的多帧图像可以是指定时间范围内的连续多帧图像。

在一个实施例中，图像检索设备可以获取目标视频，并获取目标视频的连续多帧图像，当多帧图像中存在第二图像包括目标元素的图像时，还可以为第二图像包括的目标元素添加蒙板，得到添加了蒙版的第二图像。图像检索设备可以将添加了蒙版的第二图像以及多帧图像中不包括目标元素的图像确定为多张目标图像。

在一个实施例中，图像检索设备可以从数据库读取目标视频。

在一个实施例中，图像检索设备可以获取目标设备采集的目标视频。

在一个实施例中，目标视频可以为目标类别的视频。例如，在将本申请用于金融欺诈识别时，目标类别可以为理财、投资、股票、购物、借贷等金融相关的类别。此处，在其它应用场景下，目标类别也可以为其它类别，在此不做限制。

在一个实施例中，目标视频还可以是目标用户的视频。例如，在将本申请用于金融欺诈识别时，目标用户可以是有金融欺诈记录或被举报存在金融欺诈嫌疑的用户；或，目标用户还可以是监管用户名单中的用户。

S102、提取所述多张目标图像中每张目标图像的局部特征。

其中，每张目标图像的局部特征可以有一个或多个。

在一个实施例中，图像检索设备可以通过图像特征提取模型提取多张目标图像中每张目标图像的局部特征。

S103、从预设的聚类特征集中，分别筛选出距离每个所述局部特征最近的聚类中心特征，并利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码。

本申请实施例中，图像检索设备可以从预设的聚类特征集中，分别筛选出距离每个局部特征最近的聚类中心特征。图像检索设备可以利用距离该局部特征最近的聚类中心特征获得该局部特征的编码。其中，聚类特征集可以包括多个聚类中心特征。聚类中心特征为聚类中心对应的特征。相较于基于词频直方图的编码方式，本申请实施例采用的编码方式，能够较大程度保留局部特征的细节，避免出现因采用基于词频直方图的编码方式导致的信息衰减过大的问题。

在一个实施例中，图像检索设备可以获取预设的码本。码本包括多个码字。每个码字对应一个聚类中心特征。码字可以用于索引对应的聚类中心特征。聚类中心特征指聚类中心对应的特征。在一个实施例中，每个码字对应的聚类中心特征可以不同。之后，图像检索设备可以根据码本查询出所述的聚类特征集。其中，聚类特征集包括的多个聚类中心特征，可以为码本包括的多个码字分别对应的聚类中心特征。

在一个实施例中，图像检索设备可以获取大量不包括目标元素的图像，并采用聚类算法对这些图像进行聚类处理，得到多个聚类中心特征，从而根据所述的多个聚类中心特征构建所述的码本。例如，这些不包括目标元素的图像可以为目标场景，如金融欺诈场景的背景图像。这些图像之所以不包括目标元素，可以是这些图像原本就不包括目标元素，或还可以是图像原本包括目标元素，在对图像进行抠图处理或添加蒙版后，使得图像不包括目标元素。

具体地，图像检索设备利用距离该局部特征最近的聚类中心特征获得该局部特征的编码的方法可以为以下中的一种：

①图像检索设备获取距离该局部特征距离最近的聚类中心特征的码字，并利用距离该局部特征距离最近的聚类中心特征的码字，对该局部特征进行编码表示，得到对该局部特征的编码。

举例来说，假设预设的码本为对应有8个聚类中心特征的码本，如【1 2 3 4 5 6 78】。其中，1为第一个聚类中心特征的码字，2为第二个聚类中心特征的码字，3为第3个聚类中心特征的所以，4为第4个聚类中心特征的码字，5为第5个聚类中心特征的码字，6为第6个聚类中的特征的码字，7为第7个聚类中心特征的码字，8为第8个聚类中心特征的码字。假设每个聚类中心特征的维度为512。图像1有4个512维的局部特征，4个局部特征分别距离码本中的【2 3 4 5】对应的聚类中心特征最近，因此可以确定图像1的局部特征1对应的编码为2，图像1的局部特征2对应的编码为3，图像1的局部特征3对应的编码为4，图像1的局部特征4对应的编码为5。假设图像2有4个512维的局部特征，4个局部特征分别距离码本中的【4 56 7】对应的聚类中心特征最近，则可以确定图像2的局部特征1对应的编码为4，图像2的局部特征2对应的编码为5，图像2的局部特征3对应的编码为6，图像2的局部特征4对应的编码为7。

②图像检索设备获取该局部特征与距离该局部特征距离最近的聚类中心特征之间的距离值，并利用该局部特征与距离该局部特征最近的聚类中心特征之间的距离值，对该局部特征的编码表示，得到对该局部特征的编码。

在一个实施例中，距离局部特征最近的聚类中心特征可以通过以下方式确定：图像检索设备对每张目标图像的局部特征，计算该局部特征与每个码字对应的聚类中心特征之间的距离值，并根据该局部特征与每个码字对应的聚类中心特征之间的距离值，从每个码字对应的聚类中心特征中确定距离该距离中心特征最近的聚类中心特征。本申请实施例可以计算通过欧氏距离或余弦相似度计算得到所述的距离值。

在一个实施例中，图像检索设备可以在获得每张目标图像的局部特征的编码后，利用每张目标图像的局部特征的编码构建编码序列，以便后续利用编码序列获取到目标特征。其中，构建编码序列的过程即为组合各局部特征的编码的过程。图像检索设备可以根据每张目标图像的各局部特征间的位置关系(该位置关系可以根据局部特征在对应特征图的位置信息确定)组合每张目标图像的各局部特征的编码，得到编码序列。这里，图像检索设备在构建编码序列的过程中，无需关注各目标图像间的位置关系。

举例来说，假设图像1的局部特征1对应的编码为2，图像1的局部特征2对应的编码为3，图像1的局部特征3对应的编码为4，图像1的局部特征4对应的编码为5。图像2的局部特征1对应的编码为4，图像2的局部特征2对应的编码为5，图像2的局部特征3对应的编码为6，图像2的局部特征4对应的编码为7。图像检索设备可以根据图像1的各局部特征的位置关系以及图像2的各局部特征的位置关系对这些编码进行组合，可以得到编码序列【2 3 4 5 45 6 7】。若码本中的每个码字对应一个512维的聚类中心特征，那么这个编码序列对应有8个512维的聚类中心特征。

在一个实施例中，为了保留局部特征间的位置关系，以提升后续图像检索的准确度，图像检索设备不会对一张目标图像具有相同聚类中心特征的局部特征做聚合。例如，假设距离图像1的局部特征1最近的聚类中心特征为码字2对应的聚类中心特征，距离图像1的局部特征2最近的聚类中心特征为码字2对应的聚类中心特征，距离图像1的局部特征3最近的聚类中心特征为码字3对应的聚类中心特征,距离图像1的局部特征4最近的聚类中心特征为码字3对应的聚类中心特征。虽然图像1的局部特征1的聚类中心特征和局部特征2的聚类中心特征相同，图像1的局部特征3的聚类中心特征和图像1的局部特征4的聚类中心特征相同，但是考虑到局部特征间的位置关系，本申请实施例不会因为一张目标图像的某几个局部特征对应有相同的聚类中心特征，便针对该目标图像仅保留其中一个局部特征，而忽略其它局部特征。也就是说，本申请实施例中，图像检索设备会在一张目标图像即便有几个局部特征对应有相同的聚类中心特征的情况下，也会保留这张目标图像的所有的局部特征。

S104、根据所述每张目标图像的局部特征的编码获取到目标特征，并利用所述目标特征进行图像检索。

本申请实施例中，图像检索设备可以对每张目标图像的局部特征的编码进行融合处理，得到目标特征，并利用目标特征进行图像检索。当一张目标图像的局部特征为多个时，这张目标图像的局部特征的编码可以是这张目标图像的多个局部特征中每个局部特征的编码。

在一个实施例中，图像检索设备在利用目标特征进行图像检索的过程中，可以获取图库中各个图像的目标特征，计算根据每张目标图像的局部特征编码获取到的目标特征与各个图像的目标特征之间的相似度，并将按照计算出的相似度对各个图像进行排序，得到排序后的各个图像，输出排序后的部分或全部图像。其中，图库中各个图像的目标特征的获取方式可以参见根据多张目标图像获取目标特征的方式，即可以参考步骤S201-步骤S205，在此不做赘述。在一个实施例中，图库中可以存有多张前述提及的不包括目标元素的图像，例如目标场景的背景图像。

例如，图库包括图像a、图像b……图像检索设备可以获取图像a的目标特征a、图像b的目标特征b……假设根据每张目标图像的局部特征的编码获取到的目标特征为目标特征1。图像检索设备可以计算目标特征a与目标特征1之间的相似度，目标特征b与目标特征1之间的相似度……图像检索设备可以按照计算出的相似度对各个图像进行排序，得到排序后的各个图像，然后输出排序后的部分图像或全部图像。例如，可以按照相似度由高到底的顺序对各个图像进行排序，得到排序后的各个图像，然后从排序后的各个图像中选取排在前N位的图像，并输出排在前N位的图像，其中，N为大于或等于1的整数。

可见，图1所示的实施例中，图像检索设备可以提取每张目标图像的局部特征，从预设的聚类特征集中，分别筛选出距离每个局部特征最近的聚类中心特征，并利用距离局部特征最近的聚类中心特征获得局部特征的编码，从而根据每张目标图像的局部特征的编码获取到目标特征，并利用目标特征进行图像检索，进而提升图像检索精度。

请参阅图2，为本申请实施例提供的另一种图像检索方法的流程示意图。该方法可以应用于前述提及的图像检索设备。具体地，该方法可以包括以下步骤：

S201、获取多张目标图像，所述目标图像不包括目标元素。

其中，步骤S201可以参见图1实施例的步骤S101，在此不做赘述。

S202、将所述多张目标图像输入训练后的卷积神经网络。

S203、通过训练后的卷积神经网络对所述多张目标图像中每张目标图像进行特征提取，得到所述每张目标图像对应的特征图。

S204、将所述每张目标图像对应的特征图包括的网格单元确定为所述每张目标图像的局部特征。

在步骤S202-步骤S204中，图像检索设备可以将多张目标图像输入训练后的卷积神经网络，并通过训练后的卷积神经网络对多张目标图像中每张目标图像进行特征提取，得到每张目标图像对应的特征图，从而将每张目标图像对应的特征图包括的网格单元确定为每张目标图像的局部特征。其中，所指的卷积神经网络可以为resnet、vgg或mobilenet，等等。对于相似背景比较多的情况，比如对于不同车内环境，由于其整体相似性较高，仅能通过背景中的局部背景差异来区分，而本申请实施例通过训练后的卷积神经网路能更好的提取背景局部特征。

举例来说，假设图像1对应的特征图为一个1*512*7*7的特征图，其中，1指1张特征图，512指这张特征图中每个网格单元的维度，7*7指这张特征图的长和宽，这张图的每个网格单元即为本申请实施例所指的局部特征。相当于说，图像检索设备通过卷积神经网络可以获得49个512维度的局部特征、

在一个实施例中，图像检索设备在将多张目标图像输入训练后的卷积神经网络后，可以通过训练后的卷积神经网络对多张目标图像中的每张目标图像进行全卷积处理，得到每张目标图像对应的特征图。其中，全卷积处理即为通过多个卷积层以及多个池化层处理的过程。此处，多个池化层及多个卷积层之间的连接方式可以为：至少一个卷积层连接一个池化层，池化层后有接有至少一个卷积层，以此类推。在一个实施例中，可以将通过训练后的卷积神经网络的最后一层卷积层输出的特征作为目标图像的局部特征。

在一个实施例中，训练后的卷积神经网络可以通过如下方式获得：图像检索设备获取多张样本图像，所述样本图像不包括目标元素；图像检索设备利用所述多张样本图像构建训练集，所述训练集包括多个样本图像对，所述多个样本图像对包括第一样本图像对和第二样本图像对，所述第一样本图像对包括第一样本图像以及与所述第一样本图像背景相似的第二样本图像，所述第二样本图像对包括第一样本图像以及与所述第一样本图像背景不相似的第三样本图像；将所述训练集输入初始的卷积神经网络，以对所述初始的卷积神经网络进行训练，得到训练后的卷积神经网络。样本图像，例如可以为目标场景的样本图像，金融欺诈场景的样本图像。其中，与第一样本图像之间相似度大于或等于预设相似度的样本图像可以为第二样本图像，与第一样本图像之间相似度小于预设相似度的样本图像可以为第三样本图像。

在一个实施例中，图像检索设备利用训练集训练初始的卷积神经网络模型，得到训练后的卷积神经网络模型的过程如下：利用训练集以及训练集中每个样本图像对携带的指示样本图像间是否相似的标签来训练初始的卷积神经网络模型，得到训练后的卷积神经网络模型。在一个实施例中，图像检索设备可以利用训练集以及训练集中每个样本图像对携带的指示样本图像间是否相似的标签，并结合度量学习的方法来训练初始的卷积神经网络模型，得到训练后的卷积神经网络模型。度量学习可以学习两张样本图像间的相似性。通过度量学习可以使得正例(相似背景的样本图像)之间的特征表示距离更近，让负例(背景不相似的样本图像)之间的特征表示距离更远。

在一个实施例中，本申请实施例提及的图库可以包括前述提及的训练集的部分图像。

在一个实施例中，图像检索设备可以采用聚类算法，如K-means算法对前述提及的训练集进行聚类处理，得到多个聚类中心特征，并根据多个聚类中心特征构建所述的码本。

S205、从预设的聚类特征集中，分别筛选出距离每个所述局部特征最近的聚类中心特征，并利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码。

其中，步骤S205可以参见图1实施例的步骤S103，在此不做赘述。

S206、将所述每张目标图像的局部特征的编码输入训练后的Transformer网络。

S207、通过所述训练后的Transformer网络根据所述每张目标图像的局部特征的编码处理得到目标特征，并利用所述目标特征进行图像检索。

由于使用Transformer技术来针对局部特征的编码进行聚合，因此本申请实施例的目标特征能够用于表征每张目标图像的局部特征、每张目标图像的局部特征间的上下文关系(单张目标图像的局部特征间的位置关系)、每张目标图像的全局特征、以及两两目标图像间的上下文关系(两两图像之间的局部特征的重复和差异关系)。本方案尤其适用于对背景移动的场景进行图像检索,其检索过程能够充分利用多帧背景信息，其检索精索效果更高。

在一个实施例中，对于采用图1实施例中的第①种方式得到的编码，图像检索设备具体可以根据每张目标图像的局部特征的编码获取每张目标图像的局部特征的编码对应的聚类中心特征，并将每张目标图像的局部特征的编码对应的聚类中心特征输入训练后的Transformer网络，从而利用训练后的Transformer网络根据每个局部特征的编码对应的聚类中心特征处理得到目标特征。在一个实施例中，图像检索设备还可以将每张目标图像的局部特征的编码对应的聚类中心特征以及该局部特征在对应特征图的位置信息，输入训练后的Transformer网络，利用训练后的Transformer网络根据每张目标图像的局部特征的编码对应的聚类中心特征以及该局部特征在对应特征图的位置信息处理得到目标特征。

在一个实施例中，对于采用图1实施例中的第②种方式得到的编码，图像检索设备可以将每张目标图像的局部特征的编码输入训练后的Transformer网络，并利用训练后的Transformer网络根据每个局部特征的编码处理得到目标特征。在一个实施例中，图像检索设备可以每张目标图像的局部特征的编码以及该局部特征在对应特征图的位置信息输入训练后的Transformer网络，并利用训练后的Transformer网络根据每张目标图像的局部特征的编码以及该局部特征在对应特征图的位置信息处理得到目标特征。

在一个实施例中，训练后的Transformer网络可以通过如下方式得到：图像检索设备提取训练集中每张样本图像的局部特征，并获取预设的码本，码本包括多个码字；图像检索设备对每张样本图像的局部特征，从每个码字对应的聚类中心特征中确定出距离该局部特征最近的聚类中心特征，并利用距离该局部特征最近的聚类中心特征获得该局部特征的编码，从而根据每张样本图像的局部特征的编码训练初始的Transformer网络，得到训练后的Transformer网络。Transformer网络可以和卷积神经网络使用同一训练集，也可以使用不同的训练集。本申请实施例通过编码样本图像的局部特征，比如一个vgg网络最后一层卷积层对应的维度是1*512*7*7，那么就有49个512维的局部特征；由于图像背景所对应的场景各种各样，那么基于图像提取的局部特征也会更加多样化，如果直接将没有经过码本编码的局部特征直接输入给Transformer网络，则训练难度会很大，需要的训练数据也会很多。而先通过码本对所有局部特征进行聚类编码，比如编码成65536大小的码本，这样可以减少Transformer输入数据的多样性，进而减小对Transformer的训练难度。

由此可见，传统的针对图像提取sift特征，通过bow或vlad的方式进行特征聚类检索，其关注的是图像的局部特征，不能很好的利用图像的全局上下文信息。而申请实施例可以将传统图像检索中的聚类生成码本与Transformer网络相结合用于图像检索，既可以利用Transformer网络来提取目标特征以提升检索精度，也可以利用传统的码本表示方式减少训练Transformer网络的难度和对大量训练数据的要求。

在一个实施例中，本申请涉及区块链技术，如可从区块链中获取多张目标图像，或从将多张图像写入区块链中，或还可以从区块链获取目标视频，或将目标视频写入区块链中，等等。

可见，图2所示的实施例中，图像检索设备可以通过卷积神经网络提取局部特征，并可以通过Transformer网络来根据局部特征的编码处理得到目标特征以进行图像检索，该过程通过编码减少了输入Transformer网络的局部特征的种类数，可以提升Transformer网络的处理效率，并且通过Transformer网络来处理得到目标特征，可以有效地提升图像检索精度，此外由于采用Transformer技术，因此输入帧数不用限制在固定长度，具有比较高的灵活可配置性。

在一个应用场景中，由于网络视频贷款等金融欺诈的方式和手段各异，本申请实施例所述的图像检索方案可以用于多人在同一地点、同一场景下实施欺诈的场景中，比如大量的业务申请地点集中，申请时视频背景相同的情况。采用本申请实施例所述的图像检索方案可以挑出这类背景相同或背景相似度高的图像或者视频，以及时识别出潜在的欺诈风险。如果依靠人眼进行识别，显然存在人眼易疲劳、效率低等问题，很难用于大规模数据集。

请参阅图3，为本申请实施例提供的一种图像检索装置的结构示意图。该装置可以应用于前述提及的图像检索设备。具体地，该图像检索装置可以包括：

获取模块301，用于获取多张目标图像，所述目标图像不包括目标元素。

提取模块302，用于提取所述多张目标图像中每张目标图像的局部特征。

筛选模块303，用于从预设的聚类特征集中，分别筛选出距离每个所述局部特征最近的聚类中心特征，并利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码。

获取模块301，还用于利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码，并根据所述每张目标图像的局部特征的编码获取到目标特征。

检索模块304，用于利用所述目标特征进行图像检索。

在一种可选的实施方式中，提取模块302，具体用于：

将所述多张目标图像输入训练后的卷积神经网络；

在一种可选的实施方式中，所述图像检索状态还包括训练模块305。

在一种可选的实施方式中，训练模块305，用于获取多张样本图像，所述样本图像不包括目标元素；利用所述多张样本图像构建训练集，所述训练集包括多个样本图像对，所述多个样本图像对包括第一样本图像对和第二样本图像对，所述第一样本图像对包括第一样本图像以及与所述第一样本图像背景相似的第二样本图像，所述第二样本图像对包括第一样本图像以及与所述第一样本图像背景不相似的第三样本图像；将所述训练集输入初始的卷积神经网络，以对所述初始的卷积神经网络进行训练，得到训练后的卷积神经网络。

在一种可选的实施方式中，获取模块301，具体用于：

在一种可选的实施方式中，所述图像采集装置还包括码本构建模块306,。

在一种可选的实施方式中，码本构建模块306，用于采用聚类算法对所述训练集进行聚类处理，得到多个聚类中心特征；根据所述多个聚类中心特征构建所述码本。

在一种可选的实施方式中，获取模块301，具体用于：

可见，图3所示的实施例中，图像检索设备可以提取每张目标图像的局部特征，从预设的聚类特征集中，分别筛选出距离每个局部特征最近的聚类中心特征，并利用距离局部特征最近的聚类中心特征获得局部特征的编码，从而根据每张目标图像的局部特征的编码获取到目标特征，并利用目标特征进行图像检索，进而提升图像检索精度。

请参阅图4，为本申请实施例提供的一种图像检索设备的结构示意图。本实施例中所描述的图像检索设备可以包括：一个或多个处理器1000和存储器2000。处理器1000和存储器2000可以通过总线等方式连接。

处理器1000可以是中央处理模块(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器2000可以是高速RAM存储器，也可为非不稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器2000用于存储一组程序代码，处理器1000可以调用存储器2000中存储的程序代码。具体地：

处理器1000，用于获取多张目标图像，所述目标图像不包括目标元素；提取所述多张目标图像中每张目标图像的局部特征；从预设的聚类特征集中，分别筛选出距离每个所述局部特征最近的聚类中心特征，并利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码；根据所述每张目标图像的局部特征的编码获取到目标特征，并利用所述目标特征进行图像检索。

在一个实施例中，在提取所述多张目标图像中每张目标图像的局部特征时，处理器1000，具体用于：

将所述多张目标图像输入训练后的卷积神经网络；

在一个实施例中，处理器1000，还用于：

获取多张样本图像，所述样本图像不包括目标元素；

在一个实施例中，在利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码时，处理器1000，具体用于：

在一个实施例中，处理器1000，还用于：

根据所述多个聚类中心特征构建所述码本。

在一个实施例中，在根据所述每张目标图像的局部特征的编码获取到目标特征时，处理器1000，具体用于：

具体实现中，本申请实施例中所描述的处理器1000可执行图1实施例、图2实施例所描述的实现方式，也可执行本申请实施例所描述的实现方式，在此不再赘述。

在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采样硬件的形式实现，也可以采样软件功能模块的形式实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的计算机可读存储介质可为易失性的或非易失性的。例如，该计算机存储介质可以为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

其中，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于本申请所涵盖的范围。

Claims

1.一种图像检索方法，其特征在于，包括：

获取多张目标图像，所述目标图像不包括目标元素；

提取所述多张目标图像中每张目标图像的局部特征；

2.根据权利要求1所述的方法，其特征在于，所述提取所述多张目标图像中每张目标图像的局部特征，包括：

将所述多张目标图像输入训练后的卷积神经网络；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取多张样本图像，所述样本图像不包括目标元素；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

根据所述多个聚类中心特征构建所述码本。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述利用距离所述局部特征最近的聚类中心特征获得所述局部特征的编码，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述每张目标图像的局部特征的编码获取到目标特征，包括：

8.一种图像检索装置，其特征在于，包括：

检索模块，用于利用所述目标特征进行图像检索。

9.一种图像检索设备，其特征在于，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序指令，所述处理器被配置用于执行所述程序指令，实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-7任一项所述的方法。