WO2017012491A1

WO2017012491A1 - 一种图像高维特征的相似比较方法及装置

Info

Publication number: WO2017012491A1
Application number: PCT/CN2016/089866
Authority: WO
Inventors: 林熙东; 牟川
Original assignee: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
Priority date: 2015-07-23
Filing date: 2016-07-13
Publication date: 2017-01-26
Also published as: JP2018527656A; US11048966B2; CN105095435A; JP6544756B2; US20180349735A1; RU2686590C1

Abstract

一种图像高维特征的相似比较方法及装置，能够在基于局部敏感哈希编码的海量图片相似检索中提高检索速度与检索精度。所述方法包括：将所提取的图像特征向量通过局部敏感哈希算法进行降维处理后得到低维特征向量（S31）；将所述低维特征向量平均分段并建立分段索引表（S32）；通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集（S33）；将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量（S34）。

Description

一种图像高维特征的相似比较方法及装置

技术领域

本发明涉及计算机技术领域，特别地涉及一种图像高维特征的相似比较方法及装置。

背景技术

在当今互联网环境下，网络用户除了文字检索需求外还希望能够对声音、图像、视频等多媒体内容进行检索。具体到图像检索，用户希望能够通过用户提供的图像作为查询(Query)，请求互联网服务提供商找出与该图片内容相似的候选图片集合，应用场景如电商企业根据用户提供的商品图片向其推荐同款或相似款的商品，各搜索网站根据用户提供的风景图片显示相似图片等。

传统的图像检索一般是基于人工指定的图像特征进行相似度量，由于图像数据在语义上的非结构化特点，使得要靠人工发现富有表达力的特征是个比较困难的任务。Hinton等人提出的深度学习神经网络技术能够自主学习完成特征提取，即从原始图像的高维特征向量空间到较低维特征向量空间的有效映射，大大提高了图像领域的特征表达效率。

在互联网行业，服务企业的存量图像往往数量巨大。面对用户的检索需求，如果需要在秒级响应时间内得到检索结果，除了采用大规模并行计算技术外，还需要同时在降维与索引、匹配算法上提高速度。局部敏感哈希(Locality Sensitive Hashing，LSH)算法是一种降维编码技术，其特点是在生成的哈希编码中保留了原始特征空间中的相对位置关系，因此可以用于图像的快速检索。

在现有技术中，局部敏感哈希算法用于图像检索主要包括如下步骤：

1、图像的局部敏感哈希编码过程

图像的局部敏感哈希编码过程如图1所示。原始图像针对RGB通道表示为n维向量，经过卷积神经网络(CNN)编码后取其某一隐层(一般在倒数2～4层间取)的输出作为图像的m维特征向量(典型的长度为4096维)。该特征向量随后经过一组局部敏感哈希向量运算后转换为k(k远小于m)维的LSH编码。按照此种方法，服务企业将其所有的图片转化为这种编码，那么后续的图像相似检索都是基于图像的这种表示方式进行的。

2、图像相似检索过程

图像相似检索过程如图2所示。用户上传的查询图像先经过上述步骤1得到其局部敏感哈希LSH编码A，接着对局部敏感哈希向量表中的每一个向量B，计算A、B两者的汉明距离，然后根据所得的距离从小到大排序，最后取靠前的若干个向量所对应的原始图像作为相似检索的结果返回给用户。

但是，在使用过程中，发现现有的局部敏感哈希算法用于图像检索的方法存在以下缺点：

1、基于LSH编码的相似检索速度在图像集比较大(如包含百万、千万及以上的图片)时仍然比较慢；

2、汉明距离度量虽然计算速度比欧氏距离度量、曼哈顿距离度量等要快，但是精度下降比较多，检索结果不尽如人意。

发明内容

有鉴于此，本发明提供一种图像高维特征的相似比较方法及装置，通过对图像的局部敏感哈希编码进行分段索引及检索，并选用曼哈顿距离进行相似度量的方法，能够在基于局部敏感哈希编码的海量图片相似检索中提高检索速度与检索精度。

为实现上述目的，根据本发明的一个方面，提供了一种图像高维特征的相似比较方法。

本发明的一种图像高维特征的相似比较方法包括：将所提取的图像特征向量通过局部敏感哈希算法进行降维处理后得到低维特征向量；将所述低维特征向量平均分段并建立分段索引表；通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集；将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量。

可选地，所述图像特征向量是利用深度学习技术构建神经网络来提取的。

可选地，所述神经网络为卷积神经网络。

可选地，将所述低维特征向量平均分段的步骤之前，还包括：在一个较小的验证集上通过实验确定最优的分段长度。

可选地，将所述低维特征向量平均分段并建立分段索引表的步骤包括：将所述低维特征向量平均分段，以分段后的特征向量作为索引项，并计算每个索引项的指纹值；将所述指纹值对与所述分段索引表包含的预定的入口个数最接近的素数进行取余运算，得到所述索引项的入口地址；将所述低维特征向量根据得到的所述入口地址***所述分段索引表中以建立分段索引表。

可选地，通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集的步骤包括：通过访问查询图像的所述分段后的低维特征向量的入口地址，得到冲突集；将与所述查询图像的分段后的低维特征向量的指纹值相同的所述冲突集节点对应的所述低维特征向量提取出来，作为候选集；把各个分段检索得到的所述候选集合并起来，去掉其中重复的所述低维特征向量，得到候选样本集。

可选地，将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量包括：分别计算所述候选样本集中的每个样本与所述查询图像的低维特征向量之间的曼哈顿距离得分；将所述得分按照从小到大排序，并取前预定个数的得分对应的样本的图像作为所述查询图像的相似图像。

根据本发明的另一方面，提供了一种图像高维特征的相似比较装置。

本发明的一种图像高维特征的相似比较装置包括：特征降维模块，用于将所提取的图像特征向量通过局部敏感哈希算法进行降维处理后得到低维特征向量；分段索引模块，用于将所述低维特征向量平均分段并建立分段索引表；相似查询模块，用于通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集；比较度量模块，用于将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量。

可选地，所述神经网络为卷积神经网络。

可选地，所述分段索引模块在将所述低维特征向量平均分段之前，还用于：在一个较小的验证集上通过实验确定最优的分段长度。

可选地，所述分段索引模块还用于：将所述低维特征向量平均分段，以分段后的特征向量作为索引项，并计算每个索引项的指纹值；将所述指纹值对与所述分段索引表包含的预定的入口个数最接近的素数进行取余运算，得到所述索引项的入口地址；将所述低维特征向量根据得到的所述入口地址***所述分段索引表中以建立分段索引表。

可选地，所述相似查询模块还用于：通过访问查询图像的所述分段后的低维特征向量的入口地址，得到冲突集；将与所述查询图像的分段后的低维特征向量的指纹值相同的所述冲突集节点对应的所述低维特征向量提取出来，作为候选集；把各个分段检索得到的所述候选集合并起来，去掉其中重复的所述低维特征向量，得到候选样本集。

可选地，所述比较度量模块还用于：分别计算所述候选样本集中的每个样本与所述查询图像的低维特征向量之间的曼哈顿距离得分；将所述得分按照从小到大排序，并取前预定个数的得分对应的样本的图像作为所述查询图像的相似图像。

根据本发明的技术方案，对降维后的图像特征向量局部敏感哈希编码建立分段索引可以加快检索速度，从而提高检索效率；在进行图像相似检索时，采用曼哈顿距离度量替代传统的汉明距离度量，可以充分利用局部敏感哈希编码中包含的可量化的距离信息，从而提高了在分段检索下的检索精度。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是现有技术中的生成图像的局部敏感哈希编码过程示意图；

图2是现有技术中的图像相似检索过程示意图；

图3是根据本发明实施例的一种图像高维特征的相似比较方法的主要步骤示意图；

图4是根据本发明实施方式的生成图像的局部敏感哈希编码及建立分段索引的过程示意图；

图5是根据本发明实施方式的分段哈希索引表结构图；

图6是根据本发明实施方式的基于分段索引的图像相似检索过程示意图；

图7是根据本发明实施例的一种图像高维特征的相似比较装置的主要模块示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下将结合图3至图6对本发明的实施过程进行介绍。图3是根据本发明实施例的一种图像高维特征的相似比较方法的主要步骤示意图。如图3所示，本发明的一种图像高维特征的相似比较方法包括如下的步骤S31至步骤S34。

步骤S31：将所提取的图像特征向量通过局部敏感哈希算法进行降维处理后得到低维特征向量。本步骤中的图像的特征向量可利用深度学习技术构建神经网络来提取，一般所使用的神经网络为卷积神经网络CNN。下面结合图4所示的根据本发明实施方式的生成图像的局部敏感哈希编码及建立分段索引的过程示意图，可以看出，原始图像经过卷积神经网络CNN进行特征提取后，得到m维的CNN特征向量。之后，对该m维的特征向量通过局部敏感哈希LSH进行降维处理，得到低(如：k，k远小于m)维的特征向量LSH编码。

步骤S32：将所述低维特征向量平均分段并建立分段索引表。在对LSH编码平均分段并建立分段索引之前，可以通过在一个较小的验证集上通过实验确定最优的分段长度，以使得本发明的技术方案在检索速度和精度之间取得一个相对比较满意的折衷。之后，根据确定的最优的分段长度d，将该低维的LSH编码向量进行平均分段。举例来说，编号为1001的样本的LSH编码为：

[0，1，1，0，0，3，1，0，1，0，2，1，0，1，2，1，1，0，1，-1，2，1，0，1，1，1，0，0]

若最优的分段长度为d＝7，则需将其分为四段，得到的分段索引项分别为：

1[0，1，1，0，0，3，1]、2[0，1，0，2，1，0，1]、3[2，1，1，0，1，-1，2]、4[1，0，1，1，1，0，0]

其中每段前的数字代表定位序号，第一段为1，第二段为2，以此类推。

将低维特征向量LSH编码平均分段后，对该低维特征向量在内存中建立分段哈希索引表，主要步骤可概括如下：

步骤S321：将所述低维特征向量平均分段，以分段后的特征向量作为索引项，并计算每个索引项的指纹值；

步骤S322：将所述指纹值对与所述分段索引表包含的预定的入口个数最接近的素数进行取余运算，得到所述索引项的入口地址；

步骤S323：将所述低维特征向量根据得到的所述入口地址***所述分段索引表中以建立分段索引表。

结合图5所示的根据本发明实施方式的分段哈希索引表结构图，以前述的编号为1001的样本为例进行介绍。将该样本分为4段后，以分段后的特征向量作为索引项，计算每个分段索引项的指纹值，例如可通过消息摘要算法第五版(即：MD5函数)来进行计算，以求得每个索引项的指纹值。然后，将这些指纹值对与分段索引表包含的预定的入口个数最接近的素数进行取余运算，得到各个索引项的入口地址。分段索引表的入口个数N可根据需要进行设定，例如可根据机器的内存大小，或者功能实现的需要等进行设定。在实际应用中，由于分段索引项的个数很多，因此各个索引项的入口地址可能会重复，也就是通常所说的键值冲突，本发明将键值冲突的索引项以冲突集的形式保存为冲突集链表。最后，将低维特征向量LSH编码根据得到的入口地址***分段索引表中以建立分段索引表。

通过以上的步骤S31和步骤S32，即可实现本发明实施方式的生成图像的局部敏感哈希编码及建立分段索引的过程。下面结合附图介绍基于分段索引的图像相似检索过程。

步骤S33：通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集。在进行相似图像查询时，可以按照以下的几个步骤来进行。

步骤S331：通过访问查询图像的所述分段后的低维特征向量的入口地址，得到冲突集；

步骤S332：将与所述查询图像的分段后的低维特征向量的指纹值相同的所述冲突集节点对应的所述低维特征向量提取出来，作为候选集；

步骤S333：把各个分段检索得到的所述候选集合并起来，去掉其中重复的所述低维特征向量，得到候选样本集。

结合图5所示的分段哈希索引表结构，以前述的编号为1001的样本为例进行介绍查候选样本集的过程。如步骤S331，首先，计算分段后的每一个分段索引项的指纹值，以找到每一个分段索引项在索引表的入口地址S，通过访问该入口地址S得到对应的冲突集链表，冲突集链表中的每个节点向右的指针用于保存冲突集链表，向下的指针用于保存候选集链表。所谓候选集，就是当某个查询图像的一个分段索引项的指纹值和该节点的“分段局部敏感哈希LSH编码”的指纹值相同时，后续需要进行仔细距离比较的该分段索引项的候选样本集合，此处的候选样本即是相应的低维特征向量。如步骤S332所述，将该候选集提取出来。最后，如步骤S333所述，各个分段检索都完成后，将得到的所有候选集合并起来，去掉其中重复的低维特征向量，得到最终需要进行距离比较的候选样本集。

步骤S34：将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量。在进行相似度量时，首先，分别计算所述候选样本集中的每个样本与所述查询图像的低维特征向量之间的曼哈顿距离得分；然后，将所述得分按照从小到大排序，并取前预定个数的得分对应的样本的图像作为该查询图像的相似图像。

根据曼哈顿距离的原理，得分越小则相似度越高，因此根据计算的曼哈顿距离得分即可将相似度比较出来并排序。在实际应用中，可以根据应用的需要事先设定好要显示的相似图像的个数，也可由用户自己选择要显示的相似图像的个数。

通过以上的步骤S33和步骤S34，即可实现如图6所示的根据本发明实施方式的基于分段索引的图像相似检索的过程。即：将查询图像的低维特征向量与分段局部敏感哈希LSH编码向量集中的每个元素分别进行基于分段索引与曼哈顿距离的相似判别，最后得到相似局部敏感哈希LSH编码的记录集合，从而得到对应的相似图像。

由以上的步骤S31至步骤S34可以实现本发明的技术方案。经过实验得出，对于一个100万的图片集来说，由卷积神经网络的倒数第3层的特征向量将得到512位局部敏感哈希LSH编码，如果选用d＝24位的分段长度进行分段并建立索引，在进行图像相似检索时，检索速度大约比不进行分段直接进行两两比较可提高1000倍，也就是说，采用分段索引后检索速度比直接基于原始局部敏感哈希LSH编码的比较有很大的提高。另外，由于局部敏感哈希编码中包含有可量化的距离信息，选用曼哈顿距离进行相似度量时会充分利用该距离信息，而汉明距离只是对数字比较是否相等，因此基于曼哈顿距离进行相似度量的检索精度比基于汉明距离的方案要高。经过大量实验数据论证，检索精度大约高5％以上。

图7是根据本发明实施例的一种图像高维特征的相似比较装置的主要模块示意图。如图7所示，本发明实施例中的图像高维特征的相似比较装置70主要包括特征降维模块71、分段索引模块72、相似查询模块73和比较度量模块74。

特征降维模块71用于将所提取的图像特征向量通过局部敏感哈希算法进行降维处理后得到低维特征向量。其中，所述图像特征向量是利用深度学习技术构建神经网络来提取的，且该神经网络为卷积神经网络。

分段索引模块72用于将所述低维特征向量平均分段并建立分段索引表。分段索引模块72在将所述低维特征向量平均分段之前，还可以用于在一个较小的验证集上通过实验确定最优的分段长度。

分段索引模块72还可以用于将所述低维特征向量平均分段，以分段后的特征向量作为索引项，并计算每个索引项的指纹值；将所述指纹值对与所述分段索引表包含的预定的入口个数最接近的素数进行取余运算，得到所述索引项的入口地址；将该低维特征向量根据得到的入口地址***分段索引表中以建立分段索引表。

相似查询模块73用于通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集。

相似查询模块73还可以用于通过访问查询图像的分段后的低维特征向量的入口地址，得到冲突集；将与该查询图像的分段后的低维特征向量的指纹值相同的冲突集节点对应的低维特征向量提取出来，作为候选集；以及把各个分段检索得到的候选集合并起来，去掉其中重复的低维特征向量，得到候选样本集。

比较度量模块74用于将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量。

比较度量模块74还可以用于分别计算所述候选样本集中的每个样本与所述查询图像的低维特征向量之间的曼哈顿距离得分；将所述得分按照从小到大排序，并取前预定个数的得分对应的样本的图像作为所述查询图像的相似图像。

根据本发明实施例的技术方案，对降维后的图像特征向量局部敏感哈希编码建立分段索引可以加快检索速度，从而提高检索效率；在进行图像相似检索时，采用曼哈顿距离度量替代传统的汉明距离度量，可以充分利用局部敏感哈希编码中包含的可量化的距离信息，从而提高了在分段检索下的检索精度。

另外，本发明的技术方案中建立分段索引的过程可不限于在一台机器上执行，可以在分布式调度***中，同时并行执行。这样，便可以处理更大规模的数据。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

一种图像高维特征的相似比较方法，其特征在于，包括：

将所提取的图像特征向量通过局部敏感哈希算法进行降维处理后得到低维特征向量；

将所述低维特征向量平均分段并建立分段索引表；

通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集；

将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量。
根据权利要求1所述的方法，其特征在于，所述图像特征向量是利用深度学习技术构建神经网络来提取的。
根据权利要求2所述的方法，其特征在于，所述神经网络为卷积神经网络。
根据权利要求1所述的方法，其特征在于，将所述低维特征向量平均分段的步骤之前，还包括：

在一个较小的验证集上通过实验确定最优的分段长度。
根据权利要求1所述的方法，其特征在于，将所述低维特征向量平均分段并建立分段索引表的步骤包括：

将所述低维特征向量平均分段，以分段后的特征向量作为索引项，并计算每个索引项的指纹值；

将所述指纹值对与所述分段索引表包含的预定的入口个数最接近的素数进行取余运算，得到所述索引项的入口地址；

将所述低维特征向量根据得到的所述入口地址***所述分段索引表中以建立分段索引表。
根据权利要求1所述的方法，其特征在于，通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集的步骤包括：

通过访问查询图像的所述分段后的低维特征向量的入口地址，得到冲突集；

将与所述查询图像的分段后的低维特征向量的指纹值相同的所述冲突集节点对应的所述低维特征向量提取出来，作为候选集；

把各个分段检索得到的所述候选集合并起来，去掉其中重复的所述低维特征向量，得到候选样本集。
根据权利要求1所述的方法，其特征在于，将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量包括：

分别计算所述候选样本集中的每个样本与所述查询图像的低维特征向量之间的曼哈顿距离得分；

将所述得分按照从小到大排序，并取前预定个数的得分对应的样本的图像作为所述查询图像的相似图像。
一种图像高维特征的相似比较装置，其特征在于，包括：

特征降维模块，用于将所提取的图像特征向量通过局部敏感哈希算法进行降维处理后得到低维特征向量；

分段索引模块，用于将所述低维特征向量平均分段并建立分段索引表；

相似查询模块，用于通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集；

比较度量模块，用于将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量。
根据权利要求8所述的装置，其特征在于，所述图像特征向量是利用深度学习技术构建神经网络来提取的。
根据权利要求9所述的装置，其特征在于，所述神经网络为卷积神经网络。
根据权利要求8所述的装置，其特征在于，所述分段索引模块在将所述低维特征向量平均分段之前，还用于：

在一个较小的验证集上通过实验确定最优的分段长度。
根据权利要求8所述的装置，其特征在于，所述分段索引模块还用于：

将所述低维特征向量平均分段，以分段后的特征向量作为索引项，并计算每个索引项的指纹值；

将所述指纹值对与所述分段索引表包含的预定的入口个数最接近的素数进行取余运算，得到所述索引项的入口地址；

将所述低维特征向量根据得到的所述入口地址***所述分段索引表中以建立分段索引表。
根据权利要求8所述的装置，其特征在于，所述相似查询模块还用于：

通过访问查询图像的所述分段后的低维特征向量的入口地址，得到冲突集；

将与所述查询图像的分段后的低维特征向量的指纹值相同的所述冲突集节点对应的所述低维特征向量提取出来，作为候选集；

把各个分段检索得到的所述候选集合并起来，去掉其中重复的所述低维特征向量，得到候选样本集。
根据权利要求8所述的装置，其特征在于，所述比较度量模块还用于：

分别计算所述候选样本集中的每个样本与所述查询图像的低维特征向量之间的曼哈顿距离得分；

将所述得分按照从小到大排序，并取前预定个数的得分对应的样本的图像作为所述查询图像的相似图像。