CN112287140A

CN112287140A - 一种基于大数据的图像检索方法及***

Info

Publication number: CN112287140A
Application number: CN202011173216.XA
Authority: CN
Inventors: 汪礼君
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-29

Abstract

本发明涉及一种图像检索的技术领域，揭露了一种基于大数据的图像检索方法，包括：获取海量图像数据，并将海量图像数据进行分布式存储；对所存储的海量图像数据进行图像灰度化和灰度拉伸的预处理；利用基于自编码器的多标签语义提取算法对经预处理的图像数据进行处理，得到图像的多标签语义信息；根据图像的多标签语义信息建立图像信息连接图；利用基于深度哈希的数据存储方法将结合图像信息连接图的图像数据进行存储，从而将哈希编码值作为图像特征索引，并根据图像特征索引进行图像检索。本发明还提供了一种基于大数据的图像检索***。本发明实现了图像的检索。

Description

一种基于大数据的图像检索方法及***

技术领域

本发明涉及图像检索的技术领域，尤其涉及一种基于大数据的图像检索方法及***。

背景技术

互联网时代，大量即时通讯软件、办公软件、购物平台、游戏平台等极大地便利和丰富了人们的学习、生活与工作，同时也产生了海量的多类别、异构性、非结构化的数据；图像数据以其直观性和信息大的特点数量***性地增长，给人们生活带来极大的便利，但也因数量巨大、质量参差不齐、应用场景复杂等使得人们对图像的检索提出了更高的要求。

当前大多数的搜索引擎根据文本关键字检索图像，而检索关键字经常与图像的真实语义不匹配，因此检索性能受到影响；同时当前图像检索中主要采用对图像依次进行遍历的方式，而没有很好的索引机制来做索引，也增大了检索***的负荷，并且传统的图像检索方法大多基于已有数据进行定时离线地构建图像索引，对于新增的图像检索存在时效性差的问题。

鉴于此，如何提取出更为准确的图像语义信息，并通过对图像语义信息进行索引编码，从而根据图像索引进行图像检索，成为本领域技术人员亟待解决的问题。

发明内容

本发明提供一种基于大数据的图像检索方法，通过HDFS将海量图像数据进行分布式存储，利用基于自编码器的多标签语义提取算法存储图像数据的多标签语义信息，并根据图像的多标签语义信息建立图像连接图，最后利用基于深度哈希的数据存储方法将结合图像连接图信息的图像数据进行存储，并根据图像的哈希索引进行更为高效的图像检索。

为实现上述目的，本发明提供的一种基于大数据的图像检索方法，包括：

获取海量图像数据，并将海量图像数据进行分布式存储；

对所存储的海量图像数据进行图像灰度化和灰度拉伸的预处理；

利用基于自编码器的多标签语义提取算法对经预处理的图像数据进行处理，得到图像的多标签语义信息；

根据图像的多标签语义信息建立图像信息连接图；

利用基于深度哈希的数据存储方法将结合图像信息连接图的图像数据进行存储，从而将哈希编码值作为图像特征索引，并根据图像特征索引进行图像检索。

可选地，所述将海量图像数据进行分布式存储，包括：

1)将k个图像数据合并为1个文件，其中k设置为10；并将合并得到的文件转换为字节码的格式；

2)创建图像存储表，设计两个列族MD(image data)、MI(image info)，所述列族MD和MI分别存放文件的字节码和图像信息，所述图像信息包括图像的id和图像特征索引；同时进行预分区操作，在本发明一个具体实施例中，分区数量为9，每个分区的RowKey范围为N/(9k)，其中N为图像数据的总数；

3)将海量图像数据存储到分区中的图像存储表，其中图像特征索引设置为空白。

可选地，所述对所存储的海量图像数据进行图像灰度化和灰度拉伸的预处理的流程为：

1)通过对所存储的图像中每一个像素的三个分量求最大值，并将该最大值设置为该像素点的灰度值，得到存储图像的灰度图，所述灰度化处理的公式为：

G(i,j)＝max{R(i,j),G(i,j),B(i,j)}

其中：

(i,j)为存储图像中的一个像素点；

R(i,j),G(i,j),B(i,j)分别为像素点(i,j)在R、G、B三个颜色通道中的值；

G(i,j)为像素点(i,j)的灰度值；

2)根据所述灰度图像，本发明利用分段线性变换的方式对图像的灰度进行拉伸的公式为：

其中：

f(x,y)为灰度图像的灰度图；

MAX_f(x,y),MIN_f(x,y)分别为灰度图的最大灰度值和最小灰度值。

可选地，所述利用基于自编码器的多标签语义提取算法对经预处理的图像数据进行处理，包括：

1)构建m层的去噪自编码器，该自编码器将经预处理的图像数据集X为输入，进行m层的自编码处理；所述图像数据集X的自编码结果为：

其中：

表示X的m次拷贝；

为

加入随机噪声后的数据，

δ_i为随机噪声；

2)对于单个语义标签h以及单个训练样本x_i∈W，利用KNN算法计算k_s个与x_i∈W具有相同标签的最近邻的样本集合knn_s以及k_d个与x_i∈W具有不同标签的最近邻的样本集合knn_d；重复该步骤，直到遍历所有语义标签；将所有的knn_s集合和knn_d集合构成全局几何矩阵L，其中矩阵的第i行为第i个训练样本x_i的样本集合，第i行的前k_s个数为第i个训练样本的样本集合knn_s，后k_d个数为第i个训练样本的样本集合knn_d；

3)对于所有语义标签，通过融合多个语义标签对图像样本间几何结构的影响，得到全局集合矩阵L的表征矩阵L_g：

其中：

Y为语义标签集合，|Y|为语义标签个数；

L为全局集合特征；

4)求解表征矩阵L_g的标准特征值分解，得到r个最小的非零特征值对应的特征向量集合，该集合构成的特征空间即是约简后的特征空间，该特征空间的样本维度是r，其中r为图像数据的数量；其中每一个特征向量即为对应图像数据的多标签语义信息。

可选地，所述根据图像的多标签语义信息建立图像信息连接图的步骤为：

所述连接图的表示形式为G＝(V,E)，其中V＝{v₁,v₂,…,v_N}是顶点集合，E为边的集合；图中的一个节点可以表示为一个三元组(v,c_v,f_v)，v为节点标识，表示一张图像；每个节点都关联一个自编码结果c_v和一个多标签语义信息f_v；

所述图像信息连接图的构建过程为：计算图像自编码结果之间的欧式距离，并根据欧式距离在每一幅图像的k近邻图像之间建立连接。

可选地，所述利用基于深度哈希的数据存储方法将结合图像信息连接图的图像数据进行存储，包括：

根据图像之间的图像信息连接图，利用s_ij表示两幅图像之间的连接信息，若s_ij＝1，则表示两幅图之间存在信息连接，若s_ij＝0，则表示两幅图之间不存在信息连接；

采用符号函数tanh(.)对结合s_ij的图像多标签语义信息进行哈希编码，并将哈希编码值作为图像特征索引，所述哈希编码公式为：

h_i＝tanh(h(W^TX_i+b_i))

X_i＝{s_ij,x_i1,…,x_im}

其中：

W为预设的向量权重，本发明将其设置为0.2；

b_i为偏置向量，0≤b_i≤1；

h为哈希函数；

{x_i1,…,x_im}为第i幅图像的多标签语义信息，m为多标签语义信息的维度；

s_ij为第i幅图像与第j幅图像之间的连接信息，详细地，第j幅图像与第i幅图像在同一个数据存储表中；

所述基于哈希的数据存储方法的损失函数为：

其中：

γ为超参数，本发明将其设置为0.02；

w_ij表示每次训练的权重，本发明利用如下权重平衡公式对权重进行调整：

S表示S1和S2的集合，S1表示s_ij＝1的集合，S0表示s_ij＝0的集合；

d(h_i,h_j)＝1-cos(h_i,h_j)，表示图像i和图像j的距离。

可选地，所述根据图像特征索引进行图像检索，包括：

将待检索图像x_q以同样的方式进行哈希编码；

将x_q的哈希编码同图像特征索引进行汉明距离的计算，并将汉明距离计算结果进行排序，其中计算公式为：

其中：

h_q表示待检索图像的哈希编码；

h_j表示数据库中第j张图像的哈希编码；

两者之间的距离越小，表示两者的语义信息越为接近，根据汉明距离进行快速排序，从而快速获得图像检索结果。

此外，为实现上述目的，本发明还提供一种基于大数据的图像检索***，所述***包括：

图像数据获取装置，用于获取海量图像数据；

图像处理器，用于对所存储的海量图像数据进行图像灰度化和灰度拉伸的预处理，并利用基于自编码器的多标签语义提取算法对经预处理的图像数据进行处理，得到图像的多标签语义信息；

图像检索装置，用于根据图像的多标签语义信息建立图像信息连接图，并利用基于深度哈希的数据存储方法将结合图像信息连接图的图像数据进行存储，从而将哈希编码值作为图像特征索引，并根据图像特征索引进行图像检索。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像检索程序指令，所述图像检索程序指令可被一个或者多个处理器执行，以实现如上所述的基于大数据的图像检索的实现方法的步骤。

相对于现有技术，本发明提出一种基于大数据的图像检索方法，该技术具有以下优势：

首先，传统的图像特征提取方式大多为基于自编码器的特征提取方式，通过在自编码阶段对原始图像数据进行特征提取，提取的特征空间抗干扰能力更强，由于没有考虑标签与特征空间之间的关联，且特征空间维度没有减小，故在此基础上构建的语义提取算法的学习精度和时间性能都会受到一定的制约；本发明提出一种基于自编码器的多标签语义提取算法，首先采用自编码器获取数据集属性空间的鲁棒表达，然后通过将新的数据空间与不同的数据标签组合成多个数据视图，并构建单个视图下样本间的几何关系，在视图中，每条边描述了多个图像样本的共同属性，然后通过拉普拉斯特征映射方法构建多个语义标签下的多个数据视图对应的基于拉普拉斯矩阵的流形空间，最后通过融合多个流形空间构建出完备的表征矩阵并通过矩阵的特征值分解获得低维语义空间，通过将多语义标签与特征空间进行关联，使得所提取到的语义特征包含了更为精确的多标签分类信息，同时通过降低多语义标签数据的特征维度，避免高维度语义特征带来的过拟合问题。

同时，本发明利用基于深度哈希的数据存储方法将结合图像信息连接图的图像数据进行存储，从而将哈希编码值作为图像特征索引，并根据图像特征索引进行图像检索；由于哈希法将图像特征映射为二进制编码，但仍保留了特征在原始空间中的分布特性，同时由于用二进制编码表示特征，可以大大减少特征匹配时间和检索所需内存成本，为了进行更快速和更准确的匹配，本发明采用符号函数tanh(.)对结合s_ij的图像多标签语义信息进行哈希编码，并将哈希编码值作为图像特征索引，所述哈希编码公式为：

h_i＝tanh(h(W^TX_i+b_i))

X_i＝{s_ij,x_i1,…,x_im}

其中：W为预设的向量权重，本发明将其设置为0.2；b_i为偏置向量，0≤b_i≤1；h为哈希函数；{x_i1,…,x_im}为第i幅图像的多标签语义信息，m为多标签语义信息的维度；s_ij为第i幅图像与第j幅图像之间的连接信息，根据图像之间的连接信息，可以极快地定位出图像所在的存储数据表，实现更为快速的查询。

附图说明

图1为本发明一实施例提供的一种基于大数据的图像检索方法的流程示意图；

图2为本发明一实施例提供的一种基于大数据的图像检索***的结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

通过HDFS将海量图像数据进行分布式存储，利用基于自编码器的多标签语义提取算法存储图像数据的多标签语义信息，并根据图像的多标签语义信息建立图像连接图，最后利用基于深度哈希的数据存储方法将结合图像连接图信息的图像数据进行存储，并根据图像的哈希索引进行更为高效的图像检索。参照图1所示，为本发明一实施例提供的基于大数据的图像检索方法示意图。

在本实施例中，基于大数据的图像检索方法包括：

S1、获取海量图像数据，并将海量图像数据进行分布式存储。

首先，本发明获取海量图像数据，并将海量图像数据进行分布式存储；所述海量数据的分布式存储方案为：

1)将k个图像数据合并为1个文件，本发明将k设置为10；并将合并得到的文件转换为字节码的格式；

S2、对所存储的海量图像数据进行图像灰度化和灰度拉伸的预处理。

进一步地，本发明对所存储的海量图像数据进行图像灰度化以及灰度拉伸的预处理；

在本发明一个具体实施例中，所述图像预处理流程为：

G(i,j)＝max{R(i,j),G(i,j),B(i,j)}

其中：

(i,j)为存储图像中的一个像素点；

G(i,j)为像素点(i,j)的灰度值；

其中：

f(x,y)为灰度图像的灰度图；

MAX_f(x,y),MIN_f(x,y)分别为灰度图的最大灰度值和最小灰度值。

S3、利用基于自编码器的多标签语义提取算法对经预处理的图像数据进行处理，得到图像的多标签语义信息。

进一步地，本发明利用基于自编码器的多标签语义提取算法对经预处理的图像数据进行处理，得到图像的多标签语义信息；所述基于自编码器的多标签语义提取算法流程为：

1)构建m层的去噪自编码器，该自编码器将经预处理的图像数据集X为输入，通过m层的自编码处理，求解一个具有全局最优解的最小二乘优化问题以提取特征空间的鲁棒表达，从而有效提高多标签数据的抗干扰性；所述图像数据集X的自编码结果为：

其中：

表示X的m次拷贝；

为

加入随机噪声后的数据，

δ_i为随机噪声；

其中：

Y为语义标签集合，|Y|为语义标签个数；

L为全局集合特征；

S4、根据图像的多标签语义信息建立图像信息连接图。

进一步地，根据图像的多标签语义信息，本发明建立图像信息的连接图，所述连接图的表示形式为G＝(V,E)，其中V＝{v₁,v₂,…,v_N}是顶点集合，E为边的集合；图中的一个节点可以表示为一个三元组(v,c_v,f_v)，v为节点标识，表示一张图像；每个节点都关联一个自编码结果c_v和一个多标签语义信息f_v；

S5、利用基于深度哈希的数据存储方法将结合图像信息连接图的图像数据进行存储，从而将哈希编码值作为图像特征索引，并根据图像特征索引进行图像检索。

进一步地，本发明利用基于深度哈希的数据存储方法计算得到图像的深度哈希索引值，并将所述图像的深度哈希索引值设置为图像特征索引，完成图像数据的存储，图像数据存储的流程如下所示：

h_i＝tanh(h(W^TX_i+b_i))

X_i＝{s_ij,x_i1,…,x_im}

其中：

W为预设的向量权重，本发明将其设置为0.2；

b_i为偏置向量，0≤b_i≤1；

h为哈希函数；

所述基于哈希的数据存储方法的损失函数为：

其中：

γ为超参数，本发明将其设置为0.02；

d(h_i,h_j)＝1-cos(h_i,h_j)，表示图像i和图像j的距离；

进一步地，基于图像特征索引的图像检索步骤为：

将待检索图像x_q以同样的方式进行哈希编码；

其中：

h_q表示待检索图像的哈希编码；

h_j表示数据库中第j张图像的哈希编码；

下面通过一个算法实验来说明本发明的具体实施方式，并对发明的检索方法进行测试。本发明算法的硬件测试环境为：处理器为Inter Core i5-4460 3.2GHz,内存为8G，编程语言为C#，数据库为MySQL；对比检索方法为基于自动编码器的图像检索方法，基于倒排索引存储的图像检索方法以及无索引的图像检索方法。

在本发明所述算法实验中，数据集为10000张不同图像数据。本实验将10000条不同的图像数据利用不同的图像检索方法进行存储和检索处理，将检索完成所需的时间作为图像检索方法的评价指标。

根据实验结果，基于自动编码器的图像检索方法的检索时间为15.18s，基于倒排索引存储的图像检索方法的检索时间为16.28s，无索引的图像检索方法的检索时间为21.32s，本发明所述算法的检索时间为14.30s，相较于对比算法，本发明所提出的基于大数据的图像检索方法具有更高的图像检索效率。

发明还提供一种基于大数据的图像检索***。参照图2所示，为本发明一实施例提供的基于大数据的图像检索***的内部结构示意图。

在本实施例中，所述基于大数据的图像检索***1至少包括图像数据获取装置11、图像处理器12、图像检索装置13，通信总线14，以及网络接口15。

其中，图像数据获取装置11可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。

图像处理器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。图像处理器12在一些实施例中可以是基于大数据的图像检索***1的内部存储单元，例如该基于大数据的图像检索***1的硬盘。图像处理器12在另一些实施例中也可以是基于大数据的图像检索***1的外部存储设备，例如基于大数据的图像检索***1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。进一步地，图像处理器12还可以既包括基于大数据的图像检索***1的内部存储单元也包括外部存储设备。图像处理器12不仅可以用于存储安装于基于大数据的图像检索***1的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

图像检索装置13在一些实施例中可以是一中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行图像处理器12中存储的程序代码或处理数据，例如图像检索程序指令等。

通信总线14用于实现这些组件之间的连接通信。

网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该***1与其他电子设备之间建立通信连接。

可选地，该***1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于大数据的图像检索***1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-15以及基于大数据的图像检索***1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于大数据的图像检索***1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，图像处理器12中存储有图像检索程序指令；图像检索装置13执行图像处理器12中存储的图像检索程序指令的步骤，与基于大数据的图像检索方法的实现方法相同，在此不作类述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有图像检索程序指令，所述图像检索程序指令可被一个或多个处理器执行，以实现如下操作：

获取海量图像数据，并将海量图像数据进行分布式存储；

根据图像的多标签语义信息建立图像信息连接图；

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于大数据的图像检索方法，其特征在于，所述方法包括：

获取海量图像数据，并将海量图像数据进行分布式存储；

根据图像的多标签语义信息建立图像信息连接图；

2.如权利要求1所述的一种基于大数据的图像检索方法，其特征在于，所述将海量图像数据进行分布式存储，包括：

2)创建图像存储表，设计两个列族MD(image data)、MI(image info)，所述列族MD和M1分别存放文件的字节码和图像信息，所述图像信息包括图像的id和图像特征索引；同时进行预分区操作，在本发明一个具体实施例中，分区数量为9，每个分区的RowKey范围为N/(9k)，其中N为图像数据的总数；

3.如权利要求2所述的一种基于大数据的图像检索方法，其特征在于，所述对所存储的海量图像数据进行图像灰度化和灰度拉伸的预处理的流程为：

G(i，j)＝max{R(i，j)，G(i，j)，B(i，j)}

其中：

(i，j)为存储图像中的一个像素点；

R(i，j)，G(i，j)，B(i，j)分别为像素点(i，j)在R、G、B三个颜色通道中的值；

G(i，j)为像素点(i，j)的灰度值；