CN110162657A

CN110162657A - 一种基于高层语义特征和颜色特征的图像检索方法及***

Info

Publication number: CN110162657A
Application number: CN201910453427.XA
Authority: CN
Inventors: 王春静; 焦伟伟
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-08-23
Anticipated expiration: 2039-05-28
Also published as: CN110162657B

Abstract

本公开公开了一种基于高层语义特征和颜色特征的图像检索方法及***，该方法包括：接收查询图像和被检索图像集，进行图像预处理；利用颜色直方图提取图像的颜色特征；利用基于深度学习构建的卷积神经网络提取图像特征图的基于行的形式的高层语义特征矩阵；分别将被检索图像与查询图像的颜色特征和高层语义特征矩阵进行相似度匹配，得到颜色特征相似度和高层语义特征相似度，加权求和得到最终相似度，降序排列输出检索到的图像。

Description

一种基于高层语义特征和颜色特征的图像检索方法及***

技术领域

本公开属于图像检索的技术领域，涉及一种基于高层语义特征和颜色特征的图像检索方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着互联网的迅猛发展，互联网上数字图像呈***性增长，如何从数量庞大的图像数据库中快速、准确地检索到人们所感兴趣的图像，进一步成为图像检索领域的研究热点。通常情况下，可将图像检索方法分为两种：基于文本的图像检索(Text-based ImageRetrieval，TBIR)和基于内容的图像检索(content-based image retrieval，CBIR)。

TBIR方法就是通过人工标注为图像添加文本标签以对图像的主要内容进行描述，将图像检索问题变为文本检索问题，这种图像检索方法检索准确率较高，然而，发明人在研发过程中发现，TBIR方法却因为人为因素存在着极大的缺陷：人工标注成本高，不适用于大规模图像数据的检索；人为主观性太强，不同的人对同一幅图像的标注可能有所不同，从而导致图像检索结果的差异性；文本标签不能完全描述图像所包含的内容，导致检索结果准确率降低。

CBIR方法就是允许用户输入一幅查询图像，通过对查询图像和所有被检索图像进行特征提取、特征相似度匹配，从而在图像数据库中检索到与查询图像内容相似的图像。CBIR方法虽然解决了人工对图像进行标注的缺陷，然而，发明人在研发过程中发现，CBIR方法可被计算机识别的图像底层特征和人类感知的高水平语义概念之间所存在的“语义鸿沟”，导致检索效果依旧不尽人意。如何缩小甚至跨越这一“鸿沟”成为当前图像检索研究领域的一大热点。

近几年来，深度学习在图像处理方面取得了不俗的成绩，基于深度学习的特征在各项计算机视觉任务中也均有建树。通过深度学习所提取的图像高层语义特征更抽象、鲁棒性更好，能更好地表征图像内容。因此，如何更好地利用深度学习对图像的高层语义特征进行提取也成为了图像检索领域的一个焦点。

发明内容

针对现有技术中存在的不足，本公开的一个或多个实施例提供了一种基于高层语义特征和颜色特征的图像检索方法及***,有效提高图像检索的性能。

根据本公开的一个或多个实施例的一个方面，提供一种基于高层语义特征和颜色特征的图像检索方法。

一种基于高层语义特征和颜色特征的图像检索方法，该方法包括：

接收查询图像和被检索图像集，进行图像预处理；

利用颜色直方图提取图像的颜色特征；

利用基于深度学习构建的卷积神经网络提取图像特征图的基于行的形式的高层语义特征矩阵；

分别将被检索图像与查询图像的颜色特征和高层语义特征矩阵进行相似度匹配，得到颜色特征相似度和高层语义特征相似度，加权求和得到最终相似度，降序排列输出检索到的图像。

进一步地，在该方法中，所述进行图像预处理的具体步骤包括：

将查询图像转化为1024×1024的分辨率；

对分辨率转化后的图像采用3×3的均值滤波器进行降噪处理。

进一步地，在该方法中，所述利用颜色直方图提取查询图像的颜色特征的具体步骤包括：

采用颜色直方图将图像转换为RGB模式；

将RGB模式的图像映射到HSV空间；所述HSV空间的H划分为16级，S划分为4级，V划分为4级；

统计图像中每种颜色值的像素点的个数，得到每个图像所对应的256维的颜色特征向量。

进一步地，在该方法中，所述基于深度学习构建的卷积神经网络包括依次连接的3个卷积层；第一卷积层包括16个大小3×3的卷积核和1个线性修正单元，与最大池化层连接；第二卷积层包括4个大小为3×3的卷积核和1个线性修正单元；第三卷积层包括4个大小为3×3的卷积核和1个线性修正单元，与均值池化层连接。

进一步地，在该方法中，接收图像训练集，对卷积神经网络进行训练，计算卷积神经网络输出值的误差函数，利用反向传播算法和小批量梯度下降算法更新网络参数。

进一步地，在该方法中，所述利用基于深度学习构建的卷积神经网络提取图像特征图的基于行的形式的高层语义特征向量的具体步骤包括：

采用基于深度学习构建的卷积神经网络分别对查询图像和被检索图像集进行处理，每幅图像对应256个特征图，每个特征图对应1个256×256的矩阵；

将每个特征图的每一行数据作为一个分组，求取该分组中数据的均值、方差、众数和极大值，并作为该行的分支特征向量；

根据图像的主要内容分布在中间位置的规律，将每幅特征图所对应的前c1行与后c1行的分支特征向量乘以第一权重，中间行的分支特征向量乘以第二权重，且第二权重大于第一权重，两权重之和为1；

将每一幅图像所对应的256个特征图的相同行的各分支特征向量进行无改动连接，作为图像的高层语义特征矩阵的行向量，得到高层语义特征矩阵。

进一步地，在该方法中，所述分别将被检索图像与查询图像的颜色特征和高层语义特征向量进行相似度匹配的具体步骤包括：

采用特征相似度匹配方法计算查询图像颜色特征和所有被检索图像颜色特征之间的相似度；

采用与颜色特征相同的特征相似度匹配方法将每一幅被检索图像所对应的高层语义特征矩阵的每一个行特征向量分别与查询图像的高层语义特征矩阵的所有的行特征向量依次进行相似度匹配，分别取最大值，将最大值求和得到每幅被检索图像与查询图像在高层语义特征上的相似度。

进一步地，该方法还包括：接收用户反馈结果，根据用户反馈结果对检索过程进行调整，进行重新检索。

根据本公开的一个或多个实施例的一个方面，提供一种计算机可读存储介质。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于高层语义特征和颜色特征的图像检索方法。

根据本公开的一个或多个实施例的一个方面，提供一种终端设备。

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于高层语义特征和颜色特征的图像检索方法。

根据本公开的一个或多个实施例的一个方面，提供一种基于高层语义特征和颜色特征的图像检索装置。

一种基于高层语义特征和颜色特征的图像检索装置，基于所述的一种基于高层语义特征和颜色特征的图像检索方法，包括：

预处理模块，被配置为接收查询图像和被检索图像集，进行图像预处理；

颜色特征提取模块，被配置为利用颜色直方图提取图像的颜色特征；

高层语义特征提取模块，被配置为利用基于深度学习构建的卷积神经网络提取图像特征图的基于行的形式的高层语义特征向量；

相似度匹配模块，被配置为分别将被检索图像与查询图像的颜色特征和高层语义特征向量进行相似度匹配，得到颜色特征相似度和高层语义特征相似度，加权求和得到最终相似度，降序排列输出检索到的图像。

本公开的有益效果：

(1)本公开提供的一种基于高层语义特征和颜色特征的图像检索方法及***，在图像特征提取过程中，综合考虑了图像的底层颜色特征和高层语义特征，使得图像特征的代表性更优于单独考虑图像底层特征的代表性。

(2)本公开提供的一种基于高层语义特征和颜色特征的图像检索方法及***，综合考虑查询图像和每幅被检索图像不同部分内容之间的相似度来衡量查询图像和每幅被检索图像之间的相似度，能够进一步增强图像之间的对比度。

(3)本公开提供的一种基于高层语义特征和颜色特征的图像检索方法及***，将高层语义特征提取过程中的权值、最终相似度匹配过程中的权值设置为动态参数，能进一步提高图像检索方法对不同查询图像的适应能力。

(4)本公开提供的一种基于高层语义特征和颜色特征的图像检索方法及***，通过用户满意度进行信息反馈，能进一步提高图像检索的性能。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是根据一个或多个实施例的一种基于高层语义特征和颜色特征的图像检索方法流程图。

具体实施方式：

下面将结合本公开的一个或多个实施例中的附图，对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和***的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以使用专用硬件与计算机指令的组合来实现。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合，下面结合附图与实施例对本公开作进一步说明。

实施例一

为了进一步提高图像特征向量的代表性，本方法使用高层语义特征与底层颜色特征相结合的方式来表征图像的特征，使得图像的特征更加全面，从而使图像之间的对比更全面、深入。同时，综合考虑查询图像和每幅被检索图像不同部分内容之间的相似度来衡量查询图像和每幅被检索图像之间的相似度，能进一步增强图像之间的对比度。

如图1所示，一种基于高层语义特征和颜色特征的图像检索方法，该方法包括：

S1图像预处理：对图像进行预处理，减少图像中的噪声干扰；

S2提取图像的颜色特征：利用颜色直方图提取图像的颜色特征；

S3提取图像的高层语义特征：构建基于深度学习的卷积神经网络，利用卷积神经网络提取图像特征图的基于行的形式的高层语义特征向量；

S4图像特征相似度匹配：首先，将所有被检索图像与查询图像的颜色特征进行相似度匹配；其次，将每幅被检索图像特征图所有行的特征矩阵分别与查询图像特征图每行的特征矩阵进行相似度匹配，并取每次匹配的最大值作为该次的匹配结果，将所得各次相似度匹配结果进行求和，从而得到高层语义特征上的相似度；最后，将颜色特征相似度和高层语义特征相似度进行加权求和，从而得到每幅被检索图像与查询图像的最终相似度，然后按照最终相似度从大到小的顺序将被检索到的图像输出给用户。

在本实施例的步骤S1中，图像预处理过程为：

将图像转化为1024×1024的分辨率；对图像使用3×3的均值滤波器进行降噪处理，以减少噪声对图像特征提取产生的干扰。

在本实施例的步骤S2中，颜色特征向量的提取过程为：

采用颜色直方图，先将图像转换为RGB模式，然后将RGB模式的图像映射到HSV空间，其中，H划分为16级，S划分为4级，V划分为4级，从而得到256种不同的颜色值；分别统计图像中每种颜色值的像素点的个数，从而得到每个图像所对应的的256维的颜色特征向量，查询图像的颜色特征向量设为VC_q、被检索图像的颜色特征向量为VC_ri(i＝1,2,...,n，其中n为被检索图像数量))。

在本实施例的步骤S3中，构建高层语义特征提取网络的过程为：

基于深度学习构建卷积神经网络，该卷积神经网络包括3个卷积层、3个线性修正单元、2个池化层。每个卷积层处理得到的特征图均作为下一个卷积层的输入数据。第1个卷积层包含16个大小为3×3的卷积核(步长为1)和1个线性修正单元，之后接1个最大池化层，核的大小为3×3(步长为2)；第2个卷积层包含4个大小为3×3的卷积核(步长为1)和1个线性修正单元；第3个卷积层包含4个大小为3×3的卷积核(步长为1)和1个线性修正单元，之后接1个均值池化层，核的大小为3×3(步长为2)。经过3层卷积后，每幅图像都会对应着256个特征图。其中卷积神经网络输入的第一幅特征图指的是HSV模式的待处理图像。利用图像训练集对卷积神经网络进行训练，计算卷积神经网络输出值的误差函数，利用反向传播算法和小批量梯度下降算法更新网络参数。

在本实施例的步骤S3中，利用深度学习提取图像特征图基于行的形式的高层语义特征向量的过程为：

首先，利用训练后的卷积神经网络分别对查询图像和所有被检索图像进行处理，然后将所有图像所对应的最后一个池化层输出的256个特征图进行处理，每个特征图都对应1个256×256的矩阵；其次，将每个特征图的每一行数据作为一个分组，求取该分组中数据的均值μ、方差σ、众数v、极大值m，用这4个数据特征作为该行的分支特征向量(μ_i,j,k,σ_i,j,k,v_i,j,k,m_i,j,k)(i＝1,2,...,256，j＝1,2,...,256，k＝1,2,3,4，其中i表示第i幅特征图，j表示第j行，k表示第k个数据特征)；最后，根据图像的主要内容分布在中间位置的规律，将每幅特征图所对应的前c1行与后c1行的分支特征向量乘以权重w₁，中间行的分支特征向量乘以权重w₂，其中，w₂>w₁，且w₁+w₂＝1。将每一幅图像所对应的256个特征图的相同行的各分支特征向量(μ_i,j,k,σ_i,j,k,v_i,j,k,m_i,j,k)(i＝1,2,...,256，j＝1,2,...,256，k＝1,2,3,4)进行无改动连接，作为图像的高层语义特征矩阵的行向量(其中,i＝1,2,...,256)，每个行向量都由256×4个数据组成，从而得到1个256×1024的高层语义特征矩阵。

在本实施例的步骤S4中，图像颜色特征相似度匹配过程为：

寻找恰当的特征相似度匹配方法，计算查询图像颜色特征和所有被检索图像颜色特征之间的相似度。设S_ci(i＝1,2,...,n)为查询图像与第i幅被检索图像所对应的颜色特征之间的相似度。

图像高层语义特征相似度匹配过程为：

利用与上一步相同的相似度匹配方法将每一幅被检索图像所对应的高层语义特征矩阵的每一个行特征向量分别与查询图像的高层语义特征矩阵的所有的行特征向量依次进行相似度匹配，分别取最大值，将这256个最大值进行求和，得到每幅被检索图像与查询图像在高层语义特征上的相似度。设S_gi(i＝1,2,...,n)为查询图像与第i幅被检索图像所对应的高层语义特征之间的相似度。

图像最终相似度匹配过程为：

将每幅被检索图像与查询图像在颜色特征上的相似度S_ci与在高层语义特征上的相似度S_gi进行加权求和，即S_i＝a₁S_ci+a₂S_gi，其中a₁+a₂＝1，所得结果S_i作为每幅被检索图像与查询图像的最终相似度，最后按照最终相似度从大到小的顺序将检索到的图像输出给用户。

进一步的，根据用户反馈结果对检索过程进行调整。如果用户对检索结果满意，则停止检索过程，否则，适当的调整特征提取方法和特征相似度匹配方法之后，再重新进行检索。

实施例二

实施例三

这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。

在本实施例中，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开内容的各个方面。

实施例四

应当注意，尽管在上文的详细描述中提及了设备的若干模块或子模块，但是这种划分仅仅是示例性而非强制性的。实际上，根据本公开的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本公开的有益效果：

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于高层语义特征和颜色特征的图像检索方法，其特征在于，该方法包括：

接收查询图像和被检索图像集，进行图像预处理；

利用颜色直方图提取图像的颜色特征；

2.如权利要求1所述的一种基于高层语义特征和颜色特征的图像检索方法，其特征在于，在该方法中，所述进行图像预处理的具体步骤包括：

将查询图像转化为1024×1024的分辨率；

对分辨率转化后的图像采用3×3的均值滤波器进行降噪处理。

3.如权利要求1所述的一种基于高层语义特征和颜色特征的图像检索方法，其特征在于，在该方法中，所述利用颜色直方图提取查询图像的颜色特征的具体步骤包括：

采用颜色直方图将图像转换为RGB模式；

4.如权利要求1所述的一种基于高层语义特征和颜色特征的图像检索方法，其特征在于，在该方法中，所述基于深度学习构建的卷积神经网络包括依次连接的3个卷积层；第一卷积层包括16个大小3×3的卷积核和1个线性修正单元，与最大池化层连接；第二卷积层包括4个大小为3×3的卷积核和1个线性修正单元；第三卷积层包括4个大小为3×3的卷积核和1个线性修正单元，与均值池化层连接；

在该方法中，接收图像训练集，对卷积神经网络进行训练，计算卷积神经网络输出值的误差函数，利用反向传播算法和小批量梯度下降算法更新网络参数。

5.如权利要求1所述的一种基于高层语义特征和颜色特征的图像检索方法，其特征在于，在该方法中，所述利用基于深度学习构建的卷积神经网络提取图像特征图的基于行的形式的高层语义特征向量的具体步骤包括：

6.如权利要求1所述的一种基于高层语义特征和颜色特征的图像检索方法，其特征在于，在该方法中，所述分别将被检索图像与查询图像的颜色特征和高层语义特征向量进行相似度匹配的具体步骤包括：

7.如权利要求1所述的一种基于高层语义特征和颜色特征的图像检索方法，其特征在于，该方法还包括：接收用户反馈结果，根据用户反馈结果对检索过程进行调整，进行重新检索。

8.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1-7任一项所述的一种基于高层语义特征和颜色特征的图像检索方法。

9.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1-7任一项所述的一种基于高层语义特征和颜色特征的图像检索方法。

10.一种基于高层语义特征和颜色特征的图像检索装置，其特征在于，基于如权利要求1-7任一项所述的一种基于高层语义特征和颜色特征的图像检索方法，包括：