CN107256262B

CN107256262B - 一种基于物体检测的图像检索方法

Info

Publication number: CN107256262B
Application number: CN201710444684.8A
Authority: CN
Inventors: 吴炜; 张宇; 沙丽娜
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2020-04-14
Anticipated expiration: 2037-06-13
Also published as: CN107256262A

Abstract

本发明公开了一种基于物体检测的图像检索方法，解决图像检索时未对图像中多个物体分别检索的问题。其实现为：对图像数据库中的图像进行物体检测，检出图像中一个或多个物体；提取被检出物体的SIFT和MSER特征并将其结合生成特征束；采用K均值和k‑d树把特征束生成视觉单词；倒排索引建立图像数据库中物体的视觉单词索引，生成图像特征库；用物体检测方法，将查询图像中的物体生成视觉单词，将查询图像与图像特征库的视觉单词进行相似性对比，输出得分最高的作为图像检索的结果。本发明能对图像的多个物体分别检索，减少了背景干扰和图像语义鸿沟，提高了准确度，检索速度和效率；用于图像中某个具体物体，包括人物的图像检索。

Description

一种基于物体检测的图像检索方法

技术领域

本发明属于计算机图像处理技术领域，主要涉及图像检索，具体是一种基于物体检测的图像检索方法，可以用于互联网图像数据检索。

背景技术

随着信息化社会的到来和计算机应用的普及，人们越来越多地接触到大量的信息，其中多媒体信息是人们接触最广泛的一种信息资源，它以文字、图像、声音和视频等各种形式存在，并且随着科技的进步以***的速度增长。特别是近年来互联网的应用和发展，更加促进了多媒体信息的数据量急剧增长。面对海量数据，人们往往无所适从，信息量的快速增长使得人们对多媒体信息的检索需求与目俱增，因此图像检索技术就成为研究的热点之一。从20世纪70年代起开始对图像检索领域研究到现在，图像检索技术经历了三个发展阶段：基于文本、基于内容、基于语义的图像检索。基于文本的图像检索使用关键字来标注图像，当用户进行图像检索时，主要是搜索匹配图像中的标签进行检索，但是它有很多缺点：描述图像的文本关键字是人工添加的，主观意识太大；文字描述完全不能表达出图像丰富的含义，仅仅采用关键字的形式很难对数据库中的图像进行精确的检索；随着科技的不断进步和发展，图像数据库的规模越来越大，没有那么多的精力对每幅图像进行文本标注，成本太大。二十世纪九十年代初期,，基于内容的图像检索(Content Based ImageRetrieval，CBIR)开始兴起，它提取图像中的纹理、形状等底层特征，然后对图像特征进行相似性度量，进而检索出相似图像。CBIR采用的是图像本身的内容进行检索，没有人为主观性的干扰，克服了基于文本的图像检索的缺点，也可将图像文本信息加入作为检索的补充。在基于内容的图像检索中，提取的是图像的底层特征。然而，人对图像的理解并不是单纯的依靠图像的底层特征，另一方面，图像底层特征的维数高，运算比较复杂。从提高检索速度和准确率来说，不可能把所有提取出来的特征都用于图像检索。计算机是利用底层特征来理解图像的，而人类却是利用抽象信息来理解图像，并使用高层语义来描述图像，这种高层语义特征和图像底层特征并没有直接关系，这就存在着“语义鸿沟”，为了解决“语义鸿沟”，又提出了基于语义的图像检索(Semantic-based Image Retrieval，SBIR)。SBIR的主要任务就是把在底层特征和高层语义之间建立沟通的桥梁，解决语义鸿沟的问题。2012年以来，深度学习得到了飞速发展，在图像分类和物体检测领域取得了重大突破，解决“语义鸿沟”看到了希望。本发明采用深度学习中的物体检测算法，建立起底层特征和高层语义的联系，提高了检索的精度和效率，并且对图像中物体进行检索，比一般的图像检索方法更加灵活。

沙祖拉公司在其申请的专利“基于内容的图像检索”(申请号：201480048753.8，公开号：CN105518668A)公开了一种基于分割和多特征提取的图像检索技术。该方法包括选择查询图像；通过应用分割技术将所选择的查询图像进行分割；通过确定至少两个特征描述符来从所分割的查询图像提取特征，至少两个特征描述符包括颜色特征描述符和纹理特征描述符；以及使用所分割的查询图像的所确定的至少两个特征描述符来确定查询图像与被包括在数据库中的多个图像的相似性，通过确定至少两个特征描述符从被包括在数据库中的多个图像中的每个图像来提取特征，颜色特征描述符和纹理特征描述符包括不同的颜色空间的同时组合，并且对不同的颜色空间的同时组合执行全局和局部统计测量。该方法的不足之处在于图像分割不够准确，提取的特征是颜色特征和纹理特征等低层特征，对整幅图像提取特征并检索，没有对图像中单个物体检索。

镇江华洋信息科技有限公司在其申请的专利“基于内容语义的图像检索”(申请号：201410591510.0，公开号：CN105630794A)公开了一种基于内容语义的图像检索方法。该方法采用综合特征，并结合人类视觉特点，给出了一种基于颜色空间信息的检索方法，取得了比一般的单一特征检索方法更好的效果。以及采用基于色彩聚类的彩色图像分割方法，使得基于区域的彩色图像检索取得较好的效果。该方法的不足之处是只考虑了物体的颜色和空间信息进行检索，在图像数量较多时，提取的特征太多，没有考虑对图像中单个物体进行检索。

夏炎在其论文“大规模图像数据中相似图像的快速搜索”(中国科学技术大学，博士论文，2015年)中提出了一种稀疏投影编码算法，该算法采用稀疏矩阵进行投影以减少计算代价，加快哈希编码的速度，在一定程度上缓解优化模型中的过拟合问题。然而该算法固定了目标函数中的惩罚项系数，没有找到最优的系数使得编码结果更加准确，影响了检索准确率，是对整幅图像进行的检索，没有考虑图像中的单个物体。

许鹏飞在其论文“图像结构化特征表达方法研究”(哈尔滨工业大学，博士论文，2013年)中提出了一种多层次结构特征表达方法，该方法使用树形结构来组织和刻画图像区域内的多尺度特征，提高特征表达的辨别能力。该方法是通过考虑空间相关性和尺度相关性来进行图像特征提取，并没有考虑时间相关性，而且不同类别图像的空间和尺度相关性差别很大，当图像数据集较大时，效果不是很好，该方法采用了多尺度特征，然而这种特征并不是很准确，没有把图像中的物体作为对象进行检索。

熊昌镇在其论文“结合主体检测的图像检索方法”(北京工业大学，光学精密工程期刊，2017年)中提出了一种结合主体检测的图像检索方法，该方法使用深度卷积神经网络检测物体，然后根据物体的类别概率和其所在区域的坐标判断图像主体，然后进行图像检索。该方法可有效排除图像背景的干扰，得到更加准确的检索结果和定位精度，然而该方法只考虑了图像中的主体部分，没有考虑图像中其他物体。如果图像中存在多个大小相似的物体，那么会影响主体检测的效果，进一步会影响到图像的检索准确度。

综上，现有的技术提取图像中的颜色、纹理、形状和SIFT等底层特征，对两种或多种特征融合，以及对图像进行分割，检测图像中的主体部分，然后进行图像检索。当输入查询图像时，对整幅图像或图像主体部分进行特征提取并检索，并没有考虑把图像中的多个物体检测出来并分别提取特征和检索，方法不够灵活和准确。

发明内容

本发明针对上述现有技术存在的不足，提出一种减小语义鸿沟，提高检索灵活性和准确度的基于物体检测的图像检索方法。

本发明是一种基于物体检测的图像检索方法，其特征在于，包括有如下步骤：

步骤1，检测图像中的多个物体：采用YOLO方法对图像进行物体检测，检测出该图像中的1个或多个物体；

步骤2，根据该图像的物体检测结果，提取包括每一个物体的检测矩形框内的SIFT特征和MSER特征；

步骤3，把该图像中检测出的每个物体的SIFT特征和MSER特征组合，生成特征束；

步骤4，采用KMeans和k-d tree方法，依次对特征束进行聚类和量化，生成该图像中每个物体的视觉单词；

以上为物体检测方法；

步骤5，重复步骤1-4，遍历整个图像数据库，将图像数据库中的所有图像中的被检测物体都生成视觉单词，利用倒排索引方法，对所有的视觉单词处理，建立图像数据库视觉词典的索引目录，作为图像特征库；

步骤6，用物体检测方法，得到查询图像中每个物体的视觉单词，按照步骤1-4，将查询图像中的物体生成视觉单词；

步骤7，根据图像特征库中的索引目录，把查询图像中物体的视觉单词和图像特征库中物体的视觉单词进行相似度匹配，然后按照相似度得分高低进行排序，把得分最高的前N幅图像数据库中的物体作为检索出的物体，输出物体所在的图像，得到检索结果。

本发明能够对图像中的每个物体进行检索，减小语义鸿沟，提高检索灵活性和准确度。

与现有技术相比，本发明具有如下优点：

1.本发明利用物体检测的方法，从图像中的关键信息即物体入手进行检测，得到了物体的位置信息，很好的区分了图像中的前景和背景，减少了噪声对检索的干扰，提高了检索的准确度；

2.现有的技术都是对整幅图像进行特征提取并检索，所提取的特征并不能准确的反映图像中的物体，准确率不高，在底层特征和图像的高层语义之间存在着语义鸿沟，本发明只提取图像中物体检测矩形框所在位置的特征，减少了图像的语义鸿沟，使得所提取的特征能够相对准确的表示图像中的物体，提高了检索速度和效率；

3.现有的技术是对整幅图像进行检索，不能针对图像中具体某一个物体检索，不够灵活，而在现实生活中图像大多含有多个物体，本发明根据物体检测提取的图像中被检测物体的特征，能够分别对图像中的各个物体进行检索，找到其他图像中的相似物体，而不是整幅图像，检索方法更加灵活。

附图说明

图1是生成图像特征库的流程图

图2为本发明的实现流程图；

图3是物体检测的结果；

图4是使用本发明对person1的检索结果；

图5是使用本发明person2的检索结果；

图6是使用本发明对car的检索结果；

图7是未采用物体检测的图像检索方法对person1的检索结果；

图8是未采用物体检测的图像检索方法对person2的检索结果；

图9是未采用物体检测的图像检索方法对car的检索结果。

具体实施方式

下面结合附图对本发明的实施例进行详细描述。

实施例1

现有的图像检索中，提取图像中的颜色、纹理、形状和SIFT等底层特征，然后进行图像检索，并没有考虑把图像中的多个物体检测出来并分别提取特征和检索，方法不够灵活和准确。随着科学技术的发展，人们从手机、相机和互联网等途径获得了大量的图像，通过大数据和AI等技术对图像进行处理和检索，可以从图像中挖掘出许多有用信息。本发明经过研究，提出一种基于物体检测的图像检索方法，本发明能够针对图像中某一个具体的物体进行检索，找到其他图像中的类似物体。例如在安全领域，根据犯罪嫌疑人的照片，在大量图像中快速找到犯罪嫌疑人，获得及时的线索信息；在军事领域，通过检索卫星拍摄的大量图片，可以获得武力调动情报，做到知己知彼。

参见图2，包括有如下步骤：

步骤1，检测图像中的物体：采用YOLO方法对图像进行物体检测，检测出该图像中的1个或多个物体。

采用YOLO方法检测出来的物体，得到的物体检测信息包括物体的中心位置坐标，矩形框的宽度和高度，物体的类别，参见图3。

步骤2，根据该图像的物体检测结果，提取包括每一个物体的检测矩形框内的SIFT特征和MSER特征。

SIFT特征是图像的局部特征，其对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性；MSER特征是也是图像的局部特征，它具有仿射变化不变性和稳定性，无需任何平滑处理就可以实现多尺度检测，即小的和大的结构都可以被检测到。

步骤3，把该图像中检测出的物体的SIFT特征和MSER特征组合，生成特征束。

步骤4，采用KMeans方法即K均值方法，对特征束进行聚类，生成聚类中心；再采用k-d tree方法即k-d树方法，对聚类中心进行量化，生成该物体的视觉单词。

以上为物体检测方法。

步骤5，重复步骤1-4，遍历整个图像数据库，将图像数据库中的所有图像中的物体都生成视觉单词，利用倒排索引方法，对所有的视觉单词处理，建立图像数据库视觉词典的索引目录，作为图像特征库，参见图1。

步骤6，用基于物体检测的方法，得到查询图像中物体的视觉单词，按照步骤1-4，将查询图像中的物体生成视觉单词。

步骤7，根据图像特征库中的索引目录，把查询图像中物体的视觉单词和图像特征库中物体的视觉单词进行相似度匹配，然后按照相似度得分高低进行排序，把得分最高的前N个物体作为检索出的物体，输出物体所在的图像，得到检索结果。本发明中N可以根据图像检索的需要进行设定，一般可以设置为前16幅图像。

本发明的技术思路是，通过深度学习中YOLO(You Only Look Once：Unified，Real-Time Object Detection；只看一遍就够了，统一的，实时的物体检测)方法对图像进行物体检测，获得物***置和类别信息，然后提取图像中物体的底层特征，量化处理后，使用该特征进行图像检索。

本发明提出的基于物体检测的图像检索方法，利用YOLO方法检测出图像中的一个或多个物体，对1个或多个物体分别进行特征提取和检索，检索出其他图像中的相似物体，提高了检索的灵活性和准确度。

实施例2

基于物体检测的图像检索方法同实施例1，本发明中用基于物体检测的方法，得到查询图像中物体的视觉单词，其中步骤1中采用YOLO方法对查询图像进行物体检测，检测出查询图像中的1个或多个物体的过程，包括：

1.1，使用VOC2007数据集对YOLO网络进行训练，得到权重参数；YOLO是一种物体检测的方法，也是一种深度学习的网络。

1.2，将查询图像输入到训练好的YOLO网络中，对查询图像进行物体检测，如果查询图像中有一个或多个物体存在，则把物体的位置用矩形框标记出来，位置信息包括物体的中心点的坐标，矩形框的宽度和高度，物体类别。

1.3，输出结果，得到查询图像中被检测物体的位置信息并保存。

本发明也是用同样的办法对图像数据库的图像进行处理，检测图像数据库中图像的物体。

实施例3

基于物体检测的图像检索方法同实施例1-2，步骤2所述的，提取SIFT特征和MSER特征，具体包括：

2.1，读取查询图像中物体的位置信息；

2.2，提取图像中物体所在位置的SIFT(Scale-invariant feature transform，尺度不变特征变换)特征；

2.3，提取图像中物体所在位置的MSER(Maximally Stable Extremal Regions，最大极值稳定区域)特征。

本发明根据物体检测提取的图像中被检测物体的特征，能够分别对图像中的各个物体进行检索，找到其他图像中的相似物体，而不是整幅图像，检索方法更加灵活。

实施例4

基于物体检测的图像检索方法同实施例1-3，步骤3所述的，把该图像中检测出的物体的SIFT特征和MSER特征组合，生成特征束，具体包括：

定义S＝{s_j}，表示SIFT特征点；R＝{r_i}，表示MSER特征区域；定义B＝{b_i}，表示特征束，其中b_i＝{s_j|s_j∈r_i,s_j∈S},s_j∈r_i表示SIFT特征s_j在MSER特征区域r_i内，由此，得到SIFT和MSER捆绑的特征束；b_i如果是空的，即一个MSER特征区域内不存在SIFT特征点，则舍弃。

本发明把SIFT特征和MSER特征组合，生成特征束。SIFT特征对旋转、尺度缩放、亮度变化具有不变性，以及对视角变化、仿射变换、噪声等也具有一定程度的稳定性；MSER具有仿射不变性(尤其对存在大尺度变化影像效果更明显)，更够检测出包含大量影像结构信息的区域。将这两种特征组合生成特征束，可以提高图像特征的分辨能力，从而增强匹配的能力，进一步提高检索精度。

实施例5

基于物体检测的图像检索方法同实施例1-4，所述倒排索引，得到图像检索结果，包括：

5.1，利用倒排索引方法，对图像数据库中所有物体的视觉单词进行处理，建立视觉词典的索引目录；

5.2，根据索引目录，采用夹角余弦的方法，对查询图像中物体的视觉单词和图像数据库中物体的视觉单词进行相似度匹配；

5.3，按照相似度得分的高低进行排序，把得分最高的前N个物体作为检索出的物体，输出物体所在的图像，得到检索结果。

本发明采用倒排索引方法，在索引过程中，计算时间仅包含提取查询图像中物体特征的视觉和量化到视觉单词的时间，相比于提取图像特征后分别计算其与所有数据库中的特征的距离，使用倒排索引的方法减少了计算代价，提高了检索的效率。

实施例6

基于物体检测的图像检索方法同实施例1-5，为实现上述目的，本发明主要步骤包括如下：

1.采用YOLO方法检测图像中的物体，包括如下步骤：

(1)将图像输入到YOLO网络，对图像进行物体检测；

(2)输出结果，得到图像中被检测物体的位置信息并保存；

2.根据得到的物体检测的结果进行特征提取和检索，包括如下步骤：

(1)读取图像中物体的位置信息；

(2)提取图像中物体所在位置的SIFT(Scale-invariant feature transform，尺度不变特征变换)特征；

(3)提取图像中物体所在位置的MSER(Maximally Stable Extremal Regions，最大极值稳定区域)特征；

(4)将位置的SIFT尺度不变特征变换特征和物体所在位置的MSER最大极值稳定区域特征进行处理，得到优化后的SIFT特征；

(5)利用KMeans(k均值)方法对优化后的SIFT特征进行聚类，得到聚类中心；

(6)利用k-d tree(k-dimensiona tree，k维树)方法对聚类中心进行量化，得到视觉单词；

(7)利用倒排索引，对视觉单词建立索引目录，获得图像特征库；

(8)将图像中物体的视觉单词跟图像特征库进行比较，找到相似的物体，并根据得分的高低进行排序，得到检索结果。本例中N设置为前8幅图像.

本发明包括两个主要模块，第一模块是采用YOLO算法通过VOC2007数据集进行训练学习，通过学习获得数据集中的所有种类对象的图像特征，得到相应的权重参数，然后对查询图像进行物体检测，检测出图像中的多个物体，得到图像中物体的位置信息；第二模块是提取图像中物体的特征、生成特征束，并把特征束量化成视觉单词，建立倒排索引，得到图像检索的结果。

下面的实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体操作过程。

实施例7

基于物体检测的图像检索方法同实施例1-6，参见图2，本发明的具体实现步骤如下：

1、将整幅图像作为输入，输入到YOLO网络中；

2、对图像进行网格划分，将图像划分成7*7的网格；

3、预测网格中图像的bounding box(边界框)；

(3.1)如果物体中心没有落在该网格内，不对该网格进行预测；

(3.2)物体中心落在网格内，则在这个网格预测物体的bounding box；

(3.3)预测的信息包含bounding box的中心点坐标(x，y)，宽和高(w，h)还有某个物体的概率；

(3.4)采用均方和误差作为损失函数(loss函数)来优化模型参数，即网络输出的多维向量和真实图像对应的多维向量的均方和误差；

(3.5)损失函数loss如下：

其中coordError表示预测数据与标定数据之间的坐标误差，iouError为***预测出来的框与原来图片中标记的框的重合程度误差(IOU)，classError表示分类误差；

(3.6)位置相关误差(坐标、IOU)与分类误差对网络loss的贡献值是不同的，因此在YOLO计算loss时候，使用λ_coord＝0.5来修正coordError；

(3.7)在计算IOU误差时，包含物体的格子与不包含物体的格子，两者的IOU误差对网络loss的贡献值是不同的。若采用相同的权值，会导致不包含物体的格子的confidence值近似为0，变相放大了包含物体的格子的confidence误差在计算网络参数梯度时的影响。本发明为了解决这个问题，设定YOLO网络中使用λ_nobj＝0.5来修正iouError。此处的“包含”是指存在一个物体，它的中心坐标落入到格子内；

(3.8)对于相同的误差值，大物体误差对检测的影响小于小物体误差对检测的影响。这是因为，相同的位置偏差占大物体的比例远远小于同等偏差占小物体的比例。YOLO将物体大小的信息项(w和h)进行求平方根运算来改进这个问题；

4、将网格预测的bounding box通过一个全连接层，对结果进行处理，选择IOU最高的bounding box作为物体检测的结果输出，结果主要包括图像中物体的位置信息：物体中心点的坐标、矩形框的宽度和高度；

5、重复步骤3和4，检测出图像中的所有物体；

6、读取图像中物体的位置信息，进行特征提取；

7、提取图像中物体所在位置的SIFT特征，

(7.1)构建尺度空间，获得图像在不同尺度空间上的表示；

(7.2)兴趣点检测，利用高斯差分算子(Difference of Gaussians，DoG)找到图像中具有尺度不变性的兴趣点；

(7.3)局部区域描述，确定兴趣点周围像素的梯度方向，统计兴趣点周围像素在不同方向上的梯度直方图，并将该直方图作为SIFT特征描述子。

8、提取图像中物体的MSER特征，

(8.1)初始化栈和堆，栈用于存储组件，堆用于存储组件的边界像素；

(8.2)随机选取一个像素作为源像素并标注为已访问，这个像素的灰度值作为当前值；

(8.3)搜索当前值的边缘部分，检查它的邻域是否被访问，如果没有，则标注为已访问过并检索其灰度值，如果灰度值不小于当前值，则放入堆中；

(8.4)计算区域面积；

(8.5)处理栈中所有的组块，直到栈中的组块的灰度值大于当前边界像素灰度值为止。

9、把SIFT特征和MSER特征结合到一起，得到特征束。定义S＝{s_j}，表示SIFT特征点；R＝{r_i}，表示MSER特征区域；定义B＝{b_i}，表示特征束，其中b_i＝{s_j|s_j∈r_i,s_j∈S},s_j∈r_i表示SIFT特征s_j在MSER特征区域r_i内。一个特征束是由MSER把几个SIFT特征“束缚到一起”；

10、根据步骤9中得到的特征束，采用KMeans方法对特征进行聚类，生成视觉单词，

(10.1)初始化聚类中心，随机选取K个点作为聚类中心(c₁，c₂，…，c_k)，也可以按某种特定方式指定聚类中心；

(10.2)样本归类，对每一个样本x_i，找到距离其最近的聚类中心c_v，并将其分配到标明的类簇中；

(10.3)修正c_v，将每一个c_v移动到其标明的类的中心，同时更新聚类中心的值，计算出新旧聚类中心的偏差，

(10.4)判断收敛性，如果D值收敛，则算法终止；否则，返回步骤(10.2)；

11、根据步骤10得到的视觉单词，采用k-d tree进行特征量化，步骤如下：

(11.1)确定split域(分割域)，对于所有的特征向量，统计它们在每个维上的数据方差；

(11.2)挑选出最大的方差，对应的维就是split域，数据方差大表明沿该坐标轴方向上的数据分散的比较开，在这个方向上进行数据分割有较好的分辨率；

(11.3)确定node-data域(中间节点域)，将特征向量按照split域的值进行排序，选择中间的那个数据点作为node-data；

(11.4)划分左子空间和右子空间，把所有在split域上的某一维小于等于node-data点的数据都划分为左子空间，其他的划分到右子空间；

(11.5)重复以上步骤，k-d tree的构建是一个递归的过程，对左子空间和右子空间的数据重复根节点的过程，就可以得到下一级子节点(也就是左子空间和右子空间的根节点)；

(11.6)将空间和数据集进一步细分，如此反复到空间中只包含一个数据点，最后生成k-d tree；

12、建立倒排索引，一个视觉单词所对应的倒排列表包含分配到该单词的所有物体的编号(或指针等)；

13、将物体的索引与图像数据库中索引目录的进行比较，计算相似度，按照得分的高低进行排序，取前N幅得分最高的物体所在的图像输出，得到检索结果。

本发明采用物体检测的图像检索方法，对图像中的多个物体进行检测，然后对它们分别进行检索。该方法可以准确的对图像中的每一个物体进行检索，找到所在的其他图像，提高检索灵活性和准确度。

下面通过仿真，对本发明的技术效果再做说明

实施例8

基于物体检测的图像检索方法同实施例1-7

本发明的效果可以通过以下实验进一步说明：

本发明的实验环境和条件如下：

CPU：AMD Athlon(tm)II X2 250Processor 3.00GHz

GPU：GTX 750ti 2.00GHz

内存：8G

软件环境

操作***：64位Windows7

开发平台：Matlab 2014

图像数据库使用手机进行拍摄(像素1300万)，共2个类，分别是person(人)，car(汽车)，每类图像分别有3个不同的物体，每个物体有五幅图像，共3*5＝15幅，图像数据库中共有2*15＝30幅，然后再加入随机选取的干扰图像20幅，共50幅图像。

实验内容

目前，在基于内容的图像检索***性能评价中，效率准则和有效性准则比较常用，它们分别代表图像检索的速度和查找相似图像的成功率，假设A表示一次检索过程中检索到相关的图像数目，B表示一次检索过程中所检索到的不相关图像的数目，C为图像数据库中漏检的相关图像数目，这样，***的查全率和召回率可以由以下公式表示：

召回率体现了图像检索技术的全面性，查准率则反映了准确性，所以，可以用查准率和召回率来评价图像检索算法的性能。此外，采用mAP(平均准确率)来衡量算法的整体性能，计算公式如下：

其中，N表示检索图像中共有N幅正确图像，在本发明中，N＝5，P_i表示第i幅图像的查准率，附图中共列出了前8幅检索结果，但是在计算mAP时，本发明会计算检索到第5幅正确的图像时的查准率，然后进行平均；计算查准率和召回率时，只考虑前8幅图像。

参见图3，根据图3中的物体检测结果，有car(车)和person1(人物1)，person2(人物2)，对上述物体进行检索，图中从左到右依次为person1，car，person2。

利用本发明，对图3中的物体person1，car，person2进行检索，实验过程中，采用本发明在图像数据库中检索到包含相似物体的图像，取前8幅相似度得分最高的图像作为结构输出，参见图4是针对person1得到的前8幅图像、图5针对person2得到的前8幅图像，图6针对car得到的前8幅图像。物体person1出现在图4a,图4b，图4e，图4g和图4h，物体person2出现在图5a，图5b图5c，图5f和图5g，物体car出现在图6a，图6b，图6c和图6h中。

参见图4、5、6可见，在使用本发明时，对person1、person2和car检索的结果，本发明对person和car的查准率、召回率和平均准确率都比较高。

总的实验结果如表1所示：

表1采用本发明的实验结果

类别	查准率	召回率	平均准确率(mAP)
				person1	62.50％	100％	75.92％
person2	62.50％	100％	87.62％
				car	50％	80％	81.11％

表中更是用数据说明了本发明的查准率、召回率和平均准确率。

从表1中的数据可以看出，person1和person2的查准率和召回率一样，都是62.50％和100％，说明在对图像中的person进行检索时，可以检索到不同图像中相同的person，在设定列出8个检索结果的情况下，person的召回率都为100％，但是查准率不是很高，可能是因为本发明采用的特征匹配的精度，在person的角度上看不高；而car的查准率是50％，召回率是80％，说明找到了大部分其他图像中的car；三个物体的平均准确率分别为75.92％、87.62％和81.11％，准确率还是很高的。

实施例9

基于物体检测的图像检索方法同实施例1-7，仿真的条件和内容同实施例8，

图7、8、9是未采用本发明物体检测的图像检索方法，对person1、person2和car进行检索的结果，红色框表示错误的检索结果，总的实验结果如表2所示：

表2未采用物体检测的图像检索算法的实验结果

表2是没有采用本发明物体检测的情况下，采用的图像检索算法得到的结果。从表1和2的结果对比可得：表2的查准率、召回率、mAP都比表1中的低，说明在没有采用本发明物体检测的情况下，由于是对整幅图像进行的检索，person和car只占了图像中很少的一部分，其他的大部分都是干扰，所以检索的准确率不高，而且从图8可以看出，返回的检索结果都含有car，说明在图像中，car所占据的面积比较大，所提取的特征也多，更容易被检索出来，但是在对人进行检索时，这些都是干扰，对检索结果有很大影响。

现有的图像检索方法都是对整幅图像进行检索，没有人为选取部分图像进行检索。本发明采用了物体检测的方法，区分图像中的前景和背景，只对图像中的关键物体进行检索，由于只提取了图像中的部分信息，数据的运算量比较低，检索的准确率得到了很大的提升。

简而言之，本发明公开的一种基于物体检测的图像检索方法，属于计算机图像处理技术领域，主要解决现有图像检索时未对图像中多个物体分别进行检索的问题。其检索步骤为：(1)采用YOLO算法对图像数据库中的图像进行检测，检测出图像中一个或多个物体(2)对图像中被检测出的1个或多个物体所在的位置范围，提取SIFT和MSER特征(3)把SIFT和MSER特征结合，生成特征束(4)采用KMeans和k-d tree方法，把特征束生成视觉单词(5)采用倒排索引方法，建立图像数据库中物体的视觉单词索引，生成图像特征库(6)按照步骤(1)-(4)，生成查询图像中物体的视觉单词(7)将查询图像中物体的视觉单词与图像特征库中物体的视觉单词进行相似性对比，按照相似性得分的高低，得到图像数据库中得分最高的前N个物体，输出前N个物体所在的图像，作为图像检索的结果。本发明能对图像的单个物体检索，还能对多个物体分别检索，减少了背景干扰和图像语义鸿沟，提高了准确度，检索速度和效率；用于图像中某个具体物体，包括人物的图像检索，也可以用于互联网图像数据检索。

Claims

1.一种基于物体检测的图像检索方法，其特征在于，包括有如下步骤：

步骤3，把该图像中物体的SIFT特征和MSER特征组合，生成特征束，具体包括：

3.1定义S＝{s_j}，表示SIFT特征点；R＝{r_i}，表示MSER特征区域；定义B＝{b_i}，表示特征束，其中b_i＝{s_j|s_j∈r_i,s_j∈S},s_j∈r_i表示SIFT特征s_j在MSER特征区域r_i内；

3.2把物体检测图像中提取到的所有的特征按照3.1的方法，将SIFT特征点和MSER特征区域捆绑成特征束；

步骤4，采用KMeans和k-d tree方法，依次对特征束进行聚类和量化，生成该物体的视觉单词；

步骤5，重复步骤1-4，遍历整个图像数据库，将图像数据库中所有图像中的物体都生成视觉单词，利用倒排索引方法，对所有的视觉单词处理，建立图像数据库视觉词典的索引目录，作为图像特征库；

步骤6，重复步骤1-4，得到查询图像中物体的视觉单词；

步骤7，根据图像特征库中的索引目录，把查询图像物体的视觉单词和图像特征库中物体的视觉单词进行相似度匹配，然后按照相似度得分高低进行排序，把得分最高的前N个物体作为检索出的物体，输出物体所在的图像，得到检索结果。

2.根据权利要求1所述的基于物体检测的图像检索方法，其特征在于：步骤6中所述用基于物体检测的方法，得到查询图像中物体的视觉单词，其中步骤1中采用YOLO方法对查询图像进行物体检测，检测出查询图像中的1个或多个物体的过程，包括：

1.1，使用VOC2007数据集对YOLO网络进行训练，得到权重参数；YOLO是一种物体检测的方法，也是一种深度学习的网络,对YOLO进行训练后，可以用YOLO对其他图像进行物体检测，找到图像中的一个或多个物体；

1.2，将查询图像输入到训练好的YOLO网络中，对查询图像进行物体检测，如果查询图像中有一个或多个物体存在，则把物体的位置用矩形框标记出来；

3.根据权利要求1所述的基于物体检测的图像检索方法，其特征在于：步骤2所述的，提取SIFT特征和MSER特征，具体包括：

2.1，读取查询图像中物体的位置信息；

2.2，提取图像中物体所在位置的尺度不变特征变换特征SIFT；

2.3，提取图像中物体所在位置的最大极值稳定区域特征MSER。