CN110750663B

CN110750663B - 一种面向生活记录的跨模态图像检索方法

Info

Publication number: CN110750663B
Application number: CN201910949307.9A
Authority: CN
Inventors: 周鹏飞; 白琮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2021-11-23
Anticipated expiration: 2039-10-08
Also published as: CN110750663A

Abstract

一种面向生活记录的跨模态图像检索方法，包括训练网络构建、数据集处理、训练与检索和检索结果输出四个过程。本发明保证了其数据集的可靠、有效、实用，同时利用预训练网络的微调训练出检索模型，并通过检索模型寻找与问询最接近的生活记录图片。在数据集中含有大量图片之外其他模态数据的情况下，在训练模型的过程中，通过对训练集施加的范围限制，有效利用了心跳、步数等生物信息提高训练的性能:判别模型能够找出最符合问询类型的10张图片，并保证这10张图片彼此之间具有一定的差异性，即在确保准确率的前提下，同时尽力提高检索结果的多样性，使得检索结果的查准率和查全率均得到保障。

Description

一种面向生活记录的跨模态图像检索方法

技术领域

本发明涉及计算机视觉领域的多媒体大数据处理与分析，特别涉及一种有监督的跨模态图片检索方法，属于图像检索领域。

背景技术

随着物联网(IOT)的快速发展，能够感知和记录生物特性的传感器以及可穿戴设备的日益普及，特别是近年来随着微视频(Vblog)以及自拍记录生活的流行，数据以生活日志的形式被记录下来的现象越来越常见，并且其他相关可用数据也越来越多地被记录、使用，如每日步数、心跳、卡路里摄入、血糖指数等，这些数据均可与图像化的生活日志结合，组成一个庞大的生活信息库，利用合适的技术，我们可以从中提取、利用很多有用的信息，最直接的应用如利用跨模态的图像检索等技术帮助人们更方便的生活。但是现阶段下除了图像之外的生活数据无法得到充分的使用，因此生活图像的检索的效果也很不理想。

发明内容

为了克服现有的生活记录图像检索精度低、分辨性不好、检索结果范围过窄(即检索所得相关图像重复性过高，不够有多样性)等不理想的缺点，本发明提供一种精度较高、多样性好、能充分利用多模态的各数据的图像检索方法，完整的检索流程包含基于生活记录的元数据预处理过程和最后针对检索结果进行多样性分化的聚类过程。

本发明解决其技术问题所采用的技术方案是：

一种面向生活记录的跨模态图像检索方法，所述方法包括以下步骤：

步骤一、网络构建，过程如下：

步骤1.1：该深度学习网络主要框架由两个二分类判别模型、一个多分类判别模型组成。每个判别模型都是由多层的全连接网络构成；

步骤1.2：每层全连接层后面接relu激励函数；

步骤1.3：最后输出做符号函数运算，把输出控制为{0，1}；

步骤二、数据集预处理，过程如下：

步骤2.1：进行模糊过滤，将全部模糊无法使用的图像过滤掉，避免干扰训练效果；

步骤2.2：进行遮挡过滤，将所有被遮盖、看不清或视野内无明显实物的图片全部过滤剔除；

步骤2.3：用在ImageNet上预训练好的模型对全部生活记录图像进行粗分类，并提取分类结果；

步骤2.4：根据检索要求构建数据对应表格，结合元数据集中的步数、位置等数据对该使用的图片施加限制，减小检索范围；

步骤2.5：根据分类结果将数据分为预训练集Q和验证训练集Q’和待检索集D三部分，准备预训练；

步骤三：网络训练，过程如下：

步骤3.1：第一次训练二分类判别模型；；

步骤3.2：第二次训练二分类判别模型；；

步骤3.3：针对多要求的生活记录检索，专门训练多分类模型，过程如下：

步骤3.3.1：依然新建一个预训练卷积神经网络，将第二次判别后每一类问询下的检索结果照片合并作为训练样本训练网络；

步骤3.3.2：用训练好的多分类模型对待检索集进行分类，其中每类下置信度最高的图片留作下一步聚类器使用；

步骤3.4：针对每一类的检索结果进行聚类，取距离不同且离中心最近的十张照片作为最终检索结果；

步骤四：检索结果输出，过程如下：

步骤4.1：针对单独的检索要求，即时反馈出二分类检索结果，展示所有图片，并记录所有数据；

步骤4.2：针对进一步的多要求检索，将经过多分类器的检索结果分类呈现，并选取门类下置信度方差最小的图片作为最终精确检索结果，记录所有数据；

步骤4.3：将结果汇总为表格，并统计检验精度；

经过上述步骤的操作，即可实现对生活记录图片的检索。

进一步，所述步骤3.1中，第一次训练二分类判别模型的过程如下：

步骤3.1.1：在预训练集Q符合预判结果的图像中随机抽取十张标注为正样本，其余作为负样本；

步骤3.1.2：预训练集送入已经过ImageNet数据集训练的卷积神经网络进行预训练，旨在微调网络使之符合二分类问题；

步骤3.1.3：针对每一张验证训练集Q’中的图片，计算其为正样本的概率，选择合适的阈值，检索出数量合适的图片特征作为第一次判别模型的输出。

再进一步，所述步骤3.2中，第二次训练二分类判别模型的过程如下：

步骤3.2.1：将第一次判别模型返回的图片特征作为判别器的输入，并重新对卷积神经网络的各权值进行微调优化；

步骤3.2.2：对每一张验证训练集Q’中的图片，第二次判别模型计算其为正样本的概率，将检索结果按照置信度排序，选取置信度最高的数张图片作为检索结果，并记录该检索要求下的检索结果。

所述步骤2.1中，分别使用拉普拉斯卷积核和快速傅立叶变换两种不同的方法将全部模糊无法使用的图像过滤掉。

所述步骤2.2中，使用计算最大连通图形面积的方法，将所有被遮盖、看不清或视野内无明显实物的图片全部过滤剔除。

本发明的有益效果主要体现在：本发明提出了一种高效的生活记录检索方法。完整的通过整个处理流程后的检索，保证了其数据集的可靠、有效、实用，同时利用预训练网络的微调训练出检索模型，并通过检索模型寻找与问询最接近的生活记录图片。在数据集中含有大量图片之外其他模态数据的情况下，在训练模型的过程中，通过对训练集施加的范围限制，有效利用了心跳、步数等生物信息提高训练的性能:判别模型能够找出最符合问询类型的10张图片，并保证这10张图片彼此之间具有一定的差异性，即在确保准确率的前提下，同时尽力提高检索结果的多样性，使得检索结果的查准率和查全率均得到保障。

附图说明

图1是面向生活记录的跨模态图像检索方法框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进一步详细说明。

参照图1，一种面向生活记录的跨模态图像检索方法，包括训练网络构建、数据集处理、训练与检索和检索结果输出四个过程。

本实施案例中的生活记录图片按不同的日期分为31个文件夹，每个文件夹下大约有图片2500张，共计77000张。实施案例设计十种不同的问询。图片检索网络结构框架如图1所示，操作步骤主要包括网络构建、数据预处理、训练与检索和检索结果输出四个过程。

步骤一、网络构建，过程如下：

步骤1.1：该深度学习网络主要框架由两个二分类判别模型、一个多分类判别模型组成，每个判别模型都是由多层的全连接网络构成；

步骤1.2：判别模型的第一个全连接层和第二个全连接层神经元个数均设为4096，后接relu激励函数；

步骤1.3：判别模型的第三个全连接层神经元个数设为1000，后接高斯过滤器，无偏置，并将输出控制为{0，1}的float型的值；

步骤二、数据预处理，过程如下：

步骤2.1：初步模糊过滤，使用Laplacian filter(3x3的拉普拉斯卷积核)，将模糊度计算为卷积结果的方差，阈值设为30，以避免误判导致去除有用的图像，保留所有模糊度小于30的图片；

步骤2.2：第二次模糊过滤，采取一个更精确的度量来提高有用图像比例，缩减训练与检索所用图像数量，减小训练开销；对图像进行快速傅里叶变换，得到变换后图像的平均值，然后根据图像的大小进行缩放，以补偿撕裂效果；最后用平均值对图像进行阈值化，较大的值表示聚焦图像，较小的值表示模糊图像；剔除所有模糊图像，保留聚焦图像作为有用图像数据；

步骤2.3：为了检测图像是否被某物覆盖或面对天花板或墙壁，对剩余图像进行遮盖过滤，过程如下：

步骤2.3.1：将图像转换为灰度图像；

步骤2.3.2：将灰度图像转换为二进制图像；

步骤2.3.3：将二值图像转换为矩阵；

步骤2.3.4：找出矩阵中最大的连通图形，并计算其面积比例；

步骤2.3.5：根据矩阵计算的结果,剔除最大连通图形面积超过整个区域90％的图像；

步骤2.4：用在ImageNet上预训练好的模型,对全部生活记录图像进行预分类，并根据分类结果标记数据集；

步骤2.5：根据每类问询中的具体检索要求构建数据对应表格，依据检索要求中的关键词，并根据元数据集中的步数、位置等数据，分别在位置、运动、内容等方面对每类检索所用图片施加限制，减小检索范围；

步骤2.6：依据预分类和问询讨论，进行基于内容的概念过滤，将图像类别与期待不符的图像过滤掉；

步骤2.7：根据分类结果，在每一类问询的检索下，将所用图片集分为预训练集Q和验证训练集Q’和待检索集D三部分，准备预训练；

步骤三、训练与检索，过程如下：

步骤3.1：第一次训练二分类判别模型：

步骤3.1.1:设定学习率为0.0001，最小批大小设置为10，分别用随机权值初始化两个二分类判别模型、十分类判别模型中的参数；设定各判别模型迭代10次为一次完整的网络训练，总共进行5次完整的训练；

步骤3.1.2:在预训练集Q符合预判结果的图像中随机抽取十张标注为正样本，其余作为负样本；

步骤3.1.3:将预训练集Q作为模型的输入送入到网络中，7:3的比例将其划分为训练数据集和验证数据集；

步骤3.1.4:判别模型利用三层的全连接网络对输入预训练集Q的特征进行权值优化，微调网络使之符合二分类问题；

步骤3.1.5：针对每一张验证训练集Q’中的图片，第一次判别模型计算其为正样本的概率，选择合适的阈值，检索出数量合适的K张图片特征作为第一次判别模型的输出；

步骤3.2：第二次训练二分类判别模型，过程如下：

步骤3.2.1：设定学习率为0.00005，最小批大小设置为10；

步骤3.2.2：将第一次判别模型返回的K张的图片特征作为正样本，其余验证训练集Q’中的图片作为负样本，送入第二次判别器，并重新对Alexnet卷积神经网络的各权值进行微调优化；

步骤3.2.3：对每一张待检索集D中的图片，判别模型计算其为正样本的概率，将检索结果按照置信度排序，选取置信度排名前10的图片作为该类问询的检索结果，并记录该检索要求下的检索结果；

步骤3.3.1：依然新建一个预训练过的Alexnet卷积神经网络，将第二次判别后每一类问询下的检索结果照片合并作为训练样本训练网络；

步骤3.2.2：用训练好的多分类模型对待检索集进行分类，其中每类下置信度最高的图片留作下一步聚类器使用；

步骤3.4：针对每一类的检索结果，使用LVQ学习向量算法对其进行聚类，取距离不同且离中心最近的十张照片作为最终检索结果；

步骤四：检索结果输出，过程如下：

步骤4.3：将结果汇总在csv文件中，并统计检验精度；

经过上述步骤的操作，即可实现面向生活记录的跨模态图像检索方法。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向生活记录的跨模态图像检索方法，其特征在于，所述方法包括以下步骤：

步骤一、深度学习网络构建，过程如下：

步骤1.2：每层全连接层后面接relu激励函数；

步骤1.3：最后输出做符号函数运算，把输出控制为{0，1}；

步骤二、数据集预处理，过程如下：

步骤2.2：进行遮挡过滤，将所有被遮盖、看不清或视野内无明显实物的图像全部过滤剔除；

步骤2.4：根据检索要求构建数据对应表格，结合元数据集中的步数、位置数据对该使用的图像施加限制，减小检索范围；

步骤三：网络训练，过程如下：

步骤3.1：第一次训练二分类判别模型；

步骤3.2：第二次训练二分类判别模型；

步骤3.3.1：依然新建一个预训练卷积神经网络，将第二次判别后每一类问询下的检索结果图像合并作为训练样本训练网络；

步骤3.3.2：用训练好的多分类模型对待检索集进行分类，其中每类下置信度最高的图像留作下一步聚类器使用；

步骤3.4：针对每一类的检索结果进行聚类，取距离不同且离中心最近的十张图像作为最终检索结果；

步骤四：检索结果输出，过程如下：

步骤4.1：针对单独的检索要求，即时反馈出二分类检索结果，展示所有图像，并记录所有数据；

步骤4.2：针对进一步的多要求检索，将经过多分类器的检索结果分类呈现，并选取门类下置信度方差最小的图像作为最终精确检索结果，记录所有数据；

步骤4.3：将结果汇总为表格，并统计检验精度；

经过上述步骤的操作，即可实现对生活记录图像的检索。

2.如权利要求1所述的一种面向生活记录的跨模态图像检索方法，其特征在于，所述步骤3.1中，第一次训练二分类判别模型的过程如下：

步骤3.1.3：针对每一张验证训练集Q’中的图像，计算其为正样本的概率，选择合适的阈值，检索出数量合适的图像特征作为第一次判别模型的输出。

3.如权利要求1或2所述的一种面向生活记录的跨模态图像检索方法，其特征在于，所述步骤3.2中，第二次训练二分类判别模型的过程如下：

步骤3.2.1：将第一次判别模型返回的图像特征作为判别器的输入，并重新对卷积神经网络的各权值进行微调优化；

步骤3.2.2：对每一张验证训练集Q’中的图像，第二次判别模型计算其为正样本的概率，将检索结果按照置信度排序，选取置信度最高的数张图像作为检索结果，并记录该检索要求下的检索结果。

4.如权利要求1或2所述的一种面向生活记录的跨模态图像检索方法，其特征在于，所述步骤2.1中，分别使用拉普拉斯卷积核和快速傅立叶变换两种不同的方法将全部模糊无法使用的图像过滤掉。

5.如权利要求1或2所述的一种面向生活记录的跨模态图像检索方法，其特征在于，所述步骤2.2中，使用计算最大连通图形面积的方法，将所有被遮盖、看不清或视野内无明显实物的图像全部过滤剔除。