CN110414561A

CN110414561A - 一种适用于机器视觉的自然场景数据集的构建方法

Info

Publication number: CN110414561A
Application number: CN201910561320.7A
Authority: CN
Inventors: 王嘉乐; 邹炼; 范赐恩; 程谟凡; 陈丽琼; 魏文澜; 张捷
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2019-11-05

Abstract

本发明公开了一种适用于机器视觉的自然场景数据集的构建方法，包括如下步骤：基于生态***类型确定数据集的分类类别；利用关键词从互联网上下载原始图像；对下载的图像进行初步匹配判断，对模糊类别图片进行再次分类，形成图像数据集；利用卷积神经网络对数据集进行验证，再根据混淆矩阵对歧义类别进行合并。解决了自然场景分类难以像物体分类进行准确客观定义的问题，为训练深度卷积神经网络提供了可靠的数据支撑，可用于自然场景识别***。

Description

一种适用于机器视觉的自然场景数据集的构建方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种适用于机器视觉的自然场景数据集的构建方法。

背景技术

在图像处理技术领域，近几年图像识别受到了越来越多的关注，图像识别技术是运动分析、立体视觉、数据融合等实用技术的基础，其中目标识别由于卷积神经网络和超大规模数据集的应用，在识别的准确率方面有了非常大的提升，而利用卷积神经网络对图像发生的场景进行识别却难以获得相同水平的准确度，这其中很大一部分原因是由于场景数据集自身分类不准确所导致的。

利用机器视觉对图像中物体进行识别可以提供图像中大概正在发生什么事情，而对图像发生的场景进行识别则能使我们获得更多与图片有关的信息，同时通过场景猜想过去和未来可能会发生什么事件。随着自动驾驶、无人车以及无人机技术的发展，对周围环境进行准确检测为安全提供了保障，因此一个标准的场景数据库显得尤为重要。

对于大多数场景数据库，往往存在着以下两个问题：1)类别与类别之间层次混乱，在某些数据集中存在“农田”和“平原”类别之间的混乱，其中平原是一种地貌类型，而农田也可以在平原上建立，两者之间并非独立；2)含义重复混淆，例如“林场”与“森林”只有在特殊情况下才会进行区分。

不同于物体数据集的构建过程中类别标签有着客观的评价，场景数据集经常由于主观评价不同而对同一幅图像有着不一样的判定标准，这也导致了同一类别中图像之间差异很大，限制了算法准确度的提升，因此在场景数据集中需要建立一个统一的分类准则。

对于一个自然场景，生物与环境帮助我们确定场景的具体类型，而生物与环境构成的统一整体在生态学研究中被称为生态***，这些生态***具有最为多种的种类和大小，通过生态***的分类来对自然场景数据集中的分类进行对应，使数据集的分类满足一个统一的判定尺度。

判定一张图像所属的自然场景，需要结合图像中的物体和背景；判定某一空间所属的生态***，需要结合该空间中的生物和环境；两者在判定上有着极大的相似性，因此该发明提出将生态***作为数据集类别的判定尺度，即生态***中的类别对应自然场景数据集中的类别，这样操作无论是从分类的主观感受上还是客观要求上都是基本一致的。

发明内容

为了解决上述问题，本发明提供了一种构建自然场景数据库的方法，旨在改善现有数据集分类中缺陷，使得在构造自然场景数据集分类时有一个统一的分类准则，并且使最终的数据集能更好地适用于机器视觉领域。

为实现上述目的，本发明的技术方案具体包括以下步骤：

1.一种适用于机器视觉的自然场景数据集的构建方法，其特征在于，包括以下步骤：

步骤1：依据生态***类型初步确定数据集中含有的类别与对应子类别；其中，生态***类型分为：

陆地生态***：包括自然陆地生态***和人工陆地生态***；

水生生态***：包括内陆水生生态***、海洋生态***和人工水生生态***；

地下生态***：包含洞穴生态***；

步骤2：将子类别名称作为关键字在互联网上进行搜索，至少搜索1000张与该子类别对应的图片，完成图片的收集；

步骤3：对所收集到的图片进行初步的人工筛选，对不符合对应类别的图片进行进一步筛选，得到含有场景类别标签的数据集；

步骤4：将数据集分为训练集和验证集，利用深度卷积神经网络对图像进行分类，并利用混淆矩阵将预测结果与真实类别标签结合生成相似度矩阵，依据相似度矩阵合并相似度过高的类别，得到最终的数据集，具体包括：

步骤4.1，按照80％/20％的比例对原始数据集随机进行划分得到训练集和验证集；

步骤4.2，将训练集中的图片转化为224×224分辨率的图片，选用13层的bn-inception网络结构作为场景预测分类网络；含有两个卷积层和3×3池化层的原始bn-inception网络将224×224分辨率的图片转化为28×28的特征图，使得在后续10个inception层中能够更快的进行处理，其中两层步长为2，其余步长为1，因此28×28的特征图最终变化为7×7的特征图；最后利用全局均值池化层对跨空间维度的激活进行聚合；

步骤4.3，利用步骤4.2中所得到的模型对验证集进行分类预测，得到分类结果，将预测结果与真实分类结合得到混淆矩阵C，该混淆矩阵显示类别与类别之间的交叉错误，隐含地指示了它们之间的相似程度，在形式上，我们用以下方式定义这种相似性：

S＝C+C^T

其中C∈R^N×N是混淆矩阵，N是自然场景类别的数目，C_ij表示将第i类分类为第j类的概率，该值较大表示两个类别之间的模糊度较高；按照该公式生成相似度矩阵S，该等式保证了相似性是对称的度量，为合并两个相似类别提供线索；

步骤4.4，设定一个合适的阈值τ，此处τ＝0.5，将相似度超过该阈值τ的两类进行合并；分析合并的合理性，若第i行和第j行合并为同一类型，更新对应的相似性矩阵，删除第i和第j行和列，将作为新的行和列添加进去，重复该步骤直到最终的数据集不超过阈值或满足其他要求，这样得到的数据集更适用于机器视觉方面的处理。

2.根据权利要求1所述的一种适用于机器视觉的自然场景数据集的构建方法，其特征在于，所述生态***子类别分类要满足：

条件一、子类别属于某一生态***；

条件二、子类别之间相互独立。

3.根据权利要求1所述的一种适用于机器视觉的自然场景数据集的构建方法，其特征在于，子类别分为：

自然陆地生态***：极地与高山苔原、半沙漠、针叶林、落叶林、天然草原、荒地、常绿阔叶林、地中海型灌木丛、沙漠、山地、热带雨林；

人工陆地生态***：人工草地、农田、温室、城市；

内陆水生生态***：沼泽、湿地、河流、湖泊；

海洋生态***：沿海、珊瑚礁、深海；

人工水生生态***：池塘；

包含洞穴生态***：洞穴。

4.根据权利要求1所述的一种适用于机器视觉的自然场景数据集的构建方法，其特征在于，步骤2所述类别名称加上天气形容词，天气形容词包括：晴朗的、多云的、下雨的、下雪的。

5.根据权利要求1所述的一种适用于机器视觉的自然场景数据集的构建方法，其特征在于，步骤3所述不符合对应类别的图片挑出汇总至未分类图片，若总搜集图片为M张，总类别为N类，当无法分类的图片超过N/M时，构建新的类别，新的类别满足步骤1中述的子类别分类条件。

因此，本发明具有如下优点：(1)依照此方法构建的数据集中同一子类别内图片样本多样化，构建的数据集整体质量较高；(2)不同子类别之间不易混淆，能够提高测试精度。

附图说明

图1为本发明的总体框图。

图2为实例中所选用的13层的bn-inception网络结构图。

具体实施方式

为了更清楚的阐述本发明的目的、技术方案和有益效果，下面结合附图和实施例进一步说明。应当理解，本发明不应限于实施例公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

如图1所示，本发明公开了一种适用于机器视觉的自然场景数据集的构建方法，具体实施时的步骤如下：

步骤1：依据生态***类型初步确定数据集中含有的类别：

步骤1.1，生态***类型可分为陆地生态***、水生生态***、地下生态***最基本的三个类别；

步骤1.2，每个类别又可以进一步进行分类，陆地生态***又可分为自然陆地生态***和人工陆地生态***，水生生态***可分为内陆水生生态***、海洋生态***和人工水生生态***，地下生态***则包含洞穴生态***；

步骤1.3，上述类别又可进一步分出子类别，其中子类别的分类可以依据所需类别的数目进行制定，分类满足两个条件：(1)子类别属于某一生态***(2)子类别之间相互独立；

作为优选，所述子类别可分为：沿海，极地与高山苔原，沼泽，半沙漠，针叶林，落叶林，天然草原，荒地，常绿阔叶林，地中海型灌木丛，沙漠，山地，热带雨林，湿地，人工草地，农田，温室，河流，湖泊，池塘，珊瑚礁，深海，城市，洞穴。

步骤2：搜集对应图片，完成图片的收集：

对于其中一个类别C，将C作为关键词输入搜索引擎，利用在线图片搜索引擎下载图片。为了增加图片的多样性，在关键词中加上与天气有关的词语(例如晴朗，下雨，多云)。排除掉尺寸过小的图片，完成所有类别图片的下载。

步骤3：对所收集到的图片进行筛选：

步骤3.1，对下载后的图片进行人工筛选，保留类别相符的图片，将类别不符的图片挑出汇总至未分类图片；

步骤3.2，剩余未分类的图片进行分类，若出现大量图片无法找到合适分类的情形，考虑构建新的类别，新的类别满足步骤1中述的子类别分类条件；

步骤3.3，对少数无法判断场景的图像进行剔除，完成所有图片的类别确认。

步骤4：利用相似度矩阵对相似类型进行合并：

步骤4.2，将训练集中的图片转化为224×224分辨率的图片，如图2选用13层的bn-inception网络结构作为场景预测分类网络。含有两个卷积层和3×3池化层的原始bn-inception网络将224×224分辨率的图片转化为28×28的特征图，小尺寸的特征图使得在后续10个inception层中能够更快的进行处理，其中两层步长为2，其余步长为1，因此28×28的特征图最终变化为7×7的特征图。最后利用全局均值池化层对跨空间维度的激活进行聚合；

S＝C+C^T

其中C∈R^N×N是混淆矩阵，N是自然场景类别的数目，C_ij表示将第i类分类为第j类的概率，该值较大表示两个类别之间的模糊度较高。按照该公式生成相似度矩阵S，该等式保证了相似性是对称的度量，为合并两个相似类别提供线索；

步骤4.4，设定一个合适的阈值τ，此处τ＝0.5，将相似度超过该阈值τ的两类进行合并。分析合并的合理性，若第i行和第j行合并为同一类型，更新对应的相似性矩阵，删除第i和第j行和列，将作为新的行和列添加进去，重复该步骤直到最终的数据集不超过阈值或满足其他要求，这样得到的数据集更适用于机器视觉方面的处理。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

陆地生态***：包括自然陆地生态***和人工陆地生态***；

地下生态***：包含洞穴生态***；

S＝C+C^T

条件一、子类别属于某一生态***；

条件二、子类别之间相互独立。

人工陆地生态***：人工草地、农田、温室、城市；

内陆水生生态***：沼泽、湿地、河流、湖泊；

海洋生态***：沿海、珊瑚礁、深海；

人工水生生态***：池塘；

包含洞穴生态***：洞穴。