CN102902737B

CN102902737B - 一种网络图像自主收集与筛选方法

Info

Publication number: CN102902737B
Application number: CN201210336284.2A
Authority: CN
Inventors: 薛建儒; 王乐; 高占宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2012-09-12
Filing date: 2012-09-12
Publication date: 2015-08-05
Anticipated expiration: 2032-09-12
Also published as: CN102902737A

Abstract

本发明提供了一种网络图像自主收集与筛选方法，该方法利用互联网日益丰富的海量图像数据，借助搜索引擎提供的强大的图像检索能力实现网络图像的自主收集与筛选。本发明为获取图像目标类别数据库数据集提供了一种自动化的解决方案，这样既可避免大量的人工劳动，又能消除由于人工收集数据集而带来的有偏性。

Description

一种网络图像自主收集与筛选方法

技术领域

本发明涉及构建计算机视觉与模式识别图像数据库领域，特别涉及一种用于构建图像目标类别数据库的网络图像自主收集与筛选方法。

背景技术

图像目标类别数据库是进行计算机视觉与模式识别研究的必要条件，研究建立高质量图像目标类别数据库的方法和***对于计算机视觉与模式识别的研究工作具有重要的意义。目前，建立图像数据库的绝大多数方法均出现以下问题：

1）收集图像数据以及数据的标记工作需要大量的人工劳动，极大的限制了数据库的规模，这成为扩大图像数据库规模时一个很难突破的瓶颈。

2）人工收集和标记图像数据库的过程并非一个完全客观地过程，不同知识文化背景的人所收集的图像数据以及对其进行的标记总是不同的，这就导致建立的图像数据库往往是有偏的，即无法确保对各种计算机视觉和模式识别算法进行评测的客观性。

发明内容

本发明的目的在于提供一种网络图像自主收集与筛选方法。

为达到上述目的，本发明采用了以下技术方案：

1）图像主题提取

选取单幅图像，然后选择网络搜索引擎对单幅图像进行检索得到搜索结果，对搜索结果进行提取后得到图像主题；

2）网络图像及相关文本信息自动下载

根据图像主题从网络下载图像及与图像相关的文本信息至本地数据库得数据集；

3）图像数据筛选

利用图像信息及与图像相关的文本信息对数据集内的图像进行筛选得目标图像集。

所述图像主题提取的步骤为：首先，借助网络上的以图搜图服务对选取的单幅图像进行检索，得到与单幅图像相关的文本检索信息；其次，利用先验语义知识以及统计方法对文本检索信息进行提取处理得到图像主题。

所述对文本检索信息进行提取处理包括以下步骤：

调用WordNet的语义网络对文本检索信息进行过滤，滤除介词、冠词、抽象名词、动词、形容词以及副词；如果过滤后只剩一个单词，那么该单词便是图像主题；如果过滤后剩余多个单词，以剩余的单词作为关键词分别在基于文本的图像检索中搜索图像的网址，获取前15-20幅图像的网址；将图像的网址分别利用以图搜图服务进行检索，得到与网址相关的文本检索信息；对所有与网址相关的文本检索信息进行分词后统计词频，词频最高的单词即为单幅图像的图像主题。

所述自动下载中，如果因下载请求遭到拒绝或读取流失败导致下载失败，并且重试三次仍下载失败，那么跳过对此图像的下载程序，直接进入下一张图像的下载程序；下载某一图像时，如果在设定时间内图像下载完成，则进入下一张图像的下载程序，若在设定时间内没有完成图像下载，则抛弃此次下载结果，然后进入下一张图像的下载程序。

所述图像数据筛选的步骤为：首先，利用图像的归一化灰度直方图分布信息剔除数据集中的非自然图像；其次，利用与图像相关的文本信息剔除数据集中偏离图像主题的图像。

所述文本信息为图像Tag信息。

所述非自然图像包括卡通画、图标、手绘或合成的图像。

所述非自然图像的判断依据为：在图像的归一化灰度直方图中，频率阈值取0.06，即当出现频率大于0.06的灰度级数量小于60时图像被判定为非自然图像。

所述剔除数据集中偏离图像主题的图像包括以下步骤：

对与图像相关的文本信息进行分词得多个单词；利用WordNet的语义网络从多个单词中筛选表示Object的词；若表示Object的词属于同一个同义词集合，那么保留与文本信息相关的图像，否则剔除与文本信息相关的图像。

本发明的有益效果为：

首先，互联网上的图像数据信息日渐庞大，网络传输协议更加标准和完善，图像搜索引擎飞速发展，在一定的时间段内，搜索引擎在特定搜索条件下的返回结果是不变的，即不论何人进行图像检索，得到的返回结果在一定时间段内是相同的，这样就能消除由于人工收集数据集而带来的有偏性。其次，将搜索引擎返回的图像搜索结果自动的并具有针对性的下载至本地数据库中，这样能避免大量的人工收集工作。

附图说明

图1为网络图像自主收集与筛选***框图。

图2为图像主题提取流程图。

图3为网络图像及其Tag信息自动下载流程图。

图4为图像数据筛选流程图。

图5为Google返回结果中的非自然图像。

图6为Tag信息及其对应图像示例。

图7为自然图像的灰度直方图示例。

图8为卡通图等非自然图像的灰度直方图示例。

图9为WordNet的单词分类结构树示意。

具体实施方式

下面结合附图对发明作进一步说明。

对于网络图像自主收集与筛选，要求输入单幅图像或检索关键词后，输出与输入图像或关键词主题相关度较高的大量图像数据，图1为网络图像自主收集与筛选***的总体框图，显示了***功能实现的三个基本步骤，分别为图像主题提取、图像及其Tag信息下载、图像筛选。其中，图像Tag信息是指每幅图像下方对应的文本信息（如图5所示）。

（一）首先是图像主题提取，图像主题提取模块的实现主要分为两步：第一，选择合适搜索引擎对输入图像进行检索，得到与其相关的文本检索信息；第二，基于统计、先验知识对文本检索信息进行处理，提取图像主题，将输入的图像转化为对图像进行描述的文本信息。图像主题提取模块流程如图2所示，具体步骤为:

步骤1，按照发送POST请求的格式要求，将输入图像加入POST请求后向Google（谷歌）服务器发送请求；

步骤2，获取Google服务器返回的结果，得到输入图像的最佳猜测；

步骤3，调用WordNet的语义网络（关于WordNet的详细信息，请参照http://wordnet.princeton.edu/）对最佳猜测（文本检索信息）进行过滤，滤除介词、冠词、抽象名词、动词、形容词、副词；

步骤4，如果滤除后只剩一个词，那么该单词便是图像主题，输出结果，第一阶段完成；否则，分别以过滤后剩余的单词作为关键词在Google基于文本的图像检索中搜索图像，获取前15幅图像数据的网址；

步骤5，分别将15幅图像的网址输入Google以图搜图中，得到15个最佳猜测的结果；

步骤6，对所有结果进行分词并统计词频，出现频率最高的单词即为输入图像的最终主题，输出结果后第一阶段完成。

（二）其次是图像及其Tag信息下载，对于图像集下载，本发明力求下载模块运行要有较强的异常处理能力和稳定性。在图像集较小的情况下，利用网上现有的与网络数据下载有关的开源软件可以满足下载需求，但是随着下载图像数量的增加，程序出现异常的几率大大增加，运行过程中经常出现异常中断或假死的状态，使得后续图像无法继续下载，影响整个进程的自动化实现。因此本发明在***设计中加入以下原则：

1）舍小求大，在下载某一图像时，如果出现异常，比如请求遭到拒绝或读取流失败，并且在重试三次仍以失败告终，那么跳过对此图像的下载程序，直接进入下一张的下载程序。

2）有限等待，为每次图像的下载加入守护进程，类似于嵌入式***的看门狗程序。当某一图像下载时便启动计时器，设定时限，如果在设定时间内图像下载成功，则正常进入下一张图像的下载程序，若设定时间内图像并未下载成功，则抛弃此次下载结果，直接进入下一张的下载。

图3为下载模块的流程图，具体步骤为：

步骤1，输入图像主题信息和下载图像的数量（页数）；

步骤2，生成满足Google搜图要求的URL；

步骤3，向Google搜图发送Get请求，获取返回的网页源码；

步骤4，从网页源码中提取20个图像的URL以及对应的Tag信息；

步骤5，通过20个URL下载对应的图像数据并保存至本地；

步骤6，若下载至最后一页则退出，否则下载下一页，进入步骤2。

（三）最后为图像数据的筛选，将下载的图像数据分为三类：

第一类：非自然图像，由卡通画、图标、手绘或合成的能辨别为非真实的图像组成；

第二类：自然图像中偏离主题的图像，不属于第一类，但其图像中符合搜索时图像主题的目标物体较小或严重遮挡或难以辨识。

第三类：符合建立目标数据库要求的图像，不属于第一、二类的图像。

筛选图像的策略分两步：

第一，基于图像直方图信息对图像进行第一次筛选，因为实验中发现对于Google返回的大多数非自然图像（图5），其直方图是有规律的，卡通图等非自然图与自然图在颜色分布上具有明显的区别，如果将其转化为灰度图，可以发现卡通图等非自然图中像素的取值比较集中，并且一般不同像素值的总数要小于自然图。此方法主要针对剔除第一类图像。

图像的灰度直方图分布信息的获取方法为：对一幅图像的像素进行遍历，统计每个像素点的灰度值出现的频率，以灰度值为横坐标，出现频率为纵坐标即可得到图像的归一化灰度直方图。

理论上，由于非自然图像的特殊性，其直方图在灰度级上的分布非常窄，只分布在不多的若干个灰度级上，即通过判断直方图中非零灰度值的个数即可判断图像是否为非自然图像。但是在实际处理时发现由于图像噪声的影响，使得直方图中多数灰度值很难等于0，噪声的直方图特点是分布广但取值小。因此，只要将判断非零的灰度值个数改为判断像素个数大于某一阈值的灰度值个数即可消除噪声的影响。在归一化直方图中，频率阈值取0.06（图7,图8中虚线表示阈值），即频率大于0.06的灰度级数量小于60时图像被判定为非自然图并剔除，否则满足要求。经过第一步，可以去除70-80%的非自然图像。

第二，Tag信息在一定程度上能反映图像的内容信息（图6），如果能有效的使用，则可以剔除一部分第二类中提到的不合要求的图像数据，此方法主要针对第二类图像。

第二步的主要步骤包括：

步骤1，对Tag进行分词，将一句话分为多个单词；

步骤2，将单词输入知识库（WordNet的语义网络）进行计算；

步骤3，除去属于动词，形容词，副词和抽象名词等的单词，即计算输入单词与Object的相似度（Object位置如图9所示）；其算法为：当两个词在WordNet词集中有一条较短的路径相连时，在语义上就具有相对较大的语义相似度。即路径的距离与相似度成反比；

步骤4，对剩余的能表示Object的单词（即属于图9所示Object结点的单词）进行相似度计算；

步骤5，若多个单词属于同一个且只有一个同义词集合，那么说明此图像出现其他Object的可能性小，若是出现多个不同类的Object，则说明出现多个Object的可能性大（如图9，将Object共分为7类），可以考虑对图像进行剔除。

整个算法流程如图4。

Claims

1.一种网络图像自主收集与筛选方法，其特征在于，包括以下步骤：

1)图像主题提取

所述图像主题提取的步骤为：首先，借助网络上的以图搜图服务对选取的单幅图像进行检索，得到与单幅图像相关的文本检索信息；其次，利用先验语义知识以及统计方法对文本检索信息进行提取处理得到图像主题；

所述对文本检索信息进行提取处理包括以下步骤：调用WordNet的语义网络对文本检索信息进行过滤，滤除介词、冠词、抽象名词、动词、形容词以及副词；如果过滤后只剩一个单词，那么该单词便是图像主题；如果过滤后剩余多个单词，以剩余的单词作为关键词分别在基于文本的图像检索中搜索图像的网址，获取前15-20幅图像的网址；将图像的网址分别利用以图搜图服务进行检索，得到与网址相关的文本检索信息；对所有与网址相关的文本检索信息进行分词后统计词频，词频最高的单词即为单幅图像的图像主题；

2)网络图像及相关文本信息自动下载

3)图像数据筛选

利用图像信息及与图像相关的文本信息对数据集内的图像进行筛选得目标图像集；

所述图像数据筛选的步骤为：首先，利用图像的归一化灰度直方图分布信息剔除数据集中的非自然图像；其次，利用与图像相关的文本信息剔除数据集中偏离图像主题的图像；

所述非自然图像的判断依据为：在图像的归一化灰度直方图中，当出现频率大于0.06的灰度级数量小于60时图像被判定为非自然图像。

2.根据权利要求1所述一种网络图像自主收集与筛选方法，其特征在于，所述自动下载中，如果因下载请求遭到拒绝或读取流失败导致下载失败，并且重试三次仍下载失败，那么跳过对此图像的下载程序，直接进入下一张图像的下载程序；下载某一图像时，如果在设定时间内图像下载完成，则进入下一张图像的下载程序，若在设定时间内没有完成图像下载，则抛弃此次下载结果，然后进入下一张图像的下载程序。

3.根据权利要求1所述一种网络图像自主收集与筛选方法，其特征在于，所述文本信息为图像Tag信息。

4.根据权利要求1所述一种网络图像自主收集与筛选方法，其特征在于，所述非自然图像包括卡通画、图标、手绘或合成的图像。

5.根据权利要求1所述一种网络图像自主收集与筛选方法，其特征在于，所述剔除数据集中偏离图像主题的图像包括以下步骤：