CN109271539B

CN109271539B - 一种基于深度学习的图像自动标注方法及装置

Info

Publication number: CN109271539B
Application number: CN201811007151.4A
Authority: CN
Inventors: 程起敏; 许圆; 张倩; 邵康; 李森; 李金玲
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-11-24
Anticipated expiration: 2038-08-31
Also published as: CN109271539A

Abstract

本发明公开了一种基于深度学习的图像自动标注方法及装置，包括：利用深度学习技术提取待标注图像的视觉特征；利用图像库构建待标注图像的候选标签集，并利用深度学习技术从待标注图像的候选标签集中提取待标注图像的语义特征；融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征；根据待标注图像的高层特征，利用深度学习技术计算图像库中各标签在标注待标注图像时的概率；根据待标注图像的高层特征，利用深度学习技术预测待标注图像所需的标签个数；根据所计算的标签概率和所预测的标签个数，利用概率最高的前N个标签对待标注图像进行标注；本发明能够建立低层特征和高层语义标签之间的联系，从而提升图像标注的准确度。

Description

一种基于深度学习的图像自动标注方法及装置

技术领域

本发明属于图像处理领域，更具体地，涉及一种基于深度学习的图像自动标注方法及装置。

背景技术

图像是对客观对象的写真，生动地描述了对象在视觉方面的信息，是最重要的信息源之一。图像标注，就是给图像标注一些丰富的、恰当的可以准确描述图像内容的关键词。由于能够在语义层面描述图像，图像标注不仅在图像分析与理解领域有着广泛的应用，在城市管理、生物医学工程等相关学科也有着广泛的应用。

传统的图像标注，主要是通过人工的方式来给图像标注若干关键词。而在当前的大数据时代，由于存在耗时、费力、主观性强等缺点，人工标注的方式已经不再适用了。图像自动标注可以有效的弥补这些缺点。图像自动标注技术大多通过图像的语义内容或探索图像视觉特征以及语义特征之间的相似性，从关键词词典中选择合适的标签，对待标注图像进行标注。其关键就在于建立低层特征和高层语义标签之间的联系。

现有的基于生成模型的图像自动标注方法通过计算图像特征和词典中标签的联合概率来给待标注的图像标注关键词。但是，这种图像自动标注方法存在两个主要的问题：一是对于预测的标签的最优性无法保证；二是很难用生成模型去捕捉图像特征和标签之间的复杂的关系。另外大部分的图像自动标注算法都是给待标注图像标注固定个数的标签。但在现实中，不同的图像的标签个数是不固定的。统一给每幅图像标注相同数目的标签，会导致例如一些内容丰富的图像没有得到完全的表示，而一些内容相对简单的图像却被标注了过多的标签的问题，因而这种统一的标注方式会影响标注模型的准确度。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于深度学习的图像自动标注方法及装置，其目的在于，通过建立低层特征和高层语义标签之间的联系，得到待标注图像各标签的概率并灵活预测需标注的标签个数，并由此完成图像的自动标注，从而提升图像标注的准确度。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的图像自动标注方法，用于完成对待标注图像的自动标注，包括如下步骤：

(1)利用深度学习技术提取待标注图像的视觉特征；

(2)利用图像库构建待标注图像的候选标签集，并利用深度学习技术从待标注图像的候选标签集中提取待标注图像的语义特征；

(3)融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征；

(4)根据待标注图像的高层特征，利用深度学习技术计算图像库中各标签在标注待标注图像时的概率；

(5)根据待标注图像的高层特征，利用深度学习技术预测待标注图像所需的标签个数；

(6)根据所计算的标签概率和所预测的标签个数，利用概率最高的前N个标签对待标注图像进行标注；

其中，图像库中的图像为已标注标签的图像，候选标签集包括图像库中的多个标签，N为利用深度学习技术预测的标签个数。

进一步地，步骤(2)中，利用图像库构建待标注图像的候选标签集，包括：

获得图像库中每个标签出现的次数；

对于待标注图像，根据图像距离计算待标注图像与图像库中其余图像的相似性，从而得到与待标注图像相似性最高的m幅图像；

从m幅图像中获得与待标注图像相似性最高的n幅图像，并获得在这n幅图像中出现的p₁个标签；

若p₁≥k，则根据图像库中每个标签出现的次数从p₁个标签中获得出现次数最高的k个标签，作为k个候选标签，从而构建待标注图像的候选标签集；否则，获得在m幅图像中出现的p₂个标签，并根据图像库中每个标签出现的次数从p₂个标签中获得出现次数最高的k个标签，作为k个候选标签，从而得到该图像的候选标签集；

其中，k为预设的候选标签集大小，且m、n及k满足：k≤m，n≤m。

进一步地，步骤(1)包括：利用基于卷积神经网络的视觉特征提取模型提取待标注图像的视觉特征；

视觉特征提取模型的训练方法包括：

(11)构建基于卷积神经网络的第一神经网络模型，用于提取图像的视觉特征；

(12)利用图像库训练第一神经网络，从而得到视觉特征提取模型。

进一步地，步骤(2)包括：利用图像库构建待标注图像的候选标签集，并利用基于多层感知机的语义特征提取模型从待标注图像的候选标签集中提取待标注图像的语义特征；

语义特征提取模型的训练方法包括如下步骤：

(21)构建图像库中每一幅图像的候选标签集；

(22)构建基于多层感知机的第二神经网络模型，用于从图像的候选标签集中提取图像的语义特征；

(23)利用已构建候选标签集的图像库训练第二神经网络模型，从而得到语义特征提取模型。

进一步地，步骤(3)包括：利用一个全连接层融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征。

进一步地，步骤(4)包括：根据待标注图像的高层特征，利用基于多层感知机的多目标分类模型计算图像库中各标签在标注待标注图像时的概率；

多目标分类模型的训练方法包括：

(41)对于图像库中的图像I，利用视觉特征提取模型提取其视觉特征；

(42)构建图像I的候选标签集L，并利用候选标签集L和语义特征提取模型提取图像I的语义特征；

(43)融合图像I的视觉特征和语义特征以得到图像I的高层特征；

(44)对于图像库中的每一幅图像，执行步骤(41)～(43)，从而提取图像库中每一幅图像的高层特征；

(45)构建基于多层感知机的第三神经网络模型，用于根据图像的高层特征计算图像库中各标签在标注图像时的概率；

(46)利用已提取图像高层特征的图像库训练第三神经网络模型，从而得到多目标分类模型。

进一步地，步骤(5)包括：根据待标注图像的高层特征，利用基于多层感知机的标签个数预测模型预测待标注图像所需的标签个数；

标签个数预测模型的训练方法包括：

(51)对于图像库中的图像I，利用视觉特征提取模型提取其视觉特征；

(52)构建图像I的候选标签集L，并利用候选标签集L和语义特征提取模型提取图像I的语义特征；

(53)融合图像I的视觉特征和语义特征以得到图像I的高层特征；

(54)对于图像库中的每一幅图像，执行步骤(51)～(53)，从而提取图像库中每一幅图像的高层特征；

(55)构建基于多层感知机的第四神经网络模型，用于根据图像的高层特征预测图像所需的标签个数；

(56)利用已提取图像高层特征的图像库训练第四神经网络模型，从而得到标签个数预测模型。

按照本发明的第二方面，提供了一种基于深度学习的图像自动标注装置，用于完成对待标注图像的自动标注，包括：

视觉特征提取模块，用于利用深度学习技术提取待标注图像的视觉特征；

候选标签集构建模块，用于利用图像库构建待标注图像的候选标签集；

语义特征提取模块，用于利用深度学习技术从待标注图像的候选标签集中提取待标注图像的语义特征；

特征融合模块，用于融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征；

多目标分类模块，用于根据待标注图像的高层特征，利用深度学习技术计算图像库中各标签在标注待标注图像时的概率；

标签个数预测模块，用于根据待标注图像的高层特征，利用深度学习技术预测待标注图像所需的标签个数；

标注模块，用于根据多目标分类模块所计算的标签概率和标签个数预测模块所预测的标签个数，利用概率最高的前N个标签对待标注图像进行标注；

其中，图像库中的图像为已标注标签的图像，候选标签集包括图像库中的多个标签，N为标签个数预测模块所预测的标签个数。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明先分别提取图像的视觉特征和语义特征，然后通过将视觉特征和语义特征融合得到图像的高层特征，并利用图像的高层特征确定用于标注图像的标签。由于图像的高层特征能够更加准确而详尽的表示图像内容，因此本发明能够提高图像标注准确度。

(2)本发明对于待标注图像，分别利用神经网络模型计算标签的概率并预测待标注图像的标签个数，然后结合所计算的标签概率和所预测的标签个数对图像进行标注。由于针对不同内容的图像预测其标签个数，能够使得图像标注的标签个数与其内容复杂度更为契合，因此本发明能够针对图像内容的不确定性，有效提高图像标注的性能。

附图说明

图1为本发明实施例提供的图像自动标注方法流程图；

图2为本发明实施例提供的图像自动标注装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种图像自动标注方法及装置，其整体思路在于：分别提取图像的视觉特征和语义特征，并通过融合图像的视觉特征和语义特征得到图像的高层特征；根据图像的高层特征计算图像库中各标签在标注待标注图像时的概率并预测待标注图像的标签个数，然后结合所计算的标签的概率和所预测的标签个数，完成对图像的自动标注。

本发明所提供的图像自动标注方法，用于完成对待标注图像的自动标注，如图1所示，包括如下步骤：

(1)利用深度学习技术提取待标注图像的视觉特征；

在一个可选的实施方式中，步骤(1)具体包括：利用基于卷积神经网络(Convolutional Neural Network，CNN)的视觉特征提取模型提取待标注图像的视觉特征；

视觉特征提取模型的训练方法包括：

(11)构建基于卷积神经网络的第一神经网络模型，用于提取图像的视觉特征；其中，卷神经网络可为AlexNet网络、LeNet网络、GoogLeNet网络、VGG网络、Inception网络、ResNet网络、Inception-Resnet-V2网络或其他卷积神经网络；在本实施例中，卷积神经网络为Inception-Resnet-V2网络，使用Inception-Resnet-V2网络提取图像的视觉特征，一方面能够在极大的提高训练速度的同时大幅度的提高分类准确率，另一方面能够增加网络的非线性；

(12)利用图像库训练第一神经网络，从而得到视觉特征提取模型；

在一个可选的实施方式中，步骤(2)中利用图像库构建待标注图像的候选标签集，包括：获得图像库中每个标签出现的次数；

对于待标注图像，根据图像距离计算待标注图像与图像库中其余图像的相似性，从而得到与待标注图像相似性最高的m幅图像；其中，用于计算图像相似性的图像距离可以为街区距离、欧式距离、无穷范数、直方图相交、二次式距离、马氏距离、EMD距离或其他图像距离；

其中，k为预设的候选标签集大小，且m、n及k满足：k≤m，n≤m；

基于上述构建候选标签集的方法，步骤(2)具体包括：利用图像库构建待标注图像的候选标签集，并利用基于多层感知机(Multi-Layer Perceptron，MLP)的语义特征提取模型从待标注图像的候选标签集中提取待标注图像的语义特征；

语义特征提取模型的训练方法包括如下步骤：

(21)构建图像库中每一幅图像的候选标签集；

(22)构建基于多层感知机的第二神经网络模型，用于从图像的候选标签集中提取图像的语义特征；其中，第二神经网络模型包含两个隐藏层，且激活函数采用Relu函数；

(23)利用已构建候选标签集的图像库训练第二神经网络模型，从而得到语义特征提取模型；

在一个可选的实施方式中，步骤(3)具体包括：利用一个全连接层(FC)融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征；应当理解的是，除了全连接层外，其他用于实现特征融合的方式也可用于融合待标注图像的视觉特征和语义特征以得到待标注图像的高层特征；

在一个可选的实施方式中，步骤(4)具体包括：根据待标注图像的高层特征，利用基于多层感知机的多目标分类模型计算图像库中各标签在标注待标注图像时的概率；

多目标分类模型的训练方法包括：

(46)利用已提取图像高层特征的图像库训练第三神经网络模型，从而得到多目标分类模型；训练过程中，采用交叉熵作为损失函数；

(5)根据待标注图像的高层特征，深度学习技术预测待标注图像所需的标签个数；

在一个可选的实施方式中，步骤(5)具体包括：根据待标注图像的高层特征，利用基于多层感知机的标签个数预测模型预测待标注图像所需的标签个数；

标签个数预测模型的训练方法包括：

(55)构建基于多层感知机的第四神经网络模型，用于根据图像的高层特征预测图像所需的标签个数；第四神经网络模型包括两个隐藏层，分别有512和256个神经元，并且为了避免出现过拟合的情况，在隐藏层中对所有神经元进行dropout，且概率设置为0.5；

(56)利用已提取图像高层特征的图像库训练第四神经网络模型，从而得到标签个数预测模型；

本发明还提供了一种图像自动标注装置，用于完成对待标注图像的自动标注，如图2所示，包括：

语义特征提取模块，用于利用深度学习技术提从待标注图像的候选标签集中取待标注图像的语义特征；

其中，图像库中的图像为已标注标签的图像，候选标签集包括图像库中的多个标签，N为标签个数预测模块所预测的标签个数；

在本实施例中，各模块的具体实施方式可参考以上方法实施例中的相关解释，在此不再复述。

利用带有81个主题标签NUS-WIDE图像库进行标注性能测试，NUS-WIDE图像库的各项参数如表1所示：

表1 NUS-WIDE图像库的各项参数

现有的比较经典的基于深度网络的图像自动标注模型包括：(1)CNN模型，即仅利用卷积神经网络提取的图像视觉特征进行图像标注的模型；(2)CNN+softmax模型，其主要思想即利用CNN特征通过softmax函数进行多目标分类从而进行标注。

利用NUS-WIDE图像库，将本发明所提供的图像自动标注方法与利用上述两种图像自动标注模型进行图像标注的方法进行对比分析，评价指标包括：每个标签的查全率(c_R)和查准率(c_P)，每幅图像的查全率(i_R)和查准率(i_P)，每个标签的F1-score(c_F1)以及每幅图像的F1-score(i_F1)；对比分析的结果如表2所示：

表2对比分析结果

表2所示的结果显示，本发明所提供的基于深度学习的图像自动标注方法，其各项评价指标均优于其余两种现有的模型；由此可知，本发明所提供的图像自动标注方法通过融合图像的视觉特征和语义特征得到图像的高层特征；根据图像的高层特征计算图像库中各标签在标注待标注图像时的概率并预测待标注图像的标签个数，然后结合所计算的标签的概率和所预测的标签个数，完成对图像的自动标注，能够有效提升图像标注的准确度和标注性能。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的图像自动标注方法，用于完成对待标注图像的自动标注，其特征在于，包括如下步骤：

(1)利用深度学习技术提取所述待标注图像的视觉特征；

(2)利用图像库构建所述待标注图像的候选标签集，并利用深度学习技术从所述待标注图像的候选标签集中提取所述待标注图像的语义特征；

(3)融合所述待标注图像的视觉特征和语义特征以得到所述待标注图像的高层特征；

(4)根据所述待标注图像的高层特征，利用深度学习技术计算所述图像库中各标签在标注所述待标注图像时的概率；

(5)根据所述待标注图像的高层特征，利用深度学习技术预测所述待标注图像所需的标签个数；

(6)根据所计算的标签概率和所预测的标签个数，利用概率最高的前N个标签对所述待标注图像进行标注；

其中，所述图像库中的图像为已标注标签的图像，所述候选标签集包括所述图像库中的多个标签，N为利用深度学习技术预测的标签个数。

2.如权利要求1所述的图像自动标注方法，其特征在于，所述步骤(2)中，利用图像库构建所述待标注图像的候选标签集，包括：

获得所述图像库中每个标签出现的次数；

对于所述待标注图像，根据图像距离计算所述待标注图像与所述图像库中其余图像的相似性，从而得到与所述待标注图像相似性最高的m幅图像；

从所述m幅图像中获得与所述待标注图像相似性最高的n幅图像，并获得在这n幅图像中出现的p₁个标签；

若p₁≥k，则根据所述图像库中每个标签出现的次数从所述p₁个标签中获得出现次数最高的k个标签，作为k个候选标签，从而构建所述待标注图像的候选标签集；否则，获得在所述m幅图像中出现的p₂个标签，并根据所述图像库中每个标签出现的次数从所述p₂个标签中获得出现次数最高的k个标签，作为k个候选标签，从而得到该图像的候选标签集；

3.如权利要求1或2所述的基于深度学习的图像自动标注方法，其特征在于，所述步骤(1)包括：利用基于卷积神经网络的视觉特征提取模型提取所述待标注图像的视觉特征；

所述视觉特征提取模型的训练方法包括：

(12)利用所述图像库训练所述第一神经网络，从而得到所述视觉特征提取模型。

4.如权利要求3所述的基于深度学习的图像自动标注方法，其特征在于，所述步骤(2)包括：利用图像库构建所述待标注图像的候选标签集，并利用基于多层感知机的语义特征提取模型从所述待标注图像的候选标签集中提取所述待标注图像的语义特征；

所述语义特征提取模型的训练方法包括如下步骤：

(21)构建所述图像库中每一幅图像的候选标签集；

(23)利用已构建候选标签集的所述图像库训练所述第二神经网络模型，从而得到所述语义特征提取模型。

5.如权利要求1或2所述的基于深度学习的图像自动标注方法，其特征在于，所述步骤(3)包括：利用一个全连接层融合所述待标注图像的视觉特征和语义特征以得到所述待标注图像的高层特征。

6.如权利要求4所述的基于深度学习的图像自动标注方法，其特征在于，所述步骤(4)包括：根据所述待标注图像的高层特征，利用基于多层感知机的多目标分类模型计算所述图像库中各标签在标注所述待标注图像时的概率；

所述多目标分类模型的训练方法包括：

(41)对于所述图像库中的图像I，利用所述视觉特征提取模型提取其视觉特征；

(42)构建所述图像I的候选标签集L，并利用所述候选标签集L和所述语义特征提取模型提取所述图像I的语义特征；

(43)融合所述图像I的视觉特征和语义特征以得到所述图像I的高层特征；

(44)对于所述图像库中的每一幅图像，执行步骤(41)～(43)，从而提取所述图像库中每一幅图像的高层特征；

(45)构建基于多层感知机的第三神经网络模型，用于根据图像的高层特征计算所述图像库中各标签在标注图像时的概率；

(46)利用已提取图像高层特征的所述图像库训练所述第三神经网络模型，从而得到所述多目标分类模型。

7.如权利要求4所述的基于深度学习的图像自动标注方法，其特征在于，所述步骤(5)包括：根据所述待标注图像的高层特征，利用基于多层感知机的标签个数预测模型预测所述待标注图像所需的标签个数；

所述标签个数预测模型的训练方法包括：

(51)对于所述图像库中的图像I，利用所述视觉特征提取模型提取其视觉特征；

(52)构建所述图像I的候选标签集L，并利用所述候选标签集L和所述语义特征提取模型提取所述图像I的语义特征；

(53)融合所述图像I的视觉特征和语义特征以得到所述图像I的高层特征；

(54)对于所述图像库中的每一幅图像，执行步骤(51)～(53)，从而提取所述图像库中每一幅图像的高层特征；

(56)利用已提取图像高层特征的所述图像库训练所述第四神经网络模型，从而得到所述标签个数预测模型。

8.一种基于深度学习的图像自动标注装置，用于完成对待标注图像的自动标注，其特征在于，包括：

视觉特征提取模块，用于利用深度学习技术提取所述待标注图像的视觉特征；

候选标签集构建模块，用于利用图像库构建所述待标注图像的候选标签集；

语义特征提取模块，用于利用深度学习技术从所述待标注图像的候选标签集中提取所述待标注图像的语义特征；

特征融合模块，用于融合所述待标注图像的视觉特征和语义特征以得到所述待标注图像的高层特征；

多目标分类模块，用于根据所述待标注图像的高层特征，利用深度学习技术计算所述图像库中各标签在标注所述待标注图像时的概率；

标签个数预测模块，用于根据所述待标注图像的高层特征，利用深度学习技术预测所述待标注图像所需的标签个数；

标注模块，用于根据所述多目标分类模块所计算的标签概率和所述标签个数预测模块所预测的标签个数，利用概率最高的前N个标签对所述待标注图像进行标注；

其中，所述图像库中的图像为已标注标签的图像，所述候选标签集包括所述图像库中的多个标签，N为所述标签个数预测模块所预测的标签个数。