CN103605667B

CN103605667B - 一种图像自动标注算法

Info

Publication number: CN103605667B
Application number: CN201310514942.7A
Authority: CN
Inventors: 章东平; 李艳洁; 杨力; 芦亚飞
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2013-10-28
Filing date: 2013-10-28
Publication date: 2017-02-08
Anticipated expiration: 2033-10-28
Also published as: CN103605667A

Abstract

本发明公开了一种图像自动标注算法，包括步骤：步骤（1）图像数据集特征提取：通过对数据集中的图像进行特征提取来获得图像的底层信息；步骤（2）图像训练集选择：通过选择最权威、最标准的数据集进行图像自动标注算法的训练，该数据集要含有多种特征和最丰富的图像资源，从数据集选取n个数据作为训练样本，其中部分样本已标注，其余样本无标注；步骤（3）图像标注算法训练：通过对得到的样本进行特征选择，并采用约束项来优化标注结果；步骤（4）图像自动标注：通过选择阈值，对预测标签进行处理。本发明的基于稀疏结构特征选择的图像标注方法实现了对图像自动标注，具有开创性意义。

Description

一种图像自动标注算法

技术领域

本发明涉及一种图像自动标注的方法，属于图像检索、分类和识别领域。

背景技术

随着数码相机和其他电子设备越来越流行，图像的数量正在迅速增加。因此，如何有效地管理和检索网络多媒体信息成为一个迫切需要解决的问题。在过去的几十年里，有大量的研究基于内容的图像检索，却受于语义鸿沟的限制，不能完全满足用户的需求。用户习惯于使用关键字进行查询，但人工标注是一个非常费力的工作，从而催生了图像自动标注的发展。图像自动标注是反映语义内容让计算机自动添加图像并标注没有标记的图像，它的关键是实现了图像的语义检索领域的研究。

发明内容

为了解决在大数据图像标注的过程中所耗费的人力和对无标签数据结构的充分利用等问题，本发明提供一种图像自动标注算法，包括步骤：

步骤（1）图像数据集特征提取：通过对数据集中的图像进行特征提取来获得图像的底层信息；

步骤（2）图像训练集选择：通过选择最权威、最标准的数据集进行图像自动标注算法的训练，该数据集要含有多种特征和最丰富的图像资源，从数据集选取n个数据作为训练样本，其中部分样本已标注，其余样本无标注；

步骤（3）图像标注算法训练：通过对得到的样本进行特征选择，并采用约束项来优化标注结果；

步骤（4）图像自动标注：通过选择阈值，对预测标签进行处理。

进一步的，步骤（1）中选用的特征类型包括：颜色直方图、逐块颜色矩、边缘方向直方图、颜色相关图、脸部特征、小波纹理和基于SIFT描述词袋。

进一步的，所述步骤（2）中对图像训练集选择具体为：

1）共选取n个样本，其中m个样本有标签。从每个样本中选取上述三种特征作为该样本的一个特征向量，记为，为特征向量的维数；

2）是标签矩阵，是标签类的数目，其中个样本有标签。若属于第类，则，否则为零；若没有标签，则为全0的向量；

进一步的，所述步骤（3）对图像标注算法训练具体为：

1）构建线性回归函数为，是训练集，

是标签集，是投影矩阵；定义为有n个全为1的列向量。是偏置量，是原始特征的维数，是训练数据的数目和是标签类的数目；是为了特征选择从到的映射矩阵。训练模型定义为：，是一个逻辑损失函数，是正则化参数；

2）定义一个预测矩阵为：，其中满

；

3）采用拉普拉斯构图的流形学习方法：

损失函数最小化定义为：，定义了一个拉普拉斯矩阵为：，其中是一个对角矩阵，定义式为：，是权值函数，与和的关系是：

；

4）为了提高标签符合度，即在测试过程中，使预测的标签更匹配原始标签：优化项为：，定义了一个对角矩阵，其中若有标签，则，若没有标签，则；

5）由式，即最小二乘表达式可写为：

，其中和表示有标签的训练数据和它们原始真实标签。若使用半监督的学习方法，即n个样本中有m个有标签，则最小二乘残差可表示为：；

6）由于训练数据量较大，所以要较有效的表示图像内容是用

很少的数据来捕获感兴趣目标，所用稀疏表示的定义如下：；

7）预测标签理想值为0或1，即：。综上所

述，最优化的目标函数表达式为：；

8）最优化的目标函数表达式中所用参数有、、，其中参

数和可从中通过实验测试选取，可通过实验测得最优解得到；

通过迭代法求解上述的最优化问题，得到矩阵、、b。

进一步的，所述步骤（4）中图像自动标注具体为：选择阈值T，对进行阈值处理，即得检测图像的标签，通过阈值后所得的标签为：

其中，，为检测的样本数。

本发明的基于稀疏结构特征选择的图像标注方法实现了对图像自动标注，具有开创性意义。

附图说明

图1是本发明的图像标注方法流程图；

图2是图像标注算法结构示意图；

图3是图像标注研究的图像示例示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，基于稀疏结构特征选择的图像标注方法，包括如下步骤：

步骤（1）图像数据集特征提取：通过对数据集中的图像进行特征提取来获得图像的底层信息。选用的特征类型包括：颜色直方图、逐块颜色矩、边缘方向直方图、颜色相关图、脸部特征、小波纹理和基于SIFT描述词袋。

步骤（2）图像训练集选择：通过选择最权威、最标准的数据集进行图像自动标注算法的训练，该数据集要含有多种特征和最丰富的图像资源。从数据集选取n个数据作为训练样本，其中部分样本已标注，其余样本无标注。

步骤（3）图像标注算法训练：通过对得到的样本进行特征选择，并采用约束项来优化标注结果。

所述步骤（2）中对图像训练集选择的步骤为：

1）共选取n个样本，其中m个样本有标签。从每个样本中选取上述三种特征作为该样本的一个特征向量，记为，为特征向量的维数。

2）是标签矩阵，是标签类的数目，其中个样本有标签。若属于第类，则，否则为零；若没有标签，则为全0的向量。

所述步骤（3）对图像标注算法训练的步骤为：

9）构建线性回归函数为，是训练集，

是标签集，是投影矩阵。定义为有n个全为1的列向量。是偏置量，是原始特征的维数，是训练数据的数目和是标签类的数目。是为了特征选择从到的映射矩阵。训练模型定义为：，是一个逻辑损失函数，是正则化参数。

10）定义一个预测矩阵为：，其中满

。

11）采用拉普拉斯构图的流形学习方法：

12）为了提高标签符合度，即在测试过程中，使预测的标签更匹配原始标签。优化项为：，定义了一个对角矩阵，其中若有标签，则，若没有标签，则。

13）由式，即最小二乘表达式可写为：

，其中和表示有标签的训练数据和它们原始真实标签。若使用半监督的学习方法，即n个样本中有m个有标签，则最小二乘残差可表示为：。

14）由于训练数据量较大，所以要较有效的表示图像内容是用

很少的数据来捕获感兴趣目标，所用稀疏表示的定义如下：。

15）预测标签理想值为0或1，即：。综上所述，最优化的目标函数表达式为：

16）最优化的目标函数表达式中所用参数有、、，其中参

数和可从中通过实验测试选取，可通过实验测得最优解得到。

通过迭代法求解上述的最优化问题，得到矩阵、、b。

所述步骤（4）中图像自动标注，其特征是：选择阈值T，对进行阈值处理，即得检测图像的标签。通过阈值后所得的标签为：

其中，，为检测的样本数。

Claims

1.一种图像自动标注算法，包括步骤：

步骤（4）图像自动标注：通过选择阈值，对预测标签进行处理；

所述步骤（3）对图像标注算法训练具体为：

构建线性回归函数为，是训练集，

是标签集，是投影矩阵；定义为有n个全为1的列向量；

是偏置量，是原始特征的维数，是训练数据的数目和是标签类的数目；是为了特征选择从到的映射矩阵；

训练模型定义为：，是一个逻辑损失函数，是正则化参数；

定义一个预测矩阵为：，其中满足

；

采用拉普拉斯构图的流形学习方法：

；

为了提高标签符合度，即在测试过程中，使预测的标签更匹配原始标签：优化项为：，定义了一个对角矩阵，其中若有标签，则，若没有标签，则；

由式，即最小二乘表达式可写为：

，其中和表示有标签的训练数据和它们原始真实标签；

若使用半监督的学习方法，即n个样本中有m个有标签，则最小二乘残差可表示为：；

由于训练数据量较大，所以要较有效的表示图像内容是用

预测标签理想值为0或1，即：；

综上所述，最优化的目标函数表达式为：；

最优化的目标函数表达式中所用参数有、、，其中参

通过迭代法求解上述的最优化的目标函数，得到矩阵、、b。

2.如权利要求1所述的图像自动标注算法，其特征在于：步骤（1）中选用的特征类型包括：颜色直方图、逐块颜色矩、边缘方向直方图、颜色相关图、脸部特征、小波纹理和基于SIFT描述词袋。

3.如权利要求2所述的图像自动标注算法，其特征在于：所述步骤（2）中对图像训练集选择具体为：

1）共选取n个样本，其中m个样本有标签；

从每个样本中选取上述特征类型中的三种特征作为该样本的一个特征向量，记为，为特征向量的维数；

2）是标签矩阵，是标签类的数目，其中个样本有标签；

若属于第类，则，否则为零；若没有标签，则为全0的向量。

4.如权利要求1所述的图像自动标注算法，其特征在于：所述步骤（4）中图像自动标注具体为：选择阈值T，对进行阈值处理，即得检测图像的标签，通过阈值后所得的标签为：

其中，，为检测的样本数。