CN104346456B

CN104346456B - 基于空间依赖性度量的数字图像多语义标注方法

Info

Publication number: CN104346456B
Application number: CN201410599268.1A
Authority: CN
Inventors: 张晨光; 张燕
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2017-09-08
Anticipated expiration: 2034-10-31
Also published as: CN104346456A

Abstract

本发明属于数字图像多语义标注方法，其特征在于依次包括如下步骤:（1）输入语义已知的若干数字图像以及待标注的所有数字图像至计算机；（2）通过特征提取，得到所有图像的特征向量集；（2）构造已标注图像的标签向量和所有图像最终标签向量集；（3）计算特征向量集的Gram矩阵；（4）利用空间依赖性度量方法得到特征向量集和标签向量集之间依赖性程度的度量值；（6）迭代过程中逐步提高依赖性度量值至最大，得到待标注图像属于各语义类的置信值；（7）设定阈值，判断待标注图像语义。本发明具有如下优点：1）可利用大量未语义标注图像提高标注效果；2）适用于多语义标注情况；3）较快的运算速度。

Description

基于空间依赖性度量的数字图像多语义标注方法

技术领域

本发明涉及一种基于空间依赖性度量的数字图像半监督多语义标注方法，属于电子信息技术领域。

背景技术

图像语义标注旨在使用语义关键词来表示一幅图像的语义内容，它对于图像分析理解和图像检索都具有非常重要的意义。早期的图像语义标注需要专业人员根据每幅图像的语义人工标出关键词，费时且具有主观性。为了克服人工标注的这些缺陷，研究者在近年提出了许多自动标注图像语义内容的方法，包括基于生成模型的翻译模型，跨媒体相关模型等方法，以及基于判别模型的非对称支持向量机和层次分类等方法。一般地，这些方法本质上都可以看成是机器学习的过程：在已标注图像组成的样本数据集上学习并构造出一个统计分类模型，并利用该模型得到待标注图像的语义类别。

尽管众多自动语义标注技术的提出为海量图像数据的分析和理解提供了一个有益的基础和前提，但是该技术仍存在着不少瓶颈问题亟需解决。其中，图像多语义和已标注图像过于稀少这两类问题日益引起了研究者的广泛关注。图像多语义指一副图像通常具有多个不同语义，比如在风景图中，一幅图像可以同时拥有“天空”、“白云”、“草原”等主题；在医学图像中，一张医学图像可同时包含与“肿瘤”、”结石”等疾病相关的信息。传统机器学习方法，包括近邻法、决策树、神经网络和支持向量机等，多属于单标签学习方法，不能直接用于多语义情况下的图像语义标注。这种单样本拥有多类属的情况在机器学习领域称为多标签学习。目前，多标签学习问题有Binary Relevance，Classifier Chains，MLKNN和Rank-SVM等解决方法。这些方法是单标签方法通过问题转换或算法改进得到，在实际应用中各有优劣。

除多语义问题之外，自动语义标注技术还存在着已标注图像过于稀少的问题。造成这一问题的主要原因是因为已标注图像的获得通常都需要耗费大量的人力和物力。尤其是多语义情况下，随着语义类别的增加，各类已标注图像数目相对减少，这一问题就显得尤其尖锐。已标注样本过于稀少会导致分类模型泛化性能的下降，进而影响语义标注的准确率。解决这一问题的一个有效途径就是发展半监督语义标注方法。目前，尽管半监督学习方法已有很大发展，提出了包括TSVM，图半监督学习等多种方法，但是可应用于多语义(多标签)学习问题的半监督学习方法仍比较罕见。

针对上述两个问题，本发明公布了一种基于空间依赖性度量的数字图像半监督多语义标注方法。它的理论基础是空间依赖性度量，利用所有样本，包括已标注和未标注样本，对特征集和语义类别集的依赖性进行估计，并将已标注图像样本作为边界约束，最后通过迭代技术逐步提高该估计值至最大，从而得到待标注图像的所有语义类别。本发明具有良好的技术效果。首先，本发明以基于统计理论的依赖性作为基础，可以通过增加样本数目，包括未标注样本数目提高依赖性估计的准确性，因此它首先是一种可利用未标注图像提高标注准确率的半监督标注方法；其次，无论图像同时具有多少个语义类别，本发明都将该图像的语义组合看做语义集合中一个点并映射至再生核希尔伯特空间，所以它同时也是多语义图像标注方法；最后本发明在可行方向法的基础上通过迭代完成图像标注，取得了与现有技术可比的计算速度。

发明内容

本发明的目的是提供一种准确高效的数字图像半监督多语义标注方法。

本发明的技术方案是：接收语义已知的若干数字图像以及待标注的所有数字图像并提取图像特征得到特征向量集，构造已标注图像的标签向量和所有图像最终标签向量集，计算特征向量集的Gram矩阵并根据空间依赖性度量得到图像属于各语义类置信值以及图像最终语义，具体由以下步骤组成：

步骤1，输入若干语义已知的数字图像以及需要进行语义标注的所有数字图像至计算机；将所有图像格式统一为RGB格式，并对所有图像进行尺寸归一化；

步骤2，利用Gist描述符提取图像的全局纹理特征，将上述所有数字图像均转换成向量，一幅图对应一个列向量，并将这些特征向量组成向量集，记为X＝[x₁，x₂，...，x_v，x_v+1，...，x_v+u]，其中x_i(1≤i≤v)对应已标注图像，其余对应待标注图像；

步骤3，令m为样本可能的语义类别总数，构造初始状态下已标注图像x_i(1≤i≤v)的标签向量为是m维列向量，其中：

令m维列向量y_i表示图像x_i(1≤i≤u+v)的最终标签向量，构造标签向量集Y＝[y₁，y₂，...，y_v，y_v+1，...，y_v+u]；

步骤4，选定特征向量集X上的核函数为k(x_i，x_j)，通过核函数计算出X的Gram矩阵，记为K；

步骤5，利用空间依赖性度量方法得到特征向量集和标签向量集之间依赖性程度的度量值如下：

其中，Tr[·]表示求迹，I为单位矩阵，e是元素值全为1的n行列向量，n＝v+u表示图像样本总数；

步骤6，保证Y满足条件以及的情况下，利用迭代技术更新Y_U的值，逐步提高Q(Y)至最大，从而得到待标注图像属于各语义类的置信值Y_U；其中，Y＝[Y_V，Y_U]，Y_V和Y_U分别是Y的前v列和后u列，分别对应于语义已知和未知部分，||·||_F是Frobenius范数，τ＞0是预先给定比较小的常数，用于避免Y_U尺度过大减弱Y_V对于依赖性程度的贡献率；

步骤7，对任意一副待标注图像x_j(v+1≤j≤v+u)，设定该图像的置信阈值ε_j为该图像所有语义置信值的平均值，即：

对任意待标注图像待标注图像x_j(v+1≤j≤v+u)以及任意给定的语义类别i(1≤i≤m)，如果Y_U(i，j)＞ε_j，则判断样本具有第i个语义类别，否则判断样本不具有第i语义。

所述步骤3中的核函数包括径向基核，线性核，多项式核，sigmoid核。

所述步骤6的具体步骤包括：

步骤6.1，记A＝HKH，将A和H按照已标注和待标注划分成四部分：

其中，A_V和H_V对应图像中的已标注部分，A_U和H_U则对应图像中待标注部分，且令

将迹比值Q(Y)转换成关于Y_U的函数f(Y_U)/g(Y_U)；

步骤6.2，给定阈值κ＞0为很小的数；随机初始化使得令

步骤6.3，令F(Y_U)＝f(Y_U)-λ^bg(Y_U)，求解得到新的

步骤6.4,令λ^a＝λ^b，

步骤6.5，当λ^b-λ^a＜κ，输出Y_U中每一列Y_U(：，j)(j＝1，...，u)的第i个数Y_U(i，j)表示第j个样本属于第i类的置信度；否则跳转至步骤6.3，继续循环执行步骤6.3至步骤6.5。

所述步骤6.3的具体步骤包括：

步骤6.3.1，指定阈值δ＞0为很小的数，令

M＝(A_U-λ^bH_U)

N＝2Y_V(A_VU-λbH_VU)

构造这一优化问题的同解问题如下：

步骤6.3.2，令由KKT条件，如果且即为最优解，输出为新的否则，最优解在边界上，此时转入下一步；

步骤6.3.3，初始化点作为新的计算起点；如果令否则，随机初始化使得满足

步骤6.3.4，初始化w₂为常数，令w₁＝-w₂/2；其中，w₂用于表示下一可行方向的Frobenius范数；

步骤6.3.5，计算当前点的可行方向d；其中，方向d应保证下一个迭代点与的Frobenius范数一致且沿该方向优化目标值增加最快，满足这两条件的可行方向d可计算如下：

其中，

步骤6.3.6，令w₁＝αw₁，w₂＝αw₂，α＜1是给定正常数；

步骤6.3.7，当令否则跳转至步骤6.3.5，继续循环执行6.3.5至步骤6.3.7；

步骤6.3.8，当输出为新的否则跳转至步骤6.3.4，继续循环执行步骤6.3.4至步骤6.3.8。

本发明的基本原理在于认为图像的特征空间与语义空间之间存在着很强的依赖性，在对依赖性进行量化估计的基础上，将已标注图像的语义类别作为约束条件，通过迭代技术逐步提高该估计值至最大，从而得到待标注图像的所有语义类别。

本发明与现有技术相比，具有以下明显的优势和有益效果：

首先，本发明由于采用了空间依赖性作为理论基础，是一种新的用于解决图像多语义标注问题的新技术；其次，本发明还是一种半监督标注方法，它可以通过廉价易取的大量未标注图像进行学习，因此往往可以得到比现有技术更高的标注准确率，尤其是在已标注图像稀少的情况下，提升效果明显；最后本发明在可行方向法的基础上通过迭代技术完成图像的标注，取得了与现有技术可比的计算速度。

附图说明

图1是本发明实施例的结构框图。

图2是本发明实施例通过迭代得到各样本置信值的流程图。

图3是本发明实施例求解迭代过程中子优化问题的流程图。

图4是本发明实施例的ROC曲线效果对比图。

具体实施方式

根据图1部署本发明的实施例，所包含的具体步骤如下：

步骤1，输入200张语义已知的数字图像以及其余需要进行语义标注的1800张数字图像至计算机，包括沙漠，山峰，大海，落日和树木5类；将所有图像格式统一为RGB格式，并对所有图像进行尺寸归一化至512×512；这里所有图像均来源于南京大学机器学习与数据挖掘研究所公开的图像数据库，可从网址http://lamda.nju.edu.cn/data_MIMLimage.ashx中下载；

步骤2，利用Gist描述符提取图像的全局纹理特征：将每一副图转换成灰度图，在4个尺度，8个方向进行Gabor滤波，滤波后的图像进行4×4分块，得到每一副图的512维的Gist特征列向量；将这些特征向量组成向量集，记为X＝[x₁，x₂，...，x_v，x_v+1，...，x_v+u]，其中v＝200，u＝1800，x_i(1≤i≤v)对应已标注图像，其余对应待标注图像；

步骤3，令m＝5为语义类别总数；构造初始状态下已标注图像x_i(1≤i≤v)的标签向量为是m维列向量，其中：

令m维列向量y_i表示图像x_i(1≤i≤u+v)的最终标签向量，构造标签向量集Y＝[y1_，y₂，...，y_v，y_v+1，...，y_v+u]；

步骤4，选定特征向量集X上的核函数k(x_i，x_j)为径向基核，通过该核函数计算出X的Gram矩阵，记为K；

步骤6，保证Y满足条件以及的情况下，利用迭代技术更新Y_U的值，逐步提高Q(Y)至最大，从而得到待标注图像属于各语义类的置信值Y_U；其中，Y＝[Y_V，Y_U]，Y_V和Y_U分别是Y的前v列和后u列，分别对应于语义已知和未知部分，||·||_F是Frobenius范数，τ预先设定为0.1，用于避免Y_U尺度过大减弱Y_V对于依赖性程度的贡献率；图2是步骤6的流程图，具体包含如下步骤：

将迹比值Q(Y)转换成关于Y_U的函数f(Y_U)/g(Y_U)；

步骤6.2，给定阈值κ＝0.001；随机初始化使得令

步骤6.3，令F(Y_U)＝f(Y_U)-λ^bg(Y_U)，求解优化子问题的流程图如图3所示，具体步骤如下：

步骤6.3.1，指定阈值δ＝0.001为很小的数，令

M＝(A_U-λ^bH_U)

N＝2YV(A_VU-λ^bH_VU)

构造这一优化问题的同解问题如下：

步骤6.3.2，令如果且即为最优解，输出为新的否则，最优解在边界上，此时转入下一步；

步骤6.3.4，初始化w₂＝1为常数，令w₁＝-w₂/2；其中，w₂用于表示下一可行方向的Frobenius范数；

步骤6.3.5，计算当前点的可行方向d：

其中，

步骤6.3.6，令w₁＝αw₁，w₂＝αw₂，α＝0.5是给定常数；

步骤6.3.7，如果令否则跳转至步骤6.3.5，继续循环执行6.3.5至步骤6.3.7；

步骤6.3.8，当输出为新的否则跳转至步骤6.3.4，继续循环执行步骤6.3.4至步骤6.3.8；

步骤6.4,令λ^a＝λ^b，

步骤6.5，当λ^b-λ^a＜κ，输出Y_U中每一列Y_U(：,j)(j＝1，...，u)的第i个数Y_U(i，j)表示第j个样本属于第i类的置信度；否则跳转至步骤6.3，继续循环执行步骤6.3至步骤6.5；

本发明实施例与经典MLKNN(Zhang M L,et al.A k-nearest neighbor basedalgorithm for multi-label classification)和Binary Relevance(Boutell M R,etal.Learning multi-label scene classification)两种标注方法在仅有200张已标注语义图像下的ROC曲线(Receiver operating characteristic curve)如图4所示。图4中，本发明实施例在沙漠，山峰，大海，落日和树木五个类别上均取得了最好的AUC值(ROC曲线下方面积)，充分说明本发明具有良好的多语义标注效果。

最后应说明的是：以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案；因此，尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明，但是，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换；而一切不脱离发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于空间依赖性度量的数字图像多语义标注方法，其特征在于依次包括以下步骤：

令m维列向量y_i表示图像x_i(1≤i≤u+v)的最终标签向量，构造标签向量集Y＝[y₁，y₂，…，y_v，y_v+1，…，y_v+u]；

<mrow> <mi>Q</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>T</mi> <mi>r</mi> <mrow> <mo>&lsqb;</mo> <mrow> <msup> <mi>YHKHY</mi> <mi>T</mi> </msup> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> <mrow> <mi>T</mi> <mi>r</mi> <mrow> <mo>&lsqb;</mo> <mrow> <msup> <mi>YHY</mi> <mi>T</mi> </msup> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> </mfrac> </mrow>

步骤6，保证Y满足条件以及的情况下，利用迭代技术更新Y_U的值，逐步提高Q(Y)至最大，从而得到待标注图像属于各语义类的置信值Y_U；其中，Y＝[Y_V，Y_U]，Y_V和Y_U分别是Y的前v列和后u列，分别对应于语义已知和未知部分，||·||_F是Frobenius范数，τ＞0是预先给定常数，用于避免Y_U尺度过大减弱Y_V对于依赖性程度的贡献率，具体步骤包括：

将迹比值Q(Y)转换成关于Y_U的函数f(Y_U)/g(Y_U)；

步骤6.2，给定阈值κ＞0为常数；随机初始化使得令

步骤6.3，令F(Y_U)＝f(Y_U)-λ^bg(Y_U)，求解得到新的

步骤6.4,令λ^a＝λ^b，

步骤6.5，当λ^b-λ^a＜κ，输出Y_U中每一列Y_U(：，j)(j＝1，...，u)的第i个数Y_U(i，j)表示第j个样本属于第i类的置信度；否则跳转至步骤6.3，继续循环执行步骤6.3至步骤6.5；

<mrow> <msub> <mi>&epsiv;</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>Y</mi> <mi>U</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mi>m</mi> </mfrac> </mrow>

2.根据权利要求1所述的基于空间依赖性度量的数字图像多语义标注方法，其特征在于：所述步骤3中的核函数包括径向基核，线性核，多项式核，sigmoid核。

3.根据权利要求1所述的基于空间依赖性度量的数字图像多语义标注方法，其特征在于：所述步骤6.3的具体步骤包括：

步骤6.3.1，指定阈值δ＞0为常数，令

M＝(A_U-λ^bH_U)

N＝2Y_V(A_VU-λ^bH_VU)

构造这一优化问题的同解问题如下：

步骤6.3.4，初始化w₂为给定常数，令w₁＝-w₂/2；其中，w₂用于表示下一可行方向的Frobenius范数；

步骤6.3.5，计算当前点的可行方向d如下：

其中，

步骤6.3.6，令w₁＝αw₁，w₂＝αw₂，α＜1是给定正常数；