CN104346456B - 基于空间依赖性度量的数字图像多语义标注方法 - Google Patents

基于空间依赖性度量的数字图像多语义标注方法 Download PDF

Info

Publication number
CN104346456B
CN104346456B CN201410599268.1A CN201410599268A CN104346456B CN 104346456 B CN104346456 B CN 104346456B CN 201410599268 A CN201410599268 A CN 201410599268A CN 104346456 B CN104346456 B CN 104346456B
Authority
CN
China
Prior art keywords
mrow
msub
msubsup
mtd
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410599268.1A
Other languages
English (en)
Other versions
CN104346456A (zh
Inventor
张晨光
张燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN201410599268.1A priority Critical patent/CN104346456B/zh
Publication of CN104346456A publication Critical patent/CN104346456A/zh
Application granted granted Critical
Publication of CN104346456B publication Critical patent/CN104346456B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5862Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于数字图像多语义标注方法,其特征在于依次包括如下步骤:(1)输入语义已知的若干数字图像以及待标注的所有数字图像至计算机;(2)通过特征提取,得到所有图像的特征向量集;(2)构造已标注图像的标签向量和所有图像最终标签向量集;(3)计算特征向量集的Gram矩阵;(4)利用空间依赖性度量方法得到特征向量集和标签向量集之间依赖性程度的度量值;(6)迭代过程中逐步提高依赖性度量值至最大,得到待标注图像属于各语义类的置信值;(7)设定阈值,判断待标注图像语义。本发明具有如下优点:1)可利用大量未语义标注图像提高标注效果;2)适用于多语义标注情况;3)较快的运算速度。

Description

基于空间依赖性度量的数字图像多语义标注方法
技术领域
本发明涉及一种基于空间依赖性度量的数字图像半监督多语义标注方法,属于电子信息技术领域。
背景技术
图像语义标注旨在使用语义关键词来表示一幅图像的语义内容,它对于图像分析理解和图像检索都具有非常重要的意义。早期的图像语义标注需要专业人员根据每幅图像的语义人工标出关键词,费时且具有主观性。为了克服人工标注的这些缺陷,研究者在近年提出了许多自动标注图像语义内容的方法,包括基于生成模型的翻译模型,跨媒体相关模型等方法,以及基于判别模型的非对称支持向量机和层次分类等方法。一般地,这些方法本质上都可以看成是机器学习的过程:在已标注图像组成的样本数据集上学习并构造出一个统计分类模型,并利用该模型得到待标注图像的语义类别。
尽管众多自动语义标注技术的提出为海量图像数据的分析和理解提供了一个有益的基础和前提,但是该技术仍存在着不少瓶颈问题亟需解决。其中,图像多语义和已标注图像过于稀少这两类问题日益引起了研究者的广泛关注。图像多语义指一副图像通常具有多个不同语义,比如在风景图中,一幅图像可以同时拥有“天空”、“白云”、“草原”等主题;在医学图像中,一张医学图像可同时包含与“肿瘤”、”结石”等疾病相关的信息。传统机器学习方法,包括近邻法、决策树、神经网络和支持向量机等,多属于单标签学习方法,不能直接用于多语义情况下的图像语义标注。这种单样本拥有多类属的情况在机器学习领域称为多标签学习。目前,多标签学习问题有Binary Relevance,Classifier Chains,MLKNN和Rank-SVM等解决方法。这些方法是单标签方法通过问题转换或算法改进得到,在实际应用中各有优劣。
除多语义问题之外,自动语义标注技术还存在着已标注图像过于稀少的问题。造成这一问题的主要原因是因为已标注图像的获得通常都需要耗费大量的人力和物力。尤其是多语义情况下,随着语义类别的增加,各类已标注图像数目相对减少,这一问题就显得尤其尖锐。已标注样本过于稀少会导致分类模型泛化性能的下降,进而影响语义标注的准确率。解决这一问题的一个有效途径就是发展半监督语义标注方法。目前,尽管半监督学习方法已有很大发展,提出了包括TSVM,图半监督学习等多种方法,但是可应用于多语义(多标签)学习问题的半监督学习方法仍比较罕见。
针对上述两个问题,本发明公布了一种基于空间依赖性度量的数字图像半监督多语义标注方法。它的理论基础是空间依赖性度量,利用所有样本,包括已标注和未标注样本,对特征集和语义类别集的依赖性进行估计,并将已标注图像样本作为边界约束,最后通过迭代技术逐步提高该估计值至最大,从而得到待标注图像的所有语义类别。本发明具有良好的技术效果。首先,本发明以基于统计理论的依赖性作为基础,可以通过增加样本数目,包括未标注样本数目提高依赖性估计的准确性,因此它首先是一种可利用未标注图像提高标注准确率的半监督标注方法;其次,无论图像同时具有多少个语义类别,本发明都将该图像的语义组合看做语义集合中一个点并映射至再生核希尔伯特空间,所以它同时也是多语义图像标注方法;最后本发明在可行方向法的基础上通过迭代完成图像标注,取得了与现有技术可比的计算速度。
发明内容
本发明的目的是提供一种准确高效的数字图像半监督多语义标注方法。
本发明的技术方案是:接收语义已知的若干数字图像以及待标注的所有数字图像并提取图像特征得到特征向量集,构造已标注图像的标签向量和所有图像最终标签向量集,计算特征向量集的Gram矩阵并根据空间依赖性度量得到图像属于各语义类置信值以及图像最终语义,具体由以下步骤组成:
步骤1,输入若干语义已知的数字图像以及需要进行语义标注的所有数字图像至计算机;将所有图像格式统一为RGB格式,并对所有图像进行尺寸归一化;
步骤2,利用Gist描述符提取图像的全局纹理特征,将上述所有数字图像均转换成向量,一幅图对应一个列向量,并将这些特征向量组成向量集,记为X=[x1,x2,...,xv,xv+1,...,xv+u],其中xi(1≤i≤v)对应已标注图像,其余对应待标注图像;
步骤3,令m为样本可能的语义类别总数,构造初始状态下已标注图像xi(1≤i≤v)的标签向量为 是m维列向量,其中:
令m维列向量yi表示图像xi(1≤i≤u+v)的最终标签向量,构造标签向量集Y=[y1,y2,...,yv,yv+1,...,yv+u];
步骤4,选定特征向量集X上的核函数为k(xi,xj),通过核函数计算出X的Gram矩阵,记为K;
步骤5,利用空间依赖性度量方法得到特征向量集和标签向量集之间依赖性程度的度量值如下:
其中,Tr[·]表示求迹,I为单位矩阵,e是元素值全为1的n行列向量,n=v+u表示图像样本总数;
步骤6,保证Y满足条件以及的情况下,利用迭代技术更新YU的值,逐步提高Q(Y)至最大,从而得到待标注图像属于各语义类的置信值YU;其中,Y=[YV,YU],YV和YU分别是Y的前v列和后u列,分别对应于语义已知和未知部分,||·||F是Frobenius范数,τ>0是预先给定比较小的常数,用于避免YU尺度过大减弱YV对于依赖性程度的贡献率;
步骤7,对任意一副待标注图像xj(v+1≤j≤v+u),设定该图像的置信阈值εj为该图像所有语义置信值的平均值,即:
对任意待标注图像待标注图像xj(v+1≤j≤v+u)以及任意给定的语义类别i(1≤i≤m),如果YU(i,j)>εj,则判断样本具有第i个语义类别,否则判断样本不具有第i语义。
所述步骤3中的核函数包括径向基核,线性核,多项式核,sigmoid核。
所述步骤6的具体步骤包括:
步骤6.1,记A=HKH,将A和H按照已标注和待标注划分成四部分:
其中,AV和HV对应图像中的已标注部分,AU和HU则对应图像中待标注部分,且
将迹比值Q(Y)转换成关于YU的函数f(YU)/g(YU);
步骤6.2,给定阈值κ>0为很小的数;随机初始化使得
步骤6.3,令F(YU)=f(YU)-λbg(YU),求解得到新的
步骤6.4,令λa=λb
步骤6.5,当λba<κ,输出YU中每一列YU(:,j)(j=1,...,u)的第i个数YU(i,j)表示第j个样本属于第i类的置信度;否则跳转至步骤6.3,继续循环执行步骤6.3至步骤6.5。
所述步骤6.3的具体步骤包括:
步骤6.3.1,指定阈值δ>0为很小的数,令
M=(AUbHU)
N=2YV(AVU-λbHVU)
构造这一优化问题的同解问题如下:
步骤6.3.2,令由KKT条件,如果 即为最优解,输出为新的否则,最优解在边界上,此时转入下一步;
步骤6.3.3,初始化点作为新的计算起点;如果否则,随机初始化使得满足
步骤6.3.4,初始化w2为常数,令w1=-w2/2;其中,w2用于表示下一可行方向的Frobenius范数;
步骤6.3.5,计算当前点的可行方向d;其中,方向d应保证下一个迭代点的Frobenius范数一致且沿该方向优化目标值增加最快,满足这两条件的可行方向d可计算如下:
其中,
步骤6.3.6,令w1=αw1,w2=αw2,α<1是给定正常数;
步骤6.3.7,当否则跳转至步骤6.3.5,继续循环执行6.3.5至步骤6.3.7;
步骤6.3.8,当输出为新的否则跳转至步骤6.3.4,继续循环执行步骤6.3.4至步骤6.3.8。
本发明的基本原理在于认为图像的特征空间与语义空间之间存在着很强的依赖性,在对依赖性进行量化估计的基础上,将已标注图像的语义类别作为约束条件,通过迭代技术逐步提高该估计值至最大,从而得到待标注图像的所有语义类别。
本发明与现有技术相比,具有以下明显的优势和有益效果:
首先,本发明由于采用了空间依赖性作为理论基础,是一种新的用于解决图像多语义标注问题的新技术;其次,本发明还是一种半监督标注方法,它可以通过廉价易取的大量未标注图像进行学习,因此往往可以得到比现有技术更高的标注准确率,尤其是在已标注图像稀少的情况下,提升效果明显;最后本发明在可行方向法的基础上通过迭代技术完成图像的标注,取得了与现有技术可比的计算速度。
附图说明
图1是本发明实施例的结构框图。
图2是本发明实施例通过迭代得到各样本置信值的流程图。
图3是本发明实施例求解迭代过程中子优化问题的流程图。
图4是本发明实施例的ROC曲线效果对比图。
具体实施方式
根据图1部署本发明的实施例,所包含的具体步骤如下:
步骤1,输入200张语义已知的数字图像以及其余需要进行语义标注的1800张数字图像至计算机,包括沙漠,山峰,大海,落日和树木5类;将所有图像格式统一为RGB格式,并对所有图像进行尺寸归一化至512×512;这里所有图像均来源于南京大学机器学习与数据挖掘研究所公开的图像数据库,可从网址http://lamda.nju.edu.cn/data_MIMLimage.ashx中下载;
步骤2,利用Gist描述符提取图像的全局纹理特征:将每一副图转换成灰度图,在4个尺度,8个方向进行Gabor滤波,滤波后的图像进行4×4分块,得到每一副图的512维的Gist特征列向量;将这些特征向量组成向量集,记为X=[x1,x2,...,xv,xv+1,...,xv+u],其中v=200,u=1800,xi(1≤i≤v)对应已标注图像,其余对应待标注图像;
步骤3,令m=5为语义类别总数;构造初始状态下已标注图像xi(1≤i≤v)的标签向量为 是m维列向量,其中:
令m维列向量yi表示图像xi(1≤i≤u+v)的最终标签向量,构造标签向量集Y=[y1y2,...,yv,yv+1,...,yv+u];
步骤4,选定特征向量集X上的核函数k(xi,xj)为径向基核,通过该核函数计算出X的Gram矩阵,记为K;
步骤5,利用空间依赖性度量方法得到特征向量集和标签向量集之间依赖性程度的度量值如下:
其中,Tr[·]表示求迹,I为单位矩阵,e是元素值全为1的n行列向量,n=v+u表示图像样本总数;
步骤6,保证Y满足条件以及的情况下,利用迭代技术更新YU的值,逐步提高Q(Y)至最大,从而得到待标注图像属于各语义类的置信值YU;其中,Y=[YV,YU],YV和YU分别是Y的前v列和后u列,分别对应于语义已知和未知部分,||·||F是Frobenius范数,τ预先设定为0.1,用于避免YU尺度过大减弱YV对于依赖性程度的贡献率;图2是步骤6的流程图,具体包含如下步骤:
步骤6.1,记A=HKH,将A和H按照已标注和待标注划分成四部分:
其中,AV和HV对应图像中的已标注部分,AU和HU则对应图像中待标注部分,且
将迹比值Q(Y)转换成关于YU的函数f(YU)/g(YU);
步骤6.2,给定阈值κ=0.001;随机初始化使得
步骤6.3,令F(YU)=f(YU)-λbg(YU),求解优化子问题的流程图如图3所示,具体步骤如下:
步骤6.3.1,指定阈值δ=0.001为很小的数,令
M=(AUbHU)
N=2YV(AVUbHVU)
构造这一优化问题的同解问题如下:
步骤6.3.2,令如果 即为最优解,输出为新的否则,最优解在边界上,此时转入下一步;
步骤6.3.3,初始化点作为新的计算起点;如果否则,随机初始化使得满足
步骤6.3.4,初始化w2=1为常数,令w1=-w2/2;其中,w2用于表示下一可行方向的Frobenius范数;
步骤6.3.5,计算当前点的可行方向d:
其中,
步骤6.3.6,令w1=αw1,w2=αw2,α=0.5是给定常数;
步骤6.3.7,如果否则跳转至步骤6.3.5,继续循环执行6.3.5至步骤6.3.7;
步骤6.3.8,当输出为新的否则跳转至步骤6.3.4,继续循环执行步骤6.3.4至步骤6.3.8;
步骤6.4,令λa=λb
步骤6.5,当λba<κ,输出YU中每一列YU(:,j)(j=1,...,u)的第i个数YU(i,j)表示第j个样本属于第i类的置信度;否则跳转至步骤6.3,继续循环执行步骤6.3至步骤6.5;
步骤7,对任意一副待标注图像xj(v+1≤j≤v+u),设定该图像的置信阈值εj为该图像所有语义置信值的平均值,即:
对任意待标注图像待标注图像xj(v+1≤j≤v+u)以及任意给定的语义类别i(1≤i≤m),如果YU(i,j)>εj,则判断样本具有第i个语义类别,否则判断样本不具有第i语义。
本发明实施例与经典MLKNN(Zhang M L,et al.A k-nearest neighbor basedalgorithm for multi-label classification)和Binary Relevance(Boutell M R,etal.Learning multi-label scene classification)两种标注方法在仅有200张已标注语义图像下的ROC曲线(Receiver operating characteristic curve)如图4所示。图4中,本发明实施例在沙漠,山峰,大海,落日和树木五个类别上均取得了最好的AUC值(ROC曲线下方面积),充分说明本发明具有良好的多语义标注效果。
最后应说明的是:以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于空间依赖性度量的数字图像多语义标注方法,其特征在于依次包括以下步骤:
步骤1,输入若干语义已知的数字图像以及需要进行语义标注的所有数字图像至计算机;将所有图像格式统一为RGB格式,并对所有图像进行尺寸归一化;
步骤2,利用Gist描述符提取图像的全局纹理特征,将上述所有数字图像均转换成向量,一幅图对应一个列向量,并将这些特征向量组成向量集,记为X=[x1,x2,...,xv,xv+1,...,xv+u],其中xi(1≤i≤v)对应已标注图像,其余对应待标注图像;
步骤3,令m为样本可能的语义类别总数,构造初始状态下已标注图像xi(1≤i≤v)的标签向量为是m维列向量,其中:
令m维列向量yi表示图像xi(1≤i≤u+v)的最终标签向量,构造标签向量集Y=[y1,y2,…,yv,yv+1,…,yv+u];
步骤4,选定特征向量集X上的核函数为k(xi,xj),通过核函数计算出X的Gram矩阵,记为K;
步骤5,利用空间依赖性度量方法得到特征向量集和标签向量集之间依赖性程度的度量值如下:
<mrow> <mi>Q</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>T</mi> <mi>r</mi> <mrow> <mo>&amp;lsqb;</mo> <mrow> <msup> <mi>YHKHY</mi> <mi>T</mi> </msup> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mrow> <mrow> <mi>T</mi> <mi>r</mi> <mrow> <mo>&amp;lsqb;</mo> <mrow> <msup> <mi>YHY</mi> <mi>T</mi> </msup> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mrow> </mfrac> </mrow>
其中,Tr[·]表示求迹,I为单位矩阵,e是元素值全为1的n行列向量,n=v+u表示图像样本总数;
步骤6,保证Y满足条件以及的情况下,利用迭代技术更新YU的值,逐步提高Q(Y)至最大,从而得到待标注图像属于各语义类的置信值YU;其中,Y=[YV,YU],YV和YU分别是Y的前v列和后u列,分别对应于语义已知和未知部分,||·||F是Frobenius范数,τ>0是预先给定常数,用于避免YU尺度过大减弱YV对于依赖性程度的贡献率,具体步骤包括:
步骤6.1,记A=HKH,将A和H按照已标注和待标注划分成四部分:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>A</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>A</mi> <mi>V</mi> </msub> </mtd> <mtd> <msub> <mi>A</mi> <mrow> <mi>V</mi> <mi>U</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>A</mi> <mrow> <mi>U</mi> <mi>V</mi> </mrow> </msub> </mtd> <mtd> <msub> <mi>A</mi> <mi>U</mi> </msub> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> <mtd> <mrow> <mi>H</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>H</mi> <mi>V</mi> </msub> </mtd> <mtd> <msub> <mi>H</mi> <mrow> <mi>V</mi> <mi>U</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>H</mi> <mrow> <mi>U</mi> <mi>V</mi> </mrow> </msub> </mtd> <mtd> <msub> <mi>H</mi> <mi>U</mi> </msub> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,AV和HV对应图像中的已标注部分,AU和HU则对应图像中待标注部分,且
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mi>U</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>T</mi> <mi>r</mi> <mrow> <mo>&amp;lsqb;</mo> <mrow> <msup> <mi>YAY</mi> <mi>T</mi> </msup> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mo>=</mo> <mi>T</mi> <mi>r</mi> <mrow> <mo>&amp;lsqb;</mo> <mrow> <msub> <mi>Y</mi> <mi>V</mi> </msub> <msub> <mi>A</mi> <mi>V</mi> </msub> <msubsup> <mi>Y</mi> <mi>V</mi> <mi>T</mi> </msubsup> <mo>+</mo> <mn>2</mn> <msub> <mi>Y</mi> <mi>V</mi> </msub> <msub> <mi>A</mi> <mrow> <mi>V</mi> <mi>U</mi> </mrow> </msub> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>T</mi> </msubsup> <mo>+</mo> <msub> <mi>Y</mi> <mi>U</mi> </msub> <msub> <mi>A</mi> <mi>U</mi> </msub> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>T</mi> </msubsup> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mi>U</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>T</mi> <mi>r</mi> <mrow> <mo>&amp;lsqb;</mo> <mrow> <msup> <mi>YHY</mi> <mi>T</mi> </msup> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mo>=</mo> <mi>T</mi> <mi>r</mi> <mrow> <mo>&amp;lsqb;</mo> <mrow> <msub> <mi>Y</mi> <mi>V</mi> </msub> <msub> <mi>H</mi> <mi>V</mi> </msub> <msubsup> <mi>Y</mi> <mi>V</mi> <mi>T</mi> </msubsup> <mo>+</mo> <mn>2</mn> <msub> <mi>Y</mi> <mi>V</mi> </msub> <msub> <mi>H</mi> <mrow> <mi>V</mi> <mi>U</mi> </mrow> </msub> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>T</mi> </msubsup> <mo>+</mo> <msub> <mi>Y</mi> <mi>U</mi> </msub> <msub> <mi>H</mi> <mi>U</mi> </msub> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>T</mi> </msubsup> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
将迹比值Q(Y)转换成关于YU的函数f(YU)/g(YU);
步骤6.2,给定阈值κ>0为常数;随机初始化使得
步骤6.3,令F(YU)=f(YU)-λbg(YU),求解得到新的
步骤6.4,令λa=λb
步骤6.5,当λba<κ,输出YU中每一列YU(:,j)(j=1,...,u)的第i个数YU(i,j)表示第j个样本属于第i类的置信度;否则跳转至步骤6.3,继续循环执行步骤6.3至步骤6.5;
步骤7,对任意一副待标注图像xj(v+1≤j≤v+u),设定该图像的置信阈值εj为该图像所有语义置信值的平均值,即:
<mrow> <msub> <mi>&amp;epsiv;</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&amp;Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>Y</mi> <mi>U</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mi>m</mi> </mfrac> </mrow>
对任意待标注图像待标注图像xj(v+1≤j≤v+u)以及任意给定的语义类别i(1≤i≤m),如果YU(i,j)>εj,则判断样本具有第i个语义类别,否则判断样本不具有第i语义。
2.根据权利要求1所述的基于空间依赖性度量的数字图像多语义标注方法,其特征在于:所述步骤3中的核函数包括径向基核,线性核,多项式核,sigmoid核。
3.根据权利要求1所述的基于空间依赖性度量的数字图像多语义标注方法,其特征在于:所述步骤6.3的具体步骤包括:
步骤6.3.1,指定阈值δ>0为常数,令
M=(AUbHU)
N=2YV(AVUbHVU)
构造这一优化问题的同解问题如下:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <munder> <mi>max</mi> <msub> <mi>Y</mi> <mi>U</mi> </msub> </munder> </mtd> <mtd> <mrow> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mi>U</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>T</mi> <mi>r</mi> <mo>&amp;lsqb;</mo> <msub> <mi>Y</mi> <mi>U</mi> </msub> <msubsup> <mi>MY</mi> <mi>U</mi> <mi>T</mi> </msubsup> <mo>&amp;rsqb;</mo> <mo>+</mo> <mi>T</mi> <mi>r</mi> <mo>&amp;lsqb;</mo> <msubsup> <mi>NY</mi> <mi>U</mi> <mi>T</mi> </msubsup> <mo>&amp;rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>Y</mi> <mi>U</mi> </msub> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>&amp;le;</mo> <mi>&amp;tau;</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>
步骤6.3.2,令如果 即为最优解,输出为新的否则,最优解在边界上,此时转入下一步;
步骤6.3.3,初始化点作为新的计算起点;如果否则,随机初始化使得满足
步骤6.3.4,初始化w2为给定常数,令w1=-w2/2;其中,w2用于表示下一可行方向的Frobenius范数;
步骤6.3.5,计算当前点的可行方向d如下:
<mrow> <mi>d</mi> <mo>=</mo> <mfrac> <mrow> <msup> <mrow> <mo>&amp;lsqb;</mo> <mo>&amp;dtri;</mo> <mi>F</mi> <mrow> <mo>(</mo> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow> <mi>T</mi> </msup> <mo>-</mo> <msub> <mi>&amp;xi;Y</mi> <mi>U</mi> </msub> </mrow> <mi>&amp;eta;</mi> </mfrac> </mrow>
其中,
<mrow> <mo>&amp;dtri;</mo> <mi>F</mi> <mrow> <mo>(</mo> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mn>2</mn> <mi>M</mi> <msup> <mrow> <mo>(</mo> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>+</mo> <msup> <mi>N</mi> <mi>T</mi> </msup> </mrow>
<mrow> <mi>&amp;xi;</mi> <mo>=</mo> <mfrac> <mrow> <mi>T</mi> <mi>r</mi> <mo>&amp;lsqb;</mo> <mo>&amp;dtri;</mo> <mi>F</mi> <mrow> <mo>(</mo> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <mo>)</mo> </mrow> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <mo>&amp;rsqb;</mo> <mo>-</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mi>&amp;eta;</mi> </mrow> <mrow> <mi>T</mi> <mi>r</mi> <mo>&amp;lsqb;</mo> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>&amp;rsqb;</mo> </mrow> </mfrac> </mrow>
<mrow> <mi>&amp;eta;</mi> <mo>=</mo> <msqrt> <mfrac> <mrow> <mo>|</mo> <mo>|</mo> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>|</mo> <mo>|</mo> <mo>&amp;dtri;</mo> <mi>F</mi> <mrow> <mo>(</mo> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>-</mo> <msup> <mrow> <mo>(</mo> <mi>T</mi> <mi>r</mi> <mo>&amp;lsqb;</mo> <mo>&amp;dtri;</mo> <mi>F</mi> <mo>(</mo> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <mo>)</mo> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <mo>&amp;rsqb;</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>|</mo> <msubsup> <mi>Y</mi> <mi>U</mi> <mi>c</mi> </msubsup> <mo>|</mo> <msubsup> <mo>|</mo> <mi>F</mi> <mn>2</mn> </msubsup> <mo>-</mo> <msup> <msub> <mi>w</mi> <mn>1</mn> </msub> <mn>2</mn> </msup> </mrow> </mfrac> </msqrt> </mrow>
步骤6.3.6,令w1=αw1,w2=αw2,α<1是给定正常数;
步骤6.3.7,当否则跳转至步骤6.3.5,继续循环执行6.3.5至步骤6.3.7;
步骤6.3.8,当输出为新的否则跳转至步骤6.3.4,继续循环执行步骤6.3.4至步骤6.3.8。
CN201410599268.1A 2014-10-31 2014-10-31 基于空间依赖性度量的数字图像多语义标注方法 Expired - Fee Related CN104346456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410599268.1A CN104346456B (zh) 2014-10-31 2014-10-31 基于空间依赖性度量的数字图像多语义标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410599268.1A CN104346456B (zh) 2014-10-31 2014-10-31 基于空间依赖性度量的数字图像多语义标注方法

Publications (2)

Publication Number Publication Date
CN104346456A CN104346456A (zh) 2015-02-11
CN104346456B true CN104346456B (zh) 2017-09-08

Family

ID=52502047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410599268.1A Expired - Fee Related CN104346456B (zh) 2014-10-31 2014-10-31 基于空间依赖性度量的数字图像多语义标注方法

Country Status (1)

Country Link
CN (1) CN104346456B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701509B (zh) * 2016-01-13 2019-03-12 清华大学 一种基于跨类别迁移主动学习的图像分类方法
CN107391599B (zh) * 2017-06-30 2021-01-12 中原智慧城市设计研究院有限公司 基于风格特征的图像检索方法
CN109190060B (zh) * 2018-07-10 2021-05-14 天津大学 一种基于有效人机交互的服务标注质量优化方法
CN111428733B (zh) * 2020-03-12 2023-05-23 山东大学 基于语义特征空间转换的零样本目标检测方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN103336969A (zh) * 2013-05-31 2013-10-02 中国科学院自动化研究所 一种基于弱监督学习的图像语义解析方法
CN103605667A (zh) * 2013-10-28 2014-02-26 中国计量学院 一种图像自动标注算法
CN103955462A (zh) * 2014-03-21 2014-07-30 南京邮电大学 一种基于多视图和半监督学习机制的图像标注方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
CN103336969A (zh) * 2013-05-31 2013-10-02 中国科学院自动化研究所 一种基于弱监督学习的图像语义解析方法
CN103605667A (zh) * 2013-10-28 2014-02-26 中国计量学院 一种图像自动标注算法
CN103955462A (zh) * 2014-03-21 2014-07-30 南京邮电大学 一种基于多视图和半监督学习机制的图像标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Trace Ratio vs. Ratio Trace for Dimensionality Reduction;Huan Wang 等;《Computer Vision & Pattern》;20070716;第1-8页 *
从希尔伯特-施密特独立性中学习的多标签半监督学习方法;张晨光 等;《中国科技论文》;20131031;第8卷(第10期);第998-1002页 *

Also Published As

Publication number Publication date
CN104346456A (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
Li et al. Deep supervised discrete hashing
CN105117429B (zh) 基于主动学习和多标签多示例学习的场景图像标注方法
CN110516095B (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和***
US20160140425A1 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
EP4014155A1 (en) Text based image search
US9679226B1 (en) Hierarchical conditional random field model for labeling and segmenting images
CN107330074B (zh) 基于深度学习和哈希编码的图像检索方法
Xu et al. Tell me what you see and i will show you where it is
Chong et al. Simultaneous image classification and annotation
CN105069481B (zh) 基于空间金字塔稀疏编码的自然场景多标记分类方法
CN109063112B (zh) 一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法
Song et al. Deep region hashing for efficient large-scale instance search from images
CN102385592B (zh) 图像概念的检测方法和装置
CN103400144B (zh) 一种基于k近邻的支持向量机主动学习的方法
CN104346456B (zh) 基于空间依赖性度量的数字图像多语义标注方法
CN115937655B (zh) 多阶特征交互的目标检测模型及其构建方法、装置及应用
CN112132145B (zh) 一种基于模型扩展卷积神经网络的图像分类方法及***
CN103745233B (zh) 基于空间信息迁移的高光谱图像分类方法
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN105740917B (zh) 带有标签学习的遥感图像的半监督多视图特征选择方法
CN103942214B (zh) 基于多模态矩阵填充的自然图像分类方法及装置
CN109284414A (zh) 基于语义保持的跨模态内容检索方法和***
CN115439715A (zh) 基于反标签学习的半监督少样本图像分类学习方法及***
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
US20220114820A1 (en) Method and electronic device for image search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170908

Termination date: 20211031

CF01 Termination of patent right due to non-payment of annual fee