CN105787045B - 一种用于可视媒体语义索引的精度增强方法 - Google Patents

一种用于可视媒体语义索引的精度增强方法 Download PDF

Info

Publication number
CN105787045B
CN105787045B CN201610108055.3A CN201610108055A CN105787045B CN 105787045 B CN105787045 B CN 105787045B CN 201610108055 A CN201610108055 A CN 201610108055A CN 105787045 B CN105787045 B CN 105787045B
Authority
CN
China
Prior art keywords
matrix
mentioned
value
sample
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610108055.3A
Other languages
English (en)
Other versions
CN105787045A (zh
Inventor
王鹏
孙立峰
杨士强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610108055.3A priority Critical patent/CN105787045B/zh
Publication of CN105787045A publication Critical patent/CN105787045A/zh
Application granted granted Critical
Publication of CN105787045B publication Critical patent/CN105787045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于可视媒体语义索引的精度增强方法,属于视觉媒体处理技术领域。首先,对可视媒体中包含的物体和场景进行语义索引,构建置信度矩阵,通过阈值判断筛选出部分元素,应用加权非负矩阵分解的方法对筛选后的矩阵进行重新估计,完成全局精度增强。根据全局精度增强后的结果采用相似度传播的方法,利用样本间的相似度关系进行局部精度增强。本发明的优点是利用多种语义关系,增强了可视媒体语义索引的准确率。本方法不依赖于大量标注数据集和知识库,具有很强的灵活性和适应性。全局精度增强与局部精度增强有机结合,提高了方法的灵活性和效果。算法的计算复杂度低,可扩展性强,适合于实际工业应用。

Description

一种用于可视媒体语义索引的精度增强方法
技术领域
本发明涉及一种用于可视媒体语义索引的精度增强方法,属于视觉媒体处理技术领域。
背景技术
基于内容分析的方法对可视媒体进行语义索引已经超出了若干独立概念探测器的简单应用,而是通过结合多种概念信息及对概念探测结果进行后期处理的方法进行更加有效的语义检索。由于训练样本集本身的局限性,如人工标注的稀疏性、不准确性等特点,基于特定训练样本集的方法用于对可视媒体进行精度的提高往往面临着概念相关性难以准确获取(如概念同时出现的规律、本体关联等)的问题。
目前一类利用概念之间关系的可视媒体索引方法为多标签训练的方法。在这种方法中,对不同语义概念相关性的建模和概念分类是同时进行的,即将概念的关系结合在多概念的分类器中。由于所有的概念都是从一个集成的模型中学习得到,一个典型的缺点是缺乏灵活性。这就意味着一旦索引词汇集合发生变化,语义概念学习的整个过程需要重复实施。同时,在训练学习过程中对概念两两关系进行建模也会大大提高计算复杂度。这也很大程度上影响方法向大规模词汇集合以及复杂概念关系上的移植和扩展。
作为另一种替代方法,对单个概念探测器的输出结果进行后期处理的方法由于允许对每个概念分别设计实施探测器而大大提高了方法的灵活性。例如基于标注集或预先构建的知识图谱(语义本体),将从中获得的概念相关性用于后期概念探测结果的处理,都能在不同程度上对索引结果进行提高。然而这种方法同样依赖于训练数据集(标注集)和外部知识(如本体)。当进行索引的概念没有构建在词汇本体中,或者标注集的数量或质量不足以准确学习概念的相关性的情况下(如样本不足或标注稀疏等),这一类方法很难适应这种问题。
综上所述,可视媒体语义索引的精度增强是利用概念相关性对索引结果进行进一步改善的关键技术。这种索引增强技术的作用是给出可视媒体进行概念探测的结果,对概念探测的结果应用概念的量化关系进行调整和改善,以达到对大量可视媒体有效索引的目的。随着图像、视频等可视媒体在互联网上体量的快速增长,这种索引的增强方法不可避免地需要满足如下要求:1)对语义概念索引的灵活性;2)对不同数量和质量的标注数据的适应性;3)对大规模样本数据的扩展性。在可视媒体语义索引增强的过程中,应该尽量保证上述三点,这样才能保证增强方法在视觉大数据上的灵活应用,否则在进行索引增强的过程中,很难利用好语义概念的相关性,从而影响预期的效果。因此,可视媒体语义索引的精度增强算法需要尽可能的保证以上三点要求。
发明内容
本发明的目的是提出一种用于可视媒体语义索引的精度增强方法,以应对当前单类概念探测器造成的概念探测精度低及不均衡的问题,既可应对普通的索引精度增强任务,也可处理由于外部知识或标注数据不足造成的概念相关性构建缺陷,并且可以用于为不同应用域中的语义索引结果进行精度增强。
本发明提出的用于可视媒体语义索引的精度增强方法,包括以下步骤:
(1)对初始可视媒体中包含的物体和场景进行语义索引,得到初始可视媒体语义索引的探测置信度值,根据探测置信度值,构建一个矩阵C,矩阵C中的行对应于可视媒体中的一个样本ci,1≤i≤N,矩阵C中的列对应一个物体或场景vj,1≤j≤M,矩阵C中的任意一个元素cij表示样本ci包含的物体或场景vj的探测置信度值,其中,N表示样本的个数,M表示物体或场景的个数;
(2)设定一个探测置信度阈值,将上述矩阵C中的探测置信度值与设定的探测置信度阈值进行比较,若矩阵C中的探测置信度值大于或等于探测置信度阈值,则保留该探测置信度值,若矩阵C中的探测置信度值小于探测置信度阈值,则将该探测置信度值置为0,并将该比较更新后的矩阵记为C”,矩阵C”的每个元素记为c”ij,1≤i≤N,1≤j≤M;
(3)利用加权非负矩阵分解方法,对上述比较更新后的矩阵C”进行全局精度增强,具体过程如下:
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj不具备本体相关性信息,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-1)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-2)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij赋以值[0,0.5];
(3-3)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-4)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-5)将上述步骤(3-4)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
其中,α的取值范围为(0,1);
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj具备本体相关性信息,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-6)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-7)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij根据物体或场景的本体相关性信息赋以自适应的权值:
wij∝1-[cij-maxvk∈Dcik]
其中,D为与物体或场景vj不能同时出现在一幅画面中的物体或场景的全集,cik为与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值,表示与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值中的最大值;
(3-8)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-9)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-10)将上述步骤(3-9)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
其中,α的取值范围为(0,1);
(4)利用相似度传播方法,对上述步骤(3)得到的矩阵C'进行局部精度增强,具体过程如下:
(4-1)采用皮尔森相关系数,计算可视媒体中不同样本ci和cj之间的相似度Pi,j
其中,ci和cj在矩阵C′中的值为第i行和第j行的行向量,行向量ci′=(c'ik)1≤k≤M,cj′=(c'jk)1≤k≤M分别为ci′和cj′对应各行的平均值;
采用高斯形式,对上述相似度Pi,j进行归一化处理,得到归一化后的相似度P'i,j
其中,δ为样本间距离的尺度参数,取值范围为(0,10];
(4-2)根据上述样本间归一化后的相似度P'i,j,选定可视媒体中的任意一个样本ci(1≤i≤N),从除ci以外的其他样本cj,1≤j≤N且j≠i中选择与样本ci最近邻的前K个样本,并构建一个ci与K个最近邻样本之间的相似度矩阵G:
G=(P'i,j)(K+1)×(K+1)
其中,矩阵G中的每个元素为相应两个样本间的相似度,矩阵G的前K行及前K列为样本ci的K个最近邻样本,矩阵G的最后第K+1行和最后第K+1列为样本ci
(4-3)对上述矩阵G进行列归一化处理,构建概率矩阵T,概率矩阵T中的每个元素为:
P'l,j表示矩阵G第j列所有元素按行的求和;
(4-4)将矩阵C′中第i个样本的K个最近邻样本在矩阵C′中的行号记为ni,1≤i≤K,为矩阵C′中的第ni个行向量,将所有K+1个行向量层叠在一起,构成一个矩阵Cn,Cn=(c'n1;c'n2;...;c'nK;ci′),通过下面的传播方法对矩阵Cn中的第K+1行的向量值c'i进行更新迭代:
(4-5)进行多次更新迭代后,得到一个矩阵Cn,矩阵Cn中的第K+1行的向量值c'i即为对第i个样本通过相似度传播进行局部精度增强后的结果;
(4-6)遍历矩阵C′中所有样本ci,1≤i≤N,重复上述步骤(4-4)和步骤(4-5),实现对可视媒体语义索引的精度增强。
本发明提出的用于可视媒体语义索引的精度增强方法,其优点是:
1、本发明的用于可视媒体语义索引的精度增强方法中,充分使用概念的上下文关系如同时出现和重复出现规律等,对精度较低的概念探测结果进行修正,从而增强了视觉媒体语义索引的准确率。由于本方法不依赖于大量语义标注数据集和知识库,方法直接应用于概念探测的结果,具有很强的灵活性和适应性。
2、本发明的用于可视媒体语义索引的精度增强方法中,除了利用全局的概念关系进行精度增强,还充分利用样本间的相似度即局部特征进行精度提高。在进行局部增强的过程中,利用全局增强的结果,大大提高了计算样本间相似度的可靠性和最近邻样本的筛选精度,从而提高了局部增强的效果。本发明算法将两者结合起来,充分利用全局和局部相关性,从而极大提高了对语义索引精度增强的效果。
3、本发明的用于可视媒体语义索引的精度增强方法中,提出了一个基于概念本体相关性的加权分解算法,该方法通过利用已有的概念本体知识结构,对加权非负矩阵分解过程中的权值变量进行设置,在问题优化的过程中充分考虑概念的本体语义关系,很好解决了概念本体语义在使用过程中难以量化的问题。该方法与全局增强算法在加权非负矩阵分解过程中有机结合,提高了方法的灵活性和效果。
具体实施方式
本发明提出的用于可视媒体语义索引的精度增强方法,包括以下步骤:
(1)对初始可视媒体中包含的物体和场景进行语义索引,得到初始可视媒体语义索引的探测置信度值,根据探测置信度值,构建一个矩阵C,矩阵C中的行对应于可视媒体中的一个样本ci,1≤i≤N,如一幅图像或一个视频镜头,矩阵C中的列对应一个物体或场景vj,1≤j≤M,矩阵C中的任意一个元素cij表示样本ci包含的物体或场景vj的探测置信度值,其中,N表示样本的个数,M表示物体或场景的个数;
(2)设定一个探测置信度阈值,将上述矩阵C中的探测置信度值与设定的探测置信度阈值进行比较,若矩阵C中的探测置信度值大于或等于探测置信度阈值,则保留该探测置信度值,若矩阵C中的探测置信度值小于探测置信度阈值,则将该探测置信度值置为0,并将该比较更新后的矩阵记为C”,矩阵C”的每个元素记为c”ij,1≤i≤N,1≤j≤M;
(3)利用加权非负矩阵分解方法,对上述比较更新后的矩阵C”进行全局精度增强,具体过程如下:
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj不具备本体相关性信息,即二者没有本体关联关系或不包含在可用的本体结构中,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-1)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-2)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij赋以值[0,0.5];
(3-3)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-4)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵求解上述费效函数F的方法可以是multiplicative方法,也可以是已有的其他方法,Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-5)将上述步骤(3-4)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
其中,α的取值范围为(0,1);
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj具备本体相关性信息,即二者有本体关联关系且具备可用的本体结构,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-6)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-7)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij根据物体或场景的本体相关性信息赋以自适应的权值:
wij∝1-[cij-maxvk∈Dcik]
其中,D为与物体或场景vj不能同时出现在一幅画面中的物体或场景的全集,cik为与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值,表示与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值中的最大值;
(3-8)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-9)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵求解上述费效函数F的方法可以是multiplicative方法,也可以是已有的其他方法,Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-10)将上述步骤(3-9)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
其中,α的取值范围为(0,1);
(4)利用相似度传播方法,对上述步骤(3)得到的矩阵C'进行局部精度增强,具体过程如下:
(4-1)采用皮尔森相关系数(Pearson Correlation Coefficient),计算可视媒体中不同样本ci和cj之间的相似度Pi,j
其中,ci和cj在矩阵C′中的值为第i行和第j行的行向量,行向量ci′=(c'ik)1≤k≤M,cj′=(c'jk)1≤k≤M分别为ci′和cj′对应各行的平均值;
采用高斯形式,对上述相似度Pi,j进行归一化处理,得到归一化后的相似度P'i,j
其中,δ为样本间距离的尺度参数,取值范围为(0,10];
(4-2)根据上述样本间归一化后的相似度P'i,j,选定可视媒体中的任意一个样本ci(1≤i≤N),从除ci以外的其他样本cj,1≤j≤N且j≠i中选择与样本ci最近邻的前K个样本,并构建一个ci与K个最近邻样本之间的相似度矩阵G:
G=(P'i,j)(K+1)×(K+1)
其中,矩阵G中的每个元素为相应两个样本间的相似度,矩阵G的前K行及前K列为样本ci的K个最近邻样本,矩阵G的最后第K+1行和最后第K+1列为样本ci
(4-3)对上述矩阵G进行列归一化处理,构建概率矩阵T,概率矩阵T中的每个元素为:
P'l,j表示矩阵G第j列所有元素按行的求和;
(4-4)将矩阵C′中第i个样本的K个最近邻样本在矩阵C′中的行号记为ni,1≤i≤K,为矩阵C′中的第ni个行向量,将所有K+1个行向量层叠在一起,构成一个矩阵Cn,Cn=(c'n1;c'n2;...;c'nK;ci′),通过下面的传播方法对矩阵Cn中的第K+1行的向量值ci′进行更新迭代:
在每一次更新迭代过程中,使矩阵Cn的前K行的向量值保持不变,以避免在迭代过程中出现衰退;
(4-5)进行多次更新迭代后,得到一个矩阵Cn,矩阵Cn中的第K+1行的向量值ci′即为对第i个样本通过相似度传播进行局部精度增强后的结果;
(4-6)遍历矩阵C′中所有样本ci,1≤i≤N,重复上述步骤(4-4)和步骤(4-5),实现对可视媒体语义索引的精度增强。

Claims (1)

1.一种用于可视媒体语义索引的精度增强方法,其特征在于该方法包括以下步骤:
(1)对初始可视媒体中包含的物体和场景进行语义索引,得到初始可视媒体语义索引的探测置信度值,根据探测置信度值,构建一个矩阵C,矩阵C中的行对应于可视媒体中的一个样本ci,1≤i≤N,矩阵C中的列对应一个物体或场景vj,1≤j≤M,矩阵C中的任意一个元素cij表示样本ci包含的物体或场景vj的探测置信度值,其中,N表示样本的个数,M表示物体或场景的个数;
(2)设定一个探测置信度阈值,将上述矩阵C中的探测置信度值与设定的探测置信度阈值进行比较,若矩阵C中的探测置信度值大于或等于探测置信度阈值,则保留该探测置信度值,若矩阵C中的探测置信度值小于探测置信度阈值,则将该探测置信度值置为0,并将该比较更新后的矩阵记为C”,矩阵C”的每个元素记为c”ij,1≤i≤N,1≤j≤M;
(3)利用加权非负矩阵分解方法,对上述比较更新后的矩阵C”进行全局精度增强,具体过程如下:
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj不具备本体相关性信息,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-1)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-2)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij赋以值[0,0.5];
(3-3)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-4)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵 Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-5)将上述步骤(3-4)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
其中,α的取值范围为(0,1);
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj具备本体相关性信息,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-6)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-7)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij根据物体或场景的本体相关性信息赋以自适应的权值:
ωij∝1-[cij-maxvk∈Dcik]
其中,D为与物体或场景vj不能同时出现在一幅画面中的物体或场景的全集,cik为与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值,maxvk∈Dcik表示与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值中的最大值;
(3-8)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-9)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵 Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-10)将上述步骤(3-9)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
其中,α的取值范围为(0,1);
(4)利用相似度传播方法,对上述步骤(3)得到的矩阵C'进行局部精度增强,具体过程如下:
(4-1)采用皮尔森相关系数,计算可视媒体中不同样本ci和cj之间的相似度Pi,j
其中,ci和cj在矩阵C′中的值为第i行和第j行的行向量,行向量c'i=(c'ik)1≤k≤M,c'j=(c'jk)1≤k≤M分别为c'i和c'j对应各行的平均值;
采用高斯形式,对上述相似度Pi,j进行归一化处理,得到归一化后的相似度P'i,j
其中,δ为样本间距离的尺度参数,取值范围为(0,10];
(4-2)根据上述样本间归一化后的相似度P'i,j,选定可视媒体中的任意一个样本ci(1≤i≤N),从除ci以外的其他样本cj,1≤j≤N且j≠i中选择与样本ci最近邻的前K个样本,并构建一个ci与K个最近邻样本之间的相似度矩阵G:
G=(P'i,j)(K+1)×(K+1)
其中,矩阵G中的每个元素为相应两个样本间的相似度,矩阵G的前K行及前K列为样本ci的K个最近邻样本,矩阵G的最后第K+1行和最后第K+1列为样本ci
(4-3)对上述矩阵G进行列归一化处理,构建概率矩阵T,概率矩阵T中的每个元素为:
表示矩阵G第j列所有元素按行的求和;
(4-4)将矩阵C′中第i个样本的K个最近邻样本在矩阵C′中的行号记为ni,1≤i≤K,为矩阵C′中的第ni个行向量,将所有K+1个行向量层叠在一起,构成一个矩阵Cn,Cn=(c'n1;c'n2;...;c'nK;c'i),通过下面的传播方法对矩阵Cn中的第K+1行的向量值c′i进行更新迭代:
(4-5)进行多次更新迭代后,得到一个矩阵Cn,矩阵Cn中的第K+1行的向量值c'i即为对第i个样本通过相似度传播进行局部精度增强后的结果;
(4-6)遍历矩阵C′中所有样本ci,1≤i≤N,重复上述步骤(4-4)和步骤(4-5),实现对可视媒体语义索引的精度增强。
CN201610108055.3A 2016-02-26 2016-02-26 一种用于可视媒体语义索引的精度增强方法 Active CN105787045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610108055.3A CN105787045B (zh) 2016-02-26 2016-02-26 一种用于可视媒体语义索引的精度增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610108055.3A CN105787045B (zh) 2016-02-26 2016-02-26 一种用于可视媒体语义索引的精度增强方法

Publications (2)

Publication Number Publication Date
CN105787045A CN105787045A (zh) 2016-07-20
CN105787045B true CN105787045B (zh) 2019-03-26

Family

ID=56402829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610108055.3A Active CN105787045B (zh) 2016-02-26 2016-02-26 一种用于可视媒体语义索引的精度增强方法

Country Status (1)

Country Link
CN (1) CN105787045B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220663B (zh) * 2017-05-17 2020-05-19 大连理工大学 一种基于语义场景分类的图像自动标注方法
CN108334611B (zh) * 2018-02-07 2020-04-24 清华大学 基于非负张量分解的时序可视媒体语义索引精度增强方法
CN109905289B (zh) * 2019-01-23 2019-12-06 中国人民解放军32801部队 一种网络服务可信属性动态预测方法
CN109918616B (zh) * 2019-01-23 2020-01-31 中国人民解放军32801部队 一种基于语义索引精度增强的可视媒体处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404817B1 (en) * 1997-11-20 2002-06-11 Lsi Logic Corporation MPEG video decoder having robust error detection and concealment
CN103593363A (zh) * 2012-08-15 2014-02-19 中国科学院声学研究所 视频内容索引结构的建立方法、视频检索方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404817B1 (en) * 1997-11-20 2002-06-11 Lsi Logic Corporation MPEG video decoder having robust error detection and concealment
CN103593363A (zh) * 2012-08-15 2014-02-19 中国科学院声学研究所 视频内容索引结构的建立方法、视频检索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CROSS-MEDIA SEMANTIC INDEXING IN THE SOCCER DOMAIN;Paul Buitelaar等;《IEEE》;20080715;第296-301页
基于概率图模型的图像整体场景理解方法研究;李林;《万方数据库》;20150701;第1-175页

Also Published As

Publication number Publication date
CN105787045A (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN106909924B (zh) 一种基于深度显著性的遥感影像快速检索方法
CN103559504B (zh) 图像目标类别识别方法及装置
CN113052211B9 (zh) 一种基于特征的秩和通道重要性的剪枝方法
CN103810299B (zh) 基于多特征融合的图像检索方法
CN105787045B (zh) 一种用于可视媒体语义索引的精度增强方法
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN114092832B (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
CN105718532B (zh) 一种基于多深度网络结构的跨媒体排序方法
CN103064903B (zh) 图片检索方法和装置
WO2019196210A1 (zh) 数据分析方法、计算机可读存储介质、终端设备及装置
CN110516095A (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和***
CN110880019A (zh) 通过无监督域适应训练目标域分类模型的方法
CN104035996A (zh) 基于Deep Learning的领域概念抽取方法
CN105701225A (zh) 一种基于统一关联超图规约的跨媒体检索方法
CN112364747B (zh) 一种有限样本下的目标检测方法
CN108052680B (zh) 基于数据图谱、信息图谱和知识图谱的图像数据目标识别增强方法
CN108960270A (zh) 一种基于流形迁移学习的数据标定方法及***
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN115457332A (zh) 基于图卷积神经网络和类激活映射的图像多标签分类方法
CN111414951A (zh) 用于图像的细分类方法及装置
CN109558882B (zh) 基于鲁棒局部低秩稀疏cnn特征的图像分类方法及装置
CN107451617A (zh) 一种图转导半监督分类方法
CN112905894B (zh) 一种基于增强图学习的协同过滤推荐方法
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant