CN105787045A - 一种用于可视媒体语义索引的精度增强方法 - Google Patents

一种用于可视媒体语义索引的精度增强方法 Download PDF

Info

Publication number
CN105787045A
CN105787045A CN201610108055.3A CN201610108055A CN105787045A CN 105787045 A CN105787045 A CN 105787045A CN 201610108055 A CN201610108055 A CN 201610108055A CN 105787045 A CN105787045 A CN 105787045A
Authority
CN
China
Prior art keywords
matrix
mentioned
prime
row
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610108055.3A
Other languages
English (en)
Other versions
CN105787045B (zh
Inventor
王鹏
孙立峰
杨士强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610108055.3A priority Critical patent/CN105787045B/zh
Publication of CN105787045A publication Critical patent/CN105787045A/zh
Application granted granted Critical
Publication of CN105787045B publication Critical patent/CN105787045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于可视媒体语义索引的精度增强方法,属于视觉媒体处理技术领域。首先,对可视媒体中包含的物体和场景进行语义索引,构建置信度矩阵,通过阈值判断筛选出部分元素,应用加权非负矩阵分解的方法对筛选后的矩阵进行重新估计,完成全局精度增强。根据全局精度增强后的结果采用相似度传播的方法,利用样本间的相似度关系进行局部精度增强。本发明的优点是利用多种语义关系,增强了可视媒体语义索引的准确率。本方法不依赖于大量标注数据集和知识库,具有很强的灵活性和适应性。全局精度增强与局部精度增强有机结合,提高了方法的灵活性和效果。算法的计算复杂度低,可扩展性强,适合于实际工业应用。

Description

一种用于可视媒体语义索引的精度增强方法
技术领域
本发明涉及一种用于可视媒体语义索引的精度增强方法,属于视觉媒体处理技术领域。
背景技术
基于内容分析的方法对可视媒体进行语义索引已经超出了若干独立概念探测器的简单应用,而是通过结合多种概念信息及对概念探测结果进行后期处理的方法进行更加有效的语义检索。由于训练样本集本身的局限性,如人工标注的稀疏性、不准确性等特点,基于特定训练样本集的方法用于对可视媒体进行精度的提高往往面临着概念相关性难以准确获取(如概念同时出现的规律、本体关联等)的问题。
目前一类利用概念之间关系的可视媒体索引方法为多标签训练的方法。在这种方法中,对不同语义概念相关性的建模和概念分类是同时进行的,即将概念的关系结合在多概念的分类器中。由于所有的概念都是从一个集成的模型中学习得到,一个典型的缺点是缺乏灵活性。这就意味着一旦索引词汇集合发生变化,语义概念学习的整个过程需要重复实施。同时,在训练学习过程中对概念两两关系进行建模也会大大提高计算复杂度。这也很大程度上影响方法向大规模词汇集合以及复杂概念关系上的移植和扩展。
作为另一种替代方法,对单个概念探测器的输出结果进行后期处理的方法由于允许对每个概念分别设计实施探测器而大大提高了方法的灵活性。例如基于标注集或预先构建的知识图谱(语义本体),将从中获得的概念相关性用于后期概念探测结果的处理,都能在不同程度上对索引结果进行提高。然而这种方法同样依赖于训练数据集(标注集)和外部知识(如本体)。当进行索引的概念没有构建在词汇本体中,或者标注集的数量或质量不足以准确学习概念的相关性的情况下(如样本不足或标注稀疏等),这一类方法很难适应这种问题。
综上所述,可视媒体语义索引的精度增强是利用概念相关性对索引结果进行进一步改善的关键技术。这种索引增强技术的作用是给出可视媒体进行概念探测的结果,对概念探测的结果应用概念的量化关系进行调整和改善,以达到对大量可视媒体有效索引的目的。随着图像、视频等可视媒体在互联网上体量的快速增长,这种索引的增强方法不可避免地需要满足如下要求:1)对语义概念索引的灵活性;2)对不同数量和质量的标注数据的适应性;3)对大规模样本数据的扩展性。在可视媒体语义索引增强的过程中,应该尽量保证上述三点,这样才能保证增强方法在视觉大数据上的灵活应用,否则在进行索引增强的过程中,很难利用好语义概念的相关性,从而影响预期的效果。因此,可视媒体语义索引的精度增强算法需要尽可能的保证以上三点要求。
发明内容
本发明的目的是提出一种用于可视媒体语义索引的精度增强方法,以应对当前单类概念探测器造成的概念探测精度低及不均衡的问题,既可应对普通的索引精度增强任务,也可处理由于外部知识或标注数据不足造成的概念相关性构建缺陷,并且可以用于为不同应用域中的语义索引结果进行精度增强。
本发明提出的用于可视媒体语义索引的精度增强方法,包括以下步骤:
(1)对初始可视媒体中包含的物体和场景进行语义索引,得到初始可视媒体语义索引的探测置信度值,根据探测置信度值,构建一个矩阵C,矩阵C中的行对应于可视媒体中的一个样本ci,1≤i≤N,矩阵C中的列对应一个物体或场景vj,1≤j≤M,矩阵C中的任意一个元素cij表示样本ci包含的物体或场景vj的探测置信度值,其中,N表示样本的个数,M表示物体或场景的个数;
(2)设定一个探测置信度阈值,将上述矩阵C中的探测置信度值与设定的探测置信度阈值进行比较,若矩阵C中的探测置信度值大于或等于探测置信度阈值,则保留该探测置信度值,若矩阵C中的探测置信度值小于探测置信度阈值,则将该探测置信度值置为0,并将该比较更新后的矩阵记为C”,矩阵C”的每个元素记为c”ij,1≤i≤N,1≤j≤M;
(3)利用加权非负矩阵分解方法,对上述比较更新后的矩阵C”进行全局精度增强,具体过程如下:
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj不具备本体相关性信息,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-1)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-2)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij赋以值[0,0.5];
(3-3)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
F = 1 2 Σ i j w i j ( c ′ ′ i j - L i · R · j ) 2 + λ 2 ( | | L | | F 2 + | | R | | F 2 )
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-4)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-5)将上述步骤(3-4)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
C ′ = α C + ( 1 - α ) C ~ = α C + ( 1 - α ) L R
其中,α的取值范围为(0,1);
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj具备本体相关性信息,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-6)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-7)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij根据物体或场景的本体相关性信息赋以自适应的权值:
wij∝1-[cij-maxvk∈Dcik]
其中,D为与物体或场景vj不能同时出现在一幅画面中的物体或场景的全集,cik为与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值,表示与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值中的最大值;
(3-8)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
F = 1 2 Σ i j w i j ( c ′ ′ i j - L i · R · j ) 2 + λ 2 ( | | L | | F 2 + | | R | | F 2 )
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-9)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-10)将上述步骤(3-9)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
C ′ = α C + ( 1 - α ) C ^ = α C + ( 1 - α ) L R
其中,α的取值范围为(0,1);
(4)利用相似度传播方法,对上述步骤(3)得到的矩阵C'进行局部精度增强,具体过程如下:
(4-1)采用皮尔森相关系数,计算可视媒体中不同样本ci和cj之间的相似度Pi,j
P i , j = Σ k = 1 M ( c i k ′ - c ‾ ′ i ) ( c j k ′ - c ‾ ′ j ) Σ k = 1 M ( c i k ′ - c ‾ ′ i ) 2 Σ k = 1 M ( c j k ′ - c ‾ ′ j ) 2
其中,ci和cj在矩阵C′中的值为第i行和第j行的行向量,行向量ci′=(c'ik)1≤k≤M,cj′=(c'jk)1≤k≤M分别为ci′和cj′对应各行的平均值;
采用高斯形式,对上述相似度Pi,j进行归一化处理,得到归一化后的相似度P'i,j
P i , j ′ = e - ( 1 - P i , j ) 2 2 δ 2
其中,δ为样本间距离的尺度参数,取值范围为(0,10];
(4-2)根据上述样本间归一化后的相似度P'i,j,选定可视媒体中的任意一个样本ci(1≤i≤N),从除ci以外的其他样本cj,1≤j≤N且j≠i中选择与样本ci最近邻的前K个样本,并构建一个ci与K个最近邻样本之间的相似度矩阵G:
G=(P'i,j)(K+1)×(K+1)
其中,矩阵G中的每个元素为相应两个样本间的相似度,矩阵G的前K行及前K列为样本ci的K个最近邻样本,矩阵G的最后第K+1行和最后第K+1列为样本ci
(4-3)对上述矩阵G进行列归一化处理,构建概率矩阵T,概率矩阵T中的每个元素为:
t i , j = P ′ i , j / Σ l = 1 K + 1 P ′ l , j
P'l,j表示矩阵G第j列所有元素按行的求和;
(4-4)将矩阵C′中第i个样本的K个最近邻样本在矩阵C′中的行号记为ni,1≤i≤K,为矩阵C′中的第ni个行向量,将所有K+1个行向量层叠在一起,构成一个矩阵Cn,Cn=(c'n1;c'n2;...;c'nK;ci′),通过下面的传播方法对矩阵Cn中的第K+1行的向量值c'i进行更新迭代:
C n t ← TC n t - 1
(4-5)进行多次更新迭代后,得到一个矩阵Cn,矩阵Cn中的第K+1行的向量值c'i即为对第i个样本通过相似度传播进行局部精度增强后的结果;
(4-6)遍历矩阵C′中所有样本ci,1≤i≤N,重复上述步骤(4-4)和步骤(4-5),实现对可视媒体语义索引的精度增强。
本发明提出的用于可视媒体语义索引的精度增强方法,其优点是:
1、本发明的用于可视媒体语义索引的精度增强方法中,充分使用概念的上下文关系如同时出现和重复出现规律等,对精度较低的概念探测结果进行修正,从而增强了视觉媒体语义索引的准确率。由于本方法不依赖于大量语义标注数据集和知识库,方法直接应用于概念探测的结果,具有很强的灵活性和适应性。
2、本发明的用于可视媒体语义索引的精度增强方法中,除了利用全局的概念关系进行精度增强,还充分利用样本间的相似度即局部特征进行精度提高。在进行局部增强的过程中,利用全局增强的结果,大大提高了计算样本间相似度的可靠性和最近邻样本的筛选精度,从而提高了局部增强的效果。本发明算法将两者结合起来,充分利用全局和局部相关性,从而极大提高了对语义索引精度增强的效果。
3、本发明的用于可视媒体语义索引的精度增强方法中,提出了一个基于概念本体相关性的加权分解算法,该方法通过利用已有的概念本体知识结构,对加权非负矩阵分解过程中的权值变量进行设置,在问题优化的过程中充分考虑概念的本体语义关系,很好解决了概念本体语义在使用过程中难以量化的问题。该方法与全局增强算法在加权非负矩阵分解过程中有机结合,提高了方法的灵活性和效果。
具体实施方式
本发明提出的用于可视媒体语义索引的精度增强方法,包括以下步骤:
(1)对初始可视媒体中包含的物体和场景进行语义索引,得到初始可视媒体语义索引的探测置信度值,根据探测置信度值,构建一个矩阵C,矩阵C中的行对应于可视媒体中的一个样本ci,1≤i≤N,如一幅图像或一个视频镜头,矩阵C中的列对应一个物体或场景vj,1≤j≤M,矩阵C中的任意一个元素cij表示样本ci包含的物体或场景vj的探测置信度值,其中,N表示样本的个数,M表示物体或场景的个数;
(2)设定一个探测置信度阈值,将上述矩阵C中的探测置信度值与设定的探测置信度阈值进行比较,若矩阵C中的探测置信度值大于或等于探测置信度阈值,则保留该探测置信度值,若矩阵C中的探测置信度值小于探测置信度阈值,则将该探测置信度值置为0,并将该比较更新后的矩阵记为C”,矩阵C”的每个元素记为c”ij,1≤i≤N,1≤j≤M;
(3)利用加权非负矩阵分解方法,对上述比较更新后的矩阵C”进行全局精度增强,具体过程如下:
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj不具备本体相关性信息,即二者没有本体关联关系或不包含在可用的本体结构中,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-1)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-2)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij赋以值[0,0.5];
(3-3)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
F = 1 2 Σ i j w i j ( c ′ ′ i j - L i · R · j ) 2 + λ 2 ( | | L | | F 2 + | | R | | F 2 )
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-4)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵求解上述费效函数F的方法可以是multiplicative方法,也可以是已有的其他方法,Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-5)将上述步骤(3-4)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
C ′ = α C + ( 1 - α ) C ^ = α C + ( 1 - α ) L R
其中,α的取值范围为(0,1);
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj具备本体相关性信息,即二者有本体关联关系且具备可用的本体结构,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-6)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-7)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij根据物体或场景的本体相关性信息赋以自适应的权值:
wij∝1-[cij-maxvk∈Dcik]
其中,D为与物体或场景vj不能同时出现在一幅画面中的物体或场景的全集,cik为与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值,表示与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值中的最大值;
(3-8)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
F = 1 2 Σ i j w i j ( c ′ ′ i j - L i · R · j ) 2 + λ 2 ( | | L | | F 2 + | | R | | F 2 )
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-9)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵求解上述费效函数F的方法可以是multiplicative方法,也可以是已有的其他方法,Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-10)将上述步骤(3-9)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
C ′ = α C + ( 1 - α ) C ^ = α C + ( 1 - α ) L R
其中,α的取值范围为(0,1);
(4)利用相似度传播方法,对上述步骤(3)得到的矩阵C'进行局部精度增强,具体过程如下:
(4-1)采用皮尔森相关系数(PearsonCorrelationCoefficient),计算可视媒体中不同样本ci和cj之间的相似度Pi,j
P i , j = Σ k = 1 M ( c i k ′ - c ‾ ′ i ) ( c j k ′ - c ‾ ′ j ) Σ k = 1 M ( c i k ′ - c ‾ ′ i ) 2 Σ k = 1 M ( c j k ′ - c ‾ ′ j ) 2
其中,ci和cj在矩阵C′中的值为第i行和第j行的行向量,行向量ci′=(c'ik)1≤k≤M,cj′=(c'jk)1≤k≤M分别为ci′和cj′对应各行的平均值;
采用高斯形式,对上述相似度Pi,j进行归一化处理,得到归一化后的相似度P'i,j
P i , j ′ = e - ( 1 - P i , j ) 2 2 δ 2
其中,δ为样本间距离的尺度参数,取值范围为(0,10];
(4-2)根据上述样本间归一化后的相似度P'i,j,选定可视媒体中的任意一个样本ci(1≤i≤N),从除ci以外的其他样本cj,1≤j≤N且j≠i中选择与样本ci最近邻的前K个样本,并构建一个ci与K个最近邻样本之间的相似度矩阵G:
G=(P'i,j)(K+1)×(K+1)
其中,矩阵G中的每个元素为相应两个样本间的相似度,矩阵G的前K行及前K列为样本ci的K个最近邻样本,矩阵G的最后第K+1行和最后第K+1列为样本ci
(4-3)对上述矩阵G进行列归一化处理,构建概率矩阵T,概率矩阵T中的每个元素为:
t i , j = P ′ i , j / Σ l = 1 K + 1 P ′ l , j
P'l,j表示矩阵G第j列所有元素按行的求和;
(4-4)将矩阵C′中第i个样本的K个最近邻样本在矩阵C′中的行号记为ni,1≤i≤K,为矩阵C′中的第ni个行向量,将所有K+1个行向量层叠在一起,构成一个矩阵Cn,Cn=(c'n1;c'n2;...;c'nK;ci′),通过下面的传播方法对矩阵Cn中的第K+1行的向量值ci′进行更新迭代:
C n t ← TC n t - 1
在每一次更新迭代过程中,使矩阵Cn的前K行的向量值保持不变,以避免在迭代过程中出现衰退;
(4-5)进行多次更新迭代后,得到一个矩阵Cn,矩阵Cn中的第K+1行的向量值ci′即为对第i个样本通过相似度传播进行局部精度增强后的结果;
(4-6)遍历矩阵C′中所有样本ci,1≤i≤N,重复上述步骤(4-4)和步骤(4-5),实现对可视媒体语义索引的精度增强。

Claims (1)

1.一种用于可视媒体语义索引的精度增强方法,其特征在于该方法包括以下步骤:
(1)对初始可视媒体中包含的物体和场景进行语义索引,得到初始可视媒体语义索引的探测置信度值,根据探测置信度值,构建一个矩阵C,矩阵C中的行对应于可视媒体中的一个样本ci,1≤i≤N,矩阵C中的列对应一个物体或场景vj,1≤j≤M,矩阵C中的任意一个元素cij表示样本ci包含的物体或场景vj的探测置信度值,其中,N表示样本的个数,M表示物体或场景的个数;
(2)设定一个探测置信度阈值,将上述矩阵C中的探测置信度值与设定的探测置信度阈值进行比较,若矩阵C中的探测置信度值大于或等于探测置信度阈值,则保留该探测置信度值,若矩阵C中的探测置信度值小于探测置信度阈值,则将该探测置信度值置为0,并将该比较更新后的矩阵记为C”,矩阵C”的每个元素记为c”ij,1≤i≤N,1≤j≤M;
(3)利用加权非负矩阵分解方法,对上述比较更新后的矩阵C”进行全局精度增强,具体过程如下:
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj不具备本体相关性信息,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-1)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-2)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij赋以值[0,0.5];
(3-3)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
F = 1 2 Σ i j w i j ( c ′ ′ i j - L i · R · j ) 2 + λ 2 ( | | L | | F 2 + | | R | | F 2 )
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-4)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵 Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-5)将上述步骤(3-4)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
C ′ = α C + ( 1 - α ) C ~ = α C + ( 1 - α ) L R
其中,α的取值范围为(0,1);
若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景vi和vj具备本体相关性信息,1≤i,j≤M,则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解,得到C',具体包括以下步骤:
(3-6)构建两个初始非负矩阵LN×d及Rd×M,其中d≤min(M,N);
(3-7)构建一个权重矩阵W,W=(wij)N×M,其中wij∈[0,1],1≤i≤N,1≤j≤M,根据上述置信度阈值,对权重矩阵W中的各元素wij进行赋值,若矩阵C中的置信度值高于或等于上述置信度阈值,则元素wij赋以值(0.5,1.0],若矩阵C中的置信度值低于上述置信度阈值,则元素wij根据物体或场景的本体相关性信息赋以自适应的权值:
w i j ∝ 1 - [ c i j - max v k ∈ D c i k ]
其中,D为与物体或场景vj不能同时出现在一幅画面中的物体或场景的全集,cik为与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值,表示与物体或场景vj不能同时出现在一幅画面中的物体或场景vk对应的探测置信度值中的最大值;
(3-8)根据上述两个非负矩阵LN×d和Rd×M以及权重矩阵W,构建一个费效函数F:
F = 1 2 Σ i j w i j ( c ′ ′ i j - L i · R · j ) 2 + λ 2 ( | | L | | F 2 + | | R | | F 2 )
其中L及R分别代表上述非负矩阵LN×d及Rd×M,且该费效函数满足约束L≥0及R≥0,
其中,表示Frobenius范数,参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合;
(3-9)求解上述费效函数F,得到优化后的非负矩阵LN×d及Rd×M,进而得到一个矩阵 Rd×M和LN×d的迭代优化过程为:
迭代收敛后的Rd×M和LN×d即为优化后的非负矩阵Rd×M和LN×d
(3-10)将上述步骤(3-9)的矩阵与上述步骤(1)的矩阵C进行加权平均,得到矩阵C':
C ′ = α C + ( 1 - α ) C ~ = α C + ( 1 - α ) L R
其中,α的取值范围为(0,1);
(4)利用相似度传播方法,对上述步骤(3)得到的矩阵C'进行局部精度增强,具体过程如下:
(4-1)采用皮尔森相关系数,计算可视媒体中不同样本ci和cj之间的相似度Pi,j
P i , j = Σ k = 1 M ( c i k ′ - c ‾ ′ i ) ( c j k ′ - c ‾ ′ j ) Σ k = 1 M ( c i k ′ - c ‾ ′ i ) 2 Σ k = 1 M ( c j k ′ - c ‾ ′ j ) 2
其中,ci和cj在矩阵C′中的值为第i行和第j行的行向量,行向量c'i=(c'ik)1≤k≤M,c'j=(c'jk)1≤k≤M分别为c'i和c'j对应各行的平均值;
采用高斯形式,对上述相似度Pi,j进行归一化处理,得到归一化后的相似度P'i,j
P i , j ′ = e - ( 1 - P i , j ) 2 2 δ 2
其中,δ为样本间距离的尺度参数,取值范围为(0,10];
(4-2)根据上述样本间归一化后的相似度P'i,j,选定可视媒体中的任意一个样本ci(1≤i≤N),从除ci以外的其他样本cj,1≤j≤N且j≠i中选择与样本ci最近邻的前K个样本,并构建一个ci与K个最近邻样本之间的相似度矩阵G:
G=(P'i,j)(K+1)×(K+1)
其中,矩阵G中的每个元素为相应两个样本间的相似度,矩阵G的前K行及前K列为样本ci的K个最近邻样本,矩阵G的最后第K+1行和最后第K+1列为样本ci
(4-3)对上述矩阵G进行列归一化处理,构建概率矩阵T,概率矩阵T中的每个元素为:
t i , j = P ′ i , j / Σ l = 1 K + 1 P ′ l , j
表示矩阵G第j列所有元素按行的求和;
(4-4)将矩阵C′中第i个样本的K个最近邻样本在矩阵C′中的行号记为ni,1≤i≤K,为矩阵C′中的第ni个行向量,将所有K+1个行向量层叠在一起,构成一个矩阵Cn,Cn=(c'n1;c'n2;...;c'nK;c'i),通过下面的传播方法对矩阵Cn中的第K+1行的向量值c'i进行更新迭代:
C n t ← TC n t - 1
(4-5)进行多次更新迭代后,得到一个矩阵Cn,矩阵Cn中的第K+1行的向量值c'i即为对第i个样本通过相似度传播进行局部精度增强后的结果;
(4-6)遍历矩阵C′中所有样本ci,1≤i≤N,重复上述步骤(4-4)和步骤(4-5),实现对可视媒体语义索引的精度增强。
CN201610108055.3A 2016-02-26 2016-02-26 一种用于可视媒体语义索引的精度增强方法 Active CN105787045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610108055.3A CN105787045B (zh) 2016-02-26 2016-02-26 一种用于可视媒体语义索引的精度增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610108055.3A CN105787045B (zh) 2016-02-26 2016-02-26 一种用于可视媒体语义索引的精度增强方法

Publications (2)

Publication Number Publication Date
CN105787045A true CN105787045A (zh) 2016-07-20
CN105787045B CN105787045B (zh) 2019-03-26

Family

ID=56402829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610108055.3A Active CN105787045B (zh) 2016-02-26 2016-02-26 一种用于可视媒体语义索引的精度增强方法

Country Status (1)

Country Link
CN (1) CN105787045B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220663A (zh) * 2017-05-17 2017-09-29 大连理工大学 一种基于语义场景分类的图像自动标注方法
CN108334611A (zh) * 2018-02-07 2018-07-27 清华大学 基于非负张量分解的时序可视媒体语义索引精度增强方法
CN109905289A (zh) * 2019-01-23 2019-06-18 中国人民解放军军事科学院***工程研究院 一种网络服务可信属性动态预测方法
CN109918616A (zh) * 2019-01-23 2019-06-21 中国人民解放军军事科学院***工程研究院 一种基于语义索引精度增强的可视媒体处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404817B1 (en) * 1997-11-20 2002-06-11 Lsi Logic Corporation MPEG video decoder having robust error detection and concealment
CN103593363A (zh) * 2012-08-15 2014-02-19 中国科学院声学研究所 视频内容索引结构的建立方法、视频检索方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404817B1 (en) * 1997-11-20 2002-06-11 Lsi Logic Corporation MPEG video decoder having robust error detection and concealment
CN103593363A (zh) * 2012-08-15 2014-02-19 中国科学院声学研究所 视频内容索引结构的建立方法、视频检索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PAUL BUITELAAR等: "CROSS-MEDIA SEMANTIC INDEXING IN THE SOCCER DOMAIN", 《IEEE》 *
李林: "基于概率图模型的图像整体场景理解方法研究", 《万方数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220663A (zh) * 2017-05-17 2017-09-29 大连理工大学 一种基于语义场景分类的图像自动标注方法
CN107220663B (zh) * 2017-05-17 2020-05-19 大连理工大学 一种基于语义场景分类的图像自动标注方法
CN108334611A (zh) * 2018-02-07 2018-07-27 清华大学 基于非负张量分解的时序可视媒体语义索引精度增强方法
CN109905289A (zh) * 2019-01-23 2019-06-18 中国人民解放军军事科学院***工程研究院 一种网络服务可信属性动态预测方法
CN109918616A (zh) * 2019-01-23 2019-06-21 中国人民解放军军事科学院***工程研究院 一种基于语义索引精度增强的可视媒体处理方法
CN109905289B (zh) * 2019-01-23 2019-12-06 中国人民解放军32801部队 一种网络服务可信属性动态预测方法
CN109918616B (zh) * 2019-01-23 2020-01-31 中国人民解放军32801部队 一种基于语义索引精度增强的可视媒体处理方法

Also Published As

Publication number Publication date
CN105787045B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN111488474B (zh) 基于增强注意力的细粒度手绘草图图像检索方法
CN103810299B (zh) 基于多特征融合的图像检索方法
CN113052211B9 (zh) 一种基于特征的秩和通道重要性的剪枝方法
CN107944559B (zh) 一种实体关系自动识别方法及***
CN107273490A (zh) 一种基于知识图谱的组合错题推荐方法
CN114092832B (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
CN107885853A (zh) 一种基于深度学习的组合式文本分类方法
CN103064903B (zh) 图片检索方法和装置
CN109492750B (zh) 基于卷积神经网络和因素空间的零样本图像分类方法
WO2019196210A1 (zh) 数据分析方法、计算机可读存储介质、终端设备及装置
CN110516095A (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和***
CN113344050B (zh) 一种基于深度学习的岩性智能化识别方法及***
CN105787045B (zh) 一种用于可视媒体语义索引的精度增强方法
CN106970981B (zh) 一种基于转移矩阵构建关系抽取模型的方法
CN108647691A (zh) 一种基于点击特征预测的图像分类方法
CN104881689A (zh) 一种多标签主动学习分类方法及***
CN105931271B (zh) 一种基于变分bp-hmm的人的行为轨迹识别方法
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN110751289B (zh) 一种基于Bagging_BP算法的在线学习行为分析方法
CN105701225A (zh) 一种基于统一关联超图规约的跨媒体检索方法
CN109783629A (zh) 一种融合全局事件关系信息的微博客事件谣言检测方法
CN105809119A (zh) 一种基于稀疏低秩结构多任务学习的行为识别方法
CN108052680B (zh) 基于数据图谱、信息图谱和知识图谱的图像数据目标识别增强方法
CN111008570B (zh) 一种基于压缩-激励伪三维网络的视频理解方法
CN105938524A (zh) 一种微生物关联网络预测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant