CN105787045A

CN105787045A - 一种用于可视媒体语义索引的精度增强方法

Info

Publication number: CN105787045A
Application number: CN201610108055.3A
Authority: CN
Inventors: 王鹏; 孙立峰; 杨士强
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-02-26
Filing date: 2016-02-26
Publication date: 2016-07-20
Anticipated expiration: 2036-02-26
Also published as: CN105787045B

Abstract

本发明涉及一种用于可视媒体语义索引的精度增强方法，属于视觉媒体处理技术领域。首先，对可视媒体中包含的物体和场景进行语义索引，构建置信度矩阵，通过阈值判断筛选出部分元素，应用加权非负矩阵分解的方法对筛选后的矩阵进行重新估计，完成全局精度增强。根据全局精度增强后的结果采用相似度传播的方法，利用样本间的相似度关系进行局部精度增强。本发明的优点是利用多种语义关系，增强了可视媒体语义索引的准确率。本方法不依赖于大量标注数据集和知识库，具有很强的灵活性和适应性。全局精度增强与局部精度增强有机结合，提高了方法的灵活性和效果。算法的计算复杂度低，可扩展性强，适合于实际工业应用。

Description

一种用于可视媒体语义索引的精度增强方法

技术领域

本发明涉及一种用于可视媒体语义索引的精度增强方法，属于视觉媒体处理技术领域。

背景技术

基于内容分析的方法对可视媒体进行语义索引已经超出了若干独立概念探测器的简单应用，而是通过结合多种概念信息及对概念探测结果进行后期处理的方法进行更加有效的语义检索。由于训练样本集本身的局限性，如人工标注的稀疏性、不准确性等特点，基于特定训练样本集的方法用于对可视媒体进行精度的提高往往面临着概念相关性难以准确获取(如概念同时出现的规律、本体关联等)的问题。

目前一类利用概念之间关系的可视媒体索引方法为多标签训练的方法。在这种方法中，对不同语义概念相关性的建模和概念分类是同时进行的，即将概念的关系结合在多概念的分类器中。由于所有的概念都是从一个集成的模型中学习得到，一个典型的缺点是缺乏灵活性。这就意味着一旦索引词汇集合发生变化，语义概念学习的整个过程需要重复实施。同时，在训练学习过程中对概念两两关系进行建模也会大大提高计算复杂度。这也很大程度上影响方法向大规模词汇集合以及复杂概念关系上的移植和扩展。

作为另一种替代方法，对单个概念探测器的输出结果进行后期处理的方法由于允许对每个概念分别设计实施探测器而大大提高了方法的灵活性。例如基于标注集或预先构建的知识图谱(语义本体)，将从中获得的概念相关性用于后期概念探测结果的处理，都能在不同程度上对索引结果进行提高。然而这种方法同样依赖于训练数据集(标注集)和外部知识(如本体)。当进行索引的概念没有构建在词汇本体中，或者标注集的数量或质量不足以准确学习概念的相关性的情况下(如样本不足或标注稀疏等)，这一类方法很难适应这种问题。

综上所述，可视媒体语义索引的精度增强是利用概念相关性对索引结果进行进一步改善的关键技术。这种索引增强技术的作用是给出可视媒体进行概念探测的结果，对概念探测的结果应用概念的量化关系进行调整和改善，以达到对大量可视媒体有效索引的目的。随着图像、视频等可视媒体在互联网上体量的快速增长，这种索引的增强方法不可避免地需要满足如下要求：1)对语义概念索引的灵活性；2)对不同数量和质量的标注数据的适应性；3)对大规模样本数据的扩展性。在可视媒体语义索引增强的过程中，应该尽量保证上述三点，这样才能保证增强方法在视觉大数据上的灵活应用，否则在进行索引增强的过程中，很难利用好语义概念的相关性，从而影响预期的效果。因此，可视媒体语义索引的精度增强算法需要尽可能的保证以上三点要求。

发明内容

本发明的目的是提出一种用于可视媒体语义索引的精度增强方法，以应对当前单类概念探测器造成的概念探测精度低及不均衡的问题，既可应对普通的索引精度增强任务，也可处理由于外部知识或标注数据不足造成的概念相关性构建缺陷，并且可以用于为不同应用域中的语义索引结果进行精度增强。

本发明提出的用于可视媒体语义索引的精度增强方法，包括以下步骤：

(1)对初始可视媒体中包含的物体和场景进行语义索引，得到初始可视媒体语义索引的探测置信度值，根据探测置信度值，构建一个矩阵C，矩阵C中的行对应于可视媒体中的一个样本c_i，1≤i≤N，矩阵C中的列对应一个物体或场景v_j，1≤j≤M，矩阵C中的任意一个元素c_ij表示样本c_i包含的物体或场景v_j的探测置信度值，其中，N表示样本的个数，M表示物体或场景的个数；

(2)设定一个探测置信度阈值，将上述矩阵C中的探测置信度值与设定的探测置信度阈值进行比较，若矩阵C中的探测置信度值大于或等于探测置信度阈值，则保留该探测置信度值，若矩阵C中的探测置信度值小于探测置信度阈值，则将该探测置信度值置为0，并将该比较更新后的矩阵记为C”，矩阵C”的每个元素记为c”_ij,1≤i≤N,1≤j≤M；

(3)利用加权非负矩阵分解方法，对上述比较更新后的矩阵C”进行全局精度增强，具体过程如下：

若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景v_i和v_j不具备本体相关性信息，1≤i,j≤M，则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解，得到C'，具体包括以下步骤：

(3-1)构建两个初始非负矩阵L_N×d及R_d×M，其中d≤min(M,N)；

(3-2)构建一个权重矩阵W，W＝(w_ij)_N×M，其中w_ij∈[0,1]，1≤i≤N,1≤j≤M，根据上述置信度阈值，对权重矩阵W中的各元素w_ij进行赋值，若矩阵C中的置信度值高于或等于上述置信度阈值，则元素w_ij赋以值(0.5,1.0]，若矩阵C中的置信度值低于上述置信度阈值，则元素w_ij赋以值[0,0.5]；

(3-3)根据上述两个非负矩阵L_N×d和R_d×M以及权重矩阵W，构建一个费效函数F：

F = \frac{1}{2} \underset{i j}{Σ} w_{i j} {({c^{''}}_{i j} - L_{i \cdot} R_{\cdot j})}^{2} + \frac{λ}{2} (| | L | |_{F}^{2} + | | R | |_{F}^{2})

其中L及R分别代表上述非负矩阵L_N×d及R_d×M，且该费效函数满足约束L≥0及R≥0，

其中，表示Frobenius范数，参数λ的取值范围为(0,10],二次正规化因子用于防止优化的过程中产生过拟合；

(3-4)求解上述费效函数F，得到优化后的非负矩阵L_N×d及R_d×M，进而得到一个矩阵R_d×M和L_N×d的迭代优化过程为：

迭代收敛后的R_d×M和L_N×d即为优化后的非负矩阵R_d×M和L_N×d；

(3-5)将上述步骤(3-4)的矩阵与上述步骤(1)的矩阵C进行加权平均，得到矩阵C'：

C^{'} = α C + (1 - α) \tilde{C} = α C + (1 - α) L R

其中，α的取值范围为(0,1)；

若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景v_i和v_j具备本体相关性信息，1≤i,j≤M，则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解，得到C'，具体包括以下步骤：

(3-6)构建两个初始非负矩阵L_N×d及R_d×M，其中d≤min(M,N)；

(3-7)构建一个权重矩阵W，W＝(w_ij)_N×M，其中w_ij∈[0,1]，1≤i≤N,1≤j≤M，根据上述置信度阈值，对权重矩阵W中的各元素w_ij进行赋值，若矩阵C中的置信度值高于或等于上述置信度阈值，则元素w_ij赋以值(0.5,1.0]，若矩阵C中的置信度值低于上述置信度阈值，则元素w_ij根据物体或场景的本体相关性信息赋以自适应的权值：

w_ij∝1-[c_ij-max_vk∈Dc_ik]

其中，D为与物体或场景v_j不能同时出现在一幅画面中的物体或场景的全集，c_ik为与物体或场景v_j不能同时出现在一幅画面中的物体或场景v_k对应的探测置信度值，表示与物体或场景v_j不能同时出现在一幅画面中的物体或场景v_k对应的探测置信度值中的最大值；

(3-8)根据上述两个非负矩阵L_N×d和R_d×M以及权重矩阵W，构建一个费效函数F：

F = \frac{1}{2} \underset{i j}{Σ} w_{i j} {({c^{''}}_{i j} - L_{i \cdot} R_{\cdot j})}^{2} + \frac{λ}{2} (| | L | |_{F}^{2} + | | R | |_{F}^{2})

(3-9)求解上述费效函数F，得到优化后的非负矩阵L_N×d及R_d×M，进而得到一个矩阵R_d×M和L_N×d的迭代优化过程为：

(3-10)将上述步骤(3-9)的矩阵与上述步骤(1)的矩阵C进行加权平均，得到矩阵C'：

C^{'} = α C + (1 - α) \hat{C} = α C + (1 - α) L R

其中，α的取值范围为(0,1)；

(4)利用相似度传播方法，对上述步骤(3)得到的矩阵C'进行局部精度增强，具体过程如下：

(4-1)采用皮尔森相关系数，计算可视媒体中不同样本c_i和c_j之间的相似度P_i,j：

P_{i, j} = \frac{Σ_{k = 1}^{M} (c_{i k}^{'} - {\overset{&OverBar;}{c}}^{'}_{i}) (c_{j k}^{'} - {\overset{&OverBar;}{c}}^{'}_{j})}{\sqrt{Σ_{k = 1}^{M} {(c_{i k}^{'} - {\overset{&OverBar;}{c}}^{'}_{i})}^{2}} \sqrt{Σ_{k = 1}^{M} {(c_{j k}^{'} - {\overset{&OverBar;}{c}}^{'}_{j})}^{2}}}

其中，c_i和c_j在矩阵C′中的值为第i行和第j行的行向量，行向量c_i′＝(c'_ik)_1≤k≤M，c_j′＝(c'_jk)_1≤k≤M，和分别为c_i′和c_j′对应各行的平均值；

采用高斯形式，对上述相似度P_i,j进行归一化处理，得到归一化后的相似度P'_i,j：

P_{i, j}^{'} = e^{- \frac{{(1 - P_{i, j})}^{2}}{2 δ^{2}}}

其中，δ为样本间距离的尺度参数，取值范围为(0,10]；

(4-2)根据上述样本间归一化后的相似度P'_i,j，选定可视媒体中的任意一个样本c_i(1≤i≤N)，从除c_i以外的其他样本c_j，1≤j≤N且j≠i中选择与样本c_i最近邻的前K个样本，并构建一个c_i与K个最近邻样本之间的相似度矩阵G：

G＝(P'_i,j)_(K+1)×(K+1)

其中，矩阵G中的每个元素为相应两个样本间的相似度，矩阵G的前K行及前K列为样本c_i的K个最近邻样本，矩阵G的最后第K+1行和最后第K+1列为样本c_i；

(4-3)对上述矩阵G进行列归一化处理，构建概率矩阵T，概率矩阵T中的每个元素为：

t_{i, j} = {P^{'}}_{i, j} / Σ_{l = 1}^{K + 1} {P^{'}}_{l, j}

P'_l,j表示矩阵G第j列所有元素按行的求和；

(4-4)将矩阵C′中第i个样本的K个最近邻样本在矩阵C′中的行号记为n_i，1≤i≤K，为矩阵C′中的第n_i个行向量，将所有K+1个行向量层叠在一起，构成一个矩阵C_n，C_n＝(c'_n1；c'_n2；...；c'_nK；c_i′)，通过下面的传播方法对矩阵C_n中的第K+1行的向量值c'_i进行更新迭代：

C_{n}^{t} &LeftArrow; {TC}_{n}^{t - 1}

(4-5)进行多次更新迭代后，得到一个矩阵C_n，矩阵C_n中的第K+1行的向量值c'_i即为对第i个样本通过相似度传播进行局部精度增强后的结果；

(4-6)遍历矩阵C′中所有样本c_i，1≤i≤N，重复上述步骤(4-4)和步骤(4-5)，实现对可视媒体语义索引的精度增强。

本发明提出的用于可视媒体语义索引的精度增强方法，其优点是：

1、本发明的用于可视媒体语义索引的精度增强方法中，充分使用概念的上下文关系如同时出现和重复出现规律等，对精度较低的概念探测结果进行修正，从而增强了视觉媒体语义索引的准确率。由于本方法不依赖于大量语义标注数据集和知识库，方法直接应用于概念探测的结果，具有很强的灵活性和适应性。

2、本发明的用于可视媒体语义索引的精度增强方法中，除了利用全局的概念关系进行精度增强，还充分利用样本间的相似度即局部特征进行精度提高。在进行局部增强的过程中，利用全局增强的结果，大大提高了计算样本间相似度的可靠性和最近邻样本的筛选精度，从而提高了局部增强的效果。本发明算法将两者结合起来，充分利用全局和局部相关性，从而极大提高了对语义索引精度增强的效果。

3、本发明的用于可视媒体语义索引的精度增强方法中，提出了一个基于概念本体相关性的加权分解算法，该方法通过利用已有的概念本体知识结构，对加权非负矩阵分解过程中的权值变量进行设置，在问题优化的过程中充分考虑概念的本体语义关系，很好解决了概念本体语义在使用过程中难以量化的问题。该方法与全局增强算法在加权非负矩阵分解过程中有机结合，提高了方法的灵活性和效果。

具体实施方式

(1)对初始可视媒体中包含的物体和场景进行语义索引，得到初始可视媒体语义索引的探测置信度值，根据探测置信度值，构建一个矩阵C，矩阵C中的行对应于可视媒体中的一个样本c_i，1≤i≤N，如一幅图像或一个视频镜头，矩阵C中的列对应一个物体或场景v_j，1≤j≤M，矩阵C中的任意一个元素c_ij表示样本c_i包含的物体或场景v_j的探测置信度值，其中，N表示样本的个数，M表示物体或场景的个数；

若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景v_i和v_j不具备本体相关性信息，即二者没有本体关联关系或不包含在可用的本体结构中，1≤i,j≤M，则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解，得到C'，具体包括以下步骤：

(3-1)构建两个初始非负矩阵L_N×d及R_d×M，其中d≤min(M,N)；

F = \frac{1}{2} \underset{i j}{Σ} w_{i j} {({c^{''}}_{i j} - L_{i \cdot} R_{\cdot j})}^{2} + \frac{λ}{2} (| | L | |_{F}^{2} + | | R | |_{F}^{2})

(3-4)求解上述费效函数F，得到优化后的非负矩阵L_N×d及R_d×M，进而得到一个矩阵求解上述费效函数F的方法可以是multiplicative方法，也可以是已有的其他方法，R_d×M和L_N×d的迭代优化过程为：

C^{'} = α C + (1 - α) \hat{C} = α C + (1 - α) L R

其中，α的取值范围为(0,1)；

若上述比较更新后的矩阵C”中的任意两个列代表的物体或场景v_i和v_j具备本体相关性信息，即二者有本体关联关系且具备可用的本体结构，1≤i,j≤M，则采用以下方法对上述比较更新后的矩阵C”进行加权非负矩阵分解，得到C'，具体包括以下步骤：

(3-6)构建两个初始非负矩阵L_N×d及R_d×M，其中d≤min(M,N)；

w_ij∝1-[c_ij-max_vk∈Dc_ik]

F = \frac{1}{2} \underset{i j}{Σ} w_{i j} {({c^{''}}_{i j} - L_{i \cdot} R_{\cdot j})}^{2} + \frac{λ}{2} (| | L | |_{F}^{2} + | | R | |_{F}^{2})

(3-9)求解上述费效函数F，得到优化后的非负矩阵L_N×d及R_d×M，进而得到一个矩阵求解上述费效函数F的方法可以是multiplicative方法，也可以是已有的其他方法，R_d×M和L_N×d的迭代优化过程为：

C^{'} = α C + (1 - α) \hat{C} = α C + (1 - α) L R

其中，α的取值范围为(0,1)；

(4-1)采用皮尔森相关系数(PearsonCorrelationCoefficient)，计算可视媒体中不同样本c_i和c_j之间的相似度P_i,j：

P_{i, j} = \frac{Σ_{k = 1}^{M} (c_{i k}^{'} - {\overset{&OverBar;}{c}}^{'}_{i}) (c_{j k}^{'} - {\overset{&OverBar;}{c}}^{'}_{j})}{\sqrt{Σ_{k = 1}^{M} {(c_{i k}^{'} - {\overset{&OverBar;}{c}}^{'}_{i})}^{2}} \sqrt{Σ_{k = 1}^{M} {(c_{j k}^{'} - {\overset{&OverBar;}{c}}^{'}_{j})}^{2}}}

P_{i, j}^{'} = e^{- \frac{{(1 - P_{i, j})}^{2}}{2 δ^{2}}}

其中，δ为样本间距离的尺度参数，取值范围为(0,10]；

G＝(P'_i,j)_(K+1)×(K+1)

t_{i, j} = {P^{'}}_{i, j} / Σ_{l = 1}^{K + 1} {P^{'}}_{l, j}

P'_l,j表示矩阵G第j列所有元素按行的求和；

(4-4)将矩阵C′中第i个样本的K个最近邻样本在矩阵C′中的行号记为n_i，1≤i≤K，为矩阵C′中的第n_i个行向量，将所有K+1个行向量层叠在一起，构成一个矩阵C_n，C_n＝(c'_n1；c'_n2；...；c'_nK；c_i′)，通过下面的传播方法对矩阵C_n中的第K+1行的向量值c_i′进行更新迭代：

C_{n}^{t} &LeftArrow; {TC}_{n}^{t - 1}

在每一次更新迭代过程中，使矩阵C_n的前K行的向量值保持不变，以避免在迭代过程中出现衰退；

(4-5)进行多次更新迭代后，得到一个矩阵C_n，矩阵C_n中的第K+1行的向量值c_i′即为对第i个样本通过相似度传播进行局部精度增强后的结果；

Claims

1.一种用于可视媒体语义索引的精度增强方法，其特征在于该方法包括以下步骤：

(3-1)构建两个初始非负矩阵L_N×d及R_d×M，其中d≤min(M,N)；

F = \frac{1}{2} \underset{i j}{Σ} w_{i j} {({c^{''}}_{i j} - L_{i \cdot} R_{\cdot j})}^{2} + \frac{λ}{2} (| | L | |_{F}^{2} + | | R | |_{F}^{2})

(3-4)求解上述费效函数F，得到优化后的非负矩阵L_N×d及R_d×M，进而得到一个矩阵 R_d×M和L_N×d的迭代优化过程为：

C^{'} = α C + (1 - α) \tilde{C} = α C + (1 - α) L R

其中，α的取值范围为(0,1)；

(3-6)构建两个初始非负矩阵L_N×d及R_d×M，其中d≤min(M,N)；

w_{i j} &Proportional; 1 - [c_{i j} - \max_{v_{k} &Element; D} c_{i k}]

F = \frac{1}{2} \underset{i j}{Σ} w_{i j} {({c^{''}}_{i j} - L_{i \cdot} R_{\cdot j})}^{2} + \frac{λ}{2} (| | L | |_{F}^{2} + | | R | |_{F}^{2})

(3-9)求解上述费效函数F，得到优化后的非负矩阵L_N×d及R_d×M，进而得到一个矩阵 R_d×M和L_N×d的迭代优化过程为：

C^{'} = α C + (1 - α) \tilde{C} = α C + (1 - α) L R

其中，α的取值范围为(0,1)；

P_{i, j} = \frac{Σ_{k = 1}^{M} (c_{i k}^{'} - {\overset{&OverBar;}{c}}^{'}_{i}) (c_{j k}^{'} - {\overset{&OverBar;}{c}}^{'}_{j})}{\sqrt{Σ_{k = 1}^{M} {(c_{i k}^{'} - {\overset{&OverBar;}{c}}^{'}_{i})}^{2}} \sqrt{Σ_{k = 1}^{M} {(c_{j k}^{'} - {\overset{&OverBar;}{c}}^{'}_{j})}^{2}}}

其中，c_i和c_j在矩阵C′中的值为第i行和第j行的行向量，行向量c'_i＝(c'_ik)_1≤k≤M，c'_j＝(c'_jk)_1≤k≤M，和分别为c'_i和c'_j对应各行的平均值；

P_{i, j}^{'} = e^{- \frac{{(1 - P_{i, j})}^{2}}{2 δ^{2}}}

其中，δ为样本间距离的尺度参数，取值范围为(0,10]；

G＝(P'_i,j)_(K+1)×(K+1)

t_{i, j} = {P^{'}}_{i, j} / Σ_{l = 1}^{K + 1} {P^{'}}_{l, j}

表示矩阵G第j列所有元素按行的求和；

(4-4)将矩阵C′中第i个样本的K个最近邻样本在矩阵C′中的行号记为n_i，1≤i≤K，为矩阵C′中的第n_i个行向量，将所有K+1个行向量层叠在一起，构成一个矩阵C_n，C_n＝(c'_n1；c'_n2；...；c'_nK；c'_i)，通过下面的传播方法对矩阵C_n中的第K+1行的向量值c'_i进行更新迭代：

C_{n}^{t} &LeftArrow; {TC}_{n}^{t - 1}