CN103473308B - 基于最大间隔张量学习的高维多媒体数据分类方法 - Google Patents

基于最大间隔张量学习的高维多媒体数据分类方法 Download PDF

Info

Publication number
CN103473308B
CN103473308B CN201310410604.9A CN201310410604A CN103473308B CN 103473308 B CN103473308 B CN 103473308B CN 201310410604 A CN201310410604 A CN 201310410604A CN 103473308 B CN103473308 B CN 103473308B
Authority
CN
China
Prior art keywords
multimedia data
tensor
alpha
data
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310410604.9A
Other languages
English (en)
Other versions
CN103473308A (zh
Inventor
张寅�
汤斯亮
谭谞
邵健
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310410604.9A priority Critical patent/CN103473308B/zh
Publication of CN103473308A publication Critical patent/CN103473308A/zh
Application granted granted Critical
Publication of CN103473308B publication Critical patent/CN103473308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于最大间隔张量学习的高维多媒体数据分类方法。它包括如下步骤:1)建立多媒体数据的训练数据集;2)对训练数据集建模,进行分析,得到分类模型;3)根据用户查询数据集及分类模型,对查询数据集分类。本发明针对多媒体的高维性和结构性,利用张量来表达多媒体数据,并通过最大间隔分类器的方法,对高维的多媒体数据进行分类。在对多媒体数据进行分解分析的同时完成分类,不仅保留了多媒体数据中的结构信息,而且避免了传统的通过拼合的方法产生的高维数据所引发的“维数灾难”,因此比传统的多媒体数据分类方法更加准确,并易于计算。

Description

基于最大间隔张量学习的高维多媒体数据分类方法
技术领域
本发明涉及多媒体分类,尤其涉及一种基于最大间隔张量学习的高维多媒体数据分类方法。
背景技术
随着计算机存储技术和网络技术的发展,信息不再仅仅是单一的文字或语言,而是以更加多样化的多媒体形式呈现,包括文本,图片,声音,视频,如图像数据库Picasa,视频数据库YouTube等。如何有效地获取、管理和利用这些多媒体数据成为计算机应用技术中越来越重要的研究问题。多媒体分类技术可以帮助用户有效地查询、管理这些海量的多媒体数据。一般来说,多媒体数据具有两个特点。第一,高维性,多媒体数据通常数据量巨大,特征维数高;第二,结构性:多媒体数据存在内部结构关系,如图像中物体的位置关系,视频中动作的先后关系。由于传统的分类方法往往将提取的特征进行简单的拼合,产生了非常高维的数据,从而在数据的分析中产生“维数灾难”。此外,传统的方法没有考虑多媒体数据中存在的内部结构信息,因此不能很好地处理和分析海量的高维多媒体数据,从而无法很好地适应用户需求。
针对多媒体数据的特点,张量可以用来表达和分析多媒体数据。张量,即多为数组,是对向量和矩阵的自然扩展。多媒体数据可以自然地表达成张量数据,如自然图像可以认为是由场景结构、光照及主体形象三方面因素共同作用的结果,因此,可以将自然图像表达成一个三阶张量;又如视频片断可以表达成“长×宽×时间”的三阶张量。在张量的表达中,多媒体数据中所包含的同一类型媒体数据特征被表达为张量的一阶。利用张量表达多媒体数据,一定程度避免了从不同类型媒体数据中所提取特征因为拼合而产生的维数灾难及过压缩问题,而且通过张量的表达可以自然地保留多媒体数据中的结构信息。通过对表达成张量的多媒体数据进行分解,可以得到多媒体数据分量的多维线性组合,很好地保留了多媒体数据内部的结构信息。
另一方面,在数据分类方面,近年来最大间隔的分类器,如支持向量机(supportvector machines),最大间隔马尔科夫网络(maximum margin Markov Networks)被广泛地应用于许多多媒体分类的问题中,并显示出了很好的分类效果。最大间隔的方法通常将数据映射到一个再生核希尔伯特空间(reproducing kernel Hilbert space)中,建立一个最优的分割超平面,将数据间的间隔最大化。最大间隔的分类器由于核的运用,具有很强的扩展性,因而近年来成为一个研究的热点。
本发明针对多媒体的高维性和结构性,利用张量来表达多媒体数据,并通过最大间隔分类器的方法,对高维的多媒体数据进行分类。在对多媒体数据进行分解分析的同时完成分类,不仅保留了多媒体数据中的结构信息,而且避免了传统的通过拼合的方法产生的高维数据所引发的“维数灾难”。
发明内容
本发明的目的在于对多媒体数据进行分类,使得相同主题图像标注为一类,以方便用户进行管理、检索多媒体数据,提出一种基于最大间隔张量学习的高维多媒体数据分类方法基于最大间隔张量学习的高维多媒体数据分类方法包括如下步骤:
(1)建立多媒体数据的训练数据集,提取不同种类的特征,并对多媒体数据进行标注;
(2)将训练数据集表达成张量,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数,并对目标函数进行分析,优化,得到分类模型;
(3)对用户查询数据集提取不同种类的特征,根据分类模型,对查询数据集标注分类。
所述的步骤(1)包括:
所述的建立多媒体数据的训练数据集,其步骤如下:
1)编写爬虫程序下载用户所需的多媒体数据,构成多媒体数据集合其中IN是集合DATA中的多媒体数据个数;
2)对DATA中的多媒体数据提取不同种类的特征,T1,...,TN-1,N-1为特征的种类数;
3)对DATA中的多媒体数据进行标注,正例为“1”,反例为“0”;
4)建立训练张量其中I1,...,IN-1模态对应为步骤2)中多媒体数据的特征T1,...,TN-1,IN模态对应为多媒体数据个数。
所述的步骤(2)包括:
1)根据训练张量X,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数:
min U 1 , . . . U N | | X - C × 1 U 1 × 2 . . . × N U N | | 2 + Ω ( X ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中Ω(X)表示训练数据的监督信息,Un(1≤n≤N)为张量分解后得到的矩阵,C为核张量,其n阶展开矩阵C(n)满足以下条件:
a)C(n)的元素全由“0”或“1”组成;
b)C(n)的所有行相互正交;
c)对于任意的n,C(n)为满秩;
2)根据张量展开,可以将公式(1)写作:
min U N | | X ( n ) - U N B ( n ) | | 2 + Ω ( X ( n ) ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中,B(n)=C×1U1×2...×n-1Un-1×n+1Un+1×n+2...×NUN,X(n)为训练张量X的n阶展开矩阵;
X ( n ) = [ x 1 , x 2 , . . . , x I n ] T , U ( n ) = [ u 1 , u 2 , . . . , u I n ] T 将公式(1)中每一个矩阵Ui转置并分成Ii个独立的优化问题:
min u i | | x i - B ( n ) T u i | | 2 + Ω ( x i ) - - - ( 2 )
s.t.ui>0,1≤i≤In
3)将公式(2)中有监督信息,即n=N时的分量引入最大间隔的分类器作为监督信息,得到如下的优化函数:
min u i ( N ) , α γ | | x i ( N ) - B ( N ) T u i ( N ) | | 2 + λα T Kα + Σ i = 1 I N L ( y i , K i T α ) - - - ( 3 )
U i ( N ) > 0,1 ≤ i ≤ I N
其中,γ为控制近似误差的权重参数,λ为控制分类误差的权重参数,yi为相应的标注标签,α为待优化的分类参数,L为损失函数L(y,t)=max(0,1-yt)2,K为核矩阵,其元素kij=k(ui,uj),k为核函数;
4)使用共轭梯度下降的方法,迭代地优化参数α与矩阵分量
在优化分类参数α的过程中首先计算α的梯度:
▿ α = 2 ( λKα + K I 0 ( Kα - Y ) )
其中I0为IN×IN的对角矩阵,其中前nv(支持向量的各数)个元素为1,其余为0。
然后计算α的Hessian矩阵:
Hα=2(λK+KI0K)
在优化矩阵分量的过程中,首先假定使用内积核:
k ( u i ( N ) , u j ( N ) ) = u i ( N ) T · u j ( N )
计算的梯度:
▿ u i ( N ) = - 2 γ B ( N ) x i ( N ) + 2 γ ( B ( N ) B ( N ) T ) u i ( N ) + 2 λ α i Σ j = 1 I s α j u j ( N ) + 2 ( Σ j = 1 n v l j α j u j ( N ) [ i ∈ n v ] + α i Σ j = 1 n v l j u j ( N ) )
然后计算的Hessian矩阵:
H u i ( N ) = 2 γ ( B ( N ) B ( N ) T ) + ( 2 λ α i 2 + 4 l i α i [ i ∈ n v ] ) I ns
其中,Ins是大小为Is的单位矩阵,[i∈nv]是一个指示函数,当且仅当i属于支持向量的集合时函数值为1,其余为0;
5)对于公式(2)中无监督信息的模态,即n≠N时,加入稀疏选择的约束,即I1范数:
min u i ( n ) | | x i ( n ) - B ( n ) T u i ( n ) | | 2 + η ( n ) | u i ( n ) | - - - ( 4 )
s . t . u i ( n ) ≥ 0 , n ≠ N
其中,η(n)是控制模态n中的稀疏度;
6)使用如下方法求解公式(4)
u ij ( n ) = t - η ( n ) b j b j T , t > η ( n ) 0 , t ≤ η ( n )
其中,中的元素,
B ( n ) = [ b 1 T , b 2 T , . . . , b R n T ] T
t = b j ( B ( n ) T u i ( n ) - b j T x i )
7)根据步骤4)与步骤6)求得的ui,拼合成U,反复迭代,直至收敛,得到分类模型的参数{U1,...,UN;α}。
所述的步骤(3)包括:
1)编写爬虫程序下载用户所需的待分类的多媒体数据,构成多媒体数据测试集合其中INt是集合TEST中的待分类的多媒体数据个数;
2)对TEST中的多媒体数据提取不同种类的特征,与训练时所提取的特征一致,Tt1,...,TtN-1,N-1为特征的种类数;
3)建立测试张量其中I1,...,IN-1模态对应为步骤2)中多媒体数据的特征T1,...,TN-1,IN模态对应为待分类的多媒体数据个数;
4)根据步骤3中得到的分类模型参数{U1,...,UN;α},以及公式(3),计算待分类的多媒体数据的yi
5)根据步骤4)中得到的yi,进行以0.5为阈值的二值化操作,获得待分类的多媒体数据的标签及分类结果。
本发明提出了一种新的针对多媒体数据分类的方法。针对多媒体的高维性和结构性,利用张量来表达多媒体数据,并通过最大间隔分类器的方法,对高维的多媒体数据进行分类。在对多媒体数据进行分解分析的同时完成分类,不仅保留了多媒体数据中的结构信息,而且避免了传统的通过拼合的方法产生的高维数据所引发的“维数灾难”,因此比传统的多媒体数据分类方法更加准确,并易于计算。
附图说明
图1是基于最大间隔张量学习的高维多媒体数据分类方法示意图。
具体实施方式
基于最大间隔张量学习的高维多媒体数据分类方法,包括如下步骤:
(1)建立多媒体数据的训练数据集,提取不同种类的特征,并对多媒体数据进行标注;
(2)将训练数据集表达成张量,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数,并对目标函数进行分析,优化,得到分类模型;
(3)对用户查询数据集提取不同种类的特征,根据分类模型,对查询数据集标注分类。
所述的步骤(1)包括:
1)编写爬虫程序下载用户所需的多媒体数据,构成多媒体数据集合其中IN是集合DATA中的多媒体数据个数;
2)对DATA中的多媒体数据提取不同种类的特征,T1,...,TN-1,N-1为特征的种类数;
3)对DATA中的多媒体数据进行标注,正例为“1”,反例为“0”;
4)建立训练张量其中I1,...,IN-1模态对应为步骤2)中多媒体数据的特征T1,...,TN-1,IN模态对应为多媒体数据个数。
所述的步骤(2)包括:
1)根据训练张量X,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数:
min U 1 , . . . U N | | X - C × 1 U 1 × 2 . . . × N U N | | 2 + Ω ( X ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中Ω(X)表示训练数据的监督信息,Un(1≤n≤N)为张量分解后得到的矩阵,C为核张量,其n阶展开矩阵C(n)满足以下条件:
a)C(n)的元素全由“0”或“1”组成;
b)C(n)的所有行相互正交;
c)对于任意的n,C(n)为满秩;
2)根据张量展开,可以将公式(1)写作:
min U N | | X ( n ) - U N B ( n ) | | 2 + Ω ( X ( n ) ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中,B(n)=C×1U1×2...×n-1UN-1×n+1Un+1×n+2...×NUN,X(n)为训练张量X的n阶展开矩阵;
X ( n ) = [ x 1 , x 2 , . . . , x I n ] T , U ( n ) = [ u 1 , u 2 , . . . , u I n ] T 将公式(1)中每一个矩阵Ui转置并分成Ii个独立的优化问题:
min u i | | x i - B ( n ) T u i | | 2 + Ω ( x i ) - - - ( 2 )
s.t.ui>0,1≤i≤In
3)将公式(2)中有监督信息,即n=N时的分量引入最大间隔的分类器作为监督信息,得到如下的优化函数:
min u i ( N ) , α γ | | x i ( N ) - B ( N ) T u i ( N ) | | 2 + λα T K α + Σ i = 1 I N L ( y i , K i T α ) - - - ( 3 )
s . t . U i ( N ) > 0,1 ≤ i ≤ I N
其中,γ为控制近似误差的权重参数,λ为控制分类误差的权重参数,yi为相应的标注标签,α为待优化的分类参数,L为损失函数L(yt)=max(0,1-yt)2,K为核矩阵,其元素kij=k(ui,uj),k为核函数;
4)使用共轭梯度下降的方法,迭代地优化参数α与矩阵分量
在优化分类参数α的过程中首先计算α的梯度:
▿ α = 2 ( λKα + KI 0 ( Kα - Y ) )
其中I0为IN×IN的对角矩阵,其中前nv(支持向量的各数)个元素为1,其余为0;
然后计算α的Hessian矩阵:
Hα=2(λK+KI0K)
在优化矩阵分量的过程中,首先假定使用内积核:
k ( u i ( N ) , u j ( N ) ) = u i ( N ) T · u j ( N )
计算的梯度:
▿ u i ( N ) = - 2 γ B ( N ) x i ( N ) + 2 γ ( B ( N ) B ( N ) T ) u i ( N ) + 2 λ α i Σ i = 1 I s α j u j ( N ) + 2 ( Σ j = 1 n v l j α j u j ( N ) [ i ∈ n v ] + α i Σ j = 1 n v l j u j ( N ) )
然后计算的Hessian矩阵:
H u i ( N ) = 2 γ ( B ( N ) B ( N ) T ) + ( 2 λα i 2 + 4 l i α i [ i ∈ n v ] ) I ns
其中,Ins是大小为Is的单位矩阵,[i∈nv]是一个指示函数,当且仅当i属于支持向量的集合时函数值为1,其余为0;
5)对于公式(2)中无监督信息的模态,即n≠N时,加入稀疏选择的约束,即I1范数:
min u i ( n ) | | x i ( n ) - B ( n ) T u i ( n ) | | 2 + η ( n ) | u i ( n ) | - - - ( 4 )
s . t . u i ( n ) ≥ 0 , n ≠ N
其中,η(n)是控制模态n中的稀疏度;
6)使用如下方法求解公式(4)
u ij ( n ) = t - η ( n ) b j b j T , t > η ( n ) 0 , t ≤ η ( n )
其中,中的元素,
B ( n ) = [ b 1 T , b 2 T , . . . , b R n T ] T
t = b j ( B ( n ) T u i ( n ) - b j T x i )
7)根据步骤4)与步骤6)求得的ui,拼合成U,反复迭代,直至收敛,得到分类模型的参数{U1,...,UN;α}。
所述的步骤(3)包括:
1)编写爬虫程序下载用户所需的待分类的多媒体数据,构成多媒体数据测试集合其中INt是集合TEST中的待分类的多媒体数据个数;
2)对TEST中的多媒体数据提取不同种类的特征,与训练时所提取的特征一致,Tt1,...,TtN-1,N-1为特征的种类数;
3)建立测试张量其中I1,...,IN-1模态对应为步骤2)中多媒体数据的特征T1,...,TN-1,IN模态对应为待分类的多媒体数据个数;
4)根据权利要求步骤3中得到的分类模型参数{U1,...,UN;α},以及公式(3),计算待分类的多媒体数据的yi
5)根据步骤4)中得到的yi,进行以0.5为阈值的二值化操作,获得待分类的多媒体数据的标签及分类结果。
实施例:
假设动作数据的分类问题,动作数据具有重要的结构信息。编写爬虫程序下载有关数据集中的动作数据50000个做训练,假设拥有49个类,提取其x,y,z三个方向的坐标作为其三种特征,构成的训练张量X∈R3×49×50000
对训练数据集建模,进行分析,得到分类模型,其步骤如下:
1)根据训练张量X,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数:
min U 1 , . . . U N | | X - C × 1 U 1 × 2 . . . × N U N | | 2 + Ω ( X ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中Ω(X)表示训练数据的监督信息,Un(1≤n≤N)为张量分解后得到的矩阵,C为核张量,其n阶展开矩阵C(n)满足以下条件:
a)C(n)的元素全由“0”或“1”组成;
b)C(n)的所有行相互正交;
c)对于任意的n,C(n)为满秩;
2)根据张量展开,可以将公式(1)写作:
min U N | | X ( n ) - U N B ( n ) | | 2 + Ω ( X ( n ) ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中,B(n)=C×1U1×2...×n-1Un-1×n+1Un+1×n+2...×NUN,X(n)为训练张量X的n阶展开矩阵;
X ( n ) = [ x 1 , x 2 , . . . , x I n ] T , U ( n ) = [ u 1 , u 2 , . . . , u I n ] T 将公式(1)中每一个矩阵Ui转置并分成Ii个独立的优化问题:
min u i | | x i - B ( n ) T u i | | 2 + Ω ( x i ) - - - ( 2 )
s.t.ui>0,1≤i≤In
3)将公式(2)中有监督信息,即n=N时的分量引入最大间隔的分类器作为监督信息,得到如下的优化函数:
min u i ( N ) , α γ | | x i ( N ) - B ( N ) T u i ( N ) | | 2 + λα T Kα + Σ i = 1 I N L ( y i , K i T α ) - - - ( 3 )
s . t . U i ( N ) > 0,1 ≤ i ≤ I N
其中,γ为控制近似误差的权重参数,λ为控制分类误差的权重参数,yi为相应的标注标签,α为待优化的分类参数,L为损失函数L(y,t)=max(0,1-yt)2,K为核矩阵,其元素kij=k(ui,uj),k为核函数。
4)使用共轭梯度下降的方法,迭代地优化参数α与矩阵分量
在优化分类参数α的过程中首先计算α的梯度:
▿ α = 2 ( λKα + KI 0 ( Kα - Y ) )
其中I0为IN×IN的对角矩阵,其中前nv(支持向量的各数)个元素为1,其余为0。
然后计算α的Hessian矩阵:
Hα=2(λK+KI0K)
在优化矩阵分量的过程中,首先假定使用内积核:
k ( u i ( N ) , u j ( N ) ) = u i ( N ) T · u j ( N )
计算的梯度:
▿ u i ( N ) = - 2 γ B ( N ) x i ( N ) + 2 γ ( B ( N ) B ( N ) T ) u i ( N ) + 2 λ α i Σ j = 1 I s α j u j ( N ) + 2 ( Σ j = 1 n v l j α j u j ( N ) [ i ∈ n v ] + α i Σ j = 1 n v l j u j ( N ) )
然后计算的Hessian矩阵:
H u i ( N ) = 2 γ ( B ( N ) B ( N ) T ) + ( 2 λ α i 2 + 4 l i α i [ i ∈ n v ] ) I ns
其中,Ins是大小为Is的单位矩阵,[i∈nv]是一个指示函数,当且仅当i属于支持向量的集合时函数值为1,其余为0。
5)对于公式(2)中无监督信息的模态,即n≠N时,加入稀疏选择的约束,即l1范数:
min u i ( n ) | | x i ( n ) - B ( n ) T u i ( n ) | | 2 + η ( n ) | u i ( n ) | - - - ( 4 ) s . t . u i ( n ) ≥ 0 , n ≠ N
其中,η(n)是控制模态n中的稀疏度。
6)使用如下方法求解公式(4)
u ij ( n ) = t + η ( n ) b j b j T , t > η ( n ) 0 , t ≤ η ( n )
其中,中的元素,
B ( n ) = [ b 1 T , b 2 T , . . . , b R n T ] T
t = b j ( B ( n ) T u i ( n ) - b j T x i )
7)根据步骤4)与步骤6)求得的ui,拼合成U,反复迭代,直至收敛。得到分类模型的参数{U1,...,UN;α}。
根据用户查询数据集及分类模型,对查询数据集分类,其步骤如下:
1)编写爬虫程序下载有关数据集中的动作数据剩余的19363个做训练,提取其x,y,z三个方向的坐标作为其三种特征,构成的测试张量Xt∈R3×49×19363
2)根据之前得到的分类模型参数{U1,...,UN;α},以及公式(3),计算待分类的多媒体数据的yi
3)根据步骤2)中得到的yi,进行以0.5为阈值的二值化操作,获得待分类的多媒体数据的标签及分类结果;
4)结果经过Accuracy,MacroF1,MicroF1,MacroAUC,MicroAUC五个分类评价标准的结果如下:
Accuracy MacroF1 MicroF1 MacroAUC MicroAUC
0.8879 0.7616 0.7857 0.7212 0.7407

Claims (1)

1.一种基于最大间隔张量学习的高维多媒体数据分类方法,其特征在于包括如下步骤:
(1)建立多媒体数据的训练数据集,提取不同种类的特征,并对多媒体数据进行标注;
(2)将训练数据集表达成张量,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数,并对目标函数进行分析,优化,得到分类模型;
(3)对用户查询数据集提取不同种类的特征,根据分类模型,对查询数据集标注分类;
所述的步骤(1)具体包括:
1.1)编写爬虫程序下载用户所需的多媒体数据,构成多媒体数据集合其中IN是集合DATA中的多媒体数据个数;
1.2)对DATA中的多媒体数据提取不同种类的特征,T1,…,TN-1,N-1为特征的种类数;
1.3)对DATA中的多媒体数据进行标注,正例为“1”,反例为“0”;
1.4)建立训练张量其中I1,…,IN-1模态对应为步骤1.2)中多媒体数据的特征T1,…,TN-1,IN模态对应为多媒体数据个数;
所述的步骤(2)包括:
2.1)根据训练张量X,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数:
min U 1 , ... U N | | X - C × 1 U 1 × 2 ... × N U N | | 2 + Ω ( X ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中Ω(X)表示训练数据的监督信息,Un(1≤n≤N)为张量分解后得到的矩阵,C为核张量,其n阶展开矩阵C(n)满足以下条件:
a)C(n)的元素全由“0”或“1”组成;
b)C(n)的所有行相互正交;
c)对于任意的n,C(n)为满秩;
2.2)根据张量展开,可以将公式(1)写作:
min U N | | X ( n ) - U N B ( n ) | | 2 + Ω ( X ( n ) ) - - - ( 1.1 )
s.t.Un>0,1≤n≤N
其中,B(n)=C×1U1×2…×n-1Un-1×n+1Un+1×n+2…×N UN,X(n)为训练张量X的n阶展开矩阵;
将公式(1.1)中每一个矩阵Ui转置并分成Ii个独立的优化问题:
min u i | | x i - B ( n ) T u i | | 2 + Ω ( x i ) - - - ( 2 )
s.t.ui>0,1≤i≤In
2.3)将公式(2)中有监督信息,即n=N时的分量引入最大间隔的分类器作为监督信息,得到如下的优化函数:
min u 1 ( N ) , α γ | | x i ( N ) - B ( N ) T u i ( N ) | | 2 + λα T K α + Σ i = 1 I N L ( y i , K i T α ) - - - ( 3 )
s . t . U i ( N ) > 0 , 1 ≤ i ≤ I N
其中,γ为控制近似误差的权重参数,λ为控制分类误差的权重参数,yi为相应的标注标签,α为待优化的分类参数,L为损失函数L(y,t)=max(0,1-yt)2,K为核矩阵,其元素kij=k(ui,uj),k为核函数;
2.4)使用共轭梯度下降的方法,迭代地优化参数α与矩阵分量在优化分类参数α的过程中首先计算α的梯度:
▿ α = 2 ( λ K α + KI 0 ( K α - Y ) )
其中I0为IN×IN的对角矩阵,其中前nv个元素为1,其余为0;nv为支持向量的个数;
然后计算α的Hessian矩阵:
Hα=2(λK+KI0K)
在优化矩阵分量的过程中,首先假定使用内积核:
k ( u i ( N ) , u j ( N ) ) = u i ( N ) T · u j ( N )
计算的梯度:
▿ u i ( N ) = - 2 γB ( N ) x i ( N ) + 2 γ ( B ( N ) B ( N ) T ) u i ( N ) + 2 λα i Σ j = 1 I s α j u j ( N ) + 2 ( Σ j = 1 n v l j α j u j ( N ) [ i ∈ n v ] + α i Σ j = 1 n v l j u j ( N ) )
然后计算的Hessian矩阵:
H u i ( N ) = 2 γ ( B ( N ) B ( N ) T ) + ( 2 λα i 2 + 4 l i α i [ i ∈ n v ] ) I n s
其中,Ins是大小为Is的单位矩阵,[i∈nv]是一个指示函数,当且仅当i属于支持向量的集合时函数值为1,其余为0;
2.5)对于公式(2)中无监督信息的模态,即n≠N时,加入稀疏选择的约束,即l1范数:
min u i ( n ) | | x i ( n ) - B ( n ) T u i ( n ) | | 2 + η ( n ) | u i ( n ) | - - - ( 4 )
s . t . u i ( n ) ≥ 0 , n ≠ N
其中,η(n)是控制模态n中的稀疏度;
2.6)使用如下方法求解公式(4)
u i j ( n ) = t - η ( n ) b j b j T , t > η ( n ) 0 , t ≤ η ( n )
其中,中的元素,
B ( n ) = [ b 1 T , b 2 T , ... , b R n T ] T
t = b j ( B ( n ) T u i ( n ) - b j T x i )
2.7)根据步骤2.4)与步骤2.6)求得的ui,拼合成U,反复迭代,直至收敛;得到分类模型的参数{U1,…,UN;α};
所述的步骤(3)包括:
3.1)编写爬虫程序下载用户所需的待分类的多媒体数据,构成多媒体数据测试集合其中INt是集合TEST中的待分类的多媒体数据个数;
3.2)对TEST中的多媒体数据提取不同种类的特征,与训练时所提取的特征一致,Tt1,…,TtN-1,N-1为特征的种类数;
3.3)建立测试张量其中I1,…,IN-1模态对应为步骤1.2)中多媒体数据的特征T1,…,TN-1,IN模态对应为待分类的多媒体数据个数;
3.4)根据得到的分类模型参数{U1,…,UN;α},以及公式(3),计算待分类的多媒体数据的yi
3.5)根据步骤3.4)中得到的yi,进行以0.5为阈值的二值化操作,获得待分类的多媒体数据的标签及分类结果。
CN201310410604.9A 2013-09-10 2013-09-10 基于最大间隔张量学习的高维多媒体数据分类方法 Active CN103473308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310410604.9A CN103473308B (zh) 2013-09-10 2013-09-10 基于最大间隔张量学习的高维多媒体数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310410604.9A CN103473308B (zh) 2013-09-10 2013-09-10 基于最大间隔张量学习的高维多媒体数据分类方法

Publications (2)

Publication Number Publication Date
CN103473308A CN103473308A (zh) 2013-12-25
CN103473308B true CN103473308B (zh) 2017-02-01

Family

ID=49798156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310410604.9A Active CN103473308B (zh) 2013-09-10 2013-09-10 基于最大间隔张量学习的高维多媒体数据分类方法

Country Status (1)

Country Link
CN (1) CN103473308B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184316B (zh) * 2015-08-28 2019-05-14 国网智能电网研究院 一种基于特征权学习的支持向量机电网业务分类方法
CN105160699B (zh) * 2015-09-06 2018-07-10 电子科技大学 一种基于张量近似的海量数据多分辨率体绘制方法
CN105760427B (zh) * 2016-01-28 2019-04-30 中国科学院遥感与数字地球研究所 一种高维数据模式分类方法、装置及***
WO2017160413A1 (en) * 2016-03-13 2017-09-21 Cortica, Ltd. System and method for clustering multimedia content elements
CN107480879A (zh) * 2017-08-09 2017-12-15 郑州星睿水利科技有限公司 水文职工业务知识考评方法及***
CN107566383B (zh) * 2017-09-12 2019-10-18 南京师范大学 一种有限网络带宽约束下的高维时空场数据实时传输方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299241A (zh) * 2008-01-14 2008-11-05 浙江大学 基于张量表示的多模态视频语义概念检测方法
CN102143001A (zh) * 2011-04-02 2011-08-03 西南科技大学 一种基于语义理解的音频资源管理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7899253B2 (en) * 2006-09-08 2011-03-01 Mitsubishi Electric Research Laboratories, Inc. Detecting moving objects in video by classifying on riemannian manifolds

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299241A (zh) * 2008-01-14 2008-11-05 浙江大学 基于张量表示的多模态视频语义概念检测方法
CN102143001A (zh) * 2011-04-02 2011-08-03 西南科技大学 一种基于语义理解的音频资源管理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于张量的图像识别方法的研究;孙明芳;《中国优秀硕士学位论文全文数据库》;20121015(第2012年10期);全文 *
基于张量表示的直推式多模态视频语义概念检测;吴飞,刘亚楠,庄越挺;《软件学报》;20081115(第2008年11期);全文 *
多模态特征融合和变量选择的视频语义理解;刘亚楠;《中国博士学位论文全文数据库》;20101215(第2010年12期);全文 *

Also Published As

Publication number Publication date
CN103473308A (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
Yu et al. Hierarchical deep click feature prediction for fine-grained image recognition
CN103473308B (zh) 基于最大间隔张量学习的高维多媒体数据分类方法
CN105975573B (zh) 一种基于knn的文本分类方法
CN104966104B (zh) 一种基于三维卷积神经网络的视频分类方法
US11157550B2 (en) Image search based on feature values
CN101299241B (zh) 基于张量表示的多模态视频语义概念检测方法
Zhang et al. Detecting densely distributed graph patterns for fine-grained image categorization
WO2017210949A1 (zh) 一种跨媒体检索方法
US8977579B2 (en) Latent factor dependency structure determination
CN113661487A (zh) 使用机器训练词条频率加权因子的产生密集嵌入向量的编码器
CN103440512A (zh) 一种基于张量局部保持投影的大脑认知状态的识别方法
CN103295032B (zh) 基于空间Fisher向量的图像分类方法
CN102915448B (zh) 一种基于AdaBoost的三维模型自动分类方法
US8204889B2 (en) System, method, and computer-readable medium for seeking representative images in image set
Zhang et al. Audio visual attribute discovery for fine-grained object recognition
CN108830301A (zh) 基于锚图结构的双拉普拉斯正则化的半监督数据分类方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
Xu et al. Large-margin multi-view Gaussian process for image classification
CN106250918A (zh) 一种基于改进的推土距离的混合高斯模型匹配方法
Wang et al. Learning fine-grained segmentation of 3d shapes without part labels
CN103942214A (zh) 基于多模态矩阵填充的自然图像分类方法及装置
Chang et al. Fine-grained butterfly and moth classification using deep convolutional neural networks
CN103279581A (zh) 一种利用紧凑视频主题描述子进行视频检索的方法
Kuang et al. Multi-label Image Classification with Multi-scale Global-Local Semantic Graph Network
Mithun et al. Construction of diverse image datasets from web collections with limited labeling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant