CN103177114B - 基于鉴别流形的跨数据域的转移学习分类方法 - Google Patents

基于鉴别流形的跨数据域的转移学习分类方法 Download PDF

Info

Publication number
CN103177114B
CN103177114B CN201310113911.0A CN201310113911A CN103177114B CN 103177114 B CN103177114 B CN 103177114B CN 201310113911 A CN201310113911 A CN 201310113911A CN 103177114 B CN103177114 B CN 103177114B
Authority
CN
China
Prior art keywords
data
field
centerdot
sigma
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310113911.0A
Other languages
English (en)
Other versions
CN103177114A (zh
Inventor
方正
张仲非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310113911.0A priority Critical patent/CN103177114B/zh
Publication of CN103177114A publication Critical patent/CN103177114A/zh
Application granted granted Critical
Publication of CN103177114B publication Critical patent/CN103177114B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于鉴别流形的跨数据域的转移学习分类方法,包括以下步骤:输入各个数据域的数据和用于训练的标签数据,对数据建立用于谱图几何调节的邻接图;对输入的数据、标签信息和建立的邻接图,将优化目标结合,建立统一的数学模型;根据建立的数学模型,推导变量的更新公式,以交替迭代的方式更新各个数据域的各个维度的隐藏因子,域间共享的关系结构,以及回归系数,直到收敛为止;利用得到的参数,对目标域的数据进行类属标签预测,得到对目标域数据预测的类属标签。本发明用于学习得到一种鉴别的数据流形空间,新的表达因子具有有利于分类的高度鉴别结构,也保持了数据原有的聚类流形结构。

Description

基于鉴别流形的跨数据域的转移学习分类方法
技术领域
本发明属于数据处理技术领域,特别地涉及一种基于鉴别流形的跨数据域的转移学习分类方法。
背景技术
在以海量大数据为代表的信息时代,各种数据以几何级数爆发增长,数据潜在价值的挖掘已成为人们关注和研究的热点。不管是互联网,还是移动通信、金融领域,日常生活都不断地产生大量的数据,其中分类技术是一种挖掘数据潜在有用知识的非常有效地方法。例如,互联网用户每天都需要收发大量的电子邮件,如何帮助用户分门别类地将邮件整理分类,自动地识别垃圾邮件就需要准确有效的分类技术来智能地帮助用户。又如,在网路路由器节点上,如何有效地对数据流进行分类检测,及时发现异常现象和木马病毒数据,对维护网络的安全和稳定性有着极大的作用。而在金融领域的对用户交易行为的监测和分类,有助于识别恶意的欺诈交易行为,从而能够避免其将带来的重大经济损失。
另一方面,在实际的数据挖掘分类问题中,往往需要可靠的标签数据作为训练样本。而要得到这样的训练数据,需要大量的人力、物力和时间。这样经常导致研究的对象领域只有少量有限的被人工分类的标签数据可用以训练模型。但如果同时在相关的类似数据域中有一定量的已分类的可靠数据,通过有效地利用不同数据域的关系进行知识的迁移,就可以在训练数据匮乏的情况下,也能够对目标域的数据也进行建模和准确分类。不仅如此,以互联网为例,尽管在某一时刻,的研究数据中有充分的标签数据,但随着时间的发展,未来时刻的数据将发生演化,通过之前数据训练的已有模型未必能适应之后的未来数据对象,需要重新调整或者训练,这就又将带来繁重的人力和时间投入。如何借鉴和利用先前时刻训练数据中的信息和知识,降低重新训练所带来的投入要求,对于研究不同时间的数据域的分类问题有着至关重要的意义。现有的许多先进技术中最为代表性的转移学习技术,就是致力于解决如何利用其他数据域的标签和有用信息,来辅助目标对象数据域的聚类、分类等知识挖掘问题。
在现有的转移学习文本挖掘算法中,很多研究人员提出了挖掘潜在数据表达因子,利用数据维度的隐藏因子和特征维度的隐藏因子之间的关系结构作为多个域之间共享的物理量。通过这种共享隐藏因子关系结构建立起来的多数据域间关系,在一定程度上达到了迁移数据域间知识的作用,可以在目标域只有少量训练样本的情况下,利用辅助域的标签数据进行训练和分类。然而在转移学习技术的大部分隐藏因子挖掘算法中,得到的隐藏因子缺乏有利于准确分类的鉴别特性。由于多数隐藏因子是通过矩阵分解联合聚类的框架模型得到的,在保持数据内在的聚类结构的同时,忽略了数据鉴别结构的挖掘,从而失去了进一步提高对于所属类别准确预测的能力。而且尽管在转移学习的过程中,利用和共享了目标域和辅助域的各个维度隐藏因子的潜在联系,最终学习到的隐藏因子之间还是存在不同域之间的分布差距。尤其是当目标数据域和辅助数据域的分类判决函数相同的情况下,尽管能对辅助域的数据进行准确的分类,但由于数据分布的域间偏移,分类器在目标域里还是不能达到理想的分类效果。
鉴于现有的基于隐藏因子挖掘的转移学习分类方法中存在的缺点和不足,本发明提出的转移学习分类技术能够在保持数据良好聚类结构的同时,挖掘数据中利于分类的鉴别结构,而且通过不同数据域的最大均值差异(MaximumMeanDiscrepancy,MMD)距离的调节,最终得到的隐藏因子的域间偏差能够极大地减小。从而,有效地解决了跨数据域之间的转移学习分类的问题。相比于现有的基于隐藏因子挖掘的转移学习分类技术,提出的分类器在准确率和稳定性上有了很大的提高。
发明内容
为解决上述问题,本发明的目的在于提供一种基于鉴别流形的跨数据域的转移学习分类方法,用于在跨数据域转移学习分类的同时,通过一定约束条件下的联合矩阵分解和回归鉴别模型的统一结合,学习得到一种鉴别的数据流形空间,在这一流形空间里的数据新的表达因子具有有利于分类的高度鉴别结构,同时也保持了数据原有的聚类流形结构。通过域间数据分布距离MMD(MaximumMeanDiscrepancy,最大均值差异)的最小化,不同数据域间学习得到的隐藏因子的域间差异得到极大地减小,从而进一步提高了跨数据域的转移学习分类器的准确性和稳定性。
为实现上述目的,本发明的技术方案为:
一种基于鉴别流形的跨数据域的转移学习分类方法,包括以下步骤:
S1O,输入各个数据域的数据和用于训练的标签数据,对数据建立用于谱图几何调节的邻接图;
S20,对所述输入的数据、标签信息和建立的邻接图,将跨数据域的联合矩阵分解模型、鉴别回归模型、跨数据域的距离调节、流形几何调节等优化目标结合,建立统一的数学模型;
S30,根据所述建立的数学模型,推导变量的更新公式,以交替迭代的方式更新各个数据域的各个维度的隐藏因子,域间共享的关系结构,以及回归系数,直到收敛为止;
S40,利用得到的参数,对目标域的数据进行类属标签预测,得到对目标域数据预测的类属标签。
优选地,S10中具体包括以下步骤:
S101,输入辅助数据域和目标数据域的训练样本数据,包括辅助数据域的标签数据以及对应的标签信息矩阵以及目标域的数据当目标域有少量的标签数据时,输入标签指示信息Pt矩阵来指明目标域哪些数据是有标签的,并且同时输入目标域数据的标签信息用集合表示不同数据域的下标,当指的数据域为时,它所对应的另外一个数据域记为
S102,利用输入的数据分别构建辅助域的数据维度的邻接图和特征维度的邻接图邻接图的点之间的边权重分别如下:
其中Np(x)表示数据x的p领域,取p=5,
构建目标域的数据维度邻接图和特征维度邻接图,邻接图的点之间的边权重分别如下:
其中Np(x)表示数据x的p领域,取p=5。
优选地,S20中具体包括以下步骤:
S201,建立跨数据域的联合矩阵分解模型:
矩阵分解模型将目标数据域和辅助数据域的数据同时分解到低维的数据表达中去,并且保留了两个数据域间共同的知识结构,其中,表示π数据域的特征的低维聚类结构,km是特征维度的聚类个数;表示π数据域的数据低维聚类结构,同时也是数据的低维隐藏表示因子,kn是数据的聚类个数;表示π数据域里特征类和数据类之间的关系结构,而且目标数据域和辅助数据域共享这一稳定的关系结构;
S202,融合鉴别回归模型,对数据的低维隐藏表示因子进行监督性约束:
其中是作用在数据隐藏因子上的回归系数,标签指示信息Pt矩阵是一个对角矩阵,表示π数据域里的第i个元素用于监督的回归鉴别约束,否则 P ii π = 0 ;
S203,减小目标数据域和辅助数据域间的差异,引入最大均值差异MMD距离的调节;
数据维度上的域间差异距离定义如下:
特征维度上的域间差异距离定义如下:
为了降低目标数据域和辅助数据域间的差异,期望得到的数据隐藏表示因子和特征低维聚类结构表示因子,能使各自维度上的域间差异距离能够尽可能的小,从而将这两个距离函数作为最小化目标调节因子融合到上一步S202得到的模型中去,并且得到:
S204,保持数据的低维流形结构,根据谱图几何理论,利用步骤S102中得到的辅助域的数据维度的邻接图,建立度量数据映射函数在低维流形空间沿测地线的光滑性的测度:
其中, D s v = diag ( Σ i ( W s v ) ij )
利用步骤S102中得到的辅助域的特征维度的邻接图,建立度量数据特征映射函数在低维流形空间沿测地线的光滑性的测度:
其中, D s u = diag ( Σ i ( W s u ) ij )
类似地,利用步骤S102中得到的目标域的数据维度的邻接图,在目标域在数据维度上,建立度量数据映射函数在低维流形空间沿测地线的光滑性的测度:
其中, D t v = diag ( Σ i ( W t v ) ij )
利用步骤S102中得到的目标域的特征维度的邻接图,在特征维度上,建立度量数据特征映射函数在低维流形空间沿测地线的光滑性的测度:
其中, D t u = diag ( Σ i ( W t u ) ij )
S205:建立基于鉴别流形的跨数据域的转移学习分类模型如下:
s.t.Vs,Vt,Us,Ut,H≥0
优选地,S30中进行交替迭代具体包括以下步骤:
S301,更新辅助域数据隐藏因子Vs
其中 B s = A T Y s P s P s T , B s + = ( | B s | + B s ) / 2 , B s - = ( | B s | - B s ) / 2 , E s = A T A V s P s P s T , R=ATA,R+=(|R|+R)/2,R-=(|R|-R)/2,
S302,更新目标域数据隐藏因子Vt
其中 B t = A T Y t P t P t T , B t + = ( | B t | + B t ) / 2 , B t - = ( | B t | - B t ) / 2 , E t = A T A V t P t P t T , R=ATA,R+=(|R|+R)/2,R-=(|R|-R)/2,
S303,更新辅助域特征维度低维因子Us
S304,更新目标域特征维度低维因子Ut
S305,更新辅助域和目标域之间的共享因子:数据维度的隐藏因子和特征维度的隐藏因子之间的关系结构,更新公式如下:
其中
S306,更新回归系数A:
其中 γ = α β .
优选地,S40进一步包括以下步骤:
S401,利用得到的回归系数A和目标域文档隐藏因子Vt对目标域的文档进行类属标签预测,得到对目标域新闻文档进行预测的类属标签
Y ~ t = A V t ;
S402,根据每列文档因子的最大元素所在的下标确定该数据的类属。
与现有技术相比,本发明的有益效果如下:
(1)本发明实施例的分类器将鉴别回归模型引入转移学习的隐藏因子的挖掘算法中,使得学习得到的数据隐藏因子具有利于分类的鉴别结构,从而提高了分类器的鉴别性和分类准确率;
(2)本发明实施例在挖掘数据潜在的有用结构的同时,利用最小化数据域间差异距离(MaximumMeanDiscrepancy,MMD),使得学习得到的隐藏因子的域间差异最小,从而减小了不同域间由于数据分布漂移带来的差异性,通过域间共享特征维度和数据维度的聚类结构的关系矩阵,进一步克服了传统转移学习算法中的一大困难问题;
(3)本发明实施例将辅助域和目标域的数据进行联合矩阵分解的同时,通过谱图几何调节,在挖掘得到的隐藏因子的子空间中保留了数据内在的流形结构,学习得到的隐藏因子在具有分类鉴别结构的同时,还保留了原始数据的聚类结构,从而提高了分类器的抗噪能力和鲁棒性;
(4)本发明实施例提出了基于鉴别流形的跨数据域的转移学习的分类器(TransferLearningClassifieronDiscriminativeManifold,TLCDM),并且创新性地提出了一套有效地参数迭代更新的方法来训练分类器。
附图说明
图1为本发明实施例的基于鉴别流形的跨数据域的转移学习分类方法的步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
本发明实施例提出一种鉴别流形的跨数据域的转移学习的分类器(TransferLearningClassifieronDiscriminativeManifold,TLCDM),其中以输入数据为新闻文本数据,对新闻数据进行主题分类为例进行说明,当然,本发明实施例的分类方法也可以应用于跨域的各种类型的数据分类问题中,比如目标域是视频数据,辅助域是互联网的图片数据,进行视频数据分类;或者,目标域和辅助域是不同的用户的电子邮件数据,进行垃圾邮件分类。
参考图1,所示为本发明实施例的基于鉴别流形的跨数据域的转移学习分类方法的步骤流程图,其包括以下步骤:
S10,输入各个数据域的数据和用于训练的类属标签数据,对数据建立用于谱图几何调节的邻接图。具体包括步骤S101至S102:
S101,输入辅助数据域和目标数据域的训练样本数据,包括辅助数据域的标签数据以及对应的标签信息矩阵以及目标域的数据当目标域有少量的类属标签数据时,输入类属标签指示信息Pt矩阵来指明目标域哪些数据是有标签的,并且同时输入目标域数据的类属标签信息
S102,对于新闻数据,数据维度为每篇新闻文档,特征维度为新闻中的文本词,分别构建辅助域的文档邻接图和文本词邻接图邻接图的点之间的边权重分别如下:
其中Np(x)表示对象x的p领域,这里取p=5。
构建目标域的文档邻接图和文本词邻接图邻接图的点之间的边权重分别如下:
其中Np(x)表示对象x的p领域,这里取p=5。
S20,对所输入的数据、标签信息和建立的邻接图,将跨数据域的联合矩阵分解模型、鉴别回归模型、跨数据域的距离调节、流形几何调节等优化目标结合,建立统一的数学模型,具体包括步骤S201至S204:
S201,建立跨数据域的联合矩阵分解模型:
其中为了讨论的方便和建模的表达简洁,用集合表示不同数据域的下标,当指的数据域为时,它所对应的另外一个数据域记为
这一矩阵分解模型将目标数据域和辅助数据域的文档和文本词同时分解到低维的数据表达中去,并且保留了两个数据域间共同的知识结构。其中,表示π数据域的文本词的低维聚类结构,km是文本词的聚类个数;表示π数据域的文档低维聚类结构,同时也是文档的低维隐藏表示因子,kn是文档的聚类个数;表示π数据域里文本词类和文档类之间的关系结构。经验证明目标数据域和辅助数据域共享这一稳定的关系结构。
S202,融合鉴别回归模型,对文档的低维隐藏表示因子进行监督性约束:
其中是作用在数据隐藏因子上的回归系数,类属指示信息Pt矩阵是一个对角矩阵,表示π数据域里的第i个元素用于监督的回归鉴别约束,否则 P ii π = 0 .
S203,减小目标数据域和辅助数据域间的差异,引入最大均值差异(MMD)距离的调节。
数据维度上的域间差异距离定义如下:
特征维度上的域间差异距离定义如下:
为了降低目标数据域和辅助数据域间的差异,期望得到的在文档隐藏因子上定义的域间差异距离能够尽可能的小,和文本词的低维表达因子上定义的域间差异距离能够尽可能的小。从而将这两个距离函数作为最小化目标调节因子融合到上一步S202得到的模型中去,并且得到:
S204,保持数据的低维流形结构。根据谱图几何理论,利用步骤S102中得到的辅助域的文档维度的邻接图,建立度量映射文档的函数在低维流形空间沿测地线的光滑性的测度:
其中, D s v = diag ( Σ i ( W s v ) ij ) .
利用步骤S102中得到的辅助域的文本词维度的邻接图,建立度量映射文本词的函数在低维流形空间沿测地线的光滑性的测度:
其中, D s u = diag ( Σ i ( W s u ) ij ) .
类似地,利用步骤S102中得到的目标域的文档维度的邻接图,在目标域在文档维度上,建立度量映射文档的函数在低维流形空间沿测地线的光滑性的测度:
其中, D t v = diag ( Σ i ( W t v ) ij ) .
利用步骤S102中得到的目标域的文本词维度的邻接图,在文本词维度上,建立度量映射文本词的函数在低维流形空间沿测地线的光滑性的测度:
其中, D t u = diag ( Σ i ( W t u ) ij ) .
S205,建立基于鉴别流形的跨数据域的转移学习分类模型。
为了使在目标域和辅助域中,数据在各个维度流形空间里保持内在的原始结构(尤其是数据的空间光滑性),将目标域和辅助域中各个维度的函数光滑性测度作为矩阵分解模型的约束调节,融合到统一的数学模型中。同时考虑到得到的各个维度的低维表示因子的非负性以及关系结构矩阵的非负性,最终得到以下基于鉴别流形的跨数据域的转移学习分类模型:
s.t.Vs,Vt,Us,Ut,H≥0
通过以上利用联合矩阵分解模型挖掘隐藏因子,利用鉴别回归模型提高隐藏因子的鉴别性,利用跨数据域的距离调节减小不同数据域的隐藏因子的分布差异,利用流形几何调节保持原始数据的局部聚类结构,学习得到的隐藏因子在具有分类鉴别结构的同时,还保留了原始数据的聚类结构,从而提高了分类器的抗噪能力和鲁棒性。
S30,根据S20中建立的数学模型,推导变量的更新公式,以交替迭代的方式更新各个数据域的文档和文本词维度上的隐藏因子,域间共享的关系结构,以及回归系数,直到收敛为止。每次迭代,具体包括步骤S301至S306:
S301,更新辅助域文档隐藏因子Vs
其中 B s = A T Y s P s P s T , B s + = ( | B s | + B s ) / 2 , B s - = ( | B s | - B s ) / 2 , E s = A T A V s P s P s T , R=ATA,R+=(|R|+R)/2,R-=(|R|-R)/2,
S302,更新目标域文档隐藏因子Vt
其中 B t = A T Y t P t P t T , , B t + = ( | B t | + B t ) / 2 , B t - = ( | B t | - B t ) / 2 , E t = A T A V t P t P t T , R=ATA,R+=(|R|+R)/2,R-=(|R|-R)/2,
S303,更新辅助域文本词低维表示因子Us
S304,更新目标域文本词低维表示因子Ut
S305,更新辅助域和目标域之间的共享的结构因子:文档的聚类结构和文本词聚类结构之间的关系因子。更新公式如下:
其中
S306,更新回归系数A:
其中 γ = α β
S40,利用得到的参数,对目标域的数据进行类属标签预测,得到对目标域数据预测的类属标签。
具体包括,
S401,利用S30中得到的回归系数A和目标域文档隐藏因子Vt对目标域的文档进行类属标签预测,得到对目标域新闻文档进行预测的类属标签
Y ~ t = A V t .
S402,根据每列文档因子的最大元素所在的下标确定该数据的类属。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于鉴别流形的跨数据域的转移学习分类方法,其特征在于,包括以下步骤:
S10,输入各个数据域的数据和用于训练的标签数据,对数据建立用于谱图几何调节的邻接图;
S20,对所述输入的数据、标签信息和建立的邻接图,结合优化目标,建立统一的数学模型,所述优化目标包括跨数据域的联合矩阵分解模型、鉴别回归模型、跨数据域的距离调节、流形几何调节;
S30,根据所述建立的数学模型,推导变量的更新公式,以交替迭代的方式更新各个数据域的各个维度的隐藏因子,域间共享的关系结构,以及回归系数,直到收敛为止;
S40,利用得到的参数,对目标域的数据进行类属标签预测,得到对目标域数据预测的类属标签;
其中,S10中具体包括以下步骤:
S101,输入辅助数据域Ds和目标数据域Dt的训练样本数据,包括辅助数据域的标签数据以及对应的标签信息矩阵以及目标域的数据当目标域有少量的标签数据时,输入标签指示信息Pt矩阵来指明目标域哪些数据是有标签的,并且同时输入目标域数据的标签信息用集合I={s,t}表示不同数据域的下标,当指的数据域为π∈I时,它所对应的另外一个数据域记为
S102,利用输入的数据分别构建辅助域的数据维度的邻接图和特征维度的邻接图邻接图的点之间的边权重分别如下:
其中Np(x)表示数据x的p领域,取p=5,
构建目标域的数据维度邻接图和特征维度邻接图,邻接图的点之间的边权重分别如下:
其中Np(x)表示数据x的p领域,取p=5;
S20中具体包括以下步骤:
S201,建立跨数据域的联合矩阵分解模型:
min U π , H , V π ≥ 0 Σ π ∈ I | | X π - U π HV π | | 2
矩阵分解模型将目标数据域和辅助数据域的数据同时分解到低维的数据表达中去,并且保留了两个数据域间共同的知识结构,其中,表示π数据域Dπ的特征的低维聚类结构,km是特征维度的聚类个数;表示π数据域Dπ的数据低维聚类结构,同时也是数据的低维隐藏表示因子,kn是数据的聚类个数;表示π数据域Dπ里特征类和数据类之间的关系结构,而且目标数据域和辅助数据域共享这一稳定的关系结构;
S202,融合鉴别回归模型,对数据的低维隐藏表示因子进行监督性约束:
min V π , U π , H , A Σ π ∈ 1 ( | | X π - U π HV π | | 2 + β | | Y π P π - AV π P π | | 2 ) + α | | A | | 2
其中是作用在数据隐藏因子上的回归系数,标签指示信息Pt矩阵是一个对角矩阵,表示π数据域Dπ里的第i个元素用于监督的回归鉴别约束,否则 P i i π = 0 ;
S203,减小目标数据域和辅助数据域间的差异,引入最大均值差异MaximumMeanDiscrepancy,MMD距离的调节;
数据维度上的域间差异距离定义如下:
Dist v ( D s , D t ) = | | 1 n s Σ i = 1 n s v · i s - 1 n t Σ j = 1 n t v · j t | | 2 ;
特征维度上的域间差异距离定义如下:
Dist u ( D s , D t ) = | | 1 n s Σ i = 1 n s u i · s - 1 n t Σ j = 1 n t u j · t | | 2 ;
为了降低目标数据域和辅助数据域间的差异,期望得到的数据隐藏表示因子和特征低维聚类结构表示因子,能使各自维度上的域间差异距离能够尽可能的小,从而将这两个距离函数作为最小化目标调节因子融合到上一步S202得到的模型中去,并且得到:
min V s , V t , U s , U t , H , A Σ π ∈ I ( | | X π - U π HV π | | 2 + β | | Y π P π - AV π P π | | 2 ) + α | | A | | 2 + | | 1 m s 1 m s T U s - 1 m t 1 m t T U t | | 2 + | | 1 n s V s 1 n s - 1 n t V t 1 n t | | 2
S204,保持数据的低维流形结构,根据谱图几何理论,利用步骤S102中得到的辅助域的数据维度的邻接图,建立度量数据映射函数在低维流形空间沿测地线的光滑性的测度:
R s v = 1 2 Σ i j | | v · i s - v · j s | | 2 ( W s v ) i j = Σ i t r ( v · i s ( v · i s ) T ) ( D s v ) i i - Σ i j t r ( v · i s ( v · j s ) T ) ( W s v ) i j = t r ( V s ( D s v - W s v ) V s T )
其中, D s v = d i a g ( Σ i ( W s v ) i j )
利用步骤S102中得到的辅助域的特征维度的邻接图,建立度量数据特征映射函数在低维流形空间沿测地线的光滑性的测度:
R s u = 1 2 Σ i j | | u i · s - u j · s | | 2 ( W s u ) i j = Σ i t r ( ( u i · s ) T ( u i · s ) ) ( D s u ) i i - Σ i j t r ( ( u i · s ) T ( u j · s ) ) ( W s u ) i j = t r ( U s T ( D s u - W s u ) U s )
其中, D s u = d i a g ( Σ i ( W s u ) i j )
类似地,利用步骤S102中得到的目标域Dt的数据维度的邻接图,在目标域Dt在数据维度上,建立度量数据映射函数在低维流形空间沿测地线的光滑性的测度:
R t v = 1 2 Σ i j | | v · i t - v · j t | | 2 ( W t v ) i j = Σ i t r ( v · i t ( v · i t ) T ) ( D t v ) i i - Σ i j t r ( v · i t ( v · j t ) T ) ( W t v ) i j = t r ( V t ( D t v - W t v ) V t T )
其中, D t v = d i a g ( Σ i ( W t v ) i j )
利用步骤S102中得到的目标域的特征维度的邻接图,在特征维度上,建立度量数据特征映射函数在低维流形空间沿测地线的光滑性的测度:
R t u = 1 2 Σ i j | | u i · t - u j · t | | 2 ( W t u ) i j = Σ i t r ( ( u i · t ) T ( u i · t ) ) ( D t u ) i i - Σ i j t r ( ( u i · t ) T ( u j · t ) ) ( W t u ) i j = t r ( U t T ( D t T - W t u ) U t )
其中, D t u = d i a g ( Σ i ( W t u ) i j )
S205:建立基于鉴别流形的跨数据域的转移学习分类模型如下:
min V s , V t , U s , U t , H , A Σ π ∈ I ( | | X π - U π HV π | | 2 + β | | Y π P π - AV π P π | | 2 ) + α | | A | | 2 + Σ π ∈ I λ ( R π u + R π v ) + | | 1 m s 1 m s T U s - 1 m t 1 m t T U t | | 2 + | | 1 n s V s 1 n s - 1 n t V t 1 n t | | 2
s.t.Vs,Vt,Us,Ut,H≥0
S30中进行交替迭代具体包括以下步骤:
S301,更新辅助域数据隐藏因子Vs
其中 B s = A T Y s P s P s T , B s + = ( | B s | + B s ) / 2 , B s - = ( | B s | - B s ) / 2 , E s = A T AV s P s P s T , R=ATA,R+=(|R|+R)/2,R-=(|R|-R)/2,
S302,更新目标域数据隐藏因子Vt
其中 B t = A T Y t P t P t T , B t + = ( | B t | + B t ) / 2 , B t - = ( | B t | - B t ) / 2 , E t = A T AV t P t P t T , R=ATA,R+=(|R|+R)/2,R-=(|R|-R)/2,
S303,更新辅助域特征维度低维因子Us
S304,更新目标域特征维度低维因子Ut
S305,更新辅助域和目标域之间的共享因子:数据维度的隐藏因子和特征维度的隐藏因子之间的关系结构,更新公式如下:
其中I={s,t}
S306,更新回归系数A:
A = ( Σ π ∈ I Y π P π ( V π P π ) T ) ( Σ π ∈ I V π P π ( V π P π ) T + γ I ) - 1 , 其中I={s,t}, γ = α β .
2.根据权利要求1所述的基于鉴别流形的跨数据域的转移学习分类方法,其特征在于,S40进一步包括以下步骤:
S401,利用得到的回归系数A和目标域文档隐藏因子Vt对目标域的文档进行类属标签预测,得到对目标域新闻文档进行预测的类属标签
Y ~ t = AV t ;
S402,根据每列文档因子的最大元素所在的下标确定该数据的类属。
CN201310113911.0A 2013-04-02 2013-04-02 基于鉴别流形的跨数据域的转移学习分类方法 Expired - Fee Related CN103177114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310113911.0A CN103177114B (zh) 2013-04-02 2013-04-02 基于鉴别流形的跨数据域的转移学习分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310113911.0A CN103177114B (zh) 2013-04-02 2013-04-02 基于鉴别流形的跨数据域的转移学习分类方法

Publications (2)

Publication Number Publication Date
CN103177114A CN103177114A (zh) 2013-06-26
CN103177114B true CN103177114B (zh) 2016-01-27

Family

ID=48636975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310113911.0A Expired - Fee Related CN103177114B (zh) 2013-04-02 2013-04-02 基于鉴别流形的跨数据域的转移学习分类方法

Country Status (1)

Country Link
CN (1) CN103177114B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473366B (zh) * 2013-09-27 2017-01-04 浙江大学 一种多视角跨数据域图像内容识别的分类方法及装置
CN103678580B (zh) * 2013-12-07 2017-08-08 浙江大学 一种用于文本分类的多任务机器学习方法及其装置
US11139048B2 (en) 2017-07-18 2021-10-05 Analytics For Life Inc. Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions
US11062792B2 (en) 2017-07-18 2021-07-13 Analytics For Life Inc. Discovering genomes to use in machine learning techniques
CN107563452B (zh) * 2017-09-18 2020-03-27 天津师范大学 一种基于判别测度学习的交叉域地基云图分类方法
CN109492094A (zh) * 2018-10-15 2019-03-19 上海电力学院 一种基于密度的混合多维属性数据处理方法
CN110411724B (zh) * 2019-07-30 2021-07-06 广东工业大学 一种旋转机械故障诊断方法、装置、***及可读存储介质
CN110928916B (zh) * 2019-10-18 2022-03-25 平安科技(深圳)有限公司 基于流形空间的数据监测方法、装置及存储介质
CN116538996B (zh) * 2023-07-04 2023-09-29 云南超图地理信息有限公司 基于激光雷达的地形测绘***及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100011025A1 (en) * 2008-07-09 2010-01-14 Yahoo! Inc. Transfer learning methods and apparatuses for establishing additive models for related-task ranking
US20110320387A1 (en) * 2010-06-28 2011-12-29 International Business Machines Corporation Graph-based transfer learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Transfer Learning with Graph Co-Regularization》;Long Mingsheng等;《Proceedings of the twenty-sixth conference on artificial intelligence》;20120726;第2页右栏倒数第2段-第4页左栏"算法1" *

Also Published As

Publication number Publication date
CN103177114A (zh) 2013-06-26

Similar Documents

Publication Publication Date Title
CN103177114B (zh) 基于鉴别流形的跨数据域的转移学习分类方法
Mei et al. Sgnn: A graph neural network based federated learning approach by hiding structure
CN110532542B (zh) 一种基于正例与未标注学习的***虚开识别方法及***
Fajgelbaum et al. External integration, structural transformation and economic development: Evidence from argentina 1870-1914
CN104731962B (zh) 一种社交网络中基于相似社团的好友推荐方法及***
Awasthi et al. A multi-criteria decision making approach for location planning for urban distribution centers under uncertainty
CN103812872B (zh) 一种基于混合狄利克雷过程的网络水军行为检测方法及***
CN107967575A (zh) 一种人工智能保险咨询服务人工智能平台***
CN104217087B (zh) 一种基于运营商网络数据的常住人口分析方法
CN103971129A (zh) 一种基于学习跨数据域子空间的图像内容识别的分类方法及装置
Hadighi et al. A framework for strategy formulation based on clustering approach: A case study in a corporate organization
CN109951499A (zh) 一种基于网络结构特征的异常检测方法
Liu et al. Using the ART-MMAP neural network to model and predict urban growth: a spatiotemporal data mining approach
CN116823496A (zh) 基于人工智能的智能保险风险评估和定价***
CN108960273A (zh) 一种基于深度学习的贫困生认定方法
Blanco et al. Multi-type maximal covering location problems: Hybridizing discrete and continuous problems
Yu et al. Spatial pattern characteristics and influencing factors of green use efficiency of urban construction land in Jilin province
CN103473366B (zh) 一种多视角跨数据域图像内容识别的分类方法及装置
Pérez-Campuzano et al. Visualizing the historical COVID-19 shock in the US airline industry: A Data Mining approach for dynamic market surveillance
CN116305233A (zh) 一种基于联邦迁移学习的科研数据管理方法及***
CN102799891A (zh) 基于地标点表示的谱聚类方法
CN116703148A (zh) 基于云计算的矿山企业风险画像方法
CN116070385A (zh) 一种境外矿产资源供应链风险自动识别方法及***
Luna-Romera et al. Analysis of the evolution of the Spanish labour market through unsupervised learning
Yin et al. Improved two-stage DEA model: an application to logistics efficiency evaluation enterprise in Xiamen, China

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160127

Termination date: 20200402