CN110119448A - 基于双重自动编码器的半监督跨领域文本分类方法 - Google Patents

基于双重自动编码器的半监督跨领域文本分类方法 Download PDF

Info

Publication number
CN110119448A
CN110119448A CN201910378359.5A CN201910378359A CN110119448A CN 110119448 A CN110119448 A CN 110119448A CN 201910378359 A CN201910378359 A CN 201910378359A CN 110119448 A CN110119448 A CN 110119448A
Authority
CN
China
Prior art keywords
text data
data set
domain
classification
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910378359.5A
Other languages
English (en)
Other versions
CN110119448B (zh
Inventor
张玉红
杨帅
胡学钢
李培培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910378359.5A priority Critical patent/CN110119448B/zh
Publication of CN110119448A publication Critical patent/CN110119448A/zh
Application granted granted Critical
Publication of CN110119448B publication Critical patent/CN110119448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于双重自动编码器的半监督跨领域文本分类方法,其步骤包括:采用双重自动编码器同时获取源领域文本数据集合和目标领域文本数据集合之间的全局和局部特征表示用于跨领域文本分类任务;第一重自动编码器为基于自适应分布的边缘降噪自动编码器,它主要用来学习源领域和目标领域文本数据集合的全局特征表示;第二重自动编码器为基于多类别的边缘降噪自动编码器,它以更细粒度方式学习源领域和目标领域文本数据集合的局部特征表示。本发明能更好地挖掘源领域文本数据集合和目标领域文本数据集合中特征之间的潜在关系,从而进一步提高文本分类的正确性。

Description

基于双重自动编码器的半监督跨领域文本分类方法
技术领域
本发明涉及机器学习领域,具体的说是一种基于双重自动编码器的半监督跨领域分类方法,并对文本数据信息进行分类,更具体地说是利用某个领域的文本数据信息对另一个具有不同数据分布的文本数据信息进行分类。
背景技术
近年来,随着信息化、网络化快速发展,人们的生活与工作也越来越依赖网络信息;现如今,网络信息几乎涉及了人类生活的全部领域;然而,网络技术的发展,网络数据也在逐年增长;一些具有重要价值的信息一般都隐藏在这些数据中,如何对这些海量数据进行高效、准确的分类,使之更好地服务于人们的日常生活与工作日益重要;例如:在京东、淘宝等购物平台,商家可以通过分析消费者评论信息,有针对地进行产品改进或升级,从而提高产品质量;对消费者而言,商品的评论信息在一定程度上左右了消费者的购买意愿,消费者偏向购买口碑较好的商品;一些个性化新闻推荐网站,后台技术人员通过对用户的阅览记录进行分析,对用户的喜好进行分类,然后根据用户的兴趣,给不同用户推荐不同领域的文章;鉴于此,文本分类等相关领域的研究具有极其重要的价值和意义;
现如今,不仅人类社会生活中数据的类型越来越多样化,而且对海量数据进行标记需要大量的人力和财力,传统的机器学习方法因而面临着艰难的挑战;传统机器学习方法通常基于两个基本假设:不仅训练数据和测试数据独立并且服从同一数据分布,而且需要大量的标记样本用于训练分类模型;然而,由于网络中数据受用户,时间等多因素的影响,其数据分布在不断发生变化,因此,较难收集到满足同一分布的充足的有效训练数据,从而传统的文本分类方法面临巨大的挑战;为了解决这个问题,国内外学者提出了大量跨领域文本学习算法;
深度学习在自然处理领域研究成果显著,多种神经网络模型被用于文本分类,如卷积神经网络(CNN)、循环神经网络(RNN)、对抗神经网络(GAN)以及自动编码器(AE);其中,降噪自动编码器通过堆叠多层能获取高层、鲁棒的特征表示,在跨领域文本分类任务上取得令人满意的分类正确率,然而其计算成本很高且缺乏对高维特征的可扩展性;目前,已有的降噪自动编码器多为无监督模型,在训练分类器时容易产生过拟合问题;此外,基于自动编码器的跨领域文本分类方法一般是基于自动编码器学习同时适用于源领域和目标领域深层特征表示,而忽略领域内的一些固有信息对跨领域文本分类的影响;已有的自动编码器模型不具有普适性,从而限制了在应用中的使用;
综上,现有技术中基于降噪自动编码器的跨领域文本分类面临着以下的挑战:
一是降噪编码器一般多为无监督模型,利用源领域中文本数据训练分类器时,没有利用源领域中文本数据的标签信息,容易产生过拟合问题;
二是已有的降噪自动编码器一般仅仅使用一种自动编码器模型学习可迁移的特征表示用于跨领域文本分类,通常一种自动编码器仅可以学习源领域和目标领域中文本数据的一种数据特征表示,不能从多个角度(全局、局部)学习丰富的数据表示用于跨领域文本分类;
发明内容
本发明是为避免上述现有技术所存在的不足,提供一种基于双重自动编码器的半监督跨领域文本分类方法,以期能获取源领域中文本数据和目标领域中文本数据的更丰富的特征表示,从而能进一步提高跨领域文本分类的准确率。
本发明为实现发明目的采用如下技术方案:
本发明一种基于双重自动编码器的半监督跨领域文本分类方法的特点是按如下步骤进行:
步骤1:初始化
步骤1.1:获取源领域的文本数据集合及其样本标签集合其中,si为所述源领域的文本数据集合DS中第i个文本数据,i=1,2,…,ns,ns为源领域文本数据集合DS中的文本数据个数;yi为所述第i个文本数据si的标签,且cd表示第d个类别;d=1,2,…,nc,nc表示类别个数;
步骤1.2:获取目标领域的文本数据集合tj为所述目标领域的文本数据集合DT中第j个文本数据,j=1,2,…,nt,nt为目标领域的文本数据集合DT中的文本数据个数;
步骤1.3:基于所述源领域的文本数据集合DS利用支持向量机进行训练,得到源领域的分类器;利用所述源领域的分类器对所述目标领域的文本数据集合DT进行分类,得到目标领域的文本数据的伪标签集合yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签,且
步骤1.4:将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并,得到合并集合X,X=[x1,x2,…,xa,…,xA],xa为合并集合X中第a个文本数据,a=1,2,…,A,且A=ns+nt
步骤1.5:根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT,将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类,从而得到包含nc个类的数据集,其中第d个类别cd的数据集,记为Ed=[DSd,DTd];DSd为所述源领域的文本数据集合DS中,样本标签属于第d个类别cd的所有文本数据;DTd为目标领域的文本数据集合DT中,伪标签属于第d个类别cd的所有文本数据;
步骤2:利用基于自适应分布的边缘降噪自动编码方法对所述合并集合X进行Lmax层堆叠学习,获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示:
步骤2.1:定义当前堆叠学习的层数为L;并初始化L=1;定义最大堆叠学习的层数为Lmax
步骤2.2:将所述合并集合X的第L层的输入记为hL-1,当L=1,令hL-1=X;
步骤2.3:以噪音干扰系数p对所述第l层的输入hL-1进行随机损坏,得到损坏数据
步骤2.4:利用式(1)表征第L层的重构误差Θ(WL):
式(1)中,λ,β为常数,||·||2表示矩阵的Frobenius范数的平方,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布,并利用式(2)得到,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布,并利用式(4)得到;
式(2)中,tr(·)为矩阵的迹,(·)T为矩阵(·)的转置,为第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的图拉普拉斯算子,并有:
式(3)中,(·)αδ表示矩阵的第α行第δ列元素;xα和xδ分别表示所述合并集合X中第α个文本数据和第δ个文本数据;
式(4)中,为第L层的样本标签属于第d个类别cd的源领域的文本数据集合DSd和目标领域的文本数据集合DTd的图拉普拉斯算子,并有:
式(5)中,(·)ηκ表示矩阵的第η行第κ列元素,xη和xκ分别表示所述合并集合X中第η个文本数据和第κ个文本数据;为DSd中文本数据的个数,为DTd中文本数据的个数;
步骤2.5:利用最小二乘法对所述重构误差Θ(WL)进行求解,得到其中,(·)-1为矩阵(·)的逆,Ig为单位矩阵,为所述合并集合X的第L层的输入hL-1的共现矩阵,且QL以噪音干扰系数p进行损坏后的矩阵,并由式(6)得到,为所述合并集合X的第L层的输入hL-1的边缘和条件联合分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(7)得到;
式(6)中,(·)mu表示矩阵的第m行第u列元素;
式(7)中,(·)μν表示矩阵的第μ行第ν列元素;为所述合并集合X的第L层的输入hL-1的边缘分布和条件分布联合的共现矩阵,且
步骤2.6:获得第L层的输出特征空间hL=tanh(hL-1WL),其中,tanh()为双曲正切函数;
步骤2.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示否则,返回步骤2.3顺序执行;
步骤3:利用基于多类别的边缘降噪自动编码方法学习对第d个类别cd的数据集Ed进行Lmax层堆叠学习,获得源领域的文本数据集合DS和和目标领域的文本数据集合DT的局部特征表示:
步骤3.1:初始化L=1;
步骤3.2:将第d个类别cd的数据集Ed的第L层的输入记为当L=1时,
步骤3.3:以噪音干扰系数p对所述第L层的输入进行随机损坏,得到第L层的损坏数据
步骤3.4:利用式(8)表征第d个类别cd的数据集Ed的第L层的重构误差
式(8)中,是第d个类别cd的数据集Ed的边缘分布,并利用式(9)得到;
式(9)中,为第L层数据集Ed的图拉普拉斯算子,并有:
式(10)中,表示矩阵的第π行第列元素,xπ分别表示所述合并集合X中第π个文本数据和第个文本数据;
步骤3.5:利用最小二乘法对所述重构误差进行求解,得到其中,Id为第d个类别cd的单位矩阵,为所述第d个类别cd的数据集Ed的第L层的输入的共现矩阵,且 以噪音干扰系数p进行损坏后的矩阵,并由式(11)得到,为所述第d个类别cd的数据集Ed的第L层的输入边缘分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(12)得到;
式(11)中,(·)θρ表示矩阵的第θ行第ρ列元素;
式(12)中,(·)υψ表示矩阵的第υ行第ψ列元素;为所述第d个类别cd的数据集Ed的第L层的输入边缘分布的共现矩阵,且
步骤3.6:获得所述第d个类别cd的数据集Ed第L层的输出特征空间从而获取标签类别分别属于的数据集的第L层的输出特征空间
步骤3.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的局部特征表示否则,返回步骤3.3顺序执行;
步骤4:获取双重特征表示并构建分类器:
步骤4.1:将所述源领域和目标领域文本数据的全局特征表示Hglobal和局部特征表示Hlocal进行合并,形成双重特征表示H=[Hglobal;Hlocal];
将所述双重特征表示H划分为源领域的文本数据集合DS的特征表示HDS和目标领域的文本数据集合DT的特征表示HDT
步骤4.2:基于所述源领域的文本数据集合DS的特征表示HDS利用支持向量机进行训练,得到源领域的特征表示的分类器;利用所述源领域的特征表示的分类器对所述目标领域的文本数据集合DT的特征表示HDT进行分类,得到目标领域的文本数据的新伪标签集合YT′;
步骤4.3:判断||YT-YT′||2≤1是否成立,若成立,则所得到的新伪标签集合YT′即为所述目标领域的文本数据的分类结果;否则,将YT′赋值给YT后,返回步骤1.3顺序执行。
与已有技术相比,本发明有益效果体现在:
1、本发明有效减少了训练分类器时出现过拟合的风险,同时提高了跨领域文本分类的正确性;本发明充分利用了源领域中文本数据的标签信息,并利用步骤1.3获取目标领域中文本数据的伪标签信息,然后利用这两个领域中的文本数据的标签信息最小化了领域间的文本数据分布差异,从而避免了训练分类器时出现过拟合问题又进一步提高了跨领域文本分类的分类精度;
2、本发明充分挖掘了源领域中文本数据和目标领域中文本数据的特征之间的潜在关系,从而提高了跨领域文本分类的分类性能;本发明在步骤2对源领域和目标领域中文本数据的全局特征表示进行了学习,同时挖掘了具有同一类别中文本数据间的信息,具体实施过程如步骤3所示,从而获得了更多的特征信息,有利于跨领域文本分类;
3、本发明采用两种类型的堆叠自动编码器学习源领域中文本数据和目标领域中文本数据的深层特征表示,获取了更高质量的特征表示,提高了跨领域文本分类的准确率;而且,本发明使用的两种类型的堆叠自动编码器运行速度更快,具有较高的实用价值;
4、本发明面向实际应用领域,如:用户在社交网络发表对不同事件看法的分类,可用于政府部门及时发现并掌握舆论走向;购物网站根据用户对某一商品的评论对另一种商品进行分析、分类,可为商家、消费者提供预测、预警工作,为商家的销售、服务质量调整策略提供建议以及为消费者的购物行为进行推荐,具有非常好的实用性;
附图说明
图1是本发明流程图。
具体实施方式
参见图1,本实施例中,一种基于双重自动编码器的半监督跨领域文本分类方法是按如下步骤进行:
步骤1:初始化
步骤1.1:获取源领域的文本数据集合及其样本标签集合其中,si为源领域的文本数据集合DS中第i个文本数据,i=1,2,…,ns,ns为源领域文本数据集合DS中的文本数据个数;yi为第i个文本数据si的标签,且cd表示第d个类别;d=1,2,…,nc,nc表示类别个数;
步骤1.2:获取目标领域的文本数据集合tj为目标领域的文本数据集合DT中第j个文本数据,j=1,2,…,nt,nt为目标领域的文本数据集合DT中的文本数据个数;
在学习特征表示时,需要利用源领域中文本数据的标签信息来获取更高质量的特征表示。具体实施时,同时也需要目标领域中文本数据的标签信息,由于源领域中文本数据标签已知而目标领域中文本数据的标签是未知,需要利用支持向量机在源领域文本数据上训练分类器并对目标领域中文本数据进行分类;具体实施过程如步骤1.3所示;
步骤1.3:基于源领域的文本数据集合DS利用支持向量机进行训练,得到源领域的分类器;利用源领域的分类器对目标领域的文本数据集合DT进行分类,得到目标领域的文本数据的伪标签集合yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签,且
步骤1.4:将源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并,得到合并集合X,X=[x1,x2,…,xa,…,xA],xa为合并集合X中第a个文本数据,a=1,2,…,A,且A=ns+nt
步骤1.5:根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT,将源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类,从而得到包含nc个类的数据集,其中第d个类别cd的数据集,记为Ed=[DSd,DTd];DSd为源领域的文本数据集合DS中,样本标签属于第d个类别cd的所有文本数据;DTd为目标领域的文本数据集合DT中,伪标签属于第d个类别cd的所有文本数据;
步骤2:利用基于自适应分布的边缘降噪自动编码方法对合并集合X进行Lmax层堆叠学习,获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示:
在学习两个领域中文本数据的全局特征表示时,直接将源领域数据集合DS和目标领域数据集合DT中的样本数据放在一起训练,充分挖掘两个领域间所有特征之间的潜在关系。为了进一步获取高质量的全局特征表示,利用了源领域文本数据的标签信息和目标领域文本数据的伪标签信息来最小化领域间的边缘分布和条件分布。具体实施时,在目标函数中添加了边缘分布和条件分布这两个约束项来学习映射矩阵。
步骤2.1:定义当前堆叠学习的层数为L;并初始化L=1;定义最大堆叠学习的层数为Lmax
步骤2.2:将合并集合X的第L层的输入记为hL-1,当L=1,令hL-1=X;
步骤2.3:以噪音干扰系数p对第l层的输入hL-1进行随机损坏,得到损坏数据
步骤2.4:利用式(1)表征第L层的重构误差Θ(WL):
式(1)中,λ,β为常数,||·||2表示矩阵的Frobenius范数的平方,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布,并利用式(2)得到,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布,并利用式(4)得到;
式(2)中,tr(·)为矩阵的迹,(·)T为矩阵(·)的转置,为第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的图拉普拉斯算子,并有:
式(3)中,(·)αδ表示矩阵的第α行第δ列元素;xα和xδ分别表示合并集合X中第α个文本数据和第δ个文本数据;
式(4)中,为第L层的样本标签属于第d个类别cd的源领域的文本数据集合DSd和目标领域的文本数据集合DTd的图拉普拉斯算子,并有:
式(5)中,(·)ηκ表示矩阵的第η行第κ列元素,xη和xκ分别表示合并集合X中第η个文本数据和第κ个文本数据;为DSd中文本数据的个数,为DTd中文本数据的个数;
步骤2.5:利用最小二乘法对重构误差Θ(WL)进行求解,得到其中,(·)-1为矩阵(·)的逆,Ig为单位矩阵,为合并集合X的第L层的输入hL-1的共现矩阵,且QL以噪音干扰系数p进行损坏后的矩阵,并由式(6)得到,为合并集合X的第L层的输入hL-1的边缘和条件联合分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(7)得到;
式(6)中,(·)mu表示矩阵的第m行第u列元素;
式(7)中,(·)μν表示矩阵的第μ行第ν列元素;为合并集合X的第L层的输入hL-1的边缘分布和条件分布联合的共现矩阵,且
步骤2.6:获得第L层的输出特征空间hL=tanh(hL-1WL),其中,tanh()为双曲正切函数;
步骤2.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示否则,返回步骤2.3顺序执行;
步骤3:利用基于多类别的边缘降噪自动编码方法学习对第d个类别cd的数据集Ed进行Lmax层堆叠学习,获得源领域的文本数据集合DS和和目标领域的文本数据集合DT的局部特征表示:
在学习局部特征表示时,利用源领域中文本数据的标签信息和目标领域中文本数据的伪标签信息,将属于同一类别的源领域中样本和目标领域中样本单独放在一起训练,以减少其它类别的数据对这个类别的影响。同时在学习局部特征表示时,在目标函数中添加了最大均值差异(MMD)约束项来进一步减小源领域和目标领域中文本数据的分布差异。
步骤3.1:初始化L=1;
步骤3.2:将数据集Ed的第L层的输入记为当L=1时,
步骤3.3:以噪音干扰系数p对第L层的输入进行随机损坏,得到第L层的损坏数据
步骤3.4:利用式(8)表征第d个类别cd的数据集Ed的第L层的重构误差
式(8)中,是第d个类别cd的数据集Ed的边缘分布,并利用式(9)得到;
式(9)中,为第L层数据集Ed的图拉普拉斯算子,并有:
式(10)中,表示矩阵的第π行第列元素,xπ分别表示合并集合X中第π个文本数据和第个文本数据;
步骤3.5:利用最小二乘法对重构误差进行求解,得到其中,Id为单位矩阵,为第d个类别cd的数据集Ed的第L层的输入的共现矩阵,且 以噪音干扰系数p进行损坏后的矩阵,并由式(11)得到,为第d个类别cd的数据集Ed的第L层的输入边缘分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(12)得到;
式(11)中,(·)θρ表示矩阵的第θ行第ρ列元素;
式(12)中,(·)υψ表示矩阵的第υ行第ψ列元素;为第d个类别cd的数据集Ed的第L层的输入边缘分布的共现矩阵,且
步骤3.6:获得第d个类别cd的数据集Ed第L层的输出特征空间从而获取标签类别分别属于的数据集的第L层的输出特征空间
步骤3.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的局部特征表示否则,返回步骤3.3顺序执行;
步骤4:获取双重特征表示并构建分类器:
步骤4.1:将源领域和目标领域文本数据的全局特征表示Hglobal和局部特征表示Hlocal进行合并,形成双重特征表示H=[Hglobal;Hlocal];
将双重特征表示H划分为源领域的文本数据集合DS的特征表示HDS和目标领域的文本数据集合DT的特征表示HDT
步骤4.2:基于源领域的文本数据集合DS的特征表示HDS利用支持向量机进行训练,得到源领域的特征表示的分类器;利用源领域的特征表示的分类器对目标领域的文本数据集合DT的特征表示HDT进行分类,得到目标领域的文本数据的新伪标签集合YT′;
步骤4.3:判断||YT-YT′||2≤1是否成立,若成立,则所得到的新伪标签集合YT′即为目标领域的文本数据的分类结果;否则,将YT′赋值给YT后,返回步骤1.3顺序执行;
本发明使用两种不同类型的自动编码器用于学习源领域中文本数据和目标领域中文本数据的全局特征表示和局部特征表示,并引入源领域中文本数据的标签信息来优化特征表示,以此来进一步缩小源领域和目标领域中文本数据的分布差异,能更好的捕捉源领域和目标领域中文本数据中特征之间的关系,从而能够提高文本分类的正确性。

Claims (1)

1.一种基于双重自动编码器的半监督跨领域文本分类方法,其特征是按如下步骤进行:
步骤1:初始化
步骤1.1:获取源领域的文本数据集合及其样本标签集合其中,si为所述源领域的文本数据集合DS中第i个文本数据,i=1,2,…,ns,ns为源领域文本数据集合DS中的文本数据个数;yi为所述第i个文本数据si的标签,且cd表示第d个类别;d=1,2,…,nc,nc表示类别个数;
步骤1.2:获取目标领域的文本数据集合tj为所述目标领域的文本数据集合DT中第j个文本数据,j=1,2,…,nt,nt为目标领域的文本数据集合DT中的文本数据个数;
步骤1.3:基于所述源领域的文本数据集合DS利用支持向量机进行训练,得到源领域的分类器;利用所述源领域的分类器对所述目标领域的文本数据集合DT进行分类,得到目标领域的文本数据的伪标签集合yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签,且
步骤1.4:将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并,得到合并集合X,X=[x1,x2,…,xa,…,xA],xa为合并集合X中第a个文本数据,a=1,2,…,A,且A=ns+nt
步骤1.5:根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT,将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类,从而得到包含nc个类的数据集,其中第d个类别cd的数据集,记为Ed=[DSd,DTd];DSd为所述源领域的文本数据集合DS中,样本标签属于第d个类别cd的所有文本数据;DTd为目标领域的文本数据集合DT中,伪标签属于第d个类别cd的所有文本数据;
步骤2:利用基于自适应分布的边缘降噪自动编码方法对所述合并集合X进行Lmax层堆叠学习,获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示:
步骤2.1:定义当前堆叠学习的层数为L;并初始化L=1;定义最大堆叠学习的层数为Lmax
步骤2.2:将所述合并集合X的第L层的输入记为hL-1,当L=1,令hL-1=X;
步骤2.3:以噪音干扰系数p对所述第l层的输入hL-1进行随机损坏,得到损坏数据
步骤2.4:利用式(1)表征第L层的重构误差Θ(WL):
式(1)中,λ,β为常数,||·||2表示矩阵的Frobenius范数的平方,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布,并利用式(2)得到,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布,并利用式(4)得到;
式(2)中,tr(·)为矩阵的迹,(·)T为矩阵(·)的转置,为第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的图拉普拉斯算子,并有:
式(3)中,(·)αδ表示矩阵的第α行第δ列元素;xα和xδ分别表示所述合并集合X中第α个文本数据和第δ个文本数据;
式(4)中,为第L层的样本标签属于第d个类别cd的源领域的文本数据集合DSd和目标领域的文本数据集合DTd的图拉普拉斯算子,并有:
式(5)中,(·)ηκ表示矩阵的第η行第κ列元素,xη和xκ分别表示所述合并集合X中第η个文本数据和第κ个文本数据;为DSd中文本数据的个数,为DTd中文本数据的个数;
步骤2.5:利用最小二乘法对所述重构误差Θ(WL)进行求解,得到其中,(·)-1为矩阵(·)的逆,Ig为单位矩阵,为所述合并集合X的第L层的输入hL-1的共现矩阵,且QL以噪音干扰系数p进行损坏后的矩阵,并由式(6)得到,为所述合并集合X的第L层的输入hL-1的边缘和条件联合分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(7)得到;
式(6)中,(·)mu表示矩阵的第m行第u列元素;
式(7)中,(·)μν表示矩阵的第μ行第ν列元素;为所述合并集合X的第L层的输入hL-1的边缘分布和条件分布联合的共现矩阵,且
步骤2.6:获得第L层的输出特征空间hL=tanh(hL-1WL),其中,tanh()为双曲正切函数;
步骤2.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示否则,返回步骤2.3顺序执行;
步骤3:利用基于多类别的边缘降噪自动编码方法学习对第d个类别cd的数据集Ed进行Lmax层堆叠学习,获得源领域的文本数据集合DS和和目标领域的文本数据集合DT的局部特征表示:
步骤3.1:初始化L=1;
步骤3.2:将第d个类别cd的数据集Ed的第L层的输入记为当L=1时,
步骤3.3:以噪音干扰系数p对所述第L层的输入进行随机损坏,得到第L层的损坏数据
步骤3.4:利用式(8)表征第d个类别cd的数据集Ed的第L层的重构误差
式(8)中,是第d个类别cd的数据集Ed的边缘分布,并利用式(9)得到;
式(9)中,为第L层数据集Ed的图拉普拉斯算子,并有:
式(10)中,表示矩阵的第π行第列元素,xπ分别表示所述合并集合X中第π个文本数据和第个文本数据;
步骤3.5:利用最小二乘法对所述重构误差进行求解,得到
其中,Id为第d个类别cd的单位矩阵,为所述第d个类别cd的数据集Ed的第L层的输入的共现矩阵,且 以噪音干扰系数p进行损坏后的矩阵,并由式(11)得到,为所述第d个类别cd的数据集Ed的第L层的输入边缘分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(12)得到;
式(11)中,(·)θρ表示矩阵的第θ行第ρ列元素;
式(12)中,(·)υψ表示矩阵的第υ行第ψ列元素;为所述第d个类别cd的数据集Ed的第L层的输入边缘分布的共现矩阵,且
步骤3.6:获得所述第d个类别cd的数据集Ed第L层的输出特征空间从而获取标签类别分别属于的数据集的第L层的输出特征空间
步骤3.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的局部特征表示否则,返回步骤3.3顺序执行;
步骤4:获取双重特征表示并构建分类器:
步骤4.1:将所述源领域和目标领域文本数据的全局特征表示Hglobal和局部特征表示Hlocal进行合并,形成双重特征表示H=[Hglobal;Hlocal];
将所述双重特征表示H划分为源领域的文本数据集合DS的特征表示HDS和目标领域的文本数据集合DT的特征表示HDT
步骤4.2:基于所述源领域的文本数据集合DS的特征表示HDS利用支持向量机进行训练,得到源领域的特征表示的分类器;利用所述源领域的特征表示的分类器对所述目标领域的文本数据集合DT的特征表示HDT进行分类,得到目标领域的文本数据的新伪标签集合Y′T
步骤4.3:判断||YT-Y′T||2≤1是否成立,若成立,则所得到的新伪标签集合Y′T即为所述目标领域的文本数据的分类结果;否则,将Y′T赋值给YT后,返回步骤1.3顺序执行。
CN201910378359.5A 2019-05-08 2019-05-08 基于双重自动编码器的半监督跨领域文本分类方法 Active CN110119448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910378359.5A CN110119448B (zh) 2019-05-08 2019-05-08 基于双重自动编码器的半监督跨领域文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910378359.5A CN110119448B (zh) 2019-05-08 2019-05-08 基于双重自动编码器的半监督跨领域文本分类方法

Publications (2)

Publication Number Publication Date
CN110119448A true CN110119448A (zh) 2019-08-13
CN110119448B CN110119448B (zh) 2020-11-06

Family

ID=67521890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910378359.5A Active CN110119448B (zh) 2019-05-08 2019-05-08 基于双重自动编码器的半监督跨领域文本分类方法

Country Status (1)

Country Link
CN (1) CN110119448B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825874A (zh) * 2019-10-29 2020-02-21 北京明略软件***有限公司 一种中文文本分类方法和装置及计算机可读存储介质
CN111897964A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 文本分类模型训练方法、装置、设备及存储介质
CN113590761A (zh) * 2021-08-13 2021-11-02 网易有道信息技术(北京)有限公司 文本处理模型的训练方法、文本处理方法及相关设备
CN113723088A (zh) * 2020-05-25 2021-11-30 阿里巴巴集团控股有限公司 自然语言处理方法、装置、文本处理方法、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145836A (zh) * 2017-04-13 2017-09-08 西安电子科技大学 基于栈式边界辨别自编码器的高光谱图像分类方法
US20180041536A1 (en) * 2016-08-02 2018-02-08 Invincea, Inc. Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space
CN108520535A (zh) * 2018-03-26 2018-09-11 天津大学 基于深度恢复信息的物体分类方法
CN108846128A (zh) * 2018-06-30 2018-11-20 合肥工业大学 一种基于自适应噪音降噪编码器的跨领域文本分类方法
CN109308485A (zh) * 2018-08-02 2019-02-05 中国矿业大学 一种基于字典域适应的迁移稀疏编码图像分类方法
CN109492765A (zh) * 2018-11-01 2019-03-19 浙江工业大学 一种基于迁移模型的图像增量学习方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180041536A1 (en) * 2016-08-02 2018-02-08 Invincea, Inc. Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space
CN107145836A (zh) * 2017-04-13 2017-09-08 西安电子科技大学 基于栈式边界辨别自编码器的高光谱图像分类方法
CN108520535A (zh) * 2018-03-26 2018-09-11 天津大学 基于深度恢复信息的物体分类方法
CN108846128A (zh) * 2018-06-30 2018-11-20 合肥工业大学 一种基于自适应噪音降噪编码器的跨领域文本分类方法
CN109308485A (zh) * 2018-08-02 2019-02-05 中国矿业大学 一种基于字典域适应的迁移稀疏编码图像分类方法
CN109492765A (zh) * 2018-11-01 2019-03-19 浙江工业大学 一种基于迁移模型的图像增量学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾熹滨等: "多视角特征共享的空间对齐跨领域情感分类", 《计算机研究与发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825874A (zh) * 2019-10-29 2020-02-21 北京明略软件***有限公司 一种中文文本分类方法和装置及计算机可读存储介质
CN113723088A (zh) * 2020-05-25 2021-11-30 阿里巴巴集团控股有限公司 自然语言处理方法、装置、文本处理方法、设备和介质
CN111897964A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 文本分类模型训练方法、装置、设备及存储介质
CN111897964B (zh) * 2020-08-12 2023-10-17 腾讯科技(深圳)有限公司 文本分类模型训练方法、装置、设备及存储介质
CN113590761A (zh) * 2021-08-13 2021-11-02 网易有道信息技术(北京)有限公司 文本处理模型的训练方法、文本处理方法及相关设备
CN113590761B (zh) * 2021-08-13 2022-03-25 网易有道信息技术(北京)有限公司 文本处理模型的训练方法、文本处理方法及相关设备

Also Published As

Publication number Publication date
CN110119448B (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN110119448A (zh) 基于双重自动编码器的半监督跨领域文本分类方法
Boutell et al. Learning multi-label scene classification
CN105975916B (zh) 基于多输出卷积神经网络和有序回归的年龄估计方法
CN110110335A (zh) 一种基于层叠模型的命名实体识别方法
CN101419671B (zh) 基于模糊支持向量机的人脸性别识别方法
CN102156871B (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN107862027A (zh) 检索意图识别方法、装置、电子设备及可读存储介质
CN106991382A (zh) 一种遥感场景分类方法
Wang et al. Semi-supervised latent Dirichlet allocation and its application for document classification
CN102129568B (zh) 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法
CN106446954A (zh) 一种基于深度学习的字符识别方法
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN107943856A (zh) 一种基于扩充标记样本的文本分类方法及***
CN108415913A (zh) 基于不确定邻居的人群定向方法
CN110163286A (zh) 一种基于混合池化的领域自适应图像分类方法
CN107045640A (zh) 一种用于图像识别的基于邻域保持和核子空间对齐的方法
CN107203775A (zh) 一种图像分类的方法、装置和设备
CN109117885A (zh) 一种基于深度学习的邮票识别方法
CN116108917B (zh) 一种无标记样本增强的半监督图神经网络方法
CN102156885A (zh) 基于级联式码本生成的图像分类方法
CN112800210B (zh) 基于海量公交数据的人群画像算法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
Bedau et al. Open-ended technological innovation
Vovan et al. Automatic genetic algorithm in clustering for discrete elements

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant