CN110795410A - 一种多领域文本分类方法 - Google Patents

一种多领域文本分类方法 Download PDF

Info

Publication number
CN110795410A
CN110795410A CN201910948919.6A CN201910948919A CN110795410A CN 110795410 A CN110795410 A CN 110795410A CN 201910948919 A CN201910948919 A CN 201910948919A CN 110795410 A CN110795410 A CN 110795410A
Authority
CN
China
Prior art keywords
representation
private
text
word
shared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910948919.6A
Other languages
English (en)
Inventor
吴海明
赵洪雅
蔡倩华
薛云
周波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Shenzhen Polytechnic
Original Assignee
South China Normal University
Shenzhen Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University, Shenzhen Polytechnic filed Critical South China Normal University
Priority to CN201910948919.6A priority Critical patent/CN110795410A/zh
Publication of CN110795410A publication Critical patent/CN110795410A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种多领域文本分类方法,通过结合共享和私有特征的特性,设计了一种共享‑私有LSTM网络,用于提取文本的共享和私有表示;该方法具有并行运算特点,具有很快的运行速度,且其提取特征时,可以充分考虑词语上下文信息,可以有效提高文本表示的准确性,从而有利于文本分类性能;另外,在针对多领域文本特点上,本案让共享参数和私有参数进行充分地交互式学习,可以有利于提高共享信息和私有信息的完全分离。

Description

一种多领域文本分类方法
技术领域
本发明涉及自然语言处理领域中的多任务学习和文本分类领域,特别是涉及一种多领域文本分类方法。
背景技术
随着互联网技术的发展,万维网中的数据量与日俱增,其中有大量的数据是文本数据,这些数据涉及社会的各行各业,面对这样庞大体量的文本数据,如何做到数据的合理化分类成为一个重要的研究难题。对文本合理化、自动化分类,可以帮助人们解决很多难题,例如:垃圾信息判别、虚假信息发现等很多场合。近年来,为完成文本分类,那么文本的表示就显得至关重要,合理的文本表示可以获取准确的文本语义信息。
目前,基于单个任务或领域的文本分析已经表现出优异的效果,这也主要得益于学者们对文本表示的研究,先后出现了word2vec和glove等优秀的预训练词向量工具。但是一个比较常见的问题却始终吸引着学者们继续展开研究:在实际应用中,文本分析工作往往是面对多个领域的文本数据,而且各个领域的文本长短不一,数据分布千差万别,这就为现有技术带来了极大挑战。
对此,多领域和多任务问题逐渐成为研究的焦点,其中,一个可行的思路是对多个领域文本的共享特征和私有特征进行表示,并将最后得到的两种表示进一步“相加”得到最后的文本表示。如何准确提取文本的共享特征和私有特征,成为解决多领域文本分类问题的关键所在。
发明内容
本发明的目的在于现有技术的局限,提供一种多领域文本分类方法,由以下技术方案实现:
对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
相较于现有技术,本案的多领域文本分类方法通过结合共享和私有特征的特性,设计了一种共享-私有LSTM网络,用于提取文本的共享和私有表示;该方法具有并行运算特点,具有很快的运行速度,且其提取特征时,可以充分考虑词语上下文信息,可以有效提高文本表示的准确性,从而有利于文本分类性能;另外,在针对多领域文本特点上,该模型让共享参数和私有参数进行充分地交互式学习,可以有利于提高共享信息和私有信息的完全分离。
进一步的,初始化词语级门网络和句子级共享-私有门网络,可包括以下步骤:
初始化用于学习共享特征和私有特征的参数,包括词语级门网络参数θSW、共享句子级门网络参数θSS和私有句子级门网络参数θSP;其中,所述词语级门网络参数θSW主要用于提取词语级特征,获得每个单词的词语级状态;所述共享句子级门网络参数θSS和私有句子级门网络参数θSP用于提取所述每个文本的标准化表示的文本的共享特征和私有特征,获得对应句子的共享表示和私有表示;
根据所述初始化的词语级门网络参数θSW,构建所述词语级门网络,由所述词语级门网络获取每个词语的隐变量;
根据所述初始化的共享句子级门网络参数θSS和私有句子级门网络参数θSP以及所述每个词语的隐变量,构建所述句子级共享-私有门网络。
进一步的,由所述词语级门网络获取每个词语的隐变量,可包括以下步骤:
在时刻t,对于来自于领域k的词语wi的隐变量
Figure BDA0002225107590000021
将时刻t-1时词语wi的位置i前后和本身位置的隐变量
Figure BDA0002225107590000022
的组合矩阵
Figure BDA0002225107590000023
Figure BDA0002225107590000024
Figure BDA0002225107590000025
xi
Figure BDA0002225107590000026
Figure BDA0002225107590000027
作为时刻t时获取词语wi的隐变量的输入;其中,xi为wi的词向量,
Figure BDA0002225107590000029
分别表示时刻t-1时领域k的私有句子级隐变量、共享句子级隐变量;
获取每个输入的门系数,即用于控制各个输入对于
Figure BDA0002225107590000031
的信息贡献量的控制门系数:
Figure BDA0002225107590000032
Figure BDA0002225107590000033
Figure BDA0002225107590000034
Figure BDA0002225107590000035
Figure BDA0002225107590000036
Figure BDA0002225107590000037
Figure BDA0002225107590000038
Figure BDA0002225107590000039
其中,
Figure BDA00022251075900000310
分别表示xi
Figure BDA00022251075900000311
的贡献系数;
通过softmax激活函数进行正则化,使
Figure BDA00022251075900000314
总和为1:
Figure BDA00022251075900000315
其中
Figure BDA00022251075900000316
用于控制xi
Figure BDA00022251075900000317
的影响,
Figure BDA00022251075900000318
则分别表示
Figure BDA00022251075900000319
对于
Figure BDA00022251075900000320
的贡献,
Figure BDA00022251075900000321
则表示
Figure BDA00022251075900000322
Figure BDA00022251075900000324
的影响;
由此得到词语wi在时刻t的状态和隐变量
Figure BDA00022251075900000326
表示:
Figure BDA00022251075900000327
Figure BDA00022251075900000328
其中,
Figure BDA00022251075900000329
分别表示和xi的状态,运算符σ,tanh和⊙分别表示sigmoid,tanh激活函数和点乘运算。
进一步的,由所述特征提取器网络根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示,可包括以下步骤:
获取在时刻t的公共句子表示
Figure BDA00022251075900000331
Figure BDA00022251075900000332
Figure BDA00022251075900000333
Figure BDA00022251075900000335
Figure BDA00022251075900000336
Figure BDA00022251075900000337
Figure BDA00022251075900000338
其中,
Figure BDA0002225107590000041
是归一化的门结构系数,用于控制
Figure BDA0002225107590000042
的影响,
Figure BDA0002225107590000044
是输出门系数;运算符avg表示对
Figure BDA0002225107590000045
取均值运算;
获取在时刻t的私有句子表示
Figure BDA0002225107590000047
Figure BDA0002225107590000048
Figure BDA0002225107590000049
Figure BDA00022251075900000410
Figure BDA00022251075900000411
其中,均为门控制系数。专有数据集θSk={Wxc,Uxc,bxc}(x∈{i,f,o})且有θSP={θS1S2,...,θSm};
重复循环所述公共句子表示
Figure BDA00022251075900000415
私有句子表示
Figure BDA00022251075900000416
的获取步骤直到预设的时刻T时输出对应的共享表示
Figure BDA00022251075900000417
和私有表示
Figure BDA00022251075900000418
进一步的,由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器,可包括以下步骤:
初始化一用于判断共享表示
Figure BDA00022251075900000419
来自于哪一领域的判别器,所述判别器带有一组判别参数θD=(WD,bD),使用交叉熵获得判别器的对抗损失Ladv
Figure BDA00022251075900000420
Figure BDA00022251075900000421
其中,j表示来自训练数据集
Figure BDA00022251075900000422
中第k个领域的第j条句子;
通过最小化判断误差
Figure BDA00022251075900000423
优化参数θD
通过最大化判别误差
Figure BDA00022251075900000424
优化共享句子级门网络参数θSS
进一步的,根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型,可包括以下步骤:
将共享表示
Figure BDA00022251075900000425
和私有表示
Figure BDA00022251075900000426
进行拼接,作为最后的句子表示,形式化表示为:
Figure BDA00022251075900000427
初始化一组分类器参数θT,其中,每个领域对应的私有分类器参数:θT={θT1T2,...,θTm}={{WT1,bT1},{WT2,bT2},...,{WTm,bTm}};
通过softmax激活函数获得句子表示的预测分布,并通过交叉熵计算获得情感向量和真实情感向量的预测损失Ltext
Figure BDA0002225107590000051
Figure BDA0002225107590000052
其中,
Figure BDA0002225107590000053
为真实情感向量第l维的数值,L表示情感标签向量的总长度;
根据所述对抗损失Ladv和预测损失Ltext,构建模型训练的损失函数:
Lloss=Ltext+λLadv
其中,λ是超参数,需要用户通过实验进一步设定;
通过所述开发集最小化损失函数Lloss进行模型训练,获得所述多领域文本分类模型的最优模型。
在一种可选的实施例中,还可包括以下步骤:
根据所述分类预测的结果,获得所述分类预测的准确率:将模型预测
Figure BDA0002225107590000054
最大的一个维度的数值赋值为1,结合真实情感向量
Figure BDA0002225107590000055
构建判断函数:
由此获得领域准确率:
其中,
Figure BDA0002225107590000058
表示领域k的测试集样本总个数;
由此获得平均准确率:
Figure BDA0002225107590000059
其中,K是领域的总个数。
一种多领域文本分类***,包括:
预处理模块,用于对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
特征提取器构建模块,用于通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
特征提取器优化模块,用于由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
多领域文本分类模型构建与训练开发模块,用于根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
分类预测模块,用于运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
本发明还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。
本发明还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明实施例多领域文本分类方法的流程图;
图2为本发明构建的所述共享-私有LSTM网络结构示意图;
图3为本发明实施例多领域文本分类方法中步骤S02的流程图;
图4为本发明实施例的多领域文本分类***示意图。
具体实施方式
关于本发明实施例中所涉及的“特征”与“表示”,由于计算机只能识别数字,故可将文字信息中的特征通过向量进行表示,即“表示”指计算机可以识别的那个向量,而“特征”即该向量对应的含义。具体可结合以下例子加以理解,
例如:我很高兴,最后用一个向量[0,0,0,1,1,1]表示这句话,那么这个句话中的特征“高兴”一词就涵盖在这个向量中。
又如:姚明、刘强东、马云、刘翔;
这4个数据的共享特征可以是:1)人,2)男人,3)名人…
各自的私有特征可以是:
姚明:篮球明星
刘强东:京东。
针对多领域、多文本的数据的文本分类问题,本实施例提供一种多领域文本分类方法,请参阅图1,由以下技术方案实现:
S01,对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
S02,通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
S03,由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
S04,根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
S05,运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
具体的,本案是在针对如何准确提取文本的共享特征和私有特征的问题上设计了一种共享-私有LSTM网络,其可称为SP-LSTM网络,请参阅图2;该网络通过设置用于学习每个词语的隐变量的词语级门网络以及用于提取所有领域句子的共享表示和私有表示的句子级共享-私有门网络对文本的共享特征和私有特征进行准确的划分,可以充分考虑词语上下文信息,可以有效提高文本表示的准确性,从而有利于文本分类性能;并且,不同于RNNs的时间序列运算,RNNs始终只能在预算完前一个词语wt-1的隐变量ht-1后,将ht-1和xt作为输入,才能计算wt的隐变量ht,而不能并行计算;在所述共享-私有LSTM网络的运行过程中,在所述语级门网络学习于计算
Figure BDA0002225107590000071
时,是基于时刻t-1的xi
Figure BDA0002225107590000072
所以相较于其它RNNs,本案的SP-LSTM可以同时运算句子中每一个词语在该时刻隐变量
Figure BDA0002225107590000073
达到并行运算的效果,因而具有很快的运行速度。
相较于现有技术,本案的多领域文本分类方法通过结合共享和私有特征的特性,设计了一种共享-私有LSTM网络,用于提取文本的共享和私有表示;该方法具有并行运算特点,具有很快的运行速度,且其提取特征时,可以充分考虑词语上下文信息,可以有效提高文本表示的准确性,从而有利于文本分类性能;另外,在针对多领域文本特点上,本案让共享参数和私有参数进行充分地交互式学习,可以有利于提高共享信息和私有信息的完全分离。
作为一种可选的实施例,在步骤S1中可运用基于Glove模型的词向量工具对多领域文本数据集中的原始文本Ssentence={w1,w2,...,wi,...,wn}进行预处理;其中,wi表示文本sentence的第i个词语,n为该文本词语的总个数;经过预处理后得到的每个文本Ssentence的标准化表示Xsentence={x1,x2,...,xi,...,xn},其中xi是词语wi分布式向量表示,是一个固定维度的向量,Xsentence即为一个表示句子的矩阵;然后可将领域dk中每个文本的不同情感含义表示为不同的情感向量yk;作为一种可选的实施例,本实施例选用的是正负极情感文本,可对“activate”表示为“0,1”,“negative”表示为“1,0”,并且为每个文本添加一个领域标签dk,于是将每个样本记作(dk,Xsentence,yk)。
在所述句子级共享-私有门网络中,包括对应每个领域数据一组的私有门以及一组公共的共享门;所有的样本(dk,Xsentence,yk)先通过词语级网络,再通过共享-私有句子级网络,来获取每个文本的共享表示和私有表示。
具体的,所述对抗神经网络由一个判别器构成,主要用于判断来自共享-私有LSTM网络的共享表示来自哪个领域。
进一步的,初始化用于学习共享特征和私有特征的参数,可包括以下步骤:
S021,初始化用于学习共享特征和私有特征的参数,包括词语级门网络参数θSW、共享句子级门网络参数θSS和私有句子级门网络参数θSP;其中,所述词语级门网络参数θSW主要用于提取词语级特征,获得每个单词的词语级状态;所述共享句子级门网络参数θSS和私有句子级门网络参数θSP用于提取所述每个文本的标准化表示的文本的共享特征和私有特征,获得对应句子的共享表示和私有表示;
S022,根据所述初始化的词语级门网络参数θSW,构建所述词语级门网络,由所述词语级门网络获取每个词语的隐变量;
S023,根据所述初始化的共享句子级门网络参数θSS和私有句子级门网络参数θSP以及所述每个词语的隐变量,构建所述句子级共享-私有门网络。
其中,所述词语级门网络参数θSW、共享句子级门网络参数θSS和私有句子级门网络参数θSP为所述SP-LSTM门结构参数的集合。
进一步的,由所述词语级门网络获取每个词语的隐变量,可包括以下步骤:
在时刻t,对于来自于领域k的词语wi的隐变量将时刻t-1时词语wi的位置i前后和本身位置的隐变量
Figure BDA0002225107590000092
的组合矩阵
Figure BDA0002225107590000093
xi
Figure BDA0002225107590000096
Figure BDA0002225107590000097
作为时刻t时获取词语wi的隐变量
Figure BDA0002225107590000098
的输入;其中,xi为wi的词向量,
Figure BDA0002225107590000099
分别表示时刻t-1时领域k的私有句子级隐变量、共享句子级隐变量;
获取每个输入的门系数,即用于控制各个输入对于
Figure BDA00022251075900000910
的信息贡献量的控制门系数:
Figure BDA00022251075900000911
Figure BDA00022251075900000912
Figure BDA00022251075900000913
Figure BDA00022251075900000915
Figure BDA00022251075900000916
Figure BDA00022251075900000917
Figure BDA00022251075900000918
其中,
Figure BDA00022251075900000919
分别表示xi
Figure BDA00022251075900000920
Figure BDA00022251075900000921
Figure BDA00022251075900000922
的贡献系数;
通过softmax激活函数进行正则化,使
Figure BDA00022251075900000923
总和为1:
Figure BDA00022251075900000924
其中用于控制xi
Figure BDA00022251075900000926
的影响,
Figure BDA00022251075900000927
则分别表示
Figure BDA00022251075900000928
对于
Figure BDA00022251075900000929
的贡献,
Figure BDA00022251075900000930
则表示
Figure BDA00022251075900000931
Figure BDA00022251075900000932
Figure BDA00022251075900000933
的影响;
由此得到词语wi在时刻t的状态
Figure BDA00022251075900000934
和隐变量
Figure BDA00022251075900000935
表示:
Figure BDA00022251075900000936
Figure BDA00022251075900000937
其中,
Figure BDA00022251075900000938
分别表示和xi的状态,运算符σ,tanh和⊙分别表示sigmoid,tanh激活函数和点乘运算。
具体的,通过对
Figure BDA0002225107590000101
进行正则化使其总和为1,能保证的稳定性。其中,参数集{Wx,Ux,Vx,bx}(x∈{i,l,f,r,k,s,u,o})即为词语级门网络参数θSW
进一步的,由所述特征提取器网络根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示,可包括以下步骤:
获取在时刻t的公共句子表示
Figure BDA0002225107590000103
Figure BDA0002225107590000104
Figure BDA0002225107590000105
Figure BDA0002225107590000106
Figure BDA0002225107590000107
Figure BDA0002225107590000108
Figure BDA0002225107590000109
其中,
Figure BDA00022251075900001011
是归一化的门结构系数,用于控制
Figure BDA00022251075900001012
Figure BDA00022251075900001013
的影响,是输出门系数;运算符avg表示对
Figure BDA00022251075900001015
取均值运算;
获取在时刻t的私有句子表示
Figure BDA00022251075900001016
Figure BDA00022251075900001017
Figure BDA00022251075900001018
Figure BDA00022251075900001019
Figure BDA00022251075900001020
Figure BDA00022251075900001021
Figure BDA00022251075900001022
其中,
Figure BDA00022251075900001023
Figure BDA00022251075900001024
均为门控制系数。专有数据集θSk={Wxc,Uxc,bxc}(x∈{i,f,o})且有θSP={θS1S2,...,θSm};
重复循环所述公共句子表示
Figure BDA00022251075900001025
私有句子表示
Figure BDA00022251075900001026
的获取步骤直到预设的时刻T时输出对应的共享表示和私有表示
Figure BDA00022251075900001028
其中,参数集{Wxc,Uxc,bxc}(x∈{i,f,o})即为共享句子级门网络参数θSS,而私有句子级门参数θSP包含m组参数θSk(k=1,2,...,m),m为训练模型数据集的领域数量。同时,针对第k个领域中每个句子的私有句子表示可以通过领域k的私有参数θSk构建神经网络,领域标签dk用于选择对应的领域私有参数。
所以,可以综合上述过程为:
其中,X是输入句子s={w1,w2,...,wn}的词向量表示句子,可以表示为X={x1,x2,...,xn},dk是领域标签。
进一步的,由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器,可包括以下步骤:
初始化一用于判断共享表示
Figure BDA0002225107590000111
来自于哪一领域的判别器,所述判别器带有一组判别参数θD=(WD,bD),使用交叉熵获得判别器的对抗损失Ladv
Figure BDA0002225107590000112
其中,j表示来自训练数据集
Figure BDA0002225107590000114
中第k个领域的第j条句子;
通过最小化判断误差
Figure BDA0002225107590000115
优化参数θD
通过最大化判别误差
Figure BDA0002225107590000116
优化共享句子级门网络参数θSS
进一步的,根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型,可包括以下步骤:
将共享表示
Figure BDA0002225107590000117
和私有表示
Figure BDA0002225107590000118
进行拼接,作为最后的句子表示,形式化表示为:
Figure BDA0002225107590000119
初始化一组分类器参数θT,其中,每个领域对应的私有分类器参数:θT={θT1T2,...,θTm}={{WT1,bT1},{WT2,bT2},...,{WTm,bTm}};
通过softmax激活函数获得句子表示的预测分布,并通过交叉熵计算获得情感向量和真实情感向量的预测损失Ltext
Figure BDA00022251075900001110
Figure BDA00022251075900001111
其中,
Figure BDA00022251075900001112
为真实情感向量第l维的数值,L表示情感标签向量的总长度;
根据所述对抗损失Ladv和预测损失Ltext,构建模型训练的损失函数:
Lloss=Ltext+λLadv
其中,λ是超参数,需要用户通过实验进一步设定;
通过所述开发集最小化损失函数Lloss进行模型训练,获得所述多领域文本分类模型的最优模型。
在本实施例中,L=2。
在一种可选的实施例中,还可包括以下步骤:
S6,根据所述分类预测的结果,获得所述分类预测的准确率:将模型预测
Figure BDA0002225107590000121
最大的一个维度的数值赋值为1,结合真实情感向量构建判断函数:
Figure BDA0002225107590000123
由此获得领域准确率:
Figure BDA0002225107590000124
其中,
Figure BDA0002225107590000125
表示领域k的测试集样本总个数;
由此获得平均准确率:
其中,K是领域的总个数。
此处结合具体的文本数据对本实施例的方案进行实验和评估:
1)准备阶段:
1.下载基于预训练的glove词向量文件,实验所用词向量维度为200维,下载网址:https://nlp.stanford.edu/projects/glove/;
2.对领域产品评论文本数据集:FDU-MTL(数据下载地址:https://pan.***.com/s/1c2L6vdA),数据集详细信息见下表1:
表1:16个领域数据集统计信息
Dataset Train Dev. Test Avg.Len Vocab.
Books 1400 200 400 159 62K
Electronics 1398 200 400 101 30K
DVD 1400 200 400 173 69K
Kitchen 1400 200 400 89 28K
Apparel 1400 200 400 57 21K
Camera 1397 200 400 130 26K
Health 1400 200 400 81 26K
Music 1400 200 400 136 60K
Toys 1400 200 400 90 28K
Video 1400 200 400 156 57K
Baby 1300 200 400 104 26K
Magazines 1370 200 400 117 30K
Software 1315 200 400 129 26K
Sports 1400 200 400 94 30K
IMDB 1400 200 400 269 44K
MR 1400 200 400 21 12K
表中Dataset所在的列表示不同领域数据集的名字,Train,Dev,Test所在列的数值分别表示训练集、开发集和测试集的样本数量,Avg.Len表示平均文本词语数,Vocab.表示数据集所含的词语总数。
2)对数据集中的数据进行分词等预处理为单独的词语,并通过glove词向量,将词语转化为词向量,将每个句子转化为词向量矩阵,将词向量矩阵作为后续网络的输入。
3)构建基于共享-私有LSTM的多领域文本分类网络,计算输入的词向量矩阵的共享表示和私有表示,并进一步计算对抗损失和分类误差,然后,通过最小化分类误差和极小极大化对抗损失,进而优化句子级门参数、共享句子级门参数和领域私有句子级门参数。在训练操作中,本发明设定SP-LSTM的隐藏层大小为200,实现工具为Tensorflow(https://tensorflow.***.cn/)。
4)保存3)中得到的SP-LSTM网络,维持网络参数不变,用于新的文本数据分类预测。
表2展示了本发明的方法与其他基于深度学习方法的实验对比效果。其中,LSTM+DO表示使用一个通用的LSTM网络用于所有领域数据的特征提取,并对不同的领域使用领域自生的分类器进行分类。LSTM+ADV+Diff表示使用多组LSTM网络(一个公有的LSTM网络用于提取共享特征,同时每个领域的私有LSTM用于提取领域私有特征)提取特征,而后通过对抗网络和矩阵正交约束进行特征分离,但是这种方法忽略了LSTM只能从文本的一端向另一端进行学习,而且只能在学习完特征以后,完全依靠对抗网络和矩阵正交约束进行特征分离。DSAM表示通过一个LSTM学习文本的通用表示,同时为每个领域使用私有的Attention机制学习领域信息,并将领域信息存储在一个私有向量中,通过私有向量与通用表示拼接,得到最后的文本表示。
表2:本发明的方法与其他深度学习方法的案例实施效果对比
Model LSTM+DO LSTM+ADV+Diff SP-LSTM SP-SLSTM+ADV
Apparel 83.50 87.25 89.50 88.75
Baby 86.75 87.00 89.75 90.75
Books 85.75 86.25 88.50 89.00
Camera 89.25 88.25 91.00 91.50
Electronics 84.75 85.75 87.75 89.75
DVD 85.25 86.00 88.50 88.75
Health 88.75 87.50 90.75 90.00
IMDB 85.25 86.25 85.75 85.75
Kitchen 84.25 87.25 88.50 88.50
Magazines 90.50 93.25 94.00 94.00
MR 74.75 74.75 74.00 76.25
Music 82.75 83.25 84.75 85.25
Software 86.50 83.75 89.75 90.75
Sports 86.50 86.00 89.50 90.00
Toys 86.00 89.75 91.00 88.75
Video 84.00 83.75 88.75 88.75
Avg_Acc. 85.28 86.00 88.23 88.53
上述表格中,LSTM+DO和LSTM+ADV+Diff为现有的两个文本分类方案,但其共享特征和私有特征在训练中不能充分交互而不能真正得到分离,同时LSTM的时间序列化训练,会使得运算效率难以提升。而SP-LSTM表示基于本发明中提出的共享-私有LSTM网络的方案,SP-SLSTM+ADV表示在共享-私有LSTM的基础上添加了对抗神经网络对共享句子级门网络参数进行优化的方案。Avg_Acc.表示最后本发明在不同的方法上得到的多个领域的平均准确率。可以看出,本发明提出的方法要显著高于已有的两个方案。
一种多领域文本分类***,请参阅图4,包括:
1,预处理模块,用于对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
2,特征提取器构建模块,用于通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
3,特征提取器优化模块,用于由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
4,多领域文本分类模型构建与训练开发模块,用于根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
5,分类预测模块,用于运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
本实施例还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。
本实施例还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种多领域文本分类方法,其特征在于,包括以下步骤:
对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
2.根据权利要求1所述的多领域文本分类方法,其特征在于,初始化词语级门网络和句子级共享-私有门网络,包括以下步骤:
初始化用于学习共享特征和私有特征的参数,包括词语级门网络参数θSW、共享句子级门网络参数θSS和私有句子级门网络参数θSP;其中,所述词语级门网络参数θSW主要用于提取词语级特征,获得每个单词的词语级状态;所述共享句子级门网络参数θSS和私有句子级门网络参数θSP用于提取所述每个文本的标准化表示的文本的共享特征和私有特征,获得对应句子的共享表示和私有表示;
根据所述初始化的词语级门网络参数θSW,构建所述词语级门网络,由所述词语级门网络获取每个词语的隐变量;
根据所述初始化的共享句子级门网络参数θSS和私有句子级门网络参数θSP以及所述每个词语的隐变量,构建所述句子级共享-私有门网络。
3.根据权利要求2所述的多领域文本分类方法,其特征在于,由所述词语级门网络获取每个词语的隐变量,包括以下步骤:
在时刻t,对于来自于领域k的词语wi的隐变量
Figure FDA0002225107580000021
将时刻t-1时词语wi的位置i前后和本身位置的隐变量
Figure FDA0002225107580000022
的组合矩阵
Figure FDA0002225107580000023
Figure FDA0002225107580000024
Figure FDA0002225107580000025
xi
Figure FDA0002225107580000026
Figure FDA0002225107580000027
作为时刻t时获取词语wi的隐变量
Figure FDA0002225107580000028
的输入;其中,xi为wi的词向量,
Figure FDA0002225107580000029
分别表示时刻t-1时领域k的私有句子级隐变量、共享句子级隐变量;
获取每个输入的门系数,即用于控制各个输入对于
Figure FDA00022251075800000210
的信息贡献量的控制门系数:
Figure FDA00022251075800000211
Figure FDA00022251075800000212
Figure FDA00022251075800000213
Figure FDA00022251075800000214
Figure FDA00022251075800000215
Figure FDA00022251075800000216
Figure FDA00022251075800000217
Figure FDA00022251075800000218
其中,fi t,ri t,
Figure FDA00022251075800000220
分别表示xi
Figure FDA00022251075800000221
Figure FDA00022251075800000222
Figure FDA00022251075800000223
的贡献系数;
通过softmax激活函数进行正则化,使
Figure FDA00022251075800000224
fi t,ri t,
Figure FDA00022251075800000225
总和为1:
Figure FDA00022251075800000226
其中用于控制xi
Figure FDA00022251075800000228
的影响,
Figure FDA00022251075800000229
fi t,ri t则分别表示
Figure FDA00022251075800000230
对于
Figure FDA00022251075800000231
的贡献,则表示
Figure FDA00022251075800000233
Figure FDA00022251075800000234
的影响;
由此得到词语wi在时刻t的状态
Figure FDA00022251075800000236
和隐变量
Figure FDA00022251075800000237
表示:
Figure FDA00022251075800000238
Figure FDA00022251075800000239
其中,
Figure FDA00022251075800000240
分别表示
Figure FDA00022251075800000241
和xi的状态,运算符σ,tanh和⊙分别表示sigmoid,tanh激活函数和点乘运算。
4.根据权利要求2所述的多领域文本分类方法,其特征在于,由所述特征提取器网络根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示,包括以下步骤:
获取在时刻t的公共句子表示
Figure FDA00022251075800000242
Figure FDA0002225107580000031
Figure FDA0002225107580000032
Figure FDA0002225107580000033
Figure FDA0002225107580000034
Figure FDA0002225107580000035
Figure FDA0002225107580000036
Figure FDA0002225107580000037
其中,
Figure FDA0002225107580000038
是归一化的门结构系数,用于控制
Figure FDA0002225107580000039
Figure FDA00022251075800000310
的影响,是输出门系数;运算符avg表示对
Figure FDA00022251075800000312
取均值运算;
获取在时刻t的私有句子表示
Figure FDA00022251075800000313
Figure FDA00022251075800000315
Figure FDA00022251075800000316
Figure FDA00022251075800000317
Figure FDA00022251075800000318
Figure FDA00022251075800000319
其中,
Figure FDA00022251075800000333
均为门控制系数。专有数据集θSk={Wxc,Uxc,bxc}(x∈{i,f,o})且有θSP={θS1S2,...,θSm};
重复循环所述公共句子表示私有句子表示的获取步骤直到预设的时刻T时输出对应的共享表示
Figure FDA00022251075800000325
和私有表示
Figure FDA00022251075800000326
5.根据权利要求2所述的多领域文本分类方法,其特征在于,由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器,包括以下步骤:
初始化一用于判断共享表示
Figure FDA00022251075800000327
来自于哪一领域的判别器,所述判别器带有一组判别参数θD=(WD,bD),使用交叉熵获得判别器的对抗损失Ladv
Figure FDA00022251075800000328
Figure FDA00022251075800000329
其中,j表示来自训练数据集
Figure FDA00022251075800000330
中第k个领域的第j条句子;
通过最小化判断误差
Figure FDA00022251075800000331
优化参数θD
通过最大化判别误差
Figure FDA00022251075800000332
优化共享句子级门网络参数θSS
6.根据权利要求5所述的多领域文本分类方法,其特征在于,根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型,包括以下步骤:
将共享表示
Figure FDA0002225107580000041
和私有表示
Figure FDA0002225107580000042
进行拼接,作为最后的句子表示,形式化表示为:
Figure FDA0002225107580000043
初始化一组分类器参数θT,其中,每个领域对应的私有分类器参数:θT={θT1T2,...,θTm}={{WT1,bT1},{WT2,bT2},...,{WTm,bTm}};
通过softmax激活函数获得句子表示的预测分布,并通过交叉熵计算获得情感向量和真实情感向量的预测损失Ltext
Figure FDA0002225107580000044
其中,
Figure FDA0002225107580000046
为真实情感向量第l维的数值,L表示情感标签向量的总长度;
根据所述对抗损失Ladv和预测损失Ltext,构建模型训练的损失函数:
Lloss=Ltext+λLadv
其中,λ是超参数,需要用户通过实验进一步设定;
通过所述开发集最小化损失函数Lloss进行模型训练,获得所述多领域文本分类模型的最优模型。
7.根据权利要求4所述的多领域文本分类方法,其特征在于,还包括以下步骤:
根据所述分类预测的结果,获得所述分类预测的准确率:将模型预测
Figure FDA0002225107580000047
最大的一个维度的数值赋值为1,结合真实情感向量
Figure FDA0002225107580000048
构建判断函数:
Figure FDA0002225107580000049
由此获得领域准确率:
Figure FDA00022251075800000410
其中,
Figure FDA00022251075800000411
表示领域k的测试集样本总个数;
由此获得平均准确率:
Figure FDA0002225107580000051
其中,K是领域的总个数。
8.一种多领域文本分类***,其特征在于,包括:
预处理模块,用于对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
特征提取器构建模块,用于通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
特征提取器优化模块,用于由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
多领域文本分类模型构建与训练开发模块,用于根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
分类预测模块,用于运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
9.一种储存介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多领域文本分类方法的步骤。
10.一种计算机,其特征在于:包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多领域文本分类方法的步骤。
CN201910948919.6A 2019-10-08 2019-10-08 一种多领域文本分类方法 Pending CN110795410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910948919.6A CN110795410A (zh) 2019-10-08 2019-10-08 一种多领域文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910948919.6A CN110795410A (zh) 2019-10-08 2019-10-08 一种多领域文本分类方法

Publications (1)

Publication Number Publication Date
CN110795410A true CN110795410A (zh) 2020-02-14

Family

ID=69440074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910948919.6A Pending CN110795410A (zh) 2019-10-08 2019-10-08 一种多领域文本分类方法

Country Status (1)

Country Link
CN (1) CN110795410A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755118A (zh) * 2020-03-16 2020-10-09 腾讯科技(深圳)有限公司 医疗信息处理方法、装置、电子设备及存储介质
CN112989801A (zh) * 2021-05-11 2021-06-18 华南师范大学 一种序列标注方法、装置及设备
CN113821642A (zh) * 2021-11-18 2021-12-21 杭州费尔斯通科技有限公司 一种基于gan聚类的文本清洗方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108334497A (zh) * 2018-02-06 2018-07-27 北京航空航天大学 自动生成文本的方法和装置
US20180240012A1 (en) * 2017-02-17 2018-08-23 Wipro Limited Method and system for determining classification of text
CN109543031A (zh) * 2018-10-16 2019-03-29 华南理工大学 一种基于多任务对抗学习的文本分类方法
CN109992703A (zh) * 2019-01-28 2019-07-09 西安交通大学 一种基于多任务学习的差异化特征挖掘的可信度评估方法
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180240012A1 (en) * 2017-02-17 2018-08-23 Wipro Limited Method and system for determining classification of text
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108334497A (zh) * 2018-02-06 2018-07-27 北京航空航天大学 自动生成文本的方法和装置
CN109543031A (zh) * 2018-10-16 2019-03-29 华南理工大学 一种基于多任务对抗学习的文本分类方法
CN109992703A (zh) * 2019-01-28 2019-07-09 西安交通大学 一种基于多任务学习的差异化特征挖掘的可信度评估方法
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAIMING WU等: "Shared-Private LSTM for Multi-domain Text Classification", 《NLPCC 2019: NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755118A (zh) * 2020-03-16 2020-10-09 腾讯科技(深圳)有限公司 医疗信息处理方法、装置、电子设备及存储介质
CN111755118B (zh) * 2020-03-16 2024-03-08 腾讯科技(深圳)有限公司 医疗信息处理方法、装置、电子设备及存储介质
CN112989801A (zh) * 2021-05-11 2021-06-18 华南师范大学 一种序列标注方法、装置及设备
CN112989801B (zh) * 2021-05-11 2021-08-13 华南师范大学 一种序列标注方法、装置及设备
CN113821642A (zh) * 2021-11-18 2021-12-21 杭州费尔斯通科技有限公司 一种基于gan聚类的文本清洗方法及***

Similar Documents

Publication Publication Date Title
Kuznetsova et al. The open images dataset v4: Unified image classification, object detection, and visual relationship detection at scale
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
Pu et al. Variational autoencoder for deep learning of images, labels and captions
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN108536784B (zh) 评论信息情感分析方法、装置、计算机存储介质和服务器
CN111475642A (zh) 一种文本分类方法、装置及模型训练方法
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN111881671B (zh) 一种属性词提取方法
CN110795410A (zh) 一种多领域文本分类方法
Gowda et al. Learn2augment: learning to composite videos for data augmentation in action recognition
CN108537257B (zh) 基于判别性字典矩阵对的零样本图像分类方法
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
Du et al. Generation, augmentation, and alignment: A pseudo-source domain based method for source-free domain adaptation
CN105701225B (zh) 一种基于统一关联超图规约的跨媒体检索方法
CN114998602B (zh) 基于低置信度样本对比损失的域适应学习方法及***
CN111460157A (zh) 用于多领域文本分类的循环卷积多任务学习方法
Hu et al. Sketch-a-classifier: Sketch-based photo classifier generation
Lin et al. Two stream active query suggestion for active learning in connectomics
Zhai et al. Face verification across aging based on deep convolutional networks and local binary patterns
CN111813939A (zh) 一种基于表征增强与融合的文本分类方法
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN112199505A (zh) 一种基于特征表示学习的跨领域情感分类方法及***
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN114780723A (zh) 基于向导网络文本分类的画像生成方法、***和介质
CN113722439A (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200214