CN110795410A - 一种多领域文本分类方法 - Google Patents
一种多领域文本分类方法 Download PDFInfo
- Publication number
- CN110795410A CN110795410A CN201910948919.6A CN201910948919A CN110795410A CN 110795410 A CN110795410 A CN 110795410A CN 201910948919 A CN201910948919 A CN 201910948919A CN 110795410 A CN110795410 A CN 110795410A
- Authority
- CN
- China
- Prior art keywords
- representation
- private
- text
- word
- shared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种多领域文本分类方法,通过结合共享和私有特征的特性,设计了一种共享‑私有LSTM网络,用于提取文本的共享和私有表示;该方法具有并行运算特点,具有很快的运行速度,且其提取特征时,可以充分考虑词语上下文信息,可以有效提高文本表示的准确性,从而有利于文本分类性能;另外,在针对多领域文本特点上,本案让共享参数和私有参数进行充分地交互式学习,可以有利于提高共享信息和私有信息的完全分离。
Description
技术领域
本发明涉及自然语言处理领域中的多任务学习和文本分类领域,特别是涉及一种多领域文本分类方法。
背景技术
随着互联网技术的发展,万维网中的数据量与日俱增,其中有大量的数据是文本数据,这些数据涉及社会的各行各业,面对这样庞大体量的文本数据,如何做到数据的合理化分类成为一个重要的研究难题。对文本合理化、自动化分类,可以帮助人们解决很多难题,例如:垃圾信息判别、虚假信息发现等很多场合。近年来,为完成文本分类,那么文本的表示就显得至关重要,合理的文本表示可以获取准确的文本语义信息。
目前,基于单个任务或领域的文本分析已经表现出优异的效果,这也主要得益于学者们对文本表示的研究,先后出现了word2vec和glove等优秀的预训练词向量工具。但是一个比较常见的问题却始终吸引着学者们继续展开研究:在实际应用中,文本分析工作往往是面对多个领域的文本数据,而且各个领域的文本长短不一,数据分布千差万别,这就为现有技术带来了极大挑战。
对此,多领域和多任务问题逐渐成为研究的焦点,其中,一个可行的思路是对多个领域文本的共享特征和私有特征进行表示,并将最后得到的两种表示进一步“相加”得到最后的文本表示。如何准确提取文本的共享特征和私有特征,成为解决多领域文本分类问题的关键所在。
发明内容
本发明的目的在于现有技术的局限,提供一种多领域文本分类方法,由以下技术方案实现:
对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
相较于现有技术,本案的多领域文本分类方法通过结合共享和私有特征的特性,设计了一种共享-私有LSTM网络,用于提取文本的共享和私有表示;该方法具有并行运算特点,具有很快的运行速度,且其提取特征时,可以充分考虑词语上下文信息,可以有效提高文本表示的准确性,从而有利于文本分类性能;另外,在针对多领域文本特点上,该模型让共享参数和私有参数进行充分地交互式学习,可以有利于提高共享信息和私有信息的完全分离。
进一步的,初始化词语级门网络和句子级共享-私有门网络,可包括以下步骤:
初始化用于学习共享特征和私有特征的参数,包括词语级门网络参数θSW、共享句子级门网络参数θSS和私有句子级门网络参数θSP;其中,所述词语级门网络参数θSW主要用于提取词语级特征,获得每个单词的词语级状态;所述共享句子级门网络参数θSS和私有句子级门网络参数θSP用于提取所述每个文本的标准化表示的文本的共享特征和私有特征,获得对应句子的共享表示和私有表示;
根据所述初始化的词语级门网络参数θSW,构建所述词语级门网络,由所述词语级门网络获取每个词语的隐变量;
根据所述初始化的共享句子级门网络参数θSS和私有句子级门网络参数θSP以及所述每个词语的隐变量,构建所述句子级共享-私有门网络。
进一步的,由所述词语级门网络获取每个词语的隐变量,可包括以下步骤:
进一步的,由所述特征提取器网络根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示,可包括以下步骤:
获取在时刻t的私有句子表示
其中,和均为门控制系数。专有数据集θSk={Wxc,Uxc,bxc}(x∈{i,f,o})且有θSP={θS1,θS2,...,θSm};
进一步的,由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器,可包括以下步骤:
进一步的,根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型,可包括以下步骤:
初始化一组分类器参数θT,其中,每个领域对应的私有分类器参数:θT={θT1,θT2,...,θTm}={{WT1,bT1},{WT2,bT2},...,{WTm,bTm}};
通过softmax激活函数获得句子表示的预测分布,并通过交叉熵计算获得情感向量和真实情感向量的预测损失Ltext:
根据所述对抗损失Ladv和预测损失Ltext,构建模型训练的损失函数:
Lloss=Ltext+λLadv
其中,λ是超参数,需要用户通过实验进一步设定;
通过所述开发集最小化损失函数Lloss进行模型训练,获得所述多领域文本分类模型的最优模型。
在一种可选的实施例中,还可包括以下步骤:
由此获得领域准确率:
由此获得平均准确率:
其中,K是领域的总个数。
一种多领域文本分类***,包括:
预处理模块,用于对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
特征提取器构建模块,用于通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
特征提取器优化模块,用于由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
多领域文本分类模型构建与训练开发模块,用于根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
分类预测模块,用于运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
本发明还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。
本发明还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明实施例多领域文本分类方法的流程图;
图2为本发明构建的所述共享-私有LSTM网络结构示意图;
图3为本发明实施例多领域文本分类方法中步骤S02的流程图;
图4为本发明实施例的多领域文本分类***示意图。
具体实施方式
关于本发明实施例中所涉及的“特征”与“表示”,由于计算机只能识别数字,故可将文字信息中的特征通过向量进行表示,即“表示”指计算机可以识别的那个向量,而“特征”即该向量对应的含义。具体可结合以下例子加以理解,
例如:我很高兴,最后用一个向量[0,0,0,1,1,1]表示这句话,那么这个句话中的特征“高兴”一词就涵盖在这个向量中。
又如:姚明、刘强东、马云、刘翔;
这4个数据的共享特征可以是:1)人,2)男人,3)名人…
各自的私有特征可以是:
姚明:篮球明星
刘强东:京东。
针对多领域、多文本的数据的文本分类问题,本实施例提供一种多领域文本分类方法,请参阅图1,由以下技术方案实现:
S01,对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
S02,通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
S03,由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
S04,根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
S05,运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
具体的,本案是在针对如何准确提取文本的共享特征和私有特征的问题上设计了一种共享-私有LSTM网络,其可称为SP-LSTM网络,请参阅图2;该网络通过设置用于学习每个词语的隐变量的词语级门网络以及用于提取所有领域句子的共享表示和私有表示的句子级共享-私有门网络对文本的共享特征和私有特征进行准确的划分,可以充分考虑词语上下文信息,可以有效提高文本表示的准确性,从而有利于文本分类性能;并且,不同于RNNs的时间序列运算,RNNs始终只能在预算完前一个词语wt-1的隐变量ht-1后,将ht-1和xt作为输入,才能计算wt的隐变量ht,而不能并行计算;在所述共享-私有LSTM网络的运行过程中,在所述语级门网络学习于计算时,是基于时刻t-1的xi、所以相较于其它RNNs,本案的SP-LSTM可以同时运算句子中每一个词语在该时刻隐变量达到并行运算的效果,因而具有很快的运行速度。
相较于现有技术,本案的多领域文本分类方法通过结合共享和私有特征的特性,设计了一种共享-私有LSTM网络,用于提取文本的共享和私有表示;该方法具有并行运算特点,具有很快的运行速度,且其提取特征时,可以充分考虑词语上下文信息,可以有效提高文本表示的准确性,从而有利于文本分类性能;另外,在针对多领域文本特点上,本案让共享参数和私有参数进行充分地交互式学习,可以有利于提高共享信息和私有信息的完全分离。
作为一种可选的实施例,在步骤S1中可运用基于Glove模型的词向量工具对多领域文本数据集中的原始文本Ssentence={w1,w2,...,wi,...,wn}进行预处理;其中,wi表示文本sentence的第i个词语,n为该文本词语的总个数;经过预处理后得到的每个文本Ssentence的标准化表示Xsentence={x1,x2,...,xi,...,xn},其中xi是词语wi分布式向量表示,是一个固定维度的向量,Xsentence即为一个表示句子的矩阵;然后可将领域dk中每个文本的不同情感含义表示为不同的情感向量yk;作为一种可选的实施例,本实施例选用的是正负极情感文本,可对“activate”表示为“0,1”,“negative”表示为“1,0”,并且为每个文本添加一个领域标签dk,于是将每个样本记作(dk,Xsentence,yk)。
在所述句子级共享-私有门网络中,包括对应每个领域数据一组的私有门以及一组公共的共享门;所有的样本(dk,Xsentence,yk)先通过词语级网络,再通过共享-私有句子级网络,来获取每个文本的共享表示和私有表示。
具体的,所述对抗神经网络由一个判别器构成,主要用于判断来自共享-私有LSTM网络的共享表示来自哪个领域。
进一步的,初始化用于学习共享特征和私有特征的参数,可包括以下步骤:
S021,初始化用于学习共享特征和私有特征的参数,包括词语级门网络参数θSW、共享句子级门网络参数θSS和私有句子级门网络参数θSP;其中,所述词语级门网络参数θSW主要用于提取词语级特征,获得每个单词的词语级状态;所述共享句子级门网络参数θSS和私有句子级门网络参数θSP用于提取所述每个文本的标准化表示的文本的共享特征和私有特征,获得对应句子的共享表示和私有表示;
S022,根据所述初始化的词语级门网络参数θSW,构建所述词语级门网络,由所述词语级门网络获取每个词语的隐变量;
S023,根据所述初始化的共享句子级门网络参数θSS和私有句子级门网络参数θSP以及所述每个词语的隐变量,构建所述句子级共享-私有门网络。
其中,所述词语级门网络参数θSW、共享句子级门网络参数θSS和私有句子级门网络参数θSP为所述SP-LSTM门结构参数的集合。
进一步的,由所述词语级门网络获取每个词语的隐变量,可包括以下步骤:
进一步的,由所述特征提取器网络根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示,可包括以下步骤:
其中,参数集{Wxc,Uxc,bxc}(x∈{i,f,o})即为共享句子级门网络参数θSS,而私有句子级门参数θSP包含m组参数θSk(k=1,2,...,m),m为训练模型数据集的领域数量。同时,针对第k个领域中每个句子的私有句子表示可以通过领域k的私有参数θSk构建神经网络,领域标签dk用于选择对应的领域私有参数。
所以,可以综合上述过程为:
其中,X是输入句子s={w1,w2,...,wn}的词向量表示句子,可以表示为X={x1,x2,...,xn},dk是领域标签。
进一步的,由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器,可包括以下步骤:
进一步的,根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型,可包括以下步骤:
初始化一组分类器参数θT,其中,每个领域对应的私有分类器参数:θT={θT1,θT2,...,θTm}={{WT1,bT1},{WT2,bT2},...,{WTm,bTm}};
通过softmax激活函数获得句子表示的预测分布,并通过交叉熵计算获得情感向量和真实情感向量的预测损失Ltext:
根据所述对抗损失Ladv和预测损失Ltext,构建模型训练的损失函数:
Lloss=Ltext+λLadv
其中,λ是超参数,需要用户通过实验进一步设定;
通过所述开发集最小化损失函数Lloss进行模型训练,获得所述多领域文本分类模型的最优模型。
在本实施例中,L=2。
在一种可选的实施例中,还可包括以下步骤:
由此获得领域准确率:
由此获得平均准确率:
其中,K是领域的总个数。
此处结合具体的文本数据对本实施例的方案进行实验和评估:
1)准备阶段:
1.下载基于预训练的glove词向量文件,实验所用词向量维度为200维,下载网址:https://nlp.stanford.edu/projects/glove/;
2.对领域产品评论文本数据集:FDU-MTL(数据下载地址:https://pan.***.com/s/1c2L6vdA),数据集详细信息见下表1:
表1:16个领域数据集统计信息
Dataset | Train | Dev. | Test | Avg.Len | Vocab. |
Books | 1400 | 200 | 400 | 159 | 62K |
Electronics | 1398 | 200 | 400 | 101 | 30K |
DVD | 1400 | 200 | 400 | 173 | 69K |
Kitchen | 1400 | 200 | 400 | 89 | 28K |
Apparel | 1400 | 200 | 400 | 57 | 21K |
Camera | 1397 | 200 | 400 | 130 | 26K |
Health | 1400 | 200 | 400 | 81 | 26K |
Music | 1400 | 200 | 400 | 136 | 60K |
Toys | 1400 | 200 | 400 | 90 | 28K |
Video | 1400 | 200 | 400 | 156 | 57K |
Baby | 1300 | 200 | 400 | 104 | 26K |
Magazines | 1370 | 200 | 400 | 117 | 30K |
Software | 1315 | 200 | 400 | 129 | 26K |
Sports | 1400 | 200 | 400 | 94 | 30K |
IMDB | 1400 | 200 | 400 | 269 | 44K |
MR | 1400 | 200 | 400 | 21 | 12K |
表中Dataset所在的列表示不同领域数据集的名字,Train,Dev,Test所在列的数值分别表示训练集、开发集和测试集的样本数量,Avg.Len表示平均文本词语数,Vocab.表示数据集所含的词语总数。
2)对数据集中的数据进行分词等预处理为单独的词语,并通过glove词向量,将词语转化为词向量,将每个句子转化为词向量矩阵,将词向量矩阵作为后续网络的输入。
3)构建基于共享-私有LSTM的多领域文本分类网络,计算输入的词向量矩阵的共享表示和私有表示,并进一步计算对抗损失和分类误差,然后,通过最小化分类误差和极小极大化对抗损失,进而优化句子级门参数、共享句子级门参数和领域私有句子级门参数。在训练操作中,本发明设定SP-LSTM的隐藏层大小为200,实现工具为Tensorflow(https://tensorflow.***.cn/)。
4)保存3)中得到的SP-LSTM网络,维持网络参数不变,用于新的文本数据分类预测。
表2展示了本发明的方法与其他基于深度学习方法的实验对比效果。其中,LSTM+DO表示使用一个通用的LSTM网络用于所有领域数据的特征提取,并对不同的领域使用领域自生的分类器进行分类。LSTM+ADV+Diff表示使用多组LSTM网络(一个公有的LSTM网络用于提取共享特征,同时每个领域的私有LSTM用于提取领域私有特征)提取特征,而后通过对抗网络和矩阵正交约束进行特征分离,但是这种方法忽略了LSTM只能从文本的一端向另一端进行学习,而且只能在学习完特征以后,完全依靠对抗网络和矩阵正交约束进行特征分离。DSAM表示通过一个LSTM学习文本的通用表示,同时为每个领域使用私有的Attention机制学习领域信息,并将领域信息存储在一个私有向量中,通过私有向量与通用表示拼接,得到最后的文本表示。
表2:本发明的方法与其他深度学习方法的案例实施效果对比
Model | LSTM+DO | LSTM+ADV+Diff | SP-LSTM | SP-SLSTM+ADV |
Apparel | 83.50 | 87.25 | 89.50 | 88.75 |
Baby | 86.75 | 87.00 | 89.75 | 90.75 |
Books | 85.75 | 86.25 | 88.50 | 89.00 |
Camera | 89.25 | 88.25 | 91.00 | 91.50 |
Electronics | 84.75 | 85.75 | 87.75 | 89.75 |
DVD | 85.25 | 86.00 | 88.50 | 88.75 |
Health | 88.75 | 87.50 | 90.75 | 90.00 |
IMDB | 85.25 | 86.25 | 85.75 | 85.75 |
Kitchen | 84.25 | 87.25 | 88.50 | 88.50 |
Magazines | 90.50 | 93.25 | 94.00 | 94.00 |
MR | 74.75 | 74.75 | 74.00 | 76.25 |
Music | 82.75 | 83.25 | 84.75 | 85.25 |
Software | 86.50 | 83.75 | 89.75 | 90.75 |
Sports | 86.50 | 86.00 | 89.50 | 90.00 |
Toys | 86.00 | 89.75 | 91.00 | 88.75 |
Video | 84.00 | 83.75 | 88.75 | 88.75 |
Avg_Acc. | 85.28 | 86.00 | 88.23 | 88.53 |
上述表格中,LSTM+DO和LSTM+ADV+Diff为现有的两个文本分类方案,但其共享特征和私有特征在训练中不能充分交互而不能真正得到分离,同时LSTM的时间序列化训练,会使得运算效率难以提升。而SP-LSTM表示基于本发明中提出的共享-私有LSTM网络的方案,SP-SLSTM+ADV表示在共享-私有LSTM的基础上添加了对抗神经网络对共享句子级门网络参数进行优化的方案。Avg_Acc.表示最后本发明在不同的方法上得到的多个领域的平均准确率。可以看出,本发明提出的方法要显著高于已有的两个方案。
一种多领域文本分类***,请参阅图4,包括:
1,预处理模块,用于对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
2,特征提取器构建模块,用于通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
3,特征提取器优化模块,用于由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
4,多领域文本分类模型构建与训练开发模块,用于根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
5,分类预测模块,用于运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
本实施例还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。
本实施例还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种多领域文本分类方法,其特征在于,包括以下步骤:
对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
2.根据权利要求1所述的多领域文本分类方法,其特征在于,初始化词语级门网络和句子级共享-私有门网络,包括以下步骤:
初始化用于学习共享特征和私有特征的参数,包括词语级门网络参数θSW、共享句子级门网络参数θSS和私有句子级门网络参数θSP;其中,所述词语级门网络参数θSW主要用于提取词语级特征,获得每个单词的词语级状态;所述共享句子级门网络参数θSS和私有句子级门网络参数θSP用于提取所述每个文本的标准化表示的文本的共享特征和私有特征,获得对应句子的共享表示和私有表示;
根据所述初始化的词语级门网络参数θSW,构建所述词语级门网络,由所述词语级门网络获取每个词语的隐变量;
根据所述初始化的共享句子级门网络参数θSS和私有句子级门网络参数θSP以及所述每个词语的隐变量,构建所述句子级共享-私有门网络。
3.根据权利要求2所述的多领域文本分类方法,其特征在于,由所述词语级门网络获取每个词语的隐变量,包括以下步骤:
6.根据权利要求5所述的多领域文本分类方法,其特征在于,根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型,包括以下步骤:
初始化一组分类器参数θT,其中,每个领域对应的私有分类器参数:θT={θT1,θT2,...,θTm}={{WT1,bT1},{WT2,bT2},...,{WTm,bTm}};
通过softmax激活函数获得句子表示的预测分布,并通过交叉熵计算获得情感向量和真实情感向量的预测损失Ltext:
根据所述对抗损失Ladv和预测损失Ltext,构建模型训练的损失函数:
Lloss=Ltext+λLadv
其中,λ是超参数,需要用户通过实验进一步设定;
通过所述开发集最小化损失函数Lloss进行模型训练,获得所述多领域文本分类模型的最优模型。
8.一种多领域文本分类***,其特征在于,包括:
预处理模块,用于对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;
特征提取器构建模块,用于通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;
特征提取器优化模块,用于由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;
多领域文本分类模型构建与训练开发模块,用于根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;
分类预测模块,用于运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。
9.一种储存介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多领域文本分类方法的步骤。
10.一种计算机,其特征在于:包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多领域文本分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910948919.6A CN110795410A (zh) | 2019-10-08 | 2019-10-08 | 一种多领域文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910948919.6A CN110795410A (zh) | 2019-10-08 | 2019-10-08 | 一种多领域文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110795410A true CN110795410A (zh) | 2020-02-14 |
Family
ID=69440074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910948919.6A Pending CN110795410A (zh) | 2019-10-08 | 2019-10-08 | 一种多领域文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795410A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111755118A (zh) * | 2020-03-16 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 医疗信息处理方法、装置、电子设备及存储介质 |
CN112989801A (zh) * | 2021-05-11 | 2021-06-18 | 华南师范大学 | 一种序列标注方法、装置及设备 |
CN113821642A (zh) * | 2021-11-18 | 2021-12-21 | 杭州费尔斯通科技有限公司 | 一种基于gan聚类的文本清洗方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
US20180240012A1 (en) * | 2017-02-17 | 2018-08-23 | Wipro Limited | Method and system for determining classification of text |
CN109543031A (zh) * | 2018-10-16 | 2019-03-29 | 华南理工大学 | 一种基于多任务对抗学习的文本分类方法 |
CN109992703A (zh) * | 2019-01-28 | 2019-07-09 | 西安交通大学 | 一种基于多任务学习的差异化特征挖掘的可信度评估方法 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
-
2019
- 2019-10-08 CN CN201910948919.6A patent/CN110795410A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180240012A1 (en) * | 2017-02-17 | 2018-08-23 | Wipro Limited | Method and system for determining classification of text |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
CN109543031A (zh) * | 2018-10-16 | 2019-03-29 | 华南理工大学 | 一种基于多任务对抗学习的文本分类方法 |
CN109992703A (zh) * | 2019-01-28 | 2019-07-09 | 西安交通大学 | 一种基于多任务学习的差异化特征挖掘的可信度评估方法 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
Non-Patent Citations (1)
Title |
---|
HAIMING WU等: "Shared-Private LSTM for Multi-domain Text Classification", 《NLPCC 2019: NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111755118A (zh) * | 2020-03-16 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 医疗信息处理方法、装置、电子设备及存储介质 |
CN111755118B (zh) * | 2020-03-16 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 医疗信息处理方法、装置、电子设备及存储介质 |
CN112989801A (zh) * | 2021-05-11 | 2021-06-18 | 华南师范大学 | 一种序列标注方法、装置及设备 |
CN112989801B (zh) * | 2021-05-11 | 2021-08-13 | 华南师范大学 | 一种序列标注方法、装置及设备 |
CN113821642A (zh) * | 2021-11-18 | 2021-12-21 | 杭州费尔斯通科技有限公司 | 一种基于gan聚类的文本清洗方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kuznetsova et al. | The open images dataset v4: Unified image classification, object detection, and visual relationship detection at scale | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
Pu et al. | Variational autoencoder for deep learning of images, labels and captions | |
CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
CN108536784B (zh) | 评论信息情感分析方法、装置、计算机存储介质和服务器 | |
CN111475642A (zh) | 一种文本分类方法、装置及模型训练方法 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN111881671B (zh) | 一种属性词提取方法 | |
CN110795410A (zh) | 一种多领域文本分类方法 | |
Gowda et al. | Learn2augment: learning to composite videos for data augmentation in action recognition | |
CN108537257B (zh) | 基于判别性字典矩阵对的零样本图像分类方法 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
Du et al. | Generation, augmentation, and alignment: A pseudo-source domain based method for source-free domain adaptation | |
CN105701225B (zh) | 一种基于统一关联超图规约的跨媒体检索方法 | |
CN114998602B (zh) | 基于低置信度样本对比损失的域适应学习方法及*** | |
CN111460157A (zh) | 用于多领域文本分类的循环卷积多任务学习方法 | |
Hu et al. | Sketch-a-classifier: Sketch-based photo classifier generation | |
Lin et al. | Two stream active query suggestion for active learning in connectomics | |
Zhai et al. | Face verification across aging based on deep convolutional networks and local binary patterns | |
CN111813939A (zh) | 一种基于表征增强与融合的文本分类方法 | |
CN115270752A (zh) | 一种基于多层次对比学习的模板句评估方法 | |
CN112199505A (zh) | 一种基于特征表示学习的跨领域情感分类方法及*** | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
CN114780723A (zh) | 基于向导网络文本分类的画像生成方法、***和介质 | |
CN113722439A (zh) | 基于对抗性类别对齐网络的跨领域情感分类方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200214 |