CN110795410A

CN110795410A - 一种多领域文本分类方法

Info

Publication number: CN110795410A
Application number: CN201910948919.6A
Authority: CN
Inventors: 吴海明; 赵洪雅; 蔡倩华; 薛云; 周波
Original assignee: South China Normal University; Shenzhen Polytechnic
Current assignee: South China Normal University; Shenzhen Polytechnic
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2020-02-14

Abstract

本发明涉及一种多领域文本分类方法，通过结合共享和私有特征的特性，设计了一种共享‑私有LSTM网络，用于提取文本的共享和私有表示；该方法具有并行运算特点，具有很快的运行速度，且其提取特征时，可以充分考虑词语上下文信息，可以有效提高文本表示的准确性，从而有利于文本分类性能；另外，在针对多领域文本特点上，本案让共享参数和私有参数进行充分地交互式学习，可以有利于提高共享信息和私有信息的完全分离。

Description

一种多领域文本分类方法

技术领域

本发明涉及自然语言处理领域中的多任务学习和文本分类领域，特别是涉及一种多领域文本分类方法。

背景技术

随着互联网技术的发展，万维网中的数据量与日俱增，其中有大量的数据是文本数据，这些数据涉及社会的各行各业，面对这样庞大体量的文本数据，如何做到数据的合理化分类成为一个重要的研究难题。对文本合理化、自动化分类，可以帮助人们解决很多难题，例如：垃圾信息判别、虚假信息发现等很多场合。近年来，为完成文本分类，那么文本的表示就显得至关重要，合理的文本表示可以获取准确的文本语义信息。

目前，基于单个任务或领域的文本分析已经表现出优异的效果，这也主要得益于学者们对文本表示的研究，先后出现了word2vec和glove等优秀的预训练词向量工具。但是一个比较常见的问题却始终吸引着学者们继续展开研究：在实际应用中，文本分析工作往往是面对多个领域的文本数据，而且各个领域的文本长短不一，数据分布千差万别，这就为现有技术带来了极大挑战。

对此，多领域和多任务问题逐渐成为研究的焦点，其中，一个可行的思路是对多个领域文本的共享特征和私有特征进行表示，并将最后得到的两种表示进一步“相加”得到最后的文本表示。如何准确提取文本的共享特征和私有特征，成为解决多领域文本分类问题的关键所在。

发明内容

本发明的目的在于现有技术的局限，提供一种多领域文本分类方法，由以下技术方案实现：

对多领域文本数据集进行预处理：通过分词并获取每个词语的分布式向量表示，得到所述多领域文本数据集中每个文本的标准化表示，将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集；

通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器，其中，所述词语级门网络用于学习每个词语的隐变量；所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示，所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门；由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示；

由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数，根据所述优化参数调整所述特征提取器；

根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型，根据所述训练集训练所述多领域文本分类模型，根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型；

运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。

相较于现有技术，本案的多领域文本分类方法通过结合共享和私有特征的特性，设计了一种共享-私有LSTM网络，用于提取文本的共享和私有表示；该方法具有并行运算特点，具有很快的运行速度，且其提取特征时，可以充分考虑词语上下文信息，可以有效提高文本表示的准确性，从而有利于文本分类性能；另外，在针对多领域文本特点上，该模型让共享参数和私有参数进行充分地交互式学习，可以有利于提高共享信息和私有信息的完全分离。

进一步的，初始化词语级门网络和句子级共享-私有门网络，可包括以下步骤：

初始化用于学习共享特征和私有特征的参数，包括词语级门网络参数θ_SW、共享句子级门网络参数θ_SS和私有句子级门网络参数θ_SP；其中，所述词语级门网络参数θ_SW主要用于提取词语级特征，获得每个单词的词语级状态；所述共享句子级门网络参数θ_SS和私有句子级门网络参数θ_SP用于提取所述每个文本的标准化表示的文本的共享特征和私有特征，获得对应句子的共享表示和私有表示；

根据所述初始化的词语级门网络参数θ_SW，构建所述词语级门网络，由所述词语级门网络获取每个词语的隐变量；

根据所述初始化的共享句子级门网络参数θ_SS和私有句子级门网络参数θ_SP以及所述每个词语的隐变量，构建所述句子级共享-私有门网络。

进一步的，由所述词语级门网络获取每个词语的隐变量，可包括以下步骤：

在时刻t，对于来自于领域k的词语w_i的隐变量

将时刻t-1时词语w_i的位置i前后和本身位置的隐变量

的组合矩阵

将

x_i、

和

作为时刻t时获取词语w_i的隐变量的输入；其中，x_i为w_i的词向量，

分别表示时刻t-1时领域k的私有句子级隐变量、共享句子级隐变量；

获取每个输入的门系数，即用于控制各个输入对于

的信息贡献量的控制门系数：

其中，

分别表示x_i、

和对的贡献系数；

通过softmax激活函数进行正则化，使

总和为1：

其中

用于控制x_i对

的影响，

则分别表示

对于

的贡献，

则表示

和对

的影响；

由此得到词语w_i在时刻t的状态和隐变量

表示：

其中，

分别表示和x_i的状态，运算符σ，tanh和⊙分别表示sigmoid，tanh激活函数和点乘运算。

进一步的，由所述特征提取器网络根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示，可包括以下步骤：

获取在时刻t的公共句子表示

其中，

是归一化的门结构系数，用于控制

对的影响，

是输出门系数；运算符avg表示对

取均值运算；

获取在时刻t的私有句子表示

其中，和均为门控制系数。专有数据集θ_Sk＝{W_xc,U_xc,b_xc}(x∈{i,f,o})且有θ_SP＝{θ_S1,θ_S2,...,θ_Sm}；

重复循环所述公共句子表示

私有句子表示

的获取步骤直到预设的时刻T时输出对应的共享表示

和私有表示

进一步的，由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数，根据所述优化参数调整所述特征提取器，可包括以下步骤：

初始化一用于判断共享表示

来自于哪一领域的判别器，所述判别器带有一组判别参数θ_D＝(W_D,b_D)，使用交叉熵获得判别器的对抗损失L_adv：

其中，j表示来自训练数据集

中第k个领域的第j条句子；

通过最小化判断误差

优化参数θ_D；

通过最大化判别误差

优化共享句子级门网络参数θ_SS。

进一步的，根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型，根据所述训练集训练所述多领域文本分类模型，根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型，可包括以下步骤：

将共享表示

和私有表示

进行拼接，作为最后的句子表示，形式化表示为：

初始化一组分类器参数θ_T，其中，每个领域对应的私有分类器参数：θ_T＝{θ_T1,θ_T2,...,θ_Tm}＝{{W_T1,b_T1},{W_T2,b_T2},...,{W_Tm,b_Tm}}；

通过softmax激活函数获得句子表示的预测分布，并通过交叉熵计算获得情感向量和真实情感向量的预测损失L_text：

其中，

为真实情感向量第l维的数值，L表示情感标签向量的总长度；

根据所述对抗损失L_adv和预测损失L_text，构建模型训练的损失函数：

L_loss＝L_text+λL_adv

其中，λ是超参数，需要用户通过实验进一步设定；

通过所述开发集最小化损失函数L_loss进行模型训练，获得所述多领域文本分类模型的最优模型。

在一种可选的实施例中，还可包括以下步骤：

根据所述分类预测的结果，获得所述分类预测的准确率：将模型预测

最大的一个维度的数值赋值为1，结合真实情感向量

构建判断函数：

由此获得领域准确率：

其中，

表示领域k的测试集样本总个数；

由此获得平均准确率：

其中，K是领域的总个数。

一种多领域文本分类***，包括：

预处理模块，用于对多领域文本数据集进行预处理：通过分词并获取每个词语的分布式向量表示，得到所述多领域文本数据集中每个文本的标准化表示，将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集；

特征提取器构建模块，用于通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器，其中，所述词语级门网络用于学习每个词语的隐变量；所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示，所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门；由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示；

特征提取器优化模块，用于由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数，根据所述优化参数调整所述特征提取器；

多领域文本分类模型构建与训练开发模块，用于根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型，根据所述训练集训练所述多领域文本分类模型，根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型；

分类预测模块，用于运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。

本发明还提供一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。

本发明还提供一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明实施例多领域文本分类方法的流程图；

图2为本发明构建的所述共享-私有LSTM网络结构示意图；

图3为本发明实施例多领域文本分类方法中步骤S02的流程图；

图4为本发明实施例的多领域文本分类***示意图。

具体实施方式

关于本发明实施例中所涉及的“特征”与“表示”，由于计算机只能识别数字，故可将文字信息中的特征通过向量进行表示，即“表示”指计算机可以识别的那个向量，而“特征”即该向量对应的含义。具体可结合以下例子加以理解，

例如：我很高兴，最后用一个向量[0,0,0,1,1,1]表示这句话，那么这个句话中的特征“高兴”一词就涵盖在这个向量中。

又如：姚明、刘强东、马云、刘翔；

这4个数据的共享特征可以是：1)人，2)男人，3)名人…

各自的私有特征可以是：

姚明：篮球明星

刘强东：京东。

针对多领域、多文本的数据的文本分类问题，本实施例提供一种多领域文本分类方法，请参阅图1，由以下技术方案实现：

S01，对多领域文本数据集进行预处理：通过分词并获取每个词语的分布式向量表示，得到所述多领域文本数据集中每个文本的标准化表示，将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集；

S02，通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器，其中，所述词语级门网络用于学习每个词语的隐变量；所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示，所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门；由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示；

S03，由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数，根据所述优化参数调整所述特征提取器；

S04，根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型，根据所述训练集训练所述多领域文本分类模型，根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型；

S05，运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。

具体的，本案是在针对如何准确提取文本的共享特征和私有特征的问题上设计了一种共享-私有LSTM网络，其可称为SP-LSTM网络，请参阅图2；该网络通过设置用于学习每个词语的隐变量的词语级门网络以及用于提取所有领域句子的共享表示和私有表示的句子级共享-私有门网络对文本的共享特征和私有特征进行准确的划分，可以充分考虑词语上下文信息，可以有效提高文本表示的准确性，从而有利于文本分类性能；并且，不同于RNNs的时间序列运算，RNNs始终只能在预算完前一个词语w_t-1的隐变量h_t-1后，将h_t-1和x_t作为输入，才能计算w_t的隐变量h_t，而不能并行计算；在所述共享-私有LSTM网络的运行过程中，在所述语级门网络学习于计算

时，是基于时刻t-1的x_i、

所以相较于其它RNNs，本案的SP-LSTM可以同时运算句子中每一个词语在该时刻隐变量

达到并行运算的效果，因而具有很快的运行速度。

相较于现有技术，本案的多领域文本分类方法通过结合共享和私有特征的特性，设计了一种共享-私有LSTM网络，用于提取文本的共享和私有表示；该方法具有并行运算特点，具有很快的运行速度，且其提取特征时，可以充分考虑词语上下文信息，可以有效提高文本表示的准确性，从而有利于文本分类性能；另外，在针对多领域文本特点上，本案让共享参数和私有参数进行充分地交互式学习，可以有利于提高共享信息和私有信息的完全分离。

作为一种可选的实施例，在步骤S1中可运用基于Glove模型的词向量工具对多领域文本数据集中的原始文本S_sentence＝{w₁,w₂,...,w_i,...,w_n}进行预处理；其中，w_i表示文本sentence的第i个词语，n为该文本词语的总个数；经过预处理后得到的每个文本S_sentence的标准化表示X_sentence＝{x₁,x₂,...,x_i,...,x_n}，其中x_i是词语w_i分布式向量表示，是一个固定维度的向量，X_sentence即为一个表示句子的矩阵；然后可将领域d_k中每个文本的不同情感含义表示为不同的情感向量y^k；作为一种可选的实施例，本实施例选用的是正负极情感文本，可对“activate”表示为“0,1”，“negative”表示为“1,0”，并且为每个文本添加一个领域标签d_k，于是将每个样本记作(d_k,X_sentence,y^k)。

在所述句子级共享-私有门网络中，包括对应每个领域数据一组的私有门以及一组公共的共享门；所有的样本(d_k,X_sentence,y^k)先通过词语级网络，再通过共享-私有句子级网络，来获取每个文本的共享表示和私有表示。

具体的，所述对抗神经网络由一个判别器构成，主要用于判断来自共享-私有LSTM网络的共享表示来自哪个领域。

进一步的，初始化用于学习共享特征和私有特征的参数，可包括以下步骤：

S021，初始化用于学习共享特征和私有特征的参数，包括词语级门网络参数θ_SW、共享句子级门网络参数θ_SS和私有句子级门网络参数θ_SP；其中，所述词语级门网络参数θ_SW主要用于提取词语级特征，获得每个单词的词语级状态；所述共享句子级门网络参数θ_SS和私有句子级门网络参数θ_SP用于提取所述每个文本的标准化表示的文本的共享特征和私有特征，获得对应句子的共享表示和私有表示；

S022，根据所述初始化的词语级门网络参数θ_SW，构建所述词语级门网络，由所述词语级门网络获取每个词语的隐变量；

S023，根据所述初始化的共享句子级门网络参数θ_SS和私有句子级门网络参数θ_SP以及所述每个词语的隐变量，构建所述句子级共享-私有门网络。

其中，所述词语级门网络参数θ_SW、共享句子级门网络参数θ_SS和私有句子级门网络参数θ_SP为所述SP-LSTM门结构参数的集合。

在时刻t，对于来自于领域k的词语w_i的隐变量将时刻t-1时词语w_i的位置i前后和本身位置的隐变量

的组合矩阵

将x_i、

和

作为时刻t时获取词语w_i的隐变量

的输入；其中，x_i为w_i的词向量，

获取每个输入的门系数，即用于控制各个输入对于

的信息贡献量的控制门系数：

其中，

分别表示x_i、

和

对

的贡献系数；

通过softmax激活函数进行正则化，使

总和为1：

其中用于控制x_i对

的影响，

则分别表示

对于

的贡献，

则表示

和

对

的影响；

由此得到词语w_i在时刻t的状态

和隐变量

表示：

其中，

具体的，通过对

进行正则化使其总和为1，能保证的稳定性。其中，参数集{W_x,U_x,V_x,b_x}(x∈{i,l,f,r,k,s,u,o})即为词语级门网络参数θ_SW。

获取在时刻t的公共句子表示

其中，

是归一化的门结构系数，用于控制

对

的影响，是输出门系数；运算符avg表示对

取均值运算；

获取在时刻t的私有句子表示

其中，

和

均为门控制系数。专有数据集θ_Sk＝{W_xc,U_xc,b_xc}(x∈{i,f,o})且有θ_SP＝{θ_S1,θ_S2,...,θ_Sm}；

重复循环所述公共句子表示

私有句子表示

的获取步骤直到预设的时刻T时输出对应的共享表示和私有表示

其中，参数集{W_xc,U_xc,b_xc}(x∈{i,f,o})即为共享句子级门网络参数θ_SS，而私有句子级门参数θ_SP包含m组参数θ_Sk(k＝1,2,...,m)，m为训练模型数据集的领域数量。同时，针对第k个领域中每个句子的私有句子表示可以通过领域k的私有参数θ_Sk构建神经网络，领域标签d_k用于选择对应的领域私有参数。

所以，可以综合上述过程为：

其中，X是输入句子s＝{w₁,w₂,...,w_n}的词向量表示句子，可以表示为X＝{x₁,x₂,...,x_n}，d_k是领域标签。

初始化一用于判断共享表示

其中，j表示来自训练数据集

中第k个领域的第j条句子；

通过最小化判断误差

优化参数θ_D；

通过最大化判别误差

优化共享句子级门网络参数θ_SS。

将共享表示

和私有表示

进行拼接，作为最后的句子表示，形式化表示为：

其中，

L_loss＝L_text+λL_adv

其中，λ是超参数，需要用户通过实验进一步设定；

在本实施例中，L＝2。

在一种可选的实施例中，还可包括以下步骤：

S6，根据所述分类预测的结果，获得所述分类预测的准确率：将模型预测

最大的一个维度的数值赋值为1，结合真实情感向量构建判断函数：

由此获得领域准确率：

其中，

表示领域k的测试集样本总个数；

由此获得平均准确率：

其中，K是领域的总个数。

此处结合具体的文本数据对本实施例的方案进行实验和评估：

1)准备阶段：

1.下载基于预训练的glove词向量文件，实验所用词向量维度为200维，下载网址：https://nlp.stanford.edu/projects/glove/；

2.对领域产品评论文本数据集：FDU-MTL(数据下载地址：https://pan.***.com/s/1c2L6vdA)，数据集详细信息见下表1：

表1：16个领域数据集统计信息

Dataset	Train	Dev.	Test	Avg.Len	Vocab.
						Books	1400	200	400	159	62K
Electronics	1398	200	400	101	30K
						DVD	1400	200	400	173	69K
Kitchen	1400	200	400	89	28K
						Apparel	1400	200	400	57	21K
Camera	1397	200	400	130	26K
						Health	1400	200	400	81	26K
Music	1400	200	400	136	60K
						Toys	1400	200	400	90	28K
Video	1400	200	400	156	57K
						Baby	1300	200	400	104	26K
Magazines	1370	200	400	117	30K
						Software	1315	200	400	129	26K
Sports	1400	200	400	94	30K
						IMDB	1400	200	400	269	44K
MR	1400	200	400	21	12K

表中Dataset所在的列表示不同领域数据集的名字，Train,Dev,Test所在列的数值分别表示训练集、开发集和测试集的样本数量，Avg.Len表示平均文本词语数，Vocab.表示数据集所含的词语总数。

2)对数据集中的数据进行分词等预处理为单独的词语，并通过glove词向量，将词语转化为词向量，将每个句子转化为词向量矩阵，将词向量矩阵作为后续网络的输入。

3)构建基于共享-私有LSTM的多领域文本分类网络，计算输入的词向量矩阵的共享表示和私有表示，并进一步计算对抗损失和分类误差，然后，通过最小化分类误差和极小极大化对抗损失，进而优化句子级门参数、共享句子级门参数和领域私有句子级门参数。在训练操作中，本发明设定SP-LSTM的隐藏层大小为200，实现工具为Tensorflow(https://tensorflow.***.cn/)。

4)保存3)中得到的SP-LSTM网络，维持网络参数不变，用于新的文本数据分类预测。

表2展示了本发明的方法与其他基于深度学习方法的实验对比效果。其中，LSTM+DO表示使用一个通用的LSTM网络用于所有领域数据的特征提取，并对不同的领域使用领域自生的分类器进行分类。LSTM+ADV+Diff表示使用多组LSTM网络(一个公有的LSTM网络用于提取共享特征，同时每个领域的私有LSTM用于提取领域私有特征)提取特征，而后通过对抗网络和矩阵正交约束进行特征分离，但是这种方法忽略了LSTM只能从文本的一端向另一端进行学习，而且只能在学习完特征以后，完全依靠对抗网络和矩阵正交约束进行特征分离。DSAM表示通过一个LSTM学习文本的通用表示，同时为每个领域使用私有的Attention机制学习领域信息，并将领域信息存储在一个私有向量中，通过私有向量与通用表示拼接，得到最后的文本表示。

表2：本发明的方法与其他深度学习方法的案例实施效果对比

Model	LSTM+DO	LSTM+ADV+Diff	SP-LSTM	SP-SLSTM+ADV
					Apparel	83.50	87.25	89.50	88.75
Baby	86.75	87.00	89.75	90.75
					Books	85.75	86.25	88.50	89.00
Camera	89.25	88.25	91.00	91.50
					Electronics	84.75	85.75	87.75	89.75
DVD	85.25	86.00	88.50	88.75
					Health	88.75	87.50	90.75	90.00
IMDB	85.25	86.25	85.75	85.75
					Kitchen	84.25	87.25	88.50	88.50
Magazines	90.50	93.25	94.00	94.00
					MR	74.75	74.75	74.00	76.25
Music	82.75	83.25	84.75	85.25
					Software	86.50	83.75	89.75	90.75
Sports	86.50	86.00	89.50	90.00
					Toys	86.00	89.75	91.00	88.75
Video	84.00	83.75	88.75	88.75
					Avg_Acc.	85.28	86.00	88.23	88.53

上述表格中，LSTM+DO和LSTM+ADV+Diff为现有的两个文本分类方案，但其共享特征和私有特征在训练中不能充分交互而不能真正得到分离，同时LSTM的时间序列化训练，会使得运算效率难以提升。而SP-LSTM表示基于本发明中提出的共享-私有LSTM网络的方案，SP-SLSTM+ADV表示在共享-私有LSTM的基础上添加了对抗神经网络对共享句子级门网络参数进行优化的方案。Avg_Acc.表示最后本发明在不同的方法上得到的多个领域的平均准确率。可以看出，本发明提出的方法要显著高于已有的两个方案。

一种多领域文本分类***，请参阅图4，包括：

1，预处理模块，用于对多领域文本数据集进行预处理：通过分词并获取每个词语的分布式向量表示，得到所述多领域文本数据集中每个文本的标准化表示，将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集；

2，特征提取器构建模块，用于通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器，其中，所述词语级门网络用于学习每个词语的隐变量；所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示，所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门；由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示；

3，特征提取器优化模块，用于由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数，根据所述优化参数调整所述特征提取器；

4，多领域文本分类模型构建与训练开发模块，用于根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型，根据所述训练集训练所述多领域文本分类模型，根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型；

5，分类预测模块，用于运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。

本实施例还提供一种储存介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。

本实施例还提供一种计算机设备，包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述多领域文本分类方法的步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。