CN114036947A

CN114036947A - 一种半监督学习的小样本文本分类方法和***

Info

Publication number: CN114036947A
Application number: CN202111503834.0A
Authority: CN
Inventors: 张伟文; 翁茂彬; 叶海明
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-02-11
Anticipated expiration: 2041-12-09
Also published as: CN114036947B

Abstract

本发明提供了一种半监督学习的小样本文本分类方法和***，涉及半监督文本分类领域，包括步骤：S1、获取待分类文本；S2、将待分类文本输入预先训练完成的查找表，查找表将待分类文本映射为文本表征；S3、将文本表征输入多层感知器得到文本标签，文本标签作为文本分类结果。本发明通过查找表获取待分类文本的文本表征，之后多层感知器根据文本表征得到文本标签作为文本分类结果，针对数据量小、数据标签不全的文本数据进行文本分类的情况也能取得较好的分类效果，不需要对大量的文本数据进行人工标注，节约人工标记成本，能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。

Description

一种半监督学习的小样本文本分类方法和***

技术领域

本发明涉及半监督文本分类领域，更具体地，涉及一种半监督学习的小样本文本分类方法和***。

背景技术

随着科技的发展，互联网中的数据量有着指数级的增长。面对其中的海量文本，智能处理技术可以节约计算资源，提升处理效率。文本分类是信息检索和挖掘的基础技术，在管理文本数据中起着至关重要的作用。

近年来，文本分类已逐渐从浅层学习模型变为深层的深度学习模型。与基于浅层学习的方法相比，深度学习方法避免了人工设计规则和特征，并自动为文本挖掘提供了语义上有意义的表示形式。因此，大多数文本分类研究工作都基于深度神经网络(DNN)。

然而，现有的基于深度学习的文本分类方法需要收集足够的训练数据并人工标记标签，耗时耗力。而且，对于一些领域的文本数据进行文本分类，需要收集专门的数据集，难以使所有数据都带有标签。

现有技术公开的文本分类模型的训练方法和文本分类方法，通过将多个任务中每个任务下的文本样本输入其对应的私有特征提取器和公有特征提取器，对多个不同任务下的私有特征提取器和分类器进行同时训练，得到训练后的文本分类模型；但该方法在数据量小、数据标签不全的条件下无法进行训练，需要收集大量的训练数据并人工标记标签，训练成本高。

发明内容

本发明为克服上述技术问题，提供一种针对数据量小、数据标签不全的文本数据进行文本分类的半监督学习的小样本文本分类方法和***。

本发明技术方案如下：

一种半监督学习的小样本文本分类方法，包括以下步骤：

S1、获取待分类文本；

S2、将待分类文本输入预先训练完成的查找表，通过查找表将待分类文本映射为文本表征；

S3、将文本表征输入多层感知器得到文本标签，将文本标签作为文本分类结果，完成对小样本文本的分类。

本技术方案提出了一种半监督学习的小样本文本分类方法，利用查找表获取待分类文本的文本表征，之后多层感知器根据文本表征得到文本标签作为文本分类结果，针对数据量小、数据标签不全的文本数据进行文本分类的情况也能取得较好的分类效果，不需要对大量的文本数据进行人工标注，节约人工标记成本，能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。

进一步地，所述变分自编码器包括：编码器、批归一化层、标量层、解码器；

编码器、批归一化层、标量层、解码器依次连接；所述编码器和解码器均采用门控卷积神经网络。

进一步地，训练查找表包括步骤：

S21、将文本数据集输入到初始的查找表，通过初始的查找表将文本映射为矩阵，所述矩阵为初始的文本表征；

S22、将初始的文本表征输入到变分自编码器的编码器中进行学***均数和标准差；

S23、将平均数和标准差分别输入批归一化层，对其进行归一化，然后输入到标量层；

S24、使用经过批归一化层和标量层处理的平均数和标准差，按照以下公式计算隐码z；

其中，x_i是变分自编码器的输入，f_μ'和f_σ'是分别计算并进行归一化和缩放平均数和标准差的函数，ε^(s)～N(0,I)，即ε^(s)参数是按照独立高斯分布进行采样得到，s为隐码z的维度；

S25、隐码输入到变分自编码器的解码器中，输出重构文本；

S26、使用损失函数计算步骤S25的重构文本和步骤S21输入查找表的文本数据之间的重构损失，利用目标函数判断是否达到训练目标，目标函数公式为：

其中，x_i是变分自编码器的输入，z_i是隐变量，q(z)是变分自编码器的先验分布，p(z_i|x_i)是变分自编码器的后验分布，B是变分自编码器的下限，

是重构损失，表明生成的单词和输入文本的相似度；KL[p(z_i|x_i)||q(z)]是测量两个概率分布差异的指标；

S27、若达到训练目标，查找表训练完成，保存完成训练的查找表；若未达到训练目标，则重复执行训练过程，并利用反向传播算法根据目标函数调整查找表和变分编码器的参数，直到达到训练目标。

进一步地，步骤S3多层感知器利用文本表征得到文本标签过程包括：

S31、将文本表征输入多层感知器的第一全连接层提取特征，得到第一全连接层的输出数据；

S32、将第一全连接层的输出数据输入第一激活函数进行处理，得到第一激活函数的输出数据；

S33、将第一激活函数的输出数据输入多层感知器的第二全连接层提取特征，得到第二全连接层的输出数据；

S34、将第二全连接层的输出数据输入第二激活函数进行处理，得到文本标签作为文本分类结果。

进一步地，步骤S32所述第一激活函数为relu激活函数，处理公式为

其中，x是输入函数的数据。

进一步地，步骤S34所述第二激活函数为sigmoid激活函数，处理公式为

其中，x是输入函数的数据。

一种半监督学习的小样本文本分类***，分类文本获取模块、查找表执行模块、多层感知器执行模块；

分类文本获取模块获取待分类文本，并将待分类文本输入预先训练完成的查找表执行模块；查找表执行模块利用查找表将待分类文本映射为文本表征，并将文本表征输入多层感知器执行模块，多层感知器执行模块利用多层感知器通过文本表征得到文本标签，将文本标签作为文本分类结果，完成对小样本文本的分类。

进一步地，还包括查找表生成模块，所述查找表生成模块构建初始的查找表，通过变分自编码器对初始的查找表进行训练，保存训练完成的查找表到查找表执行模块。

本技术方案提出了一种半监督学习的小样本文本分类方法和***，与现有技术相比，本发明技术方案的有益效果是：本发明利用查找表获取待分类文本的文本表征，然后多层感知器根据文本表征得到文本标签作为文本分类结果，针对数据量小、数据标签不全的文本数据进行文本分类的情况也能取得较好的分类效果，不需要对大量的文本数据进行标注，节约人工标记成本，能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。

附图说明

图1为文本分类过程步骤示意图；

图2为变分自编码器结构示意图；

图3为小样本文本分类***示意图。

具体实施方式

为清楚地说明本发明一种半监督学习的小样本文本分类方法和***，结合实施例和附图对本发明作进一步说明，但不应以此限制本发明的保护范围。

实施例1

一种半监督学习的小样本文本分类方法，如图1所示，包括步骤：

S1、获取待分类文本；

本实施例利用查找表获取待分类文本的文本表征，然后多层感知器根据文本表征得到文本标签作为文本分类结果，本发明用于对数据量小、数据标签不全的文本数据进行文本分类，不需要对大量的文本数据进行标注，节约人工标记成本，能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。

实施例2

S1、获取待分类文本；

步骤S2所述查找表为完成训练的查找表，通过对初始的查找表训练得到，获取完成训练的查找表的方法为：构建初始的查找表，通过变分自编码器对初始的查找表进行训练，保存完成训练的查找表。

所述变分自编码器包括：编码器、批归一化层、标量层、解码器；

训练查找表包括步骤：

S25、隐码输入到变分自编码器的解码器中，输出重构文本；

本实施例中，所述损失函数为均方误差(MSE)损失函数。

步骤S3多层感知器利用文本表征得到文本标签过程包括：

S32、将第一全连接层的输出数据，输入第一激活函数进行处理，得到第一激活函数的输出数据；

所述第一激活函数为relu激活函数，处理公式为

其中，x是输入函数的数据。

S33、将第一激活函数的输出数据，输入多层感知器的第二全连接层提取特征，得到第二全连接层的输出数据；

S34、将第二全连接层的输出数据，输入第二激活函数进行处理，得到文本标签作为文本分类结果。

所述第二激活函数为sigmoid激活函数，处理公式为

其中，x是输入函数的数据。

实施例3

一种半监督学习的小样本文本分类***，如图3所示，包括：分类文本获取模块、查找表执行模块、多层感知器执行模块；

还包括查找表生成模块，所述查找表生成模块构建初始的查找表，通过变分自编码器对初始的查找表进行训练，保存训练完成的查找表到查找表执行模块。

实施例4

CNN在特征提取和并行计算方面具有优势，得到了广泛应用。对于长序列，RNN在上下文表示方面比CNN具有更好的表现。作为CNN的一种变体，门控卷积神经网络不存在梯度消失问题。门控卷积神经网络融合门机制，包含如LSTM的一些特性。门控卷积神经网络拥有单独的输出门，能够控制哪些信息通过网络传递。这有利于语言建模，使模型能够选择有用的单词或特征来预测后续单词。变分自编码器是一种结合变分推理的生成模型。使用批归一化层(BN)和标量层(Scalar)解决KL散度消失问题。综上，门控卷积神经网络包含CNN和RNN的优点，加入BN和Scalar的变分自编码器是一个优质的生成模型。因此，本发明提出一种基于半监督变分自编码器的分类预测模型，使用以门控卷积神经网络为编码器和解码器的变分自编码器，加入BN和Scalar，大幅度提高了预测的应用场景，同时提高了预测的准确性。

在具体实施过程中，所述一种半监督的小样本文本分类方法，具体包括以下步骤：

S1、获取待分类文本；

步骤S2所述查找表为完成训练的查找表，通过对初始的查找表训练得到，获取完成训练的查找表的方法为：构建初始的查找表，通过变分自编码器对初始的查找表进行训练，保存完成训练的查找表。所述变分自编码器包括：编码器、批归一化层、标量层、解码器；

训练查找表包括步骤：

S21、构建初始的查找表，将文本数据集输入到初始的查找表，通过初始的查找表将文本映射为矩阵，所述矩阵为初始的文本表征；

S25、隐码输入到变分自编码器的解码器中，输出重构文本；

具体地，在查找表训练过程中，给定数据集包含标签

已知标签y∈Y。同时，有大量来自相同分布的无标签文本U，例如

具体地，采用变分自编码器学习表征，具体过程包括：

S201、变分自编码器用编码器f_e和解码器f_d生成文本。编码器负责将输入文本匹配到后验分布p(z|x)。解码器用潜在表征z依照后验分布q(x|z)重构给定文本；

S202、在生成过程中，对于文本i，变分后验p(z|x)近似为一个带有对角协方差结构的多维高斯分布，依照公式(1):

logp(z_i|x_i)＝logN(z_i|f_μ(x_i),diag(f_σ(x_i))),(1)

其中，x_i是变分自编码器的输入，f_μ和f_σ是分别计算平均数和标准差的函数，依照公式(2):

x_i～q(x_i|f_d(z_i)),(2)

其中，x_i表示解码器样本在潜在空间z对相应的文本i的重构，μ和σ分别是平均数和标准差；

S203、优化边缘概率。将q(z)设为高斯分布，变分下限作为优化目标：

其中，B是变分自编码器的下限。式(3)的第一项定义为一个编码器的重构损失，表明生成的单词和输入文本的相似度；第二项是测量两个概率分布差异的指标。

变分自编码器中设定q(z)服从正态分布。在训练过程中，变分自编码器的编码器会最小化KL[p(z|x)||q(z)],，使得q(z|x)服从正态分布，从而使KL项为0。

变分自编码器的解码器会在训练过程中最大化q(x|z)，让解码器最大概率地从z中重构出x。这会使B(x_i)增大，同时KL项随之增大。

重构损失和KL散度项是对立的，内部包含对抗的过程。因此，在变分自编码器在训练过程中协同影响编码器和解码器，使得目标函数最大化。同时，在训练过程中，编码器和解码器不是分开进行调整的，而是结合起来同时训练。

设定q(z)是标准正态分布，p(z|x)是各分量独立的正态分布。

其中，d是隐变量z的维度，σ_i是第j维度近似后验的标准差和平均数。

根据KL散度的计算公式，来计算损失函数中的KL散度项，得到公式(4):

其中，d代表隐变量z的维度。σ_i和μ_i分别是第j维度近似后验的标准差和平均数。它能让变分近似靠近设定的先验。每个先验成为一个多变量正态分布；

S204、训练阶段，使用重参数技巧，以此解决变分目标梯度随机逼近的难解性问题。因此，变分自编码器的变分下限可以近似为：

其中，ε^(s)～N(0,I)从独立高斯分布采样。

优选地，变分自编码器采用门控卷积神经网络作为编码器和解码器，具体过程包括：

S211、自然语言模型将文本的每个单词w₀,w₁,...,w_N表征为H＝[h₀,h₁,...,h_N]，通过H预测接下来的单词P(w_l|h_l)。传统LSTM语言模型是时间序列模型，不能并行计算，效率较低。而CNN语言模型能够实现计算的并行性。和CNN一样，门控卷积神经网络(GCNN)具备计算的并行性。本专利中，变分自编码器的编码器和解码器使用门控卷积神经网络，模型的效果和速度都有提高，它可以运用卷积函数f_e获取H＝f_c*w。

S212、每个单词可以被表示为一个查找表D^|V|×e中的一个向量，e是嵌入大小，V是词汇表的单词数目。通过查找表，序列中的单词可以通过词向量

表示；

S213、隐藏层h计算依照公式(7):

其中，X∈R^N×m是层h的输入。W和V是卷积函数。W∈R^k×m×n，b∈Rⁿ，V∈R^k×m×n，c∈Rⁿ是可学习的参数，k是核的大小，τ是sigmoid函数，是内积。h的输出为线性函数(X*W+b)，通过门机制τ归一化。之后放缩输出τ(X*V+c)通过点乘映射到(X*W+b)；

S214、利用全局最大池化层进一步抽取门控卷积神经网络输出的最显著的特征。

具体地，采用批归一化层和标量层改良变分自编码器，具体过程包括：

S221、批归一化层在f_μ函数后来归一化后验参数，确保KL散度的均值为正下限。KL散度项在A个样本计算依照公式(4)：

因为e^x-x-1是0，

等于0或大于0，将公式(8)转换为公式(9)。

S222、固定均值和方差，并在fμ后在使用批归一化层(BN)，可以将公式(9)转化为：

其中，μ的均值为β_μ，方差为

和

分别是批归一化层的转换和缩放参数。Ε[KL]的下限通过修改

可以确保为正数，从而KL散度项大于0，解决KL散度消失现象，

是一个可学习的参数，使分布更具备可调整性；

S223、由设定q(z)是标准正态分布，p(z|x)是各分量独立的正态分布的条件可得，先验q(z)＝N(z；0,1)和后验q(z|x)＝N(z；μ(x),σ(x))。变分自编码器希望训练好后的模型的隐变量分布为先验分布q(z)，可以得出公式(11)，

其中，

是训练数据的分布；

S224、通过用z和z²分别乘以公式(11)，然后分别对z积分:

S225、本实施例中，学习平均数后添加批归一化层的方法，解决KL散度消失问题，更进一步，对μ和σ都通过批归一化层进行处理，运用正态分布的一阶矩和二阶矩的计算公式，和公式(12)的条件，可得公式(13)

0＝E[μ(x)]＝β_μ

其中，μ的均值为β_μ，方差为

σ的均值为β_σ，方差为

进一步设置β_μ＝0，从而可以达到一个限制关系

最后，得出一个改良的变分自编码器：

其中，

是常数，本专利中设置为0.5。θ是可训练参数。

结合式(4)可以知道，保证KL散度不消失的关键是确保

将平均值归一化后，就可以让KL散度项有个正的下界，这样就不会出现KL散度消失现象了。因此，通过增加批归一化层和标量层后，解决KL散度消失问题。

具体地，建立包含门控卷积神经网络、批归一化层、标量层的变分自编码器。首先需要确定卷积滤波器大小和数量。将卷积滤波器的大小设置为3，滤波器的数量设置为512。

具体地，在查找表实际训练过程中，设定实验批量(batch size)大小分别为256，潜在维度分别为128。使用10k的词汇量，并将词嵌入(word embedding)维度设置为256。使用Adam优化算法进行学习。学习率设为0.001，β₁和β₂分别设为0.9和0.999。为了更好地监控学习过程，若损失在4个轮次内没有减少，模型将提前停止。用10个随机种子(Random Seed)运行训练模型，测试语言建模。

进一步地，使用10个随机种子运行，测试半监督学***均性能确定。将变分自编码器训练后的表征用于多层感知器来进行文本分类。

表1对比了半监督变分自编码器-卷积神经网络(SVAE-CNN)、半监督变分自编码器-长短时记忆网络(SVAE-LSTM)和本发明提出的半监督变分自编码器(SVAE)负对数似然、复杂度和KL散度对比。

模型	NLL	PPL	KL
				SVAE-CNN	379.68	24.22	51.29
SVAE-LSTM	644.61	229.37	40.04
				SVAE	402.23	29.09	51.44

从表1可以看出本发明的半监督变分自编码器生成的文本相较于其他模型，有更好的表现。因此，SAVE是具备一定竞争力的语言模型。

表2对比了半监督变分自编码器-卷积神经网络(SVAE-CNN)、半监督变分自编码器-长短时记忆网络(SVAE-LSTM)、有监督的模型(supervised)和本发明提出的半监督变分自编码器(SVAE)在使用不同样本训练模型的情况下，标签预测的准确度对比。

模型\样本量	100	200	500	1000	2000
						SVAE	86.40	89.75	91.57	93.05	94.52
SVAE-CNN	83.93	87.06	90.05	91.92	93.98
						SVAE-LSTM	85.67	87.90	89.33	90.24	91.81
supervised	70.00	78.75	90.08	93.42	94.14

从表2可以看出，本发明的SVAE模型在小样本情况下相较于其他方法，都具备优势，同时在数据量增加的场景，也保持不错的表现。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。