CN114036947A - 一种半监督学习的小样本文本分类方法和*** - Google Patents
一种半监督学习的小样本文本分类方法和*** Download PDFInfo
- Publication number
- CN114036947A CN114036947A CN202111503834.0A CN202111503834A CN114036947A CN 114036947 A CN114036947 A CN 114036947A CN 202111503834 A CN202111503834 A CN 202111503834A CN 114036947 A CN114036947 A CN 114036947A
- Authority
- CN
- China
- Prior art keywords
- text
- encoder
- lookup table
- layer
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 51
- 238000010606 normalization Methods 0.000 claims description 39
- 238000009826 distribution Methods 0.000 claims description 35
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012905 input function Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种半监督学习的小样本文本分类方法和***,涉及半监督文本分类领域,包括步骤:S1、获取待分类文本;S2、将待分类文本输入预先训练完成的查找表,查找表将待分类文本映射为文本表征;S3、将文本表征输入多层感知器得到文本标签,文本标签作为文本分类结果。本发明通过查找表获取待分类文本的文本表征,之后多层感知器根据文本表征得到文本标签作为文本分类结果,针对数据量小、数据标签不全的文本数据进行文本分类的情况也能取得较好的分类效果,不需要对大量的文本数据进行人工标注,节约人工标记成本,能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。
Description
技术领域
本发明涉及半监督文本分类领域,更具体地,涉及一种半监督学习的小样本文本分类方法和***。
背景技术
随着科技的发展,互联网中的数据量有着指数级的增长。面对其中的海量文本,智能处理技术可以节约计算资源,提升处理效率。文本分类是信息检索和挖掘的基础技术,在管理文本数据中起着至关重要的作用。
近年来,文本分类已逐渐从浅层学习模型变为深层的深度学习模型。与基于浅层学习的方法相比,深度学习方法避免了人工设计规则和特征,并自动为文本挖掘提供了语义上有意义的表示形式。因此,大多数文本分类研究工作都基于深度神经网络(DNN)。
然而,现有的基于深度学习的文本分类方法需要收集足够的训练数据并人工标记标签,耗时耗力。而且,对于一些领域的文本数据进行文本分类,需要收集专门的数据集,难以使所有数据都带有标签。
现有技术公开的文本分类模型的训练方法和文本分类方法,通过将多个任务中每个任务下的文本样本输入其对应的私有特征提取器和公有特征提取器,对多个不同任务下的私有特征提取器和分类器进行同时训练,得到训练后的文本分类模型;但该方法在数据量小、数据标签不全的条件下无法进行训练,需要收集大量的训练数据并人工标记标签,训练成本高。
发明内容
本发明为克服上述技术问题,提供一种针对数据量小、数据标签不全的文本数据进行文本分类的半监督学习的小样本文本分类方法和***。
本发明技术方案如下:
一种半监督学习的小样本文本分类方法,包括以下步骤:
S1、获取待分类文本;
S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;
S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
本技术方案提出了一种半监督学习的小样本文本分类方法,利用查找表获取待分类文本的文本表征,之后多层感知器根据文本表征得到文本标签作为文本分类结果,针对数据量小、数据标签不全的文本数据进行文本分类的情况也能取得较好的分类效果,不需要对大量的文本数据进行人工标注,节约人工标记成本,能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。
进一步地,所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
进一步地,训练查找表包括步骤:
S21、将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;
S22、将初始的文本表征输入到变分自编码器的编码器中进行学***均数和标准差;
S23、将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;
S24、使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码z;
其中,xi是变分自编码器的输入,fμ'和fσ'是分别计算并进行归一化和缩放平均数和标准差的函数,ε(s)~N(0,I),即ε(s)参数是按照独立高斯分布进行采样得到,s为隐码z的维度;
S25、隐码输入到变分自编码器的解码器中,输出重构文本;
S26、使用损失函数计算步骤S25的重构文本和步骤S21输入查找表的文本数据之间的重构损失,利用目标函数判断是否达到训练目标,目标函数公式为:
其中,xi是变分自编码器的输入,zi是隐变量,q(z)是变分自编码器的先验分布,p(zi|xi)是变分自编码器的后验分布,B是变分自编码器的下限,是重构损失,表明生成的单词和输入文本的相似度;KL[p(zi|xi)||q(z)]是测量两个概率分布差异的指标;
S27、若达到训练目标,查找表训练完成,保存完成训练的查找表;若未达到训练目标,则重复执行训练过程,并利用反向传播算法根据目标函数调整查找表和变分编码器的参数,直到达到训练目标。
进一步地,步骤S3多层感知器利用文本表征得到文本标签过程包括:
S31、将文本表征输入多层感知器的第一全连接层提取特征,得到第一全连接层的输出数据;
S32、将第一全连接层的输出数据输入第一激活函数进行处理,得到第一激活函数的输出数据;
S33、将第一激活函数的输出数据输入多层感知器的第二全连接层提取特征,得到第二全连接层的输出数据;
S34、将第二全连接层的输出数据输入第二激活函数进行处理,得到文本标签作为文本分类结果。
一种半监督学习的小样本文本分类***,分类文本获取模块、查找表执行模块、多层感知器执行模块;
分类文本获取模块获取待分类文本,并将待分类文本输入预先训练完成的查找表执行模块;查找表执行模块利用查找表将待分类文本映射为文本表征,并将文本表征输入多层感知器执行模块,多层感知器执行模块利用多层感知器通过文本表征得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
进一步地,还包括查找表生成模块,所述查找表生成模块构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存训练完成的查找表到查找表执行模块。
进一步地,所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
本技术方案提出了一种半监督学习的小样本文本分类方法和***,与现有技术相比,本发明技术方案的有益效果是:本发明利用查找表获取待分类文本的文本表征,然后多层感知器根据文本表征得到文本标签作为文本分类结果,针对数据量小、数据标签不全的文本数据进行文本分类的情况也能取得较好的分类效果,不需要对大量的文本数据进行标注,节约人工标记成本,能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。
附图说明
图1为文本分类过程步骤示意图;
图2为变分自编码器结构示意图;
图3为小样本文本分类***示意图。
具体实施方式
为清楚地说明本发明一种半监督学习的小样本文本分类方法和***,结合实施例和附图对本发明作进一步说明,但不应以此限制本发明的保护范围。
实施例1
一种半监督学习的小样本文本分类方法,如图1所示,包括步骤:
S1、获取待分类文本;
S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;
S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
本实施例利用查找表获取待分类文本的文本表征,然后多层感知器根据文本表征得到文本标签作为文本分类结果,本发明用于对数据量小、数据标签不全的文本数据进行文本分类,不需要对大量的文本数据进行标注,节约人工标记成本,能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。
实施例2
一种半监督学习的小样本文本分类方法,如图1所示,包括步骤:
S1、获取待分类文本;
S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;
S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
步骤S2所述查找表为完成训练的查找表,通过对初始的查找表训练得到,获取完成训练的查找表的方法为:构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存完成训练的查找表。
所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
训练查找表包括步骤:
S21、将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;
S22、将初始的文本表征输入到变分自编码器的编码器中进行学***均数和标准差;
S23、将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;
S24、使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码z;
其中,xi是变分自编码器的输入,fμ'和fσ'是分别计算并进行归一化和缩放平均数和标准差的函数,ε(s)~N(0,I),即ε(s)参数是按照独立高斯分布进行采样得到,s为隐码z的维度;
S25、隐码输入到变分自编码器的解码器中,输出重构文本;
S26、使用损失函数计算步骤S25的重构文本和步骤S21输入查找表的文本数据之间的重构损失,利用目标函数判断是否达到训练目标,目标函数公式为:
其中,xi是变分自编码器的输入,zi是隐变量,q(z)是变分自编码器的先验分布,p(zi|xi)是变分自编码器的后验分布,B是变分自编码器的下限,是重构损失,表明生成的单词和输入文本的相似度;KL[p(zi|xi)||q(z)]是测量两个概率分布差异的指标;
本实施例中,所述损失函数为均方误差(MSE)损失函数。
S27、若达到训练目标,查找表训练完成,保存完成训练的查找表;若未达到训练目标,则重复执行训练过程,并利用反向传播算法根据目标函数调整查找表和变分编码器的参数,直到达到训练目标。
步骤S3多层感知器利用文本表征得到文本标签过程包括:
S31、将文本表征输入多层感知器的第一全连接层提取特征,得到第一全连接层的输出数据;
S32、将第一全连接层的输出数据,输入第一激活函数进行处理,得到第一激活函数的输出数据;
S33、将第一激活函数的输出数据,输入多层感知器的第二全连接层提取特征,得到第二全连接层的输出数据;
S34、将第二全连接层的输出数据,输入第二激活函数进行处理,得到文本标签作为文本分类结果。
实施例3
一种半监督学习的小样本文本分类***,如图3所示,包括:分类文本获取模块、查找表执行模块、多层感知器执行模块;
分类文本获取模块获取待分类文本,并将待分类文本输入预先训练完成的查找表执行模块;查找表执行模块利用查找表将待分类文本映射为文本表征,并将文本表征输入多层感知器执行模块,多层感知器执行模块利用多层感知器通过文本表征得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
还包括查找表生成模块,所述查找表生成模块构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存训练完成的查找表到查找表执行模块。
所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
实施例4
CNN在特征提取和并行计算方面具有优势,得到了广泛应用。对于长序列,RNN在上下文表示方面比CNN具有更好的表现。作为CNN的一种变体,门控卷积神经网络不存在梯度消失问题。门控卷积神经网络融合门机制,包含如LSTM的一些特性。门控卷积神经网络拥有单独的输出门,能够控制哪些信息通过网络传递。这有利于语言建模,使模型能够选择有用的单词或特征来预测后续单词。变分自编码器是一种结合变分推理的生成模型。使用批归一化层(BN)和标量层(Scalar)解决KL散度消失问题。综上,门控卷积神经网络包含CNN和RNN的优点,加入BN和Scalar的变分自编码器是一个优质的生成模型。因此,本发明提出一种基于半监督变分自编码器的分类预测模型,使用以门控卷积神经网络为编码器和解码器的变分自编码器,加入BN和Scalar,大幅度提高了预测的应用场景,同时提高了预测的准确性。
在具体实施过程中,所述一种半监督的小样本文本分类方法,具体包括以下步骤:
S1、获取待分类文本;
S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;
S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
步骤S2所述查找表为完成训练的查找表,通过对初始的查找表训练得到,获取完成训练的查找表的方法为:构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存完成训练的查找表。所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
训练查找表包括步骤:
S21、构建初始的查找表,将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;
S22、将初始的文本表征输入到变分自编码器的编码器中进行学***均数和标准差;
S23、将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;
S24、使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码z;
其中,xi是变分自编码器的输入,fμ'和fσ'是分别计算并进行归一化和缩放平均数和标准差的函数,ε(s)~N(0,I),即ε(s)参数是按照独立高斯分布进行采样得到,s为隐码z的维度;
S25、隐码输入到变分自编码器的解码器中,输出重构文本;
S26、使用损失函数计算步骤S25的重构文本和步骤S21输入查找表的文本数据之间的重构损失,利用目标函数判断是否达到训练目标,目标函数公式为:
其中,xi是变分自编码器的输入,zi是隐变量,q(z)是变分自编码器的先验分布,p(zi|xi)是变分自编码器的后验分布,B是变分自编码器的下限,是重构损失,表明生成的单词和输入文本的相似度;KL[p(zi|xi)||q(z)]是测量两个概率分布差异的指标;
S27、若达到训练目标,查找表训练完成,保存完成训练的查找表;若未达到训练目标,则重复执行训练过程,并利用反向传播算法根据目标函数调整查找表和变分编码器的参数,直到达到训练目标。
具体地,采用变分自编码器学习表征,具体过程包括:
S201、变分自编码器用编码器fe和解码器fd生成文本。编码器负责将输入文本匹配到后验分布p(z|x)。解码器用潜在表征z依照后验分布q(x|z)重构给定文本;
S202、在生成过程中,对于文本i,变分后验p(z|x)近似为一个带有对角协方差结构的多维高斯分布,依照公式(1):
logp(zi|xi)=logN(zi|fμ(xi),diag(fσ(xi))),(1)
其中,xi是变分自编码器的输入,fμ和fσ是分别计算平均数和标准差的函数,依照公式(2):
xi~q(xi|fd(zi)),(2)
其中,xi表示解码器样本在潜在空间z对相应的文本i的重构,μ和σ分别是平均数和标准差;
S203、优化边缘概率。将q(z)设为高斯分布,变分下限作为优化目标:
其中,B是变分自编码器的下限。式(3)的第一项定义为一个编码器的重构损失,表明生成的单词和输入文本的相似度;第二项是测量两个概率分布差异的指标。
变分自编码器中设定q(z)服从正态分布。在训练过程中,变分自编码器的编码器会最小化KL[p(z|x)||q(z)],,使得q(z|x)服从正态分布,从而使KL项为0。
变分自编码器的解码器会在训练过程中最大化q(x|z),让解码器最大概率地从z中重构出x。这会使B(xi)增大,同时KL项随之增大。
重构损失和KL散度项是对立的,内部包含对抗的过程。因此,在变分自编码器在训练过程中协同影响编码器和解码器,使得目标函数最大化。同时,在训练过程中,编码器和解码器不是分开进行调整的,而是结合起来同时训练。
设定q(z)是标准正态分布,p(z|x)是各分量独立的正态分布。
其中,d是隐变量z的维度,σi是第j维度近似后验的标准差和平均数。
根据KL散度的计算公式,来计算损失函数中的KL散度项,得到公式(4):
其中,d代表隐变量z的维度。σi和μi分别是第j维度近似后验的标准差和平均数。它能让变分近似靠近设定的先验。每个先验成为一个多变量正态分布;
S204、训练阶段,使用重参数技巧,以此解决变分目标梯度随机逼近的难解性问题。因此,变分自编码器的变分下限可以近似为:
其中,ε(s)~N(0,I)从独立高斯分布采样。
优选地,变分自编码器采用门控卷积神经网络作为编码器和解码器,具体过程包括:
S211、自然语言模型将文本的每个单词w0,w1,...,wN表征为H=[h0,h1,...,hN],通过H预测接下来的单词P(wl|hl)。传统LSTM语言模型是时间序列模型,不能并行计算,效率较低。而CNN语言模型能够实现计算的并行性。和CNN一样,门控卷积神经网络(GCNN)具备计算的并行性。本专利中,变分自编码器的编码器和解码器使用门控卷积神经网络,模型的效果和速度都有提高,它可以运用卷积函数fe获取H=fc*w。
S213、隐藏层h计算依照公式(7):
其中,X∈RN×m是层h的输入。W和V是卷积函数。W∈Rk×m×n,b∈Rn,V∈Rk×m×n,c∈Rn是可学习的参数,k是核的大小,τ是sigmoid函数,是内积。h的输出为线性函数(X*W+b),通过门机制τ归一化。之后放缩输出τ(X*V+c)通过点乘映射到(X*W+b);
S214、利用全局最大池化层进一步抽取门控卷积神经网络输出的最显著的特征。
具体地,采用批归一化层和标量层改良变分自编码器,具体过程包括:
S221、批归一化层在fμ函数后来归一化后验参数,确保KL散度的均值为正下限。KL散度项在A个样本计算依照公式(4):
S222、固定均值和方差,并在fμ后在使用批归一化层(BN),可以将公式(9)转化为:
S223、由设定q(z)是标准正态分布,p(z|x)是各分量独立的正态分布的条件可得,先验q(z)=N(z;0,1)和后验q(z|x)=N(z;μ(x),σ(x))。变分自编码器希望训练好后的模型的隐变量分布为先验分布q(z),可以得出公式(11),
S224、通过用z和z2分别乘以公式(11),然后分别对z积分:
S225、本实施例中,学习平均数后添加批归一化层的方法,解决KL散度消失问题,更进一步,对μ和σ都通过批归一化层进行处理,运用正态分布的一阶矩和二阶矩的计算公式,和公式(12)的条件,可得公式(13)
0=E[μ(x)]=βμ
进一步设置βμ=0,从而可以达到一个限制关系
最后,得出一个改良的变分自编码器:
具体地,建立包含门控卷积神经网络、批归一化层、标量层的变分自编码器。首先需要确定卷积滤波器大小和数量。将卷积滤波器的大小设置为3,滤波器的数量设置为512。
具体地,在查找表实际训练过程中,设定实验批量(batch size)大小分别为256,潜在维度分别为128。使用10k的词汇量,并将词嵌入(word embedding)维度设置为256。使用Adam优化算法进行学习。学习率设为0.001,β1和β2分别设为0.9和0.999。为了更好地监控学习过程,若损失在4个轮次内没有减少,模型将提前停止。用10个随机种子(Random Seed)运行训练模型,测试语言建模。
进一步地,使用10个随机种子运行,测试半监督学***均性能确定。将变分自编码器训练后的表征用于多层感知器来进行文本分类。
表1对比了半监督变分自编码器-卷积神经网络(SVAE-CNN)、半监督变分自编码器-长短时记忆网络(SVAE-LSTM)和本发明提出的半监督变分自编码器(SVAE)负对数似然、复杂度和KL散度对比。
模型 | NLL | PPL | KL |
SVAE-CNN | 379.68 | 24.22 | 51.29 |
SVAE-LSTM | 644.61 | 229.37 | 40.04 |
SVAE | 402.23 | 29.09 | 51.44 |
从表1可以看出本发明的半监督变分自编码器生成的文本相较于其他模型,有更好的表现。因此,SAVE是具备一定竞争力的语言模型。
表2对比了半监督变分自编码器-卷积神经网络(SVAE-CNN)、半监督变分自编码器-长短时记忆网络(SVAE-LSTM)、有监督的模型(supervised)和本发明提出的半监督变分自编码器(SVAE)在使用不同样本训练模型的情况下,标签预测的准确度对比。
模型\样本量 | 100 | 200 | 500 | 1000 | 2000 |
SVAE | 86.40 | 89.75 | 91.57 | 93.05 | 94.52 |
SVAE-CNN | 83.93 | 87.06 | 90.05 | 91.92 | 93.98 |
SVAE-LSTM | 85.67 | 87.90 | 89.33 | 90.24 | 91.81 |
supervised | 70.00 | 78.75 | 90.08 | 93.42 | 94.14 |
从表2可以看出,本发明的SVAE模型在小样本情况下相较于其他方法,都具备优势,同时在数据量增加的场景,也保持不错的表现。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种半监督学习的小样本文本分类方法,其特征在于,包括以下步骤:
S1、获取待分类文本;
S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;
S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
2.根据权利要求1所述的一种半监督学习的小样本文本分类方法,其特征在于,步骤S2所述查找表为完成训练的查找表,通过对初始的查找表训练得到,获取完成训练的查找表的方法为:构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存完成训练的查找表。
3.根据权利要求2所述的一种半监督学习的小样本文本分类方法,其特征在于,所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
4.根据权利要求3所述的一种半监督学习的小样本文本分类方法,其特征在于,训练查找表包括步骤:
S21、构建初始的查找表,将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;
S22、将初始的文本表征输入到变分自编码器的编码器中进行学***均数和标准差;
S23、将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;
S24、使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码z;
其中,xi是变分自编码器的输入,f′μ和f′σ是分别计算并进行归一化和缩放平均数和标准差的函数,ε(s)~N(0,I),即ε(s)参数是按照独立高斯分布进行采样得到,s为隐码z的维度;
S25、隐码输入到变分自编码器的解码器中,输出重构文本;
S26、使用损失函数计算步骤S25的重构文本和步骤S21输入查找表的文本数据之间的重构损失,利用目标函数判断是否达到训练目标,目标函数公式为:
其中,xi是变分自编码器的输入,zi是隐变量,q(z)是变分自编码器的先验分布,p(zi|xi)是变分自编码器的后验分布,B是变分自编码器的下限,是重构损失,表明生成的单词和输入文本的相似度;KL[p(zi|xi)||q(z)]是测量两个概率分布差异的指标;
S27、若达到训练目标,查找表训练完成,保存完成训练的查找表;若未达到训练目标,则重复执行训练过程,并利用反向传播算法根据目标函数调整查找表和变分编码器的参数,直到达到训练目标。
5.根据权利要求1所述的一种半监督学习的小样本文本分类方法,其特征在于,步骤S3多层感知器利用文本表征得到文本标签过程包括:
S31、将文本表征输入多层感知器的第一全连接层提取特征,得到第一全连接层的输出数据;
S32、将第一全连接层的输出数据输入第一激活函数进行处理,得到第一激活函数的输出数据;
S33、将第一激活函数的输出数据输入多层感知器的第二全连接层提取特征,得到第二全连接层的输出数据;
S34、将第二全连接层的输出数据输入第二激活函数进行处理,得到文本标签作为文本分类结果。
8.一种半监督学习的小样本文本分类***,其特征在于,包括:分类文本获取模块、查找表执行模块、多层感知器执行模块;
分类文本获取模块获取待分类文本,并将待分类文本输入预先训练完成的查找表执行模块;查找表执行模块利用查找表将待分类文本映射为文本表征,并将文本表征输入多层感知器执行模块,多层感知器执行模块利用多层感知器通过文本表征得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
9.根据权利要求8所述的一种半监督学习的小样本文本分类***,其特征在于,还包括查找表生成模块,所述查找表生成模块构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存训练完成的查找表到查找表执行模块。
10.根据权利要求9所述的一种半监督学习的小样本文本分类***,其特征在于,所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111503834.0A CN114036947B (zh) | 2021-12-09 | 2021-12-09 | 一种半监督学习的小样本文本分类方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111503834.0A CN114036947B (zh) | 2021-12-09 | 2021-12-09 | 一种半监督学习的小样本文本分类方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114036947A true CN114036947A (zh) | 2022-02-11 |
CN114036947B CN114036947B (zh) | 2023-11-14 |
Family
ID=80146573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111503834.0A Active CN114036947B (zh) | 2021-12-09 | 2021-12-09 | 一种半监督学习的小样本文本分类方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036947B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116737671A (zh) * | 2023-08-14 | 2023-09-12 | 云南喜岁科技有限公司 | 用于电力工程项目全过程管理的数据文件分析处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783645A (zh) * | 2019-01-23 | 2019-05-21 | 福州大学 | 一种基于变分自编码的文本分类方法 |
CN110427978A (zh) * | 2019-07-10 | 2019-11-08 | 清华大学 | 面向小样本学习的变分自编码器网络模型和装置 |
CN110580501A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种基于变分自编码对抗网络的零样本图像分类方法 |
CN112990385A (zh) * | 2021-05-17 | 2021-06-18 | 南京航空航天大学 | 一种基于半监督变分自编码器的主动众包图像学习方法 |
-
2021
- 2021-12-09 CN CN202111503834.0A patent/CN114036947B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783645A (zh) * | 2019-01-23 | 2019-05-21 | 福州大学 | 一种基于变分自编码的文本分类方法 |
CN110427978A (zh) * | 2019-07-10 | 2019-11-08 | 清华大学 | 面向小样本学习的变分自编码器网络模型和装置 |
CN110580501A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种基于变分自编码对抗网络的零样本图像分类方法 |
CN112990385A (zh) * | 2021-05-17 | 2021-06-18 | 南京航空航天大学 | 一种基于半监督变分自编码器的主动众包图像学习方法 |
Non-Patent Citations (3)
Title |
---|
曹真等: "基于改进变分自编码器的零样本图像分类", vol. 52, no. 2, pages 300 - 306 * |
杨晨曦;左?;孙频捷;: "基于自编码器的零样本学习方法研究进展", 现代计算机, no. 01, pages 49 - 53 * |
长安逸魂: "变分自编码器(一)——基本原理简介", pages 1 - 8 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116737671A (zh) * | 2023-08-14 | 2023-09-12 | 云南喜岁科技有限公司 | 用于电力工程项目全过程管理的数据文件分析处理方法 |
CN116737671B (zh) * | 2023-08-14 | 2023-10-31 | 云南喜岁科技有限公司 | 用于电力工程项目全过程管理的数据文件分析处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114036947B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112163426B (zh) | 一种基于注意力机制与图长短时记忆神经网络结合的关系抽取方法 | |
Abdar et al. | A review of uncertainty quantification in deep learning: Techniques, applications and challenges | |
Sharma et al. | Efficient Classification for Neural Machines Interpretations based on Mathematical models | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN107122809B (zh) | 基于图像自编码的神经网络特征学习方法 | |
Shiri et al. | A comprehensive overview and comparative analysis on deep learning models: CNN, RNN, LSTM, GRU | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
Zhang et al. | Quantifying the knowledge in a DNN to explain knowledge distillation for classification | |
Wu et al. | Optimized deep learning framework for water distribution data-driven modeling | |
Fu et al. | MCA-DTCN: A novel dual-task temporal convolutional network with multi-channel attention for first prediction time detection and remaining useful life prediction | |
CN114036947B (zh) | 一种半监督学习的小样本文本分类方法和*** | |
CN113204640B (zh) | 一种基于注意力机制的文本分类方法 | |
CN108388918B (zh) | 具有结构保持特性的数据特征选择方法 | |
CN114399661A (zh) | 一种实例感知主干网络训练方法 | |
CN116401369B (zh) | 用于生物制品生产术语的实体识别及分类方法 | |
CN113312907A (zh) | 基于混合神经网络的远程监督关系抽取方法及装置 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
Wang et al. | A convolutional neural network image classification based on extreme learning machine | |
CN112381108A (zh) | 一种基于图卷积神经网络深度学习的枪弹痕迹相似度识别方法和*** | |
CN115577111A (zh) | 基于自注意力机制的文本分类方法 | |
CN110796195B (zh) | 一种包含在线小样本激励的图像分类方法 | |
CN112183103A (zh) | 融合不同预训练词向量的卷积神经网络实体关系抽取方法 | |
CN114565972B (zh) | 骨架动作识别方法、***、设备与存储介质 | |
Kumar et al. | Kullback-Leibler Divergence Based Regularized Normalization for Low Resource Tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |