CN112115265A

CN112115265A - 文本分类中的小样本学习方法

Info

Publication number: CN112115265A
Application number: CN202011021652.5A
Authority: CN
Inventors: 王晓诗; 赵晓芳; 史骁; 胡斌
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-22

Abstract

本发明揭示了一种文本分类中的小样本学习方法，以元学习与深度学习组合运用。具体先提出一种小样本学习数据集的提取方法，从原始分类数据集中构造出元学习数据集，而后构造文本分类的小样本学习模型，利用元学习数据集对组合模型进行训练，学习类别变化的情况下模型的泛化能力，学会不同元任务中的共性部分；利用这种学习机制所得模型，在面对新的小样本文本分类任务时，能通过对模型进行参数微调来快速完成小样本分类任务。应用本发明技术方案，较之于传统文本分类模型或深度学习的文本分类网络更快更准确。

Description

文本分类中的小样本学习方法

技术领域

本发明涉及一种计算机自然语言处理方法，尤其涉及小样本情形下的文本分类学习方法。

背景技术

文本分类技术在现实生活中有广泛的应用，文本分类模型也多种多样，包括传统的机器学习方法和现阶段流行的深度学习方法，如fastText，TextCNN，TextRNN，Hierarchical Attention Network，Bert等。不同的分类模型有不同的侧重点，但是这些模型往往需要大量的标注样本。就目前大量的实验和工作证明，数据量的大小直接影响学习的性能。主要原因是由于传统的文本分类模型都是建立在具有大量的标签数据下的有监督学习。在使用深度学习器加以训练时，由于模型相对于样本数量过度复杂，模型参数过多，导致无法覆盖基本特征而产生了过拟合现象。这就导致这些模型在大量数据集的情况下效果较好，但是只有少量几条样本的情况下效果极差。

而往往在大多数时候，寻找数据需要花费相当多的时间，在很多实际的项目中难以找到充足的数据来完成任务。这时就需要能从小样本数据中学习模型来解决文本分类的问题。

另外，由于小样本学习的特殊性，需要学习到不同的类别间共性部分和类别变化的情况下模型的泛化能力，所以传统的基于样本与类别对的文本分类数据集不能直接应用于小样本学习任务的训练和测试。

发明内容

鉴于大多数场景下文本分类无法提供足量多可供训练的标签数据，本发明的目的旨在提出一种文本分类中的小样本学习方法，以解决只有少量样本下建模、完成文本分类的任务。

本发明实现上述目的的技术解决方案是：文本分类中的小样本学习方法，其特征在于包括步骤：

S1、构建训练集，基于元学习方法处理原始分类数据集，提取元学习的数据集；

S2、构建模型，在MAML框架下嵌套文本分类网络，构造组合的小样本学习模型；

S3、模型识别，对所构造的小样本学习模型进行训练，获得初始化参数，而后在新的任务中进行参数微调，利用微调后的小样本学习模型进行识别与发现。

上述文本分类中的小样本学习方法，进一步地，步骤S1中提取元学习的数据集的方法包括步骤：

S11、输入包含类别数量N、样本数量K、目录Dir，训练集数据量Train_num、测试集数据量Test_num的原始分类数据集，基于目录Dir整理原始分类数据集的信息；

S12、生成初始的元训练集和初始的元测试集，选择不相重复的训练集类别和测试集类别，而后在所选择的类别结果中随机抽取N个类别；

S13、在每个类别中随机抽取K条样本，N*K条样本一起构成单个元任务的子训练集support set，在每个类别中随机抽取1条样本，N*1条样本一起构成单个元任务的子测试集query set，将子测试集和子训练集合并为一个元任务，逐次加入到元训练集和元测试集中；

S14、循环执行对应训练集数据量Train_num次的步骤S13，获得终态的元训练集，并且循环执行对应测试集数据量Test_num次的步骤13，获得终态的元测试集；

S15、合并终态的元训练集和元测试集，得到元学习的数据集。

上述文本分类中的小样本学习方法，进一步地，步骤S2构建模型中所嵌套的文本分类网络至少为FastText，TextCNN，TextRNN，Hierarchical Attention Network，Bert中的一种。

上述文本分类中的小样本学习方法，进一步地，步骤S3模型识别中包括：

训练阶段，将步骤S1所得的数据集分解为元任务，训练小样本学习模型在类别变化下的泛化能力，捕获各类别文本的公共部分，学习得到初始化参数；

预测阶段，面对新的类别、新的数据集时，保持已有的模型结构并构建新的学习任务，利用训练好的小样本学习模型和初始化参数，通过在新的学习任务中进行参数微调，利用微调后的小样本学习模型进行识别与发现，完成分类任务。

应用本发明小样本学习方法的技术解决方案，具备突出的实质性特点和显著的进步性：该方法提出了提取元学习数据集的可行方法，通过构造组合模型并利用元学习数据集进行训练，能应用于样本数量较少的文本分类，较之于传统深度学习的文本分类网络更快更准确。

附图说明

图1为本发明文本分类的小样本学习总体架构示意图。

图2为本发明从原始分类数据集中提取元学习数据集的流程图。

图3为本发明MAML框架下嵌套文本分类网络的小样本学习模型组合结构。

具体实施方式

小样本学习（few-shot learning FSL）是一类机器学习方法，而现有的机器学习和深度学习任务都依赖于大量的标注数据来训练。而人类的学习过程并不是这样的，人类可以利用过去学得的知识，在新的问题上只需要少量的样例就可以学得很好。小样本学习就是这样一个过程，期待像人类一样，能利用一些先验知识，在新的问题上只需要少量样本。现有的小样本学习方法应用领域聚焦于图像方面，广泛应用在图像分类、强化学习等问题上，在文本分类方面尚存诸多问题，而且缺乏成熟的模型。

现实文本分类任务中常遇到由于样本数量不足而导致模型无法训练或者模型训练后效果不佳的问题。为了解决这个问题本申请发明人创新提出了一种基于元学习框架的小样本学习方法。如图1所示概述而言，按步骤S1、提出一种小样本学习数据集的提取方法，通过该方法从原始分类数据集中构造出元学习数据集；并按步骤S2使用元学习（MetaLearning）技术与传统的深度学习相结合构造一个文本分类的小样本学习模型；再按步骤S3利用元学习数据集对组合模型进行训练，学习类别变化情况下模型的泛化能力，学会不同元任务（meta-task）中的共性部分；利用这种学习机制学到的模型，在面对新的未见过的小样本文本分类任务时，能通过快速对模型进行微调来完成小样本分类任务。

为更清楚地理解上述方案的可实现性并理解其创新核心，以下分步骤详细阐述。

首先，文本分类中小样本学习数据集的提取方法，小样本学习是在大量类别中学习泛化能力，所以小样本学习的训练数据集的构造方式与传统的监督学习不同，传统文本分类数据集不能不直接应用于小样本学习问题上。小样本学习学习中一个最重要的方法就是元学习方法，是在受人类的快速学习能力的启发下，希望机器学习模型能像人一样在学习了一定类别的大量数据后，对于新的类别，只需要少量的样本就能快速学习。元学习方法将数据集分为两部分，分别是元训练集（meta training set）和元测试集（meta testset）。其中元训练集和元测试集都包括不同的元任务，每一个元任务又都有自己的子训练集和子测试集，为了避免引起混淆，通常把元任务内部的子训练集称为support set、而子测试集称为query set。一个元任务是要求模型从N*K个数据（与support set的数据量相同）中学会如何区分这N个类别，这样的任务被称为N-way K-shot问题。

如图2所示流程图可见，该提取元学习的数据集的方法包括步骤：

S11、输入包含类别数量N、样本数量K、目录Dir，训练集数据量Train_num、测试集数据量Test_num的原始分类数据集，基于目录Dir整理原始分类数据集的信息。原始分类数据集与传统文本分类数据集没有太大差别，在原始分类数据集中包含了很多的类别，每个类别中有多个样本。

S12、生成初始的元训练集和初始的元测试集，选择不相重复的训练集类别和测试集类别，而后在所选择的类别结果中随机抽取N个类别。

S13、在这N个类别下，每个类别随机抽取K个样本（总共N*K个数据样本），作为模型的支撑集（即子训练集support set）输入，并从这N个类别中剩余的数据中抽取一批（N*1条数据样本）样本作为模型的预测对象（即子测试集query set）。支撑集和预测对象一起合并成一个元任务单元，并逐次加入到分别对应的元训练集和元测试集中。

S14、循环执行对应训练集数据量Train_num次的步骤S13，并且循环执行对应测试集数据量Test_num次的步骤13，将多个元任务单元聚合获得终态的元训练集和元测试集。

其次，构造基于MAML和textCNN组合的小样本学***滑的模型相结合，这令MAML可以适用于广泛的领域和学习目标。

TextCNN是一个是2013年提出的文本分类深度学习网络，通过验证实验以及业界的共识，在文本分类任务中，一般认为TextCNN模型在文本分类任务中是兼具效率与质量的理想模型。它的网络结构共分为五层：分别是Embedding层、Convolution层、MaxPolling层、Full Connection层和Softmax层。可见，该TextCNN具有结构简单，参数数目少，计算量少，训练速度快等诸多优点。

如图3所示，通过在MAML框架下嵌套文本分类网络（TextCNN）来构造一个可实现小数量样本情况下的文本分类模型。通过将元学习框架MAML和分类模型TextCNN的组合，MAML作为外层模型嵌套内层模型TextCNN，利用元学习框架MAML的泛化能力，捕获不同类别文本的共性部分，再利用TextCNN文本分类模型进行文本分类。具体的嵌套方式是通过在元学习数据集上构造多个小样本学习任务，MAML便可通过多个训练任务来引导模型形成一个比较通用的模型初值，在内层模型中使用这个初始值，仅通过极少数训练样本实现快速学习。

最后，基于小样本的文本分类模型的训练与预测，在构建了基于MAML和TextCNN组合的小样本学习模型的基础上，对模型的使用分为两个阶段，分别是对模型的训练阶段和利用训练好的分类模型进行小样本分类预测阶段。其中模型的训练阶段，将数据集分解为不同的元任务单元（meta task），去学习类别变化的情况下模型的泛化能力，捕获不同类别文本的共性部分，学习到一个较好的初始化参数。在预测阶段，面对全新的类别、新的数据集时，保持已有的模型结构而不发生变动，同时构建新的学习任务，利用训练好的初始化参数在新任务上对模型进行参数微调，利用微调后的模型进行识别与发现，就可以完成小样本的分类任务。

综上关于本发明小样本学习方法结合图示的实施例详述可见，其具备突出的实质性特点和显著的进步性。概述而言，该方法提出了提取元学习数据集的可行方法，通过构造组合模型并利用元学习数据集进行训练，能应用于样本数量较少的文本分类，较之于传统深度学习的文本分类网络更快更准确。

除上述实施例外，本发明还可以有其它实施方式，凡采用等同替换或等效变换形成的技术方案，均落在本发明所要求保护的范围之内。

Claims

1.文本分类中的小样本学习方法，其特征在于包括步骤：

2.根据权利要求1所述文本分类中的小样本学习方法，其特征在于：步骤S1中提取元学习的数据集的方法包括步骤：

3.根据权利要求1所述文本分类中的小样本学习方法，其特征在于：步骤S2构建模型中所嵌套的文本分类网络至少为FastText，TextCNN，TextRNN，Hierarchical AttentionNetwork，Bert中的一种。

4.根据权利要求1所述文本分类中的小样本学习方法，其特征在于：步骤S3模型识别中包括：