CN115599918A

CN115599918A - 一种基于图增强的互学习文本分类方法及***

Info

Publication number: CN115599918A
Application number: CN202211360252.6A
Authority: CN
Inventors: 徐昊; 宋瑞; 申强; 石立达
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-01-13
Anticipated expiration: 2042-11-02
Also published as: CN115599918B

Abstract

本申请公开了一种基于图增强的互学习文本分类方法及***，包括预处理待分类文本，得到文本图结构和文本序列；基于所述文本图结构，构建图文本分类模型；将所述文本序列输入预训练语言模型中；基于所述图文本分类模型和所述预训练语言模型，构建互学习框架；对所述互学习框架进行学习和更新，得到互学习文本分类结果。一种利用互学习方式的图文本分类模型与预训练语言模型有效结合的框架，基于图文本分类模型与预训练语言模型相结合，在一个框架下同时对两个基本模型进行优化；通过使用不同的学习率、学习次数克服两种不同模型收敛速度不匹配的问题。

Description

一种基于图增强的互学习文本分类方法及***

技术领域

本申请属于人工智能的自然语言处理领域，具体涉及一种基于图增强的互学习文本分类方法及***。

背景技术

文本分类是自然语言处理领域的一项基础性工作，在情感分析、信息检索、意图识别等众多领域中得到了广泛的应用。近年来，由于图神经网络在处理非欧式空间中具有复杂网络结构的任务和捕获远程依赖关系方面的优势，越来越多的研究开始使用图神经网络对文本进行分类。然而，将文本建模成图结构往往会导致文本上下文的序列结构的丢失，而这种上下文特征在情感识别等一些子领域中具有特殊的意义。此外，随着大规模预训练语言模型的发展，越来越多的自然语言处理任务利用预训练语言模型的杰出性能，取得了明显的进步，但是基于图的文本分类方法与大规模预训练语言模型的结合能力还有待探究。

综上所述，现存的技术问题是：目前针对基于图的文本分类方法与大规模预训练语言模型相结合的研究较少，无法在有效利用图结构的优势的同时，保留文本的上下文特征。

解决上述技术问题的难度：

第一，基于图的文本分类方法需要将文本构建成图结构，而大规模预训练语言模型则要求将文本建模成序列，因此无法统一。

第二，基于图的方法与预训练模型存在训练速度不一致、收敛速度不统一的情况，因此难以在同一个框架下搜寻最优的解决方案。第三，基于图的方法与预训练方法之间的更新方式不同，前者主要将所有数据都加载入内存，进行全批次的更新；而预训练模型由于参数量太大，无法全部存入内存，需要进行小批次地更新，这也提升了模型结合的难度。

发明内容

本申请提出了一种基于图增强的互学习文本分类方法及***，一种利用互学习方式基于图文本分类模型与预训练语言模型有效结合的框架。

为实现上述目的，本申请提供了如下方案：

一种基于图增强的互学习文本分类方法，包括以下步骤：

预处理待分类文本，得到文本图结构和文本序列；

基于所述文本图结构，构建图文本分类模型；

将所述文本序列输入预训练语言模型中；

基于所述图文本分类模型和所述预训练语言模型，构建互学习框架；

对所述互学习框架进行学习和更新，得到互学习文本分类结果。

优选的，所述文本图结构属于异构图，异构图中存在两种不同类型的边：单词-单词边以及文档-单词边。

优选的，所述单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定，逐点互信息定义如下：

其中，x，y分别表示两个不同的单词，p(x)，p(y)分别表示两个单词出现的概率，p(x，y)则表示二者在同一个上下文中出现的概率。

优选的，所述文档-单词边的权重则由文档频率-逆文档频率给出，文档频率的公式如下：

其中TF表示单词w在文档d中出现的频率，count(d，w)表示单词w在文档d中出现的次数，count(d，*)表示文档d的总词数；

逆文档频率的公式如下：

其中，N表示语料库中的文档总数，N(w)表示单词w出现在多少个文档中；

而文档频率-逆文档频率计算方式如下：

TF(d，w)-IDF(w)＝TF(d，w)*IDF(w)

将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除，得到最终的文本图结构，即异构图。

优选的，所述构建图文本分类模型的方法包括：基于所述异构图，通过卷积神经网络构建图文本分类模型。

优选的，所述图文本分类模型包括：前向传播方式，公式如下：

其中，X表示每个节点的独热向量特征编码，W₀，W₁表示可学习参数矩阵，

表示标准化的邻接矩阵。

优选的，将所述文本序列输入预训练语言模型的方法包括：将文本字符串分词并根据词表索引转化为整型数组，输入加载参数后的预训练语言模型，并执行预训练语言模型的前向传播方式。

优选的，所述构建互学习框架的方法包括：基于所述图文本分类模型和预训练语言模型使用Softmax-T函数，得到针对同一个待分类文本样本数据的不同模型输入的概率分布，同时通过KL散度的方式进行概率分布的相互逼近，在此基础上构建联合损失函数。

优选的，所述概率分布计算公式如下：

其中，

表示图模型输出表示的第i个值，τ表示用于平滑分布的温度参数，C表示待分类的类别数，

表示平滑之后分布的属于类别i的概率；将模型的输出z^g以及z^c分别转化为两个平滑之后的概率分布

以及

全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示

所述概率分布逼近计算公式如下：

其中，

表示第l个样本属于类别i的概率，g，c分别用于表示图模型以及上下文模型；

所述联合损失函数计算公式如下：

其中，L^c以及L^g分别表示预训练语言模型以及图模型基于交叉熵的有监督文本分类损失，总体的损失

表示为有监督的交叉熵的损失与概率分布散度损失之和。

本申请还提供一种基于图增强的互学习文本分类***，包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块；

所述预处理模块用于对待分类文本进行预处理；

所述图模块用于对所述预处理模块的处理结果构建图模型；

所述预训练语言模块用于对所述预处理模块的处理结果输入到预训练语言模型中；

所述互学习模块用于对所述图模块和所述预训练语言模块构建互学习框架；

所述学习更新模块用于对所述互学习模块进行优化，得到互学习分类文本。

本申请的有益效果为：本申请首次公开了利用互学习的思想，将基于图文本分类模型与预训练模型相结合，在一个框架下同时对两个基本模型进行优化；提出不对称学习的策略，对通过使用不同的学习率、学习次数克服两种不同模型收敛速度不匹配的问题；可以很容易地与当前流行的大规模预训练语言模型相结合，并进一步提高模型的性能。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一的一种基于图增强的互学习文本分类方法的流程示意图；

图2为本申请实施例一的异构图示意图；

图3为本申请实施例一的执行预训练语言模型示意图；

图4为本申请实施例一构建互学习框架的示意图；

图5为本申请实施例一的更新互学习框架示意图；

图6为本申请实施例二的一种基于图增强的互学习文本分类***结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

如图1所示，为本申请一种基于图增强的互学习文本分类方法的流程示意图，包括以下步骤：

预处理待分类文本，得到文本图结构和文本序列；由于互学习框架主要分为图文本分类模型以及预训练语言模型两部分，分别对应着文本图与文本上下文，因此需要将文本分别处理成文本图结构以及文本序列。

文本图包含了整个待分类的文本语料中所有的单词以及文档，因此具有两种不同的节点类型，属于异构图。

因此，异构图中存在两种不同类型的边：单词-单词边以及文档-单词边。单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定，逐点互信息定义如下：

而文档-单词边的权重则由文档频率-逆文档频率给出，文档频率的公式如下：

其中，TF表示单词w在文档d中出现的频率，count(d，w)表示单词w在文档d中出现的次数，count(d，*)表示文档d的总词数；

逆文档频率的公式如下：

而文档频率-逆文档频率计算方式如下：

TF(d，w)-IDF(w)＝TF(d，w)*IDF(w)

之后，通过阈值进行限定，将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除，得到最终的图文本分类结构即最终构建的异构图如图2所示。以邻接矩阵的方式进行存储：

其中

表示语料库中文档的数量，

表示所有单词的数量。

基于文本图结构，构建图文本分类模型；文本图结构即异构图，异构图的基础上，通过两层图卷积网络对不同节点的邻域特征进行聚合、学习，构建图文本分类模型TextGCN，图文本分类模型前向传播方式如下：

其中，X表示每个节点(包括单词节点和文档节点)的独热向量特征编码，W₀，W₁表示可学习参数矩阵，

表示标准化的邻接矩阵；

的公式计算如下：

最终，TextGCN模型可以通过坍缩至标签空间的特征Z_g对最终的文档节点类型做出预测，并通过最小化交叉熵的反向传播方式进行有效地学习；

将文本序列输入预训练语言模型中；本申请对比了三种不同的大规模预训练语言模型，分别为DistillBERT，BERT，RoBERTa。预训练语言模型需要下载预训练好的参数，并在使用时加载；

如图3所示，对于文本序列需要对文本字符串进行分词，将其处理成单字或是字词，通过预训练语言模型词表搜索将单字/字词映射为整数类型的索引，并将其输入到预训练语言模型之中，并执行语言模型的前向传播，利用预训练语言模型进行上下文的表征学习；

如图4所示，基于图文本分类模型和预训练语言模型，构建互学习框架；

基于图文本分类模型和预训练语言模型通过前向传播得到对应的文本表示向量，分别表示为Z_g以及Z_c，使用Softmax-T函数，得到针对同一个待分类文本样本数据的不同模型输入的概率分布，公式如下：

其中，

表示平滑之后分布的属于类别i的概率。通过上述操作，将模型的输出z^g以及z^c分别转化为两个平滑之后的概率分布

以及

在学习阶段，每次以一个模型的概率分布为先验，指导另一个模型从中学习有效的分类知识，具体则通过KL散度的方式进行概率分布的相互逼近，公式如下：

其中，

表示第l个样本属于类别i的概率，g，c分别用于表示图模型以及上下文模型(语言模型)。

并将其作为额外的损失函数，与文本分类的交叉熵一同组成联合损失函数，利用反向传播算法对两个不同的模型进行更新。联合损失函数的表示如下：

表示为有监督的交叉熵的损失与概率分布散度损失之和。

考虑到交叉熵损失以及互学习损失的量级不同，重要程度不同，因此引入不确定性加权自适应地学习两个不同损失函数的权重，以减少参数调节的数量。对于上述的交叉熵损失与KL散度损失，不确定性加权的表示方式为：

其中，σ₁，σ₂为两个可学习参数，用于调节两个不同损失函数的权重。

至此，两个不同的模型可以在相同的互学习框架内部进行反向传播并相互学习提升。

如图5所示，对互学习框架进行学习和更新，得到互学习文本分类结果；用不对称学习的策略解决不同模型收敛速度不同的问题。在模型开始训练的第一个纪元，模型产生的概率分布依赖于未调优的初始化参数，因此包含大量的噪声。此外，由于预训练的性能较好，预训练语言模型的收敛速度往往比TextGCN快，这导致互学习框架的整体收敛速度被TextGCN减慢。因此，一个简单的想法是给不同的模型分配不同的学习率，并在一个标准时间内对慢收敛模型进行多次更新。同时，在内存中维护一个共享文档节点索引，通过索引寻址的方式克服两个模型优化批次不同的问题。

最终，互学习框架的组成以及优化策略确定，可以采用梯度反向传播的方式求取最优解，并保存两个模型的最优解空间下的参数，用于下游推理任务。

实施例二

如图6所示，为本申请一种基于图增强的互学习文本分类***示意图，包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块；

预处理模块用于对待分类文本进行预处理；需要将文本分别处理成文本图结构以及文本序列。

其中x，y分别表示两个不同的单词，p(x，y)则表示二者在同一个上下文中出现的概率。

逆文档频率的公式如下：

其中N表示语料库中的文档总数，N(w)表示单词w出现在多少个文档中；

而文档频率-逆文档频率计算方式如下：

TF(d，w)-IDF(w)＝TF(d，w)*IDF(w)

其中

表示语料库中文档的数量，

表示所有单词的数量。

图模块用于对预处理模块的处理结果构建图模型；基于预处理模块的图文本结构，构建图文本分类模型；文本图结构即异构图，异构图的基础上，通过两层图卷积网络对不同节点的邻域特征进行聚合、学习，构建图文本分类模型TextGCN，图文本分类模型前向传播方式如下：

表示标准化的邻接矩阵；

的公式计算如下：

预训练语言模块用于对预处理模块的处理结果输入到预训练语言模型中；对于文本序列需要对文本字符串进行分词，将其处理成单字或是字词，通过预训练语言模型词表搜索将单字/字词映射为整数类型的索引，并将其输入到预训练语言模型之中，并执行语言模型的前向传播，利用预训练语言模型进行上下文的表征学习；

互学习模块用于对图模块和预训练语言模块构建互学习框架；基于图模块和预训练语言模块通过前向传播得到对应的文本表示向量，分别表示为Z_g以及Z_c，使用Softmax-T函数，得到针对同一个待分类文本样本数据的不同模型输入的概率分布，公式如下：

其中，τ表示用于平滑分布的温度参数，C表示待分类的类别数，

以及

其中，

表示第l个样本属于类别i的概率。

表示为有监督的交叉熵的损失与概率分布散度损失之和。

学习更新模块用于对互学习模块进行优化，得到互学习分类文本。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种基于图增强的互学习文本分类方法，其特征在于，包括以下步骤：

预处理待分类文本，得到文本图结构和文本序列；

基于所述文本图结构，构建图文本分类模型；

将所述文本序列输入预训练语言模型中；

2.根据权利要求1所述的基于图增强的互学习文本分类方法，其特征在于，所述文本图结构属于异构图，异构图中存在两种不同类型的边：单词-单词边以及文档-单词边。

3.根据权利要求2所述的基于图增强的互学习文本分类方法，其特征在于，所述单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定，逐点互信息定义如下：

其中，x,y分别表示两个不同的单词，p(x)，p(y)分别表示两个单词出现的概率，p(x,y)则表示二者在同一个上下文中出现的概率。

4.根据权利要求2所述的基于图增强的互学习文本分类方法，其特征在于，所述文档-单词边的权重则由文档频率-逆文档频率给出，文档频率的公式如下：

其中，TF表示单词w在文档d中出现的频率，count(d,w)表示单词w在文档d中出现的次数，count(d,*)表示文档d的总词数；

逆文档频率的公式如下：

而文档频率-逆文档频率计算方式如下：

TF(d,w)-IDF(w)＝TF(d,w)*IDF(w)

5.根据权利要求4所述的基于图增强的互学习文本分类方法，其特征在于，所述构建图文本分类模型的方法包括：基于所述异构图，通过卷积神经网络构建图文本分类模型。

6.根据权利要求5所述的基于图增强的互学习文本分类方法，其特征在于，所述图文本分类模型包括：前向传播方式，公式如下：

表示标准化的邻接矩阵。

7.根据权利要求1所述的基于图增强的互学习文本分类方法，其特征在于，将所述文本序列输入预训练语言模型的方法包括：将文本字符串分词并根据词表索引转化为整型数组，输入加载参数后的预训练语言模型，并执行预训练语言模型的前向传播方式。

8.根据权利要求1所述的基于图增强的互学习文本分类方法，其特征在于，所述构建互学习框架的方法包括：基于所述图文本分类模型和预训练语言模型使用Softmax-T函数，得到针对同一个待分类文本样本数据的不同模型输入的概率分布，同时通过KL散度的方式进行概率分布的相互逼近，在此基础上构建联合损失函数。

9.根据权利要求8所述的基于图增强的互学习文本分类方法，其特征在于，所述概率分布计算公式如下：

其中，

以及

所述概率分布逼近计算公式如下：

其中，

表示第l个样本属于类别i的概率，g,c分别用于表示图模型以及上下文模型；

所述联合损失函数计算公式如下：

表示为有监督的交叉熵的损失与概率分布散度损失之和。

10.一种基于图增强的互学习文本分类***，其特征在于，包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块；

所述预处理模块用于对待分类文本进行预处理；

所述图模块用于对所述预处理模块的处理结果构建图模型；