CN115599918A - 一种基于图增强的互学习文本分类方法及*** - Google Patents

一种基于图增强的互学习文本分类方法及*** Download PDF

Info

Publication number
CN115599918A
CN115599918A CN202211360252.6A CN202211360252A CN115599918A CN 115599918 A CN115599918 A CN 115599918A CN 202211360252 A CN202211360252 A CN 202211360252A CN 115599918 A CN115599918 A CN 115599918A
Authority
CN
China
Prior art keywords
graph
text
learning
mutual
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211360252.6A
Other languages
English (en)
Other versions
CN115599918B (zh
Inventor
徐昊
宋瑞
申强
石立达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202211360252.6A priority Critical patent/CN115599918B/zh
Publication of CN115599918A publication Critical patent/CN115599918A/zh
Application granted granted Critical
Publication of CN115599918B publication Critical patent/CN115599918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于图增强的互学习文本分类方法及***,包括预处理待分类文本,得到文本图结构和文本序列;基于所述文本图结构,构建图文本分类模型;将所述文本序列输入预训练语言模型中;基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;对所述互学习框架进行学习和更新,得到互学习文本分类结果。一种利用互学习方式的图文本分类模型与预训练语言模型有效结合的框架,基于图文本分类模型与预训练语言模型相结合,在一个框架下同时对两个基本模型进行优化;通过使用不同的学习率、学习次数克服两种不同模型收敛速度不匹配的问题。

Description

一种基于图增强的互学习文本分类方法及***
技术领域
本申请属于人工智能的自然语言处理领域,具体涉及一种基于图增强的互学习文本分类方法及***。
背景技术
文本分类是自然语言处理领域的一项基础性工作,在情感分析、信息检索、意图识别等众多领域中得到了广泛的应用。近年来,由于图神经网络在处理非欧式空间中具有复杂网络结构的任务和捕获远程依赖关系方面的优势,越来越多的研究开始使用图神经网络对文本进行分类。然而,将文本建模成图结构往往会导致文本上下文的序列结构的丢失,而这种上下文特征在情感识别等一些子领域中具有特殊的意义。此外,随着大规模预训练语言模型的发展,越来越多的自然语言处理任务利用预训练语言模型的杰出性能,取得了明显的进步,但是基于图的文本分类方法与大规模预训练语言模型的结合能力还有待探究。
综上所述,现存的技术问题是:目前针对基于图的文本分类方法与大规模预训练语言模型相结合的研究较少,无法在有效利用图结构的优势的同时,保留文本的上下文特征。
解决上述技术问题的难度:
第一,基于图的文本分类方法需要将文本构建成图结构,而大规模预训练语言模型则要求将文本建模成序列,因此无法统一。
第二,基于图的方法与预训练模型存在训练速度不一致、收敛速度不统一的情况,因此难以在同一个框架下搜寻最优的解决方案。第三,基于图的方法与预训练方法之间的更新方式不同,前者主要将所有数据都加载入内存,进行全批次的更新;而预训练模型由于参数量太大,无法全部存入内存,需要进行小批次地更新,这也提升了模型结合的难度。
发明内容
本申请提出了一种基于图增强的互学习文本分类方法及***,一种利用互学习方式基于图文本分类模型与预训练语言模型有效结合的框架。
为实现上述目的,本申请提供了如下方案:
一种基于图增强的互学习文本分类方法,包括以下步骤:
预处理待分类文本,得到文本图结构和文本序列;
基于所述文本图结构,构建图文本分类模型;
将所述文本序列输入预训练语言模型中;
基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;
对所述互学习框架进行学习和更新,得到互学习文本分类结果。
优选的,所述文本图结构属于异构图,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边。
优选的,所述单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
Figure BDA0003921901710000031
其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率。
优选的,所述文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
Figure BDA0003921901710000032
其中TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
Figure BDA0003921901710000033
其中,N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的文本图结构,即异构图。
优选的,所述构建图文本分类模型的方法包括:基于所述异构图,通过卷积神经网络构建图文本分类模型。
优选的,所述图文本分类模型包括:前向传播方式,公式如下:
Figure BDA0003921901710000034
其中,X表示每个节点的独热向量特征编码,W0,W1表示可学习参数矩阵,
Figure BDA0003921901710000041
表示标准化的邻接矩阵。
优选的,将所述文本序列输入预训练语言模型的方法包括:将文本字符串分词并根据词表索引转化为整型数组,输入加载参数后的预训练语言模型,并执行预训练语言模型的前向传播方式。
优选的,所述构建互学习框架的方法包括:基于所述图文本分类模型和预训练语言模型使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,同时通过KL散度的方式进行概率分布的相互逼近,在此基础上构建联合损失函数。
优选的,所述概率分布计算公式如下:
Figure BDA0003921901710000042
其中,
Figure BDA0003921901710000043
表示图模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示待分类的类别数,
Figure BDA0003921901710000044
表示平滑之后分布的属于类别i的概率;将模型的输出zg以及zc分别转化为两个平滑之后的概率分布
Figure BDA0003921901710000045
以及
Figure BDA0003921901710000046
全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示
Figure BDA0003921901710000047
所述概率分布逼近计算公式如下:
Figure BDA0003921901710000048
其中,
Figure BDA0003921901710000049
表示第l个样本属于类别i的概率,g,c分别用于表示图模型以及上下文模型;
所述联合损失函数计算公式如下:
Figure BDA0003921901710000051
Figure BDA0003921901710000052
其中,Lc以及Lg分别表示预训练语言模型以及图模型基于交叉熵的有监督文本分类损失,总体的损失
Figure BDA0003921901710000053
表示为有监督的交叉熵的损失与概率分布散度损失之和。
本申请还提供一种基于图增强的互学习文本分类***,包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块;
所述预处理模块用于对待分类文本进行预处理;
所述图模块用于对所述预处理模块的处理结果构建图模型;
所述预训练语言模块用于对所述预处理模块的处理结果输入到预训练语言模型中;
所述互学习模块用于对所述图模块和所述预训练语言模块构建互学习框架;
所述学习更新模块用于对所述互学习模块进行优化,得到互学习分类文本。
本申请的有益效果为:本申请首次公开了利用互学习的思想,将基于图文本分类模型与预训练模型相结合,在一个框架下同时对两个基本模型进行优化;提出不对称学习的策略,对通过使用不同的学习率、学习次数克服两种不同模型收敛速度不匹配的问题;可以很容易地与当前流行的大规模预训练语言模型相结合,并进一步提高模型的性能。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一的一种基于图增强的互学习文本分类方法的流程示意图;
图2为本申请实施例一的异构图示意图;
图3为本申请实施例一的执行预训练语言模型示意图;
图4为本申请实施例一构建互学习框架的示意图;
图5为本申请实施例一的更新互学习框架示意图;
图6为本申请实施例二的一种基于图增强的互学习文本分类***结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
如图1所示,为本申请一种基于图增强的互学习文本分类方法的流程示意图,包括以下步骤:
预处理待分类文本,得到文本图结构和文本序列;由于互学习框架主要分为图文本分类模型以及预训练语言模型两部分,分别对应着文本图与文本上下文,因此需要将文本分别处理成文本图结构以及文本序列。
文本图包含了整个待分类的文本语料中所有的单词以及文档,因此具有两种不同的节点类型,属于异构图。
因此,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边。单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
Figure BDA0003921901710000071
其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率。
而文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
Figure BDA0003921901710000072
其中,TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
Figure BDA0003921901710000073
其中,N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
之后,通过阈值进行限定,将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的图文本分类结构即最终构建的异构图如图2所示。以邻接矩阵的方式进行存储:
Figure BDA0003921901710000081
其中
Figure BDA0003921901710000082
表示语料库中文档的数量,
Figure BDA0003921901710000083
表示所有单词的数量。
基于文本图结构,构建图文本分类模型;文本图结构即异构图,异构图的基础上,通过两层图卷积网络对不同节点的邻域特征进行聚合、学习,构建图文本分类模型TextGCN,图文本分类模型前向传播方式如下:
Figure BDA0003921901710000084
其中,X表示每个节点(包括单词节点和文档节点)的独热向量特征编码,W0,W1表示可学习参数矩阵,
Figure BDA0003921901710000085
表示标准化的邻接矩阵;
Figure BDA0003921901710000086
的公式计算如下:
Figure BDA0003921901710000087
最终,TextGCN模型可以通过坍缩至标签空间的特征Zg对最终的文档节点类型做出预测,并通过最小化交叉熵的反向传播方式进行有效地学习;
将文本序列输入预训练语言模型中;本申请对比了三种不同的大规模预训练语言模型,分别为DistillBERT,BERT,RoBERTa。预训练语言模型需要下载预训练好的参数,并在使用时加载;
如图3所示,对于文本序列需要对文本字符串进行分词,将其处理成单字或是字词,通过预训练语言模型词表搜索将单字/字词映射为整数类型的索引,并将其输入到预训练语言模型之中,并执行语言模型的前向传播,利用预训练语言模型进行上下文的表征学习;
如图4所示,基于图文本分类模型和预训练语言模型,构建互学习框架;
基于图文本分类模型和预训练语言模型通过前向传播得到对应的文本表示向量,分别表示为Zg以及Zc,使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,公式如下:
Figure BDA0003921901710000091
其中,
Figure BDA0003921901710000092
表示图模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示待分类的类别数,
Figure BDA0003921901710000093
表示平滑之后分布的属于类别i的概率。通过上述操作,将模型的输出zg以及zc分别转化为两个平滑之后的概率分布
Figure BDA0003921901710000094
以及
Figure BDA0003921901710000095
全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示
Figure BDA0003921901710000096
在学习阶段,每次以一个模型的概率分布为先验,指导另一个模型从中学习有效的分类知识,具体则通过KL散度的方式进行概率分布的相互逼近,公式如下:
Figure BDA0003921901710000101
其中,
Figure BDA0003921901710000102
表示第l个样本属于类别i的概率,g,c分别用于表示图模型以及上下文模型(语言模型)。
并将其作为额外的损失函数,与文本分类的交叉熵一同组成联合损失函数,利用反向传播算法对两个不同的模型进行更新。联合损失函数的表示如下:
Figure BDA0003921901710000103
Figure BDA0003921901710000104
其中,Lc以及Lg分别表示预训练语言模型以及图模型基于交叉熵的有监督文本分类损失,总体的损失
Figure BDA0003921901710000105
表示为有监督的交叉熵的损失与概率分布散度损失之和。
考虑到交叉熵损失以及互学习损失的量级不同,重要程度不同,因此引入不确定性加权自适应地学习两个不同损失函数的权重,以减少参数调节的数量。对于上述的交叉熵损失与KL散度损失,不确定性加权的表示方式为:
Figure BDA0003921901710000106
其中,σ1,σ2为两个可学习参数,用于调节两个不同损失函数的权重。
至此,两个不同的模型可以在相同的互学习框架内部进行反向传播并相互学习提升。
如图5所示,对互学习框架进行学习和更新,得到互学习文本分类结果;用不对称学习的策略解决不同模型收敛速度不同的问题。在模型开始训练的第一个纪元,模型产生的概率分布依赖于未调优的初始化参数,因此包含大量的噪声。此外,由于预训练的性能较好,预训练语言模型的收敛速度往往比TextGCN快,这导致互学习框架的整体收敛速度被TextGCN减慢。因此,一个简单的想法是给不同的模型分配不同的学习率,并在一个标准时间内对慢收敛模型进行多次更新。同时,在内存中维护一个共享文档节点索引,通过索引寻址的方式克服两个模型优化批次不同的问题。
最终,互学习框架的组成以及优化策略确定,可以采用梯度反向传播的方式求取最优解,并保存两个模型的最优解空间下的参数,用于下游推理任务。
实施例二
如图6所示,为本申请一种基于图增强的互学习文本分类***示意图,包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块;
预处理模块用于对待分类文本进行预处理;需要将文本分别处理成文本图结构以及文本序列。
文本图包含了整个待分类的文本语料中所有的单词以及文档,因此具有两种不同的节点类型,属于异构图。
因此,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边。单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
Figure BDA0003921901710000121
其中x,y分别表示两个不同的单词,p(x,y)则表示二者在同一个上下文中出现的概率。
而文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
Figure BDA0003921901710000122
其中TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
Figure BDA0003921901710000123
其中N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
之后,通过阈值进行限定,将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的图文本分类结构即最终构建的异构图如图2所示。以邻接矩阵的方式进行存储:
Figure BDA0003921901710000124
其中
Figure BDA0003921901710000125
表示语料库中文档的数量,
Figure BDA0003921901710000126
表示所有单词的数量。
图模块用于对预处理模块的处理结果构建图模型;基于预处理模块的图文本结构,构建图文本分类模型;文本图结构即异构图,异构图的基础上,通过两层图卷积网络对不同节点的邻域特征进行聚合、学习,构建图文本分类模型TextGCN,图文本分类模型前向传播方式如下:
Figure BDA0003921901710000131
其中,X表示每个节点(包括单词节点和文档节点)的独热向量特征编码,W0,W1表示可学习参数矩阵,
Figure BDA0003921901710000132
表示标准化的邻接矩阵;
Figure BDA0003921901710000133
的公式计算如下:
Figure BDA0003921901710000134
最终,TextGCN模型可以通过坍缩至标签空间的特征Zg对最终的文档节点类型做出预测,并通过最小化交叉熵的反向传播方式进行有效地学习;
预训练语言模块用于对预处理模块的处理结果输入到预训练语言模型中;对于文本序列需要对文本字符串进行分词,将其处理成单字或是字词,通过预训练语言模型词表搜索将单字/字词映射为整数类型的索引,并将其输入到预训练语言模型之中,并执行语言模型的前向传播,利用预训练语言模型进行上下文的表征学习;
互学习模块用于对图模块和预训练语言模块构建互学习框架;基于图模块和预训练语言模块通过前向传播得到对应的文本表示向量,分别表示为Zg以及Zc,使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,公式如下:
Figure BDA0003921901710000141
其中,τ表示用于平滑分布的温度参数,C表示待分类的类别数,
Figure BDA0003921901710000142
表示平滑之后分布的属于类别i的概率。通过上述操作,将模型的输出zg以及zc分别转化为两个平滑之后的概率分布
Figure BDA0003921901710000143
以及
Figure BDA0003921901710000144
全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示
Figure BDA0003921901710000145
Figure BDA0003921901710000146
在学习阶段,每次以一个模型的概率分布为先验,指导另一个模型从中学习有效的分类知识,具体则通过KL散度的方式进行概率分布的相互逼近,公式如下:
Figure BDA0003921901710000147
其中,
Figure BDA0003921901710000148
表示第l个样本属于类别i的概率。
并将其作为额外的损失函数,与文本分类的交叉熵一同组成联合损失函数,利用反向传播算法对两个不同的模型进行更新。联合损失函数的表示如下:
Figure BDA0003921901710000149
Figure BDA00039219017100001410
其中,Lc以及Lg分别表示预训练语言模型以及图模型基于交叉熵的有监督文本分类损失,总体的损失
Figure BDA00039219017100001411
表示为有监督的交叉熵的损失与概率分布散度损失之和。
考虑到交叉熵损失以及互学习损失的量级不同,重要程度不同,因此引入不确定性加权自适应地学习两个不同损失函数的权重,以减少参数调节的数量。对于上述的交叉熵损失与KL散度损失,不确定性加权的表示方式为:
Figure BDA0003921901710000151
其中,σ1,σ2为两个可学习参数,用于调节两个不同损失函数的权重。
至此,两个不同的模型可以在相同的互学习框架内部进行反向传播并相互学习提升。
学习更新模块用于对互学习模块进行优化,得到互学习分类文本。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。

Claims (10)

1.一种基于图增强的互学习文本分类方法,其特征在于,包括以下步骤:
预处理待分类文本,得到文本图结构和文本序列;
基于所述文本图结构,构建图文本分类模型;
将所述文本序列输入预训练语言模型中;
基于所述图文本分类模型和所述预训练语言模型,构建互学习框架;
对所述互学习框架进行学习和更新,得到互学习文本分类结果。
2.根据权利要求1所述的基于图增强的互学习文本分类方法,其特征在于,所述文本图结构属于异构图,异构图中存在两种不同类型的边:单词-单词边以及文档-单词边。
3.根据权利要求2所述的基于图增强的互学习文本分类方法,其特征在于,所述单词-单词边的权重通过上下文滑动窗口内部逐点互信息确定,逐点互信息定义如下:
Figure FDA0003921901700000011
其中,x,y分别表示两个不同的单词,p(x),p(y)分别表示两个单词出现的概率,p(x,y)则表示二者在同一个上下文中出现的概率。
4.根据权利要求2所述的基于图增强的互学习文本分类方法,其特征在于,所述文档-单词边的权重则由文档频率-逆文档频率给出,文档频率的公式如下:
Figure FDA0003921901700000012
其中,TF表示单词w在文档d中出现的频率,count(d,w)表示单词w在文档d中出现的次数,count(d,*)表示文档d的总词数;
逆文档频率的公式如下:
Figure FDA0003921901700000021
其中N表示语料库中的文档总数,N(w)表示单词w出现在多少个文档中;
而文档频率-逆文档频率计算方式如下:
TF(d,w)-IDF(w)=TF(d,w)*IDF(w)
将逐点互信息以及文档频率-逆文档频率小于某个特定值的边删除,得到最终的文本图结构,即异构图。
5.根据权利要求4所述的基于图增强的互学习文本分类方法,其特征在于,所述构建图文本分类模型的方法包括:基于所述异构图,通过卷积神经网络构建图文本分类模型。
6.根据权利要求5所述的基于图增强的互学习文本分类方法,其特征在于,所述图文本分类模型包括:前向传播方式,公式如下:
Figure FDA0003921901700000022
其中,X表示每个节点的独热向量特征编码,W0,W1表示可学习参数矩阵,
Figure FDA0003921901700000023
表示标准化的邻接矩阵。
7.根据权利要求1所述的基于图增强的互学习文本分类方法,其特征在于,将所述文本序列输入预训练语言模型的方法包括:将文本字符串分词并根据词表索引转化为整型数组,输入加载参数后的预训练语言模型,并执行预训练语言模型的前向传播方式。
8.根据权利要求1所述的基于图增强的互学习文本分类方法,其特征在于,所述构建互学习框架的方法包括:基于所述图文本分类模型和预训练语言模型使用Softmax-T函数,得到针对同一个待分类文本样本数据的不同模型输入的概率分布,同时通过KL散度的方式进行概率分布的相互逼近,在此基础上构建联合损失函数。
9.根据权利要求8所述的基于图增强的互学习文本分类方法,其特征在于,所述概率分布计算公式如下:
Figure FDA0003921901700000031
其中,
Figure FDA0003921901700000032
表示图模型输出表示的第i个值,τ表示用于平滑分布的温度参数,C表示待分类的类别数,
Figure FDA0003921901700000033
表示平滑之后分布的属于类别i的概率;将模型的输出zg以及zc分别转化为两个平滑之后的概率分布
Figure FDA0003921901700000034
以及
Figure FDA0003921901700000035
全部L个样本的相应的平滑概率分布则使用两个L*C维度的矩阵来表示
Figure FDA0003921901700000036
所述概率分布逼近计算公式如下:
Figure FDA0003921901700000037
其中,
Figure FDA0003921901700000038
表示第l个样本属于类别i的概率,g,c分别用于表示图模型以及上下文模型;
所述联合损失函数计算公式如下:
Figure FDA0003921901700000039
Figure FDA00039219017000000310
其中,Lc以及Lg分别表示预训练语言模型以及图模型基于交叉熵的有监督文本分类损失,总体的损失
Figure FDA0003921901700000041
表示为有监督的交叉熵的损失与概率分布散度损失之和。
10.一种基于图增强的互学习文本分类***,其特征在于,包括预处理模块、图模块、预训练语言模块、互学习模块、学习更新模块;
所述预处理模块用于对待分类文本进行预处理;
所述图模块用于对所述预处理模块的处理结果构建图模型;
所述预训练语言模块用于对所述预处理模块的处理结果输入到预训练语言模型中;
所述互学习模块用于对所述图模块和所述预训练语言模块构建互学习框架;
所述学习更新模块用于对所述互学习模块进行优化,得到互学习分类文本。
CN202211360252.6A 2022-11-02 2022-11-02 一种基于图增强的互学习文本分类方法及*** Active CN115599918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211360252.6A CN115599918B (zh) 2022-11-02 2022-11-02 一种基于图增强的互学习文本分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211360252.6A CN115599918B (zh) 2022-11-02 2022-11-02 一种基于图增强的互学习文本分类方法及***

Publications (2)

Publication Number Publication Date
CN115599918A true CN115599918A (zh) 2023-01-13
CN115599918B CN115599918B (zh) 2023-06-23

Family

ID=84851004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211360252.6A Active CN115599918B (zh) 2022-11-02 2022-11-02 一种基于图增强的互学习文本分类方法及***

Country Status (1)

Country Link
CN (1) CN115599918B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937617A (zh) * 2023-03-06 2023-04-07 支付宝(杭州)信息技术有限公司 一种风险识别模型训练、风险控制方法、装置和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN113297364A (zh) * 2021-06-07 2021-08-24 吉林大学 一种面向对话***中的自然语言理解方法及装置
CN114547298A (zh) * 2022-02-14 2022-05-27 大连理工大学 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN114925205A (zh) * 2022-06-09 2022-08-19 西北工业大学 基于对比学习的gcn-gru文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN113297364A (zh) * 2021-06-07 2021-08-24 吉林大学 一种面向对话***中的自然语言理解方法及装置
CN114547298A (zh) * 2022-02-14 2022-05-27 大连理工大学 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN114925205A (zh) * 2022-06-09 2022-08-19 西北工业大学 基于对比学习的gcn-gru文本分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937617A (zh) * 2023-03-06 2023-04-07 支付宝(杭州)信息技术有限公司 一种风险识别模型训练、风险控制方法、装置和设备

Also Published As

Publication number Publication date
CN115599918B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN110263227B (zh) 基于图神经网络的团伙发现方法和***
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
CN109299237B (zh) 基于行动者评论家强化学习算法的循环网络人机对话方法
CN111612134B (zh) 神经网络结构搜索方法、装置、电子设备及存储介质
CN109948149B (zh) 一种文本分类方法及装置
CN113905391B (zh) 集成学习网络流量预测方法、***、设备、终端、介质
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN111105029B (zh) 神经网络的生成方法、生成装置和电子设备
US11334791B2 (en) Learning to search deep network architectures
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
CN112861936B (zh) 一种基于图神经网络知识蒸馏的图节点分类方法及装置
CN110020435B (zh) 一种采用并行二进制蝙蝠算法优化文本特征选择的方法
CN110866113A (zh) 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN111353534B (zh) 一种基于自适应分数阶梯度的图数据类别预测方法
Irissappane et al. Leveraging GPT-2 for classifying spam reviews with limited labeled data via adversarial training
CN115599918B (zh) 一种基于图增强的互学习文本分类方法及***
Zhang et al. Cosine: compressive network embedding on large-scale information networks
CN113204640B (zh) 一种基于注意力机制的文本分类方法
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN113722439A (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及***
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质
CN115066690A (zh) 搜索归一化-激活层架构
CN111126443A (zh) 基于随机游走的网络表示学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant