CN113590814A - 一种融合文本解释特征的文本分类方法 - Google Patents

一种融合文本解释特征的文本分类方法 Download PDF

Info

Publication number
CN113590814A
CN113590814A CN202110521823.9A CN202110521823A CN113590814A CN 113590814 A CN113590814 A CN 113590814A CN 202110521823 A CN202110521823 A CN 202110521823A CN 113590814 A CN113590814 A CN 113590814A
Authority
CN
China
Prior art keywords
sentence
interpretation
features
feature
text classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110521823.9A
Other languages
English (en)
Inventor
骆祥峰
陈璐
陈雪
高剑奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110521823.9A priority Critical patent/CN113590814A/zh
Publication of CN113590814A publication Critical patent/CN113590814A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种融合文本解释特征的文本分类方法。该方法的具体实施步骤如下:(1)训练基于神经网络的文本分类模型用于预测句子所属类别;(2)使用基于局部随机扰动采样的线性拟合方法获取步骤(1)中句子预测结果的解释特征;(3)根据获取的解释特征的频率和权重选择对分类效果有利的关键解释特征;(4)将步骤(3)获取的关键解释特征和原数据相融合,重新训练文本分类模型。本发明的方法使用了基于局部随机扰动采样的线性拟合方法解释哪些关键特征对文本分类模型的预测结果贡献最大,将这些特征和原始标注样本融合,突出原始样本的关键特征,从而提升分类效果。

Description

一种融合文本解释特征的文本分类方法
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种融合文本解释特征的文本分类方法, 是用一种基于随机扰动采样的线性拟合方法解释训练好的基于神经网络的文本分类模型获得 每个句子预测结果的解释特征,通过融合其中的关键解释特征重新训练文本分类模型的方法, 可以应用于垃圾邮件识别、文本主题分类、情感分析等具体领域。
背景技术
文本分类是自然语言处理领域的一个重要的研究方向,文本分类任务就是使用一定的方 法将一个文本映射到预定义的某个类别。文本分类方法有基于规则的方法和基于机器学习的 方法。
使用基于规则的方法进行文本分类时,需要针对不同文本设定不同的规则,不仅费时费 力,而且覆盖范围和准确率都无法得到保证。随着机器学习的兴起,将机器学习方法用于文 本分类任务并取得了较好的效果。但是很多机器学习模型都是一种黑盒模型,我们只能得到 模型给出的预测结果,却无法知道模型为什么会给出这个结果,只能从模型的准确率等一些 评判指标判断模型的可靠性,但是在医疗等领域,我们不仅需要知道模型的预测结果和准确 率,更需要知道模型给出预测结果的依据,才能为模型使用者提供更准确的决策依据,同时 根据模型给出预测结果的依据干预模型训练过程,提升模型分类效果。
综上,由于深度学习模型的不可解释性,导致模型使用者难以判断模型给出预测结果的 依据,也无法根据模型的预测结果做出正确的决策
发明内容
本发明的主要目的在于克服现有技术的不足,提供一种融合文本解释特征的文本分类方 法,使用基于随机扰动采样的线性拟合方法解释基于神经网络的文本分类模型的预测结果, 根据线性拟合过程中用到的分类特征获取每个句子的解释特征,根据这些特征的频率和权重 获取关键解释特征与原数据相融合,重新训练文本分类模型,从而使文本分类结果更加准确。
为实现上述目的,本发明采用以下技术方案:
一种融合文本解释特征的文本分类方法,包括以下操作步骤:
步骤1、训练基于神经网络的文本分类模型用于预测句子所属类别;
步骤2、使用基于局部随机扰动采样的线性拟合方法,获取在所述步骤1中句子预测结 果的解释特征;
步骤3、根据在所述步骤2中获取的解释特征的频率和权重,选择对分类效果有利的关 键解释特征;
步骤4、将在所述步骤3中获取的关键解释特征和原数据相融合,重新训练文本分类模 型。
优选地,在所述步骤1中的训练基于神经网络的文本分类模型用于预测句子所属类别, 具体步骤包括:
(1-1)输入层:文本分类模型的输入是带有类别标签的句子S=(S1,S2,S3......,SN),其 中Si表示数据集中的第i个句子,N表示句子数量,
Figure BDA0003064331130000021
Figure BDA0003064331130000022
表示第i 个句子中的第j个单词,k表示第i个句子中的单词数量;
(1-2)句子向量化:使用Glove训练词向量,将词表V=(w1,w2,w3,......,wM)中的每个 单词都转化为64维的向量,生成一个向量化的词表V′=(v1,v2,v3,......,vM),V′的维度为
Figure BDA0003064331130000023
其中wi表示词表中的单词,vi表示单词wi的向量化表示,M表示数据集中出现 的所有单词的数量;查找词表V′将句子中的单词转化为对应的向量表示,则句子Si表示为
Figure BDA0003064331130000024
(1-3)线性层:将向量化后的句子
Figure BDA0003064331130000025
输入线性层预测句子的类别标签,线性层公式如下:
Figure BDA0003064331130000026
其中,yl为预测结果,是一个包含num_class个数字的数组,num_class表示预定义的类 别数量,其中每个数字代表预测为当前位置表示的类别的可能性大小,l表示线性变换方程,WT和b分别为线性层的参数;
(1-4)softmax层:使用softmax函数将预测结果yl中每个值的取值范围都映射到[0,1], softmax函数的公式如下:
Figure BDA0003064331130000031
其中,
Figure RE-GDA0003284893990000032
表示预测结果yl中的第j个值,yl中的每个值都经过softmax函数变换之后, 这num_class个值的和为1;
(1-5)Loss方程:模型最终输出的是预测结果中最大的值对应的类别标签ypre,采用公 式loss(yi,ypre)=-yprelog(softmax(yi))确定损失函数,其中loss(yi,ypre)表示损失函数, yi为输入句子Si的标注标签;
(1-6)参数优化:以最小化所述损失函数为目标对文本分类模型的参数进行优化,得到 训练好的文本分类模型。
优选地,在所述步骤2中所述使用基于局部随机扰动采样的线性拟合方法获取步骤1中 句子预测结果的解释特征;具体步骤包括:
(2-1)选定要解释的句子Si,并在Si附近通过随机扰动进行采样:Si为原数据集中包含k 个单词的句子
Figure BDA0003064331130000033
对句子Si进行随机扰动,获取采样样本,生成包含 多个采样样本的数据集,并对采样样本使用0和1进行向量化表示;随机扰动过程为:
随机删除句子Si中的部分单词,删除单词的数量大于0小于k,得到新的句子
Figure BDA0003064331130000034
即Si的一个随机扰动样本,其中
Figure BDA0003064331130000035
为句子Si第t次随机扰动 样本中的第j个单词,c为随机扰动之后剩余的单词数量;初始化一个1×k的向量,将删除 单词的位置设为0,其他位置设为1,得到
Figure BDA0003064331130000041
的向量化表示
Figure BDA0003064331130000042
其 中的每个元素
Figure BDA0003064331130000043
进行4999次随机扰动,得到包含5000个句子的新数据集
Figure BDA0003064331130000044
其中
Figure BDA0003064331130000045
为原句子Si,Si的向量化表示为包含k个1的向量;新数据 集X的向量矩阵表示为
Figure BDA0003064331130000046
(2-2)给新生成的数据打标签:
将数据集X中的每个数据都输入到训练好的文本分类模型中进行预测,得到对应的预测 结果;将训练好的文本分类模型表示为f,经过步骤(1-1)至步骤(1-4)之后得到每个样本的预测 结果
Figure BDA0003064331130000047
为包含num_class个数字的数组,其中的每个值表 示预测为对应类别的概率;
(2-3)计算新数据集Z中所有扰动数据和原数据的距离作为扰动数据权重:
新生成的扰动数据和原数据的距离越近越能够解释预测数据,则赋予更高的权重,利用 指数核函数定义新生成数据的权重,计算公式为:
Figure BDA0003064331130000048
其中,
Figure BDA0003064331130000049
是定义在cosine距离上的指数内核,表示样本间的距离权重,距离越近,
Figure BDA00030643311300000410
的值越大,σ是核宽度;
(2-4)使用线性模型拟合新数据集Z:将线性模型用g表示,线性模型公式表达如下:
Figure BDA00030643311300000411
其中,
Figure BDA00030643311300000412
为数据集Z中的一个向量,wg为线性模型的权重系数;
(2-5)确定线性模型的系数:训练线性分类模型确定权重系数,将Loss方程设置如下:
Figure BDA0003064331130000051
使L(f,g,πz)最小,获得最优的线性模型权重wg,wg的维度为
Figure BDA0003064331130000052
其中
Figure BDA0003064331130000053
为第t个扰动数据,
Figure BDA0003064331130000054
Figure BDA0003064331130000055
的向量形式;
(2-6)获取解释特征并去噪:线性模型训练完成后,Feai=wg×Si即为不同类别的解释 特征及权重,
Figure BDA0003064331130000056
将第m个类别的特征按照权重绝对值从大到小排序,去 除助词、连接词、标点符号等信息后选取前T个作为句子Si预测为第m个类别的解释特征
Figure BDA0003064331130000057
Figure BDA0003064331130000058
其中,
Figure BDA0003064331130000059
表示通过模型解释方法获得的将第i个句子预测为第m个类别的特征和每个 特征对应权重的集合,m是不同类别对应的标签,1≤m≤num_class,
Figure BDA00030643311300000510
是句子Si的第j个 特征,
Figure BDA00030643311300000511
是特征
Figure BDA00030643311300000512
对应的权重;其中权重为正值的特征表示模型认为该特征支持第i个样本 被分到第m个类别,我们将这类特征称为正向特征或正特征,权重为负值的特征表示模型认 为该特征不支持第i个样本被分到第m个类别,称其为负向特征或负特征。
优选地,在所述步骤3中,所述根据获取的解释特征的频率和权重选择关键特征集合, 具体步骤包括:
(3-1)获取数据Si所有的解释特征:
Figure BDA00030643311300000513
表示通过步骤(3-6)获得的将句子Si预测为任意 类别对应的特征的集合:
Figure BDA0003064331130000061
(3-2)计算每个特征的频率和权重:由于同一个特征可能出现在不同类别中,因此同一 个特征在
Figure BDA0003064331130000062
中可能出现多次,将
Figure BDA0003064331130000063
中所有相同正向特征的权重求和,并按照权重从大 到小排序取前c1个特征得到
Figure BDA0003064331130000064
以同样的方法计算
Figure BDA0003064331130000065
中所有负向特征的权重,并按 照权重绝对值从大到小排序,取前c2个特征得到
Figure BDA0003064331130000066
同时计算
Figure BDA0003064331130000067
中每个负向特征出 现的频率,并按照频率从大到小排序,取前c3个特征得到
Figure BDA0003064331130000068
Figure BDA0003064331130000069
Figure BDA00030643311300000610
Figure BDA00030643311300000611
(3-3)获取句子Si的关键解释特征:最终获得句子Si的关键解释特征集合
Figure BDA00030643311300000612
是步骤 (3-2)获取的三个集合的交集,共包含p个关键解释特征:
Figure BDA00030643311300000613
优选地,在所述步骤4中所述将步骤3获取的关键解释特征和原数据相融合,重新训练 文本分类模型,具体步骤包括:
(4-1)获取融合关键解释特征的数据:将获取的句子Si的关键解释特征和句子Si共同作 为文本分类模型的输入,融合关键解释特征的句子表示为Si′:
Figure BDA00030643311300000614
其中,
Figure BDA0003064331130000071
为句子Si中的k个单词,
Figure BDA0003064331130000072
为获取的句子Si的p个关 键解释特征;
(4-2)重新训练文本分类模型:对所有的训练样本和测试样本都按照(2-1)至(4-1)所述的 步骤融合关键解释特征得到新的数据集S′=(S1′,S2′,S3′,...,SN′),然后按照权利要求2所述 过程在数据集S′上重新训练文本分类模型,得到的文本分类结果更加准确。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著的技术进步:
1.本发明方法使用了基于局部随机扰动采样的线性拟合方法解释哪些关键特征对文本分 类模型的预测结果贡献最大,将这些特征和原始标注样本融合,突出原始样本的关键特征, 从而提升分类效果;
2.本发明方法能高效重新训练文本分类模型,从而使文本分类结果更加准确。
附图说明
图1为本发明为融合文本解释特征的文本分类方法流程图。
图2为本发明基于神经网络的文本分类模型示意图。
图3为本发明使用模型解释方法获取解释特征流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合具体实施例,并参照附 图附表,对本发明实施例中的技术方案进行清晰、完整的描述。
本发明的目的是提供一种融合文本解释特征的文本分类方法,以通过模型解释方法获取 文本分类模型给出预测结果的关键特征,并将这些关键特征和原始文本共同作为文本分类模 型的输入重新训练模型,从而提升文本分类模型的效果。
本发明提供了一种融合文本解释特征的文本分类方法,使用基于局部随机扰动采样的线 性拟合方法解释基于神经网络的文本分类模型的预测结果,获取解释特征,根据这些特征的 频率和权重获取关键解释特征与原数据相融合,重新训练文本分类模型,从而使文本分类结 果更加准确。本发明的基本特征主要包括以下几个方面:
一、使用基于局部随机扰动采样的线性拟合方法解释训练好的文本分类模型的预测结果, 获取解释特征;
二、根据解释特征的权重和频率选择对文本分类有利的关键解释特征;
三、将原始数据融合关键解释特征重新训练文本分类模型。
实施例一:
参见图1,一种融合文本解释特征的文本分类方法,包括以下操作步骤:
步骤1、训练基于神经网络的文本分类模型用于预测句子所属类别;
步骤2、使用基于局部随机扰动采样的线性拟合方法,获取在所述步骤1中句子预测结 果的解释特征;
步骤3、根据在所述步骤2中获取的解释特征的频率和权重,选择对分类效果有利的关 键解释特征;
步骤4、将在所述步骤3中获取的关键解释特征和原数据相融合,重新训练文本分类模 型。
本实施例方法能高效重新训练文本分类模型,从而使文本分类结果更加准确。
实施例二:
在上述实施例中,参见图1融合文本解释特征的文本分类方法流程图,
一种融合文本解释特征的文本分类方法,该过程的具体实施步骤包括以下4步:
步骤S1:训练基于神经网络的文本分类模型用于预测句子所属类别,文本分类模型图参 见附图2,模型参数设置参见表1;具体过程为:
(1-1)输入层:获取AG-News数据集,AG-News是用于文本分类的标准英文数据集,包含四个类别,共127600条数据;考虑到文本分类模型训练和获取每个数据解释特征的时间 问题,从AG-News数据集中对每个类别的数据均匀随机采样,选取16000条数据用于实验, 其中训练集包含12800条数据,验证集和测试集分别包含1600条数据;文本分类模型的输入 是带有类别标签的句子S=(S1,S2,S3......,SN),其中Si表示数据集中的第i个句子,N表示 句子数量,取值为16000,
Figure BDA0003064331130000081
Figure BDA0003064331130000082
表示第i个句子的第j个单词,k表 示第i个句子中的单词数量,由于句子长度不同,因此k的取值不固定;
表1.文本分类模型参数设置
Figure BDA0003064331130000083
(1-2)句子向量化:使用Glove训练词向量,将词表V=(w1,w2,w3,......,wM)中的每个 单词都转化为64维的向量表示,生成一个向量化的词表V′=(v1,v2,v3,......,vM),其中wi表 示词表中的单词,vi表示单词wi的向量化表示,M表示数据集中出现的所有单词的数量,M 取值为161067,V′的维度为
Figure BDA0003064331130000091
查找词表V′将句子中的单词转化为对应的向量 表示,则句子Si表示为
Figure BDA0003064331130000092
(1-3)线性层:将向量化后的句子
Figure BDA0003064331130000093
输入线性层预测句子的类别标签,线性层公式如下:
Figure BDA0003064331130000094
其中,yl为预测结果,是一个包含4个数值的数组,其中每个数值代表预测为当前位置 表示的类别的可能性大小,l表示线性变换方程,WT和b分别为线性层的参数,随机初始化参 数的取值范围为(-0.3,0.3)。
(1-4)softmax层:使用softmax函数将预测结果yl中的每个值的取值范围都映射到[0,1], sofimax函数的公式如下:
Figure BDA0003064331130000095
其中,
Figure RE-GDA0003284893990000096
表示预测结果yl中的第j个值,yl中的每个值都经过softmax函数变换之后,这4个数值的和为1。
(1-5)Loss方程:模型最终输出的是预测结果中最大的值对应的类别标签ypre,使用公 式loss(yi,ypre)=-yprelog(softmax(yi))确定损失函数,其中loss(yi,ypre)表示损失函数,yi为输入句子的标注标签。
(1-6)参数优化:以最小化所述损失函数为目标对文本分类模型的参数进行优化。如表1 所示,Batch Size设置为16,即每次向文本分类模型中输入16个句子。模型训练过程中的学 习率为2.0,学习率调整倍数为0.8,调整间隔为1个epoch,即每经过一个epoch,学习率调 整为上一个epoch的0.8倍,模型最终迭代35次完成训练。
步骤S2:使用基于局部随机扰动采样的线性拟合方法获取步骤S1中句子预测结果的解 释特征。具体流程见附图3:
(2-1)选定要解释的句子Si并在Si附近通过随机扰动进行采样:Si为原数据集中包含k 个单词的句子
Figure BDA0003064331130000101
对句子Si进行随机扰动,获取采样样本,生成包含 多个采样样本的数据集,并对采样样本使用0和1进行向量化表示。随机扰动过程为:
随机删除句子Si中的部分单词,删除单词的数量大于0小于k,得到新的句子
Figure BDA0003064331130000102
即Si的一个随机扰动样本,其中
Figure BDA0003064331130000103
为句子Si第t次随机扰动 采样样本中的第j个单词,c为随机扰动之后剩余的单词数量。初始化一个1×k的向量,将 删除单词的位置设为0,其他位置设为1,得到
Figure BDA0003064331130000104
的向量化表示
Figure BDA0003064331130000105
其中的每个元素
Figure BDA0003064331130000106
进行4999次随机扰动,得到包含5000个句子的新数据集
Figure BDA0003064331130000107
其中
Figure BDA0003064331130000108
为原句子Si,Si的向量化表示为包含k个1的向量。新数据 集X的向量矩阵表示为
Figure BDA0003064331130000109
(2-2)给新生成的数据打标签:将数据集X中的每个数据都输入到训练好的文本分类模 型中进行预测,得到对应的预测结果。将训练好的文本分类模型表示为f,经过步骤(1-1)至步 骤(1-4)之后得到每个样本的预测结果
Figure BDA00030643311300001010
为包含4个数字的 数组,4是数据类别数量,其中的每个值表示预测为对应类别的概率。
(2-3)计算新数据集Z中所有扰动数据和原数据的距离作为扰动数据权重:新生成的扰 动数据和原数据的距离越近越能够解释预测数据,则赋予更高的权重,利用指数核函数定义 新生成数据的权重,计算公式为:
Figure BDA0003064331130000111
其中,
Figure BDA0003064331130000112
是定义在cosine距离上的指数内核,表示样本间的距离权重,距离越近,
Figure BDA0003064331130000113
的值越大,σ是核宽度。
(2-4)使用线性模型拟合新数据集Z:将线性模型用g表示,线性模型公式表达如下:
Figure BDA0003064331130000114
其中,
Figure BDA0003064331130000115
为数据集Z中的一个向量,wg为线性模型的权重系数。
(2-5)确定线性模型的系数:将Loss方程设置如下:
Figure BDA0003064331130000116
使L(f,g,πz)最小,获得最优的线性模型权重wg,wg的维度为
Figure BDA0003064331130000117
其中
Figure BDA0003064331130000118
为第t 个扰动数据,
Figure BDA0003064331130000119
Figure BDA00030643311300001110
的向量形式。
(2-6)获取解释特征并去噪:线性模型训练完成后,Feai=wg×x即为不同类别的解释 特征及权重,
Figure BDA00030643311300001111
将第m个类别的特征按照权重绝对值从大到小排序,去除助词、 连接词、标点符号等信息后选取前T个作为句子x预测为第m个类别的解释特征
Figure BDA00030643311300001112
Figure BDA00030643311300001113
其中,
Figure BDA00030643311300001114
表示模型解释方法输出的第i个句子预测为第m个类别的特征和每个特征对 应权重的集合,m是不同类别对应的标签,1≤m≤4,
Figure BDA0003064331130000121
是句子Si的第j个特征,
Figure BDA0003064331130000122
是特 征
Figure BDA0003064331130000123
对应的权重。其中权重为正值的特征表示模型认为该特征支持第i个样本被分到第m个 类别,我们将这类特征称为正向特征或正特征,权重为负值的特征表示模型认为该特征不支 持第i个样本被分到第m个类别,称其为负向特征或负特征。
步骤S3:根据获取的解释特征的频率和权重选择对分类效果有利的关键解释特征,具体 过程如下:
(3-1)获取数据Si所有的解释特征:
Figure BDA0003064331130000124
表示通过步骤(2-6)获得的将句子Si预测为任意 类别对应的特征的集合:
Figure BDA0003064331130000125
(3-2)计算每个特征的频率和权重:
由于同一个特征可能出现在不同类别中,因此在
Figure BDA0003064331130000126
可能出现多次,将
Figure BDA0003064331130000127
中所有相 同正向特征的权重求和,并按照权重从大到小排序取前c1个特征得到
Figure BDA0003064331130000128
以同样的方法计 算
Figure BDA0003064331130000129
中所有负向特征的权重,并按照权重绝对值从大到小排序,取前c2个特征得到
Figure BDA00030643311300001210
同时计算
Figure BDA00030643311300001211
中每个负向特征出现的频率,并按照频率从大到小排序,取前c3个特征得到
Figure BDA00030643311300001212
Figure BDA00030643311300001213
Figure BDA00030643311300001214
Figure BDA00030643311300001215
(3-3)获取句子Si的关键解释特征:最终获得句子Si的关键解释特征集合
Figure BDA00030643311300001216
是步骤(4-2)获取的三个集合的交集,共包含p个关键解释特征:
Figure BDA0003064331130000131
步骤S4:将步骤S3获取的关键解释特征和原数据相融合,重新训练文本分类模型,具 体包括:
(4-1)获取融合关键解释特征的数据:将获取的句子Si的关键解释特征和句子Si共同作 为文本分类模型的输入,融合关键解释特征的句子表示为Si′:
Figure BDA0003064331130000132
其中,
Figure BDA0003064331130000133
为句子Si中的k个单词,
Figure BDA0003064331130000134
为获取的句子Si的p个关 键解释特征。
(4-2)重新训练文本分类模型:对所有的训练样本和测试样本都按照(2-1)至(4-1)所述的 步骤融合关键解释特征得到新的数据集S′=(S1′,S2′,S3′,...,SN′),然后按照权利要求2所述 过程在数据集S,上重新训练文本分类模型,得到的文本分类结果更加准确。
实验说明及结果:实验数据集为步骤(1-1)所述的AG-News数据集中的部分数据,从中对 每个类别的数据随机均匀采样获取16000条数据用于实验,其中训练集包括12800条数据, 验证集和测试集分别包含1600条数据。表2显示了使用融合关键解释特征的数据训练文本分 类模型和使用原始数据训练文本分类模型的实验对比结果。其中,Train_acc为训练集的准确 率,Test_acc为测试集的准确率,Test_ma_R为测试集的宏观召回率,Test_ma_f1为测试集 的宏观f1值,Test_mi_f1为测试集的微观f1值。可以看出,本发明提出的方法在各项指标上 均有所提升,其中测试集的准确率提升了2.39个百分点,说明本发明提出的方法可以提升文 本分类模型的效果。
表2.实验结果
Figure BDA0003064331130000135
Figure BDA0003064331130000141
本实施例方法使用了基于局部随机扰动采样的线性拟合方法解释哪些关键特征对文本分 类模型的预测结果贡献最大,将这些特征和原始标注样本融合,突出原始样本的关键特征, 从而提升分类效果;本实施例方法能高效重新训练文本分类模型,从而使文本分类结果更加 准确。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明 的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本 发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或 变型方式都应当视为属于本发明的保护范围。

Claims (5)

1.一种融合文本解释特征的文本分类方法,其特征在于,包括以下操作步骤:
步骤1、训练基于神经网络的文本分类模型用于预测句子所属类别;
步骤2、使用基于局部随机扰动采样的线性拟合方法,获取在所述步骤1中句子预测结果的解释特征;
步骤3、根据在所述步骤2中获取的解释特征的频率和权重,选择对分类效果有利的关键解释特征;
步骤4、将在所述步骤3中获取的关键解释特征和原数据相融合,重新训练文本分类模型。
2.根据权利要求1所述融合文本解释特征的文本分类方法,其特征在于,在所述步骤1中的训练基于神经网络的文本分类模型用于预测句子所属类别,具体步骤包括:
(1-1)输入层:文本分类模型的输入是带有类别标签的句子S=(S1,S2,S3......,SN),其中Si表示数据集中的第i个句子,N表示句子数量,
Figure RE-FDA0003284893980000011
wj i表示第i个句子中的第j个单词,k表示第i个句子中的单词数量;
(1-2)句子向量化:使用Glove训练词向量,将词表V=(w1,w2,w3,......,wM)中的每个单词都转化为64维的向量,生成一个向量化的词表V′=(v1,v2,v3,......,vM),V′的维度为
Figure RE-FDA0003284893980000012
其中wi表示词表中的单词,vi表示单词wi的向量化表示,M表示数据集中出现的所有单词的数量;查找词表V′将句子中的单词转化为对应的向量表示,则句子Si表示为
Figure RE-FDA0003284893980000013
(1-3)线性层:将向量化后的句子
Figure RE-FDA0003284893980000014
输入线性层预测句子的类别标签,线性层公式如下:
Figure RE-FDA0003284893980000015
其中,yl为预测结果,是一个包含num_class个数字的数组,num_class表示预定义的类别数量,其中每个数字代表预测为当前位置表示的类别的可能性大小,l表示线性变换方程,WT和b分别为性层的参数;
(1-4)softmax层:使用softmax函数将预测结果yl中每个值的取值范围都映射到[0,1],softmax函数的公式如下:
Figure RE-FDA0003284893980000021
其中,
Figure RE-FDA0003284893980000022
表示预测结果yl中的第α个值,yl中的每个值都经过softmax函数变换之后,这num_class个值的和为1;
(1-5)Loss方程:模型最终输出的是预测结果中最大的值对应的类别标签ypre,采用公式loss(yi,ypre)=-yprelog(softmax(yi))确定损失函数,其中loss(yi,ypre)表示损失函数,yi为输入句子Si的标注标签;
(1-6)参数优化:以最小化所述损失函数为目标对文本分类模型的参数进行优化,得到训练好的文本分类模型。
3.根据权利要求1所述的融合文本解释特征的文本分类方法,其特征在于,在所述步骤2中所述使用基于局部随机扰动采样的线性拟合方法获取步骤1中句子预测结果的解释特征;具体步骤包括:
(2-1)选定要解释的句子Si,并在Si附近通过随机扰动进行采样:Si为原数据集中包含k个单词的句子
Figure RE-FDA0003284893980000023
对句子Si进行随机扰动,获取采样样本,生成包含多个采样样本的数据集,并对采样样本使用0和1进行向量化表示;随机扰动过程为:
随机删除句子Si中的部分单词,删除单词的数量大于0小于k,得到新的句子
Figure RE-FDA0003284893980000031
即Si的一个随机扰动样本,其中
Figure RE-FDA0003284893980000032
为句子Si第t次随机扰动样本中的第j个单词,c为随机扰动之后剩余的单词数量;初始化一个1×k的向量,将删除单词的位置设为0,其他位置设为1,得到
Figure RE-FDA0003284893980000033
的向量化表示
Figure RE-FDA0003284893980000034
其中的每个元素
Figure RE-FDA0003284893980000035
进行4999次随机扰动,得到包含5000个句子的新数据集
Figure RE-FDA0003284893980000036
其中
Figure RE-FDA0003284893980000037
为原句子Si,Si的向量化表示为包含k个1的向量;新数据集X的向量矩阵表示为
Figure RE-FDA0003284893980000038
(2-2)给新生成的数据打标签:
将数据集X中的每个数据都输入到训练好的文本分类模型中进行预测,得到对应的预测结果;将训练好的文本分类模型表示为f,经过步骤(1-1)至步骤(1-4)之后得到每个样本的预测结果
Figure RE-FDA0003284893980000039
Figure RE-FDA00032848939800000310
为包含num_class个数字的数组,其中的每个值表示预测为对应类别的概率;
(2-3)计算新数据集Z中所有扰动数据和原数据的距离作为扰动数据权重:
新生成的扰动数据和原数据的距离越近越能够解释预测数据,则赋予更高的权重,利用指数核函数定义新生成数据的权重,计算公式为:
Figure RE-FDA00032848939800000311
其中,
Figure RE-FDA00032848939800000312
是定义在cosine距离上的指数内核,表示样本间的距离权重,距离越近,
Figure RE-FDA00032848939800000313
的值越大,σ是核宽度;
(2-4)使用线性模型拟合新数据集Z:将线性模型用g表示,线性模型公式表达如下:
Figure RE-FDA0003284893980000041
其中,
Figure RE-FDA0003284893980000042
为数据集Z中的一个向量,wg为线性模型的权重系数;
(2-5)确定线性模型的系数:训练线性分类模型确定权重系数,将Loss方程设置如下:
Figure RE-FDA0003284893980000043
使L(f,g,πz)最小,获得最优的线性模型权重wg,wg的维度为
Figure RE-FDA0003284893980000044
其中
Figure RE-FDA0003284893980000045
为第t个扰动数据,
Figure RE-FDA0003284893980000046
Figure RE-FDA0003284893980000047
的向量形式;
(2-6)获取解释特征并去噪:线性模型训练完成后,Feai=wg×Si即为不同类别的解释特征及权重,
Figure RE-FDA0003284893980000048
将第m个类别的特征按照权重绝对值从大到小排序,去除助词、连接词、标点符号等信息后选取前T个作为句子Si预测为第m个类别的解释特征
Figure RE-FDA0003284893980000049
Figure RE-FDA00032848939800000410
其中,
Figure RE-FDA00032848939800000411
表示通过模型解释方法获得的将第i个句子预测为第m个类别的特征和每个特征对应权重的集合,m是不同类别对应的标签,1≤m≤num_class,fj i是句子Si的第j个特征,
Figure RE-FDA00032848939800000412
是特征fj i对应的权重;其中权重为正值的特征表示模型认为该特征支持第i个样本被分到第m个类别,我们将这类特征称为正向特征或正特征,权重为负值的特征表示模型认为该特征不支持第i个样本被分到第m个类别,称其为负向特征或负特征。
4.根据权利要求1所述的融合文本解释特征的文本分类方法,其特征在于,在所述步骤3 中所述根据获取的解释特征的频率和权重选择关键特征集合,具体步骤包括:
(3-1)获取数据Si所有的解释特征:
Figure RE-FDA0003284893980000051
表示通过步骤(3-6)获得的将句子Si预测为任意类别对应的特征的集合:
Figure RE-FDA0003284893980000052
(3-2)计算每个特征的频率和权重:由于同一个特征可能出现在不同类别中,因此同一个特征在
Figure RE-FDA0003284893980000053
中可能出现多次,将
Figure RE-FDA0003284893980000054
中所有相同正向特征的权重求和,并按照权重从大到小排序取前c1个特征得到
Figure RE-FDA0003284893980000055
以同样的方法计算
Figure RE-FDA0003284893980000056
中所有负向特征的权重,并按照权重绝对值从大到小排序,取前c2个特征得到
Figure RE-FDA0003284893980000057
同时计算
Figure RE-FDA0003284893980000058
中每个负向特征出现的频率,并按照频率从大到小排序,取前c3个特征得到
Figure RE-FDA0003284893980000059
Figure RE-FDA00032848939800000510
Figure RE-FDA00032848939800000511
Figure RE-FDA00032848939800000512
(3-3)获取句子Si的关键解释特征:最终获得句子Si的关键解释特征集合
Figure RE-FDA00032848939800000513
是步骤(3-2)获取的三个集合的交集,共包含p个关键解释特征:
Figure RE-FDA00032848939800000514
5.根据权利要求1所述的一种融合文本解释特征的文本分类方法,其特征在于,在所述步骤4中所述将步骤3获取的关键解释特征和原数据相融合,重新训练文本分类模型,具体步骤包括:
(4-1)获取融合关键解释特征的数据:将获取的句子Si的关键解释特征和句子Si共同作为文本分类模型的输入,融合关键解释特征的句子表示为Si′
Figure RE-FDA0003284893980000061
其中,
Figure RE-FDA0003284893980000062
为句子Si中的k个单词,
Figure RE-FDA0003284893980000063
为获取的句子Si的p个关键解释特征;
(4-2)重新训练文本分类模型:对所有的训练样本和测试样本都按照(2-1)至(4-1)所述的步骤融合关键解释特征得到新的数据集S′=(S1′,S2′,S3′,...,SN′),然后按照权利要求2所述过程在数据集S′上重新训练文本分类模型,得到的文本分类结果更加准确。
CN202110521823.9A 2021-05-13 2021-05-13 一种融合文本解释特征的文本分类方法 Pending CN113590814A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110521823.9A CN113590814A (zh) 2021-05-13 2021-05-13 一种融合文本解释特征的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110521823.9A CN113590814A (zh) 2021-05-13 2021-05-13 一种融合文本解释特征的文本分类方法

Publications (1)

Publication Number Publication Date
CN113590814A true CN113590814A (zh) 2021-11-02

Family

ID=78243402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110521823.9A Pending CN113590814A (zh) 2021-05-13 2021-05-13 一种融合文本解释特征的文本分类方法

Country Status (1)

Country Link
CN (1) CN113590814A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182186A (zh) * 2016-12-08 2018-06-19 广东精点数据科技股份有限公司 一种基于随机森林算法的网页排序方法
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、***、设备及介质
CN111967354A (zh) * 2020-07-31 2020-11-20 华南理工大学 基于肢体和微表情的多模态特征的抑郁倾向识别方法
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182186A (zh) * 2016-12-08 2018-06-19 广东精点数据科技股份有限公司 一种基于随机森林算法的网页排序方法
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、***、设备及介质
CN111967354A (zh) * 2020-07-31 2020-11-20 华南理工大学 基于肢体和微表情的多模态特征的抑郁倾向识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MARCO TULIO RIBEIRO等: "Why Should I Trust You?" Explaining the Predictions of Any Classifier", 《KDD \'16: THE 22ND ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
周乾荣: "面向句子分类的深度表示学习技术研究", 《中国博士学位论文全文数据库》 *
戴亚平等: "《多传感器数据智能融合理论与应用 面向新工科普通高等教育系列教材》", 机械工业出版社, pages: 143 *

Similar Documents

Publication Publication Date Title
US20220019745A1 (en) Methods and apparatuses for training service model and determining text classification category
CN109189925B (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN106407333B (zh) 基于人工智能的口语查询识别方法及装置
CN109492101B (zh) 基于标签信息与文本特征的文本分类方法、***及介质
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN110033281B (zh) 一种智能客服至人工客服转换的方法及装置
CN111506732B (zh) 一种文本多层次标签分类方法
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111738007A (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112966068A (zh) 基于网页信息的简历识别方法和装置
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及***
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
Niyozmatova et al. Classification based on decision trees and neural networks
CN111651597A (zh) 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN114722198A (zh) 产品分类编码确定方法、***及相关装置
CN114239584A (zh) 一种基于自监督学习的命名实体识别方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及***
CN112989803A (zh) 一种基于主题向量学习的实体链接模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination