CN113590814A - 一种融合文本解释特征的文本分类方法 - Google Patents
一种融合文本解释特征的文本分类方法 Download PDFInfo
- Publication number
- CN113590814A CN113590814A CN202110521823.9A CN202110521823A CN113590814A CN 113590814 A CN113590814 A CN 113590814A CN 202110521823 A CN202110521823 A CN 202110521823A CN 113590814 A CN113590814 A CN 113590814A
- Authority
- CN
- China
- Prior art keywords
- sentence
- interpretation
- features
- feature
- text classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000013145 classification model Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 230000000694 effects Effects 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000009286 beneficial effect Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 24
- 239000000126 substance Substances 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001568 sexual effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种融合文本解释特征的文本分类方法。该方法的具体实施步骤如下:(1)训练基于神经网络的文本分类模型用于预测句子所属类别;(2)使用基于局部随机扰动采样的线性拟合方法获取步骤(1)中句子预测结果的解释特征;(3)根据获取的解释特征的频率和权重选择对分类效果有利的关键解释特征;(4)将步骤(3)获取的关键解释特征和原数据相融合,重新训练文本分类模型。本发明的方法使用了基于局部随机扰动采样的线性拟合方法解释哪些关键特征对文本分类模型的预测结果贡献最大,将这些特征和原始标注样本融合,突出原始样本的关键特征,从而提升分类效果。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种融合文本解释特征的文本分类方法, 是用一种基于随机扰动采样的线性拟合方法解释训练好的基于神经网络的文本分类模型获得 每个句子预测结果的解释特征,通过融合其中的关键解释特征重新训练文本分类模型的方法, 可以应用于垃圾邮件识别、文本主题分类、情感分析等具体领域。
背景技术
文本分类是自然语言处理领域的一个重要的研究方向,文本分类任务就是使用一定的方 法将一个文本映射到预定义的某个类别。文本分类方法有基于规则的方法和基于机器学习的 方法。
使用基于规则的方法进行文本分类时,需要针对不同文本设定不同的规则,不仅费时费 力,而且覆盖范围和准确率都无法得到保证。随着机器学习的兴起,将机器学习方法用于文 本分类任务并取得了较好的效果。但是很多机器学习模型都是一种黑盒模型,我们只能得到 模型给出的预测结果,却无法知道模型为什么会给出这个结果,只能从模型的准确率等一些 评判指标判断模型的可靠性,但是在医疗等领域,我们不仅需要知道模型的预测结果和准确 率,更需要知道模型给出预测结果的依据,才能为模型使用者提供更准确的决策依据,同时 根据模型给出预测结果的依据干预模型训练过程,提升模型分类效果。
综上,由于深度学习模型的不可解释性,导致模型使用者难以判断模型给出预测结果的 依据,也无法根据模型的预测结果做出正确的决策
发明内容
本发明的主要目的在于克服现有技术的不足,提供一种融合文本解释特征的文本分类方 法,使用基于随机扰动采样的线性拟合方法解释基于神经网络的文本分类模型的预测结果, 根据线性拟合过程中用到的分类特征获取每个句子的解释特征,根据这些特征的频率和权重 获取关键解释特征与原数据相融合,重新训练文本分类模型,从而使文本分类结果更加准确。
为实现上述目的,本发明采用以下技术方案:
一种融合文本解释特征的文本分类方法,包括以下操作步骤:
步骤1、训练基于神经网络的文本分类模型用于预测句子所属类别;
步骤2、使用基于局部随机扰动采样的线性拟合方法,获取在所述步骤1中句子预测结 果的解释特征;
步骤3、根据在所述步骤2中获取的解释特征的频率和权重,选择对分类效果有利的关 键解释特征;
步骤4、将在所述步骤3中获取的关键解释特征和原数据相融合,重新训练文本分类模 型。
优选地,在所述步骤1中的训练基于神经网络的文本分类模型用于预测句子所属类别, 具体步骤包括:
(1-1)输入层:文本分类模型的输入是带有类别标签的句子S=(S1,S2,S3......,SN),其 中Si表示数据集中的第i个句子,N表示句子数量, 表示第i 个句子中的第j个单词,k表示第i个句子中的单词数量;
(1-2)句子向量化:使用Glove训练词向量,将词表V=(w1,w2,w3,......,wM)中的每个 单词都转化为64维的向量,生成一个向量化的词表V′=(v1,v2,v3,......,vM),V′的维度为 其中wi表示词表中的单词,vi表示单词wi的向量化表示,M表示数据集中出现 的所有单词的数量;查找词表V′将句子中的单词转化为对应的向量表示,则句子Si表示为
其中,yl为预测结果,是一个包含num_class个数字的数组,num_class表示预定义的类 别数量,其中每个数字代表预测为当前位置表示的类别的可能性大小,l表示线性变换方程,WT和b分别为线性层的参数;
(1-4)softmax层:使用softmax函数将预测结果yl中每个值的取值范围都映射到[0,1], softmax函数的公式如下:
(1-5)Loss方程:模型最终输出的是预测结果中最大的值对应的类别标签ypre,采用公 式loss(yi,ypre)=-yprelog(softmax(yi))确定损失函数,其中loss(yi,ypre)表示损失函数, yi为输入句子Si的标注标签;
(1-6)参数优化:以最小化所述损失函数为目标对文本分类模型的参数进行优化,得到 训练好的文本分类模型。
优选地,在所述步骤2中所述使用基于局部随机扰动采样的线性拟合方法获取步骤1中 句子预测结果的解释特征;具体步骤包括:
(2-1)选定要解释的句子Si,并在Si附近通过随机扰动进行采样:Si为原数据集中包含k 个单词的句子对句子Si进行随机扰动,获取采样样本,生成包含 多个采样样本的数据集,并对采样样本使用0和1进行向量化表示;随机扰动过程为:
随机删除句子Si中的部分单词,删除单词的数量大于0小于k,得到新的句子即Si的一个随机扰动样本,其中为句子Si第t次随机扰动 样本中的第j个单词,c为随机扰动之后剩余的单词数量;初始化一个1×k的向量,将删除 单词的位置设为0,其他位置设为1,得到的向量化表示其 中的每个元素进行4999次随机扰动,得到包含5000个句子的新数据集 其中为原句子Si,Si的向量化表示为包含k个1的向量;新数据 集X的向量矩阵表示为
(2-2)给新生成的数据打标签:
将数据集X中的每个数据都输入到训练好的文本分类模型中进行预测,得到对应的预测 结果;将训练好的文本分类模型表示为f,经过步骤(1-1)至步骤(1-4)之后得到每个样本的预测 结果为包含num_class个数字的数组,其中的每个值表 示预测为对应类别的概率;
(2-3)计算新数据集Z中所有扰动数据和原数据的距离作为扰动数据权重:
新生成的扰动数据和原数据的距离越近越能够解释预测数据,则赋予更高的权重,利用 指数核函数定义新生成数据的权重,计算公式为:
(2-4)使用线性模型拟合新数据集Z:将线性模型用g表示,线性模型公式表达如下:
(2-5)确定线性模型的系数:训练线性分类模型确定权重系数,将Loss方程设置如下:
(2-6)获取解释特征并去噪:线性模型训练完成后,Feai=wg×Si即为不同类别的解释 特征及权重,将第m个类别的特征按照权重绝对值从大到小排序,去 除助词、连接词、标点符号等信息后选取前T个作为句子Si预测为第m个类别的解释特征
其中,表示通过模型解释方法获得的将第i个句子预测为第m个类别的特征和每个 特征对应权重的集合,m是不同类别对应的标签,1≤m≤num_class,是句子Si的第j个 特征,是特征对应的权重;其中权重为正值的特征表示模型认为该特征支持第i个样本 被分到第m个类别,我们将这类特征称为正向特征或正特征,权重为负值的特征表示模型认 为该特征不支持第i个样本被分到第m个类别,称其为负向特征或负特征。
优选地,在所述步骤3中,所述根据获取的解释特征的频率和权重选择关键特征集合, 具体步骤包括:
(3-2)计算每个特征的频率和权重:由于同一个特征可能出现在不同类别中,因此同一 个特征在中可能出现多次,将中所有相同正向特征的权重求和,并按照权重从大 到小排序取前c1个特征得到以同样的方法计算中所有负向特征的权重,并按 照权重绝对值从大到小排序,取前c2个特征得到同时计算中每个负向特征出 现的频率,并按照频率从大到小排序,取前c3个特征得到
优选地,在所述步骤4中所述将步骤3获取的关键解释特征和原数据相融合,重新训练 文本分类模型,具体步骤包括:
(4-1)获取融合关键解释特征的数据:将获取的句子Si的关键解释特征和句子Si共同作 为文本分类模型的输入,融合关键解释特征的句子表示为Si′:
(4-2)重新训练文本分类模型:对所有的训练样本和测试样本都按照(2-1)至(4-1)所述的 步骤融合关键解释特征得到新的数据集S′=(S1′,S2′,S3′,...,SN′),然后按照权利要求2所述 过程在数据集S′上重新训练文本分类模型,得到的文本分类结果更加准确。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著的技术进步:
1.本发明方法使用了基于局部随机扰动采样的线性拟合方法解释哪些关键特征对文本分 类模型的预测结果贡献最大,将这些特征和原始标注样本融合,突出原始样本的关键特征, 从而提升分类效果;
2.本发明方法能高效重新训练文本分类模型,从而使文本分类结果更加准确。
附图说明
图1为本发明为融合文本解释特征的文本分类方法流程图。
图2为本发明基于神经网络的文本分类模型示意图。
图3为本发明使用模型解释方法获取解释特征流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合具体实施例,并参照附 图附表,对本发明实施例中的技术方案进行清晰、完整的描述。
本发明的目的是提供一种融合文本解释特征的文本分类方法,以通过模型解释方法获取 文本分类模型给出预测结果的关键特征,并将这些关键特征和原始文本共同作为文本分类模 型的输入重新训练模型,从而提升文本分类模型的效果。
本发明提供了一种融合文本解释特征的文本分类方法,使用基于局部随机扰动采样的线 性拟合方法解释基于神经网络的文本分类模型的预测结果,获取解释特征,根据这些特征的 频率和权重获取关键解释特征与原数据相融合,重新训练文本分类模型,从而使文本分类结 果更加准确。本发明的基本特征主要包括以下几个方面:
一、使用基于局部随机扰动采样的线性拟合方法解释训练好的文本分类模型的预测结果, 获取解释特征;
二、根据解释特征的权重和频率选择对文本分类有利的关键解释特征;
三、将原始数据融合关键解释特征重新训练文本分类模型。
实施例一:
参见图1,一种融合文本解释特征的文本分类方法,包括以下操作步骤:
步骤1、训练基于神经网络的文本分类模型用于预测句子所属类别;
步骤2、使用基于局部随机扰动采样的线性拟合方法,获取在所述步骤1中句子预测结 果的解释特征;
步骤3、根据在所述步骤2中获取的解释特征的频率和权重,选择对分类效果有利的关 键解释特征;
步骤4、将在所述步骤3中获取的关键解释特征和原数据相融合,重新训练文本分类模 型。
本实施例方法能高效重新训练文本分类模型,从而使文本分类结果更加准确。
实施例二:
在上述实施例中,参见图1融合文本解释特征的文本分类方法流程图,
一种融合文本解释特征的文本分类方法,该过程的具体实施步骤包括以下4步:
步骤S1:训练基于神经网络的文本分类模型用于预测句子所属类别,文本分类模型图参 见附图2,模型参数设置参见表1;具体过程为:
(1-1)输入层:获取AG-News数据集,AG-News是用于文本分类的标准英文数据集,包含四个类别,共127600条数据;考虑到文本分类模型训练和获取每个数据解释特征的时间 问题,从AG-News数据集中对每个类别的数据均匀随机采样,选取16000条数据用于实验, 其中训练集包含12800条数据,验证集和测试集分别包含1600条数据;文本分类模型的输入 是带有类别标签的句子S=(S1,S2,S3......,SN),其中Si表示数据集中的第i个句子,N表示 句子数量,取值为16000, 表示第i个句子的第j个单词,k表 示第i个句子中的单词数量,由于句子长度不同,因此k的取值不固定;
表1.文本分类模型参数设置
(1-2)句子向量化:使用Glove训练词向量,将词表V=(w1,w2,w3,......,wM)中的每个 单词都转化为64维的向量表示,生成一个向量化的词表V′=(v1,v2,v3,......,vM),其中wi表 示词表中的单词,vi表示单词wi的向量化表示,M表示数据集中出现的所有单词的数量,M 取值为161067,V′的维度为查找词表V′将句子中的单词转化为对应的向量 表示,则句子Si表示为
其中,yl为预测结果,是一个包含4个数值的数组,其中每个数值代表预测为当前位置 表示的类别的可能性大小,l表示线性变换方程,WT和b分别为线性层的参数,随机初始化参 数的取值范围为(-0.3,0.3)。
(1-4)softmax层:使用softmax函数将预测结果yl中的每个值的取值范围都映射到[0,1], sofimax函数的公式如下:
(1-5)Loss方程:模型最终输出的是预测结果中最大的值对应的类别标签ypre,使用公 式loss(yi,ypre)=-yprelog(softmax(yi))确定损失函数,其中loss(yi,ypre)表示损失函数,yi为输入句子的标注标签。
(1-6)参数优化:以最小化所述损失函数为目标对文本分类模型的参数进行优化。如表1 所示,Batch Size设置为16,即每次向文本分类模型中输入16个句子。模型训练过程中的学 习率为2.0,学习率调整倍数为0.8,调整间隔为1个epoch,即每经过一个epoch,学习率调 整为上一个epoch的0.8倍,模型最终迭代35次完成训练。
步骤S2:使用基于局部随机扰动采样的线性拟合方法获取步骤S1中句子预测结果的解 释特征。具体流程见附图3:
(2-1)选定要解释的句子Si并在Si附近通过随机扰动进行采样:Si为原数据集中包含k 个单词的句子对句子Si进行随机扰动,获取采样样本,生成包含 多个采样样本的数据集,并对采样样本使用0和1进行向量化表示。随机扰动过程为:
随机删除句子Si中的部分单词,删除单词的数量大于0小于k,得到新的句子即Si的一个随机扰动样本,其中为句子Si第t次随机扰动 采样样本中的第j个单词,c为随机扰动之后剩余的单词数量。初始化一个1×k的向量,将 删除单词的位置设为0,其他位置设为1,得到的向量化表示其中的每个元素进行4999次随机扰动,得到包含5000个句子的新数据集 其中为原句子Si,Si的向量化表示为包含k个1的向量。新数据 集X的向量矩阵表示为
(2-2)给新生成的数据打标签:将数据集X中的每个数据都输入到训练好的文本分类模 型中进行预测,得到对应的预测结果。将训练好的文本分类模型表示为f,经过步骤(1-1)至步 骤(1-4)之后得到每个样本的预测结果为包含4个数字的 数组,4是数据类别数量,其中的每个值表示预测为对应类别的概率。
(2-3)计算新数据集Z中所有扰动数据和原数据的距离作为扰动数据权重:新生成的扰 动数据和原数据的距离越近越能够解释预测数据,则赋予更高的权重,利用指数核函数定义 新生成数据的权重,计算公式为:
(2-4)使用线性模型拟合新数据集Z:将线性模型用g表示,线性模型公式表达如下:
(2-5)确定线性模型的系数:将Loss方程设置如下:
(2-6)获取解释特征并去噪:线性模型训练完成后,Feai=wg×x即为不同类别的解释 特征及权重,将第m个类别的特征按照权重绝对值从大到小排序,去除助词、 连接词、标点符号等信息后选取前T个作为句子x预测为第m个类别的解释特征
其中,表示模型解释方法输出的第i个句子预测为第m个类别的特征和每个特征对 应权重的集合,m是不同类别对应的标签,1≤m≤4,是句子Si的第j个特征,是特 征对应的权重。其中权重为正值的特征表示模型认为该特征支持第i个样本被分到第m个 类别,我们将这类特征称为正向特征或正特征,权重为负值的特征表示模型认为该特征不支 持第i个样本被分到第m个类别,称其为负向特征或负特征。
步骤S3:根据获取的解释特征的频率和权重选择对分类效果有利的关键解释特征,具体 过程如下:
(3-2)计算每个特征的频率和权重:
由于同一个特征可能出现在不同类别中,因此在可能出现多次,将中所有相 同正向特征的权重求和,并按照权重从大到小排序取前c1个特征得到以同样的方法计 算中所有负向特征的权重,并按照权重绝对值从大到小排序,取前c2个特征得到同时计算中每个负向特征出现的频率,并按照频率从大到小排序,取前c3个特征得到
步骤S4:将步骤S3获取的关键解释特征和原数据相融合,重新训练文本分类模型,具 体包括:
(4-1)获取融合关键解释特征的数据:将获取的句子Si的关键解释特征和句子Si共同作 为文本分类模型的输入,融合关键解释特征的句子表示为Si′:
(4-2)重新训练文本分类模型:对所有的训练样本和测试样本都按照(2-1)至(4-1)所述的 步骤融合关键解释特征得到新的数据集S′=(S1′,S2′,S3′,...,SN′),然后按照权利要求2所述 过程在数据集S,上重新训练文本分类模型,得到的文本分类结果更加准确。
实验说明及结果:实验数据集为步骤(1-1)所述的AG-News数据集中的部分数据,从中对 每个类别的数据随机均匀采样获取16000条数据用于实验,其中训练集包括12800条数据, 验证集和测试集分别包含1600条数据。表2显示了使用融合关键解释特征的数据训练文本分 类模型和使用原始数据训练文本分类模型的实验对比结果。其中,Train_acc为训练集的准确 率,Test_acc为测试集的准确率,Test_ma_R为测试集的宏观召回率,Test_ma_f1为测试集 的宏观f1值,Test_mi_f1为测试集的微观f1值。可以看出,本发明提出的方法在各项指标上 均有所提升,其中测试集的准确率提升了2.39个百分点,说明本发明提出的方法可以提升文 本分类模型的效果。
表2.实验结果
本实施例方法使用了基于局部随机扰动采样的线性拟合方法解释哪些关键特征对文本分 类模型的预测结果贡献最大,将这些特征和原始标注样本融合,突出原始样本的关键特征, 从而提升分类效果;本实施例方法能高效重新训练文本分类模型,从而使文本分类结果更加 准确。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明 的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本 发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或 变型方式都应当视为属于本发明的保护范围。
Claims (5)
1.一种融合文本解释特征的文本分类方法,其特征在于,包括以下操作步骤:
步骤1、训练基于神经网络的文本分类模型用于预测句子所属类别;
步骤2、使用基于局部随机扰动采样的线性拟合方法,获取在所述步骤1中句子预测结果的解释特征;
步骤3、根据在所述步骤2中获取的解释特征的频率和权重,选择对分类效果有利的关键解释特征;
步骤4、将在所述步骤3中获取的关键解释特征和原数据相融合,重新训练文本分类模型。
2.根据权利要求1所述融合文本解释特征的文本分类方法,其特征在于,在所述步骤1中的训练基于神经网络的文本分类模型用于预测句子所属类别,具体步骤包括:
(1-1)输入层:文本分类模型的输入是带有类别标签的句子S=(S1,S2,S3......,SN),其中Si表示数据集中的第i个句子,N表示句子数量,wj i表示第i个句子中的第j个单词,k表示第i个句子中的单词数量;
(1-2)句子向量化:使用Glove训练词向量,将词表V=(w1,w2,w3,......,wM)中的每个单词都转化为64维的向量,生成一个向量化的词表V′=(v1,v2,v3,......,vM),V′的维度为其中wi表示词表中的单词,vi表示单词wi的向量化表示,M表示数据集中出现的所有单词的数量;查找词表V′将句子中的单词转化为对应的向量表示,则句子Si表示为
其中,yl为预测结果,是一个包含num_class个数字的数组,num_class表示预定义的类别数量,其中每个数字代表预测为当前位置表示的类别的可能性大小,l表示线性变换方程,WT和b分别为性层的参数;
(1-4)softmax层:使用softmax函数将预测结果yl中每个值的取值范围都映射到[0,1],softmax函数的公式如下:
(1-5)Loss方程:模型最终输出的是预测结果中最大的值对应的类别标签ypre,采用公式loss(yi,ypre)=-yprelog(softmax(yi))确定损失函数,其中loss(yi,ypre)表示损失函数,yi为输入句子Si的标注标签;
(1-6)参数优化:以最小化所述损失函数为目标对文本分类模型的参数进行优化,得到训练好的文本分类模型。
3.根据权利要求1所述的融合文本解释特征的文本分类方法,其特征在于,在所述步骤2中所述使用基于局部随机扰动采样的线性拟合方法获取步骤1中句子预测结果的解释特征;具体步骤包括:
(2-1)选定要解释的句子Si,并在Si附近通过随机扰动进行采样:Si为原数据集中包含k个单词的句子对句子Si进行随机扰动,获取采样样本,生成包含多个采样样本的数据集,并对采样样本使用0和1进行向量化表示;随机扰动过程为:
随机删除句子Si中的部分单词,删除单词的数量大于0小于k,得到新的句子即Si的一个随机扰动样本,其中为句子Si第t次随机扰动样本中的第j个单词,c为随机扰动之后剩余的单词数量;初始化一个1×k的向量,将删除单词的位置设为0,其他位置设为1,得到的向量化表示其中的每个元素进行4999次随机扰动,得到包含5000个句子的新数据集其中为原句子Si,Si的向量化表示为包含k个1的向量;新数据集X的向量矩阵表示为
(2-2)给新生成的数据打标签:
将数据集X中的每个数据都输入到训练好的文本分类模型中进行预测,得到对应的预测结果;将训练好的文本分类模型表示为f,经过步骤(1-1)至步骤(1-4)之后得到每个样本的预测结果 为包含num_class个数字的数组,其中的每个值表示预测为对应类别的概率;
(2-3)计算新数据集Z中所有扰动数据和原数据的距离作为扰动数据权重:
新生成的扰动数据和原数据的距离越近越能够解释预测数据,则赋予更高的权重,利用指数核函数定义新生成数据的权重,计算公式为:
(2-4)使用线性模型拟合新数据集Z:将线性模型用g表示,线性模型公式表达如下:
(2-5)确定线性模型的系数:训练线性分类模型确定权重系数,将Loss方程设置如下:
(2-6)获取解释特征并去噪:线性模型训练完成后,Feai=wg×Si即为不同类别的解释特征及权重,将第m个类别的特征按照权重绝对值从大到小排序,去除助词、连接词、标点符号等信息后选取前T个作为句子Si预测为第m个类别的解释特征
4.根据权利要求1所述的融合文本解释特征的文本分类方法,其特征在于,在所述步骤3 中所述根据获取的解释特征的频率和权重选择关键特征集合,具体步骤包括:
(3-2)计算每个特征的频率和权重:由于同一个特征可能出现在不同类别中,因此同一个特征在中可能出现多次,将中所有相同正向特征的权重求和,并按照权重从大到小排序取前c1个特征得到以同样的方法计算中所有负向特征的权重,并按照权重绝对值从大到小排序,取前c2个特征得到同时计算中每个负向特征出现的频率,并按照频率从大到小排序,取前c3个特征得到
5.根据权利要求1所述的一种融合文本解释特征的文本分类方法,其特征在于,在所述步骤4中所述将步骤3获取的关键解释特征和原数据相融合,重新训练文本分类模型,具体步骤包括:
(4-1)获取融合关键解释特征的数据:将获取的句子Si的关键解释特征和句子Si共同作为文本分类模型的输入,融合关键解释特征的句子表示为Si′:
(4-2)重新训练文本分类模型:对所有的训练样本和测试样本都按照(2-1)至(4-1)所述的步骤融合关键解释特征得到新的数据集S′=(S1′,S2′,S3′,...,SN′),然后按照权利要求2所述过程在数据集S′上重新训练文本分类模型,得到的文本分类结果更加准确。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110521823.9A CN113590814A (zh) | 2021-05-13 | 2021-05-13 | 一种融合文本解释特征的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110521823.9A CN113590814A (zh) | 2021-05-13 | 2021-05-13 | 一种融合文本解释特征的文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113590814A true CN113590814A (zh) | 2021-11-02 |
Family
ID=78243402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110521823.9A Pending CN113590814A (zh) | 2021-05-13 | 2021-05-13 | 一种融合文本解释特征的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590814A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182186A (zh) * | 2016-12-08 | 2018-06-19 | 广东精点数据科技股份有限公司 | 一种基于随机森林算法的网页排序方法 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、***、设备及介质 |
CN111967354A (zh) * | 2020-07-31 | 2020-11-20 | 华南理工大学 | 基于肢体和微表情的多模态特征的抑郁倾向识别方法 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
-
2021
- 2021-05-13 CN CN202110521823.9A patent/CN113590814A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182186A (zh) * | 2016-12-08 | 2018-06-19 | 广东精点数据科技股份有限公司 | 一种基于随机森林算法的网页排序方法 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、***、设备及介质 |
CN111967354A (zh) * | 2020-07-31 | 2020-11-20 | 华南理工大学 | 基于肢体和微表情的多模态特征的抑郁倾向识别方法 |
Non-Patent Citations (3)
Title |
---|
MARCO TULIO RIBEIRO等: "Why Should I Trust You?" Explaining the Predictions of Any Classifier", 《KDD \'16: THE 22ND ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 * |
周乾荣: "面向句子分类的深度表示学习技术研究", 《中国博士学位论文全文数据库》 * |
戴亚平等: "《多传感器数据智能融合理论与应用 面向新工科普通高等教育系列教材》", 机械工业出版社, pages: 143 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220019745A1 (en) | Methods and apparatuses for training service model and determining text classification category | |
CN109189925B (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN110008338B (zh) | 一种融合gan和迁移学习的电商评价情感分析方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN106407333B (zh) | 基于人工智能的口语查询识别方法及装置 | |
CN109492101B (zh) | 基于标签信息与文本特征的文本分类方法、***及介质 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN110033281B (zh) | 一种智能客服至人工客服转换的方法及装置 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN112364638B (zh) | 一种基于社交文本的人格识别方法 | |
CN108038492A (zh) | 一种基于深度学习的感性词向量及情感分类方法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN111738007A (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN112966068A (zh) | 基于网页信息的简历识别方法和装置 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及*** | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN114841151B (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
Niyozmatova et al. | Classification based on decision trees and neural networks | |
CN111651597A (zh) | 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN114722198A (zh) | 产品分类编码确定方法、***及相关装置 | |
CN114239584A (zh) | 一种基于自监督学习的命名实体识别方法 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及*** | |
CN112989803A (zh) | 一种基于主题向量学习的实体链接模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |