CN109325114A

CN109325114A - 一种融合统计特征与Attention机制的文本分类算法

Info

Publication number: CN109325114A
Application number: CN201810817616.6A
Authority: CN
Inventors: 程艳芬; 李超; 陈逸灵
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2019-02-12

Abstract

本发明涉及一种融合统计特征与Attention机制的文本分类算法，Attention机制已被逐渐地应用于自然语言处理领域。现有方法在计算Attention权值时极大的增加了计算量，本发明提出在结构化的事件级别上计算Attention权值。一方面，相对于词或者短语事件包含更加丰富的语义；另一方面，基于事件的Attention机制减少了计算复杂度。同时，在Attention权值计算的基础上加入了统计特征。与现有的模型相比，事件结构所包含的语义信息以及相应的统计特征提高了文本向量表示的质量，取得较好的分类性能。在分类准确率上对其进行了效果评估，实验结果表明该模型在缩减训练时间的同时取得更优的效果。

Description

一种融合统计特征与Attention机制的文本分类算法

技术领域

本发明涉及一种新型的文本分类算法，特别针对大型的文本数据集，在提高分类准确率的同时减少了计算的时间复杂度。

背景技术

网络和信息技术的迅猛发展是的数据以指数级别增长，文本是互联网信息表述的主要形式，如何从繁杂的文本数据中提取出关键、有效的信息是目前数据挖掘领域的研究热点，文本分类技术作为数据挖掘领域的关键技术，可以对文本的信息进行初步的处理，分出类别。

文本分类的主要任务是文本表示、特征提取、分类算法以及效果评估。为了能够被计算机计算和处理，首先必须将初始输入的文本利用相应的特征提取算法表示出来，然后才能采用分类算法对提取的文本特征进行训练，并通过生成的训练模型对待分类的文本进行分类。传统的文本特征提取的方法主要是基于概率的模型，通过计算文本的统计特征来提取关键词，大部分忽略文本深层的语法和语义信息，这必然会降低分类的准确率。

发明内容

针对上述不足，本发明提出一种在结构化的事件级别上计算Attention权值的文本分类算法，一方面，相对于词或者短语，事件包含更加丰富的语义；另一方面，基于事件的Attention机制减少了计算的时间复杂度。同时，为解决现有的深度学习模型无法学习文本统计特征的问题，在Attention权值计算的基础上加入了统计特征，与现有的模型相比，事件结构所包含的语义信息以及相应的统计特征提高了文本向量表示的质量，取得了较好的分类性能。

结合已有的文本分类模型，本发明提出一种基于事件的Attention机制用于文本分类，与现有的模型相比主要的区别如下：

(1)现有的Attention机制主要是基于词语级别，本发明提出的基于事件的Attention机制，在事件结构层次上计算权值。

(2)端到端的深度学习模型无法学习对文本分类结果有一定影响的统计特征，在模型中加入统计特征，得到包含更多信息的文本表示向量。

本发明采用如下技术方案：

一种融合统计特征与Attention机制的文本分类算法，其特征在于：包括：

步骤1、对于一个文档集首先对其进行分词、词性标注以及去停用词处理，并记录词语的词频信息，同时对文档中的同义词进行替换，然后，利用word2vec工具对每个词语训练生成词向量，对获取到的词语计算tf-idf值，根据词语的词性和tf-idf值分别赋予相关的权重得到该词语的统计特征值；

步骤2、提取每篇文档中的事件，并计算事件的统计特征值及基于事件的Attention权值；

步骤3、融合事件Attention权值及事件统计特征值，得到最终的向量表示；

步骤4、进行模型训练，并利用最终得到的训练结果对测试文本进行测试得到分类结果。

在上述的一种融合统计特征与Attention机制的文本分类算法，所述步骤1具体包括以下步骤：

步骤1、采用汉语分词工具NLPIR对文档集做分词及词性标注处理，然后利用中文停用词词表剔除文档中停用词；

步骤2、使用哈工大《同义词词林》扩展版作为语义词典，将文档中的近义词全部替换为代表词，得到最终的文本输入序列；

步骤3、利用word2vec工具对文本输入序列中的每个词语训练生成词向量；

步骤4、对训练生成的每个词向量计算其tf-idf值，并根据词语的词性及tf-idf值计算得到该词语的统计特征值，计算方式为：W_i＝pos_w*pos_i+tfidf_w*tfidf_i，其中pos_i表示词语的词性取值，各个权值的取值为：pos_w＝0.5,tfidf_w＝0.8。

在上述的一种融合统计特征与Attention机制的文本分类算法，所述步骤2具体包括以下步骤：

步骤1、给定文档，采用Stanford的依存分析工具对文档中的每个句子进行依存分析，得到每条语句的依存结构；然后利用nsubj和dobj两种依存关系来抽取事件，如果两个nsubj和dobj关系拥有相同的谓词，则可以合并成一个事件，用一个三元组表示<subj,verb,obj>，对于依存结果中的部分未合并关系，仍保留为二元组事件；

步骤2、根据提取到的事件，得到事件对应的向量表示：式中，x_subj、x_verb、x_obj分别表示事件中主语、谓语及宾语的向量表示，计算文本中的事件e₁,e₂,e₃,……,e_t对文章总体的影响力权重，可以突出关键事件的作用，减少非关键事件对文章整体语义的影响，注意力分布概率的语义编码计算如下：

其中a_ki表示节点i相对于整体输入的注意力权重，e_ki表示出入序列事件的向量表示，T为输入序列的事件元素的数目，h_k为整体事件输入X`对应的隐藏层状态；h_i表示输入序列第i个事件元素对应的隐藏层状态值，v、W、U为权重矩阵，b为偏置参数，tanh函数作为为激活函数；

步骤3、对文本事件集中的每一个事件计算其统计特征值：式中分别表示事件中主语、宾语、谓语的统计特征值，如果事件中不包含主语或者宾语则其值为0。

在上述的一种融合统计特征与Attention机制的文本分类算法，所述步骤3具体包括以下步骤：

步骤1、融合统计特征与Attention权值，A_ki＝T_w*T_i+A_w*a_ki，式中a_ki为事件的Attention权值，T_i为事件的统计特征值，T_w与A_w表示分别为事件的统计特征及Attention权值分配一定的比重，其中T_w取值为1，A_w取值为2.5；

步骤2、通过事件关键度与隐藏层状态乘积的累加得到语义编码C，式中A_ki为上述步骤1中所得的事件的权值，h_i为双向长短时记忆网络隐藏层状态值，T为文档中包含的事件个数；

步骤3、将得到的语义编码C，双向长短时记忆网络隐藏层状态值h_k及文本的平均输入X`作为双向长短时记忆网络模块的输入，H_k`＝H(C,h_k,X`)为文档最终的向量表示。

在上述的一种融合统计特征与Attention机制的文本分类算法，所述步骤4具体包括以下步骤：

步骤1、将最终的文本表示向量送入softmax分类器，进行模型训练；

步骤2、利用测试文本对训练结果进行测试，得到最终的分类结果。

本发明能够获取更多的语义特征，同时减少无用特征对分类结果的影响，为评价算法的有效性，在四个数据集上设计并实现五组对比实验，实验在64G的服务器上运行，通过对比模型的平均运行时间及相同学***均提升1.68％，融合统计特征后平均提升2.22％，这说明统计特征对于文本分类准确率存在一定的影响，基于事件的Attention机制平均提升3.62％。采用本文模型，准确率平均提升4.97％,分类效果达到最好。

附图说明

图1为Attention网络结构图。

图2为模型训练收敛情况对比图。

具体的实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

对于一段输入的文本，首先对其进行分词，去停用词以及同义词替换处理。然后利用word2vec工具对每个词语训练生成词向量，对获取到的词语计算tf-idf值，根据词语的词性和tf-idf值分别赋予相关的权重得到该词语的统计特征值。计算基于事件的Attention权值，同时计算该事件的统计特征权值。将两个权值进行融合，基于此得到的特征向量包含了更多的语义信息。具体的算法逻辑步骤如下：

(1)对于一个文档集首先对其进行分词、词性标注以及去停用词处理。

(2)记录词语的词频信息，同时对文档中的同义词进行替换。

(3)提取每篇文档中的事件

(4)计算事件的统计特征值及基于事件的Attention权值。

(5)融合事件Attention权值及统计特征值，得到最终的向量表示。

(6)模型训练，得出分类结果。

1.词语的统计特征值。

首先去除一段文本中的同义词，本文使用哈工大《同义词词林》扩展版作为语义词典，其中每个词有若干编码，每个编码由五层代码和一个标志位描述，五层代码构成的完整编码表示一个原子词群，标志位为“＝”、“#”、“@”，其中“＝”代表同义，“#”代表同类，属于相关词语，“@”表示独立词语。为了替换同义词，所以只选取标记为“＝”的原子词群，对文本信息进行预处理时，把每一个原子词群的第一个词作为该词群的代表词，将文本中的近义词全部替换为代表词，得到最终的文本输入序列。

词语统计特征的计算主要依靠统计理论，利用已有的数据计算来估计特征对最后分类的影响，从而筛选有效的特征。虽然深度学习的引入克服了特征词独立性假设的缺陷，获取到更多的语义信息。但是词语统计特征对于分类结果的影响不可忽略。对词语统计特征的计算如下。

定义1.词语W_i的词性值pos_i为W_i所属词性的重要度,各个词性的值为：

对应词语的统计特征值计算公式如下：

W_i＝pos_w*pos_i+tfidf_w*tfidf_i；

为获取词语的统计特征值，分别对词性及tf-idf分配一定的权重，将各项特征值累加求和得到总的特征值。式中pos_i表示词语W_i的词性值，tfidf_i表示词语W_i的tfidf值，pos_w表示词性权重，tfidf_w表示tf-idf权重。实验调优得到各个权重取值为：pos_w＝0.5，tfidf_w＝0.8。

2.基于事件的Attention机制。

对于一段文本，以“事件”为单位来判断其所属类别符合正常的认知规律。给定文本，首先利用stanford的依存分析工具对文档中的每个句子进行依存分析，得到每条语句的依存结构；然后利用nsubj和dobj两种依存关系来抽取事件，如果两个nsubj和dobj关系拥有相同的谓词，则可以合并成一个事件，用一个三元组表示<subj,verb,obj>。对于依存结果中的部分未合并关系，仍保留为二元组事件。

提取到可能的事件之后，将词语使用训练好的词向量替换，得到的事件表示为具有3倍词向量维度的向量。计算方式为：

注意力分布概率的语义编码计算如下。

其中a_ki表示节点i相对于整体输入的注意力权重，T为输入序列的事件元素的数目，h_k为整体事件输入X`对应的隐藏层状态。h_i表示输入序列第i个事件元素对应的隐藏层状态值，v、W、U为权重矩阵，b为偏置参数。模型结构如图1所示。

3.特征权值的融合。

在关键词的提取过程中，将传统的统计特征与Attention机制获取的权重信息结合得到的语义编码作为BiLSTM的输入，最终文本的特征向量既考虑文本中的统计特征值，同时包含较多的语义信息。该算法得到的文本表示向量更能反映文本的主要信息有效的提升了分类的准确率。主要的处理逻辑如算法1所示。

算法首先通过计算每个事件单元对应词语的统计特征值的和，得到其对应的特征权值，然后计算该事件的Attention权值，将两个值分配一定的权重求和得到该事件对应的权值，通过将事件关键度与BiLSTM隐藏层的输出值乘积的累加得到语义编码C，最后将语义编码C，文章的总体特征向量以及文章总体的输入向量X`作为BiLSTM模块的输入，得到的最后节点的隐藏层状态值H_k`就是最终的特征向量。该特征向量，包含了历史输入节点的权重信息，突出了关键词的作用，最后采用逻辑回归构建多分类分类器，得到分类结果。

4.本发明的效果。

为验证模型的有效性，选取yelp2013、Sogou语料库、Amazon Review以及IMDB作为实验的数据集，分别选取90％作为训练集，10％作为测试集。实验的框架基于TensorFlow深度学习框架，设计实现五组对比实验分别为：BiLSTM_Attention(BA)，同义词替换的BiLSTM_Attention(S_BA)，融合统计特征的BiLSTM_Attention(T_BA)，基于事件的BiLSTM_Attention(E_BA)以及本发明设计的模型(Proposed)。实验中优化函数采用Adam，学习速率设置为0.01，num_epoch设置为20，batch_size为32，隐藏层的节点的个数为256。为了提升训练速度模型采用单层网络，分类器采用多分类的逻辑回归分类器。具体的实验过程为：将要训练的文本预处理后，利用word2vec工具映射成50维的向量表示，特征提取部分采用上述五种模型中相应的模型实现，分类器的输入是对应模型最后的隐藏层状态值。

实验在64G的服务器上运行，通过对比模型的平均运行时间可知基于事件的Attention机制有效的减少了训练的时间，同时极大地加快了收敛的速度，三个模型在四个数据集上的训练时间如表1所示。其中两个模型在yelp2013数据集上的训练结果如图2所示。图中可以看出，基于事件的Attention机制相较于BA收敛速度更快，同时准确率更高。

表1模型训练时间

针对上述五组实验，每组实验经过多次训练调整，然后选取结果最优的数据，得到的实验结果进行统计如表2所示。通过对比五组实验的结果可以知道设计实现的模型可以有效地提高文本分类的准确率。将同义词替换与未将同义词替换准确率平均提升了1.68％，融合统计特征后平均提升2.22％，这说明统计特征对于文本分类准确率存在一定的影响，基于事件的Attention机制平均提升3.62％。采用本文模型，准确率平均提升4.97％，分类效果达到最好。

表2五种模型在四个数据集上的准确率

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种融合统计特征与Attention机制的文本分类算法，其特征在于：包括：

2.根据权利要求1所述的融合统计特征与Attention机制的文本分类算法，其特征在于：所述步骤1具体包括以下步骤：

3.根据权利要求1所述的融合统计特征与Attention机制的文本分类算法，其特征在于：所述步骤2具体包括以下步骤：

4.根据权利要求1所述的融合统计特征与Attention机制的文本分类算法，其特征在于：所述步骤3具体包括以下步骤：

5.根据权利要求1所述的融合统计特征与Attention机制的文本分类算法，其特征在于：所述步骤4具体包括以下步骤：