CN110929029A

CN110929029A - 一种基于图卷积神经网络的文本分类方法及***

Info

Publication number: CN110929029A
Application number: CN201911064089.7A
Authority: CN
Inventors: 唐钰葆; 于静; 曹聪; 刘燕兵; 谭建龙; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-03-27

Abstract

本发明公开了一种基于图卷积神经网络的文本分类方法及***。本方法为：1)对于目标领域的文本训练集中的每一已类别标注文本，根据该文本中词的词频、逆文档率生成该文本的文本特征向量；将各文本特征向量组合生成一文本特征矩阵，即TF‑IDF矩阵，并根据词的词向量相似度构建一该文本训练集的图结构；2)利用所述图结构及文本特征矩阵训练图卷积神经网络；3)对于该目标领域的一待分类文本a，将该文本a的文本特征向量输入训练后的图卷积神经网络，得到该文本a的类别。本发明不仅考虑到文本的语义结构信息，而且从另一个角度捕捉文本的隐藏特征，分类准确性高。

Description

一种基于图卷积神经网络的文本分类方法及***

技术领域

本发明属于图数据挖掘和图分类领域，尤其涉及一种基于图卷积神经网络的文本分类方法及***。

背景技术

随着大数据的到来，数据规模呈现***性增长趋势，海量异构数据间关系逐渐紧密。图作为常用的表示事物之间的关系的一类抽象数据结构。实际生活中有紧密关联的数据元素，比如社交网络、学术网络等都能用图数据表示。实际问题可以转化为图的技术问题、数据挖掘。比如社交软件微信，将微信号作为节点，微信号间互相的“好友关系”、“点赞评论”等关系作为图的边，从而构建图结构数据。其实际问题可以转化为图的技术问题、数据挖掘，图数据分类是大规模数据处理中的研究重点。图分类，即将不同类型的图自动区分、分类，主要应用有暴恐行为识别、社交网络关系分类、化学分子分类等。

图分类可以为不同领域的数据分析和理解提供重要的技术手段，相关研究和应用方兴未艾。尽管图分类在社会各个领域都有着重要作用，但是图分类仍然面临着许多技术挑战。

图数据具有很强的局部耦合性，节点之间存在关系，因此图的表示需要包含图的结构信息和属性。现有的数据表示方式主要是针对序列化的文档、结构化的图像等，难以扩展到图的表示，因此图分类面临着严峻的挑战。

同时另一方面，图的特征表示，即通过结点间的连通关系计算结点的特征表示，与使用特征集训练分类器是两个独立的过程，每个过程都需要独立设计和优化，每个步骤即使最优，也难以保证得到整体效果最优的分类器。

上述可知，图分类在各领域有着重要地位，但同时存在着局部耦合性强、特征表示难等挑战。在图分类领域，有上述的化学分子分类、关系网络实体分类等，在本申请中，针对文本分类任务。文本分类，根据给定的带标签的文本内容，进行一定的数据预处理，使用一些算法或是模型对文本进行分类。文本分类方法主要有两大类：第一类是传统文本分类技术，由特征提取和使用分类器分类两部分组成。第二类是，使用深度学习方法，不用人工提取特征，通过深度学习模型学习文本中的特征、特有模式规律等，从而训练得到一个分类模型，然后利用该分类模型可以实现对文本的分类。常见的模型有LSTM、CNN、RNN、GRU等等。这些方法尽管有各自的优点，但难以保证得到整体效果最优的分类模型。

发明内容

本申请提出一种基于图卷积神经网络的文本分类方法及***。本发明中的文本为自然语言文本，比如新闻的类别，娱乐新闻、财经新闻、军事新闻等文本。其基本思想是，将文本表示为图结构，兼顾文本语义结构关系以及文本的特征，构造图卷积神经网络实现图数据的端到端的分类，即直接将图结构的文本信息及文本特征作为输入，输出即为每个文本的类别，即“标签”。通过将文本表示为图结构，可以考虑到文本的语义结构信息，从另一个角度捕捉文本的隐藏特征，通过图卷积神经网络后在处理结果上能与主流文本分类方法抗衡。本发明的算法流程图如图1所示。

一种基于图卷积神经网络的文本分类方法，其步骤包括：

1)对文本进行分词、去掉无意义词、去掉标点符号，计算文本的TF-IDF矩阵等预处理；

2)对步骤1)得到的预处理后文本构建图结构，词作为图的节点，与一个节点最相似(计算两个词向量的余弦相似度)的若干个词(本申请选取8个词)作为该词的邻居节点；

3)图结构预处理，计算图的拉普拉斯矩阵等；

4)构建和训练图卷积神经网络，该图卷积神经网络包括输入层、两层隐藏层、输出层组成。其中隐藏层包含图卷积层、激活层、池化层三个部分。

5)将待分类的文本进行预处理，构建文本特征矩阵、图结构作为图卷积神经网络的输入，使用步骤4)训练得到图卷积神经网络分类得到文本的类别。

进一步的，所述图卷积神经网络包括依次连接的输入层、两层隐藏层，每一层隐藏层都包括相同操作的图卷积层、池化层、激活层，第二层隐藏层的输入是第一层隐藏层的输出第二层隐藏层对第一层隐藏层的输出进行了进一步的特征捕捉，最后第二层隐藏层连接全连接层和softmax输出层；其中，输入层的作用是将构建的图结构、文本的TF-IDF矩阵导入整个网络，用于后续的训练。其中，所述图卷积层用于对输入的图结构和文本特征进行卷积运算，从中捕捉文本的特征信息；所述池化层用于对激活层得到的特征进行分层采样；所述激活层用于对图卷积层得到的特征进行非线形激活处理，使用ReLU激活函数；所述全连接层处理激活层的输出，对上一层的输出整合得到信息更加丰富的输出；所述softmax层的输入是全连接层的输出，用于预测对应文章的类别，计算公式见后文的具体实施过程；采用交叉熵作为所述图卷积神经网络的损失函数。

进一步的，文本的TF-IDF矩阵作为文本的特征矩阵。TF-IDF(term frequency–inverse document frequency，词频-逆文件频率)是一种常用统计加权技术，用以评估一字词对于一个一个语料库中的其中一个文档的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

进一步的，图卷积层运算是，先对图结构进行傅立叶变换到谱域，在谱域实现卷积运算，再通过傅立叶逆变换，完成图的卷积运算。其理论基础是谱图理论，定义无向连接图为G＝(V,E,W)，其中V是有限集合|V|＝n个节点，E是一组边，W∈R^n*n是对两个节点之间的连接权值进行编码的加权邻接矩阵，权值根据具体问题定义得到，在本申请中，W是不带权的邻接矩阵。定义在图的节点(即顶点)上的信号x：V→R可以被认为是向量x∈Rⁿ,其中x_i是x在第i个节点的值；信号x可以理解为节点所蕴含的属性信息，比如在本申请中，节点通过词向量进行表示，其包含了该词的语义信息，即该节点的信号。谱图分析中的一个重要操作是图拉普拉斯，其组合定义是L＝D-W∈R^n*n，其中D∈R^n*n是对角度矩阵，D_ii＝∑_jW_ij，归一化定义为

其中，W_ij表示邻接矩阵中第i个节点与第j个节点之间的值。若这两个节点有边连接，则值为1，反之为0。In是单位矩阵，R是实数，Rⁿ表示一维向量，向量长度为n，R^n*n表示2维向量，向量大小为n*n。根据傅立叶变换延伸到图结构上，定义任何图G上的节点的函数f∈Rⁿ，根据图拉普拉斯的特征向量，对应的图傅里叶变换

展开式：

n是节点数，u_l是系数，

是针对节点i的系数，函数f是图的傅立叶变换公式是一个通用抽象定义，在本发明中表示节点信息。对应的图的傅里叶逆变换定义为：

u_l(i)是傅里叶逆变换中针对节点i的系数。在经典傅里叶分析中，特征值包含了频率的概念。当特征值接近于0时，也就是处于低频时，相关联的复数指数特征函数是平滑、波动缓慢的函数；反之当特征值远离0时，即高频时，对应的复数指数特征函数波动特征剧烈。对于图结构来说，图拉普拉斯特征值和图拉普拉斯向量有与频率相似的概念，传统傅立叶变换中的频率类比于图的傅立叶变换的拉普拉斯特征值/向量。

由上述得到的图拉普拉斯矩阵L是一个实对称半正定矩阵，对矩阵L进行特征值分解得到一个正交特征向量集，即

(称为图傅立叶的模)，在图的傅立叶变换中

就看作是图的频率。拉普拉斯算子是通过傅立叶基U＝[u₀,…,u_n-1]∈R^n*n，使得L＝UΛU^T，其中Λ＝diag([λ₀,…,λ_n-1])∈R^n*n。图的傅立叶变换信号x∈Rⁿ,然后将定义为

它的逆为

经过图的傅里叶变换之后就像欧几里得空间，使得诸如过滤、下采样等图信号处理的基本操作构想可以实现。

进一步的，所述池化层通过对图结构进行粗化(即对激活层得到的特征进行分层采样)，找到图的代表节点完成采样；再构建平衡二叉树的方式对激活层得到的图结构特征进行池化。

进一步的，所述池化层通过计算每一个节点与其相邻节点的归一化切割值，公式为W_i,j(1/d_i+1/d_j)，其中d_i,d_j分别是节点i、节点j的度，节点的度表示与该节点连接的节点个数，W_i,j是节点i，节点j的边的权重。选择与当前节点的归一化切割值最大的相邻节点与当前节点进行合并，该步骤即粗化。粗化可以多次连续进行，粗化到合适的级别后，对每一级别的节点进行随机编号，根据粗化的映射过程构建平衡二叉树。对该二叉树的最顶层进行最大池化操作，依次映射回原始的图结构，则完成了池化。

进一步的，所述图卷积神经网络的训练过程中，所述全连接层采用dropout策略，在每一次迭代都会以概率p随机地选取若干结点不参与实际运算，以及在获取全连接层输出y之后，对其使用softmax函数进行计算，并选取softmax函数值最大值作为对应文章的类别。

进一步的，步骤1)中，对每一篇文章依次采取去除标点符号和不可见字符、去除停用词、去除低频词处理，并计算每一篇文章的TF-IDF(词频-逆文档率)矩阵，作为文章的特征矩阵。

进一步的，对步骤1)处理后的文本中的词，依次计算每一个词和其他词的词向量的相似度，选出与每一个词最相似的若干个词(本发明选取8个词)作为该词的邻居节点，则构建出了图结构。

进一步的，采用Mini-batch梯度下降法或动量优化法训练所述图卷积神经网络。

由于真实数据集中往往存在大量的“噪声”数据，会干扰后续特征捕捉。因此，本申请提案需要对原始数据进行预处理，去除原始数据集中的“噪声”数据，使其更容易被提取出精炼、非冗余的特征。

因为语料数据是以文本形式存储的，需要被转化为数字形式以便于作为输入用于图卷积神经网络的训练。因此，在完成对文章原始数据集的预处理操作之后，将使用文章的TF-IDF矩阵，以及词向量对文章进行文本表示以提升效果。在得到文章信息对应的词向量之后，计算词之间的词向量相似度，从而构建图。本申请提案将实现构建图卷积神经网络，在数据集上训练模型，以实现文章分类；在模型训练完毕之后，本申请提案将在测试集上对本申请提案的模型进行评分以检验其效果。

与现有的文本分类技术方案相比，本申请提案有以下几项技术优点：

1、本申请提案基于图卷积神经网络方法实现文本分类，用图结构的方式表示文本，能捕捉到文本间的语义结构相关性，对文本的特征捕捉有更好的作用。同时通过图卷积运算实现参数共享，池化运算实现减少参数个数，dropout避免模型过拟合，克服了效率低，文本分类准确性不高等缺点，具有无需人工提取特征等诸多优点；对数据要求宽松，只须文本形式即可，通用性强；

2、本申请提案所采取的数据预处理操作，构建图以及文本特征矩阵的方法及实现的图卷积神经网络结构等易于使用；

3、本申请提案克服了现有的文本分类技术方案中效率低，分类准确性不高、缺乏说服力等诸多缺点，以定量表示的形式分类文章，准确性高，有着坚实的理论基础。

附图说明

图1为本发明方法流程图；

图2为数据预处理示意图；

图3为构建图结构示意图；

图4为图卷积神经网络结构图；

图5为图卷积运算示意图；

图6为池化示意图；

图7为全连接层示意图；

图8为dropout示意图；

图9为梯度下降示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

如图1所示，文本分类算法主要包括五个关键过程：数据预处理、构建图结构、图结构预处理、构建和训练图卷积神经网络模型和使用图卷积神经网络模型预测文本类别。下面，将通过分别详细阐述以上五个关键过程的方式说明此算法的具体实施方式。

过程一：数据预处理

在真实数据中，往往存在大量的冗余信息，缺省值以及噪音，也可能因为人工错误导致异常点的存在。此外，就本申请提案所采用的数据集而言，因为其文本信息的特点，还存在非结构化，词语之间不存在分隔符等诸多不利于提取特征的因素。因此，数据预处理是本申请提案提出的文本分类预过滤算法中必不可少的一环。

常见的数据预处理操作包括数值归一化，数据结构化，数据去冗余等。就本申请提案而言，将对原始数据集采取去除停用词、去除标点符号和不可见字符、去除低频词等数据预处理操作，需要将原始数据集(文本信息)表示成数字形式。而时下将文本信息表示成数字有多种方式，如统计词频，TF-IDF，词向量等(流程见图2)。本模型需要的输入有两部分，一是文本的特征矩阵，二是图结构。

针对文本的特征矩阵，将采用文本的TF-IDF矩阵。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。词频(TF)表示词条(关键字)在文本中出现的频率，公式为

n_ij是该词在文件d_j出现的频率。逆向文件频率(IDF)：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到，公式为

|D|是语料库中的文件总数，|{j:t_i∈d_j}|表示包含词t_i的文件，如果该词语不在语料库中，就会导致分母为零，因此一般情况下使用1+|{j:t_i∈d_j}|。综合上述，TF-IDF的计算公式为：TF-IDF＝TF*IDF。因此，TF-IDF矩阵的列长度表示总文档的个数，行长度表示每个文档中的词的个数，矩阵中的每个值表示当前词对应的TF-IDF值。

过程二：构建图结构

针对图结构，图的节点将采用每一个词的词向量，其邻居节点则是与其相似度最高的若干词。在本申请提案中，选择相似度最高的8个词的效果最好，因此邻居节点数目设置为8(示意图见图3)。最终，图结构表示为一个图矩阵G∈N*N，N表示所有词的数目，G_ij表示第i个词和第j个词是否存在边，值为1则右边，反之值为0则无边。

词向量，又被称为词嵌入，是以向量的形式表示语料库或者词汇表中的词语。

如此，原语料库或者词汇表中的词语就被映射成向量空间中的点，从而可以作为输入用于图卷积神经网络模型的训练。在实际开发过程中，用以获取词向量的技术模型有很多，如Skip-gram、CBOW、随机生成词向量并不断调整等。而本申请提案的语料较多，则采用Skip-gram获得词向量。

过程三：图结构预处理

由于后续计算涉及到图的卷积操作，根据谱图理论，需要用到图的拉普拉斯矩阵，因此预先进行计算。图拉普拉斯矩阵，其组合定义是L＝D-W∈R^n*n，其中D∈R^n*n是对角度矩阵D_ii＝∑_jW_ij，归一化定义为

其中In是单位矩阵。先计算由词向量构造的图矩阵，计算得到该图矩阵的度矩阵，再判断是否需要正则化。如果不需要正则化，则该图的拉普拉斯矩阵由L＝D-W得到。反之，如果需要正则化，则对应的拉普拉斯矩阵计算公式为

为了实现之后的图卷积(滤波)操作，需要实现图的傅里叶变换。由上述得到的图拉普拉斯矩阵L是一个实对称正半定矩阵，它有一个正交特征向量集，

称为图傅立叶的模型，在图的傅立叶变换中

看作是图的频率。拉普拉斯算子是通过傅立叶基U＝[u₀,…,u_n-1]∈R^n*n，使得L＝UΛU^T，其中Λ＝diag([λ₀,…,λ_n-1])∈R^n*n。图的傅立叶变换信号x∈Rⁿ；然后将定义为

它的逆为

其中x是文本特征矩阵，U是图的拉普拉斯矩阵分解得到的傅立叶基。

通过图结构的预处理步骤计算了图的拉普拉斯矩阵，同时进行了图傅立叶变换。

过程四：构建和训练图卷积神经网络模型

卷积神经网络(Convolutional Neural Network,CNN)是深度学***均池化时，每隔几个数据点就进行平均或是选取最大值的操作。同样，要对图数据进行池化操作时，先要标注、区分出相似节点将近似节点聚集在一起的图粗化；(3)经过图的粗化之后，获得了不同粗化版本的图，实现了近似节点的聚集。之后进行图的池化操作，将空间分辨率转化到更高的程度的滤波器分辨率(filter resolution)。

本申请提案所采用的图卷积神经网络结构则如图4所示，包括图卷积层、激活函数层、池化层、全连接层等网络结构。为方便理解本申请提案所使用的图卷积神经网络结构，接下来将详细阐述其结构。

结构一：图卷积层

经过图的傅里叶变换，已经将图数据从空域转化到了谱域，在图的谱域可以实现滤波操作，流程图见图5。图在傅里叶域，即谱域的卷积操作定义为：x*Gy＝U((U^Tx)⊙(U^Ty))，其中⊙是逐个元素的Hadamard乘积。信号x由g_θ过滤y＝g_θ(L)x＝g_θ(UΛU^T)x＝Ug_θ(Λ)U^Tx。非参数滤波器，即参数全部空域的滤波器将被定义为g_θ(Λ)＝diag(θ)。其中，参数θ∈Rⁿ是傅立叶系数的矢量。

尽管在图经过傅里叶变换到谱域之后能够实现滤波操作，但这样的滤波器(即卷积核)是没有参数的。无参数的滤波器的缺点：无法实现捕捉到局部特征，学习复杂度仍然与图数目成正比，当图数据过大时，学习成本代价过高，使得效率低。这个问题可以用多项式滤波器进行解决：

其中参数θ∈Rⁿ是多项式系数向量。以节点i为中心，其邻居节点j的值，通过过滤器g_θ由(g_θ(L)δ_i)_j＝(g_θ(L))_i,j＝∑_kθ_k(L^k)_i,j计算得到，节点的初始表示是词向量，在训练过程中节点信息在更新，节点信息更新受到其邻居节点的影响，通过公式(g_θ(L)δ_i)_j＝(g_θ(L))_i,j＝∑_kθ_k(L^k)_i,j不停计算更新；卷积核通过克罗内克函数δ_i∈R进行卷积运算是可以捕捉局部特征的。d_G(i,j)>K意味着(L^K)_i,j＝0，其中d_G是最短路径距离，即连接图上两个节点的最少数量的边。因此，由拉普拉斯K阶多项式表示的谱滤波器恰好是K局部化的。此外，他们的学习复杂度是O(K)，滤波器的支持的大小，因此与经典CNN相同的复杂度。

即使可以通过使用上述K个参数，学习局部过滤器，过滤信号x的操作，x有y＝Ug_θ(Λ)U^Tx，该操作因为傅立叶基U的乘法操作，使得代价仍然高O(n²)。解决这个问题的方法是参数化g_θ(L)，把它看作一个多项式函数，可以从L递归地计算出来，因为K乘以稀疏矩阵L，代价为O(k|E|)远小于O(n²)。一个这样的多项式，传统上使用在图像信号处理中近似内核(如小波)，就是切比雪夫展开式。

k阶切比雪夫多项式T_k(x)可以通过递推来进行关系式计算，T_k(x)＝2xT_k-1(x)-T_k-2(x)，其中T₀＝1且T₁＝x。这些多项式形成一个L的正交基

关于

是平方可积函数的Hilbert空间。滤波器因此可以作为截断展开式进行参数化

上式的K-1阶，其中参数θ∈R^K是切比雪夫系数向量，

是在

处评估的k阶Chebyshev多项式，其中对角矩阵的标准特征值位于[-1，1]。然后可以将滤波操作写为

其中

是在k阶Chebyshev多项式，由标准拉普拉斯

评估。表示

我们可以使用该迭代关系，计算

且

整个过滤操作

然后代价为O(K|E|)。

结构二：非线性激活层

为了添加非线性元素，因此添加了激活层。本申请提案中采取ReLU(修正性单元，rectified linear unit)方法。ReLU定义为：

虽然有其他的激活函数，比如sigmoid函数、tanh函数，但ReLU有它们没有的优势。如果在模型优化时使用随机梯度下降方法，ReLU的收敛速度更快。而且sigmoid激活函数和tanh激活函数当中使用了指数，这样的计算代价十分高昂，尤其是在数据量大的时候这个缺点更为明显。根据ReLU的函数定义可以直观感受到它的计算代价很小。除此之外，在梯度消失问题上，sigmoid和tanh的效果都不佳，但ReLU却可以有效缓解。当然ReLU也有一定的缺点，但在本实验显示它的优点影响更大，因此选用了ReLU激活函数。

结构三：池化层

图卷积层对图结构完成卷积操作后，提取用于分类的特征之后，下一步就是利用这些特征去做分类。然而，图卷积得到的特征、相关参数仍然太多，这将导致计算量过于庞大，甚至会导致过拟合现象的发生。因此，本申请提案将在图卷积层之后部署池化层以避免上述不利因素的影响。

所谓池化层，可以简单地理解为对图卷积层得到的特征的采样。传统的规则数据在进行池化的时候，每隔几个数据点做删除。然而对于一个权值图的节点做下采样，并没有每隔几个节点的概念。因此类比于规则数据，需要先将图的相似节点聚集在一起，即图的聚类。实际的情况是对节点数目众多的图结构做一次聚类，并不能将大部分相似节点聚集在一起。因此需要重复进行该操作，这实际上就是图的多尺度聚类。然而，图的聚类是一个NP-hard问题，因此需要采取能得到近似结果的方法。

图的聚类算法主要分为：划分聚类算法、层次聚类算法、基于密度的聚类算法、基于网格的聚类算法等等。多尺度聚类算法包括三个步骤：图的粗化、图的划分、图的精细化。

图的粗化：根据设定规则将图上的节点和边进行合并，得到一个粗化版本。在此基础上，继续重复节点和边合并的规则，进一步得到一个更高层次的粗化版本。根据具体的需求，确定粗化的程度和次数。在本申请提案中合并规则采用Graclus贪心算法。Graclus的贪心规则包括在每个粗化级别挑选一个未标记的节点i，并将其与其未标记的邻居j之一匹配，以最大化局部归一化切割值W_i,j(1/d_i+1/d_j)。然后标记两个匹配的节点，粗化后的权重被设置为它们权重的总和。重复匹配，直到所有节点都被标记。从一个级别到下一个较粗糙的级别，它将节点数大致分为两部分，其中可能存在少数单个没有被匹配的节点。

在本申请中，图的聚类的应用主要在于：将图结构进行粗化之后，对图上的节点随机编号，构造一个平衡二叉树。每一个粗化版本的节点对应于平衡二叉树的一层。最为粗化的图上的节点是平衡二叉树的父节点，次为粗化的图上的节点对应于平衡二叉树的第二层，依次类推，最原始的图上的节点，是该平衡二叉树上的叶节点。

在图结构完成了卷积、激活之后得到的是新的特征图，池化层对这个特征图进行一定程度的粗化，并构造它对应的平衡二叉树。对此二叉树进行下采样操作，从二叉树的父节点开始，依次映射到二叉树的第二层、第三层……最后，图的池化就相当于对一维数据做池化。

举例说明(如图6):G₀是原始最精细的图，将每个节点进行如图所示的随机编号。利用Graclus算法对节点和边进行合并，假设节点0，1满足归一化切割值最大，进行合并为一个节点，节点4，5合并为一个节点，节点8，9合并为一个节点，节点6和节点10没有与之匹配合并的节点，是单节点，为了满足平衡二叉树的要求，因此添加假节点7和节点11，并设初始值为0，得到G1。同理，为G1上的节点进行随机编号，利用Graclus算法将节点2，3进行合并，将节点4，5进行合并，节点0没有与之匹配的节点，为了满足平衡二叉树的规则，因此添加一个假节点1得到G2。此时G2就是最为粗化的图。

根据三个粗化版本构造平衡二叉树。从二叉树的父节点开始进行池化，此处用最大池化作为示例。从节点0开始，依次向第二层子节点映射，对应子节点0和节点1，第二层的节点0是一个单节点，对应叶节点的节点0，1；第二层的节点1，是一个假节点，它对应的子节点都是假节点，他们的值都为0，不会对池化结果有影响。因此对父节点0做最大池化相当于对原图结构中节点0和节点1做最大池化。依次类推，对父节点1做最大池化，相当于对原图结构中节点4和节点5和节点6做最大池化。对父节点2做最大池化，相当于对原图结构中节点8和节点9和节点10做最大池化。因此，整个图的池化结果则是z＝{max{0,1},max{4,5,6},max{8,9,10}}。

结构四：全连接层

全连接层，顾名思义，就是全连接层的每一个结点都与上一层的每一个结点相连，如图7所示。在本申请提案中，上一层即为池化层，全连接层之后输入输出层，使用softmax进行类别预测。此外，本申请提案为了避免全连接层的权重参数太多，难以计算，且容易导致过拟合情况等不利因素，采用dropout策略。所谓dropout，即在训练过程中，每一次迭代都会以概率p随机地选取某些结点不参与实际运算，如图8所示，输入层的第二个结点暂时不参与运算。

结构五：输出层

输出层输出文章的类别。在获取全连接层输出y之后，对其使用softmax函数即可获取对应的类别，即文章的类别。其中，softmax函数如下，

公式中，l表示类别数，y_i表示全连接层输出的第i个值。上述公式的计算结果是一个概率值。对全连接层输出的的所有值计算softmax函数值，并选取最大值作为文章的类别。

结构六：损失函数及训练方法

在模型确定完毕之后，下一步也是最后一步就是确定损失函数及训练方法。

损失函数是用来估量模型的预测值。它是一个非负实值函数，通常用函数L(y,f(x))来表示。损失函数越小，模型的鲁棒性就越好，即在训练过程中通过训练方法调整参数使得损失函数的值减小。常用的损失函数有平均绝对值损失函数、均方差损失函数、交叉熵损失函数等。而交叉熵损失函数通常在较多网络中的实验效果要优于其他损失函数，它很好地反映了期望输出与当前实际输出间的差异。因此本申请提案采用常用的交叉熵作为损失函数，其公式如下。

这里，N表示样本数。在损失函数确定之后，接下来的步骤就是确定训练方法。在神经网络中，参数的调整优化是通过梯度下降完成的。

梯度下降法是一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索，如公式所示

其中，函数f(x)在点x₁处可微且有定义，γ为步长。不难看出，当γ>0为一足够小的数值时，有f(x₁)≥f(x₂)。梯度下降示意图如图9所示。

然而，由于模型过于复杂，对全部训练样本计算梯度的计算量太大，学术界及工业界往往采用改进的梯度下降法作为模型寻找最优值或局部最优值的方案。常用的改进的梯度下降法有随机梯度下降法、批量梯度下降法、Adam梯度下降法等。因为小批量梯度下降法和动量优化法，后者能计算每个参数的自适应学习率，所以本申请提案采用两者作为模型优化方案。

过程五预测

最终，在模型训练完毕之后，本申请提案将使用图卷积神经网络模型，在数据集上对文本信息进行分类，并与其他文本分类技术方案进行比较以检验其分类效果。

为验证本申请提案所使用的图卷积神经网络在文本分类问题上的性能，本节将在同一文章数据集上对比图卷积神经网络与其他文本分类技术方案分类的效果。

本节实验的硬件环境为2.8GHz CPU、506.3GB内存、88核服务器，操作***为64位Linux***。

本实验采用的数据集如表1：

表1数据集

具体到本申请提案的模型超参数，根据本申请提案的数据集特点及图卷积神经网络超参数的常规设置方案，则如表2所示。

表2模型超参数表

超参数	含义	数值
			num_GCN	图卷积层的层数	2
learning_rate	初始学习率	0.0001
			dropout_keep_prob	dropout比率	0.5
batch_size	批量大小	128
			num_epochs	训练轮数	50
output_dim	输出层输出维度	512

在此次实验中，本申请提案将使用word2vec工具中的skip-gram方法生成词向量，选取ReLU函数做为激活函数，选择交叉熵损失函数作为模型的损失函数，采用小批量梯度下降法和动量优化法作为模型的训练方法，并设置初始学习率为0.0001。实验结果如表3所示。

表3实验结果

模型	准确率
		CBOW	0.92
GCN+CBOW	0.95
		Fast Text	0.91
GCN+Fast Text	0.95
		LSTM	0.93
Text-CNN	0.94

本节实验分析如下：

由表1可知，本节实验中文章类别一共有4个，每个样本属于且只属于一个类别。因此，随机根据一篇文档进行分类，其正确结果在1/4左右。而从表3可以看出，图卷积神经网络的准确率不但远高于人工随机选择，而且其最终的准确率指标中都高于其他文本分类技术方案，令人满意！而对于以上实验结果，具体分析有以下几点：

1)本申请提案使用图结构的方式表示文本信息，通过词的相似度构建图，较好地捕捉了文本间的语义结构相关性，进而很好地刻画文本信息的隐含关系。

2)图卷积神经网络通过图卷积运算实现文本间的结构信息的捕捉，同时利用文本的TF-IDF矩阵也考虑到了文本的统计属性特征，通过这两方面综合考虑到了文本的显示及隐含特征。同时多层聚类的池化运算实现减少参数个数，dropout避免模型过拟合，克服了效率低，文本分类准确性不高等缺点，具有无需人工提取特征等诸多优点，在最终的实验结果中明显优于其他方案。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于图卷积神经网络的文本分类方法，其步骤包括：

1)对于目标领域的文本训练集中的每一已类别标注文本，根据该文本中词的词频、逆文档率生成该文本的文本特征向量；将各文本特征向量组合生成一文本特征矩阵，即TF-IDF矩阵，并根据词的词向量相似度构建一该文本训练集的图结构；

2)利用所述图结构及文本特征矩阵训练图卷积神经网络；

3)对于该目标领域的一待分类文本a，将该文本a的文本特征向量输入训练后的图卷积神经网络，得到该文本a的类别。

2.如权利要求1所述的方法，其特征在于，生成该图结构的方法为：将文本中的词作为图的节点，与一个节点最相似的若干个词作为该节点的邻居节点，生成该图结构。

3.如权利要求1或2所述的方法，其特征在于，步骤2)中，首先对所述图结构预处理，计算图的拉普拉斯矩阵；然后利用图的拉普拉斯矩阵及文本特征矩阵训练图卷积神经网络。

4.如权利要求3所述的方法，其特征在于，所述图拉普拉斯矩阵为L＝D-W∈R^n*n，其中D∈R^n*n是对角度矩阵，D_ii＝∑_jW_ij，W∈R^n*n是对两个节点之间的连接权值进行编码的邻接矩阵，W_ij表示邻接矩阵中第i个节点与第j个节点对应的值，如果第i个节点与第j个节点有边连接，则W_ij值为1，反之为0。

5.如权利要求1所述的方法，其特征在于，所述图卷积神经网络包括依次连接的输入层、若干隐藏层、全连接层和输出层；其中，每一隐藏层包括图卷积层、池化层、激活层；所述输入层用于接收图结构及文本特征并将其输入到隐藏层；所述图卷积层用于对输入的图结构和文本特征进行卷积运算，获取文本的特征信息并输入到激活层；所述激活层用于对输入的卷积层捕获到的特征进行非线形激活处理；所述池化层用于对激活层得到的信息进行分层采样；分层采样的信息经所述全连接层后输入输出层，预测对应文本的类别。

6.如权利要求4所述的方法，其特征在于，所述图卷积层先对图结构进行图的傅立叶变换到谱域，在谱域实现卷积运算，再通过图的傅立叶逆变换将图结构变换回频域获取卷积结果；所述池化层通过公式W_i,j(1/d_i+1/d_j)计算每一个节点与其相邻节点的归一化切割值，然后选择与当前节点的归一化切割值最大的相邻节点与当前节点进行合并，再通过一维池化完成池化；其中，d_i是节点i的度，d_j是节点j的度，W_i,j是节点i与节点j之间的边的权重。

7.如权利要求6所述的方法，其特征在于，定义任何图G上的节点的函数f∈Rⁿ，根据图拉普拉斯的特征向量，对应的图傅里叶变换

展开式：

其中n是图结构中的节点数，u_l是系数，

是针对节点i的系数；对应的图的傅里叶逆变换定义为：

u_l(i)是傅里叶逆变换中针对节点i的系数；图G＝(V,E,W)，其中V是有限集合|V|＝n个节点，E是一组边，W∈R^n*n是对两个节点之间的连接权值进行编码的邻接矩阵。

8.如权利要求6或7所述的方法，其特征在于，所述图卷积层利用滤波器对图结构中的节点信号x进行过滤，其中滤波操作为

y为过滤后的信号，θ∈R^K是切比雪夫系数向量；信号x∈Rⁿ，x为节点对应的词的语义信息，x_i是x在第i个节点的值。

9.如权利要求1所述的方法，其特征在于，采用Mini-batch梯度下降法或动量优化法训练所述图卷积神经网络。

10.一种基于图卷积神经网络的文本分类***，其特征在于，包括文本预处理模块、图卷积神经网络训练模块和文本分类模块；其中，

文本预处理模块，用于根据文本中词的词频、逆文档率生成该文本的文本特征向量，然后将各文本特征向量组合生成一文本特征矩阵，即TF-IDF矩阵；以及根据词的词向量相似度构建一该文本训练集的图结构；

图卷积神经网络训练模块，用于根据所述文本特征矩阵及所述图结构训练图卷积神经网络；

文本分类模块，用于将待分类文本a的文本特征向量输入训练后的图卷积神经网络，得到该文本a的类别。