CN112347255B

CN112347255B - 基于图网络的标题和正文结合的文本分类方法

Info

Publication number: CN112347255B
Application number: CN202011233244.6A
Authority: CN
Inventors: 谢宗霞; 袁春宇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-11-23
Anticipated expiration: 2040-11-06
Also published as: CN112347255A

Abstract

本发明公开了一种基于图网络的标题和正文结合的文本分类方法，主要包括：将每篇文档划分为标题文档和正文文档，分别进行数据预处理，获取标题词集合和正文词集合，利用词向量模型获取词向量表示，利用LDA模型获取主题向量，利用HAN模型来获取正文文档特征表示，通过标题、标题词集合、主题三类节点构建异质图，并输入到GAT模型，实现标题和正文特征融合，获得每篇文档特征表示，通过Softmax函数进行文本类别预测。本发明分类方法不仅利用额外信息来增强标题语义稀疏性，而且更好地融合标题和正文特征，体现了标题在文本分类任务中的重要性，提高分类精度，解决了现在新闻文本分类忽视标题重要性，导致分类效率低的问题。

Description

基于图网络的标题和正文结合的文本分类方法

技术领域

本发明涉及一种基于图网络的标题和正文结合的文本分类方法，属于自然语言处理领域。

背景技术

文本分类是自然语言处理的一个基本问题。现如今，统计学习方法已经成为了文本分类领域的主流。基于传统机器学习的文本分类方法主要是是对文本进行预处理、特征提取，然后将处理后的文本向量化，最后通过常见的机器学习分类算法来对训练数据集进行建模，主要包括朴素贝叶斯模型，k最近邻算法，期望最大化算法，支持向量机器(SVM)模型。然而，特征工程的难度被认为是对传统文本分类的挑战。

如今，深度学习方法和人工智能的不断发展，在文本分类领域中取得了许多可喜的成果。不同于传统的中文文本分类学习方法，深度学习方法采用神经网络模型对单词嵌入进行训练。例如，卷积神经网络(CNN)，周期性神经网络(RNN)，以及长短期记忆网络(LSTM)。这些深度学习模型能够很好的自动学习文本特征，提高分类效率，受到广大研究人员欢迎。

近年来，一个新的研究方向图神经网络引起广泛关注，图神经网络针对具有丰富关系结构的任务很有效，并且能够在图嵌入中保存图的全局结构信息。本发明利用图网络解决文本分类中忽视了标题在文本分类的重要性的问题，提高文本分类效率。

发明内容

本发明提供一种基于图网络的标题和正文结合的文本分类方法，利用图网络来融合标题和正文特征，解决在目前文本分类任务中忽视标题在文本分类的重要性，导致文本分类精度低的问题。

本发明提出的一种基于图网络的标题和正文结合的文本分类方法，包括以下步骤：

1)收集中文新闻文本数据集，所述的数据集包含文档和所属类别；并建立停用词表，

2)对所述的数据集进行处理，将其中的文档均划分为标题文档和正文文档；

3)将步骤2)划分出的正文文档进行数据预处理，包括分句、分词、去停用词，并构建正文词集合；

4)利用词向量训练模型对步骤3)构建的正文词集合进行训练，得到正文词集合中每一个词的分布式表示；

5)将步骤2)划分出的正文文档划分为训练集、验证集和测试集；

6)将步骤5)划分出的训练集输入HAN(Hierarchical Attention Networks)模型进行训练，然后利用步骤5)划分出的测试集检测该HAN模型，并优化该HAN模型，获取每个正文文档向量；

7)将步骤2)划分出的标题文档，进行分词，构建标题词集合，并利用词向量训练模型对标题词集合进行训练，得到标题词集合中每个词的分布式表示；

8)利用LDA主题模型对所述的数据集中文档进行训练，得出N个主题和每个主题的主题词分布，并根据主题词分布得出每个主题向量；

9)以步骤2)划分出的标题文档、步骤7)中构建的标题词集合和步骤8)获取的主题为节点，根据节点之间的关系构建异质图；

10)将步骤2)划分出来的标题文档划分为训练集、验证集、测试集；

11)用步骤6)获得的每个正文文档向量来表示步骤10)所述的训练集中每个标题文档向量；

12)利用步骤9)构建的异质图、步骤11)所述的标题文档向量、步骤7)的词向量和步骤8)的主题向量训练GAT(Graph Attention Networks)模型，并利用步骤10)划分出的测试集检测该GAT模型，实现标题和正文特征融合，得到整篇文档特征表示，并将文档特征表示输入到softmax函数，该softmax函数的输出即为文档类别。

进一步讲，本发明所述的基于图网络的标题和正文结合的文本分类方法，其中：

步骤1)中，所述停用词表中包括标点符号，数学符号，连接词，感叹词，语气词。

步骤3)的具体步骤如下：3-1)将每个正文文档以500字进行截取；3-2)以每句20字对正文文档进行分句，分句后的顺序与正文文本中的顺序一致；3-3)对每一分句利用jieba分词工具进行分词，并依据停用词表去除其中的停用词；3-4)建立正文词集合。

步骤4)中，利用Word2vec中skip-gram模型对正文词集合进行训练，设定维度为300维。

步骤5)中，将正文文档划分为训练集、验证集和测试集和步骤10)将标题文档划分为训练集、验证集、测试集，其中，训练集、验证集和测试集的划分比例均为8:1:1。

步骤7)中，利用jieba分词工具进行分词，所述词向量模型为Word2vec中skip-gram模型。

步骤8)中，N的数值根据LDA主题模型的困惑度设定。

步骤9)中，三类节点之间的关系如式(1)所示：

步骤12)中，每篇文档特征表示使用如式(2)所示的softmax函数输出文档类别，

Z＝softmax(H^(L)) (2)

其中Z为文档类别，H^(L)为文档特征表示。

与现有技术相比，本发明的有益效果是：

(1)本发明利用HAN网络来提取正文文本特征表示，针对长文本进行分类时，仅仅对Word粒度进行attention是不够的，还需要对每个句子进行attention学习，可以很好学习到长文本特征表示。

(2)本发明利用GAT来融合标题和正文特征的方法，GAT模型不仅利用额外信息来增强标题语义稀疏性，也可以更好融合标题和正文特征。

(3)本发明提出标题在文本分类任务中的重要性，并提出一种基于图网络结合标题和正文的文本分类方法，提高分类精度。

附图说明

图1是本发明基于图网络的标题和正文结合的文本分类的流程图；

图2是异质图结构展示图。

具体实施方式

为了解决现在新闻文本分类忽视标题重要性，导致分类效率低的问题，本发明基于图网络的标题和正文结合的文本分类方法的设计构思是：首先将每篇文档划分为标题文档和正文文档，分别进行数据预处理，获取标题词集合和正文词集合，利用词向量模型获取词向量表示，利用LDA模型获取主题向量，利用HAN模型来获取正文文档特征表示，通过标题、标题词集合、主题三类节点构建异质图，并输入到GAT模型，实现标题和正文特征融合，获得每篇文档特征表示，通过Softmax函数进行文本类别预测。

下面结合附图，以“以清华新闻数据集”为例对本发明基于图网络的标题和正文结合的文本分类方法作进一步描述。以下实例仅用于更加清晰说明本发明的技术方案，描述的实例只是本发明的一部分案例，不能以此来限制本发明的保护范围。本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明的文本分类方法包括以下步骤：

步骤1)准备训练需要的中文新闻文本数据集，选取清华新闻数据集(THUCNews)为例，包括财经、房产、家居、教育、科技、时尚、时政、体育、游戏、娱乐十个类别，每个类有一万条数据；并建立停用词表，所述停用词表中包括标点符号，数学符号，连接词，感叹词，语气词，但不限于这些。

步骤2)对所述的数据集进行处理，将其中的文档均划分为标题文档和正文文档；根据实验数据，例如‘体育鲍勃库西奖归谁属？NCAA最强控卫是坎巴还是弗神，本赛季的NCAA进入末段.....’，根据标题和正文之间空格将该数据分为两部分，分别打上标签。

步骤3)将步骤2)划分出的正文文档进行数据预处理，包括分句、分词、去停用词，并构建正文词集合；具体步骤如下：

3-1)将每个正文文档以500字进行截取；

3-2)以每句20字对正文文档进行分句，分句后的顺序与正文文本中的顺序一致；

3-3)对每一分句利用jieba分词工具进行分词，例如“鲍勃库西奖归谁属？”可以得到“鲍勃库西奖归谁属？”，并依据停用词表去除其中的停用词；例如‘万里长城是中国古代劳动人名血汗的结晶和中国古代文化的象征和中华民族的骄傲’，去除停用词为‘万里长城中国古代劳动血汗结晶文化象征中华民族骄傲’，可以节省计算量。

3-4)建立正文词集合。

步骤4)利用词向量训练模型对步骤3)构建的正文词集合进行训练，得到正文词集合中每一个词的分布式表示；本实例利用Word2vec中skip-gram模型对正文词集合进行训练，设定维度为300维。根据Word2vec可以的出正文和标题每个词的分布式表示，例如{万里长城0.33 0.32 0.25 0.35 0.23......，中国0.52 0.39 0.56.....}，具体维度也可以在模型训练时自己设定，例如200维，100维。

步骤5)将步骤2)划分出的正文文档划分为训练集、验证集和测试集，其划分的比例为8:1:1；

步骤6)将步骤5)划分出的训练集输入HAN(Hierarchical Attention Networks)模型进行训练，然后利用步骤5)划分出的测试集检测该HAN模型，并优化该HAN模型，获取每个正文文档向量，即文档1{0.36 0 56 0.35....}，文档2{0.56 0.69 0.26.....}。

步骤7)将步骤2)划分出的标题文档，进行分词，构建标题词集合，并利用词向量训练模型对标题词集合进行训练，得到标题词集合中每个词的分布式表示。其中，利用jieba分词工具进行分词，所述词向量模型为Word2vec中skip-gram模型。

步骤8)利用LDA主题模型对所述的数据集中文档进行训练，得出N个主题和每个主题的主题词分布，并根据主题词分布得出每个主题向量；其中，N的数值根据LDA主题模型的困惑度设定。

步骤9)以步骤2)划分出的标题文档、步骤7)中构建的标题词集合和步骤8)获取的主题为节点，根据节点之间的关系构建异质图，如图2所示；其中，标题文档、标题词集合和主题三类节点之间的关系如式(1)所示：

步骤10)将步骤2)划分出来的标题文档划分为训练集、验证集、测试集，其划分的比例为8:1:1；

步骤11)用步骤6)获得的每个正文文档向量来表示步骤10)所述的训练集中每个标题文档向量；

步骤12)利用步骤9)构建的异质图、步骤11)所述的标题文档向量、步骤7)的词向量和步骤8)的主题向量训练GAT(Graph Attention Networks)模型。标题文档向量、词向量、主题向量分别放在三个文件中，分别打上标签。二是节点之间关系，即邻接矩阵，文件中存储格式例如{2 3，3 6，9 15......}，代表两个节点ID值。并利用步骤10)划分出的测试集检测该GAT模型，实现标题和正文特征融合，得到整篇文档特征表示，并将文档特征表示输入到如式(2)所述的softmax函数，该softmax函数的输出即为文档类别，

Z＝softmax(H^(L)) (2)

其中，Z为文档类别，H^(L)为文档特征表示。

本实例得出的分类准确率为96.04，针对上述清华新闻数据集做了2个对比例，对比例1为TextCNN模型分类准确率为92.36，对比例2为BiLstm模型分类准确率94.36，由此可以看出本发明方法提升了文本分类精度。说明本发明是有效地，即在文本分类任务中，不要忽视标题文本的重要性。

Claims

1.一种基于图网络的标题和正文结合的文本分类方法，其特征在于，包括以下步骤：

步骤1)收集中文新闻文本数据集，所述的数据集包含文档和所属类别；并建立停用词表，

步骤2)对所述的数据集进行处理，将其中的文档均划分为标题文档和正文文档；

步骤3)将步骤2)划分出的正文文档进行数据预处理，包括分句、分词、去停用词，并构建正文词集合；

步骤4)利用词向量训练模型对步骤3)构建的正文词集合进行训练，得到正文词集合中每一个词的分布式表示；

步骤5)将步骤2)划分出的正文文档划分为训练集、验证集和测试集；

步骤6)将步骤5)划分出的训练集输入HAN(Hierarchical Attention Networks)模型进行训练，然后利用步骤5)划分出的测试集检测该HAN模型，并优化该HAN模型，获取每个正文文档向量；

步骤7)将步骤2)划分出的标题文档，进行分词，构建标题词集合，并利用词向量训练模型对标题词集合进行训练，得到标题词集合中每个词的分布式表示；

步骤8)利用LDA主题模型对所述的数据集中文档进行训练，得出N个主题和每个主题的主题词分布，并根据主题词分布得出每个主题向量；

步骤9)以步骤2)划分出的标题文档、步骤7)中构建的标题词集合和步骤8)获取的主题为节点，根据节点之间的关系构建异质图；

步骤10)将步骤2)划分出来的标题文档划分为训练集、验证集、测试集；

步骤12)利用步骤9)构建的异质图、步骤11)所述的标题文档向量、步骤7)的词向量和步骤8)的主题向量训练GAT(Graph Attention Networks)模型，并利用步骤10)划分出的测试集检测该GAT模型，实现标题和正文特征融合，得到整篇文档特征表示，并将文档特征表示输入到softmax函数，该softmax函数的输出即为文档类别。

2.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法，其特征在于，步骤1)中，所述停用词表中包括标点符号，数学符号，连接词，感叹词，语气词。

3.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法，其特征在于，步骤3)的具体步骤如下：

3-1)将每个正文文档以500字进行截取；

3-3)对每一分句利用jieba分词工具进行分词，并依据停用词表去除其中的停用词；

3-4)建立正文词集合。

4.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法，其特征在于，步骤4)中，利用Word2vec中skip-gram模型对正文词集合进行训练，设定维度为300维。

5.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法，其特征在于，步骤5)中将正文文档划分为训练集、验证集和测试集和步骤10)将标题文档划分为训练集、验证集、测试集，其中，训练集、验证集和测试集的划分比例均为8:1:1。

6.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法，其特征在于，步骤7)中，利用jieba分词工具进行分词，所述词向量模型为Word2vec中skip-gram模型。

7.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法，其特征在于，步骤8)中，N的数值根据LDA主题模型的困惑度设定。

8.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法，其特征在于，步骤9)中，三类节点之间的关系如式(1)所示：

9.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法，其特征在于，步骤12)中，每篇文档特征表示使用如式(2)所示的softmax函数输出文档类别，

Z＝softmax(H^(L)) (2)

其中Z为文档类别，H^(L)为文档特征表示。