CN112347255B - 基于图网络的标题和正文结合的文本分类方法 - Google Patents

基于图网络的标题和正文结合的文本分类方法 Download PDF

Info

Publication number
CN112347255B
CN112347255B CN202011233244.6A CN202011233244A CN112347255B CN 112347255 B CN112347255 B CN 112347255B CN 202011233244 A CN202011233244 A CN 202011233244A CN 112347255 B CN112347255 B CN 112347255B
Authority
CN
China
Prior art keywords
text
word
title
document
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202011233244.6A
Other languages
English (en)
Other versions
CN112347255A (zh
Inventor
谢宗霞
袁春宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011233244.6A priority Critical patent/CN112347255B/zh
Publication of CN112347255A publication Critical patent/CN112347255A/zh
Application granted granted Critical
Publication of CN112347255B publication Critical patent/CN112347255B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图网络的标题和正文结合的文本分类方法,主要包括:将每篇文档划分为标题文档和正文文档,分别进行数据预处理,获取标题词集合和正文词集合,利用词向量模型获取词向量表示,利用LDA模型获取主题向量,利用HAN模型来获取正文文档特征表示,通过标题、标题词集合、主题三类节点构建异质图,并输入到GAT模型,实现标题和正文特征融合,获得每篇文档特征表示,通过Softmax函数进行文本类别预测。本发明分类方法不仅利用额外信息来增强标题语义稀疏性,而且更好地融合标题和正文特征,体现了标题在文本分类任务中的重要性,提高分类精度,解决了现在新闻文本分类忽视标题重要性,导致分类效率低的问题。

Description

基于图网络的标题和正文结合的文本分类方法
技术领域
本发明涉及一种基于图网络的标题和正文结合的文本分类方法,属于自然语言处理领域。
背景技术
文本分类是自然语言处理的一个基本问题。现如今,统计学习方法已经成为了文本分类领域的主流。基于传统机器学习的文本分类方法主要是是对文本进行预处理、特征提取,然后将处理后的文本向量化,最后通过常见的机器学习分类算法来对训练数据集进行建模,主要包括朴素贝叶斯模型,k最近邻算法,期望最大化算法,支持向量机器(SVM)模型。然而,特征工程的难度被认为是对传统文本分类的挑战。
如今,深度学习方法和人工智能的不断发展,在文本分类领域中取得了许多可喜的成果。不同于传统的中文文本分类学习方法,深度学习方法采用神经网络模型对单词嵌入进行训练。例如,卷积神经网络(CNN),周期性神经网络(RNN),以及长短期记忆网络(LSTM)。这些深度学习模型能够很好的自动学习文本特征,提高分类效率,受到广大研究人员欢迎。
近年来,一个新的研究方向图神经网络引起广泛关注,图神经网络针对具有丰富关系结构的任务很有效,并且能够在图嵌入中保存图的全局结构信息。本发明利用图网络解决文本分类中忽视了标题在文本分类的重要性的问题,提高文本分类效率。
发明内容
本发明提供一种基于图网络的标题和正文结合的文本分类方法,利用图网络来融合标题和正文特征,解决在目前文本分类任务中忽视标题在文本分类的重要性,导致文本分类精度低的问题。
本发明提出的一种基于图网络的标题和正文结合的文本分类方法,包括以下步骤:
1)收集中文新闻文本数据集,所述的数据集包含文档和所属类别;并建立停用词表,
2)对所述的数据集进行处理,将其中的文档均划分为标题文档和正文文档;
3)将步骤2)划分出的正文文档进行数据预处理,包括分句、分词、去停用词,并构建正文词集合;
4)利用词向量训练模型对步骤3)构建的正文词集合进行训练,得到正文词集合中每一个词的分布式表示;
5)将步骤2)划分出的正文文档划分为训练集、验证集和测试集;
6)将步骤5)划分出的训练集输入HAN(Hierarchical Attention Networks)模型进行训练,然后利用步骤5)划分出的测试集检测该HAN模型,并优化该HAN模型,获取每个正文文档向量;
7)将步骤2)划分出的标题文档,进行分词,构建标题词集合,并利用词向量训练模型对标题词集合进行训练,得到标题词集合中每个词的分布式表示;
8)利用LDA主题模型对所述的数据集中文档进行训练,得出N个主题和每个主题的主题词分布,并根据主题词分布得出每个主题向量;
9)以步骤2)划分出的标题文档、步骤7)中构建的标题词集合和步骤8)获取的主题为节点,根据节点之间的关系构建异质图;
10)将步骤2)划分出来的标题文档划分为训练集、验证集、测试集;
11)用步骤6)获得的每个正文文档向量来表示步骤10)所述的训练集中每个标题文档向量;
12)利用步骤9)构建的异质图、步骤11)所述的标题文档向量、步骤7)的词向量和步骤8)的主题向量训练GAT(Graph Attention Networks)模型,并利用步骤10)划分出的测试集检测该GAT模型,实现标题和正文特征融合,得到整篇文档特征表示,并将文档特征表示输入到softmax函数,该softmax函数的输出即为文档类别。
进一步讲,本发明所述的基于图网络的标题和正文结合的文本分类方法,其中:
步骤1)中,所述停用词表中包括标点符号,数学符号,连接词,感叹词,语气词。
步骤3)的具体步骤如下:3-1)将每个正文文档以500字进行截取;3-2)以每句20字对正文文档进行分句,分句后的顺序与正文文本中的顺序一致;3-3)对每一分句利用jieba分词工具进行分词,并依据停用词表去除其中的停用词;3-4)建立正文词集合。
步骤4)中,利用Word2vec中skip-gram模型对正文词集合进行训练,设定维度为300维。
步骤5)中,将正文文档划分为训练集、验证集和测试集和步骤10)将标题文档划分为训练集、验证集、测试集,其中,训练集、验证集和测试集的划分比例均为8:1:1。
步骤7)中,利用jieba分词工具进行分词,所述词向量模型为Word2vec中skip-gram模型。
步骤8)中,N的数值根据LDA主题模型的困惑度设定。
步骤9)中,三类节点之间的关系如式(1)所示:
Figure BDA0002765898190000021
步骤12)中,每篇文档特征表示使用如式(2)所示的softmax函数输出文档类别,
Z=softmax(H(L)) (2)
其中Z为文档类别,H(L)为文档特征表示。
与现有技术相比,本发明的有益效果是:
(1)本发明利用HAN网络来提取正文文本特征表示,针对长文本进行分类时,仅仅对Word粒度进行attention是不够的,还需要对每个句子进行attention学习,可以很好学习到长文本特征表示。
(2)本发明利用GAT来融合标题和正文特征的方法,GAT模型不仅利用额外信息来增强标题语义稀疏性,也可以更好融合标题和正文特征。
(3)本发明提出标题在文本分类任务中的重要性,并提出一种基于图网络结合标题和正文的文本分类方法,提高分类精度。
附图说明
图1是本发明基于图网络的标题和正文结合的文本分类的流程图;
图2是异质图结构展示图。
具体实施方式
为了解决现在新闻文本分类忽视标题重要性,导致分类效率低的问题,本发明基于图网络的标题和正文结合的文本分类方法的设计构思是:首先将每篇文档划分为标题文档和正文文档,分别进行数据预处理,获取标题词集合和正文词集合,利用词向量模型获取词向量表示,利用LDA模型获取主题向量,利用HAN模型来获取正文文档特征表示,通过标题、标题词集合、主题三类节点构建异质图,并输入到GAT模型,实现标题和正文特征融合,获得每篇文档特征表示,通过Softmax函数进行文本类别预测。
下面结合附图,以“以清华新闻数据集”为例对本发明基于图网络的标题和正文结合的文本分类方法作进一步描述。以下实例仅用于更加清晰说明本发明的技术方案,描述的实例只是本发明的一部分案例,不能以此来限制本发明的保护范围。本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,本发明的文本分类方法包括以下步骤:
步骤1)准备训练需要的中文新闻文本数据集,选取清华新闻数据集(THUCNews)为例,包括财经、房产、家居、教育、科技、时尚、时政、体育、游戏、娱乐十个类别,每个类有一万条数据;并建立停用词表,所述停用词表中包括标点符号,数学符号,连接词,感叹词,语气词,但不限于这些。
步骤2)对所述的数据集进行处理,将其中的文档均划分为标题文档和正文文档;根据实验数据,例如‘体育鲍勃库西奖归谁属?NCAA最强控卫是坎巴还是弗神,本赛季的NCAA进入末段.....’,根据标题和正文之间空格将该数据分为两部分,分别打上标签。
步骤3)将步骤2)划分出的正文文档进行数据预处理,包括分句、分词、去停用词,并构建正文词集合;具体步骤如下:
3-1)将每个正文文档以500字进行截取;
3-2)以每句20字对正文文档进行分句,分句后的顺序与正文文本中的顺序一致;
3-3)对每一分句利用jieba分词工具进行分词,例如“鲍勃库西奖归谁属?”可以得到“鲍勃库西奖归谁属?”,并依据停用词表去除其中的停用词;例如‘万里长城是中国古代劳动人名血汗的结晶和中国古代文化的象征和中华民族的骄傲’,去除停用词为‘万里长城中国古代劳动血汗结晶文化象征中华民族骄傲’,可以节省计算量。
3-4)建立正文词集合。
步骤4)利用词向量训练模型对步骤3)构建的正文词集合进行训练,得到正文词集合中每一个词的分布式表示;本实例利用Word2vec中skip-gram模型对正文词集合进行训练,设定维度为300维。根据Word2vec可以的出正文和标题每个词的分布式表示,例如{万里长城0.33 0.32 0.25 0.35 0.23......,中国0.52 0.39 0.56.....},具体维度也可以在模型训练时自己设定,例如200维,100维。
步骤5)将步骤2)划分出的正文文档划分为训练集、验证集和测试集,其划分的比例为8:1:1;
步骤6)将步骤5)划分出的训练集输入HAN(Hierarchical Attention Networks)模型进行训练,然后利用步骤5)划分出的测试集检测该HAN模型,并优化该HAN模型,获取每个正文文档向量,即文档1{0.36 0 56 0.35....},文档2{0.56 0.69 0.26.....}。
步骤7)将步骤2)划分出的标题文档,进行分词,构建标题词集合,并利用词向量训练模型对标题词集合进行训练,得到标题词集合中每个词的分布式表示。其中,利用jieba分词工具进行分词,所述词向量模型为Word2vec中skip-gram模型。
步骤8)利用LDA主题模型对所述的数据集中文档进行训练,得出N个主题和每个主题的主题词分布,并根据主题词分布得出每个主题向量;其中,N的数值根据LDA主题模型的困惑度设定。
步骤9)以步骤2)划分出的标题文档、步骤7)中构建的标题词集合和步骤8)获取的主题为节点,根据节点之间的关系构建异质图,如图2所示;其中,标题文档、标题词集合和主题三类节点之间的关系如式(1)所示:
Figure BDA0002765898190000041
步骤10)将步骤2)划分出来的标题文档划分为训练集、验证集、测试集,其划分的比例为8:1:1;
步骤11)用步骤6)获得的每个正文文档向量来表示步骤10)所述的训练集中每个标题文档向量;
步骤12)利用步骤9)构建的异质图、步骤11)所述的标题文档向量、步骤7)的词向量和步骤8)的主题向量训练GAT(Graph Attention Networks)模型。标题文档向量、词向量、主题向量分别放在三个文件中,分别打上标签。二是节点之间关系,即邻接矩阵,文件中存储格式例如{2 3,3 6,9 15......},代表两个节点ID值。并利用步骤10)划分出的测试集检测该GAT模型,实现标题和正文特征融合,得到整篇文档特征表示,并将文档特征表示输入到如式(2)所述的softmax函数,该softmax函数的输出即为文档类别,
Z=softmax(H(L)) (2)
其中,Z为文档类别,H(L)为文档特征表示。
本实例得出的分类准确率为96.04,针对上述清华新闻数据集做了2个对比例,对比例1为TextCNN模型分类准确率为92.36,对比例2为BiLstm模型分类准确率94.36,由此可以看出本发明方法提升了文本分类精度。说明本发明是有效地,即在文本分类任务中,不要忽视标题文本的重要性。

Claims (9)

1.一种基于图网络的标题和正文结合的文本分类方法,其特征在于,包括以下步骤:
步骤1)收集中文新闻文本数据集,所述的数据集包含文档和所属类别;并建立停用词表,
步骤2)对所述的数据集进行处理,将其中的文档均划分为标题文档和正文文档;
步骤3)将步骤2)划分出的正文文档进行数据预处理,包括分句、分词、去停用词,并构建正文词集合;
步骤4)利用词向量训练模型对步骤3)构建的正文词集合进行训练,得到正文词集合中每一个词的分布式表示;
步骤5)将步骤2)划分出的正文文档划分为训练集、验证集和测试集;
步骤6)将步骤5)划分出的训练集输入HAN(Hierarchical Attention Networks)模型进行训练,然后利用步骤5)划分出的测试集检测该HAN模型,并优化该HAN模型,获取每个正文文档向量;
步骤7)将步骤2)划分出的标题文档,进行分词,构建标题词集合,并利用词向量训练模型对标题词集合进行训练,得到标题词集合中每个词的分布式表示;
步骤8)利用LDA主题模型对所述的数据集中文档进行训练,得出N个主题和每个主题的主题词分布,并根据主题词分布得出每个主题向量;
步骤9)以步骤2)划分出的标题文档、步骤7)中构建的标题词集合和步骤8)获取的主题为节点,根据节点之间的关系构建异质图;
步骤10)将步骤2)划分出来的标题文档划分为训练集、验证集、测试集;
步骤11)用步骤6)获得的每个正文文档向量来表示步骤10)所述的训练集中每个标题文档向量;
步骤12)利用步骤9)构建的异质图、步骤11)所述的标题文档向量、步骤7)的词向量和步骤8)的主题向量训练GAT(Graph Attention Networks)模型,并利用步骤10)划分出的测试集检测该GAT模型,实现标题和正文特征融合,得到整篇文档特征表示,并将文档特征表示输入到softmax函数,该softmax函数的输出即为文档类别。
2.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤1)中,所述停用词表中包括标点符号,数学符号,连接词,感叹词,语气词。
3.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤3)的具体步骤如下:
3-1)将每个正文文档以500字进行截取;
3-2)以每句20字对正文文档进行分句,分句后的顺序与正文文本中的顺序一致;
3-3)对每一分句利用jieba分词工具进行分词,并依据停用词表去除其中的停用词;
3-4)建立正文词集合。
4.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤4)中,利用Word2vec中skip-gram模型对正文词集合进行训练,设定维度为300维。
5.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤5)中将正文文档划分为训练集、验证集和测试集和步骤10)将标题文档划分为训练集、验证集、测试集,其中,训练集、验证集和测试集的划分比例均为8:1:1。
6.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤7)中,利用jieba分词工具进行分词,所述词向量模型为Word2vec中skip-gram模型。
7.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤8)中,N的数值根据LDA主题模型的困惑度设定。
8.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤9)中,三类节点之间的关系如式(1)所示:
Figure FDA0002765898180000021
9.根据权利要求1所述的基于图网络的标题和正文结合的文本分类方法,其特征在于,步骤12)中,每篇文档特征表示使用如式(2)所示的softmax函数输出文档类别,
Z=softmax(H(L)) (2)
其中Z为文档类别,H(L)为文档特征表示。
CN202011233244.6A 2020-11-06 2020-11-06 基于图网络的标题和正文结合的文本分类方法 Expired - Fee Related CN112347255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011233244.6A CN112347255B (zh) 2020-11-06 2020-11-06 基于图网络的标题和正文结合的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011233244.6A CN112347255B (zh) 2020-11-06 2020-11-06 基于图网络的标题和正文结合的文本分类方法

Publications (2)

Publication Number Publication Date
CN112347255A CN112347255A (zh) 2021-02-09
CN112347255B true CN112347255B (zh) 2021-11-23

Family

ID=74428724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011233244.6A Expired - Fee Related CN112347255B (zh) 2020-11-06 2020-11-06 基于图网络的标题和正文结合的文本分类方法

Country Status (1)

Country Link
CN (1) CN112347255B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239200B (zh) * 2021-05-20 2022-07-12 东北农业大学 内容识别分类方法、装置、***及存储介质
CN113378950A (zh) * 2021-06-22 2021-09-10 深圳市查策网络信息技术有限公司 一种长文本的无监督分类方法
CN114138934B (zh) * 2021-11-25 2024-07-12 腾讯科技(深圳)有限公司 文本通顺度的检测方法、装置、设备及存储介质
CN116701812B (zh) * 2023-08-03 2023-11-28 中国测绘科学研究院 基于区块单元的地理信息网页文本主题分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6217468B2 (ja) * 2014-03-10 2017-10-25 富士ゼロックス株式会社 多言語文書分類プログラム及び情報処理装置
CN109543032B (zh) * 2018-10-26 2024-07-02 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN109753567A (zh) * 2019-01-31 2019-05-14 安徽大学 一种结合标题与正文注意力机制的文本分类方法
CN110704626B (zh) * 2019-09-30 2022-07-22 北京邮电大学 一种用于短文本的分类方法及装置
CN111581967B (zh) * 2020-05-06 2023-08-11 西安交通大学 一种联合LW2V与Triplet网络的新闻主题事件检测方法

Also Published As

Publication number Publication date
CN112347255A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112347255B (zh) 基于图网络的标题和正文结合的文本分类方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与***
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及***
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN108280206B (zh) 一种基于语义增强的短文本分类方法
CN107392147A (zh) 一种基于改进的生成式对抗网络的图像语句转换方法
CN106202256A (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CN101599071A (zh) 对话文本主题的自动提取方法
CN111027595A (zh) 双阶段语义词向量生成方法
CN112883171B (zh) 基于bert模型的文档关键词抽取方法及装置
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及***
CN110956041A (zh) 一种基于深度学习的并购重组公告摘要方法
CN108920586A (zh) 一种基于深度神经映射支持向量机的短文本分类方法
CN107832307B (zh) 基于无向图与单层神经网络的中文分词方法
CN103853792A (zh) 一种图片语义自动标注方法与***
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
CN104123336A (zh) 深度玻尔兹曼机模型及短文本主题分类***和方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN116502637A (zh) 一种结合上下文语义的文本关键词提取方法
CN113076468B (zh) 一种基于领域预训练的嵌套事件抽取方法
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法
CN113723078A (zh) 一种文本逻辑信息结构化方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211123

CF01 Termination of patent right due to non-payment of annual fee