CN113569049A - 一种基于层次Trans-CNN的多标签文本分类算法 - Google Patents

一种基于层次Trans-CNN的多标签文本分类算法 Download PDF

Info

Publication number
CN113569049A
CN113569049A CN202110915378.4A CN202110915378A CN113569049A CN 113569049 A CN113569049 A CN 113569049A CN 202110915378 A CN202110915378 A CN 202110915378A CN 113569049 A CN113569049 A CN 113569049A
Authority
CN
China
Prior art keywords
sentence
label
trans
text
classification algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110915378.4A
Other languages
English (en)
Other versions
CN113569049B (zh
Inventor
宫继兵
王成龙
房小涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202110915378.4A priority Critical patent/CN113569049B/zh
Publication of CN113569049A publication Critical patent/CN113569049A/zh
Application granted granted Critical
Publication of CN113569049B publication Critical patent/CN113569049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理技术领域,具体涉及一种基于层次Trans‑CNN的多标签文本分类算法,包括如下步骤:S1、数据预处理;S2、对单词进行特征提取;S3、对句子进行特征提取;S4、将词特征和句子特征融合;S5、将融合后的特征通过卷积层,提取特征;S6、将得到的卷积特征通过全连接网络,对文本进行分类;本发明解决无法充分捕捉文本语义信息,无法获取到句子与句子之间、段落与段落之间的详细信息,造成语义信息部分缺失的问题。

Description

一种基于层次Trans-CNN的多标签文本分类算法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于层次Trans-CNN的多标签文本分类算法。
背景技术
随着互联网信息技术的飞速发展以及5G时代的到来,海量的数据信息呈***式增长,其中又以文本数据最为丰富。在有限的时间内快速且准确的获得文本信息的核心内容成为一个具有实际意义的挑战。而文本分类就是一个能够有效解决信息过载问题的一个基石,通过对文本内容进行标签分类,能够有效的为文本检索和文本推荐提供基础信息,从而极大的提高人们的检索效率和阅读体验。
文本分类一直是自然语言处理最为基础但又极为重要的研究领域,它的目标是自动的根据文本的内容为其分配一组预定义的标签,从而达到文本分类的目的。文本分类一般会分为单标签文本分类和多标签文本分类。单标签文本分类指的是一个文本只会对应一个标签,比如传统的情感分析,每个文本只会对应消极,积极和中性中的其中一个标签。在多标签文本分类中,一个文本可能会对应一个或多个标签,其中不同标签可能会具有层次性关系,比如一篇新闻可能会属于经济领域下的房地产标签。多标签文本分类比单标签文本分类能够更精细和全面的表示文本内容,更加符合现实世界的实际需求,逐渐成为文本分类的主流研究方向。
传统的多标签文本分类方法,特别是深度学习,取得了显著的效果。然而,这些方法大多使用word2vec技术来表示连续的文本信息,而无法充分捕捉文本语义信息,传统的方法是提取到每个句子直接的详细信息,但无法获取到句子与句子之间、段落与段落之间的详细信息,会造成语义信息的部分缺失。
发明内容
针对上述的不足,本发明目的解决无法充分捕捉文本语义信息,无法获取到句子与句子之间、段落与段落之间的详细信息,造成语义信息部分缺失等问题。
为实现上述目的,本发明提供如下技术方案:
一种基于层次Trans-CNN的多标签文本分类算法,包括如下步骤:
S1、数据预处理;
S2、对单词进行特征提取;
S3、对句子进行特征提取;
S4、将词特征和句子特征融合;
S5、将融合后的特征通过卷积层,提取特征;
S6、将得到的卷积特征通过全连接网络,对文本进行分类。
本发明技术方案的进一步改进在于,S1包括如下步骤:
S11、使用RCV1和AAPD数据集,将文本中的特殊字符去除;
S12、将每个标签种类下的文本中,每个句子的单词少于10的句子去除,句子数目少于40条的文本去除。
本发明技术方案的进一步改进在于,S2包括如下步骤:
S21、根据Transformer中的encoder构建word-encoder神经网络;
S22、将每个标签下的文本中的单词通过word-encoder网络,得到词向量特征。
本发明技术方案的进一步改进在于,S3包括如下步骤:
S31、根据Transformer中的encoder构建sentence-encoder神经网络;
S32、将每个标签下的文本中的句子通过sentence-encoder网络,得到句子向量特征。
本发明技术方案的进一步改进在于,S5包括如下步骤:
S51、将S4得到的融合特征,通过卷积核为1×Ds的卷积神经网络,卷积核数量为n,卷积后得到m×n的向量特征;
其中Ds为句子的嵌入维度,m为句子的个数。
本发明技术方案的进一步改进在于,S6包括如下步骤:
S61、构建全连接神经网络;
S62、将S5得到的特征通过该全连接神经网络后,再使用sigmoid激活函数转换为类别概率。
与现有技术相比,本发明提供一种基于层次Trans-CNN的多标签文本分类算法有益效果如下:
1.本发明提供一种基于层次Trans-CNN的多标签文本分类算法,该算法解决了传统方法中无法充分捕捉文本语义信息,无法获取到句子与句子之间、段落与段落之间的详细信息,造成语义信息部分缺失的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明算法的整体架构图。
图2为本发明词嵌入向量结构图。
图3为本发明句子卷积神经网络模型结构图。
图4为本发明的前馈神经网络模型结构图。
具体实施方式
下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例基于层次Transformer-CNN的多标签文本分类算法,包括如下步骤:
S1、数据预处理;使用两个非常经典的用于多标签分类任务的数据集,ReutersCorpus Volume I(RCV1)和AAPD,前者是新闻领域,是路透社的人工标记新闻数据集,其内容来自1996年至1997年的新闻,后者主要是科技论文领域,是计算机科学领域中的大型数据集,来自知名文献数据库Arxiv;
步骤S1的具体过程为:
S11、对数据处理的好坏程度将直接影响到后续模型的预测能力,我们首先去除数据集中的特殊字符;
S12、去除数据集中的较少语义的数据,将每个标签种类下的文本中,每个句子的单词少于10的句子去除,句子数目少于40条的文本去除;
S2、对单词进行特征提取;单词级别Transformer与传统的Transformer不同之处在于,单词级别Transformer将单词间自注意力的学习范围限制在了句子内部;
步骤S2的具体过程为:
S21、根据Transformer中的encoder构建word-encoder神经网络,如图2所示,多头自注意力的计算公式为下式:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
其中,Q,K,V为三个矩阵,每个矩阵的维度为N×D,其中N为每个句子中单词的数目,D为单词的嵌入维度,headi定义如下:
headi=Attention(QWi Q,KWi K,VWi V)
其中,Wi Q∈RD×K,Wi K∈RD×K,Wi V∈RD×V,D为单词嵌入维度,K和V为转换后的单词嵌入维度;
S22、将每个标签下的文本中的单词通过word-encoder网络,得到词向量特征;通过单词级别Transformer特征抽取后,可以将每个句子内部的单词嵌入向量进行拼接,这样就可以得到以句子嵌入向量为粒度的文本表示矩阵;
S3、对句子进行特征提取;经过单词级Transformer处理后,每个单词都在句子视野中得到了充分的编码表示,这一步是句子级操作,其处理流程与单词级Transformer类似;
步骤S3的具体过程为:
S31、根据Transformer中的encoder构建sentence-encoder神经网络;
S32、将每个标签下的文本中的句子通过sentence-encoder网络,得到句子向量特征;经过句子级别的Transformer操作后,文本中的句子在全局范围内学习到不同句子的注意力分配,因此每个句子的语义特征更加丰富,有利于模型学习语义特征到类别特征的映射关系;
S4、将词特征和句子特征融合;
S5、将融合后的特征通过卷积层,提取特征;因为文本的所属类别是由文本的语义信息确定的,而文本的语义又是由所包含的句子确定的,所以可以把每个句子视为语义单元,即每个句子对应一种语义特征,所有的句子构成了文本的语义特征。针对这种特性,采用卷积神经网络捕捉每个句子的重点语义;
步骤S5的具体过程为:
S51、构建句子卷积神经网络模型,如图3所示,图中示例是具有7个句子,词嵌入维度为Ds的文本矩阵的一维卷积流程,卷积核大小为1×Ds,卷积核数量为n;
S52、将融合后的特征通过构建好的卷积神经网络,卷积后得到m×n的向量特征,m为句子的个数;经过句子卷积操作后,模型已经充分捕捉到局部语义和全局语义,并建立了从语义特征到类别特征的映射;
S6、将得到的卷积特征通过全连接网络,对文本进行分类;
步骤S6的具体过程为:
S61、构建前馈神经网络模型,如图4所示;
S62、将S5得到的特征通过该前馈神经网络,最后再使用sigmoid激活函数转换为类别概率。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明装置权利要求书确定的保护范围内。

Claims (6)

1.一种基于层次Trans-CNN的多标签文本分类算法,其特征在于,包括如下步骤:
S1、数据预处理;
S2、对单词进行特征提取;
S3、对句子进行特征提取;
S4、将词特征和句子特征融合;
S5、将融合后的特征通过卷积层,提取特征;
S6、将得到的卷积特征通过全连接网络,对文本进行分类。
2.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类算法,其特征在于,S1包括如下步骤:
S11、使用RCV1和AAPD数据集,将文本中的特殊字符去除;
S12、将每个标签种类下的文本中,每个句子的单词少于10的句子去除,句子数目少于40条的文本去除。
3.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类算法,其特征在于,S2包括如下步骤:
S21、根据Transformer中的encoder构建word-encoder神经网络;
S22、将每个标签下的文本中的单词通过word-encoder网络,得到词向量特征。
4.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类算法,其特征在于,S3包括如下步骤:
S31、根据Transformer中的encoder构建sentence-encoder神经网络;
S32、将每个标签下的文本中的句子通过sentence-encoder网络,得到句子向量特征。
5.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类算法,其特征在于,S5包括如下步骤:
S51、将S4得到的融合特征,通过卷积核为1×Ds的卷积神经网络,卷积核数量为n,卷积后得到m×n的向量特征;
其中Ds为句子的嵌入维度,m为句子的个数。
6.根据权利要求1所述的一种基于层次Trans-CNN的多标签文本分类算法,其特征在于,S6包括如下步骤:
S61、构建全连接神经网络;
S62、将S5得到的特征通过该全连接神经网络后,再使用sigmoid激活函数转换为类别概率。
CN202110915378.4A 2021-08-10 2021-08-10 一种基于层次Trans-CNN的多标签文本分类方法 Active CN113569049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110915378.4A CN113569049B (zh) 2021-08-10 2021-08-10 一种基于层次Trans-CNN的多标签文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110915378.4A CN113569049B (zh) 2021-08-10 2021-08-10 一种基于层次Trans-CNN的多标签文本分类方法

Publications (2)

Publication Number Publication Date
CN113569049A true CN113569049A (zh) 2021-10-29
CN113569049B CN113569049B (zh) 2024-03-29

Family

ID=78171121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110915378.4A Active CN113569049B (zh) 2021-08-10 2021-08-10 一种基于层次Trans-CNN的多标签文本分类方法

Country Status (1)

Country Link
CN (1) CN113569049B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
CN110968697A (zh) * 2019-12-20 2020-04-07 合肥讯飞数码科技有限公司 文本分类方法、装置、设备及可读存储介质
CN111723196A (zh) * 2020-05-21 2020-09-29 西北工业大学 基于多任务学习的单文档摘要生成模型构建方法及装置
US20200387675A1 (en) * 2019-06-05 2020-12-10 Refinitiv Us Organization Llc Machine-learning natural language processing classifier
US10929609B1 (en) * 2017-06-26 2021-02-23 Rm², Llc Modeling english sentences within a distributed neural network for comprehension and understanding of a news article
US20210183484A1 (en) * 2019-12-06 2021-06-17 Surgical Safety Technologies Inc. Hierarchical cnn-transformer based machine learning
CN113076744A (zh) * 2021-04-16 2021-07-06 重庆中国三峡博物馆 一种基于卷积神经网络的文物知识关系抽取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10929609B1 (en) * 2017-06-26 2021-02-23 Rm², Llc Modeling english sentences within a distributed neural network for comprehension and understanding of a news article
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
US20200387675A1 (en) * 2019-06-05 2020-12-10 Refinitiv Us Organization Llc Machine-learning natural language processing classifier
US20210183484A1 (en) * 2019-12-06 2021-06-17 Surgical Safety Technologies Inc. Hierarchical cnn-transformer based machine learning
CN110968697A (zh) * 2019-12-20 2020-04-07 合肥讯飞数码科技有限公司 文本分类方法、装置、设备及可读存储介质
CN111723196A (zh) * 2020-05-21 2020-09-29 西北工业大学 基于多任务学习的单文档摘要生成模型构建方法及装置
CN113076744A (zh) * 2021-04-16 2021-07-06 重庆中国三峡博物馆 一种基于卷积神经网络的文物知识关系抽取方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CER, D.等: "Universal sentence encoder for English", IN PROCEEDINGS OF THE 2018 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING: SYSTEM DEMONSTRATIONS, pages 169 - 174 *
JIBING GONG等: "Hierarchical Graph Transformer-Based Deep Learning Model for Large-Scale Multi-Label Text Classification", IEEE ACCESS, vol. 8, pages 30885 - 30896, XP011772649, DOI: 10.1109/ACCESS.2020.2972751 *
李程洋: "基于层次神经网络的新闻文本分类算法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, pages 138 - 1200 *
蒋宗礼;张静;: "融合用户和产品信息的多头注意力情感分类模型", 计算机***应用, no. 07 *
赵勤鲁;蔡晓东;李波;吕璐;: "基于LSTM-Attention神经网络的文本特征提取方法", 现代电子技术, no. 08 *
郝超等: "多标签文本分类研究进展", 计算机工程与应用, vol. 27, no. 10, pages 48 - 56 *

Also Published As

Publication number Publication date
CN113569049B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN109189925B (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN107330032B (zh) 一种基于递归神经网络的隐式篇章关系分析方法
CN110020438B (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN105631479B (zh) 基于非平衡学习的深度卷积网络图像标注方法及装置
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
Dashtipour et al. Exploiting deep learning for Persian sentiment analysis
Cornia et al. Explaining digital humanities by aligning images and textual descriptions
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN111581967A (zh) 一种联合LW2V与Triplet网络的新闻主题事件检测方法
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
Aziguli et al. A robust text classifier based on denoising deep neural network in the analysis of big data
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN115759119A (zh) 一种金融文本情感分析方法、***、介质和设备
Boudad et al. Exploring the use of word embedding and deep learning in arabic sentiment analysis
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
Vatani et al. An effective automatic image annotation model via attention model and data equilibrium
Lai et al. A Chinese multi-modal relation extraction model for internet security of finance
Shekhar et al. An effective bi-LSTM word embedding system for analysis and identification of language in code-mixed social media text in English and Roman Hindi
CN117131877A (zh) 一种基于对比学习的文本检测方法及***
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN116843175A (zh) 一种合同条款风险检查方法、***、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant