CN110321434A - 一种基于词义消歧卷积神经网络的文本分类方法 - Google Patents

一种基于词义消歧卷积神经网络的文本分类方法 Download PDF

Info

Publication number
CN110321434A
CN110321434A CN201910565070.4A CN201910565070A CN110321434A CN 110321434 A CN110321434 A CN 110321434A CN 201910565070 A CN201910565070 A CN 201910565070A CN 110321434 A CN110321434 A CN 110321434A
Authority
CN
China
Prior art keywords
word
text
criticality
convolutional neural
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910565070.4A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central Mdt Infotech Ltd Of United States Of Xiamen
Original Assignee
Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central Mdt Infotech Ltd Of United States Of Xiamen filed Critical Central Mdt Infotech Ltd Of United States Of Xiamen
Priority to CN201910565070.4A priority Critical patent/CN110321434A/zh
Publication of CN110321434A publication Critical patent/CN110321434A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种基于词义消歧卷积神经网络的文本分类方法,包括以下步骤:配置已确定词义的歧义词库;获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;确定语句中各个词语的词性;确定消歧目标词;确定目标词的词义并进行消歧处理;对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;确定目标语句中词语的关键度;确定目标语句的关键度;根据语句的关键度对语句进行排序,得到目标文本;利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。本发明能够基于词义消歧卷积神经网络进行文本分类,优化了文本分类方法,提高了文本分类效率和文本分类的准确性,省时省力。

Description

一种基于词义消歧卷积神经网络的文本分类方法
技术领域
本发明涉及文本分类技术领域,尤其涉及一种基于词义消歧卷积神经网络的文本分类方法。
背景技术
随着网络媒体的日益发达和网民数量的不断增加,大量的文本数据在不断的产生,如何处理庞大的文本数据并正确分类是一个亟待解决的问题,文本分类通过已有数据训练分类器,并将此分类器用于测试文档,确定每一个文档的类别,正确的文本分类可以使用户更快的寻找到需要的信息,更方便的浏览文档,文本自动分类指通过带有类别标志的训练文本,即训练文本分类器,然后将该分类器用于测试未知类别文本进行识别;
现有的技术中,文本分类方法主要包含以下几种:基于规则的方法,通过统计大量文本特点和该领域相关知识,制定规则并通过规则分类,该方法需要大量的时间和相关专业人员;基于向量空间表达方法,首先选择和提取特征,通过向量空间构造文本表达,然后构建分类器,该方法忽略了词语的语义信息,维度较大,易引起维度灾难问题;基于分布式词向量方法,首先选择和提取特征,通过LDA或Word2Vec等方法构建文本表达,之后构建分类器,该方法只包含全局信息或局部信息的一种,而忽略了另一种信息,分类准确度较低;
目前的文本分类方法较为复杂,文本分类效率慢,文本分类的准确度较低。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于词义消歧卷积神经网络的文本分类方法,能够基于词义消歧卷积神经网络进行文本分类,优化了文本分类方法,提高了文本分类效率和文本分类的准确性,省时省力。
(二)技术方案
为解决上述问题,本发明提出了一种基于词义消歧卷积神经网络的文本分类方法,包括以下步骤:
S1、配置已确定词义的歧义词库;
S2、获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;
S3、对文本中各语句的词性进行标注,确定语句中各个词语的词性;
S4、基于歧义词库,确定消歧目标词;
S5、基于对语句的句法分析以及上下文信息分析,确定目标词的词义并进行消歧处理;
S6、对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;
S7、确定目标语句中词语的关键度;
S8、根据目标语句中词语的关键度确定目标语句的关键度;
S9、根据语句的关键度对语句进行排序,得到目标文本;
S10、利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。
优选的,在S2中,文件的获取方式包括爬虫获取、网上下载和批量导入。
优选的,在S2和S6中,通过jieba工具进行分词处理。
优选的,在S6中,通过stopwords工具进行去除分词处理。
优选的,在S6中,目标语句中至少包含一个词语。
优选的,在S7中,词语的关键度用于表示词语待分类文本所要表达的主题的相关程度。
优选的,S7的具体步骤如下:
S71、利用预先经过训练的第一词向量模型确定目标语句中词语的词向量;
S72、利用预先经过训练的主题向量模型确定目标语句中词语的主题向量;
S73、利用预先经过训练的第一主题模型确定待分类文本的主题概率分布;
S74、根据词语的词向量、词语的主题向量和主题概率分布,确定词语的关键度。
优选的,在S74中,包括以下步骤:
S741、根据预设的相似度计算方法确定词语的词向量与词语的主题向量之间的第一相似度值;
S742、根据第一相似度值和主题概率分布确定词语的关键度。
优选的,在S8中,将目标语句中关键度最高的词语的关键度确定为目标语句的关键度。
本发明的上述技术方案具有如下有益的技术效果:
本发明能够基于词义消歧卷积神经网络进行文本分类,优化了文本分类方法,提高了文本分类效率和文本分类的准确性,省时省力。
附图说明
图1为本发明提出的一种基于词义消歧卷积神经网络的文本分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于词义消歧卷积神经网络的文本分类方法,包括以下步骤:
S1、配置已确定词义的歧义词库;
S2、获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;
S3、对文本中各语句的词性进行标注,确定语句中各个词语的词性;
S4、基于歧义词库,确定消歧目标词;
S5、基于对语句的句法分析以及上下文信息分析,确定目标词的词义并进行消歧处理;
S6、对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;
S7、确定目标语句中词语的关键度;
S8、根据目标语句中词语的关键度确定目标语句的关键度;
S9、根据语句的关键度对语句进行排序,得到目标文本;
S10、利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。
在一个可选的实施例中,在S2中,文件的获取方式包括爬虫获取、网上下载和批量导入。
在一个可选的实施例中,在S2和S6中,通过jieba工具进行分词处理。
在一个可选的实施例中,在S6中,通过stopwords工具进行去除分词处理。
在一个可选的实施例中,在S6中,目标语句中至少包含一个词语。
在一个可选的实施例中,在S7中,词语的关键度用于表示词语待分类文本所要表达的主题的相关程度。
在一个可选的实施例中,S7的具体步骤如下:
S71、利用预先经过训练的第一词向量模型确定目标语句中词语的词向量;
S72、利用预先经过训练的主题向量模型确定目标语句中词语的主题向量;
S73、利用预先经过训练的第一主题模型确定待分类文本的主题概率分布;
S74、根据词语的词向量、词语的主题向量和主题概率分布,确定词语的关键度。
在一个可选的实施例中,在S74中,包括以下步骤:
S741、根据预设的相似度计算方法确定词语的词向量与词语的主题向量之间的第一相似度值;
S742、根据第一相似度值和主题概率分布确定词语的关键度。
在一个可选的实施例中,在S8中,将目标语句中关键度最高的词语的关键度确定为目标语句的关键度。
本发明中,首先配置已确定词义的歧义词库;然后获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;之后对文本中各语句的词性进行标注,确定语句中各个词语的词性,并基于歧义词库,确定消歧目标词,再基于对语句的句法分析以及上下文信息分析,确定目标词的词义并进行消歧处理;然后对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;之后确定目标语句中词语的关键度,并根据目标语句中词语的关键度确定目标语句的关键度,目标语句中关键度最高的词语的关键度为目标语句的关键度;然后根据语句的关键度对语句进行排序,得到目标文本;最后利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类;
其中,确定目标语句中词语的关键度的步骤为:利用预先经过训练的第一词向量模型确定目标语句中词语的词向量,利用预先经过训练的主题向量模型确定目标语句中词语的主题向量,利用预先经过训练的第一主题模型确定待分类文本的主题概率分布,根据预设的相似度计算方法确定词语的词向量与词语的主题向量之间的第一相似度值,并根据第一相似度值和主题概率分布确定词语的关键度;
本发明能够基于词义消歧卷积神经网络进行文本分类,优化了文本分类方法,提高了文本分类效率和文本分类的准确性,省时省力。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (9)

1.一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,包括以下步骤:
S1、配置已确定词义的歧义词库;
S2、获取相关文件,从文件中提取文本内容,并对文本中各语句进行分词处理;
S3、对文本中各语句的词性进行标注,确定语句中各个词语的词性;
S4、基于歧义词库,确定消歧目标词;
S5、基于对语句的句法分析以及上下文信息分析,确定目标词的词义并进行消歧处理;
S6、对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理,得到与原始语句相对应的目标语句;
S7、确定目标语句中词语的关键度;
S8、根据目标语句中词语的关键度确定目标语句的关键度;
S9、根据语句的关键度对语句进行排序,得到目标文本;
S10、利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。
2.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,在S2中,文件的获取方式包括爬虫获取、网上下载和批量导入。
3.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,在S2和S6中,通过jieba工具进行分词处理。
4.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,在S6中,通过stopwords工具进行去除分词处理。
5.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,在S6中,目标语句中至少包含一个词语。
6.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,在S7中,词语的关键度用于表示词语待分类文本所要表达的主题的相关程度。
7.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,S7的具体步骤如下:
S71、利用预先经过训练的第一词向量模型确定目标语句中词语的词向量;
S72、利用预先经过训练的主题向量模型确定目标语句中词语的主题向量;
S73、利用预先经过训练的第一主题模型确定待分类文本的主题概率分布;
S74、根据词语的词向量、词语的主题向量和主题概率分布,确定词语的关键度。
8.根据权利要求7所述的一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,在S74中,包括以下步骤:
S741、根据预设的相似度计算方法确定词语的词向量与词语的主题向量之间的第一相似度值;
S742、根据第一相似度值和主题概率分布确定词语的关键度。
9.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法,其特征在于,在S8中,将目标语句中关键度最高的词语的关键度确定为目标语句的关键度。
CN201910565070.4A 2019-06-27 2019-06-27 一种基于词义消歧卷积神经网络的文本分类方法 Pending CN110321434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910565070.4A CN110321434A (zh) 2019-06-27 2019-06-27 一种基于词义消歧卷积神经网络的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910565070.4A CN110321434A (zh) 2019-06-27 2019-06-27 一种基于词义消歧卷积神经网络的文本分类方法

Publications (1)

Publication Number Publication Date
CN110321434A true CN110321434A (zh) 2019-10-11

Family

ID=68120528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910565070.4A Pending CN110321434A (zh) 2019-06-27 2019-06-27 一种基于词义消歧卷积神经网络的文本分类方法

Country Status (1)

Country Link
CN (1) CN110321434A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765757A (zh) * 2019-10-16 2020-02-07 腾讯云计算(北京)有限责任公司 文本识别方法、计算机可读存储介质和计算机设备
CN111310475A (zh) * 2020-02-04 2020-06-19 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
CN113723101A (zh) * 2021-09-09 2021-11-30 国网电子商务有限公司 一种应用于意图识别的词义消歧方法及装置
US11687724B2 (en) 2020-09-30 2023-06-27 International Business Machines Corporation Word sense disambiguation using a deep logico-neural network
CN117473095A (zh) * 2023-12-27 2024-01-30 合肥工业大学 基于主题增强词表示的短文本分类方法和***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488623A (zh) * 2013-09-04 2014-01-01 中国科学院计算技术研究所 多种语言文本数据分类处理方法
CN105045913A (zh) * 2015-08-14 2015-11-11 北京工业大学 基于WordNet以及潜在语义分析的文本分类方法
CN107608968A (zh) * 2017-09-22 2018-01-19 深圳市易图资讯股份有限公司 面向文本大数据的中文分词方法、装置
CN108241741A (zh) * 2017-12-29 2018-07-03 深圳市金立通信设备有限公司 一种文本分类方法、服务器及计算机可读存储介质
US10108674B1 (en) * 2014-08-26 2018-10-23 Twitter, Inc. Method and system for topic disambiguation and classification
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及***
CN109726385A (zh) * 2017-10-31 2019-05-07 株式会社Ntt都科摩 词义消歧方法和设备、词义扩展方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488623A (zh) * 2013-09-04 2014-01-01 中国科学院计算技术研究所 多种语言文本数据分类处理方法
US10108674B1 (en) * 2014-08-26 2018-10-23 Twitter, Inc. Method and system for topic disambiguation and classification
CN105045913A (zh) * 2015-08-14 2015-11-11 北京工业大学 基于WordNet以及潜在语义分析的文本分类方法
CN107608968A (zh) * 2017-09-22 2018-01-19 深圳市易图资讯股份有限公司 面向文本大数据的中文分词方法、装置
CN109726385A (zh) * 2017-10-31 2019-05-07 株式会社Ntt都科摩 词义消歧方法和设备、词义扩展方法和装置
CN108241741A (zh) * 2017-12-29 2018-07-03 深圳市金立通信设备有限公司 一种文本分类方法、服务器及计算机可读存储介质
CN109408641A (zh) * 2018-11-22 2019-03-01 山东工商学院 一种基于有监督主题模型的文本分类方法及***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765757A (zh) * 2019-10-16 2020-02-07 腾讯云计算(北京)有限责任公司 文本识别方法、计算机可读存储介质和计算机设备
CN111310475A (zh) * 2020-02-04 2020-06-19 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
CN111310475B (zh) * 2020-02-04 2023-03-10 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
US11687724B2 (en) 2020-09-30 2023-06-27 International Business Machines Corporation Word sense disambiguation using a deep logico-neural network
CN113723101A (zh) * 2021-09-09 2021-11-30 国网电子商务有限公司 一种应用于意图识别的词义消歧方法及装置
CN117473095A (zh) * 2023-12-27 2024-01-30 合肥工业大学 基于主题增强词表示的短文本分类方法和***
CN117473095B (zh) * 2023-12-27 2024-03-29 合肥工业大学 基于主题增强词表示的短文本分类方法和***

Similar Documents

Publication Publication Date Title
CN110321434A (zh) 一种基于词义消歧卷积神经网络的文本分类方法
CN104699763B (zh) 多特征融合的文本相似性度量***
CN110532554A (zh) 一种中文摘要生成方法、***及存储介质
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN107315734B (zh) 一种基于时间窗口和语义的变体词规范化的方法和***
CN108984661A (zh) 一种知识图谱中实体对齐方法和装置
CN110717041B (zh) 一种案件检索方法及***
CN103744953A (zh) 一种基于中文文本情感识别的网络热点挖掘方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN112036177A (zh) 基于多模型融合的文本语义相似度信息处理方法及***
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及***
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN106649250A (zh) 一种情感新词的识别方法及装置
CN108536781B (zh) 一种社交网络情绪焦点的挖掘方法及***
CN113722492A (zh) 一种意图识别方法及装置
Najafi et al. Text-to-Text Transformer in Authorship Verification Via Stylistic and Semantical Analysis.
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN114997288A (zh) 一种设计资源关联方法
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测***
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
CN112632259A (zh) 一种基于语言学规则生成的对话意图自动识别***
CN107562774A (zh) 小语种词嵌入模型的生成方法、***及问答方法和***
CN109241521B (zh) 一种基于引用关系的科技文献高关注度句子提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191011