CN110321434A

CN110321434A - 一种基于词义消歧卷积神经网络的文本分类方法

Info

Publication number: CN110321434A
Application number: CN201910565070.4A
Authority: CN
Inventors: 肖清林
Original assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Current assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-10-11

Abstract

一种基于词义消歧卷积神经网络的文本分类方法，包括以下步骤：配置已确定词义的歧义词库；获取相关文件，从文件中提取文本内容，并对文本中各语句进行分词处理；确定语句中各个词语的词性；确定消歧目标词；确定目标词的词义并进行消歧处理；对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理，得到与原始语句相对应的目标语句；确定目标语句中词语的关键度；确定目标语句的关键度；根据语句的关键度对语句进行排序，得到目标文本；利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。本发明能够基于词义消歧卷积神经网络进行文本分类，优化了文本分类方法，提高了文本分类效率和文本分类的准确性，省时省力。

Description

一种基于词义消歧卷积神经网络的文本分类方法

技术领域

本发明涉及文本分类技术领域，尤其涉及一种基于词义消歧卷积神经网络的文本分类方法。

背景技术

随着网络媒体的日益发达和网民数量的不断增加，大量的文本数据在不断的产生，如何处理庞大的文本数据并正确分类是一个亟待解决的问题，文本分类通过已有数据训练分类器，并将此分类器用于测试文档，确定每一个文档的类别，正确的文本分类可以使用户更快的寻找到需要的信息，更方便的浏览文档，文本自动分类指通过带有类别标志的训练文本，即训练文本分类器，然后将该分类器用于测试未知类别文本进行识别；

现有的技术中，文本分类方法主要包含以下几种：基于规则的方法，通过统计大量文本特点和该领域相关知识，制定规则并通过规则分类，该方法需要大量的时间和相关专业人员；基于向量空间表达方法，首先选择和提取特征，通过向量空间构造文本表达，然后构建分类器，该方法忽略了词语的语义信息，维度较大，易引起维度灾难问题；基于分布式词向量方法，首先选择和提取特征，通过LDA或Word2Vec等方法构建文本表达，之后构建分类器，该方法只包含全局信息或局部信息的一种，而忽略了另一种信息，分类准确度较低；

目前的文本分类方法较为复杂，文本分类效率慢，文本分类的准确度较低。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于词义消歧卷积神经网络的文本分类方法，能够基于词义消歧卷积神经网络进行文本分类，优化了文本分类方法，提高了文本分类效率和文本分类的准确性，省时省力。

(二)技术方案

为解决上述问题，本发明提出了一种基于词义消歧卷积神经网络的文本分类方法，包括以下步骤：

S1、配置已确定词义的歧义词库；

S2、获取相关文件，从文件中提取文本内容，并对文本中各语句进行分词处理；

S3、对文本中各语句的词性进行标注，确定语句中各个词语的词性；

S4、基于歧义词库，确定消歧目标词；

S5、基于对语句的句法分析以及上下文信息分析，确定目标词的词义并进行消歧处理；

S6、对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理，得到与原始语句相对应的目标语句；

S7、确定目标语句中词语的关键度；

S8、根据目标语句中词语的关键度确定目标语句的关键度；

S9、根据语句的关键度对语句进行排序，得到目标文本；

S10、利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类。

优选的，在S2中，文件的获取方式包括爬虫获取、网上下载和批量导入。

优选的，在S2和S6中，通过jieba工具进行分词处理。

优选的，在S6中，通过stopwords工具进行去除分词处理。

优选的，在S6中，目标语句中至少包含一个词语。

优选的，在S7中，词语的关键度用于表示词语待分类文本所要表达的主题的相关程度。

优选的，S7的具体步骤如下：

S71、利用预先经过训练的第一词向量模型确定目标语句中词语的词向量；

S72、利用预先经过训练的主题向量模型确定目标语句中词语的主题向量；

S73、利用预先经过训练的第一主题模型确定待分类文本的主题概率分布；

S74、根据词语的词向量、词语的主题向量和主题概率分布，确定词语的关键度。

优选的，在S74中，包括以下步骤：

S741、根据预设的相似度计算方法确定词语的词向量与词语的主题向量之间的第一相似度值；

S742、根据第一相似度值和主题概率分布确定词语的关键度。

优选的，在S8中，将目标语句中关键度最高的词语的关键度确定为目标语句的关键度。

本发明的上述技术方案具有如下有益的技术效果：

本发明能够基于词义消歧卷积神经网络进行文本分类，优化了文本分类方法，提高了文本分类效率和文本分类的准确性，省时省力。

附图说明

图1为本发明提出的一种基于词义消歧卷积神经网络的文本分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于词义消歧卷积神经网络的文本分类方法，包括以下步骤：

S1、配置已确定词义的歧义词库；

S4、基于歧义词库，确定消歧目标词；

S7、确定目标语句中词语的关键度；

S8、根据目标语句中词语的关键度确定目标语句的关键度；

S9、根据语句的关键度对语句进行排序，得到目标文本；

在一个可选的实施例中，在S2中，文件的获取方式包括爬虫获取、网上下载和批量导入。

在一个可选的实施例中，在S2和S6中，通过jieba工具进行分词处理。

在一个可选的实施例中，在S6中，通过stopwords工具进行去除分词处理。

在一个可选的实施例中，在S6中，目标语句中至少包含一个词语。

在一个可选的实施例中，在S7中，词语的关键度用于表示词语待分类文本所要表达的主题的相关程度。

在一个可选的实施例中，S7的具体步骤如下：

在一个可选的实施例中，在S74中，包括以下步骤：

S742、根据第一相似度值和主题概率分布确定词语的关键度。

在一个可选的实施例中，在S8中，将目标语句中关键度最高的词语的关键度确定为目标语句的关键度。

本发明中，首先配置已确定词义的歧义词库；然后获取相关文件，从文件中提取文本内容，并对文本中各语句进行分词处理；之后对文本中各语句的词性进行标注，确定语句中各个词语的词性，并基于歧义词库，确定消歧目标词，再基于对语句的句法分析以及上下文信息分析，确定目标词的词义并进行消歧处理；然后对消歧后文本中所包含的原始语句进行分词处理和去除停用词处理，得到与原始语句相对应的目标语句；之后确定目标语句中词语的关键度，并根据目标语句中词语的关键度确定目标语句的关键度，目标语句中关键度最高的词语的关键度为目标语句的关键度；然后根据语句的关键度对语句进行排序，得到目标文本；最后利用经过训练的基于卷积神经网络的文本分类模型对目标文本进行分类；

其中，确定目标语句中词语的关键度的步骤为：利用预先经过训练的第一词向量模型确定目标语句中词语的词向量，利用预先经过训练的主题向量模型确定目标语句中词语的主题向量，利用预先经过训练的第一主题模型确定待分类文本的主题概率分布，根据预设的相似度计算方法确定词语的词向量与词语的主题向量之间的第一相似度值，并根据第一相似度值和主题概率分布确定词语的关键度；

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，包括以下步骤：

S1、配置已确定词义的歧义词库；

S4、基于歧义词库，确定消歧目标词；

S7、确定目标语句中词语的关键度；

S8、根据目标语句中词语的关键度确定目标语句的关键度；

S9、根据语句的关键度对语句进行排序，得到目标文本；

2.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，在S2中，文件的获取方式包括爬虫获取、网上下载和批量导入。

3.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，在S2和S6中，通过jieba工具进行分词处理。

4.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，在S6中，通过stopwords工具进行去除分词处理。

5.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，在S6中，目标语句中至少包含一个词语。

6.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，在S7中，词语的关键度用于表示词语待分类文本所要表达的主题的相关程度。

7.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，S7的具体步骤如下：

8.根据权利要求7所述的一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，在S74中，包括以下步骤：

S742、根据第一相似度值和主题概率分布确定词语的关键度。

9.根据权利要求1所述的一种基于词义消歧卷积神经网络的文本分类方法，其特征在于，在S8中，将目标语句中关键度最高的词语的关键度确定为目标语句的关键度。