CN109918500A

CN109918500A - 基于卷积神经网络的文本分类方法及相关设备

Info

Publication number: CN109918500A
Application number: CN201910042629.5A
Authority: CN
Inventors: 徐亮; 金戈; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-06-21
Also published as: WO2020147393A1

Abstract

本申请涉及人工智能领域，公开了一种基于卷积神经网络的文本分类方法及相关设备，所述方法包括：获取词与词向量之间的映射关系以及字与字向量之间的映射关系；获取待分类文本，并根据所述词与词向量之间的映射关系以及字与字向量之间的映射关系将所述待分类文本转换成词向量及字向量；将所述词向量及字向量输入卷积神经网络文本分类模型，并通过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合，获得所述待分类文本的类型。本申请通过将待分类文本提取词向量和字向量，并将所述词向量和字向量输入卷积神经网络进行融合，可以有效的提高文本分类的准确度。

Description

基于卷积神经网络的文本分类方法及相关设备

技术领域

本申请涉及人工智能领域，特别涉及一种基于卷积神经网络的文本分类方法及相关设备。

背景技术

文本分类是对大量非结构化的文字信息(文本文档、网页等)按照给定的分类体系，根据文字信息内容分到指定的类别中去，是一种有指导的学***方拟合，kNN，遗传算法，最大熵，Generalized Instance Set等。

现有神经网络文本分类模型主要基于词向量，尽管词向量在文本分类模型中的应用优于字向量，但是字向量能够通过字符层面表示文本语义，对词向量的应用是很好的补充。目前对文本分类的方法没有针对词向量和字向量的，而少了字向量，会显著降低文本分类的准确度，不利于对文本的分析。

发明内容

本申请的目的在于针对现有技术的不足，提供一种基于卷积神经网络的文本分类方法及相关设备，通过将待分类文本提取词向量和字向量，并将所述词向量和字向量输入卷积神经网络进行融合，可以有效的提高文本分类的准确度。

为达到上述目的，本申请的技术方案提供一种基于卷积神经网络的文本分类方法及相关设备。

本申请公开了一种基于卷积神经网络的文本分类方法，包括以下步骤：

获取词与词向量之间的映射关系以及字与字向量之间的映射关系；

获取待分类文本，并根据所述词与词向量之间的映射关系以及字与字向量之间的映射关系将所述待分类文本转换成词向量及字向量；

将所述词向量及字向量输入卷积神经网络文本分类模型，并通过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合，获得所述待分类文本的类型。

较佳地，所述获取词与词向量之间的映射关系以及字与字向量之间的映射关系，包括：

获取文本训练数据，对所述文本训练数据进行分词，获得词数据；

对所述文本训练数据进行分字，获得字数据；

对所述词数据和字数据通过word2vec模型进行转换，获得词向量和字向量，并分别建立词与词向量之间的映射关系及字与字向量之间的映射关系。

较佳地，所述获取待分类文本，并根据所述词与词向量之间的映射关系以及字与字向量之间的映射关系将所述待分类文本转换成词向量及字向量，包括：

获取待分类文本，将所述待分类文本进行分词，获得词数据，并根据所述词与词向量之间的映射关系将所述词数据转换为词向量；

对所述待分类文本进行分字，获得字数据，并根据所述字与字向量之间的映射关系将所述字数据转换为字向量。

较佳地，所述将所述词向量及字向量输入卷积神经网络文本分类模型，并通过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合，获得所述待分类文本的类型包括：

将所述词向量及字向量输入卷积神经网络文本分类模型的卷积层，通过所述卷积层对所述词向量及字向量进行卷积运算分别获得所述词向量及字向量的特征，并发送给全连接层；

通过所述全连接层对所述词向量及字向量的特征进行融合，获得词向量和字向量的融合信息，根据所述词向量和字向量的融合信息获得所述待分类文本的类型。

较佳地，所述将所述词向量及字向量输入卷积神经网络文本分类模型的卷积层，通过所述卷积层对所述词向量及字向量进行卷积运算分别获得所述词向量及字向量的特征，并发送给全连接层，包括：

将所述词向量及字向量输入卷积神经网络文本分类模型的卷积层，通过所述卷积层的卷积运算分别获得所述词向量及字向量的特征，并发送给注意力层；

通过所述注意力层分别对所述词向量和字向量进行权重分配后发送给全连接层。

较佳地，所述将所述词向量及字向量输入卷积神经网络文本分类模型，并通过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合，获得所述待分类文本的类型，包括：

将所述词向量及字向量输入卷积神经网络文本分类模型的第一卷积层，通过所述第一卷积层对所述词向量及字向量进行卷积运算后发送至第一全连接层；

通过所述第一全连接层对所述词向量和字向量进行融合后，获得第一融合信息，并将所述第一融合信息发送至第二卷积层；

通过所述第二卷积层对所述第一融合信息进行卷积运算后发送至第二全连接层，通过所述第二全连接层进行融合后获得第二融合信息，并根据所述第二融合信息获得所述待分类文本的类型。

较佳地，所述通过所述第二全连接层进行融合后获得第二融合信息，并根据所述第二融合信息获得所述待分类文本的类型，包括：

通过所述第二全连接层进行融合后获得第二融合信息，并将所述第二融合信息发送给输出层；

通过所述输出层的softmax函数根据所述第二融合信息获取每个文本类型的概率，在所述概率中获取最大的概率，并将所述最大的概率对应的文本类型作为所述待分类文本的类型进行输出。

本申请还公开了一种基于卷积神经网络的文本分类装置，所述装置包括：

向量映射模块：设置为获取词与词向量之间的映射关系以及字与字向量之间的映射关系；

向量生成模块：设置为获取待分类文本，并根据所述词与词向量之间的映射关系以及字与字向量之间的映射关系将所述待分类文本转换成词向量及字向量；

文本分类模块：设置为将所述词向量及字向量输入卷积神经网络文本分类模型，并通过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合，获得所述待分类文本的类型。

本申请还公开了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行上述所述文本分类方法的步骤。

本申请还公开了一种存储介质，所述存储介质可被处理器读写，所述存储介质存储有计算机指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述文本分类方法的步骤。

本申请的有益效果是：本申请通过将待分类文本提取词向量和字向量，并将所述词向量和字向量输入卷积神经网络进行融合，可以有效地提高文本分类的准确度。

附图说明

图1为本申请实施例的一种基于卷积神经网络的文本分类方法的流程示意图；

图2为本申请实施例的一种基于卷积神经网络的文本分类方法的流程示意图；

图3为本申请实施例的一种基于卷积神经网络的文本分类方法的流程示意图；

图4为本申请实施例的一种基于卷积神经网络的文本分类方法的流程示意图；

图5为本申请实施例的一种基于卷积神经网络的文本分类方法的流程示意图；

图6为本申请实施例的一种基于卷积神经网络的文本分类方法的流程示意图；

图7为本申请实施例的一种基于卷积神经网络的文本分类方法的流程示意图；

图8为本申请实施例的一种基于卷积神经网络的文本分类装置结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本申请实施例的一种基于卷积神经网络的文本分类方法流程如图1所示，本实施例包括以下步骤：

步骤s101，获取词与词向量之间的映射关系以及字与字向量之间的映射关系；

具体的，文本的分类是基于词向量和字向量，而待分类文本可看成是由词和字组成的文本，因此在对待分类文本进行向量转换之前，可预先设定词与词向量之间的映射关系及字与字向量之间的映射关系。

步骤s102，获取待分类文本，并根据所述词与词向量之间的映射关系以及字与字向量之间的映射关系将所述待分类文本转换成词向量及字向量；

具体的，当获取一篇待分类文本后，可先将所述待分类文本进行分词和分字，由于所述待分类文本也是有词和字组成，因此可将所述待分类文本分割成词和字，分别获得词数据和字数据，然后根据词与词向量之间的映射关系将所述词数据转换成词向量，根据字与字向量之间的映射关系将所述字数据转换成字向量。

步骤s103，将所述词向量及字向量输入卷积神经网络文本分类模型，并通过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合，获得所述待分类文本的类型。

具体的，当获取到所述待分类文本的词向量及字向量后，可将所述词向量和字向量同时输入卷积神经网络文本分类模型，所述卷积神经网络文本分类模型包含卷积层及全连接层，所述卷积层对所述词向量和字向量进行卷积运算，分别提取所述词向量和字向量的特征，然后将所述词向量和字向量的特征输入全连接层进行融合，当通过所述全连接层对所述词向量和字向量的特征信息进行融合后，输入输出层，获取所述待分类文本的类型。

本实施例中，通过将待分类文本提取词向量和字向量，并将所述词向量和字向量输入卷积神经网络进行融合，可以有效的提高文本分类的准确度。

图2为本申请实施例的一种基于卷积神经网络的文本分类方法流程示意图，如图所示，所述步骤s101，获取词与词向量之间的映射关系以及字与字向量之间的映射关系，包括：

步骤s201，获取文本训练数据，对所述文本训练数据进行分词，获得词数据；

具体的，所述文本训练数据可以采用中文***作为训练语料，当获取到所述训练数据后，可通过Python中的jieba模块对所述训练数据进行分词，即对训练文本通过jieba分词工具划分成一组词数据。

步骤s202，对所述文本训练数据进行分字，获得字数据；

具体的，通过分词工具jieba对所述训练文本进行分词后，可将训练文本中的每个字提取出来，获得一组字数据。

步骤s203，对所述词数据和字数据通过word2vec模型进行转换，获得词向量和字向量，并分别建立词与词向量之间的映射关系及字与字向量之间的映射关系。

具体的，可先将所述词数据载入gensim库中的word2vec模块，将所述词数据转换成词向量，并将所述词与词向量之间的映射关系保存下来；然后将所述字数据也载入gensim库中的word2vec模块，将所述字数据也转换成字向量，并将所述字与字向量之间的映射关系保存下来。

本实施例中，通过jieba模块和word2vec模块对训练文本向量的转换，可以有效获取词与词向量之间的映射关系及字与字向量之间的映射关系。

图3为本申请实施例的一种基于卷积神经网络的文本分类方法流程示意图，如图所示，所述步骤s102，获取待分类文本，并根据所述词与词向量之间的映射关系以及字与字向量之间的映射关系将所述待分类文本转换成词向量及字向量，包括：

步骤s301，获取待分类文本，将所述待分类文本进行分词，获得词数据，并根据所述词与词向量之间的映射关系将所述词数据转换为词向量；

具体的，所述待分类文本可以是一篇文档，也可以是一个网页，当获取到所述待分类文本后，可通过分词工具，如jieba分词工具，对所述待分类文本进行分词，获得词数据，然后将所述词数据根据步骤s101中词与词向量之间的映射关系转换为词向量。

步骤s302，对所述待分类文本进行分字，获得字数据，并根据所述字与字向量之间的映射关系将所述字数据转换为字向量。

具体的，可先将所述待分类文本分割成一个一个字，获得一组字数据，然后将所述字数据根据步骤s101中字与字向量之间的映射关系转换为字向量。

本实施例中，通过词与词向量之间的映射关系及字与字向量之间的映射关系，可将所述待分类文本转换成词向量及字向量。

图4为本申请实施例的一种基于卷积神经网络的文本分类方法流程示意图，如图所示，所述步骤s103，将所述词向量及字向量输入卷积神经网络文本分类模型，并通过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合，获得所述待分类文本的类型，包括：

步骤s401，将所述词向量及字向量输入卷积神经网络文本分类模型的卷积层，通过所述卷积层对所述词向量及字向量进行卷积运算分别获得所述词向量及字向量的特征，并发送给全连接层；

具体的，可先将所述词向量及字向量输入卷积神经网络文本分类模型的卷积层，在所述卷积层中可先建立尺度为1、3、5的一维卷积核，分别对所述词向量和字向量进行卷积运算以提取所述词向量和字向量的特征，每种尺度的一维卷积核的通道数为128，卷积运算后的结果可通过激活函数ReLU激活，并输入到池化层进行数据压缩，然后将所述词向量和字向量的特征信息发送给全连接层。

步骤s402，通过所述全连接层对所述词向量及字向量的特征进行融合，获得词向量和字向量的融合信息，根据所述词向量和字向量的融合信息获得所述待分类文本的类型。

具体的，所述全连接层连接所有的卷积通道，所述卷积通道包含两路信息，即词向量信息和字向量信息，当所述全连接层获取到所述词向量信息和字向量信息后，可对所述词向量信息和字向量信息进行融合，即将所述词向量信息和字向量信息转换为文本类型信息，然后根据所述文本类型信息计算出属于各个文本类型的概率，并从中选取最大的那个概率对应的文本类型作为待分类文本的类型。

本实施例中，通过卷积层成运算和全连接层的信息融合，可以有效获取文本类型，提高文本分类准确度。

图5为本申请实施例的一种基于卷积神经网络的文本分类方法流程示意图，如图所示，所述步骤s401，将所述词向量及字向量输入卷积神经网络文本分类模型的卷积层，通过所述卷积层对所述词向量及字向量进行卷积运算分别获得所述词向量及字向量的特征，并发送给全连接层，包括：

步骤s501，将所述词向量及字向量输入卷积神经网络文本分类模型的卷积层，通过所述卷积层的卷积运算分别获得所述词向量及字向量的特征，并发送给注意力层；

具体的，可先将所述词向量及字向量输入卷积神经网络文本分类模型的卷积层，在所述卷积层中可先建立尺度为1、3、5的一维卷积核，分别对所述词向量和字向量进行卷积运算以提取所述词向量和字向量的特征，每种尺度的一维卷积核的通道数为128，卷积运算后的结果可通过ReLU激活函数激活，并输入到池化层进行数据压缩，然后将所述词向量和字向量的特征信息发送给注意力层。

步骤s502，通过所述注意力层分别对所述词向量和字向量进行权重分配后发送给全连接层。

具体的，当注意力层获取到所述词向量和字向量的两路特征信息后，可分别对词向量通道信息和字向量通道信息进行权重分配，所述注意力层是平行于全连接层的一个全连接结构，连接卷积输出，并通过softmax函数输出，所述softmax函数用于对通道进行权重分配，以词向量通道为例，如词向量通道有128个通道，每个通道对应词向量的特征，那么通过softmax函数可对所述128个通道进行权重分配，包含重要特征信息的通道会分配较大的权重，这样可以过滤不必要的词组信息，当分配好权重以后，对每条通道的特征信息乘以权重然后相加即为词向量通道总的特征信息；同样的，对字向量通道进行权重分配并加权计算后，将所述词向量信息和字向量信息发送给全连接层进行信息融合。

本实施例中，通过注意力层进行权重分配，可以过滤词向量和字向量中不重要的特征信息，提高文本分类的效率。

图6为本申请实施例的一种基于卷积神经网络的文本分类方法流程示意图，如图所示，所述步骤s103，将所述词向量及字向量输入卷积神经网络文本分类模型，并通过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合，获得所述待分类文本的类型，包括：

步骤s601，将所述词向量及字向量输入卷积神经网络文本分类模型的第一卷积层，通过所述第一卷积层对所述词向量及字向量进行卷积运算后发送至第一全连接层；

具体的，可先将所述词向量及字向量输入卷积神经网络文本分类模型的第一个卷积层，在第一个卷积层中可先建立尺度为1、3、5的一维卷积核，分别对所述词向量和字向量进行卷积运算以提取所述词向量和字向量的特征，每种尺度的一维卷积核的通道数为128，卷积运算后的结果可通过ReLU激活函数激活，并输入到池化层进行数据压缩，然后将所述词向量和字向量的特征信息发送给第一个全连接层。

步骤s602，通过所述第一全连接层对所述词向量和字向量进行融合后，获得第一融合信息，并将所述第一融合信息发送至第二卷积层；

具体的，当第一个全接连层收到词向量和字向量的特征信息后，对词向量和字向量的两路特征信息进行融合，获得第一个融合信息，并将第一个融合信息发送至第二个卷积层。

步骤s603，通过所述第二卷积层对所述第一融合信息进行卷积运算后发送至第二全连接层，通过所述第二全连接层进行融合后获得第二融合信息，并根据所述第二融合信息获得所述待分类文本的类型。

具体的，当第二个卷积层收到第一个融合信息后，对第一个融合信息建立通道并再次进行卷积运算，提取第一个融合信息中的特征信息，并发送给第二个全连接层，通过第二个全连接层对卷积通道的输出信息进行再次融合，获得第二个融合信息，然后根据第二个融合信息计算出属于各个文本类型的概率，并从中选取最大的那个概率对应的文本类型作为待分类文本的类型。

本实施例中，通过两个卷积层的卷积运算和两个全连接层的信息融合，可以有效提高文本分类的准确度。

图7为本申请实施例的一种基于卷积神经网络的文本分类方法流程示意图，如图所示，所述步骤s603，通过所述第二全连接层进行融合后获得第二融合信息，并根据所述第二融合信息获得所述待分类文本的类型，包括：

步骤s701，通过所述第二全连接层进行融合后获得第二融合信息，并将所述第二融合信息发送给输出层；

具体的，通过第二全连接层对卷积运算后的第一个融合信息进行再次融合后，获得第二个融合信息，并将第二个融合信息发送给输出层。

步骤s702，通过所述输出层的softmax函数根据所述第二融合信息获取每个文本类型的概率，在所述概率中获取最大的概率，并将所述最大的概率对应的文本类型作为所述待分类文本的类型进行输出。

具体的，输出层收到第二个融合信息后，所述第二个融合信息可看做文本特征在各个文本类型上的分布，例如，本次文本分类的类型是体育或者财经，那么第二融合信息就是指有多少信息是包含体育特征的，有多少信息是包含财经特征的，然后通过输出层的softmax函数计算属于体育类型的概率及属于财经类型的概率，然后选择概率最大的类型作为输出类型，例如，属于体育类型的概率为0.8，属于财经类型的概率为0.2，那么待分类文本的类型为体育类型。

本实施例中，通过输出层对融合信息的分析计算，可以有效获取待分类文本的类型。

本申请实施例的一种基于卷积神经网络的文本分类装置结构如图8所示，包括：

向量映射模块801、向量生成模块802及文本分类模块803；其中，向量映射模块801与向量生成模块802相连，向量生成模块802与文本分类模块803相连；向量映射模块801设置为获取词与词向量之间的映射关系以及字与字向量之间的映射关系；向量生成模块802设置为获取待分类文本，并根据所述词与词向量之间的映射关系以及字与字向量之间的映射关系将所述待分类文本转换成词向量及字向量；文本分类模块803设置为将所述词向量及字向量输入卷积神经网络文本分类模型，并通过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合，获得所述待分类文本的类型。

本申请实施例还公开了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行上述各实施例中所述文本分类方法中的步骤。

本申请实施例还公开了一种存储介质，所述存储介质可被处理器读写，所述存储器存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述各实施例中所述文本分类方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于卷积神经网络的文本分类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于卷积神经网络的文本分类方法，其特征在于，所述获取词与词向量之间的映射关系以及字与字向量之间的映射关系，包括：

对所述文本训练数据进行分字，获得字数据；

3.如权利要求1所述的基于卷积神经网络的文本分类方法，其特征在于，所述获取待分类文本，并根据所述词与词向量之间的映射关系以及字与字向量之间的映射关系将所述待分类文本转换成词向量及字向量，包括：

4.如权利要求1所述的基于卷积神经网络的文本分类方法，其特征在于，所述将所述词向量及字向量输入卷积神经网络文本分类模型，并通过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合，获得所述待分类文本的类型包括：

5.如权利要求4所述的基于卷积神经网络的文本分类方法，其特征在于，所述将所述词向量及字向量输入卷积神经网络文本分类模型的卷积层，通过所述卷积层对所述词向量及字向量进行卷积运算分别获得所述词向量及字向量的特征，并发送给全连接层，包括：

6.如权利要求1所述的基于卷积神经网络的文本分类方法，其特征在于，所述将所述词向量及字向量输入卷积神经网络文本分类模型，并通过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合，获得所述待分类文本的类型，包括：

7.如权利要求6所述的基于卷积神经网络的文本分类方法，其特征在于，所述通过所述第二全连接层进行融合后获得第二融合信息，并根据所述第二融合信息获得所述待分类文本的类型，包括：

8.一种基于卷积神经网络的文本分类装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被一个或多个所述处理器执行时，使得一个或多个所述处理器执行如权利要求1至7中任一项所述文本分类方法的步骤。

10.一种存储介质，其特征在于，所述存储介质可被处理器读写，所述存储介质存储有计算机指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述文本分类方法的步骤。