CN108595429A

CN108595429A - 基于深度卷积神经网络进行文本特征提取的方法

Info

Publication number: CN108595429A
Application number: CN201810379548.XA
Authority: CN
Inventors: 张黎; 邹开红; 宗旭; 肖增辉
Original assignee: Hangzhou Flash Press Information Polytron Technologies Inc
Current assignee: Hangzhou Flash Press Information Polytron Technologies Inc
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2018-09-28

Abstract

本发明提供基于深度卷积神经网络进行文本特征提取的方法，属于文本特征提取技术领域。该基于深度卷积神经网络进行文本特征提取的方法包括以下步骤：S1：将句子样本中的词转换为词向量；S2：通过深度卷积神经网络扫描所述词向量得到扫描特征；S3：通过对扫描特征进行采样生成深度特征；S4：将深度特征输入至分类层得到分类结果。本发明中将句子样本中的词转换为词向量，通过深度卷积神经网络扫描词向量得到扫描特征，通过对扫描特征进行采样生成深度特征，将深度特征输入至分类层得到分类结果，则完成对文本的特征提取，解决了句子长短不一的问题，提高了文本特征提取的准确率和性能，消耗资源更少，效率更高。

Description

基于深度卷积神经网络进行文本特征提取的方法

技术领域

本发明属于文本特征提取技术领域，涉及基于深度卷积神经网络进行文本特征提取的方法。

背景技术

随着互联网的快速发展，互联网已经成为了人们获取信息的主要渠道，互联网上的文本数据内容呈现着指数增长的趋势。互联网上的文本数据包括丰富的信息，这些信息对于我们构建知识库或知识图谱非常有用；但是人工进行相关知识提取的工作量过大，如果能够通过计算机理解并提取出有用的信息，这样就可以节省大量的人力。但互联网上的文本数据几乎都是以自然语言的形式存在，即无结构化的，计算机无法直接进行处理。为了解决这个问题，信息抽取技术应运而生，信息抽取技术从无结构化的文本数据中抽取出结构化数据。文本挖掘技术可以帮助人们快速有效的从海量数据中获取关键信息，而文本特征提取则是文本挖掘的关键步骤。

发明内容

本发明针对现有的技术存在的上述问题，提供基于深度卷积神经网络进行文本特征提取的方法，本发明所要解决的技术问题是：如何通过深度卷积神经网络对文本中的特征进行提取。

本发明的目的可通过下列技术方案来实现：

基于深度卷积神经网络进行文本特征提取的方法，包括以下步骤：

S1：将句子样本中的词转换为词向量；

S2：通过深度卷积神经网络扫描所述词向量得到扫描特征；

S3：通过对扫描特征进行采样生成深度特征；

S4：将深度特征输入至分类层得到分类结果。

优选的，步骤S1中根据词典将句子样本分隔成词。

优选的，步骤S1中通过embedding将词转换为词向量。

优选的，步骤S2中具体包括：

S21：将词向量进行计算分权得到特征矩阵；

S22：通过深度卷积神经网络的滤波器扫描特征矩阵得到扫描特征。

优选的，步骤S3中具体包括：

S31：通过max-pool对扫描特征进行采样得到采样特征；

S32：从采样特征中筛选出深度特征。

优选的，步骤S32中从采样特征中筛选出最大值作为深度特征。

优选的，所述滤波器扫描特征矩阵时每次移动的距离相等。

优选的，步骤S4中分类层将深度特征全连接生成连接特征，将连接特征输入分类层中将连接特征与类别库进行对比生成分类结果。

优选的，所述分类层为softmax分类层。

优选的，所述滤波器的宽度和特征矩阵的宽度相等。

本发明中将句子样本中的词转换为词向量，通过深度卷积神经网络扫描词向量得到扫描特征，准确率高，通过对扫描特征进行采样生成深度特征，防止过度拟合，方便优化，将深度特征输入至分类层得到分类结果，则完成对文本的特征提取，解决了句子长短不一的问题，提高了文本特征提取的准确率和性能，消耗资源更少，效率更高。

附图说明

图1是本发明的流程示意图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

请参阅图1，本实施例中的基于深度卷积神经网络进行文本特征提取的方法，可以包括以下步骤：

S1：将句子样本中的词转换为词向量；

S2：通过深度卷积神经网络扫描词向量得到扫描特征；

S3：通过对扫描特征进行采样生成深度特征；

S4：将深度特征输入至分类层得到分类结果。

步骤S1中可以根据词典将句子样本分隔成词。这样就可以根据词典将句子样本分隔成单个有语义的词，减小因为句子样本分隔不正确影响深度特征的提取，进而影响分类层的分类结果，导致提取的文本特征不正确，影响整个句子样本提取的结果。步骤S1中对句子样本进行预处理后将句子样本中的词转换为词向量，预处理包括：将句子样本中的表情符号用相对应的文字替代和删除句子样本中的重复的词。这样就可以避免在将词转换为词向量时转换不成功，减少深度特征提取的不全导致分类的结果不全，最后文本特征提取的不完整。

步骤S1中可以通过embedding将词映射到embedding层可以转换为词向量。Embedding是词嵌入，可以将文本和词语转换为机器能够接受的数值向量。词嵌入使用低维、稠密、实值的词向量来表示每一个词，从而赋予词语丰富的语义含义，并使得计算词语相关度成为可能。以最简单的情况为例，如果使用二维向量来表示词语，那么可以将每个词看作平面上的一个点，点的位置即横纵坐标由对应的二维向量确定，可以是任意且连续的。如果希望点的位置中蕴含词的语义，那么平面上位置相邻的点应当具有相关或相似的语义。用数学的语言来说，两个词具有语义相关或相似，则它们所对应的词向量之间距离相近，度量向量之间的距离可以使用经典的欧拉距离和余弦相似度等。

步骤S2中可以具体包括：

S21：将词向量进行计算分权得到特征矩阵，通过将词向量出现的概率进行计算分权得到特征矩阵；

S22：通过深度卷积神经网络的滤波器扫描特征矩阵得到扫描特征，使用深度卷积神经网络的滤波器扫描特征矩阵，准确率较高，效率较高。

此处，特征矩阵中每个神经元连接数据窗的权重可以是固定的，每个神经元只关注一个特性。神经元可以是滤波器，每个滤波器有自己关注的一个文本特征，所有的神经元加起来就是整个句子样本的特征提取器集合。将扫描特征可以做非线性映射，深度特征卷积神经网络的激励函数可以采用ReLU（修正线性单元），这个激励函数收敛快，求梯度简单。扫描特征的列数可以为1。

步骤S3中可以具体包括：

S31：通过max-pool对扫描特征进行采样得到采样特征；

S32：从采样特征中筛选出深度特征。

步骤S32中可以从采样特征中筛选出最大值作为深度特征，使用max-pool进行采样，得到样本，将样本中的最大值作为深度特征，防止过度拟合，方便优化。这样就可以实现对采样特征的降维处理，使得max-pool的输出为各个Feature Map的最大值们，即一个一维的向量，即可以得到一个一维的深度特征。

此处，通过max-pool对扫描特征进行采样可以得到采样特征，将获取的采样特征中的最大值可以作为深度特征。Max-pool可以用于压缩数据和参数的量，进行降维处理，防止过度拟合，更加方便优化。Max-pool可以保留文本中最重要的特征，去掉一些无关紧要的信息，将重复或者没有太多用途的这类冗余信息去除，把最重要的特征抽取出来。Max-pool的输出为各个Feature Map的最大值们，即一个一维的向量，深度特征可以为一个一维的向量。

滤波器扫描特征矩阵时每次移动的距离可以相等。这样可以，提高分类的效率，避免滤波器扫描特征矩阵时遗漏部分词向量，导致生成的扫描特征不全，影响后续的操作，导致最后的分类结果不准确，分类效率也较低。

滤波器的宽度可以和特征矩阵的宽度相等。特征矩阵的宽度可以与词向量的长度相等，这样滤波器的宽度可以与词向量的长度相等，这样就可以保证滤波器扫描所有的词向量，保证扫描结果的准确性，保证扫描特征的准确性。

步骤S4中分类层可以将深度特征全连接生成连接特征，将连接特征输入分类层中将连接特征与类别库进行对比生成分类结果。将深度特征输入分类器中与现有的类别库进行对比实现文本的分类，从而实现文本特征提取。将深度特征通过全连接的方式连接分类层中。每个输入都对应一个输出，这样就可以实现全连接。全连接可以使用Dropout技术，Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来，因为下次样本输入时它可能又得工作了，对深度特征的权值参数给予L2正则化的限制，这样做的好处是防止隐藏层单元自适应（或者对称），从而减轻过拟合的程度。

分类层可以为softmax分类层。Softmax分类层可以提高分类标记序列的准确性，保证分类结果准确性高，使得文本特征提取的准确率高，效率较高,消耗资源也较少。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.基于深度卷积神经网络进行文本特征提取的方法，其特征在于，包括以下步骤：

S1：将句子样本中的词转换为词向量；

S2：通过深度卷积神经网络扫描所述词向量得到扫描特征；

S3：通过对扫描特征进行采样生成深度特征；

S4：将深度特征输入至分类层得到分类结果。

2.如权利要求1所述的基于深度卷积神经网络进行文本特征提取的方法，其特征在于：步骤S1中根据词典将句子样本分隔成词。

3.如权利要求1或2所述的基于深度卷积神经网络进行文本特征提取的方法，其特征在于：步骤S1中通过embedding将词转换为词向量。

4.如权利要求3所述的基于深度卷积神经网络进行文本特征提取的方法，其特征在于，步骤S2中具体包括：

S21：将词向量进行计算分权得到特征矩阵；

S22 ：通过深度卷积神经网络的滤波器扫描特征矩阵得到扫描特征。

5.如权利要求4所述的基于深度卷积神经网络进行文本特征提取的方法，其特征在于，步骤S3中具体包括：

S31：通过max-pool对扫描特征进行采样得到采样特征；

S32：从采样特征中筛选出深度特征。

6.如权利要求4所述的基于深度卷积神经网络进行文本特征提取的方法，其特征在于：步骤S32中从采样特征中筛选出最大值作为深度特征。

7.如权利要求4所述的基于深度卷积神经网络进行文本特征提取的方法，其特征在于：所述滤波器扫描特征矩阵时每次移动的距离相等。

8.如权利要求1或2所述的基于深度卷积神经网络进行文本特征提取的方法，其特征在于：步骤S4中分类层将深度特征全连接生成连接特征，将连接特征输入分类层中将连接特征与类别库进行对比生成分类结果。

9.如权利要求8所述的基于深度卷积神经网络进行文本特征提取的方法，其特征在于：所述分类层为softmax分类层。

10.如权利要求4所述的基于深度卷积神经网络进行文本特征提取的方法，其特征在于：所述滤波器的宽度和特征矩阵的宽度相等。