CN107679199A

CN107679199A - 一种基于深度局部特征的对外汉语教材可读性分析方法

Info

Publication number: CN107679199A
Application number: CN201710941048.6A
Authority: CN
Inventors: 李思; 赵建博; 刘昊; 柏晓鹏
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-10-11
Filing date: 2017-10-11
Publication date: 2018-02-09

Abstract

本发明实施例公开了一种基于深度局部特征的对外汉语教材可读性分析方法。该方法包括如下步骤：输入文本的词语向量化步骤；卷积神经网络提取文本特征步骤；双向长短期记忆网络生成文本向量步骤；文本分类步骤。利用本发明实施例，能够可靠的对对外汉语教材可读性进行分类，提高分类速度及准确率，具有很大的实用价值。

Description

一种基于深度局部特征的对外汉语教材可读性分析方法

技术领域

本发明涉及数据处理领域，具体地，涉及一种文本可读性分析的方法。

背景技术

随着中国的快速发展，很多外国人开始学习汉语，因此外汉语教材就成了必不可少的一部分。目前，对外汉语的中文教材的可读性评估多是利用人工对文本进行分类。

文本的可读性一般表示其被阅读理解方面的水平。对外汉语教材可读性评估可以帮助学习中文的人们找到适合他们的阅读材料。目前的文本可读性分类多依靠人工，无法快速大量的对文本进行分类。本发明为解决其问题，首次将神经网络模型引入可读性评估任务，采用卷积神经网络及双向长短期记忆网络对文本的可读性进行分类。实验结果表明，我们的模型可以快速地对对外汉语教材的可读性进行分类。

发明内容

针对现有的对外汉语教材可读性的问题，本发明的目的是提供一种基于深度局部特征的对外汉语教材可读性的分析方法，以至少解决现有文本分类速度慢的问题。

为达到上述目的，本发明提出的一种基于深度局部特征的对外汉语教材可读性分析方法包括下列步骤：

输入文本的词语向量化步骤：将文本的词语映射为相应词语向量，将待分类文本的词语所对应的词语向量进行连接，生成输入的文本矩阵；

卷积神经网络提取文本特征步骤：将文本矩阵作为输入，输入卷积神经网络，利用卷积神经网络捕捉深度局部特征，抽取文本特征；

双向长短期记忆网络生成文本向量步骤：将文本特征作为输入，输入长短期记忆网络，生成文本向量；

文本分类步骤：利用文本向量，对文本进行可读性分类。

可选地，所述将文本的词语映射为相应词语向量，将待分类文本的词语所对应的词语向量进行连接，生成输入的文本矩阵的步骤包括：

初始化词语向量矩阵及词语字典；

将原文本的词语，通过词语字典映射为相应的词语编号；

通过词语编号取得对应于词语向量矩阵中的各个词语的向量表示；

将原文本词语所对应的词语向量连接形成输入文本矩阵。

可选地，所述将文本矩阵作为输入，输入卷积神经网络，利用卷积神经网络捕捉深度局部特征，抽取文本特征的具体步骤如下：

将文本矩阵作为输入，输入卷积神经网络的卷积层，得到卷积层输出的文本子特征；

卷积层输出的向量作为卷积神经网络子采样层的输入，将输入向量中的K个最大值作为代表向量的特征值；

将所得的多个特征值进行拼接，得到文本特征。

可选地，所述将文本矩阵作为输入，输入卷积神经网络的卷积层，得到卷积层输出的文本子特征的方法如下：

将文本矩阵作为输入，通过卷积核的卷积操作，得到卷积结果；

对不同窗口大小的卷积核重复所述将文本矩阵作为输入，通过卷积核的卷积操作，得到卷积结果的步骤，得到不同大小卷积核的卷积结果，即文本子特征。

可选地，所述将文本特征作为输入，输入长短期记忆网络，生成文本向量的方法如下：

文本特征输入一个前向长短期记忆网络，得到正向的输出矩阵；

文本特征输入一个反向长短期记忆网络，得到反向的输出矩阵；

将正向的输出矩阵与反向的输出矩阵在同一文本方向上进行拼接，生成文本向量。

可选地，所述利用文本向量，对文本进行可读性分类的方法如下：

将生成的文本向量输入softmax函数，得到每一个文本分类的概率；

取概率最高的分类，作为文本的类别。

通过上述技术方案，获取分类样本集，该分类样本集包括多个样本文本；对每个样本文本进行分词处理得到包含多个词语的文本，通过词语向量矩阵及词语字典将词语替换为词向量；将文本矩阵通过卷积神经网络捕捉深度局部特征生成文本特征；再通过双向长短期记忆网络得到文本的文本向量；最后通过softmax函数得到文本分类。这样，在训练完成的模型上，可以实现更快地对外汉语文本可读性分类。本发明的试验结果验证了本发明的高效性和可靠性，具有很强的实用性。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本发明实施例提供的一种基于深度局部特征的对外汉语教材可读性分析方法步骤流程示意图；

图2为本发明生提供的一种基于深度局部特征的对外汉语教材可读性分析方法步骤的网络结构图。

具体实施方式

下面将结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

本发明公开了一种基于深度局部特征的对外汉语教材可读性分析方法，该方法在原有的文本可读性分类的基础上，将文本信息融入深度学习网络分类模型，通过得到的基于深度局部特征的对外汉语材料可读性分类的模型，对待分类的文本进行可读性分类，从而在后续能够得到快速的准确的分类结果。

下面将结合附图对本发明具体实施方式进行详细说明。

图1是本发明实施例提供的一种基于深度局部特征的对外汉语教材可读性分析的方法步骤流程示意图，包括以下步骤：

步骤S1：输入文本的词语向量化步骤；

步骤S2：卷积神经网络提取文本特征步骤；

步骤S3：双向长短期记忆网络生成文本向量步骤；

步骤S4：文本分类步骤；

下面将对每个步骤进行具体的说明：

步骤S1通过构建词语向量矩阵及词语字典，将文本中的词语转化为词向量，将文本中的词语转变为词向量进行连接，形成文本矩阵。

在本步骤中，所使用的文本语料是已经经过分词处理的语料，所以不需要分词处理。

在本步骤中，使用word2vec形成对词语向量矩阵进行初始化。

需要说明的是，虽然预设了词语向量矩阵及词语字典，但是总会遇到未出现在词语字典的词。因此，为了解决该问题，在词语字典中设置未知词语所对应的词语编号，在词语向量矩阵中设置未知词语所对应的词向量。由于不存在于词语词典中的词比较少，所以将未知词映射为此词向量，不会影响最终的分类结果。

在本步骤中，原始文本需要处理到相同的长度。对于小于此长度的文本需要用未知词语的编号及词向量进行填补；对于大于此长度的文本需要将文本切割到相应的长度，对超过此长度部分的文本舍弃。

步骤S2以矩阵文本作为输入，通过卷积神经网络捕捉深度局部特征抽取文本特征，步骤如下：

将矩阵文本作为输入，输入卷积神经网络，输出文本子特征；

改变卷积神经网络卷积核的大小，返回所述将矩阵文本作为输入，输入卷积神经网络，输出文本子特征的步骤；

当所设定的所有大小的卷积神经网络卷积核计算文本子特征完毕后，文本子特征计算结束；

将不同大小卷积神经网络卷积核生成的文本子特征进行拼接，捕捉深度局部特征得到代表文本的文本特征。

在本步骤中，将矩阵文本作为输入，输入卷积神经网络，输出文本子特征的具体步骤如下：

将文本矩阵作为输入，输入卷积神经网络的卷积层，得到卷积层输出的向量；

卷积层输出的向量作为卷积神经网络子采样层的输入，将输入向量中的K个最大值作为输入向量的特征值，得到某一大小卷积核所得的文本子特征。

需要注意的是，神经网络的不同大小卷积核可以是多个也可以是单个，某一大小卷积核的个数可以是多个。

将文本矩阵作为卷积神经网络的输入，通过有多个不同大小卷积核的卷积神经网络，得到多个文本子特征，将子向量在代表同一文本的方向上进行拼接，得到代表文本的文本特征。

步骤S3以文本特征作为输入，通过双向长短期记忆网络得到文本向量，步骤如下：

将文本特征输入一个前向长短期记忆网络，得到正向的输出矩阵。

将文本特征输入一个反向长短期记忆网络，得到反向的输出矩阵。

将正向的输出矩阵及反向的输出矩阵进行拼接，生成文本向量。

步骤S4以文本向量为输入，输出文本可读性分类。

通过S1至S3即可得到获取的每个文本的文本向量，在得到文本向量后，可以通过softmax函数得到该文本可读性分类的概率，得到网络分类模型。

例如该神经网络的分类模型y：

y＝softmax(x)

其中x为文本样本对应的文本向量，y为分类结果。

将待分类的文本矩阵作为神经网络分类模型的输入，得到待分类的文本可读性分类。

以上结合附图对所提出的一种基于深度局部特征的对外汉语教材可读性分析方法进行了阐述。通过以上实施方式的描述，所属领域的一般技术人员可以清楚的了解到本发明，可借助软件的方式来实现。

依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

以上所述的本发明实施方式，并不构成对发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度局部特征的对外汉语教材可读性分析方法，其特征在于，所述神经网络包含以下结构和步骤：

(1)输入文本的词语向量化步骤：将文本的词语映射为相应词语向量，将待分类文本的词语所对应的词语向量进行连接，生成输入的文本矩阵；

(2)卷积神经网络提取文本特征步骤：将(1)所生成的文本矩阵作为输入，输入卷积神经网络，利用卷积神经网络捕捉深度局部特征，抽取文本特征；

(3)双向长短期记忆网络生成文本向量步骤：将(2)生成的文本特征作为输入，输入长短期记忆网络，生成文本向量；

(4)文本分类步骤：利用步骤(3)生成的文本向量，对文本进行可读性分类。

2.如权利要求1所述的方法，其特征在于，所述步骤(1)的具体步骤包括：

初始化词语向量矩阵及词语字典；

将原文本的词语，通过词语字典映射为相应的词语编号；

将原文本词语所对应的词语向量连接，形成输入文本矩阵。

3.如权利要求1所述的方法，其特征在于，所述步骤(2)的具体步骤如下：

卷积层输出的向量作为卷积神经网络子采样层的输入，将输入向量中的K个最大值作为输入向量的特征值；

将所得的多个特征值进行拼接，得到文本特征。

4.如权利要求3所述的方法，其特征在于，将文本矩阵作为输入，输入卷积神经网络的卷积层，得到卷积层输出的文本子特征的方法如下：

5.如权利要求1所述的方法，其特征在于，所述步骤(3)的具体步骤如下：

6.如权利要求1所述的方法，其特征在于，所述步骤(4)的具体步骤如下：

取概率最高的分类，作为文本的类别。