CN111078874B

CN111078874B - 基于随机子空间的决策树分类的对外汉语难度评估方法

Info

Publication number: CN111078874B
Application number: CN201911206414.9A
Authority: CN
Inventors: 曾致中; 陈治平; 余新国; 方淙; 王静静; 袁航; 熊佳洁
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-04-07
Anticipated expiration: 2039-11-29
Also published as: CN111078874A

Abstract

本发明公开了一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，根据文章的长度，易读性等特点生成86个统计特征,用svm进行分类，得到置信度1。将encoding特征,用svm进行分类，得到置信度2。将得到的2个置信度，融合作为新的特征，用决策树来进行分类。对于encoding特征数据：通过BERT模型提取的encoding的‑1层输出信息结果，然后再做average‑>max pooling处理，得到总共有768维特征，不需要做归一化。本发明避免了传统算法低效且欠拟合的问题，最合理的使用了所有信息，使得分类依据增多效果显著。本方法在对外汉语难度评估上取得了85.6％的准确率。

Description

基于随机子空间的决策树分类的对外汉语难度评估方法

技术领域

本发明属于教育信息化领域，具体涉及一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法。

背景技术

众所周知，阅读应该循序渐进，从易到难。太难容易导致学生的自信心受挫，对阅读丧失兴趣。而过于简单，低水平重复，则不利于阅读能力的持续提升，无法满足升入大学后阅读复杂文本，开展相关研究的学术要求。总之，只有难度适合的才是最好的。随着中国的发展，中国在国际舞台上扮演的角色越来越重要了，这使得更多的人有了学习汉语的需求。学习汉语文本是最有效的方式之一，但是学习一定难度汉语文本需要汉语学习者自身具备一定的文化素养，若是汉语学习者不满足对应文本对其汉语功底要求，则会事倍功半并且会极大的打击汉语学习者的兴趣爱好。并且在培养汉语学习者的写作能力的时候，应该有针对性的提供各种文体给其参考，并且能基于汉语学习者所写的作文文体来进行评判打分。故汉语文本的分类是辅助汉语学习***的关键技术。

对外汉语分级读物的难易度指的是该级别的读物是否适合汉语语言程度达到该级别的汉语学习者来阅读,是否会出现读物过难,或者读物太容易的情况。

文本分类是利用计算机对文本集按照一定的分类体系或者标准来进行自动分类标记，根据其是否使用深度学习技术分为两大类，第一类是基于传统机器学习文本分类，第二类是基于深度学习文本分类。当然第二类中的文本分类技术中有些情况会使用深度学习的方法和传统机器学习的方法相结合。

90年代后期，传统机器学习飞速发展，对于文本分类问题形成了一套固有的模式，特征工程+分类器模型。这里的特征工程就是将文本中的信息提炼，使计算机可以轻松识别读取文本中的信息，通常特征工程分为三步，第一步文本预处理，第二步特征提取，第三步文本表示。分类器模型比较著名的有朴素贝叶斯分类算法、KNN、SVM、最大熵等等。

在基于深度神经网络的NLP方法中，文本中的字/词通常都用一维向量来表示(一般称之为“词向量”)；在此基础上，神经网络会将文本中各个字或词的一维词向量作为输入，经过一系列复杂的转换后，输出一个一维词向量作为文本的语义表示。特别地，通常希望语义相近的字/词在特征向量空间上的距离也比较接近，如此一来，由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此，BERT模型的主要输入是文本中各个字/词的原始词向量，该向量既可以随机初始化，也可以利用Word2Vector等算法进行预训练以作为初始值；输出是文本中各个字/词融合了全文语义信息后的向量表示。

目前关于中文文本分类多是对于微博和新闻等简单短小的文本集进行分类，而针对于可供汉语学习者的汉语文本分类若是使用现有的方法效果都不太理想。

发明内容

针对现有技术以上缺陷或改进需求中的至少一种，特别是由于汉语学习者的文本分类问题的复杂性，在面对汉语学习者不同的需求的时候，分类的标准会发生相应的变化，针对于该任务本发明提出了一种基于Bert模型、svm和决策树特征融合的对外汉语难度评估方法。根据文章的长度，易读性等特点生成86个统计特征,用svm进行分类，得到置信度1。将encoding特征,用svm进行分类，得到置信度2。将得到的2个置信度，融合作为新的特征，用决策树来进行分类。

为实现上述目的，按照本发明的一个方面，提供了一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，包括如下步骤：

S1、对对外汉语文章进行预处理；

S2、对于步骤S1预处理之后的对外汉语文章，根据对外汉语文章的长度,文章的易读性，文章的生词量生成多个特征；

S3、然后使用基于随机子空间的svm结合对包含所有上述特征的文章进行分类，得到置信度1；

S4、对于步骤S1预处理之后的对外汉语文章，通过BERT模型提取的encoding的-1层输出信息结果，再做average->max pooling处理，得到文章的多维encoding特征；

S5、将encoding特征,使用基于随机子空间的svm进行分类，得到置信度2；

S6、将得到的2个置信度，融合作为新的特征，用决策树来进行分类。

优选地，步骤S1中，对对外汉语文章进行预处理包括保存为txt格式。

优选地，步骤S1中，对对外汉语文章进行预处理包括删除文章中的空行。

优选地，步骤S1中，对对外汉语文章进行预处理包括对文章进行分句。

优选地，步骤S1中，分句为利用python将每篇文章以句子为单位进行切割，存储在list结构中，并且去除标点符号。

优选地，步骤S2中生成的多个特征包括总字数，总笔画数，段落数，总句数，生词数。

优选地，步骤S6中，将置信度1和置信度2使用求加权平均值，来作为这篇文章的综合输出。上述优选技术特征只要彼此之间未构成冲突就可以相互组合。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，利用Bert模型较强的文本特征提取能力，获得对外汉语文章的包含丰富语义信息的表示，再结合传统的文章字词的统计特征，这能够充分利用文章的各种特征。本发明避免了传统算法低效且欠拟合的问题，最合理的使用了所有信息，使得分类依据增多效果显著。本方法在对外汉语难度评估上取得了85.6％的准确率。

附图说明

图1是本发明的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法的总体示意图；

图2是本发明使用的基于Bert模型提取文章的encoding特征的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合具体实施方式对本发明进一步详细说明。

如图1所示，本发明提供一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，包括如下步骤：

S1、对对外汉语文章进行预处理，包括保存为txt格式、删除文章中的空行、对文章进行分句。分句为利用python将每篇文章以句子为单位进行切割，存储在list结构中，并且去除标点符号；

S2、对于步骤S1预处理之后的对外汉语文章，根据对外汉语文章的长度,文章的易读性，文章的生词量生成多个特征，例如86个，包括总字数，总笔画数，段落数，总句数，生词数；

S4、对于步骤S1预处理之后的对外汉语文章，通过BERT模型提取的encoding的-1层输出信息结果，再做average->max pooling处理，得到文章的多维encoding特征，如图2所示；

S6、将得到的2个置信度，融合作为新的特征，用决策树来进行分类。优选地，步骤S6中，将置信度1和置信度2使用求加权平均值，来作为这篇文章的综合输出。上述优选技术特征只要彼此之间未构成冲突就可以相互组合。

下面以详细实例进行说明，本发明提供了一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，包括以下步骤：

(1)利用爬虫技术将作文网上的作文按照年级爬取(小学一年级到高中三年级)，并以年级为标准对数据集进行正确的划分，并将年级信息写入文件名的前面，存储为txt格式。

(2)对于每一个年级的文章需要选取一篇最具有代表性的作为标杆文章单独拿出来，作为每一类型的标准代表。

(3)利用python将每篇文章以句子为单位进行切割，存储在list结构中，并且需要去除标点符号。

(4)、对于以上预处理之后的对外汉语文章，根据对外汉语文章的长度,文章的易读性，文章的生词量生成多个特征，例如86个，包括总字数，总笔画数，段落数，总句数，生词数；对外汉语分级读物的难易度，本发明从三个角度考察对外汉语分级读物的难易度，一是读物的长度,即读物中所含的中文字数，二是读物的易读性,即读物的平均句长和平均每百字句数，三是读物的生词量,即读物中出现的生词数量。

(5)、然后使用基于随机子空间的svm结合对包含所有上述特征的文章进行分类，得到置信度1。

(6)、对于预处理之后的对外汉语文章，通过BERT模型提取的encoding的-1层输出信息结果，再做average->max pooling处理，得到文章的多维encoding特征，如图2所示，对于每一句话的输入，Bert结构都会进行编码，所以会改变label注意力加权机制及字词的权重值，多核心会使label嵌入的边界更加细致，能更好的拟合数据。

(7)、将encoding特征,使用基于随机子空间的svm进行分类，得到置信度2。

(8)、将得到的2个置信度，融合作为新的特征，用决策树来进行分类。其中，将训练的时候每一篇文章是切割为多个句子的组合，所以句子才是输入的基础单元，而在对于一篇文章的每一个句子进行分类后，要使用求加权平均值来作为这篇文章的综合输出。

<实验说明及结果>

本实例从13个作文网上爬取了共51356篇作文作文，依照从小学到高中12个年级进行作文分类，分别筛选出了各类作文4000篇、共48000篇作文，将作文存入txt格式，训练集和测试集和验证集比例为7:2:1分割，然后使用训练集按照具体实施方法去实施训练，同时观察验证集的准确率来选择终止训练的时间点。

每一次训练固定核心的模型时，会打乱所有样本顺序重取训练集、测试集和验证集，再次训练并验证，总共进行了10***作，下表结果为10次实验结果的平均值。

具体的实验效果如表1。

表1.实验结果

模型	svm核	F1-score均值
			SVM+Bert+DT(Decision Tree)	线性核函数	82.32％
SVM+Bert+DT	多项式核函数	82.47％
			SVM+Bert+DT	RBF核函数(高斯核函数)	85.6％

综上所述，针对对外汉语文章难度评估的文本分类问题，本发明提出了一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估及自动分类方法，利用Bert模型较强的文本特征提取能力，获得对外汉语文章的包含丰富语义信息的表示，再结合传统的文章字词的统计特征，这能够充分利用文章的各种特征。本发明避免了传统算法低效且欠拟合的问题，最合理的使用了所有信息，使得分类依据增多效果显著。本方法在对外汉语难度评估上取得了85.6％的准确率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，其特征在于，包括如下步骤：

S1、对对外汉语文章进行预处理；

2.如权利要求1所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，其特征在于：

步骤S1中，对对外汉语文章进行预处理包括保存为txt格式。

3.如权利要求2所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，其特征在于：

步骤S1中，对对外汉语文章进行预处理包括删除文章中的空行。

4.如权利要求3所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，其特征在于：

步骤S1中，对对外汉语文章进行预处理包括对文章进行分句。

5.如权利要求4所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，其特征在于：

步骤S1中，分句为利用python将每篇文章以句子为单位进行切割，存储在list结构中，并且去除标点符号。

6.如权利要求1所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，其特征在于：

步骤S2中生成的多个特征包括总字数，总笔画数，段落数，总句数，生词数。

7.如权利要求1所述的基于svm和bert模型的随机子空间特征选择的决策树分类的对外汉语难度评估方法，其特征在于：

步骤S6中，将置信度1和置信度2使用求加权平均值，来作为这篇文章的综合输出。