CN110598202A

CN110598202A - 一种小学语文作文排比句自动识别的方法

Info

Publication number: CN110598202A
Application number: CN201910539392.1A
Authority: CN
Inventors: 朱晓亮; 谯宇同; 龚颖; 殷姿; 董鑫; 石昀东; 刘三女牙; 杨宗凯
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University; Central China Normal University
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-12-20

Abstract

本发明属于教育信息化领域，提供一种小学语文作文排比句自动识别的方法，该方法利用排比句独有的句式特征，分别从以分号作为分隔符和以逗号作为分隔符两方面进行作文预料中排比句自动识别，包括：(1)输入语料，判断是否有分号；(2)获取语句的分句个数；(3)分句情感色彩的判定；(4)检测分句之间是否存在公共部分；(5)计算各待定项在分句中位置的标准差。本发明为基于修辞使用的小学语文作文自动评分器的构建引入了排比句识别的方法。

Description

一种小学语文作文排比句自动识别的方法

技术领域

本发明属于教育信息化领域，具体涉及一种小学语文作文排比句自动识别的方法。

背景技术

语文课标明确要求，在小学生的作文中需要了解和运用常用的修辞手法。

排比句即结构上相似、位置上临近、语气上一致的三个或三个以上的句子构成的一个长句。在写作中使用排比句，可使句子更加整齐和谐、更加朗朗上口，也能使整篇作文增辉不少。鉴于排比句是当前小学生写作中较常用的修辞手法之一，并且，修辞手法的运用已成为评判小学生写作水平的重要标准之一。因此，亟需一种针对排比句这一修辞手法进行自动识别的方法，为基于修饰使用的作文自动评价器的构建提供排比句评分特征。

发明内容

本发明的目的在于构建一种适用于基础教育阶段的作文辅助评测的信息化机制，提供一种小学语文作文排比句自动识别的方法，实现基础教育阶段作文自动化评测。

本发明是通过以下技术方案实现的。

一种小学语文作文排比句自动识别的方法，包括以下步骤：

(1)输入语料，判断是否有分号；

(2)获取语句的分句个数；若该句中拥有分号，则以分号为分隔符进行排比句的自动识别；若无分号，则以逗号为分隔符进行排比句的自动识别；

利用Python语言中re模块的re.split()函数将句子以指定的分隔符分割为数组，继续使用len()函数得到分句个数，当以分号作为分隔符进行识别时，将re.split()函数指定的分隔符设置为分号；当以逗号作为分隔符进行识别时，将re.split()函数指定的分隔符设置为逗号；

在以分号为分隔符进行识别时，若得到的分句数大于或等于三句，则该句是排比句；反之则不是；

在以逗号为分隔符进行识别时，若得到的分句数大于或等于三句，进入步骤(3)；反之，则该句不是排比句；

(3)分句情感色彩的判定；使用百度情感分析接口API，检测各分句的情感倾向；若该句子中，满足至少三句及以上的分句情感色彩相似，进入步骤(4)；反之，则该句不是排比句；

(4)检测分句之间是否存在公共部分；查找出每相邻两个分句的最长公共部分，并将其存入字符串数组中，将这些公共部分作为排比识别的待定项；

若各分句之间存在公共部分，进入步骤(5)；反之，则该句不是排比句；

(5)计算各待定项在分句中位置的标准差；检测这些排比标识的待定项是否在各分句中位置相近；若相近，则判定该句为排比句，同时，停止对其余待定项的检测；反之，则判定该句不是排比句。

进一步的，步骤(1)中，句子是否具有分号利用脚本语言Python 进行识别。

进一步的，步骤(4)中，为了查找出每两个相邻分句的最长公共部分，需要确定两个字符串的最长公共子序列，算法设计的核心思想是从第一个字符串的第一个字符开始，依次与第二个字符串中每一个字符进行对比；若字符相同，则记录下该字符在第一个字符串中的位置S，并从该字符开始依次对比两个字符串中的下一个字符，直到两个字符不同为止，这时记录下最后一个相同字符的位置E，则E-S+1 即为该公共部分的长度，如此循环直到找到最大的E-S+1为止。这时，从位置S到位置E之间的部分即为两句的最长公共部分。

进一步的，步骤(5)中，对于排比标识的待定项在各个分句中的位置是否相近的判断，采取计算该待定项在各分句中位置的标准差是否小于某个阈值的方法来进行评判；若小于该阈值则判定该待定项在各分句中的位置相近，反之则不相近。

分析小学作文中排比句的结构特征，以下面4句为例：

从以下几个方面对上述五句典型排比句进行分析：1.分句中标点符号。第1句由分号进行分句，第2、3句由逗号进行分句，第4句有句号进行分句。2.分句个数。第1、3、4句拥有三个分句，第3句拥有四个分句。3.分句情感色彩。每句排比句中分局的结构以及情感色彩一致。4.排比标识。排比句中位置相近的公共部分称为该排比句的排比标识。例如：第1句中的“花园里的花真”为该句的排比标识，第3句的“像”为该句的排比标识。

通过以上分析，将排比句的特征信息总结如下：

以分号作为分隔符进行排比句自动识别；在对小学作文数据进行获取收集时，仅有1％的排比句使用句号进行分隔，且在获取排比句的过程中，句号已经作为标识符之一。故再次使用句号作为排比句中分句的分隔符是徒劳且费时的。因此，主要考虑以分号作为分隔符的排比句自动识别过程。

利用排比句特征信息表中第一项进行来进行以分号作为分隔符的排比句自动识别。在对作文数据中的排比句进行人工抽取的过程中发现：在作文中，若一句话中使用了分号，且该句话的分句不少于三句时，这句话即为排比句。故在以分句作为分隔符的排比句的自动识别过程中，将使用了分号且分句数不少于三句的一段话识别为排比句，使用脚本语言Python中re模块的re.split()函数加以实现。re.split() 函数可将句子以指定的分隔符分割为数组，继续使用len()函数得到分句个数。这里将re.split()函数指定的分隔符设置为分号。

以逗号作为分隔符进行排比句自动识别；在作文中，逗号较分号而言更常用，不仅是排比句中，在其他句子中也会被频繁用到。因此，以分号作为识别标号的方法并不能使用到以逗号为分隔符的排比句识别中。故利用排比句特征信息表中的后三项特征来进行以逗号作为分隔符的排比句的自动识别。具体步骤如下：

S1，利用分句个数特征；只有当分句个数不少于三句才能进行下一步判断。具体方法：使用Python语言中re模块的re.split()函数，该函数可将句子以指定的分隔符分割为数组，继续使用len()函数得到分句个数。这里将re.split()函数指定的分隔符设置为逗号；

S2，利用分句情感色彩特征；只有满足至少三句及以上的分句情感色彩相似才能进行下一步判断。具体实现方法：利用大量作文语料，结合深度学习分类器，训练得到一个二分类器来进行句子情感色彩的自动判断；

S3，利用排比标识特征；最后一步是检测分句中是否拥有公共部分且公共部分所在的位置是否相近。这一特征的确定的具体步骤如下：

S3.1，查找出每相邻两个分句的最长公共部分，并将其存入字符串数组中，将这些公共部分作为排比识别的待定项；具体实现方法：

为了寻找两个字符串的最长公共子序列，算法设计的核心思想是从第一个字符串的第一个字符开始，依次与第二个字符串中每一个字符进行对比；若字符相同，则记录下该字符在第一个字符串中的位置 S，并从该字符开始依次对比两个字符串中的下一个字符，直到两个字符不同为止，这时记录下最后一个相同字符的位置E，则E-S+1即为该公共部分的长度，这样不断的循环直到找到最大的E-S+1为止。这时，从位置S到位置E之间的部分即为两句的最长公共部分。

S3.2，检测这些排比标识的待定项是否至少在三个连续分句中存在，若存在，则检测该待定项是否在各分句中位置相近；若相近，则判定该句为排比句，同时，停止对其余待定项的检测。若该句的各分句之间均无公共部分或所有的排比标识待定项均不符合上述要求，则判定该句不是排比句；

具体方法：针对排比标识的待定项在各分句中位置是否相近的判断，通过计算该待定项在各分句中位置的标准差是否小于某个阈值；若小于该阈值则判定该待定项在各分句中的位置相近，反之则不相近。

对于阈值的确定，通过统计数据集中排比句的排比标识的位置标准差，得到94.43％的位置标准差都为0，最大的值为1.089。因此，认为只要排比标识的位置标准差小于1.1，则该句为排比句。

本发明提出的小学语文作文排比句自动识别的方法，利用排比句独有的句式特征，分别从以分号作为分隔符和以逗号作为分隔符两方面进行作文预料中排比句自动识别，为基于修辞使用的小学语文作文自动评分器的构建引入了排比句识别的方法。

附图说明

图1为本发明排比句自动提取的流程图。

图2排比句中标识位置标准差分布图。

具体实施方式

下面将结合实施案例参照附图进行详细说明，以便对本发明的目的，特征及优点进行更深入的理解。

如图1所示，本发明实施提供了一种小学语文作文排比句自动识别的方法，包括以下步骤：

(1)输入语料，判断是否有分号。

句子是否具有分号利用脚本语言Python进行识别。

(2)获取语句的分句个数；若该句中拥有分号，则以分号为分隔符进行排比句的自动识别；若无分号，则以逗号为分隔符进行排比句的自动识别。

利用Python语言中re模块的re.split()函数可将句子以指定的分隔符分割为数组，继续使用len()函数得到分句个数。当以分号作为分隔符进行识别时，将re.split()函数指定的分隔符设置为分号；当以逗号作为分隔符进行识别时，将re.split()函数指定的分隔符设置为逗号。

在以分号为分隔符进行识别时，若得到的分句数大于或等于三句，则该句是排比句；反之则不是。

在以逗号为分隔符进行识别时，若得到的分句数大于或等于三句，则进入步骤(3)；反之，则该句不是排比句。

(3)分句情感色彩的判定。针对以逗号进行自动识别且分句子数大于或等于三句的句子，使用百度情感分析接口API，检测各分句的情感倾向。

若该句子中，满足至少三句及以上的分句情感色彩相似，则进入步骤(4)；反之，则该句不是排比句。

(4)检测分句之间是否存在公共部分。查找出每相邻两个分句的最长公共部分，并将其存入字符串数组中，将这些公共部分作为排比识别的待定项；具体实现方法：

为了查找出每两个相邻分句的最长公共部分，则需要确定两个字符串的最长公共子序列。算法设计的核心思想是从第一个字符串的第一个字符开始，依次与第二个字符串中每一个字符进行对比；若字符相同，则记录下该字符在第一个字符串中的位置S，并从该字符开始依次对比两个字符串中的下一个字符，直到两个字符不同为止，这时记录下最后一个相同字符的位置E，则E-S+1即为该公共部分的长度，这样不断的循环直到找到最大的E-S+1为止。这时，从位置S到位置 E之间的部分即为两句的最长公共部分。

若各分句之间选在公共部分，则进入步骤(5)；反之，则该句不是排比句。

(5)计算各待定项在分句中位置的标准差。检测这些排比标识的待定项是否在各分句中位置相近；若相近，则判定该句为排比句，同时，停止对其余待定项的检测。反之，则判定该句不是排比句。

对于排比标识的待定项在各个分句中的位置是否相近的判断，采取计算该待定项在各分句中位置的标准差是否小于某个阈值的方法来进行评判。若小于该阈值则判定该待定项在各分句中的位置相近，反之则不相近。

对于阈值的确定，通过统计数据集中排比句的排比标识的位置标准差，得到数据结果如图2所示。其中，94.43％的位置标准差都为0，最大的值为1.089。因此，认为只要排比标识的位置标准差小于1.1，则判定该句为排比句。

实验结果及说明

通过以上方法，按照图1所示流程图，将800条排比句和1000 条非排比句组成数据集，对本发明中排比句的自动识别方法进行测试。测试指标为精确率、召回率及F1-score值，实验结果如表1所示。

表1排比句自动识别与提取方法实验结果

类别	精确率	召回率	F1-score
				排比句	79.41％	98.92％	88.10％
非排比句	98.57％	74.35％	84.76％
				加权均值	88.99％	86.64％	86.43％

综上所述，本发明利用Python脚本语言、机器学习以及算法设计等方法，提出了一种小学语文作文排比句自动识别的方法。同时，对比了当前在排比句自动识别中，F1-score值较高的实验结果，发现本方法具有更高的F1-score值，且在实施过程中更加简洁，提高了小学语文作文排比句自动识别的效率及准确率。

本说明书中未作详细描述的内容，属于本专业技术人员公知的现有技术。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种小学语文作文排比句自动识别的方法，其特征在于该方法包括以下步骤：

(1)输入语料，判断是否有分号；

2.根据权利要求1所述的小学语文作文排比句自动识别的方法，其特征在于还包括以下步骤：步骤(1)中，句子是否具有分号利用脚本语言Python进行识别。

3.根据权利要求1所述的小学语文作文排比句自动识别的方法，其特征在于：步骤(4)中，为了查找出每两个相邻分句的最长公共部分，需要确定两个字符串的最长公共子序列，算法设计的核心思想是从前一个字符串的第一个字符开始，依次与后一个字符串中每一个字符进行对比；若字符相同，则记录下该字符在前一个字符串中的位置S，并从该字符开始依次对比两个字符串中的下一个字符，直到两个字符不同为止，这时记录下最后一个相同字符的位置E，则E-S+1即为该公共部分的长度，如此循环直到找到最大的E-S+1为止，这时，从位置S到位置E之间的部分即为两句的最长公共部分。

4.根据权利要求1所述的小学语文作文排比句自动识别的方法，其特征在于：步骤(5)中，对于排比标识的待定项在各个分句中的位置是否相近的判断，采取计算该待定项在各分句中位置的标准差是否小于某个阈值的方法来进行评判；若小于该阈值则判定该待定项在各分句中的位置相近，反之则不相近。