CN110598202A - 一种小学语文作文排比句自动识别的方法 - Google Patents
一种小学语文作文排比句自动识别的方法 Download PDFInfo
- Publication number
- CN110598202A CN110598202A CN201910539392.1A CN201910539392A CN110598202A CN 110598202 A CN110598202 A CN 110598202A CN 201910539392 A CN201910539392 A CN 201910539392A CN 110598202 A CN110598202 A CN 110598202A
- Authority
- CN
- China
- Prior art keywords
- sentence
- clauses
- sentences
- ranking
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000006870 function Effects 0.000 claims description 19
- 230000008451 emotion Effects 0.000 claims description 9
- 238000003491 array Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 5
- 230000002996 emotional effect Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明属于教育信息化领域,提供一种小学语文作文排比句自动识别的方法,该方法利用排比句独有的句式特征,分别从以分号作为分隔符和以逗号作为分隔符两方面进行作文预料中排比句自动识别,包括:(1)输入语料,判断是否有分号;(2)获取语句的分句个数;(3)分句情感色彩的判定;(4)检测分句之间是否存在公共部分;(5)计算各待定项在分句中位置的标准差。本发明为基于修辞使用的小学语文作文自动评分器的构建引入了排比句识别的方法。
Description
技术领域
本发明属于教育信息化领域,具体涉及一种小学语文作文排比句自动识别的方法。
背景技术
语文课标明确要求,在小学生的作文中需要了解和运用常用的修辞手法。
排比句即结构上相似、位置上临近、语气上一致的三个或三个以上的句子构成的一个长句。在写作中使用排比句,可使句子更加整齐和谐、更加朗朗上口,也能使整篇作文增辉不少。鉴于排比句是当前小学生写作中较常用的修辞手法之一,并且,修辞手法的运用已成为评判小学生写作水平的重要标准之一。因此,亟需一种针对排比句这一修辞手法进行自动识别的方法,为基于修饰使用的作文自动评价器的构建提供排比句评分特征。
发明内容
本发明的目的在于构建一种适用于基础教育阶段的作文辅助评测的信息化机制,提供一种小学语文作文排比句自动识别的方法,实现基础教育阶段作文自动化评测。
本发明是通过以下技术方案实现的。
一种小学语文作文排比句自动识别的方法,包括以下步骤:
(1)输入语料,判断是否有分号;
(2)获取语句的分句个数;若该句中拥有分号,则以分号为分隔符进行排比句的自动识别;若无分号,则以逗号为分隔符进行排比句的自动识别;
利用Python语言中re模块的re.split()函数将句子以指定的分隔符分割为数组,继续使用len()函数得到分句个数,当以分号作为分隔符进行识别时,将re.split()函数指定的分隔符设置为分号;当以逗号作为分隔符进行识别时,将re.split()函数指定的分隔符设置为逗号;
在以分号为分隔符进行识别时,若得到的分句数大于或等于三句,则该句是排比句;反之则不是;
在以逗号为分隔符进行识别时,若得到的分句数大于或等于三句,进入步骤(3);反之,则该句不是排比句;
(3)分句情感色彩的判定;使用百度情感分析接口API,检测各分句的情感倾向;若该句子中,满足至少三句及以上的分句情感色彩相似,进入步骤(4);反之,则该句不是排比句;
(4)检测分句之间是否存在公共部分;查找出每相邻两个分句的最长公共部分,并将其存入字符串数组中,将这些公共部分作为排比识别的待定项;
若各分句之间存在公共部分,进入步骤(5);反之,则该句不是排比句;
(5)计算各待定项在分句中位置的标准差;检测这些排比标识的待定项是否在各分句中位置相近;若相近,则判定该句为排比句,同时,停止对其余待定项的检测;反之,则判定该句不是排比句。
进一步的,步骤(1)中,句子是否具有分号利用脚本语言Python 进行识别。
进一步的,步骤(4)中,为了查找出每两个相邻分句的最长公共部分,需要确定两个字符串的最长公共子序列,算法设计的核心思想是从第一个字符串的第一个字符开始,依次与第二个字符串中每一个字符进行对比;若字符相同,则记录下该字符在第一个字符串中的位置S,并从该字符开始依次对比两个字符串中的下一个字符,直到两个字符不同为止,这时记录下最后一个相同字符的位置E,则E-S+1 即为该公共部分的长度,如此循环直到找到最大的E-S+1为止。这时,从位置S到位置E之间的部分即为两句的最长公共部分。
进一步的,步骤(5)中,对于排比标识的待定项在各个分句中的位置是否相近的判断,采取计算该待定项在各分句中位置的标准差是否小于某个阈值的方法来进行评判;若小于该阈值则判定该待定项在各分句中的位置相近,反之则不相近。
分析小学作文中排比句的结构特征,以下面4句为例:
从以下几个方面对上述五句典型排比句进行分析:1.分句中标点符号。第1句由分号进行分句,第2、3句由逗号进行分句,第4句有句号进行分句。2.分句个数。第1、3、4句拥有三个分句,第3句拥有四个分句。3.分句情感色彩。每句排比句中分局的结构以及情感色彩一致。4.排比标识。排比句中位置相近的公共部分称为该排比句的排比标识。例如:第1句中的“花园里的花真”为该句的排比标识,第3句的“像”为该句的排比标识。
通过以上分析,将排比句的特征信息总结如下:
以分号作为分隔符进行排比句自动识别;在对小学作文数据进行获取收集时,仅有1%的排比句使用句号进行分隔,且在获取排比句的过程中,句号已经作为标识符之一。故再次使用句号作为排比句中分句的分隔符是徒劳且费时的。因此,主要考虑以分号作为分隔符的排比句自动识别过程。
利用排比句特征信息表中第一项进行来进行以分号作为分隔符的排比句自动识别。在对作文数据中的排比句进行人工抽取的过程中发现:在作文中,若一句话中使用了分号,且该句话的分句不少于三句时,这句话即为排比句。故在以分句作为分隔符的排比句的自动识别过程中,将使用了分号且分句数不少于三句的一段话识别为排比句,使用脚本语言Python中re模块的re.split()函数加以实现。re.split() 函数可将句子以指定的分隔符分割为数组,继续使用len()函数得到分句个数。这里将re.split()函数指定的分隔符设置为分号。
以逗号作为分隔符进行排比句自动识别;在作文中,逗号较分号而言更常用,不仅是排比句中,在其他句子中也会被频繁用到。因此,以分号作为识别标号的方法并不能使用到以逗号为分隔符的排比句识别中。故利用排比句特征信息表中的后三项特征来进行以逗号作为分隔符的排比句的自动识别。具体步骤如下:
S1,利用分句个数特征;只有当分句个数不少于三句才能进行下一步判断。具体方法:使用Python语言中re模块的re.split()函数,该函数可将句子以指定的分隔符分割为数组,继续使用len()函数得到分句个数。这里将re.split()函数指定的分隔符设置为逗号;
S2,利用分句情感色彩特征;只有满足至少三句及以上的分句情感色彩相似才能进行下一步判断。具体实现方法:利用大量作文语料,结合深度学习分类器,训练得到一个二分类器来进行句子情感色彩的自动判断;
S3,利用排比标识特征;最后一步是检测分句中是否拥有公共部分且公共部分所在的位置是否相近。这一特征的确定的具体步骤如下:
S3.1,查找出每相邻两个分句的最长公共部分,并将其存入字符串数组中,将这些公共部分作为排比识别的待定项;具体实现方法:
为了寻找两个字符串的最长公共子序列,算法设计的核心思想是从第一个字符串的第一个字符开始,依次与第二个字符串中每一个字符进行对比;若字符相同,则记录下该字符在第一个字符串中的位置 S,并从该字符开始依次对比两个字符串中的下一个字符,直到两个字符不同为止,这时记录下最后一个相同字符的位置E,则E-S+1即为该公共部分的长度,这样不断的循环直到找到最大的E-S+1为止。这时,从位置S到位置E之间的部分即为两句的最长公共部分。
S3.2,检测这些排比标识的待定项是否至少在三个连续分句中存在,若存在,则检测该待定项是否在各分句中位置相近;若相近,则判定该句为排比句,同时,停止对其余待定项的检测。若该句的各分句之间均无公共部分或所有的排比标识待定项均不符合上述要求,则判定该句不是排比句;
具体方法:针对排比标识的待定项在各分句中位置是否相近的判断,通过计算该待定项在各分句中位置的标准差是否小于某个阈值;若小于该阈值则判定该待定项在各分句中的位置相近,反之则不相近。
对于阈值的确定,通过统计数据集中排比句的排比标识的位置标准差,得到94.43%的位置标准差都为0,最大的值为1.089。因此,认为只要排比标识的位置标准差小于1.1,则该句为排比句。
本发明提出的小学语文作文排比句自动识别的方法,利用排比句独有的句式特征,分别从以分号作为分隔符和以逗号作为分隔符两方面进行作文预料中排比句自动识别,为基于修辞使用的小学语文作文自动评分器的构建引入了排比句识别的方法。
附图说明
图1为本发明排比句自动提取的流程图。
图2排比句中标识位置标准差分布图。
具体实施方式
下面将结合实施案例参照附图进行详细说明,以便对本发明的目的,特征及优点进行更深入的理解。
如图1所示,本发明实施提供了一种小学语文作文排比句自动识别的方法,包括以下步骤:
(1)输入语料,判断是否有分号。
句子是否具有分号利用脚本语言Python进行识别。
(2)获取语句的分句个数;若该句中拥有分号,则以分号为分隔符进行排比句的自动识别;若无分号,则以逗号为分隔符进行排比句的自动识别。
利用Python语言中re模块的re.split()函数可将句子以指定的分隔符分割为数组,继续使用len()函数得到分句个数。当以分号作为分隔符进行识别时,将re.split()函数指定的分隔符设置为分号;当以逗号作为分隔符进行识别时,将re.split()函数指定的分隔符设置为逗号。
在以分号为分隔符进行识别时,若得到的分句数大于或等于三句,则该句是排比句;反之则不是。
在以逗号为分隔符进行识别时,若得到的分句数大于或等于三句,则进入步骤(3);反之,则该句不是排比句。
(3)分句情感色彩的判定。针对以逗号进行自动识别且分句子数大于或等于三句的句子,使用百度情感分析接口API,检测各分句的情感倾向。
若该句子中,满足至少三句及以上的分句情感色彩相似,则进入步骤(4);反之,则该句不是排比句。
(4)检测分句之间是否存在公共部分。查找出每相邻两个分句的最长公共部分,并将其存入字符串数组中,将这些公共部分作为排比识别的待定项;具体实现方法:
为了查找出每两个相邻分句的最长公共部分,则需要确定两个字符串的最长公共子序列。算法设计的核心思想是从第一个字符串的第一个字符开始,依次与第二个字符串中每一个字符进行对比;若字符相同,则记录下该字符在第一个字符串中的位置S,并从该字符开始依次对比两个字符串中的下一个字符,直到两个字符不同为止,这时记录下最后一个相同字符的位置E,则E-S+1即为该公共部分的长度,这样不断的循环直到找到最大的E-S+1为止。这时,从位置S到位置 E之间的部分即为两句的最长公共部分。
若各分句之间选在公共部分,则进入步骤(5);反之,则该句不是排比句。
(5)计算各待定项在分句中位置的标准差。检测这些排比标识的待定项是否在各分句中位置相近;若相近,则判定该句为排比句,同时,停止对其余待定项的检测。反之,则判定该句不是排比句。
对于排比标识的待定项在各个分句中的位置是否相近的判断,采取计算该待定项在各分句中位置的标准差是否小于某个阈值的方法来进行评判。若小于该阈值则判定该待定项在各分句中的位置相近,反之则不相近。
对于阈值的确定,通过统计数据集中排比句的排比标识的位置标准差,得到数据结果如图2所示。其中,94.43%的位置标准差都为0,最大的值为1.089。因此,认为只要排比标识的位置标准差小于1.1,则判定该句为排比句。
实验结果及说明
通过以上方法,按照图1所示流程图,将800条排比句和1000 条非排比句组成数据集,对本发明中排比句的自动识别方法进行测试。测试指标为精确率、召回率及F1-score值,实验结果如表1所示。
表1排比句自动识别与提取方法实验结果
类别 | 精确率 | 召回率 | F1-score |
排比句 | 79.41% | 98.92% | 88.10% |
非排比句 | 98.57% | 74.35% | 84.76% |
加权均值 | 88.99% | 86.64% | 86.43% |
综上所述,本发明利用Python脚本语言、机器学习以及算法设计等方法,提出了一种小学语文作文排比句自动识别的方法。同时,对比了当前在排比句自动识别中,F1-score值较高的实验结果,发现本方法具有更高的F1-score值,且在实施过程中更加简洁,提高了小学语文作文排比句自动识别的效率及准确率。
本说明书中未作详细描述的内容,属于本专业技术人员公知的现有技术。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种小学语文作文排比句自动识别的方法,其特征在于该方法包括以下步骤:
(1)输入语料,判断是否有分号;
(2)获取语句的分句个数;若该句中拥有分号,则以分号为分隔符进行排比句的自动识别;若无分号,则以逗号为分隔符进行排比句的自动识别;
利用Python语言中re模块的re.split()函数将句子以指定的分隔符分割为数组,继续使用len()函数得到分句个数,当以分号作为分隔符进行识别时,将re.split()函数指定的分隔符设置为分号;当以逗号作为分隔符进行识别时,将re.split()函数指定的分隔符设置为逗号;
在以分号为分隔符进行识别时,若得到的分句数大于或等于三句,则该句是排比句;反之则不是;
在以逗号为分隔符进行识别时,若得到的分句数大于或等于三句,进入步骤(3);反之,则该句不是排比句;
(3)分句情感色彩的判定;使用百度情感分析接口API,检测各分句的情感倾向;若该句子中,满足至少三句及以上的分句情感色彩相似,进入步骤(4);反之,则该句不是排比句;
(4)检测分句之间是否存在公共部分;查找出每相邻两个分句的最长公共部分,并将其存入字符串数组中,将这些公共部分作为排比识别的待定项;
若各分句之间存在公共部分,进入步骤(5);反之,则该句不是排比句;
(5)计算各待定项在分句中位置的标准差;检测这些排比标识的待定项是否在各分句中位置相近;若相近,则判定该句为排比句,同时,停止对其余待定项的检测;反之,则判定该句不是排比句。
2.根据权利要求1所述的小学语文作文排比句自动识别的方法,其特征在于还包括以下步骤:步骤(1)中,句子是否具有分号利用脚本语言Python进行识别。
3.根据权利要求1所述的小学语文作文排比句自动识别的方法,其特征在于:步骤(4)中,为了查找出每两个相邻分句的最长公共部分,需要确定两个字符串的最长公共子序列,算法设计的核心思想是从前一个字符串的第一个字符开始,依次与后一个字符串中每一个字符进行对比;若字符相同,则记录下该字符在前一个字符串中的位置S,并从该字符开始依次对比两个字符串中的下一个字符,直到两个字符不同为止,这时记录下最后一个相同字符的位置E,则E-S+1即为该公共部分的长度,如此循环直到找到最大的E-S+1为止,这时,从位置S到位置E之间的部分即为两句的最长公共部分。
4.根据权利要求1所述的小学语文作文排比句自动识别的方法,其特征在于:步骤(5)中,对于排比标识的待定项在各个分句中的位置是否相近的判断,采取计算该待定项在各分句中位置的标准差是否小于某个阈值的方法来进行评判;若小于该阈值则判定该待定项在各分句中的位置相近,反之则不相近。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910539392.1A CN110598202A (zh) | 2019-06-20 | 2019-06-20 | 一种小学语文作文排比句自动识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910539392.1A CN110598202A (zh) | 2019-06-20 | 2019-06-20 | 一种小学语文作文排比句自动识别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110598202A true CN110598202A (zh) | 2019-12-20 |
Family
ID=68852652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910539392.1A Pending CN110598202A (zh) | 2019-06-20 | 2019-06-20 | 一种小学语文作文排比句自动识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598202A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898374A (zh) * | 2020-07-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、存储介质和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1442787A (zh) * | 2002-03-01 | 2003-09-17 | 何万贯 | 作文修改写作*** |
CN107291694A (zh) * | 2017-06-27 | 2017-10-24 | 北京粉笔未来科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN107506360A (zh) * | 2016-06-14 | 2017-12-22 | 科大讯飞股份有限公司 | 一种文章评分方法及*** |
CN107943852A (zh) * | 2017-11-06 | 2018-04-20 | 首都师范大学 | 中文排比句识别方法及*** |
CN108241609A (zh) * | 2016-12-23 | 2018-07-03 | 科大讯飞股份有限公司 | 排比句识别方法及*** |
-
2019
- 2019-06-20 CN CN201910539392.1A patent/CN110598202A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1442787A (zh) * | 2002-03-01 | 2003-09-17 | 何万贯 | 作文修改写作*** |
CN107506360A (zh) * | 2016-06-14 | 2017-12-22 | 科大讯飞股份有限公司 | 一种文章评分方法及*** |
CN108241609A (zh) * | 2016-12-23 | 2018-07-03 | 科大讯飞股份有限公司 | 排比句识别方法及*** |
CN107291694A (zh) * | 2017-06-27 | 2017-10-24 | 北京粉笔未来科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN107943852A (zh) * | 2017-11-06 | 2018-04-20 | 首都师范大学 | 中文排比句识别方法及*** |
Non-Patent Citations (3)
Title |
---|
刘明杨等: "基于文采特征的高考作文自动评分", 《智能计算机与应用》 * |
梁社会等: "先秦汉语排比句自动识别研究――以《孟子》《论语》中的排比句自动识别为例", 《计算机工程与应用》 * |
熊李艳等: "面向自动写作的中文排比句抽取方法", 《计算机应用研究》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898374A (zh) * | 2020-07-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、存储介质和电子设备 |
CN111898374B (zh) * | 2020-07-30 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wshah et al. | Script independent word spotting in offline handwritten documents based on hidden markov models | |
Saha et al. | Graphical object detection in document images | |
CN107729468B (zh) | 基于深度学习的答案抽取方法及*** | |
Yao et al. | A unified framework for multioriented text detection and recognition | |
Purandare et al. | Word sense discrimination by clustering contexts in vector and similarity spaces | |
Inkpen et al. | Automatic identification of cognates and false friends in French and English | |
CN106598959B (zh) | 一种确定双语语句对互译关系方法及*** | |
US8340429B2 (en) | Searching document images | |
Jain et al. | Combining local features for offline writer identification | |
US7962507B2 (en) | Web content mining of pair-based data | |
Zhang et al. | Segmentation-free keyword spotting for handwritten documents based on heat kernel signature | |
CN108255813A (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN105095196B (zh) | 文本中新词发现的方法和装置 | |
SG188435A1 (en) | Orthographical variant detection apparatus and orthographical variant detection program | |
CN106528527A (zh) | 未登录词的识别方法及识别*** | |
Er et al. | A factoid question answering system using answer pattern matching | |
CN101986309A (zh) | 查询题库的方法及装置 | |
Sfikas et al. | Using attributes for word spotting and recognition in polytonic greek documents | |
Deshmukh et al. | Marathi poem classification using machine learning | |
Al-Sanabani et al. | Improved an algorithm for Arabic name matching | |
Bernhard | Simple morpheme labelling in unsupervised morpheme analysis | |
CN113934814B (zh) | 古诗文主观题自动评分方法 | |
CN109241276B (zh) | 文本中词语分类方法、言语创造性评价方法和*** | |
CN109344233B (zh) | 一种中文人名识别方法 | |
Wshah et al. | Multilingual word spotting in offline handwritten documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191220 |
|
RJ01 | Rejection of invention patent application after publication |