CN110851599A - 一种中文作文自动评分方法及教辅*** - Google Patents
一种中文作文自动评分方法及教辅*** Download PDFInfo
- Publication number
- CN110851599A CN110851599A CN201911059419.3A CN201911059419A CN110851599A CN 110851599 A CN110851599 A CN 110851599A CN 201911059419 A CN201911059419 A CN 201911059419A CN 110851599 A CN110851599 A CN 110851599A
- Authority
- CN
- China
- Prior art keywords
- composition
- scoring
- scored
- chinese
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000203 mixture Substances 0.000 title claims abstract description 231
- 238000013077 scoring method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012937 correction Methods 0.000 claims abstract description 25
- 238000007637 random forest analysis Methods 0.000 claims abstract description 16
- 238000006243 chemical reaction Methods 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 abstract description 9
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000003066 decision tree Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种中文作文自动评分方法及教辅***。该方法包括:待评分作文获取步骤;浅层特征提取步骤,用于提取待评分作文的浅层特征;深层语义特征提取步骤,用于提取待评分作文的深层语义特征,包括错别字特征和语法错误特征;评分步骤,用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到待评分作文的评分结果;还包括拼音转换步骤和主题提取步骤。本发明将作文的浅层特征、深层语义特征相结合,具有很高的评分准确率,且在小样本上训练取得理想的评估结果,有效提高了样本的利用率;同时增加了错别字识别及纠正、拼音识别及转换、语法错误识别及纠正等功能,提供多维信息作为用户写作的反馈辅导,增强用户体验。
Description
技术领域
本发明涉及人工智能领域下的自然语言处理技术,特别涉及一种中文作文自动评分方法及教辅***。
背景技术
作文自动评分***简介
作文自动评分***AES(Automated Essay Scoring)是在人工智能、深度学习技术兴起的趋势下,基于智能算法的一种教育辅助工具。相较于人工评分***,作文自动评分***具有更加客观、及时以及高效低成本的优势,得到越来越多的重视和研究,因此研发作文自动评分***逐渐成为一种趋势。传统的作文自动评分***主要通过浅层特征对文本建模分析,忽略了文本的深层语义特征,而深度学习技术采用循环神经网络提取文本的深层语义特征,使评分结果更加客观。
中文作文自动评分***的挑战
对于自然语言处理技术,目前绝大部分的研究都是以英文为基础,而中文由于其自身的特性,在技术上比处理英文要复杂得多,在实际应用中对中文的处理比较空缺,存在诸多困难和挑战。现有的作文自动评分***也多以处理英文作文为主,对中文作文的处理结果很不理想。本发明提出的是专门针对中文的作文自动评分方法和教辅***。
传统的作文自动评分***需要手动设计文本特征,成本高且无法理解文本的深层语义;深度学习技术提取文本的深层语义特征依赖于大型语料库,而目前中文作文语料库规模很小,如何提高样本有效利用率非常重要。同时,如何在小规模样本上设计特征,如何识别及改正中文作文中出现的错别字、拼音、语法错误,如何将提取到的特征结合训练,如何保证写作辅导反馈信息的准确性等是设计中文作文自动评分***需要解决的一系列问题。
现有技术的实现方案
在设计作文自动评分***时,非专利文献1在英文作文数据集上训练CNN-LSTM模型。非专利文献2提取作文的词法、句法特征,采用多元线性回归模型训练提取到的特征。专利文献3提供了一种作文评分方法,该方法设计了两个神经网络,将作文文本的特征向量和词向量分别作为神经网络的输入,根据两个神经网络的输出计算作文分数。专利文献4提供了一种基于注意力机制的作文评分方法,该方法采用单词-句子-文档三层结构的神经网络注意力框架,并使用人工提取的特征与文档层进行融合,进而设置文档层的注意力权重。专利文献5通过采集某一作文题目的大量作文,分析每篇作文的内容,得到每篇作文的写作方式,训练作文的时序模型,采用该模型对用户作文测试,根据新颖程度对用户作文评分。
非专利文献1:Taghipour K,Ng H T.A Neural Approach to Automated EssayScoring[C]//Conference on Empirical Methods in Natural LanguageProcessing.2016
非专利文献2:李亚男.汉语作为第二语言测试的作文自动评分研究[D].北京语言大学,2006
专利文献3:CN108519975A作文评分方法、装置及存储介质
专利文献4:CN107133211A一种基于注意力机制的作文评分方法
专利文献5:CN109635087A一种作文评分方法及家教设备
现有技术的缺点
以非专利文献1为代表的深度学习技术在训练时依赖于大规模样本,无法在小规模样本中达到满意的训练效果;以非专利文献2为代表的机器学习技术没有充分提取作文中的深层语义特征,同时多元线性回归模型拟合能力有限,因此作文评分的准确性较低;以专利文献3、专利文献4为代表的方法以神经网络为基础,专利文献3通过设计多个神经网络预测作文分数,专利文献4在神经网络的输出端采用注意力机制提高评分准确率,然而这类方法对样本的利用率低,无法在小样本上取得满意的训练结果;专利文献5在特定题目下训练神经网络,这将导致训练完成的神经网络泛化能力不足,该专利文献仅以作文的新颖程度作为判断标准,没有考虑作文其它维度的特征,这将导致作文评分的准确性较低。
发明内容
为了解决现有技术存在的问题,本发明提出了一种中文作文自动评分***的构建方法、中文作文自动评分方法及教辅***、计算机可读存储介质及计算机程序产品。
本发明的技术方案将作文的浅层特征、深层语义特征相结合,一方面提高了评分的准确性,另一方面提高了样本的利用率,在小样本上训练取得满意的效果。
为了实现上述目的,本发明第一方面的实施例提出了一种中文作文自动评分***的构建方法,该方法包括以下步骤:
语料库构建步骤,用于构建中文作文语料库;
浅层特征提取步骤,基于语料库提取作文的浅层特征;
深层语义特征提取步骤,基于语料库提取作文的深层语义特征,包括错别字特征和语法错误特征;
回归步骤,用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到作文的评分结果。
进一步的,提取错别字特征具体包括:采用概率分词模型对作文进行分词;根据分词结果,将作文文本与错别字识别语料库进行对比,得到可疑词集合;将可疑词集合与错别字纠正语料库进行对比,得到候选词集合;对候选词集合计算语义混淆度,取混淆度最小的词语作为错别字纠正结果。
进一步的,提取语法错误特征具体包括:利用语料库训练词向量,将词向量输入Bi-LSTM神经网络模型,训练得到标注序列,即为语法错误结果。
进一步的,还包括拼音转换步骤,用于识别待评分作文中的拼音并将其转换为相应的汉字。
进一步的,还包括主题提取步骤,用于提取待评分作文中隐含的主题。
本发明第二方面的实施例提出了一种中文作文自动评分方法,该方法包括以下步骤:
待评分作文获取步骤:获取待评分作文图片,进行中文识别,得到作文文本;或者直接获取待评分作文文本;
浅层特征提取步骤:处理待评分作文文本,得到作文文本的分词结果;根据分词结果,统计待评分作文的浅层特征;
深层语义特征提取步骤:提取待评分作文的深层语义特征,包括错别字特征和语法错误特征;
评分步骤:将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到待评分作文的评分结果。
进一步的,提取错别字特征具体包括:处理待评分作文文本,得到作文文本的分词结果;根据分词结果,将待评分作文文本与错别字识别语料库进行对比,得到可疑词集合;将可疑词集合与错别字纠正语料库进行对比,得到候选词集合;对候选词集合计算语义混淆度,取混淆度最小的词语作为错别字纠正结果。
进一步的,提取语法错误特征具体包括:处理待评分作文文本,得到作文文本的词向量;将词向量输入Bi-LSTM神经网络模型,进行训练得到标注序列,即为语法错误结果。
进一步的,还包括拼音转换步骤,用于识别待评分作文中的拼音并将其转换为相应的汉字。
进一步的,还包括主题提取步骤,用于提取待评分作文中隐含的主题。
进一步的,浅层特征具体包括句子数量、句子平均长度、全文字数、比喻句数量、拼音数量、词汇等级。
进一步的,语法错误特征具体包括四种类型:冗余单词、缺失单词、错误单词选择、无序单词。
本发明第三方面的实施例提出了一种中文作文自动评分***,该***包括以下模块:
待评分作文获取模块:获取待评分作文图片,进行中文识别,得到作文文本;或者直接获取待评分作文文本;
浅层特征提取模块:用于处理待评分作文文本,得到作文文本的分词结果;根据分词结果,统计待评分作文的浅层特征;
深层语义特征提取模块:用于提取待评分作文的深层语义特征,包括错别字特征和语法错误特征;
评分模块:用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到待评分作文的评分结果。
进一步的,提取错别字特征具体包括:处理待评分作文文本,得到作文文本的分词结果;根据分词结果,将待评分作文文本与错别字识别语料库进行对比,得到可疑词集合;将可疑词集合与错别字纠正语料库进行对比,得到候选词集合;对候选词集合计算语义混淆度,取混淆度最小的词语作为错别字纠正结果。
进一步的,提取语法错误特征具体包括:处理待评分作文文本,得到作文文本的词向量;将词向量输入Bi-LSTM神经网络模型,进行训练得到标注序列,即为语法错误结果。
进一步的,还包括拼音转换模块,用于识别待评分作文中的拼音并将其转换为相应的汉字。
进一步的,还包括主题提取模块,用于提取待评分作文中隐含的主题。
本发明第四方面的实施例提出了一种中文作文自动评分***,该***按照上述中文作文自动评分***的构建方法进行构建而得到。
本发明第五方面的实施例提出了一种中文作文自动评分教辅***,该教辅***包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机程序;或者该教辅***包括终端,以及与终端连接的其上存储有计算机程序的云服务器,所述计算机程序被执行以实现上述的中文作文自动评分方法。
本发明第六方面的实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述中文作文自动评分方法。
本发明第七方面的实施例提出了一种计算机程序产品,所述计算机程序被执行时实现上述中文作文自动评分方法。
单纯考虑浅层特征的作文评分方法,其评分准确率低;单纯考虑深层语义特征的方法,需要大型语料库进行样本训练。本发明通过将作文的浅层特征、深层语义特征相结合,不仅提高了评分准确率,还有效提高了样本的利用率,从而解决了现有技术中存在的一系列问题。
本发明的作文自动评分方法及教辅***与现有中文作文评分软件相比,其有益效果在于:本发明的技术方案将作文的浅层特征、深层语义特征相结合,具有很高的评分准确率,并且在小样本上训练取得理想的评估结果,有效提高了样本的利用率;同时增加了错别字识别及纠正、拼音识别及转换、语法错误识别及纠正等功能,提供多维写作辅导信息反馈,增强用户体验。
附图说明
图1为本发明的中文作文自动评分方法及教辅***的工作原理示意图。
图2为本发明提取浅层特征的原理示意图。
图3为本发明提取语法错误特征的原理示意图。
图4为本发明的中文作文自动评分教辅***实现方式示意图。
图5为本发明构建的中文作文自动评分***的UI界面之一:OCR识别界面示意图。
图6为本发明构建的中文作文自动评分***的UI界面之二:评分展示界面示意图。
图7为本发明的中文作文自动评分方法中的关键步骤示意图。
图8-10为本发明中文作文自动评分方法的一个具体实施例,其中图8是获取待评分作文图片的示意图,图9是进行中文识别的示意图,图10是采用本发明的中文作文自动评分方法进行评分的结果。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1为本发明的中文作文自动评分方法及教辅***的工作原理示意图。如图1所示,本发明的技术方案将作文浅层特征与深层语义特征相结合,提高了评分的准确性及样本的利用率,在小样本上训练取得满意的效果。本发明首先构建中文作文语料库,基于语料库提取作文的浅层特征,主要是统计特征;基于语料库提取作文的深层语义特征,包括错别字特征和语法错误特征;将浅层特征、深层语义特征结合并采用随机森林拟合,得到作文的评分。该方案在小样本上训练具有很高的评分准确率,并且有效提高了样本的利用率。
本发明提供的中文作文自动评分教辅***与现有中文作文评分软件相比,增加了错别字纠正、拼音纠正、语法错误识别等功能,提供多维写作辅导信息反馈。
中文作文自动评分***的构建方法
下面具体介绍本发明的中文作文自动评分***的构建方法。
首先构建中文作文语料库。本发明收集1000张作文图片,聘请专业评分教师对作文评分,采用网易云OCR技术识别汉字并人工校对,构建电子版中文作文语料库;本发明基于人教版小学生语文教材构建一至六年级词库,其中一年级词库的数量为174,二年级为536,三年级为1132,四年级为1737,五年级为2172,六年级为2655。需要说明的是,中文作文语料库也可采用其它地方收集的作文图片构建,本发明对于作文的来源不作任何限制;或者直接获得作文文本。词库的构建也可以采用其他出版社的教材体系,或者不依赖于教材而选择其他的来源。
然后进行浅层特征提取。统计作文中句子数量、句子平均字数、全文字数、比喻句数量、拼音数量、作文与各年级词库的匹配度,提取的结果作为作文的浅层特征。比喻特征词为:像、似、如同、如、似的、好比、好像、犹如。统计浅层特征时采用概率分词模型,如图2所示,定义分词标志S、B、M、E分别为单字成词、词组的开头、中间、结尾,将每个字表示为可见状态ot,分词标志表示为隐藏状态st,则最佳分词组合可表示为使P(o1,o2,…on|s1,s2,…,sn)最大的组合。定义λ为输入模型参数,a为状态转移概率矩阵,b为观测概率矩阵,δt(i)为在t时刻状态为i的单路径中最大概率值,δt(i)=maxP(it=i,it-1,…,i1,ot,…,o1|λ),i=1,2,…,N。定义ψt(i)为在t时刻状态为i的单路径中最大概率路径的第t-1个结点,ψt(i)=argmax1≤j≤N[δt-1(j)aji]。终止状态为P*=max1≤i≤NδT(i), 对最优路径进行回溯,求得最佳分词组合,
接下来进行深层语义特征提取。提取作文深层语义特征,例如错别字特征。首先采用概率分词模型对作文进行分词,将分词结果与错别字识别语料库对比,得到可疑词集合。其中,错别字识别语料库可以包括但不限于人工定义词典、混淆集词典、***词典等;其中,人工定义词典的词语数量为177,混淆集词典为759,***词典为584429。将可疑词集合与错别字纠正语料库对比,得到候选词集合。其中,错别字纠正语料库包括但不限于常用字词典、相同偏旁部首集合、相同拼音集合;其中,常用字词典的词语数量为3502,相同拼音词典为3431,形近字词典为1664。基于***语料库训练混淆度模型,定义wi为文章中的词,则句子S的混淆度PP为利用该模型计算候选词集合的混淆度,取混淆度最小的元素作为错别字纠正结果。
深层语义特征提取还包括语法错误特征提取。如图3所示,首先利用微博语料库训练词向量,定义wi为作文文本,学习目标为最大化似然函数L=∑logp(w|Content(w)),将训练完成的词向量作为神经网络模型的输入。采用Bi-LSTM作为神经网络模型,定义c为细胞的状态,a为细胞的输出,w为权重,σ为激活函数,选择sigmoid为激活函数。LSTM细胞需要经过三层门运行,第一层门为遗忘门,上一细胞的输出和状态选择性忘记,ft=σ(wf·[at-1,ct]+bf),随后需要确定新信息存放在细胞状态中,分为两部分。首先sigmoid层决定更新值,tanh层创建一个新的候选向量,ut=σ(wf·[at-1,ct]+bf), 在更新细胞状态时,丢弃部分信息,加入新的信息,即为下一个细胞的状态,最终,由sigmoid层决定输出的部分状态,细胞状态通过tanh处理,最终得到想要的输出,ot=σ(wo[at-1,wt]+bo),at=ot·tanh(ct)。将Bi-LSTM神经网络的输出经过条件随机场处理(conditional random field),考虑输出前后位置上的相互关系,得到高准确率的标注序列,其中标注序列为每个字的词性与语法错误的标注结果。标注序列可以用字母表示为R、M、S、W,其分别对应于语法错误的四种类型:冗余单词(R)、缺失单词(M)、错误单词选择(S)、无序单词(W)。语法错误特征可以包括但不限于以上四种中的一种或几种。Bi-LSTM神经网络的Batch size为64,Epoch为200,Embedding dim为100,rnnhidden dim为200,LSTMmaxlen为300,dropout为0.25,在CGED(Chinese Grammar ErrorDiagnosis)大赛提供的数据集上训练,准确率最终达到0.861,利用训练好的Bi-LSTM模型在作文集上提取得到语法错误特征。
最后是回归步骤,用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到作文的评分结果。随机森林首先对样本数据进行重采样,每次在原先N个训练样本中有放回地随机抽取N个样本,将获得的多个样本集作为训练样本构建决策树。在构建决策树时,随机抽取候选特征中的m个特征,作为当前节点下决策的备选特征,在备选特征中选择最好的组合。得到一群决策树后,对一群决策树的输出进行投票,得票最多的类作为随机森林的决策。本发明实施例每次选取100颗决策树进行训练,在百分制分数下评分的平均误差为2.78分,一致性评价标准quadratic weighted kappa值为0.759。
本发明实施例还可以包括拼音转换步骤和主题提取步骤。拼音转换步骤用于将用户作文中的拼音转换为相应的汉字,采用与概率分词模型相同的方法,将拼音表示为可见状态、相同拼音的汉字为隐藏状态,求解得到最佳拼音转换结果。主题提取用于将用户作文中隐含的主题提取出来,假设文章由K个主题组成,第k个主题由个词组成,构建LDA(Latent Dirichlet allocation)模型, 其中为K维的分布超参数。对于任一作文d,采用Dirichlet分布表示其主题分布θd,对于任一主题k,采用Dirichlet分布表示其词分布βk,每个词对应主题的条件概率为 对该条件概率进行Gibbs采样,得到每个词的主题,本发明实施例设定K=5。至此,完成了中文作文自动评分***的设计。
通过以上的中文作文自动评分***的构建方法,构建出的中文作文自动评分教辅***,其示意图如图4所示,其中的云服务器和终端均为现有技术,在此不作赘述。该中文作文自动评分教辅***通过计算机程序来实现,所述计算机程序存储在云服务器上,云服务器与终端相连,获得授权的使用者通过终端从云服务器上下载该计算机程序之后,在终端上执行该程序,实现对作文的自动评分。其UI***界面包括OCR识别界面和评分展示界面,如图5、图6所示,其中图5为OCR识别界面示意图,图6为评分展示界面示意图。该教辅***也可以设计成包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机程序;所述计算机程序被执行以实现对作文的自动评分。
中文作文自动评分方法
下面介绍本发明的中文作文自动评分方法。如图5所示,在OCR识别界面,用户需要在本地终端提交手写作文图片,点击上传图片按钮后,得到OCR识别结果,点击开始批改按钮后,得到作文批阅结果,如图6所示。作文批阅结果可以包括但不限于作文的分数、关键词、词库匹配度、拼音转换结果、错别字识别改正结果、语法错误结果等内容,具体实施过程中也可以根据需要选择增减界面显示的内容。
具体而言,本发明的中文作文自动评分方法包括以下步骤:
待评分作文获取步骤:获取待评分作文图片,进行中文识别,得到作文文本;或者直接获取待评分作文文本;
浅层特征提取步骤:处理待评分作文文本,得到作文文本的分词结果;根据分词结果,统计待评分作文的浅层特征;
深层语义特征提取步骤:提取待评分作文的深层语义特征,包括错别字特征和语法错误特征;
评分步骤:将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到待评分作文的评分结果。
图7对上述方法中的关键步骤进行了示意。针对浅层特征提取步骤,采用概率分词模型处理待评分作文文本,得到作文文本的分词结果;根据分词结果,统计待评分作文的浅层特征,浅层特征包括但不限于句子数量、句子平均长度、全文字数、比喻句数量、拼音数量、词汇等级等特征。所述概率分词模型如图2所示,定义分词标志S、B、M、E分别为单字成词、词组的开头、中间、结尾,将每个字表示为可见状态ot,分词标志表示为隐藏状态st,则最佳分词组合可表示为使P(o1,o2,…on|s1,s2,…,sn)最大的组合。定义λ为输入模型参数,a为状态转移概率矩阵,b为观测概率矩阵,δt(i)为在t时刻状态为i的单路径中最大概率值,δt(i)=maxP(it=i,it-1,…,i1,ot,…,o1|λ),i=1,2,…,N。定义ψt(i)为在t时刻状态为i的单路径中最大概率路径的第t-1个结点,ψt(i)=argmax1≤j≤N[δt-1(j)aji]。终止状态为P*=max1≤i≤NδT(i), 对最优路径进行回溯,求得最佳分词组合,
针对错别字特征提取步骤,采用概率分词模型处理待评分作文文本,得到作文文本的分词结果;根据分词结果,将待评分作文文本与错别字识别语料库进行对比,统计未匹配的词语,得到可疑词集合。其中错别字识别语料库可以包括但不限于人工定义词典、混淆集词典、***词典等;其中,人工定义词典的词语数量为177,混淆集词典为759,***词典为584429。将可疑词集合与错别字纠正语料库进行对比,得到候选词集合,对候选词集合计算语义混淆度,混淆度最小的词语作为错别字纠正结果,原词语为错别字结果。其中错别字纠正语料库可以包括但不限于常用字词典、相同偏旁部首集合、相同拼音集合;其中,常用字词典的词语数量为3502,相同拼音词典为3431,形近字词典为1664。利用已经训练好的混淆度模型,计算语义混淆度,定义wi为待评分作文中的词,则句子S的语义混淆度PP为 利用该模型计算候选词集合的语义混淆度,取语义混淆度最小的词语作为错别字纠正结果。
针对语法错误特征提取步骤,处理待评分作文文本,得到作文文本的词向量;将词向量输入Bi-LSTM神经网络模型进行训练,得到标注序列;标注序列为R、M、S、W的词语为语法错误结果。采用Bi-LSTM作为神经网络模型,定义c为细胞的状态,a为细胞的输出,w为权重,σ为激活函数,选择sigmoid为激活函数。LSTM细胞需要经过三层门运行,第一层门为遗忘门,上一细胞的输出和状态选择性忘记,ft=σ(wf·[at-1,ct]+bf),随后需要确定新信息存放在细胞状态中,分为两部分。首先sigmoid层决定更新值,tanh层创建一个新的候选向量,ut=σ(wf·[at-1,ct]+bf),在更新细胞状态时,丢弃部分信息,加入新的信息,即为下一个细胞的状态,最终,由sigmoid层决定输出的部分状态,细胞状态通过tanh处理,最终得到想要的输出,ot=σ(wo[at-1,wt]+bo),at=ot·tanh(ct)。将Bi-LSTM神经网络的输出经过条件随机场处理(conditional randomfield),考虑输出前后位置上的相互关系,得到高准确率的标注序列,其中标注序列为每个字的词性与语法错误的标注结果。标注序列可以用字母表示为R、M、S、W,其分别对应于语法错误的四种类型:冗余单词(R)、缺失单词(M)、错误单词选择(S)、无序单词(W)。语法错误特征可以包括但不限于以上四种中的一种或几种。
针对评分步骤,即回归步骤,将提取的浅层特征、深层语义特征(包括错别字、语法错误)组合后采用随机森林进行训练,得到待评分作文的最终得分。随机森林首先对样本数据进行重采样,每次在原先N个训练样本中有放回地随机抽取N个样本,将获得的多个样本集作为训练样本构建决策树。在构建决策树时,随机抽取候选特征中的m个特征,作为当前节点下决策的备选特征,在备选特征中选择最好的组合。得到一群决策树后,对一群决策树的输出进行投票,得票最多的类作为随机森林的决策。本发明实施例每次选取100颗决策树进行训练,在百分制分数下评分的平均误差为2.78分,一致性评价标准quadraticweighted kappa值为0.759。
本发明的中文作文自动评分方法还可以包括拼音转换步骤和主题提取步骤。拼音转换步骤用于将用户作文中的拼音转换为相应的汉字,采用与概率分词模型相同的方法,将拼音表示为可见状态、相同拼音的汉字为隐藏状态,求解得到最佳拼音转换结果。主题提取用于将用户作文中隐含的主题提取出来,假设文章由K个主题组成,第k个主题由个词组成,构建LDA(Latent Dirichlet allocation)模型,其中为K维的分布超参数。对于任一作文d,采用Dirichlet分布表示其主题分布θd,对于任一主题k,采用Dirichlet分布表示其词分布βk,每个词对应主题的条件概率为对该条件概率进行Gibbs采样,得到每个词的主题,本发明实施例设定K=5。
附图8-10是本发明使用上述中文作文自动评分方法进行作文评分的一个具体实施例。其中图8是获取待评分作文图片的示意图,图9是进行汉字识别的示意图,图10是采用本发明的中文作文自动评分方法进行评分的结果。
本发明的实施例还包括中文作文自动评分***,该***的各个模块与上述的中文作文自动评分方法的各个步骤一一对应。该***包括以下模块:
待评分作文获取模块:获取待评分作文图片,进行中文识别,得到作文文本;或者直接获取待评分作文文本;
浅层特征提取模块:用于处理待评分作文文本,得到作文文本的分词结果;根据分词结果,统计待评分作文的浅层特征;
深层语义特征提取模块:用于提取待评分作文的深层语义特征,包括错别字特征和语法错误特征;
评分模块:用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到待评分作文的评分结果。
本发明的实施例还包括一种中文作文自动评分教辅***,该教辅***包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机程序;或者该教辅***包括终端,以及与终端连接的其上存储有计算机程序的云服务器,所述计算机程序被执行以实现本发明所述的中文作文自动评分方法。
本发明的实施例还包括一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现本发明所述的中文作文自动评分方法。
本发明的实施例还包括一种计算机程序产品,所述计算机程序被执行时实现本发明所述的中文作文自动评分方法。
单纯考虑浅层特征的作文评分方法,其评分准确率低;单纯考虑深层语义特征的方法,需要大型语料库进行样本训练。本发明通过将作文的浅层特征、深层语义特征相结合,不仅提高了评分准确率,还有效提高了样本的利用率,从而解决了现有技术中存在的一系列问题。
本发明的作文自动评分方法及教辅***与现有中文作文评分软件相比,其有益效果在于:本发明的技术方案将作文的浅层特征、深层语义特征相结合,具有很高的评分准确率,在小样本上训练取得理想的评估结果,有效提高了样本的利用率;同时增加了错别字识别及纠正、拼音识别及转换、语法错误识别及纠正等功能,提供多维信息反馈,增强用户体验。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
Claims (10)
1.一种中文作文自动评分***的构建方法,其特征在于:该方法包括以下步骤:
语料库构建步骤,用于构建中文作文语料库;
浅层特征提取步骤,基于语料库提取作文的浅层特征;
深层语义特征提取步骤,基于语料库提取作文的深层语义特征,包括错别字特征和语法错误特征;
回归步骤,用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到作文的评分结果。
2.一种如权利要求1所述的中文作文自动评分***的构建方法,其特征在于:提取错别字特征具体包括:采用概率分词模型对作文进行分词;根据分词结果,将作文文本与错别字识别语料库进行对比,得到可疑词集合;将可疑词集合与错别字纠正语料库进行对比,得到候选词集合;对候选词集合计算语义混淆度,取混淆度最小的词语作为错别字纠正结果。
3.一种如权利要求1所述的中文作文自动评分***的构建方法,其特征在于:提取语法错误特征具体包括:利用语料库训练词向量,将词向量输入Bi-LSTM神经网络模型,训练得到标注序列,即为语法错误结果。
4.一种中文作文自动评分方法,其特征在于:该方法包括以下步骤:
待评分作文获取步骤:获取待评分作文图片,进行中文识别,得到作文文本;或者直接获取待评分作文文本;
浅层特征提取步骤:处理待评分作文文本,得到作文文本的分词结果;根据分词结果,统计待评分作文的浅层特征;
深层语义特征提取步骤:提取待评分作文的深层语义特征,包括错别字特征和语法错误特征;
评分步骤:将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到待评分作文的评分结果。
5.一种如权利要求4所述的中文作文自动评分方法,其特征在于:提取错别字特征具体包括:处理待评分作文文本,得到作文文本的分词结果;根据分词结果,将待评分作文文本与错别字识别语料库进行对比,得到可疑词集合;将可疑词集合与错别字纠正语料库进行对比,得到候选词集合;对候选词集合计算语义混淆度,取混淆度最小的词语作为错别字纠正结果。
6.一种如权利要求4所述的中文作文自动评分方法,其特征在于:提取语法错误特征具体包括:处理待评分作文文本,得到作文文本的词向量;将词向量输入Bi-LSTM神经网络模型,进行训练得到标注序列,即为语法错误结果。
7.一种如权利要求4所述的中文作文自动评分方法,其特征在于:还包括拼音转换步骤,用于识别待评分作文中的拼音并将其转换为相应的汉字。
8.一种如权利要求4所述的中文作文自动评分方法,其特征在于:还包括主题提取步骤,用于提取待评分作文中隐含的主题。
9.一种中文作文自动评分***,其特征在于:该***包括以下模块:
待评分作文获取模块:获取待评分作文图片,进行中文识别,得到作文文本;或者直接获取待评分作文文本;
浅层特征提取模块:用于处理待评分作文文本,得到作文文本的分词结果;根据分词结果,统计待评分作文的浅层特征;
深层语义特征提取模块:用于提取待评分作文的深层语义特征,包括错别字特征和语法错误特征;
评分模块:用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合,得到待评分作文的评分结果。
10.一种中文作文自动评分教辅***,该教辅***包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机程序;或者该教辅***包括终端,以及与终端连接的其上存储有计算机程序的云服务器,其特征在于:所述计算机程序被执行以实现如权利要求4-8任一项所述的中文作文自动评分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911059419.3A CN110851599B (zh) | 2019-11-01 | 2019-11-01 | 一种中文作文自动评分方法及教辅*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911059419.3A CN110851599B (zh) | 2019-11-01 | 2019-11-01 | 一种中文作文自动评分方法及教辅*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851599A true CN110851599A (zh) | 2020-02-28 |
CN110851599B CN110851599B (zh) | 2023-04-28 |
Family
ID=69598489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911059419.3A Active CN110851599B (zh) | 2019-11-01 | 2019-11-01 | 一种中文作文自动评分方法及教辅*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851599B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581379A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于作文扣题度的自动作文评分计算方法 |
CN111832281A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 作文评分方法、装置、计算机设备及计算机可读存储介质 |
CN111914544A (zh) * | 2020-08-18 | 2020-11-10 | 科大讯飞股份有限公司 | 一种比喻句识别方法、装置、设备及存储介质 |
CN112183065A (zh) * | 2020-09-16 | 2021-01-05 | 北京思源智通科技有限责任公司 | 文本评估方法、装置、计算机可读存储介质及终端设备 |
CN112199946A (zh) * | 2020-09-15 | 2021-01-08 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
CN112287921A (zh) * | 2020-10-15 | 2021-01-29 | 泰州锐比特智能科技有限公司 | 基于错字辨识的作文评估***及方法 |
CN112364990A (zh) * | 2020-10-29 | 2021-02-12 | 北京语言大学 | 通过元学习实现语法改错少样本领域适应的方法及*** |
CN112380830A (zh) * | 2020-06-18 | 2021-02-19 | 达而观信息科技(上海)有限公司 | 不同文档中相关句子的匹配方法、***和计算机可读存储介质 |
CN112686020A (zh) * | 2020-12-29 | 2021-04-20 | 科大讯飞股份有限公司 | 作文评分方法、装置、电子设备及存储介质 |
CN114519345A (zh) * | 2022-01-17 | 2022-05-20 | 广东南方网络信息科技有限公司 | 一种内容校对方法、装置、移动终端及存储介质 |
CN114692606A (zh) * | 2020-12-31 | 2022-07-01 | 暗物智能科技(广州)有限公司 | 一种英语作文分析评分***、方法及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1442804A (zh) * | 2002-03-01 | 2003-09-17 | 何万贯 | 自动作文评语教育*** |
WO2005045786A1 (en) * | 2003-10-27 | 2005-05-19 | Educational Testing Service | Automatic essay scoring system |
CN105045778A (zh) * | 2015-06-24 | 2015-11-11 | 江苏科技大学 | 一种汉语同音词错误自动校对方法 |
CN108595410A (zh) * | 2018-03-19 | 2018-09-28 | 小船出海教育科技(北京)有限公司 | 手写作文的自动批改方法及装置 |
CN109614623A (zh) * | 2018-12-12 | 2019-04-12 | 广东小天才科技有限公司 | 一种基于句法分析的作文处理方法及*** |
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN110069768A (zh) * | 2018-01-22 | 2019-07-30 | 北京博智天下信息技术有限公司 | 一种基于篇章结构的英语议论文自动评分方法 |
CN110264792A (zh) * | 2019-06-17 | 2019-09-20 | 上海元趣信息技术有限公司 | 一种针对小学生作文智能辅导*** |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
-
2019
- 2019-11-01 CN CN201911059419.3A patent/CN110851599B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1442804A (zh) * | 2002-03-01 | 2003-09-17 | 何万贯 | 自动作文评语教育*** |
WO2005045786A1 (en) * | 2003-10-27 | 2005-05-19 | Educational Testing Service | Automatic essay scoring system |
CN105045778A (zh) * | 2015-06-24 | 2015-11-11 | 江苏科技大学 | 一种汉语同音词错误自动校对方法 |
CN110069768A (zh) * | 2018-01-22 | 2019-07-30 | 北京博智天下信息技术有限公司 | 一种基于篇章结构的英语议论文自动评分方法 |
CN108595410A (zh) * | 2018-03-19 | 2018-09-28 | 小船出海教育科技(北京)有限公司 | 手写作文的自动批改方法及装置 |
CN109614623A (zh) * | 2018-12-12 | 2019-04-12 | 广东小天才科技有限公司 | 一种基于句法分析的作文处理方法及*** |
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN110264792A (zh) * | 2019-06-17 | 2019-09-20 | 上海元趣信息技术有限公司 | 一种针对小学生作文智能辅导*** |
CN110276077A (zh) * | 2019-06-25 | 2019-09-24 | 上海应用技术大学 | 中文纠错的方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
陈一乐: "基于回归分析的中文作文自动评分技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅱ辑》 * |
陈珊珊: "自动作文评分模型及方法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581379B (zh) * | 2020-04-28 | 2022-03-25 | 电子科技大学 | 一种基于作文扣题度的自动作文评分计算方法 |
CN111581379A (zh) * | 2020-04-28 | 2020-08-25 | 电子科技大学 | 一种基于作文扣题度的自动作文评分计算方法 |
CN112380830A (zh) * | 2020-06-18 | 2021-02-19 | 达而观信息科技(上海)有限公司 | 不同文档中相关句子的匹配方法、***和计算机可读存储介质 |
CN112380830B (zh) * | 2020-06-18 | 2024-05-17 | 达观数据有限公司 | 不同文档中相关句子的匹配方法、***和计算机可读存储介质 |
CN111832281A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 作文评分方法、装置、计算机设备及计算机可读存储介质 |
WO2021139265A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 作文评分方法、装置、计算机设备及计算机可读存储介质 |
CN111914544A (zh) * | 2020-08-18 | 2020-11-10 | 科大讯飞股份有限公司 | 一种比喻句识别方法、装置、设备及存储介质 |
CN112199946A (zh) * | 2020-09-15 | 2021-01-08 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
CN112199946B (zh) * | 2020-09-15 | 2024-05-07 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
CN112183065A (zh) * | 2020-09-16 | 2021-01-05 | 北京思源智通科技有限责任公司 | 文本评估方法、装置、计算机可读存储介质及终端设备 |
CN112287921A (zh) * | 2020-10-15 | 2021-01-29 | 泰州锐比特智能科技有限公司 | 基于错字辨识的作文评估***及方法 |
CN112364990A (zh) * | 2020-10-29 | 2021-02-12 | 北京语言大学 | 通过元学习实现语法改错少样本领域适应的方法及*** |
CN112364990B (zh) * | 2020-10-29 | 2021-06-04 | 北京语言大学 | 通过元学习实现语法改错少样本领域适应的方法及*** |
CN112686020A (zh) * | 2020-12-29 | 2021-04-20 | 科大讯飞股份有限公司 | 作文评分方法、装置、电子设备及存储介质 |
CN112686020B (zh) * | 2020-12-29 | 2024-06-04 | 科大讯飞股份有限公司 | 作文评分方法、装置、电子设备及存储介质 |
CN114692606A (zh) * | 2020-12-31 | 2022-07-01 | 暗物智能科技(广州)有限公司 | 一种英语作文分析评分***、方法及存储介质 |
CN114519345B (zh) * | 2022-01-17 | 2023-11-07 | 广东南方网络信息科技有限公司 | 一种内容校对方法、装置、移动终端及存储介质 |
CN114519345A (zh) * | 2022-01-17 | 2022-05-20 | 广东南方网络信息科技有限公司 | 一种内容校对方法、装置、移动终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110851599B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851599B (zh) | 一种中文作文自动评分方法及教辅*** | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
CN109783657B (zh) | 基于受限文本空间的多步自注意力跨媒体检索方法及*** | |
CN110147436B (zh) | 一种基于教育知识图谱与文本的混合自动问答方法 | |
Dong et al. | Automatic features for essay scoring–an empirical study | |
CN110083710B (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN110134954B (zh) | 一种基于Attention机制的命名实体识别方法 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN111475629A (zh) | 一种面向数学辅导问答***的知识图谱构建方法及其*** | |
CN108717413B (zh) | 一种基于假设性半监督学习的开放领域问答方法 | |
CN108345583B (zh) | 基于多语注意力机制的事件识别及分类方法及装置 | |
Jin et al. | Combining cnns and pattern matching for question interpretation in a virtual patient dialogue system | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、***及存储介质 | |
CN110222344B (zh) | 一种针对小学生作文辅导的作文要素分析算法 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN110781681A (zh) | 一种基于翻译模型的初等数学应用题自动求解方法及*** | |
CN114528919A (zh) | 自然语言处理方法、装置及计算机设备 | |
CN110968708A (zh) | 一种教育信息资源属性标注方法及*** | |
Ortiz-Zambranoa et al. | Overview of alexs 2020: First workshop on lexical analysis at sepln | |
CN115455167A (zh) | 一种基于知识引导的地理考题生成方法和装置 | |
CN114579706B (zh) | 一种基于bert神经网络和多任务学习的主观题自动评阅方法 | |
CN111814433B (zh) | 一种维吾尔语实体识别的方法、装置和电子设备 | |
CN115270713A (zh) | 一种人机协同语料库构建方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |