CN110851599A

CN110851599A - 一种中文作文自动评分方法及教辅***

Info

Publication number: CN110851599A
Application number: CN201911059419.3A
Authority: CN
Inventors: 夏俐
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-02-28
Anticipated expiration: 2039-11-01
Also published as: CN110851599B

Abstract

本发明提出一种中文作文自动评分方法及教辅***。该方法包括：待评分作文获取步骤；浅层特征提取步骤，用于提取待评分作文的浅层特征；深层语义特征提取步骤，用于提取待评分作文的深层语义特征，包括错别字特征和语法错误特征；评分步骤，用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合，得到待评分作文的评分结果；还包括拼音转换步骤和主题提取步骤。本发明将作文的浅层特征、深层语义特征相结合，具有很高的评分准确率，且在小样本上训练取得理想的评估结果，有效提高了样本的利用率；同时增加了错别字识别及纠正、拼音识别及转换、语法错误识别及纠正等功能，提供多维信息作为用户写作的反馈辅导，增强用户体验。

Description

一种中文作文自动评分方法及教辅***

技术领域

本发明涉及人工智能领域下的自然语言处理技术，特别涉及一种中文作文自动评分方法及教辅***。

背景技术

作文自动评分***简介

作文自动评分***AES(Automated Essay Scoring)是在人工智能、深度学习技术兴起的趋势下，基于智能算法的一种教育辅助工具。相较于人工评分***，作文自动评分***具有更加客观、及时以及高效低成本的优势，得到越来越多的重视和研究，因此研发作文自动评分***逐渐成为一种趋势。传统的作文自动评分***主要通过浅层特征对文本建模分析，忽略了文本的深层语义特征，而深度学习技术采用循环神经网络提取文本的深层语义特征，使评分结果更加客观。

中文作文自动评分***的挑战

对于自然语言处理技术，目前绝大部分的研究都是以英文为基础，而中文由于其自身的特性，在技术上比处理英文要复杂得多，在实际应用中对中文的处理比较空缺，存在诸多困难和挑战。现有的作文自动评分***也多以处理英文作文为主，对中文作文的处理结果很不理想。本发明提出的是专门针对中文的作文自动评分方法和教辅***。

传统的作文自动评分***需要手动设计文本特征，成本高且无法理解文本的深层语义；深度学习技术提取文本的深层语义特征依赖于大型语料库，而目前中文作文语料库规模很小，如何提高样本有效利用率非常重要。同时，如何在小规模样本上设计特征，如何识别及改正中文作文中出现的错别字、拼音、语法错误，如何将提取到的特征结合训练，如何保证写作辅导反馈信息的准确性等是设计中文作文自动评分***需要解决的一系列问题。

现有技术的实现方案

在设计作文自动评分***时，非专利文献1在英文作文数据集上训练CNN-LSTM模型。非专利文献2提取作文的词法、句法特征，采用多元线性回归模型训练提取到的特征。专利文献3提供了一种作文评分方法，该方法设计了两个神经网络，将作文文本的特征向量和词向量分别作为神经网络的输入，根据两个神经网络的输出计算作文分数。专利文献4提供了一种基于注意力机制的作文评分方法，该方法采用单词-句子-文档三层结构的神经网络注意力框架，并使用人工提取的特征与文档层进行融合，进而设置文档层的注意力权重。专利文献5通过采集某一作文题目的大量作文，分析每篇作文的内容，得到每篇作文的写作方式，训练作文的时序模型，采用该模型对用户作文测试，根据新颖程度对用户作文评分。

非专利文献1：Taghipour K，Ng H T.A Neural Approach to Automated EssayScoring[C]//Conference on Empirical Methods in Natural LanguageProcessing.2016

非专利文献2：李亚男.汉语作为第二语言测试的作文自动评分研究[D].北京语言大学，2006

专利文献3：CN108519975A作文评分方法、装置及存储介质

专利文献4：CN107133211A一种基于注意力机制的作文评分方法

专利文献5：CN109635087A一种作文评分方法及家教设备

现有技术的缺点

以非专利文献1为代表的深度学习技术在训练时依赖于大规模样本，无法在小规模样本中达到满意的训练效果；以非专利文献2为代表的机器学习技术没有充分提取作文中的深层语义特征，同时多元线性回归模型拟合能力有限，因此作文评分的准确性较低；以专利文献3、专利文献4为代表的方法以神经网络为基础，专利文献3通过设计多个神经网络预测作文分数，专利文献4在神经网络的输出端采用注意力机制提高评分准确率，然而这类方法对样本的利用率低，无法在小样本上取得满意的训练结果；专利文献5在特定题目下训练神经网络，这将导致训练完成的神经网络泛化能力不足，该专利文献仅以作文的新颖程度作为判断标准，没有考虑作文其它维度的特征，这将导致作文评分的准确性较低。

发明内容

为了解决现有技术存在的问题，本发明提出了一种中文作文自动评分***的构建方法、中文作文自动评分方法及教辅***、计算机可读存储介质及计算机程序产品。

本发明的技术方案将作文的浅层特征、深层语义特征相结合，一方面提高了评分的准确性，另一方面提高了样本的利用率，在小样本上训练取得满意的效果。

为了实现上述目的，本发明第一方面的实施例提出了一种中文作文自动评分***的构建方法，该方法包括以下步骤：

语料库构建步骤，用于构建中文作文语料库；

浅层特征提取步骤，基于语料库提取作文的浅层特征；

深层语义特征提取步骤，基于语料库提取作文的深层语义特征，包括错别字特征和语法错误特征；

回归步骤，用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合，得到作文的评分结果。

进一步的，提取错别字特征具体包括：采用概率分词模型对作文进行分词；根据分词结果，将作文文本与错别字识别语料库进行对比，得到可疑词集合；将可疑词集合与错别字纠正语料库进行对比，得到候选词集合；对候选词集合计算语义混淆度，取混淆度最小的词语作为错别字纠正结果。

进一步的，提取语法错误特征具体包括：利用语料库训练词向量，将词向量输入Bi-LSTM神经网络模型，训练得到标注序列，即为语法错误结果。

进一步的，还包括拼音转换步骤，用于识别待评分作文中的拼音并将其转换为相应的汉字。

进一步的，还包括主题提取步骤，用于提取待评分作文中隐含的主题。

本发明第二方面的实施例提出了一种中文作文自动评分方法，该方法包括以下步骤：

待评分作文获取步骤：获取待评分作文图片，进行中文识别，得到作文文本；或者直接获取待评分作文文本；

浅层特征提取步骤：处理待评分作文文本，得到作文文本的分词结果；根据分词结果，统计待评分作文的浅层特征；

深层语义特征提取步骤：提取待评分作文的深层语义特征，包括错别字特征和语法错误特征；

评分步骤：将提取的浅层特征、深层语义特征结合并采用随机森林拟合，得到待评分作文的评分结果。

进一步的，提取错别字特征具体包括：处理待评分作文文本，得到作文文本的分词结果；根据分词结果，将待评分作文文本与错别字识别语料库进行对比，得到可疑词集合；将可疑词集合与错别字纠正语料库进行对比，得到候选词集合；对候选词集合计算语义混淆度，取混淆度最小的词语作为错别字纠正结果。

进一步的，提取语法错误特征具体包括：处理待评分作文文本，得到作文文本的词向量；将词向量输入Bi-LSTM神经网络模型，进行训练得到标注序列，即为语法错误结果。

进一步的，浅层特征具体包括句子数量、句子平均长度、全文字数、比喻句数量、拼音数量、词汇等级。

进一步的，语法错误特征具体包括四种类型：冗余单词、缺失单词、错误单词选择、无序单词。

本发明第三方面的实施例提出了一种中文作文自动评分***，该***包括以下模块：

待评分作文获取模块：获取待评分作文图片，进行中文识别，得到作文文本；或者直接获取待评分作文文本；

浅层特征提取模块：用于处理待评分作文文本，得到作文文本的分词结果；根据分词结果，统计待评分作文的浅层特征；

深层语义特征提取模块：用于提取待评分作文的深层语义特征，包括错别字特征和语法错误特征；

评分模块：用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合，得到待评分作文的评分结果。

进一步的，还包括拼音转换模块，用于识别待评分作文中的拼音并将其转换为相应的汉字。

进一步的，还包括主题提取模块，用于提取待评分作文中隐含的主题。

本发明第四方面的实施例提出了一种中文作文自动评分***，该***按照上述中文作文自动评分***的构建方法进行构建而得到。

本发明第五方面的实施例提出了一种中文作文自动评分教辅***，该教辅***包括存储器、处理器，以及存储在存储器上并可在处理器上运行的计算机程序；或者该教辅***包括终端，以及与终端连接的其上存储有计算机程序的云服务器，所述计算机程序被执行以实现上述的中文作文自动评分方法。

本发明第六方面的实施例提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述中文作文自动评分方法。

本发明第七方面的实施例提出了一种计算机程序产品，所述计算机程序被执行时实现上述中文作文自动评分方法。

单纯考虑浅层特征的作文评分方法，其评分准确率低；单纯考虑深层语义特征的方法，需要大型语料库进行样本训练。本发明通过将作文的浅层特征、深层语义特征相结合，不仅提高了评分准确率，还有效提高了样本的利用率，从而解决了现有技术中存在的一系列问题。

本发明的作文自动评分方法及教辅***与现有中文作文评分软件相比，其有益效果在于：本发明的技术方案将作文的浅层特征、深层语义特征相结合，具有很高的评分准确率，并且在小样本上训练取得理想的评估结果，有效提高了样本的利用率；同时增加了错别字识别及纠正、拼音识别及转换、语法错误识别及纠正等功能，提供多维写作辅导信息反馈，增强用户体验。

附图说明

图1为本发明的中文作文自动评分方法及教辅***的工作原理示意图。

图2为本发明提取浅层特征的原理示意图。

图3为本发明提取语法错误特征的原理示意图。

图4为本发明的中文作文自动评分教辅***实现方式示意图。

图5为本发明构建的中文作文自动评分***的UI界面之一：OCR识别界面示意图。

图6为本发明构建的中文作文自动评分***的UI界面之二：评分展示界面示意图。

图7为本发明的中文作文自动评分方法中的关键步骤示意图。

图8-10为本发明中文作文自动评分方法的一个具体实施例，其中图8是获取待评分作文图片的示意图，图9是进行中文识别的示意图，图10是采用本发明的中文作文自动评分方法进行评分的结果。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明的中文作文自动评分方法及教辅***的工作原理示意图。如图1所示，本发明的技术方案将作文浅层特征与深层语义特征相结合，提高了评分的准确性及样本的利用率，在小样本上训练取得满意的效果。本发明首先构建中文作文语料库，基于语料库提取作文的浅层特征，主要是统计特征；基于语料库提取作文的深层语义特征，包括错别字特征和语法错误特征；将浅层特征、深层语义特征结合并采用随机森林拟合，得到作文的评分。该方案在小样本上训练具有很高的评分准确率，并且有效提高了样本的利用率。

本发明提供的中文作文自动评分教辅***与现有中文作文评分软件相比，增加了错别字纠正、拼音纠正、语法错误识别等功能，提供多维写作辅导信息反馈。

中文作文自动评分***的构建方法

下面具体介绍本发明的中文作文自动评分***的构建方法。

首先构建中文作文语料库。本发明收集1000张作文图片，聘请专业评分教师对作文评分，采用网易云OCR技术识别汉字并人工校对，构建电子版中文作文语料库；本发明基于人教版小学生语文教材构建一至六年级词库，其中一年级词库的数量为174，二年级为536，三年级为1132，四年级为1737，五年级为2172，六年级为2655。需要说明的是，中文作文语料库也可采用其它地方收集的作文图片构建，本发明对于作文的来源不作任何限制；或者直接获得作文文本。词库的构建也可以采用其他出版社的教材体系，或者不依赖于教材而选择其他的来源。

然后进行浅层特征提取。统计作文中句子数量、句子平均字数、全文字数、比喻句数量、拼音数量、作文与各年级词库的匹配度，提取的结果作为作文的浅层特征。比喻特征词为：像、似、如同、如、似的、好比、好像、犹如。统计浅层特征时采用概率分词模型，如图2所示，定义分词标志S、B、M、E分别为单字成词、词组的开头、中间、结尾，将每个字表示为可见状态o_t，分词标志表示为隐藏状态s_t，则最佳分词组合可表示为使P(o₁，o₂，…o_n|s₁，s₂，…，s_n)最大的组合。定义λ为输入模型参数，a为状态转移概率矩阵，b为观测概率矩阵，δ_t(i)为在t时刻状态为i的单路径中最大概率值，δ_t(i)＝maxP(i_t＝i，i_t-1，…，i₁，o_t，…，o₁|λ)，i＝1，2，…，N。定义ψ_t(i)为在t时刻状态为i的单路径中最大概率路径的第t-1个结点，ψ_t(i)＝argmax_1≤j≤N[δ_t-1(j)a_ji]。终止状态为P^*＝max_1≤i≤Nδ_T(i)，

对最优路径进行回溯，求得最佳分词组合，

接下来进行深层语义特征提取。提取作文深层语义特征，例如错别字特征。首先采用概率分词模型对作文进行分词，将分词结果与错别字识别语料库对比，得到可疑词集合。其中，错别字识别语料库可以包括但不限于人工定义词典、混淆集词典、***词典等；其中，人工定义词典的词语数量为177，混淆集词典为759，***词典为584429。将可疑词集合与错别字纠正语料库对比，得到候选词集合。其中，错别字纠正语料库包括但不限于常用字词典、相同偏旁部首集合、相同拼音集合；其中，常用字词典的词语数量为3502，相同拼音词典为3431，形近字词典为1664。基于***语料库训练混淆度模型，定义w_i为文章中的词，则句子S的混淆度PP为

利用该模型计算候选词集合的混淆度，取混淆度最小的元素作为错别字纠正结果。

深层语义特征提取还包括语法错误特征提取。如图3所示，首先利用微博语料库训练词向量，定义w_i为作文文本，学习目标为最大化似然函数L＝∑logp(w|Content(w))，将训练完成的词向量作为神经网络模型的输入。采用Bi-LSTM作为神经网络模型，定义c为细胞的状态，a为细胞的输出，w为权重，σ为激活函数，选择sigmoid为激活函数。LSTM细胞需要经过三层门运行，第一层门为遗忘门，上一细胞的输出和状态选择性忘记，f_t＝σ(w_f·[a_t-1，c_t]+b_f)，随后需要确定新信息存放在细胞状态中，分为两部分。首先sigmoid层决定更新值，tanh层创建一个新的候选向量，u_t＝σ(w_f·[a_t-1，c_t]+b_f)，

在更新细胞状态时，丢弃部分信息，加入新的信息，即为下一个细胞的状态，

最终，由sigmoid层决定输出的部分状态，细胞状态通过tanh处理，最终得到想要的输出，o_t＝σ(w_o[a_t-1，w_t]+b_o)，a_t＝o_t·tanh(c_t)。将Bi-LSTM神经网络的输出经过条件随机场处理(conditional random field)，考虑输出前后位置上的相互关系，得到高准确率的标注序列，其中标注序列为每个字的词性与语法错误的标注结果。标注序列可以用字母表示为R、M、S、W，其分别对应于语法错误的四种类型：冗余单词(R)、缺失单词(M)、错误单词选择(S)、无序单词(W)。语法错误特征可以包括但不限于以上四种中的一种或几种。Bi-LSTM神经网络的Batch size为64，Epoch为200，Embedding dim为100，rnnhidden dim为200，LSTMmaxlen为300，dropout为0.25，在CGED(Chinese Grammar ErrorDiagnosis)大赛提供的数据集上训练，准确率最终达到0.861，利用训练好的Bi-LSTM模型在作文集上提取得到语法错误特征。

最后是回归步骤，用于将提取的浅层特征、深层语义特征结合并采用随机森林拟合，得到作文的评分结果。随机森林首先对样本数据进行重采样，每次在原先N个训练样本中有放回地随机抽取N个样本，将获得的多个样本集作为训练样本构建决策树。在构建决策树时，随机抽取候选特征中的m个特征，作为当前节点下决策的备选特征，在备选特征中选择最好的组合。得到一群决策树后，对一群决策树的输出进行投票，得票最多的类作为随机森林的决策。本发明实施例每次选取100颗决策树进行训练，在百分制分数下评分的平均误差为2.78分，一致性评价标准quadratic weighted kappa值为0.759。

本发明实施例还可以包括拼音转换步骤和主题提取步骤。拼音转换步骤用于将用户作文中的拼音转换为相应的汉字，采用与概率分词模型相同的方法，将拼音表示为可见状态、相同拼音的汉字为隐藏状态，求解得到最佳拼音转换结果。主题提取用于将用户作文中隐含的主题提取出来，假设文章由K个主题组成，第k个主题由

个词组成，构建LDA(Latent Dirichlet allocation)模型，

其中

为K维的分布超参数。对于任一作文d，采用Dirichlet分布表示其主题分布θ_d，对于任一主题k，采用Dirichlet分布表示其词分布β_k，每个词对应主题的条件概率为

对该条件概率进行Gibbs采样，得到每个词的主题，本发明实施例设定K＝5。至此，完成了中文作文自动评分***的设计。

通过以上的中文作文自动评分***的构建方法，构建出的中文作文自动评分教辅***，其示意图如图4所示，其中的云服务器和终端均为现有技术，在此不作赘述。该中文作文自动评分教辅***通过计算机程序来实现，所述计算机程序存储在云服务器上，云服务器与终端相连，获得授权的使用者通过终端从云服务器上下载该计算机程序之后，在终端上执行该程序，实现对作文的自动评分。其UI***界面包括OCR识别界面和评分展示界面，如图5、图6所示，其中图5为OCR识别界面示意图，图6为评分展示界面示意图。该教辅***也可以设计成包括存储器、处理器，以及存储在存储器上并可在处理器上运行的计算机程序；所述计算机程序被执行以实现对作文的自动评分。

中文作文自动评分方法

下面介绍本发明的中文作文自动评分方法。如图5所示，在OCR识别界面，用户需要在本地终端提交手写作文图片，点击上传图片按钮后，得到OCR识别结果，点击开始批改按钮后，得到作文批阅结果，如图6所示。作文批阅结果可以包括但不限于作文的分数、关键词、词库匹配度、拼音转换结果、错别字识别改正结果、语法错误结果等内容，具体实施过程中也可以根据需要选择增减界面显示的内容。

具体而言，本发明的中文作文自动评分方法包括以下步骤：

图7对上述方法中的关键步骤进行了示意。针对浅层特征提取步骤，采用概率分词模型处理待评分作文文本，得到作文文本的分词结果；根据分词结果，统计待评分作文的浅层特征，浅层特征包括但不限于句子数量、句子平均长度、全文字数、比喻句数量、拼音数量、词汇等级等特征。所述概率分词模型如图2所示，定义分词标志S、B、M、E分别为单字成词、词组的开头、中间、结尾，将每个字表示为可见状态o_t，分词标志表示为隐藏状态s_t，则最佳分词组合可表示为使P(o₁，o₂，…o_n|s₁，s₂，…，s_n)最大的组合。定义λ为输入模型参数，a为状态转移概率矩阵，b为观测概率矩阵，δ_t(i)为在t时刻状态为i的单路径中最大概率值，δ_t(i)＝maxP(i_t＝i，i_t-1，…，i₁，o_t，…，o₁|λ)，i＝1，2，…，N。定义ψ_t(i)为在t时刻状态为i的单路径中最大概率路径的第t-1个结点，ψ_t(i)＝argmax_1≤j≤N[δ_t-1(j)a_ji]。终止状态为P^*＝max_1≤i≤Nδ_T(i)，

对最优路径进行回溯，求得最佳分词组合，

针对错别字特征提取步骤，采用概率分词模型处理待评分作文文本，得到作文文本的分词结果；根据分词结果，将待评分作文文本与错别字识别语料库进行对比，统计未匹配的词语，得到可疑词集合。其中错别字识别语料库可以包括但不限于人工定义词典、混淆集词典、***词典等；其中，人工定义词典的词语数量为177，混淆集词典为759，***词典为584429。将可疑词集合与错别字纠正语料库进行对比，得到候选词集合，对候选词集合计算语义混淆度，混淆度最小的词语作为错别字纠正结果，原词语为错别字结果。其中错别字纠正语料库可以包括但不限于常用字词典、相同偏旁部首集合、相同拼音集合；其中，常用字词典的词语数量为3502，相同拼音词典为3431，形近字词典为1664。利用已经训练好的混淆度模型，计算语义混淆度，定义wi为待评分作文中的词，则句子S的语义混淆度PP为

利用该模型计算候选词集合的语义混淆度，取语义混淆度最小的词语作为错别字纠正结果。

针对语法错误特征提取步骤，处理待评分作文文本，得到作文文本的词向量；将词向量输入Bi-LSTM神经网络模型进行训练，得到标注序列；标注序列为R、M、S、W的词语为语法错误结果。采用Bi-LSTM作为神经网络模型，定义c为细胞的状态，a为细胞的输出，w为权重，σ为激活函数，选择sigmoid为激活函数。LSTM细胞需要经过三层门运行，第一层门为遗忘门，上一细胞的输出和状态选择性忘记，f_t＝σ(w_f·[a_t-1，c_t]+b_f)，随后需要确定新信息存放在细胞状态中，分为两部分。首先sigmoid层决定更新值，tanh层创建一个新的候选向量，u_t＝σ(w_f·[a_t-1，c_t]+b_f)，

在更新细胞状态时，丢弃部分信息，加入新的信息，即为下一个细胞的状态，最终，由sigmoid层决定输出的部分状态，细胞状态通过tanh处理，最终得到想要的输出，o_t＝σ(w_o[a_t-1，w_t]+b_o)，a_t＝o_t·tanh(c_t)。将Bi-LSTM神经网络的输出经过条件随机场处理(conditional randomfield)，考虑输出前后位置上的相互关系，得到高准确率的标注序列，其中标注序列为每个字的词性与语法错误的标注结果。标注序列可以用字母表示为R、M、S、W，其分别对应于语法错误的四种类型：冗余单词(R)、缺失单词(M)、错误单词选择(S)、无序单词(W)。语法错误特征可以包括但不限于以上四种中的一种或几种。

针对评分步骤，即回归步骤，将提取的浅层特征、深层语义特征(包括错别字、语法错误)组合后采用随机森林进行训练，得到待评分作文的最终得分。随机森林首先对样本数据进行重采样，每次在原先N个训练样本中有放回地随机抽取N个样本，将获得的多个样本集作为训练样本构建决策树。在构建决策树时，随机抽取候选特征中的m个特征，作为当前节点下决策的备选特征，在备选特征中选择最好的组合。得到一群决策树后，对一群决策树的输出进行投票，得票最多的类作为随机森林的决策。本发明实施例每次选取100颗决策树进行训练，在百分制分数下评分的平均误差为2.78分，一致性评价标准quadraticweighted kappa值为0.759。

本发明的中文作文自动评分方法还可以包括拼音转换步骤和主题提取步骤。拼音转换步骤用于将用户作文中的拼音转换为相应的汉字，采用与概率分词模型相同的方法，将拼音表示为可见状态、相同拼音的汉字为隐藏状态，求解得到最佳拼音转换结果。主题提取用于将用户作文中隐含的主题提取出来，假设文章由K个主题组成，第k个主题由个词组成，构建LDA(Latent Dirichlet allocation)模型，

其中

对该条件概率进行Gibbs采样，得到每个词的主题，本发明实施例设定K＝5。

附图8-10是本发明使用上述中文作文自动评分方法进行作文评分的一个具体实施例。其中图8是获取待评分作文图片的示意图，图9是进行汉字识别的示意图，图10是采用本发明的中文作文自动评分方法进行评分的结果。

本发明的实施例还包括中文作文自动评分***，该***的各个模块与上述的中文作文自动评分方法的各个步骤一一对应。该***包括以下模块：

本发明的实施例还包括一种中文作文自动评分教辅***，该教辅***包括存储器、处理器，以及存储在存储器上并可在处理器上运行的计算机程序；或者该教辅***包括终端，以及与终端连接的其上存储有计算机程序的云服务器，所述计算机程序被执行以实现本发明所述的中文作文自动评分方法。

本发明的实施例还包括一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现本发明所述的中文作文自动评分方法。

本发明的实施例还包括一种计算机程序产品，所述计算机程序被执行时实现本发明所述的中文作文自动评分方法。

本发明的作文自动评分方法及教辅***与现有中文作文评分软件相比，其有益效果在于：本发明的技术方案将作文的浅层特征、深层语义特征相结合，具有很高的评分准确率，在小样本上训练取得理想的评估结果，有效提高了样本的利用率；同时增加了错别字识别及纠正、拼音识别及转换、语法错误识别及纠正等功能，提供多维信息反馈，增强用户体验。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种中文作文自动评分***的构建方法，其特征在于：该方法包括以下步骤：

语料库构建步骤，用于构建中文作文语料库；

浅层特征提取步骤，基于语料库提取作文的浅层特征；

2.一种如权利要求1所述的中文作文自动评分***的构建方法，其特征在于：提取错别字特征具体包括：采用概率分词模型对作文进行分词；根据分词结果，将作文文本与错别字识别语料库进行对比，得到可疑词集合；将可疑词集合与错别字纠正语料库进行对比，得到候选词集合；对候选词集合计算语义混淆度，取混淆度最小的词语作为错别字纠正结果。

3.一种如权利要求1所述的中文作文自动评分***的构建方法，其特征在于：提取语法错误特征具体包括：利用语料库训练词向量，将词向量输入Bi-LSTM神经网络模型，训练得到标注序列，即为语法错误结果。

4.一种中文作文自动评分方法，其特征在于：该方法包括以下步骤：

5.一种如权利要求4所述的中文作文自动评分方法，其特征在于：提取错别字特征具体包括：处理待评分作文文本，得到作文文本的分词结果；根据分词结果，将待评分作文文本与错别字识别语料库进行对比，得到可疑词集合；将可疑词集合与错别字纠正语料库进行对比，得到候选词集合；对候选词集合计算语义混淆度，取混淆度最小的词语作为错别字纠正结果。

6.一种如权利要求4所述的中文作文自动评分方法，其特征在于：提取语法错误特征具体包括：处理待评分作文文本，得到作文文本的词向量；将词向量输入Bi-LSTM神经网络模型，进行训练得到标注序列，即为语法错误结果。

7.一种如权利要求4所述的中文作文自动评分方法，其特征在于：还包括拼音转换步骤，用于识别待评分作文中的拼音并将其转换为相应的汉字。

8.一种如权利要求4所述的中文作文自动评分方法，其特征在于：还包括主题提取步骤，用于提取待评分作文中隐含的主题。

9.一种中文作文自动评分***，其特征在于：该***包括以下模块：

10.一种中文作文自动评分教辅***，该教辅***包括存储器、处理器，以及存储在存储器上并可在处理器上运行的计算机程序；或者该教辅***包括终端，以及与终端连接的其上存储有计算机程序的云服务器，其特征在于：所述计算机程序被执行以实现如权利要求4-8任一项所述的中文作文自动评分方法。