CN111414456A

CN111414456A - 一种开放式简答题自动评分的方法和***

Info

Publication number: CN111414456A
Application number: CN202010199902.8A
Authority: CN
Inventors: 卢宇; 余胜泉; 谭红叶; 段庆龙
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-14

Abstract

本发明涉及一种开放式简答题自动评分的方法和***，包括：S1、识别待评分答案的关键词，并计算关键词评分；S2、识别待评分答案的无关词，并计算无关词评分；S3、计算语义评分；S4、计算待评分答案的得分；优选的，得分＝[关键词评分+(1‑无关词评分)+语义评分]/3*简答题分值。本发明首先利用关键词和无关词计算的方法筛选出部分评分信息，结合基于深度神经网络语义计算的方法，共同对简答题进行自动评分，从而获得准确率更高的评分结果。此发明可应用于在线网络学习平台和智能导学***中，为用户提供自动评分服务，从而提高用户学习效率，增强***智能性。

Description

一种开放式简答题自动评分的方法和***

技术领域

本发明涉及自然语言处理领域，尤其涉及一种开放式简答题自动评分方法和***。

背景技术

自动评分是智慧化教学过程中评价教学质量的一个重要环节，是智慧教学中的一个研究热点。该任务通过一定模型与算法对待评分答案预测分值，不仅能减轻教师工作量，还能避免人的主观性引起的评分不一致问题。在此背景下，本发明利用关键词和无关词计算，同时结合基于深度神经网络语义计算方法，共同对简答题进行自动评分，从而获得一致性更高的评分结果，为用户提供自动评分服务，从而提高用户使用平台的效率。与现有简答题评分方法相比，本发明充分利用参***的语义信息，并利用无关词等多检测评分方法和步骤，可以有效提高简答题自动批阅的准确率。

在中国发明专利CN110689018中，提出一种智能阅卷***及其处理方法，其中语义分析与对比模块，用于计算两段文本的相似度，输出的相似度是一个介于0到1之间的实数值，值越大则相似度越高。该发明能快速地识别学生的手写答案并将其与正确答案进行比对，从而实现对简答题的正确评阅和自动评分。但该专利没有充分考虑关键词与无关词的对于评分的重要作用，并且语义部分的实现方法较难覆盖多样化的学生答题情况。

发明内容

本发明要解决的技术问题是：针对开放式简答题中涉及知识点广泛、作答文本的语言表述具有多样性的特点，提出从关键词、无关词、语义这三个角度进行评分，综合多方面的信息给出合理的分值，这种方法符合教师在评分过程中的基本依据和评价标准。

根据本发明的一个方面，提出一种开放式简答题自动评分的方法，包括：

S1、识别待评分答案的关键词，计算关键词评分；

S2、识别待评分答案的无关词，计算无关词评分；

S3、计算语义评分；

S4、计算待评分答案的得分；优选的，得分＝[关键词评分+(1-无关词评分) +语义评分]/3*简答题分值。

优选的，所述步骤S1包含：

S11、对待评分答案进行分词；

S12、计算关键词评分，计算公式为：关键词评分＝待评分答案中的分词在关键词数据库中出现的次数/待评分答案分词的数量。

优选的，关键词数据库的构件步骤包括：

(1)对简单题的现有答案进行分词；

(2)计算分词与满分答案之间的满分相关性，满分相关性的计算公式如下：

其中，C(A,S_满)为分词A在满分答案S_满中出现的次数，C(A)为分词A在现有答案中出现的次数；

(3)将满分相关性高于预设的第一阈值的分词保存到关键词数据库中。

优选的，所述步骤S2包括：

S21、对待评分答案进行分词；

S22、计算无关词评分，计算公式为：无关词评分＝待评分答案中的分词在无关词数据库中出现的次数/待评分答案分词的数量。

优选的，无关词数据库的构建步骤包括：

(1)对简单题的现有答案进行分词；

(2)计算分词与零分答案之间的零分相关性，零分相关性的计算公式如下：

其中，C(A,S_零)为分词A在零分答案S_零中出现的次数，C(A)为分词A在现有答案中出现的次数；

(3)将零分相关性高于预设的第二阈值的分词保存到无关词数据库中。

优选的，所述步骤S3包括：

S31、对待评分答案进行分词，并将每个分词转化为词向量，将所述词向量拼接形成待评分答案向量；

S32、对参***进行分词，并将每个分词转化为词向量，将所述词向量拼接形成参***向量；

S33、计算待评分答案与参***的相似度矩阵，相似度矩阵的计算公式如下：

C＝S*R^T

其中，S为待评分答案向量，R是参***向量，C为相似度矩阵；

S34、计算语义评分L，公式为：L＝max(W*C)

其中，W为训练得到的参数矩阵。

根据本发明的另一方面，提出一种开放式简答题自动评分***，包括关键词评分模块、无关词评分模块、语义评分模块和简答题得分计算模块，其中：

关键词评分模块：用于计算待评分答案的关键词评分；

无关词评分模块，用于计算待评分答案的无关词评分；

语义评分模块，用于计算待评分答案的语义评分；

简答题得分计算模块，用于计算待评分答案的得分；优选的，得分＝[关键词评分+(1-无关词评分)+语义评分]/3*简答题分值。

优选的，关键词评分模块包括构建关键词数据库单元和计算关键词评分单元，其中，

构建关键词数据库单元，用于对现有答案进行分词，计算每个分词与满分答案之间的满分相关性，将满分相关性高于设定的第一阈值的分词保存到关键词数据库中；

计算关键词评分单元，用于对待评分答案进行分词，计算关键词评分。

优选的，无关评分模块包括构建无关词数据库单元和计算无关词评分单元，其中，

构建无关词数据库单元，用于对现有答案进行分词，计算每个分词与零分答案之间的零分相关性，将零分相关性高于设定的第二阈值的分词保存到无关词数据库中；

计算无关词评分单元，用于对待评分答案进行分词，计算无关词评分。

优选的，语义评分模块包括待评分答案向量生成单元、参***向量生成单元和语义评分单元，其中，

待评分答案向量生成单元，用于对待评分答案分词并将其转换为词向量，然后将待评分答案的词向量拼接，得到待评分答案向量；

参***向量生成单元，用于对参***分词并将其转换为词向量，然后将参***的词向量拼接，得到参***向量；

语义评分单元，用于计算待评分答案向量和参***向量之间的相似度，最后输出语义计算分值。

本发明与现有方法相比的有益效果为：

(1)本发明提出把开放式简答题自动评分分为关键词评分，无关词评分、语义评分三个部分，为简答题自动评分提供新的多源信息采集与计算方法。

(2)本发明获取关键词和无关词，能够有效帮助自动评分***获取更多可解释性的评分依据。例如，可以向教师或学习者反馈评分中所依据的关键词或无关词。

附图说明

图1为根据本发明一个实施例的开放式简答题自动评分方法的流程示意图；

图2为根据本发明一个实施例的开放式简答题自动评分方法的关键词评分流程示意图；

图3为根据本发明一个实施例的开放式简答题自动评分方法的无关词评分流程示意图；

图4为根据本发明一个实施例的开放式简答题自动评分方法的语义评分流程；

图5为根据本发明一个实施例的开放式简答题自动评分***的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清查、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中，现有答案指现有的问答题的答案，并已评完分数；满分答案指获得满分的问答题答案，零分答案指获得零分的问答题答案，这些答案都可以是一份或多份。满分答案和零分答案都属于现有答案；参***，为简答题的标准答案。这些答案均为文本格式。

本发明提出的一种开放式简答题自动评分的方法，如图1所示，包括以下步骤：

S1、识别答案中的关键词，并计算关键词评分。

在步骤S1中，如图2所示，具体步骤如下：

(1)获取问答题的待评分答案，并进行预处理。具体来说，获取问答题的待评分答案，并将其转换为文本格式，然后对文本格式的待评分答案进行分词，例如，可以使用开源分词工具jieba和/或自定义的用户词典对答案进行分词。 Jieba是常用的中文分词工具，用来将一句话分解成若干词汇，其中词与词之间可以使用空格进行分割。

(2)在关键词数据库中查找分词，计算待评分答案中属于关键词的分词占分词总数量的比率。例如一条待评分答案中，分词后总词数为20，有5个词在关键词数据库中可以查到，则其关键词评分为：5/20＝0.25。

关键词数据库的构件方法为：(1)对现有答案的文本进行分词，(2)计算分词与满分答案之间的满分相关性，将满分相关性高于设定的第一阈值的词A 存储到关键词数据库中。满分相关性的具体计算方式如下：

其中，C(A,S_满)为词A在满分答案S_满中出现的次数，C(A)为词A在现有作答(包括满分答案与非满分答案)中出现的次数。例如，“氧气”一词在满分答案中出现60次，在现有答案中出现100次，则氧气和满分的满分相关性为0.6，假定第一阈值为0.5，则将“氧气”存储到关键词数据库中作为关键词。

S2、识别无关词，并进行无关词评分。

如图3所示，具体实现如下：

(1)对需要待评分答案进行分词；也就是步骤S1中第(1)步。

(2)在无关词数据库中查找分词，计算待评分答案中属于无关词的分词占分词总数量的比率。例如一条待评分答案中，分词后总词数为20，有2个词在无关词数据库中可以查到，则其无关词分值为，2/20＝0.1。

构建无关词数据库的方法为：对现有答案(文本格式)进行分词，计算每个词与零分答案(零分答案不仅包括空白，还包括写了内容但不得分的答案) 之间的零分相关性，如果零分相关性高于设定的第二阈值，则将词存储到无关词数据库中。零分相关性的具体计算方式如下：

其中，C(A,S_零)为词A在零分答案文本S_零中出现的次数，C(A)为词A在现有答案中出现的次数。例如，“空气”一词在零分答案文本中出现60次，在现有答案中出现100次，则其零分相关性为0.6，假定第二阈值为0.5，将“空气” 保存到无关词数据库中。

S3、计算语义评分；

语义评分的流程如图4所示，具体实现步骤如下：

(1)对待评分答案和参***进行分词，将待评分答案和参***中每个分词映射为词向量，将待评分答案的词向量进行拼接，得到待评分答案向量；将参***的词向量进行拼接得到参***向量。

例如，利用word2vec工具得到300维的词向量(使用word2vec工具从大规模语料库中训练出词的向量的方法可以参见：https://radimrehurek.com/gensim/models/ word2vec.html)，如“光合作用”这个词的映射如下所示：

“光合作用”(0.11,-0.2,0.3,………,0.2)。

待评分答案为“光合作用产生氧气。”则待评分答案向量S为维度为300行、 5列的矩阵(不足部分用零向量补全，多余部分可以去掉零或者最接近零的向量)：

“光合作用”，“产生”，“氧气”

参***为“光合作用产生氧气和淀粉。”则参***向量R为维度为300 行、5列的矩阵：

“光合作用”，“产生”，“氧气”，“和”，“淀粉”

(2)计算待评分答案与参***的相似度，以刻画待评分答案与参*** 之间的语义相似度。相似度矩阵的计算公式如下：

C＝S*R^T

其中，S为待评分答案向量，R是参***向量，C为相似度矩阵，表示待评分答案与参***对应位置的单词的相似度值。

计算得到的相似度矩阵C的维度为300行，300列：

根据下面公式计算语义评分L：

L＝max(W*C)

其中，W为训练得到的参数向量，例如，W为300维的向量(0.754,0.831,…,0.533)。W与C进行相乘后，得到300维的向量，提取该向量中所有元素的最大值，例如第15位0.35为最大值，则语义计算分值L＝0.35。

在一个实施例中，W为利用问答题的现有答案及评分信息，进行机器学习训练得到的参数矩阵(M行M列)，参数矩阵行列数与待评分答案的行数一致。 max()函数表示提取括号向量中所有元素的最大值。机器学习是现有的方法，只要将已评分现有答案、参***作为输入、分数作为输出，即可训练得到参数矩阵。在一个实施例中，可以使用2019年中文信息学报第11期的《基于代表性答案选择与注意力机制的短答案自动评分》获得W。

S4、计算简答题分值。

可以使用关键词评分、无关词评分和语义评分的算术平均值作为当前题目的评分结果，如：答案得分＝[关键词评分+(1-无关词评分)+语义评分]/3*简答题分值。

例如，当某题目总分值为4分，关键词评分为0.25，无关词评分为0.2,语义评分为0.35，则最终分值的计算结果如下所示：

最终得分可以对计算结果进行向下取整数得到。利用算术平均值方法仅是作为计算得分的示例，而不是对利用关键词评分、无关词评分和语义评分求得简答题得分的限制。

本评分方法在多个测评数据集上，自动批阅准确率均有明显提升。例如某2 分分值的生物简答题，要求学生简答“光合作用的产物”，参***为“光合作用产生氧气和淀粉”，某待评分学生答案为“光合作用可以制造出来氧气”。待评分学生答案分词后，总词数为5，“光合作用”与“氧气”2个词在关键词数据库中可以查到，则其关键词评分为2/5＝0.4；“制造”在无关词数据库中可以查到，其关键词评分为1/5＝0.2；经过计算待评分答案与参***的相似度，可以得到语义评分0.6。因此，最终分值的计算结果为

即该答案评分为1分。

根据本发明的另一方面，提出一种开放式简答题自动评分***，自动评分 ***包括关键词评分模块、无关词评分模块、语义评分模块和简答题得分计算模块，其中：

关键词评分模块：用于计算待评分答案的关键词评分；

无关词评分模块，用于计算待评分答案的无关词评分；

语义评分模块，用于计算待评分答案的语义评分；

关键词评分模块包括构建关键词数据库单元和计算关键词评分单元，其中，

构建关键词数据库单元，用于对现有答案进行分词，计算每个分词与满分答案之间的满分相关性，将满分相关性高于设定的第一阈值的词A存储到关键词数据库中。满分相关性的计算公式如下：

其中C(A,S_满)为词A在满分答案S_满中出现的次数，C(A)为词A在现有答案(包括满分作答与非满分作答)中出现的次数。

计算关键词评分单元，用于将待评分答案进行分词，计算关键词评分，公式为：关键词评分＝待评分答案中的分词在关键词数据库中出现的次数/待评分答案分词的数量。

无关词评分模块包括构建无关词数据库单元和计算无关词评分单元，其中，构件无关词数据库单元，用于对现有答案进行分词，计算分词与零分答案的零分相关性，将零分相关性高于设定的第二阈值的词A存储到无关词数据库中。零分相关性的具体计算方式如下：

其中C(A,S_零)为分词A在零分答案S_零中出现的次数，C(A)为分词A在现有答案(包括满分作答与非满分作答)中出现的次数。

计算无关词评分单元，用于对待评分答案进行分词，计算无关词评分，公式为：无关词评分＝待评分答案中的分词在无关词数据库中出现的次数/待评分答案分词的数量。

语义评分模块，用于计算待评分答案与参***之间的语义相似度，从语义层面对学生答案进行评分。语义计算模板包含待评分答案向量生成单元、参 ***向量生成单元和语义评分单元。

待评分答案向量生成单元，用于对待评分答案分词并将其转换为词向量，然后将待评分答案的词向量拼接，即可得到待评分答案向量。

例如，待评分答案为“光合作用产生氧气。”分词为：“光合作用”，“产生”， “氧气”。利用分词工具(如word2vec)将“光合作用”转为向量(0.11,-0.2, 0.3,………,0.2)，最后待评分答案向量S为维度为N行(如300行)、M列(如 5列)的矩阵(不足部分用零向量补全，多余部分可以去掉零或者最接近零的向量)：

参***向量生成单元，用于对参***分词并将其转换为词向量，然后将参***的词向量拼接，即可得到参***向量。

例如，参***为“光合作用产生氧气和淀粉。”同待评分答案向量生成单元的方法一样，最后生成的参***向量R为维度为M行(如300行)、N列 (5列)的矩阵：

“光合作用”，“产生”，“氧气”，“和”，“淀粉”

语义评分单元，用于计算待评分答案向量和参***向量之间的相似度，最后输出语义计算分值。待评分答案与参***之间的相似度的计算公式如下：

C＝S*R^T

其中S为待评分答案的向量表示，R是参***的向量表示，C为相似度矩阵表示待评分答案与参***对应位置的单个词的相似度值。语义评分L的计算公式为：

L＝max(W*C)

其中W为利用问答题的现有答案及评分信息，进行机器学习训练得到的参数矩阵(M行M列)，参数矩阵行列数与待评分答案的行数一致。max()函数表示提取括号向量中所有元素的最大值。机器学习是现有的方法，只要将已评分现有答案、参***作为输入、分数作为输出，即可训练得到参数矩阵。在一个实施例中，可以使用2019年中文信息学报第11期的《基于代表性答案选择与注意力机制的短答案自动评分》获得W。

本发明未详细阐述的部分属于本领域公知领域。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种开放式简答题自动评分的方法，其特征在于，包括：

S1、识别待评分答案的关键词，计算关键词评分；

S2、识别待评分答案的无关词，计算无关词评分；

S3、计算语义评分；

S4、计算待评分答案的得分；优选的，得分＝[关键词评分+(1-无关词评分)+语义评分]/3*简答题分值。

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包含：

S11、对待评分答案进行分词；

3.根据权利要求2所述的方法，其特征在于，关键词数据库的构件步骤包括：

(1)对简单题的现有答案进行分词；

4.根据权利要求1所述的方法，其特征在于，所述步骤S2包括：

S21、对待评分答案进行分词；

5.根据权利要求4所述的方法，其特征在于，无关词数据库的构建步骤包括：

(1)对简单题的现有答案进行分词；

6.根据权利要求1所述的方法，其特征在于，所述步骤S3包括：

C＝S*R^T

其中，S为待评分答案向量，R是参***向量，C为相似度矩阵；

S34、计算语义评分L，公式为：L＝max(W*C)

其中，W为训练得到的参数矩阵。

7.一种开放式简答题自动评分***，其特征在于：所述自动评分***包括关键词评分模块、无关词评分模块、语义评分模块和简答题得分计算模块，其中：

关键词评分模块：用于计算待评分答案的关键词评分；

无关词评分模块，用于计算待评分答案的无关词评分；

语义评分模块，用于计算待评分答案的语义评分；

8.根据权利要求7所述的自动评分***，其特征在于，关键词评分模块包括构建关键词数据库单元和计算关键词评分单元，其中，

9.根据权利要求7所述的自动评分***，其特征在于，无关评分模块包括构建无关词数据库单元和计算无关词评分单元，其中，

10.根据权利要求7所述的自动评分***，其特征在于，语义评分模块包括待评分答案向量生成单元、参***向量生成单元和语义评分单元，其中，