CN113392187A

CN113392187A - 一种针对主观题的自动评分及纠错推荐方法

Info

Publication number: CN113392187A
Application number: CN202110672735.9A
Authority: CN
Inventors: 马黎
Original assignee: Shanghai Publishing and Printing College
Current assignee: Shanghai Publishing and Printing College
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-09-14

Abstract

本发明提供了一种针对主观题的自动评分及纠错推荐方法，包括以下步骤：步骤S1，建立题库，该题库中包括题目以及对应的标准答案、知识点标签和题目号；步骤S2，对题目号建立多位倒排索引表，组建多位倒排索引总库；步骤S3，接收待评分的答题卷图片，根据目标切分算法划分出题目区域以及答案区域；步骤S4，使用OCR技术识别出题目区域中的题目文本来得到试卷题目，根据多位检索算法和题目匹配算法从题库中找到匹配的题目，提取出标准答案和知识点标签；步骤S5，使用OCR技术识别出答案区域的答案文本来得到试卷答案，根据答案匹配算法计算试卷答案和标准答案的相似度，并提供与标准答案相比的不足；步骤S6，根据推荐策略提供相似的题目进行知识点巩固。

Description

一种针对主观题的自动评分及纠错推荐方法

技术领域

本发明属于自动评分、纠错、推荐技术领域，具体涉及一种针对主观题的自动评分及纠错推荐方法。

背景技术

近年来，学生负担加重，学习任务越来越多。在写作业时，尤其是遇到题目不会的情况下，若是在学校则有老师帮忙解决疑惑，若是在家里，家长的能力有限，此时便会不知所措。

随着科技发展，在大数据和人工智能的支持下，研究人员可以利用相关技术实现作业的自动批改及纠错。现有技术公开了申请号为202010603637.5的一种作业自动批改的方法、装置、电子设备和存储介质，该方法包括：接收智能终端发送的待批改的作业图片；将作业图片输入预先训练的文本检测模型，生成目标题目的题目信息和答案信息；对题目信息和答案信息分别进行OCR识别，得到题目文本和答案文本；根据题目文本在资源库中搜索，得到原题对应的答案解析；将答案解析和答案文本进行比对，得到答案解析和答案文本的相似度；在相似度大于或等于预设阈值时，批改目标题目的答题结果为正确，在相似度小于预设阈值时，批改目标题目的答题结果为错误，并返回答题解析至智能终端。该技术虽然可以进行作业的自动批改，但是在搜索、比对等环节并未给出具体的实施算法，且只是针对客观题目给出对或错，却没有给出对或错的原因，学生依然一脸茫然；另外对于主观题的实施效果有限。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种针对主观题的自动评分及纠错推荐方法。

本发明提供了一种针对主观题的自动评分及纠错推荐方法，具有这样的特征，包括以下步骤：

步骤S1，建立题库，该题库中包括题目以及题目对应的标准答案、知识点标签和题目号；

步骤S2，对题库中的题目号建立多位倒排索引表，并组建多位倒排索引总库；

步骤S3，接收待评分的答题卷图片，根据目标切分算法划分出题目区域以及答案区域；

步骤S4，使用OCR技术识别出题目区域中的题目文本来得到试卷题目，根据多位检索算法以及题目匹配算法从题库中找到与试卷题目匹配的题目，并对应提取出标准答案和知识点标签；

步骤S5，使用OCR技术识别出答案区域的答案文本来得到试卷答案，根据答案匹配算法计算试卷答案和标准答案的相似度，并提供试卷答案与标准答案相比的不足；

步骤S6，根据推荐策略从题库中搜索与试卷题目相似的题目来进行知识点巩固，

其中，步骤S5中，答案匹配算法的具体步骤如下：

步骤S5-1，使用OCR技术识别出答案区域的答案文本，得到试卷答案，记为Daan，并记步骤S4返回的标准答案为Biaozhun；

步骤S5-2，使用bert预训练模型或者xlnet预训练模型生成试卷答案Daan与标准答案Biaozhun的句子向量，并使用余弦相似算法计算向量之间的相似度Sim₁，0≤Sim₁≤1；

步骤S5-3，对试卷答案Daan使用textrank算法提取出关键词集合G₁，对标准答案Biaozhun使用textrank算法提取出关键词集合G₂，并计算两组关键词集合的相似度Sim₂，0≤Sim₂≤1，相似度Sim₂的计算公式如下：

步骤S5-4，对相似度Sim₁和相似度Sim₂进行融合，得到相似度Sim，计算公式如下：

Sim＝Sim₁×a+Sim₂×b (2)

步骤S5-5，根据试卷题目的设置分值进行相似度Sim映射并返回试卷答案的得分，另外将关键词集合G₂中存在的但关键词集合G₁中不存在的元素也返回，该元素表示试卷答案与标准答案相比的不足特征，

公式(2)中，a、b分别为相似度Sim₁和相似度Sim₂的权重，满足a+b＝1且a≥b。

在本发明提供的针对主观题的自动评分及纠错推荐方法中，还可以具有这样的特征：其中，步骤S1中，题目、标准答案和知识点标签来源于各种书籍以及互联网资源，题目号由题目生成，具体生成步骤如下：

步骤S1-1，将题目的文本进行分词处理；

步骤S1-2，以MD5算法作为伪随机数生成器，以TF-IDF算法或BM25算法计算分词后各个词的词权重；

步骤S1-3，根据伪随机数生成器和词权重，使用128位simhash算法生成题目的文本所对应的hash值，并将该hash值作为题目号。

在本发明提供的针对主观题的自动评分及纠错推荐方法中，还可以具有这样的特征：其中，步骤S2中，多位倒排索引表的建立以及多位倒排索引总库的组建的具体步骤如下：

步骤S2-1，记题库中某个题目的题目号为hash，将题目号hash按照M段进行切分，得到M段子题目号，如公式(3)所示，

hash＝[hash₁,hash₂,…,hash_i,…,hash_M],i∈[1,M] (3)

步骤S2-2，将题目号hash的M段子题目号hash_i,i∈[1,M]进行(M-α)位排列组合建立多位倒排索引表，α为相似阈值，且M＞α，每个题目号hash将有

个索引指向它，并将索引从上至下依次记为索引1、索引2、……、索引

当α＝3、M＝4时的多位倒排索引表如公式(4)所示，

当α＝3、M＝5时的多位倒排索引表如公式(5)所示，

步骤S2-3，将题库中所有题目号的多位倒排索引表进行汇总，组建得到多位倒排索引总库，

其中，公式(3)中，hash_i,i∈[1,M]表示题目号hash的子题目号。

在本发明提供的针对主观题的自动评分及纠错推荐方法中，还可以具有这样的特征：其中，步骤S3中，目标切分算法的具体步骤如下：

步骤S3-1，收集若干答题卷图片，使用人工标注的方法标注出答题卷图片上的题目区域和答案区域，进行人工标注时，将印刷体组成的区域作为题目区域，将手写体组成的区域作为答案区域；

步骤S3-2，将收集的答题卷图片和人工标注的信息作为训练数据，使用深度学习技术，并借助迁移学习技术训练印刷体和手写体的二分类模型；

步骤S3-3，将待评分的答题卷图片输入训练得到的二分类模型中，根据印刷体和手写体对应划分得到题目区域和答案区域，

其中，深度学习技术为卷积神经网络CNN、循环神经网络RNN或LSTM或GRU。

在本发明提供的针对主观题的自动评分及纠错推荐方法中，还可以具有这样的特征：其中，步骤S4中，多位检索算法的具体步骤如下：

步骤S4-1-1，使用OCR技术识别出题目区域的题目文本得到试卷题目，并根据步骤1中题目号的具体生成步骤，对试卷题目进行相同处理得到试卷题目号，并记试卷题目号为Thash；

步骤S4-1-2，根据步骤S2中的多位倒排索引表建立的具体步骤，对试卷题目号Thash同样进行M段切分，建立试卷题目号Thash的多位倒排索引表；

步骤S4-1-3，根据试卷题目号Thash的多位倒排索引表在多位倒排索引总库中检索与试卷题目号Thash索引号相同且索引值也相同的题目号，得到题目号集合，

题目匹配算法的具体步骤如下：

步骤S4-2-1，将试卷题目号Thash与题目号集合中的题目号逐一计算海明距离H；

步骤S4-2-2，若题目号集合中只有一个题目号的海明距离H满足H≤α的要求，则取该题目号所对应的标准答案和知识点标签作为返回值；

步骤S4-2-3，若题目号集合中有多个题目号的海明距离H满足H≤α的要求，则取海明距离H最小的题目号所对应的标准答案和知识点标签作为返回值；

步骤S4-2-4，若题目号集合中有多个题目号的海明距离H满足H≤α的要求，且海明距离H最小的题目号也有多条，则任意将其中某个题目号所对应的标准答案和知识点标签作为返回值；

步骤S4-2-5，若没有检索到与试卷题目号匹配的题目号时，则输出暂无该题正确答案的异常信息，并记录所对应的试卷题目，由题库专家给出正确的标准答案和知识点标签后填补入题库。

在本发明提供的针对主观题的自动评分及纠错推荐方法中，还可以具有这样的特征：其中，步骤S6中，推荐策略的具体步骤如下：

步骤S6-1，记步骤S4返回的知识点标签为Tags；

步骤S6-2，在题库中搜索与知识点标签Tags相似的知识点标签所对应的题目，并随机返回一条题目来进行知识点巩固。

发明的作用与效果

根据本发明所涉及的针对主观题的自动评分及纠错推荐方法，在题目匹配方面，使用了simhash算法生成题目的题目号，来确保检索的精准度，并使用多位倒排索引表进行检索，能够有效提高检索效率；在答案匹配方面，使用bert、xlnet等先进预训练模型和余弦相似算法计算相似度，并使用textrank关键词算法为相似度的衡量做补充，来保证答案匹配结果的准确性，同时还能给出学生的试卷答案与标准答案的不足特征，能够帮助学生明确自身的问题；在推荐策略方面，根据知识点标签为学生推荐相似题目，能够帮助学生巩固知识点。因此，本发明的一种针对主观题的自动评分及纠错推荐方法能够解决学生在独自做作业面对难题时不知所措的现象，解决题目匹配时耗时、答案匹配时不合理的现象，实现利用大数据及人工智能算法帮助学生提高知识的目的。

附图说明

图1是本发明的实施例中的一种针对主观题的自动评分及纠错推荐方法的流程图；

图2是本发明的实施例中步骤S1的流程图；

图3是本发明的实施例中α＝3、M＝4时建立的多位倒排索引表的示意图；

图4是本发明的实施例中α＝3、M＝5时建立的多位倒排索引表的示意图；

图5是本发明的实施例中步骤S4的流程图。

具体实施方式

为了使本发明实现的技术手段与功效易于明白了解，以下结合实施例及附图对本发明作具体阐述。

<实施例>

图1是本发明的实施例中的一种针对主观题的自动评分及纠错推荐方法的流程图。

如图1所示，本实施例的一种针对主观题的自动评分及纠错推荐方法，包括以下步骤：

步骤S1，建立题库，该题库中包括题目以及题目对应的标准答案、知识点标签和题目号。

图2是本发明的实施例中步骤S1的流程图。

如图2所示，步骤S1中，题目、标准答案和知识点标签来源于各种书籍以及互联网资源，题目号由题目生成，具体生成步骤如下：

步骤S1-1，将题目的文本进行分词处理；

步骤S2，对题库中的题目号建立多位倒排索引表，并组建多位倒排索引总库。

步骤S2中，多位倒排索引表的建立以及多位倒排索引总库的组建的具体步骤如下：

hash＝[hash₁,hash₂,…,hash_i,…,hash_M],i∈[1,M] (3)

当α＝3、M＝4时的多位倒排索引表如公式(4)所示，

图3是本发明的实施例中α＝3、M＝4时建立的多位倒排索引表的示意图。

如图3所示，当α＝3、M＝4时，题目号被切分为4段子题目号，共有索引1、索引2、索引3以及索引4指向该题目号。

当α＝3、M＝5时的多位倒排索引表如公式(5)所示，

图4是本发明的实施例中α＝3、M＝5时建立的多位倒排索引表的示意图。

如图4所示，当α＝3、M＝5时，题目号被切分为5段子题目号，共有索引1至索引10指向该题目号。

其中，公式(3)中，hash_i,i∈[1,M]表示题目号hash的子题目号。

步骤S3，接收待评分的答题卷图片，根据目标切分算法划分出题目区域以及答案区域。

步骤S3中，目标切分算法的具体步骤如下：

步骤S3-1，收集若干答题卷图片，使用人工标注的方法标注出答题卷图片上的题目区域和答案区域，进行人工标注时，将印刷体组成的区域作为题目区域，将手写体组成的区域作为答案区域，题目区域和答案区域以长方形为主；

图5是本发明的实施例中步骤S4的流程图。

如图5所示，步骤S4，使用OCR技术识别出题目区域中的题目文本来得到试卷题目，根据多位检索算法以及题目匹配算法从题库中找到与试卷题目匹配的题目，并对应提取出标准答案和知识点标签。

步骤S4中，多位检索算法的具体步骤如下：

题目匹配算法的具体步骤如下：

步骤S5，使用OCR技术识别出答案区域的答案文本来得到试卷答案，根据答案匹配算法计算试卷答案和标准答案的相似度，并提供试卷答案与标准答案相比的不足。

步骤S5中，答案匹配算法的具体步骤如下：

Sim＝Sim₁×a+Sim₂×b (2)

步骤S6，根据推荐策略从题库中搜索与试卷题目相似的题目来进行知识点巩固。

步骤S6中，推荐策略的具体步骤如下：

步骤S6-1，记步骤S4返回的知识点标签为Tags；

实施例的作用与效果

根据本实施例所涉及的针对主观题的自动评分及纠错推荐方法，在题目匹配方面，使用了simhash算法生成题目的题目号，来确保检索的精准度，并使用多位倒排索引表进行检索，能够有效提高检索效率；在答案匹配方面，使用bert、xlnet等先进预训练模型和余弦相似算法计算相似度，并使用textrank关键词算法为相似度的衡量做补充，来保证答案匹配结果的准确性，同时还能给出学生的试卷答案与标准答案的不足特征，能够帮助学生明确自身的问题；在推荐策略方面，根据知识点标签为学生推荐相似题目，能够帮助学生巩固知识点。因此，本实施例的一种针对主观题的自动评分及纠错推荐方法能够解决学生在独自做作业面对难题时不知所措的现象，解决题目匹配时耗时、答案匹配时不合理的现象，实现利用大数据及人工智能算法帮助学生提高知识的目的。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

Claims

1.一种针对主观题的自动评分及纠错推荐方法，其特征在于，包括以下步骤：

步骤S1，建立题库，该题库中包括题目以及所述题目对应的标准答案、知识点标签和题目号；

步骤S2，对所述题库中的所述题目号建立多位倒排索引表，并组建多位倒排索引总库；

步骤S4，使用OCR技术识别出所述题目区域中的题目文本来得到试卷题目，根据多位检索算法以及题目匹配算法从所述题库中找到与所述试卷题目匹配的所述题目，并对应提取出所述标准答案和所述知识点标签；

步骤S5，使用OCR技术识别出所述答案区域的答案文本来得到试卷答案，根据答案匹配算法计算所述试卷答案和所述标准答案的相似度，并提供所述试卷答案与所述标准答案相比的不足；

步骤S6，根据推荐策略从所述题库中搜索与所述试卷题目相似的所述题目来进行知识点巩固，

其中，所述步骤S5中，所述答案匹配算法的具体步骤如下：

步骤S5-1，使用OCR技术识别出所述答案区域的所述答案文本，得到所述试卷答案，记为Daan，并记所述步骤S4返回的所述标准答案为Biaozhun；

步骤S5-2，使用bert预训练模型或者xlnet预训练模型生成所述试卷答案Daan与所述标准答案Biaozhun的句子向量，并使用余弦相似算法计算向量之间的相似度Sim₁，0≤Sim₁≤1；

步骤S5-3，对所述试卷答案Daan使用textrank算法提取出关键词集合G₁，对所述标准答案Biaozhun使用textrank算法提取出关键词集合G₂，并计算两组关键词集合的相似度Sim₂，0≤Sim₂≤1，相似度Sim₂的计算公式如下：

Sim＝Sim₁×a+Sim₂×b (2)

步骤S5-5，根据所述试卷题目的设置分值进行相似度Sim映射并返回所述试卷答案的得分，另外将关键词集合G₂中存在的但关键词集合G₁中不存在的元素也返回，该元素表示所述试卷答案与所述标准答案相比的不足特征，

2.根据权利要求1所述的针对主观题的自动评分及纠错推荐方法，其特征在于：

其中，所述步骤S1中，所述题目、所述标准答案和所述知识点标签来源于各种书籍以及互联网资源，所述题目号由所述题目生成，具体生成步骤如下：

步骤S1-1，将所述题目的文本进行分词处理；

步骤S1-3，根据所述伪随机数生成器和所述词权重，使用128位simhash算法生成所述题目的文本所对应的hash值，并将该hash值作为所述题目号。

3.根据权利要求2所述的针对主观题的自动评分及纠错推荐方法，其特征在于：

其中，所述步骤S2中，所述多位倒排索引表的建立以及所述多位倒排索引总库的组建的具体步骤如下：

步骤S2-1，记所述题库中某个所述题目的所述题目号为hash，将所述题目号hash按照M段进行切分，得到M段子题目号，如公式(3)所示，

hash＝[hash₁,hash₂,…,hash_i,…,hash_M],i∈[1,M] (3)

步骤S2-2，将所述题目号hash的M段所述子题目号hash_i,i∈[1,M]进行(M-α)位排列组合建立所述多位倒排索引表，α为相似阈值，且M＞α，每个所述题目号hash将有

个索引指向它，并将所述索引从上至下依次记为索引1、索引2、……、索引

当α＝3、M＝4时的所述多位倒排索引表如公式(4)所示，

当α＝3、M＝5时的多位倒排索引表如公式(5)所示，

步骤S2-3，将所述题库中所有所述题目号的所述多位倒排索引表进行汇总，组建得到所述多位倒排索引总库，

其中，公式(3)中，hash_i,i∈[1,M]表示所述题目号hash的所述子题目号。

4.根据权利要求1所述的针对主观题的自动评分及纠错推荐方法，其特征在于：

其中，所述步骤S3中，所述目标切分算法的具体步骤如下：

步骤S3-1，收集若干所述答题卷图片，使用人工标注的方法标注出所述答题卷图片上的所述题目区域和所述答案区域，进行所述人工标注时，将印刷体组成的区域作为所述题目区域，将手写体组成的区域作为所述答案区域；

步骤S3-2，将收集的所述答题卷图片和所述人工标注的信息作为训练数据，使用深度学习技术，并借助迁移学习技术训练所述印刷体和所述手写体的二分类模型；

步骤S3-3，将待评分的所述答题卷图片输入训练得到的所述二分类模型中，根据所述印刷体和所述手写体对应划分得到所述题目区域和所述答案区域，

其中，所述深度学习技术为卷积神经网络CNN、循环神经网络RNN或LSTM或GRU。

5.根据权利要求1所述的针对主观题的自动评分及纠错推荐方法，其特征在于：

其中，所述步骤S4中，所述多位检索算法的具体步骤如下：

步骤S4-1-1，使用OCR技术识别出所述题目区域的所述题目文本得到所述试卷题目，并根据所述步骤1中所述题目号的具体生成步骤，对所述试卷题目进行相同处理得到试卷题目号，并记所述试卷题目号为Thash；

步骤S4-1-2，根据所述步骤S2中的所述多位倒排索引表建立的具体步骤，对所述试卷题目号Thash同样进行M段切分，建立所述试卷题目号Thash的所述多位倒排索引表；

步骤S4-1-3，根据所述试卷题目号Thash的所述多位倒排索引表在所述多位倒排索引总库中检索与所述试卷题目号Thash索引号相同且索引值也相同的所述题目号，得到题目号集合，

所述题目匹配算法的具体步骤如下：

步骤S4-2-1，将所述试卷题目号Thash与所述题目号集合中的所述题目号逐一计算海明距离H；

步骤S4-2-2，若所述题目号集合中只有一个所述题目号的所述海明距离H满足H≤α的要求，则取该题目号所对应的所述标准答案和所述知识点标签作为返回值；

步骤S4-2-3，若所述题目号集合中有多个所述题目号的所述海明距离H满足H≤α的要求，则取所述海明距离H最小的所述题目号所对应的所述标准答案和所述知识点标签作为返回值；

步骤S4-2-4，若所述题目号集合中有多个所述题目号的所述海明距离H满足H≤α的要求，且所述海明距离H最小的所述题目号也有多条，则任意将其中某个所述题目号所对应的所述标准答案和所述知识点标签作为返回值；

步骤S4-2-5，若没有检索到与所述试卷题目号匹配的所述题目号时，则输出暂无该题正确答案的异常信息，并记录所对应的所述试卷题目，由题库专家给出正确的所述标准答案和所述知识点标签后填补入所述题库。

6.根据权利要求1所述的针对主观题的自动评分及纠错推荐方法，其特征在于：

其中，所述步骤S6中，所述推荐策略的具体步骤如下：

步骤S6-1，记所述步骤S4返回的所述知识点标签为Tags；

步骤S6-2，在所述题库中搜索与所述知识点标签Tags相似的所述知识点标签所对应的所述题目，并随机返回一条所述题目来进行知识点巩固。