CN113392187A - 一种针对主观题的自动评分及纠错推荐方法 - Google Patents

一种针对主观题的自动评分及纠错推荐方法 Download PDF

Info

Publication number
CN113392187A
CN113392187A CN202110672735.9A CN202110672735A CN113392187A CN 113392187 A CN113392187 A CN 113392187A CN 202110672735 A CN202110672735 A CN 202110672735A CN 113392187 A CN113392187 A CN 113392187A
Authority
CN
China
Prior art keywords
question
answer
test paper
algorithm
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110672735.9A
Other languages
English (en)
Inventor
马黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Publishing and Printing College
Original Assignee
Shanghai Publishing and Printing College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Publishing and Printing College filed Critical Shanghai Publishing and Printing College
Priority to CN202110672735.9A priority Critical patent/CN113392187A/zh
Publication of CN113392187A publication Critical patent/CN113392187A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种针对主观题的自动评分及纠错推荐方法,包括以下步骤:步骤S1,建立题库,该题库中包括题目以及对应的标准答案、知识点标签和题目号;步骤S2,对题目号建立多位倒排索引表,组建多位倒排索引总库;步骤S3,接收待评分的答题卷图片,根据目标切分算法划分出题目区域以及答案区域;步骤S4,使用OCR技术识别出题目区域中的题目文本来得到试卷题目,根据多位检索算法和题目匹配算法从题库中找到匹配的题目,提取出标准答案和知识点标签;步骤S5,使用OCR技术识别出答案区域的答案文本来得到试卷答案,根据答案匹配算法计算试卷答案和标准答案的相似度,并提供与标准答案相比的不足;步骤S6,根据推荐策略提供相似的题目进行知识点巩固。

Description

一种针对主观题的自动评分及纠错推荐方法
技术领域
本发明属于自动评分、纠错、推荐技术领域,具体涉及一种针对主观题的自动评分及纠错推荐方法。
背景技术
近年来,学生负担加重,学习任务越来越多。在写作业时,尤其是遇到题目不会的情况下,若是在学校则有老师帮忙解决疑惑,若是在家里,家长的能力有限,此时便会不知所措。
随着科技发展,在大数据和人工智能的支持下,研究人员可以利用相关技术实现作业的自动批改及纠错。现有技术公开了申请号为202010603637.5的一种作业自动批改的方法、装置、电子设备和存储介质,该方法包括:接收智能终端发送的待批改的作业图片;将作业图片输入预先训练的文本检测模型,生成目标题目的题目信息和答案信息;对题目信息和答案信息分别进行OCR识别,得到题目文本和答案文本;根据题目文本在资源库中搜索,得到原题对应的答案解析;将答案解析和答案文本进行比对,得到答案解析和答案文本的相似度;在相似度大于或等于预设阈值时,批改目标题目的答题结果为正确,在相似度小于预设阈值时,批改目标题目的答题结果为错误,并返回答题解析至智能终端。该技术虽然可以进行作业的自动批改,但是在搜索、比对等环节并未给出具体的实施算法,且只是针对客观题目给出对或错,却没有给出对或错的原因,学生依然一脸茫然;另外对于主观题的实施效果有限。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种针对主观题的自动评分及纠错推荐方法。
本发明提供了一种针对主观题的自动评分及纠错推荐方法,具有这样的特征,包括以下步骤:
步骤S1,建立题库,该题库中包括题目以及题目对应的标准答案、知识点标签和题目号;
步骤S2,对题库中的题目号建立多位倒排索引表,并组建多位倒排索引总库;
步骤S3,接收待评分的答题卷图片,根据目标切分算法划分出题目区域以及答案区域;
步骤S4,使用OCR技术识别出题目区域中的题目文本来得到试卷题目,根据多位检索算法以及题目匹配算法从题库中找到与试卷题目匹配的题目,并对应提取出标准答案和知识点标签;
步骤S5,使用OCR技术识别出答案区域的答案文本来得到试卷答案,根据答案匹配算法计算试卷答案和标准答案的相似度,并提供试卷答案与标准答案相比的不足;
步骤S6,根据推荐策略从题库中搜索与试卷题目相似的题目来进行知识点巩固,
其中,步骤S5中,答案匹配算法的具体步骤如下:
步骤S5-1,使用OCR技术识别出答案区域的答案文本,得到试卷答案,记为Daan,并记步骤S4返回的标准答案为Biaozhun;
步骤S5-2,使用bert预训练模型或者xlnet预训练模型生成试卷答案Daan与标准答案Biaozhun的句子向量,并使用余弦相似算法计算向量之间的相似度Sim1,0≤Sim1≤1;
步骤S5-3,对试卷答案Daan使用textrank算法提取出关键词集合G1,对标准答案Biaozhun使用textrank算法提取出关键词集合G2,并计算两组关键词集合的相似度Sim2,0≤Sim2≤1,相似度Sim2的计算公式如下:
Figure BDA0003120001600000031
步骤S5-4,对相似度Sim1和相似度Sim2进行融合,得到相似度Sim,计算公式如下:
Sim=Sim1×a+Sim2×b (2)
步骤S5-5,根据试卷题目的设置分值进行相似度Sim映射并返回试卷答案的得分,另外将关键词集合G2中存在的但关键词集合G1中不存在的元素也返回,该元素表示试卷答案与标准答案相比的不足特征,
公式(2)中,a、b分别为相似度Sim1和相似度Sim2的权重,满足a+b=1且a≥b。
在本发明提供的针对主观题的自动评分及纠错推荐方法中,还可以具有这样的特征:其中,步骤S1中,题目、标准答案和知识点标签来源于各种书籍以及互联网资源,题目号由题目生成,具体生成步骤如下:
步骤S1-1,将题目的文本进行分词处理;
步骤S1-2,以MD5算法作为伪随机数生成器,以TF-IDF算法或BM25算法计算分词后各个词的词权重;
步骤S1-3,根据伪随机数生成器和词权重,使用128位simhash算法生成题目的文本所对应的hash值,并将该hash值作为题目号。
在本发明提供的针对主观题的自动评分及纠错推荐方法中,还可以具有这样的特征:其中,步骤S2中,多位倒排索引表的建立以及多位倒排索引总库的组建的具体步骤如下:
步骤S2-1,记题库中某个题目的题目号为hash,将题目号hash按照M段进行切分,得到M段子题目号,如公式(3)所示,
hash=[hash1,hash2,…,hashi,…,hashM],i∈[1,M] (3)
步骤S2-2,将题目号hash的M段子题目号hashi,i∈[1,M]进行(M-α)位排列组合建立多位倒排索引表,α为相似阈值,且M>α,每个题目号hash将有
Figure BDA0003120001600000041
个索引指向它,并将索引从上至下依次记为索引1、索引2、……、索引
Figure BDA0003120001600000042
当α=3、M=4时的多位倒排索引表如公式(4)所示,
Figure BDA0003120001600000043
当α=3、M=5时的多位倒排索引表如公式(5)所示,
Figure BDA0003120001600000051
步骤S2-3,将题库中所有题目号的多位倒排索引表进行汇总,组建得到多位倒排索引总库,
其中,公式(3)中,hashi,i∈[1,M]表示题目号hash的子题目号。
在本发明提供的针对主观题的自动评分及纠错推荐方法中,还可以具有这样的特征:其中,步骤S3中,目标切分算法的具体步骤如下:
步骤S3-1,收集若干答题卷图片,使用人工标注的方法标注出答题卷图片上的题目区域和答案区域,进行人工标注时,将印刷体组成的区域作为题目区域,将手写体组成的区域作为答案区域;
步骤S3-2,将收集的答题卷图片和人工标注的信息作为训练数据,使用深度学习技术,并借助迁移学习技术训练印刷体和手写体的二分类模型;
步骤S3-3,将待评分的答题卷图片输入训练得到的二分类模型中,根据印刷体和手写体对应划分得到题目区域和答案区域,
其中,深度学习技术为卷积神经网络CNN、循环神经网络RNN或LSTM或GRU。
在本发明提供的针对主观题的自动评分及纠错推荐方法中,还可以具有这样的特征:其中,步骤S4中,多位检索算法的具体步骤如下:
步骤S4-1-1,使用OCR技术识别出题目区域的题目文本得到试卷题目,并根据步骤1中题目号的具体生成步骤,对试卷题目进行相同处理得到试卷题目号,并记试卷题目号为Thash;
步骤S4-1-2,根据步骤S2中的多位倒排索引表建立的具体步骤,对试卷题目号Thash同样进行M段切分,建立试卷题目号Thash的多位倒排索引表;
步骤S4-1-3,根据试卷题目号Thash的多位倒排索引表在多位倒排索引总库中检索与试卷题目号Thash索引号相同且索引值也相同的题目号,得到题目号集合,
题目匹配算法的具体步骤如下:
步骤S4-2-1,将试卷题目号Thash与题目号集合中的题目号逐一计算海明距离H;
步骤S4-2-2,若题目号集合中只有一个题目号的海明距离H满足H≤α的要求,则取该题目号所对应的标准答案和知识点标签作为返回值;
步骤S4-2-3,若题目号集合中有多个题目号的海明距离H满足H≤α的要求,则取海明距离H最小的题目号所对应的标准答案和知识点标签作为返回值;
步骤S4-2-4,若题目号集合中有多个题目号的海明距离H满足H≤α的要求,且海明距离H最小的题目号也有多条,则任意将其中某个题目号所对应的标准答案和知识点标签作为返回值;
步骤S4-2-5,若没有检索到与试卷题目号匹配的题目号时,则输出暂无该题正确答案的异常信息,并记录所对应的试卷题目,由题库专家给出正确的标准答案和知识点标签后填补入题库。
在本发明提供的针对主观题的自动评分及纠错推荐方法中,还可以具有这样的特征:其中,步骤S6中,推荐策略的具体步骤如下:
步骤S6-1,记步骤S4返回的知识点标签为Tags;
步骤S6-2,在题库中搜索与知识点标签Tags相似的知识点标签所对应的题目,并随机返回一条题目来进行知识点巩固。
发明的作用与效果
根据本发明所涉及的针对主观题的自动评分及纠错推荐方法,在题目匹配方面,使用了simhash算法生成题目的题目号,来确保检索的精准度,并使用多位倒排索引表进行检索,能够有效提高检索效率;在答案匹配方面,使用bert、xlnet等先进预训练模型和余弦相似算法计算相似度,并使用textrank关键词算法为相似度的衡量做补充,来保证答案匹配结果的准确性,同时还能给出学生的试卷答案与标准答案的不足特征,能够帮助学生明确自身的问题;在推荐策略方面,根据知识点标签为学生推荐相似题目,能够帮助学生巩固知识点。因此,本发明的一种针对主观题的自动评分及纠错推荐方法能够解决学生在独自做作业面对难题时不知所措的现象,解决题目匹配时耗时、答案匹配时不合理的现象,实现利用大数据及人工智能算法帮助学生提高知识的目的。
附图说明
图1是本发明的实施例中的一种针对主观题的自动评分及纠错推荐方法的流程图;
图2是本发明的实施例中步骤S1的流程图;
图3是本发明的实施例中α=3、M=4时建立的多位倒排索引表的示意图;
图4是本发明的实施例中α=3、M=5时建立的多位倒排索引表的示意图;
图5是本发明的实施例中步骤S4的流程图。
具体实施方式
为了使本发明实现的技术手段与功效易于明白了解,以下结合实施例及附图对本发明作具体阐述。
<实施例>
图1是本发明的实施例中的一种针对主观题的自动评分及纠错推荐方法的流程图。
如图1所示,本实施例的一种针对主观题的自动评分及纠错推荐方法,包括以下步骤:
步骤S1,建立题库,该题库中包括题目以及题目对应的标准答案、知识点标签和题目号。
图2是本发明的实施例中步骤S1的流程图。
如图2所示,步骤S1中,题目、标准答案和知识点标签来源于各种书籍以及互联网资源,题目号由题目生成,具体生成步骤如下:
步骤S1-1,将题目的文本进行分词处理;
步骤S1-2,以MD5算法作为伪随机数生成器,以TF-IDF算法或BM25算法计算分词后各个词的词权重;
步骤S1-3,根据伪随机数生成器和词权重,使用128位simhash算法生成题目的文本所对应的hash值,并将该hash值作为题目号。
步骤S2,对题库中的题目号建立多位倒排索引表,并组建多位倒排索引总库。
步骤S2中,多位倒排索引表的建立以及多位倒排索引总库的组建的具体步骤如下:
步骤S2-1,记题库中某个题目的题目号为hash,将题目号hash按照M段进行切分,得到M段子题目号,如公式(3)所示,
hash=[hash1,hash2,…,hashi,…,hashM],i∈[1,M] (3)
步骤S2-2,将题目号hash的M段子题目号hashi,i∈[1,M]进行(M-α)位排列组合建立多位倒排索引表,α为相似阈值,且M>α,每个题目号hash将有
Figure BDA0003120001600000091
个索引指向它,并将索引从上至下依次记为索引1、索引2、……、索引
Figure BDA0003120001600000092
当α=3、M=4时的多位倒排索引表如公式(4)所示,
Figure BDA0003120001600000101
图3是本发明的实施例中α=3、M=4时建立的多位倒排索引表的示意图。
如图3所示,当α=3、M=4时,题目号被切分为4段子题目号,共有索引1、索引2、索引3以及索引4指向该题目号。
当α=3、M=5时的多位倒排索引表如公式(5)所示,
Figure BDA0003120001600000102
图4是本发明的实施例中α=3、M=5时建立的多位倒排索引表的示意图。
如图4所示,当α=3、M=5时,题目号被切分为5段子题目号,共有索引1至索引10指向该题目号。
步骤S2-3,将题库中所有题目号的多位倒排索引表进行汇总,组建得到多位倒排索引总库,
其中,公式(3)中,hashi,i∈[1,M]表示题目号hash的子题目号。
步骤S3,接收待评分的答题卷图片,根据目标切分算法划分出题目区域以及答案区域。
步骤S3中,目标切分算法的具体步骤如下:
步骤S3-1,收集若干答题卷图片,使用人工标注的方法标注出答题卷图片上的题目区域和答案区域,进行人工标注时,将印刷体组成的区域作为题目区域,将手写体组成的区域作为答案区域,题目区域和答案区域以长方形为主;
步骤S3-2,将收集的答题卷图片和人工标注的信息作为训练数据,使用深度学习技术,并借助迁移学习技术训练印刷体和手写体的二分类模型;
步骤S3-3,将待评分的答题卷图片输入训练得到的二分类模型中,根据印刷体和手写体对应划分得到题目区域和答案区域,
其中,深度学习技术为卷积神经网络CNN、循环神经网络RNN或LSTM或GRU。
图5是本发明的实施例中步骤S4的流程图。
如图5所示,步骤S4,使用OCR技术识别出题目区域中的题目文本来得到试卷题目,根据多位检索算法以及题目匹配算法从题库中找到与试卷题目匹配的题目,并对应提取出标准答案和知识点标签。
步骤S4中,多位检索算法的具体步骤如下:
步骤S4-1-1,使用OCR技术识别出题目区域的题目文本得到试卷题目,并根据步骤1中题目号的具体生成步骤,对试卷题目进行相同处理得到试卷题目号,并记试卷题目号为Thash;
步骤S4-1-2,根据步骤S2中的多位倒排索引表建立的具体步骤,对试卷题目号Thash同样进行M段切分,建立试卷题目号Thash的多位倒排索引表;
步骤S4-1-3,根据试卷题目号Thash的多位倒排索引表在多位倒排索引总库中检索与试卷题目号Thash索引号相同且索引值也相同的题目号,得到题目号集合,
题目匹配算法的具体步骤如下:
步骤S4-2-1,将试卷题目号Thash与题目号集合中的题目号逐一计算海明距离H;
步骤S4-2-2,若题目号集合中只有一个题目号的海明距离H满足H≤α的要求,则取该题目号所对应的标准答案和知识点标签作为返回值;
步骤S4-2-3,若题目号集合中有多个题目号的海明距离H满足H≤α的要求,则取海明距离H最小的题目号所对应的标准答案和知识点标签作为返回值;
步骤S4-2-4,若题目号集合中有多个题目号的海明距离H满足H≤α的要求,且海明距离H最小的题目号也有多条,则任意将其中某个题目号所对应的标准答案和知识点标签作为返回值;
步骤S4-2-5,若没有检索到与试卷题目号匹配的题目号时,则输出暂无该题正确答案的异常信息,并记录所对应的试卷题目,由题库专家给出正确的标准答案和知识点标签后填补入题库。
步骤S5,使用OCR技术识别出答案区域的答案文本来得到试卷答案,根据答案匹配算法计算试卷答案和标准答案的相似度,并提供试卷答案与标准答案相比的不足。
步骤S5中,答案匹配算法的具体步骤如下:
步骤S5-1,使用OCR技术识别出答案区域的答案文本,得到试卷答案,记为Daan,并记步骤S4返回的标准答案为Biaozhun;
步骤S5-2,使用bert预训练模型或者xlnet预训练模型生成试卷答案Daan与标准答案Biaozhun的句子向量,并使用余弦相似算法计算向量之间的相似度Sim1,0≤Sim1≤1;
步骤S5-3,对试卷答案Daan使用textrank算法提取出关键词集合G1,对标准答案Biaozhun使用textrank算法提取出关键词集合G2,并计算两组关键词集合的相似度Sim2,0≤Sim2≤1,相似度Sim2的计算公式如下:
Figure BDA0003120001600000131
步骤S5-4,对相似度Sim1和相似度Sim2进行融合,得到相似度Sim,计算公式如下:
Sim=Sim1×a+Sim2×b (2)
步骤S5-5,根据试卷题目的设置分值进行相似度Sim映射并返回试卷答案的得分,另外将关键词集合G2中存在的但关键词集合G1中不存在的元素也返回,该元素表示试卷答案与标准答案相比的不足特征,
公式(2)中,a、b分别为相似度Sim1和相似度Sim2的权重,满足a+b=1且a≥b。
步骤S6,根据推荐策略从题库中搜索与试卷题目相似的题目来进行知识点巩固。
步骤S6中,推荐策略的具体步骤如下:
步骤S6-1,记步骤S4返回的知识点标签为Tags;
步骤S6-2,在题库中搜索与知识点标签Tags相似的知识点标签所对应的题目,并随机返回一条题目来进行知识点巩固。
实施例的作用与效果
根据本实施例所涉及的针对主观题的自动评分及纠错推荐方法,在题目匹配方面,使用了simhash算法生成题目的题目号,来确保检索的精准度,并使用多位倒排索引表进行检索,能够有效提高检索效率;在答案匹配方面,使用bert、xlnet等先进预训练模型和余弦相似算法计算相似度,并使用textrank关键词算法为相似度的衡量做补充,来保证答案匹配结果的准确性,同时还能给出学生的试卷答案与标准答案的不足特征,能够帮助学生明确自身的问题;在推荐策略方面,根据知识点标签为学生推荐相似题目,能够帮助学生巩固知识点。因此,本实施例的一种针对主观题的自动评分及纠错推荐方法能够解决学生在独自做作业面对难题时不知所措的现象,解决题目匹配时耗时、答案匹配时不合理的现象,实现利用大数据及人工智能算法帮助学生提高知识的目的。
上述实施方式为本发明的优选案例,并不用来限制本发明的保护范围。

Claims (6)

1.一种针对主观题的自动评分及纠错推荐方法,其特征在于,包括以下步骤:
步骤S1,建立题库,该题库中包括题目以及所述题目对应的标准答案、知识点标签和题目号;
步骤S2,对所述题库中的所述题目号建立多位倒排索引表,并组建多位倒排索引总库;
步骤S3,接收待评分的答题卷图片,根据目标切分算法划分出题目区域以及答案区域;
步骤S4,使用OCR技术识别出所述题目区域中的题目文本来得到试卷题目,根据多位检索算法以及题目匹配算法从所述题库中找到与所述试卷题目匹配的所述题目,并对应提取出所述标准答案和所述知识点标签;
步骤S5,使用OCR技术识别出所述答案区域的答案文本来得到试卷答案,根据答案匹配算法计算所述试卷答案和所述标准答案的相似度,并提供所述试卷答案与所述标准答案相比的不足;
步骤S6,根据推荐策略从所述题库中搜索与所述试卷题目相似的所述题目来进行知识点巩固,
其中,所述步骤S5中,所述答案匹配算法的具体步骤如下:
步骤S5-1,使用OCR技术识别出所述答案区域的所述答案文本,得到所述试卷答案,记为Daan,并记所述步骤S4返回的所述标准答案为Biaozhun;
步骤S5-2,使用bert预训练模型或者xlnet预训练模型生成所述试卷答案Daan与所述标准答案Biaozhun的句子向量,并使用余弦相似算法计算向量之间的相似度Sim1,0≤Sim1≤1;
步骤S5-3,对所述试卷答案Daan使用textrank算法提取出关键词集合G1,对所述标准答案Biaozhun使用textrank算法提取出关键词集合G2,并计算两组关键词集合的相似度Sim2,0≤Sim2≤1,相似度Sim2的计算公式如下:
Figure FDA0003120001590000021
步骤S5-4,对相似度Sim1和相似度Sim2进行融合,得到相似度Sim,计算公式如下:
Sim=Sim1×a+Sim2×b (2)
步骤S5-5,根据所述试卷题目的设置分值进行相似度Sim映射并返回所述试卷答案的得分,另外将关键词集合G2中存在的但关键词集合G1中不存在的元素也返回,该元素表示所述试卷答案与所述标准答案相比的不足特征,
公式(2)中,a、b分别为相似度Sim1和相似度Sim2的权重,满足a+b=1且a≥b。
2.根据权利要求1所述的针对主观题的自动评分及纠错推荐方法,其特征在于:
其中,所述步骤S1中,所述题目、所述标准答案和所述知识点标签来源于各种书籍以及互联网资源,所述题目号由所述题目生成,具体生成步骤如下:
步骤S1-1,将所述题目的文本进行分词处理;
步骤S1-2,以MD5算法作为伪随机数生成器,以TF-IDF算法或BM25算法计算分词后各个词的词权重;
步骤S1-3,根据所述伪随机数生成器和所述词权重,使用128位simhash算法生成所述题目的文本所对应的hash值,并将该hash值作为所述题目号。
3.根据权利要求2所述的针对主观题的自动评分及纠错推荐方法,其特征在于:
其中,所述步骤S2中,所述多位倒排索引表的建立以及所述多位倒排索引总库的组建的具体步骤如下:
步骤S2-1,记所述题库中某个所述题目的所述题目号为hash,将所述题目号hash按照M段进行切分,得到M段子题目号,如公式(3)所示,
hash=[hash1,hash2,…,hashi,…,hashM],i∈[1,M] (3)
步骤S2-2,将所述题目号hash的M段所述子题目号hashi,i∈[1,M]进行(M-α)位排列组合建立所述多位倒排索引表,α为相似阈值,且M>α,每个所述题目号hash将有
Figure FDA0003120001590000031
个索引指向它,并将所述索引从上至下依次记为索引1、索引2、……、索引
Figure FDA0003120001590000032
当α=3、M=4时的所述多位倒排索引表如公式(4)所示,
Figure FDA0003120001590000041
当α=3、M=5时的多位倒排索引表如公式(5)所示,
Figure FDA0003120001590000042
步骤S2-3,将所述题库中所有所述题目号的所述多位倒排索引表进行汇总,组建得到所述多位倒排索引总库,
其中,公式(3)中,hashi,i∈[1,M]表示所述题目号hash的所述子题目号。
4.根据权利要求1所述的针对主观题的自动评分及纠错推荐方法,其特征在于:
其中,所述步骤S3中,所述目标切分算法的具体步骤如下:
步骤S3-1,收集若干所述答题卷图片,使用人工标注的方法标注出所述答题卷图片上的所述题目区域和所述答案区域,进行所述人工标注时,将印刷体组成的区域作为所述题目区域,将手写体组成的区域作为所述答案区域;
步骤S3-2,将收集的所述答题卷图片和所述人工标注的信息作为训练数据,使用深度学习技术,并借助迁移学习技术训练所述印刷体和所述手写体的二分类模型;
步骤S3-3,将待评分的所述答题卷图片输入训练得到的所述二分类模型中,根据所述印刷体和所述手写体对应划分得到所述题目区域和所述答案区域,
其中,所述深度学习技术为卷积神经网络CNN、循环神经网络RNN或LSTM或GRU。
5.根据权利要求1所述的针对主观题的自动评分及纠错推荐方法,其特征在于:
其中,所述步骤S4中,所述多位检索算法的具体步骤如下:
步骤S4-1-1,使用OCR技术识别出所述题目区域的所述题目文本得到所述试卷题目,并根据所述步骤1中所述题目号的具体生成步骤,对所述试卷题目进行相同处理得到试卷题目号,并记所述试卷题目号为Thash;
步骤S4-1-2,根据所述步骤S2中的所述多位倒排索引表建立的具体步骤,对所述试卷题目号Thash同样进行M段切分,建立所述试卷题目号Thash的所述多位倒排索引表;
步骤S4-1-3,根据所述试卷题目号Thash的所述多位倒排索引表在所述多位倒排索引总库中检索与所述试卷题目号Thash索引号相同且索引值也相同的所述题目号,得到题目号集合,
所述题目匹配算法的具体步骤如下:
步骤S4-2-1,将所述试卷题目号Thash与所述题目号集合中的所述题目号逐一计算海明距离H;
步骤S4-2-2,若所述题目号集合中只有一个所述题目号的所述海明距离H满足H≤α的要求,则取该题目号所对应的所述标准答案和所述知识点标签作为返回值;
步骤S4-2-3,若所述题目号集合中有多个所述题目号的所述海明距离H满足H≤α的要求,则取所述海明距离H最小的所述题目号所对应的所述标准答案和所述知识点标签作为返回值;
步骤S4-2-4,若所述题目号集合中有多个所述题目号的所述海明距离H满足H≤α的要求,且所述海明距离H最小的所述题目号也有多条,则任意将其中某个所述题目号所对应的所述标准答案和所述知识点标签作为返回值;
步骤S4-2-5,若没有检索到与所述试卷题目号匹配的所述题目号时,则输出暂无该题正确答案的异常信息,并记录所对应的所述试卷题目,由题库专家给出正确的所述标准答案和所述知识点标签后填补入所述题库。
6.根据权利要求1所述的针对主观题的自动评分及纠错推荐方法,其特征在于:
其中,所述步骤S6中,所述推荐策略的具体步骤如下:
步骤S6-1,记所述步骤S4返回的所述知识点标签为Tags;
步骤S6-2,在所述题库中搜索与所述知识点标签Tags相似的所述知识点标签所对应的所述题目,并随机返回一条所述题目来进行知识点巩固。
CN202110672735.9A 2021-06-17 2021-06-17 一种针对主观题的自动评分及纠错推荐方法 Pending CN113392187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110672735.9A CN113392187A (zh) 2021-06-17 2021-06-17 一种针对主观题的自动评分及纠错推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110672735.9A CN113392187A (zh) 2021-06-17 2021-06-17 一种针对主观题的自动评分及纠错推荐方法

Publications (1)

Publication Number Publication Date
CN113392187A true CN113392187A (zh) 2021-09-14

Family

ID=77621762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110672735.9A Pending CN113392187A (zh) 2021-06-17 2021-06-17 一种针对主观题的自动评分及纠错推荐方法

Country Status (1)

Country Link
CN (1) CN113392187A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115774996A (zh) * 2022-12-05 2023-03-10 英仕互联(北京)信息技术有限公司 智能面试的追问题目生成方法、装置和电子设备
CN116595129A (zh) * 2023-06-12 2023-08-15 广州市南方人力资源评价中心有限公司 一种基于知识点标注的主观题评分方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172050A (zh) * 2017-12-26 2018-06-15 科大讯飞股份有限公司 数学主观题解答结果批改方法及***
CN110363194A (zh) * 2019-06-17 2019-10-22 深圳壹账通智能科技有限公司 基于nlp的智能阅卷方法、装置、设备及存储介质
CN111310458A (zh) * 2020-03-20 2020-06-19 广东工业大学 一种基于多特征融合的主观题自动评分方法
CN111753767A (zh) * 2020-06-29 2020-10-09 广东小天才科技有限公司 一种作业自动批改的方法、装置、电子设备和存储介质
CN111897982A (zh) * 2020-06-17 2020-11-06 昆明理工大学 一种医学ct图像存储与检索方法
CN112560429A (zh) * 2020-12-23 2021-03-26 信雅达科技股份有限公司 基于深度学习的智能培训检测方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172050A (zh) * 2017-12-26 2018-06-15 科大讯飞股份有限公司 数学主观题解答结果批改方法及***
CN110363194A (zh) * 2019-06-17 2019-10-22 深圳壹账通智能科技有限公司 基于nlp的智能阅卷方法、装置、设备及存储介质
CN111310458A (zh) * 2020-03-20 2020-06-19 广东工业大学 一种基于多特征融合的主观题自动评分方法
CN111897982A (zh) * 2020-06-17 2020-11-06 昆明理工大学 一种医学ct图像存储与检索方法
CN111753767A (zh) * 2020-06-29 2020-10-09 广东小天才科技有限公司 一种作业自动批改的方法、装置、电子设备和存储介质
CN112560429A (zh) * 2020-12-23 2021-03-26 信雅达科技股份有限公司 基于深度学习的智能培训检测方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115774996A (zh) * 2022-12-05 2023-03-10 英仕互联(北京)信息技术有限公司 智能面试的追问题目生成方法、装置和电子设备
CN116595129A (zh) * 2023-06-12 2023-08-15 广州市南方人力资源评价中心有限公司 一种基于知识点标注的主观题评分方法和装置
CN116595129B (zh) * 2023-06-12 2023-10-27 广州市南方人力资源评价中心有限公司 一种基于知识点标注的主观题评分方法和装置

Similar Documents

Publication Publication Date Title
US11508251B2 (en) Method and system for intelligent identification and correction of questions
CN111753767B (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
CN107169485B (zh) 一种数学公式识别方法和装置
Chen et al. An unsupervised automated essay-scoring system
Yahya et al. Automatic classification of questions into Bloom's cognitive levels using support vector machines
CN113392187A (zh) 一种针对主观题的自动评分及纠错推荐方法
CN112559781B (zh) 一种图像检索***和方法
Rasyidi et al. Classification of handwritten Javanese script using random forest algorithm
CN110968708A (zh) 一种教育信息资源属性标注方法及***
CN111914550A (zh) 一种面向限定领域的知识图谱更新方法及***
CN112966518B (zh) 一种面向大规模在线学习平台的优质答案识别方法
Belaid et al. Administrative document analysis and structure
Ung et al. Clustering online handwritten mathematical expressions
CN111783697A (zh) 一种基于卷积神经网络的错题检测及靶向推荐***和方法
JP7293658B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN116777694A (zh) 基于自适应学习的教学辅助***及方法
Lu et al. Automatic scoring system for handwritten examination papers based on YOLO algorithm
Brummerloh et al. Boromir at Touché 2022: Combining Natural Language Processing and Machine Learning Techniques for Image Retrieval for Arguments.
CN113792574B (zh) 一种基于度量学习和教师学生模型的跨数据集表情识别方法
Wu et al. A self-relevant cnn-svm model for problem classification in k-12 question-driven learning
Saha et al. Adopting computer-assisted assessment in evaluation of handwritten answer books: An experimental study
Hu et al. A new intelligent learning diagnosis method constructed based on concept map
Srihari et al. Automated scoring of handwritten essays based on latent semantic analysis
Negi et al. An artificially intelligent machine for answer scripts evaluation during pandemic to support the online methodology of teaching and evaluation
Krisnadi et al. A multiple-choice test recognition system based on android and RBFNN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210914