CN112700203B - 智能阅卷方法及装置 - Google Patents

智能阅卷方法及装置 Download PDF

Info

Publication number
CN112700203B
CN112700203B CN201911012221.XA CN201911012221A CN112700203B CN 112700203 B CN112700203 B CN 112700203B CN 201911012221 A CN201911012221 A CN 201911012221A CN 112700203 B CN112700203 B CN 112700203B
Authority
CN
China
Prior art keywords
answer
student
sentence
standard
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911012221.XA
Other languages
English (en)
Other versions
CN112700203A (zh
Inventor
向宇
刘琼琼
彭守业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yizhen Xuesi Education Technology Co Ltd
Original Assignee
Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhen Xuesi Education Technology Co Ltd filed Critical Beijing Yizhen Xuesi Education Technology Co Ltd
Priority to CN201911012221.XA priority Critical patent/CN112700203B/zh
Publication of CN112700203A publication Critical patent/CN112700203A/zh
Application granted granted Critical
Publication of CN112700203B publication Critical patent/CN112700203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请实施例提供一种智能阅卷方法及装置,通过获取题目对应的标准文本和待阅文本,其中,所述标准文本包括至少一个标准字段,所述待阅文本包括至少一个待阅字段;针对所述待阅文本中的每一个所述待阅字段,计算所述待阅字段与所述标准文本中所述标准字段的语义相似度,得到对应的语义相似度结果数据;根据各所述语义相似度结果数据,得到待阅文本的采分点集合;根据所述待阅文本的采分点集合中每个所述待阅字段所对应的标准字段所对应的分数,得到所述题目的待阅文本的分数,实现了智能阅卷,节省了时间和人力,提高了阅卷效率,并且减少了阅卷过程中的人为主观因素对考试结果的影响,保证了阅卷的客观公正性和准确性。

Description

智能阅卷方法及装置
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种智能阅卷方法及装置。
背景技术
在教育领域,通常都会采用对学生进行考核的方式来掌握学生的学习情况。一般的考核方式都是考试,并针对考试结果进行评分,根据学生的分数掌握学生的学习情况。
通常情况下考试的考题分为主观题和客观题。客观题多采用选择题的方式,学生根据考试题目,从多个选择项中选择一个或者多个答案。由于客观题的答案是固定的,非常便于采用计算机对客观题进行评分,所以相较于人工阅卷,计算机评分的方式能够缩短阅卷时间,节省阅卷的人力成本,提高阅卷效率。但是对于主观题,学生通常采用论述的方式对考试题目进行解答,在解答过程中,学生通常根据自己的理解和思维方式进行解答,因此主观题的标准答案只能作为参考,不能作为绝对的标准,也就无法采用计算机针对每个句子来测评学生的答案应该得多少分,因此现有技术中,通常采用人工阅卷方式对主观题进行评分。
在采用人工阅卷的方式对主观题进行评分时,装订、翻阅、传递试卷等中间过程花费了大量的人力、时间,并且阅卷效率低。另外,人工阅卷的方式有很强的主观性。同一个题目阅卷人不同,最后的评分结果可能不同甚至分差很大。即使是同一阅卷人在不同的时间对同一题目的理解也可能不同,因此也可能会造成评分结果的不同。
发明内容
有鉴于此,本申请实施例所解决的技术问题之一在于提供一种智能阅卷方法及装置,用以克服现有技术中的缺陷。
一方面,本申请实施例提供了一种智能阅卷方法,包括:
获取题目对应的标准文本和待阅文本,其中,所述标准文本包括至少一个标准字段,所述待阅文本包括至少一个待阅字段;针对所述待阅文本中的每一个所述待阅字段,计算所述待阅字段与所述标准文本中所述标准字段的语义相似度,得到对应的语义相似度结果数据;根据各所述语义相似度结果数据,得到待阅文本的采分点集合;根据所述待阅文本的采分点集合中每个所述待阅字段所对应的标准字段所对应的分数,得到所述题目的待阅文本的分数。
另一方面,本申请实施例提供了一种智能阅卷装置,包括:
获取单元,用于获取题目对应的标准文本和待阅文本,其中,所述标准文本包括至少一个标准字段,所述待阅文本包括至少一个待阅字段;
相似度计算单元,用于针对所述待阅文本中的每一个所述待阅字段,计算所述待阅字段与所述标准文本中所述标准字段的语义相似度,得到对应的语义相似度结果数据;
采分点确定单元,用于根据各所述语义相似度结果数据,得到待阅文本的采分点集合;
评分单元,用于根据所述待阅文本的采分点集合中每个所述待阅字段所对应的标准字段所对应的分数,得到所述题目的待阅文本的分数。
又一方面,本申请实施例提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例中任一所述的方法。
又一方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中任一所述的方法。
本申请实施例的智能阅卷方法及装置,通过获取题目对应的标准文本和待阅文本,其中,所述标准文本包括至少一个标准字段,所述待阅文本包括至少一个待阅字段;针对所述待阅文本中的每一个所述待阅字段,计算所述待阅字段与所述标准文本中所述标准字段的语义相似度,得到对应的语义相似度结果数据;根据各所述语义相似度结果数据,得到待阅文本的采分点集合;根据所述待阅文本的采分点集合中每个所述待阅字段所对应的标准字段所对应的分数,得到所述题目的待阅文本的分数,实现了智能阅卷,节省了时间和人力,提高了阅卷效率,并且减少了阅卷过程中的人为主观因素对考试结果的影响,保证了阅卷的客观公正性。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1为本申请实施例一中智能阅卷方法的流程示意图。
图2为本申请实施例二中智能阅卷方法的流程示意图。
图3为本申请实施例三中智能阅卷方法的流程示意图。
图4为本申请实施例四中智能阅卷方法的流程示意图。
图5为本申请实施例五中智能阅卷装置的结构示意图。
图6为本申请实施例六中智能阅卷装置的结构示意图。
图7为本申请实施例七中智能阅卷装置的结构示意图。
图8为本申请实施例八中智能阅卷装置的结构示意图。
图9为本申请实施例九中电子设备的结构示意图。
图10为本申请实施例十中电子设备的硬件结构。
具体实施方式
实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
试卷中通常分为客观题和主观题,本申请实施例中主要是针对试卷中主观题进行智能阅卷,可以适用于任何科目的主观题,例如语文主观题,政治主观题,历史主观题等,此处不做限制。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
图1为本申请实施例一中智能阅卷方法的流程示意图。如图1所示,包括:
步骤S101、获取题目对应的标准文本和待阅文本,其中,所述标准文本包括至少一个标准字段,所述待阅文本包括至少一个待阅字段。
本实施例中,针对试卷上的题目会预设有对应的标准文本作为阅卷时的参***。对于主观题来说,并没有固定的参***,所以可能会设置1个、2个或者多个参***,对应的标准文本也可能是1个、2个或者多个,此处不做限定。另外考虑到主观题的标准文本可能会有很多论述,所以每个标准文本包括至少一个标准字段。
需要说明的是,标准文本的形式不做限制,例如可以是文字,也可以是图片,当然也可以是文字和图片的结合。
本实施例中,获取标准文本的方式此处不做限制,可以建立标准文本与题目之间的对应关系,将标准文本和对应关系进行存储。在进行阅卷时,首先确定题目,然后根据题目和题目与标准文本的对应关系,确定与题目对应的标准文本。
可选的,若每次在阅卷前都需要存储标准文本和标准文本与题目的对应关系,就使得阅卷前的准备工作较为繁琐,为了避免这种情况,可以建立标准文本库,将所有题目的所有的标准文本和标准文本与题目的对应关系全部存储至标准文本库中。在进行阅卷时,在确定题目的得分点之后,在标准文本库中确定与题目对应的标准文本即可,减少了阅卷之前的准备工作,提高了阅卷效率。
本实施例中,针对试卷上的题目,也会对应有学生的作答内容,即待阅文本。同样考虑到在作答主观题时可能会有很多论述,所以每个待阅文本包括至少一个待阅字段。需要说明的是,待阅文本的形式不做限制,例如可以是文字,也可以是图片,当然也可以是图片和文字的结合。
本实施例中,获取待阅文本的方式不做限制,可以在阅卷之前首先对学生针对题目的书写答案进行扫描,存储为待阅文本(又可称之为离线获取)或者学生在作答时直接通过计算机作答并存储为待阅文本(又可称之为在线获取)。
需要说明的是,字段可以是句子,也可以是词语,当然也可以根据阅卷需求自行定义,此处不做限制。当字段是句子时,可以根据标准文本或者待阅文本中的标点符号划分不同的句子,例如可以将两个句号之间的文字划分为一个句子,也可以将任意两个标点符号之间的文字划分为一个句子,此处不做限定。
步骤S102、针对待阅文本中的每一个待阅字段,计算待阅字段与标准文本中标准字段的语义相似度,得到对应的语义相似度结果数据。
本实施例中,针对每个待阅字段,计算得到的语义相似度是待阅字段和与题目对应的标准文本中每个标准字段之间的语义相似度。需要说明的是,可以采取各种方法计算语义相似度,此处不做限定,只要能够得到语义相似度即可。例如可以通过计算标准字段与待阅字段的欧几里得距离得到语义相似度或者通过计算标准文本与待阅文本的皮尔逊距离得到语义相似度等。
另外,在阅卷过程中,计算待阅字段与标准文本中标准字段的语义相似度时,可以逐个判断每个待阅字段与标准字段的语义相似度,也可以同时判断所有待阅字段与标准字段的语义相似度,此处不做限制。
本实施例中,考虑到学生虽然能够作答出正确答案,但是由于待阅文本与标准文本的语言逻辑可能会不同,所以就会导致待阅文本与标准文本不会完全一致。所以在进行智能阅卷时,若直接通过判断待阅文本和标准文本中的文字是否一致,来进行阅卷,影响其准确性。由此,本申请实施例通过计算待阅文本与标准文本的语义相似度来确定二值是否一致,来确定待阅文本的分数,能提高待阅文本分数计算的准确度。
步骤S103、根据各所述语义相似度结果数据,得到待阅文本的采分点集合。
本实施例中,可根据各语义相似度结果数据判断待阅字段和标准字段是否契合,若判定待阅字段和标准字段契合,则将待阅字段添加至待阅文本的采分点集合中,若不契合,则不将待阅字段添加至待阅文本的采分点集合中。由此得到的待阅文本的采分点集合中包括有与标准字段契合的待阅字段。
步骤S104、根据所述待阅文本的采分点集合中每个所述待阅字段所对应的标准字段所对应的分数,得到所述题目的待阅文本的分数。
本实施例中,可直接将待阅文本的采分点集合中全部待阅字段所对应的标准字段所对应的分数相加,即可得到题目的待阅文本的分数,当然还可以对每个标准字段所对应的分数设置权重,通过对待阅字段所对应的标准字段所对应的分数进行加权平均的方式得到题目的待阅文本的分数,此处不做限制。
本申请实施例的智能阅卷方法,通过获取题目对应的标准文本和待阅文本,其中,所述标准文本包括至少一个标准字段,所述待阅文本包括至少一个待阅字段;针对所述待阅文本中的每一个所述待阅字段,计算所述待阅字段与所述标准文本中所述标准字段的语义相似度,得到对应的语义相似度结果数据;根据各所述语义相似度结果数据,得到待阅文本的采分点集合;根据所述待阅文本的采分点集合中每个所述待阅字段所对应的标准字段所对应的分数,得到所述题目的待阅文本的分数,实现了智能阅卷,节省了时间和人力,提高了阅卷效率,并且减少了阅卷过程中的人为主观因素对考试结果的影响,保证了阅卷的客观公正性和准确性。
图2为本申请实施例一中智能阅卷方法的流程示意图。本实施例与上述实施例的区别在于,本实施例中以标准文本为标准答案文本,待阅文本为学生答案文本,标准字段为标准答案句子,待阅字段为学生答案句子为例对智能阅卷方法进行具体说明。如图2所示,包括:
步骤S201、获取题目对应的标准答案文本和学生答案文本。
本实施例中,标准文本即为标准答案文本,待阅文本即为学生答案文本。对应的,标准文本中的标准字段对应为标准答案句子,待阅文本中的待阅字段对应为为学生答案句子。
步骤S202、针对学生答案文本中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的语义相似度,得到对应的语义相似度结果数据。
本实施例中,计算学生答案句子与标准答案文本中标准答案句子的语义相似度包括:
对学生答案句子进行分词处理,并提取学生答案关键词集合;遍历标准答案文本中的每一个标准答案句子,对遍历到的每一个标准答案句子进行分词处理,并提取每一个标准答案句子对应的标准答案关键词集合;计算标准答案关键词集合与学生答案关键词集合的相似度;根据标准答案关键词集合与学生答案关键词集合的相似度确定学生答案句子与标准答案文本中标准答案句子的语义相似度。
本实施例中,可通过标准答案关键词集合与学生答案关键词集合的Jaccard相似系数得到标准答案关键词集合与学生答案关键词集合的相似度。其中,Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。
本实施例中,在计算Jaccard相似系数之前,首先将学生答案句子与标准答案句子进行分词处理得到学生答案关键词集合和标准答案关键词集合。具体地,可以采用分词工具进行分词处理,例如THULAC、NLPIR等分词工具。为了提高分词处理速度,并且提高分词精确度,优选地采用Jieba分词工具进行分词处理。
本实施例中,标准关键词集合和学生关键词集合是通过分词工具分别对标准答案句子和学生答案句子进行分词处理得到的,而不是采用人工定义标准关键词集合和学生关键词集合,避免了人为因素对智能阅卷过程中的影响,提高了智能阅卷的准确度。
本实施例中,考虑到直接计算标准答案关键词集合与学生答案关键词集合的Jaccard相似系数时,只有当标准答案关键词集合和学生答案关键词集合中的关键词完全一致时才判断两个关键词相似,但是实际情况中只要学生答案文本与标准答案文本的关键词语义相近即可,例如,学生答案关键词为愉快,而标准答案关键词为高兴,若直接计算Jaccard相似系数则为0,但是实际情况为1,这就会造成错判漏判。
所以为了避免这种情况发生,可建立第一键值对列表;根据标准答案关键词集合中的标准答案关键词和学生答案关键词集合中的学生答案关键词,为第一键值对列表中的每一个元素添加键值对;计算第一键值对列表中第i个元素与其之后的每个元素的元素余弦相似度,并对第i个元素之后的元素中与第i个元素的元素余弦相似度满足元素余弦相似度阈值的元素的键值对进行修改,获得第二键值对列表,其中,i为正整数;根据第二键值对列表,得到标准答案键值对集合和学生答案键值对集合;计算标准答案键值对集合和学生答案键值对集合的相似度即为计算标准答案键值对集合和学生答案键值对集合的Jaccard相似系数。
此时,根据标准答案关键词集合与学生答案关键词集合的相似度确定学生答案句子与标准答案文本中标准答案句子的语义相似度包括:标准答案键值对集合和学生答案键值对集合的相似度确定学生答案句子与标准答案文本中标准答案句子的语义相似度。需要说明的是,在其他实施例中,也可以通过其他方式确定学生答案句子与标准答案文本中标准答案句子的语义相似度,此处不做限制。
可选的,根据标准答案关键词集合中的标准答案关键词和学生答案关键词集合中的学生答案关键词,为第一键值对列表中的每一个元素添加键值对包括:
针对第k个学生答案关键词,为第一键值对列表中的第x个元素添加包含表征学生答案关键词标识信息以及序列信息的键值对,其中,1≤k≤m,m为学生答案关键词集合中学生答案关键词的个数;
针对第r个标准答案关键词,为第一键值对列表中的第y个元素添加包含表征标准答案关键词标识信息以及序列信息的键值对,其中,1≤r≤n,n为标准答案关键词集合中标准答案关键词的个数;
其中,1≤x≤m,m+1≤y;或1≤y≤n,n+1≤x,k,m,r,n均为正整数。
本实施例中,在为第一键值对列表中的每一个元素添加键值对时,可以根据学生答案关键词,依次为第一键值对列表中的第1个元素至第m个元素添加包含表征学生答案关键词标识信息的键值对,再根据标准答案关键词,依次为第一键值对列表中第m+1个元素至最后一个元素(即第m+n个元素)添加包含表征标准答案关键词标识信息的键值对,此时1≤x≤m,m+1≤y,即在第一键值对列表中,前m个元素对应学生答案关键词的相关字段,后n个元素对应标准答案关键词的相关字段。当然也可以先根据标注答案关键词,依次为第一键值对列表中的第1个元素至第n个元素添加包含表征标准答案关键词标识信息的键值对,再根据学生答案关键词,依次为第一键值对列表中第n+1个元素至最后一个元素(即第m+n个元素)添加包含表征学生答案关键词标识信息的键值对,此时,1≤y≤n,n+1≤x,即在第一键值对列表中,前n个元素对应标准答案关键词的相关字段,后m个元素对应学生答案关键词的相关字段。具体添加顺序此处不做限定。
本实施例中,表征标准答案关键词标识信息以及序列信息可以由一个键值对包含,当然还可以通过两个或者多个键值对包含,此处不做限制。其中表征标准答案关键词标识信息包括标识标准答案关键词的词属性和标识其所属的标准答案关键词集合,序列信息可以是标准答案关键词在标准答案集合中的顺序信息,也可以是标准答案关键词在第一键值对列表中的所有标准答案关键词的顺序信息,还可以是标准答案关键词在第一键值对列表中的顺序信息。同样的,表征学生答案关键词标识信息以及序列信息可以由一个键值对包含,当然还可以通过两个或者多个键值对包含,此处不做限制。其中表征学生答案关键词标识信息包括标识学生答案关键词的词属性和标识其所属的学生答案关键词集合,序列信息可以是学生答案关键词在学生答案集合中的顺序信息,也可以是学生答案关键词在第一键值对列表中的所有学生答案关键词的顺序信息,还可以是学生答案关键词在第一键值对列表中的顺序信息。需要说明的是序列信息只要能够展示关键词在集合或列表中的顺序即可,具体形式此处不做限制。
本实施例中,以1≤x≤m,m+1≤y为例,针对学生答案关键词为第一键值对列表中每个元素添加的键值对包含的序列信息可以是1~m,而针对标准答案关键词为第一键值对列表中每个元素添加的键值对包含的序列信息则可以为-1~-m或者是m+1~m+n,此处不做限制。
可选的,在一具体实施场景中,给第一键值对列表中的每个元素添加三个键值对,第一个键值对的键为词属性,第一个键值对的值为关键词,第二个键值对的键为类别属性,第二个键值对的值为学生答案关键词集合或者标准答案关键词集合,第三个键值对的键为变量属性,第三个键值对的值为学生答案关键词的序列信息或者标准答案关键词的序列信息。例如标准答案关键词集合中第3个关键词为“快乐”,则给对应其的元素添加三个键值对,第一个键值对的键为词属性,第一个键值对的值为“快乐”,第二个键值对的键为类别属性,第二个键值对的值为“标准答案关键词集合”或代表标准答案类别属性的字母Q,第三个键值对的键为变量属性,第三个键值对的值为“3”。
可选的,对第i个元素之后的元素中与第i个元素的元素余弦相似度满足元素余弦相似度阈值的元素的键值对进行修改包括:将第i个元素之后的元素中,与第i个元素的元素余弦相似度满足元素余弦相似度阈值的元素的键值对的序列信息修改为第i个元素的键值对的序列信息。例如当1≤x≤m,m+1≤y时,从第一键值对列表的第1个元素开始,分别判断第2个元素至第m+n个元素与第1个元素的词向量的余弦相似度,若第2个元素至第m+n个元素中第p个元素与第1个元素的词向量的余弦相似度满足元素余弦相似度阈值,则将第p个元素的键值对的序列信息修改为第1个元素的键值对的序列信息,然后再判断第3个元素至第m+n个元素与第2个元素的词向量的余弦相似度,依次判断每一个元素,直到判断第m+n个元素与倒数第二个元素的词向量的余弦相似度。需要说明的是,每个元素的词向量可以从语料词向量库中对应查询,例如可以从***语料词向量库中查询得到。余弦相似度阈值可以根据需求进行设定,此处不做限制。其中,2≤p≤m+n。
可选的,根据第二键值对列表,得到标准答案键值对集合和学生答案键值对集合包括:当1≤x≤m,m+1≤y时,根据键值对中包含的表征学生答案标识信息,从第二键值对列表中获取第1个至第m个元素的序列信息组成学生答案键值对集合,根据键值对中包含的表征标准答案标识信息,从第二键值对列表中获取第m+1个至第m+n个元素的序列信息组成标准答案键值对集合;
当1≤y≤n,n+1≤x时,根据键值对中包含的表征标准答案标识信息从第二键值对列表中获取第1个至第n个元素的序列信息组成标准答案键值对集合,根据键值对中包含的表征学生答案标识信息从第二键值对列表中获取第n+1个至第n+m个元素的序列信息组成学生答案键值对集合。需要说明的是,在其他实施例中,也可以通过其他方式获取标准答案键值对集合和学生答案键值对集合,此处不做限制。
需要说明的是,在其他实施例中,标准答案键值对集合和学生答案键值对集合中除了包括序列信息外还可以分别包括表征标准答案标识信息和表征学生答案标识信息的数据,此处不做限制。
另外,当标准答案键值对集合和学生答案键值对集合只包含序列信息时,在生成标准答案键值对集合和学生答案键值对集合的过程中,根据集合的互异性,会对这些集合中序列信息相同的元素进行合并处理。
可选的,计算标准答案键值对集合和学生答案键值对集合的相似度的具体过程包括:统计标准答案键值对集合和学生答案键值对集合的交集中序列信息的数量和所标准答案键值对集合和学生答案键值对集合的并集中序列信息的数量,标准答案键值对集合和学生答案键值对集合的交集中序列信息的数量与标准答案键值对集合和学生答案键值对集合的并集中序列信息的数量的比值即为标准答案键值对集合和学生答案键值对集合的相似度。例如,标准答案键值对集合New-P={1,2,3,4},学生答案键值对集合New-Q={1,2,3},则标准答案键值对集合和学生答案键值对集合的相似度——Jaccard相似系数=(New-P∩New-Q)/(New-P∪New-Q)=3/4=0.75。当然在其他实施例中,还可以通过其他适当的方法计算标准答案键值对集合和学生答案键值对集合的相似度,此处不做限制。
下面以一实例说明计算学生答案关键词集合和标准答案关键词集合的相似度的过程。
标准答案关键词集合P={快乐,中国,旅行},学生答案关键词集合Q={高兴,华夏};
首先,建立第一键值对列表,根据标准关键词中的关键词,依次为第一键值对列表中的第1个至第3个元素添加3个键值对,第1个元素的第1个键值对的键为词属性,第1个键值对的值为快乐;第1个元素的第2个键值对的键为类别属性,第2个键值对的值为P,第1个元素的第3个键值对的键为变量属性,第3个键值对的值为1。第2个元素的第1个键值对的键为词属性,第1个键值对的值为中国;第2个元素的第2个键值对的键为类别属性,第2个键值对的值为P,第2个元素的第3个键值对的键为变量属性,第3个键值对的值为3。第3个元素的第1个键值对的键为词属性,第1个键值对的值为旅行;第3个元素的第2个键值对的键为类别属性,第2个键值对的值为P,第3个元素的第3个键值对的键为变量属性,第3个键值对的值为3。
第二,依次为第一键值对列表中的第4个至第5个元素添加3个键值对,第4个元素的第1个键值对的键为词属性,第1个键值对的值为高兴;第4个元素的第2个键值对的键为类别属性,第2个键值对的值为Q,第4个元素的第3个键值对的键为变量属性,第3个键值对的值为-1。第5个元素的第1个键值对的键为词属性,第1个键值对的值为华夏;第5个元素的第2个键值对的键为类别属性,第2个键值对的值为Q,第5个元素的第3个键值对的键为变量属性,第3个键值对的值为-2。
第三,从第1个元素开始,分别判断第2个元素至第5个元素与第1个元素的余弦相似度,第4个元素的余弦相似度满足元素余弦相似度阈值,则将第4个元素的第3个键值对的值修改为1,然后依次类推,修改其他元素的第3个键值对的值。经过修改后,得到第二键值对列表。
第四,根据第二键值对列表中每个元素的第2个键值对依次获取第1个元素至第3个元素的第3个键值对的值,组成标准答案键值对集合New-P={1,2,3,4},然后再依次获取第4个元素和第5个元素的第3个键值对的值,组成学生答案键值对集合New-Q={1,2},计算Jaccard相似系数=(New-P∩New-Q)/(New-P∪New-Q)=2/3=0.667。
本实施例中,在计算得到标准答案关键词集合与学生答案关键词集合的相似度后,可以直接将标准答案关键词集合与学生答案关键词集合的相似度作为学生答案句子与标准答案文本中标准答案句子的语义相似度,当然也可以对标准答案关键词集合与学生答案关键词集合的相似度进行归一化处理或者进行加权平均得到学生答案句子与标准答案文本中标准答案句子的语义相似度,此处不做限定。
步骤S203、根据各语义相似度结果数据,得到学生的答案采分点集合。
本实施例中,可根据各语义相似度结果数据,将在标准答案文本中存在标准答案句子使语义相似度不小于语义相似度阈值的学生答案句子添加至学生的答案采分点集合中,得到学生的答案采分点集合。需要说明的是语义相似度阈值可以自行设定,此处不做限制。
步骤S204、根据学生的答案采分点集合中每个学生答案句子所对应的标准答案句子所对应的分数,得到题目的学生分数。
本实施例中,步骤S203、步骤S204与上述步骤S103、步骤S104类似,此处不再赘述。
图3为本申请实施例三中智能阅卷方法的流程示意图。本实施例与上述实施例的区别在于本实施例中还对学生答案句子与标准答案句子计算了句子成分相似度。如图3所示,包括:
步骤S301、获取题目对应的标准答案文本和学生答案文本。
步骤S302、针对学生答案文本中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的语义相似度,得到对应的语义相似度结果数据.
步骤S303、根据各语义相似度结果数据,得到学生的语义相似答案集合。
本实施例中,可根据各语义相似度结果数据,将在标准答案文本中存在标准答案句子使语义相似度不小于语义相似度阈值的学生答案句子添加至学生的语义相似答案集合中,得到学生的语义相似答案集合。需要说明的是语义相似度阈值可以自行设定,此处不做限制。
步骤S304、针对学生的语义相似答案集合中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的句子成分相似度,得到对应的句子成分相似度结果数据。
本实施例中,考虑到若直接根据语义相似度结果数据不小于语义相似度阈值的每个学生答案句子得到题目的学生分数,可能会有错判漏判的情况发生,造成分数不准确。为了提高分数的准确度,还可以计算学生答案句子与标准答案文本中标准答案句子的句子成分相似度,根据句子成分相似度结果数据再一次判断所学生答案句子与标准答案句子是否契合,若判定学生答案句子和标准答案句子契合,则将学生答案句子添加至学生的答案采分点集合中,若不契合,则不将学生答案句子添加至学生的答案采分点集合中。由此得到的学生的答案采分点集合中包括有与标准答案句子语义相似度契合和句子成分相似度契合的学生答案句子,从而根据学生的采分点集合得到题目的学生分数更加准确。
本实施例中,可以采取各种方法计算句子成分相似度,此处不做限定,只要能够得到句子成分相似度即可。例如通过计算标准答案文本与学生答案文本的欧几里得距离得到句子成分相似度或者通过计算标准答案文本与学生答案文本的皮尔逊距离得到句子成分相似度等。
可选的,计算学生的语义相似答案集合中的学生答案句子与标准答案文本中标准答案句子的句子成分相似度包括:对学生的语义相似答案集合中的学生答案句子进行句子成分提取处理,得到学生答案句子的句子成分;遍历与学生的语义相似答案集合中的学生答案句子对应的标准答案句子,对遍历到的每个标准答案句子进行句子成分提取处理,得到每一个标准答案句子的句子成分;计算学生答案句子的句子成分和对应的标准答案句子的句子成分的句子成分余弦相似度;根据每个句子成分余弦相似度得到句子成分相似度结果数据。
对应的,根据各句子成分相似度结果数据,得到学生的答案采分点集合包括:根据各句子成分相似度结果数据,将句子成分相似度不小于句子成分相似度阈值的学生答案句子添加至学生的答案采分点集合中,得到学生的答案采分点集合。
本实施例中,对学生答案句子和标准答案句子进行句子成分提取处理时,以采用句子成分提取工具等进行句子成分提取处理,例如采用LTP工具进行句子成分提取,或者使用Jieba词性标注也可以,此处不做限制。
本实施例中,考虑到每个句子的句子成分包括文本的主语、谓语、宾语、定语等单个句子成分。因此,在计算句子成分相似度时可先计算标准答案句子的主语与学生答案句子的主语的句子成分余弦相似度,再计算标准答案句子的谓语与学生答案句子的谓语的句子成分余弦相似度等,也可以同时计算所有句子成分余弦相似度,此处不做限制。根据学生答案句子与标准答案句子的主语的句子余弦相似度和谓语的句子余弦相似度等所有的句子成分余弦相似度,根据每个句子成分余弦相似度得到句子成分相似度结果数据。
本实施例中,在计算学生答案句子的主语与标准答案句子的主语的句子成分余弦相似度时,可首先确定学生答案句子的主语的词向量和标准答案句子的主语的词向量,再计算学生答案句子的主语的词向量和标准答案句子的主语的词向量的余弦相似度。其中,确定主语的词向量的方法与上述实施例中确定关键词的词向量的方法一致,此处不再赘述。其他单个句子成分相似度的计算方法类似,此处不再赘述。
可选的,在一具体实施场景中,根据每个句子成分余弦相似度得到句子成分相似度结果数据包括:赋予每个句子成分一定的成分相似分数,若学生答案句子的其中一个句子成分与标准答案句子中对应的句子成分的句子成分余弦相似度不小于句子成分余弦相似度阈值,则给学生答案句子增加句子成分对应的成分相似分数,根据学生答案句子的所有成分相似分数得到句子成分相似度结果数据。
需要说明的是,根据学生答案句子的所有成分相似分数得到句子成分相似度结果数据时,可以直接将学生答案句子的所有成分相似分数相加,得到句子成分相似度结果数据,另外还可以将学生答案句子的所有成分相似分数进行加权平均处理,得到句子成分相似度结果数据,此处不做限制。另外每个单个句子成分一定的成分相似分数可以一致,也可以按照比例来分配,此处不做限制。
需要说明的是,若学生答案句子为多个,则与多个学生答案句子对应的标准答案句子也为多个,此时可以逐个判断每个学生答案句子和与其对应的每个标准答案句子的句子成分相似度,也可以同时判断每个学生答案句子和与其对应的每个标准答案句子的句子成分相似度,此处不做限制。
可选的,若学生答案句子的句式类型和标准答案句子的句式类型不一致,则根据提取得到的学生答案句子成分和标准答案句子成分计算得到的句子成分相似度可能会出现偏差,导致错判,例如标准答案句子是主动句式,而学生答案句子是被动句式,但是二者实际的表达意思相同,就会造成错判的情况。所以,为了避免此种情况的发生,进行句子成分提取处理之前可判断学生答案句子和与其对应的标准答案句子的句式类型是否相同;若否,则对学生答案句子或者标准答案句子进行句式转换处理,使得学生答案句子与标准答案句子的句式类型相同。
步骤S305、根据各句子成分相似度结果数据,得到学生的答案采分点集合。
步骤S306、根据学生的答案采分点集合中每个学生答案句子所对应的标准答案句子所对应的分数,得到题目的学生分数。
本实施例中,步骤S305和步骤S306与上述实施例类似,此处不再赘述。
本实施例中,答案采分点集合中的学生答案句子与标准答案句子的语义相似度和句子成分相似度均不小于语义相似度阈值和句子成分相似度阈值,保证了答案采分点集合中学生答案句子的准确度,从而使得题目的学生分数更加准确。
图4为本申请实施例四中智能阅卷方法的流程示意图。本实施例与上述实施例的区别在于本实施例中根据获取的标准答案文本和学生答案文本对答案采分点集合进行了扩充。如图4所示,包括:
步骤S401、获取题目对应的标准答案文本和学生答案文本。
步骤S402、针对学生答案文本中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的语义相似度,得到对应的语义相似度结果数据。
步骤S403、根据各语义相似度结果数据,得到学生的语义相似答案集合。
步骤S404、针对学生的语义相似答案集合中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的句子成分相似度,得到对应的句子成分相似度结果数据。
步骤S405、根据各句子成分相似度结果数据,得到学生的答案采分点集合。
本实施例中,步骤S401至步骤S405与上述实施例类似,此处不再赘述。
步骤S406、针对学生答案文本中的每一个学生答案句子,计算学生答案句子与所标准答案文本中的标准答案句子的向量内积,得到对应的向量内积结果数据。
本实施例中,考虑到通过计算学生答案句子和标准答案句子的语义相似度对学生答案句子进行筛选的过程中,一般都会存在误差,遗漏一些正确的学生答案句子,以及通过计算学生答案句子和标准答案句子的句子成分相似度对学生答案句子进行筛选的过程中,一般也会存在误差,又遗漏一些正确的学生答案句子。所以答案采分点集合就会将两次筛选过程中的误差累计,导致根据答案采分点集合得到的学生分数就会产生一定的偏差,所以为了避免此种情况的发生,再计算原始的学生答案句子和标准答案句子的标准答案句子的向量内积,根据向量内积结果数据对答案采分点集合进行扩充,减少误差累计,提高智能阅卷的准确度。
本实施例中,得到学生答案向量和标准答案向量的方法此处不做限制,例如TF-IDF方法。但是采取TF-IDF方法时,可能会出现逆文本频率指数(Term FrequencyInverseDocument Frequency,简称IDF)分数为负数的情况,影响得到的答案向量的准确性。因此,为了避免此种情况发生,在一具体实施场景中,计算学生答案句子与所标准答案文本中的标准答案句子的向量内积包括:
对学生答案句子进行向量化处理,得到学生答案向量;
对每一个标准答案句子进行向量化处理,得到标准答案向量;
遍历每一个标准答案向量,计算学生答案向量和遍历到的标准答案向量的向量内积,得到学生答案句子与所标准答案文本中的标准答案句子的向量内积。
可选的,在一具体实施场景中,对学生答案句子进行向量化处理,得到学生答案向量包括:对学生答案句子进行分词处理,得到学生答案词语集合;计算学生答案词语集合中的每个词语的词频(Term Frequency,简称TF)分数,IDF分数和词向量,根据每个词语的词频分数、IDF分数以及词向量计算得到每个词语答案向量;对每个词语答案向量进行归一化处理,得到每个词语的归一化答案向量,并根据每个词语的归一化答案向量得到学生答案向量。
本实施例中,对学生答案句子进行分词处理的方式可以与上述实施例相同,也可以采用其他的分词处理方式,此处不做限定。另外确定词语的词向量的方式也与上述实施例类似,此处不做限定。
本实施例中,词语答案向量的计算公式为:
词语答案向量=词语TF分数*词语IDF分数*词语词向量。
其中,词语TF分数=词语词频/句子中所有词语的总词频。词语词频的确定方式可以为:确定词语在学生答案词语集合中出现的次数。句子中所有词语的总词频的确定方式可以为:确定学生词语集合中每一个词语的词频,综合每一个词语的词频即为句子中所有词语的总词频。
本实施例中,根据以下公式计算学生答案关键词集合中的每个词语的逆文本频率指数分数:
Figure BDA0002244538890000101
其中,D为预先建立的标准答案文本库中的文档总数,wf为标准答案文本库中包括词语的文档总数,C为常数,C≥2。
本实施例中,为了使得词语IDF分数更加准确,可根据所有题目的所有标准答案文本建立标准答案文本库。
可选的,根据标准答案文本库和逆文本频率指数分数计算公式计算学生答案词语集合中的每个词语的逆文本频率指数分数包括:对标准答案文本库中的所有标准答案句子进行分词处理,然后统计标准答案文本库中包括词语的文档总数即为wf,再根据逆文本频率指数分数计算公式计算每个词语的IDF分数。
本实施例中,对标准答案句子进行向量化处理,得到标准答案向量的方法与对学生答案句子进行向量化处理,得到学生答案向量的方法类似,此处不再赘述。
本实施例中,在根据现有的逆文本频率指数分数计算公式计算每个词语的IDF分数时,可能会导致得到的学生答案向量或者标准答案向量出现负数,就会出现标准答案文本与学生答案文本的实际向量内积满足向量内积判断条件,但是由于学生答案向量或者标准答案向量出现负数,使得判断结果为向量内积不满足向量内积判断条件,影响智能判卷的准确性,因此,为了避免此类情况发生,将计算关键词IDF分数的公式进行了修正,增加了常数C,避免了IDF分数出现负数的情况,从而得到的答案向量中全部都是正数,减少了对词向量内积的影响,从而提高了智能判卷的准确性。
本实施例中,为了便于根据标准答案向量和学生答案向量计算向量内积,并且提高向量内积的精度,可以对标准答案向量和学生答案向量进行数据归一化处理。其中,归一化处理具体过程包括,将每个学生答案的词语向量除以学生答案的词语向量模长,得到归一化处理后的归一化答案向量,标准答案的词语答案向量的归一化处理与学生答案的词语答案向量的归一化处理一致,此处不再赘述。
需要说明的是,在其他实施例中,可以采取其他的方法将学生答案句子和标准答案句子进行向量化处理,此处不做限定。
本实施例中,根据每个词语的归一化答案向量得到学生答案向量可以直接将每个词语的归一化答案向量相加即可得到学生答案向量,或者还可以对每个词语的归一化答案向量进行加权平均,得到学生答案向量。
步骤S407、根据各向量内积结果数据和学生的答案采分点集合,得到学生的有效答案采分点集合。
本实施例中,根据各向量内积结果数据,获取在标准答案文本中存在标准答案句子使向量内积不小于向量内积阈值的第一学生答案句子,并判断学生的答案采分点集合中是否存在第一学生答案句子,若否,则将第一学生答案句子添加至学生的答案采分点集合中,得到学生的有效答案采分点集合。
步骤S408、根据有效答案采分点集合中每个学生答案句子所对应的标准答案句子所对应的分数,得到题目的学生分数。
本实施例中,可直接将有效答案采分点集合中全部学生答案句子所对应的标准答案句子所对应的分数相加,即可得到题目的学生分数,当然还可以对每个标准答案句子所对应的分数设置权重,通过对学生答案句子所对应的标准答案句子所对应的分数进行加权平均的方式得到题目的学生分数,此处不做限制。
图5为本申请实施例五中智能阅卷装置的结构示意图。如图5所示,包括:
获取单元501,用于获取题目对应的标准文本和待阅文本,其中,所述标准文本包括至少一个标准字段,所述待阅文本包括至少一个待阅字段。
本实施例中,针对试卷上的题目会预设有对应的标准文本作为阅卷时的参***。对于主观题来说,并没有固定的参***,所以可能会设置1个、2个或者多个参***,对应的标准文本也可能是1个、2个或者多个,此处不做限定。另外考虑到主观题的标准文本可能会有很多论述,所以每个标准文本包括至少一个标准字段。
需要说明的是,标准文本的形式不做限制,例如可以是文字,也可以是图片,当然也可以是文字和图片的结合。
本实施例中,获取标准文本的方式此处不做限制,可以建立标准文本与题目之间的对应关系,将标准文本和对应关系进行存储。在进行阅卷时,首先确定题目,然后根据题目和题目与标准文本的对应关系,确定与题目对应的标准文本。
可选的,若每次在阅卷前都需要存储标准文本和标准文本与题目的对应关系,就使得阅卷前的准备工作较为繁琐,为了避免这种情况,获取单元501还用于建立标准文本库,将所有题目的所有的标准文本和标准文本与题目的对应关系全部存储至标准文本库中。在进行阅卷时,在确定题目的得分点之后,在标准文本库中确定与题目对应的标准文本即可,减少了阅卷之前的准备工作,提高了阅卷效率。
本实施例中,针对试卷上的题目,也会对应有学生的作答内容,即待阅文本。同样考虑到在作答主观题时可能会有很多论述,所以每个待阅文本包括至少一个待阅字段。需要说明的是,待阅文本的形式不做限制,例如可以是文字,也可以是图片,当然也可以是图片和文字的结合。
本实施例中,获取待阅文本的方式不做限制,可以在阅卷之前首先对学生针对题目的书写答案进行扫描,存储为待阅文本(又可称之为离线获取)或者学生在作答时直接通过计算机作答并存储为待阅文本(又可称之为在线获取)。
需要说明的是,字段可以是句子,也可以是词语,当然也可以根据阅卷需求自行定义,此处不做限制。当字段是句子时,可以根据标准文本或者待阅文本中的标点符号划分不同的句子,例如可以将两个句号之间的文字划分为一个句子,也可以将任意两个标点符号之间的文字划分为一个句子,此处不做限定。
相似度计算单元502,用于针对待阅文本中的每一个待阅字段,计算待阅字段与标准文本中标准字段的语义相似度,得到对应的语义相似度结果数据。
本实施例中,针对每个待阅字段,计算得到的语义相似度是待阅字段和与题目对应的标准文本中每个标准字段之间的语义相似度。需要说明的是,可以采取各种方法计算语义相似度,此处不做限定,只要能够得到语义相似度即可。例如可以通过计算标准字段与待阅字段的欧几里得距离得到语义相似度或者通过计算标准文本与待阅文本的皮尔逊距离得到语义相似度等。
另外,在阅卷过程中,计算待阅字段与标准文本中标准字段的语义相似度时,可以逐个判断每个待阅字段与标准字段的语义相似度,也可以同时判断所有待阅字段与标准字段的语义相似度,此处不做限制。
本实施例中,考虑到学生虽然能够作答出正确答案,但是由于待阅文本与标准文本的语言逻辑可能会不同,所以就会导致待阅文本与标准文本不会完全一致。所以在进行智能阅卷时,若直接通过判断待阅文本和标准文本中的文字是否一致,来进行阅卷,影响其准确性。由此,本申请实施例通过计算待阅文本与标准文本的语义相似度来确定二值是否一致,来确定待阅文本的分数,能提高待阅文本分数计算的准确度。
采分点确定单元503,用于根据各所述语义相似度结果数据,得到待阅文本的采分点集合。
本实施例中,可根据各语义相似度结果数据判断待阅字段和标准字段是否契合,若判定待阅字段和标准字段契合,则将待阅字段添加至待阅文本的采分点集合中,若不契合,则不将待阅字段添加至待阅文本的采分点集合中。由此得到的待阅文本的采分点集合中包括有与标准字段契合的待阅字段。
评分单元504,用于根据所述待阅文本的采分点集合中每个所述待阅字段所对应的标准字段所对应的分数,得到所述题目的待阅文本的分数。
本实施例中,可直接将待阅文本的采分点集合中全部待阅字段所对应的标准字段所对应的分数相加,即可得到题目的待阅文本的分数,当然还可以对每个标准字段所对应的分数设置权重,通过对待阅字段所对应的标准字段所对应的分数进行加权平均的方式得到题目的待阅文本的分数,此处不做限制。
本申请实施例的智能阅卷装置,通过获取题目对应的标准文本和待阅文本,其中,所述标准文本包括至少一个标准字段,所述待阅文本包括至少一个待阅字段;针对所述待阅文本中的每一个所述待阅字段,计算所述待阅字段与所述标准文本中所述标准字段的语义相似度,得到对应的语义相似度结果数据;根据各所述语义相似度结果数据,得到待阅文本的采分点集合;根据所述待阅文本的采分点集合中每个所述待阅字段所对应的标准字段所对应的分数,得到所述题目的待阅文本的分数,实现了智能阅卷,节省了时间和人力,提高了阅卷效率,并且减少了阅卷过程中的人为主观因素对考试结果的影响,保证了阅卷的客观公正性和准确性。
图6为本申请实施例六中智能阅卷装置的结构示意图。如图6所示,包括:
获取单元601,用于题目对应的标准答案文本和学生答案文本。
本实施例中,标准文本即为标准答案文本,待阅文本即为学生答案文本。对应的,标准文本中的标准字段对应为标准答案句子,待阅文本中的待阅字段对应为为学生答案句子。
相似度计算单元602,用于针对学生答案文本中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的语义相似度,得到对应的语义相似度结果数据。
本实施例中,相似度计算单元602进一步用于对学生答案句子进行分词处理,并提取学生答案关键词集合;遍历标准答案文本中的每一个标准答案句子,对遍历到的每一个标准答案句子进行分词处理,并提取每一个标准答案句子对应的标准答案关键词集合;计算标准答案关键词集合与学生答案关键词集合的相似度;根据标准答案关键词集合与学生答案关键词集合的相似度确定学生答案句子与标准答案文本中标准答案句子的语义相似度。
本实施例中,可通过标准答案关键词集合与学生答案关键词集合的Jaccard相似系数得到标准答案关键词集合与学生答案关键词集合的相似度。其中,Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。
本实施例中,在计算Jaccard相似系数之前,首先将学生答案句子与标准答案句子进行分词处理得到学生答案关键词集合和标准答案关键词集合。具体地,可以采用分词工具进行分词处理,例如THULAC、NLPIR等分词工具。为了提高分词处理速度,并且提高分词精确度,优选地采用Jieba分词工具进行分词处理。
本实施例中,标准关键词集合和学生关键词集合是通过分词工具分别对标准答案句子和学生答案句子进行分词处理得到的,而不是采用人工定义标准关键词集合和学生关键词集合,避免了人为因素对智能阅卷过程中的影响,提高了智能阅卷的准确度。
本实施例中,考虑到直接计算标准答案关键词集合与学生答案关键词集合的Jaccard相似系数时,只有当标准答案关键词集合和学生答案关键词集合中的关键词完全一致时才判断两个关键词相似,但是实际情况中只要学生答案文本与标准答案文本的关键词语义相近即可。
所以为了避免这种情况发生,相似度计算单元602进一步用于建立第一键值对列表;根据标准答案关键词集合中的标准答案关键词和学生答案关键词集合中的学生答案关键词,为第一键值对列表中的每一个元素添加键值对;计算第一键值对列表中第i个元素与其之后的每个元素的元素余弦相似度,并对第i个元素之后的元素中与第i个元素的元素余弦相似度满足元素余弦相似度阈值的元素的键值对进行修改,获得第二键值对列表,其中,i为正整数;根据第二键值对列表,得到标准答案键值对集合和学生答案键值对集合;计算标准答案键值对集合和学生答案键值对集合的相似度即为计算标准答案键值对集合和学生答案键值对集合的Jaccard相似系数。
此时,相似度计算单元602还用于标准答案键值对集合和学生答案键值对集合的相似度确定学生答案句子与标准答案文本中标准答案句子的语义相似度。需要说明的是,在其他实施例中,也可以通过其他方式确定学生答案句子与标准答案文本中标准答案句子的语义相似度,此处不做限制。
可选的,相似度计算单元602进一步用于针对第k个学生答案关键词,为第一键值对列表中的第x个元素添加包含表征学生答案关键词标识信息以及序列信息的键值对,其中,1≤k≤m,m为学生答案关键词集合中学生答案关键词的个数;
针对第r个标准答案关键词,为第一键值对列表中的第y个元素添加包含表征标准答案关键词标识信息以及序列信息的键值对,其中,1≤r≤n,n为标准答案关键词集合中标准答案关键词的个数;
其中,1≤x≤m,m+1≤y;或1≤y≤n,n+1≤x,k,m,r,n均为正整数。
本实施例中,相似度计算单元602在为第一键值对列表中的每一个元素添加键值对时,可以根据学生答案关键词,依次为第一键值对列表中的第1个元素至第m个元素添加包含表征学生答案关键词标识信息的键值对,再根据标准答案关键词,依次为第一键值对列表中第m+1个元素至最后一个元素(即第m+n个元素)添加包含表征标准答案关键词标识信息的键值对,此时1≤x≤m,m+1≤y,即在第一键值对列表中,前m个元素对应学生答案关键词的相关字段,后n个元素对应标准答案关键词的相关字段。当然也可以先根据标注答案关键词,依次为第一键值对列表中的第1个元素至第n个元素添加包含表征标准答案关键词标识信息的键值对,再根据学生答案关键词,依次为第一键值对列表中第n+1个元素至最后一个元素(即第m+n个元素)添加包含表征学生答案关键词标识信息的键值对,此时,1≤y≤n,n+1≤x,即在第一键值对列表中,前n个元素对应标准答案关键词的相关字段,后m个元素对应学生答案关键词的相关字段。。具体添加顺序此处不做限定。
可选的,相似度计算单元602进一步用于将第i个元素之后的元素中,与第i个元素的元素余弦相似度满足元素余弦相似度阈值的元素的键值对的序列信息修改为第i个元素的键值对的序列信息。需要说明的是,在其他实施例中,也可以通过其他方式为第一键值对列表中的每一个元素添加键值对,此处不做限制。
可选的,相似度计算单元602进一步用于当1≤x≤m,m+1≤y时,根据键值对中包含的表征学生答案标识信息,从第二键值对列表中获取第1个至第m个元素的序列信息组成学生答案键值对集合,根据键值对中包含的表征标准答案标识信息,从第二键值对列表中获取第m+1个至第m+n个元素的序列信息组成标准答案键值对集合;当1≤y≤n,n+1≤x时,根据键值对中包含的表征标准答案标识信息从第二键值对列表中获取第1个至第n个元素的序列信息组成标准答案键值对集合,根据键值对中包含的表征学生答案标识信息从第二键值对列表中获取第n+1个至第n+m个元素的序列信息组成学生答案键值对集合。需要说明的是,在其他实施例中,也可以通过其他方式获取标准答案键值对集合和学生答案键值对集合,此处不做限制。
可选的,相似度计算单元602进一步用于统计标准答案键值对集合和学生答案键值对集合的交集中序列信息的数量和所标准答案键值对集合和学生答案键值对集合的并集中序列信息的数量,标准答案键值对集合和学生答案键值对集合的交集中序列信息的数量与标准答案键值对集合和学生答案键值对集合的并集中序列信息的数量的比值即为标准答案键值对集合和学生答案键值对集合的相似度。
本实施例中,在计算得到标准答案关键词集合与学生答案关键词集合的相似度后,可以直接将标准答案关键词集合与学生答案关键词集合的相似度作为学生答案句子与标准答案文本中标准答案句子的语义相似度,当然也可以对标准答案关键词集合与学生答案关键词集合的相似度进行归一化处理或者进行加权平均得到学生答案句子与标准答案文本中标准答案句子的语义相似度,此处不做限定。
采分点确定单元603,用于根据各语义相似度结果数据,得到学生的答案采分点集合。
本实施例中,采分点确定单元603可根据各语义相似度结果数据,将在标准答案文本中存在标准答案句子使语义相似度不小于语义相似度阈值的学生答案句子添加至学生的答案采分点集合中,得到学生的答案采分点集合。需要说明的是语义相似度阈值可以自行设定,此处不做限制。
评分单元604,用于根据学生的答案采分点集合中每个学生答案句子所对应的标准答案句子所对应的分数,得到题目的学生分数。
本实施例中,步骤采分点确定单元603、评分单元604与上述采分点确定单元503、评分单元504类似,此处不再赘述。
图7为本申请实施例七中智能阅卷装置的结构示意图。本实施例与上述实施例的区别在于本实施例中还对学生答案句子与标准答案句子计算了句子成分相似度。如图7所示,包括:
获取单元701,用于获取题目对应的标准答案文本和学生答案文本。
相似度计算单元702,用于针对学生答案文本中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的语义相似度,得到对应的语义相似度结果数据.
语义相似答案确定单元703,用于根据各语义相似度结果数据,得到学生的语义相似答案集合。
本实施例中,语义相似答案确定单元703,可根据各语义相似度结果数据,将在标准答案文本中存在标准答案句子使语义相似度不小于语义相似度阈值的学生答案句子添加至学生的语义相似答案集合中,得到学生的语义相似答案集合。需要说明的是语义相似度阈值可以自行设定,此处不做限制。
句子成分相似度计算单元704,用于针对学生的语义相似答案集合中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的句子成分相似度,得到对应的句子成分相似度结果数据。
本实施例中,考虑到若直接根据语义相似度结果数据不小于语义相似度阈值的每个学生答案句子得到题目的学生分数,可能会有错判漏判的情况发生,造成分数不准确。为了提高分数的准确度,还可以通过句子成分相似度计算单元704计算学生答案句子与标准答案文本中标准答案句子的句子成分相似度,根据句子成分相似度结果数据再一次判断所学生答案句子与标准答案句子是否契合,若判定学生答案句子和标准答案句子契合,则将学生答案句子添加至学生的答案采分点集合中,若不契合,则不将学生答案句子添加至学生的答案采分点集合中。由此得到的学生的答案采分点集合中包括有与标准答案句子语义相似度契合和句子成分相似度契合的学生答案句子,从而根据学生的采分点集合得到题目的学生分数更加准确。
可选的,句子成分相似度计算单元704进一步用于对学生的语义相似答案集合中的学生答案句子进行句子成分提取处理,得到学生答案句子的句子成分;遍历与学生的语义相似答案集合中的学生答案句子对应的标准答案句子,对遍历到的每个标准答案句子进行句子成分提取处理,得到每一个标准答案句子的句子成分;计算学生答案句子的句子成分和对应的标准答案句子的句子成分的句子成分余弦相似度;根据每个句子成分余弦相似度得到句子成分相似度结果数据。
对应的,句子成分相似度计算单元704还用于根据各句子成分相似度结果数据,将句子成分相似度不小于句子成分相似度阈值的学生答案句子添加至学生的答案采分点集合中,得到学生的答案采分点集合。
本实施例中,考虑到每个句子的句子成分包括文本的主语、谓语、宾语、定语等单个句子成分。因此,在计算句子成分相似度时可先计算标准答案句子的主语与学生答案句子的主语的句子成分余弦相似度,再计算标准答案句子的谓语与学生答案句子的谓语的句子成分余弦相似度等,也可以同时计算所有句子成分余弦相似度,此处不做限制。根据学生答案句子与标准答案句子的主语的句子余弦相似度和谓语的句子余弦相似度等所有的句子成分余弦相似度,根据每个句子成分余弦相似度得到句子成分相似度结果数据。
本实施例中,在计算学生答案句子的主语与标准答案句子的主语的句子成分余弦相似度时,可首先确定学生答案句子的主语的词向量和标准答案句子的主语的词向量,再计算学生答案句子的主语的词向量和标准答案句子的主语的词向量的余弦相似度。其中,确定主语的词向量的方法与上述实施例中确定关键词的词向量的方法一致,此处不再赘述。其他单个句子成分相似度的计算方法类似,此处不再赘述。
可选的,句子成分相似度计算单元704进一步用于赋予每个句子成分一定的成分相似分数,若学生答案句子的其中一个句子成分与标准答案句子中对应的句子成分的句子成分余弦相似度不小于句子成分余弦相似度阈值,则给学生答案句子增加句子成分对应的成分相似分数,根据学生答案句子的所有成分相似分数得到句子成分相似度结果数据。
可选的,若学生答案句子的句式类型和标准答案句子的句式类型不一致,则根据提取得到的学生答案句子成分和标准答案句子成分计算得到的句子成分相似度可能会出现偏差,导致错判,例如标准答案句子是主动句式,而学生答案句子是被动句式,但是二者实际的表达意思相同,就会造成错判的情况。所以,为了避免此种情况的发生,句子成分相似度计算单元704还用于进行句子成分提取处理之前可判断学生答案句子和与其对应的标准答案句子的句式类型是否相同;若否,则对学生答案句子或者标准答案句子进行句式转换处理,使得学生答案句子与标准答案句子的句式类型相同。
采分点确定单元705,用于根据各句子成分相似度结果数据,得到学生的答案采分点集合。
评分单元706,用于根据学生的答案采分点集合中每个学生答案句子所对应的标准答案句子所对应的分数,得到题目的学生分数。
本实施例中,采分点确定单元705和评分单元706与上述实施例类似,此处不再赘述。
本实施例中,答案采分点集合中的学生答案句子与标准答案句子的语义相似度和句子成分相似度均不小于语义相似度阈值和句子成分相似度阈值,保证了答案采分点集合中学生答案句子的准确度,从而使得题目的学生分数更加准确。
图8为本申请实施例八中智能阅卷装置的结构示意图。本实施例与上述实施例的区别在于本实施例中根据获取的标准答案文本和学生答案文本对答案采分点集合进行了扩充。如图8所示,包括:
获取单元801,用于获取题目对应的标准答案文本和学生答案文本。
相似度计算单元802,用于针对学生答案文本中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的语义相似度,得到对应的语义相似度结果数据。
语义相似答案确定单元803,用于根据各语义相似度结果数据,得到学生的语义相似答案集合。
句子成分相似度计算单元804,用于针对学生的语义相似答案集合中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的句子成分相似度,得到对应的句子成分相似度结果数据。
采分点确定单元805,用于根据各句子成分相似度结果数据,得到学生的答案采分点集合。
本实施例中,获取单元801、相似度计算单元802、语义相似答案确定单元803、句子成分相似度计算单元804和采分点确定单元805与上述实施例类似,此处不再赘述。
向量内积计算单元806,用于针对学生答案文本中的每一个学生答案句子,计算学生答案句子与所标准答案文本中的标准答案句子的向量内积,得到对应的向量内积结果数据。
本实施例中,考虑到通过计算学生答案句子和标准答案句子的语义相似度对学生答案句子进行筛选的过程中,一般都会存在误差,遗漏一些正确的学生答案句子,以及通过计算学生答案句子和标准答案句子的句子成分相似度对学生答案句子进行筛选的过程中,一般也会存在误差,又遗漏一些正确的学生答案句子。所以答案采分点集合就会将两次筛选过程中的误差累计,导致根据答案采分点集合得到的学生分数就会产生一定的偏差,所以为了避免此种情况的发生,通过向量内积计算单元806再计算原始的学生答案句子和标准答案句子的标准答案句子的向量内积,根据向量内积结果数据对答案采分点集合进行扩充,减少误差累计,提高智能阅卷的准确度。
本实施例中,得到学生答案向量和标准答案向量的方法此处不做限制,例如TF-IDF方法。但是采取TF-IDF方法时,可能会出现逆文本频率指数(Term FrequencyInverseDocument Frequency,简称IDF)分数为负数的情况,影响得到的答案向量的准确性。因此,为了避免此种情况发生,在一具体实施场景中,向量内积计算单元806还用于对学生答案句子进行向量化处理,得到学生答案向量;对每一个标准答案句子进行向量化处理,得到标准答案向量;遍历每一个标准答案向量,计算学生答案向量和遍历到的标准答案向量的向量内积,得到学生答案句子与所标准答案文本中的标准答案句子的向量内积。
可选的,向量内积计算单元806还用于对学生答案句子进行分词处理,得到学生答案词语集合;计算学生答案词语集合中的每个词语的词频(Term Frequency,简称TF)分数,IDF分数和词向量,根据每个词语的词频分数、IDF分数以及词向量计算得到每个词语答案向量;对每个词语答案向量进行归一化处理,得到每个词语的归一化答案向量,并根据每个词语的归一化答案向量得到学生答案向量。
本实施例中,词语答案向量的计算公式为:
词语答案向量=词语TF分数*词语IDF分数*词语词向量。
其中,词语TF分数=词语词频/句子中所有词语的总词频。词语词频的确定方式可以为:确定词语在学生答案词语集合中出现的次数。句子中所有词语的总词频的确定方式可以为:确定学生词语集合中每一个词语的词频,综合每一个词语的词频即为句子中所有词语的总词频。
本实施例中,根据以下公式计算学生答案关键词集合中的每个词语的逆文本频率指数分数:
Figure BDA0002244538890000161
其中,D为预先建立的标准答案文本库中的文档总数,wf为标准答案文本库中包括词语的文档总数,C为常数,C≥2。
本实施例中,为了使得词语IDF分数更加准确,可根据所有题目的所有标准答案文本建立标准答案文本库。
可选的,向量内积计算单元806还用于对标准答案文本库中的所有标准答案句子进行分词处理,然后统计标准答案文本库中包括词语的文档总数即为wf,再根据逆文本频率指数分数计算公式计算每个词语的IDF分数。
本实施例中,在根据现有的逆文本频率指数分数计算公式计算每个词语的IDF分数时,可能会导致得到的学生答案向量或者标准答案向量出现负数,就会出现标准答案文本与学生答案文本的实际向量内积满足向量内积判断条件,但是由于学生答案向量或者标准答案向量出现负数,使得判断结果为向量内积不满足向量内积判断条件,影响智能判卷的准确性,因此,为了避免此类情况发生,将计算关键词IDF分数的公式进行了修正,增加了常数C,避免了IDF分数出现负数的情况,从而得到的答案向量中全部都是正数,减少了对词向量内积的影响,从而提高了智能判卷的准确性。
本实施例中,为了便于根据标准答案向量和学生答案向量计算向量内积,并且提高向量内积的精度,向量内积计算单元806还用于对标准答案向量和学生答案向量进行数据归一化处理。其中,归一化处理具体过程包括,将每个学生答案的词语向量除以学生答案的词语向量模长,得到归一化处理后的归一化答案向量,标准答案的词语答案向量的归一化处理与学生答案的词语答案向量的归一化处理一致,此处不再赘述。
有效答案采分点确定单元807,用于根据各向量内积结果数据和学生的答案采分点集合,得到学生的有效答案采分点集合。
本实施例中,根据各向量内积结果数据,获取在标准答案文本中存在标准答案句子使向量内积不小于向量内积阈值的第一学生答案句子,并判断学生的答案采分点集合中是否存在第一学生答案句子,若否,则将第一学生答案句子添加至学生的答案采分点集合中,得到学生的有效答案采分点集合。
评分单元808,用于根据有效答案采分点集合中每个学生答案句子所对应的标准答案句子所对应的分数,得到题目的学生分数。
本实施例中,可直接将有效答案采分点集合中全部学生答案句子所对应的标准答案句子所对应的分数相加,即可得到题目的学生分数,当然还可以对每个标准答案句子所对应的分数设置权重,通过对学生答案句子所对应的标准答案句子所对应的分数进行加权平均的方式得到题目的学生分数,此处不做限制。
图9为本申请实施例九中电子设备的结构示意图。如图9所示,包括:
一个或多个处理器901;
存储装置902,可以配置为存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述任一实施例中的流量限制方法。
图10为本申请实施例十中电子设备的硬件结构;如图10所示,该电子设备的硬件结构可以包括:处理器1001,通信接口1002,计算机可读存储介质1003和通信总线1004;
其中处理器1001、通信接口1002、计算机可读存储介质1003通过通信总线1004完成相互间的通信;
可选的,通信接口1002可以为通信模块的接口,如GSM模块的接口;其中,处理器1001具体可以配置为:获取题目对应的标准答案文本和学生答案文本;针对学生答案文本中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的语义相似度,得到对应的语义相似度结果数据;根据各语义相似度结果数据,得到学生的答案采分点集合;根据学生的答案采分点集合中每个学生答案句子所对应的标准答案句子所对应的分数,得到题目的学生分数。
处理器1001可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述实施例中,电子设备可以为前端的智能终端,也可以为后台的服务器,当为前端的智能终端时,以是智能家电。该家电可包括以下至少一种,例如:电视、数字化视频光碟(DVD)播放器、音响装置、冰箱、空调、真空清洁器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、电视盒、游戏机、电子词典、电子钥匙、摄录机和电子相框。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输配置为由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元,用于获取题目对应的标准答案文本和学生答案文本;相似度计算单元,用于针对学生答案文本中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的语义相似度,得到对应的语义相似度结果数据;采分点确定单元,用于根据各语义相似度结果数据,得到学生的答案采分点集合;评分单元,用于根据学生的答案采分点集合中的每个学生答案句子所对应的标准答案句子所对应的分数,得到题目的学生分数。例如,获取单元还可以被描述为“用于获取题目对应的标准答案文本和学生答案文本的单元”。
作为另一方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一实施例中所描述的方法。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取题目对应的标准答案文本和学生答案文本;针对学生答案文本中的每一个学生答案句子,计算学生答案句子与标准答案文本中标准答案句子的语义相似度,得到对应的语义相似度结果数据;根据各语义相似度结果数据,得到学生的答案采分点集合;根据学生的答案采分点集合中每个学生答案句子所对应的标准答案句子所对应的分数,得到题目的学生分数。
本文中所使用的用语“模块”或“功能单元”例如可意为包括有硬件、软件和固件的单元或者包括有硬件、软件和固件中两种或更多种的组合的单元。“模块”可与例如用语“单元”、“逻辑”、“逻辑块”、“部件”或“电路”可交换地使用。“模块”或“功能单元”可以是集成部件元件的最小单元或集成部件元件的一部分。“模块”可以是用于执行一个或多个功能的最小单元或其一部分。“模块”或“功能单元”可机械地或电学地实施。例如,根据本公开的“模块”或“功能单元”可包括以下至少一种:专用集成电路(ASIC)芯片、场可编程门阵列(FPGA)以及已公知的或今后待开发的用于执行操作的可编程逻辑器件。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (15)

1.一种智能阅卷方法,其特征在于,包括:
获取题目对应的标准答案文本和学生答案文本,其中,所述标准答案文本包括至少一个标准答案句子,所述学生答案文本包括至少一个学生答案句子;
针对所述学生答案文本中的每一个所述学生答案句子,计算所述学生答案句子与所述标准答案文本中所述标准答案句子的语义相似度,得到对应的语义相似度结果数据;
根据各所述语义相似度结果数据,得到学生答案文本的采分点集合;
根据所述学生答案文本的采分点集合中每个所述学生答案句子所对应的标准答案句子所对应的分数,得到所述题目的学生答案文本的分数;
计算所述学生答案句子与所述标准答案文本中所述标准答案句子的语义相似度包括:
对所述学生答案句子进行分词处理,并提取学生答案关键词集合;
遍历所述标准答案文本中的每一个所述标准答案句子,对遍历到的每一个所述标准答案句子进行分词处理,并提取每一个所述标准答案句子对应的标准答案关键词集合;
建立第一键值 对列表;
根据所述标准答案关键词集合中的标准答案关键词和所述学生答案关键词集合中的学生答案关键词,为所述第一键值对列表中的每一个元素添加键值对,所述键值对包括序列信息;
计算所述第一键值对列表中第i个元素与其之后的每个元素的元素余弦相似度,并对所述第i个元素之后的元素中与所述第i个元素的所述元素余弦相似度满足元素余弦相似度阈值的元素的键值对的序列信息修改为第i个元素的键值对的序列信息,获得第二键值对列表,其中,i为正整数;
根据所述第二键值对列表,得到标准答案键值对集合和学生答案键值对集合;
根据标准答案键值对集合中的序列信息和学生答案键值对集合中的序列信息,计算所述标准答案键值对集合和所述学生答案键值对集合的Jaccard相似系数,作为所述标准答案关键词集合与所述学生答案关键词集合的相似度;
根据所述标准答案关键词集合与所述学生答案关键词集合的相似度确定所述学生答案句子与所述标准答案文本中所述标准答案句子的语义相似度。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述语义相似度结果数据,得到学生答案文本采分点集合包括:
根据各所述语义相似度结果数据,将在所述标准答案文本中存在所述标准答案句子使所述语义相似度不小于语义相似度阈值的所述学生答案句子添加至所述学生的答案采分点集合中,得到所述学生的答案采分点集合。
3.根据权利要求1所述的方法,其特征在于,所述根据所述标准答案关键词集合中的标准答案关键词和所述学生答案关键词集合中的学生答案关键词,为所述第一键值对列表中的每一个元素添加键值对包括:
针对第k个学生答案关键词,为所述第一键值对列表中的第x个元素添加包含表征学生答案关键词标识信息以及所述序列信息的键值对,其中,1≤k≤m,m为学生答案关键词集合中学生答案关键词的个数;
针对第r个标准答案关键词,为所述第一键值对列表中的第y个元素添加包含表征标准答案关键词标识信息以及所述序列信息的键值对,其中,1≤r≤n,n为标准答案关键词集合中标准答案关键词的个数;
其中,所述1≤x≤m,m+1≤y;或1≤y≤n,n+1≤x,k,m,r,n均为正整数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二键值对列表,得到标准答案键值对集合和学生答案键值对集合包括:当1≤x≤m,m+1≤y时,根据所述键值对中包含的所述表征学生答案标识信息,从所述第二键值对列表中获取第1个至第m个元素的序列信息组成所述学生答案键值对集合,根据所述键值对中包含的所述表征标准答案标识信息,从所述第二键值对列表中获取第m+1个至第m+n个元素的序列信息组成所述标准答案键值对集合;
当1≤y≤n,n+1≤x时,根据所述键值对中包含的所述表征标准答案标识信息,从所述第二键值对列表中获取第1个至第n个元素的序列信息组成所述标准答案键值对集合,根据所述键值对中包含的所述表征学生答案标识信息,从所述第二键值对列表中获取第n+1个至第n+m个元素的序列信息组成所述学生答案键值对集合。
5.根据权利要求1所述的方法,其特征在于,所述根据各所述语义相似度结果数据,得到学生答案文本的采分点集合包括:
根据各所述语义相似度结果数据,得到学生的语义相似答案集合;
针对所述学生的语义相似答案集合中的每一个所述学生答案句子,计算所述学生答案句子与所述标准答案文本中所述标准答案句子的句子成分相似度,得到对应的句子成分相似度结果数据;
根据各所述句子成分相似度结果数据,得到所述学生的答案采分点集合。
6.根据权利要求5所述的方法,其特征在于,所述计算所述学生的语义相似答案集合中的学生答案句子与所述标准答案文本中所述标准答案句子的句子成分相似度包括:
对所述学生的语义相似答案集合中的学生答案句子进行句子成分提取处理,得到所述学生答案句子的句子成分;
遍历与所述学生的语义相似答案集合中的所述学生答案句子对应的所述标准答案句子,对遍历到的每个所述标准答案句子进行句子成分提取处理,得到每一个所述标准答案句子的句子成分;
计算所述学生答案句子的句子成分和对应的所述标准答案句子的句子成分的句子成分余弦相似度;
根据每个所述句子成分余弦相似度得到所述句子成分相似度结果数据;
所述根据各所述句子成分相似度结果数据,得到学生的答案采分点集合包括:
根据各所述句子成分相似度结果数据,将所述句子成分相似度不小于句子成分相似度阈值的所述学生答案句子添加至所述学生的答案采分点集合中,得到所述学生的答案采分点集合。
7.根据权利要求6所述的方法,其特征在于,根据每个所述句子成分余弦相似度得到所述句子成分相似度结果数据包括:
赋予每个所述句子成分一定的成分相似分数,若所述学生答案句子的其中一个句子成分与所述标准答案句子中对应的的句子成分的句子成分余弦相似度不小于句子成分余弦相似度阈值,则给所述学生答案句子增加所述句子成分对应的成分相似分数,根据所述学生答案句子的所有成分相似分数得到所述句子成分相似度结果数据。
8.根据权利要求6所述的方法,其特征在于,对所述标准答案句子和所述学生答案句子分别进行句子成分提取处理之前包括:
判断所述学生答案句子和所述标准答案句子的句式类型是否相同;
若否,则对所述学生答案句子或者所述标准答案句子进行句式转换处理,使得所述学生答案句子与所述标准答案句子的句式类型相同。
9.根据权利要求1-8任一所述的方法,其特征在于,所述方法还包括:
针对所述学生答案文本中的每一个所述学生答案句子,计算所述学生答案句子与所标准答案文本中的所述标准答案句子的向量内积,得到对应的向量内积结果数据;
根据各所述向量内积结果数据和所述学生的答案采分点集合,得到学生的有效答案采分点集合;
对应的,根据所述学生的答案采分点集合中每个所述学生答案句子所对应的标准答案句子所对应的分数,得到所述题目的学生分数包括:
根据所述有效答案采分点集合中每个所述学生答案句子所对应的所述标准答案句子所对应的分数,得到所述题目的学生分数。
10.根据权利要求9所述的方法,其特征在于,所述计算所述学生答案句子与所标准答案文本中的所述标准答案句子的向量内积包括:
对所述学生答案句子进行向量化处理,得到学生答案向量;
对每一个所述标准答案句子进行向量化处理,得到标准答案向量;
遍历每一个所述标准答案向量,计算所述学生答案向量和遍历到的所述标准答案向量的向量内积,得到所述学生答案句子与所标准答案文本中的所述标准答案句子的向量内积;
所述根据各所述向量内积结果数据和所述学生的答案采分点集合,得到学生的有效答案采分点集合包括:
根据各所述向量内积结果数据,获取在所述标准答案文本中存在所述标准答案句子使所述向量内积不小于向量内积阈值的第一学生答案句子,并判断所述学生的答案采分点集合中是否存在所述第一学生答案句子,若否,则将所述第一学生答案句子添加至所述学生的答案采分点集合中,得到所述学生的有效答案采分点集合。
11.根据权利要求10所述的方法,其特征在于,所述对所述学生答案文本中的所述学生答案句子进行向量化处理,得到学生答案向量包括:
对所述学生答案句子进行分词处理,得到学生答案词语集合;
计算所述学生答案词语集合中的每个词语的词频分数,逆文本频率指数分数和词向量,根据每个所述词语的所述词频分数、所述逆文本频率指数分数以及所述词向量计算得到每个所述词语答案向量;
对每个所述词语答案向量进行归一化处理,得到每个所述词语的归一化答案向量,并根据每个所述词语的归一化答案向量得到所述学生答案向量。
12.根据权利要求11所述的方法,其特征在于,根据以下公式计算所述学生答案关键词集合中的每个词语的逆文本频率指数分数:
Figure FDA0003773629760000031
其中,D为预先建立的标准答案文本库中的文档总数,wf为所述标准答案文本库中包括所述词语的文档总数,C为常数,C≥2。
13.一种智能阅卷装置,其特征在于,包括:
获取单元,用于获取题目对应的标准答案文本和学生答案文本,其中,所述标准答案文本包括至少一个标准答案句子,所述学生答案文本包括至少一个学生答案句子;
相似度计算单元,用于针对所述学生答案文本中的每一个所述学生答案句子,计算所述学生答案句子与所述标准答案文本中所述标准答案句子的语义相似度,得到对应的语义相似度结果数据;
采分点确定单元,用于根据各所述语义相似度结果数据,得到学生答案文本的采分点集合;
评分单元,用于根据所述学生答案文本的采分点集合中的每个所述学生答案句子所对应的标准答案句子所对应的分数,得到所述题目的学生答案文本的分数;
所述相似度计算单元,具体用于:
对所述学生答案句子进行分词处理,并提取学生答案关键词集合;
遍历所述标准答案文本中的每一个所述标准答案句子,对遍历到的每一个所述标准答案句子进行分词处理,并提取每一个所述标准答案句子对应的标准答案关键词集合;
建立第一键值 对列表;
根据所述标准答案关键词集合中的标准答案关键词和所述学生答案关键词集合中的学生答案关键词,为所述第一键值对列表中的每一个元素添加键值对,所述键值对包括序列信息;
计算所述第一键值对列表中第i个元素与其之后的每个元素的元素余弦相似度,并对所述第i个元素之后的元素中与所述第i个元素的所述元素余弦相似度满足元素余弦相似度阈值的元素的键值对的序列信息修改为第i个元素的键值对的序列信息,获得第二键值对列表,其中,i为正整数;
根据所述第二键值对列表,得到标准答案键值对集合和学生答案键值对集合;
根据标准答案键值对集合中的序列信息和学生答案键值对集合中的序列信息,计算所述标准答案键值对集合和所述学生答案键值对集合的Jaccard相似系数,作为所述标准答案关键词集合与所述学生答案关键词集合的相似度;
根据所述标准答案关键词集合与所述学生答案关键词集合的相似度确定所述学生答案句子与所述标准答案文本中所述标准答案句子的语义相似度。
14.一种电子设备,包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一所述的方法。
CN201911012221.XA 2019-10-23 2019-10-23 智能阅卷方法及装置 Active CN112700203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911012221.XA CN112700203B (zh) 2019-10-23 2019-10-23 智能阅卷方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911012221.XA CN112700203B (zh) 2019-10-23 2019-10-23 智能阅卷方法及装置

Publications (2)

Publication Number Publication Date
CN112700203A CN112700203A (zh) 2021-04-23
CN112700203B true CN112700203B (zh) 2022-11-01

Family

ID=75505040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911012221.XA Active CN112700203B (zh) 2019-10-23 2019-10-23 智能阅卷方法及装置

Country Status (1)

Country Link
CN (1) CN112700203B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627722B (zh) * 2021-07-02 2024-04-02 湖北美和易思教育科技有限公司 基于关键字分词的简答题评分方法、终端及可读存储介质
CN113822040B (zh) * 2021-08-06 2024-07-02 深圳市卓帆技术有限公司 一种主观题阅卷评分方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940367B1 (en) * 2014-08-13 2018-04-10 Google Llc Scoring candidate answer passages
CN104268603B (zh) * 2014-09-16 2017-04-12 科大讯飞股份有限公司 用于文字性客观题的智能阅卷方法及***
CN106980624B (zh) * 2016-01-18 2021-03-26 阿里巴巴集团控股有限公司 一种文本数据的处理方法和装置
CN110196893A (zh) * 2019-05-05 2019-09-03 平安科技(深圳)有限公司 基于文本相似度的非主观题阅卷方法、装置及存储介质

Also Published As

Publication number Publication date
CN112700203A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
US10831769B2 (en) Search method and device for asking type query based on deep question and answer
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN109815491B (zh) 答题评分方法、装置、计算机设备及存储介质
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及***
CN109783631B (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
CN107301164B (zh) 数学公式的语义解析方法及装置
CN111369980B (zh) 语音检测方法、装置、电子设备及存储介质
US20160170993A1 (en) System and method for ranking news feeds
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN112700203B (zh) 智能阅卷方法及装置
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN110659352A (zh) 试题考点识别方法及其***
CN113722478A (zh) 多维度特征融合相似事件计算方法、***及电子设备
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
CN110069772B (zh) 预测问答内容的评分的装置、方法及存储介质
CN112541069A (zh) 一种结合关键词的文本匹配方法、***、终端及存储介质
CN110096708B (zh) 一种定标集确定方法及装置
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN113627722B (zh) 基于关键字分词的简答题评分方法、终端及可读存储介质
CN111523310A (zh) 数据处理方法、数据处理装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant