CN113836894B - 多维度英语作文评分方法、装置及可读存储介质 - Google Patents
多维度英语作文评分方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN113836894B CN113836894B CN202111131334.9A CN202111131334A CN113836894B CN 113836894 B CN113836894 B CN 113836894B CN 202111131334 A CN202111131334 A CN 202111131334A CN 113836894 B CN113836894 B CN 113836894B
- Authority
- CN
- China
- Prior art keywords
- score
- scoring
- sentence
- composition
- scored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种多维度英语作文评分方法、装置及可读存储介质,涉及教育信息化及自然语言理解技术领域,包括获取待评分作文;基于句子特征对待评分作文的优秀度进行评分,得到优秀度分数;基于连接词特征对待评分作文的流畅度进行评分,得到流畅度分数;基于范文对待评分作文的内容相关性进行评分,得到内容相关性分数;基于预设的权重系数对优秀度分数、流畅度分数和内容相关性分数进行加权求和,得到待评分作文的总分数。本申请通过句子特征、连接词特征和范文对作文进行多维度评价,有效降低了成本;且通过连接词特征判断学生对文章衔接的掌控能力以及内容相关性评价反映学生的表达能力,进而可有效评价整篇作文的整体质量和学生的写作能力。
Description
技术领域
本申请涉及教育信息化及自然语言理解技术领域,特别涉及一种多维度英语作文评分方法、装置及可读存储介质。
背景技术
近年来,随着互联网技术的发展,网络思维逐渐进入教育领域,深刻地改变了教学方式和方法,对教育改革产生了深远的影响;而人工智能技术的发展也使得计算机技术被越来越多地应用到教育领域。其中,英语作文写作考评在教育领域的作用越来越大,并且每年参加各类型英语考试的人群愈发庞大,如何减轻专家对英语作文的审阅工作量和避免主观意识可能会带来的不公平性成为亟待解决的问题,而使用人工智能技术来解决该问题顺应了时代的发展趋势。即通过作文自动评分技术对各种语言的作文进行自动评分,并反馈给用户相关特征评分以使得用户获得相应地指导或建议。通过计算机特定程序的帮助,可以在一定程度上减轻评卷老师的工作负担同时更能提高阅卷评分的公平性和准确性。
相关技术中,传统的评分方法主要通过自然语言处理手段获取多维度的特征组合,然后再利用大量试卷文本数据,利用机器学习的方式对老师标签进行分数拟合学习,然后将待测英语作文导入其中并进行打分,不过该方法需要通过大量的人工标签进行分数学习,存在样本量大且成本高的问题;此外,在传统的评分方式中,往往会将内容覆盖点的个数作为重要的评分要素,但是该方式过于简单,只能在一定程度上反映作文的扣题程度,而无法有效评价整篇作文的整体质量和学生的写作能力。
发明内容
本申请提供一种多维度英语作文评分方法、装置及可读存储介质,以解决相关技术中存在的样本量大、成本高以及无法有效评价整篇作文的整体质量和学生的写作能力的问题。
第一方面,提供了一种多维度英语作文评分方法,包括以下步骤:
获取待评分作文;
基于句子特征对所述待评分作文的优秀度进行评分,得到优秀度分数;
基于连接词特征对所述待评分作文的流畅度进行评分,得到流畅度分数;
基于范文对所述待评分作文的内容相关性进行评分,得到内容相关性分数;
基于预设的权重系数对所述优秀度分数、所述流畅度分数和所述内容相关性分数进行加权求和,得到待评分作文的总分数。
一些实施例中,所述基于句子特征对所述待评分作文的优秀度进行评分,得到优秀度分数,包括:
创建优秀度评分模型,所述优秀度评分模型包括错误打分子模型、词汇打分子模型、语法打分子模型、词性打分子模型和句型打分子模型;
基于所述优秀度评分模型对待评分作文中的每个句子进行优秀度打分,得到每个句子的优秀度子分数;
基于待评分作文中每个句子的优秀度子分数计算待评分作文的优秀度分数。
一些实施例中,所述基于所述优秀度评分模型对待评分作文中的每个句子进行优秀度打分,得到每个句子的优秀度子分数,包括:
基于错误打分子模型对待评分作文中的每个句子的拼写错误和语法错误进行分析,得到每个句子的错误个数,根据所述错误个数计算每个句子的错误得分;
基于词汇打分子模型对所述每个句子中的每个单词进行等级分析,得到所述每个单词的等级,对处于每个等级的单词个数进行统计,根据统计结果计算每个句子的词汇得分;
基于语法打分子模型对所述每个句子进行复杂度分析,根据复杂度分析结果计算所述每个句子的语法得分;
基于词性打分子模型对所述每个句子中的单词进行词性分析,得到所述每个单词的词性,对每个句子中的全部单词的词性进行分类,得到词性类别数,根据所述词性类别数计算每个句子的词性得分;
基于句型打分子模型对所述每个句子的句型和短语搭配进行分析,根据分析结果计算所述每个句子的句型得分;
根据所述错误得分、所述词汇得分、所述语法得分、所述词性得分和所述句型得分计算得到每个句子的优秀度子分数。
一些实施例中,所述基于连接词特征对所述待评分作文的流畅度进行评分,得到流畅度分数,包括:
创建流畅度评分模型;
基于AC自动机获取待评分作文中的全部连接词;
基于所述流畅度评分模型检测每个连接词能否正确衔接所述连接词的上文与下文,并统计能正确衔接所述连接词的上文与下文的连接词数量,根据统计结果计算所述待评分作文的流畅度分数。
一些实施例中,所述基于范文对所述待评分作文的内容相关性进行评分,得到内容相关性分数,包括:
创建内容相关性评分模型,所述内容相关性评分模型中包含了多篇范文;
将所述待评分作文导入所述内容相关性评分模型,得到待评分作文关于高分作文的关联矩阵;
基于所述关联矩阵计算所述待评分作文的内容相关性分数。
第二方面,提供了一种多维度英语作文评分装置,包括:
获取单元,其用于获取待评分作文;
第一评分单元,其用于基于句子特征对所述待评分作文的优秀度进行评分,得到优秀度分数;
第二评分单元,其用于基于连接词特征对所述待评分作文的流畅度进行评分,得到流畅度分数;
第三评分单元,其用于基于范文对所述待评分作文的内容相关性进行评分,得到内容相关性分数;
总分计算单元,其用于基于预设的权重系数对所述优秀度分数、所述流畅度分数和所述内容相关性分数进行加权求和,得到待评分作文的总分数。
一些实施例中,所述第一评分单元具体用于:
创建优秀度评分模型,所述优秀度评分模型包括错误打分子模型、词汇打分子模型、语法打分子模型、词性打分子模型和句型打分子模型;
基于所述优秀度评分模型对待评分作文中的每个句子进行优秀度打分,得到每个句子的优秀度子分数;
基于待评分作文中每个句子的优秀度子分数计算待评分作文的优秀度分数。
一些实施例中,所述第二评分单元具体用于:
创建流畅度评分模型;
基于AC自动机获取待评分作文中的全部连接词;
基于所述流畅度评分模型检测每个连接词能否正确衔接所述连接词的上文与下文,并统计能正确衔接所述连接词的上文与下文的连接词数量,根据统计结果计算所述待评分作文的流畅度分数。
一些实施例中,所述第三评分单元具体用于:
创建内容相关性评分模型,所述内容相关性评分模型中包含了多篇范文;
将所述待评分作文导入所述内容相关性评分模型,得到待评分作文关于高分作文的关联矩阵;
基于所述关联矩阵计算所述待评分作文的内容相关性分数。
第三方面,提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行前述的多维度英语作文评分方法。
本申请提供的技术方案带来的有益效果包括:不仅样本量小、成本低,且可有效评价整篇作文的整体质量和学生的写作能力。
本申请提供了一种多维度英语作文评分方法、装置及可读存储介质,包括获取待评分作文;基于句子特征对所述待评分作文的优秀度进行评分,得到优秀度分数;基于连接词特征对所述待评分作文的流畅度进行评分,得到流畅度分数;基于范文对所述待评分作文的内容相关性进行评分,得到内容相关性分数;基于预设的权重系数对所述优秀度分数、所述流畅度分数和所述内容相关性分数进行加权求和,得到待评分作文的总分数。本申请通过句子特征、连接词特征和范文对作文进行优秀度、流畅度以及内容相关性等多维度评价分析,无需基于大量的人工标签进行分数学习,即可实现作文的评分,有效降低了成本;且通过连接词特征可判断学生对文章衔接的掌控能力,以及通过内容相关性上能更好的反映出待评分作文和范文之间的关联性,以反映学生在句子表意层面的表达能力,进而可有效评价整篇作文的整体质量和学生的写作能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种多维度英语作文评分方法的流程示意图;
图2为本申请实施例提供的一种多维度英语作文评分装置的结构示意图;
图3为本申请实施例提供的一种多维度英语作文评分设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种多维度英语作文评分方法、装置及可读存储介质,其能解决相关技术中存在的样本量大、成本高以及无法有效评价整篇作文的整体质量和学生的写作能力的问题。
图1是本申请实施例提供的一种多维度英语作文评分方法的流程示意图,包括以下步骤:
步骤S10:获取待评分作文;
示范性的,在本申请实施例中,由于OCR(Optical Character Recognition,光学字符识别)技术可以将图片、照片上的文字内容直接转换为可编辑文本,因此,可通过OCR识别技术对待评分作文(待评分作文可以为英语、汉语或其他国家的语言,根据具体情况而定,在此不作限定)图片进行文本内容的识别,以供后面进行作文整体质量的分析。
步骤S20:基于句子特征对所述待评分作文的优秀度进行评分,得到优秀度分数;
具体的,步骤S20包括:
创建优秀度评分模型,所述优秀度评分模型包括错误打分子模型、词汇打分子模型、语法打分子模型、词性打分子模型和句型打分子模型;
基于所述优秀度评分模型对待评分作文中的每个句子进行优秀度打分,得到每个句子的优秀度子分数;
基于待评分作文中每个句子的优秀度子分数计算待评分作文的优秀度分数。
其中,所述基于所述优秀度评分模型对待评分作文中的每个句子进行优秀度打分,得到每个句子的优秀度子分数,包括以下步骤:
基于错误打分子模型对待评分作文中的每个句子的拼写错误和语法错误进行分析,得到每个句子的错误个数,根据所述错误个数计算每个句子的错误得分;
示范性的,在本申请实施例中,错误打分子模型可实现拼写纠错和语法纠错的功能;具体的,语法纠错可通过使用RoBERTa预训练模型或XLNet预训练模型或者两个预训练模型结合来实现,其中需要改变预训练模型的下游任务生成式任务,即为预训练模型添加标签预测任务,并定义不同的修改类型标签;标签类型包含KEEP、REPLACE_*、APPEND_*等,*号表示某个词或者某种方式,例如,KEEP表示保持当前词,REPLACE_*表示替换当前词为某词,APPEND表示在当前词后追加某词等,这里仅列出具有代表性的标签,定义的类型标签根据实际需求而定,可能会达到上千个。标签基于原始文本中的单个token(词),对于每个输入文本,错误打分子模型会输出每个token的标签,从而根据标签确定每个token的语法是否正确,并对错误的个数进行统计;而在拼写纠错上,错误打分子模型可基于编辑距离来判断某一单词是否存在错误,并对错误的个数进行统计;再根据上述两个部分的错误统计来确定每个句子的错误个数,然后使用:错误得分=max(X-错误个数,0)来得到每个句子的错误得分,其中,X代表每个句子最多能错误的个数,可以将X设为2或3或其他数值,具体数值根据实际评分需求确定,在此不作限定。
基于词汇打分子模型对所述每个句子中的每个单词进行等级分析,得到所述每个单词的等级,对处于每个等级的单词个数进行统计,根据统计结果计算每个句子的词汇得分;
示范性的,在本申请实施例中,在词汇打分子模型中首先会将英语词汇的等级分为小学、初中、高中、大学、大学以上等五个档次(当然也可根据具体评分需求来确定档次的划分,或基于其他分类标准进行划分,在此不作限定),并构建词汇和学段的对应关系,以(key:词汇,value:学段)为基本对应关系构建字典来存储映射词汇和学段的关系,然后对每个句子中使用的词汇在这几个学段中的占比来表示句子中词汇的分布;并且在词汇分布评分过程中,使用高中、大学、大学以上等级词汇使用比例作为判断依据,当该比例为0时,词汇得分为0;当该比例在(0,0.25)之间时,词汇得分为1;当该比例在[0.25,1]时,词汇得分为2;需要说明的是,以上比例的设置和判断可根据具体评分需求确定,在此不作限定。
基于语法打分子模型对所述每个句子进行复杂度分析,根据复杂度分析结果计算所述每个句子的语法得分;
示范性的,在本申请实施例中,语法打分子模型可基于NLP(Natural LanguageProcessing,自然语言处理)解析包分析获取句子的分析树的深度,进而进行语法复杂度的评分,比如当树深小于2时,语法得分为0;当树深大于或等于2且小于4时,语法得分为1;当树深大于或等于4时,语法得分为2。需要说明的是,以上语法评分的判断阈值可根据具体评分需求确定,在此不作限定。
基于词性打分子模型对所述每个句子中的单词进行词性分析,得到所述每个单词的词性,对每个句子中的全部单词的词性进行分类,得到词性类别数,根据所述词性类别数计算每个句子的词性得分;
示范性的,在本申请实施例中,词性打分子模型词性多样性评分,可基于NLTK(Natural Language Toolkit,自然语言处理工具包)包解析句子中每个单词的词性,统计每个句子中不同类型词性的个数,从而对词性多样性进行评分。比如:当词性类别数小于3时,词性得分为0;当词性类别数在[3,6)之间时,词性得分为1;当词性类别数在6及以上时,词性得分为2。需要说明的是,以上词性评分的判断阈值可根据具体评分需求确定,在此不作限定。
基于句型打分子模型对所述每个句子的句型和短语搭配进行分析,根据分析结果计算所述每个句子的句型得分;
示范性的,在本申请实施例中,在句型打分子模型会构建句型库及短语固定搭配库,并使用句型库及短语固定搭配库中每个句型和固定短语搭配确定每个句子中使用了哪些句型和短语搭配,并统计使用个数,从而对句型进行评分。比如,使用个数小于2时,句型得分为0,使用个数为[2,4)之间时,句型得分为1,使用个数为4及以上,句型得分为2。需要说明的是,以上句型评分的判断阈值可根据具体评分需求确定,在此不作限定。
根据所述错误得分、所述词汇得分、所述语法得分、所述词性得分和所述句型得分计算得到每个句子的优秀度子分数。
示范性的,在本申请实施例中,对于单个句子,通过以上5个维度进行评分,即把错误得分、词汇得分、语法得分、词性得分和句型得分相加得到总分,该总分即为单个句子的优秀度子得分,该分值为0-10之间,当然也可具体评分需求对每个得分进行调整,在此不作限定。最后将所有句子的优秀度子得分进行相加并求平均值,该平均值作为待评分作文的优秀度得分,进而可以更好的对英语作文的句子层面进行打分。
步骤S30:基于连接词特征对所述待评分作文的流畅度进行评分,得到流畅度分数;
具体的,步骤S30包括:创建流畅度评分模型;基于AC自动机获取待评分作文中的全部连接词;基于所述流畅度评分模型检测每个连接词能否正确衔接所述连接词的上文与下文,并统计能正确衔接所述连接词的上文与下文的连接词数量,根据统计结果计算所述待评分作文的流畅度分数。
示范性的,在本申请实施例中,通过流畅度评分模型统计连接词个数,给定基础分。比如,不同的连接词的个数达到大于或等于5,基础分为3;当不同的连接词的个数为3或4时,基础分为2;当不同的连接词的个数为1或2时,基础分为1;当连接词个数为0时,此时流畅度得分直接为0分。
然后通过流畅度评分模型获取连接词正确使用的个数占比,当连接词个数不为0时,使用计算方式为:
流畅度得分=基础分×(正确使用连接词个数/总的连接词个数)
下面对正确使用连接词个数的判断过程进行说明,本申请提出了一种连接词是否使用恰当的判定方法,首先,需构建表1所示的连接词表,该表中包含了每个原始连接词对应的比较连接词,比如,原始连接词为“and”,其对应的比较连接词包括“but”和“so”,该比较连接词的数目可根据实际情况确定;该表根据实际英文文本使用场景构建,目的是在尽量少的词的计算中判断当前连接词的使用是否恰当,具体的判断可基于连接词表使用类完型填空的做法实现:挑选部分比较连接词和当前的原始连接词分别填入原句子,然后分别通过预训练语言模型计算合理性的概率值。
表1连接词表
原始连接词 | 比较连接词 |
and | But,so |
allinall | afterall |
also | either,neither |
although | Though,evenif |
... | ... |
具体的,使用字典来存放该连接词表,对于单篇文本输入,使用AC自动机,结合使用最长连接词匹配的方式找到文本中所有连接词及词组,对于每个连接词,将相关的上下文文本切分出来,然后使用mask替代原始连接词的位置,并结合当前语境,使用流畅度评分模型中的bert预训练模型逐一将原始连接词和比较连接词填入到mask位置,计算出填入词的概率值,并设置比较连接词替换原始连接词的概率比值的阈值为m倍,当比较连接词的填入概率比原始连接词的填入概率大m倍时,说明原始连接词使用恰当,可正确衔接上文与下文,进而说明原始连接词所在位置的文章流畅度较好,然后统计可正确衔接上下文的原始连接词的个数。通过对连接词正确使用与否可判断学生在连接词使用上的熟练程度,对文章衔接的掌控,并根据连接词使用的数量及正确比例也可反映学生在文章流畅度维度上的写作能力。
步骤S40:基于范文对所述待评分作文的内容相关性进行评分,得到内容相关性分数;
具体的,步骤S40包括:创建内容相关性评分模型,所述内容相关性评分模型中包含了多篇范文;将所述待评分作文导入所述内容相关性评分模型,得到待评分作文关于高分作文的关联矩阵;基于所述关联矩阵计算所述待评分作文的内容相关性分数。
示范性的,在本申请实施例中,对于同一个作文题目要求的作文,内容相关性评分模型基于n篇高分范文(也可以是高分作文)的方式对待评分作文进行内容相关性评分,具体计算过程如下:
通过单场考试高分范文提取到同一个作文题目要求的作文的共性信息,以1篇范文为例:
输入:高分范文A、待评分作文X。
输出:待评分作文X关于高分范文A的内容相关性评分。
高分范文A含有的句子数用da表示,待评分作文X的句子数用dx表示,则高分范文A分句之后可表示为X分句之后的表示为/>对分句之后的高分范文A和待评分作文X计算相关性矩阵,其中,sentence_level_similarity为按句子粒度计算两篇文本的相关性矩阵,sim(ai,xj)表示句子ai和xj之间的相似度值,i∈[1,da],j∈[1,dx]。
其中,句子相似度计算方式具体可以为:使用大规模语料库通过word2vec模型训练出词向量,然后将文本进行分词操作,并找出每个词对应的词向量,最后对文本的所有词的词向量进行求和(也可以根据词性或规则进行加权求和)操作,获得该文本的句子向量。对两个文本句子向量进行余弦距离度量,最终获得其相似性值,相似性值的范围为[0,1]。通过以下公式表示两篇文本的相关性矩阵的计算过程。
基于上述相关性矩阵,采用贪心法获取任一i∈[1,da],待评分作文X对于高分范文A的句子i的得分,取第i行相似性值的最大值作为X相对句子ai的得分score(X,ai),同样的,对于任一j∈[1,dx],高分范文A相对与X的句子j的得分,取第j列相似性值的最大值作为高分范文A相对于xj的得分score(A,xj),进而可以求得两篇作文的平均值和/>最后使用二者的调和平均来表示A和X的内容相关性:
进一步,将此种方式扩展到n篇,以保证文章相关性特征矩阵泛化性更强,以n篇高分范文为例:
输入:高分范文A1、A2、...、An高分范文,待评分作文X。
输出:待评分作文X关于n篇高分范文的内容相关性评分。
这n篇作文的句子数分别用表示。
对于待评分作为X而言,任意h∈[1,n],可以通过以下公式计算出待评分作文X和与高分范文Ah之间的相关性评分,用score*(X,Ah),则对于这n篇高分范文,分别求得待评分作文X与各篇高分范文的相关性评分,并取平均值表示待评分作文X关于这n篇高分范文的内容相关性:最后,通过划分阈值的方式对内容相关性进行评分,假设内容相关性评分的总分为Total,并设置满分需要达到的final_sim阈值为threshold(假设threshold取0.8或根据具体需求而定),则可以使用以下公式计算待评分作文的内容相关性分数:
由于本申请构建的内容相关性矩阵是从句子级别统计待评分作文中句子的内容相关性程度,可以反映出每个句子在内容上的相关性占比,通过句子作为作文基本语义的表征,进而反映学生在句子表意层面的表达能力,因此根据上述计算得到的内容相关性能更好的反映出待评分作文和高分范文之间的关联性,从内容上反映文章的扣题程度,相比原始的要点覆盖方式,可以反映出单个句子与文章所有句子的关联性的具体比例,更好的捕捉单个句子相对整篇文章的关联性。
步骤S50:基于预设的权重系数对所述优秀度分数、所述流畅度分数和所述内容相关性分数进行加权求和,得到待评分作文的总分数。
示范性的,在本申请实施例中,基于步骤S20至步骤S40计算得到的优秀度分数、流畅度分数和内容相关性分数分别记为score1,score2,score3,并将步骤S20至步骤S40对应的基础总分分别设为base1,base2,base3,且可根据实际评分需求调整各个维度的比例进行分数计算的权重调整,设优秀度、流畅度和内容相关性的比例分别为a、b、c,且三者需满足:a+b+c=1;a,b,c∈[0,1];假设每个维度的满分为SCORE(每个维度的SCORE可以均设为100,也可以根据不同维度的重要性设置不同的值),则可以使用以下公式计算得到待评分作文的总分数:
本申请通过句子特征、连接词特征和范文对作文进行优秀度、流畅度以及内容相关性等多维度评价分析,无需基于大量的人工标签进行分数学习,基于规则判定即可实现作文的评分,不需要大量样本,有效降低了成本;且通过连接词特征可判断学生对文章衔接的掌控能力,以及通过内容相关性上能更好的反映出待评分作文和范文之间的关联性,以反映学生在句子表意层面的表达能力,进而可有效评价整篇作文的整体质量和学生的写作能力。
参见图2所示,本申请实施例还提供了一种多维度英语作文评分装置,包括:
获取单元,其用于获取待评分作文;
第一评分单元,其用于基于句子特征对所述待评分作文的优秀度进行评分,得到优秀度分数;
第二评分单元,其用于基于连接词特征对所述待评分作文的流畅度进行评分,得到流畅度分数;
第三评分单元,其用于基于范文对所述待评分作文的内容相关性进行评分,得到内容相关性分数;
总分计算单元,其用于基于预设的权重系数对所述优秀度分数、所述流畅度分数和所述内容相关性分数进行加权求和,得到待评分作文的总分数。
本申请通过句子特征、连接词特征和范文对作文进行优秀度、流畅度以及内容相关性等多维度评价分析,无需基于大量的人工标签进行分数学习,基于规则判定即可实现作文的评分,不需要大量样本,有效降低了成本;且通过连接词特征可判断学生对文章衔接的掌控能力,以及通过内容相关性上能更好的反映出待评分作文和范文之间的关联性,以反映学生在句子表意层面的表达能力,进而可有效评价整篇作文的整体质量和学生的写作能力。
更进一步的,在本申请实施例中,所述第一评分单元具体用于:
创建优秀度评分模型,所述优秀度评分模型包括错误打分子模型、词汇打分子模型、语法打分子模型、词性打分子模型和句型打分子模型;
基于所述优秀度评分模型对待评分作文中的每个句子进行优秀度打分,得到每个句子的优秀度子分数;
具体的:基于错误打分子模型对待评分作文中的每个句子的拼写错误和语法错误进行分析,得到每个句子的错误个数,根据所述错误个数计算每个句子的错误得分;基于词汇打分子模型对所述每个句子中的每个单词进行等级分析,得到所述每个单词的等级,对处于每个等级的单词个数进行统计,根据统计结果计算每个句子的词汇得分;基于语法打分子模型对所述每个句子进行复杂度分析,根据复杂度分析结果计算所述每个句子的语法得分;基于词性打分子模型对所述每个句子中的单词进行词性分析,得到所述每个单词的词性,对每个句子中的全部单词的词性进行分类,得到词性类别数,根据所述词性类别数计算每个句子的词性得分;基于句型打分子模型对所述每个句子的句型和短语搭配进行分析,根据分析结果计算所述每个句子的句型得分;根据所述错误得分、所述词汇得分、所述语法得分、所述词性得分和所述句型得分计算得到每个句子的优秀度子分数;
基于待评分作文中每个句子的优秀度子分数计算待评分作文的优秀度分数。
更进一步的,在本申请实施例中,所述第二评分单元具体用于:
创建流畅度评分模型;
基于AC自动机获取待评分作文中的全部连接词;
基于所述流畅度评分模型检测每个连接词能否正确衔接所述连接词的上文与下文,并统计能正确衔接所述连接词的上文与下文的连接词数量,根据统计结果计算所述待评分作文的流畅度分数。
更进一步的,在本申请实施例中,所述第三评分单元具体用于:
创建内容相关性评分模型,所述内容相关性评分模型中包含了多篇范文;
将所述待评分作文导入所述内容相关性评分模型,得到待评分作文关于高分作文的关联矩阵;
基于所述关联矩阵计算所述待评分作文的内容相关性分数。
需要说明的是,所属本领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各单元的具体工作过程,可以参考前述多维度英语作文评分方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图3所示的多维度英语作文评分设备上运行。
本申请实施例还提供了一种多维度英语作文评分设备,包括:通过***总线连接的存储器、处理器和网络接口,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行,以实现前述的多维度英语作文评分方法的全部步骤或部分步骤。
其中,网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
处理器可以是CPU,还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器,或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外,存储器可以包括高速随存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。
本申请施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现前述的多维度英语作文评分方法的全部步骤或部分步骤。
本申请实施例实现前述的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的仼何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Onlymemory,ROM)、随机存取存储器(RandomAccessmemory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、服务器或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种多维度英语作文评分方法,其特征在于,包括以下步骤:
获取待评分作文;
基于句子特征对所述待评分作文的优秀度进行评分,得到优秀度分数;
基于连接词特征对所述待评分作文的流畅度进行评分,得到流畅度分数;
基于范文对所述待评分作文的内容相关性进行评分,得到内容相关性分数;
基于预设的权重系数对所述优秀度分数、所述流畅度分数和所述内容相关性分数进行加权求和,得到待评分作文的总分数;
其中,所述基于句子特征对所述待评分作文的优秀度进行评分,得到优秀度分数,包括:
创建优秀度评分模型,所述优秀度评分模型包括错误打分子模型、词汇打分子模型、语法打分子模型、词性打分子模型和句型打分子模型;
基于所述优秀度评分模型对待评分作文中的每个句子进行优秀度打分,得到每个句子的优秀度子分数;
基于待评分作文中每个句子的优秀度子分数计算待评分作文的优秀度分数;
所述基于所述优秀度评分模型对待评分作文中的每个句子进行优秀度打分,得到每个句子的优秀度子分数,包括:
基于错误打分子模型对待评分作文中的每个句子的拼写错误和语法错误进行分析,得到每个句子的错误个数,根据所述错误个数计算每个句子的错误得分;
基于词汇打分子模型对所述每个句子中的每个单词进行等级分析,得到所述每个单词的等级,对处于每个等级的单词个数进行统计,根据统计结果计算每个句子的词汇得分;
基于语法打分子模型对所述每个句子进行复杂度分析,根据复杂度分析结果计算所述每个句子的语法得分;
基于词性打分子模型对所述每个句子中的单词进行词性分析,得到所述每个单词的词性,对每个句子中的全部单词的词性进行分类,得到词性类别数,根据所述词性类别数计算每个句子的词性得分;
基于句型打分子模型对所述每个句子的句型和短语搭配进行分析,根据分析结果计算所述每个句子的句型得分;
根据所述错误得分、所述词汇得分、所述语法得分、所述词性得分和所述句型得分计算得到每个句子的优秀度子分数。
2.如权利要求1所述的多维度英语作文评分方法,其特征在于,所述基于连接词特征对所述待评分作文的流畅度进行评分,得到流畅度分数,包括:
创建流畅度评分模型;
基于AC自动机获取待评分作文中的全部连接词;
基于所述流畅度评分模型检测每个连接词能否正确衔接所述连接词的上文与下文,并统计能正确衔接所述连接词的上文与下文的连接词数量,根据统计结果计算所述待评分作文的流畅度分数。
3.如权利要求1所述的多维度英语作文评分方法,其特征在于,所述基于范文对所述待评分作文的内容相关性进行评分,得到内容相关性分数,包括:
创建内容相关性评分模型,所述内容相关性评分模型中包含了多篇范文;
将所述待评分作文导入所述内容相关性评分模型,得到待评分作文关于高分作文的关联矩阵;
基于所述关联矩阵计算所述待评分作文的内容相关性分数。
4.一种多维度英语作文评分装置,其特征在于,包括:
获取单元,其用于获取待评分作文;
第一评分单元,其用于基于句子特征对所述待评分作文的优秀度进行评分,得到优秀度分数;
第二评分单元,其用于基于连接词特征对所述待评分作文的流畅度进行评分,得到流畅度分数;
第三评分单元,其用于基于范文对所述待评分作文的内容相关性进行评分,得到内容相关性分数;
总分计算单元,其用于基于预设的权重系数对所述优秀度分数、所述流畅度分数和所述内容相关性分数进行加权求和,得到待评分作文的总分数;
其中,所述第一评分单元具体用于:
创建优秀度评分模型,所述优秀度评分模型包括错误打分子模型、词汇打分子模型、语法打分子模型、词性打分子模型和句型打分子模型;
基于所述优秀度评分模型对待评分作文中的每个句子进行优秀度打分,得到每个句子的优秀度子分数;
基于待评分作文中每个句子的优秀度子分数计算待评分作文的优秀度分数;
所述基于所述优秀度评分模型对待评分作文中的每个句子进行优秀度打分,得到每个句子的优秀度子分数,包括:
基于错误打分子模型对待评分作文中的每个句子的拼写错误和语法错误进行分析,得到每个句子的错误个数,根据所述错误个数计算每个句子的错误得分;
基于词汇打分子模型对所述每个句子中的每个单词进行等级分析,得到所述每个单词的等级,对处于每个等级的单词个数进行统计,根据统计结果计算每个句子的词汇得分;
基于语法打分子模型对所述每个句子进行复杂度分析,根据复杂度分析结果计算所述每个句子的语法得分;
基于词性打分子模型对所述每个句子中的单词进行词性分析,得到所述每个单词的词性,对每个句子中的全部单词的词性进行分类,得到词性类别数,根据所述词性类别数计算每个句子的词性得分;
基于句型打分子模型对所述每个句子的句型和短语搭配进行分析,根据分析结果计算所述每个句子的句型得分;
根据所述错误得分、所述词汇得分、所述语法得分、所述词性得分和所述句型得分计算得到每个句子的优秀度子分数。
5.如权利要求4所述的多维度英语作文评分装置,其特征在于,所述第二评分单元具体用于:
创建流畅度评分模型;
基于AC自动机获取待评分作文中的全部连接词;
基于所述流畅度评分模型检测每个连接词能否正确衔接所述连接词的上文与下文,并统计能正确衔接所述连接词的上文与下文的连接词数量,根据统计结果计算所述待评分作文的流畅度分数。
6.如权利要求4所述的多维度英语作文评分装置,其特征在于,所述第三评分单元具体用于:
创建内容相关性评分模型,所述内容相关性评分模型中包含了多篇范文;
将所述待评分作文导入所述内容相关性评分模型,得到待评分作文关于高分作文的关联矩阵;
基于所述关联矩阵计算所述待评分作文的内容相关性分数。
7.一种计算机可读存储介质,其特征在于:所述计算机存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1至3中任一项所述的多维度英语作文评分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111131334.9A CN113836894B (zh) | 2021-09-26 | 2021-09-26 | 多维度英语作文评分方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111131334.9A CN113836894B (zh) | 2021-09-26 | 2021-09-26 | 多维度英语作文评分方法、装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836894A CN113836894A (zh) | 2021-12-24 |
CN113836894B true CN113836894B (zh) | 2023-08-15 |
Family
ID=78970201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111131334.9A Active CN113836894B (zh) | 2021-09-26 | 2021-09-26 | 多维度英语作文评分方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836894B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417001B (zh) * | 2022-03-29 | 2022-07-01 | 山东大学 | 基于多模态模式的中文写作智能分析方法、***及介质 |
US11741302B1 (en) | 2022-05-18 | 2023-08-29 | Microsoft Technology Licensing, Llc | Automated artificial intelligence driven readability scoring techniques |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1700200A (zh) * | 2005-05-30 | 2005-11-23 | 梁茂成 | 英语作文自动评分*** |
KR20070030734A (ko) * | 2003-11-28 | 2007-03-16 | 코토바노모리 인코포레이션 | 작문 소논문의 평가 채점 장치 |
CN102779220A (zh) * | 2011-05-10 | 2012-11-14 | 李德霞 | 英语试卷打分*** |
KR20140060379A (ko) * | 2012-10-25 | 2014-05-20 | 에스케이텔레콤 주식회사 | 문장타입 분류에 의한 작문 평가 장치 및 방법 |
CN107133211A (zh) * | 2017-04-26 | 2017-09-05 | 中国人民大学 | 一种基于注意力机制的作文评分方法 |
CN108519974A (zh) * | 2018-03-31 | 2018-09-11 | 华南理工大学 | 英语作文语法错误自动检测与分析方法 |
CN108595410A (zh) * | 2018-03-19 | 2018-09-28 | 小船出海教育科技(北京)有限公司 | 手写作文的自动批改方法及装置 |
CN110705306A (zh) * | 2019-08-29 | 2020-01-17 | 首都师范大学 | 一种作文文题一致性的测评方法 |
CN111104789A (zh) * | 2019-11-22 | 2020-05-05 | 华中师范大学 | 文本评分方法、装置和*** |
CN111737968A (zh) * | 2019-03-20 | 2020-10-02 | 小船出海教育科技(北京)有限公司 | 一种作文自动批改及评分的方法及终端 |
CN111832281A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 作文评分方法、装置、计算机设备及计算机可读存储介质 |
CN111914532A (zh) * | 2020-09-14 | 2020-11-10 | 北京阅神智能科技有限公司 | 一种中文作文评分方法 |
CN113435179A (zh) * | 2021-06-24 | 2021-09-24 | 科大讯飞股份有限公司 | 一种作文评阅方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005045786A1 (en) * | 2003-10-27 | 2005-05-19 | Educational Testing Service | Automatic essay scoring system |
-
2021
- 2021-09-26 CN CN202111131334.9A patent/CN113836894B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070030734A (ko) * | 2003-11-28 | 2007-03-16 | 코토바노모리 인코포레이션 | 작문 소논문의 평가 채점 장치 |
CN1700200A (zh) * | 2005-05-30 | 2005-11-23 | 梁茂成 | 英语作文自动评分*** |
CN102779220A (zh) * | 2011-05-10 | 2012-11-14 | 李德霞 | 英语试卷打分*** |
KR20140060379A (ko) * | 2012-10-25 | 2014-05-20 | 에스케이텔레콤 주식회사 | 문장타입 분류에 의한 작문 평가 장치 및 방법 |
CN107133211A (zh) * | 2017-04-26 | 2017-09-05 | 中国人民大学 | 一种基于注意力机制的作文评分方法 |
CN108595410A (zh) * | 2018-03-19 | 2018-09-28 | 小船出海教育科技(北京)有限公司 | 手写作文的自动批改方法及装置 |
CN108519974A (zh) * | 2018-03-31 | 2018-09-11 | 华南理工大学 | 英语作文语法错误自动检测与分析方法 |
CN111737968A (zh) * | 2019-03-20 | 2020-10-02 | 小船出海教育科技(北京)有限公司 | 一种作文自动批改及评分的方法及终端 |
CN110705306A (zh) * | 2019-08-29 | 2020-01-17 | 首都师范大学 | 一种作文文题一致性的测评方法 |
CN111104789A (zh) * | 2019-11-22 | 2020-05-05 | 华中师范大学 | 文本评分方法、装置和*** |
CN111832281A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 作文评分方法、装置、计算机设备及计算机可读存储介质 |
CN111914532A (zh) * | 2020-09-14 | 2020-11-10 | 北京阅神智能科技有限公司 | 一种中文作文评分方法 |
CN113435179A (zh) * | 2021-06-24 | 2021-09-24 | 科大讯飞股份有限公司 | 一种作文评阅方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
英语写作自动评改功能探究;黄勇;《计算机应用技术》(第第04期期);314-318 * |
Also Published As
Publication number | Publication date |
---|---|
CN113836894A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11409964B2 (en) | Method, apparatus, device and storage medium for evaluating quality of answer | |
CN112487139B (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN113836894B (zh) | 多维度英语作文评分方法、装置及可读存储介质 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN114913729B (zh) | 一种选题方法、装置、计算机设备和存储介质 | |
CN108090098B (zh) | 一种文本处理方法及装置 | |
CN109376355B (zh) | 英文单词和语句筛选方法、装置、存储介质及电子设备 | |
CN114218379B (zh) | 一种面向智能问答***的无法回答问题的归因方法 | |
CN111737961B (zh) | 一种故事生成的方法、装置、计算机设备和介质 | |
CN111832281A (zh) | 作文评分方法、装置、计算机设备及计算机可读存储介质 | |
CN108280065A (zh) | 一种外文文本评价方法及装置 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN113742461A (zh) | 对话***测试方法和装置、语句改写方法 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN110223206B (zh) | 课文专业方向确定方法及***和解析课件匹配方法及*** | |
CN111967255A (zh) | 一种基于互联网的语言自动组卷评测方法和存储介质 | |
CN112560431A (zh) | 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品 | |
Chen et al. | Assessing readability of Thai text using support vector machines | |
CN110751867A (zh) | 英文教学*** | |
CN112801829B (zh) | 试题预测网络模型的相关方法和装置 | |
CN114385894B (zh) | 一种基于词典的舆情监控方法及装置 | |
CN118378624A (zh) | 基于汉语分词特征分析的写作能力评估方法及装置 | |
Qin | Study of an Automatic Marking Algorithm for Subjective Questions in College English Exams Based on Deep Learning | |
Dmitrieva et al. | Assessment of the Text Content Quality of a Distance Technical Translation Course for Graduate Students | |
CN117454874A (zh) | 基于bert与不同体裁特征的英文文章自动打分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |