CN105183712A - 一种用于对英语作文进行打分的方法以及装置 - Google Patents
一种用于对英语作文进行打分的方法以及装置 Download PDFInfo
- Publication number
- CN105183712A CN105183712A CN201510536368.4A CN201510536368A CN105183712A CN 105183712 A CN105183712 A CN 105183712A CN 201510536368 A CN201510536368 A CN 201510536368A CN 105183712 A CN105183712 A CN 105183712A
- Authority
- CN
- China
- Prior art keywords
- sentence
- mark
- language model
- english composition
- giving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及自动打分领域,公开了一种用于对英语作文进行打分的方法以及装置。其中,所述方法包括:获取待打分英语作文,并分离出所述待打分英语作文中的句子;将所述待打分英语作文中的每个句子与预设的语言模型进行匹配,并计算所述每个句子与所述语言模型的匹配程度;以及根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。本发明通过引入语言模型,解决了作文语料中未出现题目或自拟题目的作文的打分问题。
Description
技术领域
本发明涉及自动打分领域,具体地,涉及一种用于对英语作文进行打分的方法以及装置。
背景技术
英语作文自动打分中,现有技术基本都是预先知道了作文题目,对限定了作文题目的作文进行自动打分。对限定了作文题目的作文进行自动打分主要是通过将该限定作文题目的作文与收集的语料中相同题目的模板作文进行比较,从局部的用词和全局的布局两方面进行考虑。这样的方法在限定作文题目的前提下,可以达到和人工打分基本一致的结果,例如批改网(www.pigai.com)。
然而,现有技术方法需要采集大量的给定题目的且处于不同层次的作文语料,消耗大量的人力和时间。此外,现有技术方法不能处理自拟题目的英语作文的自动打分问题。
发明内容
本发明的目的是提供一种用于对英语作文进行打分的方法以及装置。其中,所述方法通过引入语言模型,解决了作文语料中未出现题目或自拟题目的作文的打分问题。
为了实现上述目的,本发明提供一种用于对英语作文进行打分的方法。所述方法包括:获取待打分英语作文,并分离出所述待打分英语作文中的句子;将所述待打分英语作文中的每个句子与预设的语言模型进行匹配,并计算所述每个句子与所述语言模型的匹配程度;以及根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。
优选地,在获取待打分英语作文,并分离出所述待打分英语作文中的句子之前,所述方法还包括:采集文章语料;以及根据所采集的文章语料对隐马尔科夫模型进行训练,以获得预设的语言模型。
优选地,根据所采集的文章语料使用机器学习的训练方式通过循环神经网络的训练架构对隐马尔科夫模型进行训练,以获得预设的语言模型。
优选地,所述匹配程度通过句子在所述语言模型中出现的概率进行表征,根据以下的公式计算句子在所述语言模型中出现的概率:
P(w1w2w3…wn)=P(w1)P(w1|w2)P(w2|w3)…P(wn-1|wn)
其中,P(w1w2w3…wn)为句子在所述语言模型中出现的概率,wn为句子的第n个单词,P(w1)为句子的第一个单词在所述语言模型中出现的概率,P(wn-1|wn)为句子的第n-1个单词和第n个单词所组成的单词对在所述语言模型中出现的概率。
优选地,根据所述句子与所述语言模型的匹配程度确定所述句子的分数,并根据所述句子的分数计算平均分,从而得到所述待打分英语作文的分数。
相应地,本发明还提供一种用于对英语作文进行打分的装置。所述装置包括:获取分离单元,用于获取待打分英语作文,并分离出所述待打分英语作文中的句子;模型匹配单元,用于将所述待打分英语作文中的每个句子与预设的语言模型进行匹配,并计算所述每个句子与所述语言模型的匹配程度;以及作文打分单元,用于根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。
优选地,所述装置还包括:模型构建单元,用于在所述获取分离单元获取待打分英语作文,并分离出所述待打分英语作文中的句子之前,采集文章语料,并根据所采集的文章语料对隐马尔科夫模型进行训练,以获得预设的语言模型。
优选地,所述模型构建单元根据所采集的文章语料使用机器学习的训练方式通过循环神经网络的训练架构对隐马尔科夫模型进行训练,以获得预设的语言模型。
优选地,所述匹配程度通过句子在所述语言模型中出现的概率进行表征,所述模型匹配单元根据以下的公式计算句子在所述语言模型中出现的概率:
P(w1w2w3…wn)=P(w1)P(w1|w2)P(w2|w3)…P(wn-1|wn)
其中,P(w1w2w3…wn)为句子在所述语言模型中出现的概率,wn为句子的第n个单词,P(w1)为句子的第一个单词在所述语言模型中出现的概率,P(wn-1|wn)为句子的第n-1个单词和第n个单词所组成的单词对在所述语言模型中出现的概率。
优选地,所述作文打分单元根据所述句子与所述语言模型的匹配程度确定所述句子的分数,并根据所述句子的分数计算平均分,从而得到所述待打分英语作文的分数。
通过上述技术方案,使用机器学习的训练方式对所采集的文章语料进行训练以得到语言模型,并将从待打分英语作文中分离的句子与语言模型进行匹配以及根据每个句子与语言模型的匹配程度对英语作文进行打分,解决了作文语料中未出现题目或自拟题目的作文的打分问题。
附图说明
图1是本发明提供的用于对英语作文进行打分的方法的流程图;以及
图2是本发明提供的用于对英语作文进行打分的装置的结构示意图。
附图标记说明
10获取分离单元20模型匹配单元
30作文打分单元40模型构建单元
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
在英语作文自动打分中,现有技术基本都是预先知道了作文题目,对限定了作文题目的作文进行自动打分。对限定了作文题目的作文进行自动打分主要是通过将该限定作文题目的作文与收集的语料中相同题目的模板作文进行比较,从局部的用词和全局的布局两方面进行考虑。然而,现有技术方法不能处理自拟题目的英语作文的自动打分问题。因此,本发明特提供一种用于对英语作文进行打分的方法。
为了解决现有技术中所存在的问题,本发明引入了语言模型的概念和方法。下面对语言模型进行详细地介绍:
英语作文是由一个个句子组成的,而句子是由一个个单词组成的。单词的组合方式(包括顺序和搭配)会影响句子的流畅度和优美度。用符号和公式表达如下,用w1w2w3…wn表示一个由n个单词组成的句子,这n个单词分别是w1,w2,w3,…,wn。这个句子出现的概率用P(w1w2w3…wn)表示,我们假定单词之间的出现关系具有隐马尔科夫模型(HiddenMarkovModel)特性,也即句子中一个单词wi的出现只和它紧邻的前一个单词wi-1的出现有关系,而和它前面以往的单词(wi-2wi-3…)的出现无关。那么这个句子出现的概率P(w1w2w3…wn)=P(w1)P(w1|w2)P(w2|w3)…P(wn-1|wn),说明了句子出现的概率和其中“单词对”出现的概率有关。
对于未出现作文题目或自拟作文题目的英语作文,预先是没有范文的,因此,通过和范文比较的打分方式在此行不通,而要直接对英语作文本身进行打分。图1是本发明提供的用于对英语作文进行打分的方法的流程图。如图1所示,本发明提供的用于对英语作文进行打分的方法包括:在步骤S101中,采集文章语料。具体地,采集优秀的文章语料。所述优秀的文章语料来自于中国日报和华尔街日报。一般来说,由优秀文章语料进行训练得到语言模型,所需语料文本的大小在2.5G以上。
在步骤S102中,根据所采集的文章语料对隐马尔科夫模型进行训练,以获得预设的语言模型。一般来说,根据所采集的文章语料使用机器学***滑处理。
在步骤S103中,获取待打分英语作文,并分离出所述待打分英语作文中的句子。
在步骤S104中,将所述待打分英语作文中的每个句子与预设的语言模型进行匹配,并计算所述每个句子与所述语言模型的匹配程度。所述匹配程度通过句子在所述语言模型中出现的概率进行表征。根据以下的公式计算句子在所述语言模型中出现的概率:P(w1w2w3…wn)=P(w1)P(w1|w2)P(w2|w3)…P(wn-1|wn),其中,P(w1w2w3…wn)为句子在所述语言模型中出现的概率,P(w1)为句子的第一个单词在所述语言模型中出现的概率,P(wn-1|wn)为句子的第n-1个单词和第n个单词所组成的单词对在所述语言模型中出现的概率。所述句子在所述语言模型中出现的概率越大,则所述句子与所述语言模型的匹配程度越大。相反地,所述句子在所述语言模型中出现的概率越小,则所述句子与所述语言模型的匹配程度越小。
在步骤S105中,根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。所述句子与所述语言模型的匹配程度越大,也即是所述句子在语料库中出现的可能性越大,也就是句子的表达方式更像语料库中的句子,而语料库都是采集的优秀文章,因此,与语言模型匹配程度越大的句子流畅度和优美度越好。相反地,与语言模型匹配程度越小的句子流畅度和优美度越差。根据所述句子的流畅度和优美度确定所述句子的分数,并根据所述句子的分数计算平均分。所得到的平均分就能够反映英语作文的整体水平,这样就完成了未出现题目或自拟题目的作文的自动打分。
相应地,本发明还提供一种用于对英语作文进行打分的装置。图2是本发明提供的用于对英语作文进行打分的装置的结构示意图。如图2所示,本发明提供的用于对英语作文进行打分的装置包括:获取分离单元10,用于获取待打分英语作文,并分离出所述待打分英语作文中的句子;模型匹配单元20,用于将所述待打分英语作文中的每个句子与预设的语言模型进行匹配,并计算所述每个句子与所述语言模型的匹配程度;以及作文打分单元30,用于根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。
在具体的实施方式中,所述装置还包括:模型构建单元40,用于在所述获取分离单元获取待打分英语作文,并分离出所述待打分英语作文中的句子之前,采集文章语料,并根据所采集的文章语料对隐马尔科夫模型进行训练,以获得预设的语言模型。具体地,所述模型构建单元40根据所采集的文章语料使用机器学习的训练方式通过循环神经网络的训练架构对隐马尔科夫模型进行训练,以获得预设的语言模型。
可选择地,所述匹配程度通过句子在所述语言模型中出现的概率进行表征,所述模型匹配单元20根据以下的公式计算句子在所述语言模型中出现的概率:
P(w1w2w3…wn)=P(w1)P(w1|w2)P(w2|w3)…P(wn-1|wn)
其中,P(w1w2w3…wn)为句子在所述语言模型中出现的概率,wn为句子的第n个单词,P(w1)为句子的第一个单词在所述语言模型中出现的概率,P(wn-1|wn)为句子的第n-1个单词和第n个单词所组成的单词对在所述语言模型中出现的概率。
在具体的应用中,所述作文打分单元30根据所述句子与所述语言模型的匹配程度确定所述句子的分数,并根据所述句子的分数计算平均分,从而得到所述待打分英语作文的分数。
需要说明的是,对于本发明提供的用于对英语作文进行打分的装置还可能涉及的细节,已在本发明提供的用于对英语作文进行打分的方法中做了详细的说明,此处不再赘述。
本发明使用机器学习的训练方式对所采集的文章语料进行训练以得到语言模型,并将从待打分英语作文中分离的句子与语言模型进行匹配以及根据每个句子与语言模型的匹配程度对英语作文进行打分,不仅可以直接对未出现题目或自拟题目的作文进行打分,而且还可以对英语作文中的句子表达的流畅度和优美度进行打分。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (10)
1.一种用于对英语作文进行打分的方法,其特征在于,所述方法包括:
获取待打分英语作文,并分离出所述待打分英语作文中的句子;
将所述待打分英语作文中的每个句子与预设的语言模型进行匹配,并计算所述每个句子与所述语言模型的匹配程度;以及
根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。
2.根据权利要求1所述的用于对英语作文进行打分的方法,其特征在于,在获取待打分英语作文,并分离出所述待打分英语作文中的句子之前,所述方法还包括:
采集文章语料;以及
根据所采集的文章语料对隐马尔科夫模型进行训练,以获得预设的语言模型。
3.根据权利要求2所述的用于对英语作文进行打分的方法,其特征在于,根据所采集的文章语料使用机器学习的训练方式通过循环神经网络的训练架构对隐马尔科夫模型进行训练,以获得预设的语言模型。
4.根据权利要求3所述的用于对英语作文进行打分的方法,其特征在于,所述匹配程度通过句子在所述语言模型中出现的概率进行表征,根据以下的公式计算句子在所述语言模型中出现的概率:
P(w1w2w3…wn)=P(w1)P(w1|w2)P(w2|w3)…P(wn-1|wn)
其中,P(w1w2w3…wn)为句子在所述语言模型中出现的概率,wn为句子的第n个单词,P(w1)为句子的第一个单词在所述语言模型中出现的概率,P(wn-1|wn)为句子的第n-1个单词和第n个单词所组成的单词对在所述语言模型中出现的概率。
5.根据权利要求4所述的用于对英语作文进行打分的方法,其特征在于,根据所述句子与所述语言模型的匹配程度确定所述句子的分数,并根据所述句子的分数计算平均分,从而得到所述待打分英语作文的分数。
6.一种用于对英语作文进行打分的装置,其特征在于,所述装置包括:
获取分离单元,用于获取待打分英语作文,并分离出所述待打分英语作文中的句子;
模型匹配单元,用于将所述待打分英语作文中的每个句子与预设的语言模型进行匹配,并计算所述每个句子与所述语言模型的匹配程度;以及
作文打分单元,用于根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。
7.根据权利要求6所述的用于对英语作文进行打分的装置,其特征在于,所述装置还包括:
模型构建单元,用于在所述获取分离单元获取待打分英语作文,并分离出所述待打分英语作文中的句子之前,采集文章语料,并根据所采集的文章语料对隐马尔科夫模型进行训练,以获得预设的语言模型。
8.根据权利要求7所述的用于对英语作文进行打分的装置,其特征在于,所述模型构建单元根据所采集的文章语料使用机器学习的训练方式通过循环神经网络的训练架构对隐马尔科夫模型进行训练,以获得预设的语言模型。
9.根据权利要求8所述的用于对英语作文进行打分的装置,其特征在于,所述匹配程度通过句子在所述语言模型中出现的概率进行表征,所述模型匹配单元根据以下的公式计算句子在所述语言模型中出现的概率:
P(w1w2w3…wn)=P(w1)P(w1|w2)P(w2|w3)…P(wn-1|wn)
其中,P(w1w2w3…wn)为句子在所述语言模型中出现的概率,wn为句子的第n个单词,P(w1)为句子的第一个单词在所述语言模型中出现的概率,P(wn-1|wn)为句子的第n-1个单词和第n个单词所组成的单词对在所述语言模型中出现的概率。
10.根据权利要求9所述的用于对英语作文进行打分的装置,其特征在于,所述作文打分单元根据所述句子与所述语言模型的匹配程度确定所述句子的分数,并根据所述句子的分数计算平均分,从而得到所述待打分英语作文的分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510536368.4A CN105183712A (zh) | 2015-08-27 | 2015-08-27 | 一种用于对英语作文进行打分的方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510536368.4A CN105183712A (zh) | 2015-08-27 | 2015-08-27 | 一种用于对英语作文进行打分的方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105183712A true CN105183712A (zh) | 2015-12-23 |
Family
ID=54905801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510536368.4A Pending CN105183712A (zh) | 2015-08-27 | 2015-08-27 | 一种用于对英语作文进行打分的方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105183712A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294726A (zh) * | 2016-08-09 | 2017-01-04 | 北京光年无限科技有限公司 | 基于机器人角色交互的处理方法及装置 |
CN107291694A (zh) * | 2017-06-27 | 2017-10-24 | 北京粉笔未来科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN107729936A (zh) * | 2017-10-12 | 2018-02-23 | 科大讯飞股份有限公司 | 一种改错题自动评阅方法及*** |
CN108319581A (zh) * | 2017-01-17 | 2018-07-24 | 科大讯飞股份有限公司 | 一种自然语言语句评价方法及装置 |
CN109285404A (zh) * | 2018-10-25 | 2019-01-29 | 安徽创见未来教育科技有限公司 | 一种英语作文自动评分*** |
CN110147542A (zh) * | 2019-05-23 | 2019-08-20 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN111797631A (zh) * | 2019-04-04 | 2020-10-20 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020142277A1 (en) * | 2001-01-23 | 2002-10-03 | Jill Burstein | Methods for automated essay analysis |
CN102693653A (zh) * | 2012-05-18 | 2012-09-26 | 苏州慧飞信息科技有限公司 | 作文评分*** |
CN102831558A (zh) * | 2012-07-20 | 2012-12-19 | 桂林电子科技大学 | 不依赖人工预评分的大学英语作文自动评分***及方法 |
CN103294660A (zh) * | 2012-02-29 | 2013-09-11 | 张跃 | 一种英语作文自动评分方法及*** |
-
2015
- 2015-08-27 CN CN201510536368.4A patent/CN105183712A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020142277A1 (en) * | 2001-01-23 | 2002-10-03 | Jill Burstein | Methods for automated essay analysis |
CN103294660A (zh) * | 2012-02-29 | 2013-09-11 | 张跃 | 一种英语作文自动评分方法及*** |
CN102693653A (zh) * | 2012-05-18 | 2012-09-26 | 苏州慧飞信息科技有限公司 | 作文评分*** |
CN102831558A (zh) * | 2012-07-20 | 2012-12-19 | 桂林电子科技大学 | 不依赖人工预评分的大学英语作文自动评分***及方法 |
Non-Patent Citations (1)
Title |
---|
VINCENTYAO: "语义分析的一些方法(一)", 《GOOGLE数据库》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294726A (zh) * | 2016-08-09 | 2017-01-04 | 北京光年无限科技有限公司 | 基于机器人角色交互的处理方法及装置 |
CN108319581A (zh) * | 2017-01-17 | 2018-07-24 | 科大讯飞股份有限公司 | 一种自然语言语句评价方法及装置 |
CN108319581B (zh) * | 2017-01-17 | 2021-10-08 | 科大讯飞股份有限公司 | 一种自然语言语句评价方法及装置 |
CN107291694A (zh) * | 2017-06-27 | 2017-10-24 | 北京粉笔未来科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN107291694B (zh) * | 2017-06-27 | 2021-04-13 | 北京猿力教育科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN107729936A (zh) * | 2017-10-12 | 2018-02-23 | 科大讯飞股份有限公司 | 一种改错题自动评阅方法及*** |
CN107729936B (zh) * | 2017-10-12 | 2020-12-08 | 科大讯飞股份有限公司 | 一种改错题自动评阅方法及*** |
CN109285404A (zh) * | 2018-10-25 | 2019-01-29 | 安徽创见未来教育科技有限公司 | 一种英语作文自动评分*** |
CN111797631A (zh) * | 2019-04-04 | 2020-10-20 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
CN110147542A (zh) * | 2019-05-23 | 2019-08-20 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105183712A (zh) | 一种用于对英语作文进行打分的方法以及装置 | |
Shei | Understanding the Chinese language: A comprehensive linguistic introduction | |
Durdureanu | Translation of cultural terms: possible or impossible | |
Behnam et al. | A genre analysis of English and Iranian research articles abstracts in applied linguistics and mathematics | |
Klingbeil | Yahweh Fighting from Heaven: God as Warrior and as God of Heaven in the Hebrew Psalter and Ancient Near Eastern Iconography | |
CN104331451A (zh) | 一种基于主题的网络用户评论的推荐度评分方法 | |
Svantesson et al. | Dictionary of Kammu Yùan language and culture | |
CN104090918B (zh) | 一种基于信息量的句子相似度计算方法 | |
Sharp et al. | Cognitive approach to natural language processing | |
CN103268314B (zh) | 一种获取泰文断句规则的方法及装置 | |
Howard | The development of verb morphology in the advanced learner variety: A longitudinal study of L2 French | |
Chen et al. | A Study of EFL Classroom Discourse from the Perspectives of both DA and CA | |
Liu | On the interactivity of stylistic analysis | |
CN106325540B (zh) | 一种滇东北次方言苗文的简笔输入法及其应用 | |
Shelke et al. | Communication aid for deaf and dumb people | |
Irigoyen Ciriza | Linguistic Ambiguity: Comparing Ambiguity in Standard Mandarin Chinese and Spanish | |
Proctor | Introducing Digital Accessibility: A Headnote to the Section. | |
Nelson | English Loanwords in Mandarin Chinese: Phonology vs. Semantics | |
Bowen | Parents and children together in phonological intervention | |
Kultsova et al. | Web-service for translation of pictogram messages into Russian coherent text | |
Alaghbary | A Feminist Counter-Reading of ‘Indian Women.’ | |
Fernández-Berkes et al. | Syntactic development evidenced via DLC | |
CN204204253U (zh) | 一种多形式成语教学教具 | |
Rapp | The Reverse Association Task | |
CN104978311B (zh) | 一种基于条件随机场的越南语分词方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20191206 |
|
AD01 | Patent right deemed abandoned |