CN105183712A

CN105183712A - 一种用于对英语作文进行打分的方法以及装置

Info

Publication number: CN105183712A
Application number: CN201510536368.4A
Authority: CN
Inventors: 唐聪; 宋文略; 杨晓昊; 许轶; 肖迪
Original assignee: Beijing Focusedu International Education Consultation Co Ltd
Current assignee: Beijing Focusedu International Education Consultation Co Ltd
Priority date: 2015-08-27
Filing date: 2015-08-27
Publication date: 2015-12-23

Abstract

本发明涉及自动打分领域，公开了一种用于对英语作文进行打分的方法以及装置。其中，所述方法包括：获取待打分英语作文，并分离出所述待打分英语作文中的句子；将所述待打分英语作文中的每个句子与预设的语言模型进行匹配，并计算所述每个句子与所述语言模型的匹配程度；以及根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。本发明通过引入语言模型，解决了作文语料中未出现题目或自拟题目的作文的打分问题。

Description

一种用于对英语作文进行打分的方法以及装置

技术领域

本发明涉及自动打分领域，具体地，涉及一种用于对英语作文进行打分的方法以及装置。

背景技术

英语作文自动打分中，现有技术基本都是预先知道了作文题目，对限定了作文题目的作文进行自动打分。对限定了作文题目的作文进行自动打分主要是通过将该限定作文题目的作文与收集的语料中相同题目的模板作文进行比较，从局部的用词和全局的布局两方面进行考虑。这样的方法在限定作文题目的前提下，可以达到和人工打分基本一致的结果，例如批改网(www.pigai.com)。

然而，现有技术方法需要采集大量的给定题目的且处于不同层次的作文语料，消耗大量的人力和时间。此外，现有技术方法不能处理自拟题目的英语作文的自动打分问题。

发明内容

本发明的目的是提供一种用于对英语作文进行打分的方法以及装置。其中，所述方法通过引入语言模型，解决了作文语料中未出现题目或自拟题目的作文的打分问题。

为了实现上述目的，本发明提供一种用于对英语作文进行打分的方法。所述方法包括：获取待打分英语作文，并分离出所述待打分英语作文中的句子；将所述待打分英语作文中的每个句子与预设的语言模型进行匹配，并计算所述每个句子与所述语言模型的匹配程度；以及根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。

优选地，在获取待打分英语作文，并分离出所述待打分英语作文中的句子之前，所述方法还包括：采集文章语料；以及根据所采集的文章语料对隐马尔科夫模型进行训练，以获得预设的语言模型。

优选地，根据所采集的文章语料使用机器学习的训练方式通过循环神经网络的训练架构对隐马尔科夫模型进行训练，以获得预设的语言模型。

优选地，所述匹配程度通过句子在所述语言模型中出现的概率进行表征，根据以下的公式计算句子在所述语言模型中出现的概率：

P(w₁w₂w₃…w_n)＝P(w₁)P(w₁|w₂)P(w₂|w₃)…P(w_n-1|w_n)

其中，P(w₁w₂w₃…w_n)为句子在所述语言模型中出现的概率，w_n为句子的第n个单词，P(w₁)为句子的第一个单词在所述语言模型中出现的概率，P(w_n-1|w_n)为句子的第n-1个单词和第n个单词所组成的单词对在所述语言模型中出现的概率。

优选地，根据所述句子与所述语言模型的匹配程度确定所述句子的分数，并根据所述句子的分数计算平均分，从而得到所述待打分英语作文的分数。

相应地，本发明还提供一种用于对英语作文进行打分的装置。所述装置包括：获取分离单元，用于获取待打分英语作文，并分离出所述待打分英语作文中的句子；模型匹配单元，用于将所述待打分英语作文中的每个句子与预设的语言模型进行匹配，并计算所述每个句子与所述语言模型的匹配程度；以及作文打分单元，用于根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。

优选地，所述装置还包括：模型构建单元，用于在所述获取分离单元获取待打分英语作文，并分离出所述待打分英语作文中的句子之前，采集文章语料，并根据所采集的文章语料对隐马尔科夫模型进行训练，以获得预设的语言模型。

优选地，所述模型构建单元根据所采集的文章语料使用机器学习的训练方式通过循环神经网络的训练架构对隐马尔科夫模型进行训练，以获得预设的语言模型。

优选地，所述匹配程度通过句子在所述语言模型中出现的概率进行表征，所述模型匹配单元根据以下的公式计算句子在所述语言模型中出现的概率：

P(w₁w₂w₃…w_n)＝P(w₁)P(w₁|w₂)P(w₂|w₃)…P(w_n-1|w_n)

优选地，所述作文打分单元根据所述句子与所述语言模型的匹配程度确定所述句子的分数，并根据所述句子的分数计算平均分，从而得到所述待打分英语作文的分数。

通过上述技术方案，使用机器学习的训练方式对所采集的文章语料进行训练以得到语言模型，并将从待打分英语作文中分离的句子与语言模型进行匹配以及根据每个句子与语言模型的匹配程度对英语作文进行打分，解决了作文语料中未出现题目或自拟题目的作文的打分问题。

附图说明

图1是本发明提供的用于对英语作文进行打分的方法的流程图；以及

图2是本发明提供的用于对英语作文进行打分的装置的结构示意图。

附图标记说明

10获取分离单元20模型匹配单元

30作文打分单元40模型构建单元

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

在英语作文自动打分中，现有技术基本都是预先知道了作文题目，对限定了作文题目的作文进行自动打分。对限定了作文题目的作文进行自动打分主要是通过将该限定作文题目的作文与收集的语料中相同题目的模板作文进行比较，从局部的用词和全局的布局两方面进行考虑。然而，现有技术方法不能处理自拟题目的英语作文的自动打分问题。因此，本发明特提供一种用于对英语作文进行打分的方法。

为了解决现有技术中所存在的问题，本发明引入了语言模型的概念和方法。下面对语言模型进行详细地介绍：

英语作文是由一个个句子组成的，而句子是由一个个单词组成的。单词的组合方式(包括顺序和搭配)会影响句子的流畅度和优美度。用符号和公式表达如下，用w₁w₂w₃…w_n表示一个由n个单词组成的句子，这n个单词分别是w₁,w₂,w₃,…,w_n。这个句子出现的概率用P(w₁w₂w₃…w_n)表示，我们假定单词之间的出现关系具有隐马尔科夫模型(HiddenMarkovModel)特性，也即句子中一个单词w_i的出现只和它紧邻的前一个单词w_i-1的出现有关系，而和它前面以往的单词(w_i-2w_i-3…)的出现无关。那么这个句子出现的概率P(w₁w₂w₃…w_n)＝P(w₁)P(w₁|w₂)P(w₂|w₃)…P(w_n-1|w_n)，说明了句子出现的概率和其中“单词对”出现的概率有关。

对于未出现作文题目或自拟作文题目的英语作文，预先是没有范文的，因此，通过和范文比较的打分方式在此行不通，而要直接对英语作文本身进行打分。图1是本发明提供的用于对英语作文进行打分的方法的流程图。如图1所示，本发明提供的用于对英语作文进行打分的方法包括：在步骤S101中，采集文章语料。具体地，采集优秀的文章语料。所述优秀的文章语料来自于中国日报和华尔街日报。一般来说，由优秀文章语料进行训练得到语言模型，所需语料文本的大小在2.5G以上。

在步骤S102中，根据所采集的文章语料对隐马尔科夫模型进行训练，以获得预设的语言模型。一般来说，根据所采集的文章语料使用机器学***滑处理。

在步骤S103中，获取待打分英语作文，并分离出所述待打分英语作文中的句子。

在步骤S104中，将所述待打分英语作文中的每个句子与预设的语言模型进行匹配，并计算所述每个句子与所述语言模型的匹配程度。所述匹配程度通过句子在所述语言模型中出现的概率进行表征。根据以下的公式计算句子在所述语言模型中出现的概率：P(w₁w₂w₃…w_n)＝P(w₁)P(w₁|w₂)P(w₂|w₃)…P(w_n-1|w_n)，其中，P(w₁w₂w₃…w_n)为句子在所述语言模型中出现的概率，P(w₁)为句子的第一个单词在所述语言模型中出现的概率，P(w_n-1|w_n)为句子的第n-1个单词和第n个单词所组成的单词对在所述语言模型中出现的概率。所述句子在所述语言模型中出现的概率越大，则所述句子与所述语言模型的匹配程度越大。相反地，所述句子在所述语言模型中出现的概率越小，则所述句子与所述语言模型的匹配程度越小。

在步骤S105中，根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。所述句子与所述语言模型的匹配程度越大，也即是所述句子在语料库中出现的可能性越大，也就是句子的表达方式更像语料库中的句子，而语料库都是采集的优秀文章，因此，与语言模型匹配程度越大的句子流畅度和优美度越好。相反地，与语言模型匹配程度越小的句子流畅度和优美度越差。根据所述句子的流畅度和优美度确定所述句子的分数，并根据所述句子的分数计算平均分。所得到的平均分就能够反映英语作文的整体水平，这样就完成了未出现题目或自拟题目的作文的自动打分。

相应地，本发明还提供一种用于对英语作文进行打分的装置。图2是本发明提供的用于对英语作文进行打分的装置的结构示意图。如图2所示，本发明提供的用于对英语作文进行打分的装置包括：获取分离单元10，用于获取待打分英语作文，并分离出所述待打分英语作文中的句子；模型匹配单元20，用于将所述待打分英语作文中的每个句子与预设的语言模型进行匹配，并计算所述每个句子与所述语言模型的匹配程度；以及作文打分单元30，用于根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。

在具体的实施方式中，所述装置还包括：模型构建单元40，用于在所述获取分离单元获取待打分英语作文，并分离出所述待打分英语作文中的句子之前，采集文章语料，并根据所采集的文章语料对隐马尔科夫模型进行训练，以获得预设的语言模型。具体地，所述模型构建单元40根据所采集的文章语料使用机器学习的训练方式通过循环神经网络的训练架构对隐马尔科夫模型进行训练，以获得预设的语言模型。

可选择地，所述匹配程度通过句子在所述语言模型中出现的概率进行表征，所述模型匹配单元20根据以下的公式计算句子在所述语言模型中出现的概率：

P(w₁w₂w₃…w_n)＝P(w₁)P(w₁|w₂)P(w₂|w₃)…P(w_n-1|w_n)

在具体的应用中，所述作文打分单元30根据所述句子与所述语言模型的匹配程度确定所述句子的分数，并根据所述句子的分数计算平均分，从而得到所述待打分英语作文的分数。

需要说明的是，对于本发明提供的用于对英语作文进行打分的装置还可能涉及的细节，已在本发明提供的用于对英语作文进行打分的方法中做了详细的说明，此处不再赘述。

本发明使用机器学习的训练方式对所采集的文章语料进行训练以得到语言模型，并将从待打分英语作文中分离的句子与语言模型进行匹配以及根据每个句子与语言模型的匹配程度对英语作文进行打分，不仅可以直接对未出现题目或自拟题目的作文进行打分，而且还可以对英语作文中的句子表达的流畅度和优美度进行打分。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种用于对英语作文进行打分的方法，其特征在于，所述方法包括：

获取待打分英语作文，并分离出所述待打分英语作文中的句子；

将所述待打分英语作文中的每个句子与预设的语言模型进行匹配，并计算所述每个句子与所述语言模型的匹配程度；以及

根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。

2.根据权利要求1所述的用于对英语作文进行打分的方法，其特征在于，在获取待打分英语作文，并分离出所述待打分英语作文中的句子之前，所述方法还包括：

采集文章语料；以及

根据所采集的文章语料对隐马尔科夫模型进行训练，以获得预设的语言模型。

3.根据权利要求2所述的用于对英语作文进行打分的方法，其特征在于，根据所采集的文章语料使用机器学习的训练方式通过循环神经网络的训练架构对隐马尔科夫模型进行训练，以获得预设的语言模型。

4.根据权利要求3所述的用于对英语作文进行打分的方法，其特征在于，所述匹配程度通过句子在所述语言模型中出现的概率进行表征，根据以下的公式计算句子在所述语言模型中出现的概率：

P(w₁w₂w₃…w_n)＝P(w₁)P(w₁|w₂)P(w₂|w₃)…P(w_n-1|w_n)

5.根据权利要求4所述的用于对英语作文进行打分的方法，其特征在于，根据所述句子与所述语言模型的匹配程度确定所述句子的分数，并根据所述句子的分数计算平均分，从而得到所述待打分英语作文的分数。

6.一种用于对英语作文进行打分的装置，其特征在于，所述装置包括：

获取分离单元，用于获取待打分英语作文，并分离出所述待打分英语作文中的句子；

模型匹配单元，用于将所述待打分英语作文中的每个句子与预设的语言模型进行匹配，并计算所述每个句子与所述语言模型的匹配程度；以及

作文打分单元，用于根据所述每个句子与所述语言模型的匹配程度对所述待打分英语作文进行打分。

7.根据权利要求6所述的用于对英语作文进行打分的装置，其特征在于，所述装置还包括：

模型构建单元，用于在所述获取分离单元获取待打分英语作文，并分离出所述待打分英语作文中的句子之前，采集文章语料，并根据所采集的文章语料对隐马尔科夫模型进行训练，以获得预设的语言模型。

8.根据权利要求7所述的用于对英语作文进行打分的装置，其特征在于，所述模型构建单元根据所采集的文章语料使用机器学习的训练方式通过循环神经网络的训练架构对隐马尔科夫模型进行训练，以获得预设的语言模型。

9.根据权利要求8所述的用于对英语作文进行打分的装置，其特征在于，所述匹配程度通过句子在所述语言模型中出现的概率进行表征，所述模型匹配单元根据以下的公式计算句子在所述语言模型中出现的概率：

P(w₁w₂w₃…w_n)＝P(w₁)P(w₁|w₂)P(w₂|w₃)…P(w_n-1|w_n)

10.根据权利要求9所述的用于对英语作文进行打分的装置，其特征在于，所述作文打分单元根据所述句子与所述语言模型的匹配程度确定所述句子的分数，并根据所述句子的分数计算平均分，从而得到所述待打分英语作文的分数。