CN107133211A

CN107133211A - 一种基于注意力机制的作文评分方法

Info

Publication number: CN107133211A
Application number: CN201710285190.XA
Authority: CN
Inventors: 赵鑫
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2017-09-05
Anticipated expiration: 2037-04-26
Also published as: CN107133211B

Abstract

本发明提供一种基于注意力机制的作文评分方法，所述方法包括，在作文评分***中采用单词—句子—文档三层结构的神经网络注意力框架，并使用人工抽取的特征在所述框架的句子和文档层进行融合，进而设置所述句子和文档层的注意力权重。本发明综合考虑语言的局部特性和全局特性，句子的完整程度、用词的准确性、词汇的多样性、语句的连贯性以及是否离题等因素对评分任务的影响，最大程度提升作文打分的效果。

Description

一种基于注意力机制的作文评分方法

技术领域

本发明涉及一种作文评分方法，特别是一种基于注意力机制多跳结构的作文评分方法。

背景技术

作文自动高评分AES(Automated Essay Scoring)相较于人工评分***具有更加客观，高效，低成本的优势。利用AES构建的作文评分***在美国已成功应用到GMAT、TOEFL、GRE等考试***当中，随着技术的进步，机器评分***逐渐成为一种趋势。传统的自动评分***依赖自然语言处理等机器学习技术，通过浅层文本语义特征对文本进行建模分析。然而，文本特征需要相关领域的专家手工设计，成本过高，并且浪费大量人力。随着近年来深度学习的发展，基于深度神经网络的技术在计算机视觉、文本、语音等领域不断突破瓶颈，取得了比传统模型更好的成果。

现有的利用深度学习技术对作文进行评分的方案主要采用循环神经网络和卷积神经网络想结合的方案，并取得了比基于纯人工特征更优的结果。在现有技术中，第一层神经网络结构采用了Word2Vec模型，对one-hot表示的单词进行低维向量表示。给定用one-hot表示的句子[w₁，w₂，...，w_M]，第一层输出由下面的公式(1)进行计算：

LT(W)＝(E.w₁，E.w₂，...，E.w_T) (1)

其中E是词向量转换矩阵，可在训练的时候被调整。得到第一层词表示的输出x₁，x₂，...，x_l之后，按照公式(2)通过一层卷积层抽取文本序列的局部特征。

W和b是神经网络的卷积层参数，是卷积窗口内所以单词拼接而成的向量表示。在卷积层之上的循环层将和得分有关的信息进行编码，由于一篇作文中的字数较多，为了克服由于循环层次过深而造成的梯度消失和梯度***现象，在循环结构中引入LSTM单元，分别由遗忘门、输入门、输出门、状态器，参照公式(3)-(8)组成，加强了模型对信息的遗忘和保留能力。公式(3)，公式(4)和公式(7)是输入们、遗忘门和输出的计算，由t时刻输入的单词和上一时刻的输出通过线性变换后得到。公式(5)得到t时刻的LSTM单元状态通过公式(6)的遗忘门以及输入门的控制得到实际状态。公式(8)将LSTM的状态通过输出门控制得到t时刻的输出。

i_t＝σ(W_i·x_t+U_i·h_t-1+b_i) (3)

f_t＝σ(W_f·x_t+U_f·h_t-1+b_f) (4)

o_t＝σ(W_o·x_t+U_o·h_t-1+b_o) (7)

h_t＝o_tοtanh(c_t) (8)

循环层的输出H＝(h₁，h₂，...，h_M)，输入到池化层中对所有输出向量求平均得到长度固定的特征向量，如公式(9)所示。

最后采用一层线性层通过sigmoid神经元激活，将池化层输出的向量映射成一个0到1之间的分数：

s(x)＝sigmoid(w·x+b) (10)

其中输入向量x是MoT(H)。

自动评分的过程中，打分者可能需要多次阅读文章理解文章内容，一个文章的分数也主要由文章字词用法的准确性、文章的语义连贯性、和与题意的契合度等方面决定。文章的自动评分相比较于情感分析、文本分类等自然语言处理任务具有更强的先验性，传统的作文自动评分***普遍采用人工抽取特征并且运用多远回归的统计方法进行分析和评判，由于作文的字数通常超过500字，循环神经网络模型如LSTM难以捕捉长距离的信息，仅仅依赖循环神经网络的语言建模不足以捕捉到复杂的语言结构，而且现有自动评分技术对模型具有解析程度还不足，作文的评分依据还不够充分。

发明内容

本发明提出了一种基于注意力机制的作文评分方法，采用神经网络注意力框架并结合人工特征进行注意力权重的融合计算，综合考虑语言的局部特性和全局特性，句子的完整程度、用词的准确性、词汇的多样性、语句的连贯性以及是否离题等因素对评分任务的影响，最大程度提升人工打分的效果。

附图说明

图1为本发明的自动评分***流程图。

图2为本发明的人工特征的特征变换过程。

图3为本申请由双通道词向量组成的句子的卷积神经网络模型架构。

图4为本申请文档层次基于双向LSTM的生成框架。

图5为本发明的以神经网络为主，人工提取的特征为辅的模型架构。

图6为本申请在句子层次中注意力权重的生成框架。

图7为本发明的注意力权重配置举例说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实现的***的流程如图1所示，包括文本数据的特征生成和模型的训练。提取的文本特征应用了深度神经网络模型自动生成的特征，以及人工抽取的浅层文本语义特征。作文的打分通常伴随着人为定义的规则，深度神经网络生成的文本特征具有一般性和抽象性，人工抽取的特征具有很强的先验性能反应文本的统计特性但不能反应深层的语义特征。因此本发明采用人工特征辅助神经网络模型的方式，强化深度神经网络的特征生成。由于人工特征基于文本领域的相关知识，模型的学习过程中调整的是深度神经网络的参数以及对人工特征进行非线性变换的参数，将作文评分任务用回归的方法进行处理。

模型的特征生成过程分为两部分，基于神经网络的模型部分和人工特征的提取部分。由于文本的质量不但取决于局部的句法以及用词，也取决于文本全局语义的契合性、语句流畅度。本发明的深度神经网络模型部分采用单词-句子-文档的三层架构，对所有单词用一个矩阵来定义，矩阵的每一行代表一个单词的向量表示，矩阵的参数在训练过程中学习和调整，句子和文档层次采用深度神经网络模型建模并加入了注意力机制提升效果。通过结合句子层生成的特征向量和文档层生成的特征向量，整个模型综合了文章局部的信息和总体的语义信息来完成对文本的评分。模型的核心在于得到句子和文档的注意力权重，人工抽取的特征在句子和文档层与神经网络生成的特征进行融合，得到文章局部的注意力权重。模型自底向上在不同的层次由注意力模块选取文本重要的部分生成对文档的向量，结合了文章的局部特性和抽象的全局特性，完成对全文质量的解析，生成更加深层的文本语义特征。

神经网络根据计算得到的特征概率分布显式地提取一个特征向量进行推断。由于显式的提取抽样过程并不是可微分的，因此本发明使用增强学习的训练方法对网络进行训练。作文评分任务对文章进行通篇的认知，打分的依据分布在文章的各个部分，而一般的硬式的注意力模型需要增强学习的训练方法，方差较大且整个网络不是端到端的可微分结构。本发明采用软式的注意力机制，可以应用传统的BP算法对网络进行训练。

本发明采用的深度网络模型采用自底向上的层次化结构，从文本的句子的聚焦到段落的聚焦最后到文档全局的抽象，从具体到抽象来完成对任务相关的文档建模。为了给予神经网络模型更多的先验知识和帮助神经网络模型聚焦文本的重要区域，在神经网络的各个层次加入浅显的先验特征来帮助神经网络理解文档的基本属性。本发明采用的特征有以下几个方面。

词汇复杂性：单词数量，单词平均长度，长单词数量，句子数量，段落数量，错词数量等等。

句法复杂性：POS特征，n-gram特征，从句数量，标点的各类统计等等。

文章流畅度和衔接度以及内容的相关性：文章总长度(包括词语和字符)，连接词总数，相邻句子以及文章和作文题目之间的LSA、tf-idf、BM-2.5等相似度，前后两个句子之间的相似度(代词、介词等重叠度)的平均值等。

如图2所示，在抽取到的人工特征中，本发明将连续型的数值特征采用归一化处理，对稀疏的离散的特征采用分布式向量表示将整数表示成稠密的向量表示，参数在训练过程中调整。这样做的目的主要是将人工定义的特征更好地融合到深度神经网络模型中，使所有特征归一化。

进一步，本发明的神经网络模型采用句子到文档的层次化结构。对于一个包含N个句子的作文，通过标点符号将作文分解成若干个句子，一个句子包含T个单词。模型的第一部分首先对文章独立的句子进行建模，单词的向量采用现有工作的表现形式，输入的句子x₁，x₂，...，x_T是词向量表示序列。

在句子层次，如图3所示，每一个句子的输入序列，本发明将相邻的若干个单词作为窗口，用多个卷积核对窗口内所有单词向量拼接得到的矩阵进行卷积运算得到多种特征映射，在时间维度上运用最大池化的方式获取一个卷积核得到的特征映射当中的最大值。最终得到的固定长度的特征将作为句子S₁，S₂，S₃，...，S_N的向量表示。

在文档层次，如图4所示，本发明在文档层次采用双向LSTM对卷积神经网络生成的向量S₁，S₂，S₃，...，S_N表示进一步编码，生成上下文相关的向量表示。双向LSTM的输出是前向长短期记忆型循环神经网络LSTM和双向长短期记忆型循环神经网络LSTM的和：h_t＝h_t ^(f)+h_N-t+1 ^(b)，其中h_t ^(f)和h_N-t+1 ^(b)利用公式(8)可以得到。可见每一个句子的状态编码被前面句子的特征以及后面句子的特征所影响，因此更好地保留了语义信息。

进一步的，本发明中进行作文自动评分的自动评分的综合架构如图5所示，整个模型采用以神经网络模型为主，人工提取的特征为辅的联合架构。上面的部分是句子层次的神经网络模型，下面的部分是文档层次的神经网络。虚线代表句子的人工特征输入深度网络的数据流。文档的全局人工特征和局部句子的人工特征都需要经过非线性网络层的变换融合到深度网络生成的特征中。

句子层次利用卷积神经网络网络生成的特征和模型的文档层次利用循环神经网络生成的特征都具有局部性，对局部信息较为敏感。由于文档的长度是可变的，本发明提取在不同区域具有不变性的稳定特征，并生成和文档长度无关的特征向量。在文档层次和句子层次通过最大池化操作提取各个维度中最为显著的特征，并消除了可变长度所带来的影响。最终得到的两种向量拼接之后输入模型最后的回归部分。

本发明在句子层次和文档层次都应用了最大池化操作来获得固定维度的向量，提取与句子、文档长度无关的特征表示。对于句子词向量序列表示x₁，x₂，...，x_T，用一个卷积核可以提取每个单词附近的特征，为了提取与句子长度无关的最显著的卷及特征，我们对一个卷积核生成的特征序列取最大值得到一个特征，最终得到的句子向量的维度和卷积核的个数相同。同理在文档层次对得到的特征序列h₁，h₂，...，h_N在每个句子对应的维度上的特征值乘以模型计算得到的注意力权重取最大值得到固定维度的文档特征表示。

本发明在句子层次完成对句子质量的评估，人工抽取的每个句子的特征指标可以帮助深度注意力模型更好地生成对每个句子的关注度，聚焦对文章质量影响较大的句子，生成句子层次抽象的评分向量。在文档层次模型完成对文本与题目的契合度以及文本的连贯性的评估，人工抽取的全局特征包含了文本浅层的语义指标以及文本词法相关的统计特征，帮助深度模型生成文章更加深层的语义特征，得到文档层次的评分向量。最终用于回归任务的特征由句子层次的评分向量和文档层次的评分向量组成。

进一步的，本发明通过句子层次阶段得到的矩阵s＝[S₁，S₂，...，S_N]，所述矩阵的某一行作为文档某一条语句的分布式表示。句子的人工特征向量L＝[L₁，L₂，...，L_N]和深度模型生成特征在不同的特征空间，在模型中加入多次非线性操作对L进行特征变换，将传统的语义特征映射到模型的特征空间。如图6所示，在句子层次上，人工提取的单个句子特征通过一层转换层变换后得到的特征和句子向量表示拼接后通过非线性变换后得到句子的注意力权重由公式(11)-(13)计算得到。公式(11)计算了人工特征的非线性变换(如图2)使得人工特征更好地融合进神经网络。公式(12)将句子的向量表示s和人工特征表示l拼接融合后通过非线性激活得到每个句子的注意力权重，公式中的b表示偏置。得到的权重再经过公式(13)的softmax归一化后得到每个句子注意力的概率分布。本发明通过每个句子的局部人工特征经过变换后与神经网络生成的向量相融合，人工特征反映了一个句子的质量指标，辅助神经网络对句子的权重计算。在作文评分的时候生成句子向量。

l＝DNN(L) (11)

att_i＝Attention(S，l)＝tanh(W[S_i；l_i]+b) (12)

α_i＝softmax(att_i) (13)

其中α_i表示模型在假设每个句子独立的情况下对其生成的第i个句子的注意力权重值。在实际应用当中句子的权重反应了评分的依据模型的第一部分首先对作文独立的句子做评估，句子的质量可以大致反应一个文章的句法质量。

进一步的，题意和主旨是文章的最为抽象的语义概念，作文的评分不仅仅取决于句子的质量还需要综合考察文章的统计特征、语句的连贯程度和与题意的相关度。因此在文档层的注意力模块中，如图4所示，本发明利用双向循环神经网络对上下文的语义信息进行编码，并且引入LSTM单元来克服梯度***和梯度消失现象。作文题目的分布式表示q的计算在需要句子建模过程中完成，因为计算注意力的过程中需要引入作文题目向量的语义信息，引导模型生成和题目相关的特征。文章的总体特征向量G和深度模型生成的特征向量在不同的特征空间，我们在模型中加入多次非线性操作对G进行特征变换，将人工抽取的数值特征映射到模型的特征空间并将其与神经网络生成特征做点乘运算进行特征融合，利用最终得到的特征进行文档的注意力权重的计算。

h_i＝h_i ^(f)+-h_N-i+1 ^(b) (16)

g＝DNN(G) (17)

α_i＝softmax(att_i) (20)

公式(14)-(16)用了两个计算顺序相反的LSTM得到每个句子所在上下文的状态向量，双向的LSTM使得状态向量反应了当前句子之前和之后的语义信息。公式(17)将一篇作文全局的特征G通过非线性变换得到适应神经网络的特征，特征的维度是双向LSTM编码后的句子特征维度的两倍。在公式(18)中我们通过特征拼接的方式融合了一个句子的状态向量h_i和作文标题的编码向量q(其中q也通过上面的句子建模部分得到)，人工抽取的特征通过点乘的方式得到句子新的状态向量不仅仅反映了一个句子上下文相关的抽象语义特征并且包含了作文的简单的统计特征(及错词数、句子长度等)以及和作文题目要求相关的特征。实际应用上，作文人工特征可以直接反映出全文的浅层语义指标，可以帮助模型更好理解句子所在的上下文对全文的重要程度，对于质量较差或者较好的部分，模型会给予更高的关注度，对于和题目较为契合的部分，模型也会给予更高的关注度，和题目无关的评分是不符合常识的。通过这种方式我们可以简单地将先验知识融入深度神经网络。最终模型通过公式(19)-(20)计算出句子的注意力权重。α_i表示模型在假设句子之间有关联的情况下对其生成的第i个句子所在上下文的关注度权重，最终通过最大池化操作得到的特征反应了和题目主旨相关的语义特征。

对于句子层次的向量生成过程中的权重计算如图7所示，以“知实就是力量”这句话为例，句子中包含了错误单词知实，这一表象在人工抽取的特征向量中可以反映出来。通过卷积神经网络计算得到的句子向量和人工抽取的特征变换后融合计算得到这句话的权重。由于错词反映出这句话的质量较差，模型会给予更高的重视(给出更高的权重，通常错误的句法相比正确的会带来更多的关注)。人工抽取的特征作为先验知识引导深度神经网络生成更符合逻辑的特征，加强了传统的注意力模型。再比如如果人工抽取的特征中作文与题目的相似度较低，那么在生成文档向量的时候人工特征也会将这一信息融入模型中，得到的模型的加权模块将带有和题意的信息对状态向量进行加权，和题意较为相关的作文部分将被赋予更高的权重。另一方面，对于不同的评分标准或者不同的作文题目，通过调节配置相应人工特征，模型的权重计算会考虑现有关的先验知识。在新的作文题目数据集中，模型的权重计算也会做出相应的调整。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于注意力机制的作文评分方法，其特征在于，所述方法包括，在作文评分***中采用单词－句子－文档三层结构的神经网络注意力框架，并使用人工抽取的特征在所述框架的句子和文档层进行融合，进而设置所述句子和文档层的注意力权重。

2.如权利要求1所述的方法，其特征在于，所述框架的句子层次采用将相邻的若干个单词作为窗口，用多个卷积核对窗口内所有单词向量拼接得到的矩阵进行卷积运算得到多种特征映射，所述框架的文档层次采用双向的循环神经网络对所述卷积运算得到的向量进一步编码，生成上下文相关的向量，使得每一个句子的状态编码被其前面句子的特征以及后面的句子所影响，并使用最大池化方法处理所述句子和文档层次中最为显著的特征。

3.如权利要求2所述的方法，其特征在于，所述句子的注意力权重由人工提取的特征通过一层转换层变换后得到的特征和卷积神经网络变换的特征拼接后输入下一层的网络层产生，所述文档层次的注意力权重由卷积神经网络变换得到的向量输入循环神经网络在每个句子的位置得到和文档全局关联的语义向量，所述位置的语义向量与文章标题的向量拼接后将与全局的特征进行处理产生。

4.如权利要求3所述的方法，其特征在于，所述人工提取的特征包括词汇复杂性，句法复杂性，文章流畅度，衔接度，内容的相关性，并在所述人工提取的特征采用归一化处理。