CN111291534A

CN111291534A - 面向中文长文本自动摘要的全局编码方法

Info

Publication number: CN111291534A
Application number: CN202010078230.5A
Authority: CN
Inventors: 奚雪峰; 皮洲; 曾诚; 张谦; 王坚; 鲍观花; 吴宏杰; 付保川; 崔志明
Original assignee: Suzhou University of Science and Technology
Current assignee: Suzhou University of Science and Technology
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2020-06-16
Also published as: WO2021155699A1

Abstract

本发明涉及面向中文长文本自动摘要的全局编码方法，先数据预处理，对中文长文本即源文本进行数据预处理，得到词向量；再编码，GRU门控循环单元接收数据预处理后的词向量，对词向量中的每个向量执行编码过程，生成隐藏状态，所有隐藏状态形成的矩阵H作为全局编码过程的输入；再全局编码，卷积神经网络CNN特征提取接收来自编码过程的输出矩阵H，对其经过处理得到注意力矩阵g，再经过全局注意力机制的特征提取和门控单元过程进行运算得到中间语义向量C；最后解码，编码过程输出的最后一位隐藏状态h_t和全局编码过程输出得到的中间语义向量C经过GRU门控循环单元处理，得到摘要文本。客观的总结中文长文档和非结构化文档。

Description

面向中文长文本自动摘要的全局编码方法

技术领域

本发明涉及一种面向中文长文本自动摘要的全局编码方法，属于文本信息处理技术领域。

背景技术

文本摘要作为自然语言处理的一个重要分支，已经发展了几十年，能自动将文本转换成简短的摘要。随着海量数据的增长，文本摘要技术的研究成为一个热点。文本摘要可以节省搜索时间，简化搜索过程。特别是在当今信息***的时代，文本摘要对于提高知识发现任务的效率是尤为重要的。已发表的研究大部分都聚焦于短文本摘要，由于中文长文本的复杂性，中文长文本自动摘要的研究还很少。

Alexander M Rush首先将深度学习方法应用于文本摘要[Rush,2015年]，使用基于局部注意力的模型根据输入的文本生成摘要，并使用Rouge对摘要进行评分，然而，该方法局限于输入文本的长度和摘要的大小。在此基础上，Ramesh Nallapati引入了编码-解码架构中的注意力机制[Nallapati等，2016年]。为了引入新词，Thang Luong[2015]提出了生成器/指针模型，这个模型在解码时，从原始文档生成的词汇表中提取各个解码层生成的词汇。对于长文本摘要任务，Jeffrey Ling[2017]采用了两层分层的注意力机制，其中一层使用注意力机制从输入文档中选择一个或多个重要单词，然后通过端对端模型将其输入到第二层。用强化学习训练注意力模型，该方法实现了对长文本序列的摘要工作，但精度不高。Arman Cohan[2018]提出了一个生成式的摘要模型，其中包含一个模拟话语结构的分层编码和一个用于生成摘要的感知解码。通过对两个大型科技论文数据集的验证，实验可以生成高质量的文献摘要。

与上述英文文本摘要工作相比，近年来，中文短文本摘要领域也得到了迅速发展，LCSTS是第一个大型中文短文本数据集[Baotian Hu，2015]。文本摘要依赖于对源文本的多次输入和多层次的抽象信息，Shuming Ma和Xu Sun[2017]发现文本中存在明显的层次现象，但是在编码解码架构中没有相应的多重结构。为了解决这个问题，提出了一种多级编码来获取不同层次的文本信息。Piji Li提出了一种基于编码解码框架的文本摘要模型，该模型增加了一个深递归生成编码(DRGN)。Yongshuai Hou[2017]提出了一个基于LSTM的模型来识别高质量的文本摘要对，以构建大规模数据集。Shuming Ma提出了一种文本摘要和情感分析相结合的分层端对端学习模型。将句子归类为文本摘要的进一步概况。Junyang Lin[2018]提出了一个基于全局编码的框架，利用卷积单元，根据输入上下文的全局信息，控制从编码到解码的信息。

目前，已发表的研究大部分都聚焦于短文本摘要。由于中文长文本的复杂性，中文长文本自动摘要的研究还很少。

发明内容

本发明的目的是克服现有技术存在的不足，提供一种面向中文长文本自动摘要的全局编码方法。

本发明的目的通过以下技术方案来实现：

面向中文长文本自动摘要的全局编码方法，特点是：包括以下步骤：

1)数据预处理，对中文长文本即源文本进行数据预处理，得到词向量；

2)编码，GRU门控循环单元接收数据预处理后的词向量，对词向量中的每个向量执行编码过程，生成隐藏状态，所有隐藏状态形成的矩阵H作为全局编码过程的输入；

3)全局编码，卷积神经网络CNN特征提取接收来自编码过程的输出矩阵H，对其经过处理得到注意力矩阵g，注意力矩阵g再经过全局注意力机制的特征提取和门控单元过程进行运算得到中间语义向量C，完成全局编码；

4)解码，编码过程输出的最后一位隐藏状态h_t和全局编码过程输出得到的中间语义向量C经过GRU门控循环单元处理，最终得到摘要文本。

进一步地，上述的面向中文长文本自动摘要的全局编码方法，其中，步骤1)，数据预处理包括以下步骤：

11)首先，接收中文长文本即源文本，并使用jieba分词工具进行中文分词，将长文本分成单个的词；

12)然后，将分词后的源文本通过词嵌入工具转化为文本单词向量(x₁，x₂,...x_t)；

13)最后，单词向量(x₁，x₂,...x_t)作为编码过程的输入。

进一步地，上述的面向中文长文本自动摘要的全局编码方法，其中，数据预处理将输入中文长文本即源文本转化为矢量表示。

进一步地，上述的面向中文长文本自动摘要的全局编码方法，其中，步骤2)，编码包括以下步骤：

21)首先，GRU门控循环单元从源文本顺序接收数据预处理后的单词向量，第一个GRU接收x₁，x₁和预设值h₀经过GRU门控循环单元处理得到第一个隐藏状态h₁，第二个GRU接收x₂，处理后得到第二个隐藏状态h₂,如此累加处理得到最后一个隐藏状态h_t；

22)然后，所有隐藏状态h₁,h₂,...,h_t全连接成一个隐藏状态矩阵H，作为全局编码过程的输入；

23)最后，最后一个隐藏状态h_t与整个源文本的信息一起成为解码过程的初始隐藏状态s₀，相关公式如下：

z_t＝σ(W_z·h_t-1,x_t) (1)

其中σ是激活函数，W_z是更新权重矩阵，x_t是输入向量，h_t-1表示编码过程GRU的上一个隐藏状态，z_t是更新门向量，已知W_z、[h_t-1,x_t]，求z_t；

r_t＝σ(W_r·[h_t-1,x_t]) (2)

其中W_r表示重置权重矩阵，r_t是重置门向量，已知W_r、[h_t-1,x_t]、求r_t；

其中W是一个参数矩阵，tanh表示激活函数，r_t为公式(2)求得的结果，将其代入公式(3)，

表示t时刻输入信息，已知W、r_t、h_t-1、x_t，求

其中z_t为公式(1)求得的结果，将其代入公式(4)，

为公式(3)求得的结果，将其代入公式(4)，h_t是输出向量，已知z_t、h_t-1、

求h_t。

进一步地，上述的面向中文长文本自动摘要的全局编码方法，其中，GRU是循环神经网络的一种，有一个当前的输入x_t,和上一个节点传递下来的隐藏状态h_t-1，隐藏状态包含之前节点的信息，结合x_t和h_t-1，GRU得到当前隐藏状态y_t和传递给下一个节点的隐藏状态h_t。

进一步地，上述的面向中文长文本自动摘要的全局编码方法，其中，

步骤3)，全局编码包括以下步骤：

31)首先，进行卷积神经网络CNN特征提取；

隐藏状态H作为全局编码中卷积神经网络CNN特征提取的输入，通过卷积神经网络CNN进行特征提取，利用一维卷积方法提取N-gram特征得到卷积块

进入全局注意力机制进行运算处理，卷积块描述如下：

其中Relu指非线性激活函数校正线性单元，h是提取的特征，m是特征的维度，k是卷积神经网络中卷积核的尺寸大小，b是偏重量，W是权重参数，

是卷积块，已知W、h、m、b，求

32)然后，进行全局注意力机制的特征提取；

在卷积神经网络CNN过程生成的新表示的基础上，进一步对这些表示采用注意力机制，挖掘出全局相关性，这些表示由注意力机制计算成矩阵:

其中

Q、K、V分别是Query、Key、Value的简写，Q表示为一个n×d_k的矩阵，K表示为一个m×d_k的矩阵，V表示为m×d_v的矩阵；其中因子

起到调节作用，以至于内积太大，导致softmax之后的结果非0即1，T表示转置，是原文本的长度，d表示维度，已知Q、K、d_k、V，求Attention(Q,K,V)；

33)最后，进行门控单元过程；

根据来自编码过程的输出隐藏状态H和全局注意力机制的特征提取得到的g设置一个门，其中：

C＝H⊙σ(g) (7)

其中C是中间语义向量，H是编码过程所有隐藏状态形成的矩阵，g表示当前时间步的注意力权重，⊙表示内积，σ表示激活函数，σ(g)的值为0或1；当σ(g)＝0时，将g的信息忽略；当σ(g)＝1时，将g的信息加入到解码过程中；已知H、g，求C。

进一步地，上述的面向中文长文本自动摘要的全局编码方法，其中，步骤4)，解码包括以下步骤：

41)首先，将编码过程输出的隐藏状态h_t设为s₀；

42)然后，s₀和中间语义向量C中的c₁作为解码过程第一个GRU的输入，经过第一个GRU处理得到文本摘要y₁和隐藏状态s₁，同样地，s₁和c₂经过第二个GRU处理得到文本摘要y₂和隐藏状态s₂，以此类推，最终得到(y₁,y₂,...,y_n)构成中文长文本摘要序列，解码过程如下：

z_n＝σ(W·[s_n-1,c_n]) (8)

其中[]表示两个向量相连接，s_n-1表示上一个GRU的隐藏状态，c_n表示当前GRU的输入，z_n表示当前GRU更新权值，已知w_z、[s_n-1,c_n]，求z_n；

r_n＝σ(W_r·[s_n-1,c_n]) (9)

其中r_n表示当前GRU的重置权值，已知w_r、[s_n-1,c_n]，求r_n；

其中r_n是公式(9)求得的结果，将其代入公式(10)，

表示n时刻输入的信息，已知W、[r_n*s_n-1,c_n]，求

其中z_n是公式(8)求得的结果，将其代入公式(11)，

是公式(10)求得的结果，将其代入公式(11)，s_n表示之前编码过程和当前GRU的加权信息，已知和z_n、s_n-1、

求s_n；

y_n＝soft max(W_d·s_n) (12)

其中w_d表示全局注意力矩阵，s_n为公式(11)求得的结果，将其代入公式(12)，softmax表示激活函数，y_n表示第n个词在词库上的概率分布，已知w_d、s_n，求y_n；

43)最后，摘要序列构成中文长文本摘要。

本发明与现有技术相比具有显著的优点和有益效果，具体体现在以下方面：

本发明结合中文长文本自动摘要的特点，采用中文单词作为嵌入向量表示，而不是中文字符，基于中文单词的嵌入向量表示模型优于基于字符的嵌入向量表示模型，解决神经文本摘要的单一、中长文本，提出具有全局编码单元的模型，能够客观的总结中文长文档和非结构化文档，如笔录文档；根据不同特征处理数据集的模型选择策略，有助于文本摘要，新的中文长文本语料库有助于社会各界对此问题的进一步探索。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明具体实施方式了解。

附图说明

图1：本发明的流程示意图；

图2：生成中文长文本摘要的编码-解码模型的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现详细说明具体实施方案。

本发明提出了一种带有注意力机制的全局编码模型，用于中文长文本摘要任务即一种面向中文长文本的全局编码方法。

如图1、图2所示，一种面向中文长文本自动摘要的全局编码方法的流程，具体步骤为：

13)最后，单词向量(x₁，x₂,...x_t)作为编码过程的输入。

以具体实例说明，输入一段中文长文本：“我们是派出所的民警出示工作证件现依法对你进行询问请你如实回答问题对与本案无关的问题你有拒绝回答的权利你听清楚了吗。你今天拨打110所为何事。2017年11月26日17时至22时停放在国际大厦南侧的停车场电动车被盗。电瓶被盗48V2014年购买花了500元。你还有什么要补充的吗。你以上说的是否属实。”

通过预先训练好的词库[50000,128](词库大小是50000，词嵌入维度是128)，可以将输入语句转化成句长×维度的矩阵向量，这里输入语句长度为150个字，空格不计入。每一个字在词库中对应一个[1，128]的列向量，每一个字通过词库映射，实现将这个字长为150的句子转化为句子向量[150，128]。

2)编码，GRU门控循环单元接收数据预处理后的词向量，对词向量中的每个向量执行编码过程，执行编码过程，生成隐藏状态，所有隐藏状态形成的矩阵H作为全局编码过程的输入；

z_t＝σ(W_z·h_t-1,x_t) (1)

r_t＝σ(W_r·[h_t-1,x_t]) (2)

表示t时刻输入信息，已知W、r_t、h_t-1、x_t，求

其中z_t为公式(1)求得的结果，将其代入公式(4)，

求h_t。

具体地，转化后的句子向量[150×128]作为编码过程的输入，首先输入第一列[1，128]和一个初始化矩阵[512，128]，通过第一个编码单元产生一个隐藏状态矩阵[512，128]和一个输出向量矩阵[512，128]；然后将隐藏状态矩阵和第二列作为输入，再输出隐藏状态矩阵；直到句子向量全部输入；此时将最后一个单元产生的隐藏状态矩阵[512，128]作为解码过程的输入。

31)首先，进行卷积神经网络CNN特征提取；

隐藏状态H作为全局编码中卷积神经网络CNN特征提取的输入，通过卷积神经网络CNN进行特征提取，利用一维卷积方法提取N-gram特征，得到卷积块

进入全局注意力机制进行运算处理，卷积块描述如下：

是卷积块，已知W、h、m、b，求

32)然后，进行全局注意力机制的特征提取；

其中

起到调节作用，以至于内积太大，导致softmax之后的结果非0即1。T表示转置，是原文本的长度，d表示维度。已知Q、K、d_k、V，求Attention(Q,K,V)。

33)最后，进行门控单元过程；

C＝H⊙σ(g) (7)

其中C是中间语义向量，H是编码过程所有隐藏状态形成的矩阵，g表示当前时间步的注意力权重，⊙表示内积，σ表示激活函数，σ(g)的值为0或1。当σ(g)＝0时，将g的信息忽略；当σ(g)＝1时，将g的信息加入到解码过程中；已知H、g，求C。

41)首先，将编码过程输出的隐藏状态h_t设为s₀；

z_n＝σ(W·[s_n-1,c_n]) (8)

r_n＝σ(W_r·[s_n-1,c_n]) (9)

其中r_n表示当前GRU的重置权值，已知w_r、[s_n-1,c_n]，求r_n；

其中r_n是公式(9)求得的结果，将其代入公式(10)，

表示n时刻输入的信息，已知W、[r_n*s_n-1,c_n]，求

其中z_n是公式(8)求得的结果，将其代入公式(11)，

求s_n；

y_n＝soft max(W_d·s_n) (12)

43)最后，摘要序列构成中文长文本摘要。

具体地，句子向量与训练过程得到的注意力权重[50000，128]进行注意力运算得到一个词库中所有词的权重矩阵也作为输入，通过第一个解码单元得到一个[1，128]的矩阵，这个矩阵通过词库[50000×128]映射成中文字符，在这个例子中，第一个[1，128]的矩阵将映射成字符’2’，然后以第一个解码单元产生的隐藏状态矩阵[512，128]和句子向量与第二个解码器的权重矩阵点乘得到第二个词库的权重矩阵作为输入，产生第二个[1，128]的矩阵，通过词库[50000，128]映射成字符’0’，依次类推，第三个字符为1，第四个字符为7,…,直到产生的一个[1，128]的矩阵通过词库映射成终止符或者生成句子长度达到预设值时结束；最终生成的摘要即为2017年11月26日17时至22时在国际大厦的停车场被盗一辆电动车。

综上所述，本发明结合中文长文本自动摘要的特点，采用中文单词作为嵌入向量表示，而不是中文字符，基于中文单词的嵌入向量表示模型优于基于字符的嵌入向量表示模型，解决神经文本摘要的单一、中长文本，提出具有全局编码单元的模型，能够客观的总结中文长文档和非结构化文档，如笔录文档；根据不同特征处理数据集的模型选择策略，有助于文本摘要，新的中文长文本语料库有助于社会各界对此问题的进一步探索。

需要说明的是：以上所述仅为本发明的优选实施方式，并非用以限定本发明的权利范围；同时以上的描述，对于相关技术领域的专门人士应可明了及实施，因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰，均应包含在申请专利范围中。