CN111984782A

CN111984782A - 藏文文本摘要生成方法和***

Info

Publication number: CN111984782A
Application number: CN202010622638.4A
Authority: CN
Inventors: 闫晓东; 李维
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-11-24

Abstract

本发明提供一种藏文文本摘要生成方法和***，涉及文本信息处理技术领域。本发明通过对藏文文本进行预处理；基于预设的摘要模型和基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要。其中：摘要模型包括双层的双向GRU神经网络模块和编码‑解码模块；编码‑解码模块的编码端添加注意力机制，解码端添加指针网络。本发明采用摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子，去掉冗余信息，方便加快后续的处理过程，然后采用预设的摘要模型中的编码‑解码生成理解式文本摘要。本发明在编码‑解码模块的解码端利用指针网络提高了藏文OOV词的处理精度，提高了摘要的可读性和新颖性。

Description

藏文文本摘要生成方法和***

技术领域

本发明涉及文本信息处理技术领域，具体涉及一种藏文文本摘要生成方法和***。

背景技术

随着信息的***式增长，人们面临着信息超载的问题，很难高效、快速、准确地获取有价值的信息。为了解决这一问题，出现了自动文本摘要技术来生成输入文本的简洁表示。自动文本摘要是自然语言处理领域的一个重要分支。它是一种利用计算机实现文本分析、内容归纳和自动生成摘要的信息压缩技术。它与文本生成、信息提取密切相关。此外，它可以帮助分析和总结较长的新闻，过滤掉冗余信息，从而提高浏览新闻的速度。

随着深度学习技术的发展，基于注意机制的编码-解码模块在对进行抽象总结方面取得了良好的效果。与汉语和英语相比，藏文摘要仍处于探索阶段，面临着许多困难和挑战。首先，藏语新闻通常太长。神经网络难以提取关键信息，容易引起梯度消失和***等问题。其次，缺乏大规模的文本摘要标记训练数据。最后，基于单词的抽象摘要可能会导致词汇表外(OOV out-of-vocabulary)问题，从而影响摘要的可读性。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种藏文文本摘要生成方法和***，解决了现有的藏文文本摘要生成方法生成的摘要可读性低的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供了一种藏文文本摘要生成方法，包括以下步骤：

获取待生成摘要的藏文文本；

对所述藏文文本进行预处理；

基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要；其中：所述预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块；编码-解码模块的编码端添加注意力机制，解码端添加指针网络。

优选的，所述预处理包括：

采用CRF的方法对藏文文本进行分词，过滤掉停用词，建立词表；

并按照藏文边陲符号进行分句，得到子句。

优选的，所述预设的预设的摘要模型的构建过程包括：

获取训练所需的藏文文本集；

对藏文文本集进行预处理，得到初始子句；

基于TextRank算法对预处理后的藏文文本集进行标记处理，获取模型训练子句；

将模型训练子句输入到摘要模型，对摘要模型进行训练。

优选的，所述基于TextRank算法对预处理后的藏文文本集进行标记处理，获取模型训练子句，包括：

将每个初始子句作为节点添加到拓扑图G＝(V,E)中；其中，G表示一个无向图；V为顶点的集合，表示藏文文本中集的初始子句；E为边的集合，表示初始子句之间的关系；

采用Wordv2ec和fasttext两种不同的词向量模型，将初始子句映射到高维词库中表示成向量形式，根据词向量文件将每一个初始子句转化为句向量，初始子句的向量表示是所有相同维数的词向量的平均值，边表示初始子句之间的相似性，公式如下：

WS(S_i,S_j)＝cos(S_i1...S_in,S_j1...S_jn)

其中：

WS(S_i,S_j)表示词的相似度；S_i和S_j表示词向量；cos表示词之间的余弦距离；n表示词向量维度的大小；

迭代算法直至收敛，计算公式如下：

WS(V_i)表示的就是任一词V_i的权重；d表示基尼系数；W_ij表示节点V_i，V_j之间边的权重；In(V_i)为指向节点V_i的节点集合；Out(V_i)为点V_i指向的节点集合；

将每一个节点与其相连的节点计算相似度，并计算相似度在其相连节点中所占的比重进而迭代；

按照将每一个词的向量叠加取平均，得到句子向量，进而迭代得到藏文文本集中每一个初始子句的权重；根据权重由高到低进行排序，再根据如下公式重新计算权重最高的前k个初始子句的权重，选取最新权重值为前n个句子作为模型训练子句，其中n<k：

X_i＝(X₁ f₁+X₂ f₂+...X_kf_k)/n

其中：

X_i表示句子i的最新权重值；f₁+f₂+...+f_k＝n，f1，f2，…，f_k叫做权；X₁到X_k-1表示该初始子句与其他权重高的k-1个初始子句的相似度；X_k表示该初始子句与主题句的相似度；f₁到f_k表示加权的权值，其中f₁到f_k-1表示的是惩罚系数，起到权重降低的效果，f_k表示与主题句的相似度，起到权重提高的效果。

优选的，所述将模型训练子句输入到摘要模型，对模型进行训练，包括：

将模型训练子句输入到双层的双向GRU神经网络，对双层的双向GRU神经网络进行训练，完成对双层的双向GRU神经网络的训练，并得到最终训练子句；

将最终训练子句输入编码-解码模块中，完成对编码-解码模块的训练。

优选的，所述编码-解码模块包括：

两个循环神经网络，第一个神经网络用于接收最终训练子句，将最终训练子句编码为一个内容向量，第二个神经网络用于对内容向量进行解码，生成理解式文本摘要。

优选的，所述注意力机制的计算公式如下：

Y_i＝softmax(S_t)

e_i,j＝a(s_i-1,h_j)

其中：

Y_i为已生成摘要的第i个词，由Y_i-1，s_i，c_i三个状态决定；s_i表示i时刻的隐藏状态，由c_i，s_i-1，Y_i-1决定；c_i表示注意力机制加权后的内容向量；e_i,j表示解码阶段隐层状态s_i与编码状态h_ij的线性组合，h_ij表示的是编码状态，代表从i到j个词的编码向量；α_i,j表示注意力机制学习到的每一个词的权重；e_i,k表示解码阶段隐层状态s_i与编码状态h_ik的线性组合，h_ik表示的是编码状态，代表从i到k个词的编码向量。

优选的，所述指针网络包括：

利用softmax函数将注意力分布和编码器隐藏状态转换为指向输入序列的指针，计算公式如下：

p(C_i|C₁,...,C_i-1,X)＝softmax(e^t)

其中：

C_i表示注意力机加权后的内容向量；X表示输入序列；

e^t表示解码器在时间t时，对编码器每个时间的关注度所构成的向量；

表示解码器在时间t时，对编码器时间为i时刻的关注度；

表示输入是最后一个时刻所对应的e^t；S_t为解码器在时间t时的输出；h_i是编码器在时间i时的输出；v，W_h，W_s均表示可学习的参数。

本发明还提供一种藏文文本摘要生成***，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述方法的步骤。

(三)有益效果

本发明提供了一种藏文文本摘要生成方法和***。与现有技术相比，具备以下有益效果：

本发明首先获取待生成摘要的藏文文本；然后对藏文文本进行预处理；基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要。其中：摘要模型包括双层的双向GRU神经网络模块和编码-解码模块；编码-解码模块的编码端添加注意力机制，解码端添加指针网络。本发明采用预设的摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子，去掉冗余信息，方便加快后续的处理过程，然后采用预设的摘要模型中的编码-解码生成理解式文本摘要。本发明在编码-解码模块的解码端利用指针网络提高了藏文OOV词的处理精度，提高了摘要的可读性和新颖性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种藏文文本摘要生成方法的框图；

图2为本发明实施例中编码-解码模块的框架示意图；

图3为本发明实施例中注意力机制的框架示意图；

图4为本发明实施例验证过程中的藏文新闻预处理流程图；

图5为本发明实施例验证过程中的各模型所用的时间的柱形图；

图6为本发明实施例验证过程中的抽取式摘要关键词覆盖度测评结果的柱形图；

图7为本发明实施例验证过程中的Rouge-1评测结果折线图；

图8为本发明实施例验证过程中的Rouge-2评测结果折线图；

图9为本发明实施例验证过程中的Rouge-3评测结果折线图；

图10为本发明实施例验证过程中理解式摘要关键词覆盖度评测结果的柱形图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种藏文文本摘要生成方法，解决了现有的藏文文本摘要生成方法生成的摘要可读性低的技术问题，实现提高了摘要的可读性。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例提出了摘要模型，将任务分为两个阶段，第一节阶段双层的双向GRU神经网络模块抽取能代表和涵盖原文信息内容的句子，从而大大减少了编码-解码模块输入文本的长度。第二阶段采用编码-解码模块，根据第一阶段抽取出来的结果，将句子集合编码为一个包含原文语义的向量，进而将向量解码，生成摘要的过程中，引入指针网络，解决未登陆词(未登陆词指一些不常用的人名，地名，组织机构名称)的问题，可以在摘要中生成未出现在词表中的词，提升摘要的质量，并在损失函数中引入覆盖机制，解决生成摘要语义重复的问题。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种藏文文本摘要生成方法，如图1所示，包括步骤S1～S3：

S1、获取待生成摘要的藏文文本；

S2、对藏文文本进行预处理；

S3、基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要；其中：摘要模型包括双层的双向GRU神经网络模块和编码-解码模块；编码-解码模块的编码端添加注意力机制，解码端添加指针网络。

本发明实施例采用预设的摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子，去掉冗余信息，方便加快后续的处理过程，然后采用预设的摘要模型中的编码-解码生成理解式文本摘要。本发明实施例在编码-解码模块的解码端利用指针网络提高了藏文OOV词的处理精度，提高了摘要的可读性和新颖性。

下面对各个步骤进行详细描述。

在一实施例中，S1、获取待生成摘要的藏文文本。具体实施过程如下：

通过人工录入或网络爬虫技术得到待生成摘要的藏文文本。在本发明实施例中，藏文文本可以是文献，新闻，微博等文本内容。

在一实施例中，S2、对藏文文本进行预处理。具体实施过程如下：

结合藏文本身的特点，对藏文文本进行预处理，具体为：

采用CRF的方法对藏文文本进行分词，并过滤掉停用词，建立词表，并按照藏文边陲符号“|”进行分句，即将藏文文本进行子句分割，得到子句。

在一实施例中，S3、基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要；其中：预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块；编码-解码模块的编码端添加注意力机制，解码端添加指针网络。具体实施过程如下：

预设的摘要模型的构建过程包括：

A1、获取训练所需的藏文文本集。具体为：

通过网络爬虫技术获取藏文文本集(在本发明实施例中，藏文文本选用新闻文本)；

A2、对藏文文本集进行预处理，得到初始子句。具体为：

对新闻文本中出现中文乱码，或者只有一到两个句子的噪声新闻用查找utf8的方式进行过滤；

采用CRF的方法对新闻文本进行分词，并过滤掉停用词，建立词表，并按照藏文边陲符号“|”进行分句，即将新闻文本进行子句分割，得到初始子句。

A3、基于TextRank对预处理后的藏文文本集进行标记处理，获取模型训练子句。具体为：

生成藏文文本的拓扑图，表示为G＝(V,E)。G表示一个无向图，V为顶点的集合，也就是藏文文本中集的初始子句。E为边的集合，表示初始子句之间的关系。使用TextRank算法迭代直到收敛。然后，每个顶点都有一个代表句子重要性的分数。该过程主要以下步骤:

A301、将每个初始子句作为节点添加到拓扑图G＝(V,E)中。

A302、采用两种不同的词向量模型，Wordv2ec以及fasttext，将初始子句映射到高维词库中表示成向量形式，并根据词向量文件将每一个初始子句转化为句向量。初始子句的向量表示是所有相同维数的词向量的平均值。边表示初始子句之间的相似性，公式如下：

WS(S_i,S_j)＝cos(S_i1...S_in,S_j1...S_jn)

其中：

WS(S_i,S_j)表示词的相似度；S_i和S_j表示词向量；cos表示词之间的余弦距离；n表示词向量维度的大小。

S303、迭代算法直至收敛，计算公式如下：

其中：

WS(V_i)表示的就是任一词(节点)V_i的权重；d表示基尼系数，一般设置为0.85；W_ij表示节点V_i，V_j之间边的权重；In(V_i)为指向节点V_i的节点集合；Out(V_i)为点V_i指向的节点集合。

将每一个节点与其相连的节点计算相似度，并计算相似度在其相连节点中所占的比重进而迭代。

S304、在句子抽取的过程中，将每一个词的向量叠加取平均，得到句子向量，进而迭代得到藏文文本集中每一个初始子句的权重。在抽取句子的过程中引入了主题信息，将与标题相似度大的句子分配更大的权重。最后选取权重最高的句子作为摘要子句。为了避免语句冗余的问题，引入了惩罚系数，将相似度较高的句子乘以惩罚系数来减少权重。具体为：

先按照将每一个词的向量叠加取平均，得到句子向量，进而迭代得到藏文文本集中每一个初始子句的权重。然后根据权重由高到低进行排序，再根据如下公式重新计算权重最高的前k个初始子句的权重，选取最新权重值为前n个句子作为模型训练子句，其中n<k，k和n均根据实际情况自行设定：

X_i＝(X₁ f₁+X₂ f₂+...X_kf_k)/n

其中：

f₁+f₂+...+f_k＝n，f1，f2，…，f_k叫做权；X_i代表句子i的最新权重值；X₁到X_k-1代表该初始子句与其他权重高的k-1个初始子句的相似度，X_k代表该初始子句与主题句的相似度，f₁到f_k是加权的权值，其中f₁到f_k-1代表的是惩罚系数，起到权重降低的效果，f_k代表与主题句的相似度，起到权重提高的效果。f₁到f_k是加权值，可以根据实际情况自行设定。

使用TextRank抽取出来的训练子句将预处理后的藏文文本集表示成一个由0与1组成的高维向量，0代表句子不被选取，1代表句子被选取，作为模型训练子句。这样句子抽取的问题可以被抽象为序列标注问题，或者一个句子的二分类问题。

A4、将训练子句输入到摘要模型，对模型进行训练。具体为：

将摘要子句输入到双层的双向GRU神经网络，对双层的双向GRU神经网络进行训练。

双向GRU神经网络的第一层双向GRU神经网络将摘要子句中的词进行编码，从而获得词级别的注意力，并将每一个句子中词的隐藏层状态的平均池化，得到平均池化结果。得到的结果输入到第二层双向GRU神经网络中，词级别通过输入每一个句子中的单词，

表示前向网络的隐藏层状态，

代表反向网络的隐藏层状态，将二者相加，进行平均池化，得到经过平均池化后得到的词的注意力，并且根据第二层神经网络的隐藏状态得到该藏文新闻的已生成摘要d，公式如下：

其中：

与

代表句子层面的前向以及后向的隐藏层状态；N_d表示该文档中的句子个数。

得到已生成摘要d后，结合隐藏层状态和位置信息共同决定句子是否被选取，得到最终训练子句。

句子选取的概率计算公式如下：

其中：

h_j是将双向GRU神经网络中第二层的隐藏层的前向和后向状态拼接而成的向量；W_d,W_c,W_s,W_r,W_ap,W_rp,b均为模型可训练参数，通过调整可训练参数训练模型(当句子选取概率变化非常小，几乎不再变化的时候就是模型已经训练好的表示)；y_i代表这句话是否被摘要选中(选中的结果为1)；d表示已生成摘要；W_ch_j是已生成摘要的编码；

是已生成摘要与句子级隐藏层的乘积，表示了抽取出摘要的显著性；减去

是为了之后生成的摘要可以与之前抽取的句子在语义上减少重复；

是绝对位置向量；

是相对位置向量；S_j是第j个位置的动态摘要表示，其公式表示如下：

h_i和h_j，s_i和s_j等参数意思类似，i，j代表了不同的位置，位置可以理解为不同的词。

A5、将最终训练子句作为摘要模型中的编码-解码模块输入，训练编码-解码模块。具体为：

编码-解码模块由两个循环神经网络组成。编码-解码模块如图2所示。一个神经网络负责接收已经抽取出来的最终训练子句，将最终训练子句编码为一个内容向量，供后面的解码器使用。

在本发明实施例中，用于编码的循环神经网络中添加了注意力机制。注意力机制的框架如图3所示，计算公式如下：

Y_i＝softmax(S_t)

e_i,j＝a(s_i-1,h_j)

其中，Y_i为已生成摘要的第i个词，由Y_i-1，s_i，c_i由三个状态决定；s_i表示i时刻的隐藏状态，由c_i，s_i-1，Y_i-1决定；c_i表示注意力机制加权后的内容向量；e_i,j表示解码阶段隐层状态s_i与编码状态h_ij(h_ij表示的是编码状态，代表从i到j个词的编码向量)的线性组合；α_i,j表示注意力机制学习到的每一个词的权重；e_i,k表示解码阶段隐层状态s_i与编码状态h_ik(h_ik表示的是编码状态，代表从i到k个词的编码向量)的线性组合。

而针对藏文OOV(out-of-vocabulary)问题，在用于解码的循环神经网络中通过在解码端使用指针网络的方式来解决。通过在解码器端设置一个指针的结构，来决定循环神经网络生成的摘要是从源文本中复制而来，还是从词表中选择。若解码器从源文本中复制词，而该词并没有出现在词表当中，则摘要就包含了未登陆词(是指一些不常用的人名，地名，组织机构名称)，增加了摘要的新颖性以及准确性。网络结构有两个模式，复制模式P和生成模式G，P表示从源文本中复制，生成模式G表示从词表中复制。

指针网络在注意力机制上做了一些改进，指针网络没有将注意力分布和编码器隐藏状态整合成上下文向量，而是直接利用softmax函数将其转换为指向输入序列的指针，即指向输入序列中最有可能是输出的元素，改进后的计算公式如下：

p(C_i|C₁,...,C_i-1,X)＝softmax(e^t)

其中：

C_i表示注意力机加权后的内容向量；X表示输入序列；

表示解码器在时间t时，对编码器时间为i时刻的关注度；

使用softmax将输入的词进行一个概率分布之后，就可以选取原文中概率最高的词作为当前摘要结果的输出。编码-解码模块训练成功标准是概率值趋于稳定值。

S401、基于双层的双向GRU神经网络模块和摘要子句获取最终摘要子句。具体为：

将摘要子句输出到训练好的双层的双向GRU神经网络中，输出最终摘要子句。

S402、基于编码-解码模块和最终摘要子句获取理解式文本摘要。

具体为：

将输出的最终摘要子句作为训练好的编码-解码模块的输入，经过编码-解码模块的处理，生成理解式文本摘要。

为验证本发明实施例的有效性，进行了以下实验：

1、参数设置

实验中需要对TextRank以及双层的双向GRU神经网络的参数进行设置，TextRank算法的参数设置结果如表1所示，双层的双向GRU神经网络的参数设置如表2所示：

表1 TextRank的参数设置

参数	值
		基尼系数	0.75
最大迭代次数	1000
		停止迭代值	0.001
冗余系数	0.5

表2双层的双向GRU神经网络的参数设置

2、语料来源及实验数据集

语料来源为自然语言处理实验室舆情项目。项目使用java爬虫架构，根据不同的藏文新闻网站页面的前端HTML/CSS代码，爬取网页新闻的内容(content)以及标题(title)，并爬取新闻的类别可以用作以后的藏文文本分类任务，最后以UTF-8的编码方式存储在Mysql数据库当中。爬虫程序每天凌晨实时更新，保证最新的新闻都会被收集起来，从而保证了语料来源在时间跨度上的覆盖，每一个网站每天大约会爬取大约100篇左右的新闻数量，一共从各大网站上搜集了大约5W篇藏文的新闻用于文本摘要的实验。新闻来源以及网址如表3所示。

表3藏文新闻数据来源

网站中文名	网址
		人民网藏文版	http://tb.tibet.cn
海西州人民政府网	<u>http://www.zw.haixi.gov.cn/</u>
		中国藏族铁通音乐网	<u>http://ti.tibet3.com</u>
宗喀巴网	<u>http://bo.jetsongkhapa.org/</u>
		新华网西藏频道	<u>http://xizang.news.cn/</u>
甘南香巴拉在线	http://tb.gnxblzx.com/

藏文在语言学中属于汉藏语系，有着自己本身的语言特点，本发明实施例的实验中采用的藏文是目前应用比较广泛的藏文小字符集。从数据库中取到藏文的新闻标题对之后，对其做相应的处理，包括分词、分句、构建词典等，数据预处理是自然语言处理中很重要并且复杂的一个点，很多自然语言处理的工作都集中在预处理的过程当中，并且，由于基于深度学习的方法是基于数据驱动的，所以预处理的过程很大程度上影响着实验模型结果的好坏。

本发明实施例的实验中对爬取下来的藏文新闻以及标题做如下处理

1)首先用开源的藏文分词工具tip-las进行分词，tip-las有三种模式，分词、词性标注、分词+词性标注，仅选择分词模式，并根据词频选出排名前5000的词汇作为藏文生成词典。

2)将词汇使用不同的表示方式使用gensim生成word2vec以及fasttext词向量，之后根据藏文单垂符“|”将新闻切分成短句。

3)将新闻用不同的方法抽取出关键词，用于摘要效果的评测。藏文新闻预处理流程如图4所示。

3、评价指标

摘要评测从广义角度上可以分为内部评价法以及外部评价法，内部评价法是将生成摘要的结果使用一个统一的标准进行评价，外部评价法指的是将文本摘要的结果使用在下游任务当中，来评测摘要结果的好坏。目前文本摘要评测方法主要是由Chin-YewLin等人参考了机器翻译的自动评价方法BLEU，提出的ROUGE(Recall-Oriented Understudy forGisting Evaluation)评价方法。该方法首先由多个专家分别生成人工文摘，构成标准文摘集。然后将***生成的自动文摘与人工生成的标准文摘相对比，统计二者之间重叠的基本单元的数目，来评价文摘的质量，该方法现已成为文摘评价技术的通用标准之一。ROUGE系列评价指标包括ROUGE-N、ROUGE-L、ROUGE-S、ROUGE-W。其中ROUGE-N是最为常用的指标，ROUNGE-N是基于n-gram共现统计，n一般为[1，4]，计算公式如下：

其中Re fsummaries代表参考摘要，Count(n-gram)表示参考摘要中n-gram的个数，Count_match(n-gram)代表生成的摘要中，与参考摘要中共同包含n-gram的个数。不同的方法，在不同类型的文摘评测上有着不同的效果。本发明实施例的实验中采用最为常用的ROUGE-1，ROUGE-2，ROUGE-L，作为摘要结果的评测指标。

基于关键词的摘要评测方法

目前，基于Rouge的评测方法也有许多争议，可能并不能很好的表示出原文的内容，为了体现摘要是否能够覆盖原文内容，通过上述提取关键词的方法将关键词提取，进而通过摘要中出现的关键词，占全部关键词的百分比作为摘要的评测指标。

4、实验及结果分析

(1)抽取式Rouge结果分析

从新闻中抽取两个分值最高的句子作为摘要进行评测，评测指标为Rouge-1、Rouge-2、Rouge-l三种，使用的方法为：

TF-IDF:使用基于TF-IDF的方法计算句子权值，抽取句子。

TR+Tf:使用TextRank算法，相似度计算利用传统的词的共现矩阵的方法。

TR+word2vec:使用TextRank算法，句子相似度计算使用word2vec向量加权平均的方式。

TR+FastText:使用TextRank算法，句子相似度计算使用FastText向量加权平均的方式。

Bi-RNN:在抽取式神经网络模型中，使用双向神经网络模型，其中神经元细胞(cell)为普通的RNN结构。

Bi-RGRU:在抽取式神经网络模型中，使用双向神经网络模型，其中神经元细胞为GRU结构。

评测结果如表4所示。

表4 Rouge评测结果(单位:％)

从表中可以看出，相比于FastText，Word2vec的效果更好一些，这也有一部原因分来自于官方FastText的向量掺杂许多英文与中文的无关词向量导致。基于TF-IDF的方法与TextRank与词频相结合的方法效果类似，并且其摘要也大致相同。由于只考虑句子权值，对句子长度没有要求，所有算法均从原文中抽取两句话作为摘要，所以使用TF-IDF方法抽取的句子长度都很长，评分也较高一些。但如果将句子长度的因素考虑进去，TextRank算法的效果是最突出的。

基于神经网络的算法，虽然表现不如TextRank算法好，但是由于使用的语料是通过TextRank算法标注出来的语料，在错误累加的情况下效果较差。由于基于神经网络的深度学习方法主要依赖于大数据驱动的，所以，如果使用标注好的语料效果会有一定的提升。并且使用GRU神经网络单元的模型比基于RNN单元的神经网络模型效果提升约两个百分点。

(2)时间对比

实验中，统计了1W语料中，各模型所用的时间如图5所示：

从图中可以看出，使用TF-IDF的计算量最小，时间最短，使用TextRank算法并使用词的共现矩阵做相似度计算，时间复杂度也较小，使用词向量的时间复杂度很高，并且FastText词向量维度更大，时间会有更大的增长，并且在实验过程中每一次都达到了最大的迭代次数。相反，使用神经网络算法的Bi-RNN以及Bi-GRU(双层的双向GRU神经网络)的实验用时较少，并且Rouge的评测值较高，更加适用与大规模语料的抽取，只要训练出模型，可以快速的，一劳永逸的得到抽取的结果。

(3)抽取式摘要关键词覆盖度

除Rouge外，还使用了关键词覆盖程度来评测藏文结果的好坏。如图6所示。

从每一篇藏文新闻中，抽取20个关键词，从实验结果看出，虽然基于TF-IDF的方法抽取的摘要很长，但是其关键词的覆盖程度相比于其他方法较差。并且，虽然基于TextRank方法与词向量相结合之后在藏文标题摘要的Rouge评测中得到了很好的结果，但是在关键词覆盖上与基于神经网络的方法相差不多。

(4)理解式Rouge评测

实验中，为了凸显出本发明实施例的摘要模型将抽取式方法和生成式方法相结合的优势，将藏文新闻直接使用编码-解码模块，结合注意力机制，与指针网络的三种方法，与使用本发明实施例的摘要模型将句子抽取后的三种方法做对比，不使用本发明实施例的摘要模型的方法称为Default。Rouge-1评测结果如图7所示，Rouge-2评测结果如图8所示，Rouge-L评测结果如图9所示。

从图中可以看出，使用本发明实施例的摘要模型的方法表现要明显优于基于传统的方法，大大的提到了摘要的准确性和可读性，而结果也从侧面应征了，抽取式摘要的结果要好于理解式摘要的结果。另外，由于语料以及模型的限制，不进行句子抽取的藏文新闻直接生成的结果大多为0，仅仅在与注意力机制结合之后才会在Rouge1的评测结果上有0.4左右的结果，最能体现出摘要的新颖性和连贯性的Rouge-2以及Rouge-l两种评测指标为0。可以认为在篇章的理解上学到的东西为0。采用本发明实施例的摘要模型之后，值有了明显的改变，并且，基于指针网络的网络从原文复制词汇之后，与标题的重合度会有很大的提升，从而在结果上平均提升了2％左右。

(5)理解式摘要关键词覆盖度评测

同样采用关键词覆盖度的方式来评测摘要结果的好坏，由于神经网络解码过长文本导致的梯度消失和***的问题，直接使用藏文新闻做摘要输出的结果与可读性都很差，结果基本为0，输出的结果中，有着输入文本，但是不输出结果，以及输入文本，输出只是特定的符号，并且一直在重复自身。所以并不展示这一方面的实验结果，这里给出了使用本发明实施例的摘要模型之后，使用Seq2Seq模型、Seq2Seq+Attention模型、结合指针网络与结合覆盖机制的四种方法的关键词覆盖度，如图10所示。

从结果中可以分析出，使用指针网络从原文复制单词之后，得到的结果有着7％的提升，因为有很多关键词，例如人民、地名、组织机构名未出现在词典当中，但是依然很关键，能表达出原文的内容，使用指针网络可以解决这种问题，而不在受限于词典的大小。

本发明实施例还提供一种藏文文本摘要生成***，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

可理解的是，本发明实施例提供的上述藏文文本摘要生成***与上述藏文文本摘要生成方法相对应，其有关内容的解释、举例、有益效果等部分可以参考藏文文本摘要生成方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例采用预设的摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子，去掉冗余信息，方便加快后续的处理过程，然后采用预设的摘要模型中的编码-解码生成理解式文本摘要。本发明实施例在编码-解码模块的解码端利用指针网络提高了藏文OOV词的处理精度，提高了摘要的可读性和新颖性。

2、本发明实施例引入TextRank算法对用于训练的预藏文文本集进行标记，作为摘要模型的输入，解决藏语标记语料库缺乏的问题。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种藏文文本摘要生成方法，其特征在于，包括以下步骤：

获取待生成摘要的藏文文本；

对所述藏文文本进行预处理；

2.如权利要1所述的藏文文本摘要生成方法，其特征在于，所述预处理包括：

并按照藏文边陲符号进行分句，得到子句。

3.如权利要求1任一所述的藏文文本摘要生成方法，其特征在于，所述预设的预设的摘要模型的构建过程包括：

获取训练所需的藏文文本集；

对藏文文本集进行预处理，得到初始子句；

将模型训练子句输入到摘要模型，对摘要模型进行训练。

4.如权利要求3所述的藏文文本摘要生成方法，其特征在于，所述基于TextRank算法对预处理后的藏文文本集进行标记处理，获取模型训练子句，包括：

WS(S_i,S_j)＝cos(S_i1...S_in,S_j1...S_jn)

其中：

WS(S_i,S_j)表示词的相似度；

S_i和S_j表示词向量；

cos表示词之间的余弦距离；

n表示词向量维度的大小；

迭代算法直至收敛，计算公式如下：

WS(V_i)表示的就是任一词V_i的权重；

d表示基尼系数；

W_ij表示节点V_i，V_j之间边的权重；

In(V_i)为指向节点V_i的节点集合；

Out(V_i)为点V_i指向的节点集合；

X_i＝(X₁f₁+X₂f₂+...X_kf_k)/n

其中：

X_i表示句子i的最新权重值；

f₁+f₂+...+f_k＝n，f1，f2，…，f_k叫做权；

X₁到X_k-1表示该初始子句与其他权重高的k-1个初始子句的相似度；

X_k表示该初始子句与主题句的相似度；

f₁到f_k表示加权的权值，其中f₁到f_k-1表示的是惩罚系数，起到权重降低的效果，f_k表示与主题句的相似度，起到权重提高的效果。

5.如权利要求3所述的藏文文本摘要生成方法，其特征在于，所述将模型训练子句输入到摘要模型，对模型进行训练，包括：

6.如权利要求1～5任一所述的藏文文本摘要生成方法，其特征在于，所述编码-解码模块包括：

7.如权利要求1～5任一所述的藏文文本摘要生成方法，其特征在于，所述注意力机制的计算公式如下：

Y_i＝softmax(S_t)

e_i,j＝a(s_i-1,h_j)

其中：

Y_i为已生成摘要的第i个词，由Y_i-1，s_i，c_i三个状态决定；

s_i表示i时刻的隐藏状态，由c_i，s_i-1，Y_i-1决定；

c_i表示注意力机制加权后的内容向量；

e_i,j表示解码阶段隐层状态s_i与编码状态h_ij的线性组合，h_ij表示的是编码状态，代表从i到j个词的编码向量；

α_i,j表示注意力机制学习到的每一个词的权重；

e_i,k表示解码阶段隐层状态s_i与编码状态h_ik的线性组合，h_ik表示的是编码状态，代表从i到k个词的编码向量。

8.如权利要求1～5任一所述的藏文文本摘要生成方法，其特征在于，所述指针网络包括：

p(C_i|C₁,...,C_i-1,X)＝softmax(e^t)

其中：

C_i表示注意力机加权后的内容向量；

X表示输入序列；

表示解码器在时间t时，对编码器时间为i时刻的关注度；

表示输入是最后一个时刻所对应的e^t；

S_t为解码器在时间t时的输出；h_i是编码器在时间i时的输出；

v，W_h，W_s均表示可学习的参数。

9.一种藏文文本摘要生成***，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至8任一所述方法的步骤。