CN113312473B

CN113312473B - 基于Seq2seq模型的摘要生成方法

Info

Publication number: CN113312473B
Application number: CN202110580129.4A
Authority: CN
Inventors: 郭树理; 宋晓伟; 韩丽娜; 杨文涛; 王国威
Original assignee: Hainan College Of Software Technology; Beijing Institute of Technology BIT; Second Medical Center of PLA General Hospital
Current assignee: Hainan College Of Software Technology; Beijing Institute of Technology BIT; Second Medical Center of PLA General Hospital
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-06-07
Anticipated expiration: 2041-05-26
Also published as: CN113312473A

Abstract

本发明涉及一种基于Seq2seq模型的摘要生成方法，属于自然语言生成领域。该方法首先将待生成摘要的文本转化为词向量序列；然后将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。进一步的，对Seq2seq模型中的Encoder编码模型进行了改进，重新定义了LSTM隐层单个细胞节点的输入门和遗忘门结构；对Encoder训练过程中用到的损失函数进行了优化，将训练数据分为子***，根据不同子***属性的不同选取适合于子***特性的损失函数，并根据条件信息熵来计算不同子***所含信息量的多少，将条件信息熵作为子***损失函数的权重得到***的损失函数。对比现有技术，本发明首次将翻译模型Seq2seq用于摘要生成，并根据摘要特点，对Seq2seq进行改进，提高了其在摘要生成时的训练速度和精度。

Description

基于Seq2seq模型的摘要生成方法

技术领域

本发明涉及一种摘要生成方法，特别涉及一种基于Seq2seq模型的摘要生成方法，属于人工智能自然语言生成技术领域。

背景技术

随着社会发展进入大数据时代，各色各样的文本信息出现在人们的日常生活中，微博、微信、新闻等大量的文本信息无时无刻不出现在人们周围，这导致人们被大量无用的信息所干扰，从而无法获取到有用的信息。如果人们在看到大量的文本信息前，首先看到这些文本的摘要，进而确定此文本是否为自己需要的有用信息，这样就可以大大减少被无用信息干扰的可能性，从而方便人们的生活工作。但是无论是互联网海量的数据资源，还是医院中病历等专业信息，一般都没有摘要，如果要为这些文件提供摘要，将会耗费大量的人力资源，并且像病历这类专业的文件需要专业的医生来整理，否则可能会产生差异化不准确的摘要信息，影响数据的使用。随着人工智能技术的逐渐发展与完善，特别是神经网络技术的不断应用，用机器来为文章自动生成摘要迫在眉睫。

发明内容

本发明的目的为了解决当前信息***时代文本数据量大、信息种类多且繁杂和阅读效率低的问题，提供一种基于Seq2seq模型的摘要生成方法。

本发明的目的是通过以下技术内容实现的。

一种基于Seq2seq模型的摘要生成方法，包括以下内容：

将待生成摘要的文本转化为词向量序列；

将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。

作为优选，对所述Seq2seq模型中的Encoder编码模型进行修改，将LSTM隐层单个细胞节点的输入门和遗忘门结构计算公式改进如下:

其中，I表示输入节点数，H表示输出节点数，C表示隐藏节点数，w_il表示输入门中输入节点i到隐藏节点l的连接权重，

表示t时刻第i个节点的输入，γ_b表示输入门中输出节点系数，w_hl表示输入门中输出节点h到隐藏节点l的连接权重，

表示t时刻第h个节点的输出，γ_s表示输入门中隐藏节点系数，w_cl表示输入门中隐藏节点c到隐藏节点l的连接权重，

表示t时刻第c个节点的状态，

表示t时刻输入门的状态，

表示t时刻输入门的输出，g(·)表示输入门的激活函数，w_iφ表示遗忘门中输入节点i到隐藏节点φ的连接权重，λ_b表示遗忘门中输出节点系数，w_hφ表示遗忘门中输出节点h到隐藏节点φ的连接权重，λ_s表示遗忘门中隐藏节点系数，w_cφ表示遗忘门中隐藏节点c到隐藏节点φ的连接权重，

表示t时刻遗忘门的状态，

表示t时刻遗忘门的输出，f(·)表示遗忘门的激活函数，||·||^*表示核范数，max(·)表示最大值函数。

作为优选，对所述Seq2seq模型中的Encoder编码模型训练过程中用到的损失函数进行如下优化：

①训练过程中每次训练数据输入文本信息和输出信息“摘要”视为一个整体信息***，利用输入文本信息的属性信息将整体信息分为不同属性的子***；

所述整体信息***是一个三元组S＝〈X,Y,C〉，其中X＝{x₁,x₂,...,x_i,...,x_n}，为训练过程中的输入文本数据，n为输入文本中所含不同属性文本的个数，x_i为整体输入文本中不同属性的子文本每种属性的文本视为一个子***；Y＝{y₁,y₂,...,y_i,...,y_n}，为训练过程的输出摘要文本，其中y_i与x_i对应，为将整体摘要拆分后，与x_i相对应的输入文本生成的摘要句子数据；C＝{c₁,c₂,...,c_i,...,c_n}是输入数据的条件属性标签，所述子***为根据输入文本的属性标签拆分得到的，(x_i,y_i|c_i),i＝1,2,...,n，表示第i个子***；

②根据每个子***的输入数据属性标签，选取针对于子***合适的损失函数L₁,L₂,...,L_n；

③利用每个子损失函数的自适应权重SGF(c_i)，将所有子损失函数融合得到总***的初始损失函数：

L₀＝SGF(c₁)L₁+SGF(c₂)L₂+...+SGF(c_n)L_n

作为优选，所述子损失函数的自适应权重SGF(c_i)的计算公式为：

其中H(c_i)为第i个子***的条件信息熵，H(C)为整体***的信息熵，为各子***信息熵累加得到。

作为优选，所述H(c_i)通过下式计算：

其中p(x_i,y_i)为第i个子***文本信息和摘要信息同时发生的概率，p(y_i)为第i个子***摘要信息发生的概率。

④针对当前训练数据的特性，计算自适应权重w(p,q)，用于对初始损失函数进行自适应动态惯性调整；

w(p,q)＝f_g(Δg_pq)·f_s(Δs_pq)

其中，f_g(Δg_pq)和f_s(Δs_pq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重；

作为优选，所述数值上的权重f_g(Δg_pq)根据局部数据相似性原则函数进行定义，同时为了保证算法的实时性要求和上下文流畅性，利用多次幂多项式核函数C_d(x,y)定义数值上的权重f_g(Δg_pq)为：

其中a为截断值，与数据值的整体分布有关，依据经验决定。

作为优选，多次幂多项式核函数C_d(x,y)为

作为优选，所述空间上的权重f_s(Δs_pq)定义为服从二维正态分布，同时为了增加语言生成时上下文的连贯性，将上下文的输出数据特性也加入到权值调整过程中，此时f_s(Δs_pq)表达式为：

其中σ_x，σ_y为数据在x和y空间方向上分布系数，Q为空间权重的整体系数，与数据值的空间分布有关，依据经验决定。

⑤利用自适应权重对初始损失函数进行调整，最终得到多重融合损失函数L＝w(p,q)L₀。

有益效果：

对比现有技术，本发明具有以下效果：

①通过对seq2seq模型中Encoder部分隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值，动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度，从而在尽可能保留上下文信息的条件下提升网络训练速度。

②Seq2seq模型训练时，通过将训练数据分为子***，根据不同子***属性的不同选取适合于子***特性的损失函数，并根据条件信息熵来计算不同子***所含信息量的多少，将条件信息熵作为子***损失函数的权重得到***的损失函数，通过该方法生成的损失函数可以最大程度的结合输入数据的特征，满足不同属性输入数据对损失函数的要求，进而提升模型的训练速度和精度。

③在构建***的损失函数中，利用自适应动态惯性权重对函数进行调整，所述自适应动态惯性权重主要由空间权重和数值权重组成，可以利用权重提取训练数据在不同时刻空间和数值上的特征，自适应的动态调整损失函数对当前训练数据的适应能力，同时平滑融合损失函数带来的不确定性，提升损失函数的适应能力。

附图说明

图1为基于条件信息熵和自适应动态惯性权重调整的损失函数的工作流程图；

图2为Seq2seq模型的训练速度示意图；

图3为本发明改进的Seq2seq模型训练速度示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例当中的技术方案进行清楚、完整地描述，需要说明的是，本说明书所附图中示意的公式等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，任何公式的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

实施例1

一种基于Seq2seq模型的摘要生成方法，包括以下内容：

将待生成摘要的文本转化为词向量序列；

该步骤可以采用现有的分词工具对待生成摘要的文本进行分词，如最大匹配分词法、全切分分词算法、隐马尔可夫模型，然后，对分词构造词向量，该步骤也可以采用现有的词向量工具实现，如one-hot编码、Distributed编码等。

将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。

进一步的，由于现有Seq2seq模型在摘要生成训练过程缓慢，耗费时间过长通过分析其编码结构，发现可以通过对隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值调整，动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度，从而在尽可能保留上下文信息的条件下提升网络训练速度。

具体的，对所述Seq2seq模型中的Encoder编码模型的改进为，将LSTM隐层单个细胞节点的输入门和遗忘门计算公式做出了改进，利用核函数计算每个隐层所蕴含的原文本语义信息，并选取当前数值最大项作为当前输入门和遗忘门的系数，从而进一步强化对之前信息的记忆或者遗忘程度，提升编码模型的训练速度。LSTM模型每一个细胞节点的输入门和遗忘门结构计算如下:

进一步的，由于现有Seq2seq模型应用于摘要生成时，输入数据过于庞大而复杂，包含不同属性类型的数据，通过分析其损失函数，发现单一损失函数无法满足多样化输入数据对损失函数的要求，进而造成训练耗费时间长，模型精度不高的问题，可以通过对样本分类，对每个分类样本单独设置损失函数，并在训练过程中依惯性调整，最后再根据各分类的重要性程度进行融合，从而极大地减少模型训练时间，增加模型精度。

具体的，如图1所示，损失函数优化过程如下：

①将训练过程中每次训练数据输入文本信息和输出信息摘要视为一个整体信息***，利用输入文本信息的属性信息(如数据、引言、方法描述和总结等)将整体信息分为不同属性的子***。

所述整体信息***是一个三元组S＝〈X,Y,C〉，其中X＝{x₁,x₂,...,x_n}，为训练过程中的输入文本数据，n为输入文本中所含不同属性文本的个数，x_i为整体输入文本中不同属性的子文本，如数据文本和引言文本等，每种属性的文本视为一个子***；Y＝{y₁,y₂,...,y_n}，为训练过程的输出摘要文本，其中y_i与x_i对应据，为将整体摘要拆分后，与x_i相对应的输入文本生成的摘要句子数据；C＝{c₁,c₂,...,c_n}是输入数据的条件属性标签，即数据、引言、方法描述和总结等标签。所述子***为根据输入文本的属性标签拆分得到的(x_i,y_i|c_i),i＝1,2,...,n子***。

②根据每个子***的输入数据属性标签c_i，选取针对于子***合适的损失函数L₁,L₂,...,L_n。

本例假设有四项子***，由于不同属性的文本在摘要生成中所起作用不同，如摘要中很少体现数据文本的内容，而相应会侧重于体现方法描述文本的内容，因此在训练文本的过程中，可以根据不同的子***属性动态挑选不同的损失函数。根据子***的输入数据属性标签c₁-c₄，选取针对于子***合适的损失函数L₁,L₂,L₃,L₄。

L₀＝SGF(c₁)L₁+SGF(c₂)L₂+SGF(c₃)L₃...+SGF(c₄)L₄

所述子损失函数的自适应权重SGF(c_i)的计算公式为：

进一步的，设定H(c_i)通过概率实现，计算公式如下：

④针对当前训练数据的特性，计算自适应权重w(p,q)，以对函数权值进行自适应动态惯性调整。

w(p,q)＝f_g(Δg_pq)·f_s(Δs_pq)

所述步骤中的f_g(Δg_pq)和f_s(Δs_pq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重。

在训练时，一般是将样本每5—20个分为一组，每组训练时或称阶段训练时，根据本阶段训练样本特性，调整所述w(p,q)。

进一步的，所述数值上的权重f_g(Δg_pq)根据局部数据相似性原则函数进行定义，同时为了保证算法的实时性要求和上下文流畅性，利用多次幂多项式核函数C_d(x,y)定义数值上的权重f_g(Δg_pq)为：

其中a为截断值，与数据值的整体分布有关，依据经验决定。多次幂多项式核函数C_d(x,y)为

所述空间上的权重f_s(Δs_pq)定义为服从二维正态分布，同时为了增加语言生成时上下文的连贯性，将上下文的输出数据特性也加入到权值调整过程中，此时f_s(Δs_pq)表达式为：

其中σ_x，σ_y为数据在x和y空间方向上分布系数，Q为空间权重的整体系数，与数据值的空间分布有关，依据经验决定给出。

⑤利用惯性权重对初始损失函数进行调整，最终得到多种融合损失函数L＝w(p,q)L₀。

实验结果

本试验利用NLPCC 2017提供的数据集(NLPCC 2017Shared Task Data)对上述改进隐层节点和损失函数的seq2seq模型进行训练。本实验的运行环境为ubuntu18.04、python3.7、GeForce RTX 20Series，模型误差和训练速度的关系如下所示，图2为原模型的网络训练速度示意关系，图3为改进的网络训练速度示意，从图中可以看出经过改进网络模型和损失函数的seq2seq编码模型在训练过程中可以极大地提升网络的训练速度，随着训练次数的增加，改进模型的训练误差下降速度更快。

综上所述，本发明方法首次将seq2seq模型用于摘要生成，并且通过改进神经网络隐层节点结构解决了模型中隐层参数过于随机，训练困难的问题；基于改进优化的损失函数使得编码网络具有动态调节输出和优化训练能力，提升输入样本量的能力。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。