CN110442866A

CN110442866A - 一种融合语法信息的句子压缩方法

Info

Publication number: CN110442866A
Application number: CN201910685953.9A
Authority: CN
Inventors: 赫志峰; 陈诚; 蔡瑞初; 陈炳丰; 温雯; 王丽娟; 陈渝升
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-07-28
Filing date: 2019-07-28
Publication date: 2019-11-12

Abstract

本发明涉及句子压缩领域，公开了一种融合语法信息的句子压缩方法，包括步骤：S1、对句子压缩网络中的参数进行随机初始化；S2、从数据集获取压缩前句子的序列、词性序列和对应的压缩序列标签；S3、以时间步为单位，将原句子序列的每个单词以及词性序列中对应词性依次输入到网络中所对应的编码器中去；S4、把单词网络编码器最后一个时间步的隐状态作为单词解码器的初始隐状态，将词性网络编码器的最后一个时间步的隐状态作为词性解码器的初始隐状态；S5、将原句子序列的每个单词以及词性序列中对应词性依次输入到对应的解码器中；S6、生成标签的概率分布；S7、通过选择最大概率来得到当前输入单词的标签。可以有效简单通过语法信息进行句子压缩。

Description

一种融合语法信息的句子压缩方法

技术领域

本发明涉及句子压缩领域，特别是涉及一种融合语法信息的句子压缩方法。

背景技术

近年来，随着计算机处理技术的高速发展，人们更精炼快速地捕获重要信息。句子压缩是一种将冗长句子转换成精炼简洁句子的方法。该技术广泛用于主题自动获取、摘要生成、问答***等技术中。

这项技术已经研究了将近20年。早期的工作主要依赖于语法信息来进行判断，比如早期关于这项任务的工作主要依赖于句法信息，例如基于选区的解析树(parse trees)，以帮助决定从句子中修剪什么或如何重写句子。近年来，随着深度学习的发展，人们对于使用神经网络来解决这个问题非常感兴趣。神经网络算法是一种数据驱动型模型，由于其强大的特征提取能力，我们可以节约大量的人力物力。

句子压缩任务是序列到序列(Sequence to Sequence)任务，通过对原句使用编码器进行编码得到隐含的表示向量，再将隐含向量使用解码器进行删除决策最终得到压缩后的句子。编码器-解码器框架是常用的一类用来解决端到端序列到序列问题的方案。其基本组成结构首先是使用循环神经网络来构成一个编码器，使用这个编码器对输入序列X＝{x₁,x₂,x₃,...,x_n}进行编码，生成一个隐含输入信息的固定长度的向量h_en。再将这个隐含向量丢入到使用另外一个循环网络构成的解码器中去，依次对输出的标签进行预测，预测序列

但是现有的句子压缩方法需要标注大量的人工特征，人工成本巨大，压缩效率不高。

发明内容

本发明的目的是提供一种融合语法信息的句子压缩方法，能够通过考虑语法信息从而进行句子简单有效的压缩。

为了解决上述技术问题，本发明提供一种融合语法信息的句子压缩方法，包括以下步骤：

S1、对句子压缩网络中的参数θ进行随机初始化；

S2、从数据集获取压缩前句子的序列X＝{x₁,...,x_n}、词性序列S＝{s₁,...,s_n}和对应的压缩序列标签Y_real＝{y₁,...,y_m}；

S3、以时间步为单位，将原句子序列X的每个单词以及词性序列S中对应词性依次输入到网络中所对应的编码器中去；

S4、把单词网络编码器最后一个时间步的隐状态h_xen作为单词解码器的初始隐状态h_xd0，将词性网络编码器的最后一个时间步的隐状态h_sen作为词性解码器的初始隐状态h_sd0；

S5、以时间步为单位，同样将原句子序列X和词性序列S中的每个单词输入到所对应的单词解码器和词性解码器中；

S6、编码器接收上一个时间步预测出的标签拼接当前时间步的单词或词性输入，使用当前时间步的词性解码器的输出做为当前时间步的单词解码器输出语法门控，生成标签的概率分布

S7、通过选择最大概率来得到当前输入单词的标签

其中，网络的损失函数为：

利用梯度下降算法更新整体网络参数，梯度公式如下，其中α为学习率：

作为优选方案，所述句子压缩网络是一种可调节数值的网络；所述参数是指在人工神经网络中被调节的权重，是被学习算法调节的数值参数；权重则为神经元之间的连接强度。

作为优选方案，所述步骤S2中的数据集是由人工或者机器采集，是一种原句子-压缩句子数据对，按比例拆分为训练集和测试集分别用于训练学习网络和评价网络的可靠性。

作为优选方案，所述时间步是循环神经网络在处理序列数据按时间单位输入；其中所述词性网络编码器和词性解码器是一个长短期记忆网络；所述单词网络编码器结构是一个带有短路结构的三层长短期记忆网络，单词解码器部分为长短期记忆网络的一种变体，增加了语法门控使得语法输出能够对标签的输出进行控制。

作为优选方案，所述步骤S5根据网络结构和参数权重，输出层映射是否保留当前单词的标签。

作为优选方案，所述梯度下降算法如下：

假设有一个关于神经网络的参数θ的目标函数J(θ)

计算J(θ)的梯度：

以学习率α(α>0)更新参数θ，

梯度下降算法是一种迭代求解最小值的算法，它能够在迭代的过程中使得J(θ)减小，直至达到局部或全局最小值。

本发明具有以下有益效果：

本发明的融合语法信息的句子压缩方法，通过对长句子进行压缩，能够让人们更为精炼快速地捕获重要信息，通过对句子进行压缩能够将冗长的句子转换成精炼而简洁的句子；与传统的基于依赖树的方法对比，本发明不需要标注大量的人工特征，节约了大量的人力；而与传统的基于序列到序列的句子压缩方法相比，本发明通过加入语法门控的形式来改进长短期记忆网络，通过融入词性序列来作为输出的辅助序列，能够有更强的泛化能力和可迁移性。本发明是一种简单有效的融合语法信息的句子压缩方法，具有实际应用意义。

附图说明

图1是本实施例的融合语法信息的句子压缩方法流程图；

图2是本实施例的融合语法信息的句子压缩方法原理图；

图3是本实施例的融合语法信息的句子压缩方法的序列到序列的流程图；

图4是本实施例的融合语法信息的带有语法门控的长短期记忆网络内部图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1、图2和图3，本发明优选实施例中一种融合语法信息的句子压缩方法，以Googl e News为实施例对象，包括以下步骤：

S1、对句子压缩网络中的参数θ进行随机初始化；

S2、Google News数据集是从谷歌新闻中获取的原句-压缩句词对。从数据集获取压缩前句子的序列X＝{x₁,...,x_n}、词性序列S＝{s₁,...,s_n}和对应的压缩序列标签Y_real＝{y₁,...,y_m}；

S7、通过选择最大概率来得到当前输入单词的标签

其中，网络的损失函数为：

本发明优选实施例的融合语法信息的句子压缩方法，通过对长句子进行压缩，能够让人们更为精炼快速地捕获重要信息；通过对句子进行压缩能够将冗长的句子转换成精炼而简洁的句子；与传统的基于依赖树的方法对比，本发明不需要标注大量的人工特征，节约了大量的人力；而与传统的基于序列到序列的句子压缩方法相比，本发明通过加入语法门控的形式来改进长短期记忆网络，通过融入词性序列来作为输出的辅助序列，能够有更强的泛化能力和可迁移性。本发明是一种简单有效的融合语法信息的句子压缩方法，具有实际应用意义。

在本发明的优选实施例中，所述句子压缩网络是一种可调节数值的网络；所述参数是指在人工神经网络中被调节的权重，是被学习算法调节的数值参数；权重则为神经元之间的连接强度。

在本发明的优选实施例中，所述步骤S2中的Googl e News数据集是一种通过依赖树剪枝的算法进行得到的删除式的原句-压缩句句子对，其中得到的压缩句是原句子的子句因而可以得到原句所对应的标签。

参见图4，在本发明的优选实施例中，所述时间步是循环神经网络在处理序列数据按时间单位输入；其中所述词性网络编码器和词性解码器是一个长短期记忆网络；所述单词网络编码器结构是一个带有短路结构的三层长短期记忆网络，单词解码器部分为长短期记忆网络的一种变体，增加了语法门控使得语法输出能够对标签的输出进行控制。

在本发明的优选实施例中，所述步骤S5根据网络结构和参数权重，输出层映射是否保留当前单词的标签。

在本发明的优选实施例中，所述梯度下降算法如下：

假设有一个关于神经网络的参数θ的目标函数J(θ)

计算J(θ)的梯度：

以学习率α(α>0)更新参数θ，

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种融合语法信息的句子压缩方法，其特征在于，包括以下步骤：

S1、对句子压缩网络中的参数θ进行随机初始化；

S7、通过选择最大概率来得到当前输入单词的标签

其中，网络的损失函数为：

2.如权利要求1所述的融合语法信息的句子压缩方法，其特征在于:所述句子压缩网络是一种可调节数值的网络；所述参数是指在人工神经网络中被调节的权重，是被学习算法调节的数值参数；权重则为神经元之间的连接强度。

3.如权利要求1所述的融合语法信息的句子压缩方法，其特征在于:所述步骤S2中的数据集是由人工或者机器采集，是一种原句子-压缩句子数据对，按比例拆分为训练集和测试集分别用于训练学习网络和评价网络的可靠性。

4.如权利要求1所述的融合语法信息的句子压缩方法，其特征在于:所述时间步是循环神经网络在处理序列数据按时间单位输入；其中所述词性网络编码器和词性解码器是一个长短期记忆网络；所述单词网络编码器结构是一个带有短路结构的三层长短期记忆网络，单词解码器部分为长短期记忆网络的一种变体，增加了语法门控使得语法输出能够对标签的输出进行控制。

5.如权利要求2所述的融合语法信息的句子压缩方法，其特征在于:所述步骤S5根据网络结构和参数权重，输出层映射是否保留当前单词的标签。

6.如权利要求1所述的融合语法信息的句子压缩方法，其特征在于:所述梯度下降算法如下：

假设有一个关于神经网络的参数θ的目标函数J(θ)

计算J(θ)的梯度：

以学习率α(α>0)更新参数θ，