CN110442866A - 一种融合语法信息的句子压缩方法 - Google Patents

一种融合语法信息的句子压缩方法 Download PDF

Info

Publication number
CN110442866A
CN110442866A CN201910685953.9A CN201910685953A CN110442866A CN 110442866 A CN110442866 A CN 110442866A CN 201910685953 A CN201910685953 A CN 201910685953A CN 110442866 A CN110442866 A CN 110442866A
Authority
CN
China
Prior art keywords
network
sentence
speech
word
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910685953.9A
Other languages
English (en)
Inventor
赫志峰
陈诚
蔡瑞初
陈炳丰
温雯
王丽娟
陈渝升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910685953.9A priority Critical patent/CN110442866A/zh
Publication of CN110442866A publication Critical patent/CN110442866A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3097Grammar codes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/70Type of the data to be coded, other than image and sound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及句子压缩领域,公开了一种融合语法信息的句子压缩方法,包括步骤:S1、对句子压缩网络中的参数进行随机初始化;S2、从数据集获取压缩前句子的序列、词性序列和对应的压缩序列标签;S3、以时间步为单位,将原句子序列的每个单词以及词性序列中对应词性依次输入到网络中所对应的编码器中去;S4、把单词网络编码器最后一个时间步的隐状态作为单词解码器的初始隐状态,将词性网络编码器的最后一个时间步的隐状态作为词性解码器的初始隐状态;S5、将原句子序列的每个单词以及词性序列中对应词性依次输入到对应的解码器中;S6、生成标签的概率分布;S7、通过选择最大概率来得到当前输入单词的标签。可以有效简单通过语法信息进行句子压缩。

Description

一种融合语法信息的句子压缩方法
技术领域
本发明涉及句子压缩领域,特别是涉及一种融合语法信息的句子压缩方法。
背景技术
近年来,随着计算机处理技术的高速发展,人们更精炼快速地捕获重要信息。句子压缩是一种将冗长句子转换成精炼简洁句子的方法。该技术广泛用于主题自动获取、摘要生成、问答***等技术中。
这项技术已经研究了将近20年。早期的工作主要依赖于语法信息来进行判断,比如早期关于这项任务的工作主要依赖于句法信息,例如基于选区的解析树(parse trees),以帮助决定从句子中修剪什么或如何重写句子。近年来,随着深度学习的发展,人们对于使用神经网络来解决这个问题非常感兴趣。神经网络算法是一种数据驱动型模型,由于其强大的特征提取能力,我们可以节约大量的人力物力。
句子压缩任务是序列到序列(Sequence to Sequence)任务,通过对原句使用编码器进行编码得到隐含的表示向量,再将隐含向量使用解码器进行删除决策最终得到压缩后的句子。编码器-解码器框架是常用的一类用来解决端到端序列到序列问题的方案。其基本组成结构首先是使用循环神经网络来构成一个编码器,使用这个编码器对输入序列X={x1,x2,x3,...,xn}进行编码,生成一个隐含输入信息的固定长度的向量hen。再将这个隐含向量丢入到使用另外一个循环网络构成的解码器中去,依次对输出的标签进行预测,预测序列
但是现有的句子压缩方法需要标注大量的人工特征,人工成本巨大,压缩效率不高。
发明内容
本发明的目的是提供一种融合语法信息的句子压缩方法,能够通过考虑语法信息从而进行句子简单有效的压缩。
为了解决上述技术问题,本发明提供一种融合语法信息的句子压缩方法,包括以下步骤:
S1、对句子压缩网络中的参数θ进行随机初始化;
S2、从数据集获取压缩前句子的序列X={x1,...,xn}、词性序列S={s1,...,sn}和对应的压缩序列标签Yreal={y1,...,ym};
S3、以时间步为单位,将原句子序列X的每个单词以及词性序列S中对应词性依次输入到网络中所对应的编码器中去;
S4、把单词网络编码器最后一个时间步的隐状态hxen作为单词解码器的初始隐状态hxd0,将词性网络编码器的最后一个时间步的隐状态hsen作为词性解码器的初始隐状态hsd0
S5、以时间步为单位,同样将原句子序列X和词性序列S中的每个单词输入到所对应的单词解码器和词性解码器中;
S6、编码器接收上一个时间步预测出的标签拼接当前时间步的单词或词性输入,使用当前时间步的词性解码器的输出做为当前时间步的单词解码器输出语法门控,生成标签的概率分布
S7、通过选择最大概率来得到当前输入单词的标签
其中,网络的损失函数为:
利用梯度下降算法更新整体网络参数,梯度公式如下,其中α为学习率:
作为优选方案,所述句子压缩网络是一种可调节数值的网络;所述参数是指在人工神经网络中被调节的权重,是被学习算法调节的数值参数;权重则为神经元之间的连接强度。
作为优选方案,所述步骤S2中的数据集是由人工或者机器采集,是一种原句子-压缩句子数据对,按比例拆分为训练集和测试集分别用于训练学习网络和评价网络的可靠性。
作为优选方案,所述时间步是循环神经网络在处理序列数据按时间单位输入;其中所述词性网络编码器和词性解码器是一个长短期记忆网络;所述单词网络编码器结构是一个带有短路结构的三层长短期记忆网络,单词解码器部分为长短期记忆网络的一种变体,增加了语法门控使得语法输出能够对标签的输出进行控制。
作为优选方案,所述步骤S5根据网络结构和参数权重,输出层映射是否保留当前单词的标签。
作为优选方案,所述梯度下降算法如下:
假设有一个关于神经网络的参数θ的目标函数J(θ)
计算J(θ)的梯度:
以学习率α(α>0)更新参数θ,
梯度下降算法是一种迭代求解最小值的算法,它能够在迭代的过程中使得J(θ)减小,直至达到局部或全局最小值。
本发明具有以下有益效果:
本发明的融合语法信息的句子压缩方法,通过对长句子进行压缩,能够让人们更为精炼快速地捕获重要信息,通过对句子进行压缩能够将冗长的句子转换成精炼而简洁的句子;与传统的基于依赖树的方法对比,本发明不需要标注大量的人工特征,节约了大量的人力;而与传统的基于序列到序列的句子压缩方法相比,本发明通过加入语法门控的形式来改进长短期记忆网络,通过融入词性序列来作为输出的辅助序列,能够有更强的泛化能力和可迁移性。本发明是一种简单有效的融合语法信息的句子压缩方法,具有实际应用意义。
附图说明
图1是本实施例的融合语法信息的句子压缩方法流程图;
图2是本实施例的融合语法信息的句子压缩方法原理图;
图3是本实施例的融合语法信息的句子压缩方法的序列到序列的流程图;
图4是本实施例的融合语法信息的带有语法门控的长短期记忆网络内部图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1、图2和图3,本发明优选实施例中一种融合语法信息的句子压缩方法,以Googl e News为实施例对象,包括以下步骤:
S1、对句子压缩网络中的参数θ进行随机初始化;
S2、Google News数据集是从谷歌新闻中获取的原句-压缩句词对。从数据集获取压缩前句子的序列X={x1,...,xn}、词性序列S={s1,...,sn}和对应的压缩序列标签Yreal={y1,...,ym};
S3、以时间步为单位,将原句子序列X的每个单词以及词性序列S中对应词性依次输入到网络中所对应的编码器中去;
S4、把单词网络编码器最后一个时间步的隐状态hxen作为单词解码器的初始隐状态hxd0,将词性网络编码器的最后一个时间步的隐状态hsen作为词性解码器的初始隐状态hsd0
S5、以时间步为单位,同样将原句子序列X和词性序列S中的每个单词输入到所对应的单词解码器和词性解码器中;
S6、编码器接收上一个时间步预测出的标签拼接当前时间步的单词或词性输入,使用当前时间步的词性解码器的输出做为当前时间步的单词解码器输出语法门控,生成标签的概率分布
S7、通过选择最大概率来得到当前输入单词的标签
其中,网络的损失函数为:
利用梯度下降算法更新整体网络参数,梯度公式如下,其中α为学习率:
本发明优选实施例的融合语法信息的句子压缩方法,通过对长句子进行压缩,能够让人们更为精炼快速地捕获重要信息;通过对句子进行压缩能够将冗长的句子转换成精炼而简洁的句子;与传统的基于依赖树的方法对比,本发明不需要标注大量的人工特征,节约了大量的人力;而与传统的基于序列到序列的句子压缩方法相比,本发明通过加入语法门控的形式来改进长短期记忆网络,通过融入词性序列来作为输出的辅助序列,能够有更强的泛化能力和可迁移性。本发明是一种简单有效的融合语法信息的句子压缩方法,具有实际应用意义。
在本发明的优选实施例中,所述句子压缩网络是一种可调节数值的网络;所述参数是指在人工神经网络中被调节的权重,是被学习算法调节的数值参数;权重则为神经元之间的连接强度。
在本发明的优选实施例中,所述步骤S2中的Googl e News数据集是一种通过依赖树剪枝的算法进行得到的删除式的原句-压缩句句子对,其中得到的压缩句是原句子的子句因而可以得到原句所对应的标签。
参见图4,在本发明的优选实施例中,所述时间步是循环神经网络在处理序列数据按时间单位输入;其中所述词性网络编码器和词性解码器是一个长短期记忆网络;所述单词网络编码器结构是一个带有短路结构的三层长短期记忆网络,单词解码器部分为长短期记忆网络的一种变体,增加了语法门控使得语法输出能够对标签的输出进行控制。
在本发明的优选实施例中,所述步骤S5根据网络结构和参数权重,输出层映射是否保留当前单词的标签。
在本发明的优选实施例中,所述梯度下降算法如下:
假设有一个关于神经网络的参数θ的目标函数J(θ)
计算J(θ)的梯度:
以学习率α(α>0)更新参数θ,
梯度下降算法是一种迭代求解最小值的算法,它能够在迭代的过程中使得J(θ)减小,直至达到局部或全局最小值。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (6)

1.一种融合语法信息的句子压缩方法,其特征在于,包括以下步骤:
S1、对句子压缩网络中的参数θ进行随机初始化;
S2、从数据集获取压缩前句子的序列X={x1,...,xn}、词性序列S={s1,...,sn}和对应的压缩序列标签Yreal={y1,...,ym};
S3、以时间步为单位,将原句子序列X的每个单词以及词性序列S中对应词性依次输入到网络中所对应的编码器中去;
S4、把单词网络编码器最后一个时间步的隐状态hxen作为单词解码器的初始隐状态hxd0,将词性网络编码器的最后一个时间步的隐状态hsen作为词性解码器的初始隐状态hsd0
S5、以时间步为单位,同样将原句子序列X和词性序列S中的每个单词输入到所对应的单词解码器和词性解码器中;
S6、编码器接收上一个时间步预测出的标签拼接当前时间步的单词或词性输入,使用当前时间步的词性解码器的输出做为当前时间步的单词解码器输出语法门控,生成标签的概率分布
S7、通过选择最大概率来得到当前输入单词的标签
其中,网络的损失函数为:
利用梯度下降算法更新整体网络参数,梯度公式如下,其中α为学习率:
2.如权利要求1所述的融合语法信息的句子压缩方法,其特征在于:所述句子压缩网络是一种可调节数值的网络;所述参数是指在人工神经网络中被调节的权重,是被学习算法调节的数值参数;权重则为神经元之间的连接强度。
3.如权利要求1所述的融合语法信息的句子压缩方法,其特征在于:所述步骤S2中的数据集是由人工或者机器采集,是一种原句子-压缩句子数据对,按比例拆分为训练集和测试集分别用于训练学习网络和评价网络的可靠性。
4.如权利要求1所述的融合语法信息的句子压缩方法,其特征在于:所述时间步是循环神经网络在处理序列数据按时间单位输入;其中所述词性网络编码器和词性解码器是一个长短期记忆网络;所述单词网络编码器结构是一个带有短路结构的三层长短期记忆网络,单词解码器部分为长短期记忆网络的一种变体,增加了语法门控使得语法输出能够对标签的输出进行控制。
5.如权利要求2所述的融合语法信息的句子压缩方法,其特征在于:所述步骤S5根据网络结构和参数权重,输出层映射是否保留当前单词的标签。
6.如权利要求1所述的融合语法信息的句子压缩方法,其特征在于:所述梯度下降算法如下:
假设有一个关于神经网络的参数θ的目标函数J(θ)
计算J(θ)的梯度:
以学习率α(α>0)更新参数θ,
梯度下降算法是一种迭代求解最小值的算法,它能够在迭代的过程中使得J(θ)减小,直至达到局部或全局最小值。
CN201910685953.9A 2019-07-28 2019-07-28 一种融合语法信息的句子压缩方法 Pending CN110442866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910685953.9A CN110442866A (zh) 2019-07-28 2019-07-28 一种融合语法信息的句子压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910685953.9A CN110442866A (zh) 2019-07-28 2019-07-28 一种融合语法信息的句子压缩方法

Publications (1)

Publication Number Publication Date
CN110442866A true CN110442866A (zh) 2019-11-12

Family

ID=68431851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910685953.9A Pending CN110442866A (zh) 2019-07-28 2019-07-28 一种融合语法信息的句子压缩方法

Country Status (1)

Country Link
CN (1) CN110442866A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN109829161A (zh) * 2019-01-30 2019-05-31 延边大学 一种多语种自动摘要的方法
CN110059100A (zh) * 2019-03-20 2019-07-26 广东工业大学 基于演员-评论家网络的sql语句构造方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN109829161A (zh) * 2019-01-30 2019-05-31 延边大学 一种多语种自动摘要的方法
CN110059100A (zh) * 2019-03-20 2019-07-26 广东工业大学 基于演员-评论家网络的sql语句构造方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李博涵等: "深度学习在汉藏机器翻译中的应用研究", 《民族翻译》 *

Similar Documents

Publication Publication Date Title
CN112509564B (zh) 基于连接时序分类和自注意力机制的端到端语音识别方法
CN107844469A (zh) 基于词向量查询模型的文本简化方法
CN109344391A (zh) 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN108108622B (zh) 基于深度卷积网络和控制流图的漏洞检测***
CN109858032A (zh) 融合Attention机制的多粒度句子交互自然语言推理模型
CN108763444A (zh) 利用分层编码解码器网络机制来解决视频问答的方法
CN112001166B (zh) 面向政务咨询服务的智能问答句子对语义匹配方法和装置
CN109858041A (zh) 一种半监督学习结合自定义词典的命名实体识别方法
CN106778882A (zh) 一种基于前馈神经网络的智能合约自动分类方法
CN112347531B (zh) 一种脆性大理石三维裂纹扩展路径预测方法及***
CN109683871A (zh) 基于图像目标检测方法的代码自动生成装置及方法
CN109375904A (zh) 一种基于模型的计算机软件开发方法
CN109147868A (zh) 蛋白质功能预测方法、装置、设备及存储介质
CN109344960A (zh) 一种防止数据信息丢失的dgru神经网络及其预测模型建立方法
CN109408630A (zh) 一种根据犯罪事实的描述自动生成法院观点的方法
CN108959651A (zh) 一种基于迁移学习的用户意图识别的方法
CN107480115A (zh) 一种caffe框架残差网络配置文件格式转换方法及***
CN113919811B (zh) 基于强化关联的热线事件分拨方法
CN115328782A (zh) 基于图表示学习和知识蒸馏的半监督软件缺陷预测方法
CN111444328A (zh) 一种带有解释生成的自然语言自动预测推断方法
CN114707829A (zh) 基于结构化数据线性展开的目标人员再犯风险预测方法
CN110442866A (zh) 一种融合语法信息的句子压缩方法
CN113065347A (zh) 基于多任务学习的刑事案件判决预测方法、***及介质
CN113762503A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN116244473B (zh) 一种基于特征解耦和图知识蒸馏的多模态情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Hao Zhifeng

Inventor after: Chen Cheng

Inventor after: Cai Ruichu

Inventor after: Chen Bingfeng

Inventor after: Wen Wen

Inventor after: Wang Lijuan

Inventor after: Chen Yusheng

Inventor before: He Zhi Feng

Inventor before: Chen Cheng

Inventor before: Cai Ruichu

Inventor before: Chen Bingfeng

Inventor before: Wen Wen

Inventor before: Wang Lijuan

Inventor before: Chen Yusheng

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191112