CN110472238B - 基于层级交互注意力的文本摘要方法 - Google Patents

基于层级交互注意力的文本摘要方法 Download PDF

Info

Publication number
CN110472238B
CN110472238B CN201910677195.6A CN201910677195A CN110472238B CN 110472238 B CN110472238 B CN 110472238B CN 201910677195 A CN201910677195 A CN 201910677195A CN 110472238 B CN110472238 B CN 110472238B
Authority
CN
China
Prior art keywords
vector
layer
information
context
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910677195.6A
Other languages
English (en)
Other versions
CN110472238A (zh
Inventor
余正涛
周高峰
黄于欣
高盛祥
郭军军
王振晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910677195.6A priority Critical patent/CN110472238B/zh
Publication of CN110472238A publication Critical patent/CN110472238A/zh
Application granted granted Critical
Publication of CN110472238B publication Critical patent/CN110472238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及基于层级交互注意力的文本摘要方法,属于自然语言处理技术领域。本发明通过层级交互注意力提取编码器不同层次的特征息来指导摘要的生成。同时为了避免因引入不同层次特征而带来的信息冗余问题,利用变分信息瓶颈压缩数据噪声。本发明针对生成式文本摘要,在基于注意力的编解码框架下,通过注意力机制提取编码器多层上下文信息来指导解码过程,同时通过引入变分信息瓶颈对信息进行约束,从而提高生成式文本摘要的质量。实验结果表明该方法能够显著改善编解码框架在生成式摘要任务上的性能。

Description

基于层级交互注意力的文本摘要方法
技术领域
本发明涉及基于层级交互注意力的文本摘要方法,属于自然语言处理技术领域。
背景技术
随着深度学习技术的发展,生成式文本摘要方法成为了当下研究的热点。传统 的基于注意力机制的编解码模型通常仅考虑编码器高层的语义信息作为上下文的语 义表征,而忽略了低层神经网络获取的词级结构等细节特征。本发明提出一种基于 层级交互注意力机制的多层特征提取和融合方法来获取编码器不同层次的特征,同 时在解码端引入变分信息瓶颈对融合信息进行压缩和去噪,从而生成更高质量的摘 要。
发明内容
本发明提供了基于层级交互注意力的文本摘要方法,能获取编码器不同层次的特征,同时在解码端引入变分信息瓶颈对融合信息进行压缩和去噪,从而生成更高 质量的摘要,在生成摘要时不仅关注编码器高层抽象特征,同时提取低层的细节信 息来提高摘要生成质量。
本发明的技术方案是:基于层级交互注意力的文本摘要方法,所述基于层级交 互注意力的文本摘要方法的具体步骤如下:
Step1、使用文本摘要领域英文数据集Gigaword作为训练集,采用预处理脚本对数据集进行预处理,分别得到380万和18.9万的训练集和开发集,每个训练样本包 含一对输入文本和摘要句;
作为本发明的优选方案,所述步骤Step1的具体步骤为:对数据进行标准化处理,包括数据集所有单词全部转小写、将所有数字替换为#,将语料中出现次数小于5次 的单词替换为UNK标识等;从开发集中选择一部分数据进行去除和筛选后作为测试 集。
Step2、利用双向LSTM对训练集进行编码,层数设置为三层;编码器采用双向 长短期记忆网络Bi-Directional LSTM,BILSTM,BILSTM包括前向和后向LSTM,前 向LSTM从左向右读取输入序列得到前向编码向量,而后向LSTM从右向左读取序 列得到后向编码向量,最后将前向和后向编码向量拼接得到输入序列的向量表征。
Step3、解码器采用单向LSTM网络,输入待解码的句子计算各层上下文向量: 解码器采用单向LSTM网络,读取编码器最后时刻的状态向量初始化,然后根据输 入上下文表征向量,逐词生成摘要序列,其中生成摘要的长度必须小于等于输入序 列的长度;在解码时,解码器读取上一时刻目标词的词嵌入向量,上一时刻的隐状 态向量和当前时刻的上下文向量生成该时刻的隐状态向量;引入注意力机制,根据 上一时刻解码器的隐状态、编码向量计算得到当前时刻的上下文向量;然后通过当 前时刻上下文向量和隐状态向量计算得到当前时刻的输出向量,进而计算得到当前 时刻的输出向量在预设目标词表上输出概率。
Step4、对于多层编解码模型,编解码器均包含多层LSTM,在每一层LSTM中 计算上层与当前层之间的隐状态表征,从而将上层的上下文向量融合到当前层;
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、融合上层的上下文向量和隐状态向量作为当前层的输入;
Step4.2、将当前层的输入送入LSTM得到当前层网络的输出;
Step4.3、计算多层解码器网络的最后一层的输出向量,计算得到目标输出在词表上的概率分布。
Step5、将带有特征信息的各层上下文向量与当前层的输出进行拼接,得到当前层的解码器隐状态;
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、在网络当前层,对获取各层上下文向量分别进行拼接,得到跨层融合 的上下文向量和解码器隐状态,其包含了编码器不同层次的特征信息;
Step5.2、利用解码器隐状态和上下文向量计算得到输出向量,进而可以计算出输出向量在词表上的输出概率。
Step6、融入不同层次的上下文信息会带来信息的冗余和噪声,利用变分信息瓶颈对数据进行压缩和去噪。
作为本发明的优选方案,所述步骤Step6的具体步骤为:
Step6.1、给定输入序列,编解码模型通过计算概率生成摘要序列;
Step6.2、通过最大化生成摘要概率的对数似然函数来学习模型参数;
Step6.3、引入信息瓶颈作为编码的中间表征,构造从中间表征到输出序列的损失,作为分类的交叉熵损失;
Step6.4、加入约束,要求概率的分布与标准正态分布的KL散度Kullback–Leiblerdivergence尽量小。
本发明的有益效果是:
1、本发明提出基于层级交互注意力机制的编解码模型,通过注意力获取不同层次的语义信息来改善摘要的生成质量。
2、本发明首次提出将变分信息瓶颈应用于摘要生成任务,对数据进行压缩和去噪,有利于减少融入不同层次的上下文信息会带来信息的冗余和噪声。
3、本发明提出一种层级交互注意力机制提取编码器不同层次特征,在生成摘要时不仅关注编码器高层抽象特征,同时提取低层的细节信息来提高摘要生成质量。
附图说明
图1是本发明中的流程图;
图2是本发明提出的基于注意力的编解码框架图;
图3是本发明提出的层内融合机制图;
图4是本发明提出的跨层融合机制图。
具体实施方式
实施例1:如图1-图4所示,基于层级交互注意力的文本摘要方法,所述基于层 级交互注意力的文本摘要方法的具体步骤如下:
Step1、使用英文数据集Gigaword作为训练集,采用预处理脚本对数据集进行预处理,分别得到380万和18.9万的训练集和开发集,每个训练样本包含一对输入文 本和摘要句;
Step2、编码器利用双向LSTM对训练集进行编码,层数设置为三层;
Step3、解码器采用单向LSTM网络,输入待解码的句子计算各层上下文向量;
Step4、对于多层编解码模型,编解码器包含多层LSTM,在每一层LSTM中计 算上层与当前层之间的隐状态表征,从而将上层的上下文向量融合到当前层;
Step5、将带有特征信息的各层上下文向量与当前层的输出进行拼接,得到当前层的解码器隐状态;
Step6、融入不同层次的上下文信息会带来信息的冗余和噪声,利用变分信息瓶颈(Variational Information Bottleneck,VIB)对数据进行压缩和去噪。
作为本发明的优选方案,所述步骤Step1的具体步骤为:对数据进行标准化处理,包括数据集所有单词全部转小写、将所有数字替换为#,将语料中出现次数小于5次 的单词替换为UNK标识等。从18.9万开发集中随机选择8000条作为开发集,选择2000条数据作为测试集。去除测试集中原文本长度小于5的句子,最后筛选得到1951 条数据作为测试集。为了验证模型的泛化能力,本发明同时选择DUC2004作为测试 集。DUC2004数据集仅包含500条文本,每个输入文本均对应4条标准摘要句。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本 发明识别事件时序关系提供了数据支撑。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
本发明编码器采用双向长短期记忆网络(Bi-Directional LSTM,BILSTM),与LSTM相比,BILSTM包括前向和后向LSTM,前向LSTM从左向右读取输入序列 得到前向编码向量
Figure BDA0002143657500000041
而后向LSTM从右向左读取序列得到后向编码向 量
Figure BDA0002143657500000042
如下所示。
Figure BDA0002143657500000043
Figure BDA0002143657500000044
其中,
Figure BDA0002143657500000045
Figure BDA0002143657500000046
分别表示前向LSTM和后向LSTM网络,最后将前向和 后向编码向量拼接得到输入序列的向量表征
Figure BDA0002143657500000047
此优选方案设计是本发明的重要组成部分,主要为本发明编码的过程,利用 LSTM对句子进行建模存在一个问题,就是无法编码从后到前的信息。在更细粒度 的分类时,如对于强程度的褒义、弱程度的褒义、中性、弱程度的贬义、强程度的 贬义的五分类任务需要注意情感词、程度词、否定词之间的交互。通过BiLSTM可 以更好的捕捉双向的语义依赖。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、解码器采用单向LSTM网络,其中s表示序列起始。
t0时刻,解码器读取s和编码器最后时刻的状态向量来预测y1的输出概率;然后 根据输入上下文表征向量,逐词生成摘要序列,其中生成摘要的长度必须小于等于 输入序列的长度;
Step3.2、在解码时刻t,解码器读取t-1时刻目标词的词嵌入向量wt-1,隐状态 向量st-1和上下文向量ct生成t时刻的隐状态向量st,如式(3)所示:
st=LSTM(wt-1,st-1,ct) (3)
Step3.3、如图2所示,解码器引入注意力机制,根据t-1时刻解码器的隐状态st-1、编码向量h计算得到t时刻的上下文向量ct。具体过程如式(4,5,6)所示:
Figure BDA0002143657500000051
Figure BDA0002143657500000052
Figure BDA0002143657500000053
Step3.4、然后通过t时刻上下文向量ct和隐状态向量st计算得到t时刻的输出向量pt,进而计算得到pt在预设目标词表上输出概率pvocab,t。具体计算如式(7,8) 所示:
pt=tanh(Wm([st;ct])+bm) (7)
Pvocab,t=softmax(Wppt+bp) (8)
此优选方案设计是本发明的重要组成部分,主要为本发明解码的过程。LSTM避 免了长期依赖性问题。对LSTM来说,长时间“记住”信息是一种默认的行为,而 不是难以学习的东西。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
层内融合机制:
层内融合机制(Inner-Layer Merge)旨在将上层上下文向量融入第当前层的编码中, 从而实现多层编码器信息的融合。
Step4.1、融合k-1层的上下文向量和隐状态向量作为第k层的输入。具体计算 公式如式(9,10,11)所示。
Figure BDA0002143657500000054
Figure BDA0002143657500000055
Figure BDA0002143657500000056
其中,
Figure BDA0002143657500000057
为获取的k-1层的上下文向量,
Figure BDA0002143657500000058
为第k-1层的隐状态向量。通过 计算得到第k层的输入向量
Figure BDA0002143657500000059
Step4.2、然后将其送入第k层LSTM得到第k层网络的输出
Figure BDA0002143657500000061
Step4.3、计算多层解码器网络的最后一层的输出向量pt,最后计算得到目标输出在词表上的概率分布Pvocab
此优选方案设计是本发明的重要组成部分,这种基于层级交互注意力机制的多层特征提取和融合方法来获取编码器不同层次的特征,解决了传统的基于注意力机 制的编解码模型通常仅考虑编码器高层的语义信息作为上下文的语义表征,而忽略 了低层神经网络获取的词级结构等细节特征。从而生成更高质量的摘要。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
跨层融合机制:
跨层融合机制(Cross-Layer Merge)在最后一层对获取的多层上下文向量进行融合,具体如图4所示。
Step5.1、在网络r层,对获取各层上下文向量
Figure BDA0002143657500000062
Figure BDA0002143657500000063
分别进行拼接,得到跨层 融合的上下文向量ct和解码器隐状态st,其包含了编码器不同层次的特征信息。
Step5.2、最后利用st和ct计算得到输出向量pt。具体公式如式(12,13,14) 下:
Figure BDA0002143657500000064
Figure BDA0002143657500000065
pt=tanh(Wm([st;ct])+bm) (14)
最后计算得到pt在词表vocab上的输出概率Pt,vocab
此优选方案设计是本发明的重要组成部分,这种基于层级交互注意力机制的多层特征提取和融合方法来获取编码器不同层次的特征,解决了传统的基于注意力机 制的编解码模型通常仅考虑编码器高层的语义信息作为上下文的语义表征,而忽略 了低层神经网络获取的词级结构等细节特征。从而生成更高质量的摘要。
作为本发明的优选方案,所述步骤Step6的具体步骤为:
变分信息瓶颈通过在X到Y的分类任务中,引入Z作为源输入X的中间表征, 构造从X→Z→Y的信息瓶颈RIB(θ),计算过程如式(15,16)所示:
RIB(θ)=I(Z,Y;θ)-βI(Z,X;θ) (15)
Figure BDA0002143657500000071
其中I(Z,Y;θ)表示Y和Z之间的互信息量。我们的目标是以互信息作为信息量 的度量,学习编码Z的分布,使得从X→Y的信息量尽可能少,强迫模型让最重要 的信息流过信息瓶颈,而忽略与任务无关的信息,从而实现信息去冗余和去噪。
对于摘要任务来讲,给定输入序列x,编解码模型通过计算概率Pθ(y|x)生成摘 要序列y,其中θ为模型的参数,如权重矩阵W和偏移量b等。具体公式如式(17) 所示。
Figure BDA0002143657500000072
其中,y<t=(y1,y2,…yt-1)表示t时刻之前已解码所有单词。如式(18)所示, 模型通过最大化生成摘要概率的对数似然函数来学习模型参数θ。
loss=-logPθ(y|x) (18)
因此,在传统的编解码模型中,我们引入信息瓶颈z=f(x,y<t)作为编码的中间表征,构造从中间表征z到输出序列y的损失,作为分类的交叉熵损失,计算公式如 式(19)所示。
Figure BDA0002143657500000073
同时加入约束,要求Pθ(z|x)的分布与标准正态分布Q(z)的KL散度 (Kullback–Leibler divergence)尽量小,加入VIB后,训练损失函数如式(20)所 示:
Figure RE-GDA0002209009130000074
其中λ为超参数,我们设置为1e-3。
此优选方案设计引入变分信息瓶颈来对数据进行压缩和去噪,有利于减少融入不同层次的上下文信息会带来信息的冗余和噪声。
Step7、为了验证本发明的效果,以下介绍实验数据集、评价指标、实验的详细 参数设置及对比的基准模型,并对实验结果进行分析和讨论。
实验采用ROUGE(Recall-Oriented Understudy for Gisting Evaluation)值作为模型的 评价指标。ROUGE是由Lin等人提出的一种自动摘要的评价指标,其基于生成摘要与标准参考摘要中的n元词组(n-gram)共现信息来评价摘要的质量。
Figure BDA0002143657500000081
其中,n-gram表示n元词,{Gold}表示标准参考摘要,Countmatch(n-gram)表 示模型生成摘要和标准参考摘要中共现的n-gram词组个数,Count(n-gram)表示 标准参考摘要中出现的n-gram词组个数。本发明采用pyrouge脚本计算ROUGE值, 最后选择Rouge-1(unigram),Rouge-2(bigram),Rouge-L(longest common subsequence) 值作为模型性能的评价指标。
编码器和解码器均选择3层的LSTM,编码器为双向LSTM,而解码器为单向 LSTM。编码器和解码器的隐状态均设置为512。为了减少模型的参数,我们设置编 码器和解码器共享词嵌入层。词嵌入维度设置为512,本发明不使用Word2vec,Glove, Bert等预训练词向量,而是对词嵌入层进行随机初始化。本发明设置编解码器的词 表的大小为50k,未登录词使用UNK来替代。其他参数设置如下:dropout为0.3, 优化器选择Adam,批次大小设置为64。同样为了提高摘要的生成质量,本发明在 模型推断阶段使用Beam Search策略,Beam Size设置为12。
本发明选取以下6个模型作为基准模型,所有基准模型的训练数据和测试数据 均与本发明相同。
ABS:采用基于卷积神经网络(CNN)的编码器和NNLM解码器来生成文本摘要。
ABS+:基于ABS模型,使用DUC2003数据集对模型进行微调,其性能在 DUC2004数据集上进一步得到提升。
RFs2s:编码器和解码器均采用GRU,编码器输入融合了词性标记、命名实体标 记等语言学特征。
CAs2s:编解码器都通过卷积神经网络来实现,在卷积过程中加入线性门控单元(Gated Linear Unit,GLU),多步注意力等优化策略。
SEASS:在传统的注意力机制的编解码模型中,提出在编码端增加选择性门控 网络来控制信息从编码端向解码端的流动,从而实现编码信息的提纯。
CGU:与SEASS相似,提出通过self-attention和Inception convolution network优化编码器,构造源输入的全局信息表征。
Our_s2s:本发明实现的编解码模型。
表1列出了本发明模型与基准模型在Gigaword测试集上的Rouge-1,Rouge-2 和Rouge-L的F1值比对结果。其中Our_s2s是本发明实现的带有注意力的编解码模 型,Inner_s2s和Cross_s2s分别表示在Our_s2s基础上增加了层内融合机制和跨层融 合机制,Beam和Greedy表示在测试阶段采用Beam Search策略还是贪心搜索策略。
表1 Gigaword测试集实验结果比对.
模型 RG-1(F1) RG-2(F1) RG-L(F1)
ABS(Beam) 29.55 11.2 26.42
ABS+(Beam) 29.76 11.88 26.96
RFs2s(Beam) 32.67 15.59 30.64
CAs2s(Beam) 33.78 15.97 31.15
SEASS(Greedy) 35.48 16.50 32.93
SEASS(Beam) 36.15 17.54 33.63
CGU(Beam) 36.31 18.00 33.82
Our_s2s(Beam) 33.62 16.35 31.34
Inner_s2s(Greedy) 36.05 17.18 33.47
Inner_s2s(Beam) 36.52 17.75 33.81
Cross_s2s(Greedy) 36.23 17.19 33.71
Cross_s2s(Beam) 36.97 18.36 34.35
从表1可以看出,本发明提出的Inner_s2s和Cross_s2s相比基准模型都有了一 定程度的提升,特别是使用Beam Search搜索策略的Cross_s2s模型在RG-1、RG-2 和RG-L三个指标上均取得了最佳性能。同样可以看出Cross_s2s相比Inner_s2s在 Greedy和Beam搜索策略下,模型性能都更好。
为了进一步验证模型的泛化能力,本发明在DUC2004数据集上进行试验,实验 结果如表2所示。DUC2004数据集要求生成长度固定的摘要(75bytes),与之前的研究 工作相同[1,7,18],本发明设置生成摘要的长度固定为18个词,以满足最短长度的需 求。DUC2004数据集一般采用召回率而非F1值作为模型性能的评价指标。DUC2004 数据集每个原句对应四条人工摘要作为标准摘要,因此本发明在四个标准摘要上分 别进行验证,并以四次的验证结果的平均值作为评测结果。
表2 DUC2004测试集实验结果比对
模型 RG-1(R) RG-2(R) RG-L(R)
ABS 26.55 7.06 22.05
ABS+ 28.18 8.49 23.81
RFs2s 28.35 9.46 24.59
CAs2s 28.97 8.26 24.06
SEASS 29.21 9.56 25.51
Inner_s2s 30.29 13.24 27.94
Cross_s2s 30.14 13.05 27.85
从表2可以看出,本发明提出的Inner_s2s和Cross_s2s模型性能相近,但是在RG-1, RG-2和RG-L三个指标的Recall值均超过了基准模型。特别与ABS+相比,虽然其 模型利用DUC2003数据集进行了调优,但是本发明提出的Inner_s2s模型仍然在RG-1, RG-2和RG-L上分别提高了2.11,4.75和4.13。与当前最优模型SEASS相比,RG-2 指标提高了将近3个百分点。
本发明针对生成式文本摘要,在基于注意力的编解码框架下,提出基于层级交 互注意力机制。通过注意力机制提取编码器多层上下文信息来指导解码过程,同时 通过引入变分信息瓶颈对信息进行约束,从而提高生成式文本摘要的质量。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明 宗旨的前提下作出各种变化。

Claims (5)

1.基于层级交互注意力的文本摘要方法,其特征在于:所述基于层级交互注意力的文本摘要方法的具体步骤如下:
Step1、使用英文数据集Gigaword作为训练集,采用预处理脚本对数据集进行预处理得到训练集和开发集,每个训练样本包含一对输入文本和摘要句;
Step2、编码器利用双向LSTM对训练集进行编码,层数设置为三层;
Step3、解码器采用单向LSTM网络,输入待解码的句子计算各层上下文向量;
再进行步骤Step4或步骤Step5;
步骤Step4为:对于多层编解码模型,编解码器包含多层LSTM,在每一层LSTM中计算上层与当前层之间的隐状态表征,从而将上层的上下文向量融合到当前层;具体为:
Step4.1、融合k-1层的上下文向量和隐状态向量作为第k层的输入,具体计算公式如式(9)所示:
Figure FDA0003639173250000011
其中,
Figure FDA0003639173250000012
为获取的k-1层的上下文向量,
Figure FDA0003639173250000013
为第k-1层的隐状态向量,通过计算得到第k层的输入向量
Figure FDA0003639173250000014
Step4.2、然后将其送入第k层LSTM得到第k层网络的输出
Figure FDA0003639173250000015
具体计算公式如式(10)所示:
Figure FDA0003639173250000016
Step4.3、计算多层解码器网络的最后一层的输出向量pt,最后计算得到目标输出在词表上的概率分布Pvocab,具体计算公式如式(11)所示:
Figure FDA0003639173250000017
步骤Step5为、将带有特征信息的各层上下文向量与当前层的输出进行拼接,得到当前层的解码器隐状态,具体为:
Step5.1、在网络r层,对获取各层上下文向量
Figure FDA0003639173250000018
Figure FDA0003639173250000019
分别进行拼接,得到跨层融合的上下文向量ct和解码器隐状态st,其包含了编码器不同层次的特征信息,具体公式如式(12,13):
Figure FDA0003639173250000021
Figure FDA0003639173250000022
Step5.2、最后利用st和ct计算得到输出向量pt,具体公式如式(14):
pt=tanh(Wm([st;ct])+bm) (14)
最后计算得到pt在词表vocab上的输出概率Pt,vocab
Step6、融入不同层次的上下文信息会带来信息的冗余和噪声,利用变分信息瓶颈对数据进行压缩和去噪。
2.根据权利要求1所述的基于层级交互注意力的文本摘要方法,其特征在于:所述Step1的具体步骤为:对数据进行标准化处理,包括数据集所有单词全部转小写、将所有数字替换为#,将语料中出现次数小于5次的单词替换为UNK标识;
从开发集中选择一部分数据进行去除和筛选后作为测试集。
3.根据权利要求1所述的基于层级交互注意力的文本摘要方法,其特征在于:所述Step2的具体步骤:编码器采用双向长短期记忆网络Bi-Directional LSTM,BILSTM,BILSTM包括前向和后向LSTM,前向LSTM从左向右读取输入序列得到前向编码向量,而后向LSTM从右向左读取序列得到后向编码向量,最后将前向和后向编码向量拼接得到输入序列的向量表征。
4.根据权利要求1所述的基于层级交互注意力的文本摘要方法,其特征在于:
所述Step3的具体步骤为:
Step3.1、解码器采用单向LSTM网络,读取编码器最后时刻的状态向量初始化,然后根据输入上下文表征向量,逐词生成摘要序列,其中生成摘要的长度必须小于等于输入序列的长度;
Step3.2、在解码时,解码器读取上一时刻目标词的词嵌入向量,上一时刻的隐状态向量和当前时刻的上下文向量生成该时刻的隐状态向量;
Step3.3、引入注意力机制,根据上一时刻解码器的隐状态、编码向量计算得到当前时刻的上下文向量;
Step3.4、然后通过当前时刻上下文向量和隐状态向量计算得到当前时刻的输出向量,进而计算得到当前时刻的输出向量在预设目标词表上输出概率。
5.根据权利要求1所述的基于层级交互注意力的文本摘要方法,其特征在于:所述Step6的具体步骤为:
Step6.1、给定输入序列,编解码模型通过计算概率生成摘要序列;
Step6.2、通过最大化生成摘要概率的对数似然函数来学习模型参数;
Step6.3、引入信息瓶颈作为编码的中间表征,构造从中间表征到输出序列的损失,作为分类的交叉熵损失;
Step6.4、加入约束,要求概率的分布与标准正态分布的KL散度Kullback–Leiblerdivergence尽量小。
CN201910677195.6A 2019-07-25 2019-07-25 基于层级交互注意力的文本摘要方法 Active CN110472238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910677195.6A CN110472238B (zh) 2019-07-25 2019-07-25 基于层级交互注意力的文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910677195.6A CN110472238B (zh) 2019-07-25 2019-07-25 基于层级交互注意力的文本摘要方法

Publications (2)

Publication Number Publication Date
CN110472238A CN110472238A (zh) 2019-11-19
CN110472238B true CN110472238B (zh) 2022-11-18

Family

ID=68509298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910677195.6A Active CN110472238B (zh) 2019-07-25 2019-07-25 基于层级交互注意力的文本摘要方法

Country Status (1)

Country Link
CN (1) CN110472238B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061862B (zh) * 2019-12-16 2020-12-15 湖南大学 一种基于注意力机制生成摘要的方法
CN111488440B (zh) * 2020-03-30 2024-02-13 华南理工大学 一种基于多任务联合的问题生成方法
CN111538829B (zh) * 2020-04-27 2021-04-20 众能联合数字技术有限公司 一种新的工程机械租赁场景网页文本关键内容提取方法
CN111680151B (zh) * 2020-05-06 2022-02-11 华东师范大学 一种基于层次化transformer的个性化商品评论摘要生成方法
CN111723196B (zh) * 2020-05-21 2023-03-24 西北工业大学 基于多任务学习的单文档摘要生成模型构建方法及装置
CN111782810A (zh) * 2020-06-30 2020-10-16 湖南大学 一种基于主题增强的文本摘要生成方法
CN111966820B (zh) * 2020-07-21 2023-03-24 西北工业大学 一种生成式摘要模型构建、提取生成式摘要方法及***
CN111931518A (zh) * 2020-10-15 2020-11-13 北京金山数字娱乐科技有限公司 一种翻译模型的训练方法及装置
CN112528598B (zh) * 2020-12-07 2022-04-05 上海交通大学 基于预训练语言模型和信息论的自动化文本摘要评测方法
CN112632228A (zh) * 2020-12-30 2021-04-09 深圳供电局有限公司 一种基于文本挖掘的辅助评标方法及***
CN112765345A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种融合预训练模型的文本摘要自动生成方法及***
CN112836040B (zh) * 2021-01-31 2022-09-23 云知声智能科技股份有限公司 多语言摘要的生成方法、装置、电子设备及计算机可读介质
CN113139468B (zh) * 2021-04-24 2023-04-11 西安交通大学 融合局部目标特征与全局特征的视频摘要生成方法
CN113434683B (zh) * 2021-06-30 2023-08-29 平安科技(深圳)有限公司 文本分类方法、装置、介质及电子设备
CN114154493B (zh) * 2022-01-28 2022-06-28 北京芯盾时代科技有限公司 一种短信类别的识别方法及装置
CN118069833B (zh) * 2024-04-17 2024-07-23 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 层次化摘要的生成方法、装置、设备及可读存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108647214A (zh) * 2018-03-29 2018-10-12 中国科学院自动化研究所 基于深层神经网络翻译模型的解码方法
CN108804677A (zh) * 2018-06-12 2018-11-13 合肥工业大学 结合多层级注意力机制的深度学习问题分类方法及***
CN108897740A (zh) * 2018-05-07 2018-11-27 内蒙古工业大学 一种基于对抗神经网络的蒙汉机器翻译方法
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
WO2019028269A2 (en) * 2017-08-02 2019-02-07 Strong Force Iot Portfolio 2016, Llc METHODS AND SYSTEMS FOR DETECTION IN AN INDUSTRIAL ENVIRONMENT OF COLLECTING INTERNET DATA FROM OBJECTS WITH LARGE DATA SETS
WO2019025601A1 (en) * 2017-08-03 2019-02-07 Koninklijke Philips N.V. HIERARCHICAL NEURAL NETWORKS WITH ATTENTION GRANULARIZED
CN109408633A (zh) * 2018-09-17 2019-03-01 中山大学 一种多层注意力机制的循环神经网络模型的构建方法
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN109918510A (zh) * 2019-03-26 2019-06-21 中国科学技术大学 跨领域关键词提取方法
CN109948166A (zh) * 2019-03-25 2019-06-28 腾讯科技(深圳)有限公司 文本翻译方法、装置、存储介质和计算机设备
CN110032638A (zh) * 2019-04-19 2019-07-19 中山大学 一种基于编码器-解码器的生成式摘要提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839790B2 (en) * 2017-02-06 2020-11-17 Facebook, Inc. Sequence-to-sequence convolutional architecture

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019028269A2 (en) * 2017-08-02 2019-02-07 Strong Force Iot Portfolio 2016, Llc METHODS AND SYSTEMS FOR DETECTION IN AN INDUSTRIAL ENVIRONMENT OF COLLECTING INTERNET DATA FROM OBJECTS WITH LARGE DATA SETS
WO2019025601A1 (en) * 2017-08-03 2019-02-07 Koninklijke Philips N.V. HIERARCHICAL NEURAL NETWORKS WITH ATTENTION GRANULARIZED
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108647214A (zh) * 2018-03-29 2018-10-12 中国科学院自动化研究所 基于深层神经网络翻译模型的解码方法
CN108897740A (zh) * 2018-05-07 2018-11-27 内蒙古工业大学 一种基于对抗神经网络的蒙汉机器翻译方法
CN108804677A (zh) * 2018-06-12 2018-11-13 合肥工业大学 结合多层级注意力机制的深度学习问题分类方法及***
CN108959246A (zh) * 2018-06-12 2018-12-07 北京慧闻科技发展有限公司 基于改进的注意力机制的答案选择方法、装置和电子设备
CN109145105A (zh) * 2018-07-26 2019-01-04 福州大学 一种融合信息选择与语义关联的文本摘要模型生成算法
CN109408633A (zh) * 2018-09-17 2019-03-01 中山大学 一种多层注意力机制的循环神经网络模型的构建方法
CN109241536A (zh) * 2018-09-21 2019-01-18 浙江大学 一种基于深度学习自注意力机制的句子排序方法
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN109948166A (zh) * 2019-03-25 2019-06-28 腾讯科技(深圳)有限公司 文本翻译方法、装置、存储介质和计算机设备
CN109918510A (zh) * 2019-03-26 2019-06-21 中国科学技术大学 跨领域关键词提取方法
CN110032638A (zh) * 2019-04-19 2019-07-19 中山大学 一种基于编码器-解码器的生成式摘要提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Attention-based Encoder-Decoder Networks for Spelling and Grammatical Error Correction;Sina AHMADI;《互联网检索arxiv.org/pdf/1810.00660.pdf》;20180921;全文 *
基于多注意力尺度特征融合的图像描述生成算法;陈龙杰等;《计算机应用》;20190210;第39卷(第2期);第354页-359页 *
基于注意力卷积的神经机器翻译;汪琪等;《计算机科学》;20181115;第45卷(第11期);第226页-230页 *

Also Published As

Publication number Publication date
CN110472238A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110472238B (zh) 基于层级交互注意力的文本摘要方法
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN108519890B (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN110390103B (zh) 基于双编码器的短文本自动摘要方法及***
CN109344391B (zh) 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111324728A (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
Xia Research on statistical machine translation model based on deep neural network
CN110427616B (zh) 一种基于深度学习的文本情感分析方法
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库***及方法
CN114926150A (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN112926337B (zh) 一种结合重构句法信息的端到端方面级情感分析方法
CN113901847A (zh) 基于源语言句法增强解码的神经机器翻译方法
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN112287105A (zh) 融合标题和正文双向互注意力的涉法新闻相关性分析方法
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN117787253B (zh) 基于双门控机制和依赖导向注意力网络的三元组抽取方法
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN116663577A (zh) 基于跨模态表征对齐的英越端到端语音翻译方法
CN116955594A (zh) 语义融合预训练模型构建方法及跨语言摘要生成方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant