CN114817682A

CN114817682A - 基于双重注意力解码网络的跨语言摘要方法

Info

Publication number: CN114817682A
Application number: CN202210499965.4A
Authority: CN
Inventors: 余正涛; 楚博文; 高盛祥
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-07-29
Anticipated expiration: 2042-05-09
Also published as: CN114817682B

Abstract

本发明涉及基于双重注意力解码网络的跨语言摘要方法，属自然语言处理领域。本发明包括：构建越南语‑汉语跨语言文本摘要数据集；提出一个双重注意力机制，它包括了一个多头注意力模块和精炼器模块。多头注意力模块用于捕捉源语言文本映射到目标语言序列的粗略关系，通过映射关系生成含有全局文本信息的目标语言序列；精炼器模块是在粗糙序列的基础上重新细化和检查，不仅能过滤掉序列中的一些无用信息，提高命中正确实体的概率，还能细化序列中实体的逻辑关系；提出针对跨语言文本摘要的双重注意力解码器的网络模型(DADN)。本发明通过DADN在构建的越南语‑汉语跨语言文本摘要数据集进行训练，模型效果要优于基线方法，生成的摘要也更加精准和流利。

Description

基于双重注意力解码网络的跨语言摘要方法

本发明涉及越南语到汉语的跨语言摘要文本方法，属于自然语言处理技术领域。

背景技术

随着信息技术的飞快发展，各类信息机构每天都会发出和传递海量信息，人们需要从这些信息中快速过滤得到自己想要的内容，因此，文本摘要技术应运而生。文本摘要技术可以把长篇累牍的文章言简意赅地转化成一个摘要，帮助人们更高效、便捷地筛选出重要信息。近些年来，世界全球化的进程在不断加深，各国人民之间联系日渐紧密，但是由于每个国家母语的差异性给人们获取信息带来相当大的挑战。跨语言文本摘要是输入某种语言的文档从而生成另外一种不同语言摘要的技术，这种技术在帮助不同母语国家的人在互联网大量信息中快速获取有效跨语言信息发挥着至关重要的作用。

发明内容

本发明提供了基于双重注意力解码网络的跨语言摘要方法，以用于越南语新闻生成中文摘要，解决了在模型解码过程中，摘要关键实体缺失和摘要句子逻辑结构错误的关键问题。

本发明的技术方案是：基于双重注意力解码网络的跨语言摘要方法，所述方法的具体步骤如下：

Step1、通过爬虫技术抓取中越双语网站的新闻文档和摘要，通过过滤方式对新闻文本内容进行清洗，分类对应两个语种内容的文档和摘要，构建越南语新闻文档和中文摘要数据集；

Step2、利用词嵌入和位置嵌入分别将越南语新闻文档和中文摘要分别进行特征编码，在特征编码后分别通过多头注意力机制进行特征提取；通过双重注意力机制，获得越南语新闻文档和中文摘要的映射关系；将解码出的中文摘要与真实标签的摘要进行一个损失计算，将编解码模型参数更新来不断训练模型。

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、采用基于Scrapy框架的爬虫从一些中越双语新闻爬取大量双语新闻文档和对应摘要；

Step1.2、对双语文档摘要进行过滤筛选，过滤筛选的方式如下所示：(1)、根据不同网站的页面格式进行正则规则过滤，得到过滤后编号了的对应双语新闻文档和摘要(2)、把双语文档根据编号得到对应的越南语新闻文档和中文摘要数据集。

作为本发明的进一步方案，所述Step2的具体步骤如下：

Step2.1、对于源语言文档

和目标语言摘要

经过词嵌入和位置嵌入得到高维张量，其中

表示在源语言A上第i个词,

表示在目标语言B上第j个词；

Step2.2、源语言文档和目标语言摘要通过编码端和解码端的多头注意力机制进行特征提取；多头自注意力机制通过8个相互独立的注意力机制，从不同位置的子空间提取特征，最后再拼接合并各个头，每个头计算的过程描述为如公式(1)所示：

其中，Q，K，V，d分别代表查询向量Q、键矩阵K、值矩阵V和向量维度d；

之后每个头计算出的子序列再拼接组装后得到上下文的摘要向量C，如公式(2)所示：

Step2.3、双重注意力机制模块DA则在输出的摘要向量C和查询向量Q上面进行处理，通过Q的信息再一次来增强C的特征；在双重注意力机制模块DA输出增强后的摘要向量C'的过程中，它会生成两个不同的向量，分别命名为信息向量I和门控向量G；信息向量I是由查询向量Q和摘要向量C分别通过两个不同的线性变换生成，它主要是为了增强含有真实标签的查询向量对摘要向量的影响，使摘要向量中包含着查询向量的重要信息，而不是简简单单地算出查询向量对应到编码器文本内容的关注权重；门控向量G同样由查询向量Q和摘要向量C分别通过两个不同的线性变换生成，但是还需通过一个σ函数把向量数值映射到区间[0,1]之间，最后，计算信息向量I和门控向量G的哈达马积，得到增强后的摘要向量C'；其中，信息向量I的生成过程如公式(3)所示，查询向量Q通过一个没有偏置的线性变化，摘要向量C通过一个有偏置的线性变换；门控向量G和信息向量I的计算过程相同，仅在后面接上sigmoid的函数变换，具体过程如公式(4)所示：

其中，

代表查询向量Q计算出信息向量I的权重矩阵，

代表摘要向量C计算出信息向量I的权重矩阵，

代表查询向量Q计算出门控向量G的权重矩阵，

代表摘要向量C计算出门控向量G的权重矩阵，bⁱ就是信息向量I的偏置，b^g就是门控向量G的偏置；

Step2.4、最后，信息向量I和门控向量G相乘，再通过一个残差连接得到信息增强后的摘要向量C'，这个过程描述成公式(5)：

C'＝C+I*G (5)

双重注意力机制模块DA的整个过程表示成公式(6)：

则训练整个Transformer模型以达到最大化目标语言摘要的条件概率为：

其中上式(7)为模型损失的计算，A代表源语言，B代表目标语言，m代表源语言句子共有m个单词。

本发明的有益效果是：本发明利用词嵌入和位置嵌入分别将越南语新闻文档和中文摘要分别进行特征编码，在特征编码后分别通过多头注意力机制进行特征提取；通过双重注意力机制，获得越南语新闻文档和中文摘要的映射关系；通过在解码端重新检查源语言文本和目标语言摘要之间的关系，来进一步精准对齐不同语种长短文本之间的语言关系，帮助生成更加精准和流利的短文摘要。

附图说明

图1是本发明中双重注意力机制模块DA具体结构示意图；

图2是本发明中DADN的具体结构示意图。

具体实施方式

实施例1：如图1-图2所示，基于双重注意力解码网络的跨语言摘要方法，所述方法的具体步骤如下：

Step1.2、对双语文档摘要进行过滤筛选，过滤筛选的方式如下所示：(1)、根据不同网站的页面格式进行正则规则过滤，得到过滤后编号了的对应双语新闻文档和摘要(2)、把双语文档根据编号得到对应的越南语新闻文档和中文摘要数据集；数据集相关参数如表1所示，#Documents表示越汉文档-摘要平行语料对个数，每一个语料对都含有对应的双语版本。#AvgViWords表示越南语分词后平均每个语料对词的个数。#AvgZhWords表示中文分词后平均每个语料对词的个数。：

表1：越汉跨语言文档-摘要数据表。

作为本发明的进一步方案，所述Step2的具体步骤如下：

Step2.1、对于源语言文档

和目标语言摘要

经过词嵌入和位置嵌入得到高维张量，其中

表示在源语言A上第i个词,

表示在目标语言B上第j个词；

其中，

代表查询向量Q计算出信息向量I的权重矩阵，

代表摘要向量C计算出信息向量I的权重矩阵，

代表查询向量Q计算出门控向量G的权重矩阵，

C'＝C+I*G (5)

双重注意力机制模块DA的整个过程表示成公式(6)：

为了说明本发明的效果，实验设置了2组对比实验。第一组实验验证DNAN模型的有效性，另一组为DA的有效性。

本发明提出一个双重注意力机制模块，它包括了一个多头注意力模块和精炼器模块。多头注意力模块用于捕捉源语言文本映射到目标语言序列的粗略关系，通过映射关系生成含有全局文本信息的目标语言序列；精炼器模块是在粗糙序列的基础上重新细化和检查，不仅能过滤掉序列中的一些无用信息，提高命中正确实体的概率，还能细化序列中实体的逻辑关系，本发明对应的模型为针对跨语言文本摘要的双重注意力解码器的网络模型，简称DADA；

实验将本发明对应的解码器网络模型DADN模型与两种传统方法和NCLS进行比较：

TETran(先翻译后摘要):首先，把筛选出的数据集用提取出10w越-汉翻译平行预料，通过这部分数据在Transformer训练出一个越-汉MT模型。接下来采用训练好的摘要方法hanlp来直接获取汉语摘要。这里采用训练好的hanlp模型有两个原因：第一，它契合汉语自动摘要，是目前在工业上运用得最多的汉语自动摘要模型之一；第二，重新训练单语摘要模型对结果影响较大，选择训练好的hanlp可以减小在自动摘要中的误差。

TLTran(先摘要后翻译)：同理，利用数据集提取出10w越南语文档-摘要平行预料，并基于Transformer训练一个越南语生成式MS模型，训练后的MS模型效果如表5所示。最后，选择Google Translator作为摘要的翻译模型，因为Google Translator 是目前世界上最好的翻译模型之一。

NCLS：基于Transform实现NCLS的，通过源语言文档-目标语言摘要对训练模型。这里我们把构建好的越-汉跨语言摘要对在NCLS上训练。

DADN:本发明方法中针对跨语言文本摘要的双重注意力解码器的网络模型，模型输入输出同样是采用构建好的跨语言文本摘要对，会预先用编码端的源语言文档训练一个词向量，替换掉编码端随机初始化的词向量，解码端则不进行操作，直接采用随机初始化的方式。

表2对比实验结果表

DADN在三个ROUGE指标上都优于传统管道方式和Baseline。但与NCLS相比， DADN仅提高了+1.21ROUGE-1,+0.74ROUGE-2,+0.77ROUGE-L，这是因为在低资源条件下，即使对模型改进再大，分数也难以提升太多，但是模型的目标主要是放在针对摘要内容的一个信息量和完整度做比较。虽然DADN在评价指标上提升不是特别显著，但在摘要信息量和完整度的表现上优于其他所有模型。

为了证明DADN修改的部分都有效果的提升，也设计了一个消融实验，分别在 DADN上分别减去每一个设计的板块。第一个实验是不采用DA板块，简称为“(-)DA”；第二个实验则是不采用预训练词向量，简称为“(-)PreTrain”。整个实验结果如表7 所示。DA模块和预训练模块对DADN的效果提升都有一个积极的影响，分别在评价

指标ROUGE-1,ROUGE-2,ROUGE-L提高0.82％、0.4％、0.41％和0.47％、0.34％、0.23％。由此可见，DA和预训练词向量在低资源条件下对模型提升均有很好的帮助。

表3消融实验结果表

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。