CN112541347A

CN112541347A - 一种基于预训练模型的机器阅读理解方法

Info

Publication number: CN112541347A
Application number: CN202011598331.1A
Authority: CN
Inventors: 陈观林; 姚茹韬; 杨武剑; 翁文勇; 李甜
Original assignee: Hangzhou City University
Current assignee: Hangzhou City University
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-03-23
Anticipated expiration: 2040-12-29
Also published as: CN112541347B

Abstract

本发明涉及一种基于预训练模型的机器阅读理解方法，包括步骤：步骤1、对数据进行预处理；步骤2、根据预训练模型的输出通过高级语义融合网络层进行高级语义融合；步骤3、对经过语义融合之后的机器阅读模型进一步进行能力学习；步骤4、计算命名实体的均方误差损失，并对机器阅读模型进行训练。本发明的有益效果是：本发明通过对文本提取出高级语义信息，给模型提供了更高维度的信息，同时其高度的准确性相对于模型自身在训练过程中去尝试抽取这些信息比较起来，更有参考意义；本发明通过能力学习，使得模型能保持规模不变的情况下，提升了机器阅读的能力，使得模型能够在性能较高的前提下，快速的完成推理任务。

Description

一种基于预训练模型的机器阅读理解方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及自然语言处理领域机器阅读相关的内容，具体为基于预训练模型的机器阅读理解方法。

背景技术

观察发现，很多人每天都在互联网上耗费大量时间，通过屏幕获取大量来自世界各地的信息，其中包括文字信息、图片信息和视频信息。在这些信息当中，文字信息的占比巨大；但是通过大量的浏览发现，虽然文字信息的占比巨大，但其文字的质量却良莠不齐；很多信息为了吸引流量博取眼球，通过话题性的词眼制造不实的标题，占用阅读者的阅读时间，但一经阅读就会发现，对于阅读者来说，内容本身却没有任何价值可言。即使读者想通过快速阅读来过滤掉无用信息获取有效信息，也需要在繁多的文本信息中快速锁定有用信息，真正执行起来非常吃力，有时甚至寻求无果，反而在大量劣质文本中浪费了宝贵的时间。

于是越来越多的人索性放弃了文字阅读，转而投向更为直接的信息获取渠道；可以关注到人们现在为了在有限的时间里快速得到有效信息，更倾向于寻找短视频资料；深究其原因不难发现，很多短视频科普栏目的制作者都是从大量的文本信息当中提炼出简明扼要的核心内容，归纳总结后将其分享给观众，观众对于这种轻而易举就能够获取关键信息的方式爱不释手。

针对这种现象，考虑能否通过有效的技术手段对文本进行过滤处置，使其脱离人力，单纯地依靠机器实现对文本信息进行自动化阅读后给出反馈信息，甚至能够对读者关心的内容加以标记，不仅可以节约读者的阅读成本，还可以培养读者的阅读兴趣，这无疑是一种两全其美的手段。而一些对于文本信息使用量庞大的行业，比如金融、媒体、教师等领域，如果能够借助机器阅读的优势，快速地对出现在网络上的信息加以分析，不但为信息使用者提供了低成本高质量的文本信息收集手段，并且保证了信息的时效性，这无疑能够大大减轻许多人工作上的负担。

当前随着人工智能时代的来临，人工智能正在悄然无声地消融着人们日常生活中遇见的众多壁垒，为人类生活的方方面面带来了诸多便利。在2012年，AlexNet仿佛一颗深水炸弹，将深度学习带入到学者们的视野当中，与过去人们在探究人工智能领域所使用一些技术相比，AlexNet开拓了一条新颖的研究方向。在智能化的前期研究过程中，使用到的方法多有限制，在面对一项任务时，往往需要先去归纳人类处理过程当中应用到的规则，以此作为建立模型的基础。显然，这种方式过于简单僵硬，且缺失良好的优化手段。而深度学习则是一种通过搭建神经网络，根据训练集以及一定的梯度优化手段让模型在学习过程中不断优化模型当中的参数，以减少训练集的预测误差为目的，最终实现模型较为精确的预测能力的方式，这无疑是更科学化且具备广阔的发展空间的。研究者们意识到，对于深度学习来说，在构建好优质的数据集情况下，其工作的重心可以转移到如何设计出良好的网络结构来融合丰富的输入信息，以及如何让模型具备良好的自我优化手段，使得其中内部信息之间复杂的关联关系不需要人为的去牵引，换句话说，研究者的重心是打造一个对信息消化效率高，自我优化性能强劲的智能***。

在深度学习引领下的机器阅读，必然能够对人们对于互联网上的文本分析工作有所帮助。申请号为201910867399.6的《一种基于机器学习和深度学习的中文自然语言处理工具***》就提出了这样一套***，该***在深度学习，机器学习的加持之下，包括了数据处理模块，任务应用模块和算法模型库，构造了合理的***架构，通过所有功能训练接口统一、训练流程统一、调用接口统一、调用流程统一，作为自然语言处理工具使用更加简单高效。申请号为201810387340.2的《一种基于深度学习的中文自然语言处理方法》则涉及一种基于深度学习的中文自然语言处理方法，其服务器包括模型调配模块、数据切片模块、数据清洗模块、模型训练模块、模型数据库。采用机器学习训练生成中文深度神经网络模型完成中文自然语言处理任务，具有智能化机器学习的特点。可以看出深度学习对自然语言处理的智能化进程是不可或缺的。但以上方法都是通过深度学习构建一套***或者是一种方法，比较注重实用，忽略了预训练模型机器阅读能力的提升。

发明内容

本发明的目的是克服现有技术中的不足，提供一种基于预训练模型的机器阅读理解方法。

这种基于预训练模型的机器阅读理解方法，包括以下步骤：

步骤1、对数据进行预处理；

步骤2、根据预训练模型的输出通过高级语义融合网络层进行高级语义融合；其中预训练模型包括：Transformer结构、高级语义词嵌入层和线性网络语义融合层；预训练模型和高级语义融合网络层构成高级语义融合机器阅读模型；

步骤3、对经过语义融合之后的机器阅读模型进一步进行能力学习，选择BERT-large为教师模型进行结构改进和精调；机器阅读模型包括高级语义融合机器阅读模型和能力学习方法；

步骤4、计算命名实体的均方误差损失，并对机器阅读模型进行训练；用预训练模型预测文本中问题所对应的答案，然后通过线性神经网络对预测答案进行输出；用机器阅读模型得出文本中问题所对应的答案；

步骤4.1、根据准确答案和预测答案区间内命名实体损失类别的不同，计算命名实体的均方误差损失：首先对准确答案区间内的命名实体类别和预测答案区间内的命名实体类别进行扫描，并将扫描后的两种命名实体类别映射到固定维度大小的命名实体矩阵当中；然后根据准确答案和预测答案之间的位置差异来计算标准的交叉熵损失；

通过交叉熵损失计算公式计算得到预训练模型预测输出值的实际准确度，交叉熵损失计算公式为

上式中，L表示计算所得损失，y表示实际答案的值，

表示预训练模型预测的输出值；并且对映射到固定维度大小的命名实体矩阵进行均方损失计算：

上式中n表示向量的大小，y_i表示根据预训练模型的预测答案映射而来的命名实体向量中位于第i个位置的值，y′_i表示根据机器阅读模型的准确答案映射而来的命名实体向量中位于第i个位置的值；

步骤4.2、在能力学习过程中，将会得到教师模型对相同输入的推理结果，将会得到学生模型BERT-base对该相同输入的推理结果，然后进行交叉熵损失计算；在机器阅读模型中对于答案开始位置和答案结束位置的表示如下式：

上式中表示了交叉熵损失计算时使用到的各个概率的值，其中q_i表示文本中位于位置i的字符作为答案开始位置或是结束位置的概率值，z_i表示机器阅读模型对文本中位于位置i的字符作为开始位置或是结束位置的输出值，j与i都表示字符在文本当中的位置，T指代控制系数Temperature，这个系数通常为1，更高的Temperature可以让概率分布更加的平滑紧凑，各个概率之间的比值被压缩变小；交叉熵损失的计算公式为：

上式中logits_S为学生模型BERT-base的预测概率分布，logits_T为教师模型BERT-large的预测概率分布，T为控制系数Temperature，B指代一次批次训练的批量大小；

将教师模型Bert-large末层经过尺度变换得到的隐含态输出和学生模型Bert-base的末层隐含态输出归一化之后，计算模型均方误差损失，以此来防止能力学习提前进入过拟合；

步骤4.3、整体机器阅读模型的损失为一定权重下的软硬指标损失之和，整体机器阅读模型损失的计算公式为：

total_loss＝α*hard_loss+(1-α)*soft_loss

其中α为设立的动态因子，total_loss为总损失，hard_loss为机器阅读模型根据硬指标计算所得损失，soft_loss为机器阅读模型根据软指标计算所得损失，保证了模型在训练过程当中，对于软指标损失和硬指标损失的倾向动态调整；动态因子α的计算公式为：

上式中，β，γ分别为决定α的上限与下限的因素，经过实验后发现，β＝0.6，γ＝0.2能使得模型获得较好性能；global_step表示当前训练步数，total_step表示总的训练步数；这一设定使得机器阅读模型前期更加注重标准答案，后期更加注重教师模型Bert-large的推导结果，让学生模型BERT-base先根据标准答案来构建学生模型的模型参数，再侧重学习教师模型BERT-large的推理习惯，提升学生模型BERT-base的上限；

步骤4.4、用ADAM(adaptive moment estimation)根据损失对机器阅读模型进行反向传播优化，调整机器阅读模型的参数，最后训练完成的机器阅读模型直接对输入的文本和问题进行机器阅读操作，搜寻出文本中问题所对应的答案。

作为优选，步骤1具体包括以下步骤：

步骤1.1、首先通过BERT-Tokenizer对输入的背景文本和问题进行分词，并将文本当中的词汇转换索引；在每个文本前面加上[CLS]作为起始，在文本和问题之间加上[SEP]作为分割，在拼接文本的末层加上[PAD]作为填补；并针对拼接文本设立长度一致的token_type，在文本处标0，在问题处标1以示区分，将进行上述处理后的文本和问题作为BERT的输入数据；

步骤1.2、对拼接并经过分词后的文本，进行词性标注，得到文本中各个词汇对应的词性标签，并将词性标签索引化；从词性的类别出发，构建的词性字典表，对标注得到的文本，根据词性字典表进行转换，转换得到的数字作为高级语义融合网络层的词性信息输入；

步骤1.3、对拼接后经过了分词的文本，进行命名实体识别，得到文本当中的命名实体信息，并建立对应的命名实体矩阵，作为高级语义融合网络层的命名实体信息输入。

作为优选，步骤2具体包括以下步骤：

步骤2.1、BERT根据输入的词性信息和命名实体信息，经过一系列的注意力计算和前馈神经网络处理，然后输出数据；输入数据的格式为(B,S)，B指代批量的大小，S指代输入文本的长度；BERT的输出数据格式为(B,S,H)，H表示隐含态的向量大小；

步骤2.2、BERT对输入的词性信息和命名实体信息都进行嵌入操作，将嵌入后的向量映射到更大的向量空间当中；输入数据的格式被嵌入成(B,S,E)，E表示嵌入后的向量大小；将嵌入后的向量作为线性网络语义融合层中高级语义融合线性网络的输入数据；

步骤2.3、对BERT的隐含态输出(B,S,H)、经过嵌入的文本词性信息(B,S,T)和经过嵌入的文本命名实体信息(B,S,N)进行拼接，得到(B,S,H+T+N)格式的数据；将(B,S,H+T+N)格式的数据输入到线性网络语义融合层的高级语义融合线性网络中，对最后的结果进行输出；将BERT的隐含态输出(B,S,H)与经过嵌入操作之后的文本词性向量和命名实体向量融合；其中T指代词性标签进行嵌入操作后的向量维度大小，N指代命名实体标签进行嵌入操作后的向量维度大小。

作为优选，步骤3中能力学习方法具体包括如下步骤：

步骤3.1、选择规模更大，推理路线更加全面细腻，机器阅读能力更强的BERT-large为教师模型进行结构改进:对BERT的隐含态输出进行尺度变换网络的整合和高级语义信息的融合，来保证能力学习的一致性，所述高级语义信息为文本的词性信息和命名实体信息；

步骤3.2、将结构改进后的BERT-large模型进行精调，得到性能良好的教师模型。

作为优选，步骤2中预训练模型的其中一个输入为经过预处理且对问题和文本进行分词、索引化、拼接和标识后的矩阵，预训练模型的另一个输入为经过信息抽取的高级语义信息；预训练模型的输出为文本中与问题对应的答案区间；高级语义信息为文本的词性信息和命名实体信息。

作为优选，步骤4.1中交叉熵损失为高级语义融合机器阅读模型下的硬指标带来的损失；步骤4.2中均方误差损失为因能力学习引入而导致的软指标带来的损失。

作为优选，步骤1.3中由于命名实体识别的规则较为复杂，其无法应对过长文本的命名实体识别情况，所以在命名实体识别过程当中需要对文本进行切割和拼接。

本发明的有益效果是：

1)当今高级语义分析技术日益先进，本发明通过对文本提取出高级语义信息，给模型提供了更高维度的信息，同时其高度的准确性相对于模型自身在训练过程中去尝试抽取这些信息比较起来，更有参考意义。并且针对较为稀疏的命名实体损失特意设立了损失函数，避免了模型对这一信息的忽略。

2)本发明通过能力学习，使得模型能保持规模不变的情况下，提升了机器阅读的能力，使得模型能够在性能较高的前提下，快速的完成推理任务。同时针对能力学习进行的一致性和充分性改进，使得学生模型相较于教师模型的性能损耗降低。

附图说明

图1为文本词性提取与嵌入的流程图；

图2为预训练模型高级语义信息融合流程图；

图3为BERT-large针对能力学习场景一致性结构改进流程图；

图4为能力学习中根据推理结果的交叉熵损失计算流程图；

图5为能力学习中根据末层隐含态输出的均方损失计算流程图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

本发明针对深度学习时代，自然语言处理当中出现的预训练模型进行改进和优化，提升了预训练模型的推理速度和阅读能力。本发明基于预训练模型(谷歌提出的BERT-base模型)，针对预训练模型不足对其作出补充；为了让模型兼备较快的推理速度和良好的机器阅读能力，本发明还应用蒸馏模型当中的概念，提出了能力学习的设计方案，在保持其参数规模不变的前提下，让预训练模型根据规模更大，性能更良好的模型进行学习。本发明从预训练模型出发，结合了文本的高级语义信息进行了语义融合，提升了预训练模型的机器阅读能力。又从蒸馏模型引申出来的能力学习下手，针对能力学习过程当中学生模型和教师模型的一致性问题，提出了对教师模型进行维度对齐和高级语义融入的改进。针对能力学习过程中能力转移的充分性问题，发明提出了与模型软硬指标相关的动态调节方法。谷歌提出的BERT-base模型核心为Attention机制，利用子模块的堆叠，其内部组成包括了Multi-Head Attention、前馈神经网络、残差网络以及Layer Normalization，这种模型设计加上良好的无监督学习方式，在各项自然语言处理任务皆取得了瞩目的成果。

作为一种实施例，一种基于预训练模型的机器阅读理解方法，包括以下步骤：

1)对数据进行预处理

具体的BERT的输入数据，这里不做详细阐述，只需将文本和问题分词、索引化、拼接、标识即可。这里主要说明本次发明涉及到的文本高级语义信息包括文本的词性信息和命名实体信息。首先需要对文本的词性信息进行处理，先从词性的类别出发，构建的如下表1所示的词性字典表。

表1词性字典表

然后对文本利用深度学习进行词性标注。词性标注使用了Hanlp提供的词性标注工具，其伪代码如下：

对标注得到的文本，根据词典进行转换，转换得到的数字有利于作为模型的输入数据，对于完成索引化后的输入进行嵌入操作，将其映射到32维的向量空间当中。其具体过程如图1所示。

进行词性标注的过程如表2所示：

表2文本词性标注表

之后则是对文本的命名实体信息进行处理，相同的，在文本当中的命名实体被识别出来之后，就会进行索引转换操作。这里命名实体识别的工作借助了Hanlp提供的工具，同时由于命名实体识别的规则较为复杂，其无法应对过长文本的命名实体识别情况，所以在命名实体识别过程当中，需要对文本进行切割和拼接工作。其具体伪代码如下：

其文本命名实体的标注结果如下表3所示

表3文本命名实体标注表

之后则是根据其进行词嵌入操作，将其映射到4维的向量空间当中。

2)高级语义融合

对于BERT的隐含态输出，将其与经过嵌入操作之后的文本词性向量和命名实体向量融合，然后通过线性神经网络对预测答案进行输出。其整体融合如图2所示。

对于模型预测答案的输出，根据输出结果，会进行两个维度的损失计算。第一维度是答案的实际准确程度，在这里通过交叉熵损失计算公式进行计算。

L表示计算所得损失，y表示实际答案的值，

表示模型预测的输出值。

根据数据集对于每个文本-问题对的准确答案进行答案开始位置和答案结束位置的交叉熵损失计算。

另一维度则是根据命名实体进行损失的计算。发明认定命名实体信息的重要地位，为其特意设立命名实体损失计算，其具体步骤是：

A、得到文本的命名实体信息，根据数据集的准确答案对其区间进行扫描，将其映射到命名实体的一个固定大小的4维向量。

B、根据模型的预测答案对其区间进行扫描，将其映射到命名实体的固定大小4维向量；

C、对这两个向量进行均方损失计算

其中n表示向量的大小，这里为4，y_i表示根据模型的预测答案映射而来的命名实体向量中位于第i个位置的值，同理，y′_i表示根据模型的准确答案映射而来的命名实体向量中位于第i个位置的值。

其具体的伪代码如下所示：

表4表示了BERT在测试集上采取不同方法得到的EM/F1分数，第一个为基准模型BERT-Base的得分，第二个为基准模型单独加上了文本词性信息融合的得分，第三个为基准模型单独加上了文本命名实体信息融合的得分，第四个为基准模型同时加上了两种高级语义信息的得分，可以看到两个语义信息都单独有给模型带来性能提升，相较于基准模型其在机器阅读能力上其都有进步，这一结果表明，高级语义信息的融入以及命名实体损失的设立是有效的。

表4高级语义融合模型消融实验对比表

3)能力学习

能力学习的目的是在保持模型规模不变，推理速度不变的情况下，提

升自身的机器阅读性能。为了能力学习的场景一致性和充分性，训练过程中针对这两个特性会进行调整。

3.1)能力学习一致性调整：发明以规模更大，推理路线更齐全的预训练模型作为优选。以BERT-large为例，其结构与BERT-base基本一致，除了规模更大，参数量更多，其余的并无区别，在一定量的数据集支撑之下，其相对BERT-base能获得更好的性能。根据最初蒸馏模型当中提及的概念，BERT-base可以根据经过精调之后的BERT-large的推理结果作为另一个学习的指标，进行自我参数的修整，这里将这个指标称为软指标，将实际答案作为硬指标。

为了避免BERT-base出现提前过拟合的情况，发明会将BERT-large的末层隐含态输出和BERT-base的末层隐含态输出归一化后作均方损失计算作为另一软指标。为了保证这一能力学习过程中的两个模型场景一致性，针对BERT-large末层整合一个负责尺度变换的线性神经网络，其维度与BERT-base的隐含态输出维度一致。针对BERT-base训练过程当中进行的高级语义融合，选择BERT-large末层经过尺度变换得到的隐含态输出与文本的高级语义嵌入向量进行融合，并以这种结构完成整个的精调过程，其调整如图3所示。最后BERT-base就根据BERT-large对相同输入的结果输出进行交叉熵损失计算，如图4所示，并根据BERT-large末层经过尺度变换的隐含态输出进行均方损失计算，如图5所示。以此优化BERT-base的机器阅读性能。

3.2)能力学习充分性调整：能力学习过程中，为了小模型能够根据大模

型提供的额外软指标进行充分地学习，针对模型的整个训练阶段，将其对软硬指标的倾向进行动态调整。

表5表示了融合了高级语义信息的模型，在进行了能力学习之后，整体模型在维持规模不变的情况下，其机器阅读能力得到了较大的提升。

表5 BERT-HIS在能力学习不同策略下的模型能力对比表

实验结论：

本发明基于预训练模型，结合文本的高级语义信息和蒸馏学习的概念，提出了机器阅读理解方法。在公开数据集进行评测之后，通过消融实验进行了对比，可以看出无论是文本的高级语义融合还是能力学习的引入，都让模型的机器阅读能力得到了提升。实验的结果与发明预期加入这两种方法的出发点一致，这有利于日后人们在其方法背后继续挖掘，继续提升现在的机器阅读模型的能力。

Claims

1.一种基于预训练模型的机器阅读理解方法，其特征在于，包括以下步骤：

步骤1、对数据进行预处理；

上式中，L表示计算所得损失，y表示实际答案的值，

上式中其中q_i表示文本中位于位置i的字符作为答案开始位置或是结束位置的概率值，z_i表示机器阅读模型对文本中位于位置i的字符作为开始位置或是结束位置的输出值，j与i都表示字符在文本当中的位置，T指代控制系数Temperature；交叉熵损失的计算公式为：

将教师模型BERT-large末层经过尺度变换得到的隐含态输出和学生模型Bert-base的末层隐含态输出归一化之后，计算模型均方误差损失；

total_loss＝α*hard_loss+(1-α)*soft_loss

其中α为设立的动态因子，total_loss为总损失，hard_loss为机器阅读模型根据硬指标计算所得损失，soft_loss为机器阅读模型根据软指标计算所得损失；动态因子α的计算公式为：

上式中，β，γ分别为决定α的上限与下限的因素；global-step表示当前训练步数，total-step表示总的训练步数；学生模型BERT-base先根据标准答案来构建学生模型的模型参数，再侧重学习教师模型BERT-large的推理习惯，提升学生模型BERT-base的上限；

步骤4.4、用ADAM根据损失对机器阅读模型进行反向传播优化，调整机器阅读模型的参数，最后训练完成的机器阅读模型直接对输入的文本和问题进行机器阅读操作，搜寻出文本中问题所对应的答案。

2.根据权利要求1所述基于预训练模型的机器阅读理解方法，其特征在于：步骤1具体包括以下步骤：

步骤1.1、首先通过BERT-Tokenizer对输入的文本和问题进行分词，并将文本当中的词汇转换索引；在每个文本前面加上[CLS]作为起始，在文本和问题之间加上[SEP]作为分割，在文本的末层加上[PAD]作为填补；并针对文本设立长度一致的token_type，在文本处标0，在问题处标1以示区分，将进行上述处理后的文本和问题作为BERT的输入数据；

3.根据权利要求1所述基于预训练模型的机器阅读理解方法，其特征在于：步骤2具体包括以下步骤：

步骤2.1、BERT根据输入的词性信息和命名实体信息，经过注意力计算和前馈神经网络处理，然后输出数据；输入数据的格式为(B,S)，B指代批量的大小，S指代输入文本的长度；BERT的输出数据格式为(B,S,H)，H表示隐含态的向量大小；

4.根据权利要求1所述基于预训练模型的机器阅读理解方法，其特征在于，步骤3中能力学习方法具体包括如下步骤：

步骤3.1、选择BERT-large为教师模型进行结构改进：对BERT的隐含态输出进行尺度变换网络的整合和高级语义信息的融合，所述高级语义信息为文本的词性信息和命名实体信息；

步骤3.2、将结构改进后的BERT-large模型进行精调，得到教师模型。

5.根据权利要求1所述基于预训练模型的机器阅读理解方法，其特征在于：步骤2中预训练模型的其中一个输入为经过预处理且对问题和文本进行分词、索引化、拼接和标识后的矩阵，预训练模型的另一个输入为经过信息抽取的高级语义信息；预训练模型的输出为文本中与问题对应的答案区间；高级语义信息为文本的词性信息和命名实体信息。

6.根据权利要求1所述基于预训练模型的机器阅读理解方法，其特征在于：步骤4.1中交叉熵损失为高级语义融合机器阅读模型下的硬指标带来的损失；步骤4.2中均方误差损失为因能力学习引入而导致的软指标带来的损失。

7.根据权利要求2所述基于预训练模型的机器阅读理解方法，其特征在于：步骤1.3中在命名实体识别过程当中对文本进行切割和拼接。