CN112163410A

CN112163410A - 一种基于深度学习的古文预训练***及其训练方法

Info

Publication number: CN112163410A
Application number: CN202011094231.5A
Authority: CN
Inventors: 吕建成; 田荟双; 杨可心; 屈茜; 彭玺; 刘权辉
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-01

Abstract

本发明提供了一种基于深度学***行语料数据，且平行数据没那么容易获得的问题。

Description

一种基于深度学习的古文预训练***及其训练方法

技术领域

本发明属于古文训练的技术领域，尤其涉及一种基于深度学习的古文训练***及方法。

背景技术

古文是中国古代的一种书面语言组成的文章，主要包括以先秦时期的口语为基础而形成的书面语言，包含策、诗、词、曲、八股、骈文、对联等多种文体，古文使用了上千年，所以现存的古文语料数量大。之前对于古文领域的任务研究包括古文翻译成现代文、古诗生成、对联生成等。这些古文任务大多都使用平行的有标注语料应用于各种机器学***行有标注数据规模的限制。

近年来，很多研究都提出了使用预训练模型应用到自然语言处理上以提升效果，这些预训练模型在计算性能满足的情况下用某个较大的数据集训练出一个较好的神经网络模型，然后根据不同的任务，改造预训练模型，用新任务的数据集在预训练模型上进行微调。因此为了提升古文领域的任务效果，本申请提出了一个古文领域的预训练模型，在大型古文单语料上进行预训练，然后应用到下游的古文任务以提升效果。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于深度学***行语料数据，且平行数据没那么容易获得的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于深度学习的古文预训练***，包括预处理模块以及预训练模块；

所述预处理模块，用于获取预训练的古文数据，并对所述古文数据进行预处理；

所述预训练模块，用于根据所述预处理后的古文数据以及BERT-base模型，利用完形填空任务训练得到古文预训练模型，完成对基于深度学习的古文预训练***的训练。

基于上述***，本发明还公开了一种基于深度学习的古文预训练***的训练方法，包括以下步骤：

S1、获取预训练的古文数据，并对所述古文数据进行预处理；

S2、利用BERT-base模型对古文预训练模型的参数进行初始化处理，并将BERT-base模型中的中文词汇表作为古文预训练模型的词汇表；

S3、根据预处理后的古文数据以及所述词汇表，利用完形填空任务训练得到古文预训练模型，完成对基于深度学习的古文预训练***的训练。

进一步地，所述步骤S1包括以下步骤：

S101、获取预训练的古文数据；

S102、删除所述古文数据中的特殊符号，并将繁体中文转换成简体中文；

S103、删除古文数据中的标题，完成对所述古文数据的预处理。

再进一步地，所述步骤S2中古文预训练模型的结构包括依次连接的输入层、12个结构相同的Transformer层以及输出层；每个所述Transformer层均包括依次连接的多头注意力层、第一残差和正则化层、前馈网络层以及第二残差和正则化层，其中，

第一个Transformer层的多头注意力层与输入层连接，第十二个Transformer层的第二残差和正则化层与输出层连接，两个相邻Transformer层之间通过第二残差和正则化层以及多头注意力层连接。

再进一步地，各所述Transformer层中多头注意力层、第一残差和正则化层、前馈网络层以及第二残差和正则化层的隐藏层节点数均为768个；各所述多头注意力层的注意力头数量均为12个；各所述前馈网络层的节点数均为3072个。

再进一步地，所述输入层包括词嵌入向量层和位置向量层，所述词嵌入向量层的节点数为21128个，所述位置向量层的节点数为512个。

再进一步地，所述步骤S3包括以下步骤：

S301、根据预处理后的古文数据，随机选择15％的古文文字得到第一文本序列；

S302、分别将第一文本序列中80％的古文文字利用MASK符号进行遮盖处理、将10％的古文文字利用词汇表中的文字进行替换以及保持10％的古文文字不变，得到第二文本序列；

S303、利用包括第一文本序列和第二文本序列的所有预处理后的古文数据训练古文预训练模型，完成对基于深度学习的古文预训练***的训练。

再进一步地，所述步骤S303中古文预训练模型的目标函数的表达式如下：

L(θ；X)＝∑_x∈Xlog(x^mask|x^\mask；θ)

X＝{x₁,x₂,...,x_n}

其中，L(θ；X)表示古文预训练模型的目标函数，X表示所有的古文文本训练数据，x_n表示第n个文本序列，θ表示古文预训练模型参数，x^mask表示在X中被遮掩处理的15％的古文数据，x^\mask表示在X中除第一文本序列剩余的85％的古文数据。

本发明的有益效果：

(1)本发明通过构建无标注的古文语料数据集，用于古文领域模型预训练。提出了一个古文领域的预训练模型AnchiBERT，该模型是基于BERT架构，在大量古文单语料数据集上训练而成，能够有效提升古文领域任务效果，包括古文理解任务和古文生成任务。

(2)本发明通过使用MLM任务训练模型，更新模型参数，MLM任务目的简单来说就是遮掉一些字，让模型通过没遮掉的上下文字预测遮掉的字是什么，通过该方法训练模型，让预测更准确，即让训练目标函数取值最大，这样能得到训练好的模型参数，该模型即为AnchiBERT。

(3)本发明输入的向量首先经过多头自注意力机制模块，这一部分可以使向量序列逐个互相得到信息，从而使向量融入序列全局信息，然后在两个子层之间通过残差网络结构进行连接，后接一个层正则化层，这是为了解决神经网络参数过多导致的梯度消失和神经网络过拟合问题，本申请是加入一个简单的、按逐个位置进行全连接的前向神经网络，然后继续进行残差连接和正则化操作，可以提升所有下游的古文任务效果。

(4)本发明通过最大化该目标函数训练古文预训练模型参数，使古文预训练模型能够更好地通过上下文预测出被遮掩处理的文字。这样，古文预训练模型就能预先学到一些文本表示，而古文预训练模型参数就不用随机初始化，直接用在下游任务中，从而增加下游任务的模型收敛效果和速度。

附图说明

图1为本发明的***结构示意图。

图2为本发明的方法流程图。

图3为本实施例中下游任务实现示意图。

图4为本实施例中诗歌生成和对联生成示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1

现有的古文领域任务基本是基于神经网络使用有监督数据训练的模型，本发明的目的是针对现有有监督任务过度依赖于古文平行语料数据，且平行数据没那么容易获得的问题，提出了一个古文领域的预训练模型。这个模型基于BERT的框架，在大型古文单语料上进行预训练然后在下游任务上微调，可以提升所有下游的古文任务效果，包括古文理解任务和古文生成任务。如图1所示，本发明提供了一种基于深度学习的古文预训练***，包括预处理模块以及预训练模块；预处理模块，用于获取预训练的古文数据，并对所述古文数据进行预处理；预训练模块，用于根据所述预处理后的古文数据以及BERT-base模型，利用完形填空任务训练得到古文预训练模型，完成对基于深度学习的古文预训练***的训练。

本实施例中，本发明通过构建无标注的古文语料数据集，用于古文领域模型预训练。提出了一个古文领域的预训练模型AnchiBERT，该模型是基于BERT架构，在大量古文单语料数据集上训练而成，能够有效提升古文领域任务效果，包括古文理解任务和古文生成任务。并通过使用MLM任务训练模型，更新模型参数，MLM任务目的简单来说就是遮掉一些字，让模型通过没遮掉的上下文字预测遮掉的字是什么，通过该方法训练模型，让预测更准确，即让训练目标函数取值最大，这样能得到训练好的模型参数，该模型即为AnchiBERT。

实施例2

如图2所示，本发明还提供了一种基于深度学习的训练***的训练方法，其实现方法如下：

S1、获取预训练的古文数据，并对所述古文数据进行预处理，其实现方法如下：

S101、获取预训练的古文数据；

S103、删除古文数据中的标题，完成对所述古文数据的预处理；

S3、根据预处理后的古文数据以及所述词汇表，利用完形填空任务训练得到古文预训练模型，完成对基于深度学习的古文预训练***的训练，其实现方法如下：

本实施例中，古文预训练模型的目标函数的表达式如下：

L(θ；X)＝∑_x∈Xlog(x^mask|x^\mask；θ)

X＝{x₁,x₂,...,x_n}

如图1所示，古文预训练模型的结构包括依次连接的输入层、12个结构相同的Transformer层以及输出层；每个所述Transformer层均包括依次连接的多头注意力层、第一残差和正则化层、前馈网络层以及第二残差和正则化层，其中，第一个Transformer层的多头注意力层与输入层连接，第十二个Transformer层的第二残差和正则化层与输出层连接，两个相邻Transformer层之间通过第二残差和正则化层以及多头注意力层连接，各所述Transformer层中多头注意力层、第一残差和正则化层、前馈网络层以及第二残差和正则化层的隐藏层节点数均为768个；各所述多头注意力层的注意力头数量均为12个；各所述前馈网络层的节点数均为3072个，所述输入层包括词嵌入向量层和位置向量层，所述词嵌入向量层的节点数为21128个，所述位置向量层的节点数为512个。

本实施例中，模型的输入层包括词嵌入向量层加位置向量层，词嵌入向量层是对输入的每个字进行编码得到其向量表达，词嵌入向量节点数为21128，位置向量层建模文本中的文字顺序关系，位置向量矩阵节点数为512，然后是结构相同的12层Transformer层。每个Transformer层中，隐藏层节点数为768，第一个子层，输入的向量首先经过多头自注意力机制模块，这个注意力头数量为12，注意力机制可以使向量序列逐个互相得到信息，使向量融入序列全局信息，从而专注在某个重要词上，将模型做多次注意力，形成多个子空间，可以让模型去关注不同方面的信息，然后接一个正则化和残差网络层，这是为了解决神经网络参数过多导致的梯度消失和神经网络过拟合问题；第二个子层，有一个简单的、按逐个位置进行全连接的前馈神经网络层，节点数为3072，然后继续进行正则化和残差连接操作，最后得到输出，输入层加上12层上述Transformer层依次连接，得到古文预训练模型结构。

本实施例中，本发明是在BERT-base(中文版)的基础上使用古文单语料继续预训练而得到，并非是从头开始训练。

本实施例中，首先使用BERT-base(中文版)初始化古文预训练模型参数。再使用MLM任务训练模型，更新模型参数。掩模语言模型MLM的目的简单来说就是遮掉一些字，让模型通过没遮掉的上下文字预测遮掉的字是什么。最后针对训练模型，让预测更准确，即让训练目标函数取值最大，这样能得到训练好的模型参数，该模型即为古文预训练模型AnchiBERT。

本实施例中，本发明使用BERT论文中提出的掩模语言模型MLM，也称为完形填空任务来训练古文预训练模型AnchiBERT，该任务(MLM)是预测本申请遮掩掉的某些字。遮掩MSAK方法是：本申请从文本序列中随机抽取15％的中文字，这些中文字的80％用[MASK]这个符号替换，10％用随机一个在词汇表中的中文字替换，10％保持不变。MLM任务就是通过上下文预测这些被遮掩掉的字。对于文本序列X＝{x₁,x₂,...,x_n}。训练目标函数：模型的训练目标函数是对数似然：

L(θ；X)＝∑_x∈Xlog(x^mask|x^\mask；θ)

本申请的训练目标就是让这个函数值最大。

本实施例中，训练的超参数设置：在训练过程中使用学习率1e-4，使用adam优化器训练。文本序列长度最长大小为512个字符，训练的批数据大小为15。本申请使用BERT论文作者公开发布的中文词汇表作为AnchiBERT的词汇表。分词方法就是将古文语料分成一个一个中文字隔开。

本实施例中，如图4所示，预训练的目的，就是为了微调，即能够利用这个预训练好的模型提升其他下游任务的效果。能够提升效果的原因是，预训练模型的参数是学习好的，已经包含了一部分之前学得的文本信息，无需从头学得。下游任务包括诗歌分类、古文翻译、古诗生成和对联生成，具体在B实验部分可看。

本实施例中，对于诗歌分类，本申请将整首诗输入AnchiBERT，输入的起始符‘[S]’字符在最终层相对应的向量为H_S，将向量H_S输入到分类的softmax层，以获取诗歌主题类别；对于文本生成任务(古文翻译，古诗生成，对联生成)，这些任务基于编码器-解码器框架，和Transformer的编码器-解码器结构一模一样。本申请用AnchiBERT作为编码器对输入进行编码，并用随机初始化的Transformer作为解码器。训练时，古文翻译任务将古文作为输入，输入到编码器中，经过解码器解码得到模型输出，而现代文则作为标准答案；古诗生成将古诗前几句作为输入，后几句作为标准答案；对联生成将上联作为输入，下联作为标准答案。

本实施例中，为了验证AnchiBERT对于古文领域效果任务的提升，本申请在如下任务上做了实验：

1)诗歌分类。根据一首诗的内容将这首诗分类，总共有9类，例如送别诗、战争诗等等。

2)古文翻译。因为古文对于现代人很难于理解，因此古文翻译任务将古文翻译成现代文。

3)古诗生成。古诗生成本申请设置两种实验设定，一种是从古诗第一句生成后面三句(1-3)，一种是从前两句生成后两句(2-2)。

4)对联生成。对联生成是给定上联生成下联。

本实施例中，诗歌分类的数据集是2.8K网上公开的数据集，数据格式是每首诗的4句诗和一些关键字作为输入，对应的一个类别作为输出；古文翻译的数据集是1M大小古文-现代文句子对，古文作为输入，现代文作为输出；古诗生成的数据集是网络公开的0.23M的4句古诗生成(1-3)任务中，第一句作为输入，后三句为标准输出，古诗生成(2-2)任务中，前两句作为输入，后两句作为标准输出；对联生成的数据集是0.77M公开的上联和下联数据对，上联是输入，下联是输出。

本实施例中，本申请将AnchiBERT和一些基线模型进行对比，基线模型如下：Std-Transformer：在分类任务中，Std-Transformer和AnchiBERT的模型配置一模一样，包括模型结构，层数，使用的词汇表等等，唯一不一样的是，Std-Transformer的参数权重是随机初始化的。在生成任务中，Std-Transformer是一个编码器-解码器框架。它的编码器是分类任务的Std-Transformer，解码器是随机初始化的Transformer解码器。Bert-Base：在分类任务中，Bert-Base为BERT论文官方发布的BERT-base中文版。在生成任务中，Bert-Base是一个编码器-解码器框架。它的编码器是分类任务的Bert-Base，解码器是随机初始化的transformer解码器。AnchiBERT：在古文语料上微调训练而成。本申请使用3个RTX 2080tiGPU进行训练，训练时间为3天，代码是基于网络上公开的pytorch-transformer库实现的。

本实施例中，如图3所示，针对微调AnchiBERT(下游任务实现)：对于诗歌分类，本申请将诗歌的最终隐藏层‘[S]’字符相对应的向量输入到分类层，以获取主题标签。对于文本生成任务(古文翻译，古诗生成，对联生成)，这些任务基于编码器-解码器框架。本申请用AnchiBERT初始化编码器，并随机初始化基于Transformer的解码器。训练目标是最小化负对数似然，就像大多数序列到序列任务一样，至于训练设置，诗歌分类任务中，本申请设置批处理大小24，并使用Adam优化器。对于文本生成任务，本申请使用和Transformer相同的优化器，采用warmup技术，即学习率在一定步数内线性增加，到达阈值后又随着步数增加线性减少。在古文翻译中，本申请应用30的批次大小和4层解码器；在诗歌生成中，本申请采用80的批量大小和2层解码器；在对联生成中，本申请应用80的批量大小和4层解码器。Dropout比率始终为0.1。本申请选择在开发集上最佳的训练轮数和学习率。图3中，[S]表示一句话开始，是每句文本序列前都要加入的起始符[E]表示一句话结束，是每句文本序列后都要加入的结尾符。

本实施例中，如图4所示，图4显示了古文翻译，诗歌生成和对联生成的例子。在生成任务中，本申请观察到Std-Transformer学习语言表征的能力较弱，导致古文的前后生成的句子缺乏连贯性。BERT-Base是从现代中国语料中学习语言表征，所以它对于古代中文的生成来说稍差一些，AnchiBERT能够生成连贯且有意义的古汉语句子。例如，在古今汉语翻译中任务，古句“听已”被翻译成“听完以后”(听完之后)。然而，Std-Transformer和BERT-Base直接忽略此句子，没有翻译出来，而本申请提出的AnchiBERT模型则翻译了。在古诗生成(2-2)中，原诗描述了作者的爱国知心，但是，生成的句子中，Std-Transformer的句子并没有包括这个含义，与此同时，BERT-Base的第一个生成的句子描述了普通百姓的生活，和原诗的语义有一些偏移，且和前句的衔接不那么连贯，AnchiBERT生成的句子表达看沉重的气氛和对繁荣王朝的期望，与诗歌主题非常吻合。从生成任务的例子比较，图4中的“Std-Trans”是“Std-Transformer”的缩写，Chinese Poem Generation(2-2)表示从古诗前两句生成后两句，(1-3)表示从第一句生成后三句。

本发明首次提出一个在古文领域的预训练模型，该模型是在基于申请人构建的古文语料上训练的。本发明通过构建无标注的古文语料数据集，用于古文领域模型预训练。提出了一个古文领域的预训练模型AnchiBERT，该模型是基于BERT架构，在大量古文单语料数据集上训练而成，能够有效提升古文领域任务效果，包括古文理解任务和古文生成任务。本发明在关于古文的四个下游任务上验证本发明AnchiBERT的效果，其中，包括古文语言理解和语言生成任务。AnchiBERT在所有任务上都达到了最好的效果，同时，AnchiBERT验证了预训练模型在古文领域上能够有效提升任务性能。因此，提供了一个完整的思路，将预训练模型结合到古文整个领域。

Claims

1.一种基于深度学习的古文预训练***，其特征在于，包括预处理模块以及预训练模块；

2.一种如权利要求1所述的基于深度学习的古文预训练***的训练方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的基于深度学习的古文预训练***的训练方法，其特征在于，所述步骤S1包括以下步骤：

S101、获取预训练的古文数据；

4.根据权利要求1所述的基于深度学习的古文预训练***的训练方法，其特征在于，所述步骤S2中古文预训练模型的结构包括依次连接的输入层、12个结构相同的Transformer层以及输出层；每个所述Transformer层均包括依次连接的多头注意力层、第一残差和正则化层、前馈网络层以及第二残差和正则化层，其中，

5.根据权利要求4所述的基于深度学习的古文预训练***的训练方法，其特征在于，各所述Transformer层中多头注意力层、第一残差和正则化层、前馈网络层以及第二残差和正则化层的隐藏层节点数均为768个；各所述多头注意力层的注意力头数量均为12个；各所述前馈网络层的节点数均为3072个。

6.根据权利要求4所述的基于深度学习的古文预训练***的训练方法，其特征在于，所述输入层包括词嵌入向量层和位置向量层，所述词嵌入向量层的节点数为21128个，所述位置向量层的节点数为512个。

7.根据权利要求4所述的基于深度学习的古文预训练***的训练方法，其特征在于，所述步骤S3包括以下步骤：

8.根据权利要求7所述的基于深度学习的古文预训练***的训练方法，其特征在于，所述步骤S303中古文预训练模型的目标函数的表达式如下：

L(θ；X)＝∑_x∈Xlog(x^mask|x^\mask；θ)

X＝{x₁,x₂,...,x_n}