CN113033801A

CN113033801A - 神经网络模型的预训练方法、装置、电子设备和介质

Info

Publication number: CN113033801A
Application number: CN202110242141.4A
Authority: CN
Inventors: 卢宇翔; 刘佳祥; 陈徐屹; 冯仕堃; 王硕寰; 孙宇; 黄世维; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-06-25
Also published as: JP2022020006A; JP7297038B2; US20220129753A1; EP4033415A1; KR102635800B1; KR20210131923A

Abstract

本申请公开了一种神经网络模型的预训练方法、装置、电子设备和介质，涉及自然语言处理NLP、深度学习领域。实现方案为：将预训练数据输入至初始神经网络模型，并以第一训练方式对初始神经网络模型进行预训练，其中，第一训练方式之中多层隐藏层共用一个隐藏层参数，并获取初始神经网络模型的损失值，如果初始神经网络模型的损失值小于预设阈值，则以第二训练方式对初始神经网络模型继续进行预训练，其中，第二训练方式之中多层隐藏层之中每层各自具有一个隐藏层参数。由此，不仅可以提升模型的收敛效果，也可以提升模型的预测效果。

Description

神经网络模型的预训练方法、装置、电子设备和介质

技术领域

本申请涉及NLP(Natural Language Processing，自然语言处理)、深度学习等AI(Artificial Intelligence，人工智能)技术领域，具体地，本申请提供了一种神经网络模型的预训练方法、装置、电子设备和介质。

背景技术

随着世界经济的快速发展、国际文化交流的日益频繁，以及互联网技术的高速发展，全球信息化程度迅速提高，传统的依赖于人工翻译的方法已经无法满足人们日常跨语言交流的需求。

机器翻译模型能够将一种语言自动翻译成为另外一种语言，是解决语言障碍问题的最有力手段之一种。为了提升机器翻译模型的预测效果，需要对机器翻译模型进行训练。

发明内容

本申请提供了一种用于神经网络模型的预训练方法、装置、电子设备和介质。

根据本申请的一方面，提供了一种神经网络模型的预训练方法，包括：

获取预训练数据；

将所述预训练数据输入至初始神经网络模型，并以第一训练方式对所述初始神经网络模型进行预训练，其中，所述第一训练方式之中所述多层隐藏层共用一个隐藏层参数；

获取所述初始神经网络模型的损失值；

如果所述初始神经网络模型的损失值小于预设阈值，则以第二训练方式对所述初始神经网络模型继续进行预训练，其中，所述第二训练方式之中所述多层隐藏层之中每层各自具有一个隐藏层参数。

根据本申请的另一方面，提供了一种神经网络模型的预训练装置，包括：

第一获取模块，用于获取预训练数据；

第一训练模块，用于将所述预训练数据输入至初始神经网络模型，并以第一训练方式对所述初始神经网络模型进行预训练，其中，所述第一训练方式之中所述多层隐藏层共用一个隐藏层参数；

第二获取模块，用于获取所述初始神经网络模型的损失值；

第二训练模块，用于如果所述初始神经网络模型的损失值小于预设阈值，则以第二训练方式对所述初始神经网络模型继续进行预训练，其中，所述第二训练方式之中所述多层隐藏层之中每层各自具有一个隐藏层参数。

根据本申请的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请上述实施例提出的神经网络模型的预训练方法。

根据本申请的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请上述实施例提出的神经网络模型的预训练方法。

根据本申请的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在处理器执行时实现如本申请上述实施例提出的神经网络模型的预训练方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为模型在不同参数量下所对应的困惑度曲线示意图；

图2为传统的以Transformer为基本结构的预训练语言模型采用的PostLN结构示意图；

图3为模型在不同参数量下所对应的收敛效果示意图；

图4为以Transformer为基本结构的预训练语言模型采用的PreLN结构示意图；

图5为模型在不同参数量规模下所对应的收敛效果示意图；

图6为本申请实施例一所提供的神经网络模型的预训练方法的流程示意图；

图7为本申请实施例二所提供的神经网络模型的预训练方法的流程示意图；

图8为本申请实施例三所提供的神经网络模型的预训练方法的流程示意图；

图9为本申请实施例中分别采用非循环结构和循环结构对模型进行预训练后的收敛效果示意图；

图10为本申请实施例四所提供的神经网络模型的预训练装置的结构示意图；

图11示出了可以用来实施本申请的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

自以BERT(Bidirectional Encoder Representations from Transformer，基于机器翻译的双向编码表示)为代表的预训练语言模型出现后，以Transformer为基本结构的预训练语言模型成为了自然语言处理领域的研究热点。研究发现，通过增大预训练语言模型规模，比如增大模型参数量或模型层数，可以提升模型的预测效果。

作为一种示例，以模型的参数量分别为355M、2.5G、8.3G，对模型进行训练，得到模型的困惑度如图1所示，其中，参数量为355M对应的困惑度曲线为曲线1，参数量为2.5G对应的困惑度曲线为曲线2，参数量为8.3G对应的困惑度曲线为曲线3。其中，困惑度越低，模型效果越好。由图1可以看出，当模型的参数量增大时，模型的困惑度降低，模型的预测效果提升。

传统的以Transformer为基本结构的预训练语言模型采用的结构如图2所示的PostLN(Post-Layer Norm，后置-层归一化)结构，然而，当模型参数量较大时，例如大于700M，PostLN结构可能会导致模型训练时无法收敛，即模型的稳定性较差。例如，以参数量分别为752M和336M，对PostLN结构的模型进行训练，确定模型是否能够收敛，得到的测试结果如图3所示，其中，参数量为752M对应的测试结果如图3中的曲线2所示，参数量为336M对应的测试结果如图3中的曲线3所示。可知，当参数量为752M时，PostLN结构的模型无法正常收敛，而当参数量为336M时，PostLN结构的模型可正常收敛。

相关技术中，可以将模型的结构改进为如图4所示的PreLN(Pre-Layer Norm，前置-层归一化)结构，以参数量为752M，对PreLN结构的模型进行训练，确定模型是否能够收敛，得到的测试结果如图3中的曲线1所示。由图3中的曲线1可知，当参数量为752M时，PreLN结构的模型可以正常收敛。

其中，图2和图4中的MLP是指多层感知器(Multi-Layered Perceptron)，LayerNorm是指层归一化，Self Attention是指自注意力机制。

虽然PreLN结构的模型在模型参数量较大时能够收敛，但是，在可收敛的参数大小范围之内，PostLN结构的模型的收敛效果均优于PreLN结构的模型。

作为一种示例，分别将PostLN结构的模型、PreLN结构的模型和RealFromer(Residual Attention Transformer，将残差转移到注意力矩阵上的Transformer模型)，在小规模参数量(BERT-Small)、基础规模参数量(BERT-Base)、大规模参数量(BERT-Large)和超大规模参数量(BERT-XLarge)上进行测试，得到的测试结果如图5所示。由图5可知，在可收敛的参数大小范围之内，PostLN结构的模型的收敛效果优于PreLN结构的模型。

为了实现在提升模型参数量的同时，进一步提升模型的收敛效果，本申请提出一种神经网络模型的预训练方法、装置、电子设备和介质。

下面参考附图描述本申请实施例的神经网络模型的预训练方法、装置、电子设备和介质。

图6为本申请实施例一所提供的神经网络模型的预训练方法的流程示意图。

本申请实施例以该神经网络模型的预训练方法被配置于神经网络模型的预训练装置中来举例说明，该神经网络模型的预训练装置可以应用于任一电子设备中，以使该电子设备可以执行神经网络模型的预训练功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为PC(PersonalComputer，个人电脑)、移动终端、服务器等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作***、触摸屏和/或显示屏的硬件设备。

如图6所示，该神经网络模型的预训练方法可以包括以下步骤：

步骤601，获取预训练数据。

本申请实施例中，预训练数据可以根据翻译需求进行选取，其中，各预训练数据中的文本信息可以为属于同一语言的文本信息，或者，也可以为属于不同语言的文本信息。

比如，当该神经网络模型用于将第一语言的文本信息翻译为第二语言的文本信息时，其中，第一语言与第二语言不同，比如第一语言可以为中文，第二语言可以为英文，或者，第一语言可以为中文，第二语言可以为法文，等等，此时，各预训练数据中的文本信息的语言可以为第一语言。

再比如，当该神经网络模型用于第一语言和第二语言互译的场景时，比如中英互译场景，预训练数据可以包括：包含属于第一语言的文本信息的预训练数据，和/或，包含属于第二语言的文本信息的预训练数据，即各预训练数据中的文本信息的语言可以为第一语言，或者，也可以为第二语言，或者，可以同时包含第一语言和第二语言，本申请对此并不作限制。

本申请实施例中，可以根据翻译需求，选取预训练数据。例如，可以在线采集预训练数据，或者也可以线下采集预训练数据，或者预训练数据也可以为电子设备本地存储的文本信息，或者也可以从现有的测试数据集中获取预训练数据，本申请实施例对此并不做限制。

步骤602，将预训练数据输入至初始神经网络模型，并以第一训练方式对初始神经网络模型进行预训练，其中，第一训练方式之中多层隐藏层共用一个隐藏层参数。

需要说明的是，本申请中，对初始神经网络模型的结构并不作限制，比如，该初始神经网络模型的结构可以为Transformer结构，或者，也可以为其他结构。并且，本申请中，对初始神经网络模型的类型也不做限制，比如，该初始神经网络模型可以包括但不限定于自注意力模型、循环神经网络模型等等。

本申请实施例中，在获取到预训练数据后，可以将预训练数据输入至初始神经网络模型，并以第一训练方式对初始神经网络模型进行预训练，其中，第一训练方式之中多层隐藏层共用一个隐藏层参数。

由此，初始神经网络模型在预训练时，通过各层隐藏层共用相同的隐藏层参数，相比于各层隐藏层采用各自对应的隐藏层参数而言，参数相对减少了，因此在预训练时，可以降低参数更新时带来的不稳定性，提升模型的收敛效果。

步骤603，获取初始神经网络模型的损失值。

本申请实施例中，在预训练的过程中，可以获取初始神经网络模型的损失值，其中，损失值越小，模型的训练效果越好。

步骤604，如果初始神经网络模型的损失值小于预设阈值，则以第二训练方式对初始神经网络模型继续进行预训练，其中，第二训练方式之中多层隐藏层之中每层各自具有一个隐藏层参数。

本申请实施例中，预设阈值为预先设置的，可以根据实际的应用需求和应用场景设置该预设阈值。应当理解的是，预设阈值为较小的取值。

本申请实施例中，在初始神经网络模型的损失值小于预设阈值时，此时，模型的预测精度相对较高，此时，为了进一步提升模型的预测效果，可以采用第二训练方式，对初始神经网络模型继续进行预训练，其中，第二训练方式之中多层隐藏层之中每层各自具有一个隐藏层参数。

由此，将预训练分为两个阶段，第一阶段通过各层隐藏层共用相同的隐藏层参数，相比于各层隐藏层采用各自对应的隐藏层参数而言，参数相对减少了，因此在预训练时，可以降低参数更新时带来的不稳定性，提升模型的收敛效果，而第二阶段通过各层隐藏层采用各自对应的隐藏层参数，可以提升模型的预测效果，即该方法不仅可以提升模型的收敛效果，也可以提升模型的预测效果。

本申请实施例的神经网络模型的预训练方法，通过将预训练数据输入至初始神经网络模型，并以第一训练方式对初始神经网络模型进行预训练，其中，第一训练方式之中多层隐藏层共用一个隐藏层参数，并获取初始神经网络模型的损失值，如果初始神经网络模型的损失值小于预设阈值，则以第二训练方式对初始神经网络模型继续进行预训练，其中，第二训练方式之中多层隐藏层之中每层各自具有一个隐藏层参数。由此，将预训练分为两个阶段，第一阶段通过各层隐藏层共用相同的隐藏层参数，相比于各层隐藏层采用各自对应的隐藏层参数而言，参数相对减少了，因此在预训练时，可以降低参数更新时带来的不稳定性，提升模型的收敛效果，而第二阶段通过各层隐藏层采用各自对应的隐藏层参数，可以提升模型的预测效果，即该方法不仅可以提升模型的收敛效果，也可以提升模型的预测效果。

在本申请实施例的一种可能的实现方式中，可以对预训练数据之中的部分数据进行掩码，由初始神经网络模型预测掩码位置处的字符，并根据初始神经网络模型的预测结果和掩码位置处的实际掩码字符，生成初始神经网络模型的损失值。下面结合图7，对上述过程进行详细说明。

图7为本申请实施例二所提供的神经网络模型的预训练方法的流程示意图。

如图7所示，该神经网络模型的预训练方法可以包括以下步骤：

步骤701，获取预训练数据。

步骤702，将预训练数据输入至初始神经网络模型，并以第一训练方式对初始神经网络模型进行预训练，其中，第一训练方式之中多层隐藏层共用一个隐藏层参数。

步骤701至702的执行过程可以参见前述实施例中步骤101至102的执行过程，在此不做赘述。

步骤703，将预训练数据之中的部分数据进行掩码。

本申请实施例中，掩码可以是指对预训练数据中部分数据(比如一个或多个字符)进行扣除处理，或者，掩码也可以是指对预训练数据中的部分数据进行替换处理，本申请对此并不做限制。

作为一种示例，以掩码处理为对预训练数据中的部分数据进行抠除处理进行示例，假设预训练数据为“元宵节的习俗为吃汤圆”，对该预训练数据中的“宵”进行抠除，得到掩码之后的预训练数据为“元节的习俗为吃汤圆”。

作为另一种示例，以掩码处理为对预训练数据中的部分数据进行替换处理进行示例，假设预训练数据为“元宵节的习俗为吃汤圆”，将该预训练数据中的“宵”替换为“旦”，得到掩码之后的预训练数据为“元旦节的习俗为吃汤圆”。

步骤704，将掩码之后的预训练数据输入至初始神经网络模型进行预测，以生成预测值。

其中，预测值是指初始神经网络模型预测得到的位于掩码位置处的掩码字符。

本申请实施例中，可以采用初始神经网络模型对掩码之后的预训练数据进行预测，生成掩码位置处的预测值。

仍以上述例子示例，初始神经网络模型对掩码之后的预训练数据进行预测，生成的预测值可以为“宵”。

步骤705，将预测值与掩码位置的初始值进行比对，以生成初始神经网络模型的损失值。

本申请实施例中，初始值是指预训练数据中位于掩码位置处的实际掩码字符。

在本申请实施例的一种可能的实现方式中，可以根据预测值和初始值之间的差异，生成初始神经网络模型的损失值，其中，初始神经网络模型的损失值与上述差异成正向关系，即预测值和初始值之间的差异越小，损失值越小。

在本申请实施例的一种可能的实现方式中，可以基于相似度计算算法，计算预测值与初始值之间的相似度，根据相似度，确定预测值与初始值之间的差异，其中，相似度与差异成反向关系。之后，可以根据预测值与初始值之间的差异，确定初始神经网络模型的损失值，其中，损失值与上述差异成正向关系。

应当理解的是，初始神经网络模型对掩码之后的预训练数据进行预测，如果预测正确，即预测得到的掩码字符与实际掩码字符之间的差异为0，此时，模型的预测精度较高，而如果预测不正确，则预测得到的掩码字符与实际掩码字符之间的差异较大，此时，模型的预测效果不佳，还需对初始神经网络模型进行预训练，以提升模型预测效果。

步骤706，如果初始神经网络模型的损失值小于预设阈值，则以第二训练方式对初始神经网络模型继续进行预训练，其中，第二训练方式之中多层隐藏层之中每层各自具有一个隐藏层参数。

步骤706的执行过程可以参见上述实施例中步骤104的执行过程，在此不做赘述。

本申请实施例的神经网络模型的预训练方法，根据初始神经网络模型的预测结果和掩码位置处的实际掩码字符，生成初始神经网络模型的损失值，生成的损失值可以指示初始神经网络模型的预测精度，从而当损失值指示初始神经网络模型的预测精度较低时，可以继续对模型进行预训练，以提升模型的预测效果。

在本申请实施例的一种可能的实现方式中，在采用第一训练方式，对初始神经网络模型进行训练时，可以采用循环的方式，对神经网络模型进行预训练，以提升模型的预测效果。下面结合图8，对上述过程进行详细说明。

图8为本申请实施例三所提供的神经网络模型的预训练方法的流程示意图。

如图8所示，该神经网络模型的预训练方法可以包括以下步骤：

步骤801，获取预训练数据。

步骤801的执行过程可以参见上述实施例中步骤101的执行过程，在此不做赘述。

步骤802，将预训练数据输入至初始神经网络模型，并获取隐藏层的层数。

本申请实施例中，可以根据初始神经网络模型的结构，确定隐藏层的层数。

举例而言，以初始神经网络模型为Transformer结构的预训练语言模型进行示例，通常情况下，Transformer结构的预训练语言模型可以通过L(n)H(m)表示，其中，L为Transformer Encoder的层数，即有n层Transformer Encoder堆叠，即隐藏层的层数为n；H为Transformer Encoder的Hidden size，即隐藏层的宽度为m。以初始神经网络模型为L48H4096进行示例，该初始神经网络模型为具有48层隐藏层，且隐藏层宽度Hidden size为4096的Transformer模型。

步骤803，根据隐藏层的层数生成以第一训练方式进行循环的循环次数。

其中，第一训练方式之中多层隐藏层共用一个隐藏层参数。

本申请实施例中，以第一训练方式进行循环训练的循环次数，可以根据隐藏层的层数确定。其中，上述循环次数与隐藏层的层数成正向关系，即隐藏层的层数越大，循环次数越多，以提升模型的预测精度。例如，上述循环次数可以与隐藏层的层数相同。

步骤804，根据循环次数，以第一训练方式对初始神经网络模型进行循环预训练。

本申请实施例中，可以根据循环次数，以第一训练方式，对初始神经网络模型进行循环预训练。可选地，标记循环次数为N。

在本申请实施例的一种可能的实现方式中，在第一次循环时，各层隐藏层可以采用初始的隐藏层参数作为共用的隐藏层参数进行预训练，在预训练的过程中，每层隐藏层可以将自身产生的梯度值累加至上述共用的隐藏层参数之上，即各层隐藏层可以共同对共用的隐藏层参数进行修正，并将模型第一次循环的输出作为第二次循环的输入，在第二次循环时，各层隐藏层可以采用更新后的共用的隐藏层参数进行预训练，在预训练的过程中，每层隐藏层可以继续将自身产生的梯度值累加至更新后的共用的隐藏层参数之上，即各层隐藏层可以共同对更新后的共用的隐藏层参数进行修正，并将模型第二次循环的输出作为第三次循环的输入，以此类推，可以将模型第N-1次循环的输出作为第N次循环的输入，并将第N-1次循环过程中，每层隐藏层将自身产生的梯度值累加至共用的隐藏层参数之上所得到的更新后的共用的隐藏层参数，作为第N次循环各层隐藏层所采用的共用的隐藏层参数，从而在第N次循环时，各层隐藏层可以采用更新后的共用的隐藏层参数进行预训练，在预训练的过程中，每层隐藏层可以继续将自身产生的梯度值累加至上述更新后的共用的隐藏层参数之上，即各层隐藏层可以继续共同对更新后的共用的隐藏层参数进行修正。由此，通过在每次循环过程中，对共用的隐藏层参数进行修正，可以保证模型的训练效果。

本申请中，多层隐藏层共享同一隐藏层参数，多层的计算是通过循环输入输出进行的，即，第一次循环的输入为input_1，输出为output_1；第二次循环的输入为output_1，输出为output_2，第三次循环的输入为output_2，输出为output_3，以此类推，最终输出为output_N。由此，通过采用循环方式，对初始神经网络模型进行预训练，由于采用循环结构，梯度之间的依赖增强了，可以在一定程度上解决梯度消失的问题，从而保证收敛的有效性。

步骤805，获取初始神经网络模型的损失值。

步骤805的执行过程可以参见上述实施例中步骤103的执行过程，或者，也可以参见上述实施例中步骤203至205的执行过程，在此不做赘述。

步骤806，如果初始神经网络模型的损失值小于预设阈值，则以第二训练方式对初始神经网络模型继续进行预训练，其中，第二训练方式之中多层隐藏层之中每层各自具有一个隐藏层参数。

在本申请实施例的一种可能的实现方式中，在采用第二训练方式对初始神经网络模型进行预训练时，各层隐藏层采用的初始隐藏层参数可以为以第一训练方式对初始神经网络模型进行最后一次循环预训练后，所得到的更新后的共用的隐藏层参数。在采用第二训练方式对初始神经网络模型继续进行预训练的过程中，各层隐藏层可以对各自采用的隐藏层参数进行更新。

也就是说，可以将多层循环结构展开，各层隐藏层之间不再循环共享隐藏层参数，每一层隐藏层的初始参数可以为之前共享的参数，在预训练的过程中，各层隐藏层均根据各自的梯度，对各自对应的隐藏层参数进行更新。

综上，本申请中的预训练包括两个阶段，第一阶段为：利用循环共享参数结构，对初始神经网络模型进行预训练，在每次循环过程中，各隐藏层将自身产生的梯度累加在共用的同一份隐藏层参数上，从而稳定参数的更新，使得模型能够正常收敛。在采用循环共享参数结构下，训练初始神经网络模型，使得该模型的损失值处于一个相对较低的水平。第二阶段为：将循环共享参数结构展开，继续训练模型直至收敛。

作为一种示例，以初始神经网络模型的结构为PostLN结构进行示例，分别采用非循环结构和循环结构对该模型进行训练，训练后的收敛效果如图9所示。可知，采用循环结构，对模型进行训练，收敛效果较好，可以有效解决当参数量较大时，PostLN结构的模型无法正常收敛的问题。

本申请实施例的神经网络模型的预训练，通过采用循环方式，对初始神经网络模型进行预训练，由于采用循环结构，梯度之间的依赖增强了，可以在一定程度上解决梯度消失的问题，从而保证收敛的有效性。

本申请实施例中，可以采用AI领域中的深度学习方法或者机器学习方法，对初始神经网络模型进行预训练，其中，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

与上述图6至图8实施例提供的神经网络模型的预训练方法相对应，本申请还提供一种神经网络模型的预训练装置，由于本申请实施例提供的神经网络模型的预训练装置与上述图6至图8实施例提供的神经网络模型的预训练方法相对应，因此在神经网络模型的预训练方法的实施方式也适用于本申请实施例提供的神经网络模型的预训练装置，在本申请实施例中不再详细描述。

图10为本申请实施例四所提供的神经网络模型的预训练装置的结构示意图。

如图10所示，该神经网络模型的预训练装置1000可以包括：第一获取模块1010、第一训练模块1020、第二获取模块1030以及第二训练模块1040。

其中，第一获取模块1010，用于获取预训练数据。

第一训练模块1020，用于将预训练数据输入至初始神经网络模型，并以第一训练方式对初始神经网络模型进行预训练，其中，第一训练方式之中多层隐藏层共用一个隐藏层参数。

第二获取模块1030，用于获取初始神经网络模型的损失值。

第二训练模块1040，用于如果初始神经网络模型的损失值小于预设阈值，则以第二训练方式对初始神经网络模型继续进行预训练，其中，第二训练方式之中多层隐藏层之中每层各自具有一个隐藏层参数。

在本申请实施例的一种可能的实现方式中，第一训练模块1020，具体用于：获取隐藏层的层数；根据隐藏层的层数生成以第一训练方式进行循环的循环次数；根据循环次数，以第一训练方式对初始神经网络模型进行循环预训练。

在本申请实施例的一种可能的实现方式中，循环次数为隐藏层的层数。

在本申请实施例的一种可能的实现方式中，每层隐藏层将自身产生的梯度值累加至共用的隐藏层参数之上。

在本申请实施例的一种可能的实现方式中，第二获取模块1030，具体用于：将预训练数据之中的部分数据进行掩码；将掩码之后的预训练数据输入至初始神经网络模型进行预测，以生成预测值；将预测值与掩码位置的初始值进行比对以生成损失值。

本申请实施例的神经网络模型的预训练装置，通过将预训练数据输入至初始神经网络模型，并以第一训练方式对初始神经网络模型进行预训练，其中，第一训练方式之中多层隐藏层共用一个隐藏层参数，并获取初始神经网络模型的损失值，如果初始神经网络模型的损失值小于预设阈值，则以第二训练方式对初始神经网络模型继续进行预训练，其中，第二训练方式之中多层隐藏层之中每层各自具有一个隐藏层参数。由此，将预训练分为两个阶段，第一阶段通过各层隐藏层共用相同的隐藏层参数，相比于各层隐藏层采用各自对应的隐藏层参数而言，参数相对减少了，因此在预训练时，可以降低参数更新时带来的不稳定性，提升模型的收敛效果，而第二阶段通过各层隐藏层采用各自对应的隐藏层参数，可以提升模型的预测效果，即该装置不仅可以提升模型的收敛效果，也可以提升模型的预测效果。

为了实现上述实施例，本申请还提供一种电子设备，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请上述任一实施例提出的神经网络模型的预训练方法。

为了实现上述实施例，本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本申请上述任一实施例提出的神经网络模型的预训练方法。

为了实现上述实施例，本申请还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本申请上述任一实施例提出的神经网络模型的预训练方法。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本申请的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)1102中的计算机程序或者从存储单元1108加载到RAM(Random AccessMemory，随机访问/存取存储器)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。I/O(Input/Output，输入/输出)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如上述神经网络模型的预训练方法。例如，在一些实施例中，上述神经网络模型的预训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时，可以执行上文描述的神经网络模型的预训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述神经网络模型的预训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上***的***)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本申请实施例的技术方案，通过将预训练数据输入至初始神经网络模型，并以第一训练方式对初始神经网络模型进行预训练，其中，第一训练方式之中多层隐藏层共用一个隐藏层参数，并获取初始神经网络模型的损失值，如果初始神经网络模型的损失值小于预设阈值，则以第二训练方式对初始神经网络模型继续进行预训练，其中，第二训练方式之中多层隐藏层之中每层各自具有一个隐藏层参数。由此，将预训练分为两个阶段，第一阶段通过各层隐藏层共用相同的隐藏层参数，相比于各层隐藏层采用各自对应的隐藏层参数而言，参数相对减少了，因此在预训练时，可以降低参数更新时带来的不稳定性，提升模型的收敛效果，而第二阶段通过各层隐藏层采用各自对应的隐藏层参数，可以提升模型的预测效果，即该方法不仅可以提升模型的收敛效果，也可以提升模型的预测效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种神经网络模型的预训练方法，所述方法包括：

获取预训练数据；

获取所述初始神经网络模型的损失值；

2.如权利要求1所述的方法，其中，所述以第一训练方式对所述初始神经网络模型进行预训练，包括：

获取所述隐藏层的层数；

根据所述隐藏层的层数生成以所述第一训练方式进行循环的循环次数；

根据所述循环次数，以第一训练方式对所述初始神经网络模型进行循环预训练。

3.如权利要求1所述的方法，其中，所述循环次数为所述隐藏层的层数。

4.如权利要求1所述的方法，其中，所述每层隐藏层将自身产生的梯度值累加至所述共用的隐藏层参数之上。

5.如权利要求1所述的方法，其中，所述获取所述初始神经网络模型的损失值，包括：

将所述预训练数据之中的部分数据进行掩码；

将掩码之后的所述预训练数据输入至所述初始神经网络模型进行预测，以生成预测值；

将所述预测值与掩码位置的初始值进行比对以生成所述损失值。

6.一种神经网络模型的预训练装置，包括：

第一获取模块，用于获取预训练数据；

第二获取模块，用于获取所述初始神经网络模型的损失值；

7.如权利要求6所述的装置，其中，所述第一训练模块，具体用于：

获取所述隐藏层的层数；

8.如权利要求6所述的装置，其中，所述循环次数为所述隐藏层的层数。

9.如权利要求6所述的装置，其中，所述每层隐藏层将自身产生的梯度值累加至所述共用的隐藏层参数之上。

10.如权利要求9所述的装置，其中，所述第二获取模块，具体用于：

将所述预训练数据之中的部分数据进行掩码；

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的神经网络模型的预训练方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的神经网络模型的预训练方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的神经网络模型的预训练方法。