CN117972438B

CN117972438B - 一种数据处理方法、***、设备及存储介质

Info

Publication number: CN117972438B
Application number: CN202410380905.XA
Authority: CN
Inventors: 李令君; 吴韶华
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2024-03-31
Filing date: 2024-03-31
Publication date: 2024-06-28
Anticipated expiration: 2044-03-31
Also published as: CN117972438A

Abstract

本发明公开了一种数据处理方法、***、设备及存储介质，应用于计算机技术领域，以解决传统方案中无法同时保障训练效率和准确性的问题，包括：建立第一模型并进行训练得到待扩展模型，保存待扩展模型的检查点文件；基于待扩展模型的检查点文件，对待扩展模型进行结构扩展得到第二模型，且第二模型的模型参数的数量大于第一模型的模型参数的数量；对第二模型进行训练得到第一目标模型；将待处理的文本数据或者图像数据输入至第一目标模型，得到第一目标模型所输出的针对文本数据的文本预测结果或者针对图像数据的图像处理结果。应用本发明的方案，可以有效地通过模型实现数据处理，既能够保障准确性，又有利于提高训练效率，降低计算成本。

Description

一种数据处理方法、***、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种数据处理方法、***、设备及存储介质。

背景技术

目前，当大语言模型拥有更多的参数量时，在下游任务上表现更好且具备“智能涌现”能力已成为普遍共识。但是，随着大语言模型参数量越来越多，从数亿逐渐增加到数千亿，伴随而来的是大语言模型在训练阶段内存消耗巨大，耗时过长，计算成本非常高等问题，因此，如何高效地基于大语言模型实现数据处理已成为大语言模型领域的关键问题。

目前的一些方案主要集中在对大语言模型的参数量进行优化上，例如通过权重剪枝的方案，可以有效减少Transformer架构中的参数数量，虽然非结构化的稀疏性剪枝方法可以有效地降低硬件资源的利用率，但也会降低大模型的精度。还有的方案是基于低秩权重分解实现结构化剪枝，训练低秩模型时需要调整张量分解的额外超参数，以实现紧凑的模型大小和高精度，而不适当地调整张量分解的超参数会导致模型过大或精度降低，从头开始训练低秩模型则可能导致严重的准确性损失，因此这种基于低秩权重分解的方法更适合大语言模型的微调。

综上所述，如何有效地通过模型实现数据处理，既要能够保障准确性，又要能够提高训练效率，降低计算成本，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种数据处理方法、***、设备及存储介质，以有效地通过模型实现数据处理，既要能够保障准确性，又要能够提高训练效率，降低计算成本。

为解决上述技术问题，本发明提供如下技术方案：

第一方面，本发明提供了一种数据处理方法，包括：

基于设定的第一配置信息建立第一模型；

通过训练样本对所述第一模型进行训练，在满足第一训练终止条件时得到经过训练的待扩展模型，并保存所述待扩展模型的检查点文件；

基于所述待扩展模型的检查点文件，对所述待扩展模型进行结构扩展得到第二模型，且所述第二模型的结构符合设定的第二配置信息；其中，所述第二模型的模型参数的数量大于所述第一模型的模型参数的数量；

通过训练样本对所述第二模型进行训练，在满足第二训练终止条件时得到经过训练的第一目标模型；

将待处理的文本数据或者图像数据输入至所述第一目标模型，得到所述第一目标模型所输出的针对所述文本数据的文本预测结果或者针对所述图像数据的图像处理结果。

其中，所述第一模型和所述第二模型均为采用转换器模型架构的基于自注意力机制的神经网络模型；

相应地，基于所述待扩展模型的检查点文件，对所述待扩展模型进行结构扩展得到第二模型，包括：

基于所述待扩展模型的检查点文件，对所述待扩展模型的模型参数，优化器状态参数，以及配置参数进行结构扩展，得到第二模型。

其中，基于所述待扩展模型的检查点文件，对所述待扩展模型的模型参数，优化器状态参数，以及配置参数进行结构扩展，得到第二模型，包括：

将所述待扩展模型的检查点文件当中，对应于流水并行第一个阶段的检查点文件作为第一类检查点文件；

基于所述第一类检查点文件，对所述待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数，初始嵌入层的模型参数，n个转换器层的优化器状态参数，所述初始嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第一扩展文件；

将所述待扩展模型的检查点文件当中，对应于流水并行中间阶段的检查点文件作为第二类检查点文件；

基于所述第二类检查点文件，对所述待扩展模型对应于流水并行中间阶段的各个转换器层的模型参数，各个转换器层的优化器状态参数，以及配置参数进行结构扩展，得到第二扩展文件；

将所述待扩展模型的检查点文件当中，对应于流水并行最后一个阶段的检查点文件作为第三类检查点文件；

基于所述第三类检查点文件，对所述待扩展模型对应于流水并行最后一个阶段的n个转换器层的模型参数，末尾嵌入层的模型参数，n个转换器层的优化器状态参数，所述末尾嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第三扩展文件；

基于所述第一扩展文件，所述第二扩展文件以及所述第三扩展文件得到所述第二模型；

其中，流水并行中间阶段表示的是流水并行各阶段中除了第一个阶段和最后一个阶段之外其余的全部阶段；n表示的是流水并行单个阶段的转换器层数且n=L/N，L表示的是所述第一模型的转换器总层数，N表示的是流水并行的阶段总数。

其中，基于所述第一类检查点文件，对所述待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数，初始嵌入层的模型参数，n个转换器层的优化器状态参数，所述初始嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第一扩展文件，包括：

基于所述第一类检查点文件，将所述待扩展模型对应于流水并行第一个阶段的n个转换器层中的每个转换器层的模型参数扩展m倍，得到m个第一子文件，且每个所述第一子文件中包括n个转换器层的模型参数；m为不小于2的正整数；

基于所述第一类检查点文件，将所述待扩展模型对应于流水并行第一个阶段的所述初始嵌入层的模型参数以及所述初始嵌入层的优化器状态参数保存至m个所述第一子文件中的第1个第一子文件中；

基于所述第一类检查点文件，将所述待扩展模型对应于流水并行第一个阶段的n个转换器层的优化器状态参数扩展m倍，以分别保存至m个所述第一子文件中，且每个所述第一子文件中保存n个转换器层的优化器状态参数；

基于所述第一类检查点文件，将所述待扩展模型对应于流水并行第一个阶段的配置参数扩展m倍，以分别保存至m个所述第一子文件中；

在进行了对应于流水并行第一个阶段的n个转换器层的模型参数，初始嵌入层的模型参数，n个转换器层的优化器状态参数，所述初始嵌入层的优化器状态参数，以及配置参数的结构扩展之后，将当前的m个所述第一子文件作为所得到的第一扩展文件。

其中，基于所述第一类检查点文件，将所述待扩展模型对应于流水并行第一个阶段的n个转换器层的优化器状态参数扩展m倍，以分别保存至m个所述第一子文件中，且每个所述第一子文件中保存n个转换器层的优化器状态参数，包括：

判断所述第一模型是否为使用了零冗余优化器的第一模型；

如果否，则从所述第一类检查点文件中获取列表形式的对应于流水并行第一个阶段的n个转换器层的优化器状态参数并扩展m倍，以分别保存至m个所述第一子文件中，且每个所述第一子文件中保存n个转换器层的优化器状态参数；

如果是，则从所述第一类检查点文件中获取一维张量形式的对应于流水并行第一个阶段的n个转换器层的优化器状态参数并扩展m倍，以分别保存至m个所述第一子文件中，且每个所述第一子文件中保存n个转换器层的优化器状态参数。

其中，基于所述第一类检查点文件，将所述待扩展模型对应于流水并行第一个阶段的n个转换器层中的每个转换器层的模型参数扩展m倍，得到m个第一子文件，且每个所述第一子文件中包括n个转换器层的模型参数，包括：

将对应于流水并行第一个阶段的n个转换器层，按照从靠近所述第一模型的数据输入端至远离所述第一模型的数据输入端的顺序，依次标记为第1转换器层至第n转换器层；

按照从1至n的顺序，先后将每个转换器层的模型参数扩展m倍，并且按照每当扩展出n个转换器层的模型参数时，将n个转换器层的模型参数归为一组的原则，先后得到第1个第一子文件至第m个第一子文件，以使得每个所述第一子文件中包括n个转换器层的模型参数。

其中，还包括：

基于所述第一类检查点文件，将所述待扩展模型对应于流水并行第一个阶段的精度恢复数据扩展m倍，以分别保存至m个所述第一子文件中。

其中，基于所述第三类检查点文件，对所述待扩展模型对应于流水并行最后一个阶段的n个转换器层的模型参数，末尾嵌入层的模型参数，n个转换器层的优化器状态参数，所述末尾嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第三扩展文件，包括：

基于所述第三类检查点文件，将所述待扩展模型对应于流水并行最后一个阶段的n个转换器层中的每个转换器层的模型参数扩展m倍，得到m个第三子文件，且每个所述第三子文件中包括n个转换器层的模型参数；m为不小于2的正整数；

基于所述第三类检查点文件，将所述待扩展模型对应于流水并行最后一个阶段的所述末尾嵌入层的模型参数以及所述末尾嵌入层的优化器状态参数保存至m个所述第三子文件中的最后1个第三子文件中；

基于所述第三类检查点文件，将所述待扩展模型对应于流水并行最后一个阶段的n个转换器层的优化器状态参数扩展m倍，以分别保存至m个所述第三子文件中，且每个所述第三子文件中保存n个转换器层的优化器状态参数；

基于所述第三类检查点文件，将所述待扩展模型对应于流水并行最后一个阶段的配置参数扩展m倍，以分别保存至m个所述第三子文件中；

在进行了对应于流水并行最后一个阶段的n个转换器层的模型参数，末尾嵌入层的模型参数，n个转换器层的优化器状态参数，所述末尾嵌入层的优化器状态参数，以及配置参数的结构扩展之后，将当前的m个所述第三子文件作为所得到的第三扩展文件。

其中，所述第一模型所使用的训练样本的数量为预设的第一数值，所述第二模型所使用的训练样本的数量为预设的第二数值，且所述第一数值高于所述第二数值。

其中，还包括：

保存所述第一目标模型的检查点文件；

基于所述第一目标模型的检查点文件，对所述第一目标模型进行结构扩展得到第三模型，且所述第三模型的结构符合设定的第三配置信息；其中，所述第三模型的模型参数的数量大于所述第一目标模型的模型参数的数量；

通过训练样本对所述第三模型进行训练，在满足第三训练终止条件时得到经过训练的第二目标模型；

将待处理的文本数据或者图像数据输入至所述第二目标模型，得到所述第二目标模型所输出的针对所述文本数据的文本预测结果或者针对所述图像数据的图像处理结果。

其中，在通过训练样本对所述第一模型进行训练的过程中，所使用的学习率为基于第一学习率曲线所确定出的学习率：

在通过训练样本对所述第二模型进行训练的过程中，所使用的学习率为基于第二学习率曲线所确定出的学习率；

其中，所述第一学习率曲线中的任意学习率数值，高于所述第二学习率曲线中的任意学习率数值。

其中，在通过训练样本对所述第一模型进行训练的过程中，在迭代步数从0至a的过程中，所述第一学习率曲线的斜率为负且绝对值逐渐增大；

在通过训练样本对所述第二模型进行训练的过程中，在迭代步数从a至b的过程中，所述第二学习率曲线的斜率为负且绝对值逐渐减小；

其中，a表示的是对所述第一模型进行训练的过程中的总迭代步数，b表示的是对所述第一模型和所述第二模型进行训练的过程中的总迭代步数。

第二方面，本发明还提供了一种数据处理***，包括：

第一模型建立模块，用于基于设定的第一配置信息建立第一模型；

检查点文件获取模块，用于通过训练样本对所述第一模型进行训练，在满足第一训练终止条件时得到经过训练的待扩展模型，并保存所述待扩展模型的检查点文件；

结构扩展模块，用于基于所述待扩展模型的检查点文件，对所述待扩展模型进行结构扩展得到第二模型，且所述第二模型的结构符合设定的第二配置信息；其中，所述第二模型的模型参数的数量大于所述第一模型的模型参数的数量；

第一目标模型确定模块，用于通过训练样本对所述第二模型进行训练，在满足第二训练终止条件时得到经过训练的第一目标模型；

数据处理执行模块，用于将待处理的文本数据或者图像数据输入至所述第一目标模型，得到所述第一目标模型所输出的针对所述文本数据的文本预测结果或者针对所述图像数据的图像处理结果。

第三方面，本发明还提供了一种数据处理设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上述所述的数据处理方法的步骤。

第四方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的数据处理方法的步骤。

应用本发明实施例所提供的技术方案，考虑到对于参数量较低的粗网格模型，在训练过程中的损失值收敛快，有利于提高训练效率，降低计算成本，但是精度较低，而参数量较高的细网格模型，在过程训练中的损失值收敛较慢但是模型的精度较高。对此，本申请的方案考虑到，通过粗、细网格模型的先后交替训练，可以在提高训练效率降低计算成本的基础上，有效的保障准确性。对此，本申请的方案中，先基于设定的第一配置信息建立第一模型，可以理解的是，第一模型是参数量较低的模型，因此通过训练样本对第一模型进行训练时，训练过程中的损失值会得到很快的收敛，也就有利于保障本申请方案的训练效率，利于降低计算成本。在满足第一训练终止条件时，便得到了经过训练的待扩展模型，此时，需要保存待扩展模型的检查点文件，从而可以基于待扩展模型的检查点文件，对待扩展模型进行结构扩展得到第二模型，且第二模型的结构符合设定的第二配置信息，以使得第二模型的模型参数的数量大于第一模型的模型参数的数量，即第二模型是参数量更高的模型。将待扩展模型进行结构扩展得到第二模型时，损失值会小幅上升，之后通过训练样本对第二模型进行训练，在满足第二训练终止条件时得到经过训练的第一目标模型，第一目标模型具有很高的精度。后续便可以将待处理的文本数据或者图像数据输入至第一目标模型，得到第一目标模型所输出的针对文本数据的文本预测结果或者针对图像数据的图像处理结果。

综上所述，本申请的方案可以有效地通过模型实现数据处理，既能够保障准确性，又有利于提高训练效率，降低计算成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种具体实施方式中的数据处理方法的实施流程图；

图2为本发明一种具体实施方式中的GPT-1模型的基本结构示意图；

图3为本发明一种具体实施方式中对待扩展模型进行结构扩展时的实施流程图；

图4为一种具体实施方式中将对应于流水并行第一个阶段的3个转换器层中的每个转换器层的模型参数扩展2倍的原理示意图；

图5为本发明一种具体实施方式中的学习率变化的示意图；

图6为本发明一种具体实施方式中的损失值的变化示意图；

图7为本发明一种具体实施方式中的数据处理***的结构示意图；

图8为本发明一种具体实施方式中的数据处理设备的结构示意图；

图9为本发明一种具体实施方式中的计算机可读存储介质的结构示意图。

具体实施方式

本发明的核心是提供一种数据处理方法、***、设备及存储介质，可以有效地通过模型实现数据处理，既能够保障准确性，又有利于提高训练效率，降低计算成本。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明一种具体实施方式中的数据处理方法的实施流程图，该数据处理方法可以包括以下步骤：

步骤S101：基于设定的第一配置信息建立第一模型。

具体的，本申请的方案中，需要先建立精度较低的模型即第一模型，而第一模型的具体类型可以根据实际需要进行设定和调整，例如在本发明的一种具体实施方式中，考虑到Transformer架构使用注意力机制来提高深度学习翻译模型的表现，首次出现之后很快被确立为大多数深度学习应用的领先架构，在大语言模型中得到了广泛应用，可以有效地进行文本预测，也可以有效地对图像数据进行图像处理，例如基于图像数据进行图像分类、物体检测等计算机视觉任务。当基于Transformer架构的大语言模型拥有较多参数量时，在下游任务上具有很好的表现，因此，在实际应用中，本申请的第一模型和后文的第二模型均可以为采用转换器模型架构（Transformer架构）的基于自注意力机制的神经网络模型。

建立第一模型时，可以基于设定的第一配置信息建立，例如在实际应用中，第一模型的参数量大约设置为第二模型的二分之一或者三分之一左右，以保障第一模型具有较高的训练效率和较低的计算成本。例如一种场合中，第二模型包含24个Transformer层，则可以使用包含12个Transformer层结构的第一模型或包含8个Transformer层结构的第一模型开始训练。

以第一模型具体为GPT-1模型为例，GPT-1模型的基本结构如图2所示，Transformer架构的大语言模型中会包含多个Transformer层，例如GPT-1模型中包括12个Transformer层，当然，图2的例子中为了观看仅示出了1个Transformer层，并用“12x”表示该Transformer层共有12层进行串联，各个Transformer层的结构均可以与图2所示出的该Transformer层的结构相同。

步骤S102：通过训练样本对第一模型进行训练，在满足第一训练终止条件时得到经过训练的待扩展模型，并保存待扩展模型的检查点文件。

建立了第一模型之后，便可以通过训练样本对第一模型进行训练，例如通常可以使用Megatron-LM训练框架。Megatron-LM训练框架是一款功能强大的大语言模型训练框架，可使用模型并行（张量、序列和流水线）以及多节点训练的方式高效训练基于Transformer架构的大语言模型，例如具体使用混合精度的GPT、BERT和T5模型。

检查点文件中存储着模型训练到某个迭代步骤时的所有模型信息，包括模型参数，优化器状态参数，以及配置参数，配置参数中包括例如迭代步数，学习率等关键信息。当重新载入检查点文件时，便可以构建出此前保存的模型，并且可以从保存时的迭代步开始继续进行模型训练。

通过训练样本对第一模型进行训练，在满足第一训练终止条件时，将此时的第一模型称为经过训练的待扩展模型。而本申请的方案中，在得到经过训练的待扩展模型的时候，还需要在此时保存待扩展模型的检查点文件，也就是说，本申请的方案中，在完成了第一模型的训练时，将当前的模型称为待扩展模型，并在此时保存下待扩展模型的检查点文件。

第一训练终止条件的具体规则可以根据实际需要进行设定和调整，同样的，后续通过训练样本对第二模型进行训练时，第二训练终止条件的具体规则也可以根据实际需要进行设定和调整，例如通过损失值是否收敛来确定是否需要结束训练，又如当训练样本均被使用时可以结束训练。

在本发明的一种具体实施方式，第一模型所使用的训练样本的数量为预设的第一数值，第二模型所使用的训练样本的数量为预设的第二数值，且第一数值高于第二数值。

该种实施方式考虑到，第一模型和第二模型各自的训练耗时，会受到各自所使用的训练样本的数量的影响，并且本申请考虑到，由于进行第一模型的训练有利于更快地实现损失值的收敛，因此该种实施方式中，第一模型所使用的训练样本的数量，可以高于第二模型所使用的训练样本的数量。

在实际应用中，第一模型所使用的训练样本的数量，可以设置为全部训练样本的三分之二至五分之四，即第一数值占全部训练样本数量的三分之二至五分之四，经过这样的设置之后，在满足第一训练终止条件时，第一模型的损失值基本不再收敛，且已经节省了足够的训练耗时。在实际应用中，如果第一模型所使用的训练样本的数量较少，使得第一模型的训练任务结束地过早，则不利于损失值的充分收敛，且由于留给第二模型的训练过程较长，也就不利于达到尽可能地节省计算成本和训练耗时的目的，当然，如果第一模型所使用的训练样本的数量过多，使得第一模型的训练结束地过晚，则留给第二模型所使用的训练样本过少时，最终得到的第一目标模型的损失值可能就达不到非常稳定的收敛状态，无法保证最终精度符合要求。

步骤S103：基于待扩展模型的检查点文件，对待扩展模型进行结构扩展得到第二模型，且第二模型的结构符合设定的第二配置信息。其中，第二模型的模型参数的数量大于第一模型的模型参数的数量。

得到了待扩展模型的检查点文件之后，需要对待扩展模型进行结构扩展，也即进行检查点文件的扩展，从而得到第二模型，且扩展出的第二模型的结构需要符合设定的第二配置信息，使得第二模型的模型参数的数量大于第一模型的模型参数的数量，也就是说，本申请的方案进行的扩展会增加模型参数的数量。

在本发明的一种具体实施方式中，步骤S103可以具体包括：

基于待扩展模型的检查点文件，对待扩展模型的模型参数，优化器状态参数，以及配置参数进行结构扩展，得到第二模型。

该种实施方式中，考虑到第一模型和第二模型通常均为采用转换器模型架构的基于自注意力机制的神经网络模型，即第一模型和第二模型均为采用Transformer架构的模型，因此在进行模型的结构扩展时，可以进行模型参数，优化器状态参数，以及配置参数的扩展，最终得到了更多参数量的第二模型，具体的，可以进行转换器层的模型参数，转换器层的优化器状态参数，嵌入层的模型参数，嵌入层的优化器状态参数，以及配置参数的结构扩展。

进一步地，可参阅图3，在本发明的一种具体实施方式中，步骤S103可以具体包括：

步骤S301：将待扩展模型的检查点文件当中，对应于流水并行第一个阶段的检查点文件作为第一类检查点文件；

步骤S302：基于第一类检查点文件，对待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数，初始嵌入层的模型参数，n个转换器层的优化器状态参数，初始嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第一扩展文件；

步骤S303：将待扩展模型的检查点文件当中，对应于流水并行中间阶段的检查点文件作为第二类检查点文件；

步骤S304：基于第二类检查点文件，对待扩展模型对应于流水并行中间阶段的各个转换器层的模型参数，各个转换器层的优化器状态参数，以及配置参数进行结构扩展，得到第二扩展文件；

步骤S305：将待扩展模型的检查点文件当中，对应于流水并行最后一个阶段的检查点文件作为第三类检查点文件；

步骤S306：基于第三类检查点文件，对待扩展模型对应于流水并行最后一个阶段的n个转换器层的模型参数，末尾嵌入层的模型参数，n个转换器层的优化器状态参数，末尾嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第三扩展文件；

步骤S307：基于第一扩展文件，第二扩展文件以及第三扩展文件得到第二模型；

其中，流水并行中间阶段表示的是流水并行各阶段中除了第一个阶段和最后一个阶段之外其余的全部阶段；n表示的是流水并行单个阶段的转换器层数且n=L/N，L表示的是第一模型的转换器总层数，N表示的是流水并行的阶段总数。

该种实施方式中，考虑到部分模型会采用流水线并行的方式来有效地提高训练效率，对于这种情况，需要将检查点文件分为3类分别进行处理，以准确有效地实现待扩展模型的结构扩展。

N表示的是流水并行的阶段总数，后文以N=4为例进行说明，L表示的是第一模型的转换器总层数，例如上文的例子中，第一模型的转换器总层数为12，即一共有12个Transformer层，此时L=12，因此该例子中n=12/4=3，也就是说，流水并行的单个阶段包括3个Transformer层。

流水并行的阶段总数也可以称为流水并行的路数，当阶段总数为N时，便意味着执行步骤S102时，所保存的待扩展模型的检查点文件具体有N个，分别对应着流水并行的N个不同阶段。如果对待扩展模型进行m倍的扩展，则扩展后的检查点文件便是m×N个，对应扩展之后的m×N路流水。例如上文例子中，第一模型使用了4路流水并行，则所保存的待扩展模型的检查点文件有4个，m例如设置为2，则将待扩展模型的结构扩展2倍后，将会使用8路流水并行，对应8个检查点文件。

第一类检查点文件，对应的是流水并行的第一个阶段，其中包括了对应于流水并行第一个阶段的n个转换器层的模型参数，对应于流水并行第一个阶段的初始嵌入层的模型参数，对应于流水并行第一个阶段的n个转换器层的优化器状态参数，以及对应于流水并行第一个阶段的配置参数，因此可以据此进行结构扩展，得到第一扩展文件。

在本发明的一种具体实施方式，上述步骤S302可以具体包括以下步骤：

步骤一：基于第一类检查点文件，将待扩展模型对应于流水并行第一个阶段的n个转换器层中的每个转换器层的模型参数扩展m倍，得到m个第一子文件，且每个第一子文件中包括n个转换器层的模型参数；m为不小于2的正整数；

步骤二：基于第一类检查点文件，将待扩展模型对应于流水并行第一个阶段的初始嵌入层的模型参数以及初始嵌入层的优化器状态参数保存至m个第一子文件中的第1个第一子文件中；

步骤三：基于第一类检查点文件，将待扩展模型对应于流水并行第一个阶段的n个转换器层的优化器状态参数扩展m倍，以分别保存至m个第一子文件中，且每个第一子文件中保存n个转换器层的优化器状态参数；

步骤四：基于第一类检查点文件，将待扩展模型对应于流水并行第一个阶段的配置参数扩展m倍，以分别保存至m个第一子文件中；

步骤五：在进行了对应于流水并行第一个阶段的n个转换器层的模型参数，初始嵌入层的模型参数，n个转换器层的优化器状态参数，初始嵌入层的优化器状态参数，以及配置参数的结构扩展之后，将当前的m个第一子文件作为所得到的第一扩展文件。

便于理解可参阅图4，为一种具体实施方式中将3个转换器层中的每个转换器层的模型参数扩展2倍的原理示意图，图4中，将对应于流水并行第一个阶段的3个转换器层（Transformer层）的模型参数分别标记为t1，t2以及t3，需要将3个转换器层中的每个转换器层的模型参数都扩展2倍，则扩展之后，便有2个t1，2个t2以及2个t3，即扩展之后一共有6个转换器层的模型参数。

对于这6个转换器层的模型参数，需要归到2个第一子文件中，也即每个第一子文件中需要包括3个转换器层的模型参数，具体的划归方式可以根据实际需要进行设定和调整。例如一种场合中，这2个第一子文件中每个均包括t1，t2以及t3，又如一种场合中，这2个第一子文件中的一个包括了2个t1以及1个t3，另1个则包括2个t2以及1个t3，再如图4的场合中，这2个第一子文件中的第1个第一子文件包括了2个t1以及1个t2，第2个第一子文件中则包括了1个t2以及2个t3，

在本发明的一种具体实施方式，上述步骤一可以具体包括：

将对应于流水并行第一个阶段的n个转换器层，按照从靠近第一模型的数据输入端至远离第一模型的数据输入端的顺序，依次标记为第1转换器层至第n转换器层；

按照从1至n的顺序，先后将每个转换器层的模型参数扩展m倍，并且按照每当扩展出n个转换器层的模型参数时，将n个转换器层的模型参数归为一组的原则，先后得到第1个第一子文件至第m个第一子文件，以使得每个第一子文件中包括n个转换器层的模型参数。

图4中便是采用的该种实施方式，因此仍然以图4为例，在对应于流水并行第一个阶段的3个转换器层中（t1，t2以及t3），由于t1是三者当中最靠近第一模型的数据输入端的转换器层，t2居中，t3则是三者当中最远离第一模型的数据输入端的转换器层，因此将t1，t2以及t3依次标记为对应于流水并行第一个阶段的第1转换器层至第3转换器层。之后，先将对应于流水并行第一个阶段的第1转换器层t1扩展2倍，然后将对应于流水并行第一个阶段的第2转换器层t2扩展2倍，最后是将对应于流水并行第一个阶段的第3转换器层t3扩展2倍。并且需要将3个转换器层的模型参数归为一组，因此该例子中，先得到的第1个第一子文件具体包括了2个t1以及1个t2，后得到的第2个第一子文件中则包括了1个t2以及2个t3。

采用该种实施方式的设计时，可以使得进行了结构扩展之后，各个转换器层的位置顺序仍旧符合结构扩展之前的位置顺序，使得经过了结构扩展之后，得到的第二模型仍然能够保有较高的收敛程度。例如图4的例子中，在进行结构扩展之前，待扩展模型对应于流水并行第一个阶段的3个转换器层先后是t1，t2以及t3，而在扩展之后，2个t1仍旧靠前，2个t2则仍旧居中，2个t3则仍旧靠后。

并且可以理解的是，该种实施方式是对步骤一进行展开说明，即针对的是流水并行的第一个阶段，该种实施方式的原理同样适用于其余各阶段，便不再重复说明。

初始嵌入层设置在第1个Transformer层之前，在进行模型结构扩展时，Transformer层的数量需要增大，但初始嵌入层无需复制m倍，因此，在执行上述步骤二时，需要基于第一类检查点文件，将待扩展模型对应于流水并行第一个阶段的初始嵌入层的模型参数保存至m个第一子文件中的第1个第一子文件中。例如对于图4的例子，则只需要将初始嵌入层的模型参数保存图4的第1个子文件中，而其余的第一子文件中无需保存初始嵌入层的模型参数。

此外还需要说明的是，对于初始嵌入层的优化器状态参数，同样也是只需要保存在m个第一子文件中的第1个第一子文件中即可，其余的第一子文件中无需保存初始嵌入层的优化器状态参数。

转换器层的模型参数是在模型的前向计算过程中使用，而转换器层的优化器状态参数则是在模型的反向更新过程中使用，转换器层的优化器状态参数的结构扩展与图4的转换器层的模型参数的结构扩展同理，同样是需要扩展m倍，以分别保存到m个第一子文件中，且每个第一子文件中保存n个转换器层的优化器状态参数，便不再重复说明。

在本发明的一种具体实施方式中，上述步骤三可以具体包括：

判断第一模型是否为使用了零冗余优化器的第一模型；

如果否，则从第一类检查点文件中获取列表形式的对应于流水并行第一个阶段的n个转换器层的优化器状态参数并扩展m倍，以分别保存至m个第一子文件中，且每个第一子文件中保存n个转换器层的优化器状态参数；

如果是，则从第一类检查点文件中获取一维张量形式的对应于流水并行第一个阶段的n个转换器层的优化器状态参数并扩展m倍，以分别保存至m个第一子文件中，且每个第一子文件中保存n个转换器层的优化器状态参数。

该种实施方式考虑到，虽然优化器状态参数的结构扩展与模型参数的结构扩展同理，但是在实际应用中，优化器状态参数的存储形式存在差异，因此，需要基于优化器状态参数的存储形式来获取优化器状态参数，保障上述步骤三的正确实施。

如果第一模型为未使用零冗余优化器的第一模型，也即第一模型没有使用ZeRO（Zero Redundancy Optimizer，零冗余优化器）技术将优化器状态参数分配到GPU（Graphics Processing Unit，图形处理器）上进行更新，则需要从第一类检查点文件中获取列表形式的对应于流水并行第一个阶段的n个转换器层的优化器状态参数。还需要说明的是，对于这种情况，在实际应用中，通常是将所有层的优化器状态参数中的二维张量参数保存在前面，而所有层的优化器状态参数中的一维张量参数，例如偏置（bias）等保存在后面。因此需要按照该列表存储规则，从中区分出不同Transformer层的优化器状态参数，以及初始嵌入层的优化器状态参数，进而分别进行结构扩展。

如果第一模型为使用了零冗余优化器的第一模型，也即第一模型使用ZeRO技术将优化器状态参数分配到GPU上进行更新，则需要从第一类检查点文件中获取一维张量形式的对应于流水并行第一个阶段的n个转换器层的优化器状态参数，进而实现结构扩展。该情况下，第一类检查点文件中的优化器状态参数被提取出来单独保存，并且此时的优化器状态参数不再是以列表的方式保存，而通常是将所有层的张量参数“拉伸”成一维张量参数并以模型参数保存顺序相反的顺序拼接在一起，保存为1个一维张量。此时，需要按照该存储规则，从中区分出不同Transformer层的优化器状态参数，以及初始嵌入层的优化器状态参数，进而分别进行结构扩展，之后置入相应的第一子文件中。

学习率等配置参数的扩展较为简单，配置参数的数量与模型的Transformer层数无关，直接扩展为m倍即可，即直接复制为m份，进而分别保存至m个第一子文件中即可，当然，对于配置参数中的Transformer层数，流水并行路数等存在变化的信息，需要先进行修改之后再扩展为m倍。

最后，在进行了对应于流水并行第一个阶段的n个转换器层的模型参数的结构扩展，初始嵌入层的模型参数的结构扩展，n个转换器层的优化器状态参数的结构扩展，初始嵌入层的优化器状态参数的结构扩展，以及配置参数的结构扩展之后，当前得到m个第一子文件便可以作为步骤S302所得到的第一扩展文件，实现了针对第一类检查点文件的扩展。

上文中，对于步骤S302进行了详细的展开说明。第二类检查点文件对应的是流水并行中间阶段，流水并行中间阶段表示的是流水并行各阶段中除了第一个阶段和最后一个阶段之外其余的全部阶段，因此第二类检查点文件具体包含N-2个模型检查点文件。

基于第二类检查点文件，可以对待扩展模型对应于流水并行中间阶段的各个转换器层的模型参数，各个转换器层的优化器状态参数，以及配置参数进行结构扩展，从而得到各个第二子文件，作为得到的第二扩展文件。在具体实现上，可以参照上文对于第一类检查点文件的相关描述选择相应的实施例，此处便不再重复说明，并且，此过程的扩展不涉及嵌入层的扩展。

第三类检查点文件对应的是流水并行的最后一个阶段，因此是对待扩展模型对应于流水并行最后一个阶段的n个转换器层的模型参数，末尾嵌入层的模型参数，n个转换器层的优化器状态参数，末尾嵌入层的优化器状态参数，以及配置参数进行结构扩展。

在本发明的一种具体实施方式中，上述步骤S306可以具体包括：

基于第三类检查点文件，将待扩展模型对应于流水并行最后一个阶段的n个转换器层中的每个转换器层的模型参数扩展m倍，得到m个第三子文件，且每个第三子文件中包括n个转换器层的模型参数；m为不小于2的正整数；

基于第三类检查点文件，将待扩展模型对应于流水并行最后一个阶段的末尾嵌入层的模型参数保存至m个第三子文件中的最后1个第三子文件中；

基于第三类检查点文件，将待扩展模型对应于流水并行最后一个阶段的n个转换器层的优化器状态参数扩展m倍，以分别保存至m个第三子文件中，且每个第三子文件中保存n个转换器层的优化器状态参数；

基于第三类检查点文件，将待扩展模型对应于流水并行最后一个阶段的配置参数扩展m倍，以分别保存至m个第三子文件中；

在进行了对应于流水并行最后一个阶段的n个转换器层的模型参数，末尾嵌入层的模型参数，n个转换器层的优化器状态参数，以及配置参数的结构扩展之后，将当前的m个第三子文件作为所得到的第三扩展文件。

末尾嵌入层设置在最后1个Transformer层之后，与初始嵌入层同理，末尾嵌入层也无需复制m倍，其余部分的扩展，在具体实现上，可以参照上文对于第一类检查点文件的相关描述选择相应的实施例，此处不再重复说明，并且可以理解的是，除去区别部分之外，基于同样的原理实现第一类检查点文件，第二类检查点文件以及第三类检查点文件的扩展时，便于相关程序的设置以及实施。

还需要说明的是，上文中，对于采用了流水线并行的方式的待扩展模型的结构扩展进行了展开说明，而在部分实施方式中，待扩展模型也可以是未使用流水线并行的待扩展模型，此时的结构扩展则更会为简单。因为如果待扩展模型未使用流水线并行，则并不会存在多个检查点文件而是只有1个检查点文件，也就无需如上文的实施方式中进行检查点文件的分类，此时，只需要按照该检查点文件中的各层结构顺序，对各转换器层的模型参数和各转换器层的优化器状态参数进行扩展即可，扩展之后仍旧是1个检查点文件，只是内部的转换器层的模型参数和转换器层的优化器状态参数增多了。

步骤S104：通过训练样本对第二模型进行训练，在满足第二训练终止条件时得到经过训练的第一目标模型。

通过对待扩展模型进行结构扩展得到第二模型之后，便可以通过训练样本对第二模型进行训练，如上文的描述，第二训练终止条件的具体内容也可以根据需要进行设定和调整，例如为第二模型所设置的各个训练样本均被使用之后，便可以确定满足第二训练终止条件，此时便得到了经过训练的第二模型，称为第一目标模型，第一目标模型通常具有很高的精度。

步骤S105：将待处理的文本数据或者图像数据输入至第一目标模型，得到第一目标模型所输出的针对文本数据的文本预测结果或者针对图像数据的图像处理结果。

由于第一目标模型具有很高的精度，因此，将待处理的文本数据或者图像数据输入至第一目标模型，便可以得到第一目标模型所输出的针对文本数据的准确的文本预测结果，或者针对图像数据的准确的图像处理结果。

在本发明的一种具体实施方式，还可以包括：

基于第一类检查点文件，将待扩展模型对应于流水并行第一个阶段的精度恢复数据扩展m倍，以分别保存至m个第一子文件中。

该种实施方式中考虑到，在部分实际应用中，可能使用了半精度训练方式，因此在扩展时，以第一类检查点文件为例，需要基于第一类检查点文件，将待扩展模型对应于流水并行第一个阶段的精度恢复数据扩展m倍，例如将“fp32_from_fp16_params”精度恢复数据扩展m倍以分别保存至m个第一子文件中。第二类检查点文件和第三类检查点文件与此同理。

在本发明的一种具体实施方式，还可以包括：

保存第一目标模型的检查点文件；

基于第一目标模型的检查点文件，对第一目标模型进行结构扩展得到第三模型，且第三模型的结构符合设定的第三配置信息；其中，第三模型的模型参数的数量大于第一目标模型的模型参数的数量；

通过训练样本对第三模型进行训练，在满足第三训练终止条件时得到经过训练的第二目标模型；

将待处理的文本数据或者图像数据输入至第二目标模型，得到第二目标模型所输出的针对文本数据的文本预测结果或者针对图像数据的图像处理结果。

在前文的实施方式中，先是建立了参数数量较少，精度较低的第一模型，之后通过结构扩展得到了参数数量较大，精度较高的第二模型，并且需要先后进行第一模型和第二模型的训练，因此相当于是划分了2个训练层级，而该种实施方式中则考虑到，在实际应用中，为了提高灵活性，满足实际应用中的训练需求，可以划分更多的训练层级，相应地，在进行结构扩展时也是逐步扩展，最终等到所需要的高精度的模型。当然，实际应用中，通常设置2个或者3个训练层级即可，该种实施方式便是设置了3个训练层级。

具体的，得到了第一目标模型之后，基于同样的原理，需要先保存第一目标模型的检查点文件，进而基于第一目标模型的检查点文件，对第一目标模型进行结构扩展得到第三模型，且第三模型的结构符合设定的第三配置信息，使得第三模型的模型参数的数量大于第一目标模型的模型参数的数量。之后通过训练样本对第三模型进行训练，在满足第三训练终止条件时，得到了参数量更多，具有更高的精度的第二目标模型。

在本发明的一种具体实施方式，在通过训练样本对第一模型进行训练的过程中，所使用的学习率为基于第一学习率曲线所确定出的学习率：

在通过训练样本对第二模型进行训练的过程中，所使用的学习率为基于第二学习率曲线所确定出的学习率；

其中，第一学习率曲线中的任意学习率数值，高于第二学习率曲线中的任意学习率数值。

在部分场合中，学习率可以是固定值，而该种实施方式考虑到，第一模型是参数数量较少，精度较低的模型，第二模型是参数数量较大，精度较高的模型，为了保障合适的学习率，在通过训练样本对第一模型进行训练的过程中，所使用的学习率为基于第一学习率曲线所确定出的学习率，第一学习率曲线中的学习率应当较大，有助于实现相关参数的高效更新，降低训练耗时。相应地，在通过训练样本对第二模型进行训练的过程中，所使用的学习率为基于第二学习率曲线所确定出的学习率，第二学习率曲线中的学习率应当较小以保障收敛效果。

第一学习率曲线和第二学习率曲线的具体形式可以有多种，例如在本发明的一种具体实施方式中，在通过训练样本对第一模型进行训练的过程中，在迭代步数从0至a的过程中，第一学习率曲线的斜率为负且绝对值逐渐增大；

在通过训练样本对第二模型进行训练的过程中，在迭代步数从a至b的过程中，第二学习率曲线的斜率为负且绝对值逐渐减小；

其中，b表示的是对第一模型和第二模型进行训练的过程中的总迭代步数。

可参阅图5，为本发明一种具体实施方式中的学习率变化的示意图，该种实施方式中，在通过训练样本对第一模型进行训练的过程中，迭代步数从0至a，a表示的是对第一模型进行训练的过程中的总迭代步数，该过程中所使用的学习率为基于第一学习率曲线所确定出的学习率，可以看出第一学习率曲线的斜率为负且绝对值逐渐增大，有利于加速损失值的收敛，实现相关参数的高效更新，降低训练耗时。

而在通过训练样本对第二模型进行训练的过程中，在迭代步数从a至b的过程中，第二学习率曲线的斜率为负且绝对值逐渐减小，b表示的是对第一模型和第二模型进行训练的过程中的总迭代步数，也即b-a便是对第二模型进行训练的过程中的总迭代步数。该过程中所使用的学习率为基于第二学习率曲线所确定出的学习率，可以看出第二学习率曲线的斜率为负且绝对值逐渐减小，有利于保障第二模型的高精度，避免振荡、无法收敛等情况的发生。

可参阅图6，为本发明一种具体实施方式中的损失值的变化示意图，可以看出，在通过训练样本对第一模型进行训练的过程中，损失值快速降低，进行了结构扩展之后，损失值会小幅上升，之后通过训练样本对第二模型进行训练的过程中，损失值进一步降低最终收敛。图6中的横轴为标记值也即tokens的数值，该值可以反映出迭代的进行情况，即数值越大表示迭代的轮次越多。

相应于上面的方法实施例，本发明实施例还提供了一种数据处理***，可与上文相互对应参照。

可参阅图7，为本发明一种具体实施方式中的数据处理***的结构示意图，包括：

第一模型建立模块701，用于基于设定的第一配置信息建立第一模型；

检查点文件获取模块702，用于通过训练样本对第一模型进行训练，在满足第一训练终止条件时得到经过训练的待扩展模型，并保存待扩展模型的检查点文件；

结构扩展模块703，用于基于待扩展模型的检查点文件，对待扩展模型进行结构扩展得到第二模型，且第二模型的结构符合设定的第二配置信息；其中，第二模型的模型参数的数量大于第一模型的模型参数的数量；

第一目标模型确定模块704，用于通过训练样本对第二模型进行训练，在满足第二训练终止条件时得到经过训练的第一目标模型；

数据处理执行模块705，用于将待处理的文本数据或者图像数据输入至第一目标模型，得到第一目标模型所输出的针对文本数据的文本预测结果或者针对图像数据的图像处理结果。

在本发明的一种具体实施方式中，第一模型和第二模型均为采用转换器模型架构的基于自注意力机制的神经网络模型；

相应地，结构扩展模块703具体用于：

在本发明的一种具体实施方式中，结构扩展模块703包括：

第一类检查点文件确定单元，用于将待扩展模型的检查点文件当中，对应于流水并行第一个阶段的检查点文件作为第一类检查点文件；

第一扩展文件确定单元，用于基于第一类检查点文件，对待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数，初始嵌入层的模型参数，n个转换器层的优化器状态参数，初始嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第一扩展文件；

第二类检查点文件确定单元，用于将待扩展模型的检查点文件当中，对应于流水并行中间阶段的检查点文件作为第二类检查点文件；

第二扩展文件确定单元，用于基于第二类检查点文件，对待扩展模型对应于流水并行中间阶段的各个转换器层的模型参数，各个转换器层的优化器状态参数，以及配置参数进行结构扩展，得到第二扩展文件；

第三类检查点文件确定单元，用于将待扩展模型的检查点文件当中，对应于流水并行最后一个阶段的检查点文件作为第三类检查点文件；

第三扩展文件确定单元，用于基于第三类检查点文件，对待扩展模型对应于流水并行最后一个阶段的n个转换器层的模型参数，末尾嵌入层的模型参数，n个转换器层的优化器状态参数，末尾嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第三扩展文件；

第二模型确定单元，用于基于第一扩展文件，第二扩展文件以及第三扩展文件得到第二模型；

在本发明的一种具体实施方，第一扩展文件确定单元具体包括：

转换器层模型参数扩展子单元，用于基于第一类检查点文件，将待扩展模型对应于流水并行第一个阶段的n个转换器层中的每个转换器层的模型参数扩展m倍，得到m个第一子文件，且每个第一子文件中包括n个转换器层的模型参数；m为不小于2的正整数；

初始嵌入层参数扩展子单元，用于基于第一类检查点文件，将待扩展模型对应于流水并行第一个阶段的初始嵌入层的模型参数以及初始嵌入层的优化器状态参数保存至m个第一子文件中的第1个第一子文件中；

转换器层优化器状态参数扩展子单元，用于基于第一类检查点文件，将待扩展模型对应于流水并行第一个阶段的n个转换器层的优化器状态参数扩展m倍，以分别保存至m个第一子文件中，且每个第一子文件中保存n个转换器层的优化器状态参数；

配置参数扩展子单元，用于基于第一类检查点文件，将待扩展模型对应于流水并行第一个阶段的配置参数扩展m倍，以分别保存至m个第一子文件中；

第一扩展文件确定子单元，用于在进行了对应于流水并行第一个阶段的n个转换器层的模型参数，初始嵌入层的模型参数，n个转换器层的优化器状态参数，初始嵌入层的优化器状态参数，以及配置参数的结构扩展之后，将当前的m个第一子文件作为所得到的第一扩展文件。

转换器层优化器状态参数扩展子单元，具体用于：

判断第一模型是否为使用了零冗余优化器的第一模型；

在本发明的一种具体实施中，转换器层模型参数扩展子单元具体用于：

在本发明的一种具体实施方式中，还包括精度恢复数据扩展子单元，用于：

在本发明的一种具体实施方式中，第三扩展文件确定单元具体用于：

基于第三类检查点文件，将待扩展模型对应于流水并行最后一个阶段的末尾嵌入层的模型参数以及末尾嵌入层的优化器状态参数保存至m个第三子文件中的最后1个第三子文件中；

在进行了对应于流水并行最后一个阶段的n个转换器层的模型参数，末尾嵌入层的模型参数，n个转换器层的优化器状态参数，末尾嵌入层的优化器状态参数，以及配置参数的结构扩展之后，将当前的m个第三子文件作为所得到的第三扩展文件。

在本发明的一种具体实施方式中，第一模型所使用的训练样本的数量为预设的第一数值，第二模型所使用的训练样本的数量为预设的第二数值，且第一数值高于第二数值。

在本发明的一种具体实施方式中，还包括第三扩展模块，用于：

保存第一目标模型的检查点文件；

在本发明的一种具体实施方式中，在通过训练样本对第一模型进行训练的过程中，所使用的学习率为基于第一学习率曲线所确定出的学习率：

在本发明的一种具体实施方式中，在通过训练样本对第一模型进行训练的过程中，在迭代步数从0至a的过程中，第一学习率曲线的斜率为负且绝对值逐渐增大；

其中，a表示的是对第一模型进行训练的过程中的总迭代步数，b表示的是对第一模型和第二模型进行训练的过程中的总迭代步数。

相应于上面的方法和***实施例，本发明实施例还提供了一种数据处理设备以及一种计算机可读存储介质，可与上文相互对应参照。

可参阅图8，为本发明一种具体实施方式中的数据处理设备的结构示意图，包括：

存储器801，用于存储计算机程序；

处理器802，用于执行计算机程序以实现如上述任一实施例中的数据处理方法的步骤。

可参阅图9，该计算机可读存储介质90上存储有计算机程序91，计算机程序91被处理器执行时实现如上述任一实施例中的数据处理方法的步骤。这里所说的计算机可读存储介质90包括随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明的保护范围内。

Claims

1.一种数据处理方法，其特征在于，包括：

基于设定的第一配置信息建立第一模型；

将待处理的文本数据或者图像数据输入至所述第一目标模型，得到所述第一目标模型所输出的针对所述文本数据的文本预测结果或者针对所述图像数据的图像处理结果；

所述第一模型和所述第二模型均为采用转换器模型架构的基于自注意力机制的神经网络模型；

基于所述待扩展模型的检查点文件，对所述待扩展模型的模型参数，优化器状态参数，以及配置参数进行结构扩展，得到第二模型；

基于所述待扩展模型的检查点文件，对所述待扩展模型的模型参数，优化器状态参数，以及配置参数进行结构扩展，得到第二模型，包括：

2.根据权利要求1所述的数据处理方法，其特征在于，基于所述第一类检查点文件，对所述待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数，初始嵌入层的模型参数，n个转换器层的优化器状态参数，所述初始嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第一扩展文件，包括：

3.根据权利要求2所述的数据处理方法，其特征在于，基于所述第一类检查点文件，将所述待扩展模型对应于流水并行第一个阶段的n个转换器层的优化器状态参数扩展m倍，以分别保存至m个所述第一子文件中，且每个所述第一子文件中保存n个转换器层的优化器状态参数，包括：

判断所述第一模型是否为使用了零冗余优化器的第一模型；

4.根据权利要求2所述的数据处理方法，其特征在于，基于所述第一类检查点文件，将所述待扩展模型对应于流水并行第一个阶段的n个转换器层中的每个转换器层的模型参数扩展m倍，得到m个第一子文件，且每个所述第一子文件中包括n个转换器层的模型参数，包括：

5.根据权利要求2所述的数据处理方法，其特征在于，还包括：

6.根据权利要求1所述的数据处理方法，其特征在于，基于所述第三类检查点文件，对所述待扩展模型对应于流水并行最后一个阶段的n个转换器层的模型参数，末尾嵌入层的模型参数，n个转换器层的优化器状态参数，所述末尾嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第三扩展文件，包括：

7.根据权利要求1所述的数据处理方法，其特征在于，所述第一模型所使用的训练样本的数量为预设的第一数值，所述第二模型所使用的训练样本的数量为预设的第二数值，且所述第一数值高于所述第二数值。

8.根据权利要求1至7任一项所述的数据处理方法，其特征在于，还包括：

保存所述第一目标模型的检查点文件；

9.根据权利要求1至7任一项所述的数据处理方法，其特征在于，在通过训练样本对所述第一模型进行训练的过程中，所使用的学习率为基于第一学习率曲线所确定出的学习率：

10.根据权利要求9所述的数据处理方法，其特征在于，在通过训练样本对所述第一模型进行训练的过程中，在迭代步数从0至a的过程中，所述第一学习率曲线的斜率为负且绝对值逐渐增大；

11.一种数据处理***，其特征在于，包括：

数据处理执行模块，用于将待处理的文本数据或者图像数据输入至所述第一目标模型，得到所述第一目标模型所输出的针对所述文本数据的文本预测结果或者针对所述图像数据的图像处理结果；

相应地，所述结构扩展模块具体用于：

所述结构扩展模块包括：

第一类检查点文件确定单元，用于将所述待扩展模型的检查点文件当中，对应于流水并行第一个阶段的检查点文件作为第一类检查点文件；

第一扩展文件确定单元，用于基于所述第一类检查点文件，对所述待扩展模型对应于流水并行第一个阶段的n个转换器层的模型参数，初始嵌入层的模型参数，n个转换器层的优化器状态参数，所述初始嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第一扩展文件；

第二类检查点文件确定单元，用于将所述待扩展模型的检查点文件当中，对应于流水并行中间阶段的检查点文件作为第二类检查点文件；

第二扩展文件确定单元，用于基于所述第二类检查点文件，对所述待扩展模型对应于流水并行中间阶段的各个转换器层的模型参数，各个转换器层的优化器状态参数，以及配置参数进行结构扩展，得到第二扩展文件；

第三类检查点文件确定单元，用于将所述待扩展模型的检查点文件当中，对应于流水并行最后一个阶段的检查点文件作为第三类检查点文件；

第三扩展文件确定单元，用于基于所述第三类检查点文件，对所述待扩展模型对应于流水并行最后一个阶段的n个转换器层的模型参数，末尾嵌入层的模型参数，n个转换器层的优化器状态参数，所述末尾嵌入层的优化器状态参数，以及配置参数进行结构扩展，得到第三扩展文件；

第二模型确定单元，用于基于所述第一扩展文件，所述第二扩展文件以及所述第三扩展文件得到所述第二模型；

其中，其中，流水并行中间阶段表示的是流水并行各阶段中除了第一个阶段和最后一个阶段之外其余的全部阶段；n表示的是流水并行单个阶段的转换器层数且n=L/N，L表示的是所述第一模型的转换器总层数，N表示的是流水并行的阶段总数。

12.一种数据处理设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至10任一项所述的数据处理方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的数据处理方法的步骤。