CN118261268A

CN118261268A - 一种长序列建模方法、装置、设备、介质及产品

Info

Publication number: CN118261268A
Application number: CN202410397604.8A
Authority: CN
Inventors: 李晨亮; 邹立新
Original assignee: Hubei Luojia Zhiyan Technology Co ltd
Current assignee: Hubei Luojia Zhiyan Technology Co ltd
Priority date: 2024-04-03
Filing date: 2024-04-03
Publication date: 2024-06-28

Abstract

本公开提供一种长序列建模方法、装置、设备、介质及产品。其中，长序列建模方法包括：对获取的初始长序列数据进行预处理，得到样本数据；利用样本数据、预先配置的待训练模型以及预先配置的初始化条件，按照预设训练规则执行模型训练，得到长序列模型；其中，预先配置的待训练模型包括用于处理长序列任务的待优化模型。利用本公开实施例提供的长序列建模方法，可提高模型处理长序列的能力，同时降低计算资源(显存)的消耗。

Description

一种长序列建模方法、装置、设备、介质及产品

技术领域

本公开涉及人工智能技术领域，尤其涉及一种长序列建模方法、长序列建模装置、电子设备、非暂态计算机可读存储介质以及计算机程序产品。

背景技术

随着人工智能(AI，Artificial Intelligence)技术的不断进步，AI模型的应用场景也越发广泛(例如，自然语言理解、时序预测、语音识别等)，并且处理的任务复杂度也越来越高。

但是，目前相关技术中AI模型，在处理长序列任务时存在显存消耗巨大的问题，从而限制了AI模型在与长序列相关的领域中的应用。

因此，如何提供一种适用于长序列任务的建模方法，使得利用该方法创建的AI模型在处理长序列任务时能降低显存消耗，成为当前亟需解决的问题。

发明内容

本公开提供一种长序列建模方法，用以解决现有技术中AI模型在处理长序列任务时存在显存消耗巨大的缺陷。

本公开提供一种长序列建模方法，包括：

对获取的初始长序列数据进行预处理，得到样本数据；

利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件，按照预设训练规则执行模型训练，得到长序列模型；其中，所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。

本公开还提供一种长序列建模装置，包括：

数据预处理模块，被配置为：对获取的初始长序列数据进行预处理，得到样本数据；

模型训练模块，被配置为：利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件，按照预设训练规则执行模型训练，得到长序列模型；其中，所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。

本公开还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述长序列建模方法。

本公开还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述长序列建模方法。

本公开还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述长序列建模方法。

如上所述，利用本公开实施例提供的长序列建模方法，可以对相关模型进行优化训练，从而可得到优化的模型参数；进而在推理阶段应用该长序列模型时，可以将模型注意力机制计算的复杂度从O(n²)降到O(n)——即将AI模型自注意力机制的计算和存储需求与任务序列长度之间的关系‘线性化’——从而极大地提高了模型处理长序列的能力，同时降低了计算资源(显存)的消耗。

附图说明

为了更清楚地说明本公开或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开提供的长序列建模方法的流程示意图之一；

图2是本公开提供的长序列建模方法的流程示意图之二；

图3是本公开提供的长序列建模方法的流程示意图之三；

图4是本公开提供的长序列建模装置的结构示意图；

图5是本公开提供的电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合本公开中的附图，对本公开中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

发明构思概述：

本公开的发明人经过研究发现，导致前述现有技术问题的原因在于：现有的AI模型在处理长序列任务时，其自注意力机制的计算和存储需求会随任务序列长度呈非线性(例如，二次方)增长；因此才会导致显存消耗巨大，进而限制了AI模型在与长序列相关的领域中的应用。

基于这一发现，发明人进一步检索，发现相关技术中的处理方法是通过截断序列长度来适应模AI型的限制，但这种方法可能会损害序列的完整性和上下文信息的连贯性。

为此，发明人考虑以“在不限制序列长度的前提下，将AI模型自注意力机制的计算和存储需求与任务序列长度之间的关系‘线性化’”作为发明方向和重点。有鉴于此，提出了本公开的长序列建模方案。

实施例：

下面结合附图，对本公开的长序列建模方案进行说明。

图1是本公开一示例性实施例提供的长序列建模方法流程示意图。本实施例可应用在电子设备(例如，服务器或者云计算平台)上，如图1所示，长序列建模方法包括如下步骤：

S110、对获取的初始长序列数据进行预处理，得到样本数据。

其中，本公开对“初始长序列数据”的数据类型不作限定。例如可包括但不限于自然语言文本、语音数据、气象数据等。

具体预处理的实施方式将在下文中描述，这里先不赘述。

可选地，作为该步骤S110的执行主体(例如，服务器)可以通过多种可用的方式与提供初始长序列数据的数据端通信，以获取数据。例如，可通过有线或无线的方式。

S120、利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件，按照预设训练规则执行模型训练，得到长序列模型。其中，所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。

作为一可选示例，所述待优化模型可以选择常规的长序列任务模型。

作为一可选实施方式，在图1实施例的基础上，参照图2，步骤S110可通过如下方式实施：

步骤S1101、匹配所述初始长序列数据的类型，确定分割规则。步骤S1102、基于所述分割规则，对所述初始长序列数据进行切分，得到多个样本元素。步骤S1103、对所述多个样本元素编号，形成一组样本元素序列，作为所述样本数据。

其中，当前样本元素作为模型的样本输入时，按照编号，与当前样本元素直接相邻下一样本元素作为样本真值，用于与模型输出进行比对。

在步骤S1101中，作为一可选示例，例如，初始长序列数据的类型为自然语言文本，则可以“语义分割规则”作为所述分割规则。又例如，初始长序列数据的类型语音数据，则可以“语音识别”数据预处理的相关规则作为所述分割规则。

在步骤S1103中，作为一可选示例，对所述多个样本元素编号的原则是：要依据每个样本元素在“初始长序列数据”中的原位置，顺次编号。

例如，对于“我要上春晚”这一示例性“初始长序列数据”。可将其分割为“我”、“要”、“上”、“春晚”四个词；根据上述编号的原则，“我”的编号可为1、“要”的编号可为2、“上”的编号可为3、“春晚”的编号可为4。

作为一可选实施方式，在图1、2实施例的基础上，所述预先配置的初始化条件至少包括：预先配置的一组随机初始化的基向量B、一个矩阵W_t、以及一组初始基状态矩阵和

其中，基向量B、初始基状态矩阵和的向量数量N根据初始长序列的长度确定，向量维度d根据初始长序列的维度确定；矩阵W_t用于存储查询状态，初始化状态为空；初始基状态矩阵用于动态缓存键状态经过线性变换后的状态向量；初始基状态矩阵用于动态缓存值状态经过线性变换后的状态向量；初始基状态矩阵和的矩阵元素初始化为0。

其中，需要说明的是，初始化的基向量B是一组可训练的基向量。在训练过程中，利用基向量B对注意力机制中的查询(query)、键(key)和值(value)的状态进行变换压缩，在仅微调基向量B的情况下，实现近似原有的自注意力。从而可将注意力机制从O(n²)复杂度降低到到O(n)复杂度，极大地提高模型处理长序列的能力，同时降低计算资源(尤其是显存)的消耗。

另外，随机初始化的基向量B在训练过程中，会不断优化调整，因此最终模型训练结束时的基向量B才是我们需要的。

作为一可选实施方式，在图1、2实施例的基础上，所述预先配置的待训练模型中包括：预先配置的与输入数据对应的隐状态h_t、初始查询状态权重矩阵W_q、初始键状态权重矩阵W_k以及初始值状态权重矩阵W_v。

作为一可选实施方式，在图1、2实施例的基础上，所述按照预设训练规则执行模型训练，包括：

步骤1、按照样本元素的编号，在所述样本数据中确定输入所述待训练模型的当前样本元素。

作为一可选示例，假设目前训练的一组样本元素包括c₁到c₅；其中，元素c的下标数字即为其对应编号。

具体地，如果前一次训练的样本元素为c₁，那么可确定当前样本元素为c₁、c₂(前一次训练中，执行完步骤1～5后，拟合得到样本元素c₂)；如果前一次训练的样本元素为c₁、c₂，那么可确定当前样本元素为c₁、c₂、c₃；如果前一次训练的样本元素为c₁、c₂、c₃，那么可确定当前样本元素为c₁、c₂、c₃、c₄；以此类推。换言之，随着迭代次数增加，每次迭代训练时样本元素数量也渐次递增，即，将前一次训练拟合的样本元素添加到本次训练的样本元素序列中，作为所述当前样本元素。

步骤2、按照样本元素的编号，在所述样本数据中，确定与当前样本元素对应的样本元素真值分布。

参照步骤1示例，如果当前样本元素为c₁、c₂、c₃，则与之对应的样本元素真值分布可表示为[0,0,0,1,0]，该分布用于从样本数据[c₁、c₂、c₃、c₄、c₅]中确定样本元素真值。在该分布中，数字1表示有效、0表示无效。该分布[0,0,0,1,0]中数字1对应的是样本元素为c₄，用于与基于当前样本元素c₁、c₂、c₃拟合的样本元素估计分布进行交叉熵计算。

步骤3、将所述当前样本元素输入所述待训练模型，得到所述待训练模型输出的样本元素估计分布以及对应的矩阵W_t。

作为一可选示例，在步骤3中，待训练模型的数据处理逻辑，可包括如下步骤31～步骤36：

步骤31、根据所述当前样本元素，确定该当前样本元素对应的查询状态、键状态以及值状态。

可选地，参照图3，假设当前样本元素为c_t，则可通过如下计算式确定当前样本元素对应的查询状态q_t、键状态k_t以及值状态v_t：

其中，h_t表示当前样本元素为c_t对应的隐状态；W_q表示当前样本元素为c_t对应的初始查询状态权重矩阵；W_k表示当前样本元素为c_t对应的初始键状态权重矩阵；W_v表示当前样本元素为c_t对应的初始值状态权重矩阵；表示1×d维的实数向量空间；

步骤32、利用所述当前样本元素对应的查询状态以及所述基向量B，确定中间状态w_t，并存储至矩阵W_t。

可选地，在步骤31基础上，可通过如下计算式确定中间状态w_t：

其中，W_t-1表示在当前样本元素之前的样本元素对应的间状态；表示N×1维的实数向量空间。

步骤33、利用所述中间状态w_t，对所述当前样本元素对应的键状态以及值状态进行线性变换，分别得到键状态的变换结果和值状态的变换结果，并将所述键状态的变换结果更新存储至基状态矩阵将所述值状态的变换结果更新存储至基状态矩阵

具体地，步骤33可利用如下计算式执行：

w_t＝[w_t1，w_t2，...,w_tN]^T

k_t＝[k_t1，k_t2，…，k_td]

其中，表示存储当前样本元素对应的键状态的变换结果的基状态矩阵；表示存储当前样本元素对应的值状态的变换结果的基状态矩阵；表示存储与当前样本元素相邻的前一样本元素对应的键状态的变换结果的基状态矩阵；表示存储与当前样本元素相邻的前一样本元素对应的值状态的变换结果的基状态矩阵；kt表示键状态；表示N×d维的实数向量空间；符号表示向量外积。

需要说明的是，初始基状态矩阵仅为初始状态，随着模型训练的推进会动态更新。由此可以理解的是，上述基状态矩阵是从初始基状态矩阵逐步更新得到的。相应地，上述基状态矩阵是从初始基状态矩阵逐步更新得到的。

步骤34、利用更新后的基状态矩阵替换显存中已存储的基状态矩阵利用更新后的基状态矩阵替换显存中已存储的基状态矩阵

可以理解的是，通过执行该步骤步骤34，可以避免长序列建模中巨大的显存压力。

步骤35、利用更新后的基状态矩阵和基状态矩阵确定自注意力输出值。

可选地，参照图3，步骤35可通过如下计算式实施：

其中，表示自注意力输出值；q_t表示当前样本元素对应的查询状态；d表示向量维度；表示1×d维的实数向量空间；表示存储当前样本元素对应的键状态的变换结果的基状态矩阵；表示存储当前样本元素对应的值状态的变换结果的基状态矩阵。

步骤36、根据所述自注意力输出值，确定所述样本元素估计分布。

其中，假设当前样本元素为c₁～c_t；则样本元素估计分布可表示为至少包括c_t+1在内的一些列元素分布。

步骤4、计算所述样本元素估计分布与所述样本元素真值分布之间交叉熵损失，以交叉熵损失为零以及矩阵W_t正交约束作为优化目标，通过调整基向量B和待训练模型相关参数对所述样本元素估计分布进行优化，并迭代步骤3～步骤4，保存优化结束时对应的基向量B与待训练模型的相关参数；

步骤5、迭代步骤1～步骤4，直至所述样本数据全部训练完毕。

可选地，矩阵W_t正交约束可表述为如下计算式的形式：

其中，I表示单位矩阵。

需要说明的是，本公开实施例中选取正则约束，可以保证最终基状态能有效近似原有的自注意力。

作为一可选示例，在步骤4中，待训练模型相关参数可以包括初始查询状态权重矩阵W_q，初始键状态权重矩阵W_k，初始值状态权重矩阵W_v。

下面对本公开提供的长序列建模装置进行描述，下文描述的长序列建模装置与上文描述的长序列建模方法可相互对应参照。

图4是本公开一示例性实施例提供的长序列建模装置的结构示意图。如图4所示，长序列建模装置，包括：数据预处理模块410，被配置为：对获取的初始长序列数据进行预处理，得到样本数据；模型训练模块420，被配置为：利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件，按照预设训练规则执行模型训练，得到长序列模型；其中，所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行长序列建模方法，该方法包括：对获取的初始长序列数据进行预处理，得到样本数据；利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件，按照预设训练规则执行模型训练，得到长序列模型；其中，所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本公开还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的长序列建模方法，该方法包括：对获取的初始长序列数据进行预处理，得到样本数据；利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件，按照预设训练规则执行模型训练，得到长序列模型；其中，所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。

又一方面，本公开还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的长序列建模方法，该方法包括：对获取的初始长序列数据进行预处理，得到样本数据；利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件，按照预设训练规则执行模型训练，得到长序列模型；其中，所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims

1.一种长序列建模方法，其特征在于，包括：

对获取的初始长序列数据进行预处理，得到样本数据；

2.根据权利要求1所述的长序列建模方法，其特征在于，所述对获取的初始长序列数据进行预处理，得到样本数据，包括：

匹配所述初始长序列数据的类型，确定分割规则；

基于所述分割规则，对所述初始长序列数据进行切分，得到多个样本元素；

对所述多个样本元素编号，形成一组样本元素序列，作为所述样本数据；

3.根据权利要求2所述的长序列建模方法，其特征在于，所述预先配置的初始化条件至少包括：预先配置的一组随机初始化的基向量B、一个矩阵W_t、以及一组初始基状态矩阵和其中，

基向量B、初始基状态矩阵和的向量数量N根据初始长序列的长度确定，向量维度d根据初始长序列的维度确定；

矩阵W_t用于存储查询状态，初始化状态为空；

初始基状态矩阵用于动态缓存键状态经过线性变换后的状态向量；

初始基状态矩阵用于动态缓存值状态经过线性变换后的状态向量；

初始基状态矩阵和的矩阵元素初始化为0。

4.根据权利要求1所述的长序列建模方法，其特征在于，所述预先配置的待训练模型中包括：预先配置的与输入数据对应的隐状态、初始查询状态权重矩阵、初始键状态权重矩阵以及初始值状态权重矩阵。

5.根据权利要求3所述的长序列建模方法，其特征在于，所述按照预设训练规则执行模型训练，包括：

步骤1、按照样本元素的编号，在所述样本数据中确定输入所述待训练模型的当前样本元素；

步骤2、按照样本元素的编号，在所述样本数据中，确定与当前样本元素对应的样本元素真值分布；

步骤3、将所述当前样本元素输入所述待训练模型，得到所述待训练模型输出的样本元素估计分布以及对应的矩阵W_t；

步骤4、计算所述样本元素估计分布与所述样本元素真值分布之间交叉熵损失，以交叉熵损失为零以及矩阵W_t正交约束作为优化目标，通过调整基向量B和所述待训练模型的相关参数对所述样本元素估计分布进行优化，并迭代步骤3～步骤4，保存优化结束时对应的基向量B与所述待训练模型的相关参数；

6.根据权利要求5所述的长序列建模方法，其特征在于，在所述步骤3中，待训练模型的数据处理逻辑，包括：

根据所述当前样本元素，确定该当前样本元素对应的查询状态、键状态以及值状态；

利用所述当前样本元素对应的查询状态以及所述基向量B，确定中间状态w_t，并存储至矩阵W_t；

利用所述中间状态w_t，对所述当前样本元素对应的键状态以及值状态进行线性变换，分别得到键状态的变换结果和值状态的变换结果，并将所述键状态的变换结果更新存储至基状态矩阵将所述值状态的变换结果更新存储至基状态矩阵

利用更新后的基状态矩阵替换显存中已存储的基状态矩阵利用更新后的基状态矩阵替换显存中已存储的基状态矩阵

利用更新后的基状态矩阵和基状态矩阵确定自注意力输出值；

根据所述自注意力输出值，确定所述样本元素估计分布。

7.一种长序列建模装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述长序列建模方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述长序列建模方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述长序列建模方法。