CN118261268A - 一种长序列建模方法、装置、设备、介质及产品 - Google Patents
一种长序列建模方法、装置、设备、介质及产品 Download PDFInfo
- Publication number
- CN118261268A CN118261268A CN202410397604.8A CN202410397604A CN118261268A CN 118261268 A CN118261268 A CN 118261268A CN 202410397604 A CN202410397604 A CN 202410397604A CN 118261268 A CN118261268 A CN 118261268A
- Authority
- CN
- China
- Prior art keywords
- model
- state
- long sequence
- long
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 55
- 239000013598 vector Substances 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 17
- 230000007246 mechanism Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本公开提供一种长序列建模方法、装置、设备、介质及产品。其中,长序列建模方法包括:对获取的初始长序列数据进行预处理,得到样本数据;利用样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型;其中,预先配置的待训练模型包括用于处理长序列任务的待优化模型。利用本公开实施例提供的长序列建模方法,可提高模型处理长序列的能力,同时降低计算资源(显存)的消耗。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种长序列建模方法、长序列建模装置、电子设备、非暂态计算机可读存储介质以及计算机程序产品。
背景技术
随着人工智能(AI,Artificial Intelligence)技术的不断进步,AI模型的应用场景也越发广泛(例如,自然语言理解、时序预测、语音识别等),并且处理的任务复杂度也越来越高。
但是,目前相关技术中AI模型,在处理长序列任务时存在显存消耗巨大的问题,从而限制了AI模型在与长序列相关的领域中的应用。
因此,如何提供一种适用于长序列任务的建模方法,使得利用该方法创建的AI模型在处理长序列任务时能降低显存消耗,成为当前亟需解决的问题。
发明内容
本公开提供一种长序列建模方法,用以解决现有技术中AI模型在处理长序列任务时存在显存消耗巨大的缺陷。
本公开提供一种长序列建模方法,包括:
对获取的初始长序列数据进行预处理,得到样本数据;
利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型;其中,所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。
本公开还提供一种长序列建模装置,包括:
数据预处理模块,被配置为:对获取的初始长序列数据进行预处理,得到样本数据;
模型训练模块,被配置为:利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型;其中,所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。
本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述长序列建模方法。
本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述长序列建模方法。
本公开还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述长序列建模方法。
如上所述,利用本公开实施例提供的长序列建模方法,可以对相关模型进行优化训练,从而可得到优化的模型参数;进而在推理阶段应用该长序列模型时,可以将模型注意力机制计算的复杂度从O(n2)降到O(n)——即将AI模型自注意力机制的计算和存储需求与任务序列长度之间的关系‘线性化’——从而极大地提高了模型处理长序列的能力,同时降低了计算资源(显存)的消耗。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开提供的长序列建模方法的流程示意图之一;
图2是本公开提供的长序列建模方法的流程示意图之二;
图3是本公开提供的长序列建模方法的流程示意图之三;
图4是本公开提供的长序列建模装置的结构示意图;
图5是本公开提供的电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合本公开中的附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
发明构思概述:
本公开的发明人经过研究发现,导致前述现有技术问题的原因在于:现有的AI模型在处理长序列任务时,其自注意力机制的计算和存储需求会随任务序列长度呈非线性(例如,二次方)增长;因此才会导致显存消耗巨大,进而限制了AI模型在与长序列相关的领域中的应用。
基于这一发现,发明人进一步检索,发现相关技术中的处理方法是通过截断序列长度来适应模AI型的限制,但这种方法可能会损害序列的完整性和上下文信息的连贯性。
为此,发明人考虑以“在不限制序列长度的前提下,将AI模型自注意力机制的计算和存储需求与任务序列长度之间的关系‘线性化’”作为发明方向和重点。有鉴于此,提出了本公开的长序列建模方案。
实施例:
下面结合附图,对本公开的长序列建模方案进行说明。
图1是本公开一示例性实施例提供的长序列建模方法流程示意图。本实施例可应用在电子设备(例如,服务器或者云计算平台)上,如图1所示,长序列建模方法包括如下步骤:
S110、对获取的初始长序列数据进行预处理,得到样本数据。
其中,本公开对“初始长序列数据”的数据类型不作限定。例如可包括但不限于自然语言文本、语音数据、气象数据等。
具体预处理的实施方式将在下文中描述,这里先不赘述。
可选地,作为该步骤S110的执行主体(例如,服务器)可以通过多种可用的方式与提供初始长序列数据的数据端通信,以获取数据。例如,可通过有线或无线的方式。
S120、利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型。其中,所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。
作为一可选示例,所述待优化模型可以选择常规的长序列任务模型。
如上所述,利用本公开实施例提供的长序列建模方法,可以对相关模型进行优化训练,从而可得到优化的模型参数;进而在推理阶段应用该长序列模型时,可以将模型注意力机制计算的复杂度从O(n2)降到O(n)——即将AI模型自注意力机制的计算和存储需求与任务序列长度之间的关系‘线性化’——从而极大地提高了模型处理长序列的能力,同时降低了计算资源(显存)的消耗。
作为一可选实施方式,在图1实施例的基础上,参照图2,步骤S110可通过如下方式实施:
步骤S1101、匹配所述初始长序列数据的类型,确定分割规则。步骤S1102、基于所述分割规则,对所述初始长序列数据进行切分,得到多个样本元素。步骤S1103、对所述多个样本元素编号,形成一组样本元素序列,作为所述样本数据。
其中,当前样本元素作为模型的样本输入时,按照编号,与当前样本元素直接相邻下一样本元素作为样本真值,用于与模型输出进行比对。
在步骤S1101中,作为一可选示例,例如,初始长序列数据的类型为自然语言文本,则可以“语义分割规则”作为所述分割规则。又例如,初始长序列数据的类型语音数据,则可以“语音识别”数据预处理的相关规则作为所述分割规则。
在步骤S1103中,作为一可选示例,对所述多个样本元素编号的原则是:要依据每个样本元素在“初始长序列数据”中的原位置,顺次编号。
例如,对于“我要上春晚”这一示例性“初始长序列数据”。可将其分割为“我”、“要”、“上”、“春晚”四个词;根据上述编号的原则,“我”的编号可为1、“要”的编号可为2、“上”的编号可为3、“春晚”的编号可为4。
作为一可选实施方式,在图1、2实施例的基础上,所述预先配置的初始化条件至少包括:预先配置的一组随机初始化的基向量B、一个矩阵Wt、以及一组初始基状态矩阵和
其中,基向量B、初始基状态矩阵和的向量数量N根据初始长序列的长度确定,向量维度d根据初始长序列的维度确定;矩阵Wt用于存储查询状态,初始化状态为空;初始基状态矩阵用于动态缓存键状态经过线性变换后的状态向量;初始基状态矩阵用于动态缓存值状态经过线性变换后的状态向量;初始基状态矩阵和的矩阵元素初始化为0。
其中,需要说明的是,初始化的基向量B是一组可训练的基向量。在训练过程中,利用基向量B对注意力机制中的查询(query)、键(key)和值(value)的状态进行变换压缩,在仅微调基向量B的情况下,实现近似原有的自注意力。从而可将注意力机制从O(n2)复杂度降低到到O(n)复杂度,极大地提高模型处理长序列的能力,同时降低计算资源(尤其是显存)的消耗。
另外,随机初始化的基向量B在训练过程中,会不断优化调整,因此最终模型训练结束时的基向量B才是我们需要的。
作为一可选实施方式,在图1、2实施例的基础上,所述预先配置的待训练模型中包括:预先配置的与输入数据对应的隐状态ht、初始查询状态权重矩阵Wq、初始键状态权重矩阵Wk以及初始值状态权重矩阵Wv。
作为一可选实施方式,在图1、2实施例的基础上,所述按照预设训练规则执行模型训练,包括:
步骤1、按照样本元素的编号,在所述样本数据中确定输入所述待训练模型的当前样本元素。
作为一可选示例,假设目前训练的一组样本元素包括c1到c5;其中,元素c的下标数字即为其对应编号。
具体地,如果前一次训练的样本元素为c1,那么可确定当前样本元素为c1、c2(前一次训练中,执行完步骤1~5后,拟合得到样本元素c2);如果前一次训练的样本元素为c1、c2,那么可确定当前样本元素为c1、c2、c3;如果前一次训练的样本元素为c1、c2、c3,那么可确定当前样本元素为c1、c2、c3、c4;以此类推。换言之,随着迭代次数增加,每次迭代训练时样本元素数量也渐次递增,即,将前一次训练拟合的样本元素添加到本次训练的样本元素序列中,作为所述当前样本元素。
步骤2、按照样本元素的编号,在所述样本数据中,确定与当前样本元素对应的样本元素真值分布。
参照步骤1示例,如果当前样本元素为c1、c2、c3,则与之对应的样本元素真值分布可表示为[0,0,0,1,0],该分布用于从样本数据[c1、c2、c3、c4、c5]中确定样本元素真值。在该分布中,数字1表示有效、0表示无效。该分布[0,0,0,1,0]中数字1对应的是样本元素为c4,用于与基于当前样本元素c1、c2、c3拟合的样本元素估计分布进行交叉熵计算。
步骤3、将所述当前样本元素输入所述待训练模型,得到所述待训练模型输出的样本元素估计分布以及对应的矩阵Wt。
作为一可选示例,在步骤3中,待训练模型的数据处理逻辑,可包括如下步骤31~步骤36:
步骤31、根据所述当前样本元素,确定该当前样本元素对应的查询状态、键状态以及值状态。
可选地,参照图3,假设当前样本元素为ct,则可通过如下计算式确定当前样本元素对应的查询状态qt、键状态kt以及值状态vt:
其中,ht表示当前样本元素为ct对应的隐状态;Wq表示当前样本元素为ct对应的初始查询状态权重矩阵;Wk表示当前样本元素为ct对应的初始键状态权重矩阵;Wv表示当前样本元素为ct对应的初始值状态权重矩阵;表示1×d维的实数向量空间;
步骤32、利用所述当前样本元素对应的查询状态以及所述基向量B,确定中间状态wt,并存储至矩阵Wt。
可选地,在步骤31基础上,可通过如下计算式确定中间状态wt:
其中,Wt-1表示在当前样本元素之前的样本元素对应的间状态;表示N×1维的实数向量空间。
步骤33、利用所述中间状态wt,对所述当前样本元素对应的键状态以及值状态进行线性变换,分别得到键状态的变换结果和值状态的变换结果,并将所述键状态的变换结果更新存储至基状态矩阵将所述值状态的变换结果更新存储至基状态矩阵
具体地,步骤33可利用如下计算式执行:
wt=[wt1,wt2,...,wtN]T
kt=[kt1,kt2,…,ktd]
其中,表示存储当前样本元素对应的键状态的变换结果的基状态矩阵;表示存储当前样本元素对应的值状态的变换结果的基状态矩阵;表示存储与当前样本元素相邻的前一样本元素对应的键状态的变换结果的基状态矩阵;表示存储与当前样本元素相邻的前一样本元素对应的值状态的变换结果的基状态矩阵;kt表示键状态;表示N×d维的实数向量空间;符号表示向量外积。
需要说明的是,初始基状态矩阵仅为初始状态,随着模型训练的推进会动态更新。由此可以理解的是,上述基状态矩阵是从初始基状态矩阵逐步更新得到的。相应地,上述基状态矩阵是从初始基状态矩阵逐步更新得到的。
步骤34、利用更新后的基状态矩阵替换显存中已存储的基状态矩阵利用更新后的基状态矩阵替换显存中已存储的基状态矩阵
可以理解的是,通过执行该步骤步骤34,可以避免长序列建模中巨大的显存压力。
步骤35、利用更新后的基状态矩阵和基状态矩阵确定自注意力输出值。
可选地,参照图3,步骤35可通过如下计算式实施:
其中,表示自注意力输出值;qt表示当前样本元素对应的查询状态;d表示向量维度;表示1×d维的实数向量空间;表示存储当前样本元素对应的键状态的变换结果的基状态矩阵;表示存储当前样本元素对应的值状态的变换结果的基状态矩阵。
步骤36、根据所述自注意力输出值,确定所述样本元素估计分布。
其中,假设当前样本元素为c1~ct;则样本元素估计分布可表示为至少包括ct+1在内的一些列元素分布。
步骤4、计算所述样本元素估计分布与所述样本元素真值分布之间交叉熵损失,以交叉熵损失为零以及矩阵Wt正交约束作为优化目标,通过调整基向量B和待训练模型相关参数对所述样本元素估计分布进行优化,并迭代步骤3~步骤4,保存优化结束时对应的基向量B与待训练模型的相关参数;
步骤5、迭代步骤1~步骤4,直至所述样本数据全部训练完毕。
可选地,矩阵Wt正交约束可表述为如下计算式的形式:
其中,I表示单位矩阵。
需要说明的是,本公开实施例中选取正则约束,可以保证最终基状态能有效近似原有的自注意力。
作为一可选示例,在步骤4中,待训练模型相关参数可以包括初始查询状态权重矩阵Wq,初始键状态权重矩阵Wk,初始值状态权重矩阵Wv。
如上所述,利用本公开实施例提供的长序列建模方法,可以对相关模型进行优化训练,从而可得到优化的模型参数;进而在推理阶段应用该长序列模型时,可以将模型注意力机制计算的复杂度从O(n2)降到O(n)——即将AI模型自注意力机制的计算和存储需求与任务序列长度之间的关系‘线性化’——从而极大地提高了模型处理长序列的能力,同时降低了计算资源(显存)的消耗。
下面对本公开提供的长序列建模装置进行描述,下文描述的长序列建模装置与上文描述的长序列建模方法可相互对应参照。
图4是本公开一示例性实施例提供的长序列建模装置的结构示意图。如图4所示,长序列建模装置,包括:数据预处理模块410,被配置为:对获取的初始长序列数据进行预处理,得到样本数据;模型训练模块420,被配置为:利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型;其中,所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行长序列建模方法,该方法包括:对获取的初始长序列数据进行预处理,得到样本数据;利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型;其中,所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本公开还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的长序列建模方法,该方法包括:对获取的初始长序列数据进行预处理,得到样本数据;利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型;其中,所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。
又一方面,本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的长序列建模方法,该方法包括:对获取的初始长序列数据进行预处理,得到样本数据;利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型;其中,所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。
Claims (10)
1.一种长序列建模方法,其特征在于,包括:
对获取的初始长序列数据进行预处理,得到样本数据;
利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型;其中,所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。
2.根据权利要求1所述的长序列建模方法,其特征在于,所述对获取的初始长序列数据进行预处理,得到样本数据,包括:
匹配所述初始长序列数据的类型,确定分割规则;
基于所述分割规则,对所述初始长序列数据进行切分,得到多个样本元素;
对所述多个样本元素编号,形成一组样本元素序列,作为所述样本数据;
其中,当前样本元素作为模型的样本输入时,按照编号,与当前样本元素直接相邻下一样本元素作为样本真值,用于与模型输出进行比对。
3.根据权利要求2所述的长序列建模方法,其特征在于,所述预先配置的初始化条件至少包括:预先配置的一组随机初始化的基向量B、一个矩阵Wt、以及一组初始基状态矩阵和其中,
基向量B、初始基状态矩阵和的向量数量N根据初始长序列的长度确定,向量维度d根据初始长序列的维度确定;
矩阵Wt用于存储查询状态,初始化状态为空;
初始基状态矩阵用于动态缓存键状态经过线性变换后的状态向量;
初始基状态矩阵用于动态缓存值状态经过线性变换后的状态向量;
初始基状态矩阵和的矩阵元素初始化为0。
4.根据权利要求1所述的长序列建模方法,其特征在于,所述预先配置的待训练模型中包括:预先配置的与输入数据对应的隐状态、初始查询状态权重矩阵、初始键状态权重矩阵以及初始值状态权重矩阵。
5.根据权利要求3所述的长序列建模方法,其特征在于,所述按照预设训练规则执行模型训练,包括:
步骤1、按照样本元素的编号,在所述样本数据中确定输入所述待训练模型的当前样本元素;
步骤2、按照样本元素的编号,在所述样本数据中,确定与当前样本元素对应的样本元素真值分布;
步骤3、将所述当前样本元素输入所述待训练模型,得到所述待训练模型输出的样本元素估计分布以及对应的矩阵Wt;
步骤4、计算所述样本元素估计分布与所述样本元素真值分布之间交叉熵损失,以交叉熵损失为零以及矩阵Wt正交约束作为优化目标,通过调整基向量B和所述待训练模型的相关参数对所述样本元素估计分布进行优化,并迭代步骤3~步骤4,保存优化结束时对应的基向量B与所述待训练模型的相关参数;
步骤5、迭代步骤1~步骤4,直至所述样本数据全部训练完毕。
6.根据权利要求5所述的长序列建模方法,其特征在于,在所述步骤3中,待训练模型的数据处理逻辑,包括:
根据所述当前样本元素,确定该当前样本元素对应的查询状态、键状态以及值状态;
利用所述当前样本元素对应的查询状态以及所述基向量B,确定中间状态wt,并存储至矩阵Wt;
利用所述中间状态wt,对所述当前样本元素对应的键状态以及值状态进行线性变换,分别得到键状态的变换结果和值状态的变换结果,并将所述键状态的变换结果更新存储至基状态矩阵将所述值状态的变换结果更新存储至基状态矩阵
利用更新后的基状态矩阵替换显存中已存储的基状态矩阵利用更新后的基状态矩阵替换显存中已存储的基状态矩阵
利用更新后的基状态矩阵和基状态矩阵确定自注意力输出值;
根据所述自注意力输出值,确定所述样本元素估计分布。
7.一种长序列建模装置,其特征在于,包括:
数据预处理模块,被配置为:对获取的初始长序列数据进行预处理,得到样本数据;
模型训练模块,被配置为:利用所述样本数据、预先配置的待训练模型以及预先配置的初始化条件,按照预设训练规则执行模型训练,得到长序列模型;其中,所述预先配置的待训练模型包括用于处理长序列任务的待优化模型。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述长序列建模方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述长序列建模方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述长序列建模方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410397604.8A CN118261268A (zh) | 2024-04-03 | 2024-04-03 | 一种长序列建模方法、装置、设备、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410397604.8A CN118261268A (zh) | 2024-04-03 | 2024-04-03 | 一种长序列建模方法、装置、设备、介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118261268A true CN118261268A (zh) | 2024-06-28 |
Family
ID=91604946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410397604.8A Pending CN118261268A (zh) | 2024-04-03 | 2024-04-03 | 一种长序列建模方法、装置、设备、介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118261268A (zh) |
-
2024
- 2024-04-03 CN CN202410397604.8A patent/CN118261268A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN111859991B (zh) | 语言翻译处理模型训练方法和语言翻译处理方法 | |
CN110162766B (zh) | 词向量更新方法和装置 | |
CN109977394B (zh) | 文本模型训练方法、文本分析方法、装置、设备及介质 | |
CN117454495B (zh) | 一种基于建筑草图轮廓序列的cad矢量模型生成方法及装置 | |
CN115080749B (zh) | 一种基于自监督训练的弱监督文本分类方法、***和装置 | |
Huai et al. | Zerobn: Learning compact neural networks for latency-critical edge systems | |
CN111598087A (zh) | 不规则文字的识别方法、装置、计算机设备及存储介质 | |
CN113326940A (zh) | 基于多重知识迁移的知识蒸馏方法、装置、设备及介质 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
CN115019102A (zh) | 一种对抗样本生成模型的构建方法及应用 | |
CN107977980B (zh) | 一种目标跟踪方法、设备以及可读介质 | |
CN113869005A (zh) | 一种基于语句相似度的预训练模型方法和*** | |
CN115905591B (zh) | 一种视觉问答方法、***、设备及可读存储介质 | |
CN112381147A (zh) | 动态图片相似度模型建立、相似度计算方法和装置 | |
CN118261268A (zh) | 一种长序列建模方法、装置、设备、介质及产品 | |
CN116187401A (zh) | 神经网络的压缩方法、装置、电子设备及存储介质 | |
CN113379593B (zh) | 一种图像生成方法、***及相关设备 | |
CN113807517B (zh) | 剪枝参数搜索方法及剪枝方法、装置、设备、介质 | |
CN113590748B (zh) | 基于迭代网络组合的情感分类持续学习方法及存储介质 | |
CN114742045A (zh) | 一种语义文本相似度的计算方法、装置及存储介质 | |
CN114662668A (zh) | 神经网络训练方法、语义相似度计算方法及语义检索*** | |
JP7297286B2 (ja) | 最適化方法、最適化プログラム、推論方法、および推論プログラム | |
CN113987154A (zh) | 基于UniLM与对比学习的相似句生成模型训练方法及相关设备 | |
CN113704425A (zh) | 一种结合知识增强和深度强化学习的对话策略优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |