CN117786061A - 一种基于时空注意力机制的大语言模型预测方法及装置 - Google Patents
一种基于时空注意力机制的大语言模型预测方法及装置 Download PDFInfo
- Publication number
- CN117786061A CN117786061A CN202311675342.9A CN202311675342A CN117786061A CN 117786061 A CN117786061 A CN 117786061A CN 202311675342 A CN202311675342 A CN 202311675342A CN 117786061 A CN117786061 A CN 117786061A
- Authority
- CN
- China
- Prior art keywords
- entity
- target entity
- language model
- space
- attention network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000007246 mechanism Effects 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000002372 labelling Methods 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 16
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 14
- 238000012545 processing Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书公开了一种基于时空注意力机制的大语言模型预测方法及装置,可以用于处理目标实体及部分关联实体的下游预测任务,包括:通过将目标实体及关联实体的初始特征和动态知识图谱输入到空间注意力网络中得到空间拓扑特征;将空间拓扑特征输入到时序注意力网络中得到时空特征;利用目标实体及部分关联实体的时空特征生成隐式提示,并将目标实体的显式的事件文本合并生成提示信息;将提示信息输入给大语言模型,保持大语言模型的参数固定不变,利用下游预测任务的标注信息和损失函数来训练空间注意力网络和时序注意力网络;最后根据训练好的网络来处理目标实体及部分关联实体的下游预测任务。
Description
技术领域
本说明书涉及知识图谱、深度学习领域,尤其涉及一种基于时空注意力机制的大语言模型预测方法及装置。
背景技术
随着大语言模型训练参数量和数据量的增加,大语言模型的上下文学习、逻辑推理等能力逐步涌现,在文本生成、问答***、情感分析、自动摘要等场景的效果显著提升,同时大语言模型展现出的人机对话能力和任务求解能力极大降低了业务人员的使用门槛。
另一方面,由于缺少知识图谱和时间序列等背景信息的辅助,大语言模型只依赖事件文本信息往往不能很好地处理下游预测类型的任务,也很难做到举一反三的联想。
知识图谱往往蕴含着实体间的空间拓扑信息(本说明书中的空间泛指各类结构空间),而时间序列往往蕴含着实体的发展趋势信息。然而并不是每个关联实体或每个时间点对应的实体的特征对下游预测任务都是重要的。
因此亟需设计一种方法来提取不同权重关联实体和不同权重时间点对应的实体的特征,并融合事件文本信息来辅助大语言模型更好地处理下游预测任务,并达到举一反三的效果。
发明内容
本说明书提供了一种基于时空注意力机制的大语言模型预测方法及装置,以部分地解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种基于时空注意力机制的大语言模型预测方法,包括:
确定预设时间段内的动态知识图谱;
将所述预设时间段内的动态知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到预设的空间注意力网络中,得到所述目标实体及关联实体在所述预设时间段内的空间拓扑特征;
将所述目标实体及关联实体在所述预设时间段内的空间拓扑特征输入到预设的时序注意力网络中,得到所述目标实体及关联实体的时空特征;
基于所述时空特征得到隐式提示,并将所述隐式提示与预设的提示模版中的提示文本进行拼接,得到拼接后的提示信息;
将所述拼接后的提示信息输入到预设的大语言模型,得到所述大语言模型的输出结果,以最小化所述输出结果与所述目标实体及至少部分关联实体对应的标注信息之间的差异,至少对所述空间注意力网络以及所述时序注意力网络进行训练,以通过训练后的空间注意力网络、训练后的时序注意力网络以及所述大语言模型,对实体涉及的业务进行预测。
可选地,初始特征通过初始特征对应的实体的各项指标得到,所述各项指标至少包括技术指标、基本面指标。
可选地,所述动态知识图谱用于表示所述预设时间段内各实体之间的若干种业务关系的变化。
可选地,所述预设时间段内的动态知识图谱包含所述预设时间段内每个时间点对应的知识图谱;
将所述预设时间段内的动态知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到预设的空间注意力网络中,得到所述目标实体及关联实体在所述预设时间段内的空间拓扑特征,具体包括:
将所述预设时间段内每个时间点对应的知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到所述空间注意力网络中,得到所述目标实体及关联实体在所述预设时间段内各时间点对应的空间拓扑特征。
可选地,将所述目标实体及关联实体在所述预设时间段内的空间拓扑特征输入到预设的时序注意力网络中,得到所述目标实体及关联实体的时空特征,具体包括:
将所述预设时间段内各时间点对应的所述目标实体及关联实体的空间拓扑特征输入到所述时序注意力网络,以通过所述时序注意力网络确定出每个时间点对应的注意力权重,并对所述预设时间段内各时间点对应的所述目标实体及关联实体的空间拓扑特征分别独立地进行加权融合,得到所述目标实体及关联实体的时空特征。
可选地,基于所述时空特征得到隐式提示,具体包括:
从所述目标实体在所述动态知识图谱中的关联实体中,筛选出目标关联实体;根据所述目标实体的时空特征以及所述目标关联实体的时空特征,得到隐式提示。
可选地,将所述拼接后的提示信息输入到预设的大语言模型,得到所述大语言模型的输出结果,具体包括:
将所述拼接后的提示信息输入到预设的大语言模型,通过所述大语言模型中的文本嵌入层得到所述拼接后的提示信息中提示文本对应的文本向量,并将所述拼接后的提示信息中的隐式提示对应的特征向量与所述文本向量进行拼接,得到拼接后的向量;
根据拼接后的向量,得到所述大语言模型的输出结果。
本说明书提供了一种基于时空注意力机制的大语言模型预测装置,包括:
确定模块,用于确定预设时间段内的动态知识图谱;
空间特征确定模块,用于将所述预设时间段内的动态知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到预设的空间注意力网络中,得到所述目标实体及关联实体在所述预设时间段内的空间拓扑特征;
时空特征确定模块,用于将所述目标实体及关联实体在所述预设时间段内的空间拓扑特征输入到预设的时序注意力网络中,得到所述目标实体及关联实体的时空特征;
提示信息确定模块,用于基于所述时空特征得到隐式提示,并将所述隐式提示与预设的提示模版中的提示文本进行拼接,得到拼接后的提示信息;
训练模块,用于将所述拼接后的提示信息输入到预设的大语言模型,得到所述大语言模型的输出结果,以最小化所述输出结果与所述目标实体及至少部分关联实体对应的标注信息之间的差异,至少对所述空间注意力网络以及所述时序注意力网络进行训练,以通过训练后的空间注意力网络、训练后的时序注意力网络以及所述大语言模型,对实体涉及的业务进行预测。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于时空注意力机制的大语言模型预测方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于时空注意力机制的大语言模型预测方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
从上述一种基于时空注意力机制的大语言模型预测方法中可以看出,确定预设时间段内的动态知识图谱,并将预设时间段内的动态知识图谱、目标实体的初始特征以及目标实体的关联实体的初始特征,输入到预设的空间注意力网络中,得到目标实体及关联实体在预设时间段内的空间拓扑特征。而后,可以将目标实体及关联实体在预设时间段内的空间拓扑特征输入到预设的时序注意力网络中,得到目标实体及关联实体的时空特征。进而,可以基于时空特征得到隐式提示,并将隐式提示与预设的提示模版中的提示文本进行拼接,得到拼接后的提示信息,而后,将拼接后的提示信息输入到预设的大语言模型,得到该大语言模型的输出结果,以最小化输出结果与目标实体及至少部分关联实体对应的标注信息之间的差异,至少对空间注意力网络以及时序注意力网络进行训练,以通过训练后的空间注意力网络、训练后的时序注意力网络以及所述大语言模型,对实体涉及的业务进行预测。
与现有技术相比,本发明具有以下有益效果:
(1)本发明能够基于空间注意力网络提取不同权重关联实体的特征,为大语言模型提供重点的空间拓扑信息,提高下游预测任务的准确性和模型举一反三的能力;
(2)本发明能够基于时序注意力网络提取不同权重时间点对应的实体的特征,
(3)为大语言模型提供重点的发展趋势信息,提高下游预测任务的准确性;
(4)本发明能够通过同时结合时空特征和事件文本信息来处理下游预测任务,补齐大语言模型背景信息不足的短板。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种基于时空注意力机制的大语言模型预测方法的流程示意图;
图2为本说明书中提供的一种确定空间拓扑特征的流程示意图;
图3为本说明书中提供的一种模型结构示意图;
图4为本说明书中提供的一种基于时空注意力机制的大语言模型预测装置示意图;
图5为本说明书中提供的对应于图1的电子设备示意结构图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的一种基于时空注意力机制的大语言模型预测方法的流程示意图,具体包括以下步骤:
S100:确定预设时间段内的动态知识图谱。
S102:将所述预设时间段内的动态知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到预设的空间注意力网络中,得到所述目标实体及关联实体在所述预设时间段内的空间拓扑特征。
S104:将所述目标实体及关联实体在所述预设时间段内的空间拓扑特征输入到预设的时序注意力网络中,得到所述目标实体及关联实体的时空特征。
在本说明书中,需要基于大语言模型结合动态知识图谱,来对实体未来的业务结果进行预测,其中,这里提到的实体可以是指上市公司,业务结果可以存在有多种,例如,该业务结果可以为上市公司的风险发生率、股价走势等。
基于此,可以确定预设时间段内的动态知识图谱,并将该预设时间段内的动态知识图谱、目标实体的初始特征以及目标实体的关联实体的初始特征,输入到预设的空间注意力网络中,得到目标实体及关联实体在预设时间段内的空间拓扑特征。其中,该动态知识图谱可以表示出在上述预设时间段内各实体之间的若干种业务关系的变化。上述提到的关联实体可以是指与目标实体直接连接的实体,即,目标实体的邻居实体。
其中,动态知识图谱中可以包含有预设时间段内多个时间点对应的知识图谱,因此,在确定空间拓扑特征时可以确定出每个时间点对应的空间拓扑特征,如图2所示。
图2为本说明书中提供的一种确定空间拓扑特征的流程示意图。
可以将预设时间段内每个时间点对应的知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到空间注意力网络中,得到所述目标实体及关联实体在预设时间段内各时间点对应的空间拓扑特征。
需要说明的是,目标实体及关联实体的历史业务数据可用于本方法中空间注意力网络和时序注意力网络的训练,从而通过训练后的空间注意力网络、训练后的时序注意力网络以及大语言模型,可以对实体的业务进行预测。
在上述预设时间段内的时间点(时刻)t,实体的初始特征可以表示为D=[x1,...,xi,...,xn]T∈Rn*k,其中n表示实体数量,k表示特征维度。
示例地,实体可以指上市公司,初始特征可以包括上市公司的技术指标、基本面指标等(基本面指标可以包括上市公司的营收、盈利、债务水平、市盈率、市净率等指标;技术指标可以包括上市公司的股价、成交量等指标),知识图谱中的关系可以包括产业链上下游、股权关系、板块关系、持仓关系等。空间注意力网络可以为多关系图注意力网络,可以计算每个实体在每类关系下的关联实体的注意力权重,并利用不同权重关联实体的特征来更新实体的特征以得到实体的空间拓扑特征。
当然,实体中包含目标实体及关联实体。以目标实体为例,在时间点t,目标实体i的初始特征xi通过所有关系集合Relation更新方式如下:
其中,表示目标实体i的初始特征xi在关系r下通过其关联实体集合Nr(i)更新后得到的空间拓扑特征,x′i表示目标实体i在时间点t对应的空间拓扑特征,方式如下:
其中,xj表示在关系r下关联实体j的初始特征,注意力权重计算方式如下:
其中,注意力分数计算方式如下:
其中,和/>分别为查询向量和键向量,/>为关系r下的边权重,Q(r)、K(r)为学习参数。
在确定出目标实体及关联实体在预设时间段内的空间拓扑特征后,可以将该目标实体及关联实体在预设时间段内的空间拓扑特征输入到预设的时序注意力网络中,得到该目标实体及关联实体的时空特征。
其中,可以将预设时间段内各时间点对应的目标实体及关联实体的空间拓扑特征输入到时序注意力网络,以通过时序注意力网络确定出每个时间点对应的注意力权重,并根据每个时间点对应的注意力权重,对预设时间段内各时间点对应的目标实体及关联实体的空间拓扑特征分别独立地进行加权融合,得到目标实体及关联实体的时空特征。
在时间区间[t-L+1,t],各实体的空间拓扑特征序列集合可以表示为S=[S1,...,Si,...,Sn]∈Rn*L*k′,其中,Si∈RL*k′表示实体i的空间拓扑特征时间序列,n表示实体数量,L表示时间跨度,k′表示空间拓扑特征维度。时序注意力网络为自注意力网络,可以计算每个实体在不同时间点对应的注意力权重,并利用不同权重时间点对应的实体的空间拓扑特征来更新当前时间点t对应的实体的空间拓扑特征以得到当前时间点t对应的实体的时空特征。
当然,实体中包含目标实体及关联实体。以目标实体为例,在时间区间[t-L+1,t],目标实体i的在预设时间段内的空间拓扑特征的时间序列Si通过自注意力机制更新方式如下:
Q=SiW(q),
K=SiW(k),
V=SiW(v),
其中,Q、K、V分别为查询矩阵、键矩阵和值矩阵,softmax为按列进行归一化的函数,dk为键矩阵K的列维度用于解决softmax数值过大带来的梯度消失问题,W(q)、W(k)、W(v)为学习参数。
此时,x′i=S′i[L,:]T即为当前时间点t对应的目标实体i的时空特征。
S106:基于所述时空特征得到隐式提示,并将所述隐式提示与预设的提示模版中的提示文本进行拼接,得到拼接后的提示信息。
S108:将所述拼接后的提示信息输入到预设的大语言模型,得到所述大语言模型的输出结果,以最小化所述输出结果与所述目标实体及至少部分关联实体对应的标注信息之间的差异,至少对所述空间注意力网络以及所述时序注意力网络进行训练,以通过训练后的空间注意力网络、训练后的时序注意力网络以及所述大语言模型,对实体涉及的业务进行预测。
在确定出目标实体及关联实体的时空特征后。可以基于该时空特征得到隐式提示,并将隐式提示与预设的提示模版中的提示文本进行拼接,得到拼接后的提示信息,而后,可以将拼接后的提示信息输入到预设的大语言模型,得到大语言模型的输出结果,以最小化输出结果与目标实体及至少部分关联实体对应的标注信息之间的差异,至少对空间注意力网络以及时序注意力网络进行训练,以通过训练后的空间注意力网络、训练后的时序注意力网络以及大语言模型,对实体涉及的业务进行预测。
图3为本说明书中提供的一种模型结构示意图。
上述提到的输出结果可以是指对目标实体及部分关联实体涉及业务的预测结果,在本说明书中不对实体的类型和业务进行限定,例如,实体可以为上市公司,对上市公司的预测可以为预测该上市公司后续是否会出现风险,再例如,该实体可以为服务平台中的用户,对用户的预测可以为预测该用户是否存在风险。
上述提到的隐式提示不仅可以包括目标实体的时空特征,还可以包括目标实体的部分关联实体的时空特征。
为了加强背景信息在业务预测中的作用或效果,在训练时,可以从所述目标实体在动态知识图谱中的关联实体中,筛选出目标关联实体,并根据目标实体的时空特征以及目标关联实体的时空特征,得到隐式提示,从而使得大语言模型通过该隐式提示,得到包含有对目标实体的业务预测结果和对目标关联实体的业务预测结果的输出结果,并以最小化该输出结果与目标实体及目标关联实体对应的标注信息之间的差异,至少对空间注意力网络以及时序注意力网络进行训练(训练时可以固定大语言模型的参数,也可以对大语言模型进行微调)。
即,上述方式在训练时,大语言模型不仅需要对目标实体进行预测,还需要对目标关联实体进行预测,因此,输入到大语言模型中的信息不仅包含了目标实体的时空特征,还包含了目标关联实体的时空特征,再通过目标实体的标注信息(例如,实际是否存在风险的业务结果)和目标关联实体的标注信息,进行有监督的训练,从而提高训练得到的整体模型的预测能力。
也就是说,上述目标关联实体可以是通过一定策略筛选出的与目标实体关系紧密的实体。因此,可以从目标实体在动态知识图谱中的关联实体中,筛选出目标关联实体,在筛选目标关联实体时,可以通过当前时间点对应的目标实体与关联实体之间边权重的大小筛选出top-k个目标关联实体。其中,可以按照边权重进行排序来筛选,或者通过模型结合边权重来筛选出目标关联实体。
其中,可以将拼接后的提示信息输入到预设的大语言模型(该大语言模型可以为现有的已训练好的大语言模型),通过大语言模型中的文本嵌入层得到拼接后的提示信息中提示文本对应的文本向量,并将拼接后的提示信息中的隐式提示对应的特征向量与文本向量进行拼接,得到拼接后的向量,根据拼接后的向量,得到大语言模型的输出结果。
在此对拼接后的提示信息进行举例说明:
“任务:处理目标实体及部分关联实体的下游预测任务[示例地,下游预测任务可以是风险发生率、股价走势等];
背景信息提示:目标实体i的时空特征是[Pi];
关系r[示例地,产业链上下游关系、股权关系等]——
关联实体i1的时空特征是
…
关联实体ik的时空特征是
事件文本提示:目标实体i的事件信息是[示例地,新闻舆情、法律诉讼、公司公告等];
输入问题:请根据上下文信息逐步思考,并处理目标实体及不同关系下的部分关联实体的下游预测任务;
输出提示:请按目标实体以及不同关系下的部分关联实体逐个输出下游任务的预测结果。”
其中,为隐式提示,用于区别提示模版中显式的提示文本。拼接后的提示信息输入到大语言模型中,其中的提示文本会先由大语言模型中的文本嵌入模块嵌入为文本向量后再由大语言模型进行进一步处理,而隐式提示的嵌入向量由目标实体及部分关联实体对应的时空特征替代。
在训练时,可以将拼接后的提示信息输入给大语言模型,保持大语言模型的参数固定不变,利用下游预测任务的标注信息和损失函数来训练空间注意力网络和时序注意力网络;
示例地,大语言模型可以选择chatglm、llama等,损失函数可以选择交叉熵损失函数。
最后可以根据训练好的空间注意力网络、时序注意力网络和大语言模型来处理目标实体及部分关联实体的下游预测任务。
需要说明的是,为了便于描述,将执行本方法的执行主体作为服务器进行描述,本方法的执行主体可以是计算机、大型的服务平台等,在此不进行限定。
另外,需要说明的是,本说明书中所有获取信号、信息或数据的动作都是在遵照所在地相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
以上为本说明书的一个或多个实施例提供的基于时空注意力机制的大语言模型预测方法,基于同样的思路,本说明书还提供了基于时空注意力机制的大语言模型预测装置,如图4所示。
图4为本说明书中提供的一种基于时空注意力机制的大语言模型预测装置示意图,包括:
确定模块401,用于确定预设时间段内的动态知识图谱;
空间特征确定模块402,用于将所述预设时间段内的动态知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到预设的空间注意力网络中,得到所述目标实体及关联实体在所述预设时间段内的空间拓扑特征;
时空特征确定模块403,用于将所述目标实体及关联实体在所述预设时间段内的空间拓扑特征输入到预设的时序注意力网络中,得到所述目标实体及关联实体的时空特征;
提示信息确定模块404,用于基于所述时空特征得到隐式提示,并将所述隐式提示与预设的提示模版中的提示文本进行拼接,得到拼接后的提示信息;
训练模块405,用于将所述拼接后的提示信息输入到预设的大语言模型,得到所述大语言模型的输出结果,以最小化所述输出结果与所述目标实体及至少部分关联实体对应的标注信息之间的差异,至少对所述空间注意力网络以及所述时序注意力网络进行训练,以通过训练后的空间注意力网络、训练后的时序注意力网络以及所述大语言模型,对实体涉及的业务进行预测。
可选地,初始特征通过初始特征对应的实体的各项指标得到,所述各项指标至少包括技术指标、基本面指标。
可选地,所述动态知识图谱用于表示所述预设时间段内各实体之间的若干种业务关系的变化。
可选地,所述预设时间段内的动态知识图谱包含所述预设时间段内每个时间点对应的知识图谱;所述空间特征确定模块402具体用于,将所述预设时间段内每个时间点对应的知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到所述空间注意力网络中,得到所述目标实体及关联实体在所述预设时间段内各时间点对应的空间拓扑特征。
可选地,所述时空特征确定模块403具体用于,将所述预设时间段内各时间点对应的所述目标实体及关联实体的空间拓扑特征输入到所述时序注意力网络,以通过所述时序注意力网络确定出每个时间点对应的注意力权重,并对所述预设时间段内各时间点对应的所述目标实体及关联实体的空间拓扑特征分别独立地进行加权融合,得到所述目标实体及关联实体的时空特征
可选地,所述提示信息确定模块404具体用于,从所述目标实体在所述动态知识图谱中的关联实体中,筛选出目标关联实体;根据所述目标实体的时空特征以及所述目标关联实体的时空特征,得到隐式提示。
可选地,所述训练模块405具体用于,将所述拼接后的提示信息输入到预设的大语言模型,通过所述大语言模型中的文本嵌入层得到所述拼接后的提示信息中提示文本对应的文本向量,并将所述拼接后的提示信息中的隐式提示对应的特征向量与所述文本向量进行拼接,得到拼接后的向量;根据拼接后的向量,得到所述大语言模型的输出结果。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述基于时空注意力机制的大语言模型预测方法。
本说明书还提供了图5所示的电子设备的示意结构图。如图5所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现基于时空注意力机制的大语言模型预测方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、***、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、***或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种基于时空注意力机制的大语言模型预测方法,其特征在于,包括:
确定预设时间段内的动态知识图谱;
将所述预设时间段内的动态知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到预设的空间注意力网络中,得到所述目标实体及关联实体在所述预设时间段内的空间拓扑特征;
将所述目标实体及关联实体在所述预设时间段内的空间拓扑特征输入到预设的时序注意力网络中,得到所述目标实体及关联实体的时空特征;
基于所述时空特征得到隐式提示,并将所述隐式提示与预设的提示模版中的提示文本进行拼接,得到拼接后的提示信息;
将所述拼接后的提示信息输入到预设的大语言模型,得到所述大语言模型的输出结果,以最小化所述输出结果与所述目标实体及至少部分关联实体对应的标注信息之间的差异,至少对所述空间注意力网络以及所述时序注意力网络进行训练,以通过训练后的空间注意力网络、训练后的时序注意力网络以及所述大语言模型,对实体涉及的业务进行预测。
2.如权利要求1所述的方法,其特征在于,初始特征通过初始特征对应的实体的各项指标得到,所述各项指标至少包括技术指标、基本面指标。
3.如权利要求1所述的方法,其特征在于,所述动态知识图谱用于表示所述预设时间段内各实体之间的若干种业务关系的变化。
4.如权利要求1所述的方法,其特征在于,所述预设时间段内的动态知识图谱包含所述预设时间段内每个时间点对应的知识图谱;
将所述预设时间段内的动态知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到预设的空间注意力网络中,得到所述目标实体及关联实体在所述预设时间段内的空间拓扑特征,具体包括:
将所述预设时间段内每个时间点对应的知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到所述空间注意力网络中,得到所述目标实体及关联实体在所述预设时间段内各时间点对应的空间拓扑特征。
5.如权利要求1所述的方法,其特征在于,将所述目标实体及关联实体在所述预设时间段内的空间拓扑特征输入到预设的时序注意力网络中,得到所述目标实体及关联实体的时空特征,具体包括:
将所述预设时间段内各时间点对应的所述目标实体及关联实体的空间拓扑特征输入到所述时序注意力网络,以通过所述时序注意力网络确定出每个时间点对应的注意力权重,并对所述预设时间段内各时间点对应的所述目标实体及关联实体的空间拓扑特征分别独立地进行加权融合,得到所述目标实体及关联实体的时空特征。
6.如权利要求1所述的方法,其特征在于,基于所述时空特征得到隐式提示,具体包括:
从所述目标实体在所述动态知识图谱中的关联实体中,筛选出目标关联实体;
根据所述目标实体的时空特征以及所述目标关联实体的时空特征,得到隐式提示。
7.如权利要求1所述的方法,其特征在于,将所述拼接后的提示信息输入到预设的大语言模型,得到所述大语言模型的输出结果,具体包括:
将所述拼接后的提示信息输入到预设的大语言模型,通过所述大语言模型中的文本嵌入层得到所述拼接后的提示信息中提示文本对应的文本向量,并将所述拼接后的提示信息中的隐式提示对应的特征向量与所述文本向量进行拼接,得到拼接后的向量;
根据拼接后的向量,得到所述大语言模型的输出结果。
8.一种基于时空注意力机制的大语言模型预测装置,其特征在于,包括:
确定模块,用于确定预设时间段内的动态知识图谱;
空间特征确定模块,用于将所述预设时间段内的动态知识图谱、目标实体的初始特征以及所述目标实体的关联实体的初始特征,输入到预设的空间注意力网络中,得到所述目标实体及关联实体在所述预设时间段内的空间拓扑特征;
时空特征确定模块,用于将所述目标实体及关联实体在所述预设时间段内的空间拓扑特征输入到预设的时序注意力网络中,得到所述目标实体及关联实体的时空特征;
提示信息确定模块,用于基于所述时空特征得到隐式提示,并将所述隐式提示与预设的提示模版中的提示文本进行拼接,得到拼接后的提示信息;
训练模块,用于将所述拼接后的提示信息输入到预设的大语言模型,得到所述大语言模型的输出结果,以最小化所述输出结果与所述目标实体及至少部分关联实体对应的标注信息之间的差异,至少对所述空间注意力网络以及所述时序注意力网络进行训练,以通过训练后的空间注意力网络、训练后的时序注意力网络以及所述大语言模型,对实体涉及的业务进行预测。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311675342.9A CN117786061B (zh) | 2023-12-06 | 2023-12-06 | 一种基于时空注意力机制的大语言模型预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311675342.9A CN117786061B (zh) | 2023-12-06 | 2023-12-06 | 一种基于时空注意力机制的大语言模型预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117786061A true CN117786061A (zh) | 2024-03-29 |
CN117786061B CN117786061B (zh) | 2024-06-04 |
Family
ID=90385950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311675342.9A Active CN117786061B (zh) | 2023-12-06 | 2023-12-06 | 一种基于时空注意力机制的大语言模型预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117786061B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502176A (zh) * | 2023-03-28 | 2023-07-28 | 支付宝(杭州)信息技术有限公司 | 一种语言模型的预训练方法、装置、介质及电子设备 |
CN116578877A (zh) * | 2023-07-14 | 2023-08-11 | 之江实验室 | 一种模型训练及二次优化打标的风险识别的方法及装置 |
CN116756574A (zh) * | 2023-08-16 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 多模态预训练模型的训练方法、使用方法、装置和设备 |
CN116821294A (zh) * | 2023-06-20 | 2023-09-29 | 浙江大学 | 一种基于隐式知识反刍的问答推理方法和装置 |
CN116882767A (zh) * | 2023-09-08 | 2023-10-13 | 之江实验室 | 一种基于不完善异构关系网络图的风险预测方法及装置 |
CN117058595A (zh) * | 2023-10-11 | 2023-11-14 | 齐鲁工业大学(山东省科学院) | 视频语义特征和可扩展粒度感知时序动作检测方法及装置 |
-
2023
- 2023-12-06 CN CN202311675342.9A patent/CN117786061B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502176A (zh) * | 2023-03-28 | 2023-07-28 | 支付宝(杭州)信息技术有限公司 | 一种语言模型的预训练方法、装置、介质及电子设备 |
CN116821294A (zh) * | 2023-06-20 | 2023-09-29 | 浙江大学 | 一种基于隐式知识反刍的问答推理方法和装置 |
CN116578877A (zh) * | 2023-07-14 | 2023-08-11 | 之江实验室 | 一种模型训练及二次优化打标的风险识别的方法及装置 |
CN116756574A (zh) * | 2023-08-16 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 多模态预训练模型的训练方法、使用方法、装置和设备 |
CN116882767A (zh) * | 2023-09-08 | 2023-10-13 | 之江实验室 | 一种基于不完善异构关系网络图的风险预测方法及装置 |
CN117058595A (zh) * | 2023-10-11 | 2023-11-14 | 齐鲁工业大学(山东省科学院) | 视频语义特征和可扩展粒度感知时序动作检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117786061B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966186A (zh) | 一种模型训练和信息推荐的方法及装置 | |
CN115238826B (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN115146731A (zh) | 一种模型训练的方法、业务风控的方法及装置 | |
CN114997472A (zh) | 一种模型训练的方法、业务风控的方法及装置 | |
CN115545353B (zh) | 一种业务风控的方法、装置、存储介质及电子设备 | |
CN116308738B (zh) | 一种模型训练的方法、业务风控的方法及装置 | |
CN117786061B (zh) | 一种基于时空注意力机制的大语言模型预测方法及装置 | |
CN116882767A (zh) | 一种基于不完善异构关系网络图的风险预测方法及装置 | |
CN116824331A (zh) | 一种模型训练、图像识别方法、装置、设备及存储介质 | |
CN116822606A (zh) | 一种异常检测模型的训练方法、装置、设备及存储介质 | |
CN116578877A (zh) | 一种模型训练及二次优化打标的风险识别的方法及装置 | |
CN116029556A (zh) | 一种业务风险的评估方法、装置、设备及可读存储介质 | |
CN113343085B (zh) | 一种信息推荐方法、装置、存储介质及电子设备 | |
CN116308620A (zh) | 一种模型训练和信息推荐的方法、装置、存储介质及设备 | |
CN115758141A (zh) | 一种模型训练和业务风控的方法及装置 | |
CN114996570A (zh) | 一种信息推荐的方法及装置 | |
CN114120273A (zh) | 一种模型训练的方法及装置 | |
CN113344590A (zh) | 一种模型训练以及投诉率预估的方法及装置 | |
CN116501852B (zh) | 一种可控对话模型训练方法、装置、存储介质及电子设备 | |
CN116109008B (zh) | 一种业务执行的方法、装置、存储介质及电子设备 | |
CN117494052A (zh) | 一种基于时空静态信息自动化生成的预测方法及装置 | |
CN116340852B (zh) | 一种模型训练、业务风控的方法及装置 | |
CN117876114A (zh) | 一种业务执行和模型训练的方法及装置 | |
CN115130000A (zh) | 一种信息推荐的方法、装置、存储介质及电子设备 | |
CN117454247A (zh) | 一种模型的训练方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |