CN114462673A - 用于预测未来事件的方法、***、计算设备和可读介质 - Google Patents
用于预测未来事件的方法、***、计算设备和可读介质 Download PDFInfo
- Publication number
- CN114462673A CN114462673A CN202111641675.0A CN202111641675A CN114462673A CN 114462673 A CN114462673 A CN 114462673A CN 202111641675 A CN202111641675 A CN 202111641675A CN 114462673 A CN114462673 A CN 114462673A
- Authority
- CN
- China
- Prior art keywords
- vector representation
- trained
- subject
- event
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了用于预测未来事件的方法、***、计算设备和可读介质,方法包括:获取要预测的未来事件的四元组中的三元素,所述三元素包括时间戳、主体要素和类型要素,其中所述四元组中的客体要素是未知的;对所述时间戳进行编码,获取所述时间戳的时间向量表示;使用经训练的预训练语言模型和经训练的图神经网络模型分别得到所述主体要素的主体向量表示和所述类型要素的类型向量表示;以及基于所述时间向量表示、主体向量表示和类型向量表示,得到对所述未来事件的客体要素的预测结果。本发明能够获取实体节点和事件类型的语义表示,增强了语义表达能力,并且能够预测未来可能发生的新事件。
Description
技术领域
本发明涉及人工智能技术领域,更具体地,涉及用于预测未来事件的方法、***、计算设备和可读介质。
背景技术
随着科学技术的发展,互联网上的信息瞬息万变。面对复杂多变的事件发展,舆情分析人员需要在实时事件信息的支撑下快速判断热点事件的后续发展方向,从而对可能造成严重社会影响的事件进行预警,这对分析人员认知舆情热点事件、给出事件发展方向的能力提出了更高的要求。长期以来,预测事件发展方向主要通过专业的舆情分析人员对互联网热点事件信息进行汇总分析并结合自身专业经验完成,通常会花费大量的时间在人工对实时事件信息的梳理分析上。随着自媒体时代的到来,完全依靠人工完成热点事件后续发展分析,无法快速预警可能造成严重社会影响的事件,可能会带来重大损失。
现有的用于预测事件发展方向的机器模型主要有两种:CyGNet模型和CluSTeR模型。
其中,CyGNet模型提出了一种基于时间感知的具有复制-生成机制的事件预测方法,该方法能够从整个意图空间中预测未来事件,能够通过学习重复的历史事件,从历史事件中来选择未来会出现的事件。但是,CyGNet模型未考虑每个实体节点本身所蕴含的语义信息,也未建模不同实体节点之间的关联,未将已经出现的历史事件构成图结构,学习图结构中的语义信息,从而模型的语义表达能力较差。
CluSTeR模型根据决策双***理论,将未来事件预测分解成线索搜索和时序推理两个阶段,先检索相关的历史线索信息,得到候选答案,然后考虑线索的时序信息,从候选答案中挑选出最优结果。但是,CluSTeR模型检索相关历史数据形成候选答案的方式限制了模型的答案域,也就是模型的预测结果只能出现在已知的历史事件中,而不能预测新的事件。此外,CluSTeR模型也没有考虑实体节点和事件边所蕴含的语义信息,从而模型的语义表达能力较差。
因此,需要一种新型的用于预测未来事件的方法、***、计算设备和可读介质,以解决上述问题。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
根据本发明的一方面,提供了一种用于预测未来事件的方法,所述方法包括:获取要预测的未来事件的四元组中的三元素,所述三元素包括时间戳、主体要素和类型要素,其中所述四元组中的客体要素是未知的;对所述时间戳进行编码,获取所述时间戳的时间向量表示;使用经训练的预训练语言模型和经训练的图神经网络模型分别得到所述主体要素的主体向量表示和所述类型要素的类型向量表示;以及基于所述时间向量表示、主体向量表示和类型向量表示,得到对所述未来事件的客体要素的预测结果。
在一个实施例中,其中对所述时间戳进行编码,包括:对所述时间戳中的年、月、日分别进行编码,得到所述年、月、日各自的向量表示;以及对所述年、月、日各自的向量表示进行融合,得到所述时间戳的时间向量表示。
在一个实施例中,其中使用经训练的预训练语言模型和经训练的图神经网络模型得到所述主体要素的主体向量表示,包括:使用经训练的预训练语言模型得到所述主体要素的文本语义向量;使用经训练的图神经网络模型得到所述主体要素的图结构语义向量;以及将所述主体要素的文本语义向量和图结构语义向量进行融合,得到所述主体要素的主体向量表示。
在一个实施例中,其中使用经训练的预训练语言模型和经训练的图神经网络模型得到所述类型要素的类型向量表示,包括:使用经训练的预训练语言模型得到所述类型要素的文本语义向量;使用经训练的图神经网络模型得到所述类型要素的图结构语义向量;以及将所述类型要素的文本语义向量和图结构语义向量进行融合,得到所述类型要素的类型向量表示。
在一个实施例中,其中基于所述时间向量表示、主体向量表示和类型向量表示,得到对所述未来事件的客体要素的预测结果,包括:基于注意力机制对所述时间向量表示、主体向量表示和类型向量表示进行融合,得到所述未来事件的事件向量表示;以及基于所述事件向量表示得到对所述未来事件的客体要素的预测结果。
在一个实施例中,所述方法还包括:采用包含外部知识的训练数据对预训练模型进行训练,得到所述经训练的预训练语言模型。
在一个实施例中,所述包含外部知识的训练数据通过以下步骤获得:采用实体链接算法获取存储的历史事件的四元组的主体要素在领域知识图谱中的相应的实体节点;利用所述实体节点与所述实体节点的相关知识组成知识三元组,作为所述外部知识;基于所述知识三元组和与所述历史事件的三元组从语料库中检索相关文本,其中所述历史事件的三元组由所述历史事件的四元组去掉时间戳而得到;以及对所述相关文本进行处理,得到所述包含外部知识的训练数据。
在一个实施例中,其中所述实体节点的相关知识包括所述实体节点的一跳之内的知识。
在一个实施例中,其中对所述相关文本进行处理,包括:将所述相关文本中包含的与所述知识三元组和所述历史事件的三元组相对应的主体要素和客体要素中的至少一个作为训练数据的标签。
在一个实施例中,其中对预训练模型进行训练包括:将所述预训练模型训练为预测两个句子是否来自同一段落。
在一个实施例中,所述方法还包括:采用实体链接算法获取存储的历史事件的四元组的主体要素在领域知识图谱中的相应的实体节点;利用所述实体节点与所述实体节点的相关知识组成知识三元组;将所述历史事件的四元组去掉时间戳,得到所述历史事件的历史事件图谱;将所述知识三元组与所述历史事件图谱相结合,得到经更新的历史事件图谱;以及利用所述经更新的历史事件图谱作为训练数据对图神经网络模型进行训练,得到所述经训练的图神经网络模型。
根据本发明的另一方面,提供了一种用于预测未来事件的***,所述***包括:处理器,用于使用一个或更多个神经网络:获取要预测的未来事件的四元组中的三元素,所述三元素包括时间戳、主体要素和类型要素,其中所述四元组中的客体要素是未知的;对所述时间戳进行编码,获取所述时间戳的时间向量表示;使用经训练的预训练语言模型和经训练的图神经网络模型分别得到所述主体要素的主体向量表示和所述类型要素的类型向量表示;基于所述时间向量表示、主体向量表示和类型向量表示,得到对所述未来事件的客体要素的预测结果,存储器,用于存储所述一个或更多个神经网络的网络参数。
根据本发明的又一实施例,提供了一种计算设备,所述计算设备包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如上所述的方法。
根据本发明的再一实施例,提供了一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序在被运行时,执行如上所述的方法。
根据本发明实施例的用于预测未来事件的方法、***、计算设备和可读介质,能够获取实体节点和事件类型的语义表示,增强了语义表达能力,并且能够预测未来可能发生的新事件。
附图说明
本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述,用来解释本发明的原理。
附图中:
图1为根据本发明的一个实施例的实现根据本发明实施例的用于预测未来事件的方法、***、计算设备和计算机可读介质的电子设备的示意性结构框图。
图2为根据本发明的一个实施例的用于预测未来事件的方法的示例性步骤流程图。
图3示出了根据本发明的一个实施例的示例性知识图谱的示意图。
图4示出了根据本发明的一个实施例的示例性历史事件图谱的示意图。
图5示出了根据本发明的一个实施例的示例性经更新的历史事件图谱的示意图。
图6示出了根据本发明的一个实施例的用于预测未来事件的***的示意性结构框图。
图7示出了根据本发明的一个实施例的计算设备的示意性结构框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
如上所述,现有的用于预测事件发展方向的模型均未考虑实体节点和事件边所蕴含的语义信息,从而模型的语义表达能力较差。
因此,为了提高模型的语义表达能力,并且使得模型能够预测新的事件,本发明提供了一种用于预测未来事件的方法,该方法包括:获取要预测的未来事件的四元组中的三元素,所述三元素包括时间戳、主体要素和类型要素,其中所述四元组中的客体要素是未知的;对所述时间戳进行编码,获取所述时间戳的时间向量表示;使用经训练的预训练语言模型和经训练的图神经网络模型分别得到所述主体要素的主体向量表示和所述类型要素的类型向量表示;以及基于所述时间向量表示、主体向量表示和类型向量表示,得到对所述未来事件的客体要素的预测结果。
根据本发明的用于预测未来事件的方法,能够获取实体节点和事件类型的语义表示,增强了语义表达能力,并且能够预测未来可能发生的新事件。
下面结合具体实施例详细描述根据本发明的用于预测未来事件的方法、***、计算设备和计算机可读介质。
首先,参照图1来描述用于实现根据本发明实施例的用于预测未来事件的方法、***、计算设备和计算机可读介质的电子设备100。
在一个实施例中,电子设备100可以是例如笔记本电脑、台式计算机、平板电脑、学习机、移动设备(诸如,智能手机、电话手表等)、嵌入式计算机、塔式服务器、机架服务器、刀片服务器或任何其他合适的电子设备。
在一个实施例中,电子设备100可以包括至少一个处理器102和至少一个存储器104。
其中,存储器104可以是易失性存储器,诸如随机存取存储器(RAM)、高速缓存存储器(cache)、动态随机存取存储器(DRAM)(包括堆叠的DRAM)或高带宽存储器(HBM)等,也可以是非易失性存储器,诸如只读存储器(ROM)、闪存、3D Xpoint等。在一个实施例中,存储器104的某些部分可以是易失性存储器,而另一部分可以是非易失性存储器(例如,使用两级存储器层次结构)。存储器104用于存储计算机程序,该计算机程序在被运行时,能够实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。
处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)、微处理器或具有数据处理能力和/或指令执行能力的其他处理单元。处理器102可经由通信总线通信地耦合到任何合适数量或种类的组件、***设备、模块或设备。在一个实施例中,通信总线可以使用任何合适的协议来实现,诸如***组件互连(PCI)、快速***组件互连(PCIe)、加速图形端口(AGP)、超传输或任何其他总线或一个或更多个点对点通信协议。
电子设备100还可以包括输入装置106和输出装置108。其中,输入装置106是用于接收用户输入的装置,其可以包括键盘、鼠标、触摸板、麦克风等。此外,输入装置106也可以是任何接收信息的接口。输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),其可以包括显示器、扬声器等中的一个或更多个。此外,输出装置108也可以是任何其他具备输出功能的设备,例如打印机等。
下面参考图2描述根据本发明的一个实施例的用于预测未来事件的方法200的示例性步骤流程图。如图2所示,用于预测未来事件的方法200可以包括如下步骤:
在步骤S210中,获取要预测的未来事件的四元组中的三元素,所述三元素包括时间戳、主体要素和类型要素,其中四元组中的客体要素是未知的。
在步骤S220中,对时间戳进行编码,获取该时间戳的时间向量表示。
在步骤S230中,使用经训练的预训练语言模型和经训练的图神经网络模型分别得到主体要素的主体向量表示和类型要素的类型向量表示。
在步骤S240中,基于该时间向量表示、主体向量表示和类型向量表示,得到对未来事件的客体要素的预测结果。
在一个实施例中,四元组中的时间戳可以用年、月、日的形式表示,例如2020-10-15、2019年7月12日等。因此,四元组的示例可以为例如(2019-07-12,詹姆斯,致电,安东尼·戴维斯)、(2019-07-15,詹姆斯,队友,安东尼·戴维斯)、(2020-09-27,詹姆斯,获得,NBA西部冠军)、(2020-10-12,詹姆斯,获得,NBA总冠军)、(2020-10-15,詹姆斯,返回,洛杉矶)等。以(2020-10-12,詹姆斯,获得,NBA总冠军),其中“2020-10-12”为四元组的时间戳,“詹姆斯”为四元组的主体要素(也称为主体实体),“获得”为四元组的类型要素,“NBA总冠军”为四元组的客体要素(也称为客体实体)。由于本发明旨在预测未来事件,因此客体要素是未知的、要预测的对象,则此时四元组可以表示为(2020-10-12,詹姆斯,获得,?)。其中,主体实体与客体实体统称为实体。
在一个实施例中,对时间戳进行编码可以包括:对时间戳中的年、月、日分别进行编码,得到年、月、日各自的向量表示;以及对该年、月、日各自的向量表示进行融合,得到时间戳的时间向量表示。其中,年、月、日各自的向量表示可以分别表达为年时间向量、月时间向量、日时间向量。
在一个实施例中,可以采用本领域公知的任何合适的神经网络模型对时间戳进行编码,例如One-Hot(独热)编码模型、Word2Vec模型、FastText模型、BERT模型等,本发明对此不作限定。
由于年份随着时间是一致变化的,而月和日则可以固定为12个和31个,所以本发明以业务***中存储的最早年份为基准年份,使用向量自动生成公式初始化年时间向量,而月时间向量和日时间向量采用随机初始化的方式生成12个月时间向量和31个日时间向量,并在模型训练的过程中更新。使用向量自动生成公式初始化年时间向量的过程可以表达如下:
其中,year为四元组中时间戳的年份相对于基准年份的差值,dm为可设置的时间向量维度的超参数,时间向量中的奇数位置的向量值使用cos函数计算,偶数位置的向量值采用sin函数计算。
在一个实施例中,对该年、月、日各自的向量表示进行融合可以包括:对年时间向量、月时间向量、日时间向量求取加权平均值,作为四元组中时间戳的时间向量表示。在一个实施例中,年时间向量、月时间向量、日时间向量的权重可以根据需要合理设置,例如分别为0.1、0.3、0.6,本发明对此不作限定。在一个实施例中,对该年、月、日各自的向量表示进行融合还可以包括:对年时间向量、月时间向量、日时间向量进行拼接、相加、相减等。
在一个实施例中,使用经训练的预训练语言模型和经训练的图神经网络模型得到主体要素的主体向量表示,可以包括:使用经训练的预训练语言模型得到主体要素的文本语义向量;使用经训练的图神经网络模型得到主体要素的图结构语义向量;以及将主体要素的文本语义向量和图结构语义向量进行融合,得到主体要素的主体向量表示。
在一个实施例中,将主体要素的文本语义向量和图结构语义向量进行融合可以包括:将主体要素的文本语义向量和图结构语义向量进行拼接、相加、相减等。
在一个实施例中,使用经训练的预训练语言模型和经训练的图神经网络模型得到所述类型要素的类型向量表示,可以包括:使用经训练的预训练语言模型得到类型要素的文本语义向量;使用经训练的图神经网络模型得到类型要素的图结构语义向量;以及将该类型要素的文本语义向量和图结构语义向量进行融合,得到该类型要素的类型向量表示。
在一个实施例中,预训练语言模型可以为BERT(基于转换器的双向编码器表示)模型,还可以为XLNet模型、ROBERTa模型、ELECTRA模型等,本发明对此不作限定。
在一个实施例中,图神经网络模型可以为CompGCN模型,还可以为GCN(图卷积网络)模型、GGNN(门控图神经网络)模型等,本发明对此不作限定。
在一个实施例中,将该类型要素的文本语义向量和图结构语义向量进行融合可以包括:将该类型要素的文本语义向量和图结构语义向量进行拼接、相加、相减等。
在一个实施例中,对预训练语言模型进行训练可以包括:采用包含外部知识的训练数据对预训练模型进行训练,以得到经训练的预训练语言模型。该经训练的预训练语言模型采用包含外部知识的训练数据进行训练,融入了更多的实体的语义信息,能够显著提高模型对事件类型与实体的语义表达能力,从而使得模型的预测更加准确。
业务***存储历史事件时,通常会采用带有时间戳的图谱形式。每个历史事件都是四元组的形式,这也表明存储的事件信息非常简略,仅存储事件最核心的要素信息,对事件中涉及的实体的相关信息并未提及。然而,这种图谱并未考虑每个实体本身所蕴含的语义信息,而实际上两个独立的实体背后可能会存在一定的联系。例如,当实体节点为“勒布朗”和“戴维斯”时,这是两个独立的实体,但这两个实体都为NBA球员;对于事件类型同样也有这样的情况,例如,“访问”和“拜访”是两个不同的事件类型,但这两个事件类型的语义高度相似。因此,如果仅单纯地对实体节点和事件边进行向量表示,这些隐含的语义会被忽略。因此在建立未来事实预测模型时,若能知道这些隐含信息,则能更好地帮助模型进行预测。
历史事件中出现的实体,与其相关的隐含信息通常存储在知识图谱上,因此可以通过知识图谱找到与历史事件中出现的实体相关的隐含信息,在本文中也称为外部知识。参见图3,图3示出了根据本发明的一个实施例的示例性知识图谱的示意图。
在一个实施例中,包含外部知识的训练数据通过以下步骤获得:采用实体链接算法获取存储的历史事件的四元组的主体要素在领域知识图谱中的相应的实体节点;利用实体节点与实体节点的相关知识组成知识三元组,作为外部知识;基于知识三元组和与历史事件的三元组从语料库中检索相关文本,其中历史事件的三元组由历史事件的四元组去掉时间戳而得到;以及对相关文本进行处理,得到该包含外部知识的训练数据。
具体地,在获取历史事件中每个实体的隐含知识时,先找到该实体在领域知识图谱中对应的实体节点,获取以该实体节点的相关知识,然后将实体节点与实体节点的相关知识组成知识三元组,作为外部知识。在一个实施例中,实体节点的相关知识包括该实体节点的一跳之内的知识。例如,图3中的实体节点“勒布朗·雷蒙·詹姆斯”(本文中简写为“詹姆斯”)与其一跳之内的知识组成的三元组可以包括:(詹姆斯,合作,安东尼·戴维斯)、(詹姆斯,类型,篮球运动员)、(詹姆斯,隶属单位,湖人队)、(詹姆斯,毕业院校,圣文森特·圣玛丽高中)。
但实体的表达形式多种多样,例如,对于实体“詹姆斯”,可以存在别名“勒布朗·詹姆斯”、“LeBron James”、“小皇帝”等。因此需要使用实体链接算法准确获取历史事件中的实体在领域知识图谱中的对应实体节点。
在一个实施例中,可以采用实体名称字面特征的实体链接算法来获取历史事件中每个实体在领域知识图谱中对应的实体节点,以确保实体链接算法的运算效率。实体链接算法的字面特征分为三部分,第一部分按照字级别的共现,计算历史事件中的实体和领域知识图谱中实体节点的字共现,并除以历史事件中实体的长度进行归一化,计算字相似得分。第二部分计算历史事件中的实体和领域知识图谱中实体节点的词共现,并除以历史事件中实体分词的个数进行归一化,计算词相似得分。其中,共现词的权重可以通过逆向文档频率(IDF)赋值,从而可降低高频词的分数。第三部分计算历史事件中的实体和领域知识图谱中实体节点的tri-gram顺序特征片段共现,并除以实体tri-gram的个数进行归一化,计算顺序相似度得分。为防止历史事件中的实体长度小于3而导致分母为0,本发明设置分母最小为1。在得到以上三种得分后,可对三种得分进行加权平均,得到历史事件中的实体和领域知识图谱中所有实体节点的实体链接得分,根据得分进行排序,将得分最高的实体节点作为与历史事件中的实体相对应的实体节点,从而获得最终的实体链接结果。
为了在对预训练模型进行训练时引入领域知识图谱中的结构化知识,在一个实施例中,可以基于作为外部知识的上述知识三元组,结合历史事件的四元组去掉时间戳后得到的三元组,采用远程监督的方式,在海量的语料库中搜索包含这些结构化知识的相关文本(例如,句子或段落等),然后对该相关文本进行处理,从而得到包含外部知识的训练数据。
在一个实施例中,对该相关文本进行处理可以包括:对该相关文本进行清洗、预处理、分段、分句、分词等。在一个实施例中,对该相关文本进行处理还可以包括:将该相关文本处理为预训练模型所需的输入格式,例如,[CLS]姚明与[MASK][MASK]要结婚了[SEP]他们很幸福[SEP]。
在一个实施例中,对该相关文本进行处理包括:将该相关文本中包含的与知识三元组和历史事件的三元组相对应的主体要素和客体要素中的至少一个掩蔽掉,作为训练数据的标签。
在一个实施例中,对预训练模型进行训练包括:将预训练模型训练为预测两个句子是否来自同一段落。
本发明在预训练模型方面做了如下改进:
1)由于Next Sentence Prediction(下一个句子预测)任务过于简单,因此去掉原始预训练模型时使用的Next Sentence Prediction任务,改为预测输入到预训练模型中的两个句子是否是从同一段落中获取的任务;
2)常规预训练模型的预训练采用的是字级别MASK(掩蔽)策略,让模型将MASK掉的字预测出来,此种方式对于预训练中文BERT模型并不友好,因为中文有实际意义的绝大多数是一个词,因此本发明采用词级别进行MASK,让模型将MASK掉的具有实际语义的词预测出来,从而使得模型融入更多语义知识;
3)在预训练模型进行词级别的MASK时,由于训练模型的训练数据是基于结构化知识通过远程监督方式获得的,因此训练数据中会包含结构化知识中的实体,在进行词语MASK时,确保了结构化知识中出现的实体会被MASK掉至少一个,因此模型学习了结构化知识中的语义;
4)在预训练模型进行多轮预训练任务后,使用预训练之后的模型BERT在实体识别、事件类型识别等下游任务上继续进行微调训练,让模型预测哪些词是结构化知识中的实体,哪些词之间有关系,通过微调训练,使预训练模型融入更多的结构化知识中的信息。
在一个实施例中,对图神经网络模型进行训练可以包括:将历史事件的四元组去掉时间戳,得到历史事件的三元组,用该历史事件的三元组构成历史事件图谱;将上述作为外部知识的知识三元组与该历史事件图谱相结合,得到经更新的历史事件图谱;以及利用经更新的历史事件图谱作为训练数据对图神经网络模型进行训练,得到经训练的图神经网络模型。参考图4和图5,图4示出了根据本发明的一个实施例的示例性历史事件图谱的示意图,图5示出了根据本发明的一个实施例的示例性经更新的历史事件图谱的示意图。
在得到经更新的历史事件图谱之后,使用图神经网络模型(例如,compGCN)在该经更新的历史事件图谱上进行训练,获取该经更新的历史事件图谱的各个节点的图结构语义表示。其中,图神经网络模型在本领域中是公知的,在此不再赘述。由图神经网络模型输出的图结构语义的示例如下:
詹姆斯=[0.992734,-0.476647,……,0.217249]
致电=[-0.135216,0.156160,……,0.001139]
安东尼·戴维斯=[0.088582,0.240145,……,-0.006931]
由于图神经网络模型是根据图谱的节点及边所构成的图结构进行语义表示训练,因此如果两个不同节点经常指向相同的其他节点,例如,节点“詹姆斯”和节点“安东尼·戴维斯”都指向节点“湖人队”,则模型训练出的这两个节点的语义表示会具有语义相似性,这也从图谱结构的角度增加了节点“詹姆斯”和节点“安东尼·戴维斯”间的内在联系。
在一个实施例中,基于时间向量表示、主体向量表示和类型向量表示,得到对未来事件的客体要素的预测结果,可以包括:基于注意力机制对时间向量表示、主体向量表示和类型向量表示进行融合,得到未来事件的事件向量表示;以及基于事件向量表示得到对未来事件的客体要素的预测结果。
在一个实施例中,基于注意力机制对时间向量表示、主体向量表示和类型向量表示进行融合,可以包括:对时间向量表示、主体向量表示和类型向量进行注意力加权并求和,以得到未来事件的事件向量表示。
在一个实施例中,基于事件向量表示得到对未来事件的客体要素的预测结果,可以包括:将该事件向量表示输入全连接层神经网络和分类层(例如,softmax层),得到对未来事件的客体要素的预测概率,并且将预测概率最大的结果作为对所述未来事件的客体要素的预测结果。
在另一实施例中,本发明提供了一种用于预测未来事件的***。参考图6,图6示出了根据本发明的一个实施例的用于预测未来事件的***600的示意性结构框图。如图6所示,用于预测未来事件的***600可以包括处理器610和存储器620。其中,处理器610用于使用一个或更多个神经网络来实现以下步骤:获取要预测的未来事件的四元组中的三元素,所述三元素包括时间戳、主体要素和类型要素,其中四元组中的客体要素是未知的;对所述时间戳进行编码,获取所述时间戳的时间向量表示;使用经训练的预训练语言模型和经训练的图神经网络模型分别得到所述主体要素的主体向量表示和所述类型要素的类型向量表示;基于所述时间向量表示、主体向量表示和类型向量表示,得到对所述未来事件的客体要素的预测结果。
示例性地,处理器610可以为本领域公知的任何处理设备,例如,中央处理单元(CPU)、图形处理单元(GPU)、微处理器、微控制器、现场可编程门阵列(FPGA)等,本发明对此不作限定。
其中,存储器620用于存储一个或更多个神经网络的网络参数。示例性地,存储器620可以为RAM、ROM、EEPROM、闪存或者其他存储技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备,或者可以用来存储期望的信息且可以由处理器610访问的任何其他介质。
根据本发明实施例的用于预测未来事件的***600可以执行前文所述的根据本发明的实施例的用于预测未来事件的方法200。本领域技术人员可以结合前文所述的内容理解根据本发明实施例的用于预测未来事件的***600的具体实现方法,为了简洁,此处不再赘述具体的细节。
在又一实施例中,本发明提供了一种计算设备。参考图7,图7示出了根据本发明的一个实施例的计算设备700的示意性结构框图。如图7所示,计算设备700可以包括存储器710和处理器720,其中存储器710上存储有计算机程序,该计算机程序在被该处理器720运行时,使得处理器720执行如上所述的用于预测未来事件的方法200。
本领域技术人员可以结合前文所述的内容理解根据本发明实施例的计算设备700的具体操作,为了简洁,此处不再赘述具体的细节,仅描述处理器720的一些主要操作如下:
获取要预测的未来事件的四元组中的三元素,所述三元素包括时间戳、主体要素和类型要素,其中所述四元组中的客体要素是未知的;
对所述时间戳进行编码,获取所述时间戳的时间向量表示;
使用经训练的预训练语言模型和经训练的图神经网络模型分别得到所述主体要素的主体向量表示和所述类型要素的类型向量表示;以及
基于所述时间向量表示、主体向量表示和类型向量表示,得到对所述未来事件的客体要素的预测结果。
根据本发明实施例的计算设备700可以执行前文所述的根据本发明的实施例的用于预测未来事件的方法200。本领域技术人员可以结合前文所述的内容理解根据本发明实施例的计算设备700的具体实现方法,为了简洁,此处不再赘述具体的细节。
在又一实施例中,本发明提供了一种计算机可读介质,该计算机可读介质上存储有计算机程序,所述计算机程序在运行时执行如上述实施例所述的用于预测未来事件的方法200。任何有形的、非暂时性的计算机可读介质皆可被使用,包括磁存储设备(硬盘、软盘等)、光存储设备(CD-ROM、DVD、蓝光光盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器,使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行,这样存储在计算机可读存储器中的指令就可以形成一件制造品,包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上,从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程,使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。
本发明的有益效果如下:
(1)本发明获取实体节点和事件类型的语义表示,增强了语义表达能力,并且能够预测未来可能发生的新事件。
(2)本发明利用实体链接算法,向历史事件图谱中引入外部知识,并通过图神经网络模型建模更新后的图谱结构,获得带有语义信息的各个节点的图结构语义向量,还通过远程监督和模型预训练的方式将结构化的图谱知识融入到预训练模型中,提升了模型对领域数据的表示能力。
(2)本发明提出了对年、月、日分别获取语义向量表示,然后进行加权的策略,对时间戳的表达更加准确。
(4)本发明采用结合时间向量、文本语义向量和图结构语义向量的未来事实预测方法,形成了一整套数据处理和建模的方案,实现了辅助决策。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。
Claims (14)
1.一种用于预测未来事件的方法,其特征在于,所述方法包括:
获取要预测的未来事件的四元组中的三元素,所述三元素包括时间戳、主体要素和类型要素,其中所述四元组中的客体要素是未知的;
对所述时间戳进行编码,获取所述时间戳的时间向量表示;
使用经训练的预训练语言模型和经训练的图神经网络模型分别得到所述主体要素的主体向量表示和所述类型要素的类型向量表示;以及
基于所述时间向量表示、主体向量表示和类型向量表示,得到对所述未来事件的客体要素的预测结果。
2.如权利要求1所述的方法,其特征在于,其中对所述时间戳进行编码,包括:
对所述时间戳中的年、月、日分别进行编码,得到所述年、月、日各自的向量表示;以及
对所述年、月、日各自的向量表示进行融合,得到所述时间戳的时间向量表示。
3.如权利要求1所述的方法,其特征在于,其中使用经训练的预训练语言模型和经训练的图神经网络模型得到所述主体要素的主体向量表示,包括:
使用经训练的预训练语言模型得到所述主体要素的文本语义向量;
使用经训练的图神经网络模型得到所述主体要素的图结构语义向量;以及
将所述主体要素的文本语义向量和图结构语义向量进行融合,得到所述主体要素的主体向量表示。
4.如权利要求1所述的方法,其特征在于,其中使用经训练的预训练语言模型和经训练的图神经网络模型得到所述类型要素的类型向量表示,包括:
使用经训练的预训练语言模型得到所述类型要素的文本语义向量;
使用经训练的图神经网络模型得到所述类型要素的图结构语义向量;以及
将所述类型要素的文本语义向量和图结构语义向量进行融合,得到所述类型要素的类型向量表示。
5.如权利要求1所述的方法,其特征在于,其中基于所述时间向量表示、主体向量表示和类型向量表示,得到对所述未来事件的客体要素的预测结果,包括:
基于注意力机制对所述时间向量表示、主体向量表示和类型向量表示进行融合,得到所述未来事件的事件向量表示;以及
基于所述事件向量表示得到对所述未来事件的客体要素的预测结果。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:采用包含外部知识的训练数据对预训练模型进行训练,得到所述经训练的预训练语言模型。
7.如权利要求6所述的方法,其特征在于,所述包含外部知识的训练数据通过以下步骤获得:
采用实体链接算法获取存储的历史事件的四元组的主体要素在领域知识图谱中的相应的实体节点;
利用所述实体节点与所述实体节点的相关知识组成知识三元组,作为所述外部知识;
基于所述知识三元组和与所述历史事件的三元组从语料库中检索相关文本,其中所述历史事件的三元组由所述历史事件的四元组去掉时间戳而得到;以及
对所述相关文本进行处理,得到所述包含外部知识的训练数据。
8.如权利要求7所述的方法,其特征在于,其中所述实体节点的相关知识包括所述实体节点的一跳之内的知识。
9.如权利要求7所述的方法,其特征在于,其中对所述相关文本进行处理,包括:
将所述相关文本中包含的与所述知识三元组和所述历史事件的三元组相对应的主体要素和客体要素中的至少一个作为训练数据的标签。
10.如权利要求6所述的方法,其特征在于,其中对预训练模型进行训练包括:将所述预训练模型训练为预测两个句子是否来自同一段落。
11.如权利要求1所述的方法,其特征在于,所述方法还包括:
采用实体链接算法获取存储的历史事件的四元组的主体要素在领域知识图谱中的相应的实体节点;
利用所述实体节点与所述实体节点的相关知识组成知识三元组;
将所述历史事件的四元组去掉时间戳,得到所述历史事件的历史事件图谱;
将所述知识三元组与所述历史事件图谱相结合,得到经更新的历史事件图谱;以及
利用所述经更新的历史事件图谱作为训练数据对图神经网络模型进行训练,得到所述经训练的图神经网络模型。
12.一种用于预测未来事件的***,其特征在于,所述***包括:
处理器,用于使用一个或更多个神经网络:
获取要预测的未来事件的四元组中的三元素,所述三元素包括时间戳、主体要素和类型要素,其中所述四元组中的客体要素是未知的;
对所述时间戳进行编码,获取所述时间戳的时间向量表示;
使用经训练的预训练语言模型和经训练的图神经网络模型分别得到所述主体要素的主体向量表示和所述类型要素的类型向量表示;
基于所述时间向量表示、主体向量表示和类型向量表示,得到对所述未来事件的客体要素的预测结果,
存储器,用于存储所述一个或更多个神经网络的网络参数。
13.一种计算设备,其特征在于,所述计算设备包括存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如权利要求1-11中任一项所述的方法。
14.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机程序,所述计算机程序在被运行时,执行如权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111641675.0A CN114462673A (zh) | 2021-12-29 | 2021-12-29 | 用于预测未来事件的方法、***、计算设备和可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111641675.0A CN114462673A (zh) | 2021-12-29 | 2021-12-29 | 用于预测未来事件的方法、***、计算设备和可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114462673A true CN114462673A (zh) | 2022-05-10 |
Family
ID=81407561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111641675.0A Pending CN114462673A (zh) | 2021-12-29 | 2021-12-29 | 用于预测未来事件的方法、***、计算设备和可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462673A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658926A (zh) * | 2022-11-21 | 2023-01-31 | 中国科学院自动化研究所 | 知识图谱的要素推测方法、装置、电子设备和存储介质 |
-
2021
- 2021-12-29 CN CN202111641675.0A patent/CN114462673A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115658926A (zh) * | 2022-11-21 | 2023-01-31 | 中国科学院自动化研究所 | 知识图谱的要素推测方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11301637B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
US11544474B2 (en) | Generation of text from structured data | |
CN109815336B (zh) | 一种文本聚合方法及*** | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN111353303B (zh) | 词向量构建方法、装置、电子设备及存储介质 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN114817553A (zh) | 知识图谱构建方法、知识图谱构建***和计算设备 | |
CN116601626A (zh) | 个人知识图谱构建方法、装置及相关设备 | |
CN111400584A (zh) | 联想词的推荐方法、装置、计算机设备和存储介质 | |
CN113791757A (zh) | 软件需求和代码映射方法及*** | |
JP2023536773A (ja) | テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN116151235A (zh) | 文章生成方法、文章生成模型训练方法及相关设备 | |
CN114462673A (zh) | 用于预测未来事件的方法、***、计算设备和可读介质 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、***及装置 | |
CN116932730B (zh) | 基于多叉树和大规模语言模型的文档问答方法及相关设备 | |
CN108846142A (zh) | 一种文本聚类方法、装置、设备及可读存储介质 | |
CN116028613B (zh) | 常识问答方法、***、计算机设备和存储介质 | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
CN116756281A (zh) | 知识问答方法、装置、设备和介质 | |
CN114065741B (zh) | 用于验证表述的真实性的方法、设备、装置和介质 | |
CN115357712A (zh) | 方面级情感分析方法、装置、电子设备及存储介质 | |
WO2022271369A1 (en) | Training of an object linking model | |
CN114036956A (zh) | 一种旅游知识语义分析方法及装置 | |
CN111428475A (zh) | 分词词库的构建方法、分词方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |