CN113987280A - 针对动态图训练图模型的方法及装置 - Google Patents

针对动态图训练图模型的方法及装置 Download PDF

Info

Publication number
CN113987280A
CN113987280A CN202111256452.2A CN202111256452A CN113987280A CN 113987280 A CN113987280 A CN 113987280A CN 202111256452 A CN202111256452 A CN 202111256452A CN 113987280 A CN113987280 A CN 113987280A
Authority
CN
China
Prior art keywords
expression vector
graph
time
model
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111256452.2A
Other languages
English (en)
Other versions
CN113987280B (zh
Inventor
吴若凡
田胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111256452.2A priority Critical patent/CN113987280B/zh
Publication of CN113987280A publication Critical patent/CN113987280A/zh
Application granted granted Critical
Publication of CN113987280B publication Critical patent/CN113987280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种针对动态图训练图模型的方法及装置,首先获取第一实体对应第一时间点的第一表达向量和第二时间点的第二表达向量,然后通过第一时间表征模型确定第一时间差对应的第一时间表征向量,接着,基于第一时间表征向量确定第一表达向量和第二表达向量之间的f‑信息,进一步以f‑信息最大化为目标确定模型损失,并向着模型损失减小的方向调整图模型及第一时间表征模型中的各个待定参数。这种方式可以提高模型的灵活性和有效性。

Description

针对动态图训练图模型的方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及针对动态图训练图模型的方法及装置。
背景技术
图数据是一种描述各种实体之间关联关系的数据形式。图数据通常可以包括多个节点,各个节点分别对应各个业务实体。在业务实体具有预先定义关联属性的情况下,图数据的相应节点之间可以基于关联属性具有相应的关联关系。例如若干三元组表示的图数据中,三元组(a,r,b)表示节点a和节点b之间具有关联关系r。在形象化的图数据中,节点a和节点b通过点表示,节点a和节点b之间对应的关联关系r可以通过连接边表示。图数据通常可以通过图网络进行处理。
随着计算机技术的发展,图数据的应用越来越广泛。图表示学习(GraphRepresentation Learning)也取得了重要的突破。在实际场景中,图数据还可以描述随时间变化的实体状态,这使得动态图(Dynamic Graph)成为一类重要的图数据。用于处理动态图上的图数据的网络架构通常为时域感知(Time-aware)的图网络架构。虽然图表示学习的架构选择丰富,然而常规技术中的图表示学习往往仍然需要大量有标签的样本数据,给大规模图模型的学习带来挑战。
发明内容
本说明书一个或多个实施例描述了一种针对动态图训练图模型的方法及装置,用以解决背景技术提到的一个或多个问题。
根据第一方面,提供一种针对动态图训练图模型的方法,所述动态图是包含与时间相关的实体状态变化信息的图数据,所述方法包括:获取第一实体对应第一时间点的第一表达向量和对应第二时间点第二表达向量,所述第一时间点和所述第二时间点之间的第一时间差小于预定阈值,所述第一表达向量及所述第二表达向量基于所述图模型分别针对所述动态图在第一时间点的第一子图、在第二时间点的第二子图进行的处理确定;通过第一时间表征模型确定所述第一时间差对应的第一时间表征向量;基于所述第一时间表征向量确定所述第一表达向量和所述第二表达向量之间的f-信息;以所述互信息最大化为目标确定模型损失,并向着模型损失减小的方向调整所述图模型及所述第一时间表征模型中的各个待定参数。
在一个实施例中,所述第一子图/所述第二子图按照如下方式从所述动态图中抽取:基于所述第一时间点/所述第二时间点按照时间倒序追溯所述第一实体的k个状态变化;结合所述k个状态变化所涉及的其他实体,抽取所述第一子图/所述第二子图。
在一个实施例中,所述结合所述k个状态变化所涉及的其他实体,抽取所述第一子图/所述第二子图包括:利用所涉及的其他实体确定所述第一子图/所述第二子图中对应于所述第一实体的第一节点的至少一个一阶邻居节点;根据所述至少一个一阶邻居节点各自按照时间倒序的n个状态变化,为所述第一节点从所述动态图抽取所述第一节点至多n+1阶的邻居节点,得到所述第一子图/所述第二子图,n小于或等于k。
在一个实施例中,在第一子图/第二子图中,各个实体对应各个节点,具有直接和/或间接连接关系的节点互为邻居节点,所述第一实体对应第一节点,各个节点分别对应各个当前表达向量;针对第一子图/第二子图,所述图模型通过以下方式处理第一子图/第二子图得到所述第一表达向量/所述第二表达向量:针对所述第一节点的各个邻居节点,分别确定相应的基于时间的当前融合向量,单个邻居节点的当前融合向量经由其当前表达向量与相应的单个时间表征向量融合得到,所述单个时间表达向量经由第二时间表征模型处理相应的实体状态变化信息对应的时间点与所述第一时间点/所述第二时间点之间的时间间隔确定;基于对所述第一节点的各个邻居节点的当前融合向量的融合,得到所述第一表达向量/所述第二表达向量。
在一个实施例中,所述第二时间表征模型和所述第一时间表征模型具有一致的结构,以及彼此之间相互独立的待定参数。
在一个实施例中,所述第一时间表征模型通过m个维度的周期函数构建第一时间表征向量。
在一个实施例中,所述周期函数为正弦函数、余弦函数中的至少一个,在m为偶数的情况下,所述第一时间表征向量包括m/2维的正弦函数和m个维度的余弦函数,其中,单个正弦函数和单个余弦函数相对应,且对应的角度均由所述第一时间差和相应的单个待定参数确定。
在一个实施例中,所述f-信息为基于所述第一表达向量和所述第二表达向量之间的相似性的判别结果构建的互信息;所述基于所述第一时间表征向量确定所述第一表达向量和所述第二表达向量之间的互信息包括:基于所述第一时间表征向量确定所述第一表达向量和所述第二表达向量的相似度;利用预定判别函数处理所述相似度,以得到所述判别结果;根据所述判别结果确定第一表达向量和所述第二表达向量之间的互信息作为所述f-信息。
在一个实施例中,所述相似度通过以下方式确定:经由第一参数矩阵对所述第一时间表征向量的处理结果,确定所述第一表达向量和所述第二表达向量各个维度分别对应的各个重要程度;根据各个重要程度,对所述第一表达向量和所述第二表达向量相应维度元素乘积加权求和,得到所述相似度。
在一个实施例中,所述第一表达向量和所述第二表达向量的维度为d,所述第一时间表征向量的维度为m,所述第一参数矩阵由d×d个维度为m的向量构成,单个重要程度为单个维度为m的向量与所述第一时间表征向量的内积。
根据第二方面,提供一种针对动态图训练图模型的装置,所述动态图是包含与时间相关的实体状态变化信息的图数据,所述装置包括:
获取单元,配置为获取第一实体对应第一时间点的第一表达向量和对应第二时间点第二表达向量,所述第一时间点和所述第二时间点之间的第一时间差小于预定阈值,所述第一表达向量及所述第二表达向量基于所述图模型分别针对所述动态图在第一时间点的第一子图、在第二时间点的第二子图进行的处理确定;
时间表征单元,配置为通过第一时间表征模型确定所述第一时间差对应的第一时间表征向量;
确定单元,配置为基于所述第一时间表征向量确定所述第一表达向量和所述第二表达向量之间的f-信息;
调整单元,配置为以互信息最大化为目标确定模型损失,并向着模型损失减小的方向调整所述图模型及所述第一时间表征模型中的各个待定参数。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,在针对动态图进行处理的图模型训练时,考虑时间对图数据中的节点性质的影响,不仅考虑具有一定时间差的情况下节点表达向量之间的相似性,还对时间差进行向量化表示,从而对节点表达向量之间的相似性引入时间因素的考量,从而更加灵活有效地衡量模型损失,同时,无需对图模型进行预训练,提高图模型训练过程的灵活便利性,以及图模型的有效性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出一个本说明书一个具体实施架构示意图;
图2示出根据一个实施例的针对动态图训练图模型的方法流程图;
图3示出一个具体例子中从动态图提取的一个子图示意;
图4示出根据一个实施例的针对动态图训练图模型的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的技术方案进行描述。
本领域技术人员可以理解,图数据通常包括多个节点和节点之间的连接关系。图数据可以通过若干个三元组形如(a,r,b)的三元组形式表示,其中a、b表示两个节点,r表示两个节点之间的连接关系。图数据可以形象化表示为关系网络或知识图谱的形式,各个节点之间的连接关系通过连接边表示。
实践中,图数据中的各个节点分别对应与具体的业务场景相关联的各个实体。例如,在具体的业务场景是社区发现、用户分群之类与用户相关的情况下,图数据中的各个节点对应的各个业务实体例如可以是用户等。再例如,在论文分类、社交平台文章分类等的具体场景下,图数据中的各个节点对应的各个业务实体例如可以是文章等。在其他具体业务场景下,图数据对应的业务实体还可以是任意其他合理的实体,在此不作限定。一个图数据中可以对应一种或多种实体。
图数据中,单个节点对应的实体可以具有与业务相关的各种属性。例如:在用于用户消费信息推送的图数据中,对应于用户的业务实体,可以对应有年龄、收入、停留位置、消费习惯之类的属性;对应于文章的业务实体,可以对应有关键词、所属领域、文章篇幅之类的属性。在可选的实施例中,具有关联关系的两两节点,还可以具有关联属性,该关联属性也可以作为相应连接边的边属性。例如,通过社交行为关联的用户之间可以具有社交属性(如聊天频率、转账行为、发红包行为等),该社交属性即相应两个节点之间的关联属性,其可以作为相应两个节点之间的连接边的边属性。通过属性,可以提取出相应的特征数据,来表征相应的节点。从而节点属性和/或边属性可以通过特征向量表示。特征向量可以看作相应节点或连接边的初始表达向量。一份图数据中,至少包括各个节点的特征向量,在可选的业务场景中可以包括连接边的特征向量。
本说明书涉及与时间相关的状态变化,可以描述实体状态在时间上的变化信息。图数据的变化通常是逐渐进行的,通常不会使得图数据产生较大突变,例如在某个时间点突然产生半数以上的节点连接关系改变等。本说明书中称这种可以记录与时间相关的实体状态变化信息的图数据为动态图。动态图可以按照时间构建,例如图数据中任一个节点发生状态变化,增加一条对应有时间信息的数据(如三元组)。在图数据通过关系网络或知识图谱表示的情况下,动态图的变化也可以表现为属性变化,即节点的状态变化通过节点属性或连接边属性记录。
图数据可以通过各种图模型进行处理。图模型例如可以是图神经网络、RDF2Vec、威斯费勒-莱曼算法(Weisfeiler-Lehmankernels,WL)之类的业务模型。图模型通常可以考虑邻居节点之间的相互影响,针对单个节点,融合其邻居节点的特征向量得到最终的表达向量。以图神经网络为例,在单层神经网络,可以遍历各个节点。针对单个节点,通过预定方式设置邻居权重,来描述邻居节点对于该单个节点的重要程度。这里的预定方式例如可以是,邻居权重与节点的度负相关、与该单个节点和相应邻居节点的表达向量之间的相关度正相关等等。在图数据中包括连接边的特征向量的情况下,还可以利用连接边的特征向量确定邻居权重,在此不再赘述。进一步地,可以按照各个邻居节点的邻居权重对其当前表达向量进行加权求和,更新该单个节点的表达向量。经过单层图神经网络的处理,各个节点的表达向量得到更新。而多层图神经网络的迭代,能够充分考虑多层邻居的影响因素,对单个节点给出最终的表达向量。
在常规技术中,利用图模型得到的节点最终的表达向量,可以进行相应的业务处理。例如,对于对应于用户的节点,通过其最终的节点表达向量得到对用户金融风险性的预测,对于对应于文章的节点,通过其最终的节点表达向量确定文章的舆论风险性,等等。这种模式下,在训练图模型时,需要大量的有标签样本。
对于动态图,基于前述较平滑的改变,希望图模型能够顺利处理相关数据,或者说,这种改变不影响图模型对图数据处理结果的准确性。此时,如果仍然使用常规的图模型训练方法,则可能具有较大的数据量和计算量。
为此,本说明书基于对比学习(Contrastive Methods)的架构提供相关技术方案。对比学习可以通过将数据分别与正例样本和负例样本在特征空间进行对比,来学习样本的特征表示。假设对于任意变量x,学习目标是f,用x+表示正样本,x-表示负样本,则对比学习的目标是,f(x)与f(x+)的相似性远大于f(x)与f(x-)的相似性。针对动态图,f可以对应图模型,x可以对应样本节点的特征向量,f(x)对应经图模型处理某个时间点的图数据得到的样本节点的表达向量。
图1给出了本说明书一个具体实施架构的示意图。在图1中,图数据可以通过前文描述的三元组、关系网络或知识图谱等进行描述,也可以通过事件流的形式描述。如图1所示,事件流可以按照时间顺序记录,事件发生时间越晚,事件排列越靠后。单个事件可以包括发生状态变化的实体、发生时间、实体的状态变化等信息。例如,事件流中的一条信息为,2021年10月10日21点,张三给李四转账。其中涉及时间信息“2021年10月10日21点”,实体“张三”和“李四”,状态变化(或事件)“转账”等。
在本说明书的实施架构下,考虑动态图与时间相关的特点,可以令一个节点在一个时间点(如图1中的t1)的表达向量和在另一时间点(如图1中的t2)的表达向量尽可能相似。这种架构下的图模型训练方法,无需对图模型进行预训练,且不要求收集样本业务标签。然而,如果仅仅考虑节点表达向量的相似性,则在时间轴上相距较远的两个节点也可能具有较高的相似性。这就与前文的设计思想不匹配。为了衡量时间对节点向量的影响,本说明书的技术构思还可以通过时间表征模型对状态变化的时间点之间的时间差进行编码,得到相应的时间表征向量,并基于时间差的表征向量确定同一个节点在不同时间点的表达向量之间的相似性信息,从而确定模型损失。这种方式充分考虑时间差对于节点表达相似性之间的影响,提高所训练的图模型的有效性。
下面结合图2示出的一个实施例的针对动态图训练图模型的流程,描述本说明书的技术构思。图2示出的流程的执行主体可以是具有一定计算能力的计算机、设备或服务器。该流程可以用于训练可以处理动态图中对应于任意时间点的图数据的图模型。如图2所示,该流程包括:步骤201,获取第一实体对应第一时间点的第一表达向量和对应第二时间点第二表达向量,第一时间点和第二时间点之间的第一时间差小于预定阈值,所述第一表达向量及所述第二表达向量基于所述图模型分别针对所述动态图在第一时间点的第一子图、在第二时间点的第二子图进行的处理确定;步骤202,通过第一时间表征模型确定第一时间差对应的第一时间表征向量;步骤203,基于第一时间表征向量确定第一表达向量和第二表达向量之间的f-信息;步骤204,以f-信息最大化为目标确定模型损失,并向着模型损失减小的方向调整图模型及第一时间表征模型中的各个待定参数。
首先,通过步骤201,获取第一实体对应第一时间点的第一表达向量和对应第二时间点第二表达向量其中,第一实体可以是图数据中的任意实体。例如用户实体“张三”等。
可以理解,图模型可以用于处理图数据,得到最终的表达向量。图模型例如可以是GCN,GAT,SAGE等等中的一项。根据前文描述的技术构思,第一表达向量和第二表达向量可以是分别通过所要训练的图模型处理两个不同的时间点的图数据,得到的关于第一实体的表达向量。其中,将得到第一表达向量的时间点对应称为第一时间点,得到第二表达向量的时间点对应称为第二时间点。
对于动态图而言,针对某个时间点的图数据是可以确定的。具体而言,在确定的时间点,图数据的节点数量确定、节点之间的连接关系确定、各个节点的节点属性确定(对应特征向量确定)、连接边属性确定,等等。进一步地,在各个时间点,节点或连接边可以具有不同的属性,亦即具有不同的特征向量(即初始表达向量)。于是,在不同时间点,可以得到不同的图数据。在本说明书的实施例中,动态图以三元组、事件流、关系网络等各种形式记录的情况下,可以按照预先确定的规则,抽取相应的图数据,即子图。例如,可以分别抽取第一实体对应于第一时间点的第一子图、第一实体对应于第二时间点的第二子图等。为了描述方便,第一实体在其对应的子图中的节点均记为第一节点。
在一个实施例中,预先确定的抽取相应的图数据的规则可以是,针对给定的当前时间点(即所要抽取的子图对应的时间点),按照时间倒序追溯所述第一实体的k个状态变化。其中,k个状态变化例如对应着三元组形式的动态图中与第一实体相关的k个三元组,或者是事件流中与第一实体相关的k个事件。其中,k为预设的正整数,通常可以大于1,用于描述子图的深度。举例而言,假设第一实体为“张三”,事件流形式的动态图描述出某个社交平台按照时间顺序的各个用户实体的金融交互情形,当前时间点选定为2021年10月18日12时,k=2,则按时间倒序追溯事件流中的2个事件,可以得到“张三在2021年10月18日10时向李四转账”、“张三在2021年10月18日9时10分向王五转账”。接着,可以结合k个状态变化所涉及的其他实体,抽取当前时间点对应的子图。该例子中,所涉及的其他实体为“李四”、“王五”,因此,可以结合“李四”、“王五”抽取相应子图。如图3所示,相应子图例如为张三、李四、王五对应的节点构成的子图。
从图3中可以看出,根据所涉及的其他实体“李四”、“王五”可以确定对应于“张三”的节点的一阶邻居节点。进一步地,在可选的实施例中,还可以根据这些一阶邻居节点各自按照时间倒序的n个状态变化,为对应于“张三”的节点动态图抽取至多n+1阶的邻居节点。由于邻居节点的阶数越高,对当前节点的影响越小,因此n通常可以为不大于k的正整数。于是,在k=2的情况下,假设n=1,则至多抽取到“张三”对应节点的n+1=2阶节点。依然参考图3所示,由虚线示出的连接线表示对一阶邻居节点抽取n个状态变化。在图3中,“李四”最近一个状态变化事件如为“在2021年10月17日21时30分向马六转账”等,则“马六”可以被确定为“张三”的一个二阶邻居节点,同理,针对“王五”,根据事件“在2021年10月18日11时30分向小七转账”,得到“张三”的另一个二阶邻居节点“小七”。可见,由于n=1,至多得到第一实体“张三”对应节点的二阶邻居节点。此时,提取到的子图可以包括“张三”、“李四”、“王五”、“马六”、“小七”对应的5个节点。
假设图3对应的事件流中“李四”和“王五”之间在2021年10月18日11时50分有一次转账事件,则“李四”、“王五”同时作为“张三”的一阶邻居节点和二阶邻居节点,图3中虚线连接的节点不存在,而在“李四”和“王五”之间增加一个连接边。此时,提取到的子图可以包括“张三”、“李四”、“王五”对应的3个节点。按照传统关系网络的理解可以为仅提取了“张三”的一阶邻居节点,并且考虑一阶邻居节点之间的连接关系。
可以理解的是,选定的当前时间点分别为第一时间点、第二时间点的情况下,抽取到的子图分别为第一子图、第二子图。根据一个实施例,第一时间点、第二时间点可以是动态图的图数据构建完成至当前时间点的任意两个时间点。例如第一时间点为图数据构建完成的时间点,第二时间点为当前时间点等。根据另一个实施例,第一时间点和第二时间点可以是距离当前时间点在一定时间阈值(如1个月内)内的时间点。这是因为,考虑时间对于业务结果的影响,或者说业务与时间之间的关联关系,如消费***缓变化的动态图中,时间间隔越近,则单个节点的属性变化越小,同一节点越可能具有相似性,而时间间隔过大的情况下,节点表达的相似性意义不大。如此,本说明书对图模型的训练目标可以包括,在某一类变化下,在邻近的时间点,图模型处理相应图数据对同一个节点得到的表达向量尽可能接近(具有较高相似性)。从而,可以针对第一时间点和第二时间点之间的时间差设定预定阈值,使得相应时间差小于预定阈值。在一个实施例中,预定阈值可以为固定值,例如1天、12小时等。在另一个实施例中,预定阈值可以根据动态图的生命时长(例如动态图的图数据构建完成至当前时间点的时长)T确定,例如为0.1T等。在其他实施例中,预定阈值还可以根据其他方式确定,在此不做限定。
第一子图、第二子图中,各个节点还可以对应有属性信息,通过这些属性信息可以提取相应的特征向量,作为初始的表达向量。图模型可以对相应图数据进行处理,聚合邻居向量节点,从而得到第一节点的最终表达向量。其中,邻居节点可以是具有直接和/或间接连接关系的节点,例如图3中“李四”和“张三”直接连接相互构成一阶邻居节点,“小七”和“张三”间接连接构成二阶邻居节点。用于聚合的邻居节点可以包括当前节点本身和一阶邻居节点,可选的情况下可以包括二阶邻居节点。具体而言,利用图数据处理第一时间点的图数据,可以针对第一时间点的各个节点得到相应的最终表达向量即第一表达向量,利用图数据处理第二时间点的图数据,可以针对第二时间点的各个节点得到相应的最终表达向量即第二表达向量。由于处理第一子图和第二子图的图模型是同一个,第一表达向量和第二表达向量具有相同的维数,如为d。
可以理解,另一方面,第一时间点和第二时间点可以是预先选取的,例如按照动态图的生命时长确定的0.9T至T之间任意两个时间点。此时,可以同步处理第一时间点和第二时间点的图数据,也可以异步处理第一时间点和第二时间点的图数据。在另一个实施例中,可以是在对第一时间点的第一子图处理完成后,再确定第二时间点并抽取第二子图进行处理。
接着,通过步骤202,通过第一时间表征模型确定第一时间点和第二时间点之间的第一时间差对应的第一时间表征向量。这里,第一时间表征模型可以是预先设定的,用于将第一时间点和第二时间点的第一时间差通过向量表示的模型。
可以理解,时间差通常是一个数值,为了用向量表示一个数值,可以通过各种一对多的映射函数进行。例如第一时间差Δt可以被映射为m维向量(φ1Δt,φ2Δt……φmΔt)等。其中,φ1,φ2……φm为待定参数。为了计算方便,可以令m=d。
特别地,在一个实施例中,考虑时间对于实体的影响可能具有周期性,例如张三和王五每天中午一起吃饭,每天中午张三和王五之间大概率会发生转账,则可以使用具有周期性的函数来描述时间差。如第一时间表征模型可以将第一时间差映射到m个维度的周期函数,得到第一时间表征向量。为此,可以通过诸如三角函数之类的周期函数来映射时间差得到m维向量。以三角函数为例,可以通过正弦函数、余弦函数等构建第一时间表征模型。在一个具体例子中,考虑时间影响的多面性,可以同时利用正弦函数、余弦函数构建第一时间表征模型,此时m为偶数。例如时间差用自变量t表示,第一时间表征模型记为TE(t),m=2d的情况下,可以通过以下方式表征时间差t:
Figure BDA0003323968700000091
其中,φ1,φ2……φd为待定参数,φ1t、tφ2t……φdt为三角函数的角度。
如此,通过第一时间表征模型可以将第一时间差映射为m维的第一时间表征向量。
进一步地,通过步骤203,基于第一时间表征向量确定第一表达向量和第二表达向量之间的f-信息。其中,根据信息论,两个随机变量的f-信息是两个随机变量联合分布与边际分布乘积的f-散度。对于两个随机变量X、Y,例如定义为:
Figure BDA0003323968700000101
其中,Df表示f散度,f为非负凸函数,且f(1)=0。
互信息(Mutual Information)在信息论里可以看成是一个随机变量中包含的关于另一个随机变量的信息量。互信息是f信息的一种特殊情况。两个随机变量的互信息是两个随机变量联合分布和边际分布乘积的KL信息散度。信息散度越大,表明边际分布乘积与联合分布的差异越大,进而蕴含两个随机变量相关性高。例如第一表达向量用X表示,第二表达向量用Y表示,X、Y可以作为两个随机变量,则X到Y的互信息可以以KL散度为例表示为:
Figure BDA0003323968700000102
实践中,以上方式表示的f信息或互信息通常难以确定。为此,近年来,还提出一种通过判别函数确定f-信息的方式。例如为:
Figure BDA0003323968700000103
其中,sup表示取最大,
Figure BDA0003323968700000104
为通用判别函数表示,用于描述两个向量X和Y的分布的相似性,例如一个由中间向量
Figure BDA0003323968700000105
定义的判别函数为
Figure BDA0003323968700000106
等,
Figure BDA0003323968700000107
为判别函数的判别结果,f*为f的凸共轭函数。EX~PX表示关于X服从分布PX的数学期望,EX~PX,Y~PY表示关于X服从总体分布Px且Y服从总体分布PY的数学期望。
基于此,为了能够得到第一表达向量和第二表达向量之间的f-信息,可以先确定其判别函数。在本说明书中,由于要考虑第一时间差的影响,因此对于判别结果的确定中,可以引入第一时间表征向量确定第一表达向量和第二表达向量的相似度,再利用预定判别函数处理相似度,以得到判别结果。
在一个实施例中,可以通过将第一时间表征向量作为中间向量
Figure BDA0003323968700000108
根据判别函数
Figure BDA0003323968700000109
得到判别结果。
在另一个实施例中,可以经由第一参数矩阵对第一时间表征向量的处理结果,确定第一表达向量和第二表达向量各个维度分别对应的各个重要程度,然后根据各个重要程度,对第一表达向量和第二表达向量相应维度元素乘积加权求和,得到相似度。从而,经由预先确定的判别函数确定判别结果。作为一个具体示例,用x、y表示第一表达向量、第二表达向量,第一表达向量、第二表达向量的相似性例如为:
Figure BDA0003323968700000111
其中,第一参数矩阵为ω,ωij对应其第i行第j列,TE(|tx-ty|)为第一时间表征向量,xi为第一表达向量的第i个元素,xj为第二表达向量的第j个元素,<ωij,TE(|tx-ty|)>表示ωij与TE(|tx-ty|)的乘积。在可选的实现方式中,假设第一表达向量和第二表达向量的维度为d,第一时间表征向量的维度为m,则第一参数矩阵为ω可以d×d个维度为m的向量构成。换句话说,ωij对应一个m维的向量。此时,<ωij,TE(|tx-ty|)>表示ωij与TE(|tx-ty|)的向量内积。
根据相似度
Figure BDA0003323968700000112
可以进一步通过sigmoid等判别函数确定判别结果。例如为:
Figure BDA0003323968700000113
等,在此不做赘述。
如此,可以通过第一时间表征向量确定第一表达向量和第二表达向量之间的f-信息,使得第一表达向量和第二表达向量的f-信息中包含相应时间间隔信息,充分体现时间间隔对实体表达向量的影响。
接着,经由步骤204,以f-信息最大化为目标确定模型损失,并向着模型损失减小的方向调整图模型及第一时间表征模型中的各个待定参数。可以理解,图模型训练的目标是使得第一表达向量和第二表达向量f-信息最大化。因此,模型损失可以与f-信息负相关,即,f-信息越小,模型损失越大。例如,单纯用f-信息确定的模型损失为f-信息的相反数等。实践中,f-信息可以作为模型损失的一个因素,还可以同时考虑其他隐私,在此不做限定。向着模型损失减小方向调整图模型及第一时间表征模型中的各个待定参数的过程,也就是使得f-信息尽可能大的过程。
如此,根据至少两个时间点针对同一个实体抽取的子图,相当于以表达向量相互约束的思想构成一组训练样本。通过对多个实体、多个时间点的子图的处理,可以进行多轮次的迭代训练,直至满足训练停止条件。这里的训练停止条件例如可以包括各个待定参数收敛、模型损失收敛等等,在此不再赘述。
值得说明的是,训练停止后,训练好的图模型可以用于对动态图中任一子图的处理,得到相应节点的表达向量并用于业务处理。而第一时间表征模型作为训练过程中的辅助模型,可以不参与业务处理过程。
根据一个可能的设计,在利用图模型处理相应子图过程中,对于邻居节点,也可以考虑相应状态变化与当前时间点的时间间隔。此时,可以通过一个第二时间表征模型,得到相应的时间表征向量。在邻居节点的表达向量融合过程中,在节点的当前表达向量中加入相应时间表征向量,得到当前融合向量,进而,融合邻居节点的当前融合向量更新当前节点的表达向量。其中,第二时间表征模型可以通过与第一时间表征模型类似的方式配置。特别地,在一个实施例中,第二时间表征模型与第一时间表征模型可以具有相同的结构,但待定参数相互独立。也就是说,待定参数在训练过程中各自根据模型损失进行调整。本领域技术人员容易理解,在第二时间表征模型参与到邻居节点的表达向量融合过程中的情况下,第二时间表征模型可以和图模型配合共同作为处理动态图的模型。因此,在业务处理过程中,仍需要第二时间表征模型将图模型所涉及的时间差映射为向量。此时,可以将第二时间表征模型作为图模型的一部分,也可以预先利用第二时间表征模型对所涉及的时间差进行处理以用于图模型处理相应子图的过程。
另一方面,针对一个邻居节点确定当前融合向量过程中,可以将相应邻居节点的当前表达向量中与相应时间表征向量拼接,或者将相应时间表征向量映射为与当前表达向量维数一致的向量后,和当前表达向量以求均值、加权平均、取最大值等方式融合,在此不做限定。
回顾以上过程,本说明书实施例提供的方法,在训练针对动态图进行处理的图模型的过程中,按照时间倒序抽取同一实体在邻近时间点的子图进行处理各自得到该实体的表达向量,并对比不同时间点对应的最终表达向量得到互信息,基于最大化互信息的目标确定模型损失,训练图模型。这种方式无需对图模型进行预训练,无需标签数据,且充分考虑实体的状态变化与时间之间的关系,可以有效融入时间的影响,提高图模型的灵活性,及图模型业务处理的有效性。
根据另一方面的实施例,还提供一种针对动态图训练图模型的装置。其中,动态图是包含与时间相关的实体状态变化信息的图数据。针对动态图训练图模型的装置可以设于各种计算机、设备或服务器。如图4所示,示出一个针对动态图训练图模型的装置400。装置400包括:
获取单元401,配置为获取第一实体对应第一时间点的第一表达向量和对应第二时间点第二表达向量,第一时间点和第二时间点之间的第一时间差小于预定阈值,第一表达向量及第二表达向量基于图模型分别针对动态图在第一时间点的第一子图、在第二时间点的第二子图进行的处理确定;
时间表征单元402,配置为通过第一时间表征模型确定第一时间差对应的第一时间表征向量;
确定单元403,配置为基于第一时间表征向量确定第一表达向量和第二表达向量之间的f-信息;
调整单元404,配置为以f-信息最大化为目标确定模型损失,并向着模型损失减小的方向调整图模型及第一时间表征模型中的各个待定参数。
根据一个实施例,装置400还包括抽取单元(未示出),配置按照如下方式从动态图中抽取为第一子图/第二子图:
基于第一时间点/第二时间点按照时间倒序追溯第一实体的k个状态变化;
结合k个状态变化所涉及的其他实体,抽取第一子图/第二子图。
根据一个可选的实现方式,在第一子图/第二子图中,各个实体对应各个节点,具有直接和/或间接连接关系的节点互为邻居节点,第一实体对应第一节点,各个节点分别对应各个当前表达向量。此时,装置400还包括处理单元(未示出),配置为针对第一子图/第二子图,利用图模型通过以下方式处理第一子图/第二子图得到第一表达向量/第二表达向量:
针对第一节点的各个邻居节点,分别确定相应的基于时间的当前融合向量,单个邻居节点的当前融合向量经由其当前表达向量与相应的单个时间表征向量融合得到,单个时间表达向量经由第二时间表征模型处理相应的实体状态变化信息对应的时间点与第一时间点/第二时间点之间的时间间隔确定;
基于对第一节点的各个邻居节点的当前融合向量的融合,得到第一表达向量/第二表达向量。
在一个可能的设计中,f-信息为基于第一表达向量和第二表达向量之间的相似性的判别结果构建的互信息。此时,确定单元403进一步配置为:
基于第一时间表征向量确定第一表达向量和第二表达向量的相似度;
利用预定判别函数处理相似度,以得到判别结果;
根据判别结果确定第一表达向量和所述第二表达向量之间的互信息作为f-信息。
根据一个实施例,确定单元403进一步还配置为通过以下方式确定相似度:
经由第一参数矩阵对第一时间表征向量的处理结果,确定第一表达向量和第二表达向量各个维度分别对应的各个重要程度;
根据各个重要程度,对第一表达向量和第二表达向量相应维度元素乘积加权求和,得到相似度。
值得说明的是,图4所示的装置400与图2描述的方法相对应,图2的方法实施例中的相应描述同样适用于装置400,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2等所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2等所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。

Claims (17)

1.一种针对动态图训练图模型的方法,所述动态图是包含与时间相关的实体状态变化信息的图数据,所述方法包括:
获取第一实体对应第一时间点的第一表达向量和对应第二时间点第二表达向量,所述第一时间点和所述第二时间点之间的第一时间差小于预定阈值,所述第一表达向量及所述第二表达向量基于所述图模型分别针对所述动态图在第一时间点的第一子图、在第二时间点的第二子图进行的处理确定;
通过第一时间表征模型确定所述第一时间差对应的第一时间表征向量;
基于所述第一时间表征向量确定所述第一表达向量和所述第二表达向量之间的f-信息;
以所述f-信息最大化为目标确定模型损失,并向着模型损失减小的方向调整所述图模型及所述第一时间表征模型中的各个待定参数。
2.根据权利要求1所述的方法,其中,所述第一子图/所述第二子图按照如下方式从所述动态图中抽取:
基于所述第一时间点/所述第二时间点按照时间倒序追溯所述第一实体的k个状态变化;
结合所述k个状态变化所涉及的其他实体,抽取所述第一子图/所述第二子图。
3.根据权利要求2所述的方法,其中,所述结合所述k个状态变化所涉及的其他实体,抽取所述第一子图/所述第二子图包括:
利用所涉及的其他实体确定所述第一子图/所述第二子图中对应于所述第一实体的第一节点的至少一个一阶邻居节点;
根据所述至少一个一阶邻居节点各自按照时间倒序的n个状态变化,为所述第一节点从所述动态图抽取所述第一节点至多n+1阶的邻居节点,得到所述第一子图/所述第二子图,n小于或等于k。
4.根据权利要求1所述的方法,其中,在第一子图/第二子图中,各个实体对应各个节点,具有直接和/或间接连接关系的节点互为邻居节点,所述第一实体对应第一节点,各个节点分别对应各个当前表达向量;针对第一子图/第二子图,所述图模型通过以下方式处理第一子图/第二子图得到所述第一表达向量/所述第二表达向量:
针对所述第一节点的各个邻居节点,分别确定相应的基于时间的当前融合向量,单个邻居节点的当前融合向量经由其当前表达向量与相应的单个时间表征向量融合得到,所述单个时间表达向量经由第二时间表征模型处理相应的实体状态变化信息对应的时间点与所述第一时间点/所述第二时间点之间的时间间隔确定;
基于对所述第一节点的各个邻居节点的当前融合向量的融合,得到所述第一表达向量/所述第二表达向量。
5.根据权利要求4所述的方法,其中,所述第二时间表征模型和所述第一时间表征模型具有一致的结构,以及彼此之间相互独立的待定参数。
6.根据权利要求1所述的方法,其中,所述第一时间表征模型通过m个维度的周期函数构建第一时间表征向量。
7.根据权利要求6所述的方法,其中,所述周期函数为正弦函数、余弦函数中的至少一个,在m为偶数的情况下,所述第一时间表征向量包括m/2维的正弦函数和m/2维的余弦函数,其中,单个正弦函数和单个余弦函数相对应,且对应的角度均由所述第一时间差和相应的单个待定参数确定。
8.根据权利要求1所述的方法,其中,所述f-信息为基于所述第一表达向量和所述第二表达向量之间的相似性的判别结果构建的互信息;所述基于所述第一时间表征向量确定所述第一表达向量和所述第二表达向量之间的f-信息包括:
基于所述第一时间表征向量确定所述第一表达向量和所述第二表达向量的相似度;
利用预定判别函数处理所述相似度,以得到所述判别结果;
根据所述判别结果确定所述第一表达向量和所述第二表达向量之间的互信息作为所述f-信息。
9.根据权利要求8所述的方法,其中,所述相似度通过以下方式确定:
经由第一参数矩阵对所述第一时间表征向量的处理结果,确定所述第一表达向量和所述第二表达向量各个维度分别对应的各个重要程度;
根据各个重要程度,对所述第一表达向量和所述第二表达向量相应维度元素乘积加权求和,得到所述相似度。
10.根据权利要求9所述的方法,其中,所述第一表达向量和所述第二表达向量的维度为d,所述第一时间表征向量的维度为m,所述第一参数矩阵由d×d个维度为m的向量构成,单个重要程度为单个维度为m的向量与所述第一时间表征向量的内积。
11.一种针对动态图训练图模型的装置,所述动态图是包含与时间相关的实体状态变化信息的图数据,所述装置包括:
获取单元,配置为获取第一实体对应第一时间点的第一表达向量和对应第二时间点第二表达向量,所述第一时间点和所述第二时间点之间的第一时间差小于预定阈值,所述第一表达向量及所述第二表达向量基于所述图模型分别针对所述动态图在第一时间点的第一子图、在第二时间点的第二子图进行的处理确定;
时间表征单元,配置为通过第一时间表征模型确定所述第一时间差对应的第一时间表征向量;
确定单元,配置为基于所述第一时间表征向量确定所述第一表达向量和所述第二表达向量之间的f-信息;
调整单元,配置为以所述互信息最大化为目标确定模型损失,并向着模型损失减小的方向调整所述图模型及所述第一时间表征模型中的各个待定参数。
12.根据权利要求11所述的装置,其中,所述装置还包括抽取单元,配置按照如下方式从所述动态图中抽取为所述第一子图/所述第二子图:
基于所述第一时间点/所述第二时间点按照时间倒序追溯所述第一实体的k个状态变化;
结合所述k个状态变化所涉及的其他实体,抽取所述第一子图/所述第二子图。
13.根据权利要求12所述的装置,其中,在第一子图/第二子图中,各个实体对应各个节点,具有直接和/或间接连接关系的节点互为邻居节点,所述第一实体对应第一节点,各个节点分别对应各个当前表达向量;所述装置还包括处理单元,配置为针对第一子图/第二子图,利用所述图模型通过以下方式处理第一子图/第二子图得到所述第一表达向量/所述第二表达向量:
针对所述第一节点的各个邻居节点,分别确定相应的基于时间的当前融合向量,单个邻居节点的当前融合向量经由其当前表达向量与相应的单个时间表征向量融合得到,所述单个时间表达向量经由第二时间表征模型处理相应的实体状态变化信息对应的时间点与所述第一时间点/所述第二时间点之间的时间间隔确定;
基于对所述第一节点的各个邻居节点的当前融合向量的融合,得到所述第一表达向量/所述第二表达向量。
14.根据权利要求11所述的装置,其中,所述f-信息为基于所述第一表达向量和所述第二表达向量之间的相似性的判别结果构建的互信息;所述确定单元进一步配置为:
基于所述第一时间表征向量确定所述第一表达向量和所述第二表达向量的相似度;
利用预定判别函数处理所述相似度,以得到所述判别结果;
根据所述判别结果确定所述第一表达向量和所述第二表达向量之间的互信息作为所述f-信息。
15.根据权利要求14所述的装置,其中,所述确定单元进一步还配置为通过以下方式确定所述相似度:
经由第一参数矩阵对所述第一时间表征向量的处理结果,确定所述第一表达向量和所述第二表达向量各个维度分别对应的各个重要程度;
根据各个重要程度,对所述第一表达向量和所述第二表达向量相应维度元素乘积加权求和,得到所述相似度。
16.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10中任一项的所述的方法。
17.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项所述的方法。
CN202111256452.2A 2021-10-27 2021-10-27 针对动态图训练图模型的方法及装置 Active CN113987280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111256452.2A CN113987280B (zh) 2021-10-27 2021-10-27 针对动态图训练图模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111256452.2A CN113987280B (zh) 2021-10-27 2021-10-27 针对动态图训练图模型的方法及装置

Publications (2)

Publication Number Publication Date
CN113987280A true CN113987280A (zh) 2022-01-28
CN113987280B CN113987280B (zh) 2024-07-12

Family

ID=79742642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111256452.2A Active CN113987280B (zh) 2021-10-27 2021-10-27 针对动态图训练图模型的方法及装置

Country Status (1)

Country Link
CN (1) CN113987280B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074246A1 (en) * 2018-09-05 2020-03-05 Siemens Aktiengesellschaft Capturing network dynamics using dynamic graph representation learning
CN110909868A (zh) * 2019-12-04 2020-03-24 支付宝(杭州)信息技术有限公司 基于图神经网络模型的节点表示方法和装置
CN111210008A (zh) * 2020-01-09 2020-05-29 支付宝(杭州)信息技术有限公司 利用lstm神经网络模型处理交互数据的方法及装置
WO2021027260A1 (zh) * 2019-08-15 2021-02-18 创新先进技术有限公司 处理交互序列数据的方法及装置
CN112395466A (zh) * 2020-11-27 2021-02-23 上海交通大学 一种基于图嵌入表示和循环神经网络的欺诈节点识别方法
CN112541129A (zh) * 2020-12-06 2021-03-23 支付宝(杭州)信息技术有限公司 处理交互事件的方法及装置
CN112580789A (zh) * 2021-02-22 2021-03-30 支付宝(杭州)信息技术有限公司 训练图编码网络、预测交互事件的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074246A1 (en) * 2018-09-05 2020-03-05 Siemens Aktiengesellschaft Capturing network dynamics using dynamic graph representation learning
WO2021027260A1 (zh) * 2019-08-15 2021-02-18 创新先进技术有限公司 处理交互序列数据的方法及装置
CN110909868A (zh) * 2019-12-04 2020-03-24 支付宝(杭州)信息技术有限公司 基于图神经网络模型的节点表示方法和装置
CN111210008A (zh) * 2020-01-09 2020-05-29 支付宝(杭州)信息技术有限公司 利用lstm神经网络模型处理交互数据的方法及装置
CN112395466A (zh) * 2020-11-27 2021-02-23 上海交通大学 一种基于图嵌入表示和循环神经网络的欺诈节点识别方法
CN112541129A (zh) * 2020-12-06 2021-03-23 支付宝(杭州)信息技术有限公司 处理交互事件的方法及装置
CN112580789A (zh) * 2021-02-22 2021-03-30 支付宝(杭州)信息技术有限公司 训练图编码网络、预测交互事件的方法及装置

Also Published As

Publication number Publication date
CN113987280B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
Raskutti et al. Learning directed acyclic graph models based on sparsest permutations
Jia et al. Efficient task-specific data valuation for nearest neighbor algorithms
Criado et al. Non-iid data and continual learning processes in federated learning: A long road ahead
Li et al. The random subspace binary logit (RSBL) model for bankruptcy prediction
CN110570111A (zh) 企业风险预测方法、模型训练方法、装置及设备
Ren et al. Dynamic portfolio strategy using clustering approach
Langone et al. Incremental kernel spectral clustering for online learning of non-stationary data
Gao et al. Stability analysis of learning algorithms for ontology similarity computation
Xiao et al. A truth discovery approach with theoretical guarantee
Pan et al. Clustering of designers based on building information modeling event logs
Li et al. Explain graph neural networks to understand weighted graph features in node classification
Dekhovich et al. Continual prune-and-select: class-incremental learning with specialized subnetworks
CN114579584A (zh) 数据表处理方法、装置、计算机设备和存储介质
Wu et al. An Asymmetric Popularity‐Similarity Optimization Method for Embedding Directed Networks into Hyperbolic Space
Zhu et al. Analysis of stock market based on visibility graph and structure entropy
WO2019212570A1 (en) Transition regularized matrix factorization for sequential recommendation
Han et al. Robust Plackett–Luce model for k-ary crowdsourced preferences
Chu et al. Variational cross-network embedding for anonymized user identity linkage
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
Mehmood et al. Adaptive cutoff distance: Clustering by fast search and find of density peaks
Zhu et al. BGCL: Bi-subgraph network based on graph contrastive learning for cold-start QoS prediction
US20200160200A1 (en) Method and System for Predictive Modeling of Geographic Income Distribution
Yan et al. Federated clustering with GAN-based data synthesis
CN115545833A (zh) 一种基于用户社交信息的推荐方法及***
CN113987280B (zh) 针对动态图训练图模型的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant