CN114282011B - 知识图谱的构建方法和装置、图计算方法及装置 - Google Patents

知识图谱的构建方法和装置、图计算方法及装置 Download PDF

Info

Publication number
CN114282011B
CN114282011B CN202210191557.2A CN202210191557A CN114282011B CN 114282011 B CN114282011 B CN 114282011B CN 202210191557 A CN202210191557 A CN 202210191557A CN 114282011 B CN114282011 B CN 114282011B
Authority
CN
China
Prior art keywords
graph
edge
node
application
structural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210191557.2A
Other languages
English (en)
Other versions
CN114282011A (zh
Inventor
唐坤
易鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210191557.2A priority Critical patent/CN114282011B/zh
Publication of CN114282011A publication Critical patent/CN114282011A/zh
Application granted granted Critical
Publication of CN114282011B publication Critical patent/CN114282011B/zh
Priority to PCT/CN2023/071509 priority patent/WO2023165271A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供了一种知识图谱的构建方法和装置、图计算的方法及装置。该知识图谱的构建方法包括:将每一个第一类型的业务数据建模成图中的一个节点;将每一个第二类型的业务数据建模成图中的一条边;根据预先确定的对应于第一类型的业务数据的结构特征,得到对应于每一个节点的结构特征值;根据预先确定的对应于第二类型的业务数据的结构特征,得到对应于每一条边的结构特征值;其中,所述结构特征为在至少两个应用场景中通用的特征;利用每一个节点及该节点的结构特征值、每一条边及该边的结构特征值进行建模,得到结构图,结构图中的每一个节点及每一条边均挂载有对应的结构特征值。本说明书实施例能够提高知识图谱构建的灵活性,提高图计算的效率。

Description

知识图谱的构建方法和装置、图计算方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术,尤其涉及知识图谱的构建方法和装置、图计算方法及装置。
背景技术
图(Graph)是用于表示对象之间关联关系的一种抽象数据结构,使用节点(Vertex)和边(Edge)进行描述,其中,节点表示对象,边表示对象之间的关系。随着信息的***式增长,为了体现各种信息之间的语义关系,基于图的思路产生了知识图谱(Knowledge Graph)。知识图谱本质上是一种揭示实体之间关系的语义网络。在知识图谱中,图中的每一个节点都具有自己的各种特征,每一个边也具有自己的各种特征。
目前构建的知识图谱中,会将一个节点及一条边的所有特征都挂载在知识图谱中,使得构建出的知识图谱异常庞大,缺乏灵活性。在基于此种知识图谱进行图计算的过程中,节点和边的所有特征都会参与计算过程,这样就会导致图计算的效率大大降低。
发明内容
本说明书一个或多个实施例描述了知识图谱的构建方法和装置、图计算方法及装置,能够提高知识图谱构建的灵活性,并提高图计算的效率。
根据第一方面,提供了一种知识图谱的构建方法,其中,包括:
将每一个第一类型的业务数据建模成图中的一个节点;
将每一个第二类型的业务数据建模成图中的一条边;
根据预先确定的对应于第一类型的业务数据的结构特征,得到对应于每一个节点的结构特征值;
根据预先确定的对应于第二类型的业务数据的结构特征,得到对应于每一条边的结构特征值;
其中,所述结构特征为在至少两个应用场景中通用的特征;
利用每一个节点及该节点的结构特征值、每一条边及该边的结构特征值进行建模,得到结构图。
其中,在所述得到结构图后,进一步包括:
针对结构图中的每一个节点,从对应于第一类型的业务数据的各应用特征中得到对应于当前应用场景的当前应用特征;
针对结构图中的每一条边,从对应于第二类型的业务数据的各应用特征中得到对应于当前应用场景的当前应用特征;
其中,所述应用特征与所述结构特征不同;
针对结构图中的每一个节点,将对应该节点的当前应用特征的特征值挂载到该节点上,针对结构图中的每一条边,将对应该边的当前应用特征的特征值挂载到该边上,以形成对应于当前应用场景的特征图。
其中,
该方法进一步包括:对每一个节点及每一条边均设置对应的全局ID;在图特征库中,保存并动态更新每一个节点的全局ID与该节点的各应用特征之间的对应关系,以及保存并动态更新每一条边的全局ID与该边的各应用特征之间的对应关系;
则,所述从对应于该节点的各应用特征中得到对应于当前应用场景的当前应用特征,包括:从图特征库中查找到对应于该节点的全局ID的各应用特征,从查找到的该各应用特征中筛选出适用于当前应用场景的当前应用特征;
则所述从对应于该边的各应用特征中得到对应于当前应用场景的当前应用特征,包括:从图特征库中查找到对应于该边的全局ID的各应用特征,从查找到的该各应用特征中筛选出适用于当前应用场景的当前应用特征。
其中,该方法应用于具有时序性的知识图谱的构建中。
其中,该方法应用于具有时序性的交易类业务的知识图谱的构建中;
则所述第一类型的业务数据包括:账户信息;
所述第二类型的业务数据包括:交易行为;
所述节点的结构特征包括:账户ID;
所述边的结构特征包括如下中的至少一项:时间、交易ID、金额。
根据第二方面,提供了图计算方法,其中包括:
利用上述任一方法得到结构图;
加载结构图中的图结构信息;所述图结构信息包括:每一个节点、每一条边、每一个节点的结构特征值、每一条边的结构特征值、节点及边的顺序;
利用加载的所述图结构信息进行图计算,得到流转路径。
得到结构图之后,该图计算方法进一步包括:
利用对应于当前应用场景的特征图及所述流转路径,进行对应于当前应用场景的图计算。
根据第三方面,提供了知识图谱的构建装置,其中,包括:
模型建立模块,配置为将每一个第一类型的业务数据建模成图中的一个节点;将每一个第二类型的业务数据建模成图中的一条边;
结构特征筛选模块,配置为根据预先确定的对应于第一类型的业务数据的结构特征,得到对应于每一个节点的结构特征值;根据预先确定的对应于第二类型的业务数据的结构特征,得到对应于每一条边的结构特征值;其中,所述结构特征为在至少两个应用场景中通用的特征;
结构图构建模块,配置为利用每一个节点及该节点的结构特征值、每一条边及该边的结构特征值进行建模,得到结构图。
进一步包括:
应用特征筛选模块,配置为针对结构图中的每一个节点,从对应于该节点的各应用特征中得到对应于当前应用场景的当前应用特征;针对结构图中的每一条边,从对应于该边的各应用特征中得到对应于当前应用场景的当前应用特征;其中,所述应用特征与所述结构特征不同;
特征图构建模块,配置为针对结构图中的每一个节点,将对应该节点的当前应用特征的特征值挂载到该节点上,针对结构图中的每一条边,将对应该边的当前应用特征的特征值挂载到该边上,以形成对应于当前应用场景的特征图。
根据第四方面,提供了图计算装置,其中,包括:
知识图谱的构建装置;以及
流转路径计算模块,配置为加载结构图中的图结构信息;所述图结构信息包括:每一个节点、每一条边、每一个节点的结构特征值、每一条边的结构特征值、节点及边的顺序;利用加载的所述图结构信息进行图计算,得到流转路径。
所述图计算装置进一步包括:
业务分析模块,配置为利用对应于当前应用场景的特征图及所述流转路径,进行对应于当前应用场景的图计算。
根据第五方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本说明书任一实施例所述的方法。
本说明书实施例提供的知识图谱的构建方法及装置、图计算的方法及装置,不是使用一个节点及一条边的所有特征来进行建模及计算,而是仅使用节点及边对应的结构特征来进行建模及计算,因为结构特征是在多个应用场景中通用的特征,因此,结构特征是节点或边的所有特征中的一部分特征,因此得到的结构图是一种能够在各种应用场景中通用的、具有精简结构(或者说具有框架结构)的知识图谱,面对目前信息量的***式增长及诸如百亿级别的图计算,基于本说明书实施例中构建的知识图谱将大大降低图计算过程中所利用的特征的数量,大大提高图计算的效率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是在现有技术中对于具有时序性的交易类业务的知识图谱的示意图。
图2是本说明书一个实施例中知识图谱的构建方法的流程图。
图3是在本说明书一个实施例中对于具有时序性的交易类业务的结构图的示意图。
图4是本说明书一个实施例在一种应用场景中进行知识图谱的构建方法的流程图。
图5是本说明书一个实施例中构建的知识图谱的组成示意图。
图6是本说明书一个实施例中基于结构图进行图计算的流程图。
图7是本说明书一个实施例在一种应用场景中进行图计算的流程图。
图8是本说明书一个实施例中知识图谱的构建装置的结构示意图。
图9是本说明书另一个实施例中知识图谱的构建装置的结构示意图。
图10是本说明书一个实施例中图计算装置的结构示意图。
图11是本说明书另一个实施例中图计算装置的结构示意图。
具体实施方式
如前所述,现有技术中构建知识图谱时,节点和边的所有特征都会参与建模过程,相应地,无论哪一个应用场景,在进行图计算时都会使用节点和边的所有特征,这样就会导致知识图谱过于庞大,图计算的效率大大降低。
比如,以具有时序性的交易类业务的知识图谱为例,参见图1所示(可以理解,图1中示出的节点的数量仅仅是示意性的,其中N为正整数),图中的节点为用户的账户信息,边为用户之间的交易行为,那么,每一个节点包括的特征就涉及到账户的所有特征,比如账户ID、人群、相关用户的性别、年龄、学历、账户信息、资产信息、历史交易习惯等各种信息,而每一个边包括的特征就涉及到一个交易的所有特征,比如交易ID、交易发生的时间、交易发生的地点、金额、支付渠道、交易的性质比如是否属于违规交易等。而随着网络信息的***式增长,一个知识图谱中会包括海量的节点及边,因此,导致知识图谱过于庞大,缺乏灵活性,同时,图计算的量级往往是百亿级别以上的量级,如果每一个节点及每一个边的所有特征都参与建模及计算过程,必定会大大降低图计算的效率。比如,在图计算的过程中,计算方需要把节点的所有特征及边的所有特征都存储起来,以便计算时加载使用,这样,就会占用计算方的大量存储资源。再如,每一个节点及每一个边的所有特征都参与图计算过程,会大大占用计算方的计算资源。
下面结合附图,对本说明书提供的方案进行描述。
图2是本说明书一个实施例中知识图谱的构建方法的流程图。该方法的执行主体为知识图谱的构建装置。可以理解,该方法也可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。参见图2,该方法包括:
步骤201:将每一个第一类型的业务数据建模成图中的一个节点。
步骤203:将每一个第二类型的业务数据建模成图中的一条边。
步骤205:根据预先确定的对应于第一类型的业务数据的结构特征,得到对应于每一个节点的结构特征值。
步骤207:根据预先确定的对应于第二类型的业务数据的结构特征,得到对应于每一条边的结构特征值。
其中,结构特征为在至少两个应用场景中通用的特征。
步骤209:利用每一个节点及该节点的结构特征值、每一条边及该边的结构特征值进行建模,得到结构图,结构图中的每一个节点及每一条边均挂载有对应的结构特征值。
可见,在图2所示的知识图谱的构建过程中,不是使用一个节点及一条边的所有特征来进行建模,而是仅使用节点及边对应的结构特征来进行建模,因为结构特征是在多个应用场景中通用的特征,因此,结构特征是节点或边的所有特征中的一部分特征,因此得到的结构图是一种能够在各种应用场景中通用的、具有精简结构(或者说具有框架结构)的知识图谱,此种知识图谱更具有灵活性。
下面结合附图及具体的例子对图2中的每一个步骤分别进行说明。
首先对于步骤201:将每一个第一类型的业务数据建模成图中的一个节点。
本步骤中,可以将任意一种能够表征一种对象的业务数据建模成图的节点。比如,对于交易类业务,可以将一个账户信息建模成图中的一个节。这里,账户可以是以产品/容器为单位划分的,也就是说,同一个用户的不同产品/容器会对应不同的账户信息,也就对应不同的节点。比如,用户A的银行账户对应节点1,用户A的微信账户对应节点2。
接下来对于步骤203:将每一个第二类型的业务数据建模成图中的一条边。
本步骤203中,可以将任意一种能够表征两个对象之间的关系的业务数据建模成图的边。比如,对于交易类业务,可以将一笔交易行为建模成中的一条边。
本说明书实施例预先定义了结构特征和应用特征。结构特征为在至少两个应用场景中通用的特征。也就是说,结构特征是在多种应用场景中都会被关注,并被用于进行多种应用场景的业务分析计算的特征。应用特征是除了结构特征之外剩余的特征,不同的应用场景会对应各自的应用特征。
为了提高图计算的效率,本说明书实施例预先从节点及边的各种类型的特征中筛选出结构特征,因为结构特征只是众多类型特征中的一部分,因此能保证图计算过程中使用的特征的数量大大减少从而提高计算效率,同时,因为结构特征是在至少两个应用场景中通用的特征,因此利用图计算过程得到的结构图能够体现适用于各种应用场景的通用的路径及流转情况,可用于后续各种应用场景的分析,即保证能够进行后续的业务分析。
比如,以交易类的业务为例,在建模时,图中的节点为账户信息,边为两个账户之间的交易行为。也就是说,第一类型的业务数据是各种账户信息,第二类型的业务数据是各种交易行为。对应于账户信息这种类型的业务数据,能够在各个应用场景中通用的特征是账户ID,也就是说,无论后续进行何种应用场景中的业务分析,都会使用该账户ID。对应于交易行为这种类型的业务数据,能够在各个应用场景中通用的特征是金额、时间、交易ID中的至少一种,也就是说,无论后续进行何种应用场景中的业务分析,都会使用金额、时间、交易ID中的至少一种。因此,预先定义对应于账户信息(即第一类型的业务数据)的结构特征为:账户ID。这样,对应于账户信息的应用特征为除了账户ID之外的其他特征,比如包括:所属人群、该账户对应的用户的姓名、性别、年龄、学历、账户所属银行信息、资产信息、历史交易习惯等各种信息。同时,预先定义对应于交易行为(即第二类型的业务数据)的结构特征包括:时间、交易ID、金额;对应于交易行为的应用特征为除了时间、交易ID、金额之外的其他特征,比如包括:交易发生的地点、支付渠道、交易场景、交易是否成功、交易的性质比如是否被投诉为违规交易等。
接下来对于步骤205:根据预先确定的对应于第一类型的业务数据的结构特征,得到对应于每一个节点的结构特征值。以及对于步骤207:根据预先确定的对应于第二类型的业务数据的结构特征,得到对应于每一条边的结构特征值。
比如,仍然以上述具有时序性质的交易类业务为例,参见图3所示,在建模时,每一个节点只得到并挂载账户ID这种结构特征的特征值,比如对于节点1,账户ID为2088…0001,对于节点2,账户ID为:5338…1005;每一条边只得到并挂载金额、时间、交易ID这三种结构特征的特征值,比如对于边1,金额为200元,时间为2021年1月5日10:00,交易ID为10000001,对于边2,金额为20万元,时间为2021年2月15日21:00,交易ID为16009801。
接下来对于步骤209:利用每一个节点及该节点的结构特征值、每一条边及该边的结构特征值进行建模,得到结构图,结构图中的每一个节点及每一条边均挂载有对应的结构特征值。
步骤209中得到的结构图是一种具有精简结构的、框架形式的知识图谱,是在多种应用场景中通用的知识图谱。
如前所述,现有技术中是将节点的所有特征及边的所有特征都构建在知识图谱中,但是除了结构特征在各应用场景中通用之外,不同应用场景中用到的应用特征通常是不相同的。因此,在本说明书实施例中,可以针对应用场景来构建专用于一个应用场景的特征图,不同应用场景的特征图通常不同。参见图4,在本说明书一个实施例中,在步骤209之后,构建专用于一个应用场景的特征图的过程包括:
步骤401:针对结构图中的每一个节点,从对应于第一类型的业务数据的各应用特征中得到对应于当前应用场景的当前应用特征。
步骤403:针对结构图中的每一条边,从对应于第二类型的业务数据的各应用特征中得到对应于当前应用场景的当前应用特征。
其中,应用特征与所述结构特征不同。
步骤405:针对结构图中的每一个节点,将对应该节点的当前应用特征的特征值挂载到该节点上,针对结构图中的每一条边,将对应该边的当前应用特征的特征值挂载到该边上,以形成对应于当前应用场景的特征图。
下面对图4所示的过程进行说明。
如前所述,预先定义了节点对应的各种应用特征及边对应的应用特征。而不同的应用场景进行分析计算时,使用的应用特征是不完全相同的。比如,对于诈骗分析这种应用场景,在进行图计算时,一个节点需要用到的应用特征包括账户对应的用户的历史交易习惯,该节点不需要用到的应用特征包括账户对应的用户的性别,一条边需要用到的应用特征包括:是否被投诉为违规交易,而该边不需要用到的应用特征包括:交易是否成功。然而,对于洗钱分析这种应用场景,在进行图计算时,一个节点需要用到的应用特征包括账户对应的用户的姓名及资产信息,该节点不需要用到的应用特征包括账户对应的用户的学历,一条边需要用到的应用特征包括:交易发生的地点,而该边不需要用到的应用特征包括:是否被投诉为违规交易。
因此,当需要针对一个特定的当前应用场景进行分析时,可以利用上述图4所示过程首先得到一个节点对应于当前应用场景的当前应用特征,而不是节点的全部应用特征,以及一条边对应于当前应用场景的当前应用特征,而不是边的全部应用特征,在形成了上述的特征图之后,就得到了专门适用于当前应用场景的特征图,可以理解,采用图4的方法,对于不同的应用场景,通常会得到不同的特征图,这样,再利用对应于一个应用场景的专用的特征图进行图计算,就可以有针对性地分析,得到对于该应用场景的分析结果,比如是否为赌博,或者是否出现了欺诈。
在本说明书实施例中,可以预先建立图特征库,在建模时在结构图中未使用的所有的应用特征都先保存在该图特征库中,在保存时可以按照ID号与应用特征的对应关系的方式进行保存,也就是说,对每一个节点及每一条边均分别设置对应的全局ID,这可以在全链路中唯一标识一个节点及一条边,在图特征库中,保存并动态更新每一个节点的全局ID与该节点的各应用特征之间的对应关系;同时,在图特征库中,保存并动态更新每一条边的全局ID与该边的各应用特征之间的对应关系。比如,将上述图3中节点1的全局ID与节点1的各应用特征的对应关系保存在图特征库中,将边1的全局ID与边1的各应用特征的对应关系保存在图特征库中。
当一个节点或者边对应的应用特征更新时,本说明书实施例中只需要在图特征库中进行离线方式的动态更新即可,无需更新结构图。而现有技术中,因为构建的是全链路图,一个节点或者边上加载有所有的特征,如果需要增加或者减少一个特征时,需要修改全链路的配置。可见,本说明书实施例动态更新图特征库的做法,大大降低了工作量,提升了图计算业务的灵活性。
这样,上述步骤401的一种具体实现过程包括:从图特征库中查找到对应于该节点的全局ID的各应用特征,从查找到的该各应用特征中筛选出适用于当前应用场景的当前应用特征;
上述步骤403的一种具体实现过程包括:从图特征库中查找到对应于该边的全局ID的各应用特征,从查找到的该各应用特征中筛选出适用于当前应用场景的当前应用特征。
在本说明书的实施例中,因为将所有的应用特征都先保存在图特征库中,在计算得到结构图的过程中,所有应用特征都无需通过消息传输在各节点之间传递,只需要在针对一种具体的应用场景进行业务分析计算时,再从图特征库中找出对应于此种应用场景的应用特征即可,因此,极大提高了计算效率。
结合上述图2及图4所示的过程可以看出,在本说明书实施例中,采用了先分离再挂载的方式。即,先对节点及边的所有特征进行分离,即分离出结构特征及应用特征,从而利用精简的特征得到结构图,之后,再分应用场景将分离出的特定应用特征挂载到结构图上,即进行图结构及特征的结合,从而还原出适用于一个应用场景的完整的特征图,这样就可以进行具体应用场景的图计算。
通过上述图2所示过程,得到了结构图,即知识图谱的框架结构,之后通过图4所示的过程得到了对应于每一个应用场景的特征图,这样,在本说明书实施例中,构建的知识图谱可以如图5所示(可以理解,图5中示出的特征图的数量仅仅是示意性的,其中L为正整数),包括结构图以及至少一个特征图。
在通过上述图2所示过程得到结构图之后,可以基于该结构图进行图计算,得到节点的流转路径,参见图6,该图计算的过程包括:
步骤601:得到结构图。
可以理解,结构图是利用本说明书任一实施例的方法得到的。
步骤603:加载结构图中的图结构信息;所述图结构信息包括:每一个节点、每一条边、每一个节点的结构特征值、每一条边的结构特征值、节点及边的顺序;
步骤605:利用加载的所述图结构信息进行图计算,得到流转路径。
在本步骤605中,可以针对不同的需求,利用图计算的各种方法得到节点之间的流转路径,比如遍历算法以及社区发现(Community Detection)算法等。
在本说明书一个实施例中,步骤605的具体实现过程包括:
步骤6051:加载结构图中的图结构信息;所述图结构信息为:每一个节点、每一条边、每一个节点的结构特征值、每一条边的结构特征值、节点及边的顺序;也就是说,不会加载任何节点及边的应用特征;
步骤6053:只利用加载的图结构信息进行消息传播、存储及计算,而不会利用应用特征进行消息的传播及存储。
面对目前信息量的***式增长及诸如百亿级别的图计算,基于本说明书实施例中构建的知识图谱将大大降低图计算过程中所利用的特征的数量,大大提高图计算的效率。比如,在上述图6所示的图计算的过程中,计算方不需要把海量的节点及边的所有特征的值都存储起来,而只需要存储各个节点及边的结构特征的值,因此,大大减少了对存储资源的占用。再如,在上述图6所示的图计算过程中,无需将海量的节点及边的所有特征的值在节点之间进行消息传播,而只需要将结构特征的值进行消息传播,因此,大大节约了带宽资源。又如,在上述图6所示的图计算过程中,无需将海量的节点及边的所有特征的值都参与计算过程,而只需要将结构特征的值参与计算过程,因此,大大节约了计算方的计算资源。
在利用图4所示的过程得到了对应于一个应用场景的特征图以及利用图6所示过程得到了节点之间的流转路径之后,则可以在不同的应用场景中进行不同的业务分析,参见图7,具体包括:
步骤701:得到对应于当前应用场景的特征图。
步骤703:得到利用结构图计算出的流转路径。
步骤705:利用对应于当前应用场景的特征图及流转路径,进行对应于当前应用场景的图计算。
比如,对于具有时序性质的交易类业务的图计算,通过上述步骤605的计算过程可以计算出每笔资金的完整时序流转路径,而这种时序流转路径可以在后续的多种不同的应用场景中被使用,比如对于洗钱这种违规业务,基于图7所示流程,利用对应于洗钱应用场景的特征图及上述流转路径进行图计算,得到一个用户是否涉及洗钱这种违规业务;再如,对于诈骗这种违规业务,基于图7所示流程,利用对应于诈骗应用场景的特征图及上述流转路径进行图计算,得到一个用户是否涉及诈骗这种违规业务等。
需要说明的是,本说明书实施例的方法可以应用于各种类型的知识图谱的构建及图计算。
比如,本说明书实施例的方法可以应用于具有时序性的知识图谱的构建及图计算中,如上述的具有时序性的交易类业务的知识图谱的构建及相应的图计算中。
再如,本说明书实施例的方法应用于不具有时序性的知识图谱的构建及图计算中,比如对于事件类的知识图谱的构建及图计算中。在此类知识图谱中,比如,企业可以是节点,一个事件比如发生了某产品的涨价事件可以是边,企业的ID可以是节点的结构特征,企业的其他信息比如成立时间、与其他公司是否为子公司的关系、成立地点、法人等可以是节点的应用特征;事件ID可以是边的结构特征,事件发生的时间、地点、内容等可以是边的应用特征。基于上述图2所示方法可以得到针对事件类业务的知识图谱的框架结构即结构图,然后针对不同的应用场景,比如分析一个企业的股价上涨的原因的应用场景及分析一个企业盈亏情况的应用场景,则可以基于上述图4所述的方法得到对应于不同应用场景的特征图。基于图2得到的结构图,可以得到企业之间基于事件影响关系的流转路径,基于图4得到的特征图及图6得到的流转路径,可以针对一个应用场景分析事件影响的根本原因。
在本说明书的一个实施例中,提供了一种知识图谱的构建装置,参见图8,该装置包括:
模型建立模块801,配置为将每一个第一类型的业务数据建模成图中的一个节点;将每一个第二类型的业务数据建模成图中的一条边;
结构特征筛选模块802,配置为根据预先确定的对应于第一类型的业务数据的结构特征,得到对应于每一个节点的结构特征值;根据预先确定的对应于第二类型的业务数据的结构特征,得到对应于每一条边的结构特征值;其中,所述结构特征为在至少两个应用场景中通用的特征;
结构图构建模块803,配置为利用每一个节点及该节点的结构特征值、每一条边及该边的结构特征值进行建模,得到结构图,结构图中的每一个节点及每一条边均挂载有对应的结构特征值。
参见图9,在本说明书装置的一个实施例中,进一步包括:
应用特征筛选模块901,配置为针对结构图中的每一个节点,从对应于该节点的各应用特征中得到对应于当前应用场景的当前应用特征;针对结构图中的每一条边,从对应于该边的各应用特征中得到对应于当前应用场景的当前应用特征;其中,所述应用特征与所述结构特征不同;
特征图构建模块902,配置为针对结构图中的每一个节点,将对应该节点的当前应用特征的特征值挂载到该节点上,针对结构图中的每一条边,将对应该边的当前应用特征的特征值挂载到该边上,以形成对应于当前应用场景的特征图。
在结合图9描述的本说明书装置的一个实施例中,可以进一步包括图特征库;其中,
图特征库,用于保存并动态更新每一个节点的全局ID与该节点的各应用特征之间的对应关系,以及保存并动态更新每一条边的全局ID与该边的各应用特征之间的对应关系;
应用特征筛选模块901,配置为执行:从图特征库中查找到对应于该节点的全局ID的各应用特征,从查找到的该各应用特征中筛选出适用于当前应用场景的当前应用特征;从图特征库中查找到对应于该边的全局ID的各应用特征,从查找到的该各应用特征中筛选出适用于当前应用场景的当前应用特征。
在本说明书装置的一个实施例中,该装置应用于具有时序性的知识图谱的构建中,具体可以是具有时序性的交易类业务的知识图谱的构建中;
所述第一类型的业务数据包括:账户信息;
所述第二类型的业务数据包括:交易行为;
节点的结构特征包括:账户ID;
边的结构特征包括如下中的至少一项:时间、交易ID、金额。
在本说明书一个实施例中,还提出了一种图计算装置,参见图10,该装置包括:
知识图谱的构建装置1001;其中,知识图谱的构建装置1001采用本说明书任一实施例提供的如结合图8或者图9描述的知识图谱的构建装置实现;
流转路径计算模块1002,配置为加载结构图中的图结构信息;所述图结构信息包括:每一个节点、每一条边、每一个节点的结构特征值、每一条边的结构特征值、节点及边的顺序;利用加载的所述图结构信息进行图计算,得到流转路径。
当图计算装置中采用结合图9描述的知识图谱的构建装置实现时,参见图11,图计算装置可以进一步包括:
业务分析模块1101,配置为利用对应于当前应用场景的特征图及所述流转路径,进行对应于当前应用场景的图计算。
本说明书一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行说明书中任一个实施例中的方法。
本说明书一个实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现执行说明书中任一个实施例中的方法。
可以理解的是,本说明书实施例示意的结构并不构成对本说明书实施例的装置的具体限定。在说明书的另一些实施例中,上述装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置、***内的各模块之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (11)

1.知识图谱的构建方法,其中,该方法应用于具有时序性的知识图谱的构建中;包括:
将每一个第一类型的业务数据建模成图中的一个节点;
将每一个第二类型的业务数据建模成图中的一条边;
根据预先确定的对应于第一类型的业务数据的结构特征,得到对应于每一个节点的结构特征值;
根据预先确定的对应于第二类型的业务数据的结构特征,得到对应于每一条边的结构特征值;
其中,所述结构特征为在至少两个应用场景中通用的、被用于进行至少两种应用场景的业务分析计算的特征;且所述结构特征是所述业务数据的所有特征中的一部分特征;
利用每一个节点及该节点的结构特征值、每一条边及该边的结构特征值进行建模,得到结构图;该结构图是在所述至少两个应用场景中通用的知识图谱。
2.根据权利要求1所述的方法,其中,在所述得到结构图后,进一步包括:
针对结构图中的每一个节点,从对应于第一类型的业务数据的各应用特征中得到对应于当前应用场景的当前应用特征;
针对结构图中的每一条边,从对应于第二类型的业务数据的各应用特征中得到对应于当前应用场景的当前应用特征;
其中,所述应用特征与所述结构特征不同;
针对结构图中的每一个节点,将对应该节点的当前应用特征的特征值挂载到该节点上,针对结构图中的每一条边,将对应该边的当前应用特征的特征值挂载到该边上,以形成对应于当前应用场景的特征图。
3.根据权利要求2所述的方法,其中,
该方法进一步包括:对每一个节点及每一条边均设置对应的全局ID;在图特征库中,保存并动态更新每一个节点的全局ID与该节点的各应用特征之间的对应关系,以及保存并动态更新每一条边的全局ID与该边的各应用特征之间的对应关系;
则,所述从对应于该节点的各应用特征中得到对应于当前应用场景的当前应用特征,包括:从图特征库中查找到对应于该节点的全局ID的各应用特征,从查找到的该各应用特征中筛选出适用于当前应用场景的当前应用特征;
则所述从对应于该边的各应用特征中得到对应于当前应用场景的当前应用特征,包括:从图特征库中查找到对应于该边的全局ID的各应用特征,从查找到的该各应用特征中筛选出适用于当前应用场景的当前应用特征。
4.根据权利要求1所述的方法,其中,该方法应用于具有时序性的交易类业务的知识图谱的构建中;
则所述第一类型的业务数据包括:账户信息;
所述第二类型的业务数据包括:交易行为;
所述节点的结构特征包括:账户ID;
所述边的结构特征包括如下中的至少一项:时间、交易ID、金额。
5.图计算方法,其中包括:
利用权利要求1至4中任一所述的方法得到结构图;
加载结构图中的图结构信息;所述图结构信息包括:每一个节点、每一条边、每一个节点的结构特征值、每一条边的结构特征值、节点及边的顺序;
利用加载的所述图结构信息进行图计算,得到流转路径。
6.根据权利要求5所述的方法,当利用权利要求2所述的方法得到结构图之后,该图计算方法进一步包括:
利用对应于当前应用场景的特征图及所述流转路径,进行对应于当前应用场景的图计算。
7.知识图谱的构建装置,该装置应用于具有时序性的知识图谱的构建中,其中,包括:
模型建立模块,配置为将每一个第一类型的业务数据建模成图中的一个节点;将每一个第二类型的业务数据建模成图中的一条边;
结构特征筛选模块,配置为根据预先确定的对应于第一类型的业务数据的结构特征,得到对应于每一个节点的结构特征值;根据预先确定的对应于第二类型的业务数据的结构特征,得到对应于每一条边的结构特征值;其中,所述结构特征为在至少两个应用场景中通用的、被用于进行至少两种应用场景的业务分析计算的特征;且所述结构特征是所述业务数据的所有特征中的一部分特征;
结构图构建模块,配置为利用每一个节点及该节点的结构特征值、每一条边及该边的结构特征值进行建模,得到结构图;该结构图是在所述至少两个应用场景中通用的知识图谱。
8.根据权利要求7所述的装置,进一步包括:
应用特征筛选模块,配置为针对结构图中的每一个节点,从对应于该节点的各应用特征中得到对应于当前应用场景的当前应用特征;针对结构图中的每一条边,从对应于该边的各应用特征中得到对应于当前应用场景的当前应用特征;其中,所述应用特征与所述结构特征不同;
特征图构建模块,配置为针对结构图中的每一个节点,将对应该节点的当前应用特征的特征值挂载到该节点上,针对结构图中的每一条边,将对应该边的当前应用特征的特征值挂载到该边上,以形成对应于当前应用场景的特征图。
9.图计算装置,其中,包括:
权利要求7或8所述的知识图谱的构建装置;以及
流转路径计算模块,配置为加载结构图中的图结构信息;所述图结构信息包括:每一个节点、每一条边、每一个节点的结构特征值、每一条边的结构特征值、节点及边的顺序;利用加载的所述图结构信息进行图计算,得到流转路径。
10.根据权利要求9所述的装置,当包括权利要求8所述的知识图谱的构建装置时,所述图计算装置进一步包括:
业务分析模块,配置为利用对应于当前应用场景的特征图及所述流转路径,进行对应于当前应用场景的图计算。
11.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-6中任一项所述的方法。
CN202210191557.2A 2022-03-01 2022-03-01 知识图谱的构建方法和装置、图计算方法及装置 Active CN114282011B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210191557.2A CN114282011B (zh) 2022-03-01 2022-03-01 知识图谱的构建方法和装置、图计算方法及装置
PCT/CN2023/071509 WO2023165271A1 (zh) 2022-03-01 2023-01-10 知识图谱的构建、和图计算

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210191557.2A CN114282011B (zh) 2022-03-01 2022-03-01 知识图谱的构建方法和装置、图计算方法及装置

Publications (2)

Publication Number Publication Date
CN114282011A CN114282011A (zh) 2022-04-05
CN114282011B true CN114282011B (zh) 2022-08-23

Family

ID=80882175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210191557.2A Active CN114282011B (zh) 2022-03-01 2022-03-01 知识图谱的构建方法和装置、图计算方法及装置

Country Status (2)

Country Link
CN (1) CN114282011B (zh)
WO (1) WO2023165271A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282011B (zh) * 2022-03-01 2022-08-23 支付宝(杭州)信息技术有限公司 知识图谱的构建方法和装置、图计算方法及装置
CN114491085B (zh) * 2022-04-15 2022-08-09 支付宝(杭州)信息技术有限公司 一种图数据存储方法和分布式图数据计算方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10496678B1 (en) * 2016-05-12 2019-12-03 Federal Home Loan Mortgage Corporation (Freddie Mac) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
CN112215500A (zh) * 2020-10-15 2021-01-12 支付宝(杭州)信息技术有限公司 账号关系识别方法及装置
WO2021032002A1 (zh) * 2019-08-20 2021-02-25 星环信息科技(上海)股份有限公司 基于异构分布式知识图谱的大数据处理方法、设备及介质
CN112463991A (zh) * 2021-02-02 2021-03-09 浙江口碑网络技术有限公司 历史行为数据的处理方法、装置、计算机设备及存储介质
CN113312494A (zh) * 2021-05-28 2021-08-27 中国电力科学研究院有限公司 垂直领域知识图谱构建方法、***、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334130B (zh) * 2019-07-09 2021-11-23 北京万维星辰科技有限公司 一种交易数据的异常检测方法、介质、装置和计算设备
CN110414987B (zh) * 2019-07-18 2022-03-11 中国工商银行股份有限公司 账户集合的识别方法、装置和计算机***
US11853904B2 (en) * 2020-03-26 2023-12-26 Accenture Global Solutions Limited Agnostic creation, version control, and contextual query of knowledge graph
CN111324643B (zh) * 2020-03-30 2023-08-29 北京百度网讯科技有限公司 知识图谱的生成方法、关系挖掘方法、装置、设备和介质
CN111522967B (zh) * 2020-04-27 2023-09-15 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备以及存储介质
CN111930774B (zh) * 2020-08-06 2024-03-29 全球能源互联网研究院有限公司 一种电力知识图谱本体自动构建方法及***
CN112256927B (zh) * 2020-10-21 2024-06-04 网易(杭州)网络有限公司 基于属性图的知识图谱数据处理方法和装置
CN112966118A (zh) * 2021-02-04 2021-06-15 中铁信(北京)网络技术研究院有限公司 一种运维知识图谱构建方法
AU2021104731A4 (en) * 2021-07-30 2021-10-07 Ansu, Alok DR Business Aligned Knowledge Management System from Unstructured data using Convolutional Neural Network
CN114282011B (zh) * 2022-03-01 2022-08-23 支付宝(杭州)信息技术有限公司 知识图谱的构建方法和装置、图计算方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10496678B1 (en) * 2016-05-12 2019-12-03 Federal Home Loan Mortgage Corporation (Freddie Mac) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
WO2021032002A1 (zh) * 2019-08-20 2021-02-25 星环信息科技(上海)股份有限公司 基于异构分布式知识图谱的大数据处理方法、设备及介质
CN112215500A (zh) * 2020-10-15 2021-01-12 支付宝(杭州)信息技术有限公司 账号关系识别方法及装置
CN112463991A (zh) * 2021-02-02 2021-03-09 浙江口碑网络技术有限公司 历史行为数据的处理方法、装置、计算机设备及存储介质
CN113312494A (zh) * 2021-05-28 2021-08-27 中国电力科学研究院有限公司 垂直领域知识图谱构建方法、***、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Scene parsing using region-based generative models;Boutell,Matthew R.等;《IEEE TRANSACTIONS ON MULTIMEDIA》;20070131;第136-146页 *
知识图谱构建若干关键技术及公共安全领域应用研究;宋次剑;《中国优秀硕士学位论文全文数据库(电子期刊)》;20210815;第G110-2页 *

Also Published As

Publication number Publication date
WO2023165271A1 (zh) 2023-09-07
CN114282011A (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN114282011B (zh) 知识图谱的构建方法和装置、图计算方法及装置
CN111083013B (zh) 基于流量回放的测试方法、装置、电子设备及存储介质
CN111951052A (zh) 基于知识图谱的获取潜在客户方法及装置
CN110197426B (zh) 一种信用评分模型的建立方法、装置及可读存储介质
CN114022151A (zh) 区块链数据可视化方法、***、电子设备和存储介质
CN112925664A (zh) 目标用户的确定方法、装置、电子设备及存储介质
CN113360210A (zh) 数据对账方法、装置、计算机设备和存储介质
CN110991992B (zh) 业务流程信息的处理方法和装置、存储介质和电子设备
CN112541765A (zh) 用于检测可疑交易的方法和装置
CN115563160A (zh) 数据处理方法、装置、计算机设备和计算机可读存储介质
CN111429125B (zh) 账户管理方法、装置、存储介质及电子设备
CN112907009B (zh) 标准化模型的构建方法、装置、存储介质及设备
CN110597572B (zh) 一种服务调用关系分析方法和计算机***
CN111737729A (zh) 基于业务数据区块链的评价数据存储方法及***
CN113327111A (zh) 一种网络金融交易风险的评估方法及***
CN112291241A (zh) 防火墙开墙方法、防火墙开墙装置及终端设备
CN116703184B (zh) 数据处理方法、数据处理装置、电子设备及可读存储介质
US11275782B2 (en) Digital systems and methods for a consolidated transfer matrix
CN111277445B (zh) 一种评估在线节点服务器性能的方法及装置
CN113824847A (zh) 计费异常的确定方法、装置、计算设备及计算机存储介质
CN114240511A (zh) 用户积分处理方法、装置、设备、介质和程序产品
CN116703505A (zh) 一种订单信息的判断方法及装置
CN113965900A (zh) 流量资源动态扩容的方法、装置、计算设备及存储介质
CN117033372A (zh) 一种用于监管报送的数据处理方法及装置
CN115018557A (zh) 数据对象的处理方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant